CN115023732A - 信息处理装置、信息处理方法和信息处理程序 - Google Patents

信息处理装置、信息处理方法和信息处理程序 Download PDF

Info

Publication number
CN115023732A
CN115023732A CN202180011412.3A CN202180011412A CN115023732A CN 115023732 A CN115023732 A CN 115023732A CN 202180011412 A CN202180011412 A CN 202180011412A CN 115023732 A CN115023732 A CN 115023732A
Authority
CN
China
Prior art keywords
finger
information processing
information
processing apparatus
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180011412.3A
Other languages
English (en)
Inventor
西冈勇人
奥贵纪
古屋晋一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN115023732A publication Critical patent/CN115023732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种信息处理装置(100),设置有:估计单元(132),该估计单元(132)基于图像信息来估计关于手指的姿势的时间序列信息,该图像信息包括对象和相对于对象的手指移动,该移动包括相对于对象的手指接触移动。估计单元(132)通过使用第一机器学习模型来估计关于手指的姿势的时间序列信息,该第一机器学习模型是通过学习而获得的以基于包括对象和手指移动的图像信息来估计关于手指的姿势的时间序列信息。

Description

信息处理装置、信息处理方法和信息处理程序
技术领域
本发明涉及信息处理装置、信息处理方法和信息处理程序。
背景技术
传统上,为了向其他人(学生等)传输乐器表演者、传统工艺工人、厨师等的手指的优秀精细操作并支持其他人的熟练度,已知一种记录并再现手指的操作的技术。例如,提出了一种技术,其中,根据在多个投影方向上投影的手指的图像,指定表示在多个投影方向上存在关于手指的关注点的概率的概率图,并且根据多个指定的概率图,估计关于手指的关注点的三维位置。
现有技术文献
专利文献
专利文献1:WO 2018/083910 A
发明内容
本发明要解决的技术问题
然而,在上述传统技术中,并不总是能够适当地估计手指的姿势。例如,在上述现有技术中,仅估计手指的关注点的三维位置,不必适当地估计手指的姿势。
因此,本公开提出了一种能够适当地估计手指的姿势的信息处理装置、信息处理方法以及信息处理程序。
问题的解决方案
为了解决上述问题,一种信息处理装置包括:
估计单元,基于图像信息估计关于手指的姿势的时间序列信息,所述图像信息包括:对象、和包括手指相对于对象的接触操作的手指相对于对象的操作。
附图说明
图1是示出根据本公开的第一实施方式的信息处理的示例的图。
图2为示出根据本实施方式的信息处理系统的配置示例的图。
图3是示出根据本实施方式的信息处理装置的配置示例的图。
图4是用于描述根据本实施方式的信息处理系统的操作示例的图。
图5是示出根据本实施方式的相机和照明的布置示例的图。
图6是示出根据本实施方式的一组相机布置和捕获图像的示例的图。
图7是示出根据本实施方式的包括在捕获图像中的手的特征点的二维位置的示例的图。
图8是示出根据本实施方式的包括在捕获图像中的手的特征点的二维位置的示例的图。
图9是示出根据本实施方式的包括在捕获图像中的手的特征点的二维位置的示例的图。
图10是示出根据本实施方式的关于手指的姿势的信息的呈现示例的图。
图11是示出根据本实施方式的关于手指的姿势的信息的呈现示例的图。
图12是用于描述根据本实施方式的变形例的信息处理系统的操作示例的图。
图13是用于描述钢琴演奏中的手指传递方法的简图。
图14是示出根据本公开的第二实施方式的信息处理系统的配置示例的图。
图15是示出根据本实施方式的传感器信息处理装置的配置示例的图。
图16是示出根据本实施方式的信息处理装置的配置示例的图。
图17是用于描述根据本实施方式的信息处理系统的操作示例的图。
图18是示出根据本实施方式的IMU传感器的安装示例的图。
图19是示出根据本实施方式的IMU传感器的安装示例的图。
图20是示出根据本公开的第三实施方式的信息处理系统的配置示例的示意图。
图21是示出根据本实施方式的传感器信息处理装置的配置示例的图。
图22是示出根据本实施方式的信息处理装置的配置示例的图。
图23是用于描述根据本实施方式的信息处理系统的操作示例的图。
图24是用于描述根据本实施方式的通过可穿戴相机感测的概要的图。
图25是用于描述根据本实施方式的可穿戴相机的结构的图。
图26是用于描述根据本实施方式的变形例的信息处理系统的操作示例的图。
图27为示出根据本公开的第四实施方式的信息处理系统的配置示例的示意图。
图28是示出根据本实施方式的信息处理装置的配置示例的图。
图29是用于描述根据本实施方式的信息处理系统的操作示例的图。
图30是用于描述根据本实施方式的手指相对于对象的接触操作的图。
图31是用于描述根据本实施方式的手指的关节角的估计处理的图。
图32是示出实现信息处理装置的功能的计算机的示例的硬件配置图。
具体实施方式
在下文中,将参考附图详细描述本公开的实施方式。另外,在以下的各实施方式中,对相同部分标注相同标号并省略重复说明。
将根据以下物品顺序描述本披露。
0.介绍
1.第一实施方式
1.1.信息处理系统的概要
1.2.信息处理系统的配置示例
1.3.信息处理装置的配置示例
1.4.信息处理系统的操作示例
1.5.相机和照明的布置示例
1.6.一组相机布置和捕获图像的示例
1.7.手的特征点的二维位置
1.8.关于手指的姿势的信息的呈现示例
1.9.变形例
2.第二实施方式
2.1.钢琴表演的手指传递方法
2.2.信息处理系统的配置示例
2.3.传感器信息处理装置的配置示例
2.4.信息处理装置的配置示例
2.5.信息处理系统的操作示例
2.6.IMU传感器的安装示例
3.第三实施方式
3.1.信息处理系统的配置示例
3.2.传感器信息处理装置的配置示例
3.3.信息处理装置的配置示例
3.4.信息处理系统的操作示例
3.5.可穿戴相机感测的概述
3.6.可穿戴相机的结构
3.7.变形例
4.第四实施方式
4.1.信息处理系统的配置示例
4.2.信息处理系统的操作示例
4.3.信息处理装置的配置示例
4.4.手指相对于对象的接触操作
4.5.用于估计手指的关节角的处理
5.效果
6.硬件配置
[0.介绍]
记录并再现乐器表演者、传统工艺工人、厨师等的手指的优秀精细操作在向其他人(例如学生)传输技术人员的技能方面是非常重要的。此外,在熟练的帮助下,记录高速手指运动并将该运动呈现给用户以用于直观地传输隐式知识是非常有效的。
然而,高速和精细手指运动记录需要高空间分辨率和高时间分辨率。传统上,存在许多强调手势识别的情况,但是其并不总是能够以高准确度识别手指的运动。
因此,根据本公开的实施方式的信息处理系统将拍摄范围缩小至手的操作范围,将多个高速相机安装在环境中的平面上,从高速相机拍摄的图像中估计手的每个特征点的二维位置等,并且基于该特征点的估计的二维位置等来估计手指的姿势。因此,信息处理系统可在不将传感器或标记安装在手指的关节等上的情况下估计手指的姿势。即,在不会由于传感器、标记等的安装而阻碍手指的操作的情况下,信息处理系统可以估计手指的姿势。因此,信息处理系统能够适当地估计手指的姿势。
[1.第一实施方式]
[1.1.信息处理系统的概要]
此处,将参考图1描述根据本公开的第一实施方式的信息处理的概要。图1是示出根据本公开的第一实施方式的信息处理的示例的图。
在图1所示的示例中,三个高速相机C1至C3安装在钢琴键盘的两侧及键盘的上方,并且三个高速相机C1至C3中的每个从每个相机的位置拍摄演奏钢琴的演奏者的手。例如,三个高速相机C1至C3中的每个拍摄手指相对于键盘的键击操作或者手指相对于键盘的位置移动的移动操作。
传感器信息处理装置10获取从三个高速相机C1至C3的相应位置拍摄的三个运动图像中的每一个。在获取三个运动图像时,传感器信息处理装置10将获取的三个运动图像发送到信息处理装置100。
信息处理装置100基于包括:对象、和包括手指相对于对象的接触操作的手指相对于对象的操作的图像信息,来估计关于手指的姿势的时间序列信息。在图1中,对象是键盘,并且手指相对于对象的操作是手指相对于键盘的键击操作或手指相对于键盘的位置移动的移动操作。
具体地,信息处理装置100的估计单元132针对每个相机的每个移动图像(在下文中,也被称为传感器图像)估计包括在每个相机的移动图像中的手指关节、手掌、手背和手腕的特征点的二维位置。例如,信息处理装置100的估计单元132通过使用机器学习模型M1估计包括在每个相机的移动图像中的手指关节、手掌、手背以及手腕的特征点的二维位置,该机器学习模型M1提前学习以便估计包括在每个相机的移动图像中的手指关节、手掌、手背以及手腕的特征点的二维位置。
随后,信息处理装置100的估计单元132基于包括在每个相机的移动图像中的手指关节、手掌、手背以及手腕的特征点的估计的二维位置来估计手指关节、手掌、手背以及手腕的特征点的三维位置。随后,信息处理装置100的估计单元132基于手指关节、手掌、手背以及手腕的特征点的三维位置来估计手指的姿势的时间序列信息。更具体地,信息处理装置100的估计单元132估计包括在每个相机的移动图像中的手指的每个关节或每个指尖、手掌、手背或手腕的特征点的位置、速度、加速度或轨迹,或者手指的每个关节的角度、角速度或角加速度(在下文中,也被称为三维特征量)的时间序列信息,作为手指的姿势的时间序列信息。
随后,信息处理装置100的估计单元132将手指的三维特征量的估计的时间序列信息存储在存储单元120的三维特征量数据库123中。此外,信息处理装置100参考三维特征量数据库123将三维特征量的时间序列信息发送到应用服务器200。
应用服务器200获取三维特征量的时间序列信息。基于所获取的三维特征量的时间序列信息,应用服务器200生成使得可以视觉识别三维特征量的时间序列信息的图像。注意,应用服务器200可以生成其中三维特征量的时间序列信息可以与声音一起输出的内容。应用服务器200将生成的内容分发给用户的终端设备300。
终端设备300显示使得可以视觉识别三维特征量的时间序列信息的图像。此外,终端设备300可以将三维特征量的时间序列信息与声音一起输出。
[1.2.信息处理系统的配置示例]
接下来,参照图2,描述根据本公开的第一实施方式的信息处理系统的配置。图2为示出根据本公开第一实施方式的信息处理系统的配置示例的示意图。如图2所示,根据第一实施方式的信息处理系统1包括传感器信息处理装置10、信息处理装置100、应用服务器200和终端设备300。
图2中所示的各种设备经由网络N(例如,互联网)以有线或无线方式可通信地连接。要注意的是,在图2中所示的信息处理系统1可包括任意数量的传感器信息处理装置10、任意数量的信息处理装置100、任意数量的应用服务器200以及任意数量的终端设备300。
传感器信息处理装置10从高速单色相机或高速红外相机获取由该高速单色相机或高速红外相机拍摄的图像。传感器信息处理装置10获取包括对象和手指相对于对象的操作(包括手指相对于对象的接触操作)的图像。此外,当从相机获取图像时,传感器信息处理装置10将包括对象和手指相对于对象的操作(包括手指相对于对象的接触操作)的图像信息传输至信息处理装置100。
信息处理装置100从传感器信息处理装置10获取图像信息,该图像信息包括对象和手指相对于对象的操作(包括手指相对于对象的接触操作)。随后,信息处理装置100基于包括手指相对于对象的操作(包括手指相对于对象的接触操作)和对象的图像信息来估计关于手指的姿势的时间序列信息。此外,信息处理装置100将估计的关于手指的姿势的时间序列信息传输至应用服务器200。应注意,传感器信息处理装置10和信息处理装置100可以是集成装置。在这种情况下,信息处理装置100从高速单色相机或高速红外相机获取由高速单色相机或高速红外相机拍摄的图像。信息处理装置100获取包括对象和手指相对于对象的操作(包括手指相对于对象的接触操作)的图像。
应用服务器200从信息处理装置100获取由信息处理装置100估计的关于手指的姿势的时间序列信息。当获取关于手指的姿势的时间序列信息时,应用服务器200生成用于向用户呈现关于手指的姿势的时间序列信息的内容(例如,运动图像或语音)。当生成内容时,应用服务器200将生成的内容分发给终端设备300。
终端设备300是由用户使用的信息处理装置。终端设备300由例如智能电话、平板终端、笔记本式个人计算机(PC)、移动电话、个人数字助理(PDA)等实现。此外,终端设备300包括具有触摸面板功能的屏幕(例如液晶显示器),并使用手指、触笔等从用户接收对内容(例如屏幕上显示的图像)的各种操作(例如轻击操作、滑动操作和滚动操作)。此外,终端设备300包括扬声器并输出语音。
终端设备300从应用服务器200接收内容。当接收内容时,终端设备300在屏幕上显示所接收的内容(例如,运动图像)。此外,终端设备300在屏幕上显示运动图像并根据运动图像输出声音(例如,钢琴声音)。
[1.3.信息处理装置的配置示例]
接下来,将参考图3描述根据本公开的第一实施方式的信息处理装置的配置。图3是示出根据本发明的第一实施方式的信息处理装置的配置示例的图。如图3所示,根据第一实施方式的信息处理装置100包括通信单元110、存储单元120和控制单元130。
(通信单元110)
通信单元110经由网络N与外部信息处理装置(例如传感器信息处理装置10、应用服务器200或终端设备300)无线通信。通信单元110由例如网络接口卡(NIC)、天线等实现。网络N可以是例如互联网或电话网络的公共通信网络,或者可以是设置在例如局域网(LAN)或广域网(WAN)的有限区域中的通信网络。注意,网络N可以是有线网络。在这种情况下,通信单元110与外部信息处理装置执行有线通信。
(存储单元120)
存储单元120由例如半导体存储元件(例如随机存取存储器(RAM)或闪存)或存储设备(例如硬盘或光盘)实现。存储单元120存储各种程序、设置数据等。如图3所示,存储单元120包括传感器数据库121、模型数据库122以及三维特征量数据库123。
(传感器数据库121)
传感器数据库121存储从传感器信息处理装置10获取的图像信息。具体地,传感器数据库121存储关于包括手指相对于对象的操作(包括手指相对于对象的接触操作)和对象的图像的信息。
(模型数据库122)
模型数据库122存储关于机器学习模型的信息。具体地,模型数据库122存储关于第一机器学习模型的信息,该第一机器学习模型进行学习以基于包括对象和手指的操作的图像信息(手指的三维特征量的时间序列信息),来估计关于手指的姿势的时间序列信息。例如,模型数据库122存储第一机器学习模型的模型数据MDT1。
模型数据MDT1可以包括包括手指的操作和对象的图像信息输入到的输入层、输出层、属于从输入层到输出层而不是输出层的任何层的第一元素、以及第二元素,该第二元素的值是基于第一元素和第一元素的权重计算的,并且该模型数据MDT1可运行信息处理装置100使得信息处理装置100根据输入到输入层的图像信息从输出层中输出手指的三维特征量的时间序列信息,该手指包括在输入到输入层的图像信息中。
此处,假设模型数据MDT1通过由“y=a1*x1+a2*x2+...+ai*xi”。在这种情况下,包括在模型数据MDT1中的第一元素对应于例如x1和x2的输入数据(xi)。此外,第一元素的权重对应于与xi相对应的系数ai。这里,回归模型可以被视为具有输入层和输出层的简单感知器。当每个模型被认为是简单的感知器时,第一元素可以被认为是包括在输入层中的任何节点,并且第二元素可以被认为是包括在输出层中的节点。
此外,假设模型数据MDT1由具有一个或多个中间层的神经网络(例如深度神经网络(DNN))实现。在这种情况下,包括在模型数据MDT1中的第一元素对应于包括在输入层或中间层中的任何节点。此外,第二元素对应于下一阶段的节点,该下一阶段的节点是从对应于第一元素的节点向其传输值的节点。此外,第一元素的权重对应于连接系数,该连接系数是针对从与第一元素相对应的节点传送到与第二元素相对应的节点的值而考虑的权重。
信息处理装置100使用具有任意结构的模型(例如上述回归模型或神经网络)计算包括在图像信息中的手指的三维特征量的时间序列信息。具体地,在模型数据MDT1中,当输入包括手指的操作和对象的图像信息时,设置系数以输出包括在图像信息中的手指的三维特征量的时间序列信息。信息处理装置100使用这样的模型数据MDT1计算手指的三维特征量的时间序列信息。
(三维特征量数据库123)
三维特征量数据库123存储三维特征量的时间序列信息,该三维特征量是包括在每个相机的运动图像中的手指的每个关节或每个指尖、手掌、手背或手腕的特征点的位置、速度、加速度或轨迹、或手指的每个关节的角度、角速度或角加速度。
(控制单元130)
控制单元130通过中央处理单元(CPU)、微处理单元(MPU)等使用RAM作为工作区来执行存储在信息处理装置100内的存储设备中的各种程序(对应于信息处理程序的示例)来实现。此外,控制单元130由例如例如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的集成电路实现。
如图3所示,控制单元130包括获取单元131、估计单元132和提供单元133,并且实现或执行以下描述的信息处理的动作。要注意的是,控制单元130的内部配置不限于在图3中所示的配置,并且可以是另一个配置,只要执行稍后描述的信息处理。
(获取单元131)
获取单元131获取包括手指相对于对象的操作(包括手指相对于对象的接触操作)和对象的图像信息。具体地,获取单元131从传感器信息处理装置10获取图像信息。更具体地,获取单元131获取通过被安装以从多个不同方向拍摄对象的多个相机中的每一个所获取的多条图像信息。例如,获取单元131获取由安装在对象的两侧上以及对象上方的三个或更多个相机拍摄的多条图像信息。
(估计单元132)
估计单元132基于包括手指相对于对象的操作(包括手指相对于对象的接触操作)和对象的图像信息来估计关于手指的姿势的时间序列信息。具体地,估计单元132估计手指的三维特征量的时间序列信息作为关于手指的姿势的时间序列信息。例如,估计单元132估计手指的每个关节或每个指尖、手掌、手背或手腕的特征点的位置、速度、加速度或轨迹、或者手指的每个关节的角度、角速度或角加速度的时间序列信息,作为关于手指的姿势的时间序列信息。
更具体地,估计单元132针对每个相机的每个运动图像估计包括在每个相机的运动图像中的手指关节、手掌、手背和手腕的特征点的二维位置。例如,估计单元132通过使用机器学习模型来估计包括在每个相机的运动图像中的手指关节、手掌、手背以及手腕的特征点的二维位置,该机器学习模型提前学习以估计包括在每个相机的运动图像中的手指关节、手掌、手背以及手腕的特征点的二维位置。
随后,估计单元132基于包括在每个相机的移动图像中的手指关节、手掌、手背以及手腕的特征点的估计的二维位置来估计手指关节、手掌、手背以及手腕的特征点的三维位置。随后,估计单元132基于手指关节、手掌、手背以及手腕的特征点的三维位置估计手指的姿势的时间序列信息。更具体地,估计单元132估计包括在每个相机的移动图像中的手指或每个指尖、手掌、手背或手腕的每个关节的特征点的位置、速度、加速度或轨迹、或者手指的每个关节的角度、角速度或角加速度(在下文中,也称为三维特征量)的时间序列信息作为手指的姿势的时间序列信息。
此外,估计单元132可以通过使用第一机器学习模型来估计关于手指的姿势的时间序列信息,其中,第一机器学习模型进行学习以基于包括手指操作和对象的的图像信息来估计关于手指的姿势的时间序列信息。例如,估计单元132将包括手指的操作和对象的图像信息输入至第一机器学习模型,并且估计包括在每个相机的移动图像中的手指或每个指尖、手掌、手背或手腕的每个关节的特征点的位置、速度、加速度或轨迹、或者手指的每个关节的角度、角速度或角加速度(在下文中,也被称为三维特征量)的时间序列信息,作为手指的姿势的时间序列信息。
(提供单元133)
提供单元133为用户提供由估计单元132估计的关于手指的姿势的时间序列信息。具体地,当参考三维特征量数据库123获取关于手指的姿势的时间序列信息时,提供单元133生成用于向用户呈现关于手指的姿势的时间序列信息的内容(例如,运动图像或语音)。例如,提供单元133生成图像,在该图像中,手指的姿势和特征点的位置、速度和加速度由箭头或颜色表示。此外,提供单元133生成呈现所生成的图像和声音的内容。随后,提供单元133将生成的内容分发至终端设备300。
注意,提供单元133可以向应用服务器200发送关于手指的姿势的时间序列信息,并且经由应用服务器200向用户提供关于手指的姿势的时间序列信息。
[1.4.信息处理系统的操作示例]
接下来,将参照图4描述根据本公开的第一实施方式的信息处理系统的操作。图4是用于描述根据本发明第一实施方式的信息处理系统的操作示例的图。在图4所示的示例中,信息处理装置100通过安装在环境中的多个高速相机分别拍摄来获取传感器图像1、2、3、...。随后,信息处理装置100将获取的传感器图像1、2、3、...输入到机器学习模型M1。信息处理装置100估计包括在传感器图像1、2、3、...的每个中的手指关节、手掌、手背和手腕的特征点的二维位置中的每个,作为机器学习模型M1的输出信息。
随后,信息处理装置100基于包括在估计的传感器图像和相机参数中的手指关节、手掌、手背以及手腕的特征点的二维位置来估计手指关节、手掌、手背以及手腕的特征点的三维位置。随后,信息处理装置100基于手指关节、手掌、手背以及手腕的特征点的三维位置来估计手指的三维特征量的时间序列信息。随后,信息处理装置100将手指的三维特征量的时间序列信息存储在数据库中。
[1.5.相机和照明的布置示例]
接下来,将参照图5描述根据本公开的第一实施方式的相机和照明的布置。图5是示出根据本公开的第一实施方式的相机和照明的布置示例的图。在图5中,安装多个相机以便从多个不同方向拍摄作为对象的键盘。具体而言,在键盘的两侧及键盘的上方安装三个相机C1至C3。此外,图像信息是通过被安装以从多个不同方向拍摄对象的多个相机中的每个获取的多条图像信息。具体地,图像信息是由安装在对象的两侧以及对象上方的三个或更多个相机拍摄的多条图像信息。
在利用高速相机拍摄的情况下,光量在一般环境中通常是不足的,并且因此,安装红外线或可见光线或表面的光源以便围绕工作空间。在图5所示的示例中,相机的照明安装在围绕钢琴键盘的门状结构上。此外,三个相机C1至C3附接至围绕钢琴键盘的门状结构,并且由每个相机拍摄的的每条图像信息在通过安装在三个相机C1至C3中的每个附近的光源照亮手指的状态下被拍摄。以这种方式,多个相机附接至围绕对象的门状结构,并且多条图像信息中的每条是在通过安装在每个相机附近的光源照亮手指的状态下拍摄的多条图像信息。结果,手也被来自侧面的光照射,并且手指不被手的阴影隐藏。注意,环形灯可以附接到每个相机。另外,也可以在演奏者侧设置遮檐,使照明不会进入眼睛。
此外,在拍摄例如钢琴演奏的高速操作的情况下,有必要提高快门速度,并且期望使用单色相机或红外相机以确保光量,从而不影响演奏者。在图5中,作为高速单色相机(例如,90fps以上)的相机C1至C3附接至环境。由相机C1至C3拍摄的图像信息是由高速单色相机或高速红外相机拍摄的图像信息。注意,单色相机也通过捕获红外光更适合于高速拍摄(利用可见光增加光量影响要测量的人的操作),并且还可以使用RGB相机(在下文中,其也被称为正常相机)。此外,相机安装在框架或房间中以便位于一个平面上。因此,对极几何可以用于计算,并且可以预期计算准确度的改进。
此外,由于在钢琴演奏期间大拇指和小手指经常被手隐藏,所以相机也被布置在与拍摄方向相反的侧上。这可以覆盖拇指和小指被手隐藏。具体地,通过将相机在从平行于接地表面至大约45度的范围内在相对侧倾斜来安装相机。因此,即使当仅存在三个相机时,如图5中所示,拇指和小指也可以由两个或更多个相机跟踪,并且减少手指三维位置估计时的数据丢失。
此外,相机的成像范围缩小至可拍摄手的范围。因为相机的分辨率是有限的,所以当拍摄范围变窄时(例如,当通过2000px传感器捕获1m的范围时,分辨率是0.5mm),位置估计的分辨率和准确度提高。在图5中示出的示例中,相机C1至C3的拍摄范围是从手指的指尖到演奏者的左手H1和右手H2的手腕的范围。此外,图像信息是利用从手指的指尖到手腕的范围作为拍摄范围拍摄的图像信息。
[1.6.一组相机布置和捕获图像的示例]
接下来,将参照图6描述根据本公开的第一实施方式的一组相机布置和捕获图像。图6是示出根据本公开的第一实施方式的一组相机装置和捕获图像的示例的图。
在图6中示出的示例中,安装四个相机(1)至(4)以便从多个不同方向拍摄作为对象的键盘。具体地,四个相机(1)至(4)安装在键盘的两侧及键盘的上方。
此外,图像信息是由被安装以便从多个不同方向拍摄对象的多个相机中的每个相机获取的多条图像信息。具体地,相机(1)拍摄的图像为安装在键盘左侧的相机(1)拍摄的图像。相机(2)拍摄的图像是安装在键盘左上方的相机(2)拍摄的图像。相机(3)拍摄的图像是安装在键盘右上方的相机(3)拍摄的图像。相机(4)拍摄的图像是安装在键盘右上方的相机(4)拍摄的图像。
[1.7.手的特征点的二维位置]
接下来,将参考图7至图9描述根据本公开的第一实施方式的由每个相机捕获的图像中包括的手的特征点的二维位置。
首先,将参考图7描述根据本发明的第一实施方式的包括在捕获图像中的手的特征点的二维位置。图7是示出根据本公开的第一实施方式的包括在捕获图像中的手的特征点的二维位置的示例的图;图7示出包括在通过安装在键盘上方的相机拍摄的图像中的手的特征点的二维位置的示例。
接下来,将参考图8描述根据本公开的第一实施方式的包括在捕获图像中的手的特征点的二维位置。图8是示出根据本公开第一实施方式的包括在捕获图像中的手的特征点的二维位置的示例的图。图8示出包括在由安装在键盘的左侧的相机拍摄的图像中的手的特征点的二维位置的示例。
接下来,将参考图9描述根据本发明的第一实施方式的包括在捕获图像中的手的特征点的二维位置。图9是示出根据本公开的第一实施方式的包括在捕获图像中的手的特征点的二维位置的示例的图。图9示出包括在通过安装在键盘的右侧的相机拍摄的图像中的手的特征点的二维位置的示例。
[1.8.关于手指的姿势的信息的呈现示例]
接下来,将参照图10和图11描述根据本公开的第一实施方式的关于手指的姿势的信息的呈现。首先,将参照图10进行描述。图10是示出根据本公开第一实施方式的关于手指的姿势的信息的呈现示例的图。在图10中所示的示例中,提供单元133提供其中手指的移动轨迹由重叠线表示的图像。终端设备300显示图像,其中,通过重叠线表示手指的移动轨迹。此外,终端设备300将钢琴演奏声音与手指的移动一起输出。
接下来,将参照图11描述根据本公开的第一实施方式的关于手指的姿势的信息的呈现。图11是示出根据本公开第一实施方式的关于手指的姿势的信息的呈现示例的图。在图11中示出的示例中,提供单元133提供其中例如手指的速度和角度的时间变化由图形表示的内容。终端设备300显示内容,其中,通过图表示例如手指的速度和角度的时间变化。
[1.9.变形例]
接下来,将参照图12描述根据本公开的第一实施方式的变形例的信息处理系统的操作。图12是用于描述根据本公开的第一实施方式的变形例的信息处理系统的操作示例的图。手指的操作也出现在手背上作为肌腱的操作。因此,在图12中示出的实施方式中,估计单元132基于执行手指的操作的手的背部的图像信息估计关于手指的姿势的时间序列信息。
具体地,估计单元132通过使用第二机器学习模型来估计关于手指的姿势的时间序列信息,该第二机器学习模型进行学习以基于执行手指的操作的手的背部的图像信息来估计关于手指的姿势的时间序列信息。例如,估计单元132从由安装在环境中的高速相机拍摄的图像信息中提取手背的特征区域的图像信息。例如,估计单元132提取手背部的肌腱的一部分的图像信息作为手背部的特征区域的图像信息。随后,估计单元132使用第二机器学习模型来估计关于手指关节的角度的时间序列信息,该第二机器学习模型进行学习以基于手背的特征区域的图像信息估计关于手指关节的角度的时间序列信息。
例如,估计单元132从传感器信息处理装置10获取通过安装在环境中的高速相机拍摄的图像信息。随后,估计单元132从所获取的图像信息中提取手背的特征区域。随后,估计单元132将所提取的手背的特征区域的图像信息输入至第二机器学习模型,并且估计包括在由高速相机拍摄的图像中的关于手指关节的角度的时间序列信息。
[2.第二实施方式]
[2.1.钢琴表演的手指传递方法]
接下来,将参考图13描述钢琴演奏中的手指传递方法。图13是用于描述钢琴演奏中的手指传递方法的简图。钢琴演奏包括被称为“手指传递”的技术,其中食指跨拇指演奏,并且拇指可被隐藏。图13中所示的虚线表示当在钢琴演奏中执行手指传递方法从正上方观看手时隐藏在手掌后面并且不能看到的拇指的位置。
由于在图13中示出的“手指传递”,当拇指位于由虚线表示的位置时,附接至环境的相机难以从任何角度执行拍摄。因此,在信息处理系统2中,通过由安装在用户的手的拇指和背部上的多个IMU传感器检测的感测数据,来补充难以通过安装在环境中的相机执行拍摄的手指的姿势估计。
[2.2.信息处理系统的配置示例]
接下来,将参照图14描述根据本公开的第二实施方式的信息处理系统的配置。图14是示出根据本公开的第二实施方式的信息处理系统的配置示例的图。如图14所示,根据第二实施方式的信息处理系统2与根据第一实施方式的信息处理系统1的不同之处在于包括传感器信息处理装置20。此外,根据第二实施方式的信息处理系统2的不同之处在于包括信息处理装置100A而不是根据第一实施方式的信息处理系统1的信息处理装置100。因此,在以下描述中,将主要描述传感器信息处理装置20,并将省略包括在根据第二实施方式的信息处理系统2中的其他配置的详细描述。
在图14中示出的各种装置经由网络N(例如,互联网)以有线或无线方式可通信地连接。要注意的是,在图14中所示的信息处理系统2可包括任意数量的传感器信息处理装置10、任意数量的传感器信息处理装置20、任意数量的信息处理装置100A、任意数量的应用服务器200以及任意数量的终端设备300。
传感器信息处理装置20从多个IMU传感器中的每个获取通过安装在用户的手的拇指和背部上的该多个IMU传感器中的每个检测的感测数据。此外,传感器信息处理装置20基于从多个IMU传感器中的每个获取的感测数据来估计多个IMU传感器之间的相对姿势。当估计多个IMU传感器之间的相对姿势时,传感器信息处理装置20将关于估计的多个IMU传感器之间的相对姿势的信息传输至信息处理装置100A。
信息处理装置100A从传感器信息处理装置20获取通过多个IMU传感器中的每一个检测的感测数据。信息处理装置100A基于感测数据估计难以通过安装在环境中的相机拍摄的手指的姿势。应注意,传感器信息处理装置20和信息处理装置100A可以是集成装置。在这种情况下,信息处理装置100A从多个IMU传感器中的每个获取通过安装在用户的手的拇指和背部上的该多个IMU传感器中的每个检测的感测数据。此外,信息处理装置100A基于从该多个IMU传感器中的每个获取的感测数据估计多个IMU传感器之间的相对姿势。
[2.3.传感器信息处理装置的配置示例]
接下来,将参照图15描述根据本公开的第二实施方式的传感器信息处理装置的配置。图15是示出根据本公开第二实施方式的传感器信息处理装置的配置示例的图。在图15中所示的实施方式中,传感器信息处理装置20包括姿势估计单元和通信单元。
每个姿势估计单元从三个IMU传感器1至3中的每个获取感测数据。姿势估计单元基于从三个IMU传感器1至3中的每个IMU传感器获取的感测数据来估计三个IMU传感器1至3之间的相对姿势。在估计三个IMU传感器1至3之间的相对姿势时,姿势估计单元将与估计的姿势有关的信息输出至通信单元。
通信单元经由网络N与信息处理装置100A通信。此外,通信单元可使用由Wi-Fi(注册商标)、ZigBee(注册商标)、蓝牙(注册商标)、蓝牙低能量(注册商标)、ANT(注册商标)、ANT+(注册商标)、EnOcean Alliance(注册商标)等的通信来与信息处理装置100A进行无线通信。
通信单元从姿势估计单元获取关于三个IMU传感器1至3之间的相对姿势的信息。在获取关于在三个IMU传感器1至3之间的相对姿势的信息时,通信单元将获取的关于相对姿势的信息传输至信息处理装置100A。
[2.4.信息处理装置的配置示例]
接下来,将参照图16描述根据本公开的第二实施方式的信息处理装置的配置。图16是示出根据本公开第二实施方式的信息处理装置的配置示例的图。如图16所示,根据第二实施方式的信息处理装置100A与根据第一实施方式的信息处理装置100的不同之处在于设置了估计单元132A和传感器数据库121A,而不是估计单元132和传感器数据库121。因此,在以下描述中,将主要描述估计单元132A和传感器数据库121A,并且将省略包括在根据第二实施方式的信息处理装置100A中的其他配置的详细描述。
(传感器数据库121A)
传感器数据库121A与根据第一实施方式的信息处理装置100的传感器数据库121的不同之处在于其存储关于从传感器信息处理装置20获取的多个IMU传感器之间的相对姿势的信息。传感器数据库121A存储关于由获取单元131获取的安装在用户的手的拇指和背部上的多个IMU传感器之间的相对姿势的信息。
(估计单元132A)
估计单元132A基于由安装在用户的手的拇指和背部上的多个IMU传感器检测的感测数据估计关于用户手指的姿势的时间序列信息。具体地,估计单元132A参考传感器数据库121A获取关于安装在用户的拇指和手背上的多个IMU传感器之间的相对姿势的信息。此外,估计单元132A获取关于安装有多个IMU传感器的手指的模型的信息。
随后,估计单元132A基于关于多个IMU传感器之间的相对姿势的信息、关于手指的模型的信息以及包括在每个相机的移动图像中的关于手指关节、手掌、手背以及手腕的特征点的二维位置的估计信息来估计手指关节、手掌、手背以及手腕的特征点的三维位置。
例如,在确定预定手指的特征点不包括在每个相机的运动图像中的情况下,估计单元132A基于关于多个IMU传感器之间的相对姿势的信息和关于手指的模型的信息来估计预定手指的特征点的三维位置。此外,在预定手指的特征点包括在每个相机的移动图像中但准确度被确定为低的情况下,估计单元132A通过对基于关于多个IMU传感器之间的相对姿势的信息和关于手指模型的信息估计出的预定手指的特征点的三维位置的准确度以及基于每个相机的运动图像估计出的预定手指的特征点的三维位置的准确度进行加权和平均,来估计预定手指的特征点的三维位置。
随后,估计单元132A基于所估计的预定手指的三维位置来估计预定手指的姿势的时间序列信息。更具体地,估计单元132A估计预定手指的三维特征量的时间序列信息作为预定手指的姿势的时间序列信息。
此外,估计单元132A可针对IMU传感器所附接的手指的关节的角度增加基于关于IMU传感器的信息而估计的值的权重。此外,在存在关于附接IMU传感器的指关节的位置的传感器图像的情况下,估计单元132A可通过使用传感器图像的信息来补充位置。结果,不仅可以期望隐藏手指的位置的互补,而且可以期望提高隐藏手指关节的角度估计的准确度。
[2.5.信息处理系统的操作示例]
接下来,将参照图17描述根据本公开的第二实施方式的信息处理系统的操作。图17是用于描述根据本公开的第二实施方式的信息处理系统的操作示例的图。在图17中所示的示例中,类似于图4,信息处理装置100A获取通过安装在环境中的多个高速相机分别拍摄的传感器图像1、2、3、...。随后,信息处理装置100A将所获取的传感器图像1、2、3、...输入到机器学习模型M1。信息处理装置100A估计包括在传感器图像1、2、3、...中的每一个中的手指关节、手掌、手背和手腕的特征点的二维位置中的每一个作为机器学习模型M1的输出信息。此外,信息处理装置100A获取多个高速相机中的每一个的相机参数。
此外,在图17中,在信息处理装置100A中,信息处理装置100A获取从多个IMU传感器1、2、3、...中的每一个检测的感测数据。安装在用户的手的预定手指和背部上。随后,信息处理装置100A基于所获取的感测数据估计多个IMU传感器之间的相对姿势。此外,信息处理装置100A获取关于安装有多个IMU传感器的手指的模型的信息。
随后,信息处理装置100A基于关于多个IMU传感器之间的相对姿势的信息、关于手指的模型的信息以及包括在每个相机的移动图像中的关于手指关节、手掌、手背以及手腕的特征点的二维位置的估计信息来估计手指关节、手掌、手背以及手腕的特征点的三维位置。
例如,类似于图4,信息处理装置100A基于包括在每个相机的估计移动图像中的关于手指关节、手掌、手背和手腕的特征点的二维位置的信息,来估计手指关节、手掌、手背和手腕的特征点的三维位置。此外,在确定预定手指的特征点不包括在每个相机的移动图像中(例如,例如由手指紧握方法(finger clasping method)隐藏的拇指的手指)的情况下,信息处理装置100A基于与多个IMU传感器之间的相对姿势有关的信息和与手指的模型有关的信息,估计预定手指的特征点的三维位置。此外,在确定预定手指的特征点包括在每个相机的移动图像中但其准确度较低的情况下,信息处理装置100A通过对基于关于多个IMU传感器之间的相对姿势的信息和关于手指模型的信息估计的预定手指的特征点的三维位置的准确度以及基于每个相机的运动图像估计的预定手指的特征点的三维位置的准确度进行加权和平均,来估计预定手指的特征点的三维位置。
随后,信息处理装置100A基于所估计的手指的三维位置估计手指的姿势的时间序列信息。更具体地,信息处理装置100A估计手指的三维特征量的时间序列信息作为手指的姿势的时间序列信息。随后,信息处理装置100将手指的三维特征量的时间序列信息存储在数据库中。
[2.6.IMU传感器的安装示例]
接下来,将参考图18和图19描述根据本公开第二实施方式的IMU传感器的安装。在图18和图19中,将描述在根据第二实施方式的IMU传感器获取拇指的感测数据的情况下的佩戴示例。例如,在根据第二实施方式的IMU传感器感测拇指的情况下,IMU传感器附接至拇指的两个节点和至少一个其他位置。
首先,将参照图18进行描述。图18是示出根据本公开第二实施方式的IMU传感器的安装示例的图。在图18所示的示例中,第一IMU传感器(IMU1)附接至从拇指的IP关节至远端趾骨的范围。例如,第一IMU传感器(IMU1)具有薄且小的形状,并且能够固定到拇指的预定位置。
此外,第二IMU传感器(IMU2)附接至从拇指的MP关节到近端趾骨的范围。例如,第二IMU传感器(IMU2)是环形的,并且能够适配到拇指中。
此外,第三IMU传感器(IMU3)附接在手掌的月牙骨周围。注意,第三IMU传感器(IMU3)的附接位置不限于手掌的月牙骨周围,并且可以是任何位置,只要其在解剖学上难以移动即可。例如,第三IMU传感器(IMU3)具有薄而小的形状,并且能够固定到手掌的预定位置。
接下来,将参考图19描述根据本公开第二实施方式的IMU传感器的安装。图19是示出根据本公开第二实施方式的IMU传感器的安装示例的图。在图19所示的示例中,与图18相似,第一IMU传感器(IMU1)附接至从拇指的IP关节至远端趾骨的范围。此外,第二IMU传感器(IMU2)附接到从拇指的MP关节到近端指骨的范围。
图19与图18的不同之处在于第三IMU传感器(IMU3)附接至食指而不是手掌的月牙骨周围。在图19中,第三IMU传感器(IMU3)是环形的并且能够适配在食指上。
[3.第三实施方式]
在根据上述第二实施方式的信息处理系统2中,描述了示例,其中,通过安装在用户的手的拇指和背部上的多个IMU传感器检测的感测数据,来补充难以通过安装在环境中的相机执行拍摄的手指的姿势估计。然而,在拍摄钢琴表演的情况下,由于手指紧握等,除拇指以外的手指常常被隐藏。
例如,在拍摄钢琴的表演的情况下,当演奏者移动中指或无名指时,中指或无名指可被其他手指隐藏。因此,在根据第三实施方式的信息处理系统3中,将描述基于由附接至用户的手腕的可穿戴相机拍摄的图像信息和由安装在可穿戴相机上的IMU传感器检测的感测数据,补充由安装在环境中的相机难以拍摄的手指的姿势的估计的示例。
[3.1.信息处理系统的配置示例]
接下来,将参照图20描述根据本公开的第三实施方式的信息处理系统的配置。图20是示出根据本公开的第三实施方式的信息处理系统的配置示例的示意图。如图20所示,根据第三实施方式的信息处理系统3与根据第一实施方式的信息处理系统1的不同之处在于包括传感器信息处理装置30。此外,根据第三实施方式的信息处理系统3的不同之处在于包括信息处理装置100B而不是根据第一实施方式的信息处理系统1的信息处理装置100。因此,在以下描述中,将主要描述传感器信息处理装置30,并且将省略包括在根据第三实施方式的信息处理系统3中的其他配置的详细描述。
图20中示出的各种设备经由网络N(例如,互联网)以有线或无线方式可通信地连接。应注意,图20中示出的信息处理系统3可包括任意数量的传感器信息处理装置10、任意数量的传感器信息处理装置30、任意数量的信息处理装置100B、任意数量的应用服务器200和任意数量的终端设备300。
传感器信息处理装置30从可穿戴相机获取由附接到用户的手腕的可穿戴相机拍摄的图像信息。传感器信息处理装置30基于从包括可穿戴相机获取的图像信息估计图像中的手指的特征点的二维位置。例如,传感器信息处理装置30基于从可穿戴相机获取的图像信息来估计手指的特征点的二维位置,该二维位置是包括在图像中的手指关节或指尖的位置。在估计手指的特征点的二维位置之后,传感器信息处理装置30将关于估计的手指的特征点的二维位置的信息传输至信息处理装置100B。
此外,传感器信息处理装置30从可穿戴相机的IMU传感器获取由包括在可穿戴相机中的IMU传感器检测的感测数据。传感器信息处理装置30基于从IMU传感器获取的感测数据估计可穿戴相机的姿势。随后,传感器信息处理装置30基于所估计的可穿戴相机的姿势估计可穿戴相机的相机参数。当估计可穿戴相机的相机参数时,传感器信息处理装置30向信息处理装置100B传输关于所估计的可穿戴相机的相机参数的信息。
信息处理装置100B从传感器信息处理装置30获取关于包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息。此外,信息处理装置100B从传感器信息处理装置30获取关于可穿戴相机的相机参数的信息。信息处理装置100B基于关于包括在可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息和关于可穿戴相机的相机参数的信息估计难以通过安装在环境中的相机拍摄的手指的姿势。应注意,传感器信息处理装置30和信息处理装置100B可以是集成装置。在这种情况下,信息处理装置100B从可穿戴相机获取由附接至用户的手腕的可穿戴相机拍摄的图像信息。信息处理装置100B基于从可穿戴相机获取的图像信息估计包括在图像中的手指的特征点的二维位置。例如,信息处理装置100B基于从可穿戴相机获取的图像信息估计手指的特征点的二维位置,该二维位置是包括在图像中的手指关节或指尖的位置。此外,信息处理装置100B从可穿戴相机的IMU传感器获取由包括在可穿戴相机中的IMU传感器检测的感测数据。信息处理装置100B基于从IMU传感器获取的感测数据估计可穿戴相机的姿势。随后,信息处理装置100B基于所估计的可穿戴相机的姿势估计可穿戴相机的相机参数。
[3.2.传感器信息处理装置的配置示例]
接下来,将参照图21描述根据本公开的第三实施方式的传感器信息处理装置的配置。图21是示出根据本公开第三实施方式的传感器信息处理装置的配置示例的图。在图21中所示的实施方式中,传感器信息处理装置30包括姿势估计单元、图像处理单元和通信单元。
姿势估计单元从可穿戴相机的IMU传感器获取由包括在可穿戴相机中的IMU传感器检测的感测数据。姿势估计单元基于从IMU传感器获取的感测数据来估计可穿戴相机的姿势。随后,姿势估计单元基于可佩戴式相机的估计的姿势来估计可佩戴式相机的相机参数。当估计可佩戴式相机的相机参数时,姿势估计单元将与估计的可佩戴式相机的相机参数相关的信息输出至通信单元。
图像处理单元从可穿戴相机获取由附接至用户的手腕的可穿戴相机拍摄的图像信息。例如,图像处理单元可从可穿戴相机获取由深度传感器拍摄的图像信息。图像处理单元基于从可穿戴相机获取的图像信息估计图像中包括的手指的特征点的二维位置。例如,图像处理单元通过使用机器学习模型来估计包括在图像中的手指的特征点的二维位置,该机器学习模型进行学习以基于从可穿戴相机获取的图像信息来估计包括在图像中的手指的特征点的二维位置。在估计手指的特征点的二维位置之后,图像处理单元将关于估计的手指的特征点的二维位置的信息输出至通信单元。
通信单元经由网络N与信息处理装置100B通信。此外,通信单元可使用Wi-Fi(注册商标)、ZigBee(注册商标)、蓝牙(注册商标)、蓝牙低能量(注册商标)、ANT(注册商标)、ANT+(注册商标)、EnOcean Alliance(注册商标)等的通信来与信息处理装置100B进行无线通信。
通信单元从姿势估计单元获取关于可穿戴相机的相机参数的信息。此外,通信单元从图像处理单元获取关于包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息。当获取关于相机参数的信息和关于手指的特征点的二维位置的信息时,通信单元将获取的关于相机参数的信息和获取的关于手指的特征点的二维位置的信息传输至信息处理装置100B。
[3.3.信息处理装置的配置示例]
接下来,参照图22,描述根据本公开的第三实施方式的信息处理装置的配置。图22是示出根据本公开第三实施方式的信息处理装置的配置示例的图。如图22所示,根据第三实施方式的信息处理装置100B与根据第一实施方式的信息处理装置100的不同之处在于设置了估计单元132B和传感器数据库121B而不是估计单元132和传感器数据库121。因此,在以下描述中,将主要描述估计单元132B和传感器数据库121B,并且将省略包括在根据第三实施方式的信息处理装置100B中的其他配置的详细描述。
(传感器数据库121B)
传感器数据库121B与根据第一实施方式的信息处理装置100的传感器数据库121的不同之处在于传感器数据库121B存储关于从传感器信息处理装置30获取的可穿戴相机的相机参数的信息以及关于包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息。传感器数据库121A存储由获取单元131获取的关于相机参数的信息以及关于手指的特征点的二维位置的信息。
(估计单元132B)
估计单元132B基于通过附接至用户的手腕的可穿戴相机拍摄的图像信息估计关于用户的手指的姿势的时间序列信息。例如,估计单元132B通过使用机器学习模型估计关于包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息,机器学习模型进行学习以基于由可穿戴相机拍摄的图像信息估计由包括在可穿戴相机拍摄的图像中的手指的特征点的二维位置。
此外,可穿戴相机还包括IMU传感器,并且估计单元132B基于由IMU传感器检测的感测数据估计关于手指的姿势的时间序列信息。具体地,估计单元132B参考传感器数据库121B以获取关于可穿戴相机的相机参数的信息以及关于包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息。
注意,估计单元132B可以从可穿戴相机获取由可穿戴相机的IMU传感器检测到的感测数据并且基于由IMU传感器检测到的感测数据来估计可穿戴相机的姿势。随后,估计单元132B可基于估计的可穿戴相机的姿势来估计可穿戴相机的相机参数。
估计单元132B基于关于可穿戴相机的相机参数的信息、关于包括在可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息、以及包括在每个相机的移动图像中的关于手指关节、手掌、手背、以及手腕的特征点的二维位置的估计信息,来估计手指关节、手掌、手背和手腕的特征点的三维位置。
例如,估计单元132B基于由安装在环境中的多个高速相机和可穿戴相机中的任何两个相机立体地观看的图像来计算相应相机的组合中的手指的特征点的三维位置及其确定性。随后,在确定预定手指的特征点不包括在每个相机的运动图像中的情况下,估计单元132B通过与所计算的确定性的每个组合中对预定手指的特征点的三维位置(手指关节的位置或指尖的位置)进行加权和平均,来估计预定手指的特征点的三维位置(手指关节的位置或指尖的位置)。
随后,估计单元132B基于预定手指的估计的三维位置估计预定手指的姿势的时间序列信息。更具体地,估计单元132B估计预定手指的三维特征量的时间序列信息作为预定手指的姿势的时间序列信息。
[3.4.信息处理系统的操作示例]
接下来,参照图23,描述根据本公开的第三实施方式的信息处理系统的操作。图23是用于描述根据本公开的第三实施方式的信息处理系统的操作示例的图。在图23中示出的示例中,类似于图4,信息处理装置100B获取通过安装在环境中的多个高速相机分别拍摄的传感器图像1、2、3、...。随后,信息处理装置100B将所获取的传感器图像1、2、3、...输入到机器学习模型M1。信息处理装置100B估计包括在传感器图像1、2、3、...中的每一个中的手指关节、手掌、手背以及手腕的特征点的二维位置中的每一个作为机器学习模型M1的输出信息。此外,信息处理装置100B获取多个高速相机中的每一个的相机参数。
此外,在图23中,信息处理装置100B获取由附接至用户的手腕的可穿戴相机拍摄的图像信息。随后,信息处理装置100B通过使用机器学习模型估计关于包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息,该机器学习模型进行学习以基于由可穿戴相机拍摄的图像信息来估计包括在由可穿戴相机拍摄的图像中的手指的特征点的二维位置。
此外,信息处理装置100B从可穿戴相机获取由可穿戴相机的IMU传感器检测的感测数据。随后,信息处理装置100B基于所获取的感测数据估计可穿戴相机(的IMU传感器)的姿势。随后,信息处理装置100B基于所估计的可穿戴相机的(IMU传感器的)姿势来估计可穿戴相机的相机参数。
随后,信息处理装置100B基于关于可穿戴相机的相机参数的信息、关于包括在可穿戴相机拍摄的图像中的手指的特征点的二维位置的信息、以及关于包括在每个相机的移动图像中的手指关节、手掌、手背、以及手腕的特征点的二维位置的估计信息,来估计手指关节、手掌、手背和手腕的特征点的三维位置。
例如,类似于图4,信息处理装置100B基于关于包括在每个相机的估计移动图像中的手指关节、手掌、手背和手腕的特征点的二维位置的信息来估计手指关节、手掌、手背和手腕的特征点的三维位置。此外,信息处理装置100B基于由安装在环境中的多个高速相机和可穿戴相机中的任何两个相机立体地观看的图像,计算相应相机的组合中的手指的特征点的三维位置及其确定性。随后,在确定预定手指的特征点不包括在每个相机的运动图像中(例如,例如被另一手指隐藏的中指或无名指的手指)的情况下,信息处理装置100B通过与所计算的确定性的每个组合中对预定手指的特征点的三维位置(手指的关节的位置或指尖的位置)进行加权平均来估计预定手指的特征点的三维位置(手指的关节的位置或指尖的位置)。
随后,信息处理装置100B基于所估计的手指的三维位置来估计手指的姿势的时间序列信息。更具体地,信息处理装置100B估计手指的三维特征量的时间序列信息作为手指的姿势的时间序列信息。随后,信息处理装置100B将手指的三维特征量的时间序列信息存储在数据库中。
[3.5.可穿戴相机感测的概述]
接下来,将参考图24描述根据本公开的第三实施方式的通过可穿戴相机感测的概述。图24是用于描述根据本公开的第三实施方式的通过可佩戴式相机感测的概要的图。
如图24的左侧所示,可穿戴相机HC附接至用户的手腕并且拍摄用户的手掌侧。可穿戴相机HC拍摄在图24的左侧示出的R1范围的图像。例如,R1范围表示从可穿戴相机HC的相机位置朝向用户的手掌侧以圆锥形状延伸的范围。
当通过可穿戴相机HC拍摄R1范围时,获得如图24的中心所示的图像G1。例如,图像G1包括DIP关节和靠近用户指尖的手指的指尖。传感器信息处理装置30基于包括在从可穿戴相机HC获取的图像信息提取图像中的手指关节和指尖的位置作为手指的特征点。
此外,可穿戴相机HC利用正常相机或深度传感器来拍摄用户的手掌侧。红外光源可附接在可穿戴相机HC的相机周围。相机可被飞行时间(TOF)传感器替换。此外,通过附接至与相机相同位置的IMU传感器的感测数据来估计可穿戴相机HC本身的姿势。
如上所述,可穿戴相机HC可以通过拍摄手掌侧来补充不能由附接至环境的相机拍摄的手指的信息。另外,通过用可穿戴相机HC拍摄手掌侧,可以跟踪指尖而不被其他手指隐藏。
[3.6.可穿戴相机的结构]
接下来,将参考图25描述根据本公开的第三实施方式的可穿戴相机的结构。图25是用于描述根据本公开第三实施方式的可穿戴相机的结构的图。
如图25所示,可穿戴相机HC包括作为正常相机或深度传感器的相机C4。应注意,因为可穿戴相机HC附接至手腕并且拍摄手掌,所以相机C4的位置需要从表带突出。
可穿戴相机HC包括IMU传感器(IMU4)。IMU传感器(IMU4)附接在可穿戴相机HC的主体内部。
此外,可穿戴相机HC包括用于固定至手腕的带B1。
此外,可穿戴相机HC可以包括用于从围绕带的外部传感器进行跟踪的标记MR1。
[3.7.变形]
接下来,参照图26,描述根据本公开的第三实施方式的修改的信息处理系统的操作。图26是用于描述根据本公开第三实施方式的修改的信息处理系统的操作示例的图。在图26中,将描述信息处理系统3基于可穿戴相机的图像信息和安装在环境中的高速相机的图像信息来估计关于手指姿势的时间序列信息而不使用可穿戴相机的IMU传感器的感测数据的实施方式。
在图26中示出的示例中,类似于图23,信息处理装置100B获取通过安装在环境中的多个高速相机分别拍摄的传感器图像1、2、3、...。随后,信息处理装置100B将所获取的传感器图像1、2、3、...输入到机器学习模型M1。信息处理装置100B估计包括在传感器图像1、2、3、...中的每一个中的手指关节、手掌、手背以及手腕的特征点的二维位置中的每一个作为机器学习模型M1的输出信息。此外,信息处理装置100B获取多个高速相机中的每一个的相机参数。
此外,信息处理装置100B基于所获取的传感器图像1、2、3、...估计可穿戴相机的姿势。随后,信息处理装置100B基于所估计的可穿戴相机的姿势估计可穿戴相机的相机参数。
随后,信息处理装置100B基于关于可穿戴相机的相机参数的信息估计手指关节、手掌、手背、以及手腕的特征点的三维位置,关于可穿戴相机拍摄的图像中包括的手指的特征点的二维位置的信息,以及关于手指关节的特征点的二维位置的估计信息,手掌、手背、以及手腕包括在每个相机的移动图像中。
[4.第四实施方式]
在根据第四实施方式的信息处理系统4中,检测与对象的接触的接触传感器被安装在对象的内部。然后,根据第四实施方式的信息处理系统4的信息处理装置100C基于关于手指相对于对象的接触的感测数据来估计手指与对象接触的姿势的时间序列信息。
[4.1.信息处理系统的配置示例]
接下来,参照图27,描述根据本公开的第四实施方式的信息处理系统的配置。图27为示出根据本公开的第四实施方式的信息处理系统的配置示例的示意图。如图27所示,根据第四实施方式的信息处理系统4与根据第一实施方式的信息处理系统1的不同之处在于包括传感器信息处理装置40。此外,根据第四实施方式的信息处理系统4的不同之处在于包括信息处理装置100C而不是根据第一实施方式的信息处理系统1的信息处理装置100。因此,在以下描述中,将主要描述传感器信息处理装置40,并且将省略包括在根据第四实施方式的信息处理系统4中的其他配置的详细描述。
传感器信息处理装置40从安装在对象内的接触传感器获取关于手指相对于对象的接触的感测数据。当获取关于手指相对于对象的接触的感测数据时,传感器信息处理装置40将感测数据发送到信息处理装置100C。
信息处理装置100C从传感器信息处理装置40获取关于手指相对于对象的接触的感测数据。信息处理装置100C基于感测数据估计与对象接触的手指的姿势的时间序列信息。应注意,传感器信息处理装置40和信息处理装置100C可以是集成装置。在这种情况下,信息处理装置100C从安装在对象内部的接触传感器获取关于手指相对于对象的接触的感测数据。
[4.2.信息处理系统的操作示例]
接下来,参照图28,描述根据本公开的第四实施方式的信息处理系统的操作。图28是用于描述根据本公开的第四实施方式的信息处理系统的操作示例的图。在图28所示的示例中,与根据第一实施方式至第三实施方式的信息处理装置相似,信息处理装置100C基于关于每个相机的移动图像中包括的手指关节、手掌、手背以及手腕的特征点的二维位置的信息,估计手指关节、手掌、手背以及手腕的特征点的三维位置。
此外,信息处理装置100C从传感器信息处理装置40获取手指关于对象的接触信息。随后,信息处理装置100C基于手指关节、手掌、手背以及手腕的特征点的三维位置以及手指与对象的接触信息来估计已经与对象接触的手指。此外,信息处理装置100C获取用于指定与对象接触的手指的手指的模型。随后,信息处理装置100C基于所估计的与对象接触的手指和所获取的手指的模型来估计与对象接触的手指的姿势。
[4.3.信息处理装置的配置示例]
接下来,将参考图29描述根据本公开的第四实施方式的信息处理装置的配置。图29为示出根据本公开的第四实施方式的信息处理装置的配置示例的图。如图29中所示,根据第四实施方式的信息处理装置100C与根据第一实施方式的信息处理装置100的不同之处在于设置了估计单元132C和传感器数据库121C而不是估计单元132和传感器数据库121。因此,在以下描述中,将主要描述估计单元132C和传感器数据库121C,并且将省略包括在根据第四实施方式的信息处理装置100C中的其他配置的详细描述。
(传感器数据库121C)
传感器数据库121C与根据第一实施方式的信息处理装置100的传感器数据库121的不同之处在于存储从传感器信息处理装置40获取的关于手指相对于对象的接触的感测数据。传感器数据库121C存储关于由获取单元131获取的手指相对于对象的接触的感测数据。
(估计单元132C)
估计单元132C基于通过检测手指相对于对象的接触操作的接触传感器检测的感测数据估计关于与对象接触的手指的姿势的时间序列信息。具体地,估计单元132C从传感器信息处理装置40中获取手指关于对象的接触信息。随后,估计单元132C基于手指关节、手掌、手背以及手腕的特征点的三维位置以及手指相对于对象的接触信息来估计已经与对象接触的手指。另外,估计单元132C获取用于指定与对象接触的手指的手指的模型。随后,估计单元132C基于所估计的与对象接触的手指和所获取的手指的模型来估计关于与对象接触的手指的姿势的信息。例如,估计单元132C估计与对象接触的手指的关节角作为关于与对象接触的手指的姿势的信息。要注意的是,稍后参照图31进行描述,详细描述由估计单元132C进行的手指的关节角的估计处理。
[4.4.手指相对于对象的接触操作]
接下来,将参照图30描述根据本公开的第四实施方式的手指相对于对象的接触操作。图30是用于描述根据本公开的第四实施方式的手指相对于对象的接触操作的图。在图30所示的示例中,对象O2是例如钢琴的键盘。检测与对象的接触的接触传感器FS安装在对象O2内部。在图30中,当演奏者的手H1的食指在对象O2的上表面上的点P1处与对象O2接触时,接触传感器FS检测食指相对于对象O2的接触。当检测到食指相对于对象O2的接触时,接触传感器FS将对象O2与食指之间的接触信息传输至传感器信息处理装置40。
[4.5.用于估计手指的关节角的处理]
接下来,将参照图31描述根据本公开的第四实施方式的手指的关节角的估计处理。图31是用于描述根据本公开的第四实施方式的手指的关节角的估计处理的图。图31中示出的示例示出用户的手指在对象O3的上表面上按压点P1的情况。例如,当用户的手指按压位于键盘的一端的点P1时,键盘的靠近按压位置P1的端部降低,并且键盘的远离按压位置P1的端部升高,并且因此,作为键盘的对象O3的位置改变。在图31中,手指相对于对象O3的接触操作执行之前的对象O3的位置由虚线表示。另外,对象O3在手指相对于对象O3的接触操作执行的状态下的位置由实线表示。
估计单元132基于在手指相对于对象的接触操作执行之前的对象的位置信息、在手指相对于对象的接触操作执行之前与之后的对象的位置的变化量、以及手指相对于对象的接触位置信息,来估计关于与对象接触的手指的姿势的时间序列信息。在图31中,估计单元132基于在手指相对于对象O3的接触操作执行之前的对象的位置信息(虚线的位置信息)、在手指相对于对象O3的接触操作执行之前与之后的对象的位置的变化量(虚线和实线之间的位置的变化量)、以及手指相对于对象O3的接触位置P1的信息,来估计关于与对象接触的手指的姿势的时间序列信息。
更具体地,估计单元132基于手指的MP关节与PIP关节之间的距离、手指的PIP关节与指尖之间的距离、手指的MP关节的位置、以及手指的指尖的位置,来估计手指的PIP关节的角度,作为关于与对象接触的手指的姿势的时间序列信息。在图31中,估计单元132基于手指的MP关节的位置P3与PIP关节的位置P2之间的距离L1、手指的PIP关节的位置P2与指尖的位置P1之间的距离L2、手指的MP关节的位置P3与手指的指尖的位置P1来估计手指的PIP关节的角度。例如,估计单元132基于安装在环境中的高速相机的图像信息,估计包括在图像信息中的手指的MP关节的位置P3、PIP关节的位置P2和指尖的位置P1。随后,估计单元132计算手指的MP关节的位置P3与PIP关节的位置P2之间的距离L1、以及手指的PIP关节的位置P2与指尖的位置P1之间的距离L2。随后,估计单元132基于所计算的距离L1和L2、MP关节的估计位置P3和指尖的估计位置P1使用余弦定理来估计手指的PIP关节的角度。注意,手指的DIP关节与手指的PIP关节同步地移动,并且因此在计算中省略。
[5.效果]
如上所述,根据本公开的实施方式或其变形例的信息处理装置100包括估计单元132。估计单元132基于包括对象和手指相对于对象的操作(包括手指相对于对象的接触操作)的图像信息,来估计关于手指的姿势的时间序列信息。此外,估计单元132通过使用第一机器学习模型来估计关于手指的姿势的时间序列信息,其中,第一机器学习模型进行学习以基于包括对象和手指的操作的图像信息来估计关于手指的姿势的时间序列信息。
结果,信息处理装置100可以估计手指的姿势,而无需在手指关节等上安装传感器或标记。即,信息处理装置100可以通过安装传感器、标记等估计手指的姿势而不妨碍手指的操作。因此,信息处理装置100可以适当地估计在手指相对于对象的操作期间(包括手指相对于对象的接触操作,例如在钢琴演奏期间的手指)的手指的姿势。
此外,估计单元132估计手指的每个关节或每个指尖、手掌、手背或手腕的特征点的位置、速度、加速度或轨迹的时间序列信息作为关于手指的姿势的时间序列信息,或手指的每个关节的角度、角速度或角加速度。
因此,信息处理装置100不仅可以适当地估计手指的三维位置,而且可以适当地估计手指关节的角度,使得可以更适当地估计手指的姿势。
图像信息是通过高速单色相机或高速红外相机拍摄的图像信息。
因此,即使在为了拍摄手指的高速操作而增加快门速度的情况下,信息处理装置100也可以确保足够的光量而不使正在执行手指的操作的用户感到眩光,并且因此,可以适当地估计手指的姿势。
此外,图像信息是通过被安装以从多个不同方向拍摄对象的多个相机中的每一个获取的多个图像信息。
因此,在从一个方向执行拍摄的情况下,信息处理装置100可以通过从另一个方向拍摄来覆盖由另一个手指等隐藏的手指,并且因此,可以更适当地估计手指的姿势。
此外,多个相机附接至围绕对象的门状结构,并且多个图像信息中的每一个是在手指通过安装在每个相机附近的光源照亮的状态下拍摄的多个图像信息。
因此,即使在拍摄手指的高速操作的情况下,信息处理装置100也能够以确保的足够的光量拍摄图像,并且因此,能够更适当地估计手指的姿势。
图像信息是由安装在对象两侧和对象上方的三个或更多个相机拍摄的多条图像信息。
因此,在从一个方向执行拍摄的情况下,信息处理装置100可以通过从另一个方向拍摄来覆盖由另一个手指等隐藏的手指,并且因此,可以更适当地估计手指的姿势。
此外,图像信息是利用从手指的指尖到手腕的范围作为拍摄范围拍摄的图像信息。
因此,信息处理装置100可以通过缩小拍摄范围来提高手指的姿势估计的分辨率和准确度,使得可以更适当地估计手指的姿势。
此外,估计单元132基于执行手指的操作的手的背部的图像信息估计关于手指的姿势的时间序列信息。此外,估计单元132通过使用第二机器学习模型来估计关于手指的姿势的时间序列信息,其中,第二机器学习模型进行学习以基于执行手指的操作的手的背部的图像信息来估计关于手指的姿势的时间序列信息。
因此,信息处理装置100可以基于在高速操作期间与手指相比更容易拍摄的手背的图像更适当地估计手指的姿势。
此外,估计单元132基于由安装在用户的手的拇指和背部上的多个IMU传感器检测的感测数据估计关于用户的手指的姿势的时间序列信息。
因此,信息处理装置100可以补充由另一手指等隐藏的一手指的姿势估计。
此外,估计单元132基于由附接至用户的手腕的可穿戴相机拍摄的图像信息估计关于用户的手指的姿势的时间序列信息。
因此,信息处理装置100可以补充由另手指等隐藏的手指的姿势估计。
此外,可穿戴相机还包括IMU传感器,并且估计单元132基于由IMU传感器检测的感测数据来估计关于手指的姿势的时间序列信息。
因此,信息处理装置100可以更准确地补充由其他手指等隐藏的手指的姿势估计。
此外,估计单元132基于由检测手指相对于对象的接触操作的接触传感器检测的感测数据来估计关于与对象接触的手指的姿势的时间序列信息。此外,估计单元132基于在手指相对于对象的接触操作执行之前的对象的位置信息、在手指相对于对象的接触操作执行之前和之后的对象的位置的变化量、以及手指相对于对象的接触位置信息,估计关于与对象接触的手指的姿势的时间序列信息。此外,估计单元132基于手指的MP关节与PIP关节之间的距离、手指的PIP关节与指尖之间的距离、手指的MP关节的位置、以及手指的指尖的位置,来估计手指的PIP关节的角度,作为关于与对象接触的手指的姿势的时间序列信息。
因此,信息处理装置100可补充由另一手指等隐藏的一手指的姿势估计。
此外,对象是键盘,并且手指相对于对象的操作是手指相对于键盘的键击操作或手指相对于键盘的位置移动的移动操作。
结果,信息处理装置100可以在钢琴演奏期间适当地估计手指的姿势。
此外,信息处理装置100还包括提供单元133。提供单元133为用户提供由估计单元132估计的关于手指的姿势的时间序列信息。
因此,信息处理装置100可将手指的精细操作传输至另一人(例如,学生)并且支持另一人的熟练度。
[6.硬件配置]
例如,通过具有如图29中所示的配置的计算机1000实现例如根据上述实施方式和变形例的信息处理装置100的信息装置。图29是示出实现例如信息处理装置100的信息处理装置的功能的计算机1000的示例的硬件配置图。在下文中,将描述根据上述实施方式或其变形例的信息处理装置100作为示例。计算机1000包括CPU 1100、RAM 1200、只读存储器(ROM)1300、硬盘驱动器(HDD)1400、通信接口1500和输入/输出接口1600。计算机1000的每个单元通过总线1050连接。
CPU 1100基于存储在ROM 1300或HDD 1400中的程序进行操作,并且控制每个单元。例如,CPU 1100在RAM 1200中开发存储在ROM 1300或HDD 1400中的程序,并且执行与各种程序相对应的处理。
ROM 1300存储引导程序,例如在计算机1000被激活时由CPU 1100执行的基本输入输出系统(BIOS)、取决于计算机1000的硬件的程序等。
HDD 1400是非瞬时地记录由CPU 1100执行的程序、由该程序使用的数据等的计算机可读记录介质。具体地,HDD 1400是记录作为程序数据1350的示例的根据本公开的实施方式的信息处理程序或其变形例的记录媒质。
通信接口1500是用于计算机1000连接至外部网络1550(例如,互联网)的接口。例如,CPU 1100经由通信接口1500从另一设备接收数据或者向另一设备发送由CPU 1100生成的数据。
输入/输出接口1600是用于连接输入/输出设备1650和计算机1000的接口。例如,CPU 1100经由输入/输出接口1600从例如键盘和鼠标的输入装置接收数据。此外,CPU 1100经由输入/输出接口1600将数据传输至例如显示器、扬声器或打印机的输出设备。此外,输入/输出接口1600可以用作读取记录在预定记录介质(介质)中的程序等的介质接口。例如,介质是例如数字通用盘(DVD)或相变可重写盘(PD)的光学记录介质、例如磁光盘(MO)的磁光记录介质、磁带介质、磁记录介质、半导体存储器等。
例如,在计算机1000用作根据上述实施方式或其变型的信息处理装置100的情况下,计算机1000的CPU 1100通过执行加载到RAM 1200上的信息处理程序来实现控制单元130等的功能。此外,HDD 1400将根据本公开的实施方式或其变型的信息处理程序和数据存储在存储单元120中。注意,CPU 1100从HDD 1400读取程序数据1350并执行程序数据1350,但是作为另一示例,可以经由外部网络1550从另一设备获取这些程序。
应注意,本技术还可具有以下配置。
(1)
一种信息处理装置,包括:
估计单元,基于图像信息估计关于手指的姿势的时间序列信息,该图像信息包括:对象和手指相对于对象的操作,该手指相对于对象的操作包括手指相对于对象的接触操作。
(2)
根据(1)的信息处理装置,
其中,估计单元通过使用第一机器学习模型来估计关于手指的姿势的时间序列信息,该第一机器学习模型进行学习以基于包括手指的操作和对象的图像信息来估计关于手指的姿势的时间序列信息。
(3)
根据(1)或(2)的信息处理装置,
其中,估计单元估计手指的每个关节或每个指尖、手掌、手背或手腕的特征点的位置、速度、加速度或轨迹、或者手指的每个关节的角度、角速度或角加速度的时间序列信息,作为关于手指的姿势的时间序列信息。
(4)
根据(1)至(3)中任一项的信息处理装置,
其中,图像信息是由高速单色相机或高速红外相机拍摄的图像信息。
(5)
根据(1)至(4)中任一项的信息处理装置,
其中,图像信息是通过被安装以从多个不同方向拍摄对象的多个相机获取的多条图像信息。
(6)
根据(5)的信息处理装置,
其中,多个相机附接至围绕对象的门状结构;并且
多条图像信息中的每条是在通过安装在每个相机附近的光源照亮手指的状态下拍摄的多条图像信息。
(7)
根据(1)至(6)中任一项的信息处理装置,
其中,图像信息是由安装在对象的两侧以及对象上方的三个或更多个相机拍摄的多条图像信息。
(8)
根据(1)至(7)中任一项的信息处理装置,
其中,图像信息是以从手指的指尖到手腕的范围作为拍摄范围拍摄的图像信息。
(9)
根据(1)至(8)中任一项的信息处理装置,
其中,估计单元基于执行手指的操作的手的背部的图像信息来估计关于手指的姿势的时间序列信息。
(10)
根据(9)的信息处理装置,
其中,估计单元通过使用第二机器学习模型来估计关于手指的姿势的时间序列信息,第二机器学习模型进行学习以基于执行手指的操作的手的背部的图像信息来估计关于手指的姿势的时间序列信息。
(11)
根据(1)至(10)中任一项的信息处理装置,
其中,估计单元基于由安装在用户的手的拇指和背部上的多个IMU传感器检测的感测数据来估计关于用户的手指的姿势的时间序列信息。
(12)
根据(1)至(11)中任一项的信息处理装置,
其中,估计单元基于由附接至用户的手腕的可穿戴相机拍摄的图像信息来估计关于用户的手指的姿势的时间序列信息。
(13)
根据(12)的信息处理装置,
其中,可穿戴相机还包括IMU传感器;并且
估计单元基于由IMU传感器检测的感测数据估计关于手指的姿势的时间序列信息。
(14)
根据(1)至(13)中任一项的信息处理装置,
其中,估计单元基于由检测手指相对于对象的接触操作的接触传感器检测的感测数据来估计关于与对象接触的手指的姿势的时间序列信息。
(15)
根据(14)的信息处理装置,
其中,估计单元基于在手指相对于对象的接触操作执行之前的对象的位置信息、在手指相对于对象的接触操作执行之前与之后的对象的位置的变化量、以及手指相对于对象的接触位置信息,来估计关于与对象接触的手指的姿势的时间序列信息。
(16)
根据(14)或(15)的信息处理装置,
其中,估计单元基于手指的MP关节与PIP关节之间的距离、手指的PIP关节与指尖之间的距离、手指的MP关节的位置、以及手指的指尖的位置,来估计手指的PIP关节的角度,作为关于与对象接触的手指的姿势的时间序列信息。
(17)
根据(1)至(16)中任一项的信息处理装置,
其中,对象是键盘;并且
手指相对于对象的操作是手指相对于键盘的键击操作或者手指相对于键盘的位置移动的移动操作。
(18)
根据(1)至(17)中任一项的信息处理装置,还包括:
提供单元,被配置为将由估计单元估计的关于手指的姿势的时间序列信息提供给用户。
(19)
一种信息处理方法,包括:
允许计算机基于图像信息估计关于手指的姿势的时间序列信息,图像信息包括:对象和手指相对于对象的操作,该手指相对于对象的操作包括手指相对于对象的接触操作。
(20)
一种程序,使计算机用作估计单元,估计单元基于图像信息估计关于手指的姿势的时间序列信息,图像信息包括:对象和手指相对于对象的操作,该手指相对于对象的操作包括手指相对于对象的接触操作。
参考标号列表
1 信息处理系统
10 传感器信息处理装置
100 信息处理装置
110 通信单元
120 存储单元
121 传感器数据库
122 模型数据库
123 三维特征量数据库
130 控制单元
131 获取单元
132 估计单元
133 提供单元
200 应用服务器
300 终端设备。

Claims (20)

1.一种信息处理装置,包括:
估计单元,基于图像信息估计关于手指的姿势的时间序列信息,所述图像信息包括:对象和所述手指相对于所述对象的操作,所述手指相对于所述对象的操作包括所述手指相对于所述对象的接触操作。
2.根据权利要求1所述的信息处理装置,
其中,所述估计单元通过使用第一机器学习模型来估计关于所述手指的所述姿势的所述时间序列信息,所述第一机器学习模型进行学习,以基于包括所述手指的所述操作和所述对象的所述图像信息来估计关于所述手指的所述姿势的所述时间序列信息。
3.根据权利要求1所述的信息处理装置,
其中,所述估计单元估计所述手指的每个关节或每个指尖、手掌、手背或手腕的特征点的位置、速度、加速度或轨迹、或者所述手指的每个关节的角度、角速度或角加速度的时间序列信息,作为关于所述手指的所述姿势的所述时间序列信息。
4.根据权利要求1所述的信息处理装置,
其中,所述图像信息是由高速单色相机或高速红外相机拍摄的图像信息。
5.根据权利要求1所述的信息处理装置,
其中,所述图像信息是通过被安装以从多个不同方向拍摄所述对象的多个相机获取的多条图像信息。
6.根据权利要求5所述的信息处理装置,
其中,多个所述相机附接至围绕所述对象的门状结构;并且
多条所述图像信息中的每条是在通过安装在每个所述相机附近的光源照亮所述手指的状态下拍摄的多条图像信息。
7.根据权利要求1所述的信息处理装置,
其中,所述图像信息是由安装在所述对象的两侧以及所述对象上方的三个或更多个相机拍摄的多条图像信息。
8.根据权利要求1所述的信息处理装置,
其中,所述图像信息是以从所述手指的指尖到手腕的范围作为拍摄范围拍摄的图像信息。
9.根据权利要求1所述的信息处理装置,
其中,所述估计单元基于执行所述手指的所述操作的手的背部的图像信息来估计关于所述手指的所述姿势的所述时间序列信息。
10.根据权利要求9所述的信息处理装置,
其中,所述估计单元通过使用第二机器学习模型来估计关于所述手指的所述姿势的所述时间序列信息,所述第二机器学习模型进行学习,以基于执行所述手指的所述操作的所述手的所述背部的所述图像信息来估计关于所述手指的所述姿势的所述时间序列信息。
11.根据权利要求1所述的信息处理装置,
其中,所述估计单元基于由安装在用户的手的拇指和背部上的多个IMU传感器检测的感测数据来估计关于用户的所述手指的所述姿势的所述时间序列信息。
12.根据权利要求1所述的信息处理装置,
其中,所述估计单元基于由附接至用户的手腕的可穿戴相机拍摄的所述图像信息来估计关于所述用户的所述手指的所述姿势的所述时间序列信息。
13.根据权利要求12所述的信息处理装置,
其中,所述可穿戴相机还包括IMU传感器;并且
所述估计单元基于由所述IMU传感器检测的感测数据来估计关于所述手指的所述姿势的所述时间序列信息。
14.根据权利要求1所述的信息处理装置,
其中,所述估计单元基于由检测所述手指相对于所述对象的所述接触操作的接触传感器检测的感测数据来估计关于与所述对象接触的所述手指的所述姿势的所述时间序列信息。
15.根据权利要求14所述的信息处理装置,
其中,所述估计单元基于在所述手指相对于所述对象的所述接触操作执行之前的所述对象的位置信息、在所述手指相对于所述对象的所述接触操作执行之前与之后的所述对象的位置的变化量、以及所述手指相对于所述对象的接触位置信息,来估计关于与所述对象接触的所述手指的姿势的所述时间序列信息。
16.根据权利要求14所述的信息处理装置,
其中,所述估计单元基于所述手指的MP关节与PIP关节之间的距离、所述手指的所述PIP关节与指尖之间的距离、所述手指的所述MP关节的位置、以及所述手指的所述指尖的位置,来估计所述手指的所述PIP关节的角度,作为关于与所述对象接触的所述手指的姿势的所述时间序列信息。
17.根据权利要求1所述的信息处理装置,
其中,所述对象是键盘;并且
所述手指相对于所述对象的所述操作是所述手指相对于所述键盘的键击操作或者所述手指相对于所述键盘的位置移动的移动操作。
18.根据权利要求1所述的信息处理装置,还包括:
提供单元,被配置为将由所述估计单元估计的关于所述手指的所述姿势的所述时间序列信息提供给用户。
19.一种信息处理方法,包括:
允许计算机基于图像信息估计关于手指的姿势的时间序列信息,所述图像信息包括:对象和所述手指相对于所述对象的操作,所述手指相对于所述对象的操作包括所述手指相对于所述对象的接触操作。
20.一种程序,使计算机用作估计单元,所述估计单元基于图像信息估计关于手指的姿势的时间序列信息,所述图像信息包括:对象和所述手指相对于所述对象的操作,所述手指相对于所述对象的操作包括所述手指相对于所述对象的接触操作。
CN202180011412.3A 2020-02-06 2021-02-05 信息处理装置、信息处理方法和信息处理程序 Pending CN115023732A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-018743 2020-02-06
JP2020018743 2020-02-06
PCT/JP2021/004301 WO2021157691A1 (ja) 2020-02-06 2021-02-05 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
CN115023732A true CN115023732A (zh) 2022-09-06

Family

ID=77199955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180011412.3A Pending CN115023732A (zh) 2020-02-06 2021-02-05 信息处理装置、信息处理方法和信息处理程序

Country Status (5)

Country Link
US (1) US20230054973A1 (zh)
EP (1) EP4102460A4 (zh)
JP (1) JPWO2021157691A1 (zh)
CN (1) CN115023732A (zh)
WO (1) WO2021157691A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7243026B2 (ja) * 2018-03-23 2023-03-22 ヤマハ株式会社 演奏解析方法、演奏解析装置およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050060606A (ko) * 2003-12-17 2005-06-22 엘지전자 주식회사 휴먼 컴퓨터 인터렉션 장치 및 방법
KR101652535B1 (ko) * 2008-06-18 2016-08-30 오블롱 인더스트리즈, 인크 차량 인터페이스를 위한 제스처 기반 제어 시스템
JP6271444B2 (ja) * 2012-02-24 2018-01-31 トーマス ジェイ モスカリッロMOSCARILLO, Thomas, J. ジェスチャー認識装置及び方法
US10408613B2 (en) * 2013-07-12 2019-09-10 Magic Leap, Inc. Method and system for rendering virtual content
US9649558B2 (en) * 2014-03-14 2017-05-16 Sony Interactive Entertainment Inc. Gaming device with rotatably placed cameras
JP6329469B2 (ja) * 2014-09-17 2018-05-23 株式会社東芝 認識装置、認識方法及び認識プログラム
US11106273B2 (en) * 2015-10-30 2021-08-31 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
CN109791740B (zh) * 2016-10-11 2021-05-07 森兰信息科技(上海)有限公司 用于智能钢琴的智能检测及反馈系统
US11244467B2 (en) 2016-11-07 2022-02-08 Sony Corporation Information processing apparatus, information processing mei'hod, and recording medium
CN109446952A (zh) * 2018-10-16 2019-03-08 赵笑婷 一种钢琴监督方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
EP4102460A1 (en) 2022-12-14
EP4102460A4 (en) 2023-08-02
JPWO2021157691A1 (zh) 2021-08-12
WO2021157691A1 (ja) 2021-08-12
US20230054973A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
US20220326781A1 (en) Bimanual interactions between mapped hand regions for controlling virtual and graphical elements
US20220206588A1 (en) Micro hand gestures for controlling virtual and graphical elements
CN111738220B (zh) 三维人体姿态估计方法、装置、设备及介质
US20200225758A1 (en) Augmented two-stage hand gesture input
Wang et al. Hear sign language: A real-time end-to-end sign language recognition system
CN110310288A (zh) 用于混合现实环境中的对象分割的方法和系统
CN112926423B (zh) 捏合手势检测识别方法、装置及系统
JP2020537202A5 (zh)
CN110457414A (zh) 离线地图处理、虚拟对象显示方法、装置、介质和设备
CN107077169A (zh) 扩增现实中的空间交互
RU2708027C1 (ru) Способ передачи движения субъекта из видео на анимированного персонажа
EP3805982B1 (en) Gesture recognition method, apparatus and device
CN103608844A (zh) 全自动动态关节连接的模型校准
EP4172955A1 (en) Generating ground truth datasets for virtual reality experiences
CN111722713A (zh) 多模态融合的手势键盘输入方法、设备、系统及存储介质
US11714880B1 (en) Hand pose estimation for machine learning based gesture recognition
US11281293B1 (en) Systems and methods for improving handstate representation model estimates
US20210201502A1 (en) Method and system for motion prediction
CN109844600A (zh) 信息处理设备、信息处理方法和程序
WO2020110547A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN108475114A (zh) 用于对象姿势跟踪器的反馈
CN115023732A (zh) 信息处理装置、信息处理方法和信息处理程序
US20230280835A1 (en) System including a device for personalized hand gesture monitoring
US11854308B1 (en) Hand initialization for machine learning based gesture recognition
Sung et al. Motion quaternion-based motion estimation method of MYO using K-means algorithm and Bayesian probability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination