CN115393962A - 动作识别方法、头戴显示设备和存储介质 - Google Patents
动作识别方法、头戴显示设备和存储介质 Download PDFInfo
- Publication number
- CN115393962A CN115393962A CN202211049678.XA CN202211049678A CN115393962A CN 115393962 A CN115393962 A CN 115393962A CN 202211049678 A CN202211049678 A CN 202211049678A CN 115393962 A CN115393962 A CN 115393962A
- Authority
- CN
- China
- Prior art keywords
- limb
- image data
- key points
- human body
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了动作识别方法、头戴显示设备和存储介质,该方法包括:确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点;确定所述肢体关键点之间的亲和距离和肢体角度;将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作,解决了头戴显示设备对用户动作识别精度低的问题,通过本申请的技术方案提高了用户动作的识别精度。
Description
技术领域
本发明涉及虚拟现实技术领域,尤其涉及一种动作识别方法、头戴显示设备和存储介质。
背景技术
近年来,头戴显示设备由于其轻巧且方便携带的特点,被越来越多的用户所使用。头戴显示设备具有可以与三维环境进行交互的图形界面,其已成为人机交互的重要媒介,而在人机交互的过程中,对用户动作识别的过程尤为重要。但是,在通过头戴显示设备对用户动作进行捕捉识别时,准确度较低。
发明内容
本申请实施例通过提供一种动作识别方法、头戴显示设备和存储介质,旨在解决头戴显示设备对用户动作识别准确度低的问题。
本申请提供了一种动作识别方法,所述动作识别方法,包括:
确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点;
确定所述肢体关键点之间的亲和距离和肢体角度;
将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作。
可选地,所述确定所述肢体关键点之间的亲和距离和肢体角度的步骤包括:
获取第一肢体关键点的位置信息、第二肢体关键点的位置信息和第三肢体关键点的位置信息;
根据所述第一肢体关键点的位置信息和所述第二肢体关键点的位置信息确定所述第一肢体关键点和所述第二肢体关键点之间的第一亲和距离;
根据所述第二肢体关键点的位置信息和所述第三肢体关键点的位置信息确定所述第二肢体关键点和所述第三肢体关键点之间的第二亲和距离;
根据所述第一亲和距离和所述第二亲和距离确定所述第一肢体关键点与所述第三肢体关键点之间的弧度值;
根据所述弧度值确定所述肢体角度。
可选地,所述将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作的步骤包括:
将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型;
通过所述生成对抗网络模型的判别器判别由所述肢体关键点、所述亲和距离和所述肢体角度对应的肢体动作与所述带有标签的标准肢体动作之间的相似度;
在所述相似度达到预设阈值时,将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作确定为所述人体图像数据对应的控制动作。
可选地,所述通过所述判别器判别由所述肢体关键点、所述亲和距离和所述肢体角度对应的肢体动作与所述带有标签的标准肢体动作之间的相似度的步骤之后,还包括:
在所述相似度未达到预设阈值时,返回执行所述将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型的判别器的步骤。
可选地,所述确定采集到的人体图像数据对应的特征信息的步骤包括:
对当前获取的所述人体图像数据进行分割,得到目标图像数据;
将所述目标图像数据输入第一神经网络模型,根据所述第一神经网络模型每一层的输出结果得到所述特征信息,所述目标图像数据依次经过所述第一神经网络模型的输入层、池化层、卷积层、全连接层及softmax层。
可选地,所述特征信息包括手指特征信息和手臂特征信息;所述根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤包括:
将所述手指特征信息和所述手臂特征信息输入第二神经网络模型,识别所述手指特征信息对应的手指关键点及所述手臂特征信息对应的手臂关键点;
基于所述手指关键点的位置和所述手臂关键点的位置生成所述肢体关键点。
可选地,所述根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤之后,还包括:
获取肢体末端关键点的位置;
基于逆向运动学和所述肢体末端关键点的位置确定除所述肢体末端关键点之外的其他关键点的位置;
采用所述其他关键点的位置对对应的所述肢体关键点进行修正,得到修正后的所述肢体关键点,并执行确定修正后的所述肢体关键点之间的亲和距离和肢体角度。
可选地,所述将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作的步骤之后,还包括:
生成所述控制动作对应的操作信号;
在头戴显示设备的交互界面上响应所述操作信号对应的操作。
可选地,所述确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤之前,还包括:
控制手持相机启动,以通过所述手持相机采集下肢图像数据,所述手持相机与所述头戴显示设备通信连接。
可选地,所述确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤包括:
确定头戴显示设备的外部相机采集到的上肢图像数据对应的特征信息、及所述手持相机采集到的所述下肢图像数据对应的特征信息;
根据所述上肢图像数据对应的特征信息和所述下肢图像数据对应的特征信息识别所述人体图像数据对应的肢体关键点。
此外,为实现上述目的,本发明还提供了一种头戴显示设备,该头戴显示设备包括:存储单元、控制单元及存储在所述存储单元上并可在所述控制单元上运行的动作识别程序,所述动作识别程序被所述控制单元执行时实现上述的动作识别方法的步骤。
此外,为实现上述目的,本发明还提供了一种计算机可读存储介质,其上存储有动作识别程序,所述动作识别程序被控制单元执行时实现上述的动作识别方法的步骤。
本申请提供的一种动作识别方法、头戴显示设备和存储介质的技术方案,首先确定采集到的人体图像数据对应的特征信息,进而根据所述特征信息识别人体图像数据中的肢体关键点;接着,在得到肢体关键点后,确定该肢体关键点之间的亲和距离,及根据肢体关键点确定肢体角度;最后,再将与肢体关键点、亲和距离和肢体角度匹配的动作识别为人体图像数据对应的动作。由于对采集的人体图像数据进行特征识别以及提取肢体关键点,再采用亲和距离和肢体角度对人体关键点进行约束,解决了头戴显示设备对用户动作识别准确度低的问题,通过本申请所提出的技术方案提高了用户动作的识别精度。
附图说明
图1为本发明实施例方案涉及的头戴显示设备的结构示意图;
图2为本发明动作识别方法第一实施例的流程示意图;
图3为本发明肢体关键点示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明,上述附图只是一个实施例图,而不是发明的全部。
具体实施方式
本申请为了解决头戴显示设备对用户动作识别准确度低的问题。本申请提出了一种动作识别方法。该动作识别方法首先确定采集到的人体图像数据对应的特征信息,进而根据所述特征信息识别人体图像数据中的肢体关键点;接着,在得到肢体关键点之后,确定该肢体关键点之间的亲和距离,及根据肢体关键点确定肢体角度;最后,再将与肢体关键点、亲和距离和肢体角度匹配的动作识别为人体图像数据对应的动作。由于对采集的人体图像数据进行特征识别以及提取肢体关键点,再采用亲和距离和肢体角度对人体关键点进行约束,从而使得头戴显示设备在与用户交互的过程中,提高用户动作识别的准确度。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,图1为本发明实施例方案涉及的头戴显示设备的硬件运行环境的结构示意图。本发明一些实施例提供的头戴显示设备可以为外接式头戴显示设备或者一体式头戴显示设备,其中外接式头戴显示设备需要与外部处理系统(例如计算机处理系统)配合使用。可选地,该头戴显示设备还可以为虚拟现实头戴设备、增强现实头戴设备、混合现实头戴设备等。本申请以虚拟现实头戴设备为例。
图1示出了一些实施例中头戴显示设备500的内部配置结构示意图。显示单元501可以包括显示面板,显示面板设置在头戴显示设备500内部,可以为一整块面板、或者为由多个分体设置多个小面板组成。显示面板可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。
虚拟图像光学单元502以放大方式拍摄显示单元501所显示的图像,并允许用户按放大的虚拟图像观察所显示的图像。作为输出到显示单元501上的显示图像,可以是从内容再现设备(蓝光光碟或DVD播放器)或流媒体服务器提供的虚拟场景的图像、或者使用外部相机510拍摄的现实场景的图像。
一些实施例中,虚拟图像光学单元502可以包括透镜单元,例如球面透镜、非球面透镜、菲涅尔透镜等。输入操作单元503包括至少一个用来执行输入操作的操作部件,例如按键、按钮、开关或者其他具有类似功能的部件,通过操作部件接收用户指令,并且向控制单元507输出指令。
状态信息获取单元504可用于获取穿戴头戴显示设备500的用户的状态信息。状态信息获取单元504可以包括各种类型的传感器,用于自身检测状态信息,并可以通过通信单元505从外部设备(例如智能手机、腕表和用户穿戴的其它多功能终端)获取状态信息。状态信息获取单元504还可获取用户的头部的位置信息和/或姿态信息。状态信息获取单元504可以包括陀螺仪传感器、加速度传感器、全球定位系统(GPS)传感器、地磁传感器、多普勒效应传感器、红外传感器、射频场强度传感器中的一个或者多个。此外,状态信息获取单元504获取穿戴头戴显示设备500的用户的状态信息,例如获取例如用户的操作状态(用户是否穿戴头戴显示设备500)、用户的动作状态(诸如静止、行走、跑动和诸如此类的移动状态,手或指尖的姿势、眼睛的开或闭状态、视线方向、瞳孔尺寸、肢体动作)、精神状态(用户是否沉浸在观察所显示的图像以及诸如此类的),甚至生理状态等。
通信单元505执行与外部装置的通信处理、调制和解调处理、以及通信信号的编码和解码处理。另外,控制单元507可以从通信单元505向外部装置发送传输数据。通信方式可以是有线或者无线形式,例如移动高清链接(MHL)或通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真(Wi-Fi)、蓝牙通信或低功耗蓝牙通信,以及IEEE802.11s标准的网状网络等。另外,通信单元505可以是根据宽带码分多址(W-CDMA)、长期演进(LTE)和类似标准操作的蜂窝无线收发器。
一些实施例中,头戴显示设备500还可以包括存储单元,存储单元506是配置为具有固态驱动器(SSD)等的大容量存储设备。一些实施例中,存储单元506可以存储动作识别程序或各种类型的数据。例如,用户使用头戴显示设备100观看的内容可以存储在存储单元506中。
图像处理单元508用于执行信号处理,比如与从控制单元507输出的图像信号相关的图像质量校正,以及将其分辨率转换为根据显示单元501的屏幕的分辨率。然后,显示驱动单元509依次选择显示单元501的每行像素,并逐行依次扫描显示单元501的每行像素,因而提供基于经信号处理的图像信号的像素信号。
一些实施例中,头戴显示设备500还可以包括外部相机。外部相机510可以设置在头戴显示设备500主体前表面,外部相机510可以为一个或者多个。外部相机510可以获取三维信息,并且也可以用作距离传感器。另外,探测来自物体的反射信号的位置灵敏探测器(PSD)或者其他类型的距离传感器可以与外部相机510一起使用。外部相机510和距离传感器可以用于检测穿戴头戴显示设备500的用户的身体位置、姿态和形状。另外,一定条件下用户可以通过外部相机510直接观看或者预览现实场景。可选地,该外部相机510还可以是设置在用户所在场景内,且与头戴显示设备500通信连接的手持相机,在该场景下,该手持可用于获取下肢图像。
一些实施例中,头戴显示设备500还可以包括声音处理单元,声音处理单元511可以执行从控制单元507输出的声音信号的声音质量校正或声音放大,以及输入声音信号的信号处理等。然后,声音输入/输出单元512在声音处理后向外部输出声音以及输入来自麦克风的声音。
需要说明的是,图1中虚线框示出的结构或部件可以独立于头戴显示设备500之外,例如可以设置在外部处理系统(例如计算机系统)中与头戴显示设备500配合使用;或者,虚线框示出的结构或部件可以设置在头戴显示设备500内部或者表面上。
本领域技术人员可以理解,图1中示出的头戴显示设备结构并不构成对头戴显示设备限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的头戴显示设备中,控制单元507可以用于调用存储单元506中存储的动作识别程序。在本实施例中,头戴显示设备包括:存储单元506、控制单元507及存储在所述存储单元506上并可在所述控制单元507上运行的动作识别程序,其中:
控制单元507调用存储单元506中存储的动作识别程序时,执行以下操作:
确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点;
确定所述肢体关键点之间的亲和距离和肢体角度;
将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
获取第一肢体关键点的位置信息、第二肢体关键点的位置信息和第三肢体关键点的位置信息;
根据所述第一肢体关键点的位置信息和所述第二肢体关键点的位置信息确定所述第一肢体关键点和所述第二肢体关键点之间的第一亲和距离;
根据所述第二肢体关键点的位置信息和所述第三肢体关键点的位置信息确定所述第二肢体关键点和所述第三肢体关键点之间的第二亲和距离;
根据所述第一亲和距离和所述第二亲和距离确定所述第一肢体关键点与所述第三肢体关键点之间的弧度值;
根据所述弧度值确定所述肢体角度。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型;
通过所述生成对抗网络模型的判别器判别由所述肢体关键点、所述亲和距离和所述肢体角度对应的肢体动作与所述带有标签的标准肢体动作之间的相似度;
在所述相似度达到预设阈值时,将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作确定为所述人体图像数据对应的控制动作。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
在所述相似度未达到预设阈值时,返回执行所述将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型的判别器的步骤。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
对当前获取的所述人体图像数据进行分割,得到目标图像数据;
将所述目标图像数据输入第一神经网络模型,根据所述第一神经网络模型每一层的输出结果得到所述特征信息,所述目标图像数据依次经过所述第一神经网络模型的输入层、池化层、卷积层、全连接层及softmax层。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
将所述手指特征信息和所述手臂特征信息输入第二神经网络模型,识别所述手指特征信息对应的手指关键点及所述手臂特征信息对应的手臂关键点;
基于所述手指关键点的位置和所述手臂关键点的位置生成所述肢体关键点。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
获取肢体末端关键点的位置;
基于逆向运动学和所述肢体末端关键点的位置确定除所述肢体末端关键点之外的其他关键点的位置;
采用所述其他关键点的位置对对应的所述肢体关键点进行修正,得到修正后的所述肢体关键点,并执行确定修正后的所述肢体关键点之间的亲和距离和肢体角度。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
生成所述控制动作对应的操作信号;
在头戴显示设备的交互界面上响应所述操作信号对应的操作。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
控制手持相机启动,以通过所述手持相机采集下肢图像数据,所述手持相机与所述头戴显示设备通信连接。
控制单元507调用存储单元506中存储的动作识别程序时,还执行以下操作:
确定头戴显示设备的外部相机采集到的上肢图像数据对应的特征信息、及所述手持相机采集到的所述下肢图像数据对应的特征信息;
根据所述上肢图像数据对应的特征信息和所述下肢图像数据对应的特征信息识别所述人体图像数据对应的肢体关键点。
以下将以实施例的方式对本申请的技术方案展开阐述。
如图2所示,在本申请的第一实施例中,本申请的动作识别方法,包括以下步骤:
步骤S110,确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点。
在本实施例中,本申请的动作识别方法应用于头戴显示设备,即VR一体机。可选地,该动作识别方法还可应用于其他终端设备。可通过外部相机获取人体图像数据。该外部相机可设置在头戴显示设备主体前表面,该外部相机可以为一个或者多个。该外部相机还可设置在用户所在场景内,且与头戴显示设备通信连接的图像采集设备,在该场景下,该外部相机可用于采集人体图像数据。
可选地,在该外部相机采集人体图像数据之后,将该人体图像数据发送至头戴显示设备。可选地,可将外部相机采集的预设时段内的人体图像数据定时发送至头戴显示设备。也可以实时将外部相机采集的人体图像数据发送至头戴显示设备。可选地,该人体图像数据可以是视频解码得到的人体图像帧数据。
可选地,在将人体图像数据发送至头戴显示设备之后,可通过该头戴显示设备的控制单元对该人体图像数据进行处理,从而确定控制动作。具体的,可确定采集到的人体图像数据对应的特征信息,并根据该特征信息识别人体图像数据对应的肢体关键点。其中,该特征信息也为图像特征信息。图像特征信息是指可以对图像的特点或内容进行表征的一系列属性的集合,主要包括图像自然特征如亮度、色彩、纹理等,和图像人为特征如图像频谱、图像直方图等。图像特征信息主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。图像特征提取根据其相对尺度可分为全局特征提取和局部特征提取两类。全局特征提取关注图像的整体表征。常见的全局特征包括颜色特征、纹理特征、形状特征、空间位置关系特征等。局部特征提取关注图像的某个局部区域的特殊性质。一幅图像中往往包含若干兴趣区域,从这些区域中可以提取数量不等的若干个局部特征。
可选地,本申请通过将人体图像数据输入第一神经网络模型,从而得到特征信息。该第一神经网络模型用于将该人体图像数据转换为特征信息。该第一神经网络模型可以为VGG19网络模型,该第一神经网络模型也可以为其他具有图像特征转换功能的模型。其中,该第一神经网络模型包括输入层、池化层、卷积层、全连接层以及softmax层。人体图像数据经过该第一神经网络模型的不同层时,会被转换成不同的特征信息。
在一些应用场景下,VR一体机可对用户的肢体动作进行捕捉识别,可以根据这些肢体动作作为三维环境中交互界面的索引,用户可以使用不同的动作来对图形界面进行相应的操作。而在这个过程中,为了提高动作识别的准确度。在采集到人体图像数据之后,需要对当前获取的人体图像数据进行分割,以将一些不必要的信息删除,例如将环境信息删除,得到包括目标图像数据。再将目标图像数据输入第一神经网络模型。其中,该目标图像数据会依次经过该第一神经网络模型的输入层、池化层、卷积层、全连接层及softmax层,并通过每一层的输出结果从而得到特征信息。可选地,该目标图像数据可以是肢体图像数据,例如上肢图像数据,也可以为头部图像数据,还可以为用户身体其他部位的数据。
在本实施例中,在得到特征信息之后,根据该特征信息识别人体图像数据对应的肢体关键点。可选地,可将特征信息输入第二神经网络模型,从而得到肢体关键点。其中,可对上肢图像数据中的手指和手臂分别进行转换,得到手指特征信息和手臂特征信息。在得到手指特征信息和手臂特征信息之后,需要将手指特征信息和手臂特征信息输入第二神经网络模型,从而识别和提取手指特征信息对应的手指关键点,以及识别和提取手臂特征信息对应的手臂关键点。在得到手指关键点以及手臂关键点之后,可将手指关键点以及手臂关键点根据手指关键点的位置以及手臂关键点的位置进行排序,从而得到有连接顺序的肢体关键点。
可选地,上述的第二神经网络模型可以为CNN或RNN神经网络模型。可以将手指特征信息和手臂特征信息分别输入第二神经网络模型,进而识别和提取手指特征信息和手臂特征信息。其中,采用第二神经网络模型对特征信息进行识别和提取从而得到肢体关键点的过程属于常规技术手段,在此不再赘述。
可选地,在得到肢体关键点之后,还可采用逆向运动学技术对肢体关键点进行修正,从而得到修正后的肢体关键点。其中,逆向运动学即已知肢体末端的位置姿态,计算机器人对应关键点的位置。逆向运动学求解关键点的位置可采用的方式包括但不限于:解析法、数值法。其中,数值法包括但不限于雅可比逆矩阵法、牛顿法、数值驱动法、混合法、生物力学约束等。可选地,可获取肢体末端关键点的位置,基于逆向运动学和肢体末端关键点的位置确定除末端关键点之外的各个其他关键点的位置,进而采用其他关键点的位置对对应的肢体关键点进行修正,从而得到修正后的肢体关键点。在得到修正后的肢体关键点之后,可确定修正后的肢体关键点的亲和距离和肢体角度。通过逆向运动学确定各个关键点的位置并对原先确定的肢体关键点进行修正,从而使得最终得到肢体关键点更加精确。
可选地,还可以根据逆运动学技术确定其他关键点的位置,并确定其他关键点的修正系数,进而采用该修正系数对原先确定的肢体关键点进行修正,从而得到修正后的肢体关键点,进而确定修正后的肢体关键点的亲和距离和肢体角度。
步骤S120,确定所述肢体关键点之间的亲和距离和肢体角度。
在本实施例中,在根据特征信息识别人体图像数据对应的肢体关键点或者是在确定修正后的肢体关键点之后,对于标注出的肢体关键点,由于外部相机采集的数据为二维图像,需要通过特征约束来确定其具体的位置和行为,包括关键点亲和距离、角度等。因此,可进一步确定肢体关键点之间的亲和距离和肢体角度。其中,该肢体关键点的数量包括多个,且可标注各个肢体关键点的位置。该亲和距离也为欧式距离,欧式距离是指空间内两个点之间的距离。可选地,可以计算相邻两个肢体关键点之间的亲和距离,也可以计算任意两个肢体关键点之间的亲和距离。例如,存在三个肢体关键点,分别为位于手指的第一肢体关键点(图3中的右手首)、位于手肘的第二肢体关键点(图3中的右肘)以及位置肩部的第三肢体关键点(图3中的右肩),则可以计算第一肢体关键点与第二肢体关键点之间的亲和距离,也可以计算第一肢体关键点与第三肢体关键点之间的亲和距离。其中,该肢体角度为肢体弧度,其可以为肢体关键点所形成的两条线段之间的夹角。例如,第一肢体关键点与第二肢体关键点之间的第一线段,与第三肢体关键点与第二肢体关键点之间的第二线段所形成的夹角,即右肘处的夹角。也可以是在肢体存在弧度时,均可计算其对应的肢体角度。
可选地,确定肢体关键点之间的亲和距离和肢体角度可以具体为:获取第一肢体关键点的位置信息、第二肢体关键点的位置信息和第三肢体关键点的位置信息,根据第一肢体关键点的位置信息和第二肢体关键点的位置信息确定第一肢体关键点和第二肢体关键点之间的第一亲和距离,根据所述第二肢体关键点的位置信息和所述第三肢体关键点的位置信息确定所述第二肢体关键点和所述第三肢体关键点之间的第二亲和距离。其中,关键点的亲和距离可通过以下的欧式距离进行计算,如手臂关键点a与手腕关键点b之间的欧式距离为:
其中,xa与ya分别表示手臂关键点a的横坐标和纵坐标,xb与yb分别表示手腕关键点b的横坐标和纵坐标。
在通过上述方式计算肢体关键点之间的欧式距离之后,为了判断肢体行为的相对位置运动,引入了角度约束。因此,可进一步根据第一亲和距离和第二亲和距离确定所述第一肢体关键点与所述第三肢体关键点之间的弧度值;其中,可采用以下公式计算弧度值:
其中,a、b、c分别表示在空间坐标系中,根据第一肢体关键点、第二肢体关键点和第三肢体关键点的位置确定的第一亲和距离和第二亲和距离计算得到的。
在得到弧度值之后,进而可根据弧度与角度之间的转换关系将弧度值转化为肢体角度。
步骤S130,将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作。
在本实施例中,在得到肢体关键点、肢体关键点之间的亲和距离和肢体角度之后,可将肢体关键点、亲和距离和肢体角度输入生成式对抗网络,从而识别人体图像数据对应的控制动作。可选地,将肢体关键点集合、关键点之间的亲和距离和角度值输入生成对抗网络模型。将属性输入生成器G进行肢体控制动作预测,并和带有标签的标准肢体动作一起输入鉴别器D进行对抗,在达到对抗效果,即达到阈值或结果趋于稳定后,通过生成器G就可以对用户肢体控制动作进行有效识别。
可选地,将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作具体包括以下步骤:
步骤S131,将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型;
步骤S132,通过所述生成对抗网络模型的判别器判别由所述肢体关键点、所述亲和距离和所述肢体角度对应的肢体动作与所述带有标签的标准肢体动作之间的相似度。
步骤S133,在所述相似度达到预设阈值时,将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作确定为所述人体图像数据对应的控制动作。
其中,带有标签的标准肢体动作为标准动作,可对该标准动作中各个肢体关键点、肢体角度以及关键点之间的亲和距离进行标注。再将该标准动作所标注的各个肢体关键点、肢体角度以及关键点之间的亲和距离分别与输入到该生成对抗网络模型的判别器的肢体关键点、肢体角度和亲和距离进行比对,以观察各自对应的相似度。可选地,该预设阈值可根据实际情况进行设置。在其相似度达到预设阈值时,即可输出判别结果为“真”,此时,将与肢体关键点、亲和距离和肢体角度所匹配的标准动作确定为人体图像数据对应的控制动作。
可选地,在其相似度未达到预设阈值时,即可输出判别结果为“假”,此时,则继续根据生成对抗网络模型的生成器进行肢体控制动作预测,将肢体关键点、亲和距离、肢体角度和带有标签的标准肢体动作输入生成对抗网络模型进行判别,直到判别结果为“真”时,结束判别,并将匹配的标准动作确定为人体图像数据对应的控制动作,从而实现对用户肢体动作的有效识别。
可选地,将与肢体关键点、亲和距离和肢体角度匹配的动作识别为人体图像数据对应的控制动作还可以是根据该肢体角度确定多个标准肢体动作。确定各个标准肢体动作中与该亲和距离对应的标准亲和距离,计算该亲和距离与各个标准亲和距离之间的差值,并从中选取差值最小时对应的目标标准亲和距离,将差值最小的目标标准亲和距离对应的目标标准肢体动作确定为人体图像数据对应的控制动作,从而提高控制动作的识别精度。
可选地,在确定控制动作之后,可进行相应的控制。可以将该控制动作作为三维环境中的交互界面的索引,用户可以使用不同的控制动作来对图形界面进行相应的操作。可选地,可生成该控制动作对应的操作信号,并在头戴显示设备的交互界面上响应该操作信号对应的操作,比如挥动手臂可以进行翻页操作,“比耶”可以确定等,从而提高VR一体机的使用体验。
本实施例根据上述技术方案,首先通过确定采集到的人体图像数据对应的特征信息,进而根据所述特征信息识别人体图像数据中的肢体关键点;接着,在得到肢体关键点之后,确定该肢体关键点之间的亲和距离,及根据肢体关键点确定肢体角度;最后,再将与肢体关键点、亲和距离和肢体角度匹配的动作识别为人体图像数据对应的动作。由于对采集的人体图像数据进行特征识别以及提取肢体关键点,再采用亲和距离和肢体角度对人体关键点进行约束,从而使得头戴显示设备在与用户交互的过程中,提高用户动作识别的准确度。
可选地,当需要对下肢动作进行识别时,若只开启头戴显示设备的外部相机进行识别,由于外部相机一般佩戴于用户头部,可能会导致下肢动作识别不准确。因此,当需要对下肢动作或者整体动作进行识别时,可以控制手持相机开启,以对下肢动作进行识别。其中,该手持相机与头戴显示设备通信连接,手机相机采集的数据可以传输至头戴显示设备或者是终端设备进行处理。例如,在跳舞毯上跳动时,可同时开启手持相机和头戴显示设备的外部相机采集肢体图像数据,进而根据肢体图像数据确定用户的肢体动作,提高用户整个肢体动作的识别精度。
可选地,在控制手持相机启动之后,头戴显示设备的外部相机用于采集上肢图像数据,手持相机用于采集下肢图像数据。在得到上肢图像数据和下肢图像数据之后,可确定头戴显示设备的外部相机采集到的上肢图像数据对应的特征信息、及手持相机采集到的下肢图像数据对应的特征信息。接着,由于采集的上肢图像数据和下肢图像数据可能存在重合的图像数据,因此,可基于上肢图像数据对应的特征信息与下肢图像数据对应的特征信息确定重合的图像数据,将重合的图像数据过滤,再将已过滤重合的图像数据之后的上肢图像数据和下肢图像数据进行融合,根据融合后的上肢图像数据和下肢图像数据识别所述人体图像数据对应的肢体关键点,进而根据人体图像数据对应的肢体关键点确定整体动作。
本实施例根据上述技术方案,当需要对下肢动作或者整体动作进行识别时,可通过手持相机和外部相机配合使用,通过手持相机获取下肢图像数据,通过外部相机获取上肢图像数据,进而得到用户整体动作,使得动作识别精度更加准确。
本发明实施例提供了动作识别方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有动作识别程序,所述动作识别程序被处理器执行时实现如上所述的动作识别的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
由于本申请实施例提供的计算机可读存储介质,为实施本申请实施例的方法所采用的计算机可读存储介质,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的计算机可读存储介质都属于本申请所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储单元、CD-ROM、光学存储单元等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的控制单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的控制单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储单元中,使得存储在该计算机可读存储单元中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种动作识别方法,其特征在于,所述动作识别方法包括:
确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点;
确定所述肢体关键点之间的亲和距离和肢体角度;
将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作。
2.如权利要求1所述的动作识别方法,其特征在于,所述确定所述肢体关键点之间的亲和距离和肢体角度的步骤包括:
获取第一肢体关键点的位置信息、第二肢体关键点的位置信息和第三肢体关键点的位置信息;
根据所述第一肢体关键点的位置信息和所述第二肢体关键点的位置信息确定所述第一肢体关键点和所述第二肢体关键点之间的第一亲和距离;
根据所述第二肢体关键点的位置信息和所述第三肢体关键点的位置信息确定所述第二肢体关键点和所述第三肢体关键点之间的第二亲和距离;
根据所述第一亲和距离和所述第二亲和距离确定所述第一肢体关键点与所述第三肢体关键点之间的弧度值;
根据所述弧度值确定所述肢体角度。
3.如权利要求1或2所述的动作识别方法,其特征在于,所述将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作的步骤包括:
将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型;
通过所述生成对抗网络模型的判别器判别由所述肢体关键点、所述亲和距离和所述肢体角度对应的肢体动作与所述带有标签的标准肢体动作之间的相似度;
在所述相似度达到预设阈值时,将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作确定为所述人体图像数据对应的控制动作。
4.如权利要求3所述的动作识别方法,其特征在于,所述通过所述判别器判别由所述肢体关键点、所述亲和距离和所述肢体角度对应的肢体动作与所述带有标签的标准肢体动作之间的相似度的步骤之后,还包括:
在所述相似度未达到预设阈值时,返回执行所述将所述肢体关键点、所述亲和距离、所述肢体角度和带有标签的标准肢体动作输入生成对抗网络模型的判别器的步骤。
5.如权利要求1所述的动作识别方法,其特征在于,所述确定采集到的人体图像数据对应的特征信息的步骤包括:
对当前获取的所述人体图像数据进行分割,得到目标图像数据;
将所述目标图像数据输入第一神经网络模型,根据所述第一神经网络模型每一层的输出结果得到所述特征信息,所述目标图像数据依次经过所述第一神经网络模型的输入层、池化层、卷积层、全连接层及softmax层。
6.如权利要求1或5所述的动作识别方法,其特征在于,所述特征信息包括手指特征信息和手臂特征信息;所述根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤包括:
将所述手指特征信息和所述手臂特征信息输入第二神经网络模型,识别所述手指特征信息对应的手指关键点及所述手臂特征信息对应的手臂关键点;
基于所述手指关键点的位置和所述手臂关键点的位置生成所述肢体关键点。
7.如权利要求1所述的动作识别方法,其特征在于,所述根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤之后,还包括:
获取肢体末端关键点的位置;
基于逆向运动学和所述肢体末端关键点的位置确定除所述肢体末端关键点之外的其他关键点的位置;
采用所述其他关键点的位置对对应的所述肢体关键点进行修正,得到修正后的所述肢体关键点,并执行确定修正后的所述肢体关键点之间的亲和距离和肢体角度。
8.如权利要求1所述的动作识别方法,其特征在于,所述将与所述肢体关键点、所述亲和距离和所述肢体角度匹配的动作,识别为所述人体图像数据对应的控制动作的步骤之后,还包括:
生成所述控制动作对应的操作信号;
在头戴显示设备的交互界面上响应所述操作信号对应的操作。
9.如权利要求1所述的动作识别方法,其特征在于,所述确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤之前,还包括:
控制手持相机启动,以通过所述手持相机采集下肢图像数据,所述手持相机与所述头戴显示设备通信连接。
10.如权利要求9所述的动作识别方法,其特征在于,所述确定采集到的人体图像数据对应的特征信息,并根据所述特征信息识别所述人体图像数据对应的肢体关键点的步骤包括:
确定头戴显示设备的外部相机采集到的上肢图像数据对应的特征信息、及所述手持相机采集到的所述下肢图像数据对应的特征信息;
根据所述上肢图像数据对应的特征信息和所述下肢图像数据对应的特征信息识别所述人体图像数据对应的肢体关键点。
11.一种头戴显示设备,其特征在于,所述头戴显示设备包括:存储单元、控制单元及存储在所述存储单元上并可在所述控制单元上运行的动作识别程序,所述动作识别程序被所述控制单元执行时实现如权利要求1-10中任一项所述的动作识别方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有动作识别程序,所述动作识别程序被控制单元执行时实现权利要求1-10中任一项所述的动作识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211049678.XA CN115393962A (zh) | 2022-08-30 | 2022-08-30 | 动作识别方法、头戴显示设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211049678.XA CN115393962A (zh) | 2022-08-30 | 2022-08-30 | 动作识别方法、头戴显示设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393962A true CN115393962A (zh) | 2022-11-25 |
Family
ID=84125285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211049678.XA Pending CN115393962A (zh) | 2022-08-30 | 2022-08-30 | 动作识别方法、头戴显示设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393962A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661942A (zh) * | 2022-12-15 | 2023-01-31 | 广州卓远虚拟现实科技有限公司 | 基于虚拟现实的动作数据处理方法、系统及云平台 |
-
2022
- 2022-08-30 CN CN202211049678.XA patent/CN115393962A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661942A (zh) * | 2022-12-15 | 2023-01-31 | 广州卓远虚拟现实科技有限公司 | 基于虚拟现实的动作数据处理方法、系统及云平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11431896B2 (en) | Augmented reality for three-dimensional model reconstruction | |
CN109951654B (zh) | 一种视频合成的方法、模型训练的方法以及相关装置 | |
US10719759B2 (en) | System for building a map and subsequent localization | |
CN110517319B (zh) | 一种相机姿态信息确定的方法及相关装置 | |
CN105283905B (zh) | 使用点和线特征的稳健跟踪 | |
CN109949412B (zh) | 一种三维对象重建方法和装置 | |
CN103310186B (zh) | 校正图像中用户的注视方向的方法和便携式终端 | |
CN108200334B (zh) | 图像拍摄方法、装置、存储介质及电子设备 | |
KR102106135B1 (ko) | 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법 | |
CN109453517B (zh) | 虚拟角色控制方法和装置、存储介质、移动终端 | |
CN104885098A (zh) | 基于移动装置的文本检测及跟踪 | |
CN104364733A (zh) | 注视位置检测装置、注视位置检测方法和注视位置检测程序 | |
US11977981B2 (en) | Device for automatically capturing photo or video about specific moment, and operation method thereof | |
US11918883B2 (en) | Electronic device for providing feedback for specific movement using machine learning model and operating method thereof | |
US20200273200A1 (en) | Camera localization based on skeletal tracking | |
JP6362085B2 (ja) | 画像認識システム、画像認識方法およびプログラム | |
US9268408B2 (en) | Operating area determination method and system | |
US20120219179A1 (en) | Computer-readable storage medium, image processing apparatus, image processing system, and image processing method | |
CN110852942A (zh) | 一种模型训练的方法、媒体信息合成的方法及装置 | |
JP2019048026A (ja) | 生体情報解析装置及び手肌解析方法 | |
CN112927259A (zh) | 基于多相机的裸手追踪显示方法、装置及系统 | |
CN115393962A (zh) | 动作识别方法、头戴显示设备和存储介质 | |
CN113538321A (zh) | 基于视觉的体积测量方法及终端设备 | |
CN110991325A (zh) | 一种模型训练的方法、图像识别的方法以及相关装置 | |
CN115482359A (zh) | 目标的尺寸测量方法、电子设备及其介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |