CN109919077A

CN109919077A - 姿态识别方法、装置、介质和计算设备

Info

Publication number: CN109919077A
Application number: CN201910162095.XA
Authority: CN
Inventors: 简睿卿; 周志敏; 丛林
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-06-21
Anticipated expiration: 2039-03-04
Also published as: CN109919077B

Abstract

本发明的实施方式提供了一种姿态识别方法。该方法包括获取待识别图像，该待识别图像中包括目标对象；根据待识别图像确定第一向量，该第一向量表征目标对象的姿态；以第一向量作为深度神经网络模型的输入，输出第二向量，该第二向量包括表征目标对象关于多个预定姿态中每一个的置信度；以及根据第二向量，确定目标对象的姿态。本发明的方法通过确定表征目标对象姿态的第一向量来确定目标对象关于预定姿态的置信度，可以提高目标对象姿态识别的准确性。此外，本发明的实施方式提供了一种姿态识别装置、介质和计算设备。

Description

姿态识别方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及信息处理领域，更具体地，本发明的实施方式涉及一种姿态识别方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着电子技术的发展，为了提高交互体验，各种人机交互方式应运而生。人机交互模式随着使用人群的扩大，不断向非专业人群渗透，因此，越来越回归至一种“自然”的方式。其中，姿态(具体例如可以是手势)识别技术即为“自然”方式的一种。

姿态识别技术中，静态姿态识别的准确性是进行人机交互的关键。不准确的静态姿态识别会造成交互误触发，延迟触发等严重影响用户体验的情况。

目前主流的姿态识别方法主要有模板匹配方法、基于Hu不变距的深度图静态姿态识别方法及基于卷积神经网络的识别方法。其中，模板匹配方法对于复杂数据的鲁棒性较差，且处理效率较低。基于Hu不变距的姿态识别对图像噪声(例如部分姿态被遮挡)比较敏感，且计算比较复杂，用时较长。基于卷积神经网络的识别方法由于以彩色图像作为输入，因此容易受到环境光照的影响，需要进行一些复杂的预处理来修正图像，且其对于轮廓外形相似的姿态(例如单独伸出食指的姿态和单独伸出中指的姿态)，在没有额外信息作为输入的情况下，很难对该姿态进行正确识别。

发明内容

因此在现有技术中，采用现有的姿态识别方法存在识别精确度低、识别操作复杂等问题。

为此，非常需要一种改进的姿态识别方法，以提高姿态识别准确率及姿态识别效率。

在本上下文中，本发明的实施方式期望提供能够准确识别外形轮廓相似的姿态，并因此提高姿态识别准确率的姿态识别方法。

在本发明实施方式的第一方面中，提供了一种姿态识别方法，包括：获取待识别图像，该待识别图像中包括目标对象；根据待识别图像确定第一向量，该第一向量表征目标对象的姿态；以第一向量作为深度神经网络模型的输入，输出第二向量，该第二向量包括表征目标对象关于多个预定姿态中每一个的置信度；以及根据第二向量，确定目标对象的姿态。

在本发明的一个实施例中，上述根据待识别图像确定第一向量包括：以待识别图像作为卷积神经网络模型的输入，输出第一向量。

在本发明的另一个实施例中，上述根据待识别图像确定第一向量包括：确定表征目标对象的姿态的一个或多个关键点；以待识别图像的任一点为原点，确定一个或多个关键点的三维坐标值；以及对一个或多个关键点的三维坐标值进行归一化处理，由经归一化处理得到的一个或多个关键点的归一化三维坐标值组成第一向量。

在本发明的又一个实施例中，上述目标对象包括手，上述一个或多个关键点为多个关键点，该多个关键点中的一个关键点为手的掌心对应的关键点，其他关键点为手的关节对应的关键点。

在本发明的再一个实施例中，上述姿态识别方法还包括：获取多个样本图像，每个样本图像包括目标对象，且每个样本图像各自具有标签，该标签指示了每个样本图像包括的目标对象的姿态信息；根据多个样本图像，逐样本图像的确定第三向量，该第三向量表征样本图像包括的目标对象的姿态，且该第三向量具有所述标签；对至少一个第三向量进行向量变换，得到与至少一个第三向量对应的至少一个第四向量，其中，以至少一个第三向量的标签分别作为对应的至少一个第四向量的标签；以及以多个第三向量及至少一个第四向量作为样本数据，以每个样本数据各自具有的标签指示的每个样本图像包括的目标对象的姿态信息为目标，采用随机梯度下降的反向传播算法对深度神经网络模型进行训练。

在本发明的再一个实施例中，上述深度神经网络模型包括输入层、升维层、降维激活层及分类层。其中，输入层用于输入第一向量。升维层用于将第一向量投影至高维空间，得到第五向量。降维激活层用于对第五向量进行非线性处理及降维处理，得到第六向量。分类层用于对第六向量进行加权求和得到第二向量。

在本发明的再一个实施例中，上述待识别图像包括前景图像，该前景图像包括具有目标对象的第一区域。上述姿态识别方法还包括对待识别图像进行预处理。该预处理包括：提取第一区域的图像；以及对第一区域的图像进行归一化处理。其中，第一向量根据经预处理得到的第一区域的图像确定。

在本发明实施方式的第二方面中，提供了一种姿态识别装置，该装置包括待识别图像获取模块、第一向量确定模块、置信度确定模块和姿态确定模块。待识别图像获取模块用于获取待识别图像，该待识别图像中包括目标对象。第一向量确定模块用于根据待识别图像确定第一向量，该第一向量表征目标对象的姿态。置信度确定模块用于以第一向量作为深度神经网络模型的输入，输出第二向量，该第二向量包括表征目标对象关于多个预定姿态中每一个的置信度。姿态确定模块用于根据第二向量，确定目标对象的姿态。

在本发明的一个实施例中，上述第一向量确定模块具体用于以待识别图像作为卷积神经网络模型的输入，输出第一向量。

在本发明的另一个实施例中，上述第一向量确定模块包括关键点确定子模块、坐标确定子模块以及第一归一化处理子模块。其中，关键点确定子模块用于确定表征目标对象的姿态的一个或多个关键点。坐标确定子模块用于以待识别图像的任一点为原点，确定一个或多个关键点的三维坐标值。第一归一化处理子模块用于对一个或多个关键点的三维坐标值进行归一化处理，由经归一化处理得到的一个或多个关键点的归一化三维坐标值组成第一向量。

在本发明的再一个实施例中，上述姿态识别装置还包括样本图像获取模块、第二向量确定模块、向量变换模块及模型训练模块。其中，样本图像获取模块用于获取多个样本图像，每个样本图像包括目标对象，且每个样本图像各自具有标签，该标签指示了每个样本图像包括的目标对象的姿态信息。第二向量确定模块用于根据多个样本图像，逐样本图像的确定第三向量，该第三向量表征样本图像包括的目标对象的姿态，该第三向量具有所述标签。向量变换模块用于对至少一个第三向量进行向量变换，得到与至少一个第三向量对应的至少一个第四向量，其中，以至少一个第三向量的标签分别作为对应的至少一个第四向量的标签。模型训练模块用于以多个第三向量及至少一个第四向量作为样本数据，以每个样本数据各自具有的标签指示的每个样本图像包括的目标对象的姿态信息为目标，采用随机梯度下降的反向传播算法对深度神经网络模型进行训练。

在本发明的再一个实施例中，上述待识别图像包括前景图像，该前景图像包括具有目标对象的第一区域。上述姿态识别装置还包括预处理模块，用于对待识别图像进行预处理。该预处理模块具体包括提取子模块和第二归一化处理子模块。提取子模块用于提取第一区域的图像，第二归一化处理子模块用于对第一区域的图像进行归一化处理。其中，第一向量根据经预处理得到的第一区域的图像确定。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令在被处理器执行时使处理器执行根据本发明实施方式的第一方面所提供的姿态识别方法。

在本发明实施方式的第四方面中，提供了一种计算设备。该计算设备包括存储有可执行指令的一个或多个存储单元，以及一个或多个处理单元。该处理单元执行该可执行指令，用以实现根据本发明实施方式的第一方面所提供的姿态识别方法。

根据本发明实施方式的姿态识别方法、装置、介质和计算设备，在姿态识别过程中，由于表征目标对象姿态的第一向量能够很好的体现目标对象的姿态特征，依据该第一向量确定的目标对象的姿态更为准确。因此将本发明实施方式的姿态识别方法、装置、介质和计算设备应用于非接触式的人机交互中，可以有效提高用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明实施方式的姿态识别方法、装置、介质及计算机设备的应用场景；

图2示意性示出了根据本发明一实施例的姿态识别方法的流程图；

图3示意性示出了根据本发明一实施例的确定第一向量的方法的流程图；

图4示意性示出了根据本发明一实施例的确定第一向量的应用场景图；

图5示意性示出了根据本发明另一实施例的姿态识别方法的流程图；

图6A示意性示出了根据本发明实施例的深度神经网络模型的结构示意图；

图6B示意性示出了根据本发明实施例的深度神经网络模型中输入层的工作原理图；

图6C示意性示出了根据本发明实施例的深度神经网络模型中升维层的工作原理图；

图7A示意性示出了根据本发明又一实施例的姿态识别方法的流程图；

图7B示意性示出了根据本发明一实施例的对待识别图像进行预处理的流程图；

图8示意性示出了根据本发明实施例的姿态识别装置的方框图；

图9示意性示出了本发明实施例的适用于姿态识别方法的程序产品的示意图；

图10示意性示出了根据本发明实施例的适用于姿态识别的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种姿态识别方法、装置、介质和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，若在将待识别图像输入深度神经网络模型之前，先对待识别图像中的目标对象的轮廓进行提取，例如提取该目标对象轮廓的关键点，并以该关键点的坐标值作为深度神经网络模型的输入，可使得深度神经网络模型的输入能够更好的代表目标对象。从而就能够提高确定得到的置信度的准确率，并因此提高姿态识别的准确率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1。

图1示意性示出了根据本发明实施方式的姿态识别方法、装置、介质及计算机设备的应用场景。需要注意的是，图1所示仅为可以应用本发明实施例的应用场景的实例，以帮助本领域技术人员理解本发明的技术内容，但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。

如图1所示，该应用场景100包括有终端设备111、112、113。

其中的终端设备111、112、113例如具有显示屏幕，以用于向用户显示请求的信息。根据本发明的实施例，该终端设备包括但不限于台式计算机、膝上型便携计算机、平板电脑、智能手机、智能家电等等。

其中，终端设备111、112、113例如还可以具有图像采集功能和处理功能。以用于先采集用户的非接触式手势121、122、123的图像。再识别处理采集的图像，确定该非接触手势121、122、123的姿态。最后根据识别的非接触手势的姿态确定用户的意图，并做出与用户意图相对应的响应操作。

具体地，该终端设备111、112、113例如可以响应于非接触式手势121，将当前显示页面切换至下一页。响应于非接触式手势122，确认当前显示页面中的选择信息。响应于非接触式手势123，将当前显示页面返回至上一页等。

根据本发明的实施例，该应用场景例如还可以具有服务器130和网络140。网络140用于在终端设备111、112、113和服务器130之间提供通信链路的介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备111、112、113通过网络140与服务器130交互，以接收或发送消息等。终端设备111、112、113上还可以安装有各种通讯客户端应用。例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

服务器130可以是提供各种服务的服务器，例如对用户利用终端设备111、112、113所浏览的网站提供支持的后台管理服务器(仅为示例)。该服务器130例如还可以对终端设备111、112、113采集得到的用户的非接触式手势121、122、123的图像进行姿态识别处理，并将识别处理结果反馈给终端设备111、112、113，以使得终端设备111、112、113做出与用户意图相对应的响应。

需要说明的是，本发明实施例所提供的姿态识别方法一般可以由终端设备111、112、113或服务器130执行。相应的，本发明实施例所提供的姿态识别装置一般可以设置于终端设备111、112、113或服务器130中。本发明实施例所提供的姿态识别方法也可以由不同于服务器130且能够与终端设备111、112、113和/或服务器130通信的服务器或服务器集群执行。相应的，本发明实施例所提供的姿态识别装置也可以设置于不同于服务器130且能够与终端设备111、112、113和/或服务器130通信的服务器或服务器集群中。

应该理解，图1中的非接触式手势、终端设备、网络和服务器的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的非接触式手势、终端设备、网络和服务器。

示例性方法

下面结合图1的应用场景，参考图2～7B来描述根据本发明示例性实施方式的姿态识别方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性示出了根据本发明一实施例的姿态识别方法的流程图。

如图2所示，根据本发明实施例的姿态识别方法包括操作S210～操作S240，该姿态识别方法例如可以由图1中的终端设备111、112、113执行，或者由服务器130执行。

在操作S210，获取待识别图像，该待识别图像中包括目标对象。

根据本发明的实施例，上述待识别图像具体例如可以是终端设备111、112、113通过图像采集功能实时采集的。或者，上述待识别图像也可以是与该终端设备111、112、113连接的其他图像采集器在采集后，发送给终端设备111、112、113的图像。

根据本发明的实施例，该待识别图像例如可以是通过深度相机或深度传感器等能够获取深度图像(Depth Frame)的设备获取的。该深度相机例如可以通过结构光、飞行时间(Time of Flying)或双目相机等原理实现深度图像的获取。以结构光原理为例，该深度相机应该包括有红外发射模块、红外补光模块、RGB+红外摄像头模块等。与普通彩色相机相比，该深度相机能够在环境光照恶劣、多变等情况下提供稳定的深度信息。

根据本发明的实施例，在通过深度相机获取深度图像的情况下，该操作S210例如还可以包括对深度图像进行前置处理的操作。具体例如可以是根据获取的深度图像中背景图像与前景图像的相对深度关系，提取得到包括有目标对象的前景图像。则上述待识别图像即为该包括有目标对象的前景图像。

根据本发明的实施例，为了便于操作S220中第一向量的提取，图2中的姿态识别方法例如还可以对上述待识别图像进行预处理。具体预处理操作请参见图7B描述的预处理方法，在此不再详述。

根据本发明的实施例，目标对象例如可以是图1中做出手势121、122、123的用户的手。或者，该目标对象还可以是能够用于指示终端设备111、112、113做出响应的用户的其他部位，例如，胳膊、腿等，也可以是用户的整体图像。或者，该目标对象还可以是训练有素的其他动物(例如宠物狗)等，本发明对此不作限定。

在操作S220，根据待识别图像确定第一向量，该第一向量表征目标对象的姿态。

根据本发明的实施例，该第一向量可以是待识别图像中目标对象的轮廓边缘中各个点的坐标值组成的向量。或者，该第一向量可以是能够将待识别图像中的目标对象区别于其他对象的多个关键点的坐标值组成的向量。本发明对该第一向量的确定策略不作限定，只要该第一向量能够较好的表征目标对象的姿态即可。

根据本发明的实施例，该第一向量具体例如可以是通过机器学习模型确定的。具体的，该操作S220可以包括：将操作S210中获取的待识别图像作为机器学习模型的输入，输出得到所述第一向量。其中，机器学习模型例如可以是卷积神经网络模型。

根据本发明的实施例，上述卷积神经网络模型具体可以是通过对训练样本进行训练得到的。其中，训练样本可以是与操作S210类似的方式获取的大量的、具有目标对象的图像，该些图像可以由人工标定相应的能够表征其包括的目标对象的坐标。则将该些训练样本输入至初始模型中，采用随机梯度下降算法迭代更新即可得到卷积神经网络。其中，初始模型的设定可以根据实际需求进行选择，本发明对此不作限定。

根据本发明的实施例，该第一向量例如还可以采用图3描述的方法来确定，在此不再详述。需要说明的是，为了进一步提高确定的第一向量的准确性，还可以使得得到的第一向量由归一化的三维坐标值组成。相应的，在通过卷积神经网络得到第一向量的情况下，训练样本中标定的表征目标对象的坐标则应该是归一化的坐标。

在操作S230，以第一向量作为深度神经网络模型的输入，输出第二向量。该第二向量例如包括有表征目标对象关于多个预定姿态中每一个的置信度。在操作S240，根据第二向量，确定目标对象的姿态。

根据本发明的实施例，多个预定姿态例如可以是能够使得终端设备111、112、113做出响应的姿态。该多个预定姿态例如可以是终端设备111、112、113的生产商预先设定的。或者，该多个预定姿态可以是终端设备111、112、113中安装的各种客户端应用的开发商预先设定的。或者，该多个预定姿态还可以是用户根据个人使用习惯预先设定的。该多个预定姿态例如可以包括图1中的手势121、122、123的姿态，或者各种用户习惯使用的姿态，本发明对此不作限定。

根据本发明的实施例，上述深度神经网络模型具体例如可以采用图6A描述的模型。上述深度神经网络模型的训练例如可以采用图5描述的方法进行训练，在此不再详述。

根据本发明的实施例，假设多个预定姿态为5个，则深度神经网络模型输出的第二向量即为5维向量。每一维向量表征目标对象关于一个预定姿态的置信度。例如，在该第二向量为[0.1，0.8，0.05，0.03，0.02]时，该第二向量则表征目标对象关于第一个预定姿态(例如握手的姿态)的置信度为0.1；目标对象关于第二个预定姿态(图1中手势121“向后滑动”的姿态)的置信度为0.8；目标对象关于第三个预定姿态(图1中手势122“OK”的姿态)的置信度为0.05；目标对象关于第四个预定姿态(图1中手势123“向右滑动”的姿态)的置信度为0.03；目标对象关于第五个预定姿态(例如伸出中指的姿态)的置信度为0.02。

根据本发明的实施例，由于根据操作S230得到的第二向量可以确定目标对象关于每一个预定姿态的置信度。因此在操作S240中，即可直接根据该置信度，确定目标对象的姿态。

根据本发明的实施例，该根据第二向量确定目标对象的姿态的规则例如可以是：在第二向量表征的目标对象关于某个预定姿态的置信度大于预设阈值的情况下，则确定目标对象为该某个预定姿态；或者，在关于第一预定姿态的置信度的值与其他预定姿态的置信度的值的差值大于预定差值的情况下，确定目标对象为第一预定姿态。例如在第二向量为上述的[0.1，0.8，0.05，0.03，0.02]时，由于目标对象关于第二个预定姿态(图1中手势121“向后滑动”的姿态)的置信度明显高于关于其他预定姿态的置信度，因此可以确定该目标对象的姿态即为第二个预定姿态。可以理解的是，上述根据第二向量确定目标对象的姿态的规则仅作为示例以利于理解本发明，本发明可以根据实际需求设定不同的规则。

综上可知，本发明实施例的姿态识别方法，相较于现有技术中将预处理后的图像作为神经网络模型的输入的技术方案，是先确定表征目标对象的姿态的第一向量，然后以该第一向量作为神经网络模型的输入。其中，由于第一向量相较于预处理后的图像能够更好的表征目标对象，因此，能够在一定程度上提高神经网络模型输出的目标对象关于预定姿态的置信度的准确性，并因此提高目标对象的姿态识别的准确率，提高用户体验。且由于第一向量是根据目标对象确定的，因此能够解决现有技术中无法正确识别相似轮廓的姿态的技术问题。

图3示意性示出了根据本发明一实施例的确定第一向量的方法的流程图。图4示意性示出了根据本发明一实施例的确定第一向量的应用场景图。

如图3所示，图2中的操作S220例如可以包括操作S321～操作S323。

在操作S321，确定表征目标对象的姿态的一个或多个关键点。

根据本发明的实施例，该一个或多个关键点例如可以是能够更好的表征目标对象的点。通常情况下，为了更好的表征目标对象，该一个或多个关键点为多个关键点。如图4所示，在目标对象包括手的情况下，该多个关键点例如可以包括21个关键点。其中一个关键点为手的掌心对应的关键点410，另外20个关键点为手的关节对应的关键点420，即5根手指中每根手指包括的4个关节对应的关键点。可以理解的是，图4中关键点的确定仅作为示例以利于理解本发明，本发明对此不作限定。根据实际需求，可以采用不同的方式确定该一个或多个关键点。

在操作S322，以待识别图像的任一点为原点，确定一个或多个关键点的三维坐标值；在操作S323，对一个或多个关键点的三维坐标值进行归一化处理，由经归一化处理得到的一个或多个关键点的归一化三维坐标值组成第一向量。

根据本公开的实施例，此处的归一化是指将三维空间中每个方向的值域限制在[-1，1]之间。为了便于归一化，操作S322中确定的原点例如可以是待识别图像的中心点。或者，该原点还可以是待识别图像的边缘线上的一点。此处一个或多个关键点的三维坐标值即为一个或多个关键点中每个关键点相对于原点的三维空间的位移量。此处操作S323中归一化的过程具体例如可以是：将该一个或多个关键点的三维坐标值中的三个数值分别除以待识别图像的宽度值、高度值及深度值，得到归一化的三维坐标值。可以理解的是，上述原点的选定及归一化的方法仅作为示例以利于理解本发明，本发明对此不作限定。

综上可知，在目标对象为手时，由于关键点是根据手的各关节及手心位置确定的，因此最终得到的第一向量能够唯一地表征当前的手部姿态。即使具有相似轮廓的两个姿态(例如单独伸出食指的姿态和单独伸出中指的姿态)，由于该两个姿态的关键点的坐标值不同，因此最终确定的第一向量不同。此种情况下，以表示手部姿态的第一向量作为深度神经网络模型的输入进行静态手势识别，由于表征手部姿态的第一向量相比图像提供了额外的手指顺序信息，因此该具有相似轮廓的两个姿态经由图2中的操作S230得到的第二向量必定不同，从而可以有效地区分出该具有相似轮廓的两个姿态，避免轮廓相似的静态手势的误判问题。

图5示意性示出了根据本发明另一实施例的姿态识别方法的流程图。

根据本发明的实施例，姿态识别方法除了图2描述的操作S210～操作S240外，还应该包括对操作S230中的深度神经网络模型进行训练的操作。对该深度神经网络模型进行训练的操作例如可以在图2中的操作S210～操作S240之前执行。再者，为了进一步优化该深度神经网络模型，该训练的操作还可以在操作S240确定了目标对象的姿态之后执行。如图5所示，该训练的操作具体例如可以包括操作S550～操作S580。

在操作S550，获取多个样本图像，每个样本图像包括目标对象，且每个样本图像各自具有标签。

根据本发明的实施例，该多个样本数据具体可以采用如操作S210中获取待识别图像的方法获取。其中的目标对象与待识别图像包括的目标对象相同或相似。而其中每个图像的标签用于指示每个样本图像包括的目标对象的姿态信息。每个样本图像的标签例如可以是根据人工识别的结果标注的。

在操作S560，根据多个样本图像，逐样本图像的确定第三向量。该第三向量表征样本图像包括的目标对象的姿态。

根据本发明的实施例，该操作S560例如可以采用与操作S220相同或相似的方法确定每个样本数据的第三向量。具体的，该第三向量例如可以是归一化的坐标值构成的向量。在目标对象为手时，若根据图4中的示例类似的方式确定关键点，则该第三向量可以表示为v∈R⁶³，即该第三向量为63维的向量，其中第3i-2、第3i-1及第3i维的值分别代表第i个关键点在x、y和z方向上的归一化坐标。其中，i为从1至21的自然数。

根据本发明的实施例，为了便于后续对深度神经网络模型的训练，根据每个样本图像确定的第三向量都应具有所述每个样本图像的标签，以用于指示该第三向量表征的目标对象姿态的姿态信息。

在操作S570，对至少一个第三向量进行向量变换，得到与至少一个第三向量对应的至少一个第四向量。

根据本发明的实施例，为了进一步增强训练样本，即增加训练样本的多样化，还可以对第三向量进行向量变换，并以第三向量及向量变换得到的向量作为样本数据对深度神经网络模型进行训练。具体地，可以是将至少一个第三向量中的每个第三向量进行平移变换、旋转变换、镜像变换和/或缩放变换等向量变换得到对应的一个或多个第四向量。

根据本发明的实施例，该操作S570具体还可以是，将至少一个第三向量送入数据增强(Data Augmentation)流程中。其中，在一次的数据增强流程中，第三向量会按照预设概率被执行某个随机方向距离的平移、随机镜像、某个随机旋转角度的旋转和某个随机尺度的缩放。则经过多次数据增强流程，就可以得到与第三向量对应的多个第四向量。

根据本公开的实施例，为了使得得到的至少一个第四向量能够作为样本数据对深度神经网络模型进行训练，还可以将至少一个第三向量的标签分别作为对应的至少一个第四向量的标签，以用于指示该至少一个第四向量表征的目标对象姿态的姿态信息。

在操作S580，以多个第三向量及至少一个第四向量作为样本数据，以每个样本数据各自具有的标签指示的样本图像包括的目标对象的姿态信息作为目标，采用随机梯度下降的反向传播算法对深度神经网络模型进行训练。

综上可知，由于在对深度神经网络模型进行训练之前，先对样本数据进行了数据增强，因此有效地增加了样本数据总量，且由于通过向量变换得到第四向量，可以充分考虑到目标对象的各种变形，例如目标对象的旋转、平移及尺度缩放等。因此，以数据增强后得到的样本数据对深度神经网络模型进行训练，可使得训练得到的模型准确度更高，并因此可以提高图像识别的准确率。

图6A示意性示出了根据本发明实施例的深度神经网络模型的结构示意图；图6B示意性示出了根据本发明实施例的深度神经网络模型中输入层的工作原理图；图6C示意性示出了根据本发明实施例的深度神经网络模型中升维层的工作原理图。

根据本发明的实施例，深度神经网络模型的结构可以包括有输入层、升维层、降维激活层及分类层。

其中，输入层用于输入第一向量。升维层用于将第一向量投影至高维空间，得到第五向量。降维激活层用于对第五向量进行非线性处理及降维处理，得到第六向量。分类层用于对第六向量进行加权求和得到第二向量。

根据本发明的实施例，如图6A所示，该深度神经网络模型的结构具体可以包括有变换层、投影层、激活层1、全连接层1、激活层2、全连接层2、激活层3、全连接层3及输出层。此处以目标对象为图4中的手，第一向量为63维向量为例对各层进行说明。

其中，如图6B所示，变换层作为输入层，用于将63维的第一向量610转换为21*3维的向量620，使得同一个关键点的三维坐标值排在同一行中，从而为接下来的矩阵高维投影做准备。

投影层及激活层1共同作为升维层，具体例如可以用于将每个关键点的三维坐标投影到32维的空间中得到21*32维的第五向量，并经过激活层1(ReLU)进行非线性激活。这是由于将三维坐标投影到高维空间中有利于特征的表达，即不同类别的手部姿态在高维空间中会被更容易地区分开。其中，如图6C所示，对每个关键点的三维坐标的投影具体可以是：将每个关键点的x、y、z向量630与一个通过反向传播算法训练出来的3*32维的矩阵640相乘，得到1*32维的向量650，则21个关键点投影得到的即为21*32维的向量。

全连接层1、激活层2、全连接层2、激活层3共同作为降维激活层。其中，全连接层1与激活层2作为第一组处理层，用于进行第一次降维，将第五向量转换为维度为256*1的向量。全连接层2和激活层3作为第二组处理层，用于将维度为256*1的向量转换为维度为128*1的向量，则该维度为128*1的向量即为第六向量。其中，激活层2配合全连接层1及激活层3配合全连接层2进行降维，是为了增强网络模型的非线性泛化能力。

输出层具体可以是集成有softmax逻辑回归(softmax regression)的处理层，则全连接层3与输出层整体可以作为softmax分类器，即作为分类层，用于对第六向量进行加权求和得到第二向量。

图7A示意性示出了根据本发明又一实施例的姿态识别方法的流程图；图7B示意性示出了根据本发明一实施例的对待识别图像进行预处理的流程图。

如图7A所示，本发明实施例的姿态识别方法除了图2描述的操作S210～操作S240外，还可以包括操作S790，以对操作S210中获取的待识别图像进行预处理。

其中，由于操作S210中获取的待识别图像可以是深度图像，因此该深度图像包括有前景图像和背景图像，且待识别图像中的目标对象应该是属于前景图像的。具体地，前景图像例如可以包括具有目标对象的第一区域。则为了便于操作S220中表征目标对象姿态的第一向量的提取，操作S790具体可以是对待识别图像进行预处理，以获取得到第一区域的目标对象。

具体地，如图7B所示，操作S790可以包括操作S791～操作S792。在操作S791，提取所述第一区域的图像；在操作S792，对第一区域的图像进行归一化处理。相应的，操作S220中的第一向量具体应该是根据操作S791～操作S792预处理后得到的第一区域的图像确定的。

其中，操作S791具体可以包括：通过背景图像与前景图像的相对深度关系，自深度图像中提取出前景图像。然后再从前景图像中提取出目标对象(例如手部)感兴趣区域(即第一区域)。操作S792是对第一区域的图像做归一化处理，使得该第一区域的图像的值域在[-1，1]之间。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图8对本发明示例性实施方式的姿态识别装置进行说明。

图8示意性示出了根据本发明实施例的姿态识别装置的方框图。

如图8所示，根据本发明实施例，该姿态识别装置800可以包括待识别图像获取模块810、第一向量确定模块820、置信度确定模块830及姿态确定模块840。该姿态识别装置800可以用于实现根据本发明实施例的姿态识别方法。

待识别图像获取模块810用于获取待识别图像，该待识别图像中包括有目标对象(操作S210)。

第一向量确定模块820用于根据待识别图像确定第一向量，该第一向量表征目标对象的姿态(操作S220)。根据本发明的实施例，该第一向量确定模块820具体用于以待识别图像作为卷积神经网络模型的输入，输出第一向量。

置信度确定模块830用于以第一向量作为深度神经网络模型的输入，输出第二向量，该第二向量包括表征目标对象关于多个预定姿态中每一个的置信度(操作S230)。

姿态确定模块840用于根据第二向量，确定目标对象的姿态(操作S240)。

根据本发明的实施例，如图8所示，上述第一向量确定模块820例如可以包括关键点确定子模块821、坐标确定子模块822以及第一归一化处理子模块823。关键点确定子模块821用于确定表征目标对象的姿态的一个或多个关键点(操作S321)。坐标确定子模块822用于以待识别图像的任一点为原点，确定一个或多个关键点的三维坐标值(操作S322)。第一归一化处理子模块823用于对一个或多个关键点的三维坐标值进行归一化处理，由经归一化处理得到的一个或多个关键点的归一化三维坐标值组成第一向量(操作S323)。

根据本发明的实施例，上述目标对象例如可以包括图4描述的手，上述一个或多个关键点为多个关键点，该多个关键点中的一个关键点为手的掌心对应的关键点，其他关键点为手的关节对应的关键点。

根据本发明的实施例，如图8所示，上述姿态识别装置800还可以包括样本图像获取模块850、第二向量确定模块860、向量变换模块870及模型训练模块880。样本图像获取模块850用于获取多个样本图像，每个样本图像包括目标对象，且每个样本图像各自具有标签(操作S550)。其中，标签指示了每个样本图像包括的目标对象的姿态信息。第二向量确定模块860用于根据多个样本图像，逐样本图像的确定第三向量，该第三向量表征样本图像包括的目标对象的姿态(操作S560)。向量变换模块870用于对至少一个第三向量进行向量变换，得到与至少一个第三向量对应的至少一个第四向量(操作S570)。其中，以至少一个第三向量的标签分别作为对应的至少一个第四向量的标签。模型训练模块880用于以多个第三向量及至少一个第四向量作为样本数据，以每个样本数据各自具有的标签指示的每个样本图像包括的目标对象的姿态信息为目标，采用随机梯度下降的反向传播算法对深度神经网络模型进行训练(操作S580)。

根据本发明的实施例，上述深度神经网络模型包括输入层、升维层、降维激活层及分类层。其中，输入层用于输入第一向量。升维层用于将第一向量投影至高维空间，得到第五向量。降维激活层用于对第五向量进行非线性处理及降维处理，得到第六向量。分类层用于对第六向量进行加权求和得到第二向量。

根据本发明的实施例，上述待识别图像包括前景图像，该前景图像包括具有目标对象的第一区域。上述姿态识别装置800还包括预处理模块890，用于对待识别图像进行预处理(操作S790)。该预处理模块890具体包括提取子模块891和第二归一化处理子模块892。提取子模块891用于提取第一区域的图像(操作S791)，第二归一化处理子模块892用于对第一区域的图像进行归一化处理(操作S792)。其中，第一向量根据经预处理得到的第一区域的图像确定。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图9对本发明示例性实施方式的适用于执行姿态识别方法的计算机可读存储介质进行介绍。

根据本发明的实施例，还提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行根据本发明实施例的姿态识别方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于执行姿态识别方法中的操作，例如，所述计算设备可以执行如图2中所示的操作S210：获取待识别图像，该待识别图像中包括目标对象；操作S220：根据待识别图像确定第一向量，该第一向量表征目标对象的姿态；操作S230：以第一向量作为深度神经网络模型的输入，输出第二向量，该第二向量包括表征目标对象关于多个预定姿态中每一个的置信度；操作S240：根据第二向量，确定目标对象的姿态。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图9所示，描述了根据本发明的实施方式的用于执行姿态识别方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图10对本发明示例性实施方式的适用于执行姿态识别方法的计算机设备进行说明。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的姿态识别方法中的操作。例如，所述处理单元可以执行如图2中所示的操作S210：获取待识别图像，该待识别图像中包括目标对象；操作S220：根据待识别图像确定第一向量，该第一向量表征目标对象的姿态；操作S230：以第一向量作为深度神经网络模型的输入，输出第二向量，该第二向量包括表征目标对象关于多个预定姿态中每一个的置信度；操作S240：根据第二向量，确定目标对象的姿态。

下面参照图10来描述根据本发明的这种实施方式的用于执行姿态识别方法的计算设备1000。如图10所示的计算设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算设备1000以通用计算设备的形式表现。计算设备1000的组件可以包括但不限于：上述至少一个处理单元1001、上述至少一个存储单元1002、连接不同系统组件(包括存储单元1002和处理单元1001)的总线1003。

总线1003可以包括数据总线、地址总线和控制总线。

存储单元1002可以包括易失性存储器，例如随机存取存储器(RAM)10021和/或高速缓存存储器10022，还可以进一步包括只读存储器(ROM)10023。

存储单元1002还可以包括具有一组(至少一个)程序模块10024的程序/实用工具10025，这样的程序模块10024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1000也可以与一个或多个外部设备1004(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/0)接口1005进行。并且，计算设备1000还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1006通过总线1003与计算设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种姿态识别方法，包括：

获取待识别图像，所述待识别图像中包括目标对象；

根据所述待识别图像确定第一向量，所述第一向量表征所述目标对象的姿态；

以所述第一向量作为深度神经网络模型的输入，输出第二向量，所述第二向量包括表征所述目标对象关于多个预定姿态中每一个的置信度；以及

根据所述第二向量，确定所述目标对象的姿态。

2.根据权利要求1所述的方法，其中，所述根据所述待识别图像确定第一向量包括：

以所述待识别图像作为卷积神经网络模型的输入，输出所述第一向量。

3.根据权利要求1所述的方法，其中，所述根据所述待识别图像确定第一向量包括：

确定表征所述目标对象的姿态的一个或多个关键点；

以所述待识别图像的任一点为原点，确定所述一个或多个关键点的三维坐标值；以及

对所述一个或多个关键点的三维坐标值进行归一化处理，由经归一化处理得到的所述一个或多个关键点的归一化三维坐标值组成所述第一向量。

4.根据权利要求3所述的方法，其中，所述目标对象包括手，所述一个或多个关键点为多个关键点，所述多个关键点中的一个关键点为所述手的掌心对应的关键点，其他关键点为所述手的关节对应的关键点。

5.根据权利要求1所述的方法，还包括：

获取多个样本图像，每个样本图像包括所述目标对象，且所述每个样本图像各自具有标签，所述标签指示了所述每个样本图像包括的目标对象的姿态信息；

根据所述多个样本图像，逐样本图像的确定第三向量，所述第三向量表征样本图像包括的目标对象的姿态，所述第三向量具有所述标签；

对至少一个第三向量进行向量变换，得到与所述至少一个第三向量对应的至少一个第四向量，其中，以所述至少一个第三向量的标签分别作为对应的所述至少一个第四向量的标签；以及

以多个第三向量及所述至少一个第四向量作为样本数据，以每个样本数据各自具有的标签指示的每个样本图像包括的目标对象的姿态信息为目标，采用随机梯度下降的反向传播算法对所述深度神经网络模型进行训练。

6.根据权利要求1所述的方法，其中，所述深度神经网络模型包括：

输入层，用于输入所述第一向量；

升维层，用于将所述第一向量投影至高维空间，得到第五向量；

降维激活层，用于对所述第五向量进行非线性处理及降维处理，得到第六向量；

分类层，用于对所述第六向量进行加权求和得到所述第二向量。

7.根据权利要求1所述的方法，其中，所述待识别图像包括前景图像，所述前景图像包括具有目标对象的第一区域；

所述方法还包括对所述待识别图像进行预处理，包括：

提取所述第一区域的图像；以及

对所述第一区域的图像进行归一化处理，

其中，所述第一向量根据经预处理得到的所述第一区域的图像确定。

8.一种姿态识别装置，包括：

待识别图像获取模块，用于获取待识别图像，所述待识别图像中包括目标对象；

第一向量确定模块，用于根据所述待识别图像确定第一向量，所述第一向量表征所述目标对象的姿态；

置信度确定模块，用于以所述第一向量作为深度神经网络模型的输入，输出第二向量，所述第二向量包括表征所述目标对象关于多个预定姿态中每一个的置信度；以及

姿态确定模块，用于根据所述第二向量，确定所述目标对象的姿态。

9.一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时实现根据权利要求1～7所述的方法。

10.一种计算设备，包括：

一个或多个存储单元，存储有可执行指令；以及

一个或多个处理单元，执行所述可执行指令，以实现根据权利要求1～7所述的方法。