CN111027403B

CN111027403B - 手势估计方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111027403B
Application number: CN201911119559.5A
Authority: CN
Inventors: 黄少光; 许秋子
Original assignee: Shenzhen Realis Multimedia Technology Co Ltd
Current assignee: Shenzhen Realis Multimedia Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-06-06
Anticipated expiration: 2039-11-15
Also published as: CN111027403A

Abstract

本发明公开了一种手势估计方法，包括：获取多张带有骨骼特征点标记的手势图像；根据获取到的所述手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型；根据所述目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型；当接收到基于新的手势图像的手势估计指令时，将所述新的手势图像输入至所述目标学生模型，将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。本发明还公开了一种手势估计装置、设备和一种存储介质。本发明实现了在保证手势估计精确度的前提下，降低手势估计的计算资源消耗，并提高手势估计速度。

Description

手势估计方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人机交互技术领域，尤其涉及手势估计方法、装置、设备及计算机可读存储介质。

背景技术

近年来，随着人机交互需求的不断提高，各种无接触式人机交互技术(如语音识别、人脸识别、手势识别等)研究领域变得日趋活跃，其中，由于人手势信息量丰富并且交互运动具有自然舒适无约束的特点，所以手势交互技术是未来人机交互领域的重要研究方向。由于人手体积较小，移动速度和方向变化快，手指的自由度非常高，各个手指之间具有极强的外观相似性并且非常容易相互遮挡，因此如何进行手势估计，即基于视觉快速精确地估计出人手关键点的位置是一个非常具有挑战性的研究课题。

目前较为先进的手势估计技术是基于深度学习的手势估计技术，即通过训练好的手势估计模型来估计手势，其中手势估计模型包括卷积姿态机网络(convolutional posemachine，CPM)、沙漏堆叠网络(staked hourglass)、高分辨率网络(high resolution net，HRnet)等，这些模型虽然有着较高的手势估计精确度，但存在着体积大和计算量大等缺点，且手势估计速度也比较慢。

发明内容

本发明的主要目的在于提出一种手势估计方法、装置、设备及计算机可读存储介质，旨在实现在保证手势估计精确度的前提下，降低手势估计的计算资源消耗，并提高手势估计速度。

为实现上述目的，本发明提供一种手势估计方法，所述方法包括如下步骤：

获取多张带有骨骼特征点标记的手势图像；

根据获取到的所述手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型；

根据所述目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型；

当接收到基于新的手势图像的手势估计指令时，将所述新的手势图像输入至所述目标学生模型，将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。

可选的，所述获取多张带有骨骼特征点标记的手势图像的步骤之前，还包括：

通过预设的教师网络，建立知识蒸馏教师模型，并通过预设的学生网络，建立知识蒸馏学生模型。

可选的，所述根据获取到的所述手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型的步骤包括：

将获取到的所述手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中，并将骨骼特征点的位置作为所述知识蒸馏教师模型的目标输出进行模型训练；

在所述模型训练过程中，获取所述知识蒸馏教师模型的实际输出；

将所述知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算，得到所述教师模型损失函数的值；

将所述教师模型损失函数的值与预设阈值进行比较；

当所述教师模型损失函数的值小于或等于预设阈值时，判定模型训练完成并得到目标教师模型。

可选的，当所述教师网络为卷积姿态机网络时，所述教师模型损失函数为：

其中，

表示教师模型损失函数，T表示所述卷积姿态机网络的阶段，P表示手势图像训练样本中的骨骼特征点标记，j表示每个骨骼特征点标记对应的高斯响应，J表示与所有骨骼特征点标记对应的高斯响应图集，/>

表示所述知识蒸馏教师模型的实际输出，/>

表示所述知识蒸馏教师模型的目标输出。

可选的，所述根据所述目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型的步骤包括：

根据所述目标教师模型和预设的知识蒸馏损失函数，训练预先建立的知识蒸馏学生模型，直至所述知识蒸馏学生模型收敛时，将收敛的所述知识蒸馏学生模型作为目标学生模型；

所述知识蒸馏损失函数为：

其中，

表示知识蒸馏损失函数，/>

表示预设的学生模型损失函数，且

此外，为实现上述目的，本发明还提供一种手势估计装置，所述手势估计装置包括：

获取模块，用于获取多张带有骨骼特征点标记的手势图像；

训练模块，用于根据获取到的所述手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型；

知识蒸馏模块，用于根据所述目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型；

手势估计模块，用于当接收到基于新的手势图像的手势估计指令时，将所述新的手势图像输入至所述目标学生模型，将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。

可选的，所述手势估计装置还包括：

建立模块，用于通过预设的教师网络，建立知识蒸馏教师模型，并通过预设的学生网络，建立知识蒸馏学生模型。

可选的，所述训练模块还用于：

将所述教师模型损失函数的值与预设阈值进行比较；

其中，

表示所述知识蒸馏教师模型的实际输出，/>

表示所述知识蒸馏教师模型的目标输出。

可选的，所述知识蒸馏模块还用于：

所述知识蒸馏损失函数为：

其中，

表示知识蒸馏损失函数，/>

表示预设的学生模型损失函数，且

此外，为实现上述目的，本发明还提供一种手势估计设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势估计程序，所述手势估计程序被所述处理器执行时实现如上所述的手势估计方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有手势估计程序，所述手势估计程序被处理器执行时实现如上所述的手势估计方法的步骤。

本发明获取多张带有骨骼特征点标记的手势图像；根据获取到的所述手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型；根据所述目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型；当接收到基于新的手势图像的手势估计指令时，将所述新的手势图像输入至所述目标学生模型，将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。由于基于知识蒸馏得到的目标学生模型能够模仿目标教师模型的手势估计能力，且模型体积更小、计算量更小、计算速度更快，从而本发明通过目标学生模型进行手势估计，实现了在保证手势估计精确度的前提下，降低手势估计的计算资源消耗，并提高手势估计速度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明手势估计方法一实施例的流程示意图；

图3为本发明实施例中带有骨骼特征点标记的手势图像的示意图；

图4为本发明手势估计装置一实施例的模块示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例手势估计设备可以是计算机或服务器。

如图1所示，该手势估计设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及手势估计程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的手势估计程序，并执行下述手势估计方法实施例中的操作。

基于上述硬件结构，提出本发明手势估计方法实施例。

参照图2，图2为本发明手势估计方法一实施例的流程示意图，该方法包括：

步骤S10，获取多张带有骨骼特征点标记的手势图像；

在本实施例中，以执行手势估计方法的设备为服务器为例进行说明。首先，服务器获取多张带有骨骼特征点标记的手势图像，其中，骨骼特征点标记的位置和数量可以灵活设置，比如可以将手势图像中的手部关节点(手腕，手指关节等)标记为骨骼特征点。

参照图3，图3为本发明实施例中带有骨骼特征点标记的手势图像的示意图，图中共标记了21个骨骼特征点，数字0～20分别表示骨骼特征点的标号，手势图像在进行模型训练后，该手势图像中的每个骨骼特征点都会得到一个对应的热度图，通过这些热度图可以对每个骨骼特征点的位置进行预测，从而得到模型的实际输出。

进一步地，上述步骤S10之前，还可以包括：通过预设的教师网络，建立知识蒸馏教师模型，并通过预设的学生网络，建立知识蒸馏学生模型。

知识蒸馏是一种模型压缩方法，模型压缩指的是在教师-学生框架中，将复杂、学习能力强的教师网络学到的特征表示“知识”蒸馏出来，传递给参数量小、泛化能力强的学生网络，即用一个更加紧凑的模型去拟合一个复杂的模型。

本实施例中，服务器可以通过预设的教师网络，建立知识蒸馏教师模型，通过预设的学生网络，建立知识蒸馏学生模型，其中，教师网络可以是卷积姿态机网络(convolutional pose machine，CPM)、沙漏堆叠网络(staked hourglass)或高分辨率网络(high resolution net)，学生网络可以是卷积姿态机网络或用于移动视觉应用的高效卷积神经网络(mobile net)，具体实施时可灵活设置。

步骤S20，根据获取到的手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型；

该步骤中，服务器根据获取到的手势图像，训练预先建立的知识蒸馏教师模型，以得到目标教师模型。

具体地，该步骤S20可以包括：将获取到的手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中，并将骨骼特征点的位置作为知识蒸馏教师模型的目标输出进行模型训练；在模型训练过程中，获取知识蒸馏教师模型的实际输出；将知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算，得到教师模型损失函数的值；将教师模型损失函数的值与预设阈值进行比较；当教师模型损失函数的值小于或等于预设阈值时，判定模型训练完成并得到目标教师模型。

在本实施例中，服务器需首先训练一个表现良好的教师网络，具体是将多张手势图像作为训练样本输入预先建立的知识蒸馏教师模型中，并将骨骼特征点的位置，如三维坐标作为知识蒸馏教师模型的目标输出进行模型训练，在模型训练过程中，获取知识蒸馏教师模型的实际输出，代入预设的教师模型损失函数中进行计算，得到教师模型损失函数的值，直至教师模型损失函数的值小于或等于预设阈值时，模型训练完成，得到目标教师模型。

进一步地，当教师网络选用卷积姿态机网络CPM时，教师模型损失函数可以设置为：

其中，

表示教师模型损失函数，T表示卷积姿态机网络的阶段，P表示手势图像训练样本中的骨骼特征点标记，j表示每个骨骼特征点标记对应的高斯响应，J表示与所有骨骼特征点标记对应的高斯响应图集，/>

表示知识蒸馏教师模型的实际输出，/>

表示知识蒸馏教师模型的目标输出。

步骤S30，根据目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型；

在训练得到目标教师模型后，服务器根据该目标教师模型训练预先建立的知识蒸馏学生模型，以得到目标学生模型。

具体地，该步骤S30可以包括：根据目标教师模型和预设的知识蒸馏损失函数，训练预先建立的知识蒸馏学生模型，直至知识蒸馏学生模型收敛时，将收敛的知识蒸馏学生模型作为目标学生模型；其中，知识蒸馏损失函数为：

其中，

表示知识蒸馏损失函数，/>

表示预设的学生模型损失函数，且

通过采用上述知识蒸馏损失函数，能够从教师模型中蒸馏出最有用的信息，从而保证目标学生模型手势估计的精确度。

步骤S40，当接收到基于新的手势图像的手势估计指令时，将新的手势图像输入至目标学生模型，将目标学生模型的输出作为新的手势图像的手势估计结果。

在通过知识蒸馏得到目标学生模型后，当服务器接收到基于新的手势图像的手势估计指令时，将该新的手势图像输入至目标学生模型，即可得到手势估计结果。

由于基于知识蒸馏得到的目标学生模型能够模仿目标教师模型的手势估计能力，且模型体积更小、计算量更小、计算速度更快，从而本实施例通过目标学生模型进行手势估计，实现了在保证手势估计精确度的前提下，降低手势估计的计算资源消耗，并提高手势估计速度。

本发明还提供一种手势估计装置。参照图4，图4为本发明手势估计装置一实施例的模块示意图。本实施例中，手势估计装置包括：

获取模块10，用于获取多张带有骨骼特征点标记的手势图像；

训练模块20，用于根据获取到的所述手势图像，训练预先建立的知识蒸馏教师模型，得到目标教师模型；

知识蒸馏模块30，用于根据所述目标教师模型，训练预先建立的知识蒸馏学生模型，得到目标学生模型；

手势估计模块40，用于当接收到基于新的手势图像的手势估计指令时，将所述新的手势图像输入至所述目标学生模型，将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。

进一步地，所述手势估计装置还包括：

进一步地，所述训练模块20还用于：

将所述教师模型损失函数的值与预设阈值进行比较；

进一步地，当所述教师网络为卷积姿态机网络时，所述教师模型损失函数为：

其中，

表示所述知识蒸馏教师模型的实际输出，/>

表示所述知识蒸馏教师模型的目标输出。

进一步地，所述知识蒸馏模块30还用于：

所述知识蒸馏损失函数为：

其中，

表示知识蒸馏损失函数，/>

表示预设的学生模型损失函数，且

上述各程序模块实现的方法及有益效果可参照本发明手势估计方法实施例，此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有手势估计程序，所述手势估计程序被处理器执行时实现如上所述的手势估计方法的步骤。

其中，在所述处理器上运行的手势估计程序被执行时所实现的方法可参照本发明手势估计方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。