CN116740737A

CN116740737A - 手势识别方法、装置、设备及存储介质

Info

Publication number: CN116740737A
Application number: CN202310809406.3A
Authority: CN
Inventors: 陈叶瀚森; 陈恩红
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-12

Abstract

本申请实施例公开了一种手势识别方法、装置、设备及存储介质，在采集到的待识别图像中提取手部区域图像；在若干描述文本中确定与手部区域图像匹配的目标描述文本；不同的描述文本用于指示不同的手势类型；将目标描述文本指示的手势类型确定为待识别图像的手势识别结果。本申请在进行手势识别时，在考虑图像的基础上引入了用于指示手势类型的描述文本，从而提高手势识别的准确率，进而提高手势交互性能。

Description

手势识别方法、装置、设备及存储介质

技术领域

本申请涉及智能控制技术领域，更具体地说，涉及一种手势识别方法、装置、设备及存储介质。

背景技术

为了提高人机交互的多样性和便利性，基于手势识别的人机交互方式应运而生。用户在使用电子设备的过程中，可以通过手部执行一定的手势或动作，来控制电子设备，这个过程中，电子设备采集用户的手部图像，通过识别手部图像中的手势来确定交互指令，进而执行相应操作。

然而，目前的方案仅基于图像进行手势识别，手势识别的准确率较低，导致交互性能较差。

发明内容

有鉴于此，本申请提供了一种手势识别方法、装置、设备及存储介质，以提高手势识别准确率。

为了实现上述目的，现提出的方案如下：

一种手势识别方法，包括：

在采集到的待识别图像中提取手部区域图像；

在若干描述文本中确定与所述手部区域图像匹配的目标描述文本；不同的描述文本用于指示不同的手势类型；

将所述目标描述文本指示的手势类型确定为所述待识别图像的手势识别结果。

上述方法，可选的，所述在若干描述文本中确定与所述手部区域图像匹配的目标描述文本，包括：

计算所述手部区域图像与所述若干描述文本中的各个描述文本的相似度；

将与所述手部区域图像的相似度最大的描述文本确定为与所述手部区域图像匹配的目标描述文本。

上述方法，可选的，所述计算所述手部区域图像与所述若干描述文本中的各个描述文本的相似度，包括：

对所述手部区域图像进行特征提取，得到手部外观特征；

对所述若干描述文本中的各个描述文本分别进行特征提取，得到各个描述文本的文本特征；

对于任一描述文本，至少基于所述手部外观特征和所述任一描述文本的文本特征计算所述手部区域图像与所述任一描述文本的相似度。

上述方法，可选的，还包括：

对所述手部区域图像进行关键点预测，以确定所述手部区域图像中的手部的多个关建点的坐标信息；

对所述多个关建点的坐标信息进行特征提取，得到关建点特征；

所述至少基于所述手部外观特征和所述任一描述文本的文本特征计算所述手部区域图像与所述任一描述文本的相似度，包括：

基于所述手部外观特征、所述关建点特征和所述任一描述文本的文本特征，计算所述手部区域图像与所述任一描述文本的相似度。

上述方法，可选的，所述基于所述手部外观特征、所述关建点特征和所述任一描述文本的文本特征，计算所述手部区域图像与所述任一描述文本的相似度，包括：

将所述手部外观特征和所述关建点特征融合，得到第一融合特征；计算所述第一融合特征和所述任一描述文本的文本特征的相似度，作为所述手部区域图像与所述任一描述文本的相似度；

或者，

将所述关建点特征和所述任一描述文本的文本特征融合，得到第二融合特征；计算所述手部外观特征和所述第二融合特征的相似度，作为所述手部区域图像与所述任一描述文本的相似度。

上述方法，可选的，所述对所述手部区域图像进行特征提取，包括：

对所述手部区域图像进行多个层级的特征提取；其中，

在所述多个层级的目标层级进行特征提取的过程包括：

将所述目标层级的前一层级输出的所述手部区域图像的特征，以及所述手部区域图像的前一帧图像的特征融合，得到第三融合特征；

对所述第三融合特征进行所述目标层级的特征提取，得到所述手部区域图像在所述目标层级的手部外观特征。

上述方法，可选的，提取手部外观特征的过程通过预先训练好的外观特征提取模块实现，提取各个描述文本的文本特征的过程通过预先训练好的文本特征提取模块实现；所述外观特征提取模块和所述文本特征提取模块通过如下方式训练得到：

利用第一数据集对所述外观特征提取模块和所述文本特征提取模块进行自监督训练，得到预训练的外观特征提取模块和训练好的文本特征提取模块；所述第一数据集中包括第一类手势视频，以及第一类手势视频对应的描述文本，每个第一类手势视频中具有一个手势类型；

利用第二数据集对所述预训练的外观特征提取模块进行有监督的微调，得到训练好的外观特征提取模块；所述第二数据集中包括第二类手势视频，以及多个描述文本，每个第二类手势视频关联有表征第二类手势视频中的手势类型的样本标签；每个第二类手势视频中具有一个手势类型。

上述方法，可选的，提取手部外观特征的过程通过预先训练好的外观特征提取模块实现，提取各个描述文本的文本特征的过程通过预先训练好的文本特征提取模块实现，提取所述关建点特征的过程通过关键点特征提取模块实现；所述外观特征提取模块、所述文本特征提取模块和所述关键点特征提取模块通过如下方式训练得到：

利用第一数据集对所述外观特征提取模块、所述文本特征提取模块和所述关键点特征提取模块进行自监督训练，得到预训练的外观特征提取模块、训练好的文本特征提取模块，以及训练好的关键点特征提取模块；所述第一数据集中包括第一类手势视频、从第一类手势视频的各帧图像中提取的多个关键点的坐标信息，以及第一类手势视频对应的描述文本，每个第一类手势视频中具有一个手势类型；

利用第二数据集对所述预训练的外观特征提取模块进行有监督的微调，得到训练好的外观特征提取模块；所述第二数据集中包括第二类手势视频，从第二类手势视频的各帧图像中提取的多个关键点的坐标信息，以及多个描述文本，每个第二类手势视频关联有表征第二类手势视频中的手势类型的样本标签；每个第二类手势视频中具有一个手势类型。

上述方法，可选的，还包括：

根据连续T+1帧图像中前T帧图像的手势识别结果，确定所述连续T+1帧图像中第T+1帧图像对应的目标手势识别结果；

基于所述目标手势识别结果触发生成控制指令。

上述方法，可选的，其中，

所述若干描述文本中的每个描述文本通过将一个表征手势类型的词添加到一个文本模板中得到；

其中，

不同的描述文本所使用的文本模板相同；

或者，

不同的描述文本所使用的文本模板相同或不同。

一种手势识别装置，包括：

区域图像提取模块，用于在采集到的待识别图像中提取手部区域图像；

文本确定模块，用于在若干描述文本中确定与所述手部区域图像匹配的目标描述文本；不同的描述文本用于指示不同的手势类型；

识别结果确定模块，用于将所述目标描述文本指示的手势类型确定为所述待识别图像的手势识别结果。

一种手势识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的手势识别方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上任一项所述的手势识别方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的手势识别方法、装置、设备及存储介质，在采集到的待识别图像中提取手部区域图像；在若干描述文本中确定与手部区域图像匹配的目标描述文本；不同的描述文本用于指示不同的手势类型；将目标描述文本指示的手势类型确定为待识别图像的手势识别结果。本申请在进行手势识别时，在考虑图像的基础上引入了用于指示手势类型的描述文本，从而提高手势识别的准确率，进而提高手势交互性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的手势识别方法的一种实现流程图；

图2为本申请实施例公开的在若干描述文本中确定与手部区域图像匹配的目标描述文本的一种实现流程图；

图3为本申请实施例公开的计算手部区域图像与若干描述文本中的各个描述文本的相似度的一种实现流程图；

图4为本申请实施例公开的手部关键点的示例图；

图5为本申请实施例公开的基于手部外观特征、关建点特征和该任一描述文本的文本特征，计算手部区域图像与该任一描述文本的相似度的另一种实现流程图；

图6为本申请实施例公开的基于手部外观特征、关建点特征和该任一描述文本的文本特征，计算手部区域图像与该任一描述文本的相似度的一种实现流程图；

图7为本申请实施例公开的在多个层级的目标层级进行特征提取的一种实现流程图；

图8为本申请实施例公开的手势识别方法的另一种实现流程图；

图9为本申请实施例公开的外观特征提取模块提取手部外观特征的一种示例图；

图10为本申请实施例公开的多线索提示特征提取模块获取一个多线索提示特征的一种示意图；

图11为本申请实施例公开的利用第一数据集对外观特征提取模块、文本特征提取模块和关键点特征提取模块进行自监督训练的一种示例图；

图12为本申请实施例公开的利用第二数据集对外观特征提取模块进行有监督的微调的一种示例图；

图13为本申请实施例公开的手势识别装置的一种结构示意图；

图14为本申请实施例公开的手势识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高手势识别的准确率，提出本申请。

如图1所示，为本申请实施例提供的手势识别方法的一种实现流程图，可以包括：

步骤S101：在采集到的待识别图像中提取手部区域图像。

本申请实施例提供的手势识别方法可以用于电子设备中，在电子设备启动手势识别功能的情况下，电子设备的图像采集装置可以实时采集图像，当用户或用户的手部位于图像采集装置的取景范围内时，图像采集装置可以采集到包含用户手部的图像。

待识别图像可以是图像采集装置采集到的视频流中的任一帧图像。

待识别图像可以是彩色图像(RGB图像)，也可以是近红外图像，或者，可以是灰度图像等。

作为示例，图像采集装置可以是自适应光照的图像采集装置，自适应光照的图像采集装置可以采集环境光亮度，在亮度大于亮度阈值时，采用可见光成像模式采集图像，在亮度小于或等于亮度阈值时，采用近红外成像模式采集图像。

对于待识别图像，可以在待识别图像中确定手部区域的矩形边界框，该边界框通常由左上角点坐标(x1，y1)和右下角点坐标(x2，y2)表示；基于矩形边界框从待识别图像中提取手部区域图像。

作为示例，可以利用预先训练好的手部检模型在待识别图像中确定手部区域的矩形边界框。

作为示例，可以利用基于皮肤检测的手部识别算法在待识别图像中确定手部区域的矩形边界框。

作为示例，可以利用基于像素的手部识别算法在待识别图像中确定手部区域的矩形边界框。

作为示例，可以利用基于HSV(色调Hue，饱和度Saturation，亮度Value)的手部识别算法在待识别图像中确定手部区域的矩形边界框。

步骤S102：在若干描述文本中确定与手部区域图像匹配的目标描述文本。不同的描述文本用于指示不同的手势类型。

本申请预先设置了描述文本库，描述文本库中存储有若干描述文本，不同的文本指示不同的手势类型。

可选的，描述文本可以为形如以下任一种句式的文本：这是一个____手势、这是一个____的视频片段、这一动作是____手势等。对于上述任一句式，在空格处填入手势类型词，即可得到描述文本。

比如，以手势类型词为“比心”为例，描述文本可以是：这是一个比心手势，或者，这是一个比心的视频片段，或者，这一动作是比心手势等。

本申请中的手势类型可以包括但不限于以下几种：点赞(拇指向上)、比心、OK、V、向左挥手、向右挥手、向上挥手、向下挥手等。

上述的手势类型又可以分为静态手势和动态手势，静态手势是指手部不需要运动即可完成的手势，比如，点赞、比心、OK、V等。动态手势则是一些需要手部或手指运动才可完成的手势，比如，手指左右摇摆、各种方向的挥手等。

步骤S103：将目标描述文本指示的手势类型确定为待识别图像的手势识别结果。

本申请实施例提供的手势识别方法，在采集到的待识别图像中提取手部区域图像；在若干描述文本中确定与手部区域图像匹配的目标描述文本；不同的描述文本用于指示不同的手势类型；将目标描述文本指示的手势类型确定为待识别图像的手势识别结果。本申请在进行手势识别时，在考虑图像的基础上引入了用于指示手势类型的描述文本，从而提高手势识别的准确率。进而提高手势交互性能。

基于本申请，用户可以在位于距离图像采集装置5米以内的范围内实现与电子设备的手势交互，也就是说，本申请既可以实现对电子设备的近场控制，也可以实现对电子设备的远场控制，提高了对电子设备进行手势控制的距离范围。

另外，本申请中的描述文本可以随时增加新的描述文本，该新的描述文本指示新的手势类型，具有识别新手势类型的可扩展性。

在一可选的实施例中，上述若干描述文本中的每个描述文本通过将一个表征手势类型的词添加到一个文本模板中得到。其中，

不同的描述文本所使用的文本模板相同。即所有的描述文本使用的同一文本模板。比如，所有的描述文本都使用了“这是一个____手势”这个文本模板，此时，上述若干描述文本都是“这是一个____手势”的句式。

或者，

不同的描述文本所使用的文本模板相同或不同。即上述若干描述文本至少使用了两个不同的文本模板。比如，有的描述文本使用的是“这是一个____手势”这个文本模板，有的描述文本使用的是“这是一个____的视频片段”的文本模板，此时，上述若干描述文本使用了两种不同的文本模板，分别为“这是一个____手势”和“这是一个____的视频片段”。

在一可选的实施例中，上述在若干描述文本中确定与手部区域图像匹配的目标描述文本的一种实现流程图如图2所示，可以包括：

步骤S201：计算手部区域图像与若干描述文本中的各个描述文本的相似度。

可选的，可以对手部区域图像进行特征提取，得到手部外观特征。

对若干描述文本中的各个描述文本分别进行特征提取，得到各个描述文本的文本特征。

对于任一描述文本，基于上述手部外观特征和该任一描述文本的文本特征计算手部区域图像与任一描述文本的相似度。作为示例，可以计算上述手部外观特征和该任一描述文本的文本特征之间的距离，以该距离表征手部区域图像与任一描述文本的相似度。上述手部外观特征和该任一描述文本的文本特征之间的距离可以包括但不限于以下任一种：欧式距离、余弦距离、汉明距离、相关系数等。

步骤S202：将与手部区域图像的相似度最大的描述文本确定为与手部区域图像匹配的目标描述文本。

上述实施例中，仅基于手部外观特征和描述文本的文本特征计算手部区域图像与描述文本的相似度。在一可选的实施例中，可以结合手部关键点的坐标信息计算手部区域图像与描述文本的相似度。

如图3所示，为本申请实施例提供的计算手部区域图像与若干描述文本中的各个描述文本的相似度的一种实现流程图，包括：

步骤S301：对手部区域图像进行特征提取，得到手部外观特征。

步骤S302：对手部区域图像进行关键点预测，以确定手部区域图像中的手部的多个关建点的坐标信息。

可以采用自顶向下的回归方案对手部区域图像进行关键点预测。

如图4所示，为本申请实施例提供的手部关键点的示例图，该示例中，一共包括21个关键点，分别为手腕关键点、拇指腕掌关键点、拇指指掌关键点、拇指指间关键点、拇指指尖关键点、食指指掌关键点、食指近侧指间关键点、食指远侧指间关键点、食指指尖关键点、中指指掌关键点、中指近侧指间关键点、中指远侧指间关键点、中指指尖关键点、无名指指掌关键点、无名指近侧指间关键点、无名指远侧指间关键点、无名指指尖关键点、小指指掌关键点、小指近侧指间关键点、小指远侧指间关键点、小指指尖关键点。

步骤S303：对上述多个关建点的坐标信息进行特征提取，得到关建点特征。

步骤S304：对若干描述文本中的各个描述文本分别进行特征提取，得到各个描述文本的文本特征。

本申请中，步骤S301、步骤S302和步骤S304可以同时执行，也可以依次执行，依次执行时，可以先执行步骤S301、再执行步骤S302和步骤S304，或者，可以先执行步骤S302、再执行步骤S301和步骤S304，或者，可以先执行步骤S304、再执行步骤S301和步骤S302等，本申请不对三个步骤的执行顺序做具体限定。

步骤S305：基于手部外观特征、关建点特征和该任一描述文本的文本特征，计算手部区域图像与该任一描述文本的相似度。

本申请基于手部区域图像进行手部检测和手部关键点预测，可以获得精细化的手部外观和结构信息，提升不同视角、光照和姿态场景下手势识别系统的鲁棒性；另一方面通过自定义的指示手势类型的描述文本，使得系统能够灵活支持新手势类型的识别，增加了手势识别的可扩展性，大大提升了用户的交互体验。

综上，对应任一描述文本，本申请至少基于待识别图像的手部外观特征和该任一描述文本的文本特征计算待识别图像的手部区域图像与该任一描述文本的相似度。

如图5所示，为本申请实施例提供的基于手部外观特征、关建点特征和该任一描述文本的文本特征，计算手部区域图像与该任一描述文本的相似度的一种实现流程图，可以包括：

步骤S501：将手部外观特征和关建点特征融合，得到第一融合特征。

可选的，可以将手部外观特征和关建点特征相加，得到第一融合特征。或者，可以将手部外观特征和关建点特征加权求和，得到第一融合特征。或者，可以计算手部外观特征和关建点特征的均值，得到第一融合特征。

步骤S502：计算第一融合特征和该任一描述文本的文本特征的相似度，作为手部区域图像与该任一描述文本的相似度。

第一融合特征和该任一描述文本的文本特征的相似度可以通过第一融合特征和该任一描述文本的文本特征之间的距离确定，该距离可以包括但不限于以下任一种：欧式距离、余弦距离、汉明距离、相关系数等。

如图6所示，为本申请实施例提供的基于手部外观特征、关建点特征和该任一描述文本的文本特征，计算手部区域图像与该任一描述文本的相似度的另一种实现流程图，可以包括：

步骤S601：将关建点特征和该任一描述文本的文本特征融合，得到第二融合特征。

可选的，可以将关建点特征和该任一描述文本的文本特征相加，得到第二融合特征。或者，可以将关建点特征和该任一描述文本的文本特征加权求和，得到第二融合特征。或者，可以计算关建点特征和该任一描述文本的文本特征的拒之，得到第二融合特征。

本申请将第二融合特征称为多线索提示特征。

步骤S602：计算手部外观特征和第二融合特征的相似度，作为手部区域图像与该任一描述文本的相似度。

手部外观特征和第二融合特征的相似度可以通过手部外观特征和第二融合特征之间的距离确定，该距离可以包括但不限于以下任一种：欧式距离、余弦距离、汉明距离、相关系数等。

上述实施例中，融合手部外观、关键点和文本三个维度的信息进行手势识别，进一步提高手势识别的准确率。

在一可选的实施例中，上述对手部区域图像进行特征提取的一种实现方式可以为：

对手部区域图像进行多个层级的特征提取；其中，本申请提供的在多个层级的目标层级进行特征提取的一种实现流程图如图7所示，可以包括：

步骤S701：将目标层级的前一层级输出的手部区域图像的特征，以及手部区域图像的前一帧手部区域图像的特征融合，得到第三融合特征。第三融合特征中既包含待识别图像的手部区域图像的单帧特征，又包含待识别图像与前一帧图像间的时序特征。

可选的，手部区域图像的特征可以为多通道特征。作为示例，可以将手部区域图像的特征中目标通道的特征替换为待识别图像的前一帧手部区域图像的特征的目标通道的特征。通过相应通道的特征数据的替换，实现不同特征间的时序偏移，增强手部外观特征的时序性，进一步提高手势识别的准确性

目标通道可以是手部区域图像的特征中的至少一个通道，在目标通道是手部区域图像的特征中的至少两个通道的情况下，该至少两个通道可以是连续的通道，也可以不连续的通道。作为示例，目标通道可以是手部区域图像的特征中四分之一数量的通道，该四分之一数量的通道可以是手部区域图像的特征中连续的多个通道。

可选的，在有多个目标层级的情况下，该多个目标层级均匀分布在上述多个层级中。

步骤S702：对第三融合特征进行目标层级的特征提取，得到手部区域图像在目标层级的手部外观特征。

本申请在外观特征提取方面，以视频流作为输入，联合提取单帧的图像特征和帧间的时序特征，以同时支持静态手势的识别和动态手势的识别。

在一可选的实施例中，上述提取手部外观特征的过程可以通过预先训练好的外观特征提取模块实现，提取各个描述文本的文本特征的过程通过预先训练好的文本特征提取模块实现。即，

通过预先训练好的外观特征提取模块对待识别图像的手部区域图像进行特征提取，得到待识别图像的手部外观特征。

通过预先训练好的文本特征提取模块对若干描述文本中的各个描述文本分别进行特征提取，得到各个描述文本的文本特征。

上述外观特征提取模块和文本特征提取模块可以通过如下方式训练得到：

利用第一数据集对外观特征提取模块和文本特征提取模块进行自监督训练，得到预训练的外观特征提取模块和训练好的文本特征提取模块。

第一数据集中包括第一类手势视频，以及第一类手势视频对应的描述文本，每个第一类手势视频中具有一个手势类型。每个第一类手势视频对应一个描述文本。

作为示例，第一数据集中的第一类手势视频中的手势类型可以包括具体的应用场景中用到的手势类型，也可以不包括具体的应用场景中用到的手势类型。第一类手势视频可以从互联网中收集到的手势视频。

利用第二数据集对预训练的外观特征提取模块进行有监督的微调，得到训练好的外观特征提取模块。

第二数据集中包括第二类手势视频，以及多个描述文本，每个第二类手势视频关联有表征第二类手势视频中的手势类型的样本标签；每个第二类手势视频中具有一个手势类型。

作为示例，第二类手势视频中的手势类型可以是根据具体的应用场景定义的手势类型，即第二类手势视频中的手势类型是具体应用场景中用到的手势类型。

也就是说，本申请中，文本特征提取模块是利用第一数据集进行自监督训练得到的，而外观特征提取模块是通过两个阶段的训练得到的，其中第一阶段是利用第一数据集进行自监督训练，第二阶段是利用第二数据集进行有监督的训练。

在一可选的实施例中，上述利用第一数据集对外观特征提取模块和文本特征提取模块进行自监督训练的一种实现方式可以为：

将第一手势视频输入外观特征提取模块，得到第一手势视频中各帧图像的手部外观特征。第一手势视频可以是完整的第一类手势视频，也可以是通过对第一类手势视频进行采样得到的较低帧率的手势视频。

根据第一手势视频中各帧图像的手部外观特征得到第一手势视频的手部外观特征。

可以将各帧图像的手部外观特征求和，得到第一手势视频的手部外观特征。或者，

可以计算各帧图像的手部外观特征的均值，得到第一手势视频的手部外观特征。

将第一手势视频对应的描述文本输入文本特征提取模块，得到第一手势视频对应的描述文本的文本特征。

以第一手势视频的手部外观特征趋近于第一手势视频对应的描述文本的文本特征为目标，对外观特征提取模块和文本特征提取模块的参数进行更新，得到预训练的外观特征提取模块和训练好的文本特征提取模块。

可选的，可以计算第一手势视频的手部外观特征与第一手势视频对应的描述文本的文本特征之间的相似度，以第一手势视频的手部外观特征与第一手势视频对应的描述文本的文本特征之间的相似度越来越大为目标，对外观特征提取模块和文本特征提取模块的参数进行更新，得到预训练的外观特征提取模块和训练好的文本特征提取模块。

作为示例，对于输入外观特征提取模块的n个第一手势视频，以及输入文本特征提取模块的与上述n个第一手势视频对应的n个描述文本，分别计算n个第一手势视频中的每一第一手势视频的手部外观特征，以及n个描述文本中的每个描述文本的文本特征的余弦相似度，得到n×n个余弦相似度，以第一手势视频及对应的描述文本构成的视频文本对作为正样本对，手势视频及其它描述文本(即不对应的描述文本)构成的视频文本对作为负样本对，利用n×n个余弦相似度计算InfoNCE损失，基于InfoNCE损失对外观特征提取模块和文本特征提取模块的参数进行更新，得到预训练的外观特征提取模块和训练好的文本特征提取模块。

在一可选的实施例中，上述利用第二数据集对预训练的外观特征提取模块进行有监督的微调的过程，包括：

将第二手势视频输入预训练的外观特征提取模块，得到第二手势视频中各帧图像的手部外观特征。第二手势视频可以是完整的第二类手势视频，或者，可以是通过对第二类手势视频进行采样得到的较低帧率的手势视频。

根据第二手势视频中各帧图像的手部外观特征得到第二手势视频的手部外观特征。

可以将各帧图像的手部外观特征求和，得到第二手势视频的手部外观特征。或者，

可以计算各帧图像的手部外观特征的均值，得到第二手势视频的手部外观特征。

将多个描述文本输入文本特征提取模块，得到多个描述文本中的各个描述文本的文本特征。

根据第二手势视频的手部外观特征，以及多个描述文本中的各个描述文本的文本特征，计算第二手势视频与所述多个描述文本中的各个描述文本的相似度。

这里的多个描述文本指示的手势类型是具体的应用场景中用到的手势类型。

将与第二手势视频的相似度最大的描述文本指示的手势类型确定为第二手势视频的手势识别结果。

以第二手势视频与多个描述文本中的各个描述文本的相似度所表征的第二手势视频的手势类型趋近于样本标签为目标，对预训练的外观特征提取模块的参数进行更新，得到训练好的外观特征提取模块。

可选的，可以计算第二手势视频与多个描述文本中的各个描述文本的相似度与样本标签的交叉熵损失，基于交叉熵损失对预训练的外观特征提取模块的参数进行更新，得到训练好的外观特征提取模块。

在对预训练的外观特征提取模块进行有监督的微调时，文本特征提取模块的参数是冻结不变的。

在一可选的实施例中，上述提取手部外观特征的过程通过预先训练好的外观特征提取模块实现，提取各个描述文本的文本特征的过程通过预先训练好的文本特征提取模块实现，提取关建点特征的过程通过关键点特征提取模块实现。即，

通过预先训练好的关键点特征提取模块对手部的多个关建点的坐标信息进行特征提取，得到关建点特征。

上述外观特征提取模块、文本特征提取模块和关键点特征提取模块通过如下方式训练得到：

利用第一数据集对外观特征提取模块、文本特征提取模块和关键点特征提取模块进行自监督训练，得到预训练的外观特征提取模块、训练好的文本特征提取模块，以及训练好的关键点特征提取模块。

第一数据集中包括第一类手势视频、从第一类手势视频的各帧图像中提取的多个关键点的坐标信息，以及第一类手势视频对应的描述文本，每个第一类手势视频中具有一个手势类型。每个第一类手势视频对应一个描述文本。

第二数据集中包括第二类手势视频，从第二类手势视频的各帧图像中提取的多个关键点的坐标信息，以及多个描述文本，每个第二类手势视频关联有表征第二类手势视频中的手势类型的样本标签；每个第二类手势视频中具有一个手势类型。

作为示例，第二数据集中的第二类手势视频中的手势类型可以根据具体的应用场景定义的手势类型，即第二类手势视频中的手势类型是具体应用场景中用到的手势类型。

也就是说，本申请中，文本特征提取模块和关键点特征提取模块是利用第一数据集进行自监督训练得到的，而外观特征提取模块是通过两个阶段的训练得到的，其中第一阶段是利用第一数据集进行自监督训练，第二阶段是利用第二数据集进行有监督的训练。

在一可选的实施例中，上述利用第一数据集对外观特征提取模块、文本特征提取模块和关键点特征提取模块进行自监督训练的一种实现方式可以为：

将第一手势视频的各帧图像的多个关键点的坐标信息输入关键点特征提取模块，得到第一手势视频的各帧图像的关键点特征。

根据第一手势视频的各帧图像的关键点特征得到第一手势视频的关键点特征。

可以将各帧图像的关键点特征求和，得到第一手势视频的关键点特征。或者，

可以计算各帧图像的关键点特征的均值，得到第一手势视频的关键点特征。

以第一手势视频的手部外观特征趋近于第一手势视频对应的描述文本的文本特征，第一手势视频的关键点特征趋近于第一手势视频对应的描述文本的文本特征为目标，对外观特征提取模块、文本特征提取模块和关键点特征提取模块的参数进行更新，得到预训练的外观特征提取模块、训练好的文本特征提取模块和训练好的关键点特征提取模块。

可选的，可以计算第一手势视频的手部外观特征与第一手势视频对应的描述文本的文本特征之间的第一相似度，以及第一手势视频的关键点特征与第一手势视频对应的描述文本的文本特征的第二相似度，以第一相似度和第二相似度越来越大为目标，对外观特征提取模块、文本特征提取模块和关键点特征提取模块的参数进行更新，得到预训练的外观特征提取模块、训练好的文本特征提取模块和训练好的关键点特征提取模块。

作为示例，可以分别计算n个手势视频中的每个手势视频的手部外观特征，以及n个描述文本中的每个描述文本的文本特征的余弦相似度，得到n×n个第一余弦相似度，以手势视频及对应的描述文本构成的视频文本对作为正样本对，手势视频及其它描述文本(即不对应的描述文本)构成的视频文本对作为负样本对，利用n×n个第一余弦相似度计算第一InfoNCE损失；分别计算n个手势视频的每个手势视频的关键点特征，以及n个描述文本中的每个描述文本的文本特征的余弦相似度，得到n×n个第二余弦相似度，以手势视频及对应的描述文本构成的视频文本对作为正样本对，手势视频及其它描述文本构成的视频文本对作为负样本对，利用n×n个第二余弦相似度计算第二InfoNCE损失。基于第一InfoNCE损失和第二InfoNCE损失对外观特征提取模块、文本特征提取模块和关键点特征提取模块的参数进行更新，得到预训练的外观特征提取模块、训练好的文本特征提取模块和训练好的关键点特征提取模块。

在一可选的实施例中，上述利用第二数据集对预训练的外观特征提取模块进行有监督的微调的一种实现方式可以为：

将第二手势视频的各帧图像的多个关键点的坐标信息输入关键点特征提取模块，得到第二手势视频的各帧图像的关键点特征。

根据第二手势视频的各帧图像的关键点特征得到第二手势视频的关键点特征。

可以将各帧图像的关键点特征求和，得到第二手势视频的关键点特征。或者，

可以计算各帧图像的关键点特征的均值，得到第二手势视频的关键点特征。

将每个描述文本的文本特征分别与第二手势视频的关键点特征相加，得到每个描述文本对应的多线索提示特征。

根据第二手势视频的手部外观特征，以及多个描述文本中的各个描述文本对应的多线索提示特征，计算第二手势视频与多个描述文本中的各个描述文本的相似度。

将与第二手势视频的相似度度最大的描述文本指示的手势类型确定为第二手势视频的手势识别结果。

在对预训练的外观特征提取模块进行有监督的微调时，文本特征提取模块和关键点特征提取模块的参数是冻结不变的。

本申请通过引入指示手势类型的描述文本作为提示，一方面可以通过替换描述文本以灵活支持不同手势类型，另一方面，可以借助海量开源文本数据，增强手势识别相关模型(比如，外观特征提取模块、文本特征提取模块、关键点特征提取模块等)对于新手势类型的泛化识别能力，缓解手势识别相关模型对于视频数据和人工标注的强依赖，而且描述文本为人工设计，使得本申请引入人工先验知识，实现对不同手势的精细化描述，降低细粒度手势识别模型的训练难度。

另外，本申请通过引入手部关键点信息作为提示，能够显式建模手部的结构化信息，增强模型对于外观相似手势的整体区分度。

在一可选的实施例中，在采集到至少T+1帧图像，并获得T+1帧图像的手势识别结果后，

可以根据连续T+1帧图像中前T帧图像的手势识别结果，确定连续T+1帧图像中第T+1帧图像对应的目标手势识别结果。

本申请为保证总体手势识别结果随时序保持稳定，新增一个时序滑窗存储模块，其存储长度T可以人为配置，内部可存储连续T帧图像的手势识别结果，时序滑窗存储模块是一个长度固定的时序队列，采用先进先出的原则进行动态维护。

当得到以时序滑窗存储模块中存储的T帧图像的手势识别结果为前T帧图像的手势识别结果时，第T+1帧图像的目标手势识别结果可以通过前T帧图像的手势识别结果投票得到。具体可以将前T帧图像的手势识别结果中出现次数最多的手势类型确定为第T+1帧图像的目标手势识别结果，利用该目标手势识别结果进行交互控制。

也就是说，从第T+1帧图像开始，每一帧图像有两个手势识别结果，一个手势识别结果是基于描述文本计算得到的，另一个识别结果是根据前T帧图像的手势识别结果投票得到的，计算得到的手势识别结果用于参与投票得到目标手势识别结果。根据前T帧图像的识别结果投票得到的目标手势识别结果用于手势交互控制。

基于第T+1帧图像对应的目标手势识别结果触发生成控制指令。比如，向左挥手，触发“下一页”功能。即如果目标手势识别结果为向左挥手，则触发生成的控制指令可以是指示翻到下一页的指令。

与现有手势识别系统中常用的记忆网络相比，本申请提出的时序滑窗存储模块具有较小的内存占用，并且可以使手势交互控制更加稳定。

如图8所示，为本申请实施例提供的手势识别方法的另一种实现流程图，可以包括：

步骤S801：登录手势识别系统。

用户可以通过对电子设备提供的目标交互接口进行预设操作(比如，单击)，触发电子设备登录手势识别系统。

或者，用户可以通过对电子设备提供的目标交互接口进行预设操作(比如，单击)，触发电子设备显示登录信息输入界面，用户在登录信息输入界面输入用户名和密码等需要验证的信息后登录手势识别系统。

步骤S802：电子设备的图像采集装置实时捕获场景图像。

图像采集装置可以工作在可见光工作模式或近红外工作模式。

步骤S803：手部检测和关键点检测，包括：电子设备的处理器对采集到的每一帧图像(记为第i帧图像)进行手部区域检测，如果检测到手部区域，从采集到的图像中裁剪出手部区域图像，对手部区域图像进行关键点检测，得到21个关键点的坐标信息。

21个关键点的坐标信息可以以下述形式进行记录：{(x₀，y₀)…(x₂₀，y₂₀)}。

步骤S804：处理器的外观特征提取模块对手部区域图像进行特征提取，得到手部外观特征。

如图9所示，为本申请实施例提供的外观特征提取模块提取手部外观特征的一种示例图。该示例中，外观特征提取模块中包括多个卷积模块，每个卷积模块中包括多个卷积层，该示例在至少部分卷积模块增加了时序偏移模块，对于每个增加时序偏移模块的卷积模块，所增加的时序偏移模块可以位于卷积模块的中间卷积层前面。增加时序偏移模块的卷积层即为前述目标层级。时序偏移模块用于将前一卷积层输出的第i帧图像的特征与第i-1帧图像的特征融合，得到第i帧图像对应的第三融合特征，将第三融合特征输入时序偏移模块对应的卷积层，得到第i帧图像在时序偏移模块对应的卷积层的手部外观特征。

步骤S805：多线索提示特征提取：处理器的多线索提示特征提取模块中的关键点特征提取模块对21个关建点的坐标信息进行特征提取，得到关建点特征；多线索提示特征提取模块中的文本特征提取模块对K个描述文本分别进行特征提取，得到K个描述文本的文本特征；多线索提示特征提取模块中的融合模块将关键点特征分别与每一个文本特征相加，得到每个描述文本对应的多线索提示特征。

如图10所示，为本申请实施例提供的多线索提示特征提取模块获取一个多线索提示特征的一种示意图。图10中，“这是一个OK手势”是K个描述文本中的其中一个描述文本，图10中的得到的多线索提示特征是对应“这是一个OK手势”这个描述文本的。将图10中的描述文本替换为K个描述文本中的其它描述文本，可以得到其它描述文本对应的多线索提示特征。

图10中的关键点特征和文本特征均为向量。

步骤S806：手势识别，包括：对应每一帧图像，处理器的手势识别模块基于第i帧图像的手部外观特征，以及每个描述文本对应的多线索提示特征，计算第i帧图像与每个描述文本的相似度；将与第i帧图像的相似度最大的描述文本指示的手势类型确定为第i帧图像对应的手势识别结果。

手势识别模块可以计算第i帧图像的手部外观特征与任一描述文本对应的多线索提示特征的距离，以表征第i帧图像与该任一描述文本的相似度。

步骤S807：手势类型是否触发预设功能，如果是，则进入步骤S808；否则返回执行步骤S803。

可以利用第i帧图像的前T帧图像的手势识别结果确定目标手势识别结果，如果目标手势识别结果是预设手势类型，则触发目标手势识别结果对应的预设功能，否则，不触发任何预设手势类型对应的预设功能。

步骤S808：触发电子设备执行预设功能，返回执行步骤S803。

如图11所示，为本申请实施例提供的利用第一数据集对外观特征提取模块、文本特征提取模块和关键点特征提取模块进行自监督训练的一种示例图，该示例图中，第一数据集是基于互联网收集的手势视频构建的，每个手势视频中有一个手势类型，针对该手势视频标注一个指示该手势视频中的手势类型的描述文本。随后，人工标注手势视频片段中对应的手势起始帧号。最后，对所有视频帧，采用预训练好的手部检测和手部关键点检测模型获得每帧图像的手部矩形框和关键点的坐标信息。根据手部矩形框裁剪出手部区域图像，得到手部视频片段。

在对外观特征提取模块、文本特征提取模块和关键点特征提取模块进行联合训练的过程中，采用批量优化方法进行训练，每个训练批次分别在第一数据集中采样n个手部视频片段及其对应的描述文本和关键点位置信息，对于每个手部视频片段，在获取到视频手势起始帧号后，根据起始帧号，从起始帧号之后的多帧图像中，随机采样t帧(通过采样，可以提高模型对不同帧率的视频的适应性)送入外观特征提取模块，提取t帧图像中的各帧图像的手部外观特征，将t帧图像的手部外观特征相加，得到每个手部视频片段的手部外观特征V，分别记为V1，V2，……，Vn；将每个手部视频片段对应的描述文本送人文本特征提取模块，得到每个手部视频片段对应的描述文本的文本特征T，分别记为T1，T2，……，Tn；将从同一手部视频片段中采样的t帧图像对应的关键点坐标信息输入关键点特征提取模块，得到t帧图像中每帧图像的关键点特征，将t帧图像的关键点特征相加，得到同一手部视频片段对应的关键点特征K，n个手部视频片段对应的关键点特征分别记为K1，K2，……，Kn。得到手部外观特征V、文本特征T和关键点特征K这三类特征后，首先对各类特征分别进行归一化处理，比如，由于每一类特征均为向量，对于每个向量，可以计算该向量的模值，将该向量的元素除以该模值，得到该向量的归一化结果(即归一化的特征)。利用归一化特征，通过向量点积计算得到手部外观特征-文本特征的余弦相似度矩阵C1，以及关键点特征-文本特征的余弦相似度矩阵C2。将相似度矩阵对角线上的样本作为正样本对，其它归为负样本对，计算第一InfoNCE损失和第二InfoNCE损失，基于第一InfoNCE损失和第二InfoNCE损失对外观特征提取模块、文本特征提取模块和关键点特征提取模块进行的参数进行更新。在自监督训练过程中，外观特征提取模块输出的手部外观特征和关键点特征提取模块输出的关键点特征均与对应的文本特征对齐，增强了手部外观特征和关键点特征的语义属性，并提升手部外观特征和关键点特征的泛化性。

如图12所示，为本申请实施例提供的利用第二数据集对外观特征提取模块进行有监督的微调的一种示例图。该示例中，针对场景具体需要的手势类型，对外观特征提取模块的参数进行微调，以在需要的手势上达到更高的识别性能。

该示例中，对应每个手部视频片段，多线索提示特征提取模块均输入多个描述文本，每个描述文本指示不同的手势类型，图12所示示例中，仅展示了4个描述文本，在实际应用中，可以有更多描述文本，该示例中，不同的描述文本使用了“一个__手势”这一个句式。对于任一手势视频片段，将该任一手势视频片段输入外观特征提取模块，得到该任一手势视频片段的各帧图像的手部外观特征，将该任一手势视频片段的各帧图像的手部外观特征求和，得到该任一手势视频片段的手部外观特征V，记为V1。对应该任一手部视频片段中的任一帧图像，多线索提示特征提取模块在获取该帧图像的手部关键点坐标信息的关键点特征，以及4个描述文本的文本特征后，将该任一手部视频片段的各帧图像的关键点特征求和，得到该任一手部视频片段的关键点特征，然后将每个描述文本的文本特征分别与该任一手部视频片段的关键点特求和，得到每个描述文本对应的多线索提示特征M，分别记为M1、M2、M3、M4。对M和V分别进行归一化，利用归一化的M和V计算该任一手部视频片段与各个描述文本的余弦相似度，利用交叉熵损失最大化该余弦相似度与真实手势类型标签的相似度，基于该相似度对外观特征提取模块的特征进行微调，在微调过程中，多线索提示特征提取模块的参数是冻结不变的。

微调阶段根据具体应用场景使用到的有效手势，以较低成本的数据标注，提升对有效手势的识别性能。

综上，本申请通过人工设计描述文本，将手势识别由闭集分类问题重建模为开集检索问题，这一建模方式提升了系统对于未预设手势类别的识别能力和可扩展性，降低了增加新手势类别时，所需要的数据采集及标注成本。

与方法实施例相对应，本申请还提供一种手势识别装置，本申请实施例提供的手势识别装置的一种结构示意图如图13所示，可以包括：

区域图像提取模块1301，文本确定模块1302和识别结果确定模块1303；其中，

区域图像提取模块1301用于在采集到的待识别图像中提取手部区域图像；

文本确定模块1302用于在若干描述文本中确定与所述手部区域图像匹配的目标描述文本；不同的描述文本用于指示不同的手势类型；

识别结果确定模块1303用于将所述目标描述文本指示的手势类型确定为所述待识别图像的手势识别结果。

本申请实施例提供的手势识别装置，在进行手势识别时，在考虑图像的基础上引入了用于指示手势类型的描述文本，从而提高手势识别的准确率。进而提高手势交互性能。

在一可选的实施例中，所述文本确定模块1302用于：

在一可选的实施例中，所述文本确定模块1302计算所述手部区域图像与所述若干描述文本中的各个描述文本的相似度时，用于：

对所述手部区域图像进行特征提取，得到手部外观特征；

在一可选的实施例中，所述文本确定模块1302还用于：

对所述手部区域图像进行关键点位置预测，以确定所述手部区域图像中的手部的多个关建点的坐标信息；

在一可选的实施例中，所述文本确定模块1302基于所述手部外观特征、所述关建点特征和所述任一描述文本的文本特征，计算所述手部区域图像与所述任一描述文本的相似度时，用于：

或者，

在一可选的实施例中，所述文本确定模块1302对所述手部区域图像进行特征提取时，用于：

对所述手部区域图像进行多个层级的特征提取；其中，

在所述多个层级的目标层级进行特征提取的过程包括：

在一可选的实施例中，所述文本确定模块1302通过预先训练好的外观特征提取模块提取手部外观特征，通过预先训练好的文本特征提取模块提取各个描述文本的文本特征；所述外观特征提取模块和所述文本特征提取模块通过如下方式训练得到：

在一可选的实施例中，所述文本确定模块1302通过预先训练好的外观特征提取模块提取手部外观特征，通过预先训练好的文本特征提取模块提取各个描述文本的文本特征，通过关键点特征提取模块提取所述关建点特征；所述外观特征提取模块、所述文本特征提取模块和所述关键点特征提取模块通过如下方式训练得到：

在一可选的实施例中，所述装置还包括：

控制模块，用于根据连续T+1帧图像中前T帧图像的手势识别结果，确定所述连续T+1帧图像中第T+1帧图像对应的目标手势识别结果；基于所述目标手势识别结果触发生成控制指令。

在一可选的实施例中，其中，

其中，

不同的描述文本所使用的文本模板相同；

或者，

不同的描述文本所使用的文本模板相同或不同。

本申请实施例提供的手势识别装置可应用于手势识别设备，如PC终端、云平台、服务器及服务器集群等。可选的，图14示出了手势识别设备的硬件结构框图，参照图14，手势识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

在采集到的待识别图像中提取手部区域图像；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

在采集到的待识别图像中提取手部区域图像；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手势识别方法，其特征在于，包括：

在采集到的待识别图像中提取手部区域图像；

2.根据权利要求1所述的方法，其特征在于，所述在若干描述文本中确定与所述手部区域图像匹配的目标描述文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算所述手部区域图像与所述若干描述文本中的各个描述文本的相似度，包括：

对所述手部区域图像进行特征提取，得到手部外观特征；

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述手部外观特征、所述关建点特征和所述任一描述文本的文本特征，计算所述手部区域图像与所述任一描述文本的相似度，包括：

或者，

6.根据权利要求3所述的方法，其特征在于，所述对所述手部区域图像进行特征提取，包括：

对所述手部区域图像进行多个层级的特征提取；其中，

在所述多个层级的目标层级进行特征提取的过程包括：

7.根据权利要求3所述的方法，其特征在于，提取手部外观特征的过程通过预先训练好的外观特征提取模块实现，提取各个描述文本的文本特征的过程通过预先训练好的文本特征提取模块实现；所述外观特征提取模块和所述文本特征提取模块通过如下方式训练得到：

8.根据权利要求4所述的方法，其特征在于，提取手部外观特征的过程通过预先训练好的外观特征提取模块实现，提取各个描述文本的文本特征的过程通过预先训练好的文本特征提取模块实现，提取所述关建点特征的过程通过关键点特征提取模块实现；所述外观特征提取模块、所述文本特征提取模块和所述关键点特征提取模块通过如下方式训练得到：

9.根据权利要求1所述的方法，其特征在于，还包括：

基于所述目标手势识别结果触发生成控制指令。

10.根据权利要求1所述的方法，其特征在于，其中，

其中，

不同的描述文本所使用的文本模板相同；

或者，

不同的描述文本所使用的文本模板相同或不同。

11.一种手势识别装置，其特征在于，包括：

12.一种手势识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-10中任一项所述的手势识别方法的各个步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-10中任一项所述的手势识别方法的各个步骤。