CN116259102A

CN116259102A - 手语识别方法、装置、电子设备和存储介质

Info

Publication number: CN116259102A
Application number: CN202211635635.XA
Authority: CN
Inventors: 陈茂东; 王啸天; 马骥腾; 程大龙
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-06-13

Abstract

本发明提供一种手语识别方法、装置、电子设备和存储介质。其中方法包括：对待识别视频中的各帧图像进行姿态关键点检测，得到各帧图像对应的姿态关键点图，任一姿态关键点图包括多个姿态关键点；对各姿态关键点图的多个姿态关键点进行分类标记，得到各姿态关键点图对应的姿态图；对各姿态图进行手语识别，得到待识别视频的手语识别结果。本发明提供的方法、装置、电子设备和存储介质，对待识别视频中的各帧图像进行姿态关键点检测，以去除待识别视频中的冗余信息，从而提高手语识别的准确性；并对各姿态关键点图的多个姿态关键点进行分类标记，从而将各姿态关键点彼此区分，并将分组的姿态关键点显式构建出来，从而进一步提高手语识别的准确性。

Description

手语识别方法、装置、电子设备和存储介质

技术领域

本发明涉及手语翻译技术领域，尤其涉及一种手语识别方法、装置、电子设备和存储介质。

背景技术

随着计算机视觉技术的快速发展，手语识别的应用场景越来越广泛。手语识别是将采集到的手语视频翻译成文字文本，或者翻译成语音进行播报。

目前，大多基于RGBD深度摄像头获取的人体姿态动作信息，进行手语识别，然而，其对成像硬件有较高的要求，导致手语识别的成本较高。而对RGB视频进行手语识别，现有技术是对RGB图像所表征的各信息平权对待，导致手语识别过程未考虑图像中各信息的相互关系，进而导致手语识别的准确性不高。

发明内容

本发明提供一种手语识别方法、装置、电子设备和存储介质，用以解决现有技术中手语识别准确性不高的缺陷，实现高准确的手语识别。

本发明提供一种手语识别方法，包括：

对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点；

对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图；

对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

根据本发明提供的一种手语识别方法，所述对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图，包括：

基于预设关键点分类规则，对各所述姿态关键点图的所述多个姿态关键点进行分类，得到各所述姿态关键点图对应的关键点分类结果，所述预设关键点分类规则用于表征人体的各肢干所包括的姿态关键点，所述各肢干为与手语动作相关的肢干；

基于各所述关键点分类结果，对各所述姿态关键点图的所述多个姿态关键点进行连接，得到各所述姿态关键点图对应的连接图；

基于各所述关键点分类结果，对各所述连接图的肢干连接部分进行标记，得到各所述连接图对应的姿态图。

根据本发明提供的一种手语识别方法，所述基于各所述关键点分类结果，对各所述连接图的肢干连接部分进行标记，得到各所述连接图对应的姿态图，包括：

基于肢干-颜色映射关系和各所述关键点分类结果，对各所述连接图的肢干连接部分进行颜色标记，得到各所述连接图对应的姿态图；

其中，所述肢干-颜色映射关系用于表征所述各肢干与不同颜色的映射关系。

根据本发明提供的一种手语识别方法，所述手语识别结果包括句子级别识别结果和/或词级别识别结果；

所述句子级别识别结果是对句子级别编码向量进行解码得到的，所述句子级别编码向量是基于各所述姿态图的上下文信息确定的；

所述词级别识别结果是对各所述姿态图的词级别编码向量进行解码得到的。

根据本发明提供的一种手语识别方法，所述句子级别识别结果是基于如下步骤识别得到：

对各所述姿态图进行词级别编码，得到各所述姿态图的词级别编码向量；

基于各所述词级别编码向量的上下文信息，对各所述词级别编码向量进行句子级别编码，得到句子级别编码向量；

对所述句子级别编码向量进行解码，得到所述句子级别识别结果。

根据本发明提供的一种手语识别方法，所述对所述句子级别编码向量进行解码，得到所述句子级别识别结果，包括：

若当前解码轮次不为第一个解码轮次，基于上一解码轮次的词识别结果，对所述句子级别编码向量进行解码，得到所述当前解码轮次的词识别结果；

将所述上一解码轮次更新为所述当前解码轮次，直至所述当前解码轮次为最后一个解码轮次；

基于各解码轮次的词识别结果，确定所述句子级别识别结果；

若当前解码轮次为第一个解码轮次，对所述句子级别编码向量进行解码，得到所述当前解码轮次的词识别结果；

将所述当前解码轮次作为上一解码轮次。

根据本发明提供的一种手语识别方法，所述待识别视频中的任一帧图像是基于如下步骤进行姿态关键点检测：

若所述任一帧图像不为第一帧图像，将所述任一帧图像与上一帧姿态图进行聚合处理，得到聚合图像数据；

对所述聚合图像数据进行姿态关键点检测，得到所述任一帧图像对应的姿态关键点图；

将所述上一帧姿态图更新为所述任一帧图像对应的姿态关键点图对应的姿态图，直至所述任一帧图像为最后一帧图像；

若所述任一帧图像为第一帧图像，对所述任一帧图像进行姿态关键点检测，得到所述任一帧图像对应的姿态关键点图。

本发明还提供一种手语识别装置，包括：

检测模块，用于对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点；

分类模块，用于对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图；

识别模块，用于对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述手语识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述手语识别方法。

本发明提供的手语识别方法、装置、电子设备和存储介质，对待识别视频中的各帧图像进行姿态关键点检测，得到各帧图像对应的姿态关键点图，从而去除待识别视频中的冗余信息，提取出与手语动作相关的姿态信息，从而提高手语识别的准确性；对各姿态关键点图的多个姿态关键点进行分类标记，得到各姿态关键点图对应的姿态图，从而将各姿态关键点彼此区分，显式地将姿态关键点进行分组，并将分组的姿态关键点显式构建出来，以对各姿态图进行手语识别时，能够识别到姿态关键点分组后所表征的人体各部分与手语词的动作特性的关联关系，从而进一步提高手语识别的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的手语识别方法的流程示意图之一；

图2为本发明提供的姿态关键点的布局示意图；

图3为本发明提供的手语识别方法的流程示意图之二；

图4为本发明提供的手语识别方法的流程示意图之三；

图5为本发明提供的手语识别装置的结构示意图；

图6为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

手语是聋人之间相互沟通的重要语言，其主要依靠手形、手部位置、运动、配合面部表情和肢体动作来表达特定意思，以传递信息。

传统方式通过手语翻译人才的培养，以保证听障人士之间的沟通，以及听障人士与健听人之间的沟通，然而，手语翻译人才缺口较大，大部分场所仍缺乏有效的手语翻译服务。因此，随着计算机视觉技术的快速发展，手语识别的应用场景越来越广泛，以借助深度学习等技术，实现手语与文字文本，以及手语与语音之间的翻译。手语识别是将采集到的手语视频翻译成文字文本，或者翻译成语音进行播报，以实现听障人士与健听人之间的无障碍沟通与交流。

目前，大多基于RGBD深度摄像头获取的人体姿态动作信息，进行手语识别，然而，其对成像硬件有较高的要求，使得手语识别设备整体无法做到轻便、价格低廉，导致手语识别的成本较高。另外，基于穿戴式设备实现手语识别，要求使用者穿戴必要的动作信息捕捉设备，例如手环、手套等等，其使用场景受限，整体设备较为繁重，价格也较高，并不适合普及及应用。而对RGB视频进行手语识别，现有技术是对RGB图像所表征的各信息平权对待，导致手语识别过程未考虑图像中各信息的相互关系，进而导致手语识别的准确性不高。

即使对手语视频进行关键点检测，现有是将各关键点拼接成序列，而后输入手语识别模型进行手语识别，而其容易受关键点具体数值波动的影响，当关键点小范围抖动时，手语识别模型将输出完全不同的手语识别结果，而实际上手语动作的含义并不明显变化；且对于不同的关键点只能平权对待，然而，不同关键点之间有着相互关系，基于其相互关系与手语词的表意也有着较强的关联关系；因此，现有技术中手语识别准确性不高。

针对上述问题，本发明提出以下各实施例。图1为本发明提供的手语识别方法的流程示意图之一，如图1所示，该手语识别方法包括：

步骤110，对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点。

此处，待识别视频为待手语识别的视频，该待识别视频中包括手语动作视频，即待识别视频包括多帧手语图像，以基于多帧手语图像构成手语动作视频，换言之，待识别视频包括连续手语动作的多帧图像。

该待识别视频可以由价格低廉的RGB成像装置采集得到，例如，CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)相机；也可以由其他成像装置采集得到，本发明实施例对此不做具体限定。

此处，待识别视频中的任一帧图像表征有手语动作的姿态信息，该姿态信息可以包括但不限于以下至少一种：手形、手部位置、肢体形状、肢体位置、面部表情、面部位置等等，基于此，通过各帧图像表征的信息可以包括但不限于：手部动作、面部动作、肢体动作等等。

在一实施例中，各帧图像可以为RGB图像，从而仅需由价格低廉的RGB成像装置采集得到。当然，各帧图像也可以为其他形式的图像。基于此，本发明实施例无需依赖特定硬件，只需普通的成像装置，即可完成手语识别。

此处，该姿态关键点图可以用于表征各姿态关键点的空间位置，即涵盖各姿态关键点的空间坐标。在一实施例中，该姿态关键点图为热图，其热图的峰值位置即为对应的姿态关键点的空间位置。

此处，姿态关键点为与手语动作相关的关键点，即肢干中与手语动作相关的关键点，该姿态关键点对手语的表意起到关键作用。多个姿态关键点在人体中所处的部位或位置，可以根据实际需要进行设定。

在一实施例中，如图2所示，多个姿态关键点可以包括但不限于以下至少一种：双手拇指关键点集、双手食指关键点集、双手中指关键点集、双手无名指关键点集、双手小指关键点集、头肩关键点集、身体主干关键点集、双手主干关键点集等等。该双手拇指关键点集以一只手的拇指关键点集为例进行说明，该拇指关键点集可以包括但不限于以下至少一种：第一掌根关键点14、第二掌根关键点15、第一拇指关节关键点16、第二拇指关节关键点17、第三拇指关节关键点18等等。该双手食指关键点集以一只手的食指关键点集为例进行说明，该食指关键点集可以包括但不限于以下至少一种：第一掌根关键点14、第一食指关节关键点19、第二食指关节关键点20、第三食指关节关键点21、第四食指关节关键点22等等。该双手中指关键点集以一只手的中指关键点集为例进行说明，该中指关键点集可以包括但不限于以下至少一种：第一掌根关键点14、第一中指关节关键点23、第二中指关节关键点24、第三中指关节关键点25、第四中指关节关键点26等等。该双手无名指关键点集以一只手的无名指关键点集为例进行说明，该无名指关键点集可以包括但不限于以下至少一种：第一掌根关键点14、第一无名指关节关键点27、第二无名指关节关键点28、第三无名指关节关键点29、第四无名指关节关键点30等等。该双手小指关键点集以一只手的小指关键点集为例进行说明，该小指关键点集可以包括但不限于以下至少一种：第一掌根关键点14、第一小指关节关键点31、第二小指关节关键点32、第三小指关节关键点33、第四小指关节关键点34等等。该头肩关键点集可以包括但不限于以下至少一种：右眼关键点1、左眼关键点2、鼻子关键点3、右耳关键点4、左耳关键点5、右肩关键点6、左肩关键点7等等。该身体主干关键点集可以包括但不限于以下至少一种：右肩关键点6、左肩关键点7、右髋关节关键点12、左髋关节关键点13等等。该双手主干关键点集可以包括但不限于以下至少一种：右肩关键点6、右肘关节关键点8、右腕关节关键点10、左肩关键点7、左肘关节关键点9、左腕关节关键点11等等。

具体地，基于姿态关键点检测模型，对待识别视频中的各帧图像逐帧进行姿态关键点检测，得到各姿态关键点图。可以理解的是，待识别视频通常只包括一个动作主体人，基于此，上述可得到动作主体人的各姿态关键点图，即姿态关键点检测模型用于检测待识别视频中动作主体人的姿态关键点。该姿态关键点检测模型的具体结构以及训练方式可以根据实际需要进行设定，本发明实施例对此不做具体限定。

步骤120，对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图。

需要说明的是，考虑到手语动作的整个过程，是由人体的各个部分的运动轨迹共同构成的，且每个部分缺一不可，最为重要的，每个部分对表达的语义有着不同的权重。例如，表达“礼貌”相关的语义时，主要与其语义相关的是鞠躬动作，其手部关节细节并不重要；又例如，表达“谢谢”相关的语义时，主要与其语义相关的是整个手姿态及拇指动作，其他关节细节并不重要。因此，需要对多个姿态关键点进行分类标记，以使后续进行手语识别时将不同的词汇与对应的人体部分的运动轨迹建立较强的关联，进而提高手语识别的准确性。

具体地，任一姿态关键点图是基于如下步骤进行分类标记：基于该任一姿态关键点图的多个姿态关键点的相互关系，对该多个姿态关键点进行分类，得到该任一姿态关键点图对应的关键点分类结果；基于该关键点分类结果，对多个姿态关键点进行标记，得到该任一姿态关键点图对应的姿态图。更为具体地，基于预设关键点分类规则，对该任一姿态关键点图的多个姿态关键点进行分类，得到该任一姿态关键点图对应的关键点分类结果，预设关键点分类规则是基于多个姿态关键点的相互关系确定的。例如，右肩关键点与右肘关节关键点存在连接关系，右肘关节关键点与右腕关节关键点存在连接关系，且右肩关键点、右肘关节关键点、右腕关节关键点均属于右手主干的关键点，则将右肩关键点、右肘关节关键点、右腕关节关键点归属于同一类，即右手主干类。又例如，左肩关键点与左肘关节关键点存在连接关系，左肘关节关键点与左腕关节关键点存在连接关系，且左肩关键点、左肘关节关键点、左腕关节关键点均属于左手主干的关键点，则将左肩关键点、左肘关节关键点、左腕关节关键点归属于同一类，即左手主干类。其中，右手主干类与左手主干类可以为同一类，即双手主干类，也可以为不同类。

此处，姿态图用于表征动作主体人在当前帧的姿态信息和状态。该姿态信息可以包括但不限于以下至少一种：手形、手部位置、肢体形状、肢体位置、面部表情、面部位置等等。基于此，通过各姿态图表征的信息可以包括但不限于：手部动作、面部动作、肢体动作等等，即逐帧处理待识别视频的各帧图像，可得到各姿态图形成的姿态流数据，以基于姿态流数据表征手语表达者的一系列手语动作状态信息，即该姿态流数据记录有表达者的动作方向、手形等关键信息，从而将待识别视频转换为姿态流数据，显著降低待识别视频的冗余信息，进而提高手语识别的准确性。换言之，姿态流数据记录了随着时间，各个关节、肢体空间位置的变化，能够充分表征运动状态信息。

可以理解的是，对多个姿态关键点进行分类标记，即对姿态关键点图进行渲染，以使姿态图将姿态关键点显式构建出来，且各姿态关键点彼此区分，以使后续进行手语识别时将不同的词汇与对应的人体部分的运动轨迹建立较强的关联，进而提高手语识别的准确性。同时，后续进行手语识别时，在各姿态关键点分类标记的基础上，可以对姿态关键点分组后的人体各部分信息进行不同权重的对待；且在各姿态关键点分类标记的基础上，各姿态关键点坐标数值小范围抖动时，仍能识别出准确的手语识别结果，从而对姿态关键点的抖动有着较好的宽容度。

步骤130，对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

此处，手语识别结果可以包括但不限于：句子级别识别结果和词级别识别结果等等。句子级别识别结果为待识别视频所表征的连续句文本结果；进一步地，该连续句文本结果可以为正常听人语序下的连续句文本，这是考虑到手语的语序与正常听人的语序可能不同。词级别识别结果为待识别视频中各片段视频所表征的手语词文本结果。

具体地，基于手语识别模型，对各姿态图进行编码得到各编码向量，并对各编码向量进行解码得到手语识别结果。该手语识别模型的具体结构此处不做具体限定。

本发明实施例提供的手语识别方法，对待识别视频中的各帧图像进行姿态关键点检测，得到各帧图像对应的姿态关键点图，从而去除待识别视频中的冗余信息，提取出与手语动作相关的姿态信息，从而提高手语识别的准确性；对各姿态关键点图的多个姿态关键点进行分类标记，得到各姿态关键点图对应的姿态图，从而将各姿态关键点彼此区分，显式地将姿态关键点进行分组，并将分组的姿态关键点显式构建出来，以对各姿态图进行手语识别时，能够识别到姿态关键点分组后所表征的人体各部分与手语词的动作特性的关联关系，从而进一步提高手语识别的准确性。

基于上述实施例，图3为本发明提供的手语识别方法的流程示意图之二，如图3所示，上述步骤120包括：

步骤121，基于预设关键点分类规则，对各所述姿态关键点图的所述多个姿态关键点进行分类，得到各所述姿态关键点图对应的关键点分类结果，所述预设关键点分类规则用于表征人体的各肢干所包括的姿态关键点，所述各肢干为与手语动作相关的肢干。

需要说明的是，考虑到手语动作的整个过程，是由人体的各个肢干部分的运动轨迹共同构成的，且每个肢干部分缺一不可，最为重要的，每个肢干部分对表达的语义有着不同的权重。因此，需要对多个姿态关键点进行分类，以使后续进行手语识别时将不同的手语词与对应的肢干部分的运动轨迹建立较强的关联，进而提高手语识别的准确性。

示例性的，如图2所示，各肢干可以包括但不限于：头肩、身体主干、双手主干、拇指、食指、中指、无名指、小指等等。该头肩可以包括但不限于以下至少一种：右眼关键点1、左眼关键点2、鼻子关键点3、右耳关键点4、左耳关键点5、右肩关键点6、左肩关键点7等等。该身体主干可以包括但不限于以下至少一种：右肩关键点6、左肩关键点7、右髋关节关键点12、左髋关节关键点13等等。该双手主干可以包括但不限于以下至少一种：右肩关键点6、右肘关节关键点8、右腕关节关键点10、左肩关键点7、左肘关节关键点9、左腕关节关键点11等等。该拇指可以包括但不限于以下至少一种：第一掌根关键点14、第二掌根关键点15、第一拇指关节关键点16、第二拇指关节关键点17、第三拇指关节关键点18等等。该食指可以包括但不限于以下至少一种：第一掌根关键点14、第一食指关节关键点19、第二食指关节关键点20、第三食指关节关键点21、第四食指关节关键点22等等。该中指可以包括但不限于以下至少一种：第一掌根关键点14、第一中指关节关键点23、第二中指关节关键点24、第三中指关节关键点25、第四中指关节关键点26等等。该无名指可以包括但不限于以下至少一种：第一掌根关键点14、第一无名指关节关键点27、第二无名指关节关键点28、第三无名指关节关键点29、第四无名指关节关键点30等等。该小指可以包括但不限于以下至少一种：第一掌根关键点14、第一小指关节关键点31、第二小指关节关键点32、第三小指关节关键点33、第四小指关节关键点34等等。基于上述，可以根据实际需要设定预设关键点分类规则。

步骤122，基于各所述关键点分类结果，对各所述姿态关键点图的所述多个姿态关键点进行连接，得到各所述姿态关键点图对应的连接图。

具体地，基于各关键点分类结果，对各姿态关键点图的多个关键点分组分别进行连接，得到各姿态关键点图对应的连接图。任一连接图包括至少一个肢干连接部分。

示例性的，如图2所示，假设分类得到头肩关键点分组、身体主干关键点分组、双手主干关键点分组、拇指主干关键点分组、食指主干关键点分组、中指主干关键点分组、无名指主干关键点分组、小指主干关键点分组；基于此，对头肩关键点分组中的右眼关键点1、左眼关键点2、鼻子关键点3依次连接，对头肩关键点分组中的右眼关键点1、右耳关键点4、右肩关键点6依次连接，对头肩关键点分组中的左眼关键点2、左耳关键点5、左肩关键点7依次连接；对身体主干关键点分组中的右肩关键点6、左肩关键点7、左髋关节关键点13、右髋关节关键点12依次连接；对双手主干关键点分组中的右肩关键点6、右肘关节关键点8、右腕关节关键点10依次连接，对双手主干关键点分组中的左肩关键点7、左肘关节关键点9、左腕关节关键点11依次连接；对拇指关键点分组中的第一掌根关键点14、第二掌根关键点15、第一拇指关节关键点16、第二拇指关节关键点17、第三拇指关节关键点18依次连接；对食指关键点分组中的第一掌根关键点14、第一食指关节关键点19、第二食指关节关键点20、第三食指关节关键点21、第四食指关节关键点22依次连接；对中指关键点分组中的第一掌根关键点14、第一中指关节关键点23、第二中指关节关键点24、第三中指关节关键点25、第四中指关节关键点26依次连接；对无名指关键点分组中的第一掌根关键点14、第一无名指关节关键点27、第二无名指关节关键点28、第三无名指关节关键点29、第四无名指关节关键点30依次连接；对小指关键点分组中的第一掌根关键点14、第一小指关节关键点31、第二小指关节关键点32、第三小指关节关键点33、第四小指关节关键点34依次连接。

可以理解的是，基于关键点分类结果，对多个姿态关键点分别进行连接，从而得到各肢干连接部分，即使一个肢干连接部分中的个别姿态关键点坐标数值小范围抖动，由于整体的肢干连接部分影响并不大，从而仍能识别出准确的手语识别结果，从而对姿态关键点的抖动有着较好的宽容度。

步骤123，基于各所述关键点分类结果，对各所述连接图的肢干连接部分进行标记，得到各所述连接图对应的姿态图。

具体地，任一连接图是基于如下方式进行标记：基于该任一连接图对应的关键点分类结果，确定各肢干连接部分的标记方式，基于各标记方式对该任一连接图的各肢干连接部分分别进行标记，得到该任一连接图对应的姿态图。其中，具体的标记方式可以根据实际需要进行设定，只需让后续的手语识别能够区分各肢干连接部分的信息即可。

不同肢干连接部分对应的标记方式不同，例如，头肩对应第一标记方式，身体主干对应第二标记方式，双手主干对应第三标记方式(左手主干与右手主干也可以对应不同的标记方式)，拇指对应第四标记方式(左手拇指与右手拇指也可以对应不同的标记方式)，食指对应第五标记方式(左手食指与右手食指也可以对应不同的标记方式)，中指对应第六标记方式(左手中指与右手中指也可以对应不同的标记方式)，无名指对应第七标记方式(左手无名指与右手无名指也可以对应不同的标记方式)，小指对应第八标记方式(左手小指与右手小指也可以对应不同的标记方式)。

可以理解的是，基于各关键点分类结果，对各连接图的肢干连接部分进行标记，以将各肢干连接部分显式构建出来，以对各姿态图进行手语识别时，能够识别到各肢干部分与手语词的动作特性的关联关系，从而提高手语识别的准确性。

本发明实施例提供的手语识别方法，对各姿态关键点图的多个姿态关键点按照肢干进行分类，从而基于各关键点分类结果，对各姿态关键点图的多个姿态关键点分别进行连接，得到各连接图的各肢干连接部分，从而将各姿态关键点彼此区分，从而提高手语识别的准确性；之后，基于各关键点分类结果，对各连接图的肢干连接部分进行标记，以将各肢干连接部分显式构建出来，以对各姿态图进行手语识别时，能够识别到各肢干部分与手语词的动作特性的关联关系，从而进一步提高手语识别的准确性。

基于上述任一实施例，该方法中，上述步骤123包括：

具体地，任一连接图是基于如下方式进行标记：基于该任一连接图对应的关键点分类结果，以及肢干-颜色映射关系，确定各肢干连接部分的标记颜色，基于各标记颜色对该任一连接图的各肢干连接部分分别进行标记，得到该任一连接图对应的姿态图。

不同肢干连接部分对应的标记颜色不同。其中，具体的标记颜色可以根据实际需要进行设定，只需让后续的手语识别能够区分各肢干连接部分的信息即可，即不同肢干连接部分的颜色区别较大即可，具体颜色不做具体限定。

本发明实施例提供的手语识别方法，基于肢干-颜色映射关系和各关键点分类结果，对各连接图的肢干连接部分进行颜色标记，得到各连接图对应的姿态图，为具体的标记方式提供支持，以对各连接图的肢干连接部分进行标记，以将各肢干连接部分显式构建出来，以对各姿态图进行手语识别时，能够识别到各肢干部分与手语词的动作特性的关联关系，从而进一步提高手语识别的准确性。

基于上述任一实施例，该方法中，所述手语识别结果包括句子级别识别结果和/或词级别识别结果；

此处，句子级别识别结果为待识别视频所表征的连续句文本结果；进一步地，该连续句文本结果可以为正常听人语序下的连续句文本，这是考虑到手语的语序与正常听人的语序可能不同。

此处，句子级别编码向量为待识别视频的特征表示。

在一实施例中，可以通过注意力机制，对句子级别编码向量进行解码得到句子级别识别结果，从而进一步提高手语识别的准确性。进一步地，可以采用多头注意力机制，强化特征提取能力，从而进一步提高手语识别的准确性。例如，对句子级别编码向量进行解码的解码器可以由多个transformer层组成。

在一实施例中，考虑到手语的语序与正常听人的语序可能不同，因此在对每个手语词进行识别时，也需考虑上一解码轮次得到的词识别结果，以最终得到正常听人语序对应的句子级别识别结果。基于此，句子级别识别结果是基于如下步骤解码得到的：若当前解码轮次不为第一个解码轮次，基于上一解码轮次的词识别结果，对句子级别编码向量进行解码，得到当前解码轮次的词识别结果；将上一解码轮次更新为当前解码轮次，直至当前解码轮次为最后一个解码轮次；基于各解码轮次的词识别结果，确定句子级别识别结果。若当前解码轮次为第一个解码轮次，对句子级别编码向量进行解码，得到当前解码轮次的词识别结果；将当前解码轮次作为上一解码轮次。具体的执行过程可以参照下述实施例，此处不再一一赘述。

此处，词级别识别结果为待识别视频中各片段视频所表征的手语词文本结果。

示例性的，词级别编码向量是基于孤立词编码器编码得到的。基于此，一个词级别编码向量是基于多帧姿态图编码得到的，即一个孤立词对应有多帧姿态图；换言之，该孤立词编码器由3D卷积块组成，从而可对多帧图像编码。当然，也可以先从多帧姿态图中确定出关键姿态图，从而对关键姿态图编码得到词级别编码向量，该关键姿态图为最能表征该孤立词的姿态图。

在一实施例中，可以通过注意力机制，对词级别编码向量进行解码得到词级别识别结果，从而进一步提高手语识别的准确性。进一步地，可以采用多头注意力机制，强化特征提取能力，从而进一步提高手语识别的准确性。例如，对词级别编码向量进行解码的解码器可以由多个transformer层组成。

本发明实施例提供的手语识别方法，不仅能够识别得到句子级别识别结果，还可以识别得到词级别识别结果，提高了手语识别的丰富性。

基于上述任一实施例，图4为本发明提供的手语识别方法的流程示意图之三，如图4所示，所述句子级别识别结果是基于如下步骤识别得到：

步骤410，对各所述姿态图进行词级别编码，得到各所述姿态图的词级别编码向量。

具体地，基于孤立词编码器，对各姿态图进行词级别编码，得到各姿态图的词级别编码向量，即得到高一层级的语义特征。可以理解的是，一个词级别编码向量是基于多帧姿态图编码得到的，即词级别编码向量的数量小于或等于姿态图的数量。

在一实施例中，该孤立词编码器由3D卷积块组成，从而可对多帧图像编码。在另一实施例中，先可以从多帧姿态图中确定出当前孤立词对应的关键姿态图，从而对关键姿态图编码得到词级别编码向量，该关键姿态图为最能表征当前孤立词的姿态图。

步骤420，基于各所述词级别编码向量的上下文信息，对各所述词级别编码向量进行句子级别编码，得到句子级别编码向量。

具体地，将各词级别编码向量输入至句子编码器，得到该句子编码器输出的句子级别编码向量。该句子编码器用于提取各词级别编码向量的上下文信息，从而基于该上下文信息对各词级别编码向量进行编码。该句子编码器的具体结构可以根据实际需要设定，例如句子编码器由多个transformer层组成。

步骤430，对所述句子级别编码向量进行解码，得到所述句子级别识别结果。

具体地，基于解码器，对句子级别编码向量进行解码，得到句子级别识别结果。该解码器的具体结构可以根据实际需要设定，例如解码器可以由多个transformer层组成。

在一实施例中，可以通过注意力机制，对句子级别编码向量进行解码得到句子级别识别结果，从而进一步提高手语识别的准确性。进一步地，可以通过多头注意力机制，对句子级别编码向量进行解码得到句子级别识别结果，强化特征提取能力，从而进一步提高手语识别的准确性。

本发明实施例提供的手语识别方法，先对各姿态图进行词级别编码，得到各姿态图的词级别编码向量，再基于各词级别编码向量的上下文信息，对各词级别编码向量进行句子级别编码，得到句子级别编码向量，即先提取高一层级的词级别编码向量，再对词级别编码向量进行编码得到下一层级的句子级别编码向量，从而经过逐层级的编码，提高句子级别编码向量的表征能力，进而进一步提高手语识别的准确性。

基于上述任一实施例，该方法中，考虑到手语的语序与正常听人的语序可能不同，基于此，上述步骤430包括：

将所述当前解码轮次作为上一解码轮次。

需要说明的是，各解码轮次是依次进行的，从而在进行当前解码轮次的解码时，还参考了上一解码轮次的词识别结果，确保上一解码轮次的词识别结果与当前解码轮次的词识别结果存在联系，避免由于语序问题导致难以理解，以最终得到正常听人语序对应的句子级别识别结果，进一步提高手语识别的准确性。

为便于理解，假设待识别视频中包括“朋友”手语视频、“今天”手语视频、“晚上”手语视频、“回家”手语视频、“吃饭”手语视频。若第一个解码轮次解码得到的词识别结果为“朋友”，则基于“朋友”的词识别结果，对句子级别编码向量进行解码，得到第二个解码轮次的词识别结果为“今天”；基于“今天”的词识别结果，对句子级别编码向量进行解码，得到第三个解码轮次的词识别结果为“晚上”；基于“晚上”的词识别结果，对句子级别编码向量进行解码，得到第四个解码轮次的词识别结果为“回家”；基于“回家”的词识别结果，对句子级别编码向量进行解码，得到第五个解码轮次的词识别结果为“吃饭”；最后，将各词识别结果“朋友”、“今天”、“晚上”、“回家”、“吃饭”按照解码轮次的顺序进行拼接，得到句子级别识别结果“朋友今天晚上回家吃饭？”。

本发明实施例提供的手语识别方法，在每一解码轮次的解码过程，均参考了上一解码轮次的词识别结果，确保上一解码轮次的词识别结果与当前解码轮次的词识别结果存在联系，避免由于语序问题导致最终得到的句子级别识别结果难以理解，以最终得到正常听人语序对应的句子级别识别结果，进一步提高手语识别的准确性。

基于上述任一实施例，所述待识别视频中的任一帧图像是基于如下步骤进行姿态关键点检测：

此处，聚合图像数据是该任一帧图像与上一帧姿态图在通道维度上拼接得到的。若该任一帧图像为RGB图像，则聚合图像数据是该任一帧图像与上一帧姿态图在RGB的三个通道维度上拼接得到的。

具体地，若该任一帧图像不为第一帧图像，基于姿态关键点检测模型，对聚合图像数据进行姿态关键点检测，得到该任一帧图像对应的姿态关键点图。若该任一帧图像为第一帧图像，基于姿态关键点检测模型，对该任一帧图像进行姿态关键点检测，得到该任一帧图像对应的姿态关键点图。

需要说明的是，各帧图像是依次进行姿态关键点检测的，从而在对当前图像帧进行姿态关键点检测时，还引入了上一帧的姿态关键点图对应的姿态图，以通过上一帧的姿态图指导当前图像帧的姿态关键点检测，从而提高姿态关键点检测的准确性。

本发明实施例提供的手语识别方法，在每一帧图像的姿态关键点检测过程，均引入了上一帧的姿态关键点图对应的姿态图，以通过上一帧的姿态图指导当前图像帧的姿态关键点检测，从而提高姿态关键点检测的准确性，进而进一步提高手语识别的准确性。

在实际应用过程中，基于上述各实施例，极大降低待识别视频中的冗余信息的同时，能够有效应对人群遮挡、背景干扰等影响手语识别的因素，进而可以应用于复杂手势的识别，从而提高手语识别的准确性，以提高手语识别模型的鲁棒性。

下面对本发明提供的手语识别装置进行描述，下文描述的手语识别装置与上文描述的手语识别方法可相互对应参照。

图5为本发明提供的手语识别装置的结构示意图，如图5所示，该手语识别装置，包括：

检测模块510，用于对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点；

分类模块520，用于对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图；

识别模块530，用于对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

本发明实施例提供的手语识别装置，对待识别视频中的各帧图像进行姿态关键点检测，得到各帧图像对应的姿态关键点图，从而去除待识别视频中的冗余信息，提取出与手语动作相关的姿态信息，从而提高手语识别的准确性；对各姿态关键点图的多个姿态关键点进行分类标记，得到各姿态关键点图对应的姿态图，从而将各姿态关键点彼此区分，显式地将姿态关键点进行分组，并将分组的姿态关键点显式构建出来，以对各姿态图进行手语识别时，能够识别到姿态关键点分组后所表征的人体各部分与手语词的动作特性的关联关系，从而进一步提高手语识别的准确性。

基于上述任一实施例，该分类模块520包括：

关键点分类单元，用于基于预设关键点分类规则，对各所述姿态关键点图的所述多个姿态关键点进行分类，得到各所述姿态关键点图对应的关键点分类结果，所述预设关键点分类规则用于表征人体的各肢干所包括的姿态关键点，所述各肢干为与手语动作相关的肢干；

关键点连接单元，用于基于各所述关键点分类结果，对各所述姿态关键点图的所述多个姿态关键点进行连接，得到各所述姿态关键点图对应的连接图；

肢干标记单元，用于基于各所述关键点分类结果，对各所述连接图的肢干连接部分进行标记，得到各所述连接图对应的姿态图。

基于上述任一实施例，该肢干标记单元还用于：

基于上述任一实施例，所述手语识别结果包括句子级别识别结果和/或词级别识别结果；

基于上述任一实施例，该识别模块530包括：

词编码单元，用于对各所述姿态图进行词级别编码，得到各所述姿态图的词级别编码向量；

句编码单元，用于基于各所述词级别编码向量的上下文信息，对各所述词级别编码向量进行句子级别编码，得到句子级别编码向量；

向量解码单元，用于对所述句子级别编码向量进行解码，得到所述句子级别识别结果。

基于上述任一实施例，该向量解码单元还用于：

将所述当前解码轮次作为上一解码轮次。

基于上述任一实施例，该检测模块510包括：

图像聚合单元，用于若所述任一帧图像不为第一帧图像，将所述任一帧图像与上一帧姿态图进行聚合处理，得到聚合图像数据；

图像检测单元，用于对所述聚合图像数据进行姿态关键点检测，得到所述任一帧图像对应的姿态关键点图；

图像更新单元，用于将所述上一帧姿态图更新为所述任一帧图像对应的姿态关键点图对应的姿态图，直至所述任一帧图像为最后一帧图像；

图像检测单元，还用于若所述任一帧图像为第一帧图像，对所述任一帧图像进行姿态关键点检测，得到所述任一帧图像对应的姿态关键点图。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行手语识别方法，该方法包括：对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点；对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图；对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的手语识别方法，该方法包括：对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点；对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图；对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的手语识别方法，该方法包括：对待识别视频中的各帧图像进行姿态关键点检测，得到所述各帧图像对应的姿态关键点图，任一所述姿态关键点图包括多个姿态关键点；对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图；对各所述姿态图进行手语识别，得到所述待识别视频的手语识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显式的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种手语识别方法，其特征在于，包括：

2.根据权利要求1所述的手语识别方法，其特征在于，所述对各所述姿态关键点图的所述多个姿态关键点进行分类标记，得到各所述姿态关键点图对应的姿态图，包括：

3.根据权利要求2所述的手语识别方法，其特征在于，所述基于各所述关键点分类结果，对各所述连接图的肢干连接部分进行标记，得到各所述连接图对应的姿态图，包括：

4.根据权利要求1所述的手语识别方法，其特征在于，所述手语识别结果包括句子级别识别结果和/或词级别识别结果；

5.根据权利要求4所述的手语识别方法，其特征在于，所述句子级别识别结果是基于如下步骤识别得到：

6.根据权利要求5所述的手语识别方法，其特征在于，所述对所述句子级别编码向量进行解码，得到所述句子级别识别结果，包括：

将所述当前解码轮次作为上一解码轮次。

7.根据权利要求1所述的手语识别方法，其特征在于，所述待识别视频中的任一帧图像是基于如下步骤进行姿态关键点检测：

8.一种手语识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述手语识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述手语识别方法。