CN116168445A

CN116168445A - 一种手语状态识别方法及装置

Info

Publication number: CN116168445A
Application number: CN202211601785.9A
Authority: CN
Inventors: 王啸天; 陈茂东; 程大龙
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-26

Abstract

本发明公开了一种手语状态识别方法及装置，手语状态识别方法包括：接收待识别视频序列；逐帧对待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像和手语动作已经结束的第二单帧图像。本发明以人体姿态检测技术为基础，依据手部和人体躯干各部位的相对位置关系实现对手部状态的精准识别，能自适应不同人体躯干尺寸及不同的手部运动速率、幅度、位置，大幅减少模型的误检率，具有适用性强、延时低的特点，做到实时判断手部状态，以保证手语识别和翻译的输入数据源的精准度。

Description

一种手语状态识别方法及装置

技术领域

本发明涉及手语识别技术领域，尤其涉及一种手语状态识别方法及装置。

背景技术

据统计，我国约有2780万聋人，而全世界有听力障碍的人群规模也达到了4.3亿。手语是聋人之间相互沟通的重要语言，它主要依靠手势等肢体动作或面部表情等传递信息。如今，信息化建设的关键步骤之一在于实现手语动作的自动识别与翻译。

然而，实现手语动作的自动识别与翻译的前提是识别出手部状态，即判断用户当前是否正在做手语或是否已经结束做手语。只有输入到手语识别或翻译模型的手语视频是完整且无大量冗余的情况下，模型才能展现出良好的性能。如果判断到的手语开始时间过晚或手语结束时间过早，则输入的手语视频是不完整的，模型难以推测未出现过的手语动作，特别是在当前手语识别或翻译模型特别依赖手语开头动作的情况下，会极大影响模型的性能；而如果判断到的手语开始时间过早或手语结束时间过晚，则用户的冗余动作也将被记录下来，干扰模型判断，模型将会对这些冗余动作也做出不必要且通常是错误的预测。

在实际应用中，不同人的躯干和手部尺寸不同，手部运动习惯也不同，包括速率、幅度、位置等，这都将对手部状态的识别形成较大阻碍。现有的手部状态识别方法中，一部分依靠人工判断，但是人工判断的方法比较麻烦，且带有主观色彩，不便于大规模推广。另一部分由用户做出指定动作，例如张手、握拳等，基于数据手套或者视觉方案当中的模型将识别出该动作，进而判断手语是否进行或结束。但是，做指定动作会导致用户体验不便，且指定动作可能与潜在的单词动作重合，二者产生冲突，导致误识别。

综上，急需一种自适应的手语状态识别方法。

发明内容

鉴于上述，本发明旨在提供一种手语状态识别方法及装置，以人体姿态检测技术为基础，依据手部和人体躯干各部位的相对位置关系实现对手部状态的精准识别，能自适应不同人体躯干尺寸及不同的手部运动速率、幅度、位置，大幅减少模型的误检率，具有适用性强、延时低的特点，做到实时判断手部状态，以保证手语识别和翻译的输入数据源的精准度。

本发明采用的技术方案如下：

第一方面，本发明提供了一种手语状态识别方法，包括：

接收待识别视频序列；

逐帧对待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像和手语动作已经结束的第二单帧图像。

在其中一种可能的实现方式中，若连续第一预设数量的单帧图像被识别为第一单帧图像，则判定手语处于进行状态；

若连续第二预设数量的单帧图像被识别为第二单帧图像，则判定手语处于结束状态。

在其中一种可能的实现方式中，识别手语动作已经开始的第一单帧图像，具体包括：

对于待识别视频序列的每个单帧图像，判断单帧图像中是否包含预设的人体躯干部分和两个手部；

若是，则依据两个手部与髋部的第一距离来判断是否存在至少一个手部抬起；

若是，则判定单帧图像显示手语动作已经开始，并将单帧图像作为第一单帧图像。

在其中一种可能的实现方式中，识别手语动作已经结束的单帧图像，具体包括：

若是，则依据两个手部之间的第二距离、两个手部与髋部之间的第三距离、左臂与躯干之间的第一夹角和右臂与躯干之间的第二夹角来判断双手是否均垂直放下并置于身体两侧；

若是，则判定单帧图像显示手语动作已经结束，并将单帧图像作为第二单帧图像。

在其中一种可能的实现方式中，判断单帧图像中是否包含预设的人体躯干部分和两个手部，具体包括：

获得单帧图像中与躯干和手部动作相关部位的关键点信息，其中，每个部位的关键点信息包括部位在画面中出现的概率值；

依据关键点信息计算与手部动作相关的躯干部位在画面中出现的第一概率以及两个手部在画面中出现的第二概率和第三概率；

若第一概率、第二概率和第三概率均大于对应的阈值，则判定单帧图像中包含预设的人体躯干部分和两个手部。

第二方面，本发明提供了一种手语状态识别装置，包括视频序列接收模块和分析模块；

视频序列接收模块用于接收待识别视频序列；

分析模块用于逐帧对待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像和手语动作已经结束的第二单帧图像。

在其中一种可能的实现方式中，手语状态识别装置还包括状态判定模块，状态判定模块用于在连续第一预设数量的单帧图像被识别为第一单帧图像时，判定手语处于进行状态；还用于在连续第二预设数量的单帧图像被识别为第二单帧图像时，判定手语处于结束状态。

在其中一种可能的实现方式中，分析模块包括完整性判断模块、开始动作判断模块以及第一识别结果获得模块；

完整性判定模块用于判断单帧图像中是否包含预设的人体躯干部分和两个手部；

开始动作判断模块用于依据两个手部与髋部的第一距离来判断是否存在至少一个手部抬起；

第一识别结果获得模块用于将单帧图像作为第一单帧图像。

在其中一种可能的实现方式中，分析模块还包括结束动作判断模块以及第二识别结果获得模块；

结束动作判断模块用于依据两个手部之间的第二距离、两个手部与髋部之间的第三距离、左臂与躯干之间的第一夹角和右臂与躯干之间的第二夹角来判断双手是否均垂直放下并置于身体两侧；

第二识别结果获得模块用于将单帧图像作为第二单帧图像。

在其中一种可能的实现方式中，完整性判断模块包括关键点信息获得模块、计算模块以及比较模块；

关键点信息获得模块用于获得单帧图像中与躯干和手部动作相关部位的关键点信息，其中，每个部位的关键点信息包括部位在画面中出现的概率值；

计算模块用于依据关键点信息计算与手部动作相关的躯干部位在画面中出现的第一概率以及两个手部在画面中出现的第二概率和第三概率；

比较模块用于判断第一概率、第二概率和第三概率是否均大于对应的阈值。

本发明的构思在于，提供一种手语状态识别方法及装置，以人体姿态检测技术为基础，依据手部和人体躯干各部位的相对位置关系实现对手部状态的精准识别，能自适应不同人体躯干尺寸及不同的手部运动速率、幅度、位置，大幅减少模型的误检率，具有无接触，无指定动作、适用性强、延时低的特点，做到实时判断手部状态，以保证手语识别和翻译的输入数据源的精准度。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的手语状态识别方法的一个优选实施例的流程图；

图2为本发明提供的识别第一单帧图像的一个实施例的流程图；

图3为本发明提供的判断单帧图像中是否包含预设的人体躯干部分和两个手部的一个实施例的流程图；

图4为本发明提供的识别第二单帧图像的一个实施例的流程图；

图5为本发明提供的手语状态识别装置的一个优选实施例的结构示意图；

图6为本发明提供的手语状态识别设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

针对前述核心构思，本发明提供了至少一种手语状态识别方法的实施例，如图1所示，可以包括如下步骤：

S110：接收待识别视频序列。

在一种可能的实现方式中，该待识别视频序列是展示某一个手语单词的一系列单帧图像(下称单词视频)。如下步骤以该实现方式为例进行说明。

可以理解地，该待识别视频序列也可以包括多个单词视频，每个单词视频包括多个单帧图像。在处理包括多个单词视频的视频序列时，可以以单词为单位按照顺序执行如下步骤，以完成多个单词的手语状态识别。

S120：逐帧对待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像。

S150：逐帧对待识别视频序列中的第一单帧图像后的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经结束的第二单帧图像。

需要说明的是，每个单帧图像均具有一个唯一的索引/位置，代表该单帧图像在待识别视频序列中的位置，由此可以确定手语动作已经开始和已经结束的位置。

由于不同人的手部运动速率不同，且模型也可能出现误检，基于此，在一种优选的实现方式中，通过多个单帧图像的识别结果综合判断手语是否已经开始和已经结束。例如当10帧中有超过7帧均得出与之前状态不同的判断结果，才会改变手语状态。

在该优选的实现方式中，在S120和S150之间还包括S130-S140，在S150之后还包括S160-S170。具体如下：S130：判断是否连续第一预设数量的单帧图像被识别为第一单帧图像，若是，则执行S140；否则，返回S120。

S140：判定手语处于进行状态。

S160：判断是否连续第二预设数量的单帧图像被识别为第二单帧图像，若是，则执行S170；否则，返回S150。

S170：判定手语处于结束状态。

在一种可能的实现方式中，如图2所示，步骤S120中，识别手语动作已经开始的第一单帧图像，具体包括：

S210：对于待识别视频序列的每个单帧图像，判断单帧图像中是否包含预设的人体躯干部分和两个手部。若是，则执行S220；否则，执行S240。

在一种可能的实现方式中，如图3所示，判断单帧图像中是否包含预设的人体躯干部分和两个手部，具体包括：

S310：获得单帧图像中与躯干和手部动作相关部位的关键点信息。

在一种可能的实现方式中，对于每个单帧图像，通过训练好的人体姿态检测模型识别人体关键点，形成关键点集合。在关键点集合中，筛选出与人体躯干和手部动作最相关的关键点信息，包括人体的左右肩部left_shoulder，right_shoulder、左右腕部left_wrist，right_wrist、左右髋部left_hip，right_hip的关键点信息，其中i＝1，2...，k，k为单词视频的长度(即单词视频中单帧图像的数量)，每个部位的关键点信息包括该部位的横坐标(x)值、纵坐标(y)值以及该部位在画面中出现的概率值。

S320：依据关键点信息计算与手部动作相关的躯干部位在画面中出现的第一概率prob_human以及两个手部在画面中出现的概率prob_hand。

prob_human＝(left_shoulder[2]+right_shoulder[2]+left_hip[2]+right_hip[2])/4 (1)

prob_hand＝(left_wrist[2]，right_wrist[2]) (2)

其中，left_shoulder[2]表示左肩部的概率值，right_shoulder[2]表示右肩部的概率值，left_hip[2]表示左髋部的概率值，right_hip[2]表示右髋部的概率值，left_wrist[2]表示左腕部的概率值(即第二概率)，right_wrist[2]表示右腕部的概率值(即第三概率)。

在另一种可能的实现方式中，步骤S320中，还计算基准阈值thr_base距离阈值thr_dis、横向距离阈值thr_dis_x和纵向距离阈值thr_dis_y。

thr_base＝(right_shoulder[0]+right_hip[0]-left_shoulder[0]-left_hip[0])/2 (3)

thr_dis＝thr_base*0.5 (4)

thr_dis_x＝thr_base*0.7 (5)

thr_dis_y＝thr_base*0.2 (6)

其中，right_shoulder[0]表示右肩部的横坐标，right_hip[0]表示右髋部的横坐标，left_shoulder[0]表示左肩部的横坐标，left_hip[0]表示左髋部的横坐标。

S330：判断第一概率、第二概率和第三概率是否均大于对应的阈值。若是，则执行S340；否则，执行S350。

当人和双手都在画面中，才可以接着进行手语进行状态和结束状态的判断，即要求：

prob_human＞0.8 (7)

left_wrist[2]＞0.8 (8)

right_wrist[2]＞0.8 (9)

S340：判定单帧图像中包含预设的人体躯干部分和两个手部。

S350：判定单帧图像中不包含预设的人体躯干部分和两个手部。

在另一种可能的实现方式中，也可以通过识别手部的关键点，通过判断手部、肩部、髋部等关键部位与画面边缘的距离来判断单帧图像中是否包含预设的人体躯干部分和两个手部。

S220：依据两个手部与髋部的第一距离来判断是否存在至少一个手部抬起。若是，则执行S230；否则，执行S240。

具体地，两个手部与髋部的第一距离分别记为dis_l和dis_r：

dis_l＝||(left_hip[0，1]-left_wrist[0，1])|| (10)

dis_r＝||(right_hip[0，1]-right_wrist[0，1])|| (11)

其中，left_hip[0，1]表示左髋部的横坐标和纵坐标，left_wrist[0，1])表示左腕部的横坐标和纵坐标，right_hip[0，1]表示右髋部的横坐标和纵坐标，right_wrist[0，1])表示右腕部的横坐标和纵坐标。

若dis_l＞thr_dis，则左侧手部抬起；若dis_r＞thr_dis，则右侧手部抬起。

也就是说，当人的左手离开髋部左侧一定距离，或者右手离开髋部右侧一定距离，则认为手部存在抬起，在做动作，即可判断手语已经开始。

在另一种可能的实现方式中，可以通过手部与髋部的纵向距离来判断手部是否抬起。

S230：判定单帧图像显示手语动作已经开始，并将单帧图像作为第一单帧图像。

S240：退出对当前单帧图像的分析。

在一种可能的实现方式中，如图4所示，识别手语动作已经结束的单帧图像，具体包括：

S410：对于待识别视频序列的每个单帧图像，判断单帧图像中是否包含预设的人体躯干部分和两个手部。若是，则执行S420；否则，执行S440。步骤S410的实现请参考步骤S210。

S420：依据两个手部之间的第二距离(dis_hand_x，dis_hand_y)、两个手部与髋部之间的第三距离dis、左臂与躯干之间的第一夹角deg_arm_left和右臂与躯干之间的第二夹角deg_arm_right来判断双手是否均垂直放下并置于身体两侧。若是，则执行S430；否则，执行S440。

dis_hand_x＝right_wrist[0]-left_wrist[0] (12)

dis_hand_y＝right_wrist[1]-left_wrist[1] (13)

dis＝(dis_l+dis_r)/2 (14)

deg_arm_left＝arctan(left_shoulder[0]-left_wrist[0]，left_wrist[1]-left_shoulder[1]) (15)

deg_arm_right＝arctan(right_wrist[0]-right_shoulder[0]，right_wrist[1]-right_shoulder[1]) (16)

其中，right_wrist[0]表示右腕部的横坐标，left_wrist[0]表示左腕部的横坐标，right_wrist[1]表示右腕部的纵坐标，left_wrist[1]表示左腕部的纵坐标，right_shoulder[1]表示右肩部的纵坐标，left_shoulder[1]表示左肩部的纵坐标。

若满足如下条件，则手语动作已经结束：

dis_hand_x＞thr_dis_x and dis_hand_y＞thr_dis_y and dis＞thr-dis and0＜deg-arm_left＜15 and 0＜deg-arm_right＜15 (17)

S430：判定单帧图像显示手语动作已经结束，并将单帧图像作为第二单帧图像。

S440：退出对当前单帧图像的分析。

在另一种可能的实现方式中，可以通过相邻单帧图像中手部变化情况确定手语动作的开始或结束，从而确定第一单帧图像和第二单帧图像。

相应于上述各实施例及优选方案，本发明还提供了一种手语状态识别装置的实施例，如图5所示，具体可以包括视频序列接收模块510和分析模块520。

视频序列接收模块510用于接收待识别视频序列。

分析模块520用于逐帧对待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像和手语动作已经结束的第二单帧图像。

在其中一种可能的实现方式中，手语状态识别装置还包括状态判定模块530，状态判定模块530用于在连续第一预设数量的单帧图像被识别为第一单帧图像时，判定手语处于进行状态；还用于在连续第二预设数量的单帧图像被识别为第二单帧图像时，判定手语处于结束状态。

在其中一种可能的实现方式中，分析模块520包括完整性判断模块5201、开始动作判断模块5202以及第一识别结果获得模块5203。

完整性判定模块5201用于判断单帧图像中是否包含预设的人体躯干部分和两个手部。

开始动作判断模块5202用于依据两个手部与髋部的第一距离来判断是否存在至少一个手部抬起。

第一识别结果获得模块5203用于将单帧图像作为第一单帧图像。

在其中一种可能的实现方式中，分析模块520还包括结束动作判断模块5204以及第二识别结果获得模块5205。

结束动作判断模块5204用于依据两个手部之间的第二距离、两个手部与髋部之间的第三距离、左臂与躯干之间的第一夹角和右臂与躯干之间的第二夹角来判断双手是否均垂直放下并置于身体两侧。

第二识别结果获得模块5205用于将单帧图像作为第二单帧图像。

在其中一种可能的实现方式中，完整性判断模块5201包括关键点信息获得模块、计算模块以及比较模块。

关键点信息获得模块用于获得单帧图像中与躯干和手部动作相关部位的关键点信息，其中，每个部位的关键点信息包括部位在画面中出现的概率值。

计算模块用于依据关键点信息计算与手部动作相关的躯干部位在画面中出现的第一概率以及两个手部在画面中出现的第二概率和第三概率。

应理解以上图5所示的手语状态识别装置的各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种手语状态识别设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

图6为本发明的手语状态识别设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、智能终端(手机、平板、手表、眼镜等)、智能电视、音响、音箱、机顶盒、遥控器、智慧屏、柜员机、机器人、无人机、ICV、智能(汽)车及车载设备等。本实施例对手语状态识别设备的具体形式不作限定。

具体如图6所示，手语状态识别设备900包括输入单元960、显示单元970、处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。显示单元970可以包括显示屏。

除此之外，为了使得手语状态识别设备900的功能更加完善，该设备900还可以包括音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。

进一步地，上述手语状态识别设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图6所示的手语状态识别设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图6所示的手语状态识别设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的手语状态识别方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种手语状态识别方法，其特征在于，包括：

接收待识别视频序列；

逐帧对所述待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像和手语动作已经结束的第二单帧图像。

2.根据权利要求1所述的手语状态识别方法，其特征在于，若连续第一预设数量的单帧图像被识别为第一单帧图像，则判定手语处于进行状态；

3.根据权利要求1所述的手语状态识别方法，其特征在于，识别手语动作已经开始的第一单帧图像，具体包括：

对于所述待识别视频序列的每个单帧图像，判断所述单帧图像中是否包含预设的人体躯干部分和两个手部；

若是，则判定所述单帧图像显示手语动作已经开始，并将所述单帧图像作为第一单帧图像。

4.根据权利要求1所述的手语状态识别方法，其特征在于，识别手语动作已经结束的单帧图像，具体包括：

若是，则判定所述单帧图像显示手语动作已经结束，并将所述单帧图像作为第二单帧图像。

5.根据权利要求3或4所述的手语状态识别方法，其特征在于，判断所述单帧图像中是否包含预设的人体躯干部分和两个手部，具体包括：

获得所述单帧图像中与躯干和手部动作相关部位的关键点信息，其中，每个部位的关键点信息包括所述部位在画面中出现的概率值；

依据所述关键点信息计算与手部动作相关的躯干部位在画面中出现的第一概率以及两个手部在画面中出现的第二概率和第三概率；

若所述第一概率、所述第二概率和所述第三概率均大于对应的阈值，则判定所述单帧图像中包含预设的人体躯干部分和两个手部。

6.一种手语状态识别装置，其特征在于，包括视频序列接收模块和分析模块；

所述视频序列接收模块用于接收待识别视频序列；

所述分析模块用于逐帧对所述待识别视频序列中的每个单帧图像进行分析，依据两个手部、髋部、左臂、右臂以及躯干之间的位置关系确定手语动作已经开始的第一单帧图像和手语动作已经结束的第二单帧图像。

7.根据权利要求6所述的手语状态识别装置，其特征在于，还包括状态判定模块，所述状态判定模块用于在连续第一预设数量的单帧图像被识别为第一单帧图像时，判定手语处于进行状态；还用于在连续第二预设数量的单帧图像被识别为第二单帧图像时，判定手语处于结束状态。

8.根据权利要求6或7所述的手语状态识别装置，其特征在于，所述分析模块包括完整性判断模块、开始动作判断模块以及第一识别结果获得模块；

所述完整性判定模块用于判断所述单帧图像中是否包含预设的人体躯干部分和两个手部；

所述开始动作判断模块用于依据两个手部与髋部的第一距离来判断是否存在至少一个手部抬起；

所述第一识别结果获得模块用于将所述单帧图像作为第一单帧图像。

9.根据权利要求6或7所述的手语状态识别装置，其特征在于，所述分析模块还包括结束动作判断模块以及第二识别结果获得模块；

所述结束动作判断模块用于依据两个手部之间的第二距离、两个手部与髋部之间的第三距离、左臂与躯干之间的第一夹角和右臂与躯干之间的第二夹角来判断双手是否均垂直放下并置于身体两侧；

所述第二识别结果获得模块用于将所述单帧图像作为第二单帧图像。

10.根据权利要求8所述的手语状态识别装置，其特征在于，所述完整性判断模块包括关键点信息获得模块、计算模块以及比较模块；

所述关键点信息获得模块用于获得所述单帧图像中与躯干和手部动作相关部位的关键点信息，其中，每个部位的关键点信息包括所述部位在画面中出现的概率值；

所述计算模块用于依据所述关键点信息计算与手部动作相关的躯干部位在画面中出现的第一概率以及两个手部在画面中出现的第二概率和第三概率；

所述比较模块用于判断所述第一概率、所述第二概率和所述第三概率是否均大于对应的阈值。