CN110348420A

CN110348420A - 手语识别方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110348420A
Application number: CN201910650159.0A
Authority: CN
Inventors: 阳赵阳; 沈小勇; 戴宇荣; 贾佳亚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-10-18
Anticipated expiration: 2039-07-18
Also published as: US11749029B2; WO2021008320A1; EP4002197A4; EP4002197A1; CN110348420B; US20210390289A1

Abstract

本申请涉及一种手语识别方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取待识别的手语视频；从所述手语视频中的各帧图像中提取手势特征；提取所述手语视频中各帧图像的手势变化特征；从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息；按照所述手语词信息对应的语境信息，将所述手语词信息组合成手语语句。本申请提供的方案可以有效地提高手语识别的准确性。

Description

手语识别方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种手语识别方法、装置、计算机可读存储介质和计算机设备。

背景技术

对于听力障碍的人群，手语是一种常用的自然语言，通过手语的沟通方式可以向他人表述自己的想法。然而，对于普通人群而言，对手语的了解甚少，导致与听力障碍的人群之间的交流存在很大的困难。因此，手语识别技术的出现具有重要意义，可以很好的促进普通人群与听力障碍的人群之间的交流。

将一系列不做停顿的手语表达直接识别成文字，是一个具有挑战性的问题，传统的手语识别方案中，通过带有传感器的手环或手套来获取距离和肌肉活动等信息，通过这些信息来进行手语的识别。然而，采用上述的手语识别方案，手语识别的准确性较低。

发明内容

基于此，有必要针对手语识别的准确性较低的技术问题，提供一种手语识别方法、装置、计算机可读存储介质和计算机设备。

一种手语识别方法，包括：

获取待识别的手语视频；

从所述手语视频中的各帧图像中提取手势特征；

提取所述手语视频中各帧图像的手势变化特征；

从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息；

按照所述手语词信息对应的语境信息，将所述手语词信息组合成手语语句。

一种手语识别装置，所述装置包括：

视频获取模块，用于获取待识别的手语视频；

第一特征提取模块，用于从所述手语视频中的各帧图像中提取手势特征；

第二特征提取模块，用于提取所述手语视频中各帧图像的手势变化特征；

信息提取模块，用于从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息；

手语识别模块，用于按照所述手语词信息对应的语境信息，将所述手语词信息组合成手语语句。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述手语识别方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述手语识别方法的步骤。

上述手语识别方法、装置、计算机可读存储介质和计算机设备，在获取到手语视频时，提取手语视频各帧图像中的手势特征，而且提取手语视频中各帧图像的手势变化特征，从而可以得到手势信息和手势的细微变化信息，当利用手势特征和手势变化特征进行手语识别时，可以有效地提升手语识别的准确率。从手势特征与手势变化特征之间的融合特征中提取手语词信息，在确定所提取手语词信息的语境信息时，根据语境信息将所提取的手语词信息组合成手语语句，从而将词与词之间进行准确有效地组合，有利于提高手语识别的准确率。

附图说明

图1为一个实施例中手语识别方法的应用环境图；

图2为一个实施例中手语识别方法的流程示意图；

图3为一个实施例中手语识别页面的示意图；

图4为一个实施例中人脸特征点的示意图；

图5为一个实施例中二维卷积和三维卷积的示意图；

图6为一个实施例中特征提取单元的结构示意图；

图7为一个实施例中提取手语词信息步骤的流程示意图；

图8为一个实施例中将合成新手语语句时发出提示信息，并按照设定呈现方式对新手语语句进行显示步骤的流程示意图；

图9为一个实施例中机器学习模型的结构框图；

图10为另一个实施例中手语识别方法的流程示意图；

图11为一个实施例中手语识别装置的结构框图；

图12为另一个实施例中手语识别装置的结构框图；

图13为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中手语识别方法的应用环境图。参照图1，该手语识别方法应用于手语识别系统。该手语识别系统包括终端110和服务器120。终端110和服务器120通过网络连接。该手语识别方法可以由终端110执行，也可以由终端110与服务器120协同执行。当由终端110执行时，终端110获取待识别的手语视频；从手语视频中的各帧图像中提取手势特征；提取手语视频中各帧图像的手势变化特征；从手势特征与手势变化特征之间的融合特征中提取手语词信息；按照手语词信息对应的语境信息，将手语词信息组合成手语语句。

当由终端110和服务器120协同执行时，终端110通过内置的摄像头拍摄图像，进而得到待识别的手语视频，然后将手语视频发送给服务器120；服务器120从手语视频中的各帧图像中提取手势特征；提取手语视频中各帧图像的手势变化特征；从手势特征与手势变化特征之间的融合特征中提取手语词信息；按照手语词信息对应的语境信息，将手语词信息组合成手语语句。

其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种；又或者是专用的手语翻译机，该手语翻译机安装有摄像头，用于记录手语动作。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种手语识别方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该手语识别方法具体包括如下步骤：

S202，获取待识别的手语视频。

其中，手语可以指以手部动作和面部表情来表达思想，从而实现沟通的目的，它是听力障碍和无法言语之人(即聋哑人)互相交际和交流思想的一种手段。手语视频可以是目标对象(包括听力障碍、聋哑人和正常人)在使用手语与他人或机器进行交流，或是用户向他人传递信息(如新闻工作者以手语播报新闻)时所拍摄的视频。手语视频由多个关于手语的帧图像所组成。

在一个实施例中，当进行手语识别时，终端启动手语识别客户端；在启动手语客户端后，展示手语识别页面，以便根据该手语识别页面进行相应的操作和/或提示。

在一个实施例中，终端检测在手语识别页面触发的开始操作；响应于该开始操作，启动内置摄像头进行帧图像的拍摄。具体地，终端通过内置摄像头拍摄目标对象在使用手语时的帧图像，将拍摄的帧图像组合成手语视频。当检测在手语识别页面触发的停止操作；响应于该停止操作，关闭内置摄像头，以停止进行帧图像的拍摄。

例如，如图3(a)所示，当用户点击开始按钮⑤时，则开始进行手语识别的过程，即先通过终端内置的摄像头拍摄关于手语的帧图像。当再次点击按钮⑤时，则停止进行手语识别的过程，即先停止拍摄帧图像。

对于S202，可以分为以下两个场景进行阐述：

场景1，通过检测等待时长来确定手语是否进行停顿，当停顿时，获取手语视频。

在一个实施例中，S202具体可以包括：当检测到开始操作时，终端拍摄环境中的目标对象；当拍摄目标对象所得的视频中包含有人脸特征和手势特征时，则在拍摄过程中实时检测目标对象在切换手势时的等待时长；当等待时长符合预设条件时，将所获得的视频作为待识别的手语视频。

在一个实施例中，当等待时长不符合预设条件时，将拍摄目标对象所得的视频进行保存，并返回执行在拍摄过程中实时检测目标对象在切换手势时的等待时长的步骤，直至等待时长符合预设条件时，则将当前拍摄目标对象所得的视频和保存的视频作为待识别的手语视频。

其中，预设条件可以是某个时长阈值，当等待时长大于或等于时长阈值时，表示等待时长符合预设条件。

例如，若检测到手势特征时，则进行端点检测，即通过等待时间是否符合预设条件来确定某一句手语是否已经表达完，若否，那么则把这个帧图像储存起来；若是，则将上一刻储存的帧图像或视频与当前拍摄所得的帧图像一起合成一个手语视频。

场景2，通过端点检测来确定手语是否进行停顿，当停顿时，获取手语视频。

在一个实施例中，该方法还可以包括：当拍摄目标对象所得的视频中包含有人脸特征和手势特征时，则在拍摄过程中实时检测目标对象的手势特征；当检测所得的手势特征符合手势结束端点条件时，将所获得的视频作为待识别的手语视频；当检测所得的手势特征不符合手势结束端点条件时，保存所拍摄的视频，执行在拍摄过程中实时检测目标对象的手势特征的步骤，直至手势特征符合手势结束端点条件时，则将当前拍摄目标对象所得的视频和保存的视频作为待识别的手语视频。

例如，若检测到手势特征时，则进行端点检测，如果这个手势不是一系列手势中的最后一个手势，那么则把这个帧图像储存起来；若检测到手势结束端点时，则将上一刻储存的帧图像或视频与当前拍摄所得的帧图像一起合成手语视频。

在一个实施例中，当拍摄目标对象得到图像时，终端检测该图像中的人脸特征，以确定该图像中是否包含有人脸特征。然后，当该图像中包含有人脸特征时，终端则继续检测图像中的手势特征，以确定该图像中是否包含有手势特征。终端检测该图像中的人脸特征，可以是通过人脸特征点的检测方式来检测图像中的人脸特征。

例如，如图4所示，人脸特征可以包括图中所示的1～17表示脸部边缘特征点，18～22以及23～27对应表示用户的左眉部特征点和右眉部特征点，28～36表示用户的鼻子特征点，37～42表示用户的左眼特征点，43～48表示用户的右眼特征点，49～68表示用户的嘴唇特征点。需要指出的是，以上仅为示例，在可选实施例中可以在以上脸部特征点中仅识别部分或更多的特征点，或采用其他方式标记各个特征点，均属于本发明实施例的范畴。

在一个实施例中，当拍摄目标对象所得的视频中包含有人脸特征和手势特征时，则在手语识别页面中发出提示信息，该提示信息可以是视觉上的提示，也可以是听觉上的提示。其中，视觉上的提示可以是高亮显示，或弹出提示栏。听觉上的提示可以是发出语音提示或警报声。其中，视频中包含有人脸特征和手势特征，可以指视频中各帧图像均包含有人脸特征和手势特征，对不包含人脸特征和/或手势特征的帧图像进行滤除。

例如，如图3(a)所示，当用户点击开始按钮⑤时，终端则开始进行手语识别的过程，即通过终端内置的摄像头拍摄目标对象得到视频，然后检测视频的各帧图像中是否包含有人脸特征，当检测到人脸特征时，如图3(c)所示，图3(c)的视频中包含有人脸特征，此时在手语识别页面的人脸检测结果提示框①进行高亮显示，以提示用户该视频中包含有人脸特征。在拍摄过程中，用户的头部可能未落入显示画面中，即未落入显示区域⑦中，当未检测到人脸特征时，如图3(b)所示，图3(b)中的视频不包含有人脸特征，此时不会进行高亮显示。

然后，继续检测视频的各帧图像中是否包含有手势特征，当检测到手势特征时，如图3(c)所示，图3(c)的视频中在包含有人脸特征的前提下，还包含有手势特征，此时在手语识别页面的手势检测结果提示框②进行高亮显示，以提示用户该视频中包含有手势特征。当未检测到手势特征时，如图3(a)所示，图3(a)的视频中虽然包含有人脸特征，但未包含有手势特征，此时不会进行高亮显示。

S204，从手语视频中的各帧图像中提取手势特征。

在一个实施例中，终端通过二维网络模型，对手语视频中的各帧图像进行二维卷积处理，从而提取出各帧图像中的手势特征。

其中，二维网络模型可以是用于提取手势特征的网络模型，具体可以是二维卷积神经网络模型。二维网络模型可以是机器学习模型的其中一个网络分支。

在一个实施例中，终端可以以手语视频中的每三帧图像为一个窗口，以步长为一，从三帧图像中的第一帧向最后一帧进行滑动，在滑动过程中，将帧图像对应的图像块与二维卷积核进行卷积处理，如图5(a)，上述卷积步骤可以执行至少一次，从而提取出各帧图像中的手势特征。其中，二维卷积核大小可以是3×3，步长为1。

S206，提取手语视频中各帧图像的手势变化特征。

在一个实施例中，终端通过三维网络模型，对手语视频中的各帧图像进行三维卷积处理，从而提取出各帧图像中的手势变化特征。

其中，三维网络模型可以是用于提取手势变化特征的网络模型，具体可以是三维卷积神经网络模型。三维网络模型可以是机器学习模型中的另一个网络分支。

在一个实施例中，终端可以以手语视频中的每三帧图像为一个窗口，以步长为一，将帧图像对应的图像块与三维卷积核进行卷积处理，上述卷积步骤可以执行至少一次，从而提取出各帧图像中的手势变化特征。例如如图5(b)所示，采用三维卷积核与手语视频中的每三帧图像进行卷积，得到各帧图像中的手势变化特征。由于三维卷积核中加入时间维度，在提取特征时，可以得到在时间上手势发生变化的特征。其中，二维卷积核大小可以是3×3×3，步长为1。

S208，从手势特征与手势变化特征之间的融合特征中提取手语词信息。

其中，手语词信息为用于表示某个字或词的信息，该信息可以是一条词特征向量。手语词信息由长短期记忆网络提取，该长短期记忆网络的损失函数引入了正则项；该正则项的表达式为：

其中，N为总词汇量，P_o,n为根据句子特征进行分类时预测第n个词出现的概率，P_c,n为根据词特征确定第n个出现的概率。

在一个实施例中，终端将从手势特征与手势变化特征进行融合，得到融合特征。其中，手势特征与手势变化特征的步骤，具体可以包括：手势特征与手势变化特征进行相加，然后对相加所得的结果进行求平均，得到融合特征。

二维网络模型和三维网络模型可以共同组成一个特征提取单元，机器学习模型中，可以具有至少四个特征提取单元。在一个实施例中，S204具体可以包括：通过第一个特征提取单元中的二维网络模型，从手语视频中的各帧图像中提取手势特征。S206具体可以包括：通过第一个特征提取单元中的三维网络模型，提取手语视频中各帧图像的手势变化特征。对应地，在S208之前，该方法还可以包括：终端对手势特征与手势变化特征之间的融合特征进行卷积和池化处理；通过第二个特征提取单元中的二维网络模型，从池化处理后所得的融合特征中提取手势特征；通过第二个特征提取单元中的三维网络模型提取池化处理后所得的融合特征中的手势变化特征；将所提取的手势特征和手势变化特征进行融合。依此类推，通过第三个特征提取单元和第四个特征提取单元，依次对对应融合特征进行特征提取，得到最终的融合特征。

例如，如图6所示，终端通过第一个特征提取单元中的2D CNN(2 DimensionConvolutional Neural Network，二维卷积神经网络)对输入的手语视频中的帧图像进行卷积操作，得到手势特征，其中，2D CNN的卷积核大小为7×7，步长为2，通道数为64。此外，终端通过第一个特征提取单元中的3D CNN(3 Dimension Convolutional NeuralNetwork，三维卷积神经网络)对输入的手语视频中的帧图像进行卷积操作，得到手势变化特征，其中，3D CNN的卷积核大小为3×7×7，步长为2，通道数为64。终端将2D CNN输出的手势特征与3D CNN输出的手势变化特征进行相加并取平均值，得到第一次融合的融合特征。接着，终端通过卷积核大小为1×1、步长为1且通道数为64的2D CNN，对第一次融合的融合特征进行卷积操作，然后再通过最大池化层进行池化操作，并将池化操作之后所得的融合特征作为第二个特征提取单元的输入。

再接着，终端通过第二个特征提取单元中的2D CNN对池化操作之后所得的融合特征进行卷积操作，得到手势特征，其中，2D CNN的卷积核大小为3×3，步长为1，通道数为128。此外，终端通过第二个特征提取单元中的3D CNN对池化操作之后所得的融合特征进行卷积操作，得到手势变化特征，其中，3D CNN的卷积核大小为3×3×3，步长为1，通道数为128。终端将第二个特征提取单元中的2D CNN输出的手势特征与3D CNN输出的手势变化特征进行相加并取平均值，得到第二次融合的融合特征。接着，终端通过卷积核大小为1×1、步长为1且通道数为128的2D CNN，对第二次融合的融合特征进行卷积操作，然后再通过最大池化层进行池化操作，并将池化操作之后所得的融合特征作为第三个特征提取单元的输入。依此类推，得到最终的融合特征。

S210，按照手语词信息对应的语境信息，将手语词信息组合成手语语句。

其中，语境可以指使用手语时所表述的思想或情感所对应的环境；或者说，语境可以是某个词语片断与上下文之间的关系。

在一个实施例中，在进行手语识别的过程中，终端可以采用模糊匹配的方式对手语视频中各帧图像的手势进行识别，得到一个或多个对应的手语词信息。若得到多个手语词信息时，终端可以从多个手语词信息中选取与语境信息对应的手语词信息，然后将所选取手语词信息进行组合并转换为手语语句。其中，从多个手语词信息中选取与语境信息对应的手语词信息时，可以选取一个，也可以选取多个。手语语句可以是文字形式的语句，如图3(c)中的“欢迎来这(这里)，很快乐(高兴)认识(见)你”。

在一个实施例中，在S210中，终端通过至少一层双向长短期记忆网络，对词级别的所有手语词信息在两个序列方向上进行信息整合，这样可以充分考虑前后的语境信息。具体地，S210包括：对手语词信息进行正向计算和反向计算；将正向计算所得的序列与反向计算所得的序列进行拼接，得到拼接序列；从拼接序列中提取句子特征，并根据句子特征进行分类；按照分类所得的结果合成手语语句。

其中，手语语句通过双向长短期记忆网络合成；双向长短期记忆网络采用了连续时序分类损失函数；连续时序分类损失函数，用于将与未包含有手语词信息的帧图像对应的手语词标记为空字符，并在合成手语语句时将空字符进行删除。

例如，对于包含有n个字的手语词信息，记作x＝(x₁,x₂,...,x_n)，在双向长短期记忆网络层中自动提取手语词信息x＝(x₁,x₂,...,x_n)的句子特征，即把手语词信息x＝(x₁,x₂,...,x_n)作为双向长短期记忆网络层各个时间步的输入，再将正向长短期记忆网络层输出的隐状态序列(h₁→,h₂→,...,h_n→)与反向长短期记忆网络层的隐状态序列(h₁←,h₂←,...,h_n←)，得到完整的隐状态序列。

上述实施例中，在获取到手语视频时，提取手语视频各帧图像中的手势特征，而且提取手语视频中各帧图像的手势变化特征，从而可以得到手势信息和手势的细微变化信息，当利用手势特征和手势变化特征进行手语识别时，可以有效地提升手语识别的准确率。从手势特征与手势变化特征之间的融合特征中提取手语词信息，在确定所提取手语词信息的语境信息时，根据语境信息将所提取的手语词信息组合成手语语句，从而将词与词之间进行准确有效地组合，有利于提高手语识别的准确率。

在一个实施例中，如图7所示，S208具体可以包括：

S702，将手势特征与手势变化特征之间的融合特征转换成特征向量。

在一个实施例中，在S702之前，终端将手势特征与手势变化特征进行相加，然后对相加所得的结果进行求平均，得到融合特征。

在一个实施例中，S702具体可以包括：终端对手势特征与手势变化特征之间的融合特征进行卷积处理；将卷积处理后的融合特征进行全局平均池化操作，得到与手语视频中的各帧图像对应的特征向量。

例如，如图6所示，终端将第四个特征提取单元中的2D CNN输出的手势特征与3DCNN输出的手势变化特征进行相加并取平均值，得到第四次融合的融合特征。然后，终端通过卷积核大小为1×1、步长为1且通道数为512的2D CNN，对第四次融合的融合特征对进行卷积操作，然后在通过全局平均池化层进行池化操作，得到与手语视频中的各帧图像对应的特征向量。

S704，在转换所得的特征向量中，分别对连续多帧图像对应的特征向量进行组合得到特征向量分组。

其中，对连续多帧图像对应的特征向量进行组合之后，可以得到包含有多个特征向量的元帧。

在一个实施例中，终端先确定每个组合的向量个数，然后按照确定的向量个数，将连续多帧图像对应的特征向量进行组合。

例如，向量个数可以是12个，对应地，元帧可以由12个特征向量组成，每一个特征向量对应原手语视频中对应帧图像的信息，12个特征向量对应大约0.5秒的视频播放时间。一般地，一个手语词的持续时间通常在0.5秒左右，因此，每一个元帧可表示一个手语词。

S706，分别从各特征向量分组中提取手语词信息。

在一个实施例中，连续多帧图像对应的特征向量在进行组合之后，得到包含有多个特征向量分组，该特征向量分组也称为元帧。终端通过长短期记忆网络，分别从各元帧中提取手语词信息。具体地，终端通过长短期记忆网络对每个元帧中的信息进行词级别的特征提取，得到词特征，每一个元帧对应一个词特征(该词特征可以是词特征向量的形式)，该词特征表征了该元帧中的手语词信息。

为了让模型更加具有泛化性，在词级别中还引入了额外的正则项。具体地，若根据句子特征进行分类时预测第n个词出现的概率为P_o,n，根据词特征确定第n个出现的概率为P_c,n，那么在训练的损失函数中就会增加一项：

其中，N表示总词汇量。

上述实施例中，引入词级别的特征提取，即通过将手势特征与手势变化特征之间的融合特征转换成特征向量，然后分别对连续多帧图像对应的特征向量进行组合得到特征向量分组，分别从各特征向量分组中提取手语词信息，从而实现词级别的特征提取，有利于提高手语识别的准确性。

在一个实施例中，如图8所示，该方法还可以包括：

S802，当合成出新手语语句时，在展示的手语识别操作页面中发出提示信息。

其中，上述的提示信息可以是视觉上的提示，也可以是听觉上的提示。其中，视觉上的提示可以是高亮显示，或弹出提示栏。听觉上的提示可以是发出语音提示或警报声。

例如，如图3(c)所示，当合成出新手语语句“很快乐(高兴)认识(见)你”时，在手语识别页面的结果提示框③进行高亮显示，以提示用户有新的手语语句输出；当合成出新手语语句时，则不会进行高亮显示。

S804，在历史手语语句从手语识别操作页面的第一位置移动至第二位置的过程中，调整历史手语语句的呈现方式。

其中，历史手语语句为新手语语句的上一时刻所合成的手语语句。呈现方式可以表示显示手语语句时的显示形式或显示状态，例如，呈现方式可以是缩小历史手语语句的字体大小，从而使历史手语语句的字体在移动位置之后字体变小。或者，呈现方式可以是调整历史手语语句的字体颜色，从而使历史手语语句的字体在移动位置之后字体颜色发生变化。又或者是上述两种方式的结合。

在一个实施例中，当合成出新手语语句时，终端将新手语语句的历史手语语句从手语识别操作页面的第一位置移动至第二位置。例如，如图3(c)所示，在识别结果呈现区域④中，将该历史手语语句“欢迎来这(这里)”从A位置移动至B位置。在移动历史手语语句的过程中，将历史手语语句的字体大小进行调小，即调小“欢迎来这(这里)”的字体大小。其中，图3(c)的识别结果呈现区域④中，新手语语句的字体最大、且在最后一排(即A位置)，该区域中可以保留最多3条结果。

S806，以不同于呈现方式的目标呈现方式，将新手语语句展示于第一位置。

其中，目标呈现方式可以表示显示手语语句时的显示形式或显示状态。例如，目标呈现方式可以是对新手语语句的字体大小进行调大，或者说是以大字体的字号设置新手语语句，使显示新手语语句时的字体大小大于历史手语语句时的字体大小。

上述实施例中，对历史手语语句的显示位置和呈现方式进行调整，并且以不同于该呈现方式的目标呈现方式将新手语语句展示于第一位置，从而使最新合成的手语语句始终展示在特定的位置，且以不同于历史手语语句的呈现方式进行呈现，从而从视觉上将新手语语句与历史手语语句进行区分，使用户关注到新手语语句。

作为一个示例，本实施例提出了一种基于结构化特征学习的、用于识别手语的机器学习模型，该模型的整体框架图如如图9所示，其中，机器学习模型包括视频帧级别、词级别和句级别三种级别的网络，具体如下：

(1)视频帧级别：本发明实施例中的机器学习模型结合了2D CNN和3D CNN进行视频帧级别的特征提取。在一个实施例中，当进行视频帧级别的特征提取时，以每3个帧图像为一个窗口，以步长为1从3个帧图像中的第一帧向最后一帧进行滑动，每一个滑动窗口中的3个帧图像都会进行2种运算，一种是卷积核大小为3×3、且步长为1的2D CNN；另一种是卷积核大小为3×3×3、且步长为1的3D CNN。在进行上述两种运算后，均得到一组维度相同的特征(feature)，最后对这两组特征进行求和以及求平均，得到融合特征。

在一个实施例中，视频帧级别的特征提取可以是由多个上述2D CNN和3D CNN单元级联而成，级联模块的数量可以是4个或以上，如图6所示。其中，每个单元之后会插入一个卷积核大小为1×1的2D CNN，以及一个窗口大小为2×2的最大池化层。视频帧级别的最后，通过全局平均池化层(global average pooling)将每个特征压缩为一个值，当全局平均池化层总共有512个通道数，从而每个帧图像对应得到一个元素个数为512的特征向量。

通过上述由2D CNN和3D CNN组成的单元，能够在手语极具复杂性的表达中充分提起识别所需要的特征信息。

(2)词级别：本本发明实施例中，在机器学习模型中引入词级别的特征提取，以及定义了元帧的概念。其中，每个元帧由12个特征向量组成，每一个特征向量对应了原手语视频中每一个帧图像的信息，12个特征向量约等于0.5秒的视频播放时间，一般地，一个手语词的持续时间通常在0.5秒左右，因此每个元帧可以表示一个手语词。

在一个实施例中，机器学习模型中引入了一层LSTM(Long Short-Term Memory，长短期记忆)网络，用于对每个元帧中的信息进行词级别的特征提取，最后每一个元帧会产生一个词特征(该词特征可以是词特征向量的形式)，该词特征表征了该元帧中的手语词信息。

为了让模型更加具有泛化性，在词级别中还引入了额外的正则项。具体地，若手语视频中最后的分类概率中表示第n个词出现的概率是P_o,n，而由词特征得到的概率认为第n个出现的概率是P_c,n，那么在训练的损失函数中就会增加一项：

其中，N代表总词汇量。

(3)句级别：句级别用于对词级别的信息进行整合。在句级别，应用了一层Bi-LSTM(Bidirectional Long-term and Short-term Memory，双向长短期记忆)网络，通过该Bi-LSTM网络对词级别的所有词特征进行前向计算和后向计算，从而实现在两个序列方向上进行信息整合，这样充分考虑了上下文的语境信息。通过Bi-LSTM网络之后，将得到一系列句特征，这些句特征则会被用来进行分类以及得到最后的结果(即得到对应的手语语句)。

在一个实施例中，在训练时采用的是CTC(Connectionist TemporalClassification，连续时序分类)损失函数。在CTC损失函数中将会引入一个额外的“空”字符，这个字符在最后的输出中会被删去，同时最后输出时相邻的重复输出也会被删去。

作为另一个实施例，将上述机器学习模型应用于终端(如手语翻译机)，如此，终端可以实现对手语的识别，如图10所示，手语识别的步骤具体如下所述：

(1)人脸检测：当拍摄手语视频时，对手语视频中的各帧图像进行人脸特征的检测，以确定各帧图像是否有用户，若否，则跳过这个帧图像，返回继续拍摄；若是，则进行后续的手势检测。

(2)手势检测：若检测到人脸之后，则进行手势检测，如果没有检测到手势，则跳过该帧图像，返回继续拍摄；若是，则进行后续的端点检测。

(3)端点检测：若检测到手势，则进行端点检测，如果这个手势不是一系列手势中的最后一个手势，那么则把这个帧图像进行储存。

(4)手语识别：若检测到手势的结束端点时，则将储存的帧图像与当前拍摄的帧图像一起输入到机器学习模型中，进而计算出最后的识别结果。

通过上述的实施例，可以有效地提高手语识别的准确率，具体地，在CSL数据集中手语识别的准确率为96.2％(传统方案的准确率为89.0％)，在RWTH数据集中手语识别的准确率为63.9％(传统方案的准确率为61.7％)。

通过应用上述机器学习模型所实现的手语翻译机，不需要任何额外的设备辅助，只需要普通摄像头进行手语表达的记录便可进行手语识别。而且，在手语表达的时候，无需特地停顿或者设置开始、结束手势，可以自动识别出开始和结束手势。

图2、7-8为一个实施例中手语识别方法的流程示意图。应该理解的是，虽然图2、7-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、7-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图11所示，在一个实施例中，提供了一种手语识别装置，该手语识别装置具体包括：视频获取模块1102、第一特征提取模块1104、第二特征提取模块1106、词信息提取模块1108和手语识别模块1110；其中：

视频获取模块1102，用于获取待识别的手语视频；

第一特征提取模块1104，用于从手语视频中的各帧图像中提取手势特征；

第二特征提取模块1106，用于提取手语视频中各帧图像的手势变化特征；

词信息提取模块1108，用于从手势特征与手势变化特征之间的融合特征中提取手语词信息；

手语识别模块1110，用于按照手语词信息对应的语境信息，将手语词信息组合成手语语句。

在一个实施例中，视频获取模块1102还用于：拍摄环境中的目标对象；当拍摄目标对象所得的视频中包含有人脸特征和手势特征时，则在拍摄过程中实时检测目标对象在切换手势时的等待时长；当等待时长符合预设条件时，将所获得的视频作为待识别的手语视频。

在一个实施例中，如图12所示，该装置还包括：视频保存模块1112；其中：

视频保存模块1112，用于当等待时长不符合预设条件时，则将拍摄目标对象所得的视频进行保存，并返回执行在拍摄过程中实时检测目标对象在切换手势时的等待时长的步骤，直至等待时长符合预设条件；

手语识别模块1110还用于当等待时长符合预设条件时，将当前拍摄目标对象所得的视频和保存的视频作为待识别的手语视频。

在一个实施例中，视频获取模块1102还用于：当拍摄目标对象所得的视频中包含有人脸特征和手势特征时，则在拍摄过程中实时检测目标对象的手势特征；当检测所得的手势特征符合手势结束端点条件时，将所获得的视频作为待识别的手语视频；当检测所得的手势特征不符合手势结束端点条件时，保存所拍摄的视频，执行在拍摄过程中实时检测目标对象的手势特征的步骤，直至手势特征符合手势结束端点条件；

手语识别模块1110还用于当手势特征符合手势结束端点条件时，将当前拍摄目标对象所得的视频和保存的视频作为待识别的手语视频。

在一个实施例中，手势特征通过二维网络模型提取；手势变化特征通过三维网络模型提取；如图12所示，该装置还包括：特征融合模块1114；其中：

特征融合模块1114，用于在从手势特征与手势变化特征之间的融合特征中提取手语词信息之前，对手势特征与手势变化特征之间的融合特征进行卷积和池化处理；通过二维网络模型，从池化处理后所得的融合特征中提取手势特征；通过三维网络模型提取池化处理后所得的融合特征中的手势变化特征；将所提取的手势特征和手势变化特征进行融合，迭代执行预设次数对手势特征与手势变化特征之间的融合特征进行卷积和池化处理的步骤，获得经过迭代预设次数后所得的融合特征。

在一个实施例中，手语识别模块1110还用于：对手语词信息进行正向计算和反向计算；将正向计算所得的序列与反向计算所得的序列进行拼接，得到拼接序列；从拼接序列中提取句子特征，并根据句子特征进行分类；按照分类所得的结果合成手语语句。

在一个实施例中，手语词信息由长短期记忆网络提取；长短期记忆网络的损失函数引入了正则项；正则项为：

在一个实施例中，手语语句通过双向长短期记忆网络合成；双向长短期记忆网络采用了连续时序分类损失函数；连续时序分类损失函数，用于将与未包含有手语词信息的帧图像对应的手语词标记为空字符，并在合成手语语句时将空字符进行删除。

在一个实施例中，词信息提取模块1108还用于：将手势特征与手势变化特征之间的融合特征转换成特征向量；在转换所得的特征向量中，分别对连续多帧图像对应的特征向量进行组合得到特征向量分组；分别从各特征向量分组中提取手语词信息。

在一个实施例中，词信息提取模块1108还用于：对手势特征与手势变化特征之间的融合特征进行卷积处理；将卷积处理后的融合特征进行全局平均池化操作，得到与手语视频中的各帧图像对应的特征向量。

在一个实施例中，如图12所示，该装置还可以包括：手语语句显示模块1116；其中：

手语语句显示模块1116，用于当合成出新手语语句时，在展示的手语识别操作页面中发出提示信息；在历史手语语句从手语识别操作页面的第一位置移动至第二位置的过程中，调整历史手语语句的呈现方式；历史手语语句为新手语语句的上一时刻所合成的手语语句；以不同于呈现方式的目标呈现方式，将新手语语句展示于第一位置。

图13示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图13所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现手语识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行手语识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的手语识别装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该手语识别装置的各个程序模块，比如，图11所示的视频获取模块1102、第一特征提取模块1104、第二特征提取模块1106、词信息提取模块1108和手语识别模块1110。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的手语识别方法中的步骤。

例如，图13所示的计算机设备可以通过如图11所示的手语识别装置中的视频获取模块1102执行S202。计算机设备可通过第一特征提取模块1104执行S204。计算机设备可通过第二特征提取模块1106执行S206。计算机设备可通过词信息提取模块1108执行S208。计算机设备可通过手语识别模块1110执行S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述手语识别方法的步骤。此处手语识别方法的步骤可以是上述各个实施例的手语识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述手语识别方法的步骤。此处手语识别方法的步骤可以是上述各个实施例的手语识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手语识别方法，包括：

获取待识别的手语视频；

从所述手语视频中的各帧图像中提取手势特征；

提取所述手语视频中各帧图像的手势变化特征；

2.根据权利要求1所述的方法，其特征在于，所述获取待识别的手语视频包括：

拍摄环境中的目标对象；

当拍摄所述目标对象所得的视频中包含有人脸特征和手势特征时，则在拍摄过程中实时检测所述目标对象在切换手势时的等待时长；

当所述等待时长符合预设条件时，将所获得的视频作为待识别的手语视频。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当等待时长不符合预设条件时，则将拍摄所述目标对象所得的视频进行保存，并返回执行所述在拍摄过程中实时检测所述目标对象在切换手势时的等待时长的步骤，直至所述等待时长符合预设条件时，则

将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当拍摄目标对象所得的视频中包含有人脸特征和手势特征时，则在拍摄过程中实时检测所述目标对象的手势特征；

当检测所得的手势特征符合手势结束端点条件时，将所获得的视频作为待识别的手语视频；

当检测所得的手势特征不符合手势结束端点条件时，保存所拍摄的视频，执行所述在拍摄过程中实时检测所述目标对象的手势特征的步骤，直至所述手势特征符合手势结束端点条件时，则

5.根据权利要求1所述的方法，其特征在于，所述手势特征通过二维网络模型提取；所述手势变化特征通过三维网络模型提取；所述从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息之前，所述方法还包括：

对所述手势特征与所述手势变化特征之间的融合特征进行卷积和池化处理；

通过所述二维网络模型，从池化处理后所得的融合特征中提取手势特征；

通过所述三维网络模型提取池化处理后所得的融合特征中的手势变化特征；

将所提取的手势特征和手势变化特征进行融合，迭代执行预设次数所述对所述手势特征与所述手势变化特征之间的融合特征进行卷积和池化处理的步骤，获得经过迭代预设次数后所得的融合特征。

6.根据权利要求1或5所述的方法，其特征在于，所述从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息包括：

将所述手势特征与所述手势变化特征之间的融合特征转换成特征向量；

在转换所得的特征向量中，分别对连续多帧图像对应的特征向量进行组合得到特征向量分组；

分别从各所述特征向量分组中提取手语词信息。

7.根据权利要求6所述的方法，其特征在于，所述将所述手势特征与所述手势变化特征之间的融合特征转换成特征向量包括：

对所述手势特征与所述手势变化特征之间的融合特征进行卷积处理；

将卷积处理后的融合特征进行全局平均池化操作，得到与所述手语视频中的各帧图像对应的特征向量。

8.根据权利要求1所述的方法，其特征在于，所述按照所述手语词信息对应的语境信息，将所述手语词信息组合成手语语句包括：

对所述手语词信息进行正向计算和反向计算；

将正向计算所得的序列与反向计算所得的序列进行拼接，得到拼接序列；

从所述拼接序列中提取句子特征，并根据所述句子特征进行分类；

按照分类所得的结果合成手语语句。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当合成出新手语语句时，在展示的手语识别操作页面中发出提示信息；

在历史手语语句从所述手语识别操作页面的第一位置移动至第二位置的过程中，调整所述历史手语语句的呈现方式；所述历史手语语句为所述新手语语句的上一时刻所合成的手语语句；

以不同于所述呈现方式的目标呈现方式，将所述新手语语句展示于所述第一位置。

10.根据权利要求1所述的方法，其特征在于，所述手语词信息由长短期记忆网络提取；所述长短期记忆网络的损失函数引入了正则项；所述正则项为：

11.根据权利要求10所述的方法，其特征在于，所述手语语句通过双向长短期记忆网络合成；所述双向长短期记忆网络采用了连续时序分类损失函数；所述连续时序分类损失函数，用于将与未包含有手语词信息的帧图像对应的手语词标记为空字符，并在合成手语语句时将所述空字符进行删除。

12.一种手语识别装置，其特征在于，所述装置包括：

视频获取模块，用于获取待识别的手语视频；

13.根据权利要求12所述的装置，其特征在于，所述视频获取模块还用于：

拍摄环境中的目标对象；

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。