CN112183430A

CN112183430A - 一种基于双神经网络的手语识别方法及装置

Info

Publication number: CN112183430A
Application number: CN202011083239.1A
Authority: CN
Inventors: 何静飞; 刘晓彤; 刘玉璋; 王爱华; 周亚同; 栾楠楠
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-05
Anticipated expiration: 2040-10-12
Also published as: CN112183430B

Abstract

本发明公开了一种基于双神经网络的手语识别方法及装置，该方法的步骤包括步骤1、采集手势图像；步骤2、设计Squeeze Net神经网络和双输入双向长短时记忆循环神经网络；Squeeze Net神经网络的每个Fire模块均包括squeeze压缩层和扩展层，squeeze压缩层的卷积核为1×1；扩展层包括一个1×1的卷积核和两个1×3和3×1的非对称卷积核，三个卷积核分别经过RELU层和BN层后再按照通道数进行拼接得到Fire模块的输出；双输入双向长短时记忆循环神经网络的双向LSTM模块的每个LSTM记忆块均包括遗忘门和输入门，输入门和遗忘门之和为1；步骤3、模型的训练。该方法利用静态语义和运动轨迹进行手语动作的动态语义识别，准确性好。

Description

一种基于双神经网络的手语识别方法及装置

技术领域

本发明属于计算机技术领域，具体是一种基于双神经网络的手语识别方法及装置。

背景技术

目前，我国听力语言残疾人数高达2780万人，占全国残疾人的30％以上。由于听力障碍，听力残障人员无法与外界正常交流，手语作为听力残障人士与外界进行交流的重要媒介，特别是在公共场合，比如医院、超市和商场等，语言障碍者的交流变得十分重要。随着电子科技的发展，机器翻译变得很常见，机器翻译不仅具有较高的准确性，同时还缓解了手语翻译人员紧缺的问题，使得手语识别更大众化，保证了听力残障人员与外界的正常沟通。

由于手语动作是一个动态过程，现有的手语识别方法主要采用单个网络模型进行学习训练，需要手动对手势图像进行预处理，操作过程复杂。

申请号为201910061948.0的文献公开了一种手语翻译系统、手语翻译手套及手语翻译方法，该方法手动对采集的动作数据进行归一化处理，并从动作数据上提取特征向量组，通过网络对特征向量组进行学习、训练等操作得到手语结果；该方法需要通过手动处理图像方式得到特征向量组，操作过程复杂；该手语翻译系统是将经过处理后的特征向量组在手势模板库中预先存储的手势数据进行一一匹配，不仅需要建立大量的数据库，而且只能进行单个手势的静态语义匹配，不能实现整个手语动作的动态识别，由于不同静态语义之间手势的相似度较高，容易出现误匹配，准确性较差。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于双神经网络的手语识别方法及装置。

本发明解决所述技术问题采用的技术方案是：

一种基于双神经网络的手语识别方法，其特征在于，该方法的步骤为：

步骤1、采集手势图像

使用摄像头分别采集各个手语动作的手势图像，每个手语动作采集一组图像，每组包含多帧手势图像；将得到的图像数据分为训练集和测试集；

步骤2、设计Squeeze Net神经网络和双输入双向长短时记忆循环神经网络

所设计的Squeeze Net神经网络包括依次连接的图像输入层、Conv1层、RELU层、BN层、八个Fire模块、第二卷积层、Global avgepool层、softmax层和图像输出层，上一层的输出即为下一层的输入；BN层与Fire1模块之间、Fire3模块与Fire4模块之间以及Fire7模块与Fire8模块之间分别加入maxpool层；

每个Fire模块均包括一个squeeze压缩层和一个扩展层，squeeze压缩层的卷积核为1×1；扩展层包括一个1×1的卷积核和两个1×3和3×1的非对称卷积核，三个卷积核分别经过RELU层和BN层后再按照通道数进行拼接，得到Fire模块的输出；

所设计的双输入双向长短时记忆循环神经网络包括由两个双向LSTM模块构成的双向LSTM模型，两个双向LSTM模块的输出结果同时经过一个全连接层后得到双向LSTM模型的输出；

双向LSTM模块的每个LSTM记忆块均包括遗忘门和输入门，输入门和遗忘门之和为1；

步骤3、模型的训练

3-1将步骤1的训练集输入到Squeeze Net神经网络进行训练，采用交叉熵损失函数计算训练损失并优化模型，得到优化后的Squeeze Net神经网络模型；将步骤1的验证集输入到优化后的Squeeze Net神经网络模型，然后重复网络模型训练和验证的操作，得到训练后的Squeeze Net神经网络模型；

3-2将每个手语动作采集的所有图像按照采集顺序依次输入到训练后的SqueezeNet神经网络模型中，获得每张图像的特征坐标点以及每张图像对应的静态手势语义；将相邻两张图像的特征坐标点进行向量运算并进行归一化处理，得到单位向量，每组图像数据获得多个单位向量，并将这些单位向量在空间上依次连接起来，得到手语动作对应的手势运动轨迹；将得到的手势运动轨迹和静态手势语义分为训练集和验证集；

3-3将步骤3-2训练集的手势运动轨迹及其对应的静态手势语义输入到双输入双向长短时记忆循环神经网络进行训练，采用交叉熵损失函数计算训练损失并优化模型，得到优化后的双输入双向长短时记忆循环神经网络模型；将步骤3-2的验证集的手势运动轨迹及其对应的静态手势语义输入到优化后的双输入双向长短时记忆循环神经网络模型，重复网络模型训练和验证的操作，得到训练后的双输入双向长短时记忆循环神经网络模型；

3-4将每个手语动作的手势运动轨迹及其对应的静态手势语义输入到训练后的双输入双向长短时记忆循环神经网络模型中，进行动态手势语义匹配，得到识别结果；

由此完成手语识别。

本发明还提供一种基于双神经网络的手语识别装置，其特征在于，该装置包括底座、一号舵机、二号舵机、摄像头、L型支架、舵机支架和摄像头支架；

所述一号舵机通过舵机支架安装在底座上，L型支架的一端固定在一号舵机的输出轴上，二号舵机固定在L型支架的另一端，二号舵机的输出轴与一号舵机的输出轴垂直；摄像头支架固定在二号舵机的输出轴上，摄像头固定在摄像头支架上；

所述底座的前侧设有显示屏；底座上设有多个按钮。

该装置采用树莓派控制；树莓派上设有图像采集单元、数据处理单元和输出显示单元；

数据处理单元内存储有训练后的Squeeze Net神经网络模型和双输入双向长短时记忆循环神经网络模型；数据处理单元包括图像信息提取模块、图像识别模块以及图像信息转换模块。

与现有技术相比，本发明具有如下优点：

1.本发明通过Squeeze Net神经网络提取运动轨迹和静态手势语义，可以省略一系列繁杂的预处理过程，直接将二维图像作为输入，通过卷积层和采样层进行图像的各层次特征的提取，最终可以得到识别结果，过程简单，速度更加快，实时性好，而且SqueezeNet神经网络对输入数据具有较强的畴变容忍能力，准确率高；通过双输入双向长短时记忆循环神经网络进行手势结果匹配，可以利用上下文信息，利用静态语义和运动轨迹进行手语动作的动态语义识别，准确性好，双网络相互配合，进一步提高了识别速度，实时性和准确性更好；两个网络模型都是轻量级的卷积神经网络，在保证精度的同时大大降低了模型的训练时间、处理时间，使模型可以在内存和计算资源有限的树莓派上运行；相较于视频流，本方法通过图像提取手势语义，处理速度更快，输出结果的灵敏度更高；视频流的存储量大难以适用于树莓派，视频流的前一个手语动作与后一个手语动作衔接的图像之间不易区分，分割较困难。

2.本发明对于手势识别进行了双层次的形式，分两步进行，这里的两步不是指训练集和验证集训练的两步，而是指图像处理要经过两个神经网络，其中每个神经网络中都是包含训练集和验证集训练。首先采用Squeeze Net神经网络模型处理摄像头拍摄的手势图像，Squeeze Net神经网络本身就是轻量级神经网络，轻量级神经网络是指需要参数数量较少和计算代价较小的神经网络模型，Squeeze Net不仅参数量很小而且准确性很好，对服务器的要求不高，也更容易在树莓派上进行部署。而且本申请将原始Squeeze Net神经网络Fire模块的扩展层3×3的卷积核拆分为1×3和3×1的两个非对称卷积核，进一步降低Squeeze Net神经网络的参数，减少计算量，更加适合在树莓派上部署，而且参数少，所以模型小，准确性高。第二次采用双输入双向长短时记忆循环神经网络将多个运动轨迹以及对应的静态手势语义进行匹配，得出识别结果，由于手语动作是连贯的，每个手语动作对应的多张图像之间必然是相互关联的，而双输入双向长短时记忆模型可以同时考虑到前后两个方向的信息，使匹配更加准确，并且双向LSTM模型可以解决RNN的梯度消失和梯度爆炸而导致的上下文记忆受限的现象，本申请在原始LSTM模块的基础上保留了遗忘门，并且将输入门进行了变形，将新信息加入多少和旧状态保留多少设为互补的两个值，即输入门和遗忘门之和为1，这样就减少了一个参数量，使得本申请的双向LSTM模型的参数规模相比常规的双向LSTM模型有了极大的优化，在极大减少参数量的情况下，不需要超大规模的训练数据便可以达到很好的收敛效果，并且这个网络属于轻量级网络，同样适合在树莓派上进行部署。

3.本发明的手语识别装置适用于医院、商场等公共场合，保证听力残障人士与外界的正常沟通，实际意义较大。

附图说明

图1为本发明的整体流程图；

图2为本发明的Squeeze Net神经网络的结构示意图；

图3为本发明的Fire1模块的网络结构图；

图4为本发明的Fire1模块的示例图；

图5为本发明的双输入双向长短时记忆循环神经网络的结构示意图；

图6为本发明的双向LSTM模块的结构示意图；

图7为本发明的LSTM记忆块的结构示意图；

图8为本发明的装置的整体结构示意图；

图9为本发明的装置的主视图；

图10为本发明的遥控手柄的结构示意图；

图11为本发明的底座的底部结构示意图；

图12为本发明的装置的树莓派的功能示意图；

图中，1-底座；2-显示屏；3-开关按钮；4-暂停按钮；5-音量增大按钮；6-音量减小按钮；7-一号舵机；8-二号舵机；9-摄像头；10-扬声器；11-L型支架；12-舵机支架；13-摄像头支架；14-遥控手柄；15-USB接口；16-电池。

具体实施方式

下面结合实施例和附图对本发明作进一步详细描述，但并不以此作为对本申请保护范围的限定。

本发明提供一种基于双神经网络的手语识别方法(简称方法，参见图1-7)，具体步骤为：

步骤1、采集手势图像

以一个手语动作为例，选取100名测试者依次对着摄像头做标准的手语动作，摄像头与测试者之间的距离为15-20mm；每个测试者对着摄像头做手语动作并重复10次，每次采集m帧手势图像，故该手语动作共获得1000m帧手势图像；采用图像亮度增强、对比度增强、色彩饱和度增强等方法将1000m帧手势图像扩充4倍，即该手语动作共包括4000m帧手势图像，并将同一帧的手势图像分为一组，例如将所有第一帧手势图像分为一组，该手语动作一共包含m组图像数据，每组图像数据包含4000帧手势图像，并将每组图像数据的70％作为训练集，30％作为测试集；其余手语动作均通过上述操作制作数据集，采集的图像包含常见手语动作，每个手语动作采集一组图像，每组包含多帧手势图像；由于各个手语动作的复杂程度不同，因而每组图像包含的手势图像数量可能不同；

如图2所示，Squeeze Net神经网络包括依次连接的图像输入层、Conv1层、RELU层、BN层、八个Fire模块、第二卷积层、Global avgepool层、softmax层和图像输出层，上一层的输出即为下一层的输入；BN层与Fire1模块之间、Fire3模块与Fire4模块之间以及Fire7模块与Fire8模块之间分别加入maxpool层；

三个maxpool层的池化窗口均为3×3，步长均为2，通道数分别为96、256和512；Global avgepool层的池化窗口为13×13，步长为1，通道数为1000；Conv1层的卷积核大小为7×7、步长为2、填充值为0、通道数为96；Conv2层的卷积核为1×1，步长为1，填充值为0，通道数为1000；

如图3所示，每个Fire模块均包括一个squeeze压缩层和一个扩展层，squeeze压缩层的卷积核为1×1，squeeze压缩层经过BN层后进入扩展层；扩展层包括一个1×1的卷积核和两个1×3和3×1的非对称卷积核，三个卷积核分别经过RELU层和BN层后再按照通道数进行拼接，得到该Fire模块的输出；

原始Squeeze Net神经网络的Fire模块的扩展层包含一个1×1和一个3×3的卷积核，本申请将其中3×3的卷积核拆分为1×3和3×1的两个非对称卷积核，进一步降低Squeeze Net神经网络的参数，减少计算量，使得本申请的Squeeze Net神经网络更适合在树莓派上部署；

在第一卷积层后加入RELU层，增加了Squeeze Net神经网络层与层之间的非线性关系；通过BN层进行归一化处理可以防止梯度爆炸和梯度消失，防止随着网络层数的加深，梯度后向传递至浅层网络时无法引起参数扰动，进而不能将信息传递至浅层网络，导致网络无法训练学习；

如图4所示，以Fire1模块为例，输入图像的原始大小为224×224，经过卷积核为7×7、步长为2、填充值为0、通道数为96的Conv1层后，Conv1层的输出图像大小为111×111；Conv1层的输出图像依次经过RELU层、BN层以及maxpool层后得到输出图像的大小为55×55，maxpool层的输出图像经过Fire1模块后得到三个大小均为55×55，通道数分别为64、32和32的图像，最后将这三个图像分别经过RELU层和BN层后，按照通道数拼接在一起，得到大小为55×55、通道数为128的图像，也就是Fire1模块的输出图像。

所设计的双输入双向长短时记忆循环神经网络包括由两个双向LSTM模块构成的双向LSTM模型，两个双向LSTM模块的输出结果同时经过一个全连接层后得到双向LSTM模型的输出；图5为双向LSTM模型的结构示意图，本实施例将手势运动轨迹和静态手势语义作为双向LSTM模型的输入，手势运动轨迹和静态手势语义分别经过一个双向LSTM模块后，再同时经过全连接层后得到双向长短时记忆循环神经网络的输出结果，也就是本申请的手语动作识别结果。

图6为双向LSTM模块的结构示意图；每个双向LSTM模块均包含多个输入、输出、正序输入的LSTM记忆块以及倒序输入的LSTM记忆块，每个输入和输出同时与正序输入的LSTM记忆块和相应的倒序输入的LSTM记忆块相连；

每个LSTM记忆块均包括遗忘门和输入门，如图7所示为LSTM记忆块的结构示意图；原始LSTM模块包括遗忘门、输出门和输入门，本申请在原始LSTM模块的基础上保留了遗忘门，并且将输入门进行了变形，将新信息加入多少和旧状态保留多少设为互补的两个值，即输入门和遗忘门之和为1，这样就减少了一个参数量，使得计算更加简单，适合在树莓派上进行部署，同时简化了LSTM模块；LSTM记忆块的原理如公式(1)-(3)；

i＝σ(w_iS_t-1+w_iX_t+b_i) (1)

f＝1-i (2)

S_t＝i*S_t-1+f*X_t (3)

S_t-1表示t-1时刻的输出值；i表示遗忘门；f表示输入门；σ表示sigmoid函数；w_i表示遗忘门的权重值；S_t表示t时刻的输出值；X_t表示t时刻的输入值；b_i表示遗忘门的偏置顶。

步骤3、模型的训练

3-1将步骤1的训练集输入到Squeeze Net神经网络进行训练，学习率为0.001，采用交叉熵损失函数计算训练损失，并通过人为拓展训练集等方式不断提高网络的泛化能力，得到优化后的Squeeze Net神经网络模型；将步骤1的验证集输入到优化后的SqueezeNet神经网络模型，以验证模型的正确性；重复网络模型训练和验证的操作，直到迭代200次，得到训练后的Squeeze Net神经网络模型；

3-2将每个手语动作采集的所有图像按照采集顺序依次输入到训练后的SqueezeNet神经网络模型中，获得每张图像的特征坐标点(一般选取掌心)以及每张图像对应的静态手势语义，静态手势语义以标签的形式呈现；将相邻两张图像的特征坐标点进行向量运算并进行归一化处理，得到单位向量，每组图像数据获得多个单位向量，并将这些单位向量在空间上依次连接起来，得到手语动作对应的手势运动轨迹；一共有N个手语动作，得到N个手势运动轨迹；将N个手势运动轨迹和这些静态手势语义分为训练集和验证集；

3-3将步骤3-2训练集的手势运动轨迹及其对应的静态手势语义输入到双输入双向长短时记忆循环神经网络进行训练，设置迭代周期为200，学习率为0.001，采用交叉熵损失函数计算训练损失，并通过人为拓展训练集等方式不断提高网络的泛化能力，得到优化后的双输入双向长短时记忆循环神经网络模型；将步骤3-2的验证集的手势运动轨迹及其对应的静态手势语义输入到优化后的双输入双向长短时记忆循环神经网络模型，以验证模型的正确性；重复网络模型训练和验证的操作，直到迭代200次，得到训练后的双输入双向长短时记忆循环神经网络模型；本实施例的模型训练和验证都属于常规操作，在此不再赘述；

3-4将每个手语动作的手势运动轨迹及其对应的静态手势语义输入到训练后的双输入双向长短时记忆循环神经网络模型中，进行动态手势语义匹配，得到识别结果，由此完成手语识别。

本发明还提供一种基于双神经网络的手语识别装置(简称装置，参见图8-12)，包括底座1、一号舵机7、二号舵机8、摄像头9、L型支架11、舵机支架12和摄像头支架13；

所述一号舵机7通过舵机支架12安装在底座1上，一号舵机7实现摄像头9在水平面的旋转运动；L型支架11的一端固定在一号舵机7的输出轴上，二号舵机8固定在L型支架11的另一端，二号舵机8的输出轴与一号舵机7的输出轴垂直；摄像头支架13固定在二号舵机8的输出轴上，摄像头9固定在摄像头支架13上，二号舵机8实现摄像头9的俯仰运动(竖直面的旋转运动)；

所述底座1的前侧设有显示屏2，用于显示手语识别结果；底座1的后侧设有开关按钮3和暂停按钮4，左侧设有扬声器10，将识别结果通过语音播放出来；底座1的右侧设有音量增大按钮5和音量减小按钮6；底座1的底部设有USB接口15和电池16，两者均可供电；

该装置还包括遥控手柄14，遥控手柄14上设有控制一号舵机7左、右旋转的左键和右键，控制二号舵机8上、下旋转的上键和下键，保证使用者始终位于摄像头9的视野范围内。

该装置采用3B+版本的树莓派；采用自带USB接口的摄像头，其型号为罗技C930e；一号舵机7、二号舵机8采用futaba舵机S135，适合小型模型使用，速度为0.15s/60°；显示屏2采用CreateBlock树莓派显示屏；扬声器采用3.5mm音频接口的扬声器。

摄像头与树莓派的USB接口连接；两个舵机分别与树莓派的两个GPIO接口连接，显示屏通过mini-HDMI线接到树莓派的HDMI接口，扬声器的接口与并与树莓派的插孔连接。

树莓派上设有图像采集单元、数据处理单元和输出显示单元，图像采集单元用于采集手势图像，并将这些手势图像传输给数据处理单元；

数据处理单元内烧结有训练后的Squeeze Net神经网络模型和双输入双向长短时记忆循环神经网络模型，用于对采集到的手势图像进行处理；数据处理单元包括图像信息提取模块、图像识别模块以及图像信息转换模块；图像信息提取模块用于提取手势图像的特征坐标点和静态手势语义；图像识别模块用于进行动态手势语义匹配，得到识别结果；图像信息转换模块用于将识别结果转换为文字和语音。

本发明未述及之处适用于现有技术。

Claims

1.一种基于双神经网络的手语识别方法，其特征在于，该方法的步骤为：

步骤1、采集手势图像

步骤3、模型的训练

3-2将每个手语动作采集的所有图像按照采集顺序依次输入到训练后的Squeeze Net神经网络模型中，获得每张图像的特征坐标点以及每张图像对应的静态手势语义；将相邻两张图像的特征坐标点进行向量运算并进行归一化处理，得到单位向量，每组图像数据获得多个单位向量，并将这些单位向量在空间上依次连接起来，得到手语动作对应的手势运动轨迹；将得到的手势运动轨迹和静态手势语义分为训练集和验证集；

由此完成手语识别。

2.一种基于双神经网络的手语识别装置，其特征在于，该装置包括底座、一号舵机、二号舵机、摄像头、L型支架、舵机支架和摄像头支架；

所述底座的前侧设有显示屏；底座上设有多个按钮。

3.根据权利要求2所述的基于双神经网络的手语识别装置，其特征在于，该装置采用树莓派控制；树莓派上设有图像采集单元、数据处理单元和输出显示单元；