CN113792607B

CN113792607B - 基于Transformer的神经网络手语分类识别方法

Info

Publication number: CN113792607B
Application number: CN202110954999.3A
Authority: CN
Inventors: 樊松; 才翱博; 赵多加; 曲胜乐; 程万胜
Original assignee: University of Science and Technology Liaoning USTL
Current assignee: University of Science and Technology Liaoning USTL
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2024-01-05
Anticipated expiration: 2041-08-19
Also published as: CN113792607A

Abstract

本发明属于手语识别技术领域，特别涉及一种基于Transformer的神经网络手语分类识别方法，其特征在于，包含以下具体步骤：1）手语采集模块，用于收集人体所做出手语动作的RGB视频；2）数据处理模块，由数据预处理和网络模型两部分组成，对孤立手语的识别分类，所述数据预处理模块对身体特征点和帧数一起提取；对提取结束的包含时空特点的关节点特征数据传入transformer神经网络模型进行处理；3）输出模块，由网络预测的前五个中选取分数最高的输入到文本中进行显示。本发明可以做到实时和无需佩戴以及使用特殊设备即可实现生成手语文本，可以更好地适应日常聋哑人士的使用。

Description

基于Transformer的神经网络手语分类识别方法

技术领域

本发明属于手语识别技术领域，特别涉及一种基于Transformer的神经网络手语分类识别方法。

背景技术

在中国聋哑人数占残疾人口约为三分之一，其中手语是其主要沟通工具。手语与语言的差别则主要在于语音这个问题上和聋哑人是否以手势进行思维。虽然大部分聋哑人可以用手语互相交流，但是由于很少有正常人学习过手语。因此，正常人很难通过手语与聋哑人交流。为解决不会手语的正常人与聋哑人交流，更好的为聋哑人提供服务，使用基于Transformer架构对大量数据进行学习，把手语视频动作翻译成为单独的孤立单词并显示成文本是一个可行的技术方向。

我们的每一个服务应用，都是一个数据转换。数据在这些Transformer之间进行流动和转换。流动的过程就是Pipeline形成的过程。现实生活中，我们要解决很多问题，对这些问题，我们用DataFrame对数据表示( Data Represention )。它是各个Transformer之间交换数据的表示和规范。

申请号为202010967634.X的中国发明公开了一种基于Transformer模型的多语种地名汉译方法，其语种范围涵盖英语、法语和德语：基于英语、法语和德语地名词根与对应中文地名词根翻译语料训练和微调得到的Transformer模型，输入待汉译地名词根的字符向量，获取最终词根汉译结果。可见，Transformer模型可通过数据库的建立和数据训练解决很多人类生活中的很多问题，但是适用于聋哑人士的手语识别，使其与正常人更容易交流的工具目前还未见报道。

发明内容

本发明的目的是提供了一种基于Transformer的神经网络手语分类识别方法，克服现有技术的不足，根据聋哑人士的社会和日常需求，能够使手语演示者无需佩戴特殊装备去进行实时识别孤立手语，并能够支持中科院手语数据集的最多2000类大规模的数据训练，并且采用了最新的transformer模型，在识别速度和准确率上对比也有提高。

为实现上述目的，本发明是采用以下技术方案实现的：

基于Transformer的神经网络手语分类识别方法，其特征在于，包含以下具体步骤：

1）手语采集模块，用于收集人体所做出手语动作的RGB视频；

2）数据处理模块，由数据预处理和网络模型两部分组成，对孤立手语的识别分类，所述数据预处理模块对身体特征点和帧数一起提取；对所述网络模型包含时空特点的transformer神经网络模型处理；

3）输出模块，由网络预测的前五个中选取分数最高的输入到文本中进行显示。

所述数据预处理是把RGB图像大小调整384×384的图像，然后利用mmpose预训练完的HRnet模型进行身体特征点的提取，从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入，其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。

所述transformer神经网络模型处理时，首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理，并进行小批量的归一化处理；然后加入一个droppath隐藏层防止过拟合，并使用了Mish激活函数：把droppath层的输出传入到embedding层进行嵌入处理，保证维度一致；在embedding输出的结果传入到transformer的神经网络中进行分类预测。

所述手语动作作为时空特点的数据T×S×H×W×C，其中T是帧数的时间向量，S是关节点特征的空间向量，H和W是对应图像的高和宽，C是图像的通道数，在分割成相同大小的batch之后采用max-pooling进行24×24的下采样处理，其中采用max-pooling进行24×24的下采样处理。

所述transformer神经网络模型的内部流程是：1）使用深度残差网络进行特征提取，使用K×K大小的卷积核，并使用K大小的步长；2）把预处理生成的人体关节点特征图分割成的24×24大小的batch的三维向量384×384×3处理成24×24×768，之后转换成二维向量576×768其中包含的数据为手语对应的btach的序列以及对应的向量长度；3）把与对应序列相加完成的二维向量传入transformer模块中，先进行标准化处理，并进行残差分支；4）然后进行Multi-head Self-Attention进行（q，k，v）参数进行多头自适应处理，其中q 矩阵输出的q向量和k矩阵输出的k向量做点积相似度计算得到一个注意分数，n个q和 k向量进行了一共次的点积相似度计算得到的注意分数矩阵，对这个矩阵中的每一行分别做softmax归一化处理之后得到最终的格式的注意分数矩阵，然后和v矩阵输出的v向量构成的矩阵进行矩阵相乘，实现加权求和的向量；5）把向量传入droppath层中防止过拟合，之后与残差分支进行相加组成一个残差网络形成一个小的循环模块；6）然后进行标准化处理在进行一次标准化处理，把标准化后的向量传入MLP模块中。

所述transformer神经网络模型植入在MLP模块中，首先进行一次全连接，把向量传入GELU之中把向量的维度增加4倍，进行一次droppath处理；然后进行一次全连接处理，把维度长度恢复，在droppath层之后输出；在droppath层输出的之后，后与残差分支进行相加组成一个残差网络形成一个小的循环模块；数据循环L次，其中L是可以自己定义的；

所述标准化处理是通过传入特征提取层把对应的标签维度提取出来，然后输入到MLP Head层中进行预测，再由输出模块生成对应前五个中选取分数最高的输入到文本中进行显示。

与现有技术相比，本发明的有益效果是：1）不需要手语人员配备特殊的手语装备以及使用特殊设备录制，通过采集模块对手语演示者采集RGB视频图像，能够实时识别孤立手语，操作方便，可以更好地适应日常聋哑人士的使用。2）基于Transformer架构对大量数据进行学习，与当前主流的其他网络手段相比，本发明可以降低占用的计算资源，并能够支持中科院手语数据集的最多2000类大规模的数据训练，同时获得优异的效果，在识别速度和准确率上明显实现了提高。

附图说明

图1是本发明实施例的总体框架图；

图2是本发明实施例中的数据处理流程图；

图3是本发明实施例中的Transformer解码器的内部框架图；

图4是本发明实施例中的MLP Block内部框架图；

图5是本发明实施例中的孤立手语“茶”的手语演示者照片；

图6是本发明实施例中的孤立手语“杯子”的手语演示者照片；

图7是本发明实施例中的孤立手语“星期一”的手语演示者照片。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

见图1-图5，是本发明基于Transformer的神经网络手语分类识别方法实施例的总体框架图，结构包含：1）手语采集模块，用于收集人体所做出手语动作的RGB视频；手语采集模块为了达到实时检测标准我们使用了默认25fps/s的摄像头与之对应的每60fps/s进行一次处理，因为在大量的实验过程中，发现孤立手语数据集的帧数在50-200帧左右，为了后期的时间处理的方便，取与数据处理模块处理相同的帧数进行输入，因为设定200帧其速度下降太大以及携带噪音太多，而50帧所包含的数据不足。

2）数据处理模块由数据预处理和网络模型两部分组成，对孤立手语的识别分类，数据预处理模块对身体特征点和帧数一起提取，数据预处理是把RGB图像大小调整384×384的图像，以方便之后利用mmpose预训练完的HRnet模型进行身体特征点的提取。然后利用mmpose预训练完的HRnet模型进行身体特征点的提取，从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入，其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。对网络模型包含时空特点的transformer神经网络模型处理，transformer神经网络模型处理时，首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理，并进行小批量的归一化处理；然后加入一个droppath隐藏层防止过拟合，并使用了Mish激活函数：把droppath层的输出传入到embedding层进行嵌入处理，保证维度一致；在embedding输出的结果传入到transformer的神经网络中进行分类预测。数据处理模块中包含了数据预处理部分，max-pooling下采样处理部分，需要注意在max-pooling使用的不是三维卷积，而是二维卷积，对预处理的数据进行分离处理，这样做的好处可以减少参数加快收敛其性能也没受到太大影响，以及transformer模块。

由于手语动作是作为时空特点的数据T×S×H×W×C，其中T是帧数的时间向量，S是关节点特征的空间向量，H和W是对应图像的高和宽，C是图像的通道数；

其中采用max-pooling进行24×24的下采样处理，其二维卷积的公式；

F(x ,y ）表示卷积结果，和代表图像中的像素坐标， c代表图像的通道，、分别表示图像长度、宽度的偏移量，b代表偏置；

首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理，并进行小批量的归一化处理；

然后加入一个droppath隐藏层防止过拟合，并使用了Mish激活函数：

为了保证维度一致，把droppath层的输出传入到embedding层进行嵌入处理，这里不用考虑关节点特征的邻近关系，在传入transformer之前会对每个batch进行编号；

在embedding输出的结果传入到transformer的神经网络中进行分类预测；

其中的transformer神经网络模型的内部流程并使用深度残差网络，其中残差函数：。其中是残差的输入，为残差的输出，之后进行特征提取，使用K×K大小的卷积核，并使用K大小的步长；

传入把三维向量384×384×3处理成16×16×1728，之后转换成二维向量其中包含的数据为手语对应的文本含义的序列以及对应的向量长度，函数表达为；

其中为batch对应的标签与16×16的相加，为向量的维度；

传入transformer模块中，先进行标准化处理，并进行残差分支；

之后进行Multi-head Self-Attention进行多头自适应处理，公式为：

其中分别代表去计算和代表信息提取；

其中通过权重与处理完的向量相乘等到的：

同理和也是如此得到的；

每一个都是由去表示的：

其中中的是的向量长度;

传入droppath层中防止过拟合，之后与之前进行相加组成一个残差网络形成一个小的循环模块，函数为：

然后进行标准化处理在进行一次标准化处理并展开一个残差分支，传入MLP模块中；根据优选transformer模型中，在MLP模块之中；

首先进行一次全连接；把向量传入GELU之中把向量的维度增加4倍到256×6912；进行一次droppath处理，然后进行一次全连接处理；通过全连接层之后把向量恢复到256× 1728，之后在droppath层之后输出；与之前的残差分支相加：

传出transformer模块，在transformer模块中的数据会循环L次，其中L是可以定义的，默认为12次；再进行标准化处理，传入特征提取层把对应的标签维度提取出来，然后输入到MLP Head层中进行预测；其特征再生成对应前五个中选取分数最高的输入到文本中进行显示；

准确度是训练集和验证集，微调后准确度包含了测试集，top-1和top-5为最高准确率和准确率前5的手语预测，部分手语结果展示见表1。

表1

项目	36类（top5）	100类（top5）	36类（top1）	100类（top1）
					准确度	65.05%	70.00%	36.05%	53.50%
微调后准确度	74.65%	86.00%	46.00%	64.50%

由此可见，把手语输出显示成本文，可以加强普通人与听力障碍人士的沟通能力。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于Transformer的神经网络手语分类识别方法，其特征在于，包含以下具体步骤：

1)手语采集模块，用于收集人体所做出手语动作的RGB视频；

2)数据处理模块，由数据预处理和网络模型两部分组成，对孤立手语的识别分类，所述数据预处理对身体特征点和帧数一起提取；对提取结束的包含时空特点的关节点特征数据传入transformer神经网络模型进行处理；

3)输出模块，由网络预测的前五个中选取分数最高的输入到文本中进行显示；

所述数据预处理是把RGB图像大小调整384×384的图像，然后利用mmpose预训练完的HRnet模型进行身体特征点的提取，从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入，其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点；

所述手语动作作为时空特点的数据T×S×H×W×C，其中T是帧数的时间向量，S是关节点特征的空间向量，H和W是对应图像的高和宽，C是图像的通道数，在分割成相同大小的batch之后采用max-pooling进行24×24的下采样处理；

所述transformer神经网络模型处理时，首先将时空特征的五维向量60×33×24×24×3中的33与24相乘整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理，并进行小批量的归一化处理；然后加入一个droppath隐藏层防止过拟合，并使用了Mish激活函数：把droppath层的输出传入到embedding层进行嵌入处理，保证维度一致；在embedding输出的结果传入到transformer的神经网络中进行分类预测。

2.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法，其特征在于，所述transformer神经网络模型的内部流程是：1)使用深度残差网络进行特征提取，使用K×K大小的卷积核，并使用K大小的步长；2)把预处理生成的人体关节点特征图三维向量384×384×3分割成的24×24大小的batch,处理成24×24×768中的24与24相乘并通过嵌入层转换成二维向量576×768为手语对应的btach的编号以及对应的向量长度A_i相加；3)把转换后的二维向量传入transformer模块中，先进行标准化处理，并进行残差分支；4)然后进行Multi-head Self-Attention进行(q，k，v)参数进行多头自适应处理，其中q矩阵输出的q向量和k矩阵输出的k向量做点积相似度计算得到一个注意分数，n个q和k向量进行了一共n*n次的点积相似度计算得到n*n的注意分数矩阵，对这个矩阵中的每一行分别做softmax归一化处理之后得到最终的n*n格式的注意分数矩阵，然后和v矩阵输出的v向量构成的矩阵进行矩阵相乘，实现加权求和的向量；5)把加权求和的向量传入droppath层中防止过拟合，之后与残差分支进行相加组成一个残差网络形成一个小的循环模块；6)然后进行标准化处理，把标准化后的向量传入MLP模块中。

3.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法，其特征在于，所述transformer神经网络模型植入在MLP模块中，首先进行一次全连接，把向量传入GELU之中把向量的维度增加4倍，进行一次droppath处理；然后进行一次全连接处理，把维度长度恢复，在droppath层之后输出；在droppath层输出的之后，后与残差分支进行相加组成一个残差网络形成一个小的循环模块；数据循环次数L是可以定义的。

4.根据权利要求3所述的基于Transformer的神经网络手语分类识别方法，其特征在于，所述数据循环次数L为12次。

5.根据权利要求2所述的基于Transformer的神经网络手语分类识别方法，其特征在于，所述标准化处理是通过传入特征提取层把对应的标签维度提取出来，然后输入到MLPHead层中进行预测，再由输出模块生成对应前五个中选取分数最高的输入到文本中进行显示。