CN114842547A

CN114842547A - 基于手势动作生成与识别的手语教学方法、装置及系统

Info

Publication number: CN114842547A
Application number: CN202210029311.5A
Authority: CN
Inventors: 梅雪; 陈玉明; 张启航; 姚彦胤; 秦午阳
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-08-02

Abstract

本发明公开了一种基于手势动作生成与识别的手语教学方法、装置及系统，属于计算机视觉与模式识别领域。本发明包括通过T‑G姿态生成网络对手语语句文本进行训练，生成姿态生成模型，并利用ThreeDPose姿态迁移技术生成3D虚拟人物动作视频进行手语教学，供学习者模仿；然后利用双流VTN网络对手语数据集进行训练，生成手语翻译模型，并对学习者的动作与标准库手语教学动作进行相似度评估，反馈学习效果。本发明的装置及系统是根据所提供的方法进行手语教学的。利用本发明，丰富了聋哑人教学的模式，能够方便聋哑人士自主学习手语并提高了学习的兴趣，保证了手语教学的效率和质量。

Description

基于手势动作生成与识别的手语教学方法、装置及系统

技术领域

本发明属于计算机视觉与模式识别等技术领域，具体涉及一种基于手势动作生成与识别的手语教学方法、装置及系统。

背景技术

手语是听障人士进行交流，表达思想的工具，它和口头语言一样具有传递信息的功能，可以表达一些复杂或抽象的语言概念。通常根据特定的语法，将手指动作配合肢体语言及面部表情来传达信息，从原来简单的手势发展成为形象生动的且具有沟通和交流作用的特殊语言，手语识别与翻译技术为听障人士与健全人士沟通提供了便利，其研究不仅要让健全人士读懂手语，还应该让听障人士看懂健全人士说了什么，这种交互过程尤为重要。在教育资源方面，针对听障人士的数字教育资源相对匮乏，教学内容和学生需求匹配度并不高。

由于手语视频生成任务发展较晚，目前手语领域对该任务的研究仍处于起步阶段。传统的日常动作视频生成任务通常考虑人类的周期性动作，而手语视频生成的难点在于手语动作具有变化细微且重叠度较低的特质。同时，手语生成需要同时建模身体姿态、手部动作、面部表情等多个部分，以保证各部分在时间上的同步。再者，生成的手语视频对于听障人士来说必须是可理解且可接受的，这对生成视频的画面自然度、手势细节准确度和手语动作之间的连贯性等都提出了更高的要求。例如申请号为CN202110778836.4的中国专利申请公开了一种手语互译系统，包括手语正译方法和手语反译方法；手语正译方法包括接收手势动作数据，并将手势动作数据转换为第一文字信息，对当前第一文字信息进行语音合成处理，得到手语翻译语音信息；手语反译方法包括接收语音数据，并将语音数据转换为第二文字信息，并对当前第二文字信息进行解析，得到与当前分词后第二文字信息匹配的手语动画信息。但是这种方法依赖于前期对每一个手语视频都要做动画匹配，工作量巨大，不具有教学普及性。因此，构建一套基于手势动作生成的手语教学系统是很有必要的，可以丰富聋哑人手语教学的模式，提高学习兴趣，实现高质量手语教学的普及。

发明内容

技术问题：本发明致力于将人工智能的手段引入课堂教学中，拓展现有的手语教学模式，解决表达性差，学习者模仿效率低的问题，

通过训练手势姿态生成模型，将手语文本生成3D虚拟人物动作视频供学习者进行模仿；并能够录制学习者模仿的动作视频进行反馈打分，提高了手语学习者的自主学习能力，高效率完成学习。

技术方案：本发明的第一方面，提供一种基于手势动作生成与识别的手语教学方法，包括：

利用T-G姿态生成网络对手语数据集视频与手语文本标签训练姿态生成模型；

利用双流VTN网络训练手语数据集生成手语翻译模型；

将待识别的文本语句送入训练好的姿态生成模型，得到3D虚拟人物动作视频，供学习者模仿；

利用手语翻译模型，对学习者模仿的手语动作进行识别，将动作模仿结果与标准教学动作进行相似度评估，反馈学习效果。

进一步地，所述利用T-G姿态生成网络对手语数据集视频与手语文本标签训练姿态生成模型包括：

使用前向Transformer网络对手语数据集视频和手语文本标签进行训练，得到姿态预测序列；

使用后向GAN网络对姿态预测序列进行交替迭代训练，保存训练好的姿态生成模型。

进一步地，所述使用前向Transformer网络对手语数据集视频和手语文本标签进行训练，得到姿态预测序列包括：

使用Transformer的Encoder部分对手语文本标签进行特征提取，提取出文本特征信息；

对手语数据集视频进行人体骨骼姿态关键点检测并提取三维坐标点；

将提取出的文本特征与三维坐标点送入Transformer的Decoder部分得到姿态预测序列。

进一步地，在使用Transformer的Encoder部分对手语文本标签进行特征提取，提取出文本特征信息时，使用如下公式来提供给模型位置信息：

其中，pos为一句话中某个字的位置，i表示字向量的维度序号，d_modet表示字向量的维度值。

进一步地，所述使用后向GAN网络对姿态预测序列进行交替迭代训练，保存训练好的姿态生成模型包括：

将前向生成的姿态预测序列送入Generator生成器得到虚拟的手语姿态；

使用Discriminator判别器对虚拟的手语姿态和真实的手语姿态进行判别训练；

使用生成器和判别器交替迭代训练，使虚拟的手语姿态更接近真实的手语姿态，得到判别器无法区分的姿态生成模型。

进一步地，所述利用双流VTN网络训练手语数据集视频生成手语翻译模型，包括：

对孤立词手语视频进行DNN全局人体特征检测，提取全局特征；

使用Openpose模型对孤立词手语数据集进行手掌特征检测，提取手掌特征；

将全局特征与手掌特征进行信息融合，利用双流VTN网络训练连续语句手语数据集，得到手语翻译模型。

进一步地，所述将待识别的文本语句送入训练好的姿态生成模型得到3D虚拟人物动作视频，供学习者模仿包括：

使用姿态生成模型将待识别的手语文本语句转换为人体骨骼姿态关键点；

利用ThreeDPose模型对人体骨骼关键点的3D姿态进行虚拟重构，生成3D虚拟人物动作视频，供学习者模仿。

进一步地，所述利用手语翻译模型对学习者模仿的手语动作进行识别，将动作模仿结果与标准教学动作进行相似度评估，反馈学习效果包括：

录制学习者模仿的手语动作视频，对视频进行双流特征提取；

将双流特征送入训练好的手语翻译模型中，生成学习者的动作模仿结果。

使用实时评价模型对动作模仿结果与标准教学动作进行相似度评估，得到分数值；

根据分数值对动作准确度进行分级。

第二方面，本发明提供一种基于手势动作生成与识别的手语教学装置，根据所述的基于手势动作生成与识别的手语教学方法进行手语教学，包括：

第一训练单元，其配置为利用T-G姿态生成网络对手语数据集视频与手语文本标签训练姿态生成模型；

第二训练单元，其配置为利用双流VTN网络训练手语数据集生成手语翻译模型；

手势动作生成单元，其配置为将待识别的文本语句送入训练好的姿态生成模型得到3D虚拟人物动作视频，供学习者模仿；

手语翻译单元，其配置为利用手语翻译模型对学习者模仿的手语动作进行识别，将动作模仿结果与标准教学动作进行相似度评估，反馈学习效果。

第三方面，本发明提供一种基于手势动作生成与识别的手语教学系统，根据所提供的基于手势动作生成与识别的的手语教学方法进行手语教学，包括客户端和服务端：

所述客户端，包括数据采集模块、数据传送模块和前端显示模块；

所述数据采集模块，用于采集手语教学的文本标签数据，以及使用在线摄像头录制学习者模仿的动作视频数据；

所述数据传送模块，用于将采集到的手语教学的文本标签数据或者录制的学习者模仿的动作视频数据远程传送给服务端生成3D虚拟人物动作视频或者进行识别打分；

所述前端显示模块，用于将显示3D虚拟人物动作视频供学习者模仿，又可以将服务端传回的学习者模仿结果的打分值进行显示；

所述服务端，包括结果反馈模块，信息处理模块和信息存储模块；

所述结果反馈模块，用于将服务端生成的3D虚拟人物动作视频或者处理好的学习者模仿结果远程传送给客户端的前端显示模块进行显示；

所述信息处理模块，用于将手语教学的文本标签数据生成3D虚拟人物动作视频，又可以识别学习者模仿的手语动作，并进行反馈打分；

所述信息存储模块，用于存储手语数据集以及训练好的姿态生成模型和手语翻译模型。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明中的手势动作生成方法与现有的手势动作生成方法相比，采用了由改进式Transformer生成器和条件判别器组成的对抗性姿态生成网络，对手语数据集进行训练，可以生成任意场景的手语动作，方便聋哑学生进行自主学习，提升课堂智能化的教学内容。使用Transformer的多头Attention机制对手语数据集和文本标签进行特征提取，较现有的特征提取技术相比，起到了增强模型的作用，并且有助于网络捕捉到更丰富的特征或信息。使用了基于Openpose网络的人体骨骼姿态关键点提取方法，可以对人体和手掌数十个骨骼关键点进行检测和提取，较现有的检测方法相比更精确，效率更高，网络模型搭建的更快。使用了基于Generator-Discriminator结构的GAN网络对手语姿态进行交替迭代训练使得从文本标签生成的手势姿态动作可以达到真实手语动作的效果。使用了ThreeDPose模型可以对生成的姿态动作序列生成任意的3D虚拟人物动作视频，提高了学习者的学习兴趣，丰富了现有的手语教学模式。

(2)本发明中的基于手势动作识别的手语教学方法，较现有的手语识别方法相比，采用双流VTN网络对手语动作特征进行检测并提取，对有用特征信息抓取的更全面，识别的精度大大提高。采用了基于OpenCV的DNN模块，相比于现有的采用Haar特征的级联分类器和Dlib算法，DNN模型识别准确率和速度更高，抗干扰能力更强，能够实时检测出脸部，准确框出手语动作区域，针对复杂场景有显著的鲁棒性，在一定程度上提高了手语识别的准确度。使用编解码器的结构对特征序列进行预测，能够对学习者模仿的动作视频进行快速识别并打分，可以很好的评估学习者动作与标准库动作的相似度，反馈学习质量，并进一步指导学习者进行学习，提高了教学活动的灵活性。

(3)本发明中的在线手势动作生成与识别的手语教学系统，包含了客户端与服务端两部分，将数据集与训练的网络模型放在远程服务器上，学校这边的客户端仅需要搭载摄像头的设备，就可以采集实时数据远程传送给服务端进行手势动作生成或者进行手语翻译，降低了使用者的操作难度，使得本发明装置便携易推广。本发明的服务端放在云端服务器上，云端服务器可以移动管理和使用，以及对资源的弹性利用，一台服务器可同时容纳5000人在线使用。采用CUDA对神经网络进行深度训练，提高了网络模型的搭建速度，满足了教学者对多场景下手语动作的充分训练，提高了手语教学的质量和效率，同时降低了手语教学装置的复杂性，丰富了手语教学模式的多样性。

附图说明

图1为本发明的实施例中基于手势动作生成与识别的手语教学方法的流程图；

图2为本发明实施例中基于手势动作生成与识别的手语教学方法逻辑流程图；

图3为本发明实施例中基于T-G姿态生成网络的手势动作生成网络训练流程图；

图4为本发明的实施例中人体骨骼姿态关键点网络训练结构图；

图5为本发明的实施例中T-G姿态生成网络训练结构图；

图6为本发明的实施例中基于双流VTN网络的手语翻译流程图；

图7为本发明的实施例中双流VTN网络结构图；

图8为本发明的实施例中学习者模仿3D虚拟人物手语动作进行学习示意图；

图9为本发明的实施例中客户端-服务端系统示意图；

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

本发明的第一方面，提供一种基于手势动作生成与识别的手语教学方法，结合图1和图2所示，本发明的示例中，该方法包括：

步骤S100：利用T-G姿态生成网络对手语数据集视频与手语文本标签训练姿态生成模型。

如图3所示，本发明的实施例中使用的T-G姿态生成网络是由改进式Transformer生成器和条件判别器组成的对抗性姿态生成网络，前向的Transformer网络包括了编码器和解码器两部分结构；后向的GAN网络包括生成器和判别器两部分结构。使用T-G姿态生成网络训练作为手势姿态生成的方法，可以提高姿态生成模型的鲁棒性，增强网络的泛化能力，给学习者更多环境下手语动作模仿的选择。

姿态生成网络的核心是人体姿态估计算法，本发明的实施例中，使用的是Openpose网络，使用的是自下而上的人体骨骼关键点检测方法，即模型先检测出图像中所有的人体骨骼关键点，再通过算法判断关键点是属于哪一部位的，最后再按照策略将关键点进行连接。如图4所示，网络分为上下两个分支，位于上面的第一个分支网络输入的是图像特征，输出的是用于预测人体骨骼关键点的置信度图；位于下面的第二个分支网络输入的是图像特征，输出的是用于预测人体骨骼关键点之间亲和度的部位亲和力向量场。随后这两组输出的结果将通过图论中的偶匹配求出部分连接关系，最后连接属于同一部位的所有关键点。输入两个分支的特征映射是原始图像经过卷积神经网络提取特征后得到的特征图。

更具体地，在第一阶段，网络输出一组置信度图S^l＝ρ^l(F)和一组部分亲和力向量场

其中ρ^l(F)和

是卷积神经网络在该阶段根据提取的特征图的推断结果的表达，这两个分支分别进行迭代训练，每迭代完一次可视为完成一个阶段。在迭代过程中，当前阶段的分支网络的输入是前一个阶段网络的输出与原图像的特征映射F，这种特征重复的方式能够产生更加精准的预测，公式如下所示：

其中，ρ^t和

是第t阶段的中间结果。

为了使模型在训练过程中是不断迭代收敛的，提高最终预测各分支结果的准确率，在每个阶段结束的时候都设置了各自的损失函数。上下分支网络各有一个损失函数，在真实值和预测值之间采用L₂损失函数来对结果进行约束。其中，为了解决一些实际问题，比如某些数据集并未完全标记所有目标，在空间上对损失函数进行加权来加强预测结果。第t个阶段的上下分支网络的损失函数是：

其中，

是每个关键点j在阶段t的预测关键点置信图，

是真实标签的身体部位置信图，W(p)是一个二元函数，用于防止在训练中对正确的预测进行多余的惩罚，比如当图像在位置p缺少标签时，但网络还是能够对图像在位置p的地方预测出部位置信图和部位亲和力向量场。L是预测的关键点之间肢体的部分亲和力的矢量场集合，c是两个人体骨骼关键点之间的肢体，在阶段t的预测矢量场为

其对应的真实值为

为了避免在训练中出现梯度消失的问题，网络在中间每个阶段都会通过有监督的方法周期性地补充梯度。最后的全局损失函数是：

Openpose网络在进行人体姿态估计时仅需输入一张大小为w×h的RGB图像，模型首先将输入的图像经过前馈网络编码人体各个关键点之间的联系，用于接下来将骨骼关键点进行匹配。在得到图像中人体的关键点后，需要将各个关键点正确连接构造人体骨架图，具体而言，就是将关键点进行聚类。一种常用的聚类方法是根据关键点之间的距离进行连接，单人的人体关键点可以根据人体的关节位置的定义连接，对于一张图像中出现多个人的情况，可能在连接关键点时会出现将不同人物的关键点连接在一起的错误情况。为了解决复杂环境下其他人对手语识别的干扰，使用了部位亲和力向量场，通过关键点的距离和方向来协助预测时对其进行正确连接，采用匈牙利算法进行聚类，来得到关键点的最优匹配方式。

更具体地，如图5所示，本发明提供的GAN网络由两部分组成，即一个生成网络和一个判别网络。其中生成器采用一个低维高斯变量作为输入，通过学习真实数据的分布生成所需样本；判别器本质上是一个二分类器，对输入的样本数据进行判别，区分是真实数据还是生成器生成的样本。

比如，生成器通过一个手势文本标签生成图像x，然后把生成的虚拟图像x输入到判别器中，判别器输出x是真实手势图像的概率，如果输出为1，则表示x是真实的手势图像；如果输出为0，代表x是生成的虚拟的手势图像。训练过程中，生成器的目标是尽可能生成“真实”的手势图像来蒙骗判别器，使判别器的输出值趋向于1，而判别器的目标是尽可能区分出生成器生成的虚拟手势图像和原始的真实手势图像，这意味着对于生成的虚拟的手势图像，判别器要尽量输出趋向于0的值。生成器和判别器进行目的相反的对抗训练，通过不断迭代优化损失函数，并同时更新生成器和判别器的模型参数，逐步提高生成器的生成能力和判别器的判别能力，直至达到纳什均衡，即判别器再也无法区分出输入的是真实手势还是生成器生成的虚拟手势，其输出恒为

生成器输出的虚拟数据在分布上与真实数据非常接近，生成器有了以假乱真的能力。

因此在训练时，为了在服从原始数据分布的真实手语样本x上学习生成器的分布P_g，首先定义一个先验噪声分布P_z(Z)，然后生成器通过映射函数G(Z)将先验噪声映射到样本空间。判别器根据输入的真实手语视频或生成手语视频输出单个标量，D(x)表示样本x来自训练样本而不是P_g的概率。在GAN网络中，判别器和生成器是交替迭代训练的，因此两者可以统一为一个目标损失函数，训练的过程可以看作是优化这个损失函数，如下所示：

其中，V(D，G)是二分类问题中常用的交叉损失，x～p_data(x)表示样本x来自原始数据分布p_data(x)的随机抽样，

为服从p_data(x)分布的数学期望，z～p_z(z)表示服从先验噪声分布p_z(z)的随机采样，x是真实的手语训练数据，z是输入生成器的先验噪声，G(z)表示生成器产生的视频，D(x)表示判别器辨别真实手语视频是否真实的概率，D(G(z))表示判别器鉴别生成器产生的手语视频是否真实的概率。

由于GAN网络在训练时生成器和判别器是交替迭代优化的，所以在探索判别器的最优解时，可以选择先固定生成器训练判别器，目的是为了调整其参数使得目标函数最大化，函数如下所示：

在分布是连续的情况下，目标函数可改写为在采样空间上的积分形式，即在x上进行积分，这样，求解最优判别器的问题就转化为了求解积分的最大值的问题，而求解该积分的最大值又等价于求解被积函数的最大值。

当不确定最优解的情况下，GAN网络的目标函数可以改写为以下的形式：

当判别器达到最优解时，将其代入到上式可得只关于生成器的目标函数：

此时，求解最优生成器可等价为求上述公式的最小值。由KL散度的非负性易得，当且仅当P_g(x)＝P_data(x)时，V(G，D^*)取得最小值，此时生成器达到最优解时，即生成样本分布和真实样本分布完全一致。将P_g(x)＝P_data(x)代入到最优判别器的表达式中，可得：

上式可理解为最优判别器对任何样本的输出都是

即再也无法区分P_data和P_g两个分布的区别，也就是生成的手势姿态与标准库的手势姿态近乎一样。利用训练好的模型就可以对任意输入的手语标签进行手势生成，以供学习者进行模仿。

步骤S200：利用双流VTN网络训练手语数据集生成手语翻译模型。

如图6所示，本发明采用自下而上的人体姿态估计算法和手掌检测模型对手语动作视频进行检测并提取骨骼姿态关键点信息，构建人体骨骼姿态关键点图数据；采用双流VTN网络分别对人体上半身数据和手掌数据提取出视频序列的全局时空特征序列和手掌骨骼关键点时空特征序列，并进行特征融合得到全局-手掌时空特征序列；再利用自注意力机制编解码网络对时空特征信息进行序列化建模；通过softmax分类器获得学习者模仿的动作视频的最大分类概率，经过映射得到最终的识别文本；最后采用自然语言处理技术对识别结果与标准库手语进行相似度评估，反馈学习者学习效果。

双流VTN网络是轻量级特征提取网络，使用轻量级2D CNN将输入的手语数据集视频片段的每一帧处理为特征向量，使用ResNet-34作为特征提取模型的轻量级基准框架。轻量化网络可以提高网络训练的速度，降低网络参数的数量，在手语教学中可以很快的得到学习者模仿的手语动作的反馈结果，提高学习效率。

如图7所示，头部轻量级网络层分别剪裁并处理了人体全局和手掌所有的时空信息特征图。第二步是Transformer网络的编码器，使用2D CNN单独地处理输入序列的每一帧来得到帧嵌入。第三步是解码器，以注意力机制的前馈方式来集成帧内时间信息，为给定的Clip产生分类标签。它的功能是训练一次预测一个单词，生成相应的句子。

更具体地，将轻量化特征提取网络中的特征向量序列扁平化为一维特征序列。使用一个线性嵌入层将一维的特征序列映射到潜在空间，并将可学习的一维位置嵌入添加到一维特征中，然后得到Transformer编码器的最终输入，使用不同的学习仿射变换将它映射到多个查询、键和值矩阵。查询

键

和值

使用按比例相乘的注意力机制转换为相应的多头输出，公式如下所示：

多头自注意力机制包含H个平行的头，每个头h_i对应一个独立的点积注意力函数。然后采用线性变换W对所有头的注意力结果进行汇总，该过程可以表述如下：

MultiHead_i(Q；K；V)＝Concat(h₁；h₂；...h₁₁)·W

手语动作视频的时空特征表示由编码器学习得到，并且<bos>是表示句子开始的特殊标记。这个过程将持续到直到预测另一个表示句子结束的特殊标记<eos>为止。

在解码器端，对编码器端产生的输出进行词嵌入，将位置编码嵌入到词嵌入特征中，并且将结果和编码器输出特征融合作为输入。解码器由N_d个堆叠的相同结构层组成，其中包含一个遮盖的多头自注意力子层、一个多头交叉注意力子层和一个位置前馈子层。遮盖的多头自注意力子层计算输入的数据得到掩膜注意力，同编码器的输出一同输入到多头交叉注意力子层和位置前馈子层。经过softmax分类器得到对应单词的概率。

更具体地，将编码器端的输出通过词嵌入得到词向量，作为解码器的输入，然后计算解码器输入部分的注意力向量。在解码器的每一个时间步中，使用与编码器端相同的结构层处理来自编码器的输出和来自解码器的子注意力，键、值、查询矩阵计算如下：

K＝W^kx

V＝W^vx

Q＝W^qx

其中，K、V、Q分别表示键、值和查询矩阵。

解码器的输出o由输入与注意力向量通过残差连接并经过层正则化之后的输出b以及权重矩阵W₁、W₂和偏置项b₁、b₂组成：

o＝layerNorm(ReLU(xW₁+b₁)W₂+b₂+b)

对解码器的输出进行线性映射将其转换为非归一化概率向量，并经过softmax分类器输出归一化的类别概率值；最后找到最大概率值对应的单词完成解码：

y＝softmax(linear(o)W+b)

步骤S300：将待识别的文本语句送入训练好的姿态生成模型得到3D虚拟人物动作视频，供学习者模仿。

本发明利用手语数据集视频和手语文本标签，训练了手势姿态生成网络，可以对教学者输入的各种场景常用语句进行手势姿态生成，得到3D虚拟人物动作视频；学习者可以观看3D虚拟人物动作视频进行模仿学习，减小了老师教学的难度，如图8所示。

例如，在本发明的一个示例中，学习者既可以跟随老师进行手语动作的学习，又可以使用本发明对学习内容进行模仿学习，因为老师并不能兼顾每一个学生，并且懂得聋哑教学的教师还非常少，所以学生都可以使用本发明进行学习。并且不同于传统的手语教学，学习者可以根据自己感兴趣的方向进行学习，并且使用姿态生成网络可以生成不同风格的目标图像，本发明示例仅以3D虚拟人物举例。

步骤S400：利用手语翻译模型对学习者模仿的手语动作进行识别，将动作模仿结果与标准教学动作进行相似度评估，反馈学习效果。

本发明的实施例中为手语教学设计了一套实时评价模型，首先建立手语标签数据的标准库；其次将录制的学习者模仿的动作视频送入手语翻译网络中进行识别翻译，得到识别结果；将识别结果用实时评价模型进行相似度评估，得到与标准手语库中的动作相似度概率以及分数，反馈给学习者进行接下来的学习。

更具体地，由于相同的手语由不同的演示者做出看起来有很大的视觉差异，因此对特征向量序列V_s进行了约束，这些特征向量序列是由头部轻量化模块得到的。然后将手语标签序列的条件概率计算为所有可以通过映射操作B映射到路径概率之和k：

使用连接时序分类算法CTC进行序列比对，得到识别损失L_R的加权和：

L_R＝-ln(p(k|V_s))

在Transformer解码器模型的训练过程中，通过最小化联合损失项L_loss来训练网络：

L_loss＝λL_R+(1-λ)L_T

其中，λ是决定每个损失函数重要性的权衡参数。

对识别结果进行反馈打分，使用了如下公式：

其中，S、I和D分别表示将识别句子转换为标准库句子所需的最小替换、插入和删除操作次数。N是标准库句子的单词数量。

在本发明的实施例中，使用实时评价模型对动作模仿结果与标准教学动作进行相似度评估，得到分数值；然后根据分数值对动作准确度进行分级，具体的，分数值高于90设为等级A，在区间70-90之间设为等级B，在区间60-70之间设为等级C，低于60设为等级D。

本发明第二方面，提供一种基于手势动作生成与识别的手语教学装置，该装置根据本发明的实施例中任一所述的基于手势动作生成与识别的手语教学方法进行手语教学，在本发明的示例中，该装置包括：

手势动作生成单元，其配置为将待识别的文本语句送入训练好的姿态生成模型得到3D虚拟人物动作视频，供学习者模仿。

对于各单元更具体的实现方式，与上文关于方法的说明一致，此处就不再赘述。

本发明的第三方面，提供一种基于手势动作生成与识别的手语教学系统，该系统也同样根据本发明的实施例中任一所述的基于手势动作生成与识别的手语教学方法进行手语教学。如图9所示，该系统包括客户端和服务端，其中客户端指的是采集手语教学文本或者学习者录制学习者模仿的动作视频并向服务端远程传送；接收服务端返回的3D虚拟人物动作视频或者学习者模仿学习效果并进行显示。客户端包括数据采集，信息传送和前端显示等功能；服务端是指接收客户端发送来的手语教学文本或者学习者模仿的动作视频，调用信息处理模块对其进行处理，并将结果传送给客户端。

因此在本发明的示例中，客户端包括数据采集模块、数据传送模块和前端显示模块；其中，数据采集模块，既可以采集手语教学的文本标签数据，又可以使用在线摄像头录制学习者模仿的动作视频数据。信息传送模块，可以将采集到的手语教学的文本标签数据或者录制的学习者模仿的动作视频数据远程传送给服务端生成3D虚拟人物动作视频或者进行识别打分。前端显示模块，既可以显示3D虚拟人物动作视频供学习者模仿，又可以将服务端传回的学习者模仿结果的打分值进行显示；

服务端包括结果反馈模块，信息处理模块和信息存储模块；其中结果反馈模块，用于将服务端生成的3D虚拟人物动作视频或者处理好的学习者模仿结果远程传送给客户端的前端显示模块进行显示；信息处理模块，既可以将手语教学的文本标签数据生成3D虚拟人物动作视频，又可以识别学习者模仿的手语动作，并进行反馈打分；信息存储模块，用于存储手语数据集和训练好的姿态生成模型和手语翻译模型。

整个系统的实现通过教学者在客户端输入待识别的文本传送给服务端生成3D虚拟人物动作视频，供学习者模仿；客户端可以实时录制学习者模仿的动作视频传送给服务端进行识别打分，实现了一整套的手语教学系统，丰富了手语教学模式，改善了老师无法兼顾每个学生的状态，提高了手语教学的质量。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于手势动作生成与识别的手语教学方法，其特征在于，包括：

利用双流VTN网络训练手语数据集生成手语翻译模型；

2.根据权利要求1所述的方法，其特征在于，所述利用T-G姿态生成网络对手语数据集视频与手语文本标签训练姿态生成模型包括：

3.根据权利要求2所述的方法，其特征在于，所述使用前向Transformer网络对手语数据集视频和手语文本标签进行训练，得到姿态预测序列包括：

4.根据权利要求3所述的方法，其特征在于，在使用Transformer的Encoder部分对手语文本标签进行特征提取，提取出文本特征信息时，使用如下公式来提供给模型位置信息：

其中，pos为一句话中某个字的位置，i表示字向量的维度序号，d_model表示字向量的维度值。

5.根据权利要求4所述的方法，其特征在于，所述使用后向GAN网络对姿态预测序列进行交替迭代训练，保存训练好的姿态生成模型包括：

6.根据权利要求5所述的方法，其特征在于，所述利用双流VTN网络训练手语数据集视频生成手语翻译模型，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述将待识别的文本语句送入训练好的姿态生成模型得到3D虚拟人物动作视频，供学习者模仿包括：

8.根据权利要求7所述的方法，其特征在于，所述利用手语翻译模型对学习者模仿的手语动作进行识别，将动作模仿结果与标准教学动作进行相似度评估，反馈学习效果包括：

根据分数值对动作准确度进行分级。

9.一种基于手势动作生成与识别的手语教学装置，根据权利要求1-8任一项所述的基于手势动作生成与识别的手语教学方法进行手语教学，其特征在于，包括：

10.一种基于手势动作生成与识别的手语教学系统，根据权利要求1-8任一项所述的基于手势动作生成与识别的的手语教学方法进行手语教学，其特征在于，包括客户端和服务端：