CN112668463A

CN112668463A - 一种基于场景识别的中文手语翻译方法及系统

Info

Publication number: CN112668463A
Application number: CN202011567901.0A
Authority: CN
Inventors: 陈斌; 牟中强
Original assignee: Zhuzhou Shouzhisheng Information Technology Co ltd
Current assignee: Zhuzhou Shouzhisheng Information Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112668463B

Abstract

本发明公开一种基于场景识别的中文手语翻译方法及系统，该方法步骤包括：S1.构建手语单词识别模型，以及构建场景识别模型，将手语单词识别模型与场景识别模型进行级联，形成手语翻译模型；S2.对手语翻译模型进行训练，直至场景识别模型与手语单词识别模型达到动态平衡；S3.采集待翻译的手语动作视频并提取出手语动作数据；S4.将手语动作数据输入至训练后的手语翻译模型的场景识别模型中，识别出当前的场景类型；根据识别出的场景类型，使用训练后的手语翻译模型中手语单词识别模型对当前手语动作数据进行识别，得到手语单词的翻译结果输出。本发明具有实现方法简单、成本低、精度以及效率高且可靠等优点。

Description

一种基于场景识别的中文手语翻译方法及系统

技术领域

本发明涉及中文手语翻译技术领域，尤其涉及一种基于场景识别的中文手语翻译方法及系统。

背景技术

针对手语翻译，目前主要是通过穿戴式设备或图像传感设备获取用户体态特征，如使用Leap Motion体感控制器获取用户手掌、手腕的骨骼关节点三维坐标，计算出体态特征信息后，通过模板匹配的方式分析用户手语含义。考录到穿戴式设备会存在成本高、便携性差、在进行手语表达的过程中对用户的行为会产生不确定性扰动等问题，目前通常是通过使用图像传感设备进行图像或视频的采集。

在手语翻译中使用神经网络能挖掘图像中更深、更抽象的特征，建立关联性更强的特征到手语文本映射。如使用AlexNet对输入图像进行特征提取，在神经网络的基础上使用注意力机制对输入图像序列的时空信息进行编解码，获取手语文本信息；或在级联注意力网络的基础上，使用双流三维卷积网络(two-stream 3D CNN)分别对用户全局运动信息和局部手势信息进行提取，实现手势主导的手语翻译任务果。但是上述翻译方法均是直接使用手语动作与翻译结果之间映射关系的神经网络模型，就未考虑手语场景对语境的主导性因素，由于中文手语翻译具有连词成句的特点，一些手语动作在不同语境或手语场景下会具有不同的含义，上述翻译方法就忽视了中文手语行为在不同场景下的多义性，缺少手语行为的场景类别识别，无法建立手语行为语义与手语场景之间的映射关系。因此，若能够在中文手语翻译过程中结合场景类型识别，以使得能对听障人士手语内容中重点语义进行捕捉，分析听障人士手语内容表达的语境，定位特定手语场景，可以优化中文手语翻译过程，有效提高中文手语翻译的准确性。

针对自然场景的识别，目前通常是简单的将场景分类任务设定为单标签类，在海量标签数据的驱动下使用神经网络对场景进行识别分类，然而真实场景通常包含多个标签信息，这些标签可能对应于不同场景中的对象及物体，会导致对场景的分类造成误判，若在中文手语翻译的基础上直接引入场景分类，即先进行场景识别，识别出场景下直接按照特定场景再进行手语翻译，但是该类方法的准确性极大的依赖于场景分类模型的精度，若场景分类模型精度不高，极易由于场景分类模型分类错误而进一步导致翻译不准确。因此，亟需提供一种中文手语翻译方法，以考虑中文手语翻译场景对手语文本多义性影响的同时，还能够确保引入场景后翻译的可靠性、准确性以及效率。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、成本低、精度以及效率高且可靠的基于场景识别的中文手语翻译方法及系统。

为解决上述技术问题，本发明提出的技术方案为：

一种基于场景识别的中文手语翻译方法，步骤包括：

S1.模型构建：构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景与手语动作之间映射关系的场景识别模型，将所述手语单词识别模型与所述场景识别模型进行级联，形成手语翻译模型；

S2.模型训练：使用手语动作训练集对所述手语翻译模型进行训练，训练至直接由所述手语单词识别模型得到的手语单词识别结果与根据所述场景识别结果得到的手语单词识别结果一致，以使得所述场景识别模型与所述手语单词识别模型达到动态平衡，得到训练后的手语翻译模型；

S3.数据采集：采集待翻译的手语动作视频并提取出手语动作数据；

S4.手语翻译：将步骤S3提取出的所述手语动作数据输入至训练后的所述手语翻译模型的场景识别模型中，识别出当前的场景类型；根据识别出的场景类型，使用训练后的所述手语翻译模型中所述手语单词识别模型对当前手语动作数据进行识别，得到手语单词的翻译结果输出。

进一步的，所述步骤S1中，基于深度树型匹配模型构建所述场景识别模型，包括两层以上的节点，其中第一层layer 1中各节点为手语动作帧，第二层layer2至第N层layer N中各节点为手语场景词汇，所述layer N表示对应层中的场景词汇节点由N个手语动作帧节点映射得到；所述场景识别模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率。

进一步的，所述基于深度树型匹配模型构建所述场景识别模型的步骤包括：将所述手语动作训练集中手语动作帧数据输入至深度树型匹配模型中，并作为所述深度树型匹配模型中所述第一层layer 1的各节点输入；建立N个从第一层layer中节点到第N层layerN中1个节点的映射关系，使用映射概率高低表示映射关系的紧密程度，其中当输入手语动作帧数据中对应的场景节点在同一层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入手语动作帧数据中对应的场景节点处于不同层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入手语动作帧数据中对应的不同层的场景节点概率相同时，优先选择层数高的场景节点作为场景词汇的输出节点。

进一步的，所述步骤S1中，基于循环卷积神经网络模型构建所述手语单词识别模型，所述循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型，由所述卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系，由所述循环神经网络模型获取不同时刻手语动作之间的相关性。

进一步的，基于所述循环卷积神经网络模型，采用多尺度残差网络提取输入手语动作数据中每帧图片的空间特征向量，具体步骤包括：输入单帧手语动作图片，经过卷积后，将特征图平均分割为缩放维度为s的多个特征图子集xi，其中i∈{1,2,...,s}，每个所述特征图子集具有相同的空间大小且通道数为1/s，除第一个特征图子集x1外，将其余每个特征图子集xi进行卷积操作后得到输入yi，且将前一组的输出特征与下一组输入特征图一起发送到下一组滤波器，最后将所有组的特征图连接起来发送到另一组指定的滤波器中，以将所有特征信息融合在一起，形成所述空间特征向量。

进一步的，基于所述循环卷积神经网络模型，还包括使用门控循环单元提取输入手语动作数据的时间特征，形成时间特征向量，并将提取的所述空间特征向量与所述时间特征向量进行融合，最终得到全局语义信息以进行手语单词识别。

进一步的，所述步骤S2的步骤包括：

S21.模型初步训练：分别使用训练数据集对所述手语单词识别模型、场景识别模型进行训练，得到训练后的手语单词识别模型、场景识别模型；

S22.模型动态更新：使用手语动作数据集对所述手语单词识别模型、场景识别模型进行迭代更新，每次迭代时判断输入手语动作数据后直接由所述手语单词识别模型得到的手语单词识别结果与根据所述场景识别结果得到的手语单词识别结果是否一致，如果一致则判定所述手语单词识别模型与场景识别模型达到动态平衡，完成迭代更新，否则使用识别结果更新所述手语单词识别模型、场景识别模型，返回步骤S22。

进一步的，所述步骤S22的步骤包括：

S221.选取一手语动作数据作为当前手语动作数据，转入步骤S222；

S222.将当前手语动作数据输入至所述手语单词识别模型中，得到第一手语单词识别结果，以及将当前手语动作数据输入至所述场景识别模型中，得到场景识别结果，并将所述场景识别结果输入至所述手语单词识别模型中，所述手语单词识别模型按照所述场景识别结果对当前手语动作数据重新进行识别，得到第二手语单词识别结果；

S223.判断所述第一手语单词识别结果与所述第二手语单词识别结果是否一致，如果一致则判定达到动态平衡，完成迭代更新，否则转入步骤S224；

S224.使用当前得到的场景匹配结果更新所述手语单词识别模型，以及使用所述第二手语单词识别结果更新所述场景匹配模型，返回步骤S221。

一种基于场景识别的中文手语翻译系统，包括：

模型构建模块，用于构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景与手语动作之间映射关系的场景识别模型，将所述手语单词识别模型与所述场景识别模型进行级联，形成手语翻译模型；

模型训练模块，用于使用手语动作训练集对所述手语翻译模型进行训练，训练至所述场景识别模型与所述手语单词识别模型达到动态平衡，以使得直接由所述手语单词识别模型得到的手语单词识别结果与根据所述场景识别结果得到的手语单词识别结果一致，得到训练后的手语翻译模型；

数据采集模块，用于采集待翻译的手语动作视频并提取出手语动作数据；

手语翻译控制模块，用于将所述数据采集模块提取出的所述手语动作数据输入至训练后的所述手语翻译模型的场景识别模型中，识别出当前的场景类型；根据识别出的场景类型，使用训练后的所述手语翻译模型中所述手语单词识别模型对当前手语动作数据进行识别，得到手语单词的翻译结果输出。

一种基于场景识别的中文手语翻译系统，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序，以执行如上述方法。

与现有技术相比，本发明的优点在于：

1、本发明考虑中文手语翻译场景对手语文本多义性的影响，通过先分别构建面向手语单词与手语动作之间映射关系的手语单词识别模型，以及面向手语场景与手语动作帧关联的场景匹配模型，并将两者模型级联形成手语翻译模型，对该翻译模型进行训练时使得手语单词识别模型、场景识别模型达到动态平衡，以确保场景匹配模型与手语单词模型两者的精度以及模型之间是相互匹配的，采集到待翻译的手语动作视频后，基于该翻译模型先进行场景识别，再利用场景识别结果得到适宜对应场景的中文手语翻译，可以快速、高效的得到精准可靠的中文手语翻译。

2、本发明通过借助中文手语场景识别辅助手语单词识别，利用手语场景识别速度快的优点，使得辅助快速实现手语单词识别，有效提升手语单词识别的速度；同时，利用手语场景与手语单词相互依存的特点，在手语翻译模型构建过程中，由场景识别模型与手语单词识别模型相互验证与更新，提升翻译模型的精度与稳定性，能够确保中文手语翻译的精度、速度以及稳定性。

3、本发明进一步考虑手语动作的特性，通过以循环卷积神经网络模型为核心构建手语单词识别模型，能够挖掘手语动作中的体态信息及其与单词之间的映射关系，实现对手语动作信息的捕捉以及动作信息与手语单词映射关系的快速建模，解决手语动作差异性弱、关联性强等特性带来的识别难题；

4、本发明在循环神经网络的基础上，进一步采用多尺度残差网络提取输入手语动作数据中每帧图片的空间特征向量，可以实现对手语特征信息的提取；同时引入门控循环神经网络捕捉时间序列中时间步距离较大时的依赖关系，使用门控循环单元提取手语视频帧序列的时间特征，融合空间特征、时间特征可以得到全局语义信息，从而便于实现准确的翻译编译。

5、本发明进一步面向手语场景匹配任务时，基于轻量化的深度树型匹配模型，利用手语动作帧与手语场景词汇之间的映射概率构建场景匹配模型，可以快速的实现场景匹配，进一步提高模型的效率，可以满足手语翻译对效率的要求。

附图说明

图1是本实施例基于场景识别的中文手语翻译方法的实现流程示意图。

图2是本实施例基于循环卷积神经网络模型构建手语单词识别模型的原理示意图。

图3是本实施例基于深度树型匹配模型构建场景识别模型的原理示意图。

图4是本实施例中模型训练的流程示意图。

图5是在具体应用实施例中构建手语单词识别视频库的原理示意图。

图6是具体应用实施例中构建手语动作场景关联语料库的原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例基于场景识别的中文手语翻译方法的步骤包括：

S1.模型构建：构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景与手语动作之间映射关系的场景识别模型，将手语单词识别模型与场景识别模型进行级联，形成手语翻译模型；

S2.模型训练：使用手语动作训练集对手语翻译模型进行训练，训练至场景识别模型与手语单词识别模型达到动态平衡，以使得直接由手语单词识别模型得到的手语单词识别结果与根据场景识别结果得到的手语单词识别结果一致，得到训练后的手语翻译模型；

S4.手语翻译：将步骤S3提取出的手语动作数据输入至训练后的手语翻译模型的场景识别模型中，识别出当前的场景类型；根据识别出的场景类型，使用训练后的手语翻译模型中手语单词识别模型对当前手语动作数据进行识别，得到手语单词的翻译结果输出。

本实施例考虑中文手语翻译场景对手语文本多义性的影响，通过先分别构建面向手语单词与手语动作之间映射关系的手语单词识别模型，以及面向手语场景与手语动作帧关联的场景匹配模型，并将两者模型级联形成手语翻译模型，对该翻译模型进行训练时使得手语单词识别模型、场景识别模型达到动态平衡，以确保场景匹配模型与手语单词模型两者的精度以及模型之间是相互匹配的，采集到待翻译的手语动作视频后，基于该翻译模型先进行场景识别，再利用场景识别结果得到适宜对应场景的中文手语翻译，可以快速、高效的得到精准可靠的中文手语翻译。

本实施例步骤S1中，基于循环卷积神经网络模型构建手语单词识别模型，循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型，由卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系，由循环神经网络模型获取不同时刻手语动作之间的相关性。手语动作之间具有关联性强、差异性弱等的特性，本实施例考虑手语动作的该特性，通过以循环卷积神经网络模型为核心构建手语单词识别模型，能够挖掘手语动作中的体态信息及其与单词之间的映射关系，实现对手语动作信息的捕捉以及动作信息与手语单词映射关系的快速建模，解决手语动作差异性弱、关联性强等特性带来的识别难题，进一步提高模型的精度以及效率。

本实施例基于循环神经网络模型构建手语单词识别模型时，利用卷积神经网络模型出色的特征提取与映射能力，挖掘捕捉手语动作中的体态信息，并建立手语动作与手语单词的映射关系，解决手语动作差异性弱的难题；利用循环神经网络模型出色的信息关联能力，挖掘分析各时刻手语动作的相关性，解决手语动作关联性强的难题；通过将卷积神经网络模型与循环卷积神经网络的级联建模，建立端到端的级联模型，可以建立卷积神经网络模型与循环卷积神经网络模型的动态最优平衡关系，从而得到最优性能的手语单词识别模型。

本实施例上述循环卷积神经网络模型为数据驱动型结构，通过建立多任务场景下的手语单词识别库并以此训练循环卷积神经网络模型，得到基于循环神经网络模型的手语单词识别模型。使用循环卷积神经网络模型为大型数据驱动型结构，利用海量数据对模型的优化能力，可以提升循环卷积神经网络模型的泛化性，使其具备能够自主处理手语单词识别任务的能力。

在具体应用实施例中，首先获取多任务场景下的手语动作与手语单词对应的视频库，并将该视频库中的动作视频翻译为手语单词，建立多任务场景下的手语视频与手语单词相对应的手语单词识别视频库；构建面向手语单词识别任务的循环卷积神经网络模型后，基于手语单词识别视频库训练该网络模型，将训练好的网络模型将手语动作视频翻译为对应的文字，并分割为对应的多个关键词，即得到所需的手语单词识别模型。

本实施例中，基于循环卷积神经网络模型，具体采用多尺度残差网络提取输入手语动作数据中每帧图片的空间特征向量，具体步骤包括：输入单帧手语动作图片，经过卷积(具体为1*1卷积)后，将特征图平均分割为缩放维度为s的多个特征图子集xi，其中i∈{1,2,...,s}，每个特征图子集具有相同的空间大小且通道数为1/s，除第一个特征图子集x1外，将其余每个特征图子集xi(具体采用3*3的卷积核)进行卷积操作(Ki())后得到输入yi，且将前一组的输出特征与下一组输入特征图一起发送到下一组滤波器，即Ki-1()的输出yi-1与特征子集xi相加，然后送入Ki()；yi的数学表示形式具体为：

经多次重复操作，将所有组的特征图连接起来，发送到另一组指定的滤波器(具体为1*1的滤波器)中，将所有特征信息融合在一起，形成空间特征向量，实现对手语特征信息的提取。

本实施例中，基于循环卷积神经网络模型，还包括使用门控循环单元提取输入手语动作数据的时间特征，形成时间特征向量，并将提取的空间特征向量与时间特征向量进行融合，最终得到全局语义信息以进行手语单词识别。

对输入的视频帧即便经过剔除相似帧和静止帧的处理后，视频帧序列长度仍将远大于文本序列长度，本实施例在循环神经网络的基础上，引入门控循环神经网络捕捉时间序列中时间步距离较大时的依赖关系(长距依存)，使用门控循环单元提取手语视频帧序列的时间特征。如图2所示，具体采用四层的门控循环单元作为序列建模架构，来提取手语视频帧序列的时间特征，其中每个门控循环单元包含1000个隐藏层。将多尺度残差网络中提取到的空间特征向量在时间域倒序作为门控循环单元的输入(fT:f1)，经过四层的门控循环单元，得到每个输入向量对应的隐藏层状态on作为语境向量，即为整个视频的时间特征向量。将手语视频帧的空间特征向量与时间特征向量进行融合得到全局语义信息，利用该全局语义信息可以实现更为准确的翻译解码。

为解决长距依存和梯度消失问题，本实施例在循环卷积神经网络模型的基础上，进一步引入注意力机制，以为翻译解码网络提供额外的信息，使得手语视频帧和翻译句子对齐。

本实施例步骤S1中，基于深度树型匹配模型构建场景识别模型，即按照深度树型建立面向手语场景及手语动作帧关联的匹配模型，以实现基于手语动作帧的手语场景识别。深度树型匹配模型具有轻量化特点，本实施例通过面向手语场景匹配任务基于轻量化的深度树型匹配模型构建场景匹配模型，能够进一步提高模型的效率，满足手语翻译对效率的要求。

如图3所示，本实施例中深度树型匹配模型具体包括两层以上的节点，其中第一层layer1中各节点为手语动作帧，第二层layer2至第N层layer N中各节点为手语场景词汇，layer N表示对应层中的场景词汇节点由N个手语动作帧节点映射得到；场景匹配模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率，实现由手语动作帧到手语场景词汇的匹配。即基于深度树型建立手语动作视频帧到手语场景词汇的映射关系，形成深度树型匹配模型，以手语动作视频帧为深度树型匹配模型layer 1中的节点输入，以手语场景词汇为深度树型匹配模型layer 2-layer N的节点输出，能够利用手语动作帧与手语场景词汇之间的映射概率构建场景匹配模型，基于该模型可以快速的实现场景匹配，进一步提高模型的识别效率。

在具体应用实施例中，基于深度树型匹配模型构建场景识别模型的步骤包括：将手语动作训练集中手语动作帧数据输入至深度树型匹配模型中，并作为深度树型匹配模型中第一层layer 1的各节点输入；建立N个从第一层layer中节点到第N层layer N中1个节点的映射关系，使用映射概率高低表示映射关系的紧密程度，其中当输入手语动作帧数据中对应的场景节点在同一层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入手语动作帧数据中对应的场景节点处于不同层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入手语动作帧数据中对应的不同层的场景节点概率相同时，优先选择层数高的场景节点作为场景词汇的输出节点。

本实施例上述场景匹配模型为数据驱动型结构，先建立多任务场景下的手语场景词汇与手语动作帧相对应的手语动作场景关联语料库，构建面向手语场景匹配任务的深度树型匹配模型后，基于手语动作场景关联语料库训练该模型，再使用训练好的模型对手语动作视频进行初步的场景匹配。

在具体应用实施例中，首先获取多任务场景下的多个手语动作帧与手语场景词汇对应库，该语料库中的手语场景词汇依据多个手语动作视频帧翻译而来；构建面向手语场景匹配任务的深度树型匹配模型后，使用手语动作场景关联语料库训练该深度树型匹配模型，由训练后的深度树型匹配模型，可以实现对手语场景的快速检索与匹配。

如图4所示，本实施例中步骤S2的具体步骤包括：

S21.模型初步训练：分别使用训练数据集对手语单词识别模型、场景识别模型进行训练，得到训练后的手语单词识别模型、场景识别模型；

S22.模型动态更新：使用手语动作数据集对手语单词识别模型、场景识别模型进行迭代更新，每次迭代时判断输入手语动作数据后直接由手语单词识别模型得到的手语单词识别结果与根据场景识别结果得到的手语单词识别结果是否一致，如果一致则判定手语单词识别模型与场景识别模型达到动态平衡，完成迭代更新，否则使用识别结果更新手语单词识别模型、场景识别模型，返回步骤S22。

手语单词识别模型以及场景匹配模型各自完成初始的训练后，两者模型之间实际并未建立匹配联系，两者模型的精度可能并不能达到要求，如当直接使用手语单词识别模型得到的手语单词识别结果与结合场景匹配模型后得到的手语单词识别结果不同的，表明该两者模型并不是匹配统一的。本实施例对模型进行训练时，通过先分别对手语单词识别模型与场景匹配模型进行初步训练，再级联后进行模型自动更新，基于手语单词识别模型的输出更新手语场景并以此优化手语场景匹配模型，以及基于场景匹配模型的输出更新手语单词识别模型的输出并以此优化手语单词识别模型，可以由两者模型的结果相互更新、彼此验证，经过该动态更新后得到的模型，能够考虑中文手语翻译的适用场景，同时确保翻译的精度。

本实施例中，步骤S22的具体步骤包括：

S222.将当前手语动作数据输入至手语单词识别模型中，得到第一手语单词识别结果，以及将当前手语动作数据输入至场景识别模型中，得到场景识别结果，并将场景识别结果输入至手语单词识别模型中，手语单词识别模型按照场景识别结果对当前手语动作数据重新进行识别，得到第二手语单词识别结果；

S223.判断第一手语单词识别结果与第二手语单词识别结果是否一致，如果一致则判定达到动态平衡，完成迭代更新，否则转入步骤S224；

S224.使用当前得到的场景匹配结果更新手语单词识别模型，以及使用第二手语单词识别结果更新场景匹配模型，返回步骤S221。

在具体应用实施例中，对模型进行动态更新过程中，输入手语动作数据后，先基于场景匹配模型匹配得到手语场景词汇，该词汇即为场景匹配模型的输出，以及基于手语单词识别模型识别得到手语单词，该词汇即为手语单词识别模型的输出，再将手语场景匹配模型的输出输入手语单词识别模型中，重新对当前手语动作数据识别后，得到新的手语单词识别结果；比较新的手语单词识别结果与上一次(直接使用手语单词识别模型)的手语单词识别结果：若识别结果发生变化，则将该结果反馈至手语场景匹配系统，更新深度树型匹配模型，重复上述步骤；若识别结果不发生变化，则该结果即为手语翻译结果。将手语翻译结果中分割和提取出多个中文关键词，即为手语单词识别结果。

在具体应用实施例中，使用本发明上述方法实现中文手语翻译的详细流程为：

步骤一、模型构建及训练

步骤1、建立多任务场景下的手语单词识别视频库，并训练循环卷积神经网络模型；

1-1)采集不同任务场景的手语动作视频，依据不同任务场景对采集到的手语视频及其单词识别结果进行分类，对应形式如图5所示；

1-2)基于建立的手语单词识别视频库训练循环卷积神经网络模型；

步骤2、建立多任务场景下的手语动作场景关联语料库，并训练深度树型匹配模型；

2-1)约定语料库中所含有的语境场景，如“动物园”“游乐场”“森林”“餐馆”等；

2-2)对应确定的语境场景从1-1)采集到的手语单词识别视频库中找到高频手语动作帧，建立不同任务场景与手语动作帧的一对多语料库，对应形式如图6所示；

2-3)、基于建立的手语动作场景关联语料库训练手语场景匹配系统中的深度树型匹配模型。

步骤3、手语动作视频采集及预处理；

3-1)采集手语动作视频；

3-2)对视频进行分帧处理，去除手语动作视频中的相似帧及静止帧；

3-3)调整图片大小并对整体视频帧数据归一化，形成手语视频帧数据。

步骤4、按照如图2所示设计循环卷积神经网络模型，构建手语单词识别模型；

4-1)按照如上式(1)设计采用多尺度残差网络提取手语视频每帧图片的空间特征向量；

4-2)在循环神经网络的基础上，使用门控循环单元提取手语视频帧序列的时间特征；将多尺度残差网络中提取到的空间特征向量在时间域倒序作为门控循环单元的输入，经过四层的门控循环单元，得到每个输入向量对应的隐藏层状态作为语境向量，即为整个视频的时间特征向量。

4-3)将手语视频帧的空间特征向量与时间特征向量进行融合得到全局语义信息，进而进行翻译解码。同时引入注意力机制，提供手语视频帧和翻译句子的对齐。

4-4)将手语翻译结果中分割和提取出多个中文关键词，即为手语单词识别结果。

步骤5、按照如图3设计深度树型匹配模型，构建场景识别模型；

5-1)将手语动作帧数据输入深度树型匹配模型，以其作为深度树型匹配模型中layer1的各节点输入；

5-2)建立N个layer 1层中节点到layer N层中1个节点的映射关系，映射概率高低表示映射关系的紧密程度。

5-3)当输入视频中的视频帧对应的场景节点在同一层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入视频中的视频帧对应的场景节点处于不同层时，不考虑层数的影响，仍然取映射概率最高的场景节点为场景词汇的输出节点；当输入视频中的视频帧对应的不同层的场景节点概率相同时，优先选择层数高的场景节点作为场景词汇的输出节点。

步骤6、模型自动更新；

6-1)将得到的手语场景匹配结果输入手语单词识别模型中，输出在特定场景下的手语单词识别结果；

6-2)将现阶段的手语单词识别结果与上一阶段的手语单词识别结果(直接使用是偶遇单词识别模型得到的结果)进行对比：若手语单词识别结果发生变化，则依据新的手语单词识别结果，从上一阶段的手语场景匹配结果中选择场景词汇，并对手语场景匹配系统进行更新，进而重复6-1)与6-2)；若手语单词识别结果未发生变化，则该结果为手语翻译结果。

步骤7：数据采集

7-1)采集待翻译的手语动作视频；

7-2)对视频进行分帧处理，去除手语动作视频中的相似帧及静止帧；

7-3)调整图片大小并对整体视频帧数据归一化，形成待翻译的手语视频帧数据。

步骤8：手语翻译

8-1)将待翻译的手语视频帧数据输入至场景识别模型中，得到场景识别结果；

8-2)将场景识别结果以及待翻译的手语视频帧数据输入至手语单词识别模型中，得到对应场景下的翻译结果输出。

本实施例基于场景识别的中文手语翻译系统包括：

模型构建模块，用于构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景与手语动作之间映射关系的场景识别模型，将手语单词识别模型与场景识别模型进行级联，形成手语翻译模型；

模型训练模块，用于使用手语动作训练集对手语翻译模型进行训练，训练至场景识别模型与手语单词识别模型达到动态平衡，以使得直接由手语单词识别模型得到的手语单词识别结果与根据场景识别结果得到的手语单词识别结果一致，得到训练后的手语翻译模型；

手语翻译控制模块，用于将数据采集模块提取出的手语动作数据输入至训练后的手语翻译模型的场景识别模型中，识别出当前的场景类型；根据识别出的场景类型，使用训练后的手语翻译模型中手语单词识别模型对当前手语动作数据进行识别，得到手语单词的翻译结果输出。

本实施例基于场景识别的中文手语翻译系统与上述基于场景识别的中文手语翻译方法为一一对应，具有相同的实现原理以及技术效果，在此不再一一赘述。

在另一实施例中，本发明基于场景识别的中文手语翻译系统还可以为：包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行计算机程序，处理器用于执行计算机程序，以执行如上述基于场景识别的中文手语翻译方法。

本发明通过借助中文手语场景识别辅助手语单词识别，利用手语场景识别速度快的优点，使得辅助快速实现手语单词识别，有效提升手语单词识别的速度；同时，利用手语场景与手语单词相互依存的特点，在手语翻译模型构建过程中，由场景识别模型与手语单词识别模型相互验证与更新，提升翻译模型的精度与稳定性，确保中文手语翻译的精度、速度以及稳定性。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于场景识别的中文手语翻译方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于场景识别的中文手语翻译方法，其特征在于，所述步骤S1中，基于深度树型匹配模型构建所述场景识别模型，包括两层以上的节点，其中第一层layer 1中各节点为手语动作帧，第二层layer2至第N层layer N中各节点为手语场景词汇，所述layer N表示对应层中的场景词汇节点由N个手语动作帧节点映射得到；所述场景识别模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率。

3.根据权利要求2所述的基于场景识别的中文手语翻译方法，其特征在于，所述基于深度树型匹配模型构建所述场景识别模型的步骤包括：将所述手语动作训练集中手语动作帧数据输入至深度树型匹配模型中，并作为所述深度树型匹配模型中所述第一层layer 1的各节点输入；建立N个从第一层layer中节点到第N层layer N中1个节点的映射关系，使用映射概率高低表示映射关系的紧密程度，其中当输入手语动作帧数据中对应的场景节点在同一层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入手语动作帧数据中对应的场景节点处于不同层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入手语动作帧数据中对应的不同层的场景节点概率相同时，优先选择层数高的场景节点作为场景词汇的输出节点。

4.根据权利要求1所述的基于场景识别的中文手语翻译方法，其特征在于，所述步骤S1中，基于循环卷积神经网络模型构建所述手语单词识别模型，所述循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型，由所述卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系，由所述循环神经网络模型获取不同时刻手语动作之间的相关性。

5.根据权利要求4所述的基于场景识别的中文手语翻译方法，其特征在于，基于所述循环卷积神经网络模型，采用多尺度残差网络提取输入手语动作数据中每帧图片的空间特征向量，具体步骤包括：输入单帧手语动作图片，经过卷积后，将特征图平均分割为缩放维度为s的多个特征图子集xi，其中i∈{1,2,...,s}，每个所述特征图子集具有相同的空间大小且通道数为1/s，除第一个特征图子集x1外，将其余每个特征图子集xi进行卷积操作后得到输入yi，且将前一组的输出特征与下一组输入特征图一起发送到下一组滤波器，最后将所有组的特征图连接起来发送到另一组指定的滤波器中，以将所有特征信息融合在一起，形成所述空间特征向量。

6.根据权利要求5所述的基于场景识别的中文手语翻译方法，其特征在于，基于所述循环卷积神经网络模型，还包括使用门控循环单元提取输入手语动作数据的时间特征，形成时间特征向量，并将提取的所述空间特征向量与所述时间特征向量进行融合，最终得到全局语义信息以进行手语单词识别。

7.根据权利要求1～6中任意一项所述的基于场景识别的中文手语翻译方法，其特征在于，所述步骤S2的步骤包括：

8.根据权利要求7所述的基于场景识别的中文手语翻译方法，其特征在于，所述步骤S22的步骤包括：

9.一种基于场景识别的中文手语翻译系统，其特征在于，包括：

10.一种基于场景识别的中文手语翻译系统，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序，以执行如权利要求1～8中任意一项所述方法。