CN112668464A

CN112668464A - 一种融合场景匹配的中文手语翻译模型构建方法及装置

Info

Publication number: CN112668464A
Application number: CN202011567997.0A
Authority: CN
Inventors: 陈斌; 牟中强
Original assignee: Zhuzhou Shouzhisheng Information Technology Co ltd
Current assignee: Zhuzhou Shouzhisheng Information Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112668464B

Abstract

本发明公开一种融合场景匹配的中文手语翻译模型构建方法及装置，该方法步骤包括：S1.构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景词汇与手语动作之间映射关系的场景匹配模型；S2.分别对手语单词识别模型、场景匹配模型进行训练，得到训练后的手语单词识别模型、场景匹配模型；S3.将训练后的手语单词识别模型、场景匹配模型进行级联，形成中文手语翻译模型，获取手语动作数据集并分别输入至中文手语翻译模型的手语单词识别模型、场景匹配模型中以进行模型更新，直至手语单词识别模型与场景匹配模型达到动态平衡，得到最终的中文手语翻译模型。本发明具有实现方法简单、构建效率高且准确性高等优点。

Description

一种融合场景匹配的中文手语翻译模型构建方法及装置

技术领域

本发明涉及中文手语翻译技术领域，尤其涉及一种融合场景匹配的中文手语翻译模型构建方法及装置。

背景技术

目前手语翻译中主要是通过穿戴式设备或图像传感设备获取用户体态特征，如使用Leap Motion体感控制器获取用户手掌、手腕的骨骼关节点三维坐标，计算出体态特征信息后，通过模板匹配的方式分析用户手语含义。考录到穿戴式设备会存在成本高、便携性差、在进行手语表达的过程中对用户的行为会产生不确定性扰动等问题，目前通常是通过使用图像传感设备进行图像或视频的采集。

随着深度学习的发展，使用神经网络能挖掘图像中更深、更抽象的特征，建立关联性更强的特征到手语文本映射。如使用AlexNet对输入图像进行特征提取，在神经网络的基础上使用注意力机制对输入图像序列的时空信息进行编解码，获取手语文本信息；或在级联注意力网络的基础上，使用双流三维卷积网络(two-stream 3D CNN)分别对用户全局运动信息和局部手势信息进行提取，实现手势主导的手语翻译任务果。但是上述方法在翻译过程中均是直接使用手语动作与翻译结果之间映射关系的神经网络模型，就未考虑手语场景对语境的主导性因素，由于中文手语翻译具有连词成句的特点，一些手语动作在不同语境或手语场景下会具有不同的含义，上述翻译模型就忽视了中文手语行为在不同场景下的多义性，缺少手语行为的场景类别特征，无法建立手语行为语义与手语场景之间的映射关系。因此，若能够在中文手语翻译模型中结合场景类型，以使得能对听障人士手语内容中重点语义进行捕捉，分析听障人士手语内容表达的语境，定位特定手语场景，可以优化中文手语翻译模型，有效提高中文手语翻译的准确性。

针对自然场景的识别，目前通常是简单的将场景分类任务设定为单标签类，在海量标签数据的驱动下使用神经网络对场景进行识别分类，然而真实场景通常包含多个标签信息，这些标签可能对应于不同场景中的对象及物体，会导致对场景的分类造成误判，若在翻译模型的基础上直接引入场景分类模型，即额外建立场景分类模型，直接使用场景分类模型的分类结果进行翻译，若场景分类模型精度不高，极易由于场景分类模型分类错误而进一步导致翻译不准确。

综上所述，目前针对中文手语的翻译任务研究仍停留在从手语行为特征提取到手语文本映射的初级阶段，并未对其在不同场景、语境下手语多义性的影响做进一步的探索；同时，当前的中文手语翻译未能有效利用手语场景对翻译结果进行再优化，也限制了中文手语翻译准确性的提升，而直接引入场景分类又存在受场景分类模型分类精度影响的问题。因此，亟需提供一种针对中文手语翻译模型的构建方法，以考虑中文手语翻译场景对手语文本多义性的影响，融合场景匹配优化手语翻译模型，同时尽可能提高手语翻译的效率以及准确性。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、构建效率以及准确性高的融合场景匹配的中文手语翻译模型构建方法及装置，能够融合不同场景实现中文手语翻译模型的构建。

为解决上述技术问题，本发明提出的技术方案为：

一种融合场景匹配的中文手语翻译模型构建方法，步骤包括：

S1.模型构建：基于深度学习模型，构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景词汇与手语动作之间映射关系的场景匹配模型；

S2.模型训练：分别使用训练数据集对所述手语单词识别模型、场景匹配模型进行训练，得到训练后的手语单词识别模型、场景匹配模型；

S3.动态更新：将训练后的所述手语单词识别模型、场景匹配模型进行级联，形成中文手语翻译模型，获取手语动作数据集并分别输入至所述中文手语翻译模型的手语单词识别模型、场景匹配模型中以进行模型更新，直至直接由所述手语单词识别模型得到的手语单词识别结果与根据场景匹配结果得到的手语单词识别结果一致，以使得所述手语单词识别模型与所述场景匹配模型达到动态平衡，得到最终的中文手语翻译模型。

进一步的，所述步骤S1中，基于循环卷积神经网络模型构建所述手语单词识别模型，所述循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型，由所述卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系，由所述循环神经网络模型获取不同时刻手语动作之间的相关性。

进一步的，所述步骤S2中对所述手语单词识别模型进行训练的步骤包括：获取不同场景下的手语动作视频数据，并根据不同场景对获取的所述手语动作视频数据及对应的单词识别结果进行分类；基于循环神经网络模型使用所述手语动作视频数据对所述手语单词识别模型进行训练，得到训练后的所述手语单词识别模型。

进一步的，所述步骤S1中，所述场景匹配模型具体为深度树型匹配模型。

进一步的，所述深度树型匹配模型中包括两层以上的节点，其中第一层layer 1中各节点为手语动作帧，第二层layer2至第N层layer N中各节点为手语场景词汇，所述layerN表示对应层中的场景词汇节点由N个手语动作帧节点映射得到；所述场景匹配模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率。

进一步的，所述步骤S2中对所述场景匹配模型训练的步骤包括：从各类场景中采集的手语单词识别视频库中找到高频手语动作帧，建立不同场景下的手语场景词汇与手语动作帧相对应的手语动作场景关联语料库，使用所述手语动作场景关联语料库训练所述场景匹配模型，得到训练后的所述场景匹配模型。

进一步的，所述步骤S3中进行模型更新的步骤包括：

S301.选取一手语动作数据作为当前手语动作数据，转入步骤S302；

S302.将当前手语动作数据输入至所述手语单词识别模型中，得到第一手语单词识别结果，以及将当前手语动作数据输入至所述场景匹配模型中，得到场景匹配结果，并将所述场景匹配结果输入至所述手语单词识别模型中，所述手语单词识别模型按照所述场景匹配结果对当前手语动作数据重新进行识别，得到第二手语单词识别结果；

S303.判断所述第一手语单词识别结果与所述第二手语单词识别结果是否一致，如果是完成当前模型更新，否则转入步骤S304；

S304.更新所述手语单词识别模型以及场景匹配模型，返回步骤S301。

进一步的，所述步骤S304中，使用所述步骤S302中得到的场景匹配结果更新所述手语单词识别模型，以及使用所述第二手语单词识别结果更新所述场景匹配模型。

一种融合场景匹配的中文手语翻译模型构建装置，包括：

手语单词识别模块，用于基于深度学习模型，构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，并使用训练数据集对所述手语单词识别模型进行训练，得到训练后的手语单词识别模型；

场景匹配模块，用于基于深度学习模型，构建不同场景词汇与手语动作之间映射关系的场景匹配模型，并使用训练数据集对所述场景匹配模型进行训练，得到训练后的所述场景匹配模型；

所述手语单词识别模块与所述场景匹配模块连接，以将训练后的所述手语单词识别模型、场景匹配模型进行级联，形成中文手语翻译模型；

还包括动态更新模块，用于获取手语动作数据集并分别输入至所述中文手语翻译模型的手语单词识别模型、场景匹配模型中进行模型更新，直至所述中文手语翻译模型的手语单词识别模型与场景匹配模型达到动态平衡，以使得直接由所述手语单词识别模型得到的手语单词识别结果与根据所述场景匹配结果得到的手语单词识别结果一致，得到最终的中文手语翻译模型。

一种融合场景匹配的中文手语翻译模型构建装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序，以执行上述方法。

与现有技术相比，本发明的优点在于：

1、本发明通过分别构建面向手语单词与手语动作之间映射关系的手语单词识别模型，以及面向手语场景与手语动作帧关联的场景匹配模型，分别独立训练后再将二者级联，然后不断的对级联的二者模型进行迭代更新，直至二者模型达到动态平衡，使得可以基于手语场景匹配的结果提升手语单词识别任务的精度与速度，基于手语单词识别的结果提升手语场景匹配的精度与速度，不仅能够借助场景匹配考虑中文手语行为的多义性，还能够确保场景匹配模型与手语单词模型的匹配精度，从而提升整个手语翻译系统的准确性与稳定性。

2、本发明通过由手语单词识别模型的输出更新优化手语场景匹配模型，以及基于场景匹配模型的输出更新优化手语单词识别模型，可以由两者模型的结果相互更新、彼此验证，经过该动态更新后得到的模型，能够确保手语翻译的精度，后续只需要直接调用该模型即可直接快速的得到精确的翻译结果，从而能够有效提升模型的手语翻译精度与效率。

3、本发明进一步考虑手语动作的特性，通过以循环卷积神经网络模型为核心构建手语单词识别模型，能够挖掘手语动作中的体态信息及其与单词之间的映射关系，实现对手语动作信息的捕捉以及动作信息与手语单词映射关系的快速建模，解决手语动作差异性弱、关联性强等特性带来的识别难题，进一步提高模型的精度以及效率。

4、本发明进一步面向手语场景匹配任务，采用基于轻量化的深度树型匹配模型构建场景匹配模型，能够进一步提高模型的识别效率，满足手语翻译对效率的要求；进一步深度树型匹配模型利用手语动作帧与手语场景词汇之间的映射概率构建得到，可以快速的实现场景匹配。

附图说明

图1是本实施例融合场景匹配的中文手语翻译模型构建方法的流程示意图。

图2是本实施例中深度树型匹配模型的结构原理示意图。

图3是在具体应用实施例中构建手语单词识别视频库的原理示意图。

图4是具体应用实施例中构建手语动作场景关联语料库的原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例融合场景匹配的中文手语翻译模型构建方法的步骤包括：

S1.模型构建：构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，以及构建不同场景词汇与手语动作之间映射关系的场景匹配模型；

S2.模型训练：分别使用训练数据集对手语单词识别模型、场景匹配模型进行训练，得到训练后的手语单词识别模型、场景匹配模型；

S3.动态更新：将训练后的手语单词识别模型、场景匹配模型进行级联，形成中文手语翻译模型，获取手语动作数据集并分别输入至中文手语翻译模型的手语单词识别模型、场景匹配模型中进行模型更新，直至直接由手语单词识别模型得到的手语单词识别结果与根据场景匹配结果得到的手语单词识别结果一致，以使得手语单词识别模型与场景匹配模型达到动态平衡，得到最终的中文手语翻译模型。

本实施例基于深度学习的理论框架，通过分别构建面向手语单词与手语动作之间映射关系的手语单词识别模型，以及面向手语场景与手语动作帧关联的场景匹配模型，分别独立训练后再将二者级联，然后不断的对级联的二者模型进行迭代更新，以由二者模型的输出结果相互更新，直至二者模型达到动态平衡，使得可以基于手语场景匹配的结果提升手语单词识别任务的精度与速度，基于手语单词识别的结果提升手语场景匹配的精度与速度，不仅能够借助场景匹配考虑中文手语行为的多义性，还能够确保场景匹配模型与手语单词模型之间的匹配关系，从而提升整个手语翻译系统的准确性与稳定性。

本实施例步骤S1中，基于循环卷积神经网络模型构建手语单词识别模型，循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型，由卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系，由循环神经网络模型获取不同时刻手语动作之间的相关性。手语动作之间具有关联性强、差异性弱等的特性，本实施例考虑手语动作的该特性，通过以循环卷积神经网络模型为核心构建手语单词识别模型，能够挖掘手语动作中的体态信息及其与单词之间的映射关系，实现对手语动作信息的捕捉以及动作信息与手语单词映射关系的快速建模，解决手语动作差异性弱、关联性强等特性带来的识别难题，进一步提高模型的精度以及效率。

本实施例基于循环神经网络模型构建手语单词识别模型时，利用卷积神经网络模型出色的特征提取与映射能力，挖掘捕捉手语动作中的体态信息，并建立手语动作与手语单词的映射关系，解决手语动作差异性弱的难题；利用循环神经网络模型出色的信息关联能力，挖掘分析各时刻手语动作的相关性，解决手语动作关联性强的难题；通过将卷积神经网络模型与循环卷积神经网络的级联建模，建立端到端的级联模型，可以建立卷积神经网络模型与循环卷积神经网络模型的动态最优平衡关系，从而得到最优性能的手语单词识别模型。

本实施例上述循环卷积神经网络模型为数据驱动型结构，通过建立多任务场景下的手语单词识别库并以此训练循环卷积神经网络模型，得到基于循环神经网络模型的手语单词识别模型。使用循环卷积神经网络模型为大型数据驱动型结构，利用海量数据对模型的优化能力，可以提升循环卷积神经网络模型的泛化性，使其具备能够自主处理手语单词识别任务的能力。

本实施例步骤S2中对手语单词识别模型进行训练的具体步骤包括：获取不同场景下的手语动作视频数据，并根据不同场景对获取的手语动作视频数据及对应的单词识别结果进行分类；基于循环神经网络模型使用手语动作视频数据对手语单词识别模型进行训练，得到训练后的手语单词识别模型。

在具体应用实施例中，首先获取多任务场景下的手语动作与手语单词对应的视频库，并将该视频库中的动作视频翻译为手语单词，建立多任务场景下的手语视频与手语单词相对应的手语单词识别视频库；构建面向手语单词识别任务的循环卷积神经网络模型后，基于手语单词识别视频库训练该网络模型，将训练好的网络模型将手语动作视频翻译为对应的文字，并分割为对应的多个关键词，即得到所需的手语单词识别模型。

本实施例步骤S1中，场景匹配模型具体为深度树型匹配模型，即按照深度树型建立面向手语场景及手语动作帧关联的匹配模型，以实现基于手语动作帧的手语场景匹配。深度树型匹配模型具有轻量化特点，本实施例通过面向手语场景匹配任务基于轻量化的深度树型匹配模型构建场景匹配模型，能够进一步提高模型的效率，满足手语翻译对效率的要求。

如图2所示，本实施例中深度树型匹配模型具体包括两层以上的节点，其中第一层layer1中各节点为手语动作帧，第二层layer2至第N层layer N中各节点为手语场景词汇，layer N表示对应层中的场景词汇节点由N个手语动作帧节点映射得到；场景匹配模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率，实现由手语动作帧到手语场景词汇的匹配。即基于深度树型建立手语动作视频帧到手语场景词汇的映射关系，形成深度树型匹配模型，以手语动作视频帧为深度树型匹配模型layer 1中的节点输入，以手语场景词汇为深度树型匹配模型layer 2-layer N的节点输出，能够利用手语动作帧与手语场景词汇之间的映射概率构建场景匹配模型，基于该模型可以快速的实现场景匹配，进一步提高模型的识别效率。

在具体应用实施例中，上述深度树型匹配模型构建过程中，首先建立N个layer 1层中节点到layer N层中1个节点的映射关系，映射概率高低表示映射关系的紧密程度，其中当输入视频帧数据对应的场景节点在同一层时，取映射概率最高的场景节点为场景词汇的输出节点；当输入视频帧数据对应的场景节点处于不同层时，不考虑层数的影响，取映射概率最高的场景节点为场景词汇的输出节点；当输入视频中的视频帧对应的不同层的场景节点概率相同时，优先选择层数高的场景节点作为场景词汇的输出节点。

本实施例上述场景匹配模型为数据驱动型结构，先建立多任务场景下的手语场景词汇与手语动作帧相对应的手语动作场景关联语料库，构建面向手语场景匹配任务的深度树型匹配模型后，基于手语动作场景关联语料库训练该模型，再使用训练好的模型对手语动作视频进行初步的场景匹配。

本实施例步骤S2中对场景匹配模型训练的步骤包括：从各类场景中采集的手语单词识别视频库中找到高频手语动作帧，建立不同场景下的手语场景词汇与手语动作帧相对应的手语动作场景关联语料库，使用手语动作场景关联语料库训练场景匹配模型，得到训练后的场景匹配模型。

在具体应用实施例中，首先获取多任务场景下的多个手语动作帧与手语场景词汇对应库，该语料库中的手语场景词汇依据多个手语动作视频帧翻译而来；构建面向手语场景匹配任务的深度树型匹配模型后，使用手语动作场景关联语料库训练该深度树型匹配模型，由训练后的深度树型匹配模型，可以实现对手语场景的快速检索与匹配。

本实施例步骤S3中进行模型更新的步骤包括：

S302.将当前手语动作数据输入至手语单词识别模型中，得到第一手语单词识别结果，以及将当前手语动作数据输入至场景匹配模型中，得到场景匹配结果，并将场景匹配结果输入至手语单词识别模型中，手语单词识别模型按照场景匹配结果对当前手语动作数据重新进行识别，得到第二手语单词识别结果；

S303.判断第一手语单词识别结果与第二手语单词识别结果是否一致，如果是完成当前模型更新，否则转入步骤S304；

S304.更新手语单词识别模型以及场景匹配模型，返回步骤S301。

上述步骤S304中，具体使用步骤S302中得到的场景匹配结果更新所述手语单词识别模型，以及使用所述第二手语单词识别结果更新场景匹配模型。

手语单词识别模型以及场景匹配模型各自完成初始的训练后，两者模型之间实际并未建立匹配联系，两者模型的精度可能并不能达到要求，如当直接使用手语单词识别模型得到的手语单词识别结果与结合场景匹配模型后得到的手语单词识别结果不同的，表明该两者模型并不是匹配统一的。本实施例将手语单词识别模型与场景匹配模型相级联后，按照上述步骤对级联的手语单词识别模型与场景匹配模型进行自动化更新，基于手语单词识别模型的输出更新手语场景并以此优化手语场景匹配模型，以及基于场景匹配模型的输出更新手语单词识别模型的输出并以此优化手语单词识别模型，可以由两者模型的结果相互更新、彼此验证，经过该动态更新后得到的模型，能够确保手语翻译的精度，后续只需要直接调用该模型即可直接快速的得到精确的翻译结果，能够有效提升模型的手语翻译精度与效率。

在具体应用实施例中，对模型进行动态更新过程中，输入手语动作数据后，先基于场景匹配模型匹配得到手语场景词汇，该词汇即为场景匹配模型的输出，以及基于手语单词识别模型识别得到手语单词，该词汇即为手语单词识别模型的输出，再将手语场景匹配模型的输出输入手语单词识别模型中，重新对当前手语动作数据识别后，得到新的手语单词识别结果；比较新的手语单词识别结果与上一次(直接使用手语单词识别模型)的手语单词识别结果：若识别结果发生变化，则将该结果反馈至手语场景匹配系统，更新深度树型匹配模型，重复上述步骤；若识别结果不发生变化，则该结果即为手语翻译结果。

在具体应用实施例中，使用本发明上述方法实现中文手语翻译模型构建的详细流程为：

步骤1：基于循环卷积神经网络模型的手语单词识别模型构建与训练

步骤1-1、采用帧率为30、分辨率为1080*1920的RGB设备固定拍摄角度进行手语动作视频采集；

步骤1-2、依据不同任务场景对采集到的手语视频及其单词识别结果进行分类，对应形式如图3所示；

步骤1-3、基于建立的手语单词识别视频库训练手语单词识别模型对应的循环卷积神经网络模型。

步骤2、基于深度树型匹配模型的场景匹配模型构建与训练

步骤2-1、约定语料库中所含有的语境场景，如“动物园”“游乐场”“森林”“餐馆”等；

步骤2-2、对应确定的语境场景从步骤1-1采集到的手语单词识别视频库中找到高频手语动作帧，建立不同任务场景与手语动作帧的一对多语料库，对应形式如图4所示，得到手语动作场景关联语料库；

步骤2-3、基于建立的手语动作场景关联语料库训练对应场景匹配模型的深度树型匹配模型，深度树型匹配模型中建立有N个layer 1层中节点到layer N层中1个节点的映射关系，映射概率高低表示映射关系的紧密程度。

步骤3、模型动态更新；

步骤3-1、将用于更新的手语动作帧数据分别输入循环卷积神经网络模型与深度树型匹配模型中，由循环卷积神经网络模型得到第一手语单词识别结果，同时将深度树型匹配模型得到的手语场景匹配结果输入循环卷积神经网络模型中，输出在特定场景下的第二手语单词识别结果；

步骤3-2、将第一手语单词识别结果与第二手语单词识别结果进行对比，若两者不相同，即手语单词识别结果发生变化，则依据新的手语单词识别结果，从上一阶段的手语场景匹配结果中选择场景词汇，并对深度树型匹配模型进行更新，同时由深度树型匹配模型的匹配结果对循环卷积神经网络模型进行更新，进而重复S3-1与S3-2；若手语单词识别结果未发生变化，表明模型之间已达到动态平衡，退出当前动态更新。

本实施例融合场景匹配的中文手语翻译模型构建装置包括：

手语单词识别模块，用于构建不同场景下手语动作与单词之间映射关系的手语单词识别模型，并使用训练数据集对手语单词识别模型进行训练，得到训练后的手语单词识别模型；

场景匹配模块，用于构建不同场景词汇与手语动作之间映射关系的场景匹配模型，并使用训练数据集对场景匹配模型进行训练，得到训练后的场景匹配模型；

手语单词识别模块与场景匹配模块连接，以将训练后的手语单词识别模型、场景匹配模型进行级联形成中文手语翻译模型；

还包括动态更新模块，用于获取手语动作数据集并分别输入至中文手语翻译模型的手语单词识别模型、场景匹配模型中进行模型更新，直至直接由手语单词识别模型得到的手语单词识别结果与根据场景匹配结果得到的手语单词识别结果一致，以使得手语单词识别模型与场景匹配模型达到动态平衡，得到最终的中文手语翻译模型。

本实施例融合场景匹配的中文手语翻译模型构建装置与上述融合场景匹配的中文手语翻译模型构建方法是对应的，由手语单词识别模块对应执行步骤S1、步骤S2中关于手语单词识别模型构建、训练部分，以及由场景匹配模块对应执行步骤S1、步骤S2中关于场景匹配模型构建、训练部分，动态更新模块对应执行步骤S3，具体在此不再一一赘述。

在另一实施例中，本发明融合场景匹配的中文手语翻译模型构建装置还可以为：包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行计算机程序，处理器用于执行计算机程序，以执行如上述融合场景匹配的中文手语翻译模型构建方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种融合场景匹配的中文手语翻译模型构建方法，其特征在于，步骤包括：

2.根据权利要求1所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述步骤S1中，基于循环卷积神经网络模型构建所述手语单词识别模型，所述循环卷积神经网络模型包括级联连接的卷积神经网络模型、循环神经网络模型，由所述卷积神经网络模型建立不同场景下手语动作与手语单词之间映射关系，由所述循环神经网络模型获取不同时刻手语动作之间的相关性。

3.根据权利要求2所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述步骤S2中对所述手语单词识别模型进行训练的步骤包括：获取不同场景下的手语动作视频数据，并根据不同场景对获取的所述手语动作视频数据及对应的单词识别结果进行分类；基于循环神经网络模型使用所述手语动作视频数据对所述手语单词识别模型进行训练，得到训练后的所述手语单词识别模型。

4.根据权利要求1所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述步骤S1中，所述场景匹配模型具体为深度树型匹配模型。

5.根据权利要求4所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述深度树型匹配模型中包括两层以上的节点，其中第一层layer 1中各节点为手语动作帧，第二层layer2至第N层layer N中各节点为手语场景词汇，所述layer N表示对应层中的场景词汇节点由N个手语动作帧节点映射得到；所述场景匹配模型经过训练后得到手语动作帧节点到手语场景词汇节点的映射概率。

6.根据权利要求4所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述步骤S2中对所述场景匹配模型训练的步骤包括：从各类场景中采集的手语单词识别视频库中找到高频手语动作帧，建立不同场景下的手语场景词汇与手语动作帧相对应的手语动作场景关联语料库，使用所述手语动作场景关联语料库训练所述场景匹配模型，得到训练后的所述场景匹配模型。

7.根据权利要求1～6中任意一项所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述步骤S3中进行模型更新的步骤包括：

8.根据权利要求7所述的融合场景匹配的中文手语翻译模型构建方法，其特征在于，所述步骤S304中，使用所述步骤S302中得到的场景匹配结果更新所述手语单词识别模型，以及使用所述第二手语单词识别结果更新所述场景匹配模型。

9.一种融合场景匹配的中文手语翻译模型构建装置，其特征在于，包括：

10.一种融合场景匹配的中文手语翻译模型构建装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序，以执行如权利要求1～8中任意一项所述方法。