CN113971837A

CN113971837A - 一种基于知识的多模态特征融合的动态图神经手语翻译方法

Info

Publication number: CN113971837A
Application number: CN202111255321.2A
Authority: CN
Inventors: 陈毅东; 郑蒋滨; 史晓东
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-25

Abstract

一种基于知识的多模态特征融合的动态图神经手语翻译方法，属于计算机视觉、自然语言处理和手语语言学领域。包括步骤：1)对视觉属性的特征和文本属性的特征分别进行抽象，表示成图网络节点；2)利用半监督的方式对手语进行分割，获取伪标签序列；3)利用伪标签序列对齐图网络节点；4)构造多模态图编码器，融合视觉特征和文本特征；5)将多模态特征进行特征融合，输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。引入图神经手语翻译模型的概念，利用半监督的聚类算法实现手语分割，利用多模态输入信息以提高翻译性能，突破在低资源条件下手语的翻译瓶颈，能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型。

Description

一种基于知识的多模态特征融合的动态图神经手语翻译方法

技术领域

本发明属于计算机视觉、自然语言处理和手语语言学领域，涉及将具有专业知识的文本模态融入到神经手语翻译的方法,尤其是涉及提升神经手语翻译性能的一种基于知识的多模态特征融合的动态图神经手语翻译方法。

背景技术

手语作为一种特殊的视觉语言，是聋人群体的母语。大多数非专业人士是难以理解手语的，因此手语翻译已成为架起聋人和听人之间沟通桥梁的重要应用。在人工智能的跨模态领域，神经手语翻译任务是将一个连续手语视频转换成一个等价的口语翻译。作为区别，连续手语识别任务是识别手语词汇序列，并未考虑口语和手语的语序、语法的差异。本质上，手语词汇是手语视频序列顺序的注释文本。

截至目前，基于视频的神经手语翻译的相关工作仍然很少，主要因为缺乏合适可用的数据集。数据集类别和数量的缺少限制神经手语翻译领域的深入研究和推广。因此，神经手语翻译任务实际上仍是低资源条件下的弱监督任务。目前有关基于序列到序列的手语翻译大致可以分为以下3类：

第一类将问题分解为两个阶段。例如，先利用连续手语识别方法来获得手语词汇，然后使用神经机器翻译模型来学习手语词汇到口语翻译句子。但是，这种方法以手语词汇表示中间过渡信息，引入信息瓶颈，因为翻译模型效果的上限只能与训练得到手语词汇注释的表现相当。

第二类方法侧重于从手语视频表示直接学习到无中间层表示的口语翻译。理论上，具备足够数量的数据集和足够复杂的网络体系结构，这些模型就可以实现端到端的神经手语翻译，而无须使用任何人工标注的注释类信息。然而，由于缺乏完全监督的方式来指导手语的深层次理解，这种方法在目前可用的低资源数据集上，表现性能明显低于其他方法。

第三类方法，也是最新提出的基于Transformer的端到端的方式联合训练。以手语识别模型辅助训练共享编码器，引入手语词汇级别的中间层监督，这有助于网络学习手语中更有意义的时间域和空间域的特征表示，但不会限制信息传递至自回归手语翻译Transformer解码器。尽管该方法在机器翻译模块上做出新的改进，但是在浅层的特征提取模块仍沿用之前的模式。

在当前的低数据资源条件下，手语翻译架构实际上很难通过深度网络挖掘出手语作为一门特殊的自然语言所具备的隐性的语义信息，因此性能普遍较差。一些研究工作已经初步提出，根据手语内在的语言学属性设计相应的手语翻译架构可能比直接使用通用的跨模态架构效果更显著。但是，以何种有效的信息以及以何种形式有效地融入到模型中还没有任何的参考工作。

发明内容

本发明的目的在于提供突破在低资源条件下手语的翻译瓶颈，能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型的一种基于知识的多模态特征融合的动态图神经手语翻译方法。

本发明包括以下步骤：

1)对视觉属性的特征和文本属性的特征分别进行抽象，表示成图网络节点；

2)利用半监督的方式对手语进行分割，获取伪标签序列；

3)利用伪标签序列对齐图网络节点；

4)构造多模态图编码器，融合视觉特征和文本特征；

5)将多模态特征进行特征融合，输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。

在步骤1)中，所述对视觉属性的特征和文本属性的特征分别进行抽象，表示成可供图神经网络使用的节点特征形式；所抽取的特征包括手语视觉语义特征和手语文本语义特征；手语视觉语义特征包括人体动作姿态、动作幅度、肢体位置关系、面部等全局特征；手语文本语义特征包括视频序列的专业文本注释。

在步骤2)中，所述利用半监督的方式对手语进行分割，是利用预训练的连续手语识别模型，获取视频序列和文本标签序列的对齐关系，并获取文本标签的特征。

在步骤4)中，所述构造多模态图编码器，融合视觉特征和文本特征的具体步骤为：1)通过接收来自同一模态内相邻的节点信息并利用自注意力机制聚合生成每个节点的上下文表示；2)利用跨模态门控机制对视觉模态和文本模态进行不同模态间的融合。

在步骤5)中，所述机器翻译模型基于多任务学习框架实现，分别进行连续手语识别和手语手语翻译的联合训练以提高低资源模型精度。

本发明的优点在于：

1)本发明首次引入图神经手语翻译模型的概念，在神经手语翻译模型的编码表示中引入除视觉信息之外的信息并以多模态的形式表示。利用图神经网络的构造方式，成功融合手语的多模态信息。先前的工作中，还没有将图网络的概念应用于手语翻译模型的先例。

2)本发明利用半监督的聚类算法实现手语分割，并将其首次应用于手语翻译任务。手语分割主要被用于映射多模态序列的对齐关系，辅助图网络构造和多模态特征融合。此外，在训练过程引入伪标签序列迭代对齐法，动态对齐视觉和文本序列，以迭代更新方式重新调整图结构。

3)本发明首次探索神经手语翻译任务中利用多模态输入信息以提高翻译性能的方法。该方法广泛适应于各种手语相关的自然语言处理和视觉任务中，具有较好的应用前景和应用价值。

附图说明

图1为多模态图中文本节点和视觉节点对齐样例示意图。

图2为伪标签序列获取过程以及各类型序列节点的关系示意图。

图3为图网络节点对齐的一个运行实例流程示意图。

图4为空间嵌入层和词嵌入层区分示意图。

图5为多模态图编码器结构示意图。

图6为基于多任务学习框架的机器翻译模块示意图。

图7为基于伪标签对齐的动态迭代联合训练过程示意图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

作为对输入特征提取模块的改进，在空间嵌入模块基础上，额外引入文本嵌入模块，以图网络的形式对齐序列并进行多模态信息融合。输入特征首先依次通过多模态嵌入模块和多模态图编码器模块，进行不同模态特征的计算和融合，然后馈送到基于多任务学习框架的机器翻译模块。多个Transformer模块以端对端方式联合训练。此外，还引入一种利用伪标签迭代对齐的模式来动态更新多模态图的构造，以进一步优化。若连续手语识别模块的参数获得更优的参数，重构多模态图。重构过程与初始化相同。具体步骤如下：

步骤1：定义多模态图

定义的图是无向的，可以形式化为G＝(V,E)，其构造如下：

在节点集合V中，每个节点代表一个文本词汇对象或一个视觉对象，其中，V_fi和V_gj分别表示视觉对象节点和文本对象节点。具体而言，采用以下策略来构造这两种节点：(1)将所有手语词汇序列的单词作为独立的文本节点，以便充分利用文本信息。例如，在图1中多模态图总共包含3个文本节点，每个节点对应于输入句子中的一个单词；(2)将所有视频帧对象作为独立的视觉节点，以便充分利用视觉信息。例如，图1多模态图总共包含8个视觉节点，每个节点对应于输入视频帧中的一帧。

为捕获用于模型的多模态语义单元之间的各种语义关系，考虑边集合E中的两种边关系：(1)同一模态中的任何两个节点通过模态内边相连，例如一个视觉(或文本)节点与另一个视觉(或文本)节点之间的关系；(2)每个表示任意手语词汇的文本节点和相应的视觉节点通过模态间边连接。如图1，可以观察到所有视觉对象的节点都相互连接以及所有文本对象的节点都完全连结。但是，仅节点V_f0和V_g0，V_f1和V_g0，V_f3和V_g1，V_f4和V_g1，V_f6和V_g3，V_f7和V_g3通过模态间边相互连接。但是，视觉节点和文本节点之间的对齐关系如何确定，即V_fi和V_gj的组关系无法直接确定，需要依靠其他方法来间接确定。在接下来的步骤，将通过实例和算法来详细介绍如何确定这种对齐关系。

步骤2：获取伪标签序列

连续手语识别模型是一种序列对齐任务，类似于语音识别的任务。连续手语识别模型通常由视觉特征模块和CTC模块顺序拼接而成。在该任务中，输入为连续手语视频帧序列，而输出为手语词汇序列。一个预训练的连续手语识别可以以较低的词错误率输出手语词汇序列，其中手语词汇序列长度通常远小于手语视频帧长度。这主要是依靠CTC层进行候选结果词汇的优化。例如，CTC会删除空格和重复词汇等。而在CTC层处理之前，可以通过一定的方法，获取输出手语词汇的原始序列(会额外多出一个表示空格的词汇)和输入视频帧之间的一一对应关系(原始序列长度等于视频帧长度)，即一个视频帧会对应一个原始序列中的手语词汇。为区分连续手语识别模型训练过程所使用的手语词汇参考序列和多任务模型中的手语识别模块所使用的手语词汇参考序列，将由预训练连续手语识别模型得到的手语词汇序列称为“伪手语词汇序列”，而由预训练连续手语识别模型未经过CTC层处理得到的原始手语词汇序列则称之为“伪原始手语词汇序列”。

假设，输入端接收到具有N帧图像的视频帧源序列，其对应的视觉节点对象序列则记作V_f＝{V_f0,V_f1,...,V_fi,...,V_fN}。通过加载预训练好的模型参数，若保留CTC层，可以直接获取实际使用的伪手语词汇的对齐序列，记作V_gctc＝{V_gctc0,V_gctc1,...,V_gctci,...,V_gctcM}，其中，M表示伪手语词汇序列的单词个数。

而为获取伪原始手语词汇序列特征(即未经过CTC层处理)，需要移除CTC层。假设每个视频帧序列对应输出的伪原始手语词汇序列特征记作P＝{P₀,P₁,...,P_i,...,P_N}(P_i∈{GLOSS-ID，PAD-ID})，其中，GLOSS-ID表示手语词汇在词汇表中的ID编号，PAD-ID表示空格对应的ID编号。若词汇表长度为L，则0到L-1表示词汇对应的ID，而L则表示PAD-ID值(PAD-ID实际上并不包括在词汇表内)。具体地，在实际操作中，首先获取馈送至CTC层之前的序列特征模块输出的向量数组，在数学上通常将称之为logit值。然后，使用softmax函数处理每个数组对应的logit数组，其数组中最大值对应的索引值即为伪原始手语词汇序列中词汇对应的编号。这个过程用公式表示为：

LOGIT_fi＝CSLRw/oCTC(V_fi),

P_i＝IndexMax(softxmax(LOGIT_fi)),

其中，连续手语识别w/oCTC(*)表示去除CTC层的连续手语识别模型，LOGIT_fi表示V_fi视觉节点得到的logit值；IndexMax(*)则表示获取logit最大值对应的索引值。

经过上述无监督步骤，即可通过V_f和预训练模型得到伪手语词汇序列V_gctc以及伪原始手语词汇序列P。作为区别，简单而言V_gctc是P经过CTC层处理得到的进一步优化序列，其中，P和V_f长度相等且一一对应，而V_gctc长度则相对小很多。最终的目标是获得视频帧序列V_f中的帧节点和原始手语词汇序列P中的词汇节点的对齐关系，记作AlignArr＝{A(V_g0),A(V_g1),...,A(V_gi),...,A(V_gL)},其中，V_g是定义不同于V_gctc的文本节点序列，是由伪标签序列P进一步生成的序列，具体见于下一步骤介绍；A(V_gi)为二元数组，例如A(V_gi)＝{V_gi,V_fj}＝{V_fj,P_j}(i一般不等于j)表示V_fi与P_j之间存在图对齐关系；L表示二元数组总个数，一般而言，L会小于V_f帧数N。在假设的对应关系中，每个伪词汇节点V_gi必定有对应的某一个帧节点V_fj，而反之则不成立。此外，P和V_g是多对一关系，且P节点数一定大于或等于V_g节点数，其中，V_gi必对应于一个或多个P节点，而P_i节点未必有对应的V_g值。但截至当前步骤，还无法计算AlignArr数组具体关系。

如图2所示，表示获取伪原始词汇序列P和伪手语词汇序列V_gctc过程示意，以及V_f、V_g和P之间的对应关系。

步骤3：图网络节点对齐

基于上述步骤，已区分视频帧序列V_f，过渡序列即伪原始手语词汇序列P，以及对应的伪手语词汇序列V_g。以下将详细介绍如何基于P来计算V_f中的视觉节点对象和V_g中的文本节点对象的映射关系数组AlignArr，具体算法描述如下：

首先初始化一个计数器COUNT＝-1，其值表示有效节点的分组索引值，然后有序遍历P中的所有元素，其中，P_i表示第i个P元素。i＝＝0为特殊情况，默认规定此Pi为有效节点；在i>0的情况下，若P_i＝＝PAD-ID，表示其为空格，则跳过P_i，表示此P_i为无效节点(无效节点没有分组索引值)；若P_i！＝PAD-ID且P_i！＝P_i-1，则表示此Pi节点为有效节点，此时COUNT值自动增1，其值表示P_i的分组索引值，记作GP_i；若P_i！＝PAD-ID但P_i＝＝P_i-1，则表示此P_i节点为有效节点，此时COUNT值保持不变，其值仍表示P_i的分组索引值。

遍历完P数组后，为方便描述，将分组GP值相同的相邻有效节点进行归并，得到新的节点序列V_g，并按顺序编号。例如V_gj对应于分组GP值为j的P节点，其中，V_gj所映射的V_f节点与对应的P节点所映射的V_f节点一致。最后，将V_g值与其映射的V_f值作为二元数组，添加至AlignArr数组中，即可得到所需的视觉-文本对齐关系组。例如，AlignArr[i]值为一个二元数组{V_g2,V_f3},则表示帧节点V_f3和词汇节点V_g2具有图连接的映射关系。该过程用公式大致表示为：

AlignArr＝Alignment(V_f,P,PAD-ID)＝Mapping(Vg,Vf).

在实际编程过程中，为提高代码效率，可直接以Vf和P的对应值作为二元数组，但本质仍相同。此外，为形象说明具体过程，如图3展示一个运行实例。

通过上述的节点序列对齐算法，进一步挖掘预训练的连续手语识别模型的深层语义信息，充分利用伪标签序列的内部节点的聚类关系，以半监督的形式实现手语分割，初步映射文本节点和视觉节点关系用于图连接和特征融合。

步骤4：多模态图初始化

神经机器翻译模型从源序列和目标序列的标记化开始，并通过词嵌入将它们映射到连续空间中。使用词嵌入的主要思想是将每个单词彼此等距的稀疏one-hot向量表示形式转换为更密集的形式，即具有相似含义的单词更接近。这些嵌入可以从头开始学习，也可以在较大的数据集上进行预训练，然后在训练过程中进行微调。但是，与文本相反，手语是视觉的。因此，除将词嵌入用于源序列的手语词汇序列和目标序列的口语翻译句子外，还需要学习空间嵌入向量来表示手语视频帧节点的特征。最初，神经手语翻译模型借助预训练的2D CNN来提取视频帧特征作为空间嵌入向量。后来发现使用比手语翻译更低级的模型(例如连续手语识别模型)的预训练卷积视觉模块，可以提取更加提取效果更卓越的特征向量，这也是在低资源环境下优化手语翻译的一个有效手段。为得到空间嵌入向量，基于预训练的连续手语识别模型来提取视频帧特征。

如图4所示，给定一个手语视频帧节点Vf_t，预训练卷积模块学会提取非线性帧级空间特征表示，这些操作步骤用公式表示为：

O_t＝SpatialEmbedding(V_ft)＝CSLRCNN(V_ft),

其中，Ot对应于通过CNN传播每张图像信息并提取视频帧节点Vf_t产生的特征向量。

而对于输入的伪手语词汇序列节点Vg_u，使用一个全连接层作为词嵌入，将单词的one-hot向量特征表示线性映射到更密集的空间:

X_u＝WordEmbedding(V_gu),

其中，X_u是口语单词节点Vg_u嵌入特征表示。

通过上述的特征映射过程，视觉节点表示和文本节点表示被映射到相同的空间中。根据多模态特征节点和节点对应关系，则具备初始化多模态图的所有条件。之后，将多模态图馈送至多模态编码器以得到多模态嵌入层特征。

所述多模态编码器是基于类似于Transformer的自注意力机制设计的。与其他序列到序列模型不同，Transformer网络不使用递归或卷积，因此缺少序列内的位置信息。为解决这个问题，遵循位置编码(positional encoding,PE)方法，并将时序信息添加到嵌入向量表示中，如下所示：

O_t＝O_t+PositionalEncoding(t),

X_u＝X_u+PositionalEncoding(u),

其中，PositionalEncoding(*)是预定义的位置编码函数，该函数针对每个时间步生成相移正弦波形式的唯一向量。

步骤5：多模态图编码器

假设，每个文本节点v_xi初始状态为

每个视觉节点v_oj的初始状态为

如图5所示，堆叠多模态融合层来对上述多模态图进行编码。在每个融合层，依次进行模态内和模态间融合以更新所有节点状态。利用这种方式，最终节点状态同时对相同模态内的上下文和跨模态语义信息进行编码。特别注意的是，由于视觉节点和文本节点是包含不同模态信息的两种语义单元，因此分别应用相似并不相同的参数来对其状态更新过程进行建模。

具体而言，在最初的融合层中，文本节点状态

的更新和视觉节点状态

的更新主要包括以下子步骤：

1)模态内融合。在这一步，通过接收来自同一模态内相邻的信息并利用自注意力机制来生成每个节点的上下文表示。形式上，所有文本节点的上下文表示

的计算如下：

其中，MultiHead(Q,K,V)是一个多头自注意力函数，其以query矩阵Q、key矩阵K和value矩阵V作为输入。同理，计算所有视觉节点的上下文表示

的生成如下：

需要说明的是，由于视觉节点对象的初始表示是从深度卷积网络中提取的，因此应用简化的多头自注意力机制来保留视觉对象的初始表示，但会移除学习到的线性映射和尾部的输出层。

2)模态间融合。受多模态特征融合研究的启发，应用按元素操作的跨模态门控机制来收集每个节点的跨模态相邻节点的语义信息。具体而言，通过以下方式生成一个文本节点v_xi的表示形式

其中，A(v_xi)是v_xi的相邻视觉节点的集合，而W₁ ^(l)和

是参数矩阵。

同理，生成一个视觉节点v_oj的表示

表示为：

其中，A(v_oj)是v_oj的相邻文本节点的集合，并且

和

也是参数矩阵。

上述融合方法的优点是可以根据每个模态的上下文表示更好地确定模态间融合的程度。最后，采用位置前馈网络FFN(*)生成文本节点状态

和视觉节点状态

其中，

分别表示上述所有文本节点和视觉节点更新后的表示。

最后，将所得的多模态特征执行残差连接和标准化，即可得到多模态图嵌入层，其编码多模态融合特征，以便其后的机器翻译模块使用。

步骤6：基于多任务学习框架的机器翻译模块

将前一个模块得到的多模态嵌入层特征馈送至该模块，进行序列到序列的学习。在这个模块中，利用多任务学习方式，引入多个Transformer模块构成的手语模型进行联合训练。通常，多任务学习通过联合训练相关任务来学习更好的特征表示。在本实施例中，这两个任务都具有相同的输入特征，但是输出文本目标不同。图6展示基于多任务学习框架的机器翻译模块。其中一个任务为手语识别任务，该子模块学习将多模态手语特征识别成相应的手语词汇序列。另一个任务则为手语翻译任务，该子模块学习将多模态手语特征翻译成相应的口语翻译句子。具体模块功能如下：

1)手语识别模块

SLRT(手语识别Transformer)的目的是识别生成连续手语视频中的手语词汇序列，同时学习有意义的时空表示形式。使用手语识别作为中间层监督，以便网络更好地理解手语并学习到有意义的手语表示，从而辅助主要的手语翻译任务。

在训练此Transformer编码器模型过程中，利用所得的多模态图嵌入特征序列(记作MultiEmb)作为输入。SLRT的输入首先由Self-Attention层建模，该层学习多模态图特征表示之间的上下文关系，其输出被输入至非线性的逐点前馈神经层。在这之后进行残差连接和标准化操作，以帮助提升训练效果。将此编码过程表述为：

z＝SLRT(MultiEmb),

其中，z表示多模态图嵌入特征的时空特征表示。

训练SLRT实际上是通过建模p(G|V)来预测手语词汇序列。由于手语的时空特性，尽管手语词汇与视频帧具有一对多的映射关系，但他们的先后顺序是一致的。一种训练SLRT的方法是使用带有帧级注释的交叉熵损失函数。但是，具有这种精度的手语词汇注释资源极少。另一种可替代的弱监督形式是使用序列到序列的学习损失函数，例如CTC损失函数。

给定时空表示特征z，使用线性映射层和softmax激活层，来获得帧级别的手语词汇的概率p(gt|V)。之后，通过边缘化所有可能的V到G的对齐，能够用CTC来计算条件概率p(G|V)：

其中，π是路径，B是与G对应的所有可行路径的集合。

最后，使用p(G|V)计算连续手语识别的loss值：

LR＝1-p(G*|V),

其中，G*是手语词汇的参考序列。

2)手语翻译模块

本发明最终目标是从手语视频表示中生成对应的口语句子。训练一个名为SLTT(手语翻译Transformer)的自回归Transformer解码器，其利用SLRT学习的时空表示形式作为上下文输入。

如图6所示，SLTT解码器类似于常规的Transformer解码器。解码器由多个完全相同的层堆叠而成。具体而言，前两个子层是和编码器层一样具备掩码的自注意力层，而第三个子层有所不同，是一个编码器-解码器注意力层。第三个子层会对编码器堆栈的输出执行多头注意操作。与编码器方法类似，在每个子层使用残差连接和标准化操作。

具体地，首先在目标口语句子S之前加上特殊的句子标记开头<bos>，随后提取具有位置编码的词嵌入。这些词嵌入被传递至具有掩码的Self-Attention层。尽管Self-Attention在SLTT与SLRT中体现的思想本质上一致，但SLTT在Self-Attention层使用掩码，这对于推断阶段是必要。这样可以避免SLTT在当前位置访问到后续位置的信息，确保某个时间步的预测只能依赖于小于该位置的已知输出。

从SLRT和SLTT的Self-Attention层提取的特征表示将一并提供给编码器-解码器注意力模块，该模块可以学习源序列到目标序列之间的映射。编码器-解码器注意力模块的输出随后通过非线性的前馈层传递。与SLRT类似，还需要进行残差连接和标准化操作。将此解码过程表述为：

h_u+1＝SLTT(MultiEmb_u|MultiEmb,z).

SLTT能够学习一次生成一个单词，直到它生成特殊的结尾标记<eos>。通过将序列级别的条件概率p(S|V)分解为有序的条件概率来进行训练：

其用于计算每个单词的交叉熵损失为：

其中，

表示单词w^d在解码步骤u时的真实参考概率，而D是目标语言的词汇表大小。

最后，通过最小化联合损失项L来更新网络参数，联合损失项L是手语识别模块的损失值L_R和手语翻译模块的损失值L_T的加权和：

L＝λ_RL_R+λ_TL_T,

其中，λ_R和λ_T是决定训练过程中每个损失函数重要程度的权重超参数，具体数值评估方法可以参考实验章节。

步骤7：动态迭代对齐伪标签

在训练的过程中，会不断更新联合损失值进行反向调整，得到最新的模型参数。若在后期的训练过程，连续手语识别模块的参数获得更优的参数，即其评价指标优于初始化时对齐多模态序列所用的预训练连续手语识别模型，则使用最新连续手语识别模块生成新的伪手语词汇序列，重新计算生成为序列标签和视频帧序列的对齐关系，并对跨模态图就进行新一轮的重构。

为此，提出一种利用伪标签迭代对齐的更新策略，对图网络进行动态重构，如图7所示。整个图神经网络构造方法重复前述所提及的所有步骤。由于图网络构造的时间复杂度较大，在实际过程中可对更新条件进行一定的限制。

Claims

1.一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于包括以下步骤：

2)利用半监督的方式对手语进行分割，获取伪标签序列；

3)利用伪标签序列对齐图网络节点；

4)构造多模态图编码器，融合视觉特征和文本特征；

2.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于在步骤1)中，所述对视觉属性的特征和文本属性的特征分别进行抽象，表示成图网络节点特征形式；所抽取的特征包括手语视觉语义特征和手语文本语义特征。

3.如权利要求2所述一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于所述手语视觉语义特征包括人体动作姿态、动作幅度、肢体位置关系、面部特征。

4.如权利要求2所述一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于所述手语文本语义特征包括视频序列的专业文本注释。

5.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于在步骤2)中，所述利用半监督的方式对手语进行分割，是利用预训练的连续手语识别模型，获取视频序列和文本标签序列的对齐关系，并获取文本标签的特征。

6.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于在步骤4)中，所述构造多模态图编码器，融合视觉特征和文本特征的具体步骤为：1)通过接收来自同一模态内相邻的节点信息并利用自注意力机制聚合生成每个节点的上下文表示；2)利用跨模态门控机制对视觉模态和文本模态进行不同模态间的融合。

7.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于在步骤5)中，所述机器翻译模型基于多任务学习框架实现，分别进行连续手语识别和手语手语翻译的联合训练以提高低资源模型精度。