CN113971837A - 一种基于知识的多模态特征融合的动态图神经手语翻译方法 - Google Patents

一种基于知识的多模态特征融合的动态图神经手语翻译方法 Download PDF

Info

Publication number
CN113971837A
CN113971837A CN202111255321.2A CN202111255321A CN113971837A CN 113971837 A CN113971837 A CN 113971837A CN 202111255321 A CN202111255321 A CN 202111255321A CN 113971837 A CN113971837 A CN 113971837A
Authority
CN
China
Prior art keywords
sign language
features
modal
text
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111255321.2A
Other languages
English (en)
Inventor
陈毅东
郑蒋滨
史晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111255321.2A priority Critical patent/CN113971837A/zh
Publication of CN113971837A publication Critical patent/CN113971837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于知识的多模态特征融合的动态图神经手语翻译方法,属于计算机视觉、自然语言处理和手语语言学领域。包括步骤:1)对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;2)利用半监督的方式对手语进行分割,获取伪标签序列;3)利用伪标签序列对齐图网络节点;4)构造多模态图编码器,融合视觉特征和文本特征;5)将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。引入图神经手语翻译模型的概念,利用半监督的聚类算法实现手语分割,利用多模态输入信息以提高翻译性能,突破在低资源条件下手语的翻译瓶颈,能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型。

Description

一种基于知识的多模态特征融合的动态图神经手语翻译方法
技术领域
本发明属于计算机视觉、自然语言处理和手语语言学领域,涉及将具有专业知识的文本模态融入到神经手语翻译的方法,尤其是涉及提升神经手语翻译性能的一种基于知识的多模态特征融合的动态图神经手语翻译方法。
背景技术
手语作为一种特殊的视觉语言,是聋人群体的母语。大多数非专业人士是难以理解手语的,因此手语翻译已成为架起聋人和听人之间沟通桥梁的重要应用。在人工智能的跨模态领域,神经手语翻译任务是将一个连续手语视频转换成一个等价的口语翻译。作为区别,连续手语识别任务是识别手语词汇序列,并未考虑口语和手语的语序、语法的差异。本质上,手语词汇是手语视频序列顺序的注释文本。
截至目前,基于视频的神经手语翻译的相关工作仍然很少,主要因为缺乏合适可用的数据集。数据集类别和数量的缺少限制神经手语翻译领域的深入研究和推广。因此,神经手语翻译任务实际上仍是低资源条件下的弱监督任务。目前有关基于序列到序列的手语翻译大致可以分为以下3类:
第一类将问题分解为两个阶段。例如,先利用连续手语识别方法来获得手语词汇,然后使用神经机器翻译模型来学习手语词汇到口语翻译句子。但是,这种方法以手语词汇表示中间过渡信息,引入信息瓶颈,因为翻译模型效果的上限只能与训练得到手语词汇注释的表现相当。
第二类方法侧重于从手语视频表示直接学习到无中间层表示的口语翻译。理论上,具备足够数量的数据集和足够复杂的网络体系结构,这些模型就可以实现端到端的神经手语翻译,而无须使用任何人工标注的注释类信息。然而,由于缺乏完全监督的方式来指导手语的深层次理解,这种方法在目前可用的低资源数据集上,表现性能明显低于其他方法。
第三类方法,也是最新提出的基于Transformer的端到端的方式联合训练。以手语识别模型辅助训练共享编码器,引入手语词汇级别的中间层监督,这有助于网络学习手语中更有意义的时间域和空间域的特征表示,但不会限制信息传递至自回归手语翻译Transformer解码器。尽管该方法在机器翻译模块上做出新的改进,但是在浅层的特征提取模块仍沿用之前的模式。
在当前的低数据资源条件下,手语翻译架构实际上很难通过深度网络挖掘出手语作为一门特殊的自然语言所具备的隐性的语义信息,因此性能普遍较差。一些研究工作已经初步提出,根据手语内在的语言学属性设计相应的手语翻译架构可能比直接使用通用的跨模态架构效果更显著。但是,以何种有效的信息以及以何种形式有效地融入到模型中还没有任何的参考工作。
发明内容
本发明的目的在于提供突破在低资源条件下手语的翻译瓶颈,能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型的一种基于知识的多模态特征融合的动态图神经手语翻译方法。
本发明包括以下步骤:
1)对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;
2)利用半监督的方式对手语进行分割,获取伪标签序列;
3)利用伪标签序列对齐图网络节点;
4)构造多模态图编码器,融合视觉特征和文本特征;
5)将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。
在步骤1)中,所述对视觉属性的特征和文本属性的特征分别进行抽象,表示成可供图神经网络使用的节点特征形式;所抽取的特征包括手语视觉语义特征和手语文本语义特征;手语视觉语义特征包括人体动作姿态、动作幅度、肢体位置关系、面部等全局特征;手语文本语义特征包括视频序列的专业文本注释。
在步骤2)中,所述利用半监督的方式对手语进行分割,是利用预训练的连续手语识别模型,获取视频序列和文本标签序列的对齐关系,并获取文本标签的特征。
在步骤4)中,所述构造多模态图编码器,融合视觉特征和文本特征的具体步骤为:1)通过接收来自同一模态内相邻的节点信息并利用自注意力机制聚合生成每个节点的上下文表示;2)利用跨模态门控机制对视觉模态和文本模态进行不同模态间的融合。
在步骤5)中,所述机器翻译模型基于多任务学习框架实现,分别进行连续手语识别和手语手语翻译的联合训练以提高低资源模型精度。
本发明的优点在于:
1)本发明首次引入图神经手语翻译模型的概念,在神经手语翻译模型的编码表示中引入除视觉信息之外的信息并以多模态的形式表示。利用图神经网络的构造方式,成功融合手语的多模态信息。先前的工作中,还没有将图网络的概念应用于手语翻译模型的先例。
2)本发明利用半监督的聚类算法实现手语分割,并将其首次应用于手语翻译任务。手语分割主要被用于映射多模态序列的对齐关系,辅助图网络构造和多模态特征融合。此外,在训练过程引入伪标签序列迭代对齐法,动态对齐视觉和文本序列,以迭代更新方式重新调整图结构。
3)本发明首次探索神经手语翻译任务中利用多模态输入信息以提高翻译性能的方法。该方法广泛适应于各种手语相关的自然语言处理和视觉任务中,具有较好的应用前景和应用价值。
附图说明
图1为多模态图中文本节点和视觉节点对齐样例示意图。
图2为伪标签序列获取过程以及各类型序列节点的关系示意图。
图3为图网络节点对齐的一个运行实例流程示意图。
图4为空间嵌入层和词嵌入层区分示意图。
图5为多模态图编码器结构示意图。
图6为基于多任务学习框架的机器翻译模块示意图。
图7为基于伪标签对齐的动态迭代联合训练过程示意图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
作为对输入特征提取模块的改进,在空间嵌入模块基础上,额外引入文本嵌入模块,以图网络的形式对齐序列并进行多模态信息融合。输入特征首先依次通过多模态嵌入模块和多模态图编码器模块,进行不同模态特征的计算和融合,然后馈送到基于多任务学习框架的机器翻译模块。多个Transformer模块以端对端方式联合训练。此外,还引入一种利用伪标签迭代对齐的模式来动态更新多模态图的构造,以进一步优化。若连续手语识别模块的参数获得更优的参数,重构多模态图。重构过程与初始化相同。具体步骤如下:
步骤1:定义多模态图
定义的图是无向的,可以形式化为G=(V,E),其构造如下:
在节点集合V中,每个节点代表一个文本词汇对象或一个视觉对象,其中,Vfi和Vgj分别表示视觉对象节点和文本对象节点。具体而言,采用以下策略来构造这两种节点:(1)将所有手语词汇序列的单词作为独立的文本节点,以便充分利用文本信息。例如,在图1中多模态图总共包含3个文本节点,每个节点对应于输入句子中的一个单词;(2)将所有视频帧对象作为独立的视觉节点,以便充分利用视觉信息。例如,图1多模态图总共包含8个视觉节点,每个节点对应于输入视频帧中的一帧。
为捕获用于模型的多模态语义单元之间的各种语义关系,考虑边集合E中的两种边关系:(1)同一模态中的任何两个节点通过模态内边相连,例如一个视觉(或文本)节点与另一个视觉(或文本)节点之间的关系;(2)每个表示任意手语词汇的文本节点和相应的视觉节点通过模态间边连接。如图1,可以观察到所有视觉对象的节点都相互连接以及所有文本对象的节点都完全连结。但是,仅节点Vf0和Vg0,Vf1和Vg0,Vf3和Vg1,Vf4和Vg1,Vf6和Vg3,Vf7和Vg3通过模态间边相互连接。但是,视觉节点和文本节点之间的对齐关系如何确定,即Vfi和Vgj的组关系无法直接确定,需要依靠其他方法来间接确定。在接下来的步骤,将通过实例和算法来详细介绍如何确定这种对齐关系。
步骤2:获取伪标签序列
连续手语识别模型是一种序列对齐任务,类似于语音识别的任务。连续手语识别模型通常由视觉特征模块和CTC模块顺序拼接而成。在该任务中,输入为连续手语视频帧序列,而输出为手语词汇序列。一个预训练的连续手语识别可以以较低的词错误率输出手语词汇序列,其中手语词汇序列长度通常远小于手语视频帧长度。这主要是依靠CTC层进行候选结果词汇的优化。例如,CTC会删除空格和重复词汇等。而在CTC层处理之前,可以通过一定的方法,获取输出手语词汇的原始序列(会额外多出一个表示空格的词汇)和输入视频帧之间的一一对应关系(原始序列长度等于视频帧长度),即一个视频帧会对应一个原始序列中的手语词汇。为区分连续手语识别模型训练过程所使用的手语词汇参考序列和多任务模型中的手语识别模块所使用的手语词汇参考序列,将由预训练连续手语识别模型得到的手语词汇序列称为“伪手语词汇序列”,而由预训练连续手语识别模型未经过CTC层处理得到的原始手语词汇序列则称之为“伪原始手语词汇序列”。
假设,输入端接收到具有N帧图像的视频帧源序列,其对应的视觉节点对象序列则记作Vf={Vf0,Vf1,...,Vfi,...,VfN}。通过加载预训练好的模型参数,若保留CTC层,可以直接获取实际使用的伪手语词汇的对齐序列,记作Vgctc={Vgctc0,Vgctc1,...,Vgctci,...,VgctcM},其中,M表示伪手语词汇序列的单词个数。
而为获取伪原始手语词汇序列特征(即未经过CTC层处理),需要移除CTC层。假设每个视频帧序列对应输出的伪原始手语词汇序列特征记作P={P0,P1,...,Pi,...,PN}(Pi∈{GLOSS-ID,PAD-ID}),其中,GLOSS-ID表示手语词汇在词汇表中的ID编号,PAD-ID表示空格对应的ID编号。若词汇表长度为L,则0到L-1表示词汇对应的ID,而L则表示PAD-ID值(PAD-ID实际上并不包括在词汇表内)。具体地,在实际操作中,首先获取馈送至CTC层之前的序列特征模块输出的向量数组,在数学上通常将称之为logit值。然后,使用softmax函数处理每个数组对应的logit数组,其数组中最大值对应的索引值即为伪原始手语词汇序列中词汇对应的编号。这个过程用公式表示为:
LOGITfi=CSLRw/oCTC(Vfi),
Pi=IndexMax(softxmax(LOGITfi)),
其中,连续手语识别w/oCTC(*)表示去除CTC层的连续手语识别模型,LOGITfi表示Vfi视觉节点得到的logit值;IndexMax(*)则表示获取logit最大值对应的索引值。
经过上述无监督步骤,即可通过Vf和预训练模型得到伪手语词汇序列Vgctc以及伪原始手语词汇序列P。作为区别,简单而言Vgctc是P经过CTC层处理得到的进一步优化序列,其中,P和Vf长度相等且一一对应,而Vgctc长度则相对小很多。最终的目标是获得视频帧序列Vf中的帧节点和原始手语词汇序列P中的词汇节点的对齐关系,记作AlignArr={A(Vg0),A(Vg1),...,A(Vgi),...,A(VgL)},其中,Vg是定义不同于Vgctc的文本节点序列,是由伪标签序列P进一步生成的序列,具体见于下一步骤介绍;A(Vgi)为二元数组,例如A(Vgi)={Vgi,Vfj}={Vfj,Pj}(i一般不等于j)表示Vfi与Pj之间存在图对齐关系;L表示二元数组总个数,一般而言,L会小于Vf帧数N。在假设的对应关系中,每个伪词汇节点Vgi必定有对应的某一个帧节点Vfj,而反之则不成立。此外,P和Vg是多对一关系,且P节点数一定大于或等于Vg节点数,其中,Vgi必对应于一个或多个P节点,而Pi节点未必有对应的Vg值。但截至当前步骤,还无法计算AlignArr数组具体关系。
如图2所示,表示获取伪原始词汇序列P和伪手语词汇序列Vgctc过程示意,以及Vf、Vg和P之间的对应关系。
步骤3:图网络节点对齐
基于上述步骤,已区分视频帧序列Vf,过渡序列即伪原始手语词汇序列P,以及对应的伪手语词汇序列Vg。以下将详细介绍如何基于P来计算Vf中的视觉节点对象和Vg中的文本节点对象的映射关系数组AlignArr,具体算法描述如下:
首先初始化一个计数器COUNT=-1,其值表示有效节点的分组索引值,然后有序遍历P中的所有元素,其中,Pi表示第i个P元素。i==0为特殊情况,默认规定此Pi为有效节点;在i>0的情况下,若Pi==PAD-ID,表示其为空格,则跳过Pi,表示此Pi为无效节点(无效节点没有分组索引值);若Pi!=PAD-ID且Pi!=Pi-1,则表示此Pi节点为有效节点,此时COUNT值自动增1,其值表示Pi的分组索引值,记作GPi;若Pi!=PAD-ID但Pi==Pi-1,则表示此Pi节点为有效节点,此时COUNT值保持不变,其值仍表示Pi的分组索引值。
遍历完P数组后,为方便描述,将分组GP值相同的相邻有效节点进行归并,得到新的节点序列Vg,并按顺序编号。例如Vgj对应于分组GP值为j的P节点,其中,Vgj所映射的Vf节点与对应的P节点所映射的Vf节点一致。最后,将Vg值与其映射的Vf值作为二元数组,添加至AlignArr数组中,即可得到所需的视觉-文本对齐关系组。例如,AlignArr[i]值为一个二元数组{Vg2,Vf3},则表示帧节点Vf3和词汇节点Vg2具有图连接的映射关系。该过程用公式大致表示为:
AlignArr=Alignment(Vf,P,PAD-ID)=Mapping(Vg,Vf).
在实际编程过程中,为提高代码效率,可直接以Vf和P的对应值作为二元数组,但本质仍相同。此外,为形象说明具体过程,如图3展示一个运行实例。
通过上述的节点序列对齐算法,进一步挖掘预训练的连续手语识别模型的深层语义信息,充分利用伪标签序列的内部节点的聚类关系,以半监督的形式实现手语分割,初步映射文本节点和视觉节点关系用于图连接和特征融合。
步骤4:多模态图初始化
神经机器翻译模型从源序列和目标序列的标记化开始,并通过词嵌入将它们映射到连续空间中。使用词嵌入的主要思想是将每个单词彼此等距的稀疏one-hot向量表示形式转换为更密集的形式,即具有相似含义的单词更接近。这些嵌入可以从头开始学习,也可以在较大的数据集上进行预训练,然后在训练过程中进行微调。但是,与文本相反,手语是视觉的。因此,除将词嵌入用于源序列的手语词汇序列和目标序列的口语翻译句子外,还需要学习空间嵌入向量来表示手语视频帧节点的特征。最初,神经手语翻译模型借助预训练的2D CNN来提取视频帧特征作为空间嵌入向量。后来发现使用比手语翻译更低级的模型(例如连续手语识别模型)的预训练卷积视觉模块,可以提取更加提取效果更卓越的特征向量,这也是在低资源环境下优化手语翻译的一个有效手段。为得到空间嵌入向量,基于预训练的连续手语识别模型来提取视频帧特征。
如图4所示,给定一个手语视频帧节点Vft,预训练卷积模块学会提取非线性帧级空间特征表示,这些操作步骤用公式表示为:
Ot=SpatialEmbedding(Vft)=CSLRCNN(Vft),
其中,Ot对应于通过CNN传播每张图像信息并提取视频帧节点Vft产生的特征向量。
而对于输入的伪手语词汇序列节点Vgu,使用一个全连接层作为词嵌入,将单词的one-hot向量特征表示线性映射到更密集的空间:
Xu=WordEmbedding(Vgu),
其中,Xu是口语单词节点Vgu嵌入特征表示。
通过上述的特征映射过程,视觉节点表示和文本节点表示被映射到相同的空间中。根据多模态特征节点和节点对应关系,则具备初始化多模态图的所有条件。之后,将多模态图馈送至多模态编码器以得到多模态嵌入层特征。
所述多模态编码器是基于类似于Transformer的自注意力机制设计的。与其他序列到序列模型不同,Transformer网络不使用递归或卷积,因此缺少序列内的位置信息。为解决这个问题,遵循位置编码(positional encoding,PE)方法,并将时序信息添加到嵌入向量表示中,如下所示:
Ot=Ot+PositionalEncoding(t),
Xu=Xu+PositionalEncoding(u),
其中,PositionalEncoding(*)是预定义的位置编码函数,该函数针对每个时间步生成相移正弦波形式的唯一向量。
步骤5:多模态图编码器
假设,每个文本节点vxi初始状态为
Figure BDA0003323909750000071
每个视觉节点voj的初始状态为
Figure BDA0003323909750000072
如图5所示,堆叠多模态融合层来对上述多模态图进行编码。在每个融合层,依次进行模态内和模态间融合以更新所有节点状态。利用这种方式,最终节点状态同时对相同模态内的上下文和跨模态语义信息进行编码。特别注意的是,由于视觉节点和文本节点是包含不同模态信息的两种语义单元,因此分别应用相似并不相同的参数来对其状态更新过程进行建模。
具体而言,在最初的融合层中,文本节点状态
Figure BDA0003323909750000073
的更新和视觉节点状态
Figure BDA0003323909750000074
的更新主要包括以下子步骤:
1)模态内融合。在这一步,通过接收来自同一模态内相邻的信息并利用自注意力机制来生成每个节点的上下文表示。形式上,所有文本节点的上下文表示
Figure BDA0003323909750000075
的计算如下:
Figure BDA0003323909750000081
其中,MultiHead(Q,K,V)是一个多头自注意力函数,其以query矩阵Q、key矩阵K和value矩阵V作为输入。同理,计算所有视觉节点的上下文表示
Figure BDA0003323909750000082
的生成如下:
Figure BDA0003323909750000083
需要说明的是,由于视觉节点对象的初始表示是从深度卷积网络中提取的,因此应用简化的多头自注意力机制来保留视觉对象的初始表示,但会移除学习到的线性映射和尾部的输出层。
2)模态间融合。受多模态特征融合研究的启发,应用按元素操作的跨模态门控机制来收集每个节点的跨模态相邻节点的语义信息。具体而言,通过以下方式生成一个文本节点vxi的表示形式
Figure BDA0003323909750000084
Figure BDA0003323909750000085
Figure BDA0003323909750000086
其中,A(vxi)是vxi的相邻视觉节点的集合,而W1 (l)
Figure BDA00033239097500000811
是参数矩阵。
同理,生成一个视觉节点voj的表示
Figure BDA00033239097500000812
表示为:
Figure BDA0003323909750000087
Figure BDA0003323909750000088
其中,A(voj)是voj的相邻文本节点的集合,并且
Figure BDA00033239097500000813
Figure BDA00033239097500000814
也是参数矩阵。
上述融合方法的优点是可以根据每个模态的上下文表示更好地确定模态间融合的程度。最后,采用位置前馈网络FFN(*)生成文本节点状态
Figure BDA00033239097500000815
和视觉节点状态
Figure BDA00033239097500000816
Figure BDA0003323909750000089
Figure BDA00033239097500000810
其中,
Figure BDA00033239097500000817
分别表示上述所有文本节点和视觉节点更新后的表示。
最后,将所得的多模态特征执行残差连接和标准化,即可得到多模态图嵌入层,其编码多模态融合特征,以便其后的机器翻译模块使用。
步骤6:基于多任务学习框架的机器翻译模块
将前一个模块得到的多模态嵌入层特征馈送至该模块,进行序列到序列的学习。在这个模块中,利用多任务学习方式,引入多个Transformer模块构成的手语模型进行联合训练。通常,多任务学习通过联合训练相关任务来学习更好的特征表示。在本实施例中,这两个任务都具有相同的输入特征,但是输出文本目标不同。图6展示基于多任务学习框架的机器翻译模块。其中一个任务为手语识别任务,该子模块学习将多模态手语特征识别成相应的手语词汇序列。另一个任务则为手语翻译任务,该子模块学习将多模态手语特征翻译成相应的口语翻译句子。具体模块功能如下:
1)手语识别模块
SLRT(手语识别Transformer)的目的是识别生成连续手语视频中的手语词汇序列,同时学习有意义的时空表示形式。使用手语识别作为中间层监督,以便网络更好地理解手语并学习到有意义的手语表示,从而辅助主要的手语翻译任务。
在训练此Transformer编码器模型过程中,利用所得的多模态图嵌入特征序列(记作MultiEmb)作为输入。SLRT的输入首先由Self-Attention层建模,该层学习多模态图特征表示之间的上下文关系,其输出被输入至非线性的逐点前馈神经层。在这之后进行残差连接和标准化操作,以帮助提升训练效果。将此编码过程表述为:
z=SLRT(MultiEmb),
其中,z表示多模态图嵌入特征的时空特征表示。
训练SLRT实际上是通过建模p(G|V)来预测手语词汇序列。由于手语的时空特性,尽管手语词汇与视频帧具有一对多的映射关系,但他们的先后顺序是一致的。一种训练SLRT的方法是使用带有帧级注释的交叉熵损失函数。但是,具有这种精度的手语词汇注释资源极少。另一种可替代的弱监督形式是使用序列到序列的学习损失函数,例如CTC损失函数。
给定时空表示特征z,使用线性映射层和softmax激活层,来获得帧级别的手语词汇的概率p(gt|V)。之后,通过边缘化所有可能的V到G的对齐,能够用CTC来计算条件概率p(G|V):
Figure BDA0003323909750000091
其中,π是路径,B是与G对应的所有可行路径的集合。
最后,使用p(G|V)计算连续手语识别的loss值:
LR=1-p(G*|V),
其中,G*是手语词汇的参考序列。
2)手语翻译模块
本发明最终目标是从手语视频表示中生成对应的口语句子。训练一个名为SLTT(手语翻译Transformer)的自回归Transformer解码器,其利用SLRT学习的时空表示形式作为上下文输入。
如图6所示,SLTT解码器类似于常规的Transformer解码器。解码器由多个完全相同的层堆叠而成。具体而言,前两个子层是和编码器层一样具备掩码的自注意力层,而第三个子层有所不同,是一个编码器-解码器注意力层。第三个子层会对编码器堆栈的输出执行多头注意操作。与编码器方法类似,在每个子层使用残差连接和标准化操作。
具体地,首先在目标口语句子S之前加上特殊的句子标记开头<bos>,随后提取具有位置编码的词嵌入。这些词嵌入被传递至具有掩码的Self-Attention层。尽管Self-Attention在SLTT与SLRT中体现的思想本质上一致,但SLTT在Self-Attention层使用掩码,这对于推断阶段是必要。这样可以避免SLTT在当前位置访问到后续位置的信息,确保某个时间步的预测只能依赖于小于该位置的已知输出。
从SLRT和SLTT的Self-Attention层提取的特征表示将一并提供给编码器-解码器注意力模块,该模块可以学习源序列到目标序列之间的映射。编码器-解码器注意力模块的输出随后通过非线性的前馈层传递。与SLRT类似,还需要进行残差连接和标准化操作。将此解码过程表述为:
hu+1=SLTT(MultiEmbu|MultiEmb,z).
SLTT能够学习一次生成一个单词,直到它生成特殊的结尾标记<eos>。通过将序列级别的条件概率p(S|V)分解为有序的条件概率来进行训练:
Figure BDA0003323909750000101
其用于计算每个单词的交叉熵损失为:
Figure BDA0003323909750000102
其中,
Figure BDA0003323909750000103
表示单词wd在解码步骤u时的真实参考概率,而D是目标语言的词汇表大小。
最后,通过最小化联合损失项L来更新网络参数,联合损失项L是手语识别模块的损失值LR和手语翻译模块的损失值LT的加权和:
L=λRLRTLT,
其中,λR和λT是决定训练过程中每个损失函数重要程度的权重超参数,具体数值评估方法可以参考实验章节。
步骤7:动态迭代对齐伪标签
在训练的过程中,会不断更新联合损失值进行反向调整,得到最新的模型参数。若在后期的训练过程,连续手语识别模块的参数获得更优的参数,即其评价指标优于初始化时对齐多模态序列所用的预训练连续手语识别模型,则使用最新连续手语识别模块生成新的伪手语词汇序列,重新计算生成为序列标签和视频帧序列的对齐关系,并对跨模态图就进行新一轮的重构。
为此,提出一种利用伪标签迭代对齐的更新策略,对图网络进行动态重构,如图7所示。整个图神经网络构造方法重复前述所提及的所有步骤。由于图网络构造的时间复杂度较大,在实际过程中可对更新条件进行一定的限制。

Claims (7)

1.一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于包括以下步骤:
1)对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;
2)利用半监督的方式对手语进行分割,获取伪标签序列;
3)利用伪标签序列对齐图网络节点;
4)构造多模态图编码器,融合视觉特征和文本特征;
5)将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。
2.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于在步骤1)中,所述对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点特征形式;所抽取的特征包括手语视觉语义特征和手语文本语义特征。
3.如权利要求2所述一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于所述手语视觉语义特征包括人体动作姿态、动作幅度、肢体位置关系、面部特征。
4.如权利要求2所述一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于所述手语文本语义特征包括视频序列的专业文本注释。
5.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于在步骤2)中,所述利用半监督的方式对手语进行分割,是利用预训练的连续手语识别模型,获取视频序列和文本标签序列的对齐关系,并获取文本标签的特征。
6.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于在步骤4)中,所述构造多模态图编码器,融合视觉特征和文本特征的具体步骤为:1)通过接收来自同一模态内相邻的节点信息并利用自注意力机制聚合生成每个节点的上下文表示;2)利用跨模态门控机制对视觉模态和文本模态进行不同模态间的融合。
7.如权利要求1所述一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于在步骤5)中,所述机器翻译模型基于多任务学习框架实现,分别进行连续手语识别和手语手语翻译的联合训练以提高低资源模型精度。
CN202111255321.2A 2021-10-27 2021-10-27 一种基于知识的多模态特征融合的动态图神经手语翻译方法 Pending CN113971837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111255321.2A CN113971837A (zh) 2021-10-27 2021-10-27 一种基于知识的多模态特征融合的动态图神经手语翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255321.2A CN113971837A (zh) 2021-10-27 2021-10-27 一种基于知识的多模态特征融合的动态图神经手语翻译方法

Publications (1)

Publication Number Publication Date
CN113971837A true CN113971837A (zh) 2022-01-25

Family

ID=79588682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255321.2A Pending CN113971837A (zh) 2021-10-27 2021-10-27 一种基于知识的多模态特征融合的动态图神经手语翻译方法

Country Status (1)

Country Link
CN (1) CN113971837A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
WO2023197949A1 (zh) * 2022-04-15 2023-10-19 华为技术有限公司 汉语翻译的方法和电子设备
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117474019A (zh) * 2023-12-27 2024-01-30 天津大学 一种视觉引导的目标端未来语境翻译方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
WO2021184769A1 (zh) * 2020-03-17 2021-09-23 江苏省舜禹信息技术有限公司 神经网络文本翻译模型的运行方法、装置、设备、及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184769A1 (zh) * 2020-03-17 2021-09-23 江苏省舜禹信息技术有限公司 神经网络文本翻译模型的运行方法、装置、设备、及介质
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李霞;马骏腾;覃世豪;: "融合图像注意力的多模态机器翻译模型", 中文信息学报, no. 07, 15 July 2020 (2020-07-15), pages 72 - 82 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197949A1 (zh) * 2022-04-15 2023-10-19 华为技术有限公司 汉语翻译的方法和电子设备
CN115983280A (zh) * 2023-01-31 2023-04-18 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN115983280B (zh) * 2023-01-31 2023-08-15 烟台大学 面向不确定模态缺失的多模态情感分析方法及系统
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117034965B (zh) * 2023-08-08 2024-03-22 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117474019A (zh) * 2023-12-27 2024-01-30 天津大学 一种视觉引导的目标端未来语境翻译方法
CN117474019B (zh) * 2023-12-27 2024-05-24 天津大学 一种视觉引导的目标端未来语境翻译方法

Similar Documents

Publication Publication Date Title
CN113971837A (zh) 一种基于知识的多模态特征融合的动态图神经手语翻译方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111160008A (zh) 一种实体关系联合抽取方法及系统
CN113128229A (zh) 一种中文实体关系联合抽取方法
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN112733768A (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN112989835A (zh) 一种复杂医疗实体抽取方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114357124A (zh) 一种基于语言重建和图机制的视频段落定位方法
CN113297374B (zh) 一种基于bert和字词特征融合的文本分类方法
CN111104797B (zh) 一种基于对偶的序列到序列生成的论文网络表示学习方法
CN117292146A (zh) 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法
CN117496388A (zh) 基于动态记忆网络的跨模态视频描述模型
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN113010662B (zh) 一种层次化会话式机器阅读理解系统和方法
CN115114930A (zh) 一种基于序列到森林的非连续实体识别方法
CN114298052A (zh) 一种基于概率图的实体联合标注关系抽取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination