CN113065496B - 神经网络机器翻译模型训练方法、机器翻译方法和装置 - Google Patents

神经网络机器翻译模型训练方法、机器翻译方法和装置 Download PDF

Info

Publication number
CN113065496B
CN113065496B CN202110395391.1A CN202110395391A CN113065496B CN 113065496 B CN113065496 B CN 113065496B CN 202110395391 A CN202110395391 A CN 202110395391A CN 113065496 B CN113065496 B CN 113065496B
Authority
CN
China
Prior art keywords
vector sequence
text
machine translation
video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110395391.1A
Other languages
English (en)
Other versions
CN113065496A (zh
Inventor
曹达
陈诗雨
曾雅文
章成源
陆邵飞
荣辉桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110395391.1A priority Critical patent/CN113065496B/zh
Publication of CN113065496A publication Critical patent/CN113065496A/zh
Application granted granted Critical
Publication of CN113065496B publication Critical patent/CN113065496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种神经网络机器翻译模型训练方法、机器翻译方法和装置。所述神经网络机器翻译模型训练方法通过从训练视频中提取场景视觉图,再根据场景视觉图得到细腻度更高的视频特征向量序列,再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列,然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列,最后根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。

Description

神经网络机器翻译模型训练方法、机器翻译方法和装置
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种神经网络机器翻译模型训练方法、机器翻译方法和装置。
背景技术
在5G的快节奏生活下,人们往往会使用一则视频和一段简短的文字来记录自己的生活。我们以抖音(TikTok)为例,应用数据公司Sensor Tower的最新数据显示,TikTok全球下载量突破20亿人次。这不仅表示喜爱视频的人之多,同样也足以显示(短)视频全球化这一趋势。所以将视频信息作为机器翻译中文本的辅助信息,将在一定程度上顺应大时代的发展。具体来说,这个任务需要在理解源语言以生成适当的目标语言的同时,还需要从视频中学习到丰富而复杂的视觉信息。这不仅是具有较高学术研究价值的新兴多媒体研究领域,还存在一定的潜在实际应用场景,例如,在像TikTok以及微博等类似的社交媒体平台中翻译带有视频内容的帖子。
现有的大部分视频引导的机器翻译都是使用循环神经网络(Recurrent NeuralNetwork,RNN)作为其主要架构,在序列到序列范式下捕获时间依赖性。为了更好地利用视觉辅助信息,现有技术在整体视频特征上使用了注意力网络,来探索视频内部的潜在特征,然后再将两种模态的信息拼接喂入解码器中。与单独解码视频特征和源语言句子特征不同的是,有的研究人员利用注意机制对视觉特征和文本特征进行融合,使之在喂入解码器中时,是一个融合特征向量。此外,也有利用视频中的帧信息进一步提取视觉上的特征,例如通过非重叠帧来获取其图像模态和运动模态,或通过关键帧来加深对其外观特征和动作特征的理解,以此来生成更加有效的视频特征表示。然而,这些方法都是在处理全局的视觉特征,全局视觉特征几乎不包含更细节的视觉特征,并且它们无法将视觉信息与句子中的单词相对应。此外,由于关键帧或不重叠帧会丢失视频中的连续或潜在的视觉信息(例如对象的连续运动或不断发展的对象关系),因此它在表现上仍然停滞不前。
发明内容
本发明的目的在于提供一种神经网络机器翻译模型训练方法,能够提升神经网络机器翻译模型对视频引导的机器翻译的精度。
本发明的目的还在于提供一种机器翻译方法,能够提升对视频引导的机器翻译的精度。
本发明的目的还在于提供一种机器翻译装置,能够提升对视频引导的机器翻译的精度。
为实现上述目的,本发明提供一种神经网络机器翻译模型训练方法,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列;
步骤S2、从训练视频中提取多个画面帧,构建与所述多个画面帧分别对应多个场景视觉图,每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系;
步骤S3、将多个场景视觉图转换为图特征向量序列;
步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中;
步骤S5、所述神经网络机器翻译模型对图特征向量序列、训练文本向量序列及标准文本向量序列进行注意力编码,得到视频特征向量序列、第一文本特征向量序列和第二文本特征向量序列;
步骤S6、所述神经网络机器翻译模型对图特征向量序列和第一文本特征向量序列进行跨模态注意力融合,得到视频引导的第一文本特征向量序列;
步骤S7、所述神经网络机器翻译模型根据视频引导的第一文本特征向量序列和第二文本特征向量序列解码生成预测文本向量序列;
步骤S8、根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练。
具体地,所述步骤S2具体包括:
步骤S21、以预设帧率提取训练视频中的多个画面帧;
步骤S22、识别每一画面帧中的目标对象及目标对象标签,并将每一画面帧中的目标对象与目标对象标签进行拼接,共同构成该画面帧待构建的场景视觉图的顶点;
步骤S23、捕获每一画面帧中的目标对象之间的视觉关系,以此构成该画面帧待构建的场景视觉图的边,进而得到分别对应所述多个画面帧的多个场景视觉图。
具体地,所述步骤S3具体包括:
步骤S31、将所述多个场景视觉图转换为多个图特征向量;
步骤S32、在所述多个图特征向量中加入位置编码,得到图特征向量序列。
具体地,所述步骤S31具体包括:
步骤S311、通过多层空间图卷积处理将各个视觉场景图转换为对应的视觉特征向量;
步骤S312、使用平均运算聚合每一视觉特征向量中的顶点特征,进而得到分别对应多个场景视觉图的多个图特征向量。
具体地,所述步骤S5具体包括:
步骤S51、对所述图特征向量序列依次进行多头自注意力处理及层归一化处理,得到视频特征向量序列;
步骤S52、对所述训练文本向量序列依次进行多头自注意力处理及层归一化处理,得到第一文本过渡向量序列,对第一文本过渡向量序列进行全连接前馈网络处理及层归一化处理,得到第一文本特征向量序列;
步骤S53、对所述标准文本向量序列依次进行多头自注意力处理及层归一化处理,得到第二文本特征向量序列。
具体地,,所述步骤S6具体包括:
步骤S61、根据视频特征向量序列和第一文本特征向量序列计算注意力权重;
步骤S62、依据注意力权重对视频特征向量序列和第一文本特征向量序列进行注意力融合处理及层归一化处理,得到视频引导的第一文本特征向量序列。
具体地,所述步骤S7具体包括:
步骤S71、对视频引导的第一文本特征向量序列和第二文本特征向量序列进行多头注意力融合及层归一化处理,得到融合特征过渡向量序列;
步骤S72、对融合特征过渡向量序列依次进行全连接前馈网络处理、层归一化处理、线性变换及Softmax变换,得到预测文本向量序列。
本发明还提供一种机器翻译方法,包括如下步骤:
步骤S10、获取待翻译的源语言文本及其对应的视频;
步骤S20、将所述待翻译的视频及该视频对应的源语言文本输入神经网络机器翻译模型,得到所述待翻译的源语言文本对应的翻译文本,所述神经网络机器翻译模型通过上述的神经网络机器翻译模型训练方法训练得到;
步骤S30、显示翻译结果。
本发明还提供一种机器翻译装置,包括:
获取模块,用于待翻译的源语言文本及其对应的视频;
翻译模块,用于通过神经网络机器翻译模型获得所述待翻译的源语言文本对应的翻译文本,所述神经网络机器翻译模型根据上述的神经网络机器翻译模型训练方法训练得到的;
显示模块,用于显示所述翻译文本。
本发明的有益效果:本发明提供一种神经网络机器翻译模型训练方法,通过从训练视频中提取场景视觉图,再根据场景视觉图得到细腻度更高的视频特征向量序列,再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列,然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列,最后根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。本发明还提供一种机器翻译方法及装置,能够提升对视频引导的机器翻译的精度。
附图说明
为了能更进一步了解本发明的特征以及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
附图中,
图1为本发明的神经网络机器翻译模型训练方法的流程图;
图2为本发明的神经网络机器翻译模型训练方法中的神经网络机器翻译模型的基本架构图;
图3为本发明的神经网络机器翻译模型训练方法中的神经网络机器翻译模型的详细架构图;
图4为本发明的神经网络机器翻译模型训练方法的步骤S2至步骤S3的示意图;
图5为本发明的机器翻译方法的流程图;
图6为本发明的机器翻译装置的示意图。
具体实施方式
为更进一步阐述本发明所采取的技术手段及其效果,以下结合本发明的优选实施例及其附图进行详细描述。
请参阅图1,本发明提供一种神经网络机器翻译模型训练方法,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列。
具体地,所述步骤S1具体包括:
获取样本集,所述样本集包括源语言文本、与源语言文本对应的训练视频、及与源语言文本对应的目标语言文本;
通过嵌入算法将源语言文本及目标语言文本转换为向量;
接着在转换得到的向量中加入位置编码,得到源语言文本对应的训练文本向量序列以及目标语言文本对应的标准文本向量序列;
进而得到包括训练视频、训练文本向量序列及标准文本向量序列的训练样本集。
步骤S2、从训练视频中提取多个画面帧,构建与所述多个画面帧分别对应多个场景视觉图,每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系。
具体地,所述步骤S2具体包括:
步骤S21、以预设帧率提取训练视频中的多个画面帧;
步骤S22、识别每一画面帧中的目标对象及目标对象标签,并将每一画面帧中的目标对象与目标对象标签进行拼接,共同构成该画面帧待构建的场景视觉图的顶点;
步骤S23、捕获每一画面帧中的目标对象之间的视觉关系,以此构成该画面帧待构建的场景视觉图的边,进而得到分别对应所述多个画面帧的多个场景视觉图。
例如,在本发明的一些实施例中,所述步骤S2具体可以包括如下步骤:
使用ffmpeg工具将训练视频转换为一个10s的片段,并使用3.2的帧率来提取片段中的多个画面帧;
使用Mask-R-CNN工具识别各个画面帧中的目标对象以及目标对象标签;
对目标对象以及该目标对象标签进行拼接,共同构成待构建的场景-视觉图中的顶点,如图4所示,图4中的“吸尘器头”即为一个目标对象标签、“吸尘器头”旁的实心点即代表一个目标对象,“吸尘器头”及“吸尘器头”旁的实心点共同组成了场景-视觉图中的一个顶点;
使用场景图的生成器来捕获各个目标对象之间的关系,以此来构成场景-视觉图中的边,如图4所示,图4中两个实心点之间的连线即为场景-视觉图中的边,进而完成场景视觉图的构建。
其中,构建的场景视觉图可以用
Figure BDA0003018344930000061
来表示,其中
Figure BDA0003018344930000062
即表示第1个画面帧对应的场景视觉图,
Figure BDA0003018344930000063
即表示第2个画面帧对应的场景视觉图,
Figure BDA0003018344930000064
即表示第f个画面帧对应的场景视觉图,以此类推;
此外,目标对象、目标对象标签及各个目标对象之间的关系可以通过如下的五元组进行表示:
Figure BDA0003018344930000065
其中a,b∈{1,2,...,k},k为第f个画面帧中的目标对象个数,
Figure BDA0003018344930000071
Figure BDA0003018344930000072
表示第f个画面帧中的第a个和第b个目标对象,
Figure BDA0003018344930000073
Figure BDA0003018344930000074
表示第f个画面帧中的第a个和第b个目标对象对应的目标对象标签,
Figure BDA0003018344930000075
表示第f个画面帧中的第a个和第b个目标对象之间的关系。
步骤S3、将多个场景视觉图转换为图特征向量序列;
具体地,所述步骤S3具体包括:
步骤S31、将所述多个场景视觉图转换为多个图特征向量;
步骤S32、在所述多个图特征向量中加入位置编码,得到图特征向量序列。
进一步地,所述步骤S31具体包括:
步骤S311、通过多层空间图卷积处理将各个视觉场景图转换为对应的视觉特征向量;
步骤S312、使用平均运算聚合每一视觉特征向量中的顶点特征,进而得到分别对应多个场景视觉图的多个图特征向量。
在本发明的一些实施例中,所述步骤S3进一步包括:
首先,利用多个空间图卷积层将各个视觉场景图转换为视觉特征向量,具体处理公式如下:
Figure BDA0003018344930000076
其中,Wj (l)表示第j个场景视觉图在第l个空间图卷积层中的权重矩阵,
Figure BDA0003018344930000077
Figure BDA0003018344930000078
分别表示第j个场景视觉图中的带有自环的度矩阵和邻接矩阵,σ表示sigmoid函数,
Figure BDA0003018344930000079
表示第j个场景视觉图在第l个空间图卷积层中的视觉特征向量;
接着,使用平均运算聚合每一视觉特征向量中的顶点特征,进而得到分别对应多个场景视觉图的多个图特征向量,具体公式如下:
Figure BDA00030183449300000710
其中,k表示第j个场景视觉图中的顶点数量,
Figure BDA0003018344930000081
表示第j个场景视觉图中的第i个顶点特征,
Figure BDA0003018344930000082
表示第j个场景视觉图的图特征向量;
最后,在所述多个图特征向量中加入位置编码,得到图特征向量序列,具体公式如下:
Figure BDA0003018344930000083
其中,positionalE表示位置编码,
Figure BDA0003018344930000084
表示将f个图特征向量组合到一起,Hv表示图特征向量序列,i、j、f、k及l均为正整数;
步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中。
具体地,如图2所示,在本发明的一些实施例中,所述神经网络机器翻译模型与场景视觉图构建模块1相连,所述神经网络机器翻译模型包括:视频编码模块2、跨模态融合模块3、文本编码模块4、解码模块5及生成模块6;
其中,场景视觉图构建模块1与视频编码模块2相连,视频编码模块2与跨模态融合模块3相连,文本编码模块4与所述跨模态融合模块3相连,跨模态融合模块3与解码模块5相连,解码模块5与生成模块6相连。
进一步地,如图3所示,在本发明的一些实施例中,所述视频编码模块2进一步包括多个级联的视频编码子层,每一视频编码子层均包括依次连接的多头注意力网络以及残差&归一化层;所述文本编码模块4包括多个级联的文本编码子层,每一文本编码子层均包括依次连接多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层;所述跨模态融合模块3包括多个级联的融合子层,每一融合子层均包括依次连接的多头注意力网络以及残差&归一化层;所述解码模块5包括多个级联的解码子层,每一解码子层均包括依次连接的多头注意力网络、残差&归一化层、多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层;所述生成模块6包括:依次连接线性层及softmax变换层。
步骤S5、所述神经网络机器翻译模型对图特征向量序列、训练文本向量序列及标准文本向量序列进行注意力编码,得到视频特征向量序列、第一文本特征向量序列和第二文本特征向量序列;
所述步骤S5具体包括:
步骤S51、对所述图特征向量序列依次进行多头自注意力处理及层归一化处理,得到视频特征向量序列;
其中,所述步骤S51通过视频编码模块2完成,具体公式如下:
Figure BDA0003018344930000091
其中,LNn表示层归一化处理,self_attnn表示多头自注意力处理,V表示视频特征向量序列,其中
Figure BDA0003018344930000092
Figure BDA0003018344930000093
表示对图特征向量序列进行编码时可训练的参数矩阵。
步骤S52、对所述训练文本向量序列依次进行多头自注意力处理及层归一化处理,得到第一文本过渡向量序列,对第一文本过渡向量序列进行全连接前馈网络处理及层归一化处理,得到第一文本特征向量序列;
其中,所述步骤S52通过文本编码模块4完成。
步骤S53、对所述标准文本向量序列依次进行多头自注意力处理及层归一化处理,得到第二文本特征向量序列;
其中,步骤S53,通过解码模块5完成,具体公式如下:
Figure BDA0003018344930000094
其中,
Figure BDA0003018344930000095
表示第二文本特征向量序列,Zt表示标准文本向量序列,
Figure BDA0003018344930000096
Figure BDA0003018344930000097
表示对标准文本向量序列进行注意力编码时可训练的参数矩阵。
步骤S6、所述神经网络机器翻译模型对图特征向量序列和第一文本特征向量序列进行跨模态注意力融合,得到视频引导的第一文本特征向量序列;
具体地,所述步骤S6具体包括:
步骤S61、根据视频特征向量序列和第一文本特征向量序列计算注意力权重;
步骤S62、依据注意力权重对视频特征向量序列和第一文本特征向量序列进行注意力融合处理及层归一化处理,得到视频引导的第一文本特征向量序列。
其中,所述步骤S6通过跨模态融合模块3完成,具体公式如下:
Zx,v=Concat(h_1,h_2,...,h_h)WO
Figure BDA0003018344930000101
Figure BDA0003018344930000102
其中,h_m表示第m个注意力层输出的拼接权重,Zx,v表示视频特征向量序列和第一文本特征向量序列经过多头注意力拼接之后的融合向量序列,dk表示维度常数,softmax表示softmax函数,concat表示concat函数、
Figure BDA0003018344930000103
表示视频引导的第一文本特征向量序列,X表示第一文本特征向量序列,
Figure BDA0003018344930000104
Figure BDA0003018344930000105
和WO表示对视频特征向量序列和第一文本特征向量序列进行跨模态融合时的可训练的参数矩阵,m为正整数。
步骤S7、所述神经网络机器翻译模型根据视频引导的第一文本特征向量序列和第二文本特征向量序列解码生成预测文本向量序列。
具体地,所述步骤S7具体包括:
步骤S71、对视频引导的第一文本特征向量序列和第二文本特征向量序列进行多头注意力融合及层归一化处理,得到融合特征过渡向量序列;
步骤S72、对融合特征过渡向量序列依次进行全连接前馈网络处理、层归一化处理、线性变换及Softmax变换,得到预测文本向量序列。
其中,所述步骤S71的具体公式如下:
Figure BDA0003018344930000106
其中,
Figure BDA0003018344930000107
表示视频引导的第一文本特征向量序列和第二文本特征向量序列经过多头注意力融合得到的融合特征过渡向量序列,multi_attnn表示多头注意力融合处理,
Figure BDA0003018344930000108
Figure BDA0003018344930000109
表示对视频引导的第一文本特征向量序列和第二文本特征向量序列进行多头注意力融合时可训练的参数矩阵。
步骤S8、根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练。
从而,本发明通过从训练视频中提取场景视觉图,再根据场景视觉图得到细腻度更高的视频特征向量序列,再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列,然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列,最后根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。
进一步地,如图5所示,本发明还提供一种机器翻译方法,其特征在于,包括如下步骤:
步骤S10、获取待翻译的源语言文本及其对应的视频;
步骤S20、将所述待翻译的视频及该视频对应的源语言文本输入神经网络机器翻译模型,得到所述待翻译的源语言文本对应的翻译文本,所述神经网络机器翻译模型通过上述的方法训练得到;
步骤S30、显示翻译结果。
此外,如图6所示,本发明还提供一种机器翻译装置,包括:
获取模块100,用于获取待翻译的源语言文本及其对应的视频;
翻译模块200,用于通过神经网络机器翻译模型获得所述待翻译的源语言文本对应的翻译文本,所述神经网络机器翻译模型根据上述的方法训练得到的;
显示模块300,用于显示所述翻译文本。
综上所述,本发明提供一种神经网络机器翻译模型训练方法,通过从训练视频中提取场景视觉图,再根据场景视觉图得到细腻度更高的视频特征向量序列,再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列,然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列,最后根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。本发明还提供一种机器翻译方法及装置,能够提升对视频引导的机器翻译的精度。本发明还提供一种计算机设备,能够提升对视频引导的机器翻译的精度。
以上所述,对于本领域的普通技术人员来说,可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims (6)

1.一种神经网络机器翻译模型训练方法,其特征在于,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列;
步骤S2、从训练视频中提取多个画面帧,构建与所述多个画面帧分别对应多个场景视觉图,每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系;
步骤S3、将多个场景视觉图转换为图特征向量序列;
步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中;
步骤S5、所述神经网络机器翻译模型对图特征向量序列、训练文本向量序列及标准文本向量序列进行注意力编码,得到视频特征向量序列、第一文本特征向量序列和第二文本特征向量序列;
步骤S6、所述神经网络机器翻译模型对图特征向量序列和第一文本特征向量序列进行跨模态注意力融合,得到视频引导的第一文本特征向量序列;
步骤S7、所述神经网络机器翻译模型根据视频引导的第一文本特征向量序列和第二文本特征向量序列解码生成预测文本向量序列;
步骤S8、根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练;
所述步骤S2具体包括:
步骤S21、以预设帧率提取训练视频中的多个画面帧;
步骤S22、识别每一画面帧中的目标对象及目标对象标签,并将每一画面帧中的目标对象与目标对象标签进行拼接,共同构成该画面帧待构建的场景视觉图的顶点;
步骤S23、捕获每一画面帧中的目标对象之间的视觉关系,以此构成该画面帧待构建的场景视觉图的边,进而得到分别对应所述多个画面帧的多个场景视觉图;
所述步骤S3具体包括:
步骤S31、将所述多个场景视觉图转换为多个图特征向量;
步骤S32、在所述多个图特征向量中加入位置编码,得到图特征向量序列;
所述步骤S31具体包括:
步骤S311、通过多层空间图卷积处理将各个视觉场景图转换为对应的视觉特征向量;
步骤S312、使用平均运算聚合每一视觉特征向量中的顶点特征,进而得到分别对应多个场景视觉图的多个图特征向量。
2.如权利要求1所述的神经网络机器翻译模型训练方法,其特征在于,所述步骤S5具体包括:
步骤S51、对所述图特征向量序列依次进行多头自注意力处理及层归一化处理,得到视频特征向量序列;
步骤S52、对所述训练文本向量序列依次进行多头自注意力处理及层归一化处理,得到第一文本过渡向量序列,对第一文本过渡向量序列进行全连接前馈网络处理及层归一化处理,得到第一文本特征向量序列;
步骤S53、对所述标准文本向量序列依次进行多头自注意力处理及层归一化处理,得到第二文本特征向量序列。
3.如权利要求1所述的神经网络机器翻译模型训练方法,其特征在于,所述步骤S6具体包括:
步骤S61、根据视频特征向量序列和第一文本特征向量序列计算注意力权重;
步骤S62、依据注意力权重对视频特征向量序列和第一文本特征向量序列进行注意力融合处理及层归一化处理,得到视频引导的第一文本特征向量序列。
4.如权利要求1所述的神经网络机器翻译模型训练方法,其特征在于,所述步骤S7具体包括:
步骤S71、对视频引导的第一文本特征向量序列和第二文本特征向量序列进行多头注意力融合及层归一化处理,得到融合特征过渡向量序列;
步骤S72、对融合特征过渡向量序列依次进行全连接前馈网络处理、层归一化处理、线性变换及Softmax变换,得到预测文本向量序列。
5.一种机器翻译方法,其特征在于,包括如下步骤:
步骤S10、获取待翻译的源语言文本及其对应的视频;
步骤S20、将待翻译的源语言文本及其对应的视频输入神经网络机器翻译模型,得到所述待翻译的源语言文本对应的翻译文本,所述神经网络机器翻译模型通过如权利要求1至4任一项所述的方法训练得到;
步骤S30、显示翻译结果。
6.一种机器翻译装置,其特征在于,包括:
获取模块,用于获取待翻译的源语言文本及其对应的视频;
翻译模块,用于通过神经网络机器翻译模型获得所述待翻译的源语言文本对应的翻译文本,所述神经网络机器翻译模型通过如权利要求1至4任一项所述的方法训练得到的;
显示模块,用于显示所述翻译文本。
CN202110395391.1A 2021-04-13 2021-04-13 神经网络机器翻译模型训练方法、机器翻译方法和装置 Active CN113065496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110395391.1A CN113065496B (zh) 2021-04-13 2021-04-13 神经网络机器翻译模型训练方法、机器翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110395391.1A CN113065496B (zh) 2021-04-13 2021-04-13 神经网络机器翻译模型训练方法、机器翻译方法和装置

Publications (2)

Publication Number Publication Date
CN113065496A CN113065496A (zh) 2021-07-02
CN113065496B true CN113065496B (zh) 2022-06-28

Family

ID=76566683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110395391.1A Active CN113065496B (zh) 2021-04-13 2021-04-13 神经网络机器翻译模型训练方法、机器翻译方法和装置

Country Status (1)

Country Link
CN (1) CN113065496B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901846B (zh) * 2021-09-15 2024-05-24 昆明理工大学 基于时空注意力的视频引导机器翻译方法
CN114334068B (zh) * 2021-11-15 2022-11-01 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) 一种放射学报告生成方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
On Leveraging the Visual Modality for Neural Machine Translation;Vikas Raunak et al.;《Proceedings of The 12th International Conference on Natural Language Generation》;20191231;第147-151页 *
融合覆盖机制的多模态神经机器翻译;李志峰等;《中文信息学报》;20200315(第03期);全文 *

Also Published As

Publication number Publication date
CN113065496A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN111325323A (zh) 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN113065496B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
Rothfuss et al. Deep episodic memory: Encoding, recalling, and predicting episodic experiences for robot action execution
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
US20230290234A1 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN110007754B (zh) 手与物体交互过程的实时重建方法及装置
Lin et al. Motion-aware feature enhancement network for video prediction
CN115659279A (zh) 一种基于图文交互的多模态数据融合方法
Parelli et al. Spatio-temporal graph convolutional networks for continuous sign language recognition
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN115188066A (zh) 基于协同注意力和多尺度融合的运动目标检测系统及方法
Huang et al. Joint representation learning for text and 3D point cloud
Zhou et al. RISTRA: Recursive Image Super-resolution Transformer with Relativistic Assessment
CN113435216A (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
Robert The Role of Deep Learning in Computer Vision
CN113343966A (zh) 一种红外与可见光图像文本描述生成方法
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN111753670A (zh) 注意力修复和关键点检测迭代协同的人脸超分方法
CN113628107B (zh) 人脸图像超分辨率方法和系统
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant