CN113065496B

CN113065496B - 神经网络机器翻译模型训练方法、机器翻译方法和装置

Info

Publication number: CN113065496B
Application number: CN202110395391.1A
Authority: CN
Inventors: 曹达; 陈诗雨; 曾雅文; 章成源; 陆邵飞; 荣辉桂
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-06-28
Anticipated expiration: 2041-04-13
Also published as: CN113065496A

Abstract

本发明提供一种神经网络机器翻译模型训练方法、机器翻译方法和装置。所述神经网络机器翻译模型训练方法通过从训练视频中提取场景视觉图，再根据场景视觉图得到细腻度更高的视频特征向量序列，再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列，然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列，最后根据预测文本向量序列与标准文本特征向量序列的比对结果，对所述神经网络机器翻译模型的模型参数进行迭代调整，直到满足收敛条件，完成所述神经网络机器翻译模型的训练，能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。

Description

神经网络机器翻译模型训练方法、机器翻译方法和装置

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种神经网络机器翻译模型训练方法、机器翻译方法和装置。

背景技术

在5G的快节奏生活下，人们往往会使用一则视频和一段简短的文字来记录自己的生活。我们以抖音(TikTok)为例，应用数据公司Sensor Tower的最新数据显示，TikTok全球下载量突破20亿人次。这不仅表示喜爱视频的人之多，同样也足以显示(短)视频全球化这一趋势。所以将视频信息作为机器翻译中文本的辅助信息，将在一定程度上顺应大时代的发展。具体来说，这个任务需要在理解源语言以生成适当的目标语言的同时，还需要从视频中学习到丰富而复杂的视觉信息。这不仅是具有较高学术研究价值的新兴多媒体研究领域，还存在一定的潜在实际应用场景，例如，在像TikTok以及微博等类似的社交媒体平台中翻译带有视频内容的帖子。

现有的大部分视频引导的机器翻译都是使用循环神经网络(Recurrent NeuralNetwork，RNN)作为其主要架构，在序列到序列范式下捕获时间依赖性。为了更好地利用视觉辅助信息，现有技术在整体视频特征上使用了注意力网络，来探索视频内部的潜在特征，然后再将两种模态的信息拼接喂入解码器中。与单独解码视频特征和源语言句子特征不同的是，有的研究人员利用注意机制对视觉特征和文本特征进行融合，使之在喂入解码器中时，是一个融合特征向量。此外，也有利用视频中的帧信息进一步提取视觉上的特征，例如通过非重叠帧来获取其图像模态和运动模态，或通过关键帧来加深对其外观特征和动作特征的理解，以此来生成更加有效的视频特征表示。然而，这些方法都是在处理全局的视觉特征，全局视觉特征几乎不包含更细节的视觉特征，并且它们无法将视觉信息与句子中的单词相对应。此外，由于关键帧或不重叠帧会丢失视频中的连续或潜在的视觉信息(例如对象的连续运动或不断发展的对象关系)，因此它在表现上仍然停滞不前。

发明内容

本发明的目的在于提供一种神经网络机器翻译模型训练方法，能够提升神经网络机器翻译模型对视频引导的机器翻译的精度。

本发明的目的还在于提供一种机器翻译方法，能够提升对视频引导的机器翻译的精度。

本发明的目的还在于提供一种机器翻译装置，能够提升对视频引导的机器翻译的精度。

为实现上述目的，本发明提供一种神经网络机器翻译模型训练方法，包括如下步骤：

步骤S1、获取训练样本集，所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列；

步骤S2、从训练视频中提取多个画面帧，构建与所述多个画面帧分别对应多个场景视觉图，每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系；

步骤S3、将多个场景视觉图转换为图特征向量序列；

步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中；

步骤S5、所述神经网络机器翻译模型对图特征向量序列、训练文本向量序列及标准文本向量序列进行注意力编码，得到视频特征向量序列、第一文本特征向量序列和第二文本特征向量序列；

步骤S6、所述神经网络机器翻译模型对图特征向量序列和第一文本特征向量序列进行跨模态注意力融合，得到视频引导的第一文本特征向量序列；

步骤S7、所述神经网络机器翻译模型根据视频引导的第一文本特征向量序列和第二文本特征向量序列解码生成预测文本向量序列；

步骤S8、根据预测文本向量序列与标准文本特征向量序列的比对结果，对所述神经网络机器翻译模型的模型参数进行迭代调整，直到满足收敛条件，完成所述神经网络机器翻译模型的训练。

具体地，所述步骤S2具体包括：

步骤S21、以预设帧率提取训练视频中的多个画面帧；

步骤S22、识别每一画面帧中的目标对象及目标对象标签，并将每一画面帧中的目标对象与目标对象标签进行拼接，共同构成该画面帧待构建的场景视觉图的顶点；

步骤S23、捕获每一画面帧中的目标对象之间的视觉关系，以此构成该画面帧待构建的场景视觉图的边，进而得到分别对应所述多个画面帧的多个场景视觉图。

具体地，所述步骤S3具体包括：

步骤S31、将所述多个场景视觉图转换为多个图特征向量；

步骤S32、在所述多个图特征向量中加入位置编码，得到图特征向量序列。

具体地，所述步骤S31具体包括：

步骤S311、通过多层空间图卷积处理将各个视觉场景图转换为对应的视觉特征向量；

步骤S312、使用平均运算聚合每一视觉特征向量中的顶点特征，进而得到分别对应多个场景视觉图的多个图特征向量。

具体地，所述步骤S5具体包括：

步骤S51、对所述图特征向量序列依次进行多头自注意力处理及层归一化处理，得到视频特征向量序列；

步骤S52、对所述训练文本向量序列依次进行多头自注意力处理及层归一化处理，得到第一文本过渡向量序列，对第一文本过渡向量序列进行全连接前馈网络处理及层归一化处理，得到第一文本特征向量序列；

步骤S53、对所述标准文本向量序列依次进行多头自注意力处理及层归一化处理，得到第二文本特征向量序列。

具体地，，所述步骤S6具体包括：

步骤S61、根据视频特征向量序列和第一文本特征向量序列计算注意力权重；

步骤S62、依据注意力权重对视频特征向量序列和第一文本特征向量序列进行注意力融合处理及层归一化处理，得到视频引导的第一文本特征向量序列。

具体地，所述步骤S7具体包括：

步骤S71、对视频引导的第一文本特征向量序列和第二文本特征向量序列进行多头注意力融合及层归一化处理，得到融合特征过渡向量序列；

步骤S72、对融合特征过渡向量序列依次进行全连接前馈网络处理、层归一化处理、线性变换及Softmax变换，得到预测文本向量序列。

本发明还提供一种机器翻译方法，包括如下步骤：

步骤S10、获取待翻译的源语言文本及其对应的视频；

步骤S20、将所述待翻译的视频及该视频对应的源语言文本输入神经网络机器翻译模型，得到所述待翻译的源语言文本对应的翻译文本，所述神经网络机器翻译模型通过上述的神经网络机器翻译模型训练方法训练得到；

步骤S30、显示翻译结果。

本发明还提供一种机器翻译装置，包括：

获取模块，用于待翻译的源语言文本及其对应的视频；

翻译模块，用于通过神经网络机器翻译模型获得所述待翻译的源语言文本对应的翻译文本，所述神经网络机器翻译模型根据上述的神经网络机器翻译模型训练方法训练得到的；

显示模块，用于显示所述翻译文本。

本发明的有益效果：本发明提供一种神经网络机器翻译模型训练方法，通过从训练视频中提取场景视觉图，再根据场景视觉图得到细腻度更高的视频特征向量序列，再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列，然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列，最后根据预测文本向量序列与标准文本特征向量序列的比对结果，对所述神经网络机器翻译模型的模型参数进行迭代调整，直到满足收敛条件，完成所述神经网络机器翻译模型的训练，能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。本发明还提供一种机器翻译方法及装置，能够提升对视频引导的机器翻译的精度。

附图说明

为了能更进一步了解本发明的特征以及技术内容，请参阅以下有关本发明的详细说明与附图，然而附图仅提供参考与说明用，并非用来对本发明加以限制。

附图中，

图1为本发明的神经网络机器翻译模型训练方法的流程图；

图2为本发明的神经网络机器翻译模型训练方法中的神经网络机器翻译模型的基本架构图；

图3为本发明的神经网络机器翻译模型训练方法中的神经网络机器翻译模型的详细架构图；

图4为本发明的神经网络机器翻译模型训练方法的步骤S2至步骤S3的示意图；

图5为本发明的机器翻译方法的流程图；

图6为本发明的机器翻译装置的示意图。

具体实施方式

为更进一步阐述本发明所采取的技术手段及其效果，以下结合本发明的优选实施例及其附图进行详细描述。

请参阅图1，本发明提供一种神经网络机器翻译模型训练方法，包括如下步骤：

步骤S1、获取训练样本集，所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列。

具体地，所述步骤S1具体包括：

获取样本集，所述样本集包括源语言文本、与源语言文本对应的训练视频、及与源语言文本对应的目标语言文本；

通过嵌入算法将源语言文本及目标语言文本转换为向量；

接着在转换得到的向量中加入位置编码，得到源语言文本对应的训练文本向量序列以及目标语言文本对应的标准文本向量序列；

进而得到包括训练视频、训练文本向量序列及标准文本向量序列的训练样本集。

步骤S2、从训练视频中提取多个画面帧，构建与所述多个画面帧分别对应多个场景视觉图，每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系。

具体地，所述步骤S2具体包括：

步骤S21、以预设帧率提取训练视频中的多个画面帧；

例如，在本发明的一些实施例中，所述步骤S2具体可以包括如下步骤：

使用ffmpeg工具将训练视频转换为一个10s的片段，并使用3.2的帧率来提取片段中的多个画面帧；

使用Mask-R-CNN工具识别各个画面帧中的目标对象以及目标对象标签；

对目标对象以及该目标对象标签进行拼接，共同构成待构建的场景-视觉图中的顶点，如图4所示，图4中的“吸尘器头”即为一个目标对象标签、“吸尘器头”旁的实心点即代表一个目标对象，“吸尘器头”及“吸尘器头”旁的实心点共同组成了场景-视觉图中的一个顶点；

使用场景图的生成器来捕获各个目标对象之间的关系，以此来构成场景-视觉图中的边，如图4所示，图4中两个实心点之间的连线即为场景-视觉图中的边，进而完成场景视觉图的构建。

其中，构建的场景视觉图可以用

来表示，其中

即表示第1个画面帧对应的场景视觉图，

即表示第2个画面帧对应的场景视觉图，

即表示第f个画面帧对应的场景视觉图，以此类推；

此外，目标对象、目标对象标签及各个目标对象之间的关系可以通过如下的五元组进行表示：

其中a,b∈{1,2,...,k}，k为第f个画面帧中的目标对象个数，

和

表示第f个画面帧中的第a个和第b个目标对象，

和

表示第f个画面帧中的第a个和第b个目标对象对应的目标对象标签，

表示第f个画面帧中的第a个和第b个目标对象之间的关系。

步骤S3、将多个场景视觉图转换为图特征向量序列；

具体地，所述步骤S3具体包括：

步骤S31、将所述多个场景视觉图转换为多个图特征向量；

进一步地，所述步骤S31具体包括：

在本发明的一些实施例中，所述步骤S3进一步包括：

首先，利用多个空间图卷积层将各个视觉场景图转换为视觉特征向量，具体处理公式如下：

其中，W_j ^(l)表示第j个场景视觉图在第l个空间图卷积层中的权重矩阵，

和

分别表示第j个场景视觉图中的带有自环的度矩阵和邻接矩阵，σ表示sigmoid函数，

表示第j个场景视觉图在第l个空间图卷积层中的视觉特征向量；

接着，使用平均运算聚合每一视觉特征向量中的顶点特征，进而得到分别对应多个场景视觉图的多个图特征向量，具体公式如下：

其中，k表示第j个场景视觉图中的顶点数量，

表示第j个场景视觉图中的第i个顶点特征，

表示第j个场景视觉图的图特征向量；

最后，在所述多个图特征向量中加入位置编码，得到图特征向量序列，具体公式如下：

其中，positionalE表示位置编码，

表示将f个图特征向量组合到一起，H_v表示图特征向量序列，i、j、f、k及l均为正整数；

步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中。

具体地，如图2所示，在本发明的一些实施例中，所述神经网络机器翻译模型与场景视觉图构建模块1相连，所述神经网络机器翻译模型包括：视频编码模块2、跨模态融合模块3、文本编码模块4、解码模块5及生成模块6；

其中，场景视觉图构建模块1与视频编码模块2相连，视频编码模块2与跨模态融合模块3相连，文本编码模块4与所述跨模态融合模块3相连，跨模态融合模块3与解码模块5相连，解码模块5与生成模块6相连。

进一步地，如图3所示，在本发明的一些实施例中，所述视频编码模块2进一步包括多个级联的视频编码子层，每一视频编码子层均包括依次连接的多头注意力网络以及残差&归一化层；所述文本编码模块4包括多个级联的文本编码子层，每一文本编码子层均包括依次连接多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层；所述跨模态融合模块3包括多个级联的融合子层，每一融合子层均包括依次连接的多头注意力网络以及残差&归一化层；所述解码模块5包括多个级联的解码子层，每一解码子层均包括依次连接的多头注意力网络、残差&归一化层、多头注意力网络、残差&归一化层、全连接前馈网络及残差&归一化层；所述生成模块6包括：依次连接线性层及softmax变换层。

所述步骤S5具体包括：

其中，所述步骤S51通过视频编码模块2完成，具体公式如下：

其中，LNⁿ表示层归一化处理，self_attnⁿ表示多头自注意力处理，V表示视频特征向量序列，其中

及

表示对图特征向量序列进行编码时可训练的参数矩阵。

其中，所述步骤S52通过文本编码模块4完成。

步骤S53、对所述标准文本向量序列依次进行多头自注意力处理及层归一化处理，得到第二文本特征向量序列；

其中，步骤S53，通过解码模块5完成，具体公式如下：

其中，

表示第二文本特征向量序列，Z_t表示标准文本向量序列，

表示对标准文本向量序列进行注意力编码时可训练的参数矩阵。

具体地，所述步骤S6具体包括：

其中，所述步骤S6通过跨模态融合模块3完成，具体公式如下：

Z_x,v＝Concat(h_1,h_2,...,h_h)W^O；

其中，h_m表示第m个注意力层输出的拼接权重，Z_x,v表示视频特征向量序列和第一文本特征向量序列经过多头注意力拼接之后的融合向量序列，d_k表示维度常数，softmax表示softmax函数，concat表示concat函数、

表示视频引导的第一文本特征向量序列，X表示第一文本特征向量序列，

和W^O表示对视频特征向量序列和第一文本特征向量序列进行跨模态融合时的可训练的参数矩阵，m为正整数。

步骤S7、所述神经网络机器翻译模型根据视频引导的第一文本特征向量序列和第二文本特征向量序列解码生成预测文本向量序列。

具体地，所述步骤S7具体包括：

其中，所述步骤S71的具体公式如下：

其中，

表示视频引导的第一文本特征向量序列和第二文本特征向量序列经过多头注意力融合得到的融合特征过渡向量序列，multi_attnⁿ表示多头注意力融合处理，

及

表示对视频引导的第一文本特征向量序列和第二文本特征向量序列进行多头注意力融合时可训练的参数矩阵。

从而，本发明通过从训练视频中提取场景视觉图，再根据场景视觉图得到细腻度更高的视频特征向量序列，再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列，然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列，最后根据预测文本向量序列与标准文本特征向量序列的比对结果，对所述神经网络机器翻译模型的模型参数进行迭代调整，直到满足收敛条件，完成所述神经网络机器翻译模型的训练，能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。

进一步地，如图5所示，本发明还提供一种机器翻译方法，其特征在于，包括如下步骤：

步骤S10、获取待翻译的源语言文本及其对应的视频；

步骤S20、将所述待翻译的视频及该视频对应的源语言文本输入神经网络机器翻译模型，得到所述待翻译的源语言文本对应的翻译文本，所述神经网络机器翻译模型通过上述的方法训练得到；

步骤S30、显示翻译结果。

此外，如图6所示，本发明还提供一种机器翻译装置，包括：

获取模块100，用于获取待翻译的源语言文本及其对应的视频；

翻译模块200，用于通过神经网络机器翻译模型获得所述待翻译的源语言文本对应的翻译文本，所述神经网络机器翻译模型根据上述的方法训练得到的；

显示模块300，用于显示所述翻译文本。

综上所述，本发明提供一种神经网络机器翻译模型训练方法，通过从训练视频中提取场景视觉图，再根据场景视觉图得到细腻度更高的视频特征向量序列，再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列，然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列，最后根据预测文本向量序列与标准文本特征向量序列的比对结果，对所述神经网络机器翻译模型的模型参数进行迭代调整，直到满足收敛条件，完成所述神经网络机器翻译模型的训练，能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。本发明还提供一种机器翻译方法及装置，能够提升对视频引导的机器翻译的精度。本发明还提供一种计算机设备，能够提升对视频引导的机器翻译的精度。

以上所述，对于本领域的普通技术人员来说，可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形，而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种神经网络机器翻译模型训练方法，其特征在于，包括如下步骤：

步骤S3、将多个场景视觉图转换为图特征向量序列；

步骤S8、根据预测文本向量序列与标准文本特征向量序列的比对结果，对所述神经网络机器翻译模型的模型参数进行迭代调整，直到满足收敛条件，完成所述神经网络机器翻译模型的训练；

所述步骤S2具体包括：

步骤S21、以预设帧率提取训练视频中的多个画面帧；

步骤S23、捕获每一画面帧中的目标对象之间的视觉关系，以此构成该画面帧待构建的场景视觉图的边，进而得到分别对应所述多个画面帧的多个场景视觉图；

所述步骤S3具体包括：

步骤S31、将所述多个场景视觉图转换为多个图特征向量；

步骤S32、在所述多个图特征向量中加入位置编码，得到图特征向量序列；

所述步骤S31具体包括：

2.如权利要求1所述的神经网络机器翻译模型训练方法，其特征在于，所述步骤S5具体包括：

3.如权利要求1所述的神经网络机器翻译模型训练方法，其特征在于，所述步骤S6具体包括：

4.如权利要求1所述的神经网络机器翻译模型训练方法，其特征在于，所述步骤S7具体包括：

5.一种机器翻译方法，其特征在于，包括如下步骤：

步骤S10、获取待翻译的源语言文本及其对应的视频；

步骤S20、将待翻译的源语言文本及其对应的视频输入神经网络机器翻译模型，得到所述待翻译的源语言文本对应的翻译文本，所述神经网络机器翻译模型通过如权利要求1至4任一项所述的方法训练得到；

步骤S30、显示翻译结果。

6.一种机器翻译装置，其特征在于，包括：

获取模块，用于获取待翻译的源语言文本及其对应的视频；

翻译模块，用于通过神经网络机器翻译模型获得所述待翻译的源语言文本对应的翻译文本，所述神经网络机器翻译模型通过如权利要求1至4任一项所述的方法训练得到的；

显示模块，用于显示所述翻译文本。