CN112257465B

CN112257465B - 一种基于图像描述生成的多模态机器翻译数据增强方法

Info

Publication number: CN112257465B
Application number: CN202011212067.3A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-08-08
Anticipated expiration: 2040-11-03
Also published as: CN112257465A

Abstract

本发明公开一种基于图像描述生成的多模态机器翻译数据增强方法，其步骤为：用预训练好的图像编码信息和对应的图像描述，训练基于注意力机制的图像描述生成模型；用训练好的图像描述生成模型，对已有的多模态训练数据中的图片进行编码和解码，生成对应的源语图像描述文本；将生成的源语图像描述文本翻译成目标语，构造伪数据；将构造的伪数据添加进多模态训练数据中，将多模态训练数据中的图片信息与源语描述信息进行融合，送入多模态机器翻译模型中，采用自回归的方式，生成辅以图像上下文信息的目标语译文。本发明丰富了伪数据的多样性，能从知识精炼中获得性能的提升，相较于普通的采用随即替换等方式的数据增强方法，有着较大的优势。

Description

一种基于图像描述生成的多模态机器翻译数据增强方法

技术领域

本发明涉及一种机器翻译数据增强技术，具体为一种基于图像描述生成的多模态机器翻译数据增强方法。

背景技术

机器翻译(Machine Translation，简称MT)是采用计算机进行自然语言之间相互翻译的一门实验学科。利用机器翻译技术，可以将一门源语言自动地转化为目标语言。机器翻译作为消除人们跨语言交流障碍的关键技术，一直是自然语言处理研究的重要组成部分。相比于人工翻译，机器翻译效率更高并且成本更低，对于促进民族团结和文化交流有着重要意义。机器翻译技术可以概括为基于理性主义的方法和基于经验主义的方法两种，自20世纪40年代提出至今，机器翻译已经经历了近70年的发展，发展历史大致可以分为三个阶段：基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。

基于规则的机器翻译技术采用人工构造规则的方法，对源语输入进行相应转换，得到目标翻译结果。这种方法的缺点在于需要大量的人工代价来构造规则，规则覆盖范围有限并且会出现冲突，使得系统可扩展性和鲁棒性差。之后，研究人员采用基于统计的机器翻译技术，利用统计方法进行建模，完全舍弃了对手工规则的依赖。统计机器翻译需要对大量的双语平行语料进行统计分析，从而构造统计翻译模型来完成翻译。近年来，神经网络在机器翻译领域受到了广泛的关注。神经机器翻译采用端到端的编码器-解码器框架，编码器将源语输入编码成一个稠密的语义向量，解码器负责参考语义向量进行自回归解码，生成最终的翻译结果。尽管如此，这种神经机器翻译框架的主要缺点是解码器只依赖于编码器的最后状态，当句子较长时可能会恶化性能。为了克服这个问题，研究人员提出了基于注意力的编解码器框架。对于注意力模型，在每个时间步骤中，解码器依赖于前面的LSTM隐藏状态和上下文向量，上下文向量是编码器中隐藏状态的加权和。在注意力集中的情况下，译码器可以“刷新”记忆，把注意力集中在有助于翻译正确单词的源词上，而不是只看到句子中单词和单词顺序缺失的最后状态。

大多数的机器翻译任务只关注于文本句对，如源语和目标语构建的平行语料。然而，在真实的世界里，翻译任务往往与人们所看到的信息有着很大的关联，而不仅仅只依赖文字上的理解。于是多模态机器翻译应运而生，得到很大的发展。其中，图片和文字相结合的翻译方法是多模态翻译任务中比较常见的一种。图片信息除了能够提供额外的上下文语境外，还能够帮助翻译任务进行歧义消除。例如，“bank”这个单词既可以表示银行，又可以表示河岸。如果仅仅只看文字，我们无法知道哪个意思是正确的。但是如果同时给你一张有条小河的图片，你就能将“bank”正确地翻译成“河岸”了。

然而，多模态翻译任务的训练数据往往比较稀缺。目前比较常用的两个数据集Flickr30K和Multi30K，他们都只包含3万张图片，每张图片附有5个描述性的双语句对，因此实际包含的平行语料只有150000句，相对于机器翻译任务来说显然是比较稀缺的。不仅如此，由于描述性的句子往往比较简单直白，因此句长较短，内容也比较单调，训练数据也缺乏多样性。因此，利用数据增强方法构造伪数据，对多模态翻译来说是一个很有效的方法。然而，传统的数据增强技术只是简单地对源语句子的某些单词进行删除、替换。或者对图像进行偏移，旋转。但这类方法往往只能提高模型的鲁棒性，这对训练数据稀缺的多模态翻译来说显然是不合适的。

发明内容

针对现有多模态翻译训练数据比较稀缺，传统的数据增强技术效果不够好等问题，本发明提出一种基于图像描述生成的多模态机器翻译数据增强方法，采用图像描述生成模型来构造伪数据，对训练数据进行扩展。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于图像描述生成的多模态机器翻译数据增强方法，括以下步骤：

1)在拥有大训练数据的图像描述领域，用预训练好的图像编码信息和对应的图像描述，训练基于注意力机制的图像描述生成模型；

2)用训练好的图像描述生成模型，对已有的多模态训练数据中的图片进行编码和解码，生成对应的源语图像描述文本；

3)引入额外的神经机器翻译模型，将生成的源语图像描述文本翻译成目标语，构造伪数据；

4)将构造的伪数据添加进多模态训练数据中，将多模态训练数据中的图片信息与源语描述信息进行融合，送入多模态机器翻译模型中，采用自回归的方式，生成辅以图像上下文信息的目标语译文。

步骤1)中，利用比多模态训练数据更丰富的图像描述训练数据，训练一个图像描述生成模型，作为伪数据中源语的生成器，其结构为长短时记忆网络LSTM，其核心门控单元的更新方式如下：

C_t＝f_t⊙C_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(C_t)

其中t为时间步，i_t为输入门，g_t为当前输入信息，f_t为遗忘门，c_t为上下文记忆，o_t为输出门，h_t为LSTM当前时刻的隐层状态。

步骤2)中，生成对应的源语图像描述文本，在生成过程中，引入了注意力机制，其注意力权重的计算方式如下：

e_ti＝f_att(a_i，h_t-1)

其中α_i为第i个输入，h_t-1为t-1时刻的隐层状态，f_att(·)为相似度函数，e_ti为t时刻第i个输入的注意力得分，αtt_ti即为归一化后t时刻第i个输入的注意力权重，L为输入的句长，z_t为最后的注意力结果，k为从1到L的索引。

步骤3)中，引入额外的神经机器翻译模型，作为要训练的目标模型的Teacher模型，通过外部学习的方式，提高目标模型的泛化能力。

步骤4)中，将生成的伪数据送入多模态机器翻译模型中进行翻译，在翻译过程中，每一步的输出不仅考虑到源语和前一步的输出，同时还考虑对应的图片信息，能够让译文更加准确，其翻译步骤如下：

401)将图片信息输入卷积网络，提取顶层向量作为图片上下文信息的编码结果；

402)将源语句子输入双向LSTM进行编码，将输出作为源语上下文信息的编码结果；

403)将获得的图片编码信息和源语编码信息进行融合，作为输入送入解码器端，结合注意力机制，以自回归的方式不断生成目标语译文。

本发明具有以下有益效果及优点：

1.本发明使用图像描述生成模型生成伪数据源语，使伪数据更加流畅，能够有效提高伪数据的质量，从而提高多模态翻译模型的翻译性能；

2.本发明在大数据集上训练图像描述生成模型，能够有效提高源语伪数据的多样性，从而提高多模态翻译模型的鲁棒性；

3.本发明通过额外的更健壮的翻译模型生成伪数据目标语，能够让多模态翻译模型学习到额外的外部知识，从而提高翻译性能。

附图说明

图1为本发明中图像描述生成模型图示；

图2为本发明中多模态翻译模型图示；

图3为本发明基于图像描述生成的多模态机器翻译数据增强方法流程图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明针对多模态翻译任务中训练数据稀缺，传统数据增强方法效果不佳等问题，提出一种基于图像描述生成的多模态机器翻译数据增强方法，利用图像描述生成模型来构造伪数据，从而进一步提升翻译系统的性能。

如图3所示，本发明一种基于图像描述生成的多模态机器翻译数据增强方法包括以下步骤：

C_t＝f_t⊙C_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(C_t)

在该步骤中，图像描述生成任务是指给定一张图片，自动生成对应的描述文本。目前的主流方法仍然是采用编码器-解码器框架，如图1所示。首先利用卷积网络CNN对图片信息进行编码，之后送入循环神经网络LSTM中进行解码，生成图像描述。在解码过程中还会计算注意力权重，使得每一步所关注的图片区域更加精确，生成的描述也就更符合图片所包含的内容。

相较于多模态翻译，图像生成任务的训练数据更加丰富，如常用的MS COCO数据集包含30多万张图片。本发明将训练好的图像描述生成模型作为伪数据的生成器，能够提高伪数据的多样性，从而提高翻译模型的泛化能力。

e_ti＝f_att(a_i，h_t-1)

本步骤中，用训练好的图像描述生成模型，对多模态训练数据中的图片信息进行编码和解码，生成对应的源语图像描述文本。在生成过程中，需要通过上述公式计算注意力权重。

具体计算过程如图1所示，首先将多模态训练数据中的图片I送入模型的CNN编码器中，输出L个图片上下文信息{a₁，a₂，...，a_L)，接着根据上一时刻隐层状态h_t-1计算得到注意力结果z_t，送入模型的解码器中进行解码，由于共有T个时间步长，因此通过自回归的方式会生成T个注意力结果{z₁，z₂，...，z_T)，送入模型的解码器中进行解码得到目标语译文{y₁，y₂，...，y_T)。

在步骤3)中，引入额外的神经机器翻译模型，将生成的源语描述翻译成目标语，构造伪数据。引入的翻译模型可以被看作是要训练的目标模型的Teacher模型，用来生成伪数据中的目标语译文，在接下来的多模态翻译训练中，模型的输出会不断拟合Teacher模型的概率分布，从而学习到一些外部知识，提高系统的翻译性能。

在步骤4)中，将构造的伪数据添加进训练样本中，将训练样本中图片信息与源语描述信息进行融合，送入多模态机器翻译模型中进行翻译。如图2所示，在编码器端将训练样本中图片信息与源语描述信息分别通过卷积神经网络和长短时记忆网络进行编码，将编码后的两种编码信息进行融合，之后送入多模态机器翻译模型进行解码，得到最终的目标语翻译结果。在翻译过程中，由于每一步的输出不仅考虑到源语和前一步的输出，同时还会考虑对应的图片信息，因此生成的译文会更加合理。

为验证方法的有效性，本发明将基于图像描述生成的多模态机器翻译数据增强方法应用于多模态翻译任务中的Multi30K英德数据集。首先在COCO数据集上训练了一个图像描述生成模型，对Multi30K中的3万张图片进行了伪数据的源语构造，共生成额外15万个英语单语句子。之后在iwslt14英德数据集上训练了一个基于transformer的翻译模型，对之前生成的英语单语进行解码生成伪数据的目标语，完成伪数据的构造。之后将构造的伪数据加入多模态的训练数据中进行训练，实验表明，本发明提出的方法能让多模态翻译模型在英德翻译任务上的两个测试集test2016和test2017上平均有将近0.8BLEU的提升。

表1不同数据增强方法实验结果对比

Claims

1.一种基于图像描述生成的多模态机器翻译数据增强方法，其特征在于包括以下步骤：

2.按权利要求1所述的基于图像描述生成的多模态机器翻译数据增强方法，其特征在于：步骤1)中，利用比多模态训练数据更丰富的图像描述训练数据，训练一个图像描述生成模型，作为伪数据中源语的生成器，其结构为长短时记忆网络LSTM，其核心门控单元的更新方式如下：

C_t＝f_t⊙C_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(C_t)

3.按权利要求1所述的基于图像描述生成的多模态机器翻译数据增强方法，其特征在于：步骤2)中，生成对应的源语图像描述文本，在生成过程中，引入了注意力机制，其注意力权重的计算方式如下：

e_ti＝f_att(a_i，h_t-1)

4.按权利要求1所述的基于图像描述生成的多模态机器翻译数据增强方法，其特征在于：步骤3)中，引入额外的神经机器翻译模型，作为要训练的目标模型的Teacher模型，通过外部学习的方式，提高目标模型的泛化能力。

5.按权利要求1所述的基于图像描述生成的多模态机器翻译数据增强方法，其特征在于：步骤4)中，将生成的伪数据送入多模态机器翻译模型中进行翻译，在翻译过程中，每一步的输出不仅考虑到源语和前一步的输出，同时还考虑对应的图片信息，能够让译文更加准确，其翻译步骤如下：