CN114429144B

CN114429144B - 一种运用辅助记忆的多样性机器翻译方法

Info

Publication number: CN114429144B
Application number: CN202111623399.5A
Authority: CN
Inventors: 赵静; 林奕初; 张艺; 孙仕亮
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-07-07
Anticipated expiration: 2041-12-28
Also published as: CN114429144A

Abstract

本发明公开了一种运用辅助记忆的多样性机器翻译方法，该方法具备翻译能力前，需要使用单语语料库预训练一个检索模型，然后在检索模型给出的记忆信息的辅助下，使用双语语料库训练一个翻译模型。在训练完成后，本发明就具备翻译出多样文本的能力。最后本发明通过改进的全局多样性束搜索方法预测出多个的翻译文本。本发明的创新点在于提取和检索单语料库数据，将其融入典型机器翻译框架，同时提出全局多样性束搜索方法进一步搜索和加强翻译文本的多样性，给出详细的推导算法，使得翻译模型能够借助单语料库信息进一步提高翻译的准确性和多样性。

Description

一种运用辅助记忆的多样性机器翻译方法

技术领域

本发明涉及计算机技术领域，涉及机器翻译技术，特别涉及一种运用辅助记忆的多样性机器翻译方法。

背景技术

背景技术涉及三大块：神经机器翻译，多样性束搜索，评价指标。

1)神经机器翻译(Neural Machine Translation)

神经机器翻译指利用神经网络来实现的端到端机器翻译系统。神经机器翻译系统主要涉及两大基本技术：Transformer编码器-解码器框架和Attention机制。

Transformer编码器-解码器框架如图2所示，是一种基于Attention机制设计的模型，适合处理文本这样的序列数据。Transformer由多个Transformer块堆叠组成。每个块之中包含一个多头Attention模块和一个全连接层，它们之间使用残差方式连接。

一个Transformer块中的多头Attention模块基于传统Attention机制。Attention机制作用于序列数据，输入是N个向量

组成的矩阵X＝[x₁x₂…x_N]。在Attention机制中，它们也被称为value变量。除了value变量，Attention机制的输入还有一系列key变量

组成的矩阵K＝[k₁k₂…k_N]和一个query变量q(在多次计算时可以是一系列query变量)。这两者中，key变量与输入变量一一对应，往往是value变量的函数；而query变量则是本次Attention计算参照的对象，在Self-Attention情景下query变量也可以是value变量的函数。

Attention机制计算时，使用一个评分函数s参照q为每一个x_i计算权重α_i，符合式子

α_i＝softmax(s(k_i,q)) (5)

其中，k_i是第i个Key变量，则Attention机制的输出是

一种常见的评分函数是点积函数

Attention机制的计算结果是query变量的函数，不同的query将从序列中“查询”出不同的结果。这是因为评分函数会对比query变量与key变量，从而为每个value变量计算分数，而这个分数会影响到每个value变量在结果中的比重。如果query是一系列变量，输出的一系列变量也可以组成一个输出矩阵。

多头Attention模块与传统Attention机制的区别在于它是多头的。在每一个多头Attention模块中有h个并行的Attention头(head)，每个头的计算方式相同，仅参数不同。每个头head_i的计算结果是

其中，

分别是Q、K、V的权重矩阵。多头Attention的输出结果Multi-Head(Q,K,V)是各个头拼接后的线性变换，其中head_h表示各个Attention头，W^O是最终的权重矩阵

Multi-Head(Q,K,V)＝concat(head₁,…,head_h)W^O (9)

之后的全连接层中会对输入做两次线性变换，即

Out_FF＝tanh(W₂tanh(W₁In_FF)) (10)

其中，W₁和W₂是各个线性层的权重，In_FF是全连接层的输入向量，Out_FF是全连接层输出向量。每一个线性层使用tanh激活函数。

在Transformer编码器中，每一层Transformer块中多头Attention的三个输入都是上一层的输出。这种三个输入来源于同一个变量的设计叫做Self-Attention，是Transformer中的关键设计。Transformer块中的连接都是残差连接。以全连接层为例，它的输入并不仅仅是前一层的输出，而是前一层的输出加上前一层的输入并规范化的结果。即

In_FF＝Norm(Out_MH+In_MH) (11)

其中，全连接层的输入In_FF是自注意力层的输出，Out_MH是多头注意力的输出，In_MH是多头注意力的输出。

类似地，全连接层的输出也有这样的残差连接，即某一个块的输出是

Out_Block＝Norm(Out_FF+In_FF) (12)

其中，Out_Block是一个编码器模块的输出，Out_FF是全连接层的输出，In_FF是全连接层的输入。

在Transformer解码器中，除了多头Attention模块和全连接层，还有基于多头Attention模块的编码Attention模块，它位于多头Attention模块和全连接层之间。它将编码器的输出作为多头Attention模块的query变量，而key变量和value变量依然来源于上一层模块。也就是说编码Attention模块的计算符合

Encoder-Attention(enc,value)＝Multi-Head(enc,value,value) (13)

此外，为了防止TeacherForcing方法下Transformer解码器中的Attention模块提前读取到将来的输入，Attention模块中加入屏蔽机制，保证被屏蔽的位置不会参与Attention评分。这种屏蔽机制也可能被用于其它Attention模块中。

Transformer领域常常运用到预训练的模型。Transformer的预训练技术大幅减少了基于Transformer的系统的训练时间，加速了高性能模型的推广。以BERT为代表一系列预训练模型往往在大规模语料上训练模型完成某个特定的预训练目标，使得模型可以在下游任务中仅需要一些微调即可达到良好的性能。另外，该框架可以结合外部语料，具有良好的可扩展性，且灵活性很强，可以应用到图像标注、语音识别等任务中。

2)多样性束搜索(Diverse Beam Search)

束搜索(Beam Search)是一种启发式图搜索算法，通常用在搜索的解空间比较大的情况下，为了减少搜索所占用的空间和时间，在每一步深度扩展的时候，剪掉一些质量比较差的结点，保留下一些质量较高的结点。这样减少了空间消耗，并提高了时间效率，但缺点就是有可能存在潜在的最佳方案被丢弃，因此束搜索是不完全的，一般用于解空间较大的系统中。

多样性束搜索是在典型束搜索的基础上将所有的束进行分组，各组的束依次进行搜索，同组内的束如同典型束搜索每次选取概率最大的token，而每组束在进行束搜索前，解码阶段得到的token概率需要减去由之前组的束计算得到的惩罚项，惩罚项可看作对字典中所有token的一个计数器，统计当前时间步，由之前的束选择的token的数量，以此避免在同一时间步内，不同组的束会选取同样的token。由于解码得到的token的概率通常属于(0,1)，惩罚项在实际设置时会通过惩罚超参数λ∈[0,1)来控制多样性惩罚的程度。在进行束搜索之前，首先选取束的个数B和分组G，每组包括g＝B/G束，具体实验时一般尽量保证G能整除B，即保证每组的束数量相同且不重合。

在第一个时间步内，重置多样性惩罚项，即将每个token的计数设为0，根据Transformer解码器得到所有token的选取概率，将其复制成B束，并分成G组。

首先对第一组的g束进行典型束搜索，选取概率最大的g个token，得到第一组的g个候选token，据此更新多样性惩罚项，即将对应token数量加一。对第二组g束，在选取概率最大的g个token之前，需要将token概率减去多样性惩罚项中统计对应token数量的λ倍，λ∈[0,1)控制多样性惩罚的程度。汇总G组所有B束的token，作为当前时间步的搜索结果输入到Transformer解码器进行下一时间步的预测。

在之后的时间步，由于上一时间步已经向Transformer解码器输入B束对应的中间变量和搜索结果，因此不再需要像第一个时间步复制束搜索结果，直接进行多样性束搜索直到所有束遇到终止符<EOS>或者达到预设的最大时间步。

3)评价指标(Evaluation Metrics)

假设{r¹,…,r^M}是源句子x的M个参考翻译，{y¹,…,y^K}是K个翻译结果。

让BLEU{([r₁,…,r_n],h)}_x∈data表示所有对的语料库级别的BLEU，其中h是一个翻译结果，[r₁,…,r_n]是它的参考翻译列表。让[n]表示{1,…,n}的集合，[y^-i]表示[y¹,…,yⁱ ^-1,yⁱ⁺¹,…,y^M]。

对于翻译准确性计算，

使用M–1个参考翻译来计算系统的BLEU。例如，平均BLEU{([r^-m],y^k)}_{x∈data，k∈[K]}，其中m∈[M]。这衡量了翻译结果集的整体质量。如果该指标得分较低，则意味着某些生成的翻译质量较差。

对于翻译多样性计算，

使用Pairwise-BLEU来衡量翻译的多样性。Pairwise-BLEU用于计算所有翻译结果之间的相似性。为了衡量翻译结果之间的相似性，将它们相互比较并计算BLEU{([y^j],y^k)}_{x∈data,j∈[k],k∈[K],j≠k}。翻译结果集越多样化，Pairwise-BLEU越低。

发明内容

本发明的目的是提供一种运用辅助信息的多样性机器翻译方法，该方法提出了一种新的与辅助信息相结合的多样性机器翻译模型，并提出新的全局多样性搜索机制，并将该机制应用到多样性机器翻译中和给出了学习算法。

实现本发明目的的具体技术方案是：

一种运用辅助记忆的多样性机器翻译方法，该方法包括如下步骤：

步骤一：建立目标语言上的单语料库和源语言与目标语言对应的双语料库；

步骤二：构建和预训练双编码器检索模型；将所有源语言与目标语言分别转换成对应的词嵌入表示后，分别输入检索模型的两个Attention编码器提取特征和编码，将源语言与目标语言的语义编码进行内积运算，然后通过最大内积搜索(Maximum Inner ProductSearch)快速搜索得到M个最接近源语言语义编码的目标语言语义编码，根据源语言和目标语言是否是对应句对构建损失函数来预训练检索模型，防止检索模型冷启动；

步骤三：构建多样化机器翻译模型，在典型Transformer机器翻译模型的基础上，并在解码阶段通过Cross-Attention融合检索模型获得的辅助记忆，根据辅助记忆指导生成多个多样性目标文本；对于每个源语言文本，通过检索模型检索出单语料库中M个最接近的目标文本编码，以此在Transformer模型解码阶段通过Cross-Attention融合，即将典型机器翻译模型Transformer编码源语言和目标语言得到的语义信息作为query，检索出的目标文本编码作为key和value；Cross-Attention分数α的具体计算如下

其中e∈[1,M]，i,j∈[1,L_e]；h_t表示在翻译过程中第t个时间步时，Transformer模型提取的源文本与目标文本的潜变量表示，z_e表示第e个检索的与源文本最相似的目标文本编码，包括L_e个token，f(x,z_e)表示输入的源文本x与z_e的相似度，β作为超参控制检索模型对翻译模型的影响大小，W_m是模型的权重；每个检索出的目标语言语义编码z_e分别指导典型机器翻译生成不同的翻译文本，以提高机器翻译的多样性和准确性；

步骤四：确定多样性机器翻译模型的优化目标，训练运用辅助记忆的多样性机器翻译模型；不同于典型机器翻译模型，运用辅助记忆的多样性机器翻译模型的优化目标需要融合和同时训练检索模型，整体目标是同时提高检索模型和翻译模型的性能，其优化目标的公式描述为

其中，y^*是模型生成的翻译，x是输入句子，z_e表示第e个检索的与源文本最相似的目标文本编码，f(x,z_e)表示输入的源文本x与z_e的相似度；将单语料库检索到的文本的相似度融入优化目标，采用Adam算法优化，使检索模型参与反向梯度计算来更新参数；

步骤五：训练完毕后，进行多样性翻译模型推理，即生成多个不同的翻译文本；Transformer解码器通过检索的文本，源文本和之前预测的目标文本的所有token，预测下一个token的概率分布；以最大似然为准则求最优句子序列，采用改进的多样性束搜索算法得出最优的机器翻译输出。

所述的多样性机器翻译模型，具有如下结构：在检索模块中，源文本x和所有单语料库文本分别经过两个Transformer的编码器得到其对应的特征编码矩阵E_src(x)和E_tgt(z_e)，将特征编码矩阵进行内积计算得到相似度，

通过最大内积搜索(Maximum Inner Product Search)快速搜索得到M个最接近源语言语义编码的目标语言语义编码{z₁,z₂,…,z_M}以及对应的相似度{f(x,z₁),f(x,z₂),…,f(x,z_M)}；

翻译模块沿用典型Transformer模型，由编码器—解码器框架构成；源文本x经过编码器提取特征表示，编码器由六层组合网络串联构成，每层依次包括Multi-HeadAttention层和全连接层；源文本经过编码后在解码器中，作为K和V与之前时间步预测得到的目标文本{y₁,y₂,…,y_t-1}的编码作为Q进行Cross-Attention计算得到此时间步t的中间状态表示h_t，

其中，

表示缩放因子，防止计算过程数据溢出；在Transformer解码时得到源文本与目标文本的中间状态表示h_t后，以此作为Q再与检索模块得到的特征编码z_e进行Cross-Attention计算，融合单语料库信息，最终预测得到当前时间步的概率。

所述改进的多样性束搜索算法，包括如下步骤：

步骤3.1：选取束的总数量B和分组数量G，保证B能整除G，使得每组保持同样数量的搜索束且不重叠，则每组中包括g＝B/G个束，设置多样性惩罚项来统计之前时间步所有选取的各个token的数量；

步骤3.2：根据Transformer解码器得到的当前时间步，词汇表中所有token的选择概率，将其复制成B束，并分成G组；

步骤3.3：对于每组的g束，首先对第一组的g束进行典型束搜索，选取概率最大的g个token，得到第一组的g个候选token，据此更新多样性惩罚项，即将对应token数量加一；对第二组束，在选取概率最大的g个token之前，需要将token概率减去多样性惩罚项中统计对应token数量的λ倍，λ∈[0,1)控制多样性惩罚的程度；

步骤3.4：汇总G组所有B束的token，作为当前时间步的搜索结果输入到Transformer解码器进行下一时间步的预测，再根据步骤3.3进行多样性束搜索直到所有束遇到终止符<EOS>或者达到预设的最大时间步。需要注意的是，在所有时间步，累计多样性惩罚项，而不是在每个时间步重置。

本发明提出了使用辅助记忆的多样性机器翻译的方法，该方法提出了一种新的与辅助信息相结合的多样性机器翻译模型，并提出新的全局多样性搜索机制。该方法在JRC-Acquis数据集、WMT16英德数据集和WMT14英法数据集上进行了大量的实验，实验结果表明，本发明所提出的方法在不损害翻译质量的前提下，显著提高了翻译的多样性。所提出的多样性机器翻译模型不仅可以生成多个多样的翻译结果，同时能保障翻译结果的质量。

附图说明

图1为本发明的流程图；

图2为背景技术的Transformer编码器-解码器模型图；

图3为本发明辅助记忆的多样性机器翻译模型图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明所涉及的模型包括两大模块：检索模块和翻译模块。在检索模块，首先使用源文本和目标文本一一对应的双语料库预训练检索模块，然后将目标语言上的单语料库所有文本输入检索模块得到其特征编码，最后将待翻译的源文本的特征表示和单语料库的特征表示进行内积计算，得到源文本与单语料库所有文本的相似度，以此检索得到最相似的M个特征表示。在翻译模块，将待翻译的源文本输入Transformer的编码器得到其特征表示。当翻译模块根据典型的机器翻译模型，在每个时间步完成编码和解码任务之后，得到的中间状态表示ht，将其与检索得到的特征表示进行Cross-Attention计算得到最终预测结果。通过计算损失函数并通过Adam算法反向传播梯度，更新模型参数来训练整个模型，包括检索模块和翻译模块。

参阅图1，本发明包括如下步骤：

1、建立目标语言上的单语料库和源语言与目标语言的双语料库。

采用Workshop on Machine Translation(WMT)2016年公开数据集，选取语言对En-De作为双语料库，也可选取其他的双语数据集训练模型。对于单语料库，可以直接选择双语数据集的目标端语料，或者目标端其他语料库，如UN Parallel Corpus。

2、构建和预训练双编码器检索模型。

将所有源语言与目标语言分别转换成相应的词嵌入表示后，分别输入检索模型的两个Attention编码器提取特征和编码，将源语言与目标语言的语义编码进行内积运算，然后通过最大内积搜索(Maximum Inner Product Search)快速搜索得到M个最接近源语言语义编码的目标语言语义编码，根据源语言和目标语言是否是对应句对构建损失函数来预训练检索模型，防止检索模型冷启动问题。

3、构建典型Transformer机器翻译模型，并在解码阶段通过Cross-Attention融合检索模型获得的辅助记忆，根据辅助记忆指导生成多个多样性目标文本，参阅图3。对于每个源语言文本，通过检索模型检索出单语语料库中M个最接近的目标文本编码，以此在Transformer模型解码阶段通过Cross-Attention融合，即将典型机器翻译模型Transformer编码源语言和目标语言得到的语义信息作为query，检索出的目标文本编码作为key和value。Cross-Attention分数α的具体计算如下

其中e∈[1,M]，i,j∈[1,L_e]。h_t表示在翻译过程中第t个时间步时，Transformer模型提取的源文本与目标文本的潜变量表示，z_e表示第e个检索的与源文本最相似的目标文本编码，包括L_e个token，f(x,z_e)表示输入的源文本x与z_e的相似度，β作为超参控制检索模型对翻译模型的影响大小。每个检索出的目标语言语义编码z_e分别指导典型机器翻译生成不同的翻译文本，以提高机器翻译的多样性和准确性。

4、确定多样性机器翻译模型的优化目标，训练运用辅助记忆的多样性机器翻译模型。不同于典型机器翻译模型，运用辅助记忆的多样性机器翻译模型的优化目标需要融合和同时训练检索模型，整体目标是同时提高检索模型和翻译模型的性能，其优化目标的公式描述为

将单语料库检索到的文本的相似度融入优化目标，采用Adam算法优化，使检索模型参与反向梯度计算来更新参数。

5、训练完毕后，进行多样性翻译模型推理，即生成多个不同的翻译文本。Transformer解码器通过检索的文本，源文本和之前预测的目标文本的所有token，预测下一个token的概率分布；以最大似然为准则求最优句子序列，采用改进的多样性束搜索算法得出最优的机器翻译输出。模型推理的步骤如下，

步骤5.1：选取束的总数量B和分组数量G，保证B能整除G，使得每组保持同样数量的搜索束且不重叠，则每组中包括g＝B/G个束，设置多样性惩罚项来统计之前时间步所有选取的各个token的数量。

步骤5.2：根据Transformer解码器得到的当前时间步，词汇表中所有token的选择概率，将其复制成B束，并分成G组。

步骤5.3：对于每组的g束，首先对第一组的g束进行典型束搜索，选取概率最大的g个token，得到第一组的g个候选token，据此更新多样性惩罚项，即将对应token数量加一。对第二组束，在选取概率最大的g个token之前，需要将token概率减去多样性惩罚项中统计对应token数量的λ倍，λ∈[0,1)控制多样性惩罚的程度。

步骤5.4：汇总G组所有B束的token，作为当前时间步的搜索结果输入到Transformer解码器进行下一时间步的预测，再根据步骤5.3进行多样性束搜索直到所有束遇到终止符<EOS>或者达到预设的最大时间步。

实施例

在多个数据集上进行了实验，以评估所提出的辅助记忆的多样性机器翻译方法和全局多样性搜索机制的效果。首先，在JRC-Acquis数据集上来评估辅助记忆的多样性机器翻译模型的性能，其次使用WMT16英德数据集和WMT14英法数据集来评估全局多样性搜索机制的有效性和普遍适用性。使用pwb和rfb两个指标对模型性能进行评价。

先将辅助记忆的多样性机器翻译模型和全局多样性搜索机制结合起来，在JRC-Acquis数据集上进行实验，选择四个翻译方向，英语翻译成西班牙语和西班牙语翻译成英语，以及英语翻译成德语和德语翻译成英语。辅助记忆的多样性机器翻译模型包含两个模块，检索模型和翻译模型。为了防止检索模型冷启动，先对检索模型进行交叉对齐预训练，之后再对整个模型进行训练。

在数据集的训练和测试后，得到了四个翻译方向上的翻译性能和多样性分数，展示在表1中。实验结果显示，辅助记忆的多样性机器翻译模型在不损害翻译质量的情况下，提高了翻译结果的多样性。

表1在JRC-Acquis数据集四个翻译方向上的翻译质量和多样性分数

其次验证全局多样性搜索机制在大部分神经机器翻译模型中的适应性和有效性。在WMT16英语-德语数据集和WMT14英语-法语数据集上进行实验。对于WMT16英-德数据集上，使用字节对编码(BPE)来学习大小为32K的联合词典。在newstest2013上进行验证，并在newstest2014的500个句子子集上进行测试，其中每个句子包括10个参考翻译。对于WMT14英-法数据集，过滤掉句子长度超出1-250范围德句子，从而从WMT14中获得4000万个句子对，并学习40k个联合BPE词汇。在newstest2013上验证并在newstest2014的500个子集上进行测试，其中每个句子包含10个参考翻译。

使用hMlp设置复现了混合模型，该模型具有三个混合组件(专家)，完全遵循hMlp的配置参数。在此基础上与使用普通束搜索(BS)和多样性束搜索(DBS)的模型比较了翻译性能。在表2展示了模型在WMT16英语-德语和WMT14英语-法语数据集上的性能。实验结果表明，本发明所提出的方法在翻译多样性方面要优于BS和DBS。

表2GDBS在WMT16英-德数据集和WMT14英-法数据集上的性能

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种运用辅助记忆的多样性机器翻译方法，其特征在于，该方法包括如下步骤：

步骤二：构建和预训练双编码器检索模型；将所有源语言与目标语言分别转换成对应的词嵌入表示后，分别输入检索模型的两个Attention编码器提取特征和编码，将源语言与目标语言的语义编码进行内积运算，然后通过最大内积搜索快速搜索得到M个最接近源语言语义编码的目标语言语义编码，根据源语言和目标语言是否是对应句对构建损失函数来预训练检索模型，防止检索模型冷启动；

通过最大内积搜索快速搜索得到M个最接近源语言语义编码的目标语言语义编码{z₁,z₂,…,z_M}以及对应的相似度{f(x,z₁),f(x,z₂),…,f(x,z_M)}；

其中，

表示缩放因子，防止计算过程数据溢出；在Transformer解码时得到源文本与目标文本的中间状态表示h_t后，以此作为Q再与检索模块得到的特征编码z_e进行Cross-Attention计算，融合单语料库信息，最终预测得到当前时间步的概率；

步骤五：训练完毕后，进行多样性翻译模型推理，即生成多个不同的翻译文本；Transformer解码器通过检索的文本，源文本和之前预测的目标文本的所有token，预测下一个token的概率分布；以最大似然为准则求最优句子序列，采用改进的多样性束搜索算法得出最优的机器翻译输出；

所述改进的多样性束搜索算法，包括如下步骤：

步骤5.1：选取束的总数量B和分组数量G，保证B能整除G，使得每组保持同样数量的搜索束且不重叠，则每组中包括g＝B/G个束，设置多样性惩罚项来统计之前时间步所有选取的各个token的数量；

步骤5.2：根据Transformer解码器得到的当前时间步，词汇表中所有token的选择概率，将其复制成B束，并分成G组；

步骤5.3：对于每组的g束，首先对第一组的g束进行典型束搜索，选取概率最大的g个token，得到第一组的g个候选token，据此更新多样性惩罚项，即将对应token数量加一；对第二组束，在选取概率最大的g个token之前，需要将token概率减去多样性惩罚项中统计对应token数量的λ倍，λ∈[0,1)控制多样性惩罚的程度；