CN115034236A

CN115034236A - 一种基于知识蒸馏的中英机器翻译方法

Info

Publication number: CN115034236A
Application number: CN202210500736.XA
Authority: CN
Inventors: 王东升; 王少勇; 路曼; 邓翰; 韩斌; 刘嘎琼
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-09-09

Abstract

本发明公开了一种基于知识蒸馏的中英机器翻译方法，包括如下步骤：步骤1：获取中英平行语料，并对平行语料中的每个句子进行预处理；步骤2：设置翻译模型的编码器包括：Transformer encoder编码器；解码器包括：Transformer decoder解码器和Future decoder解码器，在翻译模型中增加知识蒸馏法模块，将步骤1中获取的预处理后的平行语料作为翻译模型的输入信息进行翻译模型训练，翻译模型通过知识蒸馏法将两个解码器进行交互；步骤3：翻译模型训练完成后，去除翻译模型中的Future decoder解码器、知识蒸馏法模块；步骤4：运用步骤3获取的翻译模型进行中英翻译。本发明使模型有效习得前后信息与当前位置词的联系，显著缓解曝光偏差问题。

Description

一种基于知识蒸馏的中英机器翻译方法

技术领域

本发明涉及语言处理技术领域，具体涉及一种基于知识蒸馏的中英机器翻译方法。

背景技术

随着深度学习技术的突飞猛进，机器翻译和自然语言处理近年来取得了长足的进步。从实际需求来看，本地化人工辅助翻译、出国旅游随身实时翻译、跨境电商、外贸等场景都需要机器翻译技术。机器翻译的研究历经基于语法规则、统计方法的机器翻译时代，发展到现在基于深度学习的机器翻译(神经机器翻译)。

最初，基于规则的方法是机器翻译研究的主流，缺点是成本高且难以处理非规范语言。20世纪90年代初，IBM的Peter Brown等人正式提出统计机器翻译模型。2013年，Kalchbrenner和Blunsom提出利用神经网络进行机器翻译，随后一两年内，Sutskever等人提出了基于编码器-解码器结构的神经机器翻译模型，标志着机器翻译进入深度学习的时代。神经机器翻译以编码器——解码器为基本框架，利用深度神经网络对翻译过程建模，这个过程不依赖人工定义的特征，整个翻译模型都可以在一种端到端的模式下训练完成，而翻译解码也就变成对神经网络进行前向计算或推断的过程。

现有的神经机器翻译技术常采用的模型是循环神经网络，卷积神经网络和Transformer。这些模型采用的训练策略都是teacher-forcing。teacher forcing算法会带来曝光偏差的问题。解码器在训练时需要目标序列标签作为输入，这时模型生成的序列只是用来计算误差；而在测试时，没有目标序列，所以使用前一个时间步的输出作为当前时间步的输入。采用teacher forcing训练模型，模型的解码结果在训练和预测的时候是从不同的分布中推断出来的，那么这种不一致会导致一些偏差。这种偏差会随着句子长度的增加而增大，最终导致模型生成的译文质量下降。虽然很多学者提出了缓解曝光偏差问题的方法，但这些方法训练时间长，模型参数大，计算成本相当昂贵。

发明内容

本发明提供了一种基于知识蒸馏的中英机器翻译方法，以解决现有技术中因解曝光偏差问题带来的翻译偏差的问题。

本发明提供了一种基于知识蒸馏的中英机器翻译方法，包括如下步骤：

步骤1：获取中英平行语料，并对平行语料中的每个句子进行预处理；

步骤2：设置翻译模型的编码器包括：Transformer encoder编码器；解码器包括：Transformer decoder解码器和Future decoder解码器，在翻译模型中增加知识蒸馏法模块，将步骤1中获取的预处理后的平行语料作为翻译模型的输入信息进行翻译模型训练，翻译模型通过知识蒸馏法将两个解码器进行交互；

步骤3：翻译模型训练完成后，去除翻译模型中的Future decoder解码器、知识蒸馏法模块；

步骤4：运用步骤3获取的翻译模型进行中英翻译。

进一步地，所述Transformer encoder编码器的数学描述为：

其中，

是源语言的词嵌入矩阵，X是源语言句子的one-hot矩阵,P_X是源句子的位置编码，LayerNorm(·)是layer normalization函数，E^t是第t个编码器的输出，E^N为Transformer encoder的输出，N为Transformer encoder堆叠的编码器个数。

进一步地，所述Transformer decoder解码器的数学描述为：

其中，

是目标语言的词嵌入矩阵，Y是目标语言句子的one-hot矩阵,P_Y是目标句子的位置编码，D^t是第t个解码器的输出，D^N为Transformer decoder的输出，N为Transformer decoder堆叠的解码器个数。

进一步地，所述Future decoder解码器将当前待处理单词之前位置的单词进行屏蔽，所述Future decoder解码器的输出向量以与所述Transformer decoder解码器的输出向量相反顺序排序。

进一步地，翻译模型通过知识蒸馏法将两个解码器进行交互的具体方法如下：

当翻译模型训练完数组句子时，翻译模型通过知识蒸馏法将Future decoder解码器的损失函数反向传递至Transformer decoder解码器。

进一步地，所述步骤1中所述预处理方法为：对每个句子进行分词和字节对编码。

本发明的有益效果：

本发明利用知识蒸馏可以有效实现知识迁移的特点，提出一种基于知识蒸馏的中英机器翻译方法，该方法使用两个解码器分别学习当前词与前文的联系和当前词与后文的联系，并使用知识蒸馏作为两个解码器交互的桥梁，使模型有效习得前后信息与当前位置词的联系，增加译文的流畅度，避免译文出现搭配不当的错误。相较于传统的采用teacherforcing策略的模型训练方法，本方法可以使模型有效习得前后信息与当前位置词的联系，显著缓解曝光偏差问题。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明具体实施例的方法架构图；

图2为本发明具体实施例中的两个解码器掩码方式的对比图；

图3为本发明具体实施例中的Transformer模型结构图；

图4为本发明具体实施例中的自注意力的计算图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于知识蒸馏的中英机器翻译方法，如图1-4所示，包括：

步骤1：从WMT18数据集官网获取中英平行语料，然后对每个句子进行预处理：分词和字节对编码。具体如下：从http://www.statmt.org/wmt14/下载中英新闻语料，使用Moses对英文句子进行分词和大小写转换，使用Standford Segmentor对中文句子进行分词。接着使用BPE-dropout算法将词分解成子词以降低词汇量。具体获得子词表的步骤是：1.准备语料，分解成最小单元比如英文中26个字母加上各种符号，这些作为初始词表；2.根据语料统计出现相邻符号对的频次；3.挑出频次最高符号对，比如说t和h组成的th，加入词表，训练语料中所有该相邻符号对融合(merge)，这里即所有t和h都变成th；4.重复2和3操作，直到词表中单词数达到设定量，比如32000。

BPE-dropout在BPE算法的基础上加入了一定的随机性。具体在每次对训练数据进行处理分词时，设定一定概率(如10％)让一些融合不通过，于是即使是相同词，每次用BPE-dropout生成出来的子词也都不一样。使用谷歌的sentence piece工具包实现对词的BPE-dropout处理。

步骤2：将经过预处理的语料输入到翻译模型进行训练，翻译模型的编码器为Transformer encoder，解码器为Transformer decoder和Future decoder，通过知识蒸馏技术将Future decoder学习的知识迁移至Transformer decoder，使模型有效习得前后信息与当前位置词的联系，具体如下：

步骤2.1：Transformer encoder：如图3所示，Transformer encoder端由N个相同的大模块(本实施例中取为6)堆叠而成，其中每个模块又由两个模块构成，这两个模块分别为多头自注意力模块和前馈神经网络模块。第一个大模块接收的输入是Input Embedding,其余大模块接收的前一个大模块的输出，最后一个大模块的输出作为整个编码器的输出。自注意力在整个Transformer结构中是最重要的结构单元，如图4所示，整个计算过程围绕着一个公式展开：

其中，K、Q、V三个向量是在训练过程中通过词向量与三个不同的权重矩阵分别相乘得到的。注意力函数可以描述为将查询和一组键值对映射到输出，其中query，key，value和output都是向量。

每一个encoder层的计算过程如下：

首先计算将输入词嵌入向量X＝(x₁，...，x_n)^r与位置编码T＝(t₁，...，t_n)^T相加得到加入位置信息的词嵌入X＝(x₁+t₁，...，x_n+t_n)^T供后续使用；

再将X输入多头自注意力层，注意力头数为8，计算XW_i ^Q＝Q_i，XW_i ^K＝K_i，XW_i ^V＝V_i，i＝1，...8，这里

最后计算自注意力和多头自注意力，进行残差连接和层标准化。

步骤2.2：Transformer decoder：如图3所示，Transformer decoder端同样由N个相同的大模块(这里取为6)堆叠而成，其中每个大模块又由三个模块构成，这三个模块分别为多头自注意力模块，编码器-解码器交互模块和前馈神经网络模块。

步骤2.3：Future decoder：Future decoder与Transformer decoder基本一致，也是由多头自注意力模块，编码器-解码器交互模块和前馈神经网络模块构成。两者唯一的区别是多头自注意力的掩码方式：Transformer decoder采用如图2(a)所示的掩码方式，在生成第i个位置的单词时，屏蔽矩阵对单词

进行屏蔽；而Future decoder采用如图2(b)所示的掩码方式，在生成第i个位置的单词时，屏蔽矩阵对单词

进行屏蔽。

步骤2.4：损失函数：给定句子对<X，Y*>，Transformer decoder计算当前位置的概率分布

Transformer decoder的交叉熵损失函数为

其中K是训练集的大小，I_k是第k个目标句子的长度。Future decoder计算当前位置的概率分布

其损失函数为

为了使两个解码器(Transformer decoder和Future decoder)在训练期间相互作用以及测试期间压缩模型，通过知识蒸馏将Future decoder学到的信息传递到Transformer decoder。知识蒸馏的损失函数为

其中|V|是目标词表的大小。总的训练损失为：

L＝L₂+λL₁+(1-λ)L₃

本实施例将λ设置为0.5。不同于传统的知识蒸馏方式，本实施例从头开始训练所有的参数，但在知识蒸馏过程中仍然保持Future decoder不变。具体来说，只通过L₂向Future decoder反向传播梯度，而不是通过L₃。

步骤3：翻译模型训练完成后，Transformer decoder已经通过知识蒸馏习得来自Future decoder的知识，为了降低计算成本，提升实际使用时的解码速度，去除模型中的Future decoder模块、知识蒸馏模块；

步骤4：运用步骤3获取的翻译模型进行中英翻译。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。