CN110674646A

CN110674646A - 一种基于字节对编码技术的蒙汉机器翻译系统

Info

Publication number: CN110674646A
Application number: CN201910844120.2A
Authority: CN
Inventors: 苏依拉; 王昊; 贺玉玺
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-10

Abstract

一种基于字节对编码技术的蒙汉机器翻译系统，首先，使用BPE技术对英汉平行语料以及蒙汉平行语料进行预处理，将英语，蒙古语及汉语单词全部分成单个字符，然后在词的范围内统计字符对出现的次数，每次将出现次数最多的字符对保存起来，直到循环次数结束。其次，利用经过预处理的英汉平行语料基于神经机器翻译框架进行训练。然后，将经过预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中，利用经过预处理的蒙汉平行语料训练神经机器翻译模型，得到基于字节对编码技术的蒙汉神经机器翻译原型系统。最后，将该系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价，达到最终提高蒙汉机器翻译性能的目的。

Description

一种基于字节对编码技术的蒙汉机器翻译系统

技术领域

本发明属于神经机器翻译技术领域，特别涉及一种基于字节对编码技术的蒙汉机器翻译系统。

背景技术

机器翻译指使用计算机自动地将一种自然语言转化为具有完全相同含义的另一种自然语言的过程。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。神经机器翻译采用一种新颖的解决机器翻译问题的系统，并且最近几年发展迅速，取得了许多重要成果。尤其是在翻译的流利度与准确性方面，神经机器翻译与传统的统计机器翻译相比，翻译结果更加顺畅。

但是，神经机器翻译也有一些亟待解决的难点。未登录词翻译是神经机器翻译的主要难点之一。因为神经机器翻译系统为了能够控制计算的复杂度，有着一个固定大小的词汇表，这就导致了其在翻译未登录词时有着严重的不足。由于限定词汇表有大小限制，对于未出现在该词汇表中的词，神经机器翻译系统用UNK标记来替代。然而神经机器翻译系统不仅无法将它们翻译准确，而且破坏了句子的结构特征。而蒙语属于黏着语，句子的结构一旦变化，表达的意思也会随之进行变化，甚至出现严重语病，在使用原有系统进行翻译时，经常由于一个长句中出现未登录词而导致翻译偏差。又由于蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性，使得蒙汉翻译过程中出现了大量的未登录词，进而给蒙汉翻译工作带来更多的麻烦。

目前，已经有一些神经机器翻译技术针对低资源语言存在未登录词，无法准确翻译问题被提出。由于蒙-汉翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译译文质量并不理想，翻译结果仍存在严重偏差。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于字节对编码技术的蒙汉机器翻译系统，针对蒙-汉翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译结果仍存在严重偏差等问题，使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理，将英语，蒙古语及汉语单词全部分成单个字符，在词的范围内统计字符对出现的次数，每次将出现次数最多的字符对保存起来。从而极大地保存了句子的结构特征和流畅性，降低了蒙汉翻译中蒙语未登录词个数，解决了蒙语中存在大量未登录词问题。然后利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练。再将经过BPE技术预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中，利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型，进而较大提升蒙汉机器翻译性能。

为了实现上述目的，本发明采用的技术方案是：

一种基于字节对编码技术的蒙汉机器翻译系统，其过程为：

首先，使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理，将英语、蒙古语及汉语单词全部分成单个字符，然后在词的范围内统计字符对出现的次数，每次将出现次数最多的字符对保存起来，直到循环次数结束；

其次，利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练；

然后，将训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中，利用经过BPE技术预处理的蒙汉平行语料基于神经机器翻译框架进行训练，得到基于字节对编码技术的蒙汉神经机器翻译原型系统；

最后，将基于字节对编码技术的蒙汉神经机器翻译系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价，达到最终提高蒙汉机器翻译性能的目的。

所述字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理，其步骤为：

首先，将语料库中英语、蒙语、汉语所有单词的组成字符加入字典，作为初始化字典，将所有单词变成字符分割的形式，并在的末尾加入标记，方便在输出句子后回复分词信息；

其次，对语料中的字符对计数，找出次数最多的字符对(A，B)，并在语料中将其用“AB”代替，从而在字典中增加键值“AB”，此步骤称为合并操作；

然后对上一步操作迭代n次，直到已经学习了一定数量的合并操作；

最后，字典由字符、词素和词语等组成，此时字典大小＝初始字典大小+合并操作次数n。

所述基于神经机器翻译框架进行训练，该神经网络翻译框架的的网络类型是RNN循环神经网络，RNN循环神经网络前向传播算法中，对于任意一个序列索引号t，隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到：

h(t)＝σ(Ux(t)+Wh(t-1)+b)

其中，σ为循环神经网络的激活函数，一般为tanh，b为线性关系的偏置，序列索引号t模型的输出o(t)的表示为o(t)＝Vh(t)+d，最终在序列索引号t时预测输出为d为输出结点的偏置，U，V，W是循环神经网络中共享的参数矩阵。

所述神经机器翻译框架公式为：

其中，是模型的参数，

是非线性函数，y_n是当前目标语言词，x是源语言句子，y＜n是已经生成的目标语言句子，V_y是目标语言词向量，D是目标语言词汇表，C_s是源语言上下文向量，C_t目标语言上下文向量。

所述两次模型训练中，编码器和解码器进行联合训练，公式为：

其中，θ是模型的参数，p是条件概率函数，(x_n，y_n)表示双语训练语料，N是训练样本数量，采用极大似然估计算法训练样本。

所述编码器的编码步骤为：首先，该双向循环神经网络正向和反向读入输入的序列X＝(x₁，x₂，...，x_m)，其中X为经过BPE技术预处理后的双语语料句子序列，x₁，x₂，...，x_m为经过BPE技术预处理后的双语语料子词序列。其次，分别输出正向隐藏状态序列和反向隐藏状态序列，其中m为源端单词的个数，最终将上述正向隐藏状态序列与反向隐藏状态序列拼接成为一个新的序列。

所述解码器是利用基于注意力机制的单向循环神经网络去预测目标端序列Y＝(y₁，y₂，...，y_n)，y₁，y₂，...，y_n为目标端的单词序列，n为目标端单词的个数，每个单词y_i由隐藏状态s_i预测的前一单词y_i-1和一个源端向量c_i所决定，p(y_i|y₁，...，y_i-1，x)＝g(y_i-1，s_i，c_i)，s_i为循环神经网络第i时刻的隐藏状态，s_i＝f(s_i-1，y_i-1，c_i)，c_i为注意力向量，c_i＝∑_ja_ijh_j，

通过对齐模型a_ij计算每个注释h_j的权重，该对齐模型a_ij模拟y_i与x_j对齐的概率，

是一个通过源端隐层状态h_j和目标端前一隐层状态s_i-1计算出的匹配程度。

所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，利用训练好的翻译模型参数权重，对蒙汉神经网络进行参数初始化代替随机初始化，实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。

所述利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型时，英汉和蒙汉翻译模型的包括词典大小、词向量大小、隐藏层大小在内的参数设置一致。

所述BLEU值是用来评估机器翻译译文质量的工具，分数越高说明机器翻译模型性能越好，BLEU值的公式为：

其中，w_n＝1/M，M是译文和参考译文的组词数，M的上限取值为4，p_n代表n元语法准确率，BP代表译文较短惩罚因子：

BP＝e^{min(1-r/h，0)}

其中，h为候选译文中单词的个数，r是与h长度最接近的参考译文长度。

与现有的蒙汉机器翻译系统相比，本发明首先使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理，将英语，蒙古语及汉语单词全部分成单个字符，在词的范围内统计字符对出现的次数，每次将出现次数最多的字符对保存起来。从而极大地保存了句子的结构特征和流畅性，降低了蒙汉翻译中蒙语未登录词个数，解决了蒙语中存在大量未登录词问题。然后利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练。再将经过BPE技术预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中，利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型，

本发明提出的基于字节对编码技术的蒙汉机器翻译系统简单可行，有效降低了蒙汉翻译中蒙语未登录词个数，解决了蒙语中存在大量未登录词导致翻译结果存在严重偏差问题，进而较大提升蒙汉机器翻译性能。

附图说明

图1是实现一种基于字节对编码技术的蒙汉机器翻译系统的流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明从降低蒙汉翻译中蒙语未登录词个数和提高蒙汉机器翻译译文质量的角度出发，针对蒙语-汉语翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译结果仍存在严重偏差等问题提出了一种基于字节对编码技术的蒙汉机器翻译系统，其实现过程如下：

1、对语料进行基于BPE技术的数据预处理问题

首先，将语料库中英语、蒙语、汉语所有单词的组成字符加入字典，作为初始化字典。将所有单词变成字符分割的形式，并在的末尾加入特殊标记，方便在输出句子后回复分词信息；其次，对语料中的字符对计数，找出次数最多的字符对(A，B)，并在语料中将其用“AB”代替，如此就会在字典中增加键值“AB”。此步骤称为合并操作；然后对上一步操作迭代n次，直到已经学习了一定数量的合并操作；最后，字典由字符、词素和词语等组成。

字典大小＝初始字典大小+合并操作次数n。

2、统计机器翻译和神经机器翻译建模问题

A.统计机器翻译模型描述：统计机器翻译的核心问题就是用统计系统从双语语料中自动学习翻译模型，然后基于此翻译模型，对源语言句子从翻译候选集中寻找一个评分最高的目标句子作为最佳翻译译文。根据噪声通道模型目标语言T作为噪声信道模型的输入，经过噪声信道编码以后，将输出相应的序列，这个序列即为源语言S。而统计机器翻译的目标就是将根据源语言S反编码得到相应的目标语言T，这个过程又被称为解码或翻译。统计机器翻译模型公式：

argmaxPr(T|S)＝argmaxPr(S|T)Pr(T)

其中，Pr(T)表示目标语言的语言模型，而Pr(S|T)表示双语间的翻译模型，该公式被称为统计机器翻译的基本方程式。

B.神经机器翻译模型描述：神经机器翻译是一种使用神经网络直接获取自然语言之间的映射关系的机器翻译系统。神经机器翻译(NMT)的非线性映射不同于线性的统计机器翻译(SMT)模型，神经机器翻译利用连接编码器和解码器的状态向量来描述双语语义的等价关系。基于深度学习的神经机器翻译系统目前超过了传统的统计机器翻译系统，成为新的主流技术。利用神经网络实现自然语言的映射(即机器翻译)的核心问题是条件概率建模，神经机器翻译建模公式：

其中，

是模型的参数，

C.机器翻译译文质量评价指标即BLEU值是用来评估机器翻译译文质量的工具，分数越高说明机器翻译模型性能越好。BLEU值的公式为：

BP＝e^{min(1-r/h，0)}

3、基于循环神经网络(RNN)编码器解码器构架问题

循环神经网络相对于传统的神经网络来说对于把握上下文之间的关系更为擅长，因此常用在自然语言处理的相关任务中。想要预测句子的下一个单词，一般情况下需要用到句子中前面出现的单词，因为一个句子中前后单词并不是独立的。循环神经网络中当前的输出取决于当前输入和前面的输出，RNN是具有一定记忆功能的神经网络。编码器解码器模型(Encoder-Decoder)是神经网络机器翻译模型之一，编码器读取源语言句子，编码器的主要任务是将源语言句子编码成维数固定的实数向量，该向量代表了源语言语义信息；解码器部分读取代表源语言语义信息的实数向量，然后依次生成对应的目标语言词语序列，直到遇到句尾结束符标志着翻译过程的结束。

A.编码器的编码步骤为：首先，该双向循环神经网络正向和反向读入输入的序列X＝(x₁，x₂，...，x_m)，其中X为经过BPE技术预处理后的双语语料句子序列，x₁，x₂，...，x_m为经过BPE技术预处理后的双语语料子词序列。其次，分别输出正向和反向隐藏状态序列

其中m为源端单词的个数。最终将上述正向隐藏状态序列与反向隐藏状态序列拼接为一个新的序列

B.解码器是利用基于注意力机制的单向循环神经网络去预测目标端序列Y＝(y₁，y₂，...，y_n)，y₁，y₂，...，y_n为目标端的单词序列，n为目标端单词的个数，每个单词y_i由隐藏状态s_i预测的前一单词y_i-1和一个源端向量c_i所决定，

p(y_i|y₁，...，y_i-1，x)＝g(y_i-1，s_i，c_i)s_i为循环神经网络第i时刻的隐藏状态，计算通过：

s_i＝f(s_i-1，y_i-1，c_i)c_i也即注意力向量，具体计算公式如下：

4、神经网络前向传播算法以及翻译模型训练问题

A.循环神经网络训练过程中前向传播算法中，对于任意一个序列索引号t，隐藏层状态h^(t)由输入序列x^(t)和前一时刻隐藏层状态h^(t-1)得到：

h^(t)＝σ(Ux^(t)+Wh^(t-1)+b)

其中，σ为循环神经网络的激活函数，一般为tanh，b为线性关系的偏置，序列索引号t模型的输出o^(t)的表示为o^(t)＝Vh^(t)+d，最终在序列索引号t时预测输出为

d为输出结点的偏置，U，V，W是循环神经网络中共享的参数矩阵。

B.给定平行语料库，神经机器翻译的较常用的训练系统是极大似然估计，本发明中神经网络训练采用编码器和解码器进行联合训练，模型训练公式为：

5、注意力机制问题

在神经机器翻译最初翻译效果并不是很理想，没有超过基于统计系统的机器翻译质量。随着用于机器翻译的端到端编码器-解码器框架提出以及将注意力机制引入到神经机器翻译框架中，使得神经机器翻译的表现得到显著提升并且逐渐确定了神经机器翻译框架主要的构成架构。普通神经网络翻译模型将源语言句子表示成一个固定维度的实数向量，该系统存在不足之处，比如大小固定的向量并不能充分表达出源语言句子语义信息。将注意力机制加入到神经机器翻译模型中，在生成目标语言词语时，通过注意力机制动态寻找与生成该词相关的源语言词语信息，从而增强了神经网络机器翻译模型的表达能力，并且在相关实验中显著提高了翻译效果。采用注意力机制时，公式8重新定义为：

p(y_t|{y₁，...，y_t-1}，x)＝g(y_t-1，s_t，c_i)

s_t是t时刻循环神经网络的隐藏状态，由如下公式得出：

s_t＝f(s_t-1，y_t-1，c_t)

g、f是非线性函数，上下文向量(Context Vector)c_t依赖于源语言编码序列(h₁，h₂，...，h_l)，h_i包含第i个输入词上下文信息。c_t计算系统如下公式：

a_tj是h_j的权重，计算系统如下公式：

其中，e_tj＝a(s_t-1，h_j)是对齐模型，计算出t时刻生成词与第j个源语言词的匹配程度。相比普通的神经网络机器翻译，该系统在解码时融合了更多的源语言端信息，可以显著提升机器翻译效果。

参考图1，本发明一种基于字节对编码技术的蒙汉机器翻译系统具体实现步骤可描述如下：

01：使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理，将英语，蒙古语及汉语单词全部分成单个字符，然后在词的范围内统计字符对出现的次数，每次将出现次数最多的字符对保存起来，直到循环次数结束。

02：构建RNN循环神经机器翻译模型构架，包括编码器和解码器；

03：利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练；

04：将经过BPE技术预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中，利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型；

05：利用BLEU值对测试集进行译文评测。

为使本发明的蒙汉翻译流程更加清楚，下面将就一句蒙语到汉语句子翻译过程作进一步的详细描述。

对蒙古语句子进行翻译过程如下：

01：编码器将蒙古语句子压缩为固定维度的实数向量，该向量代表着源语言句子语义信息；

02：解码器将该向量反向解码成对应的目标语言句子，注意力机制在解码器生成每个目标语言词时动态寻找和当前词相关的源语言上下文，例如当生成汉语词“工作”时，蒙文词

与之最相关；

03：对翻译译文就BLEU值评测；

04：得到完整的汉语翻译译文“这项工作需要我们很长时间完成。”。

Claims

1.一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，其过程为：

2.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理，其步骤为：

其次，对语料中的字符对计数，找出次数最多的字符对(A,B)，并在语料中将其用“AB”代替，从而在字典中增加键值“AB”，此步骤称为合并操作；

3.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述基于神经机器翻译框架进行训练，该神经网络翻译框架的的网络类型是RNN循环神经网络，RNN循环神经网络前向传播算法中，对于任意一个序列索引号t，隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到：

h(t)＝σ(Ux(t)+Wh(t-1)+b)

其中，σ为循环神经网络的激活函数，一般为tanh，b为线性关系的偏置，序列索引号t模型的输出o(t)的表示为o(t)＝Vh(t)+d，最终在序列索引号t时预测输出为

4.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述神经机器翻译框架公式为：

其中，

是模型的参数，

是非线性函数，y_n是当前目标语言词，x是源语言句子，y<n是已经生成的目标语言句子，V_y是目标语言词向量，D是目标语言词汇表，C_s是源语言上下文向量，C_t目标语言上下文向量。

5.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述两次模型训练中，编码器和解码器进行联合训练，公式为：

其中，θ是模型的参数，p是条件概率函数，(x_n,y_n)表示双语训练语料，N是训练样本数量，采用极大似然估计算法训练样本。

6.根据权利要求5所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述编码器的编码步骤为：首先，该双向循环神经网络正向和反向读入输入的序列X＝(x₁，x₂，…，x_m)，其中X为经过BPE技术预处理后的双语语料句子序列，x₁，x₂，…，x_m为经过BPE技术预处理后的双语语料子词序列。其次，分别输出正向隐藏状态序列和反向隐藏状态序列，其中m为源端单词的个数，最终将上述正向隐藏状态序列与反向隐藏状态序列拼接成为一个新的序列。

7.根据权利要求5所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述解码器是利用基于注意力机制的单向循环神经网络去预测目标端序列Y＝(y₁,y₂,…,y_n)，y₁,y₂,…,y_n为目标端的单词序列，n为目标端单词的个数，每个单词y_i由隐藏状态s_i预测的前一单词y_i-1和一个源端向量c_i所决定，p(y_i|y₁,...,y_i-1,x)＝g(y_i-1,s_i,c_i)，s_i为循环神经网络第i时刻的隐藏状态，s_i＝f(s_i-1,y_i-1,c_i)，c_i为注意力向量，c_i＝∑_ja_ijh_j，

8.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，利用训练好的翻译模型参数权重，对蒙汉神经网络进行参数初始化代替随机初始化，实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。

9.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型时，英汉和蒙汉翻译模型的包括词典大小、词向量大小、隐藏层大小在内的参数设置一致。

10.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统，其特征在于，所述BLEU值是用来评估机器翻译译文质量的工具，分数越高说明机器翻译模型性能越好，BLEU值的公式为：

BP＝e^min(1-r/h,0)