CN112183080A

CN112183080A - 一种基于词与词素混合模型的维汉机器翻译系统

Info

Publication number: CN112183080A
Application number: CN202011128812.6A
Authority: CN
Inventors: 艾斯卡尔·艾木都拉; 伊克萨尼·普尔凯提; 李斌
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-05

Abstract

本发明公开了一种基于词与词素混合模型的维汉机器翻译系统，所述系统包括编码器、词+词素混合模型和解码单元，所述混合粒度编码器主要以词为翻译单元，但对一些低频词以词素为翻译单元；所述词+词素混合模型对编码器的词进行处理时使用基于词的NMT进行处理，在对对编码器的词素，利用深度LTSM单独在词素层面处理。本发明能从翻译粒度方面出发，对词素和词两个不同粒度的翻译单元进行混合处理，将其作为神经网络机器翻译的混合翻译单元。同时针对词和词素的混合情况提出词+词素混合模型可以在词素层面处理集外词，提高神经网络机器翻译的性能。

Description

一种基于词与词素混合模型的维汉机器翻译系统

技术领域

本发明属于翻译技术领域，涉及一种基于词与词素混合模型的维汉机器翻译系统。

背景技术

神经网络翻译模型(neural machine translation model，NMT)是目前机器翻译中的主流模型，其通过神经网络实现一个端到端(end-to-end)的源语言和目标语言之间的翻译过程。其具体实现方式为通过一个编码器(encoder)对源语言进行一次向量编码，通过解码器(decoder)将向量编码解码成目标语言。同时注意力机制(attention)的引入给神经网络机器翻译的性能带来了一个质的提升。目前国际上顶级机器翻译比赛WMT中，神经网络翻译模型得到了广泛的应用。

目前，由于维汉相关翻译语料库的匮乏以及维吾尔语本身形态结构的复杂性，导致神经网络翻译模型在维汉机器翻译中的研究相比与英汉机器翻译中研究存在一定程度的滞后。其原因为英汉的语料规模在亿级的层次，而维汉语料仅仅在几十万级的层次。神经网络机器翻译模型的参数量多，语料匮乏的情况下会导致翻译效果达不到目标结果。同时维吾尔语属于黏着语，是一种形态变化丰富的语言。理论上有无限词表，并且神经网络翻译模型中词表的大小的限制也会产生OOV问题。

近年来也有学者不断对维汉机器翻译作出自己的贡献，从不同的角度对维汉机器翻译进行研究与发展。其中哈里旦木等人(2017)利用不同的神经网络机器翻译方法对维汉机器翻译进行对比分析，对维-汉机器翻译研究的工作有非常好的参考意义。张金超等人(2017)提出基于多编码器多解码器的大规模维汉神经网络机器翻译模型，在翻译粒度层面维吾尔语使用字节对编码，汉语端使用字单元，得到一个很好的翻译系统。张胜刚等人(2019)提出翻译单元上将基于词的翻译单元替换为基于词和亚词的混合翻译单元，从而提高翻译质量。对黏着语言机器翻译有一定的参考价值。张文等人(2018)提出的基于简单循环单元的深层神经网络机器翻译模型，利用简单循环网络(simple recurrent unit，SRU)代替传统的基于门控循环单元(gated recurrent unit，GRU)，有效的解决模型在训练的过程中由于梯度消失从而导致翻译性能下降的情况。

发明内容

本发明的目的在于提供一种基于词与词素混合模型的维汉机器翻译系统，对不同形态的维文进行维汉机器翻译试验，从中得到最适合维汉机器翻译的维文形态。针对维文的组成形式，我们利用词与词素作为维汉机器翻译中的翻译单元。从翻译粒度方面和模型方面对神经网络翻译模型进行一定优化，提出了混合词素与词的维汉神经网络机器翻译。其效果在一定程度上可以解决由于维吾尔语的黏着语特性而导致的翻译性能低下的问题。

其技术方案如下：

一种基于词与词素混合模型的维汉机器翻译系统，包括混合粒度编码器、词+词素混合模型和解码单元，所述混合粒度编码器主要以词为翻译单元，但对一些低频词以词素为翻译单元；所述词+词素混合模型对编码器的词进行处理时使用基于词的NMT进行处理，在对编码器的词素进行处理时，利用深度LTSM单独在词素层面处理低频词。进一步，解码单元是汉语词级为解码单元，因此损失函数还是常规的交叉熵损失函数，如式(1)所示。

J＝∑_(x，y)∈D ^-logp(y|x) (1)

其中D表示平行语料库，x与y表示源语言和目标语言。其中-log P(y|x)表示源语言到目标语言的概率表达式，如果log P(y|x)概率表达程度越大，源语言和目标语言越匹配。也就是说反过来，只要log P(y|x)的负值-log P(y|x)越小就行。样本的总的损失函数为J，损失函数J越小，说明平行语料库里面的源语言和目标语言翻译程度越匹配，翻译效果越好。

本发明的有益效果：

以词为翻译粒度进行翻译，由于维吾尔文是黏着语的原因，理论上可以产生无数个词。产生非常严重的OOV问题，从而导致翻译效果不佳。如果以词素为翻译粒度进行翻译，可以在一定程度上解决OOV问题所导致翻译效果不佳的问题，但经过词素化后的句子长度发生了一定的变化，句子长度过长会导致神经网络机器翻译的注意力机制效果不佳，从而导致神经网络机器翻译的效果在一定程度上下降。本发明能从翻译粒度方面出发，用混合粒度编码器对词素和词两个不同粒度的翻译单元进行混合处理，将其作为神经网络机器翻译的混合翻译单元。同时针对词和词素的混合情况提出词+词素混合模型可以在词素层面处理集外词，提高神经网络机器翻译的性能。

附图说明

图1为本发明基于词与词素混合模型的维汉机器翻译系统的结构示意图；

图2为本发明基于词与词素混合模型的维汉机器翻译系统的混合粒度编码器模块图；

图3为本发明基于词与词素混合模型的词+词素混合模型模块图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步详细地说明。

1混合粒度编码器

维吾尔语是一种黏着语，所以其组成方式为在词干上添加上词缀来实现不同的语义，所以在维汉机器翻译中会形成一种严重的数据稀疏问题。其中以表1为例，不同词缀的添加从而形成不同的含义，即可以构成无限词表。对句子进行词素化处理，如表2所示，在词表大小不变的情况下，可以更多的表示更多的词。但是，从表2中可以看出经过词素化处理的句子的长度会加长，而这一点会影响神经网络中注意力机制的效果。尽管词素可以非常好的解决神经网络词典大小的问题，但是句子长度会影响翻译的效果。

表1不同词缀带来的变化

表2维文句子词素化的对比

因此对词和词素从机器翻译的角度对文本长度和词典大小两个方面进行分析，经过分析我们们得出两者有各自相对应的特点，其中基于词为翻译单元的机器翻译系统的优点为句子长度较小，神经网络翻译系统中注意力机制可以更好的发挥作用，但是本身的词表限制也一定程度的影响着翻译系统的性能。基于词素为翻译单元的机器翻译系统可以在一定程度上解决词表限制问题。但当句子经过词素分词后句子本身的长度会变长，而这一因素导致神经网络中的注意力机制的性能降低，从而导致机器翻译的性能降低。其中两者的区别如表3所示。

表3词素和词机器翻译性能对比

表4不同粒度的翻译单元

由上表3可以看出虽然基于词为基本翻译单元的机器翻译系统的性能要优于基于词素为基本翻译单元的机器翻译系统。但是却存在着非常严重的OOV问题。因此，我们提出如图1所示的在翻译单元上混合使用词和词素进行机器翻译，这种方法不仅可以降低词表的大小，提高机器翻译的性能同时也避免了由于句子长度过长儿导致机器翻译性能降低的情况。在对混合策略进行选择时，我们提出一种针对高频词使用词素表示，对低频词使用词素来表示的一种混合粒度编码器。这种混合粒度编码器要由于传统仅仅基于词或者词素的编码器。其中，混合粒度编码器模块如图2所示。其中我们的混合粒度编码器主要以词为翻译单元，但对一些低频词以词素为翻译单元。在翻译过程中系统首先会从词典中找到对应的高频词进行编码处理，但对一些低频词而言无法在词典中，所以会把这些低频词进行词素分割，在词素词典中找到对应的词素。比如例句中“man mektepke barimen”对应的译句为“我去学校”中，“man”和“barimen”为高频词在词典中可以找到但是“mektepke”这一词汇却为低频词。因此将“mektepke”分割为词素我们将会得到“mektep”，“_ke”这两个词素。

经过对低频词进行词素分割后，我们就得到了经过混合粒度编码器处理后的句子，其中不同的翻译单元的句子如表3所示，混合粒度编码器处理后的句子不仅在一定程度上降低OOV问题，同时相对于由纯词素构成的句子而言比较短，有利于神经网络注意力机制的效果。

2词+词素混合模型

在神经网络模型方面我们参考了词-字符混合模型神经机器翻译的神经网络模型的特点即混合模型会按通常的基于词的NMT处理词汇库中的已有词。然后一个深度LSTM会单独在字符层面上处理未知词。比如“cute”是英语短语“a cute cat”中的一个集外词。那么在处理过程混合词-字符模型会把“cute”单独在字符层面进行处理，从而解决集外词的问题。

根据以上思路，本发明利用混合词-字符模型神经机器翻译中对集外词的处理思想。如图3所示，在词+词素混合模型中，对编码器的词进行处理时使用基于词的NMT进行处理，对编码器的词素单元，利用深度LTSM单独在词素层面处理词素。

当输入词汇为词时，直接输入到网络模型中，以词为翻译单元进行训练，当遇到词素是我们使用2层LSTM网络进行训练，将训练后的得到的结果进行表示。经过这种方式我们可以在词典大小不变的情况下，通过LSTM表示更多的词。整个神经网络翻译原理如表5所示，即通过对词和词素进行混合表示为基础翻译单元，同时利用一个双层LSTM进一步提高注意力机制的作用，从而提升整个翻译的性能。

表5结合词素与词的混合维汉神经网络机器翻译原理

3解码单元

在模型的设计过程，我们的解码单元是汉语词级为解码单元，因此损失函数还是常规的交叉熵损失函数，如式(1)所示。

其中D表示平行语料库，x与y表示源语言和目标语言。其中-log P(y|x)表示源语言到目标语言的概率表达式，如果log P(y|x)概率表达程度越大，源语言和目标语言越匹配。也就是说反过来，只要log P(y|x)的负值-log P(y|x)越小就行了。样本的总的损失函数为J，损失函数J越小，说明平行语料库里面的源语言和目标语言翻译程度越匹配。

4实验：

4.1实验环境和相关参数数据介绍

由于没有免费的公开数据库，本发明在实验室内部构建的平行语料库中进行实验，其中语料库大小为18万维汉平行句对儿。训练集(Training set)178110句对儿用于训练翻译模型，开发集(Development set)1000句对儿用于调整模型参数，测试集1000句对儿(Test set)用于测试模型。实验环境配置如表6所示。

表6实验环境配置

4.2实验结果及分析

在实验过程中，本发明分别从词，词素，词+词素三个不同粒度的翻译单元方面进行测试。由表7可以看出我们的混合词和词素为基础翻译单元的方法BLEU值要优于单独使用词或词素的NMT。同时因为词素的使用也在一定程度上解决了OOV问题的产生。

表7翻译结果评测结果

5结论：

本发明对不同形态的维文进行维汉机器翻译试验，从中得到最适合维汉机器翻译的维文形态。针对维文的组成形式，我们利用词与词素混合形式作为维汉机器翻译中的翻译单元。同时在模型设计方面提出词+词素混合素模型。其效果在一定程度上可以解决由于维吾尔语的黏着语特性而导致的翻译性能低下的问题。在后期研究过程中对词+词素的选择问题上不仅仅从词频的方面进行研究，同时考虑一些其他因素，比如词素长度，语句结构等问题。设计出一个更为高效的词素分割方法用于维汉机器翻译中。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.一种基于词与词素混合模型的维汉机器翻译系统，其特征在于：包括混合粒度编码器、混合词+词素模型和解码单元，所述混合粒度编码器主要以词为翻译单元，但对一些低频词以词素为翻译单元；所述词+词素混合模型对混合粒度编码器的词进行处理时使用基于词的NMT进行处理，在对混合粒度编码器的词素，利用深度LTSM单独在词素层面处理低频词。

2.根据权利要求1所述的基于词与词素混合模型的维汉机器翻译系统，其特征在于：包含混合粒度编码器，对高频词以词为翻译单元，对低频词以词素为翻译单元，在编码过程中，对词典中找到对应的高频词进行编码处理，对词典不存在的低频词进行词素分割，在词素词典中找到对应的词素从而进行编码处理。

3.根据权利要求1所述的基于词与词素混合模型的维汉机器翻译系统，其特征在于：词+词素混合模型对编码器的高频词进行处理时使用基于词的NMT进行处理，在对低频词进行处理是即将其分割成为词素单元，利用深度LTSM单独在词素层面处理低频词；当输入词汇为词时，直接输入到网络模型中，以词为翻译单元进行训练，当遇到词素是使用2层LSTM网络进行训练；在词典大小不变的情况下，提高整个网络的注意力机制。

4.根据权利要求1所述的基于词与词素混合模型的维汉机器翻译系统，其特征在于：对词素和词两个不同粒度的翻译单元进行混合处理，将其作为神经网络机器翻译的混合翻译单元；同时针对词和词素的混合情况提出词+词素混合模型在词素层面处理集外词，提高神经网络机器翻译的性能。