CN110502759B

CN110502759B - 融入分类词典的汉越混合网络神经机器翻译集外词处理方法

Info

Publication number: CN110502759B
Application number: CN201910635168.2A
Authority: CN
Inventors: 余正涛; 徐毓; 赖华; 郭军军; 车万金; 王红斌; 线岩团
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2022-07-19
Anticipated expiration: 2039-07-15
Also published as: CN110502759A

Abstract

本发明涉及融入分类词典的汉越混合网络神经机器翻译集外词处理方法，属于资源稀缺型语言神经机器翻译技术领域。本发明首先进行分类词典的构建；再将切分后的源语言句子通过扫描查找分类词典的方法进行合并恢复句子中的规则短语，然后用RNNSearch中的编码器对这些短语进行标签标记；再采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码，并生成最终翻译。本发明通过融入分类词典和构建混合网络的方法，有效的缓解了资源稀缺型语言机器翻译的集外词问题，提高了翻译的准确率。

Description

融入分类词典的汉越混合网络神经机器翻译集外词处理方法

技术领域

本发明涉及融入分类词典的汉越混合网络神经机器翻译集外词处理方法，属于资源稀缺型语言神经机器翻译技术领域。

背景技术

目前神经机器翻译为了控制与目标词汇量大小成比例增长的计算复杂性，大多数神经机器翻译系统将词表限制为只包含源语言和目标语言语料中的3万到8万个常见单词，除此以外的词称为集外词，集外词问题在神经机器翻译中始终是研究的热点，对于翻译性能的影响非常巨大，如何处理集外词问题一直是神经机器翻译的主要研究方向。

在资源稀缺型语言的神经机器翻译中，关于这个问题的工作很少，目前对于处理集外词问题有以下几种主流方法：第一类方法侧重于对softmax的改进。Caglar Gulcehre等人提出使用两个softmax层，用于预测原输入语句中某个词的位置和预定词表中的单词。第二类方法使用较小的翻译粒度来进来建模。Sennrich等人提出使用BPE算法对子词建模。Costa-jussa等人提出基于字符来产生词嵌入的方法。第三类方法使用大规模词典集和替换技术。Li等人提出集外词“替换－翻译－恢复”的方法。Jean等人使用大字典在softmax时进行采样，提出了一种基于重要性抽样的近似训练算法，可以训练一个具有更大目标词汇的神经机器翻译模型。以上工作没有过多涉及双语词典等外部知识的融入，同时没有对集外词本身的特点进行研究。

发明内容

本发明提供了融入分类词典的汉越混合网络神经机器翻译集外词处理方法，以用于解决资源稀缺型语言神经机器翻译中的集外词处理问题，显著提高了汉越神经机器翻译的性能，同时在验证翻译准确性的实验中，相较于基准模型，本发明在翻译集外词时更为准确，提高了翻译的准确率。

本发明的技术方案是：融入分类词典的汉越混合网络神经机器翻译集外词处理方法的具体步骤如下：

Step1、分类词典的构建；根据集外词的分类来构建分类词典，构建好的分类词典中包括双语词典、实体词典和规则词典；

Step2、首先对文本进行预处理，具体为：将切分后的源语言句子通过扫描查找分类词典的方法进行合并恢复句子中的规则短语，然后用RNNSearch中的编码器对这些短语进行标签标记；

Step3、构建基于RNNsearch的汉越混合网络解码器并生成最终翻译；采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码，并生成最终翻译。

作为本发明的优选方案，所述步骤Step1具体包括：

集外词被分为三类，一是稀有词，即模型词表外的词，二是实体，包括人名、地名、组织机构名和专有名词；三是数字、日期、符号和时间；构建的分类词典中主要包括双语词典、实体词典和规则词典；

双语词典的构建包括两个方面，一方面使用GIZA++词对齐工具对双语语料进行处理得到对齐结果，在对齐结果中排除模型词表内的词，对于一对多的情况，只保留对齐概率最大的记录。另一方面在词典中还加入了部分人工整理添加的双语词典。实体词典的构建，主要基于维基百科进行词条抽取。页面的词条很多实体词，在左下角会有对应的“Languages”可以链接到越南语的翻译，该链接的HTML信息中包括了翻译后的词汇，对此进行抽取来构建实体词典。对部分稀有词同时存在于双语词典和实体词典中的情况，采用建立优先级的方法优先扫描实体词典进行翻译。规则词典采用基于规则的方法，对语料中的数字、日期等词进行正则化处理。这样构建好的分类词典中包括了多种不同类型的集外词，有效的提高了集外词的翻译准确性。

分类词典的构建如下表1所示：

表1分类词典的类型和内容

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、分类词典用于在编码之前对句子对进行预处理。为了标记一个源语句

需要找到它包含的短语。将找出源语句x里，存在中的规则短语，并将这些规则表示为P_x。还需要找到P_x在目标句子y的对应词记作Q_x。P_x和Q_x将源句和目标句的单词分成组，如附图2所示。源句x中的单词分为两组，短语和单词，而目标句y中的单词分为两组，短语和单词。

通过将切分后的词进行处理，查找分类词典进行对源语言句子中错切的短语进行处理，其中，对切分后的源语言句子通过扫描查找分类词典的方法进行恢复合并规则短语，对于这样的词主要在我们的分类词典中，我们使用RNNSearch中的常规编码器将该语句编码为表示形式，在编码的时候进行标签化标记，用于帮助模型定位和区分短语和单词，标签用于帮助模型定位和区分短语和单词，便于解码时可以清楚的确定这些集外词然后通过分类词典整体进行翻译。如附图3所示，在句子x中我们将合并后的短语标记为1，其余单词标记为0，这样为了后期解码的时候可以识别1或者0从而选择短语模式还是单词模式。

作为本发明的优选方案，所述步骤Step3中：

使用带门控单元的RNN解码器来生成最终的翻译结果，分为短语模式和词级模式；

短语模式为通过分类词典进行短语翻译，这类短语大多为前面提到的三类集外词，包括一是稀有词，二是实体，包括人名、地名、组织机构名和专有名词；三是数字、日期、符号和时间；

词级模式主要分为两种情况：一种情况是翻译的词本身在模型的词表中，对于这类集内词直接通过模型的词表翻译生成；另一种情况是该词不在词表中，即为集外词，这类的词同样通过查找融入的分类词典进行翻译生成。

作为本发明的优选方案，所述步骤Step3中：

在RNNsearch解码器中只包含了单词模式，本方法的解码器增加了短语模式，解码时不同的解码模式分别对应不同的翻译粒度，有效的提升了解码速度和翻译准确性。对于有两个词或以上的目标短语p_t＝(y_t,y_t+1)，它通过短语模式整体生成。这样该解码器具有两个功能，一方面对于短语的翻译可以通过分类词典进行翻译；另一方面对于单词的翻译，如果这个词在模型的词表中，则可直接进行翻译，如果不在则为集外词，可通过查找分类词典进行翻译。解码器的结构如附图4所示：

解码器模型中通过一个门控单元来决定在t时刻使用哪个解码模式，其中门控单元是二进制指示符变量，§∈{0，1}，0代表词级模式，1代表短语模式；对于模型简单分为三种情况：

Ⅰ：当通过门控单元确定为1时，则通过短语模式进行翻译，此时需要查找分类词典进行翻译。结合附图2可知，在翻译

后面的词时，源语言中为“珍珠港”，通过标记后由查找分类词典翻译得到“

Chu

Ⅱ：当通过门控单元确定为0时，则通过词级模式进行翻译。当翻译的词不在模型的词表V中时，为集外词，则通过查找分类词典进行翻译。由于正常翻译的时候下一次词为“珍珠”这个词在词表V中，所以通过Ⅲ进行翻译。

Ⅲ：当通过门控单元确定为0时，则通过词级模式进行翻译。这里为当翻译的词在模型的词表V中，则通过查找模型词表进行翻译。结合附图2和附图4，抛开短语模式来看，正常翻译的时候下一次词为“珍珠”，而且“珍珠”这个词在词表V 中，得到最后的翻译为“

trai”。

由此可以看出，短语模式的翻译和词级模式的翻译翻译结果不同。通过词级模式得到的翻译结果为“

trai”，这里仅仅单指“珍珠”这个词的翻译，放在“珍珠港”这个语境下完全不正确，通过短语模式得到的翻译结果“

Chu

”为正确的“珍珠港”的翻译结果。

本发明的有益效果是：

本发明通过融入分类词典和构建混合网络的方法，在资源稀缺型语言机器翻译领域构造了融入分类词典的汉越混合网络神经机器翻译集外词处理方法，有效的缓解了资源稀缺型语言机器翻译的集外词问题，提高了翻译的准确率。

附图说明

图1是本发明的流程图；

图2是本发明源语言和目标语言句子中的短语对应关系图；

图3是本发明基于RNNSearch的汉越编码器结构图；

图4是本发明基于RNNSearch的汉越混合网络解码器结构图。

具体实施方式

实施例1：如图1-4所示，融入分类词典的汉越混合网络神经机器翻译集外词处理方法，具体步骤如下：

Step1、构建分类词典：根据集外词的分类来构建分类词典，构建好的分类词典中包括双语词典、实体词典和规则词典；

双语词典使用GIZA++词对齐工具对汉越双语语料进行处理，在对齐结果中排除模型词表内的词，同时加入部分人工整理添加的双语词典，最终构建了规模为 8735的双语词典。实体词典基于维基百科进行词条抽取，根据链接的HTML信息抽取了人名实体数量6418，地名实体数量2934，组织机构名实体数量5026，专有名词实体数量4363的共计18741的实体词典。规则词典采用基于规则的方法，对语料中的数字、日期等词进行正则化处理；

Step2、首先对文本进行预处理，具体为：实验中采用的汉越双语语料规模为20万，分为10万和20万分别实验。在融入本文方法之前对双语语料做Clean和 Tokenize处理。然后将源语句分词，对切分后的源语句通过查找构建好的分类词典对句子中错切的短语进行恢复合并处理，之后使用RNNSearch中的常规编码器，对短语进行标签标记。短语标记为1，其余单词标记为0；

Step3、采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码，并生成最终翻译。解码过程中当通过门控单元确定为1时，则通过短语模式进行翻译。此时查找分类词典进行翻译。当通过门控单元确定为0时，则通过词级模式进行翻译。这里为当翻译的词不在模型的词表V中，为集外词，通过查找分类词典进行翻译。当通过门控单元确定为0时，则通过词级模式进行翻译。这里为当翻译的词在模型的词表V中，则通过查找模型词表进行翻译。

其中，短语模式为通过分类词典进行短语翻译，这类短语大多为前面提到的三类集外词，包括一是稀有词，二是实体，包括人名、地名、组织机构名和专有名词；三是数字、日期、符号和时间；

本实施例中，实验分为五个部分进行，分别是Moses、RNNSearch(语料规模为10万)、RNNSearch(语料规模为20万)、本文方法(语料规模为10万)和本文方法(语料规模为20万)。每部分中均存在双向翻译，包括汉语-越南语、越南语 -汉语，总共10组实验。同时为了验证翻译的准确性，给出三组汉语的源语言句子和越南语译文，来比较RNNSearch模型和本文方法翻译结果的质量。表2为融入分类词典的汉越混合网络神经机器翻译实验结果。

表2：融入分类词典的汉越混合网络神经机器翻译实验结果

从表2可以看出，对于相同规模的10万训练语料，在汉语-越南语翻译方向下，本文方法比RNNSearch有1.68个BLEU值提升；在越南语-汉语翻译方向下，本文方法比RNNSearch有2.42个BLEU值提升。对于相同规模的20万训练语料，在汉语-越南语翻译方向下，本文方法比RNNSearch有1.57个BLEU值提升；在越南语- 汉语翻译方向下，本文方法比RNNSearch有1.82个BLEU值提升。本文方法显著提升了汉越神经机器翻译性能，很好的缓解了资源稀缺型语言神经机器翻译中的集外词问题，提高了翻译准确率。

表3为为了验证翻译的准确性所作的三组翻译示例分析。

表3：三组翻译示例分析

从表3可以看出，在第一组中，RNNSearch模型可以将河内军队文化艺术大学翻译为

但与正确的译文有差别。对于人名“胡光孝”不能很好的翻译，原因是人名在训练语料中出现的次数很少，最后通过UNK代替。而本文中的方法可以很好的将源语言句子里面的日期、人名和专有名词翻译出来。第二组和第三组的实验结果也是类似。可以发现本文方法相较于 RNNSearch模型，在翻译集外词时更为准确，说明这种融入分类词典的汉越混合网络神经机器翻译集外词处理方法在资源稀缺型语言神经机器翻译中处理集外词是可实用的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融入分类词典的汉越混合网络神经机器翻译集外词处理方法，其特征在于：

具体步骤如下：

Step3、构建基于RNNsearch的汉越混合网络解码器并生成最终翻译；采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码，并生成最终翻译；

所述步骤Step3中：

词级模式主要分为两种情况：一种情况是翻译的词本身在模型的词表中，对于这类集内词直接通过模型的词表翻译生成；另一种情况是该词不在词表中，即为集外词，这类的词同样通过查找融入的分类词典进行翻译生成；

所述步骤Step3中：

解码器模型中通过一个门控单元来决定在t时刻使用哪个解码模式，其中门控单元是二进制指示符变量，§∈{0，1}，0代表词级模式，1代表短语模式；对于模型简单分为三种情况：Ⅰ：当通过门控单元确定为1时，则通过短语模式进行翻译，此时需要查找分类词典进行翻译；Ⅱ：当通过门控单元确定为0时，则通过词级模式进行翻译，这里为当翻译的词不在模型的词表中，为集外词，则通过查找分类词典进行翻译；Ⅲ：当通过门控单元确定为0时，则通过词级模式进行翻译，这里为当翻译的词在模型的词表中，则通过查找模型词表进行翻译。

2.根据权利要求1所述的融入分类词典的汉越混合网络神经机器翻译集外词处理方法，其特征在于：所述步骤Step1具体包括：

集外词被分为三类，一是稀有词，即模型词表外的词，二是实体，包括人名、地名、组织机构名和专有名词；三是数字、日期、符号和时间；构建的分类词典中主要包括双语词典、实体词典和规则词典；双语词典的构建一方面使用GIZA++词对齐对语料进行对齐处理，对对齐结果排除词表内的词；另一方面在词典中加入部分人工整理添加的双语词典；实体词典的构建主要基于维基百科进行词条抽取；规则词典的构建采用基于规则方法，对语料进行正则化处理。

3.根据权利要求1所述的融入分类词典的汉越混合网络神经机器翻译集外词处理方法，其特征在于：所述步骤Step2的具体步骤为：

首先对切分后的源语言句子通过扫描查找分类词典的方法进行恢复合并规则短语，然后使用RNNSearch中的编码器将源语言句子编码为表示形式，在编码的时候进行标签化标记，用于帮助模型定位和区分短语和单词；将合并后的短语标记为1，其余单词标记为0。