CN110457715A

CN110457715A - 融入分类词典的汉越神经机器翻译集外词处理方法

Info

Publication number: CN110457715A
Application number: CN201910634905.7A
Authority: CN
Inventors: 赖华; 贾承勋; 余正涛; 朱恩昌; 车万金; 文永华; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-15
Anticipated expiration: 2039-07-15
Also published as: CN110457715B

Abstract

本发明涉及融入分类词典的汉越神经机器翻译集外词处理方法，属于自然语言处理技术领域。本发明对集外词进行了分类，并且发现不同类别的集外词可以采用不同的方法处理，然后有针对性的构建出分类词典，其中双语词典用以解决词表外稀有词的翻译问题，实体词典用以解决实体词翻译不准确的问题，规则词典用以解决数字、符号、时间和日期等词的翻译问题，然后在模型的前处理阶段通过查询分类词典进行集外词识别后，在模型的编码端对集外词进行标签替换，经过模型翻译后得到带有标签的翻译结果，再通过查询分类词典对标签进行翻译恢复。本发明通过将分类词典融入神经机器翻译，能更加准确的对集外词进行翻译，从而提升神经机器翻译系统的性能和效果。

Description

融入分类词典的汉越神经机器翻译集外词处理方法

技术领域

本发明涉及融入分类词典的汉越神经机器翻译集外词处理方法，属于自然语言处理技术领域。

背景技术

神经机器翻译是近几年提出的机器翻译方法，在资源丰富的翻译任务中取得了很好的效果，但在低资源语言神经机器翻译中的效果并不理想。为了控制与目标词汇量大小成比例增长的计算复杂性，大多数神经机器翻译系统将词表限制为只包含平行数据中的3万到8万个常见单词，除此以外的词称为集外词，进行翻译时将集外词转换为UNK符号。这种方法的明显的问题是神经机器翻译模型不能有效地翻译集外词，无意义的UNK符号会增加句子的含糊性，直接影响了神经机器翻译的翻译质量。由于资源稀缺型语言的神经机器翻译本身语料规模不足，所以词语的覆盖程度较小，直接导致了词表中的词语较少，所以集外词问题会更加严重，导致模型的翻译效果很不理想。

集外词问题的处理是神经机器翻译中的研究热点，很大程度的影响了系统的翻译性能。在资源稀缺型语言的神经机器翻译中，集外词问题一般是通过找寻其他翻译资源，来缓解此类问题，但这样做会直接额影响到周围单词的翻译效果，导致上下文语义的不完整。目前对于处理集外词问题有以下几种主流方法：第一类方法侧重于对softmax的改进和拷贝机制，但这类方法不适用于差距较大的语言的翻译；第二类方法将输入/输出本身的单位从单词改为较小的分辨率以及字符级相关工作，这类方法的主要优点是它可以减少罕见单词的问题，但序列的长度显着增加，使训练通常变得更加困难；第三类方法使用来构建大规模词典集和替换技术，引入未知单词修补的后处理步骤以缓解此问题，但对于存在一对多、多对多的词对齐关系时，难以对集外词进行有效处理，此类方法都是通过计算语义相似度对UNK符号进行替换，使用的都是通用词典，并没有对集外词本身的特点进行分类研究。本专利方法解决集外词问题的方法是将集外词分为三类，针对其特性构建出分类词典，并在模型的编码端查阅分类词典将数据中的集外词替换为标签，然后通过模型翻译后再查阅分类词典将标签进行恢复，实验中使用的模型为Google nmt(GNMT)、GNMT+BPE 和Transformer。

发明内容

本发明提供了融入分类词典的汉越神经机器翻译集外词处理方法，以用于解决以下问题：集外词的处理方法大多没有考虑到语言的普遍适用性；通过寻找其他资源来缓解此类问题，会影响到集外词周围单词的翻译效果，导致上下文翻译不完整；通过构建通用词典来替换集外词，会产生一词多译的问题难以对集外词进行有效处理的问题。

本发明针对不同集外词的特点进行研究，提出了分类思想，对集外词进行分类处理来构建分类词典，并将其融入到神经机器翻译模型中处理集外词问题，解决了神经机器翻译中集外词对翻译效果产生的不良影响。

本发明的技术方案是：融入分类词典的汉越神经机器翻译集外词处理方法，所述融入分类词典的汉越神经机器翻译集外词处理方法的具体步骤如下：

Step1、数据的收集：

需要获取的数据为汉语-越南语数据，目前并没有公开的汉越平行语料的数据集，网络爬虫是一种以获取网络数据为目的的方法，按照一定规则来自动请求万维网网站的程序或脚本。使用爬虫技术获取汉越数据是目前最好的数据收集方法。网络爬虫获得训练所需数据后，建立训练的数据集，并分成训练集和测试集；

Step2、分类词典的构建：

分析集外词的特点，将集外词分为三类，包括稀有词、实体词、以及数字、符号、日期和时间，并有针对性的构建出分类词典，分类词典包括双语词典、实体词典和规则词典；

将集外词分为三类来构建分类词典，一是稀有词，常规词表以外的词，利用常规词表以外的词构建双语词典；二是实体词，包括人名、地名、组织机构名和专有名词，利用实体词构建实体词典；三是数字、符号、日期和时间等，将这些词利用基于规则的方法进行正则化处理构建规则词典。具体构建方式如下所示：

Step2.1双语词典的构建：

对于双语词典的构建包括两个方面，一方面使用GIZA++工具对数据进行词对齐处理得到对齐结果，然后排除词表内的词来构建双语词典，对于一对多的情况，只保留对齐后概率最大的翻译记录；另一方面在词典中加入了部分人工整理标注的双语词典。构建出的汉越双语词典规模为8735对，表1为双语字典的样例。

表1：双语词典样例

Step2.2实体词典的构建：

对于实体词典的构建，主要对维基百科进行词条抽取，页面的词条中很多都是人名、地名等实体词，在页面左下角会有对应的“Languages”链接可以获取到对应的越南语的翻译，该链接的HTML信息中包含翻译后的词汇，对其进行实体抽取来构建实体词典。构建出的汉越实体词典规模为18741对实体词，其中人名实体数量为6418对，地名实体数量为2934对，组织机构名实体数量为5026对，专有名词实体数量为4363对，表2中提供了汉越实体词典的样例。

表2：汉越实体词典样例

Step2.3规则词典的构建：

对于规则词典的构建，在词表中可以找到大量的数字、符号、日期和时间等词。对于类似数字和符号这类词，在翻译前后不会改变词的本身形式，可以直接进行翻译；对于日期和时间这类词，利用基于规则的方法用正则表达式进行处理，从而构建成规则词典。表3为规则词典样例。

表3：汉越规则词典样例

Step3、分类词典的融入：通过查找分类词典对数据中的集外词进行识别，在模型的编码端对三类集外词进行标签替换，然后将标签替换后的数据通过模型翻译成带有标签的目标语言，最后查阅分类词典将标签恢复；

汉越神经机器翻译分类词典的融入，将分别从三个方面对双语词典、实体词典和规则词典的融入进行说明。由于在前处理阶段构建的双语词典和实体词典之间存在部分重复词，在融入分类词典时，考虑到实体词典的标签多样性，通过设置优先级的方法优先查阅实体词典。

Step3.1双语词典的融入方法：

对于双语词典的融入，通过查找双语词典计算语义相似度，寻找句子中不常用的词表外的词，确定位置后统一用使用自定义的标签进行替代，然后通过模型得到相应的翻译结果，再通过查找双语词典将标签恢复为相应的翻译。

Step3.2实体词典的融入方法：

对于实体词典的融入，首先通过查找实体词典进行实体词的识别发现，找出句子中的实体词，确定位置后对实体词进行标签替换，其中对人名、地名、组织机构名和专有名词分别采用不同的标签进行替换，在通过模型得到翻译结果后，查找实体词典将标签进行翻译恢复。

Step3.3规则词典的融入方法：

对于规则词典的融入，处理方式与双语词典和实体词典有些不同，分为直接融入和间接融入。直接融入是指数字和符号，在翻译前后不会改变本身的形式，间接融入是指类似时间和日期，在翻译前后会有固定的变化，例如时间“21点13分”翻译后为“21：13”，日期“2015年1月3日”和“2015.1.3”翻译后为“Vào ngày 3th áng 12015”，这种情况则通过正则表达式对这类词进行规则定义，然后再将其进行融入。融入的过程主要是查找规则词典进行规则词的识别，然后统一进行标签替换，其中对数字、符号、时间和日期分别采用四个不同的标签进行替换，对句子进行翻译后，通过查找规则词典再对标签进行翻译恢复。

Step3.4特殊情况处理方法

当一句话中出现多个同类词，采用标记排序对同类标签进行定位标识来区分同类集外词的标签，即对相同标签在右边添加数字下标，从而在翻译后可以准确地找到对应关系，使标签翻译得更加精准。

Step4、模型训练及翻译：在步骤Step1、Step2、Step3、Step4的基础上，对融入了分类词典的神经机器翻译模型进行训练，然后把待翻译的数据通过训练好的模型进行翻译，得到最终的翻译结果。本发明使用的模型可以为Google nmt(GNMT)、 GNMT+BPE和Transformer。

本发明的有益效果是：

1、目前融入词典的方法构建的都是通用词典，并没有对集外词进行分析处理。本发明方法通过对集外词进行分类并处理，构建成分类词典，可以有针对性的对集外词进行翻译，从而使集外词的翻译更加准确；

2、本发明不受语言差异的限制，可适用于差距较大的语言翻译，并且不会影响到周围其他单词的翻译效果；

3、本发明集外词的翻译难度并不会随着序列长度的增加而增加，当一句中出现多个集外词时，可以准确的对其进行翻译替换，减小了翻译的难度。

4、本发明主要利用集外词来构建分类词典，分类词典包括双语词典、实体词典和规则词典，分别通过GIZA++词对齐、维基百科抽取和规则方法来进行构建。通过分类词典融入神经机器翻译，可以更加准确的对集外词进行翻译，从而提升神经机器翻译系统的性能和效果。

附图说明

图1为本发明中的流程图；

图2为本发明中模型翻译前的前处理步骤标签替换样例示意图；

图3为本发明中模型翻译后的后处理步骤标签翻译样例示意图。

具体实施方式

实施例1：如图1-3所示，一种融入分类词典的汉越神经机器翻译集外词处理方法，所述融入分类词典的汉越神经机器翻译集外词处理方法的具体步骤如下：

Step1、获取汉越网站的主页，利用网络爬虫技术，爬取汉越数据，并将其去噪处理，整理为训练集和测试集、验证集；

Step2、分类词典的构建：分析集外词的特点，将集外词分为三类来构建分类词典；

一是稀有词，常规词表以外的词，利用常规词表以外的词构建双语词典；构建方式为：使用GIZA++对语料进行对齐处理，然后排除词表内的词来构建双语词典；

二是实体词，包括人名、地名、组织机构名和专有名词，利用实体词构建实体词典；构建方式为：采取维基百科进行词条抽取，得到词条中的实体词，构建实体词典；

三是数字、符号、日期和时间等，将这些词利用基于规则的方法进行正则化处理构建规则词典。构建方式为：在词表中找到时间、日期、数字、符号等词，对时间、日期这类词采用基于规则方法，进行正则化处理，与数字、符号等词一起构建成规则词典。将双语词典(BIL)、实体词典(ENT)、规则词典(REG)这三类词典组合成为分类词典(CLA)。

Step3、分类词典的融入：利用生成的数据集，通过查找分类词典计算语义相似度，进行集外词的识别，确定位置之后统一用使用标签进行替代，双语词典的替换标签统一为“<prop>”，实体词典的标签替换方式为“人名→<name>”、“地名→ <place>”、“组织机构名→<org>”和“专有名词→<prop>”，规则词典的标签替换方式为“数字→<num>”、“日期→<data>”、“时间→<time>”和“符号→<sign>”。同时会对判断一句话中是否存在同类标签，当一句话中出现多个同类词时，对相同标签在右边添加数字下标对标签进行定位标识，标签替换后通过模型得到带有标签的翻译结果，最后通过查找分类词典将标签恢复为相应的翻译。

Step4、对融入了分类词典的神经机器翻译模型进行训练，然后把待翻译的数据通过训练好的模型进行翻译，得到最终的翻译结果；

本实施例中采用三组方式对分类词典进行融入，第一组为仅融入分类词典中的规则词典，其他集外词进行标记化替代；第二组为融入分类词典中的实体词典和双语词典；第三组为融入完整的分类词典，从而验证对比与第一组和第二组的实验结果和最终对比未处理的实验结果，如图2所示为，采用三组方式对分类词典进行融入的标签替换的效果对比示例图，图3所示为分别通过双语词典、实体词典、规则词典进行标签翻译效果示例图。主要在Google nmt(GNMT)、GNMT+BPE和 Transformer三个模型上进行对比分析实验。每组中都采用双向翻译，即汉语-越南语、越南语-汉语，总共进行了24个实验。

表4为汉语-越南语和越南语-汉语两个翻译方向通过三个模型分别融入本发明方法的实验结果。

表4为汉语-越南语和越南语-汉语在三种模型中的实验对比结果

表5为模型实验结果和融入本发明方法后实验结果在测试集上的测试比较

由实验结果可以看出，就不同模型而言，融入分类词典后三种模型的BLEU值都有所提升，并在Transformer模型中融入分类词典后BLEU值提升效果最好，在汉语-越南语中提升2.74了个BLEU值，在越南语-汉语提升2.54了个BLEU值，也可以发现本发明方法相较于RNNSearch模型，在翻译人名、组织机构名等集外词时更加准确，句子表达意思更加完整。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融入分类词典的汉越神经机器翻译集外词处理方法，其特征在于：所述融入分类词典的汉越神经机器翻译集外词处理方法的具体步骤如下：

Step1、语料收集：收集汉语-越南语语料，并分为训练集、测试集和验证集；

Step2、分类词典的构建：分析集外词的特点，将集外词分为三类，包括稀有词、实体词、以及数字、符号、日期和时间，并有针对性的构建出分类词典，分类词典包括双语词典、实体词典和规则词典；

Step4、同类集外词处理：当一句话中出现多个同类集外词时，对同类标签采用标记排序进行定位标识；

Step5、模型训练及翻译：在步骤Step1、Step2、Step3、Step4的基础上，对融入了分类词典的神经机器翻译模型进行训练，然后把待翻译的数据通过训练好的模型进行翻译，得到最终的翻译结果。

2.根据权利要求1所述的融入分类词典的汉越神经机器翻译集外词处理方法，其特征在于：所述步骤Step2中，将集外词分为三类来构建分类词典，一是稀有词，常规词表以外的词，利用常规词表以外的词构建双语词典；二是实体词，包括人名、地名、组织机构名和专有名词，利用实体词构建实体词典；三是数字、符号、日期和时间等，将这些词利用基于规则的方法进行正则化处理构建规则词典。

3.根据权利要求1所述的融入分类词典的汉越神经机器翻译集外词处理方法，其特征在于：所述步骤Step2中，对于双语词典的构建，先对语料进行对齐处理，然后排除词表内的词来构建双语词典；对于实体词典的构建，主要基于维基百科进行词条抽取；对于规则词典，类似数字和符号这类词，在翻译前后不会改变词的本身形式，直接进行翻译；对于日期和时间这类词，利用基于规则的方法用正则表达式进行处理，从而构建成规则词典。

4.根据权利要求1所述的融入分类词典的汉越神经机器翻译集外词处理方法，其特征在于：所述步骤Step3的具体步骤为：

对于双语词典的融入，首先查找分类词典中的双语词典将句中稀有词替换成标签，然后通过神经机器翻译模型对句子进行翻译，再查找双语词典对翻译后的标签位置进行翻译恢复；

对于实体词典的融入，查找分类词典中的实体词典，将句中实体词替换成标签，并且对不同的实体替换成不同的标签，通过模型将句子翻译后，查找实体词典对标签进行恢复；

对于规则词典的融入，分为直接融入和间接融入；直接融入指数字和符号这种翻译前后不会改变本身形式的词，能直接进行翻译；间接融入指时间和日期，通过正则表达式对这类词进行规则定义，然后再将其进行融入；主要过程是通过查找分类词典中的规则词典，将句中的时间和日期这类词替换为相应的标签，利用模型将句子翻译后，再查找规则词典对标签进行恢复；由于在前处理阶段构建的双语词典和实体词典之间存在部分重复词，在融入分类词典时，考虑到实体词典的标签多样性，通过设置优先级的方法优先查阅实体词典。