CN109165391A

CN109165391A - 一种利用偏旁部首信息的神经网络机器翻译系统及方法

Info

Publication number: CN109165391A
Application number: CN201810839361.3A
Authority: CN
Inventors: 张龙图; 赵俊洋
Original assignee: Tianjin (mstar Technology Ltd) New Mstar Technology Ltd
Current assignee: Tianjin (mstar Technology Ltd) New Mstar Technology Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-08

Abstract

本发明提供一种利用偏旁部首信息的神经网络机器翻译系统及方法，其特征在于：利用偏旁部首信息的神经网络机器翻译系统包括：第一训练模型，所述第一训练模型被训练成能够读取第一自然语言源句中的第一文字序列，并将该第一文字序列逐字进行拆分，将其拆分成与所述第一文字序列对应的偏旁部首序列；第二训练模型，所述第二训练模型被训练成读取所述第一训练模型输出的偏旁部首序列，并将该偏旁部首序列映射至与该偏旁部首序列相对应的输入序列；以及神经网络翻译模型，所述神经机器翻译系统被配置成接收所述输入序列，并且生成表示所述第一文字序列到第二自然语言的翻译的第二文字序列的输出语言符号的输出序列。

Description

一种利用偏旁部首信息的神经网络机器翻译系统及方法

技术领域

本发明涉及神经翻译技术领域，具体涉及一种利用偏旁部首信息的神经网络机器翻译系统及方法。

背景技术

机器翻译是人工智能和自然语言处理的交叉学科，在日常生活中，教学科研，生产活动和对外贸易中都有着重要的作用，传统神经机器翻译的方法都是基于字母文字开发，无形中导致对涉及到汉语、韩语以及日语的法医时，其翻译质量相对低下。

发明内容

有鉴于此，本发明提供一种利用偏旁部首信息的神经网络机器翻译系统及方法，针对汉语、韩语、日语文字体系的特点，将偏旁部首引入到机械翻译系统中，把第一自然语言的第一文字序列拆分成偏旁部首的序列，然后输入至神经翻译系统内进行翻译。

本发明的一方面提供一种利用偏旁部首信息的神经网络机器翻译系统，其特征在于：利用偏旁部首信息的神经网络机器翻译系统包括：

第一训练模型，所述第一训练模型被训练成能够读取第一自然语言源句中的第一文字序列，并将该第一文字序列逐字进行拆分，将其拆分成与所述第一文字序列对应的偏旁部首序列；

第二训练模型，所述第二训练模型被训练成读取所述第一训练模型输出的偏旁部首序列，并将该偏旁部首序列映射至与该偏旁部首序列相对应的输入序列；以及

神经网络翻译模型，所述神经网络翻译模型被配置成接收所述输入序列，并且生成一输出序列，所述输出序列表示所述第一文字序列到第二自然语言的第二文字序列的输出语言符号。

优选地，利用偏旁部首信息的神经网络机器翻译系统还包括第三训练模型，所述第三训练模型被训练成读取所述第一文字序列，并提取所述第一文字序列内的亚词单位。

优选地，利用偏旁部首信息的神经网络机器翻译系统还包括第四训练模型，所述第四训练模型被训练成读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。

优选地，所述神经机器翻译系统包括：

词嵌入层，所述词嵌入层用于将输入序列转化成第一词向量序列；

循环神经网络，所述循环神经网络包括编码器神经网络以及解码器神经网络，所述编码器神经网络和所述解码器神经网络中均使用双层往复循环神经网络LSTM；以及

注意力机制子系统。

优选地，所述解码器神经网络包括LSTM层的堆栈和softmax输出层。

本发明的另一方面提供一种利用偏旁部首信息的神经网络机器翻译方法，其特征在于，所述利用偏旁部首信息的神经网络机器翻译方法包括：

将第一自然语言源句中的第一文字序列拆分成偏旁部首序列；

将偏旁部首序列映射至目标字符，形成输入序列；

利用机械翻译系统对输入序列进行翻译。

优选地，所述利用偏旁部首信息的神经网络机器翻译方法还包括：读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。

优选地，所述利用偏旁部首信息的神经网络机器翻译方法还包括：读取所述第一文字序列，并提取所述第一文字序列内的亚词单位。

本发明具有的优点和积极效果是：本发明提供一种利用偏旁部首信息的神经网络机器翻译系统及方法，针对汉语、韩语、日语文字体系的特点，将偏旁部首引入到机械翻译系统中，把第一自然语言的第一文字序列拆分成偏旁部首的序列，然后输入至神经翻译系统内进行翻译。提高了翻译的质量。特别在输入语言以及目标语言均在汉语、韩语、日语之间进行互相翻译的过程中，其翻译质量有显著提高。

具体实施方式

为了更好的理解本发明，下面结合具体实施例对本发明进行进一步的描述。

翻译系统将源自然语言的源文字序列翻译成目标自然语言的目标文字序列，例如将英语的句子或短语翻译成法语的句子或短语，将英语的句子或短语翻译成德语的句子或短语，或者将韩语的句子或短语翻译成西班牙语的句子或短语。本发明提供一种利用偏旁部首信息的神经网络机器翻译系统，适用于涉及到汉语、韩语、日语语言的翻译。

本发明的利用偏旁部首信息的神经网络机器翻译系统包括：

为了生成所述神经网络翻译模型的输入序列，将源序列进行切分，从而形成输入语言符号的输入序列。一般而言，输入序列中的每个输入语言符号选自输入语言符号的词汇，所述词汇包括针对一组文字单元中的每个的相应语言符号。除了文字单元以外，输入语言符号的词汇还包括一个或多个特殊的指定语言符号，例如起始句语言符号和结束句语言符号。在一些实施方式中，文字单元是源自然语言的文字。在一些其它实施方式中，文字单元中的一些或全部是子词单元，例如字符、混合文字/字符等。

特别地，在这些实施方式中的一些中，文字单元是文字片段，并且系统通过首先使用训练的文字片段机器学习模型将序列中的文字分解成文字片段来将源序列切分，所述训练的文字片段机器学习模型已经被训练成将文字分解成文字片段，并且包括特殊的文字边界符号，以使得能够从文字片段序列恢复原始文字序列而无歧义。

本发明针对于汉语、韩语以及日语的语言组成结构，韩语、韩语以及日语的文字均可以拆分成相应的的偏旁部首。

进一步地，本发明设置有第一存储装置，所述第一存储装置内存储有偏旁部首的全序列，对所述第一存储装置内的偏旁部首的全序列进行训练，形成所述第一训练模型，所述第一训练模型被训练成能够读取第一自然语言源句中的第一文字序列，并将该第一文字序列逐字进行拆分，将其拆分成与所述第一文字序列对应的偏旁部首序列。

在本发明的一个具体实施例中，所述偏旁部首的全序列可以参考 cns11643字符表，所述cns11643字符表内包括517个部首，33个笔画，将该517个部首以及33个笔画全部存储于所述第一存储装置内，并对其进行训练，形成第一训练模型，所述第一训练模型被训练成能够读取第一自然语言源句中的第一文字序列，并将该第一文字序列逐字进行拆分，将其拆分成与所述第一文字序列对应的偏旁部首序列。

例如，可→丁口；君→尹口。

进一步地，得到所述偏旁部首序列之后，需要将所述偏旁部首序列转化成输入序列，在本发明中，设置有第二训练模型，所述第二训练模型被训练成读取所述第一训练模型输出的偏旁部首序列，并将该偏旁部首序列映射至与该偏旁部首序列相对应的输入序列。

具体的，在本发明的一个实施例中，所述输入序列的格式为UTF-8编码序列，通过将该偏旁部首序列进行unicode编码，将偏旁部首序列转换成UTF-8编码序列，具体见表1，表1为UTF-8编码与偏旁部首的映射关系的部分举例说明。

表1 UTF-8编码与偏旁部首的映射关系

表1列举了部分UTF-8编码与偏旁部首的映射关系，在所述第二训练模型中，将偏旁部首序列与UTF-8编码一一对应，使得每个偏旁部首序列都对应一个单独的UTF-8编码，能够将偏旁部首序列转化成机械识别的语言。

UTF-8包含了大部分文字的编码，可以表达更多的语言，使用UTF-8 一个最大的好处就是其他地区的用户(美国、印度、台湾)无需安装简体中文支持，就能正常看您的文字，并且不会出现乱码。

在本发明的一个实施例中，设置有第二存储装置，所述第二存储装置内存储有中日韩统一表意文字CJK Unified Ideographs，中日韩统一表意文字 CJK UnifiedIdeographs的主要目的是要把分别来自中文、日文、韩文、越文中，本质、意义相同、形状一样或稍异的表意文字(主要为汉字，但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。

进一步地，在进行汉语、韩语、日语等语言之间进行互相翻译的过程中，例如汉语翻译成韩语，或者日语翻译成韩语，在这类与语言之间进行翻译的过程，还可以先通过第四训练模型对第一文字序列进行训练，所述第四训练模型被训练成读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。

具体地，在对第一文字序列进行拆分之前，可以对所述第二存储单元中的日韩统一表意文字CJK Unified Ideographs进行训练，生成第四训练模型，所述第四训练模型被训练成读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。对于第一文字序列，首先通过第四训练模型对其进行训练，挑选出第一文字序列中与目标语言本质、意义相同、形状一样或稍异的表意文字，将这部分文字用同一的编码进行表示，然后在对剩余的文字序列进行拆分。

进一步地，在字母语言中，很多字母组合(亚词单位sub-word unit)在各种词中反复出现，是语言内部的“共享单位”；例如：-tion，-ly，-er， -est，亚词单位sub-wordunit的词表相对短小，可使模型更加紧凑，另外亚词单位sub-word unit带有词之间的共享元信息，可帮助更准确的翻译；利用亚词单位sub-word unit在语言中共享特点，可以有效提升翻译质量。

参考所述亚词单位sub-word unit在字母语言中翻译中显著作用，针对汉语、韩语、日语的文字组成结构，也可以提炼出汉语、韩语、日语文字体系中亚词单位sub-wordunit。具体的，本发明的一个实施例中，设置有第三存储装置，所述第三存储装置内设置有汉语、韩语、日语亚词单位sub-word unit。

进一步地，对所述第三存储装置内的本发明汉语、韩语、日语亚词单位 sub-wordunit进行训练，形成所述第三训练模型，所述第三训练模型被训练成读取所述第一文字序列，并提取所述第一文字序列内的亚词单位，并将该亚词单位通过所述神经机器翻译系统进行翻译。

在本发明的一个实施例中，所述第三训练模型采用BPE模型，BPE模型是一种非监督学习技术，可用于近似获取亚词单位sub-word unit，本发明的实施例中，可以利用BPE模型训练得到跟所述第一文字序列相对应的汉语、韩语、日语亚词单位sub-word unit，具体如表2所示。

表2第一文字序列与亚词单位的映射关系

如表2所示，首先将文字序列拆分成偏旁部首序列，例如将“英”拆分成“十丨央”，然后再提取所述偏旁部首序列中的亚词单位，本实施例中，将偏旁部首序列“十丨央”，训练成“十丨央”，其中 “十丨”、“央”为不同的亚词单位。又见文字序列“语”，其对应的偏旁部首序列为“讠一□口”，将其提取为由亚词单位“讠”、“一□口”组成的亚词单位序列。

所述汉语、韩语、日语亚词单位sub-word unit的亚词单位，是将偏旁部首序列中的某一个或者某几个连续的偏旁部首进行组合，其组合之后是否具有固定的含义，例如，“英”的偏旁部首序列的“十丨”，其组合在一起，整体作为“艹”，在汉语、韩语、或者日语中，“艹”反复出现，是语言内部的“共享单位”。

进一步地，亚词单位模型的训练，训练时可以指定词库大小，因此不同词库出现的亚词单位会存在差别。指定词库是指对整个偏旁部首以及笔画数据进行训练，最终生成指定数量的亚词单位词库，所述指定数量的亚词单位词库为指定词库。例如，对整个偏旁部首以及笔画数据进行训练，最终生成 2000个亚词单位，所述指定词库的大小为2000。

表2中给出的示例，是指定词库大小为1000的情况，如果指定词库的大小改为2000，其得到的亚词单位序列会发生改变。

本发明实施例使用BPE的翻译模型利用了亚词单位在语言中共享特点，提升翻译质量。

本发明中将针对汉语、韩语、日语文字体系的特点，将偏旁部首引入到机械翻译系统中，把第一自然语言的第一文字序列拆分成偏旁部首的序列，然后输入至神经翻译系统内进行翻译。

表3中示出了本发明翻译过程的一个示例。

表3翻译过程举例

表3中以日语翻译成汉语为例，首先将日语的第一序列“英語”提取和输出序列本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示，本实施例中，日语和汉语相同的表一符号为“十丨央”，对于这部分内容，可以采用与汉语相同的表意符号进行表示，并且拆分成相同的偏旁部首序列；剩余不同的部分，再进行拆分，拆分偏旁部首序列。

进一步地，所述神经机器翻译系统被配置成接受输入序列，并且对输入序列进行处理，并生成包括来自输出语言词汇的输出言语符号的输出序列。所述神经机器翻译系统包括：词嵌入层、循环神经网络以及注意力机制。

所述词嵌入层用于将输入序列转化成第一词向量序列，具体地，所述词嵌入层内存储有和所述输入序列对应的词向量表。将所述输入序列输入到所述词嵌入层，输出的是和所述输入序列相对应的第一词向量序列。

所述循环神经网络包括编码器神经网络以及解码器神经网络，所述编码器神经网络和所述解码器神经网络中均使用多往复循环神经网络LSTM。

编码器神经网络包括多个长短期记忆(LSTM)神经网络层。更具体而言，编码器神经网络包括后面跟随有单向LSTM层的堆栈的双向LSTM层。

编码器神经网络被配置成接收输入序列并且对输入序列进行处理，以生成输入序列中的每个语言符号的相应编码表示。

解码器神经网络和注意力子系统被配置成对编码表示进行处理，以生成包括来自输出词汇的输出语言符号的输出序列。一般而言，解码器神经网络被配置成为输出序列中的每个位置接收输出序列中的前一个位置处的语言符号。解码器神经网络也被配置成接收由注意力子系统生成的针对所述位置的注意力上下文矢量，并且对所述前一个语言符号和所述注意力上下文矢量进行处理以生成一组分值，所述一组分值包括针对输出词汇中的每个输出语言符号的相应分值。

特别地，解码器神经网络包括LSTM层的堆栈和softmax输出层。在每个位置处，LSTM层的堆栈被配置成对前一个语言符号和注意力上下文矢量进行处理以生成针对所述位置的LSTM输出，并且softmax输出层被配置成对LSTM输出进行处理以生成针对所述位置的一组分值。注意力子系统被配置成在输出序列中的每个位置处接收前一个位置处的由堆栈中的底部LSTM 层生成的LSTM输出，并且使用所述接收的LSTM输出来生成针对所述位置的注意力上下文矢量。一般而言，注意力上下文矢量是编码表示的加权和，其中所述加权和中的权重基于所接收的LSTM输出进行确定。

为了生成输出序列中的给定位置处的输出，系统基于所述位置处的一组分值中的各个分值选择语言符号，即通过选择具有最高分值的语言符号或者通过根据来自输出语言符号的词汇的分值对语言符号进行取样。

系统继续选择语言符号并且将语言符号添加至输出序列，直到系统为输出序列中的当前位置选择结束句输出语言符号为止。一旦已经选择了结束句输出语言符号，系统就将在结束句输出之前添加至输出序列的输出视作最终输出序列。

在一些实施方式中，系统使用波束搜索生成输出序列。也就是说，系统维持被并行处理和扩展的多个候选输出序列的波束，并且继续处理直到波束中的所有候选输出序列已经被最终确定或者从波束中移除为止。一旦已经生成了输出序列，系统就通过将由输出序列中的语言符号表示的文字单元转换成目标语言的文字来生成目标序列。

本发明的第二方面提供一种利用偏旁部首信息的神经网络机器翻译方法，其特征在于，所述利用偏旁部首信息的神经网络机器翻译方法包括：

将偏旁部首序列映射至目标字符，形成输入序列；

利用机械翻译系统对输入序列进行翻译。

进一步地，所述利用偏旁部首信息的神经网络机器翻译方法还包括：读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。

进一步地，所述利用偏旁部首信息的神经网络机器翻译方法还包括：读取所述第一文字序列，并提取所述第一文字序列内的亚词单位。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种利用偏旁部首信息的神经网络机器翻译系统，其特征在于：利用偏旁部首信息的神经网络机器翻译系统包括：

2.根据权利要求1所述的利用偏旁部首信息的神经网络机器翻译系统，其特征在于：利用偏旁部首信息的神经网络机器翻译系统还包括第三训练模型，所述第三训练模型被训练成读取所述第一文字序列，并提取所述第一文字序列内的亚词单位。

3.根据权利要求2所述的利用偏旁部首信息的神经网络机器翻译系统，其特征在于：利用偏旁部首信息的神经网络机器翻译系统还包括第四训练模型，所述第四训练模型被训练成读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。

4.根据权利要求3所述的利用偏旁部首信息的神经网络机器翻译系统，其特征在于：所述神经机器翻译系统包括：

注意力机制子系统。

5.根据权利要求4所述的利用偏旁部首信息的神经网络机器翻译系统，其特征在于，所述解码器神经网络包括LSTM层的堆栈和softmax输出层。

6.一种利用偏旁部首信息的神经网络机器翻译方法，其特征在于，所述利用偏旁部首信息的神经网络机器翻译方法包括：

将偏旁部首序列映射至目标字符，形成输入序列；

利用机械翻译系统对输入序列进行翻译。

7.根据权利要求6所述的利用偏旁部首信息的神经网络机器翻译方法，其特征在于：所述利用偏旁部首信息的神经网络机器翻译方法还包括：读取所述第一文字序列，并将第一文字序列中来自中文、日文、韩文中，本质、意义相同、形状一样或稍异的表意文字，用统一的编码进行表示。

8.根据权利要求6所述的利用偏旁部首信息的神经网络机器翻译方法，其特征在于：所述利用偏旁部首信息的神经网络机器翻译方法还包括：读取所述第一文字序列，并提取所述第一文字序列内的亚词单位。