CN111539229A

CN111539229A - 神经机器翻译模型训练方法、神经机器翻译方法及装置

Info

Publication number: CN111539229A
Application number: CN201910054869.7A
Authority: CN
Inventors: 张家俊; 周玉; 闫璟辉; 宗成庆; 杨里
Original assignee: Institute of Automation of Chinese Academy of Science; Boeing Co
Current assignee: Institute of Automation of Chinese Academy of Science; Boeing Co
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2020-08-14

Abstract

本发明涉及神经机器翻译模型训练方法、神经机器翻译方法及装置。该神经机器翻译方法包括：识别待翻译的源语句中的命名实体；用与命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；通过神经机器翻译模型翻译中间源语句，获得带有标签的中间目标语句；从预置的命名实体词典和/或命名实体库查找命名实体的译文；以及用查找到的译文替换中间目标语句中相应的标签，获得与待翻译的源语句对应的目标语句。本发明解决了在机器翻译的过程中，低频的命名实体被错翻译或漏翻译的问题。

Description

神经机器翻译模型训练方法、神经机器翻译方法及装置

技术领域

本发明涉及机器翻译领域。具体地，本发明涉及神经机器翻译模型训练方法及装置、神经机器翻译方法及装置以及存储介质和处理器。

背景技术

机器翻译是人工智能领域的重要研究方向之一，在经历了传统的基于规则的机器翻译(RBMT)和统计机器翻译(SMT)的发展时期之后，目前迎来了以神经机器翻译(NMT)为主流的新翻译模型热潮。神经机器翻译直接采用神经网络以端到端(End-to-End)方式进行翻译建模，使用神经网络学习翻译特征后将源语言直接映射成目标语言文本。

尽管神经机器翻译在不断的技术革新下(如注意力机制的提出)在各个语言的翻译任务上都有着优异表现，但是对稀缺词(rare word)却仍然是神经机器翻译所必须面对的一大难题。

NMT解码器的计算复杂度非常高，为了减低计算量，通常对词汇量进行限制，具体地，常规的方法是使用BPE(byte pair encoding)算法来对句子中的词汇量进行压缩。而大小受到限制的词汇表自然无法覆盖所有的词汇，必然会导致一些稀缺词变成集外词(out-of-vocabulary)，即，大量的低频词会被标识成“unknown word”，即“UNK”，从而无法被翻译出来。

命名实体(named entity)是这些集外词的一大组成部分。命名实体是指现实世界中存在的，并被严格指代为一个或者多个对象的实体。其中包括有人名，地名，组织名等类别。其具有词频低，种类多等特点，尤其是人名命名实体，其构词规则繁多，新词迭代速度快。在神经机器翻译模型训练过程中，大量的人名命名实体被当成集外词处理，而这些命名实体由于其指代内容的特殊性，在句子中时常扮演主语和宾语等重要成分，这使得其翻译的质量直接影响了句子的直观翻译观感的好坏。

现有的研究在应对集外词问题时并没有特别针对句子中的命名实体进行处理。

BPE是一种为分词设计的压缩算法，其原理是将低频的词汇分割为频率较高的子词(subword)，从而侧面降低词汇表的数量。具体地，它可以将句子中的单词按照频次，进一步分割成具有标识的独立单词片断(subword)，例如对于稀缺词“Estelle”，可以将其分割为“Es@@tell@@e”这三个出现频次高的单词片断，从而侧面减少了整体的词汇数量，使得翻译模型可以处理更多的稀缺词。

尽管BPE算法可以很大程度上提高模型处理稀缺词汇的能力，但由于PER命名实体，其构词规则繁多，新词迭代速度快的特点，特别是人名命名实体，其具有新词多，一词多译等特点，仍然有相当大部分的命名实体仍很难被切分为存在于词汇表中的高频子词从而依旧被标识为集外词从而无法被准确的翻译。因而词表受限的神经机器翻译对这些命名实体经常出现错翻的现象。

发明内容

本发明实施例提供了一种神经机器翻译模型训练方法、神经机器翻译方法及装置，以至少解决在机器翻译的过程中集外词无法准确翻译的问题。

根据本发明实施例的一个方面，提供了一种神经机器翻译方法，包括：识别待翻译的源语句中的命名实体；用与命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；通过神经机器翻译模型翻译中间源语句，获得带有标签的中间目标语句；从预置的命名实体词典和/或命名实体库查找命名实体的译文；以及用查找到的译文替换中间目标语句中相应的标签，获得与待翻译的源语句对应的目标语句。

通过从预置的命名实体词典和/或命名实体库查找命名实体的译文，并用查找到的译文替换中间目标语句中相应的标签，与现有的神经机器翻译方法相比，相当于扩大了神经机器翻译模型的词汇表，从而能够使得由于词汇表受限而导致的无法翻译的命名实体得到翻译，从而提高对命名实体的翻译准确度。

进一步地，在未能从预置的命名实体词典和/或命名实体库找到命名实体的译文时，用外部命名实体翻译模型翻译命名实体，并用命名实体的翻译结果替换中间目标语句中相应的标签，其中，外部命名实体翻译模型是通过命名实体库加上所述命名实体词典作为训练数据对神经机器模型框架进行训练而创建的。

该实施例中，通过引入一个外部命名实体翻译模型来对命名实体进行翻译，能够进一步提高对命名实体翻译的准确度。

进一步地，用外部命名实体翻译模型翻译命名实体，并用命名实体的翻译结果替换中间目标语句中相应的标签包括：将命名实体切分为以字符为粒度的待翻译字符串并进行翻译解码，将翻译结果恢复为原粒度后再将该翻译结果与中间目标语句中相应的标签进行替换。

通过将将命名实体切分为以字符为粒度的待翻译字符串并进行翻译解码，将翻译结果恢复为原粒度后再将该翻译结果与中间目标语句中相应的标签进行替换，这种更细粒度的翻译模型可以更准确地获取源命名实体到目标端命名实体的翻译规则，从而提升翻译准确度。

进一步地，外部命名实体翻译模型通过以下方式被创建：将命名实体库和所述命名实体词典中的命名实体切分为以字符为粒度的字符串，用字符串来训练神经机器翻译模型框架，生成外部命名实体翻译模型。

进一步地，在命名实体库中的命名实体切分为以字符为粒度的字符串之前，还包括：将平行命名实体库中源端与目标端之间存在一对多的译文关系的命名实体拆分为一对一关系；以及用拆分后的命名实体训练神经机器翻译模型框架，以生成外部命名实体翻译模型。

进一步地，在用与所识别的命名实体的类别对应的标签替换所识别的命名实体之后还包括：将被替换的命名实体按顺序保存；以及记录被替换的命名实体在源语句中的位置；用查找到的译文替换中间目标语句中相应的标签包括：根据位置用译文替换中间目标语句中相应的标签。

通过该实施例的方法，能够根据命名实体的位置实施对相应标签的替换。

进一步地，通过以下方式生成预置的命名实体词典：识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；对添加标签的双语训练语句进行基于统计的机器翻译SMT训练，得到短语表，短语表中包含双语平行短语之间的翻译概率；筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；在双语训练语句中查找所筛选出的平行实体翻译词对；以及将所找到的平行命名实体翻译对输出，形成命名实体词典。

通过以上述方式形成命名实体词典，即，通过从训练数据本身提取平行命名实体，有效地利用了数据资源；并且提升了对命名实体的翻译的准确度。

进一步地，对添加标签的双语训练语句进行SMT训练包括：在识别命名实体之后，对于由两个以上的词组成的命名实体，在各个词之间加入连接标识符；以及对所有命名实体进行词对齐处理。

通过在各个词之间加入连接标识符，能够方便随后进行词对齐操作。

进一步地，在替换所识别的命名实体之前还包括：将待替换的命名实体对按长度排序，之后按照先长后短的顺序进行替换。

通过该方法，能够避免某些命名实体被不完整地替换。

进一步地，命名实体词典和/或命名实体库中存储有平行的双语命名实体对，从而能够用于从中查找带翻译的命名实体。

根据本发明实施例的一个方面，提供了神经机器翻译模型训练方法，包括：识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；对添加标签的双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，短语表中包含双语平行短语的翻译概率；筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；在双语训练语句中查找筛选出的平行实体翻译词对；以及将所找到的平行命名实体翻译对输出，形成命名实体词典，将命名实体词典用于外部命名实体翻译模型的训练数据以及在神经机器翻译模型对待翻译的语句进行翻译时查找命名实体。

通过训练神经机器翻译模型，形成命名词典，该命名词典可进一步用于在神经机器翻译模型进行翻译的过程中，进行命名实体的翻译，提高命名实体的翻译准确度。

通过该方法，能够方便随后进行词对齐操作。

进一步地，在双语训练语句中查找到筛选出的平行实体翻译词对后，还包括：将待替换的命名实体对按长度排序；以及将双语训练语句中的命名实体按照先长后短的顺序替换为标签。

通过该方法，能够避免某些命名实体被不完整地替换。

根据本发明实施例的一个方面，提供了一种神经机器翻译装置，包括：第一识别单元，被配置为识别待翻译的源语句中的命名实体；第一替换单元，被配置为用与所识别的命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；翻译单元，被配置为通过神经机器翻译模型翻译中间源语句，获得带有标签的中间目标语句；查找单元，被配置为从预置的命名实体词典和/或命名实体库查找被替换的命名实体的译文，其中命名实体词典和/或命名实体库中存储有平行的双语命名实体对；以及第二替换单元，被配置为用查找到的译文替换中间目标语句中相应的标签，获得与待翻译的源语句对应的目标语句。

通过从预置的命名实体词典和/或命名实体库查找命名实体的译文，并用查找到的译文替换中间目标语句中相应的标签，与现有的神经机器翻译方法相比，相当于扩大了神经机器翻译模型的词汇表，从而能够使得由于词汇表受限而导致的无法翻译命名实体得到翻译，从而提高对命名实体的翻译准确度。

进一步地，神经机器翻译装置，还包括：命名实体翻译单元，被配置为在未能从预置的命名实体词典和/或命名实体库找到命名实体的译文时，用外部命名实体翻译模型翻译命名实体，并用命名实体的翻译结果替换中间目标语句中相应的标签，其中，外部命名实体翻译模型是通过命名实体库加上所述命名实体词典作为训练数据对神经机器模型框架进行训练而创建的。

进一步地，命名实体翻译单元进一步配置为：将命名实体切分为以字符为粒度的待翻译字符串并进行翻译解码，将翻译结果恢复为原粒度后再将该翻译结果与中间目标语句中相应的标签进行替换。

进一步地，神经机器翻译装置还包括：第二识别单元，被配置为识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；训练单元，被配置为对添加标签的双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，短语表中包含双语平行短语之间的翻译概率；筛选单元，被配置为筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；查找单元，被配置为在双语训练语句中查找所筛选出的平行实体翻译词对；以及输出单元，被配置为将所找到的平行命名实体翻译对输出，形成命名实体词典。

根据本发明的实施例的一个方面，提供了一种神经机器翻译模型训练装置，包括：识别单元，被配置为识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；训练单元，被配置为对添加标签的双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，短语表中包含双语平行短语的翻译概率；筛选单元，被配置为筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；查找单元，被配置为在双语训练语句中查找筛选出的平行实体翻译词对；输出单元，被配置为将所找到的平行命名实体翻译对输出，形成命名实体词典，实体词典用于在神经机器翻译模型对待翻译的语句进行翻译时查找命名实体。

通过训练神经机器翻译模型，形成命名词典，可进一步用于在神经机器翻译模型进行翻译的过程中，进行命名实体的翻译，提高命名实体的翻译准确度。

进一步地，训练单元被配置为：在识别命名实体之后，对于由两个以上的词组成的命名实体，在各个词之间加入连接标识符；以及对所有命名实体进行词对齐处理。

进一步地，神经机器翻译模型训练装置还包括：替换单元，被配置为将待替换的命名实体对按长度排序；并将双语训练语句中的命名实体按照先长后短的顺序替换为标签。

通过该替换单元的操作，能够避免某些命名实体被不完整地替换。

根据本发明的实施例的一个方面，提供了一种存储介质，存储有程序指令，当程序指令由计算机运行时，使计算机执行权利要求1至13中任一项的方法。

根据本发明的实施例的一个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行权利要求1至13中任意一项的方法。

根据本发明的实施例的一个方面，提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行权利要求1至13中任一项的方法。

为了解决现有模型中对于人名命名实体翻译不准的问题，本发明实施例的方法，通过命名实体词典或命名实体库来扩充现有的词汇表，来提升对命名实体翻译的准确度。进一步地，将外部命名实体翻译模型融入神经机器翻译模型中，旨在利用额外训练的命名实体翻译模型来提高句子中的命名实体翻译质量从而提高整体句子的翻译效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是示出了根据本申请一示例性实施例的神经机器翻译方法的流程图；

图2是示出了根据本申请一示例性实施例的神经机器翻译模型训练方法的流程图；

图3是示出了根据本申请的一示例性实施例的神经机器翻译装置的框图。

图4是示出了根据本申请一示例性实施例的神经机器翻译模型训练装置的示意图；

图5是示出了根据本申请一示例性实施例的用于PER命名实体翻译的框架图；以及

图6为本申请一示例性实施例的神经机器翻译模型中处理命名实体的框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块或单元。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

根据本发明的一个实施例的，提供了一种神经机器翻译方法，如图1所示，包括：步骤S102，识别待翻译的源语句中的命名实体；步骤S104用与命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；步骤S106通过神经机器翻译模型翻译中间源语句，获得带有标签的中间目标语句；步骤S108从预置的命名实体词典和/或命名实体库查找命名实体的译文；以及步骤S110用查找到的译文替换中间目标语句中相应的标签，获得与待翻译的源语句对应的目标语句。

对于命名实体，不同的机构有不同的分类方法，但大体上都遵从这三种分类，即实体类，时间类，数字类。其中实体类主要又有人名(PER)，地名(LOC)和组织名(ORG)三种划分。对于机器翻译来说，人名命名实体在句子中占据了主语或宾语等重要位置。因此人名命名实体的翻译质量会直接影响人对句子整体翻译质量的主观感受。

命名实体识别指将给定的文本数据中所包含的人名(PER)，地名(LOC)和组织名(ORG)以及数字类命名实体标识出来，本发明中主要以人名(PER)命名实体为例进行介绍。具体识别采用基于LSTM+CRF模型训练的命名实体识别开源工具。当然本发明的技术方案不限于采用上述模型，也不限于人名命名实体识别。

神经机器翻译模型可以采用Transformer模型，它是由谷歌推出的一款基于“解码器-编码器”框架的开源神经机器翻译模型，其中融合了新的技术(例如self-attention机制)，在现有的机器翻译模型的多个语言对的翻译中都中取得了当前技术水平(state-of-the-art)的成绩。

现有的解决方案使用BPE算法通过将字分割为子字而将词汇限制为固定大小。但是，仍有大量的NE无法由固定大小的子字段捕获。而该实施例中，通过从预置的命名实体词典和/或命名实体库查找命名实体的译文，并用查找到的译文替换中间目标语句中相应的标签，与现有的神经机器翻译方法相比，相当于扩大了神经机器翻译模型的词汇表，从而能够使得由于词汇表受限而导致的无法翻译命名实体得到翻译，从而提高对命名实体的翻译准确度。

根据本发明的一个可选实施例，在未能从预置的命名实体词典和/或命名实体库找到命名实体的译文时，用外部命名实体翻译模型翻译命名实体，并用命名实体的翻译结果替换中间目标语句中相应的标签，其中，外部命名实体翻译模型是通过命名实体库加上所述命名实体词典作为训练数据对神经机器模型框架进行训练而创建的。该外部命名实体翻译模型独立于神经机器翻译模型来翻译命名实体，受益于附加的命名实体信息，解决了神经机器翻译中命名实体的集外词(out-of-vocabulary)问题，能够进一步提高对命名实体翻译的准确度。

根据本发明的一个可选实施例，用外部命名实体翻译模型翻译命名实体，并用命名实体的翻译结果替换中间目标语句中相应的标签包括：将命名实体切分为以字符为粒度的待翻译字符串并进行翻译解码，即，基于字符到字符(character-to-character)的翻译，将翻译结果恢复为原粒度后再将该翻译结果与中间目标语句中相应的标签进行替换。

根据本发明的一个可选实施例，外部命名实体翻译模型通过以下方式被创建：将命名实体库和所述命名实体词典中的命名实体切分为以字符为粒度的字符串，用字符串来训练神经机器翻译模型框架，生成外部命名实体翻译模型。

在训练“编码器—解码器”结构的神经机器翻译模型时，将训练数据中的源端输入序列以字符的形式拆分开来，比如将输入序列“符拉迪沃斯托克”拆分为“符拉迪沃斯托克”的形式，逐字输入编码端进行训练，同时将对应的训练数据中的目标端序列“Vladivostok”拆分为“VladIvostok”的形式。此方式训练出的模型可以将分割为字符为单位的输入文本序列翻译为同样分割为字符为单位的文本序列。通常的神经机器翻译为基于词(word)的形式，比如源端为“我爱北京天安门”，目标端序列为“I love Beijing Tiananmen”。但由于这里预构建的是要翻译PER命名实体的模型，而如果使用基于词的翻译模型，其输入序列的数量将会很少(人名一般由不超过三个词构成)，因此对于翻译效果会大打折扣。采用基于字符到字符的模型进行翻译是为了训练过程中，这种更细粒度的翻译模型可以更准确地获取源端PER命名实体到目标端PER命名实体的翻译规则，从而提升翻译准确度。

根据本发明的一个可选实施例，在命名实体库中的命名实体切分为以字符为粒度的字符串之前，还包括：将平行命名实体库中源端与目标端之间存在一对多的译文关系的命名实体拆分为一对一关系；以及用拆分后的命名实体训练神经机器翻译模型框架，以生成外部命名实体翻译模型。

根据本发明的一个可选实施例，在用与所识别的命名实体的类别对应的标签替换所识别的命名实体之后还包括：将被替换的命名实体按顺序保存；以及记录被替换的命名实体在源语句中的位置；用查找到的译文替换中间目标语句中相应的标签包括：根据位置用译文替换中间目标语句中相应的标签。通过该实施例的方法，能够根据命名实体的位置实施对相应标签的替换。

根据本发明的一个可选实施例，通过以下方式生成预置的命名实体词典：识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；对添加标签的双语训练语句进行基于统计的机器翻译SMT训练，得到短语表，短语表中包含双语平行短语之间的翻译概率；筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；在双语训练语句中查找所筛选出的平行实体翻译词对；以及将所找到的平行命名实体翻译对输出，形成命名实体词典。

根据本发明的一个可选实施例，对添加标签的双语训练语句进行SMT训练包括：在识别命名实体之后，对于由两个以上的词组成的命名实体，在各个词之间加入连接标识符；以及对所有命名实体进行词对齐处理。

根据本发明的一个可选实施例，在替换所识别的命名实体之前还包括：将待替换的命名实体对按长度排序，之后按照先长后短的顺序进行替换。

通过该方法，能够避免某些命名实体(如嵌套词)被不完整地替换。

嵌套词指的是一个词为另一个词的一部分，比如“约翰”为“约翰逊”的一部分。如果在句子中先将“约翰”进行标签替换，则容易使得后续待替换“约翰逊”一词出现“PER逊”的半替换情况，从而无法匹配成功。因此在替换之前，首先将待替换词语列表按照文本长度从长到短的顺序进行排练，之后再依次进行替换。

根据本发明的一个可选实施例，命名实体词典和/或命名实体库中存储有平行的双语命名实体对，从而能够用于从中查找带翻译的命名实体。

根据本发明一个实施例，提供了神经机器翻译模型训练方法，包括：步骤S202，识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；步骤S204，对添加标签的双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，短语表中包含双语平行短语的翻译概率；步骤S206，筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；步骤S208，在双语训练语句中查找筛选出的平行实体翻译词对；以及步骤S210，将所找到的平行命名实体翻译对输出，形成命名实体词典，将命名实体词典用于外部命名实体翻译模型的训练数据以及在神经机器翻译模型对待翻译的语句进行翻译时查找命名实体。

通过该方法，能够方便随后进行词对齐操作。

根据本发明的一个可选实施例，在双语训练语句中查找到筛选出的平行实体翻译词对后，还包括：将待替换的命名实体对按长度排序；以及将双语训练语句中的命名实体按照先长后短的顺序替换为标签。

通过该方法，能够避免某些命名实体被不完整地替换。

根据本发明一个实施例，提供了一种神经机器翻译装置，如图3所示，包括：第一识别单元302，被配置为识别待翻译的源语句中的命名实体；第一替换单元304，被配置为用与所识别的命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；翻译单元306，被配置为通过神经机器翻译模型翻译中间源语句，获得带有标签的中间目标语句；查找单元308，被配置为从预置的命名实体词典和/或命名实体库查找被替换的命名实体的译文，其中命名实体词典和/或命名实体库中存储有平行的双语命名实体对；以及第二替换单元310，被配置为用查找到的译文替换中间目标语句中相应的标签，获得与待翻译的源语句对应的目标语句。

根据本发明的一个可选实施例，神经机器翻译装置，还包括：命名实体翻译单元，被配置为在未能从预置的命名实体词典和/或命名实体库找到命名实体的译文时，用外部命名实体翻译模型翻译命名实体，并用命名实体的翻译结果替换中间目标语句中相应的标签，其中，外部命名实体翻译模型是通过命名实体库加上所述命名实体词典作为训练数据对神经机器模型框架进行训练而创建的。

根据本发明的一个可选实施例，命名实体翻译单元进一步配置为：将命名实体切分为以字符为粒度的待翻译字符串并进行翻译解码，将翻译结果恢复为原粒度后再将该翻译结果与中间目标语句中相应的标签进行替换。

根据本发明的一个可选实施例，神经机器翻译装置还包括：第二识别单元，被配置为识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；训练单元，被配置为对添加标签的双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，短语表中包含双语平行短语之间的翻译概率；筛选单元，被配置为筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；查找单元，被配置为在双语训练语句中查找所筛选出的平行实体翻译词对；以及输出单元，被配置为将所找到的平行命名实体翻译对输出，形成命名实体词典。

根据本发明的实施例的一个方面，提供了一种神经机器翻译模型训练装置，如图4所示，包括：识别单元402，被配置为识别双语训练语句中的命名实体，并在双语训练语句中为所识别的命名实体添加标签；训练单元404，被配置为对添加标签的双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，短语表中包含双语平行短语的翻译概率；筛选单元406，被配置为筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；查找单元408，被配置为在双语训练语句中查找筛选出的平行实体翻译词对；输出单元410，被配置为将所找到的平行命名实体翻译对输出，形成命名实体词典，实体词典用于在神经机器翻译模型对待翻译的语句进行翻译时查找命名实体。

根据本发明的一个可选实施例，训练单元进一步被配置为：在识别命名实体之后，对于由两个以上的词组成的命名实体，在各个词之间加入连接标识符；以及对所有命名实体进行词对齐处理。

根据本发明的一个可选实施例，神经机器翻译模型训练装置，还包括：替换单元，被配置为将待替换的命名实体对按长度排序；并将双语训练语句中的命名实体按照先长后短的顺序替换为标签。通过该替换单元的操作，能够避免某些命名实体被不完整地替换。

如图5所示，图5为本发明提供的基于标签替换的神经机器翻译中命名实体处理框架示例图。

图5中左侧方框内为一训练集，右侧则表示对一待翻译的句子进行翻译的过程。

左侧方框中的第一个方框为一双语训练语句：

“美国总统特朗普表示...

The US president Trump said...”。

其紧邻的下侧方框表示加入了命名实体的标签的训练语句：

“美国\LOC总统特朗普\PER表示...

The US\LOC president Trump\PER said...”

该方框下面的方框表示将平行双语PER翻译实体对在双语句子中依次找到，并将原词汇替换成了标签标识。

“\LOC总统\PER表示...

The\LOC president\PER said....”

该图中间部分的柱形表示命名实体词典；最右侧的柱形表示外部命名实体翻译模型。

图中的NMT模型为神经机器翻译模型中的解码器模型，对编码器编码的句子进行解码。

其中，右侧的输入语句为“李克强会见俄罗斯总统普京”；

标签替换后的中间语句为：

“\PER met with\LOC President/PER”。

“Li Keqiang met with Russian President Putin”。

下面将依照图5的中英翻译为例子来对每一步进行具体说明。

步骤1：对训练数据的双语句子分别进行命名实体识别，按类型筛选出人名命名实体(PER)，具体实施方式如下：

对于训练数据的平行句对，可采用基于LSTM+CRF模型训练的命名实体识别开源工具对分别对中文和英文端进行识别，其识别的命名实体类型包括PER、LOC和ORG三种，形式如下：

中文端：“美国\LOC总统特朗普\PER表示...”

英文端：“The U.S.\LOC president Trump\PER said...”

对于识别后的句子，可仅保留人名命名实体PER标签。

步骤2：将识别出来的人名命名实体用标识符合并为uni-gram形式的词汇表示。

uni-gram形式指所识别出来的命名实体有可能是多个字的组合，比如PER命名实体“张顺飞”，分别由“张”和“顺飞”两个token所组成，为了下一步的基于概率统计的对齐工作容易进行，可将这种识别出来的multi-token的命名实体直接的空格用下划线‘_’进行连接，使其在之后的对齐训练过程中始终保持一个整体uni gram的形式。

也就是说，对于识别出来的一些有多个单词组合构成的multi-token的词语，为了方便随后进行的词对齐操作，可统一将所有multi-token的PER命名实体词以加入连接标识符,如：

[1]“张顺飞”→“张_顺飞”

步骤3：将识别出来的人名命名实体加上标签标注在原始句子中，并使用自动对齐工具对标注后的平行实体对进行词对齐，得到包含翻译概率的源语言-目标语言词汇翻译表(又称为实体词典)。具体步骤如下：

对标注PER标签的双语训练数据进行基于统计的机器翻译(SMT)训练，得到短语表(phrase-table)。在本文的实施例中以开源统计机器翻译系统moses进行训练。系统细节在以下网站提供：

http://www.statmt.org/moses/

其中，双语训练数据是指在神经机器翻译模型的训练阶段所使用的文本数据，以行为单位，源端为中文句子，目标端为其对应的英文翻译句子。

短语表是经由基于统计的机器翻译模型从双语训练数据中训练得到的从源端语言所包含的短语到目标语言所包含的短语的映射关系表，其形式如下：

加尔佐/PER|||Garzo/PER 0.829007 0.207955 0.801493 0.492402

其中‘|||’左侧为源端短语，右侧为目标端短语，随后的四个数值分别为目标端到源端的反向短语翻译概率

目标端到源端的短语的反向词汇翻译权重，源端到目标端的正向短语翻译概率

以及源端到目标端的正向词汇翻译权重。短语翻译概率的分数越高，代表‘|||’两端的短语为平行互译的概率越高。在本发明的处理步骤中(步骤4)只针对

和

进行处理，通过设置的

和

同时大于0.2来筛选出复合条件的短语对齐对，即认为，复合此条件的短语对为平行互译短语对。

根据得到的短语表，按翻译概率筛选出带有命名实体标签的PER平行实体翻译词对。

其中，按翻译概率筛选出带有命名实体标签的PER平行实体翻译词对该步骤具体如下：

首先对短语表进行过滤，只保留源端和目标端同时为unigram并且都带有PER标识的短语对齐对。如：

加尔佐/PER|||Garzo/PER 0.829007 0.207955 0.801493 0.492402

在过滤剩下的短语对齐对中，按照训练所得到的源端到目标端短语翻译概率

以及目标端到源端逆短语翻译概率

设置概率阈值(这里取

和

同时大于0.2)。

将满足上述概率阈值的带有同种类命名实体标签的PER平行实体翻译词对筛选出来。将筛选出来的平行双语PER翻译实体对在原训练数据的双语句子中依次找到，并全部将原命名实体替换成标签。并将找到并替换的所有命名实体及其译文输出为一个实体词典备用。

对于过滤出来的平行实体翻译词对，可采用对源端语句和目标端语句遍历匹配的方式，当且仅当源端PER命名实体存在于源端句子中并且其对应的目标端PER命名实体也存在于目标端句子中，才将此句子对中的PER命名实体进行标签替换。在替换遍历之前，首先将待遍历的PER命名实体对进行按长度从大到小的排序，以保证所有嵌套词也都可以被替换成标签。在实际应用中，可使用cwmt中英平行语料进行实验，利用过滤出来的8,924对平行PER命名实体在9M平行句对进行标签替换，最终在304,379对句子中共替换出347,087个标签，这便于进行下一步的训练操作。

标签替换是指将指定的某一个词在句子中替换为特定的标签文本。例如将PER命名实体“特朗普”在句子“美国总统特朗普昨日会见了…”进行标签替换，则原句子变为：“美国总统PER昨日会见了…”这里“特朗普”为待替换的词语，“PER”为设定的特殊标签，表示句子中此位置为PER命名实体。

带有PER标识的句子，特指之前通过“标签-替换”步骤(步骤5)中生成的带有“PER”标签的句子，例如“美国总统PER昨日会见了…”，句子中的标签标识了原句子中PER命名实体所在的位置。

步骤4：基于替换标签后的训练数据搭训练一个神经机器翻译模型，使得翻译模型可以接收带有PER标签标识的带翻译句子输入，并能够输出带有对应位置标签标识的目标翻译句子。具体实施方式如下：

可使用开源的基于self-attention机制的seq2seq神经机器翻译模型transformer来训练带标签的句子翻译模型。翻译模型可在以下网址免费下载：

https://github.com/tensorflow/tensor2tensor

在进行训练之前，可首先对双语句子进行BPE训练，具体的，在cwmt中英9M平行语料中，将中英词汇数量分别限制在30000和35000，训练的batch size设置为4096，学习率设置为0.1，drop-out设置为0.3。经过200k轮训练后对开发集的标签匹配状况进行人工检测，对于开发集中919平行句对，翻译后的目标端句子中标签位置翻译的正确率为99.5％，符合翻译要求。

步骤5：该步骤涉及利用该神经及其翻译模型对待翻译的语句进行翻译的过程，具体如下：

对待翻译的句子运用上述同样的识别工具进行人名命名实体的识别，并将识别出的命名实体替换成同样的PER标签，将被替换的原词按顺序保存作为备用。具体实施方式如下：

如图一右半部分所示，在解码过程之前，首先将带翻译句子用和处理训练数据同样的命名实体识别工具进行PER命名实体的识别后，再将识别出来的词语依次替换成PER标签，这一步的目的是为了将待翻译句子中的命名实体转换成标签的形式，从而使翻译模型可以解码出对应命名实体在目标句子中的位置。同时，记录下被替换出来的名命名实体及其在原句子中所对应的位置，从而方便下一步的翻译替换操作。

将步骤5中保存的被替换的原词首先通过查表的方式在一命名实体库中或步骤3中生成的实体词典中查找对应翻译，根据查询结果，进行相应的后续处理。具体如下：

首先将替换下来的待翻译句子中的PER命名实体依次进行查表操作，具体的，这一步可采用训练外部命名实体翻译模型时所使用的LDC中英文命名实体库，以及从原训练数据中对齐并过滤产生的PER命名实体词典。其中，LDC中英文命名实体库中存储有平行命名实体对。

如果当前选中的PER命名实体在LDC中英文命名实体库或实体词典中存在对应译文，则将译文译直接与翻译结果中对应的标签进行替换。如未找到对应译文，则按照外部命名实体翻译模型的翻译过程，将其切分为以字符为粒度的待翻译字符串并进行翻译解码，将翻译结果恢复为原粒度后再将其与句子翻译结果中对应的标签进行替换。

本发明一个实施例中，使用额外的平行命名实体库作为训练数据，建立一个额外的命名实体翻译模型。具体方法如下：

如图6所示，将源端和目标端平行的命名实体分别切分为对应的以字符为粒度的字符串，同样使用开源的基于self-attention机制的seq2seq神经机器翻译模型transformer来训练基于character-to-character的命名实体翻译模型。

其中，输入为“特朗普”，输出为“Trump”

具体地，使用LDC中英命名实体库来中共510,612对PER命名实体对来进行训练，需要说明的是，PER命名实体的中英文对照存在一对多的翻译关系，即同一个中文词语可能对应多种英文实体的翻译，例如中文端“克雷斯坦”可以对应“Chrestin”和“Crestin”两种英文翻译。LDC中英命名实体库对上述一译多情况的表示具体如下例：

阿埃多/Aedo/Ahedo/Haedo/

因此在训练之前需要先将这些有一译多关系的行进行拆分，将其全部转换成一对一的关系。拆分之后的训练数据共693,705对PER命名实体。模型在开发集的1000对PER命名实体的翻译精确度达到41％。

实验结果

在实验中使用cwmt提供的中-英900M平行句对作为训练数据，使用机器翻译评测(NIST MT Evaluation)中从2003年至2006年的所有测试集MT03-MT06作为开发集和测试集。其中MT03作为开发集。在对比实验中，使用大小写不敏感的BLEU-4作为评测指标。

附表1给出了本发明与只进行过BPE处理的神经机器翻译baseline在4组测试数据(MT03、MT04、MT05、MT06)上的表现。试验采用的神经机器翻译模型皆为transformer模型进行训练。

附表1本发明与只进行过BPE处理的神经机器翻译baseline在不同测试集上的BLEU值

可以看出，将句子中的PER命名实体进行单独翻译并替换的方法(表格第2行)与训练数据只进行BPE切分的神经机器翻译系统(表格第一行)对比，在最终翻译结果的BLEU值评分上，除开发集MT03有下降以外，在其余测试集上在最终翻译结果皆有比较明显的提高，平均BLEU值有0.48的提升。这充分说明了本发明的命名实体翻译方法的有效性和优越性。

本发明的神经机器翻译方法提升了对命名实体翻译的准确性，使模型可以很好地利用本身训练数据中包含有的命名实体信息并整合额外的命名实体库信息，从而提升整体模型的句子翻译质量。这对于数据的有效利用方面有着积极的意义。

本发明一实施例中，针对于神经机器翻译系统中由词表受限问题而产生的命名实体翻译问题，将外部训练的命名实体翻译模型融合进来，使得待翻译句子中的命名实体得以被独立翻译而不受原神经机器翻译的固定词表的影响。外部独立训练的命名实体翻译模型基于字符粒度进行训练，这使得词表数量可以大大减少训练所使用的词表大小。模型采用神经机器翻译seq2seq结构自动获取命名实体的翻译规则；利用标签替换的方式，令训练数据中包含PER命名实体标签信息，使得神经网络可以学习到目标端和源端中PER命名实体在句子结构中的位置对应关系，在解码过程中可以将待翻译句子中的PER标识正确翻译至对应的目标语言翻译句子之中。

实验结果表明，在经过外部训练的命名实体翻译模型独立翻译的PER命名实体，在准确率上相较于句子级别的神经机器翻译模型翻译出来的结果在准确性上有一定的提升。在整体句子的翻译方面，这种利用标签替换单独翻译PER命名实体的神经机器翻译框架对比传统仅经过BPE处理的训练模型，其在多个测试集的测评方面有平均0.48个BLEU值的提升。这充分证明了本发明的神经机器翻译方法的有效性和优越性。

本发明实施例中，以人名命名实体为例进行了详细说明，显然本发明的方法不限于人名民命实体，而是可同样应用于其他种类的命名实体。

本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的，作为单元或模块显示的部件可以是或者也可以不是物理单元或模块，即可以位于一个地方，或者也可以分布到多个网络单元或模块上。可以根据实际的需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元或模块可以集成在一个处理单元或模块中，也可以是各个单元或模块单独物理存在，也可以两个或两个以上单元或模块集成在一个单元或模块中。上述集成的单元或模块既可以采用硬件的形式实现，也可以采用软件功能单元或模块的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种神经机器翻译方法，其特征在于，包括：

识别待翻译的源语句中的命名实体；

用与所述命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；

通过神经机器翻译模型翻译所述中间源语句，获得带有所述标签的中间目标语句；

从预置的命名实体词典和/或命名实体库查找所述命名实体的译文；以及

用查找到的所述译文替换所述中间目标语句中相应的标签，获得与所述待翻译的源语句对应的目标语句。

2.根据权利要求1所述的神经机器翻译方法，其特征在于：

在未能从所述预置的命名实体词典和/或命名实体库找到所述命名实体的译文时，用外部命名实体翻译模型翻译所述命名实体，并用所述命名实体的翻译结果替换所述中间目标语句中相应的标签，其中，所述外部命名实体翻译模型是通过所述命名实体库加上所述命名实体词典作为训练数据对神经机器模型框架进行训练而创建的。

3.根据权利要求2所述的神经机器翻译方法，其特征在于，所述用外部命名实体翻译模型翻译所述命名实体，并用所述命名实体的翻译结果替换所述中间目标语句中相应的标签包括：

将所述命名实体切分为以字符为粒度的待翻译字符串并进行翻译解码，将翻译结果恢复为原粒度后再将该翻译结果与所述中间目标语句中相应的标签进行替换。

4.根据权利要求2所述的神经机器翻译方法，其特征在于，所述外部命名实体翻译模型通过以下方式被创建：

将所述命名实体库和所述命名实体词典中的命名实体切分为以字符为粒度的字符串，用所述字符串来训练神经机器翻译模型框架，生成所述外部命名实体翻译模型。

5.根据权利要求4所述的神经机器翻译方法，其特征在于，在所述命名实体库中的命名实体切分为以字符为粒度的字符串之前，还包括：

将所述命名实体库中源端与目标端之间存在一对多的译文关系的命名实体拆分为一对一关系；以及

用拆分后的所述命名实体训练所述神经机器翻译模型框架，以生成所述外部命名实体翻译模型。

6.根据权利要求1所述的神经机器翻译方法，其特征在于，

在用与所识别的命名实体的类别对应的标签替换所识别的命名实体之后还包括：将被替换的所述命名实体按顺序保存；以及记录被替换的所述命名实体在所述源语句中的位置；

所述用查找到的所述译文替换所述中间目标语句中相应的标签包括：根据所述位置用所述译文替换所述中间目标语句中相应的标签。

7.根据权利要求1所述的神经机器翻译方法，其特征在于，通过以下方式生成所述预置的命名实体词典：

识别双语训练语句中的命名实体，并在所述双语训练语句中为所识别的命名实体添加标签；

对添加标签的所述双语训练语句进行基于统计的机器翻译SMT训练，得到短语表，所述短语表中包含双语平行短语之间的翻译概率；

筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；

在所述双语训练语句中查找所筛选出的所述平行实体翻译词对；以及

将所找到的平行命名实体翻译对输出，形成所述命名实体词典。

8.根据权利要求7所述的神经机器翻译方法，其特征在于，对添加标签的所述双语训练语句进行SMT训练包括：

在识别所述命名实体之后，对于由两个以上的词组成的命名实体，在各个词之间加入连接标识符；以及

对所有命名实体进行词对齐处理。

9.根据权利要求1所述的神经机器翻译方法，其特征在于，在替换所识别的命名实体之前还包括：

将待替换的所述命名实体对按长度排序，之后按照先长后短的顺序进行替换。

10.根据权利要求1至9中任一项所述的神经机器翻译方法，其特征在于，所述命名实体词典和/或命名实体库中存储有平行的双语命名实体对。

11.一种神经机器翻译模型训练方法，其特征在于，包括：

对添加标签的所述双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，所述短语表中包含双语平行短语的翻译概率；

在所述双语训练语句中查找筛选出的所述平行实体翻译词对；以及

将所找到的平行命名实体翻译对输出，形成所述命名实体词典,将所述命名实体词典用于外部命名实体翻译模型的训练数据以及在所述神经机器翻译模型对待翻译的语句进行翻译时查找命名实体。

12.根据权利要求11所述的神经机器翻译模型训练方法，其特征在于，对添加标签的所述双语训练语句进行SMT训练包括：

对所有命名实体进行词对齐处理。

13.根据权利要求11所述的神经机器翻译模型训练方法，其特征在于，在所述双语训练语句中查找到筛选出的所述平行实体翻译词对后，还包括：

将待替换的所述命名实体对按长度排序；以及

将所述双语训练语句中的所述命名实体按照先长后短的顺序替换为标签。

14.一种神经机器翻译装置，其特征在于，包括：

第一识别单元，被配置为识别待翻译的源语句中的命名实体；

第一替换单元，被配置为用与所识别的命名实体的类别对应的标签替换所识别的命名实体，获得中间源语句；

翻译单元，被配置为通过神经机器翻译模型翻译所述中间源语句，获得带有所述标签的中间目标语句；

查找单元，被配置为从预置的命名实体词典和/或命名实体库查找被替换的所述命名实体的译文，其中所述命名实体词典和/或命名实体库中存储有平行的双语命名实体对；以及

第二替换单元，被配置为用查找到的所述译文替换所述中间目标语句中相应的标签，获得与所述待翻译的源语句对应的目标语句。

15.根据权利要求14所述的神经机器翻译装置，其特征在于，还包括：

命名实体翻译单元，被配置为在未能从所述预置的命名实体词典和/或命名实体库找到所述命名实体的译文时，用外部命名实体翻译模型翻译所述命名实体，并用所述命名实体的翻译结果替换所述中间目标语句中相应的标签，

其中，所述外部命名实体翻译模型是通过所述命名实体库加上所述命名实体词典作为训练数据对神经机器模型框架进行训练而创建的。

16.根据权利要求15所述的神经机器翻译装置，其特征在于，命名实体翻译单元进一步配置为：

17.根据权利要求14所述的神经机器翻译装置，其特征在于，所述神经机器翻译装置还包括：

第二识别单元，被配置为识别双语训练语句中的命名实体，并在所述双语训练语句中为所识别的命名实体添加标签；

训练单元，被配置为对添加标签的所述双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，所述短语表中包含双语平行短语之间的翻译概率；

筛选单元，被配置为筛选出翻译概率大于预定概率阈值的带有同种类命名实体标签的平行实体翻译词对；

查找单元，被配置为在所述双语训练语句中查找所筛选出的所述平行实体翻译词对；以及

输出单元，被配置为将所找到的平行命名实体翻译对输出，形成所述命名实体词典。

18.一种神经机器翻译模型训练装置，用于所述神经机器翻译模型的训练，其特征在于，包括：

识别单元，被配置为识别双语训练语句中的命名实体，并在所述双语训练语句中为所识别的命名实体添加标签；

训练单元，被配置为对添加标签的所述双语训练语句进行基于统计的机器翻译(SMT)训练，得到短语表，所述短语表中包含双语平行短语的翻译概率；

查找单元，被配置为在所述双语训练语句中查找筛选出的所述平行实体翻译词对；以及

输出单元，被配置为将所找到的平行命名实体翻译对输出，形成所述命名实体词典，所述实体词典用于在神经机器翻译模型对待翻译的语句进行翻译时查找命名实体。

19.根据权利要求18所述的神经机器翻译模型训练装置，其特征在于，所述训练单元进一步被配置为：

对所有命名实体进行词对齐处理。

20.根据权利要求18所述的神经机器翻译模型训练装置，其特征在于，还包括：

替换单元，被配置为将待替换的所述命名实体对按长度排序；并将所述双语训练语句中的所述命名实体按照先长后短的顺序替换为标签。

21.一种存储介质，存储有程序指令，当所述程序指令由计算机运行时，使所述计算机执行权利要求1至13中任一项所述的方法。

22.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至13中任意一项所述的方法。

23.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至13中任一项所述的方法。