CN110765792A

CN110765792A - 基于词类别的神经网络机器翻译方法及系统、训练方法

Info

Publication number: CN110765792A
Application number: CN201911064728.XA
Authority: CN
Inventors: 张孝飞; 吕荣波; 吕春阳; 周聪; 朱琳
Original assignee: Beijing Zhong Xian Electronic Technology Development Co Ltd
Current assignee: Beijing Zhong Xian Electronic Technology Development Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-07

Abstract

本发明涉及机器翻译技术领域，尤其涉及一种基于词类别的神经网络机器翻译方法、训练方法及翻译系统；所述翻译方法包括以下步骤：识别待译文本中的基本类别词；将基本类别词替换为类别代号，同时保存基本类别词和类别代号之间的对应关系；对替换为类别代号的待译文本进行机器翻译，得到中间翻译结果；将基本类别词进行规范化或翻译为目标语言；将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果。本发明所公开的基于词类别的神经网络机器翻译方法、训练方法及翻译系统，通过将待译文本中的相同类别词替换为相同类别代号再进行翻译，降低了待译文本的数据维度，提高了神经网络机器翻译的效率和准确性。

Description

基于词类别的神经网络机器翻译方法及系统、训练方法

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种基于词类别的神经网络机器翻译方法、训练方法及翻译系统。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着人工智能的快速发展，循环神经网络等深度学习网络结构已被广泛应用于自然语言处理领域，神经网络机器翻译便是其产物之一。作为近年来兴起的一种全新的机器翻译技术，神经网络机器翻译与过去的基于规则的机器翻译和基于统计的机器翻译相比在翻译质量上取得了巨大的突破，使机器翻译的商业应用变得触手可及。

中国专利CN201810845896.1提供了一种神经网络机器翻译模型的训练方法和装置，包括：获取多种高资源语言对和低资源语言对；对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作；将操作后的每种高资源语言对作为对应的父模型的训练集，将操作后的低资源语言对作为孩子模型的训练集，根据预设顺序对各父模型按照迁移学习的方法进行训练，以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型；根据最后一个训练好的父模型训练所述孩子模型，获得用于翻译低资源语言的神经网络机器翻译模型；使得在低资源的语言对上训练出来的孩子模型的性能得到明显提升。

然而，现有技术下，机器学习模型训练语料的规模成为影响翻译效果的重要因素。由于基本类别词为开放语，训练语料难以覆盖其广度和深度，因此存在严重的数据稀疏问题。而基本类别词在语言中的普遍使用导致了目前的神经网络机器翻译在翻译各类文本时容易遇到陌生词，从而影响了整体的翻译质量。

因此，为了解决上述问题，急需发明一种新的基于词类别的神经网络机器翻译方法、训练方法及翻译系统。

发明内容

本发明的目的在于：提供一种基于词类别的神经网络机器翻译方法、训练方法及翻译系统，通过将待译文本中的相同类别词替换为相同类别代号再进行翻译，降低了待译文本的数据维度，提高了神经网络机器翻译的效率和准确性。

本发明提供了下述方案：

一种基于词类别的神经网络机器翻译方法，包括以下步骤：

S1、识别待译文本中的基本类别词；

S2、将基本类别词替换为类别代号，同时保存基本类别词和类别代号之间的对应关系；

S3、对替换为类别代号的待译文本进行机器翻译，得到中间翻译结果；

S4、将基本类别词进行规范化或翻译为目标语言；

S5、将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果。

优选地，基本类别词包括时间、地点、人名、机构名和数字，通过各个类别的特征词和特征格式对基本类别词进行标注和提取。

优选地，基本类别词替换为类别代号的步骤，具体为：

时间替换为“#TIME#”，地点替换为“#SITE#”，人名替换为“#NAME#”，机构名替换为“#ORG#”，数字替换为“#NUM#”。

优选地，将基本类别词进行规范化或翻译为目标语言的步骤根据下述的预设处理和翻译规则：

时间、地点和机构名直接翻译成目标语言；

人名根据源语言和目标语言采取不同翻译策略；

数字统一处理为阿拉伯数字，并且从右至左每隔3位数以“，”隔开。

优选地，将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果的步骤，具体为：

从中间翻译结果获取含有类别代号的双语句对；

如果在原文/译文句子中某类别代号只出现了一次，则直接根据基本类别词和类别代号之间的对应关系，将其还原为规范化或翻译后的基本类别词；如果在原文/译文句子中某类别代号出现了多次，则根据对齐定位方法进行处理。

优选地，对齐定位方法包括：

对双语句对进行词对齐处理；

利用各类别代号在原文和译文的上下文信息分别确定多个相同类别代号的对应关系；

根据基本类别词和类别代号之间的对应关系，将其还原为规范化或翻译后的基本类别词。

进一步地，本发明还提供了一种基于词类别的神经网络机器翻译训练方法，包括以下步骤：

S301、准备双语训练语料；

S302、对双语训练语料进行句对齐和词对齐处理；

S303、识别源语言中的基本类别词，并通过词对齐信息相应地识别出目标语言中的基本类别词；

S304、对基本类别词识别后的语料进行筛选，剔除基本类别词数量和类型在源语言和目标语言不一致的双语句对；

S305、将识别出的基本类别词替换为类别代号；

S306、将替换后的双语语料作为训练语料训练机器学习模型，直至满足训练结束条件。

优选地，对基本类别词识别后的语料进行筛选的步骤，包括剔除基本类别词数量和类型在源语言和目标语言不一致的双语句对的步骤。

进一步地，本发明还提供了一种基于词类别的神经网络机器翻译系统，包括：

语料预处理模块310，用于接收和处理待译文本，识别并标注待译文本中的基本类别词，将识别出的基本类别词发送给第二翻译模块330；将待译文本中的基本类别词替换为类别代号，将经过处理的待译文本发送至第一翻译模块320；

第一翻译模块320，用于接收和翻译待译文本，得到中间翻译结果，将中间翻译结果发送至还原模块340；

第二翻译模块330，用于接收基本类别词，并根据预设的处理和翻译规则将所述基本类别词规范化或翻译为目标语言，然后将基本类别词的翻译结果发送至还原模块340；

还原模块340，用于将中间翻译结果中的类别代号对应地还原为基本类别词的翻译结果，得到最终翻译结果。

优选地，语料预处理模块310包括：

识别单元，用于识别并标注待译文本中的基本类别词，并将识别出的基本类别词发送给第二翻译模块330；

以及替换单元，用于将待译文本中的基本类别词替换为类别代号。

本发明产生的有益效果：

本发明所公开的基于词类别的神经网络机器翻译方法、训练方法及翻译系统，所述翻译方法包括以下步骤：识别待译文本中的基本类别词；将基本类别词替换为类别代号，同时保存基本类别词和类别代号之间的对应关系；对替换为类别代号的待译文本进行机器翻译，得到中间翻译结果；将基本类别词进行规范化或翻译为目标语言；将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果；通过将待译文本中的相同类别词替换为相同类别代号再进行翻译，降低了待译文本的数据维度，提高了神经网络机器翻译的效率和准确性。

附图说明

图1为本发明的基于词类别的神经网络机器翻译方法的流程框图。

图2为本发明的基于词类别的神经网络机器翻译训练方法的流程框图。

图3为本发明的基于词类别的神经网络机器翻译系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

参见图1所示，一种基于词类别的神经网络机器翻译方法，包括以下步骤：

S1、识别待译文本中的基本类别词；

S4、将基本类别词进行规范化或翻译为目标语言；

基本类别词包括时间、地点、人名、机构名和数字，通过各个类别的特征词和特征格式对基本类别词进行标注和提取。

基本类别词替换为类别代号的步骤，具体为：

将基本类别词进行规范化或翻译为目标语言的步骤根据下述的预设处理和翻译规则：

时间、地点和机构名直接翻译成目标语言；

人名根据源语言和目标语言采取不同翻译策略；

将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果的步骤，具体为：

从中间翻译结果获取含有类别代号的双语句对；

对齐定位方法包括：对双语句对进行词对齐处理；利用各类别代号在原文和译文的上下文信息分别确定多个相同类别代号的对应关系；根据基本类别词和类别代号之间的对应关系，将其还原为规范化或翻译后的基本类别词。

本实施例中所述基于词类别的神经网络机器翻译方法，包括以下步骤：识别待译文本中的基本类别词；将基本类别词替换为类别代号，同时保存基本类别词和类别代号之间的对应关系；对替换为类别代号的待译文本进行机器翻译，得到中间翻译结果；将基本类别词进行规范化或翻译为目标语言；将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果；通过将待译文本中的相同类别词替换为相同类别代号再进行翻译，降低了待译文本的数据维度，提高了神经网络机器翻译的效率和准确性。

本实施例中所述基于词类别的神经网络机器翻译方法的具体流程为：

1)识别待译文本中的基本类别词，所述基本类别词包括时间、地点、人名、机构名和数字，具体地，如可以通过各个类别的特征词和特征格式对基本类别词进行提取；

2)将所述待译文本中的基本类别词替换为类别代号，同时保留对应关系：

具体地，如时间替换为“#TIME#”，地点替换为“#SITE#”，人名替换为“#NAME#”，机构名替换为“#ORG#”，数字替换为“#NUM#”；

3)以句子为单位对所述待译文本进行机器翻译，得到中间翻译结果；

4)根据预设的处理和翻译规则将所述基本类别词规范化或翻译为目标语言，具体地，如：

a)时间、地点、机构名可直接翻译成目标语言；

b)人名根据源语言和目标语言采取不同翻译策略，如在汉语翻译成英语时，汉语人名翻译为汉语拼音；在汉语翻译成日语时，汉语人名直接翻译；

c)数字统一处理为阿拉伯数字，并且从右至左每隔3位数以“，”隔开；

5)结合原文和译文上下文信息将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果。具体地：

a)从中间翻译结果获取含有类别代号的双语句对；

b)如果在原文/译文句子中某类别代号只出现了一次，则直接根据步骤2中的替换对应关系将其还原为规范化或翻译后的基本类别词；如果在原文/译文句子中某类别代号出现了多次，则：

i)对双语句对进行词对齐处理；

ii)利用各类别代号在原文和译文的上下文信息分别确定多个相同类别代号的对应关系；

iii)根据步骤2中的替换对应关系将其分别还原为规范化或翻译后的基本类别词；

c)得到最终翻译结果。

参见图2所示，进一步地，本实施例还提供了一种基于词类别的神经网络机器翻译训练方法，包括以下步骤：

S301、准备双语训练语料；

S302、对双语训练语料进行句对齐和词对齐处理；

S305、将识别出的基本类别词替换为类别代号；

对基本类别词识别后的语料进行筛选的步骤，包括剔除基本类别词数量和类型在源语言和目标语言不一致的双语句对的步骤。

本实施例所述的基于词类别的神经网络机器翻译训练方法的具体流程为：

1)准备双语训练语料；

2)对双语训练语料进行句对齐和词对齐处理；

3)识别源语言中的基本类别词，通过词对齐信息相应地识别出目标语言中的基本类别词；

4)对识别后的语料进行筛选，剔除基本类别词数量和类型在源语言和目标语言不一致的双语句对；

5)将识别出的基本类别词替换为类别代号；

6)将替换后的双语语料作为训练语料训练机器学习模型，直至满足训练结束条件。

参见图3所示，进一步地，本实施例中还提供了一种基于词类别的神经网络机器翻译系统，包括：

语料预处理模块310包括：识别单元，用于识别并标注待译文本中的基本类别词，并将识别出的基本类别词发送给第二翻译模块330；以及替换单元，用于将待译文本中的基本类别词替换为类别代号。

本实施例还提供一种适于实现上文描述的基于词类别的神经网络机器翻译方法的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。

具体地，处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质可以包括计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块，例如包括语料预处理模块310、第一翻译模块320、第二翻译模块330、还原模块340。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器执行时，使得处理器可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例，上述模块中的至少一个可以实现为计算机程序模块，其在被处理器执行时，可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于词类别的神经网络机器翻译方法，其特征在于，包括以下步骤：

S1、识别待译文本中的基本类别词；

S4、将基本类别词进行规范化或翻译为目标语言；

2.根据权利要求1所述的基于词类别的神经网络机器翻译方法，其特征在于，基本类别词包括时间、地点、人名、机构名和数字，通过各个类别的特征词和特征格式对基本类别词进行提取。

3.根据权利要求2所述的基于词类别的神经网络机器翻译方法，其特征在于，将基本类别词进行规范化或翻译为目标语言的步骤根据下述的预设处理和翻译规则：

时间、地点和机构名直接翻译成目标语言；

人名根据源语言和目标语言采取不同翻译策略；

4.根据权利要求3所述的基于词类别的神经网络机器翻译方法，其特征在于，基本类别词替换为类别代号的步骤，包括：

5.根据权利要求4所述的基于词类别的神经网络机器翻译方法，其特征在于，将中间翻译结果中的类别代号还原为规范化或翻译后的基本类别词，得到最终翻译结果的步骤，具体为：

从中间翻译结果获取含有类别代号的双语句对；

6.根据权利要求5所述的基于词类别的神经网络机器翻译方法，其特征在于，对齐定位方法包括：

对双语句对进行词对齐处理；

7.一种基于词类别的神经网络机器翻译训练方法，其特征在于，包括以下步骤：

S301、准备双语训练语料；

S302、对双语训练语料进行句对齐和词对齐处理；

S305、将识别出的基本类别词替换为类别代号；

8.根据权利要求7所述的基于词类别的神经网络机器翻译训练方法，其特征在于，对基本类别词识别后的语料进行筛选的步骤，包括剔除基本类别词数量和类型在源语言和目标语言不一致的双语句对的步骤。

9.一种基于词类别的神经网络机器翻译系统，其特征在于，包括：

语料预处理模块，用于接收和处理待译文本，识别并标注待译文本中的基本类别词，将识别出的基本类别词发送给第二翻译模块330；将待译文本中的基本类别词替换为类别代号，将经过处理的待译文本发送至第一翻译模块320；

第一翻译模块，用于接收和翻译待译文本，得到中间翻译结果，将中间翻译结果发送至还原模块；

第二翻译模块，用于接收基本类别词，并根据预设的处理和翻译规则将所述基本类别词规范化或翻译为目标语言，然后将基本类别词的翻译结果发送至还原模块；

还原模块，用于将中间翻译结果中的类别代号对应地还原为基本类别词的翻译结果，得到最终翻译结果。

10.根据权利要求9所述的基于词类别的神经网络机器翻译系统，其特征在于，语料预处理模块包括：

识别单元，用于识别并标注待译文本中的基本类别词，并将识别出的基本类别词发送给第二翻译模块；以及

替换单元，用于将待译文本中的基本类别词替换为类别代号。