CN110147556B

CN110147556B - 一种多向神经网络翻译系统的构建方法

Info

Publication number: CN110147556B
Application number: CN201910323611.2A
Authority: CN
Inventors: 王涛
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2022-11-25
Anticipated expiration: 2039-04-22
Also published as: CN110147556A

Abstract

本发明提供了一种多向神经网络翻译系统的构建方法，该多向神经网络翻译系统的构建方法是基于多向神经网络模型来实现机器翻译操作的，该构建方法通过对模型训练数据进行关于所有源语言和所有目标语言的句对变换处理，以此更新该模型训练数据，从而使得采用更新后的模型训练数据训练翻译模型时，该翻译模型能够进行关于任意语言翻译方向对应的目标语言的直接解码处理，从而获得所需要的翻译结果。

Description

一种多向神经网络翻译系统的构建方法

技术领域

本发明涉及机器翻译的技术领域，特别涉及一种多向神经网络翻译系统的构建方法。

背景技术

机器翻译是利用计算机将作为源语言的一种自然语言转换成作为目标语言的另一种自然语言。机器翻译广泛应用于文本翻译和语音翻译中，用户通过具有机器翻译功能的终端能够随时随地进行各种不同自然语言之间的相互翻译。现有的机器翻译方式都是基于神经网络翻译系统来实现的，但是目前并不存在能够同时执行若干不同语言翻译方向操作的统一神经网络翻译系统。也就是说，某一特定的神经网络翻译系统只能针对单一一种语言翻译方向来进行神经网络翻译模型的训练，这使得在进行机器翻译的过程中，首先要区分输入文本(即源语言)的语种，并确定输出文本(即目标语言)的语种，然后再选择采用不同的神经网络翻译模型进行相应的机器翻译操作。

目前而言，机器翻译程序都需要用户在输入源语言文本之前，首先确定源语言文本的语种和目标语言文本的语种，即用户需要事先确定当前翻译操作对应的语言翻译方向，若用户没有事先确定语言翻译方向或者用户输入的源语言文本中同时存在多种不同的语种文本，这会导致该机器翻译程序无法正常地进行翻译操作以获得正确的目标语言文本。可见，现有的机器翻译方式在翻译语种众多的情况下，需要针对每一语言翻译方向分别进行神经网络翻译模型的部署和训练，这导致该机器翻译方式耗费较多的开发资源；此外，现有的机器翻译方式在运行之前需要对输入的源语言文本进行语种判断以及确定当前翻译对应的语言翻译方向，并且当输入的源语言文本同时混入其他语种文本时，该机器翻译方式将无法获取准确的翻译结果。

发明内容

针对现有技术存在的缺陷，本发明提供一种多向神经网络翻译系统的构建方法，该多向神经网络翻译系统的构建方法是基于多向神经网络模型来实现机器翻译操作的，该构建方法通过对模型训练数据进行关于所有源语言和所有目标语言的句对变换处理，以此更新该模型训练数据，从而使得采用更新后的模型训练数据训练翻译模型时，该翻译模型能够进行关于任意语言翻译方向对应的目标语言的直接解码处理，从而获得所需要的翻译结果。可见，该多向神经网络翻译系统的构建方法并不需要训练多个语言翻译方向的翻译模型，而是直接使用一个翻译模型进行多个不同语言翻译方向的翻译操作，该构建方法使用一个翻译模型进行多个不同语言翻译方向的翻译效果与现有技术采用多个翻译模型分别进行不同语言翻译方向的翻译效果相同，并且该构建方法在翻译数据量较小的情况下，其翻译效果会更好；此外，该构建方法能够适用于源语言和目标语言都同时混有多种语种的情况，其源语言和目标语言共用一个词典，这使得在输入源语言文本时并不需要对其进行语种检测，从而有效地解决输入源语言文本混有其他语种文本的问题。

本发明提供一种多向神经网络翻译系统的构建方法，其特征在于，所述多向神经网络翻译系统的构建方法包括如下步骤：

步骤(1)，对所述多向神经网络翻译系统的训练数据进行关于所有源语言与所有目标语言的句对变换处理，以此更新所述训练数据；

步骤(2)，基于更新后的所述训练数据，生成词典；

步骤(3)，基于所述词典，对Transformer模型进行训练时添加关于翻译的目标语言的信息；

步骤(4)，通过训练后的所述Transformer模型，进行关于任意翻译方向对应的目标语言直接解码处理，以获得所需翻译结果；

进一步，在所述步骤(1)中，进行关于所有源语言与所有目标语言的句对变换处理具体包括，

步骤(11)，构建关于所有源语言中的任意一个源语言source_i与所有目标语言中的任意一个目标语言target_i之间的句对(source_i，target_i)；

步骤(12)，对所述句对(source_i，target_i)进行复制变换处理，以此形成句对(target_i，source_i)；

步骤(13)，基于所述句对(source_i，target_i)与所述句对(target_i，source_i)组成的句对组，生成句对组数据集合；

进一步，在所述步骤(1)中，更新所述训练数据具体包括，

将所述步骤(13)生成的所述句对组数据集合添加到原始训练数据中，使得所述原始训练数据的训练数据量发生翻倍，以此实现对所述原始训练数据的更新；或者，

对所述步骤(13)生成的所述句对数据集合中的每一句对组进行有效性判断处理，并根据所述有效性判断处理的结果，确定是否将对应的句对组添加到原始训练数据中；

进一步，在所述步骤(1)中，对所述步骤(13)生成的所述句对组数据集合中的每一句对组进行有效性判断处理，并根据所述有效性判断处理的结果，确定是否将对应的句对组添加到原始训练数据中具体包括，

判断所述句对组中对应的句对(source_i，target_i)与句对(target_i，source_i)是否都符合预设句对逆变转换条件，

若是，则判断所述句对组具有有效性、同时将所述句对组添加到所述原始训练数据中，

若否，则判断所述句对组不具有有效性、同时不将所述句对组添加到所述原始训练数据中；

进一步，在所述步骤(2)中，基于更新后的所述训练数据，生成所述词典具体包括，

步骤(21)，在更新后的所述训练数据中确定对应的源语言数据集合和目标语言数据集合；

步骤(22)，对确定得到的所述源语言数据集合执行关于BPE分词处理，并根据所述BPE分词处理的结果生成所述词典；

步骤(23)，将所述词典作为训练数据中所有源语言和所有目标语言的同源词典，和/或将所述词典作为所述Transformer模型的训练词典或者作为翻译解码词典；

进一步，在所述步骤(22)中，对确定得到的所述源语言数据集合执行关于BPE分词处理得到所述结果后，

还包括对所述结果中关于源语言的每一BPE分词进行标准化转换处理，以此形成具有标准拼写形式的BPE分词，再根据预设词汇划分模式将所有具有标准拼写形式的BPE分词组合成所述词典；

进一步，在所述步骤(3)中，基于所述词典，对所述Transformer模型进行训练时添加关于翻译的目标语言的信息具体包括，

步骤(31)，采用所述词典中的所有词汇作为训练数据，对所述Transformer模型进行训练；

步骤(32)，对所述Transformer模型进行训练过程中，在所述Transformer模型的输入embedding端添加所述关于翻译的目标语言的信息；

步骤(33)，获取添加所述关于翻译的目标语言的信息后所述Transformer模型的训练参数，并根据所述训练参数，判断所述Transformer模型的训练程度；

进一步，在所述步骤(33)中，根据所述训练参数，判断所述Transformer模型的训练程度具体包括，

判断所述训练参数是否超过预设训练参数阈值，

若是，则判断所述Transformer模型的训练程度满足预设条件、同时将当前所述Transformer模型作为语言翻译模型，

若否，则判断所述Transformer模型的训练程度不满足预设条件、同时继续对所述Transformer模型进行训练，以使所述训练参数超过所述预设训练参数阈值为止；

进一步，在所述步骤(4)中，通过训练后的所述Transformer模型，进行关于任意语言翻译方向对应的目标语言直接解码处理，以获得所需翻译结果具体包括，

步骤(41)，确定当前翻译操作对应的当前翻译方向，并将所述当前翻译方向与所述训练数据中存在的所有翻译方向进行匹配处理；

步骤(42)，基于所述匹配处理的结果，确定是否进行关于任意语言翻译方向对应的目标语言直接解码处理以获得所需翻译结果；

进一步，在所述步骤(42)中，基于所述匹配处理的结果，确定是否进行关于任意语言翻译方向对应的目标语言直接解码处理以获得所需翻译结果具体包括，

若所述当前翻译方向匹配于所述所有翻译方向，则允许当前翻译操作的源语言数据在通过训练后的所述Transformer模型解码的同时在输入embedding中添加关于所述当前翻译方向对应的目标语言，以获得所需翻译结果。

相比于现有技术，本发明的多向神经网络翻译系统的构建方法是基于多向神经网络模型来实现机器翻译操作的，该构建方法通过对模型训练数据进行关于所有源语言和所有目标语言的句对变换处理，以此更新该模型训练数据，从而使得采用更新后的模型训练数据训练翻译模型时，该翻译模型能够进行关于任意语言翻译方向对应的目标语言的直接解码处理，从而获得所需要的翻译结果。可见，该多向神经网络翻译系统的构建方法并不需要训练多个语言翻译方向的翻译模型，而是直接使用一个翻译模型进行多个不同语言翻译方向的翻译操作，该构建方法使用一个翻译模型进行多个不同语言翻译方向的翻译效果与现有技术采用多个翻译模型分别进行不同语言翻译方向的翻译效果相同，并且该构建方法在翻译数据量较小的情况下，其翻译效果会更好；此外，该构建方法能够适用于源语言和目标语言都同时混有多种语种的情况，其源语言和目标语言共用一个词典，这使得在输入源语言文本时并不需要对其进行语种检测，从而有效地解决输入源语言文本混有其他语种文本的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种多向神经网络翻译系统的构建方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种多向神经网络翻译系统的构建方法的流程示意图。该多向神经网络翻译系统的构建方法包括如下步骤：

步骤(1)，对该多向神经网络翻译系统的训练数据进行关于所有源语言与所有目标语言的句对变换处理，以此更新该训练数据。

优选地，在该步骤(1)中，进行关于所有源语言与所有目标语言的句对变换处理具体包括，

步骤(12)，对该句对(source_i，target_i)进行复制变换处理，以此形成句对(target_i，source_i)；

步骤(13)，基于该句对(source_i，target_i)与该句对(target_i，source_i)组成的句对组，生成句对组数据集合。

优选地，在该步骤(1)中，更新该训练数据具体包括，

将该步骤(13)生成的该句对组数据集合添加到原始训练数据中，使得该原始训练数据的训练数据量发生翻倍，以此实现对该原始训练数据的更新；或者，

对该步骤(13)生成的该句对数据集合中的每一句对组进行有效性判断处理，并根据该有效性判断处理的结果，确定是否将对应的句对组添加到原始训练数据中。

优选地，在该步骤(1)中，对该步骤(13)生成的该句对组数据集合中的每一句对组进行有效性判断处理，并根据该有效性判断处理的结果，确定是否将对应的句对组添加到原始训练数据中具体包括，

判断该句对组中对应的句对(source_i，target_i)与句对(target_i，source_i)是否都符合预设句对逆变转换条件，

若是，则判断该句对组具有有效性、同时将该句对组添加到该原始训练数据中，

若否，则判断该句对组不具有有效性、同时不将该句对组添加到该原始训练数据中。

步骤(2)，基于更新后的该训练数据，生成词典。

优选地，在该步骤(2)中，基于更新后的该训练数据，生成该词典具体包括，

步骤(21)，在更新后的该训练数据中确定对应的源语言数据集合和目标语言数据集合；

步骤(22)，对确定得到的该源语言数据集合执行关于BPE分词处理，并根据该BPE分词处理的结果生成该词典；

步骤(23)，将该词典作为训练数据中所有源语言和所有目标语言的同源词典，和/或将该词典作为该Transformer模型的训练词典或者作为翻译解码词典。

优选地，在该步骤(22)中，对确定得到的该源语言数据集合执行关于BPE分词处理得到该结果后，

还包括对该结果中关于源语言的每一BPE分词进行标准化转换处理，以此形成具有标准拼写形式的BPE分词，再根据预设词汇划分模式将所有具有标准拼写形式的BPE分词组合成该词典。

步骤(3)，基于该词典，对Transformer模型进行训练时添加关于翻译的目标语言的信息。

优选地，在该步骤(3)中，基于该词典，对该Transformer模型进行训练时添加关于翻译的目标语言的信息具体包括，

步骤(31)，采用该词典中的所有词汇作为训练数据，对该Transformer模型进行训练；

步骤(32)，对该Transformer模型进行训练过程中，在该Transformer模型的输入embedding端添加该关于翻译的目标语言的信息；

步骤(33)，获取添加该关于翻译的目标语言的信息后该Transformer模型的训练参数，并根据该训练参数，判断该Transformer模型的训练程度。

优选地，在该步骤(33)中，根据该训练参数，判断该Transformer模型的训练程度具体包括，

判断该训练参数是否超过预设训练参数阈值，

若是，则判断该Transformer模型的训练程度满足预设条件、同时将当前该Transformer模型作为语言翻译模型，

若否，则判断该Transformer模型的训练程度不满足预设条件、同时继续对该Transformer模型进行训练，以使该训练参数超过该预设训练参数阈值为止。

步骤(4)，通过训练后的该Transformer模型，进行关于任意翻译方向对应的目标语言直接解码处理，以获得所需翻译结果。

优选地，在该步骤(4)中，通过训练后的该Transformer模型，进行关于任意语言翻译方向对应的目标语言直接解码处理，以获得所需翻译结果具体包括，

步骤(41)，确定当前翻译操作对应的当前翻译方向，并将该当前翻译方向与该训练数据中存在的所有翻译方向进行匹配处理；

步骤(42)，基于该匹配处理的结果，确定是否进行关于任意语言翻译方向对应的目标语言直接解码处理以获得所需翻译结果。

优选地，在该步骤(42)中，基于该匹配处理的结果，确定是否进行关于任意语言翻译方向对应的目标语言直接解码处理以获得所需翻译结果具体包括，

若该当前翻译方向匹配于该所有翻译方向，则允许当前翻译操作的源语言数据在通过训练后的该Transformer模型解码的同时在输入embedding中添加关于该当前翻译方向对应的目标语言，以获得所需翻译结果。

从上述实施例可以看出，该多向神经网络翻译系统的构建方法是基于多向神经网络模型来实现机器翻译操作的，该构建方法通过对模型训练数据进行关于所有源语言和所有目标语言的句对变换处理，以此更新该模型训练数据，从而使得采用更新后的模型训练数据训练翻译模型时，该翻译模型能够进行关于任意语言翻译方向对应的目标语言的直接解码处理，从而获得所需要的翻译结果。可见，该多向神经网络翻译系统的构建方法并不需要训练多个语言翻译方向的翻译模型，而是直接使用一个翻译模型进行多个不同语言翻译方向的翻译操作，该构建方法使用一个翻译模型进行多个不同语言翻译方向的翻译效果与现有技术采用多个翻译模型分别进行不同语言翻译方向的翻译效果相同，并且该构建方法在翻译数据量较小的情况下，其翻译效果会更好；此外，该构建方法能够适用于源语言和目标语言都同时混有多种语种的情况，其源语言和目标语言共用一个词典，这使得在输入源语言文本时并不需要对其进行语种检测，从而有效地解决输入源语言文本混有其他语种文本的问题。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多向神经网络翻译系统的构建方法，其特征在于，所述多向神经网络翻译系统的构建方法包括如下步骤：

步骤(2)，基于更新后的所述训练数据，生成词典；

步骤(4)，通过训练后的所述Transformer模型，进行关于任意翻译方向对应的目标语言直接解码处理，以获得所需翻译结果。

2.如权利要求1所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(1)中，进行关于所有源语言与所有目标语言的句对变换处理具体包括，

步骤(13)，基于所述句对(source_i，target_i)与所述句对(target_i，source_i)组成的句对组，生成句对组数据集合。

3.如权利要求2所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(1)中，更新所述训练数据具体包括，

对所述步骤(13)生成的所述句对数据集合中的每一句对组进行有效性判断处理，并根据所述有效性判断处理的结果，确定是否将对应的句对组添加到原始训练数据中。

4.如权利要求3所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(1)中，对所述步骤(13)生成的所述句对组数据集合中的每一句对组进行有效性判断处理，并根据所述有效性判断处理的结果，确定是否将对应的句对组添加到原始训练数据中具体包括，

若否，则判断所述句对组不具有有效性、同时不将所述句对组添加到所述原始训练数据中。

5.如权利要求1所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(2)中，基于更新后的所述训练数据，生成所述词典具体包括，

步骤(23)，将所述词典作为训练数据中所有源语言和所有目标语言的同源词典，和/或将所述词典作为所述Transformer模型的训练词典或者作为翻译解码词典。

6.如权利要求5所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(22)中，对确定得到的所述源语言数据集合执行关于BPE分词处理得到所述结果后，

还包括对所述结果中关于源语言的每一BPE分词进行标准化转换处理，以此形成具有标准拼写形式的BPE分词，再根据预设词汇划分模式将所有具有标准拼写形式的BPE分词组合成所述词典。

7.如权利要求1所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(3)中，基于所述词典，对所述Transformer模型进行训练时添加关于翻译的目标语言的信息具体包括，

步骤(33)，获取添加所述关于翻译的目标语言的信息后所述Transformer模型的训练参数，并根据所述训练参数，判断所述Transformer模型的训练程度。

8.如权利要求7所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(33)中，根据所述训练参数，判断所述Transformer模型的训练程度具体包括，

判断所述训练参数是否超过预设训练参数阈值，

若否，则判断所述Transformer模型的训练程度不满足预设条件、同时继续对所述Transformer模型进行训练，以使所述训练参数超过所述预设训练参数阈值为止。

9.如权利要求1所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(4)中，通过训练后的所述Transformer模型，进行关于任意语言翻译方向对应的目标语言直接解码处理，以获得所需翻译结果具体包括，

步骤(42)，基于所述匹配处理的结果，确定是否进行关于任意语言翻译方向对应的目标语言直接解码处理以获得所需翻译结果。

10.如权利要求9所述的多向神经网络翻译系统的构建方法，其特征在于：在所述步骤(42)中，基于所述匹配处理的结果，确定是否进行关于任意语言翻译方向对应的目标语言直接解码处理以获得所需翻译结果具体包括，