CN112115725B

CN112115725B - 一种多领域机器翻译网络训练方法及系统

Info

Publication number: CN112115725B
Application number: CN202010719198.4A
Authority: CN
Inventors: 陈巍华
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2024-01-26
Anticipated expiration: 2040-07-23
Also published as: CN112115725A

Abstract

本发明提供了一种多领域机器翻译网络训练方法及系统，所述方法执行以下步骤：将领域标志信息融合到多领域训练数据中；将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流；生成具有领域嵌入层的端到端的翻译网络；基于所述交替数据流，对所述具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型。根据本发明的方法，使用多领域批交替训练的方法能有效缓解训练数据分布不均匀的情况，保证每个领域都能同时训练，这样可以提升各个领域的翻译效果；由于在领域批交替训练的过程中，基础领域和垂直领域是同时训练的，因此能有效缓解基础领域翻译效果的降低。

Description

一种多领域机器翻译网络训练方法及系统

技术领域

本发明涉及机器翻译技术领域，特别涉及一种多领域机器翻译网络训练方法及系统。

背景技术

目前，对于多领域翻译的训练方法主要有两种：其中一种方法是将多领域的数据混合在一起进行训练，这样训练好的网络模型同时具备多个领域翻译的能力，这种方法的弊端在于，由于多个领域的数据在训练过程中是随机组合的，很容易产生训练偏移，导致各个领域的翻译效果互相影响，翻译效果变差；还有另一种方法是首先训练好一种基础网络模型，比如说通用领域翻译网络模型，然后再在该通用领域网络模型的基础上对其他领域即垂直领域进行微调(Fine-Tuning)，以得到垂直领域的翻译网络模型，这种方法虽然能有效提升垂直领域的翻译效果，但是会大大降低通用领域网络模型的翻译效果，这样在不同领域使用时需要不同的翻译网络模型。

发明内容

本发明提供一种多领域机器翻译网络训练方法及系统，用以有效提升多领域翻译的效果。

本发明提供了一种多领域机器翻译网络训练方法，所述方法执行以下步骤：

步骤1：将领域标志信息融合到多领域训练数据中；

步骤2：将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流；

步骤3：生成具有领域嵌入层的端到端的翻译网络；

步骤4：基于所述交替数据流，对所述具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型。

进一步地，所述步骤1：将领域标志信息融合到多领域训练数据中执行以下步骤：

步骤S11：获取多领域训练数据，所述多领域训练数据包括多个领域的双语平行句对；

步骤S12：在所述多领域训练数据中加入领域标志信息，以将所述双语平行句对变成三元组，所述三元组包括双语平行句对和领域标志信息。

进一步地，所述步骤2：将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流包括：

将融合的多领域训练数据，分多次送入不同的批次中进行交替训练，得到所述交替数据流。

进一步地，所述步骤3：生成具有领域嵌入层的端到端的翻译网络执行以下步骤：

步骤S31：使用端到端的翻译网络进行模型训练，其中所述端到端的翻译网络包括编码层和解码层；

步骤S32：在所述编码层和所述解码层中增加领域嵌入层，以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合，得到具有领域嵌入层的端到端的翻译网络。

进一步地，在所述步骤S31中，所述编码层包括第一嵌入层，所述解码层包括第二嵌入层，

对应地，所述步骤S32：在所述编码层和所述解码层中增加领域嵌入层，以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合，得到具有领域嵌入层的端到端的翻译网络执行以下步骤：

步骤S321：在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层，以使所述第一领域嵌入层与所述第一嵌入层进行融合；

步骤S322：在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层.以使所述第二领域嵌入层与所述第二嵌入层进行融合，得到所述具有领域嵌入层的端到端的翻译网络。

进一步地，所述步骤4：基于所述交替数据流，对所述具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型执行以下步骤：

步骤S41：在对所述具有领域嵌入层的端到端的翻译网络进行训练的过程中，读取所述交替数据流中的所述领域标志信息；

步骤S42：根据所读取的所述交替数据流中的所述领域标志信息，对所述具有领域嵌入层的端到端的翻译网络中的嵌入层进行训练，以得到具备多领域翻译能力的多领域翻译网络模型。

本发明实施例提供的一种多领域机器翻译网络训练方法，具有以下有益效果：使用多领域批交替训练的方法能有效缓解训练数据分布不均匀的情况，保证每个领域都能同时训练，这样可以提升各个领域的翻译效果；由于在领域批交替训练的过程中，基础领域和垂直领域是同时训练的，因此能有效缓解基础领域翻译效果的降低。

本发明还提供一种多领域机器翻译网络训练系统，包括：

领域标志信息融合模块，用于将领域标志信息融合到多领域训练数据中；

交替数据流生成模块，用于将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流；

端到端翻译网络生成模块，用于生成具有领域嵌入层的端到端的翻译网络；

多领域翻译网络模型生成模块，用于基于所述交替数据流，对所述具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型。

进一步地，所述领域标志信息融合模块包括：

多领域训练数据获取单元，用于获取多领域训练数据，所述多领域训练数据包括多个领域的双语平行句对；

领域标志信息融合单元，用于在所述多领域训练数据中加入领域标志信息，以将所述双语平行句对变成三元组，所述三元组包括双语平行句对和领域标志信息。

进一步地，所述交替数据流生成模块具体用于：

进一步地，所述端到端翻译网络生成模块包括：

端到端翻译网络训练单元，使用端到端的翻译网络进行模型训练，其中所述端到端的翻译网络包括编码层和解码层；

领域嵌入层融合单元，用于在所述编码层和所述解码层中增加领域嵌入层，以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合，得到具有领域嵌入层的端到端的翻译网络。

本发明实施例提供的一种多领域机器翻译网络训练系统，具有以下有益效果：使用多领域批交替训练技术能有效缓解训练数据分布不均匀的情况，保证每个领域都能同时训练，这样可以提升各个领域的翻译效果；由于在领域批交替训练的过程中，基础领域和垂直领域是同时训练的，因此能有效缓解基础领域翻译效果的降低。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种多领域机器翻译网络训练方法的流程示意图；

图2为本发明实施例中一种多领域机器翻译网络训练系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种多领域机器翻译网络训练方法，如图1所示，所述方法执行以下步骤：

步骤1：将领域标志信息融合到多领域训练数据中；

步骤3：生成具有领域嵌入层的端到端的翻译网络；

上述技术方案的工作原理为：发明人经过研究发现，针对多领域翻译的训练方法中，领域数据混合训练的方法很容易产生训练偏移，导致各个领域的翻译效果互相影响，领域翻译的效果变差，本发明采用多领域批(batch)交替训练的方法能有效缓解训练数据分布不均匀的情况，保证每个领域都能同时训练，使各个领域翻译效果变得更好；利用微调(Fine-Tuning)的方法虽然能提升垂直领域的翻译效果，但基础领域的翻译效果会下降很多，本发明采用多领域批交替训练的方法，由于基础领域和垂直领域是同时训练的，所以能有效缓解基础领域翻译效果的降低。

具体地，首先将领域标志信息融合到多领域训练数据中；然后将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流；接着生成具有领域嵌入层的端到端的翻译网络；最后，基于步骤2得到的交替数据流，对步骤3得到的具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型。

上述技术方案的有益效果为：使用多领域批交替训练的方法能有效缓解训练数据分布不均匀的情况，保证每个领域都能同时训练，这样可以提升各个领域的翻译效果；由于在领域批交替训练的过程中，基础领域和垂直领域是同时训练的，因此能有效缓解基础领域翻译效果的降低。

在一个实施例中，所述步骤1：将领域标志信息融合到多领域训练数据中执行以下步骤：

上述技术方案的工作原理为：多领域训练数据包含多个领域的双语平行句对<src1,dst1>、<src2,dst2>、...、<srcN,dstN>，其中，srcN表示第N个待翻译文本，dstN表示第N个与待翻译文本对应的翻译文本，在多领域训练数据中加入领域标志信息，将平行句对变成三元组<src1,dst1,direct1>、<src2,dst2,direct2>、...、<srcN,dstN,directN>，其中，directN表示第N个待翻译文本所属领域的领域标志信息。

上述技术方案的有益效果为：提供了将领域标志信息融合到多领域训练数据中的具体步骤。

在一个实施例中，所述步骤2：将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流包括：

上述技术方案的工作原理为：在步骤2中，对神经网络的训练是按批进行训练的，将多领域训练数据每次送入不同的批中进行交替训练，得到的数据流分别为<D1,D2,...,DN,D1,D2,...,DN,...>，其中数据流中D1即为<src1,dst1,direct1>，D2即为<src2 dst2,direct2>，DN即为<srcN,dstN,directN>。即每个数据量中均包括了待翻译文本、翻译文本以及领域标志信息。

上述技术方案的有益效果为：提供了将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流的具体方法。

在一个实施例中，所述步骤3：生成具有领域嵌入层的端到端的翻译网络执行以下步骤：

上述技术方案的工作原理为：在步骤S31中，使用端到端的翻译网络进行模型训练，其中，端到端翻译网络由编码层(Encoder)和解码层(Decoder)组成；在步骤S32中，通过在编码层、解码层中增加领域嵌入(Embedding)层与原始的嵌入层相融合，可以得到具有领域嵌入层的端到端的翻译网络，称之为Net1。

具体而言，在所述步骤S31中，所述编码层包括第一嵌入层，所述解码层包括第二嵌入层，

步骤S322：在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层，以使所述第二领域嵌入层与所述第二嵌入层进行融合，得到所述具有领域嵌入层的端到端的翻译网络。

上述技术方案的有益效果为：提供了生成具有领域嵌入层的端到端的翻译网络的具体步骤。

在一个实施例中，所述步骤4：基于所述交替数据流，对所述具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型执行以下步骤：

上述技术方案的工作原理为：使用步骤2构建好的数据流<D1,D2,...,DN,D1,D2,...,DN,...>对步骤3得到的端到端翻译网络Net1进行训练，在训练过程中读取数据流<D1,D2,...,DN,D1,D2,...,DN,...>中的领域标志信息来训练融合后的嵌入层，最终得到具备多领域翻译能力的多领域翻译网络模型。

上述技术方案的有益效果为：提供了基于交替数据流对具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型的具体步骤。

如图2所示，本发明实施例提供了一种多领域机器翻译网络训练系统，包括：

领域标志信息融合模块201，用于将领域标志信息融合到多领域训练数据中；

交替数据流生成模块202，用于将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流；

端到端翻译网络生成模块203，用于生成具有领域嵌入层的端到端的翻译网络；

多领域翻译网络模型生成模块204，用于基于所述交替数据流，对所述具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型。

具体地，利用领域标志信息融合模块201将领域标志信息融合到多领域训练数据中；利用交替数据流生成模块202将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流；利用端到端翻译网络生成模块203生成具有领域嵌入层的端到端的翻译网络；利用多领域翻译网络模型生成模块204，基于采用交替数据流生成模块202得到的交替数据流，对采用端到端翻译网络生成模块203得到的具有领域嵌入层的端到端的翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型。

上述技术方案的有益效果为：使用多领域批交替训练技术能有效缓解训练数据分布不均匀的情况，保证每个领域都能同时训练，这样可以提升各个领域的翻译效果；由于在领域批交替训练的过程中，基础领域和垂直领域是同时训练的，因此能有效缓解基础领域翻译效果的降低。

在一个实施例中，所述领域标志信息融合模块201包括：

上述技术方案的工作原理为：多领域训练数据获取单元所获取的多领域训练数据包含多个领域的双语平行句对<src1,dst1>、<src2,dst2>、...、<srcN,dstN>，其中，srcN表示第N个待翻译文本，dstN表示第N个与待翻译文本对应的翻译文本；领域标志信息融合单元在多领域训练数据中加入领域标志信息，将平行句对变成三元组<src1,dst1,direct1>、<src2,dst2,direct2>、...、<srcN,dstN,directN>，其中，directN表示第N个待翻译文本所属领域的领域标志信息。

上述技术方案的有益效果为：借助于多领域训练数据获取单元和领域标志信息融合单元，可以将领域标志信息融合到多领域训练数据中。

在一个实施例中，所述交替数据流生成模块202具体用于：

上述技术方案的有益效果为：借助于交替数据流生成模块，可以得到交替数据流。

在一个实施例中，所述端到端翻译网络生成模块203包括：

上述技术方案的工作原理为：端到端翻译网络训练单元使用端到端的翻译网络进行模型训练，其中，端到端翻译网络由编码层(Encoder)和解码层(Decoder)组成；领域嵌入层融合单元通过在编码层、解码层中增加领域嵌入(Embedding)层与原始的嵌入层相融合，可以得到具有领域嵌入层的端到端的翻译网络，称之为Net1。

具体而言，端到端的翻译网络中的所述编码层包括第一嵌入层，所述解码层包括第二嵌入层，

对应地，领域嵌入层融合单元包括：

第一领域嵌入层融合子单元，用于在所述端到端的翻译网络的所述编码层中增加第一领域嵌入层，以使所述第一领域嵌入层与所述第一嵌入层进行融合；

第二领域嵌入层融合子单元，用于在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层，以使所述第二领域嵌入层与所述第二嵌入层进行融合，得到所述具有领域嵌入层的端到端的翻译网络。

上述技术方案的有益效果为：借助于端到端翻译网络训练单元和领域嵌入层融合单元，可以生成具有领域嵌入层的端到端的翻译网络。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多领域机器翻译网络训练方法，其特征在于，所述方法执行以下步骤：

步骤1：将领域标志信息融合到多领域训练数据中；

步骤3：生成具有领域嵌入层的端到端的第一翻译网络；

步骤4：基于所述交替数据流，对所述具有领域嵌入层的端到端的第一翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型；

所述步骤1具体执行以下步骤：

步骤S12：在所述多领域训练数据中加入领域标志信息，以将所述双语平行句对变成三元组，所述三元组包括双语平行句对和领域标志信息；

所述步骤2：将融合的多领域训练数据分批次传入神经网络进行交替训练，得到交替数据流，包括：

将融合的多领域训练数据，分多次送入不同的批次中进行交替训练，得到所述交替数据流；

其中，所述步骤3具体执行以下步骤：

步骤S32：在所述编码层和所述解码层中增加领域嵌入层，以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合，得到具有领域嵌入层的端到端的第一翻译网络；

其中，在所述步骤S31中，所述编码层包括第一嵌入层，所述解码层包括第二嵌入层；

对应地，所述步骤S32具体执行以下步骤：

步骤S322：在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层，以使所述第二领域嵌入层与所述第二嵌入层进行融合，得到所述具有领域嵌入层的端到端的第一翻译网络；

所述步骤4具体执行以下步骤：

步骤S41：在对所述具有领域嵌入层的端到端的第一翻译网络进行训练的过程中，读取所述交替数据流中的所述领域标志信息；

步骤S42：根据所读取的所述交替数据流中的所述领域标志信息，对所述具有领域嵌入层的端到端的第一翻译网络中融合后的嵌入层进行训练，以得到具备多领域翻译能力的多领域翻译网络模型。

2.一种多领域机器翻译网络训练系统，其特征在于，包括：

端到端翻译网络生成模块，用于生成具有领域嵌入层的端到端的第一翻译网络；

多领域翻译网络模型生成模块，用于基于所述交替数据流，对所述具有领域嵌入层的端到端的第一翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型；

领域标志信息融合模块包括：

领域标志信息融合单元，用于在所述多领域训练数据中加入领域标志信息，以将所述双语平行句对变成三元组，所述三元组包括双语平行句对和领域标志信息；

交替数据流生成模块具体用于：

其中，所述端到端翻译网络生成模块包括：

端到端翻译网络训练单元，使用端到端的翻译网络进行模型训练，其中所述端到端的翻译网络包括编码层和解码层；端到端的翻译网络中的所述编码层包括第一嵌入层，所述解码层包括第二嵌入层；

领域嵌入层融合单元，用于在所述编码层和所述解码层中增加领域嵌入层，以使所述领域嵌入层与所述编码层和所述解码层中所包含的原始嵌入层相融合，得到具有领域嵌入层的端到端的第一翻译网络；

对应地，领域嵌入层融合单元包括：

第二领域嵌入层融合子单元，用于在所述端到端的翻译网络的所述解码层中增加第二领域嵌入层，以使所述第二领域嵌入层与所述第二嵌入层进行融合，得到所述具有领域嵌入层的端到端的第一翻译网络；

所述基于所述交替数据流，对所述具有领域嵌入层的端到端的第一翻译网络进行训练，得到具备多领域翻译能力的多领域翻译网络模型，具体执行以下步骤：