CN112597780A

CN112597780A - 一种多语种混合的异构神经网络机器学习翻译方法

Info

Publication number: CN112597780A
Application number: CN202011576955.3A
Authority: CN
Inventors: 蔡世清; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02

Abstract

本发明公开了一种多语种混合的异构神经机器翻译系统，只需要训练和部署一个模型就可以解决多个语种以及任意翻译方向的翻译任务，并且利用不同的网络结构适应相应的编解码任务，配合不同的硬件结构获得最大的服务性能；针对工业级机器学习翻译应用，可以通过一个模型解决多个语种和不同翻译方向的神经网络机器学习翻译系统，指定任意待翻译的原语种文本以及任意目标语种，输出目标语种对应的文本，并且综合LSTM和Transformer两种不同的模型结构优势，极大地减少了模型部署成本，同时提升编码与解码效率，提供高性能实时翻译服务。

Description

一种多语种混合的异构神经网络机器学习翻译方法

技术领域

本发明涉及机器翻译领域，特别是涉及一种多语种混合的异构神经网络机器学习翻译方法。

背景技术

语言翻译任务是将一种语言翻译成另一种语言，由于语言表达的多样性，这对于机器学习而言是极具挑战的任务，但是由于巨大的市场需求，使用机器学习提供高性能的翻译服务具有非常大的商业价值。神经网络机器学习翻译是以神经网络作为核心提供机器学习翻译的一种智能化技术，特别是深度神经网络强大的语义建模能力，能克服传统机器学习翻译系统灵活性差、翻译结果生硬的缺陷，将成为未来最主流的机器学习翻译解决方案。

目前的神经机器学习翻译方案大多以seq2seq为网络模型，用两种语言的平行语料作为数据来训练模型，比如输入英文句子、输出中文句子来训练一个英中翻译模型，又或者反过来训练一个中英翻译模型，也就是说一个模型只能训练一种翻译方向，如果要实现一个多种语言多个翻译方向的神经网络机器学习翻译系统，需要训练和部署多个模型。

另一方面，seq2seq是典型的编码器-解码器架构，主流的模型结构以LSTM和Transformer为主，即使用LSTM作为编码器与解码器，或者以Transformer作为编码器和解码器。然而LSTM是一种串行结构，非常适配于机器学习翻译的解码过程，但是编码器无法并行，所以编码和训练阶段速度慢；Transformer是一种并行结构，编码和训练速度快，但是串行解码速度慢，实时翻译性能较差。

因此，需要一种可以混合多语种并且加速翻译的方法。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种高性能、易于部署的多语种混合的异构神经网络机器学习翻译方法。

为解决上述技术问题，本发明提供一种多语种混合的异构神经网络机器学习翻译方法，只用一个模型解决多个语种不同翻译方向的任务，并且编码器、解码器使用不同的模型结构来充分利用不同结构的优势，其特征在于，具体包括如下步骤：

步骤1：平行语料的预处理；将所有的平行语料混合以做统一的预处理，构建BPE分词器和数据集，所述数据集包含平行序列；

步骤2：构造异构seq2seq模型；以双向Transformer作为编码器，单向LSTM作为解码器，以Transformer编码器的输出作为上下文状态，用注意力机制连接编码器与解码器得到异构模型，用步骤1得到的数据集训练异构模型，用Adam优化器优化异构模型的参数；

步骤3：部署异构模型；异构部署训练好的异构模型，用以提供在线翻译服务；

步骤4：对请求文本进行翻译得到翻译文本；对在线的实时翻译请求的语料文本做与步骤1相同的预处理，传入异构模型进行编码和解码，将解码后的序列进行后处理，得到目标语言的翻译文本。

所述步骤1中，所述预处理具体包括如下步骤：

步骤1-1：标点分割；使用空格符将平行语料中所有的标点符号与连接文本断开，设置标点连接符；

步骤1-2：分词；以空格符为分割符，将步骤1-1处理后的文本分割为token序列；

步骤1-3：子词分割；对步骤1-2得到的所有token序列使用subword-nmt工具包，学习BPE分词器，所述BPE分词器由算法模块和一个BPE词典构成，所述算法模块由subword-nmt提供，所述BPE词典由学习得到，用所述BPE分词器对token序列进一步分割，得到BPE序列，设置BPE前缀连接符；

步骤1-4：对步骤1-3得到的BPE序列添加上对应的开始符和结束符，所述开始符为语种类型标记符，所述结束符是统一的结束符。

所述步骤2中，所述数据集中的平行序列可以交换平行对方向用于训练不同方向的翻译，所述平行序列中的语种类型标记符为提示变量，用于为异构模型提供翻译方向的信息，令输入序列为x＝[x₁,x₂,…,x_n]，输出序列为y＝[y₁,y₂,…,y_m]，其中，n为输入序列长度，m为输出序列长度，将x输入Transformer得到上下文状态H＝[h₁,h₂,…,h_n]，其中，h_i∈R^d表示输入序列第i个元素的状态向量，d表示状态向量的维度大小，则解码器LSTM输出为：

s_i＝f(s_i-1，y_i-1，c_i)

＝g(W[s_i-1；c_i]，y_i-1)

其中，g(.)为标准的LSTM时间步函数，s_i表示解码器第i个时刻的隐状态向量，[s_i-1；c_i]表示将上一个时刻的历史隐状态与当前时刻上下文状态向量c_i拼接起来，W表示变换矩阵将拼接后的向量变换成与s_i相同的维度，将变换后的向量作为新的历史隐状态向量，c_i的计算定义为：

e_ij＝<s_i-1，h_j>

其中，e_ij表示输出序列第i个符号对输入序列第j个符号的注意力权重分数，由s_i-1与h_j的内积得到，α_ij表示归一化后的注意力分数。

所述步骤3中，所述异构部署具体为：所述异构模型的编码器部署在GPU上，所述异构模型的解码器部署在CPU；

所述步骤4中，对于在线的实时翻译请求，具体包括以下处理步骤：

步骤4-1：用空格符将请求文本中的标点符号与连接处断开，并添加标点连接符，与步骤1-1相同；

步骤4-2：以空格符作为分隔符将步骤4-1得到的文本分割为token序列，与步骤1-2相同；

步骤4-3：利用步骤1-3得到的BPE词典对步骤4-2得到的token序列进一步分割，得到BPE序列；

步骤4-4：根据翻译请求的翻译方向，对步骤4-3得到的BPE序列，在开头添加原语种标记符，在结尾添加结束标记符，得到输入序列，将输入序列输入编码器得到上下文状态，将上下文状态与目标语种标记符一起输入解码器逐步解码，直到解码输出为结束标记符为止；

步骤4-5：文本还原，根据标点连接符和BPE前缀连接符的指示，去除标点连接符、BPE前缀连接符以及分割处的空格符，将token序列还原成完整的一段文本。

本发明所达到的有益效果:针对工业级机器学习翻译应用，可以通过一个模型解决多个语种和不同翻译方向的神经网络机器学习翻译系统，指定任意待翻译的原语种文本以及任意目标语种，输出目标语种对应的文本，并且综合LSTM和Transformer两种不同的模型结构优势，极大地减少了模型部署成本，同时提升编码与解码效率，提供高性能实时翻译服务。

附图说明

图1为本发明的示例性实施例的方法流程简图；

图2为本发明的示例性实施例中的系统结构示意图；

图3为本发明的示例性实施例中的异构seq2seq网络结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示的一种多语种混合异构神经网络机器学习翻译方法，包含如下步骤：

步骤1：平行语料预处理；将所有的平行语料混合以做统一的预处理，构建BPE分词器和数据集；所述数据集包含平行序列；

所述预处理具体包括如下步骤：

步骤1-1：标点分割；使用空格符将平行语料中所有的标点符号与连接文本断开，并添加标点连接符“##”，例如“I’m working hard.”处理后变为“I##’##m workinghard##.”；

步骤1-2：分词；以空格符为分割符，将步骤1-1处理后的文本分割为token序列，按照上述例子得到：[I，##’##，m，working，hard，##.]；

步骤1-3：子词分割；对步骤1-2得到的所有token序列使用subword-nmt工具包，学习BPE分词器，所述BPE分词器由算法模块和一个BPE词典构成，所述算法模块由subword-nmt提供，所述BPE词典由学习得到，用所述BPE分词器对token序列进一步分割，得到BPE序列：[I，##’##，m，work@@，ing，hard，##.]，使用“@@”为BPE前缀连接符；

步骤1-4：对步骤1-3得到的BPE序列添加上对应的开始符和结束符，所述开始符为语种类型标记符，所述结束符是统一的结束符，例如：[<en_sos>，I，##’##，m，work@@，ing，hard，##.，<eos>]。

步骤2：异构seq2seq模型的构建与训练；以双向Transformer作为编码器，单向LSTM作为解码器，以Transformer编码器的输出作为上下文状态，用注意力机制连接编码器与解码器得到异构模型，用步骤1得到的数据集训练异构模型，用Adam优化器优化异构模型的参数；具体为：

用步骤1得到的平行序列训练模型，所述平行序列可以交换平行对方向来训练不同方向的翻译，一个作为输入序列，另一个作为输出序列，例如英语和法语对应的序列为：[<en_sos>，I，##’##，m，work@@，ing，hard，##.，<eos>]和[<fr_sos>，Je，trava@@，ille，dur，##.，<eos>]，可以将第一个作为输入、第二个作为输出训练英法翻译方向，也可以交换顺序训练法英翻译，所述平行序列中的语种类型标记符为提示变量，用于为异构模型提供翻译方向的信息，令输入序列为x＝[x₁,x₂,…,x_n]，输出序列为y＝[y₁,y₂,…,y_m]，其中，n为输入序列长度，m为输出序列长度，输入输出长度不一定相等。将x输入Transformer得到上下文状态H＝[h₁，h₂，...，h_n]，其中，h_i∈R^d表示输入序列第i个元素的状态向量，d表示状态向量的维度大小，则解码器LSTM输出为：

s_i＝f(s_i-1，y_i-1，c_i)

＝g(W[s_i-1；c_i]，y_i-1)

e_ij＝<s_i-1，h_j>

步骤3：异构seq2seq模型部署；异构部署训练好的异构模型，用以提供在线翻译服务；具体为：所述异构模型的编码器部署在GPU上获得最大的并行性能，所述异构模型的解码器部署在CPU上提升解码速度；

步骤4：在线翻译服务；对在线的实时翻译请求的语料文本做与步骤1相同的预处理，传入异构模型进行编码和解码；

步骤5：文本还原；对解码后的序列进行后处理，将目标序列经过文本还原后处理得到目标语种的翻译文本；具体为根据标点连接符和BPE前缀连接符的指示，去除标点连接符、BPE前缀连接符以及分割处的空格符，将token序列还原成完整的一段文本。

本发明公开一种多语种混合神经翻译方案的实施例，包括统一的前处理和后处理流程，具体为：

步骤1)：将输入的原语种文本按照标点符号添加空格分隔符，并添加连接符“##”，例如“I’m working hard.”处理为“I##’##m working hard##.”；

步骤2)：进一步将处理后的文本以空格为分隔符分割成token序列，即[I，##’##，m，working，hard，##.]；

步骤3)：再使用BPE进行子词分割，将上一步序列处理为[I，##’##，m，work@@，ing，hard，##.]；

步骤4)：对上一步得到的序列添加标记符，具体为在开始位置添加语种标记符，在结束位置添加结束符，这一步得到输入序列[<en_sos>，I，##’##，m，work@@，ing，hard，##.，<eos>]；

步骤5)：将输入序列输入异构seq2seq网络模型，由编码器得到上下文状态H＝[h1,h2,…,hn]，指定目标语言类型，例如法语，则解码器输入初始符号y0＝“<fr_sos>”，由初始状态向量s0(初始向量设置为全0向量)得到上下文状态的注意力表示向量c₀，将(y0,s0,c0)共同输入解码器得到新的状态向量s1和第一个符号y1＝“Je”，然后重复这个过程直到输出符号为“<eos>”为止，这样就得到解码后的目标序列[<fr_sos>，Je，trava@@，ille，dur，##.，<eos>]；

步骤6)：将目标序列经过文本还原后处理得到目标语种的文本，即“Je travailledur.”。

多语种混合神经机器翻译，通过多级分词与添加标记符的方式，将任意语种的文本转化为与语种类型无关的序列表示，并且任何一对平行序列都是方向可逆的，模型只负责序列到序列的转换，不需要考虑语种和翻译方向。

如图2所示的一种多语种混合的异构神经网络机器学习翻译系统，包括：平行语料预处理模块，异构seq2seq网络模块。

所述平行语料预处理模块，用于将多个语种不同的翻译方向做统一的处理，将任意原语种文本统一处理成输入序列。

所述异构seq2seq网络模块，用于将输入原语种序列转换成输出语种序列，即翻译的核心功能，并且提供性能优化，让神经机器翻译技术可以提供实时翻译服务的能力。

如图3所示，本发明公开一种异构seq2seq网络模型，具体包含双向Transformer编码器与单向LSTM解码器。

所述双向Transformer编码器，是由多层注意力模型堆叠而成的深度神经网络，用于将输入序列x＝[x1,x2,…,xn]编码成具有上下文信息的状态向量的序列表示H＝[h1,h2,…,hn]，其中每一个hi都是一个向量。并且由于Transformer是并行结构，可以使用GPU获得最高的编码性能。

所述单向LSTM解码器，用于将编码器得到的上下文状态解码成目标语言的符号序列y＝[y1,y2,…,ym]。由于seq2seq架构本身在解码器端就是一个迭代的过程，即每次解码一个符号，再利用这个符号去解码下一个符号，这样的架构适配于LSTM这样的循环神经网络，再配合CPU处理循环控制流的能力可以获得最大的解码性能。

该异构seq2seq网络架构兼容了不同网络结构的特性，可以获得最大的在线翻译性能。

本发明主要用于提供一种多语种混合的异构神经机器翻译系统，只需要训练和部署一个模型就可以解决多个语种以及任意翻译方向的翻译任务，并且利用不同的网络结构适应相应的编解码任务，配合不同的硬件结构获得最大的服务性能。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种多语种混合的异构神经网络机器学习翻译方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种多语种混合的异构神经网络机器学习翻译方法，其特征在于：所述步骤1中，所述预处理具体包括如下步骤：

3.如权利要求2所述的一种多语种混合异构神经网络机器学习翻译方法，其特征在于：所述步骤2中，所述数据集中的平行序列可以交换平行对方向用于训练不同方向的翻译，所述平行序列中的语种类型标记符为提示变量，用于为异构模型提供翻译方向的信息，令输入序列为x＝[x₁,x₂,…,x_n]，输出序列为y＝[y₁,y₂,…,y_m]，其中，n为输入序列长度，m为输出序列长度，将x输入Transformer得到上下文状态H＝[h₁,h₂,…,h_n]，其中，h_i∈R^d表示输入序列第i个元素的状态向量，d表示状态向量的维度大小，则解码器LSTM输出为：

s_i＝f(s_i-1，y_i-1，c_i)

＝g(W[s_i-1；c_i]，y_i-1)

e_ij＝<s_i-1，h_j>

4.如权利要求3所述的一种多语种混合的异构神经网络机器学习翻译方法，其特征在于：所述步骤3中，所述异构部署具体为：所述异构模型的编码器部署在GPU上，所述异构模型的解码器部署在CPU；