CN110069790B

CN110069790B - 一种通过译文回译对照原文的机器翻译系统及方法

Info

Publication number: CN110069790B
Application number: CN201910387882.4A
Authority: CN
Inventors: 杨晓春; 王斌; 刘石玉
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2022-12-06
Anticipated expiration: 2039-05-10
Also published as: CN110069790A

Abstract

本发明提供一种通过译文回译对照原文的机器翻译系统及方法，涉及自然语言处理与机器翻译技术领域。本发明步骤如下：步骤1：获取需要翻译的源语言句子数据集，所述训练集中的数据为经过人为添加标签序列的源语言句子；步骤2：建立译文回译神经网络模型；通过最小化损失函数的值来调节译文回译神经网络模型参数；步骤3：将验证集中的源语言句子E作为译文回译神经网络模型的输入，输出句子D。该方法可以降低损失的方式，进一步提高机器翻译的准确度，进一步降低语言在翻译过程中信息的扭曲或丢失。

Description

一种通过译文回译对照原文的机器翻译系统及方法

技术领域

本发明涉及自然语言处理与机器翻译技术领域，尤其涉及一种通过译文回译对照原文的机器翻译系统及方法。

背景技术

机器翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。2013年以来，随着深度学习的研究取得较大进展，基于人工神经网络的机器翻译逐渐兴起。机器翻译是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

目前主要的神经机器翻译模型有基于Attention机制的Seq2Seq模型；2017年Google提出了Transformer模型，进一步提高了机器翻译的准确度。但是，以上模型都是采用将源语言句子编码、分析之后，利用语言模型在解码器中解码，生成目标语言的方式，目标语言译文的生成很大程度上依赖于所采用的语言模型及语言模型数据集质量。很多时候会出现，将源语言句子A翻译为目标语言句子B，句子B回译为源语言的句子C时会发现，A,C之间有一定的句法或语义差别。在翻译的过程中句子“失真”的情况是我们所不希望看到的。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种通过译文回译对照原文的机器翻译系统及方法，该方法可以降低损失的方式，进一步提高机器翻译的准确度，进一步降低语言在翻译过程中信息的扭曲或丢失。

为解决上述技术问题，本发明所采取的技术方案是：

一方面，本发明提供一种通过译文回译对照原文的机器翻译系统，包括输入模块、直译模块、回译模块、输出模块：

所述输入模块用于让用户输入要翻译的源语言句子，并将该句子输出至直译模块；

所述直译模块包括编码器Encoder_1和解码器Decoder_1，所述编码器Encoder_1用于将用户在输入模块中输入的源语言句子用隐式向量表示，并将该隐式向量输出至解码器Decoder_1；所述解码器Decoder_1包括调节过程与翻译过程，在调节过程时用于将接收到的隐式向量生成目标语言预测句子，并计算其损失函数，将目标语言句子输出至回译模块；在翻译过程时用于将接收到的隐式向量生成翻译句子，并将翻译句子输出至输出模块；

所述回译模块包括编码器Encoder_2和解码器Decoder_2，所述编码器Encoder_2用于接收目标语言句子，将该句子用隐式向量表示，并将该隐式向量输出至解码器Decoder_2；所述解码器Decoder_2用于将隐式向量解码分析生成目标源语言句子，并计算其损失函数；

所述输出模块用于输出翻译句子。

另一方面，本发明提供一种通过译文回译对照原文的机器翻译方法，通过所述的一种通过译文回译对照原文的机器翻译系统实现，包括如下步骤：

步骤1：获取需要翻译的源语言句子数据集，该数据集包括训练集和测试集；所述训练集中的数据为包括源语言与目标语言的平行语料库；

步骤2：建立译文回译神经网络模型；将训练集中的源语言句子A_source进行直译生成目标语言预测句子B_target，计算预测句子B_target与真实标签句子B_label之间的损失函数L_oss(B_target,B_label)；将B_target作为回译模块的输入进行回译，得到目标源语言句子C_source，计算A_source与C_source的损失函数Loss(A_source,C_source)，通过最小化损失函数Loss(B_target,B_label)和Loss(A_source,C_source)的值来调节译文回译神经网络模型参数；

步骤3：将测试集中的源语言句子E作为译文回译神经网络模型的输入，此时为翻译过程，输出翻译句子D。

所述步骤2包括如下步骤：

步骤2.1：将源语言句子A_source输入到编码器Encoder_1中，通过编码器Encoder_1将A_source用隐式向量表示，并将隐式向量传递给解码器Decoder_1，通过解码分析隐式向量，生成目标语言句子B_target，对比B_target和真实标签句子B_label，计算目标语言句子的损失函数Loss(B_target,B_label)＝crossentropy(B_target,B_label)，其中crossentropy(B_target,B_label)表示B_target和B_label之间的交叉熵；

步骤2.2：将B_target作为输入，传给编码器Encoder_2，将目标语言句子B_target编码为隐式向量,然后将该向量传给解码器Decoder_2，将隐式向量解码分析生成目标源语言句子C_source；

步骤2.3：计算出源语言句子A_source与回译后的目标源语言句子C_source之间的目标源语言句子损失函数，表示为：

Loss(A_source,C_source)＝crossentropy(A_source,C_source)

综合Loss(B_target,B_label)与Loss(A_source,C_source)得到神经网络的总损失函数Loss：

Loss＝Loss(B_target,B_label)+γLoss(A_source,C_source)

其中，γ代表权值系数，为人工设定的超参数，其取值范围为[0,1.0)；

使用反向传播方法，最小化损失函数的值来调节神经网络模型参数，表示为：

其中θ为神经网络中用来表示特征的权重参数集合；

所述步骤2中的译文回译神经网络模型需要按照使用者设定的时间间隔重复本步骤，对该模型进行更新；

所述的译文回译神经网络模型的编码器与解码器采用基于Attention机制的Seq2Seq模型或Transformer模型。

采用上述技术方案所产生的有益效果在于：本发明提供的一种通过译文回译对照原文的机器翻译系统及方法，该方法在以往经典的将源语言句子A翻译为目标语言句子B的模型结构之上，提出了增加将翻译生成的目标语言句子B回译为源语言句子C，并通过反向传播算法减小A与C之间的差距的方式，以进一步提高机器翻译的准确度与生成译文的流畅度，降低语言在翻译过程中信息的扭曲或丢失，改善机器翻译效果。

附图说明

图1为本发明实施例提供的译文回译对照原文的机器翻译系统框图；

图2为本发明实施例提供的译文回译对照原文的机器翻译方法流程图；

图3为本发明实施例提供的增加译文回译结构的机器翻译模型架构图；

图4为本发明实施例提供的基于Attention机制的编码器-解码器架构图；

图5为本发明实施例提供的Transformer模型架构图；

图6为本发明实施例提供的Attention机制实现示例图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

所述输入模块用于让用户输入要翻译的源语言句子，并将该句子出输至直译模块；

所述直译模块包括编码器Encoder_1和解码器Decoder_1，所述编码器Encoder_1用于将用户在输入模块中输入的源语言句子用隐式向量表示，并将该隐式向量输出至解码器Decoder_1；所述解码器Decoder_1包括调节过程与翻译过程，所述调节过程为建立译文回译神经网络模型的过程，所述翻译过程为建立好译文回译神经网络模型后，进行正常翻译句子的过程，在调节过程时用于将接收到的隐式向量生成目标语言预测句子，并计算其损失函数，将目标语言句子输出至回译模块；在翻译过程时用于将接收到的隐式向量生成翻译句子，并将翻译句子输出至输出模块；

所述输出模块用于输出翻译句子。

另一方面，本发明提供一种通过译文回译对照原文的机器翻译方法，通过所述的一种通过译文回译对照原文的机器翻译系统实现，如图2所示，包括如下步骤：

步骤1：获取需要翻译的源语言句子数据集，该数据集包括训练集和测试集；所述训练集中的数据为包括源语言与目标语言的平行语料库；所述目标语言为源语言人工翻译后的句子；

步骤2：建立译文回译神经网络模型；如图3所示，将训练集中的源语言句子A_source进行直译生成目标语言预测句子B_target，计算预测句子B_target与真实标签句子B_label之间的损失函数Loss(B_target,B_label)；将B_target作为回译模块的输入进行回译，得到目标源语言句子C_source，计算A_source与C_source的损失函数Loss(A_source,C_source)，通过最小化损失函数Loss(B_target,B_label)和Loss(A_source,C_source)的值来调节译文回译神经网络模型参数；

Loss(A_source,C_source)＝crossentropy(A_source,C_source)

Loss＝Loss(B_target,B_label)+γLoss(A_source,C_source)

其中θ为神经网络中用来表示特征的权重参数集合。

循环神经网络中采用LSTM结构，该结构中涉及的参数表示为：

x_t为t时刻的输入，x_t∈Rⁿ；h_t为t时刻的隐层状态，h_t∈Rⁿ；c_t为t时刻的记忆单元状态，c_t∈Rⁿ；W、V、Y、U∈R^2n×n为参数矩阵；

该结构涉及的运算表示：

输入值z＝tanh(W[h_t-1,x_t])；输入门为i＝sigmoid(V[h_t-1,x_t])；遗忘门为f＝sigmoid(Y[h_t-1,x_t])；输出门o＝sigmoid(U[h_t-1,x_t])；新状态c_t＝f·c_t-1+i·z；输出h_t＝o·tanh c_t；

所述步骤2中的译文回译神经网络模型需要按照使用者设定的时间间隔重复本步骤，对该模型进行更新，以确保模型的准确性；

所述的译文回译神经网络模型的编码器与解码器采用经典的基于Attention机制的Seq2Seq模型(如图4所示)或Transformer模型(如图5所示)。

本实施例的译文回译神经网络模型是基于Attention机制的Seq2Seq模型下进行的，如图6所示。

首先，使用LSTM循环神经网络读取输入的句子A_source，通过正向反向传播获得各个时间步的隐层表征(h₁,…,h_t,…,h_T)(其中，T表示序列长度)。

之后在解码器中结合Attention机制。解码器在解码的每一步将隐层状态作为查询的输入来“查询”编码器的隐层状态，在每个输入的位置计算一个反映与查询输入相关程度的权重，再根据这个权重对各输入位置的隐层状态求加权平均。加权平均后得到的向量称为“context”，表示它是与翻译当前词最相关的原文信息。在解码下一个单词时，将context作为额外信息输入到循环神经网络中，这样循环神经网络可以时刻读取原文中最相关的信息。

最后解码翻译得到目标语言句子B_target，对比B_target和标签序列B_label，计算损失函数Loss(B_target,B_label)。之后用同样的方式，由B_target翻译回源语言句子C_source，并计算A_source与C_source之间的损失函数Loss(A_source,C_source)。那么总的损失为：

Loss＝Loss(B_target,B_label)+γLoss(A_source,C_source)

其中，γ代表权值系数，其取值范围为[0,1.0)，目前需要人工设定的超参数；最后，通过反向传播算法训练神经网络即可。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种通过译文回译对照原文的机器翻译系统，其特征在于：包括输入模块、直译模块、回译模块、输出模块：

所述输出模块用于输出翻译句子。

2.一种通过译文回译对照原文的机器翻译方法，通过权利要求1所述的一种通过译文回译对照原文的机器翻译系统实现，其特征在于：包括如下步骤：

步骤2：建立译文回译神经网络模型；将训练集中的源语言句子A_source进行直译生成目标语言预测句子B_target，计算预测句子B_target与真实标签句子B_label之间的损失函数Loss(B_target,B_label)；将B_target作为回译模块的输入进行回译，得到目标源语言句子C_source，计算A_source与C_source的损失函数Loss(A_source,C_source)，通过最小化损失函数Loss(B_target,B_label)和Loss(A_source,C_source)的值来调节译文回译神经网络模型参数；

3.根据权利要求2所述的一种通过译文回译对照原文的机器翻译方法，其特征在于：所述步骤2包括如下步骤：

步骤2.1：将源语言句子A_source输入到编码器Encoder_1中，通过编码器Encoder_1将A_source用隐式向量表示，并将隐式向量传递给解码器Decoder_1，通过解码分析隐式向量，生成目标语言句子B_target，对比B_target和标签序列B_label，计算目标语言句子的损失函数Loss(B_target,B_label)＝crossentropy(B_target,B_label)，其中crossentropy(B_target,B_label)表示B_target和B_label之间的交叉熵；

Loss(A_source,C_source)＝crossentropy(A_source,C_source)

Loss＝Loss(B_target,B_label)+γLoss(A_source,C_source)

其中θ为神经网络中用来表示特征的权重参数集合。

4.根据权利要求2所述的一种通过译文回译对照原文的机器翻译方法，其特征在于：所述步骤2中的译文回译神经网络模型需要按照使用者设定的时间间隔重复本步骤，对该模型进行更新。

5.根据权利要求2所述的一种通过译文回译对照原文的机器翻译方法，其特征在于：所述步骤2中的译文回译神经网络模型的编码器与解码器采用经典的基于Attention机制的Seq2Seq模型或Transformer模型。