CN110555213B

CN110555213B - 文本翻译模型的训练方法、文本翻译方法及装置

Info

Publication number: CN110555213B
Application number: CN201910772807.XA
Authority: CN
Inventors: 张睦
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2022-11-11
Anticipated expiration: 2039-08-21
Also published as: CN110555213A

Abstract

本发明实施例提供一种文本翻译模型的训练方法、文本翻译方法及装置，其中训练方法包括：获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本；根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型，所述第一至第三翻译模型共享部分模型参数，并且在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变。本发明实施例的训练方法能够取得更好的模型泛化效果，提高模型的泛化能力，最终使得训练得到的翻译结果更加精准。

Description

文本翻译模型的训练方法、文本翻译方法及装置

技术领域

本发明涉及机器翻译技术领域，更具体地，涉及文本翻译模型的训练方法。

背景技术

在后编辑模式下，辅助翻译工具调用翻译模型结果给出一个翻译初稿，再有专业的翻译人员在此基础上进行审校和编辑，产生高质量的译文结果。除此以外，为了保证更好地保证翻译效果，专业的翻译公司往往还会邀请翻译资历更高的审校老师对人工翻译的译文做更精细地一些“润色”。因此，在这整套翻译的工作流程中，所产生的语料包括：待翻译的原文、对应的机器翻译译文、译员后编辑的译文，以及审校老师所“润色”的译文(最终的翻译结果)这四项数据。

很多时候只有原文和最终的译文这两项数据被留存了下来，而中间步骤的译文(机翻译文和后编辑译文)却被忽略。而这无疑是一种数据资源的浪费。

另一方面，翻译模型的解码器在做解码的时候是以从左到右的顺序，一个词接一个词的预测方式来产生译文。在生产下一个词时，解码器会依照原文和已预测的若干词汇为基础(上文)，进行预测。这种输出语言的方式和人类书写文本的方式有着很大的不同，当人们在写文本的时候，往往会先写一个草稿，再基于此草稿来对文字进行打磨(类似于审校老师在译员的翻译基础上进行润色)，因此机器翻译出的译文和人类书写方式产生的译文存在差距。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译模型的训练方法、文本翻译方法及装置。

第一个方面，本发明实施例提供一种文本翻译模型的训练方法，包括：

获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本；

根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型；

其中，第一翻译模型用于以每个平行语料中的源语言文本为样本，以机翻译文文本为样本标签进行训练；

第二翻译模型用于以每个平行语料中的源语言文本、所述第一翻译模型的输出为样本，以后编辑译文文本为样本标签进行训练；

第三翻译模型以每个平行语料中的源语言文本、所述第一翻译模型的输出和第二翻译模型的输出为样本，以审校译文文本为样本标签进行训练；

所述第一至第三翻译模型共享部分模型参数，并且在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变。

优选地，所述第一至第三翻译模型均为循环神经网络模型。

优选地，所述第一至第三翻译模型共享一个编码器，所述第一至第三翻译模型还各自包括一个解码器。

优选地，所述根据所述平行语料集依次训练第一至第三翻译模型，之前还包括：

对每个平行语料进行分词，从预设的双语词向量集中获取对应每个分词的词向量；

其中，所述双语词向量集的获取方法为：

以学习语义知识的神经网络模型分别对预先获取的双语语料集进行训练，获得所述双语语料集中每个分词的词向量，构成双语词向量集，所述双语语料的语言为所述语料集对应的源语言和目标语言。

第二个方面，本发明实施例提供一种文本翻译方法，包括：

获得待翻译文本；

根据上述文本翻译模型的训练方法训练得到的文本翻译模型，对所述待翻译文本进行翻译。

第三个方面，本发明实施例提供一种文本翻译模型的训练装置，包括：

平行语料获取模块，语言获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本；

训练模块，用于根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型；

第四个方面，本发明实施例还提供一种文本翻译装置，包括：

文本获取模块，用于获取待翻译文本；

翻译模块，用于根据上述文本翻译模型的训练方法训练得到的文本翻译模型，对所述待翻译文本进行翻译。

第五个方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第六个方面，本发明实施例提供一种文本翻译设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第二方面所提供的方法的步骤。

第七个方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。

本发明实施例提供的文本翻译模型的训练方法、文本翻译方法及装置，通过搜集源语言文本、机翻译文文本、后编辑译文文本以及审校译文文本，构建具有不同可读性级别的平行语料集作为训练样本集，利用训练样本集依次训练三个翻译模型，三个翻译模型按照训练顺序分别以机翻译文、后编辑译文、和审校译文作为标签，从而使得三个翻译模型训练出的译文可读性逐渐更好，并且三个翻译模型共享部分参数，在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变，有利于缩短训练的时间，本发明实施例训练的文本翻译模型能够训练出更高质量的译文。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的文本翻译模型的训练方法的流程示意图；

图2为本发明实施例的编码器的工作流程示意图；

图3为本发明实施例的第一翻译模型中的解码器的工作流程示意图；

图4为本发明实施例的第二翻译模型中的解码器的工作流程示意图；

图5为本发明实施例的第三翻译模型中的解码器的工作流程示意图；

图6为本发明实施例的文本翻译方法的流程示意图；

图7为本发明实施例提供的文本翻译模型的训练装置的结构示意图；

图8为本发明实施例提供的文本翻译装置的结构示意图；

图9为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例通过将现有翻译引擎的训练过程与人类书写方式进行比对后发现，人类书写的文本之所以相比现有翻译引擎输出的翻译结果在可读性上更强，是因为人类输出语言的时候同时考虑了上下文，而机器翻译则却缺乏这种优势。因此，本发明实施例的文本翻译模型的训练方法的发明构思为：通过搜集源语言文本、机翻译文文本、后编辑译文文本以及审校译文文本，构建具有不同可读性级别的平行语料集作为训练样本集，利用训练样本集依次训练三个翻译模型，三个翻译模型按照训练顺序分别以机翻译文、后编辑译文、和审校译文作为标签，从而使得三个翻译模型训练出的译文可读性逐渐更好，并且三个翻译模型共享部分参数，在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变，有利于缩短训练的时间，本发明实施例训练的文本翻译模型能够训练出更高质量的译文。

图1为本发明实施例的文本翻译模型的训练方法的流程示意图，如图1所示，包括：

S101、获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本。

需要说明的是，本发明实施例对源语言和译文的语言(目标语言)的语种不做进一步的限制，并且对每个平行语料中的文本的字数不做限制，文本可以是多句话，也可以是一句话。以第一语言为中文，第二语言为英文对本发明实施例的训练方法进行说明。选取某位译员中->英的翻译任务，从中抽取平行语料，其中包括源语言为中文的句子、机翻的英文句子、译员后编辑的英文句子以及专家审校后的英文句子。

S102、根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型。

在本发明实施例中，采用多任务训练的方式对翻译模型进行训练，以进一步提高文本翻译模型的翻译性能。多任务训练指的是将多个相关任务放在一起进行训练的机器学习方法，在训练过程中，这多个相关任务的任务模型之间共享模型参数，比如，可以共享模型底层的部分参数等等，用于共享各任务所学到的信息。具体地，本发明实施例第一翻译模型用于以每个平行语料中的源语言文本为样本，以机翻译文文本为样本标签进行训练；第二翻译模型用于以每个平行语料中的源语言文本、所述第一翻译模型的输出为样本，以后编辑译文文本为样本标签进行训练；第三翻译模型以每个平行语料中的源语言文本、所述第一翻译模型的输出和第二翻译模型的输出为样本，以审校译文文本为样本标签进行训练。

需要说明的是，本发明实施例的三个翻译模型的训练是有顺序的是，从各翻译模型的输入和输出可知，后一个翻译模型的训练依赖于前一个翻译模型的训练完成。本发明实施例的翻译模型的训练完成的标志，可以采用翻译模型的输出结果的准确率大于预设阈值，也可以采样翻译模型的训练次数达到预设次数，本发明不做具体的限定。本发明实施例的训练方法能够取得更好的模型泛化效果，提高模型的泛化能力，最终使得训练得到的翻译结果更加精准。

此外，本发明实施例中在先训练的翻译模型的模型参数一旦确定，不会随后面的翻译模型的训练过程而变化，从而提高模型训练的效率。

在上述各实施例的基础上，本发明实施例的第一翻译模型为循环神经网络类型，循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

在上述实施例的基础上，第二翻译模型和第三翻译模型同样采用循环神经网络模型。

通过建立输出节点，循环神经网络可以有多种输出模式，包括序列-分类器(单输出)、序列-序列(同步多输出)、编码器-解码器(异步多输出)等，在一个可选实施例中，本发明的第一翻译模型采用编码器-解码器(encoder-decoder)的输出模式。

本发明实施例的三个翻译模型共享一个编码器，所述第一至第三翻译模型还各自包括一个解码器。

图2为本发明实施例的编码器的工作流程示意图，如图2所示，编码器使用循环神经网络LSTM将原文变成向量。具体地，待翻译文本为技能的培养非常重要，通过预先对待翻译文本进行分词，分词结果为：技能/的/培养/非常/重要。<s>指的是开头符，用于表征一个序列的输入开始，</s>指的是结尾符，用于表征一个序列的输入结束。编码器的LSTM用于完成以下计算：

s1＝f(s0,“<s>”词向量)

s2＝f(s1,“技能”词向量)

s3＝f(s2,“的”词向量)

…

c＝f(s6,“</s>”词向量)

其中，f表示一个预设函数。

以此类推，最终输出完整中文：技能的培养非常重要的词向量c。

在图2所示实施例的基础上，图3为本发明实施例的第一翻译模型中的解码器的工作流程示意图，如图3所示，解码器使用循环神经网络LSTM将编码器输出的向量变成译文。解码器的LSTM用于完成：

t1,z1＝f(t0,<s>词向量+c)

通过z1的值，计算词汇表中哪个词是第一个词的概率；p(第一个词是the)的值最大，则第一个词是the；

t2,z2＝f(t1,the词向量+c)

通过z2的值，计算词汇表中哪个词是第二个词的概率；p(第二个词是skill)的值最大，则第二个词是skill；

t3,z3＝f(t2,skill词向量+c)

通过z3的值，计算词汇表中每个词是第三个词的概率；p(第三个词是building)的值最大，则第三个词是building；

以此类推，最终输出完整译文：the skill building is important的词向量d1。

在图3所示实施例的基础上，图4为本发明实施例的第二翻译模型中的解码器的工作流程示意图，如图4所示，解码器使用循环神经网络LSTM将编码器输出的向量变成译文。解码器的LSTM用于完成：

t1,z1＝f(t0,<s>词向量+c+d1)

通过z1的值，计算词汇表中哪个词是第一个词的概率；p(第一个词是it)的值最大，则第一个词是it；

t2,z2＝f(t1,it词向量+c+d1)

通过z2的值，计算词汇表中哪个词是第二个词的概率；p(第二个词是is)的值最大，则第二个词是is；

t3,z3＝f(t2,is词向量+c+d1)

通过z3的值，计算词汇表中每个词是第三个词的概率；p(第三个词是building)的值最大，则第三个词important；

以此类推，最终输出完整译文：it is important to build skill的词向量d2。

在图4所示实施例的基础上，图5为本发明实施例的第三翻译模型中的解码器的工作流程示意图，如图5所示，解码器使用循环神经网络LSTM将编码器输出的向量变成译文。解码器的LSTM用于完成：

t1,z1＝f(t0,<s>词向量+c+d1+d2)

t2,z2＝f(t1,it词向量+c+d1+d2)

t3,z3＝f(t2,is词向量+c+d1+d2)

以此类推，最终输出完整译文：it is important to build the skill。

可以理解的是，向量c、d1和d2的维度是一致的，因此可以执行向量之间的加法操作，本发明实施例在计算“c+d1”或者“c+d1+d2”时，可以是直接将向量进行相加，也可以是对向量赋权重后相加。

在上述各实施例的基础上，本发明实施例中词向量的获取方法包括：以学习语义知识的神经网络模型分别对预先获取的双语语料集进行训练，获得所述双语语料集中每个分词的词向量，构成双语词向量集。通过对平行语料进行分层，从预设的双语词向量集中获取对应每个分词的词向量，可以理解的是，双语语料的语言为所述语料集对应的源语言和目标语言。

具体地，本发明实施例可以通过爬取维基百科、Google新闻等网站中质量的双语语料，并进行分词，例如采用Skip-Gram算法分别进行词向量的训练，其中一些重要的超参数设置为：词向量的维度为300，上下文窗口为5。本发明实施例对学习语义知识的神经网络的类型以及训练过程中的超参数设置不做进一步的限定。

本发明各实施例中的所有语料均采用同一套训练方式训练而成，从而保证翻译过程的统一。

图6为本发明实施例的文本翻译方法的流程示意图，如图6所示，该方法包括S201和S202，具体地：

S201、获取待翻译文本；

在本发明实施例中，待翻译文本的语言为文本翻译模型在训练时的源语言文本的语言一致。

S202、利用训练得到的文本翻译模型对待翻译文本进行翻译。

在实际应用中，通过获取待翻译文本的词向量，将该词向量输入至上述实施例训练得到的文本翻译模型中，获得审校水平的译文。

本发明实施例提供一种文本翻译方法，在获取待翻译文本后，利用上述各实施例训练得到的文本翻译模型，对待翻译文本进行翻译，从而获得审校水平的译文，相比现有技术，本发明能够获得翻译水平更高、更准确的翻译结果。

图7为本发明实施例提供的文本翻译模型的训练装置的结构示意图，如图7所示，该文本翻译模型的训练装置包括平行语料获取模块301和训练模块302：其中：

平行语料获取模块301，语言获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本；

训练模块302，用于根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型；

所述第一至第三翻译模型共享部分模型参数，并且在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变

本发明实施例提供的文本翻译模型的训练装置，具体执行上述各文本翻译模型的训练方法实施例流程，具体请详见上述各文本翻译模型的训练方法实施例的内容，在此不再赘述。本发明实施例提供的文本翻译模型的训练装置有利于缩短训练的时间，本发明实施例训练的文本翻译模型能够训练出更高质量的译文。

图8为本发明实施例提供的文本翻译装置的结构示意图，如图8所示，该文本翻译装置包括文本获取模块401和翻译模型402，其中：

文本获取模块401，用于获取待翻译文本；

翻译模块402，用于根据上述文本翻译模型的训练方法训练得到的文本翻译模型，对所述待翻译文本进行翻译。

本发明实施例提供一种文本翻译装置，在获取待翻译文本后，利用上述各实施例训练得到的文本翻译模型，对待翻译文本进行翻译，从而获得审校水平的译文，相比现有技术，本发明能够获得翻译水平更高、更准确的翻译结果。

图9为本发明实施例提供的电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储在存储器930上并可在处理器910上运行的计算机程序，以执行上述各实施例提供的文本翻译模型的训练方法，例如包括：获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本；根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型；其中，第一翻译模型用于以每个平行语料中的源语言文本为样本，以机翻译文文本为样本标签进行训练；第二翻译模型用于以每个平行语料中的源语言文本、所述第一翻译模型的输出为样本，以后编辑译文文本为样本标签进行训练；第三翻译模型以每个平行语料中的源语言文本、所述第一翻译模型的输出和第二翻译模型的输出为样本，以审校译文文本为样本标签进行训练；所述第一至第三翻译模型共享部分模型参数，并且在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种文本翻译设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述实施例所述的文本翻译方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文本翻译模型的训练方法或者文本翻译方法，例如包括：获取平行语料集，所述平行语料集中的每个平行语料包括源语言文本、机翻译文文本、后编辑译文文本和审校译文文本；根据所述平行语料集依次训练第一至第三翻译模型，将训练完成的第三翻译模型作为所述文本翻译模型；其中，第一翻译模型用于以每个平行语料中的源语言文本为样本，以机翻译文文本为样本标签进行训练；第二翻译模型用于以每个平行语料中的源语言文本、所述第一翻译模型的输出为样本，以后编辑译文文本为样本标签进行训练；第三翻译模型以每个平行语料中的源语言文本、所述第一翻译模型的输出和第二翻译模型的输出为样本，以审校译文文本为样本标签进行训练；所述第一至第三翻译模型共享部分模型参数，并且在先的翻译模型在训练完毕后的模型参数不随在后的翻译模型训练而改变；或者获得第一语言的待翻译文本；根据上述文本翻译模型的训练方法训练得到的文本翻译模型，对所述待翻译文本进行翻译。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本翻译模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的文本翻译模型的训练方法，其特征在于，所述第一至第三翻译模型均为循环神经网络模型。

3.根据权利要求1所述的文本翻译模型的训练方法，其特征在于，所述第一至第三翻译模型共享一个编码器，所述第一至第三翻译模型还各自包括一个解码器。

4.根据权利要求1所述的文本翻译模型的训练方法，其特征在于，所述根据所述平行语料集依次训练第一至第三翻译模型，之前还包括：

其中，所述双语词向量集的获取方法为：

5.一种文本翻译方法，其特征在于，包括：

获取待翻译文本；

根据权利要求1-4任意一项所述的方法训练得到的文本翻译模型，对所述待翻译文本进行翻译。

6.一种文本翻译模型的训练装置，其特征在于，包括：

7.一种文本翻译装置，其特征在于，包括：

文本获取模块，用于获取待翻译文本；

翻译模块，用于根据权利要求1-4任意一项所述的方法训练得到的文本翻译模型，对所述待翻译文本进行翻译。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述文本翻译模型的训练方法的步骤。

9.一种文本翻译设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求5所述文本翻译方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至5中任意一项所述的方法。