CN110532575A

CN110532575A - 文本翻译方法及装置

Info

Publication number: CN110532575A
Application number: CN201910772658.7A
Authority: CN
Inventors: 张睦
Original assignee: Language Networking (wuhan) Information Technology Co Ltd
Current assignee: Language Networking (wuhan) Information Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-12-03

Abstract

本发明实施例提供一种文本翻译方法及装置，其中方法包括获取待翻译文本的初步翻译结果，将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果，其中，所述第一文本翻译模型中包括高级文本翻译子模型，所述高级文本翻译子模型以训练文本的初步翻译结果为样本，以所述训练文本的后编辑结果为样本标签训练而成。本发明实施例相比现有技术获得的机翻结果要更加准确。

Description

文本翻译方法及装置

技术领域

本发明涉及文本翻译技术领域，更具体地，涉及文本翻译方法及装置。

背景技术

无论是作为机器翻译模型训练的输入，还是作为辅助译员翻译的记忆单元，高质量的双语平行语料往往是非常重要的。然而，高质量的双语平行语料在一些情况下是非常稀缺的，特别是针对一些资源有限的小语种或是面向某些专业领域内的时候。

另一方面，高质量且数量众多的单语语料却很容易得到。例如，从维基百科和google新闻等网站往往可以下载或爬取到上百个G的单语文本数据。因此业内的一些研究学者尝试利用大量单语数据去合成更多的双语数据的，来解决双语数据的匮乏。

实验表明，利用合成的数据可以有效地提升一些机器翻译的评测得分。然而这种方法有两个明显的缺点：一是这些合成的语料质量不佳，夹杂着很多噪音；二是在所有的合成的语料中，只有一部分是真正对机器翻译的表现提升有所帮助。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译方法及装置。

第一个方面，本发明实施例提供一种文本翻译方法，包括：

获取待翻译文本的初步翻译结果；

将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果；

其中，所述第一文本翻译模型中包括高级文本翻译子模型，所述高级文本翻译子模型以训练文本的初步翻译结果为样本，以所述训练文本的后编辑结果为样本标签训练而成。

优选地，所述获取待翻译文本的初步翻译结果，具体为：

获取所述待翻译文本的词向量；

将所述待翻译文本的词向量输入至预设的第二文本翻译模型，得到输出的翻译结果，作为所述待翻译文本的初步翻译结果；

其中，所述第二文本翻译模型以训练文本的词向量为样本，以所述训练文本的后编辑结果为样本标签训练而成。

优选地，所述将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果，具体为：

将所述待翻译文本的初步翻译结果输入至循环神经网络类型的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果。

优选地，所述第一文本翻译模型中还包括重建子模型，所述重建子模型以训练文本的后编辑结果为样本，以训练文本的原文为样本标签训练而成；

相应地，所述文本翻译方法还包括：

将所述待翻译文本的后编辑结果输入至所述重建子模型，得到输出的所述待翻译文本的重建后的原文。

优选地，所述第一文本翻译模型的训练方法为：

获取训练样本的词向量、训练样本的初步翻译结果和后编辑结果；

以所述训练样本的初步翻译结果作为训练样本，以所述训练样本的后编辑结果作为标签输入至所述高级文本翻译子模型；

将所述高级文本翻译子模型的输出结果作为训练样本，以所述训练样本的词向量作为标签输入至所述重建子模型；

根据所述重建子模型的输出结果调整所述重建子模型和高级文本翻译子模型的参数，直至所述重建子模型的输出结果与训练样本的原文间的一致性符合预设条件。

优选地，获取待翻译文本的词向量，具体为：

以学习语义知识的神经网络模型分别对预先获取的双语语料集进行训练，获得所述双语语料集中每个分词的词向量，构成双语词向量集；

对所述待翻译文本进行分词，从所述双语词向量集中获取对应的词向量；

其中，所述双语语料的语言为所述待翻译文本对应的语言以及初级翻译结果和后编辑结果对应的语言。

优选地，所述文本翻译方法还包括：将所述待翻译文本的后编辑结果作为最终翻译结果。

第二个方面，本发明实施例提供一种文本翻译装置，包括：

初步翻译获取模块，用于获取待翻译文本的初步翻译结果；

后编辑获取模块，用于将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的文本翻译方法及装置，通过获取待翻译文本的初级翻译结果，进而将初级翻译结果输入预先训练的第一文本翻译模型，得到输出的后编辑结果，相比现有技术获得的机翻结果要更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本翻译方法的流程示意图；

图2为本发明实施例获取待翻译文本的初步翻译结果的流程示意图；

图3为本发明实施例的待翻译文本的词向量的获取方法的流程示意图；

图4为本发明实施例的第二文本翻译模型中编码器的工作流程示意图；

图5为本发明实施例的第二文本翻译模型中解码器的工作流程示意图；

图6为本发明实施例的第一文本翻译模型的训练方法的流程示意图；

图7为本发明又一个实施例的文本翻译方法的流程示意图；

图8为本发明实施例提供的文本翻译装置的结构示意图；

图9为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的文本翻译方法的流程示意图，如图1所示，该方法包括S101和S102，具体地：

S101、获取待翻译文本的初步翻译结果；

需要说明的时，本发明实施例可以直接获取外部输入的待翻译文本的初步翻译结果，也可以是根据待翻译文本来确定初步翻译结果。

在文本翻译过程中，对于一个待翻译文本，通常通过机器翻译引擎产生对应的机翻译文，然后再通过人工校对的方式对机翻译文进行调整，获得后编辑结果，在本发明实施例中，初步翻译结果可以是通过现有的机器翻译引擎产生的机翻译文。

可以理解的是，初步翻译结果的准确度可能不高，并不能直接作为待翻译文本的最终翻译结果。

待翻译文本以及待翻译的初步翻译结果，可以通过终端设备采集，终端设备可以是手机、个人电脑、平板电脑等设备，通过摄像头采集，甚至通过麦克风采集语音数据后转换为文本格式。

S102、将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果。

本发明实施例的第一文本翻译模型中包括高级文本翻译子模型，所述高级文本翻译子模型以训练文本的初步翻译结果为样本，以所述训练文本的后编辑结果为样本标签训练而成

也就是说，高级文本翻译子模型的训练样本可以包括训练文本的初步翻译结果；样本标签包括训练文本的后编辑结果。

其中，训练文本的后编辑结果为对训练文本的机翻结果进行人工校对后的结果。

在一个可选实施例中，第一文本翻译模型的训练方法可以为：搜集一定数量的训练文本以及训练文本的后编辑结果，将每一个训练文本以及对应的后编辑结果作为一条语料，从而构成语料库，对语料库中的语料的顺序进行重新洗牌，从而打乱原始的排序，将洗牌后的语料库中选择一部分语料作为训练集，一部分语料作为验证集，可选地，训练集和验证集中语料的数量比为4:1，使用训练集对第一文本翻译模型进行训练，得到训练后的第一文本翻译模型，再使用验证集对训练后的第一文本翻译翻译模型进行测试，当测试结果符合预期，则训练结束，若测试结果不符合预期，则继续使用训练集对第一文本翻译模型进行训练。

在本发明实施例中，高级文本翻译子模型利用待翻译文本的初步翻译结果，可以预测出待翻译文本的后编辑结果，从而获得待翻译文本的高质量的译文。

进一步地，介绍上述步骤S101中获取待翻译文本的初步翻译结果的过程。图2为本发明实施例获取待翻译文本的初步翻译结果的流程示意图，如图2所示，该方法包括S201和S202，具体地：

S201、获取待翻译文本的词向量；

S202、将所述待翻译文本的词向量输入至预设的第二文本翻译模型，得到输出的翻译结果，作为所述待翻译文本的初步翻译结果。

尽管第二文本翻译模型是以训练文本的后编辑结果作为样本标签进行训练，但由于样本并不是训练文本的机翻结果，而是训练文本分词后的词向量，考虑到翻译的跨度较大，翻译结果上可能还存在瑕疵以及进一步提升的空间，因此本发明实施例将第二文本翻译模型的输出结果仍然作为待翻译文本的初步翻译结果，能够提升了翻译过程中的准确度。

在上述各实施例的基础上，介绍本发明实施例中待翻译文本以及训练文本的词向量的获取方法。以待翻译文本的词向量为例，图3为本发明实施例的待翻译文本的词向量的获取方法的流程示意图，如图3所示，包括S301和S302，具体地：

S301、以学习语义知识的神经网络模型分别对预先获取的双语语料集进行训练，获得所述双语语料集中每个分词的词向量，构成双语词向量集。

具体地，本发明实施例可以通过爬取维基百科、Google新闻等网站中质量的双语语料，并进行分词，例如采用Skip-Gram算法分别进行词向量的训练，其中一些重要的超参数设置为：词向量的维度为300，上下文窗口为5。本发明实施例对学习语义知识的神经网络的类型以及训练过程中的超参数设置不做进一步的限定。

S302、对所述待翻译文本进行分词，从所述双语词向量集中获取对应的词向量；其中，所述双语语料的语言为所述待翻译文本对应的语言以及初级翻译结果和后编辑结果对应的语言。

训练文本的词向量的获取也可参考步骤S302：将训练文本进行分词，从双语词向量集中获取对应的词向量。

本发明实施例通过以高质量的语料集进行词向量的训练，在训练完成后，根据待翻译文本和训练文本的分词结果，从训练结果中找出相应的词向量。使得待翻译文本和训练文本的词向量为采用同一套训练方式训练得到的结果，保证后续翻译过程中的统一。

在上述各实施例的基础上，本发明实施例的第一文本翻译模型为循环神经网络类型，循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

通过建立输出节点，循环神经网络可以有多种输出模式，包括序列-分类器(单输出)、序列-序列(同步多输出)、编码器-解码器(异步多输出)等，在一个可选实施例中，本发明的第一文本翻译模型采用编码器-解码器(encoder-decoder)的输出模式。

在上述实施例的基础上，第二文本翻译模型为循环神经网络模型类型，并且其输出类型也为编码器-解码器的输出模式。

图4为本发明实施例的第二文本翻译模型中编码器的工作流程示意图，如图4所示，编码器使用循环神经网络LSTM将原文变成向量。具体地，待翻译文本为技能的培养非常重要，通过预先对待翻译文本进行分词，分词结果为：技能/的/培养/非常/重要。<s>指的是开头符，用于表征一个序列的输入开始，</s>指的是结尾符，用于表征一个序列的输入结束。编码器的LSTM用于完成以下计算：

s1＝f(s0,“<s>”词向量)

s2＝f(s1,“技能”词向量)

s3＝f(s2,“的”词向量)

…

c＝f(s6,“</s>”词向量)

其中，f表示一个预设函数。

在图4所示实施例的基础上，图5为本发明实施例的第二文本翻译模型中解码器的工作流程示意图，如图5所示，解码器使用循环神经网络LSTM将编码器输出的向量变成译文。解码器的LSTM用于完成：

t1,z1＝f(t0,<s>词向量+c)

通过z1的值，计算词汇表中哪个词是第一个词的概率；p(第一个词是the)的值最大，则第一个词是the；

t2,z2＝f(t1,skill词向量+c)

通过z2的值，计算词汇表中哪个词是第二个词的概率；p(第二个词是skill)的值，则第二个词是skill；

t3,z3＝f(t2，building词向量+c)

通过z3的值，计算词汇表中每个词是第三个词的概率；p(第三个词是building)的值最大，则第三个词是building；

以此类推，最终预测出完整译文：the skill building is important。

在上述各实施例的基础上，作为一种可选实施例，第一文本翻译模型中还包括重建子模型，重建子模型以训练文本的后编辑结果为样本，以训练文本的原文为样本标签训练而成。

相应地，基于训练好的重建子模型，本发明实施例的文本翻译方还包括：将所述待翻译文本的后编辑结果输入至所述重建子模型，得到输出的所述待翻译文本的重建后的原文。

本发明实施例能够实现输出高质量的双语平行语料的效果，解决了双语数据匮乏的问题。

在上述实施例的基础上，作为一种可选实施例，第一文本翻译模型中包括高级文本翻译子模型和重建子模型，本发明实施例采用同步训练的方式对上述两个子模型进行训练，从而使得重建子模型输出的重建结果作为约束，尽量提高高级文本翻译子模型的翻译准确性。

图6为本发明实施例的第一文本翻译模型的训练方法的流程示意图，如图6所示，该方法包括S401、S402、S403和S404，具体地：

S401、获取训练样本的词向量、训练样本的初步翻译结果和后编辑结果；

S402、以所述训练样本的初步翻译结果作为训练样本，以所述训练样本的后编辑结果作为标签输入至所述高级文本翻译子模型；

S403、将所述高级文本翻译子模型的输出结果作为训练样本，以所述训练样本的词向量作为标签输入至所述重建子模型；

S404、根据所述重建子模型的输出结果调整所述重建子模型和高级文本翻译子模型的参数，直至所述重建子模型的输出结果与训练样本的原文间的一致性符合预设条件。

图6所示实施例中的两个子模型均可以采用编码器-解码器输出形式，在第一个子模型中，通过编码器，将初步翻译结果编码成向量，解码器利用词向量生产后编辑结果，在第二个模型中，编码器将后编结果再次编码成向量，解码器利用再次编码成的向量重建原文。可以理解的是，编码器和解码器的工作流程与图4和图5类似，在此不再赘述。

在上述各实施例的基础上，作为一种可选实施例，文本翻译方法还包括：S103、将待翻译文本的后编辑结果作为最终翻译结果。

本发明实施例通过确定最终翻译结果，该最终翻译结果可以进行存储以及记录等用途。

为了便于理解，本发明实施例结合一个完整的文本翻译流程，对上述步骤S103的过程进行说明。

图7为本发明又一个实施例的文本翻译方法的流程示意图，如图7所示，该方法包括S501、S502和S503，具体地：

S501、获取待翻译文本的词向量；

S502、将待翻译文本的词向量输入至预设的第二文本翻译模型，得到输出的翻译结果，作为待翻译文本的初步翻译结果；

S503、将待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的待翻译文本的后编辑结果和待翻译文本重建后的原文，将待翻译文本的后编辑结果作为最终翻译结果。

本发明实施例利用预设的第一文本翻译模型和第二文本翻译模型，通过输入待翻译文本的词向量，能够一次性输出待翻译文本的后编辑结果以及待翻译文本重建后的原文，即一次性获得高质量的双语平行语料。

通过给定1000条单语语料(中文)，利用当前业内所广泛采用的技术来合成相应的译文(1000条合成英文)，并利用本发明实施例所合成的后编辑译文(1000条后编辑英文)，并通过人工评分对两者合成译文的质量做比较。这里所指业内广泛采用的技术即back-translation。为了公平起见，back-translation的模型采用和本发明实施例相同的样本、相同的分词方法、相同的词向量模型。

通过对本发明实施例的后编辑译文与back-translation方法生成的译文以bleu自动化评测方法进行评测，本发明实施例的后编辑译文的bleu得分为18.35，而back-translation方法生成的译文的bleu得分为16.8，显然本发明实施例的结果更优。

此外，人工评测也是在业内经常使用到的一个评测方法，并且比自动化评测要更准确，通过选取大于5名的中英语言专家，给每位专家随机抽取200条原文，和其相应的200条back-translation所合成的译文，以及相应的200条本发明实施例所合成的后编辑译文，其中语言专家并不知晓抽取的译文是通过哪种方法获取的，并要求每位专家从两个个维度进行人工打分：流利度(合成的译文是否是流利的英文)和忠实度(合成的译文是否传达了与原文相同的意思)，流利度和忠实度的评分标准是1～5分，参见表1，表1为流利度和忠实度的评分标准表。

表1流利度和忠实度的评分标准表

通过人工评分，对back-translation方法所合成译文的忠实度得分和流畅度得分分别计算一个平均值；同样，对本发明实施例所合成的译文的忠实度得分和流畅度得分分别计算一个平均值。本发明实施例的忠实度均分为3.65，流利度均分为3.75；而back-translation方法的忠实度均分为2.98，流利度为3.01，显然，本发明实施例在忠实度和流利度上均优于现有技术。

图8为本发明实施例提供的文本翻译装置的结构示意图，如图8所示，该文本翻译装置包括：初步翻译获取模块201和后编辑获取模块202，其中：

初步翻译获取模块201，用于获取待翻译文本的初步翻译结果；

后编辑获取模块202，用于将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果；

其中，所述第一文本翻译模型中包括高级文本翻译子模型，所述高级文本翻译子模型以训练文本的初步翻译结果为样本，以所述训练文本的后编辑结果为样本标签训练而成

本发明实施例提供的文本翻译装置，具体执行上述各文本翻译方法实施例流程，具体请详见上述各文本翻译方法实施例的内容，在此不再赘述。本发明实施例提供的文本翻译装置通过获取待翻译文本的初级翻译结果，进而将初级翻译结果输入预先训练的第一文本翻译模型，得到输出的后编辑结果，相比现有技术获得的机翻结果要更加准确。

图9为本发明实施例提供的电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储在存储器930上并可在处理器910上运行的计算机程序，以执行上述各实施例提供的文本翻译方法，例如包括：获取待翻译文本的初步翻译结果，将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果，其中，所述第一文本翻译模型中包括高级文本翻译子模型，所述高级文本翻译子模型以训练文本的初步翻译结果为样本，以所述训练文本的后编辑结果为样本标签训练而成。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文本翻译方法，例如包括：获取待翻译文本的初步翻译结果，将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果，其中，所述第一文本翻译模型中包括高级文本翻译子模型，所述高级文本翻译子模型以训练文本的初步翻译结果为样本，以所述训练文本的后编辑结果为样本标签训练而成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本翻译方法，其特征在于，包括：

获取待翻译文本的初步翻译结果；

2.根据权利要求1所述的文本翻译方法，其特征在于，所述获取待翻译文本的初步翻译结果，具体为：

获取所述待翻译文本的词向量；

3.根据权利要求1所述的文本翻译方法，其特征在于，所述将所述待翻译文本的初步翻译结果输入至预先训练的第一文本翻译模型，得到输出的所述待翻译文本的后编辑结果，具体为：

4.根据权利要求1或2所述的文本翻译方法，其特征在于，所述第一文本翻译模型中还包括重建子模型，所述重建子模型以训练文本的后编辑结果为样本，以训练文本的原文为样本标签训练而成；

相应地，所述文本翻译方法还包括：

5.根据权利要求4所述的文本翻译方法，其特征在于，所述第一文本翻译模型的训练方法为：

6.根据权利要求2所述的文本翻译方法，其特征在于，获取待翻译文本的词向量，具体为：

7.根据权利要求1或2所述的文本翻译方法，其特征在于，还包括：将所述待翻译文本的后编辑结果作为最终翻译结果。

8.一种文本翻译装置，其特征在于，包括：

初步翻译获取模块，用于获取待翻译文本的初步翻译结果；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本翻译方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的文本翻译方法。