CN113268996A

CN113268996A - 用于扩充语料的方法和用于翻译模型的训练方法及产品

Info

Publication number: CN113268996A
Application number: CN202110615854.0A
Authority: CN
Inventors: 程桥; 黄瑾; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-17

Abstract

本发明的实施方式提供了一种用于扩充语料的方法和用于翻译模型的训练方法及产品。该方法包括：将平行语料中的源端文本与相应的目标端文本连接；在连接之前或者连接之后，对所述源端文本和/或所述目标端文本进行遮蔽处理，以生成包含遮蔽词的连接文本；以及基于掩码预测模型对所述连接文本进行预测，以获得所述遮蔽词的预测分布，其中所述预测分布用于扩充所述平行语料。根据本发明实施方式的方法，不仅能够扩充平行语料的数量，还能够保证扩充语料的质量，从而有利于提升对机器翻译模型的训练质量。

Description

用于扩充语料的方法和用于翻译模型的训练方法及产品

技术领域

本发明的实施方式涉及数据处理技术领域，更具体地，本发明的实施方式涉及用于扩充语料的方法、设备和用于机器翻译模型的训练方法、训练设备及电子设备和存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

随着人工智能和机器语言学习技术的不断发展，机器翻译技术的需求和应用范围不断扩大。在相关技术领域中，通常可以使用机器翻译模型进行机器翻译。然而，使用机器翻译模型进行机器翻译，需要依赖大量的训练语料进行翻译训练，足够数量且高质量的训练语料将有助于提高机器翻译模型的翻译效果。

进一步地，数据扩充是提升深度学习模型性能的比较重要的一类方法。在机器翻译任务中，常用的语料扩充方法包括在翻译语料的源端句子中随机选取两个词进行交换、或者在翻译语料的目标端句子中随机选取两个词进行交换、或者丢掉一些词、或者将某些词随机替换成其他词的方式。在获得扩充后的语料后，可以使用扩充后的语料来训练翻译模型，以提升翻译模型的性能表现。

发明内容

但是，由于随机交换两个词、丢掉一些词或者将某些词随机替换成其他词的方法通常都会改变原句的结构，从而造成扩充后的语句与原句相比，其语法结构或者语义发生改变。这样的语料扩充方法虽然在一定程度上能够提升机器翻译模型的泛化性，但是容易引入较大的噪声，并可能发生损坏模型的性能或者对性能提升有限的情况，这是非常令人烦恼的。

为此，非常需要一种改进的语料扩充方法，以使扩充后的语句能够保持与原句的语法和语义的一致性。

在本上下文中，本发明的实施方式期望提供一种用于扩充语料的方法和用于翻译模型的训练方法及产品。

在本发明实施方式的第一方面中，提供了一种用于扩充语料的方法，包括：将平行语料中的源端文本与相应的目标端文本连接；在连接之前或者连接之后，对所述源端文本和/或所述目标端文本进行遮蔽处理，以生成包含遮蔽词的连接文本；以及基于掩码预测模型对所述连接文本进行预测，以获得所述遮蔽词的预测分布，其中所述预测分布用于扩充所述平行语料。

在本发明的一个实施例中，将源端文本与相应的目标端文本连接，包括：使用预设标记将所述源端文本与相应的所述目标端文本进行连接。

在本发明的另一个实施例中，在对所述源端文本和/或所述目标端文本进行遮蔽处理时，所述遮蔽词的选取数量满足以下条件中的至少一项：所述源端文本中的遮蔽词的数量占所述源端文本中所有词的数量的比例小于第一预设阈值；所述目标端文本中的遮蔽词的数量占所述目标端文本中所有词的数量的比例小于第二预设阈值；以及所述连接文本中的遮蔽词的数量占所述连接文本中所有词的数量的比例小于第三预设阈值。

在本发明的又一个实施例中，在基于掩码预测模型对所述连接文本进行预测之前，所述方法还包括：获取用于翻译训练的原始训练语料，其中所述原始训练语料包括源端训练样本和目标端训练样本；将所述源端训练样本和所述目标端训练样本连接；在连接之前或者连接之后，对所述源端训练样本和/或所述目标端训练样本中的部分原始词进行遮蔽处理，以生成包含遮蔽样本词的连接训练样本；以及利用所述连接训练样本以及与所述遮蔽样本词相应的所述原始词，对第一预测模型进行训练，以得到所述掩码预测模型。

在本发明实施方式的第二方面中，提供了一种用于扩充语料的设备，包括：连接装置，其配置用于将平行语料中的源端文本与相应的目标端文本连接，以生成包含遮蔽词的连接文本；遮蔽装置，其配置用于在连接之前或者连接之后，对所述源端文本和/或所述目标端文本进行遮蔽处理；以及预测装置，其配置用于基于掩码预测模型对所述连接文本进行预测，以获得所述遮蔽词的预测分布，其中所述预测分布用于扩充所述平行语料。

在本发明的一个实施例中，所述连接装置还配置用于：使用预设标记将所述源端文本与相应的所述目标端文本进行连接。

在本发明的另一个实施例中，所述遮蔽装置还配置用于，对所述遮蔽词的选取数量满足以下条件中的至少一项：所述源端文本中的遮蔽词的数量占所述源端文本中所有词的数量的比例小于第一预设阈值；所述目标端文本中的遮蔽词的数量占所述目标端文本中所有词的数量的比例小于第二预设阈值；以及所述连接文本中的遮蔽词的数量占所述连接文本中所有词的数量的比例小于第三预设阈值。

在本发明的又一个实施例中，该设备还包括第一训练装置，其配置用于：获取用于翻译训练的原始训练语料，其中所述原始训练语料包括源端训练样本和目标端训练样本；将所述源端训练样本和所述目标端训练样本连接；在连接之前或者连接之后，对所述源端训练样本和/或所述目标端训练样本中的部分原始词进行遮蔽处理，以生成包含遮蔽样本词的连接训练样本；以及利用所述连接训练样本以及与所述遮蔽样本词相应的所述原始词，对第一预测模型进行训练，以得到所述掩码预测模型。

在本发明实施方式的第三方面中，提供了一种用于机器翻译模型的训练方法，包括：根据利用本发明实施方式的第一方面中任一所述的方法获得的遮蔽词的预测分布，确定所述遮蔽词对应的一个或多个采样词；将所述一个或多个采样词代替所述遮蔽词在平行语料中的位置，以形成平行训练语料；以及利用所述平行训练语料对所述机器翻译模型进行训练。

在本发明的一个实施例中，将所述一个或多个采样词代替所述遮蔽词在平行语料中的位置，包括：将一个采样词对应词向量代替所述遮蔽词在所述平行语料中的位置；或者将多个采样词对应词向量的加权平均值代替所述遮蔽词在所述平行语料中的位置。

在本发明实施方式的第四方面中，提供了一种用于机器翻译模型的训练设备，包括采样装置，其配置用于根据利用本发明实施方式的第一方面中任一所述的方法获得的遮蔽词的预测分布，确定所述遮蔽词对应的一个或多个采样词；语料形成装置，其配置用于将所述一个或多个采样词代替所述遮蔽词在平行语料中的位置，以形成平行训练语料；以及第二训练装置，其配置用于利用所述平行训练语料对所述机器翻译模型进行训练。

在本发明的一个实施例中，所述语料形成装置还配置用于：将一个采样词对应词向量代替所述遮蔽词在所述平行语料中的位置；或者将多个采样词对应词向量的加权平均值代替所述遮蔽词在所述平行语料中的位置。

在本发明实施方式的第五方面中，提供了一种电子设备，包括，至少一个处理器；存储器，其存储有程序指令，当所述程序指令由所述至少一个处理器执行时，使得所述电子设备执行根据本发明实施方式的第一方面中任一项和/或本发明实施方式的第三方面中任一项所述的方法。

在本发明实施方式的第六方面中，提供了一种计算机可读存储介质，其存储有用于扩充语料的程序和/或用于机器翻译模型的训练的程序，当所述程序由处理器来运行时，执行根据本发明实施方式的第一方面中的任一项和/或本发明实施方式的第三方面中的任一项所述的方法。

根据本发明实施方式的用于扩充语料的方法，可以通过将平行语料中的源端文本与相应的目标端文本连接，使得基于掩码预测模型对连接文本进行预测时，能够兼顾源端文本和相应的目标端文本，以获得能够保持源端文本和相应的目标端文本流畅连贯、且语法语义一致的遮蔽词的预测分布。根据这样的方式扩充的平行语料，不仅能够扩充平行语料的数量，还能够保证扩充语料的质量，从而有利于提升对机器翻译模型的训练质量。

在一些实施例中，通过使用预设标记进行连接，能够有助于掩码预测模型对源端文本和相应的目标端文本进行区分和识别。在另一些实施例中，通过第一预设阈值、第二预设阈值、第三预设阈值的设置，能够对遮蔽词的数量进行限制，有利于保证对遮蔽词的预测质量。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性地示出了根据本发明实施例的用于扩充语料的方法流程图；

图3示意性地示出了根据本发明实施例的基于掩码预测模型对连接文本进行预测的过程示意图；

图4示意性地示出了根据本发明实施例的得到掩码预测模型的方法流程图；

图5示意性地示出了根据本发明实施例的用于扩充语料的设备的示意图；

图6示意性地示出了根据本发明实施例的用于机器翻译模型的训练方法流程图；

图7示意性地示出了根据本发明实施例的用于机器翻译模型的训练方法的过程示意图；以及

图8示意性地示出了根据本发明实施例的用于机器翻译模型的训练设备的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“装置”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

在本发明实施方式的第六方面中，提供了一种计算机可读存储介质，其存储有用于扩充语料的程序和/或用于机器翻译模型的训练的程序，当所述程序由处理器来运行时，执行根据本发明实施方式的第一方面中的任一项所述的方法，和/或执行根据本发明实施方式的第三方面中的任一项所述的训练方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种用于扩充语料的方法和设备、用于机器翻译模型的训练方法和训练设备、以及电子设备和计算机可读存储介质。

在本文中，需要理解的是，所涉及的术语包括如下：

MT：Machine Translation，机器翻译，俗称机翻，其属于计算语言学的范畴，并借由计算机技术将文字或语音从一种自然语言翻译成另一种自然语言。

NMT：Neural Machine Translation，神经机器翻译，又称神经网络机器翻译，是一种使用神经网络技术进行机器翻译的技术。

ANN：Artificial Neural Network，人工神经网络，也可简称为神经网络(NeuralNetwork，简写为NN)或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

MLM：Masked Language Model，掩码语言模型，它是由BERT提出，并用于在序列中掩盖一些单词并用[MASK]替换，以便利用掩码后的序列预测出被掩码的单词。例如，给定序列x＝(x1,x2,x3,x4,x5)，将其中的x2和x4分别进行掩盖，得到掩码后的序列(x1,[MASK],x3,[MASK],x5)，基于掩码后的序列，可以促使MLM模型学习到好的语言表征以预测出x2和x4。

BERT：Bidirectional Encoder Representations from Transformers，基于翻译模型的双向编码器表征。

LM：language model，语言模型，它是用于预测句子(或者单词序列)的概率或者序列中下一个单词的概率，其通过参考句子中待预测单词之前的单词，来预测待预测单词的概率。

平行语料，为多个语种的相互释义的对照文本对，例如中英平行语料可以包括汉语的文本及其英语的释义文本。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，自然语言处理领域中另一种数据扩充的方法是利用语言模型对训练语料句子中的某些词进行预测，并从得到的预测分布中进行采样，以使用采样词替换句子中相应的词。然而，由于利用语言模型进行预测具有单向性(即语言模型根据句子中待预测词之前的词进行预测)的特点，因此使用语言模型预测分布的采样词替换句子中相应的词，可能会出现只与左边语句连贯，而与右边语句不连贯的现象。例如，原句是“我有一个苹果”，利用语言模型对“个”进行预测时，如果只考虑左边部分(即“我有一”)，会出现“我有一条苹果”，“我有一把苹果”这样的扩充语料出来。

进一步地，本发明人还发现，目前的数据扩充方法仅能够对源端文本或者目标端文本进行独立扩充，这样可能会导致替换后的源端文本与目标端文本的意思不一致的问题，进而影响训练效果。例如，源端句子是“我有一个苹果”，目标端句子是“I have anapple”，利用语言模型对源端句子中的“苹果”进行预测时，如果只考虑左边部分(即“我有一个”)，可能会出现“我有一个香蕉”、“我有一个桃子”这样的扩充语料出来，这与目标端句子的意思存在差异。显然，使用这样的扩充语料对机器翻译模型进行训练，可能会影响训练后的翻译模型的翻译准确度。

为了既能够保证句子的语义和语法结构不被破坏，又能够保证语句的双向连贯性以及源端文本和目标端文本的意思一致性，本发明人发现可以在预测源端文本中的词时，参考相应的目标端文本，类似地，可以在预测目标端文本中的词时，参考相应的源端文本，这样可以有效避免对扩充后的语句的语法语义结构的破坏，并且能够获得双向连贯、意思一致的扩充语料。以前述源端句子是“我有一个苹果”、目标端句子是“I have an apple”为例，当对“个”进行预测时，如果能够双向考虑(即对位于“个”之前和之后的词均进行参考)，同时参考目标端句子中对应的释义单词“an”，可能更合适的扩充语料应该为“我有一颗苹果”，实现了句子的双向连贯；当对“苹果”进行预测时，由于考虑到目标端句子中对应的释义单词“apple”，因此不会出现“我有一个香蕉”、“我有一个桃子”这样与目标端句子意思明显不同的扩充语料。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施方式的用于扩充语料的方法可以通过在机器上运行的应用程序来实施。本发明实施方式的用于扩充语料的方法可以适用于对任何语种的平行语料的扩充，例如对中英双语语料、中日双语语料、英法双语语料、日韩双语语料等。

进一步地，通过使用本发明实施方式的用于扩充语料的方法获得的扩充语料，不仅可以适用于对机器翻译模型的训练中，还可以适用于例如对语法纠错模型的训练中。

示例性方法

下面参考图2来描述根据本发明示例性实施方式的用于扩充语料的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

如图2所示，用于扩充语料的方法200可以包括：在步骤201中，可以将平行语料中的源端文本与相应的目标端文本连接。源端文本与相应的目标端文本可以为平行语料中相互释义的对照文本对。这里的相应的可以理解为能够相互释义的。源端文本和相应的目标端文本可以为不同语种的文本，其中源端文本可以选自英语、法语、德语、西班牙语、汉语、日语、韩语等中任一语种的文本：目标端文本可以选自汉语、英语、法语、德语、西班牙语、日语、韩语等中不同于源端文本的语种的文本。

上文中所述的连接可以包括直接连接或者间接连接。例如，在一些实施例中，可以使用预设标记将源端文本与相应的目标端文本进行连接。预设标记既可以起到连接的作用，使得源端文本与相应的目标端文本串联起来，也可以起到分隔的作用，以便掩码预测模型能够对源端文本和相应的目标端文本进行区分和识别。预设标记可以包括字符、符号等形式。

接着，在步骤202中，可以在连接之前或者连接之后，对源端文本和/或目标端文本进行遮蔽处理，以生成包含遮蔽词的连接文本。对源端文本和/或目标端文本进行遮蔽处理可以包括仅对源端文本进行遮蔽处理，或者仅对目标端文本进行遮蔽处理，或者对源端文本和目标端文本均进行遮蔽处理。遮蔽处理可以包括对源端文本中的一个或者多个源端词和/或目标端文本中的一个或者多个目标端词进行掩盖，例如可以使用特定符号或者特定单词等对该一个或者多个源端词和/或目标端词进行替换以实现掩盖。掩盖后得到的词即为遮蔽词。

上文中所述的连接文本中可以包括一个遮蔽词或者多个遮蔽词。在一些实施例中，进行遮蔽处理的源端词和/或目标端词可以是随机选取的。在另一些实施例中，进行遮蔽处理的源端词和/或目标端词可以是依序选取的，例如可以按照源端文本中各源端词的顺序，和/或按照目标端文本中各目标端词的顺序，依次进行遮蔽处理，每次遮蔽处理可以生成一个连接文本，多次遮蔽处理可以生成多个连接文本。

在本发明的另一个实施例中，在对源端文本和/或目标端文本进行遮蔽处理时，遮蔽词的选取数量可以满足以下条件中的至少一项：源端文本中的遮蔽词的数量占源端文本中所有词的数量的比例小于第一预设阈值；目标端文本中的遮蔽词的数量占目标端文本中所有词的数量的比例小于第二预设阈值；以及连接文本中的遮蔽词的数量占连接文本中所有词的数量的比例小于第三预设阈值。第一预设阈值、第二预设阈值和第三预设阈值可以根据需要进行设置。在一些实施例中，第一预设阈值或者第二预设阈值可以为15％。在另一些实施例中，第三预设阈值可以为15％～30％。第一预设阈值、第二预设阈值和第三预设阈值的设置可以对遮蔽词的数量形成限制，以避免在一个连接文本中包含过多的遮蔽词而导致预测准确率降低的情况发生。

在本发明的又一个实施例中，在对源端文本和目标端文本均进行遮蔽处理时，可以使得源端文本中的遮蔽词和目标端文本中的遮蔽词为非平行语料。这里的非平行语料是指源端文本中的遮蔽词与目标端文本中的遮蔽词不能选自互为释义位置的词。根据这样的设置，可以保证源端文本中的遮蔽词在目标端文本中具有相应的释义，以及目标端文本中的遮蔽词在源端文本中也具有相应的释义，以保证对遮蔽词进行预测具有可靠的预测依据，使得扩充后的语料能够与扩充前的语料保持语义的一致性。

然后，如图中进一步示出的，流程可以前进到步骤203中，可以基于掩码预测模型对连接文本进行预测，以获得遮蔽词的预测分布，其中预测分布可以用于扩充平行语料。基于掩码预测模型对连接文本进行预测可以是将连接文本输入到掩码预测模型中进行预测。在一些实施例中，掩码预测模型可以包括条件掩码语言模型(“Conditional MaskedLanguage Model”，可以简写为CMLM)，其可以与掩码语言模型具有相同或者相似的结构。条件掩码语言模型与掩码语言模型的区别在于，条件掩码语言模型经过训练和学习，可以对连接文本进行处理。

上文中所述的遮蔽词的预测分布可以包括遮蔽词的概率分布，即与遮蔽词对应的一个或者多个预测词的概率。概率分布可以用于表征预测词与遮蔽词位置对应的源端词和/或目标端词的近似度。在一些应用场景中，可以根据预测词的概率选取一个或者多个预测词来代替遮蔽词，以形成新的平行语料，从而实现对原平行语料的扩充。

以上结合图2对根据本发明实施方式的用于扩充语料的方法进行了示例性的描述，图示中所示的步骤执行顺序是示例性的而非限制性的，例如步骤202可以不限于图示中的在步骤201之后执行，当在连接之前进行遮蔽处理时，步骤202可以在步骤201之前执行。为了便于理解预测分布的获得过程，下面将结合图3进行说明。

图3示意性地示出了根据本发明实施例的基于掩码预测模型对连接文本进行预测的过程示意图。通过下面的描述可以看出，图3中所示的过程可以是前文中结合图2所示步骤203的一个形象化表现形式，因此前文中结合图2的描述也可以适用于对图3的描述。

如图3中所示，x₁、x₂、x₃、x₄…x_n表示源端文本中的源端词；y₁、y₂…y_n表示目标端文本中的目标端词。示例性地，对源端文本中的x₂和x₄进行遮蔽处理，并将源端文本和目标端文本进行连接可以生成包含遮蔽词(例如图示中的[MASK])的连接文本310(虚线框内示出)，其中源端文本和目标端文本之间可以通过预设标记(例如图示中的[SEP])311进行连接。接着，可以将连接文本310输入掩码预测模型320中，以对遮蔽词[MASK]位置处的源端词进行预测，可以获得例如图示中两个遮蔽词[MASK]的预测分布P(x₂)和P(x₄)。

可以理解的是，图3中所示是示例性的而非限制性的，例如可以不限于图示中的仅对源端文本进行遮蔽处理，在另一些实施例中，可以仅对目标端文本进行遮蔽处理，基于掩码预测模型可以获得遮蔽词位置处的目标端词的预测分布。在又一些实施例中，可以对源端文本和目标端文本均进行遮蔽处理，基于掩码预测模型可以获得遮蔽词位置处的源端词和目标端词的预测分布。还例如，掩码预测模型可以不限于图示中的仅输出遮蔽词的预测分布，在再一些实施例中，也可以输出未遮蔽的词，以生成包含预测分布的源端文本、或者目标端文本、或者连接文本。

进一步地，为了获得更好的预测分布以及提高掩码预测模型的性能，在一些实施例中，可以在基于掩码预测模型对连接文本进行预测之前，对第一预测模型进行训练，以得到掩码预测模型。下面将结合图4进行示例性的描述。

图4示意性地示出了根据本发明实施例的得到掩码预测模型的方法流程图。如图4中所示，方法400可以包括：在步骤401中，可以获取用于翻译训练的原始训练语料，其中原始训练语料可以包括源端训练样本和目标端训练样本。原始训练语料可以是用于对现有翻译模型进行训练的已知语料。源端训练样本和目标端训练样本可以为不同语种互为释义的平行语料。

接着，在步骤402中，可以将源端训练样本和目标端训练样本连接。步骤402的连接方式与前文中结合图2的步骤201描述的连接方式相同或者相似，此处不再赘述。

然后，流程可以前进到步骤403中，可以在连接之前或者连接之后，对源端训练样本和/或目标端训练样本中的部分原始词进行遮蔽处理，以生成包含遮蔽样本词的连接训练样本。原始词是源端训练样本和/或目标端训练样本中原本存在的词。部分原始词可以包括一个原始词或者多个原始词。对原始词进行遮蔽处理后得到的词即为遮蔽样本词。遮蔽处理的方法与前文中结合图2的步骤202描述的相同或者相似，此处不再赘述。

如图4中进一步示出的，在步骤404中，可以利用连接训练样本以及与遮蔽样本词相应的原始词，对第一预测模型进行训练，以得到掩码预测模型。与遮蔽样本词相应的原始词为遮蔽样本词所在位置上的原始词。在一些实施例中，可以将连接训练样本输入第一预测模型，并将与遮蔽样本词相应的原始词作为对第一预测模型进行训练的监督信号。在另一些实施例中，可以使用遮蔽处理之前的源端训练样本和/或目标端训练样本作为对第一预测模型进行训练的监督信号。

在又一些实施例中，第一预测模型可以是基于掩码语言模型构建的。第一预测模型可以包括条件掩码语言模型。通过使用连接训练样本以及与遮蔽样本词相应的原始词训练第一预测模型，可以不断优化第一预测模型的参数和权值。步骤404中对第一预测模型进行训练后可以得到训练后的第一预测模型，并可以将训练后的第一预测模型称为掩码预测模型。

以上结合图4对根据本发明实施例的对第一预测模型进行训练的方法进行了描述，可以理解的是，通过利用连接训练样本对第一预测模型进行训练，可以训练第一预测模型学习对连接训练样本中的源端训练样本和目标端训练样本进行双向考虑。在另一些实施例中，可以使用预设标记将源端训练样本和目标端训练样本进行连接，以生成包含预设标记的连接训练样本，利用这样的连接训练样本对第一预测模型进行训练，可以使得第一预测模型学习预设标记的含义，以便第一预测模型能够识别出预设标记连接的是相互释义的两个文本。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的用于扩充语料的设备进行描述。

图5示意性地示出了根据本发明实施例的用于扩充语料的设备的示意图。如图5中所示，用于扩充语料的设备500可以包括：连接装置501，其可以配置用于将平行语料中的源端文本与相应的目标端文本连接，以生成包含遮蔽词的连接文本；遮蔽装置502，其可以配置用于在连接之前或者连接之后，对源端文本和/或目标端文本进行遮蔽处理；以及预测装置503，其可以配置用于基于掩码预测模型对连接文本进行预测，以获得遮蔽词的预测分布，其中预测分布用于扩充平行语料。

在本发明的一个实施例中，连接装置501还可以配置用于：使用预设标记将源端文本与相应的目标端文本进行连接。

在本发明的另一个实施例中，遮蔽装置502还可以配置用于，对遮蔽词的选取数量满足以下条件中的至少一项：源端文本中的遮蔽词的数量占源端文本中所有词的数量的比例小于第一预设阈值；目标端文本中的遮蔽词的数量占目标端文本中所有词的数量的比例小于第二预设阈值；以及连接文本中的遮蔽词的数量占连接文本中所有词的数量的比例小于第三预设阈值。

在本发明的又一个实施例中，该设备500还可以包括第一训练装置，其可以配置用于：获取用于翻译训练的原始训练语料，其中原始训练语料包括源端训练样本和目标端训练样本；将源端训练样本和目标端训练样本连接；在连接之前或者连接之后，对源端训练样本和/或目标端训练样本中的部分原始词进行遮蔽处理，以生成包含遮蔽样本词的连接训练样本；以及利用连接训练样本以及与遮蔽样本词相应的原始词，对第一预测模型进行训练，以得到掩码预测模型。

可以理解的是，图5所示的设备500的功能已经在前文中结合图2-图4所示的方法进行了详细的描述和解释，此处不再赘述。

示例性训练方法

在介绍了本发明示例性实施方式的用于扩充语料的方法和设备之后，接下来，参考图6对本发明示例性实施方式的训练方法进行描述。

图6示意性地示出了根据本发明实施例的用于机器翻译模型的训练方法流程图。如图6中所示，用于机器翻译模型的训练方法600可以包括：在步骤601中，可以根据利用前文中结合图2-图4中任一所述的方法获得的遮蔽词的预测分布，确定遮蔽词对应的一个或多个采样词。每个遮蔽词的预测分布中可以包括一个或者多个预测词的概率，采样词可以从该预测分布中的预测词中选取。在一个实施例中，遮蔽词的预测分布仅包括一个预测词的概率，则可以选取该一个预测词作为遮蔽词对应的采样词。在另一些实施例中，遮蔽词的预测分布中可以包括多个预测词的概率，则可以从该多个预测词中选取一个或者多个作为采样词，选取的原则可以包括在多个预测词中随机选取，或者根据多个预测词的概率大小进行选取。例如，可以在多个预测词中选取概率较大的一个或者多个作为采样词。

接着，在步骤602中，可以将一个或多个采样词代替遮蔽词在平行语料中的位置，以形成平行训练语料。在平行语料中，未遮蔽的词的位置保持不变，遮蔽词的位置上可以使用一个或者多个采样词进行代替，以形成包括采样词的平行训练语料。

在本发明的一个实施例中，将一个或多个采样词代替遮蔽词在平行语料中的位置，可以包括：将一个采样词对应词向量代替遮蔽词在平行语料中的位置；或者将多个采样词对应词向量的加权平均值代替遮蔽词在平行语料中的位置。本文中所述的词向量可以是字词(或短语)被映射到实数的向量，其涉及从字词的一维空间到具有更低维度的连续向量空间的数学嵌入。在一些实施例中，可以通过在包括字词及其对应的向量的词表数据库中查询，来获得字词(例如本文中的采样词)对应的词向量。在另一些实施例中，多个采样词对应词向量的加权平均值可以通过如下方式获得：根据多个采样词的概率，确定多个采样词对应词向量的权重；以及根据多个采样词对应词向量的权重，对多个采样词对应词向量进行加权平均运算。

然后，流程可以前进到步骤603中，可以利用平行训练语料对机器翻译模型进行训练。在步骤603中，可以将平行训练语料中未遮蔽的词对应的词向量直接输入机器翻译模型中，遮蔽词的位置可以使用步骤602中所述的采样词对应词向量或者多个词向量的加权平均值进行输入。在一些实施例中，机器翻译模型可以采用神经机器翻译模型。常用的神经机器翻译模型的网络结构可以包括编码器和解码器，其中编码器用于将输入的一种语言的文本转换为一系列能够表达输入文本特征的上下文向量，解码器用于接收编码器的输出结果，并输出对应的另一种语言的文本序列。

为了能够更好的理解根据本发明实施例的用于机器翻译模型的训练方法，下面将结合图7所示的形象化训练过程进行进一步地示例性描述。

图7示意性地示出了根据本发明实施例的用于机器翻译模型的训练方法的过程示意图。通过下面的描述可知，图7所示过程是前文中结合图6所述的训练方法的一个形象化表现形式，因此前文中结合图6描述的方法600也可以适用于对图7的描述中。

如图7中所示，x₁、x₂、x₃、x₄…x_n表示源端文本中的源端词；y₁、y₂…y_n表示目标端文本中的目标端词。示例性地，对源端文本中的x₂和x₄进行遮蔽处理，并将源端文本和目标端文本进行连接可以生成包含遮蔽词(例如图示中的[MASK])的连接文本710(虚线框内示出)，其中源端文本和目标端文本之间可以通过预设标记(例如图示中的[SEP])711进行连接。接着，可以将连接文本710输入掩码预测模型720，以对遮蔽词[MASK]位置处的源端词进行预测，可以获得例如图示中两个遮蔽词[MASK]的预测分布P(x₂)和P(x₄)。

如图7中进一步示出的，在对机器翻译模型进行训练时，可以将源端文本中未遮蔽的词或者对应词向量直接输入嵌入层(“Embedding”)730，而对于源端文本中的遮蔽词，可以根据遮蔽词的预测分布P(x₂)和P(x₄)，将确定的采样词或者采样词对应词向量输入图示中的嵌入层730。嵌入层730可以用于将离散变量转为连续向量表示。然后，经过嵌入层730处理后的词向量序列可以输入到机器翻译模型的编码器740中进行编码操作以及机器翻译模型的其他后续操作(图中未示出)。在本实施例中，平行训练语料由包含采样词(或者采样词对应词向量)的源端文本和不包含遮蔽词的目标端文本组成，其中不包含遮蔽词的目标端文本可以作为对机器翻译模型进行训练的监督信号。

需要说明的是，图7中以对源端文本进行遮蔽处理获得扩充语料为例进行训练过程的展示，本领域技术人员可以理解，利用对目标端文本进行遮蔽处理、或者对源端文本和目标端文本均进行遮蔽处理获得的扩充语料(即本文中的平行训练语料)进行训练的过程也是类似的，此处不再赘述。

示例性训练设备

在介绍了本发明示例性实施方式的训练方法之后，接下来，参考图8对本发明示例性实施方式的用于机器翻译模型的训练设备进行描述。

图8示意性地示出了根据本发明实施例的用于机器翻译模型的训练设备的示意图。如图8中所示，用于机器翻译模型的训练设备800，可以包括：采样装置801，其可以配置用于根据利用本发明实施方式的第一方面中任一所述的方法获得的遮蔽词的预测分布，确定遮蔽词对应的一个或多个采样词；语料形成装置802，其可以配置用于将一个或多个采样词代替遮蔽词在平行语料中的位置，以形成平行训练语料；以及第二训练装置803，其可以配置用于利用平行训练语料对机器翻译模型进行训练。

在本发明的一个实施例中，语料形成装置802还可以配置用于：将一个采样词对应词向量代替遮蔽词在平行语料中的位置；或者将多个采样词对应词向量的加权平均值代替遮蔽词在平行训练语料中的位置。

可以理解的是，图8所示的训练设备800的功能已经在前文中结合图6和图7所示的训练方法进行了详细的描述和解释，此处不再赘述。

通过上面对根据本发明的用于扩充语料的方法和用于机器翻译模型的训练方法的技术方案及其多个实施例的描述，可以理解的是，根据本发明实施方式的用于扩充语料的方法，可以通过将包含遮蔽词的连接文本输入到掩码预测模型中进行预测，使得获得的遮蔽词的预测分布能够更接近于遮蔽词遮蔽前的词义，从而可以保证扩充后的平行训练语料能够保持语料的双向连贯性以及完整且正确的语义语法结构等，以有效解决传统数据扩充方法可能存在的扩充语料的上下文无关、语法结构被破坏以及源端和目标端意思不一致等问题。

进一步地，根据本发明实施方式的用于机器翻译模型的训练方法，可以通过引入本发明实施例的用于扩充语料的方法，不仅能够增加训练语料的数量，还能够有效保证扩充的训练语料的质量，因此利用连接文本扩充的语料对机器翻译模型进行训练，有利于提升机器翻译模型的性能和翻译质量。

在一些实施例中，在对机器翻译模型进行训练时，可以将多个采样词对应词向量的加权平均值代替遮蔽词在平行语料中的位置，这样的设置可以无需确定具体的某个采样词，而使用加权平均值能够兼顾多个采样词的概率分布，既能够避免采样到概率较小的采样词可能影响扩充语料质量，又能够避免采样词为遮蔽词对应的原始词的情况出现，因此本实施例提供了一种新的语料扩充方式，并且在一些应用场景中，能够获得与原始词更高的近似度，以进一步提高扩充的训练语料的质量。

应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于扩充语料的方法，包括：

将平行语料中的源端文本与相应的目标端文本连接；

在连接之前或者连接之后，对所述源端文本和/或所述目标端文本进行遮蔽处理，以生成包含遮蔽词的连接文本；以及

基于掩码预测模型对所述连接文本进行预测，以获得所述遮蔽词的预测分布，其中所述预测分布用于扩充所述平行语料。

2.根据权利要求1所述的方法，其中将源端文本与相应的目标端文本连接，包括：

使用预设标记将所述源端文本与相应的所述目标端文本进行连接。

3.根据权利要求1所述的方法，其中在对所述源端文本和/或所述目标端文本进行遮蔽处理时，所述遮蔽词的选取数量满足以下条件中的至少一项：

所述源端文本中的遮蔽词的数量占所述源端文本中所有词的数量的比例小于第一预设阈值；

所述目标端文本中的遮蔽词的数量占所述目标端文本中所有词的数量的比例小于第二预设阈值；以及

所述连接文本中的遮蔽词的数量占所述连接文本中所有词的数量的比例小于第三预设阈值。

4.根据权利要求1所述的方法，其中，在基于掩码预测模型对所述连接文本进行预测之前，所述方法还包括：

获取用于翻译训练的原始训练语料，其中所述原始训练语料包括源端训练样本和目标端训练样本；

将所述源端训练样本和所述目标端训练样本连接；

在连接之前或者连接之后，对所述源端训练样本和/或所述目标端训练样本中的部分原始词进行遮蔽处理，以生成包含遮蔽样本词的连接训练样本；以及

利用所述连接训练样本以及与所述遮蔽样本词相应的所述原始词，对第一预测模型进行训练，以得到所述掩码预测模型。

5.一种用于扩充语料的设备，包括：

连接装置，其配置用于将平行语料中的源端文本与相应的目标端文本连接，以生成包含遮蔽词的连接文本；

遮蔽装置，其配置用于在连接之前或者连接之后，对所述源端文本和/或所述目标端文本进行遮蔽处理；以及

预测装置，其配置用于基于掩码预测模型对所述连接文本进行预测，以获得所述遮蔽词的预测分布，其中所述预测分布用于扩充所述平行语料。

6.根据权利要求5所述的设备，其中所述连接装置还配置用于：

7.根据权利要求5所述的设备，其中所述遮蔽装置还配置用于，对所述遮蔽词的选取数量满足以下条件中的至少一项：

8.根据权利要求5所述的设备，还包括第一训练装置，其配置用于：

将所述源端训练样本和所述目标端训练样本连接；

9.一种用于机器翻译模型的训练方法，包括：

根据利用权利要求1-4任一所述的方法获得的遮蔽词的预测分布，确定所述遮蔽词对应的一个或多个采样词；

将所述一个或多个采样词代替所述遮蔽词在平行语料中的位置，以形成平行训练语料；以及

利用所述平行训练语料对所述机器翻译模型进行训练。

10.根据权利要求9所述的训练方法，其中将所述一个或多个采样词代替所述遮蔽词在平行语料中的位置，包括：

将一个采样词对应词向量代替所述遮蔽词在所述平行语料中的位置；或者

将多个采样词对应词向量的加权平均值代替所述遮蔽词在所述平行语料中的位置。

11.一种用于机器翻译模型的训练设备，包括：

采样装置，其配置用于根据利用权利要求1-4任一所述的方法获得的遮蔽词的预测分布，确定所述遮蔽词对应的一个或多个采样词；

语料形成装置，其配置用于将所述一个或多个采样词代替所述遮蔽词在平行语料中的位置，以形成平行训练语料；以及

第二训练装置，其配置用于利用所述平行训练语料对所述机器翻译模型进行训练。

12.根据权利要求11所述的训练设备，其中所述语料形成装置还配置用于：

13.一种电子设备，包括，

至少一个处理器；

存储器，其存储有程序指令，当所述程序指令由所述至少一个处理器执行时，使得所述电子设备执行根据权利要求1-4的任一项和/或权利要求9-10的任一项所述的方法。

14.一种计算机可读存储介质，其存储有用于扩充语料的程序和/或用于机器翻译模型的训练的程序，当所述程序由处理器来运行时，执行根据权利要求1-4的任一项和/或权利要求9-10的任一项所述的方法。