CN114742076A

CN114742076A - 用于生成训练数据的方法、训练方法、设备及存储介质

Info

Publication number: CN114742076A
Application number: CN202210375048.5A
Authority: CN
Inventors: 曹明宇; 程桥; 黄瑾; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-12

Abstract

本发明的实施方式提供了一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。该方法包括：对源平行数据中的第一语种数据进行第一加噪处理，以生成与第一语种数据相关的加噪数据；基于源平行数据中的第二语种数据和加噪数据，生成用于翻译训练的加噪平行数据；和/或基于第一语种数据和加噪数据，生成用于纠错训练的纠错数据对。根据本发明实施方式的用于生成训练数据的方法，可以使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量，和/或使得利用该纠错数据对进行训练的纠错模型能够提高纠错质量。

Description

用于生成训练数据的方法、训练方法、设备及存储介质

技术领域

本发明的实施方式涉及数据处理技术领域，更具体地，本发明的实施方式涉及一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

机器翻译是由机器自动实施的将一种语言翻译为另一种语言的翻译方式。相比于人工翻译，机器翻译具有实时性高以及成本低等优势。目前机器翻译技术已经进入神经机器翻译时代，利用人工智能技术使得机器翻译的质量得到了大幅度的提升。然而，现有的翻译模型对待翻译句子中的噪音异常敏感，例如当待翻译句子中存在拼写、空格等错误时，翻译模型的翻译结果中会出现错译、漏译等问题，从而极大的影响了翻译模型的翻译质量。

目前的纠错模型通常是在翻译模型的基础上训练得到的，而训练纠错模型所需的训练数据的来源较少且较难获得，使得现有的纠错模型的训练效果具有局限性。

发明内容

鉴于上面所提到的技术问题，本发明的实施方式期望提供一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。

在本发明实施方式的第一方面中，提供一种用于生成训练数据的方法，包括：对源平行数据中的第一语种数据进行第一加噪处理，以生成与所述第一语种数据相关的加噪数据；基于所述源平行数据中的第二语种数据和所述加噪数据，生成用于翻译训练的加噪平行数据；和/或基于所述第一语种数据和所述加噪数据，生成用于纠错训练的纠错数据对。

在本发明的一个实施例中，进行第一加噪处理以生成加噪数据包括：基于所述第一语种数据，生成以所述第一语种数据为内容的图片；以及对所述图片进行文本识别，以得到所述加噪数据。

在本发明的另一个实施例中，在生成所述图片中，所述方法还包括以下中的至少一项操作：设置第一语种数据的字体；设置第一语种数据的倾斜角度；设置第一语种数据的书写方式；设置图片的背景颜色；设置图片的背景图案；设置图片的亮度；设置图片的清晰度；以及设置图片的旋转角度。

在本发明的又一个实施例中，进行第一加噪处理以生成加噪数据包括：基于所述第一语种数据，合成所述第一语种数据的语音；以及对所述语音进行语音识别，以得到所述加噪数据。

在本发明的再一个实施例中，进行第一加噪处理以生成加噪数据包括：对所述第一语种数据进行子词化切分，以获得包括所述第一语种数据中全部子词的子词集合；以及对所述第一语种数据中的一个或多个子词进行第二加噪处理，以得到所述加噪数据。

在本发明的一个实施例中，所述第二加噪处理包括以下中的至少一项：删除所述第一语种数据中的一个或多个子词；将所述第一语种数据中的一个或多个子词替换为所述子词集合中的一个或多个其他子词；以及将所述子词集合中的一个或多个子词插入到所述第一语种数据中的任意位置。

在本发明实施方式的第二方面中，提供一种用于翻译模型的训练方法，包括：利用根据本发明实施方式的第一方面中任一所述的方法生成的加噪平行数据，对所述翻译模型进行训练。

在本发明的一个实施例中，还包括：还利用所述加噪平行数据进行第一加噪处理之前的源平行数据，对所述翻译模型进行训练。

在本发明实施方式的第三方面中，提供一种用于纠错模型的训练方法，包括：利用根据本发明实施方式的第一方面中任一所述的方法生成的纠错数据对，对所述纠错模型进行训练。

在本发明实施方式的第四方面中，提供一种用于生成训练数据的设备，包括，至少一个处理器；存储器，其存储有程序指令，当所述程序指令由所述至少一个处理器执行时，使得所述设备执行根据本发明实施方式的第一方面中的任一项所述的方法。

在本发明实施方式的第五方面中，提供一种计算机可读存储介质，其存储有用于生成训练数据的程序，当所述程序由处理器来运行时，执行根据本发明实施方式的第一方面中的任一项所述的方法。

根据本发明实施方式的用于生成训练数据的方法，可以通过对源平行数据中的第一语种数据进行第一加噪处理以生成加噪数据，以及可以基于源平行数据中的第二语种数据和加噪数据，生成能够用于翻译训练的加噪平行数据，从而使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量。另外，根据本发明实施方式的方法生成加噪数据后，还可以基于第一语种数据和加噪数据生成纠错数据对，从而有利于实现对纠错模型的纠错训练。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性系统100的框图；

图2是示出噪音影响NMT模型翻译结果的示例图；

图3示意性地示出了根据本发明实施例的用于生成训练数据的方法流程图；

图4示意性地示出了根据本发明一个实施例的进行第一加噪处理以生成加噪数据的方法流程图；

图5示意性地示出了根据本发明另一个实施例的生成加噪数据的方法流程图；以及

图6示意性地示出了根据本发明又一个实施例的生成加噪数据的方法流程图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性系统100的框图。如图1所示，系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备_。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。

在本文中，需要理解的是，所涉及的术语包括如下：

MT：Machine Translation，机器翻译，是利用计算机将一种自然语言转换为另一种自然语言的过程。

NMT：Neural Machine Translation，神经机器翻译，是基于神经网络的机器翻译，是目前MT领域的主流方法。

ASR：Automatic Speech Recognition，自动语音识别技术，可以把语音转换成文本。

OCR：Optical Character Recognition，光学字符识别技术，可以从图像中自动识别出文本。

噪音：是指句子中的单词存在拼写错误、空格错误等问题。

错译：指NMT模型翻译出的译文中，存在对原句部分词汇翻译错误的情况。

漏译：指NMT模型翻译出的译文中，存在漏掉原句部分词汇的情况。

鲁棒性：Robustness，又可以称之为健壮性，本文中可以理解为模型适应不同场景的能力。

真实纠错语料，是将人们日常生活中真实发生的语言错误进行标注而生成的文本对。

平行数据，为多个语种的相互释义的对照语料，即语义一致但语言不同的句子对或者词语对，例如中英平行数据可以包括汉语的文本及其英语的释义文本。

数据对，具有一定对应关系的多个文本数据形成的文本数据组合或者文本数据集。

BPE-dropout，Byte Pair Encoding-dropout，是一种基于BPE的子词正则化方法,其可以对特定词进行多次分割。

BPE，Byte Pair Encoding，是一种将单词拆分为子词的技术。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，以NMT模型为例，NMT模型的开发和使用可以概括为“训练→推理”两个阶段。在训练阶段，可以使用平行双语数据(例如英语→中文)，即语义一致但语言不同的句子对，计算得到NMT模型的参数；在推理阶段，可以将例如英文句子输入进NMT模型中，NMT模型会输出相应的中文译文。NMT模型在翻译待翻译句子前，会先对待翻译句子进行子词化切分，然后基于切分后的每个子词进行翻译。为了便于说明噪音对NMT模型的翻译结果的影响，下面将结合图2进行示例性的说明。

图2是示出噪音影响NMT模型翻译结果的示例图。如图2中所示，正确的原文句子中的单词“blueberry”可能被错误的识别为“bluerry”，从而形成包含噪音的句子。相比较而言，在经过NMT模型的切分处理后，原文句子中的单词“blueberry”可以被切分为“blue@@berry”，然而包含噪音的句子中的“bluerry”则可能被切分为“blu@@er@@ry”，其中@@用于表示切分符或者切分边界。基于此，NMT模型对于原文句子中单词“blueberry”的翻译结果为“蓝莓”，而由于NMT模型没有对切分“blu@@er@@ry”进行过学习，因此对于包含噪音的句子中“bluerry”的翻译结果为“模糊的灌木丛”。

本发明人还发现，可以利用BPE-dropout技术改变特定单词的切分位置，以使翻译模型能够学习到一些包含噪音的单词的子词。以图2中所示的原文句子中的单词“blueberry”为例，正确的切分方式为“blue@@berry”，利用BPE-dropout技术可以将其切分为例如“blu@@e@@ber@@ry”，这样的切分结果与“blu@@er@@ry”之间存在两个相同的子词(即“blu”和“ry”)，从而使得翻译模型能够在训练阶段学习到这两个子词，进而能够提高翻译模型在推理阶段将“bluerry”也翻译成“蓝莓”的概率。

然而，这样的方式虽然能够在翻译模型的训练阶段模拟一些噪音，但是这样的噪音的分布是随机的且受限于词汇本身。例如，由于利用BPE-dropout技术仅能够改变单词的切分方式，而不能改变单词本身，因此利用BPE-dropout方法也可能将单词“blueberry”切分为“bl@@ue@@be@@rry”，从而与“blu@@er@@ry”之间不存在任何相同的子词。这样的情况下就会使得翻译模型无法学习到“blu@@er@@ry”中的子词，从而不能在推理阶段将“bluerry”翻译为“蓝莓”。

还例如，在实际的应用场景下，很多待翻译的句子是由OCR图像识别、ASR语音识别等途径得到，这些句子中的噪音是具有一定规律或者是具有一定概率分布的。举个简单例子，当使用OCR来识别图像中的文本时，字母l和字母h的形态上更加相似，容易导致混淆，而字母l和字母z的形态上差别较大，从而易于区分。因此，在一个应用场景中，单词apple更有可能被错误地识别为apphe而不是appze。BPE-dropout方法中的随机噪音与实际场景中具有概率分布的噪音不一致，因此利用BPE-dropout方法对翻译模型进行训练时，其对于带噪音句子翻译质量的提升具有局限性。

基于以上发明人的发现，本发明期望提供一种能够增加训练数据本身的噪音的方法，以用于翻译训练和/或纠错训练，从而提高翻译模型和/或训练模型的鲁棒性。在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图3来描述根据本发明示例性实施方式的用于生成训练数据的方法。

图3示意性地示出了根据本发明实施例的用于生成训练数据的方法流程图。如图3中所示，方法300可以包括：在步骤310中，可以对源平行数据中的第一语种数据进行第一加噪处理，以生成与第一语种数据相关的加噪数据。源平行数据可以包括至少两个语种互为释义的数据对。在一些应用场景中，源平行数据可以从网络中抓取或者从数据库中获取。在一些实施例中，源平行数据为正确的语料数据，即不包含噪音的语料数据。在另一些实施例中，源平行数据可以包括互为释义的词语对或者互为释义的句子对等。在又一些实施例中，源平行数据可以包括一组或者多组平行的数据对。

在一些实施例中，源平行数据可以包括一组或多组由第一语种数据和第二语种数据组成的数据对，并且第一语种数据和第二语种数据可以是不同语种但具有相同语义。在另一些实施例中，第一语种数据可以为以下任一语种的数据：英语、法语、德语、西班牙语、汉语、日语、韩语等；第二语种数据可以为以下任一语种的数据：汉语、英语、法语、德语、西班牙语、日语、韩语等。在又一些实施例中，本文中所述的数据可以包括文本数据。

在一些实施例中，第一加噪处理可以包括对第一语种数据中的部分或者全部词语(或单词)进行加噪处理。在另一些实施例中，第一加噪处理可以包括对第一语种数据中的部分数据进行删除、替换或者添加新数据(例如文本数据或者空格数据等)等操作。由于第一加噪处理是针对第一语种数据本身进行的，因此加噪数据与第一语种数据的语言种类相同，并且生成的加噪数据与第一语种数据之间具有对应关系，从而能够保持加噪数据的整体语义与第一语种数据的语义的一致性。

在一些实施例中，对第一语种数据进行第一加噪处理，可以获得相应的一个加噪数据。在另一些实施例中，通过对第一语种数据进行多次第一加噪处理，或者对第一语种数据中的不同词语分别进行第一加噪处理，或者通过采用第一加噪处理中的不同加噪方式来分别对第一语种数据进行处理，可以得到与第一语种数据相关的多个加噪数据。

接着，在步骤320中，可以基于源平行数据中的第二语种数据和加噪数据，生成用于翻译训练的加噪平行数据。由于加噪数据与第一语种数据相关，可以利用第一语种数据与第二语种数据之间的对应关系，生成包含加噪数据和第二语种数据的加噪平行数据。在一些实施例中，当步骤310中生成与第一语种数据相关的一个加噪数据时，在步骤320中可以生成一组加噪平行数据。在另一些实施例中，当步骤310中生成与第一语种数据相关的多个加噪数据时，在步骤320中可以基于多个加噪数据和第二语种数据，生成多组加噪平行数据。

如图3中进一步示出的，在步骤330中，可以基于第一语种数据和加噪数据，生成用于纠错训练的纠错数据对。由于第一语种数据为正确的语料，与第一语种数据相关的加噪数据为具有噪音的语料，因此可以利用第一语种数据与加噪数据之间的相关性(例如第一语种数据中的词语与加噪数据中的词语之间的对应关系)，生成包含第一语种数据和加噪数据的纠错数据对。

在一些实施例中，当步骤310中生成与第一语种数据相关的一个加噪数据时，在步骤330中可以生成一组纠错数据对。在另一些实施例中，当步骤310中生成与第一语种数据相关的多个加噪数据时，在步骤330中可以基于多个加噪数据和第一语种数据，生成多组纠错数据对。

由于源平行数据较易获得，而真实纠错语料较难获得，因此根据本发明实施例的纠错数据对的生成方式，可以基于大量的源平行语料生成大量的纠错数据对，从而能够弥补现有技术中真实纠错语料数量不足的缺陷，有利于提高纠错训练的数据量以及训练效果。

以上结合图3对根据本发明实施例的用于生成训练数据的方法进行了示例性的描述，可以理解的是，基于步骤310生成加噪数据之后，可以选择性的执行步骤320或者步骤330，也可以根据需要既执行步骤320也执行步骤330。还可以理解的是，上面的描述是示例性的而非限制性地，例如第一加噪处理可以不限于上面描述的删除、替换或者添加新数据，还可以通过转换数据格式来实现第一加噪处理。下面将结合图4对根据本发明实施例的一种第一加噪处理的实现方式进行示例性的描述。

图4示意性地示出了根据本发明一个实施例的进行第一加噪处理以生成加噪数据的方法流程图。通过下面的描述可知，方法400可以是前文中结合图3描述的步骤310的一个具体化表现形式，因此前文中结合图3对步骤310的描述也可以适用于下面对方法400的描述中。

如图4中所示，方法400可以包括：在步骤410中，可以基于第一语种数据，生成以第一语种数据为内容的图片。在一些应用场景中，第一语种数据可以包括第一语种的句子文本，可以以该句子文本为内容直接生成图片。在一些实施例中，第一语种数据可以根据需要设置于图片中的任何位置，只需生成的图片中能够呈现出第一语种数据的文本内容即可。

在本发明的另一个实施例中，在生成图片中，方法400还可以包括以下中的至少一项操作：设置第一语种数据的字体；设置第一语种数据的倾斜角度；设置第一语种数据的书写方式；设置图片的背景颜色；设置图片的背景图案；设置图片的亮度；设置图片的清晰度；以及设置图片的旋转角度。

通过设置第一语种数据的字体，有利于增加因字体不同而可能产生的噪音。设置第一语种数据的倾斜角度可以包括设置第一语种数据整体的倾斜角度，也可以包括设置第一语种数据中部分文本数据的倾斜角度。例如，假设第一语种数据包括“apple”，可以将“apple”整体设置为倾斜，也可以仅将“apple”中的“a”设置为倾斜。在一些实施例中，当设置第一语种数据整体的倾斜角度为180°时，则第一语种数据呈现为倒置状态。通过设置第一语种数据的倾斜角度，有利于增加因文本倾斜角度不同而可能产生的噪音。

在一些实施例中，第一语种数据的书写方式可以包括手写、打印等方式中的至少一种。通过设置第一语种数据的书写方式，可以有利于增加因手写等书写方式可能产生的噪音。通过设置图片的背景颜色和/或背景图案，有利于增加图片背景可能对文本识别结果产生的噪音。通过设置图片的亮度、清晰度和/或旋转角度等，可以有利于增加图片整体质量对文本识别结果可能产生的噪音。

接着，在步骤420中，可以对图片进行文本识别，以得到加噪数据。在一些实施例中，可以利用OCR技术或者未来开发的各种文本识别技术来实现对图片中的文本内容的识别，并可以将文本识别的结果作为加噪数据。根据这样的设置，可以使得加噪数据更符合图片数据来源产生的真实噪音类型和真实噪音分布等，使得利用该加噪数据进行训练的翻译模型和/或纠错模型能够更好的学习到真实应用场景中可能遇到的噪音，从而有利于提高模型的训练效果、提高模型的鲁棒性以及优化图片翻译和/或图片纠错场景下的用户体验。

可以理解的是，根据本发明的实施例，可以在步骤410中根据实际应用场景需求选择合成图片的风格和识别难度等，例如是否合成手写文本的图片、或者是否合成倾斜图片等，因此生成的图片是可控的。进一步地，通过对同一第一语种数据生成不同风格和识别难度的多个图片，可以高效且高质量的产生多组平行加噪数据和/或多组纠错数据对，从而能够同时满足模型对训练数据的数量和质量的需求。还需要理解的是，根据本发明实施例的生成加噪数据的方法可以不限于图4中所示的方法400，还可以包括其他方法，下面将结合图5进行示例性的说明。

图5示意性地示出了根据本发明另一个实施例的生成加噪数据的方法流程图。通过下面的描述可知，方法500可以是前文中结合图3描述的步骤310的一个具体化表现形式，因此前文中结合图3对步骤310的描述也可以适用于下面对方法500的描述中。

如图5中所示，方法500可以包括：在步骤510中，可以基于第一语种数据，合成第一语种数据的语音。在一些实施例中，可以利用文本转语音TTS(Text to Speech)技术，或者未来开发的各种文本转语音技术来将第一语种数据中的文本数据合成为语音。

接着，在步骤520中，可以对语音进行语音识别，以得到加噪数据。在一些实施例中，可以利用ASR技术或者未来开发的各种语音转文本技术来对语音进行识别，并可以将语音识别的结果作为加噪数据。

根据这样的设置，可以使得加噪数据更符合语音数据来源产生的真实噪音类型和真实噪音分布等，使得利用该加噪数据进行训练的翻译模型和/或纠错模型能够更好的学习到真实应用场景中可能遇到的噪音，从而有利于提高模型的训练效果、提高模型的鲁棒性以及优化语音翻译和/或语音纠错场景下的用户体验。

在一些实施例中，可以对同一组源平行数据既执行方法400的操作也执行方法500的操作，以便基于同一组源平行数据同时生成图片和语音场景下的多组训练数据。可以理解的是，根据本发明实施例的生成加噪数据的方法可以不限于图4中所示的方法400和图5中所示的方法500，还可以包括其他方法，下面将结合图6进行示例性的说明。

图6示意性地示出了根据本发明又一个实施例的生成加噪数据的方法流程图。通过下面的描述可知，方法600可以是前文中结合图3描述的步骤310的一个具体化表现形式，因此前文中结合图3对步骤310的描述也可以适用于下面对方法600的描述中。

如图6中所示，方法600可以包括：在步骤610中，可以对第一语种数据进行子词化切分，以获得包括第一语种数据中全部子词的子词集合。在一些实施例中，可以利用BPE技术实现对第一语种数据的子词化切分，并可以根据模型训练的需求切分相应的粒度，以获得符合要求的子词。在另一些实施例中，子词可以为单词中的部分字母或者部分字母的组合。在又一些实施例中，子词可以为词语中的部分字或者部分字的组合。通过对第一语种数据中全部单词或者全部词语进行子词化切分，可以将获得的全部子词集成为子词集合。在一些实施例中，可以对子词集合中的子词进行编号，以生成第一语种数据的源语言词表，以便于对子词集合中的子词进行区分和调用。

接着，在步骤620中，可以对第一语种数据中的一个或多个子词进行第二加噪处理，以得到加噪数据。在一些实施例中，可以以预设概率来进行第二加噪处理，即可以对符合预设概率数量的子词进行第二加噪处理。在另一些实施例中，预设概率可以为0.1～0.2，即可以对全部子词总数的10％～20％的子词进行第二加噪处理。根据这样的设置，即可以满足噪音分布需求，又可以保证加噪数据与第一语种数据的相关性，从而可以保证训练数据的有效性。进行第二加噪处理的子词数量过多会导致噪音程度过大，可能会影响翻译模型在推理阶段的翻译准确性和/或纠错模型在推理阶段的纠错准确性。进行第二加噪处理的子词数量过少可能导致噪音程度过小，可能无法实现加噪训练的效果和目的。

在本发明的一个实施例中，第二加噪处理可以包括以下中的至少一项：删除第一语种数据中的一个或多个子词；将第一语种数据中的一个或多个子词替换为子词集合中的一个或多个其他子词；以及将子词集合中的一个或多个子词插入到第一语种数据中的任意位置。

在一些实施例中，任意位置可以包括第一语种数据中的子词中、相邻子词之间等。上文中所述的其他子词可以为子词集合中除被替换子词以外的其他的子词。相比于使用随机词进行替换，根据本发明实施例的通过使用子词集合中的其他子词进行替换，能够在一定程度上保持加噪数据与第一语种数据的相关性，也能够使得加噪数据更符合第一语种数据的应用场景。在一些应用场景中，通过第二加噪处理生成的加噪数据可以作为对缺少OCR功能的设备或者模型的训练数据的补充和增强。

以上结合图4-图6对根据本发明实施例的多种生成加噪数据的实现方式进行了详细描述，可以理解的是，根据本发明实施例的生成加噪数据的方法，可以是通过在第一语种数据的基础上，对第一语种数据本身加入噪音，并且通过合成图片、合成语音等方式可以得到更符合真实应用场景中的真实噪音的加噪数据。在另一些实施例中，对第一语种数据进行第二加噪处理的同时，也可以结合BPE-dropout方法改变子词切分方式，以得到既改变子词切分方式也对第一语种数据本身进行加噪的加噪数据。

进一步地，通常情况下，本领域技术人员致力于研究能够生成精准的训练数据的技术，以用于进一步提高模型(例如翻译模型等)的推理准确性(例如翻译准确性等)，并认为只有模型学习到准确的源数据和目标数据，才能获得好的推理质量(例如翻译质量等)。相比较而言，本发明实施例的技术方案在于生成加噪的训练数据，特别是符合真实噪音的加噪数据，以使模型能够学习到加噪数据中的噪音特征，并能够从加噪数据中推理出正确的推理结果。从某种意义上来说，本发明实施例提供的技术方案打破了本领域技术人员通常认为需要用准确的训练数据训练模型的技术偏见，而采用生成加噪数据的方式为模型提供更符合实际应用场景的训练数据，以利于优化模型的场景适应能力和鲁棒性。通过下面进一步的描述，本领域技术人员可以理解到，利用根据本发明实施例的加噪后的训练数据训练模型，不仅不会降低模型的推理质量，反而能够提高模型的推理质量。

在本发明实施方式的第二方面中，提供一种用于翻译模型的训练方法，可以包括：利用前文中结合图3-图6中任一所述的方法生成的加噪平行数据，对翻译模型进行训练。在一些实施例中，翻译模型可以选择任意的神经网络机器翻译模型结构，例如Transformer结构等，均能够表现出对本发明实施例的加噪平行数据具有较好的学习能力。在另一些实施例中，翻译模型的训练可以采用任意的神经网络训练框架，例如pytorch、tensorflow等，均能够实现对本发明实施例的加噪平行数据的学习效果。可以理解的是，利用加噪平行数据对翻译模型进行训练可以显著提高翻译模型对含噪音句子的翻译质量，以及能够显著减少错译和漏译等问题的出现。

在本发明的一个实施例中，用于翻译模型的训练方法还可以包括：还利用加噪平行数据进行第一加噪处理之前的源平行数据，对翻译模型进行训练。根据这样的设置，可以使得翻译模型既能够学习到正确的数据，也可以学习到加噪后的数据，有利于提高翻译模型的鲁棒性以及保证翻译结果的质量。

在本发明实施方式的第三方面中，提供一种用于纠错模型的训练方法，包括：利用前文中结合图3-图6中任一所述的方法生成的纠错数据对，对纠错模型进行训练。在一些实施例中，纠错模型可以选择任意的神经网络机器纠错模型结构，均能够表现出对本发明实施例的纠错数据对具有较好的学习能力。在另一些实施例中，纠错模型可以包括应用于错译纠错、漏译纠错、语法纠错、扫描纠错等应用场景的模型。在又一些实施例中，纠错模型的训练可以采用任意的神经网络训练框架，均能够实现对本发明实施例的纠错数据对的学习效果。可以理解的是，利用加噪后的纠错数据对对纠错模型进行训练可以显著提高纠错模型的纠错质量。

相比于真实纠错语料，大量平行语料的获得更加容易。根据本发明实施例的方法可以基于容易获得的源平行数据来生成大量的纠错数据对，以满足纠错模型对训练数据量的要求。相比于对正确文本进行调序、词形变化、时态变化等非常依赖于研发人员对语言的理解生成的伪语料，根据本发明实施例的通过对第一语种数据进行加噪生成纠错数据对的方法更加方便和简单，也更能适用于多种语种，特别是对于研发人员不熟悉的语种。

进一步地，利用根据本发明实施例的合成图片加噪(例如前文中结合图4描述的方法)和/或合成语音加噪(例如前文中结合图5描述的方法)的方法生成的加噪数据进行训练，可以有利于提高纠错模型在图片纠错和/或在语音纠错等真实应用场景中的纠错质量，使得纠错模型具有更好的适用性和稳定性。

为了更便于理解根据本发明实施例的方法生成的训练数据对于模型的训练效果，下面以根据本发明实施例生成的加噪平行数据训练翻译模型为例进行说明。

在一个测试例中，可以使用BLEU(Bilingual Evaluation Understudy)对两个测试集上的测试数据进行翻译质量评估。BLEU是机器翻译领域最常用的自动评估指标，其可以用于衡量机器翻译译文相对于参考译文的准确程度，数值越大代表翻译质量越好。本测试例中的两个测试集包括词典例句测试集和新闻测试集，其中词典例句测试集包括来自例如英中词典中的双语例句，新闻测试集包括来自双语新闻网站上的句子。在本测试例中，为了测试翻译模型的翻译质量和鲁棒性，可以对测试集中双语句子中的一个语种(例如英语)句子进行加噪，以便测试翻译模型对含噪音句子的翻译效果。

具体地，首先可以分别采用根据本发明实施例中的合成图片的加噪方法(例如前文中结合图4描述的方法)、子词加噪方法(例如前文中结合图6描述的方法)以及BPE-dropout方法生成训练数据，并分别对翻译模型进行训练。为了便于对比，还利用未经加噪处理的源平行数据对翻译模型进行训练。然后，可以使用BLEU指标在词典例句测试集和新闻测试集上分别对训练后的翻译模型进行测试评估。测试结果可参见下表一中所示。

表一：

由表一中可以看出，通过使用BPE-dropout、子词加噪方案、合成图片加噪方案生成的训练数据以及源平行数据分别对翻译模型进行训练，测试结果表明，相比于源平行数据训练的翻译模型，使用BPE-dropout、子词加噪方案、合成图片加噪方案进行训练的翻译模型，在两个测试集上的BLEU值均有较大程度的提升。这样的结果说明，利用加噪数据训练翻译模型，能够显著提升训练模型的翻译质量。

进一步地，从表一中还可以看出，相比于BPE-dropout，使用子词加噪方案的翻译模型在词典例句测试集上的BLEU值提高了0.95，使用子词加噪方案的翻译模型在新闻测试集上的BLEU值提高了0.67，使用合成图片加噪方案的翻译模型在词典例句测试集上的BLEU值提高了3.70，使用合成图片加噪方案的翻译模型在新闻测试集上的BLEU值提高了2.61。由此可以证明，相比于模拟噪音的训练方式，根据本发明实施例的子词加噪方案和合成图片加噪方案均能够明显有助于进一步提高翻译模型的BLEU值，即直接加噪的方案能够有利于进一步提高翻译模型的翻译质量以及对噪音的鲁棒性。

另外，从表一中还可以看出，相比于子词加噪方案，合成图片加噪方案对于提高翻译模型的BLEU值更加显著，即合成图片加噪方案将更有利于提高翻译模型的翻译质量和鲁棒性。这可能是因为基于合成图片加噪方案生成的噪音更符合真实使用场景，而相比于合成图片加噪方案，基于子词加噪方案生成的噪音更具随机性，因此合成图片加噪方案的训练效果更优于子词加噪方案。

通过上面对根据本发明实施例的方案及其多个实施例的描述，可以理解的是，通过对源平行数据中的第一语种数据进行第一加噪处理以生成加噪数据，可以基于源平行数据中的第二语种数据和加噪数据，生成能够用于翻译训练的加噪平行数据，从而使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪声句子的翻译质量，和/或可以基于第一语种数据和加噪数据生成纠错数据对，使得用于纠错模型的训练数据更易获得以及有利于提高纠错模型的纠错质量。

在一些实施例中，基于第一语种数据生成图片，以及通过对图片进行文本识别来生成加噪数据，能够使得生成的加噪数据更符合真实场景中的噪音分布，从而能够更有利于提高模型的训练准确度和训练效率，以及有利于进一步提高翻译模型的真实翻译质量和增强翻译模型对噪音的鲁棒性，和/或纠错模型在图片纠错应用场景中的纠错准确率。

在另一些实施例中，基于第一语种数据生成语音，以及通过对语音转化为文本来生成加噪数据，能够使得生成的加噪数据更符合语音翻译和/或语音纠错的真实场景中的噪音分布，从而能够更有利于提高模型的训练准确度和训练效率，以及有利于进一步提高翻译模型的真实翻译质量和增强翻译模型对噪音的鲁棒性，和/或纠错模型在语音纠错应用场景中的纠错准确率。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于生成训练数据的方法，包括：

对源平行数据中的第一语种数据进行第一加噪处理，以生成与所述第一语种数据相关的加噪数据；

基于所述源平行数据中的第二语种数据和所述加噪数据，生成用于翻译训练的加噪平行数据；和/或

基于所述第一语种数据和所述加噪数据，生成用于纠错训练的纠错数据对。

2.根据权利要求1所述的方法，其中进行第一加噪处理以生成加噪数据包括：

基于所述第一语种数据，生成以所述第一语种数据为内容的图片；以及

对所述图片进行文本识别，以得到所述加噪数据。

3.根据权利要求2所述的方法，其中在生成所述图片中，所述方法还包括以下中的至少一项操作：

设置第一语种数据的字体；

设置第一语种数据的倾斜角度；

设置第一语种数据的书写方式；

设置图片的背景颜色；

设置图片的背景图案；

设置图片的亮度；

设置图片的清晰度；以及

设置图片的旋转角度。

4.根据权利要求1所述的方法，其中进行第一加噪处理以生成加噪数据包括：

基于所述第一语种数据，合成所述第一语种数据的语音；以及

对所述语音进行语音识别，以得到所述加噪数据。

5.根据权利要求1所述的方法，其中进行第一加噪处理以生成加噪数据包括：

对所述第一语种数据进行子词化切分，以获得包括所述第一语种数据中全部子词的子词集合；以及

对所述第一语种数据中的一个或多个子词进行第二加噪处理，以得到所述加噪数据。

6.根据权利要求5所述的方法，其中所述第二加噪处理包括以下中的至少一项：

删除所述第一语种数据中的一个或多个子词；

将所述第一语种数据中的一个或多个子词替换为所述子词集合中的一个或多个其他子词；以及

将所述子词集合中的一个或多个子词插入到所述第一语种数据中的任意位置。

7.一种用于翻译模型的训练方法，包括：

利用根据权利要求1-6任一所述的方法生成的加噪平行数据，对所述翻译模型进行训练。

8.一种用于纠错模型的训练方法，包括：

利用根据权利要求1-6任一所述的方法生成的纠错数据对，对所述纠错模型进行训练。

9.一种用于生成训练数据的设备，包括，

至少一个处理器；

存储器，其存储有程序指令，当所述程序指令由所述至少一个处理器执行时，使得所述设备执行根据权利要求1-6的任一项所述的方法。

10.一种计算机可读存储介质，其存储有用于生成训练数据的程序，当所述程序由处理器来运行时，执行根据权利要求1-6的任一项所述的方法。