CN116992892A

CN116992892A - 基于数据增强和多任务训练改善ape模型的方法、系统及可读存储介质

Info

Publication number: CN116992892A
Application number: CN202310819637.2A
Authority: CN
Inventors: 朱宪超; 陈秋霖
Original assignee: Sichuan Lan Bridge Information Technology Co ltd
Current assignee: Sichuan Lan Bridge Information Technology Co ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-11-03
Anticipated expiration: 2043-07-06
Also published as: CN116992892B

Abstract

本发明属于机器翻译技术领域，提供了一种基于数据增强和多任务训练改善APE模型的方法、系统及可读存储介质，其中方法包括：步骤S1：训练一个NMT模型作为预训练模型；步骤S2：将训练集的源语言句子输入NMT模型中，生成n个最佳翻译结果的译文序列,并随机挑选出一个译文序列作为额外的机翻译文mt^；步骤S3：以多任务共享参数的方式对NMT模型进行微调；其中，多任务包括change/unchange分类任务和APE任务，共享参数为NMT模型的编码器参数。采用本发明，能够有效地检测和纠正高质量NMT系统所造成的错误，经测试，TER和BLEU在开发数据集上与baseline模型相比的得分提高了‑2.848和+3.74。

Description

基于数据增强和多任务训练改善APE模型的方法、系统及可读存储介质

技术领域

本发明属于机器翻译技术领域，具体的说，是涉及一种基于数据增强和多任务训练改善APE模型的方法、系统及可读存储介质。

背景技术

自动后编辑(APE)是机器翻译(MT)工作流中的一个后处理任务，它的目标是自动识别和纠正MT输出中的错误，APE系统通过自动纠正重复翻译错误来减少人力工作。APE模型的训练数据需要三元组数据“原文”、“机翻译文”和“人工矫正后的译文”。但是，获取人工矫正后的译文成本较高，可用来作为训练的数据非常稀疏，在有限数据集上提高APE模型的效果是很困难的。

针对上述数据稀疏的问题，现有技术采用的方法通常是通过迁移学习或生成一些伪三元组语料做数据增强方式训练APE模型。迁移学习是深度学习中解决数据稀疏问题的常用方法，在APE任务中具体指利用已经训练好的语言模型比如BERT初始化模型参数，在预训练模型上对APE数据进行微调，这种方法可以减少APE模型训练所需的时间和资源，同时也可以提高模型的准确度。

现有技术存在以下的不足：(1)通过在有限数据上微调，ape模型性能很难运用于实际工程项目并且泛化能力很差，在数据较少的情况下模型收敛很快，也很容易出现过拟合；(2)通过生成伪三元组语料虽然会带来一些提高，但也会给模型带来额外的噪音。

发明内容

本发明的目的在于提供一种基于数据增强和多任务训练改善APE模型的方法，以解决现有技术所存在的技术问题。

为了实现上述目的，本发明采取的技术方案如下：

一种基于数据增强和多任务训练改善APE模型的方法，包括：

步骤S1：训练一个NMT模型作为预训练模型；

步骤S2：将训练集的源语言句子输入NMT模型中，生成n个最佳翻译结果的译文序列,并随机挑选出一个译文序列作为额外的机翻译文mt^；

步骤S3：以多任务共享参数的方式对NMT模型进行微调，以此提高APE任务效果；其中，所述多任务包括change/unchange分类任务和APE任务，共享参数为NMT模型的编码器参数。

进一步的，所述步骤S3中微调的具体方法如下：

(3.1)参数初始化：使用NMT模型作为初始模型参数；

(3.2)多任务共享参数设置：将NMT模型中编码器参数用于共享，同时用于训练change/unchange分类任务和APE任务；

(3.3)损失函数定义：针对change/unchange分类任务，使用交叉熵损失函数来计算模型预测结果与真实标签之间的差异；对于APE任务，使用平均绝对误差来度量机器翻译结果与参考答案之间的差异；

(3.4)多任务训练过程：对change/unchange分类任务和APE任务进行迭代训练，在每次训练迭代中，基于训练数据随机选择一个任务进行训练，并根据选择的任务，使用相应的输入数据和损失函数进行训练。

进一步的，所述(3.4)还包括：训练时，通过反向传播算法更新NMT模型参数，并根据梯度下降策略调整参数值。

进一步的，(1)所述步骤S3中的APE任务具体如下：以所述额外的机翻译文mt^作为输入的APE任务；

(2)所述步骤S3中的change/unchange分类任务具体如下：训练一个change/unchange分类器，对每一个输入预测的子词token进行change或者unchange的分类预测。

进一步的，所述(1)还包括将所述额外的机翻译文mt^用一个特殊的标记送入NMT模型的编码器。

进一步的，所述的特殊的标记采用SEP标签。

进一步的，所述(2)中训练change/unchange分类器的具体方法如下：

(2.1)构建训练数据：包括源语言句子src、机器翻译结果mt、额外的机器翻译结果mt^以及后校验译文pe；

(2.2)对训练数据进行词对齐处理；

(2.3)多任务共享参数训练：基于所述(2.2)的训练数据，使用多任务共享参数的方式训练一个change/unchange分类器。

进一步的，所述(2.2)的具体方法如下：

(21)对机翻译文mt和后校验译文pe进行词对齐，若单词对齐，则用unchange标记,若单词不对齐，则用change标记；

(22)对额外的机翻译文mt^和后校验译文pe进行词对齐，若单词对齐，则用unchange标记,若单词不对齐，则用change标记；

(23)对训练集的原文src和机翻译文mt做词对齐，若单词对齐，则用unchange标记,若单词不对齐，则就用change标记。

为了实现上述目的，本发明还提供了一种基于数据增强和多任务训练改善APE模型的系统，包括：

预训练模型模块：训练一个NMT模型作为预训练模型；

额外机翻译文模块：将训练集的源语言句子输入NMT模型中，生成n个最佳翻译结果的译文序列,并随机挑选出一个译文序列作为额外的机翻译文mt^；

模型微调模块：以多任务共享参数的方式对NMT模型进行微调，以此提高APE任务效果；其中，所述多任务包括change/unchange分类任务和APE任务，共享参数为NMT模型的编码器参数。

为了实现上述目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行，以实现如上所述的基于数据增强和多任务训练改善APE模型的方法。

与现有技术相比，本发明具备以下有益效果：

(1)本发明在模型微调阶段引入了额外的机翻译文mt^进行数据增强，将额外的机翻译文mt^用一个特殊的标记送入模型编码器，由此这可以让模型在解码的时候通过额外的机翻译文mt^学习到pe的多样性，提高模型在不同MT数据的表现能力。

(2)本发明以多任务共享参数的方式训练了一个change/unchange分类器，模型对每一个输入的token进行分类预测，模型通过多任务训练共享任务之前内部的信息和特征，从而提高模型的整体性能。

(3)采用本发明，能够有效地检测和纠正高质量NMT系统所造成的错误，经测试，TER和BLEU在开发数据集上与baseline模型相比的得分提高了-2.848和+3.74。

附图说明

图1为本发明-实施例1的流程示意图。

图2为本发明-实施例2的原理框图。

具体实施方式

为了使得本领域技术人员对本发明有更清晰的认知和了解，以下结合实施例对本发明进行进一步的详细说明。应当知晓的，下述所描述的具体实施例只是用于解释本发明，方便理解，本发明所提供的技术方案并不局限于下述实施例所提供的技术方案，实施例所提供的技术方案也不应当限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例1

如图1所示，本实施例提供了一种基于数据增强和多任务训练改善APE模型的方法，该方法的设计原理是：(1)在模型微调阶段引入了额外的机翻译文mt^进行数据增强，将mt^用一个特殊的标记送入编码器，由此可以让APE模型在解码的时候通过mt^学习到pe的多样性，提高模型在不同MT数据的表现能力；(2)在模型微调阶段以多任务共享参数的方式训练一个change/unchange分类器，让模型对每一个输入的token进行分类预测Y^∈{change,unchange}，模型通过多任务训练共享任务之前内部的信息和特征从而提高APE模型的整体性能。

本实施例中，一种基于数据增强和多任务训练改善APE模型的方法，具体包括如下步骤：

一、步骤S1：训练一个NMT模型作为预训练模型，将额外的机翻译文mt^用一个特殊的标记送入NMT模型的编码器，作为优选的，特殊的标记采用SEP标签。

二、步骤S2：将训练集的源语言句子输入NMT模型中，生成n个最佳翻译结果的译文序列,并随机挑选出一个译文序列作为额外的机翻译文mt^。

三、步骤S3：以多任务共享参数的方式对NMT模型进行微调；其中，共享参数为NMT模型的编码器参数，此时模型编码器的输入为：

X＝[src<SEP>mt<SEP>mt^]

该步骤的设计意义如下：由于change/unchange分类任务和APE任务都需要理解源语言句子的语义信息，因此共享编码器参数可以让这两个任务共享源语言句子的语义表示能力，从而提升模型性能。

多任务包括包括change/unchange分类任务和APE任务，二者分别如下：

1.APE任务具体如下：以额外的机翻译文mt^作为输入的APE任务；

2.change/unchange分类任务具体如下：训练一个change/unchange分类器，对每一个输入预测的子词token(一个词可以被切分为多个子词，在机器翻译任务中，通常将输入的源语言句子和机器翻译结果都划分为一系列的token，例如，将一个句子"I am goingto the park"划分为五个token：["I","am","go”,”ing","to","the","park"])进行change或者unchange的分类预测；

change/unchange分类任务的目的是帮助模型判断机器翻译结果中哪些部分需要进行改进或修正，以提升翻译质量。通过训练change/unchange分类器，模型可以学习到源语言和机器翻译结果之间的变化和差异，从而更好地理解和处理不同类型的错误，这样的分类任务可以在APE模型的训练过程中起到辅助作用，提高整体的性能。

本实施例中，训练change/unchange分类器的具体方法如下：

(2.2)对训练数据进行词对齐处理；词对齐处理的具体方法如下：(21)对机翻译文mt和后校验译文pe进行词对齐，若单词对齐，则用unchange标记,若单词不对齐，则用change标记；(22)对额外的机翻译文mt^和后校验译文pe进行词对齐，若单词对齐，则用unchange标记,若单词不对齐，则用change标记；(23)对训练集的原文src和机翻译文mt做词对齐，若单词对齐，则用unchange标记,若单词不对齐，则就用change标记；

(2.3)多任务共享参数训练：基于(2.2)的训练数据，使用多任务共享参数的方式训练一个change/unchange分类器，这个分类器共享一部分模型参数与NMT模型的其他部分。这里的共享参数指代的是编码器部分的参数。

通过change/unchange分类任务，模型学习到源语言和机器翻译结果之间的变化和差异，从而能够对每个输入的token进行change或unchange的分类预测；这个训练过程使得模型可以更好地理解和处理不同类型的错误，从而改善APE模型的性能。

本实施例中，模型微调的具体方法如下：

(3.1)参数初始化：使用NMT模型作为初始模型参数；

(3.2)多任务共享参数设置：将NMT模型中编码器参数用于共享，同时用于训练change/unchange分类任务和APE任务，这样可以让这两个任务共享源语言句子的特征表示和语义信息；

(3.4)多任务训练过程：对change/unchange分类任务和APE任务进行迭代训练，在每次训练迭代中，基于训练数据随机选择一个任务进行训练，并根据选择的任务，使用相应的输入数据和损失函数进行训练；训练时，通过反向传播算法更新NMT模型参数，并根据梯度下降策略调整参数值。

实施例2

如图2所示，本实施例提供了一种基于数据增强和多任务训练改善APE模型的系统，包括：

预训练模型模块：训练一个NMT模型作为预训练模型；

模型微调模块：以多任务共享参数的方式对NMT模型进行微调；其中，所述多任务包括change/unchange分类任务和APE任务，共享参数为NMT模型的编码器参数。

上述各模块的结构和/或原理与实施例1所述的基于数据增强和多任务训练改善APE模型的方法中的内容一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开，且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，某模块可以为单独设立的处理元件，也可以集成在装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于装置的存储器中，由上述装置的某一个处理元件调用并执行某模块的功能，其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统的形式实现。

实施例3

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行，以实现实施例1所提供的基于数据增强和多任务训练改善APE模型的方法。本领域技术人员可以理解：实现实施例1所提供方法的全部或部分步骤可以通过计算机程序相关的硬件来完成，上述的计算机程序可以存储于一计算机可读存储介质中，该程序在执行时，执行包括实施例1所提供方法的步骤；而上述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述即为本发明的优选实施方案。应当说明的是，本领域技术人员，在不脱离本发明的设计原理及技术方案的前提下，还可以作出若干的改进，而这些改进也应当视为本发明的保护范围。

Claims

1.一种基于数据增强和多任务训练改善APE模型的方法，其特征在于，包括：

步骤S1：训练一个NMT模型作为预训练模型；

2.根据权利要求1所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：所述步骤S3中微调的具体方法如下：

(3.1)参数初始化：使用NMT模型作为初始模型参数；

3.根据权利要求2所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：所述(3.4)还包括：训练时，通过反向传播算法更新NMT模型参数，并根据梯度下降策略调整参数值。

4.根据权利要求3所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：

(1)所述步骤S3中的APE任务具体如下：以所述额外的机翻译文mt^作为输入的APE任务；

5.根据权利要求4所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：所述(1)还包括将所述额外的机翻译文mt^用一个特殊的标记送入NMT模型的编码器。

6.根据权利要求5所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：所述的特殊的标记采用SEP标签。

7.根据权利要求6所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：所述(2)中训练change/unchange分类器的具体方法如下：

(2.2)对训练数据进行词对齐处理；

8.根据权利要求7所述的基于数据增强和多任务训练改善APE模型的方法，其特征在于：所述(2.2)的具体方法如下：

9.根据权利要求8所述的基于数据增强和多任务训练改善APE模型的系统，其特征在于：包括：

预训练模型模块：训练一个NMT模型作为预训练模型；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行，以实现如权利要求1至8中任一项所述的基于数据增强和多任务训练改善APE模型的方法。