CN112560510B

CN112560510B - 翻译模型训练方法、装置、设备及存储介质

Info

Publication number: CN112560510B
Application number: CN202011454443.XA
Authority: CN
Inventors: 叶忠义; 张为泰; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-12-01
Anticipated expiration: 2040-12-10
Also published as: CN112560510A

Abstract

本申请公开了一种翻译模型训练方法、装置、设备及存储介质，本申请针对源语言和/或目标语言，获取其各自的近似语言下的训练语料，以及训练语料的平行语料，其中，若训练语料的语言与源语言近似，该平行语料是目标语言，若训练语料的语言与目标语言近似，该平行语料是源语言，针对训练语料中至少一文本单元，利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，由混合语言训练语料与平行语料组成平行语料对，以平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。本申请利用了源语言和/或目标语言的近似语言资源，丰富了模型训练数据，提升了翻译模型的训练效果。

Description

翻译模型训练方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域，更具体的说，是涉及一种翻译模型训练方法、装置、设备及存储介质。

背景技术

现代机器翻译系统，利用平行语料学习翻译语言间的映射关系，使得机器翻译的质量与平行句对的数据成正相关。当翻译任务的平行句对数量比较丰富时，翻译模型质量较高，但是当翻译任务的句对数据受限时，也大幅限制了机器翻译模型的质量。

为了解决翻译训练语料较少的问题，可以使用数据增强的方式来伪造训练数据。其中，回译作为一种广泛使用的机器翻译数据增强方法，已经成为现代翻译系统的标配。回译是一种有效的利用目标端单语数据的数据增强方法，但是目标端单语数据在许多场景也是比较稀少的。因此，如何解决由于翻译训练语料较少导致的模型训练不足，是一个亟需解决的问题。

发明内容

鉴于上述问题，提出了本申请以便提供一种翻译模型训练方法、装置、设备及存储介质，以解决翻译训练语料较少的场景下，模型训练不足的问题。具体方案如下：

一种翻译模型训练方法，包括：

获取源语言和/或目标语言各自的近似语言下的训练语料，以及所述训练语料的平行语料，其中，若所述训练语料的语言与所述源语言近似，则所述平行语料为目标语言，若所述训练语料的语言为与所述目标语言近似，则所述平行语料为源语言；

针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对；

以所述平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。

优选地，所述针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，包括：

获取所述训练语料的语义单元；

针对所述训练语料中的至少一个语义单元，利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料。

优选地，所述获取所述训练语料的语义单元，包括：

对所述训练语料进行句法结构分析，得到句法结构树；

从所述句法结构树中提取设定句法结构信息，作为训练语料的语义单元。

优选地，所述从所述句法结构树中提取设定句法结构信息，作为训练语料的语义单元，包括：

基于所述句法结构树，将训练语料中被修饰词语及其对应的修饰性词语进行合并；

基于词语合并后的训练语料，从中提取设定句法结构信息，作为训练语料的语义单元。

优选地，在所述从所述句法结构树中提取设定句法结构信息之前，该方法还包括：

对所述训练语料进行词性标注，并基于标注的词性过滤掉虚词。

优选地，所述针对所述训练语料中的至少一个语义单元，利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料，包括：

对所述训练语料中每一语义单元，以设定替换比例p的概率标记为需要替换；

采用预训练的相似语言翻译模型，按照所述训练语料中各语义单元标记的替换概率进行翻译替换，得到模型输出的混合语言训练语料，所述相似语言翻译模型为，处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。

优选地，当所述设定替换比例p大于设定阈值时，所述相似语言翻译模型为句子级翻译模型；当所述设定替换比例p不超过所述设定阈值时，所述相似语言翻译模型为短语级翻译模型。

优选地，还包括：

获取预训练的混合翻译模型，所述混合翻译模型为处理源语言、源语言近似语言至所述目标语言翻译任务的模型；

将所述混合语言训练语料输入所述混合翻译模型，得到输出的预测目标语言语料；

以所述混合语言训练语料及所述预测目标语言语料组成的平行语料对加入所述训练样本集。

优选地，所述源语言至目标语言的翻译模型的初始化参数为预训练的第三方翻译模型的模型参数；

其中，若所述训练语料的语言与所述源语言近似，则所述第三方翻译模型为处理由所述训练语料的语言至所述目标语言的翻译任务的模型；若所述训练语料的语言与所述目标语言近似，则所述第三方翻译模型为处理由所述源语言至所述训练语料的语言的翻译任务的模型。

优选地，所述源语言至目标语言的翻译模型的训练过程，随训练的进行，训练样本集中组成所述平行语料对的混合语言训练语料中，替换后的平行文本单元的占比逐渐递增。

一种翻译模型训练装置，包括：

数据获取单元，用于获取源语言和/或目标语言各自的近似语言下的训练语料，以及所述训练语料的平行语料，其中，若所述训练语料的语言与所述源语言近似，则所述平行语料为目标语言，若所述训练语料的语言为与所述目标语言近似，则所述平行语料为源语言；

文本替换单元，用于针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对；

模型训练单元，用于以所述平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。

一种翻译模型训练设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的翻译模型训练方法的各个步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的翻译模型训练方法的各个步骤。

借由上述技术方案，本申请的翻译模型训练方法，针对源语言和/或目标语言，获取其各自的近似语言下的训练语料，以及训练语料的平行语料，其中，若训练语料的语言与源语言近似，则该平行语料是目标语言，反之，若训练语料的语言与目标语言近似，则该平行语料是源语言，在此基础上，针对训练语料中至少一文本单元，利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，该混合语言训练语料融合有训练语料的语言文本以及与之近似语言的文本，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对，进而以平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。由此可见，本申请利用了源语言和/或目标语言的近似语言资源来伪造训练数据，解决了源语言和/或目标语言的资源受限的场景下，导致翻译模型训练不足的问题。

进一步的，本申请伪造的训练数据也即，混合语言训练语料是融合有训练语料的语言文本以及与之近似语言的文本，并非直接使用源语言和/或目标语言各自的近似语言下的训练语料，通过近似语言的融合作为训练数据，使得翻译模型更加容易迁移相似语言的语言学知识，使得翻译模型的跨语言迁移学习难度降低，提升了翻译质量。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的翻译模型训练方法的一流程示意图；

图2示例了一种混合语言训练语料的确定过程示意图；

图3示例了一种获取训练语料的语义单元的过程示意图；

图4示例了一种训练语料中需要替换的语义单元的比例p随训练过程的变化趋势示意图；

图5为本申请实施例提供的一种翻译模型训练装置结构示意图；

图6为本申请实施例提供的翻译模型训练设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种翻译模型的训练方案，针对源语言至目标语言的翻译模型，可以通过迁移第三方语言的训练语料来伪造翻译模型的训练数据，以实现训练数据增强，解决源语言、目标语言训练资源受限的问题。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的翻译模型训练方法可以包括如下步骤：

步骤S100、获取源语言和/或目标语言各自的近似语言下的训练语料，以及所述训练语料的平行语料。

其中，若所述训练语料的语言与所述源语言近似，则所述平行语料为目标语言。反之，若所述训练语料的语言为与所述目标语言近似，则所述平行语料为源语言。

本申请的翻译模型训练方法针对的即为由源语言至目标语言的翻译模型的训练过程。为了便于表述，定义源语言表示为S，目标语言表示为T。则本步骤中，可以仅获取源语言S的近似语言下的训练语料，也即，使用源语言S的近似语言下的语言资源进行数据增强。或者是，可以仅获取目标语言T的近似语言下的训练语料，也即，使用目标语言T的近似语言下的语言资源进行数据增强。亦或者是，同时获取源语言S的近似语言下的训练语料，以及，目标语言T的近似语言下的训练语料，也即，同时使用源语言S的近似语言下的语言资源和目标语言T的近似语言下的语言资源进行数据增强。

对于源语言S的近似语言定义为A，近似语言A下的训练语料定义为a1，则训练语料a1的平行语料为训练语料a1在目标语言T下的平行语料t1。

对于目标语言T的近似语言定义为B，近似语言B下的训练语料定义为b1，则训练语料b1的平行语料为训练语料b1在源语言S下的平行语料s1。

其中，关于近似语言可以是用户预先设定的各语言，以源语言S的近似语言A为例进行说明，S和A可以是具有相似的词汇表、语法结构等语言学特征。示例如，S为中文，则A可以是英文或其它语言。

步骤S110、针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对。

具体的，训练语料是由若干文本单元组成的，以训练语料为中文为例，则文本单元可以是字、词、词组等多种形式。

本步骤中，为了降低翻译模型迁移相似语言的语言学知识的难度，并非直接将训练语料及其平行语料作为训练样本，而是将训练语料的语言及与之相似语言进行融合，得到混合语言训练语料，由混合语言训练语料及平行语料组成平行语料对，加入训练样本集。

其中，在进行相似语言融合时，针对训练语料中的至少一个文本单元，利用该文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料。

当训练语料为a1时，则针对a1中的至少一文本单元，利用该文本单元在源语言S下的平行文本单元进行替换，得到替换后的混合语言训练语料a2，由混合语言训练语料a2与平行语料t1组成平行语料对。

当训练语料为b1时，则针对b1中的至少一文本单元，利用该文本单元在目标语言T下的平行文本单元进行替换，得到替换后的混合语言训练语料b2，由混合语言训练语料b2与平行语料s1组成平行语料对。

参考图2，其示例了一种混合语言训练语料的确定过程。

训练语料为中文的“我有一个苹果”，本实施例中定义英文为中文的近似语言。则可以选取训练语料中的至少一个文本单元，如“有”，并将其替换为英语下的平行文本单元“have”。则训练语料替换后得到的混合语言训练语料为“我have一个苹果”。

步骤S120、以所述平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。

具体的，基于前述各步骤，得到了融合了近似语言的混合语言训练语料，由混合语言训练语料及平行语料组成平行语料对加入训练样本集，并对源语言至目标语言的翻译模型进行训练。

为例便于表述，可以将源语言至目标语言的翻译模型定义为翻译模型S-T。

可以理解的是，翻译模型S-T训练过程所使用的训练样本集中，可以不仅仅包含上述平行语料对，其还可以包括源语言S与目标语言T的平行语料。除此之外，还可以包括语言A与目标语言T的平行语料，和/或，源语言S与语言B的平行语料等。

本申请实施例提供的翻译模型训练方法，针对源语言和/或目标语言，获取其各自的近似语言下的训练语料，以及训练语料的平行语料，其中，若训练语料的语言与源语言近似，则该平行语料是目标语言，反之，若训练语料的语言与目标语言近似，则该平行语料是源语言，在此基础上，针对训练语料中至少一文本单元，利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，该混合语言训练语料融合有训练语料的语言文本以及与之近似语言的文本，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对，进而以平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。由此可见，本申请利用了源语言和/或目标语言的近似语言资源来伪造训练数据，解决了源语言和/或目标语言的资源受限的场景下，导致翻译模型训练不足的问题。

在本申请的一些实施例中，在使用源语言和/或目标语言的近似语言资源进行数据增强时，对于近似的语音之间，除了共享一些字符之外，其往往还具有相似的句法结构，这些句法结构能够提供额外的对齐信息，因此如果能够利用句法结构，可以使得翻译模型更加容易的迁移相似语言的语言学知识，加快翻译模型的收敛速度，提高模型翻译质量。

同时，人类在进行语言翻译任务时，通常会先对文本的句子结构进行语义分解，然后，先翻译各个语义单元，最后再把各个语义单元联系起来组成完整的翻译句子。仿造人类这种思想，本实施例中在确定混合语言训练语料的过程中，可以使用语义单元替换的方式进行不同语言间数据的融合，以实现语义间句法级对齐与关联。

具体的，上述步骤S110，针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料的过程，可以包括：

S1、获取所述训练语料的语义单元。

S2、针对所述训练语料中的至少一个语义单元，利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料。

接下来，对S1获取训练语料的语义单元的过程进行介绍，该过程可以包括：

S11、对所述训练语料进行句法结构分析，得到句法结构树。

具体的，句法结构分析(syntactic parsing)是自然语言处理中的关键技术之一，它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。句法结构分析的结果通常是一颗句法结构树，表示文本中各个模块的依赖关系。通过句法结构分析，可以获取句子的主要结构信息，包括主语、谓语、宾语等。由于相似的语言往往具有相似的句法结构信息，本申请通过句法结构分析，获取训练语料的语义单元，进而供后续进行语义单元的跨语言替换融合，实现相似语言的文本进行短语级别替换，不会影响句子的语义完整性。

本步骤中，在对训练语料进行句法结构分析时，可以是以训练语料中的句子为单位进行逐句的分析，得到每一个句子的句法结构树。

S12、从所述句法结构树中提取设定句法结构信息，作为训练语料的语义单元。

具体的，本实施例中可以预先设定需要提取的句法结构信息，如主语、谓语、宾语、定语、状语、补语等，作为训练语料的语义单元。

一种可选的实现方式，可以先基于所述句法结构树，将训练语料中被修饰词语及其对应的修饰性词语进行合并。

进一步，基于词语合并后的训练语料，从中提取设定句法结构信息，作为训练语料的语义单元。

可选的，在上述S12之前，获取训练语料的语义单元的过程还可以包括：

S13、对所述训练语料进行词性标注，并基于标注的词性过滤掉虚词。

具体的，通过词性标注，可以确定训练语料中各词的词性，对于语气词、连词、辅助词等虚词，对句法结构不产生影响，因此可以先进行过滤。

接下来，参照图3，其示例了一种获取训练语料的语义单元的过程示意图。

训练语料为“妈妈把旧窗帘撕成了抹布。”。

对训练语料进行句法结构分析以及词性标注，结果如图3所示。进一步的，过滤掉虚词“了”。再进一步，将修饰词和被修饰词进行合并，最终得到的训练语料对应的语义单元包括：“妈妈”、“把”、“旧窗帘”、“斯”、“成”、“抹布”。

在本申请的一些实施例中，对上述S2，针对所述训练语料中的至少一个语义单元，利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料的过程进行介绍。

本实施例中，对训练语料进行语义单元的跨语言替换，其中，可以预先设定所要替换的语义单元的比例p，该比例p表示训练语料中所要替换的语义单元与训练语料包含的语义单元总个数的比值。可以理解的是，p越大，表示训练语料所要替换的语义单元的个数越多。通过语义单元的替换，实现了跨语言的句法结构对齐及融合。

语义单元替换的过程，具体可以包括：

S21、对所述训练语料中每一语义单元，以设定替换比例p的概率标记为需要替换。

S22、采用预训练的相似语言翻译模型，按照所述训练语料中各语义单元标记的替换概率进行翻译替换，得到模型输出的混合语言训练语料。

其中，所述相似语言翻译模型为，处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。

以训练语料为a1为例，则相似语言翻译模型可以表示为翻译模型A-T，其是处理由语言A至目标语言T的翻译任务的模型。

翻译模型A-T可以是利用语言A与语言T的丰富语言资源进行预先训练得到。

进一步，若训练语料为b1，则相似语言翻译模型可以表示为翻译模型S-B，其是处理由语言S至目标语言B的翻译任务的模型。

翻译模型S-B可以是利用语言S与语言B的丰富语言资源进行预先训练得到。

上述采用相似语言翻译模型按照所述训练语料中各语义单元标记的替换概率进行翻译替换时，在对每一语义单元进行翻译替换之前，可以生成一个随机数，并判断随机数是否超过标记的替换概率p，若超过，则代表需要对当前语义单元进行翻译替换，否则，不需要对当前语义单元进行翻译替换。

需要说明的是，当所述设定替换比例p较大时，说明训练语料中需要进行翻译的文本单元较多，为了提高翻译的准确度，本实施例中可以配置相似语言翻译模型为句子级翻译模型，反之，当所述设定替换比例p较小时，可以配置相似语言翻译模型为短语级翻译模型。

具体的，本申请可以预先设置一个阈值，当判断p大于设定阈值时，配置相似语言翻译模型为句子级翻译模型，当p不超过设定阈值时，配置相似语言翻译模型为短语级翻译模型。

其中，句子级翻译模型为，基于句子级别的神经网络翻译模型。短语级翻译模型为，基于短语级别的神经网络翻译模型。

在本申请的一些实施例中，进一步提供了一种基于知识蒸馏的数据桥接方案。具体的，对于前述各实施例生成的混合语言训练语料与平行语料组成的平行语料对，若直接送入翻译模型比较难学习。为此，本实施例中可以利用知识蒸馏的方法进行数据桥接，以进一步增强数据。

具体实现方式如下：

S1、获取预训练的混合翻译模型。

其中。所述混合翻译模型为处理源语言、源语言近似语言至所述目标语言翻译任务的模型。

本步骤中，可以预先训练一个由源语言S、源语言近似语言A到目标语言T的混合翻译模型。具体的，以源语言S与目标语言T的平行语料对，以及语言A与目标语言T的平行语料，训练混合翻译模型，作为教师模型，使得教师模型能够学习到源语言S与目标语言T间的语言知识，以及语言A与目标语言T间的语言知识。

S2、将所述混合语言训练语料输入所述混合翻译模型，得到输出的预测目标语言语料。

对于前述获取的混合语言训练语料，输入上述预训练的混合翻译模型，得到模型输出的预测目标语言语料，定义为t-student。可以理解的是，该预测目标语言语料t-student可以同时融入源语言S与目标语言T间的语言知识，以及语言A与目标语言T间的语言知识。

S3、以所述混合语言训练语料及所述预测目标语言语料组成的平行语料对加入所述训练样本集。

具体的，将混合语言训练语料与预测目标语言语料t-student组成平行语料对，加入训练样本集。则训练样本集中，同时包括混合语言训练语料与平行语料组成的平行语料对，以及由混合语言训练语料与预测目标语言语料t-student组成平行语料对。

本实施例中，对于混合语言训练语料，经过混合翻译模型输出预测目标语言语料，该预测目标语言语料可以同时融入源语言S与目标语言T间的语言知识，以及语言A与目标语言T间的语言知识，进而由混合语言训练语料与预测目标语言语料组成平行语料对，加入训练样本集。也即，本实施例中利用知识蒸馏的方法进行数据桥接，进一步增强数据，降低翻译模型的学习难度，提升了模型的翻译质量。

在本申请的一些实施例中，由于混合语言训练语料融合了不同语言的文本，进而在翻译任务S-T和翻译任务A-T之间建立起联系，以及在翻译任务S-T和翻译任务S-B之间建立起联系。在此基础上，本实施例中可以在跨语言迁移学习中进一步联合第三方语言的预训练模型和训练语料。

具体的，可以使用预训练的第三方翻译模型的模型参数，对源语言至目标语言的翻译模型S-T进行参数初始化。

其中，若所述训练语料的语言与所述源语言S近似，也即，训练语料的语言为A，则所述第三方翻译模型为处理由所述训练语料的语言A至所述目标语言T的翻译任务的模型，定义为翻译模型A-T。

若所述训练语料的语言与所述目标语言T近似，也即，训练语料的语言为B，则所述第三方翻译模型为处理由所述源语言S至所述训练语料的语言B的翻译任务的模型，定义为翻译模型S-B。

本实施例中，通过将第三方翻译模型迁移至源语言至目标语言的翻译模型中，结合由第三方语言训练语料生成的混合语言训练语料，实现了将第三方翻译模型和第三方语言训练语料的有机联合，可以有效提高第三方语言资源的利用效率，从而提升翻译模型的翻译质量。

进一步的，为了使翻译模型S-T知识迁移更加平顺，在翻译模型S-T的训练过程中，随着训练的进行，本实施例中可以通过改变训练样本集中组成平行语料对的混合语言训练语料中，替换后的平行文本单元的占比来适配翻译模型S-T的迁移。

具体的，随着训练的进行，训练样本集中组成所述平行语料对的混合语言训练语料中，替换后的平行文本单元的占比可以逐渐递增。

在训练的初始阶段，翻译模型S-T的参数全部为翻译模型A-T的参数，此时混合语言训练语料中替换后的平行文本单元的比例p可以为零，也即混合语言训练语料即为源语言和/或目标语言各自的近似语言下的训练语料，未进行平行文本单元的替换。

随着训练的进行，逐步提高p的比例，使得翻译模型S-T能够同时学会语言A和语言S的对齐关系，和/或，语言B和语言T的对齐关系。

在训练的最后阶段，p可以调整为1，此时翻译模型S-T的训练样本全部是S-T的平行语料对，翻译模型的参数学习的是S-T之间的知识，从而完成最终的迁移学习目的。p随着训练过程的变化趋势如图4所示。

本实施例中，通过控制混合语言训练语料中第三方语言的融合比例，来平滑的控制跨语言迁移学习流程。使用本实施例提供的方法，可以使得语言间迁移更加平滑，并且能够有效的利用第三方语言的预训练翻译模型和平行语料对。

下面对本申请实施例提供的翻译模型训练装置进行描述，下文描述的翻译模型训练装置与上文描述的翻译模型训练方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种翻译模型训练装置结构示意图。

如图5所示，该装置可以包括：

数据获取单元11，用于获取源语言和/或目标语言各自的近似语言下的训练语料，以及所述训练语料的平行语料，其中，若所述训练语料的语言与所述源语言近似，则所述平行语料为目标语言，若所述训练语料的语言为与所述目标语言近似，则所述平行语料为源语言；

文本替换单元12，用于针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对；

模型训练单元13，用于以所述平行语料对加入训练样本集，训练源语言至目标语言的翻译模型。

可选的，上述文本替换单元针对所述训练语料中的至少一文本单元，利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料的过程，可以包括：

获取所述训练语料的语义单元；

可选的，上述文本替换单元获取所述训练语料的语义单元的过程，可以包括：

对所述训练语料进行句法结构分析，得到句法结构树；

可选的，上述文本替换单元从所述句法结构树中提取设定句法结构信息，作为训练语料的语义单元的过程，可以包括：

可选的，上述文本替换单元在所述从所述句法结构树中提取设定句法结构信息之前，还可以进一步包括：

可选的，上述文本替换单元针对所述训练语料中的至少一个语义单元，利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料的过程，可以包括：

可选的，当所述设定替换比例p大于设定阈值时，所述相似语言翻译模型为句子级翻译模型；当所述设定替换比例p不超过所述设定阈值时，所述相似语言翻译模型为短语级翻译模型。

可选的，本申请的装置还可以包括：数据桥接单元，用于：

可选的，所述源语言至目标语言的翻译模型的初始化参数可以是预训练的第三方翻译模型的模型参数；

可选的，所述源语言至目标语言的翻译模型的训练过程，随训练的进行，训练样本集中组成所述平行语料对的混合语言训练语料中，替换后的平行文本单元的占比可以逐渐递增。

本申请实施例提供的翻译模型训练装置可应用于翻译模型训练设备，如终端：手机、电脑等。可选的，图6示出了翻译模型训练装置设备的硬件结构框图，参照图6，翻译模型训练装置设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种翻译模型训练方法，其特征在于，包括：

获取源语言和/或目标语言各自的近似语言下的训练语料，以及所述训练语料的平行语料，其中，若所述训练语料的语言与所述源语言近似，则所述平行语料为目标语言，若所述训练语料的语言为与所述目标语言近似，则所述平行语料为源语言，所述近似语言是指具有相似语言学特征的语言；

针对所述训练语料中的至少一文本单元，利用所述文本单元与在所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对；

以所述平行语料对加入训练样本集，训练翻译模型，训练后的翻译模型能够用于处理由所述源语言至所述目标语言的翻译任务。

2.根据权利要求1所述的方法，其特征在于，所述针对所述训练语料中的至少一文本单元，利用所述文本单元与在所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，包括：

获取所述训练语料的语义单元；

针对所述训练语料中的至少一个语义单元，利用所述语义单元与在所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料。

3.根据权利要求2所述的方法，其特征在于，所述获取所述训练语料的语义单元，包括：

对所述训练语料进行句法结构分析，得到句法结构树；

4.根据权利要求3所述的方法，其特征在于，所述从所述句法结构树中提取设定句法结构信息，作为训练语料的语义单元，包括：

5.根据权利要求3所述的方法，其特征在于，在所述从所述句法结构树中提取设定句法结构信息之前，该方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述针对所述训练语料中的至少一个语义单元，利用所述语义单元与在所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换，得到混合语言训练语料，包括：

对所述训练语料中每一语义单元，以设定替换比例p标记为需要替换；

采用预训练的相似语言翻译模型，按照所述训练语料中各语义单元标记的替换比例进行翻译替换，得到模型输出的混合语言训练语料，所述相似语言翻译模型为，处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。

7.根据权利要求6所述的方法，其特征在于，当所述设定替换比例p大于设定阈值时，所述相似语言翻译模型为句子级翻译模型；当所述设定替换比例p不超过所述设定阈值时，所述相似语言翻译模型为短语级翻译模型。

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求1所述的方法，其特征在于，所述源语言至目标语言的翻译模型的初始化参数为预训练的第三方翻译模型的模型参数；

10.根据权利要求9所述的方法，其特征在于，所述源语言至目标语言的翻译模型的训练过程，随训练的进行，训练样本集中组成所述平行语料对的混合语言训练语料中，替换后的平行文本单元的占比逐渐递增。

11.一种翻译模型训练装置，其特征在于，包括：

数据获取单元，用于获取源语言和/或目标语言各自的近似语言下的训练语料，以及所述训练语料的平行语料，其中，若所述训练语料的语言与所述源语言近似，则所述平行语料为目标语言，若所述训练语料的语言为与所述目标语言近似，则所述平行语料为源语言，所述近似语言是指具有相似语言学特征的语言；

文本替换单元，用于针对所述训练语料中的至少一文本单元，利用所述文本单元与在所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换，得到混合语言训练语料，并由混合语言训练语料与所述训练语料的平行语料组成平行语料对；

模型训练单元，用于以所述平行语料对加入训练样本集，训练翻译模型，训练后的翻译模型能够用于处理由所述源语言至所述目标语言的翻译任务。

12.一种翻译模型训练设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的翻译模型训练方法的各个步骤。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的翻译模型训练方法的各个步骤。