CN115587590A

CN115587590A - 训练语料集构建方法、翻译模型训练方法、翻译方法

Info

Publication number: CN115587590A
Application number: CN202211255457.8A
Authority: CN
Inventors: 贾承勋; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-10

Abstract

本申请提供训练语料集构建方法、翻译模型训练方法、翻译方法，其中训练语料集构建方法包括：获取初始语料对，初始语料对包括至少两种语言语料，至少两种语言语料之间互为译文；对至少两种语言语料进行词对齐处理，得到词对齐信息；从第一语言语料中提取第一短语，基于词对齐信息从第二语言语料中确定与第一短语匹配的第二短语，根据第一短语和第二短语，构建短语词典，第一语言语料为至少两种语言语料中的任一种，第二语言语料为至少两种语言语料中除第一语言语料以外的任一种；确定短语词典中的待替换短语，以及待替换短语的相似短语，利用相似短语替换初始语料对中的待替换短语，得到扩展语料对；基于初始语料对和扩展语料对，构建训练语料集。

Description

训练语料集构建方法、翻译模型训练方法、翻译方法

技术领域

本说明书涉及数据处理技术领域，特别涉及训练语料集构建方法、翻译模型训练方法、翻译方法。

背景技术

深度学习模型一般都需要大量的训练数据进行训练，才能得到符合要求的训练结果，但通常情况下训练数据比较少，使用较少的训练数据对模型进行训练，会导致训练效果不够理想。例如，使用较少的训练语料对翻译模型进行训练，会导致最终得到的翻译模型的翻译准确率降低。

因此，亟需一种能够对训练语料进行扩充的方法，以提供更多的训练语料用于对深度学习模型进行训练。

发明内容

有鉴于此，本申请实施例提供了一种训练语料集构建方法、翻译模型训练方法、翻译方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种训练语料集构建装置，一种翻译模型训练装置，一种翻译装置、计算设备，以及计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种训练语料集构建方法，包括：

获取初始语料对，所述初始语料对包括至少两种语言语料，所述至少两种语言语料之间互为译文；

对所述至少两种语言语料进行词对齐处理，得到词对齐信息；

从第一语言语料中提取第一短语，基于所述词对齐信息从第二语言语料中确定与所述第一短语匹配的第二短语，根据所述第一短语和所述第二短语，构建短语词典，所述第一语言语料为所述至少两种语言语料中的任一种，所述第二语言语料为所述至少两种语言语料中除所述第一语言语料以外的任一种；

确定所述短语词典中的待替换短语，以及所述待替换短语的相似短语，利用所述相似短语替换所述初始语料对中的所述待替换短语，得到扩展语料对；

基于所述初始语料对和所述扩展语料对，构建训练语料集。

根据本申请实施例的第二方面，提供了一种翻译模型训练方法，包括：

获取包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料，所述训练语料集根据上述第一方面所述的训练语料集构建方法构建得到；

将所述多个训练语料对输入翻译模型，基于每个训练语料对确定预测语料；

基于每个训练语料对的预测语料和该训练语料对的译文语料确定损失值；

基于所述损失值对所述翻译模型的模型参数进行调整，直至达到训练停止条件。

根据本申请实施例的第三方面，提供了一种翻译方法，包括：

获取待翻译文本；

将所述待翻译文本输入翻译模型进行翻译，得到所述待翻译文本的译文文本，所述翻译模型根据上述第二方面所述的翻译模型训练方法训练得到。

根据本申请实施例的第四方面，提供了一种训练语料集构建装置，包括：

第一获取模块，被配置为获取初始语料对，所述初始语料对包括至少两种语言语料，所述至少两种语言语料之间互为译文；

词对齐模块，被配置为对所述至少两种语言语料进行词对齐处理，得到词对齐信息；

第一构建模块，被配置为从第一语言语料中提取第一短语，基于所述词对齐信息从第二语言语料中确定与所述第一短语匹配的第二短语，根据所述第一短语和所述第二短语，构建短语词典，所述第一语言语料为所述至少两种语言语料中的任一种，所述第二语言语料为所述至少两种语言语料中除所述第一语言语料以外的任一种；

替换模块，被配置为确定所述短语词典中的待替换短语，以及所述待替换短语的相似短语，利用所述相似短语替换所述初始语料对中的所述待替换短语，得到扩展语料对；

第二构建模块，被配置为基于所述初始语料对和所述扩展语料对，构建训练语料集。

根据本申请实施例的第五方面，提供了一种翻译模型训练装置，包括：

第二获取模块，被配置为获取包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料，所述训练语料集根据上述第一方面所述的训练语料集构建方法构建得到；

第一确定模块，被配置为将所述多个训练语料对输入翻译模型，基于每个训练语料对确定预测语料；

第二确定模块，被配置为基于每个训练语料对的预测语料和该训练语料对的译文语料确定损失值；

参数调整模块，被配置为基于所述损失值对所述翻译模型的模型参数进行调整，直至达到训练停止条件。

根据本申请实施例的第六方面，提供了一种翻译装置，包括：

第三获取模块，被配置为获取待翻译文本；

翻译模块，被配置为将所述待翻译文本输入翻译模型进行翻译，得到所述待翻译文本的译文文本，所述翻译模型根据上述第二方面所述的翻译模型训练方法训练得到。

根据本申请实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述训练语料集构建方法的步骤，或者，实现所述翻译模型训练方法的步骤，或者，实现所述翻译方法的步骤。

根据本申请实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述训练语料集构建方法的步骤，或者，实现所述翻译模型训练方法的步骤，或者，实现所述翻译方法的步骤。

根据本申请实施例的第九方面，提供了一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述训练语料集构建方法的步骤，或者，实现所述翻译模型训练方法的步骤，或者，实现所述翻译方法的步骤。

本申请提供的训练语料集构建方法，获取初始语料对，所述初始语料对包括至少两种语言语料，所述至少两种语言语料之间互为译文；对所述至少两种语言语料进行词对齐处理，得到词对齐信息；从第一语言语料中提取第一短语，基于所述词对齐信息从第二语言语料中确定与所述第一短语匹配的第二短语，根据所述第一短语和所述第二短语，构建短语词典，所述第一语言语料为所述至少两种语言语料中的任一种，所述第二语言语料为所述至少两种语言语料中除所述第一语言语料以外的任一种；确定所述短语词典中的待替换短语，以及所述待替换短语的相似短语，利用所述相似短语替换所述初始语料对中的所述待替换短语，得到扩展语料对；基于所述初始语料对和所述扩展语料对，构建训练语料集。

本申请实施例提供的上述方法通过短语替换的方式将初始语料对中的待替换短语替换为相似短语，由于短语是由两个或两个以上的词组成的固定搭配，其语义是确定的，不存在被翻译成多种语义不同的译文的情况，因此产生歧义的可能性会大大降低，则替换后得到的扩展语料不会违背初始语料的语义，降低了扩展语料产生语义问题的可能性，使得得到的训练语料集在语义方面的表达更加准确，进而基于这样的训练语料集对翻译模型进行训练，能够提高翻译模型的翻译准确率。

附图说明

图1A是本申请一实施例提供的一种执行训练语料集构建方法、翻译模型训练方法和翻译方法的系统的系统架构图；

图1B是本申请一实施例提供的一种训练语料集构建方法的示意图；

图2是本申请一实施例提供的一种训练语料集构建方法的流程图；

图3是本申请一实施例提供的一种在训练语料集构建中进行词对齐处理的方法的流程图；

图4是根据本申请一实施例提供的一种在训练语料集构建中确定待替换短语的方法的流程图；

图5是根据本申请一实施例提供的一种在训练语料集构建中确定相似短语的方法的流程图；

图6是根据本申请一实施例提供的一种在训练语料集构建中确定候选短语向量的方法的流程图；

图7是根据本申请一实施例提供的一种在训练语料集构建中确定扩展语料对的方法的流程图；

图8是根据本申请一实施例提供的另一种在训练语料集构建中确定扩展语料对的方法的流程图；

图9是根据本申请一实施例提供的另一种构建训练语料集的方法的流程图；

图10是本申请一实施例提供的一种应用于中英文训练语料构建的训练语料集构建方法的处理流程图；

图11是本申请一实施例提供的另一种训练语料集构建方法的示意图；

图12是根据本申请一实施例提供的一种翻译模型训练方法的流程图；

图13是根据本申请一实施例提供的一种翻译方法的流程图；

图14是本申请一实施例提供的一种训练语料集构建装置的结构示意图；

图15是本申请一实施例提供的一种翻译模型训练装置的结构示意图；

图16是本申请一实施例提供的一种翻译装置的结构示意图；

图17是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

需要说明的是，本申请所涉及的与用户相关的信息或数据，均为经用户授权或者经过各方充分授权的信息和数据。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

语料对：包括互为译文关系的至少两种语言语料，以及两种语言语料之间的对应关系。

词对齐：确定每个词语对应的译文，并建立每个词语与其译文的对应关系。

第二短语：与第一短语互为译文的短语，是第一短语在另一语种中的表达形式。

待替换短语：需要被替换掉的短语。

相似短语：与待替换短语相似程度比较高的短语，可能是待替换短语的同义短语或近义短语等。

词频：短语的词频是短语在整个语言语料中出现的频率。

短语向量：短语的向量化表示，用于表示短语的语义，可以通过Bert模型确定。

目标语言语料：包括待替换短语的语言语料。

指定语言语料：包括与待替换短语匹配的短语的语言语料。

NMT(Neural Machine Translation，神经机器翻译)：基于编解码-解码器的端到端神经机器翻译是目前机器翻译的主流研究方向，其利用编码器将待翻译文本编码为固定长度的语义表示，解码器利用该语义表示逐词生成相应的译文文本。

数据增强：通过利用训练样本改变数据状态产生数据的变体，从而生成更多的训练数据，在训练数据稀缺的情况下，数据增强是提升低资源神经机器翻译性能最直接有效的方法。

回译：利用已有的译文语言语料，借助译文语言-待翻译语言的翻译模型得到待翻译语言以获得伪平行数据。

同义词替换：随机地选取出一些词，然后用这些词的同义词对其进行替换，产生出新的语料对。

n-gram语言模型：也可以称之为n元文法语言模型，n-gram指的是由N个具有先后顺序的单词组成的集合，每一个字节的片段称为gram，并对所有gram出现的频率程度进行统计，最后根据预先设定的阈值进行过滤。

Word embedding(词嵌入)：将数据向量化，映射到同一语义空间下。

其次，对执行本申请提供的训练语料集构建方法、翻译模型训练方法和翻译方法的系统的系统结构进行简单说明。

参见图1A，图1A是本申请一实施例提供的一种执行训练语料集构建方法、翻译模型训练方法和翻译方法的系统的系统架构图。

该系统可以包括执行训练样本集构建方法的服务端101、执行翻译模型训练方法的训练端102和执行翻译方法的应用端103。并且，该服务端、训练端和应用端可以集成于同一个计算设备中，也可以在相互独立的不同计算设备中。示例性地，服务端、训练端和应用端分别是三个相互独立的计算设备；或者，服务端和训练端集成在同一个计算设备中，应用端在另一个计算设备中；或者，训练端和应用端集成在同一个计算设备中，服务端在另一个计算设备中；或者，服务端和应用端集成在同一个计算设备中，训练端在另一个计算设备中，本申请实施例对此不作限定。

并且，上述计算设备可以是终端，也可以是服务器，该终端可以是任何一种可与用户进行人机交互的电子产品，该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心，本申请实施例对此不做限定。

以服务端、训练端和应用端分别是三个相互独立的计算设备为例，对本申请实施例提供的训练语料集构建方法、翻译模型训练方法和翻译方法进行简单介绍。

服务端先获取初始语料对，该初始语料对包括至少两种语言语料，且该至少两种语言语料之间互为译文，然后对该至少两种语言语料进行词对齐处理，得到词对齐信息，从第一语言语料中提取第一短语，基于词对齐信息从第二语言语料中确定与第一短语匹配的第二短语，根据第一短语和第二短语，构建短语词典，该第一语言语料为至少两种语言语料中的任一种，该第二语言语料为至少两种语言语料中除第一语言语料以外的任一种；确定短语词典中的待替换短语，以及待替换短语的相似短语，利用相似短语替换初始语料对中的待替换短语，得到扩展语料对；基于初始语料对和扩展语料对，构建训练语料集。

然后，服务端将构建好的训练语料集发送至训练端，则训练端获取到包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料，将多个训练语料对输入翻译模型，基于每个训练语料对确定预测语料；基于每个训练语料对的预测语料和该训练语料对的译文语料确定损失值；基于损失值对翻译模型的模型参数进行调整，直至达到训练停止条件。

然后，训练端将训练完成的翻译模型发送至应用端，则应用端接收到该翻译模型，获取待翻译文本，将待翻译文本输入接收到的翻译模型进行翻译，得到该待翻译文本的译文文本。

本申请实施例通过对初始语料对中的待替换短语进行替换，得到扩展语料对，并基于扩展语料对和初始语料对构建训练语料集，由于短语是语料中存在较频繁的部分，比词包含的信息更多，也不存在一词多译的情况，因此产生歧义的可能性会大大降低，也不会出现语义错误的问题，则替换后得到的扩展语料不会违背初始语料的语义，使得得到的训练语料集在语义方面的表达更加准确，进而基于这样的训练语料集对翻译模型进行训练，能够提升翻译模型的翻译性能，提高翻译模型在应用时的翻译准确率。

接下来，对本申请提供的训练语料集构建方法的应用场景进行说明。

在现有技术中，为了缓解训练数据不足的情况，一般可以通过数据增强的方式(Data Augmentation)来增加训练数据的多样性。通常采用的数据增强方式是同义词替换。具体的，先从低频词表中选择词频低于词频阈值的词作为待替换词，然后在向量化后计算待替换词之间的相似度，基于相似度确定待替换词的同义词，对初始语料进行分词和词对齐处理，根据词对齐信息利用同义词替换待替换词，从而得到扩展训练语料。

但是在基于词级信息替换中，由于一词多译以及语句结构各异，易出现歧义和语法错误，大大降低了生成的扩展语料的质量，基于这样的训练语料训练翻译模型，会对模型翻译性能的提升产生不良影响。

为此，本申请提供了一种训练语料集构建方法。参见图1B，图1B是根据本申请一实施例提供的一种训练语料集构建方法的示意图。获取初始语料对，该初始语料对包括至少两种语言语料，如第一语言语料和第二语言语料，且该至少两种语言语料之间互为译文，然后对该至少两种语言语料进行词对齐处理，得到词对齐信息，从第一语言语料中提取第一短语，基于词对齐信息从第二语言语料中确定与第一短语匹配的第二短语，根据第一短语和第二短语，构建短语词典，该第一语言语料为至少两种语言语料中的任一种，该第二语言语料为至少两种语言语料中除第一语言语料以外的任一种；确定短语词典中的待替换短语，以及确定待替换短语的相似短语，利用相似短语替换初始语料对中的待替换短语，得到扩展语料对；基于初始语料对和扩展语料对，构建训练语料集。

上述方法通过短语替换的方式将初始语料对中的待替换短语替换为相似短语，由于短语是语料中存在较频繁的部分，比词包含的信息更多，是短语由两个或两个以上的词组成的固定搭配，其语义是确定的，不存在被翻译成多种语义不同的译文的情况，因此产生歧义的可能性会大大降低，也不会出现语义错误的问题，则替换后得到的扩展语料不会违背初始语料的语义，使得得到的训练语料集在语义方面的表达更加准确，进而基于这样的训练语料集对翻译模型进行训练，能够提高翻译模型的翻译准确率。

在本申请中，提供了一种训练语料集构建方法、一种翻译模型训练方法、一种翻译方法。本申请同时涉及一种训练语料集构建装置、一种翻译模型训练装置、一种翻译装置、一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图2示出了根据本申请一实施例提供的一种训练语料集构建方法的流程图，具体包括以下步骤：

步骤202：获取初始语料对，该初始语料对包括至少两种语言语料，且该至少两种语言语料之间互为译文。

其中，初始语料对是用来对翻译模型进行训练的语料对。

作为一种示例，由于需要用该初始语料对对翻译模型进行训练，因此，该初始语料对的数量可以是多个，且每个初始语料对包括至少两个语言语料，该至少两个语言语料是不同的语种，且该至少两个语言语料之间互为译文。

例如，初始语料对可以是中英文语料对，则每个初始语料对包括一个中文语料，一个英文语料，且该中文语料与该英文语料互为译文；或者，初始语料对可以是中英韩三种语言组成的语料对，则每个初始语料对可以包括一个中文语料、一个英文语料和一个韩文语料，且该中文语料、英文语料和韩文语料三者之间互为译文。

作为一种示例，语言语料可以是完整的句子或者较短的段落，或者语言语料也可以是短语。

在一些实施例中，可以从已有的语料库中获取初始语料对，该语料库中包括多个语料对，每个语料对包括至少两个语言语料，且该至少两个语言语料分别是不同的语种，该至少两个语言语料之间互为译文。例如，该已有的语料库可以是TED平行语料库，其中包括多语言语料。或者，可以获取大量的中英文对照文献，基于中英文对照文献人工构建初始语料对。本申请实施例对获取初始语料对的方式不进行限定。

需要说明的是，以初始语料对是第一语言-第二语言的翻译模型的训练语料为例，在已有第二语言语料的情况下，可以通过回译的方式确定与该第二语言语料互为译文的第一语言语料。具体的，可以将第二语言语料输入已有的第二语言-第一语言的翻译模型，翻译得到第二语言语料对应的第一语言语料，将第一语言语料和第二语言语料组成伪平行数据，该伪平行数据可以作为初始语料对。

本申请实施例是在现有的训练语料不足的情况下扩充训练语料，因此，需要先获取现有的训练语料，在现有的训练语料的基础上进行语料扩展，以达到扩充训练语料的效果。

步骤204：对至少两种语言语料进行词对齐处理，得到词对齐信息。

其中，词对齐处理是为每个词确定与其互为译文的词，词对齐信息便包括了两个互为译文的词，以及该两个互为译文的词之间的对应关系。作为一种示例，词对齐信息可以包括多个词对，每个词对包括至少两个词，该至少两个词是不同语种，且该至少两个词互为译文。

作为一种示例，对至少两种语言语料进行词对齐处理便是为每种语言语料中的词在另一种语言语料中确定与其互为译文的词，得到两种语言语料中词之间的对应关系。即通过词对齐处理，能够建立至少两种语言语料中词之间的对应关系。

在本申请实施例中，可以使用fast_align工具对至少两种语言语料进行词对齐处理，fast_align是一个简单、快速、无监督的词对齐器。

在一些实施例中，若语言语料是句子或段落，由于至少两种该语言语料之间的对应关系是已知的，且语言语料均是由词组成的，因此，对于任一种语言语料中的任一词，可以根据语言语料之间的对应关系，确定另一种语言语料中与该词对应的译文，将该词与该词的译文建立对应关系，则可以得到词对齐信息。

示例性地，假设第一语言语料是“我爱我的祖国”，第二语言语料是“I love mymotherland”，该两个语料之间是对应关系，对于第一语言语料中的词语“我”，可以从第二语言语料中确定与其对应的译文“I”，对于第一语言语料中“爱”，可以从第二语言语料中确定与其对应的译文“love”，对于第一语言语料中的词语“我的”，可以从第二语言语料中确定与其对应的译文“my”，对于第一语言语料中的词语“祖国”，可以从第二语言语料中确定与其对应的译文“motherland”。如此，便可以建立第一语言语料与第二语言语料中词语之间的对应关系。

在另一些实施例中，若语言语料是词语，由于初始语料对包括至少两种语言语料之间的译文关系，因此，可以直接确定语言语料中词之间的对应关系，得到词对齐信息。

进一步地，在获取到初始语料对后，可以对获取的初始语料对进行数据清洗，将影响训练语料质量的初始语料对过滤掉，然后对进行数据清洗后剩余的初始语料对中的至少两种语言语料进行词对齐处理，能够提高后续获取的训练语料集的数据质量。

其中，数据清洗可以包括去重、去空行、过滤长度异常和乱码较多的语言语料等中的至少一种。

作为一种示例，可以将初始语料对中重复的语料对删除，将初始语料对中字符数量大于数量阈值的语料对删除，将存在乱码比较多的语料对删除等等，以保证保留的初始语料对是质量比较高的。

进一步的，若初始语料对中包括中文语料，还可以将中文语料中的繁体字替换为更常用的简体字，使得该中文语料的应用更广泛。或者，也可以根据使用简体字的中文语料得到使用繁体字的中文语料，以便于模型能够对基于中文繁体字的待翻译文本进行翻译。

步骤206：从第一语言语料中提取第一短语，基于词对齐信息从第二语言语料中确定与第一短语匹配的第二短语，根据第一短语和第二短语，构建短语词典。

其中，第一语言语料为至少两种语言语料中的任一种，第二语言语料为至少两种语言语料中除第一语言语料以外的任一种。

在一些实施例中，可以通过JioNLP(Jio Natural Language Processing，中文自然语言预处理)工具从第一语言语料中提取第一短语。或者，可以采用现有的基于统计的方法、基于图网络的方法、基于向量的方法、基于深度学习的方法等各种方法从第一语言语料中提取第一短语，本申请实施例对此不作限定。

其中，JioNLP是一个提供常用NLP功能的工具包，可以提供文本清洗、关键短语抽取、停用词过滤等NLP任务的预处理功能。

需要说明的是，若第一短语是中文短语，则可以设置中文短语的长度范围为大于1小于6，且在提取中文短语时，可以剔除人名、地名和组织机构名等实体词。

在一些实施中，从第一语言语料中抽取到第一短语后，由于第一短语通常是由至少两个词组成的，因此可以先从词对齐信息中获取第一短语包括的至少两个词，然后获取与该至少两个词对应的词，将该至少两个词对应的词进行拼接，则可以得到与该第一短语匹配的第二短语。然后建立第一短语和第二短语的对应关系，将第一短语和第二短语从初始语料对中提取出来得到短语对，通过上述方式可以确定每个第一短语匹配的第二短语，将每个第一短语和与该第一短语匹配的第二短语从初始语料对中提取出来，可以得到多个短语对，基于该多个短语对可以构建短语词典。

例如，假设第一语言语料是“我昨天下午6点回家”，抽取得到的第一短语是“昨天下午”，可以确定该第一短语包括词“昨天”和“下午”，则可以在词对齐信息中查找与“昨天”对应的词是“yesterday”，与“下午”对应的词是“afternoon”，则可以确定与第一短语“昨天下午”对应的第二短语是“yesterday afternoon”。然后建立第一短语“昨天下午”与第二短语“yesterday afternoon”的对应关系，将第一短语从第一语言语料中提取出来，将第二短语从第二语言语料中提取出来，可以得到短语对“昨天下午-yesterday afternoon”。对初始语料对中的每个语料均进行这样的操作，则可以得到多个短语对，将该多个短语对组成的词典称为短语词典。

本申请实施例中，通过从第一语言语料中提取第一短语，且根据词对齐信息建立第一短语和第二短语的对应关系，即建立了互为译文的至少两种语言语料中短语之间的对应关系，并构建了短语词典。这样一来，若需要对某个短语进行替换，则可以根据短语词典选择将其对应的短语也进行替换，如此能够得到更多的扩展语料。

步骤208：确定短语词典中的待替换短语，以及待替换短语的相似短语，利用相似短语替换初始语料对中的待替换短语，得到扩展语料对。

在一些实施例中，由于本方案在对短语替换后并不会将初始语料对去掉，在对翻译模型进行训练时，还是会基于初始语料对进行训练的，因此，可以将短语词典中每个短语均确定为待替换短语。

在另一些实施例中，对于短语词典中一些使用比较频繁的短语，说明在后续翻译模型的应用中会比较常见，为了提高模型的翻译性能，这一类短语可以不用替换，但对于短语词典中一些不太常见的短语，为了便于模型学习，可以对这些短语进行替换。因此，可以将短语词典中在整个语言语料中出现频率比较低的短语确定为待替换短语。

在一些实施例中，确定待替换短语后，可以计算待替换短语与候选短语之间的相似性，以从候选短语中为待替换短语确定相似短语。在初始语料对中确定待替换短语所属的语言语料，将该语言语料中的待替换短语替换为相似短语，则可以得到与该语言语料的语义相同但使用短语不同的新的语言语料，基于该新的语言语料可以得到扩展语料对。

本申请实施例中，通过相似短语替换初始语料对中的待替换短语，则可以得到与初始语料对中的语言语料的语义相同但使用短语不同的新的语言语料，进而得到扩展语料对，实现了对初始语料对的扩充。并且，由于短语包含的信息比词多，且短语通常不存在一词多译的问题，因此，得到的相似短语是符合语言语料的语义，不会出现存在歧义的问题，进而得到的扩展语料对不会出现歧义的问题，提高了确定的扩展语料对的质量。

步骤210：基于初始语料对和扩展语料对，构建训练语料集。

在一些实施例中，将初始语料对和扩展语料对组合在一起，则可以得到训练语料集。如此得到的训练语料集中不仅包括没有替换短语之前的语言语料，也包括替换短语之后的语言语料，在不造成语义错误的情况下大大丰富了训练语料。

本申请实施例提供的上述方法通过短语替换的方式将初始语料对中的待替换短语替换为相似短语，由于短语比词包含的信息更多，也不存在一词多译的情况，因此产生歧义的可能性会大大降低，则替换后得到的扩展语料不会违背初始语料的语义，使得得到的训练语料集在语义方面的表达更加准确，进而基于这样的训练语料集对翻译模型进行训练，能够提高翻译模型的翻译准确率。

图3示出了根据本申请一实施例提供的一种在训练语料集构建中进行词对齐处理的方法的流程图，具体包括以下步骤：

步骤302：对至少两种语言语料分别进行分词处理，得到各语言语料的分词结果。

其中，分词结果可以是得到多个词单元。

在一些实施例中，对语言语料进行分词处理的过程中，若语言语料是中文语料，可以将一个字划分为一个词单元，或者，将一个词语划分为一个词单元，将一个标点符号划分为一个词单元；若语言语料是外文语料，可以将一个单词划分为一个词单元，或者，将一个外文符号划分为一个词单元；若语言语料中有数字，可以将数字单独划分为一个词单元。

在本申请实施例中，可以采用基于词典、基于词频度统计、基于规则等任意一种分词方法对每个语言语料进行分词处理。在一些实施例中，基于词典的分词方法可以包括正向最大匹配，逆向最大匹配，最少词切分法和双向匹配法。基于规则的分词方法可以包括基于HMM(Hidden Markov Model，隐马尔科夫模型)的分词方法。

以正向最大匹配的分词方法为例，对于任一语言语料，按照语言语料的阅读顺序正向获取该语言语料的m个字符作为匹配字段，将该匹配字段与分词词典中的词进行匹配，若分词词典中存在与该匹配字段相同的词，则认为匹配成功，将该匹配字段作为一个词单元切分出来。若分词词典中不存在与该匹配字段相同的词，则认为匹配失败，将该匹配字段的最后一个字符去掉，剩下的字符作为新的匹配字段，进而再次匹配，直到剩余字符串的长度为零，可以认为完成了一轮匹配，然后从语言语料中取出下一组m个字符作为匹配字段进行匹配处理，直到该语言语料中所有字符均被切分完为止。

其中，m可以是分词词典中最长的词包含字符的数量，也可以是根据经验预设的，本申请实施例对此不作限定。

以语言语料是中文语料“我昨天下午6点回家”为例，通过上述分词方法，可以得到词单元“我”、“昨天”、“下午”、“6点”、“回”、“家”。

在一些实施例中，若至少两种语言语料包括中文语料和英文语料，对于中文语料，可以采用开源分词工具pkuseg进行分词处理，对于英文语料，可以采用NLTK(NaturalLanguage Toolkit，自然语言处理工具包)进行分词处理。

步骤304：基于各语言语料的分词结果，对至少两种语言语料进行词对齐处理，得到词对齐信息。

在一些实施例中，对各语言语料进行分词处理后，可以得到各语种的分词结果，即词单元。然后将每个语种的词单元与其他语种的词单元进行匹配，建立不同语种的词单元之间的对应关系，得到词对齐信息。

作为一种示例，假设初始语料对包括中文语料、英文语料、韩文语料和日文语料，则对中文语料进行分词处理后，可以得到多个中文词单元，对英文语料进行分词处理后，可以得到多个英文词单元，对韩文语料进行分词处理后，可以得到多个韩文词单元，对日文语料进行分词处理后，可以得到多个日文词单元。

作为一种示例，由于至少两种该语言语料之间的对应关系是已知的，且语言语料均是由词单元组成的，因此，对于任一语种的语言语料中的任一词单元，可以根据语言语料之间的对应关系，确定另一语种的语言语料中与该词单元对应的词单元，将该词单元与该词单元对应的另一语种的词单元之间建立对应关系，则可以得到词对齐信息。

以初始语料对包括中文语料和英文语料为例，假设中文语料是“我昨天下午6点回家”，则其对应的英文语料为“I went home at 6o'clock yesterday afternoon”，对中文语料进行分词处理后得到的分词结果包括“我”、“昨天”、“下午”、“6点”“回”、“家”，对英文语料进行分词处理后得到的分词结果包括“I”、“went”、“home”、“at 6o'clock”“yesterday”、“afternoon”，则对于中文词单元“回”，可以确定其对应的英文词单元是“went”，对于中文词单元“家”，可以确定其对应的英文词单元是“home”。以此类推，可以确定每个中文词单元对应的英文词单元，建立该中文语料中的中文词单元与英文词单元的对应关系，得到词对齐信息。

本申请实施例中，对各语言语料进行分词处理，并对不同语种的词单元进行词对齐处理，建立不同语种的词单元之间的对应关系，得到词对齐信息，如此在确定语言语料中短语之间对应关系时，可以根据词对齐信息来确定，提高了确定短语之间对应关系的效率。

需要说明的是，上述步骤302-步骤304是步骤104的一种具体实现方式。

图4示出了根据本申请一实施例提供的一种在训练语料集构建中确定待替换短语的方法的流程图，具体包括以下步骤：

步骤402：确定短语词典中任一短语的词频。

其中，任一短语的词频指的是该短语在整个初始语料对中出现的频次。

在本申请实施例中，可以在从语言语料中提取短语时统计提取的每个短语的词频，并将每个短语的词频记录在短语词典中，如此便可以从短语词典中获取到每个短语的词频。

步骤404：将词频小于词频阈值的短语确定为待替换短语。

其中，待替换短语可以是至少两种语言语料中任一语言语料中的短语。

需要说明的是，词频阈值可以由计算设备设置，也可以由用户根据实际情况设置，本申请实施例对此不作限定。并且，阈值不能过大，若阈值过大会使匹配得到的相似短语与待替换短语的相似性较差，从而影响基于相似短语构建的语言语料的语义逻辑。例如，阈值可以取5。

在一些实施例中，词频小于词频阈值的短语可以认为是不太常用的短语，对翻译模型的性能帮助不大，因此，可以对这些短语进行替换，即将这些词语确定为待替换短语。

本申请实施例中，将词频小于词频阈值的短语确定为待替换短语，能够避免对所有短语都进行替换的繁杂操作。

需要说明的是，上述步骤402-步骤404是步骤106的一种具体实现方式。

图5示出了根据本申请一实施例提供的一种在训练语料集构建中确定相似短语的方法的流程图，具体包括以下步骤：

步骤502：确定待替换短语的短语向量。

在实施中，可以将待替换短语输入Bert模型，通过Bert模型确定该待替换短语的短语向量。

在一些实施例中，可以通过训练完成的Bert模型对输入的待替换短语进行Wordembedding处理，得到该待替换短语的向量表示，该向量表示便是该待替换短语的短语向量，用于表示该待替换短语的语义。

作为一种示例，可以使用大量训练样本对Bert模型进行预训练，然后应用预训练完成的Bert模型做特征提取，即确定待替换短语的短语向量。示例性地，训练样本可以从初始语料对中获取，也可以从开源的训练样本集中获取。并且，训练样本可以是短语、一句话或一段话。

其中，Bert模型的预训练任务主要包括两个，一个是MLM(Masked LanguageModel，掩码语言模型)，另一个是NSP(Next Sentence Prediction，下一句预测)。

以预训练任务是MLM任务为例，可以将多个训练样本输入Bert模型，Bert模型对每个训练样本进行掩码处理，即随机MASK(掩码)每个训练样本中15％的词，然后通过该训练样本中未被掩码的词预测被掩码的词，根据预测结果与实际结果确定损失值并对Bert模型的参数进行调整，直至损失小于损失阈值，完成对Bert模型的预训练。

步骤504：获取多个候选短语并确定每个候选短语的短语向量，其中，多个候选短语与待替换短语是同一语种。

在一些实施例中，候选短语可以是短语词典中的短语，也可以是从短语库中获取的短语，或者是二者的结合。并且，由于候选短语是用来替换待替换短语的短语，因此，候选短语与待替换短语是同一语种。例如，待替换短语是中文短语，则候选短语也是中文短语。

作为一种示例，获取到候选短语后，可以将候选短语输入训练完成的Bert模型中，该Bert模型对输入的候选短语进行Word embedding处理，得到该候选短语的向量表示，该向量表示便是该候选短语的短语向量，用于表示该候选短语的语义。

步骤506：针对任一待替换短语，基于该待替换短语的短语向量和候选短语的短语向量，确定该待替换短语与每个候选短语之间的相似度。

在一些实施例中，可以通过余弦值、欧氏距离、曼哈顿距离、皮尔逊相关系数、杰卡德相似系数、汉明距离等来表示两个短语之间的相似度。

也就是说，对于任一待替换短语，可以通过计算该待替换短语的短语向量和每个候选短语的短语向量之间的余弦值、欧氏距离、曼哈顿距离、皮尔逊相关系数、杰卡德相似系数或汉明距离，确定待替换短语与每个候选短语之间的相似度。

步骤508：根据该待替换短语对应的多个相似度，从多个候选短语中确定该待替换短语的相似短语。

具体实现中，可以根据待替换短语的多个相似度和相似度阈值的大小关系，或者，可以根据待替换短语的多个相似度之间的大小关系，从多个候选短语中确定该待替换短语的相似短语。

需要说明的是，相似度阈值可以由计算设备默认设置，也可以由用户根据实际需求进行设置，本申请实施例对此不作限定。例如，相似度阈值可以是0.8。

在一些实施例中，可以将各个候选短语与待替换短语的相似度与相似度阈值进行比较，若某个候选短语与待替换短语的相似度大于相似度阈值，则认为该候选短语与待替换短语的相似度足够高，可以用来替换该待替换短语且不会导致语言语料产生歧义，因此，可以将该候选短语确定为该待替换短语的相似短语。

示例性地，假设获取到100个候选短语，相似度阈值是0.9，该100个候选短语中有2个候选短语与待替换短语的相似度大于0.9，则可以将该2个候选短语确定为该待替换短语的相似短语。

在另一些实施例中，可以按照相似度从大到小对多个候选短语进行排序，将前N个候选短语确定为待替换短语。并且，N可以根据词频阈值和该待替换短语的词频确定。作为一种示例，N可以是词频阈值与该待替换短语的词频的差值。

需要说明的是，N还可以由用户根据实际需求自行设置，或者，还可以由设备默认设置，本申请实施例对此不做限定。

示例性地，假设词频阈值是5，该待替换短语的词频是2，则N可以是3。假设获取到100个候选短语，确定每个候选短语与待替换短语的相似度后，按照相似度从大到小的顺序对该100个候选短语进行排序，则可以将前3个候选短语确定为该待替换短语的相似短语。

本申请实施例中，通过确定的待替换短语的短语向量和候选短语的短语向量确定待替换短语和候选短语的相似度，且将相似度大于相似度阈值或者相似度靠前的N个候选短语确定为待替换短语的相似短语，则可以得到与待替换短语的语义相似程度比较高的短语，用这些相似短语替换待替换短语，能够避免语言语料出现歧义。

需要说明的是，上述步骤502-步骤508是步骤208的一种具体实现方式。

图6示出了根据本申请一实施例提供的一种在训练语料集构建中确定候选短语向量的方法的流程图，具体包括以下步骤：

步骤602：获取短语词典中与待替换短语同一语种的短语作为候选短语；和/或，获取预设短语集，将预设短语集包括的短语作为候选短语。

其中，预设短语集包括的短语与待替换短语是同一语种。并且，预设短语集可以是已有的存储有多个高频短语的短语集。例如，该预设短语集可以是TED平行语料库中的单语语料库或多语言语料库。

也就是说，可以将短语词典中与待替换短语是同一语种的短语作为候选短语，或者，可以将预设短语集中的短语作为候选短语，或者，可以将上述二者结合作为候选短语。

在一些实施例中，短语词典中的短语是经过数据清洗得到的，是比较高质量的短语，因此，可以将短语词典中与待替换短语是同一语种的短语作为候选短语。

在另一些实施例中，由于短语词典中的短语在初始语料对中均出现过，且数量有限，因此为了扩充语言语料包括的词汇量，可以获取预设短语集，将预设短语集中的短语作为候选短语。

在又一些实施例中，可能有些待替换短语的相似短语在短语词典包括的短语中，而有些待替换短语的相似短语在预设短语集包括的短语中，因此，为了尽可能得到每个待替换短语最相似的相似短语，可以将预设短语集中的短语和短语词典中与待替换短语是同一语种的短语的集合作为候选短语。

需要说明的是，上述步骤602是步骤504的一种具体实现方式。

步骤604：确定每个候选短语的短语向量。

需要说明的是，上述步骤604的具体实现可以参见上述步骤504的相关描述，本实施例在此不再赘述。

本申请实施例中，将短语词典中与待替换短语是同一语种的短语，或者预设短语集中的短语，或者上述两种短语的集合确定为候选短语，尽可能地为待替换短语提供了更多可供选择的候选短语，能够为待替换短语匹配到相似程度高的相似短语，提高了确定的相似短语与待替换短语的语义相似性。

图7示出了根据本申请一实施例提供的一种在训练语料集构建中确定扩展语料对的方法的流程图，具体包括以下步骤：

步骤702：确定待替换短语所属的目标语言语料。

本申请实施例后续还是需要生成可用的语言语料，以得到训练语料集，因此对语言语料中的待替换短语进行替换，需要先确定待替换短语所属的目标语言语料。

在一些实施例中，可以先确定待替换短语的语种，然后在该语种的语言语料中，查找每个语言语料的分词结果中是否有该待替换短语，若是，则确定该语言语料是该待替换短语所属的目标语言语料。例如，假设待替换短语是中文短语，则查找每个中文语料的分词结果，将分词结果中包括该待替换短语的中文语料确定为该待替换短语的目标语言语料。

在另一些实施例中，在从语言语料中提取短语时，可以记录每个短语所属的语言语料，由于待替换短语也是从语言语料中提取的短语，因此，可以通过查找记录确定待替换短语所属的目标语言语料。

作为一种示例，一个待替换短语可能属于一个或多个目标语言语料，即确定的待替换短语所属的目标语言语料的数量可能是多个。

步骤704：利用相似短语替换目标语言语料中的待替换短语，得到第一替换语料。

在一些实施例中，可以先确定待替换短语在目标语言语料中的位置，然后将待替换短语从目标语言语料中删除，将相似短语添加至目标语言语料中该位置处，则可以得到第一替换语料。

以目标语言语料是“I love my motherland”为例，假设待替换短语是“mymotherland”，相似短语是“my homeland”，可以先确定待替换短语“my motherland”在目标语言语料的第3位，然后将“my motherland”从目标语言语料中删除，将“my homeland”添加至目标语言语料的第3位，得到第一替换语料“I love my homeland”。

步骤706：基于第一替换语料和指定语言语料，构建扩展语料对，该指定语言语料包括待替换短语匹配的短语。

其中，待替换短语匹配的短语是该待替换短语的译文。

作为一种示例，指定语言语料是包括待替换短语匹配的短语的语言语料，则该指定语言语料与目标语言语料不是同一语种。

在一些实施例中，可以先从短语词典中查找与该待替换短语匹配的短语，然后在与该待替换短语不同语种的语言语料中，查找每个语言语料的分词结果中是否有该待替换短语匹配的短语，若是，则确定该语言语料是指定语言语料。例如，假设待替换短语是中文短语，与该待替换短语匹配的短语是英文短语，可以查找每个英文语料的分词结果，将分词结果中包括该待替换短语匹配的英文短语的英文语料确定为该待替换短语的指定语言语料。

在另一些实施例中，在从语言语料中提取短语时，可以记录每个短语所属的语言语料，由于待替换短语匹配的短语也是从语言语料中提取的短语，因此，可以通过查找记录确定待替换短语匹配的短语所属的指定语言语料。

作为一种示例，该指定语言语料中包括该目标语言语料的译文，第一替换语料是目标语言语料替换了待替换短语后得到的，其与目标语言语料的语义是相同的，因此，在该种情况下，可以将该第一替换语料和该目标语言语料的译文组成扩展语料对。并且，由于目标语言语料的数量可能是多个，则确定的指定语言语料的数量和目标语言语料的数量是相同的，对于每个目标语言语料可以确定一个第一替换语料，则可以将每个目标语言语料替换得到的第一替换语料与该目标语言语料对应的指定语言语料组成扩展语料对，则可以得到多个扩展语料对。

例如，假设目标语言语料包括语料A和语料B，确定的指定语言语料包括语料1和语料2，并且语料A和语料1互为译文，语料B和语料2互为译文，通过将语料A和语料B中的待替换短语替换为相似短语，得到第一替换语料A’和第一替换语料B’，则可以将第一替换语料A’和语料1组成扩展语料对，将第一替换语料B’和语料2组成扩展语料对。

在本申请实施例中，利用相似短语替换了目标语言语料中的待替换短语，得到第一替换语料，由于相似短语与待替换短语的语义相似度很高，且相似短语相较于词包含的信息更多，较不易产生歧义，相比于同义词替换生成的语言语料信息表达得更加准确，并且根据位置替换短语不会影响语言语料原本的结构；将第一替换语料和指定语言语料组成扩展语料对，则得到了更多的语料对，达到了扩充训练语料的效果。

需要说明的是，上述步骤702-步骤706是步骤208的一种具体实现方式。

图8示出了根据本申请一实施例提供的另一种在训练语料集构建中确定扩展语料对的方法的流程图，具体包括以下步骤：

步骤802：确定待替换短语所属的目标语言语料。

步骤804：利用相似短语替换目标语言语料中的待替换短语，得到第一替换语料。

需要说明的是，步骤802-步骤804的具体实现可以参见上述步骤702-704的相关描述，本实施例在此不再赘述。

步骤806：确定与相似短语匹配的目标短语。

本申请实施例中，为了进一步提高生成的训练语料集的质量，在对一种语言语料中的短语进行替换后，还可以对至少两种语言语料中的其他语言语料中与待替换短语匹配的短语进行替换，并且，由于待替换短语被替换为相似短语，因此，待替换短语匹配的短语应该被替换为相似短语匹配的目标短语，如此得到的语料对在语义表达上更加准确。

在一些实施例中，若相似短语是短语词典中的短语，则可以从短语词典中查找相似短语匹配的目标短语。若相似短语不是短语词典中的短语，则可以对相似短语进行翻译，得到目标短语；或者，若相似短语是TED平行语料库中的短语，则可以从该语料库中查找该相似短语的目标短语。

步骤808：利用目标短语替换指定语言语料中与待替换短语匹配的短语，得到第二替换语料。

在一些实施例中，可以先确定与待替换短语匹配的短语在指定语言语料中的位置，然后将与待替换短语匹配的短语从指定语言语料中删除，将目标短语添加至指定语言语料中该位置处，则可以得到第二替换语料。

以指定语言语料是“我爱我的国家”为例，假设待替换短语匹配的短语是“我的国家”，目标短语是“我的祖国”，可以先确定待替换短语匹配的短语“我的国家”在指定语言语料的第3位，然后将“我的国家”从目标语言语料中删除，将“我的祖国”添加至指定语言语料的第3位，得到第二替换语料“我爱我的祖国”。

需要说明的是，上述步骤806-步骤808可以在执行步骤706之前执行。

步骤810：将第一替换语料和第二替换语料组成扩展语料对。

本申请实施例中，第一替换语料是目标语言语料替换后得到的，第二替换语料是指定语言语料替换后得到的，目标语言语料与指定语言语料互为译文，即目标语言语料和指定语言语料组成初始语料对，因此，可以将第一替换语料和第二替换语料组成扩展语料对。

在一些实施例中，若目标语言语料的数量是多个，则确定的指定语言语料的数量和目标语言语料的数量是相同的，对于每个目标语言语料可以确定一个第一替换语料，对于每个指定语言语料可以确定一个第二替换语料，因此，对于任一第一替换语料来说，可以先确定该第一替换语料对应的目标替换语料，然后确定目标替换语料对应的指定语言语料，再确定指定语言语料对应的第二替换语料，将该第二替换语料和该第一替换语料组成扩展语料对，则可以得到多个扩展语料对。

例如，假设目标语言语料包括语料A和语料B，确定的指定语言语料包括语料1和语料2，并且语料A和语料1互为译文，语料B和语料2互为译文，通过将语料A和语料B中的待替换短语替换为相似短语，得到第一替换语料A’和第一替换语料B’，通过将语料1和语料2中的待替换短语匹配的短语替换为目标短语，得到第二替换语料1’和第二替换语料2’，则可以将第一替换语料A’和第二替换语料1’组成扩展语料对，将第一替换语料B’和第二替换语料2’组成扩展语料对。

在本申请实施例中，不仅利用相似短语替换了目标语言语料中的待替换短语，得到第一替换语料，还利用目标短语替换了指定语言语料中待替换短语匹配的短语，得到第二替换语料，由于短语相较于词包含的信息更多，较不易产生歧义，相比于同义词替换，短语替换生成的第一替换语料和第二替换语料的信息表达更准确，因此第一替换语料和第二替换语料组成的扩展语料对语义表达更加准确，两个替换语料的译文关系也更加准确，提高了生成的扩展语料对的质量；并且，根据位置替换短语不会影响语言语料原本的结构进一步提高了生成的扩展语料的质量。

需要说明的是，上述步骤810是步骤706的一种具体实现方式。

图9示出了根据本申请一实施例提供的另一种构建训练语料集的方法的流程图，具体包括以下步骤：

步骤902：通过语言模型确定扩展语料对中每个扩展语料的质量分数。

在一些实施例中，语言模型可以是n-gram语言模型，通过该语言模型可以确定扩展语料对中每个扩展语料的质量分数。

作为一种示例，可以先利用大量单语言语料训练语言模型，使得语言模型能够对输入语料的流畅性和语法语义进行打分。然后将扩展语料输入该语言模型，则语言模型可以对每个语言语料的流畅性和语法语义是否符合该语种语料的日常应用进行打分，得到扩展语料的质量分数。例如，“我喜欢吃自行车”和“我喜欢吃甜食”，很明显后者的质量分数会更高。

需要说明的是，步骤902可以在执行步骤110之前执行。

步骤904：若每个扩展语料的质量分数大于分数阈值，基于初始语料对和扩展语料对，构建训练语料集。

需要说明的是，分数阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不作限定。例如，百分制的情况下分数阈值可以是99分。

在一些实施例中，确定每个扩展语料的质量分数后，如果每个扩展语料的质量分数均大于分数阈值，说明该扩展语料对的质量是比较高的，不存在歧义或结构错乱的问题，因此可以将初始语料对和扩展语料对组合，得到训练语料集。

在另一些实施例中，如果存在质量分数不大于分数阈值的扩展语料，则将质量分数不大于分数阈值的扩展语料所属的扩展语料对删除，将保留的扩展语料对和初始语料对组合得到训练语料集。

本申请实施例中，在生成扩展语料对之后，通过语言模型对扩展语料对中的扩展语料进行筛选，将语义表达准确无歧义且结构无错乱的扩展语料保留，删除不符合要求，不仅扩充了训练语料，还提高了训练语料集中语言语料的质量，基于这样的训练语料集训练翻译模型，能够提高训练完成的翻译模型的翻译准确性。

下述结合附图10，以本申请提供的训练语料集构建方法在中英文训练语料构建的应用为例，对所述训练语料集构建方法进行进一步说明。其中，图10示出了本申请一实施例提供的一种应用于中英文训练语料构建的训练语料集构建方法的处理流程图，具体包括以下步骤：

步骤1002：获取初始语料对，该初始语料对包括中文语料和英文语料。

作为一种示例，可以对初始语料对进行预处理，保留质量较高的语料对。

配合参见图11，图11是本申请一实施例提供的另一种训练语料集构建方法的示意图。在图11中，先获取中英文初始语料对。

步骤1004：对中文语料和英文语料分别进行分词处理，得到中文词单元和英文词单元。

步骤1006：对中文词单元和英文词单元进行词对齐处理，得到词对齐信息。

配合参见图11，对中英文语料进行分词和词对齐处理。

步骤1008：从中文语料中提取中文短语。

步骤1010：基于词对齐信息从英文语料中确定与该中文短语匹配的英文短语。

步骤1012：根据中文短语和英文短语构建短语词典。

配合参见图11，抽取短语，即从中文语料中抽取中文短语，并从英文语料中抽取与中文短语匹配的英文短语，并且构建词典Vp。

步骤1014：确定短语词典中每个中文短语的词频，将词频小于词频阈值的中文短语确定为待替换短语。

步骤1016：通过Bert模型确定待替换短语的短语向量。

步骤1018：获取预设短语集，将预设短语集包括的短语和短语词典中的中文短语作为候选短语。

步骤1020：通过Bert模型确定候选短语的短语向量。

步骤1022：基于待替换短语的短语向量和候选短语的短语向量，确定该待替换短语与每个候选短语之间的相似度。

配合参见图11，将词典Vp中词频低于词频阈值的中文短语和TED中文语料输入中文Bert模型中。

步骤1024：按照相似度从大到小的顺序对候选短语进行排序，将前N个候选短语确定为待替换短语的相似短语。

其中，N是词频阈值和待替换短语的词频的差值。

作为一种示例，可以确定相似短语匹配的英文短语，并将相似短语和英文短语添加至短语词典中。

配合参见图11，确定待替换短语的相似短语，且将相似短语添加至短语词典Vp中。

步骤1026：确定待替换短语所属的中文语料，利用相似短语替换该中文语料中的待替换短语，得到第一替换语料。

步骤1028：确定与相似短语匹配的目标短语，以及确定该待替换短语匹配的短语。

步骤1030：获取包括该待替换短语匹配的短语的英文语料。

步骤1032：利用目标短语替换该英文语料中待替换短语匹配的短语，得到第二替换语料。

步骤1034：将第一替换语料和第二替换语料构建扩展语料对。

配合参见图11，对相应句子中的短语进行替换，即对词典中存在的待替换短语和待替换短语匹配的短语所在的句子中的短语进行替换，得到扩展语料对。

步骤1036：通过n-gram语言模型确定扩展语料对中第一替换语料和第二替换语料的质量分数。

配合参见图11，通过语言模型对扩展语料对进行筛选。

步骤1038：若第一替换语料和第二替换语料的质量分数均大于分数阈值，将初始语料对和扩展语料对组合，得到训练语料集。

配合参见图11，将筛选后保留的扩展语料对和预处理后的初始语料对组合，得到训练语料集。

步骤1040：基于训练语料集对翻译模型进行训练。

配合参见图11，将训练语料集输入翻译模型中对翻译模型进行训练。

需要说明的是，步骤1002-步骤1004的具体实现可以参见上述各个实施例的相关描述，本实施例在此不再赘述。

图12示出了根据本申请一实施例提供的一种翻译模型训练方法的流程图，具体包括以下步骤：

步骤1202：获取包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料。

其中，该训练语料集根据上述实施例的训练语料集构建方法构建得到。

以训练中-英翻译模型为例，待翻译语料可以是中文语料，译文语料可以是英文语料。

步骤1204：将多个训练语料对输入翻译模型，基于每个训练语料对确定预测语料。

在一些实施例中，翻译模型可以是NMT，包括编码器和解码器，将多个训练语料对输入翻译模型，先通过解码器将每个训练语料对中的待翻译语料编码为固定长度的向量表示，该向量表示可以表示待翻译语料的语义，然后通过解码器利用该向量表示逐词生成相应的预测语料。

步骤1206：基于每个训练语料对的预测语料和该训练语料对的译文语料确定损失值。

步骤1208：基于损失值对翻译模型的模型参数进行调整，直至达到训练停止条件。

作为一种示例，训练停止条件可以是损失值小于损失阈值，或者，模型迭代训练的次数大于次数阈值。

本申请实施例提供的翻译模型的训练方法，通过上述方法构建的训练语料集对翻译模型进行训练，由于该训练语料集数量多、语义准确且语句结构通顺，质量较高，所以基于该训练语料集对翻译模型进行训练，能够提升得到的翻译模型的翻译性能。

图13示出了根据本申请一实施例提供的一种翻译方法的流程图，具体包括以下步骤：

步骤1302：获取待翻译文本。

例如，待翻译文本是中文文本“我爱我的祖国”。

步骤1304：将待翻译文本输入翻译模型进行翻译，得到待翻译文本的译文文本。

其中，该翻译模型是根据上述实施例的翻译模型训练方法训练得到。

作为一种示例，翻译模型可以包括编码器和解码器，将待翻译文本输入翻译模型，先通过解码器将待翻译文本编码为固定长度的向量表示，该向量表示可以表示待翻译文本的语义，然后通过解码器利用该向量表示逐词生成待翻译文本的译文文本。

例如，翻译模型可以输出译文文本为“I love my motherland”。

本申请实施例提供的翻译方法，该翻译模型通过上述翻译模型训练方法训练得到，该翻译模型通过上述方法构建的训练语料集进行训练，由于该训练语料集数量多、语义准确且语句结构通顺，质量较高，所以基于该训练语料集对翻译模型进行训练，能够提升得到的翻译模型的翻译性能，提高了该翻译模型的翻译准确率。

与上述训练语料集构建方法实施例相对应，本申请还提供了训练语料集构建装置实施例，图14示出了本申请一实施例提供的一种训练语料集构建装置的结构示意图。如图14所示，该装置包括：

第一获取模块1402，被配置为获取初始语料对，所述初始语料对包括至少两种语言语料，所述至少两种语言语料之间互为译文；

词对齐模块1404，被配置为对所述至少两种语言语料进行词对齐处理，得到词对齐信息；

第一构建模块1406，被配置为从第一语言语料中提取第一短语，基于所述词对齐信息从第二语言语料中确定与所述第一短语匹配的第二短语，根据所述第一短语和所述第二短语，构建短语词典，所述第一语言语料为所述至少两种语言语料中的任一种，所述第二语言语料为所述至少两种语言语料中除所述第一语言语料以外的任一种；

替换模块1408，被配置为确定所述短语词典中的待替换短语，以及所述待替换短语的相似短语，利用所述相似短语替换所述初始语料对中的所述待替换短语，得到扩展语料对；

第二构建模块1410，被配置为基于所述初始语料对和所述扩展语料对，构建训练语料集。

在本申请一种可能的实现方式中，词对齐模块1404，被配置为：

对所述至少两种语言语料分别进行分词处理，得到各语言语料的分词结果；

基于所述各语言语料的分词结果，对所述至少两种语言语料进行词对齐处理，得到词对齐信息。

在本申请一种可能的实现方式中，替换模块1408，被配置为：

确定所述短语词典中任一短语的词频；

将所述词频小于词频阈值的短语确定为待替换短语。

在本申请一种可能的实现方式中，替换模块1408，被配置为：

确定所述待替换短语的短语向量；

获取多个候选短语并确定每个候选短语的短语向量，其中，所述多个候选短语与所述待替换短语是同一语种；

针对任一待替换短语，基于该待替换短语的短语向量和所述候选短语的短语向量，确定该待替换短语与每个候选短语之间的相似度；

根据该待替换短语对应的多个相似度，从多个候选短语中确定该待替换短语的相似短语。

在本申请一种可能的实现方式中，替换模块1408，进一步被配置为：

获取所述短语词典中与所述待替换短语同一语种的短语作为候选短语；

和/或，

获取预设短语集，将所述预设短语集包括的短语作为候选短语，其中，所述预设短语集包括的短语与所述待替换短语是同一语种。

在本申请一种可能的实现方式中，替换模块1408，被配置为：

确定所述待替换短语所属的目标语言语料；

利用所述相似短语替换所述目标语言语料中的所述待替换短语，得到第一替换语料；

基于所述第一替换语料和指定语言语料，构建扩展语料对，所述指定语言语料包括所述待替换短语匹配的短语。

确定与所述相似短语匹配的目标短语；

利用所述目标短语替换所述指定语言语料中与所述待替换短语匹配的短语，得到第二替换语料；

将所述第一替换语料和所述第二替换语料组成扩展语料对。

在本申请一种可能的实现方式中，第二构建模块1410，进一步被配置为：

通过语言模型确定所述扩展语料对中每个扩展语料的质量分数；

若每个扩展语料的质量分数大于分数阈值，基于所述初始语料对和所述扩展语料对，构建所述训练语料集。

本申请实施例提供的上述装置通过短语替换的方式将初始语料对中的待替换短语替换为相似短语，由于短语是由两个或两个以上的词组成的固定搭配，比词包含的信息更多，其语义是确定的，不存在被翻译成多种语义不同的译文的情况，因此产生歧义的可能性会大大降低，则替换后得到的扩展语料不会违背初始语料的语义，使得得到的训练语料集在语义方面的表达更加准确，进而基于这样的训练语料集对翻译模型进行训练，能够提高翻译模型的翻译准确率。

上述为本实施例的一种训练语料集构建装置的示意性方案。需要说明的是，该训练语料集构建装置的技术方案与上述的训练语料集构建方法的技术方案属于同一构思，训练语料集构建装置的技术方案未详细描述的细节内容，均可以参见上述训练语料集构建方法的技术方案的描述。

与上述翻译模型训练方法实施例相对应，本申请还提供了翻译模型训练装置实施例，图15示出了本申请一实施例提供的一种翻译模型训练装置的结构示意图。如图15所示，该装置包括：

第二获取模块1502，被配置为获取包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料，所述训练语料集根据上述实施例所述的训练语料集构建方法构建得到；

第一确定模块1504，被配置为将所述多个训练语料对输入翻译模型，基于每个训练语料对确定预测语料；

第二确定模块1506，被配置为基于每个训练语料对的预测语料和该训练语料对的译文语料确定损失值；

参数调整模块1508，被配置为基于所述损失值对所述翻译模型的模型参数进行调整，直至达到训练停止条件。

本申请实施例提供的翻译模型的训练装置，通过上述方法构建的训练语料集对翻译模型进行训练，由于该训练语料集数量多、语义准确且语句结构通顺，质量较高，所以基于该训练语料集对翻译模型进行训练，能够提升得到的翻译模型的翻译性能。

上述为本实施例的一种翻译模型训练装置的示意性方案。需要说明的是，该翻译模型训练装置的技术方案与上述的翻译模型训练方法的技术方案属于同一构思，翻译模型训练装置的技术方案未详细描述的细节内容，均可以参见上述翻译模型训练方法的技术方案的描述。

与上述翻译方法实施例相对应，本申请还提供了翻译装置实施例，图16示出了本申请一实施例提供的一种翻译装置的结构示意图。如图16所示，该装置包括：

第三获取模块1602，被配置为获取待翻译文本；

翻译模块1604，被配置为将所述待翻译文本输入翻译模型进行翻译，得到所述待翻译文本的译文文本，所述翻译模型根据上述实施例所述的翻译模型训练方法训练得到。

本申请实施例提供的翻译装置，该翻译模型通过上述翻译模型训练方法训练得到，该翻译模型通过上述方法构建的训练语料集进行训练，由于该训练语料集数量多、语义准确且语句结构通顺，质量较高，所以基于该训练语料集对翻译模型进行训练，能够提升得到的翻译模型的翻译性能，提高了该翻译模型的翻译准确率。

上述为本实施例的一种翻译装置的示意性方案。需要说明的是，该翻译装置的技术方案与上述的翻译方法的技术方案属于同一构思，翻译装置的技术方案未详细描述的细节内容，均可以参见上述翻译方法的技术方案的描述。

此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图17示出了根据本申请一实施例提供的一种计算设备1700的结构框图。该计算设备1700的部件包括但不限于存储器1710和处理器1720。处理器1720与存储器1710通过总线1730相连接，数据库1750用于保存数据。

计算设备1700还包括接入设备1740，接入设备1740使得计算设备1700能够经由一个或多个网络1760通信。这些网络的示例包括公用交换电话网(PSTN，Public switchedtelephone network)、局域网(LAN，local area network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal area network)或诸如因特网的通信网络的组合。接入设备1740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface card))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，Wireless LocalArea Network)无线接口、全球微波互联接入(Wi-MAX，Worldwide Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near Field Communication)接口，等等。

在本申请的一个实施例中，计算设备1700的上述部件以及图17中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图17所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备1700还可以是移动式或静止式的服务器。

其中，处理器1720用于执行所述训练语料集构建方法或翻译模型训练方法或翻译方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的训练语料集构建方法或翻译模型训练方法或翻译方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述训练语料集构建方法或翻译模型训练方法或翻译方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于训练语料集构建方法或翻译模型训练方法或翻译方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的训练语料集构建方法或翻译模型训练方法或翻译方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述训练语料集构建方法或翻译模型训练方法或翻译方法的技术方案的描述。

本申请一实施例还提供一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述训练语料集构建方法的步骤，或者，实现所述翻译模型训练方法的步骤，或者，实现所述翻译方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种训练语料集构建方法，其特征在于，所述方法包括：

基于所述初始语料对和所述扩展语料对，构建训练语料集。

2.如权利要求1所述的方法，其特征在于，对所述至少两种语言语料进行词对齐处理，得到词对齐信息，包括：

3.如权利要求1所述的方法，其特征在于，确定所述短语词典中的待替换短语，包括：

确定所述短语词典中任一短语的词频；

将所述词频小于词频阈值的短语确定为待替换短语。

4.如权利要求1-3任一项所述的方法，其特征在于，确定所述待替换短语的相似短语，包括：

确定所述待替换短语的短语向量；

根据该待替换短语对应的多个相似度，从所述多个候选短语中确定该待替换短语的相似短语。

5.如权利要求4所述的方法，其特征在于，获取多个候选短语，包括：

和/或，

6.如权利要求1、2、3或5所述的方法，其特征在于，利用所述相似短语替换所述初始语料对中的所述待替换短语，得到扩展语料对，包括：

确定所述待替换短语所属的目标语言语料；

7.如权利要求6所述的方法，其特征在于，基于所述第一替换语料和指定语言语料，构建扩展语料对之前，还包括：

确定与所述相似短语匹配的目标短语；

基于所述第一替换语料和指定语言语料，构建扩展语料对，包括：

将所述第一替换语料和所述第二替换语料组成扩展语料对。

8.如权利要求1所述的方法，其特征在于，基于所述初始语料对和所述扩展语料对，构建训练语料集之前，还包括：

基于所述初始语料对和所述扩展语料对，构建训练语料集，包括：

9.一种翻译模型训练方法，其特征在于，包括：

获取包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料，所述训练语料集根据上述权利要求1-8任一项所述的方法构建得到；

10.一种翻译方法，其特征在于，包括：

获取待翻译文本；

将所述待翻译文本输入翻译模型进行翻译，得到所述待翻译文本的译文文本，所述翻译模型根据上述权利要求9所述的方法训练得到。

11.一种训练语料集构建装置，其特征在于，包括：

12.一种翻译模型训练装置，其特征在于，包括：

第二获取模块，被配置为获取包括多个训练语料对的训练语料集，其中，每个训练语料对至少包括待翻译语料和译文语料，所述训练语料集根据上述权利要求1-8任一项所述的方法构建得到；

13.一种翻译装置，其特征在于，包括：

第三获取模块，被配置为获取待翻译文本；

翻译模块，被配置为将所述待翻译文本输入翻译模型进行翻译，得到所述待翻译文本的译文文本，所述翻译模型根据上述权利要求9所述的方法训练得到。

14.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1至8任意一项所述训练语料集构建方法的步骤，或者，实现权利要求9所述翻译模型训练方法的步骤，或者，实现权利要求10所述翻译方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至8任意一项所述训练语料集构建方法的步骤，或者，实现权利要求9所述翻译模型训练方法的步骤，或者，实现权利要求10所述翻译方法的步骤。