CN111460838A

CN111460838A - 智能翻译模型的预训练方法、装置和存储介质

Info

Publication number: CN111460838A
Application number: CN202010327224.9A
Authority: CN
Inventors: 杨振; 黄申
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-07-28
Anticipated expiration: 2040-04-23
Also published as: CN111460838B

Abstract

本发明提供了智能翻译模型的预训练方法、装置和存储介质。该方法包括：获取包括源语言词语的预训练源语言语句和包括目标语言词语的预训练目标语言语句；基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词；根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句；基于语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。该方法利用源语言和目标语言单语语料中隐含的对齐信息提高翻译模型的预训练准确率，从而大幅提高翻译任务的性能。

Description

智能翻译模型的预训练方法、装置和存储介质

技术领域

本公开涉及机器翻译的技术领域，具体地涉及智能翻译模型的预训练方法、装置和存储介质。

背景技术

翻译模型的训练通常分为预训练和真实训练（也称为微调（fine-tune）、优化迭代等）二个阶段。在预训练阶段通常利用单语言语料对翻译模型进行训练，使得翻译模型的能力增强，得到预训练翻译模型。真实训练阶段可以采用有监督的训练和无监督训练。通常利用人工标注、对齐后的语料对翻译模型进行训练，得到经训练待使用的翻译模型。接下来，翻译模型可以被用于将源语言转换成目标语言的翻译任务。

现有的神经机器翻译模型预训练方法可以分为两种类型：基于模型融合的神经机器翻译模型预训练方法和基于参数初始化的神经机器翻译模型预训练方法。基于模型融合的神经机器翻译模型预训练方法首先利用大规模单语语料对翻译模型进行训练，得到通用的预训练模型；然后将该预训练模型融入到翻译模型中，作为翻译模型的一部分为翻译模型提供额外的句子特征。图1示出了相关技术中基于模型融合的神经机器翻译模型预训练方法100的示意图。方法100采用了动态融合策略。通用预训练模型101将特征表示转化成翻译模型任务相关的句子表示，并经由适配器102融合到翻译模型103中。基于参数初始化的神经机器翻译模型预训练方法通常使用预先设定的训练目标对翻译模型的一部分或整体进行训练，然后利用预训练得到的参数直接对翻译模型进行初始化。

发明内容

一般而言，现有神经机器翻译模型预训练方法主要存在下述缺点。现有的基于模型融合的神经机器翻译模型预训练方法需要将预训练模型融入翻译模型中，使得翻译模型的参数量显著增加。由于需要引入大规模的模型参数，基于模型融合的方法很难被直接应用在线上翻译产品中。现有的基于参数初始化的神经机器翻译模型预训练方法在预训练阶段需要使用人工定义的掩码（Mask标签）来随机掩盖掉部分输入源语言词语，而在优化迭代阶段输入语句时则不需要使用掩码，这导致了预训练和优化迭代阶段的不一致。此外，现有的翻译模型预训练方法只能独立使用单一语种的单语言语料，无法利用源语言和目标语言中所隐含的对齐信息对翻译模型进行跨语种的预训练。本发明的实施例至少部分地解决上面提及的问题。

根据本发明的一方面，提供了一种智能翻译模型的预训练方法。该方法包括：获取预训练源语言语句和预训练目标语言语句；预训练源语言语句包括源语言词语；预训练目标语言语句包括目标语言词语；基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词；根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句；基于语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。

在一些实施例中，基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词，包括：遍历源语言词语中的源语言词语；确定遍历到的源语言词语与目标语言词语中每一个之间的相似度基于相似度从目标语言词语中，筛选预设数量的与遍历到的源语言词语对应的候选翻译词，得到每个源语言词语对应预设数量的候选翻译词。

在一些实施例中，确定遍历到的源语言词语与每个目标语言词语之间的相似度，包括：分别提取源语言词语的源语言词向量和目标语言词语的目标语言词向量；将源语言向量映射和目标语言词向量映射到同一向量空间，得到映射后的源语言词向量和映射后的目标语言词向量；基于映射后的源语言词向量和映射后的目标语言词向量，计算遍历到的源语言词语与每个目标语言词语之间的相似度。

在一些实施例中，基于相似度从目标语言词语中，筛选预设数量的与遍历到的源语言词语对应的候选翻译词，得到每个源语言词语对应预设数量的候选翻译词，包括：基于遍历到的源语言词语与每个目标语言词语的相似度，对目标语言词语进行排序；从排序后的目标语言词语中筛选预设数量的候选翻译词，作为遍历到的源语言词语对应的候选翻译词，直至得到每个源语言词语所对应预设数量的候选翻译词。

在一些实施例中，基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词之后，还包括：根据源语言词语对应预设数量的候选翻译词，以及预设数量的候选翻译词中每个候选翻译词与源语言词语的相似度，构建生成概率翻译词典。根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句，包括：在概率翻译词典中查询与预训练语言语句中源语言词语对应的候选翻译词；根据查询到的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句。

在一些实施例中，根据查询到的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句，包括：从预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语；基于概率翻译词典对待替换词语对应的候选翻译词进行多项式采样，得到采样到的候选翻译词；将采样到的候选翻译词对待替换词语进行替换，得到预训练源语言语句对应的语言混合编码语句。

在一些实施例中，从预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语包括：获取包含m个词语的源语言语句

，

为正整数；选择所述源语言语句x的m个词语中的q个词语作为待替换词语，q为正整数且0＜q＜m，q个词语在源语言语句中是连续的、部分连续的或分离的。

，

为正整数；选择源语言语句

中从

到

的位置的部分

作为待替换词语，其中

。

在一些实施例中，基于语言混合编码语句对初始翻译模型进行预训练，包括：将语言混合编码语句输入初始翻译模型的编码器进行特征提取处理，得到上下文向量；通过注意力网络对上下文向量进行对齐调序处理，得到经对齐调序的上下文向量；将经对齐调序的上下文向量输入解码器进行解码处理，得到解码输出。

在一些实施例中，该方法还包括：获取训练数据集，训练数据集是从源语言到目标语言的语义对齐的双语语料；基于所获取的训练数据集对预训练翻译模型进行训练，得到翻译模型。

在一些实施例中，该方法还包括：获取源语言的待翻译语句；使用翻译模型将源语言的待翻译语句转换为目标语言的经翻译语句。

根据本发明的另一方面，提供了一种智能机器翻译模型的预训练装置。该装置包括：获取模块，被配置成获取预训练源语言语句和预训练目标语言语句，预训练源语言语句包括源语言词语，预训练目标语言语句包括目标语言词语；筛选模块，被配置成基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词；编码模块，被配置成根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句；预训练模块，被配置成基于语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。

在一些实施例中，该装置还包括：第一获取模块，被配置成获取训练数据集，训练数据集是从源语言到目标语言的语义对齐的双语语料；训练模块，被配置成基于所获取的训练数据集对预训练翻译模型进行训练，得到翻译模型。

在一些实施例中，该装置还包括：第二获取模块，被配置为获取源语言的待翻译语句；翻译模块，被配置为使用翻译模型将源语言的待翻译语句转换为目标语言的经翻译语句。

根据本发明的另一方面，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用于构建数据集的方法的步骤。

根据本发明的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用于构建数据集的方法的步骤。

本发明提出了一种神经机器翻译模型的预训练方法。该方法主要分为两个阶段：第一阶段利用源语言和目标语言单语语料分别训练源语言和目标语言的词向量，并根据训练得到的词向量提取出概率翻译词典；第二阶段利用上述提取出的概率翻译词典对翻译模型进行预训练。该方法通过采用词向量映射的方法建立概率翻译词典，自动从源语言和目标语言的单语语料中提取出词语的对齐信息，并将该对齐信息应用到预训练的目标中。由此，该方法真正具备跨语种的预训练能力，充分利用源语言和目标语言单语语料中隐含的对齐信息提高翻译模型的预训练准确率。本发明排除了由于掩码Mask标签的使用所带来的预训练和优化迭代不一致的问题。本发明不需要修改翻译模型结构，也未引入额外的模型参数，从而具有快速应用于线上翻译产品中的能力。本发明只需要源语言和目标语言的单语语料，无需对齐的双语语料，极大地降低了标注成本。进而，能够大幅提升有监督和无监督翻译任务的性能。

根据在下文中所描述的实施例，本发明的这些和其他方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被公开，在附图中：

图1示出了相关技术中基于模型融合的神经机器翻译模型预训练方法的示意图。

图2a示出了根据本发明一个实施例的神经网络翻译模型的预训练方法的翻译模型的用户界面；

图2b示出了根据本发明一个实施例的神经网络翻译模型的预训练方法的翻译模型的另一用户界面；

图3示出了本发明一个实施例的示例应用场景；

图4示出了根据本发明一个实施例的神经机器翻译模型预训练方法架构的示意图；

图5a示出了根据本发明一个实施例的神经机器翻译模型预训练方法的流程图；

图5b示出了根据本发明另一个实施例的神经机器翻译模型预训练方法的流程图；

图5c示出了根据本发明又一个实施例的神经机器翻译模型预训练方法的流程图；

图6示出了根据本发明一个实施例的神经机器翻译模型预训练装置的示例框图；以及

图7示意性示出了可以实施本发明一个实施例的系统的示例框图。

具体实施方式

在详细介绍本发明的实施例之前，首先对一些相关的概念进行解释：

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

神经机器翻译模型（Neural Machine Translation, NMT）：是能够从一个序列映射到另一个序列的神经网络。NMT输入源语言序列，输出可以是一个变长的序列。这在翻译、对话和文字概括方面获得了非常好的表现。NMT采用编码器-解码器或编码器-注意力网络-解码器架构。编码器对源语言序列进行编码，并提取源语言中信息，通过解码器再把这种信息转换到另一种语言即目标语言中，从而完成对语言的翻译。注意力网络对上下文进行对齐调序。

跨语言语言模型（Cross-lingual Language Model，XLM）：Facebook公司发布的新型跨语言模型。它旨在构建一种跨语言编码器，从而将不同语言的句子在相同的嵌入空间中进行编码。这种共享编码空间对机器翻译等任务具有很大的优势，展示了跨语言预训练语言模型的高效性。

遮蔽序列到序列预训练（Masked Sequence-to-Sequence Pre-training，MASS）：对句子随机遮蔽一个长度为t的连续片段，然后通过编码器-注意力-解码器模型预测生成该被遮蔽的片段。

循环神经网络（Recurrent Neural Network，RNN）：是一类以序列数据为输入，在序列演进方向上递归且所有节点（循环单元）按链式连接的递归神经网络。

长短期记忆（Long Short-Term Memory，LSTM）：是一种时间循环神经网络，适合于处理和预测时间序列中的间隔和延时相对较长的事件。

门控循环单元（Gated Recurrent Unit，GRU）：是LSTM的一种变体。GRU保持了LSTM的效果，并且结构更简单，对RNN中的梯度消失有很大的帮助。

图2a示出了应用本发明一个实施例的神经网络翻译模型的预训练方法的翻译模型的用户界面200a。在该用户界面200a中可以利用技术提供方提供的后台翻译服务，将用户输入的A语言序列翻译成B语言序列。相对应地，可以利用技术提供方提供的后台翻译服务，将用户输入的B语言序列翻译A语言序列。如本领域技术人员所理解的，这里的用户可以是一个或多个用户。用户输入A语言或B语言的方式可以包括图片输入、语音输入、键区键入等多种方式。后台翻译模型使用根据本发明一个实施例的神经网络翻译模型的预训练方法进行预训练。

图2b示出了应用本发明一个实施例的神经网络翻译模型的预训练方法的翻译模型的另一个用户界面200b。在该用户界面200b中可以利用技术提供方提供的后台翻译服务，将用户输入的A语言序列翻译成B语言序列。例如图2b中在左侧输入框中输入A语言序列“AAAAAAAA”，则经过作为底层技术之一的后台翻译等处理，在右侧框中输出B语言序列“BBBBBBBBBBBBB”。后台翻译模型使用本发明一个实施例的神经网络翻译模型的预训练方法进行预训练。用户输入A语言或B语言的方式可以包括图片输入、语音输入、键区键入等多种方式。

图3示出了本发明一个实施例的示例应用场景300。应用场景300中包括服务器301、网络302、客户端303和用户304。客户端303经由网络302与服务器301连接。客户端303可以是诸如台式计算机、膝上型计算机、平板、智能电话、可穿戴设备等的任何具有显示和计算能力的设备，或者也可以是具有显示或计算能力的设备的组合，例如显示器和服务器的组合。网络302可以包括有线网络（例如LAN、电缆等等）和无线网络（例如WLAN、蜂窝、卫星等等）、因特网等。用户304通过在客户端303上呈现的用户接口输入待翻译的语言序列。响应于用户304输入待翻译的语言序列，翻译模型将待翻译的语言序列转换成目标语言序列，并通过客户端303上的用户接口展示经翻译的目标语言序列。上述翻译模型通过本发明所提出的基于神经网络翻译模型的预训练方法进行预训练。值得注意的是，翻译模型可以在服务器301和/或客户端303上运行，待翻译的语言序列通过服务器301和/或客户端303上的翻译模型而翻译为目标语言序列。

图4示出了根据本发明一个实施例的神经机器翻译模型预训练方法架构400的示意图。该神经机器翻译模型预训练方法架构400主要包括两个阶段：第一阶段是从大规模单语种语料403中提取源语言词语与目标语言词语的对应关系402。第二阶段是利用第一阶段提取的源语言词语与目标语言词语的对应关系402对神经机器翻译模型401进行预训练。为了更清楚地描述本发明的训练方法，以下对第一阶段和第二阶段进行详细描述。

第一阶段是从包括源语言单语种语料4031和目标语言单语种语料4032的大规模单语种语料403中训练得到源语言词向量和目标语言词向量，并通过词向量映射技术提取源语言词语与目标语言词语的对应关系402。首先，获取源语言单语种语料X 4031和目标语言单语种语料Y 4032。源语言单语种语料X 4031是源语言语句的集合，源语言语句包括至少两个源语言词语；目标语言单语种语料Y 4032是目标语言语句的集合，目标语言语句包括至少两个目标语言词语。例如，源语言可以是汉语，目标语言可以是英语。源语言和/或目标语言也可以是资源稀缺的语言，例如中国的少数民族语言（诸如，）然后，遍历源语言词语中的源语言词语，确定遍历到的源语言词语与目标语言词语中每一个之间的相似度。计算源语言词语与目标语言词语中每一个之间的相似度首先需要使用词向量训练工具（例如，word2vec、fasttext或其他词训练工具）利用源语言单语种语料X 4031和目标语言单语种语料Y 4032分别训练得到源语言词向量X_e和目标语言词向量Y_e。word2vec是一种用来产生词向量的模型，是一种浅而双层的神经网络。word2vec模型可用来将每个词映射到一个向量，以表示词对词之间的关系。fasttext是快速文本分类器，提供简单而高效的文本分类和表征学习的方法，可用来将每个词映射到一个向量，以表示词对词之间的关系。如本领域技术人员所理解的，源语言词向量X_e和目标语言词向量Y_e位于两个不同的向量空间中。接下来，利用词向量映射工具（例如，vecmap）将源语言词向量X_e映射到与目标语言词向量Y_e相同的向量空间中。vecmap是一种NLP开源框架，其能够通过将不同语种的词向量映射到相同的向量空间中来学习跨语言词嵌入映射。如本领域技术人员所得理解的，也可以使用其他词向量映射工具。在将源语言词向量X_e映射到与目标语言词向量Y_e相同的向量空间之后，计算源语言词向量X_e与目标语言词向量Y_e之间的相似度。这里，相似度可以包括源语言词向量X_e和目标语言词向量Y_e之间的余弦距离、欧式距离或范数等。然后，基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词。具体地，基于遍历到的源语言词语与每个目标语言词语的相似度，对目标语言词语进行排序；和从排序后的目标语言词语中筛选预设数量的候选翻译词，作为遍历到的源语言词语对应的候选翻译词，直至得到每个源语言词语所对应预设数量的候选翻译词。例如，选择相似度最高的预先设定的前k（k为正整数）个目标语言词语作为该源语言词语的候选翻译词语。每个候选翻译词语的相似度大小作为该候选翻译词语的翻译概率。其中，k可以根据实际应用场景预先设定或选择。可选地，针对所选择的k个候选翻译词语的翻译概率进行归一化。在一个实施例中，还根据源语言词语对应预设数量的候选翻译词，以及预设数量的候选翻译词中每个候选翻译词与源语言词语的相似度（即，每个候选翻译词的翻译概率），构建概率翻译词典。如本领域技术人员所理解的，源语言词语与目标语言词语的对应关系402也可以采用其它形式，例如根据源语言词语对应预设数量的候选翻译词，以及预设数量的候选翻译词中每个候选翻译词与源语言词语的相似度（即，每个候选翻译词的翻译概率），构建概率翻译查找表（look-up table）。例如，给定一个源语言词语

，其在目标语言端相似度最高的k个目标语言词语

被抽取出来作为其翻译词语，对应的相似度

分别作为k个目标语言词语的翻译概率。这里，概率翻译词典意指根据一对多的对应关系从源语言词语到目标语言词语的词语对。换言之，概率翻译词典中，每个源语言词语对应多个目标语言词语。

在第二阶段中，随机地将输入到翻译模型401的编码器4011中的源语言语句中的一部分词语替换为源语言词语与目标语言词语的对应关系402中对应的目标语言词语，并在翻译模型4012的解码器4013端预测被替换掉的源语言词语。具体地，输入到翻译模型401的编码器4011中的源语言语句是上述在第一阶段中所使用的源语言单语种语料X 4031中所包括的源语言语句中的一个源语言语句，这样做的目的在于使得在第一阶段中训练出的源语言词语与目标语言词语的对应关系402与预训练过程更加匹配。源语言词语与目标语言词语的对应关系402可以上上面提到的概率翻译词典或概率翻译查找表。本发明不限制神经机器翻译模型401的具体结构，并且本发明所涉及的翻译模型预训练方法能够适用于各种能够进行端到端训练的符合编解码框架的神经机器翻译模型。符合编解码框架的神经机器翻译模型至少包括编码器4011和解码器4013。编码器4011处理可变长度输入，并建立固定长度的矢量表示。解码器4013基于经编码的表示生成可变长度序列（目标序列）。通常，符合编解码框架的神经机器翻译模型还包括连接编码器4011和解码器4013的注意力网络4012。编码器4011和/解码器4013可以具备循环神经网络RNN、门控循环单元GRU、自注意力网络、长短期记忆网络LSTM中的至少一个。对于源语言语句，根据概率翻译词典中的候选翻译词对源语言语句中的至少一个源语言词语进行替换，得到源语言语句对应的语言混合编码语句。具体地，从预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语；基于概率翻译词典对待替换词语对应的候选翻译词进行多项式采样，得到采样到的候选翻译词；将采样到的候选翻译词对待替换词语进行替换，得到预训练源语言语句对应的语言混合编码语句。例如，如图4中所示，给定一个包含m（m为正整数）个词语的源语言语句

为正整数。选择源语言语句x的m个词语中的q个词语作为待替换词语，q为正整数且0＜q＜m，这q个词语在源语言语句中是连续的、部分连续的或分离的。下面以q个词语是连续的情况为例进行说明，选择句子

中从位置

到位置

的部分

，其中，位置

到位置

分别为满足式（1）的正整数，

与

相等时即为替换源语言语句中的仅一个词语的情况：

（1）

这里，采用

表示句子

中从位置

到位置

的部分被替换为对应的目标语言词语后的句子，

可以展开表示为：

（2）

下面，以源语言词语

替换为目标语言词语

为例说明词语替换的具体流程。给定词语

以及该词语对应的k个候选翻译词语

和相应的翻译概率

，则

的计算公式为：

（3）

其中，式（3）中的

是根据翻译概率进行多项式采样得到，计算公式为：

（4）

在式（4）中，

表示按照概率分布

从列表

中词语进行采样。针对该多项式采样函数，候选翻译词语对应的翻译概率越大，其被采样的可能性也越大。

然后，基于语言混合编码语句对初始翻译模型进行预训练。具体地，将语言混合编码语句输入初始翻译模型的编码器4011进行特征提取处理，得到上下文向量；通过注意力网络4012对上下文向量进行对齐调序处理，得到经对齐调序的上下文向量。以及将经对齐调序的上下文向量输入解码器4013进行解码处理，得到解码输出。翻译模型预训练的训练目标损失函数为：

（5）

这里，

为翻译模型的参数，

为源语言单语种语料，P为概率，

句子

中从位置

到位置

的部分，

，m为正整数，

为句子

中从位置

到位置

的部分被替换为对应的目标语言词语后的句子。在训练目标损失函数收敛后，则初始翻译模型的预训练完成，即得到了经预训练的翻译模型。

图5a示出了根据本发明一个实施例的神经机器翻译模型预训练方法500的流程图。

在步骤501中，获取预训练源语言语句和预训练目标语言语句（例如，预训练源语言语句为图4中的源语言单语种语料X 4031和预训练目标语言语句为目标语言单语种语料Y 4032），预训练源语言语句包括源语言词语，预训练目标语言语句包括目标语言词语。

在步骤502中，基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词。在一个实施例中，遍历源语言词语中的源语言词语；确定遍历到的源语言词语与目标语言词语中每一个之间的相似度；基于相似度从目标语言词语中，筛选遍历到的源语言词语对应的预设数量的候选翻译词，得到每个源语言词语对应预设数量的候选翻译词。在另一个实施例中，确定遍历到的源语言词语与每个目标语言词语之间的相似度包括：分别提取源语言词语的源语言词向量和目标语言词语的目标语言词向量；将源语言向量映射和目标语言词向量映射到同一向量空间，得到映射后的源语言词向量和映射后的目标语言词向量；基于映射后的源语言词向量和映射后的目标语言词向量，计算遍历到的源语言词语与每个目标语言词语之间的相似度。计算源语言词语与目标语言词语中每一个之间的相似度首先需要使用词向量训练工具（例如，word2vec、fasttext或其他词训练工具）利用源语言单语种语料X和目标语言单语种语料Y分别训练得到源语言词向量X_e和目标语言词向量Y_e。word2vec是一种用来产生词向量的模型，可用来将每个词映射到一个向量，以表示词对词之间的关系。fasttext是快速文本分类器，提供简单而高效的文本分类和表征学习的方法，可用来将每个词映射到一个向量，以表示词对词之间的关系。如本领域技术人员所理解的，源语言词向量X_e和目标语言词向量Y_e位于两个不同的向量空间中。接下来，利用词向量映射工具（例如，vecmap）将源语言词向量X_e映射到与目标语言词向量Y_e相同的向量空间中。vecmap是一种NLP开源框架，其能够通过将不同语种的词向量映射到相同的向量空间中来学习跨语言词嵌入映射。在将源语言词向量X_e映射到与目标语言词向量Y_e相同的向量空间之后，计算源语言词向量X_e与目标语言词向量Y_e之间的相似度。这里，相似度可以包括源语言词向量X_e和目标语言词向量Y_e之间的余弦距离、欧式距离或范数等。在又一个实施例中，基于相似度从目标语言词语中，筛选预设数量遍历到的源语言词语对应的候选翻译词，得到每个源语言词语对应预设数量的候选翻译词包括下述步骤：基于述遍历到的源语言词语与每个目标语言词语的相似度，对目标语言词语进行排序；从排序后的目标语言词语中筛选预设数量的候选翻译词，作为遍历到的源语言词语对应的候选翻译词，直至得到每个源语言词语所对应预设数量的候选翻译词。例如，选择相似度最高的预先设定的前k（k为正整数）个目标语言词语作为该源语言词语的候选翻译词语。每个候选翻译词语的相似度大小作为该候选翻译词语的翻译概率。其中，k可以根据实际应用场景预先设定或选择。可选地，针对所选择的k个候选翻译词语的翻译概率进行归一化。在一个实施例中，还根据源语言词语对应预设数量的候选翻译词，以及预设数量的候选翻译词中每个候选翻译词与源语言词语的相似度（即，每个候选翻译词的翻译概率），构建概率翻译词典。如本领域技术人员所理解的，概率翻译词典也可以采用其它形式，例如根据源语言词语对应预设数量的候选翻译词，以及预设数量的候选翻译词中每个候选翻译词与源语言词语的相似度（即，每个候选翻译词的翻译概率），构建概率翻译查找表。例如，给定一个源语言词语

，其在目标语言端相似度最高的k个目标语言词语

被抽取出来作为其翻译词语，对应的相似度

在步骤503中，根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句。在一个实施例中，通过对源语言语句进行部分替换得到混合编码语句包括：在概率翻译词典中查询与预训练语言语句中源语言词语对应的候选翻译词；根据查询到的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句。在又一个实施例中，替换是通过下述步骤进行的：从预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语；基于概率翻译词典对待替换词语对应的候选翻译词进行多项式采样，得到采样到的候选翻译词；将采样到的候选翻译词对待替换词语进行替换，得到预训练源语言语句对应的语言混合编码语句。待替换词语可以通过下述步骤选定：获取包含m个词语的源语言语句

，

为正整数；选择源语言语句x的m个词语中的q个词语作为待替换词语，q为正整数且0＜q＜m，q个词语在源语言语句中是连续的、部分连续的或分离的。下面以q个词语在源语言语句中是连续的示例进行说明。

在一个示例中，选择句子

中从位置

到位置

的部分

，其中，位置

到位置

分别为满足式（6）的正整数，

与

相等时即为替换源语言语句中的仅一个词语的情况：

（6）

这里，采用

表示句子

中从位置

到位置

的部分被替换为对应的目标语言词语后的句子，

可以展开表示为：

（7）

下面，以源语言词语

替换为目标语言词语

为例说明词语替换的具体流程。给定词语

以及该词语对应的k个候选翻译词语

和相应的翻译概率

，则

的计算公式为：

（8）

其中，式（8）中的

是根据翻译概率进行多项式采样得到，计算公式为：

（9）

在式（9）中，

表示按照概率分布

从列表

在步骤504中，基于语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。本发明不限制神经机器翻译模型的具体结构，并且本发明所涉及的翻译模型预训练方法能够适用于各种能够进行端到端训练的符合编解码框架的神经机器翻译模型。符合编解码框架的神经机器翻译模型至少包括编码器和解码器。编码器处理可变长度输入，并建立固定长度的矢量表示。解码器基于经编码的表示生成可变长度序列（目标序列）。通常，符合编解码框架的神经机器翻译模型还包括连接编码器和解码器的注意力网络。具体地，将语言混合编码语句输入初始翻译模型的编码器进行特征提取处理，得到上下文向量；通过注意力网络对上下文向量进行对齐调序处理，得到经对齐调序的上下文向量。以及将经对齐调序的上下文向量输入解码器进行解码处理，得到解码输出。翻译模型预训练的训练目标损失函数为：

（10）

这里，

为翻译模型的参数，

为源语言单语种语料，P为概率，

句子

中从位置

到位置

的部分，

，m为正整数，

为句子

中从位置

到位置

值得注意的是，翻译模型的训练通常分为预训练和真实训练（也称为微调（fine-tune）、优化迭代等）二个阶段。在预训练阶段通常利用单语言语料对翻译模型进行训练，使得翻译模型的能力增强，得到预训练翻译模型。真实训练阶段可以采用有监督的训练和无监督训练。通常利用人工标注、对齐后的语料（例如WMT14EnDe、WMT16EnFr、LDCZhEn等）对翻译模型进行训练，得到经训练待使用的翻译模型。接下来，翻译模型就可以被用于将源语言转换成目标语言的翻译任务。

图5b示出了根据本发明另一个实施例的神经机器翻译模型预训练方法500的流程图。步骤501~504的步骤与图5a中的描述相类似，这里不再赘述。该神经机器翻译模型预训练方法还包括：在步骤505中，获取训练数据集，训练数据集是从源语言到目标语言的语义对齐的双语语料，例如WMT14EnDe、WMT16EnFr、LDCZhEn等。在步骤506中，基于所获取的训练数据集对预训练翻译模型进行训练，得到翻译模型。步骤505和506涉及翻译模型的真实训练阶段。在这里，训练可以采用有监督的训练和无监督训练。通常利用人工标注、对齐后的语料（例如WMT14EnDe、WMT16EnFr、LDCZhEn等）对翻译模型进行训练，得到经训练待使用的翻译模型。

图5c示出了根据本发明另一个实施例的神经机器翻译模型预训练方法500的流程图。步骤501~506的步骤与图5b中的描述相类似，这里不再赘述。该神经机器翻译模型预训练方法还包括：在步骤507中，获取源语言的待翻译语句。在步骤508中，使用翻译模型将源语言的待翻译语句转换为目标语言的经翻译语句。步骤507和508涉及翻译模型被用于实际翻译任务。

该神经机器翻译模型预训练方法真正具备跨语种的预训练能力，充分利用源语言和目标语言单语语料中隐含的对齐信息提高翻译模型的预训练准确率。本方法排除了由于掩码Mask标签的使用所带来的预训练和优化迭代不一致的问题。本方法不需要修改翻译模型结构，也不会引入额外的模型参数，从而具有快速应用于线上翻译产品中的能力。本方法只需要源语言和目标语言的单语语料，无需对齐的双语语料，极大地降低了标注成本。进而，能够大幅提升有监督和无监督翻译任务的性能。

图6示出了根据本发明一个实施例的智能机器翻译模型预训练装置600的示例框图。智能机器翻译模型预训练装置600包括获取模块601、筛选模块602、编码模块603和预训练模块604。获取模块601被配置成获取预训练源语言语句和预训练目标语言语句；预训练源语言语句包括源语言词语；预训练目标语言语句包括目标语言词语。筛选模块602被配置成基于源语言词语与目标语言词语之间的相似度，从目标语言词语中筛选源语言词语所对应的候选翻译词，每个源语言词语对应预设数量的候选翻译词。编码模块603被配置成根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换，得到预训练源语言语句对应的语言混合编码语句。预训练模块604被配置成基于语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。该神经机器翻译模型预训练装置真正具备跨语种的预训练能力，充分利用源语言和目标语言单语语料中隐含的对齐信息提高翻译模型的预训练准确率。本装置排除了由于掩码Mask标签的使用所带来的预训练和优化迭代不一致的问题。本装置不需要修改翻译模型结构，也不会引入额外的模型参数，从而具有快速应用于线上翻译产品中的能力。本装置只需要源语言和目标语言的单语语料，无需对齐的双语语料，极大地降低了标注成本。进而，能够大幅提升有监督和无监督翻译任务的性能。

在一些实施例中，该装置600还包括：第一获取模块，被配置成获取训练数据集，训练数据集是从源语言到目标语言的语义对齐的双语语料；训练模块，被配置成基于所获取的训练数据集对预训练翻译模型进行训练，得到翻译模型。

在一些实施例中，该装置600还包括：第二获取模块，被配置为获取源语言的待翻译语句；翻译模块，被配置为使用翻译模型将源语言的待翻译语句转换为目标语言的经翻译语句。

本发明在网络训练过程中，编码器采用六层的自注意力网络层，解码器也采用六层的自注意力网络层。词向量维度设置为512，随机丢弃比例（dropout）概率大小为0.1。本发明采用Adam优化器来进行模型训练，学习率设置为0.001（梯度下降中的学习速率）。在测试时，采用BLEU值作为最终评价指标。

本发明提出的方法在公开的WMT14EnDe、WMT16EnFr以及LDCZhEn三个数据集，在无监督和有监督两个翻译任务上进行了验证。无监督翻译任务是在本发明预训练的翻译模型基础上用单语语料进行微调；有监督翻译任务是在本发明预训练的翻译模型基础上用双语语料进行微调。无监督翻译任务上的对比试验结果如表1所示。本发明采用Lample等人（参见Lample G, Conneau A. Cross-lingual language model pretraining[J]. arXiv preprint arXiv:1901.07291, 2019.）提出的预训练系统和Song等人（参见Song K, Tan X, Qin T等人. Mass: Masked sequence to sequence pre-training for language generation[J]. arXiv preprint arXiv:1905.02450, 2019）提出的预训练系统作为对比的基线系统。从表1中可以，本发明提出的预训练系统优于基线系统，分别在英语到德语测试集上newstest2014（测试集）上取得了28.7的BLEU值，在英语到法语的newstest2016上的 BLEU值为37.9，在中文到英文的NIST测试集上取得了平均23.9的BLEU值。

系统	英语到德语	英语到法语	中文到英文
				Lample等人	27.3	32.9	22.1
Song等人	27.9	37.3	22.8
				本发明训练的系统	28.7	37.9	23.9

表1 无监督翻译任务上的对比试验结果。

有监督翻译任务上的对比试验结果如表2所示。从表2中可以看出，本发明提出的预训练系统在有监督翻译任务上取得了最好的翻译效果。分别在英语到德语的测试集上取得了28.9个BLEU值，在英语都法语的测试集上获得38.8个BLEU值，在中文到英文的测试集上的BLEU值为43.2。

系统	英语到德语	英语到法语	中文到英文
				Lample等人	28.1	38.3	42.0-
Song等人	28.4	38.4	42.5
				本发明训练的系统	28.9	38.8	43.2

表2 有监督翻译任务上的对比试验结果。

图7示意性示出了一个示例系统700，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备710。

计算设备710可以是例如服务器、台式计算机、膝上型计算机、平板、智能电话、智能手表、可穿戴设备或任何其他合适的计算设备或计算系统，其范围从具有大量存储器和处理器资源的全资源设备到具有有限的存储器和/或处理资源的低资源设备。在一些实施例中，上面关于图6描述的智能机器翻译模型预训练装置600可以采取计算设备710的形式。

如图所示，示例计算设备710包括彼此通信耦合的处理系统711、一个或多个计算机可读介质712以及一个或多个I/O接口713。尽管图7中未示出，但是计算设备710还可以包括总线或其他数据和命令传送系统，其将各种组件彼此耦合。总线可以包括不同总线结构的任何一个或组合，该总线结构可以是诸如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或局部总线。该总线还涵盖了各种其他示例形式，例如控制和数据线。

处理系统711代表使用硬件执行一个或多个操作的功能。因此，处理系统711被图示为包括可被配置为处理器、功能块等的硬件元件714。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件714不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质712被图示为包括存储器/存储装置715。存储器/存储装置715表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置715可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置715可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。示例性地，存储器/存储装置715可以包括图4所示的源语言单语语料4031、目标语言单语种语料4032，以及也可以用于存储在翻译模型预训练过程中生成的模型参数等。计算机可读介质712可以以下面进一步描述的各种其他方式进行配置。

一个或多个输入/输出接口713代表允许用户使用各种输入设备向计算设备710键入命令和信息并且还允许使用各种输出设备将信息呈现给用户和/或发送给其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）、网卡、接收机等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、触觉响应设备、网卡、发射机等。示例性地，在应用神经机器翻译模型的预训练方法500的过程中，可以通过诸如显示器的输出设备向用户显示待翻译的源语言语句和经翻译的目标语言语句，以及用户可以使用诸如鼠标、触摸屏、麦克风、摄像头等的输入设备输入待翻译的源语言语句。

计算设备710还包括神经机器翻译模型预训练716。神经机器翻译模型预训练716可以作为计算程序指令存储在存储器/存储装置715中。神经机器翻译模型预训练716可以连同处理系统711一起实现关于图6描述的智能机器翻译模型预训练装置600的各个模块的全部功能。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备710访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备710的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其他传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号，该信号的特征中的一个或多个被（以这样的方式）设置或改变，从而将信息编码到该信号中。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其他无线介质的无线介质。

如前所述，硬件元件714和计算机可读介质712代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其他实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其他程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件714体现的一个或多个指令和/或逻辑。计算设备710可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件714，可以至少部分地以硬件来实现将模块实现为可由计算设备710作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备710和/或处理系统711）可执行/可操作以实现本文所述的技术、模块和示例。

本文描述的技术可以由计算设备710的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。计算设备710的功能还可以通过使用分布式系统、诸如通过如下所述的平台730在“云”720上全部或部分地实现。

云720包括和/或代表用于资源732的平台730。平台730抽象云720的硬件（例如，服务器）和软件资源的底层功能。资源732可以包括在远离计算设备710的服务器上执行计算机处理时可以使用的应用和/或数据。资源732还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的客户网络提供的服务。

平台730可以抽象资源和功能以将计算设备710与其他计算设备连接。平台730还可以用于抽象资源的分级以提供遇到的对于经由平台730实现的资源732的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统700内。例如，功能可以部分地在计算设备710上以及通过抽象云720的功能的平台730来实现。

通过研究附图、公开内容和所附的权利要求书，本领域技术人员在实践所要求保护的主题时，能够理解和实现对于所公开的实施例的变型。在权利要求书中，词语“包括”不排除其他元件或步骤，并且本文使用的词语“一”或“一个”不排除多个。虽然某些特征记载在相互不同的从属权利要求中，但是仅仅这个事实并不表明这些特征的组合不能被使用或实现。

Claims

1.一种智能翻译模型的预训练方法，包括：

获取预训练源语言语句和预训练目标语言语句，所述预训练源语言语句包括源语言词语，所述预训练目标语言语句包括目标语言词语；

基于所述源语言词语与所述目标语言词语之间的相似度，从所述目标语言词语中筛选所述源语言词语所对应的候选翻译词，所述每个所述源语言词语对应预设数量的候选翻译词；

根据与所述预训练源语言语句中源语言词语对应的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换，得到所述预训练源语言语句对应的语言混合编码语句；

基于所述语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。

2.如权利要求1所述的方法，其特征在于，所述基于所述源语言词语与所述目标语言词语之间的相似度，从所述目标语言词语中筛选所述源语言词语所对应的候选翻译词，所述每个所述源语言词语对应预设数量的候选翻译词，包括：

遍历所述源语言词语中的源语言词语；

确定遍历到的源语言词语与每个目标语言词语之间的相似度；

基于所述相似度从所述目标语言词语中，筛选预设数量的与所述遍历到的源语言词语对应的候选翻译词，得到每个源语言词语对应预设数量的候选翻译词。

3.如权利要求2所述的方法，其特征在于，所述确定遍历到的源语言词语与每个目标语言词语之间的相似度，包括：

分别提取所述源语言词语的源语言词向量和所述目标语言词语的目标语言词向量；

将所述源语言向量映射和所述目标语言词向量映射到同一向量空间，得到映射后的源语言词向量和映射后的目标语言词向量；

基于所述映射后的源语言词向量和所述映射后的目标语言词向量，计算遍历到的源语言词语与每个目标语言词语之间的相似度。

4.如权利要求2所述的方法，其特征在于，所述基于所述相似度从所述目标语言词语中，筛选预设数量的与所述遍历到的源语言词语对应的候选翻译词，得到每个源语言词语对应预设数量的候选翻译词，包括：

基于所述遍历到的源语言词语与每个目标语言词语的相似度，对目标语言词语进行排序；

从排序后的目标语言词语中筛选预设数量的候选翻译词，作为所述遍历到的源语言词语对应的候选翻译词，直至得到每个源语言词语所对应预设数量的候选翻译词。

5.如权利要求1所述的方法，其特征在于，所述基于所述源语言词语与所述目标语言词语之间的相似度，从所述目标语言词语中筛选所述源语言词语所对应的候选翻译词，所述每个所述源语言词语对应预设数量的候选翻译词之后，还包括：

根据所述源语言词语对应预设数量的候选翻译词，以及所述预设数量的候选翻译词中每个候选翻译词与所述源语言词语的相似度，构建生成概率翻译词典；

所述根据与所述预训练源语言语句中源语言词语对应的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换，得到所述预训练源语言语句对应的语言混合编码语句，包括：

在所述概率翻译词典中查询与所述预训练语言语句中源语言词语对应的候选翻译词；

根据查询到的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换，得到所述预训练源语言语句对应的语言混合编码语句。

6.如权利要求5所述的方法，其特征在于，所述根据查询到的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换，得到所述预训练源语言语句对应的语言混合编码语句，包括：

从所述预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语；

基于所述概率翻译词典对所述待替换词语对应的候选翻译词进行多项式采样，得到采样到的候选翻译词；

将采样到的候选翻译词对所述待替换词语进行替换，

得到所述预训练源语言语句对应的语言混合编码语句。

7.如权利要求6所述的方法，其中所述从所述预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语包括：

获取包含m个词语的源语言语句

，

为正整数；

选择所述源语言语句x的m个词语中的q个词语作为待替换词语，所述q为正整数且0＜q＜m，所述q个词语在所述源语言语句中是连续的、部分连续的或分离的。

8.如权利要求6所述的方法，其中所述从所述预训练源语句中的源语言词语中，确定至少一个源语言词语作为待替换词语包括：

获取包含m个词语的源语言语句

，

为正整数；

选择所述源语言语句

中从

到

的位置的部分

作为待替换词语，其中

。

9.如权利要求1所述的方法，其特征在于，所述基于所述语言混合编码语句对初始翻译模型进行预训练，包括：

将所述语言混合编码语句输入初始翻译模型的编码器进行特征提取处理，得到上下文向量；

通过注意力网络对所述上下文向量进行对齐调序处理，得到经对齐调序的上下文向量；

将所述经对齐调序的上下文向量输入解码器进行解码处理，得到解码输出。

10.如权利要求1-9中任一项所述的方法，还包括：

获取训练数据集，所述训练数据集是从所述源语言到所述目标语言的语义对齐的双语语料；

基于所获取的所述训练数据集对所述预训练翻译模型进行训练，得到翻译模型。

11.如权利要求10所述的方法，还包括：

获取源语言的待翻译语句；

使用所述翻译模型将所述源语言的待翻译语句转换为目标语言的经翻译语句。

12.一种智能机器翻译模型的预训练装置，包括：

获取模块，被配置成获取预训练源语言语句和预训练目标语言语句；所述预训练源语言语句包括源语言词语；所述预训练目标语言语句包括目标语言词语；

筛选模块，被配置成基于所述源语言词语与所述目标语言词语之间的相似度，从所述目标语言词语中筛选所述源语言词语所对应的候选翻译词，所述每个所述源语言词语对应预设数量的候选翻译词；

编码模块，被配置成根据与所述预训练源语言语句中源语言词语对应的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换，得到所述预训练源语言语句对应的语言混合编码语句；

预训练模块，被配置成基于所述语言混合编码语句对初始翻译模型进行预训练，得到预训练翻译模型。

13.一种计算设备，包括：

存储器，其被配置成存储计算机可执行指令；

处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-11中的任一项所述的方法。

14.一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-11中的任一项所述的方法。