CN109271644A

CN109271644A - 一种翻译模型训练方法及装置

Info

Publication number: CN109271644A
Application number: CN201810936280.5A
Authority: CN
Inventors: 王峰
Original assignee: Beijing Zidong Cognitive Technology Co Ltd
Current assignee: Beijing Zidong Cognitive Technology Co Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2019-01-25

Abstract

本发明实施例提供一种翻译模型训练方法及装置，通过大规模源语言端单语语料和目标语言端单语语料对翻译模型进行训练，通过上述训练后的翻译模型可以同时进行从源语言端到目标语言端和从目标语言端到源语言端的双向翻译，且具有如下优势：能够在无平行语料的情况下获得较高的翻译性能。因此，该方法可以大大减小神经翻译模型对平行语料的依赖，大大降低了人工标注语料的成本和时间。

Description

一种翻译模型训练方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，具体涉及一种翻译模型训练方法及装置。

背景技术

随着全球化的发展，国际交流及信息传递呈现爆发式增长。传统的依赖于人工翻译的方法已经无法满足人们日常跨语言交流的需求。而机器翻译作为一种能自动提供准确翻译结果的技术，逐渐得到广泛的关注和研究。从传统的基于规则的翻译方法到统计机器翻译方法，再到现在主流的神经机器翻译方法，机器翻译的性能已经取得了巨大的进展。

目前主流的神经机器翻译方法严重依赖于大规模的高质量的平行语料。在平行语料数量不足或者没有平行语料的情况下，目前的神经机器翻译方法很难取得令人满意的翻译性能。在实际应用场景中，一般很难获得较大规模的平行语料；虽然人工标注是一个获得平行语料的可行途径，然而，人工标注的成本十分昂贵且极度费时，严重限制了人工标准的大规模展开。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种翻译模型训练方法及装置。

有鉴于此，第一方面，本发明实施例提供一种翻译模型训练方法，包括：

获取大规模的源语言端单语语料和目标语言端单语语料；

训练所述源语言端单语语料和目标语言端单语语料，得到源语言端词向量和目标语言端词向量；

将所述源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量；

利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型；

在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声；

利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行迭代训练。

可选的，训练所述源语言端单语语料和目标语言端单语语料，得到源语言端词向量和目标语言端词向量，包括：

分别对所述源语言端单语语料和目标语言端单语语料进行分词处理，得到分词后的词语；

对所述分词后的词语进行分割，得到粒度更小的子词；

对所述子词进行向量化处理，得到源语言端词向量和目标语言端词向量。

可选的，将所述源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量，包括：

在源语言端单语语料和目标语言端单语语料中找出共有的词语；

根据所述共有的词语构建源语言端词向量和目标语言端词向量的映射关系；

根据所述映射关系将源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量。

可选的，利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型，包括：

利用所述对齐的源语言端词向量和目标语言端词向量初始化所述翻译模型的网络结构中预先定义好的词向量表。

可选的，在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声，包括：

随机打乱所述源语言端单语语料和目标语言端单语语料中连续出现的多个词语的顺序，在所述源语言端单语语料和目标语言端单语语料中加入乱序噪声。

可选的，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行训练，包括：单语言自编码训练；

所述单语言自编码训练包括：

源语言编码器和源语言解码器作为一个源语言自编码器；

将所述带噪声的源语言端单语语料输入所述源语言自编码器，对所述源语言自编码器中的源语言编码器和源语言解码器进行训练；和/或

目标语言编码器和目标语言解码器作为一个目标语言自编码器；

将所述带噪声的目标语言端单语语料输入所述目标语言自编码器，对所述目标语言自编码器中的目标语言编码器和目标语言解码器进行训练。

可选的，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行训练，包括：跨语言机器翻译训练；

所述跨语言机器翻译训练包括：

源语言编码器和目标语言解码器作为源语言到目标语言翻译器；

目标语言编码器和源语言解码器作为目标语言到源语言翻译器；

将所述源语言端单语语料输入所述源语言到目标语言翻译器得到第一伪双语语料，所述第一伪双语语料包括输入所述源语言到目标语言翻译器的源语言端单语语料和对应的所述源语言到目标语言翻译器的输出结果；

将所述目标语言端单语语料输入所述目标语言到源语言翻译器得到第二伪双语语料，所述第二伪双语语料包括输入所述目标语言到源语言翻译器的目标语言端单语语料和对应的所述目标语言到源语言翻译器的输出结果；

将所述第一伪双语语料输入所述目标语言到源语言翻译器对所述目标语言到源语言翻译器中的目标语言编码器和源语言解码器进行训练；

将所述第二伪双语语料输入所述源语言到目标语言翻译器对所述源语言到目标语言翻译器中的源语言编码器和目标语言解码器进行训练。

第二方面，本发明实施例提供一种翻译模型训练装置，包括：

获取模块，用于获取大规模的源语言端单语语料和目标语言端单语语料；

词向量训练模块，用于训练所述源语言端单语语料和目标语言端单语语料，得到源语言端词向量和目标语言端词向量；

词向量对齐模块，用于将所述源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量；

初始化模块，用于利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型；

加噪模块，用于在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声；

模型训练模块，用于利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行迭代训练。

可选的，所述词向量训练模块包括：

分词单元，用于分别对所述源语言端单语语料和目标语言端单语语料进行分词处理，得到分词后的词语；

分割单元，用于对所述分词后的词语进行分割，得到粒度更小的子词；

量化单元，用于对所述子词进行向量化处理，得到源语言端词向量和目标语言端词向量。

可选的，所述词向量对齐模块包括：

查找单元，用于在源语言端单语语料和目标语言端单语语料中找出共有的词语；

映射关系构建单元，用于根据所述共有的词语构建源语言端词向量和目标语言端词向量的映射关系；

映射单元，用于根据所述映射关系将源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量。

可选的，所述初始化模块包括：

词向量初始化单元，用于利用所述对齐的源语言端词向量和目标语言端词向量初始化所述翻译模型的网络结构中预先定义好的词向量表。

可选的，所述加噪模块包括：

乱序噪声单元，用于随机打乱所述源语言端单语语料和目标语言端单语语料中连续出现的多个词语的顺序，在所述源语言端单语语料和目标语言端单语语料中加入乱序噪声。

可选的，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，所述模型训练模块包括：单语言自编码训练单元；

所述单语言自编码训练单元包括：源语言自编码训练子单元和目标语言自编码训练子单元；

所述源语言自编码训练子单元包括源语言编码器和源语言解码器组成的一个源语言自编码器；将所述带噪声的源语言端单语语料输入所述源语言自编码器，对所述源语言自编码器中的源语言编码器和源语言解码器进行训练；

所述目标语言自编码训练子单元包括目标语言编码器和目标语言解码器组成的一个目标语言自编码器；将所述带噪声的目标语言端单语语料输入所述目标语言自编码器，对所述目标语言自编码器中的目标语言编码器和目标语言解码器进行训练。

可选的，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，所述模型训练模块包括：跨语言机器翻译训练单元；

所述跨语言机器翻译训练单元包括：源语言编码器和目标语言解码器组成的源语言到目标语言翻译器和目标语言编码器和源语言解码器组成的目标语言到源语言翻译器；

将所述源语言端单语语料输入所述源语言到目标语言翻译器得到第一伪双语语料；

将所述目标语言端单语语料输入所述目标语言到源语言翻译器得到第二伪双语语料；

第三方面，本发明实施例还提出一种终端，包括：

处理器、存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于外部设备之间的信息传输；

所述处理器用于调用所述存储器中的程序指令，以执行如第一方面所述方法的步骤。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面所述方法的步骤。

相比现有技术，本申请实施例提供的一种翻译模型训练方法，采用通过大规模源语言端单语语料和目标语言端单语语料对翻译模型进行训练，通过上述训练后的翻译模型可以同时进行从源语言端到目标语言端和从目标语言端到源语言端的双向翻译，且具有如下优势：能够在无平行语料的情况下获得较高的翻译性能。因此，该方法可以大大减小神经翻译模型对平行语料的依赖，大大降低了人工标注语料的成本和时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种翻译模型训练方法流程图；

图2为本发明实施例提供的一种词向量训练方法流程图；

图3为本发明实施例提供的一种词向量对齐方法流程图；

图4为本发明实施例提供的一种在单语语料中加入可控噪声的方法流程图；

图5为本发明实施例提供的一种翻译模型的网络结构示意图；

图6为本发明实施例提供的一种用单语语料训练翻译模型的流程图；

图7为本发明实施例提供的一种翻译装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种翻译模型训练方法流程图，所述方法应用于网络结构为深度神经网络的翻译模型，如图1所示，所述方法包括：

S1：获取大规模的源语言端单语语料和目标语言端单语语料；

源语言是指翻译任务中待翻译语言，目标语言是指翻译任务完成后的输出语言。例如，在中文到英文的翻译任务中，中文是源语言，英文是目标语言。

单语语料是指未标注的语料，即源语言和目标语言之间没有一一对应的语料。本实施例中，单语语料可以是从互联网上获取并经过人工整理得到的文本语料，也可以是人工录入的文本语料，甚至是机器翻译自动生成的文本语料。本实施例中使用的单语语料的具体形式为一行包含一个句子。

S2：训练所述源语言端单语语料和目标语言端单语语料，得到源语言端词向量和目标语言端词向量；

由于只有源语言端和目标语言端的单语语料，因此，只能分别训练源语言端和目标语言端的单语语料得到源语言端和目标语言端词向量。此时得到的源语言端和目标语言端词向量之间没有对应关系，即相同语义的源语言端词向量和目标语言端词向量不是对齐的。为了保证词向量的质量，源语言端和目标语言端的单语语料至少应达到百万级的规模。训练得到的源语言端词向量维度和目标语言词端向量维度相同。

S3：将所述源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量；

由于本发明实施例提供的翻译模型训练方法的主要思想在于将源语言端句子和目标语言端句子映射到同一个向量空间，因此，需要将源语言端词向量和目标语言端词向量映射到同一个向量空间。为了获得源语言端词向量和目标语言端词向量的映射关系，需要获得源语言和目标语言共有的词或者语义相同的词语，包括不限于阿拉伯数字，常用符号等。本实施根据源语言和目标语言端共有的阿拉伯数字来构建映射关系。

S4：利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型；

利用训练好的对齐后的源语言端和目标语言端词向量分别初始化翻译模型中对应的预先定义好的源语言端词向量表和目标语言端词向量表。

S5：在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声；

翻译模型的输入为源语言端和目标语言端的单语语料，为了减少模型训练中出现的过拟合现象，需要在输入句子中加入可控的噪声。

S6：利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行迭代训练。

通过迭代训练，使得所述翻译模型可以对源语言端的单语语料和目标语言端的单语语料进行翻译。

本申请实施例提供的翻译模型训练方法，具有如下优势：能够在无平行语料的情况下获得较高的翻译性能。因此，该方法可以大大减小神经翻译模型对平行语料的依赖，大大降低了人工标注语料的成本和时间。

实施例二

本发明实施例提供的一种翻译模型训练方法，所述方法应用于网络结构为深度神经网络的翻译模型，所述方法的流程如实施例一所述，此处不再赘述；

图2为本发明实施例提供的一种词向量训练方法流程图，如图2所示，在本申请实施例中，步骤S2包括：

S21:分别对源语言端和目标语言端单语语料进行分词，得到分词后的词语。

具体分词方法可以参见各种相关技术。如传统的基于条件随机场的分词方法以及目前主流的基于长短时记忆网络的分词方法。

需要说明的是，如果当前语言不需要进行分词，如英语，法语等词语间已经有空格进行切分的语言，则不对该语言对应的语料进行分词。

另外，如果源语言或者目标语言的语料中包含非法或无意义的字符，可以先对语料进行清洗，去除其中非法或无意义的字符，具体清洗方法可以参见各种相关技术。

S22:对分词后的词语进行分割，得到粒度更小的子词单元。

具体的分割方法可以参加各种相关技术。如BPE(byte pair encoding),wordpiece等。

需要说明的是，将词语切割为更小的子词单元的目的在于减少未登录词，同时也可以减小翻译词表的大小，从而提升翻译性能，也能减少翻译模型参数数量。为了尽量减少未登录词的数量同时保留足够多的子词单元，一般将子词单元的数量控制在一个合适的区间，如3万到5万之间。

S23:对子词单元进行向量化，得到词向量。

具体的向量化方法可以参见各种相关技术，如使用word2vec技术或者fastText技术进行子词向量化。为了将词向量区分开，使其具备一定的词义表征能力，可以使用高维向量表示每个子词单元，如可以将每个词向量维度设置为512。

实施例三

本发明实施例提供的一种翻译模型训练方法，所述方法应用于网络结构为深度神经网络的翻译模型，所述方法的流程如实施例一或二所述，此处不再赘述；

图3为本发明实施例提供的一种词向量对齐方法流程图，如图3所示，在本申请实施例中，步骤S3包括：

S31：从源语言和目标语言词单语语料中寻找共有的词语。

具体的，源语言和目标语言中共有的词语通常包括阿拉伯数字，常用的符号等。

S32:根据所述源语言和目标语言端的共有词语构建一一对应的映射关系；

具体的，将源语言和目标语言词表中共有的词语在源语言和目标语言中对应的词向量视为语义向量空间中的同一点。如，源语言和目标语言中都出现词语“19”，“19”在源语言中的词向量表示为x,在目标语言中词向量表示为y,则x和y被视为语义向量空间中的同一点，x和y能通过简单的线性变化映射到该点上。而该线性变化即是本实施例构建的一一对应的映射关系。

S33：根据所述映射关系将源语言和目标语言端的词向量映射到公共的向量空间。

具体的，将源语言词表中所有的词语对应的词向量经过所述的线性变换，转化为语义空间中对应的词向量；同样，将目标语言词表中所有的词语对应的词向量经过所述的线性变换，转化为语义空间中对应的词向量。

需要说明的是，经过所述的将源语言和目标语言端词向量映射到公共的向量空间，映射后的源语言端词向量和目标语言端词向量是对齐的。即相同语义的词语，其在源语言中的词向量表示与其在目标语言中的词向量表示是相同或者相近的。

实施例四

本发明实施例提供的一种翻译模型训练方法，所述方法应用于网络结构为深度神经网络的翻译模型，所述方法的流程如实施例一至三任一所述，此处不再赘述；

图4为本发明实施例提供的一种在单语语料中加入可控噪声的方法流程图，如图4所示，在本申请实施例中，步骤S5包括：

S51:读取单语语料的长度和当前翻译模型训练更新的次数,计算所述单语语料中各词语加入噪声后的位置；

按下式计算单语语料中第i个词语加入噪声后的位置ξ(i)：

其中，n表示单语语料的句子长度，steps表示当前翻译模型训练更新的次数，k和s是预先定义好的参数，k表示基础噪声距离，s表示更新步幅。

S52:将所述单语语料中各词语调整到对应的加入噪声后的位置，从而在整个单语语料中加入了可控的噪声。

需要说明的是，本实施例中可控噪声指的是所述的噪声可以由用户预先定义的参数k和s进行调控。

如果k增大，词语顺序调整的距离越长，噪声越大；如果k减小，噪声减小。

如果s增大，更新步幅越大，噪声越小；如果s减小，噪声增大。

实施例五

本发明实施例提供的一种翻译模型训练方法，所述方法应用于网络结构为深度神经网络的翻译模型，所述方法的流程如实施例一至四任一所述，此处不再赘述；

图5为本发明实施例中翻译模型的网络结构示意图，如图5所示，所述翻译模型的网络结构包括：

编码器层，解码器层。

编码器层通过对输入样本进行编码，得到输入样本的上下文向量。解码器层通过对编码器得到的上下文向量进行解码，得到解码后的翻译句子。

编码器层包含两个编码器，一个编码器用于对源语言进行编码，用Enc_s表示，另一个编码器用于对目标语言进行编码，用Enc_t表示。两个编码器具有相同的网络结构，自下而上，分别包含独立的词向量层，三层独立的自注意力层，以及一层共享的自注意力层。

需要说明的是，独立的词向量层指的是编码器Enc_s和Enc_t中的词向量层是独立的，即词向量层的参数是不共享的；独立的注意力层是指Enc_s和Enc_t中最底下三层的自注意力层是独立的，即参数是不共享的；共享的自注意力层是最上面一层自注意力层是Enc_s和Enc_t共享的，即该自注意力层的参数是两个编码器共享的。下面从输入样本开始，对编码器的整个处理流程做具体的介绍。

如图5所示，以源语言端单语语料和目标语言端单语语料为属于样本，给定源语言和目标语言的输入样本(x_s,x_t)，其中x_s表示源语言的输入样本，x_t表示目标语言的输入样本，词向量层接收输入样并通过查表的方式将其转化为对应的向量序列(e_s,e_t)。

需要说明的是，上述输入样本(x_s,x_t)是经过加噪模块加入可控噪声后的样本。源语言输入样本x_s和目标语言输入样本x_t是独立的，没有对应的翻译关系。为了加速模型训练，通常将x_s和x_t的长度限定在一个阈值范围内，如长度限定为不超过50个词语。接着，将e_s输入到Enc_s中三层独立的自注意力层，将e_t输入到Enc_t三层独立的自注意力层。自注意力层对输入词语向量序列进行编码，得到输入样本的高层表示。独立的自注意力层对源语言和目标语言端的词向量序列进行独立编码，能够保存源语言和目标语言各自特有的属性，如语言内部语法结构，词序特征等。最后，将独立的自注意力层的输出结果作为共享自注意力层的输入，得到编码器的输出，即输入样本的上下文向量。共享的自注意力层的作用在于将源语言和目标语言的高层表示映射到同一个隐向量空间，从而有利于实现跨语言的翻译。将输入样本经过编码器层后的输出结果表示为(c_s,c_t)。

解码器层包含两个解码器，一个解码器用于将编码器层输出的上下文向量解码为源语言，用Dec_s表示；另一个解码器用于将编码器输出的上下文向量解码为目标语言，用Dec_t表示。两个解码器具有相同的网络结构，自下而上，分别包含一个独立的词向量层，一层共享的自注意力层，三个独立的自注意力层。

需要说明的是，独立的词向量层指的是解码器Dec_s和Dec_t中的词向量层是独立的，即词向量层的参数是不共享的；共享的自注意力层是指最下面一层自注意力层是解码器Dec_s和Dec_t共享的，即该自注意力层的参数是两个解码器共享的；三层独立的自注意力层是指最上面三层自注意力层是独立的，即参数是不共享的。

对于编码器层的输出(c_s,c_t)，c_s是源语言输入样本经过源语言编码器得到的上下文向量，c_t是目标语言输入样本经过目标语言编码器得到的上下文向量。将c_s作为Dec_s的输入，解码得到输入样本x_s对应的源语言，此时Enc_s和Dec_s构成了一个源语言到源语言的自编码器；将c_s作为Dec_t的输入，解码得到输入样本x_s对应的目标语言，此时，Enc_s和Dec_t构成了一个源语言到目标语言的翻译模型；将c_t作为编码器Dec_t的输入，解码得到输入样本x_t对应的目标语言，此时Enc_t和Dec_t构成了一个目标语言到目标语言的自编码器；将c_t作为解码器Dec_s的输入，解码得到输入样本x_t对应的源语言，此时Enc_t和Dec_s构成了一个从目标语言到源语言的翻译器。

因此，本实施例中的翻译模型网络结构包含两个自编码器和两个翻译器。其中，自编码器实现了同一种语言之间的相互翻译。通过自编码器的训练，使模型能够学习到很强的语言模型信息；翻译器实现了两种不同语言之间的互相翻译，通过翻译器的训练，使模型能够得到很好的翻译性能。具体的训练方法流程见后续内容。

实施例六

本发明实施例提供的一种翻译模型训练方法，所述方法应用于网络结构为深度神经网络的翻译模型，所述方法的流程如实施例一至五任一所述，此处不再赘述；

在本申请实施例中，利用训练好的对齐后的源语言端和目标语言端词向量分别初始化翻译模型中对应的预先定义好的源语言端词向量表和目标语言端词向量表，包括：

本申请实施例中的翻译模型网络结构共含有四个词向量表：源语言编码器中的词向量表，目标语言编码器中的词向量表，源语言解码器中的词向量表，目标语言解码器中的词向量表。本实施例中用对齐后的源语言端词向量初始化源语言编码器中的词向量表和源语言解码器中的词向量表，利用对齐后的目标语言的词向量初始化目标语言编码器中的词向量表和目标语言解码器中的词向量表。

需要说明的是，编码器端的词向量表初始化后不再变化，即参数不随模型训练而更新；解码器端的词向量表初始化后依然可变，即参数会在模型训练过程中不断得到更新。

实施例七

本发明实施例提供的一种翻译模型训练方法，所述方法应用于网络结构为深度神经网络的翻译模型，所述方法的流程如实施例一至六任一所述，此处不再赘述；

图6为本发明实施例提供的一种用单语语料训练翻译模型的流程图，如图6所示，本申请实施例中，步骤S6包括：

S61：源语言自编码训练

对于源语言端单语语料x_s，加入噪声后得到n_s，源语言编码器和源语言解码器构成了一个针对源语言的自编码器，该自编码器的输入样本为n_s,预测目标为不带噪声的x_s。通过随机梯度下降算法，使模型预测误差不断较小，模型参数不断得到更新，模型不断学习源的语言模型信息。

S62：目标语言自编码训练

对于目标语言端单语语料x_t,加入噪声后得到n_t。目标语言编码器和目标语言解码器构成了一个针对目标语言的自编码器，该自编码器的输入样本为带噪声的n_t，预测目标为不带噪声的x_t。通过随机梯度下降算法，是模型预测误差不断减小，模型参数不断得到更新，模型不断学习目标语言的语言模型信息。

S63：源语言到目标语言翻译器解码

对于源语言端单语语料x_s，源语言编码器和目标语言解码器构成了一个从源语言到目标语言的翻译器。用该翻译器对单语语料x_s进行解码，得到x_s在目标语言端的翻译结果x_s→t，x_s和x_s→t组成第一伪双语语料。

S64：目标语言到源语言翻译器解码

对于目标语言端单语语料x_t。目标语言编码器和源语言解码器构成了一个从目标语言到源语言的翻译器。用该翻译器对单语语料x_t进行解码，得到x_t在源语言端的翻译结果x_t→s，x_t和x_t→s组成第二伪双语语料。

S65：源语言到目标语言翻译器训练

由步骤S64，可以得到目标语言端单语语料x_t对应的在源语言端的翻译结果x_t→s。将x_t→s作为源语言到目标语言翻译器的输入样本，x_t作为源语言到目标语言翻译器的目标输出。通过随机梯度下降算法，使模型预测误差不断减小，模型参数不断得到更新，模型从源语言到目标语言的翻译性能不断得到提升。

S66：目标语言到源语言翻译器训练

由步骤S65,可以得到源语言端单语语料x_s对应的在目标语言端的翻译结果x_s→t。将x_s→t作为目标语言到源语言翻译器的输入样本，x_s作为目标语言到源语言翻译器的目标输出。通过随机梯度下降算法，使模型预测误差不断减小，模型参数不断得到更新，模型从目标语言到源语言的翻译性能不断得到提升。

需要说明的是，以上训练步骤是迭代重复进行的，直到模型性能不再提升结束。

实施例八

图7是本申请一个实施例提出的翻译装置的结构示意图。如图7所示，所述装置，包括：

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见实施例一至七的相关描述，在此不再详细说明。

在本实施例中，通过大规模单语语料来训练得到高性能的翻译模型，降低或者避免了对双语语料的依赖。从而大大降低了构建高性能神经机器翻译模型的人力和物力成本，降低了神经机器翻译的应用门槛，为神经机器翻译的商业应用提供了方法支撑。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种翻译模型训练方法，其特征在于，包括：

获取大规模的源语言端单语语料和目标语言端单语语料；

2.根据权利要求1所述的方法，其特征在于，训练所述源语言端单语语料和目标语言端单语语料，得到源语言端词向量和目标语言端词向量，包括：

对所述分词后的词语进行分割，得到粒度更小的子词；

3.根据权利要求1所述的方法，其特征在于，将所述源语言端词向量和目标语言端词向量映射到同一个向量空间，得到对齐的源语言端词向量和目标语言端词向量，包括：

4.根据权利要求1所述的方法，其特征在于，利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型，包括：

5.根据权利要求1所述的方法，其特征在于，在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声，包括：

6.根据权利要求1所述的方法，其特征在于，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行训练，包括：单语言自编码训练；

所述单语言自编码训练包括：

源语言编码器和源语言解码器作为一个源语言自编码器；

7.根据权利要求1所述的方法，其特征在于，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，利用带噪声的所述源语言端单语语料和目标语言端单语语料，对初始化后的翻译模型进行训练，包括：跨语言机器翻译训练；

所述跨语言机器翻译训练包括：

8.一种翻译模型训练装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述词向量训练模块包括：

10.根据权利要求8所述的装置，其特征在于，所述词向量对齐模块包括：

11.根据权利要求8所述的装置，其特征在于，所述初始化模块包括：

12.根据权利要求8所述的装置，其特征在于，所述加噪模块包括：

13.根据权利要求8所述的装置，其特征在于，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，所述模型训练模块包括：单语言自编码训练单元；

14.根据权利要求8所述的装置，其特征在于，所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器，所述模型训练模块包括：跨语言机器翻译训练单元；