CN108874785A

CN108874785A - 一种翻译处理方法及系统

Info

Publication number: CN108874785A
Application number: CN201810555273.0A
Authority: CN
Inventors: 刘洋; 丁延卓; 栾焕博; 孙茂松; 翟飞飞; 许静芳
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-23
Anticipated expiration: 2038-06-01
Also published as: CN108874785B

Abstract

本发明实施例提供一种翻译处理方法及系统，其中方法包括：获取源语言的语句；将所述源语言的语句进行编码，得到向量序列，所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量；根据所述向量序列逐词地预测目标语言中相应的候选词；根据预测得到的候选词生成目标语言的语句，在任一所述候选词的预测处理中，从预设的翻译词表中获取多个初选词，根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。

Description

一种翻译处理方法及系统

技术领域

本发明涉及机器翻译技术领域，更具体地，涉及一种翻译处理方法及系统。

背景技术

随着国际交流的日益深入，人们对语言翻译的需求与日俱增。然而，世界上存在的语言种类繁多，各有特征，形式灵活，使得训练所有语言对之间的机器翻译模型，成为尚待解决的难题。

为了实现自动的机器翻译，目前的技术通常基于神经网络的方法。神经网络是数据驱动的，为此，需要收集大规模高质量的平行语料以获得可靠的翻译模型。然而，高质量的平行语料常常只存在于少量的几种语言之间，并且往往受限于某些特定的领域，比如政府文件、新闻等。

因此，基于神经网络的机器翻译面临着一个很大的问题：大部分的语言对没有质量很高、数量很多的平行语料。在小规模的数据上训练的神经机器翻译模型翻译效果是很差的，因此导致了大多数的语言对没办法训练一个可靠的神经网络翻译模型。

为了解决这个问题，现有技术提出了用多语言的神经机器翻译模型来缓解数据稀疏问题。这些方法的核心思想是“共享”，即同时利用多个语言对的平行预料来训练神经机器翻译模型，共享神经网络的一些子节点甚至是整个神经网络，从而可以在一定程度上解决训练语料稀疏的问题。然而，由于每种语言都有自己独特的特性如语序、词汇等等，只利用“共享”的神经网络去训练多语言翻译模型可能会忽略每种语言的特性，从而导致翻译模型的翻译效果变差。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种翻译处理方法及系统。

根据本发明实施例的第一个方面，提供一种翻译处理方法，包括：

获取源语言的语句；

将所述源语言的语句进行编码，得到向量序列，所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量；

根据所述向量序列逐词地预测目标语言中相应的候选词；

根据预测得到的候选词生成目标语言的语句；

其中，在任一所述候选词的预测处理中，从预设的翻译词表中获取多个初选词，根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据所述翻译概率从所述初选词中选取所述候选词；

所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立，所述公有翻译模型根据多个样本语言对训练而成，所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。

根据本发明实施例的第二个方面，还提供一种翻译处理系统，包括：

源语句获取模块，用于获取源语言的语句；

编码模块，用于将所述源语言的语句进行编码，得到向量序列，所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量；

预测模块，用于根据所述向量序列逐词地预测目标语言中相应的候选词；

目标语句生成模块，用于根据预测得到的候选词生成目标语言的语句；

其中，所述预测模块在任一所述候选词的预测处理中，从预设的翻译词表中获取多个初选词，根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据所述翻译概率从所述初选词中选取所述候选词；

根据本发明的第三方面，还提供一种翻译处理设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的翻译处理方法。

根据本发明的第四方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的翻译处理方法。

本发明提出的翻译处理方法及系统，通过在获取源语言的语句后，对其进行编码得到向量序列，在根据向量序列主次第预测目标语言中相应的候选词，基于结合了公有翻译模型和私有翻译模型的softmax模型，预测目标语言中的候选词，最终根据候选词自动生成目标语言的语句，使得数据稀疏的语言对可以获得更佳的翻译质量。本方法在不同规模的训练数据集以及多个语言对的翻译上都取得了优异的效果，具有良好的一致性和实用性。

附图说明

图1为根据本发明实施例的一种翻译处理方法的流程示意图；

图2为根据本发明实施例的从初选词中选出候选词的流程示意图；

图3为根据本发明实施例的计算每个初选词的公有翻译模型的隐状态的流程示意图；

图4为根据本发明实施例的计算每个初选词的私有翻译模型的隐状态的流程示意图；

图5为根据本发明实施例的一种翻译处理系统的功能框图；

图6为根据本发明实施例的一种翻译处理设备的框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

现有技术提出了用多语言的神经机器翻译模型来缓解数据稀疏问题。这些方法的核心思想是“共享”，即同时利用多个语言对的平行预料来训练神经机器翻译模型，共享神经网络的一些子节点甚至是整个神经网络，从而可以在一定程度上解决训练语料稀疏的问题。然而，由于每种语言都有自己独特的特性如语序、词汇等等，只利用“共享”的神经网络去训练多语言翻译模型可能会忽略每种语言的特性，从而导致翻译模型的翻译效果变差。

为了克服现有技术的上述问题，本发明实施例的基本构思是，通过预先训练的公有翻译模型(相当于现有的共享神经网络)获得语言间的共性，再通过预先训练的私有翻译模型(即针对源语言和目标语言构成的语言对所训练的翻译模型)获得语言间的特性，最终结合语言之间的共性和特性进行翻译，从而使得数据稀疏的语言对可以获得更佳的翻译质量。经验证，本发明实施例的翻译处理方法在不同规模的训练数据集以及多个语言对的翻译上都取得了优异的效果，具有良好的一致性和实用性。

参见图1，图1示出了本发明实施例的一种翻译处理方法的流程示意图，如图所示，该翻译处理方法包括：

S101、获取源语言的语句。

在本发明实施例中，获取源语言的语句的过程可以为：

接收文本数据，并将文本数据作为源语言的语句。

接收语音数据，对语音数据进行语音识别得到经过语音识别的文本数据，并将经过语音识别的文本数据作为源语言的语句。

应当理解的是，上述获取源语言的语句的过程仅为两种可能的实现方式，而不应对本发明实施例构成任何限定。

S102、将源语言的语句进行编码，得到向量序列，向量序列包括由从语句分得的各个分词分别转换成的词向量。

作为本领域技术人员可以理解的是，要将自然语言交给机器学习中的算法来处理，需要将语言数字化，而词向量就是一种用于将语言中的词进行数字化的方式。应当理解的是，现有技术中生成词向量的方法有很多，总的来说可分为基于统计的方法和基于语言模型的方法。在本发明实施例中，采用基于语言模型生成词向量的方法，语言模型生成词向量是通过训练神经网络语言模型(NNLM，neural network language model)得到，词向量作为语言模型(即机器翻译模型)的附带产出。NNLM的基本思想是对出现在上下文环境里的词进行预测，这种对上下文环境的预测本质上也是一种对共现统计特征的学习。

具体地，可以对源语言的语句进行分词，将分得的多个分词分别转换为与每个分词对应的词向量，由多个分词各自对应的词向量得到向量序列。例如以获得源语言的语句“你今天的午餐是披萨”为例，对该语句进行分词处理得到6个分词：你、今天、的、午餐、是、披萨，“0.123、0.186、0.234、0.288、0.317、0.344”就是经编码处理后的向量序列。

应当理解的是，上述得到向量序列的过程仅为可能的实现方式，而不应对本申请构成任何限定。

S103、根据向量序列逐词地预测目标语言中相应的候选词；其中，在任一候选词的预测处理中，从预设的翻译词表中获取多个初选词，并且根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据翻译概率从初选词中选取候选词；预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立，公有翻译模型根据多个样本语言对训练，私有翻译模型根据源语言和目标语言对应的样本语言对训练。

在本发明实施例中，预先训练的机器翻译模型是根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立，进一步地，公有翻译模型是根据多个样本语言对训练，而私有翻译模型根据源语言和目标语言对应的样本语言对训练。本发明实施例中的语言对是指两种不同的语言构成的对，例如将汽车翻译为car，语言对即为(中文/英文)。实际训练是每种语言对都是由平行句对构成，例如(我喜欢音乐/I like music)就是一个平行句对。公有翻译模型中输入的样本语言对有多种，例如(英语/德语)、(德语/英语)、(德语/法语)、(法语/德语)、(汉语/日语)等等，每种样本语言对中含有含义相同的平行句对，例如以“北京的道路很拥挤”为例，存在(英语/德语)语言对的平行句对：(The roads in Beijing arevery crowded/die straβen sind überfüllt,in peking)、(德语/英语)语言对的平行句对：(die straβen sind überfüllt,in peking/The roads in Beijing are verycrowded)、(法语/英语)语言对的平行句对：(les routes sont bondées de Beijing/Theroads in Beijing are very crowded)等等。通过训练公有翻译模型，最终可得到语言间的共性(比如德语、英语、法语都是一个语系，其语言的语序会存在一些相似之处)。而对于私有翻译模型来说，是针对单一的语言对进行训练的，例如仅输入(汉语/日语)语言对，最终获得私有翻译模型将识别出汉语和日语间的特性。

需要注意的是，本发明实施例中的共性和特性均通过隐状态进行表示，隐状态即隐含状态，在本发明实施例中，隐状态也是由向量表示。

本发明实施例的公有翻译模型的训练方法与私有翻译模型的训练方法大体相同，以私有翻译模型为例，将平行句对中的一个句子输入至模型中，得到模型的输出，即平行句对中预测的另一个句子的隐状态，继续获得该输出和标准答案(平行句对中另一个句子的真实隐状态)之间的差(loss)，然后采用该loss分别对私有翻译模型中的各个参数求导，将原参数减去参数求的导数和学习率的乘积就是调整之后的参数，因此每次训练参数的调整量是参数的导数乘以学习率。应当理解的是，上述训练私有翻译模型的过程仅为可能的实现方式，而不应对本申请构成任何限定。

由本发明实施例可知，对于一条源语言的语句，一方面需要将该语句的向量序列和初选词输入至公有翻译模型中，获得语句的向量序列和初选词间的共性，另一方面需要将该语句的向量序列和初选词输入至对应的私有翻译模型(例如需要从中文翻译为英文，就需要预先基于(中文/英文)语言对训练的实验翻译模型)中，获得语句的向量序列和初选词间的特性，通过将上述共性和特性相结合，经过softmax模型进行翻译概率的计算，最终获得候选词。

S104、根据预测得到的候选词生成目标语言的语句。

需要说明的是，本发明实施例的候选词是根据目标语言的语句中各候选词的顺序逐个生成的，例如以“我喜欢吃披萨”为例，依次生成的候选词为：I、like、to、eat、pizza，通过将上述候选词依次排列，即形成了目标语言的语句。

本发明实施例提供的翻译处理方法，通过在获取源语言的语句后，对其进行编码得到向量序列，在根据向量序列主次第预测目标语言中相应的候选词，基于结合了公有翻译模型和私有翻译模型的机器翻译模型，预测目标语言中的候选词，最终根据候选词自动生成目标语言的语句，使得数据稀疏的语言对可以获得更佳的翻译质量。本方法在不同规模的训练数据集以及多个语言对的翻译上都取得了优异的效果，具有良好的一致性和实用性。

基于上述实施例的内容，作为一种可选实施例，根据翻译概率从初选词中选取候选词，之后还包括：获取候选词的词向量。可以理解的是，获取候选词的词向量的方法与获取源语言的语句中分词的词向量的方法一致。

基于上述实施例的内容，作为一种可选实施例，机器翻译模型包括公有翻译模型、私有翻译模型和softmax模型；

需要说明的是，softmax模型内置预先训练的softmax函数，softmax函数输出的分类实际上是全空间的概率分布，在本发明实施例中，softmax函数输出的是所有初选词的翻译概率，因此可以将翻译概率最大的初选词作为候选词。

从预设的翻译词表中获取多个初选词，并且根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据翻译概率从初选词中选取候选词的步骤，如图2所示，图2示出了本发明实施例的从初选词中选出候选词的流程示意图，具体为：

S201、从预设的翻译词表中获取若干个词汇作为初选词。

例如以“我爱吃披萨”翻译成英语为例，首先从预设的翻译词表中获取多个词语，例如I、eat、like、pizza、a、the等等。

S202、根据向量序列和在获取若干个词汇之前预测出的候选词，计算每个初选词的公有翻译模型的隐状态。

根据向量序列计算每个初选词的公有翻译模型的隐状态，并且需要注意的是，在预测目标语句中位于第一位的候选词时，由于之前没有预测出候选词，因此计算式无须考虑之前预测出的候选词。然后在后续的候选词的预测处理中均需要考虑之前预测出的候选词，也就是说，预测出目标语句中位于第一个的候选词后，将基于该候选词继续预测第二位的候选词，而在预测第三位的候选词时，基于第二位的候选词进行预测，而位于第一位的候选词后续将不再被参考。通过步骤202实现了获取各初选词的公有翻译模型的隐状态，即初选词对应源语言的共性。

203、根据向量序列和在获取若干个词汇之前预测出的候选词，计算每个初选词的私有翻译模型的隐状态。

需要说明的是，获得初选词的私有翻译模型的隐状态的流程与获得初选词的公有翻译模型的隐状态大体一致，区别仅在于向量序列和初选词输入到私有翻译模型中。通过步骤203实现了获取各初选词的私有翻译模型的隐状态，即初选词对应源语言的特性。

204、根据计算得到的初选词的公有翻译模型的隐状态和私有翻译模型的隐状态以及在获取若干个词汇之前预测出的候选词的词向量，结合softmax模型计算每个初选词的翻译概率。

也就是说，本发明实施例在计算初选词的翻译概率时，会综合考虑该初选词的共性和特性以及上下文的关联关系(即在获取若干个词汇之前预测出的候选词的词向量)，以得到翻译结果更准确且更流畅的效果。

205、对计算得到的翻译概率进行排序，将翻译概率最高的初选词选为候选词。

基于上述实施例的内容，作为一种可选实施例，公有翻译模型包括公有编码器、公有注意力模块以及公有解码器。

其中，公有编码器用于根据获得向量序列中各词向量的公有隐状态。所谓公有隐状态，即一个分词在多语言对中所具有的共性，比如苹果的英文、德文、法文均为apple，在荷兰语中为De appel，具有很高的相似度，通过计算apple和De appel隐含的共性，即为公有隐状态。

公有编码器可以理解为一个预先训练的神经网络，在训练时，通过输入多个语言对的平行语句对中的一个句子的分词，得到公有编码器的输出，即该分词预测的隐状态，继续获得该输出与标准答案(该分词真实的隐状态)之间的差(loss)然后采用该loss对公有编码器中的参数求导，将原参数减去参数求的导数和学习率的乘积就是调整之后的参数，因此每次训练参数的调整量是参数的导数乘以学习率。

公有注意力模块用于计算每个初选词与源语句的各分词的上下文关系，具体根据初选词与源语句中各分词向量的权重以及每个词向量的公有隐状态获得。

公有解码器模块用于计算每个初选词的公有隐状态。公有解码器也可以理解为一个预先训练的神经网络，在训练时，通过输入多个语言对的平行语句对中的一个句子的分词，得到公有解码器的输出，即该分词在不同的语言对中对应的翻译后的词汇的预测的隐状态，继续获得该输出与标准答案(该分词在不同的语言对中对应的翻译后的词汇的真实的隐状态)之间的差(loss)然后采用该loss对公有解码器中的参数求导，将原参数减去参数求的导数和学习率的乘积就是调整之后的参数，因此每次训练参数的调整量是参数的导数乘以学习率。

相应地，根据向量序列和在获取若干个词汇之前预测出的候选词的词向量，计算每个初选词的公有翻译模型的隐状态的流程可参见图3，图3为本发明实施例的计算每个初选词的公有翻译模型的隐状态的流程示意图。具体为：

S301、将向量序列逐词输入至公有编码器中，输出对应向量序列中各词向量的公有隐状态。

S302、将初选词与向量序列中各词向量之间在公有翻译模型的权重以及向量序列中各词向量的公有隐状态输入至公有注意力模块，输出初选词的公有翻译模型的上下文信息。

具体地，对于第j次从翻译词表中选取的初选词，该初选词的公有翻译模型的上下文信息的计算公式为：

其中，表示第j次从翻译词表中选取的初选词的公有翻译模型的上下文信息，i表示向量序列中的第i个词向量，I表示向量序列中词向量的总个数，表示第j次从翻译词表中选取的初选词与向量序列中的第i个词向量之间在公有翻译模型的权重，表示向量序列中第i个词向量的公有隐状态。

303、将在获取若干个词汇之前预测出的候选词的词向量、在获取若干个词汇之前预测出的候选词的公有翻译模型的隐状态以及初选词的公有翻译模型的上下文信息输入至公有解码器，输出初选词的公有翻译模型的隐状态。

具体地，对于第j次从翻译词表中选取的初选词，该初选词的公有翻译模型的隐状态的计算公式表示：

其中，g()是非线性函数，具体可参考文献Bahdanau D,Cho K,Bengio Y.Neuralmachine translation by jointly learning to align and translate[J].arXivpreprint arXiv:1409.0473,2014；表示获得的第j-1个候选词的公有翻译模型的隐状态，表示第j-1个候选词的词向量，表示第j次从翻译词表中选取的初选词的公有翻译模型的上下文信息，θ_s表示公有解码器中的需要训练的参数。

基于上述实施例的内容，作为一种可选实施例，私有翻译模型包括私有编码器、私有注意力模块以及私有解码器。

其中，私有编码器用于根据获得向量序列中各词向量的私有隐状态。所谓私有隐状态，即一个分词在一种语言对中所具有的特性，在本发明实施例中，私有隐状态是分词在源语言和目标语言的语言对中所具有的特性。

私有编码器可以理解为一个预先训练的神经网络，在训练时，通过输入一种语言对的平行语句对中的一个句子的分词，得到私有编码器的输出，即该分词预测的隐状态，继续获得该输出与标准答案(该分词真实的隐状态)之间的差(loss)然后采用该loss对私有编码器中的参数求导，将原参数减去参数求的导数和学习率的乘积就是调整之后的参数，因此每次训练参数的调整量是参数的导数乘以学习率。

私有注意力模块用于计算每个初选词与源语句的各分词的上下文关系，具体根据初选词与源语句中各分词向量的权重以及每个词向量的私有隐状态获得。

私有解码器模块用于计算每个初选词的私有隐状态。私有解码器也可以理解为一个预先训练的神经网络，在训练时，通过输入一种语言对(与私有编码器中输入的语言对相同)的平行语句对中的一个句子的分词，得到私有解码器的输出，即该分词在不同的语言对中对应的翻译后的词汇的预测的隐状态，继续获得该输出与标准答案(该分词在不同的语言对中对应的翻译后的词汇的真实的隐状态)之间的差(loss)然后采用该loss对私有解码器中的参数求导，将原参数减去参数求的导数和学习率的乘积就是调整之后的参数，因此每次训练参数的调整量是参数的导数乘以学习率。

相应地，根据向量序列和在获取若干个词汇之前预测出的候选词的词向量，计算每个初选词的私有翻译模型的隐状态的流程可参见图4，图4为本发明实施例的计算每个初选词的私有翻译模型的隐状态的流程示意图。具体为：

S401、将向量序列逐词输入至私有编码器中，输出对应向量序列中各词向量的私有隐状态。

S402、将初选词与向量序列中各词向量间在私有翻译模型的权重以及向量序列中各词向量的私有隐状态输入至私有注意力模块，输出初选词的私有翻译模型的上下文信息。

具体地，对于第j次从翻译词表中选取的初选词，该初选词的私有翻译模型的上下文信息的计算公式为：

其中，表示第j次从翻译词表中选取的初选词的私有翻译模型的上下文信息，i表示向量序列中的第i个词向量，I表示向量序列中词向量的总个数，表示第j次从翻译词表中选取的初选词与向量序列中的第i个词向量之间在私有翻译模型的权重，表示向量序列中第i个词向量的私有隐状态。

S403、将在获取若干个词汇之前预测出的候选词的词向量、在获取若干个词汇之前预测出的候选词的私有翻译模型的隐状态以及初选词的私有翻译模型的上下文信息输入至私有解码器，输出初选词的私有翻译模型的隐状态。

其中，g()是非线性函数，具体可参考文献Bahdanau D,Cho K,Bengio Y.Neuralmachine translation by jointly learning to align and translate[J].arXivpreprint arXiv:1409.0473,2014；表示获得的第j-1个候选词的公有翻译模型的隐状态，表示第j-1个候选词的词向量，表示第j次从翻译词表中选取的初选词的公有翻译模型的上下文信息，θ_p表示私有解码器中的需要训练的参数。

基于上述实施例的内容，作为一种可选实施例，softmax模型包括过滤层和概率计算层；

相应地，根据计算得到的初选词的公有翻译模型的隐状态和私有翻译模型的隐状态以及在获取若干个词汇之前预测出的候选词的词向量，结合softmax模型计算每个初选词的翻译概率，具体为：

将在获取若干个词汇之前预测出的候选词的词向量、初选词的私有翻译模型的隐状态以及初选词的公有翻译模型的隐状态输入过滤层，获得初选词过滤后的公有翻译模型的隐状态；

将初选词过滤后的公有翻译模型的隐状态、初选词的私有翻译模型的隐状态、在获取若干个词汇之前预测出的候选词的词向量以及初选词的私有翻译模型的上下文信息输入概率计算层，获得初选词的翻译概率。

需要说明的，因为公有翻译模型是针对多个语言对进行训练的，因此当进行特定某种语言对的翻译的时候，可能会存在别的语言对的信息掺杂在初选词的公有隐状态中，因此需要对初选词的公有隐状态进行过滤。具体地，通过以下公式对初选词的公有隐状态进行过滤：

其中，W_o和W_s为过滤层中需要训练的参数矩阵，g为一个门函数，表示第j次从翻译词表中选取的初选词过滤后的公有隐状态，σ()为sigmoid函数。

获得初选词的翻译概率的公式为：

其中，是在条件为候选词选为初选词时的概率，x^(m)表示源语句m的向量序列中的词向量，表示目标语句中第j个候选词。

基于上述实施例的内容，作为一种可选实施例，公有编码器为双向RNN神经网络，公有注意力模块为注意力增强RNN神经网络。同理，私有编码器为双向RNN神经网络，私有注意力模块为注意力增强RNN神经网络。

需要说明的是，双向RNN神经网络可以在一定程度上解决句子的长距离依赖问题。双向RNN神经网络由前向RNN神经网络和后向RNN神经网络构成，前向RNN神经网络的输入为向量序列中从第一个向量至最后一个向量正向输入，后向RNN神经网络的输入为向量序列中最后一个向量至第一个向量反向输入，结合正向输入的输出结果和反向输入的输出结果获得隐状态。具体地，通过公有编码器生成源语句的向量序列的词向量的公有隐状态

其中，f()是非线性函数，表示源语句m的向量序列中的第i个词向量，表示词向量的公有翻译模型的前向隐状态，表示词向量的公有翻译模型的后向隐状态。

具体地，通过私有编码器生成源语句的向量序列的词向量的私有隐状态

其中，f()是非线性函数，表示源语句m的向量序列中的第i个词向量，表示词向量的私有翻译模型的前向隐状态，表示词向量的私有翻译模型的后向隐状态。本发明实施例中的s和p分别为share(公有)和private(私有)的缩写。

根据本发明的另一个方面，本发明实施例还提供一种翻译处理系统，参见图5，图5示出了本发明实施例的翻译处理系统的功能框图，该系统用于在前述各实施例中将源语言翻译为目标语言。因此，在前述各实施例中的翻译处理方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

如图所示，该翻译处理系统包括：

源语句获取模块501，用于获取源语言的语句；

编码模块502，用于将所述源语言的语句进行编码，得到向量序列，所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量；

预测模块503，用于根据所述向量序列逐词地预测目标语言中相应的候选词；

目标语句生成模块504，用于根据预测得到的候选词生成目标语言的语句；

本发明实施例提供的翻译处理系统，通过在获取源语言的语句后，对其进行编码得到向量序列，在根据向量序列主次第预测目标语言中相应的候选词，基于结合了公有翻译模型和私有翻译模型的机器翻译模型，预测目标语言中的候选词，最终根据候选词自动生成目标语言的语句，使得数据稀疏的语言对可以获得更佳的翻译质量。本方法在不同规模的训练数据集以及多个语言对的翻译上都取得了优异的效果，具有良好的一致性和实用性。

本发明实施例提供了一种翻译处理设备。参见图6，该设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的翻译处理方法，例如包括：获取源语言的语句；将所述源语言的语句进行编码，得到向量序列，所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量；根据所述向量序列逐词地预测目标语言中相应的候选词；根据预测得到的候选词生成目标语言的语句；其中，在任一所述候选词的预测处理中，从预设的翻译词表中获取多个初选词，根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据所述翻译概率从所述初选词中选取所述候选词；所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立，所述公有翻译模型根据多个样本语言对训练而成，所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的翻译处理方法，例如包括：获取源语言的语句；将所述源语言的语句进行编码，得到向量序列，所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量；根据所述向量序列逐词地预测目标语言中相应的候选词；根据预测得到的候选词生成目标语言的语句；其中，在任一所述候选词的预测处理中，从预设的翻译词表中获取多个初选词，根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据所述翻译概率从所述初选词中选取所述候选词；所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立，所述公有翻译模型根据多个样本语言对训练而成，所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种翻译处理方法，其特征在于，包括：

获取源语言的语句；

根据所述向量序列逐词地预测目标语言中相应的候选词；

根据预测得到的候选词生成目标语言的语句；

2.根据权利要求1所述的翻译处理方法，其特征在于，所述根据所述翻译概率从所述初选词中选取所述候选词，之后还包括：获取所述候选词的词向量。

3.根据权利要求2所述的翻译处理方法，其特征在于，所述机器翻译模型包括公有翻译模型、私有翻译模型和softmax模型；

相应地，所述从预设的翻译词表中获取多个初选词，根据预先训练的机器翻译模型计算每个初选词的翻译概率，以根据所述翻译概率从所述初选词中选取所述候选词，具体为：

从预设的翻译词表中获取若干个词汇作为初选词；

根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量，计算每个所述初选词的公有翻译模型的隐状态；

根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量，计算每个所述初选词的私有翻译模型的隐状态；

根据计算得到的所述初选词的公有翻译模型的隐状态和私有翻译模型的隐状态以及在获取若干个词汇之前预测出的候选词的词向量，结合所述softmax模型计算每个初选词的翻译概率；

对计算得到的翻译概率进行排序，将翻译概率最高的初选词选为所述候选词。

4.根据权利要求3所述的翻译处理方法，其特征在于，所述公有翻译模型包括公有编码器、公有注意力模块以及公有解码器；

相应地，所述根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量，计算每个所述初选词的公有翻译模型的隐状态，具体为：

将所述向量序列逐词输入至所述公有编码器中，输出对应所述向量序列中各词向量的公有隐状态；

将所述初选词与所述向量序列中各词向量之间在公有翻译模型的权重以及所述向量序列中各词向量的公有隐状态输入至所述公有注意力模块，输出所述初选词的公有翻译模型的上下文信息；

将所述在获取若干个词汇之前预测出的候选词的词向量、所述在获取若干个词汇之前预测出的候选词的公有翻译模型的隐状态以及所述初选词的公有翻译模型的上下文信息输入至所述公有解码器，输出所述初选词的公有翻译模型的隐状态。

5.根据权利要求3所述的翻译处理方法，其特征在于，所述私有翻译模型包括私有编码器、私有注意力模块以及私有解码器；

相应地，所述根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量，计算每个所述初选词的私有翻译模型的隐状态，具体为：

将所述向量序列逐词输入至所述私有编码器中，输出对应所述向量序列中各词向量的私有隐状态；

将所述初选词与所述向量序列中各词向量之间在私有翻译模型的权重以及所述向量序列中各词向量的私有隐状态输入至所述私有注意力模块，输出所述初选词的私有翻译模型的上下文信息；

将所述在获取若干个词汇之前预测出的候选词的词向量、所述在获取若干个词汇之前预测出的候选词的私有翻译模型的隐状态以及所述初选词的私有翻译模型的上下文信息输入至所述私有解码器，输出所述初选词的私有翻译模型的隐状态。

6.根据权利要求3所述的翻译处理方法，其特征在于，所述softmax模型包括过滤层和概率计算层；

相应地，根据计算得到的所述初选词的公有翻译模型的隐状态和私有翻译模型的隐状态以及在获取若干个词汇之前预测出的候选词的词向量，结合所述softmax模型计算每个初选词的翻译概率，具体为：

将在获取若干个词汇之前预测出的候选词的词向量、所述初选词的私有翻译模型的隐状态以及所述初选词的公有翻译模型的隐状态输入所述过滤层，获得所述初选词过滤后的公有翻译模型的隐状态；

将所述初选词过滤后的公有翻译模型的隐状态、所述初选词的私有翻译模型的隐状态、在获取若干个词汇之前预测出的候选词的词向量以及所述初选词的私有翻译模型的上下文信息输入所述概率计算层，获得所述初选词的翻译概率。

7.根据权利要求4所述的翻译处理方法，其特征在于，所述公有编码器为双向RNN神经网络，所述公有注意力模块为注意力增强RNN神经网络。

8.一种翻译处理系统，其特征在于，包括：

源语句获取模块，用于获取源语言的语句；

9.一种翻译处理设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。