CN106484682A

CN106484682A - 基于统计的机器翻译方法、装置及电子设备

Info

Publication number: CN106484682A
Application number: CN201510527745.8A
Authority: CN
Inventors: 曾晓东; 骆卫华; 林锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2017-03-08
Anticipated expiration: 2035-08-25
Also published as: WO2017033063A2; US10810379B2; WO2017033063A3; US20170060854A1; US20190197118A1; TW201717070A; CN106484682B; US10268685B2

Abstract

本发明公开了一种基于统计的机器翻译方法、装置及电子设备，一种计算语义相似度的方法、装置和电子设备，以及一种词量化方法、装置和电子设备。其中所述基于统计的机器翻译方法，通过根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成待翻译句子到各个候选译文的翻译概率，其中所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度，并选取预设数量的翻译概率排在高位的候选译文，作为待翻译句子的译文。采用本申请提供的基于统计的机器翻译方法，能够在构建机器翻译模型时深入到自然语言的语义层面，避免译文与原文的语义有偏差，从而达到提高翻译质量的效果。

Description

基于统计的机器翻译方法、装置及电子设备

技术领域

本申请涉及机器翻译技术领域，具体涉及一种基于统计的机器翻译方法、装置及电子设备。本申请同时涉及一种计算语义相似度的方法、装置和电子设备，以及一种词量化方法、装置和电子设备。

背景技术

机器翻译是指，利用电子计算机实现自动从一种自然语言文本(源语言)到另一种自然语言文本(目标语言)的翻译，用以完成这一过程的软件称为机器翻译系统。随着电子计算机和互联网的发展和普及，各民族之间的文化交流越来越频繁，语言障碍的问题在新的时代再次凸显出来，人们比以往任何时候更加迫切需要机器翻译。

机器翻译方法可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源；后者由经过划分并具有标注的语料库构成知识源，既不需要词典也不需要规则，以统计规律为主。基于语料库的方法可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。下面分别对上述机器翻译方法进行简要说明。

1)基于规则的机器翻译方法

该方法一般需要借助于词典、模板和人工整理的规则进行。需要对要被翻译的源语言的原文进行分析，并对原文的意义进行表示，然后再生成等价的目标语言的译文。一个好的基于规则的机器翻译设备，需要有足够多、覆盖面足够广的翻译规则，并且有效地解决规则之间的冲突问题。由于规则通常需要人工整理，因此，人工成本高、很难得到数量非常多、覆盖非常全面的翻译规则，并且不同人给出的翻译规则冲突的概率较大。

2)基于实例的机器翻译方法

该方法以实例为基础，主要利用预处理过的双语语料和翻译词典进行翻译。在翻译的过程中，首先在翻译实例库搜索与原文片段相匹配的片段，再确定相应的译文片段，重新组合译文片段以得到最终的译文。可见，翻译实例的覆盖范围和存储方式直接影响着这种翻译技术的翻译质量和速度。

3)基于统计的机器翻译方法

该方法的基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译，并正在融合句法信息，以进一步提高翻译的精确性。

该方法是基于双语语料库的，其将双语语料库中的翻译知识通过机器学习的方法表示为统计模型并抽取翻译规则，按照翻译规则将需要翻译的原文翻译为目标语言的译文。由于基于统计的机器翻译方法需要的人工处理少、不依赖于具体的实例、不受领域限制、处理速度快，所以相对于其它两种机器翻译技术具有明显的优势，是目前非限定领域机器翻译中性能较佳的一种方法。

综上所述，相对于前两种方法而言，基于统计的机器翻译方法是目前最为常用的机器翻译方法。自上世纪90年代以来，基于统计的机器翻译方法取得了飞速发展，并逐渐成为了机器翻译研究领域的核心内容。在此期间，学者们提出了多种基于统计的机器翻译方法，包括基于词的、基于短语的、基于层次短语的、基于句法的和基于语义的统计机器翻译方法。

现有的基于语义的统计机器翻译方法，是一种完全基于语义的统计机器翻译方法。该方法的缺点非常突出，首先，此类翻译方法所使用语义表达形式过于复杂，且通用性不够(即相同语义对应不同语言的表达形式有较大差别)，同时搭建特定语言的语义分析器的难度极大，所以很难将语言表达结构作为一种“中间语”来作用于翻译方法。其次，完全基于语义的统计机器翻译系统所训练出来的语义翻译规则一般都过于臃肿，故此类翻译方法现阶段只停留在理论实验阶段，没法在工业界中批量使用。

而现有的其它基于统计的机器翻译方法，在构建机器翻译模型时，并没有深入到自然语言的语义层面，因而导致产生的译文语义与原文语义有偏差，达不到语义一致的翻译效果，从而严重地降低了机器翻译质量。例如，源语言英文“the apple product”里的“apple”一词表达的语义是“苹果公司”，若将其翻译成食品的“苹果”，则造成语义的偏差，从而严重降低用户的使用体验。

综上所述，由于完全基于语义的统计机器翻译方法需要借助复杂的语义表达结构，因而该方法的实用性较差。而其它基于统计的机器翻译方法，没有考虑语义成分信息，因而在处理句法语义差别较大的语言对时会凸显翻译语义不一致问题，导致虽然翻译结果“词词都对”却无法被人阅读的问题。

通常，在基于统计的机器翻译方法中，可以通过获取高质量、大规模的双语平行语料库的方法，改善上述译文语义与原文语义有偏差的问题。然而，对于很多语言来说，要获取高质量、大规模的双语平行语料库较为困难。可见，通过获取高质量、大规模的双语平行语料库的方法，改善基于统计的机器翻译方法存在的译文与原文语义有偏差的问题，并不是一个行之有效的方法。

综上所述，采用现有的基于统计的机器翻译方法进行翻译时，存在原文与译文语义不一致的问题。

发明内容

本申请提供一种基于统计的机器翻译方法、装置及电子设备，以解决现有技术存在原文与译文语义不一致的问题。本申请另外提供一种计算语义相似度的方法、装置和电子设备，以及一种词量化方法、装置和电子设备。

本申请提供一种基于统计的机器翻译方法，包括：

根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文；

根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成所述待翻译句子到各个候选译文的翻译概率；所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度；

选取预设数量的所述翻译概率排在高位的候选译文，作为所述待翻译句子的译文。

可选的，所述待翻译句子和候选译文的语义相似度，采用如下步骤计算：

获取所述待翻译句子的句子向量，以及所述候选译文的句子向量；

计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离，作为所述待翻译句子和候选译文的语义相似度；

其中，所述待翻译句子的句子向量和所述候选译文的句子向量包括句子的语义信息。

可选的，所述待翻译句子的句子向量和所述候选译文的句子向量，采用如下步骤生成：

根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本；

以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标，学习获取所述待翻译句子的句子向量和所述候选译文的句子向量；

其中，所述源语言是指所述待翻译句子所属的语言；所述目标语言是指所述候选译文所属的语言；所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。

可选的，所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本，包括：

解析所述待翻译句子和所述候选译文，获取所述待翻译句子和所述候选译文包括的词；

根据所述词与词向量的对应关系，获取所述待翻译句子和所述候选译文包括的词对应的词向量；

随机设置所述待翻译句子的句子向量和所述候选译文的句子向量；

针对所述待翻译句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

针对所述候选译文包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标，学习获取所述待翻译句子的句子向量和所述候选译文的句子向量，包括：

根据已构建的各个神经网络语言模型样本，计算第一目标函数的值；

判断所述第一目标函数的值是否大于上一次所述第一目标函数的值；若是，则采用最优化算法，更新所述待翻译句子的句子向量和所述候选译文的句子向量，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第一目标函数的值的步骤；

其中，所述第一目标函数，是指第一平均值与第二平均值之和，与所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离的差值；所述第一平均值，是指所述与待翻译句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值；所述第二平均值，是指所述与候选译文包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。

可选的，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述待翻译句子的句子向量和所述候选译文的句子向量，包括：

根据预设的学习速率和所述第一目标函数，计算所述待翻译句子的句子向量和所述候选译文的句子向量的梯度；

根据所述待翻译句子的句子向量和所述候选译文的句子向量的梯度，更新所述待翻译句子的句子向量和所述候选译文的句子向量。

可选的，所述向量之间的距离包括余弦夹角距离或欧式距离。

可选的，所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。

可选的，所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同；所述神经网络语言模型的输入层到输出层的各个连接权重为0。

可选的，所述神经网络语言模型的隐藏层的激励函数为线性函数。

可选的，所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。

可选的，所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，采用如下步骤生成：

获取平行语料库；

解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；

为所述平行语料库包括的各个词设置第一预设维度的词向量，形成所述词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；

针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

可选的，所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

解析所述源语言句子和所述目标语言句子，获取所述源语言句子和所述目标语言句子包括的词；

根据所述词与词向量的对应关系，获取所述源语言句子和所述目标语言句子包括的词对应的词向量；

针对所述源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

针对所述目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

根据已构建的各个神经网络语言模型样本，计算第二目标函数的值；

判断所述第二目标函数的值是否大于上一次所述第二目标函数的值；若是，则采用最优化算法，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第二目标函数的值的步骤；

其中，所述第二目标函数，是指第三平均值与第四平均值之和，与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值；所述第三平均值，是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值；所述第四平均值，是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。

可选的，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

根据预设的学习速率和所述第二目标函数，计算所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度；

根据所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

可选的，所述对翻译概率产生影响的特征还包括：所述待翻译句子到所述候选译文的短语翻译概率、所述候选译文到所述待翻译句子的短语翻译概率、所述待翻译句子到所述候选译文的词翻译概率、所述候选译文到所述待翻译句子的词翻译概率、所述候选译文的句子概率和所述待翻译句子与所述候选译文调序与不调序的分类概率的至少一者。

可选的，所述根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文，采用如下方式算法实现：CYK解码算法、基于栈的解码算法或移进-归约解码算法。

可选的，所述根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文，包括：

解析所述待翻译句子，生成所述待翻译句子的各个子字符串；

根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文；

根据所述子字符串在所述待翻译句子中的位置，将相邻子字符串的候选译文进行组合拼接，形成所述待翻译句子的候选译文。

可选的，所述根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文，包括：

针对各个所述翻译规则，判断所述子字符串是否属于所述翻译规则；

若上述判断结果为是，则根据所述翻译规则，生成所述子字符串的候选译文。

可选的，通过线性回归算法，从预先存储的平行预料中学习出所述翻译概率预测模型。

相应的，本申请还提供一种基于统计的机器翻译装置，包括：

生成候选译文单元，用于根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文；

计算翻译概率单元，用于根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成所述待翻译句子到各个候选译文的翻译概率；所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度；

选取单元，用于选取预设数量的所述翻译概率排在高位的候选译文，作为所述待翻译句子的译文。

可选的，还包括：

计算语义相似度单元，用于计算所述待翻译句子和候选译文的语义相似度。

可选的，所述计算语义相似度单元包括：

获取子单元，用于获取所述待翻译句子的句子向量，以及所述候选译文的句子向量；

计算子单元，用于计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离，作为所述待翻译句子和候选译文的语义相似度；

可选的，还包括：

生成句子向量单元，用于生成所述待翻译句子的句子向量，以及所述候选译文的句子向量。

可选的，所述生成句子向量单元包括：

构建样本子单元，用于根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本；

学习子单元，用于以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标，学习获取所述待翻译句子的句子向量和所述候选译文的句子向量；

可选的，所述构建样本子单元包括：

解析子单元，用于解析所述待翻译句子和所述候选译文，获取所述待翻译句子和所述候选译文包括的词；

映射子单元，用于根据所述词与词向量的对应关系，获取所述待翻译句子和所述候选译文包括的词对应的词向量；

设置子单元，用于随机设置所述待翻译句子的句子向量和所述候选译文的句子向量；

第一构建子单元，用于针对所述待翻译句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

第二构建子单元，用于针对所述候选译文包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述学习子单元包括：

计算子单元，用于根据已构建的各个神经网络语言模型样本，计算第一目标函数的值；

判断子单元，用于判断所述第一目标函数的值是否大于上一次所述第一目标函数的值；若是，则采用最优化算法，更新所述待翻译句子的句子向量和所述候选译文的句子向量，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第一目标函数的值的步骤；

可选的，还包括：

训练单元，用于生成所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

可选的，所述训练单元包括：

获取子单元，用于获取平行语料库；

解析子单元，用于解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；

设置子单元，用于为所述平行语料库包括的各个词设置第一预设维度的词向量，形成所述词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；

构建子单元，用于针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

学习子单元，用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

可选的，所述构建子单元包括：

解析子单元，用于解析所述源语言句子和所述目标语言句子，获取所述源语言句子和所述目标语言句子包括的词；

映射子单元，用于根据所述词与词向量的对应关系，获取所述源语言句子和所述目标语言句子包括的词对应的词向量；

第一构建子单元，用于针对所述源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

第二构建子单元，用于针对所述目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述学习子单元包括：

计算子单元，用于根据已构建的各个神经网络语言模型样本，计算第二目标函数的值；

判断子单元，用于判断所述第二目标函数的值是否大于上一次所述第二目标函数的值；若是，则采用最优化算法，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第二目标函数的值的步骤；

可选的，所述生成候选译文单元包括：

解析子单元，用于解析所述待翻译句子，生成所述待翻译句子的各个子字符串；

获取子单元，用于根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文；

拼接子单元，用于根据所述子字符串在所述待翻译句子中的位置，将相邻子字符串的候选译文进行组合拼接，形成所述待翻译句子的候选译文。

可选的，所述获取子单元包括：

判断子单元，用于针对各个所述翻译规则，判断所述子字符串是否属于所述翻译规则；

生成子单元，用于若上述判断结果为是，则根据所述翻译规则，生成所述子字符串的候选译文。

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器用于存储基于统计的机器翻译装置，所述基于统计的机器翻译装置被所述处理器执行时，包括如下步骤：根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文；根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成所述待翻译句子到各个候选译文的翻译概率；所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度；选取预设数量的所述翻译概率排在高位的候选译文，作为所述待翻译句子的译文。

此外，本申请还提供一种语义相似度的计算方法，包括：

获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量；

计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度；

其中，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。

可选的，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，采用如下步骤生成：

根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标，学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量；

其中，所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。

可选的，所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

解析所述待计算的源语言句子和所述待计算的目标语言句子，获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词；

根据所述词与词向量的对应关系，获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词对应的词向量；

随机设置所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量；

针对所述待计算的源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待计算的源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

针对所述待计算的目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待计算的目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标，学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，包括：

判断所述第一目标函数的值是否大于上一次所述第一目标函数的值；若是，则采用最优化算法，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第一目标函数的值的步骤；

其中，所述第一目标函数，是指第一平均值与第二平均值之和，与所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离的差值；所述第一平均值，是指所述与待计算的源语言句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值；所述第二平均值，是指所述与待计算的目标语言句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。

可选的，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，包括：

根据预设的学习速率和所述第一目标函数，计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量的梯度；

根据所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量的梯度，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。

获取平行语料库；

针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

可选的，所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

解析所述平行语料中源语言句子和目标语言句子，获取所述平行语料中源语言句子和目标语言句子包括的词；

根据所述词与词向量的对应关系，获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量；

针对所述平行语料中源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

针对所述平行语料中目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

判断所述第二目标函数的值是否大于上一次所述第二目标函数的值；若是，则采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第二目标函数的值的步骤；

可选的，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

根据预设的学习速率和所述第二目标函数，计算所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度；

根据所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

相应的，本申请还提供一种语义相似度的计算装置，包括：

获取单元，用于获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量；

计算子单元，用于计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度；

可选的，还包括：

生成句子向量单元，用于生成所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。

可选的，所述生成句子向量单元包括：

构建样本子单元，用于根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

学习子单元，用于以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标，学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量；

可选的，所述构建样本子单元包括：

解析子单元，用于解析所述待计算的源语言句子和所述待计算的目标语言句子，获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词；

映射子单元，用于根据所述词与词向量的对应关系，获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词对应的词向量；

设置子单元，用于随机设置所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量；

第一构建子单元，用于针对所述待计算的源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待计算的源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

第二构建子单元，用于针对所述待计算的目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待计算的目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述学习子单元包括：

判断子单元，用于判断所述第一目标函数的值是否大于上一次所述第一目标函数的值；若是，则采用最优化算法，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第一目标函数的值的步骤；

可选的，还包括：

可选的，所述训练单元包括：

获取子单元，用于获取平行语料库；

构建子单元，用于针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

可选的，所述构建子单元包括：

解析子单元，用于解析所述平行语料中源语言句子和目标语言句子，获取所述平行语料中源语言句子和目标语言句子包括的词；

映射子单元，用于根据所述词与词向量的对应关系，获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量；

第一构建子单元，用于针对所述平行语料中源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本；

第二构建子单元，用于针对所述平行语料中目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

可选的，所述学习子单元包括：

判断子单元，用于判断所述第二目标函数的值是否大于上一次所述第二目标函数的值；若是，则采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第二目标函数的值的步骤；

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器用于存储语义相似度的计算装置，所述语义相似度的计算装置被所述处理器执行时，包括如下步骤：获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量；计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度；其中，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。

此外，本申请还提供一种词量化方法，包括：

获取平行语料库；

为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；

以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系；

可选的，所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系，包括：

可选的，所述句子向量之间的距离包括余弦夹角距离或欧式距离。

相应的，本申请还提供一种词量化装置，包括：

获取单元，用于获取平行语料库；

解析单元，用于解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；

设置单元，用于为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；

构建单元，用于针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

学习单元，用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系；

可选的，所述构建单元包括：

可选的，所述学习单元包括：

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器用于存储词量化装置，所述词量化装置被所述处理器执行时，包括如下步骤：获取平行语料库；解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系；其中，所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。

与现有技术相比，本申请具有以下优点:

本申请提供的基于统计的机器翻译方法、装置及电子设备，通过根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成待翻译句子到各个候选译文的翻译概率，其中所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度，并选取预设数量的翻译概率排在高位的候选译文，作为待翻译句子的译文，使得在构建机器翻译模型时，能够深入到自然语言的语义层面，避免译文与原文的语义有偏差，从而达到提高翻译质量的效果。

附图说明

图1是本申请的基于统计的机器翻译方法实施例的流程图；

图2是本申请的基于统计的机器翻译方法实施例步骤S101的具体流程图；

图3是本申请的基于统计的机器翻译方法实施例计算语义相似度的具体流程图；

图4是本申请的基于统计的机器翻译方法实施例生成句子向量的具体流程图；

图5是本申请的基于统计的机器翻译方法实施例训练神经网络语言模型的具体流程图；

图6是本申请的基于统计的机器翻译方法实施例神经网络语言模型的示意图；

图7是本申请的基于统计的机器翻译方法实施例构建神经网络语言模型样本的具体流程图；

图8是本申请的基于统计的机器翻译方法实施例与一对平行预料相关的神经网络语言模型样本的示意图；

图9是本申请的基于统计的机器翻译方法实施例步骤S505的具体流程图；

图10是本申请的基于统计的机器翻译方法实施例步骤S401的具体流程图；

图11是本申请的基于统计的机器翻译方法实施例步骤S403的具体流程图；

图12是本申请的基于统计的机器翻译装置实施例的示意图；

图13是本申请的基于统计的机器翻译装置实施例的具体示意图；

图14是本申请的基于统计的机器翻译装置实施例计算语义相似度单元201的具体示意图；

图15是本申请的基于统计的机器翻译装置实施例生成句子向量单元202的具体示意图；

图16是本申请的基于统计的机器翻译装置实施例训练单元203的具体示意图；

图17是本申请的基于统计的机器翻译装置实施例生成候选译文单元101的具体示意图；

图18是本申请的一种电子设备实施例的示意图；

图19是本申请的语义相似度的计算方法实施例的流程图；

图20是本申请的语义相似度的计算装置实施例的示意图；

图21是本申请的又一种电子设备实施例的示意图；

图22是本申请的词量化方法实施例的流程图；

图23是本申请的词量化装置实施例的示意图；

图24是本申请的再一种电子设备实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了一种基于统计的机器翻译方法、装置及电子设备，一种计算语义相似度的方法、装置和电子设备，以及一种词量化方法、装置和电子设备。在下面的实施例中逐一进行详细说明。

本申请提供的基于统计的机器翻译方法，其核心的基本思想为：在构建机器翻译模型时，深入到自然语言的语义层面，即：对各个候选译文的翻译概率进行打分时，考虑待翻译句子和候选译文之间的语义相似度。由于将语义相似度评估得分作为翻译解码的一个强特征来影响译文产生过程，使得解码器偏向产生语义一致度高的翻译，从而达到提高翻译质量的效果。

请参考图1，其为本申请的基于统计的机器翻译方法实施例的流程图。所述方法包括如下步骤：

步骤S101：根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文。

基于统计的机器翻译方法，是指基于统计信息，从待翻译句子的多个候选译文中，选取出翻译概率排在高位的预设数量的候选译文，作为最终的翻译结果。因此，首先需要对待翻译句子进行解码，生成待翻译句子的候选译文。

本申请实施例所述的翻译规则，是指预先从给定的平行预料库中学习获得的翻译规则。翻译规则是机器翻译过程的基本转化单元。从平行预料库中学习获得翻译规则的过程，主要包括如下阶段：1)数据预处理；2)词对齐；3)短语抽取。下面对上述阶段进行简要说明。

1)数据预处理

数据预处理阶段，首先需要搜集或下载平行语料库。本申请实施例所述的平行语料库，包括大量的平行预料，其中，每一对平行预料包括源语言句子和目标语言句子，两个句子互为翻译。目前，网络上有大量可供下载的平行语料库。搜寻适合目标领域(如医疗、新闻等)的平行语料库是提高特定领域统计机器翻译系统性能的重要方法。

在获取到平行语料库后，需要对其中的平行预料进行一定的文本规范化处理。例如，对英语进行词素切分，如将's独立为一个词，将与词相连的符号隔离开等；而对中文则需要进行分词等处理。对文本进行规范化处理时，还应该尽可能过滤一些包含错误编码的句子、过长的句子或长度不匹配(相差过大)的句子，以及对不可枚举类型字符串的识别、翻译和泛化等处理，以使得能够缓解词对齐过程的数据稀疏问题。

在基于统计的机器翻译过程中，可以将获取的平行语料分为三部分，第一部分用于词对齐及短语抽取，第二部分用于最小错误率训练，第三部分则用于系统评价。其中，在第二部分和第三部分的数据中，每个源语言句子最好能有多条参考翻译。

2)词对齐

通过词对齐，能够获取每对平行预料中源语言包括的词和目标语言包括的词之间的位置对应关系。在实际应用中，可以使用GIZA++对平行语料进行对齐。需要注意的是，由于GIZA++是“单向”的词对齐，因此应当进行两次词对齐，第一次是从源语言到目标语言的词对齐，第二次是从目标语言到源语言的词对齐。由于IBM Model 2对齐效果不佳，而IBM Model 5耗时过长且对性能没有较大贡献，因此，一般来说，GIZA++需要依次进行IBM Model 1、HMM、IBMModel 3及IBM Model 4的词对齐。

词对齐阶段的训练时间，取决于平行语料的数量以及所设置的迭代次数。根据平行语料的数量以及所设置的迭代次数，词对齐阶段的训练时间可能很长。一个参考数据为，1千万对的中文-英文平行语料(约3亿词)在Inter Xeon 2.4GHz服务器上运行时间约为6天。在实际应用中，如果词对齐阶段的训练耗时过长，则可以使用MGIZA++和PGIZA++进行并行的词对齐(其中，PGIZA++支持分布式的词对齐)。然后，对两个方向的GIZA++对齐结果进行合并，以供短语抽取之用。

3)短语抽取

短语抽取的基本准则为，两个短语之间有至少一个词对有连接，且没有任何词连接于短语外的词。在实际应用中，可以采用Moses软件包的短语抽取程序，进行短语抽取的处理。需要注意的是，抽取结果将占有大量的磁盘空间。通常，若平行语料大小达到1千万对，短语最大长度大于等于7，则需要至少应准备500GB的存储空间。

在短语抽取完毕后，还需要进行短语特征的提取，即计算短语的翻译概率及词的翻译概率，具体包括：正向短语翻译概率、反向短语翻译概率、正向词翻译概率和反向词翻译概率等。其中，所述的正向短语翻译概率，是指从源语言短语到目标语言短语的短语翻译概率；所述的反向短语翻译概率，是指从目标语言短语翻译到源语言短语的短语翻译概率；所述的正向词翻译概率，是指从源语言短语翻译到目标语言短语的词翻译概率；所述的反向词翻译概率，是指从目标语言短语翻译到源语言短语的词翻译概率。

在短语特征提取过程中，需要对抽取的所有短语进行两次排序。一般来说，中等规模(百万对数量级的平行语料)的系统也需要进行外部排序，磁盘读写速度对处理时间影响极大。通常在高速磁盘上进行短语特征的提取。参考运行时间及磁盘空间消耗为：对于千万对数量级的平行语料，限制短语长度为7，外部排序运行于SCSI Raid 0+1磁盘阵列，运行时间3日11小时，峰值磁盘空间消耗813GB。

本申请实施例所述的翻译规则，既可以是以短语作为基本翻译单元、不包括句法信息的翻译规则，还可以是基于句法结构对翻译模型进行建模所获得的包括句法信息的翻译规则。上述这些翻译规则的不同方式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。

需要说明的是，根据不包括句法信息的翻译规则所生成的候选译文，通常是不符合句法规则的，因而难于理解候选译文；而根据包括句法信息的翻译规则所生成的候选译文，通常是符合句法规则的。可见，根据包括句法信息的翻译规则，生成待翻译句子的候选译文，能够达到提高翻译质量的效果。

在本实施例中，从平行预料中抽取出的翻译规则含有句法信息，翻译规则采用上下文无关文法表示，如表1所示：

表1、翻译规则表

在表1中，与编号1、3、4、5对应的规则为基本翻译规则，与编号2、6、7对应的规则为组合翻译规则。

本申请实施例采用CYK算法对待翻译句子进行解码，生成待翻译句子的候选译文。CYK算法是由约翰·科克，Younger和嵩忠雄共同研究出来大约发表于1965年的一个算法，用来判定任意给定的字符串是否属于一个上下文无关文法。CYK算法采用了动态规划的思想，普通的回溯法(backtracking)在最坏的情况下需要指数时间才能解决问题，而CYK算法只需要多项式时间就能够解决问题。CYK算法的时间复杂度为O(n³)，其中n为字符串长度。

请参考图2，其为本申请的基于统计的机器翻译方法实施例步骤S101的具体流程图。在本实施例中，通过CYK算法对待翻译句子进行解码，生成待翻译句子的候选译文，包括如下步骤：

步骤S1011：解析所述待翻译句子，生成所述待翻译句子的各个子字符串。

本申请实施例所述的子字符串，是指待翻译句子的不同跨度的子字符串。例如，待翻译句子为“我在公园里散步。”，则其子字符串包括：“我”和“在”等仅包括一个字的子字符串；“我在”和“公园”等包括两个字的子字符串；“在公园”和“公园里”等包括三个字的子字符串；“我在公园”等包括四个字的子字符串，以及“我在公园里散步”的子字符串等。

步骤S1013：根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文。

在本实施例中，根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文，包括如下步骤：1)针对各个所述子字符串，遍历各个所述翻译规则，判断所述子字符串是否属于所述翻译规则；2)若上述判断结果为是，则将根据所述翻译规则生成的译文，作为所述子字符串的候选译文。

对于待翻译句子的每一个子字符串，均需要遍历各个翻译规则，判断该子字符串是否属于该翻译规则。当判定一个子字符串属于该翻译规则时，则根据该翻译规则生成目标语言的译文，该译文作为子字符串的一个候选译文。一个子字符串可能属于多个翻译规则，因此，一个子字符串可能对应多个候选译文。

步骤S1015：根据所述子字符串在所述待翻译句子中的位置，将相邻子字符串的候选译文进行组合拼接，形成所述待翻译句子的候选译文。

本申请实施例所述的相邻子字符串，是指排列在一个子字符串之前或之后的子字符串，例如，待翻译句子为“One tablet will purify a litre of water.”，子字符串包括“One tablet”、“will”和“purify a litre of water”等，其中“One tablet”和“purify a litre of water”均为“will”的相邻子字符串，而“One tablet”并不是“purify a litre of water”的相邻子字符串。

通过步骤S1013获取到待翻译句子的各个子字符串所对应的候选译文后，将相邻子字符串的候选译文进行拼接，生成待翻译句子的多个候选译文。例如，待翻译句子为“One tablet will purify a litre of water.”，其中子字符串“One tablet”的候选译文包括“一颗药丸”和“一部平板电脑”，子字符串“will”的候选译文包括“即可”，子字符串“purify a litre of water”的候选译文包括“净化一升水”，子字符串“One tablet”、“will”和“purify a litre of water”相邻，将各个子字符串的候选译文组合拼接后，产生的候选译文包括“一颗药丸即可净化一升水。”和“一部平板电脑即可净化一升水。”等。

在实际应用中，对待翻译句子进行解码，不仅可以采用上述CYK解码算法，还可以采用基于栈的解码算法或移进-归约解码算法等。上述这些解码算法在翻译性能和解码速度方面，各有不同的优缺点。其中，基于栈的解码算法和CYK解码算法一般具有较高的翻译性能，但解码速度较慢；而移进-归约解码算法往往可以达到较高的解码速度，但翻译性能较低。上述这些不同的解码方式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。

步骤S103：根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成所述待翻译句子到各个候选译文的翻译概率。

本申请实施例所述的对翻译概率产生影响的特征，是指对所述待翻译句子到各个候选译文的翻译概率产生影响的、统计类型的信息，例如，噪声信道模型中的翻译模型、语言模型都可以作为对翻译概率产生影响的特征，此外，对翻译概率产生影响的特征还可以包括调序模型。具体的，在翻译模型中，对翻译概率产生影响的特征包括：待翻译句子到候选译文的短语翻译概率、候选译文到待翻译句子的短语翻译概率、待翻译句子到候选译文的词的译概率、候选译文到待翻译句子的词翻译概率；在语言模型中，统计类型的信息是指候选译文的句子概率；在调序模型中，统计类型的信息是指待翻译句子与候选译文调序与不调序的分类概率。下面逐一对上述翻译模型、语言模型和调序模型等对翻译概率产生影响的特征进行说明。

1)翻译模型

翻译模型是一种语言到另一种语言的词汇间的对应关系，而语言模型则体现了某种语言本身的性质。翻译模型保证翻译的意义，而语言模型保证翻译的流畅。从中国对翻译的传统要求“信达雅”三点上看，翻译模型体现了信与达，而雅则在语言模型中得到反映。

在步骤S101所述的短语特征抽取过程中，从平行预料中学习获得每一条翻译规则所对应的正向短语翻译概率、反向短语翻译概率、正向词翻译概率和反向词翻译概率等信息。关于上述各种翻译概率的相关说明，请参见步骤S101中的相关描述，此处不再赘述。

基于短语特征抽取所获得的正向短语翻译概率、反向短语翻译概率、正向词翻译概率和反向词翻译概率，能够计算获取上述翻译模型中的各种对翻译概率产生影响的特征，具体计算公式如下所述：

1)待翻译句子到候选译文的短语翻译概率

计算公式：

其中，为待翻译句子，为候选译文，

2)候选译文到待翻译句子的短语翻译概率

计算公式：

其中，为待翻译句子，为候选译文，

3)待翻译句子到候选译文的词翻译概率

计算公式：

其中，为待翻译句子，为候选译文，公式中a为隐含变量(即：词对齐)。所谓词对齐，是指目标语言句子中某个词是由源语言中哪个词翻译而来的。一个词可以被翻译为一个或多个词，甚至不被翻译。可见，获取翻译概率的问题可以转化为词对齐问题。IBM系列模型、HMM和Model6都是词对齐的参数化模型。它们之间的区别在于模型参数的数量及类型各不相同。例如，IBM Model 1中唯一的参数是词翻译概率，与词在句子中的位置无关。公式中的(j,i)是词对齐中的一条连接，表示源语言中的第j个词翻译到目标语言中的第i个词。

4)候选译文到待翻译句子的词翻译概率

计算公式：

其中，为待翻译句子，为候选译文，a为词对齐信息，此处不再赘述。

2)语言模型

语言模型(Language Model，简写为LM)是自然语言处理领域的基础问题，其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。简而言之，统计语言模型表示为：在词序列中，给定一个词和上下文中所有词，这个序列出现的概率。通俗的讲，语言模型其实就是看一句话是不是正常人说出来的。例如，短语“今晚有大风”对应的英文翻译可以为high winds tonight或large winds tonight，而high winds tonight的概率大于high winds tonight的概率，即：P(high winds tonight)>P(large winds tonight)。

语言模型形式化的描述就是给定一个字符串，计算该字符串是自然语言的概率P(w₁,w₂,…,w_t)。换句话说，P(w₁,w₂,…,w_t)被称为语言模型，即用来计算一个句子概率的模型。其中，w₁到w_t依次表示该字符串中的各个词。简单的推论是：P(w₁,w₂,…,w_t)＝P(w₁)×P(w_2|w₁)×P(w₃|w₁,w₂)×…×P(w_t|w₁,w₂,…,w_t-1)。理论上，计算P(w_t|w₁,w₂,…,w_t-1)的最简单、直接的方法是直接计数做除法，公式为：P(w_t|w₁,w₂,…,w_t-1)＝p(w₁,w₂,…,w_t-1,w_t)/p(w₁,w₂,…,w_t-1)。然而，该方法将带来数据稀疏严重的问题，且由于参数空间过大，从而导致方法的实用性低。

解决上述问题的方法是：近似地求P(w_t|w₁,w₂,…,w_t-1)，例如，常用的N-Gram语言模型就是用P(w_t|w_t-n+1,…,w_t-1)近似表示P w_t|w₁,w₂,…,w_t-1)。N-Gram语言模型被称为马尔科夫链。该模型基于马尔科夫假设，即：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。其中，各个词出现概率可以通过直接从平行语料中统计N个词同时出现的次数得到。

在实际应用中，N值越大，则对下一个词出现的约束信息越多，具有更大的辨别力；N值越小，则在平行语料中出现的次数越多，具有更可靠的统计信息，即具有更高的可靠性。理论上，N值越大越好，然而在实际应用中，N的值不能太大，否则计算仍然太大，常用的是二元语言模型(即：Bi-Gram语言模型)和三元语言模型(即：Tri-Gram语言模型)。经验上，三元语言模型用的最多，尽管如此，原则上，能用二元语言模型解决，绝不使用三元语言模型。

N-Gram语言模型简单有效，但是它只考虑了词的位置关系，没有考虑词之间的相似度、词语法和词语义，并且还存在数据稀疏的问题。因此，又逐渐提出更多的语言模型，例如，基于类的N-Gram语言模型(Class-based N-GramModel)，基于主题的N-Gram语言模型(topic-based N-Gram Model)，基于缓存的N-Gram语言模型(cache-based N-Gram Model)，skipping N-Gram Model，指数语言模型(最大熵模型，条件随机域模型)等。

随着深度学习的兴起，还提出了神经网络语言模型。用神经网络训练语言模型，首先将每个单词w_t-n+1,…,w_t-1映射到词向量空间，再把各个单词的词向量组合成一个更大的向量作为神经网络输入，输出是P(w_t)。目前，神经网络语言模型包括前向神经网络语言模型(Feed-forward Neural Net Language Model，简写为ffnnlm)和循环神经网络语言模型(Recurrent Neural Net Language Model，简写为rnnlm)。神经网络语言模型解决了传统N-Gram语言模型的两个缺陷：(1)词语之间的相似性可以通过词向量来体现；(2)自带平滑功能。在实际应用中，可以根据具体需求选择上述一种或多种语言模型。

需要说明的是，在区分性训练框架(即：需要参考平行语料进行有监督的训练)下，允许使用多个语言模型，因此，使用由大规模平行语料训练得到的无限领域语言模型配合领域相关的语言模型能够得到最好的效果。

3)调序模型

许多语言对的语序是有很大差别的，例如，汉语语言和英语语言的语序差别很大。在上述词对齐处理过程中，包含有词调序模型，在区分性训练中也需要较好的调序模型。调序模型可以是基于位置，也就是描述两种语言每个句子不同位置的短语的调序概率，也可以是基于短语本身，例如Moses中的调序模型即是基于短语本身，描述在给定当前短语对条件下，其前后短语对是否互换位置。

以上对目前常用的对翻译概率产生影响的特征进行了说明。本申请实施例提供的基于统计的机器翻译方法，除了可以应用上述常用的对翻译概率产生影响的特征，还应用了语义模型中的对翻译概率产生影响的特征，即：待翻译句子和候选译文的语义相似度，将该特征作为机器翻译的一个强特征来影响最终翻译结果的产生过程，使得偏向产生语义一致度高的翻译。

请参考图3，其为本申请的基于统计的机器翻译方法实施例计算语义相似度的具体流程图。本申请实施例所述的待翻译句子和候选译文的语义相似度，采用如下步骤计算获取：

步骤S301：获取所述待翻译句子的句子向量，以及所述候选译文的句子向量。

句子向量作为本申请实施例提出的新概念，能够反映自然语言中句子的基本语义信息，即：相关或者相似的句子，其句子向量之间的距离更接近。例如，“One tablet will purify a litre of water.”和“一颗药丸即可净化一升水。”分别对应的句子向量之间的距离，会远远小于“One tablet will purify a litre of water.”和“一部平板电脑即可净化一升水。”分别对应的句子向量之间的距离。在理想情况下，“One tablet will purify a litre of water.”和“一颗药丸即可净化一升水。”的句子向量表示应该是完全一样的，但是由于书写错误等原因，导致二者的句子向量不会完全一致，但句子向量之间的距离是更接近的。在实际应用中，句子向量之间的距离可以用最传统的欧氏距离来衡量，也可以用余弦夹角来衡量。句子向量是一种固定维度的实数向量，为本申请实施例所述的神经网络语言模型的一类参数，例如，将一个句子向量表示为[0.312,-0.187,-0.529,0.109,-0.542,...]。

请参考图4，其为本申请的基于统计的机器翻译方法实施例生成句子向量的具体流程图。在本实施例中，所述待翻译句子的句子向量和所述候选译文的句子向量，采用如下步骤生成：

步骤S401：根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本。

本申请实施例所述的源语言是指待翻译句子所属的语言，所述的目标语言是指候选译文所属的语言。本申请实施例所述的N元短语，是指N-GRAM语言模型中的N个词构成的短语，例如，源语言句子为“我在公园里散步。”，则采用4元语言模型时，该句子包括如下4元短语：“我在公园里”、“在公园里散步”和“公园里散步。”。在构建神经网络语言模型模型样本时，需要针对各个N元短语分别构建神经网络语言模型模型样本。

需要注意的是，如果N元短语的N值越大，则对第N个词出现的约束信息更多，具有更大的辨别力；N值越小，则在平行语料库中出现的次数更多，具有更可靠的统计信息，具有更高的可靠性。理论上，N值越大越好，经验上，trigram用的最多，尽管如此，原则上，能用bigram解决，绝不使用trigram。

本申请实施例所述的词向量(Distributed Representation)是一种固定维度的实数向量，为神经网络语言模型的一类参数，例如，将一个词向量表示为[0.792,-0.177,-0.107,0.109,-0.542,...]。词向量作为神经网络语言模型的副产品，是在训练神经网络语言模型的同时顺便得到的。传统的词向量能够反映自然语言中基本单元词的基本语义信息，即：相关或者相似的词，其词向量之间的距离更接近。例如，“麦克”和“话筒”分别对应的词向量之间的距离，会远远小于“麦克”和“天气”分别对应的词向量之间的距离。在理想情况下，“麦克”和“话筒”的词向量表示应该是完全一样的，但是由于有些人会把英文名“迈克”也写成“麦克”，导致“麦克”一词带上了一些人名的语义，因此不会和“话筒”的词向量完全一致。词向量之间的距离可以用最传统的欧氏距离来衡量，也可以用余弦夹角来衡量。

本申请实施例所述的神经网络语言模型，包括与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。不同于传统的神经网络语言模型，本申请实施例所述的神经网络语言模型的输入层还包括与N元短语所在的句子对应的句子向量。同时，在训练神经网络语言模型的过程中，整个网络由源语言句子相关的神经网络语言模型样本，以及目标语言句子相关的神经网络语言模型样本共同组成，整个网络的训练目标为：最大化源语言句子相关的神经网络语言模型样本的似然概率之和，以及目标语言句子相关的神经网络语言模型样本的似然概率之和，同时最小化所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和。

由于在计算神经网络语言模型的似然概率时，以N元短语所在的句子为参考背景，且整个网络的训练目标包括最小化成对句子的句子向量距离。因此，本申请实施例所述的词向量，不仅能够反映自然语言中基本单元词的基本语义信息，并且词向量包括的语义信息是跨语言的，即：两个语义一致的不同语言的词，其词向量之间的几何距离非常接近，例如“苹果”和“Apple”。

需要说明的是，词向量的表示并不是唯一的，不同的训练方法将导致同一个词的词向量是不相同的。此外，词向量的维度作为神经网络语言模型的超参数，一般维度越高越好，但过高维度的词向量会带来计算复杂的问题。在实际应用中，词向量维度以200维比较常见。

本申请实施例所述的神经网络语言模型样本，是指神经网络语言模型的实例。本申请实施例所述的神经网络语言模型是一个通用模型，其网络拓扑结构对每个神经网络语言模型样本是相同的，即：神经网络语言模型与神经网络语言模型样本之间的关系，类似于类和对象的关系。

决定神经网络拓扑结构(或体系结构)的是隐含层及其所含节点的个数，以及节点之间的连接方式。要从头开始设计一个神经网络，需要决定隐含层和节点的数目，激励函数的形式，以及对连接权重做一些限制等。在诸多类型的神经网络中，最常用的是前向传播式神经网络，即：数据从输入到输出的过程是一个从前向后的传播过程，后一节点的值通过它前面相连的节点传过来，然后把值按照各个连接权重的大小加权输入激励函数再得到新的值，进一步传播到下一个节点。

本申请实施例所述的神经网络语言模型，既可以是前向神经网络语言模型，还可以是循环神经网络语言模型。前向神经网络语言模型的计算复杂度低于循环神经网络语言模型，而循环神经网络语言模型的精确度高于前向神经网络语言模型。在实际应用中，可以根据具体需求选择上述神经网络语言模型之一。上述神经网络语言模型的各种不同方式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。为了降低计算的复杂度，本实施例采用前向神经网络语言模型。

请参考图5，其为本申请的基于统计的机器翻译方法实施例训练神经网络语言模型的具体流程图。词向量作为神经网络语言模型的副产品，是在训练神经网络语言模型时得到的。在本实施例中，所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，采用如下步骤生成：

步骤S501：获取平行语料库。

关于平行预料库的相关说明，请参见步骤S101中数据预处理阶段的相关描述，此处不再赘述。

步骤S502：解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词。

要获取词与词向量的对应关系，首先需要解析平行预料中每个句子，获取平行预料库包括的每个词，例如，对英语进行词素切分，如将's独立为一个词，将与词相连的符号隔离开等；而对中文则需要进行分词等处理。执行步骤S502后，获取到平行预料库中源语言包括的每个词，以及目标语言包括的每个词。

步骤S503：为所述平行语料库包括的各个词设置第一预设维度的词向量，形成所述词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量。

在训练神经网络语言模型的初始阶段，首先需要为平行语料库包括的各个词设置初始的词向量，形成初始的词和词向量的对应关系，即词典。在实际应用中，既可以随机为每个词设置初始的词向量，也可以将由其它训练方法获得的词向量作为初始的词向量。

由于本申请实施例所述的神经网络语言模型的输入层，还包括与N元短语所在的句子对应的句子向量，因此，在训练神经网络语言模型的初始阶段，还需要为平行语料库中的各个句子设置初始的句子向量。在本实施例中，随机为句子设置初始的句子向量。

本申请实施例所述的第一预设维度和第二预设维度，既可以是相同的，也可以是不同的。由于第二预设维度为句子向量的维度，因此第二预设维度大于等于第一预设维度。通常，向量的维度越高则表达的语义越精确，但是计算复杂度也越高。在实际应用中，可以根据具体需求设置第一预设维度和第二预设维度。在本实施例中，为了降低计算复杂度，设置第一预设维度与第二预设维度为相同的维度值。实验表明，200维度的词向量和句子向量，即能够获得具有较强跨语言特征的词向量，又能够使得计算复杂度较低。

步骤S504：针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本。

请参见图6，其为本申请的基于统计的机器翻译方法实施例神经网络语言模型的示意图。本申请实施例所述的神经网络语言模型包括：输入层、隐藏层和输出层。神经网络语言模型是采用神经网络构建的N-GRAM语言模型。因此，神经网络语言模型的输入层变量是与N-GRAM语言模型的前N-1个词相对应的词向量，即：C(w_t-n+1)、C(w_t-n+1)、...、C(w_t-1)，而输出层变量是与N-GRAM语言模型的第N个词(即：尾词)相对应的似然概率。由图6可见，输入层不仅包括N元短语的前N-1个词分别对应的词向量，还包括N元短语所在句子对应的句子向量D。

图6中隐藏层的作用是将上文前N-1个词的词向量连同N元短语所在句子对应的句子向量一起作为上下文背景进行融合，真正充分地利用N元短语所处的句子信息来预测下一个词。在实际应用中，隐藏层的向量值可以是输入层各个变量的加和平均值，还可以是输入层各个变量的组合拼接。在本实施例中，设置隐藏层的向量值为输入层各个变量(包括前N-1个词的词向量和句子向量)的加和平均值，以降低隐藏层的向量维度，达到减少计算复杂度的效果。

需要说明的是，本申请实施例所述的神经网络语言模型的输出层的尾词，包括连接在前N-1个词后的正确尾词(即：正样本)和至少一个错误尾词(即：负样本)。通常，神经网络语言模型的输出层包括与上下文所有可能组合的尾词，并且所有可能的组合的概率和为1。在实际应用中，为了减少计算复杂度、提高计算效率，可以从所有可能的尾词中任意选取预设数量的尾词作为负样本。在本实施例中，任意选取25个尾词形成负样本。

在图6中，每个输入词都被映射为一个向量，该映射用C表示，所以C(w_t-n+1)即为w_t-n+1的词向量；输出也是一个向量，向量中的第i个元素表示概率P(w_t＝i|w_t-n+1,…,w_t-1)。输出层采用Softmax函数计算，计算公式如下所示：

其中，M为输出层向量的维度，是输出词w_t的未归一化log概率，y_i是输出词i的未归一化log概率，y的公式为：

y＝b+Wx+Utanh(d+Hx)

其中，参数包括：b、W、U、d、H；b为输入层到输出层的偏置因子，W为输入层到输出层的连接权重组成的变换矩阵，U为隐藏层到输出层的连接权重组成的变换矩阵，tanh为隐藏层的激励函数，d为输入层到隐藏层的偏置因子，H为输入层到隐藏层的连接权重组成的变换矩阵，x＝(C(w_t-n+1)、C(w_t-n+1)、...、C(w_t-1)，D)，tanh(d+Hx)为隐藏层的向量值，Utanh(d+Hx)表示将隐藏层的向量值与隐藏层到输出层的连接权重进行累乘融合。需要注意的是，x也是需要训练的参数。训练结束后，既能够获取到语言模型，还能够获取到词向量。

在实际应用中，神经网络中节点的激励函数可以为符号函数、S型(sigmoid)函数、双曲正切函数或线性函数。实际上如果没有激励函数的话，神经元网络就等价于一个线性回归函数，如果此激励函数是某种特定的非线性函数，那神经网络又等价于逻辑回归。

为了减少计算复杂度以及提高计算效率，在本实施例的与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型中，模型的输入层到隐藏层的连接权重(即：图6中的H矩阵中的各个元素值)设置为1；输入层到输出层的连接权重(即：图6中的W矩阵中的各个元素值)均设置为0；隐含层中没有使用激励函数。因此，本实施例中，输出层y的计算公式如下所示：

y＝b+Uh(w_t-n+1,…,w_t-1；W,D)。

其中，h(w_t-n+1,…,w_t-1；W,D)为隐藏层的向量值，并且隐藏层的向量值为输入层各个变量(包括前N-1个词的词向量和句子向量)的加和平均值；W为所有词对应的词向量，D为输入层的句子向量。

本申请实施例所述的预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，是指预先设计好拓扑结构及节点激励函数的神经网络语言模型。其中的各个连接权重作为神经网络语言模型的一类参数，在训练过程中得到不断的调整，直至达到训练目标时获取最终的连接权重，以供实际预测用。需要注意的是，在训练初始阶段，需要为各个连接权重预先设置初始值。在本实施例中，采用随机为各个连接权重预先设置初始值的方式。

综上所述，在训练神经网络语言模型的过程中，需要调整的参数包括：词向量、句子向量及神经网络语言模型的各个连接权重。

请参考图7，其为本申请的基于统计的机器翻译方法实施例构建神经网络语言模型样本的具体流程图。具体的，针对每一对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括如下步骤：

步骤S701：解析所述源语言句子和所述目标语言句子，获取所述源语言句子和所述目标语言句子包括的词。

为了构建一对平行预料中的所有与N元短语对应的神经网络语言模型样本，首先需要解析平行预料中源语言句子和目标语言句子，获取句子包括的每个词，这些词将作为神经网络语言模型样本的输入层变量或输出层变量。例如，对英语进行词素切分，如将's独立为一个词，将与词相连的符号隔离开等；而对中文则需要进行分词等处理。执行步骤S701后，获取到一对平行预料中源语言句子包括的所有词，以及目标语言句子包括的所有词。

步骤S703：根据所述词与词向量的对应关系，获取所述源语言句子和所述目标语言句子包括的词对应的词向量。

神经网络要求所有的输入变量都必须是0-1(或-1--+1)之间的实数，因此，本数据无法用作神经网络的输入。步骤S703实现从词到词向量的映射，以词作为检索条件，在词与词向量的对应关系进行查询，获取词对应的词向量，作为神经网络的输入。需要注意的是，步骤S703阶段的词向量是初始的词向量。

步骤S705：针对所述源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

本申请实施例所述的神经网络语言模型，包括与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。根据与源语言对应的神经网络语言模型，构建与源语言句子包括的各个N元短语对应的神经网络语言模型样本。根据与目标语言对应的神经网络语言模型，构建与目标语言句子包括的各个N元短语对应的神经网络语言模型样本。

步骤S707：针对所述目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S707与步骤S706的区别仅在于二者面向不同的句子构建神经网络语言模型样本，步骤S707面向目标语言句子，步骤S706面向源语言句子。

请参考图8，其为本申请的基于统计的机器翻译方法实施例与一对平行预料相关的神经网络语言模型样本的示意图。图8中平行预料的源语言句子为“我在公园里散步。”，目标语言句子为“I am walking in the park.”。在本实施例中，神经网络语言模型采用4元语言模型，词向量的维度为200维。由图8可见，与该对平行预料相关的神经网络语言模型样本，包括3个与源语言对应的神经网络语言模型样本，以及4个与目标语言对应的神经网络语言模型样本，且每个神经网络语言模型样本的输入层均包括N元短语所处的句子对应的句子向量。

步骤S505：以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

在训练神经网络语言模型过程中，逐步调整模型中的各类参数，例如，词向量、句子向量及各个连接权重，当达到训练目标时，获取到最终的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

请参考图9，其为本申请的基于统计的机器翻译方法实施例步骤S505的具体流程图。在本实施例中，步骤S505包括如下步骤：

步骤S5051：根据已构建的各个神经网络语言模型样本，计算第二目标函数的值。

本申请实施例所述的第二目标函数，是指第三平均值与第四平均值之和，与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值；所述第三平均值，是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值；所述第四平均值，是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。

上述第三平均值的形式化表示为：

其中，为第三平均值，N为所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的数量，d_src为N元短语所在的源语言句子。第四平均值的形式化表示与第三平均值的形式化表示相同，不再赘述。

当构建好各个神经网络语言模型样本后，就可以根据神经网络语言模型的输入层变量及网络中的各个参数，计算各个神经网络语言模型样本的似然概率，以及成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离，并计算第二目标函数的值。

步骤S5053：判断所述第二目标函数的值是否大于上一次所述第二目标函数的值；若是，则采用最优化算法，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第二目标函数的值的步骤。

步骤S5051为一个训练周期，要完成神经网络语言模型的训练可能需要很多个训练周期，经常是几百个。停止训练的条件是达到训练目标，即：第二目标函数的值达到最大值。通过将本次训练得到的第二目标函数的值与上一次训练得到的第二目标函数的值进行比较，如果本次训练得到的第二目标函数的值大于上一次训练得到的第二目标函数的值，说明模型参数还可以进一步优化，需要继续训练，以达到训练目标。反之，如果本次训练得到的第二目标函数的值小于上一次训练得到的第二目标函数的值，说明模型参数已达到训练目标，可以停止训练。训练完成之后得到的神经网络语言模型就是在通过平行预料库发现的模型，描述了平行预料库中响应变量(即：输出层变量)受预测变量(即：输入层变量)影响的变化规律。

调整神经网络语言模型中各种参数的最基本算法是错误回馈法，现在较新的有梯度算法、类牛顿算法、Levenberg-Marquardt算法、和遗传算法等。上述各种最优化算法的不同方式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。

在本实施例中，最优化算法采用随机梯度算法。采用随机梯度算法，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：1)根据预设的学习速率和所述第二目标函数，计算所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度；2)根据所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

采用随机梯度算法，梯度更新的法则为：

其中，θ为各种参数值，∈为学习速率，d_src为源语言句子，d_tgt为目标语言句子，sim_cos(d_src,d_tgt)为源语言句子和目标语言句子的句子向量之间的距离。

本申请实施例所述的学习速率，决定每一次循环训练中所产生的参数变化量。大的学习速率可能导致系统的不稳定；但小的学习速率导致较长的训练时间，可能收敛很慢，但是能保证目标函数的值能够最终趋于目标函数的最大值。所以一般情况下，倾向于选取较小的学习速率以保证系统的稳定性。学习速率的选取范围在0.01-0.8之间。

在实际应用中，对于神经网络语言模型这种较复杂的网络，在目标函数曲面的不同部位可能需要不同的学习速率。为了减少寻找学习速率的训练次数以及训练时间，比较合适的方法是采用变化的自适应学习速率，使网络的训练在不同的阶段设置不同大小的学习速率。

通过上述步骤S501至步骤S505，训练生成与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，以及词与词向量的对应关系之后，就可以构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本。

请参考图10，其为本申请的基于统计的机器翻译方法实施例步骤S401的具体流程图。在本实施例中，步骤S401包括如下步骤：

步骤S4011：解析所述待翻译句子和所述候选译文，获取所述待翻译句子和所述候选译文包括的词。

步骤S4011与步骤S701的处理方法是相同的，二者不同之处仅在于面向的句子不同。步骤S701面向平行预料中的源语言句子和目标语言句子，步骤S4011面向待翻译句子和候选译文。二者相同之处不再赘述，相关说明详见步骤S701部分。

步骤S4013：根据所述词与词向量的对应关系，获取所述待翻译句子和所述候选译文包括的词对应的词向量。

步骤S4013与步骤S703的处理方法是相同的，二者不同之处在于：步骤S703阶段的词向量是初始的词向量，而步骤S4013阶段的词向量是训练好的词向量。二者相同之处不再赘述，相关说明详见步骤S703部分。

步骤S4015：随机设置所述待翻译句子的句子向量和所述候选译文的句子向量。

通过步骤S401构建的与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本，用于从中学习获取待翻译句子的句子向量和所述候选译文的句子向量。因此，在构建样本时，还需要为待翻译句子和候选译文分别设置初始的句子向量。

步骤S4017：针对所述待翻译句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S4017与步骤S705的处理方法是相同的，二者不同之处仅在于面向的句子不同。步骤S705面向平行预料中的源语言句子，步骤S4017面向待翻译句子。二者相同之处不再赘述，相关说明详见步骤S705部分。

步骤S4019：针对所述候选译文包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S4019与步骤S707的处理方法是相同的，二者不同之处仅在于面向的句子不同。步骤S707面向平行预料中的目标语言句子，步骤S4017面向候选译文。二者相同之处不再赘述，相关说明详见步骤S707部分。

通过步骤S401构建好与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本之后，就可以对神经网络语言模型进行训练。

步骤S403：以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标，学习获取所述待翻译句子的句子向量和所述候选译文的句子向量。

步骤S403与步骤S505相对应，二者不同之处在于：1)面向的神经网络语言模型样本不同；2)调整的参数不同。

1)面向的神经网络语言模型样本不同

步骤S505面向平行预料库中所有句子包括的N元短语分别对应的神经网络语言模型样本，而步骤S403面向待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本。

2)调整的参数不同

步骤S505调整的参数包括：词向量、句子向量，以及与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型中的各个连接权重。而步骤S403仅调整待翻译句子和候选译文对应的句子向量。

综上所述，步骤S505的训练目标是获取词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型；而步骤S403的训练目标是获取待翻译句子的句子向量和候选译文的句子向量。步骤S403与步骤S505相同之处不再赘述，相关说明详见步骤S505部分。

请参考图11，其为本申请的基于统计的机器翻译方法实施例步骤S403的具体流程图。在本实施例中，步骤S403包括：

步骤S4031：根据已构建的各个神经网络语言模型样本，计算第一目标函数的值。

本申请实施例所述的第一目标函数，是指第一平均值与第二平均值之和，与所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离的差值；所述第一平均值，是指所述与待翻译句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值；所述第二平均值，是指所述与候选译文包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。

当构建好待翻译句子和候选译文的各个神经网络语言模型样本后，就可以根据神经网络语言模型的输入层变量及网络中的各个参数，计算各个神经网络语言模型样本的似然概率，以及所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离，并计算第一目标函数的值。

步骤S4033：判断所述第一目标函数的值是否大于上一次所述第一目标函数的值；若是，则采用最优化算法，更新所述待翻译句子的句子向量和所述候选译文的句子向量，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第一目标函数的值的步骤。

步骤S4033与步骤S5053相对应，训练过程是相同的，此处不再赘述，相关说明详见步骤S5053部分。下述描述的步骤仅仅是示意性的。

在本实施例中，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述待翻译句子的句子向量和所述候选译文的句子向量，包括：1)根据预设的学习速率和所述第一目标函数，计算所述待翻译句子的句子向量和所述候选译文的句子向量的梯度；2)根据所述待翻译句子的句子向量和所述候选译文的句子向量的梯度，更新所述待翻译句子的句子向量和所述候选译文的句子向量。

步骤S303：计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离，作为所述待翻译句子和候选译文的语义相似度。

通过步骤S301获取到待翻译句子的句子向量和候选译文的句子向量之后，就可以计算两个句子向量之间的距离，将该距离作为待翻译句子和候选译文的语义相似度。

在获取到各个候选译文的对翻译概率产生影响的特征后，就可以根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成待翻译文本到各个候选译文的翻译概率。

本申请实施例所述的预先生成的翻译概率预测模型，是指通过机器学习算法，从预先存储的平行预料中学习出的翻译概率预测模型。具体的，能够采用的机器学习算法包括线性回归、回归决策树或迭代决策树等算法。不同算法生成的翻译概率的准确度不同，不同算法的计算复杂度也不相同，在实际应用中，根据具体应用需求，可以选择任意一种机器学习算法生成翻译概率预测模型。

在本实施例中，采用线性回归算法，从预先存储的平行预料中学习出的翻译概率预测模型。在基于线性回归的翻译概率预测模型中，每个对翻译概率产生影响的特征均有各自的权重，这些权重用于控制不同特征对待翻译文本到候选译文的翻译概率的影响力。

在基于统计的机器翻译过程中，可以将获取的平行语料分为三部分，第一部分用于词对齐及短语抽取，第二部分用于翻译概率预测模型的训练，第三部分则用于系统评价。其中，在第二部分和第三部分的数据中，每个源语言句子最好能有多条参考翻译。

在本实施例中，采用最小化错误率训练算法，通过在所准备的上述第二部分数据——优化集(Tuning Set)上优化翻译特征的权重，使得给定的优化准则最优化。一般常见的优化准则包括信息熵，BLEU，TER等。这一阶段需要使用解码器对优化集进行多次解码，每次解码产生M个得分最高的结果，并调整翻译特征的权重。当权重被调整时，N个结果的排序也会发生变化，而得分最高者，即解码结果，将被用于计算BLEU得分或TER。当得到一组新的权重，使得整个优化集的得分得到改进后，将重新进行下一轮解码。如此往复直至不能观察到新的改进。

在实际应用中，根据选取的M值的不同、优化集的大小、模型大小及解码器速度，训练时间可能需要数小时或数日。通过翻译特征的权重，使得翻译系统在客观评价准则上的得分越来越高，同时，还需要不断改进客观评价准则，使得客观评价准则与主观评价准则越来越接近。

在进行实际翻译过程中，可以根据具体需求，选择上述对翻译概率产生影响的各种特征的任意组合，并在确定特征的权重后，计算待翻译句子到每一个候选翻译的翻译概率。

步骤S105：选取预设数量的所述翻译概率排在高位的候选译文，作为所述待翻译句子的译文。

通过步骤S103获取到待翻译句子到每一个候选翻译的翻译概率之后，从所有候选翻译中选取预设数量的翻译概率排在高位的候选译文，作为待翻译句子的候选译文。

在本实施例中，选取所述翻译概率中的最大值所对应的候选译文，作为所述待翻译句子的译文，采用如下计算公式：

其中，t^*为待翻译句子的最终译文，h_i(s,t)为第i个对翻译概率产生影响的特征，λ_i为第i个对翻译概率产生影响的特征所对应的权重，I为对翻译概率产生影响的特征的数量，T为候选译文的数量，s为待翻译句子，t为候选译文。

在上述的实施例中，提供了一种基于统计的机器翻译方法，与之相对应的，本申请还提供一种基于统计的机器翻译装置。该装置是与上述方法的实施例相对应。

请参看图12，其为本申请的基于统计的机器翻译装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种基于统计的机器翻译装置，包括：

生成候选译文单元101，用于根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文；

计算翻译概率单元103，用于根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成所述待翻译句子到各个候选译文的翻译概率；所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度；

选取单元105，用于选取预设数量的所述翻译概率排在高位的候选译文，作为所述待翻译句子的译文。

请参看图13，其为本申请的基于统计的机器翻译装置实施例的具体示意图。可选的，还包括：

计算语义相似度单元201，用于计算所述待翻译句子和候选译文的语义相似度。

请参看图14，其为本申请的基于统计的机器翻译装置实施例计算语义相似度单元201的具体示意图。可选的，所述计算语义相似度单元201包括：

获取子单元2011，用于获取所述待翻译句子的句子向量，以及所述候选译文的句子向量；

计算子单元2013，用于计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离，作为所述待翻译句子和候选译文的语义相似度；

可选的，还包括：

生成句子向量单元202，用于生成所述待翻译句子的句子向量，以及所述候选译文的句子向量。

请参看图15，其为本申请的基于统计的机器翻译装置实施例生成句子向量单元202的具体示意图。可选的，所述生成句子向量单元202包括：

构建样本子单元2021，用于根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本；

学习子单元2023，用于以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标，学习获取所述待翻译句子的句子向量和所述候选译文的句子向量；

可选的，所述构建样本子单元2021包括：

可选的，所述学习子单元2023包括：

可选的，还包括：

训练单元203，用于生成所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

请参看图16，其为本申请的基于统计的机器翻译装置实施例训练单203的具体示意图。可选的，所述训练单元203包括：

获取子单元2031，用于获取平行语料库；

解析子单元2033，用于解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；

设置子单元2035，用于为所述平行语料库包括的各个词设置第一预设维度的词向量，形成所述词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；

构建子单元2037，用于针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

学习子单元2039，用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

可选的，所述构建子单元2037包括：

可选的，所述学习子单元2039包括：

请参看图17，其为本申请的基于统计的机器翻译装置实施例生成候选译文单元101的具体示意图。可选的，所述生成候选译文单元101包括：

解析子单元1011，用于解析所述待翻译句子，生成所述待翻译句子的各个子字符串；

获取子单元1013，用于根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文；

拼接子单元1015，用于根据所述子字符串在所述待翻译句子中的位置，将相邻子字符串的候选译文进行组合拼接，形成所述待翻译句子的候选译文。

可选的，所述获取子单元1013包括：

请参考图18，其为本申请的又一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：显示器1801；处理器1802；以及存储器1803，所述存储器1803用于存储基于统计的机器翻译装置，所述基于统计的机器翻译装置被所述处理器1802执行时，包括如下步骤：根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文；根据各个候选译文的对翻译概率产生影响的特征，以及预先生成的翻译概率预测模型，生成所述待翻译句子到各个候选译文的翻译概率；所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度；选取预设数量的所述翻译概率排在高位的候选译文，作为所述待翻译句子的译文。

本申请还提供一种语义相似度的计算方法，其核心的基本思想为：将具有语义信息的源语言句子的句子向量与目标语言句子的句子向量之间的向量距离，作为源语言句子和目标语言句子的语义相似度，其中句子向量表示的语义信息是跨语言的。由于句子向量具有跨语言的语义信息，使得能够计算不同语言句子之间的语义相似度。

请参考图19，其为本申请提供的一种语义相似度的计算方法的实施例的流程示意图，本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语义相似度的计算方法包括：

步骤S1901：获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量。

步骤S1901与实施例一中步骤S301相对应，本实施例待计算的源语言句子与实施例一的待翻译句子相对应，待计算的目标语言句子与实施例一的候选译文相对应。两个步骤相同之处此处不再赘述，相关说明详见步骤S301部分。

本申请实施例所述的待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。

在本实施例中，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，采用如下步骤生成：

步骤S2001：根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本。

在本实施例中，步骤S2001包括：

步骤S20011：解析所述待计算的源语言句子和所述待计算的目标语言句子，获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词。

步骤S20013：根据所述词与词向量的对应关系，获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词对应的词向量。

步骤S20015：随机设置所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。

步骤S20017：针对所述待计算的源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待计算的源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S20019：针对所述待计算的目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述待计算的目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S2003：以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标，学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。

在本实施例中，步骤S2003包括：

步骤S20031：根据已构建的各个神经网络语言模型样本，计算第一目标函数的值。

步骤S20033：判断所述第一目标函数的值是否大于上一次所述第一目标函数的值；若是，则采用最优化算法，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第一目标函数的值的步骤。

在本实施例中，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，包括：1)根据预设的学习速率和所述第一目标函数，计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量的梯度；2)根据所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量的梯度，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量。

在本实施例中，所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，采用如下步骤生成：

步骤S2101：获取平行语料库。

步骤S2103：解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词。

步骤S2105：为所述平行语料库包括的各个词设置第一预设维度的词向量，形成所述词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量。

步骤S2107：针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本。

在本实施例中，所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

步骤S2201：解析所述平行语料中源语言句子和目标语言句子，获取所述平行语料中源语言句子和目标语言句子包括的词。

步骤S2203：根据所述词与词向量的对应关系，获取所述平行语料中源语言句子和目标语言句子包括的词对应的词向量。

步骤S2205：针对所述平行语料中源语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述平行语料中源语言句子的句子向量，以及所述与源语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S2207：针对所述平行语料中目标语言句子包括的各个N元短语，根据所述N元短语包括的词对应的词向量和所述平行语料中目标语言句子的句子向量，以及所述与目标语言对应的神经网络语言模型，构建与所述N元短语对应的神经网络语言模型样本。

步骤S2109：以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

在本实施例中，步骤S2109包括：

步骤S21091：根据已构建的各个神经网络语言模型样本，计算第二目标函数的值。

步骤S21093：判断所述第二目标函数的值是否大于上一次所述第二目标函数的值；若是，则采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，并返回执行所述根据已构建的各个神经网络语言模型样本，计算第二目标函数的值的步骤。

在本实施例中，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：1)根据预设的学习速率和所述第二目标函数，计算所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度；2)根据所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。

步骤S1903：计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度。

步骤S1903与实施例一中步骤S303相对应，相同之处此处不再赘述，相关说明详见步骤S303部分。

在上述的实施例中，提供了一种语义相似度的计算方法，与之相对应的，本申请还提供一种语义相似度的计算装置。该装置是与上述方法的实施例相对应。

请参看图20，其为本申请的语义相似度的计算装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种语义相似度的计算装置，包括：

获取单元2001，用于获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量；

计算子单元2003，用于计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度；

可选的，还包括：

可选的，所述生成句子向量单元包括：

可选的，所述构建样本子单元包括：

可选的，所述学习子单元包括：

可选的，还包括：

可选的，所述训练单元包括：

获取子单元，用于获取平行语料库；

可选的，所述构建子单元包括：

可选的，所述学习子单元包括：

请参考图21，其为本申请的又一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的又一种电子设备，该电子设备包括：显示器2101；处理器2102；以及存储器2103，所述存储器2103用于存储语义相似度的计算装置，所述语义相似度的计算装置被所述处理器2102执行时，包括如下步骤：获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量；计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度；其中，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。

本申请提供的语义相似度的计算方法、装置及电子设备，通过获取待计算的源语言句子的句子向量，以及待计算的目标语言句子的句子向量；计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离，作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度；其中，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息，使得能够计算不同语言句子之间的语义相似度。

本申请还提供一种词量化方法，下面首先介绍一下现有技术的词量化方法。

现有技术利用神经网络语言模型，将基本的自然语言成分“词”以较为合理的方式转变成为更适应于机器学习的数学表达形式，即词向量。词向量能够有效地抓取自然语言之间语义的信息，因此，词向量最大的优点是可计算性，若将所有词向量放在一起形成一个向量空间，而每一向量则为该空间中的一个点，则可以根据点之间的“几何距离”来判断词之间的语义相似度。例如，中文词“话筒”和“麦克风”经过神经网络语言模型训练后能产生对应的具有K维度实数向量：“话筒”＝>[0.123534,-0.34155,0.256654,…,0.64324]，“麦克风”＝>[0.120354,-0.34901,0.256934,…,0.643463]，可见这两个词向量在向量空间中的几何距离非常接近。

目前，业界最为流行的一个神经网络语言模型为Google公司所提出的Word2Vec模型，此模型为文本构建一个神经网络语言模型，专门为自然语言最基本单元“词”生成向量。简单来说，此模型为每个N元语言模型样本构建同样的一种前向三层神经网络，输入层变量是上文N-1个词，每个词用一个K维向量表示，然后将这N-1个的词向量拼起来投射到网络的隐藏层，输出层是一个对N元语言模型的尾词的预测概率。

然而，现有的神经网络语言模型仅集中在单一语言上生成词向量，因而，无法做到跨语言间的语义知识学习。综上所述，现有技术存在生成的词向量所表示的语义信息仅适用于同一语言的同义词，而无法适用于跨语言的互译词的问题。

本申请提供一种词量化方法，其核心的基本思想为：基于平行预料构建跨语言的神经网络语言模型，并且模型的输入层包括N元语言模型样本所在的句子对应的句子向量，在训练神经网络语言模型时，以最大化平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取词向量。由于将N元短语上下文的前N-1个词的词向量连同N元短语所在句子对应的句子向量一起作为上下文背景进行融合，真正充分地利用N元短语所处的句子信息来预测下一个词，使得学习到的词向量富含双语的语义知识。

请参考图22，其为本申请提供的一种词量化方法的实施例的流程示意图，本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种词量化方法包括：

步骤S2201：获取平行语料库。

步骤S2201与实施例一中步骤S501相对应，相同之处此处不再赘述，相关说明详见步骤S501部分。

步骤S2202：解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词。

步骤S2202与实施例一中步骤S502相对应，相同之处此处不再赘述，相关说明详见步骤S502部分。

步骤S2203：为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量。

步骤S2203与实施例一中步骤S503相对应，相同之处此处不再赘述，相关说明详见步骤S503部分。

步骤S2204：针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本。

步骤S2204与实施例一中步骤S504相对应，相同之处此处不再赘述，相关说明详见步骤S504部分。

步骤S2205：以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系。

步骤S2205与实施例一中步骤S505相对应，相同之处此处不再赘述，相关说明详见步骤S505部分。

在本实施例中，步骤S2205包括：

需要说明的是，本申请实施例还提供了一种优选的词量化方法，该方法训练的神经网络语言模型具有以下特点：1)采用三层前向神经网络算法语言模型；2)神经网络语言模型的输入层到隐藏层的各个连接权重均相同，且输入层到输出层的各个连接权重为0；3)神经网络语言模型的隐藏层的激励函数为线性函数，具体的，隐藏层的向量值为输入层的各个向量值的加和平均值。训练具有上述特点的神经网络语言模型，仅需要数小时的时间即可完成对千万级别数据的学习。而现有技术在学习词向量时所训练神经网络语言模型，在大规模平行语料上的训练时间往往需要花费数十天。可见，采用该优选方法，能够达到提高学习效率的效果。

在上述的实施例中，提供了一种词量化方法，与之相对应的，本申请还提供一种词量化装置。该装置是与上述方法的实施例相对应。

请参看图23，其为本申请的词量化装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种词量化装置，包括：

获取单元2301，用于获取平行语料库；

解析单元2302，用于解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；

设置单元2303，用于为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；

构建单元2304，用于针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；

学习单元2305，用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系；

可选的，所述构建单元2304包括：

可选的，所述学习单元2305包括：

请参考图24，其为本申请的再一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的再一种电子设备，该电子设备包括：显示器2401；处理器2402；以及存储器2403，所述存储器2403用于存储词量化装置，所述词量化装置被所述处理器2402执行时，包括如下步骤：获取平行语料库；解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系；其中，所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。

本申请提供的词量化方法、装置及电子设备，通过获取平行语料库；解析所述平行语料库包括的各个句子，获取所述平行语料库包括的所有词；为所述平行语料库包括的各个词设置第一预设维度的词向量，形成词和词向量的对应关系；以及为所述各个句子随机设置第二预设维度的句子向量；针对所述平行语料库中的各对平行语料，根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本；以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系；其中，所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量，使得生成的词向量所具有的语义信息适用于跨语言的互译词。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种基于统计的机器翻译方法，其特征在于，包括：

2.根据权利要求1所述的基于统计的机器翻译方法，其特征在于，所述待翻译句子和候选译文的语义相似度，采用如下步骤计算：

3.根据权利要求2所述的基于统计的机器翻译方法，其特征在于，所述待翻译句子的句子向量和所述候选译文的句子向量，采用如下步骤生成：

4.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本，包括：

5.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标，学习获取所述待翻译句子的句子向量和所述候选译文的句子向量，包括：

6.根据权利要求5所述的基于统计的机器翻译方法，其特征在于，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述待翻译句子的句子向量和所述候选译文的句子向量，包括：

7.根据权利要求2所述的基于统计的机器翻译方法，其特征在于，所述向量之间的距离包括余弦夹角距离或欧式距离。

8.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。

9.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同；所述神经网络语言模型的输入层到输出层的各个连接权重为0。

10.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述神经网络语言模型的隐藏层的激励函数为线性函数。

11.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。

12.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，采用如下步骤生成：

获取平行语料库；

13.根据权利要求12所述的基于统计的机器翻译方法，其特征在于，所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

14.根据权利要求12所述的基于统计的机器翻译方法，其特征在于，所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

15.根据权利要求14所述的基于统计的机器翻译方法，其特征在于，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

16.根据权利要求1-15任意一项所述的基于统计的机器翻译方法，其特征在于，所述对翻译概率产生影响的特征还包括：所述待翻译句子到所述候选译文的短语翻译概率、所述候选译文到所述待翻译句子的短语翻译概率、所述待翻译句子到所述候选译文的词翻译概率、所述候选译文到所述待翻译句子的词翻译概率、所述候选译文的句子概率和所述待翻译句子与所述候选译文调序与不调序的分类概率的至少一者。

17.根据权利要求1-15任意一项所述的基于统计的机器翻译方法，其特征在于，所述根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文，采用如下方式算法实现：CYK解码算法、基于栈的解码算法或移进-归约解码算法。

18.根据权利要求1所述的基于统计的机器翻译方法，其特征在于，所述根据预先生成的翻译规则，对待翻译句子进行解码，生成所述待翻译句子的候选译文，包括：

19.根据权利要求18所述的基于统计的机器翻译方法，其特征在于，所述根据所述预先生成的翻译规则，获取各个所述子字符串的候选译文，包括：

20.根据权利要求1所述的基于统计的机器翻译方法，其特征在于，通过线性回归算法，从预先存储的平行预料中学习出所述翻译概率预测模型。

21.一种基于统计的机器翻译装置，其特征在于，包括：

22.根据权利要求21所述的基于统计的机器翻译装置，其特征在于，还包括：

23.根据权利要求22所述的基于统计的机器翻译装置，其特征在于，所述计算语义相似度单元包括：

24.根据权利要求23所述的基于统计的机器翻译装置，其特征在于，还包括：

25.根据权利要求24所述的基于统计的机器翻译装置，其特征在于，所述生成句子向量单元包括：

26.根据权利要求25所述的基于统计的机器翻译装置，其特征在于，所述构建样本子单元包括：

27.根据权利要求25所述的基于统计的机器翻译装置，其特征在于，所述学习子单元包括：

28.根据权利要求25所述的基于统计的机器翻译装置，其特征在于，还包括：

29.根据权利要求28所述的基于统计的机器翻译装置，其特征在于，所述训练单元包括：

获取子单元，用于获取平行语料库；

30.根据权利要求29所述的基于统计的机器翻译装置，其特征在于，所述构建子单元包括：

31.根据权利要求29所述的基于统计的机器翻译装置，其特征在于，所述学习子单元包括：

32.根据权利要求21-31任意一项所述的基于统计的机器翻译装置，其特征在于，所述生成候选译文单元包括：

33.根据权利要求32所述的基于统计的机器翻译装置，其特征在于，所述获取子单元包括：

34.一种电子设备，其特征在于，包括：

显示器；

处理器；以及

35.一种语义相似度的计算方法，其特征在于，包括：

36.根据权利要求35所述的语义相似度的计算方法，其特征在于，所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，采用如下步骤生成：

37.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

38.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标，学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，包括：

39.根据权利要求38所述的语义相似度的计算方法，其特征在于，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量，包括：

40.根据权利要求35所述的语义相似度的计算方法，其特征在于，所述向量之间的距离包括余弦夹角距离或欧式距离。

41.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。

42.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同；所述神经网络语言模型的输入层到输出层的各个连接权重为0。

43.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述神经网络语言模型的隐藏层的激励函数为线性函数。

44.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。

45.根据权利要求36所述的语义相似度的计算方法，其特征在于，所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，采用如下步骤生成：

获取平行语料库；

46.根据权利要求45所述的语义相似度的计算方法，其特征在于，所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

47.根据权利要求45所述的语义相似度的计算方法，其特征在于，所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

48.根据权利要求47所述的语义相似度的计算方法，其特征在于，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

49.一种语义相似度的计算装置，其特征在于，包括：

50.根据权利要求49所述的语义相似度的计算装置，其特征在于，还包括：

51.根据权利要求50所述的语义相似度的计算装置，其特征在于，所述生成句子向量单元包括：

52.根据权利要求51所述的语义相似度的计算装置，其特征在于，所述构建样本子单元包括：

53.根据权利要求51所述的语义相似度的计算装置，其特征在于，所述学习子单元包括：

54.根据权利要求51所述的语义相似度的计算装置，其特征在于，还包括：

55.根据权利要求54所述的基于统计的机器翻译装置，其特征在于，所述训练单元包括：

获取子单元，用于获取平行语料库；

56.根据权利要求55所述的语义相似度的计算装置，其特征在于，所述构建子单元包括：

57.根据权利要求55所述的语义相似度的计算装置，其特征在于，所述学习子单元包括：

58.一种电子设备，其特征在于，包括：

显示器；

处理器；以及

59.一种词量化方法，其特征在于，包括：

获取平行语料库；

60.根据权利要求59所述的词量化方法，其特征在于，所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型，构建与所述平行语料中源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本，包括：

61.根据权利要求59所述的词量化方法，其特征在于，所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和，同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标，训练所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，获取所述词与词向量的对应关系，包括：

62.根据权利要求61所述的词量化方法，其特征在于，所述最优化算法采用随机梯度算法；所述采用最优化算法，更新所述词向量、所述平行语料中源语言句子的句子向量和目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型，包括：

63.根据权利要求59所述的词量化方法，其特征在于，所述句子向量之间的距离包括余弦夹角距离或欧式距离。

64.根据权利要求59所述的词量化方法，其特征在于，所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。

65.根据权利要求59所述的词量化方法，其特征在于，所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同；所述神经网络语言模型的输入层到输出层的各个连接权重为0。

66.根据权利要求59所述的词量化方法，其特征在于，所述神经网络语言模型的隐藏层的激励函数为线性函数。

67.根据权利要求59所述的词量化方法，其特征在于，所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。

68.一种词量化装置，其特征在于，包括：

获取单元，用于获取平行语料库；

69.根据权利要求68所述的词量化装置，其特征在于，所述构建单元包括：

70.根据权利要求68所述的词量化装置，其特征在于，所述学习单元包括：

71.一种电子设备，其特征在于，包括：

显示器；

处理器；以及