CN105808530A

CN105808530A - 一种统计机器翻译中的翻译方法和装置

Info

Publication number: CN105808530A
Application number: CN201610168375.8A
Authority: CN
Inventors: 熊德意; 唐海庆
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-07-27
Anticipated expiration: 2036-03-23
Also published as: CN105808530B

Abstract

本申请公开了一种统计机器翻译中的翻译方法和装置，在统计机器翻译的训练阶段，生成包含源端短语语义向量的翻译模型，并在解码阶段，计算待翻译短语的语义向量，然后再计算待翻译短语的语义向量与候选翻译规则源端短语语义向量的相似度，并将相似度作为一个子模型集成到对数线性模型中，以供统计机器翻译系统选择与待翻译短语语义最接近的译文。传统的统计机器翻译系统不包含语义信息，本申请通过生成源端短语的语义，并利用语义向量的相似度，帮助统计机器翻译系统更准确地选出与待翻译短语语义接近的译文，能够有效地提高统计机器翻译译文的质量。

Description

一种统计机器翻译中的翻译方法和装置

技术领域

本申请涉及数据处理领域，更具体地说，涉及一种统计机器翻译中的翻译方法和装置。

背景技术

随着互联网和社交网络的发展，机器翻译在社会发展和信息传播中的作用越来越突出。统计机器翻译(StatisticalMachineTranslation，SMT)作为机器翻译的一个重要研究方向，其基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。从早期基于单词的机器翻译已经过度到基于短语的翻译，译文质量得到很大提升。

但是，在统计机器翻译中，一个源端短语在训练得到的翻译模型中可能对应多个翻译规则。例如英文短语“runa”在翻译成中文时可以是“跑一个”，也可以是“经营一个”。目前，统计机器翻译中翻译系统仅根据词汇翻译概率，从多个候选翻译规则中选择概率最高的译文，有时候会造成整个句子的译文与源端句子表达的意义存在较大偏差的问题。

发明内容

有鉴于此，本申请提出一种统计机器翻译中的翻译方法和装置，欲通过引入短语语义向量，实现提高统计机器翻译的翻译性能的目标。

为了实现上述目的，现提出的方案如下：

一种统计机器翻译中的翻译方法，所述翻译方法包括：

对待翻译文本中的单词进行词义标注；

计算待翻译文本中的单词的词义向量；

根据所述待翻译文本中的单词的词义向量，计算待翻译短语的语义向量；

从预先训练得到的翻译模型中，获取与所述待翻译短语对应的候选翻译规则的源端短语语义向量；

计算所述待翻译短语的语义向量与所述候选翻译规则的源端短语语义向量的相似度；

将所述相似度作为一个子模型集成到对数线性模型中，以供统计机器翻译系统选择译文。

优选的，所述预先训练得到的翻译模型的训练过程，包括：

对源端语料库中的单词进行词义标注；

计算所述单词的词义向量；

根据所述词义向量，计算所述源端短语的语义向量，生成包含所述源端短语的语义向量的翻译模型；

优选的，所述对源端语料库中的单词进行词义标注，包括：

过滤所述源端语料库中的停止词和低频词，得到待标注单词；

从所述源端语料库中获取包含同一所述待标注单词的句子，组成一个伪文档；

对所述伪文档的主题信息进行评估，得到所述待标注单词的多个潜层词义；

对所述待标注单词标注概率最高的潜层词义。

优选的，所述对源端语料库中的单词进行词义标注，包括：

利用WordNet词典定义的语义标签supersenses对待标注单词进行词义标注。

优选的，所述根据所述待翻译文本中的单词的词义向量，计算待翻译短语的语义向量，包括：

通过所述待翻译短语中的所有单词的词义向量相加得到所述待翻译短语的语义向量。

优选的，所述根据所述词义向量，计算所述源端短语的语义向量，包括：

根据公式计算源端短语的每个词义标注序列相对于所述源端短语的概率，其中，phrase代表源端短语(w_i,w_i+1,...,w_j)，w代表源端单词，sense代表源端短语的一种词义标注序列(w_i|s_a,w_i+1|s_b,...,w_j|s_m)s代表单词的词义标注；

根据公式计算每个sense向量，其中，代表单词词义向量。

根据公式计算源端短语的语义向量，其中，P_i代表源端短语的第i种词义标记序列相对于源端短语的概率。

或：

根据公式计算正向短语翻译概率，其中，e代表目标端短语，f代表源端短语，sense代表源端短语的一种词义标注序列；

根据公式计算反向短语翻译概率；

根据公式计算源端短语语义向量。

一种统计机器翻译中的翻译装置，包括：

第二词义标注单元，用于对待翻译文本中的单词进行词义标注；

第二词义向量单元，用于计算待翻译文本中的单词的词义向量；

第二语义向量单元，用于根据所述待翻译文本中的单词的词义向量，计算待翻译短语的语义向量；

获取语义向量单元，用于从预先训练得到的翻译模型中，获取与所述待翻译短语对应的候选翻译规则的源端短语语义向量；

向量相似度单元，计算所述待翻译短语的语义向量与候选翻译规则的源端短语语义向量的相似度；

译文选择单元，用于将所述相似度作为一个子模型集成到对数线性模型中，以供统计机器翻译系统选择译文。

优选的，还包括：

第一词义标注单元，用于对源端语料库中的单词进行词义标注；

第一词义向量单元，用于计算所述单词的词义向量；

第一语义向量单元，用于根据所述词义向量，计算所述源端短语语义向量，生成包含所述源端短语语义向量的翻译模型。

优选的，所述第一词义标注单元，包括：

第一预处理单元，用于过滤所述源端语料库中的停止词和低频词，得到待标注单词；

伪文档单元，用于从所述源端语料库中获取包含同一所述待标注单词的句子，组成一个伪文档；

主题评估单元，用于对所述伪文档的主题信息进行评估，得到所述待标注单词的多个潜层词义；

第三词义标注单元，用于对所述待标注单词标注概率最高的潜层词义。

优选的，所述第一词义标注单元，包括：

第二预处理单元，用于过滤所述源端语料库中的停止词和低频词，得到待标注单词；

第四词义标注单元，用于利用WordNet词典定义的语义标签supersenses对待标注单词进行词义标注。

优选的，所述第二语义向量单元，用于通过所述待翻译短语中的所有单词的词义向量相加得到所述待翻译短语的语义向量。

优选的，所述第一语义向量单元，包括：

概率生成单元，用于根据公式计算源端短语的每个词义标注序列相对于所述源端短语的概率，其中，phrase代表源端短语(w_i,w_i+1,...,w_j)，w代表源端单词，sense代表源端短语的一种词义标注序列(w_i|s_a,w_i+1|s_b,...,w_j|s_m)s代表单词的词义标注；

第三语义向量单元，用于根据公式计算每个sense向量，其中，代表单词词义向量。

第四语义向量单元，用于根据公式计算源端短语的语义向量，其中，P_i代表源端短语的第i种词义标记序列相对于源端短语的概率。

或：

正向概率单元，用于根据公式计算正向短语翻译概率，其中，e代表目标端短语，f代表源端短语，sense代表源端短语的一种词义标注序列；

反向概率单元，用于根据公式计算反向短语翻译概率；

第五语义向量单元，用于根据公式计算源端短语语义向量。从上述的技术方案可以看出，本申请公开的统计机器翻译中的翻译方法和装置，在统计机器翻译的训练阶段，生成包含源端短语语义向量的翻译模型，并在解码阶段，计算待翻译短语的语义向量，然后再计算待翻译短语的语义向量与候选翻译规则源端短语语义向量的相似度，并将相似度作为一个子模型集成到对数线性模型中，以供统计机器翻译系统选择与待翻译短语语义最接近的译文。传统的统计机器翻译系统不包含语义信息，本申请通过生成源端短语的语义，并利用语义向量的相似度，帮助统计机器翻译系统更准确地选出与待翻译短语语义接近的译文，能够有效地提高统计机器翻译译文的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例公开的一种统计机器翻译中的翻译方法包括的训练过程的流程图；

图2为本实施例公开的一种统计机器翻译中的翻译方法包括的解码过程的流程图；

图3为本实施例公开的一种对源端语料库中的单词进行词义标注的方法流程图；

图4为本实施例公开的一种统计机器翻译中的翻译装置的示意图；

图5为本实施例公开的一种第一词义标注单元的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现对本申请设计的名词进行解释，以便于对本申请方案的理解：

停止词，stopword，在英文文档里面会遇到很多a，the，or等使用频率很多的词，常为冠词、介词、副词或连词等。如果搜索引擎要将这些词都索引的话，工作量巨大。在中文文档里面“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。

伪文档，是指通过对原始文档集合进行有指导地组织而形成的新的文档。

本申请公开的统计机器翻译中的翻译方案，在统计机器翻译的训练阶段，生成包含源端短语语义向量的翻译模型，在解码阶段，计算待翻译短语的语义向量，然后再计算待翻译短语的语义向量与候选翻译规则源端短语语义向量的相似度，并将相似度作为选择译文的一个因素。进而，更准确地选出与待翻译短语语义接近的译文，能够有效地提高统计机器翻译译文的质量。

本实施例公开一种统计机器翻译中的翻译方法，包括训练和解码两个过程，参见图1所示，训练过程包括：

步骤S11：对源端语料库中的单词进行词义标注。

同一个单词由于上下文语境的不同，其表达的含义也不同，即拥有不同的词义。通过将单词的不同词义以某种格式标记出来，进而借助单词的词义来计算短语的语义供统计机器翻译系统使用。如果训练要得到的翻译模型是用于将英语翻译为西班牙语，那么英语语料称为源端语料库，西班牙语语料称为目标端语料库。通过对源端语料库中的语料进行预处理，得到要标注词义的单词，进行单词的词义标注。

步骤S12：计算词义标注后的单词的词义向量。

即将被词义标注的单词映射到向量空间，单词词义用实数向量表示。通过开源工具word2vec可以训练得到单词的词义向量，采用CBOW(ContinuousBag-of-WordsModel)模型将被词义标注的单词映射到200维的向量空间，生成的文件格式为：每一种词义标注的单词，对应一个200维的向量，向量的每一维都是实数。比如“made”标记的一个可能单词词义为made|B-verb.social，经word2vec工具训练后其词义可以表示为(0.01，0.03，0.04，0.02，0.01)(以5维向量做说明)。将单词的词义以实数向量表示有利于基于短语的统计机器翻译引入语义信息。

步骤S13：根据计算得到的词义向量，计算源端短语的语义向量生成包含源端短语的语义向量的翻译模型。

根据计算得到的词义向量，计算源端短语的语义向量，将源端短语的语义向量作为一项信息，加到传统的翻译模型中。一个源端短语在训练得到的翻译模型中可能对应多个翻译规则。

训练过程完成后，生成带有源端短语语义向量的翻译模型。解码过程即每一次的翻译过程，例如，平时我们利用百度翻译，去翻译待翻译文本的过程即一次解码过程，并不执行训练过程，训练过程是在我们翻译之前已经完成的操作。

参见图2所示，解码过程包括：

步骤S21：对待翻译文本中的单词进行词义标注。

在翻译之前，先对翻译文本进行数据预处理，去除停止词和低频词。其中去除哪些停止词可以从网络中获取，而低频词的阈值设定需要根据语料的规模来考虑。

步骤S22：计算待翻译文本中的单词的词义向量。

根据训练阶段生成的源端单词词义向量，计算待翻译文本中的单词的词义向量。

步骤S23：根据计算得到的待翻译文本中的单词的词义向量，计算待翻译短语的语义向量

对于待翻译的短语片段，根据每个单词词义标注所对应的语义向量，通过向量相加计算得到待翻译短语的语义向量

步骤S24：从训练过程得到的带有源端短语的翻译模型中，获取与待翻译短语对应的候选翻译规则的源端短语语义向量。

一个源端短语在训练得到的翻译模型中可能对应多个翻译规则，每个翻译规则对应一个源端短语语义向量。源端短语对应的翻译规则，即相应待翻译短语对应的翻译规则。例如，源端短语为“underlinethe”对应的多个翻译规则，即待翻译短语“underlinethe”对应的多个翻译规则。

步骤S25：计算待翻译短语的语义向量与候选翻译规则的源端短语语义向量的相似度。

在统计机器翻译中，一个源端短语在训练得到的翻译模型中可能对应多个翻译规则，即为待翻译短语在解码过程中对应的候选翻译规则。通过计算待翻译短语的语义向量与候选翻译规则的源端短语语义向量的相似度，进而帮助统计机器翻译系统选择最优译文。

向量相似度的计算公式如下：

其中，表示待翻译源端短语语义向量和翻译规则源端短语语义向量的相似度，a_i和b_i分别表示和每一维的值。当夹角越小时，相似性越高，其余弦值越大；当夹角越大时，相似性越低，其余弦值越小。

步骤S26：将相似度作为一个子模型集成到对数线性模型中，以供统计机器翻译系统选择译文。

将待翻译源端短语语义向量和翻译规则源端短语语义向量的相似度作为一个新特征加入到传统的统计机器翻译系统中。采用Och和Ney提出的对数线性模型去组合多种子模型，以获取最优译文，对数线性模型公式如下：

e_{b e s t} = \arg \max_{e} {Σ_{m = 1}^{M} λ_{m} h_{m} (e, f)}

其中，h_m(e,f)是子模型，即对数线性模型的特征。λ_m为对应子模型的权重。将短语语义向量相似度作为一个子模型集成到对数线性模型中，以帮助统计机器翻译系统选择合适的译文。

本实施例公开的统计机器翻译的翻译方法，通过计算待翻译源端短语语义向量和翻译规则源端短语语义向量的相似度，并将相似度作为一个新特征加入到传统的统计机器翻译系统中，为源端短语选择最接近的翻译规则，从而提高统计机器翻译的翻译性能。

本实施例公开一种对源端语料库中的单词进行词义标注方法，参见图3所示，该方法包括：

步骤S31：过滤源端语料库中的停止词和低频词，得到待标注单词。

统计源端语料库中各个单词出现的次数，将低于预设阈值的单词组成低频率词，并通过网络获得停止词，将语料中出现的低频词和停止词过滤，并将剩下的单词组成一个词汇表，词汇表中的单词即为待标注单词。

步骤S32：从源端语料库中获取包含同一待标注单词的句子，组成一个伪文档。

对词汇表中每一个单词组成一个伪文档。每个伪文档为从源端语料库中获取包含同一待标注单词的句子组合生成。每个伪文档的主题信息可以反映对应单词的语义信息。

步骤S33：对伪文档的主题信息进行评估，得到待标注单词的多个潜层词义。

HDP(HierarchicalDirichletProcess)是主题训练模型LDA(LatentDirichletAllocation)的无参版本，可以动态自主调整文档的主题数量。通过HDP的WSI(WordSenseInduction)模型，对伪文档的主题信息进行评估，得到对应单词的多个潜层词义。

步骤S34：对待标注单词标注概率最高的潜层词义。

在获得待标注单词对应的多个潜层词义后，将概率最高的潜层词义标注到伪文档中的相应单词上。

对源端语料库中的单词的词义标注除了上述方法外，还可以借助WordNet词典，标注每个单词在当前语境中最有可能的词义。语料的处理过程同样是过滤源端语料库中的停止词和低频词，得到待标注单词，之后借助WordNet词典，标注每个单词在当前语境中最有可能的词义。

基于短语的统计机器翻译系统，其翻译模型通常是通过开源工具Moses训练得到。本申请将Moses生成的翻译模型中短语序列多增加一列：源端短语的词义标注序列。同一源端短语可能对应多个不同的词义标记序列。

本实施例公开一种计算源端短语的语义向量方法，同一源端短语得到一个语义向量，方法包括：

根据公式计算源端短语的每个词义标注序列相对于所述源端短语的概率，其中，phrase代表源端短语(w_i,w_i+1,...,w_j)，w代表源端单词，sense代表源端短语的一种词义标注序列(w_i|s_a,w_i+1|s_b,...,w_j|s_m)s代表单词的词义标注。

根据公式计算每个sense向量，其中，代表单词词义向量。

本实施例公开另一种计算源端短语的语义向量方法，同一个源端短语对应N个不同的词义标记序列，翻译模中每个翻译规则的源端短语语义向量为其所对应的唯一单词词义标记序列多表示的向量。方法包括：

改变传统的短语翻译概率，将正向翻译概率由原始的计算方式修改为来计算正向短语翻译概率，其中，e代表目标端短语，f代表源端短语，sense代表源端短语的一种词义标注序列。

将反向翻译概率由计算方式改为计算反向短语翻译概率。

根据公式计算源端短语语义向量。实现翻译模型中每个翻译规则的源端短语语义向量为其所对应的唯一单词词义标记序列所表示的向量。

Moses生成的翻译模型中短语序列多增加一列：源端短语的词义标注序列。同一源端短语可能对应多个不同的词义标记序列。例如：

本实施例公开一种统计机器翻译中的翻译装置，参见图4所示，包括训练模块和解码模块，训练模块包括：

第一词义标注单元111，用于对源端语料库中的单词进行词义标注。

第一词义向量单元112，用于计算单词的词义向量。

第一语义向量单元113，用于根据词义向量，计算源端短语语义向量，生成包含源端短语语义向量的翻译模型。

解码模块包括：

第二词义标注单元121，用于对待翻译文本中的单词进行词义标注。

第二词义向量单元122，用于计算待翻译文本中的单词的词义向量。

第二语义向量单元123，用于根据待翻译文本中的单词的词义向量，计算待翻译短语的语义向量。具体的通过所述待翻译短语中的所有单词的词义向量相加得到所述待翻译短语的语义向量。

获取语义向量单元124，从训练过程得到的带有源端短语的翻译模型中，获取与待翻译短语对应的候选翻译规则的源端短语语义向量。

向量相似度单元125，计算待翻译短语的语义向量与候选翻译规则的源端短语语义向量的相似度。

译文选择单元126，用于将所述相似度作为一个子模型集成到对数线性模型中，以供统计机器翻译系统选择译文。

本实施例公开一种第一词义标注单元111，参见图5所示，包括：

第一预处理单元1111，用于过滤源端语料库中的停止词和低频词，得到待标注单词；

伪文档单元1112，用于从源端语料库中获取包含同一待标注单词的句子，组成一个伪文档；

主题评估单元1113，用于对伪文档的主题信息进行评估，得到待标注单词的多个潜层词义；

第三词义标注单元1114，用于对待标注单词标注概率最高的潜层词义。

本实施例公开另一种第一词义标注单元111，包括：

本实施例公开一种第一语义向量单元113，包括：

本实施例公开另一种第一语义向量单元113，包括：

反向概率单元，用于根据公式计算反向短语翻译概率；

第五语义向量单元，用于根据公式计算源端短语语义向量。

对于装置实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种统计机器翻译中的翻译方法，其特征在于，所述翻译方法包括：

对待翻译文本中的单词进行词义标注；

计算待翻译文本中的单词的词义向量；

2.根据权利要求1所述的方法，其特征在于，所述预先训练得到的翻译模型的训练过程，包括：

对源端语料库中的单词进行词义标注；

计算所述单词的词义向量；

根据所述词义向量，计算所述源端短语的语义向量，生成包含所述源端短语的语义向量的翻译模型。

3.根据权利要求2所述的方法，其特征在于，所述对源端语料库中的单词进行词义标注，包括：

对所述待标注单词标注概率最高的潜层词义；

或：

4.根据权利要求1所述的方法，其特征在于，所述根据所述待翻译文本中的单词的词义向量，计算待翻译短语的语义向量，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述词义向量，计算所述源端短语的语义向量，包括：

根据公式计算每个sense向量，其中，代表单词词义向量；

根据公式计算源端短语的语义向量，其中，P_i代表源端短语的第i种词义标记序列相对于源端短语的概率；

或：

根据公式计算反向短语翻译概率；

根据公式计算源端短语语义向量。

6.一种统计机器翻译中的翻译装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

第一词义向量单元，用于计算所述单词的词义向量；

8.根据权利要求7所述的装置，其特征在于，所述第一词义标注单元，包括：

第三词义标注单元，用于对所述待标注单词标注概率最高的潜层词义；

或：

9.根据权利要求6所述的装置，其特征在于，所述第二语义向量单元，用于通过所述待翻译短语中的所有单词的词义向量相加得到所述待翻译短语的语义向量。

10.根据权利要求2所述的方法，其特征在于，所述第一语义向量单元，包括：

第三语义向量单元，用于根据公式计算每个sense向量，其中，代表单词词义向量；

第四语义向量单元，用于根据公式计算源端短语的语义向量，其中，P_i代表源端短语的第i种词义标记序列相对于源端短语的概率；

或：

反向概率单元，用于根据公式计算反向短语翻译概率；

第五语义向量单元，用于根据公式计算源端短语语义向量。