CN103699529A

CN103699529A - 一种使用词义消歧的融合机器翻译系统的方法及装置

Info

Publication number: CN103699529A
Application number: CN201310751048.1A
Authority: CN
Inventors: 刘宇鹏
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-02

Abstract

一种使用词义消歧的融合机器翻译系统的方法及装置，本发明涉及机器翻译的相关领域。本发明是要实现对多个机器翻译系统进行后处理式融合，且在融合的过程中提高单语对齐的质量，实现混淆网络高效训练和解码，而提供了一种使用词义消歧的机器翻译系统与融合方法。一、确定词义；二、对句子相似度进行计算；（1）采用路径长度计算单词在句子中语义相似度；（2）采用语义矩阵计算两个句子的语义相似度；三、混淆网络的构建；四、混淆网络的训练；混淆网络的训练采用传统的机器翻译MERT训练方法；五、混淆网络解码，从混淆网络中解码出最好的翻译，采用经典自左向右的Beam-Search解码。本发明应用于机器翻译领域。

Description

一种使用词义消歧的融合机器翻译系统的方法及装置

技术领域

本发明涉及使用词义消歧的融合机器翻译系统的方法及装置，属于机器翻译领域。

背景技术

机器翻译系统融合技术通过融合多个机器翻译系统的输出结果来获得更好性能。系统融合技术可以认为是多个机器翻译结果的后处理过程。基于词的系统融合与基于句子/短语的系统融合技术相比，在性能上得到了大幅提高。基于词的系统融合与模型级系统融合相比，有更低的复杂度，能融合更多系统。本发明使用开放本体库资源WordNet进行词义消歧，使得计算语义相似度更加准确。

WordNet最初是1985年由普林斯顿大学认知科学实验室建立，它是在当前基于人类词汇记忆的心理语言学理论推动下产生的。它是一部在线词典数据库系统，采用了与传统词典不同的方式，即按照词义而不是词形来组织词汇信息。经过十几年的发展，它将逐渐成为一种国际标准，许多国家在筹划和建立与英文WordNet兼容的本国语言WordNet系统，如Euro-WordNet，中文的HowNet。WordNet有很多应用，如词义标注、词义消歧、建立基于词义分类的统计模型、基于概念的文本检索、文本校对、知识推理、知识工程及概念建模等等。

WordNet使用同义词集合（Synset）来代表词汇概念，将英语的名词、动词、形容词和副词组织为Synset，并描述词汇矩阵模型，即在词的形式和意义之间建立起映射关系。每一个Synset表示一个基本的词汇概念，并在这些概念之间建立四种关系：

(1)同义关系（synonymy）：两个词在句子中可以互相替代，则是同义关系，如heavy和weighty是一对同义词；

(2)反义关系（antonymy）：反义关系并不是WordNet的基本组织形式，是一种词形关系，如wet和dry就是形容词的反义关系；

(3)上-下位关系（hypernymy&hyponymy）：是词汇间的语义关系，这种关系也称为下属-上属或子集-超集关系，如松树是树的下位词，而树称为松树的上位词；

(4)整体-部分关系（holonym&meronymy）：该关系不具有对称关系，且不一定满足传递性，如wing是bird的部分词，bird是wing的整体词；

等多种语义关系。上-下位关系和整体-局部关系的Synset集合见图3。WordNet中的词由Synset组成，Synset之间用关系指针指示它们的语义关系。关系指针代表了一个Synset跟另一个Synset之间的关系如：同义、反义、上-下位以及整体-部分关系。

发明内容

本发明是要实现对多个机器翻译系统进行后处理式融合，且在融合过程中提高单语对齐的质量，实现混淆网络高效训练和解码，而提供了一种使用词义消歧的融合机器翻译系统的方法及装置。

一种使用词义消歧的融合机器翻译系统的装置包括预处理器，词义和语义计算器，混淆网络训练器与解码器；

所述预处理器对翻译结果进行分词，过滤等处理；词义和语义计算器使用WordNet系统和多个机器翻译的结果生成混淆网络；混淆网络的训练过程是一个迭代的过程，在训练的过程中需要用到语言模型；训练得到的特征权重被输入到解码器中，对于测试语料生成最终翻译结果，并进行测试输出得分。

一种使用词义消歧技术的融合机器翻译系统的方法包括以下步骤：

一、使用预处理器对多个机器翻译结果进行预处理，使用词义分析器确定词义：

通过加入多种重叠打分机制对原Lesk算法进行改进，然后采用改进后的Lesk算法进行词义消歧，确定每个词的词义；其中所述对原Lesk算法进行改进具体为：

(1)在搜索过程的每个阶段，搜索器将限制左右各K和J个最有前景的候选，而K和J是根据当前词所在短语所确定的数；

(2)通过Beam的局部搜索来优化词义组合，通过应用启发式技巧来缩减搜索空间；

(3)加入各种重叠打分以引入更多的相关信息；

二、使用词义和语义计算器对句子相似度进行计算：

(1)采用路径长度计算单词在句子中语义相似度；

(2)采用语义矩阵计算两个句子的语义相似度；

三、混淆网络的构建；

(1)骨架翻译的选择：通过改进后的Lesk算法和Hungarian算法计算语义相似度，找到与其他句子最相似的句子；

选择所有系统的最好翻译作为候选骨架翻译，计算任意候选骨架翻译和其他句子的句子相似度并取平均，把拥有最高分数的句子作为骨架翻译；

其中，所述计算句子相似度的流程如下：

(a)断词；

(b)对每个单词进行还原词根；

(c)词义消歧；

(d)将每一个词义对建立一个语义相关矩阵S[m,n]，S[i,j]表示在假设翻译X中位置i和在假设翻译Y中位置j最相似词义的语义相关度；因此S[i,j]也是从i到j的边上的权重；如果字典中不存在这个词则使用编辑距离计算相似性，输出单词之间的编辑距离；

(e)把计算两个句子的句子相似度看成二分图的最大权匹配，其中X和Y是两个不相交的集合；使用Hungarian算法求最大加权的匹配；

(f)以上步骤的匹配结果形成了两个句子的相似度分数；

(2)采用改进TER算法假设对齐：在骨架翻译和每个假设翻译中建立对齐关系，通过计算每对单词的相似度得分得到对齐结果；

(3)混淆网络的构建：假设翻译和骨架翻译通过加入null进行拉伸和对齐，从而构建混淆网络；

四、混淆网络的训练：混淆网络的训练采用传统的机器翻译MERT训练方法；

五、混淆网络解码：从混淆网络中解码出最好的翻译，采用经典自左向右的Beam-Search解码，完成混淆网络的解码，即完成了一种使用词义消歧技术的融合机器翻译系统的方法。

发明效果：

本发明比原有单系统明显的提高了6个百分点BLEU分数，特别是把多个不同的机器翻译进行融合在一起，互相提高性能，是机器翻译系统的实用化手段。随着并行化技术的发展，算法时间复杂度和空间复杂度都可以接受。

附图说明

图1是使用词义消歧的融合机器翻译的装置图；

图2是本发明流程图；

图3是背景技术中的WordNet中上下位的关系图；

图4是确定每个词义消歧的左右语境图；

图5是骨架翻译的选择图；

图6是二分图最大匹配的匈牙利算法伪代码图；

图7是二分图匹配的示例图；

图8是假设翻译与骨架翻译的对齐图；

图9是假设翻译与骨架翻译的拉伸图；

图10是混淆网络的构建图；

图11是基于转移的改进TER算法伪代码图；

图12是核心Find_Best_Shift算法的伪代码图；

图13是改进TER对齐的动态规划表图；

图14是图13的改进TER对齐结果图；

图15是混淆网络解码中剪枝算法的伪代码；

图16是混淆网络解码过程描述图。

具体实施方式

结合图1～16说明以下实施方式：

具体实施方式一：本实施方式的使用词义消歧的机器翻译系统包括预处理器，WordNet系统，词义和语义计算器，混淆网络训练器与解码器；

所述预处理器对翻译结果进行分词，过滤等处理；词义和语义计算器使用WordNet系统和多个机器翻译的结果生成混淆网络，对于混淆网络的训练过程是一个迭代的过程，在训练的过程中需要用到语言模型，训练得到的特征权重被输入到解码器中，对于测试语料生成最终翻译结果，并进行测试输出得分。

具体实施方式二：本实施方式的使用词义消歧技术的机器翻译系统融合方法包括以下步骤：

一、使用词义和语义计算器对句子相似度进行计算：

(2)通过Beam的局部搜索来优化词义组合，通过应用启发式的技巧来缩减搜索空间；

(3)加入各种重叠打分以引入更多的相关信息；

二、使用词义和语义计算器对句子相似度进行计算：

(1)采用路径长度计算单词在句子中语义相似度；

(2)采用语义矩阵计算两个句子的语义相似度；

三、混淆网络的构建；

其中，所述计算句子相似度的流程如下：

(a)断词；

(b)对每个单词进行还原词根；

(c)词义消歧；

(e)把计算两个句子的句子相似度看成二分图的最大权匹配，其中X和Y是两个不相交的集合；使用Hungarian算法求最大加权的匹配；其伪代码见图6；给定两个句子的最大匹配的示例见图7，红线代表最终最大匹配的结果，黑线代表所有可能的匹配，每个单词斜杠后面是词性；

(f)以上步骤的匹配结果形成了两个句子的相似度分数；

(2)采用改进TER算法假设对齐：在骨架翻译和每个假设翻译中建立对齐关系，通过计算每对单词的相似度得分得到对齐结果，示例见图8；

(3)混淆网络的构建：假设翻译和骨架翻译通过加入null进行拉伸和对齐，示例见图9；混淆网络的表示形式见图10；

五、混淆网络解码：从混淆网络中解码出最好的翻译，采用经典自左向右的Beam-Search解码，完成了混淆网络的解码；即完成了一种使用词义消歧技术的融合机器翻译系统的方法。

本实施方式中，步骤一中词义消歧是找出在给定语境下一个词的最合适意思，改进后的Lesk算法是在句子语境下来消歧句子中的单词。主要的目的是计算在两个解释中共享的词数，重叠的单词越多，语义就越相关。为了词义消歧，每一个单词的解释被和在短语中的其他单词的解释来作比较。

例如：在执行短语“people person”的消歧过程中，按照WordNet3.0的解释：

名词people有四个意思：

(1)any group of human beings;

(2)the body of citizens of a state or country;

(3)the common people generally;

(4)members of a family line;

动词people有两个意思：

(1)fill with people or supply with inhabitants;"people a room";

(2)furnish with people

名词person有三个意思：

(1)a human being;

(2)a human body(usually including the clothing);

(3)a grammatical category of pronouns and verb forms;

由于people除了名词以外，还有动词词性，而person只有名词词性，只比较两个名词词性，比较分为两步：

(1)为了提高单词的匹配率，首先使用Porter Stemming进行还原词根；

(2)进行匹配公共的子串来确定词义；

通过比较单词“people”的四个解释意思中的每一个和单词“person”的三个解释意思中的每一个，发现单词“human being”出现在两个单词中一个词义中，human出现在person的两个词义中，human出现在people的一个词义中。当单词“people和person”一同使用时，则将包含“human being”或“human”的两个词义选择为最合适的词义。

本实施方式中，步骤二中句子相似度计算方法是通过词义来计算两个句子中所有匹配词的相似得分。

在WordNet中每个词性被组织在一个分类中，代表一个意思的每个节点是一系列同义词。如果一个词含有超过一个意思，它将出现在分类不同的多个同义词集合。在Synset之间的关系是语义关系，在词义间的关系是词汇关系。不同是词汇关系是两个不同Synset集合中成员间的关系，但语义关系是两个整个Synset集合的关系。

例如：语义关系是上下位关系等；

词汇关系是反义关系和推导关系；

使用下面示例进行说明一下：

名词light第十个意思(light#n#10)的反义词在WordNet中是名词dark的第一意思（dark#n#1）。这个Synset集合是{light#n#10，lighting#n#1}，清楚的是light#n#10是dark#n#1的反义词，但是lighting#n#1不是dark#n#1的反义词。因此反义关系需要一个词汇关系，不是语义关系。语义相似性是语义关系的一个特例，仅仅是IS-A关系。

为了衡量两个Synset集合的语义相似性，使用hyponym/hypernym(即IS-A关系)。衡量两个Synset集合的语义相似性简单方法是把分类看成一个无向图，在WordNet中衡量它们的距离。P.Resnik说：“从一个节点到另一个路径越短，它们就越相似”。注意这个路径长度通过节点而不是通过边衡量。为了衡量语义相似度得分，给定下面定义：

(1)两个词的路径长度（Path Length）：在同一个Synset集合中两个成员的路径长度为1。图3展示了用路径长度相似度来计算上位分类的实例，图3中可以看到motor和auto的长度是1，auto和bike的长度为3，motor和fork的长度为11。

(2)两个词的公共父亲（Sub-Summer）：这两个词所在Synset的公共父亲。

(3)两个词的最短公共父亲（Least Common Sub-summer）：也是两个词的最短路径，且需要经过公共父亲。图3的例子｛motor,auto…｝和{truck…}的LCS是{wheeled vehicle}，因为{wheeled vehicle,…}是比普通的Sub-Sumer｛vehicle,…｝更具体。

路径长度给了计算两个词义关系的方法.有一些实际问题需要说明：

(a)来自于同一词性的两个Synset集合可能没有公共的Sub-Sumer。因为没有把每一个词性分类的所有不同最高节点连接在一起。在两个Synset集合中之间的路径不是一直都能发现的。但是如果唯一的根节点被使用，在两个Synset集合将一直存在一条路径。

(b)注意在WordNet中是允许多继承的；一些Synset集合属于多个分类。所以在两个Synset集合中有两种分类下可能有两条路径，本实施方式选择最短的路径。

(c)当在WordNet中查找一个单词时，词首先被词根化。因此“book”和”books”的距离为0，因为它们是同一个词，这种不同于在同一个Synset集合中的词，因为同一个词比在同一Synset集合中更相似。

(d)这个方法仅仅比较有同样词性的两个词义。这意味着不比较noun和verb，因为它们位于不同的分类。由于使用了词性标注器，需要按照词性标注结果考虑一个词，由于WordNet中只有四种词性（名词，动词，形容词，副词），而词性标注结果要比WordNet更加细致，所以使用最相近的词性来进行计算。

(e)如果WordNet没有这个词，本实施方式使用最大公共串匹配来计算。根据词的长度和公共串的长度来确定两个词的路径长度。

有许多方法来衡量两个Synset集合的语义相似性，经典的方法主要有两种：

(1)传统的衡量距离方法：

Sim(s,t)=1/Distance(s,t)

距离是节点计数从s到t的最短路径长度。但是这种方法没有考虑到最短公共祖先的深度，最短公共祖先的深度也会影响到两个Synset集合的语义相似性。

(2)基于公共父亲节点衡量距离的方法：是Wu&Palmer提出的方法，这个方法考虑了路径长度和LCS的深度：

Sim(s,t)=2*Depth(LCS)/（Depth(s)+Depth(t)）

这里s和t表示被比较的源和目标单词。Depth(s)表示s所在Synset分类中从根节点到节点s的距离，LCS表示s和t的最小公共Sub-Submer，经实验比对这种方法更好。

本实施方式步骤三中混淆网络的构建：

(e)中给定两个句子的最大匹配实例见图7，红线代表最终最大匹配的结果，黑线代表所有可能的匹配，每个单词斜杠后面是词性；

匹配（Matching）：是边集的子集（

E是边集），

（V是顶点集合）在M中最多有一个边；

可选路径(Alternating Path)：如果路径中边轮换的出现在M和E-M中；

增广路径(Augmenting Path)：如果可选路径的两个端点都是自由顶点f∈F（非匹配顶点）；

可选树(Alternating Tree)：是一棵根节点为某个自由顶点的树，且树中的每个路径都是可选路径；

可行标签（feasible labeling）：对于l(u)+l(v)≥w(u,v)；

关于可行标签l的等价图(Equality Graph)：是一个图G=(V,E_l),其中E_l={(x,y)|l(x)+l(y)=w(x,y)}；

顶点u和集合S的邻居（neighbor）：N_l(u)={v|(u,v)∈E_l},N_l(S)=∪_u∈SN_l(u)；

上面最大匹配结果形成了两个句子的相似度分数，有很多策略来获得两个句子的总相似度数值。本专利提出了两个新的公式来计算词义的语义相似度，对于每一个公式用一个适当的策略来计算总得分：

(1)DICE系数：2*(Ｘ∩Ｙ)/|X|+|Y|，这里(Ｘ∩Ｙ)是Ｘ和Ｙ匹配的词次。这个相似性是两个句子中所有匹配候选的相似度和除以词次的和。

(2)Tanimoto测度：其中a表示X和Y之间1-1匹配的个数，b表示0-1匹配的个数，c表示1-0匹配的个数。可以通过下面公式表示出来：

a = \underset{i}{Σ} X_{i} Y_{i}

b = \underset{i}{Σ} Y_{i} (1 - X_{i})

c = \underset{i}{Σ} X_{i} (1 - Y_{i})

其中X_i，Y_i表示句子X和Y第i个位置是否匹配上。如果两个都匹配上同时为1；如果有一个匹配上，匹配上句子的X_i（或Y_i）记为1；如果都没匹配上都记为0。经实验比对这种方法更好。

假设翻译和骨架翻译的对齐，例如有骨架翻译“I buy a autobike”和一个候选翻译“I buya perfect motorcycle”。使用传统的对齐方法，很容易产生错误的对齐，即没有把两个同义词motorcycle和autobike对齐。

本实施方式效果：

本实施方式比原有的单系统明显的提高了6个百分点的BLEU分数，特别是把多个不同的机器翻译进行融合在一起，互相提高性能，是机器翻译系统的实用化手段。随着并行化技术的发展，算法时间复杂度和空间复杂度都可以接受。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤一中采用改进后的Lesk算法进行词义消歧，确定每个词的词义具体为：

(1)选择一个语境：如果N很长，将在目标词的周围定义K个语境词；

(2)对于在选定语境下的每一个词，将先进行词性标注，列出这个词性的所有词义；前两个步骤见图4，其中方块括起来的部分为考虑语境的短语，对于两个句子中的member和committee计算词义：member的左侧语境长度为1，右侧语境长度为4；committee的左侧语境长度为1，只需要计算左侧语境。

(3)对于一个词的每个词义，访问下列关系：

(a)由WordNet提供的解释，包含实例项；

(b)Synset通过上位关系连接到的解释，如果一个词义有超过一个上位词，每个上位词的解释被连接成单个解释串；

(c)Synset通过下位关系连接到的解释；

(d)Synset通过整体关系连接到的解释；

(e)Synset通过局部关系连接到的解释；

(4)组合在第(3)步骤提供的所有可能解释对，通过搜索重叠来计算相关得分，当计算两个Synset集合c1和c2之间的关系时，syn-syn意味着两个同义词之间的解释作比较；hype-hype意味着c1的hypernym的解释可以和c2的hypernym的解释作比较；hype-hypo意味着c1的hypernym的解释和c2的hyponym的解释作比较；并通过得分函数Score计算匹配的词的个数，为了给重叠打分，使用新的打分机制；这是基于ZipF的定律，单词的长度通常是与它们的使用情况成反比的，长度越短的词使用次数的越多，越长的词恰恰相反，总得分为：

score_overall=∑_{c1,c2∈C;g∈G}score(g)。

(5)其中C是c1和c2的在所有解释对上的比较函数，G={syn-syn,hype-hype,hype-hypo,…}，即所有解释形成的集合，一旦每个组合被打分，选择有最高得分作为目标词在特定语境下目标词的最合适的意思，输出结果给出了消歧后的意思，见下面公式：

(s_{1}^{*}, s_{2}^{*}) = \arg \max (score_overall) .

其它步骤及参数与具体实施方式二相同。

具体实施方式四：本实施方式与具体实施方式二或三不同的是：所述步骤二中计算语义相似度具体为：

对于每一个公式应用一个适当的策略来计算总得分：

(1)DICE系数：2*(Ｘ∩Ｙ)/|X|+|Y|，这里(Ｘ∩Ｙ)是Ｘ和Ｙ匹配的词次；这个相似性是两个句子中所有匹配候选的相似度和除以词次的和；

(2)Tanimoto测度：

其中a表示X和Y之间1-1匹配的个数，b表示0-1匹配的个数，c表示1-0匹配的个数，可以通过下面公式表示出来：

a = \underset{i}{Σ} X_{i} Y_{i}

b = \underset{i}{Σ} Y_{i} (1 - X_{i})

c = \underset{i}{Σ} X_{i} (1 - Y_{i})

其中Xi，Yi表示句子X和Y第i个位置是否匹配上，如果两个都匹配上同时为1；如果有一个匹配上，匹配上句子的Xi（或Yi）记为1；如果都没匹配上都记为0。经实验比对这种方法更好。

其它步骤及参数与具体实施方式二或三相同。

具体实施方式五：本实施方式与具体实施方式二至四之一不同的是：步骤三(2)中改进TER算法伪代码见图11：

一、基于混淆网络的系统融合一般步骤为：

(1)从机器翻译系统中抽出N-best结果，一般上选择的N越大，结果越好；

(2)挑选出一个与其他翻译结果最相似的骨架翻译；

(3)把所有的假设翻译与骨架翻译进行对齐，以调整假设翻译的顺序；

(4)用重排序的翻译来建立混淆网络；

(5)使用句子级特征和词后验概率特征作为解码中的得分，来对混淆网络进行解码；

(6)用开发集来优化参数，为了使得训练更加可行，选择训练集中的一部分句子作为开发集，或是单独选出开发集，最终在测试集上进行解码；

二、解码过程中间采用的柱搜索剪枝；其中在整个算法中有一个关键步骤Find_Best_Shift（伪代码见图12）对于每种转移需要计算最小编辑距离；计算最小编辑距离的时间复杂度为O(N*M)，进行回溯的时间复杂度O(N+M)，空间复杂度为O(N*M)，其中N是参考翻译的长度，M为假设翻译的长度；

三、在构建混淆网络过程中，对于TER进行改进。给定两个字符串计算改进TER对齐结果，一个是参考字符串intention，另一个假设字符串execution，改进TER对齐的动态规划表见图13，最终的两个字符串的对齐结果见图14，其中M代表匹配，S代表替换，I代表插入，D代表删除。最后改进TER的得分可以计算为：

TER (E, E_{r}) = \frac{INS + DEL + SUB + SHIFT}{N_{r}}

N_r是参考译文的长度，与词错误率不同的是改进TER允许SHIFT操作，一系列词的转移计算代价为1，最小翻译编辑距离是可以通过柱搜索来实现。当有多个参考译文时，改进TER的得分为最接近参考译文的编辑距离除以这个参考译文的长度，多个参考翻译的通过累加编辑距离和平均参考译文的长度来得到，最好的改进TER得分为0，由于insertion操作，改进TER得分可能比1高。

其它步骤及参数与具体实施方式二至四之一相同。

具体实施方式六：本实施方式与具体实施方式二至五之一不同的是：步骤五中混淆网络解码具体为：

\log p (E_{j, n} | F_{j}) = Σ_{i = 1}^{N_{s}} \log (Σ_{l = 1}^{N_{j} - 1} λ_{l} p (w | l, i)) + vL (E_{j, n}) + μ N_{null} (E_{j, n}) + ξ N_{words} (E_{j, n})

其中ν是语言模型权重，而L(E_j,n)是语言模型log概率，N_words(E_j,n)是在句子E_j,n中词的个数，词的后验概率是p(w|l,i)第l系统在节点i到节点i+1的所有词进行归一化得到的结果。

其它步骤及参数与具体实施方式二至五之一相同。

具体实施方式七：本实施方式与具体实施方式二至六之一不同的是：把三种技术结合起来，其实现的伪代码见图15；其剪枝的过程的见图16，红色线代表最好的翻译结果；解码中采用了三种剪枝方法：

重合并方法：把具有同样翻译结果的翻译路径进行合并，只留下得分较高的翻译结果的路径，而把得分较低的排除到搜索路径以外；

柱状图剪枝：在搜索的每个栈中保留最好的N个结果，把其他的搜索路径剪枝掉，这种剪枝方法可以在多项式时间内完成搜索；

束搜索剪枝：将目前路径的最高得分除以某个大于1的阈值，在阈值以下的路径都将被丢弃，由于当前的最高得分不一定是最终得分最高得分；

把每个假设翻译的结果存在栈中，翻译结果的信息存储在翻译假设中，搜索过程也就是扩展假设翻译的过程，对于假设翻译的数据结构如下：

(1)回溯到父亲节点的指针；

(2)各项特征函数的得分；

(3)特征的总得分；

(4)未来的得分总得分；

(5)被再合并后的翻译路径得分；

(6)目前产生的翻译结果的后两个词。

Claims

1.一种使用词义消歧的融合机器翻译系统的装置，其特征在于使用词义消歧的融合机器翻译系统的装置包括预处理器，WordNet系统，词义和语义计算器，混淆网络训练器与解码器；

所述预处理器对翻译结果进行分词，过滤处理；词义和语义计算器使用WordNet系统和多个机器翻译的结果生成混淆网络；混淆网络的训练过程是一个迭代的过程，在训练的过程中需要用到语言模型；训练得到的特征权重被输入到解码器中，对于测试语料生成最终翻译结果，并进行测试输出得分。

2.应用权利要求1的使用词义消歧的融合机器翻译系统的方法，其特征在于一种使用词义消歧的融合机器翻译系统的方法包括以下步骤：

通过加入多种重叠打分机制对原Lesk算法进行改进，然后采用Lesk算法进行词义消歧，确定每个词的词义；其中所述对原Lesk算法进行改进具体为：

(1)在搜索过程的每个阶段，搜索器将限制左右各K和J个最有前景的候选，而K和J是根据当前词所在的短语进行确定的数；

(3)加入各种重叠打分以引入更多的相关信息；

二、使用词义和语义计算器对句子相似度进行计算：

(1)采用路径长度计算单词在句子中语义相似度；

(2)采用语义矩阵计算两个句子的语义相似度；

三、混淆网络的构建；

其中，所述计算句子相似度的流程如下：

(a)断词；

(b)对每个单词进行还原词根；

(c)词义消歧；

(d)将每一个词义对建立一个语义相关矩阵S[m,n]，S[i,j]表示在假设翻译X中位置i和在假设翻译Y中位置j最相似词义的语义相关度；因此S[i,j]也是从i到j边上的权重；如果字典中不存在这个词则使用编辑距离计算相似性，输出单词之间的编辑距离；

(e)把计算两个句子的句子相似度看成二分图的最大权匹配，其中句子X和Y是两个不相交的集合；使用Hungarian算法求最大加权的匹配；

(f)以上步骤的匹配结果形成了两个句子的相似度分数；

四、混淆网络的训练：混淆网络的训练采用传统的机器翻译MERT训练方法，使用混淆网络训练器进行迭代式训练，直到收敛为止；

五、混淆网络解码：使用解码器从混淆网络中解码出最好的翻译，采用经典自左向右的Beam-Search解码，完成混淆网络的解码，即完成一种使用词义消歧的融合机器翻译系统的方法。

3.根据权利要求2所述的一种使用词义消歧的融合机器翻译系统的方法，其特征在于所述步骤一中采用改进后的Lesk算法进行词义消歧，确定每个词的词义具体为：

(1)选择一个语境：在目标词的周围定义K个语境词；

(2)对于在选定语境下的每一个词，将先进行词性标注，列出这个词性的所有词义；

(3)对于一个词的每个词义，访问下列关系：

(a)由WordNet提供的解释，包含实例项；

(c)Synset通过下位关系连接到的解释；

(d)Synset通过整体关系连接到的解释；

(e)Synset通过局部关系连接到的解释；

(4)组合在第(3)步骤提供的所有可能解释对，通过搜索重叠来计算相关得分，当计算两个Synset集合c1和c2之间的关系时，syn-syn意味着两个同义词之间解释的比较；hype-hype意味着c1的hypernym的解释可以和c2的hypernym的解释作比较；hype-hypo意味着c1的hypernym的解释和c2的hyponym的解释作比较；并通过得分函数Score计算匹配词的个数，为了给重叠打分，使用新的打分机制，总得分为：

score_overall=∑_{c1,c2∈C;g∈G}score(g)

(5)其中C是c1和c2的在所有解释对上的比较函数，G={syn-syn,hype-hype,hype-hypo,…}，即所有解释形成的集合，一旦每个组合被打分，选择有最高得分作为目标词在特定语境下目标词的最合适意思，输出结果给出了消歧后的意思：

(s_{1}^{*}, s_{2}^{*}) = \arg \max (score_overall) .

4.根据权利要求3所述的一种使用词义消歧的融合机器翻译系统的方法，其特征在于所述步骤二中计算语义相似度具体为：

对于每一个公式应用一个适当的策略来计算总得分：

(2)Tanimoto测度：其中a表示X和Y之间1-1匹配的个数，b表示0-1匹配的个数，c表示1-0匹配的个数，可以通过下面公式表示出来：

a = \underset{i}{Σ} X_{i} Y_{i}

b = \underset{i}{Σ} Y_{i} (1 - X_{i})

c = \underset{i}{Σ} X_{i} (1 - Y_{i})

其中X_i，Y_i表示句子X和Y第i个位置是否匹配上，如果两个都匹配上同时为1；如果有一个匹配上，匹配上句子的X_i（或Y_i）记为1；如果都没匹配上都记为0。

5.根据权利要求4所述的一种使用词义消歧的融合机器翻译系统的方法，其特征在于步骤三(2)中改进TER算法具体为：

一、基于混淆网络的系统融合步骤为：

(1)从机器翻译系统中抽出N-best结果，选择的翻译结果数量N越大，结果越好；

(2)挑选出一个与其他翻译结果最相似的骨架翻译；

(4)用重排序的翻译来建立混淆网络；

(5)使用句子级特征和词后验概率特征作为解码的特征，来对混淆网络进行解码；

(6)用开发集来优化参数，为了使得训练更加可行，选择训练集中和非训练集中的一部分句子作为开发集，最终在测试集上进行解码；

二、解码过程中采用柱搜索的剪枝；其中整个算法中有一个关键步骤Find_Best_Shift对于每种转移需要计算最小编辑距离；计算最小编辑距离的时间复杂度为O(N*M)，进行回溯的时间复杂度O(N+M)，空间复杂度为O(N*M)，其中N是参考翻译的长度，M为假设翻译的长度；

三、在构建混淆网络过程中，对于TER进行改进；给定两个字符串计算改进TER对齐结果，改进TER得分计算为：

TER (E, E_{r}) = \frac{INS + DEL + SUB + SHIFT}{N_{r}}

N_r是参考译文的长度，与词错误率不同的是改进TER允许SHIFT操作，一系列词的转移计算代价为1。当有多个参考译文时，改进TER的得分为最接近参考译文的编辑距离除以这个参考译文的长度，多个参考翻译的通过累加编辑距离和平均参考译文的长度来得到，最好的改进TER得分为0，由于insertion操作，改进TER得分比1高。

6.根据权利要求5所述的一种使用词义消歧的融合机器翻译系统的方法，其特征在于所述步骤五中混淆网络解码具体为：

\log p (E_{j, n} | F_{j}) = Σ_{i = 1}^{N_{s}} \log (Σ_{l = 1}^{N_{j} - 1} λ_{l} p (w | l, i)) + vL (E_{j, n}) + μ N_{null} (E_{j, n}) + ξ N_{words} (E_{j, n})

其中ν是语言模型权重，而L(E_j,n)是语言模型log概率，N_words(E_j,n)是在句子E_j,n中的词的个数，词的后验概率是p(w|l,i)第l系统在节点i到节点i+1的所有词进行归一化得到的结果。

7.根据权利要求6所述的一种使用词义消歧的融合机器翻译系统的方法，其特征在于步骤五中解码采用了三种剪枝方法：

束搜索剪枝：将目前路径的最高得分除以某个大于1的阈值，在阈值以下的路径都将被丢弃，由于当前的最高得分不一定是最终得分中最高得分；

把每个翻译假设的结果存储在栈中，翻译结果的信息存储在翻译假设中，搜索的过程也就是扩展翻译假设的过程，对于翻译假设的数据结构如下：

(1)回溯到父亲节点的指针；

(2)各项特征函数的得分；

(3)特征的总得分；

(4)未来的总得分；

(5)被再合并后的翻译路径的得分；

(6)目前产生的翻译结果的后两个词。