CN103942192B

CN103942192B - 一种双语最大名词组块分离-融合的翻译方法

Info

Publication number: CN103942192B
Application number: CN201310593728.5A
Authority: CN
Inventors: 黄河燕; 史树敏; 李业刚
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-11-21
Filing date: 2013-11-21
Publication date: 2016-08-17
Anticipated expiration: 2033-11-21
Also published as: CN103942192A

Abstract

本发明公开了一种双语最大名词组块分离‑融合的翻译方法，属于计算机科学中的自然语言处理技术领域。在基于树的统计机器翻译模型的中引入了BMNCs分离‑融合翻译的思想，把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。本方法降低了翻译难度和翻译时间，提升了翻译准确率，尤其适合在即时翻译中针对较长句子的翻译。

Description

一种双语最大名词组块分离-融合的翻译方法

技术领域

本发明涉及一种双语最大名词组块分离-融合的翻译方法，尤其适用于较长句子的翻译，属于计算机科学中的自然语言处理(NLP)技术领域。

背景技术

最大名词短语(MNP)是指不被其他任何名词短语所包含的名词短语。从句法功能上来看，MNP一般出现在句子的主语或宾语的位置，如果能够很好地识别出句子中所有的MNP，就可以很方便地把握句子的整体结构框架。作为一项重要的应用基础研究，MNP的自动识别与分析对于自然语言处理领域中的许多应用研究，包括句法分析、信息检索、信息抽取、机器翻译等，都具有重要的实践意义。

在计算机语言处理技术领域中，不同语言之间的机器翻译问题本质上还是语言问题，所以机器翻译问题的最终解决也必须依靠语言学知识的运用。语言学知识一般指的是源或目的语言的句法分析结构。典型的基于语言学语法的统计翻译模型是基于树的统计翻译机器翻译模型，指的是在汉语端，或者英语端，或者两端同时利用语言学意义上的句法结构，是统计机器翻译的一种新趋势。

目前，研究人员对MNP和基于树的统计翻译都进行了大量的研究，但是仍然存在诸多的问题。

第一，在基于树的统计机器翻译中，句法分析错误会传递到翻译解码节点，使得翻译准确率严重下降，中文句法分析不尽人意。因此，句法分析问题成为基于树的统计机器翻译的瓶颈。

第二，在基于树的统计翻译模型中，翻译解码时间加上汉语句法分析的时间，其时间复杂度是句子长度的三次方。随着句子的长度增加，翻译时间将明显增长，这对在线翻译的影响显而易见。所以，长句子的翻译一直是个难点。

第三，目前对汉英MNP的识别研究较多，但是由于汉英的语言差异比较大，MNP在机器翻译中的一直没有得到广泛的应用。

发明内容

本发明的目的是为了克服已有技术的缺陷，针对现有基于树的统计机器翻译模型在翻译质量和翻译实时性上的不足，通过定义一种比现有的MNP更具有应用性的双语最大名词组块(BMNC)，并在此基础上提出一种双语最大名词组块分离-融合的翻译方法。

本发明方法的基本原理是：采用一种分而治之的翻译策略，把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。首先，对待翻译的句子进行BMNC识别，把所有BMNC抽取出来组成BMNC集合(用BMNCs表示)；在原来的句子中，用BMNC的中心词的词性来代替BMNC整体，形成句子骨架。然后，对BMNCs和句子骨架分别进行句法分析。利用BMNC翻译模型翻译BMNC，得到英语BMNCs的n-best输出；利用句子骨架翻译模型翻译句子骨架得到英语句子骨架的n-best输出。最后，融合英语BMNCs和句子骨架，形成最后的翻译结果。

所述BMNC，是指具备双语一致性的MNP。在双语句对中，汉英MNP会存在不完全对译的情况。BMNC不仅是一个完整的句法单元和语义单元，在句子中有稳定的外部修饰结构，还具备双语可互译性和双语识别的一致性。在单语中它可能被其它名词短语包含，但是它不能被可互译的其它名词短语包含。

具体地，本发明方法包括以下步骤：

步骤一、对待翻译的句子进行BMNC识别，并将所有BMNC抽取出来组成BMNC集合；同时，在原来的句子中用BMNC的中心词的词性来代替BMNC整体，形成句子骨架。

首先，从句法树库中随机抽取2000句，提取BMNC并标注其中心词，作为训练语料。通过机器学习的方法，训练BMNC及其中心词的识别模型。然后，利用识别模型，对待翻译的句子进行BMNC及其中心词识别标注，提取句子中所有BMNC并组成BMNC集合——BMNCs，同时，将句子中的BMNC用其中心词词性代替形成句子骨架。

所述识别模型可选用条件随机域模型(CRF)或者支持向量机(SVM)。

所述句法树库可选用宾州句法树库或者清华大学句法树库等。

步骤二、建立BMNC和句子骨架的翻译模型，翻译经步骤一得到的BMNCs和句子骨架。

为了翻译步骤一中得到的BMNCs和句子骨架，首先训练BMNC和句子骨架的翻译模型。其流程如图2所示，具体如下：

在句子级别对齐的语料中抽取对齐的BMNC，建立BMNC平行语料库。首先，分别对汉英句子进行BMNC粗识别，然后对BMNC进行识别对齐修正，最后通过一个贪心算法，得到句对最优的BMNC对集合。

平行语料中提取到的所有BMNC对构成了BMNC平行语料；把每个句子中的BMNC用对应的中心词的词性代替，组成句子骨架平行语料。由此将句子级对齐的平行语料分解为BMNC平行语料和句子骨架平行语料，并在这两个语料上分别训练BMNC翻译模型和句子骨架翻译模型。

利用上述BMNC翻译模型，对步骤一得到的BMNCs进行翻译，得到英语BMNCs的n-best输出；利用句子骨架翻译模型翻译待翻译句子的句子骨架，得到句子骨架的英语n-best输出。

所述n-best是指最优的前n个结果。

步骤三、融合英语的BMNCs和句子骨架，形成翻译结果。

把经步骤二得到的英语端BMNCs的n-best输出和英语端句子骨架的n-best输出进行交叉组合，产生待翻译句子的一系列翻译候选。利用线性加权模型，融合n-gram特征和句子长度惩罚特征为每个翻译候选打分，把翻译任务转换为一个排序任务，选取得分最高的翻译假设作为最优句子翻译结果。

所述n-gram是指n元语法模型。

有益效果

本发明通过在基于树的统计机器翻译模型的中引入了BMNCs分离-融合翻译的思想，把整句翻译任务分解为，BMNCs翻译和句子骨架翻译两个独立的任务，降低了翻译难度和翻译时间。本方法对比现有技术，BMNCs分离-融合翻译减低了最大名词组块对句子翻译的负面影响，降低了句子的结构复杂度，从而句法分析错误传递到翻译解码节点的几率减少，使得翻译准确率得到提升。用中心词的词性来代替BMNC整体，使句子的平均长度降低一半左右，而且剔除了部分底层的结构歧义，给句法分析带来了极大的便利，也使得基于语言学语法的翻译模型能更好地发挥它长距离调序的优势。另外，句子长度的缩短，减小了翻译搜索空间，降低了翻译算法的复杂度，降低了翻译时间。本发明尤其适合在即时翻译中针对较长句子的翻译。

附图说明

图1为本发明方法中BMNCs分离-融合翻译方法示意图；

图2为本发明方法中BMNC翻译模型和句子Skeleton翻译模型的训练过程流程示意图；

具体实施方式

下面结合附图和实例对本发明的具体实施方式做进一步详细说明。

一种双语最大名词组块分离翻译的统计机器翻译模型，包括以下步骤：

步骤一、识别待翻译句子的BMNC及其中心词。首先，采用机器学习的方法训练一个标注模型，对待翻译的句子进行BMNC及其中心词标注。

在双语句对中，汉英最大名词短语(MNP)会存在不完全对译的情况，例如：

【上海浦东开发与法制建设】同步【The development of Shanghai'sPudong】is in step with【the establishment of its legal system】。汉语端将【上海浦东开发与法制建设】识别为一个最大名词短语，而在英语端则被拆分为【Thedevelopment of Shanghai's Pudong】和【the establishment of its legal system】两个不连续的名词短语。

针对汉英语言的特点，定义一个面向机器翻译的实际需要的双语最大名词组块BMNC概念，它不仅是一个完整的句法单元和语义单元，在句子中有稳定的外部修饰结构，还具备双语可互译性和双语识别的一致性。在单语中，它可能被其它名词短语包含，但是它不能被可互译的其它名词短语包含。汉英BMNC形式化定义如下：

对于句对SP＝<S,T>，S表示汉语词序列S:ws₁ws₂…ws_ns，T表示英语词序列T:wt₁wt₂…wt_nt；其中ns和nt分别表示S和T的长度。若存在＜MNCc,MNCe＞，并且满足下列条件时，称＜MNCc,MNCe＞为汉英BMNC：{＜MNCc,MNCe＞|MNCc＝ws₀,ws₁,…,ws_m,MNCe＝wt₀,wt₁,…,wt_n；m＜ns,n＜nt}

(1)非空性。MNCc≠null,MNCe≠null

(2)互译性。MNCe和MNCc具有翻译上的转换充分性。

(3)代表性。MNCc和MNCe的语义核心由一个或多个名词组成,该语义核心的成分特征决定了整个BMNC短语结构的特征。

(4)最大性：不存在另外一个且满足

根据定义，对于标注语料，汉语端将【上海浦东开发与法制建设】识别为一个BMNC，而在英语端则被拆分为【The development of Shanghai'sPudong】和【the establishment of its legal system】两个不连续的BMNC的情况。把汉语BMNC【上海浦东开发与法制建设】切分为【上海浦东开发】(对应英语BMNC【The development of Shanghai's Pudong】)和【法制建设】(对应英语BMNC【the establishment of its legal system】)两个BMNC，从而形成双语对齐的BMNC。而对于汉英不匹配的少数MNP，不做BMNC标注。

在标注好的语料上训练BMNC识别及其中心词的统计模型。标注模型选择在小样本空间上有良好表现的SVM。标注采用了BIO标记集合，共包含BS、BH、IH、IS、O共5种标记，其中的S表示BMNC的开始位置，I表示BMNC的其它位置，O表示非BMNC组成，H表示BMNC中心词，S表示非BMNC中心词。特征选用词和词性，特征窗口9，即除了本词外，考虑前后各4个词。标注实例：

上海/BS浦东/IS开发/IH与/O法制/BS建设/IH同步/O

统计机器翻译需要预先训练翻译模型，流程如图2所示。训练BMNCs统计机器翻译模型，需要BMNCs平行语料库；训练句子骨架统计机器翻译模型，需要句子骨架平行语料库。此处，通过将平行语料中所有的BMNC对取出，形成BMNC统计翻译模型的训练集；将平行语料中BMNC用其中心词词性代替，形成句子骨架的统计翻译模型的训练集。

获取BMNC对需要进行BMNC对齐，从识别的角度上，双语语块对齐方法可以分为两大类。一类是识别单语实体后再对齐，只识别出汉语语块，然后在英语中确定它们的翻译对应。这样可以降低对齐过程对识别结果的依赖程度，但是这类对齐方法丢失了英语语块的识别信息。另一类是识别双语语块后再对齐，分别在汉语和英语中识别出语块，然后再建立它们之间的对齐关系。在这种方法中，对齐直接采用识别结果，识别的错误没有经过修正，直接延续到对齐过程中，对齐性能将无法从根本上提高。本方法中，针对汉英平行语料，融合BMNC识别与对齐，采取一种汉英BMNC一体化交互式识别对齐方法，使对齐具有修正识别的功能，实现二者性能的同时提高，具体如下：

首先，在2000句标注好的汉英双语语料上训练两个初始BMNC识别模型，利用识别模型分别对汉英平行语料进行BMNC粗识别，产生汉语端句子的BMNC集合英语端句子的BMNC集合

然后，将汉英双语句对中的BMNC两两组合，即m_k(MNCc_i,MNCe_j),i∈[1,s],j∈[1,t]是其一个BMNC对，即m_k∈M，M就是粗对齐的候选集合。因为BMNC具备互译性，所以BMNC之间存在的相互对译的词越多,则它们是对齐BMNC的可能性越大。所以，以BMNC内部词对齐的比率作为粗对齐的置信度。粗对齐置信度的计算如公式(1)所示。

Align_Conf ({MNCc}_{i}, {MNCe}_{j}) = \frac{count ({MNCc}_{i}, {MNCe}_{j})}{\max (count ({MNCc}_{i}), count ({MNCe}_{j}))} - - - (1)

公式(1)中，count(MNCc_i,MNCe_j)表示

MNCc_i和MNCe_j之间对齐的词数，count(MNCc_i)、count(MNCe_j)分别表示MNCc_i和MNCe_j中包含的词的数目；分别表示MNCc_i和MNCe_j中包含的词的数目。

之后，依据每对BMNC的内部对齐置信度，采用一个贪心过程来生成汉英句对中最优BMNC粗对齐，具体方法如下：

对粗实别对齐的结果集合，通过词投射，粗识别的BMNC区域和投射BMNC区域融合形成一个候选区域，从而扩展出更多的BMNC可能识别结果。假定

r_{k} = ({MNCc}_{c 1}^{c 2}, {MNCe}_{a 1}^{a 2}) &Element; R, 1 \leq k \leq K,

即英语端的和汉语是句对中的第K个粗识别对齐BMNC对。表示通过词对齐投射在英语端的投射区域。表示通过词对齐投射在汉语端的投射区域。英语端最小BMNC候选区域英语端最大BMNC候选区域汉语端最小BMNC候选区域汉语端最大BMNC候选区域

在汉英两端分别建立一个滑动窗，从最小BMNC候选区域出发，不断向句子中任意一侧扩充词，直至达到最大BMNC候选区域边界为止，建立一系列汉英BMNC假设。通过候选区域中汉英BMNC假设的两两组合，得到粗对齐

r_{k} = ({MNCc}_{c 1}^{c 2}, {MNCe}_{a 1}^{a 2})

的双语扩展BMNC假设集合

H_{k} = (MNC \tilde{c}, MNC \tilde{e}) .

利用表示汉英句子粗识别对齐扩展后形成的双语扩展BMNC假设集合。假定汉语和英语BMNC识别相互独立，最优的BMNC识别对齐结果就是单语BMNC(单语置信度最高)和双语对齐(双语置信度最高)一致最优的双语扩展BMNC假设。

BMNC的单语置信度的计算公式如公式2所示：

P = (MNCx | MNC \tilde{x}, S) \approx P (MNCxl {| MNC \tilde{x}}_{a}^{b}, S) P (MNCxr | MNC {\tilde{x}}_{a}^{b}, S) (2)

其中，

P (MNCxl | MNC {\tilde{x}}_{a}^{b}, S) = \max (\frac{count (t_{i}, t_{i + 1}, lw)}{count (lw)}, \frac{count (t_{i - 1}, t_{i}, lw)}{count (lw)})

P (MNCxr | MNC {\tilde{x}}_{a}^{b}, S) = \max (\frac{count (t_{i}, t_{i + 1}, rw)}{count (rw)}, \frac{count (t_{i - 1}, t_{i}, rw)}{count (rw)})

t_i,t_i-1,t_i+1分别表示边界词w_i的词性，边界词w_i前一个词的词性和边界词w_i的后一个词的词性；count(*,*,*)表示语料库中BMNC边界词w_i及前一个词或者后一个词的词性组合出现的次数；而count(rw_i)和count(lw_i)分别表示左边界和右边界在语料库中出现的次数。

对于BMNC的双语对齐置信度构造一组特征函数,利用最大熵模型进行建模。采用3个特征来对双语对齐置信度进行建模，分别为：词性组合共现特征、互为翻译特征以及长度关联特征。

把扩展对齐BMNC假设集合

H_{k} = (MNC \tilde{c}, MNC \tilde{e})

中的每个假设的分值表示为公式(3)的形式：

\begin{matrix} score (h_{i}) = \log (P (h_{i} | MNC \tilde{c}, MNC \tilde{e}, CS, ES)) + \\ ξ \log (P (MNCe | MNC \tilde{e}, ES)) + ζ \log (P (MNCc | MNC \tilde{c}, CS)) \end{matrix} - - - (3)

其中，

ξ = \frac{len (h_{i} . MNC \tilde{e})}{\max_{j = 1}^{count (H_{k})} (len (h_{j} . MNC \tilde{e}))}

是英语短BMNC的长度惩罚因子，count(H_k)表示H_k中BMNC对的个数，len(*)表示BMNC假设对中单语端BMNC包含的词数；

ζ = \frac{len (h_{i} . MNC \tilde{c})}{\max_{j = 1}^{count (H_{k})} (len (h_{j} . MNC \tilde{c}))}

是汉语短BMNC的长度惩罚因子。

最后，通过一个贪心搜索，得到句对最优的BMNC对集合。把句子中的BMNC用其对应的中心词代替，形成句子骨架。但是，汉语词和英语单词并不是一一对齐的，存在一对多，多对一的情况。也就是说中心词会存在不完全互译的情况，这就会造成形成的句子骨架并不是充分互译的。例如：

新区/n BS管委会/n IH

the/DT BS new/JJ IS region/NN IS's/POS IS management/NN IScommittee/NN IH

汉语端BMNC的中心词“管委会”对应的英语翻译是“managementcommittee”，而不只是英语端的BMNC中心词“committee”，如果只是用中心词BMNC，就会形成两个并不是完全互译的英汉句子骨架，给后续的翻译带来衍生错误。为了避免这样的错误，采用中心词词性代替原来的中心词。把句子级对齐的平行语料，分解为BMNC平行语料和句子骨架平行语料两个语料集合，并在这两个平行语料上分别训练基于树的BMNC统计机器翻译模型和句子骨架统计机器翻译模型。

对于给定的待翻译的句子，利用步骤一中的方法识别出所有的BMNC，并通过BMNC翻译模型进行翻译，得到英语BMNC的n-best输出。把待翻译句子中的BMNC用其中心词的词性代替，并通过句子骨架翻译模型进行翻译，得到英语句子骨架的n-best输出。

步骤三、英语的BMNCs和句子骨架融合，形成翻译结果。

把通过步骤二得到的英语的BMNC集合和英语句子的骨架各自的n-best输出进行交叉组合，产生一系列句子翻译假设；利用重打分策略，对每一个翻译假设进行打分。重打分策略通过高阶n-gram语法模型(通常取4元或者5元语言模型)及句子长度惩罚进行线性加权联合求取。把翻译任务转换为一个排序任务，选取分值最高的组合作为最优的句子翻译。翻译假设的分值计算如公式(8)所示。

E_{j} = {vL}_{j}^{4 | 5 - grams} + μ W_{j} - - - (8)

其中，ν和μ分别是高阶语言模型和句子长度惩罚的权重，它们的值可以在开发集上进行优化调整，w表示句子长度。

Claims

1.一种双语最大名词组块分离-融合的翻译方法，其特征在于包括以下步骤：

步骤一、对待翻译的句子进行BMNC识别，并将所有BMNC抽取出来组成BMNC集合；同时，在原来的句子中用BMNC的中心词的词性来代替BMNC整体，形成句子骨架；具体过程如下：

首先，定义一个面向机器翻译的实际需要的双语最大名词组块BMNC概念，它不仅是一个完整的句法单元和语义单元，在句子中有稳定的外部修饰结构，还具备双语可互译性和双语识别的一致性；在单语中，它可能被其它名词短语包含，但是它不能被可互译的其它名词短语包含；

从句法树库中随机抽取2000句，提取BMNC并标注其中心词，作为训练语料；通过机器学习的方法，训练BMNC及其中心词的识别模型；

然后，利用识别模型，对待翻译的句子进行BMNC及其中心词识别标注，提取句子中所有BMNC并组成BMNC集合——BMNCs，同时，将句子中的BMNC用其中心词词性代替形成句子骨架；

步骤二、建立BMNC和句子骨架的翻译模型，翻译经步骤一得到的BMNCs和句子骨架；

为翻译步骤一中得到的BMNCs和句子骨架，首先训练BMNC和句子骨架的翻译模型，其流程具体如下：在句子级别对齐的语料中抽取对齐的BMNC，建立BMNC平行语料库；首先，分别对汉英句子进行BMNC粗识别，然后对BMNC进行识别对齐修正，最后通过一个贪心搜索，得到句对最优的BMNC对集合；

平行语料中提取到的所有BMNC对构成了BMNC平行语料；把每个句子中的BMNC用对应的中心词的词性代替，组成句子骨架平行语料，由此将句子级对齐的平行语料分解为BMNC平行语料和句子骨架平行语料，并在这两个语料上分别训练BMNC翻译模型和句子骨架翻译模型；

利用上述BMNC翻译模型，对步骤一得到的BMNCs进行翻译，得到英语BMNCs的n-best输出；利用句子骨架翻译模型翻译待翻译句子的句子骨架，得到句子骨架的英语n-best输出；所述n-best是指最优的前n个结果；

步骤三、融合英语的BMNCs和句子骨架，形成翻译结果；

把经步骤二得到的英语端BMNCs的n-best输出和英语端句子骨架的n-best输出进行交叉组合，产生待翻译句子的一系列翻译候选；利用线性加权模型，融合n-gram特征和句子长度惩罚特征为每个翻译候选打分，把翻译任务转换为一个排序任务，选取得分最高的翻译假设作为最优句子翻译结果；所述n-gram是指n元语法模型。

2.如权利要求1所述的一种双语最大名词组块分离-融合的翻译方法，其特征在于，所述步骤二中，对BMNC进行识别对齐修正，采取一种汉英BMNC一体化交互式识别对齐方法，具体如下：

然后，将汉英双语句对中的BMNC两两组合，即m_k(MNCc_i,MNCe_j),i∈[1,s],j∈[1,t]是其一个BMNC对，即m_k∈M，M就是粗对齐的候选集合；以BMNC内部词对齐的比率作为粗对齐的置信度；粗对齐置信度的计算如公式(1)所示：

A l i g n_C o n f ({MNCc}_{i}, {MNCe}_{j}) = \frac{c o u n t ({MNCc}_{i}, {MNCe}_{j})}{m a x (c o u n t ({MNCc}_{i}), c o u n t ({MNCe}_{j}))} - - - (1)

其中，count(MNCc_i,MNCe_j)表示和MNCe_j之间对齐的词数，count(MNCc_i,MNCe_j)分别表示MNCc_i和MNCe_j中包含的词的数目；

对粗实别对齐的结果集合，通过词投射，粗识别的BMNC区域和投射BMNC区域融合形成一个候选区域，从而扩展出更多的BMNC可能识别结果；假定即英语端的和汉语是句对中的第K个粗识别对齐BMNC对；表示通过词对齐投射在英语端的投射区域；表示通过词对齐投射在汉语端的投射区域；英语端最小BMNC候选区域英语端最大BMNC候选区域汉语端最小BMNC候选区域汉语端最大BMNC候选区域

在汉英两端分别建立一个滑动窗，从最小BMNC候选区域出发，不断向句子中任意一侧扩充词，直至达到最大BMNC候选区域边界为止，建立一系列汉英BMNC假设；通过候选区域中汉英BMNC假设的两两组合，得到粗对齐的双语扩展BMNC假设集合

利用表示汉英句子粗识别对齐扩展后形成的双语扩展BMNC假设集合；假定汉语和英语BMNC识别相互独立，最优的BMNC识别对齐结果就是单语BMNC和双语对齐一致最优的双语扩展BMNC假设；

BMNC的单语置信度的计算公式如下所示：

P (M N C x | M N C \tilde{x}, S) \approx P (M N C x l | M N C {\tilde{x}}_{a}^{b}, S) P (M N C x r | M N C {\tilde{x}}_{a}^{b}, S) - - - (2)

其中，

P (M N C x l | M N C {\tilde{x}}_{a}^{b}, S) = \max (\frac{c o u n t (t_{i}, t_{i + 1}, l w)}{c o u n t (l w)}, \frac{c o u n t (t_{i - 1}, t_{i}, l w)}{c o u n t (l w)})

P (M N C x r | M N C {\tilde{x}}_{a}^{b}, S) = \max (\frac{c o u n t (t_{i}, t_{i + 1}, r w)}{c o u n t (r w)}, \frac{c o u n t (t_{i - 1}, t_{i}, r w)}{c o u n t (r w)})

t_i,t_i-1,t_i+1分别表示边界词w_i的词性，边界词w_i前一个词的词性和边界词w_i的后一个词的词性；count(*,*,*)表示语料库中BMNC边界词w_i及前一个词或者后一个词的词性组合出现的次数；count(rw_i)和count(lw_i)分别表示左边界和右边界在语料库中出现的次数；

对于BMNC的双语对齐置信度P(A|MNCc～,MNCe～,CS,ES)，构造一组特征函数，利用最大熵模型进行建模；采用3个特征来对双语对齐置信度进行建模，分别为：词性组合共现特征、互为翻译特征以及长度关联特征；

把扩展对齐BMNC假设集合中的每个假设的分值表示为公式(3)的形式：

\begin{matrix} s c o r e (h_{i}) = l o g (P (h_{i} | M N C \tilde{c}, M N C \tilde{e}, C S, E S)) + \\ ξ \log (P (M N C e | M N C \tilde{e}, E S)) + ζ \log (P (M N C c | M N C \tilde{c}, C S)) \end{matrix} - - - (3)

其中，是英语短BMNC的长度惩罚因子，count(H_k)表示H_k中BMNC对的个数，len(*)表示BMNC假设对中单语端BMNC包含的词数；是汉语短BMNC的长度惩罚因子。

3.如权利要求1所述的一种双语最大名词组块分离-融合的翻译方法，其特征在于，所述步骤三中翻译假设的分值计算如下：

E_{j} = {vL}_{j}^{4 | 5 - g r a m s} + {μW}_{j}

其中，ν和μ分别是高阶语言模型和句子长度W_j惩罚的权重，它们的值在开发集上进行优化调整。