CN101482860A

CN101482860A - 一种汉英短语翻译对自动抽取与过滤方法

Info

Publication number: CN101482860A
Application number: CNA2008100557823A
Authority: CN
Inventors: 宗成庆; 周玉
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2008-01-09
Filing date: 2008-01-09
Publication date: 2009-07-15
Anticipated expiration: 2028-01-09
Also published as: CN101482860B

Abstract

本发明汉英短语翻译对自动抽取与过滤方法，是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息；根据不同的特征信息确定划分语块锚点，将原始汉、英句对划分为多个单语语块；利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取；利用候选短语的出现频率的特征信息来对生成的候选短语过滤，生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法，对于空词的无限制扩展尤其有用，从而有效的解决了目前短语抽取量过大对于存储空间的要求，并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语，从而在满足精度的前提下提高了短语对的召回率。

Description

一种汉英短语翻译对自动抽取与过滤方法

技术领域

本发明属于自然语言处理领域，特别涉及统计机器翻译、跨语言信息检索和双语短语自动抽取与过滤的方法。

背景技术

随着全球化信息时代的到来，如何克服语言障碍显得越来越严重，利用计算机实现不同语言之间的自动翻译，成为全人类面临的共同问题。目前在机器翻译研究中统计方法占据着主导地位，而统计方法中又以基于短语的翻译模型较为成熟。基于短语统计机器翻译方法的基本思想就是以短语作为翻译的基本单元。因为短语内部隐含了译文词语的选择和词序的调整信息，所以能够较好的解决局部上下文依赖问题，在近期的机器翻译评测中基于短语的翻译模型屡次获得领先成绩，这标志着该模型已成为统计机器翻译的主流。无疑短语抽取是基于短语的翻译系统最核心的模块，短语对质量的好坏决定了最后机器翻译质量。

目前国际上现有的短语抽取方法很多，最成熟流行的方法就是奥赫(Och)的抽取方法以及后来蒋伟(David Chiang)在奥赫(Och)思想上的提出的改进分层短语方法，该方法简单可行，仅仅只需要利用词对齐，所以后来得到了广泛的应用，也取得了不错的效果。但是，无论是奥赫的方法还是蒋伟的方法都只能抽取出与词对齐完全相容的源短语和目标短语。实际上，要求短语对完全与词对齐相容的抽取条件过于苛刻，而且会导致词对齐错误的蔓延。而且该方法存在的另一个很棘手的问题就是随着语料规模的扩大，抽取的短语对会剧增，这样无疑为后面的解码带来太大的负担，而且本身短语的存储空间太大也是一个问题。所以，短语的过滤成了一个亟需解决的问题，目前的方法也就是通过引入句法知识来对其进行一定的约束从而控制其数量的暴增。而我们很清楚的知道，首先句法树生成本身的正确率就是个问题，其次句法树的约束过于严格从而无法满足召回率的要求，所以在绝大多数句法系统中，实际上保留了所有的短语对，仅仅利用句法知识来提供重排序(reordering)的信息。

发明内容

为了解决现有技术处理上述短语抽取存在的问题，本发明提出一种简单有效的汉英短语翻译对自动抽取与过滤方法。本发明的目的是通过对当前汉英句对进行语块划分，通过语块内部的短语抽取来取代现有方法的整句短语抽取，从而抑制现有方法无限制扩展空词的弱点，并且该发明能够根据当前句对的词对齐生成多层次短语，打破传统的根据固定词对齐只可能生成该种词对齐下固定模式的一种短语对，同时本发明不需要利用句法知识来对生成的短语对进行过滤，而是利用简单的单语候选短语出现频率来进行启发过滤。

为了实现所述的目的，本发明提供的汉英短语翻译对自动抽取与过滤方法，其自动抽取与过滤的步骤包括：

步骤1：对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息；

步骤2：根据不同的特征信息确定划分语块锚点，将原始汉、英句对划分为多个单语语块；

步骤3：利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取；

步骤4：利用候选短语的出现频率的特征信息来对生成的候选短语进一步过滤，生成需要的短语对；

根据本发明的实施例，步骤1所述提取多个划分语块的特征，是两个相邻单语单词间的互信息特征、双语单词间的互信息特征、t-检验(t-test)特征、x²检验特征、Dice系数特征；并提取过滤候选短语的特征，这些特征是单语候选短语本身包含信息的出现频率特征，或是双语候选短语本身包含信息的联合出现概率；这些特征包括：单语候选短语的出现频率特征，双语候选短语的联合出现概率特征、单语候选短语词性出现系列频率特征、单语候选短语词类出现系列频率特征、双语候选短语词性系列的联合出现概率特征、双语候选短语词类系列的联合出现概率特征。

根据本发明的实施例，步骤2所述确定划分锚点信息的步骤包括：

步骤21：分别利用相邻两个汉语或英语单词之间的互信息来分别对汉、英句子进行单语语块的划分；相邻单词间的互信息比较了这两个单词的联合概率与这两个单词的独立概率：

如果两个单词间存在较强的邻接关系，其联合概率将远远大于独立概率，从而互信息远远大于0；

如果不存在较强的邻接这种关系，则两个单词的联合概率和两个单词的独立概率基本相等，即互信息约等于0；

如果以互补出现，则互信息远远小于0，利用两个单词之间的互信息在一定程度上反映这两个单词的联系紧密性，选择相邻词的互信息来作为划分锚点的依据；

步骤22：确定划分锚点：首先计算出当前汉英句子所有单语相邻两个单词间的互信息，然后找到那些互信息为负数的点的个数；如果互信息为负数的点的个数大于设定的阈值，则利用互信息为负数的点的位置作为初始划分锚点，并给出该点的标记，否则选择最小的几个点作为划分锚点，这最小的几个点的个数就是设定的阈值；设定阈值为句子长度除以最大短语长度；

步骤23：所述最大短语长度是与用奥赫(Och)方法抽取短语的最大短语长度保持一致，用于与奥赫抽取方法进行对比的公正性，设定相同的最大短语长度。

根据本发明的实施例，步骤3所述根据词对齐信息在语块内进行候选短语的抽取的步骤包括：

步骤31：针对当前汉英句对，结合汉英句对在GIZA++工具包下生成的词对齐，利用生成的划分锚点信息确定划分点，然后利用划分点作为抽取候选短语的初始或终止点，具体操作是：找到第一个划分锚点的位置，确定汉语或英语第一个语块，遍历汉语或英语的第一个语块下所有的候选短语，结合词对齐信息，根据奥赫短语抽取方法进行遍历该语块内部的所有候选短语对抽取；

步骤32：执行完第一个语块后，重复步骤31执行下一个语块的候选短语对的抽取，直至处理完原始句子包含的所有划分语块；

步骤33：最后组合所有语块的候选短语，生成该原始句对的所有候选短语对。

根据本发明的实施例，步骤3所述根据词对齐信息在语块内进行候选短语的抽取的步骤还包括：

根据不同方向的限制条件生成三组不同的短语为：汉语方向在语块内遍历短语、英语方向在语块内遍历短语和双方向都只能在语块内遍历短语；三组不同的短语呈现互补趋势，对产生的短语对以更高的权重，用于计算短语对概率打分时给予权重高的短语以更高的概率打分，在解码的时提高此类短语的位置，用于得到更好的翻译结果。

根据本发明的实施例，步骤4所述根据利用额外的特征对生成的候选短语进行过滤的步骤包括：

步骤41：利用额外的特征对生成的候选短语进行进一步的过滤，利用单语候选短语的出现频率进行约束，或利用更多的特征来进行约束过滤；

步骤42：利用单语候选短语的出现频率来进一步过滤时采用的启发函数，或逐步加入更细化的特征信息来设计启发函数；利用候选短语的出现次数来启发就是：如果候选短语的出现次数大于设定的阈值也就是短语最少出现次数，则舍弃不用；如果是新闻领域，对那些出现次数为1的单个词短语进行了召回，用于新闻领域语料的多变性及新词系列。

根据本发明的实施例，所述通过限制三个方向的候选短语出现频率而生成三组不同的短语对，只对汉语单语方向的短语对抽取进行约束过滤，只对英语单语方向的短语对抽取进行过滤和同时对汉英双向进行约束过滤，最后同时组合生成的这三组短语作为最终的短语列表。

本发明的积极效果：本发明最大短语长度与用奥赫方法抽取短语的最大短语长度保持一致，目的是为了更大可能的保存长短语信息的情况下还不浪费存储空间，而且对比平等。

本发明组合所有语块的候选短语，生成该原始句对的所有候选短语对，这样做的好处就是：利用遍历语块内的源语言短语抽取来取代奥赫方法遍历整句源语言进行抽取短语的方法，从而大大减少了噪音短语的出现几率，由于对于空词的无限制扩展很有用，从而有效的解决了目前短语抽取量过大对于存储空间的要求。

对于现有技术公开的抽取短语方法，对于同一种词对齐利用同种抽取方法只可能生成一组短语，因为现有技术的方法对于汉英两个方向生成的短语集合是完全一致的，而本发明可以根据不同方向的限制条件生成三组不同的短语，即分别限制：汉语方向在语块内遍历短语、英语方向在语块内遍历短语和双方向都只能在语块内遍历短语。这三组不同的短语不仅能够呈现互补趋势，更重要的是能够给予那些在三种情况下都能产生的短语对以更高的权重，从而在计算短语对概率打分的时候给予那些更好的短语以更高的概率打分，从而让解码的时候能够更突出的提高此类短语的位置，从而得到更好的翻译效果。

本发明可以利用额外的特征对生成的候选短语进行进一步的过滤，这里我们只利用了单语候选短语的出现频率进行约束，当然我们也可以利用更多的特征来进行约束过滤，是否利用更多的特征依赖于当前的训练语料的性质，也就是说要根据具体的训练语料的不同来进行不同特征的选择和调整。

本发明仅仅利用候选短语的出现次数来启发，也就是如果候选短语的出现次数大于设定的阈值(也就是短语最少出现次数)，则就舍弃不用，考虑到新闻领域语料的多变性，可能新词系列更多一些，为了考虑数据稀疏问题，同时为了兼顾新词，我们对那些出现次数为1的单个词短语进行了召回。这样我们就在进一步强化了短语生成条件，从而更有效的对短语对进行了过滤，大大减少了短语对的存储空间。

本发明通过限制三个方向的候选短语出现频率而生成三组不同的短语对，组合生成的这三组短语作为我们最终的短语列表，这样做的积极效果是给予更准确的短语对以更高的权重，从而给予更好的短语对以更高的概率打分用于解码，可以得到更好的翻译效果。

附图说明

图1本发明一个改善短语抽取与过滤的例子；

图2本发明一个双语句对相邻两个单词之间的互信息值及锚点确定的例子；

图3本发明一个双语句对词对齐的例子；

图4本发明一个经过第一层利用锚点划分语块前后抽取的短语对比例子；

图5本发明一个利用候选短语出现频率进行过滤的例子；

图6本发明一个经过第二层利用候选短语出现频率进行过滤前后的短语对比例子；

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明所有算法代码都是在C++语言下完成，所采用的机型的配置如下：Pentium 4处理器，CPU主频为2.0GHZ，内存为8G。而且本发明中使用的GIZA++工具包必须在LINUX操作系统下完成。

本发明的提供一种短语抽取与过滤算法，对现有的短语抽取方法进行改善提高，获得高精度的短语对。

这里的基本思想就是对于当前句对，本发明结合其GIZA++生成的词对齐，并利用一些锚点信息将双语句对分割成一系列的语块，然后直接针对该语块内部词对齐信息进行短语的抽取。该方法最大的一个优点就是：利用遍历语块内的源语言短语抽取来取代奥赫方法遍历整句源语言进行抽取短语的方法。如图1所示。

图1是奥赫方法和本发明的方法抽取短语对比图，图1(a)和图1(b)表示该汉语句子是由c₁，c₂，c₃，c₄，c₅，c₆这6个汉语单词组成。其中图1(a)表示遍历该汉语句子所有源语言短语，图1(b)表示遍历组成该汉语句子的每个语块内所有源语言短语。由图1我们可以很清楚的看出，对于一个长度为6的源语言句子，如果我们遍历该源语言句子，抽取其所有可能的源语言短语，则一共需要抽21个短语对，图中一条弧线代表一个源语言短语，见图1(a)。也就是说，对于一个源语言长度为J的句子，如果遍历抽取的话，需要抽取J(J+1)/2个短语。而如果我们根据锚点(图中用实心矩形表示的)将原始句子化为两个语块后，则只需要在每个语块内部遍历源语言短语，则如图1(b)所示，只需抽取2×(2+1)/2+4×(4+1)/2＝3+10＝13个短语，如该图弧线所示。也就是说，对于划分后的句子，只需抽取J₁(J₁+1)/2+...+J_P(J_P+1)/2个语块，无疑大大减少了抽取短语的数量，这里J₁，...，J_P分别表示将原始句子划分为P个语块的每个语块的长度。

这里可能大家会疑惑，这样会不会损失很多短语，而这些短语对中可能包含很多有用的信息。我们知道对于奥赫的方法，从两个方向遍历抽取的短语是一样的，原因就在于该方法是在整句中严格按照词对齐进行抽取的，所以无论把那个语种作为源语言结果抽取的短语对是不变的。而这里我们可以从奥赫的方法衍生出三组短语，即：1)只对汉语进行分割，限制汉语在语块内遍历抽取而不限制英语对应短语的范围，也就是汉语短语控制在语块内遍历，而英语还是在整句范围内寻找；2)只对英语进行语块内遍历；3)双向都进行限制遍历抽取。这样无疑就会将那些真正有用的短语抽取出来而过滤掉那些噪音短语。这里所谓的噪音短语有两种：一种是因为词对齐错误生成的短语，另一种虽然词对齐正确，但因为没有正确扩展空词生成的短语。无疑这种方法对于抑制后一种错误即解决短语的扩空词问题尤其有效。我们知道，对于由词对齐抽取出来的短语，如果短语边界还有很多空词的话，为了提高召回率，我们会遍历扩展每一个空词生成新的短语对，而扩空词是没有任何约束的，这样无疑就大大增加了短语对的数量，因为空词在词对齐中是大量普遍存在的。所以我们如果首先划界，就会抑制这种无限制扩空情况而只让更可能存在的短语对抽取出来。

奥赫的抽取方法的主要思想就是：对于当前源语言短语，根据词对齐结果确定该源语言短语对应的英语翻译的词的最小和最大位置边界来抽取。也就是说，针对每个源短语找到该短语对应的目标词集合，确定其目标词集合的最小和最大边界，然后，逆向判断介于这两个边界之间的目标词是否也都对应到了该源短语，如果是，则抽取出来，否则，就抽不出目标短语，同时源短语的信息也丢失了。该方法抽取的短语可以用公式(1)表示：

(\tilde{f}, \tilde{e}) &Element; BP < = >

&ForAll; f_{i} &Element; \tilde{f} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; \tilde{e}

\begin{matrix} AND & &ForAll; e_{j} &Element; \tilde{e} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; \tilde{f}

(1)

其中

组成一个基本短语BP。

这里我们借用奥赫抽取方法的短语表示方法来表示我们的短语对，假设原始汉英句对

通过切割锚点的划分可以将该句对分别划分为P个汉语句块和Q个英语语块，即

c_{1}^{J} : {BC}_{1}, . . . {BC}_{p}, . . ., {BC}_{P},

e_{1}^{I} : {BE}_{1}, . . ., {BE}_{q}, . . ., {BE}_{Q},

则根据上面的分析，我们可以得到三种形式的短语对：汉语只能在语块内遍历短语；英语只能在语块内遍历短语；汉英语都只能限制在语块内遍历。从这里我们也可以看出，实际上第三种形式的短语对是第一种和第二种短语对的一个交集。这三种形式的短语分别见公式(2)、(3)和(4)：

(\tilde{f}, \tilde{e}) = \cup_{p = 1}^{P} ({\tilde{f}}_{p}, \tilde{e}) &Element; BP < = >

&ForAll; f_{i} &Element; {\tilde{f}}_{p} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; \tilde{e}

\begin{matrix} AND & &ForAll; e_{j} &Element; \tilde{e} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; {\tilde{f}}_{p} - - - (2)

\begin{matrix} AND & {\tilde{f}}_{p} &SubsetEqual; {BC}_{p} \end{matrix}

(\tilde{f}, \tilde{e}) = \cup_{q = 1}^{Q} (\tilde{f}, {\tilde{e}}_{q}) &Element; BP < = >

&ForAll; f_{i} &Element; \tilde{f} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; {\tilde{e}}_{q}

\begin{matrix} AND & &ForAll; e_{j} &Element; {\tilde{e}}_{q} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; \tilde{f} - - - (3)

\begin{matrix} AND & {\tilde{e}}_{q} &SubsetEqual; {BE}_{q} \end{matrix}

(\tilde{f}, \tilde{e}) = \cup_{(p = 1, q = 1)}^{(P, Q)} ({\tilde{f}}_{p}, {\tilde{e}}_{q}) &Element; BP < = >

&ForAll; f_{i} &Element; {\tilde{f}}_{p} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; {\tilde{e}}_{q}

\begin{matrix} AND & &ForAll; e_{j} &Element; {\tilde{e}}_{q} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; {\tilde{f}}_{p} - - - (4)

\begin{matrix} AND & {\tilde{f}}_{p} &SubsetEqual; {BC}_{p} \end{matrix}

\begin{matrix} AND & {\tilde{e}}_{q} &SubsetEqual; {BE}_{q} \end{matrix}

●锚点的确定

这里我们利用单语两个词之间的互信息来确定划分锚点从而对句子进行语块划分。这里的语块也就是一系列的连续的词序列，我们姑且认为是一个或多个短语候选的集合。

众所周知，利用互信息可以发现常用词搭配。这里主要是借用了信息论中的概念，即：对于两个随机事件x，y来说，它们的互信息可以用公式(5)来表示：

MI (x, y) = \log_{2} \frac{p (x, y)}{p (x) \times p (y)} = \log_{2} \frac{p (x | y)}{p (x)} = \log_{2} \frac{p (y | x)}{p (y)} - - - (5)

那么，对于两个单词w₁，w₂来说，它们的互信息表示如下，见公式(6)：

MI (w_{1}, w_{2}) = \log_{2} (\frac{p (w_{1}, w_{2})}{p (w_{1}) p (w_{2})}) = \log_{2} \frac{\frac{c (w_{1}, w_{2})}{N}}{\frac{c (w_{1})}{N} \times \frac{c (w_{2})}{N}} = \log_{2} \frac{c (w_{1}, w_{2}) \times N}{c (w_{1}) \times c (w_{2})} - - - (6)

其中c(w₁，w₂)表示单词w₁w₂(有序)同现的次数，c(w₁)表示单词w₁出现的次数，c(w₂)表示单词w₂出现的次数。N表示语料库的规模，即所有单词的个数。

对于两个单词(w₁，w₂)而言，互信息比较了这两个单词的联合概率与这两个单词的独立概率。也就是说，如果单词w₁与单词w₂间存在较强的邻接关系，那么联合概率p(w₁，w₂)将远远大于p(w₁)p(w₂)，从而MI(w₁，w₂)>>0；如果单词w₁与单词w₂之间不存在这种关系，则p(w₁，w₂)≈p(w₁)p(w₂)，从而MI(w₁，w₂)≈0；如果单词w1与单词w₂分别互补出现，则p(w₁，w₂)将远远的小于p(w₁)p(w₂)，从而MI(w₁，w₂)<<0。因此，单词w₁与单词w₂之间的互信息MI(w₁，w₂)在一定程度上可以反映这两个单词的联系紧密性。

我们利用计算两个单词的互信息公式(6)，首先计算出当前汉英语句子所有单语两个单词间的互信息，然后找到那些互信息为负数的点的个数；如果互信息为负数的点的个数大于我们设定的阈值，则我们利用互信息为负数的点的位置作为初始划分锚点，并给出该点的标记。这里我们设定阈值为句子长度除以最大短语长度，最大短语长度是跟用奥赫方法抽取短语的最大短语长度保持一致，目的是为了更大可能的保存大粒度的短语对信息的情况下不浪费存储空间，而且对比平等。实验中我们设定最大短语长度为8，利用该划分锚点标记作为抽取短语的起始和终止点，然后利用奥赫或者蒋伟的方法在每个语块内进行短语或分层短语的抽取，最后组合所有语块的候选短语，生成该原始句对的所有候选短语对。这样做的好处就是：利用遍历语块内的源语言短语抽取来取代奥赫和蒋伟方法整句遍历源语言进行抽取短语的方法，从而大大减少了噪音短语的出现几率，由于对于空词的无限制扩展很有用，从而有效的解决了目前短语抽取量过大对于存储空间的要求。

分别利用短语表示公式(2)、(3)和(4)来抽取当前语料的三组短语对。对于以前公开的抽取短语方法，对于同一种词对齐利用同种抽取方法只可能生成一组短语，因为以前的方法对于汉英两个方向生成的短语集合是完全一致的，而我们这里却可以根据不同方向的限制条件生成三组不同的短语，即分别限制：汉语方向在语块内遍历短语、英语方向在语块内遍历短语和双方向都只能在语块内遍历短语。这三组不同的短语不仅能够呈现互补趋势，更重要的是能够给予那些在三种情况下都能产生的短语对以更高的权重，从而在计算短语对概率打分的时候给予那些更好的短语以更高的概率打分，从而让解码的时候能够更突出的提高此类短语的位置，从而得到更好的翻译效果。

这里给出一个具体的实例来说明我们锚点的选择以及根据锚点对汉英语句子进行语块分割之后结合词对齐抽取的短语跟奥赫方法抽取短语的对比。

图2是用来说明利用单语词间的互信息进行汉英锚点的选择，其中图2(a)表示汉语句子划分锚点的选择，图2(a)给出了该汉语句子每两个相邻汉语单词间的互信息值，并利用其中互信息值为负数的点作为汉语句子分割语块的锚点；图2(b)表示英语句子划分语块锚点的选择，图2(b)给出了该英语句子每两个相邻英语单词间的互信息值，并利用其中互信息值为负数的点作为英语句子分割语块的锚点。如图2所示，对于汉语句子，我们一共找到了5个互信息的值小于零，所以我们就利用这五个点作为划分汉语句子的锚点，见图中黑色实型矩形图表示。同理，英语一共获得四个锚点来划分英语句子。

图3给出了该汉英句对根据GIZA++工具包训练出来的词对齐，其中第三行中的数字分表代表汉英单词在汉英句子中的词的位置，例如2：6就表示汉语句子中的第2个汉语单词“门厅”跟英语句子中的第6个英语单词“hall”对齐，以此可类推出汉语句子中的所有位置的汉语单词与英语句子中的所有位置的英语单词的一个词对齐。

图4给出了奥赫方法和本发明改进后的方法抽取的短语列表对比，也就是我们的第一层过滤后的短语跟奥赫方法短语的对比，其中图4(a)是奥赫方法抽取出来的短语，图4(b)是经过我们方法进行第一次过滤后生成的短语。因为该汉英句对根据奥赫方法一共可以抽取出113条短语对，经过限制汉语方向遍历短语后可以得到66条短语对，经过限制英语方向可以得到59条短语对，经过双向限制可以得到46条短语对，合并新生成的短语对一共可以得到171条短语对，所以这里无法完全列出，我们只选择部分过滤掉的短语对列出来作为参照。对比图4(a)和(b)我们可以发现，经过锚点切分以后，我们单个方向的短语数量大大减少了。由图中可知，有很多短语对都被过滤掉了，是因为我们现在是遍历语块内抽取而不是遍历整个句子进行抽取。例如，由图2(a)可知，在“在门厅下面。”的“。”后面有一个分割锚点，所以就不可能抽取出同时包含“。”和“。”后面的“我”这两个单词的短语，因为这两个单词不同属于一个语块，所以不可能同时出现在短语中，这样图4(a)中同时包括这两个单词的短语全部被过滤掉了，以此类推就可以过滤掉图4(a)中包含而图4(b)中不包含的短语对。

●利用候选短语频率进行二次过滤

由图4所示，我们发现确实经过划分锚点以后，该层很大程度的对短语的抽取做了前端的过滤，但是实验中我们发现，即便这样，可能生成的短语数量还是很多，而且很多也属于噪音短语范围内。所以我们希望利用更多的特征来约束短语的抽取，这些特征可以是单语候选短语本身包含信息的出现频率特征，也可以是双语候选短语本身包含信息的联合出现概率。这些特征包括：单语候选短语的出现频率特征，双语候选短语的联合出现概率特征、单语候选短语词性出现系列频率特征、单语候选短语词类出现系列频率特征、双语候选短语词性系列的联合出现概率特征、双语候选短语词类系列的联合出现概率特征等。这里我们利用单语语块的出现频率来进一步的约束，当然我们也可以利用更多的特征来进行约束过滤。图5给出了利用单语语块频率进一步限制短语生成的示例图。

由图5我们可知，该汉语句子由c₁，c₂，c₃，c₄，c₅，c₆6个汉语单词组成，在经过上层语块划分后可以得到13个遍历短语，如果我们再加入一个对于短语语块频率的限制，即，如果当前的源语言短语出现次数少于我们设定的阈值(假设为5)，则我们就不进行当前短语对的抽取，如图中虚线所示，虚线所示的那些候选短语的出现次数都小于5，所以我们对虚线表示的候选短语都不进行抽取或者说对这些短语都过滤掉，则我们就将以前不进行过滤的13个短语对减少为11个短语对，这样我们就进一步降低了短语的抽取数量。

我们这样做的出发点是基于这样的想法：如果一个短语在语料中出现的次数很少，这样的短语除了命名实体以外，还有两种情况可能存在：一种情况就是可能这些短语真正属于噪音短语，也就是说只是将很多没有关系的词组合在一起，而大部分这种短语很难找到对应的翻译，更多抽取出来的翻译短语都是可能其中只有极少的词跟该短语对应上，而更多的都是空词；另外一种情况是，可能是正确的短语翻译，但是分析该类短语，我们可以发现，这种短语的词对齐往往很准确，空词很少，所以即便这类因为出现次数少被过滤掉，可是因为词对齐很准确，所以在解码的时候也往往能够根据概率从更小的出现次数多的小短语(为该类短语词集合的一个子集)中挑选出来，然后再重组生成该类比较长一些的短语。

对于命名实体而言，如果该命名实体在语料中出现的次数很少，利用GIZA++生成词对齐的时候，也很难给该命名实体以正确的对齐，所以即便利用最原始的奥赫短语抽取方法可能也抽取不出来。正是基于这样的考虑，我们才提出这个设想。

●二次过滤短语表示

对应的，我们这里的短语表示也可以在公式(2)、(3)和(4)上进一步加上限制条件来进行修正，则对应的三种短语表示如公式(7)、(8)和(9)所示：

(\tilde{f}, \tilde{e}) = \cup_{p = 1}^{P} ({\tilde{f}}_{p}, \tilde{e}) &Element; BP < = >

&ForAll; f_{i} &Element; {\tilde{f}}_{p} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; \tilde{e}

\begin{matrix} AND & &ForAll; e_{j} &Element; \tilde{e} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; {\tilde{f}}_{p} - - - (7)

\begin{matrix} AND & {\tilde{f}}_{p} &SubsetEqual; {BC}_{p} \end{matrix}

\begin{matrix} AND & count ({\tilde{f}}_{p}) &GreaterEqual; MinCount \end{matrix}

(\tilde{f}, \tilde{e}) = \cup_{q = 1}^{Q} (\tilde{f}, {\tilde{e}}_{q}) &Element; BP < = >

&ForAll; f_{i} &Element; \tilde{f} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; {\tilde{e}}_{q}

\begin{matrix} AND & &ForAll; e_{j} &Element; {\tilde{e}}_{q} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; \tilde{f} - - - (8)

\begin{matrix} AND & {\tilde{e}}_{q} &SubsetEqual; {BE}_{q} \end{matrix}

\begin{matrix} AND & count ({\tilde{e}}_{q}) &GreaterEqual; MinCount \end{matrix}

(\tilde{f}, \tilde{e}) = \cup_{(p = 1, q = 1)}^{(P, Q)} ({\tilde{f}}_{p}, {\tilde{e}}_{q}) &Element; BP < = >

&ForAll; f_{i} &Element; {\tilde{f}}_{p} : (f_{i}, e_{j}) &Element; A &RightArrow; e_{j} &Element; {\tilde{e}}_{q}

\begin{matrix} AND & &ForAll; e_{j} &Element; {\tilde{e}}_{q} \end{matrix}, : (f_{i}, e_{j}) &Element; A &RightArrow; f_{i} &Element; {\tilde{f}}_{p}

\begin{matrix} AND & {\tilde{f}}_{p} &SubsetEqual; {BC}_{p} \end{matrix} - - - (9)

\begin{matrix} AND & {\tilde{e}}_{q} &SubsetEqual; {BE}_{q} \end{matrix}

\begin{matrix} AND & count ({\tilde{f}}_{p}) &GreaterEqual; MinCount \end{matrix}

\begin{matrix} AND & count ({\tilde{e}}_{q}) &GreaterEqual; MinCount \end{matrix}

这里的MinCount就是我们设定的最小出现次数，我们就是利用这个单语候选短语的出现次数来作为我们进一步过滤时采用的启发函数，如果加入了更多的特征来过滤，则启发函数的设计需要根据使用的不同特征来做相应的改进或调整。对于口语语料(例如IWSLT评测语料)我们设定MinCount为5，而对于新闻语料(例如SSMT07评测语料)，我们设定MinCount为2。考虑到新闻领域语料的多变性，可能新词系列更多一些，为了考虑数据稀疏问题，我们不但设的阈值要小一些，而且同时为了兼顾新词，也召回了那些出现次数虽然为1但是是单个词的那些短语，目的是考虑到更多的噪音短语在于长词系列组合且出现次数少的短语。这样我们就在进一步强化了短语生成条件，从而更有效的对短语对进行了过滤，大大减少了短语对的存储空间。

同样我们通过限制三个方向的候选短语出现频率而生成三组不同的短语对，即：只对汉语单语方向的短语对抽取进行约束过滤，只对英语单语方向的短语对抽取进行过滤和同时对汉英语双向进行约束过滤。最后同时组合生成的这三组短语作为我们最终的短语列表。

这里我们所列举的例子是口语语料的例子，目的是口语语料句子短小，对比方便，而新闻语料句子太长，不太直观。

图6给出了经过这次即第二层过滤后抽取的短语对比。图6(a)是经过第一层过滤后生成的短语，图6(b)是经过第二层过滤后生成的短语。对比图6(a)和(b)我们可以发现，经过第二层过滤后短语数目又减少了很多。这里我们主要是根据汉语单语候选短语的出现次数少于设置的阈值5来进行过滤的。也就是说图6(a)中包含但图6(b)中不包含的短语都是因为被过滤掉的那些短语的出现次数少于5次。

由图6我们可以发现，经过第二次利用候选短语出现频率进行过滤后，短语对又减少了很多。可能很多人会疑惑这里明显(a)中很多短语都是对的，过滤掉后会不会影响召回率，实际上这类情况就属于我们上面分析的第二类，就是该类短语确实是准确的短语，但是因为其出现频率小，我们给过滤掉了，实际上我们测试的时候，会发现因为这类短语词对齐很准确，我们完全可以把这种长的出现次数少的大粒度短语拆分为几个短小的出现次数多的小粒度短语组合起来从而生成该类大粒度短语的翻译选项。

●实验结果

这里我们利用IWSLT07评测发布的所有公开语料经过预处理之后作为我们的训练语料，IWSLT07发布的测试语料作为我们的测试语料。表1列出了该训练和测试语料的统计量。

表1 IWSLT07训练和测试语料统计量

表2给出了Och方法抽取短语和我们方法的对比，这里同时也给出了抽取短语数量上的对比。

表2对比Och方法和我们抽取方法

由表2我们可以看出，无论是利用第一层的互信息划分切割锚点还是第二层利用候选短语出现频率(这里我们设定阈值为5)，对于没有根据测试语料过滤过的短语都能取到很好的过滤作用，特别是经过两次过滤以后，我们抽取的三组短语的总和也比初始没有过滤的短语少了67M。对于根据测试语料过滤后的短语，这里的结果好像不是那么突出，尽管也有一定程度的减少。分析原因是因为这里我们用的是IWSLT07的口语领域语料，句子平均长度很短，汉语只有6.2个平均长度，英语也只有6.7个平均长度，所以在利用第一层根据互信息来划分句子的切割锚点时，锚点数量很少，从而导致过滤短语的能力减弱，但如果用于新闻领域语料则效果很突出。

而其实我们也希望看到这样的结果，就是经过二层过滤后，我们希望得到根据测试语料过滤前更少的高准确率的短语对和根据测试语料过滤后的在一定的准确率下高召回率的短语对。根据表2我们可以看到，我们实现了这样的结果，即：根据测试语料过滤前，我们的短语对减少了约1/4的存储量，从以前的275M到现在的208M；而根据测试语料过滤后，我们有用的短语对增加了一倍，从以前的69M到现在的121M。

同时，从表2中可以发现，经过两个层次进行过滤生成的三组短语重组之后，有用的短语对减少了近1/4的存储空间，由以前的275M减少到现在的208M，而机器翻译BLEU打分却有了很明显的提高，BLEU打分绝对值提高了1个百分点还多，而相对值也提高了3％。分析其根本原因就在于我们的方法通过修正奥赫的抽取方法，能够在给定词对齐下获得三种模式的短语，而无疑这三种模式的短语组合以后就会对短语列表的概率打分有一个很好的修正，如果在三种模式下都能抽取出来的短语对，应该给予这样的短语对以更高的概率，这就修正了以往的方法对于所有抽取出来的短语对都一视同仁的做法。更准确的说，这就相当于在解码前已经对短语有了一个初步的过滤和排序，将那些更准确的短语对以更高的概率用于解码，从而导致解码能够更准确的对源短语进行目标短语的选择，从而生成更好的翻译结果。

Claims

1、一种汉英短语翻译对自动抽取与过滤方法，其特征在于，自动抽取与过滤的步骤包括：

步骤4：利用候选短语的出现频率的特征信息来对生成的候选短语进一步过滤，生成需要的短语对。

2、根据权利要求1所述的汉英短语翻译对自动抽取与过滤方法，其特征在于，步骤1所述提取多个划分语块的特征，是两个相邻单语单词间的互信息特征、双语单词间的互信息特征、t-检验(t-test)特征、χ²检验特征、Dice系数特征；并提取过滤候选短语的特征，这些特征是单语候选短语本身包含信息的出现频率特征，或是双语候选短语本身包含信息的联合出现概率；这些特征包括：单语候选短语的出现频率特征，双语候选短语的联合出现概率特征、单语候选短语词性出现系列频率特征、单语候选短语词类出现系列频率特征、双语候选短语词性系列的联合出现概率特征、双语候选短语词类系列的联合出现概率特征。

3、根据权利要求1所述的汉英短语翻译对自动抽取与过滤方法，其特征在于，步骤2所述确定划分锚点信息的步骤包括：

4、根据权利要求1所述的汉英短语翻译对自动抽取与过滤方法，其特征在于，步骤3所述根据词对齐信息在语块内进行候选短语的抽取的步骤包括：

5、根据权利要求1所述的汉英短语翻译对自动抽取与过滤方法，其特征在于，步骤3所述根据词对齐信息在语块内进行候选短语的抽取的步骤还包括：

6、根据权利要求1所述的汉英短语翻译对自动抽取与过滤方法，其特征在于，步骤4所述根据利用额外的特征对生成的候选短语进行过滤的步骤包括：

步骤42：利用单语候选短语的出现频率来进一步过滤时采用的启发函数，或逐步加入更细化的特征信息来设计启发函数；利用候选短语的出现次数来启发就是：如果候选短语的出现次数大于设定的阈值也就是短语最少出现次数，则舍弃不用；如果是新闻领域，则对那些出现次数为1的单个词短语进行了召回，用于新闻领域语料的多变性及新词系列。

7、根据权利要求5所述的汉英短语翻译对自动抽取与过滤方法，其特征在于，所述通过限制三个方向的候选短语出现频率而生成三组不同的短语对，只对汉语单语方向的短语对抽取进行约束过滤，只对英语单语方向的短语对抽取进行过滤和同时对汉英双向进行约束过滤，最后同时组合生成的这三组短语作为最终的短语列表。