CN101482861A - 一种汉英词语自动对齐方法 - Google Patents

一种汉英词语自动对齐方法 Download PDF

Info

Publication number
CN101482861A
CN101482861A CNA2008100557838A CN200810055783A CN101482861A CN 101482861 A CN101482861 A CN 101482861A CN A2008100557838 A CNA2008100557838 A CN A2008100557838A CN 200810055783 A CN200810055783 A CN 200810055783A CN 101482861 A CN101482861 A CN 101482861A
Authority
CN
China
Prior art keywords
granularity
english
chinese
word
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100557838A
Other languages
English (en)
Other versions
CN101482861B (zh
Inventor
宗成庆
周玉
何彦青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2008100557838A priority Critical patent/CN101482861B/zh
Publication of CN101482861A publication Critical patent/CN101482861A/zh
Application granted granted Critical
Publication of CN101482861B publication Critical patent/CN101482861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。

Description

一种汉英词语自动对齐方法
技术领域
本发明属于自然语言处理领域,特别涉及统计机器翻译、跨语言信息检索和双语词语自动对齐的方法。
背景技术
随着计算机网络和通信技术的迅猛发展、普及和应用,国际交流日益频繁,信息量急剧增加,语言的障碍也显得越来越严重,通过计算机来实现不同语言文本间的相互翻译,利用计算机高效率的信息处理能力来突破不同语种之间的语言障碍,成为全人类面临的共同问题,而机器翻译便是解决这个问题的强有力手段之一。机器翻译技术在经济发展和社会生活中日趋重要,对加速和扩展世界范围内的信息传播具有深远意义。
五十多年来,机器翻译的研究大大加深了人们对于语言、知识和智能等问题的了解,促进了相关学科的迅速发展。目前的机器翻译方法又以统计方法占据主导地位,而词对齐技术几乎是所有统计机器翻译方法的基础,词对齐的好坏可以说从某种程度上决定了最终的翻译质量好坏,因为不论是基于短语的统计机器翻译系统还是基于句法的统计机器翻译系统,甚至基于实例的翻译系统,都需要通过词对齐来进行后续的抽取短语、结构和规则的泛化等。词对齐效果如果很差,所有基于词对齐进行的后续操作,都将很不可靠,并且也会导致错误的蔓延,所以,词对齐是很重要的基础性工作。
很多学者都在研究词对齐的方法,并提出了很多比较有效的方法,但目前公开可用的很流行的方法仍然是GIZA++工具包,GIZA++几乎是目前所有统计机器翻译系统词对齐的生成工具。虽然GIZA++有着其不可比拟的优越性和鲁棒性,只要有双语训练语料,无论是什么语种,GIZA++都可以得到比较满意的效果。尽管如此,我们也应该意识到,GIZA++工具包的词对齐是在整个句子中寻求一个全局规划的最优词对齐。如果句子很长,就会导致规划路径太多,复杂度太高而很难生成很好的结果,即便是不长的句子,我们也应该意识到没有必要对整个句子进行规划,而应该限定词对齐在一个比较可靠的小范围去搜索,这样就能在保证一定精度的情况下大大缩短搜索时间,提高效率。
发明内容
针对现有技术的问题,本发明的目的是对现有的词对齐工具进行改善提高,提出一种基于多粒度的词对齐方法,希望利用更多的特征来寻求更好的词对齐结果,获得高精度的词对齐,为此本发明提供一种新的汉英词语自动对齐方法。
为了实现所述的目的,本发明提供一种汉英词语自动对齐方法,其自动对齐技术方案的步骤包括:
步骤1:对原始汉、英双语句提取划分语块的特征信息;
步骤2:将特征信息划分,生成多层不同粒度的语块划分锚点信息;
步骤3:利用多层不同粒度语块的锚点信息对双语词对之间进行局部定位,生成词对齐文件。
根据本发明的实施例,步骤1所述提取特征信息的步骤包括:
步骤11:将原始汉、英双语句对作为第一层粒度下的汉、英双语语块;
步骤12:利用GIZA++工具包对汉、英双语语块进行训练,得到第一层粒度下的词对齐文件;
步骤13:同时利用GIZA++对汉、英双语语块进行训练生成双向词汇词典;
步骤14:利用双向词汇词典,以及在第一层粒度下的词对齐文件上抽取的短语词典作为第二层粒度的双语语块打分特征;
步骤15:直至在上层粒度下的词对齐文件上抽取的短语词典作为下层粒度的双语语块打分特征。
根据本发明的实施例,步骤2所述特征信息划分步骤包括:
步骤21:根据汉、英语标点符号对第一层粒度下的汉、英双语语块对进行分割;
步骤22:根据汉、英双语的标点符号作为划分锚点对将原始汉、英双语语块句子划分成单语语块;
步骤23:利用第一层粒度产生的双向词汇词典和短语词典,再加上长度惩罚作为特征对含有这些单语语块的双语语块进行打分匹配并重组生成第二层粒度下的一一对齐的双语语块;
步骤24:利用GIZA++工具包对第二层粒度的双语语块进行训练,得到第二层粒度下的词对齐文件;
步骤25:同样将得到的双向词汇词典、短语词典和词对齐文件作为下一层粒度的双语语块匹配打分特征,生成多层不同粒度的语块锚点信息。
根据本发明的实施例,步骤2所述特征信息划分步骤还包括:
步骤26:利用汉、英语的单向标点作为锚点,将汉、英语另外一侧的标点等同为普通词汇,从而利用上层粒度生成的词对齐文件、词汇词典和短语词典来进行语块的划分与重组,从而获得下层粒度下的双语语块;
步骤27:利用GIZA++对上层粒度下的双语语块进行训练以获得上层粒度下的词对齐文件,将得到的词汇及短语词典作为下一层粒度的双语语块匹配打分特征。
根据本发明的实施例,步骤3所述局部定位的步骤包括:
步骤31:利用英语的一些关键词特征来作为对上层语块划分的锚点,从而进一步对上层双语语块进行细分,并利用打分匹配算法获得最终的局部定位双语语块;
步骤32:利用GIZA++获得下层粒度下的词对齐文件;
步骤33:线性加权多层粒度下的词对齐文件,生成最终的词对齐文件,从而完成自动对齐。
根据本发明的实施例,所述对于第一层粒度的词对齐生成,并利用第一层生成的词汇和短语列表词典作为下一层粒度划分语块的特征;
对于GIZA++生成的双向词典的处理,是抽取每个方向的每个词条所对应的最大概率所对应的那个词条作为该词条的翻译,然后合并这两个方向的词典生成第一层粒度下的词汇词典;
对于短语词典,利用最小错误训练得到的最优参数和解码设置的最大候选短语个数N来对抽取的所有短语对进行过滤,即:首先对短语对的四个概率利用最小错误训练的最优特征权重来优化为一个概率打分,其次根据这个概率打分对每个汉语短语所对应的英语短语进行排序,为每个汉语短语只选择排名前N个英语候选短语作为其翻译候选,形成最终的带概率的短语词典作为短语词典特征加入到分割算法中。
根据本发明的实施例,所述对于第二层及第二层之后的粒度的双语语块的匹配打分,采用无贪婪扩展特征算法来实现:无贪婪扩展特征算法是基于很多特征的一种线性模型,这些特征融合了词对齐链接个数以及位置、词汇词典、短语词典和长度惩罚;所述无贪婪是遍历计算每两个汉英语块对的匹配情况;所述逐步扩展特征是对于任意两个语块对的匹配得分,只有第一选择和第二选择的匹配得分差别小于设定的阈值时才扩展下一个特征来重新计算其匹配得分;无贪婪扩展特征算法具有处理那些不连续及交叉对齐的情况,用于遏制错误的衍生和蔓延。
根据本发明的实施例,所述对于第三层粒度局部定位的双语语块匹配,采用再次利用这层粒度的汉语或英语语块的标点信息而忽视英语或汉语标点信息的做法来再次挖掘标点的特殊作用,从而将语块的粒度更加细化,经过这次划分的汉英语块都是不含有划分标点的语块,再利用结合词对齐的位置特征,将相邻两个语块的词对齐最大最小位置所不能覆盖的点作为划分的候选锚点,用于进一步降低计算的复杂度,搜索空间和搜索路径。
根据本发明的实施例,所述利用英语的一些关键词信息,是引导分句的关键词来对上层语块进一步切割细分,对那些不包含任何划分标点的单句进行更小粒度的划分,用于将词对齐控制到一个更小的范围。
根据本发明的实施例,在所述每层粒度下的词对齐错误率(AER)和机器翻译评测指标(BLEU),对生成的四个粒度下的四种词对齐文件进行线性加权,这四个粒度下的词对齐分别是:第一层粒度词对齐是利用GIZA++工具包直接将原始双语句子作为双语语块进行训练获得的词对齐文件;第二层粒度词对齐是利用标点信息对第一层粒度语块进行切割重组生成的新的一一对齐双语语块,然后利用GIZA++工具包训练获得的词对齐文件;第三层是再次利用标点信息对第二层粒度的双语语块进行分割重组生成第三层一一对齐双语语块,然后利用GIZA++工具包进行训练获得的词对齐文件;第四层粒度就是利用英语的关键词信息对第三层粒度语块进行切割重组生成第四层粒度语块,然后利用GIZA++工具包训练获得的词对齐文件,利用这四层粒度下的词对齐错误率和机器翻译打分生成线性加权的权重经验值,从而利用线性加权的方法来融合这四层粒度下的词对齐,用于获得兼顾词对齐的准确率与召回率。
本发明的积极效果:采取一种“分而治之”的多粒度词对齐算法,根据相关特征将汉英双语句子进行分割,完成不同粒度下的单元对齐。然后,在各种粒度下将词对齐操作限制在相应的单元范围内,最后对各种对齐结果进行线性加权,计算出最后的词语对齐结果,从而对现有的词对齐工具进行改善提高,获得高精度的词对齐。该发明能够对词对之间进行局部定位,也就是说让双语词在一种比较小的准确的局部范围内实现词对齐,以取代以前的整个句子内进行搜索,这样就大大降低了搜索空间。为了同时兼顾词对齐的准确率与召回率,该方法不同于普通意义上的词对齐对数线性模型,因为传统的对数线性模型因为其特征的个数和特征权重的难以确定,而导致利用最小错误训练来获得每个特征权重时,训练时间长而且很依赖于开发集跟测试集或训练语料的相关性,从而不可能用于大规模数据上,而这里我们完全可以采用经验值来获取,而这个经验值的获取来源就是每层粒度下的词对齐错误率AER和机器翻译BLEU打分,方法简单可行且可以用于大规模数据上。利用本发明多层粒度词对齐算法,词对齐错误率AER绝对值降低了15个百分点还多,相对值降低了约28%;机器翻译BLEU打分绝对值提高了2.5个百分点,相对值提高了20%。
附图说明
图1本发明一个改善词对齐的例子;
图2本发明第一层粒度下的语块对齐;
图3本发明第二层对齐粒度下生成的语块对;
图4本发明第二层粒度对齐的四种情况;
图5本发明第三层对齐粒度,用圆圈表示该层粒度下一一对齐的双语语块;
图6本发明第四层粒度对齐,其中圆圈该层粒度下一一对齐的双语语块;
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明所有算法代码都是在C++语言下完成,所采用的机型的配置如下:Pentium 4处理器,CPU主频为2.0GHZ,内存为8G。其中利用的GIZA++工具包需要在LINUX系统配置下进行运行。
本发明多粒度进行词对齐方法的核心思想在于“分而治之”,就是将原始双语句对间的词对齐变成多个小范围词系列间的词对齐,具体而言就是:首先根据一些特征(例如标点信息或关键词信息)将双语句子分割成不同粒度(grain)下的语块(block);其次根据本发明提出的无贪婪扩展特征算法(该算法在后面会详细阐述)获得每个粒度下的双语语块间的一个对齐,生成每个粒度的双语语块对;然后对每个粒度的双语语块对进行训练获得语块对间的词对齐来替代以前的整句训练得到的词对齐;最后线性加权组合这不同粒度下获得的词对齐从而生成最终的词对齐。这里的粒度就是定义语块大小的一个单位,语块就是一系列连续的词系列,语块对就是对齐双语语块的一个集合。
下面我们用一个示意图来简要说明该方法的思想,见图1本发明一个改善词对齐的例子。图1中包括:汉语句子由c1,c2,c3,c4,c55个汉语单词组成,英语句子由e1,e2,e3,e4,e5,e66个英语单词组成。在图1(a)中,c4和e2是对错的词对齐,在图中用虚线列出。该对齐错误是因为公开的工具包GIZA++在利用EM算法迭代时,因为c4和e2共现的概率比较大,所以出现对齐错误。图1(b)中示出正确的词对齐,如图1(b)的做法是,首先利用分割特征将句子分割成两部分(图中用粗实线分开),然后针对每部分进行词对齐。从这个例子中可以很清楚地发现,如果在做词对齐的时候不是全局进行对齐,而是将词对齐限定在一定的范围内,则很容易可以避免象图1(a)中的这类错误。正是基于这样的想法,本发明提出了多粒度进行词对齐的方法,图1就相当于将原始的双语句对分为两个小范围的语块对,然后在每个小范围的语块对间进行词对齐。
现在我们从理论上分析本发明方法技术方案的可行性。我们知道,常用的统计词对齐模型都是源于IBM的信源信道方法。这些词对齐模型,从IBM模型1到IBM模型5还有隐马尔可夫模型,它们之间的区别仅仅在于概率的计算公式
Figure A200810055783D00121
其中的Viterbi对齐
Figure A200810055783D00122
是用EM算法来进行迭代估计的,见公式(1):
A ^ = arg max A { Pr ( c 1 J , A | e 1 I ) } - - - ( 1 )
我们可以根据词对齐公式(1)推导出本发明基于多层粒度的词对齐计算公式。
这里用
Figure A200810055783D00124
来表示原始的中英语句子,假设在当前粒度k(1<k<K,K=4,这里一共生成了四种粒度,所以K=4)下,我们利用初始的分割锚点将汉语句子
Figure A200810055783D00125
分成M个语块,即 c 1 J = g k bc 1 &CenterDot; &CenterDot; &CenterDot; g k bc m &CenterDot; &CenterDot; &CenterDot; g k bc M , 其中kgbcm表示第k层粒度下的第m个汉语语块;同理,英语句子
Figure A200810055783D00127
在当前粒度k下被分成N个语块,即: e 1 I = g k be 1 &CenterDot; &CenterDot; &CenterDot; g k be n &CenterDot; &CenterDot; &CenterDot; g k be N , 其中kgben表示第k层粒度下的第n个英语语块。然后我们利用无贪婪扩展特征算法来将这些单语语块进行对齐并重组成新的一一对齐(包括一对一和一对空两种情况)的语块对。假设一共生成了P个双语对齐语块,即该层粒度下的语块对一共有P个:汉语表示为 c 1 J = G k Bc 1 &CenterDot; &CenterDot; &CenterDot; G k Bc p &CenterDot; &CenterDot; &CenterDot; G k Bc P , 英语表示为 e 1 I = G k Be 1 &CenterDot; &CenterDot; &CenterDot; G k Be p &CenterDot; &CenterDot; &CenterDot; G k Be P , 其中kGBbcpkGBep是一个对齐的语块对。由上面的定义我们可以看出,双语语块对具备以下的特性:
a)完整性和自包含性:所谓“完整性”就是说所有的分割后的语块能够重组成原始的句子而没有任何遗漏;所谓“自包含性”就是说任意两个同语种语块间没有任何交集,也就是说块中的每个单词只从属于它所在的块,而不可能同时跨越两个块。;
b)非连续性:是说组成一个语块对中的单语语块可以是连续的也可以是不连续的;
c)可交叉性:是说组成双语语块的汉语单语语块和英语单语语块之间可以交叉对齐,不一定是单调顺序对齐的;
d)最优匹配性:生成的语块对是最优的。以下如果不特殊说明,我们说的单语语块就是指根据单语锚点切割后生成的语块,即上述的汉语单语语块kgbcm或英语单语kgben,而说语块对则是指对齐重组后的语块对,例如kGBbcpkGBep
这里我们延用IBM词对齐的表示模式来表示这里的语块对齐,即用kgbAm=n来表示在当前层粒度k下第m个汉语语块对应上第n个英语语块;kgbA=kgbA1kgbAm…kgbAM表示当前层粒度k下所有的语块对齐;则当前层粒度k下概率
Figure A200810055783D00133
可以用公式(2)来表示:
P k ( a 1 J | c 1 J , e 1 I ) = &Sigma; gbA k p k ( gbA k , a 1 J | c 1 J , e 1 I )
= &Sigma; gbA k p k ( gbA k | c 1 J , e 1 I ) p k ( a 1 J | c 1 J , e 1 I , gbA k )
= &Sigma; gbA k p k ( gbA k | c 1 J , e 1 I ) p k ( a 1 J | g k b c 1 M , g k b e 1 N , gbA k )
= &Sigma; gbA k p k ( gbA k | c 1 J , e 1 I ) p k ( a 1 J | G k B C 1 P , G k B E 1 P ) - - - ( 2 )
= &Sigma; gbA k p k ( gbA k | c 1 J , e 1 I ) &Pi; p = 1 P p k ( a p | GB C p , GB E p k k )
= &Sigma; gbA k p k ( gbA k | c 1 J , e 1 I ) &Pi; p = 1 P &Pi; q = 1 q = Q p k ( a p q | GB C p , GB E p k k )
其中
Figure A200810055783D00141
表示当前第k层粒度下的词对齐概率,这里用
Figure A200810055783D00142
来表示汉语单词与英语单词
Figure A200810055783D00144
之间的一个对齐;用
Figure A200810055783D00145
表示第k层粒度下划分语块生成的当前语块内的词对齐;用来表示在当前层粒度k下双语语块(kGBCpkGBEp)间的一个词对齐,其中汉语语块kGBCp的长度为Q。用概率
Figure A200810055783D00147
来描述将双语句子划分为当前粒度对的一个概率打分。考虑到我们这里是使用一个启发函数来对原始句子进行语块的划分与重组,所以这里为了简化计算,我们只取最好的一个划分来生成最后的语块对,并且在该语块对中也是寻找一个最优路径来生成词对齐,所以这里我们可以简化该公式(2)为公式(3):
A ^ k = arg max A k { P k ( a 1 J | c 1 J , e 1 I ) }
= arg max A k { &Sigma; gbA k p k ( gbA | c 1 J , e 1 I k ) p k ( a 1 J | g k bc 1 M , g k be 1 N , g k bA ) } - - - ( 3 )
= arg max A k { max gbA k p k ( gbA k | c 1 J , e 1 I ) &Pi; p = 1 P ( max a p &Pi; q = 1 q = Q p k ( a p q | GBC p , GAB p ) ) } }
最后,当所有层次粒度下的词对齐都生成以后,我们将每层粒度下的语块生成的词对齐结果进行线性叠加,这主要是基于这样的考虑:因为如果我们只用单一的一个粒度,由于分割对齐的错误可能导致有些有用的信息会丢失,一些噪音信息会增加。因此,为了在准确率和召回率之间进行平衡,我们对所有的粒度下生成的词对齐结果进行线性叠加。这样我们就将公式(1)改写成公式(4):
A ^ = arg max A { &Sigma; k = 1 K &lambda; k P k ( a 1 J | c 1 J , e 1 I ) } - - - ( 4 )
这里的K=4表示四种不同的粒度;
Figure A200810055783D001412
表示第k层粒度下的词对齐;λk表示第k层粒度下的词对齐的权重。
这里为了说明的方便和容易理解,我们利用一个图例来具体阐述这四个粒度下的词对齐是如何获得的。这里我们利用该实例图来说明每层粒度下的词对齐是如何生成的,也就是给出一个原始双语句对,看如何从这个原始双语句对衍生出四种词对齐,并最后线性加权生成最终的词对齐。
●第一层粒度词对齐的生成
首先,我们将原始的中英语句子作为第一层粒度下的对齐语块,用图2表示为:
如图2所示为第一层粒度下的对齐语块,我们将原始句对
Figure A200810055783D00151
不进行任何分割,而直接将原始汉语句子
Figure A200810055783D00152
作为第一层粒度下的第一个汉语语块1gbc1,将英语句子
Figure A200810055783D0015161505QIETU
直接作为第一层粒度下的第一个英语语块1gbe1,然后将第一层粒度下的汉英单语语块(1gbc11gbe1)作为该层粒度下的对齐语块对(1GBc11GBe1),然后将该对齐语块对作为双语训练语料送入GIZA++中生成该层粒度下的双向词对齐,对该词对齐我们进行对齐扩展得到该层粒度下最终的词对齐,并利用该词对齐结合Och的短语抽取方法进行短语的抽取和概率的计算得到该层粒度下的短语对,我们这里简称为短语词典;同时,对于GIZA++生成的双向词典,我们做这样的处理,我们抽取每个方向的每个词条(例如每个汉语词条)所对应的最大概率所对应的那个词条(例如一个英语词条)作为该词条(例如汉语词条)的翻译,然后合并这两个方向的词典生成该层粒度下的词汇词典,我们这里简称为词汇词典。这里,该层粒度下的词对齐、短语词典、词汇词典和长度惩罚将作为我们第二层粒度下获取双语语块对的匹配打分特征,也就是无贪婪扩展特征算法的特征来进行双语语块对的抽取和对齐。
这里,我们可以利用最小错误训练得到的最优参数和解码设置的最大候选短语个数N(这里我们设置为20)来进行过滤,即:首先对短语对的四个概率利用最小错误训练的最优特征权重来优化为一个概率打分,其次根据这个概率打分对每个汉语短语所对应的英语短语进行排序,我们为每个汉语短语只选择排名前N个英语候选短语作为其翻译候选,这样就形成了最终的带概率的词典作为短语词典特征加入到分割算法中。这里,短语对的四个概率分别是:两个方向的基于频率的短语概率,见公式(5)和(6)和两个方向的词汇化概率,见公式(7)和(8)。
&phi; ( f ~ | e ~ ) = N ( f ~ , e ~ ) &Sigma; f &OverBar; &prime; N ( f ~ &prime; , e ~ ) - - - ( 5 )
&phi; ( e ~ | f ~ ) = N ( f ~ , e ~ ) &Sigma; e &OverBar; &prime; N ( f ~ , e &prime; ~ ) - - - ( 6 )
lex ( f ~ | e ~ , a ) = &Pi; i = i 1 i 2 1 | { j | ( i , j ) &Element; a } | &Sigma; &ForAll; ( i , j ) &Element; a p ( f i | e j ) - - - ( 7 )
lex ( e ~ | f ~ , a ) = &Pi; j = j 1 j 2 1 | { i | ( i , j ) &Element; a } | &Sigma; &ForAll; ( i , j ) &Element; a p ( e j | f i ) - - - ( 8 )
&phi; ( f ~ | e ~ )
表示英语短语
Figure A200810055783D0016161634QIETU
翻译成汉语短语
Figure A200810055783D0016161652QIETU
的概率,
Figure A200810055783D00165
表示汉语短语翻译成英语短语
Figure A200810055783D00167
的概率,其中
Figure A200810055783D00168
表示汉语短语
Figure A200810055783D00169
和英语短语
Figure A200810055783D001610
的共现次数;
Figure A200810055783D001611
表示英语短语
Figure A200810055783D001612
翻译成汉语短语
Figure A200810055783D001613
的词汇化概率,其中p(fi|ej)表示英语短语
Figure A200810055783D001614
中的英语单词ej翻译成汉语短语中的汉语单词fi的概率,|{j|(i,j)∈a}|表示英语短语
Figure A200810055783D001616
和汉语短语
Figure A200810055783D001617
中一共有多少个英语单词对齐上;表示汉语短语翻译成英语短语
Figure A200810055783D001620
的词汇化概率,其中p(ej|fi)表示汉语短语中的汉语单词fi翻译成英语短语
Figure A200810055783D001622
中的英语单词ej的概率,|{i|(i,j)∈a}|表示英语短语
Figure A200810055783D001623
和汉语短语
Figure A200810055783D001624
中一共有多少个汉语单词对齐上。
●第二层粒度词对齐的生成
对于第二层粒度,我们根据汉英六个标点符号来对原始句对(也就是第一层粒度下的语块对)进行分割。这里我们简单的根据双语的6种标点符号作为划分锚点,对原始双语句子进行切割以得到单语语块群。汉语标点有“。!?,:;”,英语标点有“.!?;:,”。首先我们需要对英语的标点符号进行处理以确定该标点是否属于真正的切割标点,因为有很多英语单词的缩写和数据表示中带有缩略符“.”和标点符号“:”,例如:Mr.,23.35,12∶30等。其次,对于属于双括号中的标点符号我们也认为不属于切割的标点符号之列,因为双括号所包含的内容应该是一个不可分割的整体,即便它包含的内容很复杂,有时也可能含有几个标点符号,但我们都统一不切割,这些双括号有汉语的“[],『』,“”,(),《》”和英语的“[],{},“”,()”。最后我们会将几个切割标点符号连在一起的都做统一替换,例如汉英的省略号“...”等,我们都统一替换为汉语的“。”和英语的“.”。经过这些处理后,就可以根据这些汉英标点符号将汉英句子也就是第一层的双语语块切割成一个一个的单语语块。
如图3示出第二层对齐粒度下生成的语块对。这里,汉语句子
Figure A200810055783D00171
(也就是汉语语块1GBc1)被分成一系列的汉语语块1gbc1,...,1gbcm,...,1gbcM(这里M=5),对应地,英语句子
Figure A200810055783D00172
也被分成一系列的英语语块1gbe1,...,1gben,...,1gbeN(这里N=8)。然后根据无贪婪扩展特征算法和语块对的特性对这些单语语块进行对齐重组,从而抽取出该层粒度下的双语语块对。这里对所谓的“对齐重组”,我们利用语块对(2GBc32GBe3)的生成来解释一下,如图3所示,利用无贪婪扩展特征算法我们可以得到这些单语语块的匹配对:(2gbc32gbe6),(2gbc32gbe7),(2gbc32gbe8),(2gbc42gbe8),从而我们根据双语语块对的特性重组这些对齐为语块对为(2GBc32GBe3)。
从图3第二层对齐粒度下生成的语块对可以看出,经过对齐重组,我们可以获得该层粒度下的4个对齐双语语块分别为:(2GBc12GBe1),(2GBc22GBe2),(2GBc32GBe3),(2GBc42GBe4)。同理,我们将这四个语块对作为一一对齐语料送入GIZA++进行训练,得到该层粒度下的词对齐,词汇词典和短语词典。同样将这些知识作为特征用到下一层粒度的语块匹配算法中。
●第三层粒度词对齐的生成
考察第二层粒度下的对齐语块,我们发现对于汉语单语语块kgbcm和英语单语kgben来说,他们之间共有6种对齐类型,即:一对多(1-n),也就是说一个kgbcm跟多个kgben对齐;多对一(m-1),也就是说多个kgbcm跟一个kgben对齐,以下类推;多对多(m-n);一对一(1-1);零对一(0-1)和一对零(1-0)。
这六种对齐类型可归结为4种类型,即:(1)1-n或者m-1,(2)m-n,(3)1-1及(4)0-1或者1-0。这样在第三层粒度下我们只处理前面的两种(1)和(2),而剩下(3)和(4)则留在第四层上去处理。这样做的理由是为了充分发挥标点作为句子切割的锚点的作用,因为类型(1)和(2)中还含有标点信息,所以我们继续利用标点来作为划分上层粒度下的语块。
大家可能会疑惑为什么不在第二层中就充分利用所有的标点来进行初始句子的划分,原因在于:对于第二层的划分我们使用的是无贪婪扩展特征算法,该算法的复杂度是M×N,其中M是汉语句子的切割标点个数,也就是利用标点划分汉语句子的单语语块个数,N是英语句子的切割标点个数,也就是利用标点划分英语句子的单语语块个数,而如果这时候一方的句子没有了标点作为划分锚点,就只能依靠单词之间的空格来划分,就可能将这个空格作为划分的锚点候选,这样无疑会让该算法的复杂度急剧增加为M×N′,这里M是汉语(英语)切割标点个数,而N′却变成英语(汉语)句子词的个数。所以这里我们借助了上层粒度生成的词对齐作为新增特征来选择初始切割锚点。至于如何利用上层粒度生成的词对齐作为新增特征来进行初始切割锚点的选取,我们在下面一段中结合一个例子来详细叙述。
对于第一种对齐类型(1),我们仍然利用单向的标点作为切割子句的分割符号来将单语句子进行初始切割,唯一不同的是,我们这里需要利用第一层划分生成的词对齐信息和词典信息对另外一方不含有标点的句子进行分割,找到切分点,这里我们并非绝对的对其进行分割,只有分割和对齐的打分同时超过我们设定的阈值时才进行分割对齐处理。
例如:如图3所示,对于第二层粒度下的语块对(2gbc2)<=>(2gbe32gbe4),我们首先根据标点将(2gbe32gbe4)分割成两个待定单语语块3gbe53gbe6,因为我们这里仍旧选择的是利用标点进行初始切割,所以这里3gbe52gbe33gbe62gbe4。这里我们就开始利用第二层粒度下的词对齐对汉语对应语块(2gbc2)进行初始切割锚点的选择。观察(2gbc2)<=>(2gbe32gbe4)的词对齐情况,首先对于英语语块2gbe32gbe4,我们分别根据英语语块2gbe32gbe4所对应汉语语块中对应词的最小最大位置来给出一个初始划分,则这里的对齐一共有以下四种情况,如图4示出图4对齐的四种情况:
这里的I,II为一个或多个连续词序列的组合,a*,b*,c*为0个、1个或多个连续词序列的组合,对于情况图4(c)顺序交叉对齐和图4(d)逆序交叉对齐而言,其中的b*为一个或多个词序列的组合,因为这里如果b*为空,则被前两种情况图4(a)顺序无交叉对齐和图4(b)逆序无交叉对齐所包含。其中I,II分别是(2gbe32gbe4)所对应汉语语块的词对齐的最小最大位置所包含的词序列。这里所谓的交叉就是指I,II中是否包含同样的词。
这里对于情况图4(c)和图4(d)我们不处理,即如果对于这两个英语语块所对应的汉语词系列有交集的话,我们就不进行后续的操作,即不分开,在这层仍然不处理,仍旧将(2gbc2)<=>(2gbe32gbe4)作为一个双语语块输出。如果没有交集的话,如情况图4(a)和图4(b)所示,我们就可以试探的在b*所在区域用空格作为切割的候选锚点,并利用特征打分来确定最后的锚点。如果找到一点作为切割点将(2gbc2)分为两部分后,切割与对齐打分都大于我们设定的阈值,则选择该点作为最终切割点将(2gbc2)分为3gbc33gbc4。而对于a*则简单的将其和I合并生成新的I,将c*简单的和II合并组合生成新的II。
对于第二种对齐类型我们仍然采用标点作为初始分割符号,与第一种类型的算法大致相似,唯一不同的是因为该类型双向都有标点,所以我们在切割的时候,都假设另一方没有标点,而仅仅根据一方的标点对句子进行切割,然后根据特征确定出分割点,然后再反方向如此操作,最后也是挑选切割与对齐同时满足我们要求的分割点,如果双向都满足,则挑选得分高的作为我们最终的切分点。如果都不满足,则放弃切割。例如:还是依照前面的例子如图3所示,(2gbc32gbc4)<=>(2gbe62gbe72gbe8)就属于这种类型,我们首先假设(2gbe62gbe72gbe8)没有标点或者说将该标点都视为普通词对待,则将(2gbc32gbc4)根据标点分为两部分,然后将(2gbe62gbe72gbe8)的每个空格作为切分候选点,给出一个切割对齐打分。同样的,假设(2gbc32gbc4)中的标点都为普通词,则利用动态规划并结合词对齐将(2gbc32gbc4)切分为三个单语语块。在两个方向都做了切割对齐后,判断得分是否大于我们设定的阈值的情况下选择一个最优的切割方案。
图5示出第三层粒度对齐语块,用扁圆圈表示各粒度的对齐。由图5可以看出,该句对中的汉语句子在第三层粒度下被分割成7个汉语语块,而英语句子被分割成10个英语语块。同样,我们对第三层粒度的语块进行重组后得到该层粒度下的语块对,一共可以得到8个汉英一一对齐的双语语块对,即:(3GBc13GBe1),(3GBc23GBe2),...,(3GBc73GBe7),(3GBc83GBe8)。同理,我们将这八个语块对作为一一对齐语料送入GIZA++进行训练,得到该层粒度下的词对齐,词汇词典和短语词典。同样将这些知识作为特征用到下一层粒度的语块匹配算法中。
●第四层粒度词对齐的生成
等到第三层对齐粒度获取之后,我们在实验中发现还有很多信息可以利用,那就是英语中一些比较明显的词汇来引导并列句子或从句,例如“but”,“if”,“though”,“who”,“which”等等。我们就试想利用英语的这些关键词汇来作为分割的锚点对句子进行切割,从而生成更小粒度的语块对。
图6第三层粒度对齐,其中扁圆圈表示对齐。由图6可以发现,该句对经过第三次的切割对齐,汉语句子最终被切割成10个汉语语块,英语句子被切割成11个英语语块,并最终形成了11个一一对齐的语块对。
●综合利用四层粒度下的词对齐
这里我们有两种方法来获得最终的词对齐,一个是只改变训练语料的规模,即生成新的粒度下的语块对后,我们将新生成的语块对组成的一一对齐语料加入到上一层语料中,从而利用训练语料的改变来修正词对齐;另一个方法是线性加权词对齐,即生成新的粒度下的词对齐后,跟上层粒度的词对齐进行线性加权,从而得到一个新的词对齐。我们这里采用第二种线性加权多粒度词对齐的方法。
当所有粒度下的语块对都获取之后,我们对每种粒度下形成的训练语料都利用GIZA++工具包来训练生成一个词对齐并对称扩展(symmetrization)两个方向的词对齐,最后我们会得到4个I×J词对齐矩阵 A k = [ a k ij ] 和4个I×J对齐概率矩阵 P k = [ p k ij ] . 这里,我们用
Figure A200810055783D00203
表示第k层粒度下获得的汉语词cj和英语词ei的一个对齐信息,用
Figure A200810055783D00204
表示第k层粒度下获得的汉语词cj和英语词ei的一个概率信息。这里的词对齐矩阵就是GIZA++双向扩展后的词对齐文件,对于对齐矩阵 A k = [ a k ij ] , 如果cj和ei对齐的话,我们令 a k ij = 1 否则令 a k ij = 0 . 对于对齐概率矩阵,有 p k ij = ( p k ( e i | c j ) + p k ( c j | e i ) ) / 2 , 也就是说将GIZA++每次生成的双向的词对齐概率取平均,生成最后的词对齐概率矩阵。通过线性加权所有的粒度生成的词对齐矩阵可以生成一个新的I×J词对齐概率矩阵P=[pij],如公式(9)所示:
p ij = &Sigma; k = 1 K &lambda; k a k ij p k ij - - - ( 9 )
这里的pij表示对于四个粒度下的词对齐进行线性加权后生成的汉语词cj和英语词ei的一个概率值。利用公式(9),我们利用一个启发式算法就得到最终的I×J词对齐矩阵A=[aij],这里的aij表示对于四个粒度下的词对齐进行线性加权后生成的汉语词cj和英语词ei的一个对齐信息。下面给出该启发式算法获得最终词对齐的伪代码:
Figure A200810055783D00216
其中,SplitScorei是利用公式(10)来进行计算的,该公式主要是利用最大分割标准来选择分割点;表示所有概率小于p的平均概率;
Figure A200810055783D00218
表示所有概率大于p的平均概率。
SplitScore i = arg max p &Element; { p ij , 1 &le; j &le; J } ( u p ij < p - u p ij &GreaterEqual; p ) - - - ( 10 )
无贪婪扩展特征算法
由上面叙述,我们知道,我们在所有语块对的重组匹配中使用的是一种无贪婪的逐步扩展特征算法。该算法是基于很多特征的一种“线性模型”来计算两个双语语块间的匹配得分。这里说的语块,就是根据我们上面所述的各种粒度层下的汉语单语语块kgbcm或英语单语kgben。所谓“无贪婪”,是说这里并非固定几种搜索模式(0-1,1-0,1-1,1-2,2-1,2-2)来进行动态规划以找到一种最好的路径,而是很保守的计算每两个中英语语块对的匹配情况。“逐步扩展特征”也就是说对于任意两个语块对的匹配得分,我们并非都要用到所有的特征,而是只有第一选择和第二选择的匹配得分差别小于我们设定的阈值时才扩展下一个特征来重新计算其匹配得分。用一个简单的例子来说,如果针对当前粒度层下的汉语语块kgbcm,英语一共有N个单语语块kgbe1,...kgben,...kgbeN可能跟kgbcm对应上,我们利用前m(假设一共有M个特征,m<M)个特征来计算该汉语语块kgbcm跟每个英语语块kgben(1≤n≤N)的匹配得分,最后发现跟kgbcm最匹配的前2个是(kgbenkgben’),且MatchScore(kgbcmkgben)>MatchScore(kgbcmkgben’)。如果这两个匹配得分的差值大于我们设定的阈值(这里简称为“差别阈值”),则我们不用扩展第m+1个特征而是直接认为(kgbcmkgben)是对齐的语块对候选;反之,如果小于我们的阈值,则继续扩展第m+1个特征直到满足我们的要求,如果所有的特征(即m=M)都扩展完毕也不能满足该阈值的要求,则最后选择最大的一个打分对应的英语语块kgben(1≤n≤N)作为该汉语语块kgbcm的对齐候选。这样做主要是基于这样的思想:如果前面的特征已经能够提供足够的信息来识别正确对齐的双语子句,就没有必要扩展后面的特征来附加额外的信息进行识别,这样能在很大程度上减少搜索和规划时间,而且也能很好地保证对齐的准确性。
对于汉语单语语块kgbcm或英语单语kgben的匹配打分我们用公式 (11)来表示:
SMS ( g k b c m , gb e n k ) = &lambda; l &Sigma; k = 1 K &lambda; k h k ( g k b c m , g k b e n ) - - - ( 11 )
(1≤m≤N,1≤n≤N)
&lambda; k = 1 if feature k is extended 0 else
&lambda; l = 1 ifk < K w * max { | g k b c m | , | g k b e n | } / min { | g k b c m | , | g k b e n | } if k = K         (12)
这里SMS(·)就是指汉语单语语块kgbcm或英语单语kgben的匹配得分。K表示每层粒度下用到的特征数目;λk(1≤k≤K)是这K个特征hk(1≤k≤K)的特征权重,利用公式(12)来确定;特征K是一个长度惩罚特征,只有在利用前面的K-1个特征还不能得到我们希望的“差别阈值”的时候对匹配打分的一个长度修正,其中λl就是其修正因子,由公式(12)决定,其中的|·|表示·的长度。这里的hk(1≤k≤K)由公式(13)来确定:
h k ( g k b c m , g k b e n ) = &Sigma; i = 1 | g k b c m | Max 1 &le; j &le; ( g k b e n ) WMS ( c i , e j ) | gb c m k | 2 + | g k b e n | 2 ( 1 &le; k &le; K - 1 ) - - - ( 13 )
其中,这里|kgbcm|是汉语语块kgbcm的长度;|kgben|是英语语块kgben的长度;WMS(·)是两个中英语词(短语)的匹配得分,由公式(14)来决定:
WMS(ci,ej)=p(ej|ci)δ(ci,ej)           (14)
其中,p(ej|ci)表示两个中英语词或短语的匹配概率,这是由具体当前层下获取的词典概率保持一致,δ(ci,ej)是一个0-1函数,表示这两个词是否同现。
下面我们给出该无贪婪逐步扩展特征算法的一个伪代码表示,
Figure A200810055783D00241
实验语料
我们从NIST05语料中随机抽取了200K的语料来做为训练语料,利用NIST05的测试集来作为这里的翻译测试集。表1给出了训练语料、词对齐测试语料和机器翻译测试语料的统计量。
表1实验语料统计量
Figure A200810055783D00242
Figure A200810055783D00251
●实验结果
表2给出了原始利用GIZA++工具包生成的词对齐和我们的多粒度词对齐下的对齐精度以及BLEU打分对比。
表2分割对齐前后的词对齐与BLEU打分对比
Figure A200810055783D00252
从表2我们可以看出,利用本发明多层粒度词对齐算法,词对齐错误率AER绝对值降低了15个百分点还多,相对值降低了约28%;机器翻译BLEU打分绝对值提高了2.5个百分点,相对值提高了20%。
基于多粒度对齐的一个例子:
该例子是本发明中所给出的图示的例子的一个具体对照,如前所述,这里的第一层粒度语块就是直接将原始双语句子作为第一层粒度下的双语语块,见例子中的a)和图2所示;这里的第二层粒度语块就是利用汉英的六种标点作为划分锚点,然后利用无贪婪逐步扩展特征算法对包含单语语块的双语语块进行匹配打分,然后根据双语语块的特征重组生成的一一对齐的双语语块,这些特征是:a)完整性和自包含性、b)非连续性、c)可交叉性、d)最优匹配性,见例子中的b)和图3所示;这里的第三层粒度语块就是再次利用第二层粒度语块中包含的标点符号作为划分锚点,然后匹配重组生成,见例子中的c)和图5所示;第四层粒度语块就是利用英语语块中的关键词作为划分锚点,然后匹配重组生成,见例子中的d)和图6所示。
a)The 1st-grian alignments
C:<1gbc1>任建新说,尤其是中国加入世界贸易组织后,责任更重大、时间更紧迫、任务更艰巨。他要求尽快培养一批既懂世贸组织知识产权规则,又精通世界主要国家法律的专利执法高级人才,以适应入世后知识产权保护形势的需要。</1gbc1>
E:<1gbe1>Ren Jianxin noted.After its accession to the WTO,in particular,China will be shouldered with heavier responsibilities,will be more pressed fortime,and will face more arduous tasks.In view of the need to adapt China to thedemands of the situation for the protection of intellectual property rights after itsaccession to the WTO,he urged efforts to bring up,as soon as possible,a numberof senior patent law enforcement personnel who not only have a good mastery of theWTO′s rules and regulations on intellectual property rights but also have an intimateknowledge of the laws practiced in the world′s major countries.</1gbe1>
b)The2nd-grian alignments:
C:<2gbc1>任建新说,尤其是中国加入世界贸易组织后,</2gbc1><2gbc2>责任更重大、时间更紧迫、任务更艰巨。</2gbc2><2gbc3>他要求尽快培养一批既懂世贸组织知识产权规则,</2gbc3><2gbc4>又精通世界主要国家法律的专利执法高级人才,</2gbc4></2gbc5>以适应入世后知识产权保护形势的需要。</2gbc5>
E:<2gbe1>Ren Jianxin noted.After its accession to the WTO,</2gbe1><2gbe2>in particular,China will be shouldered with heavier responsibilities,</2gbe2><2gbe3>will be more pressed for time,</2gbe3><2gbe4>and will face morearduous tasks.</2gbe4><2gbe5>In view of the need to adapt China to the demandsof the situation for the protection of intellectual property rights after its accession tothe WTO,</2gbe5><2gbe6>he urged efforts to bring up,</2gbe6><2gbe7>as soonas possible,</2gbe7><2gbe8>a number of senior patent law enforcement personnelwho not only have a good mastery of the WTO′s rules and regulations onintellectual property rights but also have an intima teknowledge of the lawspracticed in the world′s major countries.</2gbe8>
2nd-grain alignments={<2gbc1><=><2gbe1+2gbe2>,<2gbc2><=><2gbe3+2gbe4>,<2gbc3+2gbc4><=><2gbe6+2gbe7+2gbe8>,<2gbc5><=><2gbe5>}
c)The 3rd-grain alignments:
<3gbc1>任建新说,</3gbc1><3gbc2>尤其是中国加入世界贸易组织后,</3gbc2>
<3gbe1>Ren Jianxin noted.</3gbe1><3gbe2>After its accession to the WTO,</3gbe2><3gbe3>in particular,</3gbe3><3gbe4>China will be shouldered with heavierresponsibilities,</3gbe4>
3rd-grain alignments={<3gbc1><=><3gbe1>,<3gbc2><=><3gbe2+3gbe3>,<><=><3gbe4>}
<3gbc3>责任更重大、时间更紧迫、</3gbc3><3gbc4>任务更艰巨。</3gbc4>
<3gbe5>will be more pressed for time,</3gbe5><3gbe6>and will face morearduous tasks.</3gbe6>
3rd-grain alignments={<3gbc3><=><3gbe5>,<3gbc4><=><3gbe6>}
<3gbc5>他要求尽快培养</3gbc5><3gbc6>一批既懂世贸组织知识产权规则,又精通世界主要国家法律的专利执法高级人才,</3gbc6>
<3gbe7>he urged efforts to bring up,</3gbe7><3gbe8>as soon as possible,</3gbe8><3gbe9>a number of senior patent law enforcement personnel who not onlyhave a good mastery of the WTO′s rules and regulations on intellectual propertyrights but also have an intimate knowledge of the laws practiced in the world′smajor countries.</3gbe9>
3rd-grain alignments={<3gbc5><=><3gbe7+3gbe8>,<3gbc6><=><3gbe9>}
<3gbc7>以适应入世后知识产权保护形势的需要。</3gbc7>
<3gbe10>In view of the need to adapt China to the demands of the situation fortheprotection of intellectual property rights after its accession to the WTO,</3gbe10>
3rd-grain alignments={<3gbc7><=><3gbe10>}
3rd-grain alignments={<3gbc1><=><3gbe1>,<3gbc2><=><3gbe2+3gbe3>,<><=><3gbe4>,<3gbc3><=><3gbe5>,<3gbc4><=><3gbe6>,<3gbc5><=><3gbe7+3gbe8>,<3gbc6><=><3gbe9>,<3gbe7><=><3gbe10>}
d)The 4th-grain alignments:
<4gbc1>任建新说,</4gbc1>
<4gbe1>Ren Jianxin noted.</4gbe1>
4th-grain alignments={<4gbc1><=><4gbe1>}
<4gbc2>尤其是中国加入世界贸易组织后,</4gbc2>
<4gbe2>After its accession to the WTO,in particular,</4gbe2>
4th-grain alignments={<4gbc2><=><4gbe2>}
<4gbe3>China will be shouldered with heavier responsibilities,</4gbe3>
4th-grain alignm ents={<><=><4gbe3>}
<4gbc3>责任更重大、时间更紧迫、</4gbc3>
<4gbe4>will be more pressed for time,</4gbe4>
4th-grain alignments={<4gbc3><=><4gbe4>}
<4gbc4>任务更艰巨。</4gbc4>
<4gbe5>and willface more arduous tasks.<4gbe5>
4th-grain alignments={<4gbc4><=><4gbe5>}
<4gbc5>他要求尽快培养</4gbc5>
<4gbe6>he urged efforts to bring up,as soon as possible,</4gbe6>
4th-grain alignments={<4gbc5><=><4gbe6>}
<4gbc6>一批既懂世贸组织知识产权规则,</4gbc6><4gbc7>又精通世界主要国家法律的</4gbc7><4gbc8>专利执法高级人才,</4gbc8>
<4gbe7>anumber of senior patent law enforcement personnel</4gbe7><4gbe8>who not only have a good mastery of the WTO′s rules and regulations onintellectual property rights</4gbe8><4gbe9>but also have an intimate knowledge ofthe laws practiced in the world′s major countries.</4gbe9>
4th-grainalignments={<4gbc6><=><4gbe8>,<4gbc7><=><4gbe9>,<4gbc8><=><4gbe7>}
<4gbc9>以适应入世后</4gbc9><4gbc10>知识产权保护形势的需要。</4gbc10>
<4gbe10>In view of the need to adapt China to the demands of the situation forthe protection of intellectual property rights</4gbe10><4gbe11>after its accession tothe WTO,</4gbe11>
4th-grain alignments={<4gbc9><=><4gbe10>,<4gbc10><=><4gbe11>}
4th-gr ainalignments={<4gbc1><=><4gbe1>,<4gbc2><=><4gbe2>,<><=><4gbe3>,<4gbc3><=><4gbe4>,<4gbc5><=><4gbe6>,<4gbc6><=><4gbe8>,<4gbc7><=><4gbe9>,<4gbc8><=><4gbe7>,<4gbc9><=><4gbe10>,<4gbc10><=><4gbe11>}
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1、一种汉英词语自动对齐方法,其特征在于,自动对齐的步骤包括:
步骤1:对原始汉、英双语句提取划分语块的特征信息;
步骤2:将特征信息划分,生成多层不同粒度的语块划分锚点信息;
步骤3:利用多层不同粒度语块的锚点信息对双语词对之间进行局部定位,生成词对齐文件。
2、根据权利要求1所述的汉英词语自动对齐方法,其特征在于,步骤1所述提取特征信息的步骤包括:
步骤11:将原始汉、英双语句对作为第一层粒度下的汉、英双语语块;
步骤12:利用GIZA++工具包对汉、英双语语块进行训练,得到第一层粒度下的词对齐文件;
步骤13:同时利用GIZA++对汉、英双语语块进行训练生成双向词汇词典;
步骤14:利用双向词汇词典,以及在第一层粒度下的词对齐文件上抽取的短语词典作为第二层粒度的双语语块打分特征;
步骤15:直至在上层粒度下的词对齐文件上抽取的短语词典作为下层粒度的双语语块打分特征。
3、根据权利要求1所述的汉英词语自动对齐方法,其特征在于,步骤2所述特征信息划分步骤包括:
步骤21:根据汉、英语标点符号对第一层粒度下的汉、英双语语块对进行分割;
步骤22:根据汉、英双语的标点符号作为划分锚点对将原始汉、英双语语块句子划分成单语语块;
步骤23:利用第一层粒度产生的双向词汇词典和短语词典,再加上长度惩罚作为特征对含有这些单语语块的双语语块进行打分匹配并重组生成第二层粒度下的一一对齐的双语语块;
步骤24:利用GIZA++工具包对第二层粒度的双语语块进行训练,得到第二层粒度下的词对齐文件;
步骤25:同样将得到的双向词汇词典、短语词典和词对齐文件作为下一层粒度的双语语块匹配打分特征,生成多层不同粒度的语块锚点信息。
4、根据权利要求1所述的汉英词语自动对齐方法,其特征在于,步骤2所述特征信息划分步骤还包括:
步骤26:利用汉、英语的单向标点作为锚点,将汉、英语另外一侧的标点等同为普通词汇,从而利用上层粒度生成的词对齐文件、词汇词典和短语词典来进行语块的划分与重组,从而获得下层粒度下的双语语块;
步骤27:利用GIZA++对上层粒度下的双语语块进行训练以获得上层粒度下的词对齐文件,将得到的词汇及短语词典作为下一层粒度的双语语块匹配打分特征。
5、根据权利要求1所述的汉英词语自动对齐方法,其特征在于,步骤3所述局部定位的步骤包括:
步骤31:利用英语的一些关键词特征来作为对上层语块划分的锚点,从而进一步对上层双语语块进行细分,并利用打分匹配算法获得下层粒度的双语语块;
步骤32:利用GIZA++获得下层粒度下的词对齐文件;
步骤33:线性加权多层粒度下的词对齐文件,生成最终的词对齐文件,从而完成自动对齐。
6、根据权利要求2所述的汉英词语自动对齐方法,其特征在于,所述对于第一层粒度的词对齐生成,并利用第一层生成的词汇和短语列表词典作为第二层粒度划分语块的特征;
对于GIZA++生成的双向词典的处理,是抽取每个方向的每个词条所对应的最大概率所对应的那个词条作为该词条的翻译,然后合并这两个方向的词典生成第一层粒度下的词汇词典;
对于短语词典,利用最小错误训练得到的最优参数和解码设置的最大候选短语个数N来对抽取的所有短语对进行过滤,即:首先对短语对的四个概率利用最小错误训练的最优特征权重来优化为一个概率打分,其次根据这个概率打分对每个汉语短语所对应的英语短语进行排序,为每个汉语短语只选择排名前N个英语候选短语作为其翻译候选,形成最终的带概率的短语词典作为短语词典特征加入到分割算法中。
7、根据权利要求3所述的汉英词语自动对齐方法,其特征在于,所述对于第二层及第二层之后的粒度的双语语块的匹配打分,采用无贪婪扩展特征算法来实现:无贪婪扩展特征算法是基于很多特征的一种线性模型,这些特征融合了词对齐链接个数以及位置、词汇词典、短语词典和长度惩罚;所述无贪婪是遍历计算每两个汉英语块对的匹配情况;所述逐步扩展特征是对于任意两个语块对的匹配得分,只有第一选择和第二选择的匹配得分差别小于设定的阈值时才扩展下一个特征来重新计算其匹配得分;无贪婪扩展特征算法具有处理那些不连续及交叉对齐的情况,用于遏制错误的衍生和蔓延。
8、根据权利要求4所述的汉英词语自动对齐方法,其特征在于,所述对于第三层粒度局部定位的双语语块匹配,采用再次利用这层粒度的汉语或英语语块的标点信息而忽视英语或汉语标点信息的做法来再次挖掘标点的特殊作用,从而将语块的粒度更加细化,经过这次划分的汉英语块都是不含有划分标点的语块,再利用结合词对齐的位置特征,将相邻两个语块的词对齐最大最小位置所不能覆盖的点作为划分的候选锚点,用于进一步降低计算的复杂度,搜索空间和搜索路径。
9、根据权利要求5所述的汉英词语自动对齐方法,其特征在于,所述利用英语的一些关键词信息,是引导分句的关键词来对上层语块进一步切割细分,对那些不包含任何划分标点的单句进行更小粒度的划分,用于将词对齐控制到一个更小的范围。
10、根据权利要求1所述的汉英词语自动对齐方法,其特征在于,在所述每层粒度下的词对齐错误率(AER)和机器翻译评测指标(BLEU),对生成的四个粒度下的四种词对齐文件进行线性加权,这四个粒度下的词对齐分别是:第一层粒度词对齐是利用GIZA++工具包直接将原始双语句子作为双语语块进行训练获得的词对齐文件;第二层粒度词对齐是利用标点信息对第一层粒度语块进行切割重组生成的新的一一对齐双语语块,然后利用GIZA++工具包训练获得的词对齐文件;第三层是再次利用标点信息对第二层粒度的双语语块进行分割重组生成第三层一一对齐双语语块,然后利用GIZA++工具包进行训练获得的词对齐文件;第四层粒度就是利用英语的关键词信息对第三层粒度语块进行切割重组生成第四层粒度语块,然后利用GIZA++工具包训练获得的词对齐文件;利用这四层粒度下的词对齐错误率和机器翻译打分生成线性加权的权重经验值,从而利用线性加权的方法来融合这四层粒度下的词对齐,用于获得兼顾词对齐的准确率与召回率。
CN2008100557838A 2008-01-09 2008-01-09 一种汉英词语自动对齐方法 Active CN101482861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100557838A CN101482861B (zh) 2008-01-09 2008-01-09 一种汉英词语自动对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100557838A CN101482861B (zh) 2008-01-09 2008-01-09 一种汉英词语自动对齐方法

Publications (2)

Publication Number Publication Date
CN101482861A true CN101482861A (zh) 2009-07-15
CN101482861B CN101482861B (zh) 2011-06-01

Family

ID=40879978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100557838A Active CN101482861B (zh) 2008-01-09 2008-01-09 一种汉英词语自动对齐方法

Country Status (1)

Country Link
CN (1) CN101482861B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN106062736A (zh) * 2014-03-07 2016-10-26 国立研究开发法人情报通信研究机构 词语对齐分数算出装置、词语对齐装置、以及计算机程序
CN106547743A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN111797638A (zh) * 2020-06-23 2020-10-20 语联网(武汉)信息技术有限公司 一种单词级质量标签的生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801140A (zh) * 2004-12-30 2006-07-12 中国科学院自动化研究所 一种机器翻译模板自动获取方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置
CN106062736A (zh) * 2014-03-07 2016-10-26 国立研究开发法人情报通信研究机构 词语对齐分数算出装置、词语对齐装置、以及计算机程序
CN106062736B (zh) * 2014-03-07 2019-04-05 国立研究开发法人情报通信研究机构 词语对齐分数算出装置、词语对齐装置、以及存储介质
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN106547743A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
CN106547743B (zh) * 2015-09-23 2020-03-27 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN111797638A (zh) * 2020-06-23 2020-10-20 语联网(武汉)信息技术有限公司 一种单词级质量标签的生成方法及装置
CN111797638B (zh) * 2020-06-23 2023-11-03 语联网(武汉)信息技术有限公司 一种单词级质量标签的生成方法及装置

Also Published As

Publication number Publication date
CN101482861B (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
CN101482861B (zh) 一种汉英词语自动对齐方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN102214166B (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN105069124A (zh) 一种自动化的国际疾病分类编码方法及系统
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
CN102945228B (zh) 一种基于文本分割技术的多文档文摘方法
US7689405B2 (en) Statistical method for building a translation memory
JP4993762B2 (ja) 用例ベースの機械翻訳システム
CN101866337B (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN103500160B (zh) 一种基于滑动语义串匹配的句法分析方法
Brown et al. Analysis, statistical transfer, and synthesis in machine translation
CN103235775B (zh) 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN101655837A (zh) 一种对语音识别后文本进行检错并纠错的方法
CN103189860A (zh) 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN104756100A (zh) 意图估计装置以及意图估计方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN100555271C (zh) 基于替换词技术的无指导词义消歧方法
CN101493812B (zh) 一种音字转换方法
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN103678271A (zh) 一种文本校正方法及用户设备
CN103186658A (zh) 用于英语口语考试自动评分的参考语法生成方法和设备
Lagakis et al. Automated essay scoring: A review of the field
CN101464855B (zh) 含有汉语的字符串的分词方法及在字符串中检索词的方法
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN103246714B (zh) 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant