CN101989261A - 统计机器翻译短语抽取方法 - Google Patents
统计机器翻译短语抽取方法 Download PDFInfo
- Publication number
- CN101989261A CN101989261A CN 200910164809 CN200910164809A CN101989261A CN 101989261 A CN101989261 A CN 101989261A CN 200910164809 CN200910164809 CN 200910164809 CN 200910164809 A CN200910164809 A CN 200910164809A CN 101989261 A CN101989261 A CN 101989261A
- Authority
- CN
- China
- Prior art keywords
- alignment
- phrase
- probability
- frequency
- extraction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种统计机器翻译短语抽取方法,包括下列步骤:1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;3)根据所述对齐矩阵,计算短语对齐的频度;4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。本发明能够有效表示所有可能的对齐短语组合,提高了短语抽取的质量,进而能够提高根据所抽取的短语进行翻译的质量。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及文本的统计机器翻译领域。
背景技术
随着世界经济的迅猛发展,各国间的文化,经济等的交往越来越频繁,人们每天的工作和生活有时不得不面对来自各个国家的各种语言的资料和信息,随之而来的一个主要问题便是语言理解问题,人们需要能够在较短的时间内理解使用非母语写成的资料。
因此,机器翻译技术应运而生,早期的机器翻译主要集中在规则翻译系统的研究,但翻译规则的书写需要语言专家的参与,而且通常每更换一个翻译领域就要重写一大批的规则,需要耗费大量的人力、物力、财力,在这种情形下,统计机器翻译方法在机器翻译领域迅速崛起。
统计机器翻译通过利用大规模的平行双语语料对翻译系统进行训练(统计建模)来成功完成翻译。只要拥有足够多的双语平行语料,就可以在无人干预的情形下短时间内搭建一个任何语言对象之间的机器翻译系统,而且从目前国际上主流的统计机器翻译系统的效果来看,已基本上赶上甚至超越了规则翻译系统。
但是,现有的统计机器翻译方法存在一些缺陷。作为统计机器翻译技术最重要的第一步,双语语料的对齐基于吉萨++(GIZA++)产生的最优解(1-best)进行。在所生成的被称作对齐矩阵的反映对齐关系的二维矩阵中,如果词语对齐,则相应的元素为“1”;否则为“0”。由于双语语料规模和质量的限制,该对齐矩阵所表示的对齐质量并不理想,从而导致抽取的短语表较差,进一步造成翻译质量差。
发明内容
为了减小统计机器翻译中基于1-best的对齐错误对后续短语抽取的影响,改善抽取短语的质量,本发明提供一种统计机器翻译短语抽取方法。
根据本发明的一个方面,提供了一种统计机器翻译短语抽取方法,包括下列步骤:
1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;
2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;
3)根据所述对齐矩阵,计算短语对齐的频度;
4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。
在该短语抽取方法中,所述步骤3)进一步包括:
31)根据所述对齐矩阵,对于每个短语对齐,计算内向概率和外向概率;
32)计算所述内向概率和所述外向概率的积作为所述短语对齐的频度。
在该短语抽取方法中,所述步骤32)后还包括:
步骤33)过滤所述短语对齐的频度小于阈值的短语对齐。
在该短语抽取方法中,所述阈值为区间(0.1,1)内的实数。
在该短语抽取方法中,所述步骤1)进一步包括:
分别从两个方向对双语语料进行对齐,每个方向获得多个对齐的最优解以及所述最优解的概率;
获得一个方向的所述多个最优解与另一个方向的所述多个最优解的对齐句对组合,并根据所述最优解的概率计算所述对齐句对组合的先验概率。
在该短语抽取方法中,所述对齐的最优解的个数为大于1且小于11的正整数。
本发明的优点在于,能够有效表示所有可能的对齐短语组合,提高了短语抽取的质量。
附图说明
图1是根据本发明一个具体实施例的统计机器翻译短语抽取方法的流程图;
图2是示出对齐的最优解的个数N与翻译系统的性能的关系的示意图;
图3是当所述对齐的最优解的个数N=50时,减枝阈值与翻译性能的关系的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的统计机器翻译短语抽取方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了根据本发明一个具体实施例的统计机器翻译短语抽取方法的流程图,如图所示,该方法包括以下步骤:
步骤1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率。
下面给出执行该步骤的一个示例:
11)分别从源语言到目标语言的方向和相反方向利用GIZA++对双语语料进行对齐,并对于每个方向都输出N个对齐的最优解(N-best)以及对齐的最优解的概率。
12)从每个方向的N个最优解中各取一个进行组合,得到N2个对齐句对组合;对这N2个对齐句对组合,利用启发式合并策略(grow-diag-final-and),进行合并,根据每个对齐句对组合的两个对齐的最优解的概率之积计算该对齐句对组合的概率,并对对齐句对组合的概率进行平滑,作为该对齐句对组合的先验概率。更具体地,取前N个对齐的最优解的概率并进行归一化。假设对于某一可能的对齐句对的两个方向的对齐,GIZA++输出概率分别为p1,p2,则对于对应的对齐句对组合,利用启发式合并策略进行合并后所得到的对齐句对组合的先验概率为(p1p2)a。由于启发式合并是基于规则的,因此指数为一个控制平滑的参数,优选的,该指数的范围为(0.1,2)。特别的,对于新闻语料,该参数优选为1,而对于口语,该参数优选为0.5。
本领域普通技术人员可以理解,除了上面所述的示例,也可以使用例如“判别式”对齐模型等来直接生成N2个对齐句对组合,并计算该N2个对齐句对组合的先验概率。
步骤2)、对于所有对齐的最优解,将其先验概率压缩到一个二维对齐矩阵上,对齐矩阵上的(i,j)元素的数值表示所对应的词语对的对齐概率,其为N2个对齐句对组合中该词语对的先验概率之和。如果存在空词,则所有对齐包括空词和其相应的词语的对齐。值得注意的是在对齐矩阵上的每一个元素仅仅反映对应的词语对的对齐的概率,而与其它词语对的对齐没有关系。
步骤3)、在二维对齐矩阵上进行短语抽取:枚举所有短语对齐,计算内向概率和外向概率,用其乘积作为该短语对齐的频度。根据本发明的优选实施例,利用频度阈值过滤掉对齐的频度较低的低质量的短语。下面给出一个计算内向概率和外向概率的具体示例。
假定对齐矩阵如下:
其中,对齐句对为“中国的经济发展“和”the development of China’s economy“。矩阵中的每一个元素均表示一个词语对的对齐概率,可以理解,该词语对不对齐的概率就是(1-该对齐概率)。
对于任意一个给定的短语对齐,例如“中国的”和“of China”,如上表所示,将矩阵的元素划分为三部分:
1:内部元素,如虚线矩形和实线矩形相重合的部分;
2:外部元素,如虚线矩形和实线矩形中除内部元素的部分;
3:不相关元素,如对齐矩阵中其它元素。
根据短语抽取的“对齐一致性”原则,如果可以抽取“中国的”和“of China”这个短语对齐,就要求两点:
1:内部元素存在一个不为0的情况,这对应于内部概率,其等于(1-所有内部元素同时为0的概率之积)。
2:外部元素所有均为0的情况,这对应于外部概率,其等于所有外部元素同时为0的概率之积。
仍以短语对齐“中国的”和“of China”为例,其
内部概率为:1-(1-1.0)(1-0)(1-0)(1-0.6)=1
外部概率为:
(1-0)(1-0)(1-0)(1-0.4)(1-0)(1-0)(1-0)(1-0)(1-0)(1-0)(1-0)(1-0.4)=0.36
因此该短语对齐的频度为1*0.36=0.36
枚举所有短语对齐是一个穷举对齐矩形内部的所有子矩阵的过程。如上所述使用内向概率和外向概率的乘积来评价短语对齐的频度。使用一个阈值来控制最小频度的短语对齐,其中该阈值的范围是(0.1,1)。优选地,如果在枚举的过程中发现某个短语对齐的频度小于阈值,则不再对该短语对齐继续计算。此过程被称为减枝过程,其在实际中被证明有效提高了方法的速度。
步骤4)根据上述所计算的短语对齐的频度计算短语对齐的相对频度和词汇化概率,并输出短语表,其中相对频度和词汇化概率均是短语对齐的特征。
对于对齐短语的相对频度Prel(tgt|src),根据本发明的一个具体实施例,采用如下面公式进行计算:
其中src表示源语言短语,tgt表示某一个目标语言短语,tgt*表示任一的目标语言短语,c(src,tgt)表示如上所述的短语对齐src-tgt的频度,c(src,tgt*)与之类似。
其中表示目标语言短语,表示源语言短语,m表示对齐矩阵,p(j,i)表示对齐矩阵中第j行,第i列位置的元素,符号|{j/p(j,i)>0}|表示取符合条件的j的个数,p(ei/fj)表示短语对齐ei-fj的相对频度特征,f0表示空词,表示源语言短语中的词语的个数,
本发明提取了更高效的短语对齐集合,以提高后续的机器翻译的质量。在本发明的汉语到英语的实施例中,使用大约23万句对的新闻FBIS作为训练集合,使用国际知名的开源机器翻译系统摩西(Moses)进行测试,使用机器翻译的标准度量方法BLEU进行效果衡量,其中BLEU越高表示效果越好。
图2示出了当上面所述对齐的最优解的个数N取不同数值时翻译系统的性能比较示意图。如图所示,当N=1时,即根据现有技术多获得的短语对齐,摩西系统的BLEU为0.2826,N>1时,诸如N=50,翻译系统的性能大于N=1的情况。当N=10时BLEU为0.29,但当N>10,系统性能又出现了下降,综合考虑时间因素,所以优选的,1<N≤10。
图3示出了当所述对齐的最优解的个数N=50时,减枝阈值t对最后翻译性能的影响,其反映了不同阈值下抽取的规则数量对BLEU的影响。如图所示,当阈值为(0.1,1)的范围内时,BLEU的值已经收敛,所以该阈值优选为(0.1,1)。
综合上面两个实验结果来看,根据本发明的实施例的统计机器翻译短语抽取方法对后续的机器翻译有着显著的积极作用。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (6)
1.一种统计机器翻译短语抽取方法,包括下列步骤:
1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;
2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;
3)根据所述对齐矩阵,计算短语对齐的频度;
4)根据所述短语对齐的频度计算所述短语对齐的相对频度和词汇化概率。
2.根据权利要求1所述的短语抽取方法,其特征在于,所述步骤3)进一步包括:
31)根据所述对齐矩阵,对于每个短语对齐,计算内向概率和外向概率;
32)计算所述内向概率和所述外向概率的积作为所述短语对齐的频度。
3.根据权利要求2所述的短语抽取方法,其特征在于,所述步骤32)后还包括:
步骤33)过滤所述短语对齐的频度小于阈值的短语对齐。
4.根据权利要求3所述的短语抽取方法,其特征在于,所述阈值为区间(0.1,1)内的实数。
5.根据权利要求1所述的短语抽取方法,其特征在于,所述步骤1)进一步包括:
分别从两个方向对双语语料进行对齐,每个方向获得多个对齐的最优解以及所述最优解的概率;
获得一个方向的所述多个最优解与另一个方向的所述多个最优解的对齐句对组合,并根据所述最优解的概率计算所述对齐句对组合的先验概率。
6.根据权利要求1或5所述的短语抽取方法,其特征在于,所述对齐的最优解的个数为大于1且小于11的正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910164809 CN101989261B (zh) | 2009-08-01 | 2009-08-01 | 统计机器翻译短语抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910164809 CN101989261B (zh) | 2009-08-01 | 2009-08-01 | 统计机器翻译短语抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101989261A true CN101989261A (zh) | 2011-03-23 |
CN101989261B CN101989261B (zh) | 2013-03-13 |
Family
ID=43745798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910164809 Expired - Fee Related CN101989261B (zh) | 2009-08-01 | 2009-08-01 | 统计机器翻译短语抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101989261B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488629A (zh) * | 2013-09-24 | 2014-01-01 | 南京大学 | 一种机器翻译中翻译单元表的抽取方法 |
CN103823795A (zh) * | 2012-11-16 | 2014-05-28 | 佳能株式会社 | 机器翻译系统、机器翻译方法和与其一起使用的解码器 |
CN104484377A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 替换词典生成方法及装置 |
CN105630776A (zh) * | 2015-12-25 | 2016-06-01 | 清华大学 | 一种双向词语对齐方法及装置 |
CN107229613A (zh) * | 2017-06-06 | 2017-10-03 | 锦州医科大学 | 一种基于向量空间模型的英汉语料提取方法 |
CN107391495A (zh) * | 2017-06-09 | 2017-11-24 | 北京吾译超群科技有限公司 | 一种双语平行语料的句对齐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464856A (zh) * | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 平行口语语料的对齐方法和装置 |
-
2009
- 2009-08-01 CN CN 200910164809 patent/CN101989261B/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823795A (zh) * | 2012-11-16 | 2014-05-28 | 佳能株式会社 | 机器翻译系统、机器翻译方法和与其一起使用的解码器 |
CN103823795B (zh) * | 2012-11-16 | 2017-04-12 | 佳能株式会社 | 机器翻译系统、机器翻译方法和与其一起使用的解码器 |
CN103488629A (zh) * | 2013-09-24 | 2014-01-01 | 南京大学 | 一种机器翻译中翻译单元表的抽取方法 |
CN103488629B (zh) * | 2013-09-24 | 2016-02-03 | 南京大学 | 一种机器翻译中翻译单元表的抽取方法 |
CN104484377A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 替换词典生成方法及装置 |
CN104484377B (zh) * | 2014-12-09 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 替换词典生成方法及装置 |
CN105630776A (zh) * | 2015-12-25 | 2016-06-01 | 清华大学 | 一种双向词语对齐方法及装置 |
CN107229613A (zh) * | 2017-06-06 | 2017-10-03 | 锦州医科大学 | 一种基于向量空间模型的英汉语料提取方法 |
CN107391495A (zh) * | 2017-06-09 | 2017-11-24 | 北京吾译超群科技有限公司 | 一种双语平行语料的句对齐方法 |
CN107391495B (zh) * | 2017-06-09 | 2020-08-21 | 北京同文世纪科技有限公司 | 一种双语平行语料的句对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101989261B (zh) | 2013-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN101989261B (zh) | 统计机器翻译短语抽取方法 | |
CN102591988B (zh) | 基于语义图的短文本分类方法 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN102063424A (zh) | 一种中文分词方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN104750820A (zh) | 一种语料库的过滤方法及装置 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
CN109933796A (zh) | 一种公告文本关键信息提取方法及设备 | |
CN109101518A (zh) | 语音转录文本质量评估方法、装置、终端及可读存储介质 | |
CN112417854A (zh) | 中文文档抽取式摘要方法 | |
CN104572634A (zh) | 一种交互式抽取可比语料与双语词典的方法及其装置 | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN116050397B (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN110717341A (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN106610953A (zh) | 基于基尼指数求解文本相似度的方法 | |
CN102360436B (zh) | 一种基于部件的联机手写藏文字符的识别方法 | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
CN114492392A (zh) | 一种基于短语向量构造的年报风险挖掘系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130313 Termination date: 20210801 |
|
CF01 | Termination of patent right due to non-payment of annual fee |