CN1801140A - 一种机器翻译模板自动获取方法及装置 - Google Patents

一种机器翻译模板自动获取方法及装置 Download PDF

Info

Publication number
CN1801140A
CN1801140A CN 200410101877 CN200410101877A CN1801140A CN 1801140 A CN1801140 A CN 1801140A CN 200410101877 CN200410101877 CN 200410101877 CN 200410101877 A CN200410101877 A CN 200410101877A CN 1801140 A CN1801140 A CN 1801140A
Authority
CN
China
Prior art keywords
chinese
english
phrase structure
alignment
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410101877
Other languages
English (en)
Inventor
宗成庆
胡日勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 200410101877 priority Critical patent/CN1801140A/zh
Publication of CN1801140A publication Critical patent/CN1801140A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤:a)语料的预处理;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括:汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。

Description

一种机器翻译模板自动获取方法及装置
技术领域
本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。
背景技术
随着语料库技术的发展,越来越多的双语语料库资源被应用于机器翻译和自然语言理解中的知识获取。机器翻译的模板作为机器翻译系统中的一种重要的知识,受到了广泛的关注。在很多机器翻译和机助翻译系统中,机器翻译模板都是一种不可或缺的资源。因此,机器翻译模板自动获取方法的研究具有重要的现实意义。在本文中,我们提出了一种从英汉对齐的双语语料库中基于短语结构抽取和对齐的自动获取机器翻译模板的方法。
在早期的基于实例的机器翻译系统中,翻译模板往往是手工从语料库中提取出来的。Kitano在他的系统中采取了一种翻译规则的手工编码的方式。Sato也建立了一个基于实例的机器翻译系统,在这个系统中,采用了人工撰写的匹配表达式作为机器翻译的模板。但是,当语料库越来越大的时候,这种人工的方法就会变得越来越困难,会带来越来越多的错误。
一些学者也提出了自动从语料库中获取模板的方法,如Güvenir和Cicekli等人提出的基于类比学习的方法和Watanabe、Imamura等人提出的基于结构对齐的方法。基于类比学习的方法是通过比较语料库中的翻译实例的相同部分和不同部分,加以归纳,将不同的部分进行变量置换而得到翻译模板。这种方法需要非常大规模而且存在大量相似句子的双语语料库。基于结构对齐的方法遵循着一个“分析—分析—匹配”的过程。这种方法首先分别对两种语言进行句法分析,然后根据一定的启发式算法进行双语的结构的匹配。这种方法同时需要两种语言的高精度的句法分析器,就目前来说,尤其对于汉语,很难找到一个可靠的句法分析工具。吕雅娟等人提出了一种基于单语句法分析的结构对齐方法,取得了不错的效果,但是仍然需要以句法分析作为基础。基于此,本文作者对我们提出了一种新的基于短语结构抽取和对齐的模板获取方法。在这种方法中采用了统计模型和动态规划的策略,避免了句法解析器的使用。实验证明新方法的采用可以使机器翻译模板获取的精度达到76.77%,充分证明了它的有效性。
发明内容
本发明的目的在于提供一种新的面向机器翻译的翻译模板自动获取的方法。
本发明是以计算机作为工具,根据基于短语结构抽取和对齐的模板获取算法,采取一定的相似度量度和语法归纳装置,建立了包含从文本预处理到短语结构提取,再到短语结构对齐以及后处理等一整套功能的自动分类装置。
本发明提出了一种新的基于短语结构抽取和对齐的模板获取方法。在这种方法中采用了统计模型和动态规划的策略,避免了句法解析器的使用。实验证明这种方法的采用可以使机器翻译模板获取的精度达到76.77%,充分证明了它的有效性。
自动机器翻译模板获取器的装置,由汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置组成,其中,汉语分词装置和汉语语法归纳装置串联后,与英语语法归纳装置并联,再依次与短语结构对齐装置以及后处理装置串联连接。
发明技术方案
面向机器翻译的模板自动获取的方法:
用基于短语结构抽取和对齐的方法进行机器翻译模板自动获取的步骤:
a)语料的预处理:对需要进行模板获取的双语对齐语料库中的中文部分进行分词;
b)分别提取汉语部分的词表以及英语部分的词表;
c)分别对汉语部分和英语部分进行语法的归纳(GrammarInduction),从而分别提取出两部分的短语结构;
d)对提取出来的短语结构进行对齐;
e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数。
f)对对齐的结果进行后处理以获得所需要的机器翻译模板。
步骤c中提到的语法归纳的过程中采取了基于语义相似度的统计模型。
步骤c中提到的语法归纳的过程中采取了递归循环的方式。
步骤c中提到的语法归纳的过程中采取了Kullback-Leibler(KL)距离、Cosine Measure,Cosine of Pointwise Mutual Information以及Dice Co-efficient作为相似度的量度。
步骤d中提到的结构对齐方法中采用了基于动态规划的反向划界文法(Bracketing Inversion Transduction Grammar,BTG)。
自动机器翻译模板获取器的功能化设计思路(共五个装置):汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置,见附图1。
下面详细说明本发明技术方案中所涉及的各个细节问题。
1、语法归纳:
本文中所采用的语法归纳算法是一种聚类算法。这种算法包含两个主要步骤:空间聚类和时间聚类。在空间聚类过程中,我们将具有类似上下文的单元聚为一类,这些单元往往具有相似的语义,我们把这些类称作语义类。在时间聚类的过程中,我们将具有最高同现概率的单元聚为一类,这些单元往往是常用的短语,我们将这些类称作短语结构类。
在空间聚类中,我们采用Kullback-Leibler(KL)距离作为一个单元上下文分布的相似程度的量度:
D ( p 1 | | p 2 ) = Σ i = 1 V p 1 ( i ) log p 1 ( i ) p 2 ( i )
其中,这p1表示单元e1的上下文的词汇的分布,p2表示单元e2的上下文的词汇的分布,V表示所有出现在e1和e2上下文中的词汇的集合。
为了获得对称的距离量度,我们使用了散度作为距离的量度:
             Div(p1,p2)=D(p1‖p2)+D(p2‖p1)
两个单元e1和e2的距离就可以表示成为:
Dist ( e 1 , e 2 ) = Div ( p 1 left , p 2 left ) + Div ( p 1 right , p 2 right )
为了使得聚类的精度更高,我们引入了扩展上下文的概念。所谓的扩展上下文,就是上下文的邻接词。在计算中,我们也将扩展上下文考虑进来,两个单位的距离就可以表示为:
Dist * ( e 1 , e 2 ) = Div ( p 1 left , p 2 left ) + 1 2 Div 2 ( p 1 left , p 2 left ) + Div ( p 1 right , p 2 right ) + 1 2 Div 2 ( p 1 right , p 2 right )
其中,Div2(p1,p2)为扩展上下文的散度。
两个单元的相似程度就可以表示为:
SIM = 1 1 + Dist *
我们还研究了其他一些基于向量空间的相似度量度。我们引入特征向量来描述一个单元的上下文,如果一个单元w出现在给定的单元e的上下文中,这个特征就可以用特征向量(posi,w)来表示,posi表示w的位置,如果w出现在e的左边,posi的值就是left,反之,posi的值就是right。每个特征的值就是该特征在语料库中出现的次数的总和。我们用(u1,u2,…,un)和(v1,v2,…,vn)来表示两个单元u和v的特征向量,n为所有从语料库中提取的特征的总数。fi表示第i个特征。
我们引入了三种向量空间的相似度量度,Cosine Measure,Cosine ofPointwise Mutual Information以及Dice Co-efficient。
Cosine Measure计算的是两个特征向量的余弦:
Cos ( u , v ) = Σ i = 1 n u i × v i Σ i = 1 n u i 2 × Σ i = 1 n v i 2
Cosine of Pointwise Mutual Information的定义为:
CosPMI ( u , v ) = Σ i = 1 n pmi ( f i , u ) × pmi ( f i , v ) Σ i = 1 n pmi ( f i , u ) 2 × Σ i = 1 n pmi ( f i , v ) 2
其中,
pmi ( f i , u ) = log ( P ( f i , u ) P ( f i ) × P ( u ) )
P(fi,u)表示fi和u的共现概率,P(fi)表示fi出现的概率,P(u)表示u出现的概率。
Dice Co-efficient的定义为:
Dice ( u , v ) = 2 × Σ i = 1 n s ( u i ) × s ( v i ) Σ i = 1 n s ( u i ) + Σ i = 1 n s ( v i )
其中,如果x>0,s(x)=1,否则s(x)=0。
在空间聚类当中,我们选取最相似的单元(也就是相似度最大的单元),将它们聚为一类,并用SCi作为标记。然后,用标记替代该类中的单元,转而进行时间聚类。
在时间聚类中,我们采用互信息作为表征两个单元同现程度的量度:
MI ( e 1 , e 2 ) = P ( e 1 , e 2 ) log P ( e 1 | e 2 ) P ( e 2 )
具有最大的互信息的单元将被聚为一类,并用PCi作为其标记。然后用相应的标记替换其对应的类别,接着进行循环进行空间聚类和时间聚类,直到达到预先设定的次数。
在语法归纳结束以后,我们就得到了标记为SCi的语义类和标记为PCi的短语结构类,接下来就要进行短语结构的对齐了。
2、短语结构对齐:
假设一个英语的句子e1,…,eT,它对应的汉语句子为c1,…,cv。es…t表示英语子串es+1,es+2,…,et,cu…v表示从cu+1到cv的汉语子串。由BTG,双语的局部最优函数可以定义为:
Figure A20041010187700085
Figure A20041010187700086
其中,Fe(s,t),Fc(u,v)分别为英语和汉语的约束函数,用来表征已经得到的英语和汉语的分析结果。
短语级的结构对齐可以通过动态规划的算法来实现,通过初始化、递推计算以及回推的过程得到最终的优化的对齐结果。
3、评价函数的确定
实验的正确率定义为:
Acc = Nr N × 100 %
其中,
N为算法从语料库中抽取出的所有模板的个数,
Nr为其中正确模板的个数。
4、实验语料库
我们实验所采用的语料库是收集于旅游信息查询领域的英中双语口语语料库。该语料库包含2950个句子对。共有汉语词汇989个,英语词汇1074个。汉语句子的平均句长为7.0个词汇,英语句子的平均句长为6.7个。
5、实验结果
在只使用词汇的对译概率的情况下,BTG也可以进行双语的分析,进行短语的对齐。因此,我们将我们的算法与仅仅使用BTG进行了比较,比较的结果如表1所示:
  实验   Acc(%)
  只使用BTG   63.58
  我们的算法   75.44
表2实验结果比较1
为了考察不同的相似度量度对算法的影响,我们分别采用不同的相似度量度进行了实验,实验的结果如表3所示:
  相似度量度   Acc(%)
  Dist*   75.44
  Cosine Measure   73.21
  Cosine ofPointwise MutualInformation   76.77
  Dice Co-efficient   76.19
表2实验结果比较2
从表1中可以看出,使用我们的算法的架构进行机器翻译模板的自动获取要优于仅仅使用BTG,而且正确率也达到了不错的水平,说明了这种算法是有效的。
从表2中可以看出,采用不同的相似度的度量方式,对于系统的正确率有一定的影响,采用Cosine of Pointwise Mutual Information作为相似度量度所能达到的正确率最高,达到了77.67%,充分的说明了我们的方法的有效性。
附图说明
图1是本发明自动机器翻译模板获取器的装置图。
图2是本发明自动机器翻译模板获取器的流程图。
具体实施方式
图1的自动机器翻译模板获取器的装置,由汉语分词装置1、汉语语法归纳装置2、英语语法归纳装置3、短语结构对齐装置4以及后处理装置5组成,并且,汉语分词装置和汉语语法归纳装置串联后,与英语语法归纳装置并联,再依次与短语结构对齐装置以及后处理装置串联连接。
图2是本发明自动机器翻译模板获取器,面向机器翻译的模板自动获取的方法,其具体步骤如下:
步骤S1,语料的预处理:对需要进行模板获取的双语对齐语料库中的中文部分进行分词;
步骤S2,分别提取汉语部分的词表以及英语部分的词表;
步骤S3,分别采用不同的相似度函数(Kullback-Leibler(KL)距离、Cosine Measure,Cosine of Pointwise Mutual Information以及DiceCo-efficient)对汉语部分和英语部分进行语法的归纳(GrammarInduction),从而分别提取出两部分的短语结构;
步骤S4,对提取出来的短语结构在BTG的指导下,利用动态规划的策略进行对齐;
步骤S5,对采用不同相似度函数(Kullback-Leibler(KL)距离、CosineMeasure,Cosine of Pointwise Mutual Information以及Dice Co-efficient)的结果进行对比,选取最优的相似度函数;
步骤S6,对对齐的结果进行后处理,得到所需的翻译模板。

Claims (7)

1、用基于短语结构抽取和对齐的方法进行机器翻译模板的自动获取的方法,其步骤如下:
a)语料的预处理:对需要进行模板获取的双语对齐语料库中的中文部分进行分词;
b)分别提取汉语部分的词表以及英语部分的词表;
c)分别对汉语部分和英语部分进行语法的归纳,从而分别提取出两部分的短语结构;
d)对提取出来的短语结构进行对齐;
e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;
f)对对齐的结果进行后处理以获得所需要的机器翻译模板。
2、据权利要求1的方法,其特征在于,步骤c中提到的语法归纳的过程中采取了基于语义相似度的统计模型。
3、根据权利要求1的方法,其特征在于,步骤c中提到的语法归纳的过程中采取了递归循环的方式。
4、根据权利要求1的方法,其特征在于,步骤c中提到的语法归纳的过程中采取了KL距离、Cosine Measure,Cosine of Pointwise MutualInformation以及Dice Co-efficient作为相似度的量度。
5、根据权利要求1的方法,其特征在于,步骤d中提到的结构对齐方法中采用了基于动态规划的反向划界文法(BTG)。
6、自动机器翻译模板获取器的装置,由汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置组成,其中,汉语分词装置和汉语语法归纳装置串联后,与英语语法归纳装置并联,再依次与短语结构对齐装置以及后处理装置串联连接。
7、根据权利要求1的方法,其具体步骤如下:
步骤S1,语料的预处理:对需要进行模板获取的双语对齐语料库中的中文部分进行分词;
步骤S2,分别提取汉语部分的词表以及英语部分的词表;
步骤S3,分别采用不同的相似度函数KL、对汉语部分和英语部分进行语法的归纳,从而分别提取出两部分的短语结构;
步骤S4,对提取出来的短语结构进行对齐;
步骤S5,对采用不同相似度函数的结果进行对比,选取最优的相似度函数;
步骤S6,对对齐的结果进行后处理,得到所需的翻译模板。
CN 200410101877 2004-12-30 2004-12-30 一种机器翻译模板自动获取方法及装置 Pending CN1801140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410101877 CN1801140A (zh) 2004-12-30 2004-12-30 一种机器翻译模板自动获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410101877 CN1801140A (zh) 2004-12-30 2004-12-30 一种机器翻译模板自动获取方法及装置

Publications (1)

Publication Number Publication Date
CN1801140A true CN1801140A (zh) 2006-07-12

Family

ID=36811149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410101877 Pending CN1801140A (zh) 2004-12-30 2004-12-30 一种机器翻译模板自动获取方法及装置

Country Status (1)

Country Link
CN (1) CN1801140A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482861B (zh) * 2008-01-09 2011-06-01 中国科学院自动化研究所 一种汉英词语自动对齐方法
CN102375839A (zh) * 2010-08-17 2012-03-14 富士通株式会社 从候选数据集获取目标数据集的方法和装置以及翻译机器
CN103098050A (zh) * 2010-01-29 2013-05-08 因迪普拉亚公司 使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法
CN103617227A (zh) * 2013-11-25 2014-03-05 福建工程学院 一种基于模糊神经网络的句子匹配程度计算及对齐方法
CN101989287B (zh) * 2009-07-31 2016-12-14 富士通株式会社 生成用于基于统计的机器翻译的规则的方法和设备
CN107491441A (zh) * 2016-06-13 2017-12-19 沈阳雅译网络技术有限公司 一种基于强制解码的动态抽取翻译模板的方法
CN107797995A (zh) * 2017-11-20 2018-03-13 语联网(武汉)信息技术有限公司 一种中英文片段语料生成方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482861B (zh) * 2008-01-09 2011-06-01 中国科学院自动化研究所 一种汉英词语自动对齐方法
CN101989287B (zh) * 2009-07-31 2016-12-14 富士通株式会社 生成用于基于统计的机器翻译的规则的方法和设备
CN103098050A (zh) * 2010-01-29 2013-05-08 因迪普拉亚公司 使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法
CN107402948A (zh) * 2010-01-29 2017-11-28 因迪普拉亚公司 进行文字攻击性检测和处理的系统和方法
CN107402948B (zh) * 2010-01-29 2021-06-08 因迪普拉亚公司 进行文字攻击性检测和处理的系统和方法
CN102375839A (zh) * 2010-08-17 2012-03-14 富士通株式会社 从候选数据集获取目标数据集的方法和装置以及翻译机器
CN103617227A (zh) * 2013-11-25 2014-03-05 福建工程学院 一种基于模糊神经网络的句子匹配程度计算及对齐方法
CN107491441A (zh) * 2016-06-13 2017-12-19 沈阳雅译网络技术有限公司 一种基于强制解码的动态抽取翻译模板的方法
CN107491441B (zh) * 2016-06-13 2020-07-17 沈阳雅译网络技术有限公司 一种基于强制解码的动态抽取翻译模板的方法
CN107797995A (zh) * 2017-11-20 2018-03-13 语联网(武汉)信息技术有限公司 一种中英文片段语料生成方法

Similar Documents

Publication Publication Date Title
Andreas et al. Semantic parsing as machine translation
Darwish Building a shallow Arabic morphological analyser in one day
US8296127B2 (en) Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN1815522A (zh) 运用计算机进行普通话水平测试和指导学习的方法
CN1656477A (zh) 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
Otero Learning bilingual lexicons from comparable english and spanish corpora
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN101051458A (zh) 基于组块分析的韵律短语预测方法
CN101034392A (zh) 语法分析方法、装置及存储语法分析程序的产品
CN101075230A (zh) 一种基于语块的中文机构名翻译方法及装置
CN1916941A (zh) 一种字符识别的后处理方法
CN109086266B (zh) 一种文本形近字的检错与校对方法
CN104375988A (zh) 一种词语对齐方法及装置
CN111814463A (zh) 国际疾病分类编码推荐方法、系统及相应设备和存储介质
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN1959671A (zh) 基于文档结构的文档相似性度量方法
CN1801140A (zh) 一种机器翻译模板自动获取方法及装置
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
Naptali et al. Class-based n-gram language model for new words using out-of-vocabulary to in-vocabulary similarity
CN106202037A (zh) 基于组块的越南语短语树构建方法
Guo et al. A comparative study on various confidence measures in large vocabulary speech recognition
Mall et al. Developing a system for machine translation from Hindi language to English language
Hazem et al. Leveraging meta-embeddings for bilingual lexicon extraction from specialized comparable corpora
Ayadi et al. Intertextual distance for Arabic texts classification
Marcińczuk et al. Statistical proper name recognition in Polish economic texts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication