CN101075230B - 一种基于语块的中文机构名翻译方法及装置 - Google Patents
一种基于语块的中文机构名翻译方法及装置 Download PDFInfo
- Publication number
- CN101075230B CN101075230B CN2006100119232A CN200610011923A CN101075230B CN 101075230 B CN101075230 B CN 101075230B CN 2006100119232 A CN2006100119232 A CN 2006100119232A CN 200610011923 A CN200610011923 A CN 200610011923A CN 101075230 B CN101075230 B CN 101075230B
- Authority
- CN
- China
- Prior art keywords
- piece
- name
- translation
- chinese
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 230000008520 organization Effects 0.000 title abstract 3
- 238000013519 translation Methods 0.000 claims abstract description 193
- 230000008569 process Effects 0.000 claims abstract description 53
- 238000009795 derivation Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims description 218
- 230000001360 synchronised effect Effects 0.000 claims description 52
- 238000005520 cutting process Methods 0.000 claims description 45
- 239000003607 modifier Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种基于语块的中文机构名翻译方法及装置,直接从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译系统的整体性能。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译系统中,按BLEU打分标准,翻译系统的整体性能相对提高约13.3%。
Description
技术领域
本发明涉及自然语言处理技术领域,涉及一种基于语块的中文机构名翻译方法及装置。
背景技术
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中传递着重要信息,它的识别和翻译是自然语言处理研究中的关键技术之一。在多语言处理中,命名实体的识别和翻译结果直接影响到自然语言的理解。其中,机构名是最复杂的一类命名实体。它结构多变,可以是人名、地名甚至机构名的组合。如何翻译好机构名在整个翻译系统中具有举足轻重的作用。因此,中文机构名的翻译研究具有重要的理论意义和实用价值。
命名实体翻译一般采用的方法是:对双语平行句子的语料进行对齐,抽取其中的命名实体翻译对,然后建立命名实体的翻译词典。这种查找字典方法比较适合人名和地名的翻译,因为人名和地名的结构一般都比较简单,但对于机构名,单纯采用这种方法是不足的,因为机构名可以是多种修饰语(包括人名,地名)的组合。它的粒度比较大,要保证在翻译词典中找到一致的源语言机构名比较困难,所以需要从中文机构名的组成结构研究出发,寻找基于结构的中文机构名翻译方法。
经典的统计机器翻译方法,例如基于短语的翻译,并不适合机构名的翻译,因为机构名虽然在命名实体中最为复杂,但相对句子来说,却比较简单而且有规律可循。翻译时大规模的解码搜索是不必要的,还可能会造成歧义。所以我们需要一个独立于整体翻译系统的机构名翻译系统。
中文机构名组成方式非常复杂,种类繁多,各类机构都有其独特的命名方式。按照它的功能性质,可以大致分为两类:行政管理类结构名和企业类机构名。企业类机构主要是私有的带有盈利性质的机构,例如酒店、银行、公司等,这类机构名多以地名开头,中间加以企业字号,例如“吉百利”等。大部分的企业字号属于未登录词。翻译时需要音译等方法进行处理,而且这类机构名的翻译主要是按词的顺序翻译,所以企业类机构名的翻译重点在于企业字号类未登录词的处理。而行政管理类机构主要是从属于国家或地方级别的公共机构,例如国家部门、省市政府、大学和协会等。这类机构名的组成比较规则,并且它的组成词大部分是已登录词。它的组成结构是一系列的修饰词加上最末必需的机构称呼词。例如“中国国际对外交流中心”(例a)。对LDC发布的LDC2005T34语料库(Chinese<->English Name Entity Lists(v1.0))进行实验的数据表明,在随机抽取的3457个包含2~20个词的行政管理类机构名(分词后)中,有43%的行政管理类机构名在翻译时需要进行词位置的调整。这就需要根据这类机构名组成结构方式进行翻译。所以行政管理类机构名的翻译重点在于分析它的组成结构,然后进行翻译时的位置调整。
发明内容
本发明目的是针对行政管理类机构名翻译存在的问题,这类机构名的长度很不稳定,而且机构名中还有嵌套的情况,机构名中还可能包含有另一个机构名,本发明的目的在于解决准确率低和错误率高问题,本发明正确分解机构名的结构,实现的是从中文机构名到对应英文机构名的翻译,为此,本发明提供一种基于语块的中文机构名翻译方法及装置。
本发明针对行政管理类机构名的翻译存在的问题,这类机构名的长度很不稳定,少至两个字,多至几十个字。而且机构名中还有嵌套的情况,机构名中还可能包含有另一个机构名,例如:“北京医科大学第一附属医院”,如何正确分解它的结构然后进行翻译是本发明的关键。
根据上述思路,本文从研究机构名组成结构规律入手,设计了一种适用于中文机构名翻译的基于语块的翻译方法,并通过实验证明该方法能获得比较高的翻译准确率,把该方法加入到机器翻译系统中,能提高系统的整体翻译质量。
本发明的第一方面,一种基于语块的中文机构名翻译方法,包括如下步骤:训练语料步骤:基于语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,从训练语料中提取每类语块的上下文无关文法规则及概率信息;翻译步骤:先将中文机构名切割成语块,然后利用同步上下文无关文法推导按照设置的三个步骤对语块位置进行调整,完成语块的翻译。
本发明的基本思想是将中文机构名切割为几个语块,根据语块的特点,以语块为单元,利用同步上下文无关文法(CFG)推导对语块进行位置的调整,同时也完成了语块的翻译。
本发明首先定义了机构名中包含的三类语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,然后根据其不同的特点对机构名进行切割,接着对包含的各个语块进行翻译,最后调整所有语块的翻译顺序。我们用同步上下文无关文法推导同时实现了后两个步骤。
本发明采用上述“切割语块”的思想来进行机构名的翻译,与简单的查找词典的翻译方法不同。机构名被切割成更小粒度的单位,这种思想符合机构名的构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。分割语块后利用同步上下文无关文法推导来实现翻译。根据包含语块的特点,本发明限制了推导步骤,这相当于确定一条最优解码路径。这也是本发明提出的基于语块的翻译思想所在。同时这种方法独立于用于句子翻译的机器翻译系统,作为预处理部分,简化了句子翻译难度。提高了翻译系统的整体性能。
本发明的第二方面,一种基于语块的中文机构名翻译装置,包括:分词装置、语块分割装置以及语块翻译和顺序调整装置,上述装置依次顺序连接;中文机构名数据置入分词装置,语块分割装置分别与分词装置和语块翻译和顺序调整装置相连接,分词装置用于对需要翻译的中文机构名进行分词并输出分词后的中文机构名;语块分割装置用于将中文机构名切割成语块,即由分词装置输出分词后的中文机构名作为语块分割装置的输入,使语块分割装置输出切割成语块的中文机构名;语块翻译和顺序调整装置用于对语块进行翻译及顺序的调整并输出翻译结果,语块翻译和顺序调整装置基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块和CFG普通规则模块,先运行CFG规则*模块的匹配过程,如果CFG规则*模块没有可匹配的规则*,则采用CFG普通规则进行三个推导步骤。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明中翻译部分的中文机构名翻译装置结构图
图2是本发明中训练部分的整体框架图
图3是本发明例a的基于语块的同步CFG推导示例图
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本发明的限制。
图1是本发明一种基于语块的中文机构名翻译系统装置的结构图,在一台PC机上(Pentium 4处理器,3.00GHz,512M内存)运行基于语块的中文机构名翻译装置。由三部分装置构成:分词装置1、语块切割装置2、语块翻译和顺序调整装置3,上述装置依次顺序连接;中文机构名4数据置入分词装置1,语块分割装置2分别与分词装置1和语块翻译和顺序调整装置3相连接,分词装置1用于对待翻译中文机构名进行分词并输出分词后的中文机构名;语块分割装置2用于将中文机构名切割成语块即由分词装置1输出分词后的中文机构名作为语块分割装置2的输入,使语块分割装置2输出切割成语块的中文机构名;语块翻译和顺序调整装置3用于对语块进行翻译及顺序的调整,语块翻译和顺序调整装置3输出翻译结果5。语块翻译和顺序调整装置3基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块6和CFG普通规则模块7,先运行CFG规则*模块的匹配过程,这种类似模板的匹配比较高效,如果CFG规则*模块没有可匹配的规则*,就采用CFG普通规则进行三个步骤的推导。
图2是本发明中训练部分的整体框架图,主要由四个部分组成:
分词部分:包括分词并运行GIZA++;
提取对位结果和获取词翻译概率部分:从中文到英文的对位结果中提取相对正确的对齐结果,并得到中文到英文的词翻译概率p(ei|oi);
语块切割部分:在对位的基础上,将中英对照机构名翻译对分别切割成若干个语块,并得到语块模型概率;
提取规则部分:根据切割后的语块,提取CFG普通规则和规则*。
训练过程得到的词翻译概率和CFG规则用于发明中的翻译部分。
图3是本发明例a的基于语块的同步CFG推导示例图,表示一个机构名例子的同步CFG推导过程。例a(中国国际对外交流中心)通过分词装置、语块切割装置后,依照本发明的三个推导步骤,利用训练过程得到的CFG普通规则,通过推导得到最后的翻译结果。
根据本发明基于语块的中文机构名翻译方法,可以分为训练过程和翻译过程两部分,训练语料具体过程如下:
训练过程包括:
a)对训练语料即机构名中英对照翻译对中的中文机构名进行分词;
b)利用GIZA++工具,从中文到英文方向,对训练语料中的机构名中英对照翻译对进行对位,由对位结果可以得到词的中英翻译概率p(ei|oi),另外还可以加入词典用以覆盖训练语料中未出现词的翻译对;
c)在训练语料对位结果的基础上,将中英对照机构名翻译对分别切割成若干语块,并得到语块概率模型p(oi1...oij|ci)和p(ci|ci-1);
d)根据本发明提取规则的定义,对训练语料中语块的切割后的每个语块中英翻译对,采用一个定义对每个机构名的对位结果提取同步上下文无关文法(Context-Free Grammar,CFG)规则,规则分为普通规则和规则*两类,并统计每条规则的概率信息。翻译过程包括:
aa)将待翻译的中文机构名进行分词,采用最大概率分词法或最大匹配法或其他分词方法;
bb)在分词结果的基础上,将机构名划分成若干个只包含单一称呼词的机构名,然后再分别将中文机构名切割成语块;
cc)在语块的基础上,用同步上下文无关文法推导方法对分割语块后的中文机构名进行推导,按照本发明设定的同步CFG三个推导步骤为机构名翻译设定的一条路径,即:利用训练过程得到的同步CFG规则为:普通规则和规则*,对对切割语块后的中文机构名进行同步CFG推导,相当于对语块进行翻译及顺序的调整,或加入词典辅助机构名的翻译,覆盖更多词的翻译,直至完成翻译。
所述训练过程中步骤a)和翻译过程步骤aa)可以利用各种分词工具,例如最大概率分词法。
所述训练过程中步骤b)中机构名中英翻译对的对位:利用统计机器翻译中的句子对位过程采用工具GIZA++,实现机构名中英翻译对的对位,由对位结果可以得到词的翻译概率,如果加入词典,就可以得到更多词的中英翻译概率。
所述训练过程中步骤c)中语块的切割:是将中英对照机构名翻译对分别切割成若干语块,这个切割过程是基于训练语料的对位结果。与翻译过程步骤bb)的语块切割过程是有区别的。
所述翻译过程中步骤bb)将中文机构名划分成若干个只包含单一称呼词的机构名,然后再分别切割成语块。
所述翻译过程中步骤cc)用上下文无关文法推导方法对分割语块后的中文机构名进行推导来完成翻译。推导遵循设定的三个步骤,必要时加入词典辅助机构名的翻译,这样可以覆盖更多词的翻译。
下面详细说明本发明技术方案中所涉及的各个细节问题:
1.分词
在训练过程和翻译过程,首先都需要对中文机构名进行分词,由于在行政管理类机构名中包含的需要音译的词比较少,分词结果大部分是正确的。可以采用各种分词方法,如最大概率法,最大匹配法等等。实施例采用实验室开发的基于81k词典的最大概率分词软件,来实现训练过程和翻译过程的分词。
2.训练过程中的机构名中英翻译对的对位和训练整体框架
已有中英对照的机构名翻译对,采用GIZA++对位工具,可以得到一系列生成文件,实施例中采用GIZA++工具中的IBM-4模型,只利用最后结果中的词对齐文件。
利用GIZA++工具,可以从两个方向(中文到英文和英文到中文)实现词对位,可以得到两个词对齐文件。如果机构名中包含有未登录词(绝大部分是需要音译的中文词),那么分词过程很可能将一个词错误地拆分成几个词。而GIZA++工具允许一个目标语言词对应最多一个源语言词。因此从英文到中文的对齐文件中对齐错误比较多,所以实施例中只利用从中文到英文的对齐文件。
为了提高规则提取的准确率乃至最后机构名翻译的正确率,所述为了获得更高准确率和可信度的对位关系,对从中文到英文的对齐文件进行了预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,这两个条件是:
1)、对齐文件中每个中文词都对应至少一个的英文词;
2)、每个中文词对应的英文词位置是连续的;
本发明认为满足这两个条件的对位是比较正确的,筛选出来用以后续步骤提取规则。
根据这部分比较正确的对位结果就得到词的中英翻译概率p(ei|oi),这个翻译概率应用于翻译过程中的三条特殊同步CFG规则中,同时利用对位结果进行语块的分割,这在后面部分有详细介绍。训练过程的整体框架图如图2所示。
3.语块切割
训练过程和翻译过程都有语块切割步骤,但两个过程中的切割步骤稍有差别。
如果机构名包含多个机构称呼词,首先要将它切分成若干个只包含一个机构称呼词的单位。例如将“北京医科大学第一附属医院”切分成“北京医科大学”和“第一附属医院”。这个切分过程需要根据称呼词,如“大学”,“研究所”等。称呼词可以从训练语料中提取。在只包含单一称呼词的机构名的基础上,我们定义了它可能包含的三类语块:所述中文机构名被分割成三类语块包括:
●所述第一类语块(FC,First Chunk):是中文机构名最高级的修饰语语块,常常是地名或序数词,例如:“北京第一”,它通常在机构名的最前部分。但有些机构名并不包含第一类语块。在翻译过程中,需要最先确定这个语块的位置,并且最高级修饰语语块内部的翻译是顺序的。
●第二类语块(SC,Second Chunk):是次高级修饰语语块,例如:“对外交流”,通常在机构名的中间位置。在翻译过程中,第二类语块的位置取决于第三类语块(下文介绍)的位置。二者是相邻的。第二类语块在第三类语块之前或之后,并且第二类语块内部的词翻译往往需要进行位置的调整。
●第三类语块(TC,Third Chunk):这部分在机构名的最后部分,是每个机构名必定包含的语块,它的最后一个词就是机构称呼词,例如“委员会”和“部”。在翻译过程中,第三类语块的位置在确定第一类语块位置后确定。并且第三类语块内部的词是顺序翻译。
所述在翻译过程中语块的分割,是根据一个切割模型:O代表一个包含单一称呼词的机构名,它包含n个中文词:o1,o2,...on,语块分割的任务就是从所有可能的语块序列中找到最大概率的语块序列:C*=c1...cm(m≤n,ci∈{FC,SC,TC}),其概率值可以通过贝叶斯公式得到:
由于式中分母与C无关,所以求上式的最大值相当于寻找一个C*使得右边分子的两项乘积最大,即切割模型用以下公式表示:
其中p(ci|ci-1)是语块上下文模型,j个中文词oi1...oij组成ci语块,上式的参数都可以由训练语料而得。中文机构名中的语块序列是遵循一定顺序。即首先第一类语块FC,然后是第二类语块SC,最后是第三类语块TC的排列顺序,每个中文机构名可能包含第一类语块FC、第二类语块SC,但一定包含第三类语块TC,所以每个机构名包含的语块顺序有以下几种方式:FC SC TC,FC TC,SC TC,TC。
所述在训练过程中语块的切割略不同于翻译中的切割过程,因为它是基于对位结果的。实施例中我们首先将对位结果里中文对应的英文翻译是连续的部分归为一个单位。例如:如果一个中文机构名的翻译是顺序的,即它只含有一个单位,对位结果经过这样的处理后,一部分对位结果直接体现出语块的分割。我们由这部分对位结果得到p(oi1...oij|ci)和p(ci|ci-1),再运用翻译过程中的切割模型对其他的对位结果进行切割,如此反复将所有训练语料中的机构名对位结果进行语块的切割,这是一个循环迭代的过程。
4.同步上下文无关文法(CFG)规则
所述机构名被切割成语块后,我们需要利用同步CFG规则对它进行推导,相当于完成语块的翻译及顺序的调整。
所述遵循David Chiang(2005)的同步上下文无关文法(CFG)规则的格式,在我们的基于语块的同步CFG重写规则中,基本结构如下:
X→(γ,α,~)
其中,X是非终结符,在本发明中,是以语块作为单位,γ和α是由终结符和非终结符组成的字符串。本发明中这个终结符和非终结符分别是一个语块的单位,~是出现在γ中的非终结符与出现在α中非终结符之间一一对应的关系。重写过程从一对关联的起始符号开始,在每一步操作中,利用一条规则同时改写两个关联的非终结符号。例如以下同步CFG规则:
X→<中国国际X,China International X>
X→<X中心,Center for X>
类似这样的规则可以直接从双语平行训练语料中提取,而不需要句法分析。另外为了覆盖所有情况,除了从训练语料中提取的CFG规则,我们添加了以下五条特殊规则:
规则(1)O→<O X,X O>
规则(2)O→<X,X>
规则(3)X→<FC X,EFC * X>
规则(4)X→<SC,ESC *>
规则(5)X→<X TC,X ETC *>
规则(1)是针对含有多个称呼词的机构名的处理方式,由于在包含多个称呼词的机构名中,级别较高的机构名往往被放在前面,例如:“北京医科大学第一附属医院”,但被翻译成英文时,一般把级别高的机构名置后,所以被翻译成:“NO.1 Hospital Attached to/the Beijing MedicalSciences University”。规则(1)描述了针对含多个称呼词的机构名的倒置翻译规律。
规则(2)是将各个语块连接起来成为一个机构名,同时完成对它的翻译。
规则(3)、规则(4)和规则(5)是三类特殊的规则,适用于在翻译过程中,如果没有找到相应语块的CFG规则(从训练语料中获得),就将它转变成基于语块内部词的翻译,并人为规定了语块的翻译是顺序的。EFC *,ESC *和ETC *分别代表FC、SC和TC语块基于词的最优翻译结果。
在规则(3)中,由于在FC中词的翻译一般是连续的,顺序还是逆序取决于翻译者的习惯。在本发明中,设置为顺序。
在规则(4)中,SC中的词在翻译中往往需要重新排序,所以利用位变模型来完成对它的翻译。
ai是第i个中文词被翻译成英文词的起始位置,bi-1表示第(i-1)个中文词被翻译成英文词的最末位置。
在规则(5)中,TC中词的翻译被设置成顺序。
训练语料得到的规则再加上这五类规则就组成了所有CFG普通规则的集合,它覆盖了所有机构名的翻译。后文提到的规则*也属于CFG规则,只是形式上有一点变化。
p(ei|oFCi),p(ei|oSCi)和p(ei|oTCi)就是从训练过程中得到的词的翻译对p(ei|oi)。这部分可以融入词典以覆盖更多词的翻译,也就是加入词典中词的翻译对。
5.训练过程中的同步CFG规则的提取
对训练语料进行语块的切割后,采用一个定义对每个机构名对位结果提取同步CFG规则,分为普通规则和规则*两类。
定义:给定一个机构名对<c1c2c3,e1e2e3>,其中c1,c2,c3分别代表中文机构名中包含的FC、SC和TC,e1,e2,e3表示c1,c2,c3相应的英文翻译。
(1)如果FC存在,<c1,e1>就是初始的第一类语块翻译对,将所有后续语块作为一个非终结符,则:
X→<c1 X,e1 X>或X→<c1 X,X e1>,是一条普通规则。
(2)如果SC存在,<c2,e2>是初始的第二类语块翻译对,则:
X→<c2,e2>,是一条普通规则。
(3)<c3,e3>是初始的第三类语块翻译对,将位于它之前的那个语块作为非终结符X,则:
X→<X c3,e3 X>或X→<X c3,X e3>,是一条普通规则。
(4)将FC、SC或TC任意一个语块作为非终结符X,这样得到的规则称为规则*。例如:<c1x2c3,e1x2e3>是一条规则*。
通过以上定义可以得到大量的精简规则,通过(4)得到的规则*相当于一个带变量的模板,它包含的终结符粒度要大于普通规则,规则*的优先级要高于普通规则,所以在翻译中先查找是否有可利用的规则*,再进行普通规则的同步CFG推导。
对每个语块,为选取最大概率的规则,直接采用对数线性模型:
其中,θi是规则的特征,实施例中采用的两个特征集是:
●p(γ|α),p(α|γ),可以通过极大似然估计方法得到,
如
●词汇权重pw(γ|α),pw(α|γ)。
λi参数都取为1。
6.所述翻译过程的同步CFG推导生成语块翻译和顺序调整装置3
通过训练过程得到CFG规则和规则*后,就可以对切割语块后的中文机构名进行同步CFG推导,相当于对语块进行翻译和调整顺序。
在本发明中,所述翻译过程的同步CFG推导,如果有可用的规则*,首先利用它对机构名进行推导,因为它的优先级高于普通规则,余下的非终结符再利用普通规则推导。如果没有可用的规则*,直接只利用普通规则进行推导。本发明设置了中文机构名CFG普通规则推导的三个步骤,遵循以下三个步骤,就完成对中文机构名的翻译:
步骤一、采用CFG普通规则确定第一类语块(FC)的位置和翻译;
步骤二、利用CFG普通规则确定第三类语块(TC)的位置和翻译;
步骤三、由于第一类和第三类语块的位置都已经确定,第二类语块的位置就已经确定,只要利用CFG普通规则确定第二类语块的翻译。
以上是中文机构名的CFG推导过程也相当于翻译过程,如果待翻译的中文机构名不包含第一类语块或者第二类语块,可以省略第一步骤或者第三步骤。
设定推导的三个步骤,是根据三类语块的特征,符合机构名翻译规律的。相当于人为设定了一条优化翻译解码路径,效率高且排除歧义。
7.实验结果
为了验证该方法的有效性,我们进行了两个实验,实验一是采用本文介绍的基于语块的方法来翻译中文机构名;实验二是测试将这个方法加入到翻译系统中对整体翻译质量的影响。
训练语料采用LDC发布的中英双语命名实体表(LDC2005T34)。我们采用其中来源于中国和美国的机构名。词典采用的是LDC中英对照词典(LDC2002L27)。分词装置利用我们实验室开发的基于最大概率方法的分词工具。实验一的测试语料是432个随机抽取的集外中文机构名。我们以“意义的完整和正确性”作为评估的标准,设定了4个人工评估等级。等级和评估标准如表1所示:
表1.评估标准及等级
等级 | 评估标准 |
一 | 至少有一个词没被翻译,意思不完整或不准确 |
二 | 每个词都被翻译了,但意思不完整或不准确 |
三 | 和标准相近,意思表达完整且准确 |
四 | 和标准答案完全相同 |
表1中第四等级和第三等级的结果可以被归为正确的结果,而第一等级和第二等级结果被认为是错误的翻译结果,我们分别测试了单纯用训练语料的结果和加入词典辅助的结果,表2给出中文机构名翻译准确率和错误率,即结果如下:
从上表可以看出,利用本发明训练语料+词典的基于语块翻译方法来翻译中文机构名,对中文到英文的对齐文件进行预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,提高规则提取的准确率乃至最后机构名翻译的正确率。准确率可以达到93.35%,错误的结果主要源于词的歧义和未出现词,这证明了本发明提出的基于语块的方法有效。
在实验二中本发明采用863项目2004年评估语料中的308个中文句子。评估标准是自动BLEU打分。基准系统是我们实验室开发的基于短语的翻译系统,在基准系统上加入机构名翻译系统的方式如下:首先利用开发的命名实体识别工具识别出每个句子中包含的机构名,再利用本发明对它进行翻译,通过这样预处理后再运行基于短语的句子翻译系统。从表3可以看到,加入中文机构名翻译装置后,提高了系统的整体性能,BLEU打分相对提高了13.3%。
从上述实验结构表明,本发明解决了机构名翻译准确率低、错误率高的问题问题,从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译系统的整体性能。本发明正确地分解了机构名的结构,实现了从中文机构名到对应英文机构名的翻译,本发明提供了一种准确率高、错误率低、基于语块的中文机构名翻译方法及装置。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译系统中,能提高翻译系统的整体性能。
上面描述是用于实现本发明及其实施例,各个步骤均为示例,本领域普通技术人员可以根据实际情况确定要使用的实际步骤,而且各个步骤有多种实现方法,均应属于本发明的范围之内。因此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
Claims (10)
1.一种基于语块的中文机构名翻译方法,其特征在于,采用如下步骤:
训练语料步骤:对机构名中英对照翻译对中的中文机构名进行分词;从中文到英文的对位结果中提取正确的对齐结果;并得到中文到英文的翻译概率p(ei|oi),其中的ei表示英文词,oi代表相应的中文词;
在对位的基础上,将中英对照机构名翻译对,基于语块的定义将中英对照机构名翻译对切割成最高级的修饰语语块、次高级修饰语语块和机构称呼词语块,于是得到语块概率模型p(oi1…oij|ci)和语块上下文模型p(ci|ci-1),其中oi1…oij表示与语块ci对应的词序列,ci表示当前语块,而ci-1表示前一个语块;
然后采用一个定义对语块切割后的每个机构名的对位结果提取同步上下文无关文法规则,即同步Context-Free Grammar规则,简称同步CFG规则,该规则分为普通规则和规则*两类,并统计每条规则的概率信息;
翻译步骤:先对待翻译的中文机构名进行分词,然后将其切割成语块,最后利用所述同步上下文无关文法规则的推导,即优先采用规则*推导,然后采用设置的普通规则的三个步骤进行推导,对语块位置进行调整,完成语块的翻译。
2.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述训练语料步骤包括:
a)对训练语料即机构名中英对照翻译对中的中文机构名进行分词;
b)利用GIZA++工具,从中文到英文方向,对训练语料中的机构名中英对照翻译对进行对位,由对位结果得到词的中英翻译概率p(ei|oi)加入词典用以覆盖训练语料中未出现词的翻译对;
c)在训练语料对位结果的基础上,将中英对照机构名翻译对基于语块分割模型分别切割成最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,并得到语块概率模型p(oi1…oij|ci)和语块上下文模型p(ci|ci-1);
d)根据提取规则的定义,从切割后的最高级的修饰语语块、次高级修饰语语块、机构称呼词语块中提取同步上下文无关文法规则,并统计每条规则的概率信息。
3.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述翻译步骤包括:
aa)将待翻译的中文机构名进行分词,采用最大概率分词法或最大匹配法或其他分词方法;
bb)在分词的结果基础上,将中文机构名划分成若干个只包含单一称呼词的机构名,然后再分别将中文机构名切割成语块;
cc)在语块的基础上,用同步上下文无关文法推导方法对分割语块后的中文机构名进行推导,按照设定的所述同步上下文无关文法规则的三个推导步骤为机构名翻译设定一条路径,即利用训练过程得到的同步上下文无关文法规则为:普通规则和规则*,对切割语块后的中文机构名进行同步上下文无关文法推导;对语块进行翻译及顺序的调整,或加入词典辅助机构名的翻译,覆盖更多词的翻译,直至完成翻译。
4.根据权利要求1或2所述基于语块的中文机构名翻译方法,其特征在于,所述训练语料步骤:是对中文到英文方向的对齐文件进行预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,这两个条件是:
1)对齐文件中每个中文词都对应至少一个的英文词;
2)每个中文词对应的英文词位置是连续的;
被认为满足这两个条件的对位结果是正确结果,则被筛选出用于提取所述同步上下文无关文法规则。
5.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述中文机构名被分割成三类语块包括:第一类语块为最高级的修饰语语块,即First Chunk,简称FC;第二类语块为次高级修饰语语块,即Second Chunk,简称SC;第三类语块为机构称呼词语块,即ThirdChunk,简称TC;在翻译过程中,需要最先确定最高级修饰语语块的位置,并且最高级修饰语语块内部的翻译是顺序的;在翻译过程中,次高级修饰语语块的位置取决于机构称呼词语块的位置,次高级修饰语语块在机构称呼词语块之前或之后,并且次高级修饰语语块内部的词翻译需要进行位置的调整;机构称呼词语块的位置在确定最高级的修饰语语块位置后确定,并且机构称呼词语块内部的词是顺序翻译。
6.根据权利要求1或3所述基于语块的中文机构名翻译方法,其特征在于,所述在翻译过程中语块的分割是根据语块切割模型,在所有可能的语块序列中,C*是使所述语块切割模型概率最大的语块序列为:
其中,O表示一个机构名,C是该机构名对应的语块序列,oi1…oij表示与语块ci对应的词顺序,ci表示当前语块,而ci-1表示前一个语块;中文机构名中的语块序列是遵循一定顺序,即首先最高级的修饰语语块FC,然后是次高级修饰语语块SC,最后是机构称呼词语块TC的排列顺序,每个中文机构名可能包含最高级的修饰语语块FC、次高级修饰语语块SC,但一定包含机构称呼词语块TC,所以每个机构名包含的语块顺序有以下几种可能:FC SC TC,FC TC,SC TC,TC。
7.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述基于语块的同步上下文无关文法规则,基本结构如下:
X→(γ,α,~)
其中,X是非终结符,是以语块作为单位,γ和α是由终结符和非终结符组成的字符串,所述这个终结符和非终结符分别是一个语块的单位,符号~是出现在γ中的非终结符与出现在α中非终结符之间一一对应的关系。
8.根据权利要求3所述基于语块的中文机构名翻译方法,其特征在于,为了覆盖所有机构名的翻译,除了从训练语料中提取的同步上下文无关文法规则,另外添加了以下五条特殊规则:
规则(1)O →<O X,X O>
规则(2)O →<X,X>
规则(3)
规则(4)
规则(5)
在以上规则中,O表示待翻译的机构名;X表示非终结符;FC,SC和TC分别代表最高级的修饰语语块、次高级修饰语语块和机构称呼词语块;和分别代表最高级的修饰语语块、次高级修饰语语块和机构称呼词语块对应的最好英文翻译;
规则(1)描述了针对含多个称呼词的机构名的倒置翻译规律;
规则(2)是将各个语块连接起来成为一个机构名,同时完成对它的翻译;
规则(3)、规则(4)和规则(5)是三类特殊的规则,适用于在翻译过程中,如果没有找到匹配的所述同步上下文无关文法规则即从训练语料中提取的规则,就将它转变成基于语块内部词的翻译,并人为规定了语块的翻译是顺序的。
9.根据权利要求1或3所述基于语块的中文机构名翻译方法,其特征在于,所述翻译过程的同步上下文无关文法规则的推导,如果有可用的规则*,利用优先级高于普通规则的规则*对机构名进行推导,余下的未翻译部分再利用普通规则推导;如果没有可用的规则*,直接只利用普通规则进行推导;设置了中文机构名同步上下文无关文法规则普通规则推导的三个步骤,遵循以下三个步骤,就完成对中文机构名的翻译:
步骤一、采用同步上下文无关文法普通规则确定最高级的修饰语语块的位置和翻译;
步骤二、利用同步上下文无关文法普通规则确定机构称呼词语块的位置和翻译;
步骤三、由于最高级的修饰语语块和机构称呼词语块的位置都已经确定,次高级修饰语语块的位置就已经确定,只要利用同步上下文无关文法普通规则确定次高级修饰语语块的翻译;遵循步骤,就完成对中文机构名的翻译。
10.一种基于语块的中文机构名翻译装置,其特征在于包括:分词装置、语块分割装置以及语块翻译和顺序调整装置,上述装置依次顺序连接;中文机构名数据置入分词装置,语块分割装置分别与分词装置和语块翻译和顺序调整装置相连接,分词装置用于对需要翻译机构名中英对照翻译对中的中文机构名进行分词并输出分词后的中文机构名;语块分割装置用于将中文机构名切割成语块,即由分词装置输出分词后的中文机构名作为语块分割装置的输入,使语块分割装置输出中文机构名被切割后形成的语块;语块翻译和顺序调整装置用于对语块进行翻译及顺序的调整并输出翻译结果,语块翻译和顺序调整装置采用基于语块的同步上下文无关文法规则推导模块,对语块切割后的每个机构名的对位结果提取同步上下文无关文法规则,该规则分为普通规则和规则*两类,并统计每条规则的概率信息;同步上下文无关文法规则推导模块包括同步上下文无关文法规则*模块和同步上下文无关文法普通规则模块,先运行同步上下文无关文法规则*模块的匹配过程,如果同步上下文无关文法规则*模块没有可匹配的规则*,则采用同步上下文无关文法普通规则进行三个推导步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100119232A CN101075230B (zh) | 2006-05-18 | 2006-05-18 | 一种基于语块的中文机构名翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100119232A CN101075230B (zh) | 2006-05-18 | 2006-05-18 | 一种基于语块的中文机构名翻译方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101075230A CN101075230A (zh) | 2007-11-21 |
CN101075230B true CN101075230B (zh) | 2011-11-16 |
Family
ID=38976284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100119232A Expired - Fee Related CN101075230B (zh) | 2006-05-18 | 2006-05-18 | 一种基于语块的中文机构名翻译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101075230B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216819B (zh) * | 2007-12-28 | 2012-09-05 | 北京邮电大学 | 基于领域本体的名片信息中译英自动翻译方法 |
CN101593173B (zh) * | 2008-05-28 | 2011-08-10 | 中国科学院自动化研究所 | 一种汉英反向音译方法及装置 |
CN101676898B (zh) * | 2008-09-17 | 2011-12-07 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
CN102662953B (zh) * | 2012-03-01 | 2016-04-06 | 倪旻 | 与输入法集成的语义标注系统和方法 |
JP5850512B2 (ja) * | 2014-03-07 | 2016-02-03 | 国立研究開発法人情報通信研究機構 | 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム |
CN105320650B (zh) * | 2014-07-31 | 2019-03-26 | 崔晓光 | 一种基于语料匹配和语法分析的机器翻译方法及其系统 |
CN105159892B (zh) * | 2015-08-28 | 2018-04-03 | 长安大学 | 一种语料提取器及提取语料的方法 |
CN108763223B (zh) * | 2016-06-28 | 2022-05-13 | 大连民族大学 | 汉英蒙藏维多语平行语料库构建的方法 |
CN111178090A (zh) * | 2019-12-05 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 一种用于企业名称翻译的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5224040A (en) * | 1991-03-12 | 1993-06-29 | Tou Julius T | Method for translating chinese sentences |
CN1328672A (zh) * | 1998-11-30 | 2001-12-26 | 皇家菲利浦电子有限公司 | 正文的自动分割 |
CN1570921A (zh) * | 2003-07-22 | 2005-01-26 | 中国科学院自动化研究所 | 基于统计模型的口语解析方法 |
-
2006
- 2006-05-18 CN CN2006100119232A patent/CN101075230B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5224040A (en) * | 1991-03-12 | 1993-06-29 | Tou Julius T | Method for translating chinese sentences |
CN1328672A (zh) * | 1998-11-30 | 2001-12-26 | 皇家菲利浦电子有限公司 | 正文的自动分割 |
CN1570921A (zh) * | 2003-07-22 | 2005-01-26 | 中国科学院自动化研究所 | 基于统计模型的口语解析方法 |
Non-Patent Citations (1)
Title |
---|
JP平10-31672A 1998.02.03 |
Also Published As
Publication number | Publication date |
---|---|
CN101075230A (zh) | 2007-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101075230B (zh) | 一种基于语块的中文机构名翻译方法及装置 | |
Brown et al. | Analysis, statistical transfer, and synthesis in machine translation | |
CN101593173B (zh) | 一种汉英反向音译方法及装置 | |
CN104750687A (zh) | 改进双语语料库的方法及装置、机器翻译方法及装置 | |
CN108460027A (zh) | 一种口语即时翻译方法及系统 | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN105068997A (zh) | 平行语料的构建方法及装置 | |
CN106156013B (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Xiong et al. | HANSpeller: a unified framework for Chinese spelling correction | |
CN113990421A (zh) | 一种基于数据增强的电子病历命名实体识别方法 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
Pushpananda et al. | Statistical machine translation from and into morphologically rich and low resourced languages | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
Bekbulatov et al. | A study of certain morphological structures of Kazakh and their impact on the machine translation quality | |
Hazem et al. | Leveraging meta-embeddings for bilingual lexicon extraction from specialized comparable corpora | |
Sangavi et al. | Analysis on bilingual machine translation systems for English and Tamil | |
Ceauşu et al. | Addressing smt data sparseness when translating into morphologically-rich languages | |
Wu et al. | Improving domain-specific word alignment with a general bilingual corpus | |
Zantout et al. | Obstacles facing Arabic machine translation: building a neural network-based transfer module | |
Shaalan et al. | Automatic rule induction in Arabic to English machine translation framework | |
Comas Umbert et al. | Using dependency parsing and machine learning for factoid question answering on spoken documents | |
CN101520776A (zh) | 一种双语段落对齐算法 | |
Jamwal | Modeling translation of code mixed English-Dogri language | |
Sahu | Designing and Implementing Hindi to Chhattisgarhi Machine Translation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111116 Termination date: 20190518 |