CN101676898A - 一种借助网络知识辅助的汉英机构名翻译方法及装置 - Google Patents

一种借助网络知识辅助的汉英机构名翻译方法及装置 Download PDF

Info

Publication number
CN101676898A
CN101676898A CN200810222335A CN200810222335A CN101676898A CN 101676898 A CN101676898 A CN 101676898A CN 200810222335 A CN200810222335 A CN 200810222335A CN 200810222335 A CN200810222335 A CN 200810222335A CN 101676898 A CN101676898 A CN 101676898A
Authority
CN
China
Prior art keywords
chinese
english
name
translation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810222335A
Other languages
English (en)
Other versions
CN101676898B (zh
Inventor
赵军
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2008102223352A priority Critical patent/CN101676898B/zh
Publication of CN101676898A publication Critical patent/CN101676898A/zh
Application granted granted Critical
Publication of CN101676898B publication Critical patent/CN101676898B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明为一种汉英机构名翻译方法和装置,将待翻译的中文机构名使用基于字的条件随机场模型切分为四种语块,并对四种语块进行分词处理。选择具有一定信息量和翻译置信度的词进行统计翻译,得到机构名中若干词的翻译结果,并同待翻译的中文机构名构成一个双语查询。借助搜索引擎对该查询进行检索,得到若干中英双语混合网页的片段。抽取出网页片段中的英文,并借助中英文非对称对齐技术,筛选英文句子中与该中文机构名对齐概率最高的片段。通过统计每个片段出现的频率等信息,确定一个最优片段作为中文机构名的翻译。该方法克服统计翻译模型在机构名翻译过程中容易出现的结构、顺序和选词错误,机构名翻译精确率提高了35.26%。

Description

一种借助网络知识辅助的汉英机构名翻译方法及装置
技术领域
本发明涉及自然语言处理技术领域,是一种借助网络挖掘辅助汉英机构名翻译的方法及装置。
背景技术
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中传递着重要信息,它的识别是自然语言处理领域的关键技术之一。在多语言处理中,命名实体的翻译结果直接影响到多语言信息处理应用系统的性能。机构名是命名实体中最重要和最复杂的一类,因此机构名翻译也是命名实体翻译中的难点。由于机构名的普遍性、重要性和复杂性,汉英机构名翻译的研究具有重要的学术意义和实用价值。
传统的机构名翻译一直采用统计翻译的方法:将作为训练语料的双语机构名翻译对按照一定的方式进行切分和预处理,然后进行对齐,并计算出对齐概率。当新的机构名需要翻译时,按照同样的方式进行切分和预处理,然后根据已经得到的对齐概率,计算搜索出一个基于此概率的最优翻译结果。
机构名是命名实体中最复杂的一类,表现在:从结构上,机构名可以包含人名、地名,也可以包含子机构名;从翻译方法上,机构名翻译需要使用音译和意译。因此,机构名翻译存在很多困难,主要包括:
(1)分词困难:因为音译或者缩略部分往往是未登录词,从而不能保证分词的正确率,影响了对齐和翻译的结果;
(2)结构复杂:因为机构名可以包括子机构名,复杂的结构增加了机构名翻译的难度;
(3)顺序问题:翻译结果中单词的顺序如何安排存在很大的随意性,难以用具体规律来描述,例如“中国银行”需要翻译为“the bank of china”,“花旗银行”则翻译为“the city bank”;
(4)选词问题:即需要在意义相近的英文单词中选择最合适的一个。因为受到人们语言习惯的影响,也具有较大的随意性。因此,要完全正确地翻译出一个机构名是一项具有挑战性的工作。
发明内容
本发明的目的是针对汉英机构名翻译存在的四个问题,将网络资源引入到汉英机构名翻译的过程中,结合统计模型实现从中文机构名到英文机构名的翻译,为此,提供一种借助挖掘网络资源辅助的汉英机构名翻译方法和装置。
为达成所述目的,本发明第一方面,是提供一种汉英机构名翻译方法,步骤如下:
步骤S1:使用基于字的条件随机场(CRF)序列标注模型将待翻译的中文机构名切分为四种语块的序列,并对每个语块分别进行分词处理,得到一个中文机构名的分词序列;
步骤S2:从中文机构名的分词序列中选择若干词,使用统计翻译模块将所选择中文机构名的待翻译中文词语翻译为对应的英文单词并生成查询;
步骤S3:将待翻译的中文机构名和翻译得到的部分单词组合为一个查询,利用搜索引擎得到包含该查询的若干网页片段,提取网页片段中的英文部分;
步骤S4:将待翻译的中文机构名与提取的英文句子进行非对称对齐,计算英文句子中每个片段与中文机构名的对齐概率,并结合所述片段出现的频率信息以及与中文机构名的距离,筛选出最优翻译候选。
为达成所述目的,本发明第二方面,是一种汉英机构名翻译方法装置,包括有:
条件随机场分词模块接收中文机构名,用于将中文机构名切分为汉字序列,然后使用通过训练得到的条件随机场标注模型将中文机构名分成四种语块,再对每个语块应用不同的分词策略对每个语块进行分词,得到中文分词序列;
条件随机场分词模块与启发式查询构造模块连接,启发式查询构造模块接收条件随机场分词模块输出的中文词语序列,筛选出需要进行翻译的中文词语,输入到统计翻译模块,并将中文词语的翻译结果与待翻译的中文机构名一起构成混合查询,然后将混合查询提交给搜索引擎进行检索;
统计翻译模块与启发式查询构造模块连接,统计翻译模块接收启发式查询构造模块输出的中文词语,使用训练得到的翻译模型进行翻译,得到英文结果,返回给启发式查询构造模块;
启发式查询构造模块与非对称对齐抽取模块连接,非对称对齐抽取模块从启发式查询构造模块中接收由中文机构名和若干英文词汇构成的混合查询,将混合查询提交给搜索引擎,用以确保从网络上挖掘到有效的汉英混合网页片段,抽取网页片段中含有的英文句子,与待翻译的中文机构名进行非对称对齐,抽取最优对齐片段作为翻译最终结果。
本发明的有益效果:汉英机构名翻译是将中文机构名翻译为其对应的英语表示的过程。本发明不同于传统的仅使用统计翻译模型进行汉英机构名翻译的方法,本发明的系统将统计翻译模型和网络资源充分结合在一起,其目的是,通过挖掘网络资源中包含的信息,克服统计模型存在的四个主要问题,从而提高机构名翻译结果的精确率。借助条件随机场序列标注模型将中文机构名划分为四种语块(包括称谓语块、地名语块、修饰语块、类型语块),并对每个语块进行单独的分词处理,从而有效克服了机构名中包含的音译等未登录词所造成的分词错误,提高了翻译和对齐的准确率。通过筛选具有充足信息量和翻译置信度的中文词汇进行翻译,组合成混合查询,从而能够检索到汉英混合语言网页,有效地提高了返回网页片段中英文翻译的出现概率。通过采用非对称对齐技术,使用中文机构名直接对齐英文句子,筛选出最优对齐片段,从而避免了对英文句子进行命名实体识别过程造成的误差,有效地提高了对齐的精确率。通过借助网络挖掘的方法,我们可以从网页中出现的英文句子中直接寻找到中文机构名翻译的正确答案,从而避免了统计翻译模块在翻译过程中存在的结构问题、顺序问题和用词问题。经过实验证明,汉英机构名翻译的精确率相对于仅使用翻译模型提高了35.26%。
附图说明
图1是本发明中借助网络挖掘辅助的汉英机构名翻译流程图;
图2是本发明中借助网络挖掘辅助的汉英机构名翻译装置结构图;
具体实施方式
下面将结合附图说明和具体实施方式对本发明方法做进一步详细描述,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
为了解决汉英机构名翻译存在的四个难点,本发明是借助网络资源,使用统计翻译模块1提供的若干线索,直接从网页上抽取目标翻译。
如图1本发明借助网络挖掘辅助的汉英机构名翻译流程图所示,本发明使用借助网络挖掘方法辅助汉英机构名翻译的前提是首先能构造一个有效的查询,其次是该查询能够尽可能挖掘出包含有对应英文翻译的网页。仅使用中文机构名构成的查询很难找到汉英混合语言网页,因此我们需要借助统计翻译模块1来生成一些线索。针对机构名通常由若干个词构成的特点,我们选择构成该中文机构名所有词语中的一部分进行翻译,并连同中文机构名本身构成一个混合语言查询。因为机构名含有复杂的成分,尤其是表示称谓的部分通常是未登录词,对分词的正确率造成了很大的影响。因此我们采用条件随机场序列标注模型,在基于字的基础上,将机构名分为四种类型的语块,并对每个语块进行不同的分词处理来保证分词的准确率。其次,待翻译词语的选择既要体现出词语对整个机构名的信息量,也要能够保证翻译模型具有一定的置信度。一个常见的英文单词对搜索结果中含有对应英文翻译的网页起不到足够的提示限定作用,即难以对寻找包含目标机构名翻译的网页有所帮助。而具有很强信息量的词语往往翻译难度很高,错误的翻译也会对查询造成显著的误导。因此我们必须考虑信息量和翻译置信度的折中。使用查询获取混合语言网页的片段后,我们将把正确的英文翻译从网页中的英文部分中抽取出来。通常的方法是先对英文句子进行命名实体识别,然后再同中文机构名对齐,选择对齐概率最高的作为翻译结果。为了避免先进行命名实体识别造成的误差,我们采用了非对称对齐的方法,直接将中文机构名与英文句子对齐,抽取句子中的最佳对齐部分作为翻译结果,从而提高了对齐的准确率。
本发明要求开发和运行的计算机具有Linux操作系统以及C++和C语言开发编译环境,具有正常的网络连接条件,对硬件没有特殊要求。
如图2借助网络挖掘辅助的汉英机构名翻译的结构图所示,下面对照附图2进行说明,图中由四部分构成:统计翻译模块1、条件随机场分词模块2、启发式查询构造模块3、非对称对齐抽取模块4,连接方式如图所示,其中:
条件随机场分词模块2接收中文机构名,先将其切分为汉字序列,然后使用通过训练得到的条件随机场标注模型将中文机构名分成四种语块。再将每个语块应用不同的分词策略进行分词,得到中文分词序列;
条件随机场分词模块2与启发式查询构造模块3连接,启发式查询构造模块3接收条件随机场分词模块2输出的中文词语序列,筛选出需要进行翻译的中文词语,输入到统计翻译模块1,并将中文词语的翻译结果与待翻译的中文机构名一起构成混合查询,然后将混合查询提交给搜索引擎进行检索;
统计翻译模块1与启发式查询构造模块3连接,统计翻译模块1接收启发式查询构造模块3输出的中文词语,使用训练得到的翻译模型进行翻译,得到英文结果,返回给启发式查询构造模块3;
启发式查询构造模块3与非对称对齐抽取模块4连接,非对称对齐抽取模块4从启发式查询构造模块3中接收混合查询,将混合查询提交给搜索引擎,以确保从网络上挖掘到有效的汉英混合网页片段,抽取网页片段中含有的英文句子,与待翻译的中文机构名进行非对称对齐,抽取最优对齐片段作为翻译最终结果。
本发明首先采用分步的方法提高分词正确率,并选择一些词汇翻译成英文组成混合查询,并从检索到的网页片段的英文句子中使用非对称对齐的方法提取最佳英文翻译。通过借助网络资源,有效地提高了机构名翻译的精确率。
条件随机场分词模块2的输入是一个完整的中文机构名,首先借助训练好的条件随机场模型进行语块划分,将中文机构名分为四种类型的语块。并对每个语块进行不同的分词处理,从而得到一个词语序列输出到启发式查询构造模块3。在条件随机场分词模块2中,词语序列中的若干具有一定代表性和翻译置信度的词语将被选择出来输入到统计翻译模块1中。统计翻译模块1将运用统计翻译模型,将以上从条件随机场分词模块2中被选择出来的词语翻译为英文,并返回给启发式查询构造模块3。启发式查询构造模块3将英文单词和中文机构名组合成一个混合查询,并将混合查询输出给非对称对齐抽取模块4。在非对称对齐抽取模块4中首先使用混合查询检索网页,得到若干包含机构名翻译候选的网页片段。将这些片段中的英文部分提取出来,借助非对称对齐算法,与中文机构名进行对齐,从而筛选出最优对齐片段,作为中文机构名的英文翻译返回。
本发明采用挖掘网络资源的思想来提升汉英机构名翻译的效果,与传统的基于统计模型的机构名翻译不同。统计翻译模块1将只负责翻译中文机构名中的若干词语,得到对应的英文单词,返回给启发式查询构造模块3,英文单词同待翻译的中文机构名结合构成一个混合查询,以此作为线索来检索汉英混合网页。我们的目标是在该混合网页中找到对应的英文翻译,因此使用了非对称对齐的算法,将中文机构名与网页中的英文句子进行对齐来筛选最优对齐片段,作为该中文机构名的翻译。通过上述步骤,将避免统计机构名翻译模型存在的结构问题、顺序问题和用词问题,提高了结果的精确率。
借助网络挖掘辅助的汉英机构名翻译方法和装置可以分为训练过程和翻译过程两部分。训练过程从训练语料中产生一个基于条件随机场序列标注算法的语块划分模型和一个统计翻译模块1。翻译过程则分四个模块进行,即统计翻译模块1、条件随机场分词模块2、启发式查询构造模块3和非对称对齐抽取模块4。具体过程如下:
训练过程包括:
1、训练条件随机场序列标注模型进行四种语块的划分
(1)、将标注好的训练语料(标记了四种语块的中文机构名)切分为汉字序列,每个汉字对应着相应的B-X或I-X标记。其中B表示X语块的开始,I表示在X语块中。X代表了四种类型的语块,即表示地名、称谓、修饰和类型。
(2)、使用CRF++工具,对训练语料进行训练,得到一个条件随机场序列标注模型。
2、训练统计机构名翻译模型
(1)、将训练语料(机构名中英对照翻译对)中的中文机构名使用条件随机场序列标注模型进行语块划分。对不同的语块进行不同的分词处理,得到一个中文机构名的分词序列。
(2)、利用GIZA++工具,从中文到英文和英文到中文两个方向,对训练语料进行对位,由对位结果可以得到中文词语与英文单词的翻译概率p(ei|oi)和p(oi|ei)其中ei表示英文单词,oi表示中文词语。
(3)、从中文词语与英文单词对齐后的结果中抽取短语,并得到短语的概率。
翻译过程步骤包括:
步骤(1):将待翻译的中文机构名经过条件随机场分词模块2进行分词;
步骤(2);将分词序列输入启发式查询构造模块3,选择若干词,输入统计翻译模块得到其英文翻译,然后与待翻译的中文机构名构成查询;
步骤(3):借助搜索引擎查询相关网页,从获取的中英文混合语言网页片段中抽取英文句子;
步骤(4):在非对称对齐抽取模块4中,将中文机构名与英文句子对齐,计算英文句子中每个片段与中文机构名的对齐概率,并结合所述片段出现的频率信息以及与中文机构名的距离,抽取最优对齐片段作为翻译结果。
下面详细说明本发明技术方案中所涉及的各个细节问题:
1、条件随机场分词模块2
使用统计机构名翻译模型需要基于正确的分词结果。在对齐阶段,正确的中文分词可以得到更精确的对齐结果。在解码阶段,也需要使用尽可能正确的分词结果作为输入。但是机构名中包含若干难以正确分词的部分,例如音译、缩略等。我们的方法是,将机构名分解成四种语块的组合,即先对机构名进行划分语块的操作,再对每个语块进行不同的分词处理,从而提高分词的正确性。
我们将机构名的构成分解为四种不同功能的语块:
1)地名语块(LOC):表示该机构名所属的地理位置
2)称谓语块(NAM):表示该机构名的名称属性
3)修饰语块(MOD):表示对该机构的功能等属性的限制性描述
4)类型语块(KEY):表示该机构的类型
例如:北京/LOC  百富勤/NAM  投资咨询/MOD  有限公司/KEY
我们使用的是CRF++0.5软件工具包来完成训练和解码操作。
在条件随机场模型中,我们将选择如下一些特征来构造模型:
特征 表达式
当前字,前一个字,后一个字 C0、C-1、C1
与前,后三个字是否有构成词 W(C-2C-1C0)、W(C0C1C2)、W(C-1C0C1)
是否是一个地名 L(C-2C-1C0)、L(C0C1C2)、L(C-1C0C1)
是否是一个机构名关键字 K(C-2C-1C0)、K(C0C1C2)、K(C-1C0C1)
是否是一个地名关键字 LK(C-2C-1C0)、LK(C0C1C2)、LK(C-1C0C1)
相对位置 POS(C0)
2、统计翻译模块1
对于已有的中英对照机构名翻译对,采用GIZA++对位工具,可以得到一系列生成文件,我们只利用其中的中文词语与英文单词的对齐概率文件。我们利用GIZA++工具,从中文到英文和英文到中文两个方向实现中文词语到英语单词的对齐,可以得到两个对齐概率文件。这两个对齐概率文件将用于统计音译模块1的解码过程中。
在统计翻译模块1中,目标语言的句子f=f1f2...fn将被看成是一个噪声信道的输出,信道的输入则是源语言的句子e=e1e2...em。我们使用后验概率最大化的方式来找到输入的源语言句子。公式如下:
e ′ = arg max e P ( e | f ) = arg max e P ( f | e ) P ( e )
应用于本发明的系统中,则f代表中文词语序列,e代表英文单词序列。目标就是在给定中文词语序列的基础上,搜索使后验概率最大化的英文单词序列。其中P(e)代表了描述英文单词相互同现关系的语言模型,该语言模型可以在一个英文语料库中建立。
在使用GIZA++对齐后,我们进一步使用Moses统计翻译软件包中的其他部分进行短语抽取和语言模型的训练。从而得到一个基于短语的统计机构名翻译模型。
3、启发式查询构造模块3
使用网络信息辅助机构名翻译的任务,前提是必须能够有效地从网络上挖掘到有用的信息。我们采用先挖掘汉英双语网页,然后从网页上提取该中文机构名的英文翻译候选的方法。所以我们必须构造有效的查询,能够通过搜索引擎检索到这些网页。
因为在网络上,英文网页中存在中文的情况很少,因此我们只能挖掘夹杂着英文的中文网页。而使用中文机构名作为查询难以挖掘到混合网页,因此我们需要通过翻译部分机构名,将翻译结果作为线索加入到查询中,去挖掘混合网页。
我们要选择中文机构名的一个部分放入统计翻译模型,得到英文翻译,加入查询中检索混合网页。一个问题是,选择哪一个部分进行翻译。我们需要从两个方面来考虑:一是选择加入的部分是否能有效提高查询检索的精确率,即将含有翻译候选的网页排到前面来。二是加入的部分不能引入噪声而误导搜索引擎。对第一个方面,即是要考察该部分对整个机构名的限定性;对第二方面,即是要考察翻译模型对翻译结果的置信度,置信度越高则出现错误的可能性就越低。
我们从互信息的角度来衡量每个部分对整个机构名的作用。下面的公式计算了中文机构名Y中的一个词x与整个机构名之间的互信息量MIW(x,Y)。
公式: MIW ( x , Y ) = Σ y ∈ Y log p ( x , y ) p ( x ) p ( y )
其中x表示中文机构名中的一个词,Y表示中文机构名,y表示机构名Y中的一个词。p(x,y)表示在同一个机构名中词x和词y同时出现的概率。p(x,y),p(x),p(y)均从整个语料库中统计得到。
另外我们也计算某个中文机构名Y中的词x与Y中所有语块之间的互信息量,公式如下:
MIC ( x , Y ) = Σ c ∈ Y log p ( x , c ) p ( x ) p ( c )
其中c表示Y中含有的语块类型。p(x,c),p(x),p(c)均从整个语料库中统计得到。
最后我们将两种信息量整合起来,得到:
MI(x,Y)=αMIW(x,Y)+(1-α)MIC(x,Y)
我们还需要考虑机构名翻译的风险,从上面的计算公式可以看出,对机构名的互信息量很大,但是称谓语块多数需要进行音译,而汉英音译也是一个比较难的部分。而错误的音译结果可能对检索结果产生严重的误导作用。因此我们需要衡量翻译的风险,我们采用设定阈值的办法。设定阈值为α,并将α同每个词的翻译置信度进行比较,当翻译置信度低于阈值时,我们就不会将该词的翻译加入到查询中。为了达到系统最佳性能,可以通过系统在测试集上的表现来调整阈值,在本系统中设定为0.45。
例如:“天津本田摩托车有限公司”,其中对整个机构名互信息量最大的词是“本田”,但是“本田”翻译为“Honda”的音译过程容易产生错误,翻译置信度很低。而“有限公司”则属于非常普遍的词语,具有很高的翻译置信度,但对整个机构名的互信息量很低,起不到区别限定作用。因此我们将选择具有一定翻译置信度和互信息量的词语进行翻译,在本例中我们选择“天津”和“摩托车”。
4、非对称对齐抽取模块4
将网页通过搜索引擎的方法从网络上获取后,我们要从这些混合网页中得到中文机构名的翻译候选。因此,我们将首先从混合网页中获取英文句子。然后使用非对称命名实体对齐的方法从英文句子中寻找出与给定中文命名实体对齐概率的片段作为翻译候选。
传统的命名实体对齐方法通常分为3个步骤:
1)从平行语料库的两种语言句子中分别进行命名实体识别,得到源语言实体集合NEs和目标语言实体集合NEt。
2)对每个NEs中的实体,计算它与NEt中每个实体的对齐概率。
3)对每个NEs中的实体,选择一个最优的NEt中的实体作为对齐结果。
传统的命名实体对齐方法存在如下两个主要问题:
1)进行命名实体识别时,由于命名实体识别本身的性能限制,将带来很大的误差,这个误差将被传递到计算对齐概率的步骤。
2)现有的方法在计算对齐概率时,忽略了具体的对齐方式,通常是计算源语言实体每个部分与目标语言实体每个部分的对齐概率,并累加起来,这是不清晰的。我们需要明确的是源语言实体中的每个部分与目标语言实体中一个确切部分的对应关系及其概率。基于这种情况,我们提出了不需要抽取命名实体的非对称对齐方法,以避免引入命名实体识别的误差并给出清晰的对齐方案。
所谓非对称,意思是指传统的对齐方法是源语言命名实体与目标语言命名实体对齐,或是给定源语言与目标语言的平行句子对,要对齐其中的命名实体。而我们的对齐是给定一个正确的中文机构名和一个英文句子,要求找到英文句子中一个连续的片段,与中文机构名的对齐概率最高。我们的方法不需要事先在英文句子中进行命名实体的识别,从而避免了识别造成的误差。
我们将使用扩展的KM算法来实现非对称命名实体对齐。KM算法是图论中的一种经典算法,用于计算带权二分图的最优匹配。
中文机构名ON={CW1,CW2,...CWn},英文句子ES={EW1,EW2,...,EWm},其中m>=n。
我们的目标是找到ES中的一个片段EWi,i+n={EWi,...,EWi+n},与ON的对齐概率最大。通过使用扩展的KM算法,我们将清楚地得到一个对齐方式L,即对每个CWi,都有L(CWi)=EWj。从而得到更高的对齐精度。
具体算法如下:
1)start=1,end=n,Cdrop=-1
2)P(start,end)=KM(CW1...CWn,EWstart,EWend)
3)L(EWstart)=Cdrop  L(Cdrop)=NULL
4)If(end==m)结束,否则start++,end++;
5)重新计算Cdrop的可行顶标,重新计算EWend的可行顶标转2)
分析:KM算法的原则是通过设置可行顶标的方法筛选出若干边,构成相等子图。从而在相等子图上进行匈牙利算法。因此,当匹配的片段往后移动一位时,仅有一条边被废弃,同时增加了新的节点。由于每个匹配都是经过寻找增广轨道的方式加入到匹配方案中的,因此每移动一次,仅有一个顶点未许配,所以需要运行一次增广轨扩展计算。我们将英文句子的长度记为m,中文机构名的长度记为n,则KM算法的时间复杂度为O(n^3),寻找一条增广轨为O(n^3),所以总的时间复杂度即为O(m*n^3)。
通过此算法,我们可以在不用抽取英文命名实体的情况下,根据KM算法计算出的带权二分图的最大匹配,解析出待翻译中文机构名的每个词语同最优英文句子片段中每个单词的匹配方式及匹配概率。对每个句子,我们都可以得到一个最优对齐片段ESi,i+n,在所有网页中,我们就可以得到若干对齐片段。结合这些片段出现的频率信息以及与中文命名实体的距离,我们计算出最优翻译候选。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1、一种借助网络知识辅助的汉英机构名翻译方法,包括步骤如下:
步骤S1:使用基于字的条件随机场序列标注模型将待翻译的中文机构名切分为四种语块的序列,并对每个语块分别进行分词处理,得到一个中文机构名的分词序列;
步骤S2:从中文机构名的分词序列中选择若干词,使用统计翻译模块将所选择中文机构名的待翻译中文词语翻译为对应的英文单词并生成查询;
步骤S3:将待翻译的中文机构名和翻译得到的部分单词组合为一个查询,利用搜索引擎得到包含该查询的若干网页片段,提取网页片段中的英文部分;
步骤S4:将待翻译的中文机构名与提取的英文句子进行非对称对齐,计算英文句子中每个片段与中文机构名的对齐概率,并结合所述片段出现的频率信息以及与中文机构名的距离,筛选出最优翻译候选。
2、根据权利要求1所述借助网络知识辅助的汉英机构名翻译方法,其特征在于,训练条件随机场序列标注模型进行四种语块的划分是将标注好的四种语块的中文机构名训练语料切分为汉字序列,每个汉字对应着相应的B-X或I-X标记,其中B表示X语块的开始,I表示在X语块中,X表示地名语块、称谓语块、修饰语块和类型语块。
3、根据权利要求1所述借助网络知识辅助的汉英机构名翻译方法,其特征在于,统计翻译模块负责翻译中文机构名中的若干词语,将翻译得到的若干英文单词同待翻译中文机构名结合构成一个混合查询,以此作为线索来检索汉英混合网页。
4、根据权利要求1所述借助网络知识辅助的汉英机构名翻译方法,其特征在于,选择待翻译中文词语时,将衡量该词语与整个机构名的互信息量,以及该词语本身的翻译置信度;其中互信息量的计算公式如下所示:
MIW ( x , Y ) = Σ y ∈ Y log p ( x , y ) p ( x ) p ( y )
其中x表示中文机构名中的一个词,Y表示中文机构名,y表示机构名Y中的一个词;p(x,y)表示在同一个机构名中词x和词y同时出现的概率;p(x,y),p(x),p(y)均从整个语料库中统计得到。
5、根据权利要求1所述借助网络知识辅助的汉英机构名翻译方法,其特征在于,从汉英混合网页上抽取出英文句子,将直接使用非对称对齐技术,从英文句子中抽取与中文机构名对齐概率最高的片段。
6、一种汉英机构名翻译装置,其特征在于,包括:
条件随机场分词模块接收中文机构名,用于将中文机构名切分为汉字序列,然后使用通过训练得到的条件随机场标注模型将中文机构名分成四种语块,再对每个语块应用不同的分词策略对每个语块进行分词,得到中文分词序列;
条件随机场分词模块与启发式查询构造模块连接,启发式查询构造模块接收条件随机场分词模块输出的中文分词序列,筛选出需要进行翻译的中文词语并输入到统计翻译模块,并将翻译得到的英文单词与待翻译的中文机构名一起构成混合查询,然后将混合查询提交给搜索引擎进行检索;
统计翻译模块与启发式查询构造模块连接,统计翻译模块接收启发式查询构造模块输出的中文词语,使用训练得到的翻译模型进行翻译,得到英文结果再输出到启发式查询构造模块;
启发式查询构造模块与非对称对齐抽取模块连接,非对称对齐抽取模块从启发式查询构造模块中接收由中文机构名和若干英文词汇构成的混合查询,将混合查询提交给搜索引擎,用以确保从网络上挖掘到有效的汉英混合网页片段;抽取网页片段中含有的英文句子,与待翻译的中文机构名进行非对称对齐,抽取最优对齐片段作为翻译最终结果。
7、根据权利要求6所述汉英机构名翻译装置,其特征在于,统计翻译模块负责翻译中文机构名中的若干词语,将翻译得到的若干英文单词同待翻译中文机构名结合构成一个混合查询,以此作为线索来检索汉英混合网页。
CN2008102223352A 2008-09-17 2008-09-17 一种借助网络知识辅助的汉英机构名翻译方法及装置 Expired - Fee Related CN101676898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102223352A CN101676898B (zh) 2008-09-17 2008-09-17 一种借助网络知识辅助的汉英机构名翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102223352A CN101676898B (zh) 2008-09-17 2008-09-17 一种借助网络知识辅助的汉英机构名翻译方法及装置

Publications (2)

Publication Number Publication Date
CN101676898A true CN101676898A (zh) 2010-03-24
CN101676898B CN101676898B (zh) 2011-12-07

Family

ID=42029467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102223352A Expired - Fee Related CN101676898B (zh) 2008-09-17 2008-09-17 一种借助网络知识辅助的汉英机构名翻译方法及装置

Country Status (1)

Country Link
CN (1) CN101676898B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193915A (zh) * 2011-06-03 2011-09-21 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN102650988A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于目标语言复述资源的机器翻译方法及装置
CN103886064A (zh) * 2014-03-19 2014-06-25 宇龙计算机通信科技(深圳)有限公司 一种语言融合搜索装置及方法
CN104881398A (zh) * 2014-08-29 2015-09-02 北京大学 中国作者所发英文文献的作者机构信息抽取方法
CN104102630B (zh) * 2014-07-16 2017-07-07 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
US9830384B2 (en) 2015-10-29 2017-11-28 International Business Machines Corporation Foreign organization name matching
CN107608974A (zh) * 2017-07-28 2018-01-19 昆明理工大学 一种基于条件随机场的柬‑汉人名翻译方法
CN108255817A (zh) * 2018-01-19 2018-07-06 中国科学院软件研究所 基于web检索的实体翻译方法
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN108664477A (zh) * 2016-06-28 2018-10-16 大连民族大学 交易信息多语机器翻译子系统的翻译方法
CN108733658A (zh) * 2017-09-01 2018-11-02 安徽广播电视大学 组织机构名汉英翻译方法
CN109408831A (zh) * 2018-10-11 2019-03-01 成都信息工程大学 一种中医细粒度证候名分割的远程监督方法
CN110427541A (zh) * 2019-08-05 2019-11-08 安徽大学 一种网页内容提取方法、系统、电子设备及介质
CN110457715A (zh) * 2019-07-15 2019-11-15 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN110852041A (zh) * 2019-10-12 2020-02-28 重庆金融资产交易所有限责任公司 一种字段处理方法及相关设备
CN111723587A (zh) * 2020-06-23 2020-09-29 桂林电子科技大学 一种面向跨语言知识图谱的汉泰实体对齐方法
CN113704406A (zh) * 2021-08-30 2021-11-26 临沂职业学院 一种流行缩略语的中文释义匹配系统与方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5224040A (en) * 1991-03-12 1993-06-29 Tou Julius T Method for translating chinese sentences
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
CN1570921A (zh) * 2003-07-22 2005-01-26 中国科学院自动化研究所 基于统计模型的口语解析方法
CN101075230B (zh) * 2006-05-18 2011-11-16 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN102253930B (zh) * 2010-05-18 2016-03-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN102650988A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于目标语言复述资源的机器翻译方法及装置
CN102193915A (zh) * 2011-06-03 2011-09-21 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
CN103886064B (zh) * 2014-03-19 2017-11-17 宇龙计算机通信科技(深圳)有限公司 一种语言融合搜索装置及方法
CN103886064A (zh) * 2014-03-19 2014-06-25 宇龙计算机通信科技(深圳)有限公司 一种语言融合搜索装置及方法
CN104102630B (zh) * 2014-07-16 2017-07-07 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
CN104881398B (zh) * 2014-08-29 2018-03-30 北京大学 中国作者所发英文文献的作者机构信息抽取方法
CN104881398A (zh) * 2014-08-29 2015-09-02 北京大学 中国作者所发英文文献的作者机构信息抽取方法
US9830384B2 (en) 2015-10-29 2017-11-28 International Business Machines Corporation Foreign organization name matching
CN108664477B (zh) * 2016-06-28 2022-04-01 大连民族大学 交易信息多语机器翻译子系统的翻译方法
CN108664477A (zh) * 2016-06-28 2018-10-16 大连民族大学 交易信息多语机器翻译子系统的翻译方法
CN107608974A (zh) * 2017-07-28 2018-01-19 昆明理工大学 一种基于条件随机场的柬‑汉人名翻译方法
CN108733658A (zh) * 2017-09-01 2018-11-02 安徽广播电视大学 组织机构名汉英翻译方法
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN108255817B (zh) * 2018-01-19 2020-06-12 中国科学院软件研究所 基于web检索的实体翻译方法
CN108255817A (zh) * 2018-01-19 2018-07-06 中国科学院软件研究所 基于web检索的实体翻译方法
CN109408831A (zh) * 2018-10-11 2019-03-01 成都信息工程大学 一种中医细粒度证候名分割的远程监督方法
CN109408831B (zh) * 2018-10-11 2020-02-21 成都信息工程大学 一种中医细粒度证候名分割的远程监督方法
CN110457715A (zh) * 2019-07-15 2019-11-15 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN110457715B (zh) * 2019-07-15 2022-12-13 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN110427541A (zh) * 2019-08-05 2019-11-08 安徽大学 一种网页内容提取方法、系统、电子设备及介质
CN110427541B (zh) * 2019-08-05 2022-09-16 安徽大学 一种网页内容提取方法、系统、电子设备及介质
CN110852041A (zh) * 2019-10-12 2020-02-28 重庆金融资产交易所有限责任公司 一种字段处理方法及相关设备
CN111723587A (zh) * 2020-06-23 2020-09-29 桂林电子科技大学 一种面向跨语言知识图谱的汉泰实体对齐方法
CN113704406A (zh) * 2021-08-30 2021-11-26 临沂职业学院 一种流行缩略语的中文释义匹配系统与方法
CN113704406B (zh) * 2021-08-30 2023-06-30 临沂职业学院 一种流行缩略语的中文释义匹配系统与方法

Also Published As

Publication number Publication date
CN101676898B (zh) 2011-12-07

Similar Documents

Publication Publication Date Title
CN101676898B (zh) 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN101271452B (zh) 生成译文和机器翻译的方法及装置
Jayaraman et al. Multi-engine machine translation guided by explicit word matching
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN101593173B (zh) 一种汉英反向音译方法及装置
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
Fu et al. Cross-lingual ontology mapping–an investigation of the impact of machine translation
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成系统及方法
EP1754169A2 (en) A system for multilingual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
Jin et al. ComQA: Question answering over knowledge base via semantic matching
Och et al. Efficient search for interactive statistical machine translation
CN101075230B (zh) 一种基于语块的中文机构名翻译方法及装置
CN101464856A (zh) 平行口语语料的对齐方法和装置
Mane et al. Study of various approaches in machine translation for Sanskrit language
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Dandapat et al. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting
Mall et al. Developing a system for machine translation from Hindi language to English language
Durrani et al. Improving Egyptian-to-English SMT by mapping Egyptian into MSA
KR101134467B1 (ko) 의미 표현 처리 장치 및 그 방법
Joshi et al. Crosslingual location search
Groves et al. Hybridity in MT: Experiments on the Europarl corpus
Sangavi et al. Analysis on bilingual machine translation systems for English and Tamil
Yang et al. A Chinese-English organization name translation system using heuristic web mining and asymmetric alignment
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111207

Termination date: 20150917

EXPY Termination of patent right or utility model