CN103942192B - 一种双语最大名词组块分离-融合的翻译方法 - Google Patents

一种双语最大名词组块分离-融合的翻译方法 Download PDF

Info

Publication number
CN103942192B
CN103942192B CN201310593728.5A CN201310593728A CN103942192B CN 103942192 B CN103942192 B CN 103942192B CN 201310593728 A CN201310593728 A CN 201310593728A CN 103942192 B CN103942192 B CN 103942192B
Authority
CN
China
Prior art keywords
bmnc
sentence
translation
english
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310593728.5A
Other languages
English (en)
Other versions
CN103942192A (zh
Inventor
黄河燕
史树敏
李业刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310593728.5A priority Critical patent/CN103942192B/zh
Publication of CN103942192A publication Critical patent/CN103942192A/zh
Application granted granted Critical
Publication of CN103942192B publication Critical patent/CN103942192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种双语最大名词组块分离‑融合的翻译方法,属于计算机科学中的自然语言处理技术领域。在基于树的统计机器翻译模型的中引入了BMNCs分离‑融合翻译的思想,把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。本方法降低了翻译难度和翻译时间,提升了翻译准确率,尤其适合在即时翻译中针对较长句子的翻译。

Description

一种双语最大名词组块分离-融合的翻译方法
技术领域
本发明涉及一种双语最大名词组块分离-融合的翻译方法,尤其适用于较长句子的翻译,属于计算机科学中的自然语言处理(NLP)技术领域。
背景技术
最大名词短语(MNP)是指不被其他任何名词短语所包含的名词短语。从句法功能上来看,MNP一般出现在句子的主语或宾语的位置,如果能够很好地识别出句子中所有的MNP,就可以很方便地把握句子的整体结构框架。作为一项重要的应用基础研究,MNP的自动识别与分析对于自然语言处理领域中的许多应用研究,包括句法分析、信息检索、信息抽取、机器翻译等,都具有重要的实践意义。
在计算机语言处理技术领域中,不同语言之间的机器翻译问题本质上还是语言问题,所以机器翻译问题的最终解决也必须依靠语言学知识的运用。语言学知识一般指的是源或目的语言的句法分析结构。典型的基于语言学语法的统计翻译模型是基于树的统计翻译机器翻译模型,指的是在汉语端,或者英语端,或者两端同时利用语言学意义上的句法结构,是统计机器翻译的一种新趋势。
目前,研究人员对MNP和基于树的统计翻译都进行了大量的研究,但是仍然存在诸多的问题。
第一,在基于树的统计机器翻译中,句法分析错误会传递到翻译解码节点,使得翻译准确率严重下降,中文句法分析不尽人意。因此,句法分析问题成为基于树的统计机器翻译的瓶颈。
第二,在基于树的统计翻译模型中,翻译解码时间加上汉语句法分析的时间,其时间复杂度是句子长度的三次方。随着句子的长度增加,翻译时间将明显增长,这对在线翻译的影响显而易见。所以,长句子的翻译一直是个难点。
第三,目前对汉英MNP的识别研究较多,但是由于汉英的语言差异比较大,MNP在机器翻译中的一直没有得到广泛的应用。
发明内容
本发明的目的是为了克服已有技术的缺陷,针对现有基于树的统计机器翻译模型在翻译质量和翻译实时性上的不足,通过定义一种比现有的MNP更具有应用性的双语最大名词组块(BMNC),并在此基础上提出一种双语最大名词组块分离-融合的翻译方法。
本发明方法的基本原理是:采用一种分而治之的翻译策略,把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。首先,对待翻译的句子进行BMNC识别,把所有BMNC抽取出来组成BMNC集合(用BMNCs表示);在原来的句子中,用BMNC的中心词的词性来代替BMNC整体,形成句子骨架。然后,对BMNCs和句子骨架分别进行句法分析。利用BMNC翻译模型翻译BMNC,得到英语BMNCs的n-best输出;利用句子骨架翻译模型翻译句子骨架得到英语句子骨架的n-best输出。最后,融合英语BMNCs和句子骨架,形成最后的翻译结果。
所述BMNC,是指具备双语一致性的MNP。在双语句对中,汉英MNP会存在不完全对译的情况。BMNC不仅是一个完整的句法单元和语义单元,在句子中有稳定的外部修饰结构,还具备双语可互译性和双语识别的一致性。在单语中它可能被其它名词短语包含,但是它不能被可互译的其它名词短语包含。
具体地,本发明方法包括以下步骤:
步骤一、对待翻译的句子进行BMNC识别,并将所有BMNC抽取出来组成BMNC集合;同时,在原来的句子中用BMNC的中心词的词性来代替BMNC整体,形成句子骨架。
首先,从句法树库中随机抽取2000句,提取BMNC并标注其中心词,作为训练语料。通过机器学习的方法,训练BMNC及其中心词的识别模型。然后,利用识别模型,对待翻译的句子进行BMNC及其中心词识别标注,提取句子中所有BMNC并组成BMNC集合——BMNCs,同时,将句子中的BMNC用其中心词词性代替形成句子骨架。
所述识别模型可选用条件随机域模型(CRF)或者支持向量机(SVM)。
所述句法树库可选用宾州句法树库或者清华大学句法树库等。
步骤二、建立BMNC和句子骨架的翻译模型,翻译经步骤一得到的BMNCs和句子骨架。
为了翻译步骤一中得到的BMNCs和句子骨架,首先训练BMNC和句子骨架的翻译模型。其流程如图2所示,具体如下:
在句子级别对齐的语料中抽取对齐的BMNC,建立BMNC平行语料库。首先,分别对汉英句子进行BMNC粗识别,然后对BMNC进行识别对齐修正,最后通过一个贪心算法,得到句对最优的BMNC对集合。
平行语料中提取到的所有BMNC对构成了BMNC平行语料;把每个句子中的BMNC用对应的中心词的词性代替,组成句子骨架平行语料。由此将句子级对齐的平行语料分解为BMNC平行语料和句子骨架平行语料,并在这两个语料上分别训练BMNC翻译模型和句子骨架翻译模型。
利用上述BMNC翻译模型,对步骤一得到的BMNCs进行翻译,得到英语BMNCs的n-best输出;利用句子骨架翻译模型翻译待翻译句子的句子骨架,得到句子骨架的英语n-best输出。
所述n-best是指最优的前n个结果。
步骤三、融合英语的BMNCs和句子骨架,形成翻译结果。
把经步骤二得到的英语端BMNCs的n-best输出和英语端句子骨架的n-best输出进行交叉组合,产生待翻译句子的一系列翻译候选。利用线性加权模型,融合n-gram特征和句子长度惩罚特征为每个翻译候选打分,把翻译任务转换为一个排序任务,选取得分最高的翻译假设作为最优句子翻译结果。
所述n-gram是指n元语法模型。
有益效果
本发明通过在基于树的统计机器翻译模型的中引入了BMNCs分离-融合翻译的思想,把整句翻译任务分解为,BMNCs翻译和句子骨架翻译两个独立的任务,降低了翻译难度和翻译时间。本方法对比现有技术,BMNCs分离-融合翻译减低了最大名词组块对句子翻译的负面影响,降低了句子的结构复杂度,从而句法分析错误传递到翻译解码节点的几率减少,使得翻译准确率得到提升。用中心词的词性来代替BMNC整体,使句子的平均长度降低一半左右,而且剔除了部分底层的结构歧义,给句法分析带来了极大的便利,也使得基于语言学语法的翻译模型能更好地发挥它长距离调序的优势。另外,句子长度的缩短,减小了翻译搜索空间,降低了翻译算法的复杂度,降低了翻译时间。本发明尤其适合在即时翻译中针对较长句子的翻译。
附图说明
图1为本发明方法中BMNCs分离-融合翻译方法示意图;
图2为本发明方法中BMNC翻译模型和句子Skeleton翻译模型的训练过程流程示意图;
具体实施方式
下面结合附图和实例对本发明的具体实施方式做进一步详细说明。
一种双语最大名词组块分离翻译的统计机器翻译模型,包括以下步骤:
步骤一、识别待翻译句子的BMNC及其中心词。首先,采用机器学习的方法训练一个标注模型,对待翻译的句子进行BMNC及其中心词标注。
在双语句对中,汉英最大名词短语(MNP)会存在不完全对译的情况,例如:
【上海浦东开发与法制建设】同步【The development of Shanghai'sPudong】is in step with【the establishment of its legal system】。汉语端将【上海浦东开发与法制建设】识别为一个最大名词短语,而在英语端则被拆分为【Thedevelopment of Shanghai's Pudong】和【the establishment of its legal system】两个不连续的名词短语。
针对汉英语言的特点,定义一个面向机器翻译的实际需要的双语最大名词组块BMNC概念,它不仅是一个完整的句法单元和语义单元,在句子中有稳定的外部修饰结构,还具备双语可互译性和双语识别的一致性。在单语中,它可能被其它名词短语包含,但是它不能被可互译的其它名词短语包含。汉英BMNC形式化定义如下:
对于句对SP=<S,T>,S表示汉语词序列S:ws1ws2…wsns,T表示英语词序列T:wt1wt2…wtnt;其中ns和nt分别表示S和T的长度。若存在<MNCc,MNCe>,并且满足下列条件时,称<MNCc,MNCe>为汉英BMNC:{<MNCc,MNCe>|MNCc=ws0,ws1,…,wsm,MNCe=wt0,wt1,…,wtnm<ns,n<nt}
(1)非空性。MNCc≠null,MNCe≠null
(2)互译性。MNCe和MNCc具有翻译上的转换充分性。
(3)代表性。MNCc和MNCe的语义核心由一个或多个名词组成,该语义核心的成分特征决定了整个BMNC短语结构的特征。
(4)最大性:不存在另外一个且满足
根据定义,对于标注语料,汉语端将【上海浦东开发与法制建设】识别为一个BMNC,而在英语端则被拆分为【The development of Shanghai'sPudong】和【the establishment of its legal system】两个不连续的BMNC的情况。把汉语BMNC【上海浦东开发与法制建设】切分为【上海浦东开发】(对应英语BMNC【The development of Shanghai's Pudong】)和【法制建设】(对应英语BMNC【the establishment of its legal system】)两个BMNC,从而形成双语对齐的BMNC。而对于汉英不匹配的少数MNP,不做BMNC标注。
在标注好的语料上训练BMNC识别及其中心词的统计模型。标注模型选择在小样本空间上有良好表现的SVM。标注采用了BIO标记集合,共包含BS、BH、IH、IS、O共5种标记,其中的S表示BMNC的开始位置,I表示BMNC的其它位置,O表示非BMNC组成,H表示BMNC中心词,S表示非BMNC中心词。特征选用词和词性,特征窗口9,即除了本词外,考虑前后各4个词。标注实例:
上海/BS浦东/IS开发/IH与/O法制/BS建设/IH同步/O
步骤二、建立BMNC和句子骨架的翻译模型,翻译经步骤一得到的BMNCs和句子骨架。
统计机器翻译需要预先训练翻译模型,流程如图2所示。训练BMNCs统计机器翻译模型,需要BMNCs平行语料库;训练句子骨架统计机器翻译模型,需要句子骨架平行语料库。此处,通过将平行语料中所有的BMNC对取出,形成BMNC统计翻译模型的训练集;将平行语料中BMNC用其中心词词性代替,形成句子骨架的统计翻译模型的训练集。
获取BMNC对需要进行BMNC对齐,从识别的角度上,双语语块对齐方法可以分为两大类。一类是识别单语实体后再对齐,只识别出汉语语块,然后在英语中确定它们的翻译对应。这样可以降低对齐过程对识别结果的依赖程度,但是这类对齐方法丢失了英语语块的识别信息。另一类是识别双语语块后再对齐,分别在汉语和英语中识别出语块,然后再建立它们之间的对齐关系。在这种方法中,对齐直接采用识别结果,识别的错误没有经过修正,直接延续到对齐过程中,对齐性能将无法从根本上提高。本方法中,针对汉英平行语料,融合BMNC识别与对齐,采取一种汉英BMNC一体化交互式识别对齐方法,使对齐具有修正识别的功能,实现二者性能的同时提高,具体如下:
首先,在2000句标注好的汉英双语语料上训练两个初始BMNC识别模型,利用识别模型分别对汉英平行语料进行BMNC粗识别,产生汉语端句子的BMNC集合英语端句子的BMNC集合
然后,将汉英双语句对中的BMNC两两组合,即mk(MNCci,MNCej),i∈[1,s],j∈[1,t]是其一个BMNC对,即mk∈M,M就是粗对齐的候选集合。因为BMNC具备互译性,所以BMNC之间存在的相互对译的词越多,则它们是对齐BMNC的可能性越大。所以,以BMNC内部词对齐的比率作为粗对齐的置信度。粗对齐置信度的计算如公式(1)所示。
Align _ Conf ( MNCc i , MNCe j ) = count ( MNCc i , MNCe j ) max ( count ( MNCc i ) , count ( MNCe j ) ) - - - ( 1 )
公式(1)中,count(MNCci,MNCej)表示
MNCci和MNCej之间对齐的词数,count(MNCci)、count(MNCej)分别表示MNCci和MNCej中包含的词的数目;分别表示MNCci和MNCej中包含的词的数目。
之后,依据每对BMNC的内部对齐置信度,采用一个贪心过程来生成汉英句对中最优BMNC粗对齐,具体方法如下:
对粗实别对齐的结果集合,通过词投射,粗识别的BMNC区域和投射BMNC区域融合形成一个候选区域,从而扩展出更多的BMNC可能识别结果。假定 r k = ( MNCc c 1 c 2 , MNCe a 1 a 2 ) &Element; R , 1 &le; k &le; K , 即英语端的和汉语是句对中的第K个粗识别对齐BMNC对。表示通过词对齐投射在英语端的投射区域。表示通过词对齐投射在汉语端的投射区域。英语端最小BMNC候选区域英语端最大BMNC候选区域汉语端最小BMNC候选区域汉语端最大BMNC候选区域
在汉英两端分别建立一个滑动窗,从最小BMNC候选区域出发,不断向句子中任意一侧扩充词,直至达到最大BMNC候选区域边界为止,建立一系列汉英BMNC假设。通过候选区域中汉英BMNC假设的两两组合,得到粗对齐 r k = ( MNCc c 1 c 2 , MNCe a 1 a 2 ) 的双语扩展BMNC假设集合 H k = ( MNC c ~ , MNC e ~ ) .
利用表示汉英句子粗识别对齐扩展后形成的双语扩展BMNC假设集合。假定汉语和英语BMNC识别相互独立,最优的BMNC识别对齐结果就是单语BMNC(单语置信度最高)和双语对齐(双语置信度最高)一致最优的双语扩展BMNC假设。
BMNC的单语置信度的计算公式如公式2所示:
P = ( MNCx | MNC x ~ , S ) &ap; P ( MNCxl | MNC x ~ a b , S ) P ( MNCxr | MNC x ~ a b , S ) ( 2 )
其中,
P ( MNCxl | MNC x ~ a b , S ) = max ( count ( t i , t i + 1 , lw ) count ( lw ) , count ( t i - 1 , t i , lw ) count ( lw ) )
P ( MNCxr | MNC x ~ a b , S ) = max ( count ( t i , t i + 1 , rw ) count ( rw ) , count ( t i - 1 , t i , rw ) count ( rw ) )
ti,ti-1,ti+1分别表示边界词wi的词性,边界词wi前一个词的词性和边界词wi的后一个词的词性;count(*,*,*)表示语料库中BMNC边界词wi及前一个词或者后一个词的词性组合出现的次数;而count(rwi)和count(lwi)分别表示左边界和右边界在语料库中出现的次数。
对于BMNC的双语对齐置信度构造一组特征函数,利用最大熵模型进行建模。采用3个特征来对双语对齐置信度进行建模,分别为:词性组合共现特征、互为翻译特征以及长度关联特征。
把扩展对齐BMNC假设集合 H k = ( MNC c ~ , MNC e ~ ) 中的每个假设的分值表示为公式(3)的形式:
score ( h i ) = log ( P ( h i | MNC c ~ , MNC e ~ , CS , ES ) ) + &xi; log ( P ( MNCe | MNC e ~ , ES ) ) + &zeta; log ( P ( MNCc | MNC c ~ , CS ) ) - - - ( 3 )
其中, &xi; = len ( h i . MNC e ~ ) max j = 1 count ( H k ) ( len ( h j . MNC e ~ ) ) 是英语短BMNC的长度惩罚因子,count(Hk)表示Hk中BMNC对的个数,len(*)表示BMNC假设对中单语端BMNC包含的词数; &zeta; = len ( h i . MNC c ~ ) max j = 1 count ( H k ) ( len ( h j . MNC c ~ ) ) 是汉语短BMNC的长度惩罚因子。
最后,通过一个贪心搜索,得到句对最优的BMNC对集合。把句子中的BMNC用其对应的中心词代替,形成句子骨架。但是,汉语词和英语单词并不是一一对齐的,存在一对多,多对一的情况。也就是说中心词会存在不完全互译的情况,这就会造成形成的句子骨架并不是充分互译的。例如:
新区/n BS管委会/n IH
the/DT BS new/JJ IS region/NN IS's/POS IS management/NN IScommittee/NN IH
汉语端BMNC的中心词“管委会”对应的英语翻译是“managementcommittee”,而不只是英语端的BMNC中心词“committee”,如果只是用中心词BMNC,就会形成两个并不是完全互译的英汉句子骨架,给后续的翻译带来衍生错误。为了避免这样的错误,采用中心词词性代替原来的中心词。把句子级对齐的平行语料,分解为BMNC平行语料和句子骨架平行语料两个语料集合,并在这两个平行语料上分别训练基于树的BMNC统计机器翻译模型和句子骨架统计机器翻译模型。
对于给定的待翻译的句子,利用步骤一中的方法识别出所有的BMNC,并通过BMNC翻译模型进行翻译,得到英语BMNC的n-best输出。把待翻译句子中的BMNC用其中心词的词性代替,并通过句子骨架翻译模型进行翻译,得到英语句子骨架的n-best输出。
步骤三、英语的BMNCs和句子骨架融合,形成翻译结果。
把通过步骤二得到的英语的BMNC集合和英语句子的骨架各自的n-best输出进行交叉组合,产生一系列句子翻译假设;利用重打分策略,对每一个翻译假设进行打分。重打分策略通过高阶n-gram语法模型(通常取4元或者5元语言模型)及句子长度惩罚进行线性加权联合求取。把翻译任务转换为一个排序任务,选取分值最高的组合作为最优的句子翻译。翻译假设的分值计算如公式(8)所示。
E j = vL j 4 | 5 - grams + &mu; W j - - - ( 8 )
其中,ν和μ分别是高阶语言模型和句子长度惩罚的权重,它们的值可以在开发集上进行优化调整,w表示句子长度。

Claims (3)

1.一种双语最大名词组块分离-融合的翻译方法,其特征在于包括以下步骤:
步骤一、对待翻译的句子进行BMNC识别,并将所有BMNC抽取出来组成BMNC集合;同时,在原来的句子中用BMNC的中心词的词性来代替BMNC整体,形成句子骨架;具体过程如下:
首先,定义一个面向机器翻译的实际需要的双语最大名词组块BMNC概念,它不仅是一个完整的句法单元和语义单元,在句子中有稳定的外部修饰结构,还具备双语可互译性和双语识别的一致性;在单语中,它可能被其它名词短语包含,但是它不能被可互译的其它名词短语包含;
从句法树库中随机抽取2000句,提取BMNC并标注其中心词,作为训练语料;通过机器学习的方法,训练BMNC及其中心词的识别模型;
然后,利用识别模型,对待翻译的句子进行BMNC及其中心词识别标注,提取句子中所有BMNC并组成BMNC集合——BMNCs,同时,将句子中的BMNC用其中心词词性代替形成句子骨架;
步骤二、建立BMNC和句子骨架的翻译模型,翻译经步骤一得到的BMNCs和句子骨架;
为翻译步骤一中得到的BMNCs和句子骨架,首先训练BMNC和句子骨架的翻译模型,其流程具体如下:在句子级别对齐的语料中抽取对齐的BMNC,建立BMNC平行语料库;首先,分别对汉英句子进行BMNC粗识别,然后对BMNC进行识别对齐修正,最后通过一个贪心搜索,得到句对最优的BMNC对集合;
平行语料中提取到的所有BMNC对构成了BMNC平行语料;把每个句子中的BMNC用对应的中心词的词性代替,组成句子骨架平行语料,由此将句子级对齐的平行语料分解为BMNC平行语料和句子骨架平行语料,并在这两个语料上分别训练BMNC翻译模型和句子骨架翻译模型;
利用上述BMNC翻译模型,对步骤一得到的BMNCs进行翻译,得到英语BMNCs的n-best输出;利用句子骨架翻译模型翻译待翻译句子的句子骨架,得到句子骨架的英语n-best输出;所述n-best是指最优的前n个结果;
步骤三、融合英语的BMNCs和句子骨架,形成翻译结果;
把经步骤二得到的英语端BMNCs的n-best输出和英语端句子骨架的n-best输出进行交叉组合,产生待翻译句子的一系列翻译候选;利用线性加权模型,融合n-gram特征和句子长度惩罚特征为每个翻译候选打分,把翻译任务转换为一个排序任务,选取得分最高的翻译假设作为最优句子翻译结果;所述n-gram是指n元语法模型。
2.如权利要求1所述的一种双语最大名词组块分离-融合的翻译方法,其特征在于,所述步骤二中,对BMNC进行识别对齐修正,采取一种汉英BMNC一体化交互式识别对齐方法,具体如下:
首先,在2000句标注好的汉英双语语料上训练两个初始BMNC识别模型,利用识别模型分别对汉英平行语料进行BMNC粗识别,产生汉语端句子的BMNC集合英语端句子的BMNC集合
然后,将汉英双语句对中的BMNC两两组合,即mk(MNCci,MNCej),i∈[1,s],j∈[1,t]是其一个BMNC对,即mk∈M,M就是粗对齐的候选集合;以BMNC内部词对齐的比率作为粗对齐的置信度;粗对齐置信度的计算如公式(1)所示:
A l i g n _ C o n f ( MNCc i , MNCe j ) = c o u n t ( MNCc i , MNCe j ) m a x ( c o u n t ( MNCc i ) , c o u n t ( MNCe j ) ) - - - ( 1 )
其中,count(MNCci,MNCej)表示和MNCej之间对齐的词数,count(MNCci,MNCej)分别表示MNCci和MNCej中包含的词的数目;
之后,依据每对BMNC的内部对齐置信度,采用一个贪心过程来生成汉英句对中最优BMNC粗对齐,具体方法如下:
对粗实别对齐的结果集合,通过词投射,粗识别的BMNC区域和投射BMNC区域融合形成一个候选区域,从而扩展出更多的BMNC可能识别结果;假定即英语端的和汉语是句对中的第K个粗识别对齐BMNC对;表示通过词对齐投射在英语端的投射区域;表示通过词对齐投射在汉语端的投射区域;英语端最小BMNC候选区域英语端最大BMNC候选区域汉语端最小BMNC候选区域汉语端最大BMNC候选区域
在汉英两端分别建立一个滑动窗,从最小BMNC候选区域出发,不断向句子中任意一侧扩充词,直至达到最大BMNC候选区域边界为止,建立一系列汉英BMNC假设;通过候选区域中汉英BMNC假设的两两组合,得到粗对齐的双语扩展BMNC假设集合
利用表示汉英句子粗识别对齐扩展后形成的双语扩展BMNC假设集合;假定汉语和英语BMNC识别相互独立,最优的BMNC识别对齐结果就是单语BMNC和双语对齐一致最优的双语扩展BMNC假设;
BMNC的单语置信度的计算公式如下所示:
P ( M N C x | M N C x ~ , S ) &ap; P ( M N C x l | M N C x ~ a b , S ) P ( M N C x r | M N C x ~ a b , S ) - - - ( 2 )
其中,
P ( M N C x l | M N C x ~ a b , S ) = max ( c o u n t ( t i , t i + 1 , l w ) c o u n t ( l w ) , c o u n t ( t i - 1 , t i , l w ) c o u n t ( l w ) )
P ( M N C x r | M N C x ~ a b , S ) = max ( c o u n t ( t i , t i + 1 , r w ) c o u n t ( r w ) , c o u n t ( t i - 1 , t i , r w ) c o u n t ( r w ) )
ti,ti-1,ti+1分别表示边界词wi的词性,边界词wi前一个词的词性和边界词wi的后一个词的词性;count(*,*,*)表示语料库中BMNC边界词wi及前一个词或者后一个词的词性组合出现的次数;count(rwi)和count(lwi)分别表示左边界和右边界在语料库中出现的次数;
对于BMNC的双语对齐置信度P(A|MNCc~,MNCe~,CS,ES),构造一组特征函数,利用最大熵模型进行建模;采用3个特征来对双语对齐置信度进行建模,分别为:词性组合共现特征、互为翻译特征以及长度关联特征;
把扩展对齐BMNC假设集合中的每个假设的分值表示为公式(3)的形式:
s c o r e ( h i ) = l o g ( P ( h i | M N C c ~ , M N C e ~ , C S , E S ) ) + &xi; log ( P ( M N C e | M N C e ~ , E S ) ) + &zeta; log ( P ( M N C c | M N C c ~ , C S ) ) - - - ( 3 )
其中,是英语短BMNC的长度惩罚因子,count(Hk)表示Hk中BMNC对的个数,len(*)表示BMNC假设对中单语端BMNC包含的词数;是汉语短BMNC的长度惩罚因子。
3.如权利要求1所述的一种双语最大名词组块分离-融合的翻译方法,其特征在于,所述步骤三中翻译假设的分值计算如下:
E j = vL j 4 | 5 - g r a m s + &mu;W j
其中,ν和μ分别是高阶语言模型和句子长度Wj惩罚的权重,它们的值在开发集上进行优化调整。
CN201310593728.5A 2013-11-21 2013-11-21 一种双语最大名词组块分离-融合的翻译方法 Active CN103942192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310593728.5A CN103942192B (zh) 2013-11-21 2013-11-21 一种双语最大名词组块分离-融合的翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310593728.5A CN103942192B (zh) 2013-11-21 2013-11-21 一种双语最大名词组块分离-融合的翻译方法

Publications (2)

Publication Number Publication Date
CN103942192A CN103942192A (zh) 2014-07-23
CN103942192B true CN103942192B (zh) 2016-08-17

Family

ID=51189862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310593728.5A Active CN103942192B (zh) 2013-11-21 2013-11-21 一种双语最大名词组块分离-融合的翻译方法

Country Status (1)

Country Link
CN (1) CN103942192B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990B (zh) * 2015-07-24 2017-12-19 北京理工大学 一种面向机器翻译的多策略英文长句分割方法
CN105573994B (zh) * 2016-01-26 2019-03-22 沈阳雅译网络技术有限公司 基于句法骨架的统计机器翻译系统
CN106021225B (zh) * 2016-05-12 2018-12-21 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN106339371B (zh) * 2016-08-30 2019-04-30 齐鲁工业大学 一种基于词向量的英汉词义映射方法和装置
CN107301174B (zh) * 2017-06-22 2019-12-24 北京理工大学 一种基于拼接的集成式自动译后编辑系统及方法
CN107632981B (zh) * 2017-09-06 2020-11-03 沈阳雅译网络技术有限公司 一种引入源语组块信息编码的神经机器翻译方法
CN107861952A (zh) * 2017-09-25 2018-03-30 沈阳航空航天大学 基于最长名词短语分治策略的神经机器翻译方法
CN109166407B (zh) * 2018-08-06 2021-06-04 李勤骞 英语体系名词性结构表达训练系统及其方法
CN112101016B (zh) * 2020-11-05 2021-03-23 广州云趣信息科技有限公司 分词器获得方法、装置及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Language Policy in Multilingual Organizations;Chris Allen Thomas;《Working Papers in Educational Linguistics》;20071231;第22卷(第1期);全文 *
Named Entity Recognition Based on Bilingual Co-training;Yegang Li et al;《CLSW 2013》;20130512;第LNAI 8229卷;全文 *
Ncode: an Open Source Bilingual N-gram SMT Toolkit;Josep M. Crego et al;《The Prague Bulletin of Mathematical Linguistics》;20111031(第96期);全文 *
基于本体的汉语领域命名实体识别;史树敏 等;《情报学报》;20091231;第28卷(第6期);全文 *
汉语组块分析研究综述;李业刚 等;《中文信息学报》;20130531;第27卷(第3期);全文 *

Also Published As

Publication number Publication date
CN103942192A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN103942192B (zh) 一种双语最大名词组块分离-融合的翻译方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103500160B (zh) 一种基于滑动语义串匹配的句法分析方法
CN1578954B (zh) 计算机语言翻译扩展系统
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN107908614A (zh) 一种基于Bi‑LSTM的命名实体识别方法
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106383818A (zh) 一种机器翻译方法及装置
CN105068997B (zh) 平行语料的构建方法及装置
CN105955956A (zh) 一种汉语隐式篇章关系识别方法
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
CN102117270B (zh) 一种基于模糊树到精确树的统计机器翻译方法
CN103631772A (zh) 机器翻译方法及装置
CN103885939A (zh) 维吾尔文-汉文双向翻译记忆系统的构造方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN103699529A (zh) 一种使用词义消歧的融合机器翻译系统的方法及装置
CN101593173A (zh) 一种汉英反向音译方法及装置
CN104268132A (zh) 机器翻译方法及系统
CN104915337A (zh) 基于双语篇章结构信息的译文篇章完整性评估方法
CN107133223A (zh) 一种自动探索更多参考译文信息的机器翻译优化方法
CN102760121B (zh) 依存映射方法及系统
CN104268133A (zh) 机器翻译方法及系统
CN103473223A (zh) 一种基于句法树的规则抽取及翻译方法
CN107092675A (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant