CN101706777A - 机器翻译中抽取调序模板的方法及系统 - Google Patents
机器翻译中抽取调序模板的方法及系统 Download PDFInfo
- Publication number
- CN101706777A CN101706777A CN200910237390A CN200910237390A CN101706777A CN 101706777 A CN101706777 A CN 101706777A CN 200910237390 A CN200910237390 A CN 200910237390A CN 200910237390 A CN200910237390 A CN 200910237390A CN 101706777 A CN101706777 A CN 101706777A
- Authority
- CN
- China
- Prior art keywords
- template
- preface
- language
- variable
- bilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及机器翻译中抽取调序模板的方法及系统,方法包括:步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。本发明能够消除现有技术中对抽取翻译模板的限制,并能够提取出多种调序模板以增加调序模板对于翻译中调序现象的覆盖率。
Description
技术领域
本发明涉及机器翻译领域,尤其涉及机器翻译中抽取调序模板的方法及系统。
背景技术
翻译模板是机器翻译中常用的指导翻译的知识表示形式,描述从源语言翻译到目标语言时所需遵循的对应关系。翻译模板为源语言端和目标语言端的常量和变量组成的字符串,而且源语言和目标语言字符串的各部分一一对应。
一个汉语-英语的简单翻译模板举例:
今天X。
X today.
模板中的常量即指语言片段,也称终结符,如上例中的“今天”,对应“today”;“。”对应“.”。变量即指用“X”代表的部分,也称非终结符。非终结符为在抽取过程中对终结符序列进行替换得到。
由于源语言和目标语言的顺序通常不一致,翻译模板又分为顺序模板和调序模板两类。顺序模板中的所有对应部分在源语言和目标语言中顺序一致,而调序模板则描述了源语言和目标语言翻译对顺序不一致的情况。
翻译模板可以由手工构建,也可以从双语语料中自动抽取。由于手工构建的模板成本较高,而且匹配时容易发生冲突,在现有技术的机器翻译系统中一般使用从双语语料中自动抽取方法抽取翻译模板。
尽管自动抽取翻译模板成本低,容易在机器翻译系统中使用,但是由于翻译模板的非终结符通过替换多种终结符序列得到,造成自动抽取模板的数量巨大,现有技术中为了保证机器翻译系统的效率,通常对抽取翻译模板具有多种限制,例如,对抽取翻译模板的句子部分的长度限制,对翻译模板源语言端和目标语言端长度的限制等。
在机器翻译中,调序问题是指由于源语言和目标语言词序通常不一致,需要在翻译过程中对目标语言进行重排序的问题。它是机器翻译的核心问题之一,因为好的机器翻译结果必须具有正确的目标语言顺序。在使用自动抽取模板的统计机器翻译系统中,调序通常通过匹配调序模板实现。但是,现有技术中机器翻译系统中使用的翻译模板由于抽取过程的种种限制,不能准确,完整地描述重排序现象;在机器翻译过程中,由于计算翻译模板调序代价巨大,在没有合适的翻译模板使用时,默认按照顺序方式翻译,从而造成错误调序。
所以,现有的调序模板自动抽取方法存在调序模板对于翻译中调序现象覆盖低的问题。
发明内容
为解决上述问题,本发明提供了机器翻译中抽取调序模板的方法及系统,能够消除现有技术中对抽取翻译模板的限制,并能够提取出多种调序模板以增加调序模板对于翻译中调序现象的覆盖率.
本发明公开了一种机器翻译中抽取调序模板的方法,包括:
步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;
步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;
步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。
所述步骤2进一步为,
步骤21,对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例;
所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
所述步骤3进一步为,
步骤31,对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;
步骤32,对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
所述步骤21还包括,
步骤41,对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。
所述步骤3后还包括,
步骤51,如果变量部分包含调序实例,将所述变量部分替换为所述变量实例对应的调序模板。
所述步骤3后还包括:
步骤61,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。
所述步骤3后还包括:
步骤71,对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;
步骤72,根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
本发明还公开了一种机器翻译中抽取调序模板的系统,包括:
语料处理模块,用于输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;
调序实例抽取模块,用于对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;
调序模板生成模块,用于对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。
所述调序实例抽取模块进一步用于对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例;
所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
所述调序模板生成模块进一步用于对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
所述调序实例抽取模块还用于对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。
所述调序模板生成模块还用于在变量部分包含调序实例时,将所述变量部分替换为所述变量实例对应的调序模板。
所述系统还包括:
概率生成模块,用于对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。
所述系统还包括:
概率生成模块,用于对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
本发明的有益效果在于,在调序模板抽取时没有长度限制,同时只抽取具有调序作用的模板,保证了抽取的效率;调序模板抽取允许调序模板的源语言部分含有两个以上的变量或连续变量,相比于现有技术的模板抽取,减少了限制,增加了调序模板的可泛化程度。
附图说明
图1是本发明抽取调序模板的方法的流程图;
图2是本发明抽取调序模板的方法具体实施方式的流程图;
图3是本发明抽取调序模板的系统的结构图。
具体实施方式
下面结合附图,对本发明做进一步的详细描述。
一种机器翻译中抽取调序模板的方法的流程如图1所示。
步骤S100,输入双语对齐语料,对双语对齐语料中的源语言部分进行分词和词性标注。
双语对齐语料为已经经过自动对齐的双语语料。
步骤S200,对每一个双语句对,进行调序分析,抽取出调序实例。
调序实例是源语言和目标语言顺序不一致的句块对,并且调序实例满足词语对齐一致性。
词语对齐一致性是指句块对中源语言部分的每个词对应的目标语言的词都在句块对的目标语言部分中,目标语言部分的每个词对应的源语言的词都在句块对的源语言部分,并且目标语言部分中未包含的目标语言的词对应的源语言的词没有在源语言部分中出现,源语言部分中未包含的源语言的词对应的目标语言的词没有在目标语言部分中出现。
步骤S300,对于每个调序实例,根据词对在源语言和目标语言中位置,将该调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量,以获得调序模板。
一较佳的方法中,所述步骤S200进一步为,
步骤S210,对每一个双语句对,将该双语句对中满足条件的句块对抽取为调序实例。
所述条件为句块对满足词语对齐一致性,并且句块对包括两个相邻的子句块对,所述两个子句块对满足词语对齐一致性,并且它们的源语言部分在句块对的源语言部分的顺序与所述两个子句块对的目标语言部分在句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
句块对源语言部分的两个子部分和该子部分按词对齐确定的句块对目标语言部分的对应的子部分组成子句块对。
所述延伸两个子句块为将子句块对中的源语言部分在所述双语句对中的源语言部分中延伸,由于延伸的源语言部分有按词对齐确定的目标语言部分,子句块对的目标语言部分也要延伸上述的目标语言部分。
例如,图2中双语句对“和谈后确定邦交的政策”和“decide policy ofdiplomatic relationship after negotiation”中,句块对“邦交的政策”和“policy of diplomatic relationship”,该句块对的对应一个子句块对为“邦交”和“diplomatic relationship”,将该子句块对延伸,“邦交”延伸为“确定邦交”,由于“确定”对应的目标语言部分是”decide”,“diplomatic relationship”对应延伸为“decide..diplomaticrelationship”。由于”decide”和”diplomatic relationship”之间有其他的目标语言部分,不能得到满足词语对齐一致性的新子句块对。
词对齐为按源语言和目的语言单词间的词义确定的对应关系.一较佳的方法中,所述步骤S300进一步为,
步骤S310,对于每个调序实例,根据词对在源语言和目标语言中的对齐位置确定调序的分界,从分界处将调序实例划分为两部分。
步骤S320,对于每个部分,根据词性标注在源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为该部分的源语言部分的变量部分,该句段根据词对齐确定的在该部分的目标语言部分中对应的句段为该部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板。
所述条件为句段的第一个词和最后一个词为实词,并且该句段和该句段对应的目标语言部分的句段满足词语对齐一致性。
一较佳的方法中,所述步骤S210还包括,
步骤S211,对每一个双语句对,根据双语句对的调序实例间的包含关系,将一个双语句对的调序实例组成树状结构。
一较佳的方法中,所述步骤S300还包括,
步骤S310,如果变量部分包含调序实例,将该变量部分替换为所述变量实例对应的调序模板,以形成一个新增的调序模板。
一较佳的方法中,所述步骤S300后还包括,
步骤S400,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据该词对的翻译概率计算每个调序模板的词汇化概率。
一较佳的方法中,所述步骤S300后还包括,
步骤S500,对每个调序模板,在双语对齐语料中匹配该调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;根据所述匹配次数和完全匹配次数计算该调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
本发明抽取调序模板的方法具体实施方式的流程如下所述。
步骤S601,输入双语对齐语料,对双语对齐语料中的源语言部分进行分词和词性标注。
本具体实施方式中用自动对齐方法对双语平行语料进行词语对齐,并且用源语言的词性标注器对双语对齐语料中源语言的语句进行词性标注。对源语言进行分词,词性标注可以在分词之后进行,也可以和分词过程同时进行。
本具体实施方式抽取出的模板中,源语言部分的词带有词性标注的结果。
步骤S602,对每一个双语句对,将该双语句对中满足条件的部分抽取为调序实例。
所述条件为所述步骤S210中条件。
本实施方式中为所述部分在源语言中包括两个相邻的子部分,每一子部分在目标语言中的顺序与在源语言中的顺序相反,并且不能通过延伸所述的两子部分中的任一部分增长所述部分。
对每一个符合条件的调序实例进行分析,由于调序实例可能有重叠,可以将其表示为树状结构。从最短的调序实例开始,到最长的调序实例,依次抽取有调序作用的模板,然后抽取反映层次信息的模板。
步骤S603,对于每个调序实例,根据词对在源语言和目标语言中的位置确定调序的分界,从分界处将调序实例划分为两部分。
步骤S604,对于每个部分,根据词性标注在源语言部分中查找满足条件源语言部分的句段,选择满足条件的句段中最长的句段作为该部分的源语言部分的变量部分,该句段在该部分的目标语言部分中对应的句段为该部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板。
所述条件为句段源语言部分的第一个词和最后一个词为实词,并且该句段它和该句段它对应的目标语言部分的句段满足词语对齐一致性。
在宾州树库的中文标记集中,本具体实施方式中定义{NN,JJ,VV,NR,CD,DT,PN}作为实词标记集,它们代表的是语言中有实际意义的词;其他标记被定义为功能词集,它们代表的是语言中用于连接等句法作用的词。NN为名词,JJ为形容词,VV为动词,NR为专有名词,CD为数词,DT为冠词,PN为代词。
在模板抽取中,以多个词组成的短语中的首词和尾词作为边界词。该些词有语言学上的意义,多种机器翻译系统用于决定重排序的特征。在本具体实施方式中,根据语言学的特征,限定边界词必须有特定的词性标记,能够使抽取出的模板在语言学上有意义。抽取调序模板时规定变量部分首尾词的词性标记必须属于实词标记,为一种启发式规则,它的目的是使抽取的模板尽量符合句法的限制,减少无意义模板的数量。
同时,本具体实施方式中对于每个调序实例,根据其调序情况将其分成两部分,对每个部分的源语言部分,根据词性标记和词语对齐情况,找出可以泛化的最长部分,将其泛化为一个变量。
步骤S605,对于每个调序模板,如果该调序模板的变量部分对应包含调序实例,将该变量部分替换为所述变量实例对应的调序模板,以形成一个新增的调序模板。
如果翻译模板中的一个变量部分中含有调序实例,可以抽取表达语言层次信息的模板。通过替换方式,可以用较短调序实例抽取出的调序模板替换较长调序实例抽取的调序模板的一部分,得到新的调序模板。新的调序模板包含更多的上下文信息,是一种更准确的调序模板。
步骤S606,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据该词对的翻译概率计算每个调序模板的词汇化概率。
根据双语对齐语料,用最大似然估计法可以估计出每个词对的翻译概率p(fj|ei),根据基于短语的统计机器翻译中现有的公式一,计算目标语言翻译到源语言的概率:
计算出调序模板的从目标语言到源语言的词化概率,其中a表示词语对齐,i,j表示词在模板中的位置,非终结符对的翻译概率p{x|x}=1。
将公式一中的f和e调换,i和j调换,得到调序模板的源语言翻译到目标语言的词汇化概率。
步骤S607,对每个调序模板,在双语对齐语料中匹配该调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;根据该匹配次数和完全匹配次数计算该调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
从目标语言翻译到源语言的翻译概率根据现有技术中的最大似然估计法来计算:
Count(f,e)表示源语言部分为f,目标语言部分为e的共现次数。共现次数指在双语对齐语料中,该源语言部分和目标语言部分互为翻译的次数。f’指目标语言部分为e时,源语言部分的变量。公式二中分母部分的求和是求所有目标语言部分为e,源语言部分为任意翻译的出现次数。
由于本具体实施方式中只抽取了调序模板,公式二中所有目标语言部分为e的调序模板出现次数无法计算。不需要抽取所有的调序模板来取得该统计值,只需要计算抽取出的调序模板的翻译概率,只需获得该些调序模板的源语言部分和目标语言部分的出现次数,就可以计算该些调序模板的翻译概率。
翻译模板的两个方向的翻译概率和词汇化概率是基于短语的统计机器翻译系统的重要特征。抽取出的翻译模板以及它的四个概率可以应用在基于短语的统计机器翻译系统上。由于本发明中抽取出的模板的变量部分带有首尾词词性标注信息,在统计机器翻译系统中进行应用时可以通过匹配词性标注来进行应用。
本发明抽取出的模板可以应用在基于短语的统计机器翻译系统上,特别适用于基于层次短语的统计机器翻译系统。
本发明机器翻译中抽取调序模板的方法的实施例如下所述。
一个有调序现象的双语平行句,源语言为汉语,目的语言为英语,“和谈后确定邦交的政策”对应“decide the policy of diplomatic relationshipafter negotiation”。
步骤S701,输入双语对齐语料,对双语对齐语料中的源语言部分进行分词和词性标注,获得双语句对如图2所示。
其中,汉语部分为源语言部分,英语部分为目标语言部分,汉语部分每个词“/”后的部分为词性标注符号。连线代表词语对齐的结果。
步骤S701,对调序现象的分析,抽取出调序模板。
在该双语句对中,存在调序现象,表现在词语对齐结果上是连线有交叉的部分。调序实例是源语言和目标语言顺序不一致的块,取最长的部分。在该双语句对中,调序实例为:
调序实例1{和谈后}(及其翻译after negotiation)和{确定邦交的政策}(及其翻译decide the policy of diplomatic relationship)
调序实例2{邦交}(及其翻译diplomatic relationship)和{的政策}(及其翻译the policy of)
其中调序实例2是调序实例1的一个部分,即调序实例2和调序实例1重叠。
从最短的调序实例开始抽取调序模板,在该实施例中同调序实例2开始抽取。由于“邦交”和“政策”都是首尾词有实词标注的源语言块,可以将该两部分分别用变量代替,同时将相应的翻译用变量代替,抽取出调序模板“X1的X2”,翻译到”X2 of X1”。
同样,从调序实例1中抽取出调序模板“X1后X2”,翻译到”X2 afterX1”。
由于该调序模板“X1后X2”所在调序实例的变量部分中包含调序实例2,所以用调序实例2的调序模板替换调序实例1的调序模板的对应变量部分,得到反映层次信息的调序模板“X1后确定X2的X3”及其翻译“decide X3of X2 after X1”。
抽取出的调序模板按抽取顺序排列如下:
序号 | 源语言端 | 目标语言端 | 变量词性标注 |
1 | X1的X2 | X2 of X1 | NN NN NN NN |
2 | X1后X2 | X2 after X1 | NN NN VV NN |
3 | X1后确定X2的X3 | decide X3 of X2after X1 | NN NN NN NN NN NN |
步骤S703,计算调序模板的词汇化概率和翻译概率。
抽取出调序模板后,根据每个调序模板的词对齐情况,计算词汇化概率。
由公式一计算,利用每个词及其翻译对的目标语言端到源语言端的概率计算出调序模板目标语言端到源语言端的概率,利用每个词及其翻译对的源语言端到目标语言端的概率计算出调序模板目标语言端到源语言端的概率。
例如模板“X1的X2”及其翻译”X2 of X1”中,“的“对齐到”of”,设p(的|of)=0.4,p(X|X)=1,则该模板目标语言端到源语言端的词汇化概率就是p(X|X)×p(的|of)×p(X|X)=0.4。
对每个抽取的模板,在双语平行语料中分别匹配它的源语言端和目标语言端,计算出现次数,由此计算两个方向的翻译概率。由公式二计算,用模板在语料中出现次数除以源语言端在语料中出现次数得到模板从源语言翻译到目标语言的翻译概率,用模板在语料中出现次数除以目标语言端在语料中出现次数得到模板从目标语言翻译到源语言的翻译概率。
例如:“X1的X2”在语料中出现5次,模板“X1的X2”及其翻译“X2of X1”在语料中共同出现(在同一个句子中互为翻译)的次数是2次,则该模板(“X1的X2”和“X2 of X1”)的从源语言翻译到目标语言的翻译概率是2/5。
这些抽取出的调序模板及其四个概率,以及变量部分的首尾词词性限制,可以应用在使用翻译模板的统计机器翻译系统中。
上面是对本发明的具有调序作用模板的抽取过程及其可能应用的具体说明。利用FBIS,FBIS为一个包含新闻语料的数据集,大约23万平行句对;数据集作为抽取调序模板的双语平行语料,在NIST(美国国家标准技术研究院举办的机器翻译评测)各测试集上的实验结果表明,加入该些具有调序作用的模板提高了机器翻译结果中单词顺序的准确性,利用统计机器翻译系统通用评价标准BLEU(一种基于词匹配准确度的评价标准)值做评价,在各测试集上机器翻译的质量都有提高,在NIST05上从28.02提高到28.48,在NIST08上从19.75提高到20.44,比不加入这些调序模板的统计机器翻译系统有提高,而且是统计意义上显著的提高。
本发明机器翻译中抽取调序模板的系统,包括:
语料处理模块100,用于输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注。
调序实例抽取模块200,用于对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例。
调序模板生成模块300,用于对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。
较佳的,所述调序实例抽取模块200进一步用于对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例。
所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
较佳的,所述调序模板生成模块300进一步用于对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板。
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
较佳的,所述调序实例抽取模块200还用于对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。
较佳的,所述调序模板生成模块300还用于在变量部分包含调序实例时,将所述变量部分替换为所述变量实例对应的调序模板。
较佳的,所述系统还包括:
概率生成模块,用于对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。
较佳的,所述系统还包括:
概率生成模块,用于对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。
Claims (14)
1.一种机器翻译中抽取调序模板的方法,其特征在于,包括:
步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;
步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;
步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。
2.如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤2进一步为,
步骤21,对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例;
所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
3.如权利要求2所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3进一步为,
步骤31,对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;
步骤32,对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
4.如权利要求2所述的机器翻译中抽取调序模板的方法,其特征在于,
所述步骤21还包括,
步骤41,对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。
5.如权利要求4所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还包括,
步骤51,如果变量部分包含调序实例,将所述变量部分替换为所述变量实例对应的调序模板。
6.如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还包括:
步骤61,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。
7.如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还包括:
步骤71,对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;
步骤72,根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
8.一种机器翻译中抽取调序模板的系统,其特征在于,包括:
语料处理模块,用于输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;
调序实例抽取模块,用于对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;
调序模板生成模块,用于对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。
9.如权利要求8所述的机器翻译中抽取调序模板的系统,其特征在于,
所述调序实例抽取模块进一步用于对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例;
所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
10.如权利要求9所述的机器翻译中抽取调序模板的系统,其特征在于,
所述调序模板生成模块进一步用于对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
11.如权利要求9所述的机器翻译中抽取调序模板的系统,其特征在于,
所述调序实例抽取模块还用于对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。
12.如权利要求11所述的机器翻译中抽取调序模板的系统,其特征在于,
所述调序模板生成模块还用于在变量部分包含调序实例时,将所述变量部分替换为所述变量实例对应的调序模板。
13.如权利要求8所述的机器翻译中抽取调序模板的系统,其特征在于
所述系统还包括:
概率生成模块,用于对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。
14.如权利要求8所述的机器翻译中抽取调序模板的系统,其特征在于,
所述系统还包括:
概率生成模块,用于对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102373903A CN101706777B (zh) | 2009-11-10 | 2009-11-10 | 机器翻译中抽取调序模板的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102373903A CN101706777B (zh) | 2009-11-10 | 2009-11-10 | 机器翻译中抽取调序模板的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101706777A true CN101706777A (zh) | 2010-05-12 |
CN101706777B CN101706777B (zh) | 2011-07-06 |
Family
ID=42377003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102373903A Expired - Fee Related CN101706777B (zh) | 2009-11-10 | 2009-11-10 | 机器翻译中抽取调序模板的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101706777B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053959A (zh) * | 2010-12-13 | 2011-05-11 | 百度在线网络技术(北京)有限公司 | 一种用于机器翻译的调序模型的生成方法和装置 |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN102270242A (zh) * | 2011-08-16 | 2011-12-07 | 上海交通大学出版社有限公司 | 计算机辅助语料提取方法 |
CN102929865A (zh) * | 2012-10-12 | 2013-02-13 | 广西大学 | 一种用于中文和东盟各国语言互译的pda翻译系统 |
CN102982029A (zh) * | 2011-09-02 | 2013-03-20 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN103038762A (zh) * | 2010-12-17 | 2013-04-10 | 乐天株式会社 | 自然语言处理装置、方法、以及程序 |
CN103092830A (zh) * | 2011-10-28 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
CN104572636A (zh) * | 2015-02-04 | 2015-04-29 | 苏州大学 | 一种调序模型建立方法、装置及翻译方法 |
CN105068997A (zh) * | 2015-07-15 | 2015-11-18 | 清华大学 | 平行语料的构建方法及装置 |
CN105183722A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种汉英双语翻译语料的对齐方法 |
CN105677642A (zh) * | 2015-12-31 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种机器翻译语序调整方法 |
CN105955966A (zh) * | 2016-04-15 | 2016-09-21 | 苏州大学 | 一种改进训练语料的平行质量的方法及装置 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107004000A (zh) * | 2016-06-29 | 2017-08-01 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN107463549A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 一种提取实例模板的方法和设备 |
CN107562734A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 翻译模板确定、机器翻译方法及装置 |
CN110826343A (zh) * | 2019-11-01 | 2020-02-21 | 北京中献电子技术开发有限公司 | 基于专利数据的半自动化翻译双语模板的构建方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1302415C (zh) * | 2000-06-19 | 2007-02-28 | 李玉鑑 | 一种英汉翻译机器的实现方法 |
CN101204463A (zh) * | 2007-12-17 | 2008-06-25 | 刘国平 | 一种治疗子宫癌的药物 |
-
2009
- 2009-11-10 CN CN2009102373903A patent/CN101706777B/zh not_active Expired - Fee Related
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053959B (zh) * | 2010-12-13 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 一种用于机器翻译的调序模型的生成方法和装置 |
CN102053959A (zh) * | 2010-12-13 | 2011-05-11 | 百度在线网络技术(北京)有限公司 | 一种用于机器翻译的调序模型的生成方法和装置 |
CN103038762B (zh) * | 2010-12-17 | 2015-05-20 | 乐天株式会社 | 自然语言处理装置、方法 |
CN103038762A (zh) * | 2010-12-17 | 2013-04-10 | 乐天株式会社 | 自然语言处理装置、方法、以及程序 |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN102270242A (zh) * | 2011-08-16 | 2011-12-07 | 上海交通大学出版社有限公司 | 计算机辅助语料提取方法 |
CN102982029B (zh) * | 2011-09-02 | 2016-04-27 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN102982029A (zh) * | 2011-09-02 | 2013-03-20 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN103092830B (zh) * | 2011-10-28 | 2016-04-27 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
CN103092830A (zh) * | 2011-10-28 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
CN102929865A (zh) * | 2012-10-12 | 2013-02-13 | 广西大学 | 一种用于中文和东盟各国语言互译的pda翻译系统 |
CN104572636A (zh) * | 2015-02-04 | 2015-04-29 | 苏州大学 | 一种调序模型建立方法、装置及翻译方法 |
CN105068997A (zh) * | 2015-07-15 | 2015-11-18 | 清华大学 | 平行语料的构建方法及装置 |
CN105068997B (zh) * | 2015-07-15 | 2017-12-19 | 清华大学 | 平行语料的构建方法及装置 |
CN105183722A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种汉英双语翻译语料的对齐方法 |
CN105677642A (zh) * | 2015-12-31 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种机器翻译语序调整方法 |
CN105955966B (zh) * | 2016-04-15 | 2019-04-26 | 苏州大学 | 一种改进训练语料的平行质量的方法及装置 |
CN105955966A (zh) * | 2016-04-15 | 2016-09-21 | 苏州大学 | 一种改进训练语料的平行质量的方法及装置 |
CN107463549B (zh) * | 2016-06-02 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 一种提取实例模板的方法和设备 |
CN107463549A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 一种提取实例模板的方法和设备 |
CN107004000A (zh) * | 2016-06-29 | 2017-08-01 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN107562734A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 翻译模板确定、机器翻译方法及装置 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN110826343A (zh) * | 2019-11-01 | 2020-02-21 | 北京中献电子技术开发有限公司 | 基于专利数据的半自动化翻译双语模板的构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101706777B (zh) | 2011-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101706777B (zh) | 机器翻译中抽取调序模板的方法及系统 | |
Munteanu et al. | Improving machine translation performance by exploiting non-parallel corpora | |
Montazery et al. | Automatic Persian wordnet construction | |
Warjri et al. | Part-of-speech (POS) tagging using conditional random field (CRF) model for Khasi corpora | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
Unnikrishnan et al. | A novel approach for English to South Dravidian language statistical machine translation system | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
Erdmann et al. | A little linguistics goes a long way: Unsupervised segmentation with limited language specific guidance | |
Barrett et al. | Cross-lingual transfer of correlations between parts of speech and gaze features | |
Shafi et al. | UNLT: Urdu natural language toolkit | |
Tedla et al. | Analyzing word embeddings and improving POS tagger of tigrinya | |
Arora et al. | Pre-processing of English-Hindi corpus for statistical machine translation | |
Dien | Building a training corpus for word sense disambiguation in English-to-Vietnamese machine translation | |
Volk et al. | Parallel corpora, terminology extraction and machine translation | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
Karimi | Machine transliteration of proper names between English and Persian | |
Khoufi et al. | Statistical-based system for morphological annotation of Arabic texts | |
Saito et al. | Multi-language named-entity recognition system based on HMM | |
Tran et al. | Preordering for Chinese-Vietnamese statistical machine translation | |
Yashothara et al. | Improving Phrase-Based Statistical Machine Translation with Preprocessing Techniques | |
Liu | The technical analyses of named entity translation | |
Meng et al. | Mapping senses in BabelNet to Chinese based on word embedding | |
Vandeghinste et al. | Top-down Transfer in Example-based MT | |
Muthee et al. | A review of techniques for morphological analysis in natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Cai Shu Inventor after: Lv Yajuan Inventor after: Liu Qun Inventor before: Cai Shu |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: CAI SHU TO: CAI SHU LV YAJUAN LIU QUN |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110706 Termination date: 20211110 |