CN104375988A - 一种词语对齐方法及装置 - Google Patents
一种词语对齐方法及装置 Download PDFInfo
- Publication number
- CN104375988A CN104375988A CN201410611053.7A CN201410611053A CN104375988A CN 104375988 A CN104375988 A CN 104375988A CN 201410611053 A CN201410611053 A CN 201410611053A CN 104375988 A CN104375988 A CN 104375988A
- Authority
- CN
- China
- Prior art keywords
- word
- alignment
- expression
- language
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种词语对齐方法及装置,涉及机器翻译技术领域;解决了词语对齐的技术问题;该技术方案包括:将需要对齐的两种语言的句子切分成一个个单词或短语,进行词语分组,在所述词语分组中查询匹配,进行互译对的对齐;用于在机器翻译过程中准确、完整的短语表的构建。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种词语对齐方法及装置。
背景技术
词语对齐是自然语言处理领域的一个基本的问题,许多基于双语语料库的应用(如统计机器翻译(SMT)、基于实例的机器翻译(EBMT)、词义消歧(WSD)、词典编撰等)都需要词汇级别的对齐。一般来讲,对齐有篇章(section)、段落(paragraph)、句子(sentence)、短语(phrase)、词语(word)等不同级别的对齐,其目的就是从双语互译的文本中找出互译的片段。其中篇章、段落、句子的对齐技术主要用于语料库的整理,而短语和词语对齐,就是要找出相互翻译的文本中对应的词与词、词与短语、短语和短语之间的相互翻译对。现今的基于短语的统计机器翻译系统中,很大一部分程度依赖于词语对齐,词语对齐对统计机器翻译中的短语抽取起到了很大的作用。现在使用最多的词语对齐方法就是使用双语语料库来抽取词语对齐,其中典型的对齐软件就是GIZA++ [Och,2000;Och et al.,2003]。GIZA++实现了IBM公司提出的5个模型[Brown et al.,1993]和隐马尔科夫模型(HMM)[Och et al.,2003],其主要思想是利用EM算法对双语语料库进行迭代训练,由句子对齐得到词语对齐。表1是从GIZA++对齐文件中取出的一个稍加改进的例子。其中x是目标语言句子、y是源语言句子、a是对齐结果,比如“3-2”的意思就是说中文句子的第二个单词“在”对齐到英文的第四个单词“in”(英文句子从0开始标注)。
表 1. 词语对齐示例
x | I0 am1 studying2 in3 the4 university5 of6 Macau7 .8 |
y | NULL ({ 4 }) 我 ({ 0 }) 在({ 3 }) 澳门大学 ({ 5 6 7 }) 读书 ({ 1 2 }) 。({ 8 }) |
a | 4-0 0-1 3-2 5-3 6-3 7-3 1-4 2-4 8-5 |
词语对齐工具GIZA++由于不依赖于具体的语言对而在统计机器翻译领域中得到了广泛使用。为了便于在Windows下使用GIZA++,我们曾经使用Cygwin把GIZA++编译成可执行文件,然后通过Visual Studio 2008调用的方法把其移植到了Windows环境中使用。通过实验的观察,GIZA++对于短语的处理,比如“be able to”、“in addition to”、“plenty of”等,效果不是特别好。
好的对齐质量对统计机器翻译的结果还是有影响的,至少在现有的统计机器翻译的框架下,词语对齐起了很大的作用,所以我们觉得有必要对词语对齐质量加以改进和提高。
发明内容
本发明提供了一种词语对齐方法及装置,及一种机器翻译系统;一种词语对齐方法及装置,及一种机器翻译系统,既便于处理每个句中的单词或短语,又提高了系统运行的效率。
本发明提供的一种词语对齐方法,包括:
将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查询匹配,进行互译对的对齐。
本发明提供的一种词语对齐装置,包括:
切分单元,用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;
比较单元,用于在所述的词语分组中查询匹配,进行互译对的对齐。
本发明提供的一种机器翻译系统,该系统包括词语对齐装置,
用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查询匹配,进行互译对的对齐;
进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串;
所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典;
根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
通过以上技术方案可知,本发明提出方案:将需要对齐的两种语言的句子切分成一个个单词或短语,进行词语分组,在所述词语分组中查询匹配,进行互译对的对齐。该技术方案既便于处理每个句中的单词或短语,又提高了系统运行的效率。在机器翻译过程中,很大程度依赖于一个叫做短语表(phrase table)的东西,该词语对齐方法有助于准确、完整的短语表的构建。
附图说明
图1为本发明实施例最大匹配法算法流程示意图;
图2为本发明实施例基于短语的词语对齐流程示意图;
图3基于短语的统计机器翻译示例示意图;
图4 为本发明实施例提供的一种词语对齐装置的结构示意图。
具体实施方式
本发明实施例提供了一种词语对齐方法及装置,及一种机器翻译系统;既便于处理每个句中的单词或短语,又提高了系统运行的效率。
本发明的词语对齐方法,适用于任意两种语言的词语对齐,比如,中-英英-日、中-葡、中-俄、中-法等;考虑到篇幅,本发明的实施例仅以中-英为例来进行说明。
实施例一
一种词语对齐方法,该方法包括:
参见图2,将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查询匹配,进行互译对的对齐。
进一步地,所述进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串。
更具体地,词语分组尽可能的用最长的词来匹配句子中的字符串。词语匹配分为正向和逆向匹配法两种,正向匹配法采用从句子的左边到右边的处理顺序,逆向匹配法采用从右到左的方式。本发明把英文的分组采用正向匹配法,而中文的分词则采用逆向匹配法和概率的结合。
所述进行词语分组前先构建短语词典,本发明所说短语指的是语言学意义上的短语,比如“am good at”、“a lot of”、“澳门”、“中国人”等这些词语。并且规定最大字符串的长度“MaxWordLength”。我们的短语词典的构建来自于《现代汉语词典》和网络上总结的成语词典。首先我们从大型语料库中提取出其中的单词和词组,然后调用谷歌等翻译词典或系统进行翻译,最终得出我们需要的词典格式。其中我们的中文词典只包含两个单词以上的词语或者成语,最长不超过七个单词。表2和表3给出了一个英文和中文词典的示例。
表 2. 英文词典示例
英文单词 | 单词释义 |
I | 我 |
am able to | 能 能够 |
plenty of | 大量 很多 许多 |
university of macau | 澳门大学 澳大 |
表 3.中文词典示例
中文单词 |
我们 |
跑龙套 |
量力而行 |
进一步地,所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典。
更具体地,使用适用分词方法进行中英词语的分组。其中英文的分组过程中要同时查询到每个单词或者短语对应的译文解释,保存成<e i ,t i >的格式(e i 是英文单词或者短语,t i 是对应的译文,i不超过分组后单词和短语的总个数)。中文的分组可以仅含有对应的单词或者词组,保存格式形如<c j >,其中j不超过中文分组后的单词和词组的个数总和;也可以为中文单词或者短语及其对应的英文解释。
每个单词或者短语及其对应的译文解释构成基本词典,保存成<e i ,t i >的格式。
进一步地,在双语对齐的时候,可以利用一种语言的单词或短语的译文信息对另一种语言的句子切分结果进行校正。
更具体地,比如中文的分组实际上也是中文的分词问题,采用了逆向匹配加上概率统计的知识进行了中文的分组。比如要对“我们从马上下来”和“We get down from the horse”这个双语对进行对齐。首先分词得到一个初步结果“我们 从 马上 下来 ”,得到这个结果仅仅使用了一个如表3所示的词典,但是这个对齐结果就不好进行词语的对齐。接下来进行校正,因为使用了中英双语,所以最终结合英文句子来进行最终的中文词语划分。查询到的“we”的翻译中含有“我们”的释义,所以认为中文中的分词“我们”就是正确的,但是到“马上”的时候,就出问题了。英文中“horse”对应的翻译是“马”,所以最终认为这个“马上”的组合不正确,要进行拆分。最终经过这种思路得到了“我们 从 马 上 下来 ”的分词结果。在双语对齐的时候可以采用英文翻译校正的方法,换句话来讲,该分词方法采用了英语译文的信息来得到中文的分词结果。
参见图1,进一步地,有了短语词典后,可以构建初步的分组算法,以下是所述词语分组的过程如下:
(1)待切分的字符串s 1,已经切分分组的字符串s 2;
(2)如果是s 1是空串,则转到(6);
(3)从s 1的左边复制一个字符串w,长度不超过MaxWordLength;
(4)如果在所述短语词典中找到这个子字符串w或者w最后是一个单个单词,那么把w和一个分隔符放到s 2中;
(5)去掉w中右边的一个单词,继续转到(4)进行处理;
(6)分组结束。
更具体地,举个简单的例子来说明词语分组。比如我们想把“I am able to do it well.”进行分组,那么我们最终想得到的结果就是“I”、“am able to”、“do”、“it”、“well”、“.”这六个单词或者词组,然后就可以进行对齐操作。假设仅仅拿“I am able to”为例,表4给出了词语分组法的过程。
表4. 词语分组示例
通过词语分组的处理,分别得到了英文和中文中的单词和词组,基本上得到了可能的对齐对,接下来就可以使用一些方法对潜在的对齐对进行对齐了。
进一步地,根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
更具体地,根据建立的基本词典来查询中文单词c j 是否在英文句子中的英文单词的解释义项t i 中,如果在的话那就直接找到这个对齐对< e i ,c j >。
进一步地,对于不在另一种语言的句子中的单词或短语对应的译文解释中的单词或短语,可以在所述构建的另一种语言的基本词典中,根据相似度的匹配经过第一次相似度计算来找到可能的对齐对。
相似度计算公式为:similarity(释义1,释义2)=2*a(1+2),其中,a=1为相似, a=0为不相似。
更具体地,第一次相似度的计算在构建的基本词典中进行。对于不在英文单词或短语义项中的中文单词,可以根据相似度的匹配来找到可能的对齐对。比如“我能够做好它”这句话中的“好”可能不在英文单词“well”的解释义项(好的;好地;水井)中,但是其中含有“好地”,我们就可以通过相似度的计算认为这个“好”和“好地”可能对应一个英文单词“well”。
进一步地,把经过第一次相似度计算仍然未对齐的单词或短语与GIZA++生成的短语对齐概率表中释义进行第二次相似度的计算,找出可能的对齐对。
相似度计算公式为:similarity(释义1,释义2)=2*a(1+2),其中,a=1为相似, a=0为不相似。
更具体地,第二次相似度的计算来自于GIZA++训练产生的一个短语对齐概率表(一个名叫~actual.ti.final的文件)。我们把中文句子中经过第一次相似度计算仍然未对齐单词进行再次相似度的计算。如果经过这一步还有剩下的英文单词,我们就把它(们)对齐到空(NULL)。
进一步地,对于句子中含有两个以上的相同单词或短语,可以使用不同的词性来处理;或者,如果词性相同,对于含有两个以上的相同数字对齐的情况,可以简单的把一种语言词语前面的对齐到另一种语言的句子中前面的词语,后面的词语对齐到后面的词语;或者,对于数字不相同的,按照对齐后的数字要连续递增的规律,去除小于前面的数字,构成连续递增序列;
其中,数字代表词语的位置。
进一步地,当一种语言A的单词或短语可以对应多个另一种语言B的单词或短语概率比较大时,关于该两种语言的对齐,采用单向对齐的方法,就是把语言B单词或短语对齐到语言A单词或短语上,一个或者多个语言B单词或短语可以对齐到一个语言A单词或短语上去。
更具体地,在实验中我们观察到中英的结构特点,很大一部分情况下一个中文词语可以对应多个英文单词。基于这个特点,本发明采用了单向对齐的思路,就是把英文单词对齐到中文单词上,一个或者多个英文单词可以对齐到一个中文词语上去。
这里有两点我们要给予说明,第一点是我们尽可能的根据英文单词的释义来进行中文分词,这样可以保证一个或者多个英文单词对齐到一个中文词组上。这样我们就会把形容词的“的”字,一起划归到中心词上,比如 表11中例3中“令人讨厌的”就会作为一个整体直接对齐到英文单词“disgusting”上。此外,英文的短语也会作为整体对齐到中文词组上。第二点是考虑到日后的翻译,我们把介词短语作为一个整体来对齐,比如表11中的最后一个例子中的“in the industrial zone”就对齐到了“工业区里的”。
为了更加清楚的说明本发明,下面给出一个具体的例子说明本发明的对齐过程。中英文句子“我 能够 做 好 它 。”和“I am able to do it .”是本例的处理对齐的对象。假设我们存在以下两个词典(表5和表6,其中表5是经过句子切分后建立的基本词典,表8是GIZA++通过双语语料库训练生成的词语对齐概率表。
表 5.基本词典
英文单词 | 中文释义 |
I | 我 |
am able to | 能 |
do | 做 |
it | 它 |
well | 水井 |
. | 。 |
表6. GIZA++自动生成的词语对齐概率表
英文单词 | 中文对齐单词 | 对齐概率 |
well | 好的 | 0.564526 |
well | 好地 | 0.996908 |
well | 水井 | 0.085487 |
(1)从基本词典中找出具有中文单词释义的英文单词或者短语,优先对齐。
首先,可以根据基本词典把四个单词进行对齐:
<I,我>
<do,做>
<it,它>
<.,。>
(2)对剩下的单词从基本词典中进行相似度计算,找到一个最为可能的对齐。
其次剩下的短语是be able to和单词well,把他们的英文释义和中文单词进行相似度计算:
得出:similarity(能,能够)=2*1/(1+2)=2/3,其它为0
又得出一条对齐对:<be able to,能够>
(3)从GIZA++单词对齐表中进行相似度计算,找出可能的对齐对。
现在剩下的单词是well,把GIZA++生成的单词表中释义和中文单词计算相似度:
最后经计算得:similarity(好的,好)=2*1/(1+2)=2/3
Similarity(好地,好)=2*1/(1+2)=2/3
Similarity(水井,好)=2*0/(1+2)=0
这里我们可以确定,well可以和中文单词“好”对齐。
(4)如果还有单词,可能是不翻译的单词或者词典中没有此项,把该单词对齐到空。
已经没有单词可以对齐,结束该句子对齐,得到如下GIZA++格式对其结果:
#sentence pair (1) source length (6) target length (8)
I am able to do it well .
NULL ({}) 我 ({ 1 }) 能够 ({ 2 3 4 }) 做 ({ 5 }) 好 ({ 7 }) 它 ({ 6 }) 。 ({ 8 })
实施例二
参见图4,一种词语对齐装置,该装置包括:
切分单元,用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;
比较单元,用于在所述的词语分组中查询匹配,进行互译对的对齐。
进一步地,所述切分单元,用于进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串。
进一步地,所述切分单元用于所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典。
进一步地,所述切分单元用于在双语对齐的时候,可以利用一种语言的单词或短语的译文信息对另一种语言的句子切分结果进行校正。
进一步地,所述切分单元用于所述词语分组的过程如下:
(1)待切分的字符串s 1,已经切分分组的字符串s 2;
(2)如果是s 1是空串,则转到(6);
(3)从s 1的左边复制一个字符串w,长度不超过MaxWordLength;
(4)如果在所述短语词典中找到这个子字符串w或者w最后是一个单个单词,那么把w和一个分隔符放到s 2中;
(5)去掉w中右边的一个单词,继续转到(4)进行处理;
(6)分组结束。
进一步地,所述比较单元,用于根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
进一步地,所述比较单元,用于对于不在另一种语言的句子中的单词或短语对应的译文解释中的单词或短语,可以在所述构建的另一种语言的基本词典中,根据相似度的匹配经过第一次相似度计算来找到可能的对齐对。
进一步地,所述比较单元,用于把经过第一次相似度计算仍然未对齐的单词或短语与GIZA++生成的短语对齐概率表中释义进行第二次相似度的计算,找出可能的对齐对。
进一步地,所述比较单元,用于对于句子中含有两个以上的相同单词或短语,可以使用不同的词性来处理;或者,如果词性相同,对于含有两个以上的相同数字对齐的情况,可以简单的把一种语言词语前面的对齐到另一种语言的句子中前面的词语,后面的词语对齐到后面的词语;或者,对于数字不相同的,按照对齐后的数字要连续递增的规律,去除小于前面的数字,构成连续递增序列;
其中,数字代表词语的位置。
进一步地,所述比较单元,用于当一种语言A的单词或短语可以对应多个另一种语言B的单词或短语概率比较大时,关于该两种语言的对齐,采用单向对齐的方法,就是把语言B单词或短语对齐到语言A单词或短语上,一个或者多个语言B单词或短语可以对齐到一个语言A单词或短语上去。
一种词语对齐装置与上述一种词语对齐方法一一对应,在此不再详细赘述。
实施例三
一种机器翻译系统,该系统包括词语对齐装置,
用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查询匹配,进行互译对的对齐;
进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串;
所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典;
根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
一种机器翻译系统与上述一种词语对齐装置相对应,在此不再详细赘述。
实施例四
对于绝大部分句子可以采用上述的方法进行对齐,可是对于一些特殊的句子,就需要特殊处理。这里给出对于句子中含有两个以上的相同单词或词组的处理情况(如表7)。对于这种情况,如果单纯的使用词性来处理,我们可以把“例一”区分开来,可是处理不了后面的句子,因为他们好多都是同一词性。最终我们选择了以下的处理方法:
(1)对于含有两个以上的相同数字对齐的情况,一般来讲这些词语按照顺序依次对齐到同一个中文单词上。比如例二的句子,可以简单的把英文单词前面的对齐到中文句子前面的单词,后面的单词对齐到后面的单词。
(2)对于含有重复数字的对齐信息,但是数字不相同的,我们认为是短语对齐错误。比如例三的句子中的(6 5 7 8)和(5 7),这里含有重复的对齐信息(5 7)。根据对齐规律,对齐后的数字要连续递增,那么(6 5 7 8)中的5小于前面的数字,去除5后将构成连续递增序列,所以符合对齐规律。我们最终就把5给去掉,得到了正确的对齐结果。
3)根据单词前后的结合概率来进行判断。这种方法要求我们通过语料库进行训练得出类似于语言模型的信息,然后根据概率判断结合的概率,选择概率最大的作为结果。
表 7. 句中含有两个以上相同单词的对齐处理(数字代表英文单词的位置)
参见图3,本发明把要翻译的句子分成一个个短语,然后把这些短语依次进行翻译,最后根据重组模型得出最终的结果。图3是一个基于短语的统计机器翻译的示例示意图。当然,这里的短语指的是连续的语言片段,而我们将要使用的短语指的是语言学意义上的短语,比如“am good at”、“a lot of”、“澳门”、“中国人”等这些词语。
词语对齐工具GIZA++由于不依赖于具体的语言对而在统计机器翻译领域中得到了广泛使用。为了便于在Windows下使用GIZA++,我们曾经使用Cygwin把GIZA++编译成可执行文件,然后通过Visual Studio 2008调用的方法把其移植到了Windows环境中使用[Tian et al.,2011]。通过实验的观察,GIZA++对于短语的处理,比如“be able to”、“in addition to”、“plenty of”等,效果就不是特别好。考虑到GIZA++有一定的对齐准确度,我们决定在其基础上选择一些新的算法来达到更高质量的对齐结果。根据算法,首先我们使用了分词方法把中文和英文的互译对划分成单词和短语,然后使用词典来进行互译对的初步对齐,其次对剩下没有对齐的单词或者短语根据相似度再次根据词典进行对齐匹配,最后把剩下的单词或者词组根据事先使用GIZA++训练好的单词互译表(GIZA++对齐后生成的一个叫做~actual.ti.final文件)来进行查询,如果经过这一步后仍然不能对齐的单词则对齐到空(NULL)。最终我们选取了500个句子,根据一些评测标准来跟10万句的中英语料库(包括选取的500句)在GIZA++训练后的结果进行比较,最终得到了比较满意的对齐结果。
实验结果和分析
为了检验本发明的可行性,我们开发了词语对齐和评测的系统。最终我们从10万句的中英语料库[Tian et al.,2010]中抽取了500句作为评测数据(英语句子平均长度约21个单词,中文句子平均长度约为23个单词)。首先,我们把这些句子进行人工对齐,格式采用GIZA++标准。然后,使用我们的系统得出了500句的对齐的结果,其次使用包含这500句的10万句的中英语料库,通过GIZA++训练得出了对齐的结果,最后把这两个对齐结果通过我们开发的系统进行评测,得到了如表8和表9的评测结果。评测过程中,我们使用了GIZA++格式的文本作为标准(如表10所示),并且选择了最后一行具有对齐结果的句子作为评测的对象。在开发评测系统的过程中,我们把精确度(precision)、召回率(recall)、F权重(F-measure)和词语对齐错误率(AER)作为评测词语对齐质量的标准[Koehn,2010;Och et al.,2003]。记待评测对齐的结果集合为A,其中把人工对齐的结果标记为两类集合,确定性对齐集合S(Sure links)和不确定性对齐P(Possible links),其中使用的公式如下所示:
表 8. GIZA++500句对齐结果
表 9. 基于短语分组的500句对齐结果
从结果中可以看到,面向短语的词语对齐效果要比GIZA++的训练结果有了很大提高。表11给出了几个句子的对齐结果。在这几个例子中,前两个例子是对于一个句子中含有相同词语的对齐情况。例3是含有短语的对齐结果,例4是含有介词短语的情况。通过实验结果的分析得知,对于GIZA++没有能很好的处理的短语对齐,我们的方法得到了显著的改善。
表 10. GIZA++测评格式
行数 | 句子内容 |
1 | # Sentence pair (263) source length 7 target length 7 alignment score : 7.00841e-06 |
2 | He came here two years ago . |
3 | NULL ({ }) 他 ({ 1 }) 两 ({ 2 }) 年 ({ 5 }) 前 ({ 4 }) 来到 ({ 6 }) 这里 ({ 3 }) 。 ({ 7 }) |
表 11.面向短语的对齐结果和GIZA++结果对比
此外根据实验,我们在Intel Core i5 CPU 2.8GHz,内存是2G的普通机器上的Linux环境中,在GIZA++运行38万句的中英语料库(香港法律文本加自建的语料库,平均单词26),总共使用了大约14个小时,也就是说每句大约需要运行0.13秒。最终我们开发的系统,根据句子长度的不同,每句需要0.04-0.50秒,基本上可以满足日常研究的需要。
本发明提出的词语对齐方法、装置、翻译系统,使用最长短语对中英文句子中的单词和短语进行抽取。使用了英文译文来校验中文分词的正确性的方法。使用相似度计算的方法给出了可能的对齐结果。本发明把处理的目标集中在要处理的单个句子上,而不是整个语料库中的句子。既便于处理每个句中的单词或短语,又提高了系统运行的效率。
好的词语对齐质量对高质量的短语抽取起到了很大的作用。所以好的对齐质量对统计机器翻译的结果有影响,在统计机器翻译的框架下,词语对齐起了很大的作用,本发明的词语对齐方法、装置、翻译系统对机器翻译的准确率和效率效率进行了改进和提高。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (21)
1.一种词语对齐方法,其特征在于,该方法包括:
将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查询匹配,进行互译对的对齐。
2.如权利要求1所述的方法,其特征在于,所述进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串。
3.如权利要求2所述的方法,其特征在于,所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典。
4.如权利要求3所述的方法,其特征在于,在双语对齐的时候,可以利用一种语言的单词或短语的译文信息对另一种语言的句子切分结果进行校正。
5.如权利要求2所述的方法,其特征在于,所述词语分组的过程如下:
(1)待切分的字符串s 1,已经切分分组的字符串s 2;
(2)如果是s 1是空串,则转到(6);
(3)从s 1的左边复制一个字符串w,长度不超过MaxWordLength;
(4)如果在所述短语词典中找到这个子字符串w或者w最后是一个单个单词,那么把w和一个分隔符放到s 2中;
(5)去掉w中右边的一个单词,继续转到(4)进行处理;
(6)分组结束。
6.如权利要求3所述的方法,其特征在于,根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
7.如权利要求6所述的方法,其特征在于,对于不在另一种语言的句子中的单词或短语对应的译文解释中的单词或短语,可以在所述构建的另一种语言的基本词典中,根据相似度的匹配经过第一次相似度计算来找到可能的对齐对。
8.如权利要求7所述的方法,其特征在于,把经过第一次相似度计算仍然未对齐的单词或短语与GIZA++生成的短语对齐概率表中释义进行第二次相似度的计算,找出可能的对齐对。
9.如权利要求1所述的方法,其特征在于,对于句子中含有两个以上的相同单词或短语,可以使用不同的词性来处理;或者,如果词性相同,对于含有两个以上的相同数字对齐的情况,可以简单的把一种语言词语前面的对齐到另一种语言的句子中前面的词语,后面的词语对齐到后面的词语;或者,对于数字不相同的,按照对齐后的数字要连续递增的规律,去除小于前面的数字,构成连续递增序列;
其中,数字代表词语的位置。
10.如权利要求1所述的方法,其特征在于,当一种语言A的单词或短语可以对应多个另一种语言B的单词或短语概率比较大时,关于该两种语言的对齐,采用单向对齐的方法,就是把语言B单词或短语对齐到语言A单词或短语上,一个或者多个语言B单词或短语可以对齐到一个语言A单词或短语上去。
11.一种词语对齐装置,其特征在于,该装置包括:
切分单元,用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;
比较单元,用于在所述的词语分组中查询匹配,进行互译对的对齐。
12.如权利要求11所述的装置,其特征在于,所述切分单元,用于进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串。
13.如权利要求12所述的装置,其特征在于,所述切分单元用于所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典。
14.如权利要求13所述的装置,其特征在于,所述切分单元用于在双语对齐的时候,可以利用一种语言的单词或短语的译文信息对另一种语言的句子切分结果进行校正。
15.如权利要求12所述的装置,其特征在于,所述切分单元用于所述词语分组的过程如下:
(1)待切分的字符串s 1,已经切分分组的字符串s 2;
(2)如果是s 1是空串,则转到(6);
(3)从s 1的左边复制一个字符串w,长度不超过MaxWordLength;
(4)如果在所述短语词典中找到这个子字符串w或者w最后是一个单个单词,那么把w和一个分隔符放到s 2中;
(5)去掉w中右边的一个单词,继续转到(4)进行处理;
(6)分组结束。
16.如权利要求13所述的装置,其特征在于,所述比较单元,用于根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
17.如权利要求16所述的装置,其特征在于,所述比较单元,用于对于不在另一种语言的句子中的单词或短语对应的译文解释中的单词或短语,可以在所述构建的另一种语言的基本词典中,根据相似度的匹配经过第一次相似度计算来找到可能的对齐对。
18.如权利要求17所述的装置,其特征在于,所述比较单元,用于把经过第一次相似度计算仍然未对齐的单词或短语与GIZA++生成的短语对齐概率表中释义进行第二次相似度的计算,找出可能的对齐对。
19.如权利要求11所述的方法,其特征在于,所述比较单元,用于对于句子中含有两个以上的相同单词或短语,可以使用不同的词性来处理;或者,如果词性相同,对于含有两个以上的相同数字对齐的情况,可以简单的把一种语言词语前面的对齐到另一种语言的句子中前面的词语,后面的词语对齐到后面的词语;或者,对于数字不相同的,按照对齐后的数字要连续递增的规律,去除小于前面的数字,构成连续递增序列;
其中,数字代表词语的位置。
20.如权利要求11所述的装置,其特征在于,所述比较单元,用于当一种语言A的单词或短语可以对应多个另一种语言B的单词或短语概率比较大时,关于该两种语言的对齐,采用单向对齐的方法,就是把语言B单词或短语对齐到语言A单词或短语上,一个或者多个语言B单词或短语可以对齐到一个语言A单词或短语上去。
21.一种机器翻译系统,其特征在于,该系统包括词语对齐装置,
用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查询匹配,进行互译对的对齐;
进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字符串;
所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词典;
根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611053.7A CN104375988A (zh) | 2014-11-04 | 2014-11-04 | 一种词语对齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611053.7A CN104375988A (zh) | 2014-11-04 | 2014-11-04 | 一种词语对齐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104375988A true CN104375988A (zh) | 2015-02-25 |
Family
ID=52554910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410611053.7A Pending CN104375988A (zh) | 2014-11-04 | 2014-11-04 | 一种词语对齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104375988A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183723A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种翻译软件与语料搜索的关联方法 |
CN105446962A (zh) * | 2015-12-30 | 2016-03-30 | 武汉传神信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105955966A (zh) * | 2016-04-15 | 2016-09-21 | 苏州大学 | 一种改进训练语料的平行质量的方法及装置 |
CN106682194A (zh) * | 2016-12-29 | 2017-05-17 | 北京百度网讯科技有限公司 | 基于深度问答的答案定位方法及装置 |
CN106708812A (zh) * | 2016-12-19 | 2017-05-24 | 新译信息科技(深圳)有限公司 | 机器翻译模型的获取方法及装置 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
CN109325224A (zh) * | 2018-08-06 | 2019-02-12 | 中国地质大学(武汉) | 一种基于语义元语的词向量表征学习方法及系统 |
CN110147558A (zh) * | 2019-05-28 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN112215018A (zh) * | 2020-08-28 | 2021-01-12 | 北京中科凡语科技有限公司 | 校正术语对的自动定位方法、装置、电子设备及存储介质 |
CN114417898A (zh) * | 2022-01-18 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
CN101770458A (zh) * | 2009-01-07 | 2010-07-07 | 三星电子(中国)研发中心 | 基于实例短语的机器翻译方法 |
-
2014
- 2014-11-04 CN CN201410611053.7A patent/CN104375988A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
CN101770458A (zh) * | 2009-01-07 | 2010-07-07 | 三星电子(中国)研发中心 | 基于实例短语的机器翻译方法 |
Non-Patent Citations (3)
Title |
---|
TSUYOSHI OKITA 等: "Multi-Word Expression-Sensitive Word Alignment", 《PROCEEDINGS OF THE 4TH WORKSHOP ON CROSS LINGUAL INFORMATION ACCESS ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
田亮 等: "面向短语的词语对齐方法", 《第七届全国机器翻译研讨会论文集》 * |
邓丹 等: "基于双语词典的汉英词语对齐算法研究", 《计算机工程》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183723A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种翻译软件与语料搜索的关联方法 |
CN105446962B (zh) * | 2015-12-30 | 2018-08-10 | 语联网(武汉)信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105446962A (zh) * | 2015-12-30 | 2016-03-30 | 武汉传神信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105955966A (zh) * | 2016-04-15 | 2016-09-21 | 苏州大学 | 一种改进训练语料的平行质量的方法及装置 |
CN105955966B (zh) * | 2016-04-15 | 2019-04-26 | 苏州大学 | 一种改进训练语料的平行质量的方法及装置 |
CN106708812A (zh) * | 2016-12-19 | 2017-05-24 | 新译信息科技(深圳)有限公司 | 机器翻译模型的获取方法及装置 |
CN106682194A (zh) * | 2016-12-29 | 2017-05-17 | 北京百度网讯科技有限公司 | 基于深度问答的答案定位方法及装置 |
CN106682194B (zh) * | 2016-12-29 | 2020-05-22 | 北京百度网讯科技有限公司 | 基于深度问答的答案定位方法及装置 |
US10706090B2 (en) | 2016-12-29 | 2020-07-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for locating an answer based on question and answer |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
CN109325224A (zh) * | 2018-08-06 | 2019-02-12 | 中国地质大学(武汉) | 一种基于语义元语的词向量表征学习方法及系统 |
CN110147558A (zh) * | 2019-05-28 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN110147558B (zh) * | 2019-05-28 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN112215018A (zh) * | 2020-08-28 | 2021-01-12 | 北京中科凡语科技有限公司 | 校正术语对的自动定位方法、装置、电子设备及存储介质 |
CN112215018B (zh) * | 2020-08-28 | 2021-08-13 | 北京中科凡语科技有限公司 | 校正术语对的自动定位方法、装置、电子设备及存储介质 |
CN114417898A (zh) * | 2022-01-18 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104375988A (zh) | 一种词语对齐方法及装置 | |
US9342499B2 (en) | Round-trip translation for automated grammatical error correction | |
US8249856B2 (en) | Machine translation | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
US20130103390A1 (en) | Method and apparatus for paraphrase acquisition | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
US20120150529A1 (en) | Method and apparatus for generating translation knowledge server | |
CN104298663B (zh) | 翻译一致性的方法和装置及统计机器翻译方法和系统 | |
CN103942192A (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
CN106156013B (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Mansouri et al. | State-of-the-art english to persian statistical machine translation system | |
Chen et al. | A simple and effective unsupervised word segmentation approach | |
Fawi et al. | Italian-Arabic domain terminology extraction from parallel corpora | |
Tran et al. | Preordering for Chinese-Vietnamese statistical machine translation | |
Généreux et al. | NLP challenges in dealing with OCR-ed documents of derogated quality | |
Khenglawt | Machine translation and its approaches | |
Venkatapathy et al. | A discriminative approach for dependency based statistical machine translation | |
Pal et al. | Word Alignment-Based Reordering of Source Chunks in PB-SMT. | |
Meng et al. | Mapping senses in BabelNet to Chinese based on word embedding | |
Li et al. | A hybrid system for Chinese-English patent machine translation | |
Srivastava et al. | POS-based word alignment for small corpus | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
Khemakhem et al. | Arabic-English semantic word class alignment to improve statistical machine translation | |
Long et al. | Patent nmt integrated with large vocabulary phrase translation by smt at wat 2017 | |
Udagedara et al. | Language model-based spell-checker for sri lankan names and addresses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150225 |
|
RJ01 | Rejection of invention patent application after publication |