CN1801140A

CN1801140A - 一种机器翻译模板自动获取方法及装置

Info

Publication number: CN1801140A
Application number: CN 200410101877
Authority: CN
Inventors: 宗成庆; 胡日勒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2004-12-30
Filing date: 2004-12-30
Publication date: 2006-07-12

Abstract

本发明涉及计算机科学与技术领域，特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤：a)语料的预处理；b)分别提取汉语部分的词表以及英语部分的词表；c)分别对汉语部分和英语部分进行语法的归纳；d)对提取出来的短语结构进行对齐；e)对采用不同相似度函数的结果进行对比，选取最优的相似度函数；f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括：汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。

Description

一种机器翻译模板自动获取方法及装置

技术领域

本发明涉及计算机科学与技术领域，特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。

背景技术

随着语料库技术的发展，越来越多的双语语料库资源被应用于机器翻译和自然语言理解中的知识获取。机器翻译的模板作为机器翻译系统中的一种重要的知识，受到了广泛的关注。在很多机器翻译和机助翻译系统中，机器翻译模板都是一种不可或缺的资源。因此，机器翻译模板自动获取方法的研究具有重要的现实意义。在本文中，我们提出了一种从英汉对齐的双语语料库中基于短语结构抽取和对齐的自动获取机器翻译模板的方法。

在早期的基于实例的机器翻译系统中，翻译模板往往是手工从语料库中提取出来的。Kitano在他的系统中采取了一种翻译规则的手工编码的方式。Sato也建立了一个基于实例的机器翻译系统，在这个系统中，采用了人工撰写的匹配表达式作为机器翻译的模板。但是，当语料库越来越大的时候，这种人工的方法就会变得越来越困难，会带来越来越多的错误。

一些学者也提出了自动从语料库中获取模板的方法，如Güvenir和Cicekli等人提出的基于类比学习的方法和Watanabe、Imamura等人提出的基于结构对齐的方法。基于类比学习的方法是通过比较语料库中的翻译实例的相同部分和不同部分，加以归纳，将不同的部分进行变量置换而得到翻译模板。这种方法需要非常大规模而且存在大量相似句子的双语语料库。基于结构对齐的方法遵循着一个“分析—分析—匹配”的过程。这种方法首先分别对两种语言进行句法分析，然后根据一定的启发式算法进行双语的结构的匹配。这种方法同时需要两种语言的高精度的句法分析器，就目前来说，尤其对于汉语，很难找到一个可靠的句法分析工具。吕雅娟等人提出了一种基于单语句法分析的结构对齐方法，取得了不错的效果，但是仍然需要以句法分析作为基础。基于此，本文作者对我们提出了一种新的基于短语结构抽取和对齐的模板获取方法。在这种方法中采用了统计模型和动态规划的策略，避免了句法解析器的使用。实验证明新方法的采用可以使机器翻译模板获取的精度达到76.77％，充分证明了它的有效性。

发明内容

本发明的目的在于提供一种新的面向机器翻译的翻译模板自动获取的方法。

本发明是以计算机作为工具，根据基于短语结构抽取和对齐的模板获取算法，采取一定的相似度量度和语法归纳装置，建立了包含从文本预处理到短语结构提取，再到短语结构对齐以及后处理等一整套功能的自动分类装置。

本发明提出了一种新的基于短语结构抽取和对齐的模板获取方法。在这种方法中采用了统计模型和动态规划的策略，避免了句法解析器的使用。实验证明这种方法的采用可以使机器翻译模板获取的精度达到76.77％，充分证明了它的有效性。

自动机器翻译模板获取器的装置，由汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置组成，其中，汉语分词装置和汉语语法归纳装置串联后，与英语语法归纳装置并联，再依次与短语结构对齐装置以及后处理装置串联连接。

发明技术方案

面向机器翻译的模板自动获取的方法：

用基于短语结构抽取和对齐的方法进行机器翻译模板自动获取的步骤：

a)语料的预处理：对需要进行模板获取的双语对齐语料库中的中文部分进行分词；

b)分别提取汉语部分的词表以及英语部分的词表；

c)分别对汉语部分和英语部分进行语法的归纳(GrammarInduction)，从而分别提取出两部分的短语结构；

d)对提取出来的短语结构进行对齐；

e)对采用不同相似度函数的结果进行对比，选取最优的相似度函数。

f)对对齐的结果进行后处理以获得所需要的机器翻译模板。

步骤c中提到的语法归纳的过程中采取了基于语义相似度的统计模型。

步骤c中提到的语法归纳的过程中采取了递归循环的方式。

步骤c中提到的语法归纳的过程中采取了Kullback-Leibler(KL)距离、Cosine Measure，Cosine of Pointwise Mutual Information以及Dice Co-efficient作为相似度的量度。

步骤d中提到的结构对齐方法中采用了基于动态规划的反向划界文法(Bracketing Inversion Transduction Grammar，BTG)。

自动机器翻译模板获取器的功能化设计思路(共五个装置)：汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置，见附图1。

下面详细说明本发明技术方案中所涉及的各个细节问题。

1、语法归纳：

本文中所采用的语法归纳算法是一种聚类算法。这种算法包含两个主要步骤：空间聚类和时间聚类。在空间聚类过程中，我们将具有类似上下文的单元聚为一类，这些单元往往具有相似的语义，我们把这些类称作语义类。在时间聚类的过程中，我们将具有最高同现概率的单元聚为一类，这些单元往往是常用的短语，我们将这些类称作短语结构类。

在空间聚类中，我们采用Kullback-Leibler(KL)距离作为一个单元上下文分布的相似程度的量度：

D (p_{1} | | p_{2}) = Σ_{i = 1}^{V} p_{1} (i) \log \frac{p_{1} (i)}{p_{2} (i)}

其中，这p₁表示单元e₁的上下文的词汇的分布，p₂表示单元e₂的上下文的词汇的分布，V表示所有出现在e₁和e₂上下文中的词汇的集合。

为了获得对称的距离量度，我们使用了散度作为距离的量度：

Div(p₁，p₂)＝D(p₁‖p₂)+D(p₂‖p₁)

两个单元e₁和e₂的距离就可以表示成为：

Dist (e_{1}, e_{2}) = Div (p_{1}^{left}, p_{2}^{left}) + Div (p_{1}^{right}, p_{2}^{right})

为了使得聚类的精度更高，我们引入了扩展上下文的概念。所谓的扩展上下文，就是上下文的邻接词。在计算中，我们也将扩展上下文考虑进来，两个单位的距离就可以表示为：

{Dist}^{*} (e_{1}, e_{2}) = Div (p_{1}^{left}, p_{2}^{left}) + \frac{1}{2} {Div}_{2} (p_{1}^{left}, p_{2}^{left}) + Div (p_{1}^{right}, p_{2}^{right}) + \frac{1}{2} {Div}_{2} (p_{1}^{right}, p_{2}^{right})

其中，Div₂(p₁，p₂)为扩展上下文的散度。

两个单元的相似程度就可以表示为：

SIM = \frac{1}{1 + {Dist}^{*}}

我们还研究了其他一些基于向量空间的相似度量度。我们引入特征向量来描述一个单元的上下文，如果一个单元w出现在给定的单元e的上下文中，这个特征就可以用特征向量(posi，w)来表示，posi表示w的位置，如果w出现在e的左边，posi的值就是left，反之，posi的值就是right。每个特征的值就是该特征在语料库中出现的次数的总和。我们用(u₁，u₂，…，u_n)和(v₁，v₂，…，v_n)来表示两个单元u和v的特征向量，n为所有从语料库中提取的特征的总数。f_i表示第i个特征。

我们引入了三种向量空间的相似度量度，Cosine Measure，Cosine ofPointwise Mutual Information以及Dice Co-efficient。

Cosine Measure计算的是两个特征向量的余弦：

Cos (u, v) = \frac{Σ_{i = 1}^{n} u_{i} \times v_{i}}{\sqrt{Σ_{i = 1}^{n} u_{i}^{2}} \times \sqrt{Σ_{i = 1}^{n} v_{i}^{2}}}

Cosine of Pointwise Mutual Information的定义为：

CosPMI (u, v) = \frac{Σ_{i = 1}^{n} pmi (f_{i, u}) \times pmi (f_{i}, v)}{\sqrt{Σ_{i = 1}^{n} pmi {(f_{i}, u)}^{2}} \times \sqrt{Σ_{i = 1}^{n} pmi {(f_{i}, v)}^{2}}}

其中，

pmi (f_{i}, u) = \log (\frac{P (f_{i}, u)}{P (f_{i}) \times P (u)})

P(f_i，u)表示f_i和u的共现概率，P(f_i)表示f_i出现的概率，P(u)表示u出现的概率。

Dice Co-efficient的定义为：

Dice (u, v) = \frac{2 \times Σ_{i = 1}^{n} s (u_{i}) \times s (v_{i})}{Σ_{i = 1}^{n} s (u_{i}) + Σ_{i = 1}^{n} s (v_{i})}

其中，如果x＞0，s(x)＝1，否则s(x)＝0。

在空间聚类当中，我们选取最相似的单元(也就是相似度最大的单元)，将它们聚为一类，并用SCi作为标记。然后，用标记替代该类中的单元，转而进行时间聚类。

在时间聚类中，我们采用互信息作为表征两个单元同现程度的量度：

MI (e_{1}, e_{2}) = P (e_{1}, e_{2}) \log \frac{P (e_{1} | e_{2})}{P (e_{2})}

具有最大的互信息的单元将被聚为一类，并用PC_i作为其标记。然后用相应的标记替换其对应的类别，接着进行循环进行空间聚类和时间聚类，直到达到预先设定的次数。

在语法归纳结束以后，我们就得到了标记为SC_i的语义类和标记为PC_i的短语结构类，接下来就要进行短语结构的对齐了。

2、短语结构对齐：

假设一个英语的句子e₁，…，e_T，它对应的汉语句子为c₁，…，c_v。e_s…t表示英语子串e_s+1，e_s+2，…，e_t，c_u…v表示从c_u+1到c_v的汉语子串。由BTG，双语的局部最优函数可以定义为：

其中，F_e(s，t)，F_c(u，v)分别为英语和汉语的约束函数，用来表征已经得到的英语和汉语的分析结果。

短语级的结构对齐可以通过动态规划的算法来实现，通过初始化、递推计算以及回推的过程得到最终的优化的对齐结果。

3、评价函数的确定

实验的正确率定义为：

Acc = \frac{Nr}{N} \times 100 %

其中，

N为算法从语料库中抽取出的所有模板的个数，

Nr为其中正确模板的个数。

4、实验语料库

我们实验所采用的语料库是收集于旅游信息查询领域的英中双语口语语料库。该语料库包含2950个句子对。共有汉语词汇989个，英语词汇1074个。汉语句子的平均句长为7.0个词汇，英语句子的平均句长为6.7个。

5、实验结果

在只使用词汇的对译概率的情况下，BTG也可以进行双语的分析，进行短语的对齐。因此，我们将我们的算法与仅仅使用BTG进行了比较，比较的结果如表1所示：

实验	Acc(％)
实验	Acc(％)	只使用BTG	63.58
我们的算法	75.44	只使用BTG	63.58

表2实验结果比较1

为了考察不同的相似度量度对算法的影响，我们分别采用不同的相似度量度进行了实验，实验的结果如表3所示：

相似度量度	Acc(％)
相似度量度	Acc(％)	Dist*	75.44
Cosine Measure	73.21	Dist*	75.44
Cosine Measure	73.21	Cosine ofPointwise MutualInformation	76.77
Dice Co-efficient	76.19	Cosine ofPointwise MutualInformation	76.77

表2实验结果比较2

从表1中可以看出，使用我们的算法的架构进行机器翻译模板的自动获取要优于仅仅使用BTG，而且正确率也达到了不错的水平，说明了这种算法是有效的。

从表2中可以看出，采用不同的相似度的度量方式，对于系统的正确率有一定的影响，采用Cosine of Pointwise Mutual Information作为相似度量度所能达到的正确率最高，达到了77.67％，充分的说明了我们的方法的有效性。

附图说明

图1是本发明自动机器翻译模板获取器的装置图。

图2是本发明自动机器翻译模板获取器的流程图。

具体实施方式

图1的自动机器翻译模板获取器的装置，由汉语分词装置1、汉语语法归纳装置2、英语语法归纳装置3、短语结构对齐装置4以及后处理装置5组成，并且，汉语分词装置和汉语语法归纳装置串联后，与英语语法归纳装置并联，再依次与短语结构对齐装置以及后处理装置串联连接。

图2是本发明自动机器翻译模板获取器，面向机器翻译的模板自动获取的方法，其具体步骤如下：

步骤S1，语料的预处理：对需要进行模板获取的双语对齐语料库中的中文部分进行分词；

步骤S2，分别提取汉语部分的词表以及英语部分的词表；

步骤S3，分别采用不同的相似度函数(Kullback-Leibler(KL)距离、Cosine Measure，Cosine of Pointwise Mutual Information以及DiceCo-efficient)对汉语部分和英语部分进行语法的归纳(GrammarInduction)，从而分别提取出两部分的短语结构；

步骤S4，对提取出来的短语结构在BTG的指导下，利用动态规划的策略进行对齐；

步骤S5，对采用不同相似度函数(Kullback-Leibler(KL)距离、CosineMeasure，Cosine of Pointwise Mutual Information以及Dice Co-efficient)的结果进行对比，选取最优的相似度函数；

步骤S6，对对齐的结果进行后处理，得到所需的翻译模板。

Claims

1、用基于短语结构抽取和对齐的方法进行机器翻译模板的自动获取的方法，其步骤如下：

b)分别提取汉语部分的词表以及英语部分的词表；

c)分别对汉语部分和英语部分进行语法的归纳，从而分别提取出两部分的短语结构；

d)对提取出来的短语结构进行对齐；

e)对采用不同相似度函数的结果进行对比，选取最优的相似度函数；

f)对对齐的结果进行后处理以获得所需要的机器翻译模板。

2、据权利要求1的方法，其特征在于，步骤c中提到的语法归纳的过程中采取了基于语义相似度的统计模型。

3、根据权利要求1的方法，其特征在于，步骤c中提到的语法归纳的过程中采取了递归循环的方式。

4、根据权利要求1的方法，其特征在于，步骤c中提到的语法归纳的过程中采取了KL距离、Cosine Measure，Cosine of Pointwise MutualInformation以及Dice Co-efficient作为相似度的量度。

5、根据权利要求1的方法，其特征在于，步骤d中提到的结构对齐方法中采用了基于动态规划的反向划界文法(BTG)。

6、自动机器翻译模板获取器的装置，由汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置组成，其中，汉语分词装置和汉语语法归纳装置串联后，与英语语法归纳装置并联，再依次与短语结构对齐装置以及后处理装置串联连接。

7、根据权利要求1的方法，其具体步骤如下：

步骤S2，分别提取汉语部分的词表以及英语部分的词表；

步骤S3，分别采用不同的相似度函数KL、对汉语部分和英语部分进行语法的归纳，从而分别提取出两部分的短语结构；

步骤S4，对提取出来的短语结构进行对齐；

步骤S5，对采用不同相似度函数的结果进行对比，选取最优的相似度函数；

步骤S6，对对齐的结果进行后处理，得到所需的翻译模板。