CN103605644A

CN103605644A - 一种基于相似度匹配的枢轴语言翻译方法和装置

Info

Publication number: CN103605644A
Application number: CN201310636884.5A
Authority: CN
Inventors: 朱聪慧; 朱晓宁; 赵铁军; 郑德权; 杨沐昀; 曹海龙; 徐冰
Original assignee: Harbin Institute of Technology
Current assignee: Hit Robot Group Co ltd
Priority date: 2013-12-02
Filing date: 2013-12-02
Publication date: 2014-02-26
Anticipated expiration: 2033-12-02
Also published as: CN103605644B

Abstract

一种基于相似度匹配的枢轴语言翻译方法和装置，本发明属于机器翻译技术领域，涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则，中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联，建立源语言-目标语翻译规则库，通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。

Description

一种基于相似度匹配的枢轴语言翻译方法和装置

技术领域

本发明属于机器翻译技术领域，涉及一种基于相似度匹配的枢轴语言翻译方法和装置。

背景技术

基于统计的机器翻译技术兴起于20世纪90年代，它可以从双语平行语料库中自动提取翻译规则，不需要人工干预，具有广泛的语言适用性，是当前使用最为广泛的机器翻译系统。基于统计的机器翻译系统的翻译质量很大程度上取决于双语平行语料库的质量。语料库的质量越高、数据数量越高，则使用该语料库所获得的统计机器翻译系统的翻译质量越高。但对于大多数语言对都面临着无法获得足够数量的高质量语料的问题。

针对语料稀疏的问题，目前普遍采用的解决方案是引入第三种语言，即枢轴语言。对于枢轴语言的引入，存在着下列两个方面的要求：

第一，源语言与枢轴语言之间存在着大量高质量双语平行语料，满足构建源语言到枢轴语言翻译系统的需要；

第二，枢轴语言与目标语言之间存在着大量高质量双语平行语料，满足构建枢轴语言到目标语言翻译系统的需要。

给定满足上述条件的枢轴语言，如果存在一个源语言到枢轴语的翻译规则（规则1）及一个该枢轴语到目标语的翻译规则（规则2），那么可以构建出一个源语言到目标语的翻译规则。该方法严格要求规则1与规则2中的枢轴语短语完全相同。这会导致一些潜在的源语言到目标语翻译规则丢失。

发明内容

本发明为解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则，即规则1和规则2中的枢轴语短语必须完全相同而导致的的潜在翻译规则丢失问题，而提出一种基于相似度匹配的枢轴语言翻译方法和装置。

本发明中一种基于相似度匹配的枢轴语言翻译方法，具体是按照以下步骤进行：

步骤一、建立源语言-目标语翻译规则库，具体包括以下步骤：

步骤一一、建立源语言-枢轴语翻译规则库，在源语言-枢轴语翻译规则库中，将枢轴语短语表示为向量形式；

步骤一二、建立枢轴语-目标语翻译规则库，在枢轴语-目标语翻译规则库中，将枢轴语短语表示为向量形式；

步骤一三、在源语言-枢轴语翻译规则库中查找与源语言短语语义匹配的至少一个第一枢轴语短语的向量表示；

步骤一四、在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有向量相似性的至少一个第二枢轴语短语的向量表示；所述的具有向量相似性的判断依据是指两个向量之间的夹角的余弦值大于0.8。

步骤一五、在枢轴语-目标语翻译规则库中查找与第二枢轴语短语的向量表示匹配的目标语短语；

步骤一六、将各所述源语言短语与目标语短语组成源语言-目标语翻译规则库；

步骤二、根据步骤一中建立的源语言-目标语翻译规则库对源语言进行翻译。

本发明中一种基于相似度匹配的枢轴语言翻译装置，所述装置包括：

一、枢轴语言短语向量表示模块410，用于在源语言-枢轴语翻译规则库中将枢轴语短语表示为向量形式以及在枢轴语-目标语翻译规则库中将枢轴语短语表示为向量形式；

二、枢轴语言短语查找模块420，用于在源语言-枢轴语言翻译规则库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语的向量表示；

三、向量相似度计算模块430，用于计算枢轴语-目标语翻译规则库中的枢轴语短语与第一枢轴语短语的语义相似度；

四、目标语短语查找模块440，用于在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有语义相似度的目标语短语；

五、短语对组合模块450，用于将所述第一源语言短语与第一目标语短语组合，形成至少一个源语言短语与目标语短语之间的短语对；

六、短语对存储模块460，用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语翻译规则库。

七、目标语短语输出模块470，用于根据源语言-目标语翻译规则库将与源语言对应的目标语输出，完成翻译处理。

本发明优点：

本发明通过对源语言-枢轴语翻译规则库以及枢轴语-目标语翻译规则库中的枢轴语短语进行向量表示，并计算各枢轴语短语之间的语义相似度来构建源语言-目标语翻译规则库，解决了枢轴语翻译方法中要求的源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则，即规则1和规则2中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。

附图说明

图1基于相似度匹配的枢轴语言翻译方法流程图；

图2基于相似度匹配的枢轴语言翻译方法装置结构示意图。

具体实施方式

具体实施方式一：本具体实施方式中一种基于相似度匹配的枢轴语言翻译方法，具体是按照以下步骤进行：

步骤一六、将各所述源语言短语与目标语短语组成源语言-目标语翻译规则库。

步骤二、根据步骤一中所建立的源语言-目标语翻译规则库对源语言进行翻译。

具体实施方式二：本具体实施方式中一种基于相似度匹配的枢轴语言翻译装置，所述装置包括：

二、枢轴语言短语查找模块420，其功能为：在源语言-枢轴语言翻译规则库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语的向量表示；

六、短语对存储模块460，用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语翻译规则库；

实施例

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例1

人类语言也称自然语言，是以文字的形式存在。为了计算语言自己的相似度，需要将人类语言表示为向量的形式。对于将人类语言使用向量进行表示，有多种方法可以实现此过程，本实例使用了基于深度学习的词向量表示形式，并将其扩展到短语表示中。本实施例中以英语作为枢轴语言的一条中文“开始”到西班牙文“iniciar”翻译规则的建立过程为例具体说明本发明技术方案，具体包括以下步骤（如图1所示）：

步骤一，建立源语言-枢轴语言翻译规则库，在源语言-枢轴语翻译规则库中，将枢轴语短语表示为向量形式。

步骤二，在枢轴语-目标语翻译规则库中，将枢轴语短语表示为向量形式。

表1

中文	英文
		开始	start

在表1中文-英文翻译规则表中，枢轴语言英文“start”可被表示为如下的向量形式“0.433052-0.104664-0.1361490.063134-0.306746-0.1942390.2290370.1616950.505429-0.033528”。

步骤三，在源语言-枢轴语翻译规则库中查找与源语言短语语义匹配的至少一个第一枢轴语短语的向量表示。即找到“开始”对应的枢轴语的向量表示“0.433052-0.104664-0.1361490.063134-0.306746-0.1942390.2290370.1616950.505429-0.033528”。

步骤四，在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有向量相似性的至少一个第二枢轴语短语的向量表示。查找得到第一枢轴语言短语的向量表示后，利用得到的所述第一枢轴语言短语在枢轴语-目标语言翻译规则库中查找与所述第一枢轴语言短语具有相同语义的第二枢轴语短语。所述第二枢轴语短语的数量为至少一个。可以对每个第一枢轴语言短语分别进行匹配，也可以是从中筛选部分第一枢轴语言短语进行匹配。例如，可根据统计的短语使用频率，选择使用频率高的短语进行匹配。步骤S140需要计算枢轴语-目标语翻译规则库中所有枢轴语短语的向量表示与第一枢轴语短语的向量表示之间的相似度。在本实例中，使用了两个向量之间的夹角的余弦值作为向量相似度度量。

两个向量之间的夹角的余弦值的计算公式如下所示：

\cos θ = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中A和B分别代表第一枢轴语短语的向量表示和第二枢轴语短语的向量表示，n为向量维度；向量A=（A₁，A₂，……，A_n），向量B=（B₁，B₂，……，B_n）；

在上述建立中文-西班牙文翻译规则库的例子中，英文“start”与“begin”的向量相似度依余弦公式算得为“0.956”，两向量夹角的余弦值大于0.8，因此具有语义相似度。

步骤五，在枢轴语-目标语翻译规则库中查找与各所述第二枢轴语短语的向量表示匹配的至少一个目标语短语。

表2

英文西班牙文begininiciar

在表2英文-西班牙文翻译规则表中，枢轴语言英文“begin”可被表示为如下的向量形式“0.426532-0.026144-0.2050520.189409-0.301474-0.2202700.1690510.0262810.405093-0.041793”。

在上述建立中文-西班牙文翻译规则库的例子中，短语“begin”即为第二枢轴语，西班牙文“iniciar”具有语义相似度的目标语短语，其相似度判断方法与步骤S140中所述方法相同。

步骤六，将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语言翻译规则库；所述的源语言-目标语言翻译规则库是用于存储由源语言短语及与其语义匹配的目标语言短语的短语对的数据库。得到源语言短语与目标语言短语之间的短语对后，将源语言短语与目标语言短语之间的短语对存储至源语言-目标语言翻译规则库，作为进行源语言与目标语言之间进行基于统计的机器翻译系统使用的翻译规则库。

在上述建立中文-西班牙文翻译规则库的例子中，最终得到的表3中文-西班牙文翻译规则表，如下所示：

表3

中文	西班牙文
		开始	iniciar

最后，根据最终得到的中文-西班牙文翻译规则表如表3所示，将中文“开始”翻译成西班牙文“iniciar”。

实施例2

本实施例中各模块或各步骤可以用通用的计算装置来实现，也可以将它们分布在多个计算装置所组成的网络上；可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行；可以将它们分别制作成各个集成电路模块；可以将它们中的多个模块或步骤制作成单个集成电路模块来实现。

本实施例中一种基于相似度匹配的枢轴语言翻译装置包括以下部分：

一、枢轴语言短语向量表示模块410，用于在源语言-枢轴语翻译规则库中，将枢轴语短语表示为向量形式以及在枢轴语-目标语翻译规则库中，将枢轴语短语表示为向量形式。

二、枢轴语言短语查找模块420，用于在源语言-枢轴语翻译规则库中查找与第一源语言短语语义匹配的至少一个第一枢轴语短语的向量表示。

三、向量相似度计算模块430，用于计算枢轴语-目标语翻译规则库中所有枢轴语短语与第一枢轴语短语之间的相似度。

四、目标语言短语查找模块440，用于在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有语义相似性的至少一个第一目标语短语。

五、短语对组合模块450，用于将所述第一源语言短语与第一目标语短语组合，形成至少一个源语言短语与目标语短语之间的短语对。

六、短语对存储模块460，用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语言翻译规则库。

本发明实施例提供的基于相似度匹配的枢轴语翻译方法和装置，通过对源语言-枢轴语翻译规则库以及枢轴语-目标语翻译规则库中的枢轴语短语进行向量表示，并计算各枢轴语短语之间的语义相似度来构建源语言-目标语翻译规则库，解决了枢轴语翻译方法中的潜在翻译规则丢失问题。

以上实施例，并非本发明本身，凡是利用本发明中所述方法所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均在本发明保护范围之内。本发明不限制于任何特定的硬件和软件的结合。

Claims

1.一种基于相似度匹配的枢轴语言翻译方法，其特征在于具体是按照以下步骤进行：

步骤一一、建立源语言-枢轴语翻译规则库，在源语言-枢轴语翻译规则库中，将其中的枢轴语短语表示为向量形式；

步骤一二、建立枢轴语-目标语翻译规则库，在枢轴语-目标语翻译规则库中，将其中的枢轴语短语表示为向量形式；

步骤一四、在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有向量相似性的至少一个第二枢轴语短语的向量表示，并关联第一枢轴语短语与第二枢轴语短语；所述的具有向量相似性的判断依据是指两个向量之间的夹角的余弦值大于0.8；所述的向量夹角余弦的计算公式为：

\cos θ = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中，A和B分别代表第一枢轴语短语的向量表示和第二枢轴语短语的向量表示，n为向量维度；

步骤二、根据步骤一所建立的源语言-目标语翻译规则库对源语言进行翻译。

2.根据权利要求1中所述一种基于相似度匹配的枢轴语言翻译方法，其特征在于步骤一中所使用的向量表示形式为基于深度学习的词向量表示形式。

3.一种基于相似度匹配的枢轴语言翻译装置，其特征在于包括以下功能模块：

枢轴语言短语向量表示模块（410），用于在源语言-枢轴语翻译规则库中将枢轴语短语表示为向量形式以及在枢轴语-目标语翻译规则库中将枢轴语短语表示为向量形式；

枢轴语言短语查找模块（420），用于在源语言-枢轴语言翻译规则库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语的向量表示；

向量相似度计算模块（430），用于计算枢轴语-目标语翻译规则库中的枢轴语短语与第一枢轴语短语的语义相似度；

目标语短语查找模块（440），用于在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有语义相似度的目标语短语；

短语对组合模块（450），用于将所述源语言短语与目标语短语组合，形成至少一个源语言短语与目标语短语之间的短语对；

短语对存储模块（460），用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语翻译规则库；

目标语短语输出模块（470），用于根据源语言-目标语翻译规则库将与源语言对应的目标语输出，完成翻译处理。