CN106776586A

CN106776586A - 机器翻译方法及装置

Info

Publication number: CN106776586A
Application number: CN201611179640.9A
Authority: CN
Inventors: 田亮
Original assignee: Information Technology (shenzhen) Co Ltd
Current assignee: Information Technology (shenzhen) Co Ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2017-05-31

Abstract

本发明提供一种机器翻译方法及装置，其中，机器翻译方法包括：从第一语句中获取第一短语集合，第一短语集合包括第一语句中连续的n元短语；从第一语料库中获取第二短语集合，第二短语集合包括第一语料库中的所有n元短语，第一语料库为可比较语料库；通过自动对齐算法从第二短语集合中获取第三短语集合，第三短语集合中的短语对第一短语集合中的短语的第一翻译关系包括：一对一、一对多和/或多对多；通过第一翻译关系从第三短语集合中获取第二语句，第二语句为第一语句的翻译结果。本发明提供的机器翻译方法及装置，提高了机器翻译的效率。

Description

机器翻译方法及装置

技术领域

本发明涉及通信技术，尤其涉及一种机器翻译方法及装置。

背景技术

机器翻译是利用计算机将一种自然语言翻译为另一种自然目标语言的过程，用户在互联网上的翻译软件或翻译网页输入待翻译的源语言可以得到翻译后的语言，例如：输入汉字“中国”，得到英文翻译“China”。

现有技术中，计算机接收到用户输入的待翻译的内容后，将句子拆分为短语，通过检索大型双语平行语料库中存储的短语的翻译结果，得到短语的翻译结果，将短语的翻译结果组合排序后得到翻译的结果。

采用现有技术，机器翻译结果依赖双语平行语料库的质量和规模，机器翻译的效率不高。

发明内容

本发明提供一种机器翻译方法及装置，提高了机器翻译的效率。

本发明提供一种机器翻译方法，包括：

从第一语句中获取第一短语集合，所述第一短语集合包括所述第一语句中连续的n元短语；

从第一语料库中获取第二短语集合，所述第二短语集合包括所述第一语料库中的所有n元短语，所述第一语料库为可比较语料库；

通过自动对齐算法从第二短语集合中获取第三短语集合，所述第三短语集合中的短语对所述第一短语集合中的短语的第一翻译关系包括：一对一、一对多和/或多对多；

通过所述第一翻译关系从所述第三短语集合中获取第二语句，所述第二语句为所述第一语句的翻译结果。

在本发明一实施例中，所述第一语料库包括：所述第一语句所使用的语言和所述第二语句所使用的语言互译的网页内容。

在本发明一实施例中，所述自动对齐算法包括：

根据所述第一短语的长度信息和所述第三短语的长度信息得到归一化长度值，所述第一短语为所述第一短语集合中的短语，所述第三短语为所述第三短语集合中的短语；

利用高斯方程或泊松分布公式、所述归一化长度值和所述第一短语和所述第三短语的对齐类型，对所述第一短语和所述第三短语集合中的短语进行对齐，所述对齐类型包括：一个短语对一个短语对齐、一个短语对多个短语对齐和多个短语对多个短语对齐；

根据IBM模型通过最大期望EM算法过滤所述第三短语集合中的短语；

根据所述第一短语和所述第三短语的词相似性得到所述第三短语集合。

在本发明一实施例中，所述自动对齐算法包括：

根据得到所述归一化长度，其中，所述l_s为所述第一短语的长度，所述l_t为所述第三短语的长度，所述r为所述第一语句所使用的语言和所述第二语句所使用的语言长度的比率，所述σ²是所述第一语句所使用的语言和所述第二语句所使用的语言的样本方差；

根据模型，通过EM算法过滤所述第三短语集合中的短语，其中，所述s所述第一语句所使用的语言，t为所述第二语句所使用的语言，所述l为所述第一语句中包括的所述第一短语的个数，所述m为所述第三短语的个数，所述ε为常量；

根据得到所述第三短语集合，其中，(l-gram)∩(m-gram)是所述第一短语和所述第三短语中相同字符的个数，所述(l-gram)是所述第一短语的长度，所述(m-gram)是所述第三短语的长度。

在本发明一实施例中，所述通过所述第一翻译关系从所述第三短语集合中得到第二语句，包括：

根据t_best＝arg max_tp(t_n-best)得到第二语句，其中，所述t_n-best为所述第三短语集合中的短语组合。

本发明提供一种机器翻译装置，包括：

获取模块，所述获取模块用于从第一语句中获取第一短语集合，所述第一短语集合包括所述第一语句中连续的n元短语；

所述获取模块还用于从第一语料库中获取第二短语集合，所述第二短语集合包括所述第一语料库中的所有n元短语，所述第一语料库为可比较语料库；

对齐模块，所述对齐模块用于通过自动对齐算法从第二短语集合中获取第三短语集合，所述第三短语集合中的短语对所述第一短语集合中的短语的第一翻译关系包括：一对一、一对多和/或多对多；

组合模块，所述组合模块用于通过所述第一翻译关系从所述第三短语集合中得到第二语句，所述第二语句为所述第一语句的翻译结果。

在本发明一实施例中，所述自动对齐算法包括：

在本发明一实施例中，所述组合模块具体用于根据t_best＝arg max_tp(t_n-best)得到第二语句，其中，所述t_n-best为所述第三短语集合中的短语组合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明机器翻译方法实施例的流程示意图；

图2为本发明机器翻译装置实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明机器翻译方法实施例的流程示意图。如图1所示，本实施例包括如下步骤：

S101：从第一语句中获取第一短语集合，第一短语集合包括第一语句中连续的n元短语。

其中，第一语句为待翻译的语句，从第一语句中抽取连续的n元短语，即N-gram词语，也可以理解为连续的单次片段，例如：“发明”属于2-gram的词语，“实用新型”属于4-gram的词语。

S102：从第一语料库中获取第二短语集合，第二短语集合包括第一语料库中的所有n元短语，第一语料库为可比较语料库。

其中，第一语料库为可比较语料库，即来自相同领域的不同的两种语言对。从第一语料库中抽取和S101中抽取的同属n元短语的短语组成第二短语集合。

可选地，在S102中，第一语料库包括：第一语句所使用的语言和第二语句所使用的语言互译的网页内容。例如：和新闻有关的中英互译的篇章句对存在于新华网、中国日报和联合国等网页上，则在S102中除了从可比较语料库中抽取第二短语集合，还可以从互联网中获取第一语句所使用的语言和第二语句所使用的语言互译的网页从而得到第二短语集合。

可选地，由于可比较语料库中，一种语言对应的篇章或句对的信息在另一种语言的语料中隐含有对齐信息，因此可以利用隐含的对齐信息进行平行语料库的抽取以及短语的抽取。

S103：通过自动对齐算法从第二短语集合中获取第三短语集合，第三短语集合中的短语对第一短语集合中的短语的第一翻译关系包括：一对一、一对多和/或多对多。

其中，由于S101和S102中从可比较语料库中获取的第一短语集合和第二短语集合之间不存在翻译关系也不存在文本对齐关系，因此需要通过自动对齐算法从第二短语集合中获取与第一短语集合中待翻译的短语存在翻译关系的短语构成第三短语集合，此时，第一短语集合中的短语与第三短语集合中的短语之间存在翻译关系，并且翻译关系包括：第一短语集合中的一个短语对应第三短语集合中的一个短语、第一短语集合中的一个短语对应第三短语集合中的多个短语和/或第一短语集合中的多个短语对应第三短语集合中的多个短语。第三短语集合中包括了第一短语集合中每个词汇可能对应的翻译短语，其个数应大于一且无上限。

S104：通过第一翻译关系从第三短语集合中获取第二语句，第二语句为第一语句的翻译结果。

其中，将S103中得到的第三短语集合中，与第一短语集合中短语对应的翻译按顺序组合为不同的第二语句，并根据翻译关系得到最终的作为第一语句的翻译结果的第二语句。例如：第一短语集合中第一语句包括：{A、B}，第三短语集合包括{A1，A2，B1，B2}，其中A1和A2为A可能的翻译，B1和B2为B可能的翻译，将第三短语集合中获取可能的第二语句为A1B1、A1B2、A2B1和A2B2，并根据第一翻译关系得到例如最佳的第二语句为A1B2，则A1B2为第一语句{A、B}的翻译结果。

可选地，S104中可以通过柱状搜索算法，搜索出最佳的第二语句。

本实施例提供的机器翻译方法，包括：从第一语句中获取第一短语集合，第一短语集合包括第一语句中连续的n元短语；从第一语料库中获取第二短语集合，第二短语集合包括第一语料库中的所有n元短语，第一语料库为可比较语料库；通过自动对齐算法从第二短语集合中获取第三短语集合，第三短语集合中的短语对第一短语集合中的短语的第一翻译关系包括：一对一、一对多和/或多对多；通过第一翻译关系从第三短语集合中获取第二语句，第二语句为第一语句的翻译结果。本发明提供的机器翻译方法，通过从可比较语料库中获取n元短语，并通过自动对齐算法对获取的n元短语和待翻译短语进行对齐，和双语平行语料库相比，弥补了语料库稀缺的现状，解决了多语翻译的问题，还提高了机器翻译的效率。

具体地，在上述实施例中，S103中的自动对齐算法包括：

(1)根据第一短语的长度信息和第三短语的长度信息得到归一化长度值，第一短语为第一短语集合中的短语，第三短语为第三短语集合中的短语；

(2)利用高斯方程或泊松分布公式、归一化长度值和第一短语和第三短语的对齐类型，对第一短语和第三短语集合中的短语进行对齐，对齐类型包括：一个短语对一个短语对齐、一个短语对多个短语对齐和/或多个短语对多个短语对齐；

(3)根据IBM模型通过最大期望EM算法过滤第三短语集合中的短语；

(4)根据第一短语和第三短语的词相似性得到第三短语集合。

具体地，上述自动对齐算法包括：

(1)根据

得到归一化长度，其中，l_s为第一短语的长度，l_t为第三短语的长度，第一短语为第一短语集合中的短语，第三短语为第三短语集合中的短语，r为第一语句所使用的语言和第二语句所使用的语言长度的比率，通常为固定值，例如：当第一语句是中文第二语句是英文时，r为1.6，σ²是第一语句所使用的语言和第二语句所使用的语言的样本方差，其中N为第三短语集合中短语的个数，为第二语句所使用语言的平均长度。

(2)根据

或

公式二或公式三所示高斯方程或泊松分布公式，对第一短语和第三短语集合中的短语进行对齐，以得到第一短语与第三短语对齐的概率

p(δ(l_s,l_t)|type)＝p(|X|≥|δ(l_s,l_t)|)＝2(1-p(X<|δ(l_s,l_t)|))——公式四

其中，公式四中的概率分布使用公式二或公式三中的高斯方程或泊松分布公式，μ是是第一语句所使用的语言和第二语句所使用的语言的样本期望，α是常量，type为第一语句所使用的语言和第二语句所使用的语言的对齐类型，即N元短语对齐时，上下两句短语对齐到译文的一句话或两句或以上的情况。

例如：第一短语集合中包括两个英文短句“hit”和“him”，第三短语集合中包括中文短句“打了他”，此时type为英文的两个短句对应中文的一个短句，type为2:1。根据公式一计算中文和英文的归一化长度为：即：利用公式四并将公式二所示的高斯方程得到第一短语集合中两个英文短句“hit”和“him”与第三短语集合中中文短句“打了他”对齐的概率是。相类似地，也可以计算当type为1：1时，第一短语集合中英文短句“hit”和“him与第三短语集合中中文短句“打了他”对齐的概率。经过计算，当可比较语料库足够大时，能够得出第一短语集合中两个英文短句“hit”和“him”与第三短语集合中中文短句“打了他”对齐的概率比任何一个英文单词“hit”和“him”对齐到“打了他”的概率都高，因此得到一个第一短语集合中短语与第三短语集合中短语对应的关系：“hit him”对齐到“打了他”。同样地，其他短语都按此方式进行过滤，而公式五求出的概率设置门限为p>0.01，小于此门限的短语认为无对齐关系。

(3)根据IBM模型1：

通过EM算法过滤第三短语集合中的短语，其中，s第一语句所使用的语言，t为第二语句所使用的语言，l为第一语句中包括的第一短语的个数，m为第三短语的个数，ε为常量。由于步骤(2)中得到的第三短语集合只按照长度进行对齐，包含噪声，因此，利用IBM模型和EM迭代算法，从大量的平行语料库中计算出给定源语言s计算出目标语言t的概率。在这种情况下，再次根据IBM模型的阈值对第三短语集合中的短语进行过滤。

(4)根据

得到第三短语集合，其中，(l-gram)∩(m-gram)是第一短语和第三短语中相同字符的个数，(l-gram)是第一短语的长度，(m-gram)是第三短语的长度。其中，本步骤(4)为可选步骤，按照同一个语系中特殊的语言对齐进行词语之间的可能性相似性的对齐计算，即，利用共现词提高对齐的精度。例如：英语和法语之间存在相似性，英文“white house”与法文“vitahuset”存在相似性，其中，按照公式六计算，

在上述实施例中，通过第一翻译关系从第三短语集合中得到第二语句，包括：根据t_best＝arg max_tp(t_n-best)得到第二语句，其中，t_n-best为第三短语集合中的短语组合。

具体地，基于可比较语料库的统计模型仍然采用信源信道模型，即在已知模型和参数的基础上，对于任何一个输入的源语言句子(s)，去查找概率最大的译文(t)。其中，将第三短语集合中，与第一短语集合中短语对应的翻译按顺序组合为不同的第二语句，记为t_n-best，t_n-best＝arg max_tp(t|s)。其中，根据贝叶斯公式，上述公式整理为t_n-best＝arg max_tp(s|t)p(t)，其中，p(t)为语言模型，可以通过如下的公式进行计算：翻译模型p(s|t)可以计算成：其中，和统计翻译模型类似，在计算过程中源语言和目标语言中的n-gram其实隐藏了一个对齐盖膜模型。为了便于计算，我们采用线性模型(log-linear)：最终，通过EM算法最终的翻译结果候选列表，根据语言模型，可以选择最流畅的语言调序翻译结果：t_best＝arg max_tp(t_n-best)。

图2为本发明机器翻译装置实施例的结构示意图。如图2所示，本实施例机器翻译装置包括：获取模块201、对齐模块202和组合模块203，

获取模块201用于从第一语句中获取第一短语集合，第一短语集合包括第一语句中连续的n元短语。

获取模块201还用于从第一语料库中获取第二短语集合，第二短语集合包括第一语料库中的所有n元短语，第一语料库为可比较语料库。

对齐模块202用于通过自动对齐算法从第二短语集合中获取第三短语集合，第三短语集合中的短语对第一短语集合中的短语的第一翻译关系包括：一对一、一对多和/或多对多。

组合模块203用于通过第一翻译关系从第三短语集合中得到第二语句，第二语句为第一语句的翻译结果。

在上述实施例中，第一语料库包括：第一语句所使用的语言和第二语句所使用的语言互译的网页内容。

可选地，自动对齐算法包括：

(2)利用高斯方程或泊松分布公式、归一化长度值和第一短语和第三短语的对齐类型，对第一短语和第三短语集合中的短语进行对齐，对齐类型包括：一个短语对一个短语对齐、一个短语对多个短语对齐和多个短语对多个短语对齐；

(4)根据第一短语和第三短语的词相似性得到第三短语集合。

进一步地，自动对齐算法具体包括：

(1)根据得到归一化长度，其中，l_s为第一短语的长度，l_t为第三短语的长度，r为第一语句所使用的语言和第二语句所使用的语言长度的比率，σ²是第一语句所使用的语言和第二语句所使用的语言的样本方差；

(3)根据模型，通过EM算法过滤第三短语集合中的短语，其中，s第一语句所使用的语言，t为第二语句所使用的语言，l为第一语句中包括的第一短语的个数，m为第三短语的个数，ε为常量；

(4)根据得到第三短语集合，其中，(l-gram)∩(m-gram)是第一短语和第三短语中相同字符的个数，(l-gram)是第一短语的长度，(m-gram)是第三短语的长度。

可选地，在上述实施例中，组合模块203具体用于根据t_best＝arg max_tp(t_n-best)得到第二语句，其中，t_n-best为第三短语集合中的短语组合。

本实施例的装置对应地可用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种机器翻译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一语料库包括：所述第一语句所使用的语言和所述第二语句所使用的语言互译的网页内容。

3.根据权利要求2所述的方法，其特征在于，所述自动对齐算法包括：

4.根据权利要求3所述的方法，其特征在于，所述自动对齐算法包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述第一翻译关系从所述第三短语集合中得到第二语句，包括：

根据t_best＝argmax_t p(t_n-best)得到第二语句，其中，所述t_n-best为所述第三短语集合中的短语组合。

6.一种机器翻译装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，

所述第一语料库包括：所述第一语句所使用的语言和所述第二语句所使用的语言互译的网页内容。

8.根据权利要求7所述的装置，其特征在于，所述自动对齐算法包括：

9.根据权利要求8所述的装置，其特征在于，所述自动对齐算法包括：

10.根据权利要求9所述的装置，其特征在于，所述组合模块具体用于根据t_best＝argmax_t p(t_n-best)得到第二语句，其中，所述t_n-best为所述第三短语集合中的短语组合。