CN105068997A

CN105068997A - 平行语料的构建方法及装置

Info

Publication number: CN105068997A
Application number: CN201510415139.7A
Authority: CN
Inventors: 刘洋; 董梅平; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2015-11-18
Anticipated expiration: 2035-07-15
Also published as: CN105068997B

Abstract

本发明公开了平行语料的构建方法及装置，其中，该方法包括：确定平行语料库中各翻译词对的翻译概率，所述翻译词对包含源语言词及相应的目标语言词；将翻译词对及相应的翻译概率添加到翻译概率表中；根据翻译概率表对非平行语料库中的短语进行匹配，确定出匹配的短语对，作为新的平行短语对；将新的平行短语对添加到平行语料库中。本发明方案能够基于非平行语料训练出平行短语对，扩大平行语料的规模。

Description

平行语料的构建方法及装置

技术领域

本发明涉及机器翻译技术，尤其涉及平行语料的构建方法及装置。

背景技术

随着国际交流的日益深入，人们的语言翻译需求日益增长。互联网作为当今最为便捷的获取信息平台，用户对在线翻译需求日益迫切。如何为用户提供高质量的翻译服务成为一个难题。互联网中存在的语言种类多，各语言又具有大量的多义性，语言又处于时时刻刻的变化之中，这就对翻译服务提出更高的要求。

采用双语的平行语料进行机器翻译，是目前的主流。双语的平行语料库是指具有相互翻译关系的两个文本，一般情况下以一句话作为一个对齐单元。

现有的平行语料库基本上都是从平行网站中获取的，这种语料存在语料规模小，领域覆盖度低等问题，制约了机器翻译模型效果的进一步提升。

发明内容

本发明提供了一种平行语料的构建方法，该方法能够该方法能够基于非平行语料构建新的平行语料库，解决机器翻译对大规模平行语料的依赖。

本发明提供了一种平行语料的构建装置，该装置能够该方法能够基于非平行语料构建新的平行语料库，解决机器翻译对大规模平行语料的依赖。

一种平行语料的构建方法，该方法包括：

确定平行语料库中各翻译词对的翻译概率，所述翻译词对包含源语言词及相应的目标语言词；

将翻译词对及相应的翻译概率添加到翻译概率表中；

根据翻译概率表对非平行语料库中的短语进行匹配，确定出匹配的短语对，作为新的平行短语对；

将新的平行短语对添加到平行语料库中。

一种平行语料的构建装置，该装置包括翻译概率确定模块和短语匹配模块；

所述翻译概率确定模块，确定平行语料库中各翻译词对的翻译概率，所述翻译词对包含源语言词及相应的目标语言词；将翻译词对及相应的翻译概率添加到翻译概率表中；

所述短语匹配模块，根据翻译概率表对非平行语料库中的短语进行匹配，确定出匹配的短语对，作为新的平行短语对；将新的平行短语对添加到平行语料库中。

从上述方案可以看出，本发明中，确定平行语料库中各翻译词对的翻译概率，将翻译词对及相应的翻译概率添加到翻译概率表中；根据翻译概率表对非平行语料库中的短语进行匹配，确定出匹配的短语对，作为新的平行短语对；将新的平行短语对添加到平行语料库中。从而，实现了基于非平行语料训练出更多的平行短语对，扩大了平行语料库的规模。

附图说明

图1为本发明平行语料的构建方法示意性流程图；

图2为本发明中平行语料库和非平行语料库的语料信息示意图实例；

图3为本发明中每次迭代所对应的平行语料库的语料信息示意图实例；

图4为本发明构建的平行语料库的语料示意图实例；

图5为本发明平行语料的构建装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明进一步详细说明。

现有的平行语料库基本上都是从平行网站中获取的，这种语料存在语料规模小，领域覆盖度低等问题，制约了机器翻译模型效果的进一步提升。结合该问题，发明人在实践中发现，双语的非平行语料库具有语料规模大、领域丰富等特点，但非平行语料库是简单的两种语言的单语语料，其中不存在着两种语言的相互对齐关系；如果能够基于非平行语料训练出更多的平行短语对，将进一步扩大平行语料的规模。因此，本申请提供了如图1所示的平行语料的构建方法流程，其包括以下步骤：

步骤101，确定平行语料库中各翻译词对的翻译概率，所述翻译词对包含源语言词及相应的目标语言词。

平行语料库中包含源语言短语及相应的目标语言短语，每条语言短语由至少一个词组成，源语言词和相应的目标语言词构成翻译词对。翻译词对的翻译概率，体现了其翻译的准确度。

步骤102，将翻译词对及相应的翻译概率添加到翻译概率表中。

步骤103，根据翻译概率表对非平行语料库中的短语进行匹配，确定出匹配的短语对，作为新的平行短语对。

非平行语料库中包含源语言短语集合和目标语言短语集合。针对目标语言短语集合中的指定目标语言短语，根据翻译概率表确定出源语言短语集合中与指定目标短语匹配的源语言短语。通过翻译概率表可确定出两个短语间的翻译概率，进而确定两者是否相互匹配。

步骤104，将新的平行短语对添加到平行语料库中。

至此，完成了对平行语料库的扩展。为了能够训练出更多的平行短语对，进一步地，所述将新的平行短语对添加到平行语料库中之后，该方法还包括：

判断是否满足结束条件，如果是，则结束；否则执行所述确定平行语料库中各翻译词对的翻译概率的步骤。

结束条件可根据需要进行设置，下面进行举例说明：

方式一、

将添加后及添加前平行语料库中的平行短语对的数目进行比较，判断数目差值是否小于第一设定值，如果是，则满足结束条件；否则，不满足。

方式二、

设置迭代次数；每次执行所述确定平行语料库中各翻译词对的翻译概率的步骤时，将迭代次数加一；所述判断是否满足结束条件包括：判断当前的迭代次数是否大于第二设定值，如果是，则满足结束条件；否则不满足。

下面结合具体实例，对本发明方案进行详细说明。

如图2示出了本实例中初始的平行语料库的相应信息，包括短语数、词汇数、平均长度等；还示出了非平行语料库的相关信息。本发明方案中，对平行语料库中的源语言短语和目标语言短语进行预处理，从预处理后的源语言短语和对应的目标语言短语中提取出源语言词及对应的目标语言词，得到翻译词对。以中英翻译为例，对平行语料进行预处理，中文语料需进行分词预处理，英文语料需进行大写转换成小写，复数转换成单数，其它时态转换为现在时态这些预处理。

而后，确定中各翻译词对的翻译概率，其方法有多种，可根据需要设置，下面进行举例说明。

方式一、

统计出各翻译词对在平行语料库中出现的概率，作为其翻译概率。

具体地，可统计出翻译词对在平行语料库中出现的次数，再统计次平行语料库中所有翻译词的总数，两者进行相除，得到该翻译词对的翻译概率。

方式二、

根据双语词典确定各翻译词对的翻译概率，将确定的翻译概率作为相应翻译词对的翻译概率。

1)本方式可采用如下的简单实现：

双语词典给出了各个词的标准翻译，还可获知翻译概率。例如A可翻译为B或C，则确定A翻译为B及C的翻译概率分别为50％。再如，A可翻译为B、C、D及E，则确定A翻译为B、C、D及E的翻译概率分别为25％。

2)本方式也可采用如下的实现方案。将平行语料库中的翻译词对表示为<f，e>，源语言词表示为e，目标语言词表示为f，双语词典表示为d；根据双语词典确定翻译词对<f，e>的翻译概率包括：

A、采用如下公式计算翻译词对<f，e>与双语词典的KL散度σ(f，e，d)：

若翻译词对<f，e>在双语词典中，则KL散度值为1。

KL散度，即Kullback–Leiblerdivergence，也称为互信息，又称相对熵(relativeentropy)，体现了翻译词对相对于双语词典的相似度、准确度，可采用的散度计算方式计算得到。

B、结合计算得到的σ(f，e，d)，采用如下公式计算得到翻译概率的期望值c(f|e；F，E)：

\begin{matrix} c (f | e; F, E) = Σ_{t = 1}^{T} (1 - δ ({\hat{m}}_{t}, 0)) \frac{p (f | e)}{Σ_{i = 0}^{I^{({\hat{m}}_{t})}} p (f | e_{i}^{({\hat{m}}_{t})})} \\ \times Σ_{j = 1}^{J^{(t)}} δ (f, f_{j}^{(t)}) Σ_{i = 0}^{I^{({\hat{m}}_{t})}} δ (e, e_{i}^{({\hat{m}}_{t})}) + σ (f, e, d) \end{matrix}

其中，表示目标语言短语t与之匹配的源语言短语之间的匹配概率，目标语言短语t为目标语言词f所在的短语；p(f|e)表示上一次得到的翻译概率，如果当前为第一次计算，则p(f|e)取默认值，F，E分别表示平行语料库中目标语言和源语言的语料，T为目标语言短语集合的短语数目；

C、结合翻译概率的期望值，采用如下公式计算得到归一化的翻译概率p(f|e)：

p (f | e) = \frac{c (f | e; F, E)}{Σ_{f^{'}} c (f^{'} | e; F, E)}

∑_f，c(f′|e；F，E)表示将所有包含源语言词e的翻译词对的翻译概率期望值进行累加。

翻译概率表中除了包含各翻译词的翻译概率外，还可包含长度概率，体现了源语言词长度及相应的目标语言词长度之间翻译准确性。具体计算包括：

首先计算出长度概率的期望c(J|I；F，E)：

c (J | I; F, E) = Σ_{t = 1}^{T} (1 - δ ({\hat{m}}_{t}, 0)) δ (J^{(t)}, J) δ (I^{({\hat{m}}_{t})}, I)

其中I表示源语言短语长度，J表示目标语言短语长度；F，E分别表示平行语料库中目标语言和源语言的语料。

然后，再计算出长度概率p(J|I)：

p (J | I) = \frac{c (J | I; F, E)}{Σ_{J}, c (J^{,} | I; F, E)}

其中，∑_J，c(J′|I；F，E)表示：统计出源语言短语长度为I时，与其对应的所有目标语言长度的长度概率的期望，将统计出的期望进行累加。设置翻译概表之后，便可根据翻译概率表对非平行语料库中的短语进行匹配。非平行语料库中包含源语言短语集合和目标语言短语集合；针对目标语言短语集合中的指定目标语言短语，根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语，判断最大匹配概率是否满足预设条件，如果是，则将确定的源语言短语与指定目标语言短语作为新的平行短语对。该预设条件可根据需要确定，较简单的方式是设置一个阈值，如果最大匹配概率大于该阈值，则满足预设条件；当然，预设条件不仅限于此，也可以是需要满足的一个计算公式。

I^(s)表示源语言短语集合的第s个源语言短语，J^(t)表示目标语言短语集合的第t个目标语言短语；将各源语言短语与第t个目标语言短语进行匹配，最大匹配概率表示为可采用如下公式计算得到：

{\tilde{m}}_{t} = \arg \max_{s &Element; {1, ..., S}} {\frac{p (J^{(t)} | I^{(s)})}{{(I^{(s)} + 1)}^{J (t)}} Π_{j = 1}^{J^{(t)}} Σ_{i = 0}^{I^{(s)}} p (f_{j}^{(t)} | e_{i}^{(s)})}

其中，p(J^(t)|I^(s))表示I^(s)与J^(t)之间的短语长度概率，表示的是J^(t)中第j个词与I^(s)中第i个词的翻译概率。该匹配方式也称为维特比匹配，对非空短语对的匹配概率进行计算。

最终确定的匹配概率可采用如下公式计算得到：

其中，p(J^(t)|I^(s))表示I^(s)与J^(t)短语长度概率，表示的是J^(t)中第j个词与I^(s)中第i个词的翻译概率。

本实例采用维特比匹配，对目标语言短语集合中的每个短语J^(t)在源标语言短语集合选取最优的短语，确定出短语对或设定为空对齐。

将最终匹配出的短语对添加到平行语料库中，而后进行多次迭代，以对平行语料库进行扩展。图3示出了对应各次迭代的平行语料库相关信息，其中BLEU为对平行语料库进行性能衡量的参数值。

本实例中，总共迭代了5次，得到的平行语料库的数据如图4所示，这里只显示了极少部分的数据。与现有技术相比，本发明首先对平行语料进行预处理，中文语料需进行分词预处理，英文语料需进行大小写转化，划分标记(tokenize)等预处理。然后采用IBM模型1对平行语料进行训练，得到翻译概率表。并使用维特比EM的迭代方法从非平行语料中学习平行短语和词汇的模型。且采用了“从粗到精”的策略，采用信息检索的方法得到可能的匹配结果，再对可能匹配结果进行准确计算翻译概率，这种策略大大降低了模型的时间复杂度，使得模型可以应用于从大规模的非平行语料中抽取平行短语对。还通过引入空对齐阈值来控制了错误对齐的数目。实验结果表明通过迭代学习的方法可以学到更多高质量的平行短语对，并运用这些平行短语对训练基于短语的机器翻译系统提高了BELU值。

参见图5，为本发明平行语料的构建装置，该装置包括翻译概率确定模块和短语匹配模块；

较佳地，所述短语匹配模块包括迭代判断子模块，将新的平行短语对添加到平行语料库中之后，判断是否满足结束条件，如果是，则结束；否则执行向所述翻译概率确定模块发送启动指令；

所述翻译概率确定模块，接收启动指令，执行所述确定平行语料库中各翻译词对的翻译概率。

较佳地，所述短语匹配模块包括匹配处理子模块，非平行语料库中包含源语言短语集合和目标语言短语集合，针对目标语言短语集合中的指定目标语言短语，根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语，判断最大匹配概率是否满足预设条件，如果是，则将确定的源语言短语与指定目标语言短语作为新的平行短语对。

采用本发明方案进行具体实施时，以中英文双语为例，预先对平行语料进行预处理，中文语料需进行分词预处理，英文语料需进行大写转换成小写，复数转换成单数，其它时态转换为现在时态这些预处理。具体采用n-gram的方法，从非平行语料库的中英文单语语料中获取短语集合，中英文平行短语对在这两个短语集合中进行匹配。并且，通过较小的双语词典初始化词的翻译概率表，本实例中，双语词典是通过7360句中英文平行句对采用Giza++进行词对齐得到的。在平行语料L基于IBM模型1，训练得到各翻译词对的翻译概率。将所有翻译词对的翻译概率按得分按从大到小排列，取前2000个作为种子参数，得到翻译概率表。而后，用训练好的参数作为模型参数，从非平行语料库U中抽取平行短语对P。将得到的平行短语对P增加到原来的L中生成新的平行语料L∪P(∪为合并)，并利用L∪P训练基于短语的机器翻译模型测试其机器翻译的BLEU值，BLEU值为评价机器翻译效果的指标，值越高表示翻译效果越好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种平行语料的构建方法，其特征在于，该方法包括：

将翻译词对及相应的翻译概率添加到翻译概率表中；

将新的平行短语对添加到平行语料库中。

2.如权利要求1所述的方法，其特征在于，所述将新的平行短语对添加到平行语料库中之后，该方法还包括：

3.如权利要求2所述的方法，其特征在于，所述判断是否满足结束条件包括：将添加后及添加前平行语料库中的平行短语对的数目进行比较，判断数目差值是否小于第一设定值，如果是，则满足结束条件；或者，

每次执行所述确定平行语料库中各翻译词对的翻译概率的步骤时，将迭代次数加一；所述判断是否满足结束条件包括：判断迭代次数是否大于第二设定值，如果是，则满足结束条件。

4.如权利要求1、2或3所述的方法，其特征在于，所述确定平行语料库中各翻译词对的翻译概率包括：

对平行语料库中的源语言短语和目标语言短语进行预处理，从预处理后的源语言短语和对应的目标语言短语中提取出源语言词及对应的目标语言词，得到翻译词对；

统计出各翻译词对在平行语料库中出现的概率，作为其翻译概率；或者，根据双语词典确定各翻译词对的翻译概率，将确定的翻译概率作为相应翻译词对的翻译概率。

5.如权利要求4所述的方法，其特征在于，将平行语料库中的翻译词对表示为<f，e>，源语言词表示为e，目标语言词表示为f，双语词典表示为d；根据双语词典确定翻译词对<f，e>的翻译概率包括：

采用如下公式计算翻译词对<f，e>与双语词典的互信息σ(f，e，d)：

结合计算得到的σ(f，e，d)，采用如下公式计算得到翻译概率的期望值c(f|e；F，E)：

其中，表示目标语言短语t与之匹配的源语言短语之间的匹配概率，目标语言短语t为目标语言词f所在的短语；p(f|e)表示上一次得到的翻译概率，F，E分别表示平行语料库中目标语言和源语言的语料；

结合翻译概率的期望值，采用如下公式计算得到归一化的翻译概率p(f|e)：

p (f | e) = \frac{c (f | e; F, E)}{Σ_{f^{'}} c (f^{'} | e; F, E)} .

6.如权利要求1、2或3所述的方法，其特征在于，非平行语料库中包含源语言短语集合和目标语言短语集合；所述根据翻译概率表对非平行语料库中的短语进行匹配包括：

针对目标语言短语集合中的指定目标语言短语，根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语，判断最大匹配概率是否满足预设条件，如果是，则将确定的源语言短语与指定目标语言短语作为新的平行短语对。

7.如权利要求6所述的方法，其特征在于，I^(s)表示源语言短语集合的第s个源语言短语，J^(t)表示目标语言短语集合的第t个目标语言短语；将各源语言短语与第t个目标语言短语进行匹配，最大匹配概率表示为采用如下公式计算得到：

{\tilde{m}}_{t} = \arg \max_{s &Element; {1, ..., S}} {\frac{p (J^{(t)} | I^{(s)})}{{(I^{(s)} + 1)}^{J}^{^{(t)}}} Π_{j = 1}^{J^{(t)}} Σ_{i = 0}^{I^{(s)}} p (f_{j}^{(t)} | e_{i}^{(s)})}

其中，p(J^(t)|I^(s))表示I^(s)与J^(t)之间的短语长度概率，表示的是J^(t)中第j个词与I^(s)中第i个词的翻译概率。

8.一种平行语料的构建装置，其特征在于，该装置包括翻译概率确定模块和短语匹配模块；

9.如权利要求8所述的装置，其特征在于，所述短语匹配模块包括迭代判断子模块，将新的平行短语对添加到平行语料库中之后，判断是否满足结束条件，如果是，则结束；否则执行向所述翻译概率确定模块发送启动指令；

10.如权利要求8或9所述的装置，其特征在于，非平行语料库中包含源语言短语集合和目标语言短语集合；所述短语匹配模块包括匹配处理子模块，针对目标语言短语集合中的指定目标语言短语，根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语，判断最大匹配概率是否满足预设条件，如果是，则将确定的源语言短语与指定目标语言短语作为新的平行短语对。