CN105512114B

CN105512114B - 平行句对的筛选方法和系统

Info

Publication number: CN105512114B
Application number: CN201510927066.XA
Authority: CN
Inventors: 孙茂松; 张檬; 刘洋; 栾焕博
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2018-06-15
Anticipated expiration: 2035-12-14
Also published as: CN105512114A

Abstract

本发明涉及一种平行句对的筛选方法和系统，该方法包括：将每一待筛句对中的源语言语句和目标语言语句均切分成词；利用双语词向量模型确定切分得到的每一个词的词向量；计算源语言语句中每一个词在该源语言语句中的权重值；计算目标语言语句中每一个词在该目标语言语句中的权重值；建立一目标函数；计算目标函数的最优解，并根据最优解确定该待筛句对的泥土移动距离最小值；根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准，并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计，没有假定语料都是互译的，能够对互联网上大量的粗糙的双语语料进行筛选，从而得到高质量的、可靠的双语语料。

Description

平行句对的筛选方法和系统

技术领域

本发明涉及机器翻译技术领域，尤其是涉及一种平行句对的筛选方法和系统。

背景技术

随着国际交流的日益深入，人们对语言翻译的需求与日俱增。然而，世界上的语言种类繁多，各有特征，形式灵活，使得语言的机器翻译成为尚待解决的难题。为了实现自动的机器翻译，目前的翻译技术一般基于统计模型，而建立可靠的统计模型需要建立大规模高质量的平行语料。然而，高质量的平行语料常常只存在于少量的几种语言中，而且往往受限于特定的领域，例如政府文件、新闻等。随着互联网的兴起，国际信息的交流变得空前便捷，人们对高质量机器翻译的需求也愈加迫切。与此同时，互联网也为机器翻译带来了新的机遇。互联网上的大量语料，使得获得多种语言、多个领域的平行语料成为可能。然而，互联网上语料的质量参差不齐，直接获取的双语语料中可能包含大量噪声，反而不适合机器翻译系统。为此，需要对粗糙的双语语料进行处理，从中筛选出可靠的平行句对。

目前的平行句对筛选方法依赖于词语对齐技术，词语对齐技术并非为平行句对的筛选开发，而是假定输入语料是互译的，因此不适合充满噪声的输入语料。

发明内容

本发明所要解决的技术问题是如何从大量的粗糙的双语语料中筛选出可靠的平行句对。

为解决上述技术问题，本发明提出了一种平行句对的筛选方法和系统。

第一方面，该方法包括：

将每一待筛句对中的源语言语句和目标语言语句均切分成词；

利用双语词向量模型确定切分得到的每一个词的词向量；

计算所述源语言语句中每一个词在该源语言语句中的权重值；

计算所述目标语言语句中每一个词在该目标语言语句中的权重值；

建立一目标函数，其中：

该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量；

该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小，所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和；

该目标函数的约束条件包括：每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和；

计算所述目标函数的最优解，并根据所述最优解确定该待筛句对的所述泥土移动距离最小值；

根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准，并根据所述平行句对筛选标准进行平行句对的筛选。

可选的，该方法还包括：

将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。

可选的，所述利用双语词向量模型确定切分得到的每一个词的词向量，包括：

建立数据集，该数据集中包括单语训练集和双语训练集；

利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练，得到每一训练语料的词向量；

从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。

可选的，该方法还包括：

将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。

可选的，所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准，包括：

根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值，将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。

可选的，采用下式计算目标语言语句或源语言语句中第i个词的权重值：

其中，t_i为目标语言语句中第i个词的权重值，s_i为源语言语句中第i个词的权重值，TF(i)为相应语句中第i个词的词频，IDF(i)为所述相应语句中第i个词的逆文档频率，v_t为目标语言语句所切分得到的词的数量，v_s为源语言语句所切分得到的词的数量。

可选的，所建立的目标函数为：

该目标函数的约束条件包括：

w_ij≥0

其中，d为泥土移动距离的最小值，c_ij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离，w_ij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量，v_t为目标语言语句所切分得到的词的数量，v_s为源语言语句所切分得到的词的数量，t_i为目标语言语句中第i个词的权重值，s_j为源语言语句中第j个词的权重值。

第二方面，该系统包括：

切分模块，用于将每一待筛句对中的源语言语句和目标语言语句均切分成词；

词向量确定模块，用于利用双语词向量模型确定切分得到的每一个词的词向量；

第一计算模块，用于计算所述源语言语句中每一个词在该源语言语句中的权重值；

第二计算模块，用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值；

函数建立模块，用于建立一目标函数，其中：

该目标函数的约束条件包括：每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和，所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和；

第三计算模块，用于计算所述目标函数的最优解，并根据所述最优解确定该待筛句对的所述泥土移动距离；

标准确定模块，用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准，并根据所述平行句对筛选标准进行平行句对的筛选。

可选的，该系统还包括：

预处理模块，用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。

可选的，所述词向量确定模块包括：

建立单元，用于建立数据集，该数据集中包括单语训练集和双语训练集；

训练单元，用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练，得到每一训练语料的词向量；

筛选单元，用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。

本发明将待筛句对中的源语言语句和目标语言语句切分为词，然后根据每一个词的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目标的目标函数，通过求解目标函数计算出泥土移动距离最小值，便得知该待筛语句对中源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句对筛选标准，然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见，本发明提供的筛选方法是针对平行句对的筛选工作而专门设计，没有假定语料都是互译的，能够对互联网上大量的粗糙的双语语料进行筛选，从而得到高质量的、可靠的双语语料。

附图说明

通过参考附图会更加清楚地理解本发明的特征信息和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了根据本发明平行句对的筛选方法一实施例的流程示意图；

图2示出了根据本发明平行句对的筛选系统一实施例的结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明提供一种平行句对的筛选方法，如图1所示，该方法包括：

步骤S1、将每一待筛句对中的源语言语句和目标语言语句均切分成词；

步骤S2、利用双语词向量模型确定切分得到的每一个词的词向量；

步骤S3、计算所述源语言语句中每一个词在该源语言语句中的权重值；

步骤S4、计算所述目标语言语句中每一个词在该目标语言语句中的权重值；

步骤S5、建立一目标函数，其中：

步骤S6、计算所述目标函数的最优解，并根据所述最优解确定该待筛句对的所述泥土移动距离最小值；

步骤S7、根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准，并根据所述平行句对筛选标准进行平行句对的筛选。

应当理解的是，泥土移动距离的英文表示为Earth Mover’s Distance，其大小表征源语言语句的真实意思和目标语言语句的真实意思之间的差距。具体为：泥土移动距离越小，表示两者的真实意思越接近；泥土移动距离越大，表示两者的真实意思差别越大。因此，在约束条件下求解到的最小泥土移动距离表示源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。

本发明中将待筛句对中的源语言语句和目标语言语句切分为词，然后根据每一个词的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目标的目标函数，通过求解目标函数计算出泥土移动距离最小值，便得知该待筛语句对中源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句对筛选标准，然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见，本发明提供的筛选方法是针对平行句对的筛选工作而专门设计，没有假定语料都是互译的，能够对互联网上大量的粗糙的双语语料进行筛选，从而得到高质量的、可靠的双语语料，从而改善后续机器翻译的质量。

在具体实施时，本发明提供的筛选方法还可包括：

这样做的好处是，利用大小写统一的词语进行后续的处理，可以提高后续处理的准确性。

在具体实施时，步骤S1可以采用以下方法实现：

建立数据集，该数据集中包括单语训练集和双语训练集；

由于单语训练集和双语训练集为较大的训练语料集，因此通过双语词向量模型训练后可以得到大量训练语料的词向量，每一个词对应一个词向量，这样对于待筛语句对中的词基本都可以在训练集中找到，因此通过筛选的方式便可以得到相同词的词向量。

另外，这里不仅采用双语训练集进行训练，还采用单语训练集辅助训练，因此有效利用了大规模的高质量的单语语料。

在具体实施时，本发明提供的筛选方法还可包括：

由于利用平行句对筛选标准可以得到高质量、可靠的语料，因此将高质量、可靠的语料加入到双语训练集中，然后利用这个双语训练集进行训练，得到更加准确的词向量，根据这些词向量建立目标函数，计算得到更加精确的泥土移动距离最小值，最终制定出更加可靠的平行句对筛选标准，进一步提高了筛选的可靠性。

在具体实施时，步骤S7中，根据若干个待筛句对的泥土移动距离确定平行句对筛选标准的实现方法有多种，其中一种实现方法是：根据所述若干个待筛句对的泥土移动距离最小值设置筛选比例，该筛选比例可以为80％，这样可以对所有待筛句对的泥土移动距离最小值进行从小到大的排序，然后取前80％的待筛句对为合格的句对。另一种实现方法是：根据所述若干个待筛句对的泥土移动距离最小值设置筛选距离阈值，例如，将所述若干个待筛句对的泥土移动距离最小值的平均值作为距离阈值，将泥土移动距离最小值小于该距离阈值的待筛句对筛选出来，作为合格的平行句对。

在具体实施时，某个词的权重值的含义是该词在相应语句中的重要性占比。具体的，目标语言语句中的第i个词的权重值可以采用以下公式计算：

其中，t_i为目标语言语句中第i个词的权重值，TF(i)为目标语言语句中第i个词的词频，IDF(i)为目标语言语句中第i个词的逆文档频率，v_t为目标语言语句所切分得到的词的数量。

具体的，源语言语句中的第i个词的权重值可以采用以下公式计算：

其中，s_i为源语言语句中第i个词的权重值，TF(i)为源语言语句中第i个词的词频，IDF(i)为源语言语句中第i个词的逆文档频率，v_s为源语言语句所切分得到的词的数量。

在具体实施时，所建立的目标函数为：

该目标函数的约束条件包括：

w_ij≥0

基于相同的发明构思，本发明还提供一种平行句对的筛选系统，如图2所示，该系统100包括：

切分模块101，用于将每一待筛句对中的源语言语句和目标语言语句均切分成词；

词向量确定模块102，用于利用双语词向量模型确定切分得到的每一个词的词向量；

第一计算模块103，用于计算所述源语言语句中每一个词在该源语言语句中的权重值；

第二计算模块104，用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值；

函数建立模块105，用于建立一目标函数，其中：

第三计算模块106，用于计算所述目标函数的最优解，并根据所述最优解确定该待筛句对的所述泥土移动距离；

标准确定模块107，用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准，并根据所述平行句对筛选标准进行平行句对的筛选。

可选的，该系统还包括：

可选的，所述词向量确定模块包括：

本发明提供的筛选系统为本发明提供的筛选方法的功能架构模块，其有关部分的解释、说明和有益效果请参见本发明筛选方法中的相应部分，在此不再赘述。

在本发明中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种平行句对的筛选方法，其特征在于，包括：

利用双语词向量模型确定切分得到的每一个词的词向量；

建立一目标函数，其中：

该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量，所述转移量是指从一个词向量转移到另一个词向量间的迁移量；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述利用双语词向量模型确定切分得到的每一个词的词向量，包括：

建立数据集，该数据集中包括单语训练集和双语训练集；

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准，包括：

6.根据权利要求1所述的方法，其特征在于，采用下式计算目标语言语句或源语言语句中第i个词的权重值：

7.根据权利要求1所述的方法，其特征在于，

所建立的目标函数为：

该目标函数的约束条件包括：

w_ij≥0

8.一种平行句对的筛选系统，其特征在于，包括：

函数建立模块，用于建立一目标函数，其中：

9.根据权利要求8所述的系统，其特征在于，还包括：

10.根据权利要求8所述的系统，其特征在于，所述词向量确定模块包括：