CN109697287A

CN109697287A - 句子级双语对齐方法及系统

Info

Publication number: CN109697287A
Application number: CN201811561745.XA
Authority: CN
Inventors: 聂镭; 李睿; 聂颖; 郑权; 张峰
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-30
Anticipated expiration: 2038-12-20
Also published as: CN109697287B

Abstract

本发明公开了一种句子级双语对齐方法及系统，该方法包括：步骤S1：对待对齐的两文本进行处理，得到第一语句列表和第二语句列表；步骤S2：计算该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的文本相似度；步骤S3：根据该第一语句列表中的语句在该一个文本中的对应语句的位置与该第二语句列表中的语句在该另一个文本中的对应语句的位置对该文本相似度进行修正，得到该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度；步骤S4：根据该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度得到该两文本的语句对齐结果。本发明有利于提高语句对齐效率。

Description

句子级双语对齐方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是一种句子级双语对齐方法及系统。

背景技术

平行语料库对于基于自然语言处理的翻译算法来说是较为重要的资料，平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库，其对齐程度可分为词级、句级、段级和篇级几种，其中，句级的平行语料是最常用的语料库，因此，常常会将将段级、篇级的平行语料转换成句级的平行语料，但是在语料库中，原文与译文并不一定是一一对应的，因此通常需要采用人工方式将段落和篇章的语料库拆分组合成一一对应的句子，这种方式需要耗费大量的人力和时间，从而不利于语句对齐效率的提高。

发明内容

有鉴于此，本发明的目的之一在于提供一种句子级双语对齐方法及系统，有利于提高语句对齐效率。

为达到上述目的，本发明的技术方案提供了一种句子级双语对齐方法，包括：

步骤S1：对待对齐的两文本进行处理，得到第一语句列表和第二语句列表，其中，所述第一语句列表的语句由所述两文本中的一个文本的语句得到，所述第二语句列表的语句由所述两文本中的另一个文本的语句得到，且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同；

步骤S2：计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度；

步骤S3：根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正，得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度；

步骤S4：根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。

进一步地，所述步骤S1包括：

对所述一个文本进行断句处理，得到所述第一语句列表，对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句，从而得到所述第二语句列表。

进一步地，所述第一语句列表中的语句与所述第二语句列表中的语句均为英文，在所述步骤S2中，采用以下方式计算两个语句的文本相似度K；

其中，L为所述两个语句中词语数量最多的语句的词语数量，N_i为所述两个语句中词语数量最多的语句中第i个词语的取值，若所述两个语句中另一语句包含与第i个词语相同词根的词语，则N_i的取值为1，否则为0。

进一步地，所述步骤S3包括：

建立文本相似度矩阵B：

其中，n为所述第一语句列表中的语句数量，m为所述第二语句列表中的语句数量，矩阵B中的元素K_ij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度，且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序，所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序；

获取卷积核，所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值；

采用所述卷积核对所述文本相似度矩阵进行卷积，得到语句匹配度矩阵，所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。

进一步地，所述步骤S4包括：

采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和；

根据语句匹配度之和得到所述两文本的语句对齐结果。

为实现上述目的，本发明的技术方案还提供了一种句子级双语对齐系统，包括：

第一处理模块，用于对待对齐的两文本进行处理，得到第一语句列表和第二语句列表，其中，所述第一语句列表的语句由所述两文本中的一个文本的语句得到，所述第二语句列表的语句由所述两文本中的另一个文本的语句得到，且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同；

计算模块，用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度；

第二处理模块，用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正，得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度；

第三处理模块，用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。

进一步地，所述第一处理模块包括：

第一处理单元，用于对所述一个文本进行断句处理，得到所述第一语句列表；

第二处理单元，用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句，从而得到所述第二语句列表。

进一步地，所述第一语句列表中的语句与所述第二语句列表中的语句均为英文，所述计算模块被配置为采用以下方式计算两个语句的文本相似度K；

进一步地，所述第二处理模块包括：

矩阵构建单元，用于建立文本相似度矩阵B：

获取单元，用于获取卷积核，所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值；

卷积单元，用于采用所述卷积核对所述文本相似度矩阵进行卷积，得到语句匹配度矩阵，所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。

进一步地，所述第三处理模块包括：

第三处理单元，用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和；

第四处理单元，用于根据语句匹配度之和得到所述两文本的语句对齐结果。

本发明提供的句子级双语对齐方法，利用语句的文本相似性以及语句在文本中的位置进行语句对齐，不但可以减少人工参与，实现语句自动对齐，还可以提高对齐的准确率，有利于提高文本间语句对齐的效率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例提供的一种句子级双语对齐方法的流程图；

图2是本发明实施例提供的一种卷积核的示意图；

图3是本发明实施例提供中的语句文本相似度矩阵的部分示意图；

图4是本发明实施例提供中的语句匹配度矩阵的部分示意图；

图5是本发明实施例提供的一种句子级双语对齐系统的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参见图1，图1是本发明实施例提供的一种句子级双语对齐方法的流程图，该方法包括：

即对于每两个语句，可以根据其中第一语句列表中的语句在一个文本中的对应语句的位置(也即语句出现的时间顺序)以及其中第二语句列表中的语句在另一个文本中的对应语句的位置(也即语句出现的时间顺序)对该两个语句的文本相似度进行修正，若两者的位置相近，可以进一步增大文本相似度，若两者的位置较远，可进一步地减小文本相似度，之后将修正后的文本相似度作为该两语句的语句匹配度；

步骤S4：根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果(即句子级对齐结果)。

本发明实施例提供的句子级双语对齐方法，利用语句的文本相似性以及语句在文本中的位置进行语句对齐，不但可以减少人工参与，实现语句自动对齐，还可以提高对齐的准确率，有利于提高文本间语句对齐的效率。

例如，本发明实施例提供的句子级双语对齐方法可以具体包括：

步骤A：对待对齐的两文本分别进行以下处理：对其中一个文本进行断句处理，得到第一语句列表，对另一个文本进行断句处理后将得到的语句翻译为与上述一个文本语言相同的语句，从而得到第二语句列表；

例如，可以判断文本中是否出现用于分割句子的标志性符号，若出现则进行断句，如中文的“。”、“！”为句子结尾，英文以“.”为句子结尾；

例如，待对齐的两文本中一个文本为英文文本(原文文本)，另一个文本为中文文本(译文文本)，通过将英文文本断句后得到n个英文语句，每一个英文语句为英文文本中独立的一句话，通过该n个英文语句建立第一语句列表，且第一语句列表的语句位置顺序对应英文文本中的语句位置顺序(即英文文本中的第一个英文语句在第一语句列表仍为第一位，英文文本中的第二个英文语句在第一语句列表仍为第二位，……)，其中，通过将中文文本断句后得到m个中文语句，之后可以通过调用翻译API，将该m个中文语句翻译为英文语句，进而得到第二语句列表，其中，第二语句列表的语句位置顺序对应中文文本中的语句位置顺序(即中文语句在中文文本中的位置与该中文语句翻译得到的英文语句在第二语句列表中的位置相同)；

步骤B：计算第一语句列表中的每一个语句与第二语句列表中的每一个语句的文本相似度，例如，可以对语句中的词语取词根进行完全匹配，得到两语句的文本相似度K，具体如下：

其中，L为所述两个语句中词语数量最多的语句的词语数量(如果两个语句中的词语数量相同，可取任意一个语句作为词语数量最多的语句)，N_i为所述两个语句中词语数量最多的语句中第i个词语的取值，若所述两个语句中另一语句包含与第i个词语相同词根的词语，则N_i的取值为1，否则为0；

步骤C：根据对步骤B得到的文本相似度进行修正，得到第一语句列表中的每一个语句与第二语句列表中的每一个语句的语句匹配度，具体方式如下：

步骤C1：建立文本相似度矩阵B：

其中，n为第一语句列表中的语句数量，m为第二语句列表中的语句数量，矩阵B中的元素K_ij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度(也即英文文本中第i个英文语句与中文文本中第j个中文语句的文本相似度)，且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序；

其中，为能够更直观的体现出相似度情况，可以将上述相似度矩阵B转换为对应的图像，其中，通过图像中第i行、第j列位置上的像素的灰度值示出K_ij的大小，例如，通过深色代表文本相似度最低，浅色代表相似度一般，白色代表相似度高；

步骤C2：获取卷积核，该卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值(即从左上角至右下角对位线位置上的每一个元素的值都大于每一个其他位置上的元素的值)，例如，采用的卷积核可以如图2所示；

通过采用卷积核对文本相似度矩阵进行卷积，以改变文本相似度矩阵的值，使得前后位置距离较近的中文句子与英文句子间的语句匹配度更大，使得前后位置距离较远的中文句子与英文句子间的语句匹配度更小，即考虑了语句在文本中的位置(语句在文本出现的时间顺序)，从而可以避免中英文本中重复出现的相同或相似的句子对匹配的干扰，有利于提高匹配的准确度；

步骤C3：采用卷积核对所述文本相似度矩阵进行卷积，得到语句匹配度矩阵，所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度(也即英文文本中每一个英文语句与中文文本中每一个中文语句的语句匹配度)；

例如，相似度矩阵B中第34～36行、第35～37列中的元素(也即第一语句列表中第34～36个语句与第二语句列表中第35～37个语句的文本相似度)如图3所示，经过卷积处理后得到的结果如图4所示，包括第一语句列表中第34～36个语句与第二语句列表中第35～37个语句的语句匹配度；

通过上述卷积的结果可以得出，在进行卷积后，产生干扰的错误匹配的句子间的匹配度显著的降低了，得出的正确匹配对为：第一语句列表中第34个语句与第二语句列表中第35个语句配对，第一语句列表中第35个语句与第二语句列表中第36个语句配对，第一语句列表中第36个语句与第二语句列表中第37个语句配对，而通过图3可以看出，卷积前第一语句列表中第34个语句与第二语句列表中第35个语句的文本相似度同第一语句列表中第34个语句与第二语句列表中第36个语句的文本相似度相近，容易造成误判，在卷积之后，第一语句列表中第34个语句与第二语句列表中第35个语句的语句匹配度(即修正后的文本相似度)高于第一语句列表中第34个语句与第二语句列表中第36个语句的语句匹配度(即修正后的文本相似度)，从而有利于做出正确判断；

步骤D：根据第一语句列表中的每一个语句与第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果，具体步骤如下：

步骤D1：采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和；

需要说明的是，某一语句对齐情况下的语句匹配度之和是将该语句对齐情况下所有配对语句的语句匹配度相加求和。

动态规划的本质是对问题状态的定义和状态转移方程的定义，然后通过拆分问题，定义问题状态和状态之间的关系，使得问题能够以递推(或者说分治)的方式去解决句子与句子的最优匹配；

在本实施例中，由于在计算所有对齐情况下的语句匹配度之和的过程中包含大量重复的计算，通过动态规划技术可以避免大量的重复计算，从而达到节省时间的目的；

步骤D2：根据语句匹配度之和得到所述两文本的语句对齐结果，具体可将语句匹配度之和最大的语句对齐情况作为两文本的语句对齐结果。

本发明实施例提供的句子级双语对齐方法，采用卷积核对文本相似度矩阵进行卷积，得到语句匹配度矩阵，该语句匹配度矩阵中的语句匹配度语句之间的文本相似度以及语句在文本中的位置确定，能够避免相同重复的语句在语句匹配时产生的干扰，有利于提高句子匹配的准确率。

参见图5，图5是本发明实施例提供的一种句子级双语对齐系统的示意图，该系统包括：

第一处理模块1，用于对待对齐的两文本进行处理，得到第一语句列表和第二语句列表，其中，所述第一语句列表的语句由所述两文本中的一个文本的语句得到，所述第二语句列表的语句由所述两文本中的另一个文本的语句得到，且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同；

计算模块2，用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度；

第二处理模块3，用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正，得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度；

第三处理模块4，用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。

在一实施例中，所述第一处理模块包括：

在一实施例中，所述第一语句列表中的语句与所述第二语句列表中的语句均为英文，所述计算模块被配置为采用以下方式计算两个语句的文本相似度K；

在一实施例中，所述第二处理模块包括：

矩阵构建单元，用于建立文本相似度矩阵B：

在一实施例中，所述第三处理模块包括：

本领域的技术人员容易理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种句子级双语对齐方法，其特征在于，包括：

2.根据权利要求1所述的句子级双语对齐方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述的句子级双语对齐方法，其特征在于，所述第一语句列表中的语句与所述第二语句列表中的语句均为英文，在所述步骤S2中，采用以下方式计算两个语句的文本相似度K；

4.根据权利要求1所述的句子级双语对齐方法，其特征在于，所述步骤S3包括：

建立文本相似度矩阵B：

5.根据权利要求1所述的句子级双语对齐方法，其特征在于，所述步骤S4包括：

根据语句匹配度之和得到所述两文本的语句对齐结果。

6.一种句子级双语对齐系统，其特征在于，包括：

7.根据权利要求6所述的句子级双语对齐系统，其特征在于，所述第一处理模块包括：

8.根据权利要求6所述的句子级双语对齐系统，其特征在于，所述第一语句列表中的语句与所述第二语句列表中的语句均为英文，所述计算模块被配置为采用以下方式计算两个语句的文本相似度K；

9.根据权利要求6所述的句子级双语对齐系统，其特征在于，所述第二处理模块包括：

矩阵构建单元，用于建立文本相似度矩阵B：

10.根据权利要求6所述的句子级双语对齐系统，其特征在于，所述第三处理模块包括：