CN104281716B

CN104281716B - 平行语料的对齐方法及装置

Info

Publication number: CN104281716B
Application number: CN201410601168.8A
Authority: CN
Inventors: 石磊; 曾增烽; 林英展; 李朋凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2017-10-03
Anticipated expiration: 2034-10-30
Also published as: CN104281716A

Abstract

本发明公开了一种平行语料的对齐方法及装置，其中，平行语料的对齐方法包括：获得平行语料，并对平行语料进行预处理，以获得预处理后的句对；利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及根据规则对齐和统计对齐后的句对获得替换短语，并对替换短语进行过滤，以获得替换词典。上述平行语料的对齐方法及装置实施例，由于在规则对齐和统计对齐过程中利用了语言的先验知识，所以大大提高了替换词典的准确率。

Description

平行语料的对齐方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种平行语料的对齐方法及装置。

背景技术

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，并将用户检索的相关的信息展示给用户的系统。

具体地，搜索引擎在对用户输入的查询词(query)进行检索时，为了能够返回更多的搜索结果，需要对query中的关键词进行同义替换，并利用替换后的同义词进行检索，这就需要专门进行同义词的挖掘，并保证所挖掘到的同义词有较高的准确率和召回率。

目前，挖掘同义词对的一般做法是：先利用国际商业机器公司(IBM)模型(model)生成一份替换词典，然后利用语言先验知识和替换词典做一次最佳对齐，以生成线上可用的替换词典。

然而，上述方式生成的替换词典准确率低，之后所进行的最佳对齐也不利于后续的进一步优化。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种具有提高替换词典准确率优点的平行语料的对齐方法及装置。

根据本发明实施例的平行语料的对齐方法包括：获得平行语料，并对所述平行语料进行预处理，以获得预处理后的句对；利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及根据规则对齐和统计对齐后的句对获得替换短语，并对所述替换短语进行过滤，以获得替换词典。

上述平行语料的对齐方法实施例，获得平行语料，并对平行语料进行预处理，对预处理后的句对进行规则对齐，并利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐，然后根据规则对齐和统计对齐后的句对获得替换短语，并对替换短语进行过滤，以获得替换词典；由于在规则对齐和统计对齐过程中利用了语言的先验知识，所以大大提高了替换词典的准确率。

根据本发明实施例的平行语料的对齐装置，包括：获得模块，用于获得平行语料，并对所述平行语料进行预处理，以获得预处理后的句对；对齐模块，用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及过滤模块，用于根据规则对齐和统计对齐后的句对获得替换短语，并对所述替换短语进行过滤，以获得替换词典。

上述平行语料的对齐装置实施例，通过获得模块获得平行语料，并对上述平行语料进行预处理，通过对齐模块利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；通过过滤模块根据规则对齐和统计对齐后的句对获得替换短语，并对上述替换短语进行过滤，以获得替换词典；由于在规则对齐和统计对齐过程中利用了语言的先验知识，所以大大提高了替换词典的准确率。

附图说明

图1是本发明一个实施例的平行语料的对齐方法的流程图。

图2是本发明一个实施例的平行句对进行规则对齐后的示意图。

图3是本发明一个实施例的平行语料的对齐装置的结构示意图。

图4是本发明另一个实施例的平行语料的对齐装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本申请实施例的平行语料的对齐方法及装置。

图1是本发明一个实施例的平行语料的对齐方法的流程图。如图1所示，该平行语料的对齐方法包括：

S101，获得平行语料，并对平行语料进行预处理，以获得预处理后的句对。

在该实施例中，平行语料用于挖掘同义词，其由两个含有同义词的句子组成。例如，假定句子A为:teen films，句子B为：girls movie，则句子A和句子B组成了一个平行句对。

其中，对平行语料进行预处理可以包括但不限于对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。其中，词性识别可包括专名识别。

S102，利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐。

其中，S102可以包括：利用语言的先验知识对预处理后的句对进行规则对齐，并利用语言的先验知识对句对中未经规则对齐的词语进行统计对齐。

具体地，利用语言的先验知识对预处理后的句对进行规则对齐可以为：利用预设词典、形态变换信息和归一化信息中的一种或多种进行规则对齐，当然还可以利用其他语言的先验知识进行规则对齐，其中，预设词典可包括但不限于同义词词典、缩写词词典、停用词词典和词根还原(stem)词典中的一种或几种。对一个平行句对进行了规则对齐之后的结果如图2所示。

从图2可以看出，该平行句对中的部分词语未对齐，在该实施例中，可以利用语言的先验知识对未经规则对齐的词语进行统计对齐，此处可以利用融合了语言先验知识的预设模型进行对齐，并输出用于后续过滤的多种特征。具体地，可以使用包含预设特征的IBM模型对句对中未经规则对齐的词语进行对齐，预设特征包括但不限于语义编辑距离、词向量距离和概率信息中的一种或几种。由于IBM模型最初的设计是用于双语语料的对齐，而不是用于同种语料，所以当应用IBM model算法做同义词挖掘时，可以充分利用同一种语料之间的对齐信息，比如编辑距离，而对于不同语料的平行句对，两个词之间编辑距离小并不能说明什么问题；但是对于改写句对而言，我们处理的是同一种语言之间的平行句对，编辑距离小意味着有可能是同一个词、纠错、形态变换。因此，可以在IBM模型中加入语言的先验知识。

在本发明实施例中，在进行规则对齐过程中和应用IBM模型进行统计对齐过程中均利用了语言的先验知识，从而可以提高替换词典的准确率和词语的对齐效率，下面以形态变换为例描述其原因：

did和does的词根都是do，通过形态变换，可以把did变成do，也可以把does变成do，这样就可以知道did和does其实是由同一个词变形而来，故二者能对齐，从而提高了替换词典的准确率和词语的对齐效率。

S103，根据规则对齐和统计对齐后的句对获得替换短语，并对替换短语进行过滤，以获得替换词典。

针对规则对齐和统计对齐后的句对，可以利用KM算法或其他对齐算法进行对齐，即进行了一次最佳对齐，以抽取出替换短语，其中，KM算法是一种二分图的最佳匹配算法。由此可见，本发明实施例中的最佳对齐与之前进行的规则对齐和统计对齐是分开实现的，这种实现方式相对于与现有的混合对齐方式，更有利于后续的进一步优化，从而可以提高对齐效率。

之后，可以利用机器学习模型进行过滤，以生成线上可用的替换词典，其中，替换词典中可以包括替换词和替换短语。

图3是本发明一个实施例的平行语料的对齐装置的结构示意图。如图3所示，该平行语料的对齐装置包括获得模块31、对齐模块32和过滤模块33，其中：

获得模块31用于获得平行语料，并对上述平行语料进行预处理，以获得预处理后的句对；对齐模块32用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；过滤模块33用于根据规则对齐和统计对齐后的句对获得替换短语，并对上述替换短语进行过滤，以获得替换词典。

具体地，获得模块31对平行语料进行预处理可以包括但不限于对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。其中，词性识别可包括专名识别。上述对齐模块32可以包括：第一对齐单元321和第二对齐单元322，如图4所示，其中，第一对齐单元321用于利用语言的先验知识对预处理后的句对进行规则对齐，第二对齐单元322用于利用语言的先验知识对上述句对中未经规则对齐的词语进行统计对齐。

具体地，上述第一对齐单元321可以用于：利用预设词典、形态变换信息和归一化信息中的一种或几种对预处理后的句对进行对齐，其中，上述预设词典包括同义词词典、缩写词词典、停用词词典和stem词典中的一种或几种。上述第二对齐单元322可以用于：使用包含预设特征的预设模型对上述句对中未经规则对齐的词语进行对齐，其中，上述预设特征可以包括但不限于语义编辑距离、词向量距离和概率信息中的一种或几种，预设模型可以为IBM模型。由于IBM模型最初的设计是用于双语语料的对齐，而不是用于同种语料，所以当应用IBM model算法做同义词挖掘时，可以充分利用同一种语料之间的对齐信息，比如编辑距离，而对于不同语料的平行句对，两个词之间编辑距离小并不能说明什么问题；但是对于改写句对而言，我们处理的是同一种语言之间的平行句对，编辑距离小意味着有可能是同一个词。因此，可以在IBM模型中加入语言的先验知识。

在该实施例中，在对齐模块完成规则对齐和统计对齐后，过滤模块33可以用于：使用预设算法对规则对齐和统计对齐后的句对进行对齐，并抽取出上述替换短语，然后利用机器学习模型进行过滤，以生成线上可用的替换词典；其中，预设算法可以为KM算法或其他对齐算法，替换词典中可以包括替换词和替换短语，KM算法是一种二分图的最佳匹配算法。

需要说明的是，上述使用预设算法对规则对齐和统计对齐后的句对进行对齐相当于实现了一次最佳对齐，但是本发明实施例中的最佳对齐与之前进行的规则对齐和统计对齐是分开实现的，这种实现方式相对于与现有的混合对齐方式，更有利于后续的进一步优化。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种平行语料的对齐方法，其特征在于，包括：

获得平行语料，并对所述平行语料进行预处理，以获得预处理后的句对；

利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及

根据规则对齐和统计对齐后的句对获得替换短语，并对所述替换短语进行过滤，以获得替换词典；

其中，所述利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐，包括：

利用语言的先验知识对所述句对中未经规则对齐的词语进行统计对齐。

2.如权利要求1所述的方法，其特征在于，所述利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐，还包括：

利用语言的先验知识对预处理后的句对进行规则对齐。

3.如权利要求2所述的方法，其特征在于，所述利用语言的先验知识对预处理后的句对进行规则对齐，包括：

利用预设词典、形态变换信息和归一化信息中的一种或几种对预处理后的句对进行对齐，其中，所述预设词典包括同义词词典、缩写词词典、停用词词典和词根还原词典中的一种或几种。

4.如权利要求2所述的方法，其特征在于，所述利用语言的先验知识对所述句对中未经规则对齐的词语进行统计对齐，包括：

使用包含预设特征的预设模型对所述句对中未经规则对齐的词语进行对齐，所述预设特征包括语义编辑距离、词向量距离和概率信息中的一种或几种。

5.如权利要求1所述的方法，其特征在于，所述根据规则对齐和统计对齐后的句对获得替换短语，包括：

使用预设算法对规则对齐和统计对齐后的句对进行对齐，并抽取出所述替换短语。

6.如权利要求1所述的方法，其特征在于，所述对所述平行语料进行预处理，包括：

对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。

7.一种平行语料的对齐装置，其特征在于，包括：

获得模块，用于获得平行语料，并对所述平行语料进行预处理，以获得预处理后的句对；

对齐模块，用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及

过滤模块，用于根据规则对齐和统计对齐后的句对获得替换短语，并对所述替换短语进行过滤，以获得替换词典；

其中，所述对齐模块，包括：

第二对齐单元，用于利用语言的先验知识对所述句对中未经规则对齐的词语进行统计对齐。

8.如权利要求7所述的装置，其特征在于，所述对齐模块，还包括：

第一对齐单元，用于利用语言的先验知识对预处理后的句对进行规则对齐。

9.如权利要求8所述的装置，其特征在于，所述第一对齐单元，具体用于：

10.如权利要求8所述的装置，其特征在于，所述第二对齐单元，具体用于：

11.如权利要求7所述的装置，其特征在于，所述过滤模块，具体用于：

12.如权利要求7所述的装置，其特征在于，所述获得模块，具体用于：