CN111221969A

CN111221969A - 文本差异识别方法和装置

Info

Publication number: CN111221969A
Application number: CN201911425483.9A
Authority: CN
Inventors: 钱梦迪; 门业堃; 于钊; 滕景竹; 赵雪骞
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02

Abstract

本发明公开了一种文本差异识别方法和装置。该方法包括：获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；将文字集合输入到分类模型中，得到分类结果；将分类结果传入检索重排序层，得到基于重排序的分数；将基于重排序的分数进行LambdaMART训练，得到训练结果；基于训练结果，输出差异文本。通过本发明，达到了提高文本差异识别方法的准确率的效果。

Description

文本差异识别方法和装置

技术领域

本发明涉及电力领域，具体而言，涉及一种文本差异识别方法和装置。

背景技术

文本匹配是自然语言理解中的一个核心问题。对文本匹配的研究可以应用到大量已知的自然语言处理任务中，例如信息检索、自动问答、机器翻译、对话系统、复述问题等等。这些自然语言处理的任务都可以在一定程度上抽象成文本匹配问题，这些匹配需要关注的特性具有很大不同，如何利用一个较好的文本匹配模型，针对不同任务找到最适合的匹配方式，成为研究文本匹配这个核心问题最大的挑战。

目前，国内外参考文献中的特征筛选主要使用的三类特征为：传统统计自然语言处理特征、上下文特征和现代机器学习特征。建立文件差异性检验模型有两种解决方法：字面相似度模型和判别式算法。

但是现有方案有以下缺陷：

(a)差异性检索召回层仅仅考虑了句子之间的匹配程度，没有考虑到两篇文章的匹配应该作为整体来进行考虑；

(b)检索结果往往无法明确的区分语义“完全一致”和“存在部分差异”之间的区别。

针对相关技术中文本差异识别方法不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种文本差异识别方法和装置，以解决文本差异识别方法不准确的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种文本差异识别方法，该方法包括：获取待进行比对的文字集合，其中，所述文字集合的数量至少为两个，每个文字集合中包括多个文字；将所述文字集合输入到分类模型中，得到分类结果；将所述分类结果传入检索重排序层，得到基于重排序的分数；将所述基于重排序的分数进行LambdaMART训练，得到训练结果；基于所述训练结果，输出差异文本。

进一步地，在将所述文字集合输入到分类模型中，得到分类结果之前，所述方法还包括：对所述待进行比对的文字集合进行特征筛选，得到每个集合的特征数据，其中，在得到每个集合的特征数据之后，将每个集合的特征数据输入到分类模型中，得到分类结果。

进一步地，将所述文字集合输入到分类模型中，得到分类结果包括：将所述文字集合输入到所述分类模型中，根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对所述文字集合进行分类，得到分类结果。

进一步地，在得到分类结果之后，所述方法还包括：将所述分类结果分为三种类型，其中，所述三种类型包括逻辑一样，逻辑不一样和完全不一样，其中，在逻辑一样时，确定结果指数为1，在逻辑不一样时，确定结果指数为0，在完全不一样时，确定结果指数为-1；将所述结果指数为1的分类结果确定为正样本；将所述结果指数为-1的分类结构确定为负样本。

进一步地，在所述正样本和所述负样本确定完成之后，所述方法还包括：对所述正样本和所述负样本进行GBDT训练，得到GBDT训练结果；对所述GBDT训练结果进行LambdaMART训练，得到所述训练结果；根据所述训练结果输出所述文字集合中的差异文本。

为了实现上述目的，根据本发明的另一方面，还提供了一种文本差异识别装置，该装置包括：获取单元，用于获取待进行比对的文字集合，其中，所述文字集合的数量至少为两个，每个文字集合中包括多个文字；输入单元，用于将所述文字集合输入到分类模型中，得到分类结果；排序单元，用于将所述分类结果传入检索重排序层，得到基于重排序的分数；训练单元，用于将所述基于重排序的分数进行LambdaMART训练，得到训练结果；输出单元，用于基于所述训练结果，输出差异文本。

进一步地，所述装置还包括：筛选单元，用于在将所述文字集合输入到分类模型中，得到分类结果之前，对所述待进行比对的文字集合进行特征筛选，得到每个集合的特征数据，其中，在得到每个集合的特征数据之后，将每个集合的特征数据输入到分类模型中，得到分类结果。

进一步地，所述输入单元用于：将所述文字集合输入到所述分类模型中，根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对所述文字集合进行分类，得到分类结果。

为了实现上述目的，根据本发明的另一方面，还提供了一种存储介质，包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行本发明所述的文本差异识别方法。

为了实现上述目的，根据本发明的另一方面，还提供了一种设备，至少包括一个处理器，以及与所述处理器连接的至少一个存储器、总线，其中，所述处理器、所述存储器通过所述总线完成相互间的通信，所述处理器用于调用所述存储器中的程序指令，以执行本发明所述的文本差异识别方法。

本发明通过获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；将文字集合输入到分类模型中，得到分类结果；将分类结果传入检索重排序层，得到基于重排序的分数；将基于重排序的分数进行LambdaMART训练，得到训练结果；基于训练结果，输出差异文本，解决了文本差异识别方法不准确的问题，进而达到了提高文本差异识别方法的准确率的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的文本差异识别方法的流程图；

图2是本实施例的处理流程示意图；以及

图3是根据本发明实施例的文本差异识别装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种文本差异识别方法。

图1是根据本发明实施例的文本差异识别方法的流程图，如图1所示，该方法包括以下步骤：

步骤S102：获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；

步骤S104：将文字集合输入到分类模型中，得到分类结果；

步骤S106：将分类结果传入检索重排序层，得到基于重排序的分数；

步骤S108：将基于重排序的分数进行LambdaMART训练，得到训练结果；

步骤S110：基于训练结果，输出差异文本。

该实施例采用获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；将文字集合输入到分类模型中，得到分类结果；将分类结果传入检索重排序层，得到基于重排序的分数；将基于重排序的分数进行LambdaMART训练，得到训练结果；基于训练结果，输出差异文本，解决了文本差异识别方法不准确的问题，进而达到了提高文本差异识别方法的准确率的效果。

可选地，在将文字集合输入到分类模型中，得到分类结果之前，对待进行比对的文字集合进行特征筛选，得到每个集合的特征数据，其中，在得到每个集合的特征数据之后，将每个集合的特征数据输入到分类模型中，得到分类结果。

可选地，将文字集合输入到分类模型中，得到分类结果包括：将文字集合输入到分类模型中，根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对文字集合进行分类，得到分类结果。

可选地，在得到分类结果之后，将分类结果分为三种类型，其中，三种类型包括逻辑一样，逻辑不一样和完全不一样，其中，在逻辑一样时，确定结果指数为1，在逻辑不一样时，确定结果指数为0，在完全不一样时，确定结果指数为-1；将结果指数为1的分类结果确定为正样本；将结果指数为-1的分类结构确定为负样本。

可选地，在正样本和负样本确定完成之后，对正样本和负样本进行GBDT训练，得到GBDT训练结果；对GBDT训练结果进行LambdaMART训练，得到训练结果；根据训练结果输出文字集合中的差异文本。

本实施例还提供了一种优选实施方式。

本实施例的技术方案主要针对同一领域的不同标准文件做检索比对，检索出不同部门发布的文件中对同一技术不同要求的差异性内容并预警提示。差异性检索与信息检索技术之间存在方法上的通用性，但差异性检索对检索内容的要求更高：与信息检索的以检索出最相关内容目标不同，差异性检索的目的是检索出最相关的且内容存在差距的内容。但也因为二者之间存在共性和可重复使用的技术，因此，本实施例通过在普通的信息检索模型的基础之上，使用排序学习(Learning to Rank)算法对top-k置信度的检索内容进行重排序，使其精度能够进一步提高，以满足差异化查询的要求。

数据处理部分的特征筛选，本实施例使用现代机器学习特征，主要原因在于传统统计自然语言处理特征和上下文特征都仅仅是依靠词频、文档频率等来表达句子的含义。实际上，在电力行业，同义词的出现十分广泛，仅仅靠词频等还无法精确的表达出句子含义，引入目前现代自然语言处理中流行的词嵌入，来进一步加深模型对句子的理解。

本实施例使用判别式算法建立文件差异性检验模型，字面相似度模型是指通过使用编辑距离等字面意义上的句子相似度，方法简单，但容易出现无法识别字面意义上完全一致但说法改变的情况。而判别式算法是指通过判别式机器学习算法，直接端到端识别两个句子是否为同一实体但不同内容，能够利用上下文(包括标题、子标题、上下文句子)等特征，综合考虑句子的相似度。

检索重排序层的引入是本实施例的创新点，通过引入检索重排序层，能够既保留差异性检索召回层召回候选能力强的特点，也能够引入检索重排序层精确性高的优点。

根据本实施例目标和内容，基于命名实体识别、编辑距离算法、语义分析技术、语法分析技术，建立文件差异性检验模型，通过判别式机器学习算法，直接端到端识别两个句子是否为同一实体但不同内容。

图2是本实施例的处理流程示意图，本实施例所提出的模型主要分为三部分：数据处理、差异性检索召回和top-k检索重排序。

数据处理层：

对于输入的文本内容，首先进行分词，然后使用现代机器学习特征进行特征筛选，最后通过TF-IDF等基础的自然语言处理技术，对待检索文本进行处理，将其转化为计算机能够理解的数值形式。

差异性检索召回：

差异性检索召回层通过将数据处理层的特征，输入到具体分类模型中计算，得到分类结果。将结果分为三类：1：逻辑不一样；0：完全不一样；-1：逻辑一样。使用判别式机器学习算法，直接端到端识别两个句子是否为同一实体但不同内容。

模型训练将两篇文章的任意句子对进行三分类打分，然后将结果传入到检索重排序层。由于差异性检索召回层需要对任意两两句子进行打分，因此需要考虑到算法效率问题。另一方面，由于数据处理层已经能够得到完善的特征表示，因此所使用的模型不需要过于复杂。本文使用对于小样本、弱标签都较为适用的GBDT算法作为差异性检索召回层的算法。

综合排序算法：

通过将差异性检索召回层传入的top-k的候选句子对，根据它们所处的上下文信息等特征，使用LambdaMART算法统一进行排序操作。

为了保证检索结果是最具有差异性的内容，在普通的信息检索模型的基础之上，通过使用排序学习(Learning to Rank)算法对top-k置信度的检索内容进行重排序，使其精度能够进一步提高，以满足差异化查询的要求。排序为了控制最终的输出结果，对模型训练返回的两两句子分类结果打分，通过使用Listwise的LambdaMART类算法，得到全局最优的排名和打分结果。由于本实施例主要针对于提高top-k的精度，因此检索重排序层通过对top-k的样本进行训练，将top-k中的正样本和负样本的特征输入到LambdaMART模型中进行训练。需要注意的是，虽然差异性检索召回层的预测概率结果并不一定正确，但其仍然能够为LambdaMART提供较为正确、丰富的预测帮助，因此本实施例将其预测结果同样作为LambdaMART的特征，进一步提高模型的整体效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种文本差异识别装置，该装置可以用于执行本发明实施例的文本差异识别方法。

图3是根据本发明实施例的文本差异识别装置的示意图，如图3所示，该装置包括：

获取单元10，用于获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；

输入单元20，用于将文字集合输入到分类模型中，得到分类结果；

排序单元30，用于将分类结果传入检索重排序层，得到基于重排序的分数；

训练单元40，用于将基于重排序的分数进行LambdaMART训练，得到训练结果；

输出单元50，用于基于训练结果，输出差异文本。

该实施例采用获取单元10获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；输入单元20将文字集合输入到分类模型中，得到分类结果；排序单元30将分类结果传入检索重排序层，得到基于重排序的分数；训练单元40将基于重排序的分数进行LambdaMART训练，得到训练结果；输出单元50基于训练结果，输出差异文本，从而解决了文本差异识别方法不准确的问题，进而达到了提高文本差异识别方法的准确率的效果。

可选地，该装置还包括：筛选单元，用于在将文字集合输入到分类模型中，得到分类结果之前，对待进行比对的文字集合进行特征筛选，得到每个集合的特征数据，其中，在得到每个集合的特征数据之后，将每个集合的特征数据输入到分类模型中，得到分类结果。

可选地，输入单元50用于：将文字集合输入到分类模型中，根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对文字集合进行分类，得到分类结果。

所述文本差异识别装置包括处理器和存储器，上述获取单元、输入单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高文本差异识别方法的准确率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文本差异识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本差异识别方法。

本发明实施例提供了一种设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的文本差异识别方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取待进行比对的文字集合，其中，文字集合的数量至少为两个，每个文字集合中包括多个文字；将文字集合输入到分类模型中，得到分类结果；将分类结果传入检索重排序层，得到基于重排序的分数；将基于重排序的分数进行LambdaMART训练，得到训练结果；基于训练结果，输出差异文本。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本差异识别方法，其特征在于，包括：

获取待进行比对的文字集合，其中，所述文字集合的数量至少为两个，每个文字集合中包括多个文字；

将所述文字集合输入到分类模型中，得到分类结果；

将所述分类结果传入检索重排序层，得到基于重排序的分数；

将所述基于重排序的分数进行LambdaMART训练，得到训练结果；

基于所述训练结果，输出差异文本。

2.根据权利要求1所述的方法，其特征在于，在将所述文字集合输入到分类模型中，得到分类结果之前，所述方法还包括：

对所述待进行比对的文字集合进行特征筛选，得到每个集合的特征数据，

其中，在得到每个集合的特征数据之后，将每个集合的特征数据输入到分类模型中，得到分类结果。

3.根据权利要求1所述的方法，其特征在于，将所述文字集合输入到分类模型中，得到分类结果包括：

将所述文字集合输入到所述分类模型中，根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对所述文字集合进行分类，得到分类结果。

4.根据权利要求3所述的方法，其特征在于，在得到分类结果之后，所述方法还包括：

将所述分类结果分为三种类型，其中，所述三种类型包括逻辑一样，逻辑不一样和完全不一样，其中，在逻辑一样时，确定结果指数为1，在逻辑不一样时，确定结果指数为0，在完全不一样时，确定结果指数为-1；

将所述结果指数为1的分类结果确定为正样本；

将所述结果指数为-1的分类结构确定为负样本。

5.根据权利要求4所述的方法，其特征在于，在所述正样本和所述负样本确定完成之后，所述方法还包括：

对所述正样本和所述负样本进行GBDT训练，得到GBDT训练结果；

对所述GBDT训练结果进行LambdaMART训练，得到所述训练结果；

根据所述训练结果输出所述文字集合中的差异文本。

6.一种文本差异识别装置，其特征在于，包括：

获取单元，用于获取待进行比对的文字集合，其中，所述文字集合的数量至少为两个，每个文字集合中包括多个文字；

输入单元，用于将所述文字集合输入到分类模型中，得到分类结果；

排序单元，用于将所述分类结果传入检索重排序层，得到基于重排序的分数；

训练单元，用于将所述基于重排序的分数进行LambdaMART训练，得到训练结果；

输出单元，用于基于所述训练结果，输出差异文本。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

筛选单元，用于在将所述文字集合输入到分类模型中，得到分类结果之前，对所述待进行比对的文字集合进行特征筛选，得到每个集合的特征数据，

8.根据权利要求6所述的装置，其特征在于，所述输入单元用于：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的文本差异识别方法。

10.一种设备，其特征在于，所述设备至少包括一个处理器，以及与所述处理器连接的至少一个存储器、总线，其中，所述处理器、所述存储器通过所述总线完成相互间的通信，所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至5中任意一项所述的文本差异识别方法。