CN117688138B

CN117688138B - 一种基于段落划分的长文本相似度比对方法

Info

Publication number: CN117688138B
Application number: CN202410145332.2A
Authority: CN
Inventors: 丁又华; 刘鑫; 程欣; 张刚; 方显强; 胡方磊; 王�锋; 胡龙华; 童庆; 李聪颖; 陈永山; 刘朝阳
Original assignee: China Shipbuilding Lingjiu High Tech Wuhan Co ltd; 709th Research Institute of CSSC
Current assignee: China Shipbuilding Lingjiu High Tech Wuhan Co ltd; 709th Research Institute of CSSC
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-09
Anticipated expiration: 2044-02-02
Also published as: CN117688138A

Abstract

本发明提供一种基于段落划分的长文本相似度比对方法，包括：用语义相似度和词频方法综合计算长文本中每一个段落的聚类结果；根据语义相似度和词频方法综合计算结果建立顺序层次聚类模型并进行段落划分；基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果；获取待比对的两个长文本的每一个段落的融合嵌入向量，进行段落相似度比对交叉计算，并基于最优比对结果进行相似度内容提取。该方法能够有效提升长文本语义对比计算效率和精度，实现长文本去重或相似文本提取等需求。

Description

一种基于段落划分的长文本相似度比对方法

技术领域

本发明涉及人工智能和自然语言处理领域，更具体地，涉及一种基于段落划分的长文本相似度比对方法。

背景技术

在人工智能技术背景下，自然语言处理走向了智能化和规模化。随着自然语言处理被广泛应用信息检索、新闻分类、情感分析、垃圾邮件过滤等领域，文本相似度比对方法被不断深入研究。随着互联网的普及，文本数据的规模不断的扩增，已经步入了大数据时代，因此如何精准进行长文本信息的比对以及分类成为当代研究的焦点。其中，各种文本比对算法对输入文本的长度限制以及多段文本的顺序限制成为其核心问题，需要采取一定的算法打破这两种限制。

关于文本比对算法对文本长度的限制，bert等模型都有输入长度的限制，大模型算法似乎没有限制，其根本也是通过算法迭代解决，即将长文本变成多个短文本。显然，不能物理去切分长文本，而要根据自然意义或者说一定的合理段落去切分，问题的核心变成怎样识别长本文的自然段落，区别于作者往往根据主题或者写作要求划分的段落。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于段落划分的长文本相似度比对方法，包括：

基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果；

根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，基于顺序层次聚类进行段落划分，得到初步段落划分结果；

根据初步段落划分结果，基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果；

获取待比对的两个长文本的段落划分结果，并获取每个长文本的每个段落的融合嵌入向量；

基于两个长文本的每个段落的融合嵌入向量，进行段落相似度比对交叉计算，得到两个长文本的段落匹配结果，并根据段落匹配结果从两个长文本中提取相似段落内容。

本发明提供的一种基于段落划分的长文本相似度比对方法，合理地对长文本进行段落划分，将长文本的比对转化为段落的比对，由此避免长文本相似度比对中的文本长度限制问题。本发明方案能够解决长文本分析比对中的居多限制问题，并通过聚类指标和输入向量的合理选择有效提升比对精度，由此为自然语言处理中长文本处理提供一种新的可选方案。

附图说明

图1为本发明提供的一种基于段落划分的长文本相似度比对方法流程图；

图2为段落相似度比对的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1为本发明提供的一种基于段落划分的长文本相似度比对方法流程图，如图1所示，方法包括：

步骤1，基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果。

可理解的是，段落划分的目标是便于机器进行相似度对比，所以划分段落的指标变成了自然语义和词频统计等，这样对于文本的相似度比对更有意义。

本步骤实现了利用语义相似度和词频综合计算段落层次聚类。首先，计算基于语义相似度的句子中的词权重，即计算长文本中每个句子中的所有语义特征词与其它每个句子的语义相似度之和，其中：

；

其中，为第t个句子的语义特征词向量，/>为当前句子中第k个的语义特征词向量，/>为句子中第k个语义特征词向量的维度，/>为当前句子中的所有语义特征词与第t个句子的语义相似度之和，softmax为将计算出来的值，变成0-1之间，且它们的和为1。

词频-逆文档频率反映了特征词表征文本的能力，其值越高，表示特征词的重要性越强，即该特征词在一篇文档中出现的频率高而在其他文档中较少出现，长文本某个句子所有语义特征词在第t个句子中的词频-逆文档频率值之和为：

；

其中，n表示词频，为长文本当前句子的第/>语义特征词，/>为长文本中总句子数量，/>为包含当前句子的第/>个语义特征词的句子数量。

步骤2，根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，基于顺序层次聚类进行段落划分，得到初步段落划分结果。

其中，步骤1计算了长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，本步骤根据语义相似度计算结果和词频计算结果对长文本的句子进行聚类，对长文本的段落进行划分。对段落进行划分的结果，需要符合段落间的相似度最小，段内相似度最大的原则，所以需要一定的方法对聚类划分的结果进行约束。具体过程包括：

按顺序选取长文本中第1个句子，分别计算第1个句子中的所有语义特征词与其他第t个句子的语义相似度之和，以及所有特征词在其他句子中的词频-逆文档频率值之和/>；

对语义相似度和词频-逆文档频率值权重加权，设定权重系数为，长文本中第1个句子对两种权重进行归一化加权和为/>：

；

其中表示长文本中第2个句子以及剩下所有句子，权重系数为/>的设定需要根据文本内容进行试验。

设定聚类阈值m，如果，继续进行下一步；否则，第1个句子单独为一聚类簇，即为一个段落；

计算长文本中第个2句子的，继续判断，若/>，则继续进行下一步，否则第1个句子和第2个句子为一聚类簇，即第1个句子和第2个句子组成一个段落，依次对长文本中的每一个句子进行判断并划分，直至所有类簇按顺序给出，一个类簇为一个段落，每一个段落至少包括一个句子。

其中，经过步骤2可得到长文本的初步段落划分结果。

步骤3，根据初步段落划分结果，基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果。

可理解的是，初步段落划分结果可能不是很合理，因此，利用信息熵最小化为目标对初步段落划分结果进行优化，对于上一步骤产生的聚类簇，根据信息熵最小化进一步判断簇划分的合理性。

具体的，设产生的个聚类簇为/>，且每个簇的句子数>1，每一个簇包括a个句子，第i个类簇包括的句子表示为/>，对于句子/>有个特征词，表示为/>。

计算每一个特征词在对应句子中的信息熵，其中：

；

，表示第p个语义特征词在句子中的分布。

从段落划分角度，应该取较小的值，/>度量段落内部特征词分布的不确定性，段落内部应该尽量一致，不确定度小一些。好的段落划分还应将段外信息熵最小化，/>计算如下：

；

，表示第p个语义特征词在句子中的段外分布。

基于每一个特征词在对应句子中的信息熵和段外信息熵/>构建段落划分的目标函数/>，则划分的段落满足目标函数。

按照所建立的目标函数，建立信息熵最小化为目标的最优段落划分模型，具体为，对于每一个簇，穷尽计算所有的可能的句子划分组合的信息熵，找到目标函数计算结果最小的组合。

由于每个簇的句子数量理论上不会很多，因此本方法避免了对该模型的优化计算，即一般不需要利用进化算法进行优化计算即可在较短的时间完成穷举。

给定阈值，若/>，则步骤2的原始聚类簇即为一个划分段落不变，否则，按照信息熵最小化时的簇划分结果作为最终段落划分结果。

步骤4，获取待比对的两个长文本的段落划分结果，并获取每个长文本的每个段落的融合嵌入向量。

可理解的是，对于两个待比对的长文本，分别按照步骤1~步骤3对长文本进行段落划分，分别获取两个长文本的段落划分结果，比如，第一个长文本被划分为n1个段落，第二个长文本被划分为n2个段落。

段落划分的结果就是可以进行较短文本的相似度比对计算，然而需要比对的文本的表达顺序未必是一致的，且划分的段落的数量也未必一致，所以一般的一一比对方法不能达到目的。因此，需要对划分的段落进行一一穷尽比对。想要获得最佳的比对结果，那就需要对段落文本向量化时，产生一种简单但信息量丰富的文本向量。以bert模型输入向量为例，只代表了拼音和位置信息，如果加入五笔输入等特征，能够实现向量长度增加不多的情况下丰富文本的特征信息。最后，段落内的文本相似度内容提取，可以借助大模型方法，以获得最佳效果。

其中，五笔输入完全依据笔画和字形特征对汉字进行编码，是典型的形码输入法，可以表示汉字的笔画信息。利用任意版五笔构建汉字五笔对应表，通过汉字五笔对应表获取汉字的五笔表示，然后使用字母数字对应表获取数字向量，最后通过CNN卷积神经网络将初始的五笔向量转化为五笔嵌入向量。汉字的字bert嵌入向量可以通过词表对应获取，将汉字的bert嵌入向量与五笔嵌入向量按列维度进行拼接，最后通过全连接层进行降维，得到融合嵌入向量。获取第一个长文本的每一个段落的融合嵌入向量，以及获取第二个长文本的每一个段落的融合嵌入向量。

步骤5，基于两个长文本的每个段落的融合嵌入向量，进行段落相似度比对交叉计算，得到两个长文本的段落匹配结果，并根据段落匹配结果从两个长文本中提取相似段落内容。

如图2所示，首先分别将两个长文本（两篇文本）A和B按照步骤1~3进行段落划分，然后按照划分后的段落，利用bert模型对长文本A中的每一个段落的融合嵌入向量与长文本B中的每一个段落的融合嵌入向量进行相似度计算，然后选取每个段落相似度最大的结果作为合适的段落相似匹配结果。

在工程需求中，往往还需要标识出文本间具体哪里相似，按照上述方法得到文档间段落相似匹配结果后，可以依据最新的大模型方法进行标识，以期待得到更精准的结果，具体的，CNN、bert深度学习方法和大模型方法是现有技术，这里不再对具体的计算过程赘述。

本发明提供的一种基于段落划分的长文本相似度比对方法，利用语义相似度和词频方法建立顺序层次聚类模型并进行段落划分，且根据信息熵最小化优化段落划分结果，然后对这些段落进行相似度比对交叉计算，能够有效提升长文本语义对比计算效率和精度，实现长文本去重或相似文本提取等需求；提供了一种更为合理的长文本段落划分方法，由此避免长文本相似度比对中的文本长度限制问题；然后建立一种循环长文本相似度比对方法，由此避免长文本相似度比对中的段落顺序限制的问题。本发明方案能够解决长文本分析比对中的居多限制问题，并通过聚类指标和输入向量的合理选择有效提升比对精度，由此为自然语言处理中长文本处理提供一种新的可选方案。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于段落划分的长文本相似度比对方法，其特征在于，包括：

基于两个长文本的每个段落的融合嵌入向量，进行段落相似度比对交叉计算，得到两个长文本的段落匹配结果，并根据段落匹配结果从两个长文本中提取相似段落内容；

其中基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，包括：

计算长文本中每个句子中的所有语义特征词与其它每个句子的语义相似度之和以及长文本中每个句子中所有语义特征词在每个句子中的词频-逆文档频率值之和，其中：

；

其中，为第t个句子的语义特征词向量，/>为当前句子中第k个的语义特征词向量，/>为句子中第k个语义特征词向量的维度，/>为当前句子中的所有语义特征词与第t个句子的语义相似度之和，softmax为将计算出来的值，变成0-1之间；

；

其中，n表示词频，为长文本当前句子的第/>语义特征词，/>为长文本中总句子数量，为包含当前句子的第/>个语义特征词的句子数量；

所述根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果，建立顺序层次聚类进行段落划分，得到初步段落划分结果，包括：

；

其中表示长文本中第2个句子以及剩下所有句子；

设定聚类阈值m，如果，继续进行下一步；否则，第1个句子单独为一聚类簇，即为一个初步段落；

计算长文本中第个2句子的，继续判断，若/>，则继续进行下一步，否则第1个句子和第2个句子为一聚类簇，即为一个初步段落，依次对长文本中的每一个句子进行判断并划分，直至所有类簇按顺序给出，一个类簇为一个段落，每一个段落至少包括一个句子；

所述根据初步段落划分结果，基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果，包括：

设产生的个聚类簇为/>，且每个簇的句子数>1，每一个簇包括a个句子，第i个类簇包括的句子表示为/>，对于句子/>有/>个特征词，表示为/>；

计算每一个特征词在对应句子中的信息熵和段外信息熵/>；

基于每一个特征词在对应句子中的信息熵和段外信息熵/>构建段落划分的目标函数/>；

对于每一个簇，穷尽计算所有的可能的句子划分组合的信息熵，找到目标函数计算结果最小的句子划分组合，获得最优段落划分结果。

2.根据权利要求1所述的基于段落划分的长文本相似度比对方法，其特征在于，所述计算每一个特征词在对应句子中的信息熵和段外信息熵/>，包括：

；

其中，；

；

为第p个特征词在第/>个句子中的分布，/>为第p个特征词在第/>个句子中的段外分布。

3.根据权利要求2所述的基于段落划分的长文本相似度比对方法，其特征在于，对于每一个簇，穷尽计算所有的可能的句子划分组合的信息熵，找到目标函数计算结果最小的句子划分组合，包括：

给定阈值，若/>，则原始聚类簇为一个划分段落不变，否则按照信息熵最小化时的簇划分结果作为最优段落划分结果。