CN116415156A

CN116415156A - 一种文档相似度计算方法、设备及介质

Info

Publication number: CN116415156A
Application number: CN202310347264.3A
Authority: CN
Inventors: 赵航; 申传旺; 赵海兴; 罗超
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-07-11

Abstract

本申请公开了一种文档相似度计算方法、设备及介质，方法包括：接收来自于用户的文档相似度计算请求，对第一文档以及第二文档进行分段，以得到第一文档对应的第一文本段落以及第二文档对应的第二文本段落；对第一文本段落以及第二文本段落进行语句切分，以得到第一文本段落对应的第一文本语句以及第二文本段落对应的第二文本语句；分别计算语句向量；根据语句向量，确定第一文档中各第一文本段落以及第二文档中各第二文本段落分别对应的段落向量；根据第一文本段落以及第二文本段落分别对应的段落向量，确定第一文档以及第二文档之间的文档相似度。充分利用了文本的语义信息，可以方便的计算长文档的文本相似度。

Description

一种文档相似度计算方法、设备及介质

技术领域

本申请涉及文本匹配领域，具体涉及一种文档相似度计算方法、设备及介质。

背景技术

文本文档是一种广泛存在的数据形式，用于记录各种知识、内容，比如新闻、小说、会议记录等。在处理各类智能问答或搜索任务时，应用后台需要根据用户给定的输入来处理大量的文档，从中选择最为合适的文档反馈给用户。比如用户输入一些歌词片段，则应给用户返回包含完整歌词的文档；而当用户输入部分文章片段时，则应给用户返回包含相关片段的文档。此类场景中，文档相似度计算算法显得尤为重要。

目前的文档相似度匹配算法多为分词+匹配的方式计算文档相似度，这类算法计算性能较好，但是难以充分反应文档中的语义信息。也有NLP方法计算文档的嵌入向量，然后通过K-Nearest等向量检索算法查询距离较近的文档。这类算法的主要问题是难以处理长文档，因为长文档语义内容过多，而嵌入向量的长度有限，无法反应所有信息。

发明内容

为了解决上述问题，本申请提出了一种文档相似度计算方法、设备及介质，包括：

接收来自于用户的文档相似度计算请求，所述文档相似度计算请求用于计算第一文档与第二文档之间的文档相似度；对所述第一文档以及第二文档进行分段，以得到所述第一文档对应的第一文本段落以及所述第二文档对应的第二文本段落；分别对所述第一文本段落以及所述第二文本段落进行语句切分，以得到所述第一文本段落对应的第一文本语句以及所述第二文本段落对应的第二文本语句；分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量；根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量；根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度。

在一个示例中，所述分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量，具体包括：通过Transformer模型进行计算所述第一文本语句以及所述第二文本语句分别对应的语句向量；将所述第一文档中第i个第一文本段落中的第j个第一文本语句的语句向量记为

将所述第二文档中第i个第二文本段落中的第j个第二文本语句的语句向量记为/>

所述Transformer模型具体为bert-base-uncased模型。

在一个示例中，所述根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量，具体包括：

通过如下公式计算段落向量：

其中，

为第一文档中第i个第一文本段落对应的段落向量，x为第i个第一文本段落中第一文本语句的数量；/>

为第二文档中第i个第二文本段落对应的段落向量；y为第i个第二文本段落中第二文本语句的数量。

在一个示例中，所述根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度，具体包括：将所述第一文档中前n个段落以及所述第二文档中前m个段落的总相似度记为dp(n,m)，并设定dp(0,0)＝0，dp(a,0)＝0,1≤a≤n，dp(0,b)＝0,1≤b≤m；根据所述第一文档中所述第一文本段落顺序、所述第二文档中所述第二文本段落顺序、所述第一文本段落以及所述第二文本段落分别对应的所述段落向量，对所述第一文档以及所述第二文档之间各段落的文档相似度进行递推，以得到所述第一文档以及所述第二文档之间的文档相似度。

在一个示例中，所述根据所述第一文档中所述第一文本段落顺序、所述第二文档中所述第二文本段落顺序、所述第一文本段落以及所述第二文本段落分别对应的所述段落向量，对所述第一文档以及所述第二文档之间各段落的文档相似度进行递推，以得到所述第一文档以及所述第二文档之间的文档相似度，具体包括：通过如下公式对所述第一文档以及所述第二文档之间的文档相似度进行递推：

其中，cosdis功能为计算两个向量的夹角余弦，/>

在一个示例中，所述确定所述第一文档以及所述第二文档之间的文档相似度之后，所述方法还包括：确定预设数据库，所述数据库中包含多个文档；遍历所述数据库，确定所述数据库中所述多个文档分别与所述第一文档以及所述第二文档之间的存储文档相似度；将所述多个文档分别与所述第一文档以及所述第二文档之间的文档相似度保存至数据库中。

在一个示例中，所述确定所述第一文档以及所述第二文档之间的文档相似度之后，所述方法还包括：接收来自于所述用户的文本查询请求，并获取输入文本数据；分别计算所述数据库中各文档分别与所述输入文本数据之间的查询文档相似度；按照所述查询文档相似度，对所述数据库中各文档进行排序，以生成查询结果推荐列表。

在一个示例中，所述分别计算所述数据库中各文档分别与所述输入文本数据之间的查询文档相似度，具体包括：确定第三文档与所述输入文本数据的查询文档相似度高于第一预设阈值；在所述数据库中获取与所述第三文档文档相似度高于第二预设阈值的第四文档；优先计算所述第四文档与所述输入文本数据之间的查询文档相似度。

本申请还提供了一种文档相似度计算设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：接收来自于用户的文档相似度计算请求，所述文档相似度计算请求用于计算第一文档与第二文档之间的文档相似度；对所述第一文档以及第二文档进行分段，以得到所述第一文档对应的第一文本段落以及所述第二文档对应的第二文本段落；分别对所述第一文本段落以及所述第二文本段落进行语句切分，以得到所述第一文本段落对应的第一文本语句以及所述第二文本段落对应的第二文本语句；分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量；根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量；根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度。

本申请还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：接收来自于用户的文档相似度计算请求，所述文档相似度计算请求用于计算第一文档与第二文档之间的文档相似度；对所述第一文档以及第二文档进行分段，以得到所述第一文档对应的第一文本段落以及所述第二文档对应的第二文本段落；分别对所述第一文本段落以及所述第二文本段落进行语句切分，以得到所述第一文本段落对应的第一文本语句以及所述第二文本段落对应的第二文本语句；分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量；根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量；根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度。

通过本申请提出的方法能够带来如下有益效果：可以方便的计算长文档的文本相似度，充分利用了文本的语义信息，分别计算了文档语句和段落的向量表示，并在动态规划的过程中充分考虑了段落顺序及段落语义相似度，不仅可以计算短文档的文本相似度，对于段落很多的长文档依然适用。计算过程中使用Transformer模型进行语句向量和段落向量计算，由于语句向量和段落向量的计算过程均为线性叠加运算，因此可以方便的使用GPU加速，算法的并行效率较好。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种文档相似度计算方法的流程示意图；

图2为本申请实施例中一种文档相似度计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书一个或多个实施例提供的一种文档相似度计算方法的流程示意图。该方法可以应用于不同的文档类型领域，比如，纯文本、纯html文档、markdown文档等。流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

本申请实施例涉及的分析方法的实现可以为终端设备，也可以为服务器，本申请对此不作特殊限制。为了方便理解和描述，以下实施例均以服务器为例进行详细描述。

需要说明的是，该服务器可以是单独的一台设备，可以是有多台设备组成的系统，即，分布式服务器，本申请对此不做具体限定。

如图1所示，本申请实施例提供一种方法，包括：

S101：接收来自于用户的文档相似度计算请求，所述文档相似度计算请求用于计算第一文档与第二文档之间的文档相似度。

当接收到来自于用户的文档相似度计算请求之后，服务器根据文档相似度计算请求获取需要进行计算文档相似度的第一文档以及第二文档。

S102：对所述第一文档以及第二文档进行分段，以得到所述第一文档对应的第一文本段落以及所述第二文档对应的第二文本段落。

对需要计算相似度的文档进行分段操作。假设要计算第一文档doc₁和第二文档doc₂的相似度，将分段后文档doc₁的第i个段落记为

文档doc₂的第i个段落记为/>

分段的具体方式需要根据文档的存储格式进行选择，比如纯文本可以使用回车符进行分割；纯html文档可以使用<p>等标签进行分割；markdown文档可使用”---”或者”#”分隔符进行分段等等。

S103：分别对所述第一文本段落以及所述第二文本段落进行语句切分，以得到所述第一文本段落对应的第一文本语句以及所述第二文本段落对应的第二文本语句。

对于doc₁和doc₂每个段落P_i，进行语句切分，以得到第一文本语句以及第二文本语句。这里的第一文本语句指的是第一文档内的语句，第二文本语句指的是第二文档内的语句。执行分句操作时，需要首先判断段落文本的语言种类，然后选择最合适的分句符号进行分句。

S104：分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量。

在一个实施例中，使用Transformer模型计算doc₁和doc₂中每个语句的句子向量，记doc₁中第i个段落的第j个语句的句子向量为

记记doc₂中第i个段落的第j个语句的句子向量为/>

Transformer模型需要根据具体应用场景选择，本发明中计算句向量默认使用的Transformer模型具体为bert-base-uncased模型。

S105：根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量。

计算第一文档以及第二文档中每个段落的段落向量，计算方式为

其中，/>

S106：根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度。

在一个实施例中，在确定文档相似度时，将将第一文档中前n个段落以及所述第二文档中前m个段落的总相似度记为dp(n,m)，并设定dp(0,0)＝0，dp(a,0)＝0,1≤a≤n，dp(0,b)＝0,1≤b≤m；再根据第一文档中第一文本段落顺序、第二文档中第二文本段落顺序、第一文本段落以及第二文本段落分别对应的段落向量，对第一文档以及第二文档之间各段落的文档相似度进行递推，以得到第一文档以及所述第二文档之间的文档相似度。

进一步地，使用递推方式计算每一对dp(i,j)，状态值转移方程为：

其中cosdis功能为计算两个向量的夹角余弦，即：

在一个实施例中，确定了第一文档以及第二文档之间的文档相似度之后，为了减少后期查询工作时的工作量，可以确定预设数据库，这里的数据库中包含多个文档。然后遍历数据库，确定数据库中多个文档分别与第一文档以及第二文档之间的存储文档相似度。然后将多个文档分别与第一文档以及第二文档之间的文档相似度保存至数据库中。

进一步地，当接收到来自于用户的文本查询请求时，可以根据文本查询请求获取用户的输入文本数据，然后计算数据库中各文档分别与输入文本数据之间的查询文档相似度，最后按照查询文档相似度，对数据库中各文档进行排序，以生成查询结果推荐列表。

更进一步地，在计算查询文档相似度时，为了更快地找到文档相似度较高的数据库文档，如果在计算过程中，计算到某个第三文档与输入文本数据的查询文档相似度高于第三预设阈值，则在数据库中获取与第三文档文档相似度高于第二预设阈值的第四文档；优先计算第四文档与输入文本数据之间的查询文档相似度。即第三文档与输入文本数据的查询文档相似度较高时，优先计算与第三文档相似度较高的第四文档与输入文本数据的查询文档相似度。需要说明的是，查询文档相似度也是文档相似度，其计算方式与上述第一文档与第二文档相同。

如图2所示，本申请实施例还提供了一种文档相似度计算设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文档相似度计算方法，其特征在于，包括：

接收来自于用户的文档相似度计算请求，所述文档相似度计算请求用于计算第一文档与第二文档之间的文档相似度；

对所述第一文档以及第二文档进行分段，以得到所述第一文档对应的第一文本段落以及所述第二文档对应的第二文本段落；

分别对所述第一文本段落以及所述第二文本段落进行语句切分，以得到所述第一文本段落对应的第一文本语句以及所述第二文本段落对应的第二文本语句；

分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量；

根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量；

根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度。

2.根据权利要求1所述的方法，其特征在于，所述分别计算所述第一文本段落中各第一文本语句以及所述第二文本段落中各第二文本语句分别对应的语句向量，具体包括：

通过Transformer模型进行计算所述第一文本语句以及所述第二文本语句分别对应的语句向量；

将所述第一文档中第i个第一文本段落中的第j个第一文本语句的语句向量记为

所述Transformer模型具体为bert-base-uncased模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语句向量，确定所述第一文档中各第一文本段落以及所述第二文档中各第二文本段落分别对应的段落向量，具体包括：

通过如下公式计算段落向量：

其中，

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一文本段落以及所述第二文本段落分别对应的段落向量，确定所述第一文档以及所述第二文档之间的文档相似度，具体包括：

将所述第一文档中前n个段落以及所述第二文档中前m个段落的总相似度记为dp(,m)，并设定dp(0,0)＝0，dp(,0)＝0,1≤a≤n，dp(0,b)＝0,1≤b≤m；

根据所述第一文档中所述第一文本段落顺序、所述第二文档中所述第二文本段落顺序、所述第一文本段落以及所述第二文本段落分别对应的所述段落向量，对所述第一文档以及所述第二文档之间各段落的文档相似度进行递推，以得到所述第一文档以及所述第二文档之间的文档相似度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一文档中所述第一文本段落顺序、所述第二文档中所述第二文本段落顺序、所述第一文本段落以及所述第二文本段落分别对应的所述段落向量，对所述第一文档以及所述第二文档之间各段落的文档相似度进行递推，以得到所述第一文档以及所述第二文档之间的文档相似度，具体包括：

通过如下公式对所述第一文档以及所述第二文档之间的文档相似度进行递推：

其中，cosdis功能为计算两个向量的夹角余弦，

6.根据权利要求1所述的方法，其特征在于，所述确定所述第一文档以及所述第二文档之间的文档相似度之后，所述方法还包括：

确定预设数据库，所述数据库中包含多个文档；

遍历所述数据库，确定所述数据库中所述多个文档分别与所述第一文档以及所述第二文档之间的存储文档相似度；

将所述多个文档分别与所述第一文档以及所述第二文档之间的文档相似度保存至数据库中。

7.根据权利要求6所述的方法，其特征在于，所述确定所述第一文档以及所述第二文档之间的文档相似度之后，所述方法还包括：

接收来自于所述用户的文本查询请求，并获取输入文本数据；

分别计算所述数据库中各文档分别与所述输入文本数据之间的查询文档相似度；

按照所述查询文档相似度，对所述数据库中各文档进行排序，以生成查询结果推荐列表。

8.根据权利要求7所述的方法，其特征在于，所述分别计算所述数据库中各文档分别与所述输入文本数据之间的查询文档相似度，具体包括：

确定第三文档与所述输入文本数据的查询文档相似度高于第一预设阈值；

在所述数据库中获取与所述第三文档文档相似度高于第二预设阈值的第四文档；

优先计算所述第四文档与所述输入文本数据之间的查询文档相似度。

9.一种文档相似度计算设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：