CN110162750A

CN110162750A - 文本相似度检测方法、电子设备及计算机可读存储介质

Info

Publication number: CN110162750A
Application number: CN201910069758.3A
Authority: CN
Inventors: 陈诚; 王军伟; 陈亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-08-23
Anticipated expiration: 2039-01-24
Also published as: CN110162750B

Abstract

本申请实施例提供了一种文本相似度检测方法、电子设备及计算机可读存储介质，涉及计算机技术领域。该方法包括：基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与各个待检测文本信息之间的相似度，然后基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。本申请实施例提供的文本相似度检测方法、电子设备及计算机可读存储介质可以提升文本相似度检测的准确度，进而可以提升用户体验。

Description

文本相似度检测方法、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种文本相似度检测方法、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，互联网技术随之发展，互联网上充斥着大量的信息，例如，新闻、资讯等信息，但是这些信息中存在一些内容极其相近甚至完全相同的内容。互联网中发布这些极其相近甚至完全相同的内容，从而导致用户在浏览互联网信息时可能看见大量重复的信息，导致用户体验很差，因此对信息进行相似度检测成为一个关键问题。

目前，通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测。在通过Simhash算法对两个文本信息进行相似度检测时，包括：对各个文本信息进行分词处理；将各个文本信息分别对应的分词信息进行哈希hash计算；将各个文本信息分别对应的hash值进行加权并合并；将各个合并后的hash值分别进行降维处理；基于各个降维处理后的数据确定这两个文本信息之间的汉明距离，并基于计算出的汉明距离，确定两个文本信息的相似度。

然而，当通过Simhash算法计算文本信息的相似度时，由于在合并处理以及降维处理的步骤中导致信息损失较大，可能导致完全不相关的文本信息的汉明距离较小甚至为0，从而导致文本相似度检测的准确度较低，进而导致用户体验较差。

发明内容

本申请提供了一种文本相似度检测方法、电子设备及计算机可读存储介质，可以解决文本相似度检测准确度较低以及用户体验较差的问题。技术方案如下：

第一方面，提供了一种文本相似度检测方法，该方法包括：

基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息；

基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与各个待检测文本信息之间的相似度；

基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。

在一种可能的实现方式中，当从多个文本信息中召回多个待检测文本信息时，

基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与各个待检测文本信息之间的相似度，之前还包括：

基于各个待检测文本信息与目标文本信息之间的距离，从多个待检测文本信息中筛选出第一预设个数的待检测文本信息；

基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与各个待检测文本信息之间的相似度，包括：

基于NLP技术的文本相似度检测算法，分别确定目标文本信息与第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。

在一种可能的实现方式中，基于各个待检测文本信息与目标文本信息之间的距离，从多个待检测文本信息中筛选出第一预设个数的待检测文本信息，包括以下至少一项：

基于各个待检测文本信息与目标文本信息之间的距离，对各个待检测文本信息进行排序，并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息；

将多个待检测文本信息划分为多个部分，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从任一部分中筛选待检测文本信息，以使得从多个部分中筛选出的待检测文本信息的数量满足第一预设个数。

在一种可能的实现方式中，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从任一部分中筛选待检测文本信息，包括：

按照任一部分中各个待检测文本信息与目标文本信息之间的距离，筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。

在一种可能的实现方式中，目标文本信息与任一待检测文本信息之间的相似度包括：目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度以及目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度；

基于自然语言处理NLP技术的文本相似度检测算法，确定目标文本信息与任一待检测文本信息之间的相似度，包括：

基于NLP技术的文本相似度检测算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

在一种可能的实现方式中，基于确定结果，基于确定结果，确定目标文本信息与任一待检测文本信息是否相似，包括：

若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定目标文本信息与任一待检测文本信息相似；

若目标文本的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定目标文本信息与任一待检测文本信息相似；

若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似，则确定目标文本信息与任一待检测文本信息不相似；

若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件，则基于目标文本信息的标题信息与任一待检测文本信息的标题信息，并通过实体识别算法以及依存句法分析算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，并基于确定结果，确定目标文本信息与任一待检测文本信息是否相似。

在一种可能的实现方式中，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，包括：

计算目标文本信息的标题信息与任一待检测文本信息的标题信息的字面相似度以及语义相似度；

根据计算结果，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度。

在一种可能的实现方式中，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度，包括：

获取第一关键词集合以及第二关键词集合，第一关键词集合中包含目标文本信息的正文信息对应的至少一个关键词，第二关键词集合中包含任一待检测文本信息的正文信息对应的至少一个关键词；

确定第一关键词集合以及第二关键词集合的相似度为目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

在一种可能的实现方式中，基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，包括：

基于预设文本相似度召回算法，按照预设索引格式分别确定各个文本信息以及目标文本信息的索引；

依据各个文本信息以及目标文本信息分别对应的索引，从多个文本信息中召回至少一个待检测文本信息；

符合预设索引格式的索引由多个组以及每组中的比特数组成。

在一种可能的实现方式中，该方法还包括：

通过等比例的增加组数并相应的降低每组中的比特数，来修改预设索引格式；

按照预设索引格式分别确定各个文本信息以及目标文本信息的索引，包括：

通过修改后的预设索引格式，分别确定各个文本信息以及目标文本信息的索引。

在一种可能的实现方式中，预设文本相似度召回算法包括以下至少一项：

局部敏感哈希LSH算法；

最小哈希minHash算法；

Simhash算法。

第二方面，提供了一种文本相似度检测的装置，该装置包括：

召回模块，用于基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息；

第一确定模块，用于基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与召回模块召回的各个待检测文本信息之间的相似度；

第二确定模块，用于基于第一确定模块的确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。

在一种可能的实现方式中，当从多个文本信息中召回多个待检测文本信息时，该装置还包括：筛选模块；

筛选模块，用于基于召回模块召回的各个待检测文本信息与目标文本信息之间的距离，从多个待检测文本信息中筛选出第一预设个数的待检测文本信息；

第一确定模块，具体用于基于NLP技术的文本相似度检测算法，分别确定目标文本信息与第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。

在一种可能的实现方式中，筛选模块，具体用于基于各个待检测文本信息与目标文本信息之间的距离，对各个待检测文本信息进行排序，并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息，和/或，将多个待检测文本信息划分为多个部分，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从任一部分中筛选待检测文本信息，以使得从多个部分中筛选出的待检测文本信息的数量满足第一预设个数。

在一种可能的实现方式中，筛选模块，具体还用于按照任一部分中各个待检测文本信息与目标文本信息之间的距离，筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。

在一种可能的实现方式中，目标文本信息与任一待检测文本信息之间的相似度包括：目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度以及目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度；第一确定模块，具体用于基于NLP技术的文本相似度检测算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

在一种可能的实现方式中，第二确定模块，具体还用于当目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件时，确定目标文本信息与任一待检测文本信息相似；

第二确定模块，具体还用于当目标文本的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件时，确定目标文本信息与任一待检测文本信息相似；

第二确定模块，具体还用于当目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件时，确定目标文本信息与任一待检测文本信息不相似；

第二确定模块，具体还用于当目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件时，基于目标文本信息的标题信息与任一待检测文本信息的标题信息，并通过实体识别算法以及依存句法分析算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，并基于确定结果，确定目标文本信息与任一待检测文本信息是否相似。

在一种可能的实现方式中，第一确定模块包括：计算单元以及第一确定单元；

计算单元，用于计算目标文本信息的标题信息与任一待检测文本信息的标题信息的字面相似度以及语义相似度；

第一确定单元，用于基于计算单元计算结果，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度。

在一种可能的实现方式中，第一确定模块包括：获取单元以及第二确定单元；

获取单元，用于获取第一关键词集合以及第二关键词集合，第一关键词集合中包含目标文本信息的正文信息对应的至少一个关键词，第二关键词集合中包含任一待检测文本信息的正文信息对应的至少一个关键词；

第二确定单元，用于确定获取单元获取到的第一关键词集合以及第二关键词集合的相似度为目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

在一种可能的实现方式中，召回模块包括：第三确定单元、召回单元；

第三确定单元，用于基于预设文本相似度召回算法，按照预设索引格式分别确定各个文本信息以及目标文本信息的索引；

召回单元，用于依据各个文本信息以及目标文本信息分别对应的索引，从多个文本信息中召回至少一个待检测文本信息；

在一种可能的实现方式中，该装置还包括：修改模块；

修改模块，用于通过等比例的增加组数并相应的降低每组中的比特数，来修改预设索引格式；

第三确定单元，具体用于通过修改模块修改后的预设索引格式，分别确定各个文本信息以及目标文本信息的索引。

局部敏感哈希LSH算法；

最小哈希minHash算法；

Simhash算法。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面或者第一方面的任一种可能的实现方式所示的文本相似度检测方法。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现第一方面或者第一方面的任一种可能的实现方式所示的文本相似度检测方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种文本相似度检测的方法、电子设备及计算机可读存储介质，与现有技术中仅通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测相比，本申请通过基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，并基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。即本申请依次通过两个文本相似度算法，进行相似度检测，与仅通过Simhash进行相似度检测相比，可以提升文本相似度检测的准确度，进而可以提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种文本相似度检测的方法流程示意图；

图2为本申请实施例提供的一种文本相似度检测的装置的结构示意图；

图3为本申请实施例提供的一种文本相似度检测的电子设备的结构示意图；

图4为本申请实施例通过召回算法以及NLP算法进行文本相似检测的流程示意图；

图5为本申请实施例将目标文本信息通过三层级联框架，进行文本相似度检测的示意图；

图6为仅通过Simhash进行相似度检测的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

海量新闻、资讯、文档以及网页等文本相似性重复检测在工业界和学术界已经有比较多的学术研究，其中比较著名的也是在工业界应用比较多的是Simhash算法。其中，Simhash算法包括：Simhash值生成以及Simhash值检测两部分。其中Simhash值生成的过程包括5个步骤，分别为：步骤一、对各个进行相似度检测的文本信息分词；步骤二、对各个分词进行哈希(hash)计算；步骤三、分别对计算出的hash值进行加权；步骤四、将各个文本信息对应的加权后的hash值进行累加合并处理；步骤五、将累加合并后的值分别进行降维处理。

Simhash的重复性检测逻辑非常简单，只需要计算两个文本信息的汉明距离(Hamming distance)，是否不大于某个指定阈值θ_d，经验上根据对召回率和准确率的侧重不同可在区间[3，7]内取值。具体地，如图6所示，基于目标文本信息，并通过Simhash算法(索引为4*16)，召回N₁个待检测文本信息，然后通过汉明距离，分别检测目标文本信息与召回N₁个待检测文本信息是否相似。

基于此，Simhash算法可能存在以下问题：1、无法检测出标题非常相似但正文非常不相似的两篇文本信息，导致召回率低；2.Simhash生成时信息损失大，不相关的两篇文本信息也可能被误判相似，导致准确率不高，尤其是长短文本同时存在的应用场景。

为了解决上述问题，本申请实施例提供了一种文本相似度算法，即基于Simhash算法并结合自然语言处理(Natural Language Processing，NLP)技术的文本相似度检测算法。该算法即利用Simhash算法存储空间小、计算速度极快的优点，又结合基于NLP技术检测文本相似度的高准确率优势，设计了一个全新、高效的三层级联资讯内容相似重复检测算法。

新算法第一层优化了Simhash的生成计算和索引结构，从而可以大幅提升算法召回率；第二层通过对召回结果线性切分，使用局部最优加快整体算法框架的计算速度；第三层分别对文本信息(包括：资讯等)标题和正文使用基于NLP技术的重复检测，并通过结果融合达到显著提高准确率的目的。其中，在第三层的正文相似重复检测部分，一方面新算法使用IDF算法和堆排序等精准而高效地抽取K个关键词；另一方面通过数学推导，进一步优化了正文检测的时间效率。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种文本相似度检测的方法，如图1所示，该方法包括：

步骤S101、基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息。

对于本申请实施例，预设文本相似度召回算法可以包括：局部敏感哈希(Locality-Sensitive Hashing，LSH)算法、最小哈希minHash算法以及Simhash算法中的至少一项，或者还可以为shingle算法。在本申请实施例中，预设文本相似度召回算法还可以为其它基于hash的算法或者基于文本的高计算速度算法，在此并不限定。

对于本申请实施例，步骤S101中可以基于预设文本相似度召回算法，从多个文本信息中召回一个待检测文本信息，也可以召回多个待检测文本信息。在本申请实施例中不做限定。

步骤S102、基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与各个待检测文本信息之间的相似度。

步骤S103、基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。

对于本申请实施例，若步骤S101中仅召回一个待检测文本信息，则通过NLP技术的文本相似度检测算法，确定目标文本信息与召回的该待检测的文本信息是否相似；若步骤S101中召回多个待检测文本信息，则通过NLP技术的文本相似度检测算法，分别确定目标文本信息与召回的各个待检测的文本信息是否相似。

步骤S102、步骤S103中可以包括：基于NLP技术的文本相似度检测算法，确定目标文本信息与任一待检测文本信息之间的相似度，并基于确定结果确定目标文本信息与任一待检测文本信息是否相似，直至分别确定出目标文本信息与各个待检测文本是否相似。其中，基于自然语言处理NLP技术的文本相似度检测算法，确定所述目标文本信息与任一待检测文本信息之间的相似度，包括：步骤Sb(图中未示出)，在此不再赘述。

对于本申请实施例，如图4所示，当在历史积累的文本信息中确定与目标文本信息New_Si存在相似的文本信息时，利用预设文本相似度召回算法，从历史积累的文本信息中召回与该目标文本信息New_Si存在相似的文本信息(待检测文本信息)，得到待检测文本信息列表Recallist_i，然后使用不同的NLP算法(包括：标题(Title)检测、正文检测以及主题(Topic)检测)对New_Si以及Recallist_i中的文本信息中进行相似度检测，然后将检测结果融合输出。

本申请实施例提供了一种文本相似度检测的方法，与现有技术中仅通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测相比，本申请实施例通过基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，并基于确定结果，分别确定目标文本信息与各个待检测文本信息。即本申请实施例依次通过两个文本相似度算法，进行相似度检测，与仅通过Simhash进行相似度检测相比，可以提升文本相似度检测的准确度，进而可以提升用户体验。

本申请实施例的一种可能的实现方式，步骤S101可以包括：步骤S1011(图中未示出)以及步骤S1012(图中未示出)，其中，

步骤S1011、基于预设文本相似度召回算法，按照预设索引格式分别确定各个文本信息以及目标文本信息的索引。

其中，符合预设索引格式的索引由多个组以及每组中的比特数组成。

步骤S1012、依据各个文本信息以及目标文本信息分别对应的索引，从多个文本信息中召回至少一个待检测文本信息。

对于本申请实施例，以预设文本相似度召回算法为Simhash算法为例介绍本申请实施例。其中，预设索引格式可以为4*16，即符合预设索引格式的索引由4个组，每组中的比特数为16，则按照上述4*16的索引个数，召回至少一个待检测文本信息。

对于本申请实施例，通过等比例的增加组数并相应的降低每组中的比特数，来修改预设索引格式。在本申请实施例中，当通过等比例的增加组数并相应的降低每组中的比特数，来修改预设索引格式时，步骤S1011可以包括：通过修改后的预设索引格式，分别确定各个文本信息以及目标文本信息的索引。

例如，可以将通过4*16建立索引细分为通过8*8建立索引，也可以细分为通过16*4建立索引。

对于本申请实施例，通过等比例的增加组数并相应的降低每组中的比特数，来修改所述预设索引格式，可以在提高标题信息在生成Simhash时的权重信息W倍，以使得标题信息相似、正文信息不相似的文本信息可以被召回，提高了召回率。

本申请实施例的一种可能的实现方式，当从多个文本信息中召回多个待检测文本信息时，步骤S102之前还可以包括：步骤Sa(图中未示出)，步骤S102可以包括步骤S1021，其中，

步骤Sa、基于各个待检测文本信息与目标文本信息之间的距离，从多个待检测文本信息中筛选出第一预设个数的待检测文本信息。

对于本申请实施例，各个待检测文本信息与目标文本信息之间的距离可以为汉明距离、马氏距离、曼哈顿距离等。在本申请实施例中，以汉明距离为例进行介绍。

对于本申请实施例，若步骤S101中基于Simhash算法以及目标文本信息，从多个文本信息中召回多个待检测文本信息，由于在步骤S101中通过Simhash算法进行相似度计算时，已经计算出了各个待检测文本信息与目标文本信息之间的汉明距离，则步骤Sa中可以直接基于待检测文本信息与目标文本信息之间的汉明距离，从多个待检测文本信息中筛选出第一预设个数的待检测文本信息。具体的筛选方式详见步骤Sa1(图中未示出)以及步骤Sa2(图中未示出)，在此不再赘述。

对于本申请实施例，第一预设个数可以由用户预设设置，也可以由计算设备设置。在本申请实施例中不做限定。

步骤S1021、基于NLP技术的文本相似度检测算法，分别确定目标文本信息与第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。

例如，步骤S101中基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回N₂个待检测文本信息，步骤Sa中从N₂个待检测文本信息筛选出M个待检测文本信息，其中，M《N₂，则通过步骤Sa以及步骤S1021可以得到：通过NLP技术的文本相似度算法，计算相似度时，时间复杂度由O(N₂)下降为O(M)，时间复杂度大大下降，降低了计算成本。实际中，为了确保足够高的召回率M可以为200，但是对于M的取值不做限定。

对于本申请实施例，步骤S1021可以包括：基于NLP技术的文本相似度检测算法，检测目标文本信息与第一预设个数的待检测文本信息中任一待检测文本信息之间相似度，直至检测出目标文本信息与第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。其中，基于自然语言处理NLP技术的文本相似度检测算法，确定所述目标文本信息与任一待检测文本信息之间的相似度，包括：步骤Sb(图中未示出)，在此不在赘述。

本申请实施例的另一种可能的实现方式，步骤Sa具体可以包括：步骤Sa1(图中未示出)以及步骤Sa2(图中未示出)中至少一个，其中，

步骤Sa1、基于各个待检测文本信息与目标文本信息之间的距离，对各个待检测文本信息进行排序，并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息。

对于本申请实施例，步骤Sa1中的排序方式可以选用线性排序，堆排序等排序算法。

对于本申请实施例，基于N₂个待检测文本信息中各个待检测文本信息分别与目标文本信息之间的距离，对N₂个待检测文本信息按照特定的排序算法进行排序，并基于排序结果按照距离由小到大的顺序筛选出M个待检测文本信息。

例如，N₂为5，M为3，5个待检测文本信息(待检测文本信息1、待检测文本信息2、待检测文本信息3、待检测文本信息4以及待检测文本信息5)与目标文本信息之间的距离分别为1、3、2、6、4，则上述5个待检测文本信息按照从小到大进行排序依次为待检测文本信息1、待检测文本信息3、待检测文本信息2、待检测文本信息5以及待检测文本信息5，则筛选出的3个待检测文本信息分别为待检测文本信息1、待检测文本信息3、待检测文本信息2。

步骤Sa2、将多个待检测文本信息划分为多个部分，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从任一部分中筛选待检测文本信息，以使得从多个部分中筛选出的待检测文本信息的数量满足第一预设个数。

对于本申请实施例，将步骤S101中召回的多个待检测文本信息(N₂个待检测文本信息)，划分为多个部分，其中每个部分中包含至少一个待检测文本信息，针对任一部分，基于该部分中各个待检测文本信息与目标文本信息之间的汉明距离，从该部分中筛选待检测文本信息，以使得按照上述预设筛选原则从各个部分中筛选出的待检测文本信息的数量总和满足第一预设个数(M)。

例如，第一预设个数为3，步骤S101中召回5个待检测文本信息(待检测文本信息1、待检测文本信息2、待检测文本信息3、待检测文本信息4以及待检测文本信息5)，将该5个待检测文本信息划分为2个部分，分别为部分1以及部分2，其中部分1中包括待检测文本信息1、待检测文本信息2以及待检测文本信息4，部分2中包括待检测文本信息3以及待检测文本信息5，预设筛选原则可以为从部分1中按照距离由小到大筛选出2个待检测文本信息，从部分2中按照距离从小到大筛选出1个待检测文本信息，则按照该预设筛选原则，从部分1中筛选出待检测文本信息1以及待检测文本信息2，从部分2中筛选出待检测文本信息3，以使得从2个部分中筛选出的待检测文本信息的数量为3。

下述详细介绍一种可能的实现方式，即将步骤S101中召回的待检测文本信息划分为第一预设个数的部分(M个部分)，并从M个部分的各个部分中筛选出该部分中与目标文本信息距离最小的待检测文本信息，具体如下所示：

本申请实施例的另一种可能的实现方式，步骤Sa2中按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从任一部分中筛选待检测文本信息，包括：按照任一部分中各个待检测文本信息与目标文本信息之间的距离，筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。

例如，第一预设个数为3，步骤S101中召回5个待检测文本信息(待检测文本信息1、待检测文本信息2、待检测文本信息3、待检测文本信息4以及待检测文本信息5)，则将5个待检测文本信息划分为3个部分，分别为部分1、部分2以及部分3，其实，部分1中包括：待检测文本信息1以及待检测文本信息5，部分2中包括：待检测文本信息2以及待检测文本信息4，部分3中包括：待检测文本信息3，其中，部分1中与目标文本信息之间的距离最小的待检测文本信息为待检测文本信息1，部分2中与目标文本信息之间的距离最小的待检测文本信息为待检测文本信息2，部分3中仅包括1个待检测文本信息，则筛选的待检测文本信息分别为待检测文本信息1、待检测文本信息2以及待检测文本信息3。

对于本申请实施例，通过待检测文本信息划分为多个部分，其中每个部分中包含至少一个待检测文本信息，针对任一部分，基于该部分中各个待检测文本信息与目标文本信息之间的汉明距离，从该部分中筛选待检测文本信息，以使得按照上述预设筛选原则从各个部分中筛选出的待检测文本信息的数量总和满足第一预设个数(M)，其中针对具备时效性的新闻、资讯等文本信息，由于在一段较近时间内，新闻或者资讯的内容均相差不大，进行相似度检测的意义不大，上述方式可以避免从时间距离较近的新闻或者资讯中进行相似度检测，节省计算成本，提升相似度检测的准确度，进而可以提升用户体验。

在上述实施例的基础上，目标文本信息与任一待检测文本信息之间的相似度包括：目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度以及目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度；因此基于自然语言处理NLP技术的文本相似度检测算法，确定目标文本信息与任一待检测文本信息之间的相似度，包括：步骤Sb(图中未示出)，其中，

步骤Sb、基于NLP技术的文本相似度检测算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

对于本申请实施例，基于目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，以及目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度，确定目标文本信息与任一待检测文本信息是否相似。

对于本申请实施例，基于NLP技术的文本相似度检测算法，确定目标文本信息与任一待检测文本信息是否相似，主要通过确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，目标文本信息的正文信息与任一待检测文本信息的正文信息是否相似；还可以根据目标文本信息的主题信息与任一待检测文本信息的主题信息是否相似。

本申请实施例的一种可能的实现方式，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，包括：计算目标文本信息的标题信息与任一待检测文本信息的标题信息的字面相似度以及语义相似度；基于计算结果，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度。

对于本申请实施例，目标文本信息New_Si，该任一待检测文本信息New_Sj，计算New_Si的标题信息Title_i与计算New_Sj的标题信息Title_j的字面相似度Sim_tw以及语义相似度Sim_ts；若W_tw*Sim_tw+W_ts*Sim_ts≥θ_t，则确定Title_i与Title_j相似，反之W_tw*Sim_tw+W_ts*Sim_ts<θ_t，则确定Title_i与Title_j不相似。其中，W_tw、W_ts为权重信息，θ_t为标题相似度阈值。在本申请实施例中，W_tw、W_ts、θ_t可以实验结果确定。

可以理解的是，对于本领域技术人员来说，任何计算字面相似度以及语义相似度的方式均包含在本申请实施例中，在此不再赘述。

本申请实施例的一种可能的实现方式，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度，包括：获取第一关键词集合以及第二关键词集合；确定第一关键词集合以及第二关键词集合的相似度为目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

其中，第一关键词集合中包含目标文本信息的正文信息对应的至少一个关键词，第二关键词集合中包含任一待检测文本信息的正文信息对应的至少一个关键词。

对于本申请实施例，基于第一关键词集合以及第二关键词集合的相似度确定目标文本信息的正文信息与任一待检测文本信息的正文信息是否相似。

对于本申请实施例，目标文本信息的正文信息为Body_i，该任一待检测文本信息的正文信息为Body_j，从Body_i中抽取K个关键词集合S_i，并获取Body_j的K个关键词集合S_j，然后计算S_i以及S_j的相似度，例如可以为Jaccard相似度J(S_i,S_j)，若J(S_i,S_j)≥θ_b，则确定目标文本信息的正文信息Body_i与该任一待检测文本信息的正文信息Body_j相似；J(S_i,S_j)＜θ_b，则确定目标文本信息的正文信息Body_i与该任一待检测文本信息的正文信息Body_j不相似。其中，θ_b为正文相似度阈值。

在本申请实施例中，S_i以及S_j的相似度还可以为余弦相似度Cosine或者其它文本相似度衡量指标。

进一步地，在进行通过下述公式(1)确定S_i的正文信息Body_i以及S_j的正文信息Body_j是否相似。

其中，

即S_i的正文信息Body_i以及S_j的正文信息Body_j的交集元素的个数是否不小于常量以确定S_i的正文信息Body_i以及S_j的正文信息Body_j是否相似。

其中，公式(1)的具体推导过程(以Jaccard相似度J(S_i,S_j)为例介绍)如下所示：

即通过公式(2)、公式(3)、公式(4)推导出公式(1)，其中，K和θ_b是基于离线实验确定的。

对于本申请实施例，通过预设关键词抽取算法从文本信息的正文信息(目标文本信息的正文信息或者该任一待检测文本信息的正文信息)中抽取关键词。在本申请实施例中，预设关键词抽取算法可以包括：逆向文件频率(inverse document frequency，IDF)算法、词频-逆向文件频率(term frequency–inverse document frequency，TF-IDF)算法等抽取关键词算法。其中，TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，TF意思是词频，IDF意思是逆文本频率指数；IDF是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。

下述以IDF算法为例，介绍关键词的抽取方式：离线基于大量文本信息语料计算一份约36万个单词的IDF字典，对正文信息(例如，目标文本的正文信息)进行分词后，遍历所有分词使用堆排序筛选出K个IDF值最大的分词作为关键词集合。其中，时间复杂度为O(N*log(K))，N为正文信息的分词总数。

对于本申请实施例，步骤Sb中基于NLP技术的文本相似度检测算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度，因此基于确定结果，可以确定目标文本信息与任一待检测文本信息是否相似。

对于本申请实施例，基于步骤Sb中目标文本信息的正文信息与该任一文本信息的正文信息之间的相似度，以得到是否相似的确定结果，以及目标文本信息的标题信息与该任一文本信息的标题信息之间的相似度，以得到是否相似的确定结果，进而确定目标文本信息与任一待检测文本信息是否相似。在本申请实施例中，通过NLP技术的文本相似度检测算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，以及基于NLP技术的文本相似度检测算法，确定目标文本信息的正文信息与任一待检测文本信息的正文信息是否相似，并基于上述确定结果，确定目标文本信息与任一待检测文本信息是否相似，可以提高相似重复检测的准确度，减少误判，并且可以提高计算效率。

对于本申请实施例，当目标文本信息的标题信息与任一待检测文本信息的标题信息相似(即目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件)，则确定结果记为P，反之不相似(反之不满足相似条件)，则确定结果记为N；当目标文本信息的正文信息与任一待检测文本信息的标题信息相似(即目标文本信息的正文信息与任一待检测文本信息的标题信息之间的相似度满足相似条件)，则确定结果记为P，反之不相似(反之不满足相似条件)，则确定结果记为N，因此当确定结果同为P，则输出P(目标文本信息与该任一待检测文本信息相似)，具体详见步骤Sc1(图中未示出)；当确定结果同为N，则输出N(目标文本信息与该任一待检测文本信息不相似)，具体详见步骤Sc2(图中未示出)；当标题信息的确定结果为N，正文信息的输出结果为P，则输出P(目标文本信息与该任一待检测文本信息相似)，具体详见步骤Sc3(图中未示出)；当标题信息的确定结果为P，正文信息的输出结果为N，则需要对目标文本信息的标题信息以及该任一待检测文本信息的标题信息进行进一步检测，具体详见步骤Sc4(图中未示出)：

本申请实施例的另一种可能的实现方式，基于确定结果，确定所述目标文本信息与所述任一待检测文本信息是否相似，具体可以包括：步骤Sc1(图中未示出)、步骤Sc2(图中未示出)、步骤Sc3(图中未示出)以及步骤Sc4图中未示出)，其中，

步骤Sc1、若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定目标文本信息与任一待检测文本信息相似。

步骤Sc2、若目标文本的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定目标文本信息与任一待检测文本信息相似。

步骤Sc3、若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似，则确定目标文本信息与任一待检测文本信息不相似。

步骤Sc4、若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件，则基于目标文本信息的标题信息与任一待检测文本信息的标题信息，并通过实体识别算法以及依存句法分析算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，并基于确定结果，确定目标文本信息与任一待检测文本信息是否相似。

对于本申请实施例，由于标题信息相对于正文信息所提供的信息量较少，可能会出现误判断，再者由于基于目标文本信息的标题信息与任一待检测文本信息的标题信息，并通过实体识别算法以及依存句法分析算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，计算比较耗时，因此为了整体计算时间以及计算成本，在目标文本信息的标题信息与任一待检测文本信息的标题信息相似，且目标文本信息的正文信息与任一待检测文本信息的正文信息不相似时，才通过实体识别算法以及依存句法分析算法进行进一步检测。在本申请实施例中，实体识别算法用于识别文本中具有特定意义的实体的算法，如人名、机构名、地名等专有名词和有意义的时间等，是信息检索、问答系统等技术的基础任务；依存句法分析是将句子分析成一颗依存句法树，描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。

基于上述方法实施例，如图5所示，将目标文本信息通过三层级联框架，进行文本相似度检测，第一层为将目标文本信息通过预设文本相似度召回算法(例如Simhash算法，并将Simhash建立的索引进行细分(8*8))，召回N₂个待检测文本信息，然后通过第二层算法筛选出M个待检测文本信息(例如通过局部最优线性时间筛选出M个待检测文本信息)，然后通过第三层算法，即将目标文本信息分别与M个待检测文本信息进行标题相似度检测以及正文相似度检测，并将标题相似度检测结果以及正文相似度检测的结果进行融合，得到目标文本信息与各个待检测文本信息是否相似。其中，在进行正文相似度检测时，可以基于IDF或者TF-IDF从正文信息中抽取K个关键词，得到关键词集合，并基于目标文本信息关键词集合与待检测文本信息分别对应的关键词集合，确定正文信息的是否相似。

对于本申请实施例，与现有技术中Simhash文本相似度检测方式，如图6所示相比，第一层算法大大提高了召回率(当索引由4*16细分为8*8时，N2≈2*N₁)，第二层算法可以加速文本相似检测计算(N2≈2*N₁>>M)，第三层算法可以提高相似度检测的准确率。

以上为本申请实施例提供的文本相似度检测的方法的一些具体实现方式，基于此，本申请实施例还提供了一种文本相似度检测装置。接下来，将结合附图，从功能模块化的角度对本申请实施例提供的文本相似度检测的装置进行介绍。

本申请实施例提供的一种文本相似度检测装置的结构示意图，如图2所示，本实施例的装置20可以包括：召回模块21、第一确定模块22、第二确定模块23，其中，

召回模块21，用于基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息。

第一确定模块22，用于基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与召回模块21召回的各个待检测文本信息之间的相似度。

第二确定模块23，用于基于第一确定模块22的确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。

本申请实施例的一种可能的实现方式，当从多个文本信息中召回多个待检测文本信息时，该装置20还包括：筛选模块，其中，

筛选模块，用于基于召回模块21召回的各个待检测文本信息与目标文本信息之间的距离，从多个待检测文本信息中筛选出第一预设个数的待检测文本信息。

第一确定模块22，具体用于基于NLP技术的文本相似度检测算法，分别确定目标文本信息与第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。

本申请实施例的一种可能的实现方式，筛选模块，具体用于基于各个待检测文本信息与目标文本信息之间的距离，对各个待检测文本信息进行排序，并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息，和/或，将多个待检测文本信息划分为多个部分，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从任一部分中筛选待检测文本信息，以使得从多个部分中筛选出的待检测文本信息的数量满足第一预设个数。

本申请实施例的另一种可能的实现方式，筛选模块，具体还用于按照任一部分中各个待检测文本信息与目标文本信息之间的距离，筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。

本申请实施例的另一种可能的实现方式，目标文本信息与任一待检测文本信息之间的相似度包括：目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度以及目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度；第一确定模块22，具体用于基于NLP技术的文本相似度检测算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。

本申请实施例的另一种可能的实现方式，第二确定模块23，具体还用于当目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件时，确定目标文本信息与任一待检测文本信息相似。

第二确定模块23，具体还用于当目标文本的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件时，确定目标文本信息与任一待检测文本信息相似。

第二确定模块23，具体还用于当目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件时，确定目标文本信息与任一待检测文本信息不相似。

第二确定模块23，具体还用于当目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件，且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件时，基于目标文本信息的标题信息与任一待检测文本信息的标题信息，并通过实体识别算法以及依存句法分析算法，确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似，并基于确定结果，确定目标文本信息与任一待检测文本信息是否相似。

对于本申请实施例，第一确定模块22与第二确定模块23可以为同一个确定模块，也可以为不同的确定模块，并不限定于图2所示的方式。

本申请实施例的另一种可能的实现方式，第一确定模块22包括：计算单元以及第一确定单元，其中，

计算单元，用于计算目标文本信息的标题信息与任一待检测文本信息的标题信息的字面相似度以及语义相似度。

本申请实施例的另一种可能的实现方式，第一确定模块22包括：获取单元以及第二确定单元，其中，

获取单元，用于获取第一关键词集合以及第二关键词集合。

对于本申请实施例，第一确定单元与第二确定单元可以同一个确定单元，还可以为不同的确定单元。在本申请实施例中不做限定。

本申请实施例的另一种可能的实现方式，召回模块21包括：第三确定单元、召回单元，其中，

第三确定单元，用于基于预设文本相似度召回算法，按照预设索引格式分别确定各个文本信息以及目标文本信息的索引。

召回单元，用于依据各个文本信息以及目标文本信息分别对应的索引，从多个文本信息中召回至少一个待检测文本信息。

本申请实施例的另一种可能的实现方式，该装置20还包括：修改模块，其中，

本申请实施例的另一种可能的实现方式，所述预设文本相似度召回算法包括以下至少一项：

局部敏感哈希LSH算法；

最小哈希minHash算法；

Simhash算法。

本申请实施例提供了一种文本相似度检测的装置，与现有技术中仅通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测相比，本申请实施例通过基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，并基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。即本申请实施例依次通过两个文本相似度算法，进行相似度检测，与仅通过Simhash进行相似度检测相比，可以提升文本相似度检测的准确度，进而可以提升用户体验。

本实施例的文本相似度检测的装置可执行上述方法实施例提供的一种文本相似度检测的方法，其实现原理相类似，此处不再赘述。

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

对于本申请实施例，该电子设备可以为终端设备，也可以为服务器，也可以由终端设备以及服务器协同实现上述方法实施例所示的内容。在本申请实施例中不做限定。

其中，终端设备可以包括但不限于：手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备。

本申请实施例提供了一种电子设备，与现有技术中仅通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测相比，本申请实施例通过基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，并基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。即本申请实施例依次通过两个文本相似度算法，进行相似度检测，与仅通过Simhash进行相似度检测相比，可以提升文本相似度检测的准确度，进而可以提升用户体验。

本实施例的电子设备可执行上述方法实施例提供的一种文本相似度检测的方法，其实现原理相类似，此处不再赘述。

本申请实施例提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述方法实施例所示的文本相似度检测方法。

本申请实施例提供了一种计算机可读存储介质，与现有技术中仅通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测相比，本申请实施例通过基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，并基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。即本申请实施例依次通过两个文本相似度算法，进行相似度检测，与仅通过Simhash进行相似度检测相比，可以提升文本相似度检测的准确度，进而可以提升用户体验。

本申请实施例提供了一种计算机可读存储介质适用于上述方法任一实施例。在此不再赘述。

上述提供的文本相似度检测的方法、装置、电子设备及计算机可读存储介质可以适用于各种检测文本相似度的应用场景，包括但不限于下述应用场景：1)证券行业资讯个性化推荐需要对相似资讯去重；2)证券行业个股新闻栏目展示自媒体资讯时需要相似去重；3)证券资讯相关新闻卡页需要去重过于相似；4)证券以及其它行业新闻资讯编辑在资讯管理时的操作参考(对转载、资讯标题或正文部分修改等情况的识别)；5)所有包含标题和正文两部分的文档，需要进行相似重复文档检测的场景。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本相似度检测的方法，其特征在于，包括：

基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度；

基于确定结果，分别确定所述目标文本信息与各个待检测文本信息是否相似。

2.根据权利要求1所述的方法，其特征在于，当从多个文本信息中召回多个待检测文本信息时，

所述基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，之前还包括：

基于各个待检测文本信息与所述目标文本信息之间的距离，从所述多个待检测文本信息中筛选出第一预设个数的待检测文本信息；

所述基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，包括：

基于NLP技术的文本相似度检测算法，分别确定所述目标文本信息与所述第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述基于各个待检测文本信息与所述目标文本信息之间的距离，从所述多个待检测文本信息中筛选出第一预设个数的待检测文本信息，包括以下至少一项：

基于所述各个待检测文本信息与所述目标文本信息之间的距离，对各个待检测文本信息进行排序，并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息；

将所述多个待检测文本信息划分为多个部分，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从所述任一部分中筛选待检测文本信息，以使得从所述多个部分中筛选出的待检测文本信息的数量满足第一预设个数。

4.根据权利要求3所述的方法，其特征在于，所述按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从所述任一部分中筛选待检测文本信息，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述目标文本信息与任一待检测文本信息之间的相似度包括：所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度以及所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度；

基于自然语言处理NLP技术的文本相似度检测算法，确定所述目标文本信息与任一待检测文本信息之间的相似度，包括：

基于NLP技术的文本相似度检测算法，确定所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度。

6.根据权利要求5所述的方法，其特征在于，基于确定结果，确定所述目标文本信息与所述任一待检测文本信息是否相似，包括：

若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度满足相似条件，且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定所述目标文本信息与所述任一待检测文本信息相似；

若所述目标文本的标题信息与所述任一待检测文本信息的标题信息之间的相似度不满足相似条件，且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定所述目标文本信息与所述任一待检测文本信息相似；

若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度不满足相似条件，且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度不满足相似，则确定所述目标文本信息与所述任一待检测文本信息不相似；

若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度满足相似条件，且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度不满足相似条件，则基于所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息，并通过实体识别算法以及依存句法分析算法，确定所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息是否相似，并基于确定结果，确定所述目标文本信息与所述任一待检测文本信息是否相似。

7.根据权利要求5所述的方法，其特征在于，确定所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度，包括：

计算所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息的字面相似度以及语义相似度；

根据计算结果，确定所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度。

8.根据权利要求5-7任一项所述的方法，其特征在于，确定所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度，包括：

获取第一关键词集合以及第二关键词集合，所述第一关键词集合中包含所述目标文本信息的正文信息对应的至少一个关键词，所述第二关键词集合中包含所述任一待检测文本信息的正文信息对应的至少一个关键词；

确定所述第一关键词集合以及所述第二关键词集合的相似度为所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度。

9.根据权利要求1所述的方法，其特征在于，所述基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，包括：

符合所述预设索引格式的索引由多个组以及每组中的比特数组成。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

通过等比例的增加组数并相应的降低每组中的比特数，来修改所述预设索引格式；

所述按照预设索引格式分别确定各个文本信息以及目标文本信息的索引，包括：

11.根据权利要求1所述的方法，其特征在于，所述预设文本相似度召回算法包括以下至少一项：

局部敏感哈希LSH算法；

最小哈希minHash算法；

Simhash算法。

12.一种文本相似度检测的装置，其特征在于，包括：

第一确定模块，用于基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与所述召回模块召回的各个待检测文本信息之间的相似度；

第二确定模块，用于基于所述第一确定模块的确定结果，分别确定所述目标文本信息与各个待检测文本信息是否相似。

13.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～11任一项所述的文本相似度检测方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的文本相似度检测方法。