CN113255369B

CN113255369B - 文本相似度分析的方法、装置及存储介质

Info

Publication number: CN113255369B
Application number: CN202110651197.5A
Authority: CN
Inventors: 方俊波
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-02-03
Anticipated expiration: 2041-06-10
Also published as: CN113255369A

Abstract

本申请提供了一种文本相似度检测的方法、装置及存储介质，适用于大数据技术领域。其中，该文本相似度检测的方法，主要包括：获取与基础文本中基础段落相似度最高的一个或多个比对段落；然后，对基础段落和比对段落进行切词获取短语块，并计算各个短语块之间的最小编辑距离；再对最小编辑距离非零的短语块计算余弦相似度，确定两文本的相似内容。该方法通过对文本中表达不同的短语块进行语义相似度分析，能够获得更加准确的文本相似度检测结果。

Description

文本相似度分析的方法、装置及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种文本相似度检测的方法、装置及存储介质。

背景技术

目前，由多个字符所组成的文本已成为一种十分重要的信息载体。文本间相似度的计算，作为一种文本处理中所经常使用的方法，被应用于文本聚类、文本检索、数据挖掘等诸多应用场合。

现有的一种文本相似度的计算方式为：先分别对两个长文本进行切词，并获取切词后的切词，然后根据切词中的字符组成确定两文本中各切词间的相似度，进而根据所得到的相似度以及词频计算文本的整体相似度。

然而，现有的文本相似度的计算方式主要将表达相同的内容标记为相似内容，无法消除语义一致，但表达方式不一致的差异化影响，使得文本相似度的准确率较低。

发明内容

有鉴于此，本申请实施例提供了一种文本相似度检测的方法、装置及存储介质，以解决现有的文本相似性检测方式中无法对表达不同的内容进行语义检测，使得相似度检测结果准确性低的问题。

本申请实施例的第一方面提供了一种文本相似度检测的方法方法，包括：获取输入的基础文本和比对文本，所述基础文本包括至少一个基础段落，所述比对文本包括至少一个比对段落；根据所述基础段落和所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块；计算所述基础短语块和所述比对短语块之间的最小编辑距离；当所述最小编辑距离为0时，输出所述基础短语块和所述比对短语块为相似词对；当所述最小编辑距离不为0时，计算所述基础短语块和所述比对短语块的余弦相似度，且当所述余弦相似度大于预设阈值时，输出所述基础短语块和所述比对短语块为相似词对。

根据本申请实施例提供的文本相似性检测的方法，通过对待检测的基础文本和比对文本中表达不同的短语块进行语义相似度分析，获得更加准确的文本相似度，并且通过对两个文本中相似通融进行联动显示，为用户查看相似内容提供便利，提升用户对相似内容的查看体验。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：根据分段识别符分别识别所述基础段落和所述比对段落；将所述基础段落和所述比对段落输入孪生网络；根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落，N为大于或等于1的整数。

根据本申请实施例提供的文本相似度检测的方法，通过对基础文本和比对文本进行段落划分，相似度检测模型可以逐段读取数据，以便按照段落比对相似内容，避免按照整个长文本比对内容导致的比对效率低的问题。

结合第一方面，在第一方面的某些实现方式中，所述根据所述基础段落和所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块，具体包括：根据所述基础段落和所述基础段落对应的相似度最高的N个所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块。

根据本申请实施例提供的文本相似度检测的方法，通过本步骤中对基础段落和比对段落进行切词，获取多个的短语块，可以便于后续针对这些短语块进行相似度检测，细化了相似度检测的粒度，使相似度检测结果可以具体至行内的单个词语，相似度检测结果准确性更高。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：根据所述相似词对，对所述基础文本和所述比对文本中的目标内容进行联动显示。

结合第一方面，在第一方面的某些实现方式中，所述根据所述相似词对，对所述基础文本和所述比对文本中的目标内容进行显示，具体包括：根据所述相似词对，对所述基础文本和所述比对文本中的所述相似词对进行联动显示；或者，根据所述相似词对，对所述基础文本和所述比对文本中的差异内容进行联动显示。

其中，差异内容是指比对文本中不存在该内容的相似内容。

可选地，可以根据相似词对在文本中所占的比例确定对相似词对进行联动显示，或者对差异内容进行显示。比如，针对两份相似度很高的文本，如果进行相似词对的联动显示，则用户可能需要一一查看大量的相似词对，效率较低，此时则可以适应性地采用显示差异内容的模式，仅对两份文本中少量的差异内容进行显示，从而提高用户查看的效率。

结合第一方面，在第一方面的某些实现方式中，显示相似度检测结果界面，所述相似度检测结果界面包括基础文本显示区域和比对文本显示区域；所述根据所述相似词对，对所述基础文本和所述比对文本中的所述相似词对进行联动显示，具体包括：当选中所述相似词对中的基础短语块时，所述比对文本显示区域自动定位至所述相似词对中的比对短语块；或者，当选中所述基础短语块时，所述基础短语块和与所述基础短语块相似的比对词语显示相同的显示标识符。

可选地，根据相似词对对差异内容进行联动显示的方式可以为：对差异内容显示相同的标记。

根据本申请实施例提供的文本相似度检测的方法，通过对两个文本中相似通融进行联动显示，为用户查看相似内容提供便利，提升用户对相似内容的查看体验。

结合第一方面，在第一方面的某些实现方式中，所述对所述相似词对进行联动显示，具体包括：显示相似度检测结果界面，所述相似度检测结果界面包括基础文本显示区域和比对文本显示区域；当选中所述相似词对中的基础短语块时，所述比对文本显示区域自动定位至所述相似词对中的比对短语块；或者，当选中所述基础短语块时，所述基础短语块和与所述基础短语块相似的比对词语显示相同的显示标识符。

结合第一方面，在第一方面的某些实现方式中，当所述基础文本和所述比对文本的格式不相同时，将所述基础文本和所述比对文本转换为相同的格式。

第二方面，提供了一种文本相似度检测的装置，包括：接收模块，用于获取输入的基础文本和比对文本，所述基础文本包括至少一个基础段落，所述比对文本包括至少一个比对段落；切词模块，用于根据所述基础文本和所述比对文本进行切词，获取所述基础文本对应的多个基础短语块，以及所述比对文本对应的比对短语块；处理模块，用于计算所述基础短语块和所述比对短语块之间的最小编辑距离；输出模块，用于当所述最小编辑距离为0时，输出所述基础短语块和所述比对短语块为相似词对；所述处理模块，还用于当所述最小编辑距离不为0时，计算所述基础短语块和所述比对短语块的余弦相似度；所述输出模块，还用于当所述余弦相似度大于预设阈值时，输出所述基础短语块和所述比对短语块为相似词对。

结合第二方面，在第二方面的某些实现方式中，处理模块，还用于根据分段识别符分别识别所述基础段落和所述比对段落；将所述基础段落和所述比对段落输入孪生网络；根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落，N为大于或等于1的整数。

结合第二方面，在第二方面的某些实现方式中，处理模块，还用于根据所述基础段落和所述基础段落对应的相似度最高的N个所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块。

结合第二方面，在第二方面的某些实现方式中，所述装置还包括显示模块，所述显示模块用于根据所述相似词对，对所述基础文本和所述比对文本中的目标内容进行联动显示。

结合第二方面，在第二方面的某些实现方式中，所述显示模块，具体用于根据所述相似词对，对所述基础文本和所述比对文本中的所述相似词对进行联动显示；或者，根据所述相似词对，对所述基础文本和所述比对文本中的差异内容进行联动显示。

结合第二方面，在第二方面的某些实现方式中，所述显示模块，具体用于显示相似度检测结果界面，所述相似度检测结果界面包括基础文本显示区域和比对文本显示区域；当选中所述相似词对中的基础短语块时，所述比对文本显示区域自动定位至所述相似词对中的比对短语块；或者，当选中所述基础短语块时，所述基础短语块和与所述基础短语块相似的比对词语显示相同的显示标识符。

结合第二方面，在第二方面的某些实现方式中，所述处理模块还用于当所述基础文本和所述比对文本的格式不相同时，将所述基础文本和所述比对文本转换为相同的格式。

第三方面，提供了一种文本相似度检测的装置，包括：至少一个处理器；至少一个存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器调用时，使得第一方面中任一实现方式所述的方法得以实现。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序指令，当所述计算机程序指令被计算机执行时，使得第一方面中任一实现方式所述的方法得以实现。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A和图1B是本申请实施例提供的一些文本的示意图；

图2A和图2B是本申请实施例提供的一些文本相似度检测过程中涉及的图形用户界面示意图；

图3是本申请实施例提供的一种文本相似度检测的方法的实现流程图；

图4A和图4B是本申请实施例提供的一些对文本中段落后整合成的列表的示意图；

图5是本申请实施例提供的一种字符串向量示意图；

图6是本申请实施例提供的一种孪生网络的结构示意图；

图7是本申请实施例提供的一种文本相似度检测装置的结构示意图；

图8是本申请实施例提供的另一种文本相似度检测装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如背景技术介绍，现有的检测方法中，通常只将表达相同的词语标记为相似词对，而对于一些表达不完全相同，但语义相同或相似的词对未进行标记，这样就容易导致遗漏相同或相似语义的词对，导致文件相似度检测结果不准确。另外，现有的文本相似度检测的方法，相似内容的展示形式受限，如仅能对相似词语进行简单的显示，无法实现不同文件中相似词语之间的联动显示，从而导致不利于用户便捷地查找相似语句，影响用户的相似度查询体验。

针对上述问题，本申请实施例提供了一种文本相似度检测的方法，通过对待检测的基础文本和比对文本中表达不同的短语块进行语义相似度分析，获得更加准确的文本相似度，并且通过对两个文本中的相似内容进行联动显示，为用户查看相似内容提供便利，提升用户对相似内容的查看体验。

为了更清楚地理解本申请实施例提供的文本相似度检测的方法，下文对涉及的术语定义以及操作的实现原理进行介绍。

1、文本

指书面语言的表现形式，通常来说，一个文本可以是一个句子、一个段落或一个篇章。在本申请实施例中，一个文本可以包括多个字符串，其中，字符串中的字符可以包括以下至少一种：中文字符、英文字符、数字字符和标点字符等。本申请实施例中的文本的格式可以包括多种类型，例如txt格式、doc格式、PDF格式等；文本还可以为图片，图片的格式例如可以包括bmp格式、jpg格式、png格式等。为便于区分，本申请实施例将待检测的文本记为基础文本，将用于做相似度比对的文本记为比对文本。

2、相似词对

是指待检测的基础文本与用于做比对的比对文本中具有相同字符的字符串(如单词、词语等，以下统称为短语块)，或者基础文本与比对文本中具有不同的字符但具有相同的语义的短语块。例如，基础文本中的“合同”与比对文本中的“合同”具有相同的字符，因此两个短语块构成相似词对；基础文本中的“审判员”和比对文本中的“裁判员”具有不完全相同的字符，但其语义相似，因而也可以构成相似词对。

3、孪生网络(Siamese network)

是指由具有相同网络结构以及网络参数的两个子网络构成的网络。孪生网络又称连体网络，是一种特殊类型的神经网络架构。该神经网络可以由两个输入样本分别进入两个子网络，这两个子网络可以分别将输入样本映射到新的空间，形成输入样本在新的空间中的表示。之后，通过损失函数(constructive loss)的计算，获得两个输入样本的相似度，因此，孪生网络也可以理解为一种相似性测量方式。

4、编辑距离

是指针对两个短语块(如中文词语、英文单词等)的差异程序的量化量测，量测方式主要分析需要多少次的操作才能将一个字符串变成另一个字符串。以下对本申请实施例中涉及到的最小编辑距离计算原理进行介绍。

通常来说，在计算编辑距离的过程中，可以对两个短语块中的任意一个进行以下三种操作：(1)插入一个字符；(2)删除一个字符；(3)替换一个字符。例如，短语块A为cats，短语块B为cat，则可以删除短语块A最后一个字符s，使cats变为与cat相同的字符串；也可以在短语块B最后插入字符s，使cat变为与cats相同的字符串，其中，对短语块A删除一个字符和对单词B插入一个字符的操作是等价的。

以短语块“HORSE”和短语块“ROS”为例，对最小编辑距离的计算原理进行介绍。

首先，分别获取短语块HORSE和短语块ROS通过上述三种操作计算的编辑距离edit(HORSE，ROS)，过程如下：

(1)插入一个字符：假设已获知HORSE到RO的编辑距离为a，那么接下来由HORSE到ROS的编辑距离不会超过a+1。之所以不会超过a+1，是因为可以先经过a次操作将HORSE变为与RO相同的字符串，之后再经过额外的一次操作，在RO最后插入一个字符S，由RO变为ROS。

(2)删除一个字符：假设已获知HORS到ROS的编辑距离为b，那么短语块HORSE变至短语块ROS的编辑距离不会超过b+1。之所以不会超过b+1，是因为可以先经过b次操作将HORSE变为与ROSE相同的字符串，之后再经过额外的一次操作，删除ROSE的最后一个字符S，由ROSE变为ROS。

(3)替换一个字符：假设已获知HORS到RO的编辑距离为c，那么短语块HORSE变至短语块ROS的编辑距离不会超过c+1。之所以不会超过c+1，是因为可以先经过c次操将HORSE变为与ROE相同的字符串，之后再经过额外的1次操作，将ROE的最后一个字符替换为S，由ROE变为ROS。

之后，选取三种操作下获取的编辑距离的最小值作为短语块HORSE和ROS之间的最小编辑距离，也即edit(HORSE，ROS)＝min{a+1，b+1，c+1}。

具体地，以短语块HORSE与ROS为例，结合表1至表5对上述原理进行更具体地说明：如表1所示，假设HORSE和ROS的第0个字符均用#表示，则在表1中，HORSE中各个字符(#、H、O、R、S、E)与ROS的第0个字符(#)之间的最小编辑距离如长框中的数值所示，此时Edit(i，0)＝i，i可以用于表示字符串HORSE的长度。

表1

参照表2，在表1计算的最小编辑距离的结果的基础上，进一步计算ROS中各个字符(R、O、S)与HORSE第0个字符(#)之间的最小编辑距离Edit(0，j)，该最小编辑距离如表2的长框中的数值所示，此时Edit(0，j)＝j，j可以用于表示字符串ROS的长度。

表2

参照表3，在表2计算结果的基础上，进一步计算HORSE的第一个字符(H)和ROS的第一个字符(R)之间的最小编辑距离Edit(1，1)，按照上述介绍的计算最小编辑距离的原理可以得知，此时Edit(1，1)＝min{Edit(1，0)+1，Edit(0，1)+1，Edit(0，0)+1}＝1。

表3

类似地，参照表4，为HORSE中的第1个字符(H)与ROS中的第2个字符(O)之间的最小编辑距离Edit(1，2)，按照上述介绍的计算最小编辑距离的原理可以得知：Edit(1，2)＝min{Edit(0，2)+1，Edit(1，1)+1，Edit(0，1)+1}＝2，也即计算Edit(1，2)实质上包括以下几种方式：(1)在HORSE的第0个字符(#)与ROS的第2个字符(O)的最小编辑距离的基础上加1；(2)在HORSE的第1个字符(H)与ROS的第1个字符(R)的最小编辑距离的基础上加1；(3)在HORSE的第0个字符(#)与ROS的第1个字符(R)的最小编辑距离的基础上加1。以上三种方式计算结果中的最小值即为H和RO的最小编辑距离。

表4

之后，按照表1至表4中的方式遍历计算HORSE和ROS中每个字符之间的最小编辑距离，就可以得出基础短语块和比对短语块各个字符之间的最小编辑距离(如表5所示)，从而得出HORSE和ROS的最小编辑距离。

表5

E	5	4	4	3
					S	4	3	3	2
R	3	2	2	2
					O	2	2	1	2
H	1	1	2	3
					#	0	1	2	3
	#	R	O	S

本申请实施例提供的文本检测的方法可以由多种类型的电子设备作为主体执行，例如手机、个人电脑(personal computer，PC)、平板电脑等，本申请对此不作限定。

本申请实施例提供的文本相似度检测的方法可以应用于多种类型的文本相似度检测的场景中，如智慧政务场景等；并且可以适用于多种文本类型的相似度检测，如合同、论文、期刊文章等相似度的检测，本申请实施例对此不作限定。以下以合同相似度检测为例，对该方法的一种可能的应用场景进行介绍。

示例性的，如图1A所示，为本申请实施例提供的一种基础文本的示意图；如图1B所示，为本申请实施例提供的一种比对文本的示意图。

在一些实施例中，基础文本可以包括多个基础段落，其基础段落例如可以为“XXX合同”、“(示范文本)”、“XX住房和城乡建设机构”、“XX工商行政管理厅制定”；比对文本可以包括多个基础段落，其比对段落例如可以为“XXX合同”、“(示范文本)”、“XX住房和城乡建设机构”、“XX工商管理局制定”。

应理解，基础文件和比对文件相似度的检测过程可以在电子设备中的相似度检测模型中进行，该相似度检测模型的可视化呈现形式可以为应用程序(application，App)，该应用程序可以包括与用户进行交互的界面，如文本输入界面和检测结果输出界面。

示例性的，如图2A所示，为文本输入界面的示意图，该界面例如可以包括基础文本输入区域，该基础文本输入区域可以包括文本上传控件201；该界面还可以包括比对文本输入区域，该比对文本输入区域可以包括比对文本上传控件202。当用户需要检测基础文本和比对文本的相似度时，可以通过该文本输入界面将基础文本和比对文本作为样本输入文本相似度检测模型。例如，用户可以点击该界面中的控件201上传基础文本，并可以点击控件202上传比对文本。

当基础文本和比对文本上传之后，文本相似度检测模型按照预设方式对两个文本进行相似度检测，并通过检测结果显示界面将相似度检测结果联动显示给用户。示例性的，检测结果显示界面的示意图如图2B所示，该界面可以包括基础文本显示区域和比对文本显示区域。其中，相似度检测结果中可以将基础文本和比对文本中的差异内容联动显示，如当基础文本和比对文本的相似度大于预设阈值(如60％)时，可以仅对两个文本中的差异内容进行联动显示；或者，相似度检测结果也可以将基础文本和比对文本中的相似内容联动显示。

示例性的，以对基础文本和比对文本的差异内容进行联动显示为例，如图2B所示，该联动显示的具体方式可以包括以下几种：(1)当用户选中基础短语块时，比对文本显示区域可以自动定位并显示与该基础短语块具有差异的短语块(如用户点击“行政管理厅”时，比对文本显示界面将“管理局”显示在当前界面中与“行政管理厅”同一行位置)；(2)显示差异内容总结框203，该差异内容总结框中可以列举基础文本与比对文本的差异内容；(3)基础文本中的差异内容显示标识框204，同时比对文本中的相似内容也会呈现相同的标识框204。

应理解，如2B所示的联动方式仅为示例，在实际应用中，该联动方式还可以包括多种呈现方式，如当用户点击基础文本中的差异内容时，该基础文本中的差异内容与比对文本中差异内容之间可以显示连接线；或者，当点击基础文本中的差异内容时，基础文本中的该内容呈现预设颜色的高亮显示，同时比对文本中的差异内容也会呈现相同颜色的高亮显示等。本申请对此不作限定。

根据本申请实施例提供的文本相似性检测的方法，通过对两个文本中相似通融进行联动显示，为用户查看相似内容提供便利，提升了用户对相似内容的查看体验。

以上实施例对本申请实施例提供的文本相似度检测的方法适用的应用场景以及呈现的可视化操作等方面进行了介绍。为更好地理解该方法，以下从内部实现层面对本申请实施例提供的文本相似度检测的方法进行更为具体的说明。

示例性的，如图3所示，为本申请实施例提供的一种文本相似度检测的方法的示意性流程图。该方法可以包括以下步骤：

S301，获取输入的基础文本和比对文本，该基础文本包括至少一个基础段落，比对文本包括至少一个比对段落。

其中，基础文本是指待检测的文本，比对文本是指用于与基础文本比对相似度的文本。基础段落是指基础文本中按照分段标识符划分出的段落；比对段落是指比对文本中按照分段标识符划分出的段落。分段标识符例如可以包括回车标识符。

示例性的，基础文本和比对文本可以包括多个字符串。基础文本和比对文本可以是文档，该文档可以为多种格式，如txt格式、doc格式、PDF格式等；基础文本和比对文本还可以是图片，图片也可以为多种格式，如bmp格式、jpg格式、png格式等，本申请对此不作限定。

在一些实施例中，当用户需要对基础文本和比对文本进行相似度检测时，可以分别将基础文本和比对文本通过应用程序的文本输入界面输入相似度检测模型(如图2A所示)。

在一些实施例中，当基础文本和比对文本的格式不相同，或者与相似度检测模型预设的检测格式不相同时，相似度检测模型可以对基础文本和比对文本的格式进行转换，即统一基础文本和比对文本的格式。示例性的，针对文档形式的基础文本和比对文本，可以将其格式转换统一Word格式；针对图片形式的基础文本和比对文本，可以将其格式转换统一为jpg格式。

例如，输入的基础文本的格式为Word，比对文本的格式为PDF时，则可以将比对文本的格式转换为Word格式，使比对文本与基础文本的格式统一；或者，当基础文本的格式为bmp格式的图片，比对文本为png格式的图片时，则可以将基础文本和比对文本的格式转换统一为jpg格式的图片。应理解，在本申请实施例提供的相似度检测的方法中，可以使用任意一种现有的转换方式对基础文本和比对文本的格式进行统一，本申请对此不作限定。

应理解，对输入文本的格式进行统一可以使相似度检测模型对相同的格式的内容进行分析，避免格式不同带来的执行错误等问题，提升相似度检测的效率，其中，该统一后的格式可以根据需要预先设定，本申请对此不作限定。

S302，根据基础段落和比对段落进行切词，获取基础段落对应的多个基础短语块，以及比对段落对应的比对短语块。

在一些实施例中，在根据基础文本和比对文本进行切词之前，本申请实施例还可以首先计算基础文本和比对文本中的相似段落。具体地，分段引擎可以根据分段识别符分别识别基础文本中的基础段落和比对文本中的比对段落；之后，将基础段落和比对段落输入孪生网络；根据孪生网络获取每个基础段落对应的相似度最高的N个比对段落，N为大于或等于1的整数。其中，通过孪生网络计算基础文本和比对文本段落之间相似度的过程将在下文进行介绍，此处暂不详述。

在一些实施例中，相似度检测模型可以根据识别或划分的基础段落和比对段落，逐一检测每一基础段落与各比对段落之间的相似度，并获取与每一基础段落相似度最高的前N个比对段落，N为大于或等于1的整数。具体的，相似度检测模型可以根据基础文本生成基础列表(如图4A所示)，并根据比对文本生成比对列表(如图4B所示)，其中，基础列表包括基础文本中的多个段落，比对列表包括比对文本中的多个段落；之后，相似度检测模型可以按照段落识别符识别基础段落，并按照基础段落的顺序检测每一个基础段落与全部比对段落的相似度，获取与每一个基础段落相似度最高的前N个比对段落，N为大于或等于1的整数。其中，与某一个基础段落相似度最高的前N个段落可以指：将全部比对段落与该基础段落的相似度由高到低排序，前N个相似度对应的比对段落。

应理解，通过对基础文本和比对文本进行段落划分，相似度检测模型可以逐段读取数据，以便按照段落比对相似内容，避免按照整个长文本比对内容导致的比对效率低的问题。

在一些实施例中，切词引擎根据基础段落和比对段落进行切词的过程可以包括：对基础段落和N个比对段落进行切词，获取基础段落对应的多个基础短语块和比对段落对应的多个比对短语块。应理解，该切词过程所采用的切词算法可以是任意一种现有的算法(如jieba算法等)，本申请实施例对此不作限定。

其中，短语块可以指符合自然语言表达逻辑的词语、单词、词组等，一个短语块可以包括一个或多个字符。以中文为例，该短语块例如可以为符合表达逻辑的单个字符或多字符词语，如“XXX住房和城乡建设机构”切词后包括的短语块可以为：[XXX住房和城乡建设机构]。以英文为例，该短语块可以为包括多个英文字符的单词，如“apple”、“run”，也可以为包括多个单词的组合，如“good morning”、“bad weather”等。

通过本步骤中对基础段落和比对段落进行切词，获取多个的短语块，可以便于后续针对这些短语块进行相似度检测，细化了相似度检测的粒度，使相似度检测结果可以具体至行内的单个词语，相似度检测结果准确性更高。

S303，计算基础短语块和比对短语块之间的最小编辑距离。

结合上文介绍的计算最小编辑距离的原理，在一些实施例中，当对获取基础文本的基础词语以及比对文本中与该基础词语比较的比对词语后，最小编辑距离引擎可以计算每个基础词语与多个比对词语之间的最小编辑距离。具体地，最小编辑距离引擎可以遍历基础词语中的每个字符，一一计算每个字符与比对短语块中每个字符之间的编辑距离，最后获取基础短语块遍历比对短语块之间的最小编辑距离。

在一些实施例中，基础短语块(字符串长度记为i)与比对短语块(字符串长度记为j)的最小编辑距离最小编辑距离edit(i，j)可以具体包括以下几种情形：

(1)如果i＝＝0且j＝＝0，Edit(i，j)＝0；

(2)如果i＝＝0且j>0，Edit(i，j)＝j；

(3)如果i>0且j＝＝0，Edit(i，j)＝i；

(4)如果i>0且j>0，Edit(i，j)＝min{Edit(i-1，j)+1，Edit(i，j-1)+1，Edit(i-1，j-1)+f(i，j)}，其中，f(i，j)用于表示基础短语块包括i-1个字符长度，且比对短语块包括前j-1个字符长度时，变为基础短语块包括i前字符长度，且比对短语块包括j个字符长度时需要经过的操作的次数。

S304，当最小编辑距离为0时，输出基础短语块和比对短语块为相似词对。

在一些实施例中，可以根据基础短语块与比对短语块之间的最小编辑距离确定基础短语块与比对短语块是否为相似词对。

其中，若基础短语块和比对短语块的最小编辑距离为0，意味着这两个单词包括的各个字符相同，表达一致，也即语义是相同的，此时确定该基础短语块和比对短语块为相似词对。若基础短语块和比对短语块的最小编辑距离非0，则意味着基础短语块和比对短语块的表达不完全一致，由于在很多情况下，表达不完全一致的词语，可能具有相同或相似的语义，故此时需要执行步骤S305进一步判断基础短语块和比对短语块的语义是否相似。

S305，当最小编辑距离不为0时，计算基础短语块和比对短语块的余弦相似度，且当余弦相似度大于预设阈值时，输出基础短语块和比对短语块为相似词对。

应理解，该步骤主要是针对最小编辑距离非零词对进行语义消歧。由于最小编辑距离非零的词对意味着词对在表达上有差异，因而为了克服表达不同但语义相同或类似的问题，可以根据最小编辑距离，计算词对之间的余弦相似度。具体地，可以对基础短语块和比对短语块采用one-hot编码方式进行编码，获取基础短语块和别对短语块分别对应的字符串向量，之后采用余弦相似度计算词对之间的相似性，判断是否存在共指关系，计算公式如下：

其中，a可以表示基础词短语块编码后的字符串向量；b可以表示比对短语块编码后的字符串向量；c可以表示基础短语块的字符串向量与比对短语块的字符串向量之间的差值向量(如图5所示)。

在一些实施例中，余弦相似度越高(越接近1)表示基础短语块与比对短语块越相似，语义越接近，因此当余弦相似度大于预设阈值(如0.9)时，可以确定该基础短语块和比对短语块为相似词对。

应理解，通过该步骤不仅可以获得基础文本和比对文本之间的表达相同的相似词语对，还可以获得表达不完全一致，但语义相同的相似词对，从而能够获取更加具体的相似内容以及更加准确的文本相似度。

在一些实施例中，当获取基础文本和比对文本中的相似词对后，可以根据相似词对，对目标内容进行联动显示，其中，目标内容可以包括相似词对或差异内容。其中，差异内容是指比对文本中不存在该内容的相似内容。

示例性的，检测结果生成引擎可以根据相似词对检测结果生成相似度检测报告，并且可以根据相似词语对在基础文本和/或比对文本中所占的比例确定对相似词对进行联动显示，或者对差异内容进行显示。比如，针对两份相似度很高的文本，如果进行相似词对的联动显示，则用户可能需要一一查看大量的相似词对，效率较低，此时则可以适应性地采用显示差异内容的模式，仅对两份文本中少量的差异内容进行显示，从而提高用户查看的效率。

在一些实施例中，以对差异内容显示为例，该联动显示的具体方式可以包括：显示引擎可以输出相似度结果界面，该相似度结果界面可以包括基础文本显示区域和比对文本显示区域(如图2B所示)，当用户选中相似词对中的基础短语块时，比对文本显示区域自动定位至与该基础短语块具有联动关系的比对短语块，如显示标示框；或者，该检测结果显示界面还可以包括差异内容总结框，该差异内容总结框中可以列举基础文本与比对文本的差异内容。例如，仍以图2B为例，针对词对“行政管理厅”和“管理局”，当用户点击基础文本中的“行政管理厅”时，可联动至相似文本中的“管理局”，此时相似文本当前区域可以定位并显示“管理局”。

示例性的，如图6所示，为本申请实施例提供的一种孪生网络的结构示意图。

其中，该孪生网络可以包括两个子网络(如图6所示的sister network#1和sisternetwork#1)以及损失函数(constructive loss)网络。两个子网络用于接收并处理输入的两个样本(如基础段落和比对段落)。子网络具有相同的结构并可以共享所有参数，例如，两个子网络可以共享相似度权值，该相似度权值分别对应两个输入文本中不同类型的内容，如将基础段落和比对段落中的文本类型信息元素对应的相似度权重设置为70％，将图形类型信息元素的相似度权重设置为30％等。在实际应用中，针对不同的应用场景可以定义不同的子网络结构，如针对文本类型的输入样本，子网络可以为LSTM结构。损失函数计算网络用于接收子网络输出的处理后的样本，并利用损失函数计算两个样本的匹配程度

应理解，通过对不同类型的内容(字符串或图形等)设置对应的相似度权重，可以高效判断基础段落和比对段落中不同类别的内容的相似度，进而有利于后续对更细粒度的内容进行更加准确的相似度判断。

在一些实施例中，利用孪生网络检测基础段落和比对段落相似度的过程可以包括：将基础段落和比对段落分别输入sister network#1和sister network#1；两个子网络分别对基础段落和比对段落进行编码，如子网络可以使用one-hot方式对输入样本进行向量化，或者使用TF-IDF方式对输入样本进行向量化，获取基础段落和比对段落分别对应的特征向量；之后，sister network#1和sister network#1可以分别将获取的特征向量输入损失函数(constructive loss)模块，通过损失函数(constructive loss)计算基础向量和比对向量之间的相似度，并最终输出(output)基础段落和比对段落之间的相似度。示例性的，损失函数的公式可以如下所示：

其中，L表示样本的相似度，d为欧式距离，y＝1时表示基础段落与比对段落匹配，y＝0时则表示基础段落与比对段落不匹配，margin表示预设的相似度阈值。

如图7所示，为本申请实施例提供的一种文本相似度检测的装置的结构示意图。该装置700可以包括接收模块701、切词模块702、处理模块703以及输出模块704。

在一些实施例中，接收模块701，可以用于获取输入的基础文本和比对文本，所述基础文本包括至少一个基础段落，所述比对文本包括至少一个比对段落。

切词模块702，可以用于根据所述基础文本和所述比对文本进行切词，获取所述基础文本对应的多个基础短语块，以及所述比对文本对应的比对短语块。

处理模块703，可以用于计算所述基础短语块和所述比对短语块之间的最小编辑距离。

输出模块704，可以用于当所述最小编辑距离为0时，输出所述基础短语块和所述比对短语块为相似词对。

所述处理模块703，还可以用于当所述最小编辑距离不为0时，计算所述基础短语块和所述比对短语块的余弦相似度；

所述输出模块704，还可以用于当所述余弦相似度大于预设阈值时，输出所述基础短语块和所述比对短语块为相似词对。

在一些实施例中，处理模块703，还可以用于根据分段识别符分别识别所述基础段落和所述比对段落；将所述基础段落和所述比对段落输入孪生网络；根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落，N为大于或等于1的整数。

在一些实施例中，切词模块702，还可以用于根据所述基础段落和所述基础段落对应的相似度最高的N个所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块。

在一些实施例中，装置700还可以包括显示模块，用于对所述相似词对进行联动显示。

在一些实施例中，显示模块，还可以具体用于显示相似度检测结果界面，所述相似度检测结果界面包括基础文本显示区域和比对文本显示区域；当选中所述相似词对中的基础短语块时，所述比对文本显示区域自动定位至所述相似词对中的比对短语块；或者，当选中所述基础短语块时，所述基础短语块和与所述基础短语块相似的比对词语显示相同的显示标识符。

在一些实施例中，处理模块703，当所述基础文本和所述比对文本的格式不相同时，将所述基础文本和所述比对文本转换为相同的格式。

如图8所示，为本申请实施例提供的另一种文本相似度检测的装置的结构示意图。该装置800可以包括处理器801、存储器802，存储在所述存储器802中并可在所述处理器801上运行的计算机程序803，例如文本相似度检测的方法的程序，以及用于连接处理器801和存储器802的串行总线804。

在一些实施例中，当计算机程序指令在处理器中被执行时，使得如下步骤得以实现：获取输入的基础文本和比对文本，所述基础文本包括至少一个基础段落，所述比对文本包括至少一个比对段落；根据所述基础段落和所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块；计算所述基础短语块和所述比对短语块之间的最小编辑距离；当所述最小编辑距离为0时，输出所述基础短语块和所述比对短语块为相似词对；当所述最小编辑距离不为0时，计算所述基础短语块和所述比对短语块的余弦相似度，且当所述余弦相似度大于预设阈值时，输出所述基础短语块和所述比对短语块为相似词对。

在一些实施例中，当计算机程序指令在处理器中被执行时，使得如下步骤得以实现：根据分段识别符分别识别所述基础段落和所述比对段落；将所述基础段落和所述比对段落输入孪生网络；根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落，N为大于或等于1的整数。

在一些实施例中，当计算机程序指令在处理器中被执行时，使得如下步骤得以实现：根据所述基础段落和所述基础段落对应的相似度最高的N个所述比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块。在一些实施例中，当计算机程序指令在处理器中被执行时，使得如下步骤得以实现：对所述相似词对进行联动显示。

在一些实施例中，当计算机程序指令在处理器中被执行时，使得如下步骤得以实现：显示相似度检测结果界面，所述相似度检测结果界面包括基础文本显示区域和比对文本显示区域；当选中所述相似词对中的基础短语块时，所述比对文本显示区域自动定位至所述相似词对中的比对短语块；或者，当选中所述基础短语块时，所述基础短语块和与所述基础短语块相似的比对词语显示相同的显示标识符。

在一些实施例中，当计算机程序指令在处理器中被执行时，使得如下步骤得以实现：当所述基础文本和所述比对文本的格式不相同时，将所述基础文本和所述比对文本转换为相同的格式。图5是本申请另一实施例提供的一种计算机/终端设备的结构框图。如图5所示，该实施例的计算机/终端设备50包括：处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53，例如……方法的程序。处理器51执行所述计算机程序73时实现上述各个……方法各实施例中的步骤，例如图1所示的S31至S32，或者图2和图3所示的S31至S32以及S41至S43。或者，所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各单元的功能，例如，图4所示的单元61至65的功能，具体请参阅图4对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序803可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器802中，并由所述处理器801执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序803在所述装置800中的执行过程。

所称处理器801可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器802可以是所述装置800的内部存储单元，例如硬盘或内存。所述存储器802也可以是所述装置800的外部存储设备，例如装置800上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器802还可以既包括所述装置800的内部存储单元也包括外部存储设备。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序指令，当所述计算机程序指令被计算机执行时，使得上述介绍的文本相似度检测的方法中的任一步骤得以实现。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本相似度检测的方法，其特征在于，包括：

获取输入的基础文本和比对文本，所述基础文本包括至少一个基础段落，所述比对文本包括至少一个比对段落；

根据分段识别符分别识别所述基础段落和所述比对段落；

将所述基础段落和所述比对段落输入孪生网络；

根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落，N为大于或等于1的整数；

根据所述基础段落和所述N个比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述N个比对段落对应的多个比对短语块；

计算所述基础短语块和所述比对短语块之间的最小编辑距离；

当所述最小编辑距离为0时，输出所述基础短语块和所述比对短语块为相似词对；

当所述最小编辑距离不为0时，计算所述基础短语块和所述比对短语块的余弦相似度，且当所述余弦相似度大于预设阈值时，输出所述基础短语块和所述比对短语块为相似词对。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述相似词对，对所述基础文本和所述比对文本中的目标内容进行联动显示。

3.根据权利要求2所述的方法，其特征在于，所述根据所述相似词对，对所述基础文本和所述比对文本中的目标内容进行显示，具体包括：

根据所述相似词对，对所述基础文本和所述比对文本中的所述相似词对进行联动显示；或者，

根据所述相似词对，对所述基础文本和所述比对文本中的差异内容进行联动显示。

4.根据权利要求3所述的方法，其特征在于，显示相似度检测结果界面，所述相似度检测结果界面包括基础文本显示区域和比对文本显示区域；

所述根据所述相似词对，对所述基础文本和所述比对文本中的所述相似词对进行联动显示，具体包括：

当选中所述相似词对中的基础短语块时，所述比对文本显示区域自动定位至所述相似词对中的比对短语块；或者，

当选中所述基础短语块时，所述基础短语块和与所述基础短语块相似的比对词语显示相同的显示标识符。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

当所述基础文本和所述比对文本的格式不相同时，将所述基础文本和所述比对文本转换为相同的格式。

6.一种文本相似度检测的装置，其特征在于，包括：

接收模块，用于获取输入的基础文本和比对文本，所述基础文本包括至少一个基础段落，所述比对文本包括至少一个比对段落；

切词模块，用于根据分段识别符识别所述基础段落和所述比对段落；将所述基础段落和所述比对段落输入孪生网络；根据所述孪生网络获取每个所述基础段落对应的相似度最高的N个所述比对段落，N为大于或等于1的整数；根据所述基础段落和所述N个比对段落进行切词，获取所述基础段落对应的多个基础短语块，以及所述比对段落对应的比对短语块；

处理模块，用于计算所述基础短语块和所述比对短语块之间的最小编辑距离；

输出模块，用于当所述最小编辑距离为0时，输出所述基础短语块和所述比对短语块为相似词对；

所述处理模块，还用于当所述最小编辑距离不为0时，计算所述基础短语块和所述比对短语块的余弦相似度；

所述输出模块，还用于当所述余弦相似度大于预设阈值时，输出所述基础短语块和所述比对短语块为相似词对。

7.一种文本相似度检测的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器调用时，使得如权利要求1至5中任一项所述的方法得以实现。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序指令，当所述计算机程序指令被计算机执行时，使得如权利要求1至5中任一项所述的方法得以实现。