CN116579319A

CN116579319A - 一种文本相似度的分析方法及系统

Info

Publication number: CN116579319A
Application number: CN202310612432.7A
Authority: CN
Inventors: 陈力列; 王军; 吴冰; 奚丰
Original assignee: Jiangsu Hongdou Industrial Internet Co ltd
Current assignee: Jiangsu Hongdou Industrial Internet Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-11

Abstract

本发明涉及信息处理技术领域，具体公开了一种文本相似度的分析方法，包括：获取待分析文本中的多个目标字符串，并设定标准字符串和最佳匹配标准系数；创建相似度矩阵；将多个目标字符串与标准字符串逐一进行比较和分析，计算出每个目标字符串与标准字符串之间的综合相似度，并将每个目标字符串对应的综合相似度填入相似度矩阵中；从填入后的相似度矩阵中取出最大综合相似度，并将最大综合相似度与最佳匹配标准系数进行比较；依据比较结果，输出相似度匹配分析结果。本发明还公开了一种文本相似度的分析系统。本发明提供的文本相似度的分析方法，可以自动化定位文本数据，提高性能问题分析的时间，减少对人力的依赖。

Description

一种文本相似度的分析方法及系统

技术领域

本发明涉及信息处理技术领域，尤其涉及一种文本相似度的分析方法及一种文本相似度的分析系统。

背景技术

随着信息技术的发展，IT领域每天都会产生大量的文本数据，而这些文本数据往往都存在着一定程度的相似性，为了避免文本数据发生混淆，我们需要寻找一种文本相似度分析的方法，来自动化定位文本数据，提高性能问题分析的时间，减少对人力的依赖。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种文本相似度的分析方法及系统，可以自动化定位文本数据，提高性能问题分析的时间，减少对人力的依赖。

作为本发明的第一个方面，提供一种文本相似度的分析方法，包括：

步骤S110：获取待分析文本中的多个目标字符串，并设定标准字符串和最佳匹配标准系数；

步骤S120：根据所述目标字符串的个数创建相似度矩阵，并设置所述相似度矩阵的初始值；

步骤S130：遍历所述待分析文本中的所有目标字符串，将其中的目标字符串与所述标准字符串逐一进行比较和分析，计算出每个目标字符串与所述标准字符串之间的综合相似度，并将所述待分析文本中每个目标字符串对应的综合相似度填入所述相似度矩阵中；

步骤S140：从填入后的相似度矩阵中取出最大综合相似度，并将所述最大综合相似度与所述最佳匹配标准系数进行比较；

步骤S150：依据所述最大综合相似度与所述最佳匹配标准系数之间的比较结果，输出相似度匹配分析结果。

进一步地，所述依据所述最大综合相似度与所述最佳匹配标准系数之间的比较结果，输出相似度匹配分析结果，还包括：

若所述最大综合相似度超过所述最佳匹配标准系数，则所述相似度匹配结果为所述最大综合相似度对应的目标字符串；

若所述最大综合相似度未超过所述最佳匹配标准系数，则所述相似度匹配结果为未匹配。

进一步地，所述遍历所述待分析文本中的所有目标字符串，将其中的目标字符串与所述标准字符串逐一进行比较和分析，计算出每个目标字符串与所述标准字符串之间的综合相似度，还包括：

分别计算出每个目标字符串与所述标准字符串之间的长度相似度、元素相似度和顺序相似度；

根据所述长度相似度及其对应的权重系数、所述元素相似度及其对应的权重系数和所述顺序相似度及其对应的权重系数计算出所述综合相似度。

进一步地，还包括：

设定标准字符串为s1，并设定所述待分析文本中的其中一个目标字符串为s2，则所述目标字符串s2与所述标准字符串为s1之间的综合相似度值k由3部分组成，分别为长度相似度k1、元素相似度k2和顺序相似度k3；

分别设定所述长度相似度k1的权重系数、元素相似度k2的权重系数和顺序相似度k3的权重系数，以计算出所述目标字符串s2与所述标准字符串s1之间的综合相似度值k，并将所述目标字符串s2对应的综合相似度值k填入所述相似度矩阵；其中，按照所述目标字符串s2的综合相似度值k的计算方式，对所述待分析文本中的其他目标字符串与所述标准字符串s1之间的综合相似度进行计算，以得到所述待分析文本中其他目标字符串的综合相似度值，所述填入后的相似度矩阵由所述待分析文本中所有目标字符串的综合相似度值组成；

其中，所述目标字符串s2对应的综合相似度值k的计算公式如下：

k＝c1×k1+c1×k2+c3×k3

其中，c1、c2、c3分别是长度相似度k1、元素相似度k2、顺序相似度k3对应的权重系数，是一组常数。

进一步地，所述目标字符串s2与所述标准字符串s1之间的长度相似度k1、元素相似度k2和顺序相似度k3的计算公式分别如下：

(1)字符长度的比较，所述长度相似度k1的计算公式如下：

其中，Ls1代表标准字符串s1的长度，即标准字符串s1中字符的个数；Ls2代表目标字符串s2的长度，即目标字符串s2中字符的个数；

(2)字符重复率的比较，所述元素相似度k2的计算公式如下：

其中，Lj代表标准字符串s1的字符集合与目标字符串s2的字符集合的交集，Lb代表标准字符串s1的字符集合与目标字符串s2的字符集合的并集；

(3)字符顺序的比较；

如果Ls1≠Ls2，则顺序相似度k3＝kc，其中，kc是常数；

如果Ls1＝Ls2，则顺序相似度k3的计算公式如下：

其中，m为字符相同的位数，假设Ls1＝Ls2＝n，比较所述标准字符串s1和所述目标字符串s2在[1,n]每一位上的字符是否相同，如果相同，累计字符相同的位数m。

进一步地，还包括：

设定所述最佳匹配标准系数为a，假设所述目标字符串s2的综合相似度值k为所述填入后的相似度矩阵中的最大值，则将所述目标字符串s2的综合相似度值k与所述最佳匹配标准系数a进行比较；

如果k<a，则目标字符串s2与标准字符串s1是不同类；

如果a<k<1，则目标字符串s2与标准字符串s1是同类但有差异；

如果k＝1，则目标字符串s2与标准字符串为s1完全相同。

进一步地，所述获取待分析文本中的多个目标字符串之前，还包括：

通过设置好的目标文本的路径和目标文本的格式读取所述待分析文本。

进一步地，所述获取待分析文本中的多个目标字符串，还包括：

通过换行检测将所述待分析文本拆分成多个字段；

分别对各个字段进行提取，以得到多个目标字符串。

进一步地，所述根据所述目标字符串的个数创建相似度矩阵，并设置所述相似度矩阵的初始值，还包括：

创建与所述待分析文本相同长度的相似度矩阵，并设置所述相似度矩阵的初始值为浮点数零值。

作为本发明的另一个方面，提供一种文本相似度的分析系统，用于实现前文所述的文本相似度的分析方法，所述文本相似度的分析系统包括：

获取模块，用于获取待分析文本中的多个目标字符串，并设定标准字符串和最佳匹配标准系数；

创建模块，用于根据所述目标字符串的个数创建相似度矩阵，并设置所述相似度矩阵的初始值；

计算模块，用于遍历所述待分析文本中的所有目标字符串，将其中的目标字符串与所述标准字符串逐一进行比较和分析，计算出每个目标字符串与所述标准字符串之间的综合相似度，并将所述待分析文本中每个目标字符串对应的综合相似度填入所述相似度矩阵中；

比较模块，用于从填入后的相似度矩阵中取出最大综合相似度，并将所述最大综合相似度与所述最佳匹配标准系数进行比较；

输出模块，用于依据所述最大综合相似度与所述最佳匹配标准系数之间的比较结果，输出相似度匹配分析结果。

本发明提供的文本相似度的分析方法具有以下优点：可以自动化定位文本数据，提高性能问题分析的时间，减少对人力的依赖。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1为本发明提供的文本相似度的分析方法的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域技术人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本实施例中提供了一种文本相似度的分析方法，图1为本发明提供的文本相似度的分析方法的流程图。如图1所示，所述文本相似度的分析方法，包括：

优选地，所述获取待分析文本中的多个目标字符串之前，还包括：

优选地，所述获取待分析文本中的多个目标字符串，还包括：

通过换行检测将所述待分析文本拆分成多个字段；

分别对各个字段进行提取，以得到多个目标字符串。

本发明实施例中，通过换行检测可以将所述待分析文本拆分为一个个小的字段，再进一步分别对各个小的字段进行截取，截取的方式可以自行设定，例如截取字段中“****”前的部分，得到的这些特定字段即为目标字符串。

具体地，对所述待分析文本进行遍历，过滤掉换行符与空格，得到干净的目标字符串，再将其中的干净目标字符串与标准字符串逐一进行比较和分析。

优选地，所述根据所述目标字符串的个数创建相似度矩阵，并设置所述相似度矩阵的初始值，还包括：

本发明实施例中，通过函数计算出所述待分析文本的长度n，即将待分析文本分割成n个目标字符串，创建相同长度的相似度矩阵A＝[a1,a2,…an]，设置a1到an的初始值分别为浮点数零值。

优选地，所述遍历所述待分析文本中的所有目标字符串，将其中的目标字符串与所述标准字符串逐一进行比较和分析，计算出每个目标字符串与所述标准字符串之间的综合相似度，还包括：

具体地，还包括：

分别设定所述长度相似度k1的权重系数、元素相似度k2的权重系数和顺序相似度k3的权重系数，以计算出所述目标字符串s2与所述标准字符串s1之间的综合相似度值k，并将所述目标字符串s2对应的综合相似度值k填入所述相似度矩阵；其中，按照所述目标字符串s2的综合相似度值k的计算方式，对所述待分析文本中的其他目标字符串与所述标准字符串s1之间的综合相似度进行计算，以得到所述待分析文本中其他目标字符串的综合相似度值，所述填入后的相似度矩阵由所述待分析文本中所有目标字符串的综合相似度值组成，即所述待分析文本中各个目标字符串的综合相似度值作为相似度矩阵A中的a1至an的值；

k＝c1×k1+c1×k2+c3×k3

具体地，所述目标字符串s2与所述标准字符串s1之间的长度相似度k1、元素相似度k2和顺序相似度k3的计算公式分别如下：

(1)字符长度的比较，所述长度相似度k1的计算公式如下：

(2)字符重复率的比较，首先将目标字符串s2与标准字符串s1分别转化成列表形式，再对其进行去重，得到无序不重复字符的列表，再对其进行并集与交集的计算，所述元素相似度k2的计算公式如下：

其中，Lj代表标准字符串s1的字符集合与目标字符串s2的字符集合的交集长度，Lb代表标准字符串s1的字符集合与目标字符串s2的字符集合的并集长度；

(3)字符顺序的比较；

如果Ls1≠Ls2，则顺序相似度k3＝kc，其中，kc是某一默认的常数；

如果Ls1＝Ls2，对目标字符串s2与所述标准字符串s1中的字符进行逐一对比，设定初始值0，遇到不同字符值不变，遇到相同字符则值加一，将比较结束的最终值m除以标准字符串s1的长度Ls1，即可得字符顺序的相似率，则顺序相似度k3的计算公式如下：

具体地，还包括：

如果k<a，则目标字符串s2与标准字符串s1是不同类；

如果a<k<1，则目标字符串s2与标准字符串s1是同类但有差异(越接近1，越相似)；

如果k＝1，则目标字符串s2与标准字符串为s1完全相同。

需要说明的是，比较任意两个字符串s1和s2的相似程度并获得量化数值k，再对量化数值k设定一个阈值a，截取落在某一阈值范围[a,1]的量化数值，把比较结果分成三类：不同类(k<a)，同类但有差异(k>a)，完全相同(k＝1)。

优选地，所述依据所述最大综合相似度与所述最佳匹配标准系数之间的比较结果，输出相似度匹配分析结果，还包括：

举例如下：假设标准字符串s1＝'5-4-4-5'，目标字符串s2＝'3-4-3-4'；

(1)字符串长度相似率k1的计算：

标准字符串s1的长度为7，目标字符串s2的长度为7，则利用公式：

可以得到s1与s2的长度相似率，此例中s1与s2长度相等，所以相似率为1.0；

(2)字符重复率的计算

首先将字符串转成列表，此例中s1转化后为['5','-','4','-','4','-','5']，去除重复字符后得到{'-','4','5'}；同样的s2转化成列表['3','-','4','-','3','-','4']，去重后得到{'-','3','4'}，将s1与s2的去重结果进行并集得到{'-','3','4','5'}，进行交集得到{'-','4'}，将交集的长度除以并集的长度可得字符的重复率，此处s1与s2的字符重复率的结果为0.5；

(3)字符顺序相似率的计算

因为Ls1＝Ls2，将s1与s2逐一进行字符对比，设定一个m值，遇到相同字符则m+1，此例中‘5’与‘3’不同，m为0，‘-’相同m为1，逐一比较得到最终m为4，将m值除以s1的长度，可得字符顺序的相似率，此处结果为0.57；

综合上述三种方式，设定权重系数c1、c2、c3为[0.2,0.4,0.4]，即可计算s1与s2的综合相似率＝0.2*长度相似率+0.4*字符重复率+0.4*字符顺序相似率，此例中s1与s2的综合相似度值为0.6285；

若所述待分析文本中除了目标字符串s2之外，还有三个其他目标字符串，该三个其他目标字符串与标准字符串s1的综合相似度值分别为0.4、0.5、0.55，将所述待分析文本中的四个目标字符串的综合相似度值0.4、0.5、0.55、0.6285分别填入到相似度矩阵A＝[a1,a2,…an]，即A＝[0.4,0.5,0.55,0.6285]，相似度矩阵A中的最大值为0.6285，即目标字符串s2对应的综合相似度值，此时设定的最佳匹配标准系数为0.6，因为最大综合相似度值0.6285大于0.6，则所述相似度匹配结果为所述最大综合相似度值0.6285对应的目标字符串s2。

本发明实施例提供的文本相似度的分析方法，可以自动化定位文本数据，提高性能问题分析的时间，减少对人力的依赖。

作为本发明的另一实施例，提供一种文本相似度的分析系统，用于实现前文所述的文本相似度的分析方法，其中，所述文本相似度的分析系统包括：

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种文本相似度的分析方法，其特征在于，所述文本相似度的分析方法包括：

2.根据权利要求1所述的文本相似度的分析方法，其特征在于，所述依据所述最大综合相似度与所述最佳匹配标准系数之间的比较结果，输出相似度匹配分析结果，还包括：

3.根据权利要求1所述的文本相似度的分析方法，其特征在于，所述遍历所述待分析文本中的所有目标字符串，将其中的目标字符串与所述标准字符串逐一进行比较和分析，计算出每个目标字符串与所述标准字符串之间的综合相似度，还包括：

4.根据权利要求3所述的文本相似度的分析方法，其特征在于，还包括：

k＝c1×k1+c1×k2+c3×k3

5.根据权利要求4所述的文本相似度的分析方法，其特征在于，所述目标字符串s2与所述标准字符串s1之间的长度相似度k1、元素相似度k2和顺序相似度k3的计算公式分别如下：

(1)字符长度的比较，所述长度相似度k1的计算公式如下：

(2)字符重复率的比较，所述元素相似度k2的计算公式如下：

(3)字符顺序的比较；

如果Ls1≠Ls2，则顺序相似度k3＝kc，其中，kc是常数；

如果Ls1＝Ls2，则顺序相似度k3的计算公式如下：

6.根据权利要求4所述的文本相似度的分析方法，其特征在于，还包括：

如果k<a，则目标字符串s2与标准字符串s1是不同类；

如果a<k<1，则目标字符串s2与标准字符串s1是同类但有差异；

如果k＝1，则目标字符串s2与标准字符串为s1完全相同。

7.根据权利要求1所述的文本相似度的分析方法，其特征在于，所述获取待分析文本中的多个目标字符串之前，还包括：

8.根据权利要求1所述的文本相似度的分析方法，其特征在于，所述获取待分析文本中的多个目标字符串，还包括：

通过换行检测将所述待分析文本拆分成多个字段；

分别对各个字段进行提取，以得到多个目标字符串。

9.根据权利要求1所述的文本相似度的分析方法，其特征在于，所述根据所述目标字符串的个数创建相似度矩阵，并设置所述相似度矩阵的初始值，还包括：

10.一种文本相似度的分析系统，用于实现权利要求1至9中任意一项所述的文本相似度的分析方法，其特征在于，所述文本相似度的分析系统包括：