CN106202055A

CN106202055A - 一种针对长文本的相似性判定方法

Info

Publication number: CN106202055A
Application number: CN201610594557.1A
Authority: CN
Inventors: 唐义晴; 黄三伟
Original assignee: Hunan Yi Fang Softcom Ltd
Current assignee: Hunan Yi Fang Softcom Ltd
Priority date: 2016-07-27
Filing date: 2016-07-27
Publication date: 2016-12-07

Abstract

本发明涉及信息技术领域，特别是一种针对长文本的相似性判定方法，包括以下步骤，步骤S101：文本语句片段分割，根据采集到的待分析文本内容进行语句片段分割；步骤S102：长句组合，将文本分割后的长句片段进行随意组合；步骤S103：文本相似性判断，判断待分析文本的长句组合是否出现相同的集合；如果是，则待分析文本内容相似；如果否，则待分析文本内容不相似。采用上述方法后，本发明计算简单，容易实现，大大减少时间、空间计算复杂度；相对于其他相似判定方法，对于数据量大的采集系统是一种简洁而非常有效的文本相似判定方法。

Description

一种针对长文本的相似性判定方法

技术领域

本发明涉及信息技术领域，特别是一种针对长文本的相似性判定方法。

背景技术

随着互联网的发展和信息时代的到来，人们从互联网获取信息资源已经成为一种非常重要的途径。互联网成为人们沟通、交流的重要平台，每天互联网会产生大量的信息资源，而这些资源信息的内容在很大程度上都是重复和相似的。据相关统计数据表明，互联网上近似重复的网页的数量占网页总数量的比例高达29%，在一个大型的信息采集系统中，采集到的网页信息内容有大多数完全重复或近似重复的。所以，在一个信息采集系统中，判断文本内容相似成为一个很重要的环节，该发明就是提供了一个简单而有效文本相似判定方法用于信息采集系统中对文本内容进行相似判定，便于系统信息进行分组归类整合。

中国发明专利CN 103389987 A文本相似性比较方法，首先提取各待分析文件的各特征向量及各特征向量的值；然后将各待分析文件的特征向量进行削峰处理，即将各待分析文件的排序最高的一个或多个特征向量移除；再根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。此发明不是针对长文本的相似性进行判定的。

发明内容

本发明需要解决的技术问题是提供一种针对长文本的实时高效的文档相似性判定方法。

为解决上述的技术问题，本发明的一种针对长文本的相似性判定方法，包括以下步骤，

步骤S101：文本语句片段分割，根据采集到的待分析文本内容进行语句片段分割；

步骤S102：长句组合，将文本分割后的长句片段进行随意组合；

步骤S103：文本相似性判断，判断待分析文本的长句组合是否出现相同的集合；如果是，则待分析文本内容相似；如果否，则待分析文本内容不相似。

进一步的，所述步骤S102长句组合，具体包括以下步骤，

步骤S1021：排序筛选，对文本内容分割后的语句片段进行长句排序筛选，选择特定数量的长句片段形成集合；

步骤S1022：唯一特征值计算，针对排序筛选形成的集合进行唯一特征值计算，形成唯一特征值集合；

步骤S1023：唯一特征值随意组合，在形成的唯一特征值集合中随意选取特定数量唯一特征值，形成唯一特征值随意选取集合。

更进一步的，所述步骤S103文本相似性判断为将唯一特征值随意选取集合中的唯一特征值进行对比，如果唯一特征值相同，则待分析文本内容相似；如果唯一特征值不同，则待分析文本内容不相似。

更进一步的，步骤S1021中选择长句片段的特定数量为n，步骤S1023中随意选取唯一特征值的特定数量为m，形成的唯一特征值随意选取集合总数量为C(n,m)=n!/((n-m)!*m!)。

采用上述方法后，本发明计算简单，容易实现，大大减少时间、空间计算复杂度；相对于其他相似判定方法，对于数据量大的采集系统是一种简洁而非常有效的文本相似判定方法。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种针对长文本的相似性判定方法的流程图。

具体实施方式

如图1所示，本发明的一种针对长文本的相似性判定方法，包括以下步骤，

步骤S101：文本语句片段分割，根据采集到的待分析文本内容进行语句片段分割。本实施方式中，以待分析的文本A、B为例，由于文本内容长度不一，句子、段落很多，提取语句片段非常关键，不同的规则分成的语句片段也不同，因此统一采用指定的规则进行内容分割成语句片段。待分析文本A、B分割后的语句片段集合分别为C、D。

步骤S102：长句组合，将文本分割后的长句片段进行随意组合；具体包括以下步骤，

步骤S1021：排序筛选，对文本内容分割后的语句片段集合分别为C、D进行长句排序筛选，选择特定数量的长句片段形成集合E、F，本实施方式中长句片段的特定数量为n。长句片段选择的数量是随意选择的，选择的数量越大组合越多，这个是根据需要可以调控选择的，本实施方式中选择的数量n取4。

步骤S1022：唯一特征值计算，针对排序筛选形成的长句片段集合E、F进行唯一特征值计算，形成唯一特征值集合G、H。唯一特征值计算，是为了保持数据的唯一性。

步骤S1023：唯一特征值随意组合，在形成的唯一特征值集合中随意选取特定数量唯一特征值，形成唯一特征值随意选取集合I、J。这个特定的数量也是可以随意选择的，数量越大说明相似度的阈值越高，数量越小相似度的阈值越低，即两文本中的相似度达到该阈值才判定两篇文本相似。该取值与长句片段的数量n有关系，本实施方式中特定数量m为3。进行组合得到的唯一特征值集合总数量计算公式C(n,m)=n!/((n-m)!*m!)。

步骤S103：文本相似性判断，判断待分析文本的长句组合是否出现相同的集合；如果是，则待分析文本内容相似；如果否，则待分析文本内容不相似。本实施方式中，判断的是集合中唯一特征值是否相同。所述步骤S103文本相似性判断为将唯一特征值随意选取集合I、J中的唯一特征值进行对比，如果唯一特征值相同，则待分析文本内容相似；如果唯一特征值不同，则待分析文本内容不相似。

虽然以上描述了本发明的具体实施方式，但是本领域熟练技术人员应当理解，这些仅是举例说明，可以对本实施方式做出多种变更或修改，而不背离发明的原理和实质，本发明的保护范围仅由所附权利要求书限定。

Claims

1.一种针对长文本的相似性判定方法，其特征在于，包括以下步骤，

2.按照权利要求1所述的一种针对长文本的相似性判定方法，其特征在于：所述步骤S102长句组合，具体包括以下步骤，

3.按照权利要求2所述的一种针对长文本的相似性判定方法，其特征在于：所述步骤S103文本相似性判断为将唯一特征值随意选取集合中的唯一特征值进行对比，如果唯一特征值相同，则待分析文本内容相似；如果唯一特征值不同，则待分析文本内容不相似。

4.按照权利要求2所述的一种针对长文本的相似性判定方法，其特征在于：步骤S1021中选择长句片段的特定数量为n，步骤S1023中随意选取唯一特征值的特定数量为m，形成的唯一特征值随意选取集合总数量为C(n,m)=n!/((n-m)!*m!)。