CN106446148A

CN106446148A - 一种基于聚类的文本查重方法

Info

Publication number: CN106446148A
Application number: CN201610839650.4A
Authority: CN
Inventors: 贾倩; 王立伟; 王彦静; 杜俊鹏; 姜悦; 杨玉堃; 张冶; 郭大庆; 池元成; 张丽晔; 许怡婷; 康磊晶
Original assignee: China Academy of Launch Vehicle Technology CALT
Current assignee: China Academy of Launch Vehicle Technology CALT
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-02-22
Anticipated expiration: 2036-09-21
Also published as: CN106446148B

Abstract

本发明公开了一种基于聚类的文本查重方法，方法步骤包括：1、数据采集处理将文本数据存储在数据库和文件服务器中，2、预处理对文本数据进行分词和特征向量提取；3、对数据库中已完成预处理的文本数据进行聚类，并计算出各类簇的中心特征向量；4、一次查重处理提取文本数据的特征向量，并与数据库中各类簇的中心向量进行比对，对于距离小于设定阈值的中心特征向量，对其类簇进行记录；5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对，对于距离小于一定阈值的特征向量，将其对应的文本数据记为重复文本数据，从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作，提升文本查重效率。

Description

一种基于聚类的文本查重方法

技术领域

本发明涉及文本数据分析及挖掘技术领域，特别涉及一种基于聚类的文本查重方法。

背景技术

近年来，随着学术界造假事件频繁发生，知识产权保护的呼声日益高涨，文本查重技术的研究逐渐成为相关专家和学者的研究热点。目前，国内外有一些学者提出了文本查重方法，经归纳总结，主要可分为以下几类：

1、基于《知网》义原空间的文本查重方法。

该方法首先对文本进行分词，然后将拆分的词语进一步划分为更小的语义单元“义原”。《知网》以义原为基础，通过形式化的语言(类似于本体描述语言)将义原组织在一起，对概念进行描述。在进行查重时，首先进行分词，形成特征词向量，然后将特征向量表示的文本进一步转换为义原向量。

该方法存在如下缺点：

基于义原的概念描述非常复杂，包含八种关系，因此特征向量转化为义原向量也同样存在复杂的问题。由于查重时需要对每一篇文本的义原向量与库中所有文本的义原向量进行比较，因此在文本数据量增加时，文本相似度的计算效率会大大增加。

2、基于动态规划的文本查重算法

该算法采用距离编辑算法比较文本字符串之间的相似性。两个字符串的距离就是一个字符串转换成另外一个字符串过程中的添加、删除、修改数值。

该方法存在如下缺点：

比较方法过于简单，只适用于比较完全的文本重复，对于语义级的文本重复，则很难识别；此外，该方法较适合处理英文查重，在中文文本的查重处理中效率较低。

3、基于文本聚类的工具书查重方法

有学者提出了一种基于文本聚类的工具书查重方法，但其只针对工具书编辑中的词条查重。其针对分词后的词语进行文本聚类，并且数据源是事先给定的有限词汇。并未提出聚类在大篇幅文本查重中的应用。

基于上述分析，目前的文本查重技术均存在着诸多不足，尤其在查重效率方面有较大的改进空间。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于聚类的文本查重方法，该方法将聚类引入查重过程当中，首先对已有文本进行聚类，以类簇中心为基准，进行第一次的粗略查重，排除部分文本后，再进行第二次的精确查重，从而减少不必要的重复性比对工作，提升文本查重效率。

本发明的技术解决方案是：

一种基于聚类的文本查重方法，包括以下步骤：

(1)、进行数据采集处理，具体处理过程如下：

(1a)、接收外部输入的新增文本数据，为所述文本数据分配编号，并对所述文本数据的预处理状态、查重状态和特征向量进行初始化；其中，预处理状态和查重状态的初值为0，特征向量的初值为空；

(1b)将所述文本数据的编号、预处理状态、查重状态和特征向量存储在在数据库中建立的数据表Table_FileRecord中，并将文本数据全文存储在服务器中；

(2)、在数据库中查询预处理状态为0的文本数据，并在服务器中读取相应的文本数据全文，然后通过预处理确定出所述文本数据的特征向量，并将所述特征向量写入到数据表Table_FileRecord中，然后将所述文本数据的预处理状态设置为1，其中：第i个文本数据的特征向量w_i,j为第i个文本数据全文中的第j个特征词的权重；j＝1、2、…、L_i，L_i为第i个文本数据中的特征词个数，i＝1、2、…、M；M为完成预处理的文本数据总数；

(3)、如果数据库中完成预处理的文本数据总数M>1，且对(log₁₀M)²取整后得到的整数K≥2，则对M个文本数据进行聚类处理，形成K个类簇；所述K个类簇的中心向量分别为F₁、F₂、…、F_K；

(4)、在数据库中查询查重状态为0的文本数据，并在数据表Table_FileRecord读取所述文本数据的特征向量，组成查重文本向量集合T_new，即T_new＝{T₁″,T₂″,…,T″_M′}，其中，T₁″,T₂″,…,T″_M′分别查重状态为0的M′个文本数据对应的特征向量；其中M′≤M；

(5)、在q＝1、2、…、M′时，重复以下步骤(5a)～(5b)，实现对集合T_new中各特征向量对应的文本数据的第一次查重处理：

(5a)、在查重文本向量集合T_new中提取第q个特征向量T″_q，并建立特征向量T_q″对应的一次相似向量集合First_near_class_q；所述First_near_class_q的初值为空；

(5b)、计算特征向量T_q″与K个类簇的中心向量F₁、F₂、…、F_K的相似度距离，其中：如果特征向量T_q″与第k个类簇的中心向量F_k之间的相似度距离S′_q,k≤S_{pre_set}，则将中心向量F_k写入一次相似向量集合First_near_class_q中；S_{pre_set}为设定的相似度距离阈值；S′_q,k的计算公式为k＝1、2、…、K；

(6)、在q＝1、2、…、M′时，重复以下步骤(6a)～(6d)，实现对集合T_new中各特征向量对应的文本数据的第二次查重处理，确定出集合T_new对应的文本数据的相似文本：

(6a)、建立特征向量T_q″对应的二次相似向量集合Second_near_class_q；所述Second_near_class_q的初值为空；

(6b)依次读取一次相似向量集合First_near_class_q中的中心向量，如果所述First_near_class_q中有Q_q个中心向量，则读取所述Q_q个中心向量对应类簇中所有的特征向量，组成特征向量集合A_q；

(6c)、计算特征向量T_q″与特征向量集合A_q中每个特征向量的相似度距离，如果特征向量T_q″与所述特征向量的相似度距离小于或等于S_{pre_set}，则将所述特征向量写入二次相似向量集合Second_near_class_q；

(6d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据，作为特征向量T_q″对应文本数据的相似文本。

上述的基于聚类的文本查重方法，在步骤(2)中，通过预处理确定出所述文本数据的特征向量，具体实现过程如下：

(2a)、对读取的文本数据全文进行分词处理，然后对分词处理后的文本数据全文进行解析，提取每项分词组成分词集合WordSplit；

(2b)、采用特征词提取算法对分词集合WordSplit进行处理，提取文本数据的特征词，并采用特征权重计算方法，计算每个特征词对应的权重；然后由所述文本数据的特征词以及特征词的权重组成所述文本数据的特征向量。

上述的基于聚类的文本查重方法，在步骤(2a)中，采用基于马尔科夫模型或最大信息熵的分词算法，对文本数据全文进行分词处理。

上述的基于聚类的文本查重方法，在步骤(2b)中，采用基于文档频率的特征词提取算法，对每个文本数据对应的分词集合进行处理，提取每个文本数据的特征词，具体实现过程如下：

在第i个文本数据对应的分词集合WordSplit_i中提取第j个分词t_i,j，对服务器中M个文本数据的分词集合进行遍历，统计包含分词t_i,j的文本数据个数D_i,j；如果D_min<D_i,j<D_max，则提取分词t_i,j作为第i个文本数据的特征词；其中，D_max为设定的分词出现次数的最高阈值，D_min为设定的分词出现次数的最低阈值；j＝1、2、…、N_i，N_i为第i个文本数据中的分词个数；i＝1、2、…、M。

上述的基于聚类的文本查重方法，在步骤(2b)中，采用信息增益法、χ²统计量法或互信息法，对每个文本数据对应的分词集合进行处理，提取每个文本数据的特征词。

上述的基于聚类的文本查重方法，在步骤(2b)中，采用的特征权重计算方法为布尔权重算法、绝对词频TF算法、倒排文档频度IDF算法、TF-IDF算法或TFC算法。

上述的基于聚类的文本查重方法，在步骤(3)中，对M个文本数据进行聚类处理，形成K个类簇，具体实现过程如下：

(3a)、在M个文本数据中，随机选取K个文本数据作为初始的聚类中心，即将所述K个文本数据对应的K个特征向量作为初始的中心向量；其中，将所述K个中心向量记为T₁′、T₂′、…、T′_K；将聚类中心以外的M-K个文本数据的特征向量记为T′_K+1、T′_K+2、…、T′_M；

(3b)、对M-K个文本数据的特征向量进行聚类划分，将T′_K+1、T′_K+2、…、T′_M划分到以T₁′、T₂′、…、T′_K为中心向量的类簇中，具体划分过程如下：

(3ba)、计算M-K个文本数据的特征向量T′_K+1、T′_K+2、…、T′_M与K个中心向量T₁′、T₂′、…、T′_K之间的相似度距离；其中，第m个特征向量T′_K+m与第n个中心向量T′_n之间的相似度距离m＝1、2、…、M-K，n＝1、2、…、K；

(3bb)、根据M-K个特征向量T′_K+1、T′_K+2、…、T′_M与K个中心向量T₁′、T₂′、…、T′_K之间的相似度距离，进行聚类划分，其中：

如果第m个特征向量T′_K+m与第n′个中心向量T′_n′的相似度距离S_m,n′最小，即S_m,n′＝min(S_m,1,S_m,2,…,S_m,k)，则将第m个特征向量T′_K+m划分到以T′_n′为中心向量的类簇中；m＝1、2、…、M-K，n′＝1、2、…或K；

(3bc)、分别对K个类簇内的特征向量求取平均值，并将所述平均值作为类簇的中心向量；即将第n个类簇的中心向量T_n′更新为第n个类簇内所有特征向量的平均值；

(3bd)、如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离小于或等于设定的误差阈值，则判断聚类划分结束，记录K个类簇的中心向量，分别标记为F₁、F₂、…、F_K；如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离大于设定的误差阈值，则返回步骤(3ba)；

上述的基于聚类的文本查重方法，在步骤(6)完成文本数据第二次查重处理后，根据外部输入的查重结果显示指令，对查重结果进行显示，具体显示实现方法如下：

(7a)、如果查重结果显示指令指定对文本数据q进行查重结果查看，则解析该文本数据的二次相似向量集合Second_near_class_q，根据所述二次相似向量集合Second_near_class_q中相似文本数据的特征向量，在数据库中查询获取对应的相似文本数据；

(7b)、文本数据q的标题为中心节点，以文本数据q的相似文本数据的标题为周边节点，构建可视化网络图，中心节点与周边节点通过连接线连接，连接线上端显示两个文本数据特征向量的相似度距离；其中，连线长度与两个文本数据特征向量间的相似度距离成正比；

(7c)、点击中心节点或周边节点，显示所述节点对应文本数据的详细信息展示列表，包括文本作者、入库时间、相似语句，并将相似语句以不同于文本的颜色进行标识。

上述的基于聚类的文本查重方法，在步骤(7c)中，相似语句的获取方法如下：

对于待显示查重文本数据q，提取文本数据q的全文，按照标点符号对全文文本进行分隔，形成句子的列表，对于每一句文本，进行分词处理并剔除其中的停用词，再按原顺序组合，形成没有停用词的语句串，记为Strq_NoStopWord。依次解析二次相似向量集合Second_near_class_q中的特征向量对应的相似文本数据全文，对于第p个文本数据全文，进行如下操作步骤：

(a)、按第p个文本数据全文的段落数量，该文本数据全文中间的三分之一段落的文本，记为核心文本；

(b)、将核心文本按句子之间的标点符号进行分隔，形成句子的列表，对于每一句文本，进行分词并剔除其中的停用词，再按原顺序组合，形成没有停用词的语句；

(c)、将每一句语句，均与待查重文本数据q对应的Strq_NoStopWord进行全文匹配，如发现匹配语句，则将该语句在文本数据q的全文中标识并高亮显示。

本发明与现有技术相比有益效果为：

(1)本发明的查重方法将查重过程分为一次查重和二次查重两步，一次查重即粗略查重，通过与各类别中心向量进行比对，将明显不具备重复性的类簇直接排除；二次查重为精细查重，对未被排除的类簇，依次与类簇中每个文本数据的特征向量进行比对，从而准确获得重复文档，大大降低了查重的工作量，显著提升了查重计算效率；

(2)本发明的查重系统对查重结果以网络形式进行可视化展示，并根据重复比率确定连接线的长度，从而实现对重复文档、重复程度的清晰化、系统化展现；

(3)本发明展现的查重结果，同时可以作为知识关联网络，用于展现知识资源间的相关程度，从而为专业及研究领域的分布提供数据支撑。

附图说明

图1为本发明基于聚类的文本查重方法的处理流程图；

图2为本发明基于聚类的文本查重方法中实现文本数据采集处理的流程示意图；

图3为本发明基于聚类的文本查重方法中实现文本数据预处理的流程示意图；

图4为本发明基于聚类的文本查重方法中聚类处理的流程图；

图5为本发明基于聚类的文本查重方法中一次查重处理的流程图；

图6为本发明基于聚类的文本查重方法中二次查重处理的流程图；

图7为本发明基于聚类的文本查重方法中的可视化展示实现过程。

具体实施方式

下面结合附图和具体实例对本发明作进一步详细的描述：

(一)、查重方法

本发明提供的基于聚类的文本查重方法在面向用户的信息搜索引擎系统中应用，如图1所示的处理流程图，本发明的基于聚类的文本查重方法，具体包括以下步骤：

(1)、数据采集处理

数据采集处理的流程如图2所示，首先接收客户端输入的新增文本数据，为该文本数据分配编号，并对该文本数据的预处理状态、查重状态和特征向量进行初始化；其中：编号由系统生成，生成规则为“上传日期+顺序码+随机数字”；预处理状态和查重状态的初值为0，表示该文本数据还未进行预处理和查重处理；特征向量的初值为空，即还未提取该文本数据的特征向量。

然后，将文本数据全文保存在文件服务器中，并采用该文本数据的唯一编号进行重新命名；同时，将该文本数据的编号、预处理状态、查重状态和特征向量存储在数据库中建立的数据表Table_FileRecord中。为了便于对文本数据的基本信息进行查询，还可以从新增文本数据中提取属性信息保存在该数据表Table_FileRecord中，该属性信息主要包括文本数据标题、作者、单位、摘要、发送时间等。

(2)、文本数据预处理

预处理用于对文本数据进行分词和特征向量提取，具体实现流程如图3所示。

首先，查询数据库，获取预处理状态为0的文本数据，即查找未进行预处理的文本数据，将对应的文本数据编号写入未处理文本数据集，即Unpretreatment_title集；然后解析Unpretreatment_title集，依次提取出集合中的文本数据编号，并根据此编号在文件服务器中检索，获取相对应的文本数据全文。

然后，通过预处理对文本数据进行分词和特征向量提取，将该特征向量写入到数据表Table_FileRecord中，并将所述文本数据的预处理状态设置为1。其中：第i个文本数据的特征向量w_i,j为第i个文本数据全文中的第j个特征词的权重；j＝1、2、…、L_i，L_i为第i个文本数据中的特征词个数，i＝1、2、…、M；M为完成预处理的文本数据总数；

其中，预处理对文本数据进行分词和特征向量提取的具体实现过程如下：

(a)、采用基于马尔科夫模型或最大信息熵的分词算法，对读取的文本数据全文进行分词处理，然后采用基于规则的停用词识别法，在分词处理后的文本数据全文中查照停用词，并用空格替代这些停用词，从而将每个分词用空格作为分割符进行分割，之后以分割符为标识提取每个分词，组成分词集合WordSplit；

(b)、采用特征词提取算法对分词集合WordSplit进行处理，提取文本数据的特征词，并采用特征权重计算方法，计算每个特征词对应的权重；然后由所述文本数据的特征词以及特征词的权重组成所述文本数据的特征向量。

其中，可以采用信息增益法、χ²统计量法或互信息法，对每个文本数据对应的分词集合进行处理，提取每个文本数据的特征词，并采用布尔权重算法、绝对词频TF算法、倒排文档频度IDF算法、TF-IDF算法或TFC算法计算各特征词的特征权重，具体可以参考2008年清华大学出版社出版的由宗成庆编著的《统计自然语言处理》。

本发明也可以采用基于文档频率的特征词提取算法，对每个文本数据对应的分词集合进行处理，提取每个文本数据的特征词，该方法的特征词提取效率没有信息增益法和互信息法高，但算法实现简单，具体实现过程如下：

(3)聚类处理

聚类处理用于对数据库中已完成预处理的文本数据进行聚类，并计算出各类簇的中心特征向量。具体实现过程如图4所示。

首先，对数据库中完成预处理的文本数据总数进行统计，记为M。

此处进行已完成预处理的文本特征向量的修正操作，即对于数据库中所有已完成预处理的文本数据，将其特征向量长度加和求平均值，将该值作为文本数据特征向量的统一长度，记为L。在一次查重开始之前，对所有已完成预处理的文本数据特征向量进行截取，长度大于L的，则保留L个值，小于L的，则进行补零操作，使所有文本数据的特征向量长度均为L，对于后续新增的文本，也将其特征向量的长度限定为L。

如果M>1，且对(log₁₀M)²取整后得到的整数K≥2，则以K作为类簇个数，进行如下处理：

(3a)、在M个已完成预处理的文本数据中，随机选取K个文本数据作为初始的聚类中心，即将所述K个文本数据对应的K个特征向量作为初始的类簇中心向量；其中，将所述K个中心向量记为T₁′、T₂′、…、T′_K；将聚类中心以外的M-K个文本数据的特征向量记为T′_K+1、T′_K+2、…、T′_M；

(4)一次查重处理

一次查重处理实现对文本数据初次查重，即粗略查重，通过将待查重文本数据的特征向量与各类簇中心向量进行比对，将明显不具备重复性的类簇直接排除，从而减少精细化查重的文本数据量。一次查重处理的具体实现过程如图5所示。

首先在数据库中查询查重状态为0的文本数据，并在数据表Table_FileRecord读取这些未经查重处理的文本数据的特征向量，组成查重文本向量集合T_new，即T_new＝{T₁″,T₂″,…,T″_M′}，其中，T₁″,T₂″,…,T″_M′分别查重状态为0的M′个文本数据对应的特征向量；其中M′≤M；

然后对集合T_new中的每个特征向量进行遍历，即在q＝1、2、…、M′时，重复以下步骤(a)～(b)，实现对集合T_new中各特征向量对应的文本数据的第一次查重处理：

(a)、在查重文本向量集合T_new中提取第q个特征向量T_q″，并建立特征向量T_q″对应的一次相似向量集合First_near_class_q；所述First_near_class_q的初值为空；

(b)、计算特征向量T_q″与K个类簇的中心向量F₁、F₂、…、F_K的相似度距离，其中：如果特征向量T_q″与第k个类簇的中心向量F_k之间的相似度距离S′_q,k≤S_{pre_set}，则将中心向量F_k写入一次相似向量集合First_near_class_q中；S_{pre_set}为设定的相似度距离阈值；S′_q,k的计算公式为k＝1、2、…、K。

该步处理中，如果S′_q,k>S_{pre_set}，则认为以F_k为中心向量的类簇对应的所有的文本数据均与特征向量T_q″对应的文本数据不相似，即将该类簇视为明显不具备重复性的类簇，因此不做任何处理，从而实现了初次的查重处理，缩小了精细化查重的范围，降低了查重计算量。

(5)二次查重处理

二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对，对于距离小于一定阈值的特征向量，将其对应的文本数据记为重复文本数据，从而实现文本数据的查重处理，具体实现流程如图6所示。

在q＝1、2、…、M′时，重复以下步骤(a)～(d)，实现对集合T_new中各特征向量对应的文本数据的第二次查重处理，确定出集合T_new对应的文本数据的相似文本：

(a)、建立特征向量T_q″对应的二次相似向量集合Second_near_class_q；所述Second_near_class_q的初值为空；

(b)、依次读取一次相似向量集合First_near_class_q中的中心向量，如果所述First_near_class_q中有Q_q个中心向量，则读取所述Q_q个中心向量对应类簇中所有的特征向量，组成特征向量集合A_q；

(c)、计算特征向量T_q″与特征向量集合A_q中每个特征向量的相似度距离，如果特征向量T_q″与所述特征向量的相似度距离小于或等于S_{pre_set}，则将所述特征向量写入二次相似向量集合Second_near_class_q；

(d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据，作为特征向量T_q″对应文本数据的相似文本。

(6)、查重结果显示

为了便于客户查看查重结果，本发明采用可视化展示方法对查重结果进行显示。如图7所示，具体实现方法如下：

(1)、对于待显示查重文本数据q，解析该文本数据的二次相似向量集合Second_near_class_q，根据该集合中相似文本数据的特征向量，在数据库中查询获取对应的相似文本数据；

(2)、文本数据q的标题为中心节点，以其对应的相似文本数据的标题为周边节点，构建可视化网络图，中心节点与周边节点通过连接线连接，连接线上端显示相似度距离；其中，连线长度与两个文本数据特征向量间的相似度距离成正比；

(3)、点击中心节点或周边节点，能够显示该节点对应文本数据的详细信息展示列表，包括文本作者、入库时间、相似语句，并将相似语句以不同于文本的颜色进行标识。

其中，相似语句的获取方法如下：

对于待显示查重文本数据q，将该文本数据q中的文本按照标点符号进行分隔，形成句子的列表，对于每一句文本，进行分词处理并剔除其中的停用词，再按原顺序组合，形成没有停用词的语句串，记为Strq_NoStopWord。依次解析二次相似向量集合Second_near_class_q中的文本向量对应的文本数据全文，对于第p个文本数据全文，进行如下操作步骤：

a)按第p个文本数据全文的段落数量，该文本数据全文中间的三分之一段落的文本，记为核心文本；

b)将核心文本按句子之间的标点符号进行分隔，形成句子的列表，对于每一句文本，进行分词并剔除其中的停用词，再按原顺序组合，形成没有停用词的语句；

c)将每一句语句，均与待查重文本数据q对应的Strq_NoStopWord进行全文匹配，如发现匹配语句，则将该语句在文本数据q的全文中标识并高亮显示；

(二)查重系统

本发明的基于聚类的文本查重方法可以基于查重系统，该查重系统包括包括数据采集模块、预处理模块、聚类模块、一次查重模块、二次查重模块和可视化展示模块。

其中，数据采集模块用于实现步骤(1)的数据采集处理，预处理模块用于实现步骤(2)的预处理，聚类模块用于实现步骤(3)的聚类处理，一次查重模块用于实现步骤(4)的一次查重处理，二次查重模块用于实现步骤(5)的二次查重处理，可视化展示模块用于实现步骤(6)的查重结果显示

实施例：

本实施例在面向用户的信息搜索引擎系统中应用基于聚类的文本查重方法，其信息搜索引擎系统由服务器和客户端组成，数据库服务器采用Xeon2.8双核处理器，16G内存，2TB硬盘，负责存储所有的数据信息，同时配置磁带库和备份软件，作为历史数据备份和恢复使用；应用服务器采用Linux操作系统，Oracle11g以上的数据管理软件，用于实现数据采集处理、预处理、聚类处理、一次查重处理、二次查重处理和可视化展示，负责客户端所传递数据的后端解析及处理工作；客户端主机采用3.7GHZ CPU，8G内存，2T硬盘，使用Windows8/7/XP操作系统，通过B/S方式与服务器进行交互，主要功能为前端展示。

本发明的系统及方法已经成功应用于航天科技集团公司第一研究院知识管理系统的知识查重中，通过对新增知识的重复度比对及展示，有效实现了原创知识资源的产权保护，同时也避免了智力成果的重复与浪费，确保了组织知识资产的质量与价值，证明了本发明系统及方法具有高效性、实用性的优点。

以上所述，仅为本发明一个具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims

1.一种基于聚类的文本查重方法，其特征在于包括以下步骤：

(1)、进行数据采集处理，具体处理过程如下：

(4)、在数据库中查询查重状态为0的文本数据，并在数据表Table_FileRecord读取所述文本数据的特征向量，组成查重文本向量集合T_new，即T_new＝{T″₁,T″₂,…,T″_M′}，其中，T″₁,T″₂,…,T″_M′分别查重状态为0的M′个文本数据对应的特征向量；其中M′≤M；

(5a)、在查重文本向量集合T_new中提取第q个特征向量T″_q，并建立特征向量T″_q对应的一次相似向量集合First_near_class_q；所述First_near_class_q的初值为空；

(5b)、计算特征向量T″_q与K个类簇的中心向量F₁、F₂、…、F_K的相似度距离，其中：如果特征向量T″_q与第k个类簇的中心向量F_k之间的相似度距离S′_q,k≤S_{pre_set}，则将中心向量F_k写入一次相似向量集合First_near_class_q中；S_{pre_set}为设定的相似度距离阈值；S′_q,k的计算公式为k＝1、2、…、K；

(6a)、建立特征向量T″_q对应的二次相似向量集合Second_near_class_q；所述Second_near_class_q的初值为空；

(6c)、计算特征向量T″_q与特征向量集合A_q中每个特征向量的相似度距离，如果特征向量T″_q与所述特征向量的相似度距离小于或等于S_{pre_set}，则将所述特征向量写入二次相似向量集合Second_near_class_q；

(6d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据，作为特征向量T″_q对应文本数据的相似文本。

2.根据权利要求1所述的一种基于聚类的文本查重方法，其特征在于：在步骤(2)中，通过预处理确定出所述文本数据的特征向量，具体实现过程如下：

3.根据权利要求2所述的一种基于聚类的文本查重方法，其特征在于：在步骤(2a)中，采用基于马尔科夫模型或最大信息熵的分词算法，对文本数据全文进行分词处理。

4.根据权利要求2所述的一种基于聚类的文本查重方法，其特征在于：在步骤(2b)中，采用基于文档频率的特征词提取算法，对每个文本数据对应的分词集合进行处理，提取每个文本数据的特征词，具体实现过程如下：

5.根据权利要求2所述的一种基于聚类的文本查重方法，其特征在于：在步骤(2b)中，采用信息增益法、χ²统计量法或互信息法，对每个文本数据对应的分词集合进行处理，提取每个文本数据的特征词。

6.根据权利要求2所述的一种基于聚类的文本查重方法，其特征在于：在步骤(2b)中，采用的特征权重计算方法为布尔权重算法、绝对词频TF算法、倒排文档频度IDF算法、TF-IDF算法或TFC算法。

7.根据权利要求1所述的一种基于聚类的文本查重方法，其特征在于：在步骤(3)中，对M个文本数据进行聚类处理，形成K个类簇，具体实现过程如下：

(3a)、在M个文本数据中，随机选取K个文本数据作为初始的聚类中心，即将所述K个文本数据对应的K个特征向量作为初始的中心向量；其中，将所述K个中心向量记为T′₁、T′₂、…、T′_K；将聚类中心以外的M-K个文本数据的特征向量记为T′_K+1、T′_K+2、…、T′_M；

(3b)、对M-K个文本数据的特征向量进行聚类划分，将T′_K+1、T′_K+2、…、T′_M划分到以T′₁、T′₂、…、T′_K为中心向量的类簇中，具体划分过程如下：

(3ba)、计算M-K个文本数据的特征向量T′_K+1、T′_K+2、…、T′_M与K个中心向量T′₁、T′₂、…、T′_K之间的相似度距离；其中，第m个特征向量T′_K+m与第n个中心向量T′_n之间的相似度距离m＝1、2、…、M-K，n＝1、2、…、K；

(3bb)、根据M-K个特征向量T′_K+1、T′_K+2、…、T′_M与K个中心向量T′₁、T′₂、…、T′_K之间的相似度距离，进行聚类划分，其中：

(3bd)、如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离小于或等于设定的误差阈值，则判断聚类划分结束，记录K个类簇的中心向量，分别标记为F₁、F₂、…、F_K；如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离大于设定的误差阈值，则返回步骤(3ba)。

8.根据权利要求1所述的一种基于聚类的文本查重方法，其特征在于：在步骤(6)完成文本数据第二次查重处理后，根据外部输入的查重结果显示指令，对查重结果进行显示，具体显示实现方法如下：

9.根据权利要求8所述的一种基于聚类的文本查重方法，其特征在于：在步骤(7c)中，相似语句的获取方法如下：