CN106446148A - 一种基于聚类的文本查重方法 - Google Patents

一种基于聚类的文本查重方法 Download PDF

Info

Publication number
CN106446148A
CN106446148A CN201610839650.4A CN201610839650A CN106446148A CN 106446148 A CN106446148 A CN 106446148A CN 201610839650 A CN201610839650 A CN 201610839650A CN 106446148 A CN106446148 A CN 106446148A
Authority
CN
China
Prior art keywords
text data
text
vector
duplicate checking
characteristic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610839650.4A
Other languages
English (en)
Other versions
CN106446148B (zh
Inventor
贾倩
王立伟
王彦静
杜俊鹏
姜悦
杨玉堃
张冶
郭大庆
池元成
张丽晔
许怡婷
康磊晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Original Assignee
China Academy of Launch Vehicle Technology CALT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201610839650.4A priority Critical patent/CN106446148B/zh
Publication of CN106446148A publication Critical patent/CN106446148A/zh
Application granted granted Critical
Publication of CN106446148B publication Critical patent/CN106446148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Abstract

本发明公开了一种基于聚类的文本查重方法,方法步骤包括:1、数据采集处理将文本数据存储在数据库和文件服务器中,2、预处理对文本数据进行分词和特征向量提取;3、对数据库中已完成预处理的文本数据进行聚类,并计算出各类簇的中心特征向量;4、一次查重处理提取文本数据的特征向量,并与数据库中各类簇的中心向量进行比对,对于距离小于设定阈值的中心特征向量,对其类簇进行记录;5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对,对于距离小于一定阈值的特征向量,将其对应的文本数据记为重复文本数据,从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作,提升文本查重效率。

Description

一种基于聚类的文本查重方法
技术领域
本发明涉及文本数据分析及挖掘技术领域,特别涉及一种基于聚类的文本查重方法。
背景技术
近年来,随着学术界造假事件频繁发生,知识产权保护的呼声日益高涨,文本查重技术的研究逐渐成为相关专家和学者的研究热点。目前,国内外有一些学者提出了文本查重方法,经归纳总结,主要可分为以下几类:
1、基于《知网》义原空间的文本查重方法。
该方法首先对文本进行分词,然后将拆分的词语进一步划分为更小的语义单元“义原”。《知网》以义原为基础,通过形式化的语言(类似于本体描述语言)将义原组织在一起,对概念进行描述。在进行查重时,首先进行分词,形成特征词向量,然后将特征向量表示的文本进一步转换为义原向量。
该方法存在如下缺点:
基于义原的概念描述非常复杂,包含八种关系,因此特征向量转化为义原向量也同样存在复杂的问题。由于查重时需要对每一篇文本的义原向量与库中所有文本的义原向量进行比较,因此在文本数据量增加时,文本相似度的计算效率会大大增加。
2、基于动态规划的文本查重算法
该算法采用距离编辑算法比较文本字符串之间的相似性。两个字符串的距离就是一个字符串转换成另外一个字符串过程中的添加、删除、修改数值。
该方法存在如下缺点:
比较方法过于简单,只适用于比较完全的文本重复,对于语义级的文本重复,则很难识别;此外,该方法较适合处理英文查重,在中文文本的查重处理中效率较低。
3、基于文本聚类的工具书查重方法
有学者提出了一种基于文本聚类的工具书查重方法,但其只针对工具书编辑中的词条查重。其针对分词后的词语进行文本聚类,并且数据源是事先给定的有限词汇。并未提出聚类在大篇幅文本查重中的应用。
基于上述分析,目前的文本查重技术均存在着诸多不足,尤其在查重效率方面有较大的改进空间。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于聚类的文本查重方法,该方法将聚类引入查重过程当中,首先对已有文本进行聚类,以类簇中心为基准,进行第一次的粗略查重,排除部分文本后,再进行第二次的精确查重,从而减少不必要的重复性比对工作,提升文本查重效率。
本发明的技术解决方案是:
一种基于聚类的文本查重方法,包括以下步骤:
(1)、进行数据采集处理,具体处理过程如下:
(1a)、接收外部输入的新增文本数据,为所述文本数据分配编号,并对所述文本数据的预处理状态、查重状态和特征向量进行初始化;其中,预处理状态和查重状态的初值为0,特征向量的初值为空;
(1b)将所述文本数据的编号、预处理状态、查重状态和特征向量存储在在数据库中建立的数据表Table_FileRecord中,并将文本数据全文存储在服务器中;
(2)、在数据库中查询预处理状态为0的文本数据,并在服务器中读取相应的文本数据全文,然后通过预处理确定出所述文本数据的特征向量,并将所述特征向量写入到数据表Table_FileRecord中,然后将所述文本数据的预处理状态设置为1,其中:第i个文本数据的特征向量wi,j为第i个文本数据全文中的第j个特征词的权重;j=1、2、…、Li,Li为第i个文本数据中的特征词个数,i=1、2、…、M;M为完成预处理的文本数据总数;
(3)、如果数据库中完成预处理的文本数据总数M>1,且对(log10M)2取整后得到的整数K≥2,则对M个文本数据进行聚类处理,形成K个类簇;所述K个类簇的中心向量分别为F1、F2、…、FK
(4)、在数据库中查询查重状态为0的文本数据,并在数据表Table_FileRecord读取所述文本数据的特征向量,组成查重文本向量集合Tnew,即Tnew={T1″,T2″,…,T″M′},其中,T1″,T2″,…,T″M′分别查重状态为0的M′个文本数据对应的特征向量;其中M′≤M;
(5)、在q=1、2、…、M′时,重复以下步骤(5a)~(5b),实现对集合Tnew中各特征向量对应的文本数据的第一次查重处理:
(5a)、在查重文本向量集合Tnew中提取第q个特征向量T″q,并建立特征向量Tq″对应的一次相似向量集合First_near_class_q;所述First_near_class_q的初值为空;
(5b)、计算特征向量Tq″与K个类簇的中心向量F1、F2、…、FK的相似度距离,其中:如果特征向量Tq″与第k个类簇的中心向量Fk之间的相似度距离S′q,k≤Spre_set,则将中心向量Fk写入一次相似向量集合First_near_class_q中;Spre_set为设定的相似度距离阈值;S′q,k的计算公式为k=1、2、…、K;
(6)、在q=1、2、…、M′时,重复以下步骤(6a)~(6d),实现对集合Tnew中各特征向量对应的文本数据的第二次查重处理,确定出集合Tnew对应的文本数据的相似文本:
(6a)、建立特征向量Tq″对应的二次相似向量集合Second_near_class_q;所述Second_near_class_q的初值为空;
(6b)依次读取一次相似向量集合First_near_class_q中的中心向量,如果所述First_near_class_q中有Qq个中心向量,则读取所述Qq个中心向量对应类簇中所有的特征向量,组成特征向量集合A_q;
(6c)、计算特征向量Tq″与特征向量集合A_q中每个特征向量的相似度距离,如果特征向量Tq″与所述特征向量的相似度距离小于或等于Spre_set,则将所述特征向量写入二次相似向量集合Second_near_class_q;
(6d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据,作为特征向量Tq″对应文本数据的相似文本。
上述的基于聚类的文本查重方法,在步骤(2)中,通过预处理确定出所述文本数据的特征向量,具体实现过程如下:
(2a)、对读取的文本数据全文进行分词处理,然后对分词处理后的文本数据全文进行解析,提取每项分词组成分词集合WordSplit;
(2b)、采用特征词提取算法对分词集合WordSplit进行处理,提取文本数据的特征词,并采用特征权重计算方法,计算每个特征词对应的权重;然后由所述文本数据的特征词以及特征词的权重组成所述文本数据的特征向量。
上述的基于聚类的文本查重方法,在步骤(2a)中,采用基于马尔科夫模型或最大信息熵的分词算法,对文本数据全文进行分词处理。
上述的基于聚类的文本查重方法,在步骤(2b)中,采用基于文档频率的特征词提取算法,对每个文本数据对应的分词集合进行处理,提取每个文本数据的特征词,具体实现过程如下:
在第i个文本数据对应的分词集合WordSplit_i中提取第j个分词ti,j,对服务器中M个文本数据的分词集合进行遍历,统计包含分词ti,j的文本数据个数Di,j;如果Dmin<Di,j<Dmax,则提取分词ti,j作为第i个文本数据的特征词;其中,Dmax为设定的分词出现次数的最高阈值,Dmin为设定的分词出现次数的最低阈值;j=1、2、…、Ni,Ni为第i个文本数据中的分词个数;i=1、2、…、M。
上述的基于聚类的文本查重方法,在步骤(2b)中,采用信息增益法、χ2统计量法或互信息法,对每个文本数据对应的分词集合进行处理,提取每个文本数据的特征词。
上述的基于聚类的文本查重方法,在步骤(2b)中,采用的特征权重计算方法为布尔权重算法、绝对词频TF算法、倒排文档频度IDF算法、TF-IDF算法或TFC算法。
上述的基于聚类的文本查重方法,在步骤(3)中,对M个文本数据进行聚类处理,形成K个类簇,具体实现过程如下:
(3a)、在M个文本数据中,随机选取K个文本数据作为初始的聚类中心,即将所述K个文本数据对应的K个特征向量作为初始的中心向量;其中,将所述K个中心向量记为T1′、T2′、…、T′K;将聚类中心以外的M-K个文本数据的特征向量记为T′K+1、T′K+2、…、T′M
(3b)、对M-K个文本数据的特征向量进行聚类划分,将T′K+1、T′K+2、…、T′M划分到以T1′、T2′、…、T′K为中心向量的类簇中,具体划分过程如下:
(3ba)、计算M-K个文本数据的特征向量T′K+1、T′K+2、…、T′M与K个中心向量T1′、T2′、…、T′K之间的相似度距离;其中,第m个特征向量T′K+m与第n个中心向量T′n之间的相似度距离m=1、2、…、M-K,n=1、2、…、K;
(3bb)、根据M-K个特征向量T′K+1、T′K+2、…、T′M与K个中心向量T1′、T2′、…、T′K之间的相似度距离,进行聚类划分,其中:
如果第m个特征向量T′K+m与第n′个中心向量T′n′的相似度距离Sm,n′最小,即Sm,n′=min(Sm,1,Sm,2,…,Sm,k),则将第m个特征向量T′K+m划分到以T′n′为中心向量的类簇中;m=1、2、…、M-K,n′=1、2、…或K;
(3bc)、分别对K个类簇内的特征向量求取平均值,并将所述平均值作为类簇的中心向量;即将第n个类簇的中心向量Tn′更新为第n个类簇内所有特征向量的平均值;
(3bd)、如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离小于或等于设定的误差阈值,则判断聚类划分结束,记录K个类簇的中心向量,分别标记为F1、F2、…、FK;如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离大于设定的误差阈值,则返回步骤(3ba);
上述的基于聚类的文本查重方法,在步骤(6)完成文本数据第二次查重处理后,根据外部输入的查重结果显示指令,对查重结果进行显示,具体显示实现方法如下:
(7a)、如果查重结果显示指令指定对文本数据q进行查重结果查看,则解析该文本数据的二次相似向量集合Second_near_class_q,根据所述二次相似向量集合Second_near_class_q中相似文本数据的特征向量,在数据库中查询获取对应的相似文本数据;
(7b)、文本数据q的标题为中心节点,以文本数据q的相似文本数据的标题为周边节点,构建可视化网络图,中心节点与周边节点通过连接线连接,连接线上端显示两个文本数据特征向量的相似度距离;其中,连线长度与两个文本数据特征向量间的相似度距离成正比;
(7c)、点击中心节点或周边节点,显示所述节点对应文本数据的详细信息展示列表,包括文本作者、入库时间、相似语句,并将相似语句以不同于文本的颜色进行标识。
上述的基于聚类的文本查重方法,在步骤(7c)中,相似语句的获取方法如下:
对于待显示查重文本数据q,提取文本数据q的全文,按照标点符号对全文文本进行分隔,形成句子的列表,对于每一句文本,进行分词处理并剔除其中的停用词,再按原顺序组合,形成没有停用词的语句串,记为Strq_NoStopWord。依次解析二次相似向量集合Second_near_class_q中的特征向量对应的相似文本数据全文,对于第p个文本数据全文,进行如下操作步骤:
(a)、按第p个文本数据全文的段落数量,该文本数据全文中间的三分之一段落的文本,记为核心文本;
(b)、将核心文本按句子之间的标点符号进行分隔,形成句子的列表,对于每一句文本,进行分词并剔除其中的停用词,再按原顺序组合,形成没有停用词的语句;
(c)、将每一句语句,均与待查重文本数据q对应的Strq_NoStopWord进行全文匹配,如发现匹配语句,则将该语句在文本数据q的全文中标识并高亮显示。
本发明与现有技术相比有益效果为:
(1)本发明的查重方法将查重过程分为一次查重和二次查重两步,一次查重即粗略查重,通过与各类别中心向量进行比对,将明显不具备重复性的类簇直接排除;二次查重为精细查重,对未被排除的类簇,依次与类簇中每个文本数据的特征向量进行比对,从而准确获得重复文档,大大降低了查重的工作量,显著提升了查重计算效率;
(2)本发明的查重系统对查重结果以网络形式进行可视化展示,并根据重复比率确定连接线的长度,从而实现对重复文档、重复程度的清晰化、系统化展现;
(3)本发明展现的查重结果,同时可以作为知识关联网络,用于展现知识资源间的相关程度,从而为专业及研究领域的分布提供数据支撑。
附图说明
图1为本发明基于聚类的文本查重方法的处理流程图;
图2为本发明基于聚类的文本查重方法中实现文本数据采集处理的流程示意图;
图3为本发明基于聚类的文本查重方法中实现文本数据预处理的流程示意图;
图4为本发明基于聚类的文本查重方法中聚类处理的流程图;
图5为本发明基于聚类的文本查重方法中一次查重处理的流程图;
图6为本发明基于聚类的文本查重方法中二次查重处理的流程图;
图7为本发明基于聚类的文本查重方法中的可视化展示实现过程。
具体实施方式
下面结合附图和具体实例对本发明作进一步详细的描述:
(一)、查重方法
本发明提供的基于聚类的文本查重方法在面向用户的信息搜索引擎系统中应用,如图1所示的处理流程图,本发明的基于聚类的文本查重方法,具体包括以下步骤:
(1)、数据采集处理
数据采集处理的流程如图2所示,首先接收客户端输入的新增文本数据,为该文本数据分配编号,并对该文本数据的预处理状态、查重状态和特征向量进行初始化;其中:编号由系统生成,生成规则为“上传日期+顺序码+随机数字”;预处理状态和查重状态的初值为0,表示该文本数据还未进行预处理和查重处理;特征向量的初值为空,即还未提取该文本数据的特征向量。
然后,将文本数据全文保存在文件服务器中,并采用该文本数据的唯一编号进行重新命名;同时,将该文本数据的编号、预处理状态、查重状态和特征向量存储在数据库中建立的数据表Table_FileRecord中。为了便于对文本数据的基本信息进行查询,还可以从新增文本数据中提取属性信息保存在该数据表Table_FileRecord中,该属性信息主要包括文本数据标题、作者、单位、摘要、发送时间等。
(2)、文本数据预处理
预处理用于对文本数据进行分词和特征向量提取,具体实现流程如图3所示。
首先,查询数据库,获取预处理状态为0的文本数据,即查找未进行预处理的文本数据,将对应的文本数据编号写入未处理文本数据集,即Unpretreatment_title集;然后解析Unpretreatment_title集,依次提取出集合中的文本数据编号,并根据此编号在文件服务器中检索,获取相对应的文本数据全文。
然后,通过预处理对文本数据进行分词和特征向量提取,将该特征向量写入到数据表Table_FileRecord中,并将所述文本数据的预处理状态设置为1。其中:第i个文本数据的特征向量wi,j为第i个文本数据全文中的第j个特征词的权重;j=1、2、…、Li,Li为第i个文本数据中的特征词个数,i=1、2、…、M;M为完成预处理的文本数据总数;
其中,预处理对文本数据进行分词和特征向量提取的具体实现过程如下:
(a)、采用基于马尔科夫模型或最大信息熵的分词算法,对读取的文本数据全文进行分词处理,然后采用基于规则的停用词识别法,在分词处理后的文本数据全文中查照停用词,并用空格替代这些停用词,从而将每个分词用空格作为分割符进行分割,之后以分割符为标识提取每个分词,组成分词集合WordSplit;
(b)、采用特征词提取算法对分词集合WordSplit进行处理,提取文本数据的特征词,并采用特征权重计算方法,计算每个特征词对应的权重;然后由所述文本数据的特征词以及特征词的权重组成所述文本数据的特征向量。
其中,可以采用信息增益法、χ2统计量法或互信息法,对每个文本数据对应的分词集合进行处理,提取每个文本数据的特征词,并采用布尔权重算法、绝对词频TF算法、倒排文档频度IDF算法、TF-IDF算法或TFC算法计算各特征词的特征权重,具体可以参考2008年清华大学出版社出版的由宗成庆编著的《统计自然语言处理》。
本发明也可以采用基于文档频率的特征词提取算法,对每个文本数据对应的分词集合进行处理,提取每个文本数据的特征词,该方法的特征词提取效率没有信息增益法和互信息法高,但算法实现简单,具体实现过程如下:
在第i个文本数据对应的分词集合WordSplit_i中提取第j个分词ti,j,对服务器中M个文本数据的分词集合进行遍历,统计包含分词ti,j的文本数据个数Di,j;如果Dmin<Di,j<Dmax,则提取分词ti,j作为第i个文本数据的特征词;其中,Dmax为设定的分词出现次数的最高阈值,Dmin为设定的分词出现次数的最低阈值;j=1、2、…、Ni,Ni为第i个文本数据中的分词个数;i=1、2、…、M。
(3)聚类处理
聚类处理用于对数据库中已完成预处理的文本数据进行聚类,并计算出各类簇的中心特征向量。具体实现过程如图4所示。
首先,对数据库中完成预处理的文本数据总数进行统计,记为M。
此处进行已完成预处理的文本特征向量的修正操作,即对于数据库中所有已完成预处理的文本数据,将其特征向量长度加和求平均值,将该值作为文本数据特征向量的统一长度,记为L。在一次查重开始之前,对所有已完成预处理的文本数据特征向量进行截取,长度大于L的,则保留L个值,小于L的,则进行补零操作,使所有文本数据的特征向量长度均为L,对于后续新增的文本,也将其特征向量的长度限定为L。
如果M>1,且对(log10M)2取整后得到的整数K≥2,则以K作为类簇个数,进行如下处理:
(3a)、在M个已完成预处理的文本数据中,随机选取K个文本数据作为初始的聚类中心,即将所述K个文本数据对应的K个特征向量作为初始的类簇中心向量;其中,将所述K个中心向量记为T1′、T2′、…、T′K;将聚类中心以外的M-K个文本数据的特征向量记为T′K+1、T′K+2、…、T′M
(3b)、对M-K个文本数据的特征向量进行聚类划分,将T′K+1、T′K+2、…、T′M划分到以T1′、T2′、…、T′K为中心向量的类簇中,具体划分过程如下:
(3ba)、计算M-K个文本数据的特征向量T′K+1、T′K+2、…、T′M与K个中心向量T1′、T2′、…、T′K之间的相似度距离;其中,第m个特征向量T′K+m与第n个中心向量T′n之间的相似度距离m=1、2、…、M-K,n=1、2、…、K;
(3bb)、根据M-K个特征向量T′K+1、T′K+2、…、T′M与K个中心向量T1′、T2′、…、T′K之间的相似度距离,进行聚类划分,其中:
如果第m个特征向量T′K+m与第n′个中心向量T′n′的相似度距离Sm,n′最小,即Sm,n′=min(Sm,1,Sm,2,…,Sm,k),则将第m个特征向量T′K+m划分到以T′n′为中心向量的类簇中;m=1、2、…、M-K,n′=1、2、…或K;
(3bc)、分别对K个类簇内的特征向量求取平均值,并将所述平均值作为类簇的中心向量;即将第n个类簇的中心向量Tn′更新为第n个类簇内所有特征向量的平均值;
(3bd)、如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离小于或等于设定的误差阈值,则判断聚类划分结束,记录K个类簇的中心向量,分别标记为F1、F2、…、FK;如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离大于设定的误差阈值,则返回步骤(3ba);
(4)一次查重处理
一次查重处理实现对文本数据初次查重,即粗略查重,通过将待查重文本数据的特征向量与各类簇中心向量进行比对,将明显不具备重复性的类簇直接排除,从而减少精细化查重的文本数据量。一次查重处理的具体实现过程如图5所示。
首先在数据库中查询查重状态为0的文本数据,并在数据表Table_FileRecord读取这些未经查重处理的文本数据的特征向量,组成查重文本向量集合Tnew,即Tnew={T1″,T2″,…,T″M′},其中,T1″,T2″,…,T″M′分别查重状态为0的M′个文本数据对应的特征向量;其中M′≤M;
然后对集合Tnew中的每个特征向量进行遍历,即在q=1、2、…、M′时,重复以下步骤(a)~(b),实现对集合Tnew中各特征向量对应的文本数据的第一次查重处理:
(a)、在查重文本向量集合Tnew中提取第q个特征向量Tq″,并建立特征向量Tq″对应的一次相似向量集合First_near_class_q;所述First_near_class_q的初值为空;
(b)、计算特征向量Tq″与K个类簇的中心向量F1、F2、…、FK的相似度距离,其中:如果特征向量Tq″与第k个类簇的中心向量Fk之间的相似度距离S′q,k≤Spre_set,则将中心向量Fk写入一次相似向量集合First_near_class_q中;Spre_set为设定的相似度距离阈值;S′q,k的计算公式为k=1、2、…、K。
该步处理中,如果S′q,k>Spre_set,则认为以Fk为中心向量的类簇对应的所有的文本数据均与特征向量Tq″对应的文本数据不相似,即将该类簇视为明显不具备重复性的类簇,因此不做任何处理,从而实现了初次的查重处理,缩小了精细化查重的范围,降低了查重计算量。
(5)二次查重处理
二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对,对于距离小于一定阈值的特征向量,将其对应的文本数据记为重复文本数据,从而实现文本数据的查重处理,具体实现流程如图6所示。
在q=1、2、…、M′时,重复以下步骤(a)~(d),实现对集合Tnew中各特征向量对应的文本数据的第二次查重处理,确定出集合Tnew对应的文本数据的相似文本:
(a)、建立特征向量Tq″对应的二次相似向量集合Second_near_class_q;所述Second_near_class_q的初值为空;
(b)、依次读取一次相似向量集合First_near_class_q中的中心向量,如果所述First_near_class_q中有Qq个中心向量,则读取所述Qq个中心向量对应类簇中所有的特征向量,组成特征向量集合A_q;
(c)、计算特征向量Tq″与特征向量集合A_q中每个特征向量的相似度距离,如果特征向量Tq″与所述特征向量的相似度距离小于或等于Spre_set,则将所述特征向量写入二次相似向量集合Second_near_class_q;
(d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据,作为特征向量Tq″对应文本数据的相似文本。
(6)、查重结果显示
为了便于客户查看查重结果,本发明采用可视化展示方法对查重结果进行显示。如图7所示,具体实现方法如下:
(1)、对于待显示查重文本数据q,解析该文本数据的二次相似向量集合Second_near_class_q,根据该集合中相似文本数据的特征向量,在数据库中查询获取对应的相似文本数据;
(2)、文本数据q的标题为中心节点,以其对应的相似文本数据的标题为周边节点,构建可视化网络图,中心节点与周边节点通过连接线连接,连接线上端显示相似度距离;其中,连线长度与两个文本数据特征向量间的相似度距离成正比;
(3)、点击中心节点或周边节点,能够显示该节点对应文本数据的详细信息展示列表,包括文本作者、入库时间、相似语句,并将相似语句以不同于文本的颜色进行标识。
其中,相似语句的获取方法如下:
对于待显示查重文本数据q,将该文本数据q中的文本按照标点符号进行分隔,形成句子的列表,对于每一句文本,进行分词处理并剔除其中的停用词,再按原顺序组合,形成没有停用词的语句串,记为Strq_NoStopWord。依次解析二次相似向量集合Second_near_class_q中的文本向量对应的文本数据全文,对于第p个文本数据全文,进行如下操作步骤:
a)按第p个文本数据全文的段落数量,该文本数据全文中间的三分之一段落的文本,记为核心文本;
b)将核心文本按句子之间的标点符号进行分隔,形成句子的列表,对于每一句文本,进行分词并剔除其中的停用词,再按原顺序组合,形成没有停用词的语句;
c)将每一句语句,均与待查重文本数据q对应的Strq_NoStopWord进行全文匹配,如发现匹配语句,则将该语句在文本数据q的全文中标识并高亮显示;
(二)查重系统
本发明的基于聚类的文本查重方法可以基于查重系统,该查重系统包括包括数据采集模块、预处理模块、聚类模块、一次查重模块、二次查重模块和可视化展示模块。
其中,数据采集模块用于实现步骤(1)的数据采集处理,预处理模块用于实现步骤(2)的预处理,聚类模块用于实现步骤(3)的聚类处理,一次查重模块用于实现步骤(4)的一次查重处理,二次查重模块用于实现步骤(5)的二次查重处理,可视化展示模块用于实现步骤(6)的查重结果显示
实施例:
本实施例在面向用户的信息搜索引擎系统中应用基于聚类的文本查重方法,其信息搜索引擎系统由服务器和客户端组成,数据库服务器采用Xeon2.8双核处理器,16G内存,2TB硬盘,负责存储所有的数据信息,同时配置磁带库和备份软件,作为历史数据备份和恢复使用;应用服务器采用Linux操作系统,Oracle11g以上的数据管理软件,用于实现数据采集处理、预处理、聚类处理、一次查重处理、二次查重处理和可视化展示,负责客户端所传递数据的后端解析及处理工作;客户端主机采用3.7GHZ CPU,8G内存,2T硬盘,使用Windows8/7/XP操作系统,通过B/S方式与服务器进行交互,主要功能为前端展示。
本发明的系统及方法已经成功应用于航天科技集团公司第一研究院知识管理系统的知识查重中,通过对新增知识的重复度比对及展示,有效实现了原创知识资源的产权保护,同时也避免了智力成果的重复与浪费,确保了组织知识资产的质量与价值,证明了本发明系统及方法具有高效性、实用性的优点。
以上所述,仅为本发明一个具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims (9)

1.一种基于聚类的文本查重方法,其特征在于包括以下步骤:
(1)、进行数据采集处理,具体处理过程如下:
(1a)、接收外部输入的新增文本数据,为所述文本数据分配编号,并对所述文本数据的预处理状态、查重状态和特征向量进行初始化;其中,预处理状态和查重状态的初值为0,特征向量的初值为空;
(1b)将所述文本数据的编号、预处理状态、查重状态和特征向量存储在在数据库中建立的数据表Table_FileRecord中,并将文本数据全文存储在服务器中;
(2)、在数据库中查询预处理状态为0的文本数据,并在服务器中读取相应的文本数据全文,然后通过预处理确定出所述文本数据的特征向量,并将所述特征向量写入到数据表Table_FileRecord中,然后将所述文本数据的预处理状态设置为1,其中:第i个文本数据的特征向量wi,j为第i个文本数据全文中的第j个特征词的权重;j=1、2、…、Li,Li为第i个文本数据中的特征词个数,i=1、2、…、M;M为完成预处理的文本数据总数;
(3)、如果数据库中完成预处理的文本数据总数M>1,且对(log10M)2取整后得到的整数K≥2,则对M个文本数据进行聚类处理,形成K个类簇;所述K个类簇的中心向量分别为F1、F2、…、FK
(4)、在数据库中查询查重状态为0的文本数据,并在数据表Table_FileRecord读取所述文本数据的特征向量,组成查重文本向量集合Tnew,即Tnew={T″1,T″2,…,T″M′},其中,T″1,T″2,…,T″M′分别查重状态为0的M′个文本数据对应的特征向量;其中M′≤M;
(5)、在q=1、2、…、M′时,重复以下步骤(5a)~(5b),实现对集合Tnew中各特征向量对应的文本数据的第一次查重处理:
(5a)、在查重文本向量集合Tnew中提取第q个特征向量T″q,并建立特征向量T″q对应的一次相似向量集合First_near_class_q;所述First_near_class_q的初值为空;
(5b)、计算特征向量T″q与K个类簇的中心向量F1、F2、…、FK的相似度距离,其中:如果特征向量T″q与第k个类簇的中心向量Fk之间的相似度距离S′q,k≤Spre_set,则将中心向量Fk写入一次相似向量集合First_near_class_q中;Spre_set为设定的相似度距离阈值;S′q,k的计算公式为k=1、2、…、K;
(6)、在q=1、2、…、M′时,重复以下步骤(6a)~(6d),实现对集合Tnew中各特征向量对应的文本数据的第二次查重处理,确定出集合Tnew对应的文本数据的相似文本:
(6a)、建立特征向量T″q对应的二次相似向量集合Second_near_class_q;所述Second_near_class_q的初值为空;
(6b)依次读取一次相似向量集合First_near_class_q中的中心向量,如果所述First_near_class_q中有Qq个中心向量,则读取所述Qq个中心向量对应类簇中所有的特征向量,组成特征向量集合A_q;
(6c)、计算特征向量T″q与特征向量集合A_q中每个特征向量的相似度距离,如果特征向量T″q与所述特征向量的相似度距离小于或等于Spre_set,则将所述特征向量写入二次相似向量集合Second_near_class_q;
(6d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据,作为特征向量T″q对应文本数据的相似文本。
2.根据权利要求1所述的一种基于聚类的文本查重方法,其特征在于:在步骤(2)中,通过预处理确定出所述文本数据的特征向量,具体实现过程如下:
(2a)、对读取的文本数据全文进行分词处理,然后对分词处理后的文本数据全文进行解析,提取每项分词组成分词集合WordSplit;
(2b)、采用特征词提取算法对分词集合WordSplit进行处理,提取文本数据的特征词,并采用特征权重计算方法,计算每个特征词对应的权重;然后由所述文本数据的特征词以及特征词的权重组成所述文本数据的特征向量。
3.根据权利要求2所述的一种基于聚类的文本查重方法,其特征在于:在步骤(2a)中,采用基于马尔科夫模型或最大信息熵的分词算法,对文本数据全文进行分词处理。
4.根据权利要求2所述的一种基于聚类的文本查重方法,其特征在于:在步骤(2b)中,采用基于文档频率的特征词提取算法,对每个文本数据对应的分词集合进行处理,提取每个文本数据的特征词,具体实现过程如下:
在第i个文本数据对应的分词集合WordSplit_i中提取第j个分词ti,j,对服务器中M个文本数据的分词集合进行遍历,统计包含分词ti,j的文本数据个数Di,j;如果Dmin<Di,j<Dmax,则提取分词ti,j作为第i个文本数据的特征词;其中,Dmax为设定的分词出现次数的最高阈值,Dmin为设定的分词出现次数的最低阈值;j=1、2、…、Ni,Ni为第i个文本数据中的分词个数;i=1、2、…、M。
5.根据权利要求2所述的一种基于聚类的文本查重方法,其特征在于:在步骤(2b)中,采用信息增益法、χ2统计量法或互信息法,对每个文本数据对应的分词集合进行处理,提取每个文本数据的特征词。
6.根据权利要求2所述的一种基于聚类的文本查重方法,其特征在于:在步骤(2b)中,采用的特征权重计算方法为布尔权重算法、绝对词频TF算法、倒排文档频度IDF算法、TF-IDF算法或TFC算法。
7.根据权利要求1所述的一种基于聚类的文本查重方法,其特征在于:在步骤(3)中,对M个文本数据进行聚类处理,形成K个类簇,具体实现过程如下:
(3a)、在M个文本数据中,随机选取K个文本数据作为初始的聚类中心,即将所述K个文本数据对应的K个特征向量作为初始的中心向量;其中,将所述K个中心向量记为T′1、T′2、…、T′K;将聚类中心以外的M-K个文本数据的特征向量记为T′K+1、T′K+2、…、T′M
(3b)、对M-K个文本数据的特征向量进行聚类划分,将T′K+1、T′K+2、…、T′M划分到以T′1、T′2、…、T′K为中心向量的类簇中,具体划分过程如下:
(3ba)、计算M-K个文本数据的特征向量T′K+1、T′K+2、…、T′M与K个中心向量T′1、T′2、…、T′K之间的相似度距离;其中,第m个特征向量T′K+m与第n个中心向量T′n之间的相似度距离m=1、2、…、M-K,n=1、2、…、K;
(3bb)、根据M-K个特征向量T′K+1、T′K+2、…、T′M与K个中心向量T′1、T′2、…、T′K之间的相似度距离,进行聚类划分,其中:
如果第m个特征向量T′K+m与第n′个中心向量T′n′的相似度距离Sm,n′最小,即Sm,n′=min(Sm,1,Sm,2,…,Sm,k),则将第m个特征向量T′K+m划分到以T′n′为中心向量的类簇中;m=1、2、…、M-K,n′=1、2、…或K;
(3bc)、分别对K个类簇内的特征向量求取平均值,并将所述平均值作为类簇的中心向量;即将第n个类簇的中心向量Tn′更新为第n个类簇内所有特征向量的平均值;
(3bd)、如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离小于或等于设定的误差阈值,则判断聚类划分结束,记录K个类簇的中心向量,分别标记为F1、F2、…、FK;如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离大于设定的误差阈值,则返回步骤(3ba)。
8.根据权利要求1所述的一种基于聚类的文本查重方法,其特征在于:在步骤(6)完成文本数据第二次查重处理后,根据外部输入的查重结果显示指令,对查重结果进行显示,具体显示实现方法如下:
(7a)、如果查重结果显示指令指定对文本数据q进行查重结果查看,则解析该文本数据的二次相似向量集合Second_near_class_q,根据所述二次相似向量集合Second_near_class_q中相似文本数据的特征向量,在数据库中查询获取对应的相似文本数据;
(7b)、文本数据q的标题为中心节点,以文本数据q的相似文本数据的标题为周边节点,构建可视化网络图,中心节点与周边节点通过连接线连接,连接线上端显示两个文本数据特征向量的相似度距离;其中,连线长度与两个文本数据特征向量间的相似度距离成正比;
(7c)、点击中心节点或周边节点,显示所述节点对应文本数据的详细信息展示列表,包括文本作者、入库时间、相似语句,并将相似语句以不同于文本的颜色进行标识。
9.根据权利要求8所述的一种基于聚类的文本查重方法,其特征在于:在步骤(7c)中,相似语句的获取方法如下:
对于待显示查重文本数据q,提取文本数据q的全文,按照标点符号对全文文本进行分隔,形成句子的列表,对于每一句文本,进行分词处理并剔除其中的停用词,再按原顺序组合,形成没有停用词的语句串,记为Strq_NoStopWord。依次解析二次相似向量集合Second_near_class_q中的特征向量对应的相似文本数据全文,对于第p个文本数据全文,进行如下操作步骤:
(a)、按第p个文本数据全文的段落数量,该文本数据全文中间的三分之一段落的文本,记为核心文本;
(b)、将核心文本按句子之间的标点符号进行分隔,形成句子的列表,对于每一句文本,进行分词并剔除其中的停用词,再按原顺序组合,形成没有停用词的语句;
(c)、将每一句语句,均与待查重文本数据q对应的Strq_NoStopWord进行全文匹配,如发现匹配语句,则将该语句在文本数据q的全文中标识并高亮显示。
CN201610839650.4A 2016-09-21 2016-09-21 一种基于聚类的文本查重方法 Active CN106446148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610839650.4A CN106446148B (zh) 2016-09-21 2016-09-21 一种基于聚类的文本查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610839650.4A CN106446148B (zh) 2016-09-21 2016-09-21 一种基于聚类的文本查重方法

Publications (2)

Publication Number Publication Date
CN106446148A true CN106446148A (zh) 2017-02-22
CN106446148B CN106446148B (zh) 2019-08-09

Family

ID=58166697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610839650.4A Active CN106446148B (zh) 2016-09-21 2016-09-21 一种基于聚类的文本查重方法

Country Status (1)

Country Link
CN (1) CN106446148B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067045A (zh) * 2017-05-31 2017-08-18 北京京东尚科信息技术有限公司 数据聚类方法、装置、计算机可读介质和电子设备
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107392121A (zh) * 2017-07-06 2017-11-24 同济大学 一种基于指纹识别的自适应设备识别方法及系统
CN107609062A (zh) * 2017-08-29 2018-01-19 口碑(上海)信息技术有限公司 应用于终端的信息处理方法及装置
CN107832381A (zh) * 2017-10-30 2018-03-23 北京大数元科技发展有限公司 一种从互联网采集的政府采购中标公告判重方法及系统
CN108073708A (zh) * 2017-12-20 2018-05-25 北京百度网讯科技有限公司 信息输出方法和装置
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN108461111A (zh) * 2018-03-16 2018-08-28 重庆医科大学 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN109086594A (zh) * 2018-09-21 2018-12-25 郑州云海信息技术有限公司 一种实现滑动型验证码验证的方法、装置及系统
CN109299093A (zh) * 2018-09-17 2019-02-01 平安科技(深圳)有限公司 Hive数据库中拉链表的更新方法、装置和计算机设备
CN109508087A (zh) * 2018-09-25 2019-03-22 易念科技(深圳)有限公司 脑纹信号识别方法及终端设备
CN109697231A (zh) * 2017-10-24 2019-04-30 北京国双科技有限公司 一种案件文书的显示方法、系统、存储介质和处理器
CN109710898A (zh) * 2018-12-07 2019-05-03 网智天元科技集团股份有限公司 文本的查重方法、装置、电子设备及存储介质
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110147531A (zh) * 2018-06-11 2019-08-20 广州腾讯科技有限公司 一种相似文本内容的识别方法、装置及存储介质
CN110442489A (zh) * 2018-05-02 2019-11-12 阿里巴巴集团控股有限公司 数据处理的方法和存储介质
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110727762A (zh) * 2019-09-17 2020-01-24 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN110750963A (zh) * 2018-07-02 2020-02-04 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN110851761A (zh) * 2020-01-15 2020-02-28 支付宝(杭州)信息技术有限公司 基于区块链的侵权检测方法、装置、设备及存储介质
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111460088A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 相似文本的检索方法、装置和系统
WO2020199482A1 (zh) * 2019-04-04 2020-10-08 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112214983A (zh) * 2020-09-21 2021-01-12 远光软件股份有限公司 一种数据记录查重方法及系统
CN112784046A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 文本聚簇的方法、装置、设备及存储介质
CN112948545A (zh) * 2021-02-25 2021-06-11 平安国际智慧城市科技股份有限公司 查重方法、终端设备及计算机可读存储介质
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN114969348A (zh) * 2022-07-27 2022-08-30 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统
CN115757461A (zh) * 2022-11-09 2023-03-07 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法
CN115774785A (zh) * 2023-02-10 2023-03-10 京华信息科技股份有限公司 一种基于特征向量空间的查重方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453767B2 (ja) * 2019-09-25 2024-03-21 キヤノン株式会社 情報処理装置、情報処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104331510A (zh) * 2014-11-24 2015-02-04 小米科技有限责任公司 信息管理方法和装置
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104331510A (zh) * 2014-11-24 2015-02-04 小米科技有限责任公司 信息管理方法和装置
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107067045A (zh) * 2017-05-31 2017-08-18 北京京东尚科信息技术有限公司 数据聚类方法、装置、计算机可读介质和电子设备
CN107392121A (zh) * 2017-07-06 2017-11-24 同济大学 一种基于指纹识别的自适应设备识别方法及系统
CN107392121B (zh) * 2017-07-06 2023-05-09 同济大学 一种基于指纹识别的自适应设备识别方法及系统
CN107609062B (zh) * 2017-08-29 2020-07-10 口碑(上海)信息技术有限公司 应用于终端的信息处理方法及装置
CN107609062A (zh) * 2017-08-29 2018-01-19 口碑(上海)信息技术有限公司 应用于终端的信息处理方法及装置
CN109697231A (zh) * 2017-10-24 2019-04-30 北京国双科技有限公司 一种案件文书的显示方法、系统、存储介质和处理器
CN107832381A (zh) * 2017-10-30 2018-03-23 北京大数元科技发展有限公司 一种从互联网采集的政府采购中标公告判重方法及系统
CN108073708A (zh) * 2017-12-20 2018-05-25 北京百度网讯科技有限公司 信息输出方法和装置
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN108461111A (zh) * 2018-03-16 2018-08-28 重庆医科大学 中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
CN110442489A (zh) * 2018-05-02 2019-11-12 阿里巴巴集团控股有限公司 数据处理的方法和存储介质
CN110442489B (zh) * 2018-05-02 2024-03-01 阿里巴巴集团控股有限公司 数据处理的方法和存储介质
CN110147531B (zh) * 2018-06-11 2024-04-23 广州腾讯科技有限公司 一种相似文本内容的识别方法、装置及存储介质
CN110147531A (zh) * 2018-06-11 2019-08-20 广州腾讯科技有限公司 一种相似文本内容的识别方法、装置及存储介质
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN110750963B (zh) * 2018-07-02 2023-09-26 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN110750963A (zh) * 2018-07-02 2020-02-04 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109299093A (zh) * 2018-09-17 2019-02-01 平安科技(深圳)有限公司 Hive数据库中拉链表的更新方法、装置和计算机设备
CN109086594A (zh) * 2018-09-21 2018-12-25 郑州云海信息技术有限公司 一种实现滑动型验证码验证的方法、装置及系统
CN109508087A (zh) * 2018-09-25 2019-03-22 易念科技(深圳)有限公司 脑纹信号识别方法及终端设备
CN109710898A (zh) * 2018-12-07 2019-05-03 网智天元科技集团股份有限公司 文本的查重方法、装置、电子设备及存储介质
CN109710898B (zh) * 2018-12-07 2023-02-03 网智天元科技集团股份有限公司 文本的查重方法、装置、电子设备及存储介质
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN111460088A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 相似文本的检索方法、装置和系统
WO2020199482A1 (zh) * 2019-04-04 2020-10-08 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质
CN110532352B (zh) * 2019-08-20 2023-10-27 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110727762B (zh) * 2019-09-17 2022-04-29 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN110727762A (zh) * 2019-09-17 2020-01-24 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN110851761A (zh) * 2020-01-15 2020-02-28 支付宝(杭州)信息技术有限公司 基于区块链的侵权检测方法、装置、设备及存储介质
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN111753060B (zh) * 2020-07-29 2023-09-26 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112214983A (zh) * 2020-09-21 2021-01-12 远光软件股份有限公司 一种数据记录查重方法及系统
CN112214983B (zh) * 2020-09-21 2023-08-11 远光软件股份有限公司 一种数据记录查重方法及系统
CN112784046A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 文本聚簇的方法、装置、设备及存储介质
CN112948545A (zh) * 2021-02-25 2021-06-11 平安国际智慧城市科技股份有限公司 查重方法、终端设备及计算机可读存储介质
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN114969348A (zh) * 2022-07-27 2022-08-30 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统
CN114969348B (zh) * 2022-07-27 2023-10-27 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统
CN115757461A (zh) * 2022-11-09 2023-03-07 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法
CN115774785B (zh) * 2023-02-10 2023-04-25 京华信息科技股份有限公司 一种基于特征向量空间的查重方法及系统
CN115774785A (zh) * 2023-02-10 2023-03-10 京华信息科技股份有限公司 一种基于特征向量空间的查重方法及系统

Also Published As

Publication number Publication date
CN106446148B (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN106446148A (zh) 一种基于聚类的文本查重方法
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
Meng et al. Semi-supervised heterogeneous fusion for multimedia data co-clustering
Deshpande et al. Text summarization using clustering technique
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
Ni et al. Short text clustering by finding core terms
CN102567509B (zh) 视觉信息辅助的即时通信方法及系统
CN103049433A (zh) 自动问答方法、自动问答系统及构建问答实例库的方法
Odeh et al. Arabic text categorization algorithm using vector evaluation method
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN104281565A (zh) 语义词典构建方法和装置
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Schweighofer et al. Automatic text representation, classification and labeling in European law
Martín et al. Using semi-structured data for assessing research paper similarity
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN114997288A (zh) 一种设计资源关联方法
Ding et al. Context-aware semantic type identification for relational attributes
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
Song et al. A novel automatic ontology construction method based on web data
Zhang et al. An overview on supervised semi-structured data classification
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
Ding et al. Hierarchical clustering for micro-learning units based on discovering cluster center by LDA
Yang et al. A Method for Massive Scientific Literature Clustering Based on Hadoop

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant