CN103218435A - 一种中文文本数据聚类方法及系统 - Google Patents

一种中文文本数据聚类方法及系统 Download PDF

Info

Publication number
CN103218435A
CN103218435A CN2013101304067A CN201310130406A CN103218435A CN 103218435 A CN103218435 A CN 103218435A CN 2013101304067 A CN2013101304067 A CN 2013101304067A CN 201310130406 A CN201310130406 A CN 201310130406A CN 103218435 A CN103218435 A CN 103218435A
Authority
CN
China
Prior art keywords
text data
cluster
text
batch
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101304067A
Other languages
English (en)
Other versions
CN103218435B (zh
Inventor
赵旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI JIAZHIDAO ENTERPRISE ADMINISTRATION CONSULTING CO Ltd
Original Assignee
SHANGHAI JIAZHIDAO ENTERPRISE ADMINISTRATION CONSULTING CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI JIAZHIDAO ENTERPRISE ADMINISTRATION CONSULTING CO Ltd filed Critical SHANGHAI JIAZHIDAO ENTERPRISE ADMINISTRATION CONSULTING CO Ltd
Priority to CN201310130406.7A priority Critical patent/CN103218435B/zh
Publication of CN103218435A publication Critical patent/CN103218435A/zh
Application granted granted Critical
Publication of CN103218435B publication Critical patent/CN103218435B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种中文文本数据聚类方法及系统,属于数据挖掘技术领域其中,包括:步骤1将每条所述文本数据进行降维处理;步骤2将所述文本数据根据需要分成多批次;步骤3对单批次中的文本数据根据文本相似性进行聚类操作;步骤4完成所有批次批次之间的聚类操作,形成统一聚类。所述步骤1中的降维操作包括:步骤a.选取特征字集合;步骤b.将每条所述文本数据比照所述特征字集合,统计在所述文本数据中出现的特征字,形成文本数据的特征集合。本发明的有益效果是:通过对文本数据的降维操作和批次处理,有效地提高了系统运行速度和效率,减少了空间开销。解决了大规模中文文本的聚类的处理效率问题以及空间占用量大的性能问题。

Description

一种中文文本数据聚类方法及系统
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种中文文本数据聚类法及系统。 
背景技术
在数据挖掘领域中,已有的聚类算法主要有以下几类,包括层次聚类,在线聚类,基于图论方法的聚类,基于成分分析的聚类等。 
在聚类过程中需要对全部数据进行逐条计算及分析,并且相似性计算函数较为复杂,算法时间复杂度高。对于1千万条以上的数据,聚类的空间复杂度也非常高。海量文本信息的聚类是一个挑战。已有的聚类算法大都还只是停留在实验室阶段,且实验时使用的数据集合过于局限。对于海量的数据的处理,很多算法处理效率很低。 
K-means算法的工作原理:算法首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类, 则不会有调整,聚类中心也不会有任何变化,这标志着已经收敛,因此算法结束。 
K-means算法的缺点包括: 
1.需事先给出K的值,对于实际情况,K的值是极其难以估计的。 
2.首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好可能无法得到有效的聚类结果。这也成为K-means算法的一个主要问题。 
3.从K-means算法框架可以看出,该算法需要不断地进行样本分类调整不断地计算调整后的新的聚类中心。因此当数据量非常大时,算法的时间开销是非常大的。 
上述聚类实现方法,对于少量样本,可以方便地在单机上实现。但对于海量样本而言,一方面由于单机内存容量有限,不可能读入海量的样本数据;另一方面,由于聚类过程中需要进行聚类中心点的多轮更新计算过程,处理时间很长,在实际的数据业务应用中,效率很低。 
发明内容
针对以上所述的技术问题,本发明提供了一种中文文本数据聚类方法及系统,有效地提升处理效率,并尽可能地减少了空间消耗。 
具体技术方案如下所示: 
一种中文文本数据聚类方法,所述文本数据具有多个维度,其中,包括: 
步骤1将每条所述文本数据进行降维处理; 
步骤2将所述文本数据根据需要分成多批次; 
步骤3对单批次中的文本数据根据文本相似性进行聚类操作; 
步骤4完成所有批次各个批次之间的聚类操作,形成统一聚类。 
优选的,所述步骤1中的降维处理包括: 
步骤a.选取特征字集合; 
步骤b.将每条所述文本数据比照所述特征字集合,统计在所述文本数据中出现的特征字,形成文本数据的特征集合; 
优选的,所述步骤a中还包括:在所述特征字集合中对每个特征字编号; 
所述步骤b中文本数据的特征集合,包括所述特征字在所述特征字集合中的特征字编号。 
优选的,所述步骤3中还包括: 
步骤a.确定文本相似性阈值; 
步骤b.按照计算机系统读取顺序,将首次被聚类的文本数据作为首个初始聚类中心,并顺序遍历本批次内的文本数据,两两进行文本相似性比较; 
步骤c.将文本相似性值与所述阈值进行比较,如果符合阈值判断,则将与初始聚类中心相似的文本数据聚为一类; 
步骤d.按照计算机系统读取顺序,将不符合阈值判断的文本数据进行首次聚类,作为新的初始聚类中心,并顺序遍历本批次内其他不符合阈值判断的文本数据,两两进行文本相似性比较; 
步骤e.迭代运行步骤c和d,直到批次内所有文本数据都被聚类,此时批次内所有初始聚类中心都聚类完成; 
步骤f.将聚类操作完成批次的初始聚类中心存储到数据库中。 
优选的,所述步骤4中还包括: 
步骤a.按读取顺序将多批次的文本数据通过对各批次的初始聚类中心 进行文本相似性比较,在多批次之间合并聚类; 
步骤b.完成所有批次文本数据的合并聚类,形成统一的聚类。 
优选的,所述步骤a中的多个批次之间的合并聚类为两个批次之间的合并聚类; 
所述步骤b中的所有批次文本数据的组合合并聚类为两两合并聚类。 
优选的,所述文本相似性通过
Figure BDA00003052317600041
进行比较; 
其中,i,j为文本数据的编号; 
Ti为第i条文本数据的特征集合,Tj为第j条文本数据的特征集合; 
f(Ti)为Ti中特征字的个数,f(Tj)为Tj中特征字的个数; 
Ti∩Tj为Ti与Tj共有特征字的共有特征集合,f(Ti∩Tj)为Ti与Tj共有特征字的字数; 
Sij为第i条文本数据与第j条文本数据的相似性值。 
一种中文文本数据聚类系统,其中,包括: 
降维处理模块,所述降维处理模块用于根据选定的特征字集合,对每条文本数据统计出现的特征字,形成文本数据的特征集合; 
数据文本分批模块,所述数据文本分批模块用于对文本数据进行分批处理; 
聚类处理模块,所述聚类处理模块用于对单批次中的文本数据进行聚类操作以及对各批次各个批次之间的合并聚类。 
优选的,所述聚类处理模块包括文本相似性计算单元,遍历路径控制单元,比较单元; 
所述文本相似性计算单元用于通过文本相似性计算公式计算文本相似性 值,所述文本相似性计算公式为
Figure BDA00003052317600051
其中,i,j为文本数据的编号;Ti为第i条文本数据的特征集合,Tj为第j条文本数据的特征集合;f(Ti)为Ti中特征字的个数,f(Tj)为Tj中特征字的个数;Ti∩Tj为Ti与Tj共有特征字的共有特征集合,f(Ti∩Tj)为Ti与Tj共有特征字的字数;Sij为第i条文本数据与第j条文本数据的相似性值; 
所述比较单元用于将文本相似性值与设定的阈值比较,进行阈值比较判定; 
所述遍历路径控制单元用于按照计算机系统读取顺序,将首次被聚类的文本数据作为首个初始聚类中心,并顺序遍历本批次内的文本数据,两两进行文本相似性比较;以及将不符合阈值判断的文本数据进行首次聚类,并顺序遍历本批次内其他不符合阈值判断的文本数据,两两进行文本相似性比较,直到批次内所有文本数据都被聚类;以及将多批次的文本数据通过对各批次的初始聚类中心进行文本相似性比较,在多批次之间合并聚类,并完成所有批次文本数据的合并聚类。 
本发明的有益效果是: 
通过对文本数据的降维操作和批次处理,有效地提高了系统运行速度和效率,减少了空间开销。解决了大规模中文文本的聚类的处理效率问题以及空间占用量大的性能问题。 
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 
图1为本发明一种中文文本数据聚类方法实施例的流程示意图; 
图2为本发明一种中文文本数据聚类系统实施例的结构模块图; 
图3为本发明一种中文文本数据聚类方法实施例的测试效果图。 
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。 
如图1所示,为本发明一种中文文本数据聚类方法的实施例的流程示意图,其中包括: 
步骤1.选取特征字集合,在特征字集合中对每个特征字编号;例如,取3500个常用汉字有3500个,并且为之编号。该3500个汉字为预先制定的,所有文本的聚类分析都以这3500个汉字特征字为标准。 
步骤2.将每条文本数据比照特征字集合,统计在文本数据中出现的特征字,形成每条文本数据的特征集合;每条文本数据的特征集合,包括特征字在特征字集合中的特征字编号;本步骤的目的是将单批数据读入内存后,对于读入内存的所有中文文本数据进行数据预处理,即通过聚类相似性判定方式中的降维方式进行处理,将文本转换成汉字特征集合。 
搜集每篇文本中出现的常用汉字特征字,如果汉字特征字重复出现,则只搜集一次。搜集后的汉字集合中没有重复元素。该汉字编号集合即为文本的特征集合,记为Tk(k0,1,2,...)。例如:数据文本:我是中国人,则经处理后的特征集合为T1{1,2,3,6,7}。 
编号 汉字
1
2
3
6
7
   
步骤3将文本数据分成多批次,进行数量上的分批;对批次数量的确定具体可视数据规模、单机处理性能等实际情况和实际需求而定。 
步骤4确定文本相似性阈值;按照计算机系统读取顺序,将首次被聚类的文本数据作为首个初始聚类中心,并顺序遍历本批次内的文本数据,两两进行文本相似性比较; 
文本相似性通过
Figure BDA00003052317600071
进行比较;其中,i,j为文本数据的编号;Ti为第i条文本数据的特征集合,Tj为第j条文本数据的特征集合;f(Ti)为Ti中特征字的个数,f(Tj)为Tj中特征字的个数;Ti∩Tj为Ti与Tj共有特征字的共有特征集合,f(Ti∩Tj)为Ti与Tj共有特征字的字数;Sij为第i条文本数据与第j条文本数据的相似性值。该公式的特点是计算量小,直接针对文本的文字本身,简单又直接的体现了文本的相似性。例如在一种具体实施例中,经预处理后的文本特征集合为:T11,2,3,4,5,T23,4,5,6,7则T1,T2的相似性为
Figure BDA00003052317600072
0.3。 
步骤5将文本相似性值与阈值进行比较,如果符合阈值判断,则将与初始聚类中心相似的文本数据聚为一类。 
步骤6按照计算机系统读取顺序,将不符合阈值判断的文本数据进行首次聚类,作为新的初始聚类中心,并顺序遍历本批次内其他不符合阈值判断的文本数据,两两进行文本相似性比较。在每一批次中,按数据读取顺序进行两两进行相似性判断。将首次被聚类的信息作为初始聚类中心进行顺序遍历判断,如果符合相似性判断的阈值,则将与初始聚类中心相似的信息聚为一类。在顺序遍历过程中,已被聚类的信息不作为初始聚类中心。 
步骤7迭代运行步骤5和6,直到批次内所有文本数据都被聚类,此时批次内所有初始聚类中心都聚类完成。 
步骤8当该批次的所有初始聚类中心都聚类完成后,将该批次的聚类中心存储到数据库,完成对单批次中的文本数据进行聚类操作。 
步骤9按读取顺序将多批次的文本数据通过对各批次的初始聚类中心进行文本相似性比较,在多批次之间合并聚类。通过批次之间的初始聚类中心文本数据相似性的比较聚合,就可以直接将多个初始聚类中心的聚类进行聚合,最终实现多个批次之间的聚合。在一种具体实施例中,按读取存储顺序将所有批次的信息每两批合并一次。 
步骤10完成所有批次文本数据的合并聚类,形成统一的聚类。 
本发明的技术原理是:采用分治策略对已有大规模数据从数量上进行切分,切分为n批,n的数值视数据规模与单机处理性能而定。针对于每批次的小规模数据,进行单批次聚类,n个批次初次聚类完成后,将n个批次的聚类结果进行归并聚类;最终形成统一的聚类。在数据降维过程中,如果按词语来寻找文本的特征,由于词语的组合数近似于无穷,常用汉字的个数则是恒定的,大约3500字左右。所以同按照词语降维相比,按字寻找文本的特 征的特征集合要小很多。特征集合越小,比较相似性的计算越简单,从而达到效率的提升。在小规模聚类和归并聚类中,由于相似性函数的计算简单和调度策略的优势,也使得处理速度大大提高,在精度召回率方面,也达到了90%以上。 
如图2所示为本发明一种中文文本数据聚类系统实施例的结构模块图,包括:降维处理模块,降维处理模块用于根据选定的特征字集合,对每条文本数据统计出现的特征字,形成文本数据的特征集合;数据文本分批模块,数据文本分批模块用于对文本数据进行分批处理;聚类处理模块,聚类处理模块用于对单批次中的文本数据进行聚类操作以及对各批次各个批次之间的合并聚类。降维处理模块与数据文本分批模块连接,数据文本分批模块与聚类处理模块连接。 
在本发明一种中文文本数据聚类系统的一种具体实施例中,聚类处理模块包括文本相似性计算单元,遍历路径控制单元,比较单元。 
在本发明一种中文文本数据聚类系统的一种具体实施例中,文本相似性计算单元用于通过文本相似性计算公式计算文本相似性值,文本相似性计算公式为
Figure BDA00003052317600091
i,j为文本数据的编号;Ti为第i条文本数据的特征集合,Tj为第j条文本数据的特征集合;f(Ti)为Ti中特征字的个数,f(Tj)为Tj中特征字的个数;Ti∩Tj为Ti与Tj共有特征字的共有特征集合,f(Ti∩Tj)为Ti与Tj共有特征字的字数;Sij为第i条文本数据与第j条文本数据的相似性值。 
在本发明一种中文文本数据聚类系统的一种具体实施例中,比较单元用于将文本相似性值与设定的阈值比较,进行阈值比较判定。 
在本发明一种中文文本数据聚类系统的一种具体实施例中,遍历路径控 制单元用于按照计算机系统读取顺序,将首次被聚类的文本数据作为首个个初始聚类中心,并顺序遍历本批次内的文本数据,两两进行文本相似性比较;以及将不符合阈值判断的文本数据进行首次聚类,并顺序遍历本批次内其他不符合阈值判断的文本数据,两两进行文本相似性比较,直到批次内所有文本数据都被聚类;以及将多批次的文本数据通过对各批次的初始聚类中心进行文本相似性比较,在多批次之间合并聚类,并完成所有批次文本数据的合并聚类。 
在搜索引擎向用户展现搜索结果的过程中,如果结果中重复信息过多,则会影响用户的搜索体验,将重复信息集中到一起,便极大的提高了搜索引擎搜索内容的有效性。面对海量数据时,一般的系统会无法处理,而实现本发明所描述算法的系统,可以有效处理海量文本。经实际生产环境测试,单机在24小时内可处理400万中文信息。机器配置为4核Intel(R)Xeon(R)CPU E56452.40GHz,4G内存。线性增加机器可增加信息处理量。 
如图3所示为本发明实施例的测试效果图,可以从中看到通过执行本发明一种中文文本数据聚类方法后的系统资源消耗情况。进程号为21986的进程为聚类系统进程,其中通过%cpu(上次更新到现在的CPU时间占用百分比)、time+(进程使用的CPU时间总计)、%mem(进程使用的物理内存百分比)以及virt(进程使用的虚拟内存总量)等参数可见,本系统执行的聚类方法对于CPU和内存的消耗并不高,单个节点的运算量不大,故可以选择双核甚至单核的低性能CPU进行计算,所以构建计算集群的成本会大大降低。因此可见,本发明解决了海量数据中的聚类问题,提高了系统整体的执行效率并且降低了系统开销。 
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。 

Claims (9)

1.一种中文文本数据聚类方法,所述文本数据具有多个维度,其特征在于,包括: 
步骤1将每条所述文本数据进行降维处理; 
步骤2将所述文本数据根据需要分成多批次; 
步骤3对单批次中的文本数据根据文本相似性进行聚类操作; 
步骤4完成所有批次各个批次之间的聚类操作,形成统一聚类。 
2.如权利要求1所述的中文文本数据聚类方法,其特征在于, 
所述步骤1中的降维处理包括: 
步骤a.选取特征字集合; 
步骤b.将每条所述文本数据比照所述特征字集合,统计在所述文本数据中出现的特征字,形成文本数据的特征集合。 
3.如权利要求2所述的中文文本数据聚类方法,其特征在于, 
所述步骤a中还包括:在所述特征字集合中对每个特征字编号; 
所述步骤b中文本数据的特征集合,包括所述特征字在所述特征字集合中的特征字编号。 
4.如权利要求3所述的中文文本数据聚类方法,其特征在于, 
所述步骤3中还包括: 
步骤a.确定文本相似性阈值; 
步骤b.按照计算机系统读取顺序,将首次被聚类的文本数据作为首个初始聚类中心,并顺序遍历本批次内的文本数据,两两进行文本相似性比较; 
步骤c.将文本相似性值与所述阈值进行比较,如果符合阈值判断,则将 与初始聚类中心相似的文本数据聚为一类; 
步骤d.按照计算机系统读取顺序,将不符合阈值判断的文本数据进行首次聚类,作为新的初始聚类中心,并顺序遍历本批次内其他不符合阈值判断的文本数据,两两进行文本相似性比较; 
步骤e.迭代运行步骤c和d,直到批次内所有文本数据都被聚类,此时批次内所有初始聚类中心都聚类完成; 
步骤f.将聚类操作完成批次的初始聚类中心存储到数据库中。 
5.如权利要求4所述的中文文本数据聚类方法,其特征在于, 
所述步骤4中还包括: 
步骤a.按读取顺序将多批次的文本数据通过对各批次的初始聚类中心进行文本相似性比较,在多批次之间合并聚类; 
步骤b.完成所有批次文本数据的合并聚类,形成统一的聚类。 
6.如权利要求5所述的中文文本数据聚类方法,其特征在于, 
所述步骤a中的多个批次之间的合并聚类为两个批次之间的合并聚类; 
所述步骤b中的所有批次文本数据的组合合并聚类为两两合并聚类。 
7.如权利要求4或5所述的中文文本数据聚类方法,其特征在于, 
所述文本相似性通过
Figure FDA00003052317500021
进行比较; 
其中,i,j为文本数据的编号; 
Ti为第i条文本数据的特征集合,Tj为第j条文本数据的特征集合; 
f(Ti)为Ti中特征字的个数,f(Tj)为Tj中特征字的个数; 
Ti∩Tj为Ti与Tj共有特征字的共有特征集合,f(Ti∩Tj)为Ti与Tj共有特征字的字数; 
Sij为第i条文本数据与第j条文本数据的相似性值。 
8.一种中文文本数据聚类系统,其特征在于,包括: 
降维处理模块,所述降维处理模块用于根据选定的特征字集合,对每条文本数据统计出现的特征字,形成文本数据的特征集合; 
数据文本分批模块,所述数据文本分批模块用于对文本数据进行分批处理; 
聚类处理模块,所述聚类处理模块用于对单批次中的文本数据进行聚类操作以及对各批次各个批次之间的合并聚类。 
9.如权利要求8所述的中文文本数据聚类系统,其特征在于, 
所述聚类处理模块包括文本相似性计算单元,遍历路径控制单元,比较单元; 
所述文本相似性计算单元用于通过文本相似性计算公式计算文本相似性值,所述文本相似性计算公式为
Figure FDA00003052317500031
其中,i,j为文本数据的编号;Ti为第i条文本数据的特征集合,Tj为第j条文本数据的特征集合;f(Ti)为Ti中特征字的个数,f(Tj)为Tj中特征字的个数;Ti∩Tj为Ti与Tj共有特征字的共有特征集合,f(Ti∩Tj)为Ti与Tj共有特征字的字数;Sij为第i条文本数据与第j条文本数据的相似性值; 
所述比较单元用于将文本相似性值与设定的阈值比较,进行阈值比较判定; 
所述遍历路径控制单元用于按照计算机系统读取顺序,将首次被聚类的文本数据作为首个初始聚类中心,并顺序遍历本批次内的文本数据,两两进行文本相似性比较;以及将不符合阈值判断的文本数据进行首次聚类,并顺 序遍历本批次内其他不符合阈值判断的文本数据,两两进行文本相似性比较,直到批次内所有文本数据都被聚类;以及将多批次的文本数据通过对各批次的初始聚类中心进行文本相似性比较,在多批次之间合并聚类,并完成所有批次文本数据的合并聚类。 
CN201310130406.7A 2013-04-15 2013-04-15 一种中文文本数据聚类方法及系统 Expired - Fee Related CN103218435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310130406.7A CN103218435B (zh) 2013-04-15 2013-04-15 一种中文文本数据聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310130406.7A CN103218435B (zh) 2013-04-15 2013-04-15 一种中文文本数据聚类方法及系统

Publications (2)

Publication Number Publication Date
CN103218435A true CN103218435A (zh) 2013-07-24
CN103218435B CN103218435B (zh) 2017-01-25

Family

ID=48816222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310130406.7A Expired - Fee Related CN103218435B (zh) 2013-04-15 2013-04-15 一种中文文本数据聚类方法及系统

Country Status (1)

Country Link
CN (1) CN103218435B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294115A (zh) * 2015-06-11 2017-01-04 阿里巴巴集团控股有限公司 一种应用系统迁移性的测试方法及装置
CN106528862A (zh) * 2016-11-30 2017-03-22 四川用联信息技术有限公司 基于改进的均值中心算法实现搜索引擎关键词优化
CN106599118A (zh) * 2016-11-30 2017-04-26 四川用联信息技术有限公司 一种改进的密度聚类算法实现搜索引擎关键词优化
CN106649616A (zh) * 2016-11-30 2017-05-10 四川用联信息技术有限公司 一种聚类算法实现搜索引擎关键词优化
CN106777317A (zh) * 2017-01-03 2017-05-31 四川用联信息技术有限公司 改进的c‑均值算法实现搜索引擎关键词优化
CN106776915A (zh) * 2016-11-30 2017-05-31 四川用联信息技术有限公司 一种新的聚类算法实现搜索引擎关键词优化
CN106776912A (zh) * 2016-11-30 2017-05-31 四川用联信息技术有限公司 基于领域离散度算法实现搜索引擎关键词优化
CN106776923A (zh) * 2016-11-30 2017-05-31 四川用联信息技术有限公司 改进的聚类算法实现搜索引擎关键词优化
CN106802945A (zh) * 2017-01-09 2017-06-06 四川用联信息技术有限公司 基于VSM的模糊c均值聚类算法实现搜索引擎关键词优化
CN106874377A (zh) * 2017-01-04 2017-06-20 四川用联信息技术有限公司 改进的基于约束条件的聚类算法实现搜索引擎关键词优化
CN106874376A (zh) * 2017-01-04 2017-06-20 四川用联信息技术有限公司 一种验证搜索引擎关键词优化技术的方法
CN106897356A (zh) * 2017-01-03 2017-06-27 四川用联信息技术有限公司 改进的模糊c‑均值算法实现搜索引擎关键词优化
CN106897377A (zh) * 2017-01-19 2017-06-27 四川用联信息技术有限公司 基于全局位置的模糊c均值聚类算法实现SEO技术
CN106897358A (zh) * 2017-01-04 2017-06-27 四川用联信息技术有限公司 基于约束条件的聚类算法实现搜索引擎关键词优化
CN106897376A (zh) * 2017-01-19 2017-06-27 四川用联信息技术有限公司 基于蚁群的模糊c均值算法实现关键词优化
CN106909626A (zh) * 2017-01-22 2017-06-30 四川用联信息技术有限公司 改进的决策树分类算法实现搜索引擎优化技术
CN106933954A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 基于决策树分类算法实现搜索引擎优化技术
CN106933951A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 改进的模型聚类算法实现搜索引擎优化技术
CN106933950A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 新的模型聚类算法实现搜索引擎优化技术
CN106933953A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 一种模糊k均值聚类算法实现搜索引擎优化技术
CN107016121A (zh) * 2017-04-23 2017-08-04 四川用联信息技术有限公司 基于贝叶斯的模糊c均值算法实现搜索引擎关键词优化
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN112182206A (zh) * 2020-09-01 2021-01-05 中国联合网络通信集团有限公司 文本聚类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000033215A1 (en) * 1998-11-30 2000-06-08 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
CN101196921A (zh) * 2007-12-24 2008-06-11 北京大学 用于近似查询的长序列数据降维方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000033215A1 (en) * 1998-11-30 2000-06-08 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
CN101196921A (zh) * 2007-12-24 2008-06-11 北京大学 用于近似查询的长序列数据降维方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
唐春生等: "基于聚类特性的大规模文本聚类算法研究", 《计算机科学》 *
唐春生等: "基于聚类特性的大规模文本聚类算法研究", 《计算机科学》, vol. 29, no. 9, 30 September 2002 (2002-09-30), pages 13 - 15 *
姚清耘等: "基于向量空间模型的文本聚类算法", 《计算机工程》 *
李连等: "一种改进的基于向量空间文本相似度算法的研究与实现", 《计算机应用与软件》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294115B (zh) * 2015-06-11 2019-06-07 阿里巴巴集团控股有限公司 一种应用系统迁移性的测试方法及装置
CN106294115A (zh) * 2015-06-11 2017-01-04 阿里巴巴集团控股有限公司 一种应用系统迁移性的测试方法及装置
CN106776912A (zh) * 2016-11-30 2017-05-31 四川用联信息技术有限公司 基于领域离散度算法实现搜索引擎关键词优化
CN106649616A (zh) * 2016-11-30 2017-05-10 四川用联信息技术有限公司 一种聚类算法实现搜索引擎关键词优化
CN106776915A (zh) * 2016-11-30 2017-05-31 四川用联信息技术有限公司 一种新的聚类算法实现搜索引擎关键词优化
CN106599118A (zh) * 2016-11-30 2017-04-26 四川用联信息技术有限公司 一种改进的密度聚类算法实现搜索引擎关键词优化
CN106776923A (zh) * 2016-11-30 2017-05-31 四川用联信息技术有限公司 改进的聚类算法实现搜索引擎关键词优化
CN106528862A (zh) * 2016-11-30 2017-03-22 四川用联信息技术有限公司 基于改进的均值中心算法实现搜索引擎关键词优化
CN106777317A (zh) * 2017-01-03 2017-05-31 四川用联信息技术有限公司 改进的c‑均值算法实现搜索引擎关键词优化
CN106897356A (zh) * 2017-01-03 2017-06-27 四川用联信息技术有限公司 改进的模糊c‑均值算法实现搜索引擎关键词优化
CN106874377A (zh) * 2017-01-04 2017-06-20 四川用联信息技术有限公司 改进的基于约束条件的聚类算法实现搜索引擎关键词优化
CN106874376A (zh) * 2017-01-04 2017-06-20 四川用联信息技术有限公司 一种验证搜索引擎关键词优化技术的方法
CN106897358A (zh) * 2017-01-04 2017-06-27 四川用联信息技术有限公司 基于约束条件的聚类算法实现搜索引擎关键词优化
CN106802945A (zh) * 2017-01-09 2017-06-06 四川用联信息技术有限公司 基于VSM的模糊c均值聚类算法实现搜索引擎关键词优化
CN106897377A (zh) * 2017-01-19 2017-06-27 四川用联信息技术有限公司 基于全局位置的模糊c均值聚类算法实现SEO技术
CN106897376A (zh) * 2017-01-19 2017-06-27 四川用联信息技术有限公司 基于蚁群的模糊c均值算法实现关键词优化
CN106909626A (zh) * 2017-01-22 2017-06-30 四川用联信息技术有限公司 改进的决策树分类算法实现搜索引擎优化技术
CN106933954A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 基于决策树分类算法实现搜索引擎优化技术
CN106933951A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 改进的模型聚类算法实现搜索引擎优化技术
CN106933950A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 新的模型聚类算法实现搜索引擎优化技术
CN106933953A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 一种模糊k均值聚类算法实现搜索引擎优化技术
CN107016121A (zh) * 2017-04-23 2017-08-04 四川用联信息技术有限公司 基于贝叶斯的模糊c均值算法实现搜索引擎关键词优化
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN112182206A (zh) * 2020-09-01 2021-01-05 中国联合网络通信集团有限公司 文本聚类方法及装置
CN112182206B (zh) * 2020-09-01 2023-06-09 中国联合网络通信集团有限公司 文本聚类方法及装置

Also Published As

Publication number Publication date
CN103218435B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN103218435A (zh) 一种中文文本数据聚类方法及系统
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN104112026B (zh) 一种短信文本分类方法及系统
CA2845743C (en) Resolving similar entities from a transaction database
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN102779140B (zh) 一种关键词获取方法及装置
CN102663100A (zh) 一种两阶段混合粒子群优化聚类方法
CN102141978A (zh) 一种文本分类的方法及系统
CN105843841A (zh) 一种小文件存储方法和系统
CN102637172B (zh) 网页分块标注方法与系统
CN104077407A (zh) 一种智能数据搜索系统及方法
CN102722713A (zh) 一种基于李群结构数据的手写体数字识别方法及系统
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN102929930A (zh) 小样本自动化Web文本数据抽取模板生成与抽取方法
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
CN109739984A (zh) 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN110287114A (zh) 一种数据库脚本性能测试的方法及装置
CN111259117B (zh) 短文本批量匹配方法及装置
Huberty Discriminant analysis
CN110688995A (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN112084764B (zh) 数据检测方法、装置、存储介质及设备
CN107368464B (zh) 一种获取招标产品信息的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170125