CN101178720B - 一种面向互联网微内容的分布式聚类方法 - Google Patents

一种面向互联网微内容的分布式聚类方法 Download PDF

Info

Publication number
CN101178720B
CN101178720B CN2007101561893A CN200710156189A CN101178720B CN 101178720 B CN101178720 B CN 101178720B CN 2007101561893 A CN2007101561893 A CN 2007101561893A CN 200710156189 A CN200710156189 A CN 200710156189A CN 101178720 B CN101178720 B CN 101178720B
Authority
CN
China
Prior art keywords
cluster
micro
content
file
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101561893A
Other languages
English (en)
Other versions
CN101178720A (zh
Inventor
陈珂
陈刚
汪源
胡天磊
寿黎但
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2007101561893A priority Critical patent/CN101178720B/zh
Publication of CN101178720A publication Critical patent/CN101178720A/zh
Application granted granted Critical
Publication of CN101178720B publication Critical patent/CN101178720B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向互联网微内容的分布式聚类方法。本发明采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。本发明能够准确、快速地对海量级的互联网微内容进行聚类,是一种既高效又实用的分布式聚类方法。

Description

一种面向互联网微内容的分布式聚类方法
技术领域
本发明涉及对海量互联网微内容进行聚类处理相关的技术,特别是涉及一种面向互联网微内容的分布式聚类方法。
背景技术
近年来,随着计算机宽带用户的持续增加,各种互联网应用不断涌现,互联网快速进入了WEB2.0时代,博客、播客、威客等WEB2.0应用迅速发展,以博客应用为例,据权威调研机构预测,今年全球博客数量将超过1亿人,同时还将不断增长,随着博客用户数的不断增长,用户的评论、留言等微内容也在爆炸式地增加,其中有很多微内容都是广告、大量重复推荐等垃圾信息,它们的存在严重影响了用户的阅读质量,如何高效、快速地对这些海量微内容进行聚类,从而识别出其中的垃圾微内容已成为众多博客服务提供商和广大博客用户共同关心的问题之一;
目前已有许多面向互联网微内容的聚类方法,如比较成熟的贝叶斯、KNN、SVM等,但贝叶斯方法需要有特定的语料库支持,维护代价比较高,而且聚类的效果跟语料库规模、质量有很大的关系,不是理想的聚类方法;另外两种聚类方法KNN和SVM都需要首先计算所有微内容之间的相似度,当微内容的数量级为海量级时,比如千万级o(108),那么计算所有微内容之间的相似度所需要的时间数量级为o(1016),这显然是用户所不能忍受的,因此也不是理想的聚类方法;
发明内容
本发明的目的在于提供一种面向互联网微内容的分布式聚类方法。
本发明解决其技术问题采用的技术方案是,该方法的步骤如下:
1)主控机器首先对微内容文件进行切分操作,得到适合元聚类操作的多个小微内容文件,对输入的微内容文件,按照每个文件固定的记录条数写到多个小文件中,在小文件中一行一条微内容;
2)多台聚类机器对微内容进行分布式聚类操作:
第一步,对于由主控机器切分操作生成的适合元聚类操作的各个小微内容文件,用脚本拷贝到相应的聚类机器上;
第二步,多台聚类机器并行进行聚类操作,每台聚类机器都执行以下两个步骤:
a)对分配到的各个小微内容文件循环进行元聚类操作,生成相应的各个元聚类结果文件;
b)对上面生成的元聚类结果文件进行合并操作,生成单机聚类合并文件,其中合并操作的过程如下:
(1)读取各个元聚类结果文件,从各个聚类项中抽取聚类项代表点,把代表点对应的微内容写到一个临时微内容文件中;
(2)对生成的临时微内容文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到最后的单机聚类合并文件;
第三步,每台聚类机器生成完单机聚类合并文件后,通知主控机器,并把聚类合并文件发送给主控机器,主控机器在接收到各台聚类机器发送来的单机聚类合并文件后,再次对这些文件进行合并操作,生成系统总的聚类结果文件,其中合并操作的过程如下:
a)读取各个单机聚类合并文件,从各个聚类项中抽取聚类项代表点,把代表点对应的微内容写到一个临时微内容文件中;
b)对生成的临时微内容文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到系统总的聚类结果文件;
3)在上述2)中的对微内容文件进行元聚类操作的步骤如下:
第一步,从微内容数据文件中把各行微内容读出,然后放入队列中,队列中的每个元素为一条微内容,将队列中个各条微内容读出,对它们进行中文分词,去掉停用词,生成相应的关键词序列;
第二步,对各个关键词序列,创建按连续两个关键词组合在一起的关键词为键,包含该两个词组合的微内容编号为值的倒排索引;
第三步,等倒排索引建完,扫描倒排索引,创建以微内容编号作为矩阵行列,微内容两两之间相同单元的数目为值的相关矩阵,在扫描每行倒排项时,将两两微内容编号对应的矩阵元素的值加1;
第四步,等相关矩阵建完,扫描相关矩阵,计算微内容之间的相似度,设两条微内容A<key1,...,keyi,...,keyn>、B<key1,...,keyi,...,keym>,其中keyi为微内容包含的关键词,则定义A、B之间的相似度sim(A,B)为  sim(A,B)=(A^B)/(A+B),其中^表示集合交集,+表示集合并集,(A^B)的值也就是A和B在第二步生成的倒排索引中共同出现的次数,可以从相关矩阵中取得,A+B为A、B在第二步生成的倒排索引中各自出现次数之和减去A、B在第二步生成的倒排索引中共同出现的次数,A、B各自出现的次数可以在扫描倒排索引时获得,在计算完A、B之间的相似度sim(A,B)后,把在第三步生成的相关矩阵中A、B对应的值由(A^B)更新为sim(A,B);
第五步,扫描更新完的相关矩阵,根据微内容之间的相似度对微内容进行聚类,由于相关矩阵是以JAVA中的HashMap为存储结构,且相关矩阵自身的稀疏特性,所以按照HashMap的自然存放顺序来进行聚类分析,取得HashMap的第i个元素,得到微内容k和1的相似度,如果小于设定的阈值,则忽略该元素并继续处理下个元素,否则进行聚类处理:如果k还没有被聚类,并且1也没有被聚类,则创建以k为中心的聚类,并将1标记为k为中心;否则,如果1被聚类,但是它是该类的中心,则将1类别与k合并,并标记1的类中心为k;否则,找到1的聚类中心,如果该中心微内容编号比k大,则将k归为该类,并标记中心为此中心;否则将该类别与k合并,并修改中心为k;如果k已经被聚类,1没有被聚类,则1归类为k的类别,并标记类中心;如果两者都聚类,则找到两者的类中心,将类中心编号大的合并至另一个,并修改聚类中心;然后迭代取得下一个元素,直到取完HashMap中的所有元素。
本发明与背景技术相比,具有的有益的效果是:
(1)本发明是一种能够高效地、分布式地实现对海量微内容进行聚类的全新的方法,具有可扩展性,优于传统的KNN、SVM等方法。
(2)本发明不需要特定语料库的支持,维护代价小,操作简单,有别于传统的贝叶斯聚类方法,应用范围广,如可应用于博客评论、博客留言、bbs留言、贴吧留言等互联网微内容的垃圾聚类系统。
所以,本发明是一种适用于互联网环境下的,用于高效、快速地对海量微内容进行聚类的方法。
附图说明
图1是分布式聚类方法的总体结构示意图;
图2是切分模块的结构示意图;
图3是元聚类处理的结构示意图;
图4是对博客评论A(“浙江是个好地方”)和博客评论B(“浙江是个非常好的地方”)建立的倒排索引示意图;
图5是对博客评论A(“浙江是个好地方”)和博客评论B(“浙江是个非常好的地方”)建立的相关矩阵示意图;
图6是对博客评论A(“浙江是个好地方”)和博客评论B(“浙江是个非常好的地方”)建立的更新评论相似度后的相关矩阵示意图;
具体实施方式
在面向互联网微内容的聚类应用系统中,采用本发明所提供的分布式聚类方法,可以实现对海量微内容进行快速、准确地聚类,以博客评论垃圾聚类系统为例,具体的实施步骤如下:
1)主控机器首先对博客评论源文件进行切分操作,得到多个小源数据文件,具体过程如下:
对输入的大的博客评论源文件,按照每个文件固定的记录条数写到多个小文件中,在小文件中一行一条博客评论,其中固定的评论条数的确定由具体执行元聚类操作的聚类机器的配置决定,图2给出了切分模块的结构示意图,其中图2中的Split_1,Split_k,Split_n为切分后得到的各个小的博客评论文件;
2)多台聚类机器对博客评论进行分布式聚类操作,图1给出了多机分布式聚类方法的总体结构图,具体过程如下:
第一步,对于由主控机器切分操作生成的各个小评论文件,用脚本拷贝到相应的聚类机器上;
第二步,多台聚类机器并行进行聚类操作,每台聚类机器都执行以下两个步骤:
a)对分配到的各个小评论文件循环进行元聚类操作,生成相应的各个元聚类结果文件;
b)对上面生成的元聚类结果文件进行合并操作,生成单机聚类合并文件,其中合并操作的过程如下:
(1)读取各个元聚类结果文件,从各个聚类项中抽取聚类项代表点,把代表点对应的评论写到一个临时博客评论文件中;
(2)对生成的临时博客评论文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到最后的单机聚类合并文件;
例如:在某台聚类机器上,通过循环调用元聚类,生成了二个元聚类文件file1和file2,其中file1中有两个聚类项cluster1:(1,2,3),cluster2:(4,5,6),file2也有两个聚类项cluster1:(7,8),cluster2:(10,11),(注括号中1,2等数字表示属于某个cluster的博客评论编号,如上面的例子中博客评论1、博客评论2、博客评论3同属于file1的cluster1,博客评论7、博客评论8同属于file2的cluster2),抽取两个聚类结果文件file1和file2中的聚类代表点评论,如(1,4,7,10)(这里每个聚类项抽取一个代表点评论),生成一个临时评论文件temp,然后对temp文件进行元聚类,假设生成了一个聚类项cluster1:(1,10),则把1对应的file1中的cluster1:(1,2,3)和10对应的file2中的cluster2:(10,11)合并,生成新的聚类项cluster1:(1,2,3,10,11),得到最后的单机聚类合并文件file3,内容为:cluster1:(1,2,3,10,11),cluster2:(4,5,6),cluster3:(7,8);
第三步,每台聚类机器生成完单机聚类合并文件后,通知主控机器,并把聚类合并文件发送给主控机器,主控机器在接收到各台聚类机器发送来的单机聚类合并文件后,再次对这些文件进行合并操作,生成系统总的聚类结果文件,其中合并操作的过程如下:
a)读取各个单机聚类合并文件,从各个聚类项中抽取聚类项代表点,把代表点对应的评论写到一个临时博客评论文件中;
b)对生成的临时博客评论文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到系统总的聚类结果文件;
3)对博客评论文件进行元聚类操作,过程如图3所示,具体过程如下:
第一步,从小评论文件中把各行评论内容读出然后放入队列中,队列中的每个元素为一条评论,将队列中个各条评论读出,对它们进行中文分词,去掉停用词(即那些高频出现、没有实际意义的词如“的”、“是”、“了”等),生成相应的关键词序列。例如,某个小评论文件中有两条评论,评论A和评论B。评论A为“浙江是个好地方”,评论B为“浙江是个非常好的地方”,则经过分词模块分解以后得到关键词序列A为<“浙江”,“好”,“地方”>,B为<“浙江”,“非常”,“好”,“地方”>,在上面的分词过程中去掉了“是”,“个”、“的”等停用词;
第二步,对各个关键词序列,创建按连续两个关键词组合在一起的“词:词”为键,包含该两个词组合的评论编号为值的倒排索引,如假设第一步中的评论A、B对应的编号分别为1和2,那么最后建立的倒排索引如图4所示;
第三步,等倒排索引建完,扫描倒排索引,创建以评论编号作为矩阵行列,评论两两之间相同单元(即“词:词”)的数目为值的相关矩阵,在扫描每行倒排项时,将两两评论编号对应的矩阵元素的值加1;
例如,扫描第二步生成的倒排矩阵,由于评论A(编号为1)和B(编号为2)在相同单元(“好:地方”)上共同出现了一次,则将评论A和评论B对应的矩阵元素的值加1,最后建立的评论A、B的相关矩阵如图5所示;
第四步,等相关矩阵建完,扫描相关矩阵,计算评论之间的相似度,设两条评论A<key1,...,keyi,...,keyn>、B<key1,...,keyi,...,keym>,其中keyi为评论包含的关键词,则定义A、B之间的相似度sim(A,B)为  sim(A,B)=(A^B)/(A+B),其中^表示集合交集,+表示集合并集,(A^B)的值也就是A和B在第二步生成的倒排索引中共同出现的次数,可以从相关矩阵中取得,A+B为A、B在第二步生成的倒排索引中各自出现次数之和减去A、B在第二步生成的倒排索引中共同出现的次数,A、B各自出现的次数可以在扫描倒排索引时获得,在计算完A、B之间的相似度sim(A,B)后,把在第三步生成的相关矩阵中A、B对应的值由(A^B)更新为sim(A,B);
例如,对第一步中两条的评论A(编号为1)、B(编号为2),计算它们的相似度sim(A,B),根据第四步中sim(A,B)的定义,需要计算(A^B)和(A+B)值,其中(A^B)即评论A、B共同出现的次数,从第三步中生成的相关矩阵可以得到为1,而(A+B)即评论A,B各自出现的次数的和减去A和B共同出现的次数,从第二步中生成的倒排索引可以得到A的出现次数为2,B的出现次数为3,则(A+B)=(2+3)-1=4,从而得到评论A和评论B的相似度sim(A,B)=(A^B)/(A+B)=1/4,然后更新评论A、B的相关矩阵,把A、B对应的值由原来的1更新为1/4,更新后评论A、B的相关矩阵如图6所示;
第五步,扫描更新完的相关矩阵,根据评论之间的相似度对评论进行聚类,由于相关矩阵是以HashMap为存储结构,且相关矩阵自身的稀疏特性,所以按照HashMap的自然存放顺序来进行聚类分析,取得HashMap的第i个元素,得到评论k和1的相似度,如果小于设定的阈值,则忽略该元素并继续处理下个元素,否则进行聚类处理:如果k还没有被聚类,并且1也没有被聚类,则创建以k为中心的聚类,并将1标记为k为中心;否则,如果1被聚类,但是它是该类的中心,则将1类别与k合并,并标记1的类中心为k;否则,找到1的聚类中心,如果该中心博客评论编号比k大,则将k归为该类,并标记中心为此中心;否则将该类别与k合并,并修改中心为k;如果k已经被聚类,1没有被聚类,则1归类为k的类别,并标记类中心;如果两者都聚类,则找到两者的类中心,将类中心编号大的合并至另一个,并修改聚类中心;然后迭代取得下一个元素,直到取完HashMap中的所有元素;
例如,对第四步中生成的相关矩阵,取得其中的元素(<1,2>,1/4),则当用户设定的阈值为1/5<1/4时,则编号值1对应的评论A和编号值2对应的评论B自动聚为一个类别,生成元聚类结果文件,它的内容是:cluster1:(1,2);
b)对上面生成的元聚类结果文件进行合并操作,生成单机聚类合并文件,其中合并操作的过程如下:
(1)读取各个元聚类结果文件,从各个聚类项中抽取聚类项代表点,把代表点对应的评论写到一个临时文件中;
(2)对生成的临时文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到最后的单机聚类合并文件;
例如:在某台聚类机器上,通过循环调用元聚类,生成了二个元聚类文件file1和file2,其中file1中有两个聚类项cluster1:(1,2,3),cluster2:(4,5,6),file2也有两个聚类项cluster1:(7,8),cluster2:(10,11),抽取两个聚类结果文件file1和file2中的聚类代表点评论,如(1,4,7,10)(这里每个聚类项抽取一个代表点评论),生成一个临时评论文件temp,然后对temp文件进行元聚类,假设生成了一个聚类项cluster1:(1,10),则把1对应的file1中的cluster1:(1,2,3)和10对应的file2中的cluster2:(10,11)合并,生成新的聚类项cluster1:(1,2,3,10,11),得到最后的单机聚类合并文件file3,内容为:cluster1:(1,2,3,10,11),cluster2:(4,5,6),cluster3:(7,8);
第三步,每台聚类机器生成完单机聚类合并文件后,通知主控机器,并把聚类合并文件发送给主控机器,主控机器在接收到各台聚类机器发送来的单机聚类合并文件后,再次对这些文件进行合并操作,生成系统总的聚类结果文件,其中合并操作的过程如下:
a)读取各个单机聚类合并文件,从各个聚类项中抽取聚类项代表点,把代表点对应的评论写到一个临时文件中;
b)对生成的临时文件再次进行元聚类,然后把聚类结果中归为同一个类的
各个代表点对应的类别合并,生成新的聚类项,得到系统总的聚类结果文件。

Claims (1)

1.一种面向互联网微内容的分布式聚类方法,其特征在于该方法的步骤如下:
1)主控机器首先对微内容数据文件进行切分操作,得到适合元聚类操作的多个微内容数据文件,对输入的微内容数据文件,按照每个文件固定的记录条数写到多个小文件中,在小文件中一行一条微内容;
2)多台聚类机器对微内容数据文件进行聚类操作:
2.1、对于由主控机器切分操作生成的适合元聚类操作的各个微内容数据文件,用脚本拷贝到相应的聚类机器上;
2.2、多台聚类机器并行进行聚类操作,每台聚类机器都执行以下两个步骤:
a)对分配到的各个微内容数据文件循环进行元聚类操作,生成相应的各个元聚类结果文件;
b)对上面生成的元聚类结果文件进行合并操作,生成单机聚类合并文件,其中合并操作的过程如下:
(1)读取各个元聚类结果文件,从各个聚类项中抽取聚类项代表点,把代表点对应的微内容写到一个临时微内容数据文件中;
(2)对生成的临时微内容数据文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到最后的单机聚类合并文件;
2.3、每台聚类机器生成完单机聚类合并文件后,通知主控机器,并把单机聚类合并文件发送给主控机器,主控机器在接收到各台聚类机器发送来的单机聚类合并文件后,再次对这些文件进行合并操作,生成系统总的聚类结果文件,其中合并操作的过程如下:
a)读取各个单机聚类合并文件,从各个聚类项中抽取聚类项代表点,把代表点对应的微内容写到一个临时微内容数据文件中;
b)对生成的临时微内容数据文件再次进行元聚类,然后把聚类结果中归为同一个类的各个代表点对应的类别合并,生成新的聚类项,得到系统总的聚类结果文件;
3)在上述2)中的对微内容数据文件进行聚类操作的步骤如下:
3.1、从微内容数据文件中把各行微内容读出,然后放入队列中,队列中的每个元素为一条微内容,将队列中个各条微内容读出,对它们进行中文分词,去掉停用词,生成相应的关键词序列;
3.2、对各个关键词序列,创建按连续两个关键词组合在一起的关键词为键,以包含该两个词组合的微内容编号为值的倒排索引;
3.3、等倒排索引建完,扫描倒排索引,创建以微内容编号作为矩阵行列,微内容两两之间相同单元的数目为值的相关矩阵,在扫描每行倒排项时,将两两微内容编号对应的矩阵元素的值加1;
3.4、等相关矩阵建完,扫描相关矩阵,计算微内容之间的相似度,设两条微内容A<key1,...,keyi,...,keyn>、B<key1,...,keyi,...,keym>,其中keyi为微内容包含的关键词,则定义A、B之间的相似度sim(A,B)为sim(A,B)=(A^B)/(A+B),其中^表示集合交集,+表示集合并集,(A^B)的值也就是A和B在第3.2步生成的倒排索引中共同出现的次数,从相关矩阵中取得,A+B为A、B在第3.2步生成的倒排索引中各自出现次数之和减去A、B在第3.2步生成的倒排索引中共同出现的次数,A、B各自出现的次数在扫描倒排索引时获得,在计算完A、B之间的相似度sim(A,B)后,把在第3.3步生成的相关矩阵中A、B对应的值由(A^B)更新为sim(A,B);
3.5、扫描更新完的相关矩阵,根据微内容之间的相似度对微内容进行聚类,由于相关矩阵是以JAVA中的HashMap为存储结构,且相关矩阵自身的稀疏特性,所以按照HashMap的自然存放顺序来进行聚类分析,取得HashMap的第i个元素,得到微内容k和l的相似度,如果小于设定的阈值,则忽略该元素并继续处理下个元素,否则进行聚类处理:如果k还没有被聚类,并且l也没有被聚类,则创建以k为中心的聚类,并将l标记为k为中心;否则,如果l被聚类,并且k没有被聚类,但是l是该类的中心,则将l类别与k合并,并标记l的中心为k;否则,找到l的中心,如果该中心微内容编号比k大,则将k归为该类,并标记中心为此中心;否则将该类别与k合并,并修改中心为k;如果k已经被聚类,l没有被聚类,则l归类为k的类别,并标记中心;如果两者都聚类,则找到两者的中心,将中心编号大的合并至另一个,并修改中心;然后迭代取得下一个元素,直到取完HashMap中的所有元素。
CN2007101561893A 2007-10-23 2007-10-23 一种面向互联网微内容的分布式聚类方法 Expired - Fee Related CN101178720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101561893A CN101178720B (zh) 2007-10-23 2007-10-23 一种面向互联网微内容的分布式聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101561893A CN101178720B (zh) 2007-10-23 2007-10-23 一种面向互联网微内容的分布式聚类方法

Publications (2)

Publication Number Publication Date
CN101178720A CN101178720A (zh) 2008-05-14
CN101178720B true CN101178720B (zh) 2010-12-15

Family

ID=39404977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101561893A Expired - Fee Related CN101178720B (zh) 2007-10-23 2007-10-23 一种面向互联网微内容的分布式聚类方法

Country Status (1)

Country Link
CN (1) CN101178720B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833553B (zh) * 2009-03-09 2013-09-11 夏普株式会社 对数据进行聚类的方法、设备和系统
CN101996197B (zh) * 2009-08-31 2012-12-26 中国移动通信集团公司 聚类实现方法及系统
WO2012055100A1 (en) * 2010-10-27 2012-05-03 Nokia Corporation Method and apparatus for identifying a conversation in multiple strings
CN102063485A (zh) * 2010-12-29 2011-05-18 深圳市永达电子股份有限公司 一种在线分析网络流中短文本信息聚类的方法
CN102110156B (zh) * 2011-02-22 2015-02-18 清华大学 基于选择性扫描的文件系统的元数据抽取方法及装置
CN103049489B (zh) * 2012-12-05 2015-12-02 北京奇虎科技有限公司 用于处理协同过滤距离的方法和系统
CN104572915B (zh) * 2014-12-29 2017-10-10 浙江大学 一种基于内容环境增强的用户事件相关度计算方法
CN105095382B (zh) * 2015-06-30 2018-09-14 北京奇虎科技有限公司 样本分布式聚类计算方法及装置
CN107273412B (zh) * 2017-05-04 2019-09-27 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和系统
CN109101633B (zh) * 2018-08-15 2019-08-27 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN114519101B (zh) * 2020-11-18 2023-06-06 易保网络技术(上海)有限公司 数据聚类方法和系统、数据存储方法和系统以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
CN1435781A (zh) * 2003-02-24 2003-08-13 杨炳儒 一种基于信息挖掘的智能决策支持构造方法
CN1720524A (zh) * 2002-10-29 2006-01-11 埃里·阿博 知识系统方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
CN1720524A (zh) * 2002-10-29 2006-01-11 埃里·阿博 知识系统方法和装置
CN1435781A (zh) * 2003-02-24 2003-08-13 杨炳儒 一种基于信息挖掘的智能决策支持构造方法

Also Published As

Publication number Publication date
CN101178720A (zh) 2008-05-14

Similar Documents

Publication Publication Date Title
CN101178720B (zh) 一种面向互联网微内容的分布式聚类方法
Wang et al. An order-clique-based approach for mining maximal co-locations
CN102902700B (zh) 基于在线增量演化主题模型的软件自动分类方法
CN101311930B (zh) 具有重复值的表的块压缩
Zhuang et al. Mining distinction and commonality across multiple domains using generative model for text classification
CN102682059A (zh) 用于将用户分配到集群的方法和系统
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN102207946B (zh) 一种知识网络的半自动生成方法
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN101695082B (zh) 基于关系挖掘的服务组织方法及装置
CN103049436A (zh) 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
CN110532309B (zh) 一种高校图书馆用户画像系统的生成方法
CN103631803A (zh) 基于输入行为的进行广告定向的方法、装置及服务器
CN101025805A (zh) 基于产品的物料清单生成方法
Wang et al. Efficiently mining high utility co-location patterns from spatial data sets with instance-specific utilities
CN102681994A (zh) 一种网页信息抽取方法及系统
CN104834557A (zh) 一种基于Hadoop的数据分析方法
CN103425740A (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN101499065A (zh) 基于fa的表项压缩方法及装置、表项匹配方法及装置
Mukherjee et al. Bootstrapping semantic annotation for content-rich html documents
CN101751443A (zh) 数据检索与处理系统及方法
CN108416610B (zh) 用户历史反馈信息形成方法及广告投放频次控制方法
CN103064966A (zh) 一种从单记录网页中抽取规律噪音的方法
CN103577414A (zh) 数据处理方法和设备
CN102004805A (zh) 基于最大相似性匹配的网页去噪系统及其去噪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101215

Termination date: 20201023

CF01 Termination of patent right due to non-payment of annual fee