CN107562853B - 一种面向海量互联网文本数据的流式聚类及展现的方法 - Google Patents
一种面向海量互联网文本数据的流式聚类及展现的方法 Download PDFInfo
- Publication number
- CN107562853B CN107562853B CN201710751232.4A CN201710751232A CN107562853B CN 107562853 B CN107562853 B CN 107562853B CN 201710751232 A CN201710751232 A CN 201710751232A CN 107562853 B CN107562853 B CN 107562853B
- Authority
- CN
- China
- Prior art keywords
- clustering
- data
- cluster
- vector
- new data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向海量互联网文本数据的流式聚类及展现的方法,包括以下步骤:步骤1、提取互联网中的新闻信息并存入数据库;步骤2、对数据库中已有的数据进行聚类,通过调节多个数据之间的聚类相似度来建立向量空间模型;步骤3、储存步骤2中的聚类数据所对应的向量,删除聚类数据对应的文本内容,得到聚类模型;步骤4、将数据库得到的新的数据和步骤3中的聚类模型进行动态聚类,并更新聚类结果;本发明解决了传统聚类算法只能对固定大小的数据集合进行聚类的问题,并设法降低了层次聚类应用于实时增大的数据集时所需的计算资源,能够对不断更新和增长的数据集进行聚合处理以实现更加精确和灵敏的相似内容推荐功能。
Description
技术领域
本发明涉及信息技术领域,具体的说是一种面向海量互联网文本数据的流式聚类及展现的方法。
背景技术
传统聚类方法只能对固定大小的数据集合进行聚类的问题,且传统的聚类在一次聚类结束后回释放内存中储存的数据结构,并在下次聚类时重新从数据库读取数据进行聚类,因为需要频繁从数据库读取数据,这种方法会消耗大量的时间在数据读取上,由于层次聚类本身时间复杂度较高,这种方法不适用于进行实时的文本聚类。
基于此,针对上述现状中存在的问题,本发明提出了一种面向海量互联网文本数据的流式聚类及展现的方法,能够对不同数据集合进行聚类、提高聚类效率和减少内存占用。
发明内容
为了解决上述现有技术的问题,本发明提供一种面向海量互联网文本数据的流式聚类及展现的方法,能够对不同数据集合进行聚类、提高聚类效率和减少内存占用。
本发明解决其技术问题所采用的技术方案是:
一种面向海量互联网文本数据的流式聚类及展现的方法,包括以下步骤:
步骤1、提取互联网中的新闻信息并存入数据库;
步骤2、对数据库中已有的数据进行聚类,通过调节多个数据之间的聚类相似度来建立向量空间模型;
步骤3、储存步骤2中的聚类数据所对应的向量,删除聚类数据对应的文本内容,得到聚类模型;
步骤4、将数据库得到的新的数据和步骤3中的聚类模型进行动态聚类,并更新聚类结果。
进一步地,设定x为一个系统参数,用于调节聚类相似度,所述步骤2中建立向量空间模型的一种方式具体为:
a1、对数据库中已有的数据进行分词;
a2、对分词结果使用停词表过滤;
a3、使用tfidf模型将过滤后的分词结果映射成k维的稀疏向量;
a4、使用层次聚类对已有的数据进行聚类,两条数据之间的相似度用这两条数据对应的两个k维向量夹角的余弦值来表示,当两个向量之间的余弦值小于x时,这两个向量所对应的文本内容为一类,否则,不是一类。
a5、根据步骤a4,调节x来建立向量空间模型。
进一步地,所述步骤3中得到聚类模型之前还包括进行减少每个聚类中包含数据的条数。
更进一步地,减少每个聚类中包含数据的条数为随机删除,随机删除的条数小于定义的变量阈值。
更进一步地,使用knn算法来减少每个聚类中包含数据的条数,具体为:通过类中所包含的向量计算出类的质心,然后将距离质心最近的向量删除,保留质心向量。
进一步地,所述步骤3中得到聚类模型之前还包括进行减少聚类的类数。
更进一步地,使用LRU算法来减少聚类的类数,具体为:将添加新数据的时间作为这个类的最后更新时间,设定z为聚类保存的最大聚类数,m为聚类的类数,当m大于z时,删除1个或m-z个聚类,同时删除最久未使用的类。
进一步地,所述步骤4具体为:
将新的数据分入已有的一个聚类中,如果新的数据到任何一个已有聚类的距离都超过了定义的变量阀值,那么新增一个新的聚类里面只包含这条新进数据,分配完新进的数据后按步骤3处理数据,然后处理下一条新的数据。
更进一步地,设定t1为聚类启动时间,t2为聚类运行完初始化阶段的时间,所述步骤4中动态聚类的一种方式具体为:
b1、重新计算新的向量,更新向量空间模型,处理t1到t2之间的新的数据,将每一条新的数据当做一个单独的类;
b2、计算新的数据的向量到每个聚类中的向量的平均距离,得到新进数据到已有的每个聚类的距离,找到距离最小的那个聚类,如果这个距离大于定义的变量阀值,那么新的数据将成为新的一类,否则将分入距离最近的那一类。
与现有技术相比,本发明的有益效果是:
本发明解决了传统聚类算法只能对固定大小的数据集合进行聚类的问题,并设法降低了层次聚类应用于实时增大的数据集时所需的计算资源,能够对不断更新和增长的数据集进行聚合处理以实现更加精确和灵敏的相似内容推荐功能。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所述的一种面向海量互联网文本数据的流式聚类及展现的方法,包括以下步骤:
一种面向海量互联网文本数据的流式聚类及展现的方法,包括以下步骤:
步骤1、提取互联网中的新闻信息并存入数据库;
步骤2、对数据库中已有的数据进行聚类,通过调节多个数据之间的聚类相似度来建立向量空间模型;
步骤3、储存步骤2中的聚类数据所对应的向量,删除聚类数据对应的文本内容,得到聚类模型;
步骤4、将数据库得到的新的数据和步骤3中的聚类模型进行动态聚类,并更新聚类结果。
上述方案中,步骤3只留下数据所对应的向量来表示这些数据,因为这些文本在之后的聚类中已经不会用到。转为向量将减少这些数据在内存中的使用空间。
具体实施时,设定x为一个系统参数,用于调节聚类相似度,所述步骤2中建立向量空间模型的一种方式具体为:
a1、对数据库中已有的数据进行分词;
a2、对分词结果使用停词表过滤;
a3、使用tfidf模型将过滤后的分词结果映射成k维的稀疏向量,维度k由词袋的大小来决定;
a4、使用层次聚类对已有的数据进行聚类,两条数据之间的相似度用这两条数据对应的两个k维向量夹角的余弦值来表示,当两个向量之间的余弦值小于x时,这两个向量所对应的文本内容为一类,否则,不是一类。
a5、根据步骤a4,调节x来建立向量空间模型。
具体实施时,所述步骤3中得到聚类模型之前还包括进行减少每个聚类中包含数据的条数,传统的聚类在一次聚类结束后回释放内存中储存的数据结构,并在下次聚类时重新从数据库读取数据进行聚类,因为需要频繁从数据库读取数据,这种方法会消耗大量的时间在数据读取上,步骤3将把聚类的结果储存在内存中来提高之后的聚类效率。然而,内存的大小是有限的,所以在聚类时,通过减少每个聚类中包含数据的条数的方法来减少内存占用。
在上述具体实施时,减少每个聚类中包含数据的条数为随机删除,随机删除的条数小于定义的变量阈值,删除类中的数据时,留下的数据能够尽可能的表达类的范围,也就是减少由于删除数据而带来的对于新的数据的聚类误差。
在上述具体实施时,使用knn算法来减少每个聚类中包含数据的条数,具体为:通过类中所包含的向量计算出类的质心,然后将距离质心最近的向量删除,保留质心向量,可以将每个聚类中的数据条数控制在一定的范围之内。
具体实施时,所述步骤3中得到聚类模型之前还包括进行减少聚类的类数,来减少内存占用。
在上述具体实施时,使用LRU算法来减少聚类的类数,具体为:将添加新数据的时间作为这个类的最后更新时间,设定z为聚类保存的最大聚类数,m为聚类的类数,当m大于z时,删除1个或m-z个聚类,同时删除最久未使用的类。
具体实施时,所述步骤4具体为:
将新的数据分入已有的一个聚类中,如果新的数据到任何一个已有聚类的距离都超过了定义的变量阀值,那么新增一个新的聚类里面只包含这条新进数据,分配完新进的数据后按步骤3处理数据,然后处理下一条新的数据。
在上述具体实施时,设定t1为聚类启动时间,t2为聚类运行完初始化阶段的时间,所述步骤4中动态聚类的一种方式具体为:
b1、重新计算新的向量,更新向量空间模型,处理t1到t2之间的新的数据,将每一条新的数据当做一个单独的类;
b2、计算新的数据的向量到每个聚类中的向量的平均距离,得到新进数据到已有的每个聚类的距离,找到距离最小的那个聚类,如果这个距离大于定义的变量阀值,那么新的数据将成为新的一类,否则将分入距离最近的那一类。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种面向海量互联网文本数据的流式聚类及展现的方法,其特征在于,包括以下步骤:
步骤1、提取互联网中的新闻信息并存入数据库;
步骤2、对数据库中已有的数据进行聚类,通过调节多个数据之间的聚类相似度来建立向量空间模型;
步骤3、储存步骤2中的聚类数据所对应的向量,删除聚类数据对应的文本内容,得到聚类模型;
步骤4、将数据库得到的新的数据和步骤3中的聚类模型进行动态聚类,并更新聚类结果;
所述步骤3中得到聚类模型之前还包括进行减少每个聚类中包含数据的条数;减少每个聚类中包含数据的条数为随机删除,随机删除的条数小于定义的变量阈值;使用knn算法来减少每个聚类中包含数据的条数,具体为:通过类中所包含的向量计算出类的质心,然后将距离质心最近的向量删除,保留质心向量。
所述步骤3中得到聚类模型之前还包括进行减少聚类的类数;使用LRU算法来减少聚类的类数,具体为:将添加新数据的时间作为这个类的最后更新时间,设定z为聚类保存的最大聚类数,m为聚类的类数,当m大于z时,删除1个或m-z个聚类,同时删除最久未使用的类。
2.根据权利要求1所述的一种面向海量互联网文本数据的流式聚类及展现的方法,其特征在于,设定x为一个系统参数,用于调节聚类相似度,所述步骤2中建立向量空间模型的一种方式具体为:
a1、对数据库中已有的数据进行分词;
a2、对分词结果使用停词表过滤;
a3、使用tfidf模型将过滤后的分词结果映射成k维的稀疏向量;
a4、使用层次聚类对已有的数据进行聚类,两条数据之间的相似度用这两条数据对应的两个k维向量夹角的余弦值来表示,当两个向量之间的余弦值小于x时,这两个向量所对应的文本内容为一类,否则,不是一类。
a5、根据步骤a4,调节x来建立向量空间模型。
3.根据权利要求1所述的一种面向海量互联网文本数据的流式聚类及展现的方法,其特征在于,所述步骤4具体为:
将新的数据分入已有的一个聚类中,如果新的数据到任何一个已有聚类的距离都超过了定义的变量阀值,那么新增一个新的聚类里面只包含这条新进数据,分配完新进的数据后按步骤3处理数据,然后处理下一条新的数据。
4.根据权利要求3所述的一种面向海量互联网文本数据的流式聚类及展现的方法,其特征在于,设定t1为聚类启动时间,t2为聚类运行完初始化阶段的时间,所述步骤4中动态聚类的一种方式具体为:
b1、重新计算新的向量,更新向量空间模型,处理t1到t2之间的新的数据,将每一条新的数据当做一个单独的类;
b2、计算新的数据的向量到每个聚类中的向量的平均距离,得到新进数据到已有的每个聚类的距离,找到距离最小的那个聚类,如果这个距离大于定义的变量阀值,那么新的数据将成为新的一类,否则将分入距离最近的那一类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710751232.4A CN107562853B (zh) | 2017-08-28 | 2017-08-28 | 一种面向海量互联网文本数据的流式聚类及展现的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710751232.4A CN107562853B (zh) | 2017-08-28 | 2017-08-28 | 一种面向海量互联网文本数据的流式聚类及展现的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562853A CN107562853A (zh) | 2018-01-09 |
CN107562853B true CN107562853B (zh) | 2021-02-23 |
Family
ID=60977538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710751232.4A Active CN107562853B (zh) | 2017-08-28 | 2017-08-28 | 一种面向海量互联网文本数据的流式聚类及展现的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562853B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110460882B (zh) * | 2018-05-07 | 2020-07-17 | 中国科学院声学研究所 | 一种基于数据特征降维编码的流媒体内容分发方法 |
CN108921395A (zh) * | 2018-06-11 | 2018-11-30 | 中国电力科学研究院有限公司 | 一种面向电力通信系统仿真的网络性能增量优化评估方法及系统 |
CN110414569B (zh) | 2019-07-03 | 2022-04-08 | 北京小米智能科技有限公司 | 聚类实现方法及装置 |
CN111324737B (zh) * | 2020-03-23 | 2022-04-22 | 中国电子科技集团公司第三十研究所 | 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084521A1 (zh) * | 2015-11-18 | 2017-05-26 | 阿里巴巴集团控股有限公司 | 一种订单聚类方法及装置,以及反恶意信息的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1162789C (zh) * | 2001-09-06 | 2004-08-18 | 联想(北京)有限公司 | 通过主题词矫正基于向量空间模型文本相似度计算的方法 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
CN105450497A (zh) * | 2014-07-31 | 2016-03-30 | 国际商业机器公司 | 生成聚类模型以及基于该聚类模型进行聚类的方法和装置 |
CN105335496B (zh) * | 2015-10-22 | 2019-05-21 | 国网山东省电力公司电力科学研究院 | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 |
CN105426426B (zh) * | 2015-11-04 | 2018-11-02 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
-
2017
- 2017-08-28 CN CN201710751232.4A patent/CN107562853B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084521A1 (zh) * | 2015-11-18 | 2017-05-26 | 阿里巴巴集团控股有限公司 | 一种订单聚类方法及装置,以及反恶意信息的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107562853A (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562853B (zh) | 一种面向海量互联网文本数据的流式聚类及展现的方法 | |
EP2829990B1 (en) | Image search device, image search method, program, and computer-readable storage medium | |
US10789231B2 (en) | Spatial indexing for distributed storage using local indexes | |
EP2833275B1 (en) | Image search device, image search method, program, and computer-readable storage medium | |
WO2020005605A1 (en) | Table detection in spreadsheet | |
CN109558533B (zh) | 一种基于多重聚类的个性化内容推荐方法及装置 | |
US9767362B2 (en) | Matching a feature of captured visual data | |
US9442950B2 (en) | Systems and methods for dynamic visual search engine | |
CN105117351A (zh) | 向缓存写入数据的方法及装置 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
JP2021503123A (ja) | ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 | |
US20210312215A1 (en) | Method for book recognition and book reading device | |
CN110728526A (zh) | 地址识别方法、设备以及计算机可读介质 | |
CN103207889A (zh) | 一种基于Hadoop的海量人脸图像的检索方法 | |
US20150286442A1 (en) | Cluster-wide memory management using similarity-preserving signatures | |
US11729268B2 (en) | Computer-implemented method, system, and storage medium for prefetching in a distributed graph architecture | |
CN104298695B (zh) | 数据缓存方法、装置及服务器 | |
CN103942301A (zh) | 一种面向多数据类型访问应用的分布式文件系统 | |
WO2022007596A1 (zh) | 图像检索系统、方法和装置 | |
Hendriks | Revisiting priority queues for image analysis | |
CN107273430B (zh) | 一种数据存储方法和装置 | |
CN104252415B (zh) | 一种重新分布数据的方法和系统 | |
CN114048847A (zh) | 一种图神经网络数据缓存方法、装置、设备及存储介质 | |
WO2016008070A1 (zh) | 数据写入的方法及装置 | |
WO2016095103A1 (zh) | 存储空间管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |