CN106897276A - 一种互联网数据聚类方法及系统 - Google Patents

一种互联网数据聚类方法及系统 Download PDF

Info

Publication number
CN106897276A
CN106897276A CN201510945269.1A CN201510945269A CN106897276A CN 106897276 A CN106897276 A CN 106897276A CN 201510945269 A CN201510945269 A CN 201510945269A CN 106897276 A CN106897276 A CN 106897276A
Authority
CN
China
Prior art keywords
data
text
clustering
keyword
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510945269.1A
Other languages
English (en)
Inventor
赵鹤
李栋
李栋一
黄哲学
姜青山
陈会
高琴
朱敏
蔡业首
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201510945269.1A priority Critical patent/CN106897276A/zh
Publication of CN106897276A publication Critical patent/CN106897276A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种互联网文本数据聚类方法及系统。所述互联网文本数据聚类方法包括:步骤a:利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组;步骤b:根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据;步骤c:在包含关键词分组信息的新文档数据上运行双层软子空间聚类算法,生成聚类中心矩阵和样本归属矩阵;步骤d:重复n次步骤a至步骤c,得到多个聚类结果;步骤e:在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。本发明能有效降低FG-k-means算法的不稳定性。

Description

一种互联网数据聚类方法及系统
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种互联网文本数据聚类方法及系统。
背景技术
随着大数据时代的到来,数据挖掘领域中面临的数据变得越来越复杂。尤其是互联网文本数据,除了数量巨大之外,由矢量空间模型(Vector SpaceModel)构建的文本数据还具有超高的维度和稀疏度,现有的数据挖掘聚类算法,如k-means、层次聚类、普聚类等应用于文本聚类时,普遍存在不足和局限。
针对高维稀疏数据的子空间聚类问题,学术界提出了许多相关的子空间聚类算法(Subspace Clustering),软子空间聚类算法是其中的一类。依据加权的层数不同,软子空间聚类算法可以分为单层软子空间聚类算法和双层软子空间聚类算法。EW-k-means是典型的单层软子空间聚类算法。它假设特征集在每个聚类簇上都包含一组权重,权重大小由特征对该聚类簇形成的贡献大小决定。FG-k-means是由陈小军等人在2012年提出来的一种双层软子空间聚类算法,它引入了特征组的概念,在组与特征上同时加权,在对超高维稀疏数据进行聚类时,效果明显优于单层软子空间聚类算法。它针对特征空间包含分组信息的数据进行聚类,特征空间定义如下:
1)设训练数据集为X={x1,x2,…,xN},其中xi∈Rd(1≤i≤N)表示数据集中第i个样本;
2)上的特征集为V={v1,v2,…,vd},中的特征包含于组集合G={G1,G2,…,Gk}中且满足
FG-k-means算法需在以上形式的数据集上找出K个聚类簇,同时寻找每个聚类簇在组以及特征上对应子空间。
现有的FG-k-means算法在聚类性能上优于其他算法,但是还存在如下问题:FG-k-means算法需要使用特征组的信息,来完成双层聚类优化的目的,但是一般的文本数据中不会提供此类信息,限制了其应用的范围;FG-k-means存在初始中心点选取不同而导致的聚类结果的不稳定性的问题。
发明内容
本发明提供了一种互联网文本数据聚类方法及系统,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
本发明实现方式如下,一种互联网文本数据聚类方法,包括以下步骤:
一种互联网文本数据聚类方法,包括以下步骤:
步骤a:利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组;
步骤b:根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据;
步骤c:在包含关键词分组信息的新文档数据上运行双层软子空间聚类算法,生成聚类中心矩阵和样本归属矩阵;
步骤d:重复n次步骤a至步骤c,得到多个聚类结果;
步骤e:在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。
本发明实施例采取的技术方案还包括:在所述步骤a中,在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量。
本发明实施例采取的技术方案还包括:在所述步骤a中,利用主题模型对文本数据进行训练时,在文本数据集上运行设置的相应主题数量的主题模型算法。
本发明实施例采取的技术方案还包括:在所述步骤c中,所述双层软子空间聚类算法采用FG-k-means算法。
本发明实施例采取的技术方案还包括:在所述步骤e中,所述将多个聚类结果进行集成具体包括:将同一数据集下的多个聚类结果进行融合,得到反应所述数据集内在结构的划分。
本发明实例采取的另一技术方案为:一种互联网文本数据聚类系统,包括文本数据训练模块、文本数据组织模块、文档数据计算模块、聚类结果循环模块和聚类结果集成模块,所述文本数据训练模块用于利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组;所述文本数据组织模块用于根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据;所述文档数据计算模块在包含关键词分组信息的新文档数据上运行FG-k-means算法,生成聚类中心矩阵和样本归属矩阵;所述聚类结果循环模块用于重复文本数据训练、文本数据组织和文档数据计算过程,得到多个聚类结果;所述聚类结果集成模块用于在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。
本发明实施例采取的技术方案还包括:所述文本数据训练模块还用于在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量。
本发明实施例采取的技术方案还包括:所述文本数据训练模块在文本集合中为对关键词进行分组时,关键词在某个主题下出现的概率较高证明此关键词可以比较好的表达这个主题,将每个关键词留在出现概率最高的主题下,得到固定数量的不同主题。
本发明实施例采取的技术方案还包括:所述双层软子空间聚类算法是FG-k-means算法。
本发明实施例采取的技术方案还包括:所述聚类结果集成模块将多个聚类结果进行集成具体包括:将同一数据集下的多个聚类结果进行融合,得到反应所述数据集内在结构的划分。
本发明实施例的互联网文本数据聚类方法及系统利用主题模型提供的主题信息作为FG-k-means算法的特征组信息,使得本发明实施例的互联网文本数据聚类方法及系统能够从文本信息中自动提取特征组信息,从而规避了FG-k-means算法本身的限制;另外,本发明实施例的互联网文本数据聚类方法及系统融合了主题模型和特征组K均值的聚类集成方法,能有效降低FG-k-means算法的不稳定性。
附图说明
图1是本发明实施例的互联网文本数据聚类方法的流程图;
图2是本发明实施例的互联网文本数据聚类方法的过程示意图;
图3是本发明实施例的互联网文本数据聚类系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,是本发明实施例的互联网文本数据聚类方法的流程图。本发明实施例的互联网文本数据聚类方法包括以下步骤:
步骤100:利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组;
在步骤100中,可以在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量;在文本集合中为对关键词进行分组时,关键词在某个主题下出现的概率较高证明此关键词可以比较好的表达这个主题,将每个关键词留在出现概率最高的主题下,这样就得到固定数量的不同主题。利用主题模型对文本数据进行训练时,在数据集上运行设置的相应主题数量的主题模型算法。
步骤200:根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据;
在步骤200中,依据和进行关键词过滤分组,并产生带有组信息的训练数据集合。
步骤300:在包含关键词分组信息的新文档数据上运行FG-k-means算法,生成聚类中心矩阵和样本归属矩阵;
步骤400:重复n次步骤100至步骤300,得到多个聚类结果;
在步骤400中,重复的次数可以为n次,n大于等于2,n可以实际的需求进行设定和更改。
步骤500:在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。
在步骤500中,将同一数据集下的多个聚类结果进行融合,得到能较好反应该数据集内在结构的划分,聚类集成可有效降低数据集中异常点对聚类结果的影响,提升聚类质量。
请参阅图2,是本发明实施例的互联网文本数据聚类方法的过程示意图。本发明实施例的互联网文本数据聚类方法的逻辑过程为:
请参阅图3,是本发明实施例的互联网文本数据聚类系统的结构示意图。本发明实施例的互联网文本数据聚类系统包括文本数据训练模块、文本数据组织模块、文档数据计算模块、聚类结果循环模块和聚类结果集成模块。
文本数据训练模块用于利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组。可以在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量;在文本集合中为对关键词进行分组时,关键词在某个主题下出现的概率较高证明此关键词可以比较好的表达这个主题,将每个关键词留在出现概率最高的主题下,这样就得到固定数量的不同主题。
文本数据组织模块用于根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据。
文档数据计算模块在包含关键词分组信息的新文档数据上运行FG-k-means算法,生成聚类中心矩阵和样本归属矩阵。
聚类结果循环模块用于重复文本数据训练、文本数据组织和文档数据计算过程,得到多个聚类结果。聚类结果循环模块可以重复n次文本数据训练、文本数据组织和文档数据计算过程,重复的次数可以为n次,n大于等于2,n可以实际的需求进行设定和更改。
聚类结果集成模块用于在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。将同一数据集下的多个聚类结果进行融合,得到能较好反应该数据集内在结构的划分,聚类集成可有效降低数据集中异常点对聚类结果的影响,提升聚类质量。
本发明实施例的互联网文本数据聚类方法及系统利用主题模型提供的主题信息作为FG-k-means算法的特征组信息,使得本发明实施例的互联网文本数据聚类方法及系统能够从文本信息中自动提取特征组信息,从而规避了FG-k-means算法本身的限制;另外,本发明实施例的互联网文本数据聚类方法及系统融合了主题模型和特征组K均值的聚类集成方法,能有效降低FG-k-means算法的不稳定性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种互联网文本数据聚类方法,包括以下步骤:
步骤a:利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组;
步骤b:根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据;
步骤c:在包含关键词分组信息的新文档数据上运行双层软子空间聚类算法,生成聚类中心矩阵和样本归属矩阵;
步骤d:重复n次步骤a至步骤c,得到多个聚类结果;
步骤e:在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。
2.根据权利要求1所述的互联网文本数据聚类方法,其特征在于,在所述步骤a中,在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量。
3.根据权利要求2所述的互联网文本数据聚类方法,其特征在于,在所述步骤a中,利用主题模型对文本数据进行训练时,在文本数据集上运行步骤1中设置的相应主题数量的主题模型算法。
4.根据权利要求3所述的互联网文本数据聚类方法,其特征在于,在所述步骤c中,所述双层软子空间聚类算法采用FG-k-means算法。
5.根据权利要求4所述的互联网文本数据聚类方法,其特征在于,在所述步骤e中,所述将多个聚类结果进行集成具体包括:将同一数据集下的多个聚类结果进行融合,得到反应所述数据集内在结构的划分。
6.一种互联网文本数据聚类系统,其特征在于,包括文本数据训练模块、文本数据组织模块、文档数据计算模块、聚类结果循环模块和聚类结果集成模块,所述文本数据训练模块用于利用主题模型对文本数据进行训练,得到各个主题下所有关键词的概率分布矩阵,并在文本集合中为对关键词进行分组;所述文本数据组织模块用于根据关键词的分组重新组织文本数据的特征集,得到包含关键词分组特征信息的新的文档数据;所述文档数据计算模块在包含关键词分组信息的新文档数据上运行FG-k-means算法,生成聚类中心矩阵和样本归属矩阵;所述聚类结果循环模块用于重复文本数据训练、文本数据组织和文档数据计算过程,得到多个聚类结果;所述聚类结果集成模块用于在模型集合上运行聚类集成算法,将多个聚类结果进行集成,得到最终的聚类结果。
7.根据权利要求6所述的互联网文本数据聚类系统,其特征在于,所述文本数据训练模块还用于在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量。
8.根据权利要求6所述的互联网文本数据聚类系统,其特征在于,所述文本数据训练模块在文本集合中为对关键词进行分组时,关键词在某个主题下出现的概率较高证明此关键词可以比较好的表达这个主题,将每个关键词留在出现概率最高的主题下,得到固定数量的不同主题。
9.根据权利要求6或7所述的互联网文本数据聚类系统,其特征在于,所述双层软子空间聚类算法是FG-k-means算法。
10.根据权利要求6所述的互联网文本数据聚类系统,其特征在于,所述聚类结果集成模块将多个聚类结果进行集成具体包括:将同一数据集下的多个聚类结果进行融合,得到反应所述数据集内在结构的划分。
CN201510945269.1A 2015-12-17 2015-12-17 一种互联网数据聚类方法及系统 Pending CN106897276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510945269.1A CN106897276A (zh) 2015-12-17 2015-12-17 一种互联网数据聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510945269.1A CN106897276A (zh) 2015-12-17 2015-12-17 一种互联网数据聚类方法及系统

Publications (1)

Publication Number Publication Date
CN106897276A true CN106897276A (zh) 2017-06-27

Family

ID=59189588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510945269.1A Pending CN106897276A (zh) 2015-12-17 2015-12-17 一种互联网数据聚类方法及系统

Country Status (1)

Country Link
CN (1) CN106897276A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897292A (zh) * 2015-12-17 2017-06-27 中国科学院深圳先进技术研究院 一种互联网数据聚类方法及系统
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN109376764A (zh) * 2018-09-13 2019-02-22 北京字节跳动网络技术有限公司 基于聚类的数据收集方法、装置和计算机可读存储介质
CN111382566A (zh) * 2018-12-28 2020-07-07 北京搜狗科技发展有限公司 一种站点主题的确定方法、装置和电子设备
CN111814153A (zh) * 2020-07-10 2020-10-23 辽东学院 一种基于大数据的商业网站安全维护方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1216841A (zh) * 1997-10-31 1999-05-19 国际商业机器公司 用于索引和检索的多维数据聚类和降维
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US20110302163A1 (en) * 2010-06-02 2011-12-08 Cbs Interactive Inc. System and method for clustering content according to similarity
CN102929906A (zh) * 2012-08-10 2013-02-13 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1216841A (zh) * 1997-10-31 1999-05-19 国际商业机器公司 用于索引和检索的多维数据聚类和降维
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US20110302163A1 (en) * 2010-06-02 2011-12-08 Cbs Interactive Inc. System and method for clustering content according to similarity
CN102929906A (zh) * 2012-08-10 2013-02-13 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897292A (zh) * 2015-12-17 2017-06-27 中国科学院深圳先进技术研究院 一种互联网数据聚类方法及系统
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
WO2019085118A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN109376764A (zh) * 2018-09-13 2019-02-22 北京字节跳动网络技术有限公司 基于聚类的数据收集方法、装置和计算机可读存储介质
CN109376764B (zh) * 2018-09-13 2021-12-07 北京字节跳动网络技术有限公司 基于聚类的数据收集方法、装置和计算机可读存储介质
CN111382566A (zh) * 2018-12-28 2020-07-07 北京搜狗科技发展有限公司 一种站点主题的确定方法、装置和电子设备
CN111382566B (zh) * 2018-12-28 2024-05-24 北京搜狗科技发展有限公司 一种站点主题的确定方法、装置和电子设备
CN111814153A (zh) * 2020-07-10 2020-10-23 辽东学院 一种基于大数据的商业网站安全维护方法

Similar Documents

Publication Publication Date Title
CN106897276A (zh) 一种互联网数据聚类方法及系统
Shao et al. Online multi-view clustering with incomplete views
CN111259133B (zh) 一种融合多信息的个性化推荐方法
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN103984681B (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN110321925A (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN107330446A (zh) 一种面向图像分类的深度卷积神经网络的优化方法
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
Jiang et al. Federated learning algorithm based on knowledge distillation
CN101339553A (zh) 面向海量数据近似快速聚类和索引方法
CN102289522A (zh) 一种对于文本智能分类的方法
CN106815310A (zh) 一种对海量文档集的层次聚类方法及系统
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN106959946A (zh) 一种基于深度学习的文本语义特征生成优化方法
CN105046720B (zh) 基于人体运动捕捉数据字符串表示的行为分割方法
CN103530316A (zh) 一种基于多视图学习的科学主题提取方法
CN106874367A (zh) 一种基于舆情平台的抽样分布式聚类方法
CN104933143A (zh) 获取推荐对象的方法及装置
CN109271513A (zh) 一种文本分类方法、计算机可读储存介质及系统
CN105869058A (zh) 一种多层潜变量模型用户画像提取的方法
CN112686313B (zh) 基于信息论改进的并行深度森林分类方法
Li et al. Variational graph autoencoder with adversarial mutual information learning for network representation learning
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN108763219A (zh) 基于cnn-rsc组合优化算法的语音情感分析方法
Sun et al. A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627