CN101004761A - 大规模文本逐次二分的层次聚类方法 - Google Patents
大规模文本逐次二分的层次聚类方法 Download PDFInfo
- Publication number
- CN101004761A CN101004761A CN 200710036309 CN200710036309A CN101004761A CN 101004761 A CN101004761 A CN 101004761A CN 200710036309 CN200710036309 CN 200710036309 CN 200710036309 A CN200710036309 A CN 200710036309A CN 101004761 A CN101004761 A CN 101004761A
- Authority
- CN
- China
- Prior art keywords
- text
- piece
- writing
- article
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括:文本的向量空间表示;两两文本的相似度计算;将图嵌入到维空间,并用K-means或层次聚类算法,将文本聚两类;并逐次二分,直到满足要求,对图不再做切分为止。本发明方法分类效果好,速度快,优于目前常用的谱聚类算法和K-means算法。
Description
技术领域
本发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。
背景技术
随着互联网的普及,越来越多的人喜欢用网络来作为发表言论的媒体。很多论坛,博客,聊天室都提供了丰富的舆论信息,如何用计算机自动分析这些信息成为一个十分重要的问题。文本聚类是一种可以利用计算机自动将文本信息归类的技术,经过聚类之后,属于同一个话题的那些文章将被归为同一个类,从而方便用户查找阅读。目前主要有以下一些文本聚类方法:
1、K-means是一种快速的基于优化准则的聚类算法。该算法一开始随机找k个初始的类中心。接着将每个文本分配到中心离它最近的那个类中,得到每篇文本的类别后,重新计算每个类的中心。如此反复迭代,直到类中心的变化不再明显为止。该方法的优点是速度快,但可能得到聚类结果不是很理想,而且类的个数需要人工事先给定。
2、层次聚类算法,开始将每个文本看作一个类,接着,每次合并两个最相似的类,直到类的个数为1为止。类与类之间的相似度用在这两个类中最相似的两个文本的相似度表示。这个方法的优点是,一开始可以不知道类的个数,通过不断合并,构成了一棵树,用户可以根据自己的需要,得到相应的分类体系。这个方法的优点是,一开始类的个数不需要人工指定,但缺点是聚类效果很差。
3、谱聚类算法,计算文本两两之间的相似度,这样n篇文本构成了含n个节点的无向图,节点之间边的权重就是这两个文本之间的相似度。谱聚类算法试图将该图嵌入到一个低维的空间上去,使得图中权值较大的边能尽可能的保留,而权值较小的边则可以忽略。得到每个文本的低维空间表示后,可以用上述两种算法的任意一个进行聚类。该算法的优点是聚类效果较好,缺点是速度很慢。
发明内容
本发明的目的提出一种聚类效果好,计算速度快的大规模文本的聚类算法。
本发明提出的大规模文本的聚类方法,是吸取了上述第二第三种算法的优点。并进行改进而成的算法。它的核心技术有两部分组成:图嵌入和聚类。第一部分技术和谱聚类算法相似,需要将图嵌入到一个低维的空间上,不同的是,这里低维空间的维数规定为一维。实际上此时就是对所有的文本作了一个排序。接着用K-means或者层次聚类算法将文本聚成两类。即对图进行逐次二分。所谓的“逐次二分”即是对得到的子图继续进行“二分”,直到得到的每个子图足够紧密则停止分割。
具体步骤包括:文本的向量空间表示;两两文本的相似度计算;图嵌到一维空间,并使用K-means或层次聚类算法,对图进行聚类,将图分为两类;再逐次二分,直到满足要求,对图不再做切分。
本发明的优点如下:
由于“逐次二分”的层次聚类算法是一种改进算法,所以它的优点可以从与现有算法的比较中得出。
1、类的个数不需要人的事先指定。相对于K-means算法中需要人工指定类的个数,“逐次二分”的层次聚类算法只需要预先定一个阀值作为停止分割条件,与层次聚类算法相同。这在实际应用中是十分方便的。
2、效果好。由于“逐次二分”的层次聚类算法采用了图嵌入,所以其聚类结果明显好于K-means和层次聚类算法,与谱聚类算法十分相近。
3、速度快。在谱聚类算法中,降维消耗了大量的时间,特别是如果类的个数特别多,那么所降的维数也相应增大,此时谱聚类算法的时间开销将非常大。而K-means的聚类时间复杂度与类的个数是成正比的,在类的个数十分大的时候也会消耗大量的时间。而在“逐次二分”法中,每次将文本分成两类,所需要降的维数是最小的一维,而且得到k个类只需要作log k次操作,这与谱聚类算法和K-means算法相比,优势是十分明显的。
综上所述,“逐次二分”的层次聚类算法具有自动、效果好、快速的特性,是一种更优秀的文本聚类算法。
具体实施方式
基本流程是将文本表示成空间向量后,计算出两两文本之间的相似度,得到图,并用“逐次二分”的层次聚类算法进行聚类。
1、文本的向量空间表示。
假设现在有n篇文章,一共出现了m个词。则每篇文章用一个m维的向量表示,n篇文章构成了m×n的矩阵,记为M。Mij表示第i个单词在第j篇文章中的tfidf值: ,其中tfij表示第i个词在第j篇文章中出现的频率,dfi表示包含第i个词的文章数。为了消除文本长短的差异,将文本表示成向量之后,再做归一化处理,每个向量除以其模长:
这样,就将文本表示成了空间中一个模长为1的向量了。
2、图的计算。
计算两两文本之间的相似度。两个文本之间的相似度。即两个文本的向量间的夹角余弦。n篇文本构成了含n个节点的无向图,节点之间边的权重就是这两个文本之间的相似度。其相似度矩阵用S表示。
3、分割:
a)将图嵌入到1维空间:计算矩阵L=D*S*D,其中D是一个对角阵,
接着计算L的次大特征值对应的特征向量y。则y的分量yi就表示了第i篇文档在一维空间上的位置。
b)分割:求向量y的均值y’,如果yi>0,则将第i篇文档分到第一类,否则分到第二类。
4、判别:
如果得到的子图中的边的最小权重超过一个预先给定的值,则认为该图中所有的文档已经属于同一个话题,不做切分;否则回到第3步。
Claims (2)
1、一种大规模文本逐次二分的层次聚类方法,其特征在于具体步骤如下:文本的向量空间表示;两两文本的相似度计算;图嵌到一维空间,并使用K-means或层次聚类算法,对图进行聚类,将图分为两类;再逐次二分,直到满足要求,对图不再做切分。
2、根据权利要求1所述的方法,其特征在于具体计算步骤如下:
(1)文本的向量空间表示:
假设有n篇文章,一共出现了m个词,则每篇文章用一个m维的向量表示,n篇文章构成了m×n的矩阵,记为M,Mij表示第i个单词在第j篇文章中的tfidf值:
其中tfij表示第i个词在第j篇文章中出现的频率,dfi表示包含第i个词的文章数;将文本表示成向量之后,再做归一化处理:
(2)图的计算:
计算两两文本之间的相似度,其相似度矩阵用S表示;
(3)分割:
a)将图嵌入到1维空间:计算矩阵L=D×S×D,其中D是一个对角阵,
接着
计算L的次大特征值对应的特征向量y,则y的分量yi就表示了第i篇文档在一维空间上的位置;
b)分割:求向量y的均值y’,如果yi>0,则将第i篇文档分到第一类,否则分到第二类。
(4)判别:
如果得到的子图中的边的最小权重超过一个预先给定的值,则认为该图中所有的文档已经属于同一个话题,不做切分;否则回到第(3)步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100363096A CN100495405C (zh) | 2007-01-10 | 2007-01-10 | 大规模文本逐次二分的层次聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100363096A CN100495405C (zh) | 2007-01-10 | 2007-01-10 | 大规模文本逐次二分的层次聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101004761A true CN101004761A (zh) | 2007-07-25 |
CN100495405C CN100495405C (zh) | 2009-06-03 |
Family
ID=38703898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100363096A Expired - Fee Related CN100495405C (zh) | 2007-01-10 | 2007-01-10 | 大规模文本逐次二分的层次聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100495405C (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178703B (zh) * | 2007-11-23 | 2010-05-19 | 西安交通大学 | 基于网络分割的故障诊断谱聚类方法 |
CN101937450A (zh) * | 2009-06-30 | 2011-01-05 | 三菱电机株式会社 | 将单词集转换成相应的粒子集的方法 |
CN102163215A (zh) * | 2010-03-08 | 2011-08-24 | 微软公司 | 来自文档概述的问题概念的本体分类 |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103365999A (zh) * | 2013-07-16 | 2013-10-23 | 盐城工学院 | 一种基于相似度矩阵谱分解的文本聚类集成方法 |
CN104102726A (zh) * | 2014-07-22 | 2014-10-15 | 南昌航空大学 | 基于层次聚类的改进k均值聚类算法 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
CN108170840A (zh) * | 2018-01-15 | 2018-06-15 | 浙江大学 | 一种面向文本的领域分类关系自动学习方法 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN109376381A (zh) * | 2018-09-10 | 2019-02-22 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
CN110032606A (zh) * | 2019-03-29 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种样本聚类方法及装置 |
CN111310467A (zh) * | 2020-03-23 | 2020-06-19 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN113449108A (zh) * | 2021-06-30 | 2021-09-28 | 南京理工大学 | 一种基于层级化聚类的金融新闻流突发检测方法 |
CN114328922A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
-
2007
- 2007-01-10 CN CNB2007100363096A patent/CN100495405C/zh not_active Expired - Fee Related
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178703B (zh) * | 2007-11-23 | 2010-05-19 | 西安交通大学 | 基于网络分割的故障诊断谱聚类方法 |
CN101937450A (zh) * | 2009-06-30 | 2011-01-05 | 三菱电机株式会社 | 将单词集转换成相应的粒子集的方法 |
CN101937450B (zh) * | 2009-06-30 | 2014-03-12 | 三菱电机株式会社 | 在由粒子表示的信息检索数据库中进行条目检索的方法 |
CN102163215B (zh) * | 2010-03-08 | 2013-11-06 | 微软公司 | 来自文档概述的问题概念的本体分类 |
CN102163215A (zh) * | 2010-03-08 | 2011-08-24 | 微软公司 | 来自文档概述的问题概念的本体分类 |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103365999A (zh) * | 2013-07-16 | 2013-10-23 | 盐城工学院 | 一种基于相似度矩阵谱分解的文本聚类集成方法 |
CN104102726A (zh) * | 2014-07-22 | 2014-10-15 | 南昌航空大学 | 基于层次聚类的改进k均值聚类算法 |
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN106815310B (zh) * | 2016-12-20 | 2020-04-21 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN108664538B (zh) * | 2017-11-30 | 2022-02-01 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN108170840A (zh) * | 2018-01-15 | 2018-06-15 | 浙江大学 | 一种面向文本的领域分类关系自动学习方法 |
CN109376381A (zh) * | 2018-09-10 | 2019-02-22 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
CN110032606A (zh) * | 2019-03-29 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种样本聚类方法及装置 |
CN110032606B (zh) * | 2019-03-29 | 2021-05-14 | 创新先进技术有限公司 | 一种样本聚类方法及装置 |
CN111310467A (zh) * | 2020-03-23 | 2020-06-19 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN111310467B (zh) * | 2020-03-23 | 2023-12-12 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN113449108A (zh) * | 2021-06-30 | 2021-09-28 | 南京理工大学 | 一种基于层级化聚类的金融新闻流突发检测方法 |
CN113449108B (zh) * | 2021-06-30 | 2022-10-21 | 南京理工大学 | 一种基于层级化聚类的金融新闻流突发检测方法 |
CN114328922A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN100495405C (zh) | 2009-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100495405C (zh) | 大规模文本逐次二分的层次聚类方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN103020293B (zh) | 一种移动应用的本体库的构建方法及系统 | |
Van Laere et al. | Spatially aware term selection for geotagging | |
CN103425777B (zh) | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 | |
CN105389341B (zh) | 一种客服电话重复来电工单的文本聚类与分析方法 | |
CN103514181B (zh) | 一种搜索方法和装置 | |
CN103823893A (zh) | 一种基于用户评论的产品检索方法及产品检索系统 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN107180075A (zh) | 文本分类集成层次聚类分析的标签自动生成方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN112328794B (zh) | 台风事件信息聚合方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN101963972A (zh) | 情感关键词提取方法及系统 | |
CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
Zhang et al. | A cue-based hub-authority approach for multi-document text summarization | |
CN107895053B (zh) | 基于话题簇动量模型的新兴热点话题检测系统及方法 | |
Jahnavi et al. | FPST: a new term weighting algorithm for long running and short lived events | |
CN103116651A (zh) | 一种舆情热点动态检测方法 | |
Paliwal et al. | Web service discovery via semantic association ranking and hyperclique pattern discovery | |
Al-Radaideh et al. | An approach for Arabic text categorization using association rule mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090603 Termination date: 20130110 |