CN106815310B - 一种对海量文档集的层次聚类方法及系统 - Google Patents

一种对海量文档集的层次聚类方法及系统 Download PDF

Info

Publication number
CN106815310B
CN106815310B CN201611186920.2A CN201611186920A CN106815310B CN 106815310 B CN106815310 B CN 106815310B CN 201611186920 A CN201611186920 A CN 201611186920A CN 106815310 B CN106815310 B CN 106815310B
Authority
CN
China
Prior art keywords
hierarchical
topic
document
tree
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611186920.2A
Other languages
English (en)
Other versions
CN106815310A (zh
Inventor
赵淦森
黄晓烽
胡波
杨晋吉
朱佳
唐华
廖智锐
汤庸
林嘉洺
张海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201611186920.2A priority Critical patent/CN106815310B/zh
Publication of CN106815310A publication Critical patent/CN106815310A/zh
Application granted granted Critical
Publication of CN106815310B publication Critical patent/CN106815310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种对海量文档集的层次聚类方法及系统,该方法包括步骤:使用LDA模型对文档集的文档‑词项矩阵进行分析,进而生成文档集的文档‑主题分布矩阵和主题‑词项分布矩阵;对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;对文档集进行聚类分析后生成对应的层次主题树;基于建立的层次主题树对文档集进行层次聚类。本发明通过将LDA的全局语义信息和Word Embedding的细粒度语义信息结合起来进行文档层次聚类,可以全面地反映文档的本质,使得生成的层次主题树的层次结构更加合理,可广泛应用于数据处理领域。

Description

一种对海量文档集的层次聚类方法及系统
技术领域
本发明涉及数据处理领域,特别是涉及一种对海量文档集的层次聚类方法及系统。
背景技术
名词解释:
词项(term):组成文档的最小的语言单元,可以是词语或短语等。
文档(document):具有一定长度的文本,例如一个句子、段落或一篇文章。在统计文本模型中,文档通常被看作是由词项组成的序列,并且不考虑词项在文档中出现的顺序,即所谓的词袋模型。
文档集(corpus):由文档组成的集合,也称作语料库。
词典(dictionary):文档集中所有不同词项所构成的词项集。
主题:主题是对文档内容的一个抽象的描述,一般用多个词项以及各个词项来描述;
LDA:Latent Dirichlet allocation,隐含狄利克雷分布。
Word Embedding:词向量;用向量的形式来描述词项的一种方法,可以让在某些维度上相似的词项在向量空间中用相近的向量来表示;
K-means聚类:k-means算法是一个聚类算法,其可以对给定的数据集进行自动聚类,形成指定数量的类族。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
随着互联网的普及以及数据的激增,人们越来越容易获取到大量的文本数据,例如新闻报道、blog文章、邮件、书籍、网页等。对于这些海量的文本数据,需要使用自然语言处理、机器学习等技术对其进行分析挖掘,发现潜藏在文本数据之下的模式、趋势,找出感兴趣、有价值的话题和信息。
目前,对文档进行挖掘的一种方式就是对文档集进行分组,将有共性的文档归为同一类。对文档集进行分组的方法可以分成两类。一类是有监督的方法,即分类。分类算法一般包含两个过程,分别是训练过程和分类过程。在训练过程中,需要使用大量标注好类别的文档作为训练集,然后利用分类器的训练算法从训练集中学习出分类模型。总的来说,分类过程就是对于一篇没有类别信息的文档,使用训练好的分类模型对文档进行分类,预测这篇文档所属的类别。分类的应用有很多,例如应用在新闻报道中的自动分类,为垃圾邮件、短信训练出分类器,从而实现垃圾邮件、短信的过滤等应用场景。
分类算法虽然有很多的应用场景,但却存在一个主要的问题,那就是分类器的训练需要使用大量有类别信息的文本数据作为训练集,而这些类别信息是由人类根据自身的认知人工标注上去的。因此,在大量文本数据的情况下,标注训练数据将会消耗很多的精力,大大降低分类效率,由此也限制了分类算法的应用领域。
正是由于分类算法的这个短板,很多时候需要使用另外一类文档划分的方法,那就是聚类分析。聚类分析是一种无监督的机器学习算法,聚类算法根据文档自身的特征属性,利用预定义好的相似度计算方式将相似的文档归为同一个簇内。聚类分析的目标就是让同一个簇中的文档尽可能的相似,而不同簇之间的文档尽可能的不同。聚类分析可以在没有人类知识进行引导的情况下对文档集进行分析,发现文档集的潜在模式,例如对新闻报道进行聚类分析从而找出热点话题等。在某些情况下,除了需要对文档集进行划分,还希望划分出的文档组之间具有层次关联关系,例如体育新闻下还包含足球、篮球等。
聚类算法可以根据生成的簇的结构分成扁平聚类(flat clustering)和层次聚类(hierarchical clustering)。扁平聚类会将数据集划分成互不重叠的簇,得到的簇结构是扁平的,簇与簇之间没有明显的关联关系,数据集中的每个数据记录只属于其中的一个簇。层次聚类算法生成的簇具有层次关系,即簇被组织成一棵树结构,簇与簇之间是可以相互嵌套的,父结点对应的簇包含子结点对应的簇。
使用现有的技术对文档集进行层次聚类的过程中,首先将文档集转换成文档-词项矩阵,然后在文档-词项矩阵的基础上进行层次聚类分析。这种技术,只利用了文档的全局语义信息,存在一定的局限性,无法全面地反映文档的本质,从而导致层次聚类的结果不够理想。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种对海量文档集的层次聚类方法,本发明的目的是提供一种对海量文档集的层次聚类系统。
本发明解决其技术问题所采用的技术方案是:
一种对海量文档集的层次聚类方法,包括步骤:
LDA主题分析步骤,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练步骤,对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成步骤,对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类步骤,基于建立的层次主题树对文档集进行层次聚类。
进一步,所述层次主题树生成步骤,具体为:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步,所述层次主题树生成步骤,具体包括以下步骤:
LDA主题词项集获取步骤,基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集;
主题词项集优化步骤,基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;
子层次主题树生成步骤,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;
层次主题树生成步骤,将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步,所述子层次主题树生成步骤,具体包括:
步骤1,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
步骤2,判断该簇的层次数是否达到预设的深度,若是,则执行步骤4,反之,执行步骤3;
步骤3,将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行步骤2;
步骤4,获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
进一步,所述文档层次聚类步骤,其具体为:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类。
本发明解决其技术问题所采用的另一技术方案是:
一种对海量文档集的层次聚类系统,包括:
LDA主题分析模块,用于使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练模块,用于对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成模块,用于对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类模块,用于基于建立的层次主题树对文档集进行层次聚类。
进一步,所述层次主题树生成模块,具体用于:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步,所述层次主题树生成模块,具体包括:
LDA主题词项集获取子模块,用于基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集;
主题词项集优化子模块,用于基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;
子层次主题树生成子模块,用于利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;
层次主题树生成子模块,用于将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步,所述子层次主题树生成子模块,具体包括:
第一单元,用于利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
第二单元,用于判断该簇的层次数是否达到预设的深度,若是,则执行第四单元,反之,执行第三单元;
第三单元,用于将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行第二单元;
第四单元,用于获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
进一步,所述文档层次聚类模块,其具体用于:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类。
本发明的有益效果是:本发明的一种对海量文档集的层次聚类方法,包括步骤:LDA主题分析步骤,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;Word Embedding模型训练步骤,对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;层次主题树生成步骤,对文档集进行聚类分析后生成对应的层次主题树;文档层次聚类步骤,基于建立的层次主题树对文档集进行层次聚类。本方法通过将LDA的全局语义信息和WordEmbedding的细粒度语义信息结合起来进行文档层次聚类,可以全面地反映文档的本质,使得生成的层次主题树的层次结构更加合理。
本发明的另一有益效果是:本发明的一种对海量文档集的层次聚类系统,包括:LDA主题分析模块,用于使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;Word Embedding模型训练模块,用于对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;层次主题树生成模块,用于对文档集进行聚类分析后生成对应的层次主题树;文档层次聚类模块,用于基于建立的层次主题树对文档集进行层次聚类。本系统通过将LDA的全局语义信息和Word Embedding的细粒度语义信息结合起来进行文档层次聚类,可以全面地反映文档的本质,使得生成的层次主题树的层次结构更加合理。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明的一种对海量文档集的层次聚类方法的流程图;
图2是本发明的一种对海量文档集的层次聚类方法的文档层次聚类框架图;
图3是本发明的一种对海量文档集的层次聚类方法的LDA主题词项集获取示意图;
图4是本发明的一种对海量文档集的层次聚类方法的文档层次聚类的示意图;
图5是本发明的一种对海量文档集的层次聚类系统的系统框图。
具体实施方式
参照图1,本发明提供了一种对海量文档集的层次聚类方法,包括步骤:
LDA主题分析步骤,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练步骤,对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成步骤,对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类步骤,基于建立的层次主题树对文档集进行层次聚类。
进一步作为优选的实施方式,所述层次主题树生成步骤,具体为:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步作为优选的实施方式,所述层次主题树生成步骤,具体包括以下步骤:
LDA主题词项集获取步骤,基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集;
主题词项集优化步骤,基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;
子层次主题树生成步骤,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;
层次主题树生成步骤,将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步作为优选的实施方式,所述子层次主题树生成步骤,具体包括:
步骤1,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
步骤2,判断该簇的层次数是否达到预设的深度,若是,则执行步骤4,反之,执行步骤3;
步骤3,将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行步骤2;
步骤4,获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
进一步作为优选的实施方式,所述文档层次聚类步骤,其具体为:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类。
参照图5,本发明还提供了一种对海量文档集的层次聚类系统,包括:
LDA主题分析模块,用于使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练模块,用于对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成模块,用于对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类模块,用于基于建立的层次主题树对文档集进行层次聚类。
进一步作为优选的实施方式,所述层次主题树生成模块,具体用于:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步作为优选的实施方式,所述层次主题树生成模块,具体包括:
LDA主题词项集获取子模块,用于基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集;
主题词项集优化子模块,用于基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;
子层次主题树生成子模块,用于利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;
层次主题树生成子模块,用于将所有子层次主题树结合起来作为整个文档集的层次主题树。
进一步作为优选的实施方式,所述子层次主题树生成子模块,具体包括:
第一单元,用于利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
第二单元,用于判断该簇的层次数是否达到预设的深度,若是,则执行第四单元,反之,执行第三单元;
第三单元,用于将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行第二单元;
第四单元,用于获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
进一步作为优选的实施方式,所述文档层次聚类模块,其具体用于:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类。
以下结合详细实施例对本发明做具体说明。
实施例一
参照图1,一种对海量文档集的层次聚类方法,包括步骤:
LDA主题分析步骤,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练步骤,对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成步骤,对文档集进行聚类分析后生成对应的层次主题树,具体为:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树。
文档层次聚类步骤,基于建立的层次主题树对文档集进行层次聚类。
本方法的文档层次聚类框架如图2所示,本发明首先使用LDA主题模型对整个文档集进行分析,然后根据分析得出的主题-词项分布矩阵对每个LDA主题生成一个主题词项集。另外用这个文档集进行Word Embedding模型的训练,然后对每个主题词项集进行层次聚类分析,得到一棵层次主题树。最后,对于文档集中的每篇文档,将其分配给相似度最高的那个主题,从而实现文档集的层次聚类。本方案共包含四个子过程,分别为:LDA主题分析、Word Embedding模型训练、层次主题树生成、文档层次聚类。
其中,层次主题树生成步骤,具体包括以下步骤:
LDA主题词项集获取步骤,基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集,其获取步骤如图3所示,图3的主题-词项分布矩阵中,t1、t2、t3、t4分别表示主题,w1、w2、w3、w4分别表示词项;
主题词项集优化步骤,基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;每个LDA主题词项集中都会包含一些语义很烦、主题表达性不高的词项,本主题词项集优化步骤就是将这些主题表达性不高的词项给去除掉。优化过程利用了二分K-means聚类和簇的凝聚度。簇的凝聚度指簇内所有对象与簇质心的平均欧几里得距离,它用来评估簇内对象的相关性、紧密性,值越高表示簇内对象越不相似,值越低表示簇内对象越相似。优化过程首先利用词项在Word Embedding模型下的向量形式对每个主题词项集进行二分K-means聚类,接着计算聚类生成的两个簇的凝聚度,然后将凝聚度值大的簇删掉,留下凝聚度值小的簇作为这个主题的词项簇。
子层次主题树生成步骤,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;具体包括:
步骤1,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
步骤2,判断该簇的层次数是否达到预设的深度,若是,则执行步骤4,反之,执行步骤3;预设的深度是指定的层次深度;
步骤3,将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行步骤2;
步骤4,获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
层次主题树生成步骤,将所有子层次主题树结合起来作为整个文档集的层次主题树,具体为:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类,如图4所示。这里,叶子主题指叶子节点的LDA主题。在计算文档与LDA主题的余弦相似度时,层次主题树中的每个主题其实是一个词项集,而在词袋模型中,文档也被看成是一个词项集。一篇文档在空间向量模型下可以被形式化的表示成一个向量,因此,一个LDA主题词项集也可以在空间向量模型下被表示成一个向量。那么,计算一篇文档与一个主题的余弦相似度就可以转变成计算相应两个向量的余弦相似度。本实施例中,词项权值使用的是TF-IDF值。
本方法结合了LDA主题模型和Word Embedding模型进行文档层次聚类。LDA主题分析得到的是文档集全局的语义信息,Word Embedding模型获取的是细粒度语义信息,本发明的方案将LDA的全局语义信息和Word Embedding的细粒度语义信息结合起来,可以全面地反映文档的本质,使得生成的层次主题树更优秀、更理想,层次结构更加合理。
实施例二
参照图5,一种对海量文档集的层次聚类系统,包括:
LDA主题分析模块,用于使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练模块,用于对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成模块,用于对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类模块,用于基于建立的层次主题树对文档集进行层次聚类。
本实施例是与实施例一一一对应的软系统,其具体限定可参照实施例一的描述。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (6)

1.一种对海量文档集的层次聚类方法,其特征在于,包括步骤:
LDA主题分析步骤,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练步骤,对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成步骤,对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类步骤,基于建立的层次主题树对文档集进行层次聚类;
所述层次主题树生成步骤,具体为:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树;
所述层次主题树生成步骤,具体包括以下步骤:
LDA主题词项集获取步骤,基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集;
主题词项集优化步骤,基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;
子层次主题树生成步骤,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;
层次主题树生成步骤,将所有子层次主题树结合起来作为整个文档集的层次主题树。
2.根据权利要求1所述的一种对海量文档集的层次聚类方法,其特征在于,所述子层次主题树生成步骤,具体包括:
步骤1,利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
步骤2,判断该簇的层次数是否达到预设的深度,若是,则执行步骤4,反之,执行步骤3;
步骤3,将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行步骤2;
步骤4,获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
3.根据权利要求1所述的一种对海量文档集的层次聚类方法,其特征在于,所述文档层次聚类步骤,其具体为:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类。
4.一种对海量文档集的层次聚类系统,其特征在于,包括:
LDA主题分析模块,用于使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;
Word Embedding模型训练模块,用于对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;
层次主题树生成模块,用于对文档集进行聚类分析后生成对应的层次主题树;
文档层次聚类模块,用于基于建立的层次主题树对文档集进行层次聚类;
所述层次主题树生成模块,具体用于:对文档集的每个LDA主题生成一个主题词项集,进而对每个主题词项集进行层次聚类分析后,获得对应的子层次主题树,最后将所有子层次主题树结合起来作为整个文档集的层次主题树;
所述层次主题树生成模块,具体包括:
LDA主题词项集获取子模块,用于基于生成的主题-词项分布矩阵,针对文档集的词典中的每个词项,将其分配给主题分布值最高的LDA主题,进而为文档集的每个LDA主题获得相对应的主题词项集;
主题词项集优化子模块,用于基于Word Embedding模型训练所获得的每个词项的多维向量,对每个LDA主题词项集进行二分K-means聚类,进而计算聚类生成的两个簇的凝聚度后,删除凝聚度值大的簇,将凝聚度值小的簇作为该LDA主题的优化后的主题词项集;
子层次主题树生成子模块,用于利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,进而生成对应的子层次主题树;
层次主题树生成子模块,用于将所有子层次主题树结合起来作为整个文档集的层次主题树。
5.根据权利要求4所述的一种对海量文档集的层次聚类系统,其特征在于,所述子层次主题树生成子模块,具体包括:
第一单元,用于利用基于轮廓系数的二分K-means分裂式层次聚类对每个LDA主题词项集进行层次聚类分析,将每个主题词项集作为一个簇,进行二分K-means聚类;
第二单元,用于判断该簇的层次数是否达到预设的深度,若是,则执行第四单元,反之,执行第三单元;
第三单元,用于将当前聚类的层次树结构的所有叶节点对应的簇组成一个簇集合,并计算该簇集合中的每个簇的轮廓系数后,选择轮廓系数最小的簇进行二分K-means聚类,并返回执行第二单元;
第四单元,用于获得当前聚类的层次树结构作为该LDA主题项对应的子层次主题树。
6.根据权利要求4所述的一种对海量文档集的层次聚类系统,其特征在于,所述文档层次聚类模块,其具体用于:
基于建立的层次主题树,针对文档集中的每个文档,计算其与建立的层次主题树中的叶子主题的余弦相似度,并将每个文档分配给最大余弦相似度值所对应的叶子主题,实现对文档集的层次聚类。
CN201611186920.2A 2016-12-20 2016-12-20 一种对海量文档集的层次聚类方法及系统 Active CN106815310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611186920.2A CN106815310B (zh) 2016-12-20 2016-12-20 一种对海量文档集的层次聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611186920.2A CN106815310B (zh) 2016-12-20 2016-12-20 一种对海量文档集的层次聚类方法及系统

Publications (2)

Publication Number Publication Date
CN106815310A CN106815310A (zh) 2017-06-09
CN106815310B true CN106815310B (zh) 2020-04-21

Family

ID=59109095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611186920.2A Active CN106815310B (zh) 2016-12-20 2016-12-20 一种对海量文档集的层次聚类方法及系统

Country Status (1)

Country Link
CN (1) CN106815310B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506415B (zh) * 2017-08-11 2020-07-21 北京智通云联科技有限公司 基于内容的大文本高阶语义张量化分类方法和系统
CN107688652B (zh) * 2017-08-31 2020-12-29 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN108255978A (zh) * 2017-12-28 2018-07-06 曙光信息产业(北京)有限公司 新闻稿件话题聚类的方法和系统
CN109033084B (zh) * 2018-07-26 2022-10-28 国信优易数据股份有限公司 一种语义层次树构建方法以及装置
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
CN110110685A (zh) * 2019-05-14 2019-08-09 重庆紫光华山智安科技有限公司 数据建档方法、装置及服务器
CN112417893A (zh) * 2020-12-16 2021-02-26 江苏徐工工程机械研究院有限公司 一种基于语义层次聚类的软件功能需求分类方法及系统
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法
CN113326385B (zh) * 2021-08-04 2021-12-07 北京达佳互联信息技术有限公司 目标多媒体资源的获取方法、装置、电子设备和存储介质
CN116127074B (zh) * 2023-02-23 2024-03-01 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
CN101055585A (zh) * 2006-04-13 2007-10-17 Lg电子株式会社 文档聚类系统和方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN105159911A (zh) * 2015-07-06 2015-12-16 西北工业大学 基于主题交互的社区发现方法
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101631242B1 (ko) * 2015-01-27 2016-06-16 한국전자통신연구원 잠재 디리클레 할당을 이용한 악성 트래픽의 시그니처의 자동화된 식별 방법 및 장치
US10467268B2 (en) * 2015-06-02 2019-11-05 International Business Machines Corporation Utilizing word embeddings for term matching in question answering systems
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105787121B (zh) * 2016-03-25 2018-08-14 大连理工大学 一种基于多故事线的微博事件摘要提取方法
CN105824802B (zh) * 2016-03-31 2018-10-30 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106055673B (zh) * 2016-06-06 2019-09-13 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055585A (zh) * 2006-04-13 2007-10-17 Lg电子株式会社 文档聚类系统和方法
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法
CN105159911A (zh) * 2015-07-06 2015-12-16 西北工业大学 基于主题交互的社区发现方法
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法

Also Published As

Publication number Publication date
CN106815310A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN106815310B (zh) 一种对海量文档集的层次聚类方法及系统
Chakraborty et al. Sentiment analysis on a set of movie reviews using deep learning techniques
Deshpande et al. Text summarization using clustering technique
Bairi et al. Summarization of multi-document topic hierarchies using submodular mixtures
CN106294500B (zh) 内容项目的推送方法、装置及系统
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN110245228A (zh) 确定文本类别的方法和装置
Zul et al. Social media sentiment analysis using K-means and naïve bayes algorithm
Feng et al. Automatic approach of sentiment lexicon generation for mobile shopping reviews
Olaode et al. Unsupervised image classification by probabilistic latent semantic analysis for the annotation of images
Bhatia et al. Clustering glossary terms extracted from large-sized software requirements using FastText
CN110674297A (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
Xiao A Survey of Document Clustering Techniques & Comparison of LDA and moVMF
Nainwani et al. Comparative study of web page classification approaches
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Zobeidi et al. Effective text classification using multi-level fuzzy neural network
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
Wang News authorship identification with deep learning
CN111125387B (zh) 多媒体列表生成、命名方法、装置、电子设备和存储介质
Shinde et al. A systematic study of text mining techniques
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Fan et al. Multi-label Chinese question classification based on word2vec
Gu et al. Development and Classification of a Chinese Humor Corpus
Pushpalatha et al. A tree based representation for effective pattern discovery from multimedia documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant