CN107832467A

CN107832467A - 一种基于改进的Single‑pass聚类算法的微博话题检测方法

Info

Publication number: CN107832467A
Application number: CN201711223603.8A
Authority: CN
Inventors: 沈琦; 高云雪
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-03-23

Abstract

本发明公开了一种基于改进的Single‑pass聚类算法的微博话题检测方法，包括：微博文本内容采集，文本预处理，基于LDA建立文本向量模型，基于改进的Single‑pass聚类算法进行文本聚类，结果评测；改进的Single‑pass聚类算法包括增加时间参数、对类别数据计算聚类中心点和批量输入数据。本发明通过增加时间参数，保证话题的同一性；通过对类别数据计算聚类中心点，新数据与聚类中心点进行比较，这样有助于减少新数据与每条数据比较的次数，提高了计算的效率；通过对数据批量输入，即对数据先进行聚类然后再输入，新输入的聚类中心点和已聚类好的中心点进行比较，提高了运算效率，节省了运算空间。

Description

一种基于改进的Single-pass聚类算法的微博话题检测方法

技术领域

本发明涉及话题检测技术领域，尤其涉及一种基于改进的Single-pass聚类算法的微博话题检测方法。

背景技术

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，其包含三层结构：词语、主题和文档。生成模型就是认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样的一个过程得到。用公式(1)表示该过程：

P(词语|文档)＝∑_主题P(词语|主题)*P(主题|文档) (1)

在LDA模型中需要求解“词语-主题”和“主题-文档”两个模型参数，其概率主题模型的概率图如图1所示。

在图1中，表示带有超参数β的多项式概率分布的“主题-词语”概率模型，θ表示带有超参数的α多项式概率分布的“文档-主题”概率模型。其中K表示主题个数，M为文档个数，N为文档的词语长度。LDA生成文档的过程是：从文档-主题概率模型θ中选择一个主题Z，在主题-词语对应的概率模型中选择词语w，不断重复次数Nm，直到生成全部文档集合；LDA模型最关键的是学习θ和这两个参数。

如图2所示，Single-pass是增量聚类算法，其按一定顺序依次读取数据，每次读取到的新数据都将和已经读取且聚类好的每个数据进行相似度比较，如果满足预定的规则即将该新数据加入和其比较的数据类别中，否则将该新数据视为一个新的类别。依照此方法反复执行，直到所有的数据都读取完毕则停止。整个过程只对数据进行一次读取。

国内对微博话题检测也有一些研究，郑斐然使用基于向量空间模型的方法检测微博中出现的关键词，然后通过计算词语词频和词频的增长速度，来综合判断某一个词语是否是新闻词语，最后通过聚类方法寻找新闻话题；谢岚从微博的传播阶段进行研究，认为传统的媒体与微博的传播模式不同，微博的传播阶段可以分为三个：第一、人与人直接的初级传播，第二、非正式组织直接的传播，第三、传播到网络大众媒体，被网络大众媒体进行更深更远的传播；浙江大学的张晨逸在分析微博的文本模型表达上提出了MB-LDA模型对微博主题进行挖掘研究；孙胜平结合向量空间摸型和增量聚类算法，提出了Single-pass聚类算法。

现有的微博话题检测技术对话题检测的缺点是不能有效识别本身为两个相似的事件为两个事件，即原有的话题检测对两个事件相似事件归为同一事件，例如：事件一为“2014年10月10日，NBA季前赛，洛杉矶湖人队主场负于金州勇士队”；事件二：“2014年10月13日，NBA季前赛，洛杉矶湖人队主场负于金州勇士队”。尽管事件一和事件二发生的地点和对象相同，内容也都是关于篮球比赛，不过它们发生的时间是不同的。在语义上说的也是两件事，而计算机的检测时把这两件事按同一件事处理。同时现有的Single-pass话题检测时只能一条一条的输入分类，而且每一次的新数据都要和已聚类的每一条数据进行计算，这一点在效率和准确度上都很差。

发明内容

针对上述问题中存在的不足之处，本发明提供一种基于改进的Single-pass聚类算法的微博话题检测方法。

为实现上述目的，本发明提供一种基于改进的Single-pass聚类算法的微博话题检测方法，包括：

步骤1、微博文本内容采集；

步骤2、文本预处理，所述文本预处理包括去除噪声干扰、去除少于10个字的微博内容、词干还原、文本分词和去除停用词；

步骤3、基于LDA建立文本向量模型；

步骤4、基于改进的Single-pass聚类算法对文本向量模型进行文本聚类，包括：

步骤41、向文本向量模型中增加文本的时间参数；

步骤42、将文本数据分批聚类成小话题类别，计算每批数据中每个小话题类别的聚类中心点，将所有小话题类别聚类成大话题类别；

所述聚类的方法为进行聚类中心点的相似度计算，判断其是否大于相似度阈值；若小于相似度阈值，则自成一类，若大于相似度阈值，则进行时间阈值判断；若大于时间阈值，则自成一类，若小于时间阈值，则将新数据归于该类；

步骤5、结果评测。

作为本发明的进一步改进，在步骤1中，微博文本内容采集包括：

通过爬虫技术访问微博网站页面爬取微博信息和来自于自然语言处理与信息检索共享平台发布的NLPIR微博内容语料库。

作为本发明的进一步改进，相似度计算采用余弦相似度算法。

作为本发明的进一步改进，在步骤43中，时间阈值为2天。

与现有技术相比，本发明的有益效果为：

本发明通过增加时间参数，保证话题的同一性；通过对类别数据计算聚类中心点，新数据与聚类中心点进行比较，这样有助于减少新数据与每条数据比较的次数，提高了计算的效率；通过对数据批量输入，即对数据先进行聚类然后再输入，新输入的聚类中心点和已聚类好的中心点进行比较，提高了运算效率，节省了运算空间。

附图说明

图1为现有LDA模型示意图；

图2为现有Single-pass聚类算法的流程图；

图3为本发明一种实施例公开的基于改进的Single-pass聚类算法的微博话题检测方法的流程图；

图4为本发明一种实施例公开的改进的Single-pass聚类算法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

本发明提供一种基于改进的Single-pass聚类算法的微博话题检测方法，通过LDA主题概率模型的思想对微博内容进行文本向量建模，然后基于改进的Single-pass聚类算法进行话题提取。改进的Single-pass聚类算法主要从两方面进行改进：1)对文本向量化的过程中增加时间参数，保证话题的同一性，该同一性指微博发布时间的一致性；2)现有Single-pass聚类算法缺陷方面的两点改进，第一点是计算已聚类的话题中心，有效解决原算法计算开销过大的问题，第二是批量处理微博文本数据，该点为了解决原算法输入顺序对结果造成的过拟合问题。Single-pass算法的改进有效的提高了话题聚类的准确性以及减少了系统内存的开销。通过仿真实验对改进的算法与原有算法对比分析得出改进的Single-pass算法与LDA主题模型融合检测微博话题，提高了结果的准确度同时该算法降低了内存的开销。

如图3所示，本发明提供一种基于改进的Single-pass聚类算法的微博话题检测方法，包括：

步骤1、微博文本内容采集：

微博文本内容主要来自两个方面：其一是通过爬虫技术访问微博网站页面爬取微博信息，其二是来自于自然语言处理与信息检索共享平台(www.nlpir.org)发布的NLPIR微博内容语料库，共有23万数据，选取其中部分数据和爬虫到的数据结合使用。

步骤2、文本预处理：

文本预处理是微博话题检测的前提和基础，根据采集到的微博文本内容进行文本预处理，主要操作有以下几个步骤：

步骤21、去除噪声干扰。将微博附带的符号、表情，URL链接及图片等非文本元素去除。

步骤22、去除微博字数少的微博。规定去除少于10个字的微博内容，因为其不具备表达一个话题的条件。

步骤23、词干还原。此步骤主要针对英文微博文本。将英文文本同一化，使其同形同意。

步骤24、文本分词。此步骤主要针对中文文本，由于英文文本中存在空格的情况，所以不用对英文文本进行分词。分词采用的工具是结巴分词工具。

步骤25、去除停用词。对分词后的结果进行去除停用词操作，停用词指不能表达文本含义的词语，即对文本主题内容没有实在意义的词汇。例如：“你”、“我”、“他”、“得”、“的”、“了”等。

基于文本预处理能得到一个干扰度较少的微博文本数据，对接下来的文本模型表示提供了基础。

步骤3、基于LDA建立文本向量模型：

本发明利用LDA模型对文本进行表示，将预处理后的微博数据称为文档。假定给定的文档集合包含m篇文档D＝{d₁,d₂,…d_m}，d为文档，D为文档集合，文档中所有的特征词构成一个词汇表，大小为n，记为W＝{w₁,w₂,…w_n}，w为词汇，W为词汇表，LDA模型假设在文档集合中分布着k个主题Z＝{z₁,z₂,...,z_k}，z为主题，Z为主题集合。模型规定每篇文档时由各个主题混合而成，每个主题均服从多项式分布，如公式(2)：

式中，θ为“文档-主题”概率模型。

同理，每一个主题都是由各个文档的特征词混合而成，所以每个文档的特征词也都符合多项分布，如公式(3)：

式中，为“主题-词语”概率模型。

Dirichlet分布是多项分布的共轭先验分布，如果为多项分布的某个参数选取的先验分布是Dirichlet分布，那么该多项分布用贝叶斯估计后得到的后验分布仍然服从Dirichlet分布。由于使用这样的性质会给LDA模型推导和计算带来方便，于是LDA模型规定参数θ和分别服从超参数α和β的Dirichlet分布，具体公式如(4)(5)。

根据以上的阐述LDA的主题概率模型图，如图1所示；这里不再重复描述。简述一下LDA文档集的生成过程：

1)为一篇微博的主题进行采集

2)对微博数据集的第m个微博m∈{1,M}，采样该微博内容的主题概率分布θ_m～Dirichlet(α)；

3)对文档中的第n个单词n∈{1,N}，从主题分布中选择一个主题；

Z_m,n～Multi(θ_m)；

4)生成一个单词

通过学习和θ两个参数，通过计算训练集合之中文档的主题概率分布和主题上词语的分布。本发明采用Gibbs抽样算法对参数进行估计，同时使用GibbsLDA++工具包对微博LDA主题模型的Gibbs抽样。通过计算词语的热度，来计算相应的主题的热度，以此为基础对话题进行排序。最终得到形如“生命(0.007788)”，前者为主题词，后者为概率。

步骤4、基于改进的Single-pass聚类算法对文本向量模型进行文本聚类：

如图4所示，改进的Single-pass聚类算法的流程包括：

步骤41、向文本向量模型中增加文本的时间参数；

所述聚类的方法为进行聚类中心点的相似度计算，相似度计算采用余弦相似度算法，判断其是否大于相似度阈值；若小于相似度阈值，则自成一类，若大于相似度阈值，则进行时间阈值判断；若大于时间阈值，则自成一类，若小于时间阈值，则将新数据归于该类；

步骤43、重复上述操作，直至数据集为空。

其中，步骤42具体实施如下：

步骤421、将100条文本数据分成10批，每批含有10条数据；

步骤422、将第一批的10条数据聚类成小话题类别，即：输入第1条数据，将第2条数据的聚类中心点(第2条数据本身)与第1条数据的聚类中心点(第1条数据本身)进行相似度计算，并进行上述相似度阈值和时间阈值的判断，来判断第1条数据和第2条数据是否可归为一类；若第1条数据和第2条数据归为一类，则计算第1条数据和第2条数据的聚类中心点；若第1条数据和第2条数据不归为一类，则第1条数据和第2条数据各属于1个小话题类别；

步骤423、若第1条数据和第2条数据归为一类，则将第3条数据的聚类中心点(第3条数据本身)与第1条数据和第2条数据的聚类中心点进行相似度计算，并进行上述相似度阈值和时间阈值的判断，判断第3条数据是否可与第1、2条数据归为一类；若归为一类，则计算第1、2、3条数据的聚类中心点；若不归为一类，则第3条数据单独作为一类；

步骤424、若第1条数据和第2条数据不归为一类，则将第3条数据的聚类中心点(第3条数据本身)与第1条数据的聚类中心点和第2条数据的聚类中心点进行单独比较，并按照步骤422的方法进行判断；

步骤425、重复上述方法，直至将第一批的10条数据归为若干个小话题类别；

步骤426、重复上述方法，将10批数据分别归为若干个小话题类别；

步骤427、将所有小话题类别聚类成大话题类别，即：将第二批数据的第1个小话题类别与第一批数据的所有小话题类别依次进行聚类中心点的相似度计算，并进行上述相似度阈值和时间阈值的判断，判断第二批数据的第1个小话题类别是否可归为第一批数据的小话题类别中，还是单独成为一类；重复上述操作，将所有小话题类别聚类成大话题类别。

本发明在步骤4中，针对微博话题的实时性，解决微博文本内容间是否为同一话题问题，为微博文本向量化的数据增加一个参数，即时间参数。输入的数据在进行相似度计算后，若大于阈值，判断时间属性是否与聚类后的时间满足规则，这里规定时间差不能超过2天，若满足规则新数据归为该类，若不满足自成一类。

针对Single-pass开销过大的问题，由于每一个新的文本向量都要和已经聚类好的所有文本数据进行相似度计算，因此本发明对每一个已经聚类好的类别计算类别中心，当新的文本数据输入后，只需要和每个类别的聚类中心进行相似度计算即可。若满足某一类别，则在该新数据加入该类别后重新计算聚类中心，否则自成一类，其为该类的聚类中心。直到所有文本数据输入完毕。

针对Single-pass依赖输入顺序的问题，本发明采用批量输入，减少因为输入顺序对聚类结果的影响。一些文本数据聚类好以后输入与已聚类好的数据进行相似度计算，这个相似度计算依然采用聚类中心的相似度计算，若输入的聚类符合某个聚类，则合并重新计算聚类中心点作为该类的新聚类中心点，否则另成一类。例如每10条文本数据进行聚类，然后得到几个类别，再对10条文本数据进行聚类，接着将刚聚类的数据依次和最开始聚类好的数据进行相似度计算，原理是一样的，只是从原始的输入一条文本数据变成了输入一个含多条数据的聚类。

步骤5、结果评测：

1)性能评价指标

本发明采用文本挖掘中广泛使用的一些指标用来评价聚类结果的好坏，即召回率R和准确率P。召回率：给定的测试数据集合中所有准确的条目之中被检索出来的条目；准确率：给定测试集合中所有检索出来的条目中有多少是正确的。

	正类	负类
			被检测	TP(true positives)	FP(false positives)
未被检测	FN(false negatives)	TN(true negatives)

根据上表TP表示检测到的数据属于正确类的数量，FP表示检测到的数据属于错误类的数量。FN表示未被检测到的数据属于正确类的数量，TN表示未被检测到的数据属于错误类的数量。

则召回率准确率

2)实验结果分析

根据上述的数据采集、预处理、LDA建模、改进的single-pass聚类算法等技术详细阐述。本发明对2012年新浪微博部分数据进行话题类别标注共1000条作为实验的测试数据，其中选定的数据共有10类话题，将Single-pass余弦相似度的阈值定位0.4，时间范围定位2天内。最终得到的性能指标结果为R＝0.8517332，P＝0.8429153，改进后的Single-pass与未改进前的较好的提高了话题聚类的稳定性，所以效果较好。

本发明针对微博话题的特殊性，为Single-pass增加了判断时间的属性，同时解决了Single-pass聚类算法自身对输入顺序的依赖，以及其在运算内存开销过大的问题给出了解决方案。通过实验发现改进后的Single-pass增量聚类算法更符合微博话题的特性，同时效率提高，减少文本数据间多次计算的成本，节省系统内存开销。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进的Single-pass聚类算法的微博话题检测方法，其特征在于，包括：

步骤1、微博文本内容采集；

步骤3、基于LDA建立文本向量模型；

步骤41、向文本向量模型中增加文本的时间参数；

步骤5、结果评测。

2.如权利要求1所述的基于改进的Single-pass聚类算法的微博话题检测方法，其特征在于，在步骤1中，微博文本内容采集包括：

3.如权利要求1所述的基于改进的Single-pass聚类算法的微博话题检测方法，其特征在于，相似度计算采用余弦相似度算法。

4.如权利要求1所述的基于改进的Single-pass聚类算法的微博话题检测方法，其特征在于，在步骤43中，时间阈值为2天。