CN107895053B

CN107895053B - 基于话题簇动量模型的新兴热点话题检测系统及方法

Info

Publication number: CN107895053B
Application number: CN201711330329.4A
Authority: CN
Inventors: 廖祥文; 陈国龙; 黄海平; 杨定达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2021-09-24
Anticipated expiration: 2037-12-13
Also published as: CN107895053A

Abstract

本发明提出一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。该系统包括：一增量聚类算法，在于聚类出各个热点话题，为加速后面的人工标注过程；一正态分布累积概率求解，在于刻画话题的质量模型；一话题增长率求解过程，在于求解话题的速度模型；动态突发关键词的重叠率，用来衡量话题的新颖性；话题重要性衡量指标，使用话题用户和重要用户重叠率来衡量，为了衡量话题重要性；一个DBSCAN离群点检测算法，为了发现异常点来表示新兴热点话题。本发明能够利用社交媒介中数据的各维度作为特征，并刻画新兴热点话题的趋势，从而检测出新兴热点话题。

Description

基于话题簇动量模型的新兴热点话题检测系统及方法

技术领域

本发明属于自然语言处理领域，更具体地，涉及一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。

背景技术

当前，存在着一些基于关键词分布的方法，其基本思想是刻画在时间序列上词语分布的特点，寻找词频分布特征发生突变的词语。过去稀疏现在频繁出现的词语被视为新兴关键词，往往与新兴话题相关联。

当前，还存在着一些基于主题模型的方法挖掘文档与词之间的隐藏关系，能够发现强一致性的话题，并结合时序、关键词分布特征等刻画话题演变趋势，但是主题模型常需要设置话题个数，这并不适合于话题个数不定的社交媒体数据场景。

当前，还存在着一些基于聚类的新兴热点话题检测方法，在话题检测方面，聚类算法是一个有效的方法。聚类算法常基于文档相似度将与同一事件相关的文档聚成簇，每个文档簇表示一个话题。目前话题聚类方法主要从聚类的算法、相似度度量、聚类的对象以及话题簇特征进行研究。

然而，这些方法模型在不同程度上解决了上述的后两个挑战，但也有相对不足之处。基于关键词分布的方法易出现无关的错误的关键词，基于主题模型的方法相对较少地利用社交媒体的丰富特征，基于聚类的方法在聚类的准确性和话题簇特征刻画上都有需要改进的地方。针对上述的不足之处，我们在增量聚类发现话题的基础上，提出了一种使用动量思想刻画话题发展趋势特征的模型，然后探讨新兴话题的数据分布特点，分别使用有监督的分类方法和无监督的异常检测方法预测新兴话题。

发明内容

因此，本发明的目的是提出一种针对社交媒体的基于话题簇动量模型的新兴热点话题检测方法，能够从中文微博数据的各个角度有效提取特征，最终检测出新兴热点话题。

本发明采用以下技术方案：一种基于话题簇动量模型的新兴热点话题检测系统，其包括：一数据预处理模块，用于对微博文本进行预处理，有利于后阶段算法的求解；一增量聚类算法，用于对时间序列的微博文本进行增量聚类，生成各个类簇，加速后期的一个人工标注过程；一正态分布累积概率求解模块，用于求解话题时间窗口内的质量，使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度；一话题增长率求解模块，用于求解话题时间窗口内的速度，匹配上面的质量，进而求解话题的动量，分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度；一动态突发关键词重叠率求解模块，用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性；一用户重叠率求解模块，用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值；以及DBSCAN离群点检测算法，用于发现新兴热点话题与非新兴热点话题的数据不平衡性，从而检测出新兴热点话题。Z-score公式:

其中x是测量值，μ和S分别是所有预测值的均值和标准差。z分数是一种可以看出某分数在分布中相对位置的方法。将成正态分布的数据中的原始分数转换为z分数，就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积，进而得知原始分数在数据集合中的百分等级。

在本发明一实施例中，所述数据预处理模块，用于去除文本中的链接，特殊字符，表情符号及标点符号。

在本发明一实施例中，从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度；根据动量公式可以求解最终的动量模型。

本发明还提供一种基于话题簇动量模型的新兴热点话题检测方法，其包括以下步骤：步骤S1：描述数据预处理模块如何进行数据的预处理；步骤S2：采用传统TF-IDF计算关键词的权重，并将文本转换成文本空间向量；采用文本空间向量的余弦相似度；最新文档和话题计算相似度时，使用文档和话题簇中心向量相比较；同时，在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇；在传统TF-IDF算法中对于在某一特定文件里的词语

来说，其重要性可表示为：

以上式子中tf_ij为词语

出现的频率；

是该词在文件

中的出现次数，而分母则是在文件

中所有字词的出现次数之和；某一特定词语

的IDF，由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

上式中，|D|为语料库中的文件总数；

：包含词语

的文件数目，即

的文件数目；如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用

然后

；某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，产生出高权重的TF-IDF；

步骤S3：话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势；步骤S4：给定特定时刻点的话题集

，每个话题c _i在相关用户数方面的变化趋势PTU，相关微博数方面的变化趋势PTW，相关微博被转发数方面上的变化趋势PRT，相关微博影响力累计值方面上的变化趋势PINF，话题新颖性overlapw，话题重要性overlapu，使用DBSCAN及特征对数据分布进行考察，发现离群点，筛除局部密度稀疏但是并非全局密度稀疏的数据点；从而检测出新兴热点话题。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

在本发明一实施例中，步骤S1中预处理包括以下步骤：步骤S11：去除微博内容中网页链接；步骤S12：去除微博内容中的表情字符；步骤S13：去除微博内容常用词；步骤S15：过滤掉长度小于5个字符微博；步骤S16：过滤掉发表时间错误或者时间过于久远的微博；步骤S17：过滤掉缺失用户Uid的微博。

在本发明一实施例中，步骤S3包括以下具体步骤：从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度；根据动量公式可以求解最终的动量模型。

与现有技术相比，本发明能够利用社交媒介中数据的各维度作为特征，并刻画新兴热点话题的趋势，从而检测出新兴热点话题。

附图说明

图l为本发明一实施例在社交媒体文档集中的新兴热点话题检测的示意配置图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步解释说明。

一种基于话题簇动量模型的新兴热点话题检测系统，其包括：一数据预处理模块，用于对微博文本进行预处理，有利于后阶段算法的求解；一增量聚类算法，用于对时间序列的微博文本进行增量聚类，生成各个类簇，加速后期的一个人工标注过程；一正态分布累积概率求解模块，用于求解话题时间窗口内的质量，使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度；一话题增长率求解模块，用于求解话题时间窗口内的速度，匹配上面的质量，进而求解话题的动量，分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度；一动态突发关键词重叠率求解模块，用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性；一用户重叠率求解模块，用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值；以及DBSCAN离群点检测算法，用于发现新兴热点话题与非新兴热点话题的数据不平衡性，从而检测出新兴热点话题。

如图1所示，根据本发明实施例在社交媒体中所采用的新兴热点话题检测统包括：数据预处理模块对数据进行预先处理；话题聚类算法模块，用于对时间序列的微博进行聚类，生成话题簇；话题特征描述模块，用于对动量模型的求解，从各个方面来求解特征来求解话题动量；DBSCAN检测模块，检测新兴热点话题与非新兴热点话题的数据分布不平衡，从而检测出特征的离群点，即是新兴热点话题；结果输出模块，用于输出最终的求解新兴热点话题结果。

本发明提供一种基于话题簇动量模型的新兴热点话题检测方法，其主要包括以下步骤：步骤S1：描述数据预处理模块如何进行数据的预处理；步骤S2：采用传统TF-IDF计算关键词的权重，并将文本转换成文本空间向量；采用文本空间向量的余弦相似度；最新文档和话题计算相似度时，使用文档和话题簇中心向量相比较；同时，在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇；步骤S3：话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势；步骤S4：给定特定时刻点的话题集

，每个话题c _i在相关用户数方面的变化趋势PTU，相关微博数方面的变化趋势PTW，相关微博被转发数方面上的变化趋势PRT，相关微博影响力累计值方面上的变化趋势PINF，话题新颖性overlapw，话题重要性overlapu，使用DBSCAN及特征对数据分布进行考察，发现离群点，筛除局部密度稀疏但是并非全局密度稀疏的数据点；从而检测出新兴热点话题。

在本发明一具体实施例中，其主要包括以下步骤：

1）数据预处理

首先，描述数据预处理模块如何进行数据的预处理。

社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声，因此对数据集进行预处理，主要进行以下几个方面的操作：

（1）去除微博内容中网页链接。如“http://t.cn/Rfan9TD”；

（2）去除微博内容中的表情字符。如“[偷乐]”，“[加油啊]”等；

（3）去除微博内容常用词。如“原文转发”，“组图”等；

（4）过滤掉长度小于5个字符微博；

（5）过滤掉发表时间错误或者时间过于久远的微博；

（6）过滤掉缺失用户Uid的微博；

2）话题聚类算法

其次，介绍话题聚类算法模块如何对时间序列的微博进行聚类生成话题簇。首先采用传统TF-IDF计算关键词的权重，并将文本转换成文本空间向量。采用文本空间向量的余弦相似度。最新文档和话题计算相似度时，使用文档和话题簇中心向量相比较，而不是文档和话题成员的每一个文档。这极大减少了比较次数，提高了算法执行速度。同时，在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇。长时间未加入新文档的话题一般不可能成为新兴热点话题，所以这个过滤操作对实验结果没有影响，但是能够对后续的增量聚类和话题特征刻画的计算过程也起到了一定的加速作用。

3）话题特征描述模块

再次，简述话题特征描述模块如何计算话题簇的各个特征。本文在话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势。这是由于在话题演变过程中话题相关文档集的规模变化量直接和话题的热度相关；而社交媒体多个特征方面（用户数、转发数等等）的增长率正是用户参与话题产生的。话题在个时间窗口内的文档集规模变化量的相对程度，并使用正态分布累计概率密度表将其映射成概率值视为质量。话题在相关特征方面的增长率视为话题在变为热门话题运动方向上的不同方面上的速度。力在不同方向上作用于物体产生了不同方向的速度；用户以发表微博、转发微博等不同方式作用于话题，产生了话题在相关微博数、用户数、转发数、微博影响力累计值这四个方向的增长率，等同于速度。动量是矢量，从矢量分解的角度来看，话题从普通话题演变为热门话题方向上的总动量（即话题趋势）也可以分解成这四个方向的分动量。计算卡方值来得到时间段内的关键词集合，然后计算话题关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖值；计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值。

4）DBSCAN检测

接着，描述DBSCAN检测如何进行离群点检测发现新兴热点话题。给定特定时刻点的话题集

，k为大于1的自然数，i<k。每个话题c _i在相关用户数方面的变化趋势PTU，相关微博数方面的变化趋势PTW，相关微博被转发数方面上的变化趋势PRT，相关微博影响力累计值方面上的变化趋势PINF，话题新颖性overlapw，话题重要性overlapu，使用DBSCAN及特征对数据分布进行考察，发现离群点，往往将大量局部密度稀疏但是并非全局密度稀疏的数据点误判为新兴话题。

5）结果输出

最后，描述结果输出。根据上述各个模块的步骤过程，最终求解得到新兴热点话题集合。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于话题簇动量模型的新兴热点话题检测系统，其特征在于：包括：

一数据预处理模块，用于对微博文本进行预处理，有利于后阶段算法的求解；

一增量聚类算法，用于对时间序列的微博文本进行增量聚类，生成各个类簇，加速后期的一个人工标注过程；

一正态分布累积概率求解模块，用于求解话题时间窗口内的质量，适用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度；

一话题增长率求解模块，用于求解话题时间窗口内的速度，匹配上面的质量，进而求解话题的动量，分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度；

一动态突发关键词重叠率求解模块，用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性；

一用户重叠率求解模块，用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值；

以及DBSCAN离群点检测算法模块，用于发现新兴热点话题与非新兴热点话题的数据不平衡性，从而检测出新兴热点话题。

2.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统，其特征在于：所述数据预处理模块，用于去除文本中的链接，特殊字符，表情符号及标点符号。

3.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统，其特征在于：从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度；根据动量公式求解最终的动量模型。

4.一种基于话题簇动量模型的新兴热点话题检测方法，其特征在于：包括以下步骤：

步骤S1：描述数据预处理模块如何进行数据的预处理；

步骤S2：采用传统TF-IDF计算关键词的权重，并将文本转换成文本空间向量；采用文本空间向量的余弦相似度；最新文档和话题计算相似度时，使用文档和话题簇中心向量相比较；同时，在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇；

步骤S3：话题簇基础上采用动量思想综合利用微博数据特征方面上的增长率和变化量以刻画话题热度的变化趋势；

步骤S4：给定特定时刻点的话题集

5.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法，其特征在于：步骤S1中预处理包括以下步骤：

步骤S11：去除微博内容中网页链接；

步骤S12：去除微博内容中的表情字符；

步骤S13：去除微博内容常用词；

步骤S15：过滤掉长度小于5个字符微博；

步骤S16：过滤掉发表时间错误或者时间过于久远的微博；

步骤S17：过滤掉缺失用户Uid的微博。

6.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法，其特征在于：步骤S3包括以下具体步骤：从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度；根据动量公式可以求解最终的动量模型。