CN107193797B

CN107193797B - 中文微博的热点话题检测及趋势预测方法

Info

Publication number: CN107193797B
Application number: CN201710284285.XA
Authority: CN
Inventors: 于瑞国; 原旭莹; 于健; 喻梅; 徐天一; 尚鸿运
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2020-08-18
Anticipated expiration: 2037-04-26
Also published as: CN107193797A

Abstract

本发明属于数据挖掘、自然语言处理和信息检索领域，为提出一种中文微博的热点话题检测及趋势预测方法，能够有效克服传统话题检测及预测技术在计算微博热度时，往往过高计算意见领袖和粉丝数量的影响，忽略了话题的真正影响力体现在微博内容本身的问题；同时能够克服传统话题检测及预测技术中在计算话题热度时，只从语义上判断词语和文档所属的话题，忽略了在一个文档与所属话题内其他文档相似度较低时的问题。本发明采用的技术方案是，中文微博的热点话题检测及趋势预测方法,步骤如下：步骤一：数据采集和存储；步骤二：数据预处理；步骤三：话题抽取；步骤四：热点话题识别；步骤五：话题趋势预测。本发明主要应用于信息检索场合。

Description

中文微博的热点话题检测及趋势预测方法

技术领域

本发明属于数据挖掘、自然语言处理和信息检索领域，涉及主题检测与跟踪技术和话题预测技术，尤其是微博应用环境下热点话题检测与趋势预测方法。具体讲，涉及中文微博的热点话题检测及趋势预测方法。

背景技术

目前在话题检测及预测的相关技术中，传统的微博热度计算中认为领袖和粉丝数量对微博的影响力有推动作用，而事实上，微博影响力取决于消息传播的深度和广度，而非粉丝数量，“僵尸粉”的泛滥使基于粉丝数目的评价体系缺乏科学性，粉丝对意见领袖的崇拜与追捧心理使得意见领袖的博文有较高的转评赞指标，而热点话题是指社会热点，并不包括意见领袖所发布的私人生活微博。

在基于词频的话题热度计算上，潜在狄利克雷模型(LDA)仅在语义上判断词语和文档所属的话题。当一个文档与所属话题内的其他文档相似度比较低时，该文档的热度对整个话题的热度是一种假性促进。

发明内容

为克服现有技术的不足，本发明旨在提出一种中文微博的热点话题检测及趋势预测方法，能够有效克服传统话题检测及预测技术在计算微博热度时，往往过高计算意见领袖和粉丝数量的影响，忽略了话题的真正影响力体现在微博内容本身的问题；同时能够克服传统话题检测及预测技术中在计算话题热度时，只从语义上判断词语和文档所属的话题，忽略了在一个文档与所属话题内其他文档相似度较低时的问题。本发明采用的技术方案是，中文微博的热点话题检测及趋势预测方法,步骤如下：

步骤一：数据采集和存储：通过网络爬虫技术及新浪提供的开发API，均衡采集各类用户的微博数据；

步骤二：数据预处理：将获取的微博数据转化为词条串，分别进行无效信息过滤和分词与停用词处理，将原始微博预料精简为能代表微博内容的微博词集；

步骤三：话题抽取：输入预处理后的微博词集，采用LDA算法抽取微博话题；

步骤四：热点话题识别：去除对粉丝数量的直接计算，添加受众反应特征修正单条微博热度计算公式，利用微博的语义概率计算单条微博对所属话题的热值贡献度，形成完整的LDA驱动的基于内容的热点话题检测算法LDA-CHA；

步骤五：话题趋势预测：计算预测阶段的话题热度值和某话题微博内容参与率，建立以话题热度状态为隐含序列，以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型CPHMM预测话题热度趋势。

一个实例中具体步骤包括：

步骤S0101：首先提取微博数据，通过网络爬虫技术及新浪微博提供的开发API，均衡采集涵盖社会问题、教育、科技、娱乐领域的微博数据；

步骤S0201：去除微博内容文本中无意义的文字内容或符号，对过滤后的微博内容进行分词及词性标注，词性标注后去除文本中的停用词；

步骤S0301：采用话题去噪策略，来提高LDA话题抽取结果的聚合程度，设已经抽取的k个主题，文档-主题概率阈值为PF，去噪策略如公式(1)所示：

其中，T为去噪后主题集合，TP_j为主题集中第j个主题，主题由文档

组成，最终由d_j篇文档组成，d_j取值为1至m，

表示在文档-主题矩阵中文档D_i属于主题TP_j的概率值；

步骤S0401：从非语义角度重新计算同一话题下文本内容的相似度，校正话题的热度计算，定义单条微博热度SMH的计算方法如公式(2)所示：

其中，mt表示转发数量，mc和ma分别表示评论数量和点赞数量，ρ，μ，

分别代表各特征因子的权重；

步骤S0402：所有去噪后文档包含的词都作为特征词，重复的词只采用一次，根据设置的文本特征值和特征权重构建微博文本的空间向量模型，采用余弦相似度计算两个文档间的距离，得到话题热度TH如公式(3)所示：

其中，MH_i表示第i条微博对话题的热值贡献度，i取值为1至N,TCD表示话题聚合程度；

步骤S0403：采用准确率评价微博热点话题检测性能，评估采用Kendall’s Tau相关系数和平均排序分；

步骤S0501：将所有微博的整体时间跨度分割成r个时间段，对给定话题，计算其每个时间段内的微博内容参与率MCP；

步骤S0502：利用Viterbi算法评估训练模型的可信度，利用后向概率对剩余时间段做话题热度状态预测，根据实际话题热度状态序列分析预测结果准确性；

步骤S0503：按照话题热度值计算方法计算训练集中的话题热度值，得到话题热度状态序列，与后向算法得到的话题热度状态序列进行比较，算出误差值。

本发明的特点及有益效果是：

本发明首先根据微博内容的转评赞传播特征，构建新的话题热度计算方法，并在话题抽取完成后提出一种去噪策略；其次，基于热点话题下的话题状态，通过CPHMM模型对热点话题未来热度趋势进行预测。本发明充分考虑了微博文本的语义、词频及传播特征，能够相对正确地预测热点话题的短期热度发展趋势。

基于内容的热点话题检测与预测方法，充分考虑了微博文本语义和词频特征以及传播特征，修正了意见领袖在热点话题传播上的夸大作用，能够精确地给出话题热度排名，并能相对正确地预测热点话题的短期热度发展趋势。

附图说明：

图1为微博热点话题检测与趋势预测的总体流程图。

图2准确率P对比结果

在图2中，有3组LDA-CHA的准确率显著高于其他对比算法，并且3组结果为热度排名较高的结果，说明LDA-CHA能保证较高的准确率，总上准确率都高于LDA-HA。

图3模型预测结果误差对比

在图3中，针对热度排名前10的话题，CPHMM模型更接近真实热度变化情况，证明CPHMM模型在社会热点话题趋势预测方面可信度较高。

具体实施方式

本发明提出一种中文微博的热点话题检测及趋势预测方法，包含以下步骤：

步骤一：数据采集和存储。通过网络爬虫技术及新浪提供的开发API，均衡采集各类用户的微博数据。

步骤二：数据预处理。将获取的微博数据转化为词条串，分别进行无效信息过滤和分词与停用词处理，将原始微博预料精简为能代表微博内容的微博词集。

步骤三：话题抽取。输入预处理后的微博词集，采用LDA算法抽取微博话题，本发明提出一种话题去噪策略，来提高LDA话题抽取结果的聚合程度，筛除每个话题下与之不太相关的文档。

步骤四：热点话题识别。去除对粉丝数量的直接计算，添加受众反应特征修正单条微博热度计算公式，利用微博的语义概率计算单条微博对所属话题的热值贡献度，形成完整的LDA驱动的基于内容的热点话题检测算法(LDA-CHA)。

步骤五：话题趋势预测。计算预测阶段的话题热度值和某话题微博内容参与率，建立以话题热度状态为隐含序列，以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型(CPHMM)预测话题热度趋势。

本发明算法的基准实验采用SP&HA聚类热点话题检测算法，热度计算采用基于意见领袖的博文热度计算方法。完整的热点话题检测算法为LDA-CHA。另一对比实验将LDA-CHA中的话题热度计算方法替换为SP&HA中的计算策略，该算法标记为LDA-HA。三个方法均得到100个按热度排序的话题。

对每组话题结果，取热度TopN的话题内容，回归文档人工归纳话题内容，与数据集标注的热点话题比对，记录属于标注热点范围的数量，对三组热点检测结果依次计算准确率P，对比结果如图1所示。

从直接证明预测算法预测效果的角度进行对比试验，基准实验选取基于意见领袖参与状态突发事件下热点话题趋势预测的模型λ'。

根据本发明改进的话题热度计算策略，计算10个话题测试集数据在5个测试时段的热度值，进而形成10组长度为5的热度状态序列。结果如图2所示。

本发明提供了一种中文微博的热点话题检测及趋势预测方法，包括：

步骤S0101：首先提取微博数据，通过网络爬虫技术及新浪微博提供的开发API，均衡采集涵盖社会问题、教育、科技、娱乐等领域的微博数据。

步骤S0201：去除微博内容文本中无意义的文字内容或符号，对过滤后的微博内容进行分词及词性标注，词性标注后去除文本中的停用词。

步骤S0301：本发明针对LDA模型进行改进，提出一种话题去噪策略，来提高LDA话题抽取结果的聚合程度，设已经抽取的k个主题，文档-主题概率阈值为PF，去噪策略如公式(1)所示。

组成，最终由d_j篇文档组成，d_j取值为1至m，

表示在文档-主题矩阵中文档D_i属于主题TP_j的概率值。

步骤S0401：本发明对传统的微博热度计算公式进行改进，从非语义角度重新计算同一话题下文本内容的相似度，校正话题的热度计算。定义单条微博热度SMH的计算方法如公式(2)所示。

分别代表各特征因子的权重。

步骤S0402：所有去噪后文档包含的词都作为特征词，重复的词只采用一次，根据设置的文本特征值和特征权重构建微博文本的空间向量模型，采用余弦相似度计算两个文档间的距离，得到话题热度TH如公式(3)所示。

其中，MH_i表示第i条微博对话题的热值贡献度，i取值为1至N,TCD表示话题聚合程度。

步骤S0403：采用准确率评价微博热点话题检测性能，评估采用Kendall’s Tau相关系数和平均排序分。

步骤S0501：将所有微博的整体时间跨度分割成r个时间段，对给定话题，可以计算其每个时间段内的微博内容参与率MCP。

步骤S0502：利用Viterbi算法评估训练模型的可信度，利用后向概率对剩余时间段做话题热度状态预测，根据实际话题热度状态序列分析预测结果准确性。

Claims

1.一种中文微博的热点话题检测及趋势预测方法，其特征是，步骤如下：

步骤二：数据预处理：将获取的微博数据转化为词条串，分别进行无效信息过滤和分词与停用词处理，将原始微博语料精简为能代表微博内容的微博词集；

步骤五：话题趋势预测：计算预测阶段的话题热度值和某话题微博内容参与率，建立以话题热度状态为隐含序列，以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型CPHMM预测话题热度趋势；

具体步骤包括：

组成，最终由d_j篇文档组成，d_j取值为1至m，

表示在文档-主题矩阵中文档D_i属于主题TP_j的概率值；

分别代表各特征因子的权重；