CN109509110B

CN109509110B - 基于改进bbtm模型的微博热点话题发现方法

Info

Publication number: CN109509110B
Application number: CN201810841711.XA
Authority: CN
Inventors: 郭文忠; 黄畅; 郭昆; 陈羽中
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-08-31
Anticipated expiration: 2038-07-27
Also published as: CN109509110A

Abstract

本发明涉及一种基于改进BBTM模型的微博热点话题发现方法，包括：微博文本预处理，对微博数据集进行微博去噪、分词、去停用词等预处理操作；特征选择与词对热值概率化，采用词的突发概率进行特征选择，将微博短文本形成词对，并计算词对的热值突发概率，作为BBTM模型的先验概率；话题数目的自动确定；调用BBTM模型进行热点话题发现，获得话题热点词分布；微博聚类，判定每个微博文本的话题。本发明提出的基于改进BBTM模型的微博热点话题发现方法，可以在不需要预先设定话题题数目的情况下，自适应学习话题数目，并且挖掘出微博中潜在的热点话题。

Description

基于改进BBTM模型的微博热点话题发现方法

技术领域

本发明涉及自然语言处理中的话题发现与追踪技术领域，特别是一种基于改进BBTM模型的微博热点话题发现方法。

背景技术

伴随着传统互联网和移动互联网的快速发展，微博得以蓬勃发展。微博允许用户通过网页、外部程序和手机安卓端等发布140字符以内的消息，实现消息共享。微博的短文本性、及时性和交互性等优点受到大众认可，已经逐渐成为了人们获取和发布信息的重要工具。如何从海量的杂乱无章的微博数据中挖掘热点话题已经成为了亟待解决的问题。

为了高效准确的挖掘出微博中的热点话题，近些年已经有很多研究人员对其展开深入研究。传统的热点话题发现方法包括基于聚类的方法、基于LDA主题模型的方法等。这些方法虽然在新闻长文本上可以较好的发现热点话题，在微博短文本上效果较差，主要是由于短文本的特征稀疏性特点，所以就有研究员提出了大量基于微博短文本的热点话题发现方法。

目前已有很多学者对基于微博的热点话题发现进行研究，也取得了很多成果，但仍然存在以下几个问题：首先微博短文本存在特征稀疏、高维度等问题，因此热点话题发现方法挖掘的热点话题质量不高；其次，热点话题发现方法无法实现自适应学习话题数目，需要人工指定话题数目。

发明内容

本发明的目的在于提供一种基于改进BBTM模型的微博热点话题发现方法，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于改进BBTM模型的微博热点话题发现方法，按照如下步骤实现：

步骤S1：对微博文本进行预处理，对微博数据集进行预处理操作，包括：微博去噪、分词、去停用词；

步骤S2：特征选择与词对热值概率化；采用词的突发概率进行特征选择，将微博短文本形成词对，并计算词对的热值突发概率，作为BBTM模型的先验概率；

步骤S3：确定话题数目；

步骤S4：调用BBTM模型进行热点话题发现，获得话题热点词分布；

步骤S5：进行微博聚类，判定每个微博文本的话题。

在本发明一实施例中，在所述步骤S1中，还包括如下步骤：

步骤S11：按创建日期对微博进行分片，将相同日期的微博归于同一个时隙中；

步骤S12：去除噪声微博，计算微博的传播值，将传播值为0的微博标注为噪音微博并剔除：

spread_d＝γlog(fw_d)+χlog10(com_d)+μlog10(top_d)

其中，spread_d表示微博d的传播值，fw_d表示微博d被转发的次数，com_d表示微博d被评论的次数，top_d表示微博d被点赞的次数；γ，χ，μ分别表示传播值中，转发、评论和点赞操作对微博的转播值的影响程度，γ＝0.7，χ＝0.2，μ＝0.1；

步骤S13：中文分词和词性标注，将微博文本以词语为单位进行划分，并标注词语的词性，调用HanLP开源工具实现；

步骤S14：去停用词，去除非中文字符的词，留下名词、动词、形容词。

在本发明一实施例中，在所述步骤S2中，还包括如下步骤：

步骤S21：计算每个词的在t时隙内突发值：

其中，burst_w,t表示词w在t时刻的突发值，M_t表示t间隙内的微博数目，i表示t时隙内的第i条微博，N_w,i表示t时隙内词w在第i条微博中的出现的次数；

步骤S22：计算每个词在与t时隙相关的slot个时隙中的历史突发值：

其中，burst_w,history表示词w的历史突发值，slot表示相关时隙大小；

步骤S23：计算词的突发概率：

其中，burstRate_w,t表示词w在t间隙的突发概率，δ是一个用于过滤低频词的阈值；

步骤S24：判断每个词的突发概率是否大于预设阈值ε，如果是，将词作为特征词；

步骤S25：统计词对，将每个微博文本中的每个词与其前后10个词构成一个词对；

步骤S26：计算每个词对在t时隙内热值：

其中，spread_i,b指词对所在微博的传播值；

步骤S27：计算每个词对在与t时隙相关的slot个时隙中的历史热值：

步骤S28：计算词对的热值概率：

在本发明一实施例中，在所述步骤S3中，还包括如下步骤：

步骤S31：随机初始化主题数目K，K∈(20,60)；令标志位flag＝-1，用于记录话题数的变化方向，令历史话题相似度为1，最优话题数topic＝K，最优相似度simBest＝1；记最大迭代次数为it，用于防止程序陷入死循环；记当前迭代次数为K_it，用于记录当前轮数，初始化为0；

步骤S32：调用BBTM模型生成话题和话题词分布，并计算话题平均相似度Sim_avg：

k＝{k₁,k₂,…,k_l}

其中，k表示话题向量，l表示话题向量维度，k_i表示话题向量对应i维上的值，m表示关键词数目，w_ij代表该话题下第j个关键词，rate_j表示第j个关键词在该话题下的分布概率，Sim_kk’表示话题向量k与话题向量k’的余弦相似度，k’_i表示k向量对应i维上的值，Sim_avg表示话题的平均相似度，Sim_i,j表示第i个话题和第j个话题的相似度，v表示话题数量；

步骤S33：判断平均相似度与历史平均相似度的大小；如果平均相似度simAvg大于历史平均相似度simHis，则标志位变为其相反数，否则保持不变，第一轮simHis初始化为1，之后的每轮simHis等于上一轮的simAvg；

步骤S34：统计每个话题的话题密度，即与该话题相似度小于平均相似度的话题数；

步骤S35：计算模型基数C，即话题密度小于K/3的话题数；

步骤S36：更新话题数K，令K＝K+flag*C；

步骤S37：更新当前迭代轮数K_it，令K_it＝K_it+1；

步骤S38：重复步骤S32至步骤S37，直至话题K不再改变时，返回K；或者，当K_it大于最大迭代次数it时，返回最优话题数topic，函数结束。

在本发明一实施例中，在所述步骤S4中，利用所述步骤S3获取的K值、所述步骤S2获取的词对热值概率化产生的词对及其热值突发概率对微博词对集进行BBTM建模，获取微博话题及所对应的话题词分布。

在本发明一实施例中，在所述步骤S5中，还包括如下步骤：

步骤S51：记微博文本的文本向量为：

d＝{d₁,d₂,…,d_n}

其中，d表示文档向量，n表示文档向量维度，d_i表示文档向量对应i维上的值，m表示文档中词的数目，w_ij代表该文档中第j个词；

步骤S52：采用步骤S32的方法计算微博文本的文本向量与所有热点话题向量的余弦相似度；

步骤S53：选择文本向量相似度最大并且相似度大于0.5的热点话题作为该文档所属的热点话题，如果该热点话题不存在，则该微博就不属于热点微博。

相较于现有技术，本发明具有以下有益效果：本发明提出的一种基于改进BBTM模型的微博热点话题发现方法，采用基于密度的方法进行最优K值选择，实现自适应学习话题数目，同时利用词的突发性进行特征选择，结合微博的转发、评论和点赞特性，提取高质量的热点话题。可以在不需要预先设定话题题数目的情况下，自适应学习话题数目，并且挖掘出微博中潜在的热点话题。

附图说明

图1为本发明中一种基于改进BBTM模型的微博热点话题发现方法的流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提出一种基于改进BBTM模型的微博热点话题发现方法，如图1所示，按照如下步骤实现：

步骤S3：确定话题数目；

步骤S5：进行微博聚类，判定每个微博文本的话题。

进一步的，在本实施例中，在步骤S1中，还包括如下步骤：

spread_d＝γlog(fw_d)+χlog10(com_d)+μlog10(top_d)

步骤S14：去停用词，指去除对热点话题发现意义不大的词以及非中文字符的词，留下名词、动词、形容词等对热点话题发现有意义的词。

在本发明一实施例中，在所述步骤S2中，还包括如下步骤：

步骤S21：计算每个词的在t时隙内突发值：

步骤S23：计算词的突发概率：

其中，burstRate_w,t表示词w在t间隙的突发概率，δ是为了过滤低频词的一个阈值；

步骤S26：计算每个词对在t时隙内热值：

其中，spread_i,b指词对所在微博的传播值；

步骤S28：计算词对的热值概率：

进一步的，在本实施例中，在步骤S3中，还包括如下步骤：

步骤S31：随机初始化主题数目K，K∈(20,60)；令标志位flag＝-1，用于记录话题数的变化方向，令历史话题相似度simHis为1，最优话题数topic＝K，最优相似度simBest＝1。最大迭代次数it用于防止程序陷入死循环，其值等于100；当前迭代次数K_it用于记录当前轮数，初始化为0；

k＝{k₁,k₂,…,k_l}

其中，k表示话题向量，l表示话题向量维度，k_i表示话题向量对应i维上的值，m表示关键词数目，w_ij代表该话题下第j个关键词，rate_j表示第j个关键词在该话题下的分布概率，Sim_kk’表示话题向量k与话题向量k’的余弦相似度，k’_i表示k向量对应i维上的值。Sim_avg表示话题的平均相似度，Sim_i,j表示第i个话题和第j个话题的相似度，v表示话题数量；

步骤S35：计算模型基数C，即话题密度小于K/3的话题数；

步骤S36：更新话题数K，令K＝K+flag*C；

步骤S37：更新当前迭代轮数K_it，令K_it＝K_it+1；

进一步的，在本实施例中，在步骤S4中，调用BBTM模型进行热点话题发现，获得话题热点词分布。利用步骤S3获取的最优K值和词对热值概率化产生的词对及其热值突发概率对微博词对集进行BBTM建模，获取微博话题及所对应的话题词分布。

进一步的，在本实施例中，在步骤S5中，还包括如下步骤：

步骤S51：记微博文本的文本向量为：

d＝{d₁,d₂,…,d_n}

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。