CN104834632A

CN104834632A - 一种基于语义扩充的微博话题检测和热度评估方法

Info

Publication number: CN104834632A
Application number: CN201510243208.0A
Authority: CN
Inventors: 刘磊; 许志刚; 李静
Original assignee: Beijing University of Technology
Current assignee: Goonie International Software (Beijing) Co.,Ltd.
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2015-08-12
Anticipated expiration: 2035-05-13
Also published as: CN104834632B

Abstract

一种基于语义扩充的微博话题检测和热度评估方法，属于文本信息处理领域，具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。本发明首先给出了微博噪声数据过滤方法，用于低信息量微博的过滤，然后将微博评论中有效语义信息补充进微博语义，改善了微博话题检测的效果，最后进行了微博话题热度评估，进而获取热点话题。

Description

一种基于语义扩充的微博话题检测和热度评估方法

技术领域

本发明属于文本信息处理领域，具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。

背景技术

微博是以用户关系为基础的信息分享载体，用户可以通过WEB和各种APP，以140字以内的文字更新分享信息。用户之间通过“关注―被关注”的方式实现信息的传递，微博平台的转发功能促进和实现了微博在用户间的快速传播。

在微博快速发展的同时获得了广泛的应用，已成为一种具有强大影响力的新型媒体。微博具备4A特性(任何时间、任何地点、任何方式、任何人)，随时随地任何人都可以成为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研究微博及中文微博信息处理技术具有重要的理论和应用价值。

微博因为文本长度短，信息含量较少，会产生严重的数据稀疏问题，导致微博话题检测等微博文本信息处理的效果都不太理想。研究者们对解决微博数据稀疏问题和改善话题检测效果进行了一些尝试，但是此类问题还没得到彻底解决。本发明先对微博噪声数据进行了过滤，然后将微博评论中有效语义信息补充进微博语义，改善了微博话题检测的效果，最后进行了微博话题热度评估，进而获取热点话题。

发明内容

本发明的目的在于通过扩充微博语义改善微博话题检测的效果并获取热点话题。本发明综合考虑了微博噪声数据过滤、微博语义扩充和话题热度评估三个方面，提出了一种基于语义扩充的微博话题检测和热度评估方法。

一种基于语义扩充的微博话题检测和热度评估方法，其特征在于包括如下步骤：

步骤1：通过以下微博噪声数据过滤方法，过滤掉低信息量微博。

步骤1.1：对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理；

步骤1.2：

计算信息量指数A：

(1)获取核心词：计算微博集中的每个词的文档频率，设置频率阈值η，过滤掉文档频率小于阈值η的词，得到核心词集合。

(2)计算当前微博的核心词的权重和，作为此微博的信息量指数A。

(3)过滤掉信息量指数A低于信息量指数阈值χ的微博。

计算重要性指数B：

(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)。

(2)设置相似度阈值θ，将大于等于阈值θ的相似度置为1，小于阈值θ的相似度置为0。

(3)计算当前微博与其他所有微博的相似度之和，作为此微博的重要性指数B。

(4)过滤掉重要性指数B低于重要性指数阈值σ的微博。

步骤2：微博语义扩充。

步骤2.1：对步骤1过滤后的微博文本，通过将微博文本中的最后一个转发标签“//”前的内容当做“//”后内容的转发评论的方式，获取每一条原创微博的评论集合；

步骤2.2：通过微博评论选择方法对微博评论进行筛选；

一条原创微博表示为一个二元组T＝<d,C>，其中d为微博T的内容，C＝{c₁,c₂,...,c_m}为微博T的评论集合，方法包括如下步骤：

步骤2.2.1：输入微博T的内容d和评论集合C；

步骤2.2.2：利用文本规则，对评论进行初步筛选，包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论；

步骤2.2.3：对微博内容d和步骤2.2.2筛选出来的评论集合C₁进行中文分词和选择有效词处理；

步骤2.2.4：对步骤2.2.3处理后的微博内容d_end和评论集合C₂进行聚类，生成一个最终评论文本p；

步骤2.2.5：输出微博T的最终评论文本p。

步骤2.3：将微博评论中的语义信息补充进微博中；

在获取到微博T的最终评论文本p后，将评论p和微博内容d_end通过步骤2.3.1-2.3.3结合起来，以形成对微博T的有效的语义扩充；

微博文本数据集记为D，将D中的微博文本对应的评论分别按照步骤2.2生成对应的评论数据集P，微博语义扩充由以下三步构成：

步骤2.3.1：采用向量空间模型表示数据集D和P中的文本；

步骤2.3.2：特征选择，设选定的特征选择函数为f(x)；

从数据集D和P中分别提取所有特征项，构成特征集合F_D和F_P；对特征集合F_D和F_P中的每一项分别使用f(x)进行计算打分，当F_D和F_P中的所有项都打分完成后，按分值由高到低进行排序得新的特征集合F′_D和F′_P；若需要选取N个文档属性，则从F′_D和F′_P中分别选取分值高的N个项，构成最终的特征集合F″_D和F″_P；将特征集合F″_D和F″_P取并集得到特征集合F_end，即F_end＝F″_D∪F″_P；

步骤2.3.3：特征加权，设其权重函数为G(x)，若G(x)应用于数据集D中，记为G_D(x)；若G(x)应用于数据集P中，记为G_P(x)，对于微博文本d_i∈D，对应的评论文本p_i∈P，考察每一个特征项f∈F_end；

若f∈d_i，特征f在文本d_i中的权重为若特征f在文本d_i中的权重为若f∈p_i，特征f在文本p_i中的权重为若特征f在文本p_i中的权重为则特征f在文本d_i中的最终权重为：且a+b＝1，其中a和b为调节系数。

步骤3：对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类，得到若干微博话题。

步骤4：对步骤3得到的微博话题，利用以下热度评估模型计算其热度，并进行降序排列得到热点话题。

设话题集为Topic＝{TP₁,TP₂,...,TP_N}，话题TP_j(1≤j≤N)对应的微博集为D_j＝{d_j1,d_j2,...,d_jM}，其中N是话题集中话题总数，M是微博集D_j中微博总数。微博集D_j中微博d_ji(1≤i≤M)的热度Hd_ji表示为：

{Hd}_{ji} = \log (\ln_{ji} + 1) + \sqrt[3]{{pn}_{ji}} + \sqrt{{cn}_{ji}} + {fn}_{ji},

其中，ln_ji代表微博d_ji的用户粉丝数，pn_ji代表微博d_ji的点赞数，cn_ji代表微博d_ji的评论数，fn_ji代表微博d_ji的转发数。

话题TP_j的热度HT_j可表示为：其中，t_j为话题TP_j的时间跨度(单位：天)，即微博集D_j中最早微博的发布时间与话题检测时的时间的差值。

附图说明

图1本发明实现基于语义扩充的微博话题检测和热度评估方法及系统的流程图；

图2话题检测结果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

根据图1所示，本发明提出的方法是依次按以下步骤实现：

步骤1.2：

计算信息量指数A：

(2)计算当前微博的核心词权重和，作为此微博的信息量指数A。

(3)过滤掉信息量指数A低于信息量指数阈值χ的微博。

计算重要性指数B：

(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)。

(4)过滤掉重要性指数B低于重要性指数阈值σ的微博。

步骤2：微博语义扩充。

步骤2.2：通过微博评论选择方法对微博评论进行筛选；

一条微博可表示为一个二元组T＝<d,C>，其中d为微博T的内容，C＝{c₁,c₂,...,c_m}为微博T的评论集合。方法描述如下：

输入：微博T的内容d和评论集合C。

Step1：利用文本规则，对评论进行初步筛选。

(1)将形如“评论//用户1:评论1//用户2:评论2//......//用户e:评论e”的层层转发类的评论按层拆分为多条评论：“评论”，“评论1”，“评论2”……“评论e”。

(2)删除重复的评论。

(3)删除包含“转发”字数小于5的评论。

(4)删除字数少于等于2个字的评论。

(5)删除仅包含数字、字母、特殊符号及标点符号的评论。

Step2：对微博内容d和Step1筛选出来的评论(记为集合C₁)进行预处理。

(1)分词。利用NLPIR汉语分词系统(中科院开发)对微博内容d和评论集合C₁中的评论进行分词和词性标注。

(2)选择其中的名词、动词和形容词作为有效词。

Step3：对Step2处理后的微博内容(记为d_end)和评论(记为集合C₂)进行聚类。

(1)采用TF-IDF方法进行特征加权。

(2)采用向量空间模型表示微博内容和评论。

(3)采用K-means算法对微博内容d_end和集合C₂中的评论进行聚类。

(4)选取微博内容d_end所在的类簇中的评论作为微博T的最终评论(记为集合C_end)。

(5)将最终评论集合C_end中的评论合并生成一个最终评论文本(记为p)。

输出：微博T的最终评论文本p。

步骤2.3：将微博评论中的语义信息补充进微博中；

在获取到微博T的最终评论文本p后，需要将评论p和微博内容d_end结合起来，以形成对微博T的有效的语义扩充。

设微博文本数据集D＝{d₁,d₂,…,d_n}，将D中的微博文本对应的评论分别按照微博评论选择方法生成对应的评论数据集P＝{p₁,p₂,…,p_n}。微博语义扩充由以下三步构成：

(1)建立文档表示模型

采用向量空间模型表示数据集D和P中的文本。

对于d_i∈D，d_i＝{w_i1,w_i2，…，w_il}，其中1≤i≤n，l为d_i分词后的词数。w_ij(1≤j≤l)为文本d_i分词以后的词。

对于p_i∈P，p_i＝{w′_i1,w′_i2，…，w′_ik}，其中1≤i≤n，k为p_i分词后的词数。w′_ij(1≤j≤k)为文本p_i分词以后的词。

(2)特征选择

常采用的特征选择方法有：信息增益、卡方统计量、互信息和期望交叉熵等。这里设其特征选择函数为f(x)。

①从数据集D和P中分别提取所有特征项，构成特征集合F_D和F_P；

对于数据集D，

F_D＝d₁∪d₂∪…∪d_n＝{w₁,w₂，…，w_s}，s为集合F_D中的特征数。

对于数据集P，

F_P＝p₁∪p₂∪…∪p_n＝{w′₁,w′₂，…，w′_t}，t为集合F_P中的特征数。

②对特征集合F_D和F_P中的每一项分别使用f(x)进行计算打分，当F_D和F_P中的所有项都打分完成后，按分值由高到低进行排序得新的特征集合F′_D和F′_P；

对于数据集D，f(F_D)＝{f(w₁),f(w₂)，…，f(w_s)}。

对f(F_D)降序排列，得到：f₀(F_D)＝{f(w₁₀),f(w₂₀)，…，f(w_s0)}。故F′_D＝{w₁₀,w₂₀，…，w_s0}。

对于数据集P，f(F_P)＝{f(w′₁),f(w′₂)，…，f(w′_t)}。

对f(F_P)降序排列，得到：f₀(F_P)＝{f(w′₁₀),f(w′₂₀)，…，f(w′_t0)}。故F′_P＝{w′₁₀,w′₂₀，…，w′_t0}。

③若需要选取N个文档属性，则从F′_D和F′_P中分别选取分值高的N个项，构成最终的特征集合F″_D和F″_P；

F″_D＝{w₁₀,w₂₀，…，w_N0}；F″_P＝{w′₁₀,w′₂₀，…，w′_N0}。

④将特征集合F″_D和F″_P取并集得到特征集合F_end。即F_end＝F″_D∪F″_P。

(3)特征加权

常用的文本特征权重计算方法主要有：布尔权重、基于熵概念的权重、特征频率、TF-IDF等。这里设其权重函数为G(x)。若G(x)应用于数据集D中，记为G_D(x)；若G(x)应用于数据集P中，记为G_P(x)。

对于微博文本d_i∈D，对应的评论文本p_i∈P：

考察每一个特征项f∈F_end，

若f∈d_i，特征f在文本d_i中的权重为

若特征f在文本d_i中的权重为

若f∈p_i，特征f在文本p_i中的权重为

若特征f在文本p_i中的权重为

则特征f在文本d_i中的最终权重为：且a+b＝1。其中a和b为调节系数。

(1)输入一个微博文本d。

(2)计算微博文本d与已存在话题的相似度。

(3)获取与微博文本d相似度最大的话题i及其相似度sim_d。

(4)若相似度sim_d大于相似度阈值，则将微博文本d归入话题i，并更新话题i的话题中心向量。

(5)否则创建新话题j，将微博文本d归入话题j，话题j的话题中心向量即为微博文本d的向量表示。

(6)输入微博新文本，转入步骤(2)。

其中，话题中心向量的计算方法为对当前话题下的微博文本簇中所有文本向量进行取均值，微博文本与话题的相似度即微博文本与话题中心向量的相似度，其计算方法与微博文本之间的相似度计算方法一样。

{Hd}_{ji} = \log (\ln_{ji} + 1) + \sqrt[3]{{pn}_{ji}} + \sqrt{{cn}_{ji}} + {fn}_{ji},

话题热度反映了当前话题的受关注度和被讨论程度，将话题按其热度进行降序排列，就能获取到当前时间窗内的热点话题。

步骤5：为了验证基于语义扩充的微博话题检测和热度评估方法的有效性，进行三方面评测：(1)微博噪声数据过滤方法的有效性评测；(2)基于语义扩充的微博话题检测算法的效果评测；(3)话题热度评估模型的有效性评测。

通过新浪开放的API采集了“姚贝娜事件”、“刘翔退役”、“乐视手机上市”、“伊能静再婚”、“孙楠退赛”、“汪涵救场”、“李连杰替身身亡事件”、“黄冈中学辉煌不再”、“脑白金含褪黑素”、“日本出云号航母”十个话题的微博数据，共23848条，包含每条微博的文本、用户粉丝数、转发数、评论数、点赞数。为了证明微博噪声数据过滤方法的有效性，还采集了5000条与话题无关的噪声微博。采集话题的详细信息见表1。

为了方便下面实验使用，对相似度计算和特征加权方法进行如下说明：

实验所用相似度计算公式为：其中，Sim_cos(d_i,d_j)表示微博文本d_i和d_j的夹角余弦相似度，Sim_jac(d_i,d_j)表示微博文本d_i和d_j的雅各比相似度，φ和分别表示夹角余弦相似度和雅各比相似度相对于总的加权相似度的权重。实验所用特征权重计算公式为：

其中，t_ij为第i个文本中第j个特征词；w_ij为t_ij在文本D_i中的特征权重；tf_ij为t_ij在文本D_i中出现的次数；N为文本总数；m_ij表示含特征词t_ij的文本数量和含与特征词t_ij的相似度大于γ的特征词的文本数量平均值的和，γ是系统设定值，通常取0.8～1；M为文本D_i中特征总数。

表1采集话题信息

(1)微博噪声数据过滤方法的有效性评测

微博噪声数据过滤方法的有效性评测选取名词、动词、形容词、人名、地名、机构团体、其他专名这七类词作为有效词，文本表示采用向量空间模型，实验评测标准为：

经过大量实验测试，信息量指数过滤方法中的文档频率阈值η设为50，信息量指数阈值χ设为0.7；重要性指数过滤方法中的相似度阈值θ设为0.25，重要性指数阈值σ设为100，其中相似度计算采用的相似度权重φ和分别取0.6和0.4。信息量指数过滤方法和重要性指数过滤方法的实验数据见表2。

表2噪声数据过滤方法结果

信息量指数过滤方法和重要性指数过滤方法的漏检率和误检率见表3。

表3漏检率和误检率表

过滤方法	漏检率	误检率
			信息量指数过滤方法	9.80％	4.90％
重要性指数过滤方法	11.60％	3.30％

从表2和表3中可以看到无论是信息量指数过滤方法还是重要性指数过滤方法都过滤掉了95％以上的噪声微博，被错误过滤掉的非噪声微博占10％左右，在可接受范围内，证明了微博噪声数据过滤方法的有效性。信息量指数过滤方法的漏检率相对低，误检率相对高，而重要性指数过滤方法正好相反，两种方法各有利弊，可考虑将二者结合起来。

(2)基于语义扩充的微博话题检测算法的效果评测；

为了验证基于语义扩充的微博话题检测算法的效果，本节对采集的10个话题23848条微博采用了下面两种话题检测算法，其中聚类算法均使用SinglePass算法。

(1)不使用基于语义扩充的微博话题检测算法，将转发类微博当做普通微博进行处理。

(2)使用基于语义扩充的微博话题检测算法，其中步骤2.2中K-means算法的k取值为3，步骤2.3中特征选择方法选用卡方统计，调节系数a和b分别取0.6和0.4，相似度计算方法中的相似度权重φ和分别取0.6和0.4。

评测标准使用正确率、召回率、漏检率和误检率，相关定义如下：

其中，C为检索到的属于当前话题的微博数，D为检索到的不属于当前话题的微博数，E为未检索到的属于当前话题的微博数，F为未检索到的不属于当前话题的微博数。

通过对10个话题的评价指标取平均数得到话题检测算法的指标值。话题检测算法的效果见表4。

表4话题检测结果表

话题检测算法	正确率	召回率	漏检率	误检率
					不使用语义扩充话题检测算法	0.7019	0.689	0.2903	0.0119
使用语义扩充话题检测算法	0.7743	0.7528	0.2355	0.0103

更加直观地表示为图2：

从表4和图2中可以看出，使用基于语义扩充的微博话题检测算法比不使用基于语义扩充的微博话题检测算法的效果好，各项指标都有改善。说明了基于语义扩充的微博话题检测算法的有效性。

(3)话题热度评估模型的有效性评测。

为了验证话题热度评估模型的有效性，利用采集的10个话题23848条微博的用户粉丝数、转发数、评论数和点赞数，计算了10个话题的热度，结果见表5。

表5话题热度计算结果

话题编号	话题	时间跨度	热度	热度排序
					1	姚贝娜事件	91	23905	3
2	刘翔退役	12	183850	2
					3	乐视手机上市	5	229603	1
4	伊能静再婚	43	11615	6
					5	孙楠退赛	23	12492	4
6	汪涵救场	23	11657	5
					7	李连杰替身身亡事件	12	532	9

8	黄冈中学辉煌不再	13	889	8
					9	脑白金含褪黑素	58	127	10
10	日本出云号航母	25	1769	7

从表5中可以看出话题热度从高到底排序依次是“乐视手机上市”、“刘翔退役”、“姚贝娜事件”、“孙楠退赛”、“汪涵救场”、“伊能静再婚”、“日本出云号航母”、“黄冈中学辉煌不再”、“李连杰替身身亡事件”、“脑白金含褪黑素”。话题“乐视手机上市”因为商业营销的缘故热度最高，“刘翔退役”引起了社会的普遍关注热度也很高。“孙楠退赛”和“汪涵救场”因为《我是歌手》的热播引起短时间的热烈讨论，热度较高。“姚贝娜事件”和“伊能静再婚”两个话题虽然时间跨度比较大，却由于这两个事件引起大家的普遍关注和讨论，且维持时间较长，故热度依然偏高。“日本出云号航母”、“黄冈中学辉煌不再”、“李连杰替身身亡事件”、“脑白金含褪黑素”四个话题因为只引起部分人的关注和讨论，故热度较低。表5结果符合10个话题的实际热度情况，证明话题热度评估模型是有效的。

Claims

1.一种基于语义扩充的微博话题检测和热度评估方法，其特征在于：该方法包括如下步骤，

步骤1：通过以下微博噪声数据过滤方法，过滤掉低信息量微博；

步骤1.2：

计算信息量指数A：

(1)获取核心词：计算微博集中的每个词的文档频率，设置频率阈值η，过滤掉文档频率小于阈值η的词，得到核心词集合；

(2)计算当前微博的核心词的权重和，作为此微博的信息量指数A；

(3)过滤掉信息量指数A低于信息量指数阈值χ的微博；

计算重要性指数B：

(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)；

(2)设置相似度阈值θ，将大于等于阈值θ的相似度置为1，小于阈值θ的相似度置为0；

(3)计算当前微博与其他所有微博的相似度之和，作为此微博的重要性指数B；

(4)过滤掉重要性指数B低于重要性指数阈值σ的微博；

步骤2：微博语义扩充；

步骤2.2：通过微博评论选择方法对微博评论进行筛选；

步骤2.2.1：输入微博T的内容d和评论集合C；

步骤2.2.5：输出微博T的最终评论文本p；

步骤2.3：将微博评论中的语义信息补充进微博中；

步骤2.3.1：采用向量空间模型表示数据集D和P中的文本；

步骤2.3.2：特征选择，设选定的特征选择函数为f(x)；

若f∈d_i，特征f在文本d_i中的权重为若特征f在文本d_i中的权重为若f∈p_i，特征f在文本p_i中的权重为若特征f在文本p_i中的权重为则特征f在文本d_i中的最终权重为：且a+b＝1，其中a和b为调节系数；

步骤3：对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类，得到若干微博话题；

步骤4：对步骤3得到的微博话题，利用以下热度评估模型计算其热度，并进行降序排列得到热点话题；

设话题集为Topic＝{TP₁,TP₂,...,TP_N}，话题TP_j(1≤j≤N)对应的微博集为D_j＝{d_j1,d_j2,...,d_jM}，其中N是话题集中话题总数，M是微博集D_j中微博总数；微博集D_j中微博d_ji(1≤i≤M)的热度Hd_ji表示为：

{Hd}_{ji} = \log (\ln_{ji} + 1) + \sqrt[3]{{pn}_{ji}} + \sqrt{{cn}_{ji}} + {fn}_{ji},

其中，ln_ji代表微博d_ji的用户粉丝数，pn_ji代表微博d_ji的点赞数，cn_ji代表微博d_ji的评论数，fn_ji代表微博d_ji的转发数；

话题TP_j的热度HT_j可表示为：其中，t_j为话题TP_j的时间跨度，即微博集D_j中最早微博的发布时间与话题检测时的时间的差值。