CN104834632A - 一种基于语义扩充的微博话题检测和热度评估方法 - Google Patents

一种基于语义扩充的微博话题检测和热度评估方法 Download PDF

Info

Publication number
CN104834632A
CN104834632A CN201510243208.0A CN201510243208A CN104834632A CN 104834632 A CN104834632 A CN 104834632A CN 201510243208 A CN201510243208 A CN 201510243208A CN 104834632 A CN104834632 A CN 104834632A
Authority
CN
China
Prior art keywords
microblogging
comment
text
topic
microblog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510243208.0A
Other languages
English (en)
Other versions
CN104834632B (zh
Inventor
刘磊
许志刚
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goonie International Software (Beijing) Co.,Ltd.
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510243208.0A priority Critical patent/CN104834632B/zh
Publication of CN104834632A publication Critical patent/CN104834632A/zh
Application granted granted Critical
Publication of CN104834632B publication Critical patent/CN104834632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于语义扩充的微博话题检测和热度评估方法,属于文本信息处理领域,具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。本发明首先给出了微博噪声数据过滤方法,用于低信息量微博的过滤,然后将微博评论中有效语义信息补充进微博语义,改善了微博话题检测的效果,最后进行了微博话题热度评估,进而获取热点话题。

Description

一种基于语义扩充的微博话题检测和热度评估方法
技术领域
本发明属于文本信息处理领域,具体涉及微博噪声数据过滤、基于语义扩充的微博话题检测和话题热度评估方法及系统。
背景技术
微博是以用户关系为基础的信息分享载体,用户可以通过WEB和各种APP,以140字以内的文字更新分享信息。用户之间通过“关注―被关注”的方式实现信息的传递,微博平台的转发功能促进和实现了微博在用户间的快速传播。
在微博快速发展的同时获得了广泛的应用,已成为一种具有强大影响力的新型媒体。微博具备4A特性(任何时间、任何地点、任何方式、任何人),随时随地任何人都可以成为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研究微博及中文微博信息处理技术具有重要的理论和应用价值。
微博因为文本长度短,信息含量较少,会产生严重的数据稀疏问题,导致微博话题检测等微博文本信息处理的效果都不太理想。研究者们对解决微博数据稀疏问题和改善话题检测效果进行了一些尝试,但是此类问题还没得到彻底解决。本发明先对微博噪声数据进行了过滤,然后将微博评论中有效语义信息补充进微博语义,改善了微博话题检测的效果,最后进行了微博话题热度评估,进而获取热点话题。
发明内容
本发明的目的在于通过扩充微博语义改善微博话题检测的效果并获取热点话题。本发明综合考虑了微博噪声数据过滤、微博语义扩充和话题热度评估三个方面,提出了一种基于语义扩充的微博话题检测和热度评估方法。
一种基于语义扩充的微博话题检测和热度评估方法,其特征在于包括如下步骤:
步骤1:通过以下微博噪声数据过滤方法,过滤掉低信息量微博。
步骤1.1:对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理;
步骤1.2:
计算信息量指数A:
(1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频率小于阈值η的词,得到核心词集合。
(2)计算当前微博的核心词的权重和,作为此微博的信息量指数A。
(3)过滤掉信息量指数A低于信息量指数阈值χ的微博。
计算重要性指数B:
(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)。
(2)设置相似度阈值θ,将大于等于阈值θ的相似度置为1,小于阈值θ的相似度置为0。
(3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B。
(4)过滤掉重要性指数B低于重要性指数阈值σ的微博。
步骤2:微博语义扩充。
步骤2.1:对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签“//”前的内容当做“//”后内容的转发评论的方式,获取每一条原创微博的评论集合;
步骤2.2:通过微博评论选择方法对微博评论进行筛选;
一条原创微博表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:
步骤2.2.1:输入微博T的内容d和评论集合C;
步骤2.2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论;
步骤2.2.3:对微博内容d和步骤2.2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;
步骤2.2.4:对步骤2.2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;
步骤2.2.5:输出微博T的最终评论文本p。
步骤2.3:将微博评论中的语义信息补充进微博中;
在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤2.3.1-2.3.3结合起来,以形成对微博T的有效的语义扩充;
微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2.2生成对应的评论数据集P,微博语义扩充由以下三步构成:
步骤2.3.1:采用向量空间模型表示数据集D和P中的文本;
步骤2.3.2:特征选择,设选定的特征选择函数为f(x);
从数据集D和P中分别提取所有特征项,构成特征集合FD和FP;对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P;若需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P;将特征集合F″D和F″P取并集得到特征集合Fend,即Fend=F″D∪F″P
步骤2.3.3:特征加权,设其权重函数为G(x),若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x),对于微博文本di∈D,对应的评论文本pi∈P,考察每一个特征项f∈Fend
若f∈di,特征f在文本di中的权重为特征f在文本di中的权重为若f∈pi,特征f在文本pi中的权重为特征f在文本pi中的权重为则特征f在文本di中的最终权重为:且a+b=1,其中a和b为调节系数。
步骤3:对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类,得到若干微博话题。
步骤4:对步骤3得到的微博话题,利用以下热度评估模型计算其热度,并进行降序排列得到热点话题。
设话题集为Topic={TP1,TP2,...,TPN},话题TPj(1≤j≤N)对应的微博集为Dj={dj1,dj2,...,djM},其中N是话题集中话题总数,M是微博集Dj中微博总数。微博集Dj中微博dji(1≤i≤M)的热度Hdji表示为:
Hd ji = log ( ln ji + 1 ) + pn ji 3 + cn ji + fn ji ,
其中,lnji代表微博dji的用户粉丝数,pnji代表微博dji的点赞数,cnji代表微博dji的评论数,fnji代表微博dji的转发数。
话题TPj的热度HTj可表示为:其中,tj为话题TPj的时间跨度(单位:天),即微博集Dj中最早微博的发布时间与话题检测时的时间的差值。
附图说明
图1本发明实现基于语义扩充的微博话题检测和热度评估方法及系统的流程图;
图2话题检测结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
根据图1所示,本发明提出的方法是依次按以下步骤实现:
步骤1:通过以下微博噪声数据过滤方法,过滤掉低信息量微博。
步骤1.1:对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理;
步骤1.2:
计算信息量指数A:
(1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频率小于阈值η的词,得到核心词集合。
(2)计算当前微博的核心词权重和,作为此微博的信息量指数A。
(3)过滤掉信息量指数A低于信息量指数阈值χ的微博。
计算重要性指数B:
(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν)。
(2)设置相似度阈值θ,将大于等于阈值θ的相似度置为1,小于阈值θ的相似度置为0。
(3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B。
(4)过滤掉重要性指数B低于重要性指数阈值σ的微博。
步骤2:微博语义扩充。
步骤2.1:对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签“//”前的内容当做“//”后内容的转发评论的方式,获取每一条原创微博的评论集合;
步骤2.2:通过微博评论选择方法对微博评论进行筛选;
一条微博可表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合。方法描述如下:
输入:微博T的内容d和评论集合C。
Step1:利用文本规则,对评论进行初步筛选。
(1)将形如“评论//用户1:评论1//用户2:评论2//......//用户e:评论e”的层层转发类的评论按层拆分为多条评论:“评论”,“评论1”,“评论2”……“评论e”。
(2)删除重复的评论。
(3)删除包含“转发”字数小于5的评论。
(4)删除字数少于等于2个字的评论。
(5)删除仅包含数字、字母、特殊符号及标点符号的评论。
Step2:对微博内容d和Step1筛选出来的评论(记为集合C1)进行预处理。
(1)分词。利用NLPIR汉语分词系统(中科院开发)对微博内容d和评论集合C1中的评论进行分词和词性标注。
(2)选择其中的名词、动词和形容词作为有效词。
Step3:对Step2处理后的微博内容(记为dend)和评论(记为集合C2)进行聚类。
(1)采用TF-IDF方法进行特征加权。
(2)采用向量空间模型表示微博内容和评论。
(3)采用K-means算法对微博内容dend和集合C2中的评论进行聚类。
(4)选取微博内容dend所在的类簇中的评论作为微博T的最终评论(记为集合Cend)。
(5)将最终评论集合Cend中的评论合并生成一个最终评论文本(记为p)。
输出:微博T的最终评论文本p。
步骤2.3:将微博评论中的语义信息补充进微博中;
在获取到微博T的最终评论文本p后,需要将评论p和微博内容dend结合起来,以形成对微博T的有效的语义扩充。
设微博文本数据集D={d1,d2,…,dn},将D中的微博文本对应的评论分别按照微博评论选择方法生成对应的评论数据集P={p1,p2,…,pn}。微博语义扩充由以下三步构成:
(1)建立文档表示模型
采用向量空间模型表示数据集D和P中的文本。
对于di∈D,di={wi1,wi2,…,wil},其中1≤i≤n,l为di分词后的词数。wij(1≤j≤l)为文本di分词以后的词。
对于pi∈P,pi={w′i1,w′i2,…,w′ik},其中1≤i≤n,k为pi分词后的词数。w′ij(1≤j≤k)为文本pi分词以后的词。
(2)特征选择
常采用的特征选择方法有:信息增益、卡方统计量、互信息和期望交叉熵等。这里设其特征选择函数为f(x)。
①从数据集D和P中分别提取所有特征项,构成特征集合FD和FP
对于数据集D,
FD=d1∪d2∪…∪dn={w1,w2,…,ws},s为集合FD中的特征数。
对于数据集P,
FP=p1∪p2∪…∪pn={w′1,w′2,…,w′t},t为集合FP中的特征数。
②对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P
对于数据集D,f(FD)={f(w1),f(w2),…,f(ws)}。
对f(FD)降序排列,得到:f0(FD)={f(w10),f(w20),…,f(ws0)}。故F′D={w10,w20,…,ws0}。
对于数据集P,f(FP)={f(w′1),f(w′2),…,f(w′t)}。
对f(FP)降序排列,得到:f0(FP)={f(w′10),f(w′20),…,f(w′t0)}。故F′P={w′10,w′20,…,w′t0}。
③若需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P
F″D={w10,w20,…,wN0};F″P={w′10,w′20,…,w′N0}。
④将特征集合F″D和F″P取并集得到特征集合Fend。即Fend=F″D∪F″P
(3)特征加权
常用的文本特征权重计算方法主要有:布尔权重、基于熵概念的权重、特征频率、TF-IDF等。这里设其权重函数为G(x)。若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x)。
对于微博文本di∈D,对应的评论文本pi∈P:
考察每一个特征项f∈Fend
若f∈di,特征f在文本di中的权重为
特征f在文本di中的权重为
若f∈pi,特征f在文本pi中的权重为
特征f在文本pi中的权重为
则特征f在文本di中的最终权重为:且a+b=1。其中a和b为调节系数。
步骤3:对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类,得到若干微博话题。
(1)输入一个微博文本d。
(2)计算微博文本d与已存在话题的相似度。
(3)获取与微博文本d相似度最大的话题i及其相似度simd
(4)若相似度simd大于相似度阈值,则将微博文本d归入话题i,并更新话题i的话题中心向量。
(5)否则创建新话题j,将微博文本d归入话题j,话题j的话题中心向量即为微博文本d的向量表示。
(6)输入微博新文本,转入步骤(2)。
其中,话题中心向量的计算方法为对当前话题下的微博文本簇中所有文本向量进行取均值,微博文本与话题的相似度即微博文本与话题中心向量的相似度,其计算方法与微博文本之间的相似度计算方法一样。
步骤4:对步骤3得到的微博话题,利用以下热度评估模型计算其热度,并进行降序排列得到热点话题。
设话题集为Topic={TP1,TP2,...,TPN},话题TPj(1≤j≤N)对应的微博集为Dj={dj1,dj2,...,djM},其中N是话题集中话题总数,M是微博集Dj中微博总数。微博集Dj中微博dji(1≤i≤M)的热度Hdji表示为:
Hd ji = log ( ln ji + 1 ) + pn ji 3 + cn ji + fn ji ,
其中,lnji代表微博dji的用户粉丝数,pnji代表微博dji的点赞数,cnji代表微博dji的评论数,fnji代表微博dji的转发数。
话题TPj的热度HTj可表示为:其中,tj为话题TPj的时间跨度(单位:天),即微博集Dj中最早微博的发布时间与话题检测时的时间的差值。
话题热度反映了当前话题的受关注度和被讨论程度,将话题按其热度进行降序排列,就能获取到当前时间窗内的热点话题。
步骤5:为了验证基于语义扩充的微博话题检测和热度评估方法的有效性,进行三方面评测:(1)微博噪声数据过滤方法的有效性评测;(2)基于语义扩充的微博话题检测算法的效果评测;(3)话题热度评估模型的有效性评测。
通过新浪开放的API采集了“姚贝娜事件”、“刘翔退役”、“乐视手机上市”、“伊能静再婚”、“孙楠退赛”、“汪涵救场”、“李连杰替身身亡事件”、“黄冈中学辉煌不再”、“脑白金含褪黑素”、“日本出云号航母”十个话题的微博数据,共23848条,包含每条微博的文本、用户粉丝数、转发数、评论数、点赞数。为了证明微博噪声数据过滤方法的有效性,还采集了5000条与话题无关的噪声微博。采集话题的详细信息见表1。
为了方便下面实验使用,对相似度计算和特征加权方法进行如下说明:
实验所用相似度计算公式为:其中,Simcos(di,dj)表示微博文本di和dj的夹角余弦相似度,Simjac(di,dj)表示微博文本di和dj的雅各比相似度,φ和分别表示夹角余弦相似度和雅各比相似度相对于总的加权相似度的权重。实验所用特征权重计算公式为:
其中,tij为第i个文本中第j个特征词;wij为tij在文本Di中的特征权重;tfij为tij在文本Di中出现的次数;N为文本总数;mij表示含特征词tij的文本数量和含与特征词tij的相似度大于γ的特征词的文本数量平均值的和,γ是系统设定值,通常取0.8~1;M为文本Di中特征总数。
表1采集话题信息
(1)微博噪声数据过滤方法的有效性评测
微博噪声数据过滤方法的有效性评测选取名词、动词、形容词、人名、地名、机构团体、其他专名这七类词作为有效词,文本表示采用向量空间模型,实验评测标准为:
经过大量实验测试,信息量指数过滤方法中的文档频率阈值η设为50,信息量指数阈值χ设为0.7;重要性指数过滤方法中的相似度阈值θ设为0.25,重要性指数阈值σ设为100,其中相似度计算采用的相似度权重φ和分别取0.6和0.4。信息量指数过滤方法和重要性指数过滤方法的实验数据见表2。
表2噪声数据过滤方法结果
信息量指数过滤方法和重要性指数过滤方法的漏检率和误检率见表3。
表3漏检率和误检率表
过滤方法 漏检率 误检率
信息量指数过滤方法 9.80% 4.90%
重要性指数过滤方法 11.60% 3.30%
从表2和表3中可以看到无论是信息量指数过滤方法还是重要性指数过滤方法都过滤掉了95%以上的噪声微博,被错误过滤掉的非噪声微博占10%左右,在可接受范围内,证明了微博噪声数据过滤方法的有效性。信息量指数过滤方法的漏检率相对低,误检率相对高,而重要性指数过滤方法正好相反,两种方法各有利弊,可考虑将二者结合起来。
(2)基于语义扩充的微博话题检测算法的效果评测;
为了验证基于语义扩充的微博话题检测算法的效果,本节对采集的10个话题23848条微博采用了下面两种话题检测算法,其中聚类算法均使用SinglePass算法。
(1)不使用基于语义扩充的微博话题检测算法,将转发类微博当做普通微博进行处理。
(2)使用基于语义扩充的微博话题检测算法,其中步骤2.2中K-means算法的k取值为3,步骤2.3中特征选择方法选用卡方统计,调节系数a和b分别取0.6和0.4,相似度计算方法中的相似度权重φ和分别取0.6和0.4。
评测标准使用正确率、召回率、漏检率和误检率,相关定义如下:
其中,C为检索到的属于当前话题的微博数,D为检索到的不属于当前话题的微博数,E为未检索到的属于当前话题的微博数,F为未检索到的不属于当前话题的微博数。
通过对10个话题的评价指标取平均数得到话题检测算法的指标值。话题检测算法的效果见表4。
表4话题检测结果表
话题检测算法 正确率 召回率 漏检率 误检率
不使用语义扩充话题检测算法 0.7019 0.689 0.2903 0.0119
使用语义扩充话题检测算法 0.7743 0.7528 0.2355 0.0103
更加直观地表示为图2:
从表4和图2中可以看出,使用基于语义扩充的微博话题检测算法比不使用基于语义扩充的微博话题检测算法的效果好,各项指标都有改善。说明了基于语义扩充的微博话题检测算法的有效性。
(3)话题热度评估模型的有效性评测。
为了验证话题热度评估模型的有效性,利用采集的10个话题23848条微博的用户粉丝数、转发数、评论数和点赞数,计算了10个话题的热度,结果见表5。
表5话题热度计算结果
话题编号 话题 时间跨度 热度 热度排序
1 姚贝娜事件 91 23905 3
2 刘翔退役 12 183850 2
3 乐视手机上市 5 229603 1
4 伊能静再婚 43 11615 6
5 孙楠退赛 23 12492 4
6 汪涵救场 23 11657 5
7 李连杰替身身亡事件 12 532 9
8 黄冈中学辉煌不再 13 889 8
9 脑白金含褪黑素 58 127 10
10 日本出云号航母 25 1769 7
从表5中可以看出话题热度从高到底排序依次是“乐视手机上市”、“刘翔退役”、“姚贝娜事件”、“孙楠退赛”、“汪涵救场”、“伊能静再婚”、“日本出云号航母”、“黄冈中学辉煌不再”、“李连杰替身身亡事件”、“脑白金含褪黑素”。话题“乐视手机上市”因为商业营销的缘故热度最高,“刘翔退役”引起了社会的普遍关注热度也很高。“孙楠退赛”和“汪涵救场”因为《我是歌手》的热播引起短时间的热烈讨论,热度较高。“姚贝娜事件”和“伊能静再婚”两个话题虽然时间跨度比较大,却由于这两个事件引起大家的普遍关注和讨论,且维持时间较长,故热度依然偏高。“日本出云号航母”、“黄冈中学辉煌不再”、“李连杰替身身亡事件”、“脑白金含褪黑素”四个话题因为只引起部分人的关注和讨论,故热度较低。表5结果符合10个话题的实际热度情况,证明话题热度评估模型是有效的。

Claims (1)

1.一种基于语义扩充的微博话题检测和热度评估方法,其特征在于:该方法包括如下步骤,
步骤1:通过以下微博噪声数据过滤方法,过滤掉低信息量微博;
步骤1.1:对微博文本进行分词、去除停用词、选取有效词、特征加权和文本表示的处理;
步骤1.2:
计算信息量指数A:
(1)获取核心词:计算微博集中的每个词的文档频率,设置频率阈值η,过滤掉文档频率小于阈值η的词,得到核心词集合;
(2)计算当前微博的核心词的权重和,作为此微博的信息量指数A;
(3)过滤掉信息量指数A低于信息量指数阈值χ的微博;
计算重要性指数B:
(1)计算微博集中任意两条微博μ与ν的相似度sim(μ,ν);
(2)设置相似度阈值θ,将大于等于阈值θ的相似度置为1,小于阈值θ的相似度置为0;
(3)计算当前微博与其他所有微博的相似度之和,作为此微博的重要性指数B;
(4)过滤掉重要性指数B低于重要性指数阈值σ的微博;
步骤2:微博语义扩充;
步骤2.1:对步骤1过滤后的微博文本,通过将微博文本中的最后一个转发标签“//”前的内容当做“//”后内容的转发评论的方式,获取每一条原创微博的评论集合;
步骤2.2:通过微博评论选择方法对微博评论进行筛选;
一条原创微博表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:
步骤2.2.1:输入微博T的内容d和评论集合C;
步骤2.2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论;
步骤2.2.3:对微博内容d和步骤2.2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;
步骤2.2.4:对步骤2.2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;
步骤2.2.5:输出微博T的最终评论文本p;
步骤2.3:将微博评论中的语义信息补充进微博中;
在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤2.3.1-2.3.3结合起来,以形成对微博T的有效的语义扩充;
微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2.2生成对应的评论数据集P,微博语义扩充由以下三步构成:
步骤2.3.1:采用向量空间模型表示数据集D和P中的文本;
步骤2.3.2:特征选择,设选定的特征选择函数为f(x);
从数据集D和P中分别提取所有特征项,构成特征集合FD和FP;对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P;若需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P;将特征集合F″D和F″P取并集得到特征集合Fend,即Fend=F″D∪F″P
步骤2.3.3:特征加权,设其权重函数为G(x),若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x),对于微博文本di∈D,对应的评论文本pi∈P,考察每一个特征项f∈Fend
若f∈di,特征f在文本di中的权重为特征f在文本di中的权重为若f∈pi,特征f在文本pi中的权重为特征f在文本pi中的权重为则特征f在文本di中的最终权重为:且a+b=1,其中a和b为调节系数;
步骤3:对步骤2进行语义扩充后的微博文本使用SinglePass算法进行聚类,得到若干微博话题;
步骤4:对步骤3得到的微博话题,利用以下热度评估模型计算其热度,并进行降序排列得到热点话题;
设话题集为Topic={TP1,TP2,...,TPN},话题TPj(1≤j≤N)对应的微博集为Dj={dj1,dj2,...,djM},其中N是话题集中话题总数,M是微博集Dj中微博总数;微博集Dj中微博dji(1≤i≤M)的热度Hdji表示为:
Hd ji = log ( ln ji + 1 ) + pn ji 3 + cn ji + fn ji ,
其中,lnji代表微博dji的用户粉丝数,pnji代表微博dji的点赞数,cnji代表微博dji的评论数,fnji代表微博dji的转发数;
话题TPj的热度HTj可表示为:其中,tj为话题TPj的时间跨度,即微博集Dj中最早微博的发布时间与话题检测时的时间的差值。
CN201510243208.0A 2015-05-13 2015-05-13 一种基于语义扩充的微博话题检测和热度评估方法 Active CN104834632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510243208.0A CN104834632B (zh) 2015-05-13 2015-05-13 一种基于语义扩充的微博话题检测和热度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510243208.0A CN104834632B (zh) 2015-05-13 2015-05-13 一种基于语义扩充的微博话题检测和热度评估方法

Publications (2)

Publication Number Publication Date
CN104834632A true CN104834632A (zh) 2015-08-12
CN104834632B CN104834632B (zh) 2017-09-29

Family

ID=53812531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510243208.0A Active CN104834632B (zh) 2015-05-13 2015-05-13 一种基于语义扩充的微博话题检测和热度评估方法

Country Status (1)

Country Link
CN (1) CN104834632B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357586A (zh) * 2015-09-28 2016-02-24 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN105975517A (zh) * 2016-04-27 2016-09-28 湖南蚁坊软件有限公司 一种微博热度指数的分析方法
CN106407484A (zh) * 2016-12-09 2017-02-15 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法
CN107203632A (zh) * 2017-06-01 2017-09-26 中国人民解放军国防科学技术大学 基于相似关系和共现关系的话题流行度预测方法
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN107992634A (zh) * 2018-01-16 2018-05-04 天津大学 基于社会媒体微博特定话题的摘要方法
CN108197144A (zh) * 2017-11-28 2018-06-22 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN110825868A (zh) * 2019-11-07 2020-02-21 厦门市美亚柏科信息股份有限公司 一种基于话题热度的文本推送方法、终端设备及存储介质
CN111581544A (zh) * 2019-04-08 2020-08-25 众巢医学科技(上海)股份有限公司 搜索结果优化方法、装置、计算机设备及存储介质
CN111949848A (zh) * 2020-08-06 2020-11-17 国家计算机网络与信息安全管理中心 一种基于特定事件的跨平台传播态势评估及分级方法
CN112597309A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 实时识别突发事件微博数据流的检测系统
CN113051484A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 确定热点社交类信息的方法及装置
CN114663246A (zh) * 2022-05-24 2022-06-24 中国电子科技集团公司第三十研究所 传播仿真中信息制品的表征建模方法及多智能体仿真方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007047971A2 (en) * 2005-10-21 2007-04-26 America Online, Inc. Real time query trends with multi-document summarization
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎
CN103279483A (zh) * 2013-04-23 2013-09-04 中国科学院计算技术研究所 一种面向微博客的话题流行范围评估方法及系统
CN103914551A (zh) * 2014-04-13 2014-07-09 北京工业大学 一种微博语义信息扩充和特征选取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007047971A2 (en) * 2005-10-21 2007-04-26 America Online, Inc. Real time query trends with multi-document summarization
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎
CN103279483A (zh) * 2013-04-23 2013-09-04 中国科学院计算技术研究所 一种面向微博客的话题流行范围评估方法及系统
CN103914551A (zh) * 2014-04-13 2014-07-09 北京工业大学 一种微博语义信息扩充和特征选取方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357586A (zh) * 2015-09-28 2016-02-24 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN105357586B (zh) * 2015-09-28 2018-12-14 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN105975517A (zh) * 2016-04-27 2016-09-28 湖南蚁坊软件有限公司 一种微博热度指数的分析方法
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
CN106407484A (zh) * 2016-12-09 2017-02-15 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN106407484B (zh) * 2016-12-09 2023-09-01 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN107122455B (zh) * 2017-04-26 2019-12-31 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法
CN107193797B (zh) * 2017-04-26 2020-08-18 天津大学 中文微博的热点话题检测及趋势预测方法
CN107203632A (zh) * 2017-06-01 2017-09-26 中国人民解放军国防科学技术大学 基于相似关系和共现关系的话题流行度预测方法
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN108197144B (zh) * 2017-11-28 2021-02-09 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108197144A (zh) * 2017-11-28 2018-06-22 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN107992634A (zh) * 2018-01-16 2018-05-04 天津大学 基于社会媒体微博特定话题的摘要方法
CN109509110B (zh) * 2018-07-27 2021-08-31 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN111581544A (zh) * 2019-04-08 2020-08-25 众巢医学科技(上海)股份有限公司 搜索结果优化方法、装置、计算机设备及存储介质
CN110825868A (zh) * 2019-11-07 2020-02-21 厦门市美亚柏科信息股份有限公司 一种基于话题热度的文本推送方法、终端设备及存储介质
CN113051484A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 确定热点社交类信息的方法及装置
CN111949848B (zh) * 2020-08-06 2022-05-31 国家计算机网络与信息安全管理中心 一种基于特定事件的跨平台传播态势评估及分级方法
CN111949848A (zh) * 2020-08-06 2020-11-17 国家计算机网络与信息安全管理中心 一种基于特定事件的跨平台传播态势评估及分级方法
CN112597309A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 实时识别突发事件微博数据流的检测系统
CN114663246A (zh) * 2022-05-24 2022-06-24 中国电子科技集团公司第三十研究所 传播仿真中信息制品的表征建模方法及多智能体仿真方法
CN114663246B (zh) * 2022-05-24 2022-09-23 中国电子科技集团公司第三十研究所 传播仿真中信息制品的表征建模方法及多智能体仿真方法

Also Published As

Publication number Publication date
CN104834632B (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN104834632A (zh) 一种基于语义扩充的微博话题检测和热度评估方法
Xu et al. Research on topic detection and tracking for online news texts
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN105005589A (zh) 一种文本分类的方法和装置
CN103870474A (zh) 一种新闻话题组织方法及装置
Ignatov et al. Can triconcepts become triclusters?
Hu et al. Multi-depth graph convolutional networks for fake news detection
CN105138577A (zh) 一种基于大数据的事件演化分析方法
Shen et al. Estimators for the drift of subfractional Brownian motion
CN104965930A (zh) 一种基于大数据的突发事件演化分析方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
Grinev et al. Sifting micro-blogging stream for events of user interest
Shen et al. An approximation of subfractional Brownian motion
CN105159879A (zh) 一种网络个体或群体价值观自动判别方法
Ilić A geometric time series model with a new dependent Bernoulli counting series
Khorashadizadeh et al. Characterizations of lifetime distributions based on doubly truncated mean residual life and mean past to failure
Frieze et al. Some properties of random Apollonian networks
Nekoukhou et al. A flexible skew-generalized normal distribution
Guan et al. Varying Naïve Bayes models with applications to classification of chinese text documents
CN105760410A (zh) 一种基于转发评论的微博语义扩充模型和方法
CN104331483B (zh) 基于短文本数据的区域事件检测方法和设备
Wu et al. Link prediction based on random forest in signed social networks
Fang et al. New Turaev braided group categories and group corings based on quasi-Hopf group coalgebras

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200818

Address after: A5, block D, Xisanqi cultural science and Technology Park, yard 27, xixiaokou Road, Haidian District, Beijing 100085

Patentee after: Goonie International Software (Beijing) Co.,Ltd.

Address before: 100124 Chaoyang District, Beijing Ping Park, No. 100

Patentee before: Beijing University of Technology

TR01 Transfer of patent right