CN104102681A - 一种微博关键事件获取方法和装置 - Google Patents
一种微博关键事件获取方法和装置 Download PDFInfo
- Publication number
- CN104102681A CN104102681A CN201310130690.8A CN201310130690A CN104102681A CN 104102681 A CN104102681 A CN 104102681A CN 201310130690 A CN201310130690 A CN 201310130690A CN 104102681 A CN104102681 A CN 104102681A
- Authority
- CN
- China
- Prior art keywords
- microblog
- word
- preset
- specific
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 19
- 235000019633 pungent taste Nutrition 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003203 everyday effect Effects 0.000 abstract description 8
- 230000002354 daily effect Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种微博关键事件获取方法,包括:根据预设条件搜索微博;根据搜索到的微博提取热词;根据提取的热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;统计每个热词的每日热度值,保存每个热词的每日热度值排名前N位的日期,并保存对应的关键事件的事件标题,所述N为预设值。本发明还公开了一种微博关键事件获取装置。通过本发明能够实现微博关键时间点的关键事件的获取。
Description
技术领域
本发明涉及微博搜索技术,特别是指一种微博关键事件获取方法和装置。
背景技术
网络即时通讯(IM,Instant Messenger)工具发展到今天已经被大多数的网民所接受,成为用户必不可少的通信工具,不仅在平时的休闲娱乐中,而且在用户的工作中得到广泛的使用。特别是微博,由于其信息传递效率非常高,已经成为主流的IM工具。
微博的用户群庞大,微博传递的信息量也非常巨大。基于这巨大的信息量,可以统计出一段时间内网民关注度较高的事件和词语等。目前有两种统计关注度较高的事件和词语的方式:
一是、根据关键词的搜索频次的时间趋势可统计得到热词;对每日每条微博采用切词工具切词,统计出每日每个热词的词频,据此可绘制出热词的时间趋势图。其中,所述的热词即为关注度高的关键词。
一是,根据关键词的搜索频次的时间趋势可统计得到热词;获取重要官方媒体发布的每日微博或文章,统计出每日微博或文章标题中包含特定热词的微博或文章数量,该数值就是当天该热词的关注热度,据此可绘制出一段时间内特定热词的时间趋势图。
上述技术方案存在问题有:
一、上述方案中,由于微博内容出现的随机性会有大量的噪音热词。
二、根据微博转评数及浏览数确定的关键事件有可能是跟对应热词不相关的,也就是说带有指定热词的热门微博或文章并不一定是围绕该热词展开的;
三、上述两种方案只能统计出一段时间内热词的时间趋势图,而无法获取 关键时间点发生的关键事件。
发明内容
有鉴于此,本发明的主要目的在于提供一种微博关键事件获取方法和装置,以实现微博系统中关键时间点的关键事件的获取。
为达到上述目的,本发明的技术方案是这样实现的:
一种微博关键事件获取方法,该方法包括:
根据预设条件搜索微博;
根据搜索到的所述微博提取热词;
根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;
统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。
较佳的,所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;
所述根据预设条件搜索微博为:搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。
较佳的,所述根据搜索到的微博提取热词,包括:
采用切词工具对搜索到的所述微博的文本内容进行切词;
对切词后所述微博的文本内容中的各个词语进行词性标注;
选择候选词性,并统计属于所述候选词性的词语的词频,将词频达到阈值的词语确定为候选词;
对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。
较佳的,所述统计属于候选词性的词语的词频,将词频达到阈值的词语确定为候选词,包括:
统计每个属于候选词性的词语在所述预设的第一时间段和预设的第二时间 段内出现的次数,将所述出现的次数达到预设次数的属于候选词性的词语作为候选词;或者,
统计每个属于候选词性的词语在所述预设的第一时间段和预设的第二时间段内出现的天数,当一天中至少M篇微博包含属于候选词性的词语时统计为一天,将所述出现的天数达到预设天数的属于候选词性的词语作为候选词,所述M为预设值。
较佳的,所述对候选词进行热度值H计算为:
H=w1*f1(A1)+w2*f2(A1/A2)+w3*f3(B1)+w4*f4(B1/B2);
所述A1为候选词在所述第一时间段内出现的天数,当一天中至少M篇微博包含候选词时统计为一天;所述M为预设值;
所述A2为候选词在所述第二时间段内出现的天数,当一天中至少M篇微博包含特定候选词时统计为一天;所述M为预设值;
所述B1为所述预设的第一时间段内包含候选词的所有微博的总转评数;
所述B2为所述预设的第二时间段内包含候选词的所有微博的总转评数;
所述w1、w2、w3、w4分别为所述A1、A2、B1、B2的权重;
所述f1、f2、f3、f4分别为将所述A1、A2、B1、B2归约到0-1的函数。
较佳的,对候选词进行热度值计算,将热度值大于阈值的候选词作为热词之后,该方法还包括:
按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词作为噪音热词进行过滤;
所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。
较佳的,所述特定热词的信息熵H采用如下公式计算:
H=-∑p(i)logp(i)(i=1,2,..n),其中,所述p(i)=si/S,所述S为包含所述特定热词的微博总条数;si为第i个分类对应的包含所述特定热词的微博条数。
较佳的,所述根据热词,提取每个热词对应的每天的键事件包括:
将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所述预设的第一件时间段或预设的第二时间段。
较佳的,所述微博热度值O1采用如下公式计算:O1=w5*f5+w6*f6;
其中:所述w5为C的权重;所述w6为D的权重;所述f5为C归约到0-1的函数;所述f6为D归约到0-1的函数;所述C为包含特定热词的特定微博在特定日的转评数;D为包含特定热词的特定微博在特定日的内容聚焦度。
较佳的,所述每日热度值O2采用如下公式计算:O2=w7*f7+w8*f8;
其中,所述w7为E的权重;所述w8为F的权重;所述f7为E归约到0-1的函数;所述f8为F归约到0-1的函数;所述E为所述特定日包含热定热词的微博数;F为特定日包含特定热词的微博的总转评数。
较佳的,该方法还包括:根据所述特定热词的每日热度值排名前N位的日期以及对应的关键事件的事件标题,绘制关键事件时间脉络曲线图,所述N为预设值。
一种微博关键事件获取装置,包括:
搜索模块,用于根据预设条件搜索微博;
热词提取模块,用于根据搜索到的所述微博提取热词;
关键事件提取模块,用于根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;
关键时间获取模块,用于统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。
较佳的,所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;
所述搜索模块,还用于搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。
较佳的,所述热词提取模块,还用于采用切词工具对搜索到的所述微博的文本内容进行切词,对切词后所述微博的文本内容中的各个词语进行词性标注;还用于选择候选词性,并统计属于所述候选词性的词语的词频,将词频达到阈值的词语确定为候选词,对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。
较佳的,所述热词提取模块,还用于按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词过滤;
所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。
较佳的,所述关键事件提取模块,还用于将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所述预设的第一件时间段或预设的第二时间段。
本发明所提供的一种微博关键事件获取方法和装置,根据预设条件搜索微博;根据搜索到的微博提取热词;根据热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;统计每个热词的每日热度值,保存每个热词的每日热度值排名前N(为预设值)位的日期,并保存对应的关键事件的事件标题。如此,根据热词的每日热度值排名,可以获取热词的关键时间点(如上述每日热度值排名前N位的日期),再通过提取每个热词对应的每天的关键事件,就可以得到每个热词在关键时间点的关键事件,帮助用户更便捷的了解微博热点事件发展的时间脉络,提升了用户体验。
附图说明
图1为本发明实施例的微博关键事件获取方法的流程示意图一;
图2为本发明实施例的热词提取流程示意图;
图3为本发明实施例提供的关键事件的时间脉络图;
图4为本发明实施例的微博关键事件获取方法的流程示意图二;
图5为本发明实施例的微博关键事件获取装置的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
如图1所示,本发明实施例的微博关键事件获取方法流程包括:
步骤101,根据预设条件搜索微博。
较佳地,预设条件包括两个参数:微博用户和微博发表时间。在本发明实施例提供的关键事件获取方案中,微博用户指示为微博注册用户;较佳地为微博名人用户;微博发表时间指示为预设的第一时间段和预设的第二时间段。进一步地,预设的第一时间段和预设的第二时间段为时间上相邻的两个时间段。其中,预设条件中的微博发表时间的单位与系统中记录的微博的发表时间的单位保持一致,例如两者均精确到秒。
例如,将微博用户设定为通过微博认证的一个或多个行业的微博名人用户;通过微博认证的行业,例如:媒体、体育、财经、科技、教育等。本实施例中将微博用户设定为体育、财经行业的微博名人用户;将微博发表时间设定为:2012年10月1日0时0分0秒-2012年10月31日24时59分59秒和2012年11月1日0时0分0秒-2012年11月30日24时59分59秒。根据该预设条件,需要搜索从2012年10月1日0时0分0秒-2012年10月31日24时59分59秒和2012年11月1日0时0分0秒-2012年11月30日24时59分59秒这两段时间内、体育和财经行业的微博名人用户发表的微博。优选地,本发明实施例中搜索的微博为原创微博。
为了避免一些时间跨度较大的热词被过滤掉,可以将微博发表时间所指示的时间段设置的更长。
较佳地,上述预设条件通过客户端定制,基于该预设条件客户端通过微博平台的开放接口从微博服务器中获取符合条件的微博数据。客户端根据搜索到的微博执行后续操作。
步骤102,根据搜索到的微博提取热词。
该步骤的实现如图2所示,包括:
步骤1021、采用切词工具对微博的文本内容进行切词;该步骤的实现为现有技术,此处不再赘述。
步骤1022、对切词后微博的文本内容中的各个词语进行词性标注。所述的词性包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词。
步骤1023、选择候选词性,并统计属于候选词性的词语的词频,将词频达到阈值的词语确定为候选词。
具体地,统计每个属于候选词性的词语在预设的第一时间段和预设的第二时间段内出现的次数,将该出现的次数达到预设次数的属于候选词性的词语作为候选词;或者,统计每个属于候选词性的词语在预设的第一时间段和预设的第二时间段内出现的天数,当一天中至少M(为预设值)篇微博包含属于候选词性的词语时统计为一天,将该出现的天数达到预设天数的属于候选词性的词语作为候选词。
假设将名词选择为候选词性,那么,统计搜索到的微博中每个名词的词频;将词频达到阈值的一个或多个名词确定为候选词。例如:统计每个名词出现的次数,这里出现的次数即为词频,将出现的次数达到预设次数(即阈值)的一个或多个名词作为候选词。再例如:统计每个名词在微博发表时间所指示的时间段内出现的天数,进一步地,一天中至少M(为预设值)篇微博包含该名词才统计为一天,这里出现的天数即为词频,将出现的天数达到预设天数(即阈值)的一个或多个名词作为候选词。
在实际应用中,词频的统计并不限于上述两种方式,只要能够表示在一段时间内词语出现的频率的方式均可用作词频的统计。
步骤1024、对候选词进行热度值计算,将热度值大于阈值的候选词作为热词。
本发明中采用如下的公式计算候选词的热度值(H):
H=w1*f1(A1)+w2*f2(A1/A2)+w3*f3(B1)+w4*f4(B1/B2)。
热度值的计算需要依据四个指标,分别是:
A1:特定候选词在第一时间段内出现的天数(当一天中至少M(预设值)篇微博包含特定候选词时统计为一天);
A2:特定候选词在第二时间段内出现的天数(当一天中至少M(预设值)篇微博包含特定候选词时统计为一天);
B1:第一时间段内包含候选词的所有微博的总转评数;
B2:第二时间段内包含候选词的所有微博的总转评数。
其中,w1、w2、w3、w4分别为A1、A2、B1、B2的权重;
f1、f2、f3、f4分别为将A1、A2、B1、B2归约到0-1的函数。
需要指出的是,本发明实施例基于两个时间段的微博进行热词的提取可以达到热词提取的最佳效果。当采用一个时间段时,仅仅是根据词频进行热词的提取,其中含有噪音热词的机率很高;而采用更多的时间段时,不仅计算的复杂度大大地增加,而且提取热词的效果基本和两个时间段相同,在特别情况下甚至效果不及两个时间段的方式。
例如,本实施例提供的候选词以及对应的四个指标如表1所示:
候选词 | A1 | A2 | B1 | B2 |
来袭 | 16 | 14 | 261 | 219 |
辽宁舰 | 30 | 5 | 1527 | 52 |
十八大 | 22 | 3 | 1745 | 45 |
摇摆 | 8 | 0 | 124 | 0 |
表1
假设w1、w2、w3、w4均为0.25;
f1=A1/30;
f2定义为:
当A2=0或A1/A2>=25时,f2=1;
当A1<A2时,f2=0;
当A2不满足上述条件时,f2=pow(A1/A2/25,0.18)。
f3定义为:
当B1>=2000时,f3=1;
当B1不满足上述条件时,f3=pow(B1/2000,0.23)。
f4定义为:
当B2=0或B1/B2>=2000时,f4=1;
当B1<B2时,f4=0;
当B2不满足上述条件时,f4=pow(B1/B2/2000,0.05)。
以表1中的候选词“来袭”为例:
f1=16/30=0.53;
f2=pow(16/14/25,0.18)=0.574;
f3=pow(261/2000,0.24)=0.613;
f4=pow(261/219/2000,0.05)=0.689。
则候选词“来袭”的热度值为:
H=0.25*0.53+0.25*0.574+0.25*0.613+0.25*0.689=0.601。
基于同样的方法计算得到候选词“辽宁舰”的热度值为0.881;候选词“十八大”的热度值为0.831;候选词“摇摆”的热度值为0.698。假设阈值为0.62,那么,候选词“来袭”被过滤掉,候选词“辽宁舰”、“十八大”和“摇摆”则被作为热词。
需要指出的是,通过上述步骤选出的热词中可能存在噪音热词,需要进行过滤。关于噪音热词的过滤采用步骤1025所述的方式。
步骤1025、按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算特定热词的信息熵,将信息熵高于阈值的热词作为噪音热词进行过滤。
所述的分类工具例如朴素贝叶斯分类器、支持向量机(SVM,Support Vector Machine)等。所述的分类可根据微博内容的性质设定,例如:军事、政治、时事、娱乐、体育等。
每个热词对应的分类结果包括:各个分类对应的包含该热词的微博条数。
承接步骤1024的实施例,热词“辽宁舰”、“十八大”和“摇摆”的分类 结果如表2所示:
热词 | 微博总数 | 分类结果(统计各个分类的微博条数) |
辽宁舰 | 1521 | 军事:1324政治:158时事:39 |
十八大 | 1780 | 政治:1566时事:156军事:41历史:17 |
摇摆 | 122 | 时事:35政治:27体育:25娱乐:16军事:13财经:6 |
表2
热词的信息熵H的计算公式如下:
H=-∑p(i)logp(i)(i=1,2,..n),其中,p(i)=si/S,S为包含特定热词的微博总条数;si为第i个分类对应的包含特定热词的微博条数。
“辽宁舰”的信息熵:
H=-1324/1521*log(1324/1521)-158/1521*log(158/1521)-39/1521*log(39/1521)=0.450
“十八大”的信息熵:
H=-1566/1780*log(1566/1780)-156/1780*log(156/1780)-41/1780*log(41/1780)-17/1780*log(17/1780)=0.457
“摇摆”的信息熵:
H=-35/122*log(35/122)-27/122*log(27/122)-25/122*log(25/122)-16/122*log(16/122)-13/122*log(13/122)-6/122*log(6/122)=1.67
假设信息熵的阈值为O.8,则过滤掉高于阈值的热词“摇摆”,剩下“辽宁舰”和“十八大”为最终提取出的热词。
步骤103,根据提取的热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题。
具体的,将包含特定热词的、且在特定日内微博热度值最高的微博作为该特定热词对应的特定日的关键事件。所述特定日属于上述预设的第一件时间段或预设的第二时间段。
其中,微博热度值O1的计算采用如下公式:O1=w5*f5+w6*f6。
w5为C的权重;w6为D的权重。
f5为C归约到0-1的函数;f6为D归约到0-1的函数。
其中,C为包含特定热词的特定微博在特定日的转评数;
D为包含特定热词的特定微博在特定日的内容聚焦度。
其中,内容聚焦度D的计算方式为:对特定日内包含特定热词的所有微博采用切词工具进行切词,统计所有微博中有效词的词频,然后将每条微博包含的有效词的词频累加,得到该条微博的内容聚焦度。所述的有效词即为属于候选词性的词语,这里的词频是指词语出现的次数。
例如:2012-11-07这天(特定日)包含热词“十八大”的所有微博中,有效词“港媒”出现1次,有效词“提问”出现9次,有效词“十八大”出现366次,有效词“会议”出现85次。假设微博X中的有效词有“港媒”、“提问”、“十八大”和“会议”,那么,微博X在2012-11-07的内容聚焦度为:1(港媒)+9(提问)+366(十八大)+85(会议)=461;假设微博Y中的有效词有“十八大”和“会议”,那么,微博Y在2012-11-07的内容聚焦度为:366(十八大)+85(会议)=451。
选取了特定日的关键事件后,根据关键事件的内容生成事件标题。例如,当关键事件的内容中存在【】符号时优先提取该符号内的内容作为事件标题;或者,寻找,。!;等标点符号,提取其前面的内容作为事件标题;或者,截取内容的前n个字作为事件标题。当然,事件标题的生成方式并不仅限于此。
承接步骤102中将“辽宁舰”和“十八大”作为热词的例子,该步骤中以2012年11月07日为特定日,提取当天的关键事件。假设,w5为0.6,w6为0.4。统计的包含热词“辽宁舰”或“十八大”的微博的微博热度值如表3所示。
表3
从表3可知,在2012年11月07日,包含热词“辽宁舰”的所有微博中,【标题B】为标题的微博的微博热度值最高,将其作为关键事件;包含“十八大”的所有微博中,【标题E】为标题的微博的微博热度值最高,将其作为关键事件。
通过该步骤,能够获取预设的第一时间段和预设的第二时间段内每天的关键事件及对应的事件标题。
步骤104,统计每个热词的每日热度值,保存每个热词的每日热度值排名前N(预设值)位的日期,并保存对应的关键事件的事件标题。这里,每日热度值排名前N位的日期即为特定热词的关键时间点。
特定热词的每日热度值O2的计算采用如下的公式:O2=w7*f7+w8*f8;
其中,w7为E的权重;w8为F的权重;
f7为E归约到0-1的函数;f8为F归约到0-1的函数。
其中,为每日包含特定热词的微博数;F为每日包含特定热词的微博的总转评数。
统计出特定热词的每日热度值后,从高到低进行排序,保存每日热度值排名前n位的日期。
承接步骤102中将“辽宁舰”和“十八大”作为热词的例子,假设w5、w6分别为0.4,0.6。如表4所示为统计出的“辽宁舰”和“十八大”的每日热 度值。如表5所示为“辽宁舰”和“十八大”每日热度值排名前15位的日期。
表4
表5
进一步地,根据步骤104获取的特定热词的每日热度值排名前N位的日期以及步骤103获取的每个热词对应的每天的关键事件的事件标题,可以绘制出如图3所示的关键事件时间脉络曲线图。从图中可以看出一段时间内特定热词的关键时间点,以及对应的关键事件,如此可以快速、准确地发现微博关键时间点发生的关键事件。
需要指出的是,步骤103和步骤104的顺序可以调换,即先统计出特定热词的每日热度值排名前N位的日期,再统计出这些日期内每个热词对应的关键事件,如图4所示。
为了实现上述方法,如图5所示,本发明是实施例还提供了一种微博关键事件获取装置,较佳地,该装置应用于客户端中,包括:
搜索模块10,用于根据预设条件搜索微博;
热词提取模块20,用于根据搜索到的微博提取热词;
关键事件提取模块30,用于根据提取的热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;
关键时间获取模块40,用于统计每个热词的每日热度值,保存每个热词的每日热度值排名前N位的日期,并保存对应的关键事件的事件标题,N为预设值。
预设条件包括微博用户和微博发表时间;微博发表时间指示为预设的第一时间段和预设的第二时间段;微博用户指示为微博注册用户;
搜索模块10,还用于搜索微博注册用户在预设的第一时间段和预设的第二时间段发表的微博。
热词提取模块20,还用于采用切词工具对搜索到的微博的文本内容进行切词,对切词后微博的文本内容中的各个词语进行词性标注;还用于选择候选词性,并统计属于候选词性的词语的词频,将词频达到阈值的词语确定为候选词, 对候选词进行热度值计算,将热度值大于阈值的候选词作为热词。
热词提取模块20,还用于按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算特定热词的信息熵,将信息熵高于阈值的热词过滤;
特定热词对应的分类结果包括:各个分类对应的包含特定热词的微博条数。
关键事件提取模块30,还用于将包含特定热词的、且在特定日内微博热度值最高的微博作为特定热词对应的特定日的关键事件;特定日属于预设的第一件时间段或预设的第二时间段。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (16)
1.一种微博关键事件获取方法,其特征在于,该方法包括:
根据预设条件搜索微博;
根据搜索到的所述微博提取热词;
根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;
统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。
2.根据权利要求1所述微博关键事件获取方法,其特征在于,所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;
所述根据预设条件搜索微博为:搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。
3.根据权利要求2所述微博关键事件获取方法,其特征在于,所述根据搜索到的微博提取热词,包括:
采用切词工具对搜索到的所述微博的文本内容进行切词;
对切词后所述微博的文本内容中的各个词语进行词性标注;
选择候选词性,并统计属于所述候选词性的词语的词频,将词频达到阈值的词语确定为候选词;
对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。
4.根据权利要求3所述微博关键事件获取方法,其特征在于,所述统计属于候选词性的词语的词频,将词频达到阈值的词语确定为候选词,包括:
统计每个属于候选词性的词语在所述预设的第一时间段和预设的第二时间段内出现的次数,将所述出现的次数达到预设次数的属于候选词性的词语作为候选词;或者,
统计每个属于候选词性的词语在所述预设的第一时间段和预设的第二时间段内出现的天数,当一天中至少M篇微博包含属于候选词性的词语时统计为一天,将所述出现的天数达到预设天数的属于候选词性的词语作为候选词,所述M为预设值。
5.根据权利要求3所述微博关键事件获取方法,其特征在于,所述对候选词进行热度值H计算为:
H=w1*f1(A1)+w2*f2(A1/A2)+w3*f3(B1)+w4*f4(B1/B2);
所述A1为候选词在所述第一时间段内出现的天数,当一天中至少M篇微博包含候选词时统计为一天;所述M为预设值;
所述A2为候选词在所述第二时间段内出现的天数,当一天中至少M篇微博包含特定候选词时统计为一天;所述M为预设值;
所述B1为所述预设的第一时间段内包含候选词的所有微博的总转评数;
所述B2为所述预设的第二时间段内包含候选词的所有微博的总转评数;
所述w1、w2、w3、w4分别为所述A1、A2、B1、B2的权重;
所述f1、f2、f3、f4分别为将所述A1、A2、B1、B2归约到0-1的函数。
6.根据权利要求4或5所述微博关键事件获取方法,其特征在于,对候选词进行热度值计算,将热度值大于阈值的候选词作为热词之后,该方法还包括:
按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词作为噪音热词进行过滤;
所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。
7.根据权利要求6所述微博关键事件获取方法,其特征在于,所述特定热词的信息熵H采用如下公式计算:
H=-∑P(i)logp(i)(i=1,2,..n),其中,所述p(i)=si/S,所述S为包含所述特定热词的微博总条数;si为第i个分类对应的包含所述特定热词的微博条数。
8.根据权利要求7所述微博关键事件获取方法,其特征在于,所述根据热词,提取每个热词对应的每天的键事件包括:
将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所述预设的第一件时间段或预设的第二时间段。
9.根据权利要求8所述微博关键事件获取方法,其特征在于,所述微博热度值O1采用如下公式计算:O1=w5*f5+w6*f6;
其中:所述w5为C的权重;所述w6为D的权重;所述f5为C归约到0-1的函数;所述f6为D归约到0-1的函数;所述C为包含特定热词的特定微博在特定日的转评数;D为包含特定热词的特定微博在特定日的内容聚焦度。
10.根据权利要求9所述微博关键事件获取方法,其特征在于,所述每日热度值O2采用如下公式计算:O2=w7*f7+w8*f8;
其中,所述w7为E的权重;所述w8为F的权重;所述f7为E归约到0-1的函数;所述f8为F归约到0-1的函数;所述E为所述特定日包含热定热词的微博数;F为特定日包含特定热词的微博的总转评数。
11.根据权利要求10所述微博关键事件获取方法,其特征在于,该方法还包括:根据所述特定热词的每日热度值排名前N位的日期以及对应的关键事件的事件标题,绘制关键事件时间脉络曲线图,所述N为预设值。
12.一种微博关键事件获取装置,其特征在于,包括:
搜索模块,用于根据预设条件搜索微博;
热词提取模块,用于根据搜索到的所述微博提取热词;
关键事件提取模块,用于根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;
关键时间获取模块,用于统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。
13.根据权利要求12所述微博关键事件获取装置,其特征在于,
所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;
所述搜索模块,还用于搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。
14.根据权利要求13所述微博关键事件获取装置,其特征在于,
所述热词提取模块,还用于采用切词工具对搜索到的所述微博的文本内容进行切词,对切词后所述微博的文本内容中的各个词语进行词性标注;还用于选择候选词性,并统计属于所述候选词性的词语的词频,将词频达到阈值的词语确定为候选词,对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。
15.根据权利要求14所述微博关键事件获取装置,其特征在于,
所述热词提取模块,还用于按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词过滤;
所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。
16.根据权利要求15所述微博关键事件获取装置,其特征在于,
所述关键事件提取模块,还用于将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所述预设的第一件时间段或预设的第二时间段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310130690.8A CN104102681B (zh) | 2013-04-15 | 2013-04-15 | 一种微博关键事件获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310130690.8A CN104102681B (zh) | 2013-04-15 | 2013-04-15 | 一种微博关键事件获取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104102681A true CN104102681A (zh) | 2014-10-15 |
CN104102681B CN104102681B (zh) | 2017-05-17 |
Family
ID=51670840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310130690.8A Active CN104102681B (zh) | 2013-04-15 | 2013-04-15 | 一种微博关键事件获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104102681B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504037A (zh) * | 2014-12-15 | 2015-04-08 | 深圳市宜搜科技发展有限公司 | 实体词热度计算方法及装置 |
CN104899908A (zh) * | 2015-06-12 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 生成事件组演化图的方法和装置 |
CN105653705A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN105989071A (zh) * | 2015-02-10 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 获取用户网络操作特征的方法及设备 |
CN106569992A (zh) * | 2015-10-09 | 2017-04-19 | 北京国双科技有限公司 | 词语处理方法及装置 |
CN107229645A (zh) * | 2016-03-24 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 信息处理方法、服务平台及客户端 |
CN107967299A (zh) * | 2017-11-03 | 2018-04-27 | 中国农业大学 | 一种面向农业舆情的热词自动提取方法及系统 |
CN109542545A (zh) * | 2017-09-22 | 2019-03-29 | 北京国双科技有限公司 | 热词展示方法和装置 |
CN109657857A (zh) * | 2018-12-17 | 2019-04-19 | 广东小天才科技有限公司 | 一种作文考试命题预测方法及装置 |
CN110598100A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种热词推荐方法、装置、设备及存储介质 |
CN110750682A (zh) * | 2018-07-06 | 2020-02-04 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及系统 |
CN111813922A (zh) * | 2020-09-10 | 2020-10-23 | 中国科学院地理科学与资源研究所 | 一种基于微博文本数据的高温事件检测方法及系统 |
CN113921082A (zh) * | 2021-10-27 | 2022-01-11 | 云舟生物科技(广州)有限公司 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
CN109558538B (zh) * | 2018-11-23 | 2022-02-01 | 北京字节跳动网络技术有限公司 | 输入联想词的构建方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284332A1 (en) * | 2010-11-03 | 2012-11-08 | Anantha Pradeep | Systems and methods for formatting a presentation in webpage based on neuro-response data |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN102982157A (zh) * | 2012-12-03 | 2013-03-20 | 北京奇虎科技有限公司 | 用于挖掘微博热点话题的装置及方法 |
-
2013
- 2013-04-15 CN CN201310130690.8A patent/CN104102681B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284332A1 (en) * | 2010-11-03 | 2012-11-08 | Anantha Pradeep | Systems and methods for formatting a presentation in webpage based on neuro-response data |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN102982157A (zh) * | 2012-12-03 | 2013-03-20 | 北京奇虎科技有限公司 | 用于挖掘微博热点话题的装置及方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504037A (zh) * | 2014-12-15 | 2015-04-08 | 深圳市宜搜科技发展有限公司 | 实体词热度计算方法及装置 |
CN104504037B (zh) * | 2014-12-15 | 2018-07-06 | 深圳市宜搜科技发展有限公司 | 实体词热度计算方法及装置 |
CN105989071A (zh) * | 2015-02-10 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 获取用户网络操作特征的方法及设备 |
CN104899908A (zh) * | 2015-06-12 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 生成事件组演化图的方法和装置 |
CN104899908B (zh) * | 2015-06-12 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 生成事件组演化图的方法和装置 |
CN106569992B (zh) * | 2015-10-09 | 2019-12-03 | 北京国双科技有限公司 | 词语处理方法及装置 |
CN106569992A (zh) * | 2015-10-09 | 2017-04-19 | 北京国双科技有限公司 | 词语处理方法及装置 |
CN105653705A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN105653705B (zh) * | 2015-12-30 | 2020-07-03 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN107229645A (zh) * | 2016-03-24 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 信息处理方法、服务平台及客户端 |
CN109542545A (zh) * | 2017-09-22 | 2019-03-29 | 北京国双科技有限公司 | 热词展示方法和装置 |
CN107967299B (zh) * | 2017-11-03 | 2020-05-12 | 中国农业大学 | 一种面向农业舆情的热词自动提取方法及系统 |
CN107967299A (zh) * | 2017-11-03 | 2018-04-27 | 中国农业大学 | 一种面向农业舆情的热词自动提取方法及系统 |
CN110750682A (zh) * | 2018-07-06 | 2020-02-04 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及系统 |
CN110750682B (zh) * | 2018-07-06 | 2022-08-16 | 武汉斗鱼网络科技有限公司 | 一种标题热词自动计量方法、存储介质、电子设备及系统 |
CN109558538B (zh) * | 2018-11-23 | 2022-02-01 | 北京字节跳动网络技术有限公司 | 输入联想词的构建方法、装置、存储介质及电子设备 |
CN109657857A (zh) * | 2018-12-17 | 2019-04-19 | 广东小天才科技有限公司 | 一种作文考试命题预测方法及装置 |
CN110598100A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种热词推荐方法、装置、设备及存储介质 |
CN110598100B (zh) * | 2019-09-04 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种热词推荐方法、装置、设备及存储介质 |
CN111813922A (zh) * | 2020-09-10 | 2020-10-23 | 中国科学院地理科学与资源研究所 | 一种基于微博文本数据的高温事件检测方法及系统 |
CN113921082A (zh) * | 2021-10-27 | 2022-01-11 | 云舟生物科技(广州)有限公司 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104102681B (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104102681B (zh) | 一种微博关键事件获取方法和装置 | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN103198057B (zh) | 一种自动给文档添加标签的方法和装置 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN103294778B (zh) | 一种推送资讯信息的方法及系统 | |
CN103955453B (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
WO2012083892A1 (zh) | 一种网络不良信息的过滤方法及装置 | |
CN108363694B (zh) | 关键词提取方法及装置 | |
Wang et al. | Ecnu at semeval-2017 task 8: Rumour evaluation using effective features and supervised ensemble models | |
CN108228541A (zh) | 生成文档摘要的方法和装置 | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
Man | Feature extension for short text categorization using frequent term sets | |
Kaur et al. | News classification and its techniques: a review | |
Martinez-Rico et al. | NLP&IR@ UNED at CheckThat! 2020: A Preliminary Approach for Check-Worthiness and Claim Retrieval Tasks using Neural Networks and Graphs. | |
Vavliakis et al. | Event Detection via LDA for the MediaEval2012 SED Task. | |
CN103744918A (zh) | 基于垂直领域的微博搜索排序方法及系统 | |
CN103218368A (zh) | 一种挖掘热词的方法与装置 | |
Rosa et al. | Detecting a tweet’s topic within a large number of Portuguese Twitter trends | |
Jai-Andaloussi et al. | Soccer events summarization by using sentiment analysis | |
Zhu et al. | Identification of opinion leaders in social networks based on sentiment analysis: Evidence from an automotive forum | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
Yin et al. | Research on the text sentiment classification about the social hot events on Weibo | |
Nobata et al. | CRL/NYU summarization system at DUC-2004 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |