CN103955505A - 一种基于微博的事件实时监测方法及系统 - Google Patents

一种基于微博的事件实时监测方法及系统 Download PDF

Info

Publication number
CN103955505A
CN103955505A CN201410168703.5A CN201410168703A CN103955505A CN 103955505 A CN103955505 A CN 103955505A CN 201410168703 A CN201410168703 A CN 201410168703A CN 103955505 A CN103955505 A CN 103955505A
Authority
CN
China
Prior art keywords
event
geographic position
microblogging
entity
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410168703.5A
Other languages
English (en)
Other versions
CN103955505B (zh
Inventor
李凌云
张鹏
曹亚男
乔治
敖吉
谭建龙
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201410168703.5A priority Critical patent/CN103955505B/zh
Publication of CN103955505A publication Critical patent/CN103955505A/zh
Application granted granted Critical
Publication of CN103955505B publication Critical patent/CN103955505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤,在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。此外,还包括有相关事件推荐步骤和/或事件相关度分析步骤。本发明对用户所关心的事件进行实时监测,监控该事件在微博平台上的传播和发展趋势,能精准地挖掘出事件发生的异常时间点和地理位置,并推荐给用户其感兴趣的话题。

Description

一种基于微博的事件实时监测方法及系统
技术领域
本发明涉及信息安全和数据挖掘领域,特别是涉及一种基于微博的事件实时监测方法及系统。
背景技术
微博,即微博客(Micro-blog),作为Web2.0的产物,是一个基于用户关系信息分享、传播以及获取的平台,用户可以通过WEB、WAP等客户端组建个人社区,以最多140字左右的文字更新信息,并实现即时分享。微博作为一种新型的社交传播媒体,发展迅猛,具有传播速度快、互动性强、信息更新方便等特点,其已经对社会生活产生巨大影响,强势有力的成为我国主要传播媒介之一。比起传统媒体,微博更可能占据信息发布的制高点,这点在突发事件中表现尤为突出。例如2009年11月,西安发生4.4级地震,微博只用了不到1分钟就对该事件做了报道,而国家官方网站第一次发布该信息是在15分钟之后。
可见,微博的出现拓宽了信息传播的渠道,对经济的发展,社会的进步,科技的普及起到了积极的作用。但是另一方面,随之产生的负面问题也越来越多,比如以下两个方面。
1、反动、淫秽、迷信、暴力等有害信息在微博上传播,严重危害了国家和社会的稳定,侵蚀人民的思想。譬如恐怖分子在微博上呼吁打砸抢烧,煽动民族动乱等。
2、社会突发事件经微博快速传播后,造成网络上的小道消息流传,容易引起公众的不理性判断和混乱行为,从而酿成严重后果,特别是经过实名大V账号转发。譬如突尼斯“茉莉花革命”,推手们通过微博推波助澜,最终导致政局动荡。
如何有效利用社交媒体良好的信息传播特性,同时应对和解决其产生的负面影响?针对此问题,本发明提出了一种基于微博的事件实时监测方法及系统。
发明内容
本发明所要解决的技术问题是提供一种基于微博的事件实时监测方法及系统,用于解决高效、实时地进行微博事件监测的问题。
本发明解决上述技术问题的技术方案如下:一种基于微博的事件实时监测方法,包括:
异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;
地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述异常事件检测步骤具体包括:
步骤A1,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev;
步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:
| C i - mean | meandev > τ , 且Ci>Ci-1
式中,i>1,且i小于该组数据的数组长度,τ为事先设定的阈值;
步骤A3,若Ci满足该条件,则基于点Ci存在一个波峰区间,否则基于点Ci不存在波峰区间,需更新平均值和方差,并重复步骤A2;
步骤A4,将存在波峰区间的点Ci作为异常事件。
进一步,所述步骤A3中,当基于点Ci存在一个波峰区间时,该波峰区间的起点索引为i-1,终点索引需要先使用贪心算法得到伪终点索引,然后再通过对该伪终点索引进行修正而得到真正的终点索引。
进一步,所述地理位置定位步骤具体包括:
步骤B1,抽取每一条与异常事件相关的微博文本内容中的地理位置实体,并对抽取出的地理位置实体进行分析,获得事件发生的地理位置集合;
步骤B2,采用聚类的方式从事件发生的地理位置集合中筛选出群体性地理位置实体;
步骤B3,将筛选出的群体性地理位置实体转变为便于展示的信息格式。
进一步,所述步骤B1具体包括:
步骤B11,选取一条与异常事件相关的微博文本内容进行中文分词,并抽取其中所有的地理位置实体,同时记录事件的关键词与抽取的地理位置实体在微博文本中的位置索引;
步骤B12,根据步骤B11记录的位置索引,计算抽取到的地理位置实体与事件关键词之间的距离,保存与事件关键词最近的地理实体位置的距离;
步骤B13,对步骤B11抽取到的每个地理位置实体附加权重,权重取值为事件关键词与该地理实体位置之间的距离;
步骤B14,根据实际的地理位置级别关系,整理步骤B11抽取出的地理位置实体,只保留最细粒度的地理位置实体,且不改变步骤B13为其附加的权重;
步骤B15,从保留的最细粒度的地理位置实体中,选取事件发生的地理位置;
步骤B16,对每一条与异常事件相关的微博文本内容,重复步骤B11到步骤B15,获得事件发生的地理位置集合。
进一步,对于步骤B12,若抽取到的地理位置实体与事件关键词之间存在标点符号,则增大该地理位置实体与事件关键词之间的距离。
进一步,所述步骤B2具体包括:
步骤B21,设置频度阈值,过滤事件发生的地理位置集合中小于频度阈值的地理位置实体;
步骤B22,获取经过滤后剩下的地理位置实体的经纬度信息;
步骤B23,根据地理位置实体间的经纬度信息,两两计算地理位置实体之间的空间距离,再利用层次聚类的单链接算法对经步骤B21过滤后的地理位置实体聚类,提取出概率大的聚类簇作为群体性地理位置。
进一步,所述基于微博的事件实时监测方法还包括相关事件推荐步骤和/或事件相关度分析步骤:
相关事件推荐步骤:构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户;
事件相关度分析步骤:分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
本发明的技术方案还包括一种基于微博的事件实时监测系统,其包括:
异常事件检测模块,其用于输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;
地理位置定位模块,其用于在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
进一步,还包括相关事件推荐模块和/或事件相关度分析模块:
相关事件推荐模块,用于构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户;
事件相关度分析模块,用于分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
本发明的有益效果是:本发明对用户所关心的事件进行实时监测,监控该事件在微博平台上的传播和发展趋势,并对该事件的异常时间点进行地理位置定位,展示给用户清晰全面的事件实时信息。同时,基于用户查询的关键词和查询历史,向用记推荐其可能感兴趣的的相关事件。本发明易于在具体的系统中实现,能精准地挖掘出事件发生的异常时间点和地理位置,并适当推荐给用户相关热点话题。
附图说明
图1为实施例中基于微博的事件实时监测方法的流程示意图;
图2为实施例中进行地理位置定位的流程示意图;
图3为实施例中实现事件实时监测的系统架构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本实施例给出了一种基于微博的事件实时监测方法,主要包括异常事件检测步骤、地理位置定位步骤、相关事件推荐步骤和事件相关度分析步骤,其中异常事件检测步骤和地理位置定位步骤为本实施例的核心技术要点,而相关事件推荐步骤和事件相关度分析步骤可根据实际,实施其中之一的步骤或同时实施两个步骤均。
一、异常事件检测步骤
该步骤主要完成的功能为:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件。
具体地,异常事件检测步骤又由以下子步骤实现:
步骤A1,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev;
步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:
| C i - mean | meandev > τ , 且Ci>Ci-1
式中,i>1,且i小于该组数据的数组长度,τ为事先设定的阈值;
步骤A3,若Ci满足该条件,则基于点Ci存在一个波峰区间,否则基于点Ci不存在波峰区间,需更新平均值和方差,并重复步骤A2;当基于点Ci存在一个波峰区间时,该波峰区间的起点索引start为i-1,终点索引end需要先使用贪心算法得到伪终点索引,然后再通过对该伪终点索引进行修正而得到真正的终点索引,索引对(start,end)就表示基于点Ci的波峰区间。
步骤A4,将存在波峰区间的点Ci作为异常事件。
波峰识别(Peak-Finding)方法可以高效准确地挖掘事件的异常时间点,其在实时性要求较高的系统中一般采用移动均值(Moving average),移动方差(Moving Variance)和滑动窗口机制来实现。具体算法如下所示的函数find_peak_windows。
function find_peak_windows(C):
windows=[]
mean=C1
meandev=variance(C1,…,Cp)
for i=2;i<len(C);i++do
if | C i - mean | meandev > &tau;and C i > C i - 1 then
start=i-1
while i<len(C)and Ci>Ci-1do
(mean,meandev)=update(mean,meandev,Ci)
i++
end while
while i<len(C)and Ci>Cstart do
if | C i - mean | meandev > &tau;and C i > C i - 1 then
end=--i
break
else
(mean,meandev)=update(mean,meandev,Ci)
end=i++
end if
end while
windows.append(start,end)
else
(mean,meandev)=update(mean,meandev,Ci)
end if
end for
return windows
function update(oldmean,oldmeandev,updatevalue):
diff=|oldmean-updatevalue|
new meandev=α*diff+(1-α)*oldmeandev
new mean=α*updatevalue+(1-α)*oldmean
return(new mean,newmeandev)
其中,数组C代表窗口传递的微博数据值(大小为p),变量windows存储波峰区间并作为函数的返回值,τ,α为函数参数。
波峰识别算法能够高效准确地识别出波峰区间,而且基于滑动窗口的实现机制能够使其很容易地嵌入到数据流处理过程中,为本实施例实现实时监测提供了保证。
二、地理位置定位步骤
该步骤主要完成的功能包括:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。参考图2所示的实现流程,具体包括以下的子步骤:
步骤B1,抽取每一条与异常事件相关的微博文本内容中的地理位置实体,并对抽取出的地理位置实体进行分析,获得事件发生的地理位置集合;
步骤B2,采用聚类的方式从事件发生的地理位置集合中筛选出群体性地理位置实体;
步骤B3,将筛选出的群体性地理位置实体转变为便于展示的信息格式。
其中,所述步骤B1具体包括:
步骤B11,选取一条与异常事件相关的微博文本内容进行中文分词,并抽取其中所有的地理位置实体geo[],同时记录事件的关键词与抽取的地理位置实体在微博文本中的位置索引,分别为keyIndex[]和geoIndex[]。若数组keyIndex或geoIndex所含元素个数为0,则舍弃该候选微博文本。
步骤B12,根据步骤B11记录的位置索引,计算抽取到的地理位置实体与事件关键词之间的距离length[],距离公式如下:
(keyIndex[i]-geoIndex[j])2
若抽取到的地理位置实体与事件关键词之间存在标点符号,则增大该地理位置实体与事件关键词之间的距离。保存与事件关键词最近的地理实体位置的距离geoDistance[]。可知,根据步骤B12进行算法设计,设计的算法如下所示:
For(i<geo[].size())
For(j<KeyIndex[].size())
Length=MAX;
If(事件关键词和该地理位置实体间不存在标点符号)
temp=(f=geoIndex[i]-keyIndex[j])2
else
temp=α*(geoIndex[i]-keyIndex[j])2,α=1.01
If(letgth>temp)length=temp;
geoDistance.add(length);
步骤B13,对步骤B11抽取到的每个地理位置实体geo[]附加权重weight=geoDistance[i],即权重取值为事件关键词与该地理实体位置之间的距离。
步骤B14,根据实际的地理位置级别关系,整理步骤B11抽取出的地理位置实体,只保留最细粒度的地理位置实体(如四川和汶川,只保留汶川),且不改变步骤B13为其附加的权重。本实施例中根据自定义的地理实体词典来示意实际的地理位置级别关系,该词典包含了中国所有县级以上的地理位置实体名,词典每行的字段:地理位置实体名、行政级别0-3、唯一id、经纬度信息,均如表1所示。行政级别0代表国家级,1代表省级,2代表市区级,3代表县级。唯一id字段是人工生成的数字,该数字中含有根据实际的地理位置关系产生的前缀信息,该前缀信息包含那些行政级别小于自身的地理位置实体的信息。根据该唯一id的前缀信息能够高效的实现保留最细粒度地理位置实体的功能。
表1自定义地理位置词典部分示例
步骤B15,从保留的最细粒度的地理位置实体中,选取事件发生的地理位置。
步骤B16,对每一条与异常事件相关的微博文本内容,重复步骤B11到步骤B15,获得事件发生的地理位置集合geoList[]。
另外,对于所述步骤B2具体包括:
步骤B21,设置频度阈值,过滤事件发生的地理位置集合中小于频度阈值的地理位置实体,其程序实现过程如下:
Set threshold;
统计geoList[]中各地理位置实体名出现的频度count;
If(count<threshold)舍弃该地理位置实体;
Else
geoPreClu.add(该地理位置实体,count个);
步骤B22,获取经过滤后剩下的地理位置实体的经纬度信息:根据自定义的地理实体词典,获取上一步骤中geoPreClu[]中各个地理位置实体对应的经纬度信息latlongInfo[];若词典中不含某一地理位置实体,则通过百度地图GeoCoding API接口获得其经纬度信息。
步骤B23,根据地理位置实体间的经纬度信息latlongInfo[],两两计算地理位置实体之间的空间距离,再利用层次聚类的单链接算法对经步骤B21过滤后的地理位置实体geoPreClu[]聚类,根据不同聚类簇的大小提取出概率大的N组聚类簇geoPreClu[],其即是基于全部候选微博文本内容,对事件进行地理位置定位的结果,为群体性地理位置。
本实施例的地理位置定位技术基于与事件相关的微博文本内容,能够精准地定位出事件发生的地理位置,为实现事件监测技术提供了强而有力的手段。
三、相关事件推荐步骤
该步骤主要包括:构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户。具体地,主要由两个子步骤完成。
步骤C1,构造热点事件数据库。为确保事件平台的一致性,该数据库主要收集微博平台上的热点事件,具体实现为调用Sina微博开放平台所提供的热点事件API接口(https://api.weibo.com/2/trends/hourly.json),该API接口会返回最近一个小时的热点话题。
步骤C2,基于事件关键词推荐热点事件。对数据库中的热点事件进行打分,其中打分函数F如下,
F(事件关键词,热点事件)=δ*S+(1-δ)*b,
其中δ为参数,S是采用Levenshtein距离(编辑距离)得到的事件关键词和热点事件的相似度,b是0或1,若热点事件中包含事件关键词则为1,否则为0。根据打分函数得到的评分,选取前N个热点事件作为推荐事件,具体的函数实现过程如下:
For i=1to N//遍历数据库中每一个事件,W为事件关键词,E为热点事件
Compute Si=Levenshtein(W,Ei);//计算关键词和热点事件的相关度
If(Ei.contains(W))b=1;//热点事件是否包含关键词
Else b=0;
Compute Score=δ*Si+(1-δ)*b;//计算事件分数
return top-N events;
本实施例的相关事件推荐技术在事件平台一致的基础上向用户推荐感兴趣的热点话事件,帮助用户修正事件关键词或发现感兴趣的事件。
四、事件相关度分析步骤
该步骤的主要功能包括:分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。其技术要点主要通过4个子步骤来实现,分别是预处理、计算相关性、数据筛选、排序。
步骤1,预处理:接收爬取网页得到的微博文本信息,删除微博内容中的网址,无意义字符串(例如由于某些原因产生的html代码),特殊符号等。
步骤2,计算相关性:实现此过程可以采用VSM、字符串匹配算法、编辑距离和SimHash算法等。但为了兼顾结果的精确性和时效性,同时选取了统计中文字符来计算夹角余弦的方式获得相关度。
步骤3,筛选:根据相应的规则进行筛选合适的微博文本数据,譬如筛掉相关性小于0.2的或者文本长度小于8个字符的微博。
步骤4,排序:综合考虑了相关度以及微博的转发量,基于此设计了一个“标准化比较量”L,
L = &beta; * count Maxcount + ( 1 - &beta; ) * sim Maxsim
其中count是该条微博的转发数,Maxcount是检索结果中微博最大转发数;sim是该条微博与检索词的相关度,Maxsim是计算结果中最大的相关度。根据该标准化比较量L来排序筛选得到的微博并返回结果。
本实施例采用事件相关度分析技术,过滤了爬取网页得到的微博文本内容,进而优化了事件监测运行的数据集。
上述四个步骤的具体实施方案可在如图3所示的系统中得以实现,此系统以J2EE标准实现,数据集采用Sina微博数据,在其逻辑层设计了7个模块,其中异常事件检测模块、事件相关度分析模块、地理位置定位模块和相关事件推荐模块,分别实现了上述实施例对应的异常事件检测步骤、事件相关度分析步骤、地理位置定位步骤和相关事件推荐步骤。
异常事件检测模块,其用于输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件。
地理位置定位模块,其用于在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
相关事件推荐模块,其用于构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户;
事件相关度分析模块,其用于分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
这四个模块的具体的实施过程与对应的步骤相同,不再多述。
本实施例所述的监测方法及监测系统精准地挖掘出了事件发生异常的时间点和地理位置,并适当地提供给用户一些推荐话题。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于微博的事件实时监测方法,其特征在于,包括:
异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;
地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
2.根据权利要求1所述的事件实时监测方法,其特征在于,所述异常事件检测步骤具体包括:
步骤A1,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev;
步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:
| C i - mean | meandev > &tau; , 且Ci>Ci-1
式中,i>1,且i小于该组数据的数组长度,τ为事先设定的阈值;
步骤A3,若Ci满足该条件,则基于点Ci存在一个波峰区间,否则基于点Ci不存在波峰区间,需更新平均值和方差,并重复步骤A2;
步骤A4,将存在波峰区间的点Ci作为异常事件。
3.根据权利要求2所述的事件实时监测方法,其特征在于,所述步骤A3中,当基于点Ci存在一个波峰区间时,该波峰区间的起点索引为i-1,终点索引需要先使用贪心算法得到伪终点索引,然后再通过对该伪终点索引进行修正而得到真正的终点索引。
4.根据权利要求1所述的事件实时监测方法,其特征在于,所述地理位置定位步骤具体包括:
步骤B1,抽取每一条与异常事件相关的微博文本内容中的地理位置实体,并对抽取出的地理位置实体进行分析,获得事件发生的地理位置集合;
步骤B2,采用聚类的方式从事件发生的地理位置集合中筛选出群体性地理位置实体;
步骤B3,将筛选出的群体性地理位置实体转变为便于展示的信息格式。
5.根据权利要求4所述的事件实时监测方法,其特征在于,所述步骤B1具体包括:
步骤B11,选取一条与异常事件相关的微博文本内容进行中文分词,并抽取其中所有的地理位置实体,同时记录事件的关键词与抽取的地理位置实体在微博文本中的位置索引;
步骤B12,根据步骤B11记录的位置索引,计算抽取到的地理位置实体与事件关键词之间的距离,保存与事件关键词最近的地理实体位置的距离;
步骤B13,对步骤B11抽取到的每个地理位置实体附加权重,权重取值为事件关键词与该地理实体位置之间的距离;
步骤B14,根据实际的地理位置级别关系,整理步骤B11抽取出的地理位置实体,只保留最细粒度的地理位置实体,且不改变步骤B13为其附加的权重;
步骤B15,从保留的最细粒度的地理位置实体中,选取事件发生的地理位置;
步骤B16,对每一条与异常事件相关的微博文本内容,重复步骤B11到步骤B15,获得事件发生的地理位置集合。
6.根据权利要求5所述的事件实时监测方法,其特征在于,对于步骤B12,若抽取到的地理位置实体与事件关键词之间存在标点符号,则增大该地理位置实体与事件关键词之间的距离。
7.根据权利要求4所述的事件实时监测方法,其特征在于,所述步骤B2具体包括:
步骤B21,设置频度阈值,过滤事件发生的地理位置集合中小于频度阈值的地理位置实体;
步骤B22,获取经过滤后剩下的地理位置实体的经纬度信息;
步骤B23,根据地理位置实体间的经纬度信息,两两计算地理位置实体之间的空间距离,再利用层次聚类的单链接算法对经步骤B21过滤后的地理位置实体聚类,提取出概率大的聚类簇作为群体性地理位置。
8.根据权利要求1至7中任一所述的事件实时监测方法,其特征在于,还包括相关事件推荐步骤和/或事件相关度分析步骤:
相关事件推荐步骤:构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户;
事件相关度分析步骤:分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
9.一种基于微博的事件实时监测系统,其特征在于,包括:
异常事件检测模块,其用于输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;
地理位置定位模块,其用于在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
10.根据权利要求9所述的事件实时监测系统,其特征在于,还包括相关事件推荐模块和/或事件相关度分析模块:
相关事件推荐模块,用于构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户;
事件相关度分析模块,用于分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
CN201410168703.5A 2014-04-24 2014-04-24 一种基于微博的事件实时监测方法及系统 Active CN103955505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410168703.5A CN103955505B (zh) 2014-04-24 2014-04-24 一种基于微博的事件实时监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410168703.5A CN103955505B (zh) 2014-04-24 2014-04-24 一种基于微博的事件实时监测方法及系统

Publications (2)

Publication Number Publication Date
CN103955505A true CN103955505A (zh) 2014-07-30
CN103955505B CN103955505B (zh) 2017-09-26

Family

ID=51332780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410168703.5A Active CN103955505B (zh) 2014-04-24 2014-04-24 一种基于微博的事件实时监测方法及系统

Country Status (1)

Country Link
CN (1) CN103955505B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268378A (zh) * 2014-09-12 2015-01-07 北京邮电大学 一种基于移动用户大数据的异常行为可视化监控方法
CN104281646A (zh) * 2014-08-28 2015-01-14 浙江大学 基于微博数据的城市内涝检测方法
CN104331483A (zh) * 2014-11-05 2015-02-04 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN104615627A (zh) * 2014-09-23 2015-05-13 中国科学院计算技术研究所 一种基于微博平台的事件舆情信息提取方法及系统
CN104679942A (zh) * 2015-01-29 2015-06-03 华南理工大学 一种基于数据挖掘的建设用地承载效率测度方法
CN104679825A (zh) * 2015-01-06 2015-06-03 中国农业大学 基于网络文本的地震宏观异常信息获取与筛选方法
CN105630884A (zh) * 2015-12-18 2016-06-01 中国科学院信息工程研究所 一种微博热点事件的地理位置发现方法
CN105808722A (zh) * 2016-03-08 2016-07-27 苏州大学 一种信息判别方法和系统
CN106055658A (zh) * 2016-06-02 2016-10-26 中国人民解放军国防科学技术大学 一种针对Twitter文本事件抽取的方法
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107943905A (zh) * 2017-11-17 2018-04-20 北京锐安科技有限公司 一种热点话题分析方法及系统
CN108345662A (zh) * 2018-02-01 2018-07-31 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN109543876A (zh) * 2018-10-17 2019-03-29 天津大学 一种城市问题的可视化分析方法
CN111310072A (zh) * 2020-01-17 2020-06-19 腾讯科技(深圳)有限公司 关键词提取方法、装置和计算机可读存储介质
CN111414496A (zh) * 2020-03-27 2020-07-14 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN111813922A (zh) * 2020-09-10 2020-10-23 中国科学院地理科学与资源研究所 一种基于微博文本数据的高温事件检测方法及系统
CN113168407A (zh) * 2018-12-19 2021-07-23 维萨国际服务协会 将事件标识为数据质量异常的根本原因的系统和方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110080A (zh) * 2007-08-21 2008-01-23 北京大学 一种网络地图服务中未登录地名的定位方法
CN101243425A (zh) * 2005-08-10 2008-08-13 微软公司 概率回顾性事件检测
WO2008109776A2 (en) * 2007-03-06 2008-09-12 Nitrosecurity, Inc. Databases and database indexes
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN102880697A (zh) * 2012-09-21 2013-01-16 香港中文大学深圳研究院 人地关系网络模型及数据处理方法
CN103020284A (zh) * 2012-12-28 2013-04-03 刘建勋 一种基于时空聚类的出租车载客点推荐方法
US20130173632A1 (en) * 2009-06-25 2013-07-04 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
CN103455705A (zh) * 2013-05-24 2013-12-18 中国科学院自动化研究所 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
WO2014005657A1 (en) * 2012-07-04 2014-01-09 Qatar Foundation A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101243425A (zh) * 2005-08-10 2008-08-13 微软公司 概率回顾性事件检测
WO2008109776A2 (en) * 2007-03-06 2008-09-12 Nitrosecurity, Inc. Databases and database indexes
CN101110080A (zh) * 2007-08-21 2008-01-23 北京大学 一种网络地图服务中未登录地名的定位方法
US20130173632A1 (en) * 2009-06-25 2013-07-04 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
WO2014005657A1 (en) * 2012-07-04 2014-01-09 Qatar Foundation A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
CN102880697A (zh) * 2012-09-21 2013-01-16 香港中文大学深圳研究院 人地关系网络模型及数据处理方法
CN103020284A (zh) * 2012-12-28 2013-04-03 刘建勋 一种基于时空聚类的出租车载客点推荐方法
CN103455705A (zh) * 2013-05-24 2013-12-18 中国科学院自动化研究所 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AANTOS A等: "location-based events detection on microblogs", 《谷歌学术》 *
DENNIS T等: "spationtemporal anomaly detection through visual analysis of geolocated twitter messages", 《IEEE》 *
MARCUS A等: "AggregatingandVisualizingMicroblogsforEventExploration", 《ACM》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281646A (zh) * 2014-08-28 2015-01-14 浙江大学 基于微博数据的城市内涝检测方法
CN104281646B (zh) * 2014-08-28 2018-04-17 浙江大学 基于微博数据的城市内涝检测方法
CN104268378A (zh) * 2014-09-12 2015-01-07 北京邮电大学 一种基于移动用户大数据的异常行为可视化监控方法
CN104268378B (zh) * 2014-09-12 2017-02-15 北京邮电大学 一种基于移动用户大数据的异常行为可视化监控方法
CN104615627A (zh) * 2014-09-23 2015-05-13 中国科学院计算技术研究所 一种基于微博平台的事件舆情信息提取方法及系统
CN104615627B (zh) * 2014-09-23 2018-03-30 中国科学院计算技术研究所 一种基于微博平台的事件舆情信息提取方法及系统
CN104331483B (zh) * 2014-11-05 2017-12-01 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN104331483A (zh) * 2014-11-05 2015-02-04 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN104679825A (zh) * 2015-01-06 2015-06-03 中国农业大学 基于网络文本的地震宏观异常信息获取与筛选方法
CN104679825B (zh) * 2015-01-06 2018-10-09 中国农业大学 基于网络文本的地震宏观异常信息获取与筛选方法
CN104679942A (zh) * 2015-01-29 2015-06-03 华南理工大学 一种基于数据挖掘的建设用地承载效率测度方法
CN104615717B (zh) * 2015-02-05 2018-03-09 北京航空航天大学 社交网络突发事件的多维度评估方法
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN105630884A (zh) * 2015-12-18 2016-06-01 中国科学院信息工程研究所 一种微博热点事件的地理位置发现方法
CN105630884B (zh) * 2015-12-18 2019-03-08 中国科学院信息工程研究所 一种微博热点事件的地理位置发现方法
CN105808722A (zh) * 2016-03-08 2016-07-27 苏州大学 一种信息判别方法和系统
CN105808722B (zh) * 2016-03-08 2020-07-24 苏州大学 一种信息判别方法和系统
CN106055658A (zh) * 2016-06-02 2016-10-26 中国人民解放军国防科学技术大学 一种针对Twitter文本事件抽取的方法
CN106202487B (zh) * 2016-07-19 2019-06-21 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107451249B (zh) * 2017-07-28 2020-01-21 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN107943905A (zh) * 2017-11-17 2018-04-20 北京锐安科技有限公司 一种热点话题分析方法及系统
CN108345662A (zh) * 2018-02-01 2018-07-31 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN108345662B (zh) * 2018-02-01 2022-08-12 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN109543876A (zh) * 2018-10-17 2019-03-29 天津大学 一种城市问题的可视化分析方法
CN113168407A (zh) * 2018-12-19 2021-07-23 维萨国际服务协会 将事件标识为数据质量异常的根本原因的系统和方法
CN111310072A (zh) * 2020-01-17 2020-06-19 腾讯科技(深圳)有限公司 关键词提取方法、装置和计算机可读存储介质
CN111414496A (zh) * 2020-03-27 2020-07-14 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN111414496B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN111813922A (zh) * 2020-09-10 2020-10-23 中国科学院地理科学与资源研究所 一种基于微博文本数据的高温事件检测方法及系统

Also Published As

Publication number Publication date
CN103955505B (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN103955505A (zh) 一种基于微博的事件实时监测方法及系统
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
Laylavi et al. Event relatedness assessment of Twitter messages for emergency response
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
US10108725B2 (en) Real-time and adaptive data mining
US9229977B2 (en) Real-time and adaptive data mining
Gao et al. A comparative study of users’ microblogging behavior on Sina Weibo and Twitter
CN107589855B (zh) 一种根据地理位置推荐候选词的方法和装置
Ghahremanlou et al. Geotagging twitter messages in crisis management
CN102831248A (zh) 网络热点挖掘方法及装置
CN103455705A (zh) 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN102779174A (zh) 一种舆情信息展示系统及方法
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
CN105378730A (zh) 社交媒体分析与输出
Bouillot et al. How and why exploit tweet’s location information
CN104123318A (zh) 一种地图显示兴趣点的方法及系统
US20120117034A1 (en) Context-aware apparatus and method
CN102646124A (zh) 一种自动识别地址信息的方法
US10108723B2 (en) Real-time and adaptive data mining
CN109597926A (zh) 一种基于社交媒体突发事件的信息获取方法及系统
JP2011227746A (ja) コンシェルジュ装置およびコンシェルジュサービスの提供方法
US10120911B2 (en) Real-time and adaptive data mining
Xu et al. Crowd sensing of urban emergency events based on social media big data
US10198516B2 (en) Real-time and adaptive data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant