CN104778202A - 基于关键词的事件演化过程的分析方法及系统 - Google Patents

基于关键词的事件演化过程的分析方法及系统 Download PDF

Info

Publication number
CN104778202A
CN104778202A CN201510062379.3A CN201510062379A CN104778202A CN 104778202 A CN104778202 A CN 104778202A CN 201510062379 A CN201510062379 A CN 201510062379A CN 104778202 A CN104778202 A CN 104778202A
Authority
CN
China
Prior art keywords
spike
window
search results
time period
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510062379.3A
Other languages
English (en)
Other versions
CN104778202B (zh
Inventor
张日崇
卢忠宇
于伟仁
胡春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510062379.3A priority Critical patent/CN104778202B/zh
Publication of CN104778202A publication Critical patent/CN104778202A/zh
Application granted granted Critical
Publication of CN104778202B publication Critical patent/CN104778202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于关键词的事件演化过程的分析方法及系统。该方法包括:统计各时间段内的搜索结果数量,获得搜索结果数量随时间段变化的序列;对所述序列进行尖峰检测获得至少一个尖峰窗口;对尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;显示搜索结果数量随时间段变化的序列,并在尖峰的位置显示尖峰描述。本发明实施例通过统计搜索结果数量随时间段变化的序列,显示搜索结果数量随时间段变化的序列以及尖峰描述,展现出微博信息数量随时间变化的趋势,微博信息数量随时间变化的趋势能够展现出与关键词相关的事件的演化过程,依据尖峰描述用户不必详细阅读微博内容便可获知微博信息的主要内容,提高了搜索结果显示的信息量。

Description

基于关键词的事件演化过程的分析方法及系统
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于关键词的事件演化过程的分析方法及系统。
背景技术
随着计算机技术的发展,微博软件作为信息获取的一个重要来源已经成为广泛应用的社交类软件。
现有技术中,微博软件通过用户输入的关键字进行匹配搜索,并将搜索出的与该关键字密切相关的微博信息显示在用户终端。
由于微博信息具有时间属性,但现有的微博信息显示结果无法展现微博信息随时间变化的趋势,导致搜索结果显示的信息量较低,并且无法展现与关键词相关的事件的演化过程。
发明内容
本发明实施例提供一种基于关键词的事件演化过程的分析方法及系统,以提高搜索结果显示的信息量,并展现与关键词相关的事件的演化过程。
本发明实施例的一个方面是提供一种基于关键词的事件演化过程的分析方法,包括:
统计各时间段内的搜索结果数量,获得所述搜索结果数量随所述时间段变化的序列;
对所述序列进行尖峰检测获得至少一个尖峰窗口,每个所述尖峰窗口包括一个子序列,所述子序列包括一个尖峰,所述尖峰是所述搜索结果数量在所述序列中的局部最大值;
对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;
显示所述搜索结果数量随所述时间段变化的序列,并在所述尖峰的位置显示所述尖峰描述。
本发明实施例的另一个方面是提供一种基于关键词的事件演化过程的分析系统,包括:
统计模块,用于统计各时间段内的搜索结果数量,获得所述搜索结果数量随所述时间段变化的序列;
检测模块,用于对所述序列进行尖峰检测获得至少一个尖峰窗口,每个所述尖峰窗口包括一个子序列,所述子序列包括一个尖峰,所述尖峰是所述搜索结果数量在所述序列中的局部最大值;
文本分析模块,用于对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;
显示模块,用于显示所述搜索结果数量随所述时间段变化的序列,并在所述尖峰的位置显示所述尖峰描述。
本发明实施例提供的基于关键词的事件演化过程的分析方法及系统,通过统计搜索结果数量随时间段变化的序列,依据尖峰检测获取该序列的局部最大值,分析该局部最大值出现的原因获得尖峰描述,显示搜索结果数量随时间段变化的序列,并在尖峰位置显示尖峰描述,实现了微博信息显示结果能够展现微博信息数量随时间变化的趋势,微博信息数量随时间变化的趋势能够展现出与关键词相关的事件的演化过程,依据尖峰描述用户不必详细阅读微博内容便可获知微博信息的主要内容,提高了搜索结果显示的信息量。
附图说明
图1为本发明实施例提供的基于关键词的事件演化过程的分析方法流程图;
图2为本发明另一实施例提供的尖峰窗口的示意图;
图3为本发明另一实施例提供的尖峰窗口的示意图;
图4为本发明另一实施例提供的显示搜索结果的示意图;
图5为本发明实施例提供的基于关键词的事件演化过程的分析系统的结构图;
图6为本发明另一实施例提供的基于关键词的事件演化过程的分析系统的结构图。
具体实施方式
图1为本发明实施例提供的基于关键词的事件演化过程的分析方法流程图。本发明实施例针对利用关键词搜索到的微博信息,统计微博数量,并提供了基于关键词的事件演化过程的分析方法,该方法具体步骤如下:
步骤S101、统计各时间段内的搜索结果数量,获得所述搜索结果数量随所述时间段变化的序列;
所述统计各时间段内的搜索结果数量之前还包括:
依据关键词搜索并获得与所述关键词相关的搜索结果,所述搜索结果包括时间信息;
所述统计各时间段内的搜索结果数量包括:
依据所述时间信息分别统计所述各时间段内的搜索结果数量。
通过用户输入的关键词,搜索获得与该关键词相关的微博信息,具体为包含该关键词的微博信息,微博信息具体包括微博内容和发布时间,以预定的时间段统计发布时间在该时间段内的微博信息的数量,以时间段是1天为例,统计某一天内发布的、包含该关键词的微博信息的数量,分别统计多个时间段中每个时间段内的微博信息的数量,且时间段与微博信息的数量一一对应,多个时间段与多个微博信息的数量构成微博信息的数量随时间段变化的序列。多个时间段之间互不重叠。
步骤S102、对所述序列进行尖峰检测获得至少一个尖峰窗口,每个所述尖峰窗口包括一个子序列,所述子序列包括一个尖峰,所述尖峰是所述搜索结果数量在所述序列中的局部最大值;
对于上述步骤获得的多个时间段与多个微博信息的数量构成微博信息的数量随时间段变化的序列进行尖峰检测,检测微博信息的数量在该序列中的局部最大值,该局部最大值代表尖峰,该序列的局部最大值至少包括一个,即一个序列至少包括一个尖峰。通过尖峰检测获取该序列的所有尖峰,尖峰的获取具体通过尖峰窗口获得,尖峰窗口是包括尖峰在内的一个子序列。
步骤S103、对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;
对尖峰窗口内的所有微博信息进行文本分析,获取文本中的分词,将文本中出现频率较高的分词作为尖峰描述,解释尖峰出现的原因。
步骤S104、显示所述搜索结果数量随所述时间段变化的序列,并在所述尖峰的位置显示所述尖峰描述。
将微博信息的数量随时间段变化的序列显示出来,并在尖峰的位置显示尖峰描述,使用户一目了然与输入的关键词相关的微博信息的数量变化,与关键词相关的事态的发展趋势,以及公众对该事态的关注度。
本发明实施例通过统计搜索结果数量随时间段变化的序列,依据尖峰检测获取该序列的局部最大值,分析该局部最大值出现的原因获得尖峰描述,显示搜索结果数量随时间段变化的序列,并在尖峰位置显示尖峰描述,实现了微博信息显示结果能够展现微博信息数量随时间变化的趋势,微博信息数量随时间变化的趋势能够展现出与关键词相关的事件的演化过程,依据尖峰描述用户不必详细阅读微博内容便可获知微博信息的主要内容,提高了搜索结果显示的信息量。
图2为本发明另一实施例提供的尖峰窗口的示意图;图3为本发明另一实施例提供的尖峰窗口的示意图。在上述实施例的基础上,所述尖峰窗口包括窗口起始的时间段标识、尖峰的时间段标识和窗口结束的时间段标识;
所述依据所述各时间段以及所述各时间段内的搜索结果数量进行尖峰检测获得尖峰窗口包括:
初始化参数mean=C1,C1表示第1个时间段内的搜索结果数量;
则更新所述初始化参数其中,Ci表示第i个时间段内的搜索结果数量,n表示所述时间段的总个数;
则确定所述窗口起始的时间段标识为i,若则j=j+1,继续判断是否成立,直至时确定所述窗口结束的时间段标识为j,计算Ck,i≤k≤j,使得均成立,则k表示所述尖峰的时间段标识;
所述尖峰窗口为window(i,k,j);
更新所述初始化参数依据获取window(i,k,j)的方法继续获取所述序列的所述尖峰窗口。
如图2所示,横坐标X轴表示时间段标识,例如1表示第1个时间段,纵坐标Y轴表示搜索结果数量,如C1表示第1个时间段内的搜索结果数量,搜索结果数量具体为微博信息的数量,初始化参数mean=C1,Ci表示第i个时间段内的搜索结果数量,若则更新所述初始化参数 mean = 1 i Σ x = 1 i C x , 例如, C 2 mean ≤ 2 , mean = 1 2 Σ x = 1 2 C x , C i mean > 2,2 ≤ i ≤ n , 则确定所述窗口起始的时间段标识为i,例如,则第3个时间段即尖峰窗口的窗口起始,窗口起始的时间段标识为3,继续判断C4,若则继续判断C5,若则继续判断C6,若则第6个时间段即尖峰窗口的窗口结束,窗口结束的时间段标识为6,计算出C3、C4、C5、C6中的最大值C4,即C4是该序列的局部最大值,4表示所述尖峰的时间段标识。用window(i,k,j)表示尖峰窗口,则图2所示的尖峰窗口具体为window(3,4,6),确定出一个尖峰窗口后更新初始化参数继续判断C7,i=6+1,从i开始依据获取window(3,4,6)的方法继续获取该序列后续的尖峰窗口。
如图2所示,若C4明显较大时,则初始化参数对应增大,导致该序列后续的尖峰窗口不易被检出。为了解决该问题,本发明实施例还包括:将所述搜索结果数量随所述时间段变化的序列逆序排列获得逆序序列;
依据获取window(i,k,j)的方法获取所述逆序序列的所述尖峰窗口;
将所述序列的所述尖峰窗口和所述逆序序列的所述尖峰窗口合并为尖峰窗口集合,重复的所述尖峰窗口记录一次。
对图2中的序列逆序排列获得逆序序列,依据获取window(3,4,6)的方法获取逆序序列的尖峰窗口,具体可以沿着X轴的逆向检测尖峰窗口,具体的检测方法与上述步骤相同,检测出的第一个尖峰窗口为window(8,10,12),由于window(8,10,12)中没有明显较大的值,则初始化参数不会明显增大,还可检测出第二个检测出window(3,4,6)。
对于图2中的序列沿着X轴正向检测获得window(3,4,6),沿着X轴逆向检测获得window(8,10,12)和window(3,4,6),将两个方向检测出的尖峰窗口合并为尖峰窗口集合{window(3,4,6),window(8,10,12)},其中,重复的尖峰窗口window(3,4,6)记录一次,如图3所示,该尖峰窗口集合作为序列最终的尖峰窗口。
本发明实施例提供了获取尖峰窗口的具体方法,并通过正向和逆向检测序列的尖峰窗口,大大提高了序列中尖峰被检测出来的概率,提高了计算精度。
图4为本发明另一实施例提供的显示搜索结果的示意图。在上述实施例的基础上,所述对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述包括:
获取所述尖峰窗口对应的搜索结果,利用分词工具获得所述搜索结果对应的分词;计算各分词的词频逆向文件频率(Term Frequency InverseDocument Frequency,简称TFIDF)值;若所述TFIDF值大于阈值,将所述TFIDF值对应的分词作为所述尖峰描述。
对尖峰窗口内的所有微博信息进行文本分析,利用分词工具获得文本中的分词,并计算各分词的TFIDF值,第h个分词的TFIDF值的定义如下公式(1)(2)(3):
TFIDFh=TFh*IDFh   (1)
TFh=Nh,tmNm,t   (2)
IDFh=1/DFh   (3)
其中,Nh,t表示第h个分词在第t个尖峰窗口中出现的次数,ΣmNm,t表示第t个尖峰窗口对应的微博信息中出现的分词总数,DFh表示包含第h个分词的微博信息的条数。
将大于阈值的TFIDF值对应的分词作为尖峰描述,具体将TFIDF值按从大到小的顺序排序,排序前5个TFIDF值分别对应的分词作为尖峰描述,即尖峰描述包括5个分词,该5个分词是微博信息中出现频率最高的5个分词,并能够概括事件的主要内容。
所述显示所述搜索结果数量随所述时间段变化的序列包括:将所述搜索结果数量随所述时间段变化的序列连接成曲线,显示所述曲线。
以马航事故为例,如图4所示,横轴代表时间,纵轴代表原创微博数量,原创微博中包括很多条对马航事故的报道,以1天为统计原创微博数量的时间段,具体从2014年3月1日起到2014年7月31日每隔一天或两天统计一次当天(全天24小时)关于马航事故的原创微博数量,并获得原创微博数量随时间段变化的序列,并将该序列连接成曲线,同时依据上述实施例的方法获得该序列的所有尖峰窗口,以及每个尖峰窗口对应的尖峰描述,并将尖峰描述显示在尖峰位置处,如图4所示,该序列包括两个尖峰,第一个尖峰描述为马航、MH370、失联、飞机、祈福,第二个尖峰描述为马航、MH17、乌克兰、击落、坠毁。
本发明实施例通过输入关键词,获得包含该关键词的原创微博数量随时间变化的连续曲线图,连续曲线图能够展现出与关键词相关的事件的演化过程,并在连续曲线的尖峰处显示能够概括微博内容的尖峰描述,提高了搜索结果显示的信息量。
图5为本发明实施例提供的基于关键词的事件演化过程的分析系统的结构图。本发明实施例提供的基于关键词的事件演化过程的分析系统可以执行基于关键词的事件演化过程的分析方法实施例提供的处理流程,如图5所示,基于关键词的事件演化过程的分析系统50包括统计模块51、检测模块52、文本分析模块53和显示模块54,其中,统计模块51用于统计各时间段内的搜索结果数量,获得所述搜索结果数量随所述时间段变化的序列;检测模块52用于对所述序列进行尖峰检测获得至少一个尖峰窗口,每个所述尖峰窗口包括一个子序列,所述子序列包括一个尖峰,所述尖峰是所述搜索结果数量在所述序列中的局部最大值;文本分析模块53用于对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;显示模块54用于显示所述搜索结果数量随所述时间段变化的序列,并在所述尖峰的位置显示所述尖峰描述。
本发明实施例通过统计搜索结果数量随时间段变化的序列,依据尖峰检测获取该序列的局部最大值,分析该局部最大值出现的原因获得尖峰描述,显示搜索结果数量随时间段变化的序列,并在尖峰位置显示尖峰描述,实现了微博信息显示结果能够展现微博信息数量随时间变化的趋势,微博信息数量随时间变化的趋势能够展现出与关键词相关的事件的演化过程,依据尖峰描述用户不必详细阅读微博内容便可获知微博信息的主要内容,提高了搜索结果显示的信息量。
图6为本发明另一实施例提供的基于关键词的事件演化过程的分析系统的结构图。在图5的基础上,所述尖峰窗口包括窗口起始的时间段标识、尖峰的时间段标识和窗口结束的时间段标识;检测模块52具体用于初始化参数mean=C1,C1表示第1个时间段内的搜索结果数量;若则更新所述初始化参数其中,Ci表示第i个时间段内的搜索结果数量,n表示所述时间段的总个数;若则确定所述窗口起始的时间段标识为i,若则j=j+1,继续判断是否成立,直至时确定所述窗口结束的时间段标识为j,计算Ck,i≤k≤j,使得均成立,则k表示所述尖峰的时间段标识;所述尖峰窗口为window(i,k,j);更新所述初始化参数i=j+1,依据获取window(i,k,j)的方法继续获取所述序列的所述尖峰窗口。
基于关键词的事件演化过程的分析系统50还包括逆序排列模块55,逆序排列模块55用于将所述搜索结果数量随所述时间段变化的序列逆序排列获得逆序序列;检测模块52还用于依据获取window(i,k,j)的方法获取所述逆序序列的所述尖峰窗口;将所述序列的所述尖峰窗口和所述逆序序列的所述尖峰窗口合并为尖峰窗口集合,重复的所述尖峰窗口记录一次。
基于关键词的事件演化过程的分析系统50还包括搜索模块49,搜索模块49用于依据关键词搜索并获得与所述关键词相关的搜索结果,所述搜索结果包括时间信息;统计模块51具体用于依据所述时间信息分别统计所述各时间段内的搜索结果数量。
文本分析模块53具体用于获取所述尖峰窗口对应的搜索结果,利用分词工具获得所述搜索结果对应的分词;计算各分词的词频逆向文件频率TFIDF值;若所述TFIDF值大于阈值,将所述TFIDF值对应的分词作为所述尖峰描述。
显示模块54具体用于将所述搜索结果数量随所述时间段变化的序列连接成曲线,显示所述曲线。
本发明实施例提供的基于关键词的事件演化过程的分析系统可以具体用于执行上述图1所提供的方法实施例,具体功能此处不再赘述。
本发明实施例提供了获取尖峰窗口的具体方法,并通过正向和逆向检测序列的尖峰窗口,大大提高了序列中尖峰被检测出来的概率,提高了计算精度;通过输入关键词,获得包含该关键词的原创微博数量随时间变化的连续曲线图,连续曲线图能够展现出与关键词相关的事件的演化过程,并在连续曲线的尖峰处显示能够概括微博内容的尖峰描述,提高了搜索结果显示的信息量。
综上所述,本发明实施例通过统计搜索结果数量随时间段变化的序列,依据尖峰检测获取该序列的局部最大值,分析该局部最大值出现的原因获得尖峰描述,显示搜索结果数量随时间段变化的序列,并在尖峰位置显示尖峰描述,实现了微博信息显示结果能够展现微博信息数量随时间变化的趋势,微博信息数量随时间变化的趋势能够展现出与关键词相关的事件的演化过程,依据尖峰描述用户不必详细阅读微博内容便可获知微博信息的主要内容,提高了搜索结果显示的信息量;提供了获取尖峰窗口的具体方法,并通过正向和逆向检测序列的尖峰窗口,大大提高了序列中尖峰被检测出来的概率,提高了计算精度;通过输入关键词,获得包含该关键词的原创微博数量随时间变化的连续曲线图,连续曲线图能够展现出与关键词相关的事件的演化过程,并在连续曲线的尖峰处显示能够概括微博内容的尖峰描述,提高了搜索结果显示的信息量。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种基于关键词的事件演化过程的分析方法,其特征在于,包括:
统计各时间段内的搜索结果数量,获得所述搜索结果数量随所述时间段变化的序列;
对所述序列进行尖峰检测获得至少一个尖峰窗口,每个所述尖峰窗口包括一个子序列,所述子序列包括一个尖峰,所述尖峰是所述搜索结果数量在所述序列中的局部最大值;
对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;
显示所述搜索结果数量随所述时间段变化的序列,并在所述尖峰的位置显示所述尖峰描述。
2.根据权利要求1所述的方法,其特征在于,所述尖峰窗口包括窗口起始的时间段标识、尖峰的时间段标识和窗口结束的时间段标识;
所述依据所述各时间段以及所述各时间段内的搜索结果数量进行尖峰检测获得尖峰窗口包括:
初始化参数mean=C1,C1表示第1个时间段内的搜索结果数量;
C i mean ≤ 2,2 ≤ i ≤ n , 则更新所述初始化参数 mean = 1 i Σ x = 1 i C x , 其中,Ci表示第i个时间段内的搜索结果数量,n表示所述时间段的总个数;
则确定所述窗口起始的时间段标识为i,若 C j mean > 1 , j = i + 1 , 则j=j+1,继续判断 C j mean > 1 是否成立,直至 C j mean ≤ 1 时确定所述窗口结束的时间段标识为j,计算Ck,i≤k≤j,使得均成立,则k表示所述尖峰的时间段标识;
所述尖峰窗口为window(i,k,j);
更新所述初始化参数依据获取window(i,k,j)的方法继续获取所述序列的所述尖峰窗口。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述搜索结果数量随所述时间段变化的序列逆序排列获得逆序序列;
依据获取window(i,k,j)的方法获取所述逆序序列的所述尖峰窗口;
将所述序列的所述尖峰窗口和所述逆序序列的所述尖峰窗口合并为尖峰窗口集合,重复的所述尖峰窗口记录一次。
4.根据权利要求1所述的方法,其特征在于,所述统计各时间段内的搜索结果数量之前还包括:
依据关键词搜索并获得与所述关键词相关的搜索结果,所述搜索结果包括时间信息;
所述统计各时间段内的搜索结果数量包括:
依据所述时间信息分别统计所述各时间段内的搜索结果数量。
5.根据权利要求4所述的方法,其特征在于,所述对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述包括:
获取所述尖峰窗口对应的搜索结果,利用分词工具获得所述搜索结果对应的分词;
计算各分词的词频逆向文件频率TFIDF值;
若所述TFIDF值大于阈值,将所述TFIDF值对应的分词作为所述尖峰描述。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述显示所述搜索结果数量随所述时间段变化的序列包括:
将所述搜索结果数量随所述时间段变化的序列连接成曲线,显示所述曲线。
7.一种基于关键词的事件演化过程的分析系统,其特征在于,包括:
统计模块,用于统计各时间段内的搜索结果数量,获得所述搜索结果数量随所述时间段变化的序列;
检测模块,用于对所述序列进行尖峰检测获得至少一个尖峰窗口,每个所述尖峰窗口包括一个子序列,所述子序列包括一个尖峰,所述尖峰是所述搜索结果数量在所述序列中的局部最大值;
文本分析模块,用于对所述尖峰窗口对应的搜索结果进行文本分析,获得尖峰描述;
显示模块,用于显示所述搜索结果数量随所述时间段变化的序列,并在所述尖峰的位置显示所述尖峰描述。
8.根据权利要求7所述的基于关键词的事件演化过程的分析系统,其特征在于,所述尖峰窗口包括窗口起始的时间段标识、尖峰的时间段标识和窗口结束的时间段标识;
所述检测模块具体用于初始化参数mean=C1,C1表示第1个时间段内的搜索结果数量;若 C i mean ≤ 2,2 ≤ i ≤ n , 则更新所述初始化参数 mean = 1 i Σ x = 1 i C x , 其中,Ci表示第i个时间段内的搜索结果数量,n表示所述时间段的总个数;若 C i mean > 2,2 ≤ i ≤ n , 则确定所述窗口起始的时间段标识为i,若 C j mean > 1 , j = i + 1 , 则j=j+1,继续判断是否成立,直至时确定所述窗口结束的时间段标识为j,计算Ck,i≤k≤j,使得均成立,则k表示所述尖峰的时间段标识;所述尖峰窗口为window(i,k,j);更新所述初始化参数依据获取window(i,k,j)的方法继续获取所述序列的所述尖峰窗口。
9.根据权利要求8所述的基于关键词的事件演化过程的分析系统,其特征在于,还包括:
逆序排列模块,用于将所述搜索结果数量随所述时间段变化的序列逆序排列获得逆序序列;
所述检测模块还用于依据获取window(i,k,j)的方法获取所述逆序序列的所述尖峰窗口;将所述序列的所述尖峰窗口和所述逆序序列的所述尖峰窗口合并为尖峰窗口集合,重复的所述尖峰窗口记录一次。
10.根据权利要求7所述的基于关键词的事件演化过程的分析系统,其特征在于,还包括:
搜索模块,用于依据关键词搜索并获得与所述关键词相关的搜索结果,所述搜索结果包括时间信息;
所述统计模块具体用于依据所述时间信息分别统计所述各时间段内的搜索结果数量。
11.根据权利要求10所述的基于关键词的事件演化过程的分析系统,其特征在于,所述文本分析模块具体用于获取所述尖峰窗口对应的搜索结果,利用分词工具获得所述搜索结果对应的分词;计算各分词的词频逆向文件频率TFIDF值;若所述TFIDF值大于阈值,将所述TFIDF值对应的分词作为所述尖峰描述。
12.根据权利要求7-11任一项所述的基于关键词的事件演化过程的分析系统,其特征在于,所述显示模块具体用于将所述搜索结果数量随所述时间段变化的序列连接成曲线,显示所述曲线。
CN201510062379.3A 2015-02-05 2015-02-05 基于关键词的事件演化过程的分析方法及系统 Active CN104778202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510062379.3A CN104778202B (zh) 2015-02-05 2015-02-05 基于关键词的事件演化过程的分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510062379.3A CN104778202B (zh) 2015-02-05 2015-02-05 基于关键词的事件演化过程的分析方法及系统

Publications (2)

Publication Number Publication Date
CN104778202A true CN104778202A (zh) 2015-07-15
CN104778202B CN104778202B (zh) 2018-08-14

Family

ID=53619666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510062379.3A Active CN104778202B (zh) 2015-02-05 2015-02-05 基于关键词的事件演化过程的分析方法及系统

Country Status (1)

Country Link
CN (1) CN104778202B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255860A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 关键词分析处理方法和装置
CN111708938A (zh) * 2020-05-27 2020-09-25 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
CN113553407A (zh) * 2021-06-18 2021-10-26 北京百度网讯科技有限公司 事件追溯方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879107A (zh) * 2003-09-30 2006-12-13 Google公司 基于历史数据的信息检索
CN101364426A (zh) * 2007-08-08 2009-02-11 联发科技股份有限公司 存储器控制电路及其方法
US20130117210A1 (en) * 2011-11-09 2013-05-09 Qualcomm Incorporated Methods and apparatus for unsupervised neural replay, learning refinement, association and memory transfer: neural component replay

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879107A (zh) * 2003-09-30 2006-12-13 Google公司 基于历史数据的信息检索
CN101364426A (zh) * 2007-08-08 2009-02-11 联发科技股份有限公司 存储器控制电路及其方法
US20130117210A1 (en) * 2011-11-09 2013-05-09 Qualcomm Incorporated Methods and apparatus for unsupervised neural replay, learning refinement, association and memory transfer: neural component replay

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
万源: ""基于语义统计分析的网络舆情挖掘技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 *
孙建乐: ""基于时间序列相似性的股价趋势预测研究"", 《万方数据 企业知识服务平台》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255860A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 关键词分析处理方法和装置
CN108255860B (zh) * 2016-12-29 2020-07-31 北京国双科技有限公司 关键词分析处理方法和装置
CN111708938A (zh) * 2020-05-27 2020-09-25 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
CN111708938B (zh) * 2020-05-27 2023-04-07 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
CN113553407A (zh) * 2021-06-18 2021-10-26 北京百度网讯科技有限公司 事件追溯方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104778202B (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN105389307A (zh) 语句意图类别识别方法及装置
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN108416041A (zh) 语音日志分析方法和系统
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN105528416A (zh) 一种网站更新内容的监测方法及系统
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN104778202A (zh) 基于关键词的事件演化过程的分析方法及系统
CN103577547A (zh) 网页类型识别方法及装置
CN104580109A (zh) 生成点选验证码的方法及装置
US20160004976A1 (en) System and methods for abductive learning of quantized stochastic processes
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
US10185915B2 (en) Analysis of evaluations from internet media
CN107688596B (zh) 突发话题检测方法及突发话题检测设备
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法
CN104391981A (zh) 一种文本分类方法和装置
CN105488061A (zh) 一种验证数据有效性的方法及装置
CN113191137A (zh) 一种操作风险获取方法、系统、电子设备及存储介质
CN109885475B (zh) 页面转化率计算方法、装置、计算机设备及存储介质
CN113449062A (zh) 轨迹处理方法、装置、电子设备和存储介质
CN112487175A (zh) 参展人流控制方法、装置、服务器及计算机可读存储介质
CN111966948A (zh) 信息投放方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant