CN110704717B - 基于动力学模型的网络突发事件检测方法及系统 - Google Patents

基于动力学模型的网络突发事件检测方法及系统 Download PDF

Info

Publication number
CN110704717B
CN110704717B CN201910833905.XA CN201910833905A CN110704717B CN 110704717 B CN110704717 B CN 110704717B CN 201910833905 A CN201910833905 A CN 201910833905A CN 110704717 B CN110704717 B CN 110704717B
Authority
CN
China
Prior art keywords
event
structured
events
basic
external force
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910833905.XA
Other languages
English (en)
Other versions
CN110704717A (zh
Inventor
程学旗
史存会
朱运昌
俞晓明
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910833905.XA priority Critical patent/CN110704717B/zh
Publication of CN110704717A publication Critical patent/CN110704717A/zh
Application granted granted Critical
Publication of CN110704717B publication Critical patent/CN110704717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本发明提出一种基于动力学模型的网络突发事件检测方法及系统,包括:对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到多个结构化事件对应的多个基本事件;以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定网络平台中各基本事件是否为广义突发事件。

Description

基于动力学模型的网络突发事件检测方法及系统
技术领域
本发明属于文本挖掘、自然语言处理和突发检测领域,尤其涉及一种基于动力学模型的网络突发事件检测方法及系统。
背景技术
当前互联网已经成为了人们发布和和获取信息的重要渠道,其方便性和快速性已极大地减少了信息传播的延迟。再加上以微博为代表的自媒体的崛起,使得每个人都可以成为信息的发布源,这导致互联网上的信息量呈爆炸式增长,已足以反映现实生活的各个方面,但其中又充斥着各式各样的噪声,如何从这海量的数据中检测出人们高度关注的突发事件就显得十分有价值。
广义上,突发事件(bursty event)泛指当前突然发生并具有较大影响力的事件,它们发生、发展的速度很快,出乎意料;狭义上,突发事件(emergency)指意外地突然发生的重大或敏感事件,简言之,就是天灾人祸,根据《中华人民共和国突发事件应对法》,可以将狭义突发事件分为自然灾害、事故灾难、公共卫生事件和社会安全事件五类。
虽然当前已有不少突发事件检测的方法,但大多数总结起来本质上都是基于话题(topic)的方法。例如先基于文档的文本特征通过主题模型或聚类方法形成话题,然后再检测这些话题中的突发话题;或者先抽取文档的突发特征,然后通过主题模型或聚类方法直接形成突发话题。
这类话题的方法虽然取得了一定成效,一个话题在一定程度上也可以当作一个事件,但远不足以与事件(event)完全等价,这也就导致这类方法的以下根本缺陷:
1)没有考虑事件(话题)的语义,因为通过无监督方法只能得到有哪些话题,但并不知道每个话题是什么意思,具体来说,这类方法无法得到事件的类型(如出访、地震等)和相关元素(如参与者、地点、伤亡情况等),如果一个常规出国访问事件和地震事件其他特征完全一样,这类方法会只能认为它们的突发程度是一样的。
2)基于话题的事件的边界十分模糊,这完全依赖于话题建模设置的阈值,太紧会导致对同一个事件不同描述的文档不会被聚在一起,太松则会导致一个话题内描述的并不是同一个事件。
3)基于话题的事件基本都是文档级别的,这是由于对句子这种短文本进行话题建模比较困难,然而,一个新闻报道文档中很可能涉及多个事件。
此外,一个事件的发生、发展必须需要外力的推动,而事件的突发程度显然与推动这个事件的力有关。然而,此前的突发事件模型大多只通过加速度去衡量突发特征,忽略了或只片面考虑了事件自身的属性,比如发布者权重、伤亡情况、事件报道的紧急程度和事件报道的新鲜度。
发明内容
随着自然语言处理技术的快速发展尤其是事件抽取(event extraction)技术的逐渐成形,本发明直接基于事件来检测突发事件。不同于话题建模得到事件,按照预定义的模式(schema)抽取出来的事件具备完善的类型和元素信息,这些信息可以充分运用到突发的检测中;此外,对于抽取出来的事件,完全可以根据事件类型和元素的等价关系判别事件的边界;最后,由于事件抽取本身就可以进行句子或文档级别的抽取,因此不会存在上述第三个根本缺陷。此外,由于事件抽取的采用,能得到更详细的事件信息,就能对事件的属性进行更细致的建模。
针对现有技术的不足,本发明内容包括:利用最前沿的事件抽取和共指消解模型得到更准确的事件表示,以及基于动力学(牛顿第二定律)构建突发事件模型,综合考虑各种现实因素使突发事件模型更符合实际场景。
具体来说,本发明提出了一种基于动力学模型的网络突发事件检测方法,其中包括:
步骤1、对指定的网络平台进行事件抽取,得到多个结构化事件,并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到该多个结构化事件对应的多个基本事件;
步骤2、以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据该位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;
步骤3、根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件。
所述的基于动力学模型的网络突发事件检测方法,其中该结构化事件是由事件触发词、事件类型和事件元素构成的三元组;
该事件触发词为代表事件的词汇或短语;
该事件类型为事件在预设事件模式中所属的类别;
该事件元素为由参与事件的实体和该实体扮演的角色构成的二元对。
所述的基于动力学模型的网络突发事件检测方法,其中该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度;
该发布者权重代表发布者的影响力;
该情感负向性为情感模型计算的事件报道文档的情感值;
该报道紧急程度urgencye
Figure BDA0002191605430000031
其中u是一个超参数表示可接受的报道延迟小时数,latencye表示报道延迟小时数;
该报道新鲜度freshnesse
Figure BDA0002191605430000032
其中nowTime是当前时间以秒为单位的时间戳,f是一个超参数表示报道陈旧小时数,e.reportTime为事件e的报道时间;
该损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是分别代表事件e的伤亡人数和失踪人数;
该质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
所述的基于动力学模型的网络突发事件检测方法,其中该步骤2中结构化事件的从发布到被采集的时间te:
Figure BDA0002191605430000033
其中te表示事件e的报道文档de从发布到被采集的时间,de.reportTime是事件e的报道文档de的发布时间戳,de.gatherTime是采集到事件e的报道文档de时的时间戳;
该加速度ae
Figure BDA0002191605430000041
其中xe为该位移,代表事件的报道文档的传播流行度。
所述的基于动力学模型的网络突发事件检测方法,其中该基本事件的外力FE
Figure BDA0002191605430000042
其中E为该基本事件。
本发明还提出了一种基于动力学模型的网络突发事件检测系统,其中包括:
模块1、对指定的网络平台进行事件抽取,得到多个结构化事件,并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到该多个结构化事件对应的多个基本事件;
模块2、以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据该位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;
模块3、根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件。
所述的基于动力学模型的网络突发事件检测系统,其中该结构化事件是由事件触发词、事件类型和事件元素构成的三元组;
该事件触发词为代表事件的词汇或短语;
该事件类型为事件在预设事件模式中所属的类别;
该事件元素为由参与事件的实体和该实体扮演的角色构成的二元对。
所述的基于动力学模型的网络突发事件检测系统,其中该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度;
该发布者权重代表发布者的影响力;
该情感负向性为情感模型计算的事件报道文档的情感值;
该报道紧急程度urgencye
Figure BDA0002191605430000051
其中u是一个超参数表示可接受的报道延迟小时数,latencye表示报道延迟小时数;
该报道新鲜度freshnesse
Figure BDA0002191605430000052
其中nowTime是当前时间以秒为单位的时间戳,f是一个超参数表示报道陈旧小时数,e.reportTime为事件e的报道时间;
该损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是分别代表事件e的伤亡人数和失踪人数;
该质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
所述的基于动力学模型的网络突发事件检测系统,其中该模块2中结构化事件的从发布到被采集的时间te:
Figure BDA0002191605430000053
其中te表示事件e的报道文档de从发布到被采集的时间,de.reportTime是事件e的报道文档de的发布时间戳,de.gatherTime是采集到事件e的报道文档de时的时间戳;
该加速度ae
Figure BDA0002191605430000054
其中xe为该位移,代表事件的报道文档的传播流行度。
所述的基于动力学模型的网络突发事件检测系统,其中该基本事件的外力FE
Figure BDA0002191605430000055
其中E为该基本事件。
由以上方案可知,本发明的优点在于:利用事件抽取和共指消解模型得到更准确的事件表示,并基于动力学构建突发事件模型,以实现更加精准的突发事件检测效果。
附图说明
图1为本发明流程图。
具体实施方式
本发明提供一种基于动力学模型的突发事件检测方法及系统,包括步骤:
步骤(1)事件抽取:根据需求,利用事件抽取模型从文档或句子抽取出结构化的事件表示。具体地,将事件以三元组(事件触发词,事件类型,事件元素)进行表示。更具体地,事件触发词(event trigger)是事件描述中最能代表事件发生的词汇或短语,是决定事件类别的重要特征,一般是动词或者名词;事件类型(event type)为一个事件在预定义的事件模式中所属的类别;事件元素(event arguments)是一个由(role,argument)二元对组成的列表,其中argument就是参与这个事件的实体,而role则是这个实体在事件中所扮演的角色,或者说role是事件argument的属性,例如(发生时间,2001年9月11日)就是这样一个二元对。
步骤(2)事件共指消解:利用事件共指消解模型识别出共同指向同一基本事件的事件,并对它们进行消解聚合,进而相互补充和扩展语义信息,得到一个更完整表示的基本事件。多个共指事件共同描述的那个事件叫做基本事件,基本事件是通过对这些共指事件聚合得到的;若事件共指消解模型判断这些事件互相共指,则它们同属一个基本事件。
步骤(3)突发事件检测:基于动力学模型,具体来说,也就是牛顿第二定律构建突发事件模型,计算基本事件的质量m和加速度a,根据外力F判断基本事件是否为广义突发事件(bursty event)。
步骤(4)突发事件分类:基于广义突发事件(bursty event)的事件类型和事件报道文本将其分为狭义突发事件(emergency)5类(自然灾害、事故灾难、公共卫生事件、社会安全事件)之一或其他。
所述的突发事件检测方法及系统,所述步骤(3)包括:
S31:对于一个候选基本事件E中每个事件e∈E,首先计算如下属性值:
1.发布者权重pe
发布者对应为报道事件e的网站或者微博账号,该权重可以反映发布者的影响力。对于普通新闻网站的事件发布者e.publisher为该网站的网页级别PageRank:
pe=PageRank(e.publisher)
对于微博账号e.publisher:
pe=1+log10(1+numFans(e.publisher))
其中numFans(p)表示微博账号p的粉丝数。
2.事件报道文档de的情感负向性negSentiment(de):
Figure BDA0002191605430000071
其中sentiment(de)为情感模型计算的报道文档de的情感值,其值域为[0,100],情感值越小表示负向性越强,50表示中性情感。
3.报道延迟latencye:
Figure BDA0002191605430000072
这里latencye是以小时为单位,而de.reportTime和E.occurTime均是以秒为单位,其中前者是事件e的报道文档de的发布时间戳,此值可以从采集的报道文档中抽取出来,后者是基本事件E的发生时间戳,该值可以从基本事件的元素中得到。
考虑到用户作息会严重影响对事件的及时报道,所以这里对发生在晚上10点到凌晨6点的事件进行补偿:
Figure BDA0002191605430000073
其中第一个公式认为发布者已经休息,所以减去6个小时的偏差,第二个公式认为发布者不在线,因此减去2个小时的偏差。
4.报道紧急程度urgencye
Figure BDA0002191605430000074
其中u是一个超参数,表示可接受的报道延迟小时数,根据经验可以设为3。
5.报道新鲜度freshnesse
Figure BDA0002191605430000081
其中nowTime是当前时间的时间戳,以秒为单位,f是一个超参数,表示可接受的报道陈旧小时数,根据经验可设为12,e.reportTime为事件e的报道时间。
6.损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是事件e的两个元素,分别表示伤亡人数和失踪人数。
6.质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
质量me是事件e的自身属性,表示该事件当前的重要程度,虽然无法直接度量其值,但可通过发布者权重、情感负向性、报道紧急性、报道新鲜度以及损失程度反映出来,因此可以通过上述公式估计。
7.作用时间te:
Figure BDA0002191605430000082
这里te是以天为单位,表示事件e的报道文档de从发布到被采集的时间,de.reportTime和de.gatherTime则是以秒为单位,其中前者是事件e的报道文档de的发布时间戳,此值可以从采集的报道文档中抽取出来,后者是采集到事件e的报道文档de时的时间戳,该值在采集时会记录。
8.位移xe
xe=log10(1+de.numRead+r*de.numReply)
这里,位移xe可以看作事件e的报道文档在te的传播流行度,其中de.numRead和de.numReply分别表示事件报道文档的阅读数和回复数,r是超参数,表示回复数对于阅读数的交换比,根据经验r可设为2。
9.加速度ae
Figure BDA0002191605430000083
这里假设是匀加速直线运动,另外为了避免分子或分母为0,对位移及时间都进行了平滑,这个平滑可以看成认为下一个小时后位移会增加1。
S32:计算候选基本事件E的突发值,即作用于基本事件E的外力FE
一个基本事件E的发生、发展及影响可以看成外力F对其推动导致的,而突发事件(bursty event)的发生、发展迅速和影响力较大的特性决定了推动其发生发展的外力一定很大。根据牛顿第二定律,作用于基本事件E的外力FE可用如下公式计算:
Figure BDA0002191605430000091
S33:基于固定或动态阈值判定基本事件E是否为突发事件(bursty event)。
利用本发明提供的技术方案,由于事件抽取的使用,可以得到更准确的事件表示,事件的边界也更加清晰,既可以针对文档级别也可以针对句子级别的事件进行突发检测,另外,由于牛顿力学突发检测模型的使用,充分考虑了事件自身的属性,可以有效避免娱乐八卦事件的干扰,提高了检测的准确率。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
图1为本发明提供的一种基于动力学模型的突发事件检测方法的流程图,应用于基于动力学模型的突发事件检测系统。
下面结合附图对本发明的实施过程作进一步详细的描述。
S1:事件抽取
根据需求,利用事件抽取模型从文档或句子抽取出结构化的事件表示,事件抽取模型包括但不限于深度神经网络。
S2:事件共指消解
利用事件共指消解模型识别出共同指向同一基本事件的事件,事件共指消解模型包括但不限于传统机器学习模型和深度神经网络。之后,对这些共指事件进行消解聚合,进而相互补充和扩展语义信息,得到一个更完整表示的基本事件。
S3:突发事件检测
基于动力学(牛顿第二定律)构建突发事件模型,计算基本事件的质量m和加速度a,根据外力F判断基本事件是否为广义突发事件(bursty event)。具体步骤如下:
S31:对于一个候选基本事件E中每个事件e∈E,首先计算如下属性值:
1.发布者权重pe
发布者对应为报道事件e的网站或者微博账号,该权重可以反映发布者的影响力。对于普通新闻网站e.publisher:
pe=PageRank(e.publisher)
对于微博账号e.publisher:
pe=1+log10(1+numFans(e.publisher))
其中numFans(p)表示微博账号p的粉丝数。
2.事件报道文档de的情感负向性negSentiment(de):
Figure BDA0002191605430000101
其中sentiment(de)为情感模型计算的报道文档de的情感值,其值域为[0,100],情感值越小表示负向性越强,50表示中性情感。
3.报道延迟latencye:
Figure BDA0002191605430000102
这里latencye是以小时为单位,而de.reportTime和E.occurTime均是以秒为单位,其中前者是事件e的报道文档de的发布时间戳,此值可以从采集的报道文档中抽取出来,后者是基本事件E的发生时间戳,该值可以从基本事件的元素中得到。
考虑到用户作息会严重影响对事件的及时报道,所以这里对发生在晚上10点到凌晨6点的事件进行补偿:
Figure BDA0002191605430000103
其中第一个公式认为发布者已经休息,所以减去6个小时的偏差,第二个公式认为发布者不在线,因此减去2个小时的偏差。
4.报道紧急程度urgencye
Figure BDA0002191605430000104
其中u是一个超参数,表示可接受的报道延迟小时数,根据经验可以设为3。
5.报道新鲜度freshnesse
Figure BDA0002191605430000111
其中nowTime是当前时间的时间戳,以秒为单位,f是一个超参数,表示可接受的报道陈旧小时数,根据经验可设为12。
6.损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是事件e的两个元素,分别表示伤亡人数和失踪人数。
6.质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
质量me是事件e的自身属性,表示该事件当前的重要程度,虽然无法直接度量其值,但可通过发布者权重、情感负向性、报道紧急性、报道新鲜度以及损失程度反映出来,因此可以通过上述公式估计。
7.作用时间te:
Figure BDA0002191605430000112
这里te是以天为单位,表示事件e的报道文档de从发布到被采集的时间,de.reportTime和de.gatherTime则是以秒为单位,其中前者是事件e的报道文档de的发布时间戳,此值可以从采集的报道文档中抽取出来,后者是采集到事件e的报道文档de时的时间戳,该值在采集时会记录。
8.位移xe
xe=log10(1+de.numRead+r*de.numReply)
这里,位移xe可以看作事件e的报道文档在te的传播流行度,其中de.numRead和de.numReply分别表示事件报道文档的阅读数和回复数,r是超参数,表示回复数对于阅读数的交换比,根据经验r可设为2。
9.加速度ae
Figure BDA0002191605430000113
这里假设是匀加速直线运动,另外为了避免分子或分母为0,对位移及时间都进行了平滑,这个平滑可以看成认为下一个小时后位移会增加1。
S32:计算候选基本事件E的突发值,即作用到基本事件E的外力FE
一个基本事件E的发生、发展及影响可以看成外力F对其推动导致的,而突发事件(bursty event)的发生、发展迅速和影响力较大的特性决定了推动其发生发展的外力一定很大。根据牛顿第二定律,作用于基本事件E的外力FE可用如下公式计算:
Figure BDA0002191605430000121
S33:基于固定或动态阈值判定基本事件E是否为突发事件(bursty event)。
S4:突发事件分类
基于广义突发事件(bursty event)的事件类型和事件报道文本将其分为狭义突发事件(emergency)5类(自然灾害、事故灾难、公共卫生事件、社会安全事件)之一或其他,文本分类模型包括但不限于传统机器学习模型和深度神经网络。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于动力学模型的网络突发事件检测系统,其中包括:
模块1、对指定的网络平台进行事件抽取,得到多个结构化事件,并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到该多个结构化事件对应的多个基本事件;
模块2、以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据该位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;
模块3、根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件。
所述的基于动力学模型的网络突发事件检测系统,其中该结构化事件是由事件触发词、事件类型和事件元素构成的三元组;
该事件触发词为代表事件的词汇或短语;
该事件类型为事件在预设事件模式中所属的类别;
该事件元素为由参与事件的实体和该实体扮演的角色构成的二元对。
所述的基于动力学模型的网络突发事件检测系统,其中该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度;
该发布者权重代表发布者的影响力;
该情感负向性为情感模型计算的事件报道文档的情感值;
该报道紧急程度urgencye
Figure BDA0002191605430000131
其中u是一个超参数表示可接受的报道延迟小时数,latencye表示报道延迟小时数;
该报道新鲜度freshnesse
Figure BDA0002191605430000132
其中nowTime是当前时间以秒为单位的时间戳,f是一个超参数表示报道陈旧小时数,e.reportTime为事件e的报道时间;
该损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是分别代表事件e的伤亡人数和失踪人数;
该质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
所述的基于动力学模型的网络突发事件检测系统,其中该模块2中结构化事件的从发布到被采集的时间te:
Figure BDA0002191605430000133
其中te表示事件e的报道文档de从发布到被采集的时间,de.reportTime是事件e的报道文档de的发布时间戳,de.gatherTime是采集到事件e的报道文档de时的时间戳;
该加速度ae
Figure BDA0002191605430000134
其中xe为该位移,代表事件的报道文档的传播流行度。
所述的基于动力学模型的网络突发事件检测系统,其中该基本事件的外力FE
Figure BDA0002191605430000141
其中E为该基本事件。

Claims (8)

1.一种基于动力学模型的网络突发事件检测方法,其特征在于,包括:
步骤1、对指定的网络平台进行事件抽取,得到多个结构化事件,并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到该多个结构化事件对应的多个基本事件;
步骤2、以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据该位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;
步骤3、根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件;
该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度;
该发布者权重代表发布者的影响力;
该情感负向性为情感模型计算的事件报道文档的情感值;
该报道紧急程度urgencye
Figure FDA0003687805080000011
其中u是一个超参数表示可接受的报道延迟小时数,latencye表示报道延迟小时数;
该报道新鲜度freshnesse
Figure FDA0003687805080000012
其中nowTime是当前时间以秒为单位的时间戳,f是一个超参数表示报道陈旧小时数,e.reportTime为事件e的报道时间;
该损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是分别代表事件e的伤亡人数和失踪人数;
该质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
Figure FDA0003687805080000021
其中pe为反映发布者的影响力的发布者权重,negSentiment(de)为事件报道文档de的情感负向性,sentiment(de)为情感模型计算的报道文档de的情感值,其值域为[0,100]。
2.如权利要求1所述的基于动力学模型的网络突发事件检测方法,其特征在于,该结构化事件是由事件触发词、事件类型和事件元素构成的三元组;
该事件触发词为代表事件的词汇或短语;
该事件类型为事件在预设事件模式中所属的类别;
该事件元素为由参与事件的实体和该实体扮演的角色构成的二元对。
3.如权利要求1所述的基于动力学模型的网络突发事件检测方法,其特征在于,该步骤2中结构化事件的从发布到被采集的时间te:
Figure FDA0003687805080000022
其中te表示事件e的报道文档de从发布到被采集的时间,de.reportTime是事件e的报道文档de的发布时间戳,de.gatherTime是采集到事件e的报道文档de时的时间戳;
该加速度ae
Figure FDA0003687805080000023
其中xe为该位移,代表事件的报道文档的传播流行度。
4.如权利要求3所述的基于动力学模型的网络突发事件检测方法,其特征在于,该基本事件的外力FE
Figure FDA0003687805080000024
其中E为该基本事件。
5.一种基于动力学模型的网络突发事件检测系统,其特征在于,包括:
模块1、对指定的网络平台进行事件抽取,得到多个结构化事件,并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到该多个结构化事件对应的多个基本事件;
模块2、以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据该位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;
模块3、根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件;
该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度;
该发布者权重代表发布者的影响力;
该情感负向性为情感模型计算的事件报道文档的情感值;
该报道紧急程度urgencye
Figure FDA0003687805080000031
其中u是一个超参数表示可接受的报道延迟小时数,latencye表示报道延迟小时数;
该报道新鲜度freshnesse
Figure FDA0003687805080000032
其中nowTime是当前时间以秒为单位的时间戳,f是一个超参数表示报道陈旧小时数,e.reportTime为事件e的报道时间;
该损失程度losse
losse=1+ln(1+e.numCasualty+e.numMissing)
其中e.numCasualty和e.numMissing是分别代表事件e的伤亡人数和失踪人数;
该质量me
me=pe*negSentiment(de)*urgencye*freshnesse*losse
Figure FDA0003687805080000033
其中pe为反映发布者的影响力的发布者权重,negSentiment(de)为事件报道文档de的情感负向性,sentiment(de)为情感模型计算的报道文档de的情感值,其值域为[0,100]。
6.如权利要求5所述的基于动力学模型的网络突发事件检测系统,其特征在于,该结构化事件是由事件触发词、事件类型和事件元素构成的三元组;
该事件触发词为代表事件的词汇或短语;
该事件类型为事件在预设事件模式中所属的类别;
该事件元素为由参与事件的实体和该实体扮演的角色构成的二元对。
7.如权利要求5所述的基于动力学模型的网络突发事件检测系统,其特征在于,该模块2中结构化事件的从发布到被采集的时间te:
Figure FDA0003687805080000041
其中te表示事件e的报道文档de从发布到被采集的时间,de.reportTime是事件e的报道文档de的发布时间戳,de.gatherTime是采集到事件e的报道文档de时的时间戳;
该加速度ae
Figure FDA0003687805080000042
其中xe为该位移,代表事件的报道文档的传播流行度。
8.如权利要求7所述的基于动力学模型的网络突发事件检测系统,其特征在于,该基本事件的外力FE
Figure FDA0003687805080000043
其中E为该基本事件。
CN201910833905.XA 2019-09-04 2019-09-04 基于动力学模型的网络突发事件检测方法及系统 Active CN110704717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833905.XA CN110704717B (zh) 2019-09-04 2019-09-04 基于动力学模型的网络突发事件检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833905.XA CN110704717B (zh) 2019-09-04 2019-09-04 基于动力学模型的网络突发事件检测方法及系统

Publications (2)

Publication Number Publication Date
CN110704717A CN110704717A (zh) 2020-01-17
CN110704717B true CN110704717B (zh) 2022-09-27

Family

ID=69194195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833905.XA Active CN110704717B (zh) 2019-09-04 2019-09-04 基于动力学模型的网络突发事件检测方法及系统

Country Status (1)

Country Link
CN (1) CN110704717B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2013158584A (ru) * 2013-12-27 2015-07-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики" (НИУ ИТМО) Виртуальный полигон для контроля чрезвычайных ситуаций в динамической среде "облачной" модели
CN104965930A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的突发事件演化分析方法
CN106294333A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置
CN107844609A (zh) * 2017-12-14 2018-03-27 武汉理工大学 一种基于文体和词表的突发事件信息抽取方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679465B2 (en) * 2013-07-18 2017-06-13 Google Inc. Systems and methods for processing ultrasonic inputs
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN105138577B (zh) * 2015-07-30 2017-02-22 成都布林特信息技术有限公司 一种基于大数据的事件演化分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2013158584A (ru) * 2013-12-27 2015-07-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики" (НИУ ИТМО) Виртуальный полигон для контроля чрезвычайных ситуаций в динамической среде "облачной" модели
CN106294333A (zh) * 2015-05-11 2017-01-04 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置
CN104965930A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的突发事件演化分析方法
CN107844609A (zh) * 2017-12-14 2018-03-27 武汉理工大学 一种基于文体和词表的突发事件信息抽取方法及系统

Also Published As

Publication number Publication date
CN110704717A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
JP6359062B2 (ja) 自動分析方法
US10565311B2 (en) Method for updating a knowledge base of a sentiment analysis system
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
CN115186654B (zh) 一种公文文本摘要生成方法
CN106294333A (zh) 一种微博突发话题检测方法及装置
CN113378565A (zh) 多源数据融合的事件分析方法、装置、设备及存储介质
Sims et al. Measuring information propagation in literary social networks
Emmery et al. Simple queries as distant labels for predicting gender on twitter
CN116664012A (zh) 一种基于大数据分析的企业信用评估方法及系统
Zhao et al. Teenagers’ stress detection based on time-sensitive micro-blog comment/response actions
Karimi et al. Evaluation methods for statistically dependent text
CN110704717B (zh) 基于动力学模型的网络突发事件检测方法及系统
CN107038193B (zh) 一种文本信息的处理方法和装置
CN111046281B (zh) 热点话题的构建方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN105809488B (zh) 一种信息处理方法及电子设备
Sheshadri et al. Detecting framing changes in topical news
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
CN114742281A (zh) 一种基于灰色模型的公共事件网络舆情热度预测方法
Peng et al. Public opinion analysis strategy of short video content review in big data environment
CN111382345B (zh) 话题筛选和发布的方法、装置和服务器
Lu et al. Trending words based event detection in Sina Weibo
JP6743623B2 (ja) 情報処理装置及びプログラム
James et al. Evaluating Dynamic Topic Models
KR102301969B1 (ko) 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant