CN110704717B

CN110704717B - 基于动力学模型的网络突发事件检测方法及系统

Info

Publication number: CN110704717B
Application number: CN201910833905.XA
Authority: CN
Inventors: 程学旗; 史存会; 朱运昌; 俞晓明; 刘悦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-09-27
Anticipated expiration: 2039-09-04
Also published as: CN110704717A

Abstract

本发明提出一种基于动力学模型的网络突发事件检测方法及系统，包括：对指定的网络平台进行事件抽取，得到多个结构化事件，并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合，得到多个结构化事件对应的多个基本事件；以结构化事件的自身属性作为结构化事件的质量，并以结构化事件的传播流行度作为位移，根据位移和结构化事件的从发布到被采集的时间，通过动力学模型确定结构化事件的加速度；根据结构化事件的加速度和质量，通过动力学模型确定各结构化事件的外力，集合各基本事件中结构化事件的外力，作为各基本事件的外力，根据基本事件的外力确定网络平台中各基本事件是否为广义突发事件。

Description

基于动力学模型的网络突发事件检测方法及系统

技术领域

本发明属于文本挖掘、自然语言处理和突发检测领域，尤其涉及一种基于动力学模型的网络突发事件检测方法及系统。

背景技术

当前互联网已经成为了人们发布和和获取信息的重要渠道，其方便性和快速性已极大地减少了信息传播的延迟。再加上以微博为代表的自媒体的崛起，使得每个人都可以成为信息的发布源，这导致互联网上的信息量呈爆炸式增长，已足以反映现实生活的各个方面，但其中又充斥着各式各样的噪声，如何从这海量的数据中检测出人们高度关注的突发事件就显得十分有价值。

广义上，突发事件(bursty event)泛指当前突然发生并具有较大影响力的事件，它们发生、发展的速度很快，出乎意料；狭义上，突发事件(emergency)指意外地突然发生的重大或敏感事件，简言之，就是天灾人祸，根据《中华人民共和国突发事件应对法》，可以将狭义突发事件分为自然灾害、事故灾难、公共卫生事件和社会安全事件五类。

虽然当前已有不少突发事件检测的方法，但大多数总结起来本质上都是基于话题(topic)的方法。例如先基于文档的文本特征通过主题模型或聚类方法形成话题，然后再检测这些话题中的突发话题；或者先抽取文档的突发特征，然后通过主题模型或聚类方法直接形成突发话题。

这类话题的方法虽然取得了一定成效，一个话题在一定程度上也可以当作一个事件，但远不足以与事件(event)完全等价，这也就导致这类方法的以下根本缺陷：

1)没有考虑事件(话题)的语义，因为通过无监督方法只能得到有哪些话题，但并不知道每个话题是什么意思，具体来说，这类方法无法得到事件的类型(如出访、地震等)和相关元素(如参与者、地点、伤亡情况等)，如果一个常规出国访问事件和地震事件其他特征完全一样，这类方法会只能认为它们的突发程度是一样的。

2)基于话题的事件的边界十分模糊，这完全依赖于话题建模设置的阈值，太紧会导致对同一个事件不同描述的文档不会被聚在一起，太松则会导致一个话题内描述的并不是同一个事件。

3)基于话题的事件基本都是文档级别的，这是由于对句子这种短文本进行话题建模比较困难，然而，一个新闻报道文档中很可能涉及多个事件。

此外，一个事件的发生、发展必须需要外力的推动，而事件的突发程度显然与推动这个事件的力有关。然而，此前的突发事件模型大多只通过加速度去衡量突发特征，忽略了或只片面考虑了事件自身的属性，比如发布者权重、伤亡情况、事件报道的紧急程度和事件报道的新鲜度。

发明内容

随着自然语言处理技术的快速发展尤其是事件抽取(event extraction)技术的逐渐成形，本发明直接基于事件来检测突发事件。不同于话题建模得到事件，按照预定义的模式(schema)抽取出来的事件具备完善的类型和元素信息，这些信息可以充分运用到突发的检测中；此外，对于抽取出来的事件，完全可以根据事件类型和元素的等价关系判别事件的边界；最后，由于事件抽取本身就可以进行句子或文档级别的抽取，因此不会存在上述第三个根本缺陷。此外，由于事件抽取的采用，能得到更详细的事件信息，就能对事件的属性进行更细致的建模。

针对现有技术的不足，本发明内容包括：利用最前沿的事件抽取和共指消解模型得到更准确的事件表示，以及基于动力学(牛顿第二定律)构建突发事件模型，综合考虑各种现实因素使突发事件模型更符合实际场景。

具体来说，本发明提出了一种基于动力学模型的网络突发事件检测方法，其中包括：

步骤1、对指定的网络平台进行事件抽取，得到多个结构化事件，并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合，得到该多个结构化事件对应的多个基本事件；

步骤2、以结构化事件的自身属性作为结构化事件的质量，并以结构化事件的传播流行度作为位移，根据该位移和结构化事件的从发布到被采集的时间，通过动力学模型确定结构化事件的加速度；

步骤3、根据结构化事件的加速度和质量，通过动力学模型确定各结构化事件的外力，集合各基本事件中结构化事件的外力，作为各基本事件的外力，根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件。

所述的基于动力学模型的网络突发事件检测方法，其中该结构化事件是由事件触发词、事件类型和事件元素构成的三元组；

该事件触发词为代表事件的词汇或短语；

该事件类型为事件在预设事件模式中所属的类别；

该事件元素为由参与事件的实体和该实体扮演的角色构成的二元对。

所述的基于动力学模型的网络突发事件检测方法，其中该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度；

该发布者权重代表发布者的影响力；

该情感负向性为情感模型计算的事件报道文档的情感值；

该报道紧急程度urgency_e：

其中u是一个超参数表示可接受的报道延迟小时数，latency_e表示报道延迟小时数；

该报道新鲜度freshness_e：

其中nowTime是当前时间以秒为单位的时间戳，f是一个超参数表示报道陈旧小时数，e.reportTime为事件e的报道时间；

该损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

其中e.numCasualty和e.numMissing是分别代表事件e的伤亡人数和失踪人数；

该质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e。

所述的基于动力学模型的网络突发事件检测方法，其中该步骤2中结构化事件的从发布到被采集的时间t_e:

其中t_e表示事件e的报道文档d_e从发布到被采集的时间，d_e.reportTime是事件e的报道文档d_e的发布时间戳，d_e.gatherTime是采集到事件e的报道文档d_e时的时间戳；

该加速度a_e：

其中x_e为该位移，代表事件的报道文档的传播流行度。

所述的基于动力学模型的网络突发事件检测方法，其中该基本事件的外力F_E

其中E为该基本事件。

本发明还提出了一种基于动力学模型的网络突发事件检测系统，其中包括：

模块1、对指定的网络平台进行事件抽取，得到多个结构化事件，并将该多个结构化事件中指向同一基本事件的结构化事件进行消解聚合，得到该多个结构化事件对应的多个基本事件；

模块2、以结构化事件的自身属性作为结构化事件的质量，并以结构化事件的传播流行度作为位移，根据该位移和结构化事件的从发布到被采集的时间，通过动力学模型确定结构化事件的加速度；

模块3、根据结构化事件的加速度和质量，通过动力学模型确定各结构化事件的外力，集合各基本事件中结构化事件的外力，作为各基本事件的外力，根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件。

所述的基于动力学模型的网络突发事件检测系统，其中该结构化事件是由事件触发词、事件类型和事件元素构成的三元组；

该事件触发词为代表事件的词汇或短语；

该事件类型为事件在预设事件模式中所属的类别；

所述的基于动力学模型的网络突发事件检测系统，其中该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度；

该发布者权重代表发布者的影响力；

该情感负向性为情感模型计算的事件报道文档的情感值；

该报道紧急程度urgency_e：

该报道新鲜度freshness_e：

该损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

该质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e。

所述的基于动力学模型的网络突发事件检测系统，其中该模块2中结构化事件的从发布到被采集的时间t_e:

该加速度a_e：

其中x_e为该位移，代表事件的报道文档的传播流行度。

所述的基于动力学模型的网络突发事件检测系统，其中该基本事件的外力F_E：

其中E为该基本事件。

由以上方案可知，本发明的优点在于：利用事件抽取和共指消解模型得到更准确的事件表示，并基于动力学构建突发事件模型，以实现更加精准的突发事件检测效果。

附图说明

图1为本发明流程图。

具体实施方式

本发明提供一种基于动力学模型的突发事件检测方法及系统，包括步骤：

步骤(1)事件抽取：根据需求，利用事件抽取模型从文档或句子抽取出结构化的事件表示。具体地，将事件以三元组(事件触发词，事件类型，事件元素)进行表示。更具体地，事件触发词(event trigger)是事件描述中最能代表事件发生的词汇或短语，是决定事件类别的重要特征，一般是动词或者名词；事件类型(event type)为一个事件在预定义的事件模式中所属的类别；事件元素(event arguments)是一个由(role,argument)二元对组成的列表，其中argument就是参与这个事件的实体，而role则是这个实体在事件中所扮演的角色，或者说role是事件argument的属性，例如(发生时间,2001年9月11日)就是这样一个二元对。

步骤(2)事件共指消解：利用事件共指消解模型识别出共同指向同一基本事件的事件，并对它们进行消解聚合，进而相互补充和扩展语义信息，得到一个更完整表示的基本事件。多个共指事件共同描述的那个事件叫做基本事件，基本事件是通过对这些共指事件聚合得到的；若事件共指消解模型判断这些事件互相共指，则它们同属一个基本事件。

步骤(3)突发事件检测：基于动力学模型，具体来说，也就是牛顿第二定律构建突发事件模型，计算基本事件的质量m和加速度a，根据外力F判断基本事件是否为广义突发事件(bursty event)。

步骤(4)突发事件分类：基于广义突发事件(bursty event)的事件类型和事件报道文本将其分为狭义突发事件(emergency)5类(自然灾害、事故灾难、公共卫生事件、社会安全事件)之一或其他。

所述的突发事件检测方法及系统，所述步骤(3)包括：

S31：对于一个候选基本事件E中每个事件e∈E，首先计算如下属性值：

1.发布者权重p_e：

发布者对应为报道事件e的网站或者微博账号，该权重可以反映发布者的影响力。对于普通新闻网站的事件发布者e.publisher为该网站的网页级别PageRank：

p_e＝PageRank(e.publisher)

对于微博账号e.publisher：

p_e＝1+log₁₀(1+numFans(e.publisher))

其中numFans(p)表示微博账号p的粉丝数。

2.事件报道文档d_e的情感负向性negSentiment(d_e)：

其中sentiment(d_e)为情感模型计算的报道文档d_e的情感值，其值域为[0,100]，情感值越小表示负向性越强，50表示中性情感。

3.报道延迟latency_e:

这里latency_e是以小时为单位，而d_e.reportTime和E.occurTime均是以秒为单位，其中前者是事件e的报道文档d_e的发布时间戳，此值可以从采集的报道文档中抽取出来，后者是基本事件E的发生时间戳，该值可以从基本事件的元素中得到。

考虑到用户作息会严重影响对事件的及时报道，所以这里对发生在晚上10点到凌晨6点的事件进行补偿：

其中第一个公式认为发布者已经休息，所以减去6个小时的偏差，第二个公式认为发布者不在线，因此减去2个小时的偏差。

4.报道紧急程度urgency_e：

其中u是一个超参数，表示可接受的报道延迟小时数，根据经验可以设为3。

5.报道新鲜度freshness_e：

其中nowTime是当前时间的时间戳，以秒为单位，f是一个超参数，表示可接受的报道陈旧小时数，根据经验可设为12，e.reportTime为事件e的报道时间。

6.损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

其中e.numCasualty和e.numMissing是事件e的两个元素，分别表示伤亡人数和失踪人数。

6.质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e

质量m_e是事件e的自身属性，表示该事件当前的重要程度，虽然无法直接度量其值，但可通过发布者权重、情感负向性、报道紧急性、报道新鲜度以及损失程度反映出来，因此可以通过上述公式估计。

7.作用时间t_e:

这里t_e是以天为单位，表示事件e的报道文档d_e从发布到被采集的时间，d_e.reportTime和d_e.gatherTime则是以秒为单位，其中前者是事件e的报道文档d_e的发布时间戳，此值可以从采集的报道文档中抽取出来，后者是采集到事件e的报道文档d_e时的时间戳，该值在采集时会记录。

8.位移x_e：

x_e＝log₁₀(1+d_e.numRead+r*d_e.numReply)

这里，位移x_e可以看作事件e的报道文档在t_e的传播流行度，其中d_e.numRead和d_e.numReply分别表示事件报道文档的阅读数和回复数，r是超参数，表示回复数对于阅读数的交换比，根据经验r可设为2。

9.加速度a_e：

这里假设是匀加速直线运动，另外为了避免分子或分母为0，对位移及时间都进行了平滑，这个平滑可以看成认为下一个小时后位移会增加1。

S32：计算候选基本事件E的突发值，即作用于基本事件E的外力F_E。

一个基本事件E的发生、发展及影响可以看成外力F对其推动导致的，而突发事件(bursty event)的发生、发展迅速和影响力较大的特性决定了推动其发生发展的外力一定很大。根据牛顿第二定律，作用于基本事件E的外力F_E可用如下公式计算：

S33：基于固定或动态阈值判定基本事件E是否为突发事件(bursty event)。

利用本发明提供的技术方案，由于事件抽取的使用，可以得到更准确的事件表示，事件的边界也更加清晰，既可以针对文档级别也可以针对句子级别的事件进行突发检测，另外，由于牛顿力学突发检测模型的使用，充分考虑了事件自身的属性，可以有效避免娱乐八卦事件的干扰，提高了检测的准确率。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

图1为本发明提供的一种基于动力学模型的突发事件检测方法的流程图，应用于基于动力学模型的突发事件检测系统。

下面结合附图对本发明的实施过程作进一步详细的描述。

S1：事件抽取

根据需求，利用事件抽取模型从文档或句子抽取出结构化的事件表示，事件抽取模型包括但不限于深度神经网络。

S2：事件共指消解

利用事件共指消解模型识别出共同指向同一基本事件的事件，事件共指消解模型包括但不限于传统机器学习模型和深度神经网络。之后，对这些共指事件进行消解聚合，进而相互补充和扩展语义信息，得到一个更完整表示的基本事件。

S3：突发事件检测

基于动力学(牛顿第二定律)构建突发事件模型，计算基本事件的质量m和加速度a，根据外力F判断基本事件是否为广义突发事件(bursty event)。具体步骤如下：

1.发布者权重p_e：

发布者对应为报道事件e的网站或者微博账号，该权重可以反映发布者的影响力。对于普通新闻网站e.publisher：

p_e＝PageRank(e.publisher)

对于微博账号e.publisher：

p_e＝1+log₁₀(1+numFans(e.publisher))

其中numFans(p)表示微博账号p的粉丝数。

2.事件报道文档d_e的情感负向性negSentiment(d_e)：

3.报道延迟latency_e:

4.报道紧急程度urgency_e：

5.报道新鲜度freshness_e：

其中nowTime是当前时间的时间戳，以秒为单位，f是一个超参数，表示可接受的报道陈旧小时数，根据经验可设为12。

6.损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

6.质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e

7.作用时间t_e:

8.位移x_e：

x_e＝log₁₀(1+d_e.numRead+r*d_e.numReply)

9.加速度a_e：

S32：计算候选基本事件E的突发值，即作用到基本事件E的外力F_E。

S4：突发事件分类

基于广义突发事件(bursty event)的事件类型和事件报道文本将其分为狭义突发事件(emergency)5类(自然灾害、事故灾难、公共卫生事件、社会安全事件)之一或其他，文本分类模型包括但不限于传统机器学习模型和深度神经网络。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

该事件触发词为代表事件的词汇或短语；

该事件类型为事件在预设事件模式中所属的类别；

该发布者权重代表发布者的影响力；

该情感负向性为情感模型计算的事件报道文档的情感值；

该报道紧急程度urgency_e：

该报道新鲜度freshness_e：

该损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

该质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e。

该加速度a_e：

其中x_e为该位移，代表事件的报道文档的传播流行度。

其中E为该基本事件。

Claims

1.一种基于动力学模型的网络突发事件检测方法，其特征在于，包括：

步骤3、根据结构化事件的加速度和质量，通过动力学模型确定各结构化事件的外力，集合各基本事件中结构化事件的外力，作为各基本事件的外力，根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件；

该自身属性包括发布者权重、情感负向性、报道紧急性、报道新鲜度和损失程度；

该发布者权重代表发布者的影响力；

该情感负向性为情感模型计算的事件报道文档的情感值；

该报道紧急程度urgency_e：

该报道新鲜度freshness_e：

该损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

该质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e

其中p_e为反映发布者的影响力的发布者权重，negSentiment(d_e)为事件报道文档d_e的情感负向性，sentiment(d_e)为情感模型计算的报道文档d_e的情感值，其值域为[0,100]。

2.如权利要求1所述的基于动力学模型的网络突发事件检测方法，其特征在于，该结构化事件是由事件触发词、事件类型和事件元素构成的三元组；

该事件触发词为代表事件的词汇或短语；

该事件类型为事件在预设事件模式中所属的类别；

3.如权利要求1所述的基于动力学模型的网络突发事件检测方法，其特征在于，该步骤2中结构化事件的从发布到被采集的时间t_e:

该加速度a_e：

其中x_e为该位移，代表事件的报道文档的传播流行度。

4.如权利要求3所述的基于动力学模型的网络突发事件检测方法，其特征在于，该基本事件的外力F_E

其中E为该基本事件。

5.一种基于动力学模型的网络突发事件检测系统，其特征在于，包括：

模块3、根据结构化事件的加速度和质量，通过动力学模型确定各结构化事件的外力，集合各基本事件中结构化事件的外力，作为各基本事件的外力，根据基本事件的外力确定该网络平台中各基本事件是否为广义突发事件；

该发布者权重代表发布者的影响力；

该情感负向性为情感模型计算的事件报道文档的情感值；

该报道紧急程度urgency_e：

该报道新鲜度freshness_e：

该损失程度loss_e：

loss_e＝1+ln(1+e.numCasualty+e.numMissing)

该质量m_e：

m_e＝p_e*negSentiment(d_e)*urgency_e*freshness_e*loss_e

6.如权利要求5所述的基于动力学模型的网络突发事件检测系统，其特征在于，该结构化事件是由事件触发词、事件类型和事件元素构成的三元组；

该事件触发词为代表事件的词汇或短语；

该事件类型为事件在预设事件模式中所属的类别；

7.如权利要求5所述的基于动力学模型的网络突发事件检测系统，其特征在于，该模块2中结构化事件的从发布到被采集的时间t_e:

该加速度a_e：

其中x_e为该位移，代表事件的报道文档的传播流行度。

8.如权利要求7所述的基于动力学模型的网络突发事件检测系统，其特征在于，该基本事件的外力F_E

其中E为该基本事件。