CN104615717A - 社交网络突发事件的多维度评估方法 - Google Patents
社交网络突发事件的多维度评估方法 Download PDFInfo
- Publication number
- CN104615717A CN104615717A CN201510061737.9A CN201510061737A CN104615717A CN 104615717 A CN104615717 A CN 104615717A CN 201510061737 A CN201510061737 A CN 201510061737A CN 104615717 A CN104615717 A CN 104615717A
- Authority
- CN
- China
- Prior art keywords
- node
- occurrence
- burst
- hot word
- accident
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种社交网络突发事件的多维度评估方法,包括:获取突发热词共现图;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。根据反映了各突发事件不同重要程度的重要性度量值来确定各突发事件的差异化表现形式。通过该差异化表现,使得用户能够直观、明显便捷地获知当前社交网络中最为重要的事件。
Description
技术领域
本发明属于大数据处理技术领域,尤其是涉及一种社交网络突发事件的多维度评估方法。
背景技术
社交网络在人们的生活中扮演着越来越重要的角色,比如微博,国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。CNNIC第33次中国互联网络发展状况调查统计报告截至2013年12月,我国微博用户规模为2.81亿,网民中微博使用率为45.5%。
对于突发事件或者说热点事件来说,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。2008年5月12日,中国四川汶川发生大地震,Twitter在约14时35分33秒披露首条消息。包括临武瓜农事件、校车超载事故,以及2014年4月起在全国产生巨大影响的“幼童香港小便事件”也是通过微博平台在社会人群中迅速传播,进而引起广泛讨论,微博已经成为不可小觑的舆论平台。
微博能够及时反映舆论情况,及时地从微博获取实时信息,判断突发事件,找到相关微博具有重大的意义。目前从大量微博中检测突发事件的方式多种多样,比如采用基于聚类的方法、采用主题模型的方法等来实现突发事件的检测。并在检测得到社交网络中的突发事件后,由于每个突发事件由多个关键词组成,从而可以将检测得到的突发事件以其包含的关键词集合的形式进行呈现,以使用户获知检测到的各个突发事件。
上述方案中,尤其是在检测得到多个突发事件时,将多个突发事件分别以其包含的关键词集合的形式进行无差异化评估,仅简单地呈现出各突发事件包含的关键词集合,使得用户无法及时获知当前最热点的事件或者每个事件的主题,造成较差用户体验。
发明内容
针对上述存在的问题,本发明提供一种社交网络突发事件的多维度评估方法,用以实现差异化地评估社交网络中检测得到的各突发事件,以提高用户体验的目的。
本发明提供了一种社交网络突发事件的多维度评估方法,包括:
获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;
对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;
分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;
根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。
本发明提供的社交网络突发事件的多维度评估方法,在获得包含有各待处理数据文本中的突发热词以及与各突发热词分别共现连接的各共现词的热词共现图之后,基于该热词共现图进行突发事件检测,以得到各突发事件。对于每个突发事件,根据其包含的关键词集合中的各关键词的预设指标的指标值得到其重要性度量值,从而根据反映了各突发事件不同重要程度的多维重要性度量值来确定各突发事件的差异化表现形式。通过该差异化评估,使得用户能够直观、明显便捷地获知当前社交网络中最为重要的事件。
附图说明
图1为本发明社交网络突发事件的多维度评估方法实施例一的流程图;
图2为本发明社交网络突发事件的多维度评估方法实施例二的流程图;
图3为实施例二中关键词共现图的示意图;
图4为实施例二中突发热词共现图的示意图。
具体实施方式
图1为本发明社交网络突发事件的多维度评估方法实施例一的流程图,如图1所示,该方法包括:
步骤101、获取突发热词共现图;
其中,所述突发热词共现图Gk(t)的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词。
本实施例中的社交网络比如可以是微博、论坛等社交网络,本实施例中的所述待处理数据文本相应的比如可以是微博数据文本。值得说明的是,本实施例中主要是针对文本类型的数据信息进行处理,称之为数据文本。微博数据具有数据质量低、文本短、用语非正式、非事件噪音文本多等特点。为了能够准确检测出众多微博数据文本中所包含的突发事件,即在很短时间段内被广泛讨论、传播的热点事件,首先,需要从各个数据文本中确定共现关键词,其中,共现关键词是指同时出现在同一个数据文本中的关键词,即同一个数据文本中的关键词存在共现关系。
本实施例中,社会网络比如微博中的一个事件被表示成一组紧密相关的关键词集合。但是实际上,尽管描述一件事件的数据文本多种多样,但是其核心的关键词会有一致的倾向。对于突发事件来说,其核心关键词在使用量上会有突发性特征。因此,本实施例中使用关键词与关键词的共现关系,建模关键词与关键词之间的关联关系。
具体地,首先构建关键词共现图,简单来说,该关键词共现图用G(t)代表,其中的节点集合中包括各数据文本中的关键词,即由关键词节点构成节点集合,各关键词节点之间的共现关系作为边集合中的边。具体的构建过程将在后面的实施例中详细描述,此处不做详细说明。
为了检测出社交网络中当前检测时刻时存在的各突发事件,本实施例需要在上述关键词共现图G(t)的基础上,通过突发热词检测来检测出关键词共现图用G(t)中的突发热词,从而得到由各突发热词和分别与每个突发热词具有共现连接关系的共现词作为节点的突然热词共现图Gk(t)。突然热词共现图Gk(t)中包含了对突发事件检测最具有意义的各个节点以及节点间的连接边,对于突发热词检测的过程将在后面的实施例中详细描述。
步骤102、对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点。
本实施例中,可以采用图聚类处理算法来对突发热词共现图Gk(t)进行聚类处理,以得到与每个聚类结果对应的突发事件,比如模块(modularity)聚类算法。
可选的,在步骤101得到上述热词共现图之后,还可以包括如下步骤:
步骤201、对所述突发热词共现图进行过滤去噪处理,得到去噪后的突发热词共现图。
其中,所述过滤去噪处理包括:
过滤掉所述突发热词共现图中边频率小于预设边频率阈值的边;
过滤掉所述突发热词共现图中邻节点数不大于预设数量阈值的节点,所述节点包括所述突发热词共现图中的突发热词节点和共现词节点。
为了得到关联关系更强的突发事件检测结果,在进行突发事件检测的步骤之前,还可以采用噪音过滤方式在每个检测周期对突发热词共现图Gk(t)进行去噪处理。具体来说,对于突发热词共现图Gk(t)中的每个突发热词节点,其维护有其突发程度信息即ZValue的值,当前检测时间t,共现词节点集合以及与每个共现词节点间的边的边频率值。这些信息将在后续实施例中详细介绍。因此,基于这些信息,一方面,过滤掉突发热词共现图Gk(t)中边频率小于预设边频率阈值的边。即针对每个突发热词节点,通过其与对应的共现词节点集合中的每个共现词节点间边的边频率的值与预设边频率阈值进行比较,去掉小于预设边频率阈值的边。另一方面,过滤掉突发热词共现图Gk(t)中邻节点数不大于预设数量阈值比如1的节点,所述节点包括所述突发热词共现图Gk(t)中的突发热词节点和共现词节点。被删除的突发热词节点不和第三个节点共同出现,可以认为它不具有语义上的紧密型,从而不能代表一个事件;被删除的共现词节点则代表了与其关联的突发热词节点在其他语境上下文中的使用方法。通常情况下,去噪会去掉Gk(t)中至少一半的节点。经过去噪处理,突发热词共现图Gk(t)变为一个有向带权图Ge(t)=(Ve(t),Ee(t)),节点集合Ve(t)包含了去噪处理后的所有节点,边集合Ee(t)中的边由突发热词节点指向其对应的共现词节点,每条边的权重为对应的边频率值。
从而,步骤102中图聚类处理的对象为上述去噪后的突发热词共现图Ge(t)。
本实施例中,对突发热词共现图进行上述去噪处理,有效过滤了其中的冗余节点和冗余边,从而有利于提高突发事件检测结果的准确性。
步骤103、分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;
步骤104、根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。
在检测获得各个突发事件之后,针对各个突发事件,分别计算每个突发事件中的各关键词节点的预设度量指标的值,其中,所述预设度量指标包括以下指标中的一种:居间中心性、接近中心性、带权度、带权出度、带权入度。
进而,根据每个突发事件中各关键词节点的多种维度的预设度量指标的值确定每个突发事件的重要性度量值。具体来说,可以通过如下方式实现:
对每个突发事件中的各关键词节点的预设度量指标的值进行排序,确定每个突发事件中指标值较大的预设数量的关键词节点,所述预设数量的取值为大于或等于1的整数;根据预设的指标值与得分的对应关系,计算每个突发事件中的所述预设数量的关键词节点的指标值对应的得分数,根据所述得分数确定对应的突发事件的重要性度量值。
首先介绍上述各个维度的度量指标的含义:
居间中心性(Betweenness Centrality),对于任一节点来说,该节点的居间中心性定义为通过该节点的所有节点对间最短路径条数。该指标能够发现图中在结构上最核心的关键词。通过该指标,通常发现的是常用但是具有突发特征的词汇,它会跟很多其他词汇共同出现。
接近中心性(Closeness Centrality),对于任一节点来说,该节点的接近中心性定义为该节点到其它可达节点的平均距离的倒数,其中,该平均距离可以是指后面实施例中所涉及到的边在当前检测时刻时的边频率。通过点与其他点的距离,反映出到其他节点较近的词。在社交网络中经常与人互动、人际关系颇好的人,比如公司中的八卦传播者,往往亲近中心性得分较高。在突发热词共现图中,这些得分较高的词,反映了每个突发事件中比较重要的核心突发词。因为突发热词共现图中,事件与事件之间通常由非突发词即共现词节点所连接,而这些词在有向图中被认为是不连通的,因此会将事件和事件之间隔离开来。
带权度(Weighted Degree),节点的带权度为其所有相关联的边的边频率的加和。在突发热词共现图中,得分较高的词反应了其出现频率很高,通常是比较重要的核心突发词;还会有一部分是权重很大的非突发词,对于事件的语义理解有非常重要的作用。
带权出度(Weighted Out Degree),节点的带权出度为其所有出边的边频率的加和。因为只有突发热词才会具有出边,所以该度量指标所得到的词皆为突发热词。较高得分的词对应着出现频率最高的热词。
带权入度(Weighted In Degree),节点的带权入度为其所有入边的边频率的加和。突发热词节点和共现词节点都会具有入边,在该度量指标下,那些具有很高出现频率但没有被检测为突发热词的关键词则会取得较高的得分。
其中,上述边频率的含义将在后续的实施例中详细介绍。
举例来说,比如对每个突发事件中的各关键词节点进行上述某个指标比如接近中心性的计算,得到对应的各个指标值,对这些指标值进行由大到小的排序,从中确定出排在前面预设数量的关键词节点,以预设数量为1为例,相当于从各突发事件中选择出接近中心性的值最大的关键词节点。从而,每个突发事件对应一个最大接近中心性的值。预先已经定义了不同的接近中心性的值对应的得分,从而,根据该指标值与得分的对应关系,能够得到每个突发事件对应的接近中心性的得分,在以预设数量为1的该举例中,每个突发事件对应的接近中心性的得分即每个突发事件对应的某指标的最大指标值即为该突发事件的重要性度量值。总而能够根据每个突发事件的重要性度量值确定各个突发事件的重要性,即具有越高重要性度量值的突发事件,具有更高的重要性。在上述预设数量不为1时,比如当指标为节点的带权度、带权入度、带权出度等指标是,比如预设数量为3,则从每个突出事件中确定指标值最高的前三个关键词节点,每个突发事件的重要性度量值可以是比如三个指标值对应得分的加和、平均值等结果。
进而,在获得了每个突发事件的重要性度量指标值之后,根据每个突发事件的重要性度量值差异化呈现每个突发事件。具体来说,从事件层面上来说,可以根据每个突发事件的重要性度量值确定每个突发事件的呈现颜色和所包含关键词节点的字体大小显示等级。比如具有更高重要性度量值的突发事件用更为鲜明的颜色来显示,不同的突发事件具有不同的显示颜色,并且,可以预先划定一定的字体显示等级,根据不同的重要性度量值,确定具有更高重要性度量值的突发事件用字体显示等级更高的字体来显示,即更大字体。从事件内包含的关键词节点层面来说,分别针对每个突发事件,可以根据每个突发事件中各关键词节点的上述预设度量指标的指标值大小,确定各关键词节点在对应的突发事件中的呈现形式,比如字体大小、关联的边的宽度。也就是说,在突发事件内,具有更高指标值的关键词节点具有更大的字体显示,与其关联的边中具有更高边频率的边具有更宽的线条宽度。
本实施例中,在获得包含有各待处理数据文本中的突发热词以及与各突发热词分别共现连接的各共现词的热词共现图之后,基于该热词共现图进行突发事件检测,以得到各突发事件。对于每个突发事件,根据其包含的关键词集合中的各关键词的预设指标的指标值得到其重要性度量值,从而根据反映了各突发事件不同重要程度的重要性度量值来确定各突发事件的差异化表现形式。通过该差异化评估,使得用户能够直观、明显便捷地获知当前社交网络中最为重要的事件。
图2为本发明社交网络突发事件的多维度评估方法实施例二的流程图,图1中步骤101可以通过如下步骤1011—1016实现。
步骤1011、获取待处理数据,所述待处理数据中包括至少一个数据文本;
步骤1012、分别对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的关键词共现图;
其中,所述共现关系是指所述关键词同时出现在同一个数据文本中,存在共现关系的关键词间都存在连接边。
具体来说,对待处理数据中包含的每个数据文本进行分词处理,比如采用现有的NLPIR汉语分词系统对每个数据文件进行分词处理,从而将每个数据文本按照词语为单位进行划分,得到每个数据文本中包含的各个词语。每个数据文本中包含的词语中不但包含一些具有实体含义的词,比如名称、动词,还具有一些不具有具体含义的词,比如代词、连词等。因此,本实施例中,需要从分词处理的结果中选择那些具有实体含义的比如名称、动词作为关键词。
具体地,在构建关键词共现图时,将数据文本中的关键词作为图中的节点,它们之间的共现关系作为边。每当一个数据文本到来时,从中提取一个无权重无向完全图,并且提取其中的边的序列,这些不断产生的边的序列可以被视为流式图数据,从而随着时间的变化,随着数据文本的依次处理,得到了由每个数据文本中的关键词作为节点,每个数据文本中的关键词间的共现关系作为边的无向时态图。图3为实施例二中关键词共现图的示意图,如图3所示,图3中左边的图为分词处理结果的示意图,分词处理结果中示意出了三个数据文本的分词处理结果,即数据文本1的关键词为第一行中的A、C、D,数据文本2的关键词为第二行中的A、B、D,数据文本3的关键词为第三行中的A、B、C。图3中右边的图为与左边的图对应的关键词共现图,比如对于数据文件1来说,关键词A、C、D同时出现在数据文本1中,在A、C、D构成一个三角形的连接关系,同理数据文本2和数据文本3。值得说明的是,比如数据文本1和数据文本2,其中A、D间的连接边均有出现,但是图3中右图仅示意了这两节点间的一条无权边,因此,图3仅是边结构的简单示意。
步骤1013、根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率。
本实施例中,定义关键词共现图为G(t)=(N(t),A(t)),它是一个无向时态图,即它的节点、边和边的权重会随着时间而变化。其中,N(t)是流式图数据中节点的集合,A(T)是边的序列。边序列当中会包含重复,因为可能会在不同的或者相同的时刻接收到重复出现的边数据。随着时间的变化,该图G(t)中的节点和边会发生更新,而且,两个具有边连接关系的节点对间的连接边很可能出现多次,即在不同的时刻多次出现或者在相同的时刻多次出现,而对于突发事件检测来说,两个节点对间的该边的到来时刻具有不同的影响,距离检测时刻越近的到来时刻具有更为敏感或者说重要的影响。
因此,为了检测突发事件,需要对最近到来的边赋以更大的权重,否则其对最近的突发状况将变的不敏感。为了描述这种时态上的特性,采用衰减因子λ来控制边的权重衰减的速度。本实施例中,采用指数衰减模型来确定图G(t)中每条边的衰减权重,这种平滑的衰减可以避免将一个突发特征分割,从而导致其检测失败。
首先,本实施例中引入如下的边的衰减权重的定义:
在当前检测时刻t,时刻ts到来的边的权重为其中,λ为衰减因子,衰减的半衰期为1/λ,0<λ<1。
其次,基于上述边的衰减权重的定义,本实施例中还引入如下的边的边频率的定义:
定义边(i,j)的边频率为在当前检测时刻t时边(i,j)的权重。
由于在图G(t)中,边序列A(t)中包含了边(i,j)的多个实例,即在不同或相同时刻该边(i,j)出现了多次,而且边的衰减权重的定义只是针对某个ts时刻时对应的边(i,j)的衰减权重,并未涉及到达当前检测时刻t时边(i,j)的所有到来时刻。因此,根据边频率的定义,对于图G(t)中的任一一条边(i,j)来说,需要根据边(i,j)的每次到来时刻对应的衰减权重以及每个到来时刻边(i,j)的出现次数来确定边(i,j)的边频率。
具体地,确定在当前检测时刻t,边(i,j)的边频率F(i,j,t)为:
其中,T(i,j,k)为边(i,j)到来的第k个到来时刻,N(i,j,k)为边(i,j)在第k个到来时刻中出现过的次数,边(i,j)为所述关键图共现图中的任一条边。
另外,在上述定义的基础上,在实际应用中,对于图G(t)来说,随着时间的变化,仅当有新的边到来的时候,图中的数据即边或节点才会更新。可以理解的是,对于图中的节点i和节点j,如果包含他们的边没有到来,则他们的统计数据不需要更新。因此,可以基于以下的推论来实现简单地统计节点i和节点j间的边(i,j)的边频率:
假设上一次边(i,j)到来的时间是t’,对于F(i,j,t)有如下的推论:如果边(i,j)在(t’,t)这段时间内没有到来,则有:
F(i,j,t)=F(i,j,t’)×2-λ(t-t’).
在更新的过程中,首先使用上述推论使得所有的统计数据都更新到现在的时间t,从一个随时间衰减的角度来说,随着新的边数据到来而产生的更新,可以简单的使用+1操作更新到F(`)值中。该操作的计算复杂度与边的数量成线性关系。对于每一个节点i,该更新操作可以被独立且分布式地处理,只要节点i可以接收到它自己的数据。该更新操作可以使用连续流式数据处理平台、离散流式数据处理平台和离线数据处理平台中的任一种处理平台进行处理,比如流行的处理平台Storm或者Spark或者Spark Streaming来实现。
通过以上处理,得到了一个基于关键词的共现关系的时态图,边频率衡量关键词之间的关联关系紧密程度,节点活动频率衡量关键词的活动程度,也即热度。一个关键词的上下文被很好的保存在其邻节点集合S(i,t)当中。对每个节点i,有三个统计信息需要维护:(i)包含节点i的边上一次出现的时间L(i);(ii)S(i,t)中的节点;(iii)节点i到其邻节点集合S(i,t)中边的边频率值的序列F(i,j,L(i))。该统计信息维护所占用的空间与图中节点度的和成正比。关键词共现图通常是稀疏的。|S(i,t)|通常是远远小于网络中节点数量的,因此该信息维护方法是紧密且高效的,特别是在流式处理的场景下。
步骤1014、确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率。
本实施例中,基于边频率,还定义了节点的节点活动频率,即对于任意节点i来说,假设当前检测时间t时其邻节点集合为S(i,t),那么节点i的节点活动频率定义为与该节点i相连的所有边的边频率之和。因此,针对关键词共现图中的每个节点,首先从图中确定每个节点的邻节点集合,进而根据分别与其邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻每个节点的节点活动频率。具体地,确定节点i在当前检测时刻t的节点活动频率α(i,t)为:
其中,S(i,t)为节点i的邻节点集合,S(i,t)中节点的序列号为
步骤1015、根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;
步骤1016、确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的突发热词共现图。
本实施例中,为了最终实现突发事件的检测,首先需要在关键词共现图G(t)中检测出突发热词。突发热词检测即是检测出节点活动频率具有突出变化的节点。节点活动频率突然增加的节点,其相关的边也会体现出边频率突发的特征。
本实施例中,可以根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度,从而,如果某节点的活动频率变化程度大于预设程度阈值,则该节点为突发热词节点。优选的,由于节点的活动频率变化在半衰期跨度上最为显著,因此本实施例中定义如下的节点的半衰期活动频率变化:
节点i的半衰期活动频率变化为:HA(i,t,λ)=α(i,t)-α(i,t-1/λ)。
值得说明的是,根据上式确定的节点i的半衰期活动频率变化是一个变化值序列,即半衰期活动频率变化序列HA(i,t,λ)由当前检测时刻t依次为不同的时间时对应的各半衰期活动频率变化值组成,即t依次取不同的时间点时对应的各变化值。
进而,根据节点i的半衰期活动频率变化序列HA(i,t,λ)确定节点i的活动频率变化程度ZValue为:
其中,μA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的均值,σA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的标准差。
从而,如果节点i的活动频率变化程度大于预设程度阈值比如为3,则该节点i为突发热词节点,与该突发热词节点i存在共现关系的节点为突发热词节点i的共现词节点。也就是说,在图G(t)中,针对图中的每个关键词节点,都进行上述的活动频率变化程度比较处理,得到整个图G(t)中存在的所有突发热词节点,每个突发热词节点在图G(t)中相关联的关键词节点即与其具有连接边的关键词节点为该突发热词节点的共现词节点。
从而,从关键词共现图G(t)中得到由各突发热词节点和各突发热词节点分别对应的共现词节点作为节点集合,由各突发热词节点与各突发热词节点分别对应的共现词节点间的边作为边集合的突发热词共现图Gk(t)。如图4所示,图4为实施例二中突发热词共现图的示意图,该图4中的举例是基于图3中的关键词共现图。图4中示出的是节点A为突发热词,节点B、C、D分别是突发热词节点A的共现词节点。
通过上述处理,去除了关键词共现图G(t)中对突发事件检测冗余的关键词节点,将对突发事件检测具有重要意义的突发热词以及与突发热词具有高度相关性的共现词检测出来,以便于进行后续的突发事件检测。
本实施例中,在对待处理的多个微博数据文本进行分词处理后,得到每个微博数据文本的共现关键词,各共现关键词间都具有连接关系,通过对各个数据文本的共现关键词进行融合,得到由每个数据文本中的关键词作为节点,每个数据文本中的关键词间的共现关系作为边的关键词共现图。该关键词共现图为一个无向时态图,是一个流式图。对该关键词共现图中的每条边按照到来时间越近具有越高的权重的原则进行衰减权重的确定,由于最近到来的边对于最近的突发事件更敏感,从而能够保证更为及时准确检测出突发事件。并且,根据关键词共现图中的每个关键词节点的节点活动频率的变化程度来确定关键词共现图中的突发热词节点,得到由各突发热词节点与其对应的各共现词节点组成的热词共现图,去除了关键词共现图中对于突发事件检测冗余一些关键词节点,使得依据该热词共现图进行图聚类处理以得到每个聚类结果对应的突发事件的检测结果更为准确。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种社交网络突发事件的多维度评估方法,其特征在于,包括:
获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;
对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;
分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;
根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设度量指标的值确定所述每个突发事件的重要性度量值,包括:
对所述每个突发事件中的各关键词节点的预设度量指标的值进行排序,确定每个突发事件中指标值较大的预设数量的关键词节点,所述预设数量的取值为大于或等于1的整数;
根据预设的指标值与得分的对应关系,计算每个突发事件中的所述预设数量的关键词节点的指标值对应的得分数,根据所述得分数确定对应的突发事件的重要性度量值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件,包括:
根据所述每个突发事件的重要性度量值确定所述每个突发事件的呈现颜色和所包含关键词节点的字体大小显示等级;
分别针对所述每个突发事件,根据所述每个突发事件中各关键词节点的所述预设度量指标的指标值大小,确定所述各关键词节点在对应的突发事件中的呈现形式,所述呈现形式包括字体大小、关联的边的宽度。
4.根据权利要求3所述的方法,其特征在于,所述预设度量指标包括以下指标中的一种:
居间中心性、接近中心性、带权度、带权出度、带权入度。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取突发热词共现图,包括:
依次获取待处理数据,所述待处理数据中包括至少一个数据文本;
依次对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的所述关键词共现图;
根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率;
确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率;
根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;
确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的所述突发热词共现图。
6.根据权利要求5所述的方法,其特征在于,所述根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率之前,还包括:
根据如下定义确定在当前检测时刻t时,所述每条边的每个到来时刻对应的衰减权重:
在当前检测时刻t时,时间ts到来的边的衰减权重为:其中,λ为衰减因子,衰减的半衰期为1/λ,0<λ<1。
7.根据权利要求6所述的方法,其特征在于,所述根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率,包括:
确定在当前检测时刻t,边(i,j)的边频率F(i,j,t)为:
其中,T(i,j,k)为边(i,j)到来的第k个到来时刻,N(i,j,k)为边(i,j)在第k个到来时刻中出现过的次数,边(i,j)为所述关键图共现图中的任一条边。
8.根据权利要求7所述的方法,其特征在于,所述确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率,包括:
确定节点i在当前检测时刻t的节点活动频率α(i,t)为:
其中,S(i,t)为节点i的邻节点集合,S(i,t)中节点的序列号为
9.根据权利要求8所述的方法,其特征在于,所述根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度,包括:
根据如下公式确定节点i的半衰期活动频率变化序列HA(i,t,λ):
HA(i,t,λ)=α(i,t)-α(i,t-1/λ);
其中,半衰期活动频率变化序列HA(i,t,λ)由当前检测时刻t依次为不同的时间时对应的各半衰期活动频率变化值组成;
根据节点i的半衰期活动频率变化序列HA(i,t,λ)确定节点i的活动频率变化程度ZValue为:
其中,μA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的均值,σA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的标准差。
10.根据权利要求5所述的方法,其特征在于,所述获取所述突发热词共现图之后,还包括:
对所述突发热词共现图进行过滤去噪处理,得到去噪后的突发热词共现图,其中,所述过滤去噪处理包括:
过滤掉所述突发热词共现图中边频率小于预设边频率阈值的边;
过滤掉所述突发热词共现图中邻节点数不大于预设数量阈值的节点,所述节点包括所述突发热词共现图中的突发热词节点和共现词节点;
相应的,所述对所述突发热词共现图进行预设图聚类算法处理,包括:
对所述去噪后的突发热词共现图进行所述预设图聚类算法处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061737.9A CN104615717B (zh) | 2015-02-05 | 2015-02-05 | 社交网络突发事件的多维度评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061737.9A CN104615717B (zh) | 2015-02-05 | 2015-02-05 | 社交网络突发事件的多维度评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615717A true CN104615717A (zh) | 2015-05-13 |
CN104615717B CN104615717B (zh) | 2018-03-09 |
Family
ID=53150159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061737.9A Active CN104615717B (zh) | 2015-02-05 | 2015-02-05 | 社交网络突发事件的多维度评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615717B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560824A (zh) * | 2015-09-30 | 2017-04-12 | 中兴通讯股份有限公司 | 事件检测方法、装置和系统 |
CN107395569A (zh) * | 2017-06-26 | 2017-11-24 | 中广热点云科技有限公司 | 一种在移动视频中播放紧急广播的方法 |
CN107622354A (zh) * | 2017-09-29 | 2018-01-23 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN109086341A (zh) * | 2018-07-10 | 2018-12-25 | 南京邮电大学 | 应用群体智能的热点事件热度度量方法 |
CN110516254A (zh) * | 2019-08-30 | 2019-11-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110704609A (zh) * | 2019-10-15 | 2020-01-17 | 中国科学技术信息研究所 | 基于社区隶属度的文本主题可视化方法、装置 |
CN111737555A (zh) * | 2020-06-18 | 2020-10-02 | 苏州朗动网络科技有限公司 | 热点关键词的选取方法、设备和存储介质 |
CN112612968A (zh) * | 2020-12-17 | 2021-04-06 | 北京理工大学 | 一种基于长期收益的动态社交网络中的链接推荐方法 |
CN115277070A (zh) * | 2022-06-17 | 2022-11-01 | 西安热工研究院有限公司 | 一种网络安全运维热力图的生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559176A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博情感演化分析方法及系统 |
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
-
2015
- 2015-02-05 CN CN201510061737.9A patent/CN104615717B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559176A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博情感演化分析方法及系统 |
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
Non-Patent Citations (3)
Title |
---|
于伟仁等: "on anomalous hotspot discovery in graph streams", 《2013 IEEE 13TH INTERNATIONAL CONFERENCE ON DATA MINING》 * |
张博: "有向网络的社区发现算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
龙睿: "针对微博数据的事件检测、跟踪及摘要生成", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560824A (zh) * | 2015-09-30 | 2017-04-12 | 中兴通讯股份有限公司 | 事件检测方法、装置和系统 |
CN107395569A (zh) * | 2017-06-26 | 2017-11-24 | 中广热点云科技有限公司 | 一种在移动视频中播放紧急广播的方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107633260B (zh) * | 2017-08-23 | 2020-10-16 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107622354B (zh) * | 2017-09-29 | 2020-06-26 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN107622354A (zh) * | 2017-09-29 | 2018-01-23 | 中国科学技术大学 | 一种基于区间二元语义的突发事件应急能力评估方法 |
CN109086341A (zh) * | 2018-07-10 | 2018-12-25 | 南京邮电大学 | 应用群体智能的热点事件热度度量方法 |
CN109086341B (zh) * | 2018-07-10 | 2022-10-04 | 南京邮电大学 | 应用群体智能的热点事件热度度量方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110516254A (zh) * | 2019-08-30 | 2019-11-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN110704609A (zh) * | 2019-10-15 | 2020-01-17 | 中国科学技术信息研究所 | 基于社区隶属度的文本主题可视化方法、装置 |
CN110704609B (zh) * | 2019-10-15 | 2022-03-15 | 中国科学技术信息研究所 | 基于社区隶属度的文本主题可视化方法、装置 |
CN111737555A (zh) * | 2020-06-18 | 2020-10-02 | 苏州朗动网络科技有限公司 | 热点关键词的选取方法、设备和存储介质 |
CN112612968A (zh) * | 2020-12-17 | 2021-04-06 | 北京理工大学 | 一种基于长期收益的动态社交网络中的链接推荐方法 |
CN112612968B (zh) * | 2020-12-17 | 2024-04-09 | 北京理工大学 | 一种基于长期收益的动态社交网络中的链接推荐方法 |
CN115277070A (zh) * | 2022-06-17 | 2022-11-01 | 西安热工研究院有限公司 | 一种网络安全运维热力图的生成方法 |
CN115277070B (zh) * | 2022-06-17 | 2023-08-29 | 西安热工研究院有限公司 | 一种网络安全运维热力图的生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104615717B (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615717A (zh) | 社交网络突发事件的多维度评估方法 | |
CN104598629B (zh) | 基于流式图模型的社交网络突发事件检测方法 | |
Castillo | Big crisis data: social media in disasters and time-critical situations | |
CN106682770B (zh) | 一种基于好友圈子的动态微博转发行为预测系统及方法 | |
CN103150374B (zh) | 一种识别微博异常用户的方法和系统 | |
CN108399241B (zh) | 一种基于多类特征融合的新兴热点话题检测系统 | |
CN104166726B (zh) | 一种面向微博文本流的突发关键词检测方法 | |
CN104537096A (zh) | 一种基于微博消息传播树的微博消息影响力度量方法 | |
CN103218412B (zh) | 舆情信息处理方法与装置 | |
US20160314397A1 (en) | Attitude Detection | |
CN106294333A (zh) | 一种微博突发话题检测方法及装置 | |
CN103179198A (zh) | 基于多关系网络的话题影响力个体挖掘方法 | |
CN104615718A (zh) | 社交网络突发事件的层次分析方法 | |
Alamsyah et al. | Hybrid sentiment and network analysis of social opinion polarization | |
Gadek et al. | Topical cohesion of communities on Twitter | |
JP2020098454A (ja) | テキスト情報判定装置及びそのプログラム | |
CN108153914B (zh) | 一种基于感知最大化的网络突发热点的感知方法 | |
CN108595515A (zh) | 一种结合微博弱关系的微博情感分析方法 | |
CN110516923A (zh) | 一种车联网信息综合评价方法 | |
Song et al. | A model of consistent node types in signed directed social networks | |
CN112685614B (zh) | 一种社交媒体机器人群体快速检测方法 | |
WO2023047206A1 (en) | Techniques for enriching device profiles and mitigating cybersecurity threats using enriched device profiles | |
Zhang et al. | A novel method for online bursty event detection on Twitter | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 | |
Wan et al. | A personalised recommendation algorithm of user preference products based on Bayesian network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |