CN110472105A - 一种基于时间划分的社交网络事件演化追踪方法 - Google Patents
一种基于时间划分的社交网络事件演化追踪方法 Download PDFInfo
- Publication number
- CN110472105A CN110472105A CN201910721933.2A CN201910721933A CN110472105A CN 110472105 A CN110472105 A CN 110472105A CN 201910721933 A CN201910721933 A CN 201910721933A CN 110472105 A CN110472105 A CN 110472105A
- Authority
- CN
- China
- Prior art keywords
- event
- time
- evolution
- tracing
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000010586 diagram Methods 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000000977 initiatory effect Effects 0.000 claims abstract description 7
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000010429 evolutionary process Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 19
- 238000011161 development Methods 0.000 description 13
- 238000013138 pruning Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 230000003068 static effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 235000012459 muffins Nutrition 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001088532 Alyxia ruscifolia Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000700 radioactive tracer Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于时间划分的社交网络事件演化追踪方法,应用于信息技术领域,针对现有技术中演化追踪方法存在的追踪误差的问题;本发明首先从各社交网站中采集用户发布动态中的文本信息,并对文本信息进行事件特征提取;其次根据获取的事件得到若干事件演化关系,采用时间划分的方法生成事件演化图;然后根据关注的焦点事件,选取起始事件和终止事件;最后使用维特比算法求解到达每个事件的最优路径;相比于现有的方法,本发明的事件演化追踪效果更佳。
Description
技术领域
本发明属于信息技术领域,特别涉及一种社交网络事件演化追踪技术。
背景技术
事件指在特定时间特定地点发生的特定事情。当前社交网络由于其便利性而受到了网络用户的广泛欢迎,因此现实生活中的很多事件都会在社交网络中有所反应。社交网络事件检测能够依据社交网络数据实时发现现实生活中的事件,对从社交网络中获取第一手的信息具有十分重要的作用。
事件演化(Event Evolution,EE)是指同一话题下的相关事件的传播发展过程。事件演化关系指的是两个事件之间的有向依赖关系。在生活中很多事件都有其发生、发展、结束等阶段,在各个阶段中又可能包含着一些子事件。因此,对于事件演化进行研究,对于一个事件的完整信息获取有着极其重要的作用。事件演化分析(Event Evolution Analysis,EEA)的目标是对话题下事件之间的关系进行刻画,构建事件关系模型进行演化分析事件演化关系的构建旨在充分利用事件的信息,刻画事件之间的演化关系。演化的含义包含了两方面的内容,一是时间上的先后顺序,即时序关系,主要用于确定演化方向;二是演化关系的强弱估计。
事件演化分析的相关研究主要包含事件演化关系构建和事件演化过程追踪两个方面。其中,事件演化关系构建通过对事件特征进行提取,得到演化关系的估计;事件演化过程追踪是根据事件的演化关系,利用演化图模型等方法对事件的发展过程进行追踪。事件演化图是事件演化分析的重要工具,现有的事件演化分析方法大多基于演化图模型来分析事件的演化过程。基于演化图模型的事件演化分析主要包括演化图生成和演化过程追踪两个步骤。事件演化图生成的目标是根据事件的演化相似度构建演化图中的有向边权值,最后形成完整的事件演化图。现有的事件演化图生成方法有两种,一种是按照事件发生时间的先后,根据时间窗口大小将事件序列划分为时间轴上的多个事件集,然后计算事件相似度,得到多阶段的图结构,另一种是根据时序关系构建所有事件之间的有向边,然后通过剪枝得到最终的演化图结构。事件演化过程追踪根据事件之间的演化关系,对事件的发展过程进行分析与追踪,从而得到事件的来龙去脉。现有的演化追踪方法包括故事线生成,最大生成树等方法。这些方法能够得到事件的发展过程的结构化表达,树状结构或链状结构。但是,目前缺少得到合理有效的演化过程的方法。因此,构建合理有效的演化过程是实现事件演化过程追踪的关键。
社交网络中的事件通常包含一定量的文本及文本对应的创建时间等信息,为了充分利用这些信息,需要对这些信息进行处理,进而使用处理后的信息构建演化关系。构建事件的演化过程会涉及到两方面的技术,一是事件特征提取,二是事件演化关系估计。
(1)事件特征提取
其中,提取事件的特征主要从“文本特征”、“时间特征”等方面进行提取。常用的文本特征提取方法包括词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、信息增益、互信息等。本发明采用词频-逆文档频率进行事件文本特征抽取。词频-逆文档频率主要包含词频和逆文档频率两个要素。词频代表文本中的某个单词在文本中出现的频率。逆文档频率表示整个文档语料库中某个单词提供多少信息的一种度量方法,该度量指标能够反映某个单词在整个文档语料库中的分布情况。对于逆文档频率的计算,如果出现单词没有在文档中出现的情况,会导致分母为零的情形发生,因此通常使用平滑的方式进行处理。事件的时间特征指的是同事件文本相关的时间信息,包括事件文本创建时间、事件文本中出现的时间表达式等。通过对事件进行特征提取,可以判定不同事件之间的相似度,进而确定演化关系。
(2)事件演化关系估计
事件演化关系估计用于评估两个事件之间的相关程度,进而构建事件演化图。事件演化关系的估计主要通过相似度来进行度量,包括时间相似度、文本相似度等。对于时间相似度,我们假设一个话题下的事件集合为E={e1,e2,...em},对应事件的时间序列集合为T={t1,t2,...tm},对于事件ek而言,它的时间序列就是tk。时间区间被用于时间相似度估计。具体做法是,对每个事件的时间序列,以事件的开始时间和结束时间界定事件的持续范围,作为事件的区间描述。事件ei的时间区间被定义为τi=[starti,endi]。两个时间区间之间的距离计算方法下式所示。
上式中,τ1=[start1,end1]和τ2=[start2,end2]分别代表两个事件的时间区间。其解释为,对于不交叠的两个时间区间,用后一个区间的开始时间减前一个区间的结束时间作为两者的时间距离;对于交叠的两个时间区间,则认为它们的时间距离为零。
另外,事件文本相似度是从文本特征角度估计事件之间的相关程度。首先对事件的文本特征进行抽取,得到文本层面的事件向量,然后通过余弦相似度等相似度计算方法对事件的相似度进行估计。事件通过事件检测与事件聚类算法得到,假设事件的文档集合为D={d1,d2,...dm},每篇文档代表事件的一次报道。现有两个事件e1和e2,事件e1和事件e2的文档集合分别为D1={d11,d12,...d1M}和D2={d21,d22,...d2N}。同时假设已经对事件的每个文档进行了特征抽取得到了特征向量,分别为V1={v11,v12,...v1M}和V2={v21,v22,...v2N}。现在需要对两个事件向量进行相似度计算。对于事件之间的相似度计算,Nallapati等在文档聚类阶段提出了三种事件计算方法,分别是单连接、平均连接、以及全连接。这三种计算方法取决于两个事件的文本向量对之间的选取方式,使用这些方法能够得到事件文本簇之间的相似度。Yang等提出使用事件文本簇平均向量代表事件向量,然后基于事件向量计算事件相似度。文本向量相似度通常使用余弦相似度进行衡量。
事件演化是指在同一话题下的相关事件的传播发展过程。通过对事件演化进行分析,可以得到事件的演化关系估计,进而根据该演化关系构建演化图对事件的发展过程进行追踪,从而获取到事件发生与发展的来龙去脉。事件演化过程追踪的相关研究主要是表征事件的演化过程,常见的结构有图状结构、树状结构、以及链状结构等。现有的基于演化图模型的事件演化分析方法都是利用事件的最小时间作为事件的发生时间,并以此为依据来构建事件演化图中的有向边。使用开始时间作为事件的发生时间估计存在误差,这种方法将得到错误的有向边,最终影响演化图的生成结果。此外,演化图中的演化关系比较复杂,不能直观的了解事件的发展过程。使用生成树、演化链的方式能够得到演化过程的结果,但目前还缺少合理有效的方法。
发明内容
为解决上述技术问题,本发明提出一种基于时间划分的社交网络事件演化追踪方法,通过将事件演化图划分成多个阶段,从状态转移概率的角度出发,然后利用维特比算法计算最优路径,得到的演化追踪结果较其他方法更好。
本发明采用的技术方案为:一种基于时间划分的社交网络事件演化追踪方法,包括:
S1、数据准备,从各社交网站中采集用户发布动态中的文本信息,并对文本信息进行事件特征提取;
S2、根据提取的事件特征构建事件演化关系,采用时间划分的方法生成事件演化图;
S3、根据关注的焦点事件,选取起始事件和终止事件;
S4、使用维特比算法求解到达每个事件的最优路径。
进一步地,步骤S2具体为:
S21、根据已知的事件之间的时间先后关系,构建事件之间的有向边,得到初步的事件演化图;
S22、对初步的事件演化图进行拓扑排序,得到事件沿着时间轴的序列;
S23、设定时间窗口,将事件沿时间轴的序列划分为若干阶段;
S24、保留相邻阶段事件之间的有向边,根据文本相似度和时间相似度计算事件之间的有向边权值,得到最终的事件演化图。
更进一步地,步骤S23具体为:
A1、根据步骤S22拓扑排序的结果,得到第一个事件;初始化第一个阶段的事件集合为空集,并将第二个事件放入第一个阶段的事件集合中,作为第一个阶段的事件集合的开始事件;
A2、从第三个事件开始,计算当前事件同当前阶段的事件集合中的开始事件之间的时间距离;
A3、若时间距离小于设定时间窗口的大小,则将该事件按顺序添加到当前阶段的事件集合中;否则,创建一个新的阶段的事件集合,将该事件添加到新的阶段的事件集合中,作为新的阶段的时间集合的开始事件;
A4、重复步骤A2-A3,直至步骤S22拓扑排序的结果中的所有事件完成阶段划分。
进一步地,步骤S4具体为:通过将最终的事件演化图等效为篱笆网络;采用维特比算法对篱笆网络逐层求解到达每个事件的最优路径。
更进一步地,所述篱笆网络结构为:包括若干层,将最终的事件演化图中的一个阶段或连续多个阶段等效为篱笆网络中的一层;每层对应的事件等效为该层下的状态。
进一步地,根据篱笆网络结构将最优路径求解问题转化为最优状态序列求解问题。
本发明的有益效果:本发明的一种基于时间划分的社交网络事件演化追踪方法,对于事件演化图的生成,通过设定时间窗口,从时间距离的相对大小的角度将事件集划分成多个阶段,然后根据时序关系生成演化图的有向边,并从文本相似度和时间相似度两个方面构建演化相似度。对于事件演化过程追踪,根据目标事件的不同,将事件的演化过程描述为事件演化图中的多条链路,称这些链路为演化路径。根据演化的目标事件的不同,使用维特比算法求解演化图中的最优路径,然后将这些演化路径组织成一棵或多棵演化树。利用最小编辑距离对得到的演化过程进行综合评估显示,本发明对于事件演化追踪效果有显著的改善。
附图说明
图1为本发明方法的流程图;
图2为本发明实施例提供的时间演化图;
图3为本发明实施例提供的基于时间划分的事件演化图生成流程图;
图4为本发明实施例提供的基于时间划分的事件阶段流程图;
图5为本发明实施例提供的篱笆网络示意图;
图6为本发明实施例提供的本发明方法与其他方法的效果对比图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
如图1所示为本发明的方法流程图,包括以下步骤:
1、数据准备
11、本发明的原始数据的来源为从各个社交网站中采集用户发布动态中的文本信息,所述社交网站比如国内外的领英、推特、微博等。
12、事件特征提取
提取事件的特征主要从“文本特征”、“时间特征”等方面进行提取。常用的文本特征提取方法包括词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、信息增益、互信息等。本发明采用词频-逆文档频率进行事件文本特征抽取。词频-逆文档频率主要包含词频和逆文档频率两个要素。词频代表文本中的某个单词在文本中出现的频率。逆文档频率表示整个文档语料库中某个单词提供多少信息的一种度量方法,该度量指标能够反映某个单词在整个文档语料库中的分布情况。对于逆文档频率的计算,如果出现单词没有在文档中出现的情况,会导致分母为零的情形发生,因此通常使用平滑的方式进行处理。事件的时间特征指的是同事件文本相关的时间信息,包括事件文本创建时间、事件文本中出现的时间表达式等。通过对事件进行特征提取,可以判定不同事件之间的相似度,进而确定演化关系。
2、基于时间划分的事件演化图生成
事件演化图是一个有向无环图(Directed Acyclic Graph,DAG),图中的节点表示事件,图中的有向边代表事件之间的依赖关系。
事件演化图模型使用一个有向图来对事件演化图进行表示,设演化图为G={E,L},其中,E表示事件集,L表示有向边集。假设G中存在M个事件,那么,有E={e1,e2,...eM}。对于演化图G的事件集E中的两个事件ei和ej(其中,i≠j),假设事件ei与ej之间存在关联,用(ei,ej)表示他们之间的演化关系,其含义为在事件演化图G中存在一条由节点ei指向节点ej的有向边,称ei为ej的父事件,ej为ei的子事件。确定父子演化关系最基本的依据就是事件发生时间的先后顺序,对于一种演化关系而言,父事件的发生时间一定早于子事件的发生时间。
按照事件发生的先后顺序构造演化图G中的有向边,便可以得到有向边集的表达方式,即L={(ei,ej)|ei∈E,ej∈E,1≤i≤M,1≤j≤M,i≠j}。
事件演化图的示例如图2所示。利用事件之间的时序关系能够构建出演化图的有向边,进而得到整个话题下的事件演化图。上述方法虽然能够构建演化关系,但是对于一个包含N个事件的话题,会得到N(N-1)/2个时序关系对,在这些时序关系对中,并不是每一对时序关系都是有效的。对于一些演化关系很弱的有向边,它们的存在不仅增加了图的规模,同时还降低了演化图的质量。因此,需要在初始的演化图的基础上进行剪枝。
现有的生成事件演化图的方法通常是:首先生成所有事件之间的演化关系,然后通过剪枝的方法得到最终的事件演化图。根据文献,事件演化图的剪枝方法包括静态阈值法和静态剪枝法。静态阈值法的原理是设定一个相似度阈值λ,λ值设定可参考文献C.C.Yang,X Shi,C.P.Wei.Discovering Event Evolution Graphs From News Corpora[J].IEEE Transactions on Systems Man and Cybernetics-Part A Systems andHumans,2009,39(4):850-863,对初始的事件演化图中,演化相似度低于λ的边都被删除,使得演化图中的边权值均不小于λ。假设初步得到的事件演化图G=(E,L),其中,E表示事件集合,L表示初始有向边集合。于是,阈值剪枝后得到的事件演化图中边的集合如式(1)所示。
L'={(ei,ej)|score(ei,ej)≥λ} (1)
式(1)中,(ei,ej)表示从事件ei到事件ej的一条有向边,score(ei,ej)表示有向边的演化相似度。
静态剪枝法在阈值法的基础上增加了新的限制条件,包括限制每个事件的父事件的个数以及限制每个事件的子事件个数。在事件演化图中,对父事件个数的限制通过入度阈值来进行描述,对子事件个数的限制通过出度阈值来进行描述。静态剪枝法的流程是,对于事件演化图中每一个事件ei,首先,对其施加一个入度限制Ni,以及一个出度限制N0,然后,对其关联的父事件集合和子事件集合分别按照演化相似度从大到小排列,得到演化相似度的降序排列。接下来,根据入度阈值Ni和出度阈值N0,只保留相似度最高的N0个子节点,以及相似度最高的Ni个父节点。最后,得到剪枝后的事件演化图。通过静态剪枝法得到的事件演化图中边的集合如式(2)所示。
L'={(ei,ej)|[score(ei,ej)≥λ]∩[g((ei,ej),ei)≤No]∩[g((ei,ej),ej)≤Ni]} (2)
式(2)中,g((ei,ej),ei)表示的是以事件ei为父事件的降序排列的演化关系中的排名,g((ei,ej),ej)表示的是以事件ej为子事件降序排列的演化关系中的排名。
考虑到社交网络中事件的演化通常是按照时间顺序进行发展,呈现为多个阶段的过程。因此,本发明将事件的演化过程视为一个阶段性发展的过程。利用时间划分的思想将事件划分到不同的多个阶段,然后构建阶段性的事件演化图,整体流程如图3所示。
基于时间划分的演化图生成方法主要包含以下步骤:
B1、对已有的事件文本簇,假设已知事件之间的时间先后关系,从而构建事件之间的有向边,得到初步的事件演化图;
B2、对事件演化图进行拓扑排序,得到事件沿着时间轴的一个序列;
B3、设定时间窗口,对事件的时间轴序列进行划分,得到若干“阶段”;
B4、保留相邻阶段事件之间的有向边,使用文本相似度和时间相似度计算事件之间的有向边权值,得到最终的事件演化图。
步骤B3中的时间窗口一般是根据整体事件的持续时间(从起始事件到终止终止事件的时间)以及话题下的事件个数;选取事件集合之间的时间距离从而得到的时间窗口。
通过从时间距离对演化关系的影响程度进行分析;发现,对于时间距离很近的两个事件,虽然它们在内容上存在很高的相似度,但是由于发生的时间十分接近,它们可能并不存在很强的演化关系;因此,本发明通过使用时间窗口的方式将时间距离很近的事件划分在一个阶段的方式能够有效克服时间距离带来的影响。因此,本发明通步骤B3的处理克服时间距离带来的影响,本发明通过时间划分,将话题下的事件分成不同时间阶段,生成各阶段下的事件集合。本发明以时间距离作为划分依据,具体的生成方法流程如图4所示。包括以下步骤:
B31、根据拓扑排序结果,得到第一个事件。初始化第一个阶段的事件集合为空集,并将第二个事件放入其中;第一个事件不放入第一个阶段的事件集合中。
这里拓扑排序结果中的第一个事件是序列中的最开始的事件,可以认为其被作为了“起始事件”,一定会在最终的路径中,因此第一个事件不放入阶段的事件集合中;各阶段的事件集合按照先后顺序放入事件;则第二个事件是第一个阶段的事件集合中的开始事件;
B32、从第三个事件开始,计算事件同当前阶段开始事件之间的时间距离;
B33、根据B32的结果,如果时间距离的值小于时间窗口的大小,则将事件添加到当前阶段的事件集合中,否则,创建一个新的阶段,将事件添加到新的阶段的事件集合中,则该事件为新的阶段的事件集合的开始事件;
B34、重复B32,直到访问完所有的事件,输出每个阶段下的事件集合。
得到各阶段的事件划分的结果之后,下一步是生成事件演化图。
3、根据关注的焦点事件,选取起始事件和终止事件;
通常一个话题下包含了多个事件,一个话题下的事件或多或少存在一定的关联,但是,因为每个事件的侧重点不同,使得发展到每个事件的过程也各不相同。根据对关注焦点不同的事件进行分析,可以发现事件的演化路径与关注的焦点息息相关。同时,事件演化路径通常是以一个种子事件开始,根据焦点的不同,结束于多个不同的事件。
比如袭击这个话题关注的焦点可以是:(1)人员的伤亡与救援情况;(2)恐怖袭击造成的破坏、警方追捕情况、对恐怖袭击的审理。
对于这个话题,他们的焦点都是恐怖袭击的首次发生。例如,恐怖分子袭击了某栋大楼。人员伤亡、救援,与恐怖分子袭击造成破坏几乎是同时出现的。对于一般事件而言,关注的焦点对起始事件的影响一般不大。
终止事件:(1)对于第一个焦点,一般是救援工作全部完成,官方或媒体给出统计数据,袭击造成的伤亡情况,救治情况等等(而在发展过程中,随着救援的进行这个伤亡的统计可能在不断的变动)。(2)对于第二个焦点,一般是以警方对嫌疑分子的抓获及发布最终审判结果为事件的终止。(这个焦点在时间上可能与第一个焦点有很大差别)
4、基于维特比算法的事件演化过程追踪
事件演化图使用有向边描述事件之间的演化关系,但是,因为演化图中存在多条有向边,所以事件的演化过程仍然不能被清晰的呈现。考虑将所有的演化路径组织起来,形成一棵或者多棵演化树,对事件的演化过程进行表达。因此,事件演化过程追踪的关键在于演化路径的追踪。而演化路径追踪问题实际上可以转变为给定种子事件和结束事件,如何找到一条从种子事件到结束事件的演化路径问题。
本发明将事件演化过程描述为话题下事件发展的阶段性过程,包括了发生阶段、发展阶段、以及结束等多个阶段。每个阶段都包含了若干事件,对于每个阶段的事件而言,到达该阶段的各事件的过程各不相同。本发明将事件演化过程追踪问题视作演化图中的路径追踪问题,然后利用这些路径构建成一棵演化过程树。在这颗演化树中,到达每个事件结点的路径是最优的。
比如某地发生了恐怖袭击,恐怖袭击持续了很长时间。这个大的恐怖袭击话题下又包括很多小的事件,比如袭击发生阶段开始有恐怖分子袭击了某地;袭击发展阶段可能包括了救援、媒体关于伤亡情况的报道等事件;袭击结束阶段可能包括了政府的镇压,对本次恐怖袭击的统计结果的报道等。
可以将事件演化图的路径追踪问题转换为有向无环图中的最优路径问题,下面给出问题的具体描述。对于一个图G=(E,L)而言,设图中的一条路径为v=(v1,v2,...vn),对于路径v上的任意结点vi而言,结点vi同结点vi+1是邻接的,其中1≤i<n。称路径v是从结点v1到结点vn的长度为n-1的路径。根据步骤A1-A4中所描述的基于时间划分的事件演化图生成过程,得到的演化图实际上是一个篱笆网络。因此,事件演化路径追踪问题实际上也是篱笆网络中最优路径的求解问题。
图5所示的篱笆网络中,从开始事件到结束事件一共经历了3个阶段。其中,第一阶段包含了事件1和事件2,第二阶段包含了事件3、事件4和事件5,第三阶段包含了事件6和事件7。每个相邻的阶段都通过有向边进行连接,边的权值代表事件演化相似度。
篱笆网络中的每一层实际上代表了事件发生过程中的每个阶段,每层下的状态表示了每个阶段下的事件。因此,最优路径求解问题就转化成了最优状态序列求解问题。相邻阶段之间的事件之间的演化关系实际上代表了不同层之间状态转移关系。因此,本发明从状态转移的角度对事件的演化路径进行了建模,即,将相邻阶段的有向边的权值视作状态转移概率。由于事件相似度取值为从0到1的一个浮点数,并且从前一个阶段到达相邻的后一个阶段的所有的有向边权值之和不为1,应当进行归一化处理,但对于最优序列的求解而言,可以不进行归一化。
设V表示状态序列空间,v为状态序列空间的某个序列。并且,序列v的长度为n,vi表示第i层的状态取值,求解最优序列的目标函数如式(3)所示。
式(3)中,p(vi|vi-1)表示从状态vi-1转移到状态vi概率,其计算公式如式(4)所示。
式(4)中,w(vi-1,vi)代表状态vi-1和状态vi的相似度,|Li|表示第i层的状态取值空间的大小。
综合式(3)和式(4)可以得到式(5)。
式(5)中,由于对于所有的状态序列而言,所有层的状态取值空间大小的乘积是一个常数,因此式(5)实际上可以化为式(6)。
式(6)就是最优路径的求解目标。对于该优化目标的求解,如果采用暴力法,则会产生惊人的计算复杂度。对于一个层数为K,宽度为D的篱笆网络而言,使用暴力法对所有的状态序列进行计算,其时间复杂度为O(DK),因此不能使用暴力法。
对于状态序列的求解问题,使用动态规划的方法能够在很大程度上减小计算复杂度。本发明使用维特比算法对篱笆网络中的最优路径问题进行求解。维特比算法属于一种动态规划算法,通常被用来对篱笆网络中的最优路径进行求解。篱笆网络中的每一层都包含了若干状态,维特比算法的目标就是逐层计算到达每个状态的序列,只保留到达当前状态的最可能序列,直到计算到最后一层,得到全局最可能的状态序列。维特比算法的核心思想在于,一旦计算出了第i层的每个状态的最可能的取值,就可以在此基础上计算第i+1层中每个状态的最可能取值。对于一个层数为K,宽度为D的篱笆网络而言,其计算复杂度为O(KD2)。利用维特比算法得到每个状态的最可能取值以后,通过回溯的方式就能够得到到达每个状态的最优路径。
得到话题下的多条演化路径之后,将它们组织起来,形成一棵或者多棵演化树,作为演化过程的估计,能够清晰地得到不同事件的发展过程。
5、采用最小编辑距离对得到的演化过程进行综合评估
如表1-5所示,本实施例例举了多伦多汽车撞人系列事件、芝加哥警察枪击系列事件、日本洪水系列事件、美国田纳西州松饼屋枪击系列事件、巴基斯坦选举爆炸系列事件5个话题下的各关注焦点,本发明方法与基于静态剪枝法生成的事件演化图中利用最大权值、路径、最大平均路径、以及生成路径等求解最优路径的方法进行对照。
表1多伦多汽车撞人系列事件
表2芝加哥警察枪击系列事件
表3日本洪水系列事件
表4美国田纳西州松饼屋枪击系列事件
表5巴基斯坦选举爆炸系列事件
将各种路径策略在5个话题下的指标进行综合考量,将各组数据的最小编辑距离求和作为整体评判指标,得到的结果如图6所示。
通过求解各个方法的最小编辑距离,得到的演化路径的质量好坏从高到低依次为:本发明使用的方法、生成路径方法、权值平均方法、以及权值和方法;可见本发明对于事件演化追踪效果有显著的改善。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (6)
1.一种基于时间划分的社交网络事件演化追踪方法,其特征在于,包括:
S1、数据准备,从各社交网站中采集用户发布动态中的文本信息,并对文本信息进行事件特征提取;
S2、根据提取的事件特征构建事件演化关系,采用时间划分的方法生成事件演化图;
S3、根据关注的焦点事件,选取起始事件和终止事件;
S4、使用维特比算法求解到达每个事件的最优路径。
2.根据权利要求1所述的一种基于时间划分的社交网络事件演化追踪方法,其特征在于,步骤S2具体为:
S21、根据已知的事件之间的时间先后关系,构建事件之间的有向边,得到初步的事件演化图;
S22、对初步的事件演化图进行拓扑排序,得到事件沿着时间轴的序列;
S23、设定时间窗口,将事件沿时间轴的序列划分为若干阶段;
S24、保留相邻阶段事件之间的有向边,根据文本相似度和时间相似度计算事件之间的有向边权值,得到最终的事件演化图。
3.根据权利要求2所述的一种基于时间划分的社交网络事件演化追踪方法,其特征在于,步骤S23具体为:
A1、根据步骤S22拓扑排序的结果,得到第一个事件;初始化第一个阶段的事件集合为空集,并将第二个事件放入第一个阶段的事件集合中,作为第一个阶段的事件集合的开始事件;
A2、从第三个事件开始,计算当前事件同当前阶段的事件集合中的开始事件之间的时间距离;
A3、若时间距离小于设定时间窗口的大小,则将该事件按顺序添加到当前阶段的事件集合中;否则,创建一个新的阶段的事件集合,将该事件添加到新的阶段的事件集合中,作为新的阶段的时间集合的开始事件;
A4、重复步骤A2-A3,直至步骤S22拓扑排序的结果中的所有事件完成阶段划分。
4.根据权利要求3所述的一种基于时间划分的社交网络事件演化追踪方法,其特征在于,步骤S4具体为:通过将最终的事件演化图等效为篱笆网络;采用维特比算法对篱笆网络逐层求解到达每个事件的最优路径。
5.根据权利要求4所述的一种基于时间划分的社交网络事件演化追踪方法,其特征在于,所述篱笆网络结构为:包括若干层,将最终的事件演化图中的一个阶段或连续多个阶段等效为篱笆网络中的一层;每层对应的事件等效为该层下的状态。
6.根据权利要求5所述的一种基于时间划分的社交网络事件演化追踪方法,其特征在于,根据篱笆网络结构将最优路径求解问题转化为最优状态序列求解问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721933.2A CN110472105A (zh) | 2019-08-06 | 2019-08-06 | 一种基于时间划分的社交网络事件演化追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721933.2A CN110472105A (zh) | 2019-08-06 | 2019-08-06 | 一种基于时间划分的社交网络事件演化追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472105A true CN110472105A (zh) | 2019-11-19 |
Family
ID=68510240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910721933.2A Pending CN110472105A (zh) | 2019-08-06 | 2019-08-06 | 一种基于时间划分的社交网络事件演化追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472105A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177311A (zh) * | 2019-12-10 | 2020-05-19 | 华能集团技术创新中心有限公司 | 一种事件处理结果的数据分析模型及分析方法 |
CN111680205A (zh) * | 2020-06-12 | 2020-09-18 | 杨鹏 | 一种基于事理图谱的事件演化分析方法及装置 |
CN112307278A (zh) * | 2020-10-26 | 2021-02-02 | 中国科学院计算技术研究所 | 一种任意尺度的话题脉络实时生成方法及系统 |
CN112465262A (zh) * | 2020-12-07 | 2021-03-09 | 北京明略软件系统有限公司 | 一种事件预测处理方法、装置、设备及存储介质 |
CN112463875A (zh) * | 2020-11-27 | 2021-03-09 | 国网山东省电力公司建设公司 | 孪生数据可视化监测系统 |
TWI753674B (zh) * | 2020-11-26 | 2022-01-21 | 國立清華大學 | 基於時間之社群網路中傳播機率之計算方法及其系統 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070448A1 (en) * | 2002-06-24 | 2010-03-18 | Nosa Omoigui | System and method for knowledge retrieval, management, delivery and presentation |
CN101819585A (zh) * | 2010-03-29 | 2010-09-01 | 哈尔滨工程大学 | 一种论坛事件传播图的构建装置及构建方法 |
CN103631862A (zh) * | 2012-11-02 | 2014-03-12 | 中国人民解放军国防科学技术大学 | 基于微博的事件特征演化挖掘方法及系统 |
CN109145224A (zh) * | 2018-08-20 | 2019-01-04 | 电子科技大学 | 社交网络事件时序关系分析方法 |
CN109325524A (zh) * | 2018-08-31 | 2019-02-12 | 中国科学院自动化研究所 | 事件追踪与变化阶段划分方法、系统及相关设备 |
CN109493246A (zh) * | 2018-11-22 | 2019-03-19 | 中国矿业大学 | 一种动态社交网络社区演化分析方法及其系统 |
CN109726289A (zh) * | 2018-12-29 | 2019-05-07 | 北京百度网讯科技有限公司 | 事件检测方法及装置 |
-
2019
- 2019-08-06 CN CN201910721933.2A patent/CN110472105A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070448A1 (en) * | 2002-06-24 | 2010-03-18 | Nosa Omoigui | System and method for knowledge retrieval, management, delivery and presentation |
CN101819585A (zh) * | 2010-03-29 | 2010-09-01 | 哈尔滨工程大学 | 一种论坛事件传播图的构建装置及构建方法 |
CN103631862A (zh) * | 2012-11-02 | 2014-03-12 | 中国人民解放军国防科学技术大学 | 基于微博的事件特征演化挖掘方法及系统 |
CN109145224A (zh) * | 2018-08-20 | 2019-01-04 | 电子科技大学 | 社交网络事件时序关系分析方法 |
CN109325524A (zh) * | 2018-08-31 | 2019-02-12 | 中国科学院自动化研究所 | 事件追踪与变化阶段划分方法、系统及相关设备 |
CN109493246A (zh) * | 2018-11-22 | 2019-03-19 | 中国矿业大学 | 一种动态社交网络社区演化分析方法及其系统 |
CN109726289A (zh) * | 2018-12-29 | 2019-05-07 | 北京百度网讯科技有限公司 | 事件检测方法及装置 |
Non-Patent Citations (6)
Title |
---|
CHIH-PING WEI, ET AL.: "Discovering Event Evolution Patterns From Document Sequences", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART A: SYSTEMS AND HUMANS》 * |
CHRISTOPHER C. YANG,ET AL.: "Discovering Event Evolution Graphs From News Corpora", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART A: SYSTEMS AND HUMANS》 * |
FU-REN LIN,ET AL.: "Storyline-based summarization for news topic retrospection", 《DECISION SUPPORT SYSTEMS》 * |
ZHONGYU LU,ET AL.: "Discovering Event Evolution Chain in Microblog", 《2015 IEEE 12TH INTERNATIONAL CONF ON EMBEDDED SOFTWARE AND SYSTEMS (ICESS)》 * |
杜秋霞: "无结构化文本中事件的时空信息抽取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
梁月仙等: "基于时空分析的突发事件检测方法", 《计算机工程》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177311A (zh) * | 2019-12-10 | 2020-05-19 | 华能集团技术创新中心有限公司 | 一种事件处理结果的数据分析模型及分析方法 |
CN111177311B (zh) * | 2019-12-10 | 2024-03-29 | 华能集团技术创新中心有限公司 | 一种事件处理结果的数据分析模型及分析方法 |
CN111680205A (zh) * | 2020-06-12 | 2020-09-18 | 杨鹏 | 一种基于事理图谱的事件演化分析方法及装置 |
CN112307278A (zh) * | 2020-10-26 | 2021-02-02 | 中国科学院计算技术研究所 | 一种任意尺度的话题脉络实时生成方法及系统 |
CN112307278B (zh) * | 2020-10-26 | 2024-02-23 | 中国科学院计算技术研究所 | 一种任意尺度的话题脉络实时生成方法及系统 |
TWI753674B (zh) * | 2020-11-26 | 2022-01-21 | 國立清華大學 | 基於時間之社群網路中傳播機率之計算方法及其系統 |
US11557006B2 (en) | 2020-11-26 | 2023-01-17 | National Tsing Hua University | Method and system for calculating total transmission probability within social network based on timing |
CN112463875A (zh) * | 2020-11-27 | 2021-03-09 | 国网山东省电力公司建设公司 | 孪生数据可视化监测系统 |
CN112465262A (zh) * | 2020-12-07 | 2021-03-09 | 北京明略软件系统有限公司 | 一种事件预测处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472105A (zh) | 一种基于时间划分的社交网络事件演化追踪方法 | |
Krishna et al. | Thieves on sesame street! model extraction of bert-based apis | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN108681610B (zh) | 生成式多轮闲聊对话方法、系统及计算机可读存储介质 | |
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
Masucci et al. | Network properties of written human language | |
CN100504856C (zh) | 基于相关词的聚类描述文档的方法和装置 | |
Rajapaksha et al. | Bert, xlnet or roberta: the best transfer learning model to detect clickbaits | |
Amplayo et al. | Cold-start aware user and product attention for sentiment classification | |
CN109325132A (zh) | 专家知识推荐方法、装置、计算机设备及存储介质 | |
CN111523831B (zh) | 风险团伙的识别方法、装置、存储介质和计算机设备 | |
CN105931046A (zh) | 一种可疑交易节点集合侦测方法及装置 | |
CN106294618A (zh) | 搜索方法及装置 | |
CN109117981A (zh) | 基于抽样的有向图的单源链接预测方法 | |
CN105740448A (zh) | 面向话题的多微博时序文摘方法 | |
CN104484365B (zh) | 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统 | |
CN114817508A (zh) | 融合稀疏图和多跳注意力的会话推荐系统 | |
CN112734104A (zh) | 一种融合双生成器双判别器的生成对抗网络和自编码器的跨域推荐方法 | |
CN115269983A (zh) | 基于双方数据隐私保护的目标样本推荐方法 | |
CN107729569B (zh) | 一种融合网络结构和文本信息的社交关系预测方法 | |
CN112488063B (zh) | 一种基于多阶段聚合Transformer模型的视频语句定位方法 | |
Ying et al. | FrauDetector+ An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection | |
CN115238170A (zh) | 基于区块链金融的用户画像处理方法及系统 | |
CN110909254B (zh) | 基于深度学习模型针对问答社区进行问题热度预测的方法和系统 | |
CN108417204A (zh) | 基于大数据的信息安全处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |
|
RJ01 | Rejection of invention patent application after publication |