CN109325524A - 事件追踪与变化阶段划分方法、系统及相关设备 - Google Patents
事件追踪与变化阶段划分方法、系统及相关设备 Download PDFInfo
- Publication number
- CN109325524A CN109325524A CN201811014739.2A CN201811014739A CN109325524A CN 109325524 A CN109325524 A CN 109325524A CN 201811014739 A CN201811014739 A CN 201811014739A CN 109325524 A CN109325524 A CN 109325524A
- Authority
- CN
- China
- Prior art keywords
- point
- news
- track
- cut
- evolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000011161 development Methods 0.000 claims description 27
- 230000008033 biological extinction Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004804 winding Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 241001062009 Indigofera Species 0.000 description 9
- 238000001514 detection method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009514 concussion Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000000147 hypnotic effect Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备,旨在提高计算效率。本发明的方法包括:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;然后进行话题聚类,选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间;以起始发布时间为起点,绘制待追踪事件在单位时间内的信息量随时间变化的曲线,再进行等时间间隔采样,绘制出平滑后的演化包络线;求出极大值点的个数,进而计算出变化阶段的个数;计算出极大值点和极小值点;在每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。本发明提升了算法的效率,降低了时间复杂度、阈值依赖和形状依赖。
Description
技术领域
本发明涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备。
背景技术
互联网时代,人们获取信息的渠道更加多元化,除了传统的纸质媒体之外,各类社交媒体网站也层出不穷,如微博、博客、论坛、Twitter等等。我国正处于经济快速发展的社会转型期,事故灾害事件,公共卫生事件、社会安全事件等社会事件频繁发生。现如今社会媒体网站已逐渐成为人们获取新闻事件的主要渠道。所以,基于社会媒体,对事件进行分析、研究、归纳、挖掘,对舆情及其事件的发展趋势、风向、苗头进行全面的预判分析,提高事件处置的针对性和前瞻性十分必要。
以专题事件为对象,分析其内容变迁的研究属于话题检测与追踪的研究范畴,即Topic Detection and Tracking(TDT)。TDT主要是面向新闻媒体的信息流进行话题检测、发现和追踪。传统的TDT一般事先给定若干篇话题隐含的、但彼此是同一话题的先验报道,用以训练话题识别模型,然后利用该模型去甄别语料中的文档,从而获得相关的一系列报道,达到话题追踪的目的。所以,传统TDT需要识别出给定语料中关于某个已知话题的报道。其核心是如何衡量单一新闻文本与专题的相关性。技术层面,通常是借助一定的分类、聚类方法或语言模型来解决。因此传统的TDT无法识别多话题多文档,同时在话题聚类时也会出现噪声抖动的现象,存在聚类依赖现象。
变化阶段划分会涉及时态信息。目前主要有三类基于时间的话题模型:后离散时间型、先离散时间型、时间变量结合型。三类模型的核心思想是一致的,即利用主题生成模型获得文档集的主题词集合,并采用一定的策略将时间因素与主题词完成配对,从而得到基于时间的话题动态演化模型。Ha-Thus等人基于微博新闻进行话题演化研究,首先利用Latent Dirichlet Allocation(LDA)生成主题模型,再通过计算词与话题的后验概率得到词语话题的相关性,并以此为基础求得话题在各个时间窗口的强度从而进行话题追踪。就新闻文档的可获取性而言,更多地只能将新闻的发布时间作为时间因素考虑,一定程度上影响了话题模型的准确性。同时该方法的时间复杂度偏高,实际应用时效率低下,而且在划分阶段时需要求得阈值和顶点,存在阈值依赖和形状依赖的问题。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种事件追踪与变化阶段划分方法、系统及相关设备,提升了算法的效率,降低了时间复杂度。
本发明的一方面,提出一种事件追踪与变化阶段划分方法,包括以下步骤:
从多个不同的新闻传播通道中采集新闻数据并存入数据库中;
对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;
以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;
求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;
在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;
在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
优选地,所述数据库包括:一个汇总数据库和/或与各新闻传播通道一一对应的通道数据库;
相应地,
“从多个不同的新闻传播通道中采集新闻数据并存入数据库中”的步骤具体包括:从多个预先确定的所述新闻传播通道中采集新闻数据,并存入所述汇总数据库中;和/或
将采集的所述新闻数据,依据采集通道的不同分别存入对应的所述通道数据库中;
“对所述数据库中的所述新闻数据进行话题聚类”,包括:对所述汇总数据库中的话题进行聚类,或对某一个指定新闻通道所对应的通道数据库中的话题进行聚类。
优选地,“对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间”的步骤具体包括:
从所述数据库中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为一个新闻集合;
从所述数据库中剩下的新闻数据中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为另一个新闻集合;
重复执行,直到无法聚类出新的新闻集合,通过极值点去重的方式删除不需要的集合;
选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。
优选地,“在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点”的步骤具体包括:
在所述演化包络线上,分别将每个变化阶段等间隔地划分为n个时间段,并计算出每个时间段中产生的信息量ski;
将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极大值点:
将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极小值点:
其中,ski为第k个变化阶段中第i个时间段所产生的信息量,k=1,2,...,K,i=1,2,...,n;K为事件变化阶段的个数;n为所述预设数量;τA为预设的第一阈值;τB为预设的第二阈值。
优选地,“在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段”的步骤具体包括:
计算出所述演化包络线上第一个极大值与预设的信息量百分比m的乘积,得到发生阶段分割点M的纵坐标;将所述起始发布时间到所述发生阶段分割点M之间的时间段定义为事件发生阶段;
计算出所述演化包络线上最后一个极大值与预设的信息量百分比l的乘积,得到消亡阶段分割点L的纵坐标;将所述消亡阶段分割点L到所述演化包络线结束点之间对应的时间段定义为事件消亡阶段;
将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;
其中,
所述中间阶段的组数与极大值点的个数相同,每组所述中间阶段包括:一个发展阶段、一个高峰阶段、一个回落阶段;
“将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段”的步骤具体包括:
针对第一个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A1、B1、C1的纵坐标;在所述演化包络线上找到位于第一个极大值点前方的分割点A1,找到位于第一个极大值点后方的分割点B1、C1,进而将所述发生阶段分割点M与分割点A1之间对应的时间段定义为第一个发展阶段,将分割点A1与B1之间对应的时间段定义为第一个高峰阶段,将分割点B1与C1之间对应的时间段定义为第一个回落阶段;
针对第二个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A2、B2、C2的纵坐标;在所述演化包络线上找到位于第二个极大值点前方的分割点A2,找到位于第二个极大值点后方的分割点B2、C2,进而将分割点C1与分割点A2之间对应的时间段定义为第二个发展阶段,将分割点A2与B2之间对应的时间段定义为第二个高峰阶段,将分割点B2与C2之间对应的时间段定义为第二个回落阶段;
依次类推,直到定义完最后一个发展阶段、最后一个高峰阶段和最后一个回落阶段。
优选地,所述方法还包括:
分别获取各个变化阶段的起止时刻对应的信息,作为关键信息。
优选地,“根据所述极大值点的个数计算出变化阶段的个数”具体为:
根据下式计算变化阶段的个数:
K=3*i+2
其中,K为变化阶段的个数,i为所述极大值点的个数。
优选地,在“求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数”之前,还包括:
若所述演化包络线上的极值点个数超过预设的极值点个数阈值,则利用K-means聚类算法将过密的极值点进行合并。
本发明的另一方面,提出一种事件追踪与变化阶段划分系统,所述系统包括:数据获取模块、溯源模块、曲线绘制模块、阶段数计算模块、极值点计算模块、阶段划分模块;
所述数据获取模块配置为:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;
所述溯源模块配置为:对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;
所述曲线绘制模块配置为:以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;
所述阶段数计算模块配置为:求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;
所述极值点计算模块配置为:在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;
所述阶段划分模块配置为:在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
优选地,所述系统还包括:关键信息获取模块;
所述关键信息获取模块配置为:分别获取各个所述变化阶段的起止时刻对应的信息,作为关键信息。
本发明的第三方面,提出一种存储设备,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的事件追踪与变化阶段划分方法。
本发明的第四方面,提出一种处理设备,包括:处理器和存储器;
所述处理器适于执行程序,所述存储器适于存储该程序;
所述程序适于由所述处理器加载并执行,以实现上面所述的事件追踪与变化阶段划分方法。
与最接近的现有技术相比,本发明至少具有如下有益效果:
本发明在信息溯源的过程中,结合已有的SmartMesh算法和SimHash算法,创造了独特的Quick Mesh算法,简化了事件发展话题演化模型的建模工作,降低了时间复杂度,极大地提升了算法的效率,达到了性能优化的目的;在变化阶段划分上,本方法通过先绘制事件发展态势曲线,再对曲线进行等间隔采样,得到相对平滑的演化包络线,利用K-means聚类算法处理曲线震荡过激、极值点过密的情况,并通过极值点求得变化阶段的个数,随后基于演化包络线和阶段划分处理算法,进行阶段划分。该方法降低了传统阶段划分方法的阈值依赖和形状依赖的问题。
附图说明
图1是本发明实施例中进行话题分类的示意图;
图2是本发明的一种事件追踪与变化阶段划分方法实施例的主要步骤示意图;
图3是本发明的一个演化包络线及变化阶段划分方法的示意图;
图4是本发明的另一种事件追踪与变化阶段划分方法实施例的主要步骤示意图;
图5是本发明实施例中红黄蓝幼儿园虐童事件的演化包络线与变化阶段划分示意图;
图6是本发明的一种事件追踪与变化阶段划分系统实施例的构成示意图;
图7是本发明的另一种事件追踪与变化阶段划分系统实施例的构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明中所述的“事件追踪”、“溯源”,是指追溯事件在多个通道上传播之后的首发信息;“新闻传播通道”包括新闻、论坛、博客、微博等通道。变化阶段划分,具体来讲是研究事件发生、话题形成后有关该话题的新闻报道的一系列演化,通常包括话题发生、发展、高峰、回落、消亡五个基本阶段。不同话题的历时性各有差异,有的话题在几天内经历了这几个阶段之后便销声匿迹,有的话题可能存在长达几个月甚至几年,而且中间可能会多次出现二次发展的情况。
在信息溯源的过程中我们结合现存的SmartMesh和SimHash算法创造了独特的Quick Mesh算法,优化了计算的时间成本。在变化阶段划分上,本方法通过先绘制事件发展态势曲线,再对曲线进行等间隔采样,得到相对平滑的演化包络线,利用K-means聚类算法处理曲线震荡过激、极值点过密的情况,并通过极值点求得变化阶段的个数。随后基于演化包络线和阶段划分处理算法,进行阶段划分。
O(K*t*N)为现有技术中K-means聚类算法生成曲线方法的时间复杂度,O(C*N)为本专利非聚类方法的时间复杂度,其中,K表示聚类数量,t表示类内样本数量,N表示总点数,C表示常数项。因为有C<<(K*t),因此,本方法简化了事件发展话题演化模型的建模工作,降低了建模的复杂度,降低了时间复杂度,极大地提升了算法的效率,达到了性能优化的目的。
图1是本发明的溯源方法中进行话题分类的示意图。如图1所示,每个方框分别代表一篇新闻报道,即一条新闻数据;如果两个方框的花纹相同,代表这两篇新闻的话题相同。每次默认选第一篇新闻,通过聚类找到与该新闻具有相同话题的其他新闻,在图1中相当于把具有相同花纹的方框放到一起组成一个集合。然后在剩下的方框中再选取第一个方框进行聚类,不断重复此过程,直到无法聚类出新的方框集合为止(图1中右下角的符号Φ表示已经没有剩余的方框了),再通过极值点去重的方式删除不需要的集合。采取这种方法避免了传统TDT的低效率、单话题,以及聚类依赖的劣势。提高了话题溯源的准确性,丰富了话题的维度,有利于在工业界普及应用。
图2是本发明的一种事件追踪与变化阶段划分方法实施例的主要步骤示意图。如图2所示,本实施例的方法包括步骤S1-S6:
在步骤S1中,从多个不同的新闻传播通道中采集新闻数据并存入数据库中。
在该步骤中,从多个预先确定的新闻传播通道(如新闻、论坛、博客、微博等)中采集新闻数据,并存入汇总数据库中,或者依据采集通道的不同分别存入对应的通道数据库中;当然也可以在存入汇总数据库的同时,再存入对应的通道数据库中。
这里所说的通道数据库与各新闻传播通道一一对应的。
在步骤S2中,对数据库中的新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间。具体包括步骤S21-S24:
步骤S21,从数据库中选取第一条新闻数据,通过聚类找到数据库中与该新闻数据具有相同话题的新闻数据,作为一个新闻集合;
步骤S22,从数据库中剩下的新闻数据中选取第一条新闻数据,通过聚类找到数据库中与该新闻数据具有相同话题的新闻数据,作为另一个新闻集合;
步骤S23,重复执行步骤S22,直到无法聚类出新的新闻集合,通过极值点去重的方式删除不需要的集合,转至步骤S24;
步骤S24,选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为待追踪事件的起始发布时间。
需要说明的是,如果我们想溯源所有新闻传播通道中最早发布信息的时间,就可以对汇总数据库中的话题进行聚类,如果想溯源某一个新闻传播通道中的最早发布时间,就可以对该指定新闻通道所对应的通道数据库中的话题进行聚类。
根据起始发布时间,我们可以得到待追踪事件在发生阶段的状态信息,如起始发布人、起始发布时间、地点、媒体平台、新闻阅读量等等。
在步骤S3中,以起始发布时间为起点,根据数据库中的新闻数据绘制待追踪事件在单位时间内的信息量随时间变化的曲线;在该曲线上进行等时间间隔采样,绘制出平滑后的演化包络线。
具体为:首先统计事件发生后每个小时发布的信息量,然后根据绘制出信息量随小时数变化的曲线,再进行等间隔采样,从而绘制出较为平滑的演化包络线。这里采样周期T∈[40,80],单位为分钟。
在步骤S4中,求出演化包络线上的极大值点的个数,进而计算出变化阶段的个数。
具体地,可以根据公式(1)计算变化阶段的个数:
K=3*i+2(1)
其中,K为变化阶段的个数,i为极大值点的个数。
若发现演化包络线上的极值点过密、曲线震荡过激,也就是极值点个数超过预设的极值点个数阈值时,则利用K-means聚类算法将过密的极值点进行合并,然后再计算变化阶段个数。
在步骤S5中,在演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点。该步骤具体包括步骤S51-S53:
步骤S51,在演化包络线上,分别将每个变化阶段等间隔地划分为n个时间段(n值越大计算效率越低,但准确率越高。n值越小计算效率越高,但准确率越低),并计算出每个时间段中产生的信息量ski;
步骤S52,将满足公式(2)的ski值对应时间段的中间值在演化包络线上的点作为极大值点:
步骤S53,将满足公式(3)的ski值对应时间段的中间值在演化包络线上的点作为极小值点:
其中,ski为第k个变化阶段中第i个时间段所产生的信息量,k=1,2,...,K,i=1,2,...,n;K为事件变化阶段的个数;n为所述预设数量;τA为预设的第一阈值,τA∈[0.6,1);τB为预设的第二阈值,τB∈(0,0.3]。上述求极值点的方法降低了传统方法的阈值依赖和形状依赖的问题。
由于不同时间阶段产生的新闻数量差别很大,可能处于不同数量级,为了消除特征数据之间的量纲影响,解决数据之间的可比性,所以在公式(2)和公式(3)中对新闻数量进行了归一化。
在步骤S6中,在演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
本实施例中,变化阶段划分方法的主要思路为:把事件划分为发生、发展、高峰、回落、消亡五个基本阶段。其中,根据极值点个数的不同,可能会出现多次的发展、高峰、回落现象。
具体地,变化阶段划分的步骤可以包括步骤S61-S63:
步骤S61,计算出所述演化包络线上第一个极大值与预设的信息量百分比m的乘积,得到发生阶段分割点M的纵坐标;将所述起始发布时间到所述发生阶段分割点M之间的时间段定义为事件发生阶段;m∈[0.4,0.6],m通常取0.5;
步骤S62,计算出所述演化包络线上最后一个极大值与预设的信息量百分比l的乘积,得到消亡阶段分割点L的纵坐标;将所述消亡阶段分割点L到所述演化包络线结束点之间对应的时间段定义为事件消亡阶段;l通常取0.5;
步骤S63,将所述演化包络线上位于所述发生阶段分割点M与消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;
其中,中间阶段的组数与极大值点的个数相同,每组中间阶段包括:一个发展阶段、一个高峰阶段、一个回落阶段;
具体地,步骤S63可以进一步包括:
步骤S631,针对第一个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A1、B1、C1的纵坐标;在所述演化包络线上找到位于第一个极大值点前方的分割点A1,找到位于第一个极大值点后方的分割点B1、C1,进而将所述发生阶段分割点M与分割点A1之间对应的时间段定义为第一个发展阶段,将分割点A1与B1之间对应的时间段定义为第一个高峰阶段,将分割点B1与C1之间对应的时间段定义为第一个回落阶段;r∈[0.8,0.9],r通常取0.85;s∈[0.8,0.9],s通常取0.85;t与l相等,通常取0.5;
步骤S632,针对第二个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A2、B2、C2的纵坐标;在所述演化包络线上找到位于第二个极大值点前方的分割点A2,找到位于第二个极大值点后方的分割点B2、C2,进而将分割点C1与分割点A2之间对应的时间段定义为第二个发展阶段,将分割点A2与B2之间对应的时间段定义为第二个高峰阶段,将分割点B2与C2之间对应的时间段定义为第二个回落阶段;
步骤S632,依次类推,直到定义完最后一个发展阶段、最后一个高峰阶段和最后一个回落阶段。
图3是本发明的一个演化包络线及变化阶段划分方法的示意图。如图3所示,该演化包络线有3个极大值点,按照上述变化阶段划分方法,我们首先找到了事件发生阶段分割点M和事件消亡阶段分割点L,然后在每个极大值点的前后又可以找到一组分割点,分别为A1、B1、C1,A2、B2、C2,A3、B3、C3;可以看出,最后一个极大值点后方的分割点C3,正好与消亡阶段分割点L重合。
图4是本发明的另一种事件追踪与变化阶段划分方法实施例的主要步骤示意图。如图4所示,与图2的实施例相比,本实施例在步骤S6之后还包括:
步骤S7,分别获取各个变化阶段的起止时刻对应的信息,作为关键信息。
阶段划分之后得出事件的各个变化阶段对应的起止时刻,各起止时刻可能存在对应不到事件信息的情况,因此,设定起止时刻t之前或之后△t时间为提取关键信息的时间区间,其中△t∈[90,180],单位:分钟,尽量取t时刻之前的。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
为了更好地说明本发明的思路,下面以红黄蓝幼儿园虐童事件为例进行说明:
图5是红黄蓝幼儿园虐童事件的演化包络线与变化阶段划分示意图。如图5所示,对该事件溯源后发现第一条信息为:2017年11月23日在“Twitter”上发布的“北京红黄蓝幼儿园多名幼儿身上现针眼”,本例中,待追踪事件为“红黄蓝幼儿园虐童事件”,2017年11月23日为“起始发布时间”。
在绘制好的演化包络线上找到一个极大值点,因此根据公式(1)求得变化阶段个数为5,并根据上面所讲的划分方法将事件从发生到结束的整个过程划分为图5中所示的5个阶段:发生、发展、高峰、回落、二次发展、二次高峰、二次回落、消亡。
在各个阶段的分割点附近,我们找到了如下几条关键信息:(1)11月23日22:03在“天涯社区”发布的“北京红黄蓝幼儿园虐童事件——除了安装视频监控,我们还能做什么?”;(2)11月25日10:23在“Twitter”上发布的“北京红黄蓝幼儿园给孩子喂安眠药?听听孩子怎么说?”;(3)11月28日9:40在“新浪微博”发布的“区教委人员就幼儿园被曝针扎幼童事件表态回应”;(4)11月29日13:03在“天涯论坛”发布的“公安局对红黄蓝调查结果出来了”;(5)11月30日早上7:37“新浪育儿”发布的“北京红黄蓝幼儿园事件:朝阳区教委三官员被立案调查”;(6)11月30日下午16:22“搜狐网”发布的“教育部副部长田学军:对红黄蓝幼儿园事件深感痛心”;(7)“搜狐网”12月3日22:15发布的“揭秘红黄蓝幼儿园事件真相-2017年谣言备忘录”;(8)12月5日11:30在“新浪微博”发布的“红黄蓝虐童案,我们关注的到底是真相本身,还是价值预设?”
由上面的关键信息结合图5可以看出,每一次关键信息的出现往往对事件演化起到重要的推动作用。需要说明的是由于我们绘制演化包络线的时候是以小时为单位进行的,因此图5中各阶段之间的分割点刚好处在整点的时间点上。
与上述方法实施例基于相同的技术构思,本发明还提出了两种事件追踪与变化阶段划分系统的实施例,下面具体说明。
图6是本发明的一种事件追踪与变化阶段划分系统实施例的构成示意图。如图6所示,本实施例的事件追踪与变化阶段划分系统10包括:数据获取模块11、溯源模块12、曲线绘制模块13、阶段数计算模块14、极值点计算模块15、阶段划分模块16。
其中,数据获取模块11配置为:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;溯源模块12配置为:对数据库中的新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间;曲线绘制模块13配置为:以起始发布时间为起点,根据数据库中的新闻数据绘制待追踪事件在单位时间内的信息量随时间变化的曲线;在该曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;阶段数计算模块14配置为:求出演化包络线上的极大值点,并根据极大值点的个数计算出变化阶段的个数;极值点计算模块15配置为:在演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;阶段划分模块16配置为:分别计算演化包络线上每一对相邻的极值点之间的纵坐标绝对值之差,根据预设的百分比乘以该绝对值之差,得到演化包络线上位于该两个极值点之间的分割点的纵坐标,从而划分出不同的变化阶段。
图7是本发明的另一种事件追踪与变化阶段划分系统实施例的构成示意图。如图7所示,本实施例的事件追踪与变化阶段划分系统10除了包括图6中的数据获取模块11、溯源模块12、曲线绘制模块13、阶段数计算模块14、极值点计算模块15、阶段划分模块16之外,还包括:关键信息获取模块17。
其中,关键信息获取模块17配置为:分别获取各个变化阶段的起止时刻对应的信息,作为关键信息。其余模块的配置均与图6的实施例完全相同,此处不再赘述。
基于上述事件追踪与变化阶段划分方法,本发明还提出一种存储设备的实施例,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的事件追踪与变化阶段划分方法。
进一步地,本发明还提出一种处理设备的实施例,包括:处理器和存储器。其中,处理器适于执行程序,存储器适于存储该程序;所述程序适于由所述处理器加载并执行,以实现上面所述的事件追踪与变化阶段划分方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (12)
1.一种事件追踪与变化阶段划分方法,其特征在于,包括以下步骤:
从多个不同的新闻传播通道中采集新闻数据并存入数据库中;
对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;
以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;
求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;
在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;
在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
2.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,所述数据库包括:一个汇总数据库和/或与各新闻传播通道一一对应的通道数据库;
相应地,
“从多个不同的新闻传播通道中采集新闻数据并存入数据库中”的步骤具体包括:从多个预先确定的所述新闻传播通道中采集新闻数据,并存入所述汇总数据库中;和/或
将采集的所述新闻数据,依据采集通道的不同分别存入对应的所述通道数据库中;
“对所述数据库中的所述新闻数据进行话题聚类”,包括:对所述汇总数据库中的话题进行聚类,或对某一个指定新闻通道所对应的通道数据库中的话题进行聚类。
3.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间”的步骤具体包括:
从所述数据库中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为一个新闻集合;
从所述数据库中剩下的新闻数据中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为另一个新闻集合;
重复执行,直到无法聚类出新的新闻集合,通过极值点去重的方式删除不需要的集合;
选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。
4.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点”的步骤具体包括:
在所述演化包络线上,分别将每个变化阶段等间隔地划分为n个时间段,并计算出每个时间段中产生的信息量ski;
将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极大值点:
将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极小值点:
其中,ski为第k个变化阶段中第i个时间段所产生的信息量,k=1,2,...,K,i=1,2,...,n;K为事件变化阶段的个数;n为所述预设数量;τA为预设的第一阈值;τB为预设的第二阈值。
5.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段”的步骤具体包括:
计算出所述演化包络线上第一个极大值与预设的信息量百分比m的乘积,得到发生阶段分割点M的纵坐标;将所述起始发布时间到所述发生阶段分割点M之间的时间段定义为事件发生阶段;
计算出所述演化包络线上最后一个极大值与预设的信息量百分比l的乘积,得到消亡阶段分割点L的纵坐标;将所述消亡阶段分割点L到所述演化包络线结束点之间对应的时间段定义为事件消亡阶段;
将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;
其中,
所述中间阶段的组数与极大值点的个数相同,每组所述中间阶段包括:一个发展阶段、一个高峰阶段、一个回落阶段;
“将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段”的步骤具体包括:
针对第一个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A1、B1、C1的纵坐标;在所述演化包络线上找到位于第一个极大值点前方的分割点A1,找到位于第一个极大值点后方的分割点B1、C1,进而将所述发生阶段分割点M与分割点A1之间对应的时间段定义为第一个发展阶段,将分割点A1与B1之间对应的时间段定义为第一个高峰阶段,将分割点B1与C1之间对应的时间段定义为第一个回落阶段;
针对第二个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A2、B2、C2的纵坐标;在所述演化包络线上找到位于第二个极大值点前方的分割点A2,找到位于第二个极大值点后方的分割点B2、C2,进而将分割点C1与分割点A2之间对应的时间段定义为第二个发展阶段,将分割点A2与B2之间对应的时间段定义为第二个高峰阶段,将分割点B2与C2之间对应的时间段定义为第二个回落阶段;
依次类推,直到定义完最后一个发展阶段、最后一个高峰阶段和最后一个回落阶段。
6.根据权利要求1-5中任一项所述的事件追踪与变化阶段划分方法,其特征在于,所述方法还包括:
分别获取各个变化阶段的起止时刻对应的信息,作为关键信息。
7.根据权利要求6所述的事件追踪与变化阶段划分方法,其特征在于,“根据所述极大值点的个数计算出变化阶段的个数”具体为:
根据下式计算变化阶段的个数:
K=3*i+2
其中,K为变化阶段的个数,i为所述极大值点的个数。
8.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,在“求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数”之前,还包括:
若所述演化包络线上的极值点个数超过预设的极值点个数阈值,则利用K-means聚类算法将过密的极值点进行合并。
9.一种事件追踪与变化阶段划分系统,其特征在于,所述系统包括:数据获取模块、溯源模块、曲线绘制模块、阶段数计算模块、极值点计算模块、阶段划分模块;
所述数据获取模块配置为:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;
所述溯源模块配置为:对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;
所述曲线绘制模块配置为:以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;
所述阶段数计算模块配置为:求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;
所述极值点计算模块配置为:在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;
所述阶段划分模块配置为:在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
10.根据权利要求9所述的事件追踪与变化阶段划分系统,其特征在于,所述系统还包括:关键信息获取模块;
所述关键信息获取模块配置为:分别获取各个所述变化阶段的起止时刻对应的信息,作为关键信息。
11.一种存储设备,其中存储有程序,其特征在于,所述程序适于由处理器加载并执行,以实现权利要求1-8中任一项所述的事件追踪与变化阶段划分方法。
12.一种处理设备,包括:处理器和存储器;
所述处理器适于执行程序,所述存储器适于存储该程序;
其特征在于,所述程序适于由所述处理器加载并执行,以实现权利要求1-8中任一项所述的事件追踪与变化阶段划分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811014739.2A CN109325524A (zh) | 2018-08-31 | 2018-08-31 | 事件追踪与变化阶段划分方法、系统及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811014739.2A CN109325524A (zh) | 2018-08-31 | 2018-08-31 | 事件追踪与变化阶段划分方法、系统及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109325524A true CN109325524A (zh) | 2019-02-12 |
Family
ID=65263535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811014739.2A Pending CN109325524A (zh) | 2018-08-31 | 2018-08-31 | 事件追踪与变化阶段划分方法、系统及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325524A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472105A (zh) * | 2019-08-06 | 2019-11-19 | 电子科技大学 | 一种基于时间划分的社交网络事件演化追踪方法 |
CN112632364A (zh) * | 2021-03-09 | 2021-04-09 | 中译语通科技股份有限公司 | 新闻传播速度测评方法和系统 |
CN114153915A (zh) * | 2021-09-10 | 2022-03-08 | 北京天德科技有限公司 | 一种区块链中信息溯源与追踪的方法及系统 |
US11436287B2 (en) | 2020-12-07 | 2022-09-06 | International Business Machines Corporation | Computerized grouping of news articles by activity and associated phase of focus |
CN117494068A (zh) * | 2023-11-17 | 2024-02-02 | 之江实验室 | 一种结合深度学习与因果推断的网络舆情分析方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050131932A1 (en) * | 2003-12-15 | 2005-06-16 | Microsoft Corporation | Dynamic content clustering |
CN103500163A (zh) * | 2013-07-24 | 2014-01-08 | 百度在线网络技术(北京)有限公司 | 识别事件关键进展的方法和设备 |
CN103984681A (zh) * | 2014-03-31 | 2014-08-13 | 同济大学 | 基于时序分布信息和主题模型的新闻事件演化分析方法 |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
CN105138577A (zh) * | 2015-07-30 | 2015-12-09 | 成都布林特信息技术有限公司 | 一种基于大数据的事件演化分析方法 |
-
2018
- 2018-08-31 CN CN201811014739.2A patent/CN109325524A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050131932A1 (en) * | 2003-12-15 | 2005-06-16 | Microsoft Corporation | Dynamic content clustering |
CN103500163A (zh) * | 2013-07-24 | 2014-01-08 | 百度在线网络技术(北京)有限公司 | 识别事件关键进展的方法和设备 |
CN103984681A (zh) * | 2014-03-31 | 2014-08-13 | 同济大学 | 基于时序分布信息和主题模型的新闻事件演化分析方法 |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
CN105138577A (zh) * | 2015-07-30 | 2015-12-09 | 成都布林特信息技术有限公司 | 一种基于大数据的事件演化分析方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472105A (zh) * | 2019-08-06 | 2019-11-19 | 电子科技大学 | 一种基于时间划分的社交网络事件演化追踪方法 |
US11436287B2 (en) | 2020-12-07 | 2022-09-06 | International Business Machines Corporation | Computerized grouping of news articles by activity and associated phase of focus |
CN112632364A (zh) * | 2021-03-09 | 2021-04-09 | 中译语通科技股份有限公司 | 新闻传播速度测评方法和系统 |
CN114153915A (zh) * | 2021-09-10 | 2022-03-08 | 北京天德科技有限公司 | 一种区块链中信息溯源与追踪的方法及系统 |
CN117494068A (zh) * | 2023-11-17 | 2024-02-02 | 之江实验室 | 一种结合深度学习与因果推断的网络舆情分析方法及装置 |
CN117494068B (zh) * | 2023-11-17 | 2024-04-19 | 之江实验室 | 一种结合深度学习与因果推断的网络舆情分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325524A (zh) | 事件追踪与变化阶段划分方法、系统及相关设备 | |
Negara et al. | Topic modelling twitter data with latent dirichlet allocation method | |
Wang et al. | SentiView: Sentiment analysis and visualization for internet popular topics | |
Dörk et al. | A visual backchannel for large-scale events | |
Roy et al. | Towards cross-domain learning for social video popularity prediction | |
Hong et al. | A time-dependent topic model for multiple text streams | |
CN108288229A (zh) | 一种用户画像构建方法 | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
CN103617169A (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
CN103186600B (zh) | 互联网舆情的专题分析方法和装置 | |
CN102915335B (zh) | 基于用户操作记录和资源内容的信息关联方法 | |
CN102890702A (zh) | 一种面向网络论坛的意见领袖挖掘方法 | |
CN108304493B (zh) | 一种基于知识图谱的上位词挖掘方法及装置 | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
CN102890698A (zh) | 微博话题标签自动化描述方法 | |
CN104834739B (zh) | 互联网信息存储系统 | |
CN110232126A (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Luchev et al. | New digital fashion world | |
Li et al. | Text mining and visualization of papers reviews using R language | |
Wang et al. | Eventory--An event based media repository | |
CN113822138A (zh) | 相似视频确定方法及装置 | |
CN112989167A (zh) | 搬运账号的识别方法、装置、设备及计算机可读存储介质 | |
CN113420946A (zh) | 一种新闻媒体的评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |