CN103150383A - 一种短文本数据的事件演化分析方法 - Google Patents

一种短文本数据的事件演化分析方法 Download PDF

Info

Publication number
CN103150383A
CN103150383A CN2013100829903A CN201310082990A CN103150383A CN 103150383 A CN103150383 A CN 103150383A CN 2013100829903 A CN2013100829903 A CN 2013100829903A CN 201310082990 A CN201310082990 A CN 201310082990A CN 103150383 A CN103150383 A CN 103150383A
Authority
CN
China
Prior art keywords
event
period
current period
evolution
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100829903A
Other languages
English (en)
Other versions
CN103150383B (zh
Inventor
程学旗
刘盛华
李福鑫
王元卓
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310082990.3A priority Critical patent/CN103150383B/zh
Publication of CN103150383A publication Critical patent/CN103150383A/zh
Application granted granted Critical
Publication of CN103150383B publication Critical patent/CN103150383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种短文本数据的事件演化分析方法,包括:根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到文档—事件矩阵和事件—词项矩阵;根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图;当前时段的事件关系图分割为一个或多个子图;对子图进行归类得到新生成事件集和演化事件集;根据文档—事件矩阵计算每个事件关联的文档数,并根据该文档数做演化事件集的趋势分析和预测,作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。

Description

一种短文本数据的事件演化分析方法
技术领域
本发明涉及数据挖掘领域,尤其涉及一种短文本数据的事件演化分析方法。
背景技术
随着web2.0技术的出现,用户越来越多地参与到现有的网络应用中。其中,微博是目前非常热门的一类网络应用,是基于用户关系的信息分享、传播以及获取平台。用户可以在微博上通过短文本数据进行信息传送、评论等,如何处理这些短文本数据,已经引起人们越来越多的重视。在短文本数据的数据挖掘过程中,通常会产生三个需求:第一,及时的从短文本数据中发现新生成的主题(或者称事件、话题);第二,对已发现的主题进行实时跟踪;第三,创造的系统模型可以承受住大规模网络数据。
然而,针对微博这样的短文本数据进行数据挖掘,有相当大的难度,原因在于:首先,短文本数据的随意性比较大,没有一个规范化的约束和模板;其次,短文的信息量太少,不利于数据分析;同时,由于缺乏上下文还可能导致短文本数据的二义性,因而在分析的过程中可能会产生错误的主题导向。因此,传统的基于长文本的聚类和挖掘技术并不适用于短文本数据。
在早期的研究中,DARPA设计出了一些用于事件发现和跟踪的工具。GAC-INCR是其中效果最好的工具,其通过聚类方法,对数据进行聚类,然后通过一个相似度阈值约束,将得到的主题结果进行分类,分类结果中一类是历史事件的演变,另一类是新发现的事件。然而,GAC-INCR这类工具只是对数据进行静态的分析,并不能实时动态地跟踪事件的演化过程。此外,GAC-INCR所使用的聚类方法也不适用于短文本数据。
发明内容
根据本发明一个实施例,提供一种短文本数据的事件演化分析方法,该方法包括:
步骤1)、根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到当前时段的事件—词项矩阵和事件集合;
步骤2)、根据当前时段的事件—词项矩阵和前一时段的事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件集合和前一时段的剩余图构造当前时段的事件关系图,其中前一时段的剩余图体现在当前时段之前的每个时段的事件及该事件之间的相似度;
步骤3)、将当前时段的事件关系图分割为一个或多个子图,最大化每个子图之内的事件相似度,最小化每个子图之间的相似度,将该一个或多个子图分别归类为消失事件集、新生成事件集和演化事件集。
在一个实施例中,步骤2)中计算当前时段的事件和前一时段的事件之间的相似度包括:
根据如下公式分别计算当前时段的每个事件与前一时段的每个事件之间的相似度:
Sim ( h 1 , h 2 ) = Σ i = 1 D h 1 , i × h 2 , i ( Σ i = 1 D h 1 , i 2 ) ( Σ i = 1 D h 2 , i 2 ) ,
其中,h1,i表示当前时段的事件—词项矩阵中对应事件h1的第i个词项的元素权重,h2,i表示前一时段的事件—词项矩阵中对应事件h2的第i个词项的元素权重,D为词项数量。
在一个实施例中,步骤2)中构造当前时段的事件关系图包括:
步骤21)、将当前时段的事件集合中的事件作为节点加入前一时段的剩余图;
步骤22)、将当前时段的事件集合中的事件与前一时段的事件集合中的事件两两连边,边的方向为由前一事件指向当前事件,边的权值为其连接的事件之间的相似度;
步骤23)、去除权值小于预定阈值t_value的边。
在一个实施例中,步骤4)中将一个或多个子图分别归类为消失事件集、新生成事件集和演化事件集包括:
当子图内的事件演化终点不在当前时段的事件集合内,则该子图内的事件构成消失事件集;
当子图内的事件在当前时段的事件集合内而不在前一时段的事件集合内,则该子图内的事件构成新生成事件集;否则,该子图内的事件构成演化事件集。
在一个实施例中,方法还包括:
步骤5)、在当前时段的事件关系图中去除当前时段的消失事件集和与其相连的边,得到当前时段的剩余图。
在进一步的实施例中,如果不存在前一时段,则当前时段的剩余图由表示当前时段的事件的节点构成。
在一个实施例中,如果前一时段的剩余图由表示前一时段的事件的节点构成,则当前时段的剩余图为由前一时段和当前时段的事件构造的二部图,其中,事件之间的连边表示事件之间的相似度大于阈值t_value,边的方向为由前一时段的事件指向当前时段的事件,边的权值为其连接的事件之间的相似度。在进一步的实施例中,当前时段的剩余图还要去除当前时段的消失事件集和与其相连的边。
在一个实施例中,步骤1)中进行非负矩阵分解还得到当前时段的文档—事件矩阵,根据当前时段的文档—事件矩阵获得当前时段的每个事件关联的文档数。在进一步的实施例中,获得当前时段的每个事件关联的文档数包括:
将当前时段的文档—事件矩阵中每行所对应的文档归类到该行中权重最大的事件,计算归类到每个事件的文档数。
在一个实施例中,步骤4)后还包括对当前时段的演化事件集做趋势分析和预测。在进一步的实施例中,对当前时段的演化事件集做趋势分析和预测包括:
对当前时段的演化事件集中每个事件关联的文档数进行分析;
预测下一时段的平滑演化事件数量、新事件数量,以及下一时段的演化事件集中事件关联的文档数。
在一个实施例中,在步骤1)中进行非负矩阵分解包括:根据前一时段预测的当前时段平滑演化事件数量、新事件数量,以及当前时段的演化事件集中事件关联的文档数,使用如下公式进行非负矩阵分解:
arg min W , H ≥ 0 | | X ( t ) - WH | | fro 2 + μ ΣL ( Sw i ) w i ∈ E evolving
s . t . Σ i = 1 D H ij = 1 ∀ i ∈ [ K ( t - 1 ) + K ( t ) ] K ( t ) = K ( t - 1 ) + B max ( H ij ( t - 1 ) - δ , 0 ) ≤ H ij ≤ min ( H ij ( t - 1 ) + δ , 1 ) ∀ i ∈ [ K ( t - 1 ) ] , ∀ j ∈ [ D ]
其中,X(t)是当前时段的文档—词项矩阵,W是文档-事件矩阵,H是事件—词项矩阵,μ是调整因子,S表示T×N时间-文档矩阵,S(i,j)=1表示文档j在第i时段存在,wi是文档-事件矩阵W的列向量,L函数是损失函数,Hi,j表示第i个事件的第j个词项的权重大小,D是词项数量大小,δ是事件进化参数,K(t-1)是平滑演化事件数量,B是新事件数量。
本发明的有益效果如下:
采用了非负矩阵分解技术和n-cut图论算法,适于短文本数据的聚类;此外,结合事件的趋势分析和预测,可以实时动态地跟踪事件的演化过程。
附图说明
图1是根据本发明一个实施例的演化事件集中事件关系示意图;
图2是根据本发明一个实施例的非负矩阵分解示意图;
图3是根据本发明一个实施例的短文本数据的事件演化分析方法流程图;
图4是根据本发明一个实施例的构造第二时段剩余图的示意图;
图5是根据本发明一个实施例的构造第三时段事件关系图的示意图;
图6是对图5中第三时段事件关系图进行n-cut图分割算法的示意图;
图7是根据本发明一个实施例的对第四时段事件关系图进行n-cut图分割算法的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的一种短文本数据的事件演化分析方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明一个实施例,提供一种短文本数据的事件演化分析方法。具体包括以下几个步骤:
第一步、获得第一时段的事件以及每个事件关联的文章数。
首先,在初始时段,根据固定大小为D(即包括D个词项)的词库,以及在该初始时段实时输入的N个短文本数据(或者称为N个文档/文章),进行第一时段的文档—词项矩阵创建,得到初始时段的文档—词项矩阵X(1)N×D
接着,对文档—词项矩阵X(1)N×D进行非负矩阵分解,生成两个近似矩阵:文档—事件矩阵W(1)N×k和事件—词项矩阵H(1)k×D,k为初始时段短文本数据的事件个数。
然后,根据所生成的文档—事件矩阵W(1)N×k进行文档归类(即将初始时段输入的N个短文本数据分别归类到k个事件中的某个事件)。在一个实施例中,将矩阵W(1)N×k中每行所对应的文档归类到该行中权重最大的事件,即归类到该行中元素值最大的那个元素所对应的列(事件):
Figure BDA00002922414400051
其中i表示矩阵的行,j表示矩阵的列。根据归类到每个事件的文档,得到每个事件j关联的文档数Document(1:j)。
第二步、获得第二时段的事件及其关联的文章数,计算第二时段的事件与初始时段的事件两两之间的相似度。
类似于第一步中获得初始时段的事件以及每个事件关联的文章数,根据词库和在第二时段实时输入的短文本数据构造在第二时段的文档—词项矩阵,并对该文档—词项矩阵使用非负矩阵分解生成第二时段的文档—事件矩阵和事件—词项矩阵。根据文档—事件矩阵得到其中每个事件在第二时段关联的文档数。
将第二时段短文本数据的事件记作集合B2,将第一时段短文本数据的事件记作集合A1。根据第一时段和第二时段(经过非负矩阵分解得到)的事件—词项矩阵,可得知第一时段和第二时段的每个事件的词项向量。在一个实施例中,可根据每个事件的词项向量,利用以下公式计算两个事件之间的相似度:
Sim ( h 1 , h 2 ) = Σ i = 1 D h 1 , i × h 2 , i ( Σ i = 1 D h 1 , i 2 ) ( Σ i = 1 D h 2 , i 2 ) ,
其中,h1,i表示事件h1的第i个词项在事件—词项矩阵中的权重大小,h2,i表示事件h2的第i个词项在事件—词项矩阵中的权重大小,D表示词库中的词项数量。
第三步、构造第二时段的事件关系图和剩余图。
首先,根据第一时段和第二时段的事件及第一和第二时段的事件间的相似度,构造完全二部图G=(V,E)。其中,V=A1UB2,<u,v>∈E,并且u属于A1,v属于B2。边的方向为由u指向v,将完全二部图G中边的权重设置为事件间的相似度。根据预先设定的阈值t_value,将事件间(即图中的节点)相似度小于该阈值t_value的连边去掉,即得到第二时段的事件关系图。在一个实施例中,也可以只连边相似度大于等于阈值t_value的两个事件,来构造二部图。
接着,通过n-cut图分割算法,将第二时段的事件关系图分为K2个子图,其中最大化每个子图内的事件相似度,最小化子图之间的事件相似度。
在这K2个子图中,可将子图分为三类:
1.演化事件集Eevolving:子图内的事件的演化终点在集合B2中,事件的演化终点是指该子集中,所有有向边中的最后一条有向边所指向的终点。这类事件可以用于在下一时段做演化分析。
2.消失事件集Emissing:子图内的事件演化终点不在集合B2内而在集合A1内,那么该子图可以看作消失时间集Emissing,即该时段为消失事件的终止时段。
3.新生成事件集Enew:子图内的事件在B2-A1集合内,那么该子集可以看作是新生成事件集Enew,也就是说,该第二时段是这些事件的发生时段。
将演化事件集Eevolving和新生成事件集Enew构成的剩余图G'=(V',E'),作为用于构造下一时段的事件关系图的历史图。
在一个实施例中,在第二时段可以不进行n-cut图分割,而是将第一时段和第二时段的事件关系图作为初始的、用于后续时段操作的剩余图。
第四步、在第三时段进行事件演化分析及预测。
在第三时段通过非负矩阵分解得到所有事件C3,计算B2和C3中的事件的相似度,根据第二时段的剩余图G'=(V',E')构造第三时段的事件关系图。
其中,将C3中所有事件作为节点加入第二时段的剩余图,然后将C3中的事件与B2中的事件两两连边,边的方向为由B2中的事件指向C3中的事件,边的权值为其连接的事件之间的相似度,去除权值小于预定阈值t_value的边,从而得到第三时段的事件关系图。
通过n-cut图分割算法将第三时刻的事件关系图分割为K3个子图,使得最大化每个子图内的相似度,最小化每个子图之间的相似度。将K3个子图进行分类,得到第三时段的演化事件集Eevolving、消失事件集Emissing和新生成事件集Enew。其中,第三时段的演化事件集Eevolving和新生成事件集Enew构成第三时段的剩余图。
如图1所示,在第三时段的演化事件集Eevolving中可能存在三种形式的事件关系:事件合并、事件分裂和事件演化。根据这三种事件关系,结合第三时段的演化事件集Eevolving中每个事件关联的文档数,可以做事件的趋势分析和第四时段以及后续时段的事件预测(可得知这三个时段的热度是高还是低)。例如,如果事件关联的文档数随着时间的推移越来越少,则该事件的热度呈下降趋势(属于下降事件),且可能在下一时段消失;如果事件关联的文档数越来越多,则该事件是上升事件,可能在下一时段还会继续存在该事件。通过分析预测,可以约束第四时段演化事件集Eevolving中的事件关联的文档数。在一个实施例中,可通过Hodrick-Prescott趋势过滤预测第四时段演化事件集中事件关联的文档数,该预测用于约束下一时段的非负矩阵分解过程。
第五步、在第四时段和第四时段之后的时段进行事件演化分析及预测。
下文中,将第四时段和第四时段之后的时段以第t时段来表示。
根据第t-1时段的事件演化分析及预测,对第t时段新来的短文本消息X(t)做非负矩阵分解,图2示意性地描述了针对X(t)的非负矩阵分解。
根据第t-1时段的预测,在第t时段的非负矩阵分解中添加了下列约束条件:
1)H(t)中的前K(t-1)个事件一定是前一时段H(t-1)的K(t-1)个事件的平滑演化,H(t)表示第t时段的事件—词项矩阵。在此引入了一个事件进化参数δ,使得在第t-1时段演化事件集中和H(t)中这K(t-1)个事件的每一个词项变化都在δ范围内。
2)引入新事件发现数量B,也就是H(t)矩阵中的最后K(t)-K(t-1)个事件。
3)根据第t-1时段演化事件集中事件的关联文档数,通过Hodrick-Prescott趋势过滤预测第t时段演化事件集中事件的关联文章数。
根据上述约束条件可知,在第t时段默认会生成K(t-1)个平滑演化事件和B个新事件。当某个事件的关联文档数非常少的时候,可以预测下一时段该事件可能消失,这样就可以将该事件从K(t-1)个平滑演化事件中去掉。结合以上约束,可以将第t时段的非负矩阵分解转换为如下优化问题:
arg min W , H &GreaterEqual; 0 | | X ( t ) - WH | | fro 2 + &mu; &Sigma;L ( Sw i ) w i &Element; E evolving
s . t . &Sigma; i = 1 D H ij = 1 &ForAll; i &Element; [ K ( t - 1 ) + K ( t ) ] K ( t ) = K ( t - 1 ) + B max ( H ij ( t - 1 ) - &delta; , 0 ) &le; H ij &le; min ( H ij ( t - 1 ) + &delta; , 1 ) &ForAll; i &Element; [ K ( t - 1 ) ] , &ForAll; j &Element; [ D ]
其中,X(t)是第t时段的文档—词项矩阵,W是文档-事件矩阵,H是事件—词项矩阵,μ是调整因子,S表示T×N时间-文档矩阵,在一个实施例中,如果文档j在第t时段存在,那么S(t,j)=1,Swi表示和wi相关(wi是文档-事件矩阵W的列向量)的每一时段的事件分布。L函数是从Hodrick-Prescott趋势过滤引入的一个损失函数,Hij表示第i个事件的第j个词项的权重大小。D表示词项数量大小,δ是事件进化参数。通过对上面的优化问题求解,就可以得到第t时段的文档-事件矩阵W(t)、事件-词项矩阵H(t)以及第t时段的所有事件,记做集合Tt
将在t-1时段的所有事件记作集合Tt-1,计算Tt-1中的事件和Tt中的事件的相似度,并根据第t-1时段的剩余图来构造第t时段的事件关系图G(t):
首先,将Tt中的所有事件作为节点加入第t-1时段的剩余图;接着,将Tt中的事件与Tt-1中的事件两两连边,边的方向为由Tt-1中的事件指向Tt中的事件,边的权值为其连接的事件之间的相似度;然后,去除权值小于预定阈值t_value的边。所得到的图即为第t时段的事件关系图G(t)。
在该事件关系图G(t)中通过n-cut图分割算法到Kt个子图,使得最大化每个子图内的相似度,最小化每个子图之间的相似度。将子图进行归类,根据上述归类方法得到第t时段的演化事件集。
根据第t时段的演化事件集做事件演化分析及预测(该过程与第三时段的事件演化分析及预测过程类似)。通过分析预测,可以约束第t+1时段演化事件集Eevolving中的事件关联的文档数。在一个实施例中,可通过Hodrick-Prescott趋势过滤预测第t+1时段演化事件集中事件关联的文档数,该预测用于约束下一时段的非负矩阵分解过程。
以下根据图3所示的事件演化分析方法流程,以短文本微博为实验数据,描述短文本数据的事件演化分析方法的具体过程。其中,词库大小为2000,词库中的词项如表1所示:
表1
步骤一:将第一时段(具体实验中为第一天)输入的96篇短文本数据转换成文档-词项矩阵X(1)。
步骤二:通过计算及观察,得到第一个时段的事件个数是3,将文档-词项矩阵X(1)进行非负矩阵分解,得到文档-事件矩阵W(1)和事件-词项矩阵H(1)。
步骤三:分析文档-事件矩阵W(1),根据每个文档的事件向量权重(矩阵中的元素值),将文档标记为权重最大的事件,同时也就得到了每个事件的关联文档数。分析事件-词项矩阵H(1)可以得到事件的代表词项,例如选取前五个代表词项。因此,由非负矩阵分解得到的W(1)和H(1),分析得到第一时段的三个事件的基本信息如表2所示:
表2
Figure BDA00002922414400102
Figure BDA00002922414400111
步骤四:同样,将第二时段的106篇文档构造的文档-词项矩阵X(2),进行非负矩阵分解得到W(2)和H(2)。根据分解得到的结果,做步骤三中的分析得到如表3所示的事件基本信息:
表3
Figure BDA00002922414400112
步骤五:计算第一时段和第二时段的事件相似度矩阵,如表4所示:
表4
Figure BDA00002922414400113
Figure BDA00002922414400121
将第一时段的所有事件集合记作集合A1,第二时段的事件集合记作集合B2,构造初始完全二部图G=(V,E),其中V=A1∪B2,<u,v>∈E,且u属于A1,v属于B2,并且边的权值设置为事件间的相似度,去掉权值小于0.01的边,如图4所示。
步骤六:随着时间的推移,可以得到第三时段的事件基本信息,如表5所示。
表5
Figure BDA00002922414400122
构造第三时段的事件关系图,如图5所示,图4的二部图逐渐形成了一个网络图。其中,计算第三时段的事件和第二时段事件的相似度,将该相似度作第三时段的事件和第二时段事件之间的边的权值,去掉权值小于0.01的边。
步骤七:通过n-cut算法对图5中的事件关系图进行分割,得到4个子集S1-S4,如图6所示。其中为了方便,将图中事件的位置做了一些调整,为防止混乱,对每个事件做了相应的记号。从图中可以看出,子集S1和S2是演化事件集,子集S3是消失事件集,子集S4是新生成的事件集。在子集S1,S2和子集S3中存在图1所示的三种事件间关系。子集S3中的所有事件在这一时段(第三时段)消失,同时,子集S1、S2和S4作为第三时段的剩余图。
步骤八:针对图6中的演化事件集S1和S2中的事件,根据步骤三得到的事件关联文档数,可得到如表6所示的信息。
表6
演化事件集 事件演化过程 事件关联的文档数
S1 {1}->{4,6}->{10} 7->26->69
S2 {3}->{5,7}->{9} 87->80->104
根据表6的信息进行趋势分析和预测,例如可对事件S1和事件S2做Hodrick-Prescott趋势过滤,分析预测下一时段的事件S1和事件S2都是上升趋势。
步骤九:结合第三时段的分解结果和事件集的分析预测,对第四时段新来的短文本数据根据下式做分解优化:
arg min W , H &GreaterEqual; 0 | | X ( t ) - WH | | fro 2 + &mu; &Sigma;L ( Sw i ) w i &Element; E evolving
s . t . &Sigma; i = 1 D H ij = 1 &ForAll; i &Element; [ K ( t - 1 ) + K ( t ) ] K ( t ) = K ( t - 1 ) + B max ( H ij ( t - 1 ) - &delta; , 0 ) &le; H ij &le; min ( H ij ( t - 1 ) + &delta; , 1 ) &ForAll; i &Element; [ K ( t - 1 ) ] , &ForAll; j &Element; [ D ]
其中参数设置为:δ=0.01,μ=100,B=1。分解得到第四时段的文档-事件矩阵W(4)和事件-词项矩阵H(4),其基本信息如表7所示。
表7
Figure BDA00002922414400141
从表7的分解结果可以看到,在第四时段,事件1关联的文档数为0,说明该事件已经终止。通过构造第四时段的事件关系图,并通过n-cut算法对事件关系图进行分割,得到如图7所示的结果。其中,子集S1和S2是演化事件集,子集S3和S4是消失事件集,子集S5是新生成的事件集。
步骤十:对第四时段的事件做事件集的分析预测。
随着事件的推移,可以对第五、第六等时段的短文本数据进行实时的事件演化分析。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (13)

1.一种短文本数据的事件演化分析方法,包括:
步骤1)、根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到当前时段的事件—词项矩阵和事件集合;
步骤2)、根据当前时段的事件—词项矩阵和前一时段的事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件集合和前一时段的剩余图构造当前时段的事件关系图,其中前一时段的剩余图体现在当前时段之前的每个时段的事件及该事件之间的相似度;
步骤3)、将当前时段的事件关系图分割为一个或多个子图,最大化每个子图之内的事件相似度,最小化每个子图之间的相似度,将该一个或多个子图分别归类为消失事件集、新生成事件集和演化事件集。
2.根据权利要求1所述的方法,步骤2)中计算当前时段的事件和前一时段的事件之间的相似度包括:
根据如下公式分别计算当前时段的每个事件与前一时段的每个事件之间的相似度:
Sim ( h 1 , h 2 ) = &Sigma; i = 1 D h 1 , i &times; h 2 , i ( &Sigma; i = 1 D h 1 , i 2 ) ( &Sigma; i = 1 D h 2 , i 2 ) ,
其中,h1,i表示当前时段的事件—词项矩阵中对应事件h1的第i个词项的元素权重,h2,i表示前一时段的事件—词项矩阵中对应事件h2的第i个词项的元素权重,D为词项数量。
3.根据权利要求1或2所述的方法,步骤2)中构造当前时段的事件关系图包括:
步骤21)、将当前时段的事件集合中的事件作为节点加入前一时段的剩余图;
步骤22)、将当前时段的事件集合中的事件与前一时段的事件集合中的事件两两连边,边的方向为由前一事件指向当前事件,边的权值为其连接的事件之间的相似度;
步骤23)、去除权值小于预定阈值t_value的边。
4.根据权利要求1或2所述的方法,步骤4)中将一个或多个子图分别归类为消失事件集、新生成事件集和演化事件集包括:
当子图内的事件演化终点不在当前时段的事件集合内,则该子图内的事件构成消失事件集;
当子图内的事件在当前时段的事件集合内而不在前一时段的事件集合内,则该子图内的事件构成新生成事件集;
否则,该子图内的事件构成演化事件集。
5.根据权利要求1或2所述的方法,还包括:
步骤5)、在当前时段的事件关系图中去除当前时段的消失事件集和与其相连的边,得到当前时段的剩余图。
6.根据权利要求5所述的方法,其中,如果不存在前一时段,则当前时段的剩余图由表示当前时段的事件的节点构成。
7.根据权利要求5所述的方法,其中,如果前一时段的剩余图由表示前一时段的事件的节点构成,则当前时段的剩余图为由前一时段和当前时段的事件构造的二部图,其中,事件之间的连边表示事件之间的相似度大于阈值t_value,边的方向为由前一时段的事件指向当前时段的事件,边的权值为其连接的事件之间的相似度。
8.根据权利要求7所述的方法,其中,当前时段的剩余图还要去除当前时段的消失事件集和与其相连的边。
9.根据权利要求1所述的方法,步骤1)中进行非负矩阵分解还得到当前时段的文档—事件矩阵,根据当前时段的文档—事件矩阵获得当前时段的每个事件关联的文档数。
10.根据权利要求9所述的方法,其中获得当前时段的每个事件关联的文档数包括:
将当前时段的文档—事件矩阵中每行所对应的文档归类到该行中权重最大的事件,计算归类到每个事件的文档数。
11.根据权利要求9或10所述的方法,其中步骤4)后还包括对当前时段的演化事件集做趋势分析和预测。
12.根据权利要求11所述的方法,其中对当前时段的演化事件集做趋势分析和预测包括:
对当前时段的演化事件集中每个事件关联的文档数进行分析;
预测下一时段的平滑演化事件数量、新事件数量,以及下一时段的演化事件集中事件关联的文档数。
13.根据权利要求12所述的方法,在步骤1)中进行非负矩阵分解包括:根据前一时段预测的当前时段平滑演化事件数量、新事件数量,以及当前时段的演化事件集中事件关联的文档数,使用如下公式进行非负矩阵分解:
arg min W , H &GreaterEqual; 0 | | X ( t ) - WH | | fro 2 + &mu; &Sigma; w i &Element; E evolving L ( S w i )
s . t . &Sigma; j = 1 D H ij = 1 &ForAll; i &Element; [ K ( t - 1 ) + K ( t ) ] K ( t ) = K ( t - 1 ) + B max ( H ij ( t - 1 ) - &delta; , 0 ) &le; H ij &le; min ( H ij ( t - 1 ) + &delta; , 1 ) &ForAll; i &Element; [ K ( t - 1 ) ] , &ForAll; j &Element; [ D ]
其中,X(t)是当前时段的文档—词项矩阵,W是文档-事件矩阵,H是事件—词项矩阵,μ是调整因子,S表示T×N时间-文档矩阵,S(i,j)=1表示文档j在第i时段存在,wi是文档-事件矩阵W的列向量,L函数是损失函数,Hij表示第i个事件的第j个词项的权重大小,D是词项数量大小,δ是事件进化参数,K(t-1)是平滑演化事件数量,B是新事件数量。
CN201310082990.3A 2013-03-15 2013-03-15 一种短文本数据的事件演化分析方法 Active CN103150383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310082990.3A CN103150383B (zh) 2013-03-15 2013-03-15 一种短文本数据的事件演化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310082990.3A CN103150383B (zh) 2013-03-15 2013-03-15 一种短文本数据的事件演化分析方法

Publications (2)

Publication Number Publication Date
CN103150383A true CN103150383A (zh) 2013-06-12
CN103150383B CN103150383B (zh) 2015-07-29

Family

ID=48548460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310082990.3A Active CN103150383B (zh) 2013-03-15 2013-03-15 一种短文本数据的事件演化分析方法

Country Status (1)

Country Link
CN (1) CN103150383B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281663A (zh) * 2014-09-24 2015-01-14 北京航空航天大学 一种基于非负矩阵分解的事件分析方法与系统
CN105095275A (zh) * 2014-05-13 2015-11-25 中国科学院自动化研究所 文档聚类的方法及装置
CN106294621A (zh) * 2016-08-02 2017-01-04 西南石油大学 一种基于复杂网络结点相似性的计算事件相似性的方法和系统
CN106777285A (zh) * 2016-12-29 2017-05-31 中国移动通信集团江苏有限公司 标签聚类的方法和装置
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN108255809A (zh) * 2018-01-10 2018-07-06 北京海存志合科技股份有限公司 考虑词语相似度的计算文档所对应的主题的方法
CN111444347A (zh) * 2019-01-16 2020-07-24 清华大学 事件演化关系分析方法及装置
CN113159363A (zh) * 2020-12-30 2021-07-23 成都信息工程大学 一种基于历史新闻报道的事件趋势预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
US20100161612A1 (en) * 2008-12-18 2010-06-24 National Taiwan University Method of Topic Summarization and Content Anatomy
CN101887459A (zh) * 2010-06-28 2010-11-17 中国科学院计算技术研究所 网络视频话题检测的方法及其系统
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN102592148A (zh) * 2011-12-29 2012-07-18 华南师范大学 基于非负矩阵分解和多种距离函数的人脸识别方法
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及系统
CN102662986A (zh) * 2012-01-13 2012-09-12 中国科学院计算技术研究所 微博消息检索系统与方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
US20100161612A1 (en) * 2008-12-18 2010-06-24 National Taiwan University Method of Topic Summarization and Content Anatomy
CN101887459A (zh) * 2010-06-28 2010-11-17 中国科学院计算技术研究所 网络视频话题检测的方法及其系统
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN102592148A (zh) * 2011-12-29 2012-07-18 华南师范大学 基于非负矩阵分解和多种距离函数的人脸识别方法
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及系统
CN102662986A (zh) * 2012-01-13 2012-09-12 中国科学院计算技术研究所 微博消息检索系统与方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095275B (zh) * 2014-05-13 2019-04-05 中国科学院自动化研究所 文档聚类的方法及装置
CN105095275A (zh) * 2014-05-13 2015-11-25 中国科学院自动化研究所 文档聚类的方法及装置
CN104281663A (zh) * 2014-09-24 2015-01-14 北京航空航天大学 一种基于非负矩阵分解的事件分析方法与系统
CN106294621A (zh) * 2016-08-02 2017-01-04 西南石油大学 一种基于复杂网络结点相似性的计算事件相似性的方法和系统
CN106294621B (zh) * 2016-08-02 2019-11-12 西南石油大学 一种基于复杂网络结点相似性的计算事件相似性的方法和系统
CN106777285A (zh) * 2016-12-29 2017-05-31 中国移动通信集团江苏有限公司 标签聚类的方法和装置
CN106777285B (zh) * 2016-12-29 2020-03-06 中国移动通信集团江苏有限公司 用户通信消费数据的标签聚类的方法和装置
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN107463658B (zh) * 2017-07-31 2020-03-31 广州市香港科大霍英东研究院 文本分类方法及装置
CN108255809A (zh) * 2018-01-10 2018-07-06 北京海存志合科技股份有限公司 考虑词语相似度的计算文档所对应的主题的方法
CN108255809B (zh) * 2018-01-10 2021-10-08 北京海存志合科技股份有限公司 考虑词语相似度的计算文档所对应的主题的方法
CN111444347A (zh) * 2019-01-16 2020-07-24 清华大学 事件演化关系分析方法及装置
CN113159363A (zh) * 2020-12-30 2021-07-23 成都信息工程大学 一种基于历史新闻报道的事件趋势预测方法
CN113159363B (zh) * 2020-12-30 2022-04-19 成都信息工程大学 一种基于历史新闻报道的事件趋势预测方法

Also Published As

Publication number Publication date
CN103150383B (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN103150383B (zh) 一种短文本数据的事件演化分析方法
CN108009182B (zh) 一种信息提取方法和装置
Zhang et al. A gradient boosting method to improve travel time prediction
Noskova et al. GADMA: Genetic algorithm for inferring demographic history of multiple populations from allele frequency spectrum data
Vij et al. When is big data big enough? Implications of using GPS-based surveys for travel demand analysis
CN105868108B (zh) 基于神经网络的指令集无关的二进制代码相似性检测方法
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
US10387784B2 (en) Technical and semantic signal processing in large, unstructured data fields
CN112365171B (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
CN103970873A (zh) 一种音乐推荐方法和系统
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN107220902A (zh) 在线社会网络的级联规模预测方法
Gerhana et al. Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN104346408A (zh) 一种对网络用户进行标注的方法与设备
CN112417267A (zh) 一种用户行为分析方法、装置、计算机设备及存储介质
Hong et al. To rarefy or not to rarefy: robustness and efficiency trade-offs of rarefying microbiome data
Jebaseel et al. M-learning sentiment analysis with data mining techniques
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
Vilares et al. LYS at SemEval-2016 Task 4: Exploiting neural activation values for Twitter sentiment classification and quantification
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN103605671A (zh) 科研信息演化的分析方法和装置
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN103186672B (zh) 文件排序方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130612

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Event evolution analysis method of short text data

Granted publication date: 20150729

License type: Common License

Record date: 20180807