CN103699611A - 一种基于动态摘要技术的微博流信息提取方法 - Google Patents

一种基于动态摘要技术的微博流信息提取方法 Download PDF

Info

Publication number
CN103699611A
CN103699611A CN201310688854.9A CN201310688854A CN103699611A CN 103699611 A CN103699611 A CN 103699611A CN 201310688854 A CN201310688854 A CN 201310688854A CN 103699611 A CN103699611 A CN 103699611A
Authority
CN
China
Prior art keywords
microblogging
class
wsum
sum
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310688854.9A
Other languages
English (en)
Other versions
CN103699611B (zh
Inventor
胡天磊
寿黎但
陈珂
陈刚
王振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310688854.9A priority Critical patent/CN103699611B/zh
Publication of CN103699611A publication Critical patent/CN103699611A/zh
Application granted granted Critical
Publication of CN103699611B publication Critical patent/CN103699611B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于动态摘要技术的微博流信息提取方法,该发明首先设计了一种基于微博流的增量聚类方法,并提出一种新的微博类向量的数据结构,以维护类的聚集信息。同时,结合金字塔型时间帧结构,保存历史时刻的信息快照,从而支持对任意时间段进行摘要。利用聚类方法得到的信息,提出高层次摘要算法,选取最具有代表性的微博作为摘要。在此基础上,通过检测摘要内容的变化,设计一种话题演变检测方法,自动地生成时间轴。本发明设计的方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡,既使得用户在知识获取过程中更加的便利,同时也支持诸如实时报道、历史综述等数据分析工作。

Description

一种基于动态摘要技术的微博流信息提取方法
技术领域
本发明涉及机器学习领域的文本摘要方法、数据库领域的流数据聚类以及人机交互领域的时间轴可视化方法,尤其涉及一种基于流聚类的海量社会化文本摘要方法。
背景技术
由于近年来信息的爆炸式增长,人工地从海量数据中获取重要信息已经越来越困难,因此,能够自动提取重要信息的文本摘要技术获得了极大的关注。文本摘要可分为提取式摘要和抽象式摘要。提取式摘要是从原文档中选取句子以组成摘要,而抽象式摘要则是根据一定的语法句法结构自行生成短语和句子。其中提取式摘要更为简单有效,因此在文本摘要领域一般采用提取式摘要。目前,文本摘要技术已经被广泛应用于网络新闻媒体、社交网络、教育等多个领域。
在数据库领域的流数据聚类方面,增量聚类是一种可以动态地维护和更新类信息的方法。随着新数据的接收,或者更新该数据所属的类,或者以该数据为基础新建一个类。另外,金字塔型时间帧是一种可以帮助获取数据流历史信息的数据结构。它根据不同时间在各个层次上存储不同粒度的信息快照,时间离当前时刻越近,其存储的快照密度就越大,反之则越小。流聚类对于更新快速、数量庞大的数据具有效果好、效率高的特点,被广泛应用于流数据的分析处理当中。
时间轴是一种数据可视化技术,它用来描述一定时间范围内的话题演变情况。目前生成时间轴的方法主要有两类,一类预先定义关键的时间节点,然后对每个节点对应的内容使用摘要方法得到摘要。另一类通过检测与话题相关的文本数量在某一时期的爆发度,如某时刻的微博数量急剧增长,自动检测出时间节点,然后提取特定的文本信息(如标签、摘要等)以描述该节点。时间轴技术广泛地应用于许多领域,例如信息检索、自然语言处理以及人机交互等。它为用户提供了一种简洁易懂的可视化信息,既增强了用户体验,也提高了信息获取的效率。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于动态摘要技术的微博流信息提取方法。
本发明解决其技术问题采用的技术方案如下:
(1)首先建立微博流中微博的数据模型,一条微博由三部分组成:文本内容、时间戳和权重。
(2)对微博流数据进行流聚类:通过对每一条最新接收的微博采用增量聚类的方法,维护并更新微博类向量的数据结构,从而将源源不断的海量数据流提炼为动态更新的微博类。
(3)在步骤2的过程中,每隔一定时间T,将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构。
(4)基于微博的时效性特点,周期性地检查当前维护的类集合中,是否含有过期的类,并将之删除,以此保证当前内存中维护类的新鲜度。
(5)为防止类数量过多导致方法效率降低以及内存消耗过大的问题,当类的数量达到限制数量N后,进行类合并操作。
(6)基于步骤2和步骤3所维护的信息,为实时摘要和历史摘要获取不同的输入内容。实时摘要可直接提取当前内存中维护的类信息,而历史摘要则需要通过时间段的两个端点,从金字塔型时间帧中获取对应时间所存储的类信息,并进行相减操作来得到。
(7)基于步骤6中得到的类信息,进行高层次摘要。首先对类信息中包含的微博计算分数,然后利用该分数同时结合内容覆盖率和新颖度对微博进行排序,依次选取微博加入摘要。
(8)通过步骤7可得到任意一段时间内连续的时间间隔T’的摘要,然后根据摘要内容的变化幅度,来检测话题的演变情况,并动态地生成时间轴。
本发明具有的有益效果是:以在线的方式对微博流进行处理,可同时提供动态的时间轴以及任意时间段摘要的输出形式。此方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡,既使得用户在知识获取过程中更加的便利,同时也支持诸如实时报道、历史综述等数据分析工作。
附图说明
图1是本发明实施步骤流程图;
图2是金字塔型时间帧结构中快照存储的示意图;
图3是时间戳的概率密度函数的示意图。
具体实施方式
现结合具体实施和示例对本发明的技术方案作进一步说明。
如图1,本发明具体实施过程和工作原理如下:
步骤1:建立微博的数据模型,由三部分组成:文本内容、时间戳和权重。文本内容基于空间向量模型,每个维度上的数值是某个词的TF-IDF值。时间戳即该微博发布的时间。权重即该微博发布者的社会化影响力,其计算方法为:先利用社交关系建立一个用户矩阵,然后在该矩阵上计算每个用户的PageRank值,以这个值来衡量用户的影响力,并作为其发布的微博的权重。
微博作为一种网络社会化媒体的产物,其不仅具有单纯的文本内容,同时也具有相应的时间属性和社交属性。所以此数据模型可以充分地利用微博所蕴含的信息。
步骤2:对微博流数据进行流聚类。首先积累少量微博(数量可任意指定)并采用K-means聚类方法产生初始的类,并初始化相应的微博类向量。微博类向量维护了属于某个类的微博的六种聚集信息,包括正则化的文本向量和sum_v、加权文本向量和wsum_v、时间戳之和ts1、时间戳平方和ts2、包含的微博数量n以及焦点微博集合ft_set。焦点微博集合是指与当前类向量中心最为相似的m条微博,类向量中心可以通过wsum_v/n来得到,相似度计算采用Cosine相似度,m值的选取范围为[10,100],其数值的增大会导致类向量的存储开销增大。
在初始化完成后,对于每一条最新接收的微博,采用增量聚类的方法:计算各个微博类向量中心与该微博文本向量的Cosine相似度,从而找出与该微博最相似的类。如果它们之间的相似度大于
Figure BDA0000438304270000031
则将该微博加入这个类当中,并更新其类向量。否则,就将该微博升级为一个新建的类。该判断条件中,β∈(0,1),β越小则越不容易创建新的类,类数量的增长就越慢,β越大则越容易创建新的类,类数量的增长就越快。表示属于该类的微博与类向量中心的平均Cosine相似度,c表示类向量中心,t表示属于该类的某条微博,
Figure BDA0000438304270000033
可根据以下公式计算得到:
Sim ( c , t ) ‾ = wsum _ v · sum _ v n · | | wsum _ v | |
通过这种方式,可以将源源不断的海量微博流提炼为动态更新的微博类,在保存微博信息的基础上提高处理效率。
步骤3:在步骤2的过程中,每隔一定时间T,将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构。时间间隔T为最小时间单元,如一分钟、一小时或一天,T越小则能够支持的摘要和时间轴的粒度越小,T越大则粒度越大。该结构根据时间的远近在不同层次上保存信息快照。快照是指在某个时刻内存中维护的所有微博类向量信息。不同层次的快照按如下方式进行维护:
1)存储在第i个层次上的快照,都发生在以αi为时间间隔的时刻,其中α为大于等于1的整数。也就是说,存储在第i个层次上的快照,其距离流开始的时间正好被αi整除。
2)在任何时刻,层次i上只保存最新的αL+1个快照,其中L为大于等于1的整数。
在金字塔型时间帧结构中,α和L越大,则每个层次能存储的快照数量就越多,所包含历史信息就越多,但相应的存储开销就越大。图2展示了一个如何在金字塔型时间帧结构中存储快照的例子。在该例子中,α=3,L=2,于是每个层次中最多只存储32+1=10个快照。每个快照只存储在其可能的最高的层次。该例子中的当前时刻是86,那么从图2中可以发现,距离当前时刻越近,快照之间的时间间隔越小,即快照密度越大;反之则时间间隔越大,密度越小。
金字塔型时间帧结构存储在硬盘上,而内存中只保存当前所维护的所有微博类信息。利用金字塔型时间帧,可以保存微博流历史信息,以满足针对任意指定时间段进行摘要的需求。
步骤4:由于微博具有时效性的特点,需要周期性地检查当前维护的类集合中,是否含有过期的类,并将之删除,以此保证当前内存中维护的类都是新鲜的。此检查过程的周期可由用户指定,周期越短,检查的次数越多,对效率的影响就越大,但内存中的类就会越新鲜;反之则对效率的影响小,但类的新鲜度就会受到影响。
为了判断一个类是否过期,需要计算该类的新鲜度。一种理想的方法是计算属于该类的最新的p%的微博的平均到达时间Avgp,p可在[5,20]之间取值。但是,为每个类保存最新的p%的微博需要巨大的存储开销,尤其当某些类变得非常大时。因此,需要采用一种近似的方法来计算Avgp。假设每个类中微博的时间戳是正态分布的,利用微博类向量中的信息可以得到时间戳的均值和方差:μ=ts1/n,利用百分位(percentile)的概念,第100-p个百分位就是最新p%的微博的起始时间(图3中的tsp)。所以可以用第100-p/2个百分位(图3中的tsp/2)来近似Avgp。最后,新鲜度tsp/2可以由以下公式得到,其中p’=(100-p/2)%,erf-1()为反偏差函数:
ts p / 2 = μ + σ · 2 erf - 1 ( 2 p ′ + 1 )
步骤5:如果内存中维护的微博类的数量持续增加,而且很少能在步骤4中被删除,则会导致内存消耗过大以及算法运行效率降低的问题。因此,当类的数量达到限制数量N后,需要启动类合并操作,将数量降到N*q。这里N和q是一对相互配合的参数,N的取值范围可选择[50,200],而q∈(0,1)。N越小或者q越大会导致频繁的类合并操作,使得算法效率下降且类的质量下降,因为这种强制合并会把两个原本并不相似的类合并到一起。而N越大或q越小,虽然减少了合并次数,但每次合并都会将大量的类叠加到一起,这同样会降低类的质量。
具体的合并过程以一种贪婪的方式进行。首先根据类中心相似度,对两两组成的类对排序,然后从最相似的类对开始进行合并,这里需要分为四种情况来处理:
1)如果对中的两个类都是单独类,即它们都没有与其他类进行过合并,则将它们合并成一个合成类;
2)如果其中一个类属于某个合成类,则将另一个也合并到那个合成类中;
3)如果两个类都属于某个合成类,当它们属于同一个合成类时,什么都不做直接跳过;
4)如果两个类都属于某个合成类,但它们属于不同的合成类,则将两个合成类合并成一个新的合成类。
两个类的合并操作,即两个类向量V1=(sum_v1,wsum_v1,ts11,ts21,ft_set1)和V2=(sum_v2,wsum_v2,ts12,ts22,ft_set2)相加得到新的类向量V3=(sum_v3,wsum_v3,ts13,ts23,ft_set3),具体方法如下:
sum_v3=sum_v1+sum_v2
wsum_v3=wsum_v1+wsum_v2
ts13=ts11+ts12
ts23=ts21+ts22
ft_set3则由ft_set1∪ft_set2中与新的类中心向量最相似的m条微博组成。
步骤6:为进行高层次摘要,需要基于步骤2和步骤3中所维护的微博类信息,为实时摘要和历史摘要获取不同的输入内容。
对于实时摘要,可直接提取当前内存中维护的微博类信息。对于历史摘要,针对用户查询输入的一个时间段,通过该时间段的两个时间端点,从金字塔型时间帧结构中获取对应时刻所存储的类信息快照;如果找不到某个时刻的快照,则选择离该时刻间隔最近的快照。然后,对于给定时间段中较近时间端点的快照中的每个类Vi,找出较远端点的快照中相应的类Vi’,用Vi的类向量减去Vi’的类向量,最后得到各个类向量差的集合,作为下一步骤的输入。
两个类的相减操作,即类向量V1=(sum_v1,wsum_v1,ts11,ts21,ft_set1)减去V2=(sum_v2,wsum_v2,ts12,ts22,ft_set2)得到新的类向量V3=(sum_v3,wsum_v3,ts13,ts23,ft_set3),具体方法如下:
sum_v3=sum_v1-sum_v2
wsum_v3=wsum_v1-wsum_v2
ts13=ts11-ts12
ts23=ts21-ts22
ft_set3则由ft_set1中存在但不在ft_set2中的微博组成。
类向量相减操作的目的是消除较远时刻之前的聚类信息对给定的时间段内的信息所产生的影响。
步骤7:基于步骤6中得到的类集合,从所有类的焦点微博集合ft_sets中选取最具有代表性的微博以组成摘要。该摘要算法可分为三个步骤:
1)首先对ft_sets中所有的微博计算LexRank值。LexRank是一种有效的摘要方法,且面对小规模的数据集时效率也较高。此步骤中的微博数量由类数量和ft_sets的大小决定,通常比较小(几百到几千条微博),因此可以采用LexRank算法。
2)由于LexRank方法存在潜在的问题,就是分数较高的一些微博可能含有相似的内容,不利于提高摘要的内容覆盖率。因此,这里利用微博本身具有的类信息,来改进方法:从每一个类中选取一条LexRank值最高的微博,并按照以下公式进行选择,依次加入摘要:
t = arg max ti [ λ n ti n max LR ( t i ) - ( 1 - λ ) arg tj ∈ S Sim ( t i , t j ) ]
其中ti为需要计算的微博,t为ti中分数最高的微博,nti是ti所属微博类的大小,nmax是最大类的大小,LR(ti)是ti的LexRank值,S是摘要的集合,包含了已经选取的微博,tj是S中的微博。此公式结合了内容覆盖率和新颖度(即与已选微博的区分度),λ∈(0,1)用于两方面的权衡:λ趋向于0则偏向以内容覆盖率为标准选取微博,λ趋向于1则偏向以新颖度为标准选取微博。
3)以上步骤是在类之间依次选取微博,如果此步骤结束之后仍未达到摘要长度要求(摘要算法的通用长度为250个词),则根据上面的公式,在剩下的微博中全局地进行选取。
步骤8:通过在由用户查询指定的任意一段时间内,针对连续的时间间隔T’(T’>T,即T’应大于原先设定的最小时间单元),调用步骤7的摘要方法,可以得到一连串的摘要。根据相邻时刻摘要之间内容的变化幅度,可以检测出话题的演变情况,并动态地生成时间轴。在检测过程中,提出基于摘要内容的波动这一概念,为量化这种波动,利用JS divergence来衡量相邻时刻两个摘要的单词分布之间的距离。
D JS ( S 1 , S 2 ) = 1 2 ( D KL ( S 1 | | M ) + D KL ( S 2 | | M ) )
其中S1和S2分别代表较近时刻和前一时刻的摘要的单词分布。M是S1和S2的平均分布,DKL(S||M)则是KL divergence,定义了分布M到分布S的偏离(S代表S1或S2):
D KL ( S | | M ) = Σ w ∈ V p ( w | S ) log p ( w | S ) p ( w | M )
其中w是某个单词,V是摘要的词汇集合,p(w|S)即w在S中的词频,p(w|M)即w在M中的词频。
基于摘要内容的波动幅度,就可以判断某个时刻是否是话题内容发生演变的时刻,也就是时间轴上的一个节点。如果该时刻与前一时刻摘要的波动DJS大于之前的相邻时刻摘要之间的平均波动Davg的τ(τ为大于1的数值)倍,则判定该时刻为一个话题演变节点。τ可根据不同应用的需求来设定:τ越大则精确度越高,但召回率越低,因此适合需要高精确度的应用;反之,τ越小则召回率越高,精确度越低,适合需要完整时间轴的应用。通过这种方法,就可以随着微博流的进行,持续地监控摘要内容波动的量化值,从而动态地产生出时间轴。

Claims (7)

1.一种基于动态摘要技术的微博流信息提取方法,其特征在于,该方法的步骤如下:
(1)首先建立微博流中微博的数据模型,一条微博由三部分组成:文本内容、时间戳和权重。
(2)对微博流数据进行流聚类:通过对每一条最新接收的微博采用增量聚类的方法,维护并更新微博类向量的数据结构,从而将源源不断的海量数据流提炼为动态更新的微博类。
(3)在步骤2的过程中,每隔一定时间T,将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构。
(4)基于微博的时效性特点,周期性地检查当前维护的类集合中,是否含有过期的类,并将之删除,以此保证当前内存中维护类的新鲜度。
(5)为防止类数量过多导致方法效率降低以及内存消耗过大的问题,当类的数量达到限制数量N后,进行类合并操作。
(6)基于步骤2和步骤3所维护的信息,为实时摘要和历史摘要获取不同的输入内容。实时摘要可直接提取当前内存中维护的类信息,而历史摘要则需要通过时间段的两个端点,从金字塔型时间帧中获取对应时间所存储的类信息,并进行相减操作来得到。
(7)基于步骤6中得到的类信息,进行高层次摘要。首先对类信息中包含的微博计算分数,然后利用该分数同时结合内容覆盖率和新颖度对微博进行排序,依次选取微博加入摘要。
(8)通过步骤7可得到任意一段时间内连续的时间间隔T’的摘要,然后根据摘要内容的变化幅度,来检测话题的演变情况,并动态地生成时间轴。
2.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤1中,文本内容基于空间向量模型,每个维度上的数值是某个词的TF-IDF值。时间戳即该微博发布的时间。权重即该微博发布者的社会化影响力,其计算方法为:先利用社交关系建立一个用户矩阵,然后在该矩阵上计算每个用户的PageRank值,以这个值来衡量用户的影响力,并作为其发布的微博的权重。
3.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤具体为:首先积累微博并采用K-means聚类方法产生初始的类,并初始化相应的微博类向量。微博类向量维护了属于某个类的微博的六种聚集信息,包括正则化的文本向量和sum_v、加权文本向量和wsum_v、时间戳之和ts1、时间戳平方和ts2、包含的微博数量n以及焦点微博集合ft_set。焦点微博集合是指与当前类向量中心最为相似的m条微博,类向量中心可以通过wsum_v/n来得到,相似度计算采用Cosine相似度,m值的选取范围为[10,100],其数值的增大会导致类向量的存储开销增大。在初始化完成后,对于每一条最新接收的微博,采用增量聚类的方法:计算各个微博类向量中心与该微博文本向量的Cosine相似度,从而找出与该微博最相似的类。如果它们之间的相似度大于
Figure FDA0000438304260000021
则将该微博加入这个类当中,并更新其类向量。否则,就将该微博升级为一个新建的类。该判断条件中,β∈(0,1),β越小则越不容易创建新的类,类数量的增长就越慢,β越大则越容易创建新的类,类数量的增长就越快。表示属于该类的微博与类向量中心的平均Cosine相似度,c表示类向量中心,t表示属于该类的某条微博,
Figure FDA0000438304260000023
可根据以下公式计算得到:
Sim ( c , t ) ‾ = wsum _ v · sum _ v n · | | wsum _ v | |
通过这种方式,可以将源源不断的海量微博流提炼为动态更新的微博类,在保存微博信息的基础上提高处理效率。
4.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤5中,所述类合并操作具体为:首先根据类中心相似度,对两两组成的类对排序,然后从最相似的类对开始进行合并,两个类的合并操作,即两个类向量V1=(sum_v1,wsum_v1,ts11,ts21,ft_set1)和V2=(sum_v2,wsum_v2,ts12,ts22,ft_set2)相加得到新的类向量V3=(sum_v3,wsum_v3,ts13,ts23,ft_set3),具体方法如下:
sum_v3=sum_v1+sum_v2
wsum_v3=wsum_v1+wsum_v2
ts13=ts11+ts12
ts23=ts21+ts22
ft_set3则由ft_set1∪ft_set2中与新的类中心向量最相似的m条微博组成。
5.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤6中,两个类的相减操作,即类向量V1=(sum_v1,wsum_v1,ts11,ts21,ft_set1)减去V2=(sum_v2,wsum_v2,ts12,ts22,ft_set2)得到新的类向量V3=(sum_v3,wsum_v3,ts13,ts23,ft_set3),具体方法如下:
sum_v3=sum_v1-sum_v2
wsum_v3=wsum_v1-wsum_v2
ts13=ts11-ts12
ts23=ts21-ts22
ft_set3则由ft_set1中存在但不在ft_set2中的微博组成。
6.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤7通过以下三个子步骤来实现:
(7.1)首先对ft_sets中所有的微博计算LexRank值。
(7.2)从每一个类中选取一条LexRank值最高的微博,并按照以下公式进行选择,依次加入摘要:
t = arg max ti [ λ n ti n max LR ( t i ) - ( 1 - λ ) arg tj ∈ S Sim ( t i , t j ) ]
其中ti为需要计算的微博,t为ti中分数最高的微博,nti是ti所属微博类的大小,nmax是最大类的大小,LR(ti)是ti的LexRank值,S是摘要的集合,包含了已经选取的微博,tj是S中的微博,λ∈(0,1)。
(7.3)根据上式在剩下的微博中全局地进行选取。
7.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤8中,利用JS divergence来衡量相邻时刻两个摘要的单词分布之间的距离。
D JS ( S 1 , S 2 ) = 1 2 ( D KL ( S 1 | | M ) + D KL ( S 2 | | M ) )
其中,S1和S2分别代表较近时刻和前一时刻的摘要的单词分布。M是S1和S2的平均分布,DKL(S||M)则是KL divergence,定义了分布M到分布S的偏离(S代表S1或S2):
D KL ( S | | M ) = Σ w ∈ V p ( w | S ) log p ( w | S ) p ( w | M )
其中,w是某个单词,V是摘要的词汇集合,p(w|S)即w在S中的词频,p(w|M)即w在M中的词频。
基于摘要内容的波动幅度,就可以判断某个时刻是否是话题内容发生演变的时刻,也就是时间轴上的一个节点。如果该时刻与前一时刻摘要的波动DJS大于之前的相邻时刻摘要之间的平均波动Davg的τ(τ为大于1的数值)倍,则判定该时刻为一个话题演变节点;随着微博流的进行,持续地监控摘要内容波动的量化值,从而动态地产生出时间轴。
CN201310688854.9A 2013-12-16 2013-12-16 一种基于动态摘要技术的微博流信息提取方法 Expired - Fee Related CN103699611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310688854.9A CN103699611B (zh) 2013-12-16 2013-12-16 一种基于动态摘要技术的微博流信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310688854.9A CN103699611B (zh) 2013-12-16 2013-12-16 一种基于动态摘要技术的微博流信息提取方法

Publications (2)

Publication Number Publication Date
CN103699611A true CN103699611A (zh) 2014-04-02
CN103699611B CN103699611B (zh) 2017-01-11

Family

ID=50361139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310688854.9A Expired - Fee Related CN103699611B (zh) 2013-12-16 2013-12-16 一种基于动态摘要技术的微博流信息提取方法

Country Status (1)

Country Link
CN (1) CN103699611B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361008A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于词典或/和阈值的微博分类方法
CN105740448A (zh) * 2016-02-03 2016-07-06 天津大学 面向话题的多微博时序文摘方法
CN105912700A (zh) * 2016-04-26 2016-08-31 上海电机学院 一种基于tmpp模型的摘要生成方法
CN106156091A (zh) * 2015-04-01 2016-11-23 富士通株式会社 描述短文本的作者的方法和设备
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法
CN108763462A (zh) * 2018-05-28 2018-11-06 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108846098A (zh) * 2018-06-15 2018-11-20 上海掌门科技有限公司 一种信息流摘要生成及展示方法
CN110601954A (zh) * 2019-08-28 2019-12-20 李美玉 一种社交软件简易信息浏览的方法
CN111951117A (zh) * 2019-04-30 2020-11-17 上海连尚网络科技有限公司 一种整理社交内容记录的方法、系统、可读介质及设备
CN115048483A (zh) * 2021-03-09 2022-09-13 本田技研工业株式会社 信息管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193996A (zh) * 2011-05-04 2011-09-21 浙江大学 基于移动设备的可视Web对象搜索引擎方法
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193996A (zh) * 2011-05-04 2011-09-21 浙江大学 基于移动设备的可视Web对象搜索引擎方法
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAYU TANG ETAL: "Portraying User Life Status from Microblogging Posts", 《TSINGHUA SCIENCE AND TECHNOLOGY》 *
王连喜: "微博短文本预处理及学习研究综述", 《图书情报工作》 *
童薇 等: "EDM:高效的微博事件检测算法", 《计算机科学与探索》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361008A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于词典或/和阈值的微博分类方法
CN106156091A (zh) * 2015-04-01 2016-11-23 富士通株式会社 描述短文本的作者的方法和设备
CN105740448A (zh) * 2016-02-03 2016-07-06 天津大学 面向话题的多微博时序文摘方法
CN105740448B (zh) * 2016-02-03 2019-06-25 天津大学 面向话题的多微博时序文摘方法
CN105912700A (zh) * 2016-04-26 2016-08-31 上海电机学院 一种基于tmpp模型的摘要生成方法
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108763462A (zh) * 2018-05-28 2018-11-06 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108846098A (zh) * 2018-06-15 2018-11-20 上海掌门科技有限公司 一种信息流摘要生成及展示方法
CN108846098B (zh) * 2018-06-15 2023-03-10 南京尚网网络科技有限公司 一种信息流摘要生成及展示方法
CN111951117A (zh) * 2019-04-30 2020-11-17 上海连尚网络科技有限公司 一种整理社交内容记录的方法、系统、可读介质及设备
CN110601954A (zh) * 2019-08-28 2019-12-20 李美玉 一种社交软件简易信息浏览的方法
CN115048483A (zh) * 2021-03-09 2022-09-13 本田技研工业株式会社 信息管理系统

Also Published As

Publication number Publication date
CN103699611B (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN103699611A (zh) 一种基于动态摘要技术的微博流信息提取方法
US12001439B2 (en) Information service for facts extracted from differing sources on a wide area network
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
CN107844565B (zh) 商品搜索方法和装置
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN104965931A (zh) 一种基于大数据的舆情分析方法
Lee et al. Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking
Aralbayeva et al. A study of comparison between restraunt industries in Seoul and Busan through big data analytics
CN106227885A (zh) 一种大数据的处理方法、装置及终端
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN102012936A (zh) 基于云计算平台的海量数据聚合方法和系统
CN104965930A (zh) 一种基于大数据的突发事件演化分析方法
Popovici et al. On-line clustering for real-time topic detection in social media streaming data
US10990881B1 (en) Predictive analytics using sentence data model
Kim et al. Customer preference analysis based on SNS data
Xu et al. The mobile media based emergency management of web events influence in cyber-physical space
Cagliero et al. Analyzing twitter user behaviors and topic trends by exploiting dynamic rules
Cagliero et al. Twitter data analysis by means of strong flipping generalized itemsets
Olorunnimbe et al. Intelligent adaptive ensembles for data stream mining: a high return on investment approach
Dave et al. Identifying big data dimensions and structure
Pankratova et al. Foresight process based on text analytics
Espinosa-Oviedo et al. Comparing electoral campaigns by analysing online data
Santoso et al. An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170111

Termination date: 20211216

CF01 Termination of patent right due to non-payment of annual fee