CN102214241B - 一种基于图聚类的用户生成文本流中的突发话题检测方法 - Google Patents

一种基于图聚类的用户生成文本流中的突发话题检测方法 Download PDF

Info

Publication number
CN102214241B
CN102214241B CN 201110187138 CN201110187138A CN102214241B CN 102214241 B CN102214241 B CN 102214241B CN 201110187138 CN201110187138 CN 201110187138 CN 201110187138 A CN201110187138 A CN 201110187138A CN 102214241 B CN102214241 B CN 102214241B
Authority
CN
China
Prior art keywords
burst
topic
word
document
limit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110187138
Other languages
English (en)
Other versions
CN102214241A (zh
Inventor
赵丽
管晓宏
袁睿翕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201110187138 priority Critical patent/CN102214241B/zh
Publication of CN102214241A publication Critical patent/CN102214241A/zh
Application granted granted Critical
Publication of CN102214241B publication Critical patent/CN102214241B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于图聚类的用户生成文本流中的突发话题检测方法,属于互联网数据挖掘技术领域。该方法提供了相对传统的话题检测问题的一种基于图的新视角,将在文本流中检测突发话题转化为一个典型的图聚类问题,这样可以根据已有的图论方法来得到解决。该方法主要步骤包括:获取文本流;检测突发词;构建突发词图;聚类突发词。该方法针对用户生成文本流中的突发话题检测,其性能优于已有的基于文档聚类、概率话题模型和基于突发特征聚类的方法。

Description

一种基于图聚类的用户生成文本流中的突发话题检测方法
技术领域
本发明属于互联网数据挖掘技术领域,特别是涉及一种对文本流中的突发话题检测的方法。
背景技术
从海量用户生成文本中准确地检测突发话题对政府决策和商业推广有重要意义。一个突发话题可以是一个发生在任何时刻的热门事件,也可以是在一段时间内由博主自发和被广泛响应的网络活动。事件可以是不可预期的,比如火山爆发,也可以是可预期的,比如总统竞选。活动一般是不可预期的,例如博客小测验(Internet quiz)的传播。一个突发话题常常有一个持续时间短、被大量网民热烈讨论时间段。
然而由于建模针对性弱和参数设置不灵活等局限,现有的文本聚类、概率话题模型和基于突发特征提取的方法在用户生成文本流中的突发话题检测问题上性能不佳。从文本流中提取话题已有大量研究工作。话题检测与跟踪项目(TDT)探索了从新闻文本流中通过文档聚类进行话题检测的方法。然而此类方法假设每一个文档讨论一个话题,这对博客日志等用户生成文本不适用。概率话题模型用于发现潜在的主题并成功的应用在自动组织、搜索、索引和浏览大数据集。与TDT的主要区别是概率话题模型假设一个文档可以包含多个主题。然而用概率话题模型发现的主题并不一定是突发话题或事件。基于突发特征提取和聚类的话题检测方法也假设一个文档可讨论多个话题,并且这些突发特征常常标志着突发话题出现,然后通过对突发特征聚类得到突发话题。但是已有的基于突发特征提取和聚类的话题检测方法的缺点是对参数的设置非常敏感。
图聚类是一类基于图论的理论,根据特定的准则将图中密度大的子图的顶点聚类的方法的统称,为解决本发明的突发词聚类问题提供了技术基础。由于对突发词聚类不能事先指定类数,本发明借鉴了图聚类中解决此类问题的社团结构检测方法。该方法采用模块性作为度量图聚类优劣的效益函数,具体过程是依据边的中间性从小到大依次移除图中的边,移除边过程中形成对顶点的聚类,并返回模块性最大的聚类,其中边的中间性等于图中所有顶点对间的最短路径经过该边的数目除以该边的权重。然而社团结构检测方法对解决突发词聚类问题仍存在不足。首先,该方法采用图顶点两两的共现数来度量顶点间的相关性,而这种非归一化的度量在突发词聚类问题中不能很好地区分相同话题突发词间和不同话题突发词间的连边。其次,该方法不适用于具有“全连通”特点的加权图结构,这是由于中间性度量在全联通图中退化,不能很好的区分相同话题突发词间和不同话题突发词间的连边。
Jaccard相似度是度量两个集合的相似性(即这两个集合的交集的大小除以并集的大小)的指标,可通过计算两个突发词所在文档集的相似性来度量这两个突发词的相似性。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于图聚类的用户生成文本流中的话题检测方法,该方法提出了两步图聚类算法,即突发词图约简和突发话题检测,能够快速准确的将突发词按照话题聚类,从而提高了突发话题的检测性能。
本发明的一种基于图聚类的用户生成文本流中的突发话题检测方法,其特征在于,该方法包括以下步骤:
1)获取用户生成文档:首先从Web 2.0站点采集大量网页格式的文档;然后从该网页格式的文档中提取出文档正文作为处理后的文档,同时提取该文档的发表时间,并保存;
2)构造文本流:设定时间单位,并将检测时间窗的大小设定为一个时间单位;根据时间窗对所述处理后的文档进行划分,将同一时间窗内的所有处理后的文档组成一个文档集,将所有文档集按照时间顺序组成文本流;将前t1个时间窗的文档集作为话题检测的参考文档集;
3)检测突发词:对t时刻,t≥t1+1的文档集进行话题检测,遍历字典中所有的词并判定是否是突发词;若某个词在t时刻出现率大于该词在参考文档集中的平均出现率的一定倍数Tb时,则判为突发词,Tb的取值范围为2.5-10;
4)构建初始突发词图:将t时刻检测到的突发词连接成无向加权的初始突发词图Gt,该图的顶点是突发词,该图的边的权重用Jaccard相似度度量;
5)约简突发词图:按照所述初始突发词图Gt中边的权重,从小到大的顺序移除边;用
Figure BDA0000073801440000021
表示移除i条边后的中间图,则该中间图
Figure BDA0000073801440000022
形成对原图Gt的顶点集合的一个聚类L(i)(Gt),聚类中的一类对应于中间图一个最大联通子图的顶点集合;计算聚类L(i)(Gt)的模块性Q(i),找到最大的模块性Q(i)并输相应的中间图
Figure BDA0000073801440000024
作为约简后的突发词图;
6)突发话题检测:对约简后的突发词图的每一个最大连通子图s提取内聚子图,将大于N个顶点的内聚子图中所有顶点集合对应词的组合为检测出的突发话题,N取值为大于3的正整数。
本发明所述的提取内聚子图的方法是依据步骤5)中得到的每一个最大联通子图s中所有顶点对之间的最短路径经过该边的数目除以该边的权重得到的值的大小依次移除边;用s(i)表示移除i条边后的中间图,则s(i)形成对图s的顶点集合的一个聚类L(i)(s);计算中间步骤中顶点聚类的模块性Q(i),找到最大的Q(i)和相应的s(i);s(i)中每个顶点数不少于4的最大联通子图的顶点集合对应词的组合是一个检测出的话题。
本发明的技术特点及优点:
本发明将时间窗内的文档集合表示成一个加权图,其中顶点是突发词,边权重表示顶点相关性强度,用Jaccard相似度度量。于是将话题检测问题被转化为图聚类问题,即在初始突发词图中找出内聚子图,即子图中的顶点倾向于与子图内部的顶点相对于与子图外顶点以较大的权重相连。
本方法提供了相对传统的话题检测问题一种基于图的新视角,将在文档流中检测突发话题转化为一个典型的图聚类问题,这样可以根据已有的图论方法来得到解决。在突发词检测步骤中,通过根据词的突发性的大小来检测突发词。突发性通过当前时刻的突发词的出现率与该词在参考文档集中的平均出现率的比值计算。这样可以去掉常用词而保留与突发话题语义相关的突发词。在突发词构建步骤中,使用的Jaccard相似度作为突发词图的边权可以比共现数更好地表示突发词之间的相关度。
根据突发词图的特点,本发明提出了一种改进的两步图聚类算法:突发词图约简和突发话题检测。突发词图约简步骤旨在去掉权重小的连边,从而保留同一话题内部主要突发词之间的连边,去掉大多数不同话题的突发词之间的连边。突发话题检测步骤旨在去掉少量的不同话题的突发词之间的连边。在以上两步中,分别根据边权从小到大和边的中间性从大到小的顺序移除边。使得模块性最大的中间图作为每个步骤的输出。
本发明的中文网页新词自动获取方法与现有的技术相比,具有以下优点:
1)该方法针对用户生成文本流中的突发话题检测,其性能优于已有的基于文档聚类、概率话题模型和基于突发特征聚类的方法。
2)该方法采用Jaccard相似度度量突发词间的相关性,与已有的社团结构检测方法的共现数度量相比,这种归一化的度量在突发词聚类问题中能够更好地区分相同话题突发词间和不同话题突发词间的连边。
3)针对突发词图的全连通加权图结构,提出的两步图聚类算法通过突发词图约简步骤去掉了大部分不同话题突发词之间的连边,避免了在进一步的话题识别步骤中的出现全联通结构。
4)该方法是在线算法。对t时刻的话题检测仅需要当期文档集和参考文档集。它可以被用在实时性很强的话题检测应用,例如微博话题检测等。
5)该方法是非监督的。方法中的突发词检测步骤中采用的参考文档集无需人工标定,这在实际应用中很重要,因为绝大多数用户生成文本由于规模巨大是无法人工标定的。
6)可将通过该方法检测到的热点话题撰写成检测报告提交给政府部门、新闻单位或企业的相关部门。也可以作为后续科学研究如突发话题趋势分析、话题演变追踪等的已知信息。
附图说明
图1为本发明的基于图的突发话题检测方法总体示意图。
图2为本发明中的两步图聚类算法示意图。
具体实施方式
本发明提出的一种基于图聚类的用户生成文本流中的突发话题检测方法结合附图及实施例详细说明如下:
本发明的突发话题检测方法,如图1所示,包括以下步骤:
1)获取用户生成文档:首先从Web 2.0站点采集大量网页格式的文档(例如博客日志、微博等;这些文档是由Web 2.0用户生成并带有时间戳的网页格式的文档);然后从该网页格式的文档中提取出文档正文作为处理后的文档,同时提取该文档的发表时间,并保存;
2)构造文本流:设定时间单位(例如小时、天、星期),并将检测时间窗的大小设定为一个时间单位;根据时间窗对所述处理后的文档进行划分,将同一时间窗内的所有处理后的文档组成一个文档集,将所有文档集按照时间顺序组成文本流;将前t1个时间窗的文档集作为话题检测的参考文档集;
设一个文本流S={D1,...,DT}是一个长度为T的按时间排序的文档集序列,其中Dt是一个在t时刻的文档集。文档集为Dt={dt,1...,dt,|Dt|},其中dt,i是Dt中的一个文档。文档dt,i是一个在字典Ω={w1,...,w|Ω|}上的二进制向量dt,i={δ(dt,i,w1),...,δ(dt,i,w|Ω|)}。δ(dt,i,w)=1表示w在dt,i中出现。其中运算符|·|表示集合的大小。
例如对于一个博客突发话题以天为单位的检测需求,文本流通过收集在时间区间T天内的所有的博客日志(或所有博客日志集合的采样)得到。时间点t代表时间区间上的第t天。文档dt,i表示在第t天的序号为i的一篇日志。
3)检测突发词:对t时刻(即第t个时间窗),t≥t1+1的文档集进行话题检测,遍历字典中所有的词并判定是否是突发词;若某个词在t时刻出现率大于该词在参考文档集中的平均出现率(词在文档集中的出现率是通过文档集中包含该词的文档数除以文档集中文档总数计算的)的一定倍数Tb时,则判为突发词,Tb的取值范围为2.5-10;
具体步骤是:遍历字典中的词w∈Ω;计算w在t时刻文档集中的出现率λt(w)=|Dt(w)|/|Dt|,其中Dt(w)表示Dt中含有词w的文档集合;计算w在参考文档集中的平均出现率
Figure BDA0000073801440000041
t0<t1,其中时间窗[t0,t1]内的文档集合作为计算
Figure BDA0000073801440000042
的参考文档集;计算w的突发性
Figure BDA0000073801440000043
当且仅当
Figure BDA0000073801440000044
时,将其判为突发词。
4)构建初始突发词图:将t时刻检测到的突发词连接成无向加权的初始突发词图Gt,该图的顶点是突发词,该图的边的权重(表示突发词之间的相关性大小)用Jaccard相似度度量(即t时刻文档集中同时包含边两端的两个突发词的文档的个数除以至少包含边两端的一个突发词的文档的个数);
所述词相似度Jt(wi,wj)是度量Ω中的两个词wi和wj相关性的指标,其计算式为
J t ( w i , w j ) = | D t ( w i ) ∩ D t ( w j ) | | D t ( w i ) ∪ D t ( w j ) | .
Jt(wi,wj)的值域是[0,1]。如果Jt(wi,wj)=0,表示两个词出现在完全不相交的文档集合中;如果Jt(wi,wj)=1,表示两个词出现在完全相同的文档集中。使用Jaccard相似度是因为当两个词属于同一个话题时,他们倾向于出现在相同的文档集合中。Jaccard相似度比共现数(即Jt(wi,wj)计算式中的分子)更适合区别话题内连边和话题间连边。
所述突发词图Gt={Vt,Et,Jt}是一个无向加权图,其中Vt是顶点集合,Et是边集合,Jt是权重集合。顶点集合表示为Vt={w1,...,w|Vt|},包含t时刻的所有突发词。边(wi,wj)∈Et表示顶点wi和wj间的连接。定义Jt(wi,wj)是边(wi,wj)的权重。Gt常常是一个全联通图,因为基本每一对突发词都在文档中共现过。
5)约简突发词图(基于图聚类法之步骤一):该步骤如图2(b)所示,按照所述初始突发词图Gt(如图2(a)所示)中边的权重,从小到大的顺序移除边;用表示移除i条边后的中间图,则该中间图
Figure BDA0000073801440000053
形成对原图Gt的顶点集合的一个聚类L(i)(Gt),聚类中的一类对应于中间图
Figure BDA0000073801440000054
一个最大联通子图的顶点集合;计算聚类L(i)(Gt)的模块性Q(i)(模块性为度量图聚类优劣的效益函数),找到最大的模块性Q(i)并输相应的中间图
Figure BDA0000073801440000055
作为约简后的突发词图;
Gt的一个聚类表示为 L ( G t ) = { l w 1 , . . . , l w | V | } , 其中, l w i ∈ M = { 1 , . . . , | M | } , |M|是类数。则聚类L(Gt)的模块性的定义为
Q ( L ( G t ) ) = 1 h Σ w i , w j ∈ V l w i = l w j [ J ( w i , w j ) - k w i k w j h ]
其中J(wi,wj)是词wi和wj的Jaccard相似度,
Figure BDA0000073801440000059
是图Gt中所有权重和的两倍,
Figure BDA00000738014400000510
是顶点wi中加权图中的度,即与该顶点连接的所有边的权重和。
步骤(5)的具体实施方式描述如下。
输入:突发词图Gt={Vt,Et,Wt}
输出:约简的突发词图
Figure BDA00000738014400000511
5-1)根据边权由小到大排序得到边列表L={ei};
5-2)令
Figure BDA00000738014400000512
计算
Figure BDA00000738014400000513
的模块性Q(0)
5-3)forL中依次的每一个边ei do
5-4)
Figure BDA0000073801440000061
移除ei,变为
Figure BDA0000073801440000062
5-5)计算当前约简图
Figure BDA0000073801440000063
形成的顶点聚类在原图Gt上的模块性Q(i)
56)end
5-7)找到最大的Q(i)并返回相应的中间图
Figure BDA0000073801440000064
6)突发话题检测(基于图聚类法之步骤二):该步骤如图2(c)所示,对约简后的突发词图
Figure BDA0000073801440000065
的每一个最大连通子图s提取内聚子图(内聚子图是指子图中的顶点倾向于与子图内部的顶点相对于与子图外顶点以较大的权重相连);提取内聚子图的方法是对步骤5)中得到的每一个最大联通子图s,依据边的中间性从小到大依次移除边;用s(i)表示移除i条边后的中间图,则s(i)形成对图s的顶点集合的一个聚类L(i)(s);计算中间步骤中顶点聚类的模块性Q(i)(计算公式与步骤5)中的模块性计算式相同,只是用s代替Gt),找到最大的Q(i)和相应的s(i);s(i)中每个顶点数不少于4的最大联通子图的顶点集合对应的词组合是一个检测出的话题。该步骤的具体实施方式描述如下:
输入:约简的突发词图
Figure BDA0000073801440000066
的一个独立连通子图s
输出:若干代表不同话题的顶点集合
6-1)令s(0)=s,计算s(0)的模块性Q(0)
6-2)whiles(i-1)的边集非空do
6-3)计算s(i-1)中每条边的中间性;
6-4)删除s(i-1)中中间性最大的边,变成s(i)
6-5)计算当前s(i)形成的顶点聚类在s上的模块性Q(i)
6-6)end
6-7)找到最大的Q(i)并返回相应的s(i),其中每个顶点数不小于4的独立连通子图的顶点集合是一个检测出的话题;
一般来讲,对于一个突发词图,移除不同话题突发词之间的连边时,模块性逐渐增大,移除同一话题的突发词内的边时,模块性减小。步骤5)根据原始图Gt的边权大小对其进行约简,连接话题内主要突发词的连边由于权重较大将会被保留,大部分连接不同话题之间的连边将会被移除。步骤6)根据联通子图s的边的中间性进行内聚子图提取,连接不同话题顶点的连边由于中间性较大将会被移除,而连接话题内的突发词连边被保留,从而得到内聚子图。

Claims (2)

1.一种基于图聚类的用户生成文本流中的突发话题检测方法,其特征在于,该方法包括以下步骤:
1)获取用户生成文档:首先从Web 2.0站点采集大量网页格式的文档;然后从该网页格式的文档中提取出文档正文作为处理后的文档,同时提取该文档的发表时间,并保存;
2)构造文本流:设定时间单位,并将检测时间窗的大小设定为一个时间单位;根据时间窗对所述处理后的文档进行划分,将同一时间窗内的所有处理后的文档组成一个文档集,将所有文档集按照时间顺序组成文本流;将前t1个时间窗的文档集作为话题检测的参考文档集;
3)检测突发词:对t时刻,t≥t1+1的文档集进行话题检测,遍历字典中所有的词并判定是否是突发词;若某个词在t时刻出现率大于该词在参考文档集中的平均出现率的一定倍数Tb时,则判为突发词,Tb的取值范围为2.5-10;
4)构建初始突发词图:将t时刻检测到的突发词连接成无向加权的初始突发词图Gt,该图的顶点是突发词,该图的边的权重用Jaccard相似度度量;
5)约简突发词图:按照所述初始突发词图Gt中边的权重,从小到大的顺序移除边;用
Figure FDA00001967630400011
表示移除i条边后的中间图,则该中间图
Figure FDA00001967630400012
形成对原图Gt的顶点集合的一个聚类L(i)(Gt),聚类中的一类对应于中间图
Figure FDA00001967630400013
一个最大联通子图的顶点集合;计算聚类L(i)(Gt)的模块性Q(i),找到最大的模块性Q(i)并输出相应的中间图
Figure FDA00001967630400014
作为约简后的突发词图;
6)突发话题检测:对约简后的突发词图的每一个最大连通子图s提取内聚子图,将大于N个顶点的内聚子图中所有顶点集合对应突发词的组合为检测出的突发话题,N取值为大于3的正整数。
2.如权利要求1所述方法,其特征在于,所述提取内聚子图的方法是依据步骤5)中得到的每一个最大联通子图s中所有顶点对之间的最短路径经过该边的数目除以该边的权重得到的值的大小依次移除边;用s(i)表示移除i条边后的中间图,则s(i)形成对图s的顶点集合的一个聚类L(i)(s);计算中间步骤中顶点聚类的模块性Q(i),找到最大的Q(i)和相应的s(i);s(i)中每个顶点数不少于4的最大联通子图的顶点集合对应词的组合是一个检测出的话题。
CN 201110187138 2011-07-05 2011-07-05 一种基于图聚类的用户生成文本流中的突发话题检测方法 Expired - Fee Related CN102214241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110187138 CN102214241B (zh) 2011-07-05 2011-07-05 一种基于图聚类的用户生成文本流中的突发话题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110187138 CN102214241B (zh) 2011-07-05 2011-07-05 一种基于图聚类的用户生成文本流中的突发话题检测方法

Publications (2)

Publication Number Publication Date
CN102214241A CN102214241A (zh) 2011-10-12
CN102214241B true CN102214241B (zh) 2013-02-13

Family

ID=44745549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110187138 Expired - Fee Related CN102214241B (zh) 2011-07-05 2011-07-05 一种基于图聚类的用户生成文本流中的突发话题检测方法

Country Status (1)

Country Link
CN (1) CN102214241B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026519B2 (en) * 2011-08-09 2015-05-05 Microsoft Technology Licensing, Llc Clustering web pages on a search engine results page
CN103631862B (zh) * 2012-11-02 2017-01-11 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及系统
CN103150383B (zh) * 2013-03-15 2015-07-29 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN104182421A (zh) * 2013-05-27 2014-12-03 华东师范大学 视频聚类方法及检测方法
CN103294818B (zh) * 2013-06-12 2016-05-18 北京航空航天大学 多信息融合的微博热点话题检测方法
CN103455639A (zh) * 2013-09-27 2013-12-18 清华大学 一种识别微博突发热点事件的方法及装置
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN104573031B (zh) * 2015-01-14 2018-06-05 哈尔滨工业大学深圳研究生院 一种微博突发事件检测方法
CN106294333B (zh) * 2015-05-11 2019-10-29 国家计算机网络与信息安全管理中心 一种微博突发话题检测方法及装置
CN105224604B (zh) * 2015-09-01 2019-01-29 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105468677B (zh) * 2015-11-13 2019-11-19 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN108733791B (zh) * 2018-05-11 2020-11-20 北京科技大学 网络事件检测方法
CN109145114B (zh) * 2018-08-29 2021-08-03 电子科技大学 基于Kleinberg在线状态机的社交网络事件检测方法
CN111143508B (zh) * 2019-12-06 2023-04-28 国家计算机网络与信息安全管理中心 一种基于通信类短文本的事件检测与跟踪方法及系统
CN113569983A (zh) * 2021-08-13 2021-10-29 深圳前海微众银行股份有限公司 网址分类方法、装置、设备与计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231641A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576251B2 (en) * 2009-11-13 2017-02-21 Hewlett Packard Enterprise Development Lp Method and system for processing web activity data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231641A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及系统
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统

Also Published As

Publication number Publication date
CN102214241A (zh) 2011-10-12

Similar Documents

Publication Publication Date Title
CN102214241B (zh) 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
CN102411638B (zh) 一种新闻检索结果的多媒体摘要生成方法
CN102346766A (zh) 基于极大团发现的网络热点话题检测方法及装置
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
CN107609103A (zh) 一种基于推特的事件检测方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN103458042A (zh) 一种微博广告用户检测方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和系统
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103294818A (zh) 多信息融合的微博热点话题检测方法
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN102375842A (zh) 面向领域整体的关键词集的评价和提取方法
CN104102658A (zh) 文本内容挖掘方法及装置
CN109299248A (zh) 一种基于自然语言处理的商业情报收集方法
CN105740448A (zh) 面向话题的多微博时序文摘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130213