CN102346766A - 基于极大团发现的网络热点话题检测方法及装置 - Google Patents

基于极大团发现的网络热点话题检测方法及装置 Download PDF

Info

Publication number
CN102346766A
CN102346766A CN2011102786195A CN201110278619A CN102346766A CN 102346766 A CN102346766 A CN 102346766A CN 2011102786195 A CN2011102786195 A CN 2011102786195A CN 201110278619 A CN201110278619 A CN 201110278619A CN 102346766 A CN102346766 A CN 102346766A
Authority
CN
China
Prior art keywords
speech
module
group
greatly
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102786195A
Other languages
English (en)
Inventor
肖波
蔺志青
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2011102786195A priority Critical patent/CN102346766A/zh
Publication of CN102346766A publication Critical patent/CN102346766A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种基于极大团发现的网络热点话题检测方法及装置。其中,该方法包括如下步骤:实时采集网络新闻网站、论坛、博客、微博数据;对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;将每个热点词用唯一的编号进行表示;将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;将每个极大团变换为一个词组合,代表一个热点话题。还公开了一种网络热点话题检测装置,利用本发明实施例,能够及时准确地发现网络中的热点话题,提高热点话题检测的速度和精度,具有很大的实用价值。

Description

基于极大团发现的网络热点话题检测方法及装置
技术领域
本发明涉及文本信息处理范畴中的网络信息分析与数据挖掘技术,尤其涉及一种基于极大团发现的热点话题检测方法及装置。
背景技术
互联网日渐成为舆情产生和传播的主要场所,很多人在网络上主动表达自己的观点和看法。由于网络本身具有虚拟性、隐藏性、渗透性和随意性等特点,使得网络舆情的社会影响力越来越大,甚至会影响国家重大决策。因此,各国政府与军队都高度关注网络舆情的研究,以便及时对热点、焦点与敏感话题做出反应。
网络热点话题发现是网络舆论管理需要解决的首要问题,最早在该领域展开研究的是由美国国防部先进研究项目局支持的话题检测与跟踪(Topic detection and tracking,简称TDT)项目,该项目在话题检测方面致力于新事件检测以及事件跟踪方面的研究。互联网中的Web信息资源,如新闻网站、论坛、博客及微博,汇集了各类事件和新闻的报道和舆论评价,是热点话题检测的重要信息平台。
随着TDT项目的研究进展,国内外关于话题发现的相应研究成果逐渐丰富起来。热点话题检测本质上属于热点话题聚类。目前话题聚类的方法主要有两大类,一类是通过向量空间模型,计算各个新闻或帖子的距离,或潜在的主题模型进行聚类,另一类是直接通过统计词频产生热点词集合,再进行合理聚类,产生的不同热点词集合来表示不同的热点话题。
第一类聚类方法在处理长文本时比较有效,但不能保证话题发现的实时性。由于互联网信息很多是短文本,包含的词很少,因此数据具有稀疏性。针对这类数据采用聚类方法效果不尽人意。
第二类话题检测方法则是直接统计词或重复串的出现次数,用频繁词集合来表达热点话题,因此该类方法对文本长度不敏感,但查准率有待改善。
此外,也有研究者提出了不同于以上两类方法的检测技术。例如,有人提出了采用拓扑势的方法进行热点话题聚类,通过评价结点的重要性来判别网络热点及演化趋势。也有研究提出采用演化理论来研究热点话题聚类,首先通过增量单边聚类方法获得候选话题,然后使用演化理论计算话题热度,最后根据定义参数进行排序,得到BBS热点话题。这些方法对于长短不一的互联网信息,效果较差。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种基于极大团发现的热点话题检测方法及装置。
为达到上述目的,本发明提出的基于极大团发现的网络热点话题检测方法包括下列步骤:
数据采集步骤:实时采集网络新闻网站、论坛、博客、微博数据;
热点词对集合构建步骤:对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;
热点词编号步骤:将每个热点词用唯一的编号进行表示;
极大团挖掘步骤:将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;
热点话题表示步骤:将每个极大团变换为一个词组合,代表一个热点话题。
数据采集步骤中,实时采集网络数据包括:新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。采集步骤进一步包含以下子步骤:配置步骤,即设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式;下载步骤,即通过http协议应用多线程并行采集种子URL对应的html网页;匹配步骤,对采集到的网页通过配置到正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据;过滤步骤,删除先前已经采集过的数据,保存本时间段采集的数据,以供后续步骤使用;上述步骤完成后,等待设置的时间间隔后,重复下载步骤、匹配步骤和过滤步骤。
热点词对集合构建步骤完成对采集的数据进行分词、词频统计等处理,进一步包含以下子步骤:构建动词与名词库步骤;构建命名实体名称词库步骤;构建动态词库步骤;分词操作步骤;词频统计步骤;热点词集合构建步骤;词对共现频度统计步骤;热点词对生成步骤。
热点词编号步骤中将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。
极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘步骤包含以下子步骤:
连通分量生成步骤:遍历无向图,产生图的所有连通分量。
初始化步骤:初始化最终极大团集合T为空集。
选取步骤:取该图中的第一个连通分量。
挖掘步骤:对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。
跳转步骤:判断该图中是否存在下一个连通分量,若存在,跳转到挖掘步骤;否则,继续执行输出步骤。
输出步骤:输出最终极大团集合T中的所有极大团。
其中,上述挖掘步骤完成从连通分量中挖掘所有极大团,具体过程如下:
1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。
2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在,继续执行步骤3)。
3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合Sk为空集。
4)取当前极大团集合Sk-1中的第一个团。
5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。
6)将k加入到该团中形成新团P。
7)判断P的超集是否在集合Sk中。若在集合Sk中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤4415;否则,说明P为新产生的团,应该加入到Sk中,继续执行步骤8)。
8)将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合Sk中,跳转到步骤15)。
9)将该团加入到集合Sk
10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。
11)判断Q的子集是否在新极大团集合Sk中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。
12)则将Q的子集从新极大团集合中删除。
13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14);否则,跳转到步骤15)。
14)将Q加入到新极大团集合中。
15)判断集合Sk-1中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。
16)将产生的集合Sk中的所有极大团输出到最终极大团集合中。
热点话题表示步骤中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。
本发明提出的基于极大团发现的网络热点话题检测装置,包括以下模块:
数据采集模块:完成实时采集网络新闻网站、论坛、博客、微博数据;
热点词对集合构建模块:完成对采集的数据进行分词,词频统计等处理,发现所有的热点词对,构建热点词对集合;
热点词编号模块:将每个热点词用唯一的编号进行表示;
极大团挖掘模块:将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;
热点话题表示模块:将每个极大团变换为一个词组合,代表一个热点话题。
数据采集模块中,实时采集网络数据包括:新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。采集模块进一步包含以下子模块:配置模块;下载模块;匹配模块;过滤模块;上述模块完成后,等待设置的时间间隔后,重复执行下载模块、匹配模块和过滤模块。
热点词对集合构建模块进一步包含以下子模块:构建动词与名词库模块;构建命名实体名称词库模块;构建动态词库模块;分词操作模块;词频统计模块;热点词集合构建模块;词对共现频度统计模块;热点词对生成模块。
热点词编号模块将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。
极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘模块包含以下子模块:
连通分量生成模块:遍历无向图,产生图的所有连通分量。
初始化模块:初始化最终极大团集合T为空集。
选取模块:取该图中的第一个连通分量。
挖掘模块:对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。
跳转模块:判断该图中是否存在下一个连通分量,若存在,跳转到挖掘模块;否则,继续执行输出模块。
输出模块:输出最终极大团集合T中的所有极大团。
其中,上述挖掘模块完成从连通分量中挖掘所有极大团,具体过程如下:
1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。
2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在,继续执行步骤3)。
3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合Sk为空集。
4)取当前极大团集合Sk-1中的第一个团。
5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。
6)将k加入到该团中形成新团P。
7)判断P的超集是否在集合Sk中。若在集合Sk中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15);否则,说明P为新产生的团,应该加入到Sk中,继续执行步骤8)。
8)将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合Sk中,跳转到步骤15)。
9)将该团加入到集合Sk
10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。
11)判断Q的子集是否在新极大团集合Sk中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。
12)则将Q的子集从新极大团集合中删除。
13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14);否则,跳转到步骤15)。
14)将Q加入到新极大团集合中。
15)判断集合Sk-1中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。
16)将产生的集合Sk中的所有极大团输出到最终极大团集合中。
热点话题表示模块中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。
本发明的有益效果在于,相对于现有技术而言,本发明为了满足用户实时发现互联网中突发性热点话题的需求,面向互联网新闻、论坛、博客、微博中的信息,综合利用话题检测与跟踪算法和极大团发现技术,对文本信息进行分析与数据挖掘,对热点话题进行检测。实验结果验证了本发明的有效性和准确性,具有很大实用性。
附图说明
图1为本发明基于极大团发现的网络热点话题检测方法的步骤流程图;
图2为数据采集方法的步骤流程图;
图3为热点词对集合构建方法的步骤流程图;
图4为从无向图中生成极大团的工作原理图;
图5为从连通分量中生成极大团的详细流程图;
图6为本发明基于极大团发现的网络热点话题检测装置的结构框图。
具体实施方式
下面将结合附图对本发明具体实施方式进行详细说明。
图1是本发明的一个实施方式的流程图,包括以下步骤:
步骤S1:数据采集,完成网络新闻网站、论坛、博客、微博数据实时采集。
步骤S2:热点词对集合构建,对采集的数据进行处理,构建热点词对集合。
步骤S3:热点词编号,将每个热点词用唯一编号表示。
步骤S4:极大团挖掘,将热点词对集合看作无向图形式,图中每个顶点为相应热点词对应的编号。对该图进行挖掘,得到所有的极大团。
步骤S5:热点话题表示,将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合代表一个热点话题。
下面将对每个步骤进行具体的说明:
步骤S1完成网络新闻网站、论坛、博客、微博数据实时采集。本发明设计了基于http协议下载及对网页内容进行正则表达式匹配的采集方法。图2给出了该方法的具体实施流程图,具体步骤如下:
步骤11,设置种子URL和每个种子匹配用的正则表达式,种子URL可以是多个。种子设置为4类,分别为网络新闻网站的新闻列表页、论坛列表页、博客的博文列表页,微博用户的首页。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。
步骤12,通过http协议应用多线程并行采集种子URL对应的html网页。
步骤13,对采集到的网页通过配置到正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。
步骤14,删除先前已经采集过的数据,保存本时间段采集的数据,以供步骤S2使用。
步骤15,等待设置的时间间隔后,跳转到步骤12,重复步骤12~步骤15,采集下一个时间段的数据。
步骤S2完成对采集数据的处理,构建热点词对集合。图3给出了该方法的实施过程流程图,具体操作步骤如下:
步骤21,构建动词与名词静态词库。词库包含中文动词和中文名词。
步骤22,构建命名实体名称词库。词库包括地理名称、组织机构名称、常用人名。
步骤23,构建动态词库。词库包含从百度搜索风雨榜、等网站实时采集的热点搜索词。
步骤24,对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用三类词库进行分词,将各类文本都变为词的集合。若某词在某文档向量中出现多次,算作一次。关键词有时也是2或多个词构成,因此也需要进行分词操作。最终每个文本都变为由词构成的文档向量。
步骤25,统计每个词在每个文档向量中出现的词频。
步骤26,删除词频小于给定阈值的词,保留下来的词构成热点词集合。
步骤27,统计任意两个热点词同时出现在一个文档向量中的次数,即共现频度。
步骤28,删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。
步骤S3完成对热点词的编号。将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。例如一共保留100个热点词,则对应的编号为1,2,...,100。将热点词对集合看作无向图形式,图中每个顶点的编号为相应热点词对应的数字,图中的边表示两顶点对应的词构成了热点词对。
图4给出了图1中步骤S4,即从无向图中生成极大团的工作原理流程。具体步骤如下:
步骤41,遍历无向图,产生图的所有连通分量。
步骤42,初始化最终极大团集合T为空集。
步骤43,取该图中的第一个连通分量。
步骤44,对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。
步骤45,判断该图中是否存在下一个连通分量,若存在,跳转到步骤44;否则,继续执行步骤46。
步骤46,输出最终极大团集合T中的所有极大团。
图5给出了图4中步骤44,即从连通分量中产生所有极大团的详细流程。具体步骤如下:
步骤4401,取连通分量的第一个顶点(k=1)作为一个当前的极大团,即{1},设置当前极大团集合S1={{1}}。显然,此时连通分量中仅考虑第一个顶点,构成的极大团只有该顶点。
步骤4402,判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16;若存在,继续执行步骤4403。
步骤4403,设该顶点为第k个顶点,称为顶点k,初始化加入顶点k后的新极大团集合Sk为空集。则原来的当前极大团集合变为了Sk-1
步骤4404,取当前极大团集合Sk-1中的第一个团。
步骤4405,设该团为C,判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤4406;否则,则跳转到步骤4409。
步骤4406,将k加入到该团中形成新团P。
步骤4407,判断P的超集是否在集合Sk中。若在集合Sk中,说明以前的操作已经产生了该团,不需要再加入了,跳转到步骤4415;否则,说明P为新产生的团,应该加入到Sk中,继续执行步骤4408。
步骤4408,将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合Sk中,跳转到步骤4415。
步骤4409,将该团加入到集合Sk
步骤4410,将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q,即Q=(L(k)∩C)∪{k}。
步骤4411,判断Q的子集是否在新极大团集合Sk中存在。若存在,则需要将其删除,继续执行步骤4412;否则,跳转到步骤4413。
步骤4412,则将Q的子集从新极大团集合中删除。
步骤4413,判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤4414;否则,跳转到步骤4415。
步骤4414,将Q加入到新极大团集合中。
步骤4415,判断集合Sk-1中是否存在下一个极大团。若存在,则跳转到步骤4405,重复执行步骤4405~步骤4415;否则,说明由集合Sk-1产生集合Sk的过程已经完成,需要考虑再加入一个新顶点的处理,即跳转到步骤4402,重复执行如上步骤,直至连通分量中所有的顶点都处理完。
步骤4416,将产生的集合Sk中的所有极大团输出到最终极大团集合中。
通过步骤4,将可将无向图中的所有极大团找出。下面给出了一个极大团发现的实例。设图中共有10个顶点,顶点编号分别为1至10,图中的边有11条,分别为{1,3},{1,5},{1,9},{2,8},{3,5},{3,9},{4,6},{4,8},{5,9},{6,8},{7,10},则该无向图可分解为四个极大团,分别为{1,3,5,9},{4,6,8},{7,10},{2,8}。
步骤S5完成了热点话题的表示。将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合代表一个热点话题。例如,假设日本、地震、福岛、核事故对应的编号分别为1,3,5,9,则极大团{1,3,5,9}代表的热点话题为{日本,地震,福岛,核事故}。
以上结合附图对基于极大团发现的网络热点话题检测方法各模块的具体实施方式进行了阐述。
另一方面,本发明还公开了一种基于极大团发现的网络热点话题检测装置。参照图6,该装置包括如下模块:
数据采集模块,完成网络新闻网站、论坛、博客、微博数据实时采集。
热点词对集合构建模块,完成对采集数据的处理,构建热点词对集合。
热点词编号模块,将每个热点词进行唯一编号。
极大团挖掘模块,将热点词对集合看作无向图形式,图中每个顶点为相应热点词对应的编号。完成对无向图的挖掘,得到所有的极大团。
热点话题表示模块。将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合表示为一个热点话题。
上述基于极大团发现的网络热点话题检测装置各模块的实施例具有与方法实施例相同的技术效果,在此不再重复阐述。
通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络热点话题检测方法,其特征在于,包括以下步骤:
数据采集步骤:实时采集网络新闻网站、论坛、博客、微博数据;
热点词对集合构建步骤:对采集的数据进行分词,词频统计等处理,发现所有的热点词对,构建热点词对集合;
热点词编号步骤:将每个热点词用唯一的编号进行表示;
极大团挖掘步骤:将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;
热点话题表示步骤:将每个极大团变换为一个词组合,代表一个热点话题。
2.如权利要求1所述的方法,其特征在于,数据采集步骤中,实时采集网络数据包括:新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。数据采集步骤进一步包含以下子步骤:
配置步骤:设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。
下载步骤:通过http协议应用多线程并行采集种子URL对应的html网页。
匹配步骤:通过配置的正则表达式,对采集到的网页进行匹配,获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。
过滤步骤:删除先前已经采集过的数据,保存本时间段新采集的数据,以供后续步骤使用。
上述步骤完成后,等待设置的时间间隔后,重复下载步骤、匹配步骤和过滤步骤。
3.如权利要求2所述的方法,其特征在于,热点词对集合构建步骤进一步包含以下子步骤:
构建动词与名词库步骤:将所有的中文动词和中文名词存储到该词库中。
构建命名实体名称词库步骤:将常见的地理名称、组织机构名称、常用人名存储到该词库中。
构建动态词库步骤:从百度搜索风雨榜等网站实时采集热点搜索词,存储到该词库中。
分词操作步骤:对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用构建好的上述三类词库进行分词。若某词在某文档中出现多次,算作一次。最终每个文本都变为由词构成的文档向量。
词频统计步骤:统计每个词在每个文档向量中出现的词频。
热点词集合构建步骤:删除词频小于给定阈值的词,保留下来的词构成热点词集合。
词对共现频度统计步骤:统计任意两个热点词同时出现在一个文档向量中的次数,即词对的共现频度。
热点词对生成步骤:删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。
4.如权利要求3所述的方法,其特征在于,极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘步骤包含以下子步骤:
连通分量生成步骤:遍历无向图,产生图的所有连通分量。
初始化步骤:初始化最终极大团集合T为空集。
选取步骤:取该图中的第一个连通分量。
挖掘步骤:对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。
跳转步骤:判断该图中是否存在下一个连通分量,若存在,跳转到挖掘步骤;否则,继续执行输出步骤。
输出步骤:输出最终极大团集合T中的所有极大团。
其中,上述挖掘步骤完成从连通分量中挖掘所有极大团,具体过程如下:
1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。
2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在,继续执行步骤3)。
3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合Sk为空集。
4)取当前极大团集合Sk-1中的第一个团。
5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。
6)将k加入到该团中形成新团P。
7)判断P的超集是否在集合Sk中。若在集合Sk中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15);否则,说明P为新产生的团,应该加入到Sk中,继续执行步骤8)。
8)将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合Sk中,跳转到步骤15)。
9)将该团加入到集合Sk
10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。
11)判断Q的子集是否在新极大团集合Sk中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。
12)将Q的子集从新极大团集合中删除。
13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14);否则,跳转到步骤15)。
14)将Q加入到新极大团集合中。
15)判断集合Sk-1中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。
16)将产生的集合Sk中的所有极大团输出到最终极大团集合T中。
5.如权利要求4所述的方法,其特征在于,热点话题表示步骤中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。
6.一种网络热点话题检测装置,其特征在于,包括以下模块:
数据采集模块:完成实时采集网络新闻网站、论坛、博客、微博数据;
热点词对集合构建模块:完成对采集的数据进行分词,词频统计等操作,发现所有的热点词对,构建热点词对集合;
热点词编号模块:将每个热点词用唯一的编号进行表示;
极大团挖掘模块:将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;
热点话题表示模块:将每个极大团变换为一个词组合,代表一个热点话题。
7.如权利要求6所述的方法,其特征在于,数据采集模块中,实时采集网络数据包括:新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。数据采集模块进一步包含以下子模块:
配置模块:设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。
下载模块:通过http协议应用多线程并行采集种子URL对应的html网页。
匹配模块:对采集到的网页通过配置的正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。
过滤模块:删除先前已经采集过的数据,保存本时间段采集的数据,以供后续模块使用。
上述模块完成后,等待设置的时间间隔后,重复执行下载模块、匹配模块和过滤模块。
8.如权利要求7所述的方法,其特征在于,热点词对集合构建模块进一步包含以下子模块:
构建动词与名词库模块:将所有的中文动词和中文名词存储到该词库中。
构建命名实体名称词库模块:将常见的地理名称、组织机构名称、常用人名存储到该词库中。
构建动态词库模块:从百度搜索风雨榜等网站实时采集热点搜索词,存储到该词库中。
分词操作模块:对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用构建好的三类词库进行分词。若某词在某文档中出现多次,算作一次。最终每个文本都变为由词构成的文档向量。
词频统计模块:统计每个词在每个文档向量中出现的词频。
热点词集合构建模块:删除词频小于给定阈值的词,保留下来的词构成热点词集合。
词对共现频度统计模块:统计任意两个热点词同时出现在一个文档向量中的次数,即词对的共现频度。
热点词对生成模块:删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。
9.如权利要求8所述的方法,其特征在于,极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘模块包含以下子模块:
连通分量生成模块:遍历无向图,产生图的所有连通分量。
初始化模块:初始化最终极大团集合T为空集。
选取模块:取该图中的第一个连通分量。
挖掘模块:对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。
跳转模块:判断该图中是否存在下一个连通分量,若存在,跳转到挖掘模块;否则,继续执行输出模块。
输出模块:输出最终极大团集合T中的所有极大团。
其中,上述挖掘模块完成从连通分量中挖掘所有极大团,具体过程如下:
1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。
2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在,继续执行步骤3)。
3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合Sk为空集。
4)取当前极大团集合Sk-1中的第一个团。
5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。
6)将k加入到该团中形成新团P。
7)判断P的超集是否在集合Sk中。若在集合Sk中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15);否则,说明P为新产生的团,应该加入到Sk中,继续执行步骤8)。
8)将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合Sk中,跳转到步骤15)。
9)将该团加入到集合Sk
10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。
11)判断Q的子集是否在新极大团集合Sk中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。
12)将Q的子集从新极大团集合中删除。
13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14);否则,跳转到步骤15)。
14)将Q加入到新极大团集合中。
15)判断集合Sk-1中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。
16)将产生的集合Sk中的所有极大团输出到最终极大团集合中。
10.如权利要求9所述的方法,其特征在于,热点话题表示模块中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。
CN2011102786195A 2011-09-20 2011-09-20 基于极大团发现的网络热点话题检测方法及装置 Pending CN102346766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102786195A CN102346766A (zh) 2011-09-20 2011-09-20 基于极大团发现的网络热点话题检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102786195A CN102346766A (zh) 2011-09-20 2011-09-20 基于极大团发现的网络热点话题检测方法及装置

Publications (1)

Publication Number Publication Date
CN102346766A true CN102346766A (zh) 2012-02-08

Family

ID=45545443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102786195A Pending CN102346766A (zh) 2011-09-20 2011-09-20 基于极大团发现的网络热点话题检测方法及装置

Country Status (1)

Country Link
CN (1) CN102346766A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN103294818A (zh) * 2013-06-12 2013-09-11 北京航空航天大学 多信息融合的微博热点话题检测方法
CN103383703A (zh) * 2013-07-17 2013-11-06 深圳先进技术研究院 一种微博用户组推荐方法
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN103593399A (zh) * 2013-10-12 2014-02-19 北京奇虎科技有限公司 一种根据微博用户库采集微博内容的方法及设备
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
CN103902716A (zh) * 2014-04-08 2014-07-02 上海交通大学 一种社区化的社会化媒体话题分析与发布方法
CN104166675A (zh) * 2014-07-02 2014-11-26 中国科学院计算技术研究所 一种基于图分解的多模式网络话题生成方法及其系统
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN104850617A (zh) * 2015-05-15 2015-08-19 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106354846A (zh) * 2016-08-31 2017-01-25 成都广电视讯文化传播有限公司 基于大数据的新闻智能选稿方法及系统
CN106446179A (zh) * 2016-09-28 2017-02-22 东软集团股份有限公司 热点话题的生成方法及装置
CN106528755A (zh) * 2016-10-28 2017-03-22 东软集团股份有限公司 热点话题的生成方法及装置
CN107004011A (zh) * 2014-12-23 2017-08-01 英特尔公司 针对演进图形分配全局边缘id
CN107688596A (zh) * 2017-06-09 2018-02-13 平安科技(深圳)有限公司 突发话题检测方法及突发话题检测设备
CN109033318A (zh) * 2018-07-18 2018-12-18 北京市农林科学院 智能问答方法及装置
CN109426661A (zh) * 2017-08-24 2019-03-05 阿里巴巴集团控股有限公司 语料分析方法及相关装置
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109919459A (zh) * 2019-02-21 2019-06-21 武汉大学 一种面向社交网络对象间影响力度量的方法
CN110213070A (zh) * 2018-04-04 2019-09-06 腾讯科技(深圳)有限公司 团网络识别方法、装置、服务器及计算机可读存储介质
WO2019223153A1 (zh) * 2018-05-25 2019-11-28 平安科技(深圳)有限公司 海量数据结构化方法、装置、计算机设备及存储介质
CN111190996A (zh) * 2020-04-10 2020-05-22 支付宝(杭州)信息技术有限公司 话题挖掘方法及装置
CN111581967A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN113449108A (zh) * 2021-06-30 2021-09-28 南京理工大学 一种基于层级化聚类的金融新闻流突发检测方法
CN113886569A (zh) * 2020-06-16 2022-01-04 腾讯科技(深圳)有限公司 一种文本分类方法和装置

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN103577501B (zh) * 2012-08-10 2019-03-19 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
CN102968439B (zh) * 2012-10-11 2015-11-25 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN103294818A (zh) * 2013-06-12 2013-09-11 北京航空航天大学 多信息融合的微博热点话题检测方法
CN103294818B (zh) * 2013-06-12 2016-05-18 北京航空航天大学 多信息融合的微博热点话题检测方法
CN103383703A (zh) * 2013-07-17 2013-11-06 深圳先进技术研究院 一种微博用户组推荐方法
CN103383703B (zh) * 2013-07-17 2017-07-28 深圳先进技术研究院 一种微博用户组推荐方法
CN103593399A (zh) * 2013-10-12 2014-02-19 北京奇虎科技有限公司 一种根据微博用户库采集微博内容的方法及设备
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103678670B (zh) * 2013-12-25 2017-01-11 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103902716A (zh) * 2014-04-08 2014-07-02 上海交通大学 一种社区化的社会化媒体话题分析与发布方法
CN104166675A (zh) * 2014-07-02 2014-11-26 中国科学院计算技术研究所 一种基于图分解的多模式网络话题生成方法及其系统
CN104166675B (zh) * 2014-07-02 2018-07-06 中国科学院计算技术研究所 一种基于图分解的多模式网络话题生成方法及其系统
CN104281653B (zh) * 2014-09-16 2018-07-27 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN107004011B (zh) * 2014-12-23 2021-08-03 英特尔公司 针对演进图形分配全局边缘id
CN107004011A (zh) * 2014-12-23 2017-08-01 英特尔公司 针对演进图形分配全局边缘id
CN104850617B (zh) * 2015-05-15 2018-04-20 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN104850617A (zh) * 2015-05-15 2015-08-19 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN105824803B (zh) * 2016-03-31 2018-10-30 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106354846A (zh) * 2016-08-31 2017-01-25 成都广电视讯文化传播有限公司 基于大数据的新闻智能选稿方法及系统
CN106446179A (zh) * 2016-09-28 2017-02-22 东软集团股份有限公司 热点话题的生成方法及装置
CN106446179B (zh) * 2016-09-28 2019-07-30 东软集团股份有限公司 热点话题的生成方法及装置
CN106528755A (zh) * 2016-10-28 2017-03-22 东软集团股份有限公司 热点话题的生成方法及装置
CN107688596B (zh) * 2017-06-09 2020-02-21 平安科技(深圳)有限公司 突发话题检测方法及突发话题检测设备
CN107688596A (zh) * 2017-06-09 2018-02-13 平安科技(深圳)有限公司 突发话题检测方法及突发话题检测设备
CN109426661A (zh) * 2017-08-24 2019-03-05 阿里巴巴集团控股有限公司 语料分析方法及相关装置
CN109426661B (zh) * 2017-08-24 2023-08-18 阿里巴巴(中国)网络技术有限公司 语料分析方法及相关装置
WO2019192310A1 (zh) * 2018-04-04 2019-10-10 腾讯科技(深圳)有限公司 团网络识别方法、装置、计算机设备及计算机可读存储介质
CN110213070A (zh) * 2018-04-04 2019-09-06 腾讯科技(深圳)有限公司 团网络识别方法、装置、服务器及计算机可读存储介质
US10958529B2 (en) 2018-04-04 2021-03-23 Tencent Technology (Shenzhen) Company Limited Clique network identification method and apparatus, computer device, and computer-readable storage medium
CN110213070B (zh) * 2018-04-04 2021-08-17 腾讯科技(深圳)有限公司 团网络识别方法、装置、服务器及计算机可读存储介质
WO2019223153A1 (zh) * 2018-05-25 2019-11-28 平安科技(深圳)有限公司 海量数据结构化方法、装置、计算机设备及存储介质
CN109033318B (zh) * 2018-07-18 2020-11-27 北京市农林科学院 智能问答方法及装置
CN109033318A (zh) * 2018-07-18 2018-12-18 北京市农林科学院 智能问答方法及装置
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109509110B (zh) * 2018-07-27 2021-08-31 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109919459B (zh) * 2019-02-21 2022-05-13 武汉大学 一种面向社交网络对象间影响力度量的方法
CN109919459A (zh) * 2019-02-21 2019-06-21 武汉大学 一种面向社交网络对象间影响力度量的方法
CN111190996A (zh) * 2020-04-10 2020-05-22 支付宝(杭州)信息技术有限公司 话题挖掘方法及装置
CN111581967A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN111581967B (zh) * 2020-05-06 2023-08-11 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN113886569A (zh) * 2020-06-16 2022-01-04 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN113886569B (zh) * 2020-06-16 2023-07-25 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN112650910B (zh) * 2020-12-30 2024-03-12 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN113449108A (zh) * 2021-06-30 2021-09-28 南京理工大学 一种基于层级化聚类的金融新闻流突发检测方法
CN113449108B (zh) * 2021-06-30 2022-10-21 南京理工大学 一种基于层级化聚类的金融新闻流突发检测方法

Similar Documents

Publication Publication Date Title
CN102346766A (zh) 基于极大团发现的网络热点话题检测方法及装置
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN102214241B (zh) 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103745000A (zh) 一种中文微博客的热点话题检测方法
CN106055604A (zh) 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
Zhao et al. Topic-centric and semantic-aware retrieval system for internet of things
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN103942335A (zh) 一种针对网页结构变化的不间断爬虫系统构建方法
CN104102658A (zh) 文本内容挖掘方法及装置
CN105938481A (zh) 一种城市多模式文本数据的异常检测方法
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN104102635A (zh) 一种挖掘知识图谱的方法及装置
CN111859065A (zh) 一种基于大数据的舆情聆听系统
Lee et al. An automatic topic ranking approach for event detection on microblogging messages
Poonkuzhali et al. Signed approach for mining web content outliers
CN101308499A (zh) 一种基于关联分析的文献检索方法
Shu et al. Automatic extraction of web page text information based on network topology coincidence degree
Yang et al. A topic-specific web crawler with concept similarity context graph based on FCA
Liu et al. An improved topic detection method for chinese microblog based on incremental clustering.
CN104331483B (zh) 基于短文本数据的区域事件检测方法和设备
Yuan et al. OPO: Online public opinion analysis system over text streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120208