CN101980199A

CN101980199A - 基于态势评估的网络热点话题发现方法及系统

Info

Publication number: CN101980199A
Application number: CN 201010529273
Authority: CN
Inventors: 刘云; 司夏萌; 张振江; 沈波; 程辉; 程军军; 熊菲
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2011-02-23

Abstract

本发明公开了一种基于态势评估的网络热点话题发现方法及系统。其中，该方法包括：实时获取网络论坛数据；对所述网络论坛数据进行语料预处理，提取候选词串；基于所述候选词串，形成向量形式的特征集合以表示每条帖子；对所述帖子进行聚类，依据聚类结果获取发现的热点话题并进行量化；对聚类产生的热点话题进行态势评估，并依据态势评估结果，修正所述发现的热点话题。本发明综合利用话题发现与跟踪算法和态势评估思想，进行可选择与可定制处理过程的算法组织形式，对文本信息进行分析与数据挖掘，对热点话题发现。实验结果验证了本发明的有效性和准确性，具有很大的实用价值。

Description

基于态势评估的网络热点话题发现方法及系统

技术领域

本发明涉及网络信息安全范畴中的网络信息分析与数据挖掘技术，尤其涉及一种基于态势评估的网络热点话题发现方法及系统。

背景技术

随着计算机网络的不断发展，网络信息成为日常生活中的重要组成部分，互联网已经成为人们获取信息、交流沟通的重要场所。在“网络摩尔定律”的支配下，互联网信息量正以每100天翻一番的速度增长，大量实时信息充斥互联网之上，在这些海量异构的Web信息资源中，蕴含着具有巨大的潜在价值。

面对指数增长的新信息，如何有效掌握海量数据，提取其中的热点话题，或者获取自己想要的信息，成为长期困扰网络用户的难题。热点话题发现，可从各种信息资源中发现某段时间内各个领域中引起人们广泛关注的话题，方便个人获取当前重要资讯。此外，网络舆情是社会舆情的一个重要组成部分，不仅反映了某些社会群体或阶层的社会政治态度，而且是社情民意的一个重要表现。热点话题发现，可使政府及时了解当前社会重要事件、流行趋向、舆论方向，以便加以引导和进行安全监控。

话题包括一个核心事件或活动以及所有与之直接相关的事件和活动。如果一个事件讨论了与某个话题的核心事件直接相关的事件或活动，那么就认为该事件与此话题相关。话题发现的研究利用话题识别与跟踪(Topic Detection and Tracking，TDT)技术来帮助人们应对信息过载问题。传统意义上的聚类是基于全局信息的聚类，但考虑到输入新闻报道和论坛帖子的数量级，话题发现通常采用无指导的增量聚类方法。增量聚类分为识别出新的话题和将描写先前话题的报道归入相应的话题两个阶段。

网络热点话题是从不断更新的海量网络信息中提取出来的，能呈现网络当前重要事件、关注焦点、舆论方向的，经过精简组织的相关信息，具有简洁性、时效性和信息量大等特征。如何在动态且分散信息活动中挖掘热点话题成为互联网的研究热点。

现有技术中有一种半自动化的热点挖掘方法，该方法通过计算新闻事件在一段时间内的频率分布及所持续的时间单元，对新闻事件进行排序，但忽略了新闻的特殊属性如新闻出现的位置信息等对新闻重要性的影响。

另外，还有一种方法，详细地分析了热点的概念，基于年龄理论通过计算新闻在时间与类别上的分布，提取具有代表性的词语，计算热度。但是，这种方法仅仅对单一的新闻数据集进行计算，没有考虑到Web 2.0环境下新闻的网站及事件的关联性。

网络论坛是网络舆论生成的主阵地，也是网络舆论传播的主渠道。近些年来全国出现的最有影响力的网络舆论，几乎无一例外都是在网络论坛开始出现并传播的。但是，采用社区分割的方法发现了BBS网络具有某种自相似性，并将其应用于热点主题发现，无法识别描述突发事件的未收录新词。

发明内容

本发明的目的在于提供一种基于态势评估的网络热点话题发现技术，以满足用户实时发现网络论坛突发性热点话题的需求。

本发明一种基于态势评估的网络热点话题发现方法，包括如下步骤：数据获取步骤，实时获取网络论坛数据；候选词串提取步骤，对所述网络论坛数据进行语料预处理，提取候选词串；热点话题发现步骤，基于所述候选词串，形成向量形式的特征集合以表示每条帖子；对所述帖子进行聚类，依据聚类结果获取发现的热点话题并进行量化；态势评估步骤，对聚类产生的热点话题进行态势评估，并依据态势评估结果，修正所述发现的热点话题。

上述网络热点话题发现方法，优选所述数据获取步骤中，所述网络论坛数据基于网络拓扑的聚焦爬虫获取。

上述网络热点话题发现方法，优选所述候选词串获取步骤进一步包括如下步骤：切分步骤，对所述网络论坛数据进行分词，获取数据切分结果；还原步骤，合并所述切分结果，还原被切分的重要词串；过滤步骤，过滤停用词、无意义串和背景噪声，获取所述候选词串，作为候选结果；优化步骤，优化所述候选结果。

上述网络热点话题发现方法，优选所述热点话题发现步骤进一步为：所述向量形式的特征集合为向量空间模型的特征集合；按照发帖时间，基于年龄理论，依序将帖子聚入话题中；发现热点话题并进行量化后，对热点话题由高到低排序。

上述网络热点话题发现方法，优选所述态势评估步骤进一步包括：对热点发现结果进行态势评估；结合专家系统，改进话题所对应的帖子的向量形式的特征集合；再次执行所述热点话题发现步骤。

本发明一种基于态势评估的网络热点话题发现系统，包括：数据获取模块、候选词串提取模块、热点话题发现模块和态势评估模块。其中，数据获取模块用于实时获取网络论坛数据；候选词串提取模块用于对所述网络论坛数据进行语料预处理，提取候选词串；热点话题发现模块用于基于所述候选词串，形成向量形式的特征集合以表示每条帖子；对所述帖子进行聚类，依据聚类结果获取发现的热点话题并进行量化；态势评估模块用于对聚类产生的热点话题进行态势评估，并依据态势评估结果，修正所述发现的热点话题。

上述网络热点话题发现系统，优选所述数据获取模块中，所述网络论坛数据基于网络拓扑的聚焦爬虫获取。

上述网络热点话题发现系统，优选所述候选词串获取模块进一步包括：切分模块、还原模块、过滤模块和优化模块。切分模块用于对所述网络论坛数据进行分词，获取数据切分结果；还原模块用于合并所述切分结果，还原被切分的重要词串；过滤模块用于过滤停用词、无意义串和背景噪声，获取所述候选词串，作为候选结果；优化模块用于优化所述候选结果。

上述网络热点话题发现系统，优选所述热点话题发现模块中：所述向量形式的特征集合为向量空间模型的特征集合；所述模块进一步用于按照发帖时间，基于年龄理论，依序将帖子聚入话题中；发现热点话题并进行量化后，对热点话题由高到低排序。

上述网络热点话题发现系统，优选所述态势评估模块进一步用于：对热点发现结果进行态势评估；结合专家系统，改进话题所对应的帖子的向量形式的特征集合；再次进行所述热点话题的发现。

相对于现有技术而言，本发明为了满足用户实时发现网络论坛突发性热点话题的需求，面向互联网论坛中的帖子线索，综合利用话题发现与跟踪算法和态势评估思想，进行可选择与可定制处理过程的算法组织形式，对文本信息进行分析与数据挖掘，对热点话题发现。实验结果验证了本发明的有效性和准确性，具有很大的实用价值。

附图说明

图1为本发明态势评估的网络论坛热点话题发现方法的步骤流程图；

图2为本发明态势评估的网络论坛热点话题发现方法的工作原理图；

图3为本发明基于态势评估的热点话题发现方法的详细工作原理图；

图4为本发明态势评估的网络论坛热点话题发现系统的步结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

下面结合实施例和附图详细阐明本发明提出的算法和实现：

突发事件的频繁发生，要求网络管理者可以发现短时间突然爆发的热点话题。为了满足用户实时发现网络论坛突发性热点话题的需求，本发明面向互联网论坛中的帖子线索，综合利用话题发现与跟踪算法和态势评估思想，进行可选择与可定制处理过程的算法组织形式，对文本信息进行分析与数据挖掘，对热点话题发现。实验结果验证了本发明的有效性和准确性，具有很大的实用价值。

如图1所示，一种对互联网论坛帖子线索进行自动分析和聚类并发现热点话题的算法，包括以下步骤：

步骤S1，利用聚焦爬虫实时获取网络论坛数据；

步骤S2，对网络论坛数据进行语料预处理，提取候选词串；

步骤S3，用向量形式的特征集合表示每条帖子，将其聚类并量化话题热度；

步骤S4，对聚类结果进行态势评估，并修正热点话题发现结果。

针对基于主题的聚焦爬虫无法处理冗余链接的问题，本发明采用基于网络拓扑的聚焦爬虫。从搜索引擎获取初始网页集，使用向量空间模型计算文本相似性。对抽取出的URL先进行链接分析，再根据无标度网络特征，修正URL的权值。同时反馈不相关的主题区域，并通过URL与种子集合的距离设置不相关URL的缓冲区长度。本发明实现对起始URL、爬虫数量、抓取速度、符合采集要求的URL的正则表达式、爬虫线程终止条件等约束的设置。对获取的网页，通过网页清洗清除网页中的广告、导航信息、图片、版权说明等噪声数据，提取出相关网页的标题、正文、链接地址、采集时间等数据，导入数据库。针对互联网论坛，本发明设计以下字段如表1所示：

表1

分词是中文信息处理的基础，要实现文本增量聚类，首先要对中文文本进行分词处理。本发明采用中国科学院计算技术研究所自行研制的分词系统ICTCLAS(institute of computing technology，Chinese lexical analysis system)进行语料预处理。该系统是目前应用较为广泛的一种中文分词技术，它基于层叠型隐式马尔科夫模型，集切分、标注、命名实体识别为一体，使用角色模型(role model)的方法进行命名实体识别，不仅有较高的分词准确率，分词效率也较好。

由于中文词汇的简洁性，对于时常谈及的话题，人们习惯用缩略语代替过于冗长的全称，如：用“非典”代替“非典型性肺炎”，用“世博会”代替“世界博览会”。另外，中文语句中有一些词汇是由几个独立词固定搭配而成，如“手足口病”，或者新的热点词汇的未收录等诸多原因，导致某些词的频率虽然很高，也确实与当前热点话题相关，但是从单个词中完全无法看出热点话题的内容，因此，本文采用切分次合并的方法，提取出能够代表网络热点话题的候选词串。

在用语习惯上，对于时常谈及的话题，人们习惯用缩略语代替过于冗长的全称：比如用“十六/大”代替“中国共产党/第/十六/次/全国/代表/大会”、用“舟曲/泥石流”代替“甘肃/舟曲/县/突发/特大/山洪/泥石流”。因此，大部分重要词串实际上通过较少次数的合并就可获取，为保证算法效率，限制词语合并最多为三次。对于少数三次以上合并才能获取的候选词串，设计了优化后处理步骤。算法用一棵三层高的树保存连续3个词的合并及其相关统计信息，例如以“嫦娥”开始的词串可能形成如图2所示的一棵树，图中每个节点的Info域(如图中虚线所示)保存从根节点到当前节点的合并词串的在语料中出现的词频。

单纯的切分词合并将引入大量无意义串，为获得精简的候选词串，合并算法需要强大过滤功能的支持，为此，本发明制定了多级过滤策略：(1)停用词过滤；(2)规则过滤；(3)绝对噪声和相对噪声过滤。在生成候选串之后，经常会出现词串不完整或冗余的情况，为避免类似情况发生，本发明对提取的候选词串进行优化，过程如下：

(1)假设a、b、c分别为一个切分词，abc是由这三个词组成的词串，且Tf(a)高于词串收录的最低阈值γ，那么：如果Tf(ab)/Tf(a)≥α，收录ab，不收录a；如果Tf(abc)/Tf(ab)≥β，收录abc，不收录ab；

(2)加入一个词或词串w未被处理过，且其词频高于收录的最低阈值γ，则收录该词。

这样，一个帖子线索就被表示为一个由几个来自标题、主帖和回帖的候选词串组成的集合。但计算机只能处理结构化的数据，因此必须将非结构化的BBS文本转化为结构化的数据。本发明采用向量空间模型(VSM)技术，将一个帖子线索的内容文本映射为向量空间中的一个向量，向量由已经得到的候选词串组成，每个词或词串被赋予一个权值以表明它对这篇文档的重要性。本发明采用改进的TF-PDF方法来计算候选词串的权重。经典TF-PDF方法中，特征项的权重由公式(1)计算得到

{W_{i}}^{'} = Σ_{c = 1}^{c = | C |} | F_{ic} | \exp (\frac{n_{ic}}{N_{c}})

| F_{ic} | = \frac{F_{ic}}{\sqrt{Σ_{j = 1}^{j = K} F_{jc}^{2}}} - - - (1)

其中，W_i为特征项i的词频，F_ic为媒体c中特征项i出现的频率，n_ic为媒体c中特征项i出现的文档数，N_c为媒体c中总的文档数，K为媒体c中特征项的总数，|C|为媒体数。另外，帖子线索包括标题、主帖和回帖三部分，其中标题一般直接代表了帖子线索的主题，因此标题中的特征项应赋以较大权重，主帖内容次之，回帖内容最小。以place_i表示特征项i在帖子线索中出现的位置因子，本发明规定，在标题出现过的词对应的值为3，在主帖出现过的为2，只在回帖出现过的为1。本发明采用改进的TF-PDF方法来计算特征项i的权重，如式(2)所示：

W_{i} = W_{i}^{'} \cdot {place}_{i} - - - (2)

在比较帖子线索和话题的相似度时，本发明沿用了在TDT评测中最有效且最流行的夹角余弦公式来描述。假设帖子线索向量为S＝(w₁，w₂，...，w_n)，话题向量为T＝(v₁，v₂，...，v_n)，那么两者之间的相似度为：

sim (S, T) = \cos (S, T) = \frac{S \cdot T}{S \times T} = \frac{\underset{i &Element; H}{Σ} w_{i} v_{i}}{\sqrt{\underset{i &Element; H}{Σ} {w_{i}}^{2}} \cdot \sqrt{\underset{i &Element; H}{Σ} {v_{i}}^{2}}} - - - (3)

话题识别是话题检测与跟踪研究的核心技术。网络论坛上的话题识别是指识别谈论同一话题的帖子线索。已有的研究主要采用K-Means或Single-Pass聚类算法来进行话题识别，聚为一类的文本被认为有相同的话题。但是这些算法都忽略了话题的发展周期，对长期话题和短期话题的识别效果不佳。因此，本发明采用年龄理论来对一个新闻事件生命周期建模，将一个话题看作一个生命，具有产生、发展、高潮和消亡的生命周期，分别反映其热度随时间变化的不同阶段。话题的生命周期用能量的概念来追踪，能量大小表示话题在生命周期的位置。当一个话题逐渐流行时，其能量逐渐增长；当话题热度降低时，其能量减退。

一个帖子线索对于一个话题来说相当于食物对于人的作用，即相关帖子可以给话题带来能量和营养。如同不同的食物带给人不同的热量一样，不同的帖子为话题贡献的能量或活度也不同。帖子与话题的相似度越大，其给话题带来的能量越多。以x_t表示时段t内新到帖子与话题相似度的和，以y_t＝g(x_t，x_t，x_t，...，x_t，μ，v)表示时段t以前所有帖子与话题的累积相似度。其中μ为能量转移因子，控制帖子对话题的影响程度；v为能量衰减因子，控制话题的生命速率。

函数g可以有很多种选择，主要有三种增长机制：只增长函数，即y_t＝∑_i＝1，...t(μx_i)；恒定衰减，即y_t＝∑_{i＝1，...，t}(μx_i-v)，即累积相似度以恒定的速度随时间衰减；递进衰减，即y_t＝μ(vy_t-1+(1-v)x_t)是话题之前累积相似度的加权递归。累积相似度需要用能量函数F()来转化为能量，因此，函数F()满足如下条件：

根据向量空间模型和夹角余弦公式来判断新到帖子与话题之间的相似度，选择合适的增长机制和能量函数F()更新话题能量。基于年龄理论的热点话题算法的详细步骤如下：

语料预处理，提取候选词串

训练参数μ、v，确定累积相似度的增长机制

从数据库中按时间顺序提取所有帖子的特征向量(帖子个数＝Num)

直接把第一个帖子的特征向量作为第一个聚类的中心

for 时间段t＝1:∞

for 时间段t内的每个帖子

帖子和话题的内容均可由带有权重的特征向量来表示

通过夹角余弦公式来比较新到帖子和话题的分词向量的相似性，确定两者之间的相关性

if 相关性大于threshold_detect

聚入该话题

更新话题的特征项向量(包括候选词串和权重)

更新该话题在时间段t内获得的支持量e.x_t＝e.x_t+sim(e，d)

else

作为一个新类的中心

end

for 话题集E中的每个话题

更新话题的总能量e.eng＝F(F^-1(e.eng)+μ□e.x_t-v)

if 能量小于threshold_remove

从话题集E中删除该话题

end

其中，threshold_detect和threshold_remove分别为预先设定的相关性门限和移除门限，分别决定是否将帖子聚入该话题和是否将该话题从热点话题列表中移除。然而，即便是最优秀的热点话题算法也无法完全识别突发事件的相关话题，尤其无法实现在现实中的突发事件在网络上形成热点之前对特定话题进行跟踪。突发事件的突发性需要态势评估和人工干预来弥补基于年龄理论的热点话题发现算法的相对滞后性。本发明提出基于态势评估和年龄理论的热点话题发现算法，其详细步骤如图3所示。该算法整个流程是：

(1)首先按照如前所述的基于年龄理论的热点话题算法对网络论坛数据进行首次增量聚类和热点发现；

(2)根据数据挖掘得到的结果，结合知识库进行态势觉察，判断算法发现的热点话题与当前的网络热点是否一致，如果一致，根据觉察结果给出若干热点备选态势，否则，返回进行二次聚类；

(3)在态势理解阶段，根据态势觉察出的各个备选态势中热点话题排序及其特征项，更新各个备选态势的确信值分配；

(4)在态势分析阶段基于之前的确信值分配，利用贝叶斯网络技术评价每个备选态势的可信度，得到最终解；

(5)数据反馈，将态势分析所得的热点话题最终排序及其各自的特征项反馈会话题发现模块，根据热点话题及其各自特征项，进行二次聚类。

话题识别与跟踪的效果使用以下召回率、准确率和误检率三个评测指标来衡量。计算评测指标时所用参数的具体含义见表2。

表2

	相关	不相关
			提取	A	B
未提取	C	D

表2中的字母表示某个话题的检测结果，三个评测指标的定义分别如式(5)-(7)所示。

召回率Recall

准确率Precision

错检率Fault

语料数据来自国内某知名论坛，本发明采用基于网络拓扑的聚焦爬虫，分别获取5个特定主题的100个帖子线索，利用ICTCLAS对帖子进行分词，采用切分次合并技术队分词后的结果整合，提取有效候选词串；利用改进的TF-PDF计算候选词串的权重，利用向量空间模型(VSM)表示帖子线索，夹角余弦公式计算帖子与各已有话题之间的相关性；利用年龄理论对话体实行增量聚类，并更新话题能量，按照能量排序确定热点话题；根据当前现实突发事件以及知识库，人工拟定热点话题备选态势，按照贝叶斯网络技术评价每个备选态势的可信度，选择最优备选态势；按照最优解修改年龄理论算法的话题向量，之后进行二次聚类，并有目的、有针对性地跟踪最终态势的热点话题。按照本发明的一个实施方式的基于态势评估的网络论坛热点话题发现算法的分析结果如表3所示。

表3

另一方面，本发明还公开了一种基于态势评估的网络热点话题发现系统。参照图4，该系统包括：

数据获取模块40，用于实时获取网络论坛数据；候选词串提取模块42，用于对所述网络论坛数据进行语料预处理，提取候选词串；热点话题发现模块44，用于基于所述候选词串，形成向量形式的特征集合以表示每条帖子；对所述帖子进行聚类，依据聚类结果获取发现的热点话题并进行量化；态势评估模块46，用于对聚类产生的热点话题进行态势评估，并依据态势评估结果，修正所述发现的热点话题。

上述基于态势评估的网络热点话题发现系统与方法的原理相同，在此不再赘述，相互之间互相参照即可。

综上，本发明热点话题主要由“群体行为的新选择”、“社会关注度高的事件”而决定，因此本发明针对网络论坛设计；并且，结合切分词合并技术，可有效识别未收录新词；利用态势评估技术，可在突发事件发生时，第一时间有目标地发现热点话题。

以上对本发明所提供的一种基于态势评估的网络热点话题发现方法及系统进行详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于态势评估的网络热点话题发现方法，其特征在于，包括如下步骤：

数据获取步骤，实时获取网络论坛数据；

候选词串提取步骤，对所述网络论坛数据进行语料预处理，提取候选词串；

热点话题发现步骤，基于所述候选词串，形成向量形式的特征集合以表示每条帖子；对所述帖子进行聚类，依据聚类结果获取发现的热点话题并进行量化；

态势评估步骤，对聚类产生的热点话题进行态势评估，并依据态势评估结果，修正所述发现的热点话题。

2.根据权利要求1所述的网络热点话题发现方法，其特征在于，所述数据获取步骤中，所述网络论坛数据基于网络拓扑的聚焦爬虫获取。

3.根据权利要求2所述的网络热点话题发现方法，其特征在于，所述候选词串获取步骤进一步包括如下步骤：

切分步骤，对所述网络论坛数据进行分词，获取数据切分结果；

还原步骤，合并所述切分结果，还原被切分的重要词串；

过滤步骤，过滤停用词、无意义串和背景噪声，获取所述候选词串，作为候选结果；

优化步骤，优化所述候选结果。

4.根据权利要求3所述的网络热点话题发现方法，其特征在于，所述热点话题发现步骤进一步为：

所述向量形式的特征集合为向量空间模型的特征集合；按照发帖时间，基于年龄理论，依序将帖子聚入话题中；发现热点话题并进行量化后，对热点话题由高到低排序。

5.根据权利要求4所述的网络热点话题发现方法，其特征在于，所述态势评估步骤进一步包括：

对热点发现结果进行态势评估；结合专家系统，改进话题所对应的帖子的向量形式的特征集合；再次执行所述热点话题发现步骤。

6.一种基于态势评估的网络热点话题发现系统，其特征在于，包括：

数据获取模块，用于实时获取网络论坛数据；

候选词串提取模块，用于对所述网络论坛数据进行语料预处理，提取候选词串；

热点话题发现模块，用于基于所述候选词串，形成向量形式的特征集合以表示每条帖子；对所述帖子进行聚类，依据聚类结果获取发现的热点话题并进行量化；

态势评估模块，用于对聚类产生的热点话题进行态势评估，并依据态势评估结果，修正所述发现的热点话题。

7.根据权利要求6所述的网络热点话题发现系统，其特征在于，所述数据获取模块中，所述网络论坛数据基于网络拓扑的聚焦爬虫获取。

8.根据权利要求7所述的网络热点话题发现系统，其特征在于，所述候选词串获取模块进一步包括：

切分模块，用于对所述网络论坛数据进行分词，获取数据切分结果；

还原模块，用于合并所述切分结果，还原被切分的重要词串；

过滤模块，用于过滤停用词、无意义串和背景噪声，获取所述候选词串，作为候选结果；

优化模块，用于优化所述候选结果。

9.根据权利要求8所述的网络热点话题发现系统，其特征在于，所述热点话题发现模块中：所述向量形式的特征集合为向量空间模型的特征集合；

所述模块进一步用于按照发帖时间，基于年龄理论，依序将帖子聚入话题中；发现热点话题并进行量化后，对热点话题由高到低排序。

10.根据权利要求9所述的网络热点话题发现系统，其特征在于，所述态势评估模块进一步用于：

对热点发现结果进行态势评估；结合专家系统，改进话题所对应的帖子的向量形式的特征集合；再次进行所述热点话题的发现。