CN101488150A

CN101488150A - 一种实时多角度网络热点事件分析装置及分析方法

Info

Publication number: CN101488150A
Application number: CNA2009100714848A
Authority: CN
Inventors: 杨武; 王巍; 苘大鹏
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2009-07-22
Anticipated expiration: 2029-03-04
Also published as: CN101488150B

Abstract

本发明提供的是一种实时多角度网络热点事件分析装置及分析方法。分析装置的构成包括网络事件数据收集装置、网络事件数据预处理装置、事件中心处理装置和输出装置。分析方法包括网络事件信息采集步骤、网络事件发现步骤、网络事件中心初始化步骤、网络事件相似度比较步骤、网络事件多中心生成步骤和热点事件输出步骤。通过本发明可以实时发现目前发布到互联网上的热点事件信息，并且从多个角度展现该事件的发展过程，以帮助网络管理人员能够更为全面地了解网络热点事件的态势。

Description

一种实时多角度网络热点事件分析装置及分析方法

(一)技术领域

本发明涉及的是一种利用计算机技术辅助网络信息智能分析或舆情管理的技术，其特别涉及利用自然语言处理和数据挖掘技术来发现网络热点事件的系统和方法，具体地讲是一种支持从海量网络信息中实时地、多角度地发现网络热点事件的系统和方法。

(二)背景技术

网络热点事件发现是通过对目标网站信息的自动抓取、主题检测来发现具有一定影响力的网络话题，达到对网络信息实施高效管理的目的。网络热点事件发现的基本思路是采用文本挖掘技术处理互联网信息数据。

目前国内外在网络热点事件发现方面取得了较多的研究成果。Umass根据词法特征自动生成多个分类器，并且每类事件由包含查询语法和阈值的分类器来识别，最后根据标准化后的相似分值确定事件的类别归属(Allan J，Papka R.On-lineNew Event Detection and Tracking.In the Proceedings of ACM SIGIR 1998.Melbourne：Association for Computing Machinery Press，1998：37-45)。CMU使用Single-pass算法进行新事件的探测，Single-Pass算法虽然计算简单、运算速度快，但它的探测性能过分依赖于新闻语料的处理顺序(Seo YW，Sycara K.TextClustering for Topic Detection.Technical Report CMU-RI-TR-04-03，RoboticsInstitue，Carnegie Mellon University，2004)。雷震等人提出一种改进的K均值算法(IIKM)用于热点事件发现，该算法使用密度函数法进行聚类中心的初始化以使客观地选择初始聚类中心，既可以用于在线探测也可以用于回溯探测，并且执行结果受新闻语料被处理顺序的影响较小，主要应用于热点新闻事件检测(雷震，吴玲达，雷蕾等.初始化类中心的增量K均值法及其在新闻事件探测中的应用.情报学报ISSN 1000-0135.2006，25(3)：289-295页)。Ron Papka和James Allan提出利用Single-Pass聚类算法来实现在线新事件发现系统(Ron Papka and James Allan.On-Line New Event Detection using Single Pass Clustering.UMASS ComputerScience Technical Report UM-CS-1998-021，Amherst：Department of ComputerScience，University of Massachusetts，Amherst，1998)。Giridhar Kumaran和JamesAllan利用文本分类技术和命名实体识别技术来提高新事件(New EventDetection)的识别率，提出一个基于多文档表示的空间向量模型，首先创建三个文档，第一个文档只表示包含文档中除了停用词之外的所有特征项(James Allan，Victor Lavrenko，and Hubert Jin.First Story Detection In TDT Is Hard.InProceedings of the Ninth International Conference on Information and KnowledgeManagement CIKM.Washington：ACM Press，2000：374-381)。第二个文档则仅含有命名实体，第三个文档则仅含有非命名实体。当两篇文章进行比较时，仅比较与之相应的文本表示。骆卫华等人在传统Single-Pass的基础上提出分治多层聚类的思想，该算法旨将数据分组来减少大规模数据处理时系统负荷，在话题检测领域取得了一定成果(骆卫华，于满泉，许洪波.基于多策略优化的分治多层聚类算法的话题发现研究.全国第八届计算语言学联合学术会议(JSCL-2005)论文集，中国南京，2005：362-368)。邱立坤等人提出了层次化话题与层次聚类的概念，层次化聚类开始逐渐显露出优质的聚类效果，并开始应用于事件检测领域(邱立坤，龙志祎，钟华.层次化话题发现与跟踪方法及系统实现.广西师范大学学报(自然科学版).2007(02)：157-160页)。

分析已有网络热点事件发现技术可以看出，实现网络热点事件发现的技术路线主要有两条：

1.首先收集互联网中发布的信息数据并存储到本地，然后采用相关的数据挖掘技术对收集到的信息进行分析，发现其中包含的热点事件。

2.将收集互联网发布的信息数据与热点事件发现过程并行化，即在获取数据的同时完成对已收集的数据进行分析和处理，形成初步结果；利用后续到来的数据对初步结果进行调整。

技术路线1的优势在于可以选择一些较为优秀的文本挖掘算法对收集的数据进行离线处理，得到较为优化的结果；但是其最大的弱点在于离线处理的结果具有很强的时间滞后性，时效性很差。

技术路线2目前受到越来越多的关注，其核心思想多是基于Single-pass聚类算法，该技术能满足热点事件实时发现需求，但分析结果还存在很多不足，主要体现在以下两方面：

1.聚类质量

基于Single-pass算法的相关技术最大缺点是聚类结果受语料输入顺序影响的约束。该类技术在数据第一次被读入时就确定其所属类别，具有一定误报率；并且类簇粒度可能会不均匀。此外，Single-pass采用的是增量聚类策略，随着发现的事件数与相关文档数量的不断累积，最终会导致内存资源耗尽。

2.相似度比较策略

目前TDT主要采用三种相似度比较策略：single-link，average-link，complete-link。在与已归类的数据进行比较时，single-link选择各类中与当前数据相似度最高值作为当前数据与各类的相似度，average-link选择当前数据与各类中所有数据相似度均值作为当前文章与各类的相似度，complete-link选择各类中与当前数据相似度最小值作为当前数据与各类的相似度。

无论是哪种相似度比较策略，进行比较时都涉及类中所有数据。如果当前的聚类结果中包含类的数量以及类内样本的数量都很大，导致比较次数成指数级增长，增加了计算复杂性。

(三)发明内容

本发明的目的在于提供一种能更为准确、全面地发现当前网络中的热点事件信息，为网络智能信息处理与舆情分析提供技术支持的一种实时多角度网络热点事件分析装置。本发明的目的还在于提供一种实时多角度网络热点事件分析方法。

本发明的目的是这样实现的：

本发明的实时多角度网络热点事件分析装置的构成包括网络事件数据收集装置、网络事件数据预处理装置、事件中心处理装置、热点事件发现装置和输出装置，其特征包括：

网络事件数据收集装置：用于实时地、主动地从互联网获取描述网络事件的原始数据，并进行存储；

网络事件预处理装置：对网络事件数据收集装置存储下来的网络事件描述原始数据，遵照预定义的某种格式进行解析，过滤掉其中的噪音，提取出真正与网络事件相关的核心数据；此外，对核心数据进行特征定义和提取，并采用适当的形式进行表达；

事件中心处理装置：根据网络事件预处理装置得到的形式化数据，采用适当的策略进行组织，从而形成相关的事件中心描述；

热点事件发现装置：根据事件中心处理装置得到的若干中心描述，处理后序到达的网络事件数据，将其归并入相应的中心，当中心所包含的事件数量超过某一阈值，则表明其为热点事件；

输出装置：将热点事件发现装置得到的若干热点事件信息以适当的形式进行展现。

本发明的实时多角度网络热点事件分析装置的构成还可以包括：

1、所述的网络事件数据预处理装置包括网络事件数据特征提取单元和特征权重计算单元，其特征包括：

网络事件数据特征提取单元：根据事先约定的特征规则处理网络事件核心数据，将其表示为若干相关特征的集合；

特征权重计算单元：针对网络事件数据特征提取单元生成的特征集合，按照约定的计算方法得到其中每个特征的权重，并进行量化，便于后续计算。

2、所述的事件中心处理装置包括事件中心初始化单元、事件相似度计算单元和事件多中心生成单元，其特征包括：

事件中心初始化单元：装置初始化时，按照特定策略从得到的网络事件数据中选择某些事件作为初始中心；

事件相似度计算单元：针对后续到达的网络事件数据，将其与已有的事件中心按照特定的相似度策略进行计算，得到它们之间的相似度；

事件多中心生成单元：将事件相似度计算单元得到的相似度与事先约定的阈值进行比较，用于决定是将该事件归入已有中心，还是建立新的事件中心。

基于本发明的实时多角度网络热点事件分析装置的分析方法为：

本发明中的“事件初始中心”为关于同一事件、同一内容的报道；“事件多中心”为讨论同一事件不同阶段不同角度的报道，即事件在不同阶段的核心；“中心外延”为各个核心事件的相关报道；

分析方法包括以下步骤：

网络事件信息采集步骤，用于获取当前发表在互联网上、描述事件内容的新闻报道数据；

网络事件发现步骤，采用适当的文本聚类方法对采集到的新闻报道数据进行处理，发现当前互联网上存在的若干网络事件；

网络事件中心初始化步骤，选用每个事件类的第一篇新闻报道作为该事件的初始中心，并在此基础上实施多中心策略；

网络事件相似度比较步骤，将初始中心后面收到的新闻报道与初始中心进行相似度比较，如果相似度超过预定义阈值，则将该报道判为属于该中心下的事件；

网络事件多中心生成步骤，比较后续事件与初始中心相关属性，主要包括时间、地点和人物的变化，当变化程度超过预定义阈值，则产生新的事件中心，以此类推，直至所有该类事件处理完毕；

热点事件输出步骤，用于输出以多中心形式表达的网络热点事件信息，包括新闻报道标题和详细内容。

本发明的有益效果在于，通过本发明可以实时发现目前发布到互联网上的热点事件信息，并且从多个角度展现该事件的发展过程，以帮助网络管理人员能够更为全面地了解网络热点事件的态势。

本发明的实施不依赖于网络事件出现的先后顺序，同时基于多中心事件模型可以大大降低计算和存储开销。本发明可广泛应用于网络舆情管理、互联网智能信息处理等应用领域。

(四)附图说明

图1是本发明装置的系统结构框图；

图2是一个实时多角度网络热点事件分析方法的详细流程图；

图3是实施发明的典型应用环境；

图4是网络热点事件展现界面。

(五)具体实施方式

下面结合附图举例对本发明做更详细地描述：

图1所示为一种实时多角度网络事件热点发现系统，包括：

网络事件数据收集装置，用于输入与某事件相关的原始内容信息；

网络事件数据预处理装置，用于处理网络事件数据收集装置收集到的原始事件数据，将其转换为适合本系统处理的数据表示形式；

事件中心处理装置，用于处理网络事件数据预处理装置的输出结果，分析其中的事件特征，形成事件的多中心模型；

热点事件发现装置；在事件中心处理装置处理结果的基础上，对后续的网络事件与事件中心进行比较，以确定该事件是否为当前热点事件；

输出装置：用于输出系统所发现的热点事件详细信息，包括事件的标题，以及事件的详细内容。

所述的网络事件数据收集装置可以是网络爬虫，也可以是由管理员通过手工实现。

所述的输出装置可以将发现的网络热点事件输出到个人计算机等其他的信息处理装置及存储装置中。

图2给出了实时多角度网络热点事件发现方法的原理流程图。

1.网络事件数据的收集

网络新闻事件的特点是核心报道通常被各大网站所转载，有时核心报道不只一篇，即在某一时刻该事件已经出现不同侧面的报道。网页到来的先后顺序即代表着该网页的中心度。为了能够提取事件的多中心，本发明利用网络爬虫以增量方式采集网络新闻报道数据。具体采集过程是基于广度优先策略，默认采集深度是三层。在这种策略下，爬虫首先采集实现指定种子页面中的新闻报道，然后采集该页面中相关链接所指向页面中的相关数据，以此类推，直至全部采集完毕。

2.网络事件数据预处理

本发明采用向量空间模型作为网络事件的形式化描述，网络事件数据向量化包括如下步骤：

(1)利用分词词典对网络事件数据进行分词处理，提取其中的实词，去掉虚词和停用词；

(2)采用TF-IDF方法确定分词后的每个词的权重，TF-IDF的计算方法如下式：

W_{i} = \frac{{TF}_{i} (t, d) \log (\frac{N}{DF (t)} + 0.01)}{\sqrt{\underset{k}{Σ} {TF}_{i}^{2} (t, d) \log^{2} (\frac{N}{DF (t)} + 0.01)}}

(3)由每个词的权重作为分量，形成该网络事件的向量表示。

3.事件多中心形成

本发明选取每个类中的第一篇文章作为初始中心，根据网络新闻事件的拓扑关系以及采集策略的约束条件可知，这是合理的。

其余事件中心，即多中心的选取是在初始中心的基础上进行的。根据事件中心的定义可知，通常只有与事件相关属性发生变化了才会出现第二中心乃至甚至更多的中心。事件主要属性包括时间、地点和人物(当然还包括其它因素，由于影响力较小不作讨论)。若事件主要都未发生变化，可以理解为该事件还驻留在初始中心，这时只要定期提取出事件在不同时间段的事件模板与已有事件中心进行比较，如果新模板与旧模板在某个事件因素上发生了变化，当事件的某一属性或属性的组合发生变化，则选取该篇报道作为该事件的下一个中心，后续中心的选取依此法进行。

4.相似度比较策略

由于本发明采用了事件的多中心描述方式，事件间的相似度比较方法也要进行相应的调整。这里在多中心事件结构的基础上对single-link策略进行了改进。即确定事件多中心后，在进行相似度比较时，只需得出新收集的新闻报道与类内每个中心的相似度最大值作为当前文章与各类的相似度。

对于多中心相似度比较策略来讲，准确选择出中心是极为重要的问题。本发明通过规定相似度阈值的方式总结事件中心，这里设定了三个阈值：重复度阈值、事件中心阈值和新事件阈值。当采集新闻报道过程中，新来的报道先与当前事件中心比较，如果该文档与某事件的初始中心相似度大于重复度阈值(系统中为0.9)，本发明认为该报道与各大网站转载的核心内容重复，判别结果为属于该事件，但不作为事件中心；如果相似度在一定范围内(假设为0.4～0.5)，该报道是关于这个话题的讨论不同侧面的另一个核心文章，标识为该事件的第二个中心，以此类推形成多个中心的层次化的聚类结果。如果相似度小于新事件阈值(假设为0.3)，为该篇文章新建一个类，该报道为该事件的初始中心。

由于事件采用向量空间模型来描述，因此事件与中心采用下式进行相似度计算：

Sim (D, T) = \frac{Σ_{i &Element; H} q_{i} d_{i}}{\sqrt{(Σ_{i &Element; H} {q_{i}}^{2}) (Σ_{i &Element; H} {d_{i}}^{2})}}

5.实施例场景与结果描述

为了验证本发明的有效性，我们搭建了典型应用环境，图3为实施例的典型应用环境。实验采用AMD OPTERON 2G的曙光服务器，操作系统为2.6.16.19内核的Linux企业版。实验中所采用的词典为190682篇各类网络文章训练后去掉了停用词而得到的词典，根据训练中获得的特征词的TF-IDF权值对词典进行了进一步的筛选，最终保留了10214个特征词。

实验针对的是本发明提出的改进Single-pass技术，及对事件多中心的支持，采用新闻报道网页作为测试数据。测试数据选取了人工收集的网络中10个主题类别的网页作为测试数据集，10个主题类别分别是：NBA、巴以冲突、北京2008奥运会、朝核问题、大学生就业、教育乱收费、美伊战争、人民币升值、娱乐圈潜规则和中国载人航天。对于每一个主题类别，数据收集人员分别从若干个不同网站的网络新闻报道中收集了100篇网页的HTML源代码，10个类别共计1000篇。

表1给出了具体技术参数。

表1 具体技术参数

表2给出了热点事件发现结果。

表2 热点事件发现结果

这里采用了评价标准中的漏检率和错检率以及耗费函数对测试结果进行打分，其中令P(rel)＝0.02，C_miss＝C_fa＝1.0，最后得出新闻事件发现中漏检率10.2％，误检率为0.012％，耗费函数值为0.002。其中结果中还有两个没在十大话题中，各自成为了一个小类，究其原因发现这两个小类中的文档距离其应该归属的类的相似度距离较远，与人工采集时的类内准确率有直接关系。

图4描述了本发明对热点事件发现的结果进行展现。

Claims

1、一种实时多角度网络热点事件分析装置，其特征是：构成包括网络事件数据收集装置、网络事件数据预处理装置、事件中心处理装置、热点事件发现装置和输出装置，其特征包括：

网络事件预处理装置：对存储下来的网络事件描述原始数据，遵照预定义的某种格式进行解析，过滤掉其中的噪音，提取出真正与网络事件相关的核心数据；此外，对核心数据进行特征定义和提取，并采用适当的形式进行表达；

2、根据权利要求1所述的实时多角度网络热点事件分析装置，其特征是：所述的网络事件数据预处理装置包括网络事件数据特征提取单元和特征权重计算单元；网络事件数据特征提取单元根据事先约定的特征规则处理网络事件核心数据，将其表示为若干相关特征的集合；特征权重计算单元：针对网络事件数据特征提取单元生成的特征集合，按照约定的计算方法得到其中每个特征的权重，并进行量化。

3、根据权利要求1或2所述的实时多角度网络热点事件分析装置，其特征是：所述的事件中心处理装置包括事件中心初始化单元、事件相似度计算单元和事件多中心生成单元；事件中心初始化单元：装置初始化时，按照特定策略从得到的网络事件数据中选择某些事件作为初始中心；事件相似度计算单元：针对后续到达的网络事件数据，将其与已有的事件中心按照特定的相似度策略进行计算，得到它们之间的相似度；事件多中心生成单元：将事件相似度计算单元得到的相似度与事先约定的阈值进行比较，用于决定是将该事件归入已有中心，还是建立新的事件中心。

4、基于实时多角度网络热点事件分析装置的分析方法，其特征是：

分析方法包括以下步骤：

5、根据权利要求4所述的基于实时多角度网络热点事件分析装置的分析方法，其特征是：采用向量空间模型作为网络事件的形式化描述，网络事件数据向量化包括如下步骤：

W_{i} = \frac{{TF}_{i} (t, d) \log (\frac{N}{DF (t)} + 0.01)}{\sqrt{\underset{k}{Σ} {TF}_{i}^{2} (t, d) \log^{2} (\frac{N}{DF (t)} + 0.01)}}

(3)由每个词的权重作为分量，形成该网络事件的向量表示。