CN102937960B

CN102937960B - 突发事件热点话题的识别与评估装置

Info

Publication number: CN102937960B
Application number: CN201210327979.4A
Authority: CN
Inventors: 陈莉萍; 杜军平; 宋茂强
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-09-06
Filing date: 2012-09-06
Publication date: 2015-06-17
Anticipated expiration: 2032-09-06
Also published as: CN102937960A

Abstract

一种突发事件热点话题的识别与评估装置，该装置设有文本获取、文本表示、话题聚类和话题评估共四个单元组成部件，本发明创新特点是：对新闻报道正文的裁剪只提取标题、导语及相关特征等信息，就将其作为热点话题识别的有效样本集；与现有的全文提取进行对比实验的结果表明，两者的结果相近似，但本发明操作大大简化。还使用改进的特征权值计算模型，与经典模型比较，前者的执行效率更好和文本表示能力适应性更强。对聚类出的话题利用模型评估热度值，所计算出的热点话题符合预期效果，更适应于突发事件新闻报道的特征。总之，本发明装置和方法在处理突发事件新闻报道文本过程中，其计算复杂度、结果准确性和实时性方面都具有良好性能。

Description

突发事件热点话题的识别与评估装置

技术领域

本发明涉及文本数据挖掘领域中的话题检测与跟踪技术，确切的说，涉及一种在突发事件发生后，从互联网相关新闻报道文本中，识别出与突发事件相关联的热点话题，并对识别出的热点话题进行热度评估的装置与方法，用于为后续热点话题的追踪提供识别与评估该热点话题的方法，属于互联网话题检测与跟踪TDT(Topic Detection and Tracking)的技术领域。

背景技术

话题检测与跟踪TDT技术是一种信息处理技术，旨在依据事件对语言文本信息流进行组织与利用的研究，也是为应对信息过载问题而提出的一项应用研究。TDT检测与跟踪的对象包括从特定时间和地点的事件、直到具备更多相关性外延的话题，相关的理论与应用研究也从传统的时间识别，跨越到包含突发事件和后续报告的话题检测与跟踪。与一般信息检索或信息过滤不同，TDT关心的话题不是一个大的领域，而是一件非常具体的事情。为了区别语言上的概念，TDT评测对话题(Topic)、事件(Event)、活动(Activity)、报道(Story)和主题(Subject)都给出了下述定义：

事件(Event)：由某些原因和条件所引起、发生在特定时间和特定地点的涉及某些对象并可能伴随某些必然结果的事情。如：“2011年3月11日，日本发生9.0级地震”就是一个具体的事件。

活动(Activity)：发生在特定时间和特定地点、且有共同目的和共同关注的相关事件的集合。例如选举。

报道(Story)：与话题紧密相关的、包含两个或多个独立陈述某个事件子句的新闻片段。

话题(Topic)：由一个种子事件或活动，以及与其直接相关的事件或活动组成。如：2011年3月11日日本地震后引发的核危机话题。

主题(Subject)：涵盖或泛指的多个类似具体事件，或根本不涉及任何具体事件，其涉及的概念比话题更广泛。如：“海啸”是个主题，而“日本3.11地震引发海啸”则属于一个话题。

TDT是1996年由美国国防部高级研究计划署DARPA联合相关科研机构提出的，还设立了下述五项基础性研究任务：新闻广播类报道的切分任务，已知话题的跟踪任务，未知话题的检测任务，未知话题首次相关报道的检测任务，报道间的关联检测任务。随着研究的逐步深入和发展，美国国家标准技术研究院NIST为TDT逐步建立了完整的任务评测体系。最新版本的TDT2004确定了该领域的下述六个主要研究任务：

(A)新事件检测NED(New Event Detection)：判断一个新闻报道是否描述了一个新的事件；

(B)报道关联检测SLD(Story Link Detection)：判断两篇新闻报道是否描述了同一个话题；

(C)话题检测TD(Topic Detection)：由新话题的检测和话题追踪两项任务共同完成；

(D)话题跟踪TT(Topic Tracking)：对于某个已经发现的话题，判断后续的话题是否属于该话题；

(E)自适应话题跟踪ATT(Adaptive Topic Tracking)：相对于话题追踪的任务，具备自学习能力；

(F)层次话题检测HTD(Hierarchical Topic Detection)：话题之间有层次关系，即一个报道可以属于多个话题，一个话题也可以包含其它话题。

截止2004年，NIST提供的所有评测任务基本覆盖了TDT技术领域内的大部分研究课题。

下面介绍话题检测技术的发展现状：从1996年DARPA提出对新闻数据流的话题进行自动判断和识别的新技术作为起源，到1997年TDT项目开始启动，卡耐基-梅隆大学、马萨诸塞大学、滨州大学等分别发表各自开发的系统研究报告，建立了一个针对TDT研究的预研语料库，开始进入初步研究阶段。1998年，NIST开始举办由语言数据联盟LDC提供的TDT评测。目前，已经公布的训练和测试语料包括TDT pilot Corpus、TDT2、TDT3、TDT4，这些语料都事先由人工对若干事件话题进行了标注作为标准答案。TDT技术每年进行一次公开评测，每次评测的侧重点有所不同，1999年进行的第二次TDT评测加入了中文语料。国内的一些研究机构如：中科院计算所、哈工大、东北大学、北大计算语言学研究所、清华等也开始进行TDT相关关键技术的研究。由于中文文本处理比其它语言文本要复杂很多，并且从研究方法到技术实现方案都存在很大差别，因此，目前国内的现有技术主要侧重于对中文文本的研究。

近年来，海内外的研究更多地侧重于话题聚类算法的实现和效率的评估，以及话题跟踪模型的研究。哈工大对热门话题检测技术的研究比较突出，提出了基于内容分析的话题检测算法；也有人分别研究博客和微博客领域中文热门话题检测与跟踪技术，提出了将词性和词频相结合的相似度计算方法，提出了基于语义结构和时序特征的话题检测与跟踪技术和基于多重特征的话题追踪模型等。中科院计算所提出从网络论坛中基于噪音过滤模型的突发话题抽取方法。

在商业系统中，TDT技术的应用也越来越多。大多数搜索引擎厂商都提供新闻搜索服务，将新闻作为一个垂直搜索领域来开发应用。如Google中文资讯、有道热闻和百度新闻等都用到了TDT中的相关技术，但都未公开其技术细节。TDT是一个直接面向应用的研究方向，到目前为止，该领域的大部分研究都是借用信息检索的某些方法，通过调整某些参数来对系统进行优化。

目前，国内外对于新闻热点话题的检测，主要侧重在新闻事件网络报道信息流中自动检测出新话题，并对其后续报道进行追踪。由于突发事件的发生往往导致互联网信息的骤然超载，使得传统新闻事件的信息获取和分析处理方法效率明显降低。

近年来，对于热点话题的研究逐渐成为国内外关注的重点，但是，大多集中于从各类事件的新闻中发现话题并过滤热点进行跟踪的方法。然而，针对突发事件，尤其是重大突发事件的新闻报道具有特殊的属性，至今还没有提出特殊的、有针对性的处理方法。

发明内容

有鉴于此，本发明的目的是提供一种突发事件热点话题的识别与评估装置，本发明是基于对突发事件本身的产生机理和演化规律进行研究而提出的，它能在突发事件发生后，快速识别和评估网络新闻的热点话题，并对话题进行跟踪和演化分析，用于提高突发事件应急预测预警的效率，改善应急管理的知识模型，并对提高应急预案的针对性和有效性等方面都能给予有力支持。

为了达到上述目的，本发明提供了一种突发事件热点话题的识别与评估装置，其特征在于：该装置设有下述四个组成部件：文本获取单元、文本表示单元、话题聚类单元和话题评估单元，其中：

文本获取单元，用于发生突发事件后，从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理，形成一组新闻文档集合存储于正文数据库，以供文本表示、话题聚类和话题评估三个单元进行后续处理；设有：页面爬取、正文提取和页面属性提取三个模块，以及爬取信息数据库与正文数据库；

文本表示单元，用于完成文档的向量化处理：利用改进的文本特征权值计算方法建立数学模型并进行计算，以形成文本特征权值矩阵；设有：分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块，以及分词词典和停用词表两个数据库；

话题聚类单元，负责对来自前述单元的特征词进行聚类处理：将描述相同话题的文档进行聚合，组成多个被称为簇的子集，使得每个簇中的各个文档之间相似性强，而簇间各文档的相似性弱；再用每个簇中特征权值最高的2～5个词语描述一个话题，得到突发事件发生后设定时间段内人们关注的若干个话题；设有：文档相似性计算模块和文档聚类模块；

话题评估单元，负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估，并按照评估值大小对热点话题进行降序排序，为迅速把握后续的重要事件和研究话题的演化规律提供基础；设有：网络特征计算、热度评估、话题排序三个模块和特征向量数据库；所述话题评估单元中的各个模块和数据库的功能如下：

网络特征计算模块，用于从正文数据库和特征向量数据库中提取并计算与热点话题关注度相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的各个网络特征属性；

热度评估模块，用于根据网络特征计算模块计算得到的各个网络特征属性，建立热点话题的热度评估函数，并据此计算突发事件中每个话题在设定时间内的热度值；

话题排序模块，负责依据热度评估模块处理后的热点话题的热度值的大小，对其进行降序排序，以2～5个特征词描述一个热点话题的方式进行展现，同时将排序结果数据存储于特征向量数据库中；

特征向量数据库，用于分别存储文本表示单元中各模块的处理结果、话题聚类单元中各模块的处理结果和话题评估单元中各模块的处理结果。

本发明在TDT的基本检测和追踪方法基础上进行了三处创新与改进：

首先，考虑到突发事件应急系统的快速反应机制对前期文本挖掘的实时性要求较高，即在保证信息处理方法满足设定准确度要求的前提下，具有较高的执行效率。现有方法主要基于新闻报道全文或只提取标题作为数据源，开展后续的数据处理，这样处理的后果有可能导致效率降低或提取信息的不准确。本发明在对新闻文本内容及结构进行大量分析的前提下，提出先对整个新闻报道文本进行必要的裁剪，这种对原始数据先删除冗余的做法在保证准确度要求的前提下，大大提高了后续算法的运行效率，从而降低了计算时间和空间的复杂度。

其次，大量话题的发现必须通过一定规范的文本表示才能进行快速分析和处理。在文本表示阶段，本发明通过对传统权值计算方法的改进，建立针对具有时效性、报道源分布性和报道数量海量性等特征的新闻文本的表示模型，相对于传统模型具有更强的文本表示能力，为后续话题发现和热点的过滤提供了准确度更高的数据集。

最后，突发事件发生后，会涌现大量话题，但其是否成为人们的关注热点，为决策者提供更有效的数据支持，还需要对话题进一步过滤。本发明通过对网络新闻报道的时间属性、报道属性、用户关注度等网络特征的提取和分析，提出热点话题的评估方法，可对发现出的话题计算其在设定时间内的热度值，实现热点话题的有效识别。

本发明针对上述三个关键技术的研究所提出的装置和方法，经过以2011年日本大地震突发事件新闻报道作为数据源进行模型评估和相关算法的仿真实施试验。实验结果表明，本发明与现有技术比较，具有以下优点：

通过与现有的全文提取方法进行对比实验，对新闻报道正文的裁剪，只提取标题、导语及相关特征等信息就能够作为热点话题识别的有效样本集；改进的特征权值计算模型与经典模型比较，具有更好的执行效率和适应性更强的文本表示能力；通过对聚类出的话题利用模型进行热度值评估，计算出的热点话题符合预期效果，更适应于突发事件新闻报道的特征。总之，试验的结果证明：本发明装置和方法都是成功的，实现了发明目的。在处理突发事件新闻报道文本过程中，其计算复杂度、结果准确性和实时性方面都具有良好性能。

附图说明

图1是本发明突发事件热点话题的识别与评估装置的结构组成示意图。

图2是本发明突发事件热点话题的识别与评估装置工作方法流程图。

图3是本发明实施例中的步骤1的特征值比较曲线图。

图4是本发明实施例中的步骤3中的话题聚类仿真结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参照图1，介绍突发事件热点话题与评估的装置的结构组成：设有文本获取单元、文本表示单元、话题聚类单元和话题评估单元四个组成部件，本发明的创新主要集中在文本获取、文本表示和话题评估三个单元中。下面分别介绍之：

(A)文本获取单元：用于发生突发事件后，从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理，形成一组新闻文档集合存储于正文数据库，以供文本表示、话题聚类和话题评估三个单元进行后续处理；设有：页面爬取、正文提取和页面属性提取三个模块，以及爬取信息数据库与正文数据库。这些模块和数据库的功能说明如下：

页面爬取模块，负责从指定网站下载与预设关键词相关的新闻报道页面，并将该新闻报道页面以页面文件形式存储在本地磁盘上。

正文提取模块，负责从本地磁盘读取爬取后的页面文件，并利用该正文提取模块中的正文提取算法对每篇页面文件去除噪声、提取新闻正文，并从新闻正文中分离出导语和其余部分，再对实际文本长度进行剪裁，将剪裁后的新闻文档存储于正文数据库中，然后根据报道源的不同在正文数据库中建立索引，以使逻辑上形成不同数据源所对应的一组正文集。

页面属性提取模块，用于从本地磁盘读取爬取后的页面文件，并提取每篇新闻报道特有的包括标题、报道时间和报道源的属性，以及与后续热点话题关注度计算相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征属性，再存储于正文数据库中。

爬取信息数据库是用于存储页面爬取模块所需的配置信息。

正文数据库是用于存储新闻报道处理后的正文和页面属性信息。

(B)文本表示单元:用于完成文档的向量化处理：利用改进的文本特征权值计算方法建立数学模型并进行计算，以形成文本特征权值矩阵；设有：分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块，以及分词词典和停用词表两个数据库。这些模块和数据库的功能如下：

分词及词性标注模块，负责采用中科院汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)中文分词系统，对存储在正文数据库中的每篇新闻报道的新闻文档进行分词和词性标注，再将处理结果暂存于话题评估单元中的特征向量数据库中。

命名实体识别模块，用于针对分词后的新闻文档，将其中描述突发事件特征的标识性词语、即包括时间、地点、机构和人物的关键信息提取出来，并保存于特征向量数据库中。

词性/停用词过滤模块，用于对分词及词性标注后的新闻文档中的词语继续进行词性筛选：删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语，再根据停用词表筛选出能够在某种程度与热点话题内容相关的词语，并将其保存于特征向量数据库中。

特征权值计算模块，使用基于向量空间模型改进的特征权值计算模型，对每篇新闻文档中经过上述三个模块处理而形成的词语集合进行向量化表示，形成特征权值矩阵并存储于特征向量数据库中；该特征权值矩阵的行和列分别表示各个新闻文档及其对应的不同文本的特征权值。

特征选择模块，利用现有的特征抽取和属性约简算法对特征词进行筛选：保留其中反映突发事件信息属性的重要特征词，剔除相对无用的特征词；然后，将保留的特征词存储于特征向量数据库中。

分词词典数据库是存储用于分词的中文词语信息的数据库。

停用词表数据库是存储用于词性过滤和停用词过滤的中文词语数据库。

(C)话题聚类单元，负责对来自前述单元的特征词进行聚类处理：将描述相同话题的文档进行聚合，组成多个被称为簇的子集，使得每个簇中的各个文档之间相似性强，而簇间各文档的相似性弱；再用每个簇中特征权值最高的2～5个词语描述一个话题，得到突发事件发生后设定时间段内人们关注的若干个话题；设有：文档相似性计算模块和文档聚类模块，它们的功能介绍如下：

文档相似性计算模块，采用向量夹角的余弦值计算公式计算得到文本表示单元中的特征权值矩阵中各行所表示的各个新闻文档之间的相似度，并将各个新闻文档相似度值存储于特征向量数据库中。

文档聚类模块，采用改进的聚类算法对相似度值高的文档进行分组聚类：将描述相同话题的相似文档进行聚合，组成多个被称为簇的子集，同时根据文本特征权值的大小提取2～5个特征词作为描述该簇的数据，并将提取的特征词存储于特征向量数据库中。

(D)话题评估单元，负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估，并按照评估值大小对热点话题进行降序排序，为迅速把握后续的重要事件和研究话题的演化规律提供基础；设有：网络特征计算、热度评估、话题排序三个模块和特征向量数据库。这三个模块和数据库的功能如下：

网络特征计算模块，用于从正文数据库和来自话题聚类单元的特征向量数据库中提取并计算与热点话题关注度相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的各个网络特征属性。

热度评估模块，用于根据网络特征计算模块计算得到的各个网络特征属性，建立热点话题的热度评估函数，并据此计算突发事件中每个话题在设定时间内的热度值。

话题排序模块，负责依据热度评估模块处理后的热点话题的热度值的大小，对其进行降序排序，以2～5个特征词描述一个热点话题的方式进行展现，同时将排序结果数据存储于特征向量数据库中。

本发明基于对突发事件新闻报道文本内容、结构特点和报道源分布性等特征的研究，以及新闻报道的时间属性、报道属性、用户关注度等网络特征的分析，提出了突发事件热点话题识别与评估装置。并在该装置中的文本获取单元采用了新闻报道正文裁剪方法，在文本表示单元采用了改进的文本特征权值计算方法，在话题评估单元采用了话题的热度评估方法。下面参照图2，具体说明本发明方法的各个操作步骤：

步骤1，文本获取单元获取设定事件的新闻报道页面，再从爬取的报道页面中提取标题、报道时间、报道源，以及与后续热点话题关注度计算相关的网络特征作为页面属性，并对该报道页面进行筛选、解析、提取和剪裁新闻正文的操作，形成新闻文档集合。该步骤包括下列操作内容：

(11)页面爬取模块根据用户预设的统一资源定位符URL(UniformResource Locator)地址和其它参数，通过页面爬取程序下载设定突发事件的新闻报道页面，并将这些报道页面以页面文件形式自动存储于本地磁盘的文件夹。

(12)页面属性提取模块读取爬取后的页面文件，并从中提取每篇新闻报道包括标题、报道时间和报道源的页面属性，以及与后续热点话题关注度计算相关的网络特征，所述网络特征包括报道频率、报道源数量、报道时间跨度、用户点击率和评论数，然后将提取的页面属性保存在正文数据库中。

(13)正文提取模块利用正文提取算法对爬取后的页面集合逐个进行页面的筛选、解析、提取和剪裁正文的操作，并将处理后的文本存储于正文数据库，与其页面属性共同组成初步过滤后的新闻文档集合。

(14)正文提取模块对于正文数据库中的每篇新闻文档提取标题和导语，所述导语是标题的扩展，它是结合新闻报道的文本长度及内容特征进行裁剪得到的，在长新闻报道正文文本中所选取的导语至多为前两个自然段，由此实现对提取正文后整篇报道的先行裁剪。

步骤2，文本表示单元采用改进的文本特征权值计算方法对每篇新闻文档进行向量化处理，形成文本特征值矩阵。该步骤包括下列操作内容：

(21)分词及词性标注模块执行正文预处理：根据现有的分词词典和停用词词典，进行包括分词、词性标注的操作，以便从每篇新闻文档中初步筛选出相对有效的词语，即特征词，并存储于特征向量数据库中。

(22)命名实体识别模块从分词和词性标注后的文本中，将描述突发事件特征的包括时间、地点、机构和人物的标识性词语，作为特征词提取出来，并保存于特征向量数据库中。

(23)词性/停用词过滤模块继续进行词性筛选：删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语，再根据停用词表筛选出能在某种程度与反映热点话题内容相关的词语，并将其保存于特征向量数据库中。

(24)特征权值计算模块是基于改进的特征权值计算模型，对经过上述三个模块处理而形成的新闻文档集合进行向量化处理，将每篇新闻报道文档对应一个特征向量，最终形成文档特征权值矩阵。

该步骤中的文档特征权值的计算包括下列操作内容：

(24A)先用特征向量空间D＝{d₁,d₂,…d_j,…d_|D|}表示全部新闻文档集合，式中，|D|为该特征向量空间中的元素总数，即文档总数量；每个特征向量d_j＝(w_1j,w_2j,…w_|I|j)表示序号为j的文档，w_ij∈[0,1]表示序号为j的文档中第i个特征词的权值，自然数序号i和j的最大值分别为|I|和N，即文档总数为N，全部文档中的特征词集合或特征词总数为I，也就是|I|为该特征词集合的度；tf_ij＝tf(t_i,d_j)表示特征词t_i在文档d_j中出现的频率，n_i表示全部文档中包含特征t_i的文档数。

(24B)采用改进的文本特征权值计算模型中的第一个计算公式：计算得到每个特征词的权值；式中，位置因子P_ij＝Position(t_i,d_j)表示特征词t_i在文档d_j中的出现位置：若t_i位于标题，则P_ij＝a；若t_i位于导语，则P_ij＝b；若t_i位于正文，则P_ij＝0，且a,b∈[0,1]；实体因子E_ij＝Entity(t_i,d_j)表示由命名实体识别模块识别的包括时间、地点、人物和机构的特征词的附加权值：若t_i在d_j中是命名实体名词，则E_ij＝1；否则，即t_i在d_j中不是命名实体名词，则E_ij＝0；(1+log₂tf_ij)为词频权值因子、为逆文档频率权值因子。

(24C)采用改进的文本特征权值计算模型中的第二个计算公式：计算得到每个特征词的整体权值；式中，为归一化权值因子，且y_i∈[0,1]；自然数S和s_i分别为报道源总数和包含第i个特征词的报道源总数，且s_i≤S；W_ij为特征词的整体权值；因每篇文档的特征词数量不同，故需要对先所有特征词按照其中公式项计算该特征词的归一化权值，以获得第j篇文档中的第i个特征词在整个特征词集合中的归一化权值w_ij；然后再对上述公式进行算，得到所有特征词在所有报道源中的整体权值。

(24D)对文档实现矩阵化：用矩阵中的每一行d_j分别表示每篇文档，每一列为各文档中的相同特征词，其中，d_j为序列号为j的文档，矩阵中的元素a_ji为第i列特征词在第j篇文档中的权值，其取值范围在[0,1]；最终得到由所有文档总数为行数、每个文档中的特征词总数为列数的向量矩阵；并将该向量矩阵保存在特征向量数据库中。

(25)特征选择模块利用现有的特征抽取和属性约简算法对特征词继续进行筛选，以降低文档特征权值矩阵的复杂度：保留其中反映突发事件信息属性的重要特征词，剔除相对无用的特征词；再将保留的特征词存储于特征向量数据库中。

步骤3，话题聚类单元对设定特征词对应的文本特征值矩阵进行聚合处理：将话题相同的相似文档聚合，组成多个簇，使得每个簇中的各文档相似性强，而不同簇的各文档相似性弱；再用每个簇中特征权值最高的2～5个特征词描述一个话题，得到突发事件发生后设定时间段内人们关注的若干个话题。

该步骤包括下列操作内容：

(31)计算两个文档间的距离：文档相似性计算模块从文档向量空间D＝{d₁,d₂,…d_j,…d_|D|}中随机选择k个文档作为初始的聚类中心C＝{c₁,c₂,…c_i,…c_k}，再计算每个文档d_j与每个初始聚类中心c_i的相似度Sim(d_j,c_i)：

Sim (d_{j}, c_{i}) = \cos (w_{k} (d_{j}), w_{k} (c_{i})) = \frac{Σ_{k = 1}^{n} w_{k} (d_{j}) \times w_{k} (c_{i})}{\sqrt{Σ_{k = 1}^{n} {w_{k}}^{2} (d_{j})} \times \sqrt{Σ_{k = 1}^{n} {w_{k}}^{2} (c_{i})}},

即根据该公式计算文档d_j与聚类中心c_i这两个向量夹角的余弦值，作为这两个文档之间的相似度值，并以其分别对应的两个特征词权值w_k(d_j)和w_k(c_i)表示，然后，将d_j赋予最相似的类。

(32)计算新的聚类中心：文档聚类模块采用改进的经典聚类算法，对相似文档进行聚合，即将描述相同话题的相似文档进行聚合，形成多个簇，每个簇为一个聚类，其所包含的中心向量被称为聚类中心，所述中心向量是该簇中的所有新闻文档相应特征词权值的均值。

(33)循环执行步骤(31)和(32)：计算其相似度并归类，若均值发生改变，则更新聚类中心。

(34)根据目标函数执行迭代运算，使聚类中心收敛：计算误差平方和准则函数再对第p次迭代与第(p-1)次迭代的计算结果进行比较，使目标函数J值呈收敛状态，即逼近聚类中心；此时，先设置其取值范围为[0,1]的相似度阈值ε，当目标函数低于该相似度阈值ε，即：|J(p)-J(p-1)|＜ε时，则聚类终止；否则，继续执行第(p+1)次迭代运算。

(35)调整目标函数阈值，直至聚类结构相对稳定：根据实际运算结果调整簇类总数，并通过观察中间运算结果，剔除孤立的样本子集和调整目标函数阈值；然后根据前述多次聚类的特征词，重新选取聚类初始中心；再返回执行步骤(31)，直至聚类结果相对稳定为止，再重新使用特征词描述该簇的数据，并存储于特征向量数据库中。

步骤4，话题评估单元对话题进行热度评估：在已获取了突发事件发生后人们关注的若干个话题基础上，对这些话题进行热度评估和排序，为把握重要事件后续发展和研究话题的演化提供基础。该步骤包括下列操作内容：

(41)计算网络特征，建立热点话题的热度评估函数，并据此计算突发事件中每个话题在设定时间内的整体热度值，用于判断系统识别出的话题能否成立：热点话题是网络媒体和用户关注度高的话题，因此建立评估模型首先要提取与关注度相关的网络特征值，先定义和量化话题在设定时间段内的热度属性：网络特征计算模块根据步骤1提取的与热点话题关注度相关的包括话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征，然后根据评估算法计算话题热度值，判断系统识别出来的话题是否可能成为热点。为此，需要将话题在设定时间内的热度属性进行定义和量化。也就是用三种算法分别计算话题的时间属性、报道属性和用户关注度属性。这三种评估算法介绍如下：

计算话题的时间属性：每篇新闻报道都有明显的时间特征，对于某个新闻话题的报道时间跨度越大，说明该话题受到媒体和用户的关注度越高。但通常一个新闻话题发布后其关注度会随时间推移而逐渐衰减，因此需要考虑话题热度的时间衰减性。基于话题热度的时间衰减性，每个话题h在设定时间段u_i(如u₁可表示为第1周)的时间属性包括：时间跨度l(u_i)和指数衰减因子其中，自然数l(u_i)表示所统计的时间段u_i中的时间单元数，时间单元为：小时、日、周或月；系数λ(λ＞0)是控制时间段衰减的速度因子。

计算话题的报道属性(即话题的报道频率和广度)：设话题h的报道时间段为u_i时，该话题h的报道频率是该话题h的报道数量f(u_i)与这段时间全部报道总数F(u_i)之比，报道广度是该话题h的报道源数量g(u_i)与这段时间内总报道源数量G(u_i)之比。通常每篇新闻报道只表述一个话题，在设定时间内该话题的报道数量越大，表明该话题越重要，关注程度越高，则话题报道频度也越高。另一方面，这段时间内，该话题在各大门户网站都有相关报道，则该话题的关注度也越高，即话题报道广度大。

计算话题的用户关注度：通常利用用户点击阅读数c(u_i)和评论参与数d(u_i)反映用户的关注度，且参与评论数对话题成为热点的贡献度更高；即点击率和评论率可统计在时间跨度l(u_i)内的比率，用户的点击阅读率或评论参与率数值越高，说明该新闻报道涉及的话题受到用户的关注度越大。

(42)根据热度评估计算公式计算话题热度值：根据对话题热度属性的分析，得到设定时间段u_i内突发事件中话题h的热度评估计算公式H_h(u_i)为：

H_{h} (u_{i}) = f (u_{i}) \times \exp [\frac{f (u_{i})}{F (u_{i})}] + γ \times g (u_{i}) \times \exp [\frac{g (u_{i})}{G (u_{i})}] + α \cdot \ln \frac{c (u_{i})}{l (u_{i})} + β \times \frac{d (u_{i})}{l (u_{i})}

和

H_{h} = Σ_{i = 1}^{L} H_{h} (u_{i}) \times e^{- λ \times l (u_{i})};

式中，L为时间段的数量，自然数α,β,γ为用于均衡各项的求和因子，其最大值为10；即话题在设定时间内的热度值取决于话题的报道频度、报道广度、用户点击率和用户评论率的各参数加权和；因这些数值大小差异悬殊，故用指数或对数形式进行调整，使各项因素在求和时趋于平衡。

(43)对热点话题进行排序：热点话题排序模块对每个热点话题依据其热度值大小进行降序排列后，采用2～5个特征词描述一个热点话题的方式进行展现；同时将其存储于特征向量数据库。

下面参见图2，介绍本发明实施例的仿真试验：以2011年日本大地震突发事件新闻报道作为数据源进行模型评估和相关算法的试验流程，简要说明本发明的具体实施步骤，并对本发明方法的实验结果进行分析，以及其相对于现有方法进行比较的优点总结。

步骤1，文本获取和正文裁剪：以国内大型新闻网站对重大突发事件报道的专题网站作为数据源，采集2011年“3.11日本大地震”事件发生以后约前三周共4000篇新闻报道进行文本处理。首先执行热点话题识别与评估装置中的文本获取操作，再对原始文本集进行了分词、词性标注、非动词和名词的词性过滤、停用词过滤等文本表示的预处理过程，命名实体名词由人工识别后单独提取出来，并不断对分词和停用词词典进行补充和维护。再在此基础上，对本发明新闻报道的正文裁剪方法进行实验分析和优点总结。

以分别只提取新闻报道标题和导语的文本作为源文本和提取整个报道全文的文本作为源文本，二者使用相同的TF-IDF公式计算特征权值，然后比较两种文本表示结果的差异。根据权值从大到小排序，受篇幅所限，在前30位的高权值词中选择10个特征词比较其权值，如表1所示。

表1 全文和裁剪文本的特征值比较

特征词	特征值(全文)	特征值(标题导语)	距离绝对值
				补偿	0.68201578	0.74311254	0.02109676
核电厂	0.57057676	0.67454058	0.10396382
				下葬	0.59876145	0.61426364	0.01550219
遇难	0.54346952	0.60842897	0.06495945
				预警	0.58389072	0.59849240	0.01460168
溺水	0.52713640	0.56057224	0.03343584
				农产品	0.55915448	0.54939387	0.00976061
致歉	0.55438111	0.53174906	0.02263205
				震级	0.46583365	0.52902016	0.06318651
自来水	0.53676946	0.47098983	0.06577963

图3给出了二者的权值比较曲线。从两组计算权值的特征词实验数据显示，高权值的特征词重合比例较高，权值的递减规律基本相同；二者比较曲线各样点间平均距离小于0.02。仿真实验的结果表明，全文本提取特征词和只在标题与导语中提取特征词的方法，两者的实验结果相近似。从而验证了本发明只从标题和导语提取特征词就足以表示每篇新闻报道核心内容的假设。

步骤2，文本表示和特征权值计算：本发明装置采用中科院ICTCLAS分词系统进行分词、词性标注；然后根据词语长度、词性和去停词表进行词语过滤，对介词、助词等无意义词和明显不能成为主题词的停用词去掉。

在此基础上对本发明特征权值的改进计算方法进行实验分析和优点总结。

以经过裁剪的文本集作为数据源，就改进的特征权值计算模型和经典TF-IDF公式进行比较，列出排在前10位的特征词比较，实验结果数据如表2所示。其中，改进模型中位置因子的调节值设a＝1，b＝0.5。

表2 TF-IDF与改进型公式的特征权值计算比较

特征词	TF-IDF	特征词	改进TF-IDF
				升级	0.83947064	补偿	0.83590126
补偿	0.74311254	核电厂	0.76086483
				富人	0.69962671	遇难	0.74542905
核电厂	0.67454058	预警	0.71914544

韩国	0.63955899	损失	0.71837233
				默哀	0.63760413	溺水	0.70749098
院长	0.61545693	捐款	0.64147896
				争议	0.61541891	道歉	0.62898909
下葬	0.59426364	下葬	0.59736850
				遇难	0.56842897	原子能	0.59519490

表2结果直观地显示：改进型权值计算方式得到的特征词更接近实际预期。关于特征词权值计算方法的评价，目前还没有直接的评价标准，通常借助使用词语权值的应用系统来间接评价算法的有效性，如文本分类性能评价指标、TDT评测指标等，显然这些评估方法在此处具有不确定性。本发明借鉴TDT评测机制的部分指标尝试进行结果评估，希望从特征表示的有效性方面能给出一些定量的说明。计算公式分别如下述公式所示：

单文本的特征漏报率

单文本的特征误报率

文本集特征平均漏报率

文本集特征平均误报率式中，|D|为文本集总数。

评价结果如下表3所示：

表3 评价指标比较

	P_Miss	P_FA
			经典TF-IDF	0.3874	0.0312
改进TF-IDF	0.3031	0.0295

实验结果显示，改进的TF-IDF算法其平均漏报率和平均误报率都低于经典公式，即性能有所改善，但并不明显，这与评价方法有关。总之，结合新闻报道的文本特征，综合考虑报道源、特征词的位置和命名实体等因素，TF-IDF改进算法在文本表示的准确率、适应性等方面都获得了比经典模型较好的效果。

步骤3，话题聚类：基于上阶段的文本表示过程，对每篇新闻文档特征词计算词频，利用改进的TF-IDF公式计算特征词权值，形成新闻报道文档的矩阵向量化格式表示。考虑构成向量空间的特征值维度可能非常庞大，既考虑聚类计算的时间和空间复杂度，又不影响聚类效果，实现过程规定文本向量矩阵的最大维度为1000。通过对新闻文档的常规k-means聚类，得到不同时间单元内的话题，为后续话题评估准备数据。该步骤采用传统技术，以下分析实验结果。

由于文档聚类结果与k值的选取有直接关系，并决定了识别出的话题数，因此最终k值(本实验k＝5)的确定是经过几轮聚类后，并结合实际新闻的话题数量进行调整后的数值。为了使聚类收敛的目标函数阈值调整为ε＝0.3。能够更直观地显示聚类的各个话题簇，将该结果映射到一个二维平面上展示，对于不同的话题簇使用不同记号来区分之。实验过程根据每轮聚类效果调整聚类参数，并删除一些明显无法归类的特征词，直到结果基本稳定。显然该算法的计算量与数据对象的个数、聚类的数目以及迭代的次数是成正比的。对于热点话题的表示法，可能存在多种考虑，不同类型的热点话题也可能会有不同的描述方法。针对本发明突发事件的热点话题，经过实验发现，在一个聚类簇中的话题可采用2～5个关键词来描述比较全面和准确，并且这些词具有最高的权值。图4展示了话题聚类的Matlab仿真结果。

步骤4，热点话题评估：针对聚类出来的话题簇进行热度评估，给出地震事件发生后，前三周的热点话题。关于话题评估模型中的相关网络特征(包括：话题报道的频率、报道源数量、时间跨度、用户点击率、评论数等)，都是实验预处理阶段爬取页面和正文提取时，以及计算词频时保留的结果。因此这部分实验主要是进行模型计算和均衡因子的调整。通过对话题簇中每个话题的热度值计算并进行排序，每周选出了热度值超过2.0的前五名话题作为热点话题。

在此基础上，对本发明话题热度评估方法进行实验分析和优点总结。

从实验结果可见：在地震刚发生的第一周，话题主要关注在媒体方面的新闻报道，诸如出现海啸、死亡和失踪人数、国际救援等。第二周的话题出现了核泄露、一些公司倒闭的新闻，即热点话题发生了变化，到第三周时，开始涉及日本经济受挫、灾后重建问题的讨论。显然，热点话题的演化是随着事件的发生、发展而变化的，因此对话题演化的研究也基于热点话题的发现展开的。

通过对网络新闻热点话题时间属性、报道属性、用户关注度等网络特征的分析而建立的热点话题评估模型，经过仿真实施实验表明，对特定突发事件网络新闻计算其在一段时间内的话题热度值的结果是符合预期效果的。本发明为突发事件应急决策者可以提供直观的数据展示，并根据排序的热点话题词汇，为决策提供直接依据。同时系统实现成果也为后续热点话题的跟踪和演化研究奠定了基础。

Claims

1.一种突发事件热点话题的识别与评估装置，其特征在于：该装置设有下述四个组成部件：文本获取单元、文本表示单元、话题聚类单元和话题评估单元，其中：

2.根据权利要求1所述的装置，其特征在于，所述文本获取单元中的各个模块和数据库的功能如下：

页面爬取模块，负责从指定网站下载与预设关键词相关的新闻报道页面，并将该新闻报道页面以页面文件形式存储在本地磁盘上；

正文提取模块，负责从本地磁盘读取爬取后的页面文件，并利用该正文提取模块中的正文提取算法对每篇页面文件去除噪声、提取新闻正文，并从新闻正文中分离出导语和其余部分，再对实际文本长度进行剪裁，将剪裁后的新闻文档存储于正文数据库中，然后根据报道源的不同在正文数据库中建立索引，以使逻辑上形成不同数据源所对应的一组正文集；

页面属性提取模块，用于从本地磁盘读取爬取后的页面文件，并提取每篇新闻报道特有的包括标题、报道时间和报道源的属性，以及与后续热点话题关注度计算相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征属性，再存储于正文数据库中；

爬取信息数据库，用于存储页面爬取模块所需的配置信息；

正文数据库，用于存储新闻报道处理后的正文和页面属性信息。

3.根据权利要求1所述的装置，其特征在于：所述文本表示单元中的各个模块和数据库的功能如下：

分词及词性标注模块，负责采用中科院汉语词法分析系统ICTCLAS中文分词系统，对存储在正文数据库中的每篇新闻报道的新闻文档进行分词和词性标注，再将处理结果暂存于话题评估单元中的特征向量数据库中；

命名实体识别模块，用于针对分词后的新闻文档，将其中描述突发事件特征的标识性词语、即包括时间、地点、机构和人物的关键信息提取出来，并保存于特征向量数据库中；

词性/停用词过滤模块，用于对分词及词性标注后的新闻文档中的词语继续进行词性筛选：删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语，再根据停用词表筛选出能够在某种程度与热点话题内容相关的词语，并将其保存于特征向量数据库中；

特征权值计算模块，使用基于向量空间模型改进的特征权值计算模型，对每篇新闻文档中经过上述三个模块处理而形成的词语集合进行向量化表示，形成特征权值矩阵并存储于特征向量数据库中；该特征权值矩阵的行和列分别表示各个新闻文档及其对应的不同文本的特征权值；

特征选择模块，利用现有的特征抽取和属性约简算法对特征词进行筛选：保留其中反映突发事件信息属性的重要特征词，剔除相对无用的特征词；然后，将保留的特征词存储于特征向量数据库中；

分词词典数据库，以数据库形式存储用于分词的中文词语信息；

停用词表数据库，以数据库形式存储用于词性过滤和停用词过滤的中文词语。

4.根据权利要求1所述的装置，其特征在于：所述话题聚类单元中的两个模块功能如下：

文档相似性计算模块，采用向量夹角的余弦值计算公式计算得到文本表示单元中的特征权值矩阵中各行所表示的各个新闻文档之间的相似度，并将各个新闻文档相似度值存储于特征向量数据库中；