CN101174273B

CN101174273B - 基于元数据分析的新闻事件检测方法

Info

Publication number: CN101174273B
Application number: CN2007101786878A
Authority: CN
Inventors: 李涓子; 常诚; 张阔; 李军; 张鹏; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-12-04
Filing date: 2007-12-04
Publication date: 2010-06-23
Anticipated expiration: 2027-12-04
Also published as: CN101174273A

Abstract

基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于，它是采用多维向量空间模型来表示新闻文档，在特征表示的权重计算时充分考虑的新闻的时间特性，并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式，并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息，利用关键字抽取对新闻文档进行预处理，有效地降低了向量的维度。在此基础上，利用层次聚类方法将新闻报道进行聚类，通过对聚类结果树的动态划分，将由新闻报道聚类，并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。

Description

基于元数据分析的新闻事件检测方法

技术领域

基于元数据分析的新闻事件检测方法属于数据挖掘领域

背景技术

新闻报道常常被看作人们最重要的信息来源，新闻信息具有数量大、增长快、时效强、关联性高等特性。人们越来越迫切的希望从海量新闻中快速准确地获得更多自己感兴趣的高层次新闻信息，虽然目前各大门户网站及主要的搜索引擎公司都提供了在线新闻阅读服务，Google和百度等网站还支持基本的新闻分类(如国内，国外，政治，体育等)浏览功能，用户可以通过这些服务浏览当日或者过去所发生的新闻。但是，由于新闻报道的更新频繁，及其庞大的数据量，使得用户常常有信息过量的感觉，他们很难快速准确的检索到高质量的新闻信息。除了简单的分类浏览以外，目前仍然没有进一步辅助用户阅读相对粒度更细的新闻事件的工具。

目前，新闻事件检测技术通过利用文本聚类等技术可以将新闻报道按照相关事件有机的进行组织，方便用户浏览和选择使用。新闻事件检测技术的应用主要体现在以海量文本处理为核心的内容管理系统中，利用新闻事件检测技术用户在检索新闻时可以更直观的浏览检索结果的概貌。对于各大新闻通讯社，事件检测技术还可以帮助记者和编辑更为方便的完成新闻报道的采写工作。

目前已知的新闻事件检测技术可以被归类为两种形式：也就是回溯事件检测和在线事件检测(或称为新事件检测)。前者是在历史新闻报道中发现尚未被确认的事件，后者则是实时的从新闻流中识别新事件的开始，即新事件的第一个新闻。这两种事件检测方法都不需要有关(新)事件的任何先验知识，但都需要访问未经标注的历史新闻报道作为分析之用。

现有的事件检测技术检测事件的精度不高，划分事件较宽泛，而且事件所包含的新闻在时间和内容上的内聚性不强，在新闻信息的建模和相似度计算中仍然没有较好的利用时间、地点等元数据信息，而描述某个新闻事件的新闻报道往往与事件所发生的时间和地点等信息强烈相关。基于元数据分析的事件检测方法则试图借助新闻报道中提取的时间、类别信息以及新闻的内容和标题，利用层次聚类的方式改进回溯事件检测的效果，更准确的识别出新闻报道所对应的新闻事件。

发明内容

本发明的目的在于提供一种基于元数据分析的新闻事件检测方法。

本发明的特征在于：采用多维向量空间模型来表示新闻文档，在特征表示的权重计算时充分考虑的新闻的时间特性，修改了新闻特征词的IDF(逆文本频率指数)计算方式，在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息，并且利用关键字抽取对新闻文档进行预处理，有效地降低了向量的维度。并且在此基础上，利用层次聚类方法将新闻报道进行聚类，通过对聚类结果树的动态划分，使得由新闻报道所构成的聚类簇对应为相应的新闻事件。与现有的新闻事件检测技术相比，基于时间特性相似度计算的聚类方式可以更加有效的划分新闻事件。该方法是在计算机上依次按下列步骤实现的：

(1)预处理

将新闻报道全部输入计算机，首先进行预处理。这里新闻报道的具体表现形式是XML文档，目前世界上主要的新闻机构都采用XML文档来描述新闻稿件。本文中介绍的方法主要是对新闻XML文档进行预处理，进行预处理的过程包括利用XML解析器将新闻的元数据(包括新闻的内容和标题、时间和类别信息)从新闻文档中提取出来，并利用中文分词程序包(中科院计算所的ICTCLAS)对新闻的内容和标题分别进行分词，在计算词频(即词在文档中出现的次数)时，标题中词的词频给以3-5倍的加权。预处理的结果可表示为如下的集合S：

S＝{(d_i，t_i)}，i＝1...|S|

其中S中的任一个元组(d_i，t_i)表示集合S中第i个时间(本文中提到的时间皆为新闻文档中提取的时间信息即文档的撰写时间)为t_i(形如YYYY/MM/DD hh:mm:ss)的文档。这里d_i表示第i个新闻文档，具体为由文档特征词构成的多维特征向量{w₁，w₂，...，w_i，...，w_n}，w_i则为每个特征词的权重，其值在预处理中先为词在文档中的词频，计算结束时为后面利用TF-IDF(单文本词汇频率/逆文本频率指数)公式计算的结果。本发明提出的方法同样可以应用于其他新闻数据，只要在新闻数据预处理时根据不同的新闻标准更换文档的解析器即可。

这一步后我们将使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性，关键词抽取方式所抽取候选的关键词是通过评价函数来评价的，分数越高越可能是关键词，这个评价函数是在TF-IDF的基础上增加若干机制来设计，包括有单词的各种特征(长度、位置、词频等)。

(2)结合时间信息计算新闻信息的向量模型：

向量空间模型的基本思想是以向量来表示文本：(w₁，w₂，...，w_i，...w_n)，其中w_i为第i个特征项的权重，其计算方法采用TF-IDF公式，目前存在多种TF-IDF公式，我们采用了一种比较普遍的TF-IDF公式分别对标题和内容计算得到带有词元权重信息的向量空间模型。：

W (c, \overset{&RightArrow;}{d}) = \frac{tf (c, \overset{&RightArrow;}{d}) \times IDF (c)}{\sqrt{Σ_{c &Element; \overset{&RightArrow;}{d}} {[tf (c, \overset{&RightArrow;}{d}) \times IDF (c)]}^{2}}}

其中，W

为词c在新闻文档中的权重，而tf

为词c在新闻文档中的词频，IDF(c)是特征词c考虑其倒排文档频率的计算公式，一般来讲特征词的倒排文档频率是指出现特征词的文档个数，分母为归一化因子，在本文的方法中除了考虑倒排文档频率以外我们还结合了时间信息。

这里我们需要对新闻文档按时间顺序进行升序排序，得到新闻序列：

(d₁，d₂，d₃，...，d_n-1，d_n)

这里我们按照升序排列，即最近发生的新闻其序号n越大。排序后新闻文档所对应的序号表示其撰写时间，对某个特征词c，其IDF的计算方式为：

IDF (c) = \log_{2} (\frac{N}{1 + Σ_{j = 2}^{dc} \log_{2} (x_{j} - x_{j - 1} + 1)})

其中，x_j表示特征词c出现的文档所对应的发生时间(即排序后新闻文档所对应的序号)，dc表示在新闻序列中出现特征词c的文档的个数，N是所有新闻文档的个数。

(3)计算相似度

在计算相似度时，本文提出的方法考虑了多个方面，包括新闻内容、新闻时间和新闻的分类，最后利用加权求和的方式得到最终的新闻相似度计算方式。

对于新闻内容的相似度计算，我们在关键词抽取的基础上采用传统的向量夹角的方式来计算：

{Sim}_{Content} (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{N} W_{ik} \times W_{jk}}{\sqrt{(Σ_{k = 1}^{N} W_{ik}^{2}) (Σ_{k = 1}^{N} W_{jk}^{2})}}

其中，d_i和d_j为新闻文档i和j的特征向量，N为特征向量的维数，W_ik为新闻文档i所对应的特征向量的第k维，其计算方式采用前面的步骤。其中，d_i和d_j为由文档特征词构成的多维特征向量{w₁，w₂，...，w_in}和{w₁，w₂，...，w_jn}

对于新闻分类间的相似度计算，按其在分类树中的距离进行计算。需要说明的是，这里的新闻分类指的新闻数据中的知识属性分类法对应的类别，其类别如表1所示。

表1知识属性分类法

类别号	类别名
类别号	类别名	01	政治、法律
02	军事	01	政治、法律
02	军事	03	社会
04	天气、环保、灾害和事故	03	社会
04	天气、环保、灾害和事故	05	科学和技术
06	教育	05	科学和技术
06	教育	07	宏观经济

类别号	类别名
类别号	类别名	08	行业经济
09	市场信息	08	行业经济
09	市场信息	10	文化、艺术及娱乐
11	医药卫生	10	文化、艺术及娱乐
11	医药卫生	12	体育
13	其他	12	体育
13	其他	14	突发事件
15	素材资料	14	突发事件

新闻文档，经过预处理可以得到类别信息是由类别号构成的字串，如“1114”，其所代表的类别是医药卫生领域的突发事件，即14是11的子类别。在计算分类的相似度时我们首先将字串切割为两位数字构成的序列，c₁，c₂，...，c_n，c_i为类别号，然后，依次从左至右判断类别号是否相等，若相等则将其相似度加上1/2的s次方，其中s指的是两个新闻其类别号中从左至右连续相同的个数，即c₁，c₂，...，c_s-1都相等时c_s也相等，当c₁不相等时，s为0，类别间的相似度公式如下所示：

{Sim}_{Cat} (d_{i}, d_{j}) = \{\begin{matrix} \frac{1}{2} + {(\frac{1}{2})}^{2} + . . . + {(\frac{1}{2})}^{s}, s &GreaterEqual; 1 \\ 0, s = 0 \end{matrix}\}

对于新闻报道的时间之间相似度，我们考虑采用指数衰减的方式来计算：

{Sim}_{Time} (d_{i}, d_{j}) = e^{(- θ | t_{i} - t_{j} |)}

其中|t_i-t_j|是新闻撰写时间所相差的天数，θ根据实验结果设为0.15。

最后新闻间的相似度可由下面的公式得出：

Sim(d_i，d_j)＝αSim_Cat(d_i，d_j)+βSim_Time(d_i，d_j)+γSim_Content(d_i，d_j)其中α，β，γ是由实验得出的参数，这里我们分别设为6、3和9，参数可以依据不同的数据集做略微的调整，α，β，γ对应的范围分别为[6，6.5]、[2.7，3.5]和[9，9.7]。

(4)聚类

输入：新闻间相似度构成的二维矩阵M[1..N][1…N]，N即为所有新闻文档的个数

输出：聚类簇的集合

1.开始时将每一个新闻文档i都定义为一个聚类簇(即由新闻文档聚集而成的集合)

2.令为聚类簇的集合，其中每个聚类簇

又可以是一颗由聚类簇结点构成的树状结构，从内容上是所有结点中聚类簇内新闻文档的集合

3.判断是否

中非空的元素个数大于1，若是则继续执行第4到9步，否则退出程序

4.在相似度矩阵找到相似度最大(这里设为M)的一对聚类

和

5.建立一个新的子树

用以表示聚类簇l，并将聚类簇

和

作为其孩子结点

6.对于所有的m(m≠i，j)，m为新闻文档的编号，利用以下方式计算新得到的聚类簇l与其它聚类簇的相似度

其中和

是合并成聚类簇l的孩子结点

7.从集合

中删除聚类簇

和

8.将

赋值给

9.当M小于阈值σ时，计算终止，跳出循环

在操作相似度矩阵时为了避免重复计算，我们使用了QuadTree(四叉树)算法对步骤6进行了优化，极大地提高了层次聚类的速度。

另外通过大量的实验表明，阈值σ设为0.11可以有效的将结果控制在10-15类，且对比实验的结果最好。

实验证明：实验结果表明本方法要好于传统的事件检测方法。

附图说明

图1方法流程框图

图2新闻检索系统的流程框图

具体实施方式

见图1。取若干新闻文档，步骤如下：

(1)进行预处理

对每篇新闻文档利用XML解析器(常用的如DOM4j)将新闻内容、标题、撰写时间、作者和类别信息提取出来，利用中文分词程序包ICTCLAS对新闻的内容和标题分别进行分词，同时计算词频，在计算词频时，标题中词的词频给以5倍的加权。将标题中的特征词与新闻内容的特征词合并，并利用关键词抽取技术将每篇文档的特征词限制在50个以内。

(2)计算向量模型

根据新闻的时间先后顺序对新闻进行升序排列，并标以相应的序号，按照本文修改过的IDF计算公式计算特征词的IDF。随后，与(1)中计算得到的词频计算出，每篇新闻文档中各特征词的权重。

(3)计算相似度

在新闻集合中，就新闻的特征词计算得到的向量、时间和类别按照前述的公式计算两两之间的相似度。

(4)聚类

利用聚类算法将新闻集合中相似度相近的新闻文档合并在一起，聚类算法中的阈值设为0.11，最终得到12类新闻。

为了评测我们发明的基于元数据分析的事件检测方法，我们设计了如下的实验：

实验条件：P4的PC，2G内存，JAVA语言实现程序

实验数据：基于新华社的新闻库中我们选取了2005年4月至2006年1月的27072篇新闻文档，并利用XML解析器从中抽取元数据信息在我们实现的新闻智能检索系统上进行实验，选取几组查询词的检索结果作为实验数据，对实验数据进行人工标注，按新闻事件进行分类，将基于元数据分析的事件检测方法与仅使用内容和标题的特征词向量进行聚类的事件检测算法在实验数据上得到的结果与人工标注的结果进行比较。在实验过程中，我们使用中科院计算所的中文分词程序包ICTCLAS对中文进行分词。

实验结果：我们采用应用广泛的F-measure算法来评价事件检测的结果：在已知文档分类的前提下，先计算查全率和查准率：

recall (i, j) = \frac{n_{ij}}{e_{i}}

precision (i, j) = \frac{n_{ij}}{n_{j}}

其中，n_ij为在聚类簇j中包含事件i的文档个数，n_j为聚类簇j的文档个数，e_i为事件i的文档数目。

聚类簇j和事件i的F-measure由下面的公式给出：

F (i, j) = \frac{2 * recall (i, j) * precision (i, j)}{recall (i, j) + precision (i, j)}

最后，总的F-measure值为

F = \underset{i}{Σ} \frac{n_{i}}{n} \max {F (i, j)}

表2一组对比实验结果

各符号的定义如下：

e_i为事件i的文档总数；

n_j为聚类簇j的文档总数；

max(n_ij)为事件i达到最大F-measure值时聚类簇j中包含事件i的文档个数；

max(F(i，j))为事件i和不同聚类簇j的F-measure值中最大的值；

表2是一组对比实验结果，从结果中可以看到，使用关键词抽取和层次聚类后对于聚类效果起了明显的增强作用。通过分析结果中各聚类簇的新闻文档，可以将这个增强作用总结成以下几点：

(1)关键词抽取使得描述新闻的向量空间维度更小，特征词更具代表性，过滤了许多与新闻关系不密切的词。

(2)充分利用了各个新闻要素进行相似度计算使得结果更为精确。

(3)利用层次聚类方法来控制结果粒度。

本项技术采用多维向量空间模型来表示新闻文档，在特征表示的权重计算时充分考虑的新闻的时间特性，修改了新闻特征词的IDF计算方式，在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等新闻元数据信息。在新闻检索时利用该技术可以改进用户检索新闻时的用户体验，使得新闻事件与时间等元数据的关系更为紧密，便于用户从海量的新闻报道中筛选出自己感兴趣的新闻事件，从而增强对新闻资源的利用效率。

Claims

1.一种基于元数据分析的新闻事件检测方法，其特征在于，包括步骤：

(1)预处理：

将新闻报道全部输入计算机，进行预处理，预处理的结果可表示为如下的集合S：

S＝{(d_i，t_i)}，i＝1...|S|；

其中S中的任一个元组(d_i，t_i)表示集合S中第i个时间为t_i的文档；这里d_i表示第i个新闻文档，具体为由文档特征词构成的多维特征向量{w₁，w₂，...，w_q，...，w_n}，w_q则为每个特征词的权重，其值在预处理中先为词在文档中的词频，计算结束时为步骤(2)中利用TF-IDF单文本词汇频率/逆文本频率指数公式计算的结果；

使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性；

(2)结合时间信息计算新闻信息的向量模型：

向量空间模型的基本思想是以向量来表示文本：(w₁，w₂，...，w_i，...w_n)，其中w_i为第i个特征词的权重，其计算方法采用TF-IDF公式，需要对新闻文档按时间顺序进行升序排序，得到新闻序列：

(d₁，d₂，d₃，...，d_n-1，d_n)；

按照升序排列，即最近发生的新闻其序号n越大；排序后新闻文档所对应的序号表示其撰写时间，对某个特征词c，其IDF的计算方式为：