CN101609445A

CN101609445A - 基于时间信息的关键子话题提取方法

Info

Publication number: CN101609445A
Application number: CNA2009100548886A
Authority: CN
Inventors: 吴承荣; 曾剑平; 王巍
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2009-07-16
Filing date: 2009-07-16
Publication date: 2009-12-23

Abstract

本发明属于文本分析技术领域，具体是一种网络文本信息分析方法，尤其涉及一种基于时间信息的关键子话题提取方法。其步骤是，下载文本信息记录，提取其中的时间信息，再对相同时间点的文本的话题进行识别，然后定义并计算时间引用网络的节点关注度和关注度突变系数，最后根据突变系数与阈值的比较，确定关键子话题。本发明克服了目前基于关键词识别话题的各种方法所存在的问题，为准确确定关键子话题提供了一种有效的方法，适应于各种具有时间信息的文本集的计算机自动分析要求。

Description

基于时间信息的关键子话题提取方法

技术领域

本发明属于文本分析技术领域，具体涉及一种网络文本信息分析方法，尤其涉及一种从一系列具有时间相关信息的文本数据集中提取关键子话题的数据分析方法。

背景技术

互联网目前已经成为一种新闻报道的主要途径，被公认为是继报纸、广播、电视之后的“第四媒体”。每天都有大量的各种方面的新闻报道在网络上传播，各种网站、BBS(电子公告服务)、博客、RSS(聚合新闻)、搜索引擎等网络信息载体成为了人们获取新闻信息的主要载体。这些新闻报道信息的驻留空间存储了与社会经济政治等相关的许多话题，并且对于一些热点话题能够进行连续跟踪报道。每种话题在不同时间都会有不同的内容偏向和不同的热衷度，通过这种热衷度的变化，可以分析出当时社会生活中，哪些事件是人们所关注的焦点，能够从侧面反映人们的精神生活和社会生活的状态。实现对这些新闻报道的相关文本信息的计算机自动分析，能够了解社会上的热点话题和人们的反应。

虽然人们提出了许多针对文本信息的分析技术与方法，但是在解决从一系列的新闻报道文本信息中发现关键子话题这一个重要需求上，这些方法仍存在问题，主要有：

1.在文本特征选择上以关键词为主，这些关键词通常是文本中具有较强辨别能力的一些词语，因此在处理文本分类、文本聚类等需求上比较有效，而难于刻画和描述关键子话题。

2.有的方法虽然提出了在话题分析提取中引入时间信息，但是时间信息只是作为事件发展变化的一个维度，而缺乏对不同时间点上的事件之间的分析，因此仍然缺乏关键子话题提取的方法。

3.目前话题提取方法采用各种数据聚类算法，根据聚类结果中类的大小等来判断话题的重要性。但是由于聚类算法受聚类个数、相似度阈值等人为设定的参数影响大，实际得到的聚类结果只能在粒度较粗的层面上反映话题的重要性，因此难于具体分析子话题的重要性。

由此可见，实现对新闻报道等相关文本信息的计算机自动分析对于许多应用而言是非常重要的，而现有方法在特征选择、算法设计上存在着不足，尚无法满足关键子话题提取分析的要求。

发明内容

本发明的目的是针对现有各种话题提取方法在从具有时间相关信息的文本数据中提取关键子话题时所存在的不足，提出一种基于时间信息的关键子话题提取方法。

本发明提出的基于时间信息的关键子话题的提取方法，是通过提取文本数据中的各种时间信息，根据提取的时间点识别对应的子话题，构造话题中各种子话题在时间上的关系，形成子话题的时间引用网络，基于这种网络运用相关数学方法计算网络中各个节点的重要性，从而提取出重要的时间节点，并运用现有的话题提取方法从该节点对应的文本数据集中提取话题信息，从而实现关键子话题的提取。

本发明方法具体步骤如下：

(1)针对连续的跟踪报道，从互联网上下载相应的新闻报道文本信息记录[1]，从而构成一个包含时间信息的事件文本数据集。

(2)从新闻报道文本中提取时间点，针对各个文本记录，从文本中寻找并提取事件的基本时间和引用时间。这里，基本时间是指新闻报道该事件的第一时间点，引用时间是指以基本时间为参考点的其它位置出现的时间点。时间的表达方法一般有相对时间和绝对时间两种。在时间点的提取过程中，主要采用模式匹配的方法获取绝对时间点；相对时间点的提取则根据汉语的习惯表达的各种方式进行处理。例如，通过搜索文本中的时间相对词，获取相对时间点，并根据相对时间数字转换表，将相对时间转换为绝对时间。

(3)在时间点提取的基础上，根据各个报道的绝对时间对文本集中相同基本时间的文本记录，采用聚类方法[2]进行话题识别，得到与某个绝对时间对应的子话题描述。根据不同的基本时间，得到一系列子话题。

(4)针对子话题与时间的对应关系，包括基本时间和引用时间，构造各个事件在不同时间点上的引用网络，这是一个含权的有向网络。其中，网络节点表示与某个时间相关联的话题，网络，节点之间的连接及方向表示引用关系，网络边的权重表示引用的数量。

(5)定义并计算时间引用网络的节点关注度，关注度的定义是节点的被引用数。

(6)定义并计算关注度突变系数。一般而言，关键子话题是那些关注度高且有跳跃增加的子话题。

(7)根据突变系数与阈值的比较，确定关键子话题。

图1为本发明的流程图示。

本发明具有实质性特点和显著进步：(1)改变传统基于关键特征词的话题提取方法，采用以事件时间作为前导特征，充分利用新闻事件报道的时间要素及主线，使得关键子话题的提取更加切合实际；(2)充分利用文本信息中隐藏的时间信息，构造事件的时间引用网络，直观地反映了一个事件的所有相关文本中，子话题之间的关系；(3)定义了节点的关注度及其突变系数，从而使得子话题的特征具有量化计算的依据，为提取关键子话题提供了依据。

本发明提出的以时间作为关键子话题提取的主要要素，充分利用文本信息中所包含的时间信息，并构造便于直观分析和量化计算的时间引用网络。定义了节点关注度及其突变系数，从而寻找关键子话题。本发明有效地克服了目前基于关键词识别话题的各种方法所存在的问题，为准确确定关键子话题提供了一种有效的方法，适应于各种具有时间信息的文本集的计算机自动分析要求。

附图说明

图1为本发明的流程图示。

图2为实例中的关注度图示。

图3为实例中突变系数图示。

具体实施方式

实施例：

(1)从互联网上下载跟踪报道的文本信息，构成包含时间信息的文本数据集。具体方法如下：

根据事先设定的事件关键词组合，从搜索引擎中查找相关的事件报道文本，并通过基于HTTP(超文本传输协议)协议的数据分析得到搜索的所有查询记录，提取记录中所包含的URL(统一资源定位)，并利用网络爬虫技术自动将该URL对应的文本下载到本地，经过正文信息提取，从而得到报道信息的文本集合。方法详见[1]。

(2)提取文本信息中的时间点

为了以时间点作为切分话题的基准，必须先从话题文档中提取各种时间点。但是文本中时间点的描述复杂多样，尤其是中文的时间描述。简单的模式匹配能够识别一部分简单的时间点描述，如基本时间点。因此，必须分析新闻文档中的时间习惯用语，在一定的语义上识别并提取时间点。具体方法如下：

时间点的基本结构表示为T＝{年，月，日}。时间点按照在新闻报道中的时间位置分为基本时间和引用时间，通过对新闻报道的观察，一般新闻报道中第一个时间点为报道时间，定义报道的第一个时间点为“基本时间”，文章中其他位置出现的时间皆以这个基本时间为参考点，定义为“引用时间”。例如：“2008年12月29日XXX报道，昨日……”，这个“12月29日”为基本时间，则“昨日”可以参照这个基本时间，可以追溯到“12月28日”。

时间点按表述方式可以分为绝对时间点和相对时间点，绝对时间点是能够确定具体日期的时间描述，例如“2008年1月1日”，“2月12日”，“元月3日”等，在新闻报道中的表示一般为“Y年|M月|D日”，可以通过模式匹配获取这些时间点，YMD为数字或文字，例如“元”，“一”，“二”等等，如果时间表述不全，例如只有“日”或者“月”，可以通过基本时间获取其他时间单位表述；相对时间为相对其他时间的时间描述，必须有一个参照时间点，在新闻报道中一般基本时间为报道中其他相对时间的参照时间点，例如“去年”，“昨天”，“3天前”等等。时间点的描述方式有数字，汉字，习惯用语。必须将一些汉字和习惯用语转换成具体的数字，对于绝对时间的习惯描述有“元”，星期的表示，天干地支表示，对于相对时间一般都在时间单位前后有些关键词(前后缀)，如表1，括号中的数字表示相对值，例如“昨日”，则当发现“日”时，查找之前的描述，如果为数字，则先视为绝对时间，如果为汉字，则查找中文描述表，转换成相对值，然后与基本时间进行比较；如果数字表示的时间则继续观察上下文是否有“前”“后”等时间序列的描述，如果存在则视为相对时间。

表1相对时间数字转换表

今	0
今	0	去	-1
昨	-1	去	-1
昨	-1	前	-2
明	1	前	-2
明	1	本	0
后	2	本	0
后	2	上	-1
下	1	上	-1
下	1	...

(3)提取子话题

在时间提取的基础上，根据各个报道的绝对时间对文本集中的记录进行话题识别，得到与某个绝对时间对应的事件描述。具体实现方法如下：从文本集中，选择基本时间相同的所有文本记录，这些文本记录包含了这个绝对时间点上所发生的事件对应的子话题。接着，采用现有的话题提取流程提取子话题，即经过分词、特征词选择、文本特征向量的构造后，采用诸如基于特征向量空间的聚类算法，从聚类结果中获得较大的类的特征及相应的权重，从而得到子话题的描述。方法详见[2]。根据不同的基本时间，得到一系列子话题，记为Tp_k.

(4)构造时间引用网络

通过时间点提取算法提取出新闻报道中涉及的时间点，并摘取对应事件，形成子话题列表TP＝{Tp₁，TP₂，…，Tp_k，…}。一篇报道经常引用到其他时间点的事件，报道时间与文档内部时间存在这一定的引用关系。所以通过这种引用关系建立一个时间点引用网络。

本发明中，该引用网络采用有向图的形式，即时间点引用网为一个有向图G＝{E，V}，V为图中节点，对应为所识别出的各个时间点的子话题，E为节点之间的有向边，对应为根据文本中的“引用时间”确定的引用关系，边的权值为引用数量。例如在“2008年4月13日”的报道中，引用到了“2008年2月18日”的时间点3次，“2008年1月4日”2次，同时，“2008年2月18日”的新闻报道中，引用到“2008年1月5日”1次。则对应时间点引用图中，“2008年4月13日”对应的子话题指向“2008年2月18日”对应的子话题，权重是3；“2008年4月13日”对应的子话题指向“2008年1月4日”对应的子话题，权重是2；“2008年2月18日”对应的子话题指向“2008年1月5日”对应的子话题，权重是1。

(5)定义及计算节点关注度

节点入度表示时间点被其他时间点报道引用的关系，入度的数量表示了这个时间点对应事件的关注度。通过分析有向边起始节点的时间范围，可以分析被引用节点事件的影响度，有向边的权值为节点被同一节点引用的次数，可以表示两个时间点的关联度。

新闻报道中，有些报道会对某个时间点重复引用，这样，入度值会隐藏时间点的重要性。所以子话题的关注度I应由子话题时间点在引用网中的入度值IC和引用文章数D决定，在入度值相等的情况下，引用文章数越多，则该时间点事件的关注度I越大；在引用文章数相同情况下，入度值越大，则关注度也越大。

一个话题在不同时期会有不同的关注度，当某一个时间点的子话题内容比较敏感或者与话题的演化发展密切相关时，这个子话题的关注度会增加，通过关注度的观察，可以很容易辨认主要子话题，即话题发展中的主要阶段标志。某个话题的新闻报道中，如果某个时间点的事件如果很重要，则会被该话题不同时期的一系列报道多次引用，可见，被引用次数与子话题的重要度密切相关。但如果一个子话题只在少数几篇文章中多次引用，则被引用次数不能够准确反应重要度，所以需要对被引用次数进行修正。被引用次数越大，同时引用的文章数越大，则该时间点事件的重要度越大，通过类似TFIDF(词频-逆向文档频率，详见[3])公式[3]计算时间点子话题的关注度I，时间点x的关注度为：

I (x) = \frac{IC (x)}{\log (\frac{| D |}{D (x)})}

，其中IC(x)时间点x的引用度(即入度)，|D|为新闻报道总数，D(x)为包含时间点x的新闻报道数。

(6)定义及计算节点关注度的突变系数

在具有时间信息的文本中，如新闻报道，关键子话题通常具有这样的特征，即它受到较大的关注，得到其他相关报道的引用多。基于这个特征，针对那些关注度高且有跳跃增加的子话题，按照时间发展顺序将关注度进行排序，定义突变系数a(x)：

a (x) = \frac{I (x)}{\frac{ΣI (y)}{n}}

，其中∑I(y)/n为时间点x时间序列上前n个时间点子话题关注度I值的平均值。

(7)提取基于突变系数的关键子话题

在突变系数的基础上，根据关键子话题的特征，就可以简单地给出关键子话题的提取方法，即当突变系数a(x)大于一个阈值时，视为关注度突变，则该时间点子话题为主要关键子话题。该阈值的选择是基于以下的方法：将每个时间点x对应的a(x)构成一个时间序列，计算该序列的均值y₁与方差y₂，突变系数的阈值设定为：y₁+y₂。阈值的数值也可根据提取关键子话题数量和计算经验确定。

从上述实施过程可以看出，本发明采用基于时间点的时间引用网络，并在自定义关注度及突变系数的基础上提取关键子话题。本发明所提出并采用的基于时间信息的关键子话题识别方法能较好地适应诸如新闻报道之类含有时间信息的文本的关键子话题提取，所提取的子话题具有实际含义，为关键子话题的计算机自动分析处理提供了可靠的方法。

具体例子：

通过网络爬虫从搜索引擎检索一个连续新闻报道，具体信息如表2所示：

表2数据集

话题主题	报道时间范围	文章数
话题主题	报道时间范围	文章数	刘翔，奥运	2008年08月01日到2008年12月7日	661

新闻报道中时间点的描述大部分都是具有一定的格式的，因此通过前述的时间点提取方法可以提取大部分的时间点，总共得到108个时间点。

通过聚类算法得到102个子话题。根据各个子话题中的各个报道文档所包含的时间上的引用关系，构造时间引用网络，并计算各个子话题的关注度及其突变系数，结果分别见图2、图3。按照关键子话题提取的判据，最后得到的关键子话题概括出了刘翔备战奥运，奥运开幕，腿伤退赛，奥运闭幕，和成功手术等方面，子话题具体的描述见表3所示。

表3主要子话题表

序号	时间点	子话题描述
序号	时间点	子话题描述	1	2008年7月31日	耐克公司，钉鞋，跑鞋，背心，运动装备，战靴，短裤，设计师，亮相，发布，设计，定制，参赛，北京
2	2008年8月1日	训练局，总局，田径场，国家体育，跑鞋，师徒，孙海平，强度，训练，竭尽全力，发布，备战，穿上，北京	1	2008年7月31日	耐克公司，钉鞋，跑鞋，背心，运动装备，战靴，短裤，设计师，亮相，发布，设计，定制，参赛，北京
2	2008年8月1日	训练局，总局，田径场，国家体育，跑鞋，师徒，孙海平，强度，训练，竭尽全力，发布，备战，穿上，北京	3	2008年8月5日	国际，奥委会，运动员，委员，委员会，世界纪录，田联，投票，开始，动员，选举，竞选，北京，中国，青岛，香港，上海，沈阳，秦皇岛，天津
4	2008年8月8日	开幕式，成绩，孙海平，罗伯斯，脚伤，状态开幕，跑出，训练，投票，没有参加，北京	3	2008年8月5日
4	2008年8月8日	开幕式，成绩，孙海平，罗伯斯，脚伤，状态开幕，跑出，训练，投票，没有参加，北京	5	2008年8月16日	奥运村，孙海平，跟腱，专家，比赛，核磁共振，炎症，鸟巢，训练，入住，会诊，治疗，疼痛，北京
6	2008年8月18日	比赛，鸟巢，孙海平，田径，男子，预赛，退赛，退出，起跑，疼痛，遗憾，北京，中国，雅典	5	2008年8月16日	奥运村，孙海平，跟腱，专家，比赛，核磁共振，炎症，鸟巢，训练，入住，会诊，治疗，疼痛，北京
6	2008年8月18日	比赛，鸟巢，孙海平，田径，男子，预赛，退赛，退出，起跑，疼痛，遗憾，北京，中国，雅典	7	2008年8月21日	决赛，孙海平，国际奥委会，状态，委员会，奥运村结果，选举，训练，投票，公布，北京，中国，上海
8	2008年12月5日	手术，北京时间，当地时间，纪念医院，体育，消息进行，结束，赴美，成功，接受，北京，休斯顿，美国	7	2008年8月21日	决赛，孙海平，国际奥委会，状态，委员会，奥运村结果，选举，训练，投票，公布，北京，中国，上海

参考文献：

[1]徐远超，刘江华，刘丽珍，关永.基于Web的网络爬虫的设计与实现.微计算机信息，2007，23(21)：119-121

[2]D.Pelleg，A.W.Moore.X-means：Extending K-means with Efficient Estimation of the Number of Clusters.In proceedings of 17th International Conference on Machine Learning，727-734，2000.

[3]Salton，G..，McGill，M.Introduction to Modern Information Retrieval.New York：McGraw-Hill.1983..

Claims

1.基于时间信息的关键子话题提取方法，其特征在于具备具体步骤如下：

(1)针对连续的跟踪报道，从互联网上下载相应的新闻报道文本信息记录，从而构成一个包含时间信息的事件文本数据集；

(2)从新闻报道文本中提取时间点

针对各个文本记录，从文本中寻找并提取事件的基本时间和引用时间；这里，基本时间是指新闻报道该事件的第一时间点，引用时间是指以基本时间为参考点的其它位置出现的时间点；时间的表达方法分为相对时间和绝对时间两种；在时间点的提取过程中，采用模式匹配的方法获取绝对时间点；根据汉语的习惯表达的各种方式获取相对时间点，并根据相对时间数字转换表，将相对时间转换为绝对时间；

(3)在时间点提取的基础上，根据各个报道的绝对时间对文本集中相同基本时间的文本记录，采用聚类方法进行话题识别，得到与某个绝对时间对应的子话题描述；根据不同的基本时间，得到一系列子话题；

(4)针对子话题与时间的对应关系，包括基本时间和引用时间，构造各个事件在不同时间点上的引用网络，这是一个含权的有向网络；网络节点表示与某个时间相关联的话题，网络，节点之间的连接及方向表示引用关系，网络边的权重表示引用的数量；

(5)定义并计算时间引用网络的节点关注度，关注度的定义是节点的被引用数；

(6)定义并计算关注度突变系数；

(7)根据突变系数与阈值的比较，确定关键子话题。

2.如权利要求1所述的基于时间信息的关键子话题提取方法，其特征在于所述构造子话题的时间引用网络，采用有向图G＝{E，V}形式，V为图中节点，对应为所识别出的各个时间点的子话题，E为节点之间的有向边，对应为根据文本中的“引用时间”确定的引用关系，边的权值为引用数量。

3.如权利要求2所述的基于时间信息的关键子话题提取方法，其特征在于：子话题关注度的计算公式为：

I (x) = \frac{IC (x)}{\log (\frac{| D |}{D (x)})}

其中IC(x)时间点x的入度，|D|为新闻报道总数，D(x)为包含时间点x的新闻报道数。

4.如权利要求中所述的基于时间信息的关键子话题提取方法，其特征在于：子话题关注度的突变系数计算公式为：

a (x) = \frac{I (x)}{\frac{ΣI (y)}{n}}

其中I(x)为关注度，∑I(y)/n为时间点x之前的n个时间点子话题关注度I值的平均值。

5.如权利要求4所述的基于时间信息的关键子话题提取方法，其特征在于，在提取关键子话题步骤中，当子话题的关注度突变系数a(x)大于一个阈值时，则将该时间点子话题确定为关键子话题。