一种自动检测新闻事件的方法
技术领域
本发明属于属于智能信息处理技术,具体涉及一种自动检测新闻事件的方法。
背景技术
随着因特网的迅速发展,新闻信息呈现出爆炸性的增长。如何从不断涌现的新闻报道中及时地获得新发生的热点新闻事件信息,并对自己感兴趣的新闻事件进行持续追踪,近年来成为研究热点。主题检测与追踪技术正是试图解决这一问题的方法。
主题检测与追踪(TDT)研究始于1996年,当时的研究发起人和参与者James Allan等人在《Topic Detection and Tracking(TDT)Pilot StudyFinal Report》中定义了TDT的具体任务和性能评估指标,并且给出了当时的一些实验结果。TDT的三项主要任务分别为:
(1)新闻报道切分任务:将连续的广播、电视新闻节目的语音或文字记录分割为不同的报道;
(2)事件检测任务:识别出系统未知的事件,并将相关报道也识别出来;
(3)事件追踪任务:监控新闻报道信息流以发现与某一已知事件有关的新报道。
另外,该论文谈到,TDT中目前关注的研究重点是事件的检测与追踪,其中,主题是比事件更加宽泛的一个概念,一个主题可以包含多个相关事件。
从本质上看,事件检测是对新闻报道流依据不同的事件做聚类,需要将讨论一个事件的报道归为一类(James Allan,2002)。与通常的文本聚类相比,事件检测的特殊性主要表现在两个方面:首先,事件检测的处理对象是按时间顺序依次出现的新闻报道流,随时间动态变化,而不是一个静态的封闭文本集合;其次,事件检测是依据报道讨论的事件而不是主题类别进行聚类,所依据的信息粒度相对要小,因此由事件检测得到的类应当更多些。尽管如此,文本聚类技术仍然是事件检测技术的基础。
事件检测可以根据具体的检测场景细分为:回溯检测和在线检测。回溯检测的目的是从现有的新闻报道集合中发现以前未标识的新闻主题,要求系统输出新闻主题的信息,能够说明新闻报道和主题的关联关系。而在线检测的重点在于及时地从实时新闻报道流中标识新的主题,也就是在某个表达新主题的报道出现的时刻标识出该新闻主题。
在过去几年中,事件检测研究者尝试了多种不同的文本聚类方法,如单遍聚类、k-means聚类、层次凝聚聚类、概率模型等。下面介绍几个主要的现有事件检测方法:
(1)CMU的方法
CMU的研究者(Yiming Yang等)在事件检测中主要采用带有时间窗的单遍聚类算法。CMU的研究者将每篇报道以及每个事件都表示成空间中的一个向量,报道向量和事件向量间的相似度计算主要采用向量夹角余弦值,但要根据时间因素利用一个事件窗口作调整,可以采取两种策略。第一种策略只考虑在事件窗口内出现的事件,第二种策略认为随着当前报道s与事件c之间报道数量的增加,应当降低二者间的相似度值。
另外,在2002年的SIGKDD上,Yiming Yang等在文章《Topic-conditioned novelty detection》中提出一种基于主题的事件检测方法:首先用有监督的学习算法将在线文档流分入预先定义好的较宽泛的主题类别中,然后结合每个主题的特征对文档流进行新事件检测。
(2)马萨诸塞大学的方法
马萨诸塞大学的研究者(James Alan等)用向量模型表示新闻报道,核心算法仍然采用单遍聚类算法。在计算报道和事件相似度时采用了基于时间的阈值模型,利用线性函数调整聚类阈值,使得在时间上距离某个事件越远的新闻报道越难加入该事件。在确定与当前报道最相近的事件时,除了原有的质心比较策略外,增加了最近邻居比较策略。
在质心比较策略中,设置了两个阈值θ match和θ certain。若当前报道与某事件的质心相似度高于θ match,则将该报道归入此事件。但只有它们之间相似度值高于θ certain时,才用当前报道调整该事件的质心,即该事件的向量表示。而最近邻居比较策略进行识别时,首先在已有报道中寻找与当前报道最相似的k篇报道,由这k篇报道和预先设定的阈值确定当前报道应当归属的事件。如果不能把它归入任何一个已知的事件,就把它作为对某个新事件的首次报道,为它建立一个新事件。
另外,James Alan等提到用事件中出现频率最高的几个词作为事件描述。
(3)IBM公司的方法
IBM公司开发的一个相对比较成功的事件检测系统采用了一种两层聚类策略,使用对称的Okapi公式来比较两篇报道的相似性。该系统的第一次处理首先将报道暂时归入不同的微事件(microcluster),第二次处理再以这些微事件为处理对象形成较大的类,即归入最终的事件(Dharanipragada etc.,2002)。以上每次处理都采用单遍聚类算法,差别只在于处理对象不同和选取不同的阈值。
综上所述,现有技术中在事件检测过程中,常用的步骤可以概括如下:
1)从数据源读入一篇报道,包括内容、时间以及其它相关信息;数据源可能存在多个,报道之间可能没有明显的界限,需要进行报道间的切分等预处理;
2)采用质心比较或者最近邻比较策略,计算报道与事件、或者报道与报道间的相似度,确定与当前报道最相近的事件;
3)若报道被归入某个事件,则调整该事件;若报道无法归入现有事件,则将其列为新检测到的事件;
4)输出检测到的事件,将事件中权重最高的几个特征词、或者具有代表性的某个报道标题做为事件描述。
由于现有的事件检测技术仅仅考虑在固定的小数据集合上的错检率和漏检率,存在以下几个缺陷:
(1)事件排序问题
人们的注意力成为一种稀缺资源,人们往往没有时间去查看大量的新闻事件,所以最热点的新闻事件排序应该越靠前,这样的系统才能更好地满足人们的需要。现有技术没有考虑该问题,仅仅是简单输出检测到的事件。
(2)事件相似性问题
由于对同一个新闻事件不同方面进行报道的新闻可能相似度较小,从而使得同一个新闻事件在事件发生初期被分为多个小事件,进而随着事态的不断发展,这些事件的相似度可能会越来越大,这样就可能给用户的浏览带来迷惑和不便。现有技术也没有考虑该问题。
(3)新闻报道淘汰问题
在实际应用环境中,事件检测是一个长期持续的过程。随着事件的动态演化,事件内的一些新闻和该事件的相关性在逐渐降低。另外,周期较长的事件随着时间的积累也可能出现膨胀现象,整个事件内容过于宽泛。现有技术通过引入时间窗策略和动态调整事件来克服事件动态演化的问题,但是没有考虑新闻报道淘汰的问题。
(4)事件描述问题
目前新闻事件的描述有两种方法:该事件中最重要的若干个特征词,或者选取该事件中某个新闻标题。由于自然语言处理技术还不够成熟,提取的特征词难以有效描述事件,甚至新闻事件中最重要的人名、地名、机构名、时间等特征词可能无法提取到,例如十一五规划,神州六号等。而如果用事件中某个报道标题做为描述,对于一些综合性的事件,则该报道可能仅是事件的一个方面,对事件的描述不够全面。
发明内容
针对现有技术中存在的缺陷,本发明的目的是利用新闻事件本身的特点,通过解决事件排序,事件合并与调整,新闻报道淘汰,以及新闻事件描述等问题,实现对持续新闻流进行动态、高效的事件检测。
为达到以上目的,本发明采用的技术方案是:一种自动检测新闻事件的方法,包括以下步骤:
1)从数据源读入一篇报道,并对报道进行预处理;
2)计算报道与已检测到的事件、或者报道与报道间的相似度,确定与当前报道相关的事件,并归入相关事件;
3)若报道被归入某个现有事件,则调整该事件;若报道无法归入现有事件,则将其列为新检测到的事件;
4)对已检测到的事件进行两两比较,合并相关事件,并重新调整事件、以及报道和事件的相似度;
5)对各事件内不满足限制条件的报道进行淘汰,并调整事件;
6)比较当前的事件数量与事件窗口大小,若事件数量大于事件窗口大小,则进行事件排序和淘汰;否则转入步骤7;
7)输出检测结果。
进一步,为使本发明获得更好的发明效果,步骤1)中,如果新报道和之前已经处理的新闻报道相似度大于预先设定的阈值θd即重复阈值,则认为是重复的新闻报道,需要对新闻报道进行消重处理,所述的θd取值范围是0<θd≤1,所述的消重处理是根据新闻报道的内容采用文本检索和文本挖掘中的相似度计算方法进行的。
步骤1)中,先采用自动分类的方法对新闻报道按预先设定好的类别进行分类。
步骤1)中采用自动分类的方法对新闻报道进行分类时,是采用基于来源的规则分类以及基于内容的自动分类相结合的方法,基于内容的自动分类是采用的文本分类技术。如权利要求4所述的一种自动检测新闻事件的方法,其特征在于:所述的文本分类技术是基于向量空间模型的支持向量机算法。
进一步,为使本发明获得更好的发明效果,步骤2)中所述的确定与当前报道相关的事件时采用质心比较或者最近邻比较策略,相似度计算方法可以采用现有文本挖掘的技术,文档模型是基于向量空间模型、概率模型、或者语言模型;相似度公式采用夹角余弦或者Hellinger距离公式等;相似度计算考虑结合报道的时间特征以及事件的时间特征。
步骤2)中在进行相似度计算时,给予报道中的标题以较高的权重,或者对于权威性较高的报道以较高权重,报道的权威性采用新闻源的权威性。
进一步,为使本发明获得更好的发明效果,步骤4)中所述的事件间相似度的衡量,是采用传统聚类算法中计算的聚类相似度值;若两个事件的相似度大于合并阈值θu,则视为两个事件相关,并将其合并,所述的θu取值范围是0<θu≤1。同时,事件合并也可以采用其他策略,例如,如若两个事件的内部表示中若干特征词相同,则视为相似度较高,合并这两个事件。
进一步,为使本发明获得更好的发明效果,步骤5)中所述的限制条件,可以是相似度阈值或者时间限制,也可以是外部限制如报道关注度、用户点击次数等。
再进一步,步骤4)或/和5)中,每处理用户所确定数量的新增报道后,或者每运行一段用户所确定的时间后,或者检测到的事件每新增用户所确定的数量后,再进行步骤4)或/和5)的操作。
进一步,为使本发明获得更好的发明效果,步骤6)中计算事件的排序时,需要结合新闻事件的时间特性和数量特性,例如以最近某个时间范围内(例如12个小时)事件内新增报道的数目作为事件得分值;另外,在排序中,可以同时考虑多个不同的排序,例如同时考虑最近12个小时、1天、3天、7天、30天等,只有当事件在任何排序中都不在事件窗口内时,才将该事件淘汰;这样,多重排序就可以给用户提供不同粒度的信息参考。
步骤6)中计算事件排序时,可以结合步骤6)中的多个排序结果,输出符合用户要求的某个排序,或者同时输出多个排序,例如用户可以同时请求查看1天内和1周内最热点的事件。
进一步,为使本发明获得更好的发明效果,步骤7)中输出检测结果时,对于当前所有事件,计算描述;同时,结合时间特性和数量特性,计算事件得分并对事件进行排序,选择得分较高的新闻事件作为重要新闻事件,输出事件描述和包含的新闻报道列表,其中,事件描述的生成过程如下:
a)选择事件中权重最高的K个特征词,K为用户所确定的特征词的数量;
b)根据新闻报道选择策略,选取该事件内最具代表性的一篇新闻报道的标题;
c)综合a)和b),输出该事件的描述。
步骤7)中的所述具代表性的新闻报道选择策略是结合新闻来源的权威性、报道点击率、报道时间等相关信息的阈值策略,所述的阈值策略是预先设定的事件阈值θe,所述的θe取值范围是0<θe≤1;例如与事件相似度大于阈值的事件内新闻报道中,选择时间最近的一篇新闻报道的标题。或者是按照用户确定的比例输出最相关的新闻报道。
本发明的效果在于:本发明在充分考虑了新闻事件的特征,以及人们的认知规律基础上,针对实际应用中的事件排序,事件合并和调整,新闻报道淘汰,以及新闻事件描述等,给出了实际的解决方法。实验表明,采用本发明所述的方法,明显提高新闻事件的检测效果,从而大大增强其实用性。
本发明之所以具有上述发明效果,是因为本发明具有如下特点:
(1)在事件排序方面,引入在某一时刻对事件计算重要性得分值的机制,该机制综合考虑新闻事件的时间特性和数量特性,进而在某一时刻为每个事件给出一个较合理的得分值,用于事件排序。
(2)在事件相似性方面,引入事件合并和调整的机制,用于克服同一个新闻事件被误分为多个小事件的现象。每处理固定个数的新闻报道,就对事件两两之间进行比较,若依据比较策略判断两事件相似度较高,则进行事件的合并和调整。
(3)在新闻报道方面,引入事件内新闻报道淘汰的机制,用于克服新闻事件内容过于宽泛的现象。每处理固定个数的新闻报道,就对各事件内的新闻报道进行淘汰。
(4)在事件描述方面,提出了将特征词和新闻报道标题相结合的方法,用于克服两者的缺陷。首先,选择事件内部权重最高的若干个特征词作为事件描述的一部分;同时,根据报道选择策略,选取该事件内最具代表性的一篇新闻报道,将该报道的标题作为事件描述的一部分。
附图说明
图1是本发明的流程图;
图2是采用现有方法对2005年7月22至2005年8月9日期间检测新闻事件的结果示意图;
图3是采用本发明所述方法对2005年7月22至2005年8月9日期间检测新闻事件的结果示意图;
图4是2005年8月9日新浪网要闻截图;
图5是采用现有方法对2005年7月22至2005年10月9日期间检测新闻事件的结果示意图;
图6是采用本发明所述方法对2005年7月22至2005年10月9日期间检测新闻事件的结果示意图;
图7是2005年10月9日新浪网要闻截图。
具体实施方式
下面结合附图及实施例对本发明作进一步地描述:
如图1所示,一种自动检测新闻事件的方法,包括以下步骤:
1)从数据源读入一篇报道,对多个新闻网络数据源(例如新浪网、新华网、人民网等)进行不间断地检测,从网络中自动抓取新闻报道,解析出新闻报道的时间、标题和正文信息等,如果没有从报道中找到时间,则以抓取时间为准;
由于多个数据源之间存在相当的重复,对新抓取的新闻报道,根据报道的文本内容进行消重处理;如果新报道和之前已经处理的新闻报道重复度大于重复阈值θd,则认为是重复的新闻报道,本实施例中设定的重复阈值θd为0.9;
由于新闻报道的范围过于宽泛,采用基于来源的规则分类以及基于内容的自动分类相结合的方法,对新闻报道进行分类(类别是预先设定好的,例如参考新浪网的频道,可以分成新闻、科技、财经、体育等)。规则分类根据新闻来源以及作者等进行分类,例如来自新浪“国内新闻”频道的内容归入“国内新闻”类别,来自新华网“科技”频道的内容归入“科技”类别。基于内容的自动分类采用向量空间模型和支持向量机算法,根据报道内容和标题对新闻报道进行自动分类;并且按照所属类别c进行步骤2)-步骤7)的处理;
2)采用质心比较策略,将报道与所属类别c内现有检测到的新闻事件进行比较,同时考虑时间特征和内容特征,计算报道和事件间的相似度,并记录最大相似度Smax以及相似度最大的事件Es,确定与当前报道最相近的事件;事件本身通过事件内部所有新闻中综合权重最高的若干个特征词来表达;新闻报道和事件之间的相似度基于向量空间模型,通过两者的夹角余弦值(cosine)来计算,同时新闻报道的标题赋予较高权重。
3)根据步骤2)计算得到的最大相似度Smax以及相似度最大的事件Es,对当前报道采取如下措施:
a)如果Smax小于创新阈值θn(本实施例中为0.25):在该报道所属类别内创建一个新事件;
b)如果Smax大于θn而小于聚类阈值θc(本实施例中为0.30):不作处理,返回步骤1);
c)如果Smax大于θc而小于贡献阈值θt(本实施例中为0.35):归入当前事件;
d)如果Smax大于θt:归入事件Es,并调整Es;
上述的Smax.θn、θc、θt的取值范围均大于0而小于等于1。
4)当一个类处理用户确定的固定数量(本实施例中确定的数量为20条)的新增报道之后,对该类别内新闻事件两两比较;如果两个事件的相似度大于合并阈值θu(例如0.20),则将其合并。事件之间的相似度计算公式可以采用传统聚类算法中计算两个聚类相似度的方法,例如基于向量空间模型,综合考虑两个事件中所有新闻报道之间的两两相似度,采用如下公式:
其中,E1,E2是两个检测到的新闻事件,di,dj分别为E1,E2中的新闻报道,sim(di,dj)是两个新闻报道之间的相似度,|E1|,|E2|分别为两个事件中包含的新闻报道数目;
5)当一个类处理用户确定的固定数量(本实施例中确定的数量为20条)的新增报道之后,对各事件内的新闻报道进行淘汰:重新计算新闻报道和该事件的相似度,对相似度低于聚类阈值θc、或者不满足限制条件(例如报道是否为近30天内的)的新闻报道进行淘汰;然后再重新计算事件内部表示及其权重;
6)若当前类别内的事件数量超过事件窗口大小,对类别内的所有新闻事件进行排序:结合新闻事件的时间特性和数量特性,计算新闻事件的得分值并排序;计算得分值时同时考虑多个不同的排序,同时考虑最近12个小时、1天、3天、7天、30天等,只有当事件在任何排序中都不在事件窗口内时,才将该事件淘汰;这样,多重排序就给用户提供了不同粒度的信息参考。系统将不在事件窗中的新闻事件淘汰,用于提高系统处理的效率;
7)根据用户要求,对外输出检测结果:对于类别内的当前所有事件,计算其描述;同时,结合事件的时间特性和事件内的新闻报道数量特性,从所有类别中选择出得分最高的若干个新闻事件,作为该类别最热点的新闻事件,输出事件描述和包含的新闻报道列表。其中,事件描述的生成过程如下:
a)读取事件内部权重最高的若干个特征词;
b)在与事件相似度大于事件阈值θe(本实施例中为0.6)的事件内新闻报道中,选择时间最近的一篇新闻报道的标题;事件阈值还可以采取按照比例(20%)的方式。
c)综合a)和b),输出该事件的描述。
为了验证本发明的有效性,我们采用2005-7-22至2005-10-9期间从新浪网、新华网、人民网等网站部分频道(新闻、科技、体育等)上抓取的10万篇新闻语料做测试,10万新闻语料被分为3大类:新闻、科技、体育。评价指标采用重大新闻事件的检测率(因为新浪网新闻频道要闻栏均为人工编辑整理而成,所以取同时间段的新浪网新闻频道要闻栏作为专家结果进行对比)。我们以“新闻”类为例,说明试验结果,实验结果如图2至图7所示。
图2至图7均是对比本发明的方法和传统方法在新闻检测中止时间检测到的排序前10名的重大新闻事件(其中括号内为检测到的相关新闻数量),以及新浪网新闻频道要闻栏在当天21点钟对于重大新闻事件的列表。其中,图2至图4的新闻检测时间为2005年7月22日至2005年8月9日,图5至图7的新闻检测中止时间为2005年7月22日至2005年10月9日。其中,传统方法为Yiming Yang等采用的单遍聚类算法:事件排序直接采用事件检测到的顺序倒序排列(即最新检测到的事件列在最上边),事件淘汰采用事件窗口的方法(凡是排序超出事件窗口的事件均被淘汰),事件描述采用James Allan等提出关键词描述方法。
从图2至图7可以看出,本发明提出的方法好于传统方法,包括:
1.事件排序更加合理;从图2至图7可以看到,本发明提出的方法中在前十个事件对新浪当日主要专题的检测率分别达到了62.5%和57%;
2.减少了同一事件被误分为多个小事件的情况;图2中第3-6事件均是纪念抗日战争胜利60周年,在传统方法中被分为多个事件,而在本发明提出的方法中被统一为图3中的第4个事件;
3.新闻事件描述更加准确全面;例如“神州六号”事件,通过图5中的第三个事件的描述,会比单纯关键词或者单纯代表性新闻标题更准确全面。
另外,由于本发明提出的方法引入了新闻事件内的新闻报道淘汰机制,新闻事件的内容更加集中。
实验表明:由于传统方法仅仅考虑在固定的小数据集合上的错检率和漏检率,在实际应用环境中存在诸多缺陷。而本发明提出的方法,充分考虑了新闻事件发生的特征,以及人们的认知规律,使得新闻事件的检测效果获得明显提高,大大增强其实用性。
实际应用过程中,基于内容的自动分类还可以采用其它的文本分类技术,例如基于语言模型的KNN算法;步骤2)中,确定与当前报道最相近的事件时,还可以采用质心比较策略。因此,本发明所述的方法并不限于具体实施方式中所述的实施例,只要是本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。