CN104915446A - 基于新闻的事件演化关系自动提取方法及其系统 - Google Patents

基于新闻的事件演化关系自动提取方法及其系统 Download PDF

Info

Publication number
CN104915446A
CN104915446A CN201510372236.2A CN201510372236A CN104915446A CN 104915446 A CN104915446 A CN 104915446A CN 201510372236 A CN201510372236 A CN 201510372236A CN 104915446 A CN104915446 A CN 104915446A
Authority
CN
China
Prior art keywords
event
news
time
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510372236.2A
Other languages
English (en)
Other versions
CN104915446B (zh
Inventor
蔡毅
黄东平
闵华清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510372236.2A priority Critical patent/CN104915446B/zh
Publication of CN104915446A publication Critical patent/CN104915446A/zh
Application granted granted Critical
Publication of CN104915446B publication Critical patent/CN104915446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于新闻的演化关系自动提取方法,包括:新闻信息预处理、新闻导语提取、新闻事件时间提取、事件提取、事件关键词提取、事件演化关系分析;本发明还公开了一种新闻的演化关系自动提取系统,包括:新闻信息预处理模块、新闻导语提取模块、新闻事件时间提取模块、事件提取模块、事件关键词提取模块、演化关系分析。本发明可以使得提取出来的事件演化关系图更加合理、事件之间的关系更加清晰;具有解决了目前新闻演化分析领域的部分不足之处,使演化分析达到更好的效果,方便用户了解整个新闻话题的发展脉络等优点。

Description

基于新闻的事件演化关系自动提取方法及其系统
技术领域
本发明涉及一种数据挖掘技术,特别涉及一种基于新闻的事件演化关系自动提取方法及其系统。
背景技术
随着互联网的出现,信息技术迅猛发展,人类社会进入了信息爆炸时代。每一天,都有大量的网民通过各种媒介平台接收各类数据信息。截止至2011年12月,中国的网民数量高达5.13亿人,居世界首位。网民的主要行为包括:聊天、阅读、游戏、下载、视频。其中,阅读占据了较大的比例。特别是随着手机、平板电脑等移动平台的盛行,在线阅读信息的网民也越来越多。在如此浩瀚的信息世界中,新闻信息占据很大的一部分。在中国,互联网是新闻信息最快速的发布平台,具有高实时性的特点。互联网已经成为主要的新闻传播平台,具有社会舆论的放大器的功能。通过各个门户网站,例如网易、新浪、百度,用户能够及时获取关于某一个话题的各种相关报道。
新闻演化是一个新闻话题从出现、发展、高潮、平淡、到最后结束的生命历程。一个复杂的新闻话题往往包含多个子事件,而事件之间也存在着一些关系。通过这些事件之间的关系,可以得到一个新闻话题的事件演化关系图。例如在话题“汶川大地震”中,事件“汶川发生8.0级地震”导致了事件“汶川地震导致480万人无家可归”。而事件“汶川地震中有大量学生伤亡”也与事件“学校的建筑质量被质疑”有密切关系。
阅读者往往不止对一个单独的新闻事件感兴趣,还对与此新闻事件有关的其他事件感兴趣。也就是说,阅读者对整个话题的演变过程感兴趣,希望能从头到尾了解事情演变的全貌。但由于互联网信息的爆炸性、异构性、分布性等特点,关于某一个话题的新闻可能非常多。而且各种新闻信息非常分散,一个新闻事件的相关信息往往分布在几篇新闻中。例如近年来网络上的热点新闻:汶川地震、北京奥运会、三鹿奶粉,乃至2014年的“马航失联”事件无不是一段时间关注度最高的新闻话题。每一天,都与数以千计的相关新闻在门户网站、微博、微信等平台上更新。面对如此铺天盖地的新闻报道,用户很难一一去阅读。但如果单独阅读某一部分新闻,用户又可能错过某些关键信息。阅读者,很难全面了解新闻的发展历程以及后续结果,因为每一则新闻可能只是描述一个话题中的某一个小事件。如何才能够快捷地了解新闻事件的演化过程,直观地掌握信息之间的复杂关系,把握事件内容的发展趋势,是目前研究的一个热点问题。各种信息检索、分类、监测和提取技术都是围绕这个目的展开的。新闻演化分析就是其中一个方向。在信息爆炸的时代背景下,对新闻话题动态演化及其关键技术进行研究,从而为用户提供更便捷、更清晰地从头到尾了解新闻的发展全貌的阅读方式。
人类认知心理学相关研究表明,人类认识事物的过程总是按照一定逻辑顺序展开。当用户开始关注某个新闻话题时,他总是希望能够了解新闻事件的起因或缘由,以及相关的背景,进而深入了解事情的发展、高潮,直到整个新闻话题的终结。因此,自动化的新闻演化分析显得非常有必要。本发明从新闻话题出发,利用计算机技术挖掘新闻话题底层事件之间的演化关系,构建事件演化关系图,从而全面直观展示新闻之间的迁移关系,为读者提供一种话题演变式的新闻浏览方式,读者可以更方便快捷地从头到尾了解新闻的发展全貌。
新闻演化分析是数据挖掘领域—个新的研究方向,它同时覆盖了多个学科的交叉研究领域,其中涉及主题模型(Topic Model)、话题关联检测(Topic LinkDetection)、话题追踪(Topic Tracking)、主题聚类(Topic Clustering)等。首先,本发明的研究是基于传统的话题模型,需要对文档建模,提取文档的时间,利用主题模型对文本进行聚类。然后结合文档的时间信息,深入挖掘各事件之间的关系,做话题的演变分析,发现话题在内容和时间轴上的变化轨迹。因此,本发明所涉及的相关知识架构主要有:主题模型、文本聚类、时间提取、话题演变,下面将一一介绍国内外相关研究进展情况。
主题模型(Topic Model):主题模型是在自然语言处理和机器学习等领域中,用来获取文档中抽象主题的一种统计模型。2003年,Blei等人首次提出了隐含狄利克雷分布模型(Latent Dirichlet Allocation,简称LDA),是现在最常见的主题模型。LDA是一种无监督学习算法,它可以将文档中的每个文本按照主题分布概率的形式给出。之后,有很多学者在LDA的基础上,提出自己的主题模型。
文本聚类:文本聚类是对于静态数据分析的一门技术,在数据挖掘、机器学习等领域有广泛应用。聚类是把相似的数据对象通过分类方法划分成不同的集合,分出的每一个集合的数据成员都具有一定的相似性。最常见的文本聚类方法是K-means。K-means算法是典型的硬聚类算法,聚类的结果是一个个紧凑、独立的簇。K-means使用欧式距离作为相似性的评估指标,如果两个数据对象的距离越近,那么它们的相似度就越大。K-means算法虽然很常见,但存在几个较大的弊端。一方面,K-means算法需要首先确定几个聚类中心,然后在依据初始划分进行优化。这个初始聚类中心的选择对聚类结果有很大的影响,一旦选择得不好,就很难得到理想的聚类结果。另一方面,K-means算法中簇的个数K是事先指定的。但实际运用中,K值是非常难以估计的。
时间提取:文档的时间信息对发现文档主题,判断文档间关系具有重要意义,这方面的研究也比较多。1997年,MUC(Message Understanding Conferences)会议第一次确定了以TIMEX格式作为标准来定义和表示时态信息。TIMEX标准将时态信息分为绝对时间(Absolute Time)和相对时间(Relative Time)两类。随后,TIDES(Translingual Information Detection,Extraction,andSummarization)和ACE系列会议在TIMEX的基础上提出了新的时态信息规范化标注方案,即TIMEX2标准,也是目前最常用的标准。
话题演化:话题的演变的相关工作最早起源于主题检测与跟踪(TopicDetection and Tracking,TDT)的研究,TDT中以事件的追踪来描述话题的演变过程。之后,学术界提出了各种研究模型。其中LDA模型是最常用的模型之一,它可以很好地挖掘大规模语料的语义和主题。目前,大部分的研究聚焦于如何利用文本内容和时间信息判定话题的变化过程。
发明内容
本发明的首要目的在于克服现有技术的缺点与不足,提供一种基于新闻的事件演化关系自动提取方法,该方法可以使得提取出来的事件演化关系图更加合理、事件之间的关系更加清晰。
本发明的另一目的在于克服现有技术的缺点与不足,提供一种实现基于新闻的事件演化关系自动提取方法的系统,该系统解决了目前新闻演化分析领域的部分不足之处,使演化分析达到更好的效果,方便用户了解整个新闻话题的发展脉络的问题。
本发明的首要目的可以通过下述技术方案实现:基于新闻的事件演化关系自动提取方法,包括:
新闻信息预处理:将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;
新闻导语提取:新闻导语是在新闻的开头,用几句话表达新闻的中心思想的句子。提取新闻导语可以用于提取新闻的事件时间。本发明提出一种新闻导语的提取方法;
新闻事件时间提取:新闻具有明显的时间性,每一则事件新闻都有确定的发生时间点或者时间段。提取出新闻的时间信息,对于新闻演化分析具有重要指导作用。本方法从新闻的报导时间和事件时间入手,利用隐式时间调节显示时间,从而提取新闻的事件时间;
事件提取:事件是谈论同一件事情的新闻集合。利用文本聚类的方法,可以将零散的新闻汇聚为确定个数的话题事件。本方法通过k-means,融合LDA、TF-IDF、新闻时间等内容和方法,对新闻进行聚类,建立起新闻事件;
事件关键词提取:话题的每一个子事件都是新闻不可或缺的组成部分,是新闻演化分析的基础。为了区别不同事件间的关系,本方法提取每一个事件具有代表性的词语,用于区别其他事件,称为事件关键词;同时,基于事件关键词提取出事件的代表性新闻;
事件演化关系分析:本方法提出从协同依赖关系分析、事件迁移关系分析和时间距离关系分析三个不同的角度分析事件之间的关系。通过对三种关系的线性结合,得到事件间的演化关系,并绘制最终的演化关系图。
所述的信息预处理包括以下步骤:
(1a)对于中文文本,利用分词工具对文本进行分词和标注词性,并去掉停顿词;对于英文文本,将所有单词进行词干化以得到单词原型;
(1b)对于中文文本,直接提取词性为名词或名词短语的单词作为评论文档的特征词;对于英文文本,提取词性为名词或名词短语的单词作为评论文档的特征词。
所述的新闻导语处理包括以下步骤:
(2a)如果新闻的首段只有一句话,则提取出新闻的第一段作为导语;
(2b)如果新闻的首段有两句或两句以上的句子,则提取出新闻的前两句话作为导语。
所述的新闻事件时间提取包括以下步骤:
(3a)提取新闻报道事件:在新闻报导时间一般是显式时间,可以直接在新闻的开始部分或结束部分提取出来;将提取出来的报导时间规约到年、月、日三个维度中,因为月和日是区分新闻之间时间差别的重要特征;
(3b)提取新闻的事件时间:事件时间是指新闻描述事件发生的真实时间。事件时间的提取需要利用到新闻导语,如果导语中存在完整的显式时间,那么导语所描述的时间则为事件时间。如果导语中没有完整的显式事件,就得使用时间参照关联算法;
(3c)利用时间参照关联算法提取新闻的事件时间:先定义一个基准时间。这个时间一般是包含完全信息的显示时间。本方法使用报导时间作为基准时间。然后在基准时间相关的上下文寻找相关的参照时间,这调节时间一般是隐式时间。特殊情况下,也可以是显式时间。然后将整个参照时间通过预定义的规则转化成数学逻辑表达式,修改基准时间,得到最终的显式时间。
所述的事件提取包括以下步骤:
(4a)将新闻信息预处理提取的新闻特征词转化成若干个“关键词:权重”的VSM特征向量:
N i → = ( t i , 1 : f i , 1 , t i , 2 : f i , 2 , ... , t i , k : f i , k , ... , t i , n : f i , n ) ,
其中,i表示第i则新闻。ti,k是第k个关键词,它的权重是fi,k
本方法采用TF-IDF(Term Frequency–Inverse Document Frequency)词频技术计算权重值。TF-IDF用于衡量一个字词对于一个文档集中的其中一份文档的重要程度。它的主要思想是:如果某个词在一份文档中出现的频率很高(即TF很高),并且在其他文档中出现次数很少(IDF值比较低),则这个词具有较好的区分能力,适合用来代表本类。TF-IDF的计算方法如下:
TF i = n i Σ k n k
IDF i = l o g ( D D w ) ,
TF-IDFi=TFi×IDFi
其中i是第i个关键词。TFi是关键词ti在提问中的词频;ni是关键词ti在新闻中出现的次数;∑knk是所有关键词在提问中出现总次数。IDFi是关键词ti的概率分布交叉熵;D是系统所有提问的个数,Dw是出现关键词ti的提问的问题个数;
(4b)利用LDA(隐含狄利克雷分布,Latent Dirichlet Allocation)获取新闻的隐含主题的特征向量。在LDA中,文档集合中所有文档均按照一定比例共享所有的隐含主题,而隐含主题集则是由一系列相关特征词组成。因为吉布斯采样能够有效地从大规模文档集中抽取主题,所以本方法使用了吉布斯采样求解LDA。通过LDA,可以得到新闻对应每一个topic的概率,从而把整个新闻文档集转化为隐含主题的特征向量。
d l d a → = ( w 1 : f 1 , w 2 : f 2 , ...... , w k : f k ) ,
本方法把这个向量用作衡量新闻文本的一个特征向量,然后用余弦定理评估两则新闻之间的文本相似度。
Sim L D A ( d i , d j ) = d i _ L D A → × d j _ L D A → | d i _ L D A → | × | d j _ L D A → | ,
(4c)计算新闻时间相似度。两个新闻文本,除了内容的差别外,还有一个重要的区分项——时间。如果两则新闻的事件时间差别太大,则属于同一事件的概率很小。本方法使用e的幂函数来衡量新闻之间的时间相似度,两则新闻a和b之间的时间相似度是:
Sim t i m e ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是新闻a的时间,时间以天为单位。本方法的时间计算都是以天为单位。|ta-tb|是新闻a和b之间的时间差。tmax是所有新闻文档中最大的时间差。μ是调节参数,μ越大,时间差对结果影响越大。
(4d)计算新闻文本之间的相似度。将新闻的时间相似度与LDA相似度、VSM向量空间的TF-IDF相似度一起有机结合,得到一个全新的新闻文本之间相似度:
Sim(di,dj)=k1×SimTF-IDF(di,dj)+k2×SimLDA(di,dj)+k3×SimTime
其中,k1、k2和k3是调节参数,符合k1+k2+k3=1。
(4e)利用k-means算法进行文本聚类。通过融合LDA、TF-IDF、时间,计算得出新闻之间文本相似度,接着就可以进行新闻聚类。聚类的方法与k-means相似,主要差别是:每一次迭代过程中,算法需要获得每个簇的时间。本方法使用这个簇中所有新闻的时间众数作为这个类的时间。聚类得到的每一个类就是一个事件。
所述的事件关键词提取包括以下步骤:
(5a)提取事件的关键词。事件的关键词是事件中最有代表性的词。关键词应该具有以下两个特征:能够代表事件的主题;能够用于区分其他事件。首先,事件关键词要能够代表主题,因此提取出来的这些事件关键词在事件中必须具有较高的出现概率,出现次数太少的次不具有代表性,用数学逻辑表达为:
p(fi|a)>α,
其中,fi表示事件中第i个特征词;p(fi|a)是词fi在事件a中的所有新闻中的存在概率(词频);α是阈值;p(fi|a)可以通过以下公式计算:
p ( f i | a ) = N f i Σ k = 0 n N f k ,
其中,Nfi是词fi出现的次数。
其次,这些关键词要能够区分其他事件,从数学的角度分析,这些词出现在其他的事件的新闻文本中的概率比较低。也就是说,出现了这些事件关键词的新闻文本很大概率属于这一个事件,用数学逻辑表达为:
p(a|fi)>β,
其中,p(a|fi)是在相关所有新闻中,出现词fi的新闻,归属于事件a的概率。β是阈值。
符合了以上两个条件,就可以得到了一系列的词。然后,本方法计算这些词的关键性值u(fi,a)。对于主题下的第i个词,它的关键性值是p(fi|a)和p(a|fi)的乘积:
u(fi,a)=p(fi|a)×p(a|fi),
u(fi,a)越大,则说明这个词更具有代表性。
计算得到了每一个事件的每个词的关键性值u(fi,a),然后选择值最大的k个作为新闻的关键词(本方法中,关键词的个数为5)。得到一个事件的特征向量:
KF a → = ( f 1 : u 1 , f 2 : u 2 , f 3 : u 3 , f 4 : u 4 , f 5 : u 5 ) ,
(5b)提取事件的代表性新闻。每一个事件,也就是每一个类都有很多篇新闻,演化分析时不可能分析类中每一篇新闻与其他类中新闻的关系。也没有必须这样做,因为同一个事件下新闻谈论的内容是相关的。而在绘制事件演化关系图时,通常需要用简短的文字信息表示一个事件。在目前的研究中,大部分的研究通过几个关键词来表示事件。但是这样的表示缺乏人性化考虑。本方法通过提取一个事件的代表性新闻,用于表示事件。
事件代表新闻就是事件中最能代表事件主题的某篇新闻。事件关键词能很好地代表事件,那么代表性新闻也应该是与这些事件关键词最接近的新闻。因此,本方法选择事件代表新闻的方法是利用事件的关键词在新闻文本中出现的次数。因为一个事件内的新闻可能不包含所有的事件关键词,从事件关键词的角度上看,他们代表这个主题的能力(权重)也就不一样了。因此,本方法通过计算事件中每一则新闻出现事件关键词的次数,来获得新闻的代表性权重。事件a中第s则新闻的代表性权重是:
wa,s=∑(ns,i×ui),
其中,ns,i是事件a中第i个事件关键词fi出现在新闻s中的次数,ui是第i个事件关键词对应的关键性值。然后,选择代表性权重最大的那一篇新闻作为事件的代表新闻。
所述的事件演化关系分析包括以下步骤:
(6a)协同依赖关系分析。如何判断事件间的关联关系,是研究演化关系的最关键的问题。目前大部分的研究是通过计算事件之间文本内容的相关性(采用余弦相似度)来衡量事件之间的关系,这是不合理的。本方法利用特征词协同出现的概率来衡量事件间的关系度,本方法称为协同依赖关系分析(Co-occurrence Dependence Analysis)。两个事件中,如果有某几个特征,共同出现两个事件之间,那么这两个事件很可能就是有演化关系的。而这些特征在两个事件重复出现的概率不会大到可以划分到同一个类,两个事件之间还是存在某些显著的差别。因此,本方法利用特征词协同出现的概率,来计算事件的协同依赖关系值。事件a和时间b的协同依赖关系值Cd(a,b)计算方法如下:
C d ( a , b ) = Σ f x ∈ F a → Σ f y ∈ F b → I ( f x , f y ) | F → a | × | F → b | ,
其中,是指向量的长度,也就是事件a中事件关键词的个数,fx是指向量中第x个词。I(fx,fy)就是特征词fx和fy的协同概率,具体计算方法如下:
I ( f x , f y ) = p ( f x , f y ) l o g p ( f x , f y ) p ( f x ) p ( f y ) ,
其中,p(fx,fy)是指词fx和fy共同出现的概率。
通过计算所有事件之间的协同依赖关系值,就可以一个协同依赖关系值矩阵Cd。
(6b)事件迁移关系分析。协同依赖关系可以比较好地衡量两个新闻事件之间的内容相关度。但是对于一个事件a和时间b,它们的协同依赖关系值是没有方向的,即Cd(a,b)和Cd(b,a)是一样,并不能确定事件a和b的演化方向,只能说明a和b存在一定程度上的演化关系。为了衡量事件间的演化方向,本方法利用了另一种事件演化分析方法:事件迁移关系分析。
事件迁移关系分析(Event Migration Analysis)是指分析两个事件之间的迁移关系。本方法假设:如果一个事件b多次谈及另一个事件a的关键性信息,那么事件a到事件b很可能有演化关系。那什么是事件a的关键性信息,那就是事件的事件关键词。事件a到事件b存在演化关系的话,数学上表现为:事件a的事件关键词出现在事件b的频率高,本方法用以下的公式来衡量两个事件迁移关系值:
E m ( a , b ) = Σ i = 0 N b ( w b , i × M b , i a ) | K F → a | × 1 N b ,
其中,Nb是事件b中新闻的个数。是a中关键词出现在事件b中第i则新闻的次数,wb,i是b中第i则新闻的权重系数。
(6c)时间距离关系分析。通过协同依赖关系和事件迁移关系的分析,就可以初步得到事件的演化关系。但这样的分析并不够准确,因为缺乏考虑时间因素。一般而言,存在演化关系的事件是与时间轴同向的。即如果事件a到时间b存在演化关系,那么事件a的时间早于事件b。此外,两个事件时间间隔越长,关系度就越低。基于这个假设,本方法提出加入时间距离关系分析(TimeDistance Analysis)。时间距离分析是衡量两个事件之间的时间差距,可以用衡量两则新闻时间相似度的方法来衡量两个事件时间的距离,计算公式如下所示:
T d ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是事件a中新闻的时间,以天为单位。tmax是所有事件中最大的时间差。
通过计算所有事件间的时间距离,就可以得到所有事件的时间距离矩阵Td。
(6d)构建基于新闻的事件演化关系图。本方法从三个不同角度衡量了事件之间的关系。通过基于协同依赖关系、事件迁移关系、时间距离这三方面线性结合,就可以得到两个事件之间总的关系度:
R(a,b)=l1×Cd(a,b)+l2×Er(a,b)+l3×Td(a,b),
其中,l1、l2和l3分别是是协同依赖关系、事件间依赖度和时间距离的权重值,符合l1+l2+l3=1。当符合:
C d ( a , b ) > μ E m ( a , b ) > η T d ( a , b ) > ϵ R ( a , b ) > λ ,
则认为事件a到事件b存在演化关系。
具体的算法流程如下:
输入:一系列的事件E,协同依赖度矩阵Cd,事件间关系度矩阵Em,事件间时间距离矩阵Td;
输出:事件关系时间演化图;
本发明的首要目的也可以通过下述技术方案实现:基于新闻的事件演化关系自动提取方法,包括:
(1a)新闻信息预处理:将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;
(1b)新闻导语提取:新闻导语是在新闻的开头,用几句话表达新闻的中心思想的句子。本方法提出一种新闻导语提取方法;提取新闻导语是为了提取新闻的时间以及新闻文档的关键词;
(1c)新闻事件时间提取:新闻具有明显的时间性,每一则事件新闻都有确定的发生时间点或者时间段。提取出新闻的时间,对于新闻演化分析具有重要指导作用。本方法从新闻的报导时间和事件时间入手,利用隐式时间调节显示时间,从而提取新闻的事件时间;
(1d)事件提取:事件是谈论同一件事情的新闻集合。利用文本聚类的方法,可以将零散的新闻汇聚为确定个数的话题事件。本方法通过k-means,融合LDA、TF-IDF、新闻时间等内容和方法,对新闻进行聚类,建立起新闻事件;
(1e)事件关键词提取:话题的每一个子事件都是新闻不可或缺的组成部分,是新闻演化分析的基础。为了区别不同事件间的关系,本方法提取每一个事件具有代表性的词语作为事件关键词,所述事件关键词用于区别其他事件,利用事件关键词提取出事件代表性新闻;
(1f)事件演化关系分析:本方法提出从协同依赖关系的角度、事件迁移关系的角度和时间距离的角度这三个不同的角度分析事件之间的关系,通过对分析出的事件之间的这三种关系的线性结合,得到最终的演化关系图。
在步骤(1f)中,所述事件演化关系分析包括以下步骤:
(2a)协同依赖关系分析;如何判断事件间的关联关系,是研究演化关系的最关键的问题。目前大部分的研究是通过计算事件之间文本内容的相关性(采用余弦相似度)来衡量事件之间的关系,这是不合理的。本方法利用特征词协同出现的概率来衡量事件间的关系度,即:协同依赖关系分析(Co-occurrenceDependence Analysis);在两个事件中,如果有某几个特征,共同出现两个事件之间,那么这两个事件很可能就是有演化关系的。而这些特征在两个事件重复出现的概率不会大到可以划分到同一个类,两个事件之间还是存在某些显著的差别。本方法利用特征词协同出现的概率,来计算事件的协同依赖关系的协同依赖关系值;事件a和时间b的协同依赖关系值Cd(a,b)计算方法如下:
C d ( a , b ) = Σ f x ∈ F a → Σ f y ∈ F b → I ( f x , f y ) | F → a | × | F → b | ,
其中,是指向量的长度,即是事件a中关键词的个数,fx是指向量中第x个词;I(fx,fy)就是特征词fx和fy的协同概率,具体计算方法如下:
I ( f x , f y ) = p ( f x , f y ) l o g p ( f x , f y ) p ( f x ) p ( f y ) ,
其中,p(fx,fy)是指词fx和fy共同出现的概率;
通过计算所有事件之间的协同依赖关系值,就可以得到一个协同依赖关系值矩阵Cd;
(2b)事件迁移关系分析;协同依赖关系可以比较好地衡量两个新闻事件之间的内容相关度。但是对于一个事件a和时间b,它们的协同依赖关系值是没有方向的,即Cd(a,b)和Cd(b,a)是一样,并不能确定事件a和b的演化方向,只能说明a和b存在一定程度上的演化关系。那么,如何衡量事件间的演化方向呢?那就需要采用事件迁移关系分析,衡量事件间的演化方向;
事件迁移关系分析(Event Migration Analysis)是指分析两个事件之间的迁移关系;本方法假设:如果一个事件b多次谈及另一个事件a的关键性信息,那么事件a到事件b很可能有演化关系。那什么是事件a的关键性信息,那就是事件的关键词。事件a到事件b存在演化关系的话,数学上表现为:事件a的事件关键词出现在事件b的频率高,本方法用以下的公式来衡量两个事件之间的迁移关系值:
E m ( a , b ) = Σ i = 0 N b ( w b , i × M b , i a ) | K F → a | × 1 N b ,
其中,Nb是事件b中新闻的个数,是a中关键词出现在事件b中第i则新闻的次数,wb,i是b中第i则新闻的权重系数;
通过计算所有事件关系度,就可以得到一个事件间关系度矩阵Em;基于Cd和Em的结合,就可以得到事件a和b之间的演化关系简单的分析方法:
C d ( a , b ) > μ E m ( a , b ) > η ,
其中,μ和η是阈值;当a和b的协同依赖关系值Cd(a,b)大于μ且事件迁移关系值Em(a,b)大于η,则事件a到b存在着演化关系;
(2c)时间距离关系分析;通过协同依赖关系和事件迁移关系的分析,就可以初步得到事件的演化关系。但这样的分析并不一定是准确,因为对时间因素缺乏考虑。一般而言,存在演化关系的事件是与时间轴同向的。即如果事件a到时间b存在演化关系,那么事件a的时间早于事件b。当然也有例外情况,比如事件b是讲诉时间a的背景,属于倒叙的情况,不过这种情况很少。此外,两个事件时间间隔越长,关系度就越低。基于这个假设,本方法提出加入时间距离关系分析(Time Distance Analysis)。时间距离分析是衡量两个事件之间的时间差距,可以用衡量两则新闻时间相似度的方法来衡量两个事件时间的距离,计算公式如下所示:
T d ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是事件a中新闻的时间,以天为单位,tmax是所有事件中最大的时间差;
通过计算所有事件间的时间距离,就可以得到所有事件间的时间距离矩阵Td;
(7d)构建基于新闻的事件演化关系图;本方法从三个不同角度衡量了事件之间的关系。通过基于协同依赖关系方面、事件迁移关系方面、时间距离方面这三方面的线性结合,就可以得到两个事件之间总的关系度:
R(a,b)=l1×Cd(a,b)+l2×Er(a,b)+l3×Td(a,b),
其中,l1、l2和l3分别表示协同依赖关系的权重值、事件间依赖度的权重值和时间距离的权重值,并且符合l1+l2+l3=1,当符合:
C d ( a , b ) > μ E m ( a , b ) > η T d ( a , b ) > ϵ R ( a , b ) > λ ,
则认为事件a到事件b存在演化关系。
所述事件关键词提取包括以下步骤:
(3a)提取事件的关键词;事件的关键词是事件中最有代表性的特征词。事件关键词应该具有以下两个特征:能够代表事件的主题;能够用于区分其他事件。首先,事件关键词要能够代表主题,因此提取出来的这些事件关键词在事件中必须具有较高的出现概率,出现次数太少的次不具有代表性;用数学逻辑表达为:
p(fi|a)>α,
其中,fi表示事件中第i个特征词;p(fi|a)是词fi在事件a中的所有新闻中的存在概率(词频);α是阈值;p(fi|a)可以通过以下公式计算:
p ( f i | a ) = N f i Σ k = 0 n N f k ,
其中,Nfi是词fi出现的次数。
其次,这些关键词要能够区分其他事件,从数学的角度分析,这些词出现在其他的事件的新闻文本中的概率比较低。也就是说,出现了这些事件关键词的新闻本方法很大概率属于这一个事件。用数学逻辑表达为:
p(a|fi)>β,
其中,p(a|fi)是在相关所有新闻中,出现词fi的新闻,归属于事件a的概率。β是阈值。
符合了以上两个条件,就可以得到了一系列的词。然后,本方法计算这些词的关键性值u(fi,a)。对于主题下的第i个词,它的关键性值是p(fi|a)和p(a|fi)的乘积:
u(fi,a)=p(fi|a)×p(a|fi),
u(fi,a)越大,则说明这个词更具有代表性。
计算得到了每一个事件的每个词的关键性值u(fi,a),然后选择值最大的k个词作为事件的关键词。在本方法中,事件关键词的个数为5个。得到一个事件的特征向量:
KF a → = ( f 1 : u 1 , f 2 : u 2 , f 3 : u 3 , f 4 : u 4 , f 5 : u 5 ) ,
(3b)提取事件的代表性新闻。每一个事件,也就是每一个类都有很多篇新闻,演化分析时不可能分析类中每一篇新闻与其他类中新闻的关系。也没有必须这样做,因为同一个事件下新闻谈论的内容是相关的。而在绘制演化关系图时,通常需要用简短的文字信息表示一个事件。在目前的研究中,大部分的研究通过几个关键词来表示事件。但是这样的表示缺乏人性化考虑。本方法通过提取一种事件的代表性新闻,用于表示事件。
事件代表新闻就是事件中最能代表事件主题的某篇新闻。事件关键词能很好地代表事件,那么代表性新闻也应该是与这些事件关键词最接近的新闻。因此,本方法选择事件代表新闻的方法是利用事件的关键性特征词。因为一个事件内的新闻可能不包含所有的事件关键词,从事件关键词的角度上看,他们代表这个主题的能力(权重)也就不一样了。因此,本方法通过计算事件中每一则新闻出现事件关键词的次数,来获得新闻的代表性权重。事件a中第s则新闻的代表性权重是:
wa,s=∑(ns,i×ui),
其中,ns,i是事件a中第i个事件关键词fi出现在新闻s中的次数,ui是第i个事件关键词对应的关键性值。然后,选择代表性权重最大的那一篇新闻作为事件的代表新闻。
所述事件提取包括以下步骤:
(4a)将新闻信息预处理提取的新闻特征词转化成若干个“关键词:权重”的VSM特征向量:
N i → = ( t i , 1 : f i , 1 , t i , 2 : f i , 2 , ... , t i , k : f i , k , ... , t i , n : f i , n ) ,
其中,i表示第i则新闻。ti,k是第k个关键词,它的权重是fi,k
本方法采用TF-IDF(Term Frequency–Inverse Document Frequency)词频技术计算权重值。TF-IDF用于衡量一个字词对于一个文档集中的其中一份文档的重要程度。它的主要思想是:如果某个词在一份文档中出现的频率很高(即TF很高),并且在其他文档中出现次数很少(IDF值比较低),则这个词具有较好的区分能力,适合用来代表本类。TF-IDF的计算方法如下:
TF i = n i Σ k n k
IDF i = l o g ( D D w ) ,
TF-IDFi=TFi×IDFi
其中i是第i个关键词。TFi是关键词ti在提问中的词频;ni是关键词ti在新闻中出现的次数;∑knk是所有关键词在提问中出现总次数。IDFi是关键词ti的概率分布交叉熵;D是系统所有提问的个数,Dw是出现关键词ti的提问的问题个数;
(4b)利用LDA(隐含狄利克雷分布,Latent Dirichlet Allocation)获取新闻的隐含主题的特征向量。在LDA中,文档集合中所有文档均按照一定比例共享所有的隐含主题,而隐含主题集则是由一系列相关特征词组成。本方法使用吉布斯采样求解LDA。使用吉布斯采样,能够有效、有效地从大规模文档集中抽取主题。通过LDA,可以得到新闻对应每一个topic的概率,从而把整个新闻文档集转化为隐含主题的特征向量。
d l d a → = ( w 1 : f 1 , w 2 : f 2 , ...... , w k : f k ) ,
本方法将这个向量作为衡量新闻文本的一个特征向量,然后评估两则新闻之间的文本相似度。
Sim L D A ( d i , d j ) = d i _ L D A → × d j _ L D A → | d i _ L D A → | × | d j _ L D A → | ,
(4c)计算新闻时间相似度,两个新闻文本,除了内容的差别外,还有一个重要的区分项——时间。如果两则新闻的事件时间差别太大,则属于同一事件的概率很小。本方法使用e的幂函数来衡量新闻之间的时间相似度,两则新闻a和b之间的时间相似度是:
Sim t i m e ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是新闻a的时间,时间以天为单位。本方法的时间计算都是以天为单位,忽略时、分、秒之间的差别。|ta-tb|是新闻a和b之间的时间差。tmax是所有新闻文档中最大的时间差。μ是调节参数,μ越大,时间差对结果影响越大。
(4d)计算文本之间的相似度。本方法结合新闻的时间相似度与LDA相似度、VSM向量空间的TF-IDF相似度,得到一个全新的新闻文本之间相似度:
Sim(di,dj)=k1×SimTF-IDF(di,dj)+k2×SimLDA(di,dj)+k3×SimTime
其中,k1、k2和k3是调节参数,符合k1+k2+k3=1。
(4e)利用k-means算法进行文本聚类。通过融合LDA、TF-IDF、时间,计算得出新闻之间文本相似度,就可以进行新闻聚类。聚类的方法与k-means相似,主要差别是:每一次迭代过程中,算法需要获得每个簇的时间。本方法使用这个簇中所有新闻的时间众数作为这个类的时间。聚类得到的每一个类就是一个事件。
所述新闻报道时间提取包括以下步骤:
(5a)新闻报道时间提取:在新闻报导时间一般是显式时间,可以直接在新闻的开始部分或结束部分提取出来;将提取出来的报导时间规约到年、月、日三个维度中,因为月和日是区分新闻之间时间差别的重要特征。
(5b)提取新闻的事件时间:事件时间是指新闻描述事件发生的真实时间。事件时间的提取需要利用到新闻导语,如果导语中存在完整的显式时间,那么导语所描述的时间则为事件时间。如果导语中没有完整的显式事件,就得使用时间参照关联算法。
(5c)利用时间参照关联算法提取新闻的事件时间:先定义一个基准时间。这个时间一般是包含完全信息的显示时间。如:“2008年5月12日”。然后在基准时间相关的上下文寻找相关的参照时间,这调节时间一般是隐式时间。特殊情况下,也可以是显式时间。然后将整个参照时间通过预定义的规则转化成数学逻辑表达式,修改基准时间,得到最终的显式时间。
所述新闻导语提取包括以下步骤:
(6a)如果新闻的首段只有一句话,则用首段作为导语。
(6b)如果新闻的首段有两句或两句以上的句子,则用前两句话作为导语。
所述新闻信息预处理包括以下步骤:
(7a)对于中文文本,利用分词工具对文本进行分词和标注词性,并去掉停顿词;对于英文文本,将所有单词进行词干化以得到单词原型;
(7b)对于中文文本,直接提取词性为名词或名词短语的单词作为评论文档的特征词;对于英文文本,提取词性为名词或名词短语的单词作为评论文档的特征词。
本发明的另一目的通过以下技术方案实现:一种实现基于新闻的事件演化关系自动提取方法的系统,包括:
新闻信息预处理模块:将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;
新闻导语提取模块:提取出新闻的导语;
新闻事件时间提取模块:利用新闻导语,提取出新闻的事件时间;
事件提取模块:对同一话题的新闻进行距离,建立起新闻事件。
事件关键词提取模块:提取出每一个事件的关键词和代表性新闻。
事件演化关系分析模块:协同依赖关系、事件迁移关系和时间距离三个不同的角度分析事件之间的关系。通过对三种关系的线性结合,得到最终的演化关系,并绘制演化关系图。
所述的事件演化关系分析模块具体用于:
首先,协同依赖关系分析(Co-occurrence Dependence Analysis)。协同依赖关系分析特征词协同出现的概率来衡量事件间的关系度。本发明中,事件a和事件b的协同依赖关系值Cd(a,b)计算方法如下:
C d ( a , b ) = Σ f x ∈ F a → Σ f y ∈ F b → I ( f x , f y ) | F → a | × | F → b | ,
其中,是指向量的长度,也就是事件a中事件关键词的个数,fx是指向量中第x个词。I(fx,fy)就是特征词fx和fy的协同概率,具体计算方法如下:
I ( f x , f y ) = p ( f x , f y ) l o g p ( f x , f y ) p ( f x ) p ( f y ) ,
其中,p(fx,fy)是指词fx和fy共同出现的概率。
其次,事件迁移关系分析。事件迁移关系分析(Event Migration Analysis)通过计算事件关键词在其他事件中出现的次数来分析两个事件之间的迁移关系。事件a和事件b的协同依赖关系值Em(a,b)计算方法如下:
E m ( a , b ) = Σ i = 0 N b ( w b , i × M b , i a ) | K F → a | × 1 N b ,
其中,Nb是事件b中新闻的个数。是a中关键词出现在事件b中第i则新闻的次数,wb,i是b中第i则新闻的权重系数。
然后,时间距离关系分析。时间距离分析是衡量两个事件之间的时间差距,本发明使用递减幂函数来衡量两个事件时间的距离:
T d ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是事件a中新闻的时间,以天为单位。tmax是所有事件中最大的时间差。
最后,构建基于新闻的事件演化关系图。本发明从三个不同角度衡量了事件之间的关系。通过基于协同依赖关系、事件迁移关系、时间距离这三方面有机线性融合,可以得到两个事件之间总的关系度:
R(a,b)=l1×Cd(a,b)+l2×Er(a,b)+l3×Td(a,b),
其中,l1、l2和l3分别是是协同依赖关系、事件间依赖度和时间距离的权重值,符合。当符合:
C d ( a , b ) > μ E m ( a , b ) > η T d ( a , b ) > ϵ R ( a , b ) > λ ,
则认为事件a到事件b存在演化关系。
然后依据演化结果,绘制相应的演化关系图,呈现给用户阅读。
所述的事件关键词提取模块具体用于:
提取事件的关键词,本发明从两方面考虑,首先,提取出来的这些事件关键词在事件中必须具有较高的出现概率:
p(fi|a)>α,
其中,fi表示事件中第i个特征词;p(fi|a)是词fi在事件a中的所有新闻中的存在概率(词频);α是阈值;p(fi|a)可以通过以下公式计算:
p ( f i | a ) = N f i Σ k = 0 n N f k ,
其中,Nfi是词fi出现的次数。
其次,这些词出现在其他的事件的新闻文本中的概率比较低。也就是说,出现了这些事件关键词的新闻文本很大概率属于这一个事件:
p(a|fi)>β,
其中,p(a|fi)是在相关所有新闻中,出现词fi的新闻,归属于事件a的概率。β是阈值。
符合了以上两个条件,就可以得到了一系列的词。然后计算这些词的关键性值u(fi,a)。对于主题下的第i个词,它的关键性值是p(fi|a)和p(a|fi)的乘积:
u(fi,a)=p(fi|a)×p(a|fi),
u(fi,a)大,则说明这个词更具有代表性。
计算得到了每一个事件的每个词的关键性值u(fi,a),然后选择值最大的k个作为新闻的事件关键词。本系统选择的事件关键词的个数为5个。得到一个事件的特征向量:
KF a → = ( f 1 : u 1 , f 2 : u 2 , f 3 : u 3 , f 4 : u 4 , f 5 : u 5 ) ,
对于提取事件的代表性新闻。本方法利用希望提出来的事件的关键词,用出现关键词的频率来衡量新闻的代表性:
wa,s=∑(ns,i×ui),
其中,ns,i是事件a中第i个事件关键词fi出现在新闻s中的次数,ui是第i个事件关键词对应的关键性值。然后选择代表性权重最大的那一篇新闻作为事件的代表新闻。
所述的事件提取模块具体用于:
首先,基于VSM模型,利用TF-IDF词频技术计算权重值计算特征词的权重,构建新闻的特征向量:
N i → = ( t i , 1 : f i , 1 , t i , 2 : f i , 2 , ... , t i , k : f i , k , ... , t i , n : f i , n ) ,
其中,i表示第i则新闻。ti,k是第k个关键词,它的权重是fi,k
然后用余弦定理评估两则新闻之间的文本相似度。
Sim T F - I D F ( d i , d j ) = d i _ T F - I D F → × d j _ T F - I D F → | d i _ T F - I D F → | × | d j _ T F - I D F → | ,
其次,利用LDA(隐含狄利克雷分布)获取新闻的隐含主题的特征向量。其中,本发明使用吉布斯采样求解LDA。通过LDA,可以得到新闻对应每一个topic的概率,从而把整个新闻文档集转化为隐含主题的特征向量。
d l d a → = ( w 1 : f 1 , w 2 : f 2 , ...... , w k : f k ) ,
本系统把这个向量作为衡量新闻文本的一个特征向量,然后评估两则新闻之间的文本相似度。
Sim L D A ( d i , d j ) = d i _ L D A → × d j _ L D A → | d i _ L D A → | × | d j _ L D A → | ,
再次,本发明使用e的幂函数来衡量新闻之间的时间相似度,两则新闻a和b之间的时间相似度是:
Sim t i m e ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是新闻a的时间,时间以天为单位。本方法的时间计算都是以天为单位,忽略时、分、秒之间的差别。|ta-tb|是新闻a和b之间的时间差,如:2014年3月15日与2014年4月2日之间的时间差是18天。tmax是所有新闻文档中最大的时间差。μ是调节参数,μ越大,时间差对结果影响越大。
然后,本发明结合VSM向量空间的TF-IDF相似度、LDA相似度和新闻时间相似度,得到一个全新的新闻文本之间相似度:
Sim(di,dj)=k1×SimTF-IDF(di,dj)+k2×SimLDA(di,dj)+k3×SimTime
其中,k1、k2和k3是调节参数,符合k1+k2+k3=1。
最后,本发明利用k-means算法进行文本聚类。通过融合VSM向量空间的TF-IDF相似度、LDA相似度和新闻时间相似度,计算得出新闻之间文本相似度,然后进行新闻聚类。聚类的方法与k-means相似,主要差别是:每一次迭代过程中,算法需要获得每个簇的时间。本方法使用这个簇中所有新闻的时间众数作为这个类的时间。聚类得到的每一个类就是一个事件。
所述的新闻信息预处理模块具体用于:
对于中文文本,本发明先对用分词工具对文本进行分词和标注词性,并去掉停顿词;然后提取词性为名词或名词短语的单词作为评论文档的特征词,建立新闻文本的特征向量。对于英文文本,本发明将所有单词进行词干化以得到单词原型;然后提取词性为名词或名词短语的单词作为评论文档的特征词,建立新闻文本的特征向量。
所述的新闻导语提取模块具体用于:
如果首段只有一句话,则用首段作为导语。如果首段有两个或两个以上句子,则提取前两句话作为导语。
所述的新闻事件时间提取模块具体用于:
首先,利用新闻的固有格式,从新闻的开始部分或结束部分提取新闻的报导时间。然后规约到年、月、日三个维度中。并将报导时间作为基准事件。接着,从新闻导语中寻找相关的参照时间。这调节时间一般是隐式时间,也可以是显式时间。用参照时间将整个参照时间通过预定义的规则转化成数学逻辑表达式,修改基准时间,得到最终的事件时间。
相对于现有技术,本发明具有如下的优点与有益效果:
(7a)针对新闻这种特殊文本,本发明提出了一种新闻信息预处理的方法和一种新闻导语提取方法。提取新闻导语用于提取新闻的时间,以及新闻文档的事件关键词,方便进行进一步的演化分析。
(7b)新闻具有明显的时间性,每一则事件新闻都有确定的发生时间点或者时间段。提取出新闻的时间,对于新闻演化分析具有重要指导作用。本发明提出一种新闻事件时间的提取方法,从新闻的报导时间和事件时间入手,利用隐式时间调节显示时间,从而提取新闻的事件时间;
(7c)发现事件的一个必要过程就是聚类。本发明提出一种新的发现事件的方法。通过k-means,融合LDA、TF-IDF、新闻时间等内容和方法,对新闻进行聚类,建立起新闻事件。
(7d)话题的每一个子事件都是新闻不可或缺的组成部分,是新闻演化分析的基础。为了区别不同事件间的关系,本发明提出一种事件关键词的提取方法。通过提取每一个事件具有代表性的词语,用于区别其他事件,并基于事件的关键词提取出事件的代表性新闻。
(7e)如何判断事件间的关联,是研究演化关系的关键所在。本发明提出一种新的演化分析方法。从协同依赖关系、事件迁移关系和时间距离关系三个方面衡量事件之间的关系。通过三者线性结合,得到最终的演化关系图。实践证明,本方法提出的演化算法具有一定的实用性。将它们运用于新闻演化中,能够得到更好、更准确的新闻演化图。
附图说明
图1为本发明的总体流程图。
图2为新闻话题“马航MH370”的部分事件演化图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,一种基于新闻的事件演化关系自动提取方法的总体流程图,该基于新闻的事件演化关系自动提取方法包括以下步骤:
新闻信息预处理:将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;
新闻导语提取:新闻导语是在新闻的开头,用几句话表达新闻的中心思想的句子。提取新闻导语用于提取新闻的时间,以及新闻文档的事件关键词。本发明提出一种提取新闻导语的方法;
新闻事件时间提取:新闻具有明显的时间性,每一则事件新闻都有确定的发生时间点或者时间段。提取出新闻的时间,对于新闻演化分析具有重要指导作用。本发明从新闻的报导时间和事件时间入手,利用隐式时间调节显示时间,从而提取新闻的事件时间;
事件提取:事件是谈论同一件事情的新闻集合。利用文本聚类的方法,可以将零散的新闻汇聚到确定个数的话题事件。本发明通过k-means,融合LDA、TF-IDF、新闻时间等内容和方法,对新闻进行聚类,建立起新闻事件;
事件关键词提取:话题的每一个子事件都是新闻不可或缺的组成部分,是新闻演化分析的基础。为了区别不同事件间的关系,本发明提取每一个事件具有代表性的词语,用于区别其他事件,称为事件关键词;并基于事件的关键词提取出事件的代表性新闻;
演化关系分析:本发明提出从协同依赖关系、事件迁移关系和时间距离三个不同的角度分析事件之间的关系。通过对三种关系的线性结合,得到最终的事件演化关系,并绘制相应的事件演化关系图。
下面对本发明提供的基于新闻的事件演化关系自动提取方法作详细说明:
所述的新闻信息预处理模块。对于中文文本,本发明先对用分词工具对文本进行分词和标注词性,并去掉停顿词;然后提取词性为名词或名词短语的单词作为评论文档的特征词,建立新闻文本的特征向量。对于英文文本,本发明将所有单词进行词干化以得到单词原型;然后提取词性为名词或名词短语的单词作为评论文档的特征词,建立新闻文本的特征向量。
所述的新闻导语提取模块。本发明总结了一种提取新闻导语的方法:(1)如果首段只有一句话,则用首段作为导语。(2)如果首段有两个或两个以上句子,则提取前两句话作为导语。
所述的新闻事件时间提取模块。本发明提出了一个提取新闻事件时间的方法。首先,利用新闻的固有格式,从新闻的开始部分或结束部分提取新闻的报导时间。然后规约到年、月、日三个维度中。如新闻“汶川地震发生8.0级地震”的报导时间为:{年:2008;月:5;日:13},并将报导时间作为基准事件。接着,从新闻导语中寻找相关的参照时间。这调节时间一般是隐式时间。如:“昨天下午”,也可以是显式时间:“5月12日”。用参照时间将整个参照时间通过预定义的规则转化成数学逻辑表达式,修改基准时间,得到最终的显式时间。如:“昨天”等同于“日期-1”。得到汶川地震的事件时间为:{年:2008;月:5;日;12}。
所述的事件提取模块。本发明提出了一个基于k-means,融合LDA、VSM、事件时间的事件发现(新闻聚类)方法。具体算法逻辑如下:
首先,基于VSM模型,利用TF-IDF词频技术计算权重值计算特征词的权重,构建新闻的特征向量:
N i → = ( t i , 1 : f i , 1 , t i , 2 : f i , 2 , ... , t i , k : f i , k , ... , t i , n : f i , n ) ,
其中,i表示第i则新闻。ti,k是第k个关键词,它的权重是fi,k
TF-IDF用于衡量一个字词对于一个文档集中的其中一份文档的重要程度。TF-IDF的计算方法如下:
TF i = n i Σ k n k
IDF i = l o g ( D D w ) ,
TF-IDFi=TFi×IDFi
其中i是第i个关键词。TFi是关键词ti在提问中的词频;ni是关键词ti在新闻中出现的次数;∑knk是所有关键词在提问中出现总次数。IDFi是关键词ti的概率分布交叉熵;D是系统所有提问的个数,Dw是出现关键词ti的提问的问题个数;然后可以用余弦定理评估两则新闻之间的文本相似度。
Sim T F - I D F ( d i , d j ) = d i _ T F - I D F → × d j _ T F - I D F → | d i _ T F - I D F → | × | d j _ T F - I D F → | ,
其次,利用LDA(隐含狄利克雷分布)获取新闻的隐含主题的特征向量。通过LDA,可以得到新闻对应每一个topic的概率,从而把整个新闻文档集转化为隐含主题的特征向量。
d l d a → = ( w 1 : f 1 , w 2 : f 2 , ...... , w k : f k ) ,
本发明把这个向量作为衡量新闻文本的一个特征向量,然后评估两则新闻之间的文本相似度。
Sim L D A ( d i , d j ) = d i _ L D A → × d j _ L D A → | d i _ L D A → | × | d j _ L D A → | ,
再次,本发明使用e的幂函数来衡量新闻之间的时间相似度,两则新闻a和b之间的时间相似度是:
Sim t i m e ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是新闻a的时间,时间以天为单位。本发明的时间计算都是以天为单位,忽略时、分、秒之间的差别。|ta-tb|是新闻a和b之间的时间差,如:2014年3月15日与2014年4月2日之间的时间差是18天。tmax是所有新闻文档中最大的时间差。μ是调节参数,μ越大,时间差对结果影响越大。
然后,本发明结合VSM向量空间的TF-IDF相似度、LDA相似度和新闻时间相似度,得到一个全新的新闻文本之间相似度:
Sim(di,dj)=k1×SimTF-IDF(di,dj)+k2×SimLDA(di,dj)+k3×SimTime
其中,k1、k2和k3是调节参数,符合k1+k2+k3=1。
最后,本发明利用k-means算法进行文本聚类。通过融合VSM向量空间的TF-IDF相似度、LDA相似度和新闻时间相似度,计算得出新闻之间文本相似度,然后进行新闻聚类。聚类的方法与k-means相似,主要差别是:每一次迭代过程中,算法需要获得每个簇的时间。本发明使用这个簇中所有新闻的时间众数作为这个类的时间。聚类得到的每一个类就是一个事件。
所述的事件关键词提取模块。本发明提出一种提取事件关键词的方法和一种提取事件代表性新闻的方法。对于提取事件的关键词,本发明从两方面考虑,首先,事件关键词要能够代表主题,因此提取出来的这些事件关键词在事件中必须具有较高的出现概率,出现次数太少的次不具有代表性。用数学逻辑表达为:
p(fi|a)>α,
其中,fi表示事件中第i个特征词;p(fi|a)是词fi在事件a中的所有新闻中的存在概率(词频);α是阈值;p(fi|a)可以通过以下公式计算:
p ( f i | a ) = N f i Σ k = 0 n N f k ,
其中,Nfi是词fi出现的次数。
其次,这些关键词要能够区分其他事件,从数学的角度分析,这些词出现在其他的事件的新闻文本中的概率比较低。也就是说,出现了这些事件关键词的新闻文本很大概率属于这一个事件。用数学逻辑表达为:
p(a|fi)>β,
其中,p(a|fi)是在相关所有新闻中,出现词fi的新闻,归属于事件a的概率。是阈值。
符合了以上两个条件,就可以得到了一系列的词。然后,本方法计算这些词的关键性值u(fi,a)。对于主题下的第i个词,它的关键性值是p(fi|a)和p(a|fi)的乘积:
u(fi,a)=p(fi|a)×p(a|fi),
u(fi,a)越大,则说明这个词更具有代表性。
计算得到了每一个事件的每个词的关键性值u(fi,a),然后选择值最大的k个作为事件的关键词。在本发明中,事件关键词的个数为5个。得到一个事件的特征向量:
KF a → = ( f 1 : u 1 , f 2 : u 2 , f 3 : u 3 , f 4 : u 4 , f 5 : u 5 ) ,
对于提取事件的代表性新闻。本方法利用提取出来的事件关键词,用出现关键词的频率来衡量新闻的代表性。例如:事件a中第s则新闻的代表性权重是:
wa,s=∑(ns,i×ui),
其中,ns,i是事件a中第i个事件关键词fi出现在新闻s中的次数,ui是第i个事件关键词对应的关键性值。然后,选择代表性权重最大的那一篇新闻作为事件的代表新闻。
所述的演化关系分析模块。本发明提出一种新的事件关系分析方法,从协同依赖关系、事件迁移关系和时间距离三个不同的角度分析事件之间的关系。通过对三种关系的结合,得到最终的演化关系图。
首先,协同依赖关系分析(Co-occurrence Dependence Analysis)。协同依赖关系分析特征词协同出现的概率来衡量事件间的关系度。比如话题“汶川地震”中,假设有新闻n1是“搜救部队即将抵达汶川”,新闻n2是“汶川救援部队开始救援”。n1主要是讨论搜救部队前往救援的困难,n2侧重的是部队救援的情况,因为主题内容不同,所以被分为两个事件。但这两个事件多次谈到“救援部队”、“解放军”、“救援”等词语,那么这两个事件必然存在较大的关系。从“抵达”到“开始救援”,这就是一个演化过程。本发明中,事件a和事件b的协同依赖关系值Cd(a,b)计算方法如下:
C d ( a , b ) = Σ f x ∈ F a → Σ f y ∈ F b → I ( f x , f y ) | F → a | × | F → b | ,
其中,是指向量的长度,也就是事件a中事件关键词的个数,fx是指向量中第x个词。I(fx,fy)就是特征词fx和fy的协同概率,具体计算方法如下:
I ( f x , f y ) = p ( f x , f y ) l o g p ( f x , f y ) p ( f x ) p ( f y ) ,
其中,p(fx,fy)是指词fx和fy共同出现的概率。
其次,事件迁移关系分析。事件迁移关系分析(Event Migration Analysis)通过计算事件关键词在其他事件中出现的次数来分析两个事件之间的迁移关系。假设事件a的代表新闻n1是“搜救部队即将抵达汶川”,事件b的代表新闻n2是“汶川解放军开始救灾”。n1的事件关键词是:“搜救部队”、“公路”、“救援”、“汶川”、“抵达”。n2的事件关键词是:“伤者”、“医疗队伍”、“救灾”、“解放军”、“伤亡”。在n2的正文中,多次提及“救援部队”、“公路”、“搜救”、“汶川”、“抵达”等词,那么事件a到事件b就存在着演化关系。本发明中,事件a和事件b的协同依赖关系值Em(a,b)计算方法如下:
E m ( a , b ) = Σ i = 0 N b ( w b , i × M b , i a ) | K F → a | × 1 N b ,
其中,Nb是事件b中新闻的个数。是a中关键词出现在事件b中第i则新闻的次数,wb,i是b中第i则新闻的权重系数。
然后,时间距离关系分析。一般而言,两个事件时间间隔越长,关系度就越低。基于这个假设,本方法提出加入时间距离关系分析(Time DistanceAnalysis)。时间距离分析是衡量两个事件之间的时间差距,可以用衡量两则新闻时间相似度的方法来衡量两个事件时间的距离,计算公式如下所示:
T d ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是事件a中新闻的时间,以天为单位。tmax是所有事件中最大的时间差。
最后,构建基于新闻的事件演化关系图。本方法从三个不同角度衡量了事件之间的关系。通过基于协同依赖关系、事件迁移关系、时间距离这三方面的线性结合,就可以得到两个事件之间总的关系度:
R(a,b)=l1×Cd(a,b)+l2×Er(a,b)+l3×Td(a,b),
其中,l1、l2和l3分别是是协同依赖关系、事件间依赖度和时间距离的权重值,符合l1+l2+l3=1。当符合:
C d ( a , b ) > μ E m ( a , b ) > η T d ( a , b ) > ϵ R ( a , b ) > λ ,
则认为事件a到事件b存在演化关系。
表1
本发明是为了提取出一个新闻话题的事件间关系,并以演化关系图的形式呈现出来。如图2所示,是新闻话题“马航MH370”的部分事件演化图,其中,圆圈表示话题相关的一个个事件(圆圈中各个阿拉伯数字所代表的具体事件以及该事件所对应的事件时间如上表1所示),直线表示事件间的关系。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于新闻的事件演化关系自动提取方法,其特征在于,包括:
(1a)新闻信息预处理:将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;
(1b)新闻导语提取:新闻导语是在新闻的开头,用于表达新闻的中心思想的句子;
(1c)新闻事件时间提取:新闻具有明显的时间性,每一则事件新闻都有确定的发生时间点或者时间段,提取出该新闻的发生的时间;
(1d)事件提取:事件是谈论同一件事情的新闻集合,利用文本聚类的方法,将零散的新闻汇聚为确定个数的话题事件;
(1e)事件关键词提取:提取每一个事件具有代表性的词语作为事件关键词,所述事件关键词用于区别其他事件,利用事件关键词提取出事件代表性新闻;
(1f)事件演化关系分析:从协同依赖关系的角度、事件迁移关系的角度和时间距离的角度分析事件之间的关系,通过对分析出的事件之间的关系的线性结合,得到最终的演化关系图。
2.根据权利要求1所述的基于新闻的事件演化关系自动提取方法,其特征在,在步骤(1f)中,所述事件演化关系分析包括以下步骤:
(2a)协同依赖关系分析;利用特征词协同出现的概率来衡量事件间的关系度,即:协同依赖关系分析,利用特征词协同出现的概率来计算事件的协同依赖关系的协同依赖关系值;事件a和事件b的协同依赖关系值Cd(a,b)计算方法如下:
C d ( a , b ) = Σ f x ∈ F a → Σ f y ∈ F b → I ( f x , f y ) | F → a | × | F → b | ,
其中,是事件a的特征向量,是指特征向量的长度,即:事件a中关键词的个数,fx是事件a的特征向量中第x个特征词;是事件b的特征向量,是事件b的特征向量的长度,即:事件b中关键词的个数,fy是特征向量的第y个特征词;I(fx,fy)是第x个特征词fx和第y个特征词fy的协同概率,I(fx,fy)的计算方法如下:
I ( f x , f y ) = p ( f x , f y ) l o g p ( f x , f y ) p ( f x ) p ( f y ) ,
其中,p(fx,fy)是第x个特征词fx和第y个特征词fy同时出现的概率,p(fx)和p(fy)分别表示第x个特征词fx出现的概率和第y个特征词fy出现的概率;
通过计算所有事件之间的协同依赖关系值,得到协同依赖关系值矩阵Cd;
(2b)事件迁移关系分析;采用事件迁移关系分析,衡量事件间的演化方向;
事件迁移关系分析是指分析两个事件之间的迁移关系;用以下的公式衡量两个事件之间的迁移关系值Em(a,b):
E m ( a , b ) = Σ i = 0 N b ( w b , i × M b , i a ) | K F → a | × 1 N b ,
其中,是事件a的关键特征词向量,Nb是事件b中新闻的个数,是事件a中关键词出现在事件b中的第i则新闻的次数,wb,i是事件b中第i则新闻的权重系数;
通过计算所有事件的关系度,得到事件间关系度矩阵Em;基于Cd和Em的结合,得到事件a和事件b之间的演化关系的分析方法如下:
C d ( a , b ) > μ E m ( a , b ) > η ,
其中,Em(a,b)是事件a和事件b的迁移关系值,Cd(a,b)是事件a和事件b的协同依赖关系值,μ是协同依赖关系值的阈值,η是事件迁移关系值的阈值;当事件a和事件b的协同依赖关系值Cd(a,b)大于μ且是事件a和事件b的事件迁移关系值Em(a,b)大于η时,则事件a到事件b存在演化关系;
(2c)时间距离关系分析;时间距离关系分析是衡量两个事件之间的时间差距,利用衡量两则新闻时间相似度的方法来衡量两个事件之间的时间差距,计算公式如下所示:
T d ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,Td(a,b)是两个事件之间的时间差距,ta是事件a中新闻的时间,tb是事件b中新闻的时间,ta和tb都是以天为单位,tmax是所有事件两两之间的时间差距中最大的时间差距;
通过计算所有事件两两之间的时间差距,得到所有事件间的时间差距矩阵Td;
(2d)构建基于新闻的事件演化关系图;通过协同依赖关系方面、事件迁移关系方面、时间距离方面的线性结合,得到两个事件之间总的关系度R(a,b):
R(a,b)=l1×Cd(a,b)+l2×Er(a,b)+l3×Td(a,b),
其中,l1、l2和l3分别表示协同依赖关系的权重值、事件间依赖度的权重值和时间距离的权重值,并满足l1+l2+l3=1,Cd(a,b)表示事件a和事件b的协同依赖关系值,Em(a,b)表示事件a和b的事件间依赖度,Td(a,b)表示事件a和b的时间差距,当事件a和事件b同时满足以下关系式时:
C d ( a , b ) > μ E m ( a , b ) > η T d ( a , b ) > ϵ R ( a , b ) > λ ,
则认为事件a到事件b存在演化关系;其中,μ是协同依赖关系的阈值,η是事件迁移关系值的阈值,λ是时间差距的阈值。
3.根据权利要求1所述的基于新闻的事件演化关系自动提取方法,其特征在,在步骤(1e)中,所述事件关键词提取包括以下步骤:
(3a)提取事件的关键词;提取事件的关键词的提取方法首先采用以下数学逻辑式:
p(fi|a)>α,
其中,fi表示事件中第i个特征词;p(fi|a)是事件中第i个特征词fi在事件a中的所有新闻中的存在概率,即词频;α是事件中第i个特征词fi在事件a中的所有新闻中的存在概率的阈值;p(fi|a)通过以下公式计算:
p ( f i | a ) = N f i Σ k = 0 n N f k ,
其中,Nfi是事件中第i个特征词fi出现的次数;
其次,特征词需要区分其他事件,特征词区分其他事件的区分方法采用以下数学逻辑式:
p(a|fi)>β,
其中,p(a|fi)是在所有新闻中出现事件中第i个特征词fi的新闻,归属于事件a的概率,β是事件a的概率的阈值;
获取同时满足p(fi|a)>α和p(a|fi)>β这两个式子的一系列的词,然后,计算获取到的一系列的词的关键性值u(fi,a),对于主题下的第i个词的关键性值是p(fi|a)和p(a|fi)的乘积:
u(fi,a)=p(fi|a)×p(a|fi),
其中,u(fi,a)越大,则表示这个词越具有代表性;
计算得到每一个事件的每个词的关键性值u(fi,a),并选择值最大的k个词作为事件的关键词,事件关键词的个数为5个,通过所述的5个事件关键词,得到一个事件的特征向量:
KF a → = ( f 1 : u 1 , ... , f i : u i , ... , f 5 : u 5 ) ,
其中,f1表示第1个关键词,u1是第1个关键词的关键性值,f2表示第2个关键词,u2是第2个关键词的关键性值,fi表示第i个关键词,ui是第i个关键词的关键性值;
(3b)提取事件的代表性新闻;通过提取一种事件的代表性新闻,用于表示事件,事件代表新闻即是事件中最能代表事件主题的某篇新闻,利用事件的关键性特征词选择事件代表新闻;通过计算事件中每一则新闻出现事件关键词的次数,获得新闻的代表性权重,事件a中第s则新闻的代表性权重wa,s为:
wa,s=∑(ns,i×ui),
其中,ns,i是事件a中第i个特征词fi出现在新闻s中的次数,ui是第i个事件关键词对应的关键性值,并选择代表性权重最大的那一篇新闻作为事件的代表新闻。
4.根据权利要求1所述的基于新闻的事件演化关系自动提取方法,其特征在,在步骤(1d)中,所述事件提取包括以下步骤:
(4a)将新闻信息预处理提取的新闻特征词转化成若干个“关键词:权重”的VSM特征向量
N i → = ( t i , 1 : f i , 1 , t i , 2 : f i , 2 , ... , t i , k : f i , k , ... , t i , n : f i , n ) ,
其中,i表示第i则新闻,ti,k表示第k个关键词,其中,k=1,2,……n,fi,k是ti,k的权重;
采用TF-IDF词频技术计算权重值,TF-IDF用于衡量一个字词对于一个文档集中的其中一份文档的重要程度,TF-IDF的计算方法如下:
TF i = n i Σ k n k
IDF i = l o g ( D D w ) ,
TF-IDFi=TFi×IDFi
其中,i是第i个关键词,TFi是关键词ti在提问中的词频;ni是关键词ti在新闻中出现的次数;∑knk是所有关键词在提问中出现总次数,IDFi是关键词ti的概率分布交叉熵;TF-IDFi是词i在新闻文档集中的重要程度,D是系统所有提问的个数,Dw是出现针对关键词ti提问的问题个数;
(4b)利用LDA获取新闻的隐含主题的特征向量,使用吉布斯采样求解LDA,通过LDA得到新闻对应每一个topic的概率,从而把整个新闻文档集转化为隐含主题的特征向量
d l d a → = ( w 1 : f 1 , w 2 : f 2 , ...... , w k : f k ) ,
其中,w1是第1个特性词,f1是第1个特性词对应的权重,w2是第2个特性词,f2是第2个特性词对应的权重,wk是第k个特性词,fk是第k个特性词对应的权重;
将所述隐含主题的特征向量作为衡量新闻文本的一个特征向量,然后评估两则新闻之间的文本相似度SimLDA(di,dj):
Sim L D A ( d i , d j ) = d i _ L D A → × d j _ L D A → | d i _ L D A → | × | d j _ L D A → | ;
其中,是第i个向量,是第i个向量的长度,是第j个向量,是第j个向量的长度;
(4c)计算新闻时间相似度;使用e的幂函数来衡量新闻之间的时间相似度,新闻a和新闻b这两则新闻之间的时间相似度的计算公式如下:
Sim t i m e ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是新闻a的时间,tb是新闻b的时间,ta和tb都是以天为单位;|ta-tb|是新闻a和新闻b之间的时间差,tmax是所有新闻文档中两两之间时间差的最大值,μ是调节参数,μ越大,表示时间差对结果影响越大;
(4d)计算文本之间的相似度;结合新闻的时间相似度与LDA相似度、VSM向量空间的TF-IDF相似度,得到全新的新闻文本之间相似度:
Sim(di,dj)=k1×SimTF-IDF(di,dj)+k2×SimLDA(di,dj)+k3×SimTime
其中,Sim(di,dj)是新闻di和新闻dj的相似度,SimTF-IDF(di,dj)是新闻di和新闻dj的TF-IDF相似度,SimLDA(di,dj)是新闻di和新闻dj的LDA相似度,SimTime是新闻di和新闻dj的时间相似度,k1、k2和k3均是调节参数且符合k1+k2+k3=1;
(4e)利用k-means算法进行文本聚类;通过融合LDA、TF-IDF和时间,计算得出新闻之间文本相似度,即可进行新闻聚类,所述新闻聚类得到的每一个类就是一个事件。
5.根据权利要求1所述的基于新闻的事件演化关系自动提取方法,其特征在,在步骤(1c)中,所述新闻事件时间提取包括以下步骤:
(5a)新闻报道时间提取:在新闻的开始部分或结束部分提取出新闻报道时间,并将将提取出来的新闻报道时间规约为年维度、月维度和日维度中;
(5b)提取新闻的事件时间:事件时间是指新闻描述事件发生的真实时间,利用新闻导语提取事件时间;如果新闻导语中存在完整的显式时间,则新闻导语所描述的时间则为事件时间,否则,利用时间参照关联算法提取事件时间;
利用所述时间参照关联算法提取事件时间的方法为:定义基准时间,所述基准时间包含完全信息的显示时间;在基准时间相关的上下文寻找相关的参照时间,并将整个参照时间通过预定义的规则转化成数学逻辑表达式,以修改基准时间,从而得到最终的显式时间。
6.根据权利要求1所述的基于新闻的事件演化关系自动提取方法,其特征在,在步骤(1b)中,所述新闻导语提取包括以下步骤:
(6a)判断新闻的首段话是否只有一句话;如果是只有一句话,则用首段作为新闻导语;否则,执行步骤(6b);
(6b)用前两句话作为新闻导语。
7.根据权利要求1所述的基于新闻的事件演化关系自动提取方法,其特征在,在步骤(1a)中,所述新闻信息预处理包括以下步骤:
(7a)对于中文文本,利用分词工具对文本进行分词和标注词性,并去掉停顿词;对于英文文本,将所有单词进行词干化以得到单词原型;
(7b)对于中文文本,直接提取词性为名词或名词短语的单词作为评论文档的特征词;对于英文文本,提取词性为名词或名词短语的单词作为评论文档的特征词。
8.一种实现权利要求1所述的基于新闻的事件演化关系自动提取方法的系统,其特征在于,包括:
新闻信息预处理模块:用于将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;
新闻导语提取模块:用于提取新闻导语;
新闻事件时间提取模块:用于利用新闻导语提取出新闻的事件时间;
事件提取模块:用于对同一话题的新闻进行距离建立起新闻事件;
事件关键词提取模块:用于提取出每一个事件的关键词和代表性新闻;
事件演化关系分析模块:用于协同依赖关系的角度、事件迁移关系的角度和时间距离的角度分析事件之间的关系,并通过对事件之间的关系的线性结合,得到最终的演化关系,并绘制演化关系图。
9.根据权利要求8所述的基于新闻的事件演化关系自动提取方法的系统,其特征在,所述的事件演化关系分析模块:
用于协同依赖关系分析;协同依赖关系分析通过特征词协同出现的概率来衡量事件间的关系度,事件a和事件b的协同依赖关系值Cd(a,b)计算方法如下:
C d ( a , b ) = Σ f x ∈ F a → Σ f y ∈ F b → I ( f x , f y ) | F → a | × | F → b | ,
其中,是指向量的长度,也就是事件a中事件关键词的个数,fx是指向量中第x个词,I(fx,fy)就是特征词fx和fy的协同概率,计算方法如下:
I ( f x , f y ) = p ( f x , f y ) l o g p ( f x , f y ) p ( f x ) p ( f y ) ,
其中,p(fx,fy)是指词fx和fy共同出现的概率;
用于事件迁移关系分析;事件迁移关系分析通过计算事件关键词在其他事件中出现的次数来分析两个事件之间的迁移关系,事件a和事件b的协同依赖关系值Em(a,b)计算方法如下:
E m ( a , b ) = Σ i = 0 N b ( w b , i × M b , i a ) | K F → a | × 1 N b ,
其中,Nb是事件b中新闻的个数,是a中关键词出现在事件b中第i则新闻的次数,wb,i是b中第i则新闻的权重系数;
用于时间距离关系分析;时间距离分析是衡量两个事件之间的时间差距,使用递减幂函数来衡量两个事件时间的距离:
T d ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是事件a中新闻的时间,以天为单位,tmax是所有事件中最大的时间差;
用于构建基于新闻的事件演化关系图;通过基于协同依赖关系方面、事件迁移关系方面和时间距离方面的有机线性融合,得到两个事件之间总的关系度:
R(a,b)=l1×Cd(a,b)+l2×Er(a,b)+l3×Td(a,b),
其中,l1、l2和l3分别是是协同依赖关系的权重值、事件间依赖度的权重值和时间距离的权重值,当事件a到事件b同时满足下式时:
C d ( a , b ) > μ E m ( a , b ) > η T d ( a , b ) > ϵ R ( a , b ) > λ ,
则认为事件a到事件b存在演化关系;
用于依据演化结果绘制相应的演化关系图,并呈现给用户阅读。
10.根据权利要求8所述的基于新闻的事件演化关系自动提取方法的系统,其特征在,所述的事件关键词提取模块:
用于提取事件的关键词,提取出的事件的关键词在事件中具有满足下式的出现概率:
p(fi|a)>α,
其中,fi表示事件中第i个特征词;p(fi|a)是词fi在事件a中的所有新闻中的存在概率;α是阈值;p(fi|a)通过以下公式计算:
p ( f i | a ) = N f i Σ k = 0 n N f k ,
其中,Nfi是词fi出现的次数;
所述提取事件的关键词出现在其他的事件的新闻文本中具有满足下式的出现概率:
p(a|fi)>β,
其中,p(a|fi)是在相关所有新闻中,出现词fi的新闻,归属于事件a的概率,β是阈值;
获取同时满足p(fi|a)>α和p(a|fi)>β的一系列的词,然后计算所述一系列的词的关键性值u(fi,a),对于主题下的第i个词的关键性值是p(fi|a)和p(a|fi)的乘积:
u(fi,a)=p(fi|a)×p(a|fi),
其中,u(fi,a)越大,则说明这个词越具有代表性;
计算得到了每一个事件的每个词的关键性值u(fi,a),然后选择值最大的k个词作为新闻的事件关键词,所述的事件关键词的个数为5个,通过5个所述的事件关键词,得到一个事件的特征向量:
KF a → = ( f 1 : u 1 , f 2 : u 2 , f 3 : u 3 , f 4 : u 4 , f 5 : u 5 ) ,
用于提取事件的代表性新闻,用出现关键词的频率来衡量新闻的代表性:
wa,s=∑(ns,i×ui),
其中,ns,i是事件a中第i个事件关键词fi出现在新闻s中的次数,ui是第i个事件关键词对应的关键性值,然后选择代表性权重最大的那一篇新闻作为事件的代表新闻;
所述的事件提取模块:
用于构建新闻的特征向量;基于VSM模型,利用TF-IDF词频技术计算权重值计算特征词的权重,以构建新闻的特征向量:
N i → = ( t i , 1 : f i , 1 , t i , 2 : f i , 2 , ... , t i , k : f i , k , ... , t i , n : f i , n ) ,
其中,i表示第i则新闻,ti,k是第k个关键词,ti,k的权重是fi,k
用余弦定理评估两则新闻之间的文本相似度:
Sim T F - I D F ( d i , d j ) = d i _ T F - I D F → × d j _ T F - I D F → | d i _ T F - I D F → | × | d j _ T F - I D F → | ,
其中,SimTF-IDF(di,dj)是新闻di和新闻dj的TF-IDF相似度,是新闻di的特征向量,是新闻di的特征向量长度,是新闻dj的特征向量,是新闻dj的特征向量长度;
利用LDA获取新闻的隐含主题的特征向量,使用吉布斯采样求解LDA,通过LDA得到新闻对应每一个topic的概率,从而把整个新闻文档集转化为隐含主题的特征向量:
d l d a → = ( w 1 : f 1 , w 2 : f 2 , ...... , w k : f k ) ,
把所述隐含主题的特征向量作为衡量新闻文本的一个特征向量,以评估两则新闻之间的文本相似度;
Sim L D A ( d i , d j ) = d i _ L D A → × d j _ L D A → | d i _ L D A → | × | d j _ L D A → | ;
使用e的幂函数来衡量两则新闻之间的时间相似度,新闻a和新闻b之间的时间相似度是:
Sim t i m e ( a , b ) = e ( - μ × | t a - t b | t max ) ,
其中,ta是新闻a的时间,时间以天为单位,|ta-tb|是新闻a和b之间的时间差,tmax是所有新闻文档中最大的时间差,μ是调节参数,μ越大,表示时间差对结果的影响越大;
结合VSM向量空间的TF-IDF相似度、LDA相似度和新闻时间相似度,得到一个全新的新闻文本之间相似度:
Sim(di,dj)=k1×SimTF-IDF(di,dj)+k2×SimLDA(di,dj)+k3×SimTime
其中,k1、k2和k3均是调节参数,并满足符合k1+k2+k3=1;
利用k-means算法进行文本聚类,通过融合VSM向量空间的TF-IDF相似度、LDA相似度和新闻时间相似度,计算得出新闻之间文本相似度,并进行新闻聚类,所述新闻聚类得到的每一个类就是一个事件;
所述的新闻信息预处理模块:
对于中文文本,先对用分词工具对文本进行分词和标注词性,并去掉停顿词;然后提取词性为名词或名词短语的单词作为评论文档的特征词,建立新闻文本的特征向量,对于英文文本,将所有单词进行词干化以得到单词原型;然后提取词性为名词或名词短语的单词作为评论文档的特征词,建立新闻文本的特征向量;
所述的新闻导语提取模块用于:
判断首段是否只有一句话,如果首段是只有一句话,则用首段作为导语,否则,提取前两句话作为导语;
所述的新闻事件时间提取模块用于:
利用新闻的固有格式,从新闻的开始部分或结束部分提取新闻的报导时间,然后规约到年维度、月维度和日维度,并将报导时间作为基准事件,从新闻导语中寻找相关的参照时间,用参照时间将整个参照时间通过预定义的规则转化成数学逻辑表达式,并修改基准时间,以得到最终的事件时间。
CN201510372236.2A 2015-06-29 2015-06-29 基于新闻的事件演化关系自动提取方法及其系统 Active CN104915446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510372236.2A CN104915446B (zh) 2015-06-29 2015-06-29 基于新闻的事件演化关系自动提取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510372236.2A CN104915446B (zh) 2015-06-29 2015-06-29 基于新闻的事件演化关系自动提取方法及其系统

Publications (2)

Publication Number Publication Date
CN104915446A true CN104915446A (zh) 2015-09-16
CN104915446B CN104915446B (zh) 2019-01-29

Family

ID=54084509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510372236.2A Active CN104915446B (zh) 2015-06-29 2015-06-29 基于新闻的事件演化关系自动提取方法及其系统

Country Status (1)

Country Link
CN (1) CN104915446B (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法
CN105760546A (zh) * 2016-03-16 2016-07-13 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105760965A (zh) * 2016-03-15 2016-07-13 北京百度网讯科技有限公司 预估模型参数的训练方法、服务质量预估方法及对应装置
CN105787095A (zh) * 2016-03-16 2016-07-20 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106202563A (zh) * 2016-08-02 2016-12-07 西南石油大学 一种实时关联事件新闻推荐方法及系统
CN106776841A (zh) * 2016-11-28 2017-05-31 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN106886782A (zh) * 2017-01-16 2017-06-23 浙江大学 融合运动和生理传感数据的层次化复杂活动识别方法
CN106991284A (zh) * 2017-03-31 2017-07-28 南华大学 智能育儿知识服务方法及系统
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN107615268A (zh) * 2015-03-10 2018-01-19 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN107632976A (zh) * 2017-09-08 2018-01-26 华南理工大学 一种实验电路问题脉络图的生成方法及装置
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN107832418A (zh) * 2017-11-08 2018-03-23 郑州云海信息技术有限公司 一种热点话题发现方法、系统及一种热点话题发现设备
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108829699A (zh) * 2018-04-19 2018-11-16 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN109033133A (zh) * 2018-06-01 2018-12-18 杭州电子科技大学 基于特征项权重增长趋势的事件检测与跟踪方法
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
WO2019047849A1 (zh) * 2017-09-05 2019-03-14 腾讯科技(深圳)有限公司 新闻处理方法、装置、存储介质及计算机设备
WO2019136920A1 (zh) * 2018-01-12 2019-07-18 平安科技(深圳)有限公司 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN110246064A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 一种事实关系确定方法及装置
CN110309312A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种关联事件获取方法及装置
CN110516166A (zh) * 2019-08-30 2019-11-29 北京明略软件系统有限公司 舆情事件处理方法、装置、处理设备及存储介质
CN110555108A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 事件脉络生成方法、装置、设备及存储介质
CN110705255A (zh) * 2019-10-12 2020-01-17 京东数字科技控股有限公司 检测语句之间的关联关系的方法和装置
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110781317A (zh) * 2019-10-29 2020-02-11 北京明略软件系统有限公司 事件图谱的构建方法、装置及电子设备
CN111125520A (zh) * 2019-12-11 2020-05-08 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN111125429A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 一种视频推送方法、装置和计算机可读存储介质
CN111382276A (zh) * 2018-12-29 2020-07-07 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN111444347A (zh) * 2019-01-16 2020-07-24 清华大学 事件演化关系分析方法及装置
CN111506734A (zh) * 2019-01-30 2020-08-07 国家计算机网络与信息安全管理中心 一种事件演化知识图谱构建方法、装置、设备及存储介质
CN111611409A (zh) * 2020-06-17 2020-09-01 中国人民解放军国防科技大学 一种融入场景知识的事例分析方法及相关设备
CN112052990A (zh) * 2020-08-21 2020-12-08 杭州电子科技大学 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
CN112883733A (zh) * 2020-12-09 2021-06-01 成都中科大旗软件股份有限公司 基于文本实体提取快速构建事件关系的分析方法
CN113468321A (zh) * 2021-09-01 2021-10-01 江苏金陵科技集团有限公司 一种基于大数据的事件聚合分析方法和系统
US11436287B2 (en) 2020-12-07 2022-09-06 International Business Machines Corporation Computerized grouping of news articles by activity and associated phase of focus
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN118133812A (zh) * 2024-04-30 2024-06-04 卓世智星(天津)科技有限公司 一种基于大语言模型的信息分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270336A1 (en) * 2004-06-30 2008-10-30 Northrop Grumman Corporation System and method for the automated discovery of unknown unknowns
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270336A1 (en) * 2004-06-30 2008-10-30 Northrop Grumman Corporation System and method for the automated discovery of unknown unknowns
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仲兆满 等: "一种高效的Web新闻发表时间提取方法", 《小型微型计算机系统》 *
王巍: "基于关键词和时间点的网络话题演化分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107615268B (zh) * 2015-03-10 2021-08-24 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN107615268A (zh) * 2015-03-10 2018-01-19 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法
CN105760965A (zh) * 2016-03-15 2016-07-13 北京百度网讯科技有限公司 预估模型参数的训练方法、服务质量预估方法及对应装置
CN105760546A (zh) * 2016-03-16 2016-07-13 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105787095A (zh) * 2016-03-16 2016-07-20 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN105760546B (zh) * 2016-03-16 2019-07-30 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105787095B (zh) * 2016-03-16 2019-09-27 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106156299B (zh) * 2016-06-29 2019-09-20 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106202487B (zh) * 2016-07-19 2019-06-21 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106202563A (zh) * 2016-08-02 2016-12-07 西南石油大学 一种实时关联事件新闻推荐方法及系统
CN106776841A (zh) * 2016-11-28 2017-05-31 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN106886782A (zh) * 2017-01-16 2017-06-23 浙江大学 融合运动和生理传感数据的层次化复杂活动识别方法
CN106886782B (zh) * 2017-01-16 2019-05-31 浙江大学 融合运动和生理传感数据的层次化复杂活动识别方法
CN106991284A (zh) * 2017-03-31 2017-07-28 南华大学 智能育儿知识服务方法及系统
CN106991284B (zh) * 2017-03-31 2019-12-31 南华大学 智能育儿知识服务方法及系统
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
WO2019047849A1 (zh) * 2017-09-05 2019-03-14 腾讯科技(深圳)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN110020104B (zh) * 2017-09-05 2023-04-07 腾讯科技(北京)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN110020104A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN107632976B (zh) * 2017-09-08 2020-02-21 华南理工大学 一种实验电路问题脉络图的生成方法及装置
CN107632976A (zh) * 2017-09-08 2018-01-26 华南理工大学 一种实验电路问题脉络图的生成方法及装置
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN107832418A (zh) * 2017-11-08 2018-03-23 郑州云海信息技术有限公司 一种热点话题发现方法、系统及一种热点话题发现设备
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法
WO2019136920A1 (zh) * 2018-01-12 2019-07-18 平安科技(深圳)有限公司 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN110309312A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种关联事件获取方法及装置
CN110246064A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 一种事实关系确定方法及装置
CN110246064B (zh) * 2018-03-09 2021-11-23 北京国双科技有限公司 一种事实关系确定方法及装置
CN108829699A (zh) * 2018-04-19 2018-11-16 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN108829699B (zh) * 2018-04-19 2021-05-25 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN110555108A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 事件脉络生成方法、装置、设备及存储介质
CN109033133A (zh) * 2018-06-01 2018-12-18 杭州电子科技大学 基于特征项权重增长趋势的事件检测与跟踪方法
CN111382276B (zh) * 2018-12-29 2023-06-20 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN111382276A (zh) * 2018-12-29 2020-07-07 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN111444347A (zh) * 2019-01-16 2020-07-24 清华大学 事件演化关系分析方法及装置
CN111506734A (zh) * 2019-01-30 2020-08-07 国家计算机网络与信息安全管理中心 一种事件演化知识图谱构建方法、装置、设备及存储介质
CN110516166A (zh) * 2019-08-30 2019-11-29 北京明略软件系统有限公司 舆情事件处理方法、装置、处理设备及存储介质
CN110705255B (zh) * 2019-10-12 2021-05-25 京东数字科技控股有限公司 检测语句之间的关联关系的方法和装置
CN110705255A (zh) * 2019-10-12 2020-01-17 京东数字科技控股有限公司 检测语句之间的关联关系的方法和装置
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110737819B (zh) * 2019-10-16 2022-09-16 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110781317B (zh) * 2019-10-29 2022-03-01 北京明略软件系统有限公司 事件图谱的构建方法、装置及电子设备
CN110781317A (zh) * 2019-10-29 2020-02-11 北京明略软件系统有限公司 事件图谱的构建方法、装置及电子设备
CN111125520B (zh) * 2019-12-11 2023-04-21 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN111125520A (zh) * 2019-12-11 2020-05-08 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN111125429A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 一种视频推送方法、装置和计算机可读存储介质
CN111125429B (zh) * 2019-12-20 2023-05-30 腾讯科技(深圳)有限公司 一种视频推送方法、装置和计算机可读存储介质
CN111611409A (zh) * 2020-06-17 2020-09-01 中国人民解放军国防科技大学 一种融入场景知识的事例分析方法及相关设备
CN112052990A (zh) * 2020-08-21 2020-12-08 杭州电子科技大学 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
US11436287B2 (en) 2020-12-07 2022-09-06 International Business Machines Corporation Computerized grouping of news articles by activity and associated phase of focus
CN112883733A (zh) * 2020-12-09 2021-06-01 成都中科大旗软件股份有限公司 基于文本实体提取快速构建事件关系的分析方法
CN113468321B (zh) * 2021-09-01 2022-01-04 江苏金陵科技集团有限公司 一种基于大数据的事件聚合分析方法和系统
CN113468321A (zh) * 2021-09-01 2021-10-01 江苏金陵科技集团有限公司 一种基于大数据的事件聚合分析方法和系统
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN117435697B (zh) * 2023-12-21 2024-03-22 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN118133812A (zh) * 2024-04-30 2024-06-04 卓世智星(天津)科技有限公司 一种基于大语言模型的信息分析方法及系统

Also Published As

Publication number Publication date
CN104915446B (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN104915446A (zh) 基于新闻的事件演化关系自动提取方法及其系统
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
Torres-Moreno Automatic text summarization
CN102937960B (zh) 突发事件热点话题的识别与评估装置
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
Mottaghinia et al. A review of approaches for topic detection in Twitter
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN102663139A (zh) 一种情感词典构建方法及系统
Huang et al. Comparative news summarization using linear programming
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
CN103246728A (zh) 一种基于文档词汇特征变化的突发事件检测方法
Helal et al. Topic modelling in bangla language: An lda approach to optimize topics and news classification
Campbell et al. Content+ context networks for user classification in twitter
Zhao et al. Towards events detection from microblog messages
CN110019814A (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
Ma et al. Topic-based automatic summarization algorithm for Chinese short text
Gupta et al. Document summarisation based on sentence ranking using vector space model
Agrawal et al. Enrichment and reductionism: Two approaches for web query classification
US10176176B2 (en) Assistance for video content searches over a communication network
Arnfield Enhanced Content-Based Fake News Detection Methods with Context-Labeled News Sources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant