CN111444347A - 事件演化关系分析方法及装置 - Google Patents
事件演化关系分析方法及装置 Download PDFInfo
- Publication number
- CN111444347A CN111444347A CN201910038942.1A CN201910038942A CN111444347A CN 111444347 A CN111444347 A CN 111444347A CN 201910038942 A CN201910038942 A CN 201910038942A CN 111444347 A CN111444347 A CN 111444347A
- Authority
- CN
- China
- Prior art keywords
- event
- evolution
- events
- changed
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种事件演化关系分析方法及装置,所述方法包括:对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。本发明实施例提供的事件演化关系分析方法及装置,利用新闻事件的实体、关键词等事件要素对事件的演化关系进行分析,得到了事件之间的动态关系,解决了已有分析方法只描述事件内部的静态关系的问题,使用户能够迅速掌握事件全局信息以及演化的脉络,对事件的发展趋势的判断具有重要意义。
Description
技术领域
本发明实施例涉及计算机技术领域,更具体地,涉及一种事件演化关系分析方法及装置。
背景技术
事件演化分析主要是根据事件内的新闻报道分析找出事件的发展脉络,描述事件的发展演化趋势。新闻事件是动态发展的,新闻事件的主旨会随着时间的推移发生偏移。新闻分析不能将事件孤立起来,仅仅关注某一事件,而是应该关注事件的整体发展脉络。如果仅仅将新闻文档按照事件进行组织,则无法体现新闻事件之间动态发展变化的关系。如“汶川地震”发生时,主要关注地震以及伤亡的情况,随着时间的推移主要关注救援情况以及群众生活情况,再随着时间的推移可能关注灾后的重建工作等。
已有的事件演化分析工作主要集中在事件结构的分析上,如事件随时间发生“产生”、“分裂”、“合并”、“消失”等关系,对事件主旨随着时间偏移程度的分析较少。已有分析方法只描述事件内部的静态关系,无法体现事件在演化过程中主旨随着时间的偏移程度,无法反映事件之间的语义相关性。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的事件演化关系分析方法及装置。
第一方面,本发明实施例提供一种事件演化关系分析方法,包括:
对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;
基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
第二方面,本发明实施例提供一种事件演化关系分析装置,包括:
要素抽取模块,用于对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;
演化分析模块,用于基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的事件演化关系分析方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的事件演化关系分析方法的步骤。
本发明实施例提供的事件演化关系分析方法及装置,利用新闻事件的实体、关键词等事件要素对事件的演化关系进行分析,得到了事件之间的动态关系,解决了已有分析方法只描述事件内部的静态关系,使用户能够迅速掌握事件全局信息以及演化的脉络,对事件的发展趋势的判断具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的事件演化关系分析方法的流程示意图;
图2为本发明实施例提供的对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合的步骤的流程示意图;
图3为本发明实施例提供的基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果的步骤的流程示意图;
图4为本发明实施例提供的事件演化关系分析装置的结构示意图;
图5为本发明实施例提供的事件演化关系脉络的示意图;
图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,在此先对本实施例及后续实施例中可能涉及到的相关概念进行解释说明。本发明给出事件演化的相关概念定义,并对事件演化的问题进行形式化描述:
事件(Event),定义为发生在特定的时间、地点由某些原因、条件引起的涉及到某些对象的事情。其形式化定义可表示为E={D1,D2,……,Di},其中E表示事件,Di表示报道该事件的一系列新闻文档。
话题(topic),定义为由一个核心事件或活动以及与之相关或由其引起的一系列事件或活动组成的集合。其形式化定义可表示为T={E1,E2……,Ei},其中T表示该话题,Ei表示与该话题相关的一系列事件或活动。
以“汶川地震”为例。在地震初期,新闻集中于对震源描述以及人员伤亡情况等方面的报道,随着时间的发展后续可能更关注救援情况以及群众安置工作,最后可能是针对灾后重建的相关报道。本发明实施例将针对“汶川地震”不同方面的具体报道称为事件,如地震描述、伤亡统计、救援工作、群众安置以及灾后重建等活动。“汶川地震”是由核心事件地震与一系列的相关事件如救援、安置、重建等事件所组成,本发明实施例将其称为话题。
主题(subject),定义为由一系列相似或相关话题或活动组成的集合。其形式化定义S={T1,T2,……,Ti},其中S表示该主题,Ti表示该主题下的一系列相关或相似话题。
同样以“汶川地震”为例,与“汶川地震”相似的话题有“玉树地震”、“鲁甸地震”等。“汶川地震”、“鲁甸地震”以及“玉树地震”等话题共同组成了地震主题。
本发明实施例根据输入事件的时间先后顺序,将ti时间片的事件Ei(以事件Ei为研究对象,称事件Ei为本事件)与上一时间片ti-1的事件Ej(称事件Ej为事件Ei的父事件)存在着相关性,本发明实施例主要针对该类事件之间存在的相关性进行深入研究。
事件演化关系的分析就是研究随着时间的发展本事件与父事件以及更上一层事件之间的关系。通过分析事件的演化过程,本发明实施例定义了四种演化关系:同一事件、同一话题、同一主题和非同一主题。
同一事件:本事件与父事件为同一事件,事件的中心未发生偏移。
例如,本事件与父事件描述的均为地震造成的伤亡情况。因此,本事件与父事件的演化关系为同一事件。
同一话题:随着时间的推移,事件中心发生了偏移,本事件与父事件非同一事件,但仍然属于同一话题下的不同侧面事件。
例如,父事件为震源描述,本事件为地震造成的伤亡情况,本事件与父事件描述的为不同的事件,但震源描述事件与伤亡情况事件均属于“汶川地震”话题下的不同侧面的事件。因此,本事件与父事件的演化关系为同一话题。
同一主题:随着时间的推移,事件中心发生了较大的偏移,本事件与父事件既非同一事件也非同一话题,但仍然属于同一主题下的事件。
例如,本事件为汶川地震的救援,父事件为玉树地震救援。本事件属于“汶川地震”话题下的事件,而父事件属于“玉树地震”话题下的事件,二者属于不同的话题,但是二者均属于地震主题下的事件。因此,本事件与父事件的演化关系为同一主题。
非同一主题:随着时间的推移,事件中心发生了很大的偏移,虽然事件具有一定的相似性,但本事件与父事件描述内容为非同一事件、非同一话题也非同一主题的内容。
例如,本事件为汶川地震伤亡情况,而父事件为交通事故伤亡情况。事件均为对人员伤亡的相关报道,事件之间具有一定的相似性,但是事件描述的具体内容相差较大,本事件与父事件既非同一话题也非同一主题。因此,本事件与父事件的演化关系为非同一主题。
图1为本发明实施例提供的事件演化关系分析方法的流程示意图,如图所示,包括:
步骤100、对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;
可以理解的是,根据输入的两个事件的时间先后顺序,将ti时间片的事件Ei称为本事件,将上一时间片ti-1的事件Ej称为事件Ei的父事件,本发明实施例的目的是对本事件与父事件之间的演化关系进行分析。
事件要素能够反映事件的核心内容,其中,关键词可以表示事件的主旨,实体可以反映事件的人物、地点以及组织机构等核心内容。因此,本发明实施例以关键词以及实体作为主要分析对象,可以理解为,事件要素包括事件的关键词和实体,对输入的两个事件分别进行事件要素的抽取也即对输入的两个事件进行关键词和实体的抽取。
如图2所示,所述步骤100具体为:
步骤101、对事件内的新闻文档进行预处理,将非结构化的文本数据转化为结构化的文本数据;
文本数据的处理与传统数据的处理的一个重要的区别是文本数据为非结构化的数据,所以在进行文本数据信息挖掘之前,需要进行文本数据的预处理,将非结构化的文本数据转化为一种结构化的数据表示形式,并且此结构化的数据能够充分体现所表示文本数据对象自身的特点及文档之间的差异。
其中,所述对事件内的新闻文档进行预处理,将非结构化的文本数据转化为结构化的文本数据的步骤,具体为:
利用自然语言处理工具对事件内的新闻文档进行分词和词性标注;
利用预先构建的停用词词典对经过分词和词性标注处理后的新闻文档进行过滤,去除信息含量较低的词语。
本发明实施例利用常用的自然语言处理工具对事件内的新闻文档进行分词和词性标注。
新闻文档中通常会包含一些信息含量较低的高频词,本发明实施例通过构建停用词词典对该类词进行过滤,去除信息含量较低的词汇,保留对文档语义起重要作用的词。
步骤102、计算所述结构化的文本数据中各分词的TF-IDF值,选取TF-IDF值较大的前N个非实体分词组成事件的关键词集合,选取TF-IDF值较大的前N个实体分词组成事件的实体集合,所述关键词集合和实体集合构成了事件要素集合。
TF-IDF值反映分词在事件中的重要性,TF-IDF值的定义如下:
其中,tf(d,t)为词t在文档d中的出现次数,|D|为事件内的总文档数,|Dt|为事件内的所有文档中出现词t的文档数。
本发明实施例根据词性标注选取TF-IDF值较大的前N个非实体分词,作为事件的关键词集合,选取TF-IDF值较大的前N个实体分词,作为事件的实体集合,其中,N为大于1的自然数。
步骤200、基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
事件演化分析的关键在于事件演化过程中的特征选取、偏移度量,分析所选取的特征随着时间推移的变化量,获得事件的演化关系,从而得到事件的整体发展脉络和趋势。
如图3所示,所述步骤200具体为:
步骤201、基于所述事件要素集合提取事件要素的变化情况作为用于分析所述两个事件之间演化关系的演化特征。
具体地,所述两个事件包括本事件和父事件,分析所述本事件的关键词集合ki相对于所述父事件的关键词集合kj的变化情况,获取变化的关键词集合k;
分析所述本事件的实体集合ei相对于所述父事件的实体集合ej的变化情况,获得变化的实体集合e;
相应地,所述用于分析所述两个事件之间演化关系的演化特征的类型具体包括:变化的关键词的数量、变化的关键词的重要性、变化的关键词的语义相关度、变化的实体的数量和变化的实体的重要性。
事件要素中,本发明实施例主要以关键词以及实体作为主要分析对象,选取变化的关键词的数量、变化的关键词的重要性、变化的关键词的语义相关度、变化的实体的数量以及变化的实体的重要性作为演化特征,演化特征用于分析事件演化关系。
变化关键词的数量:选取事件的前N个非实体分词作为最能反映该事件内容的关键词。通过对比本事件与父事件的关键词集合,可以得到本事件相比于父事件关键词变化的数量。随着时间的推移,当事件中心产生较大偏移时,本事件与父事件关键词变化的数量较大;随着时间的推移,当事件中心产生较小偏移时,本事件与父事件关键词变化的数量较小。
变化的关键词的重要性:本发明实施例中根据关键词相对于事件关系的重要程度,对关键词进行评分,通过关键词的评分来反映关键词在事件中的重要程度。关键词集合中重要程度较高的关键词发生变化,事件可能发生较大的偏移;而关键词集合中重要程度较低的关键词发生变化,事件可能发生较小的偏移。因此,不同重要程度的关键词的变化对事件偏移的影响程度也不同。
变化的关键词的语义相关度:在演化的过程中,虽然一些关键词变化可能较大,但其中许多关键词的语义十分相近,事件可能未发生偏移或发生很小的偏移。因此,需要充分考虑词的语义相关性。当关键词集合中变化的关键词属于同一词类时,事件发生较小的偏移;当关键词集合中变化的关键词不属于同一词类时,事件发生较大的偏移。
变化实体的数量:实体在事件中有着重要的作用,事件的核心实体可以反映事件的人物、地点以及组织机构等核心内容。因此,利用实体来区分不同的事件,可以较好的解决语义相似度对相似事件区分较差的问题。在事件的演化分析过程中,通过对比本事件与父事件实体变化情况来分析事件随着时间推移发生的偏移情况。当本事件与父事件的实体变化较大时,两个事件的描述的内容相差较大,即事件随着时间的推移与父事件相比发生了较大的偏移;当本事件与父事件的实体变化较小时,两个事件描述的内容较接近,即事件随着时间的推移与父事件相比未发生较大的变化。
变化实体的重要性:根据实体与事件关系的相关程度,对实体进行评分,通过实体的评分来反映实体在事件中的重要程度以及与事件的相关性。实体集合中重要程度较高的实体发生变化,事件可能发生较大的偏移;而实体集合中重要程度较低的实体发生变化,事件可能发生较小的偏移。因此,不同重要程度实体的变化对事件偏移的影响程度也不同。
步骤202,计算各个所述演化特征随时间变化的偏移程度,并综合所述各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
具体地,利用分数来衡量上述各个演化特征随时间变化的偏移程度。
其中,计算各个所述演化特征随时间变化的偏移程度的步骤,具体为:
对所述变化的关键词集合中的关键词进行词类分析,以使得一个词类中只保留一个变化的关键词,更新所述变化的关键词集合;
基于更新后的所述变化的关键词集合,计算关键词变化数量和变化的关键词的TF-IDF值之和;
根据所述关键词变化数量和变化的关键词的TF-IDF值之和,以及预设的关键词变化数量阈值和关键词分值阈值,计算获得变化的关键词对演化关系的影响分值;
基于所述变化的实体集合,计算获得实体变化数量和变化的实体的TF-IDF值之和;
根据所述实体变化数量和变化的实体的TF-IDF值之和,以及预设的实体变化数量阈值和实体分值阈值,计算获得变化的实体对演化关系的影响分值。
具体地,对于所述变化的关键词集合k中的关键词,选取两个关键词进行词类分析,当两个关键词属于同一词类时,一个词类中只保留分值最高的词,最终得到更新后的变化的关键词集合。
基于更新后的所述变化的关键词集合,计算关键词变化数量和变化的关键词的TF-IDF值之和。也即统计更新后的所述变化的关键词集合中关键词的数量,对更新后的所述变化的关键词集合中关键词的分值极限求和,得到变化关键词的分值之和。
然后,根据所述关键词变化数量和预设的关键词变化数量阈值,计算关键词数量变化对应的演化关系分值;
根据所述变化的关键词的TF-IDF值之和,以及预设的关键词分值阈值,计算变化的关键词分值对应的演化关系分值;
根据所述关键词数量变化对应的演化关系分值和所述变化的关键词分值对应的演化关系分值,计算获得变化的关键词对演化关系的影响分值。
相应地,基于所述变化的实体集合,计算获得实体变化数量和变化的实体的TF-IDF值之和;
根据所述实体变化数量和预设的实体变化数量阈值,计算实体数量变化对应的演化关系分值;
根据所述变化的实体的TF-IDF值之和,以及预设的实体分值阈值,计算变化的实体分值对应的演化关系分值;
根据所述实体数量变化对应的演化关系分值和所述变化的实体分值对应的演化关系分值,计算变化的实体对演化关系的影响分值。
其中,综合所述各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果的步骤,具体包括:
根据所述变化的关键词对演化关系的影响分值和变化的实体对演化关系的影响分值,计算获得所述两个事件的演化关系结果。
然后,将所获得的变化的关键词对演化关系的影响分值与预先设定的四种演化关系的取值进行对比,获得最终演化关系的分析结果,本发明实施例定义了四种演化关系:同一事件、同一话题、同一主题和非同一主题。
其中,预先设定的四种演化关系对应的分值分别为:0~0.5对应于同一事件,0.5~1.5对应于同一话题,1.5~2.5对应于同一主题,2.5~对应于非同一主题。
在一个实施例中,所述计算获得所述两个事件的演化关系结果的步骤之后,还包括:
计算所述两个事件的演化关系结果的置信度。
本发明实施例给出事件演化关系置信度,其中,对于演化关系较清晰的,演化关系的结果具有较高的置信度;对于演化关系较模糊的,演化关系的结果具有较低的置信度。用户可以根据置信度更加准确合理地获得两个事件的演化关系。
本发明实施例提供的事件演化关系分析方法,利用新闻事件的实体、关键词等事件要素对事件的演化关系进行分析,得到了事件之间的动态关系,解决了已有分析方法只描述事件内部的静态关系,使用户能够迅速掌握事件全局信息以及演化的脉络,对事件的发展趋势的判断具有重要意义。
作为本发明实施例的另一方面,如图4所示,为本发明实施例提供的事件演化关系分析装置的结构示意图,包括:要素抽取模块410和演化分析模块420,
要素抽取模块410,用于对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;
根据输入的两个事件的时间先后顺序,将ti时间片的事件Ei称为本事件,将上一时间片ti-1的事件Ej称为事件Ei的父事件,本发明实施例的目的是对本事件与父事件之间的演化关系进行分析。
事件要素能够反映事件的核心内容,其中,关键词可以表示事件的主旨,实体可以反映事件的人物、地点以及组织机构等核心内容。因此,本发明实施例以关键词以及实体作为主要分析对象,可以理解为,事件要素包括事件的关键词和实体,对输入的两个事件分别进行事件要素的抽取也即对输入的两个事件进行关键词和实体的抽取。
演化分析模块420,用于基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
事件演化分析的关键在于事件演化过程中的特征选取、偏移度量,分析所选取的特征随着时间推移的变化量,获得事件的演化关系,从而得到事件的整体发展脉络和趋势。
演化分析模块420具体用于基于所述事件要素集合提取事件要素的变化情况作为用于分析所述两个事件之间演化关系的演化特征,计算各个所述演化特征随时间变化的偏移程度,并综合所述各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
本发明实施例提供的事件演化关系分析组装置,利用新闻事件的实体、关键词等事件要素对事件的演化关系进行分析,得到了事件之间的动态关系,解决了已有分析方法只描述事件内部的静态关系的问题,使用户能够迅速掌握事件全局信息以及演化的脉络,对事件的发展趋势的判断具有重要意义。
下面通过一个实例将本发明提供的事件演化关系分析方法与现有事件演化关系分析方法进行对比。
NewsMiner数据集包含NewsMiner系统中截止至2018年8月,共150多万个中文事件。本发明对其中通过事件发现形成的事件发展脉络的事件进行分析,分析其随着时间的推移形成的事件之间的演化关系。
为了能够更直观体现实验的效果以及本发明所提出的方法在分析事件演化关系过程中的有效性,图5为事件演化关系脉络的示意图,列举了其中一些具有代表性的例子。
以“汶川地震”话题为例,事件发现过程得到了“汶川发生地震”、“地震强度报道”、“地震伤亡报道”、“救援情况报道”、“社会各界捐赠”以及与之相似的“玉树地震伤亡报道”、“扶贫移民安置”等事件,并且得到这些事件随着时间推移其存在一定的关系。本发明提出的事件演化关系分析就是研究该类事件之间具体的演化关系。
“汶川地震”话题初期,通过事件发现得到地震强度以及地震伤亡等事件,地震伤亡与地震情况是对“汶川地震”的不同侧面的具体报道,同属于“汶川地震”话题,但是对地震不同侧面的报道。因此,二者的演化关系为同一话题。“救援队伍报道”事件与“解放军救援”事件,均属于对在地震救援的报道,同属于一个事件。因此二者的演化关系为“同一事件”。“汶川地震伤亡报道”与“玉树地震伤亡报道”报道的内容具有相似性,分属于不同的话题,但均为地震主题。因此,二者的演化关系为同一主题。“地震原因分析”与“板块运动知识”虽然有一定的相关性,但是事件的偏移较大,两个事件分属于不同的主题。因此,二者的演化关系为非同一主题。
通过实验的结果看可以看出,利用本发明提出的方法所判断的事件演化关系与实际事件之间的关系一致,验证了所提方法的有效性。由于有些事件之间的演化关系较为模糊,很难准确判断两个事件之间的演化关系。因此,本发明给出事件演化关系置信度,对于演化关系较清晰的,演化关系的结果具有较高的置信度;对于演化关系较模糊的,演化关系的结果具有较低的置信度。用户可以根据置信度更加准确合理地获得两个事件的演化关系。
图6为本发明实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储在存储器630上并可在处理器610上运行的计算机程序,以执行上述各方法实施例提供的事件演化关系分析方法,例如包括:对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的事件演化关系分析方法,例如包括:对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种事件演化关系分析方法,其特征在于,包括:
对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;
基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
2.根据权利要求1所述的方法,其特征在于,所述对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合的步骤,具体为:
对事件内的新闻文档进行预处理,将非结构化的文本数据转化为结构化的文本数据;
计算所述结构化的文本数据中各分词的TF-IDF值,选取TF-IDF值较大的前N个非实体分词组成事件的关键词集合,选取TF-IDF值较大的前N个实体分词组成事件的实体集合,所述关键词集合和实体集合构成了事件要素集合;
其中,N为大于1的自然数。
3.根据权利要求2所述的方法,其特征在于,所述对事件内的新闻文档进行预处理,将非结构化的文本数据转化为结构化的文本数据的步骤,具体为:
利用自然语言处理工具对事件内的新闻文档进行分词和词性标注;
利用预先构建的停用词词典对经过分词和词性标注处理后的新闻文档进行过滤,去除信息含量较低的词语。
4.根据权利要求2所述的方法,其特征在于,所述基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果的步骤,具体为:
基于所述事件要素集合提取事件要素的变化情况作为用于分析所述两个事件之间演化关系的演化特征;
计算各个所述演化特征随时间变化的偏移程度,并综合所述各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
5.根据权利要求4所述的方法,其特征在于,所述基于所述事件要素集合提取事件要素的变化情况作为用于分析所述两个事件之间演化关系的演化特征的步骤,具体为:
所述两个事件包括本事件和父事件,分析所述本事件的关键词集合相对于所述父事件的关键词集合的变化情况,获取变化的关键词集合;
分析所述本事件的实体集合相对于所述父事件的实体集合的变化情况,获得变化的实体集合;
相应地,所述用于分析所述两个事件之间演化关系的演化特征的类型具体包括:变化的关键词的数量、变化的关键词的重要性、变化的关键词的语义相关度、变化的实体的数量和变化的实体的重要性。
6.根据权利要求5所述的方法,其特征在于,所述计算各个所述演化特征随时间变化的偏移程度,并综合所述各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果的步骤,具体为:
对所述变化的关键词集合中的关键词进行词类分析,以使得一个词类中只保留一个变化的关键词,更新所述变化的关键词集合;
基于更新后的所述变化的关键词集合,计算关键词变化数量和变化的关键词的TF-IDF值之和;
根据所述关键词变化数量和变化的关键词的TF-IDF值之和,以及预设的关键词变化数量阈值和关键词分值阈值,计算获得变化的关键词对演化关系的影响分值;
基于所述变化的实体集合,计算获得实体变化数量和变化的实体的TF-IDF值之和;
根据所述实体变化数量和变化的实体的TF-IDF值之和,以及预设的实体变化数量阈值和实体分值阈值,计算获得变化的实体对演化关系的影响分值;
根据所述变化的关键词对演化关系的影响分值和变化的实体对演化关系的影响分值,计算获得所述两个事件的演化关系结果。
7.根据权利要求6所述的方法,其特征在于,所述计算获得所述两个事件的演化关系结果的步骤之后,还包括:
计算所述两个事件的演化关系结果的置信度。
8.一种事件演化关系分析装置,其特征在于,包括:
要素抽取模块,用于对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;
演化分析模块,用于基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910038942.1A CN111444347B (zh) | 2019-01-16 | 2019-01-16 | 事件演化关系分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910038942.1A CN111444347B (zh) | 2019-01-16 | 2019-01-16 | 事件演化关系分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444347A true CN111444347A (zh) | 2020-07-24 |
CN111444347B CN111444347B (zh) | 2022-11-11 |
Family
ID=71626620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910038942.1A Active CN111444347B (zh) | 2019-01-16 | 2019-01-16 | 事件演化关系分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444347B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883733A (zh) * | 2020-12-09 | 2021-06-01 | 成都中科大旗软件股份有限公司 | 基于文本实体提取快速构建事件关系的分析方法 |
CN116705340A (zh) * | 2023-04-07 | 2023-09-05 | 中南大学湘雅三医院 | 一种基于区块链的公共卫生智慧监测系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161612A1 (en) * | 2008-12-18 | 2010-06-24 | National Taiwan University | Method of Topic Summarization and Content Anatomy |
CN103150383A (zh) * | 2013-03-15 | 2013-06-12 | 中国科学院计算技术研究所 | 一种短文本数据的事件演化分析方法 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
CN109033200A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
-
2019
- 2019-01-16 CN CN201910038942.1A patent/CN111444347B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161612A1 (en) * | 2008-12-18 | 2010-06-24 | National Taiwan University | Method of Topic Summarization and Content Anatomy |
CN103150383A (zh) * | 2013-03-15 | 2013-06-12 | 中国科学院计算技术研究所 | 一种短文本数据的事件演化分析方法 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
CN109033200A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883733A (zh) * | 2020-12-09 | 2021-06-01 | 成都中科大旗软件股份有限公司 | 基于文本实体提取快速构建事件关系的分析方法 |
CN116705340A (zh) * | 2023-04-07 | 2023-09-05 | 中南大学湘雅三医院 | 一种基于区块链的公共卫生智慧监测系统及方法 |
CN116705340B (zh) * | 2023-04-07 | 2024-02-02 | 中南大学湘雅三医院 | 一种基于区块链的公共卫生智慧监测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111444347B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grieve et al. | Analyzing lexical emergence in Modern American English online1 | |
Keuleers et al. | Megastudies, crowdsourcing, and large datasets in psycholinguistics: An overview of recent developments | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
Batool et al. | Precise tweet classification and sentiment analysis | |
US20160357854A1 (en) | Scenario generating apparatus and computer program therefor | |
CN108563620A (zh) | 文本自动写作方法和系统 | |
US10430717B2 (en) | Complex predicate template collecting apparatus and computer program therefor | |
US20130311467A1 (en) | System and method for resolving entity coreference | |
US9785704B2 (en) | Extracting query dimensions from search results | |
US20150317390A1 (en) | Computer-implemented systems and methods for taxonomy development | |
Van Durme et al. | Open knowledge extraction through compositional language processing | |
US11295078B2 (en) | Portfolio-based text analytics tool | |
JP2006293767A (ja) | 文章分類装置、文章分類方法および分類辞書作成装置 | |
Vick et al. | The effects of standardizing names for record linkage: Evidence from the United States and Norway | |
CN115033668B (zh) | 故事脉络构建方法、装置、电子设备和存储介质 | |
CN108363699A (zh) | 一种基于百度贴吧的网民学业情绪分析方法 | |
CN111444347B (zh) | 事件演化关系分析方法及装置 | |
CN112597307A (zh) | 人物动作相关数据的提取方法、装置、设备及存储介质 | |
Zainol et al. | Text analytics of unstructured textual data: a study on military peacekeeping document using R text mining package | |
CN104881447A (zh) | 搜索方法及装置 | |
JP2015007920A (ja) | テキスト処理を用いた社会構造モデルの抽出 | |
CN104881446A (zh) | 搜索方法及装置 | |
Kabadjov et al. | Multilingual statistical news summarization | |
Valvason | The semantics of sustainable development: A corpus-assisted, ecological analysis of discourse across languages | |
Fan et al. | Prior matters: simple and general methods for evaluating and improving topic quality in topic modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |