CN111506734B - 一种事件演化知识图谱构建方法、装置、设备及存储介质 - Google Patents
一种事件演化知识图谱构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111506734B CN111506734B CN201910092807.5A CN201910092807A CN111506734B CN 111506734 B CN111506734 B CN 111506734B CN 201910092807 A CN201910092807 A CN 201910092807A CN 111506734 B CN111506734 B CN 111506734B
- Authority
- CN
- China
- Prior art keywords
- event
- chinese
- events
- news
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000004891 communication Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 230000001502 supplementing effect Effects 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种事件演化知识图谱构建方法、装置、设备及存储介质,该方法包括:获取新闻的中文新闻报道;从中文新闻报道中提取对应的事件要素,组合成与中文新闻报道对应的中文事件,事件要素包括:事件触发词和事件论元;基于事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。该方法可以缓解现有技术中存在的演化事件的准确度不高的问题,达到了提高演化事件的准确度的技术效果。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种事件演化知识图谱构建方法、装置、设备及存储介质。
背景技术
事件是信息的一种特定的表现形式,事件抽取是自然语言处理中一个重要的研究方向。从自由文本中识别事件的发生并抽取事件的各元素的任务成为文本信息抽取与挖掘的研究难点。ACE2005(Automatic Content Extraction 2005)将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取。在指定的源语言数据中发现特定类型的事件,并且识别出与事件相关的信息填入先验的事件模板中。
目前,事件抽取的研究大多是在ACE英文事件数据集上展开,由于该数据集是英文语料,且只针对特定领域的事件进行抽取,所以,导致事件抽取的领域不易扩展。同时,由于对英文事件的定义较为简单,事件关键要素稀疏,所以无法开展事件抽取的上层研究,上层研究可以包括事件的时序关联、事件的演化与事件的推理分析等。
另外,现有技术大多利用无监督的聚类方法或者基于图计算的概率方法对中文事件进行抽取及对演化事件进行研究,由于现有技术难以准确捕捉中文事件间的联系性,所以现有技术针对中文事件研究得到的演化事件间大多关联性较低,因此,导致演化事件的预测过程无意义,演化事件的准确度不高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种事件演化知识图谱构建方法、装置、设备及存储介质。
第一方面,本申请实施例提供了一种事件演化知识图谱构建方法,包括:
获取新闻的中文新闻报道;
从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;
基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;
根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。
可选的,所述从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,包括:
从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件;
从所述中文新闻报道的正文中,查找与所述标题的匹配度最高的候选事件句;
利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件。
可选的,所述从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件,包括:
提取所述标题中的事件触发词;
在预设的事件表示模式中,将与从所述标题中提取到的事件触发词对应的数据项确定为待补充事件表示内容;
从所述标题中,提取与所述待补充事件表示内容中的论元角色对应的事件论元;
将提取到的事件论元补充到所述待补充事件表示内容中,得到所述标题级别事件。
可选的,所述利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件,包括:
在所述标题级别事件中,将空值所在的数据项确定为待补充数据项;
将与所述待补充数据项对应的论元角色确定为对照项;
将所述候选事件句中的与所述对照项对应的事件论元补充到所述标题级别事件中的所述待补充数据项上,得到所述中文事件。
可选的,所述根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱,包括:
将所述先验事理关系和多个所述中文事件输入图形数据库;
生成所述事件演化知识图谱。
可选的,还包括:
获取先验事理知识;
根据所述先验事理知识生成所述先验事理关系。
第二方面,本申请实施例提供了一种事件演化知识图谱构建方法,包括:
获取多个事件类型及与每个所述事件类型分别对应的多个子事件类型,及确定与每个所述子事件类型分别对应的初始触发词集合;
扩展每个所述初始触发词集合,分别得到扩展后触发词集合;
获取与每个所述子事件类型分别对应的论元角色;
根据所述事件类型、所述子事件类型、所述扩展后触发词集合和所述论元角色,生成事件表示模式。
第三方面,本申请实施例提供了一种事件演化知识图谱构建装置,包括:获取模块、提取模块、关联模块和构建模块;
所述获取模块,用于获取新闻的中文新闻报道;
所述提取模块,用于从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;
所述关联模块,用于基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;
所述构建模块,用于根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。
第四方面,本申请实施例提供了一种事件演化知识图谱构建设备,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行如第一方面和第二方面中任一项所述方法的步骤。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面和第二方面中任一项所述方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供一种事件演化知识图谱构建方法,该方法包括:获取新闻的中文新闻报道;从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。这样,在确定事件演化知识图谱的过程中使用了先验事理关系,进而可以明确定义演化事件间的演化关系,提高演化事件间的关联度,因此,可以缓解现有技术中存在的演化事件的准确度不高的问题,达到了提高演化事件的准确度的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种事件演化知识图谱构建方法的流程图;
图2为本申请实施例提供的先验事理关系的示意图;
图3为本申请实施例提供的事件演化知识图谱的示意图;
图4为本申请实施例提供的一种事件演化知识图谱构建装置的结构示意图;
图5为本申请实施例提供的一种事件演化知识图谱构建设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种事件演化知识图谱构建方法、装置、设备及存储介质,可以缓解现有技术中存在的演化事件的准确度不高的问题,达到了提高演化事件的准确度的技术效果。
首先,对本申请实施例中的一种事件演化知识图谱构建方法进行详细介绍,如图1所示,事件演化知识图谱构建方法可以包括步骤S101至步骤S104:
S101,获取新闻的中文新闻报道。
其中,中文新闻报道可以包括:标题和正文。示例性的,新闻可以为“消防员营救七旬老人”。示例性的,中文新闻报道可以如表1所示。
表1
或者,中文新闻报道可以如表2所示。
表2
或者,中文新闻报道可以如表3所示。
表3
S102,从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元。
示例性的,如表1所示的中文新闻报道中的事件触发词可以为“出警”。如表2所示的中文新闻报道中的事件触发词可以为“营救”。如表3所示的中文新闻报道中的事件触发词可以为“救出”。
其中,事件要素可以包括:事件触发词和事件论元。示例性的,事件触发词可以表示事件发生的触发动作,事件论元可以表示事件的参与者。如表1所示的中文新闻报道中的事件论元可以包括:时间“当天上午7时”、地点“A市”、机构“消防支队”等。
S103,基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联。
示例性的,若新闻为“消防员倒挂下井营救七旬老人”,则可以将与“消防员倒挂下井营救七旬老人”对应的多个不同中文事件进行关联。
S104,根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。
其中,先验事理关系可以根据不同领域的先验知识进行定制。
示例性的,若事件触发词为“报警”,则与“报警”对应的先验事理关系可以如表4所示。
表4
示例性的,若相关联的中文事件包括中文事件A和中文事件B,中文事件A的事件触发词为“报警”,中文事件B的事件触发词为“营救”,那么可以根据如表4所示的先验事理关系构建中文事件A和中文事件B之间的事件演化知识图谱。
本申请实施例提供的事件演化知识图谱构建方法,在确定事件演化知识图谱的过程中使用了先验事理关系,进而可以明确定义演化事件间的演化关系,提高演化事件间的关联度,进而提高演化事件的准确度,使得演化事件的预测过程有意义。同时,由于确定了事件演化知识图谱,所以,可以根据事件演化知识图谱实现对事件演化过程的关联知识挖掘,为上层研究事件的链式依赖和表征事件发展方向提供支撑,为事件查询、事件推理和事件预测提供可靠的依据。
本申请实施例提供一种事件演化知识图谱构建方法,该方法包括:获取新闻的中文新闻报道;从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。这样,在确定事件演化知识图谱的过程中使用了先验事理关系,进而可以明确定义演化事件间的演化关系,提高演化事件间的关联度,因此,可以缓解现有技术中存在的演化事件的准确度不高的问题,达到了提高演化事件的准确度的技术效果。
另外,该方法提出面向中文的事件演化知识图谱概念,并基于事件触发词的先验事理关系构建事件演化知识图谱,为事件推理与预测研究提供依据与基础。
在本申请的又一实施例中,在前述步骤S101至步骤S104的实施例的基础上,步骤S102可以包括步骤S1021至步骤S1023:
S1021,从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件。
其中,步骤S1021可以包括步骤S11至步骤S14:
S11,提取所述标题中的事件触发词。
具体的,步骤S11可以包括步骤S111至步骤S112。
S111,提取所述标题中的动词和/或动词性名词,得到动词集合。
示例性的,若标题为“消防员快速出动倒挂下井营救出七旬老人”,则提取到的动词集合为{“出警”,“营救”,“救出”}。
S112,过滤所述动词集合中不满足预设过滤条件的词,得到从所述标题中提取到的事件触发词。
示例性的,预设过滤条件可以为:动词集合中的词为触发原生事件动词。其中,原生事件可以表示为所述获取到中文新闻报道的标题。所以,步骤S112可以过滤掉动词集合{“出警”,“营救”,“救出”}中的“营救”和“救出”,得到从所述标题中提取到的事件触发词{“出警”}。
S12,在预设的事件表示模式中,将与从所述标题中提取到的事件触发词对应的数据项确定为待补充事件表示内容。
其中,事件表示模式可以如表5所示。
表5
其中,事件表示模式可以包括多个事件类型,每个事件类型分别对应多个子事件类型。以事件类型为社会安全类,社会安全类对应三个子事件类型为例进行说明。三个子事件类型可以分别为事故、坍塌和车祸。以子事件类型为事故为例进行说明。事故事件的事件触发词可以包括:“老人落井”。事故事件的论元角色可以包括:地点、时间、施事主体、受事客体、涉及机构、影响和关键词。
示例性的,若从标题中提取到的事件触发词为{“出警”},则与{“出警”}对应的待补充事件表示内容可以如表6所示。
表6
S13,从所述标题中,提取与所述待补充事件表示内容中的论元角色对应的事件论元。
其中,可以利用NLP(natural language processing,自然语言处理)工具以及语义角色标注方法来提取事件论元。
示例性的,从标题“A市消防员快速出动倒挂下井营救出七旬老人”中,提取与如表6所示的待补充事件表示内容中的论元角色对应的事件论元。可以得到,与“地点”对应的事件论元为“A市”,与“影响”对应的事件论元为“七旬老人被救出”,与“关键词”对应的事件论元为“井下”。
S14,将提取到的事件论元补充到所述待补充事件表示内容中,得到所述标题级别事件。
示例性的,将提取到的事件论元补充到如表6所示的待补充事件表示内容中,得到的标题级别事件可以如表7所示。
表7
S1022,从所述中文新闻报道的正文中,查找与所述标题的匹配度最高的候选事件句。
具体的,可以利用TextRank(关键词提取算法),从正文中查找出多个候选事件句。对于每个候选事件句,对候选事件句和标题进行实体对齐,计算候选事件句和标题的相似度,选出与所述标题的匹配度最高的候选事件句。
示例性的,与标题“消防员营救七旬老人”对应的正文可以为“2月20日15时,A市陆营镇一名70岁老太太不慎坠入机井,消防特勤中队接到调度后,立即赶往现场。”
S1023,利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件。
其中,步骤S1023可以包括步骤S21至步骤S23:
S21,在所述标题级别事件中,将空值所在的数据项确定为待补充数据项。
S22,将与所述待补充数据项对应的论元角色确定为对照项。
其中,如表7所示的标题级别事件中的对照项可以包括:时间、施事主体、受事客体和涉及机构。
S23,将所述候选事件句中的与所述对照项对应的事件论元补充到所述标题级别事件中的所述待补充数据项上,得到所述中文事件。
示例性的,与表7对应的候选事件句为“A市消防员快速出动倒挂下井营救出七旬老人”对应的正文可以为“2月20日15时,A市陆营镇一名70岁老太太不慎坠入机井,消防特勤中队接到调度后,立即赶往现场。。”
具体的,可以将候选事件句中的“2月20日15时”补充到标题级别事件中的待补充数据项上。经过补充后的中文事件可以如表8所示。
表8
本申请实施例中,由于标题和正文中的候选事件句能够表征同一个事件,用候选事件句获取的事件要素信息对于标题的事件要素信息进行补充,可以解决事件表示的信息稀疏问题。
在本申请的又一实施例中,在前述步骤S101至步骤S104的实施例的基础上,步骤S104可以包括步骤S1041至步骤S1042:
S1041,将所述先验事理关系和多个所述中文事件输入图形数据库。
其中,以同一个新闻对应的五个相关联的中文事件为例进行说明。对应具有标题“A市消防员快速出动倒挂下井营救出七旬老人”的中文新闻报道的中文事件A可以如表9所示。
表9
对应具有标题“A市消防员快速出动倒挂下井营救出七旬老人”的中文新闻报道的中文事件B可以如表10所示。
表10
对应具有标题“消防员成功救出落井老人获肯定”的中文新闻报道的中文事件C可以如表11所示。
表11
对应具有标题“A市消防员倒挂下井营救七旬老人,家属送锦旗感谢”的中文新闻报道的中文事件D可以如表12所示。
表12
对应具有标题“A市老人落井事故,5人被追究责任”的中文新闻报道的中文事件E可以如表13所示。
表13
示例性的,先验事理关系可以如图2所示。其中,先验事理关系可以为事件的推理与预测提供可靠的保证。
其中,将先验事理关系和多个中文事件输入到图形数据库中后,在图形数据库中,先验事理关系中的事件触发词以结点进行存储,每个中文事件中的事件论元和事件触发词均以结点进行存储,每个中文事件中的论元角色以中文事件与事件论元(结点)间的关系进行存储。以中文事件E为例进行说明。中文事件E中的“追究刑责”、“A市”和“事故、落井”均以结点进行存储,中文事件E中的“地点”以中文事件E与“A市”间的关系进行存储,中文事件E中的“关键词”以中文事件E与“事故、落井”间的关系进行存储。
S1042,生成所述事件演化知识图谱。
具体的,可以根据先验事理关系确定多个中文事件间的演化关系,进而得到事件演化知识图谱。
其中,事件演化知识图谱可以如图3所示。
示例性的,事件演化知识图谱可以包括:事理本体层、事件层和事实实体层。具体的,可以将事件触发词存储在事理本体层中,可以将多个中文事件存储在事件层中,可以将事件论元存储在事实实体层中。
本申请实施例中的事件演化知识图谱构建方法适用于多个领域,可以在任意领域进行扩展。对于不同的研究领域,只需要切换对应的先验事理关系即可。
在本申请的又一实施例中,在前述步骤S101至步骤S104的实施例的基础上,事件演化知识图谱构建方法还可以包括步骤S31至步骤S32:
S31,获取先验事理知识。
S32,根据所述先验事理知识生成所述先验事理关系。
在本申请的又一实施例中,对本申请实施例中的一种事件演化知识图谱构建方法进行详细介绍,事件演化知识图谱构建方法可以包括步骤S201至步骤S204:
S201,获取多个事件类型及与每个所述事件类型分别对应的多个子事件类型,及确定与每个所述子事件类型分别对应的初始触发词集合。
S202,扩展每个所述初始触发词集合,分别得到扩展后触发词集合。
示例性的,可以通过查找近义词库和/或匹配词相似度来扩展每个初始触发词集合。
S203,获取与每个所述子事件类型分别对应的论元角色。
S204,根据所述事件类型、所述子事件类型、所述扩展后触发词集合和所述论元角色,生成事件表示模式。
本申请实施例中,生成了事件表示模式,以事件触发词为核心,定义了一套适用于中文事件的事件表示方式,为事件演化知识图谱的构建提供了可能性。
在本申请的又一实施例中,对本申请实施例中的一种事件演化知识图谱构建装置进行详细介绍,如图4所示,事件演化知识图谱构建装置可以包括:获取模块41、提取模块42、关联模块43和构建模块44。
所述获取模块41,用于获取新闻的中文新闻报道。
所述提取模块42,用于从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元。
所述关联模块43,用于基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联。
所述构建模块44,用于根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。
在本发明的又一实施例中,对本申请实施例中的一种事件演化知识图谱构建设备进行详细介绍,如图5所示,事件演化知识图谱构建设备包括:处理器501、存储器502、通信接口503和总线504。
所述处理器501、所述存储器502与所述通信接口503通过所述总线504完成相互间的通信。
所述通信接口503用于外部设备之间的信息传输。
示例性的,外部设备可以为用户设备UE。
所述处理器501用于调用所述存储器502中的程序指令,以执行如上述任一项实施例所述的事件演化知识图谱构建方法的步骤。
具体而言,所述处理器501用于执行所述事件演化知识图谱构建程序,以实现以下步骤:获取新闻的中文新闻报道;从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。
在本发明的又一实施例中,对本申请实施例中的一种计算机可读存储介质进行详细介绍,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项实施例所述事件演化知识图谱构建方法的步骤。
其中,所述计算机可读存储介质可以存储有一个或者多个计算机指令。所述计算机可读存储介质可以包括易失性存储器,例如随机存取存储器;所述计算机可读存储介质也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;所述计算机可读存储介质还可以包括上述种类的存储器的组合。
具体而言,所述计算机指令使所述计算机执行以下步骤:获取新闻的中文新闻报道;从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种事件演化知识图谱构建方法,其特征在于,包括:
获取新闻的中文新闻报道;
从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;
基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;
根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱,所述事件演化知识图谱包括:事理本体层、事件层和事实实体层,将所述事件触发词存储在所述事理本体层中,将多个中文事件存储在所述事件层中,将所述事件论元存储在所述事实实体层中;
其中,获取先验事理知识;
根据所述先验事理知识生成所述先验事理关系;
将所述先验事理关系和多个所述中文事件输入图形数据库;
生成所述事件演化知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,包括:
从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件;
从所述中文新闻报道的正文中,查找与所述标题的匹配度最高的候选事件句;
利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件。
3.根据权利要求2所述的方法,其特征在于,所述从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件,包括:
提取所述标题中的事件触发词;
在预设的事件表示模式中,将与从所述标题中提取到的事件触发词对应的数据项确定为待补充事件表示内容;
从所述标题中,提取与所述待补充事件表示内容中的论元角色对应的事件论元;
将提取到的事件论元补充到所述待补充事件表示内容中,得到所述标题级别事件。
4.根据权利要求2所述的方法,其特征在于,所述利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件,包括:
在所述标题级别事件中,将空值所在的数据项确定为待补充数据项;
将与所述待补充数据项对应的论元角色确定为对照项;
将所述候选事件句中的与所述对照项对应的事件论元补充到所述标题级别事件中的所述待补充数据项上,得到所述中文事件。
5.根据权利要求1所述的方法,其特征在于,包括:
获取多个事件类型及与每个所述事件类型分别对应的多个子事件类型,及确定与每个所述子事件类型分别对应的触发词集合;
获取与每个所述子事件类型分别对应的论元角色;
根据所述事件类型、所述子事件类型、所述触发词集合和所述论元角色,生成事件表示模式。
6.一种事件演化知识图谱构建装置,其特征在于,包括:获取模块、提取模块、关联模块和构建模块;
所述获取模块,用于获取新闻的中文新闻报道;
所述提取模块,用于从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;
所述关联模块,用于基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;
所述构建模块,用于根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱,所述事件演化知识图谱包括:事理本体层、事件层和事实实体层,将所述事件触发词存储在所述事理本体层中,将多个中文事件存储在所述事件层中,将所述事件论元存储在所述事实实体层中;
所述构建模块,还用于获取先验事理知识;根据所述先验事理知识生成所述先验事理关系;
所述构建模块,还用于将所述先验事理关系和多个所述中文事件输入图形数据库;生成所述事件演化知识图谱。
7.一种事件演化知识图谱构建设备,其特征在于,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910092807.5A CN111506734B (zh) | 2019-01-30 | 2019-01-30 | 一种事件演化知识图谱构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910092807.5A CN111506734B (zh) | 2019-01-30 | 2019-01-30 | 一种事件演化知识图谱构建方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506734A CN111506734A (zh) | 2020-08-07 |
CN111506734B true CN111506734B (zh) | 2024-01-26 |
Family
ID=71863912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910092807.5A Active CN111506734B (zh) | 2019-01-30 | 2019-01-30 | 一种事件演化知识图谱构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506734B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985221B (zh) * | 2020-08-12 | 2024-03-26 | 北京百度网讯科技有限公司 | 一种文本事理关系的识别方法、装置、设备及存储介质 |
CN112199512B (zh) * | 2020-10-15 | 2022-12-06 | 北京大学 | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 |
CN112562808B (zh) * | 2020-12-11 | 2024-01-19 | 北京百度网讯科技有限公司 | 患者画像的生成方法、装置、电子设备及存储介质 |
CN112906391B (zh) * | 2021-03-16 | 2024-05-31 | 合肥讯飞数码科技有限公司 | 元事件抽取方法、装置、电子设备和存储介质 |
CN113449116B (zh) * | 2021-06-22 | 2022-12-20 | 青岛海信网络科技股份有限公司 | 一种图谱构建、预警方法、设备及介质 |
CN113656602A (zh) * | 2021-09-01 | 2021-11-16 | 中国人民解放军31007部队 | 一种事理图谱的创建方法和装置 |
CN115114447B (zh) * | 2022-06-01 | 2024-10-18 | 西南科技大学 | 一种关于构建情报中技术知识演化图谱的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130290232A1 (en) * | 2012-04-30 | 2013-10-31 | Mikalai Tsytsarau | Identifying news events that cause a shift in sentiment |
CN104915446B (zh) * | 2015-06-29 | 2019-01-29 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN107220352B (zh) * | 2017-05-31 | 2020-12-08 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
-
2019
- 2019-01-30 CN CN201910092807.5A patent/CN111506734B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111506734A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506734B (zh) | 一种事件演化知识图谱构建方法、装置、设备及存储介质 | |
Fortuna et al. | A survey on automatic detection of hate speech in text | |
Unankard et al. | Emerging event detection in social networks with location sensitivity | |
Nazer et al. | Intelligent disaster response via social media analysis a survey | |
US20200151389A1 (en) | Community-based reporting and analysis system and method | |
US9965459B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
Gerber et al. | Bootstrapping the linked data web | |
US9235653B2 (en) | Discovering entity actions for an entity graph | |
Carvalho et al. | MISNIS: An intelligent platform for twitter topic mining | |
US20170075904A1 (en) | System and method of extracting linked node graph data structures from unstructured content | |
Ghahremanlou et al. | Geotagging twitter messages in crisis management | |
Dutta et al. | Summarizing microblogs during emergency events: A comparison of extractive summarization algorithms | |
WO2015188719A1 (zh) | 结构化数据与图片的关联方法与关联装置 | |
US10242107B2 (en) | Extraction of quantitative data from online content | |
Fang et al. | Witness identification in twitter | |
CN104462326A (zh) | 人物关系分析方法、提供人物信息的方法及装置 | |
Beheshti et al. | Big data and cross-document coreference resolution: Current state and future opportunities | |
Sherchan et al. | Harnessing Twitter and Instagram for disaster management | |
Gopal et al. | Machine learning based classification of online news data for disaster management | |
KR20170060958A (ko) | 금융 사기 방지 방법 및 시스템 | |
Zavarella et al. | An Ontology-Based Approach to Social Media Mining for Crisis Management. | |
Sordo et al. | Extracting relations from unstructured text sources for music recommendation | |
Perera et al. | Real text-cs-corpus based domain independent content selection model | |
CN111026885A (zh) | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 | |
US10423650B1 (en) | System and method for identifying predictive keywords based on generalized eigenvector ranks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |