CN111160005B - 基于事件演化知识本体的事件预测方法、装置及终端设备 - Google Patents
基于事件演化知识本体的事件预测方法、装置及终端设备 Download PDFInfo
- Publication number
- CN111160005B CN111160005B CN201911168831.9A CN201911168831A CN111160005B CN 111160005 B CN111160005 B CN 111160005B CN 201911168831 A CN201911168831 A CN 201911168831A CN 111160005 B CN111160005 B CN 111160005B
- Authority
- CN
- China
- Prior art keywords
- event
- chain
- data
- evolution
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于事件演化知识本体的事件预测方法、装置及终端设备。其中,该方法包括:通过构建具备事件演化关系的事件演化本体知识库,从事件演化本体知识库中抽取出第一事件链和第一事件元组,采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据,利用事件数据训练以建立事件预测模型的方法,可以基于知识有效的快速获得大量已标注的训练数据,从而有效提升事件预测的准确度。
Description
技术领域
本申请涉及计算机信息处理技术领域,尤其涉及一种基于事件演化知识本体的事件预测方法、装置及终端设备。
背景技术
随着近年来突发事件频繁发生,全社会对突发事件的关注度越来越高。在没有充分准备的情况下,突发事件往往令人措手不及,如果涉及到生命安全,则时间就是生命。因此,只有快速、准确地应对,才能为生命安全保驾护航。在越来越多突发事件的情况处理中积累的相关经验就可以作为应对未来突发事件的预准备措施,而事件发展情况就可以为突发事件预测提供巨大帮助。
发明人经过对相关技术进行分析,认识到相关技术中的事件预测方法依赖于特定词汇去构造事件之间的关系比如“一些地区出现大风雷雨等强对流天气,A市出现了强降雨,造成交通堵塞”,构建事件之间的关系如事件“出现强降雨”与事件“交通堵塞”的关系为“因果关系”依赖于因果副词“造成”。相关技术在提取这两条事件之间的关系时,是通过模式匹配的方法找到“造成”语义词,但是这种情况并不适用于一些事件间存在隐含因果关系的情况,如在文本中并未出现“因果”相关的词语的事件对。对于存在隐含关系的情况,由于缺乏大量已标注的训练数据,导致事件预测的准确度不高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种基于事件演化知识本体的事件预测方法、装置及终端设备,以至少解决上述“由于缺乏大量已标注的训练数据,导致事件预测的准确度不高”的技术问题,创新采用数据回标的方式,基于知识有效增加了大量标注数据,提升事件预测模型构建效率,有效提升了事件预测的准确度。
第一方面,本申请提供了一种基于事件演化知识本体的事件预测方法,包括:构建具备事件演化关系的事件演化本体知识库,其中,事件演化本体知识库包括事件触发词,事件触发词为事件的触发词;从事件演化本体知识库中抽取出第一事件链和第一事件元组,其中,第一事件元组包括事件触发词和事件要素,第一事件链包括事件触发词;采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据,其中,事件数据包括第二事件链,第二事件链包括第一事件链中的事件触发词和非结构化文本中与第一事件链中的事件触发词存在关联的触发词;利用事件数据训练以建立事件预测模型,其中,事件预测模型用于预测具备事件演化关系的事件。
可选地,构建具备事件演化关系的事件演化本体知识库的步骤,包括:获取事件本体知识,其中,事件本体知识包括事件泛主体论元、事件泛客体论元和事件触发词,事件泛主体论元用于表示事件触发词的事件主体,事件泛客体论元用于表示事件触发词的事件客体;将事件本体知识的事件触发词按照事件演化关系进行关联,得到事件演化关系本体,其中,事件演化本体知识库包括事件演化关系本体,事件演化关系包括不同领域的先验知识。
可选地,从事件演化本体知识库中抽取出第一事件链和第一事件元组的步骤,包括:获取第一文本数据,其中,第一文本数据包括目标领域的文本;根据事件演化本体知识库中的事件触发词,对第一文本数据进行事件匹配,其中,所匹配的事件包括与事件触发词相同的相关事件;将匹配的事件进行关联,得到包括事件触发词和事件要素的第一事件元组,将事件触发词按照先后顺序进行组合,得到第一事件链。
可选地,采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据的步骤,包括:提取第二文本数据的事件触发词,按照先后顺序进行组合得到第二事件链,其中,第二文本数据包括与第一文本数据相同领域的文本数据;对比第二事件链与第一事件链,若第二事件链与第一事件链匹配,则将第二事件链中的事件触发词与对应的事件要素关联得到第二事件元组;对比第一事件元组和第二事件元组,选取置信度最高的第二事件元组对应的第二事件链,得到具有事件演化关系的所述事件数据。
可选地,利用事件数据训练以建立事件预测模型的步骤,包括:从事件数据中选出目标事件链,其中,目标事件链中的最后一个事件作为待预测事件;用带有学习权重的内嵌向量表示目标事件链和事件数据中的其他事件链;将内嵌向量输入长短时记忆人工神经网络进行编码学习,得到事件序列信息;根据事件数据的语义对事件序列信息进行权重计算,得到注意力权重,其中,注意力权重表示目标事件链和事件数据中的其他事件链中的每个事件对待预测事件的影响程度;利用注意力权重计算待预测事件与其他事件的相关度;将相关度和事件数据输入损失函数进行事件预测模型训练。
第二方面,本申请提供了一种基于事件演化知识本体的事件预测装置,包括:构建模块,用于构建具备事件演化关系的事件演化本体知识库,其中,事件演化本体知识库包括事件触发词,事件触发词为事件的触发词;提取模块,用于从事件演化本体知识库中抽取出第一事件链和第一事件元组,其中,第一事件元组包括事件触发词和事件要素,第一事件链包括事件触发词;数据回标模块,用于采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有演化关系的事件数据,其中,事件数据包括第二事件链,第二事件链包括第一事件链中的触发词和非结构化文本中与第一事件链中的触发词存在关联的触发词;建模模块,用于利用事件数据训练以建立事件预测模型,其中,事件预测模型用于预测具备事件演化关系的事件。
第三方面,本申请提供了一种终端设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面任一项的方法的步骤。
第四方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述第一方面任一方法。
本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
通过构建具备事件演化关系的事件演化本体知识库,从事件演化本体知识库中抽取出第一事件链和第一事件元组,采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有演化关系的事件数据,利用事件数据训练以建立事件预测模型的方法,可以基于知识有效的快速获得大量已标注的训练数据,从而有效提升事件预测的准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例提供的一种可选的基于事件演化知识本体的事件预测方法的硬件环境示意图;
图2为根据本发明实施例提供的一种可选的基于事件演化知识本体的事件预测方法流程图;
图3为根据本发明实施例提供的一种可选的事件抽取框架图;
图4为根据本发明实施例提供的一种可选的事件预测模型;
图5为根据本发明实施例提供的一种可选的社会安全领域事件预测实施例框图;
图6为根据本发明实施例提供的一种可选的基于事件演化知识本体的事件预测装置的框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
事件触发词:用于描述事件发生动作的词语,如事件“高速路上自卸车辆发生机械故障”的事件触发词为“发生”;
事件要素:用于描述事件发生地点、事件发生时间、事件造成影响等;
事件泛主体论元:用于表示基于事件触发词的事件主体即事件触发动作的具有泛化概念的施事者,如事件“高速路上自卸车辆发生机械故障”的事件泛主体论元为“车辆”;
事件泛客体论元:用于表示基于事件触发词的事件客体即事件触发动作的具有泛化概念的受事者,如事件“高速路上自卸车辆发生机械故障”的事件泛客体论元为“故障”;
事件本体知识:包括一个事件泛主体论元、一个事件泛客体论元和事件触发词,用于表示事件的抽象语义,如事件“高速路上自卸车辆发生机械故障”的事件本体知识为“发生<车辆,故障>”,是具体事件“高速路上自卸车辆发生机械故障”的本体语义的知识表征,表明这条本体事件之下还可以存在其他的具体事件;
事件演化关系本体:由若干事件本体知识根据演化关系组合构成;
事件元组:由事件触发词和事件要素组成的具体事件的集合;
事件链:由多个具有演化关系的事件本体知识的事件触发词组成,用于表示事件的演化进程。
根据本发明实施例的一方面,提供了一种基于事件演化知识本体的事件预测方法的实施例。
可选地,在本发明实施例中,上述基于事件演化知识本体的事件预测方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本发明实施例中的基于事件演化知识本体的事件预测方法可以由服务器103来执行,如图2所示,该方法可以包括以下步骤:
步骤S202:构建具备事件演化关系的事件演化本体知识库。
本发明实施例中,事件演化关系本体知识库由相对独立的事件演化关系本体组成,其中,该事件演化关系本体可包括预先设置的事件本体知识和事件触发词,事件触发词可以预先设置以用于定义中文事件。为了实现领域可扩展,本发明实施例以社会安全类突发事件为例进行详细说明,本发明实施例提供了一种可选的事件定义表,如表1所示,预先设置社会安全类突发事件的事件本体知识时可以定义社会安全领域突发事件的数据字段,其中,该数据字段可以是由事件触发词和事件要素组成,具体可以包括但不限于:新闻ID、新闻标题、新闻发表时间、事件ID、事件触发词、事件发生地点、事件发生时间和事件造成影响等。可选地,为更好的进行数据处理和分析,可以将上述中文表示的数据字段用对应的英文字段进行表示,如表1所示提供的一种可选的数据字段表示方式,包括但不限于:rowkey、info:title、info:time1、info:event、info:trigger、info:location、info:time2、info:cause、info:agent、info:object等。
表1
可选地,构建具备事件演化关系的事件演化本体知识库的步骤,还可以包括以下步骤1至2:
步骤1:获取事件本体知识。
步骤2:将事件本体知识的事件触发词按照演化关系进行关联,得到事件演化关系本体。
基于知识的事件预测需要有充足的知识储备作为基础,通过获取预先设置好的事件本体知识,根据该事件所在特定专业领域的先验知识获得的事件演化关系,可以对若干事件本体知识中的事件触发词进行关联、配对,形成具有演化关系的事件演化关系本体。表2为根据本发明实施例提供的一种可选的事件演化关系表。
表2
步骤S204:从事件演化本体知识库中抽取出第一事件链和第一事件元组。
可选地,从事件演化本体知识库中抽取出第一事件链和第一事件元组的步骤,还可以包括以下步骤1至3:
步骤1:获取第一文本数据。
步骤2:根据事件演化本体知识库中的事件触发词,对文本数据进行事件匹配。
步骤3:将匹配的事件进行关联,得到包括事件触发词和事件要素的第一事件元组,将事件触发词按照发生顺序进行组合,得到第一事件链。
可选地,获取第一文本数据,其中,第一文本数据可以包括特定专业领域的新闻,一则新闻中可以包括若干事件,因此可以根据事件演化关系本体知识库中的事件触发词对该第一文本数据进行匹配,将相同的事件触发词提取出来,为得到完整的事件,还需要将该事件触发词所在事件的事件要素也提取出来并与事件触发词进行关联得到第一事件元组,之后将该第一文本数据中提取出来的事件触发词按照文本数据中事件发生的先后顺序进行排列,得到第一事件链,该第一事件链用于表示第一文本数据即该条新闻中所发生事件的发展情况即演化关系。
可选地,提取事件触发词和事件要素可以利用自然语言处理工具如NLTK(NaturalLanguage Toolkit)来进行特征提取,其中,特征提取可以包括命名实体识别、句法分析、语义角色标注等手段,还可以使用自然语言处理工具如LTP(语言技术平台)来进行文本处理,其中,可以是对文本数据进行分词、分句和词性的分析,进一步的,再依存句法树分析,之后通过事件语义分析完成文本处理,在此不再赘述。
步骤S206:采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据。
其中,事件数据可以包括第二事件链,第二事件链可以包括第一事件链中的事件触发词和非结构化文本中与第一事件链中的事件触发词存在关联的触发词。
本发明实施例中,步骤S204提供的技术方案可以获得用于训练事件预测模型的已标注训练数据,但由于文本数据量少,尤其是已标注的文本数据更加稀少,因此可以利用步骤S204得到的已标注数据即所述事件元组和所述第一事件链,获取更多的标注数据以增加事件预测模型的训练样本。
可选地,采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有演化关系的事件数据的步骤,还可以包括以下步骤1至3:
步骤1:提取第二文本数据的事件触发词,按照发生顺序进行组合得到第二事件链。
步骤2:对比第二事件链与第一事件链,若第二事件链与第一事件链匹配,则将第二事件链中的事件触发词与对应的事件要素关联得到第二事件元组。
步骤3:对比第一事件元组和第二事件元组,选取置信度最高的第二事件元组对应的第二事件链,得到具有演化关系的所述事件数据。
可选地,所述第二文本数据可以包括与第一文本数据相同领域的文本,该文本来源可以包括但不限于新闻。本发明实施例中,第二文本数据的数据量相对远大于第一文本数据的数据量,可以使用自然语言处理工具如LTP(语言技术平台)来进行进行文本处理,其中,可以是对文本数据进行分词、分句和词性的分析,进一步的,再依存句法树分析,之后通过事件语义分析完成文本处理,在此不再赘述。完成文本处理后,则提取事件触发词和事件要素,即事件抽取,如图3所示。
可选地,将提取出来的事件触发词按照文本数据中事件发生的先后顺序进行排列得到第二事件链。此时可对第二事件链进行筛选,即标注出与第一事件链全部或部分相同的第二事件链。可选地,可以采用远程监督的方式,利用第一事件链去对齐第二事件链,将与第一事件链匹配的第二事件链与其对应的事件要素进行关联得到第二事件元组,其中,第二事件元组是为了与第一事件元组进行对比,筛选出置信度最高的第二事件元组对应的第二事件链,因为只进行利用第一事件链对第二事件链进行对齐、匹配的步骤后,无法根据当前得到的第二事件链选取出有效的句子,该句子由事件元组中的事件触发词和事件要素组成,可以描述事件链中两两事件触发词之间的关系。可选地,如“乔布斯创建了苹果”和“乔布斯吃了一个苹果”表达的完全不是一个关系,说明远程监督的方式得到的数据里存在大量噪声,在建模时可能会将不是表达某种关系的句子当作表达这种关系的句子,或者将表达某种关系的句子当作不表达这种关系的句子,从而引入噪声数据。因此为了减弱噪声传播的影响,可以利用第一事件元组与第二事件元组进行对比,即通过多示例学习的方法选取置信度最高的第二事件链,由此得到训练所需的事件数据以进行事件预测模型的训练。
步骤S208:利用事件数据训练以建立事件预测模型。
可选地,利用事件数据训练以建立事件预测模型的步骤,还可以包括以下步骤1至6:
步骤1:从事件数据中选出目标事件链,其中,目标事件链中的最后一个事件作为待预测事件。
步骤2:用带有学习权重的内嵌向量表示目标事件链和事件数据中的其他事件链。
步骤3:将内嵌向量输入长短时记忆人工神经网络进行编码学习,得到事件序列信息。
步骤4:根据事件数据的语义对事件序列信息进行权重计算,得到注意力权重,其中,注意力权重表示目标事件链和事件数据中的其他事件链中的每个事件对待预测事件的影响程度。
步骤5:利用注意力权重计算待预测事件与其他事件的相关度。
步骤6:将相关度和事件数据输入损失函数进行事件预测模型训练。
可选地,从事件数据中选出目标事件链,将目标事件链中的最后一个事件作为待预测事件,将目标事件链作为正例,从事件数据中随机选取第三事件链作为负例,其中,目标事件链中包括待预测事件和在待预测事件之前发生的事件。将所述目标事件链和第三事件链的每个事件组织成Ii=(a0,a1,a2),其中,Ii表示输入的第i个事件,a0、a1、a2表示所述事件元组中事件的要素;
将事件Ii变换为带有学习权重的内嵌向量ei,表示为ei=[W0a0;W1a1;W2a2],如图4所示,其中“[;]”表示向量的拼接,W0、W1、W2表示事件预测模型的训练过程中要学习的权重矩阵;
待预测事件作为候选事件,其中第c个事件表示候选事件。将事件链包括待预测事件的表示输入长短时记忆人工神经网络进行编码学习,得到含有事件序列信息的事件表示hi,如图4所示,其中hi∈[1,n-1]=LSTM(ei∈[1,c])表示候选事件即在事件序列中已经发生的前n-1个事件的隐向量表示,候选事件hc=LSTM(ei∈[1,c]);
基于领域事件的事件预测,以使在不同类型的数据存在样本不均匀的情况下能够学习不同类型下的事件发展模式,并通过在这种模式下进行事件预测,将事件类型的语义即事件类型的内嵌向量et作为事件的隐向量表示在学习过程中,得到新的事件表示vi:
vi∈[1,n-1]=(hi+relu(Wtihi+Wtet)),
如图4所示,其中,relu函数为非线性激活函数,Wti、Wt为事件预测模型的构建过程中需要学习的权重矩阵;
对事件链中每个事件对于候选事件的影响程度进行权重计算,将事件类型的语义即事件类型的内嵌向量et作为事件的隐向量表示在学习过程中,其中注意力权重ai为:
ai=softmax(tanh(Weivi+Wchc+ba)),
其中,tanh为非线性激活函数,softmax为归一化函数,将注意力权重归一化到[0,1]区间,并使得所有的权重值相加为1,Wei、Wc为事件预测模型的构建过程中需要学习的权重矩阵,ba为事件预测模型的构建过程中需要学习的偏置向量;
si=sigmoid(Wsivi+Wschc+bs),
其中,Wsi和Wsc为事件预测模型的构建过程中需要学习的权重矩阵,bs为事件预测模型的构建过程中需要学习的偏置向量;
构建好事件预测模型后,将训练数据输入模型中进行事件预测模型训练,其中训练的损失函数L(θ)为:
其中,si为要预测的第i个条数据的事件的相关性得分,yi是训练数据中预测事件的真实值,yi=1表示正样本即正确发生的事件,yi=0表示负样本即并未发生的事件,Θ表示模型的所有参数,γ是为了防止过拟合增加的L2正则项的参数,N为训练数据的总数,在模型训练过程中,选用Adam优化器进行自适应调整学习率。
如图4所示为根据本发明实施例提供的一种可选的事件预测模型。
训练好的模型作为预测接口挂载到事件预测系统中,可选的,可以按照事件类型分别进行预测,不同类型的事件需要的训练数据不同,得到的事件预测模型也不尽相同,因此每一种事件类型的事件数据分别包含一个预测模型。整个系统在构造过程中,只需要集成相关类型的事件数据作为模型输入就能实现此类型下的事件预测。作为一种可选的实施例,本发明提供了一种社会安全领域事件预测实施例,如图5所示。新闻事件:11月15日14时A市区一七旬老太落井,由于井下呼吸困难导致老人已经昏迷,A市警方对A市工程承包公司展开调查。根据本发明实施例提供的基于事件演化知识本体的事件预测方法,可以提取出事件触发词落井、导致和展开,以及相关事件要素,可知事件本体知识“落井<老太,None>”、“导致<None,昏迷>”和“展开<警方,调查>”并可以按照事件触发词的发生顺序组成事件链,经过关系数据回标从大量相同领域相似事件的训练得到针对社会安全类事件预测模型,得到待预测事件“被追责<人,None>”。
根据本发明实施例的另一个方面,如图6所示,提供一种基于事件演化知识本体的事件预测装置,包括:
构建模块601,用于构建具备事件演化关系的事件演化本体知识库,其中,事件演化本体知识库包括事件触发词,事件触发词为事件的触发词;
提取模块603,用于从事件演化本体知识库中抽取出第一事件链和第一事件元组,其中,第一事件元组包括事件触发词和事件要素,第一事件链包括事件触发词;
数据回标模块605,用于采用远程监督的方式,利用第一事件元组和第一事件链对非结构化文本进行关系数据回标,得到具有演化关系的事件数据,其中,事件数据包括第二事件链,第二事件链包括第一事件链中的触发词和非结构化文本中与第一事件链中的触发词存在关联的触发词;
建模模块607,用于利用事件数据训练以建立事件预测模型,其中,事件预测模型用于预测具备事件演化关系的事件。
可选地,基于事件演化知识本体的事件预测装置,还可以包括:
第一获取模块,用于获取事件本体知识,其中,事件本体知识包括事件泛主体论元、事件泛客体论元和所述事件触发词,事件泛主体论元用于表示事件触发词的事件主体,事件泛客体论元用于表示事件触发词的事件客体;
第一关联模块,用于将事件本体知识的事件触发词按照事件演化关系进行关联,得到事件演化关系本体,其中,事件演化本体知识库包括事件演化关系本体,该事件演化关系包括不同领域的先验知识。
可选地,基于事件演化知识本体的事件预测装置,还可以包括:
第二获取模块,用于获取第一文本数据,其中,第一文本数据包括目标领域的文本;
匹配模块,用于根据事件演化本体知识库中的事件触发词,对第一文本数据进行事件匹配,其中,所匹配的事件包括与事件触发词关联的事件;
第二关联模块,用于将匹配的事件进行关联,得到包括事件触发词和事件要素的第一事件元组,将事件触发词按照先后顺序进行组合,得到第一事件链。
可选地,基于事件演化知识本体的事件预测装置,还可以包括:
第三获取模块,用于提取第二文本数据的事件触发词,按照先后顺序进行组合得到第二事件链,其中,第二文本数据包括与第一文本数据相同领域的文本数据;
第一对比模块,用于对比第二事件链与第一事件链,若第二事件链与所述第一事件链匹配,则将第二事件链中的事件触发词与对应的事件要素关联得到第二事件元组;
第二对比模块,用于对比第一事件元组和第二事件元组,选取置信度最高的第二事件元组对应的第二事件链,得到具有事件演化关系的事件数据。
可选地,基于事件演化知识本体的事件预测装置,还可以包括:
选择模块,用于从事件数据中选出目标事件链,其中,目标事件链中的最后一个事件作为待预测事件;
表示模块,用于用带有学习权重的内嵌向量表示目标事件链和事件数据中的其他事件链;
学习模块,用于将内嵌向量输入长短时记忆人工神经网络进行编码学习,得到事件序列信息;
权重计算模块,用于根据事件数据的语义对事件序列信息进行权重计算,得到注意力权重,其中,注意力权重用于表示目标事件链和事件数据中的其他事件链中的每个事件对待预测事件的影响程度;
相关度计算模块,用于利用注意力权重计算待预测事件与关联事件的相关度;
训练模块,用于将相关度和事件数据输入损失函数进行事件预测模型训练。
根据本发明实施例的另一个方面还提供了一种终端设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述步骤。
根据本发明实施例的另一个方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述任一方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于事件演化知识本体的事件预测方法,其特征在于,包括:
构建具备事件演化关系的事件演化本体知识库,其中,所述事件演化本体知识库包括事件触发词,所述事件触发词为事件的触发词;
从所述事件演化本体知识库中抽取出第一事件链和第一事件元组,其中,所述第一事件元组包括所述事件触发词和事件要素,所述第一事件链包括所述事件触发词;
采用远程监督的方式,利用所述第一事件元组和所述第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据,其中,所述事件数据包括第二事件链,所述第二事件链包括所述第一事件链中的所述事件触发词和所述非结构化文本中与所述第一事件链中的所述事件触发词存在关联的触发词;
利用所述事件数据训练以建立事件预测模型,其中,所述事件预测模型用于预测具备事件演化关系的事件;
所述采用远程监督的方式,利用所述第一事件元组和所述第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据包括:提取第二文本数据的事件触发词,按照先后顺序进行组合得到所述第二事件链,其中,所述第二文本数据包括与第一文本数据相同领域的文本数据;对比所述第二事件链与所述第一事件链,若所述第二事件链与所述第一事件链匹配,则将所述第二事件链中的事件触发词与对应的事件要素关联得到第二事件元组;对比所述第一事件元组和所述第二事件元组,选取置信度最高的第二事件元组对应的第二事件链,得到具有事件演化关系的所述事件数据。
2.根据权利要求1所述的方法,其特征在于,构建具备事件演化关系的事件演化本体知识库包括:
获取事件本体知识,其中,所述事件本体知识包括事件泛主体论元、事件泛客体论元和所述事件触发词,所述事件泛主体论元用于表示所述事件触发词的事件主体,所述事件泛客体论元用于表示所述事件触发词的事件客体;
将所述事件本体知识的所述事件触发词按照事件演化关系进行关联,得到事件演化关系本体,其中,所述事件演化本体知识库包括事件演化关系本体,该事件演化关系包括不同领域的先验知识。
3.根据权利要求1所述的方法,其特征在于,从所述事件演化本体知识库中抽取出第一事件链和第一事件元组包括:
获取第一文本数据,其中,所述第一文本数据包括目标领域的文本数据;
根据所述事件演化本体知识库中的所述事件触发词,对所述第一文本数据进行事件匹配,其中,所匹配的事件包括与所述事件触发词关联的事件;
将匹配的事件进行关联,得到包括所述事件触发词和所述事件要素的所述第一事件元组,将所述事件触发词按照先后顺序进行组合,得到所述第一事件链。
4.根据权利要求1所述的方法,其特征在于,利用所述事件数据训练以建立事件预测模型包括:
从所述事件数据中选出目标事件链,其中,所述目标事件链中的最后一个事件作为待预测事件;
用带有学习权重的内嵌向量表示所述目标事件链和所述事件数据中的其他事件链;
将所述内嵌向量输入长短时记忆人工神经网络进行编码学习,得到事件序列信息;
根据所述事件数据的语义对所述事件序列信息进行权重计算,得到注意力权重,其中,所述注意力权重用于表示所述目标事件链和所述事件数据中的其他事件链中的每个事件对所述待预测事件的影响程度;
利用所述注意力权重计算所述待预测事件与关联事件的相关度;
将所述相关度和所述事件数据输入损失函数进行事件预测模型训练。
5.一种基于事件演化知识本体的事件预测装置,其特征在于,包括:
构建模块,用于构建具备事件演化关系的事件演化本体知识库,其中,所述事件演化本体知识库包括事件触发词,所述事件触发词为事件的触发词;
提取模块,用于从所述事件演化本体知识库中抽取出第一事件链和第一事件元组,其中,所述第一事件元组包括所述事件触发词和事件要素,所述第一事件链包括所述事件触发词;
数据回标模块,用于采用远程监督的方式,利用所述第一事件元组和所述第一事件链对非结构化文本进行关系数据回标,得到具有演化关系的事件数据,其中,所述事件数据包括第二事件链,所述第二事件链包括所述第一事件链中的触发词和所述非结构化文本中与所述第一事件链中的触发词存在关联的触发词;
建模模块,用于利用所述事件数据训练以建立事件预测模型,其中,所述事件预测模型用于预测具备事件演化关系的事件;
所述数据回标模块还用于采用远程监督的方式,利用所述第一事件元组和所述第一事件链对非结构化文本进行关系数据回标,得到具有事件演化关系的事件数据包括:提取第二文本数据的事件触发词,按照先后顺序进行组合得到所述第二事件链,其中,所述第二文本数据包括与第一文本数据相同领域的文本数据;对比所述第二事件链与所述第一事件链,若所述第二事件链与所述第一事件链匹配,则将所述第二事件链中的事件触发词与对应的事件要素关联得到第二事件元组;对比所述第一事件元组和所述第二事件元组,选取置信度最高的第二事件元组对应的第二事件链,得到具有事件演化关系的所述事件数据。
6.一种终端设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的方法的步骤。
7.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至4任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168831.9A CN111160005B (zh) | 2019-11-25 | 2019-11-25 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168831.9A CN111160005B (zh) | 2019-11-25 | 2019-11-25 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160005A CN111160005A (zh) | 2020-05-15 |
CN111160005B true CN111160005B (zh) | 2022-06-24 |
Family
ID=70556102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911168831.9A Active CN111160005B (zh) | 2019-11-25 | 2019-11-25 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160005B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797233B (zh) * | 2020-06-12 | 2021-04-30 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN111753197B (zh) * | 2020-06-18 | 2024-04-05 | 达观数据有限公司 | 新闻要素的提取方法、装置、计算机设备和存储介质 |
WO2022002108A1 (en) * | 2020-06-30 | 2022-01-06 | 5G Care Limited | Intelligent system and method for event tracking |
CN112052665B (zh) * | 2020-09-12 | 2023-06-20 | 广东工业大学 | 一种远程监督事件抽取方法及其应用 |
CN113761337B (zh) * | 2020-12-31 | 2023-10-27 | 国家计算机网络与信息安全管理中心 | 基于事件隐式要素与显式联系的事件预测方法和装置 |
CN113377926B (zh) * | 2021-06-28 | 2022-11-25 | 中国标准化研究院 | 一种质量信息本体演化的注册元模型的构建方法 |
CN113449508B (zh) * | 2021-07-15 | 2023-01-17 | 上海理工大学 | 一种基于事件链的网络舆情关联推演预测分析方法 |
CN113781643B (zh) * | 2021-11-10 | 2022-02-18 | 长沙能川信息科技有限公司 | 基于事件链的变电站三维模型显示方法、装置和介质 |
CN114398891B (zh) * | 2022-03-24 | 2022-06-24 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN116070786B (zh) * | 2023-03-07 | 2023-06-20 | 华侨大学 | 基于事件演化图的多标记事件预测方法、装置和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965726B1 (en) * | 2015-04-24 | 2018-05-08 | Amazon Technologies, Inc. | Adding to a knowledge base using an ontological analysis of unstructured text |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11132541B2 (en) * | 2017-09-29 | 2021-09-28 | The Mitre Corporation | Systems and method for generating event timelines using human language technology |
US11551105B2 (en) * | 2018-04-20 | 2023-01-10 | Servicenow, Inc. | Knowledge management using machine learning model trained on incident-knowledge relationship fingerprints |
-
2019
- 2019-11-25 CN CN201911168831.9A patent/CN111160005B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965726B1 (en) * | 2015-04-24 | 2018-05-08 | Amazon Technologies, Inc. | Adding to a knowledge base using an ontological analysis of unstructured text |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于本体推理演化的财经预测与分析;姜赢等;《计算机系统应用》;20170915(第09期);第287-291页 * |
基于知识元的非常规突发事件情景模糊推演方法;张磊等;《系统工程学报》;20161215;第31卷(第06期);第729-738页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111160005A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160005B (zh) | 基于事件演化知识本体的事件预测方法、装置及终端设备 | |
Zhang et al. | Dependency sensitive convolutional neural networks for modeling sentences and documents | |
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
Zhou et al. | VictimFinder: Harvesting rescue requests in disaster response from social media with BERT | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN112507699B (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
EP3848797A1 (en) | Automatic parameter value resolution for api evaluation | |
CN109871452B (zh) | 确定犯罪特征的方法、装置以及存储介质 | |
CN110675023B (zh) | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 | |
CN110826316B (zh) | 一种应用于裁判文书中敏感信息的识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN114297394B (zh) | 对文本中的事件论元进行抽取的方法和电子设备 | |
Fan et al. | A system analytics framework for detecting infrastructure-related topics in disasters using social sensing | |
US20230205995A1 (en) | Methods and Systems for Automated Detection of Personal Information Using Neural Networks | |
CN113011161A (zh) | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 | |
Roy et al. | Disaster related social media content processing for sustainable cities | |
CN114462379A (zh) | 一种改进的基于事件演化图的脚本学习方法和装置 | |
Chen et al. | Social media data-based typhoon disaster assessment | |
CN113312490B (zh) | 一种针对突发事件的事件知识图谱构建方法 | |
CN117520786A (zh) | 基于nlp和循环神经网络的大语言模型构建方法 | |
Li et al. | Automated construction of bridge condition inventory using natural language processing and historical inspection reports | |
CN113222471B (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
CN115098687A (zh) | 面向电力sdh光传输系统调度运行的告警排查方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |