CN110781317A - 事件图谱的构建方法、装置及电子设备 - Google Patents
事件图谱的构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110781317A CN110781317A CN201911041241.XA CN201911041241A CN110781317A CN 110781317 A CN110781317 A CN 110781317A CN 201911041241 A CN201911041241 A CN 201911041241A CN 110781317 A CN110781317 A CN 110781317A
- Authority
- CN
- China
- Prior art keywords
- event
- meta
- target
- events
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种事件图谱的构建方法、装置及电子设备,涉及信息挖掘技术领域,包括获取目标事件的多个目标事件文本;对目标事件文本进行元事件抽取,得到多个原始元事件;原始元事件包括第一事件关键词;基于预设的事理图谱和第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件;其中,事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;根据目标元事件对事理图谱中的事件进行更新,得到目标事件文本对应的事件图谱。本发明能够减小生成事件图谱的复杂度,提升事件图谱的获取效率和事件追踪能力。
Description
技术领域
本发明涉及信息挖掘技术领域,尤其是涉及一种事件图谱的构建方法、装置及电子设备。
背景技术
随着互联网的发展,当出现某个新闻事件(如火灾事件)时,关于该事件的报道文本数据规模大且分散,这给追踪查询新闻事件带来了很大的障碍。
目前通过构建事件图谱实现事件追踪的方式主要有如下两种。一种是先抽取多个元事件,再抽取各元事件之间的关系。然而事件关系抽取十分复杂,传统的基于模板的关系抽取拓展性差,基于监督学习的方法需要大量标注好的训练样本,非常耗时。另一种主要通过多个复杂的公式定义不同元事件之间的关系。为了定义不同的关系需要调试不同的参数,这样不但会在定义关系过程中会花费较多时间,而且定义的关系是有限的,很难刻画更复杂的关系。
因此,采用上述方式构建事件图谱十分复杂,导致事件追踪能力较差,使得用户获取事件信息的效率不高。
发明内容
本发明的目的在于提供事件图谱的构建方法、装置及电子设备,能够减小生成事件图谱的复杂度,提升事件图谱的获取效率和事件追踪能力。
本发明提供的事件图谱的构建方法,包括:获取目标事件的多个目标事件文本;对所述目标事件文本进行元事件抽取,得到多个原始元事件;所述原始元事件包括第一事件关键词;基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,所述事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;根据所述目标元事件对所述事理图谱中的事件进行更新,得到所述目标事件文本对应的事件图谱。
进一步,所述对所述目标事件文本进行元事件抽取,得到多个原始元事件的步骤,包括:根据预设的文本分词方法对所述目标事件文本进行拆解,得到所述目标事件文本对应的多个分词;其中,所述预设的文本分词方法包括:基于词典的文本分词方法、基于统计的文本分词方法或基于机器学习的文本分词方法;对多个所述分词中的停用词进行过滤,将过滤后的分词确定为关键词;采用机器学习算法对各所述关键词进行抽取,得到多个原始元事件;其中,所述机器学习算法包括以下任意一种:支持向量机、条件随机场和隐马尔科夫模型;所述原始元事件包括所述第一事件关键词和事件元素,且所述事件元素包括以下一种或多种:时间元素、地点元素、角色元素、事件主题元素和动作元素。
进一步,所述方法还包括:对所述原始元事件进行关联,生成所述目标事件文本对应的元事件图谱。
进一步,所述事理图谱包括第二事件关键词;所述基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件的步骤,包括:通过word2vec模型对所述第一事件关键词进行映射,得到所述第一事件关键词对应的第一词向量;通过所述word2vec模型对所述第二事件关键词进行映射,得到所述第二事件关键词对应的第二词向量;计算多个所述第一词向量和多个所述第二词向量两两之间的相似度;基于计算得到的相似度和预设的相似度阈值,从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,每个所述目标元事件与所述事理图谱中的一个所述第二事件关键词匹配。
进一步,所述基于计算得到的相似度和预设的相似度阈值,从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件的步骤,包括:基于计算得到的相似度和预设的相似度阈值,确定具有相似关系的第一词向量和第二词向量;其中,具有相似关系的第一词向量和第二词向量的相似度大于所述相似度阈值;对于一组具有相似关系的第一词向量和第二词向量,根据所述第一事件关键词确定当前的第一词向量对应的当前原始元事件;判断当前的第二词向量对应的第二事件关键词是否已匹配有元事件;如果没有,将所述当前原始元事件确定为与所述事理图谱匹配的目标元事件;如果有,获取所述当前原始元事件中包含的第一事件元素集合,并基于所述第一事件元素集合对已匹配的元事件进行更新,得到目标元事件。
进一步,所述基于所述第一事件元素集合对已匹配的元事件进行更新的步骤,包括:获取已匹配的元事件中包含的第二事件元素集合;判断所述第一事件元素集合中的事件元素是否与所述第二事件元素集合的事件元素相同;如果不相同,将所述第一事件元素集合中不同于所述第二事件元素集合的事件元素添加至所述第二事件元素集合;如果相同,判断所述第一事件元素集合中当前事件元素的分词数量是否大于所述第二事件元素集合中当前事件元素的分词数量;如果大于,将所述第二事件元素集合中当前事件元素替换为所述第一事件元素集合中当前事件元素。
进一步,所述计算多个所述第一词向量和多个所述第二词向量两两之间的相似度的步骤,包括:根据余弦相似度公式计算多个所述第一词向量和多个所述第二词向量两两之间的相似度。
进一步,所述获取目标事件的多个目标事件文本的步骤,包括:通过网络爬虫获取多个原始事件文本;通过预设的神经网络模型对各所述原始事件文本进行二分类,得到多个与目标事件相关的原始事件文本;将所述与目标事件相关的原始事件文本确定为目标事件文本。
本发明提供的一种事件图谱的构建装置,包括:文本获取模块,用于获取目标事件的多个目标事件文本;原始元事件抽取模块,用于对所述目标事件文本进行元事件抽取,得到多个原始元事件;所述原始元事件包括第一事件关键词;目标元事件确定模块,用于基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,所述事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;图谱更新模块,用于根据所述目标元事件对所述事理图谱中的事件进行更新,得到所述目标事件文本对应的事件图谱。
本发明提供的一种电子设备,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如上述的方法。
本发明提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本发明实施例提供了一种事件图谱的构建方法、装置及电子设备,通过首先获取的目标事件文本的多个原始元事件,原始元事件包括第一事件关键词;然后基于预设的事理图谱和第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件,该事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;最后根据目标元事件对事理图谱中的事件进行更新,得到目标事件文本对应的事件图谱。相对于现有技术中需要抽取或定义事件关系,本实施例提供的上述方式,根据目标元事件更新事理图谱,不但能够直接利用事理图谱中记录的事件因果关系和/或事件时序关系,避免了对原始元事件进行关系抽取,以减小生成事件图谱的复杂度;而且还能够通过更新事件,提高针对目标事件文本的事件图谱的获取效率,进而有效提升事件追踪能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的事件图谱的构建方法流程图;
图2为本发明实施例提供的火灾事件的元事件图谱的示意图;
图3为本发明实施例提供的火灾事件的事理图谱的示意图;
图4为本发明实施例提供的元事件与事理图谱的对应关系示意图;
图5为本发明实施例提供的事件图谱的构建装置的结构框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有通过构建事件图谱实现事件追踪的方式中,存在构建事件图谱复杂导致事件追踪能力较差,用户获取事件信息的效率不高的问题,本发明实施例提供的一种事件图谱的构建方法、装置及电子设备,能够减小生成事件图谱的复杂度,提升事件图谱的获取效率和事件追踪能力。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种事件图谱的构建方法进行详细介绍。
实施例一:
参照如图1所示的事件图谱的构建方法流程图,该方法主要包括如下步骤S102至步骤S108:
步骤S102,获取目标事件的多个目标事件文本,该目标事件为用户关心的或指定的某一起事件,可以包括按照事件内容划分的政治事件、经济事件、社会事件和国际事件等;每种类别的事件还可以按照事件主题划分为颗粒度更细的类别,诸如社会事件可以包括火灾事件、考研报名事件、猪肉涨价事件等。目标事件文本一般是针对某一起事件的大量事件文本,比如通过于新浪、搜狐等多个新闻平台获取的关于某时某地的火灾事件的大量事件文本均为目标事件文本。
步骤S104,对目标事件文本进行元事件抽取,得到多个原始元事件;原始元事件包括第一事件关键词。
在本实施例中,针对每个目标事件文本,均可以先将目标事件文本拆解为多个关键词,然后再基于关键词得到多个原始元事件,每个原始元事件通常是由多个关键词组成,用于表示一个相对完整的事件,比如原始元事件为:“X时刻、A市、发生、火灾”。每个原始元事件可以包括一个第一事件关键词和至少一个事件元素。其中,该第一事件关键词表示事件发生的核心词,多为动词或名词,可以是根据目标事件文本关键词的出现频率确定的,或者还可以是根据目标事件文本中的新闻题目确定的。该事件元素表示事件的参与者、时间、地点等属性信息,诸如包括时间元素、地点元素、角色元素和动作元素等。
步骤S106,基于预设的事理图谱和第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件。其中,事理图谱包括按照事件因果关系和/或事件时序关系连接的事件,可以理解为,事理图谱是以事件为节点,事件间的关系为边的有向图谱网络,用于描述事件之间的演化规律和模式。
在一些可能的实施方式中,该事理图谱可以是通过用户手动构建或者是基于大量的事件文本自动获取的。例如:对多个历史事件文本的因果关系和时序关系进行聚合演化以构建事理图谱。通常该步骤是采用自动获取方式实现的,诸如通过NLP(自然语言处理)引擎按照训练完成的模型对历史事件文本进行解析,基于解析得到的事件以及事件因果关系、事件时序关系构建事理图谱。采用该自动获取方式构建的事理图谱成本较低,规模可快速扩充,能够迅速挖掘出海量逻辑,以满足应用于多种领域和多种事件类别。为了提升事理图谱的准确性和合理性,还可以采用人工手动方式对上述构建的事理图谱做进一步的修正,确定最终的事理图谱。
步骤S108,根据目标元事件对事理图谱中的事件进行更新,得到目标事件文本对应的事件图谱。
预设的事理图谱所展示的事件之间的事件因果关系和/或事件时序关系通常是稳定的,而所发生事件的时间、地点等事件元素通常是不同的,在此情况下,本实施例只对事理图谱中的事件进行更新且直接利用事件因果关系和/或事件时序关系,即可生成目标事件文本对应的事件图谱。
本实施例提供的事件图谱的构建方法,通过首先获取的目标事件文本的多个原始元事件,原始元事件包括第一事件关键词;然后基于预设的事理图谱和第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件,该事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;最后根据目标元事件对事理图谱中的事件进行更新,得到目标事件文本对应的事件图谱。相对于现有技术中需要抽取或定义事件关系,本实施例提供的上述方式,根据目标元事件更新事理图谱,不但能够直接利用事理图谱中记录的事件因果关系和/或事件时序关系,避免了对原始元事件进行关系抽取,以减小生成事件图谱的复杂度;而且还能够通过更新事件,提高针对目标事件文本的事件图谱的获取效率,进而有效提升事件追踪能力。
在执行上述步骤S102获取目标事件文本时,可以参照如下步骤(1)至步骤(3)实现:
(1)通过网络爬虫获取多个原始事件文本。诸如,通过网络爬虫获取诸如微博、豆瓣和搜狐等新闻平台中发布海量新闻报道文本,将爬取到的新闻报道文本作为原始事件文本。
(2)通过预设的神经网络模型对各原始事件文本进行二分类,得到多个与目标事件相关的原始事件文本。该神经网络模型诸如为FastText、TextCNN或者HAN(HierarchyAttention Network)等可用于文本分类的模型。通过神经网络模型对原始事件文本进行二分类,也即将与用户所关心的目标事件相关的多个原始事件文本划分一类,将其余的原始事件文本划分为另一类。
(3)将与目标事件相关的原始事件文本确定为目标事件文本。例如,目标事件为用户所关心的某一起火灾事件,关于该火灾事件的一个目标事件文本为“1月14日18时19分,A市B区C街道XXX家属院17号楼一单元发生火灾,火势由二、三、四阳台向上蔓延,一名老人被困屋内,情况危急。A市消防支队D中队接警后,迅速赶赴现场展开救援,将被困老人救出。记者了解到,火灾发生后,A市消防支队D中队立即赶赴现场开展救援,经现场侦查发现,火势由二、三、四楼阳台向上蔓延,均已过火”。
该获取目标事件文本的方式,通过爬取原始事件文本可以确保事件文本的数量规模,有利于最终用于构建事件图谱的准确性;通过分类并确定目标事件文本是为了降低非相关事件对用户所需目标事件的噪声干扰。
本发明实施例提供一种对目标事件文本进行元事件抽取,得到多个原始元事件的实现方式,可以包括如下步骤a至步骤c:
步骤a,根据预设的文本分词方法对目标事件文本进行拆解,得到目标事件文本对应的多个分词;其中,预设的文本分词方法诸如包括:基于词典的文本分词方法、基于统计的文本分词方法或基于机器学习的文本分词方法等。为便于理解,在此给出一种基于词典的文本分词方法对目标事件文本进行拆解的具体示例,包括:按照最大逆向匹配对目标事件文本从末端向首端进行扫描,将扫描到的词与预设词库中的词进行匹配,将匹配到的最长的词确定为分词。该拆解目标事件文本的方式具有速度快的优势。
步骤b,对多个分词中的停用词进行过滤,将过滤后的分词确定为关键词。其中,停用词通常是指对文本特征没有实际含义的词,比如标点、人称和语气等词。过滤掉停用词能够提升后续抽取原始元事件的效率。比如,对于上述提供的目标事件文本的示例,经过停用词过滤后的关键词可能为:“A市B区C街道XXX家属院17号楼一单元发生火灾”。
步骤c,采用机器学习算法对各关键词进行抽取,得到多个原始元事件;其中,机器学习算法包括以下任意一种:支持向量机、条件随机场和隐马尔科夫模型;原始元事件包括第一事件关键词和事件元素,且事件元素包括但不限于:时间元素、地点元素、角色元素、事件主题元素和动作元素。
可以理解的是,还可以对原始元事件进行关联,生成目标事件文本对应的元事件图谱。元事件图谱的示例可参照如图2所示的火灾事件的元事件图谱,该图谱中展示了地点元素和时间元素两个事件元素。本实施例还提供一种火灾事件的事理图谱,如图3所示,该事理图谱的节点是单个的事件关键词(也即第二事件关键词),展示了一系列相关事件的发展,包括从发生火灾之后可能的几种发展方向(如把火扑灭和火势蔓延),每种发展方向触发的不同事件,如对应于把火扑灭所触发的事件为救援受害者。
本实施例可以基于预设的事理图谱和元事件图谱中的第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件,在一种可能的实施例中可参照如下步骤1至步骤4:
步骤1,通过word2vec模型对第一事件关键词进行映射,得到第一事件关键词对应的第一词向量。为了便于描述,可以采用keyevent表示第一事件关键词,采用vecevent表示第一词向量。
步骤2,通过word2vec模型对第二事件关键词进行映射,得到第二事件关键词对应的第二词向量。本实施例中,可以采用keylogic表示第二事件关键词,采用veclogic表示第二词向量。
步骤3,计算多个第一词向量和多个第二词向量两两之间的相似度。
在实际应用中,可以根据如下余弦相似度公式计算多个第一词向量vecevent和多个第二词向量veclogic两两之间的相似度:
S(veclogic,vecevent)=cos(veclogic,vecevent)
可以理解的是,该基于余弦相似度公式计算相似度的方法仅为示例性描述,不应理解为限制,诸如还可以通过欧几里得距离算法、皮尔逊相关系数算法等计算第一词向量和第二词向量之间的相似度。
步骤4,基于计算得到的相似度和预设的相似度阈值,从所有原始元事件中确定与事理图谱匹配的多个目标元事件;其中,每个目标元事件只与事理图谱中的一个第二事件关键词匹配。
本步骤在具体实现时,可以首先基于计算得到的相似度和预设的相似度阈值,确定具有相似关系的第一词向量和第二词向量;其中,具有相似关系的第一词向量和第二词向量的相似度大于相似度阈值。可以理解,具有相似关系的第一词向量和第二词向量可以有多组。参照如图4所示的元事件与事理图谱的对应关系示意图,“火灾”与“发生火灾”即为一组具有相似关系的第一词向量和第二词向量。
然后对于一组具有相似关系的第一词向量和第二词向量,根据第一事件关键词确定当前的第一词向量对应的当前原始元事件;
最后判断当前的第二词向量对应的第二事件关键词是否已匹配有元事件;如果没有,将当前原始元事件确定为与事理图谱匹配的目标元事件。如图4所示,将“火灾”确定为与事理图谱匹配的目标元事件,具体而言,可以理解为将“火灾”确定为与事理图谱中“发生火灾”这一第二事件关键词匹配的目标元事件。
如果当前的第二词向量对应的第二事件关键词已匹配有元事件,获取当前原始元事件(表示为Ej)中包含的第一事件元素集合,并基于第一事件元素集合对已匹配的元事件进行更新,得到目标元事件。
在本实施例中,该基于第一事件元素集合更新已匹配的元事件以得到目标元事件的方法可以包括:首先获取已匹配的元事件(表示为Ei)中包含的第二事件元素集合;然后判断第一事件元素集合中的事件元素是否与第二事件元素集合的事件元素相同。
如果第一事件元素集合中的事件元素与第二事件元素集合的事件元素不相同,将第一事件元素集合中不同于第二事件元素集合的事件元素添加至第二事件元素集合;比如已匹配的元事件Ei的第二事件元素集合中没有地点元素,而当前原始元事件Ej的第一事件元素集合中包含地点元素,则将当前原始元事件Ej中的地点元素添加到已匹配的元事件Ei中。
如果第一事件元素集合中的事件元素与第二事件元素集合的事件元素相同,判断第一事件元素集合中当前事件元素的分词数量是否大于第二事件元素集合中当前事件元素的分词数量;如果大于,将第二事件元素集合中当前事件元素替换为第一事件元素集合中当前事件元素。比如已匹配的元事件Ei和当前原始元事件Ej的事件元素集合中均包含地点元素,其中,已匹配的元事件Ei对应的地点元素为“A市B区”,当前原始元事件Ej对应的地点元素为“A市B区C街道XXX家属院”。当前原始元事件Ej中地点元素的分词数量更多,表示该地点元素的信息更详细,则将“A市B区”替换为“A市B区C街道XXX家属院”,实现对已匹配的元事件Ei的更新。
通过上述方式获取与事理图谱匹配的全部目标元事件后,将事理图谱中的各个事件均替换为匹配的目标元事件,完成对事理图谱的更新,从而得到目标事件文本对应的事件图谱。可以看出,本实施例中每个目标元事件只与事理图谱中的一个第二事件关键词匹配。
综上,上述实施例通过上述记录有事件因果关系和/或事件时序关系事理图谱,不需要抽取事件关系或定义事件关系,有效减小了构建事件图谱的复杂度;以及通过将元事件图谱与事理图谱相融合以构建目标事件文本对应的事件图谱,即使给定的目标事件文本没有出现相关事件,也可以通过事理图谱的信息,完整的展示相关事件的脉络,方便事件追踪。
实施例二:
基于上述实施例一所提供的事件图谱的构建方法,本实施例提供一种事件图谱的构建装置,参照图5所示的事件图谱的构建装置的结构框图,该装置主要包括:
文本获取模块502,用于获取目标事件的多个目标事件文本;
原始元事件抽取模块504,用于对目标事件文本进行元事件抽取,得到多个原始元事件;原始元事件包括第一事件关键词;
目标元事件确定模块506,用于基于预设的事理图谱和第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件;其中,事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;
图谱更新模块508,用于根据目标元事件对事理图谱中的事件进行更新,得到目标事件文本对应的事件图谱。
本实施例提供的事件图谱的构建装置,通过首先获取的目标事件文本的多个原始元事件,原始元事件包括第一事件关键词;然后基于预设的事理图谱和第一事件关键词从所有原始元事件中确定与事理图谱匹配的多个目标元事件,该事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;最后根据目标元事件对事理图谱中的事件进行更新,得到目标事件文本对应的事件图谱。相对于现有技术中需要抽取或定义事件关系,本实施例提供的上述方式,根据目标元事件更新事理图谱,不但能够直接利用事理图谱中记录的事件因果关系和/或事件时序关系,避免了对原始元事件进行关系抽取,以减小生成事件图谱的复杂度;而且还能够通过更新事件,提高针对目标事件文本的事件图谱的获取效率,进而有效提升事件追踪能力。
在一种实施例中,上述原始元事件抽取模块504进一步用于:根据预设的文本分词方法对目标事件文本进行拆解,得到目标事件文本对应的多个分词;其中,预设的文本分词方法包括:基于词典的文本分词方法、基于统计的文本分词方法或基于机器学习的文本分词方法;对多个分词中的停用词进行过滤,将过滤后的分词确定为关键词;采用机器学习算法对各关键词进行抽取,得到多个原始元事件;其中,机器学习算法包括以下任意一种:支持向量机、条件随机场和隐马尔科夫模型;原始元事件包括第一事件关键词和事件元素,且事件元素包括以下一种或多种:时间元素、地点元素、角色元素、事件主题元素和动作元素。
在一种实施例中,上述原始元事件抽取模块504进一步用于:对原始元事件进行关联,生成目标事件文本对应的元事件图谱。
在一种实施例中,上述事理图谱包括第二事件关键词;上述目标元事件确定模块506进一步用于:通过word2vec模型对第一事件关键词进行映射,得到第一事件关键词对应的第一词向量;通过word2vec模型对第二事件关键词进行映射,得到第二事件关键词对应的第二词向量;计算多个第一词向量和多个第二词向量两两之间的相似度;基于计算得到的相似度和预设的相似度阈值,从所有原始元事件中确定与事理图谱匹配的多个目标元事件;其中,每个所述目标元事件与所述事理图谱中的一个所述第二事件关键词匹配。
在一种实施例中,上述目标元事件确定模块506进一步用于:基于计算得到的相似度和预设的相似度阈值,确定具有相似关系的第一词向量和第二词向量;其中,具有相似关系的第一词向量和第二词向量的相似度大于相似度阈值;对于一组具有相似关系的第一词向量和第二词向量,根据第一事件关键词确定当前的第一词向量对应的当前原始元事件;判断当前的第二词向量对应的第二事件关键词是否已匹配有元事件;如果没有,将当前原始元事件确定为与事理图谱匹配的目标元事件;如果有,获取当前原始元事件中包含的第一事件元素集合,并基于第一事件元素集合对已匹配的元事件进行更新,得到目标元事件。
在一种实施例中,上述目标元事件确定模块506进一步用于:获取已匹配的元事件中包含的第二事件元素集合;判断第一事件元素集合中的事件元素是否与第二事件元素集合的事件元素相同;如果不相同,将第一事件元素集合中不同于第二事件元素集合的事件元素添加至第二事件元素集合;如果相同,判断第一事件元素集合中当前事件元素的分词数量是否大于第二事件元素集合中当前事件元素的分词数量;如果大于,将第二事件元素集合中当前事件元素替换为第一事件元素集合中当前事件元素。
在一种实施例中,上述目标元事件确定模块506进一步用于:根据余弦相似度公式计算多个第一词向量和多个第二词向量两两之间的相似度。
在一种实施例中,上述文本获取模块502进一步用于:通过网络爬虫获取多个原始事件文本;通过预设的神经网络模型对各原始事件文本进行二分类,得到多个与目标事件相关的原始事件文本;将与目标事件相关的原始事件文本确定为目标事件文本。
基于前述实施例,本发明实施例提供了一种电子设备,包括:处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行上述实施例中动作数据的修正方法。
进一步,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例中动作数据的修正方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、电子设备和机器可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (11)
1.一种事件图谱的构建方法,其特征在于,包括:
获取目标事件的多个目标事件文本;
对所述目标事件文本进行元事件抽取,得到多个原始元事件;所述原始元事件包括第一事件关键词;
基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,所述事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;
根据所述目标元事件对所述事理图谱中的事件进行更新,得到所述目标事件文本对应的事件图谱。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标事件文本进行元事件抽取,得到多个原始元事件的步骤,包括:
根据预设的文本分词方法对所述目标事件文本进行拆解,得到所述目标事件文本对应的多个分词;其中,所述预设的文本分词方法包括:基于词典的文本分词方法、基于统计的文本分词方法或基于机器学习的文本分词方法;
对多个所述分词中的停用词进行过滤,将过滤后的分词确定为关键词;
采用机器学习算法对各所述关键词进行抽取,得到多个原始元事件;其中,所述机器学习算法包括以下任意一种:支持向量机、条件随机场和隐马尔科夫模型;所述原始元事件包括所述第一事件关键词和事件元素,且所述事件元素包括以下一种或多种:时间元素、地点元素、角色元素、事件主题元素和动作元素。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述原始元事件进行关联,生成所述目标事件文本对应的元事件图谱。
4.根据权利要求1所述的方法,其特征在于,所述事理图谱包括第二事件关键词;所述基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件的步骤,包括:
通过word2vec模型对所述第一事件关键词进行映射,得到所述第一事件关键词对应的第一词向量;
通过所述word2vec模型对所述第二事件关键词进行映射,得到所述第二事件关键词对应的第二词向量;
计算多个所述第一词向量和多个所述第二词向量两两之间的相似度;
基于计算得到的相似度和预设的相似度阈值,从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,每个所述目标元事件与所述事理图谱中的一个所述第二事件关键词匹配。
5.根据权利要求4所述的方法,其特征在于,所述基于计算得到的相似度和预设的相似度阈值,从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件的步骤,包括:
基于计算得到的相似度和预设的相似度阈值,确定具有相似关系的第一词向量和第二词向量;其中,具有相似关系的第一词向量和第二词向量的相似度大于所述相似度阈值;
对于一组具有相似关系的第一词向量和第二词向量,根据所述第一事件关键词确定当前的第一词向量对应的当前原始元事件;
判断当前的第二词向量对应的第二事件关键词是否已匹配有元事件;
如果没有,将所述当前原始元事件确定为与所述事理图谱匹配的目标元事件;
如果有,获取所述当前原始元事件中包含的第一事件元素集合,并基于所述第一事件元素集合对已匹配的元事件进行更新,得到目标元事件。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一事件元素集合对已匹配的元事件进行更新的步骤,包括:
获取已匹配的元事件中包含的第二事件元素集合;
判断所述第一事件元素集合中的事件元素是否与所述第二事件元素集合的事件元素相同;
如果不相同,将所述第一事件元素集合中不同于所述第二事件元素集合的事件元素添加至所述第二事件元素集合;
如果相同,判断所述第一事件元素集合中当前事件元素的分词数量是否大于所述第二事件元素集合中当前事件元素的分词数量;如果大于,将所述第二事件元素集合中当前事件元素替换为所述第一事件元素集合中当前事件元素。
7.根据权利要求4所述的方法,其特征在于,所述计算多个所述第一词向量和多个所述第二词向量两两之间的相似度的步骤,包括:
根据余弦相似度公式计算多个所述第一词向量和多个所述第二词向量两两之间的相似度。
8.根据权利要求1所述的方法,其特征在于,所述获取目标事件的多个目标事件文本的步骤,包括:
通过网络爬虫获取多个原始事件文本;
通过预设的神经网络模型对各所述原始事件文本进行二分类,得到多个与预设的目标事件相关的原始事件文本;
将与所述目标事件相关的原始事件文本确定为目标事件文本。
9.一种事件图谱的构建装置,其特征在于,包括:
文本获取模块,用于获取目标事件的多个目标事件文本;
原始元事件抽取模块,用于对所述目标事件文本进行元事件抽取,得到多个原始元事件;所述原始元事件包括第一事件关键词;
目标元事件确定模块,用于基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,所述事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;
图谱更新模块,用于根据所述目标元事件对所述事理图谱中的事件进行更新,得到所述目标事件文本对应的事件图谱。
10.一种电子设备,其特征在于,包括:处理器和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911041241.XA CN110781317B (zh) | 2019-10-29 | 2019-10-29 | 事件图谱的构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911041241.XA CN110781317B (zh) | 2019-10-29 | 2019-10-29 | 事件图谱的构建方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781317A true CN110781317A (zh) | 2020-02-11 |
CN110781317B CN110781317B (zh) | 2022-03-01 |
Family
ID=69387582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911041241.XA Active CN110781317B (zh) | 2019-10-29 | 2019-10-29 | 事件图谱的构建方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781317B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400456A (zh) * | 2020-03-20 | 2020-07-10 | 北京百度网讯科技有限公司 | 资讯推荐方法及装置 |
CN111414487A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 事件主题的关联扩展方法、装置、设备及介质 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111460822A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 主题扩展的方法、装置、设备和存储介质 |
CN112149759A (zh) * | 2020-10-26 | 2020-12-29 | 北京明略软件系统有限公司 | 一种事件图谱的匹配方法、装置、电子设备及存储介质 |
CN112199512A (zh) * | 2020-10-15 | 2021-01-08 | 北京大学 | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 |
CN112883733A (zh) * | 2020-12-09 | 2021-06-01 | 成都中科大旗软件股份有限公司 | 基于文本实体提取快速构建事件关系的分析方法 |
CN113268591A (zh) * | 2021-04-17 | 2021-08-17 | 中国人民解放军战略支援部队信息工程大学 | 基于事理图谱的空中目标意图判证方法及系统 |
CN113312490A (zh) * | 2021-04-28 | 2021-08-27 | 乐山师范学院 | 一种针对突发事件的事件知识图谱构建方法 |
WO2021175009A1 (zh) * | 2020-03-02 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 预警事件图谱的构建方法、装置、设备及存储介质 |
CN113379214A (zh) * | 2021-06-02 | 2021-09-10 | 国网福建省电力有限公司 | 基于事理图谱的电网事故信息自动填报及辅助决策的方法 |
CN113554174A (zh) * | 2021-08-11 | 2021-10-26 | 上海明略人工智能(集团)有限公司 | 一种因果关系抽取方法、系统、电子设备及介质 |
CN113656602A (zh) * | 2021-09-01 | 2021-11-16 | 中国人民解放军31007部队 | 一种事理图谱的创建方法和装置 |
CN113934816A (zh) * | 2021-09-18 | 2022-01-14 | 达而观数据(成都)有限公司 | 一种基于神经网络的通用事件关系识别方法 |
CN114707004A (zh) * | 2022-05-24 | 2022-07-05 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN114817575A (zh) * | 2022-06-24 | 2022-07-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020059183A1 (en) * | 2000-09-25 | 2002-05-16 | Li-Wen Chen | Method and system for managing event attributes |
CN103631862A (zh) * | 2012-11-02 | 2014-03-12 | 中国人民解放军国防科学技术大学 | 基于微博的事件特征演化挖掘方法及系统 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
US20180048661A1 (en) * | 2016-08-15 | 2018-02-15 | International Business Machines Corporation | Cognitive offense analysis using contextual data and knowledge graphs |
US20180150750A1 (en) * | 2016-11-30 | 2018-05-31 | Accenture Global Solutions Limited | Automatic prediction of an event using data |
CN109460479A (zh) * | 2018-11-19 | 2019-03-12 | 广州合摩计算机科技有限公司 | 一种基于事理图谱的预测方法、装置和系统 |
CN109726819A (zh) * | 2018-12-29 | 2019-05-07 | 东软集团股份有限公司 | 一种实现事件推理的方法及装置 |
CN110162637A (zh) * | 2019-02-14 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 信息图谱构建方法、装置及设备 |
CN110377759A (zh) * | 2019-07-22 | 2019-10-25 | 中国工商银行股份有限公司 | 事件关系图谱构建方法及装置 |
-
2019
- 2019-10-29 CN CN201911041241.XA patent/CN110781317B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020059183A1 (en) * | 2000-09-25 | 2002-05-16 | Li-Wen Chen | Method and system for managing event attributes |
CN103631862A (zh) * | 2012-11-02 | 2014-03-12 | 中国人民解放军国防科学技术大学 | 基于微博的事件特征演化挖掘方法及系统 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
US20180048661A1 (en) * | 2016-08-15 | 2018-02-15 | International Business Machines Corporation | Cognitive offense analysis using contextual data and knowledge graphs |
US20180150750A1 (en) * | 2016-11-30 | 2018-05-31 | Accenture Global Solutions Limited | Automatic prediction of an event using data |
CN109460479A (zh) * | 2018-11-19 | 2019-03-12 | 广州合摩计算机科技有限公司 | 一种基于事理图谱的预测方法、装置和系统 |
CN109726819A (zh) * | 2018-12-29 | 2019-05-07 | 东软集团股份有限公司 | 一种实现事件推理的方法及装置 |
CN110162637A (zh) * | 2019-02-14 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 信息图谱构建方法、装置及设备 |
CN110377759A (zh) * | 2019-07-22 | 2019-10-25 | 中国工商银行股份有限公司 | 事件关系图谱构建方法及装置 |
Non-Patent Citations (5)
Title |
---|
JEFFERY ANSAH等: "A Graph is Worth a Thousand Words: Telling Event Stories using Timeline Summarization Graphs", 《WWW "19: THE WORLD WIDE WEB CONFERENCE》 * |
ZHONGYANG LI等: "Constructing Narrative Event Evolutionary Graph for Script Event Prediction", 《IJCAI"18: PROCEEDINGS OF THE 27TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
周威: "融合因果事件的知识图谱构建及其应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
徐雷等: "事件表示方式及其语义表示模型研究", 《情报杂志》 * |
袁泉: "融合外部知识库信息的文本推理研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021175009A1 (zh) * | 2020-03-02 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 预警事件图谱的构建方法、装置、设备及存储介质 |
CN111414487A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 事件主题的关联扩展方法、装置、设备及介质 |
CN111400456B (zh) * | 2020-03-20 | 2023-09-26 | 北京百度网讯科技有限公司 | 资讯推荐方法及装置 |
CN111400456A (zh) * | 2020-03-20 | 2020-07-10 | 北京百度网讯科技有限公司 | 资讯推荐方法及装置 |
CN111460822A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 主题扩展的方法、装置、设备和存储介质 |
CN111460822B (zh) * | 2020-03-27 | 2024-02-27 | 北京百度网讯科技有限公司 | 主题扩展的方法、装置、设备和存储介质 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN112199512A (zh) * | 2020-10-15 | 2021-01-08 | 北京大学 | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 |
CN112149759A (zh) * | 2020-10-26 | 2020-12-29 | 北京明略软件系统有限公司 | 一种事件图谱的匹配方法、装置、电子设备及存储介质 |
CN112883733A (zh) * | 2020-12-09 | 2021-06-01 | 成都中科大旗软件股份有限公司 | 基于文本实体提取快速构建事件关系的分析方法 |
CN113268591A (zh) * | 2021-04-17 | 2021-08-17 | 中国人民解放军战略支援部队信息工程大学 | 基于事理图谱的空中目标意图判证方法及系统 |
CN113268591B (zh) * | 2021-04-17 | 2022-11-01 | 中国人民解放军战略支援部队信息工程大学 | 基于事理图谱的空中目标意图判证方法及系统 |
CN113312490A (zh) * | 2021-04-28 | 2021-08-27 | 乐山师范学院 | 一种针对突发事件的事件知识图谱构建方法 |
CN113379214A (zh) * | 2021-06-02 | 2021-09-10 | 国网福建省电力有限公司 | 基于事理图谱的电网事故信息自动填报及辅助决策的方法 |
CN113554174A (zh) * | 2021-08-11 | 2021-10-26 | 上海明略人工智能(集团)有限公司 | 一种因果关系抽取方法、系统、电子设备及介质 |
CN113656602A (zh) * | 2021-09-01 | 2021-11-16 | 中国人民解放军31007部队 | 一种事理图谱的创建方法和装置 |
CN113934816A (zh) * | 2021-09-18 | 2022-01-14 | 达而观数据(成都)有限公司 | 一种基于神经网络的通用事件关系识别方法 |
CN114707004A (zh) * | 2022-05-24 | 2022-07-05 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN114707004B (zh) * | 2022-05-24 | 2022-08-16 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN114817575A (zh) * | 2022-06-24 | 2022-07-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
CN114817575B (zh) * | 2022-06-24 | 2022-09-02 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110781317B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781317B (zh) | 事件图谱的构建方法、装置及电子设备 | |
CN109145102B (zh) | 智能问答方法及其知识图谱系统构建方法、装置、设备 | |
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
CN109522420B (zh) | 一种获取学习需求的方法及系统 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
US20110137919A1 (en) | Apparatus and method for knowledge graph stabilization | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN101980199A (zh) | 基于态势评估的网络热点话题发现方法及系统 | |
CN109815386B (zh) | 一种基于用户画像的构建方法、装置及存储介质 | |
CN104679825A (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN106250550A (zh) | 一种实时关联新闻推荐内容的方法和装置 | |
CN104978314A (zh) | 媒体内容推荐方法及装置 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN109492027B (zh) | 一种基于弱可信数据的跨社群潜在人物关系分析方法 | |
CN118036902B (zh) | 基于知识图谱的海洋典型场景评价指标体系构建方法、装置、电子设备和存储介质 | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
CN103324641B (zh) | 信息记录推荐方法和装置 | |
CN109299286A (zh) | 非结构化数据的知识挖掘方法及系统 | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN110750981A (zh) | 一种基于机器学习的高准确度网站敏感词检测方法 | |
CN110705282A (zh) | 关键词提取方法、装置、存储介质及电子设备 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |