CN114064937A - 一种事理图谱自动构建方法和系统 - Google Patents

一种事理图谱自动构建方法和系统 Download PDF

Info

Publication number
CN114064937A
CN114064937A CN202210044407.9A CN202210044407A CN114064937A CN 114064937 A CN114064937 A CN 114064937A CN 202210044407 A CN202210044407 A CN 202210044407A CN 114064937 A CN114064937 A CN 114064937A
Authority
CN
China
Prior art keywords
event
events
candidate
same
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210044407.9A
Other languages
English (en)
Inventor
张文斌
曾俊瑀
贾显伏
程尧
刘志铭
周建行
辛洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunfu Technology Beijing Co ltd
Original Assignee
Yunfu Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunfu Technology Beijing Co ltd filed Critical Yunfu Technology Beijing Co ltd
Priority to CN202210044407.9A priority Critical patent/CN114064937A/zh
Publication of CN114064937A publication Critical patent/CN114064937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种事理图谱自动构建方法和系统。其中,方法包括:从给定的一段文本中抽取事件,再构建候选事件对集合,然后再抽取存在因果关系的事件对;对抽取到的每个事件构建一个对应的节点;将每个存在因果关系的事件对连接,从而构建初始版本的事理图谱;对抽取到的事件,根据语义相似度,构建候选相同事件集合,然后得到候选相同关系的事件对,再根据其语义特征,判断所述候选相同关系的事件对中的事件是否相同;如果相同,将相同的两个事件对应的节点进行合并;重复上述步骤完成所有事件的聚合,得到最终版本的事理图谱。本发明具有逻辑清晰、层次分明、基于深度学习、端到端联合学习等特点,为辅助决策等活动提供强有力支撑。

Description

一种事理图谱自动构建方法和系统
技术领域
本发明属于事理图谱领域,尤其涉及一种事理图谱自动构建方法和系统。
背景技术
事件是人类社会中一个非常重要的概念,人类社会的许多活动往往都是由事件驱动的。事件之间的演化规律是一种十分有价值的知识,挖掘这种事理逻辑知识对我们认识人类社会发展变化的规律具有非常重要的意义。事理图谱(Event Logic Graph,缩写ELG)是一个事理逻辑知识库,描述了事件之间的演化规律和模式,包括事件之间的顺承、因果、条件和上下位等关系,用于刻画和记录人类行为活动和事件客观演化规律。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的关系。
事理图谱可以从海量的非结构化数据中自动发现有价值的事件,并分析事件的来龙去脉、前因后果,对多个领域中的事件风险预警、辅助决策等活动都具有非常重要的意义。
事理图谱属于业界非常前沿的领域,研究者少、模块繁多、工程庞大、效果较差,缺乏一套系统的行之有效的事理图谱自动构建方法。
发明内容
为解决上述技术问题,本发明提出一种事理图谱自动构建方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种事理图谱自动构建方法;所述方法包括:
步骤S1、从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
步骤S2、对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
步骤S3、对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
步骤S4、如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
步骤S5、重复步骤S3和步骤S4完成所有事件的聚合,得到最终版本的事理图谱。
根据本发明第一方面的方法,在所述步骤S1中,所述从给定的一段文本中抽取事件的具体方法包括:
将所述给定的一段文本输入预训练模型编码层,得到所述给定的一段文本文本的语义向量;
将所述给定的一段文本的语义向量输入事件序列标注层,采用BIO标签方案,标注出事件片段,抽取所述给定的一段文本中的事件。
根据本发明第一方面的方法,在所述步骤S1中,所述在抽取的事件中构建事件对集合的具体方法包括:
两两枚举抽取到的所述给定的一段文本中的所有事件,得到事件对集合。
根据本发明第一方面的方法,在所述步骤S1中,所述再从构建的事件对集合中抽取存在因果关系的事件对的具体方法包括:
对抽取到的所述给定的一段文本中的事件对应的语义向量进行最大池化,得到所述事件的语义向量;
将所述候选事件对集合中的每个候选事件对中两个事件对应的语义向量拼接,得到事件对的语义向量;
将事件对的语义向量输入事件因果关系分类层,得到该事件对是否存在因果关系的分类结果;
基于所述分类结果,得到存在因果关系的事件对。根据本发明第一方面的方法,在所述步骤S3中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合之前所述步骤S3还包括:
将所述给定的一段文本中抽取到的所有事件的语义向量采用向量索引算法构建索引。
根据本发明第一方面的方法,在所述步骤S3中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合的具体方法包括:
对所述给定的一段文本中抽取到的每个事件,通过向量搜索算法查询出与当前事件语义相似度超过一定阈值T的N个事件构成当前事件的候选相同事件集合。
根据本发明第一方面的方法,在所述步骤S3中,所述从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同的具体方法包括:
对于所述候选相同事件集合中的每一个候选相同事件,将当前候选相同事件的语义向量和所述当前事件的语义向量拼接,得到所述候选相同关系的事件对的语义向量;
将所述候选相同关系的事件对的语义向量输入相同事件分类网络层,判断所述候选相同关系的事件对中的事件是否相同。
本发明第二方面公开了一种事理图谱自动构建系统,所述系统包括:
第一处理模块,被配置为,从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
第二处理模块,被配置为,对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
第三处理模块,被配置为,对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
第四处理模块,被配置为,如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
第五处理模块,被配置为,完成所有事件的聚合,得到最终版本的事理图谱。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种事理图谱自动构建方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种事理图谱自动构建方法中的步骤。
本发明提出的方案能够从非结构化数据中自动构建事理图谱,无需人工干预,可极大节省人力成本;基于深度学习模型构建,可学习事件之间复杂的因果关系;设计了一个端到端的一体化模型,可联合学习事件抽取和事件关系抽取等任务,避免引入级联错误。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种事理图谱自动构建方法的流程图;
图2为根据本发明实施例的利用一种事理图谱自动构建方法的应用示意流程图;
图3为根据本发明实施例的存在因果关系的事件抽取架构图;
图4为根据本发明实施例的两个事件对应的节点合并示意图;
图5为根据本发明实施例的一种事理图谱自动构建系统的结构图;
图6为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
实施例1:
本发明公开了一种事理图谱自动构建方法。图1为根据本发明实施例的一种事理图谱自动构建方法的流程图,如图1所示,所述方法包括:
步骤S1、从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对,得到因果关系的事件对的库;
在一些实施例中,所述从给定的一段文本中抽取事件的具体方法包括:
将所述给定的一段文本输入预训练模型编码层,所述预训练模型编码层可采用多种预训练模型,比如BERT,得到所述给定的一段文本文本的语义向量;
将所述给定的一段文本的语义向量输入事件序列标注层,所述事件序列标注层可采用多种序列标注模型,比如CRF,采用BIO标签方案,标注出事件片段,抽取所述给定的一段文本中的事件;
在一些实施例中,所述在抽取的事件中构建事件对集合的具体方法包括:
两两枚举抽取到的所述给定的一段文本中的所有事件,得到事件对集合;
在一些实施例中,所述再从构建的事件对集合中抽取存在因果关系的事件对的具体方法包括:
对抽取到的所述给定的一段文本中的事件对应的语义向量进行最大池化,得到所述事件的语义向量;
将所述候选事件对集合中的每个候选事件对中两个事件对应的语义向量拼接,得到事件对的语义向量;
将事件对的语义向量输入事件因果关系分类层,所述事件因果关系分类层可采用多种分类模型,比如Softmax,得到因果关系的事件对;
步骤S2、对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
步骤S3、对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
在一些实施例中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合之前所述步骤S3还包括:
将所述给定的一段文本中抽取到的所有事件的语义向量采用向量索引算法构建索引;
在一些实施例中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合的具体方法包括:
对所述给定的一段文本中抽取到的每一个事件,通过向量搜索算法查询出与当前事件语义相似度超过一定阈值T的N个事件构成当前事件的候选相同事件集合;
在一些实施例中,所述从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同的具体方法包括:
对于所述候选相同事件集合中的每一个候选相同事件,将当前候选相同事件的语义向量和所述当前事件的语义向量拼接,得到所述候选相同关系的事件对的语义向量;
将所述候选相同关系的事件对的语义向量输入相同事件分类网络层,判断所述候选相同关系的事件对中的事件是否相同;
步骤S4、如图4所示,如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
步骤S5、重复步骤S3和步骤S4完成所有事件的聚合,得到最终版本的事理图谱。
综上,本发明提出的方案无需人工干预,可极大节省人力成本;基于深度学习模型构建,可学习事件之间复杂的因果关系;设计了一个端到端的一体化模型,可联合学习事件抽取和事件关系抽取等任务,避免引入级联错误。
实施例2:
图1为根据本发明实施例的一种事理图谱自动构建方法的流程图,如图1所示,所述方法包括:
步骤S1、如图3所示,从给定的一段文本“货币超发会引起通货膨胀”中抽取事件“货币超发事件”和“通货膨胀事件”,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对,得到因果关系的事件对的库;
在一些实施例中,所述从给定的一段文本中抽取事件的具体方法包括:
将所述给定的一段文本输入预训练模型编码层,所述预训练模型编码层可采用多种预训练模型,比如BERT,得到所述给定的一段文本的语义向量;
将所述给定的一段文本的语义向量输入事件序列标注层,所述事件序列标注层可采用多种序列标注模型,比如CRF,采用BIO标签方案,标注出事件片段,抽取所述给定的一段文本中的事件;
在一些实施例中,所述在抽取的事件中构建事件对集合的具体方法包括:
两两枚举抽取到的所述给定的一段文本中的所有事件,得到事件对集合;
在一些实施例中,所述再从构建的事件对集合中抽取存在因果关系的事件对的具体方法包括:
对抽取到的所述给定的一段文本中的事件对应的语义向量进行最大池化,得到所述事件的语义向量;
将所述候选事件对集合中的每个候选事件对中两个事件对应的语义向量拼接,得到事件对的语义向量;
将事件对的语义向量输入事件因果关系分类层,所述事件因果关系分类层可采用多种分类模型,比如Softmax,得到因果关系的事件对;
步骤S2、对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
步骤S3、对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
在一些实施例中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合之前所述步骤S3还包括:
将所述给定的一段文本中抽取到的所有事件的语义向量采用向量索引算法构建索引;
在一些实施例中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合的具体方法包括:
对所述给定的一段文本中抽取到的每一个事件,通过向量搜索算法查询出与当前事件语义相似度超过一定阈值T的N个事件构成当前事件的候选相同事件集合;
在一些实施例中,所述从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同的具体方法包括:
对于所述候选相同事件集合中的每一个候选相同事件,将所当前候选相同事件的语义向量和所述当前事件的语义向量拼接,得到所述候选相同关系的事件对的语义向量;
将所述候选相同关系的事件对的语义向量输入相同事件分类网络层,判断所述候选相同关系的事件对中的事件是否相同;
步骤S4、如图4所示,如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
步骤S5、重复步骤S3和步骤S4完成所有事件的聚合,得到最终版本的事理图谱。
实施例3:
如图2所示,为根据本发明实施例的利用一种事理图谱自动构建方法的应用示意流程图;具体应用本发明的方法,如下:
步骤S1、从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
具体的应用如下:
对货币超发会引起通货膨胀,
抽取事件即事件抽取,事件1:货币超发;事件2:通货膨胀;
事件因果关系抽取:
事件对:货币超发会导致通货膨胀
对房价上涨的原因归结为货币超发,
抽取事件即事件抽取:
事件1:房价上涨
事件2:货币超发
事件因果关系抽取:
事件对:
货币超发会导致房价上涨
得到事件对;
步骤S2、对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
步骤S3、对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
步骤S4、如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
步骤S5、重复步骤S3和步骤S4完成所有事件的聚合,得到最终版本的事理图谱。
最终结果是货币超发导致通货膨胀和房价上涨,图2所示的,得到最终版本的事理图谱。
实施例4:
本发明公开了一种事理图谱自动构建系统。图5为根据本发明实施例的一种事理图谱自动构建系统的结构图;如图5所示,所述系统100包括:
第一处理模块101,被配置为,从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
第二处理模块102,被配置为,对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
第三处理模块103,被配置为,对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
第四处理模块104,被配置为,如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
第五处理模块105,被配置为,完成所有事件的聚合,得到最终版本的事理图谱。
根据本发明第二方面的系统,所述第一处理模块101具体被配置为,
所述从给定的一段文本中抽取事件的具体方法包括:
将所述给定的一段文本输入预训练模型编码层,所述预训练模型编码层可采用多种预训练模型,比如BERT,得到所述给定的一段文本的语义向量;
将所述给定的一段文本的语义向量输入事件序列标注层,所述事件序列标注层可采用多种序列标注模型,比如CRF,采用BIO标签方案,标注出事件片段,抽取所述给定的一段文本中的事件;
所述在抽取的事件中构建事件对集合的具体方法包括:
两两枚举抽取到的所述给定的一段文本中的所有事件,得到事件对集合;
所述再从构建的事件对集合中抽取存在因果关系的事件对的具体方法包括:
对抽取到的所述给定的一段文本中的事件对应的语义向量进行最大池化,得到所述事件的语义向量;
将所述候选事件对集合中的每个候选事件对中两个事件对应的语义向量拼接,得到事件对的语义向量;
将事件对的语义向量输入事件因果关系分类层,得到该事件对是否存在因果关系的分类结果;所述事件因果关系分类层可采用多种分类模型,比如Softmax,基于所述分类结果,得到存在因果关系的事件对。
根据本发明第二方面的系统,所述第二处理模块103具体被配置为,
将所述给定的一段文本中抽取到的所有事件的语义向量采用向量索引算法构建索引;
所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合的具体方法包括:
对所述给定的一段文本中抽取到的每一个事件,通过向量搜索算法查询出与当前事件语义相似度超过一定阈值T的N个事件构成候选相同事件集合;
所述从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同的具体方法包括:
对于所述候选相同事件集合中的每一个候选相同事件,将当前候选相同事件的语义向量和所述当前事件的语义向量拼接,得到所述候选相同关系的事件对的语义向量;
将所述候选相同关系的事件对的语义向量输入相同事件分类网络层,判断所述候选相同关系的事件对中的事件是否相同。
实施例5:
本发明公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开实施例1中任一项的一种事理图谱自动构建方法中的步骤。
图6为根据本发明实施例的一种电子设备的结构图,如图6所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例6:
本发明公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明的实施例1中任一项的一种事理图谱自动构建方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种事理图谱自动构建方法,其特征在于,所述方法包括:
步骤S1、从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
步骤S2、对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
步骤S3、对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
步骤S4、如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
步骤S5、重复步骤S3和步骤S4完成所有事件的聚合,得到最终版本的事理图谱。
2.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S1中,所述从给定的一段文本中抽取事件的具体方法包括:
将所述给定的一段文本输入预训练模型编码层,得到所述给定的一段文本的语义向量;
将所述给定的一段文本的语义向量输入事件序列标注层,采用BIO标签方案,标注出事件片段,抽取所述给定的一段文本中的事件。
3.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S1中,所述在抽取的事件中构建事件对集合的具体方法包括:
两两枚举抽取到的所述给定的一段文本中的所有事件,得到事件对集合。
4.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S1中,所述再从构建的事件对集合中抽取存在因果关系的事件对的具体方法包括:
对抽取到的所述给定的一段文本中的事件对应的语义向量进行最大池化,得到所述事件的语义向量;
将所述候选事件对集合中的每个候选事件对中两个事件对应的语义向量拼接,得到事件对的语义向量;
将事件对的语义向量输入事件因果关系分类层,得到该事件对是否存在因果关系的分类结果;
基于所述分类结果,得到存在因果关系的事件对。
5.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合之前所述步骤S3还包括:
将所述给定的一段文本中抽取到的所有事件的语义向量采用向量索引算法构建索引。
6.根据权利要求5所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合的具体方法包括:
对所述给定的一段文本中抽取到的每一个事件,通过向量搜索算法查询出与当前事件语义相似度超过一定阈值T的N个事件构成当前事件的候选相同事件集合。
7.根据权利要求6所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,所述从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同的具体方法包括:
对于所述候选相同事件集合中的每一个候选相同事件,将当前候选相同事件的语义向量和所述当前事件的语义向量拼接,得到所述候选相同关系的事件对的语义向量;
将所述候选相同关系的事件对的语义向量输入相同事件分类网络层,判断所述候选相同关系的事件对中的事件是否相同。
8.一种用于事理图谱自动构建系统,其特征在于,所述系统包括:
第一处理模块,被配置为,从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
第二处理模块,被配置为,对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
第三处理模块,被配置为,对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
第四处理模块,被配置为,如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
第五处理模块,被配置为,完成所有事件的聚合,得到最终版本的事理图谱。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种事理图谱自动构建方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种事理图谱自动构建方法中的步骤。
CN202210044407.9A 2022-01-14 2022-01-14 一种事理图谱自动构建方法和系统 Pending CN114064937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210044407.9A CN114064937A (zh) 2022-01-14 2022-01-14 一种事理图谱自动构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210044407.9A CN114064937A (zh) 2022-01-14 2022-01-14 一种事理图谱自动构建方法和系统

Publications (1)

Publication Number Publication Date
CN114064937A true CN114064937A (zh) 2022-02-18

Family

ID=80231384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210044407.9A Pending CN114064937A (zh) 2022-01-14 2022-01-14 一种事理图谱自动构建方法和系统

Country Status (1)

Country Link
CN (1) CN114064937A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707004A (zh) * 2022-05-24 2022-07-05 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN114880491A (zh) * 2022-07-08 2022-08-09 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053000B1 (en) * 2012-09-27 2015-06-09 Emc Corporation Method and apparatus for event correlation based on causality equivalence
US20150331587A1 (en) * 2012-12-18 2015-11-19 Willem Morkel Van Der Westhuizen Event and causality-based human-computer interaction
CN109726293A (zh) * 2018-11-14 2019-05-07 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN110377759A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 事件关系图谱构建方法及装置
CN110727803A (zh) * 2019-10-10 2020-01-24 北京明略软件系统有限公司 文本事件抽取方法及装置
CN110765231A (zh) * 2019-10-11 2020-02-07 南京摄星智能科技有限公司 一种基于共指融合的篇章事件抽取方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111767408A (zh) * 2020-05-27 2020-10-13 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN111914569A (zh) * 2020-08-10 2020-11-10 哈尔滨安天科技集团股份有限公司 基于融合图谱的预测方法、装置、电子设备及存储介质
CN112559656A (zh) * 2020-12-09 2021-03-26 河海大学 基于水文事件的事理图谱构建方法
CN113792154A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 故障关联关系的确定方法、装置、电子设备及存储介质
CN113836269A (zh) * 2021-09-27 2021-12-24 河海大学 一种基于问答式系统的篇章级核心事件抽取方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053000B1 (en) * 2012-09-27 2015-06-09 Emc Corporation Method and apparatus for event correlation based on causality equivalence
US20150331587A1 (en) * 2012-12-18 2015-11-19 Willem Morkel Van Der Westhuizen Event and causality-based human-computer interaction
CN109726293A (zh) * 2018-11-14 2019-05-07 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN110377759A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 事件关系图谱构建方法及装置
CN110727803A (zh) * 2019-10-10 2020-01-24 北京明略软件系统有限公司 文本事件抽取方法及装置
CN110765231A (zh) * 2019-10-11 2020-02-07 南京摄星智能科技有限公司 一种基于共指融合的篇章事件抽取方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111767408A (zh) * 2020-05-27 2020-10-13 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN111914569A (zh) * 2020-08-10 2020-11-10 哈尔滨安天科技集团股份有限公司 基于融合图谱的预测方法、装置、电子设备及存储介质
CN112559656A (zh) * 2020-12-09 2021-03-26 河海大学 基于水文事件的事理图谱构建方法
CN113792154A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 故障关联关系的确定方法、装置、电子设备及存储介质
CN113836269A (zh) * 2021-09-27 2021-12-24 河海大学 一种基于问答式系统的篇章级核心事件抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张海涛 等: "重大突发事件事理图谱构建研究", 《图书情报工作》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707004A (zh) * 2022-05-24 2022-07-05 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN114707004B (zh) * 2022-05-24 2022-08-16 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN114880491A (zh) * 2022-07-08 2022-08-09 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统

Similar Documents

Publication Publication Date Title
CN109948641B (zh) 异常群体识别方法及装置
CN114064937A (zh) 一种事理图谱自动构建方法和系统
CN111080304B (zh) 一种可信关系识别方法、装置及设备
CN109359793A (zh) 一种针对新场景的预测模型训练方法及装置
CN111798273A (zh) 产品的购买概率预测模型的训练方法及购买概率预测方法
CN111914569A (zh) 基于融合图谱的预测方法、装置、电子设备及存储介质
CN114880491B (zh) 一种事理图谱自动构建方法和系统
CN109635990B (zh) 一种训练方法、预测方法、装置、电子设备及存储介质
US20230028266A1 (en) Product recommendation to promote asset recycling
CN113361593B (zh) 生成图像分类模型的方法、路侧设备及云控平台
CN113011483B (zh) 一种模型训练和业务处理的方法及装置
CN112381216A (zh) 混合图神经网络模型的训练、预测方法和装置
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN113837635A (zh) 风险检测处理方法、装置及设备
CN112199600A (zh) 目标对象识别方法和装置
CN110163245A (zh) 业务类别预测方法及系统
CN111538766A (zh) 一种文本分类方法、装置、处理设备和票据分类系统
CN112580733A (zh) 分类模型的训练方法、装置、设备以及存储介质
CN110019845B (zh) 一种基于知识图谱的社区演化分析方法及装置
CN114168804A (zh) 一种基于异质子图神经网络的相似信息检索方法和系统
CN113240177B (zh) 训练预测模型的方法、预测方法、装置、电子设备及介质
US20160004976A1 (en) System and methods for abductive learning of quantized stochastic processes
CN103049629A (zh) 一种检测噪音数据的方法及装置
CN115796228B (zh) 算子融合方法、装置、设备以及存储介质
Folini et al. Cluster Analysis: a Comprehensive and Versatile Qgis Plugin for Pattern Recognition in Geospatial Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220218