CN110968700B - 融合多类事理与实体知识的领域事件图谱构建方法和装置 - Google Patents
融合多类事理与实体知识的领域事件图谱构建方法和装置 Download PDFInfo
- Publication number
- CN110968700B CN110968700B CN201911059404.7A CN201911059404A CN110968700B CN 110968700 B CN110968700 B CN 110968700B CN 201911059404 A CN201911059404 A CN 201911059404A CN 110968700 B CN110968700 B CN 110968700B
- Authority
- CN
- China
- Prior art keywords
- event
- knowledge
- entity
- case
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合多类事理与实体知识的领域事件图谱构建方法和装置。该方法包括:对领域语料库进行事理关系抽取和实例事理元素抽取,形成实例事理逻辑知识库;构建具有层级性的抽象概念知识库;利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,将事件知识与实体知识融合,形成事理知识图谱;将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。本发明构建的领域事件图谱,能够综合静态实体性知识以及动作事件性知识两者的优点,可拓宽知识问答的应用范围,并可作为常识知识库扩充领域语言资源。
Description
技术领域
本发明涉及一种融合多类事理与实体知识的领域事件图谱构建方法和装置,属于自然语言处理及知识工程领域,属于一种领域知识库构建方法。
背景技术
目前,以“事件”为核心,以描述事件之间的逻辑演化关系的逻辑事理图谱正受到广泛关注,这类图谱一方面关注事件之间的空间语义和时间语义状态的转移,能够表达出一种较相关性语义更强、更为直接的关联性;另一方面,知识承载能力更强,事件中的动作具有关联名词性主体和名词性客体,名词性的主客体本身具有丰富的实体知识信息。这两方面的特征决定了事理图谱能够支持事件预测、逻辑问答、逻辑检验等多种应用。
高质量的领域事件图谱包括抽象事理图谱、事理知识图谱两个部分组成,在实现技术上涉及到自然语言处理中的事件表示、事件论元抽取、事件关系识别、实体链接等多个方面。其中,抽象事理图谱中的事理较为抽象,旨在挖掘具有普遍推广意义的事件以及事件之间的转移,与此相关的工作包括脚本Script以及叙事性事件链条narrative eventchain的自动抽取,并形成了CausalBank以及TimeBank标注语料库。在事件论元抽取上,相关工作主要有ACE(Automatic Content Extraction)自动内容抽取相关的事件抽取任务。其中论元,指的是事件的组成要素,如“结婚”这一事件中的“结婚时间”、“结婚地点”、“结婚人物”为该事件的论元。
受限于当前自然语言处理技术的水平,目前事件逻辑知识库的构建和应用上还存在以下不足:
1、全自动抽取性能不高。目前基于全自动方式构建提取的事件及事件关系数据精度不高。以依存句法或正则规则模板抽取的方法能够得到较高的召回率,但错误率较高。以深度学习序列标注方法进行抽取能够保证较高的准确率,但需要大规模的标注语料。因此需要提出一种能够规避三种方法不足的方法。
2、事件抽取中的事件元素抽取往往需要提前对元素类别进行预设,不利于大规模事件表示的知识库的构建,一种可接受且语义较为丰富的事件通用论元有提出的必要。
3、事件抽取中的关系抽取目前主要集中在因果和顺承两种类型,缺乏对其他类型的抽取尝试和应用点探索。探索更为全面的事件类型体系及其应用点具有实际意义。
4、有关事件性知识和实体性知识的融合及链接的工作还相对空白。将实体性知识链接到事件性知识中的事件当中,可进一步丰富事件的语义,拓展应用场景。
发明内容
针对现有技术中存在的上述技术问题,本发明的目的在于提出一种融合多类事理与实体知识的领域事件图谱构建方法和装置。
本发明采用的技术方案如下:
一种融合多类事理与实体知识的领域事件图谱构建方法,包括以下步骤:
对领域语料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
构建具有层级性的抽象概念知识库;
利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,完成事理知识与实体知识的融合,形成事理知识图谱;
将抽象事理图谱与事理知识图谱进行合并,最终形成领域事件图谱。
进一步地,通过设定事理关系,借助依存规则、正则模板的方式抽取事理逻辑,并设定通用事件论元类型,利用事件论元抽取技术进行论元抽取(即进行实例事理元素抽取),形成实例事理逻辑知识库。
进一步地,所述领域事件图谱是一个有向有环图,节点代表事件,有向边代表事件之间的因果、条件、互斥、组成、转折、并发、上下位等逻辑关系,即事理关系。领域事件图谱既关注事件外部之间的演化逻辑关系,又关注事件本身的丰富属性信息,是抽象事件与事件知识库两者的统一结合体。
进一步地,所述领域事件图谱中的多类事理关系包括八种,具体为因果事理、条件事理、上下位事理、并列事理、互斥事理、顺承事理、转折事理、组成事理。
进一步地,所述事理关系的抽取方法指根据指定的事理关系类型,采用基于关系词限定、词性过滤与事件成立性的抽取方法;基于关系词与依存句法规则的抽取方法;基于序列标注的事理抽取方法。
进一步地,所述实例事理元素抽取指的是对事件进行结构化表示。结构化表示的结果为抽取出与事件相关的十二种通用论元,论元即事理元素,包括事件核心动作、事件主体、事件客体、事件发生时间、事件发生地点、事件关联实体(关联人物、关联公司、关联机构)、事件情绪、事件时态、事件确定性。
进一步地,所述抽象概念知识库,指的是存储概念之间上下位层级的知识库,由名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库三个知识库构成,构建思想为:融合HowNet、同义词词林、百科类层级分类树、百科词条义项、领域词表等抽象概念。
进一步地,所述抽象事理图谱,指的是运用事件抽象的方法对实例事理逻辑知识库的事件进行抽象,最终形成具有抽象层级性的事理图谱,包括事件预处理、成分抽象和抽象成分融合三个步骤。
进一步地,所述事理知识图谱是事件知识与实体知识之间的融合,事件知识与实体知识融合,指的是将实例知识图谱和实体知识图谱之间进行链接,形成从事件知识到实体知识的通路,包括待链接实体获取以及实体链接两个部分组成。
基于同一发明构思,本发明还提供一种融合多类事理与实体知识的领域事件图谱构建装置,其包括:
实例事理逻辑知识库构建模块,负责对领域语料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
抽象概念知识库构建模块,负责构建具有层级性的抽象概念知识库;
抽象事理图谱构建模块,负责利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
事理知识图谱构建模块,负责利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,实现事件知识与实体知识的融合,形成事理知识图谱;
领域事件图谱构建模块,负责将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。
与现有技术相比,本发明具有以下优点:
1、本发明提出了一种融合多类事理与实体知识的领域事件图谱构建装置,该装置从抽象事理、实例事理、知识融合事件三个角度出发进行图谱构建,可搭建一个层次分明、体系相对完善的事件图谱。
2、本发明提出了多种事件关系,给出了可行的抽取方案,并对应用点进行了论述,为后续的应用提供了参考。
3、本发明提出了一种融合现有概念性层知识库资源的有效方法,可构建起一个质量较高的层次性抽象知识库。
4、本发明提出了一种针对实例事件进行层次性抽象的方法,能够对实例性事件抽象成具有明显阶梯性的抽象事件图谱,可支持不同层级的应用。
5、本发明提出了一种事件性知识与实体性知识链接和融合的方法,有利于进一步拓展事件图谱的语义信息和丰富度。
6、采用本发明方法构建的领域事件图谱,能够综合静态实体性知识以及动作事件性知识两者的优点,可进一步拓宽知识问答的应用范围,并提供基于事件知识的预警和推理服务,并可作为常识知识库扩充领域语言资源。
附图说明
图1为融合多类事理与实体知识的领域事件图谱构建方法的流程图。
图2为实例事理逻辑知识库构建框架图。
图3为抽象概念知识库构建框架图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明在实施过程中主要包括实例事理逻辑知识库构建、抽象概念知识库构建、抽象事理图谱构建、事件知识与实体知识的融合三个步骤,总体流程如图1所示,具体包括以下步骤:
一. 实例事理逻辑知识库构建
图2为实例事理逻辑知识库构建框架图,包括事理关系抽取、实例事理元素抽取等步骤。
1、界定领域事件图谱的概念
领域事件图谱是一个有向有环图,节点代表事件,有向边代表事件之间的因果、条件、互斥、组成、转折、上下位等逻辑关系。领域事件图谱既关注事件外部之间的演化逻辑关系,又关注事件本身的丰富属性信息,是抽象事件与事件知识库两者的统一结合体。
2、界定领域事件图谱中的事理关系
本发明中将所述事件之间的逻辑关系类型分成八种,类型包括:
1)因果事理。用于描述某一事件导致某一事件发生,如<智利地震,有色金属上涨>。
2)条件事理。表示某一事件条件下另一事件发生。
3)上下位事理。某事件是另一事件的上层抽象,如<人民币贬值,货币贬值>。
4)并列事理。表示某事件与另一事件同时发生,如<奏国歌,升国旗>。
5)互斥事理。某一事件与另一事件形成对立。
6)顺承事理。表示某一时间紧接着另一事件发生,如<到售票口,刷身份证>。
7)转折事理。表示本该发生的事件未能发生,如<刻苦学习,成绩下降>。
8)组成事理。表示某事件是另一事件的组成部分,如<奏国歌,升国旗仪式>。
3、事理关系抽取
事理关系抽取的方法指根据指定的事理关系类型,采用基于关系词限定、词性过滤与事件成立性的抽取方法;基于关系词与依存句法规则的抽取方法;基于序列标注的事理抽取方法。
1)基于关系词限定的、词性过滤与事件成立性的方法。关系限定词指能够明显显示事理成分的关联指示词,如“导致”,“因为-所以”等因果关联词,其余七种事理关联词同理。通过关系词限定,抽取出事件描述字段;词性过滤指通过使用中文分词器进行分词和词性标注后设定需要保留的词性类别;事件成立性指事件需包含特定的事件成分,如事件动作、事件主体、客体等。
2)基于关系词与依存句法规则的抽取方法。具体包括通过对关系限定词对候选事件进行确定,借助依存句法分析手段,确定关联词对应的事件主体和事件客体,并通过修饰词之间的语义关系对事件进行扩展。
3)基于序列标注的方法,包括利用BIO或BIOS等标记集对起始事件和结尾事件描述进行标注,最后训练序列标注模型进行标注。
4、实例事理元素抽取
实例事理元素抽取是对事件的结构化表示。结构化表示的结果为抽取出与事件相关的通用论元,即事理元素。所述通用论元,包括:核心动作,指的是事件中的核心动词;动作主体,指围绕核心动词的施事者;动作客体,指围绕核心动词的受事者;事件发生时间,指事件发生时的背景时间;事件发生地点,指事件发生时的背景地点;事件关联人物,指事件发生的关联人物;事件关联公司,指事件发生的关联公司;事件关联机构,指事件发生的机构实体;事件极性,指事件本身的情绪;事件确定性,指事件发生的确定性;事件权威性,指因果事件的权威性;事件发生时态,指事件发生的时态,包括已经发生,将要发生,正在发生三种状态;事件来源,指事件抽取所在的文本来源。
4.1 事件核心动作的抽取
所述事件核心动作,指事件描述能够明显描述事件动作的词语,通常为动词或者动名词。提取方法为:
1) 对事件描述进行依存句法分析,获取与ROOT节点存在HED关系的词语作为核心动作,若该词语存在COO关系,则将COO关系关联的词语也当作核心动作。
2) 对事件描述进行句子成分分析,获取整棵句法树最外层VP成分作为核心动作。
3)将方法1)和方法2)中抽取得到的词语作为事件的核心动作。
4.2 事件动作主体的抽取
所述事件动作主体的抽取,指的是抽取与该事件相关的动作发出者。具体提取方法为:
1)对事件描述进行依存句法分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到与该动作词语存在SBV的词语,并对SBV的词语与ATT修饰成分进行组合,形成事件主体;
2)对事件描述进行句子成分分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到位于该词VP成分之前连接的NP短语作为事件主体;
3)若步骤1)与步骤2)中的事件均为找到主体,那将该词之前的描述字符串均作为事件主体
4.3 事件动作客体的抽取
所述事件动作客体的抽取,指的是抽取与该事件相关的动作受事者。具体提取方法为:
1)对事件描述进行依存句法分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到与该动作词语存在VOB关系的词语,并对VOB的词语与ATT及CMP关系修饰成分进行组合,形成事件主体;
2)对事件描述进行句子成分分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到位于该词VP成分之后连接的NP短语作为事件客体;
3)若步骤1)与步骤2)中的事件均为找到主体,那将该词之后的描述字符串均作为事件主体
4.4事件发生时间的抽取
所述事件发生时间的抽取,指的是抽取给定上下文该事件的发生时间。具体抽取方法为:1)对事件描述、事件上下文(事件描述句左右窗口为N的长句)、事件来源文本发布时间,进行时间词识别,并对识别结果进行统一标准化处理,即处理形成“年-月-日”的标准形式,形成对应的时间实体列表。
2)以1)中识别的结果,按事件描述、事件来源文本创建时间的优先级进行选取,得到最终的事件发生时间。
4.5事件发生地点的抽取
所述事件发生地点的抽取,指的是抽取给定上下文该事件发生的地点。具体抽取方法为:
1)对事件描述、事件上下文(事件描述句左右窗口为N的长句)进行地点词识别。
2)以1)中的结果,按照事件描述、事件上下文的优先级次序进行排序,得到最终的事件发生地点,若事件发生地点缺失,则留空。
4.6事件关联实体的抽取
所述事件关联实体的抽取,指的是抽取给定上下文中与该事件相关的实体。实体类型包括行业领域相关的实体类型,如常见的公司实体、人物实体、机构实体。具体抽取方法为:
1)利用开源的带有实体识别的自然语言处理工具进行常规实体的识别,得到人物实体和结构实体;
2)收集领域实体词表,采用实体词匹配的方式,完成领域实体词的识别。
3)标注领域实体识别语料库,训练领域实体序列标注模型,完成关联实体的抽取。
4)将三种方法得到的实体进行联合汇总,得到最终的关联实体列表。
4.7事件情绪的计算
所述事件情绪的计算,指对事件描述本身所反映出来的情感方向及情感强度进行计算。事件情感方向包括正向、中性、负向三种;情感强度用于衡量情绪影响的程度。具体计算方法为:
1)利用情感词表,并设定情感计算规则,考虑窗口、否定词、程度副词以及依存规则,进行情绪的加权计算,得到事件的情绪得分。
2)将事件的情绪得分进行整理,将情绪得分的绝对值作为事件情绪的强度,以事件情绪数值前的符号作为情绪方向,但情绪为负时,为负相,情绪值为零时,情绪为中性,反之为负。
4.8事件确定性的计算
所述事件确定性的计算,指对事件描述本身发生的确定性进行计算,并得到事件确定性的等级,等级包括不可能、可能以及肯定三个层级。具体计算方法为:
1)收集整理出汉语中表达情态的词语集合,包括表否定的否定副词,表祁使语气的状s态词,形成事件确定性词表。
2)针对事件确定词,设定确定性计算规则,得到事件确定性等级。
4.9事件时态性的计算
所述事件时态性的计算,指的是对事件描述本身发生的时态性进行计算,得到事件时态性的类别,包括过去,现在以及未来三个时态。具体计算方法为:
1)收集整理出汉语中表达时态的词语集合,包括三个时态分别对应的特征词,形成事件时态词语集合;
2)基于事件时态词,设定时态计算规则,得到事件时态的类别。
二. 抽象概念知识库构建
所述抽象概念知识库,指的是存储概念之间上下位层级的知识库,由名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库三个知识库构成。其中:
所述名词性实体抽象知识库,指具有明显上下位语义名词性实体层级的实体知识库,如“苹果”和“水果”,“水果”和“植物”分别描述了一对上下位抽象关系,“苹果”可以往上抽象成“水果”,“水果”可以进一步抽象成“植物”。大量具有这样上下位抽象关系的实体对,共同组成一个庞大的知识网络。
所述性状类抽象知识库,指具有明显上下位语义形容词或副词性词语组成的知识库,如“悲伤”和“消极”,“消极”和“变坏”分别描述了一对性状类的抽象层级关系。
所述动作类抽象知识库,指具有明显组成或上下位语义动词组成的知识库,如“杀人”和“犯罪”,“犯罪”和“作恶”分别描述了一堆事件性动词的抽象层级关系。
在具体实施上,遵循图3所示的流程,包括以下步骤:
1)获取Hownet抽象层级。以Hownet(知网中文词库)中的Glossary文件作为基本的概念层级体系文件。Glossary文件中描述了概念之间的上下位层级关系。
2)获取百科类抽象层级。采集百度百科、互动百科、维基百科中的百科分类层级,将三个分类体系进行融合,并设置根节点为“实体”。
3)融合抽象层级。将百科类概念体系与Hownet概念层级进行融合,形成最终的概念层级体系。
4)训练领域词向量。利用词向量工具训练领域行业语料,得到领域词向量文件以及领域词表。
5)同义词拓展。以领域词向量中的所有词为种子词,使用领域词向量中进行相似度计算,设定相似度阈值,将与种子词相似度大于指定阈值的词作为高度相似词,并进行存储。
6)同义词融合。利用5)得到的同义词以及同义词词林中的同义词汇总,得到最终的同义词扩展词典。
7)百科词语开放分类获取。以步骤4)中得到的所有词在百度百科、互动百科以及维基百科中进行检索,得到每个词的开放分类,并将其所属概念分类作为该词的上位概念。
8) HowNet词语义项获取。以Hownet中的Whole.DAT文件作为基础概念词汇文件。所述Whole.DAT文件中对超过6万个词语进行了细粒度义项的解释。同时以该词条后的义项作为上位概念,形成词条的上位概念字典。
9)词语上位概念融合。将步骤8)得到的词条及其所属概念分类,与7)中的基础概念词汇文件进行融合,形成最终的词语上位概念词典。
10)词语概念描述融合。基于6)中得到的同义词拓展词典,对9)中形成最终的概念词汇文件进行概念扩展,若同义词中的某个词在概念词汇文件中,将其余同义词的概念描述都表示成该词的描述。
11)词语抽象路径生成。根据词语上位概念词典以及概念词汇文件,构建词条与概念的上下位有向图,利用最短路径算法,得到每个词条的最长的最短路径作为该词条的上下位抽象路径。
三. 抽象事理图谱的构建
所述抽象事理图谱,指的是运用事件抽象的方法对实例事理逻辑知识库中的实例型事件图谱中的事件进行抽象,最终形成具有抽象层级性的事理图谱。抽象的过程遵循以下几个步骤:
1)事件预处理。对输入的实例事理图谱中的事件进行分词和词性标注,仅保留其中的名词性成分以及动词性成分。
2)事件成分抽象。利用抽象图谱,对结果1)中的名词性成分和动词性成分进行抽象,对名词性成分往上抽象,形成多层级(如图3中的)的抽象结果。
3)抽象成分融合。利用2)得到的结果,得到不同层级下的具有统一抽象层级的名词性成分和动词性成分,形成整体性的事件多层级抽象结果。
四. 事理知识图谱的构建
所述事理知识图谱的构建,即事件知识与实体知识之间的融合,指的是将实例事理逻辑知识库与实体知识图谱之间进行链接,形成从事件知识到实体知识的通路。融合的过程遵循以下步骤:
1)待链接实体获取。给定知识图谱,根据实例事理逻辑知识库中的关联实体类型进行筛选,得到需要链接的知识实体列表。
2)实体链接。应用实体链接的方法,利用实例事理逻辑知识库中关联实体的上下信息作为特征,将事件图中不同类型的实体连接到1)中得到的待链接知识实体列表当中。
五. 领域事件图谱的构建
所述领域事件图谱的构建,指将抽象事理图谱与事理知识图谱进行合并形成一个大的领域图谱的过程,具体合并方式为,针对实例事理逻辑知识库中的每一个事件,将该事件关联的抽象事理图谱中的抽象事件和事理知识图谱中的知识进行组合,形成一个大的图谱。
基于同一发明构思,本发明的另一个实施例提供一种融合多类事理与实体知识的领域事件图谱构建装置,其包括:
实例事理逻辑知识库构建模块,负责对领域语料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
抽象概念知识库构建模块,负责构建具有层级性的抽象概念知识库;
抽象事理图谱构建模块,负责利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
事理知识图谱构建模块,负责利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,实现事件知识与实体知识的融合,形成事理知识图谱;
领域事件图谱构建模块,负责将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。
基于同一发明构思,本发明的另一个实施例提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
本发明未详细阐述的部分属于本领域技术人员的公知技术。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种融合多类事理与实体知识的领域事件图谱构建方法,其特征在于,包括以下步骤:
对领域语料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
构建具有层级性的抽象概念知识库;
利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,实现事件知识与实体知识的融合,形成事理知识图谱;
将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。
2.根据权利要求1所述的方法,其特征在于,所述事理关系抽取,包括抽取以下八种事理关系:因果事理、条件事理、上下位事理、并列事理、互斥事理、顺承事理、转折事理、组成事理。
3.根据权利要求1所述的方法,其特征在于,所述事理关系抽取的方法包括:基于关系词限定、词性过滤与事件成立性的抽取方法;基于关系词与依存句法规则的抽取方法;基于序列标注的事理抽取方法。
4.根据权利要求1所述的方法,其特征在于,所述实例事理元素抽取,包括抽取以下事理元素:核心动作,指的是事件中的核心动词;动作主体,指围绕核心动词的施事者;动作客体,指围绕核心动词的受事者;事件发生时间,指事件发生时的背景时间;事件发生地点,指事件发生时的背景地点;事件关联人物,指事件发生的关联人物;事件关联公司,指事件发生的关联公司;事件关联机构,指事件发生的机构实体;事件极性,指事件本身的情绪;事件确定性,指事件发生的确定性;事件权威性,指因果事件的权威性;事件发生时态,指事件发生的时态,包括已经发生,将要发生,正在发生三种状态;事件来源,指事件抽取所在的文本来源。
5.根据权利要求1所述的方法,其特征在于,所述抽象概念知识库是存储概念之间上下位层级的知识库,由名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库三个知识库构成;通过融合HowNet、同义词词林、百科类层级分类树、百科词条义项和领域词表,形成具有层级性的抽象概念知识库。
6.根据权利要求1所述的方法,其特征在于,所述抽象事理图谱,是运用事件抽象的方法对实例事理逻辑知识库的事件进行抽象,最终形成具有抽象层级性的抽象事理图谱,包括事件预处理、事件成分抽象和抽象成分融合三个步骤。
7.根据权利要求1所述的方法,其特征在于,所述事理知识图谱是事件知识与实体知识之间的融合,通过将实例事理逻辑知识库与实体知识图谱之间进行链接,形成从事件知识到实体知识的通路。
8.根据权利要求1所述的方法,其特征在于,所述领域事件图谱是一个有向有环图,节点代表事件,有向边代表事件之间的事理关系;所述领域事件图谱既关注事件外部之间的演化逻辑关系,又关注事件本身的丰富属性信息,是抽象事件与事件知识库两者的统一结合体。
9.一种融合多类事理与实体知识的领域事件图谱构建装置,其特征在于,包括:
实例事理逻辑知识库构建模块,负责对领域语料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
抽象概念知识库构建模块,负责构建具有层级性的抽象概念知识库;
抽象事理图谱构建模块,负责利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
事理知识图谱构建模块,负责利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,实现事件知识与实体知识的融合,形成事理知识图谱;
领域事件图谱构建模块,负责将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。
10.一种计算机,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~8中任一权利要求所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911059404.7A CN110968700B (zh) | 2019-11-01 | 2019-11-01 | 融合多类事理与实体知识的领域事件图谱构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911059404.7A CN110968700B (zh) | 2019-11-01 | 2019-11-01 | 融合多类事理与实体知识的领域事件图谱构建方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968700A CN110968700A (zh) | 2020-04-07 |
CN110968700B true CN110968700B (zh) | 2023-04-07 |
Family
ID=70029996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911059404.7A Active CN110968700B (zh) | 2019-11-01 | 2019-11-01 | 融合多类事理与实体知识的领域事件图谱构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968700B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797233B (zh) * | 2020-06-12 | 2021-04-30 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN111914569B (zh) * | 2020-08-10 | 2023-07-21 | 安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN112101022B (zh) * | 2020-08-12 | 2024-02-20 | 新华智云科技有限公司 | 一种地震事件实体链接方法 |
CN112100396B (zh) * | 2020-08-28 | 2023-10-27 | 泰康保险集团股份有限公司 | 一种数据处理方法和装置 |
CN112100324B (zh) * | 2020-08-28 | 2023-05-05 | 广州探迹科技有限公司 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
CN112182242A (zh) * | 2020-09-27 | 2021-01-05 | 武汉大学 | 一种面向电力作业全过程的安全管控知识图谱构建方法 |
CN112199512B (zh) * | 2020-10-15 | 2022-12-06 | 北京大学 | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 |
CN112527977A (zh) * | 2020-11-09 | 2021-03-19 | 清华大学 | 概念抽取方法、装置、电子设备及存储介质 |
CN112463941B (zh) * | 2020-12-04 | 2024-05-17 | 南京擎盾信息科技有限公司 | 基于事件链的多轮问答方法及装置 |
CN112667819A (zh) * | 2020-12-07 | 2021-04-16 | 数据地平线(广州)科技有限公司 | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 |
CN112507691A (zh) * | 2020-12-07 | 2021-03-16 | 数地科技(北京)有限公司 | 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置 |
CN112395431B (zh) * | 2021-01-18 | 2021-04-30 | 北京晶未科技有限公司 | 用于构建行为模型的方法、电子装置和电子设备 |
CN112784064B (zh) * | 2021-01-28 | 2023-05-12 | 电子科技大学 | 一种面向社交网络的层次化超维知识图谱构建方法 |
CN112966079B (zh) * | 2021-03-02 | 2022-09-30 | 中国电子科技集团公司第二十八研究所 | 一种用于对话系统的面向事件画像的文本分析方法 |
CN113282703B (zh) * | 2021-04-01 | 2022-05-06 | 中科雨辰科技有限公司 | 新闻数据的事件关联图谱构建方法及装置 |
CN113268591B (zh) * | 2021-04-17 | 2022-11-01 | 中国人民解放军战略支援部队信息工程大学 | 基于事理图谱的空中目标意图判证方法及系统 |
CN113449116B (zh) * | 2021-06-22 | 2022-12-20 | 青岛海信网络科技股份有限公司 | 一种图谱构建、预警方法、设备及介质 |
CN113792157B (zh) * | 2021-09-14 | 2022-10-25 | 哈尔滨工业大学 | 一种面向领域机理知识库的构建方法 |
CN113779358B (zh) * | 2021-09-14 | 2024-05-24 | 支付宝(杭州)信息技术有限公司 | 一种事件检测方法和系统 |
CN114090790B (zh) * | 2021-11-22 | 2024-04-16 | 西安交通大学 | 一种人机友好的数据逻辑融合电力知识图谱及其构建方法 |
CN114357198B (zh) * | 2022-03-15 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 一种针对多个知识图谱的实体融合方法及装置 |
CN114707004B (zh) * | 2022-05-24 | 2022-08-16 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN114722974B (zh) * | 2022-06-07 | 2022-09-02 | 国网浙江省电力有限公司信息通信分公司 | 基于事理逻辑和实体知识的多维度图谱融合方法 |
CN114817575B (zh) * | 2022-06-24 | 2022-09-02 | 国网浙江省电力有限公司信息通信分公司 | 基于扩展模型的大规模电力事理图谱处理方法 |
CN115358896B (zh) * | 2022-10-20 | 2023-02-03 | 四川大学华西医院 | 以海量文书构建罪名演化网络的方法、装置、设备及介质 |
CN116069948B (zh) * | 2023-01-17 | 2024-01-09 | 人民网股份有限公司 | 内容风控知识库构建方法、装置、设备及存储介质 |
CN116629358A (zh) * | 2023-05-31 | 2023-08-22 | 北京理工大学 | 事件知识图谱gcn嵌入表示方法、系统、设备及终端 |
CN116611519B (zh) * | 2023-07-19 | 2023-10-13 | 中国电子科技集团公司第十研究所 | 一种基于生产链全周期事理图谱的时间规划方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN109977237A (zh) * | 2019-05-27 | 2019-07-05 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
CN110008349A (zh) * | 2019-02-01 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 计算机执行的事件风险评估的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824647B2 (en) * | 2017-11-17 | 2020-11-03 | Accenture Global Solutions Limited | Real-time prediction and explanation of sequences of abnormal events |
-
2019
- 2019-11-01 CN CN201911059404.7A patent/CN110968700B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN110008349A (zh) * | 2019-02-01 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 计算机执行的事件风险评估的方法及装置 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN109977237A (zh) * | 2019-05-27 | 2019-07-05 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
Non-Patent Citations (3)
Title |
---|
Multi-source Knowledge Embedding Research of Knowledge Graph;Ren Lijuan等;《IEEE》;20190919;第163-166页 * |
基于数据科学思维的情报事理逻辑揭示与科学解读;刘如等;《情报理论与实践》;20180314(第08期);第22-27页 * |
融合因果事件的知识图谱构建及其应用研究;周威;《信息科技辑》;20190915;第10-73页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110968700A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968700B (zh) | 融合多类事理与实体知识的领域事件图谱构建方法和装置 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
Atanasova et al. | Automatic fact-checking using context and discourse information | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
Bonet-Jover et al. | Exploiting discourse structure of traditional digital media to enhance automatic fake news detection | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
CN111159412A (zh) | 分类方法、装置、电子设备及可读存储介质 | |
CN113609838B (zh) | 文档信息抽取及图谱化方法和系统 | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
Fernandes et al. | Appellate court modifications extraction for portuguese | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 | |
Avetisyan et al. | Word embeddings for the armenian language: intrinsic and extrinsic evaluation | |
Azzopardi et al. | Integrating natural language and formal analysis for legal documents | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
Malhar et al. | Deep learning based Answering Questions using T5 and Structured Question Generation System’ | |
Bergamaschi et al. | Conditional random fields with semantic enhancement for named-entity recognition | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN113807102A (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
Gayen et al. | Automatic identification of Bengali noun-noun compounds using random forest | |
Gomez et al. | CICBUAPnlp: graph-based approach for answer selection in community question answering task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220714 Address after: Room 888-6, building 4, artificial intelligence Industrial Park, No. 266, Chuangyan Road, Qilin science and Technology Innovation Park, Nanjing, Jiangsu 211100 Applicant after: Digital workshop (Nanjing) Technology Co.,Ltd. Address before: 100080 v21, 17 / F, 1 Zhongguancun Street, Haidian District, Beijing Applicant before: Digital technology (Beijing) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |