CN115438197A - 一种基于双层异质图的事理知识图谱关系补全方法及系统 - Google Patents

一种基于双层异质图的事理知识图谱关系补全方法及系统 Download PDF

Info

Publication number
CN115438197A
CN115438197A CN202211383318.3A CN202211383318A CN115438197A CN 115438197 A CN115438197 A CN 115438197A CN 202211383318 A CN202211383318 A CN 202211383318A CN 115438197 A CN115438197 A CN 115438197A
Authority
CN
China
Prior art keywords
graph
heterogeneous
event
relation
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211383318.3A
Other languages
English (en)
Other versions
CN115438197B (zh
Inventor
吴其林
程军
曹骞
方周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaohu University
Original Assignee
Chaohu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaohu University filed Critical Chaohu University
Priority to CN202211383318.3A priority Critical patent/CN115438197B/zh
Publication of CN115438197A publication Critical patent/CN115438197A/zh
Application granted granted Critical
Publication of CN115438197B publication Critical patent/CN115438197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于双层异质图的事理知识图谱关系补全方法及系统,方法包括:将事件中包含的实体抽取处理,构建整体的异质图,结合每个事件映射的异质子图的图结构信息及其节点信息可以更好的帮助模型进行事理知识图谱的关系补全。在构建的异质图中使用图神经网络模型GNN进行表示学习,然后结合多种信息融合更新事件特征,进而应用TransR模型对事理知识图谱进行关系补全。本发明解决了事件关系补全困难以及补全准确度较低的技术问题。

Description

一种基于双层异质图的事理知识图谱关系补全方法及系统
技术领域
本发明涉及文本数据分析处理领域,具体涉及一种基于双层异质图的事理知识图谱关系补全方法及系统。
背景技术
传统技术中的事件之间可能会存在多种关系连接,公布号为CN111382575A的现有发明专利申请文献《一种基于联合标注和实体语义信息的事件抽取方法》的事件抽取方法,首先采用BERT模型作为特征提取器;其次,基于字特征输入建模,不进行分词操作,并采用BIO标注,降低触发词识别的错误;再将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。由该现有技术的具体实现内容可知,该现有方案提取的文本对象的实体语义特征信息以对文本中的段落或句子进行事件。但前述现有技术仅通过事件本身的语义信息难以准确对事件之间的关系进行补全。公布号为CN109190656A的现有专利申请文献《一种低采样定位环境下的室内语义轨迹标注和补全方法》语义实体和室内空间结构信息录入,构建获得移动转移图;采集原始位置轨迹,对每个原始位置轨迹分割形成多个分割片段;对于事件模式,用户选取绑定位置轨迹片段;将分割片段和位置轨迹片段的关键特征进行相似性比较,取相似性最高的进行相关性链接,形成一组独立的语义元组;将语义元组组装,概率推断计算生成缺失部分的语义元组;插入补全后将完整的语义轨迹导出。从该现有技术的具体实现方式可知,该现有技术结合语义信息和室内空间结构生成的移动转移图,对时序的缺失部分进行概率推断运算,将获取的缺失部分语义元组插入到对应的语义轨迹中进行补全,但该现有方案仅适用于低采样定位环境下的室内语义轨迹标注和补全的应用场景,在低采样定位环境之外的应用场景下,无法确保事理知识图谱的关系补全准确性。
综上,现有技术存在事件关系补全困难以及补全准确度较低的技术问题。
发明内容
本发明所要解决的技术问题在于如何解决现有技术中事件关系补全困难以及补全准确度较低的技术问题。
本发明是采用以下技术方案解决上述技术问题的:一种基于双层异质图的事理知识图谱关系补全方法包括:
S1、从已知的事理知识图谱中,获取全部事件中的对应关系,其中,对应关系包括:全部事件包含的所有实体构成的异质图;
S2、对异质图进行表示学习,据以获得每个实体节点的向量表示,以得到子图结构嵌入特征表示,据以获取预训练模型,其中,步骤S2还包括:
S21、获取并利用预置逻辑表示元路径;
S22、根据元路径的节点嵌入聚合得到元路径嵌入表示,据以构造语义嵌入矩阵,融合处理一个事件中的不少于2个的元路径,以得到事件在异质图上的子图语义特征;
S23、根据原始异质子图的节点特征和语义特征,分别生成异质子图,融合异质子图与原始异质子图,以得到第一融合新异质子图;
S24、根据第一融合新异质子图,每个事件映射一个子图,与该子图的节点特征和语义特征进行融合处理,据以得到第二融合新异质子图;
S25、将第二融合新异质子图输入到图神经网络模型GNN和预置正则化器中,以通过双层异质图联合学习,优化第二融合新异质子图的图结构和GNN参数,以得到预训练模型;
S3、结合预训练模型,提取事理知识图谱中的事件语义特征;
S4、结合子图结构嵌入特征表示以及事件语义特征,据以进行异质图联合学习,据以得到事理知识图谱关系预测模型;
S5、获取并利用新事件实体,根据事理知识图谱关系预测模型,对基本异质图进行扩展补全,以得到更新异质图,利用更新异质图更新子图结构嵌入特征表示,据以补全事理知识图谱,其中,事理知识图谱关系预测模型包括:TransR模型。
本发明针对已知的事理知识图谱包含的大量事件,由所有事件中的实体构成一个基本的异质图,每一个事件可以由其包含的实体作为边界在基本异质图上找到一个子图,从而可以通过构建聚合每个事件对应的子图信息作为该事件的嵌入表示,结合事件本身携带的语义信息对事件知识图谱进行训练学习,进而实现事理知识图谱的关系补全。本发明中的新的事件包含的实体会对基本异质图进行扩展或补全,利用更新的基本异质图重新更新图结构的表示,提升模型的准确度。
本发明中,事理知识图谱是一个异质图,故而本发明提出的模型是在一个双层异质图上进行训练的,且该双层异质图之间存在映射关系。该模型加入了子图结构信息和由元路径融合产生的语义信息。其中,结构信息主要由事件映射子图产生,故而在训练异质图的表示学习过程中,已经利用了事理知识图谱中的信息,即第一层异质图对第二层异质图所施加的影响,优化了事理知识图谱的补全效果。
在更具体的技术方案中,步骤S1包括:
S11、利用已知的事理知识图谱KG,与事理知识图谱KG中的所有事件节点包含的实体构成异质图G,其中,以下述逻辑表示异质图:
G=(V,E,F)
其中,V表示节点集合,E表示边集合,F表示特征集合;
S12、获取事件知识图谱中的对应关系,其中,对应关系包括:事件E e 与事件之间的关系R e ,事理知识图谱中的事件之间的关系类型包括:因果关系、条件关系、反转关系、顺承关系、上下位关系、组成关系和并发关系;
S13、从事件中抽取实体E g 及实体间关系R g, 据以构成异质子图,并利用每个事件与该事件的异质子图建立映射关系,其中,实体的类型包括:人物、事物、地点,每个事件包括:实体及实体间关系;
S14、以实体为边界,在异质图G上划分与事件对应的异质子图G sub ,并在异质图表示学习过程中,融合异质子图G sub 的子图结构信息。
在更具体的技术方案中,步骤S21中,利用下述逻辑定义元路径P
Figure 694693DEST_PATH_IMAGE001
据以描述节点v 1 和节点v l+1 之间的复合关系。
在更具体的技术方案中,以下述逻辑表示复合关系:
Figure 688057DEST_PATH_IMAGE002
其中,v表示异质图中的节点,r表示异质图中节点之间的关系。
在更具体的技术方案中,步骤S25中,利用事件映射子图生成结构信息,该结构信息包括:第一融合新异质子图以及第二融合新异质子图的影响数据。
本发明的事件映射的异质图上的训练学习中,不仅利用了节点及其关系的特征,还融合了事件映射的子图结构特征,进一步提升了事理知识图谱补全精度。
在更具体的技术方案中,步骤S3包括:
S31、从预训练模型中,获取文本的文本向量表示;
S32、利用预置的中文预训练模型BERT-wwm,从预训练模型中获取中文文本向量表示;
S33、根据文本的具体文本长度分布情况,进行补0及截断处理,以设置适用文本长度;
S34、根据文本的位置信息,处理得到文本嵌入表示,据以作为事件语义特征。
针对传统技术中使用词向量获取其嵌入表示的方式存在的问题,本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式,避免了现有技术中难以包含文本的上下文信息的缺陷。
在更具体的技术方案中,步骤S4包括:
S41、结合处理异质图的子图结构嵌入特征表示以及事件语义特征;
S42、结合TransR算法,针对子图结构特征表示中的三元组<e eh ,r e ,e et >,以结点e eh 作为头结点,结点e et 作为尾结点,并使得期望头结点向量和关系向量之和逼近尾结点向量,以达到头节点及尾结点适用状态;
S43、损失函数利用负采样的max-margin函数,以下述逻辑处理得到损失函数:
L(y,y’)=max(0,margin-y+y’)
其中,y是正样本的得分,y’是负样本的得分;
S44、对于事理知识图谱,以下述逻辑表示其知识表示损失函数:
L(e eh ,r e ,e et )=max(0,d pos -d neg +margin)
其中,d=||e eh +r e -e et ||,表示L1、L2范数;
S45、利用损失函数以及知识表示损失函数,进行异质图联合学习。以得到事理知识图谱关系预测模型,据以进行关系补全。
在更具体的技术方案中,步骤S42中,以下述逻辑表示头尾结点适用状态:e eh +r e =e et
在更具体的技术方案中,步骤S5包括:
S51、更新异质图G,抽取事理知识图谱中,新事件实体及新事件关系,据以向异质图G进行映射;
S52、利用新事件实体及新事件关系,补全更新异质图G的节点和连接,以得到更新异质图;
S53、对更新异质图的信息表示进行再学习,获取新嵌入表示;
S54、将新嵌入表示重新载入TransR模型,据以完成事理知识图谱的补全更新。
S55、循环执行步骤S51至S54,以循环更新事理知识图谱。
本发明中新的事件的出现先更新了异质图,再更新了事理知识图谱,循环往复,随着事理知识图谱的事件密度的提升,异质图持续完善,再反馈回事理知识图谱,本发明采用的前述相互促进的机制使得事理知识图谱的关系补全准确度更高。
在更具体的技术方案中,一种基于双层异质图的事理知识图谱关系补全系统包括:
事件对应关系获取模块,用以从已知的事理知识图谱中,获取全部事件中的对应关系,其中,对应关系包括:全部事件包含的所有实体构成的异质图;
预训练模型获取模块,用以对异质图进行表示学习,据以获得每个实体节点的向量表示,以得到子图结构嵌入特征表示,据以获取预训练模型,预训练模型获取模块与事件对应关系获取模块连接,其中,预训练模型获取模块还包括:
元路径表示模块,用以获取并利用预置逻辑表示元路径;
子图语义特征获取模块,用以根据元路径的节点嵌入聚合得到元路径嵌入表示,据以构造语义嵌入矩阵,融合处理一个事件中的不少于2个的元路径,以得到事件在异质图上的子图语义特征,子图语义特征获取模块与元路径表示模块连接;
第一异质图模块,用以根据原始异质子图的节点特征和语义特征,分别生成异质子图,融合异质子图与原始异质子图,以得到第一融合新异质子图,第一异质图模块与子图语义特征获取模块连接;
第二异质图模块,用以根据第一融合新异质子图,每个事件映射一个子图,与该子图的节点特征和语义特征进行融合处理,据以得到第二融合新异质子图,第一异质图模块与第二异质图模块连接;
双层异质图联合训练模块,用以将第二融合新异质子图输入到图神经网络模型GNN和预置正则化器中,以通过双层异质图联合学习,优化第二融合新异质子图的图结构和GNN参数,以得到预训练模型,双层异质图联合处理模块与第二异质图模块连接;
事件语义特征获取模块,用以结合预训练模型,提取事理知识图谱中的事件语义特征,事件语义特征获取模块与预训练模型获取模块连接;
关系预测模型获取模块,用以结合子图结构嵌入特征表示以及事件语义特征,据以进行异质图联合学习,据以得到事理知识图谱关系预测模型,关系预测模型获取模块与事件语义特征获取模块连接;
图谱补全模块,用以获取并利用新事件实体,根据事理知识图谱关系预测模型,对基本异质图进行扩展补全,以得到更新异质图,利用更新异质图更新子图结构嵌入特征表示,据以补全事理知识图谱,图谱补全模块与关系预测模型获取模块连接。
本发明相比现有技术具有以下优点:本发明针对已知的事理知识图谱包含的大量事件,由所有事件中的实体构成一个基本的异质图,每一个事件可以由其包含的实体作为边界在基本异质图上找到一个子图,从而可以通过构建聚合每个事件对应的子图信息作为该事件的嵌入表示,结合事件本身携带的语义信息对事件知识图谱进行训练学习,进而实现事理知识图谱的关系补全。本发明中的新的事件包含的实体会对基本异质图进行扩展或补全,利用更新的基本异质图重新更新图结构的表示,提升模型的准确度。
本发明中,事理知识图谱是一个异质图,故而本发明提出的模型是在一个双层异质图上进行训练的,且该双层异质图之间存在映射关系。该模型加入了子图结构信息和由元路径融合产生的语义信息。其中,结构信息主要由事件映射子图产生,故而在训练异质图的表示学习过程中,已经利用了事理知识图谱中的信息,即第一层异质图对第二层异质图所施加的影响,优化了事理知识图谱的补全效果。
本发明的事件映射的异质图上的训练学习中,不仅利用了节点及其关系的特征,还融合了事件映射的子图结构特征,进一步提升了事理知识图谱补全精度。
针对传统技术中使用词向量获取其嵌入表示的方式存在的问题,本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式,避免了现有技术中难以包含文本的上下文信息的缺陷。
本发明中新的事件的出现先更新了异质图,再更新了事理知识图谱,循环往复,随着事理知识图谱的事件密度的提升,异质图持续完善,再反馈回事理知识图谱,本发明采用的前述相互促进的机制使得事理知识图谱的关系补全准确度更高。本发明解决了现有技术中存在的事件关系补全困难以及补全准确度较低的技术问题。
附图说明
图1为本发明实施例1的一种基于双层异质图的事理知识图谱关系补全方法步骤示意图;
图2为本发明实施例1的事件与异质图之间的映射关系示意图;
图3为本发明实施例1的取事件与异质图的对应关系具体步骤示意图;
图4为本发明实施例1的异质子图多信息融合过程示意图;
图5为本发明实施例1的事件子图嵌入表示获取具体步骤示意图;
图6为本发明实施例1的具体文本示例示意图;
图7为本发明实施例1的语义信息嵌入表示获取具体步骤示意图;
图8为本发明实施例1的TransE算法思想原理图;
图9为本发明实施例1的异质图结构信息及事件语义信息联合学习具体步骤示意图;
图10为本发明实施例1的事理知识图谱关系补全具体步骤示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明的目的是对事理知识图谱进行关系补全,其中,输入数据包括:两个事件
,输出数据包括:两个事件之间存在的关系。
如图1所示,本发明提供的一种基于双层异质图的事理知识图谱关系补全方法包括以下步骤:
S1、获取事件与异质图的对应关系;在本实施例中,已知的事理知识图谱包括:所有事件与所有事件包含的所有实体构成异质图,在事件及子图上形成的对应关系;
在本实施例中,S1步骤还包括以下具体步骤:
S11、已知的事理知识图谱KG与其所有事件节点包含的实体构成异质图G;在本实施例中,异质图为多种类型节点和关系的图。异质图G=(V,E,F),其中V表示节点集合,E表示边集合,F表示特征集合。
S12、获取事件知识图谱中的对应关系;在本实施例中,事件知识图谱由事件E e 与事件之间的关系R e 构成,事理知识图谱中的事件之间的关系类型包含:因果关系、条件关系、反转关系、顺承关系、上下位关系、组成关系和并发关系。
S13、抽取所有事件的实体及其关系构建一个整体的异质图,并将每个事件与其所包含的实体所构成的异质子图建立映射关系;在本实施例中,异质图是从事件中抽取的实体E g 及其之间的关系R g 构成的,其实体类型主要包括人物、事物、地点等。每个事件都会包含实体及其之间的关系;
S14、以事件包含的实体为边界在G上划分与之对应的异质子图G sub ,并在异质图表示学习中融合子图结构信息;在本实施例中,考虑到事件之间的关系可能与其所对应的异质子图之间的空间关系存在联系,在异质图表示学习中融合了子图结构信息。在本实施例中,子图间的空间关系包括:包含、相交、相等、相接、不相交、重叠、内部。
S2、通过对整体的异质图的表示学习获得事件子图的嵌入表示;在本实施例中,对整体的异质图进行表示学习,获得每个实体节点的向量表示,进而获得子图结构的嵌入表示;
如图4及图5所示,在本实施例中,步骤S2还包括以下具体步骤:
S21、元路径表示;在本实施例中,元路径P被定义为型如
Figure 442386DEST_PATH_IMAGE003
的一条 路径,描述了v 1 v l+1 之间的复合关系
Figure 117081DEST_PATH_IMAGE004
,其中v表示异质图中的节点,r表示异 质图中节点之间的关系;
S22、基于元路径的节点嵌入聚合得到元路径嵌入表示,通过来自于M个元路径嵌入构造语义嵌入矩阵Z,对于一个事件,在其映射的异质子图中存在多个元路径,将其融合作为该事件在异质图上的子图的语义特征;
S23、将原始异质子图、节点特征和语义特征的信息作为输入,分别生成异质子图。将生成的子图与原始图融合,即得到新的异质子图;
S24、融合得到的新的异质子图中既包含了原始子图的结构信息,也包含了其中的节点特征和语义特征的信息,且每个事件都会映射一个子图并融合节点特征和语义特征产生一个新的异质子图,以此作为后续表示学习的输入;
S25、将融合得到的子图输入到GNN图神经网络模型和正则化器中,联合学习优化图结构和GNN参数。在本实施例中,与传统的GNN不同的是本发明加入了子图结构信息和由元路径融合产生的语义信息。其中结构信息主要由事件映射子图产生,故而在训练异质图的表示学习过程中,已经利用了事理知识图谱中的信息,即第一层异质图对第二层异质图所施加的影响。
S3、结合预训练模型获取事件的语义信息的嵌入表示;在本实施例中,结合预训练模型,提取事理知识图谱中事件的语义特征;
如图6及图7所示,在本实施例中,步骤S3包括以下具体步骤:
S31、从预训练模型中获取文本向量表示;在本实施例中,事理知识图谱中的事件属性中有具体的描述,其中包含了重要的文本信息。通过该文本信息,可以获取事件的语义特征,传统的方法主要使用词向量获取其嵌入表示,这种方式往往难以包含文本的上下文信息,故而本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式;
S32、利用中文预训练模型BERT-wwm,从预训练模型中获取中文文本向量表示;在本实施例中,针对中文数据,本发明应用哈工大讯飞联合实验室发布的中文预训练模型BERT-wwm,从预训练模型中获取文本的向量表示,如图6所示的<M女士事件>的具体文本信息;
S33、针对具体的文本长度分布情况设置合适的文本长度,对于未达到所设长度的文本进行补0,超过的文本进行截断处理;在本实施例中,文本长度计入标点符号;
S34、结合其文本的位置信息,得到文本的嵌入表示。在本实施例中,本发明以此文本嵌入表示作为事件的语义特征。
S4、结合异质图结构信息和事件语义信息进行联合学习;在本实施例中,结合步骤S2中获取的图结构特征和步骤S3中获取的语义特征进行联合学习;
如图8及图9所示,在本实施例中,步骤S4还包括以下具体步骤:
S41、将步骤S2中获取的图结构表示与步骤S3中获取的事件语义特征结合,作为事件的嵌入表示;在本实施例中,事件的嵌入表示结合了事件本身的语义特征及其映射的异质子图的结构特征、节点特征和语义特征;
S42、根据TransR算法,使得期望头结点向量和关系向量之和逼近尾结点向量,以达到适用的状态;在本实施例中,结合TransR算法的思想,对于三元组<e eh ,r e ,e et >,e eh 作为头结点,e et 作为尾结点,期望头结点向量和关系向量的和尽可能靠近尾结点向量,适用的状态即希望达到的e eh +r e =e et 的状态;
S43、获取损失函数;在本实施例中,损失函数使用负采样的max-margin函数,即
L(y,y’)=max(0,margin-y+y’)
其中,y是正样本的得分,y’是负样本的得分;
S44、获取知识表示损失函数;在本实施例中,对于事理知识图谱,其知识表示的损失函数为:
L(e eh ,r e ,e et )=max(0,d pos -d neg +margin)
其中,d=||e eh +r e -e et ||,这是L1或L2范数;
S45、利用训练得到的模型即可对事理知识图谱进行关系预测,并依据前述原理对缺失关系的事件对进行关系补全。
S5、利用学习到的模型对事理知识图谱进行关系补全;在本实施例中,新的事件包含的实体会对基本异质图进行扩展或补全,利用更新的基本异质图重新更新图结构的表示,提升模型的准确度,进而对事理知识图谱进行关系补全。
如图10所示,在本实施例中,S5步骤还包括一下具体步骤:
S51、将其包含的实体及其关系抽取出来,并向基本异质图G进行映射;在本实施例中,对于新的事件的加入,从更新基本异质图G开始。新事件在事理知识图谱中属于孤立的点,还未与其他事件建立关系,故本发明首先将其包含的实体及其关系抽取出来,并向基本异质图G进行映射;
S52、利用新的事件中的实体及关系对基本异质图G进行补全更新,在本实施例中,新的事件可能抽取出未被基本异质图G包含的实体或关系,即需要在G中加入新的节点或连接;
S53、对所有信息表示进行再学习;在本实施例中,由于异质图G更新,所有事件对应的异质子图G sub 都有可能改变,其中包含的元路径也可能进一步丰富,从而需要对所有的信息表示进行再学习,获取新的嵌入表示。
S54、将全部更新后的事件的嵌入表示重新载入TransR模型中,进而完成事理知识图谱的补全更新;
S55、循环执行前述步骤S51至S54;经过以上操作,新的事件的出现先更新了异质图,再更新了事理知识图谱,循环往复,随着事理知识图谱的事件密度的提升,异质图更加完善,再反馈回事理知识图谱,相互促进的机制使得事理知识图谱的关系补全准确度更高。
综上,本发明针对已知的事理知识图谱包含的大量事件,由所有事件中的实体构成一个基本的异质图,每一个事件可以由其包含的实体作为边界在基本异质图上找到一个子图,从而可以通过构建聚合每个事件对应的子图信息作为该事件的嵌入表示,结合事件本身携带的语义信息对事件知识图谱进行训练学习,进而实现事理知识图谱的关系补全。本发明中的新的事件包含的实体会对基本异质图进行扩展或补全,利用更新的基本异质图重新更新图结构的表示,提升模型的准确度。
本发明中,事理知识图谱是一个异质图,故而本发明提出的模型是在一个双层异质图上进行训练的,且该双层异质图之间存在映射关系。该模型加入了子图结构信息和由元路径融合产生的语义信息。其中,结构信息主要由事件映射子图产生,故而在训练异质图的表示学习过程中,已经利用了事理知识图谱中的信息,即第一层异质图对第二层异质图所施加的影响,优化了事理知识图谱的补全效果。
本发明的事件映射的异质图上的训练学习中,不仅利用了节点及其关系的特征,还融合了事件映射的子图结构特征,进一步提升了事理知识图谱补全精度。
针对传统技术中使用词向量获取其嵌入表示的方式存在的问题,本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式,避免了现有技术中难以包含文本的上下文信息的缺陷。
本发明中新的事件的出现先更新了异质图,再更新了事理知识图谱,循环往复,随着事理知识图谱的事件密度的提升,异质图持续完善,再反馈回事理知识图谱,本发明采用的前述相互促进的机制使得事理知识图谱的关系补全准确度更高。本发明解决了现有技术中存在的事件关系补全困难以及补全准确度较低的技术问题。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述方法包括:
S1、从已知的事理知识图谱中,获取全部事件中的对应关系,其中,所述对应关系包括:所述全部事件包含的所有实体构成的异质图;
S2、对所述异质图进行表示学习,据以获得每个实体节点的向量表示,以得到子图结构嵌入特征表示,据以获取预训练模型,其中,所述步骤S2还包括:
S21、获取并利用预置逻辑表示元路径;
S22、根据所述元路径的节点嵌入聚合得到元路径嵌入表示,据以构造语义嵌入矩阵,融合处理一个事件中的不少于2个的所述元路径,以得到所述事件在所述异质图上的子图语义特征;
S23、根据原始异质子图的节点特征和语义特征,分别生成异质子图,融合所述异质子图与所述原始异质子图,以得到第一融合新异质子图;
S24、根据所述第一融合新异质子图中的每个所述事件映射一个子图,与该子图的所述节点特征和所述语义特征进行融合处理,据以得到第二融合新异质子图;
S25、将所述第二融合新异质子图输入到图神经网络模型GNN和预置正则化器中,以通过双层异质图联合学习,优化所述第二融合新异质子图的图结构和GNN参数,以得到所述预训练模型;
S3、结合所述预训练模型,提取所述事理知识图谱中的事件语义特征;
S4、结合所述子图结构嵌入特征表示以及所述事件语义特征,据以进行异质图联合学习,据以得到事理知识图谱关系预测模型;
S5、获取并利用新事件实体,根据所述事理知识图谱关系预测模型,对基本异质图进行扩展补全,以得到更新异质图,利用所述更新异质图更新所述子图结构嵌入特征表示,据以补全所述事理知识图谱,其中,所述事理知识图谱关系预测模型包括:TransR模型。
2.根据权利要求1所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S1包括:
S11、利用已知的所述事理知识图谱KG,与所述事理知识图谱KG中的所有事件节点包含的所述实体构成所述异质图G,其中,以下述逻辑表示所述异质图:
G=(V,E,F)
其中,V表示节点集合,E表示边集合,F表示特征集合;
S12、获取事件知识图谱中的对应关系,其中,所述对应关系包括:事件E e 与所述事件之间的关系R e ,所述事理知识图谱中的所述事件之间的关系类型包括:因果关系、条件关系、反转关系、顺承关系、上下位关系、组成关系和并发关系;
S13、从所述事件中抽取实体E g 及实体间关系R g, 据以构成异质子图,并利用每个所述事件与该所述事件的所述异质子图建立映射关系,其中,所述实体的类型包括:人物、事物、地点,每个所述事件包括:所述实体及所述实体间关系;
S14、以所述实体为边界,在所述异质图G上划分与所述事件对应的异质子图G sub ,并在所述异质图表示学习过程中,融合所述异质子图G sub 的子图结构信息。
3.根据权利要求1所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S21中,利用下述逻辑定义所述元路径P
Figure 201609DEST_PATH_IMAGE001
据以描述节点v 1 和节点v l+1 之间的复合关系。
4.根据权利要求3所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,以下述逻辑表示所述复合关系:
Figure 400509DEST_PATH_IMAGE002
其中,v表示所述异质图中的所述节点,r表示所述异质图中所述节点之间的关系,符号ᵒ表示集合之间的映射。
5.根据权利要求1所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S25中,利用所述事件映射子图生成结构信息,该所述结构信息包括:所述第一融合新异质子图以及所述第二融合新异质子图的影响数据。
6.根据权利要求1所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S3包括:
S31、从所述预训练模型中,获取文本的文本向量表示;
S32、利用预置的中文预训练模型BERT-wwm,从所述预训练模型中获取中文文本向量表示;
S33、根据所述文本的具体文本长度分布情况,进行补0及截断处理,以设置适用文本长度;
S34、根据所述文本的位置信息,处理得到文本嵌入表示,据以作为所述事件语义特征。
7.根据权利要求1所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S4包括:
S41、结合处理所述异质图的所述子图结构嵌入特征表示以及所述事件语义特征;
S42、结合TransR算法,针对所述子图结构特征表示中的三元组<e eh ,r e ,e et >,以结点e eh 作为头结点,结点e et 作为尾结点,并使得期望头结点向量和关系向量之和逼近尾结点向量,以达到所述头节点及所述尾结点适用状态;
S43、损失函数利用负采样的max-margin函数,以下述逻辑处理得到损失函数:
L(y,y’)=max(0,margin-y+y’)
其中,y是正样本的得分,y’是负样本的得分;
S44、对于所述事理知识图谱,以下述逻辑表示其知识表示损失函数:
L(e eh ,r e ,e et )=max(0,d pos -d neg +margin)
其中,d=||e eh +r e -e et ||,表示L1、L2范数,L是损失函数,r e 是向量eteh之间的差,d pos 是正样本特征距离,d neg 是负样本特征距离,margin是惩罚函数;
S45、利用所述损失函数以及所述知识表示损失函数,进行异质图联合学习,以得到所述事理知识图谱关系预测模型,据以进行关系补全。
8.根据权利要求7所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S42中,以下述逻辑表示所述头尾结点适用状态:e eh +r e =e et
9.根据权利要求1所述的一种基于双层异质图的事理知识图谱关系补全方法,其特征在于,所述步骤S5包括:
S51、更新所述异质图G,抽取所述事理知识图谱中,所述新事件实体及新事件关系,据以向所述异质图G进行映射;
S52、利用所述新事件实体及所述新事件关系,补全更新所述异质图G的节点和连接,以得到所述更新异质图;
S53、对所述更新异质图的信息表示进行再学习,获取新嵌入表示;
S54、将所述新嵌入表示重新载入所述TransR模型,据以完成所述事理知识图谱的补全更新;
S55、循环执行所述步骤S51至S54,以循环更新所述事理知识图谱。
10.一种基于双层异质图的事理知识图谱关系补全系统,其特征在于,所述系统包括:
事件对应关系获取模块,用以从已知的事理知识图谱中,获取全部事件中的对应关系,其中,所述对应关系包括:所述全部事件包含的所有实体构成的异质图;
预训练模型获取模块,用以对所述异质图进行表示学习,据以获得每个实体节点的向量表示,以得到子图结构嵌入特征表示,据以获取预训练模型,所述预训练模型获取模块与所述事件对应关系获取模块连接,其中,所述预训练模型获取模块还包括:
元路径表示模块,用以获取并利用预置逻辑表示元路径;
子图语义特征获取模块,用以根据所述元路径的节点嵌入聚合得到元路径嵌入表示,据以构造语义嵌入矩阵,融合处理一个事件中的不少于2个的所述元路径,以得到所述事件在所述异质图上的子图语义特征,所述子图语义特征获取模块与所述元路径表示模块连接;
第一异质图模块,用以根据原始异质子图的节点特征和语义特征,分别生成异质子图,融合所述异质子图与所述原始异质子图,以得到第一融合新异质子图,所述第一异质图模块与所述子图语义特征获取模块连接;
第二异质图模块,用以根据所述第一融合新异质子图,每个所述事件映射一个子图,与该子图的所述节点特征和所述语义特征进行融合处理,据以得到第二融合新异质子图,所述第一异质图模块与所述第二异质图模块连接;
双层异质图联合训练模块,用以将所述第二融合新异质子图输入到图神经网络模型GNN和预置正则化器中,以通过双层异质图联合学习,优化所述第二融合新异质子图的图结构和GNN参数,以得到所述预训练模型,所述双层异质图联合处理模块与所述第二异质图模块连接;
事件语义特征获取模块,用以结合所述预训练模型,提取所述事理知识图谱中的事件语义特征,所述事件语义特征获取模块与所述预训练模型获取模块连接;
关系预测模型获取模块,用以结合所述子图结构嵌入特征表示以及所述事件语义特征,据以进行异质图联合学习,据以得到事理知识图谱关系预测模型,所述关系预测模型获取模块与所述事件语义特征获取模块连接;
图谱补全模块,用以获取并利用新事件实体,根据所述事理知识图谱关系预测模型,对基本异质图进行扩展补全,以得到更新异质图,利用所述更新异质图更新所述子图结构嵌入特征表示,据以补全所述事理知识图谱,所述图谱补全模块与所述关系预测模型获取模块连接。
CN202211383318.3A 2022-11-07 2022-11-07 一种基于双层异质图的事理知识图谱关系补全方法及系统 Active CN115438197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211383318.3A CN115438197B (zh) 2022-11-07 2022-11-07 一种基于双层异质图的事理知识图谱关系补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211383318.3A CN115438197B (zh) 2022-11-07 2022-11-07 一种基于双层异质图的事理知识图谱关系补全方法及系统

Publications (2)

Publication Number Publication Date
CN115438197A true CN115438197A (zh) 2022-12-06
CN115438197B CN115438197B (zh) 2023-03-24

Family

ID=84252389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211383318.3A Active CN115438197B (zh) 2022-11-07 2022-11-07 一种基于双层异质图的事理知识图谱关系补全方法及系统

Country Status (1)

Country Link
CN (1) CN115438197B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245139A (zh) * 2023-04-23 2023-06-09 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN117290366A (zh) * 2023-08-14 2023-12-26 中国船舶集团有限公司第七〇九研究所 一种不确定性态势时空知识图谱更新方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147264A (zh) * 2019-05-17 2019-08-20 巢湖学院 一种基于用户习惯的云桌面自助管理系统
CN113806563A (zh) * 2021-11-18 2021-12-17 东南大学 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN114090902A (zh) * 2021-11-22 2022-02-25 中国人民解放军国防科技大学 一种基于异质网络的社交网络影响力预测方法、装置
CN114359768A (zh) * 2021-09-30 2022-04-15 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN115086004A (zh) * 2022-06-10 2022-09-20 中山大学 一种基于异质图的安全事件识别方法及系统
CN115269877A (zh) * 2022-08-10 2022-11-01 深圳市网联安瑞网络科技有限公司 领域实体与事件双中心知识图谱构建方法、系统及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147264A (zh) * 2019-05-17 2019-08-20 巢湖学院 一种基于用户习惯的云桌面自助管理系统
CN114359768A (zh) * 2021-09-30 2022-04-15 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN113806563A (zh) * 2021-11-18 2021-12-17 东南大学 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN114090902A (zh) * 2021-11-22 2022-02-25 中国人民解放军国防科技大学 一种基于异质网络的社交网络影响力预测方法、装置
CN115086004A (zh) * 2022-06-10 2022-09-20 中山大学 一种基于异质图的安全事件识别方法及系统
CN115269877A (zh) * 2022-08-10 2022-11-01 深圳市网联安瑞网络科技有限公司 领域实体与事件双中心知识图谱构建方法、系统及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINLI ZHANG: "WMGCN: Weighted Meta-Graph Based Graph Convolutional Networks for Representation Learning in Heterogeneous Networks", 《IEEE ACCESS》 *
JUNCHEN: "Entity set expansion with semantic features of knowledge graphs", 《JOURNAL OF WEB SEMANTICS》 *
杨晓慧: "图结构数据的表示学习算法研究与实现", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245139A (zh) * 2023-04-23 2023-06-09 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN116245139B (zh) * 2023-04-23 2023-07-07 中国人民解放军国防科技大学 图神经网络模型训练方法和装置、事件检测方法和装置
CN117290366A (zh) * 2023-08-14 2023-12-26 中国船舶集团有限公司第七〇九研究所 一种不确定性态势时空知识图谱更新方法及系统

Also Published As

Publication number Publication date
CN115438197B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN115438197B (zh) 一种基于双层异质图的事理知识图谱关系补全方法及系统
CN110232186A (zh) 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110826303A (zh) 一种基于弱监督学习的联合信息抽取方法
Lin et al. Deep structured scene parsing by learning with image descriptions
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN112000689B (zh) 一种基于文本分析的多知识图谱融合方法
WO2022262320A1 (zh) 基于知识图谱的配电网cim模型信息补全方法及系统
CN111476031A (zh) 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN112347761A (zh) 基于bert的药物关系抽取方法
CN112650833A (zh) Api匹配模型建立方法及跨城市政务api匹配方法
CN115618097A (zh) 面向先验数据不充分多社交媒体平台知识图谱的实体对齐方法
CN114743029A (zh) 一种图像文本匹配的方法
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
US11494431B2 (en) Generating accurate and natural captions for figures
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant