CN114254117A - 一种基于数据增强和自适应负采样技术的知识图谱推理方法 - Google Patents

一种基于数据增强和自适应负采样技术的知识图谱推理方法 Download PDF

Info

Publication number
CN114254117A
CN114254117A CN202111343983.5A CN202111343983A CN114254117A CN 114254117 A CN114254117 A CN 114254117A CN 202111343983 A CN202111343983 A CN 202111343983A CN 114254117 A CN114254117 A CN 114254117A
Authority
CN
China
Prior art keywords
entity
frequency
graph
knowledge graph
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111343983.5A
Other languages
English (en)
Inventor
刘博�
吴恩举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202111343983.5A priority Critical patent/CN114254117A/zh
Publication of CN114254117A publication Critical patent/CN114254117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据增强和自适应负采样技术的知识图谱推理方法,基于数据增强和自适应负采样技术,实现在不引入额外数据的前提下,将每个实体在知识图谱上各种关系的频率作为原数据特征的补充,实现对单个三元组数据的增强。为了进一步提高知识图谱推理模型的泛化性能,在为正样本进行数据增强的同时,本发明设计了能够对不同知识图谱进行自适应的负采样策略,不仅能够有效避免低质量负样本引发的梯度消失对模型优化的负面影响,还能根据正样本特征自适应的选取高质量负样本。

Description

一种基于数据增强和自适应负采样技术的知识图谱推理方法
技术领域
本发明属于知识图谱推理技术领域,主要用来解决大规模知识图谱中普遍存在的不完备问题。
背景技术
知识图谱是存储现实世界中常见事实的结构化信息的多关系图,其节点表示实体,边表示实体之间的关系,边用不同的关系进行标记,关系以(h,r,y)三元组的形式组织。由于能够以机器读取的方式对结构化的复杂数据进行建模,知识图谱现在被广泛应用于知识问答、信息检索以及基于内容的推荐系统等诸多领域。规模庞大的知识图谱可以包含数百万个实体和数十亿个事实。但与现有的事实和新增加的现实世界知识庞大的体量面前,知识图谱的不完备问题依然是知识图谱应用于实际问题时亟待解决的痛点。
知识图谱的补全是非常重要的工作,为了在现有三元组的基础上预测新的三元组,并进一步丰富和完善知识图谱,研究人员提出了各种技术来纠正错误以及将缺失的事实添加到知识图谱,其中,将知识图谱中缺失事实添加到知识图谱中的任务被称为知识图谱补全,纠正知识图谱中的错误事实的任务则被称为知识图谱去噪,这两种任务一般统称为知识图谱推理。
发明内容
本发明创造了一种基于数据增强和自适应负采样技术的知识图谱推理方法,实现在不引入额外数据的前提下,将每个实体在知识图谱上各种关系的频率作为原数据特征的补充,实现对单个三元组数据的增强。同时,为了进一步提高知识图谱推理模型的泛化性能,在为正样本进行数据增强的同时,本发明设计了能够对不同知识图谱进行自适应的负采样策略,不仅能够有效避免低质量负样本引发的梯度消失对模型优化的负面影响,还能根据正样本特征自适应的选取高质量负样本。本发明做出的改进及其意义将从以下三点具体阐述:
(1)创新性的从现有三元组中抽取表达能力更强的关系频率特征,并以此特征对原三元组数据进行数据增强,有效提高了推理过程中对知识图谱蕴含信息的利用率。由于对规模庞大的知识图谱建模难度较高且代价极大,已有的对知识图谱整体建模的模型又不具备良好的可扩展性,所以当下流行的知识图谱推理模型大都以孤立的三元组的简单嵌入作为输入数据,但这种方案在一定程度上割裂了单个三元组与整体知识图谱的联系,而单个三元组本身携带的信息量十分有限,容易产生降低模型推理精度、减弱模型泛化能力的限制作用。本发明从特征表达能力的角度出发,通过统计每个实体在识图谱上各种关系的出现频率,包括该实体作为头实体时各种关系的频率,和该实体作为尾实体时各种关系的频率,用以代替该实体的简单嵌入。相比于以实体简单嵌入为输入的方法,关系频率不仅能够描述实体本身的状态,还能描述该实体邻域范围内的空间结构信息,在丰富特征维度的同时,还可以强化该实体与知识图谱整体的联系。除此之外,由于使用关系频率代替实体嵌入,输入特征和实体本身的绑定关系也减弱了,所以相比于使用实体的简单嵌入训练得到的模型,通过本发明设计的数据增强策略得到的输入数据能使模型以关系频率特征更好的处理未知三元组,有效增强推理模型的泛化能力。
(2)设计了灵活、高效并且能够自适应各种实体特征的负采样策略,使得推理模型的泛化能力获得显著提升。为了提高知识图谱推理模型的性能,在训练时需要会向模型输入一定比例的负样本,但由于知识图谱推理往往基于局部封闭世界假设或开放世界假设,这意味着对每一个正例三元组都有规模庞大的候选负样本集合,许多知识图谱推理模型在选择负样本的时候都使用随机选择策略,但是这种随机选择的策略获取的负样本中由于包含大量低质量负样本,极易导致梯度消失,在这种情况下,模型将无法获得优化,甚至可能产生负优化。针对这一问题,本发明设计了一种自适应的负采样策略:以两个实体的关系频率特征之间的皮尔逊相关系数为判断依据,根据需要的负采样比例设定阈值作为筛选条件,为了避免负采样得到的候选实体id集中在某个范围内,每次遍历开始的位置经过随机选择。这种自适应负采样策略能够根据实体的特征自适应的调整候选实体范围,因而能够适用于各种知识图谱,同时由于负采样发生在训练之前,所以并不会给模型训练产生负担。本发明提出的这一负采样策略,不仅适用于以关系频率为特征的情况,而且可以迁移到对以实体简单嵌入为输入的模型中,不仅灵活高效,而且具有广泛的适用性。
(3)建立融合图注意力机制的知识图谱推理模型,利用关系之间的相关性得到表达能力更强的特征。在知识图谱中,实体之间通过关系相互联系,这种非欧几里得数据结构具有十分强大的表达能力,但是不论是处理异质图还是处理大规模图数据都具有较大的难度。本发明通过使用关系频率特征来描述实体状态的方式,将三元组转换成用关系特征描述的序列,能够有效的降低知识图谱的异质图特性带来的图结构建模难度,在此基础上本发明充分利用知识图谱上关系之间存在的相关性,设计了一种结合融合了图注意力机制的神经网络模型用于完成知识图谱推理任务。
本发明采用的技术方案为一种基于数据增强和自适应负采样技术的知识图谱推理方法,该方法的执行步骤如下:
步骤一:根据知识图谱中实体关系频率序列对三元组进行数据增强。如附图1的实体一阶邻域示意图所示,关系在知识图谱上具有明确的方向性,所以每个实体都有两种关系频率特征,即该实体在所有三元组中作为头实体的关系频率rfh和该实体在三元组中作为尾实体的关系频率rft(注:如无特别说明,下面提到的关系频率均为rfh与rft的拼接成的关系频率序列)。根据知识图谱上每个三元组的头、尾实体对应形式,将三元组(h,r,t)中头实体h的关系频率和尾实体t的关系频率拼接起来,得到该三元组的关系频率序列特征。r表示的是实体h与尾实体t的关系。本方法通过本步骤描述的过程,对知识图谱上每个实体的关系频率进行加工并进一步得到知识图谱上每个三元组的关系频率序列特征来达到数据增强的目的。附图2用于对本步骤介绍的数据增强策略进行辅助说明;
步骤二:使用自适应负采样策略获取负样本。通过两两计算实体的关系频率序列间的皮尔逊相关系数corp,就可以自适应的根据每个实体各自的关系频率特征筛选跟目标实体有较高相似度的负样本实体并将他们加入负样本实体候选集中缓存。在进行负采样时,根据正例三元组中的一个实体索引对应的负样本实体候选集,用候选集中的负样本实体替换该实体,并重新构建三元组并获取对应的关系频率序列即可得到高质量负样本数据;
步骤三:建立融合图注意力机制的神经网络模型。本方法设计的神经网络模型结构如附图3所示,由于知识图谱推理任务的特殊性,知识图谱推理模型的一般不适合较深的深度,因此本方法设计的模型主要由两个图注意力层和一个线性层组成。其中图注意力层中使用多头注意力机制,注意力头在知识图谱上每个三元组的一阶邻域中,首先对不同关系根据它们的特征计算相应权重,并根据图注意力机制进行特征的加权聚合,而多头注意力机制会对每个注意力头输出的关系特征进行拼接和平均化处理,来加强模型的稳定性。线性层则用于对图注意力层的输出进行线性变换将其与对应三元组中的关系嵌入特征的维度对齐。完成特征提取后,用二分交叉熵计算损失值,之后Adam优化器会根据损失值对神经网络模型进行自适应的参数优化,神经网络模型结构和计算过程将在具体实施方案中详细介绍;
步骤四:设置神经网络模型参数,包括batch size(每个batch使用的数据量),epoch num(训练轮次),device(运行设备),将处理好的数据载入神经网络模型中进行训练。
步骤五:保存训练好的神经网络模型,对所有待预测的未知三元组进行数据增强处理,使其与神经网络模型输入格式对齐后,将处理好的待预测三元组数据输入神经网络模型中。在之前的步骤中,神经网络模型完成了对知识图谱上已知的三元组特征的拟合,在步骤五,完成训练的神经网络模型会对这些未知三元组是否成立做出判定。若一个未知三元组被判定为成立,则它将作为新的知识被添加到知识图谱中,进行知识图谱推理的目的也正是对知识图谱中缺失的知识进行完善,至此知识图谱推理任务正式完成。
附图说明
图1:实体一阶邻域示意图。
图2:数据增强策略示意图。
图3:融合图注意力机制的知识图谱推理模型结构示意图。
具体实施方式
以下根据知识图谱推理模型训练流程与附图对本发明进行详细说明。
本发明在处理各种类型的知识图谱数据时均具有适用性,并能够在此基础上进行知识图谱推理。在使用本发明进行知识图谱推理之前,需要了解知识图谱推理中的基本概念:在知识图谱上,三元组(h,r,t)中的关系r即谓词,视知识图谱类型不同可以用来代替或者展示其客体性质、特征或者客体之间关系,为了方便理解,用”关系”代指谓词在三元组中的表征作用,在知识图谱的符号表示方法中关系是从头节点指向尾节点的有向边;头节点h、尾实体t是三元组(h,r,t)中通过关系r联系起来的两个实体,由关系的指向确定实体是头实体还是尾实体。确定形如(h,?,t)中未知关系类型,即根据知识图谱中已有知识判断两个实体间关系类型的任务,被称为关系预测;确定形如(h,r,?)或(?,r,t)中未知实体,即根据知识图谱中已有知识判断未知实体的任务,被称为实体预测,统称为知识图谱推理。上述两种任务的执行过程类似,本发明将以在WN18RR数据集上进行实体预测的过程为例,按照以下步骤完成知识图谱推理任务:
(1)统计每个实体的实体关系频率序列。由于实体在三元组h,r,t)中有作为头节点h和作为尾实体t的两种可能,因此每个实体都有两种关系频率特征,即该实体在所有三元组中作为头实体的关系频率rf_h和该实体在三元组中作为尾实体的关系频率rf_t。本发明采用桶思想,对每个实体分别按照其在三元组中的角色(头实体或尾实体),根据与该实体相关的不同关系各自的出现次数进行hash计数,得到实体作为头实体的总频数f_h和作为尾实体的总频数f_t,对知识图谱上的每种关系按照下式(1.1)和(1.2)计算,可以分别得到每个实体在三元组中作为头实体和尾实体两种情况下的关系频率序列
Figure BDA0003353288750000071
Figure BDA0003353288750000072
Figure BDA0003353288750000073
Figure BDA0003353288750000081
其中,f_hi代表实体在第i个关系上作为头实体的频数,f_ti代表实体在第i个关系上作为尾实体的频数,rf_hi、rf_ti分别表示对应各个频数对应的频率;Nr=11为知识图谱中关系的类型数量。将两种关系频率按照拼接即可得到该实体完整的关系频率序列,如下式(2)所示:
Figure BDA0003353288750000082
最终得到的序列长度为2*Nr=22,因为每个关系在该实体作为头实体和作为尾实体时分别计算关系频率。每个实体均可以得到这样的关系频率序列。知识图谱中实体总数量Ne=40943,则共得到40943个实体的关系频率序列。根据每个实体的关系频率序列即可在知识图谱上对三元组数据进行数据增强:根据数据集中给出的三元组(h0,r0,t0),将之前得到的该三元组中头实体h0的关系频率序列和尾实体t0的关系频率序列按照式(3)拼接起来,得到该三元组的关系频率序列特征:
Figure BDA0003353288750000083
上式中Seqh、Seqt分别表示三元组(h0,r0,t0)的头实体h0的关系频率序列,和尾实体t0的关系频率序列,
Figure BDA0003353288750000084
为该三元组在知识图谱上一阶邻域内的关系频率特征序列,该序列总长度为4*Nr=44。相比于使用实体的简单嵌入训练得到的模型,关系频率不仅能够描述实体本身的状态,还能描述该实体邻域范围内的空间结构信息,在丰富特征维度的同时,还可以强化该实体与知识图谱整体的联系,因此本方法设计的数据增强策略得到的输入数据能使模型以关系频率特征更好的处理未知三元组,进而有效增强推理模型的泛化能力。
(2)使用自适应负采样策略获取负样本。用neg_N表示训练模型时正、负样本比例,为了防止负样本比例过高导致样本失衡,同时由于知识图谱上普遍存在长尾分布的问题,在本算法中,令neg_N=1,即正负样本比例为1:1。在本发明的负采样策略中,负样本的选取指标是按照下式(4)公式计算得到:
Figure BDA0003353288750000091
(4)皮尔逊相似度Corrp的计算是在得到每个实体的关系频率特征序列Seq后,对所有实体两两计算它们的关系频率序列之间协方差和标准差的商得到的。式(4)中用e1、e2表示计算相关系数时的两个实体,其中e1为正样本三元组中的实体,e2为待筛选的候选实体,
Figure BDA0003353288750000092
表示两个实体各自的关系频率序列,Xi、Yi分别表示e1、e2的关系频率序列中第i个位置上的值,
Figure BDA0003353288750000093
则分别表示两个序列中所有频率的均值。通过用e1的关系频率序列
Figure BDA0003353288750000094
与其他实体的关系频率序列比较Corrp,可以为每个三元组都得到能够产生优化效果的高质量负样本。本算法中并不是每次都从头开始遍历,而是设置为从区间[0,e1)中的随机位置为开始遍历的下标位置,通过这种方式防止负采样的结果集中在某个范围内。同时,这种自适应负采样策略能够根据实体的特征自适应的调整候选实体范围,因而能够适用于各种知识图谱。而且这种在训练过程前完成的负采样方法并不会给模型训练产生负担。除此之外,这一负采样策略不仅适用于以关系频率为特征的情况,而且可以迁移到对以实体简单嵌入为输入的模型中,不仅灵活高效,而且具有广泛的适用性。
(3)建立融合图注意力机制的知识图谱推理模型。本发明设计的融合注意力机制的知识图谱推理模型结构如附图3所示,具体的计算过程如下:在输入模型之前需要将之前得到的原长度为len=44的关系频率序列Seq用0填充得到len_pad=49得新序列,再经过reshape操作,将这些序列转换成7*7的关系频率矩阵Mr,此时原关系频率序列上每个位置的信息转化成关系频率矩阵Mr上的每个位置的节点特征,图注意力层的输入就是这些节点的特征值,包括节点在矩阵中的横坐标i、纵坐标j,以及在原关系频率序列中该位置上的关系频率取值rf,共三个维度,因此图注意力层的初始输入维度为3。为了更好的高维特征表示,我们需要做一个线性变换从低维得到到高维特征,并使用下式(5)的self-attention机制a计算注意力系数eij
Figure BDA0003353288750000101
其中a表示self-attention机制,W为训练得到的参数矩阵,
Figure BDA0003353288750000102
输入信息的第i个节点的特征信息,
Figure BDA0003353288750000103
为第i个节点一阶邻域内的第j个节点的特征信息。在本发明中,注意力机制是先后通过一个参数为
Figure BDA0003353288750000104
单层前馈神经网络,再用LeakyReLu进行非线性变换实现,其中
Figure BDA0003353288750000105
是通过模型训练学习得到;
Figure BDA0003353288750000111
Figure BDA0003353288750000112
的处理方式是执行拼接操作。注意力系数eij最终通过式(6)计算得到。
Figure BDA0003353288750000113
其中,T表示转置,||表示拼接操作。在计算得到注意力系数之后,按照式(7)用softmax对第i个节点的邻居节点的注意力系数进行归一化,得到最终的注意力权重αij
Figure BDA0003353288750000114
最终按照式(8)对输入特征
Figure BDA0003353288750000115
进行加权求和得到输出特征
Figure BDA0003353288750000116
Figure BDA0003353288750000117
其中,σ表示非线性激活,本发明中采用ReLu实现这一功能。
图注意力层的个数为4,即输入特征经过四次上述过程的计算,除了第一层网络的输入维度为3外,每一层的输入特征维度分别为前一层网络的输出维度,分别为:16、48、96;从第一层网络开始,每一层的输出特征维度都是后一层的输入,即16、48、96、128;并且最后一个图注意力层的输出维度,也是最终得到的特征维度为128;图注意力层的过度叠加的结果在图结构上表现为节点特征同质化,并且过深的模型结构会降低在大规模知识图谱上进行推理任务的效率,因此设置图注意力层的个数为4是对特征抽取质量和推理效率综合考量的结果。最后按照公式(9)将三元组(h0,r0,t0)关系频率特征的图嵌入表示H0经过线性变换与三元组(h0,r0,t0)中的r0维度为64的嵌入式表示Y0进行维度统一,得到嵌入式表示Z0
Z0=H0AT+b (9)
用得到的的嵌入式表示Z0和对应的三元组(h0,r0,t0)中的r0的嵌入式Y0表示计算二分交叉熵损失:
l0=-(Y0*log(Z0)+(1-Y0)log(1-Z0)) (10)
对所有输入样本计算得到的二分交叉熵损失求均值,如公式(11):
loss(Z,Y)=mean{l0,l1,…lN} (11)
其中N表示样本总个数,mean表示对N个样本得到的二分交叉熵损失求平均。Adam优化器在得到损失值之后,让每个参数获得自适应的学习率,帮助模型优化参数配置。在知识图谱中,实体之间通过关系相互联系,这种非欧几里得数据结构具有十分强大的表达能力,但是不论是处理异质图还是处理大规模图数据都具有较大的难度。本方法通过使用关系频率特征来描述实体状态的方式,将三元组转换成用关系特征描述的序列,并通过图注意力网络挖掘知识图谱上的实体和关系特征,有效的降低知识图谱的异质图特性带来的图结构建模难度。
(4)设置模型参数。WN18RR属于稀疏图,知识图谱中关系比较稀疏并且关系类型比较少,因此令每个batch使用的数据量为500,即batch size=500,其中包括250个正样本和250个负样本,以此来保证每个batch模型都能够进行有效的梯度下降;本发明设计的知识图谱推理模型收敛速度较快,在进行20个轮次的训练后二分交叉熵损失值就比较稳定,更大的训练轮次容易引发过拟合问题,故epoch num=20;本发明设计的知识图谱推理模型可以在GPU上加速运算,因此设置运行设备,即device=’cuda’,就可以在训练时将所有数据和参数加载到GPU上并行运算。在设置好这些参数后,就可以将处理过的数据载入模型进行训练。
(5)保存训练好的模型,对所有待预测的未知三元组进行数据增强处理,使其与模型输入格式对齐后,将处理好的待预测三元组数据输入模型进行三元组预测。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (5)

1.一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:该方法的执行步骤如下,
步骤一:根据知识图谱中实体关系频率序列对三元组进行数据增强;关系在知识图谱上具有明确的方向性,所以每个实体都有两种关系频率特征,即该实体在所有三元组中作为头实体的关系频率rfh和该实体在三元组中作为尾实体的关系频率rft;根据知识图谱上每个三元组的头、尾实体对应形式,将三元组(h,r,t)中头实体h的关系频率和尾实体t的关系频率拼接起来,得到该三元组的关系频率序列特征;r表示的是实体h与尾实体t的关系;
步骤二:使用自适应负采样策略获取负样本;通过两两计算实体的关系频率序列间的皮尔逊相关系数corp,自适应地根据每个实体各自的关系频率特征筛选跟目标实体有较高相似度的负样本实体并将他们加入负样本实体候选集中缓存;在进行负采样时,根据正例三元组中的一个实体索引对应的负样本实体候选集,用候选集中的负样本实体替换该实体,并重新构建三元组并获取对应的关系频率序列即可得到高质量负样本数据;
步骤三:建立融合图注意力机制的神经网络模型;本方法设计的神经网络模型结构中,由两个图注意力层和一个线性层组成;图注意力层中使用多头注意力机制,注意力头在知识图谱上每个三元组的一阶邻域中,首先对不同关系根据它们的特征计算相应权重,并根据图注意力机制进行特征的加权聚合,而多头注意力机制会对每个注意力头输出的关系特征进行拼接和平均化处理,来加强模型的稳定性;线性层则用于对图注意力层的输出进行线性变换将其与对应三元组中的关系嵌入特征的维度对齐;完成特征提取后,用二分交叉熵计算损失值,之后Adam优化器会根据损失值对神经网络模型进行自适应的参数优化;
步骤四:设置神经网络模型参数,包括batch size即每个batch使用的数据量,epochnum即训练轮次,device即运行设备,将处理好的数据载入神经网络模型中进行训练;
步骤五:保存训练好的神经网络模型,对所有待预测的未知三元组进行数据增强处理,使其与神经网络模型输入格式对齐后,将处理好的待预测三元组数据输入神经网络模型中;在之前的步骤中,神经网络模型完成了对知识图谱上已知的三元组特征的拟合,在步骤五,完成训练的神经网络模型会对这些未知三元组是否成立做出判定;若一个未知三元组被判定为成立,则它将作为新的知识被添加到知识图谱中,进行知识图谱推理的目的也正是对知识图谱中缺失的知识进行完善,至此知识图谱推理任务正式完成。
2.根据权利要求1所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:每个实体在三元组中作为头实体和尾实体两种情况下的关系频率序列
Figure FDA0003353288740000021
Figure FDA0003353288740000022
Figure FDA0003353288740000023
Figure FDA0003353288740000024
其中,f_hi代表实体在第i个关系上作为头实体的频数,f_ti代表实体在第i个关系上作为尾实体的频数,rf_hi、rf_ti分别表示对应各个频数对应的频率;Nr=11为知识图谱中关系的类型数量;将两种关系频率按照拼接即可得到该实体完整的关系频率序列,如下式(2)所示:
Figure FDA0003353288740000031
最终得到的序列长度为2*Nr=22,因为每个关系在该实体作为头实体和作为尾实体时分别计算关系频率;知识图谱中实体总数量Ne=40943,则共得到40943个实体的关系频率序列;根据每个实体的关系频率序列即可在知识图谱上对三元组数据进行数据增强:根据数据集中给出的三元组(h0,r0,t0),将之前得到的该三元组数据中头实体h0的关系频率序列和尾实体t0的关系频率序列按照式(3)拼接起来,得到该三元组的关系频率序列特征:
Figure FDA0003353288740000032
上式中Seqh、Seqt分别表示三元组(h0,r0,t0)的头实体h0的关系频率序列,和尾实体t0的关系频率序列,
Figure FDA0003353288740000033
为该三元组在知识图谱上一阶邻域内的关系频率特征序列,该关系频率特征序列总长度为4*Nr=44。
3.根据权利要求2所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:使用自适应负采样策略获取负样本;用neg_N表示训练模型时正、负样本比例,令neg_N=1,即正负样本比例为1:1;在负采样策略中,负样本的选取指标是按照下式(4)公式计算得到:
Figure FDA0003353288740000041
皮尔逊相似度Corrp的计算是在得到每个实体的关系频率特征序列Seq后,对所有实体两两计算它们的关系频率序列之间协方差和标准差的商得到的;式(4)中用e1、e2表示计算相关系数时的两个实体,其中e1为正样本三元组中的实体,e2为待筛选的候选实体,
Figure FDA0003353288740000042
Figure FDA0003353288740000043
表示两个实体各自的关系频率序列,Xi、Yi分别表示e1、e2的关系频率序列中第i个位置上的值,
Figure FDA0003353288740000044
则分别表示两个序列中所有频率的均值。
4.根据权利要求2所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:融合注意力机制的知识图谱推理模型结构具体的计算过程如下:在输入模型之前需要将之前得到的原长度为len=44的关系频率序列Seq用0填充得到len_pad=49得新序列,经过reshape操作,将这些序列转换成7*7的关系频率矩阵Mr,原关系频率序列上每个位置的信息转化成关系频率矩阵Mr上的每个位置的节点特征,图注意力层的输入就是这些节点的特征值,包括节点在矩阵中的横坐标i、纵坐标j,以及在原关系频率序列中该位置上的关系频率取值rf,共三个维度,因此图注意力层的初始输入维度为3;将线性变换从低维得到到高维特征,并使用下式(5)的self-attention机制a计算注意力系数eij
Figure FDA0003353288740000051
其中a表示self-attention机制,W为训练得到的参数矩阵,
Figure FDA0003353288740000052
输入信息的第i个节点的特征信息,
Figure FDA0003353288740000053
为第i个节点一阶邻域内的第j个节点的特征信息;注意力机制是先后通过一个参数为
Figure FDA0003353288740000054
单层前馈神经网络,再用LeakyReLu进行非线性变换实现,其中
Figure FDA0003353288740000055
是通过模型训练学习得到;
Figure FDA0003353288740000056
Figure FDA0003353288740000057
的处理方式是执行拼接操作;注意力系数eij最终通过式(6)计算得到;
Figure FDA0003353288740000058
其中,T表示转置,||表示拼接操作;在计算得到注意力系数之后,按照式(7)用softmax对第i个节点的邻居节点的注意力系数进行归一化,得到最终的注意力权重αij
Figure FDA0003353288740000059
最终按照式(8)对输入特征
Figure FDA00033532887400000510
进行加权求和得到输出特征
Figure FDA00033532887400000511
Figure FDA00033532887400000512
其中,σ表示非线性激活。
5.根据权利要求4所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:图注意力层的个数为4,即输入特征经过四次上述过程的计算,除了第一层网络的输入维度为3外,每一层的输入特征维度分别为前一层网络的输出维度,分别为:16、48、96;从第一层网络开始,每一层的输出特征维度都是后一层的输入,即16、48、96、128;并且最后一个图注意力层的输出维度,也是最终得到的特征维度为128;图注意力层的过度叠加的结果在图结构上表现为节点特征同质化,并且过深的模型结构会降低在大规模知识图谱上进行推理任务的效率,因此设置图注意力层的个数为4是对特征抽取质量和推理效率综合考量的结果;最后按照公式(9)将三元组(h0,r0,t0)关系频率特征的图嵌入表示H0经过线性变换与三元组(h0,r0,t0)中的r0维度为64的嵌入式表示Y0进行维度统一,得到嵌入式表示Z0
Z0=H0AT+b (9)
用得到的的嵌入式表示Z0和对应的三元组(h0,r0,t0)中的r0的嵌入式Y0表示计算二分交叉熵损失:
l0=-(Y0*log(Z0)+(1-Y0)log(1-Z0)) (10)
对所有输入样本计算得到的二分交叉熵损失求均值,如公式(11):
loss(Z,Y)=mean{l0,l1,…lN} (11)
其中N表示样本总个数,mean表示对N个样本得到的二分交叉熵损失求平均;Adam优化器在得到损失值之后,让每个参数获得自适应的学习率。
CN202111343983.5A 2021-11-14 2021-11-14 一种基于数据增强和自适应负采样技术的知识图谱推理方法 Pending CN114254117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111343983.5A CN114254117A (zh) 2021-11-14 2021-11-14 一种基于数据增强和自适应负采样技术的知识图谱推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111343983.5A CN114254117A (zh) 2021-11-14 2021-11-14 一种基于数据增强和自适应负采样技术的知识图谱推理方法

Publications (1)

Publication Number Publication Date
CN114254117A true CN114254117A (zh) 2022-03-29

Family

ID=80790862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111343983.5A Pending CN114254117A (zh) 2021-11-14 2021-11-14 一种基于数据增强和自适应负采样技术的知识图谱推理方法

Country Status (1)

Country Link
CN (1) CN114254117A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186110A (zh) * 2022-08-04 2022-10-14 中国科学技术大学 基于关系增强负采样的多模态知识图谱补全方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186110A (zh) * 2022-08-04 2022-10-14 中国科学技术大学 基于关系增强负采样的多模态知识图谱补全方法与系统
CN115186110B (zh) * 2022-08-04 2022-12-30 中国科学技术大学 基于关系增强负采样的多模态知识图谱补全方法与系统

Similar Documents

Publication Publication Date Title
CN109902183B (zh) 一种基于多样图注意力机制的知识图谱嵌入方法
CN110866190B (zh) 训练用于表征知识图谱的图神经网络模型的方法及装置
WO2022205833A1 (zh) 无线网络协议知识图谱构建分析方法、系统、设备及介质
CN109063021B (zh) 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN113761221B (zh) 基于图神经网络的知识图谱实体对齐方法
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN111914094A (zh) 一种基于三元交互的知识图谱表示学习方法
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
CN111709523A (zh) 一种基于内部集成的宽度学习方法
Bi et al. Knowledge transfer for out-of-knowledge-base entities: Improving graph-neural-network-based embedding using convolutional layers
CN114520743A (zh) 一种网络异常流量检测方法、系统及可存储介质
CN114254117A (zh) 一种基于数据增强和自适应负采样技术的知识图谱推理方法
CN113515540A (zh) 一种数据库的查询重写方法
CN117059169A (zh) 基于参数自适应成长优化器的生物多序列比对方法及系统
CN112766458A (zh) 一种联合分类损失的双流有监督深度哈希图像检索方法
Wu Data association rules mining method based on improved apriori algorithm
CN108427773B (zh) 一种分布式知识图谱嵌入方法
CN113836174B (zh) 基于强化学习dqn算法的异步sql连接查询优化方法
CN113743012A (zh) 一种多用户场景下的云-边缘协同模式任务卸载优化方法
Chen et al. Model selection-knowledge distillation framework for model compression
CN113449869A (zh) 一种易推理贝叶斯网络的学习方法
CN117097624B (zh) 一种网络拓扑结构增强方法、装置、电子设备及存储介质
CN112667751A (zh) 一种基于路径张量分解的知识图谱表示学习方法
Feng et al. Energy-efficient and robust cumulative training with net2net transformation
CN116842199B (zh) 一种基于多粒度层次和动态嵌入的知识图谱补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination