CN110147450B - 一种知识图谱的知识补全方法及装置 - Google Patents
一种知识图谱的知识补全方法及装置 Download PDFInfo
- Publication number
- CN110147450B CN110147450B CN201910372653.5A CN201910372653A CN110147450B CN 110147450 B CN110147450 B CN 110147450B CN 201910372653 A CN201910372653 A CN 201910372653A CN 110147450 B CN110147450 B CN 110147450B
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge
- discriminator
- relation
- triples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种知识图谱的知识补全方法及装置,能够解决知识补全过程中存在的负例无意义和1‑N关系难以处理的问题。方法包括:确定实体和关系对应的空间向量;根据实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。本发明涉及知识工程领域。
Description
技术领域
本发明涉及知识工程领域,特别是指一种知识图谱的知识补全方法及装置。
背景技术
知识图谱经常以高结构化的形式表示,描述了现实世界中各种实体之间的关系。目前,知识图谱已经广泛应用于各个领域,例如:自动问答、信息抽取等领域。典型的知识图谱是由大量的三元组组成。虽然知识图谱可以提供高质量的结构化数据,但是大多数公开的知识图谱,都是通过人工或者半自动的方法构建的,这些图谱往往会存在数据稀疏的问题甚至大量实体之间的关系没有被充分的挖掘出来,为了得到更加高质量的知识图谱,需将知识图谱进行知识补全。
知识补全的目标是补全知识图谱中缺失的事实,其中,每个事实都可表示成一个形式为(头实体,关系,尾实体)的三元组。现有技术中,一般通过表示学习的方法来进行知识补全,但是存在很多问题,例如,以基于翻译的嵌入式(Translating Embedding,TransE)模型为例,对于负例的选取,通常所用的方法是随机替换三元组的头实体或者尾实体构造负例,但是这种方法可能会产生一个无意义的负例;TransE模型力求嵌入的头实体向量加关系向量与尾实体向量足够靠近,可以很好地处理1-1关系,但是在处理1-N关系时,存在多个实体竞争一个向量空间点的现象,其中,N为大于1的整数。
发明内容
本发明要解决的技术问题是提供一种知识图谱的知识补全方法及装置,以解决现有技术所存在的利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。
为解决上述技术问题,本发明实施例提供一种知识图谱的知识补全方法,包括:
获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
进一步地,所述获取知识图谱包括:
获取原始知识图谱;
构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。
进一步地,所述根据获取的知识图谱,输出实体和关系对应的空间向量包括:
根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;
根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。
进一步地,所述根据处理得到的知识图谱,导出事实三元组包括:
根据处理得到的知识图谱,利用图形数据库导出事实三元组。
进一步地,所述根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱包括:
根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;
根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,计算头实体的能量,获取推理排名为前k的头实体及其打分分数;
根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;
根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱。
进一步地,所述利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型包括:
根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器;
生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表示模型;
其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器,根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器的梯度参数。
进一步地,所述对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型包括:
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体作为负例,依据当前形成的负例和导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
其中,利用第二知识表示模型进行实体链接预测时,移除不属于子概念关系特定的实体类型的候选实体。
本发明实施例还提供一种知识图谱的知识补全装置,包括:
获取模块,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
本发明的上述技术方案的有益效果如下:
上述方案中,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,从而解决利用TransE模型进行知识补全过程中存在的负例无意义问题;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型,以确保训练时让正例和负例远离,从而有效避免多个实体竞争同一个向量空间点的现象;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到目标知识表示模型,这样,使用目标知识表示模型进行补全时,能够解决利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。
附图说明
图1为本发明实施例提供的知识图谱的知识补全方法的流程示意图;
图2为本发明实施例提供的风热犯表证的证性关系示意图;
图3为本发明实施例提供的风热犯表证的属性示意图;
图4为本发明实施例提供的基于TransE模型的中医知识表示和推理建模示意图;
图5为本发明实施例提供的G-TransE模型的实现流程示意图;
图6为本发明实施例提供的基于TG-TransE模型补全中医知识图谱的实现流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题,提供一种知识图谱的知识补全方法及装置。
实施例一
如图1所示,本发明实施例提供的知识图谱的知识补全方法,包括:
S101,获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
S102,根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
S103,利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
S104,对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
S105,将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
本发明实施例所述的知识图谱的知识补全方法,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,从而解决利用TransE模型进行知识补全过程中存在的负例无意义问题;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型,以确保训练时让正例和负例远离,从而有效避免多个实体竞争同一个向量空间点的现象;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到目标知识表示模型,这样,使用目标知识表示模型进行补全时,能够解决利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。
在前述知识图谱的知识补全方法的具体实施方式中,进一步地,所述获取知识图谱包括:
获取原始知识图谱;
构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。
本实施例中,构建属性图对知识图谱中利用率低的实体节点进行知识表示方法上的提升,能够改善数据稀疏问题。例如:中医中的证性关系是描述证候属性的,所以将证性表示为证候的属性,如“风热犯表证”的证性为“表、热、外风”,如图2所示。为了解决数据稀疏问题,提升节点的知识表示方法,所以把证性作为证候的属性,如图3所示。
在前述知识图谱的知识补全方法的具体实施方式中,进一步地,所述根据获取的知识图谱,输出实体和关系对应的空间向量包括:
根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;
根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。
本实施例中,根据处理得到的知识图谱,可以利用图形数据库(neo4j)导出事实三元组(h,r,t),导出的事实三元组即为训练所需的正例,其中,h、r、t分别表示头实体、关系、尾实体。
本实施例中,根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量可以包括以下步骤:
H11、根据导出的事实三元组及构造的负例,得到初始数据;
H12、将初始数据进行划分,得到训练集、验证集、实体集、关系集和测试集;其中,利用训练集训练TransE模型,得到知识图谱的表示模型;
本实施例中,对于TransE模型优劣的测试采取实体排名mean rank和准确率hit@10两个指标。
本实施例中,某些正确的三元组(正确的三元组就是非负例的三元组,即正例三元组)可能在训练集中,是正确的知识,但是不在测试集中。这种情况下,训练集中正确的三元组排名可能排在测试集三元组之上,但这不应该被记为错误实例。所以对于TransE模型优劣的测试采取实体排名mean rank和准确率hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt meanrank和filt hit@10两个指标,这样,一共可以使用以上四个指标(mean rank、hit@10、filt mean rank、filt hit@10)来判断TransE模型优劣。
H13、首先用训练集训练TransE模型,然后根据TransE模型对验证集数据进行预测得到的指标进行参数选择,综合在验证集上的训练效果和效率两方面考虑,最后采用参数:随机梯度下降步长α=0.01,能量边界距离γ=1,向量空间维度k=50,随机梯度下降算法中批处理次数batch=2400,距离衡量方法d(.)为L1范数,并设置最大迭代次数为100轮。接着,利用上述参数(α=0.01,γ=1,k=50,batch=2400,d(.)为L1范数)对实体集和关系集进行训练,得到的实体和关系对应的空间向量。最后利用得到的实体和关系对应的空间向量,对测试集做实体预测,计算原始和过滤模式下各自的平均排名和准确率指标,结果如表1所示:
表1 排名和准确率指标结果
本实施例中,TransE模型采用最大间隔方法,即正例和负例尽量远离。
在前述知识图谱的知识补全方法的具体实施方式中,进一步地,如图4所示,所述根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱包括:
A11,根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,采用TransE模型计算尾实体的能量,输出推理排名为前k位(topk)的尾实体及其打分分数;
A12,根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,采用TransE模型计算头实体的能量,输出推理排名为前k位(topk)的头实体及其打分分数;
A13,根据实体的概念类型对推理的实体结果进行去噪处理,具体的:根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;
本实施例中,所述概念类型是指想要推理得到的实体对应的概念;例如:针对“证症关系”,利用TransE模型,推理症状对应的证候,输出其推理结果。选取其top30的实体预测结果(不包括指示图谱已有三元组知识),并去掉非证候候选集的实体;即:将推理结果与证候候选集进行比较,若推理结果不在证候候选集中,则去掉该推理结果。
A14,根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’(topk’)的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱。
本实施例中,针对“病位关系”、“症性关系”、“证性关系”,选取其top10的实体推理结果(不包括知识图谱已有三元组知识),如表2所示,并去掉噪声实体,采取专家打分法选择推理实体,采取专家评分的top1结果作为病位关系、证性关系、症性关系的推理结果补充知识图谱,如表3所示。
表2 根据症状推理得到的部分证候
表3 病位关系、证性关系、症性关系的推理结果
本实施例中,应用TransE模型,将事实三元组中的实体和关系映射成低维空间的稠密向量,计算语义关系,从而推理发现新的知识,进行知识补全,解决了知识图谱中某些知识缺失的问题。
在前述知识图谱的知识补全方法的具体实施方式中,进一步地,所述利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型包括:
根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器;
生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表示模型;
其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器,根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器的梯度参数。
本实施例中,利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,所述第一知识表示模型为改进的知识表示模型G-TransE,这样,考虑到利用TransE模型进行知识补全过程中存在的负例无意义问题,本实施例基于对抗生成网络的思想,训练一个判别器来判断TransE模型中的正例与负例,从而选择优质的负例(使边际损失最小)训练知识表示模型G-TransE。
具体可以包括以下步骤:
B11、将导出的事实三元组,划分为训练集、验证集和测试集;
B12、综合在验证集上的训练效果和效率两方面考虑,TransE模型采用参数α=0.01,γ=1,k=50,batch=2400,d(.)为L1范数,并设置最大迭代次数为100轮,进行预训练;
B13、双线性(DistMult)模型正则项权重λ集合{0.01,0.1,1,10},k=50,其中,k表示向量空间维度;综合在验证集上的训练效果和效率两方面考虑,最后采用参数λ=1,最大迭代次数为100轮;
B14、如图5所示,将预训练好的TransE模型作为生成器G,预训练好的Dismult模型作为判别器D。生成器G计算随机生成的负例(通过随机替换事实三元组的头实体或者尾实体来构造负例)的概率p分布,然后从生成器G生成的负例中随机选取一个负例作为输出,并利用选取的负例的概率更新生成器的梯度参数,将该输出是输入到判别器D,判别器D根据评分函数计算接收到到的正例三元组和负例三元组的得分,图5中的2个d一个表示正例三元组的得分,另一个表示负例三元组的得分;判别器D根据得到的正例三元组和负例三元组的得分,确定边际损失,其中,判别器D的优化目标是最小化正例和负例三元组的边际损失。
本实施例中,生成器G和判别器D采用交替优化方式进行训练,直至判别器D输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器G和判别器D构成第一知识表示模型。
本实施例中,判别器的优化目标是最小化正例和负例三元组的边际损失LD:
本实施例中,T表示正例三元组集合;fD(h,r,t)表示判别器对正例三元组的评分函数;fD(h',r,t')表示判别器对负例三元组的评分函数;(h',r,t')表示负例三元组;pG(h',r,t'|h,r,t)表示生成器为正例三元组(h,r,t)生成一个样本概率分布为pG(h',r,t'|h,r,t)的负例三元组;~表示相似符号。
本实施例中,判别器D的目标是为优质的负例样本分配一个较小的距离,也就是最大化负距离的期望:
对于此问题,采取的目标性形式是最大化给定样本概率分布的期望。用增强学习的思想来解释,(h',r,t')即reward,reward就是从环境状态到奖励的一个映射。使用策略梯度算法,可以得到RG的梯度,即生成器G的训练参数。生成器G通过策略梯度算法力求最小化负例三元组的得分。
本实施例中,对于G-TransE模型优劣的测试也采取实体排名mean rank和准确率hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt mean rank和filthit@10两个指标。利用原始和过滤模式下各自的平均排名和准确率指标来判断模型优劣,结果如表4所示:
表4 排名和准确率指标结果
本实施例中,对得到的事实三元组进行概念分层,随机选择事实三元组(正例)同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型,其中,所述第二知识表示模型为改进的知识表示模型T-TransE模型;具体可以包括以下步骤:
C11、对得到的事实三元组进行概念分层,随机选择正例同一子概念下的实体作为负例,将C11中形成的负例和导出的事实三元组,划分为训练集和测试集,其中,训练集用于训练得到T-TransE模型;
本实施例中,以中医知识为例,中医知识分为中医生理、中医病理、中医认识方法、中医辨证论治四个概念层,这四个概念层为知识图谱中的根节点。中医生理的概念与实例共有2个子概念层;中医病理的概念与实例共有2个子概念层;中医认识方法的概念与实例共有2个子概念层;中医辨证论治的概念与实例共有4个子概念层。由于中医知识的四个根概念层相互独立,所以在四个根概念层中属于同一层级的概念或者实例之间的关系,均可定义为同一种子概念关系,即定义四种子概念关系集合Rsub={rsub1,rsub2,rsub3,rsub4}。将中医知识图谱中的子概念关系拆分为4种不同层级的子概念。将同属于同一子概念的实体类型标签记为Tsub={type1,type2...typen}。
本实施例中,C11中的训练集和测试集数据中加入了子概念实体类型标签。
C12、做实体链接预测时,移除不属于子概念关系特定的实体类型的候选实体,即在T-TransE模型测试中进行去噪处理;
C13、由于T-TransE模型针对实体类型限制提出,因而不做公共数据集验证。构造三元组数量1000条的关系为子概念的三元组用于做子概念关系实体链接预测。
本实施例中,对于T-TransE模型优劣的测试也采取实体排名mean rank和hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt mean rank和filt hit@10两个指标。利用原始和过滤模式下各自的平均排名和准确率指标来判断模型优劣,结果如表5所示:
表5 排名和准确率指标结果
本实施例中,考虑到在处理1-N关系时,存在多个实体竞争一个向量空间点的问题,当事实三元组在构造负例时,随机选择正例同一子概念下的实体替换头实体或尾实体来构造负例,采用最大间隔方法,训练时让正例和负例尽量远离,这样可以有效避免多个实体竞争同一个向量空间点的现象。
本实施例中,将T-TransE模型作为G-TransE的判别器输入,通过对抗生成式网络,优化T-TransE模型的知识表示,得到目标知识表示模型TG-TransE;使用TG-TransE模型进行知识补全,可在一定程度上解决了数据稀疏问题,又解决了TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理问题。
本实施例中,如图6所示,利用TG-TransE模型将中医实体和关系映射为低维稠密的空间向量;选取中医实体的头实体和关系,采用模型计算尾实体的能量,输出其排名topk的尾实体及其打分;选取中医实体的尾实体和关系,采用模型计算头实体的能量,输出其排名topk的头实体及其打分;根据实体的概念类型对推理的实体结果进行去噪处理;专家打分评判预测结果给出推理实体置信度;取置信度topk’的实体补充其与头实体或尾实体之间的关系,初步补全中医知识图谱。
本实施例中,打分是计算h+r与t之间的距离,或计算t+r与h之间的距离,距离越近说明关系强度越强(weight),因此TG-TransE模型打分越低,证明关系强度越强。也就是说,上述过程中的补全不仅包括了关系的补全,而且还包括了关系强度的补全。
本实施例中,可以将距离计算结果划分到不同的区间,每个区间对应一个关系强度。
本实施例中,对于TG-TransE模型优劣的测试也采取实体排名mean rank和hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt mean rank和filt hit@10两个指标;利用原始和过滤模式下各自的平均排名和准确率指标来判断模型优劣,结果如表6所示:
表6 排名和准确率指标结果
实施例二
本发明还提供一种知识图谱的知识补全装置的具体实施方式,由于本发明提供的知识图谱的知识补全装置与前述知识图谱的知识补全方法的具体实施方式相对应,该知识图谱的知识补全装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述知识图谱的知识补全方法具体实施方式中的解释说明,也适用于本发明提供的知识图谱的知识补全装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
本发明实施例还提供一种知识图谱的知识补全装置,包括:
获取模块,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
本发明实施例所述的知识图谱的知识补全装置,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,从而解决利用TransE模型进行知识补全过程中存在的负例无意义问题;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型,以确保训练时让正例和负例远离,从而有效避免多个实体竞争同一个向量空间点的现象;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到目标知识表示模型,这样,使用目标知识表示模型进行补全时,能够解决利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种知识图谱的知识补全方法,其特征在于,包括:
获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
所述获取知识图谱包括:
获取原始知识图谱;
构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示;
所述根据获取的知识图谱,输出实体和关系对应的空间向量包括:
根据处理得到的知识图谱,利用图形数据库导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;
根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式;
根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;包括:
根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;
根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,计算头实体的能量,获取推理排名为前k的头实体及其打分分数;
根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;
根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱;
利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;该步骤包括:
根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器;
生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表示模型;
其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器,根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器的梯度参数;
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;包括:
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体作为负例,依据当前形成的负例和导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
其中,利用第二知识表示模型进行实体链接预测时,移除不属于子概念关系特定的实体类型的候选实体;
将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
2.一种知识图谱的知识补全装置,其特征在于,包括:
获取模块,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
所述获取模块具体用于:
获取原始知识图谱;
构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示;
根据处理得到的知识图谱,利用图形数据库导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;
根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式;
第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
所述第一确定模块具体用于:
根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;
根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,计算头实体的能量,获取推理排名为前k的头实体及其打分分数;
根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;
根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱;
第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
所述第一训练模块具体用于:
根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器;
生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表示模型;
其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器,根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器的梯度参数;
第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
所述第二训练模块具体用于:
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体作为负例,依据当前形成的负例和导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
其中,利用第二知识表示模型进行实体链接预测时,移除不属于子概念关系特定的实体类型的候选实体;
第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910372653.5A CN110147450B (zh) | 2019-05-06 | 2019-05-06 | 一种知识图谱的知识补全方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910372653.5A CN110147450B (zh) | 2019-05-06 | 2019-05-06 | 一种知识图谱的知识补全方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147450A CN110147450A (zh) | 2019-08-20 |
CN110147450B true CN110147450B (zh) | 2021-08-03 |
Family
ID=67594719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910372653.5A Active CN110147450B (zh) | 2019-05-06 | 2019-05-06 | 一种知识图谱的知识补全方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147450B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008533B (zh) * | 2019-12-09 | 2021-07-23 | 北京字节跳动网络技术有限公司 | 一种翻译模型的获取方法、装置、设备和存储介质 |
CN110929047B (zh) * | 2019-12-11 | 2023-04-28 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
CN111027700A (zh) * | 2019-12-18 | 2020-04-17 | 福州大学 | 基于wcur算法的知识库补全方法 |
CN111098301B (zh) * | 2019-12-20 | 2020-08-18 | 西南交通大学 | 一种基于场景知识图谱任务型机器人的控制方法 |
CN111144570B (zh) * | 2019-12-27 | 2022-06-21 | 福州大学 | 一种联合逻辑规则和置信度的知识表示方法 |
CN110795926B (zh) * | 2020-01-03 | 2020-04-07 | 四川大学 | 一种基于法律知识图谱的裁判文书相似性判断方法及系统 |
CN111221983B (zh) * | 2020-01-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN111611405B (zh) * | 2020-05-22 | 2023-03-21 | 北京明略软件系统有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
CN111651614A (zh) * | 2020-07-16 | 2020-09-11 | 宁波方太厨具有限公司 | 药膳知识图谱的构建方法、系统、电子设备及存储介质 |
CN112131399A (zh) * | 2020-09-04 | 2020-12-25 | 牛张明 | 基于知识图谱的老药新用分析方法和系统 |
CN111930897B (zh) * | 2020-09-14 | 2021-04-27 | 平安国际智慧城市科技股份有限公司 | 专利检索方法、装置、电子设备及计算机可读存储介质 |
CN112148892B (zh) * | 2020-09-25 | 2024-05-14 | 中国人民解放军国防科技大学 | 动态知识图谱的知识补全方法、装置和计算机设备 |
CN112148891A (zh) * | 2020-09-25 | 2020-12-29 | 天津大学 | 一种基于图感知张量分解的知识图谱补全方法 |
CN112182245B (zh) * | 2020-09-28 | 2022-11-29 | 中国科学院计算技术研究所 | 一种知识图谱嵌入模型的训练方法、系统和电子设备 |
CN112348190B (zh) * | 2020-10-26 | 2022-06-21 | 福州大学 | 一种基于改进的嵌入模型suke的不确定知识图预测方法 |
CN112668719A (zh) * | 2020-11-06 | 2021-04-16 | 北京工业大学 | 基于工程能力提升的知识图谱构建方法 |
CN112559757B (zh) * | 2020-11-12 | 2023-12-26 | 中国人民解放军国防科技大学 | 一种时序知识图谱补全的方法及系统 |
CN112559759A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 一种识别知识图谱中错误关系的方法和设备 |
CN112699247B (zh) * | 2020-12-23 | 2023-10-17 | 清华大学 | 一种基于多类交叉熵对比补全编码的知识表示学习方法 |
CN113051404B (zh) * | 2021-01-08 | 2024-02-06 | 中国科学院自动化研究所 | 一种基于张量分解的知识推理方法、装置、设备 |
CN112667824B (zh) * | 2021-01-17 | 2024-03-15 | 北京工业大学 | 基于多语义学习的知识图谱补全方法 |
CN113190688B (zh) * | 2021-05-08 | 2022-07-19 | 中国人民解放军国防科技大学 | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 |
CN113360670B (zh) * | 2021-06-09 | 2022-06-17 | 山东大学 | 一种基于事实上下文的知识图谱补全方法及系统 |
CN113449066B (zh) * | 2021-08-31 | 2021-12-07 | 北京泽云瑞弘信息技术有限公司 | 利用知识图谱来存储文物数据的方法、处理器及存储介质 |
CN113806561A (zh) * | 2021-10-11 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种基于实体属性的知识图谱事实补全方法 |
CN114513337B (zh) * | 2022-01-20 | 2023-04-07 | 电子科技大学 | 一种基于邮件数据的隐私保护链接预测方法及系统 |
CN114741537B (zh) * | 2022-04-29 | 2024-08-02 | 华中科技大学 | 一种基于干涉原理的知识图谱补全方法及系统 |
CN115712734B (zh) * | 2022-11-21 | 2023-10-03 | 之江实验室 | 一种基于元学习的稀疏知识图谱嵌入方法和装置 |
CN117593224B (zh) * | 2023-12-06 | 2024-08-27 | 北京建筑大学 | 古建筑点云缺失数据补全方法及装置 |
CN117851829A (zh) * | 2024-03-07 | 2024-04-09 | 北京知呱呱科技有限公司 | 一种基于自我反省的大模型训练方法及系统 |
CN118036732B (zh) * | 2024-04-11 | 2024-08-16 | 神思电子技术股份有限公司 | 基于临界对抗学习的社会事件图谱关系补全方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630901A (zh) * | 2015-12-21 | 2016-06-01 | 清华大学 | 一种知识图谱表示学习方法 |
CN106528609A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种向量约束嵌入转换的知识图谱推理方法 |
CN108763237A (zh) * | 2018-03-21 | 2018-11-06 | 浙江大学 | 一种基于注意力机制的知识图谱嵌入方法 |
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474647B2 (en) * | 2010-06-22 | 2019-11-12 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
-
2019
- 2019-05-06 CN CN201910372653.5A patent/CN110147450B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630901A (zh) * | 2015-12-21 | 2016-06-01 | 清华大学 | 一种知识图谱表示学习方法 |
CN106528609A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种向量约束嵌入转换的知识图谱推理方法 |
CN108763237A (zh) * | 2018-03-21 | 2018-11-06 | 浙江大学 | 一种基于注意力机制的知识图谱嵌入方法 |
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
Non-Patent Citations (2)
Title |
---|
基于本体的中医知识图谱构建;张德政等;《CNKI》;20170215;全文 * |
基于神经网络的知识推理研究综述;张仲伟等;《计算机工程与应用》;20190325(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110147450A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147450B (zh) | 一种知识图谱的知识补全方法及装置 | |
US11487950B2 (en) | Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment | |
CN108095716B (zh) | 一种基于置信规则库和深度神经网络的心电信号检测方法 | |
CN110163433B (zh) | 一种船舶流量预测方法 | |
CN107992976B (zh) | 热点话题早期发展趋势预测系统及预测方法 | |
CN111047085B (zh) | 一种基于元学习的混合动力车辆工况预测方法 | |
CN106228185A (zh) | 一种基于神经网络的通用图像分类识别系统及方法 | |
CN109163911A (zh) | 一种基于改进的蝙蝠算法优化elm的发动机燃油系统故障诊断方法 | |
CN114611670A (zh) | 一种基于师生协同的知识蒸馏方法 | |
CN113239211A (zh) | 一种基于课程学习的强化学习知识图谱推理方法 | |
Tembusai et al. | K-nearest neighbor with k-fold cross validation and analytic hierarchy process on data classification | |
CN106228026A (zh) | 一种基于最优退化特征量的剩余寿命预测算法 | |
CN115051929A (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
CN111126758B (zh) | 一种学术团队影响力传播预测方法、设备和存储介质 | |
CN104331600A (zh) | 基于因子图模型的自诊模型训练方法和装置 | |
CN116186278A (zh) | 一种基于超平面投影与关系路径邻域的知识图谱补全方法 | |
CN115269861A (zh) | 基于生成式对抗模仿学习的强化学习知识图谱推理方法 | |
CN112883284B (zh) | 一种基于网络和数据分析的在线学习系统及测试题推荐方法 | |
CN114925190B (zh) | 一种基于规则推理与gru神经网络推理的混合推理方法 | |
US20230206054A1 (en) | Expedited Assessment and Ranking of Model Quality in Machine Learning | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN112884129B (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 | |
CN113360772B (zh) | 一种可解释性推荐模型训练方法与装置 | |
CN115035304A (zh) | 一种基于课程学习的图像描述生成方法及系统 | |
CN114048837A (zh) | 一种基于分布式类脑图的深度神经网络模型加固方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |