CN112819162B - 一种知识图谱三元组的质检方法 - Google Patents

一种知识图谱三元组的质检方法 Download PDF

Info

Publication number
CN112819162B
CN112819162B CN202110142051.8A CN202110142051A CN112819162B CN 112819162 B CN112819162 B CN 112819162B CN 202110142051 A CN202110142051 A CN 202110142051A CN 112819162 B CN112819162 B CN 112819162B
Authority
CN
China
Prior art keywords
triplet
entity
graph
knowledge
triples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110142051.8A
Other languages
English (en)
Other versions
CN112819162A (zh
Inventor
王斌
李雨繁
赵元
杨晓春
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202110142051.8A priority Critical patent/CN112819162B/zh
Publication of CN112819162A publication Critical patent/CN112819162A/zh
Application granted granted Critical
Publication of CN112819162B publication Critical patent/CN112819162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种知识图谱三元组的质检方法,属于知识图谱技术领域。获取知识图谱三元组数据集并进行预处理;从预处理知识图谱三元组数据集中提取噪声三元组和正确三元组进行标注后构成训练数据集;构建有向图以及有向子图;利用TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,得到每一三元组的知识表示向量;根据知识表示向量和有向子图求解数据集中每一三元组的实体级特征和训练数据集中每一三元组的全局特征、路径级特征及语义级特征;利用训练数据集中每一三元组的实体级特征、全局特征、路径级特征及语义级特征对二分类器进行训练;应用训练好的二分类器得到每一给定三元组的置信度,合理和准确地评估三元组置信度。

Description

一种知识图谱三元组的质检方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种知识图谱三元组的质检方法。
背景技术
知识图谱对于各个领域的作用已经不言而喻,越来越多的软件和应用基于知识图谱搭建。但这些领域在使用知识图谱的时候都是默认知识图谱是完全正确的,然而若图谱本身的内容存在问题,会严重影响上层应用的效果,因此保证知识图谱数据本身的准确性至关重要。在知识图谱刚发展阶段,互联网上各个公司对知识图谱的规模要求相对较低,可以采用人工提取的方式提取三元组和人工辨别知识图谱内的三元组是否正确。但如今,小规模知识库已经无法满足快速迭代的业务需求,而且获取三元组的方式变成使用各类信息抽取算法进行大规模挖掘。虽然抽取三元组的算法正在日益完善,但是由于是机器进行抽取因此在数据量大量扩充的时候,噪声数据依然随着算法被一同引入到所构建的知识图谱里面。
随着机器学习和神经网络的快速兴起,为发现现有的知识图谱中可能存在的错误提供了可能,帮助进一步提高知识图谱的质量,因此知识图谱的质量检测成为越来越重要的研究方向。研究人员引入了三元组置信度的概念,表示三元组表达的知识真实的确定性程度。置信度的值所在范围为[0,1],值越接近0表明该三元组是错误的概率越大,反之,值越接近1则表明该三元组是真实的概率越大。然而在现有的知识图谱三元组的质检方法中只考虑了知识图谱的结构信息,利用知识表示模型(TransE)将每个节点和关系表示成一个向量,利用三元组对应的三个向量来判断该三元组是否正确。该种方法只考虑到了三元组的结构信息,而三元组之间的路径信息以及三元组表示的语义信息没有考虑完全,因此并不能准确地评估三元组置信度。
发明内容
针对现有技术存在的不足,本发明提出了一种利用知识图谱的结构信息、路径信息和语义信息的知识图谱三元组的质检方法,旨在更加合理和准确的对三元组的置信度进行评估。
为了解决上面的问题,本发明的技术方案是:
一种知识图谱三元组的质检方法,包括如下步骤:
步骤1:获取现有知识图谱三元组数据集;
步骤2:对步骤1获取的知识图谱三元组数据集进行预处理,将该数据集中的部分三元组处理成噪声三元组,得到由正确三元组和噪声三元组组成的预处理知识图谱三元组数据集;
步骤3:从预处理知识图谱三元组数据集中提取部分噪声三元组和正确三元组进行标注区分后构成训练数据集;根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图;利用知识表示模型TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,从而得到每一三元组的知识表示向量;
步骤4:根据有向子图求解数据集中每一三元组的实体级特征;根据知识表示向量求解出训练数据集中每一三元组的全局特征;根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征;利用Bert编码器求解训练数据集中每一三元组的语义级特征;
步骤5:将训练数据集中每一三元组的实体级特征Rh(m)、全局特征P(E(h,r,t))、路径级特征PATH以及语义级特征SEM均输入二分类器,对二分类器进行训练,得到训练好的二分类器;
步骤6:对于任一从步骤1获取的现有知识图谱三元组数据集中给定的三元组或者部分三元组数据集,根据步骤3的结果和步骤4的方法得到每一三元组的实体级特征、全局特征、路径级特征和语义级特征,把它们均输入训练好的二分类器,得到每一给定三元组的置信度。
进一步地,根据所述的知识图谱三元组的质检方法,步骤3中所述的根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图的方法为:首先读取预处理知识图谱三元组数据集内的所有三元组;然后为三元组中的实体和关系进行编号;再然后以三元组内的每个实体对应的实体编号为中心节点,所有到中心节点的距离小于距离阈值的实体节点对应的实体编号构成有向图;又然后计算有向图中边的权重;最后利用pygraph包将节点和节点间的权重保存成有向图,有向图里的节点存储的是实体编号,并根据构建的有向图得到每个节点的子图,且将所构建的子图保存起来。
进一步地,根据所述的知识图谱三元组的质检方法,步骤4中所述根据有向子图求解数据集中每一三元组的实体级特征的方法为:加载预处理知识图谱三元组数据集内的所有三元组,并加载以每个三元组的头实体为中心节点的有向子图,利用PCRA求解各子图内其余节点从中心节点分配到的资源数量,进而得到尾实体从头实体分配到的资源数量,从而得到预处理知识图谱三元组数据集内每一三元组的实体级特征。
进一步地,根据所述的知识图谱三元组的质检方法,在所述PCRA中引入参数α来表示每一次资源流动时会有一部分资源分配到子图外的实体节点上:
其中Rh(m)代表在头实体h的子图中节点m具有的资源;Si-1(·,m)表示节点m的入射节点的集合;|Si(n,·)|代表节点n的出度个数;Rh(n)代表在头实体h的子图中节点n具有的资源;α代表资源流入子图外的实体节点的概率;sum(entity)代表预处理知识图谱三元组数据集内总实体的个数。
进一步地,根据所述的知识图谱三元组的质检方法,步骤4所述的根据知识表示向量求解出训练数据集中每一三元组的全局特征,包括如下步骤:
步骤4.2.1:根据关系对训练数据集中的三元组进行分类,并根据知识表示向量求解出每一类三元组所对应关系的代表势能值;
步骤4.2.2:将训练数据集里的每个三元组的势能值和每个三元组里的关系的代表势能值输入改进的SIGMOD激活函数,得到每个三元组正确的概率,并将其作为每个三元组的全局特征。
进一步地,根据所述的知识图谱三元组的质检方法,步骤4所述的根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征,包括如下具体步骤:
步骤4.3.1:根据有向子图和知识表示向量,找出训练数据集里每一三元组的头尾实体两点间的所有可达路径,并从中确定出最优可达路径以及每条最优可达路径的路径评分;
步骤4.3.2:利用LSTM神经网络,求得每个三元组头尾实体间的最优可达路径的路径代表值;
步骤4.3.3:将每个三元组的每条最优可达路径的路径评分和路径代表值分别作乘积,再将全部乘积结果相加,得到的和值作为对应三元组的路径级特征。
进一步地,根据所述的面向虚拟三维背景的视频后期制作方法,步骤4中所述的利用Bert编码器求解训练数据集中每一三元组的语义级特征的具体方法为:利用Bert编码器对训练数据集中三元组里的每个单词进行编码得到单词向量;对于训练数据集中每一三元组:首先将每个实体的单词向量相加得到实体语义向量,将关系的单词向量相加得到关系语义向量;再利用公式9计算该三元组的语义值,将其作为该三元组的语义级特征;
SEM=cos((vech+vecr),vect) (9)
其中vech代表头实体语义向量,vecr代表关系语义向量,vect代表尾实体语义向量。
进一步地,根据所述的知识图谱三元组的质检方法,所述步骤4.2.1的具体内容为:
读取步骤3得到的训练数据集,将训练数据集中的三元组根据关系进行分类,根据公式(3)计算每个三元组的势能值E(h,r,t),存储成(E(h,r,t),label)格式,label是势能值对应的三元组的标签,值为0或1;在每一类三元组的势能值里面找到一个值,该值满足大于该值的大部分势能值的label为0;反之,小于该值的大部分势能值的label为1,把该值作为每一类三元组所对应关系的代表势能值;
E(h,r,t)=|h+r-t| (3)
其中h为头实体的知识表示向量,t为尾实体的知识表示向量,r为关系的知识表示向量。
进一步地,根据所述的知识图谱三元组的质检方法,所述步骤4.3.1的具体方法为:首先加载一个三元组(h,r,t)和以其中头实体h为中心节点的子图,其中t为尾实体,r为关系;然后寻找当前三元组头尾实体间的所有可达路径;再然后对于每条可达路径,求解关系的相似度、头实体的相似度和尾实体的相似度,并求解相似度的平均值作为路径评分;最后根据每条可达路径的路径评分对可达路径进行排序后,从中选出当前三元组头尾实体间的最优可达路径。
进一步地,根据所述的知识图谱三元组的质检方法,其特征在于,所述步骤4.3.2的具体方法为:首先加载每个三元组的最优可达路径,然后分别将每条最优可达路径上各三元组的头实体、关系和尾实体的知识表示向量加到一起,对应得到的各和值分别作为其各自对应的三元组的代表向量,将每条最优可达路径上各三元组的代表向量均作为输入单元输入LSTM神经网络里,输出值作为每条最优可达路径的路径代表值。
本发明提出的知识图谱三元组的质检方法具有如下有益效果:
首先,由于知识图谱是现实世界的映射,因此每个实体节点和关系都有一定的现实意义,现实世界中的一个实体必将处于一个复杂的关系网络之中并且这些网络具有一定的结构特点,本发明利用知识表示模型(TransE)从全局结构方面挖掘出实体与关系的结构特点,更真实的判断出三元组是否满足结构特征。
其次,根据现实世界中两个实体间除了直接关系连接起来,还可以利用图谱内的某些实体节点进行多次关系跳转连接起来,因此本发明从关系级角度考虑实体之间的多方面联系。现有技术仅仅考虑了路径中的关系,而本发明考虑整个知识图谱中的三元组路径,不仅包括关系,还包括头实体和尾实体,因为实体还可以提供重要的语义信息。
最后,由于Bert编码的快速发展和预训练好的Bert编码器,本发明利用Bert技术可以对实体和关系的文字信息形成准确的词向量,正确的三元组有正确的语义值可以帮助更好的区分三元组,为三元组评估提供可信度。
由此可见,本发明从多个角度考虑三元组置信度的评估,特别是从结构和语义两个方面考虑,提高了评估方法的可信度。本发明方法中对于语义的考虑比目前的大部分方法的工作量都小很多,减少了人工操作。对于结构方面,不像现有方法对三元组的结构要求的那么严格。
附图说明:
图1为本发明知识图谱三元组的质检方法流程图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
如图1所示,本实施方式的知识图谱三元组的质检方法,包括以下步骤:
步骤1:获取现有知识图谱三元组数据集。
在本实施方式中是将FB15K数据集下载下来,此数据集为大型知识图谱的三元组数据集。
步骤2:对步骤1获取的知识图谱三元组数据集进行预处理,将该数据集中的部分三元组处理成噪声三元组,得到由正确三元组和噪声三元组组成的预处理知识图谱三元组数据集。
为了得到噪声数据,本实施方式将步骤1所获取的FB15K数据集里一部分三元组的头实体、尾实体或者关系中的一个替换成别的实体或者关系,这样就会得到一部分错误的三元组,作为噪声三元组,然后将这些噪声三元组再放回FB15K数据集里,得到由正确三元组和噪声三元组组成的预处理FB15K数据集;
步骤3:从预处理知识图谱三元组数据集中提取部分噪声三元组和正确三元组进行标注区分后构成训练数据集;根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图;利用知识表示模型TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,从而得到每一三元组的知识表示向量。
步骤3.1:从预处理知识图谱三元组数据集中提取一部分噪声三元组和一部分正确三元组,并利用不同的标签分别对提取出的噪声三元组和正确三元组进行标注,以对二者加以区分,标注后的带有标签的噪声三元组和正确三元组构成训练数据集。
在本实施方式中,从预处理FB15K数据集中的正确三元组和噪声三元组中各提取一部分数据,在正确三元组的后面标注1标签,在噪声三元组后面标注0标签,例如表1示出的数据存储格式。这些数据将作为本方法后续流程中所需的训练数据,构成训练数据集。
表1数据格式示例
三元组 标签
104 105 45 1
104 105 260 0
步骤3.2:根据预处理知识图谱三元组数据集中的数据构建有向图,并根据构建的有向图得到每个实体节点的有向子图。
在本实施方式中,首先读取预处理FB15K数据集内的所有三元组,然后为了加快运算速度,为三元组中的实体和关系进行编号,数据保存格式如下:
{line[1]:{line[2]:[line3.1,…,line3.2]}}
其中,line[1]是三元组的头实体编号,line[2]是尾实体编号,line[3.*]是头尾实体间的关系编号。
再然后以三元组内的每个实体对应的实体编号为中心节点,所有到中心节点的距离小于距离阈值的实体节点对应的实体编号构成有向图,距离阈值的具体数值由技术人员根据实际情况和实际需要进行确定。本实施方式中经过试验得出距离阈值为4时的计算时间可以接受且不影响该方法的使用。
又然后按照公式(1)对有向图中边的权重w进行计算:
其中count(node1)为头实体结点的出度,edge_weight(node1,node2)为头尾实体节点间的联通关系个数。
最后利用Python的pygraph包将节点和节点间的权重保存成有向图,有向图里的节点存储的是实体编号,并根据构建的有向图得到每个节点的子图,且将所构建的子图保存起来,例如表2所示的保存格式:
表2有向子图存储格式示例
步骤3.3:利用知识表示模型TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,从而得到预处理知识图谱三元组数据集每一三元组的知识表示向量。
在本实施方式中,将预处理知识图谱三元组数据集中的三元组输入到知识表示模型TransE中,即可得到预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,这些嵌入向量作为预处理知识图谱三元组数据集中三元组的知识表示向量。
步骤4:根据有向子图求解数据集中每一三元组的实体级特征;根据知识表示向量求解出训练数据集中每一三元组的全局特征;根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征;利用Bert编码器获取训练数据集中每个单词的单词向量,根据单词向量计算出训练数据集中每一三元组的语义级特征;
步骤4.1:加载预处理知识图谱三元组数据集内的所有三元组,并加载以每个三元组的头实体为中心节点的有向子图,利用PCRA求解各子图内其余节点从中心节点分配到的资源数量,进而得到尾实体从头实体分配到的资源数量,从而得到预处理知识图谱三元组数据集内每一三元组的实体级特征;
在本实施方式中首先加载预处理FB15K数据集内的所有三元组,以及从步骤3构建的有向子图中加载以每个三元组的头实体为中心节点的有向子图。然后计算各子图内各节点的资源,其中各子图的中心节点的资源默认为1,各子图内其余节点的资源基于本实施方式改进的PCRA(Path-Constraint Resource Allocation Algorithm,路径约束资源分配算法)进行计算,并将其余节点从头实体节点分配到的资源数量作为每个三元组的实体级特征。
由于本发明是通过子图求解头实体到尾实体的资源流动数量的,减少了全图求解头实体到尾实体的资源流动数量的计算量,但由于子图可能导致一些资源流动路径缺失,因此本实施方式中对PCRA进行改进,如公式(2)所示,引入参数α来表示每一次资源流动时会有一部分资源分配到子图外的实体节点上:
其中Rh(m)代表在头实体h的子图中节点m具有的资源;Si-1(·,m)表示节点m的入射节点的集合;|Si(n,·)|代表节点n的出度个数;Rh(n)代表在头实体h的子图中节点n具有的资源;α代表资源流入子图外的实体节点的概率,sum(entity)代表预处理知识图谱三元组数据集内总实体的个数,在本实施方式中代表的是预处理FB15K数据集内总实体的个数。
步骤4.2:根据预处理知识图谱三元组数据集中三元组的知识表示向量,求解出训练数据集中每一三元组的全局特征;
步骤4.2.1:根据关系对训练数据集中的三元组进行分类,并根据知识表示向量求解出每一类三元组所对应关系的代表势能值;
读取步骤3得到的训练数据集,将训练数据集中的三元组根据关系进行分类,根据公式(3)计算每个三元组的势能值E(h,r,t),存储成(E(h,r,t),label)格式,label是势能值对应的三元组的标签,值为0或1。在每一类三元组的势能值里面找到一个值,该值满足大于该值的大部分势能值的label为0;反之,小于该值的大部分势能值的label为1,把该值作为每一类三元组所对应关系的代表势能值。
E(h,r,t)=|h+r-t| (3)
其中h为头实体的知识表示向量,t为尾实体的知识表示向量,r为关系的知识表示向量。
步骤4.2.2:将训练数据集里的每个三元组的势能值和每个三元组里的关系的代表势能值输入公式(4)所示的改进的SIGMOD激活函数,得到每个三元组正确的概率,并将其作为每个三元组的全局特征P(E(h,r,t));
其中E(h,r,t)为三元组的势能值;δr为关系r的代表势能值;P(E(h,r,t))为三元组的全局特征;为平滑处理的超参数,在本实施方式中设定为0.5。
步骤4.3:根据有向子图和知识表示向量,求解训练数据集里每一三元组的头尾实体两点间的可达路径,得到训练数据集中每一三元组的路径级特征;
步骤4.3.1:找出训练数据集里每一三元组的头尾实体两点间的所有可达路径,并从中确定出最优可达路径;
首先读取训练数据集里每一三元组的头实体编号对应的子图,然后根据子图找到训练数据集里各三元组的头尾实体间的所有可达路径,再然后利用可达路径选择算法,从所有可达路径中筛选出各三元组的头尾实体间的最优可达路径,但不包括三元组表示的直达路径。上述可达路径选择算法利用了步骤6得到的每个实体和关系的知识表示向量,分别计算每一可达路径上的每个关系与对应三元组的关系的相似度以及每一可达路径上的头尾实体与对应三元组头尾实体的相似度,将这些相似度相加求和值后再求平均值,这个平均值作为每一路径与三元组的相似程度,即路径评分scorei。该可达路径选择算法的具体方法为:
首先加载一个三元组(h,r,t)和以其中头实体h为中心节点的子图,其中t为尾实体,r为关系;然后寻找当前三元组头尾实体间的所有可达路径P(h,r,t)={p1,p2,…,pn},pi为一条可达路径;再然后对于每条可达路径pi={(h,l1,e1),(e1,l2,e2),…,(en-1,ln,t)},利用公式5求解关系的相似度SD(pi(L),r),利用公式6求解头实体的相似度SD(pi(E),h)和利用公式7求解尾实体的相似度SD(pi(E),t);
其中sum为当前可达路径上的三元组个数,pi(L)为当前可达路径上的三元组的关系的集合,l为pi(L)里的一个关系,vecl为l的知识表示向量,vecr为待求路径特征的三元组的关系r的知识表示向量。
其中sum为当前可达路径上的三元组个数,pi(E)为当前可达路径上的三元组的尾实体的集合,e为pi(E)里的一个尾实体,vece为e的知识表示向量,vect为待求路径特征的三元组的尾实体t的知识表示向量。
其中sum为当前可达路径上的三元组个数,pi(E)为当前可达路径上的三元组的头实体的集合,e为pi(E)里的一个头实体,vece为e的知识表示向量,vech为待求路径特征的三元组的头实体h的知识表示向量。
又然后求解相似度的平均值scorei作为路径评分,
最后根据scorei对可达路径进行排序后,从中选出当前三元组头尾实体间的最优可达路径。本实施方式中经过实验对比选取前三条路径效果最好,后面的路径影响不大,得到的结果如表3所示。
表3某一三元组的前三条最优可达路径示例
步骤4.3.2:利用LSTM神经网络,求得每个三元组头尾实体间的最优可达路径的路径代表值;
本实施方式中首先加载每个三元组的前三条最优可达路径,然后分别将每条最优可达路径上各三元组的头实体、关系和尾实体的知识表示向量加到一起,对应得到的各和值分别作为其各自对应的三元组的代表向量,将每条最优可达路径上各三元组的代表向量均作为输入单元输入LSTM神经网络里,输出值LSTMi作为每条最优可达路径的路径代表值。
步骤4.3.3:根据每条最优可达路径的路径评分和路径代表值,计算三元组的路径级特征;
根据每条路径的路径评分和路径代表值,通过公式(8)计算出每个三元组的路径级特征;
其中LSTMi为三元组的最优可达路径的路径代表值,scorei为路径评分,PATH为路径级特征。
步骤4.4:利用Bert编码器获取训练数据集中每个单词的单词向量,根据单词向量计算出训练数据集中每一三元组的语义级特征;
步骤4.4.1:利用现有的Bert编码器对训练数据集中的每个单词进行编码得到单词向量。
在本实施方式中从网上下载Bert编码器,利用所下载的Bert编码器逐一对训练数据集中三元组里的每个单词进行编码得到单词向量。
步骤4.4.2:根据单词向量,计算出训练数据集中每一三元组的语义级特征;
对于训练数据集中每一三元组:首先将每个实体的单词向量相加得到实体语义向量,将关系的单词向量相加得到关系语义向量;再利用公式9计算该三元组的语义值,将其作为该三元组的语义级特征。
SEM=cos((vech+vecr),vect) (9)
其中vech代表头实体语义向量,vecr代表关系语义向量,vect代表尾实体语义向量。
步骤5:将训练数据集中每一三元组的实体级特征Rh(m)、全局特征P(E(h,r,t))、路径级特征PATH以及语义级特征SEM均输入二分类器,对二分类器进行训练,得到训练好的二分类器。
在本实施方式中,首先将训练数据集中每一三元组的实体级特征Rh(m)、全局特征P(E(h,r,t))、路径级特征PATH以及语义级特征SEM组合成四维特征向量。然后将训练数据集中每一三元组的四维特征向量均输入二分类器,对二分类器进行训练,得到训练好的二分类器。
在本实施方式中将训练数据集中每一三元组的四维向量输入二分类器的输入层,再通过多个注意力层进行学习网络参数,输出层使用非线性激活函数sigmod去计算每一三元组标签为1的概率,作为每一三元组的置信度,完成对二分类器的训练,得到训练好的二分类器。
步骤6:对于任一给定的三元组或者部分三元组数据集,根据步骤3的结果和步骤4的方法,以及根据训练好的二分类器,得到每一给定三元组的置信度。
从步骤1获取的现有知识图谱三元组数据集中给定一个三元组或者部分三元组数据集,对于每一给定三元组:从步骤3得到的预处理知识图谱三元组数据集中三元组的知识表示向量获得其知识表示向量、从步骤4得到的预处理知识图谱三元组数据集中三元组的实体级特征获得其实体级特征、按照步骤4的方法得到其全局特征、路径级特征、以及语义级特征,最后将给定每一三元组的实体级特征、全局特征、路径级特征和语义级特征均输入训练好的二分类器,得到每一给定三元组的置信度。
应当理解的是,本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,可以根据上述说明做出各种改进或变换,这仍落在本发明的保护范围之内。

Claims (9)

1.一种知识图谱三元组的质检方法,其特征在于,包括如下步骤:
步骤1:获取现有知识图谱三元组数据集——FB15K数据集;
步骤2:对步骤1获取的知识图谱三元组数据集进行预处理,将该数据集中的部分三元组处理成噪声三元组,得到由正确三元组和噪声三元组组成的预处理知识图谱三元组数据集;
步骤3:从预处理知识图谱三元组数据集中提取部分噪声三元组和正确三元组进行标注区分后构成训练数据集;根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图;利用知识表示模型TransE求解预处理知识图谱三元组数据集内每个实体和关系的嵌入向量,从而得到每一三元组的知识表示向量;
步骤4:根据有向子图求解数据集中每一三元组的实体级特征;根据知识表示向量求解出训练数据集中每一三元组的全局特征;根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征;利用Bert编码器求解训练数据集中每一三元组的语义级特征;
步骤5:将训练数据集中每一三元组的实体级特征、全局特征、路径级特征以及语义级特征均输入二分类器,对二分类器进行训练,得到训练好的二分类器;
步骤6:对于任一从步骤l获取的现有知识图谱三元组数据集中给定的三元组或者部分三元组数据集,根据步骤3的结果和步骤4的方法得到每一三元组的实体级特征、全局特征、路径级特征和语义级特征,把它们均输入训练好的二分类器,得到每一给定三元组的置信度;
步骤4中所述的利用Bert编码器求解训练数据集中每一三元组的语义级特征的具体方法为:利用Bert编码器对训练数据集中三元组里的每个单词进行编码得到单词向量;对于训练数据集中每一三元组:首先将每个实体的单词向量相加得到实体语义向量,将关系的单词向量相加得到关系语义向量;再利用公式9计算该三元组的语义值,将其作为该三元组的语义级特征;
SEM=cos((vech+vecr),vect) (9)
其中vech代表头实体语义向量,vecr代表关系语义向量,vect代表尾实体语义向量。
2.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤3中所述的根据预处理知识图谱三元组数据集中的数据构建有向图以及每个实体节点的有向子图的方法为:首先读取预处理知识图谱三元组数据集内的所有三元组;然后为三元组中的实体和关系进行编号;再然后以三元组内的每个实体对应的实体编号为中心节点,所有到中心节点的距离小于距离阈值的实体节点对应的实体编号构成有向图;又然后计算有向图中边的权重;最后利用pygraph包将节点和节点间的权重保存成有向图,有向图里的节点存储的是实体编号,并根据构建的有向图得到每个节点的子图,且将所构建的子图保存起来。
3.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤4中所述根据有向子图求解数据集中每一三元组的实体级特征的方法为:加载预处理知识图谱三元组数据集内的所有三元组,并加载以每个三元组的头实体为中心节点的有向子图,利用PCRA求解各子图内其余节点从中心节点分配到的资源数量,进而得到尾实体从头实体分配到的资源数量,从而得到预处理知识图谱三元组数据集内每一三元组的实体级特征。
4.根据权利要求3所述的知识图谱三元组的质检方法,其特征在于,在所述PCRA中引入参数α来表示每一次资源流动时会有一部分资源分配到子图外的实体节点上:
其中Rh(m)代表在头实体h的子图中节点m具有的资源;Si-1(·,m)表示节点m的入射节点的集合;|Si(n,·)|代表节点n的出度个数;Rh(n)代表在头实体h的子图中节点n具有的资源;α代表资源流入子图外的实体节点的概率;sum(entity)代表预处理知识图谱三元组数据集内总实体的个数。
5.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤4所述的根据知识表示向量求解出训练数据集中每一三元组的全局特征,包括如下步骤:
步骤4.2.1:根据关系对训练数据集中的三元组进行分类,并根据知识表示向量求解出每一类三元组所对应关系的代表势能值;
步骤4.2.2:将训练数据集里的每个三元组的势能值和每个三元组里的关系的代表势能值输入改进的SIGMOD激活函数,得到每个三元组正确的概率,并将其作为每个三元组的全局特征。
6.根据权利要求1所述的知识图谱三元组的质检方法,其特征在于,步骤4所述的根据有向子图和知识表示向量求解训练数据集里每一三元组的路径级特征,包括如下具体步骤:
步骤4.3.1:根据有向子图和知识表示向量,找出训练数据集里每一三元组的头尾实体两点间的所有可达路径,并从中确定出最优可达路径以及每条最优可达路径的路径评分;
步骤4.3.2:利用LSTM神经网络,求得每个三元组头尾实体间的最优可达路径的路径代表值;
步骤4.3.3:将每个三元组的每条最优可达路径的路径评分和路径代表值分别作乘积,再将全部乘积结果相加,得到的和值作为对应三元组的路径级特征。
7.根据权利要求5所述的知识图谱三元组的质检方法,其特征在于,所述步骤4.2.1的具体内容为:
读取步骤3得到的训练数据集,将训练数据集中的三元组根据关系进行分类,根据公式(3)计算每个三元组的势能值E(h,r,t),存储成(E(h,r,t),label)格式,label是势能值对应的三元组的标签,值为0或1;在每一类三元组的势能值里面找到一个值,该值满足大于该值的大部分势能值的label为0;反之,小于该值的大部分势能值的label为1,把该值作为每一类三元组所对应关系的代表势能值;
E(h,r,t)=|h+r-t| (3)
其中h为头实体的知识表示向量,t为尾实体的知识表示向量,r为关系的知识表示向量。
8.根据权利要求6所述的知识图谱三元组的质检方法,其特征在于,所述步骤4.3.1的具体方法为:首先加载一个三元组(h,r,t)和以其中头实体h为中心节点的子图,其中t为尾实体,r为关系;然后寻找当前三元组头尾实体间的所有可达路径;再然后对于每条可达路径,求解关系的相似度、头实体的相似度和尾实体的相似度,并求解相似度的平均值作为路径评分;最后根据每条可达路径的路径评分对可达路径进行排序后,从中选出当前三元组头尾实体间的最优可达路径。
9.根据权利要求6所述的知识图谱三元组的质检方法,其特征在于,所述步骤4.3.2的具体方法为:首先加载每个三元组的最优可达路径,然后分别将每条最优可达路径上各三元组的头实体、关系和尾实体的知识表示向量加到一起,对应得到的各和值分别作为其各自对应的三元组的代表向量,将每条最优可达路径上各三元组的代表向量均作为输入单元输入LSTM神经网络里,输出值作为每条最优可达路径的路径代表值。
CN202110142051.8A 2021-02-02 2021-02-02 一种知识图谱三元组的质检方法 Active CN112819162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110142051.8A CN112819162B (zh) 2021-02-02 2021-02-02 一种知识图谱三元组的质检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110142051.8A CN112819162B (zh) 2021-02-02 2021-02-02 一种知识图谱三元组的质检方法

Publications (2)

Publication Number Publication Date
CN112819162A CN112819162A (zh) 2021-05-18
CN112819162B true CN112819162B (zh) 2024-02-27

Family

ID=75860492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110142051.8A Active CN112819162B (zh) 2021-02-02 2021-02-02 一种知识图谱三元组的质检方法

Country Status (1)

Country Link
CN (1) CN112819162B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113515630B (zh) * 2021-06-10 2024-04-09 深圳数联天下智能科技有限公司 三元组生成和校验方法、装置、电子设备和存储介质
CN113868432A (zh) * 2021-09-18 2021-12-31 同济大学 一种用于钢铁制造企业的知识图谱自动构建方法和系统
CN114077676B (zh) * 2021-11-23 2022-09-30 郑州轻工业大学 一种基于路径置信度的知识图谱噪声检测方法
CN114691896B (zh) * 2022-05-31 2022-09-13 浙江大学 一种知识图谱数据清洗方法及装置
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309310A (zh) * 2018-02-12 2019-10-08 清华大学 基于置信度的知识表示学习方法
CN111221976A (zh) * 2019-11-14 2020-06-02 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建方法
CN111260064A (zh) * 2020-04-15 2020-06-09 中国人民解放军国防科技大学 基于元知识的知识图谱的知识推理方法、系统以及介质
CN112015868A (zh) * 2020-09-07 2020-12-01 重庆邮电大学 基于知识图谱补全的问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606849B2 (en) * 2016-08-31 2020-03-31 International Business Machines Corporation Techniques for assigning confidence scores to relationship entries in a knowledge graph

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309310A (zh) * 2018-02-12 2019-10-08 清华大学 基于置信度的知识表示学习方法
CN111221976A (zh) * 2019-11-14 2020-06-02 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建方法
CN111260064A (zh) * 2020-04-15 2020-06-09 中国人民解放军国防科技大学 基于元知识的知识图谱的知识推理方法、系统以及介质
CN112015868A (zh) * 2020-09-07 2020-12-01 重庆邮电大学 基于知识图谱补全的问答方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Novel Conditional Knowledge Graph Representation and Construction;Tingyue zheng;《CAAI International Conference on Artificial Intelligence》;383–394 *
Triple Trustworthiness Measurement for Knowledge Graph;Shengbin Jia等;《The World Wide Web Conference》;2865-2871 *
面向知识图谱的表示学习算法的研究与应用;胡卓;《CNKI中国优秀硕士毕业论文全文库(信息科技辑)》(第08期);I138-779 *

Also Published As

Publication number Publication date
CN112819162A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112819162B (zh) 一种知识图谱三元组的质检方法
CN111783100B (zh) 基于图卷积网络对代码图表示学习的源代码漏洞检测方法
CN109639739B (zh) 一种基于自动编码器网络的异常流量检测方法
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN112507039A (zh) 基于外部知识嵌入的文本理解方法
CN114139533B (zh) 一种面向中文小说领域的文本内容审核方法
CN111695527A (zh) 一种蒙古文在线手写体识别方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
JP2015511733A (ja) テキストを分類する方法
CN115688779B (zh) 一种基于自监督深度学习的地址识别方法
CN108364073A (zh) 一种多标记学习方法
CN114064487A (zh) 一种代码缺陷检测方法
CN115147632A (zh) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN114492843A (zh) 一种基于半监督学习的分类方法、设备及存储介质
CN115328782A (zh) 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法
CN115374845A (zh) 商品信息推理方法和装置
CN113656594A (zh) 一种基于飞行器维修的知识推理方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN114793170B (zh) 基于开集识别dns隧道检测方法、系统、设备及终端
CN115757714A (zh) 强化关联度计算的小样本用户多意图识别方法
CN115544070A (zh) 一种基于轨迹表示学习的相似度查询优化方法
Gladence et al. A novel technique for multi-class ordinal regression-APDC
CN114580372B (zh) 文本处理方法、装置、设备和存储介质
CN117521658B (zh) 一种基于篇章级事件抽取的rpa流程挖掘方法及系统
CN116166321B (zh) 代码克隆检测方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant