CN116150401A - 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法 - Google Patents

基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法 Download PDF

Info

Publication number
CN116150401A
CN116150401A CN202310121294.2A CN202310121294A CN116150401A CN 116150401 A CN116150401 A CN 116150401A CN 202310121294 A CN202310121294 A CN 202310121294A CN 116150401 A CN116150401 A CN 116150401A
Authority
CN
China
Prior art keywords
triples
triplet
entity
quality inspection
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310121294.2A
Other languages
English (en)
Inventor
张思佳
王梓铭
王水涛
毕甜甜
杨景杰
安宗诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Ocean University
Original Assignee
Dalian Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Ocean University filed Critical Dalian Ocean University
Priority to CN202310121294.2A priority Critical patent/CN116150401A/zh
Publication of CN116150401A publication Critical patent/CN116150401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法,属于知识图谱三元组质检领域,为了解决仅以孤立的三元组作为正样本,会极大削弱知识图谱包含的知识的问题,构建数据集,所述数据集中包括源三元组;构建头部和尾部实体间存在传递关系构成的隐含三元组;构建噪声三元组;获取三元组的置信度;通过网络模型聚合得到三元组融合特征;网络模型通过多标签分类算法对实体间关联关系训练将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分;通过特征建模过程中实体关联关系损失和二分类交叉熵损失优化模型参数,效果是提高知识图谱包含的知识,更准确的挖掘知识图谱节点之间的隐含语义关系。

Description

基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型 训练方法及质检方法
技术领域
本发明属于知识图谱三元组质检领域,具体涉及一种基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法。
背景技术
知识图谱的基本存储单元是三元组,三元组由头部实体、关系和尾部实体组成。三元组之间通过关系联系在一起从而构成一张巨大的有向图。DBpedia、NELL等大型知识库均是从多个网站上爬取,清洗制作得到的,其复杂的知识结构往往难以有效的进行质检和分析。制作知识图谱过程中往往会引入一些噪声数据,如虚假的关系,错误的实体,甚至无中生有的三元组。由于制作知识图谱过程各种不可避免引入噪声三元组,这些三元组破坏了知识图谱的网络结构,使得知识难以得到有效的展示,基于知识图谱的知识推荐和搜索会产生致命错误。
为对知识图谱进行有效质检,Ruobing Xie等人提出的三元组置信度算法,三元组的置信度可在图谱构建前后进行,置信度计算的结果隐含了知识图谱的内部特征和三元组之间的隐含信息。Shengbin Jia等人基于深度学习模型将三元组的内部语义特征、节点的全局语义依赖信息、以及三元组组成要素之间的可信度整合在一起,构建强鲁棒性的噪声三元组质检算法,其性能远远超出了传统的TransE、TransR等算法。Yu Zhao等人将头尾结点实体词向量表示进行了一定的扩充,主要是考虑到实体本就包含了丰富的语义信息。Shengbin Jia和Yu Zhao等人均将Trans系列算法作为基础算法,在多个层次上对实体和关系向量进行整合达到较好的结果。但是目前的知识图谱质检存在如下问题:1)大多数学者均是基于常见的开源知识图谱设计质检算法,人为构建噪声数据集,将知识图谱的质检转换成常见的分类任务,噪声数据集的构建缺乏有效的方法;2)复杂的知识图谱如FB15K-237知识图谱包含237种关系,三元组之间具有复杂的关系传递,仅以孤立的三元组作为正样本,会极大削弱知识图谱包含的知识。
发明内容
为了解决仅以孤立的三元组作为正样本,会极大削弱知识图谱包含的知识的问题,在第一方面上,根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,包括:
构建数据集,所述数据集中包括头部和尾部实体间存在直接关系构成的源三元组;
根据所述数据集构建头部和尾部实体间存在传递关系构成的隐含三元组;
根据所述数据集的源三元组构建噪声三元组;
获取所述源三元组、隐含三元组以及噪声三元组的置信度;
通过网络模型提取所述源三元组、隐含三元组以及噪声三元组的初始特征、静态特征以及内部关联特征,聚合得到源三元组、隐含三元组以及噪声三元组的融合特征;
根据所述源三元组、隐含三元组以及噪声三元组的融合特征,网络模型通过多标签分类算法对实体间关联关系训练将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分;
通过特征建模过程中实体关联关系损失和总损失优化模型参数。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,根据所述数据集构建头部和尾部实体间存在传递关系构成的含三元组的方法,包括:
将所述数据集中实体为搜索起点,搜索以所述实体为起点的最长有向路径,遍历数据集的所有实体,获取各实体的最长有向路径以及各实体的搜索路径;
从所述搜索路径中删除被包含的子路径,得到互不包含的所有搜索路径;
通过互不包含的所有搜索路径构建实体-关系矩阵E,通过实体-关系矩阵E利用关系传递方向构建隐含三元组,其中所述实体-关系矩阵E由下式表示:
Figure BDA0004080011210000021
其中,sigi,j={0,1},D是数据集中不重复实体的数目,sigi,j是实体Eni与Enj之间的关系,sigi,j=0,表示这两个实体之间无关联,sigi,j=1,表示这两个实体之间有关联,对于三元组<Eni,sigi,j,Enj>,实体-关系矩阵E中关系sigi,j=1,关系sigi,j以及关系sigi,j所对应的实体Eni与Enj组成的单元组是隐含三元组。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,所述获取三元组的置信度中获取隐含三元组的置信度的方法,包括
遍历所有搜索路径,通过实体-关系矩阵E还原任意条搜索路径,获取最长搜索路径;
以标识最长搜索路径为基准,计算最长搜索路径上各实体三元组置信度矩阵;
通过最长搜索路径上各实体三元组置信度矩阵计算构建的隐含三元组的置信度,且每条最长搜索路径之间相互独立:
所述置信度由公式(3)表示:
Figure BDA0004080011210000031
其中,r表示置信度,←表示指向方向,F指包含三元组<Eni,sigi,j,Enj>的最长搜索路径个数,dk指当前三元组在当前所属三元组中的搜索深度,pk是当前搜索路径总长度,即包含三元组的个数,L是所有最长搜索路径的最大长度,通过参数L将所有的置信度进行归一化,D是数据集中不重复实体的数目。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,根据所述数据集的源三元组、隐含三元组构建噪声三元组的方法,包括对三元组随机进行替换头实体<?,r,t>、替换关系<h,?,t>和替换尾实体<h,r,?>中的任一种所得三元组是噪声三元组,将源三元组、隐含三元组、噪声三元组保留在数据集中。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,所述网络模型包括TransR网络、残差网络、BiLSTM网络,所述通过网络模型提三元组的初始特征、静态特征以及内部关联特征,包括
通过TransR网络得到源三元组、隐含三元组以及噪声三元组的初始特征;
通过残差网络提取源三元组、隐含三元组以及噪声三元组的静态特征;
通过多层BiLSTM网络提取源三元组、隐含三元组以及噪声三元组的内部关联特征。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,TransR模型对源源三元组、隐含三元组以及噪声三元组进行预训练的方法,包括将源三元组、隐含三元组以及噪声三元组的嵌入与三元组的置信度进行内积,得到加权特征向量,所述加权特征向量是所述三元组的初始特征。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,特征建模过程中实体关联关系损失和总损失分别由公式(7)和公式(8)表示:
Figure BDA0004080011210000032
Figure BDA0004080011210000041
其中,LEP表示实体关联关系损失,B表示当前训练的输入批次大小,a是所有批次样本的关联深度,yi表示实体关联关系标签,pi表示实体关联关系预测概率。L表示总损失,y-表示三元组质检标签p-j表示神经网络对每个三元组质检分类概率;yj表示特征建模过程中实体关联关系标签,pj表示神经网络对每个实体关联关系预测概率。
在第二方面上,根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检方法,包括
向由所述训练方法所得优化模型参数的网络模型输入待质检的数据集:
通过所述网络模型提取待质检的数据集中的三元组的初始特征、静态特征以及内部关联特征,聚合得到三元组的融合特征;
根据所述三元组的融合特征,网络模型通过多标签分类算法对实体间关联关系预测,将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检方法,通过所述网络模型提取待质检的数据集中的三元组的初始特征、静态特征以及内部关联特征的方法,包括
通过TransR网络得到三元组的初始特征;
通过残差网络提取三元组的静态特征;
通过多层BiLSTM网络提取三元组的内部关联特征。
根据本申请一些实施例的基于带噪声数据集的强鲁棒性知识图谱三元组质检方法,TransR模型对源三元组、隐含三元组以及噪声三元组进行预训练的方法,包括将源三元组、隐含三元组以及噪声三元组的嵌入与三元组的置信度进行内积,得到加权特征向量,所述加权特征向量是所述三元组的初始特征。
本发明的有益效果:
1)本发明将每个三元组赋予预置权重,表征三元组为真实的置信度并提出更为准确的隐含三元组置信度计算方法。
2)构建对于复杂知识图谱隐含三元组,在质检模型训练中使用参与训练,所使用的质检模型区分的三元组不再忽略测试数据集中的具有间接关系的隐含三元组,提升知识图谱包含的知识。更准确的挖掘知识图谱节点之间的隐含语义关系,还提出基于搜索深度的关系强弱表征方法。复杂知识图谱节点之间通过关系进行链接,基于链接深度。本发明使用基于有向图的深度搜索算法,搜索所有可能的路径,基于搜索路径构建新的隐含三元组,用以扩充源三元组的规模;
3)基于扩充的三元组构建噪声三元组,本发明构建的噪声三元组有3种,分别是替换头实体<?,r,t>、替换关系<h,?,t>和替换尾实体<h,r,?>。由于本发明已将源三元组进行了大量的扩充,能够极大避免构建的噪声三元组的任何一对实体之间不存在隐含的传递关系;
4)本发明使用基于TransR对扩充后的真实三元组进行预训练,得到实体和关系的初始表达,然后使用多种深度学习算法对三元组建模,特征融合最后完成质检。
附图说明
图1基本框架图。
图2为Accuracy、F-Score、Precision、Recall实验结果图,图2的A是Recall实验结果图,图2的B是Accuracy实验结果图,图2的C是F1实验结果图,图2的D是Precision实验结果图。
图3为5%噪声样本对比实验结果图,图3的A是Recall实验结果图,图3的B是Precision实验结果图。
图4为3%噪声样本对比实验结果图,图4的A是Recall实验结果图,图4的B是Precision实验结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,所描述的实施例仅为本发明的可能的技术实现,并非全部实现可能。本领域技术人员完全可以结合本发明的实施例,在没有进行创造性劳动的情况下得到其他实施例,而这些实施例也在本发明的保护范围之内。
定义1:隐含三元组是指复杂知识图谱中,实体之间的关系传递导致实体之间存在间接关系,基于关系传递构建的新三元组被称为隐含三元组。
定义2:源三元组,是指知识图谱中,头部实体和尾部实体间存在直接关系而构成的三元组。
定义3:正三元组是指知识图谱中,头部实体和尾部实体间存在直接或传递关系而构成的三元组。正三元组的来源有两种:1)训练集提供的源三元组,2)定义1)所述的隐含三元组。
发明人发现,常见的开源知识图谱设计质检模型训练通常所使用的三元组是训练集提供的原始三元组,原始三元组的头部实体和尾部实体间存在直接关系,然而,对于复杂知识图谱,头部实体和尾部实体间往往还存在传递关系,因这种传递关系形成的三元组反应了头部实体和尾部实体间的间接关系,现有技术不将隐含三元组在质检模型训练中使用参与训练,所使用的质检模型区分的三元组忽略测试数据集中的具有间接关系的隐含三元组,会极大削弱知识图谱包含的知识。为更准确的挖掘知识图谱节点之间的隐含语义关系,本发明首先对数据集进行预处理,得到隐含三元组数据集,对源图谱中的源三元组进行扩充,然后构建噪声三元组,使用源三元组、隐含三元组和噪声三元组训练网络模型。
具体的,本发明基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,包括
本发明构建隐含三元组的方法,包括如下步骤:
S101.构建数据集,所述数据集中包括头部和尾部实体间存在直接关系构成的源三元组。其中,步骤S101,基于FB15K-237以及WN18RR两个数据集分别构建Neo4J数据集。
S102.根据所述数据集构建头部和尾部实体间存在传递关系构成的隐含三元组,并且,在该步骤中还具体记载了对于隐含三元组的置信度计算方法,而对于源三元组和噪声三元组使用现有置信度计算方法即可。其中,步骤S102,以数据集中的实体为搜索起点,搜索以该实体为起点的最长有向路径。遍历数据集的所有实体,得到所有搜索路径,然后删除被包含的子路径,最终得到互不包含的所有路径,并构建实体-关系矩阵E。基于实体关系矩阵利用关系传递方向构建隐含三元组。实体-关系矩阵E如公式1所示。
Figure BDA0004080011210000061
其中,sigi,j={0,1},D是数据集中不重复实体的数目,sigi,j是实体Eni与Enj之间的关系,sigi,j=0,表示这两个实体之间无关联,sigi,j=1,表示这两个实体之间有关联,对于三元组<Eni,sigi,j,Enj>,实体-关系矩阵E中关系sigi,j=1,关系sigi,j以及关系sigi,j所对应的实体Eni与Enj组成的单元组是隐含三元组。
其中Entity→RD表示,Entity↓表示都是为实体。
由于实体-关系矩阵E是基于有向图搜索得到的,三元组<Eni,sigi,j,Enj>与三元组<Enj,sigi,j,Eni>被认为是不同的三元组。基于矩阵E可还原任何一条搜索路径,搜索路径表示如公式2所示。
DPath←<Eni,1,Enj>∪<Enj,1,Enk>∪…<Enm,1,Enn> 公式2
由于每一条搜索路径均要求相邻节点之间存在有向边,且由头部实体指向尾部实体,故本发明基于有向搜索路径构建基于搜索深度的三元组置信度矩阵,该置信度矩阵用来标识每一个三元组中头部和尾部实体关联强弱。考虑到某些实体可能同时包含于多条搜索路径,且由于深度不同造成置信度计算混乱,为解决这个问题,本发明只以矩阵E标识的最长搜索路径为基准计算构建的隐含三元组的置信度,每条最长搜索路径之间相互独立。置信度计算方式如公式3所示。
Figure BDA0004080011210000071
其中,r表示置信度,←表示指向方向,F指包含三元组<Eni,sigi,j,Enj>的最长搜索路径个数,dk指当前三元组在当前所属三元组中的搜索深度,pk是当前搜索路径总长度,即包含三元组的个数,L是所有最长搜索路径的最大长度,通过参数L将所有的置信度进行归一化,D是数据集中不重复实体的数目。
S103.根据所述数据集的源三元组构建噪声三元组。其中,
噪声三元组是指不与正三元组有交集,并且不包含于扩充的知识图谱的假三元组。为充分检验本发明算法对知识图谱的质检效果,本发明集每个原始数据集构建3套噪声数据集,分别是HR_FAKE_T、H_FAKER_T、FAKEH_R_T。HR_FAKE_T是在正三元组基础上随机替换尾部实体、H_FAKER_T是在正三元组基础上随机替换关系、FAKEH_R_T是在正三元组基础上随机替换头部实体。3套噪声数据集的构建过程如算法1所示。
算法1噪声数据集构建
Figure BDA0004080011210000081
算法1中,Check函数分别实现对3种噪声三元组的选择,伪代码如算法2所示。
算法2Check(选择噪声三元组)
Figure BDA0004080011210000091
算法1和算法2实现了3种类型噪声数据集的选择和过滤,过滤条件包含两个:1)新产生的噪声三元组不应出现在经扩展的正三元组集合;2)新产生的噪声三元组不应出现在实体-关系关联矩阵E中。通过以上2种过滤方法,能够极大的避免噪声三元组的头部和尾部实体之间不存在传递关系。将正三元组和噪声三元组合并得到新的数据集。
S104.获取所述源三元组、隐含三元组以及噪声三元组的置信度。根据上文所述,隐含三元组的置信度计算方法记载于步骤S102中,源三元组和噪声三元组使用现有置信度计算方法即可。
S105.通过网络模型提取所述源三元组、隐含三元组以及噪声三元组的初始特征、静态特征以及内部关联特征,聚合得到源三元组、隐含三元组以及噪声三元组的融合特征。其中,由于FB15K-237以及WN18RR数据集内存在大量的1:N和N:N的关系,本发明基于TransR算法训练正三元组,得到实体和关系的向量表示,然后遍历3个数据集的噪声三元组,使用TransR训练好的模型参数初始化所有的噪声三元组。所有正三元组的嵌入与其置信度进行内积,得到加权特征向量,即得到所述初始特征。
根据图1所示,Po-TransR表示基于TransR算法初始化的正三元组,N-Random表示噪声三元组。噪声三元组和正三元组均使用相同的维度的向量进行初始化。DeepPath是基于实体-关系矩阵构建的搜索路径。
Figure BDA0004080011210000101
本发明通过残差网络提取三元组的静态特征。
考虑到本发明对知识图谱进行深度预处理时已经得到了一定规模的有向搜索路径,实体间的时空语义关联对实体向量的深层表示具有一定意义。现有技术使用TransE训练三元组得到三元组的向量表示,基于三元组的向量分布及有向子图直接求解三元组的局部特征、全局特征以及包含语义的路径特征。而本发明使用多层BiLSTM实现对原始输入的空间语义关系进行建模,学习实体之间的局部关联关系;然后使用BiLSTM提取三元组的内部关联特征。三元组的初始特征、静态特征以及内部关联特征,聚合得到三元组的融合特征。
S106.根据所述源三元组、隐含三元组以及噪声三元组的融合特征,网络模型通过多标签分类算法对实体间关联关系训练将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分,通过特征建模过程中实体关联关系损失和二分类交叉熵损失优化模型参数。
三元组的初始特征、静态特征以及内部关联特征聚合得到三元组的融合特征,特征建模输入如公式4所示。
Figure BDA0004080011210000102
其中,B指BatchSize,即当前训练的输入批次大小,a是所有批次样本的关联深度,且a≤B,特征建模的目标输出标签如公式5所示,标签含义如公式6所示。
Figure BDA0004080011210000103
符号
Figure BDA0004080011210000113
表示实体Eni和实体Enj之间不存在关联关系,两者的关联标签为0,符号→表示实体Eni和实体Enj之间存在关联关系,两者的关联标签为1。
本发明算法中,特征建模过程中,通过多标签分类算法实体间关联关系的训练和预测,将不存在关联关系的实体进行区分,使用二分类方式实现真假三元组的质检。将两者的损失进行聚合共同优化网络参数。特征建模过程中实体关联关系损失如公式7所示。
Figure BDA0004080011210000111
三元组质检为常见的二分类交叉熵损失,与公式7合并之后得到总损失,见公式8所示。
Figure BDA0004080011210000112
其中,LEP表示实体关联关系损失,B表示当前训练的输入批次大小,a是所有批次样本的关联深度,yi表示实体关联关系标签,pi表示实体关联关系预测概率。L表示总损失,y-表示三元组质检标签p-j表示神经网络对每个三元组质检分类概率;yj表示特征建模过程中实体关联关系标签,pj表示神经网络对每个实体关联关系预测概率。
知识图谱三元组质检的难点是区分真实三元组和噪声三元组,常用开源知识图谱不包含噪声三元组,目前已有三元组质检算法极少考虑到知识图谱中由于关系转递存在的大量隐含三元组对质检效果的影响,且没有有效利用实体之间的空间语义关联导致对实体特征提取不充分。针对以上问题,提出带噪声数据集的强鲁棒性隐含三元组质检算法(Implied triplet quality inspection,ITQI),首先基于开源数据集制作Neo4J知识图谱;然后基于有向图最长路径搜索算法搜索所有可能的搜索路径,根据知识图谱的关系传递性来构建具有隐含关系的三元组,对源三元组进行扩充能够极大增加有效三元组的个数;最后构建三种类型的噪声三元组,分别是<h,r,?>、<h,?,t>、<?,r,t>,其中?表示缺失值,通过随机采样得到。这三种类型的噪声三元组规模与扩充后的真实三元组相同。通过TransR预训练得到扩充后的真实三元组的初始特征,然后使用残差网络提取三元组的静态特征、并使用多层BiLSTM提取三元组的内部关联特征,将以上三种特征聚合,得到三元组的融合特征对三元组进行二分类达到三元组质检的目的。本发明算法在FB15K、WN18RR两个数据集上进行实验,实验结果表明本发明算法在三种噪声数据上的质检效果达到最优,且鲁棒性最强。
实验例
ITQI算法对比实验
实验环境
本发明所使用的数据集为FB15K-237和WN18RR,这两个数据集将会在后文介绍。本发明提出的ITQI算法可在GPU快速部署运行,与其它算法在CPU上进行对比实验,对比实验的配置如表1所示。实验基本设置如表2所示。
表1实验硬件条件
Figure BDA0004080011210000121
表2实验条件设置
Figure BDA0004080011210000122
数据集
ITQI算法与对比算法在多个数据集上进行对比实验,本发明所使用的数据集的基本信息如表3所示。
表3实验数据集的基本信息
Figure BDA0004080011210000131
本发明第2.2节使用基于有向最长路径搜索算法将所有实体之间有无关联关系映射至实体关系关联矩阵E,实体之间有直接关系或间接关系的均被认为能够构建为正三元组,基于矩阵E,极大的扩展了原有的正三元组,拓展后训练集的数据规模如表4所示。
表4训练集正三元组的基本信息
Figure BDA0004080011210000132
噪声三元组依据算法1和算法2进行构建,其三元组规模分别与各数据集的训练集、测试集和验证集规模基本相同。
本发明实验所使用的对比算法如表5所示。评估指标分别是:Accuracy、Precision、Recall-Score、F1-Score、Quality。这4个评估指标的计算公式直接调用Sklearn.metrics封装好的计算公式计算这4个指标值。Quality指标时衡量三元组质检质量的评估指标,本发明借鉴Shengbin Jia等人提出的计算Quality指标公式,将0.5作为三元组质检的分界线,即预测为正的三元组其概率如果小于0.5则认为预测错误,预测为正的三元组其概率如果大于0.5则认为预测错误。
表5对比算法以及评估指标
Figure BDA0004080011210000133
FB15K-237数据集对比实验
本发明算法首先在FB15K-237数据集上进行质检实验,实验对象分别如下:
1)正三元组+HR_FAKE_T;
2)正三元组+H_FAKER_T;
3)正三元组+FAKEH_R_T。
其中HR_FAKE_T、H_FAKER_T及FAKEH_R_T3个噪声数据集的创建已在前文进行详细介绍,3组实验的评估指标分别是Accuracy、F-Score、Precision、Recall实验结果如图2所示,实验结果汇总如表6所示。
表6三个数据集上的实验结果
Figure BDA0004080011210000141
从本发明算法在3个数据集上的实验结果可看出,本发明实验具有较好的鲁棒性,4种评估指标下的实验结果均较高。本发明使用Recall及Quality两个评估指标分别与对比算法进行对比实验,实验结果如表7所示。
表7对比实验结果
Figure BDA0004080011210000142
从表7可看出,本发明所提算法ITQI在FB15K-237数据集的3个扩展集上的实验结果优于其它算法在原始数据集上的实验结果,在3个数据集上评估指标提升汇总如表8所示。相对于其它对比算法的平均召回率和质检质量均值而言,本发明算法在3个拓展集的召回率最大提升6.09%、最小提升2.92%;Quality指标下的最大提升15.09%,最小提升12.09%;和KGTtm-、PTransE-以及TransR-相比,本发明算法召回率最大提升7.275%,最小提升0.201%;Quality指标上最大提升14.98%,最小提升1.251%。基于以上对比结果,本发明算法在两个对比指标上的平均提升率和在单个对比算法上的提升率均为正,实验表明本发明算法计有一定的优势。
表8与其它算法的对比提升结果
Figure BDA0004080011210000151
WN18RR数据集对比实验
本发明对比实验验证不同比例的噪声和冲突样本下。各算法对三元组质检的效果。实验数据集为WN18RR,实验对象与3.3.1节一致。本发明算法在这3组数据集的实验评估指标分别是Precision、Recall。Precision和Recall的计算公式与Qinggang Zhang等人提出的计算方法一致。5%噪声样本下注入条件下实验结果如图3所示,3%噪声样本下注入条件下实验结果如图4所示实验结果汇总如表9所示。
表9实验结果汇总
Figure BDA0004080011210000152
本发明使用Recall及Precision两个评估指标分别与对比算法进行对比实验,实验结果如表10所示。
表10对比实验结果
Figure BDA0004080011210000161
从表10可看出,本发明所提算法ITQI在WN18RR数据集的3个扩展集上的实验结果均值均优于其它算法在原始数据集上的实验结果,在3个数据集上评估指标提升汇总如表11所示。相对于其它对比算法的平均召回率和质检质量均值而言,本发明算法在3个拓展集的平均召回率最大提升58.92%、最小提升20.55%;Precision指标下的最大提升58.68%,最小提升24.14%;和KGTtm-、KGIst-以及CAGED-相比,最大提升73.88%、最小提升3.17%;Precision指标下的最大提升73.61%,最小提升6.33%。基于以上对比结果,本发明算法在两个对比指标上的平均提升率和在单个对比算法上的提升率均为正,实验表明本发明算法计有一定的优势。
表11与其它算法的对比提升结果
Figure BDA0004080011210000162
消融实验
为验证本发明算法的各模块对算法效果的影响,本发明设置表5设置的消融实验算法,所有的对比算法均不包含算法框架图1中的DeepPath部分,为分析方便,本发明仅使用Recall作为评估指标,消融实验结果如表12所示。
表12消融实验结果
Figure BDA0004080011210000171
从消融实验结果来看,本发明算法与对比算法相比,平均提升率最大为2.84%,最小为1.40%,且加入的特征提取模块越多效果越显著。对比算法均未加入DeepPath模块时,召回率均低于本发明算法,实验效果表明DeepPath结构对三元组质检具有一定的提升作用。
针对现有三元组质检算法极少考虑到知识图谱中由于关系转递存在的大量隐含三元组对质检效果的影响,本发明提出基于带噪声数据集的强鲁棒性隐含三元组质检算法ITQI,首先分别对FB15K-237以及WN18RR数据集进行了扩充得到更大规模的三元组,并使用算法1和算法2分别生成3组噪声数据集。通过本发明算法与对比算法在数据集上的实验表明,本发明算法具有更高的准确率,且优于其它算法。从评估指标对比结果来看,本发明算法在正三元组+FAKEH_R_T这类数据集上有更高的召回率,三元组的质检质量更高。从消融实验结果来看,实体间的关系依赖特征能够有助于噪声三元组的建模,且能够有助于区分噪声样本。

Claims (10)

1.一种基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,包括:
构建数据集,所述数据集中包括头部和尾部实体间存在直接关系构成的源三元组;
根据所述数据集构建头部和尾部实体间存在传递关系构成的隐含三元组;
根据所述数据集的源三元组构建噪声三元组;
获取所述源三元组、隐含三元组以及噪声三元组的置信度;
通过网络模型提取所述源三元组、隐含三元组以及噪声三元组的初始特征、静态特征以及内部关联特征,聚合得到源三元组、隐含三元组以及噪声三元组的融合特征;
根据所述源三元组、隐含三元组以及噪声三元组的融合特征,网络模型通过多标签分类算法对实体间关联关系训练将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分;
通过特征建模过程中实体关联关系损失和总损失优化模型参数。
2.根据权利要求1所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,根据所述数据集构建头部和尾部实体间存在传递关系构成的含三元组的方法,包括:
将所述数据集中实体为搜索起点,搜索以所述实体为起点的最长有向路径,遍历数据集的所有实体,获取各实体的最长有向路径以及各实体的搜索路径;
从所述搜索路径中删除被包含的子路径,得到互不包含的所有搜索路径;
通过互不包含的所有搜索路径构建实体-关系矩阵E,通过实体-关系矩阵E利用关系传递方向构建隐含三元组,其中所述实体-关系矩阵E由下式表示:
Figure FDA0004080011200000011
其中,sigi,j={0,1},D是数据集中不重复实体的数目,sigi,j是实体Eni与Enj之间的关系,sigi,j=0,表示这两个实体之间无关联,sigi,j=1,表示这两个实体之间有关联,对于三元组<Eni,sigi,j,Enj>,实体-关系矩阵E中关系sigi,j=1,关系sigi,j以及关系sigi,j所对应的实体Eni与Enj组成的单元组是隐含三元组。
3.根据权利要求2所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,所述获取三元组的置信度中获取隐含三元组的置信度的方法,包括
遍历所有搜索路径,通过实体-关系矩阵E还原任意条搜索路径,获取最长搜索路径;
以标识最长搜索路径为基准,计算最长搜索路径上各实体三元组置信度矩阵;
通过最长搜索路径上各实体三元组置信度矩阵计算构建的隐含三元组的置信度,且每条最长搜索路径之间相互独立;
所述置信度由公式(3)表示:
Figure FDA0004080011200000021
其中,r表示置信度,←表示指向方向,F指包含三元组<Eni,sigi,j,Enj>的最长搜索路径个数,dk指当前三元组在当前所属三元组中的搜索深度,pk是当前搜索路径总长度,即包含三元组的个数,L是所有最长搜索路径的最大长度,通过参数L将所有的置信度进行归一化,D是数据集中不重复实体的数目。
4.根据权利要求2所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,根据所述数据集的源三元组、隐含三元组构建噪声三元组的方法,包括对三元组随机进行替换头实体<?,r,t>、替换关系<h,?,t>和替换尾实体<h,r,?>中的任一种所得三元组是噪声三元组,将源三元组、隐含三元组、噪声三元组保留在数据集中。
5.根据权利要求2所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,所述网络模型包括TransR网络、残差网络、BiLSTM网络,所述通过网络模型提三元组的初始特征、静态特征以及内部关联特征,包括
通过TransR网络得到源三元组、隐含三元组以及噪声三元组的初始特征;
通过残差网络提取源三元组、隐含三元组以及噪声三元组的静态特征;
通过多层BiLSTM网络提取源三元组、隐含三元组以及噪声三元组的内部关联特征。
6.根据权利要求5所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,TransR模型对源源三元组、隐含三元组以及噪声三元组进行预训练的方法,包括将源三元组、隐含三元组以及噪声三元组的嵌入与三元组的置信度进行内积,得到加权特征向量,所述加权特征向量是所述三元组的初始特征。
7.根据权利要求2所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,特征建模过程中实体关联关系损失和总损失分别由公式(7)和公式(8)表示:
Figure FDA0004080011200000031
Figure FDA0004080011200000032
其中,LEP表示实体关联关系损失,B表示当前训练的输入批次大小,a是所有批次样本的关联深度,yi表示实体关联关系标签,pi表示实体关联关系预测概率。L表示总损失,y-表示三元组质检标签p-j表示神经网络对每个三元组质检分类概率;yj表示特征建模过程中实体关联关系标签,pj表示神经网络对每个实体关联关系预测概率。
8.一种基于带噪声数据集的强鲁棒性知识图谱三元组质检方法,包括
向由权利要求1-7所述训练方法所得优化模型参数的网络模型输入待质检的数据集:
通过所述网络模型提取待质检的数据集中的三元组的初始特征、静态特征以及内部关联特征,聚合得到三元组的融合特征;
根据所述三元组的融合特征,网络模型通过多标签分类算法对实体间关联关系预测,将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分。
9.根据权利要求8所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检方法,其特征在于,通过所述网络模型提取待质检的数据集中的三元组的初始特征、静态特征以及内部关联特征的方法,包括
通过TransR网络得到三元组的初始特征;
通过残差网络提取三元组的静态特征;
通过多层BiLSTM网络提取三元组的内部关联特征。
10.根据权利要求9所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检方法,其特征在于,TransR模型对源三元组、隐含三元组以及噪声三元组进行预训练的方法,包括将源三元组、隐含三元组以及噪声三元组的嵌入与三元组的置信度进行内积,得到加权特征向量,所述加权特征向量是所述三元组的初始特征。
CN202310121294.2A 2023-02-16 2023-02-16 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法 Pending CN116150401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310121294.2A CN116150401A (zh) 2023-02-16 2023-02-16 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310121294.2A CN116150401A (zh) 2023-02-16 2023-02-16 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法

Publications (1)

Publication Number Publication Date
CN116150401A true CN116150401A (zh) 2023-05-23

Family

ID=86355885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310121294.2A Pending CN116150401A (zh) 2023-02-16 2023-02-16 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法

Country Status (1)

Country Link
CN (1) CN116150401A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349386A (zh) * 2023-10-12 2024-01-05 吉玖(天津)技术有限责任公司 一种基于数据强弱关联模型的数字人文应用方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349386A (zh) * 2023-10-12 2024-01-05 吉玖(天津)技术有限责任公司 一种基于数据强弱关联模型的数字人文应用方法
CN117349386B (zh) * 2023-10-12 2024-04-12 吉玖(天津)技术有限责任公司 一种基于数据强弱关联模型的数字人文应用方法

Similar Documents

Publication Publication Date Title
Bai et al. Learning-based efficient graph similarity computation via multi-scale convolutional set matching
CN111783100A (zh) 基于图卷积网络对代码图表示学习的源代码漏洞检测方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN109857457B (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
CN113032238A (zh) 基于应用知识图谱的实时根因分析方法
CN113297429B (zh) 一种基于神经网络架构搜索的社交网络链路预测方法
CN112468487B (zh) 实现模型训练的方法、装置、实现节点检测的方法及装置
CN116340524B (zh) 一种基于关系自适应网络的小样本时态知识图谱补全方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116150401A (zh) 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN116467666A (zh) 一种基于集成学习和主动学习的图异常检测方法和系统
CN113869609A (zh) 一种根因分析频繁子图置信度预测方法及系统
CN113269310A (zh) 基于反事实的图神经网络可解释性方法
CN117009613A (zh) 一种图数据分类方法、系统、装置及介质
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
US20230104345A1 (en) Image attack detection method and apparatus, and image attack detection model training method and apparatus
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
CN114611668A (zh) 一种基于异质信息网络随机游走的向量表示学习方法及系统
Morshed et al. LeL-GNN: Learnable edge sampling and line based graph neural network for link prediction
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN113098867B (zh) 基于人工智能的网络安全大数据处理方法及大数据云系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination