CN114691896B - 一种知识图谱数据清洗方法及装置 - Google Patents
一种知识图谱数据清洗方法及装置 Download PDFInfo
- Publication number
- CN114691896B CN114691896B CN202210605957.3A CN202210605957A CN114691896B CN 114691896 B CN114691896 B CN 114691896B CN 202210605957 A CN202210605957 A CN 202210605957A CN 114691896 B CN114691896 B CN 114691896B
- Authority
- CN
- China
- Prior art keywords
- triples
- knowledge graph
- knowledge
- triple
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004140 cleaning Methods 0.000 title claims abstract description 15
- 238000013145 classification model Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 18
- 230000001737 promoting effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008439 repair process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种知识图谱数据清洗方法及装置,该方法包括:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
Description
技术领域
本发明属于知识图谱数据清洗技术领域,尤其涉及一种知识图谱数据清洗方法及装置。
背景技术
近些年,知识图谱因其成功地应用于关系抽取、推荐系统等众多任务而受到越来越多的关注。此外,由于网络资源的庞大,构建知识图谱的过程往往是自动化地以避免人为的监督,从而不可避免地引入各种错误,包括模糊、冲突、错误和冗余信息,知识图谱的质量保证是各种知识驱动应用的前提。因此,如何设计一种通用的、高效的知识图谱数据清洗方法已经成为学术界和工业界的迫切需要。
一方面,过去的方法假设知识图谱是干净的,但由于知识图谱是自动抽取的,噪声不可避免地存在。另一方面,知识图谱嵌入技术近年来受到了广泛地关注,知识图谱嵌入模型的流行源于基于语义的向量表示,可以灵活地应用于各个领域。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
现有的方法将知识图谱嵌入和错误检测独立考虑,然而这两个任务相互依赖、相互影响。一方面,错误检测模型可以为知识图谱嵌入提供可靠的数据;另一方面,嵌入模型学习到的高质量的嵌入为对错误数据的推理识别提供了基础。
发明内容
针对现有技术的不足,本申请实施例的目的是提供一种知识图谱数据清洗方法及装置,以提高知识图谱的质量。
根据本申请实施例的第一方面,提供一种知识图谱数据清洗方法,包括:
获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
进一步地,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:
S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
进一步地,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,包括:
输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;
若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;
若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
进一步地,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度,包括:
将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;
计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;
融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
进一步地,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱,包括:
根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局置信度最高的三元组。
根据本申请实施例的第二方面,提供一种知识图谱数据清洗装置,包括:
获取模块,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;
训练模块,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
分类模块,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
输入模块,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
修复模块,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的知识图谱数据清洗方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述的知识图谱数据清洗方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请训练能够相互促进的一个知识图谱嵌入模型和一个三元组分类模型,前者用于得到知识图谱的嵌入以及后续的错误修复,后者用于错误的检测以及更好地指导知识图谱嵌入模型地训练。两者训练完成后,首先使用训练后的三元组分类模型检测出错误的三元组,接着将错误的三元组输入训练后的知识图谱嵌入模型,得到错误的三元组的全局置信度,根据全局置信度进行错误的修复,可以对修复的结果给用户提供直观的解释,整个过程无需任何的人为介入,从而实现自动、高精度和对用户友好的知识图谱数据清洗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种知识图谱数据清洗方法的流程图。
图2是根据一示例性实施例示出的步骤S12的流程图。
图3是根据一示例性实施例示出的步骤S13的流程图。
图4是根据一示例性实施例示出的步骤S14的流程图。
图5是根据一示例性实施例示出的数据清洗流程的示意图。
图6是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种知识图谱数据清洗方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤S11:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
步骤S12:根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
步骤S13:使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
步骤S14:将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
步骤S15:通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
由上述实施例可知,本申请训练能够相互促进的一个知识图谱嵌入模型和一个三元组分类模型,前者用于得到知识图谱的嵌入以及后续的错误修复,后者用于错误的检测以及更好地指导知识图谱嵌入模型地训练。两者训练完成后,首先使用训练后的三元组分类模型检测出错误的三元组,接着将错误的三元组输入训练后的知识图谱嵌入模型,得到错误的三元组的全局置信度,根据全局置信度进行错误的修复,可以对修复的结果给用户提供直观的解释,整个过程无需任何的人为介入,从而实现自动、高精度和对用户友好的知识图谱数据清洗。
在步骤S11的具体实施中,获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
在具体实施中,输入一个待清洗知识图谱,记作,其中所述待清洗知识图谱包括
若干知识三元组,每个所述知识三元组包括一个头实体、一个尾实体及所述头实体和所
述尾实体之间的关系,换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO
三元组(Subject-Predicate-Object),其中所述头实体和尾实体是客观存在的具体东西,
通常指实际存在的、起作用的组织、机构、物品、人物等名词。分别表示实体和关系的
集合,表示三元组的集合。本方法中不对所述头实体和尾实体做区分,因此统称为实体。
所述知识图谱根据所述实体之间的实体参考关系形成图结构。
在步骤S12的具体实施中,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
具体地,如图2所示,此步骤可以包括以下子步骤:
步骤S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
步骤S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
具体地,知识的嵌入指的是将实体和关系嵌入到连续向量空间。在一个实施例中,
使用TransE、RotatE等知识图谱嵌入模型将所述知识图谱中的每一个实体和关系映射成向
量,我们通过在知识图谱嵌入模型的损失函数中加入置信度来减小噪声数据对嵌
入向量的影响,这种策略可以很容易地适用于任何知识图谱嵌入模型。负样本通过替换正
样本的头实体或尾实体得到,负样本。通过在损失函数中引入置
信度,减少噪声数据对模型优化的影响, ,其中
是间距,是sigmoid函数,是知识图谱嵌入模型得分函数。
步骤S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
步骤S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
具体地,对所有三元组使用知识图谱嵌入模型的得分函数计算得分,得分可以在一定意义上表示样本的正确程度,接着对得分进行降序排序,取前10%的三元组作为正确的三元组。接着,在这些高质量的正确三元组的基础上,进行随机替换,以生成若干错误的三元组。
步骤S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
具体地,半监督辅助变分自编码作为三元组分类模型,此模型由一个生成器和一
个判别器组成。生成器根据隐变量生成并重建数据,判别器试图从含噪声地三元组中
区分正确的和错误的三元组,将输入的嵌入表示转换成隐变量,并为每个三元组分配一个
置信度来描述其正确性,该判别器用于确定知识图谱嵌入模型损失函数中的置信度。在训练过程中,使用batch normalization和warm-up等训练技巧让训练过程更
加稳定。
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
具体地,本实施例中,迭代次数设置为2。在具体实施中,迭代次数可根据实际情况自行设定,该设定为本领域常规手段。
在步骤S13的具体实施中,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
具体地,如图3所示,此步骤可以包括以下子步骤:
步骤S31:输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;
步骤S32:若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;
步骤S33:若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
在步骤S31-步骤S33的具体实施中,使用sigmoid函数将分类器的输出约束在0-1,预定阈值通常设置为0.5,即当三元组的置信度大于等于0.5时,三元组是正确的;当三元组的置信度小于0.5时,三元组的错误的。
在步骤S14的具体实施中,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
具体地,如图4所示,此步骤可以包括以下子步骤:
步骤S41:将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;
步骤S42:计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;
具体地,路径置信度表示三元组对它邻居的影响,其中所述影响可以量化为两个方面,(i)邻居从此三元组流入或流出的可能性,(ii)此三元组和它邻居实体共现的可能性。通过这两方面可以来量化此三元组的存在对它邻居的影响。
步骤S43:融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
具体地,对局部置信度和路径置信度加权求和,在一实施例中,两者的权重都是0.5。给定一个三元组,局部置信度表示其对应嵌入模型的得分函数的得分,路径置信度表示其对周围邻居的影响。同时,局部置信度和全局置信度都与流经三元组的路径有关。知识图谱上的显式路径(即路径中包含的实体和关系)提供了因果证据来解释清洗的结果。如图5所示,噪声三元组(男士B, 导演, 电影F)中实体男士B是错误的,而且它可以被拥有最高置信度的男士A替换以完成修复。此外,此修复对应的路径:(男士A, 导演, 电影F)、(女士E, 合作, 男士A)和(女士E 制片, 电影A),给修复结果提供了直观性的解释。(i)男士A指导了电影F,对应局部置信度;(ii)知道女士E是男士A的合作者,且是电影F的制片人,我们可以好好地猜测一下,男士A是此电影的导演,对应于路径置信度。局部置信度:给定三元组,它的局部置信度可以定义成由关系从头实体到尾实体的概率,换句话说,局部置信度代表三元组存在的概率。路径置信度:给定三元组,它的路径置信度表示成此三元组对它邻居的影响。影响可以量化成两个方面,(i)邻居从此三元组流入或流出的可能性,(ii)此三元组和它邻居实体共现的可能性。
在步骤S15的具体实施中,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
具体地,根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局
置信度最高的三元组。根据修复成本最小化的原则(即通过尽量保留更多的值来更小化对
数据集的影响),假设每个三元组中有且只有一个错误值。我们例举了三种可能发生错误的
场景。对于每个三元组,(i)如果是错误值,通过另一个实体来替换;(ii)如果是错误值,通过另一个关系来替换;(iii)如果是错误值,通过另一个实体来替换。在这里,我们有意地将原始三元组也作为候选三元组,以减少误分类的影响(如在错误检
测阶段,将干净的三元组检测成噪声三元组),我们希望干净三元组的全局置信度会比其他
候选三元组高。与前述的知识图谱数据清洗方法的实施例相对应,本申请还提供了知识图
谱数据清洗装置的实施例。
图6是根据一示例性实施例示出的一种知识图谱数据清洗装置框图。参照图6,该装置可以包括:
获取模块21,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;
训练模块22,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
分类模块23,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
输入模块24,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
修复模块25,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的知识图谱数据清洗方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的知识图谱数据清洗方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (7)
1.一种知识图谱数据清洗方法,其特征在于,包括:
获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱;
其中,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:
S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
2.根据权利要求1所述的方法,其特征在于,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,包括:
输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;
若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;
若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
3.根据权利要求1所述的方法,其特征在于,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度,包括:
将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;
计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;
融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
4.根据权利要求1所述的方法,其特征在于,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱,包括:
根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局置信度最高的三元组。
5.一种知识图谱数据清洗装置,其特征在于,包括:
获取模块,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;
训练模块,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
分类模块,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
输入模块,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
修复模块,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱;
其中,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:
S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的知识图谱数据清洗方法。
7.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-4中任一项所述的知识图谱数据清洗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210605957.3A CN114691896B (zh) | 2022-05-31 | 2022-05-31 | 一种知识图谱数据清洗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210605957.3A CN114691896B (zh) | 2022-05-31 | 2022-05-31 | 一种知识图谱数据清洗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114691896A CN114691896A (zh) | 2022-07-01 |
CN114691896B true CN114691896B (zh) | 2022-09-13 |
Family
ID=82131406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210605957.3A Active CN114691896B (zh) | 2022-05-31 | 2022-05-31 | 一种知识图谱数据清洗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114691896B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182245A (zh) * | 2020-09-28 | 2021-01-05 | 中国科学院计算技术研究所 | 一种知识图谱嵌入模型的训练方法、系统和电子设备 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474949B2 (en) * | 2014-08-19 | 2019-11-12 | Qualcomm Incorporated | Knowledge-graph biased classification for data |
US10607142B2 (en) * | 2016-08-31 | 2020-03-31 | International Business Machines Corporation | Responding to user input based on confidence scores assigned to relationship entries in a knowledge graph |
CN108463818A (zh) * | 2016-10-31 | 2018-08-28 | 微软技术许可有限责任公司 | 建立和更新连接分段图谱 |
US11995564B2 (en) * | 2018-06-21 | 2024-05-28 | Samsung Electronics Co., Ltd. | System and method for generating aspect-enhanced explainable description-based recommendations |
CN109376249B (zh) * | 2018-09-07 | 2021-11-30 | 桂林电子科技大学 | 一种基于自适应负采样的知识图谱嵌入方法 |
CN109840283B (zh) * | 2019-03-01 | 2020-09-01 | 东北大学 | 一种基于传递关系的本地自适应知识图谱优化方法 |
CN110222148B (zh) * | 2019-05-17 | 2021-05-04 | 北京邮电大学 | 适用于语法分析的置信度评估方法及装置 |
CN110704634B (zh) * | 2019-09-06 | 2023-08-01 | 平安科技(深圳)有限公司 | 知识图谱链接错误的查修方法、装置及存储介质 |
CN111737481B (zh) * | 2019-10-10 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 知识图谱的降噪方法、装置、设备和存储介质 |
CN111221981B (zh) * | 2019-12-31 | 2023-12-29 | 腾讯科技(深圳)有限公司 | 知识图谱嵌入模型的训练方法、装置和计算机存储介质 |
CN111274407B (zh) * | 2020-01-15 | 2023-07-07 | 北京百度网讯科技有限公司 | 知识图谱中三元组置信度计算方法和装置 |
US11226859B2 (en) * | 2020-01-26 | 2022-01-18 | Microsoft Technology Licensing, Llc | Systems and methods for error recovery |
KR102317358B1 (ko) * | 2020-03-06 | 2021-10-25 | 숭실대학교산학협력단 | 임베딩 및 적응형 클러스터링 기반 지식 그래프의 오류 트리플 검출 방법 및 장치 |
CN112559759A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 一种识别知识图谱中错误关系的方法和设备 |
CN112732931A (zh) * | 2021-01-08 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种用于知识图谱的噪音检测及知识完成的方法和设备 |
CN112819162B (zh) * | 2021-02-02 | 2024-02-27 | 东北大学 | 一种知识图谱三元组的质检方法 |
CN113051904B (zh) * | 2021-04-21 | 2022-11-18 | 东南大学 | 一种面向小规模知识图谱的链接预测方法 |
CN113886603A (zh) * | 2021-10-19 | 2022-01-04 | 北京计算机技术及应用研究所 | 一种融合推理机的知识图谱构建方法 |
CN114077676B (zh) * | 2021-11-23 | 2022-09-30 | 郑州轻工业大学 | 一种基于路径置信度的知识图谱噪声检测方法 |
-
2022
- 2022-05-31 CN CN202210605957.3A patent/CN114691896B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182245A (zh) * | 2020-09-28 | 2021-01-05 | 中国科学院计算技术研究所 | 一种知识图谱嵌入模型的训练方法、系统和电子设备 |
Non-Patent Citations (2)
Title |
---|
基于相似性负采样的知识图谱嵌入;饶官军等;《智能系统学报》;20200331;第15卷(第2期);第218-226页 * |
融合实体描述及类型的知识图谱表示学习方法;杜文倩等;《中文信息学报》;20200731;第34卷(第7期);第50-59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114691896A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Order-free rnn with visual attention for multi-label classification | |
Zhu et al. | Detecting corrupted labels without training a model to predict | |
CN109741292A (zh) | 用对抗自编码器检测第一图像数据集当中异常图像的方法 | |
US20140114896A1 (en) | Performing multistep prediction using spatial and temporal memory system | |
Nishida | Learning and detecting concept drift | |
JP2020024534A (ja) | 画像分類装置及びプログラム | |
JP7268756B2 (ja) | 劣化抑制プログラム、劣化抑制方法および情報処理装置 | |
Levinboim et al. | Quality estimation for image captions based on large-scale human evaluations | |
CN115391588B (zh) | 视觉语言预训练模型的微调方法和图文检索方法 | |
CN116403262A (zh) | 一种基于机器视觉的在线学习专注度监测方法、系统及介质 | |
Kansizoglou et al. | Haseparator: Hyperplane-assisted softmax | |
Schoonbeek et al. | Industreal: A dataset for procedure step recognition handling execution errors in egocentric videos in an industrial-like setting | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN114691896B (zh) | 一种知识图谱数据清洗方法及装置 | |
CN116049371A (zh) | 一种基于正则化和对偶学习的视觉问答方法与装置 | |
Sannen et al. | An on-line interactive self-adaptive image classification framework | |
CN115410250A (zh) | 阵列式人脸美丽预测方法、设备及存储介质 | |
Hu et al. | MILD: modeling the instance learning dynamics for learning with noisy labels | |
JP2007213441A (ja) | 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム | |
CN114445649A (zh) | 用多尺度超像素融合检测rgb-d单幅图像阴影的方法 | |
Bhattacharjee et al. | Active learning for imbalanced domains: the ALOD and ALOD-RE algorithms | |
Romain et al. | Semi-supervised learning through adversary networks for baseline detection | |
Hussein et al. | Detecting incorrect visual demonstrations for improved policy learning | |
Molnár et al. | Constellation Recognition on Digital Images | |
Zhang et al. | CoLafier: Co llaborative Noisy La bel Puri fier With Local Intrinsic Dimensionality Guidance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |