CN114691896B - 一种知识图谱数据清洗方法及装置 - Google Patents

一种知识图谱数据清洗方法及装置 Download PDF

Info

Publication number
CN114691896B
CN114691896B CN202210605957.3A CN202210605957A CN114691896B CN 114691896 B CN114691896 B CN 114691896B CN 202210605957 A CN202210605957 A CN 202210605957A CN 114691896 B CN114691896 B CN 114691896B
Authority
CN
China
Prior art keywords
triples
knowledge graph
knowledge
triple
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210605957.3A
Other languages
English (en)
Other versions
CN114691896A (zh
Inventor
高云君
陈璐
汪鹏飞
葛丛丛
曾晓灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210605957.3A priority Critical patent/CN114691896B/zh
Publication of CN114691896A publication Critical patent/CN114691896A/zh
Application granted granted Critical
Publication of CN114691896B publication Critical patent/CN114691896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种知识图谱数据清洗方法及装置,该方法包括:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。

Description

一种知识图谱数据清洗方法及装置
技术领域
本发明属于知识图谱数据清洗技术领域,尤其涉及一种知识图谱数据清洗方法及装置。
背景技术
近些年,知识图谱因其成功地应用于关系抽取、推荐系统等众多任务而受到越来越多的关注。此外,由于网络资源的庞大,构建知识图谱的过程往往是自动化地以避免人为的监督,从而不可避免地引入各种错误,包括模糊、冲突、错误和冗余信息,知识图谱的质量保证是各种知识驱动应用的前提。因此,如何设计一种通用的、高效的知识图谱数据清洗方法已经成为学术界和工业界的迫切需要。
一方面,过去的方法假设知识图谱是干净的,但由于知识图谱是自动抽取的,噪声不可避免地存在。另一方面,知识图谱嵌入技术近年来受到了广泛地关注,知识图谱嵌入模型的流行源于基于语义的向量表示,可以灵活地应用于各个领域。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
现有的方法将知识图谱嵌入和错误检测独立考虑,然而这两个任务相互依赖、相互影响。一方面,错误检测模型可以为知识图谱嵌入提供可靠的数据;另一方面,嵌入模型学习到的高质量的嵌入为对错误数据的推理识别提供了基础。
发明内容
针对现有技术的不足,本申请实施例的目的是提供一种知识图谱数据清洗方法及装置,以提高知识图谱的质量。
根据本申请实施例的第一方面,提供一种知识图谱数据清洗方法,包括:
获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
进一步地,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:
S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
进一步地,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,包括:
输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;
若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;
若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
进一步地,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度,包括:
将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;
计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;
融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
进一步地,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱,包括:
根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局置信度最高的三元组。
根据本申请实施例的第二方面,提供一种知识图谱数据清洗装置,包括:
获取模块,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;
训练模块,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
分类模块,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
输入模块,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
修复模块,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的知识图谱数据清洗方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述的知识图谱数据清洗方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请训练能够相互促进的一个知识图谱嵌入模型和一个三元组分类模型,前者用于得到知识图谱的嵌入以及后续的错误修复,后者用于错误的检测以及更好地指导知识图谱嵌入模型地训练。两者训练完成后,首先使用训练后的三元组分类模型检测出错误的三元组,接着将错误的三元组输入训练后的知识图谱嵌入模型,得到错误的三元组的全局置信度,根据全局置信度进行错误的修复,可以对修复的结果给用户提供直观的解释,整个过程无需任何的人为介入,从而实现自动、高精度和对用户友好的知识图谱数据清洗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种知识图谱数据清洗方法的流程图。
图2是根据一示例性实施例示出的步骤S12的流程图。
图3是根据一示例性实施例示出的步骤S13的流程图。
图4是根据一示例性实施例示出的步骤S14的流程图。
图5是根据一示例性实施例示出的数据清洗流程的示意图。
图6是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种知识图谱数据清洗方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤S11:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
步骤S12:根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
步骤S13:使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
步骤S14:将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
步骤S15:通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
由上述实施例可知,本申请训练能够相互促进的一个知识图谱嵌入模型和一个三元组分类模型,前者用于得到知识图谱的嵌入以及后续的错误修复,后者用于错误的检测以及更好地指导知识图谱嵌入模型地训练。两者训练完成后,首先使用训练后的三元组分类模型检测出错误的三元组,接着将错误的三元组输入训练后的知识图谱嵌入模型,得到错误的三元组的全局置信度,根据全局置信度进行错误的修复,可以对修复的结果给用户提供直观的解释,整个过程无需任何的人为介入,从而实现自动、高精度和对用户友好的知识图谱数据清洗。
在步骤S11的具体实施中,获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
在具体实施中,输入一个待清洗知识图谱,记作
Figure 263973DEST_PATH_IMAGE001
,其中所述待清洗知识图谱包括 若干知识三元组,每个所述知识三元组包括一个头实体
Figure 712272DEST_PATH_IMAGE002
、一个尾实体
Figure 23168DEST_PATH_IMAGE003
及所述头实体和所 述尾实体之间的关系
Figure 949536DEST_PATH_IMAGE004
,换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO 三元组(Subject-Predicate-Object),其中所述头实体和尾实体是客观存在的具体东西, 通常指实际存在的、起作用的组织、机构、物品、人物等名词。
Figure 297996DEST_PATH_IMAGE005
分别表示实体和关系的 集合,
Figure 651617DEST_PATH_IMAGE006
表示三元组的集合。本方法中不对所述头实体和尾实体做区分,因此统称为实体。 所述知识图谱根据所述实体之间的实体参考关系形成图结构。
在步骤S12的具体实施中,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
具体地,如图2所示,此步骤可以包括以下子步骤:
步骤S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
具体地,初始化三元组的置信度,将所有三元组的置信度
Figure 449809DEST_PATH_IMAGE007
初始化为1,代 表在损失函数中所有三元组对模型优化的影响相同,也就意味着这些三元组对模型参数优 化的影响相同。
步骤S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
具体地,知识的嵌入指的是将实体和关系嵌入到连续向量空间。在一个实施例中, 使用TransE、RotatE等知识图谱嵌入模型将所述知识图谱中的每一个实体和关系映射成向 量,我们通过在知识图谱嵌入模型的损失函数中加入置信度
Figure 179867DEST_PATH_IMAGE007
来减小噪声数据对嵌 入向量的影响,这种策略可以很容易地适用于任何知识图谱嵌入模型。负样本通过替换正 样本的头实体或尾实体得到,负样本
Figure 379904DEST_PATH_IMAGE008
。通过在损失函数中引入置 信度,减少噪声数据对模型优化的影响,
Figure 904427DEST_PATH_IMAGE009
Figure 189915DEST_PATH_IMAGE011
,其中
Figure 458085DEST_PATH_IMAGE012
是间距,
Figure 512628DEST_PATH_IMAGE013
是sigmoid函数,
Figure 473631DEST_PATH_IMAGE014
是知识图谱嵌入模型得分函数。
步骤S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
具体地,对于TransE模型,得分计算方式是
Figure 246415DEST_PATH_IMAGE015
;对于RotatE模型,得分 计算方式是
Figure 52697DEST_PATH_IMAGE016
。其中,
Figure 227327DEST_PATH_IMAGE017
Figure 93651DEST_PATH_IMAGE018
Figure 353731DEST_PATH_IMAGE019
分别是hrt的嵌入,
Figure 963704DEST_PATH_IMAGE020
是哈达玛积运算,
Figure 995770DEST_PATH_IMAGE021
表示L1范式。
步骤S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
具体地,对所有三元组使用知识图谱嵌入模型的得分函数计算得分,得分可以在一定意义上表示样本的正确程度,接着对得分进行降序排序,取前10%的三元组作为正确的三元组。接着,在这些高质量的正确三元组的基础上,进行随机替换,以生成若干错误的三元组。
步骤S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
具体地,半监督辅助变分自编码作为三元组分类模型,此模型由一个生成器
Figure 564155DEST_PATH_IMAGE022
和一 个判别器
Figure 780372DEST_PATH_IMAGE023
组成。生成器
Figure 194036DEST_PATH_IMAGE022
根据隐变量生成并重建数据,判别器
Figure 77678DEST_PATH_IMAGE023
试图从含噪声地三元组中 区分正确的和错误的三元组,将输入的嵌入表示转换成隐变量,并为每个三元组分配一个 置信度来描述其正确性,该判别器用于确定知识图谱嵌入模型损失函数中的置信度
Figure 816964DEST_PATH_IMAGE007
。在训练过程中,使用batch normalization和warm-up等训练技巧让训练过程更 加稳定。
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
具体地,更新S21中初始化的置信度
Figure 786057DEST_PATH_IMAGE007
,不同的三元组拥有不同的置信度, 正确的三元组置信度会比错误的三元组更高,因此错误的三元组在损失函数计算中的影响 较少,这就提高了知识图谱嵌入模型训练的质量。
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
具体地,本实施例中,迭代次数设置为2。在具体实施中,迭代次数可根据实际情况自行设定,该设定为本领域常规手段。
在步骤S13的具体实施中,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
具体地,如图3所示,此步骤可以包括以下子步骤:
步骤S31:输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;
步骤S32:若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;
步骤S33:若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
在步骤S31-步骤S33的具体实施中,使用sigmoid函数将分类器的输出约束在0-1,预定阈值通常设置为0.5,即当三元组的置信度大于等于0.5时,三元组是正确的;当三元组的置信度小于0.5时,三元组的错误的。
在步骤S14的具体实施中,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
具体地,如图4所示,此步骤可以包括以下子步骤:
步骤S41:将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;
具体地,局部置信度代表三元组存在的概率。局部置信度的计算方式与知识图谱 嵌入模型的得分函数计算方式相同,即对于TransE嵌入模型,局部置信度为
Figure 737833DEST_PATH_IMAGE015
;对于RotatE嵌入模型,局部置信度为
Figure 741561DEST_PATH_IMAGE016
步骤S42:计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;
具体地,路径置信度表示三元组对它邻居的影响,其中所述影响可以量化为两个方面,(i)邻居从此三元组流入或流出的可能性,(ii)此三元组和它邻居实体共现的可能性。通过这两方面可以来量化此三元组的存在对它邻居的影响。
步骤S43:融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
具体地,对局部置信度和路径置信度加权求和,在一实施例中,两者的权重都是0.5。给定一个三元组,局部置信度表示其对应嵌入模型的得分函数的得分,路径置信度表示其对周围邻居的影响。同时,局部置信度和全局置信度都与流经三元组的路径有关。知识图谱上的显式路径(即路径中包含的实体和关系)提供了因果证据来解释清洗的结果。如图5所示,噪声三元组(男士B, 导演, 电影F)中实体男士B是错误的,而且它可以被拥有最高置信度的男士A替换以完成修复。此外,此修复对应的路径:(男士A, 导演, 电影F)、(女士E, 合作, 男士A)和(女士E 制片, 电影A),给修复结果提供了直观性的解释。(i)男士A指导了电影F,对应局部置信度;(ii)知道女士E是男士A的合作者,且是电影F的制片人,我们可以好好地猜测一下,男士A是此电影的导演,对应于路径置信度。局部置信度:给定三元组,它的局部置信度可以定义成由关系从头实体到尾实体的概率,换句话说,局部置信度代表三元组存在的概率。路径置信度:给定三元组,它的路径置信度表示成此三元组对它邻居的影响。影响可以量化成两个方面,(i)邻居从此三元组流入或流出的可能性,(ii)此三元组和它邻居实体共现的可能性。
在步骤S15的具体实施中,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
具体地,根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局 置信度最高的三元组。根据修复成本最小化的原则(即通过尽量保留更多的值来更小化对 数据集的影响),假设每个三元组中有且只有一个错误值。我们例举了三种可能发生错误的 场景。对于每个三元组
Figure 386169DEST_PATH_IMAGE024
,(i)如果
Figure 842558DEST_PATH_IMAGE002
是错误值,通过另一个实体
Figure 863604DEST_PATH_IMAGE025
来替换
Figure 190680DEST_PATH_IMAGE002
;(ii)如果
Figure 6189DEST_PATH_IMAGE004
是错误值,通过另一个关系
Figure 949874DEST_PATH_IMAGE026
来替换
Figure 765822DEST_PATH_IMAGE004
;(iii)如果
Figure 478563DEST_PATH_IMAGE003
是错误值,通过另一个实体
Figure 199394DEST_PATH_IMAGE027
来替换
Figure 364796DEST_PATH_IMAGE003
。在这里,我们有意地将原始三元组也作为候选三元组,以减少误分类的影响(如在错误检 测阶段,将干净的三元组检测成噪声三元组),我们希望干净三元组的全局置信度会比其他 候选三元组高。与前述的知识图谱数据清洗方法的实施例相对应,本申请还提供了知识图 谱数据清洗装置的实施例。
图6是根据一示例性实施例示出的一种知识图谱数据清洗装置框图。参照图6,该装置可以包括:
获取模块21,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;
训练模块22,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
分类模块23,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
输入模块24,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
修复模块25,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的知识图谱数据清洗方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的知识图谱数据清洗方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (7)

1.一种知识图谱数据清洗方法,其特征在于,包括:
获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;
根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱;
其中,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:
S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
2.根据权利要求1所述的方法,其特征在于,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,包括:
输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;
若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;
若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
3.根据权利要求1所述的方法,其特征在于,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度,包括:
将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;
计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;
融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
4.根据权利要求1所述的方法,其特征在于,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱,包括:
根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局置信度最高的三元组。
5.一种知识图谱数据清洗装置,其特征在于,包括:
获取模块,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;
训练模块,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;
分类模块,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;
输入模块,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;
修复模块,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱;
其中,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:
S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;
S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;
S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;
S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;
S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;
S26:根据更新后的置信度,训练所述知识图谱嵌入模型;
S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22-S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的知识图谱数据清洗方法。
7.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-4中任一项所述的知识图谱数据清洗方法的步骤。
CN202210605957.3A 2022-05-31 2022-05-31 一种知识图谱数据清洗方法及装置 Active CN114691896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210605957.3A CN114691896B (zh) 2022-05-31 2022-05-31 一种知识图谱数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210605957.3A CN114691896B (zh) 2022-05-31 2022-05-31 一种知识图谱数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN114691896A CN114691896A (zh) 2022-07-01
CN114691896B true CN114691896B (zh) 2022-09-13

Family

ID=82131406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210605957.3A Active CN114691896B (zh) 2022-05-31 2022-05-31 一种知识图谱数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN114691896B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182245A (zh) * 2020-09-28 2021-01-05 中国科学院计算技术研究所 一种知识图谱嵌入模型的训练方法、系统和电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474949B2 (en) * 2014-08-19 2019-11-12 Qualcomm Incorporated Knowledge-graph biased classification for data
US10607142B2 (en) * 2016-08-31 2020-03-31 International Business Machines Corporation Responding to user input based on confidence scores assigned to relationship entries in a knowledge graph
CN108463818A (zh) * 2016-10-31 2018-08-28 微软技术许可有限责任公司 建立和更新连接分段图谱
US11995564B2 (en) * 2018-06-21 2024-05-28 Samsung Electronics Co., Ltd. System and method for generating aspect-enhanced explainable description-based recommendations
CN109376249B (zh) * 2018-09-07 2021-11-30 桂林电子科技大学 一种基于自适应负采样的知识图谱嵌入方法
CN109840283B (zh) * 2019-03-01 2020-09-01 东北大学 一种基于传递关系的本地自适应知识图谱优化方法
CN110222148B (zh) * 2019-05-17 2021-05-04 北京邮电大学 适用于语法分析的置信度评估方法及装置
CN110704634B (zh) * 2019-09-06 2023-08-01 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN111737481B (zh) * 2019-10-10 2024-03-01 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN111221981B (zh) * 2019-12-31 2023-12-29 腾讯科技(深圳)有限公司 知识图谱嵌入模型的训练方法、装置和计算机存储介质
CN111274407B (zh) * 2020-01-15 2023-07-07 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
US11226859B2 (en) * 2020-01-26 2022-01-18 Microsoft Technology Licensing, Llc Systems and methods for error recovery
KR102317358B1 (ko) * 2020-03-06 2021-10-25 숭실대학교산학협력단 임베딩 및 적응형 클러스터링 기반 지식 그래프의 오류 트리플 검출 방법 및 장치
CN112559759A (zh) * 2020-12-03 2021-03-26 云知声智能科技股份有限公司 一种识别知识图谱中错误关系的方法和设备
CN112732931A (zh) * 2021-01-08 2021-04-30 中国人民解放军国防科技大学 一种用于知识图谱的噪音检测及知识完成的方法和设备
CN112819162B (zh) * 2021-02-02 2024-02-27 东北大学 一种知识图谱三元组的质检方法
CN113051904B (zh) * 2021-04-21 2022-11-18 东南大学 一种面向小规模知识图谱的链接预测方法
CN113886603A (zh) * 2021-10-19 2022-01-04 北京计算机技术及应用研究所 一种融合推理机的知识图谱构建方法
CN114077676B (zh) * 2021-11-23 2022-09-30 郑州轻工业大学 一种基于路径置信度的知识图谱噪声检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182245A (zh) * 2020-09-28 2021-01-05 中国科学院计算技术研究所 一种知识图谱嵌入模型的训练方法、系统和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于相似性负采样的知识图谱嵌入;饶官军等;《智能系统学报》;20200331;第15卷(第2期);第218-226页 *
融合实体描述及类型的知识图谱表示学习方法;杜文倩等;《中文信息学报》;20200731;第34卷(第7期);第50-59页 *

Also Published As

Publication number Publication date
CN114691896A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
Chen et al. Order-free rnn with visual attention for multi-label classification
Zhu et al. Detecting corrupted labels without training a model to predict
CN109741292A (zh) 用对抗自编码器检测第一图像数据集当中异常图像的方法
US20140114896A1 (en) Performing multistep prediction using spatial and temporal memory system
Nishida Learning and detecting concept drift
JP2020024534A (ja) 画像分類装置及びプログラム
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
Levinboim et al. Quality estimation for image captions based on large-scale human evaluations
CN115391588B (zh) 视觉语言预训练模型的微调方法和图文检索方法
CN116403262A (zh) 一种基于机器视觉的在线学习专注度监测方法、系统及介质
Kansizoglou et al. Haseparator: Hyperplane-assisted softmax
Schoonbeek et al. Industreal: A dataset for procedure step recognition handling execution errors in egocentric videos in an industrial-like setting
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN114691896B (zh) 一种知识图谱数据清洗方法及装置
CN116049371A (zh) 一种基于正则化和对偶学习的视觉问答方法与装置
Sannen et al. An on-line interactive self-adaptive image classification framework
CN115410250A (zh) 阵列式人脸美丽预测方法、设备及存储介质
Hu et al. MILD: modeling the instance learning dynamics for learning with noisy labels
JP2007213441A (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
CN114445649A (zh) 用多尺度超像素融合检测rgb-d单幅图像阴影的方法
Bhattacharjee et al. Active learning for imbalanced domains: the ALOD and ALOD-RE algorithms
Romain et al. Semi-supervised learning through adversary networks for baseline detection
Hussein et al. Detecting incorrect visual demonstrations for improved policy learning
Molnár et al. Constellation Recognition on Digital Images
Zhang et al. CoLafier: Co llaborative Noisy La bel Puri fier With Local Intrinsic Dimensionality Guidance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant