CN113569062A - 一种知识图谱补全方法与系统 - Google Patents

一种知识图谱补全方法与系统 Download PDF

Info

Publication number
CN113569062A
CN113569062A CN202111126880.3A CN202111126880A CN113569062A CN 113569062 A CN113569062 A CN 113569062A CN 202111126880 A CN202111126880 A CN 202111126880A CN 113569062 A CN113569062 A CN 113569062A
Authority
CN
China
Prior art keywords
entity
knowledge graph
candidate
vector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111126880.3A
Other languages
English (en)
Inventor
邵俊
蔺静茹
李骏琪
万友平
蔡艺齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co ltd filed Critical Shenzhen Suoxinda Data Technology Co ltd
Priority to CN202111126880.3A priority Critical patent/CN113569062A/zh
Publication of CN113569062A publication Critical patent/CN113569062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种知识图谱补全方法与系统,该方法包括:获取知识图谱三元组的正样本和负样本;构建初步向量化模型,对知识图谱中的每个实体或关系进行初步向量化,得到每个实体或关系对应的初级向量;将初级向量与外部预训练模型进行二次向量化处理,得到知识图谱中的每个实体或关系对应的二级向量,将二级向量作为自变量,正样本和负样本作为标签,训练神经网络模型;从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组并代入训练后的神经网络模型,获取知识图谱补全结果。本发明可以使得实体链接更加可靠,增加了内部知识与外部知识的融合;对于近义词的识别准确率更高;可以迅速地为知识图谱的补全引入外部的知识。

Description

一种知识图谱补全方法与系统
技术领域
本发明属于大数据分析与数据挖掘领域,尤其涉及一种知识图谱补全方法与系统。
背景技术
知识图谱是一种通过大量实体与实体间关系形成的语义网络,其旨在构建一个结构化信息的数据库,将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体,将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图,其中实体是图中的节点,而关系则作为图中的边。在知识图谱中,世界的海量知识被表示为实体之间利用关系作为连接的三元组(Triplet)。在通过语料自动构建知识图谱的过程中,常常会出现缺失实体之间的关系,或已知头实体和关系缺少尾实体的情况,从而需要做知识图谱的补全。知识图谱补全旨在寻找出知识图谱中三元组(头实体,关系,尾实体)中缺失的部分,从而使知识图谱变得更加完整。常用的补全方法会基于知识图谱的向量化表示方法,将知识图谱中的实体和关系转化成向量。
如现有技术公开号为CN112000815A中,一般会通过构建三元组的损失函数并构造正负样本及其目标函数,对实体和关系的向量化进行训练,并将向量化结果带入损失函数得到三元组成立的置信度从而完成知识图谱的补全。然而这样的表示学习方法没有将大量的外部知识引入到知识图谱当中,使得知识图谱的表示能力非常局限,导致知识图谱补全的效果不佳。事实上,外部世界已经存在着如GPT3这样的大规模的预训练模型,这些模型蕴含了非常丰富的外部知识,如果不能将其应用起来,图谱补全的效果将大打折扣。
CN113360664A公开了一种知识图谱补全方法,后基于文本嵌入方式获取每个关系的向量初始化,再将每个关系的向量初始化输入到下载知识图谱中,得到新的知识图谱;用户提供待补全的三元组,将其头实体和尾实体输入至MSNN网络,在MSNN网络内,通过两个并行的子网络分别提取实体的上下文信息和关系路径特征;最后根据上下文信息和关系路径特征推断出缺失的关系,并补全到原知识图谱中。然而,该方案虽然将通过文本嵌入方式得到的每个关系的向量输入到知识图谱中,但是其并未通过文本训练得到头尾实体的向量,导致该重大的有效信息没能得到有效使用,从而使得补全模型的精准度提升效果有限。
因此,如何在提升知识图谱的补全效果的同时提高补全模型的准确度是目前该领域亟待解决的问题。
发明内容
针对上述现有技术中存在的缺陷,本发明提出一种将外部的预训练模型引入到知识图谱的补全当中的方法,可以有效利用通过文本训练得到头尾实体的向量,从而提高补全模型的精准度。就此,本发明提供一种知识图谱补全方法,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于Hinge Loss目标函数,构建初步向量化模型,对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;
步骤S105、将上述初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量,将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
步骤S107、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;
步骤S109、将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
在某一实施例中,将所述正样本中的头实体、尾实体或关系进行随机替换,生成负样本。
在某一实施例中,所述初步向量化模型基于TransE的向量表示,具体为:
Figure 837994DEST_PATH_IMAGE001
式中,<h, r, t>为三元组,h为头实体,r为关系,t为尾实体,l2指欧氏距离,其表 达式为
Figure 378303DEST_PATH_IMAGE002
,其中n代表向量X的长度,1≤i≤n,Xi为X的第i个分量。
在某一实施例中,所述Hinge Loss目标函数具体为:
Figure 439931DEST_PATH_IMAGE003
式中,
Figure 631878DEST_PATH_IMAGE004
是间隔参数,S是正样本集合;
Figure 102043DEST_PATH_IMAGE005
是负样本集合,
Figure 541815DEST_PATH_IMAGE006
为负样本集合中的头 实体,
Figure 667903DEST_PATH_IMAGE007
为负样本集合中的尾实体。
在某一实施例中,其中所述外部预训练模型为GPT3模型。
在某一实施例中,所述神经网络模型从如下数据集来构建:
数据集的目标变量是三元组是否成立,若成立输出为0,不成立输出为1;
数据集的特征变量是三元组的词嵌入向量的组合。
在某一实施例中,所述二次向量化处理包括:
假设所述知识图谱中涉及到的实体和关系总数为n,并按任意顺序排序记为
Figure 165005DEST_PATH_IMAGE008
对所有的实体或关系
Figure 224097DEST_PATH_IMAGE009
(1≤i≤n),将得到的初级向量
Figure 840630DEST_PATH_IMAGE010
与通过外部预训练模 型得到的二级向量
Figure 391697DEST_PATH_IMAGE011
进行按行拼接得到
Figure 784501DEST_PATH_IMAGE012
,如果
Figure 74930DEST_PATH_IMAGE010
的长度为a,
Figure 832671DEST_PATH_IMAGE011
的长度为b,那么拼接后的 向量
Figure 730088DEST_PATH_IMAGE012
长度为a+b;
将得到的向量
Figure 40765DEST_PATH_IMAGE012
进行首尾拼接,得到一个n*(a+b)的矩阵Q;
使用自编码器对矩阵Q进行降维,将n*(a+b)的矩阵Q压缩为n*a的矩阵P,得到了知识图谱的新的表示:
Mi的表示为Pi,其长度仍然为a,实体和关系的总数为n。
在某一实施例中,步骤S105中训练神经网络模型包括:
假定训练具有1个隐藏层,输出为0或1的神经网络,则假设输入变量为
Figure 340028DEST_PATH_IMAGE013
,权重矩阵
Figure 206353DEST_PATH_IMAGE014
,其中,n为向量的长度,m为隐藏层 的单元的个数,k和i为遍历使用的参数;
Figure 826952DEST_PATH_IMAGE015
为激活函数;
那么得到的隐藏层变量为:
Figure 436925DEST_PATH_IMAGE016
设隐藏层对应的权重矩阵为
Figure 89230DEST_PATH_IMAGE017
那么输出正例的概率为
Figure 392035DEST_PATH_IMAGE018
输出反例的概率为
Figure 670570DEST_PATH_IMAGE019
使用基于极大似然估计的损失函数和反向梯度传播算法,训练所述神经网络,求解出参数。
在某一实施例中,基于极大似然估计的损失函数为:
Figure 710332DEST_PATH_IMAGE020
式中,N为训练集的所有样本,
Figure 453029DEST_PATH_IMAGE021
为第i个样本通过该训练得到的神经网络输出的训练出的数值,即
Figure 567483DEST_PATH_IMAGE022
Figure 395631DEST_PATH_IMAGE023
表示第i个样本的实际标签,即0或1。
在某一实施例中,将所述候选三元组代入所述神经网络模型,获取知识图谱补全结果具体包括:
所述候选三元组代入上述神经网络模型,得到相应数值;
选取数值最高的三元组,作为最终的补全结果。
本发明还提出了一种知识图谱补全系统,其包括:
样本获取模块,其获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
模型构建模块,其基于Hinge Loss目标函数,构建初步向量化模型;
向量处理模块,其对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;并将初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量;
模型训练模块,其将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
图谱补全模块,其从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;并将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
与现有技术相比,通过本发明,使得实体链接更加可靠,增加了内部知识与外部知识的融合;对于近义词的识别准确率更高;通过这种方法可以更加迅速地为知识图谱的补全引入外部的知识。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的知识图谱补全方法的流程图;
图2是示出根据本发明实施例的对矩阵降维的示意图;
图3是示出根据本发明实施例的知识图谱补全系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例一、
如图1所示,本发明公开了一种知识图谱补全方法,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于Hinge Loss目标函数,构建初步向量化模型,对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;
步骤S105、将上述初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量,将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
步骤S107、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;
步骤S109、将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
实施例二、
一种知识图谱补全方法,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于Hinge Loss目标函数,构建初步向量化模型,对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;
步骤S105、将上述初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量,将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
步骤S107、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;
步骤S109、将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
本实施例中的正样本是指正确的三元组,其通过人工确定为正确的,在知识图谱中已经构建好的三元组。本实施例将所述正样本中的头尾实体或关系进行随机替换,生成负样本。即负样本为事实不成立的样本。
在实际应用场景中,本实施例的所述初步向量化模型基于TransE的向量表示,具体为:
Figure 848871DEST_PATH_IMAGE024
式中,<h, r, t>为三元组,h为头实体,r为关系,t为尾实体,l2指欧氏距离,其表 达式为
Figure 446074DEST_PATH_IMAGE025
,其中,1≤i≤n,n代表向量X的长度,Xi为X的第i个分量。
本实施例在构建初步向量化模型时,所基于的Hinge Loss目标函数具体为:
Figure 182693DEST_PATH_IMAGE026
式中,
Figure 560453DEST_PATH_IMAGE027
是间隔参数,S是正样本集合;
Figure 879702DEST_PATH_IMAGE028
是负样本集合,其为对头尾实体或关系随 机替换后构造的三元组,
Figure 269095DEST_PATH_IMAGE029
为负样本集合中的头实体,
Figure 916895DEST_PATH_IMAGE030
为负样本集合中的尾实体。
上述训练过程在于使得上述目标函数L尽可能小。
本实施例的所述外部预训练模型可以为GPT3模型;在一个应用场景中,本实施例使用的外部预训练模型GPT3,可以将每个中文词汇映射为一个12288维度的向量。
本实施例的所述神经网络模型从如下数据集来构建:
数据集的目标变量是三元组是否成立,若成立输出为0,不成立输出为1;
数据集的特征变量是三元组的词嵌入向量的组合。
本实施例的步骤S105中的所述二次向量化处理可以包括:
假设所述知识图谱中涉及到的实体和关系总数为n,并按任意顺序排序记为
Figure 719634DEST_PATH_IMAGE031
对所有的实体或关系
Figure 639311DEST_PATH_IMAGE032
(1≤i≤n),将得到的初级向量
Figure 617631DEST_PATH_IMAGE033
与通过外部预训练模 型得到的二级向量
Figure 197517DEST_PATH_IMAGE034
进行按行拼接得到
Figure 392613DEST_PATH_IMAGE035
,如果
Figure 21040DEST_PATH_IMAGE033
的长度为a,
Figure 385026DEST_PATH_IMAGE034
的长度为b,那么拼接后的 向量
Figure 542338DEST_PATH_IMAGE035
长度为a+b;
将得到的向量
Figure 86714DEST_PATH_IMAGE035
进行首尾拼接,得到一个n*(a+b)的矩阵Q;
使用自编码器对矩阵Q进行降维,将n*(a+b)的矩阵Q压缩为n*a的矩阵P,得到了知识图谱的新的表示:
Mi的表示为Pi,其长度仍然为a,实体和关系的总数为n。
上述的二次向量化处理结合了文本预训练模型(外部预训练模型)的向量表示与基于知识图谱三元组训练的向量表示,通过降维方法,使得降维后的向量长度仍然与初级向量的长度一致,但包含了更加丰富的信息,对于后续神经网络建模的精准性有极大的帮助。
步骤S105中,本实施例在进行二次向量化处理,并得到所述知识图谱中的每个实体或关系对应的二级向量后,训练神经网络模型可以包括:
假定训练具有1个隐藏层,输出为0或1的神经网络,则假设输入变量为
Figure 518832DEST_PATH_IMAGE036
,权重矩阵
Figure 471744DEST_PATH_IMAGE037
,其中,n为向量的长度,m为隐藏 层的单元的个数,k和i为遍历使用的参数;
Figure 3220DEST_PATH_IMAGE038
为激活函数,其中,e为自然常数;
那么得到的隐藏层变量为:
Figure 167049DEST_PATH_IMAGE039
设隐藏层对应的权重矩阵为
Figure 137279DEST_PATH_IMAGE040
那么输出正例的概率为
Figure 475856DEST_PATH_IMAGE041
输出反例的概率为
Figure 506129DEST_PATH_IMAGE042
使用基于极大似然估计的损失函数和反向梯度传播算法,训练所述神经网络,求解出参数。
本发明实施例由于训练该神经网络模型的输入为进行二次向量化处理之后的向量,通过使用这些输入向量训练得到的神经网络模型预测三元组是否为真,其预测效果更佳。
本实施例中基于极大似然估计的损失函数为:
Figure 166043DEST_PATH_IMAGE043
式中,N为训练集的所有样本,
Figure 939964DEST_PATH_IMAGE044
为第i个样本通过该训练得到的神经网络输出的训练出的数值,即
Figure 460944DEST_PATH_IMAGE045
Figure 160653DEST_PATH_IMAGE046
表示第i个样本的实际标签,即0或1。
本实施例的步骤S109中,将所述候选三元组代入所述神经网络模型,获取知识图谱补全结果具体可以包括:
所述候选三元组代入上述神经网络模型,得到相应数值;
选取数值最高的三元组,作为最终的补全结果。
实施例三、
在本实施例中,自编码网络本质上是一类无监督学习,通过降维提取变量的主特征,以减弱相关变量之间的两两影响。通过自编码网络提取矩阵Q的主要特征,并基于提取的矩阵特征进行聚类,结合三元组是否成立的标签对这些类别进行判定。对于任意一个实体或关系,通过其与这些类别之间的距离关系判定其属于那个类别,并作为对其三元组是否成立的判定。
具体地,自编码网络的过程为:
将输入变量的集合记作X,设定编码函数f(X),以及解码函数g(X),其中f和g为神经网络且f输出的维数远远小于X的维数,使得
Figure 540819DEST_PATH_IMAGE047
最小。
Figure 852851DEST_PATH_IMAGE048
,则H即为对X提取出的特征。如图2所示,h1, h2, h3即为通过编码 器算法捕捉到的降维的特征表示,实现了对变量x1,x2,...,x7的关键信息提取。
另外,一个自编码器实际上是由一个编码器和一个解码器两部分组成。编码器和解码器的结构都各自是一个神经网络。
从训练好的自编码器中抽取出编码器部分,就可以实现降维的效果。
通过自编码器的降维优于PCA在于其使用的是神经网络的结构。如果让神经网络中的激活函数蜕化为恒等函数,则该自编码器则就是一个PCA过程。由于激活函数的存在,自编码器能够实现非线性的降维。
神经网络是这样的一个映射f,它接受一组输入向量X,通过
Figure 900442DEST_PATH_IMAGE049
输出另一组向量。其中X为N维的向量,W为一个M*N维的矩阵,b为M维的向量,f(X)的输出为 一个M维的向量。
假设X为我们的观测变量,编码器网络接受X的输入,通过上述神经网络变成一个低维特征Z,记Z的维度为M,则N>>M。
Z也可以称做隐变量,因为Z并不是直接通过观测得到的变量。
解码器网络则接受低维特征Z的输入,通过另一个神经网络变成高维特征X1,X1的维度和X相同。
自编码器将原始观测变量X经过编码器后转变为低维向量Z,Z再经过解码器生成 高维向量
Figure 773982DEST_PATH_IMAGE050
(和X相同维度),自编码器的的训练目标是使得
Figure 579127DEST_PATH_IMAGE050
和原始的高维特征X尽可 能相同,也即其损失函数就是这两个高维特征的差。观测变量依次经过一个解码器和一个 编码器能实现最大程度的复原,说明X经过编码器生成的中间层Z携带了X中绝大多数信息。 换句话说,如果降维后的Z丢失了X中的信息较多,则从Z通过解码器还原出X所有信息的概 率可以忽略不计。所以Z可以近似作为X的替代。由于Z的维度远小于X,所以实现了降维。
实施例四、
参见图3所示,本发明还提出了一种知识图谱补全系统,其包括:
样本获取模块,其获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
模型构建模块,其基于Hinge Loss目标函数,构建初步向量化模型;
向量处理模块,其对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;并将初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量;
模型训练模块,其将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
图谱补全模块,其从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;并将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
实施例五、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于是——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种知识图谱补全方法,其特征在于,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于Hinge Loss目标函数,构建初步向量化模型,对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;
步骤S105、将上述初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量,将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
步骤S107、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;
步骤S109、将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
2.如权利要求1所述方法,其特征在于,所述二次向量化处理包括:
假设所述知识图谱中涉及到的实体和关系总数为n,并按任意顺序排序记为
Figure 125606DEST_PATH_IMAGE001
对所有的实体或关系
Figure 230966DEST_PATH_IMAGE002
(1≤i≤n),将得到的初级向量
Figure 367418DEST_PATH_IMAGE003
与通过外部预训练模型得到 的二级向量
Figure 480431DEST_PATH_IMAGE004
进行拼接得到
Figure 603107DEST_PATH_IMAGE005
,如果
Figure 953186DEST_PATH_IMAGE003
的长度为a,
Figure 434108DEST_PATH_IMAGE004
的长度为b,那么拼接后的向量
Figure 745004DEST_PATH_IMAGE005
长度 为a+b;
将得到的向量
Figure 468109DEST_PATH_IMAGE005
进行拼接,得到一个n*(a+b)的矩阵Q;
使用自编码器对矩阵Q进行降维,将n*(a+b)的矩阵Q压缩为n*a的矩阵P,得到了知识图谱的新的表示:
Mi的表示为Pi,其长度仍然为a。
3.如权利要求1所述方法,其特征在于,步骤S105中训练神经网络模型包括:
假定训练具有1个隐藏层,输出为0或1的神经网络,则假设输入变量为
Figure 905651DEST_PATH_IMAGE006
, 权重矩阵
Figure 383905DEST_PATH_IMAGE007
,其中,n为向量的长度,m为隐藏层的单元的个数,k和i为 遍历使用的参数;
Figure 713255DEST_PATH_IMAGE008
为激活函数;
那么得到的隐藏层变量为:
Figure 475937DEST_PATH_IMAGE009
设隐藏层对应的权重矩阵为
Figure 941554DEST_PATH_IMAGE010
那么输出正例的概率为
Figure 731655DEST_PATH_IMAGE011
输出反例的概率为
Figure 849434DEST_PATH_IMAGE012
使用基于极大似然估计的损失函数和反向梯度传播算法,训练所述神经网络,求解出参数。
4.如权利要求1所述方法,其特征在于,所述初步向量化模型基于TransE的向量表示,具体为:
Figure 648762DEST_PATH_IMAGE013
式中,<h, r, t>为三元组,h为头实体,r为关系,t为尾实体,l2指欧氏距离,其表达式为
Figure 31202DEST_PATH_IMAGE014
,其中n代表向量X的长度,1≤i≤n,Xi为X的第i个分量。
5.如权利要求4所述方法,其特征在于,所述Hinge Loss目标函数具体为:
Figure 523363DEST_PATH_IMAGE015
式中,
Figure 63191DEST_PATH_IMAGE016
是间隔参数,S是正样本集合;
Figure 666211DEST_PATH_IMAGE017
是负样本集合,
Figure 106420DEST_PATH_IMAGE018
为负样本集合中的头实体,
Figure 503903DEST_PATH_IMAGE019
为负样本集合中的尾实体。
6.如权利要求1所述方法,其特征在于,所述外部预训练模型为GPT3模型。
7.如权利要求1所述方法,其特征在于,所述神经网络模型从如下数据集来构建:
数据集的目标变量是三元组是否成立;
数据集的特征变量是三元组的词嵌入向量的组合。
8.如权利要求1所述方法,其特征在于,将所述正样本中的头实体、尾实体或关系进行随机替换,生成负样本。
9.如权利要求1所述方法,其特征在于,将所述候选三元组代入所述神经网络模型,获取知识图谱补全结果具体包括:
所述候选三元组代入上述神经网络模型,得到相应数值;
选取数值最高的三元组,作为最终的补全结果。
10.一种知识图谱补全系统,其特征在于,包括:
样本获取模块,其获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
模型构建模块,其基于Hinge Loss目标函数,构建初步向量化模型;
向量处理模块,其对所述知识图谱中的每个实体或关系进行初步向量化,得到所述每个实体或关系对应的初级向量;并将初级向量与外部预训练模型进行二次向量化处理,得到所述知识图谱中的每个实体或关系对应的二级向量;
模型训练模块,其将所述二级向量作为自变量,所述正样本和负样本作为标签,训练神经网络模型;
图谱补全模块,其从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立候选三元组;并将所述候选三元组代入训练后的所述神经网络模型,获取知识图谱补全结果。
CN202111126880.3A 2021-09-26 2021-09-26 一种知识图谱补全方法与系统 Pending CN113569062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111126880.3A CN113569062A (zh) 2021-09-26 2021-09-26 一种知识图谱补全方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111126880.3A CN113569062A (zh) 2021-09-26 2021-09-26 一种知识图谱补全方法与系统

Publications (1)

Publication Number Publication Date
CN113569062A true CN113569062A (zh) 2021-10-29

Family

ID=78174547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111126880.3A Pending CN113569062A (zh) 2021-09-26 2021-09-26 一种知识图谱补全方法与系统

Country Status (1)

Country Link
CN (1) CN113569062A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297397A (zh) * 2021-11-10 2022-04-08 北京邮电大学 基于卷积网络的路径感知的知识图谱补全方法及相关设备
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN115718809A (zh) * 2022-12-23 2023-02-28 北京大学第三医院(北京大学第三临床医学院) 知识图谱补全模型的训练方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297397A (zh) * 2021-11-10 2022-04-08 北京邮电大学 基于卷积网络的路径感知的知识图谱补全方法及相关设备
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN114611517B (zh) * 2022-03-15 2023-07-25 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN115718809A (zh) * 2022-12-23 2023-02-28 北京大学第三医院(北京大学第三临床医学院) 知识图谱补全模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN110377759B (zh) 事件关系图谱构建方法及装置
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN113569062A (zh) 一种知识图谱补全方法与系统
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN109785833A (zh) 用于智能设备的人机交互语音识别方法及系统
CN112905868B (zh) 事件抽取方法、装置、设备及存储介质
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN112580346A (zh) 事件抽取方法、装置、计算机设备和存储介质
CN113569061A (zh) 一种提高知识图谱补全精度的方法与系统
CN116935274A (zh) 一种基于模态特征对齐的弱监督跨模态视频定位方法
CN113593606B (zh) 音频识别方法和装置、计算机设备、计算机可读存储介质
CN116189039A (zh) 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统
CN118113855A (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN114625860A (zh) 一种合同条款的识别方法、装置、设备及介质
CN114398489A (zh) 一种基于Transformer的实体关系联合抽取方法、介质及系统
CN112183631A (zh) 一种意图分类模型建立的方法和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211029