CN113569061A - 一种提高知识图谱补全精度的方法与系统 - Google Patents

一种提高知识图谱补全精度的方法与系统 Download PDF

Info

Publication number
CN113569061A
CN113569061A CN202111126276.0A CN202111126276A CN113569061A CN 113569061 A CN113569061 A CN 113569061A CN 202111126276 A CN202111126276 A CN 202111126276A CN 113569061 A CN113569061 A CN 113569061A
Authority
CN
China
Prior art keywords
entity
sample
knowledge graph
training
triples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111126276.0A
Other languages
English (en)
Inventor
邵俊
蔺静茹
李骏琪
张孜勉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co ltd filed Critical Shenzhen Suoxinda Data Technology Co ltd
Priority to CN202111126276.0A priority Critical patent/CN113569061A/zh
Publication of CN113569061A publication Critical patent/CN113569061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提高知识图谱补全精度的方法与系统,其中所述方法包括:获取知识图谱三元组的正样本和负样本;基于正样本和负样本,建立样本特征库和样本标签库,并最终建立深度神经网络模型,并得到三元组的得分函数;基于三元组和得分函数训练实体的向量表示;并重复获取三元组的得分函数和训练实体的向量表示,以获取每个实体和关系的最终向量表示;从待补全的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数,得到一个分数并对其排序,选取得分最高的三元组,作为最终的补全结果。本发明使得实体链接更加可靠,增加了内部知识与外部知识的融合,结果稳定,不会受到构造负样本扰动的影响。

Description

一种提高知识图谱补全精度的方法与系统
技术领域
本发明属于大数据分析与数据挖掘领域,尤其涉及一种提高知识图谱补全精度的方法与系统。
背景技术
知识图谱是一种通过大量实体与实体间关系形成的语义网络。在通过语料自动构建知识图谱的过程中,常常会出现缺失实体之间的关系,或已知头实体和关系缺少尾实体的情况,从而需要做知识图谱的补全。常用的补全方法会基于知识图谱的向量化表示方法,将知识图谱中的实体和关系转化成向量。
CN112883200A公开了一种面向知识图谱补全的链接预测方法,通过链接预测模型计算三元组的评分,并将评分最高的尾实体作为所预测的尾实体、将评分最高的头实体作为所预测的头实体;链接预测模型在卷积神经网络上引入了基于注意力机制的全局上下文编码模块,通过聚合局部特征来学习全局上下文信息,增强了用于进行知识图谱补全的特征表示。然而,该方案使用的全局上下文信息依然是基于知识图谱内部的信息,而没有充分考虑外部文本信息,会导致补全效果仍旧不够精准。
CN112035672A公开了一种知识图谱补全方法、装置、设备以及存储介质,将语义关联信息与知识图谱进行关联与重构,通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码,得到编码后的实体关联序列信息,通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分,依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱,从而增强已有知识图谱的语义关联信息。然而,该方案同样没有充分将外部文本信息的预训练模型与基于知识图谱的向量化表示相结合,会导致补全效果仍旧不够精准。
因此,如何将知识图谱嵌入向量与外部文本信息训练得到的向量表示进行高精度的融合补全成为本领域亟待解决的技术问题。
发明内容
针对上述现有技术中存在的缺陷,本发明提供一种提高知识图谱补全精度的方法,可以将知识图谱嵌入向量与外部文本信息训练得到的向量表示进行融合,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于所述正样本和负样本,建立样本特征库和样本标签库;
步骤S105、基于所述样本特征库和样本标签库,建立深度神经网络模型;
步骤S107、基于所述深度神经网络模型,获取所述三元组的得分函数;
步骤S109、基于所述三元组和得分函数训练实体的向量表示;
步骤S111、重复上述步骤S107-S109大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;
步骤S113、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数G,得到对应的分数,将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
其中,采用外部预训练模型将上述所有正样本和负样本的实体和关系进行向量化处理,得到样本特征库。
其中,建立深度神经网络模型包括:
假定训练具有1个隐藏层,输出为0或1的神经网络,假设输入变量为
Figure 854824DEST_PATH_IMAGE001
, 权重矩阵
Figure 568702DEST_PATH_IMAGE002
,其中,n为向量的长度,m为隐藏层的单元的个数,k和i为遍 历使用的参数;
Figure 394445DEST_PATH_IMAGE003
为激活函数;
隐藏层变量为
Figure 586392DEST_PATH_IMAGE004
设隐藏层对应的权重矩阵为
Figure 72868DEST_PATH_IMAGE005
输出正例的概率为
Figure 203985DEST_PATH_IMAGE006
输出反例的概率为
Figure 267756DEST_PATH_IMAGE007
其中,使用基于极大似然估计的损失函数和反向梯度传播算法,训练该神经网络模型,求解出参数。
其中,所述步骤S107具体包括:
将上述训练好的神经网络模型作为知识图谱中的三元组的得分函数G(h, r, t),其中h、t表示实体,r表示关系。
其中,所述步骤S109包括:
将步骤S103中实体向量化后对应的向量替换知识图谱中的实体。
其中,所述步骤S109还包括:
为所述知识图谱中的每个关系构造相应的向量空间,则所述知识图谱中的头实体h的向量U h 和尾实体t的向量U t 在相应向量空间中的投影可记为
Figure 781170DEST_PATH_IMAGE008
Figure 512366DEST_PATH_IMAGE009
,其中
Figure 286156DEST_PATH_IMAGE010
是投影矩阵;
基于上述结果,构造损失函数为
Figure 102802DEST_PATH_IMAGE011
,其中U r 为关系的向量;
再次在知识图谱中构造正样本与负样本,并基于所述损失函数进行模型训练;
将训练好的
Figure 511918DEST_PATH_IMAGE012
替换外部预训练模型中的关系向量,即令外部预训练模型中的关系 向量
Figure 78379DEST_PATH_IMAGE013
其中,上述步骤S109具体包括:
为每一个关系r定义一个投影矩阵
Figure 570540DEST_PATH_IMAGE014
,为每个三元组构造损失函数为
Figure 359635DEST_PATH_IMAGE015
,其中
Figure 697076DEST_PATH_IMAGE016
Figure 386552DEST_PATH_IMAGE017
,再次构造正样本与负样本, 此时知识图谱没有变化,通过最小化目标函数
Figure 393822DEST_PATH_IMAGE018
进行模型训练, 其中,
Figure 326006DEST_PATH_IMAGE019
为负样本集合中的头实体,
Figure 578389DEST_PATH_IMAGE020
为负样本集合中的尾实体,求得最佳的
Figure 873105DEST_PATH_IMAGE021
Figure 457801DEST_PATH_IMAGE022
,将
Figure 470756DEST_PATH_IMAGE023
替换外部预训练模型中的关系向量,即令外部预训练模型中的关系向量
Figure 664846DEST_PATH_IMAGE024
其中,所述步骤S111包括:将知识图谱中实体的向量表示更新为此次训练得到的 实体的向量表示,令
Figure 814068DEST_PATH_IMAGE025
Figure 569665DEST_PATH_IMAGE026
,其中,V h V t 分别为外部预训练模型中的头实体向量 和尾实体向量,
重复步骤S107-S109大于等于10次;
将知识图谱中每个实体和关系最终的向量表示为以上大于等于10次迭代的平均值。
本发明还提出了一种提高知识图谱补全精度的系统,其包括:
样本获取模块,获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
样本处理模块,基于所述正样本和负样本,建立样本特征库和样本标签库;
模型构建模块,基于所述样本特征库和样本标签库,建立深度神经网络模型;
函数获取模块,基于所述深度神经网络模型,获取所述三元组的得分函数;
向量训练模块,基于所述三元组和得分函数训练实体的向量表示;并重复获取所述三元组的得分函数和训练实体的向量表示,重复训练大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;
图谱补全模块,从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数G,得到对应的分数, 将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
与现有技术相比,本发明使得实体链接更加可靠,增加了内部知识与外部知识的融合,结果稳定,结果不会受到随机构造负样本扰动的影响。且由于对不同的关系构造了不同的向量空间,使得对关系的识别准确率更高,删除了近义词识别准确率更高。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种提高知识图谱补全精度的方法流程图;以及
图2是示出根据本发明实施例的一种提高知识图谱补全精度的系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例一、
如图1所示,本发明公开了一种提高知识图谱补全精度的方法,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于所述正样本和负样本,建立样本特征库和样本标签库;
步骤S105、基于所述样本特征库和样本标签库,建立深度神经网络模型;
步骤S107、基于所述深度神经网络模型,获取所述三元组的得分函数;
步骤S109、基于所述三元组和得分函数训练实体的向量表示;
步骤S111、重复上述步骤S107-S109大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;
步骤S113、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数G,得到对应的分数,将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
实施例二、
本实施例提供一种提高知识图谱补全精度的方法,包括以下步骤S101~步骤S113,具体地,
本实施例的步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体。
本实施例的步骤S103、基于所述正样本和负样本,建立样本特征库和样本标签库。
本实施例的步骤S105、基于所述样本特征库和样本标签库,建立深度神经网络模型。
本实施例的步骤S107、基于所述深度神经网络模型,获取所述三元组的得分函数;所述步骤S107具体包括:
将上述训练好的神经网络模型作为知识图谱中的三元组的得分函数G(h, r, t),其中h、t表示实体,r表示关系,具体地,h为头实体,t为尾实体。
本实施例的步骤S109、基于所述三元组和得分函数训练实体的向量表示;所述步骤S109包括:
将步骤S103中实体向量化后对应的向量替换知识图谱中的实体。
本实施例的所述步骤S109还可以包括:
为所述知识图谱中的每个关系构造相应的向量空间,则所述知识图谱中的头实体向量h和尾实体向量t在相应向量空间中的投影可记为
Figure 804337DEST_PATH_IMAGE027
Figure 416101DEST_PATH_IMAGE028
,其中
Figure 436141DEST_PATH_IMAGE029
是投影矩阵;
基于上述结果,构造损失函数为
Figure 611907DEST_PATH_IMAGE030
,其中U r 为关系的向量;
再次在知识图谱中构造正样本与负样本,并基于所述损失函数进行模型训练;
将训练好的
Figure 848723DEST_PATH_IMAGE031
替换外部预训练模型中的关系向量,即令外部预训练模型中的关系 向量
Figure 135347DEST_PATH_IMAGE032
本发明实施例通过构造投影矩阵,相当于为知识图谱中的每个关系构造了相应的向量空间,可以使得实体与关系能够在不同的向量空间中分开表示。构造的损失函数可以使得头尾实体在向量空间的映射与关系向量尽可能满足像TransE模型中的三角等式。其中,TransE模型为知识图谱对应三元组的向量表示,具体为:
Figure 744314DEST_PATH_IMAGE033
式中,<h, r, t>为三元组,h为头实体,r为关系,t为尾实体,l2指欧氏距离,其表 达式为
Figure 825403DEST_PATH_IMAGE034
,其中,1≤i≤n,n代表向量X的长度,Xi为X的第i个分量。
进一步地,该步骤S109具体可以包括:
为每一个关系r定义一个投影矩阵
Figure 411498DEST_PATH_IMAGE029
,为每个三元组构造损失函数为
Figure 642760DEST_PATH_IMAGE035
,其中
Figure 496446DEST_PATH_IMAGE036
Figure 997703DEST_PATH_IMAGE037
,再次构造正样本与负样 本,此时知识图谱没有变化,通过最小化目标函数
Figure 694264DEST_PATH_IMAGE038
进行模型训 练,其中,
Figure 807845DEST_PATH_IMAGE039
为负样本集合中的头实体,
Figure 808381DEST_PATH_IMAGE040
为负样本集合中的尾实体,求得最佳的
Figure 621485DEST_PATH_IMAGE041
Figure 805342DEST_PATH_IMAGE042
, 将
Figure 722613DEST_PATH_IMAGE043
替换外部预训练模型中的关系向量,即令外部预训练模型中的关系向量
Figure 675526DEST_PATH_IMAGE044
。可 以使得在多次(比如10次)训练之后,训练出的模型能够趋于稳定。
本实施例的步骤S109进行实体的训练时和上一步的训练类似,也是通过同样的目 标函数来训练,所不同的是实体的训练是把
Figure 787094DEST_PATH_IMAGE045
固定下来了,只训练V h V t ,其中,V h V t 分别 为外部预训练模型中的头实体向量和尾实体向量。
本实施例的步骤S111、重复上述步骤S107-S109大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;其中,重复上述步骤S107-S109时,也对关系进行了向量表示和预定的重复次数,该预定的重复次数可以与实体的重复次数相同,也可以与实体的重复次数不同;
所述步骤S111包括:将知识图谱中实体的向量表示更新为此次训练得到的实体的 向量表示,令
Figure 723826DEST_PATH_IMAGE046
Figure 241527DEST_PATH_IMAGE047
重复步骤S107-S109大于等于10次;
将知识图谱中每个实体和关系最终的向量表示为以上大于等于10次迭代的平均值,通过平均值表示的每个实体和关系形成本实施例的待补全的候选集;
本实施例的步骤S113、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数G,得到对应的分数,将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
本实施例在建立样本特征库时,可以采用外部预训练模型将上述所有正样本和负样本的实体和关系进行向量化处理,得到样本特征库。其中,外部与训练模型为Bert预训练模型。
本实施基于样本特征库和样本标签库建立深度神经网络模型可以包括:
假定训练具有1个隐藏层,输出为0或1的神经网络,假设输入变量为
Figure 563792DEST_PATH_IMAGE048
, 权重矩阵
Figure 203852DEST_PATH_IMAGE049
,其中,n为向量的长度,m为隐藏层的单元的个数,k和i为遍 历使用的参数;
Figure 405377DEST_PATH_IMAGE050
为激活函数,其中,e为自然常数;
隐藏层变量为
Figure 179298DEST_PATH_IMAGE051
设隐藏层对应的权重矩阵为
Figure 591956DEST_PATH_IMAGE052
输出正例的概率为
Figure 839135DEST_PATH_IMAGE053
输出反例的概率为
Figure 297929DEST_PATH_IMAGE054
其中,使用基于极大似然估计的损失函数和反向梯度传播算法,便可以训练该神经网络模型,求解出参数。
实施例三、
如图2所示,本发明还提出了一种提高知识图谱补全精度的系统,其包括:
样本获取模块,获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
样本处理模块,基于所述正样本和负样本,建立样本特征库和样本标签库;
模型构建模块,基于所述样本特征库和样本标签库,建立深度神经网络模型;
函数获取模块,基于所述深度神经网络模型,获取所述三元组的得分函数;
向量训练模块,基于所述三元组和得分函数训练实体的向量表示;并重复获取所述三元组的得分函数和训练实体的向量表示,重复训练大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;
图谱补全模块,从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数G,得到对应的分数,将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
实施例四、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于是——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种提高知识图谱补全精度的方法,其特征在于,包括以下步骤:
步骤S101、获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
步骤S103、基于所述正样本和负样本,建立样本特征库和样本标签库;
步骤S105、基于所述样本特征库和样本标签库,建立深度神经网络模型;
步骤S107、基于所述深度神经网络模型,获取所述三元组的得分函数;
步骤S109、基于所述三元组和得分函数训练实体的向量表示;
步骤S111、重复上述步骤S107-S109大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;
步骤S113、从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数,得到对应的分数,将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
2.如权利要求1所述方法,其特征在于,采用外部预训练模型将上述所有正样本和负样本的实体和关系进行向量化处理,得到样本特征库。
3.如权利要求1所述方法,其特征在于,建立深度神经网络模型包括:
假定训练具有1个隐藏层,输出为0或1的神经网络,假设输入变量为
Figure 158744DEST_PATH_IMAGE001
, 权重矩阵
Figure 238958DEST_PATH_IMAGE002
,其中,n为向量的长度,m为隐藏层的单元的个数,k和i为遍 历使用的参数;
Figure 611034DEST_PATH_IMAGE003
为激活函数;
隐藏层变量为
Figure 229228DEST_PATH_IMAGE004
设隐藏层对应的权重矩阵为
Figure 344951DEST_PATH_IMAGE005
输出正例的概率为
Figure 493386DEST_PATH_IMAGE006
输出反例的概率为
Figure 770784DEST_PATH_IMAGE007
4.如权利要求3所述方法,其特征在于,使用基于极大似然估计的损失函数和反向梯度传播算法,训练该神经网络模型,求解出参数。
5.如权利要求1所述方法,其特征在于,所述步骤S107具体包括:
将上述训练好的神经网络模型作为知识图谱中的三元组的得分函数G(h, r, t),其中h、t表示实体,r表示关系。
6.如权利要求2所述方法,其特征在于,所述步骤S109包括:
将步骤S103中实体向量化后对应的向量替换知识图谱中的实体。
7.如权利要求6所述方法,其特征在于,所述步骤S109还包括:
为所述知识图谱中的每个关系构造相应的向量空间,则所述知识图谱中的头实体h的向量U h 和尾实体t的向量U t 在相应向量空间中的投影记为
Figure 610695DEST_PATH_IMAGE008
Figure 638432DEST_PATH_IMAGE009
,其中
Figure 129456DEST_PATH_IMAGE010
是投影矩阵;
基于上述结果,构造损失函数为
Figure 328487DEST_PATH_IMAGE011
,其中U r 为关系的向量;
再次在知识图谱中构造正样本与负样本,并基于所述损失函数进行模型训练;
将训练好的
Figure 436120DEST_PATH_IMAGE012
替换外部预训练模型中的关系向量,即令外部预训练模型中的关系向量
Figure 880265DEST_PATH_IMAGE013
8.如权利要求7所述方法,其特征在于,上述步骤S109具体包括:
为每一个关系r定义一个投影矩阵
Figure 835582DEST_PATH_IMAGE014
,为每个三元组构造损失函数为
Figure 985941DEST_PATH_IMAGE015
, 其中
Figure 564559DEST_PATH_IMAGE016
Figure 825776DEST_PATH_IMAGE017
,再次构造正样本与负样本,此时知识图谱没有变化,通 过最小化目标函数
Figure 307704DEST_PATH_IMAGE018
进行模型训练,其中,
Figure 628964DEST_PATH_IMAGE019
为负样本集合中的 头实体,
Figure 426369DEST_PATH_IMAGE020
为负样本集合中的尾实体,求得最佳的
Figure 491277DEST_PATH_IMAGE021
Figure 827711DEST_PATH_IMAGE022
,将
Figure 460818DEST_PATH_IMAGE022
替换外部预训练模型中的 关系向量,即令外部预训练模型中的关系向量
Figure 499181DEST_PATH_IMAGE023
9.如权利要求8所述方法,其特征在于,所述步骤S111包括:将知识图谱中实体的向量 表示更新为此次训练得到的实体的向量表示,令
Figure 617047DEST_PATH_IMAGE024
Figure 322835DEST_PATH_IMAGE025
重复步骤S107-S109大于等于10次;
将知识图谱中每个实体和关系最终的向量表示为以上大于等于10次迭代的平均值。
10.一种提高知识图谱补全精度的系统,其特征在于,包括:
样本获取模块,获取知识图谱三元组的正样本和负样本,所述三元组包含头实体、关系和尾实体;
样本处理模块,基于所述正样本和负样本,建立样本特征库和样本标签库;
模型构建模块,基于所述样本特征库和样本标签库,建立深度神经网络模型;
函数获取模块,基于所述深度神经网络模型,获取所述三元组的得分函数;
向量训练模块,基于所述三元组和得分函数训练实体的向量表示;并重复获取所述三元组的得分函数和训练实体的向量表示,重复训练大于等于10次,获取每个实体和关系的最终向量表示,以得到待补全的实体或关系的候选集;
图谱补全模块,从待补全的实体或关系的候选集中依次取出候选实体或候选关系,建立三元组并代入上面的得分函数,得到一个分数,将这些分数排序,选取得分最高的三元组,作为最终的补全结果。
CN202111126276.0A 2021-09-26 2021-09-26 一种提高知识图谱补全精度的方法与系统 Pending CN113569061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111126276.0A CN113569061A (zh) 2021-09-26 2021-09-26 一种提高知识图谱补全精度的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111126276.0A CN113569061A (zh) 2021-09-26 2021-09-26 一种提高知识图谱补全精度的方法与系统

Publications (1)

Publication Number Publication Date
CN113569061A true CN113569061A (zh) 2021-10-29

Family

ID=78174603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111126276.0A Pending CN113569061A (zh) 2021-09-26 2021-09-26 一种提高知识图谱补全精度的方法与系统

Country Status (1)

Country Link
CN (1) CN113569061A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961724A (zh) * 2021-12-22 2022-01-21 山东新希望六和集团有限公司 动物系谱的更新方法、装置及计算机设备
CN114724010A (zh) * 2022-05-16 2022-07-08 中译语通科技股份有限公司 一种待训练样本的确定方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961724A (zh) * 2021-12-22 2022-01-21 山东新希望六和集团有限公司 动物系谱的更新方法、装置及计算机设备
CN114724010A (zh) * 2022-05-16 2022-07-08 中译语通科技股份有限公司 一种待训练样本的确定方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN110366734B (zh) 优化神经网络架构
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
US20190266246A1 (en) Sequence modeling via segmentations
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN108664512B (zh) 文本对象分类方法及装置
CN113569061A (zh) 一种提高知识图谱补全精度的方法与系统
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
JP7448562B2 (ja) 人工知能のための希な訓練データへの対処
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN116049459A (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
WO2021117180A1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
CN113254602B (zh) 面向科技政策领域的知识图谱构建方法及系统
CN113569062A (zh) 一种知识图谱补全方法与系统
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115270795A (zh) 一种基于小样本学习的环评领域命名实体识别技术
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN115357712A (zh) 方面级情感分析方法、装置、电子设备及存储介质
CN112686306B (zh) 基于图神经网络的icd手术分类自动匹配方法及系统
CN115114930A (zh) 一种基于序列到森林的非连续实体识别方法
CN114065769A (zh) 情感原因对抽取模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211029