CN114691886A - 一种关系增强的知识图谱嵌入方法及系统 - Google Patents

一种关系增强的知识图谱嵌入方法及系统 Download PDF

Info

Publication number
CN114691886A
CN114691886A CN202210275727.5A CN202210275727A CN114691886A CN 114691886 A CN114691886 A CN 114691886A CN 202210275727 A CN202210275727 A CN 202210275727A CN 114691886 A CN114691886 A CN 114691886A
Authority
CN
China
Prior art keywords
relationship
entity
knowledge graph
relation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210275727.5A
Other languages
English (en)
Inventor
赵峰
金郎俊卿
金海�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210275727.5A priority Critical patent/CN114691886A/zh
Publication of CN114691886A publication Critical patent/CN114691886A/zh
Priority to US17/821,633 priority patent/US11797507B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种关系增强的知识图谱嵌入方法及系统,所述方法至少包括:将知识图谱的实体进行坐标的协同变换;基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;建立知识图谱嵌入模型的可解释机制,通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性;采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。本发明能够更准确地测算事实的合理性,从复杂关系对的角度对模型建模能力推理证明,能够进行实体与关系的向量计算完成知识图谱嵌入及推理。

Description

一种关系增强的知识图谱嵌入方法及系统
技术领域
本发明涉及知识图谱嵌入技术领域,尤其涉及一种关系增强的知识图谱嵌入方法及系统。
背景技术
知识图谱本质上是知识库的一种独特的图形表示,由实体(节点)和关系(边)组成,常常以知识三元组(h,r,t)为表现形式。它在人工智能的研究和应用中起到至关重要的作用。近年来,知识图谱得到大力发展且含有十分有价值的信息。随着在各领域的广泛应用,各种问题层出不穷,如有些知识图谱完备性不足,关系的依赖性不受重视,缺少部分有价值的事实;并且受限于闭合世界假设,无法预测新实体和关系,阻碍了知识图谱的更新和拓扑结构信息的丰富性,也极大程度地影响了知识图谱在诸多推理应用方面的准确性和可解释性。本发明基于关系增强的知识图谱嵌入方法,充分利用关系数据丰富的语义信息,对实体和复杂关系建模,多维度增强实体关系向量的语义关联和重要性,提升模型的可解释性。
知识图谱嵌入本质上是学习实体和关系的分布式表示,即实体嵌入和关系嵌入。在保存知识图谱拓扑信息的同时,在连续向量空间中的低维稠密向量或矩阵表示。对向量的计算预测实体、关系间的复杂语义信息,极大提高了知识图谱推理的计算效率、准确性和可解释性。实体和关系嵌入表示有利于多种任务的执行,包括知识图谱补全、关系抽取、实体分类和实体解析等。近年来,基于平移距离模型、几何模型、神经网络模型的相关技术一直是研究热点,平移距离模型利用基于距离的评分函数,对实体对间的关系执行平移操作后,通过实体对之间的距离度量事实的合理性。几何模型利用不同几何空间(如复平面、流形等)对实体和关系的拓扑结构进行建模。而神经网络模型以一种学习框架匹配实体潜在语义和向量空间表示关系以度量事实可信性。关系增强也越来越多用于知识图谱表示学习中,以关系为中心,结合维度的重要程度建模实体,使得关系预测的结果更加合理。但是对这个问题的研究仍处于初级阶段,还存在一些问题:1)现有模型存在度量方式简单造成得分评判不准确的问题,从而导致推理精度较低;2)这些模型均从单个实体-关系角度出发导致实体映射混乱,使得无法准确进行链路预测任务;3)由于可解释能力不足,模型的黑盒子会给研究者带来困扰。
例如,专利文献CN111680162A公开了基于张量分解的知识图谱嵌入方法、系统及设备。该发明实施例先获取当前知识图谱对应的张量;对张量进行Tucker分解,以得到分解后的张量;确定与分解后的张量对应的事实得分;根据事实得分对与预设知识图谱嵌入模型对应的嵌入向量进行更新,通过更新后的嵌入向量进行当前知识图谱的嵌入操作。该发明的研究核心是与知识图谱对应的张量,其根本是众多向量通过线性组合成的向量空间,通过此空间将所有的实体和关系(向量形式)统一表示,其计算主体也为矩阵(向量的线性组合)计算,因此这种统一表达无法适用于种类繁多的关系对表示学习,造成知识图谱嵌入质量不高、预测和补全准确度低,当然这也是大多现有方法不具备的。
基于现有技术的不足,本发明希望提供一种不同的知识图谱嵌入方法,致力于采用向量表示知识图谱的三元组(头实体,关系,尾实体),有助于更细致地研究多种复杂关系对,通过将实体和关系降维至向量的形式,使得向量成为计算主体。通过向量形式的表达,本发明可以将各种类(例如:对称关系、反对称关系、组合关系等)关系对分别准确表示,从知识图谱的根本上提升嵌入质量,进而对预测和补全等任务也是大有好处。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于申请人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
现有的知识图谱嵌入方法从单个实体-关系角度出发(以实体为中心)导致实体映射混乱的问题,使得在处理N-to-N关系的链路预测时,无法准确预测正确实体,且由于忽略了实体间重要程度,面向复杂关系对的推理效果也有所欠缺。
针对现有技术之不足,本发明提供了一种关系增强的知识图谱嵌入方法,所述方法至少包括:
将知识图谱的实体进行坐标的协同变换;
基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;
建立知识图谱嵌入模型的可解释机制;通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性;
采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
本发明针对知识图谱中存在拓扑结构知识不完备,多对多实体匹配不准确等问题,提供了一种复杂关系增强的知识图谱嵌入方法及系统,通过将实体坐标进行欧拉变换,准确表达复杂关系对应实体的拓扑结构,此过程也是整个知识图谱嵌入模型的数据基础;围绕关系进行熵加权处理,基于关系建立协方差矩阵,计算每个维度向量熵值和权重,继而构建权重矩阵,加入到得分函数,以更准确地测算事实的合理性。此外,从复杂关系对的角度对模型建模能力推理证明,最后进行实体与关系的向量计算完成知识图谱嵌入及推理。
优选地,所述将知识图谱的实体进行坐标的协同变换的步骤至少包括:
将实体和关系数据投射到低维稠密向量空间,
进行矩阵的正定分解和马氏距离标准化,使关系对和实体对的关联性增强;
将坐标进行欧拉变换的整合以提升表达复杂关系对应实体拓扑结构的准确性和语义丰富性。
优选地,所述基于关系熵加权的方式进行关系核心增强的步骤至少包括:
将知识图谱中的实体围绕关系对进行加权处理以得到至少一个维度的向量熵值和权重;
构建实体和关系的均值矩阵,选取对应的协方差并构建协方差矩阵;
基于至少一个维度的向量熵值计算权值并构建对角化矩阵,将由所述对角化矩阵与所述协方差矩阵结合构成的权重矩阵加入得分函数中,并且对实体的不同重要程度进行建模。
本发明中,通过将知识图谱中的实体围绕关系对进行加权处理的方式,实现了知识图谱中的关系增强。本发明中通过构建协方差矩阵,为优化权值和构建权重矩阵提供了联合与支撑3。本发明还通过将权重矩阵加入得分函数中,使其富有关系特性。
优选地,构建实体和关系的均值矩阵的方法包括:对不同维度且重要程度不同的向量进行表达,分别计算其向量均值,从而分别构建实体和关系的均值矩阵。
优选地,所述建立知识图谱嵌入模型的可解释机制的步骤至少包括:
通过主成分分析的方式将实体降维,以等势的形式在二维平面中表达,以确定关系对应的实体建模形式;
设置限制常数,将实体和关系在复平面中表示,基于欧拉变换的性质证明其收敛性;
以向量的形式将关系建模,并且对至少一种关系对进行公示推导以说明其建模能力和/或复杂关系对的推理能力。
本发明通过建立知识图谱嵌入模型的可解释机制,并且通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性。
优选地,所述方法还包括:
在将权重矩阵加入得分函数中后,以循环进行负采样的操作的方式优化参数。通过进行负采样的操作,进行循环以寻找更适合的参数。
优选地,计算至少一个维度的向量熵值和权重的方式包括:
设定训练集三元组T=(T1,T2,...,Tn),Ti是三元组(hi,ri,ti)的表示,
构建所述协方差矩阵为:
Figure BDA0003550538590000041
μ*i分别对应每个维度的头实体、关系和尾实体的向量平均值;
计算第j维熵值:
Figure BDA0003550538590000042
其中,pij表示权值,
Figure BDA0003550538590000043
Rij表示设定的关系集,l表示---------。
优选地,初始权重矩阵B的构建方式还包括:
Figure BDA0003550538590000051
其中,各维度向量的相对重要程度代表:
Figure BDA0003550538590000052
ej表示第j维熵值。
优选地,得分函数为:fr(h,t)=(|h+r-t|T)W(|h+r-t|),
其中,W=BTMc -1B表示基于熵值的权重矩阵,T表示训练集三元组,Ti是三元组(hi,ri,ti)的表示。
与现有技术明显不同之处在于,本发明将基于熵值的权重矩阵放入得分函数中。本发明采用向量表示知识图谱的三元组(头实体,关系,尾实体),通过将实体和关系降维至向量的形式,以向量为计算主体进行计算。本发明通过采用向量形式进行表达,能够将各种类(例如:对称关系、反对称关系、组合关系等)关系对分别准确表示。因此,本发明从知识图谱的根本上提升了嵌入质量,进而有利于预测和补全等任务的进行。
本发明还提供一种关系增强的知识图谱嵌入系统,至少包括处理器,所述处理器被配置为:
将知识图谱的实体进行坐标的协同变换;
基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;
建立知识图谱嵌入模型的可解释机制,通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性;
采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
本发明的关系增强的知识图谱嵌入系统,其处理器执行与知识图谱嵌入方法对应的程序,能够有效、准确地测算事实的合理性。
附图说明
图1是本发明提供的一种知识图谱的嵌入模型的结构示意图;
图2是本发明提供的一种知识图谱嵌入系统的训练方法的逻辑示意图;
图3是本发明提供的初始状态的等势面可视化的示意图;
图4是本发明提供的经过第一次马氏距离加权步骤处理后形成的等势面可视化的示意图;
图5是本发明提供的经过第一次坐标的协同变化步骤后形成的等势面可视化的示意图;
图6是本发明提供的进行熵加权步骤处理后形成的等势面可视化的示意图。
附图标记列表
1:坐标整合;2:联合与支撑;3:基础;10:第一模块;20:第二模块;30:第三模块;40:第四模块;50:实体/关系集;60:关系权重矩阵。
具体实施方式
下面结合附图进行详细说明。
本发明提供一种关系增强的知识图谱嵌入方法及系统。本发明还能够提供一种关系增强的知识图谱嵌入模型的构建方法及应用。
本发明的关系增强的知识图谱嵌入系统,包括至少一个处理器。处理器还可以设置为若干个处理器模块。
处理器运行并执行关系增强的知识图谱嵌入方法的程序。
本发明还提供一种电子设备,至少包括处理器和存储组件,处理器运行由存储组件存储的关系增强的知识图谱嵌入方法的程序。
本发明还提供一种存储介质,用于存储关系增强的知识图谱嵌入方法的程序。
处理器被配置为:
将知识图谱的实体进行坐标的协同变换;
基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;
建立知识图谱嵌入模型的可解释机制;
采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
当处理器由若干个模块构成时,能够分别执行不同的步骤的程序。
例如,如图1所示,第一模块10,用于将知识图谱的实体进行坐标的协同变换,实现坐标整合1;第二模块20,用于基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;第三模块30,建立知识图谱嵌入模型的可解释机制;第四模块10,用于采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
本发明中,第一模块10、第二模块20、第三模块30和第四模块10均可以是微型处理器、专用集成芯片、具有处理能力的其他处理元件等等。
本发明的关系增强的知识图谱嵌入系统的运行如图2所示,
S1:将原始实体关系向量投入到连续空间,将得到的实体/关系集作为输入。在此过程中,进行矩阵的正定分解和马氏距离标准化,使关系对和实体对的关联性增强。
其中,将知识图谱嵌入模型的训练目标定义为一个新的得分函数,具体形式如下:得分函数的值越小,则三元组成立的可能性越高,同时链路预测的准确度也越高。
S2:进行初始化,得到关系权重矩阵60。
S3:在将关系权重矩阵作为基础2加入得分函数中后,以循环进行负采样的操作的方式优化参数。
S4:根据嵌入标准判定是否需要更新嵌入参数以结束循环;若不需要更新,则循环结束。
本发明中,将知识图谱的实体进行坐标的协同变换的方法包括:
将实体和关系数据投射到连续的低维稠密向量空间,进行矩阵的正定分解和马氏距离标准化,使关系对和实体对的关联性增强;将坐标进行欧拉变换的整合以提升表达复杂关系对应实体拓扑结构的准确性和语义丰富性。
例如,欧拉变换的过程包括:首先借助自然对数和复空间中虚数单位,将欧拉变换应用到向量的坐标,再从拓扑结构的层次角度学习实体相关描述信息,结合复杂关系对的表示学习,以对向量进行语义增强,同时提升了各种复杂关系对结构的表示准确度。
S11:矩阵进行正定分解。
例如:首先考虑到矩阵的正定性和对称性,计算出矩阵的特征值,分解过程会消除语义空间中的实体/关系向量对应正定矩阵的局限性和误差的过分积累,提升该过程的准确性和完备性。
S12:矩阵进行马氏距离标准化。
结合正定分解的特征值结果,计算各种特性(特征值)间的关联度,进而排除实体/关系向量间相关性的干扰,使得关系和实体间的关联性增强。
本发明通过将实体向量构成的矩阵进行QS正定分解,继而对马氏距离进行标准化,最后对实体坐标通过欧拉变换进行整合,能够提高表达复杂关系对应实体的拓扑结构的准确性。
S21:基于关系熵加权的方式进行关系核心增强,基于关系建立协方差矩阵。
S22:计算每个维度向量熵值和权重,继而构建权重矩阵。
具体地,将知识图谱中的实体围绕关系对进行加权处理以得到至少一个维度的向量熵值和权重。
例如,基于关系建立KL散度,计算每个维度向量熵值和权重
设定训练集三元组T=(T1,T2,...,Tn),每个Ti是三元组(hi,ri,ti)的表示。以关系为发起点,设定关系集{Rij}=[ri1,...,rim],其中ri1,...,rim对应m维的关系。
定义协方差矩阵为:
Figure BDA0003550538590000081
μ*i分别对应每个维度的头实体、关系和尾实体的向量平均值。
一个维度的权值
Figure BDA0003550538590000082
即,基于关系Rij能够得到维度的权值pij
基于权值pij来计算熵值。
Figure BDA0003550538590000083
ej表示第j维熵值。熵值越小,表示权值越大。
对不同维度且重要程度不同的向量进行表达,每个向量均由其在语义空间(由向量空间表示)中的数值合并表示,然后分别计算其向量的均值,结合后续的协方差表示形式构建均值矩阵。
例如,向量表达为:
Figure BDA0003550538590000084
和[hihi,riri,titi]。
选取对应的协方差构建协方差矩阵。
例如,选取对应的协方差的方法包括:选用空缺数据点最少的向量,将空缺点标记为范围在0到1的随机数。如此选取协方差,能够补全该向量,进而计算与头实体、关系和尾实体向量对应的均值,最终实现协方差矩阵的计算。
基于至少一个维度的向量熵值计算权值并构建对角化矩阵,将由所述对角化矩阵与所述协方差矩阵结合构成的权重矩阵加入得分函数中,并且对实体的不同重要程度进行建模。
具体地,结合不同维度的权值pij计算出熵值ej。根据特征值构建对角化的矩阵,将该对角化矩阵与协方差矩阵结合构成最终的权重矩阵。
各维度向量的相对重要程度代表为特征值bj
Figure BDA0003550538590000091
即由熵值ej能够计算出特征值bj
由特征值bj构建第j维的对角化矩阵B。B为初始权重矩阵。
Figure BDA0003550538590000092
其中n表示维度的总数,j∈[1,2,…,n]。
将权重矩阵加入到得分函数中,使其富有关系特性,同时对实体的不同重要程度进行建模。
该对角化矩阵与协方差矩阵结合,得到权重矩阵W。W=BTMc -1B。用W表示为基于熵值的权重矩阵,此处W是最终的权重矩阵。由包含实体、向量的协方差矩阵Mc和包含熵值表示的初始权重矩阵联合计算而来的矩阵即为最终的基于熵值权重矩阵。
将权重矩阵带入得分函数中,得到:
fr(h,t)=(|h+r-t|T)BTMc -1B(|h+r-t|)=(|h+r-t|T)W(|h+r-t|)。
在将权重矩阵加入得分函数中后,以循环进行负采样的操作的方式优化参数。
本发明利用关系熵加权的方式进行关系增强,提升了知识图谱拓扑结构表示向量的语义丰富性;并且基于关系建立协方差矩阵,计算每个维度向量熵值和权重,构建了与现有技术完全不同的权重矩阵。
建立知识图谱嵌入模型的可解释机制,通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性。
通过主成分分析的方式将实体降维,以等势的形式在二维平面中表达,以确定关系对应的实体建模形式。
例如,S31:进行等势面转换。
选取例关系形成嵌入等势面可视化,如图3~图6所示,原始fr(h,t)=‖h+r-t‖2模式得到的是圆形等势面,进行普通实体加权后变为椭圆等势面f,可以避免少数错误的实体匹配,但是表现仍不足。
因此,首先进行坐标协同变换,旋转坐标重新变为圆形等势面,此时对于关系熵加权,再次改善为椭圆等势面f,发现更多的错误被避免,达到提升准确率的目的。此外,通过图3和图6的对比可以发现,大大减少了错误三元组匹配的发生。
图3至图6中,星形点表示错误三元组,圆形点表示正确的三元组,曲线表示等势面。图3是初始的等势面可视化情况,其对应的模型是TransE。
图3所表示的嵌入等势面的若干三元组经过第一次马氏距离加权步骤处理,表示为图4中的嵌入等势面的若干三元组。等势面为椭圆等势面,此时错误的三元组即星形点的数量由图3中的10个变为图4中的6个。
图4所表示的嵌入等势面的若干三元组经过第一次坐标的协同变化步骤后,表示为图5中的嵌入等势面的若干三元组。图5中,等势面恢复圆形。
图5中的嵌入等势面的若干三元组进行熵加权形成图6中的嵌入等势面的若干三元组,此时的椭圆等势面内的错误点即星形点的数量已经减少为2个点。相比于图3中的初始的状态,大大避免了错误的三元组匹配。
设置限制常数,将实体和关系在复平面中表示,基于欧拉变换的性质证明其收敛性。
由于本模型由TransE衍生,所以若想分享相似的训练过程和推理,必须证明TransCE的得分函数收敛于TransE,则将公式扩展到复平面。
例如,借助三角函数和欧拉性质证明出:
Figure BDA0003550538590000101
Figure BDA0003550538590000102
最后完成证明。
以向量的形式将关系建模,并且对至少一种关系对进行公示推导以说明复杂关系对的推理能力。
例如,采用函数和其逆函数,分别证明满足对称/反对称的等式:r(h,t)=r(t,h),如果
Figure BDA0003550538590000103
r1=r2,则为反对称;
互逆的等式:r1(h,t)=r2(t,h);
组合的等式:
Figure BDA0003550538590000111
结合正交矩阵的性质(MS·MS T=I,其中MS是正交关系特性的矩阵),分别证明出:
对称/反对称的关系式:MS=MS T
互逆的关系式:
Figure BDA0003550538590000112
组合的关系式:
Figure BDA0003550538590000113
由此完成可解释的证明。
本发明结合复杂关系对的公式推理,确定实体的建模形式,建立;模型的可解释机制,通过证明模型的收敛性说明关系增强的有效性和可行性。
采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
误差控制与关系向量特征相关,即对于复杂关系对情况,实体重要程度即权重较大,误差控制精确性要求越高。
具体地,初始化关系的熵值、权重及相应的实体向量,将嵌入等势面由圆面优化为椭圆,再根据得分函数计算嵌入知识图谱嵌入模型的得分。
通过观察事实的最优合理性估计知识图谱嵌入模型的参数,找到最优模型以提升知识表示准确率,完成知识图谱的后续推理及补全任务。
例如,优化知识图谱的推理任务包括:三元组分类和链路预测。
如图2所示,首先将三元组Δ集作为输入,通过坐标的协同变换为S。其次,对关系进行正态转换并标准化,即
Figure BDA0003550538590000114
r←Normalize(r)。
对权重模型进行初始化参数值。采用一个循环,对标准化的头尾实体向量进行负采样
Figure BDA0003550538590000115
同时依据判定标准对嵌入参数进行不断更新。
例如,更新形式如公式:
Figure BDA0003550538590000116
Figure BDA0003550538590000117
若fr(h,t)+γ-fr,(h′,t′)≥0,则更新,直至找到合适的参数以最优化目标函数。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。本发明说明书包含多项发明构思,诸如“优选地”、“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。

Claims (10)

1.一种关系增强的知识图谱嵌入方法,其特征在于,所述方法至少包括:
将知识图谱的实体进行坐标的协同变换;
基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;
建立知识图谱嵌入模型的可解释机制,通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性;
采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
2.根据权利要求1所述的关系增强的知识图谱嵌入方法,其特征在于,所述将知识图谱的实体进行坐标的协同变换的步骤至少包括:
将实体和关系数据投射到低维稠密向量空间,
进行矩阵的正定分解和马氏距离标准化,使关系对和实体对的关联性增强;
将坐标进行欧拉变换的整合以提升表达复杂关系对应实体拓扑结构的准确性和语义丰富性。
3.根据权利要求1或2所述的关系增强的知识图谱嵌入方法,其特征在于,所述基于关系熵加权的方式进行关系核心增强的步骤至少包括:
将知识图谱中的实体围绕关系对进行加权处理以得到至少一个维度的向量熵值和权重;
构建实体和关系的均值矩阵,选取对应的协方差并构建协方差矩阵;
基于至少一个维度的向量熵值以计算权值并构建对角化矩阵,将由所述对角化矩阵与所述协方差矩阵结合构成的权重矩阵加入得分函数中,并且对实体的不同重要程度进行建模。
4.根据权利要求1~3任一项所述的关系增强的知识图谱嵌入方法,其特征在于,构建实体和关系的均值矩阵的方法还包括:
对不同维度且重要程度不同的向量进行表达,分别计算其向量均值,从而分别构建实体和关系的均值矩阵。
5.根据权利要求1~4任一项所述的关系增强的知识图谱嵌入方法,其特征在于,所述建立知识图谱嵌入模型的可解释机制的步骤至少包括:
通过主成分分析的方式将实体降维,以等势的形式在二维平面中表达,以确定关系对应的实体建模形式;
设置限制常数,将实体和关系在复平面中表示,基于欧拉变换的性质证明其收敛性;
以向量的形式将关系建模,并且对至少一种关系对进行公示推导以说明其建模能力和/或复杂关系对的推理能力。
6.根据权利要求1~5任一项所述的关系增强的知识图谱嵌入方法,其特征在于,所述方法还包括:
在将权重矩阵加入得分函数中后,以循环进行负采样的操作的方式优化参数。
7.根据权利要求1~6任一项所述的关系增强的知识图谱嵌入方法,其特征在于,计算至少一个维度的向量熵值和权重的方式包括:
设定训练集三元组T=(T1,T2,...,Tn),Ti是三元组(hi,ri,ti)的表示,
构建所述协方差矩阵为:
Figure FDA0003550538580000021
μ*i分别对应每个维度的头实体、关系和尾实体的向量平均值;
计算第j维熵值:
Figure FDA0003550538580000022
其中,pij表示权值,
Figure FDA0003550538580000023
Rij表示设定的关系集。
8.根据权利要求1~7任一项所述的关系增强的知识图谱嵌入方法,其特征在于,计算至少一个维度的向量熵值和权重的方式还包括:构建初始权重矩阵B:
Figure FDA0003550538580000031
其中,各维度向量的相对重要程度代表:
Figure FDA0003550538580000032
ej表示第j维熵值。
9.根据权利要求1~8任一项所述的关系增强的知识图谱嵌入方法,其特征在于,得分函数为:fr(h,t)=(|h+r-t|T)W(|h+r-t|),
其中,w=BTMc -1B表示基于熵值的权重矩阵,T表示训练集三元组,Ti是三元组(hi,ri,ti)的表示。
10.一种关系增强的知识图谱嵌入系统,其特征在于,至少包括处理器,所述处理器被配置为:
将知识图谱的实体进行坐标的协同变换;
基于关系熵加权的方式进行关系核心增强,以使实体向量有很强的关系特性;
建立知识图谱嵌入模型的可解释机制;通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性;
采用动态调整参数策略对知识图谱的向量进行表示学习,并且设置误差控制以保证嵌入的准确性。
CN202210275727.5A 2022-03-16 2022-03-16 一种关系增强的知识图谱嵌入方法及系统 Pending CN114691886A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210275727.5A CN114691886A (zh) 2022-03-16 2022-03-16 一种关系增强的知识图谱嵌入方法及系统
US17/821,633 US11797507B2 (en) 2022-03-16 2022-08-23 Relation-enhancement knowledge graph embedding method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210275727.5A CN114691886A (zh) 2022-03-16 2022-03-16 一种关系增强的知识图谱嵌入方法及系统

Publications (1)

Publication Number Publication Date
CN114691886A true CN114691886A (zh) 2022-07-01

Family

ID=82138566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210275727.5A Pending CN114691886A (zh) 2022-03-16 2022-03-16 一种关系增强的知识图谱嵌入方法及系统

Country Status (2)

Country Link
US (1) US11797507B2 (zh)
CN (1) CN114691886A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12086552B2 (en) * 2022-03-24 2024-09-10 International Business Machines Corporation Generating semantic vector representation of natural language data
CN117131936B (zh) * 2023-10-26 2024-01-30 天津工业大学 一种基于多层级类比推理的知识图谱嵌入方法
CN118193842B (zh) * 2024-04-02 2024-08-30 北京绿能碳宝科技发展有限公司 一种基于因果推理的可解释推荐方法和系统
CN118396122B (zh) * 2024-06-25 2024-09-03 湖南省第二测绘院 一种针对不同自然资源的知识推理方法及装置
CN118656406A (zh) * 2024-08-16 2024-09-17 山东科技大学 一种基于图卷积神经网络的个性化学习路径推荐方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4116841A4 (en) * 2020-03-03 2023-03-22 Fujitsu Limited MACHINE LEARNING PROGRAM, MACHINE LEARNING METHOD AND MACHINE LEARNING DEVICE
CN111680162B (zh) 2020-04-17 2023-10-03 清华大学 基于张量分解的知识图谱嵌入方法、系统及设备
WO2022029852A1 (ja) * 2020-08-03 2022-02-10 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
CN114916238A (zh) * 2020-12-07 2022-08-16 乐天集团股份有限公司 学习系统、学习方法和程序

Also Published As

Publication number Publication date
US20230297553A1 (en) 2023-09-21
US11797507B2 (en) 2023-10-24

Similar Documents

Publication Publication Date Title
CN114691886A (zh) 一种关系增强的知识图谱嵌入方法及系统
Evsukoff et al. Structure identification and parameter optimization for non-linear fuzzy modeling
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
CN111127364B (zh) 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN113496247B (zh) 估计生成对抗网络的隐含似然
Haff et al. Structure learning in Bayesian Networks using regular vines
CN108171010B (zh) 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
Khaldy et al. Resampling imbalanced class and the effectiveness of feature selection methods for heart failure dataset
Polsterer et al. Automatic galaxy classification via machine learning techniques: Parallelized rotation/flipping INvariant Kohonen maps (PINK)
CN106886793B (zh) 基于判别信息和流形信息的高光谱图像波段选择方法
Luo et al. Interpretability diversity for decision-tree-initialized dendritic neuron model ensemble
Deng et al. Enhanced multiview fuzzy clustering using double visible-hidden view cooperation and network LASSO constraint
CN108510080A (zh) 一种基于dwh模型对多关系型数据的多角度度量学习方法
Guo et al. Data mining and application of ship impact spectrum acceleration based on PNN neural network
Liu et al. Nonparametric functional approximation with Delaunay triangulation learner
CN115481256A (zh) 基于卷积四元数的逆向关系旋转嵌入知识表示方法及系统
Langseth et al. Latent classification models
CN109858543A (zh) 基于低秩稀疏表征和关系推断的图像可记忆度预测方法
CN112711667B (zh) 一种基于多向语义的知识图谱复杂关系推理方法
CN115329139A (zh) 一种基于群表示理论的知识图谱嵌入的方法
Cevallos Valdiviezo On methods for prediction based on complex data with missing values and robust principal component analysis
CN114037931A (zh) 一种自适应权重的多视图判别方法
CN113139556A (zh) 基于自适应构图的流形多视图图像聚类方法及系统
CN114327859A (zh) 云计算环境大规模问题代理优化的源模型聚类选择方法
Ma et al. Multi-spatial information joint guidance evolutionary algorithm for dynamic multi-objective optimization with a changing number of objectives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination