CN114691886A

CN114691886A - 一种关系增强的知识图谱嵌入方法及系统

Info

Publication number: CN114691886A
Application number: CN202210275727.5A
Authority: CN
Inventors: 赵峰; 金郎俊卿; 金海�
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-07-01
Also published as: US20230297553A1; US11797507B2

Abstract

本发明涉及一种关系增强的知识图谱嵌入方法及系统，所述方法至少包括：将知识图谱的实体进行坐标的协同变换；基于关系熵加权的方式进行关系核心增强，以使实体向量有很强的关系特性；建立知识图谱嵌入模型的可解释机制，通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性；采用动态调整参数策略对知识图谱的向量进行表示学习，并且设置误差控制以保证嵌入的准确性。本发明能够更准确地测算事实的合理性，从复杂关系对的角度对模型建模能力推理证明，能够进行实体与关系的向量计算完成知识图谱嵌入及推理。

Description

一种关系增强的知识图谱嵌入方法及系统

技术领域

本发明涉及知识图谱嵌入技术领域，尤其涉及一种关系增强的知识图谱嵌入方法及系统。

背景技术

知识图谱本质上是知识库的一种独特的图形表示，由实体(节点)和关系(边)组成，常常以知识三元组(h,r,t)为表现形式。它在人工智能的研究和应用中起到至关重要的作用。近年来，知识图谱得到大力发展且含有十分有价值的信息。随着在各领域的广泛应用，各种问题层出不穷，如有些知识图谱完备性不足，关系的依赖性不受重视，缺少部分有价值的事实；并且受限于闭合世界假设，无法预测新实体和关系，阻碍了知识图谱的更新和拓扑结构信息的丰富性，也极大程度地影响了知识图谱在诸多推理应用方面的准确性和可解释性。本发明基于关系增强的知识图谱嵌入方法，充分利用关系数据丰富的语义信息，对实体和复杂关系建模，多维度增强实体关系向量的语义关联和重要性，提升模型的可解释性。

知识图谱嵌入本质上是学习实体和关系的分布式表示，即实体嵌入和关系嵌入。在保存知识图谱拓扑信息的同时，在连续向量空间中的低维稠密向量或矩阵表示。对向量的计算预测实体、关系间的复杂语义信息，极大提高了知识图谱推理的计算效率、准确性和可解释性。实体和关系嵌入表示有利于多种任务的执行，包括知识图谱补全、关系抽取、实体分类和实体解析等。近年来，基于平移距离模型、几何模型、神经网络模型的相关技术一直是研究热点，平移距离模型利用基于距离的评分函数，对实体对间的关系执行平移操作后，通过实体对之间的距离度量事实的合理性。几何模型利用不同几何空间(如复平面、流形等)对实体和关系的拓扑结构进行建模。而神经网络模型以一种学习框架匹配实体潜在语义和向量空间表示关系以度量事实可信性。关系增强也越来越多用于知识图谱表示学习中，以关系为中心，结合维度的重要程度建模实体，使得关系预测的结果更加合理。但是对这个问题的研究仍处于初级阶段，还存在一些问题：1)现有模型存在度量方式简单造成得分评判不准确的问题，从而导致推理精度较低；2)这些模型均从单个实体-关系角度出发导致实体映射混乱，使得无法准确进行链路预测任务；3)由于可解释能力不足，模型的黑盒子会给研究者带来困扰。

例如，专利文献CN111680162A公开了基于张量分解的知识图谱嵌入方法、系统及设备。该发明实施例先获取当前知识图谱对应的张量；对张量进行Tucker分解，以得到分解后的张量；确定与分解后的张量对应的事实得分；根据事实得分对与预设知识图谱嵌入模型对应的嵌入向量进行更新，通过更新后的嵌入向量进行当前知识图谱的嵌入操作。该发明的研究核心是与知识图谱对应的张量，其根本是众多向量通过线性组合成的向量空间，通过此空间将所有的实体和关系(向量形式)统一表示，其计算主体也为矩阵(向量的线性组合)计算，因此这种统一表达无法适用于种类繁多的关系对表示学习，造成知识图谱嵌入质量不高、预测和补全准确度低，当然这也是大多现有方法不具备的。

基于现有技术的不足，本发明希望提供一种不同的知识图谱嵌入方法，致力于采用向量表示知识图谱的三元组(头实体，关系，尾实体)，有助于更细致地研究多种复杂关系对，通过将实体和关系降维至向量的形式，使得向量成为计算主体。通过向量形式的表达，本发明可以将各种类(例如：对称关系、反对称关系、组合关系等)关系对分别准确表示，从知识图谱的根本上提升嵌入质量，进而对预测和补全等任务也是大有好处。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于申请人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

现有的知识图谱嵌入方法从单个实体-关系角度出发(以实体为中心)导致实体映射混乱的问题，使得在处理N-to-N关系的链路预测时，无法准确预测正确实体，且由于忽略了实体间重要程度，面向复杂关系对的推理效果也有所欠缺。

针对现有技术之不足，本发明提供了一种关系增强的知识图谱嵌入方法，所述方法至少包括：

将知识图谱的实体进行坐标的协同变换；

基于关系熵加权的方式进行关系核心增强，以使实体向量有很强的关系特性；

建立知识图谱嵌入模型的可解释机制；通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性；

采用动态调整参数策略对知识图谱的向量进行表示学习，并且设置误差控制以保证嵌入的准确性。

本发明针对知识图谱中存在拓扑结构知识不完备，多对多实体匹配不准确等问题，提供了一种复杂关系增强的知识图谱嵌入方法及系统，通过将实体坐标进行欧拉变换，准确表达复杂关系对应实体的拓扑结构，此过程也是整个知识图谱嵌入模型的数据基础；围绕关系进行熵加权处理，基于关系建立协方差矩阵，计算每个维度向量熵值和权重，继而构建权重矩阵，加入到得分函数，以更准确地测算事实的合理性。此外，从复杂关系对的角度对模型建模能力推理证明，最后进行实体与关系的向量计算完成知识图谱嵌入及推理。

优选地，所述将知识图谱的实体进行坐标的协同变换的步骤至少包括：

将实体和关系数据投射到低维稠密向量空间，

进行矩阵的正定分解和马氏距离标准化，使关系对和实体对的关联性增强；

将坐标进行欧拉变换的整合以提升表达复杂关系对应实体拓扑结构的准确性和语义丰富性。

优选地，所述基于关系熵加权的方式进行关系核心增强的步骤至少包括：

将知识图谱中的实体围绕关系对进行加权处理以得到至少一个维度的向量熵值和权重；

构建实体和关系的均值矩阵，选取对应的协方差并构建协方差矩阵；

基于至少一个维度的向量熵值计算权值并构建对角化矩阵，将由所述对角化矩阵与所述协方差矩阵结合构成的权重矩阵加入得分函数中，并且对实体的不同重要程度进行建模。

本发明中，通过将知识图谱中的实体围绕关系对进行加权处理的方式，实现了知识图谱中的关系增强。本发明中通过构建协方差矩阵，为优化权值和构建权重矩阵提供了联合与支撑3。本发明还通过将权重矩阵加入得分函数中，使其富有关系特性。

优选地，构建实体和关系的均值矩阵的方法包括：对不同维度且重要程度不同的向量进行表达，分别计算其向量均值，从而分别构建实体和关系的均值矩阵。

优选地，所述建立知识图谱嵌入模型的可解释机制的步骤至少包括：

通过主成分分析的方式将实体降维，以等势的形式在二维平面中表达，以确定关系对应的实体建模形式；

设置限制常数，将实体和关系在复平面中表示，基于欧拉变换的性质证明其收敛性；

以向量的形式将关系建模，并且对至少一种关系对进行公示推导以说明其建模能力和/或复杂关系对的推理能力。

本发明通过建立知识图谱嵌入模型的可解释机制，并且通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性。

优选地，所述方法还包括：

在将权重矩阵加入得分函数中后，以循环进行负采样的操作的方式优化参数。通过进行负采样的操作，进行循环以寻找更适合的参数。

优选地，计算至少一个维度的向量熵值和权重的方式包括：

设定训练集三元组T＝(T₁,T₂,...,T_n)，T_i是三元组(h_i,r_i,t_i)的表示，

构建所述协方差矩阵为：

μ_*i分别对应每个维度的头实体、关系和尾实体的向量平均值；

计算第j维熵值：

其中，p_ij表示权值，

R_ij表示设定的关系集，l表示---------。

优选地，初始权重矩阵B的构建方式还包括：

其中，各维度向量的相对重要程度代表：

e_j表示第j维熵值。

优选地，得分函数为：f_r(h,t)＝(|h+r-t|^T)W(|h+r-t|)，

其中，W＝B^TM_c ^-1B表示基于熵值的权重矩阵，T表示训练集三元组，T_i是三元组(h_i,r_i,t_i)的表示。

与现有技术明显不同之处在于，本发明将基于熵值的权重矩阵放入得分函数中。本发明采用向量表示知识图谱的三元组(头实体，关系，尾实体)，通过将实体和关系降维至向量的形式，以向量为计算主体进行计算。本发明通过采用向量形式进行表达，能够将各种类(例如：对称关系、反对称关系、组合关系等)关系对分别准确表示。因此，本发明从知识图谱的根本上提升了嵌入质量，进而有利于预测和补全等任务的进行。

本发明还提供一种关系增强的知识图谱嵌入系统，至少包括处理器，所述处理器被配置为：

将知识图谱的实体进行坐标的协同变换；

建立知识图谱嵌入模型的可解释机制，通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性；

本发明的关系增强的知识图谱嵌入系统，其处理器执行与知识图谱嵌入方法对应的程序，能够有效、准确地测算事实的合理性。

附图说明

图1是本发明提供的一种知识图谱的嵌入模型的结构示意图；

图2是本发明提供的一种知识图谱嵌入系统的训练方法的逻辑示意图；

图3是本发明提供的初始状态的等势面可视化的示意图；

图4是本发明提供的经过第一次马氏距离加权步骤处理后形成的等势面可视化的示意图；

图5是本发明提供的经过第一次坐标的协同变化步骤后形成的等势面可视化的示意图；

图6是本发明提供的进行熵加权步骤处理后形成的等势面可视化的示意图。

附图标记列表

1：坐标整合；2：联合与支撑；3：基础；10：第一模块；20：第二模块；30：第三模块；40：第四模块；50：实体/关系集；60：关系权重矩阵。

具体实施方式

下面结合附图进行详细说明。

本发明提供一种关系增强的知识图谱嵌入方法及系统。本发明还能够提供一种关系增强的知识图谱嵌入模型的构建方法及应用。

本发明的关系增强的知识图谱嵌入系统，包括至少一个处理器。处理器还可以设置为若干个处理器模块。

处理器运行并执行关系增强的知识图谱嵌入方法的程序。

本发明还提供一种电子设备，至少包括处理器和存储组件，处理器运行由存储组件存储的关系增强的知识图谱嵌入方法的程序。

本发明还提供一种存储介质，用于存储关系增强的知识图谱嵌入方法的程序。

处理器被配置为：

将知识图谱的实体进行坐标的协同变换；

建立知识图谱嵌入模型的可解释机制；

当处理器由若干个模块构成时，能够分别执行不同的步骤的程序。

例如，如图1所示，第一模块10，用于将知识图谱的实体进行坐标的协同变换，实现坐标整合1；第二模块20，用于基于关系熵加权的方式进行关系核心增强，以使实体向量有很强的关系特性；第三模块30，建立知识图谱嵌入模型的可解释机制；第四模块10，用于采用动态调整参数策略对知识图谱的向量进行表示学习，并且设置误差控制以保证嵌入的准确性。

本发明中，第一模块10、第二模块20、第三模块30和第四模块10均可以是微型处理器、专用集成芯片、具有处理能力的其他处理元件等等。

本发明的关系增强的知识图谱嵌入系统的运行如图2所示，

S1：将原始实体关系向量投入到连续空间，将得到的实体/关系集作为输入。在此过程中，进行矩阵的正定分解和马氏距离标准化，使关系对和实体对的关联性增强。

其中，将知识图谱嵌入模型的训练目标定义为一个新的得分函数，具体形式如下：得分函数的值越小，则三元组成立的可能性越高，同时链路预测的准确度也越高。

S2：进行初始化，得到关系权重矩阵60。

S3：在将关系权重矩阵作为基础2加入得分函数中后，以循环进行负采样的操作的方式优化参数。

S4：根据嵌入标准判定是否需要更新嵌入参数以结束循环；若不需要更新，则循环结束。

本发明中，将知识图谱的实体进行坐标的协同变换的方法包括：

将实体和关系数据投射到连续的低维稠密向量空间，进行矩阵的正定分解和马氏距离标准化，使关系对和实体对的关联性增强；将坐标进行欧拉变换的整合以提升表达复杂关系对应实体拓扑结构的准确性和语义丰富性。

例如，欧拉变换的过程包括：首先借助自然对数和复空间中虚数单位，将欧拉变换应用到向量的坐标，再从拓扑结构的层次角度学习实体相关描述信息，结合复杂关系对的表示学习，以对向量进行语义增强，同时提升了各种复杂关系对结构的表示准确度。

S11：矩阵进行正定分解。

例如：首先考虑到矩阵的正定性和对称性，计算出矩阵的特征值，分解过程会消除语义空间中的实体/关系向量对应正定矩阵的局限性和误差的过分积累，提升该过程的准确性和完备性。

S12：矩阵进行马氏距离标准化。

结合正定分解的特征值结果，计算各种特性(特征值)间的关联度，进而排除实体/关系向量间相关性的干扰，使得关系和实体间的关联性增强。

本发明通过将实体向量构成的矩阵进行QS正定分解，继而对马氏距离进行标准化，最后对实体坐标通过欧拉变换进行整合，能够提高表达复杂关系对应实体的拓扑结构的准确性。

S21：基于关系熵加权的方式进行关系核心增强，基于关系建立协方差矩阵。

S22：计算每个维度向量熵值和权重，继而构建权重矩阵。

具体地，将知识图谱中的实体围绕关系对进行加权处理以得到至少一个维度的向量熵值和权重。

例如，基于关系建立KL散度，计算每个维度向量熵值和权重

设定训练集三元组T＝(T₁,T₂,...,T_n)，每个T_i是三元组(h_i,r_i,t_i)的表示。以关系为发起点，设定关系集{R_ij}＝[r_i1,...,r_im]，其中r_i1,...,r_im对应m维的关系。

定义协方差矩阵为：

μ_*i分别对应每个维度的头实体、关系和尾实体的向量平均值。

一个维度的权值

即，基于关系R_ij能够得到维度的权值p_ij。

基于权值p_ij来计算熵值。

e_j表示第j维熵值。熵值越小，表示权值越大。

对不同维度且重要程度不同的向量进行表达，每个向量均由其在语义空间(由向量空间表示)中的数值合并表示，然后分别计算其向量的均值，结合后续的协方差表示形式构建均值矩阵。

例如，向量表达为：

和[h_i-μ_hi,r_i-μ_ri,t_i-μ_ti]。

选取对应的协方差构建协方差矩阵。

例如，选取对应的协方差的方法包括：选用空缺数据点最少的向量，将空缺点标记为范围在0到1的随机数。如此选取协方差，能够补全该向量，进而计算与头实体、关系和尾实体向量对应的均值，最终实现协方差矩阵的计算。

具体地，结合不同维度的权值p_ij计算出熵值e_j。根据特征值构建对角化的矩阵，将该对角化矩阵与协方差矩阵结合构成最终的权重矩阵。

各维度向量的相对重要程度代表为特征值b_j。

即由熵值e_j能够计算出特征值b_j。

由特征值b_j构建第j维的对角化矩阵B。B为初始权重矩阵。

其中n表示维度的总数，j∈[1,2,…,n]。

将权重矩阵加入到得分函数中，使其富有关系特性，同时对实体的不同重要程度进行建模。

该对角化矩阵与协方差矩阵结合，得到权重矩阵W。W＝B^TM_c ^-1B。用W表示为基于熵值的权重矩阵，此处W是最终的权重矩阵。由包含实体、向量的协方差矩阵M_c和包含熵值表示的初始权重矩阵联合计算而来的矩阵即为最终的基于熵值权重矩阵。

将权重矩阵带入得分函数中，得到：

f_r(h,t)＝(|h+r-t|^T)B^TM_c ^-1B(|h+r-t|)＝(|h+r-t|^T)W(|h+r-t|)。

在将权重矩阵加入得分函数中后，以循环进行负采样的操作的方式优化参数。

本发明利用关系熵加权的方式进行关系增强，提升了知识图谱拓扑结构表示向量的语义丰富性；并且基于关系建立协方差矩阵，计算每个维度向量熵值和权重，构建了与现有技术完全不同的权重矩阵。

建立知识图谱嵌入模型的可解释机制，通过证明知识图谱嵌入模型的收敛性说明关系增强的有效性和可行性。

通过主成分分析的方式将实体降维，以等势的形式在二维平面中表达，以确定关系对应的实体建模形式。

例如，S31：进行等势面转换。

选取例关系形成嵌入等势面可视化，如图3～图6所示，原始f_r(h,t)＝‖h+r-t‖₂模式得到的是圆形等势面，进行普通实体加权后变为椭圆等势面f，可以避免少数错误的实体匹配，但是表现仍不足。

因此，首先进行坐标协同变换，旋转坐标重新变为圆形等势面，此时对于关系熵加权，再次改善为椭圆等势面f，发现更多的错误被避免，达到提升准确率的目的。此外，通过图3和图6的对比可以发现，大大减少了错误三元组匹配的发生。

图3至图6中，星形点表示错误三元组，圆形点表示正确的三元组，曲线表示等势面。图3是初始的等势面可视化情况，其对应的模型是TransE。

图3所表示的嵌入等势面的若干三元组经过第一次马氏距离加权步骤处理，表示为图4中的嵌入等势面的若干三元组。等势面为椭圆等势面，此时错误的三元组即星形点的数量由图3中的10个变为图4中的6个。

图4所表示的嵌入等势面的若干三元组经过第一次坐标的协同变化步骤后，表示为图5中的嵌入等势面的若干三元组。图5中，等势面恢复圆形。

图5中的嵌入等势面的若干三元组进行熵加权形成图6中的嵌入等势面的若干三元组，此时的椭圆等势面内的错误点即星形点的数量已经减少为2个点。相比于图3中的初始的状态，大大避免了错误的三元组匹配。

设置限制常数，将实体和关系在复平面中表示，基于欧拉变换的性质证明其收敛性。

由于本模型由TransE衍生，所以若想分享相似的训练过程和推理，必须证明TransCE的得分函数收敛于TransE，则将公式扩展到复平面。

例如，借助三角函数和欧拉性质证明出：

最后完成证明。

以向量的形式将关系建模，并且对至少一种关系对进行公示推导以说明复杂关系对的推理能力。

例如，采用函数和其逆函数，分别证明满足对称/反对称的等式：r(h,t)＝r(t,h)，如果

r₁＝r₂，则为反对称；

互逆的等式：r₁(h,t)＝r₂(t,h)；

组合的等式：

结合正交矩阵的性质(M_S·M_S ^T＝I，其中M_S是正交关系特性的矩阵)，分别证明出：

对称/反对称的关系式：M_S＝M_S ^T；

互逆的关系式：

组合的关系式：

由此完成可解释的证明。

本发明结合复杂关系对的公式推理，确定实体的建模形式，建立；模型的可解释机制，通过证明模型的收敛性说明关系增强的有效性和可行性。

误差控制与关系向量特征相关，即对于复杂关系对情况，实体重要程度即权重较大，误差控制精确性要求越高。

具体地，初始化关系的熵值、权重及相应的实体向量，将嵌入等势面由圆面优化为椭圆，再根据得分函数计算嵌入知识图谱嵌入模型的得分。

通过观察事实的最优合理性估计知识图谱嵌入模型的参数，找到最优模型以提升知识表示准确率，完成知识图谱的后续推理及补全任务。

例如，优化知识图谱的推理任务包括：三元组分类和链路预测。

如图2所示，首先将三元组Δ集作为输入，通过坐标的协同变换为S。其次，对关系进行正态转换并标准化，即

r←Normalize(r)。

对权重模型进行初始化参数值。采用一个循环，对标准化的头尾实体向量进行负采样

同时依据判定标准对嵌入参数进行不断更新。

例如，更新形式如公式：

若f_r(h，t)+γ-f_r，(h′，t′)≥0，则更新，直至找到合适的参数以最优化目标函数。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。本发明说明书包含多项发明构思，诸如“优选地”、“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思，申请人保留根据每项发明构思提出分案申请的权利。