CN109840282A

CN109840282A - 一种基于模糊理论的知识图谱优化方法

Info

Publication number: CN109840282A
Application number: CN201910154244.8A
Authority: CN
Inventors: 王大玲; 王楚; 冯时; 张一飞
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-04

Abstract

本发明提出一种基于模糊理论的知识图谱优化方法，包括：获取训练集三元组数据，并对所有三元组数据预处理；基于模糊关系合成的知识图谱构建，获得知识图谱的模糊关系；基于损失函数，最小化目标优化函数，获得优化后的三元组向量，即为优化后的知识图谱的三元组集合。本发明使用模糊向量的运算方法来对各维训练数据进行运算，将模糊逻辑中赋予数据的语义信息与深度学习理论相结合，实验表明，采用本发明的基于模糊理论的知识图谱优化方法，所获得的知识图谱更加全面和准确，优化后的知识图谱在链接预测和三元组分类方面具有更高的准确率。

Description

一种基于模糊理论的知识图谱优化方法

技术领域

本发明属于知识管理和信息检索领域，具体涉及一种基于模糊理论的知识图谱优化方法。

背景技术

知识图谱的初衷是为了阐述现实世界中各种存在的实体之间、关系之间以及实体与关系的属性的联系，其利用三元组中的关系来描述“头实体”和“尾实体”所具有的具体联系，其主要实现的目标是改进搜索引擎，使其搜索结果的准确性和用户搜索体验得到提高，其中涉及分类和预测等多种具体应用。

目前的知识图谱算法大多数都是基于三元组(头实体，关系，尾实体)形式的，实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。目前这种三元组的表达方式越来越流行，例如万维网联盟(W3C)发布的资源描述框架(RDF)技术标准。特别是在谷歌提出知识图谱的概念后，这种表达形式更是被广泛接受。

然而现有的知识图谱技术大多基于深度学习算法构建，并且将其中的每个向量中每一维的数据都孤立地看待，这就使得想要构建效果更好的知识图谱的过程往往需要更多的训练时间和更大规模的训练集。

发明内容

基于以上技术不足，本发明引入模糊理论的思想，提出一种基于模糊逻辑和模糊向量的模型，使用模糊向量的运算方法来对各维训练数据进行运算，将模糊逻辑中赋予数据的语义信息与深度学习理论相结合，减少了训练的复杂程度，缩短了训练时间。

一种基于模糊理论的知识图谱优化方法，具体步骤如下：

步骤1：获取训练集三元组数据，并对所有三元组数据预处理，包括步骤1.1～步骤1.2：

步骤1.1：获取训练集三元组数据，将所有三元组随机初始化，将三元组随机初始化成两组不同的向量，一组用来构建三元组本身，另一组用来构建在模糊空间的三元组模糊投影，具体过程如下：

设有p个三元组(h_i,r_i,t_i)，i＝1,2,...,p，h_i表示头实体，r_i表示关系，t_i表示尾实体，(h_i,r_i,t_i)表示h_i和t_i具有r_i关系，采用模糊矩阵的乘积的形式表示双重模糊集在模糊关系中的合成，即：对于模糊向量l_t和f_r，l_t在f_r上的投影表示为对于任意模糊变量a∈l_t和b∈f_r，设-1≤a≤b≤1时有：

对于每一个三元组(h,r,t)所对应的向量分别初始化：h对应初始化为h和h_m；r对应初始化为r和r_m；t对应初始化为t和t_m，其中，带有m下标的向量表示用来构建映射矩阵的元素，不带m下标的代表元素本身的向量；且h与h_m均∈R^k，t与t_m均∈R^k，r与r_m均∈Rⁿ,k和n分别表示实体向量和关系向量的维度，k＝n,且h、h_m、t、t_m、r、r_m均被设定为列向量。

步骤1.2：向量归一化；对h、h_m、r、r_m、t和t_m分别进行归一化操作，归一化公式为：x＝x/||x||，其中，x＝h或h_m或r或r_m或t或t_m，归一化后的h、h_m、r、r_m、t和t_m数值范围如下：h≤1，h_m≤1，r≤1，r_m≤1，t≤1，t_m≤1。

步骤2.基于模糊关系合成的知识图谱构建，获得知识图谱的模糊关系，包括步骤2.1～步骤2.2：

步骤2.1：模糊投影：将归一化后得到的h_m和t_m分别对r_m进行模糊投影，得到两个模糊矩阵F_hr和F_tr，具体过程和原理如下：

将h_m和t_m分别对r_m进行模糊投影，分别得到如下两个模糊矩阵F_hr和F_tr：

其中，h^T为h的转置，形似模糊矩阵的乘积，这里X为r_m，Y为或者

步骤2.2：模糊关系合成：将两个模糊矩阵F_hr和F_tr分别与h^T和t^T进行模糊关系合成，在得到投影空间之后，通过分别计算对头实体和尾实体的模糊空间F_hr和F_tr的映射的方法来进行模糊关系合成，具体公式如下：

其中，l_hr为模糊空间F_hr与h^T的模糊关系，l_tr为模糊空间F_tr与t^T的模糊关系。

步骤3：基于损失函数，最小化目标优化函数，获得优化后的三元组向量，即为优化后的知识图谱的三元组集合，包括步骤3.1～步骤3.3：

步骤3.1：定义损失函数f_r(h,t)：

步骤3.2：定义基于边缘损失函数的目标优化函数：使用TransH提出的最大距离方法，即假设在训练集中有p个三元组(h_i，r_i，t_i)，i＝1,2,…,p，若该三元组被正确划分，则设判别结果y＝1；若是该三元组被错误划分，则设y＝0；由于训练集中存在的三元组都是被正确划分的三元组，记为S，所以为了对在测试集中可能出现的错误进行预判训练，将选取部分三元组，将他们的头尾实体和其他的三元组的头尾实体进行调换，得到；一些被错误划分的三元组集合S^-，具体表示如下：

S^-＝{(h_i,r_j,t_j)|h_i≠h_j∧y＝1}∪{(h_j,r_j,t_i)|h_i≠h_j∧y＝1} (5)

在公式(5)基础之上，基于边缘损失函数的目标优化函数定义如下：

其中，(h,r,t)表示正确三元组，(h′,r′,t′)表示通过公式(5)生成的错误三元组，max(a,b)表示返回a和b中较大的值，γ是边缘参数，表示正确三元组与错误三元组之间的距离；

步骤3.3：最小化目标优化函数：使用随机梯度下降的方法来得到最小化的目标优化函数L值，达到目标函数的优化；所述随机梯度下降算法的过程如下：在给定的训练样本集M中，随机选取其中N个样本作为新的训练样本集，去替代原训练样本集M，以完成梯度下降算法模型进行训练；在知识图谱中，随机梯度下降算法是对损失函数f_r(h,t)进行参数优化；设置最大迭代次数，按照梯度反方向更新参数w直到如下函数收敛为止，并输出优化后的三元组向量，即为优化后的知识图谱的三元组集合；

其中，w表示需要优化的参数，而w′表示优化后得到新的参数的值，λ表示学习速率，表示对损失函数f_r(h,t)求导的结果。

有益技术效果：

本发明使用模糊向量的运算方法来对各维训练数据进行运算，将模糊逻辑中赋予数据的语义信息与深度学习理论相结合。实验表明，采用本发明的基于模糊理论的知识图谱优化方法，所获得的知识图谱更加全面和准确，优化后的知识图谱在链接预测和三元组分类方面具有更高的准确率。

附图说明

图1为本发明实施例的基于模糊理论的知识图谱构建方法总体框图；

图2为本发明实施例的一种基于模糊理论的知识图谱优化方法流程图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明，对于该知识图谱优化方法，本发明的出发点是考虑每个实体具有多个不同的属性，不同的属性分别对应不同的关系，不同的关系所对应的各种属性的侧重点也不同，采用模糊理论将深度学习开始建模的阶段模糊化。基于此提出一种基于模糊理论的知识图谱优化方法，如图1与图2所示，具体步骤如下：

步骤1：获取训练集三元组数据，并对所有三元组数据预处理。本步骤的主要目的是为在模糊空间构建三元组模糊投影准备数据，包括步骤1.1～步骤1.2：

步骤1.1：获取训练集三元组数据，将所有三元组随机初始化，将三元组随机初始化成两组不同的向量，一组用来构建三元组本身，另一组用来构建在模糊空间的三元组模糊投影。具体过程如下：

设有p个三元组(h_i,r_i,t_i)，i＝1,2,...,p，h_i表示头实体，r_i表示关系，t_i表示尾实体，(h_i,r_i,t_i)表示h_i和t_i具有r_i关系。本发明使用了双重模糊理论。由于基于深度学习和随机梯度下降理论的值域是[-1,1]，而传统的模糊理论值域是[0,1]，所以这里将传统的模糊理论值域进行扩充，使之适合于所需的值域。本发明将[-1,0]视为负极性尺度，将[0,1]视为正极性尺度，0视为中立。本发明采用模糊矩阵的乘积的形式表示双重模糊集在模糊关系中的合成，即：对于模糊向量l_t和f_r，l_t在f_r上的投影表示为对于任意模糊变量a∈l_t和b∈f_r，设-1≤a≤b≤1时有：

本发明将知识图谱中三元组的每个元素，即实体和关系都分别初始化成两个向量，其中，一个向量用来表示该元素，另一个向量用来构建映射矩阵。也就是说，对于每一个三元组(h,r,t)所对应的向量分别初始化：h对应初始化为h和h_m；r对应初始化为r和r_m；t对应初始化为t和t_m，其中，带有m下标的向量表示用来构建映射矩阵的元素，不带m下标的代表元素本身的向量。且h与h_m均∈R^k，t与t_m均∈R^k，r与r_m均∈Rⁿ,k和n分别表示实体向量和关系向量的维度，k＝n,且h、h_m、t、t_m、r、r_m均被设定为列向量。

步骤1.2：向量归一化。对h、h_m、r、r_m、t和t_m分别进行归一化操作，归一化公式为：x＝x/||x||，其中，x＝h或h_m或r或r_m或t或t_m，归一化后的h、h_m、r、r_m、t和t_m数值范围如下：h≤1，h_m≤1，r≤1，r_m≤1，t≤1，t_m≤1。

步骤2.基于模糊关系合成的知识图谱构建，获得知识图谱的模糊关系。本步骤的主要目的是通过模糊投影、设定并最小化损失函数来获得知识图谱的三元组集合。包括步骤2.1～步骤2.2：

步骤2.1：模糊投影：将步骤1.2中归一化后得到的h_m和t_m分别对r_m进行模糊投影，得到两个模糊矩阵F_hr和F_tr，具体过程和原理如下：

其中，h^T为h的转置，形似模糊矩阵的乘积，这里X为r_m，Y为或者但是由于X和Y都只是向量，所以计算结果实际上只是利用行列向量构建一个矩阵，这个步骤实际上是和经典代数中的行列向量相乘构成的矩阵是一样的。然后，为了避免所构成的模糊矩阵F_hr和F_tr可能形成的空矩阵情况，本发明将向量相乘所得到矩阵的对角线元素与单位模糊矩阵进行模糊并运算，就可以分别得到头向量的模糊投影矩阵F_hr和尾向量的模糊投影矩阵F_tr。

步骤3：基于损失函数，最小化目标优化函数，获得优化后的三元组向量，即为优化后的知识图谱的三元组集合；本步骤的主要目的是通过进一步的基于边缘损失函数的目标优化来保证和增大目标知识图谱的区分能力，获得最优的三元组。包括步骤3.1～步骤3.3：

步骤3.1定义损失函数，通过迭代运算，尽可能让模糊关系合成后的头实体l_hr在关系l_r的作用下推导出尾实体l_tr，即：l_hr+l_r≈l_tr。具体过程和原理如下：

基于向量的平移不变性，在本发明中，对6个向量进行随机进行初始化以后，通过迭代运算尽可能的让l_hr+l_r≈l_tr。为此，定义损失函数f_r(h,t)：

显然，f_r(h,t)越小，l_hr+l_r与l_tr越接近。需要说明的是，在这里依然使用代数运算而不是模糊运算。同时，在每一次迭代的最后，均使用归一化操作使得||h||₂≤1，||h_m||₂≤1，||r||₂≤1，||r_m||₂≤1，||l_hr||₂≤1，||l_tr||₂≤1。

步骤3.2：定义基于边缘损失函数的目标优化函数。与其他经典算法类似，在实际的训练过程中，为了保证和增大目标知识图谱的区分能力，本发明使用TransH提出的最大距离方法，即假设在训练集中有p个三元组(h_i，r_i，t_i)，i＝1,2,…,p，若该三元组被正确划分，则设判别结果y＝1；若是该三元组被错误划分，则设y＝0。由于训练集中存在的三元组都是被正确划分的三元组，记为S，所以为了对在测试集中可能出现的错误进行预判训练，将选取部分三元组，将他们的头尾实体和其他的三元组的头尾实体进行调换，得到的自然是一些被错误划分的三元组集合S^-，具体表示如下：

S^-＝{(h_i,r_j,t_j)|h_i≠h_j∧y＝1}∪{(h_j,r_j,t_i)|h_i≠h_j∧y＝1} (5)

其中，(h,r,t)表示正确三元组，(h′,r′,t′)表示通过公式(5)生成的错误三元组，max(a,b)表示返回a和b中较大的值，γ是边缘参数，表示正确三元组与错误三元组之间的距离。

步骤3.3：最小化目标优化函数：使用随机梯度下降的方法来得到最小化的目标优化函数L值，达到目标函数的优化。所述随机梯度下降算法的过程如下：在给定的训练样本集M中，随机选取其中N个样本作为新的训练样本集，去替代原训练样本集M，以完成梯度下降算法模型进行训练；在知识图谱中，随机梯度下降算法是对损失函数f_r(h,t)进行参数优化；设置最大迭代次数，按照梯度反方向更新参数w直到如下函数收敛为止，并输出优化后的三元组向量，即为优化后的知识图谱的三元组集合；

本发明一种基于模糊理论的知识图谱优化方法，具体实施即TransF的算法的实现。下面给出TransF算法伪代码表示，针对该算法编程即可实现基于模糊理论的知识图谱优化，得到新的知识图谱即新的三元组向量，如表1所示：

表1一种基于模糊理论的知识图谱优化方法伪代码表示：

这里通过实验证实本发明TransF的优势。

本发明所使用的实验设备是一台具有8Gb RAM和i5-4590T CPU的计算机，其中包含4个具有2.00GHz的处理器。本发明选取的两个数据集分别是普林斯顿的Miller于1995年提出的WordNet数据集和Bollacker等提出的FreeBase数据集。WordNet本身就是一个数量庞大的知识图谱结构，其中每个实体都是由几个单词构成的近义词集合组成，分别对应着单词不同的含义。WordNet中的关系表示的是词汇之间的相互关系，比如上位词、缩写等等。Freebase数据集表示的是人类社会的大量客观现实，比如(Beijing,Location,China)，Location表示的就是头实体Beijing和尾实体China的关系。

实验从WordNet中选取了WN11和WN18两个数据集，WN11数据集有11种关系，WN18有18种关系。又在Freebase中选取了FB13和FB15K两个数据集，FB13数据集有13种关系，FB15K有15K种关系。表2展示了四个数据集的基本信息。

表2本发明实验所用的4个数据集

数据集	关系	实体	训练集	验证集	测试集
						WN11	11	38,696	112,581	2,609	10,544
WN18	13	40,943	141,442	5000	5000
						FB13	18	75,043	316,232	5908	23,733
FB15K	1345	14,951	483,142	50,000	59,071

实验采用的衡量指标包括：(1)Top@k准确率是指在返回的实体结果中，排在最前面的k个结果拥有正确实体中的总数与实验实体的总数N的比值；(2)平均排序(MeanRanks)是指在实验所得到的任意一个三元组返回所有结果中，三元组中正确实体在所有实体n中排序的均值。

三元组分类测试是典型的知识图谱的测试指标，具体地，就是对测试集中的一个三元组进行判断，看其是合法三元组还是错误三元组，如果判断正确就得到1，反之就得到0，最后根据判断的准确率来衡量知识图谱模型的性能。在本发明的实验中，由于在构造WN11和FB13数据集时已经将其测试集分成了合法数据集和错误数据集，所以就可以利用其对分类结果进行直接计算。而在计算的过程中需要对判断分类函数的阈值δ_r进行设置，根据前文所述，翻译模型用来判断一对实体是否存在某种关系就是根据式(6)来计算三者的损失函数f的结果来确定的。所以，本实验将验证集中达到准确率最高时候的f_r设为阈值δ_r，凡是三元组的损失函数小于δ_r的，都认为是合法的三元组，反之则是错误三元组。

本实验选择使用Zeiler M D提出的随机梯度下降学习方法，并且对于WN11的数据集，所设置的参数取值分别为：边缘参数γ＝1，向量维度k＝n＝50，取L₁为相似性度量距离。对于FB13数据集，边缘参数γ＝2，向量维度k＝n＝100，取L₂为相似性度量距离。设定训练的迭代次数是1000次。

将本发明提出的算法和之前的经典知识图谱算法进行比较，表3展示了三元组分类的实验结果。

表3三元组分类在WN11和FB13上的结果(％)

	SE	SME	SLM	LFM	TransE	TransH	TransR	TransD	TransF
										WN11	53	70	69.9	73.8	75.9	78.8	85.9	86.4	86.8
FB13	75.2	63.7	85.3	84.3	81.5	83.3	82.5	89.1	84.7

链路预测也是知识图谱领域的常用衡量方法，其基本思想是通过已知一个实体和一个关系来预测三元组中的另一个实体，并根据其预测结果来评价知识图谱模型的好坏。在具体的实验设计中，本发明将测试集的头实体h和尾实体t依次替换成数据集中的所有实体，然后依次计算替换实体后的三元组的相似性，并对其进行降序排列，以此来观察原始的三元组所处的排序位置，并判断链路预测的结果好坏。和最开始TransE的方法所论述的类似，本实验也采取了平均排名和前十准确率两个评测指标。这里平均排名指的是测试集中所有三元组的正确结果在本实验的链路预测中排名的均值，记为Mean ranks，可以看出，这个数据越小，表示实验结果越好。前十准确率指的是正确结果出现在本章实验预测的结果中的前十名的概率，这里将其记为Hits@10，这个结果是越大越好。

但是本实验还要面临另外一个问题，就是在设定的链路预测实验中，每个三元组都只有一个提前预设好的结果，就是完全要与数据集中的原三元组保持一致，但是实际上，当已知一个实体和一个关系的情况下，另一个实体往往也并不是固定不变的。比如测试集中存在三元组(中国，城市，北京)，当隐去实体“北京”并试图将其通过链路预测出来时，出现了这样的结果(中国，城市，上海)，人们当然不能认为这个结果是错误的，而这很可能原本就是出现在数据集中其他位置的一个三元组，因此，本实验就将这个数据进行过滤。所以在本小节中将原始的数据记为Raw，已过滤的记为Filter。

在本实验中使用了WN18和FB15K的数据集。在实验中依然使用了Zeiler M D所提出的随机梯度下降方法，并且对于WN18数据集，设置边缘参数γ＝2，向量维度k＝n＝50，取L₁为相似性度量距离。对于FB15K，设置边缘参数γ＝4，向量维度k＝n＝100，取L₂为相似性度量距离。训练迭代次数同样为1000次。

三元组链路预测实验结果如表4所示。

通过实验还可以看出本发明在WordNet数据集的表现强于在Freebase的表现，这是因为本发明提出的方法更适合于WordNet那种数据集规模不是很大的场合。

在链路预测的实验中，本发明提出的方法在过滤后的数据集中的表现更加出色，这就是模糊逻辑的优势。众所周知，数据过滤后的实验结果更加符客观现实和人类的认知现实。而且总体来看，在链路预测实验中，Mean Ranks的实验结果更加优秀，这也证明了在应用模糊理论后，通过模糊化处理，预测的结果往往方差更小，更多的集中于正确的结果附近。

表4链路预测的实验结果(％)

Claims

1.一种基于模糊理论的知识图谱优化方法，其特征在于，具体步骤如下：

对于每一个三元组(h,r,t)所对应的向量分别初始化：h对应初始化为h和h_m；r对应初始化为r和r_m；t对应初始化为t和t_m，其中，带有m下标的向量表示用来构建映射矩阵的元素，不带m下标的代表元素本身的向量；且h与h_m均∈R^k，t与t_m均∈R^k，r与r_m均∈Rⁿ,k和n分别表示实体向量和关系向量的维度，k＝n,且h、h_m、t、t_m、r、r_m均被设定为列向量；

步骤1.2：向量归一化；对h、h_m、r、r_m、t和t_m分别进行归一化操作，归一化公式为：x＝x/||x||，其中，x＝h或h_m或r或r_m或t或t_m，归一化后的h、h_m、r、r_m、t和t_m数值范围如下：h≤1，h_m≤1，r≤1，r_m≤1，t≤1，t_m≤1；

l_hr＝F_hr o h^T；l_tr＝F_tr o t^T (3)

其中，l_hr为模糊空间F_hr与h^T的模糊关系，l_tr为模糊空间F_tr与t^T的模糊关系；

步骤3：基于损失函数，最小化目标优化函数，获得优化后的三元组向量，即为优化后的知识图谱的三元组集合。

2.根据权利要求1所述一种基于模糊理论的知识图谱优化方法，其特征在于，步骤3具体包括步骤3.1～步骤3.3：

步骤3.1：定义损失函数f_r(h,t)：

S^-＝{(h_i,r_j,t_j)|h_i≠h_j∧y＝1}∪{(h_j,r_j,t_i)|h_i≠h_j∧y＝1} (5)