CN109840282A - 一种基于模糊理论的知识图谱优化方法 - Google Patents

一种基于模糊理论的知识图谱优化方法 Download PDF

Info

Publication number
CN109840282A
CN109840282A CN201910154244.8A CN201910154244A CN109840282A CN 109840282 A CN109840282 A CN 109840282A CN 201910154244 A CN201910154244 A CN 201910154244A CN 109840282 A CN109840282 A CN 109840282A
Authority
CN
China
Prior art keywords
fuzzy
triple
knowledge mapping
vector
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910154244.8A
Other languages
English (en)
Inventor
王大玲
王楚
冯时
张一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910154244.8A priority Critical patent/CN109840282A/zh
Publication of CN109840282A publication Critical patent/CN109840282A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于模糊理论的知识图谱优化方法,包括:获取训练集三元组数据,并对所有三元组数据预处理;基于模糊关系合成的知识图谱构建,获得知识图谱的模糊关系;基于损失函数,最小化目标优化函数,获得优化后的三元组向量,即为优化后的知识图谱的三元组集合。本发明使用模糊向量的运算方法来对各维训练数据进行运算,将模糊逻辑中赋予数据的语义信息与深度学习理论相结合,实验表明,采用本发明的基于模糊理论的知识图谱优化方法,所获得的知识图谱更加全面和准确,优化后的知识图谱在链接预测和三元组分类方面具有更高的准确率。

Description

一种基于模糊理论的知识图谱优化方法
技术领域
本发明属于知识管理和信息检索领域,具体涉及一种基于模糊理论的知识图谱优化方法。
背景技术
知识图谱的初衷是为了阐述现实世界中各种存在的实体之间、关系之间以及实体与关系的属性的联系,其利用三元组中的关系来描述“头实体”和“尾实体”所具有的具体联系,其主要实现的目标是改进搜索引擎,使其搜索结果的准确性和用户搜索体验得到提高,其中涉及分类和预测等多种具体应用。
目前的知识图谱算法大多数都是基于三元组(头实体,关系,尾实体)形式的,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。目前这种三元组的表达方式越来越流行,例如万维网联盟(W3C)发布的资源描述框架(RDF)技术标准。特别是在谷歌提出知识图谱的概念后,这种表达形式更是被广泛接受。
然而现有的知识图谱技术大多基于深度学习算法构建,并且将其中的每个向量中每一维的数据都孤立地看待,这就使得想要构建效果更好的知识图谱的过程往往需要更多的训练时间和更大规模的训练集。
发明内容
基于以上技术不足,本发明引入模糊理论的思想,提出一种基于模糊逻辑和模糊向量的模型,使用模糊向量的运算方法来对各维训练数据进行运算,将模糊逻辑中赋予数据的语义信息与深度学习理论相结合,减少了训练的复杂程度,缩短了训练时间。
一种基于模糊理论的知识图谱优化方法,具体步骤如下:
步骤1:获取训练集三元组数据,并对所有三元组数据预处理,包括步骤1.1~步骤1.2:
步骤1.1:获取训练集三元组数据,将所有三元组随机初始化,将三元组随机初始化成两组不同的向量,一组用来构建三元组本身,另一组用来构建在模糊空间的三元组模糊投影,具体过程如下:
设有p个三元组(hi,ri,ti),i=1,2,...,p,hi表示头实体,ri表示关系,ti表示尾实体,(hi,ri,ti)表示hi和ti具有ri关系,采用模糊矩阵的乘积的形式表示双重模糊集在模糊关系中的合成,即:对于模糊向量lt和fr,lt在fr上的投影表示为对于任意模糊变量a∈lt和b∈fr,设-1≤a≤b≤1时有:
对于每一个三元组(h,r,t)所对应的向量分别初始化:h对应初始化为h和hm;r对应初始化为r和rm;t对应初始化为t和tm,其中,带有m下标的向量表示用来构建映射矩阵的元素,不带m下标的代表元素本身的向量;且h与hm均∈Rk,t与tm均∈Rk,r与rm均∈Rn,k和n分别表示实体向量和关系向量的维度,k=n,且h、hm、t、tm、r、rm均被设定为列向量。
步骤1.2:向量归一化;对h、hm、r、rm、t和tm分别进行归一化操作,归一化公式为:x=x/||x||,其中,x=h或hm或r或rm或t或tm,归一化后的h、hm、r、rm、t和tm数值范围如下:h≤1,hm≤1,r≤1,rm≤1,t≤1,tm≤1。
步骤2.基于模糊关系合成的知识图谱构建,获得知识图谱的模糊关系,包括步骤2.1~步骤2.2:
步骤2.1:模糊投影:将归一化后得到的hm和tm分别对rm进行模糊投影,得到两个模糊矩阵Fhr和Ftr,具体过程和原理如下:
将hm和tm分别对rm进行模糊投影,分别得到如下两个模糊矩阵Fhr和Ftr
其中,hT为h的转置,形似模糊矩阵的乘积,这里X为rm,Y为或者
步骤2.2:模糊关系合成:将两个模糊矩阵Fhr和Ftr分别与hT和tT进行模糊关系合成,在得到投影空间之后,通过分别计算对头实体和尾实体的模糊空间Fhr和Ftr的映射的方法来进行模糊关系合成,具体公式如下:
其中,lhr为模糊空间Fhr与hT的模糊关系,ltr为模糊空间Ftr与tT的模糊关系。
步骤3:基于损失函数,最小化目标优化函数,获得优化后的三元组向量,即为优化后的知识图谱的三元组集合,包括步骤3.1~步骤3.3:
步骤3.1:定义损失函数fr(h,t):
步骤3.2:定义基于边缘损失函数的目标优化函数:使用TransH提出的最大距离方法,即假设在训练集中有p个三元组(hi,ri,ti),i=1,2,…,p,若该三元组被正确划分,则设判别结果y=1;若是该三元组被错误划分,则设y=0;由于训练集中存在的三元组都是被正确划分的三元组,记为S,所以为了对在测试集中可能出现的错误进行预判训练,将选取部分三元组,将他们的头尾实体和其他的三元组的头尾实体进行调换,得到;一些被错误划分的三元组集合S-,具体表示如下:
S-={(hi,rj,tj)|hi≠hj∧y=1}∪{(hj,rj,ti)|hi≠hj∧y=1} (5)
在公式(5)基础之上,基于边缘损失函数的目标优化函数定义如下:
其中,(h,r,t)表示正确三元组,(h′,r′,t′)表示通过公式(5)生成的错误三元组,max(a,b)表示返回a和b中较大的值,γ是边缘参数,表示正确三元组与错误三元组之间的距离;
步骤3.3:最小化目标优化函数:使用随机梯度下降的方法来得到最小化的目标优化函数L值,达到目标函数的优化;所述随机梯度下降算法的过程如下:在给定的训练样本集M中,随机选取其中N个样本作为新的训练样本集,去替代原训练样本集M,以完成梯度下降算法模型进行训练;在知识图谱中,随机梯度下降算法是对损失函数fr(h,t)进行参数优化;设置最大迭代次数,按照梯度反方向更新参数w直到如下函数收敛为止,并输出优化后的三元组向量,即为优化后的知识图谱的三元组集合;
其中,w表示需要优化的参数,而w′表示优化后得到新的参数的值,λ表示学习速率,表示对损失函数fr(h,t)求导的结果。
有益技术效果:
本发明使用模糊向量的运算方法来对各维训练数据进行运算,将模糊逻辑中赋予数据的语义信息与深度学习理论相结合。实验表明,采用本发明的基于模糊理论的知识图谱优化方法,所获得的知识图谱更加全面和准确,优化后的知识图谱在链接预测和三元组分类方面具有更高的准确率。
附图说明
图1为本发明实施例的基于模糊理论的知识图谱构建方法总体框图;
图2为本发明实施例的一种基于模糊理论的知识图谱优化方法流程图。
具体实施方式
下面结合附图和具体实施实例对发明做进一步说明,对于该知识图谱优化方法,本发明的出发点是考虑每个实体具有多个不同的属性,不同的属性分别对应不同的关系,不同的关系所对应的各种属性的侧重点也不同,采用模糊理论将深度学习开始建模的阶段模糊化。基于此提出一种基于模糊理论的知识图谱优化方法,如图1与图2所示,具体步骤如下:
步骤1:获取训练集三元组数据,并对所有三元组数据预处理。本步骤的主要目的是为在模糊空间构建三元组模糊投影准备数据,包括步骤1.1~步骤1.2:
步骤1.1:获取训练集三元组数据,将所有三元组随机初始化,将三元组随机初始化成两组不同的向量,一组用来构建三元组本身,另一组用来构建在模糊空间的三元组模糊投影。具体过程如下:
设有p个三元组(hi,ri,ti),i=1,2,...,p,hi表示头实体,ri表示关系,ti表示尾实体,(hi,ri,ti)表示hi和ti具有ri关系。本发明使用了双重模糊理论。由于基于深度学习和随机梯度下降理论的值域是[-1,1],而传统的模糊理论值域是[0,1],所以这里将传统的模糊理论值域进行扩充,使之适合于所需的值域。本发明将[-1,0]视为负极性尺度,将[0,1]视为正极性尺度,0视为中立。本发明采用模糊矩阵的乘积的形式表示双重模糊集在模糊关系中的合成,即:对于模糊向量lt和fr,lt在fr上的投影表示为对于任意模糊变量a∈lt和b∈fr,设-1≤a≤b≤1时有:
本发明将知识图谱中三元组的每个元素,即实体和关系都分别初始化成两个向量,其中,一个向量用来表示该元素,另一个向量用来构建映射矩阵。也就是说,对于每一个三元组(h,r,t)所对应的向量分别初始化:h对应初始化为h和hm;r对应初始化为r和rm;t对应初始化为t和tm,其中,带有m下标的向量表示用来构建映射矩阵的元素,不带m下标的代表元素本身的向量。且h与hm均∈Rk,t与tm均∈Rk,r与rm均∈Rn,k和n分别表示实体向量和关系向量的维度,k=n,且h、hm、t、tm、r、rm均被设定为列向量。
步骤1.2:向量归一化。对h、hm、r、rm、t和tm分别进行归一化操作,归一化公式为:x=x/||x||,其中,x=h或hm或r或rm或t或tm,归一化后的h、hm、r、rm、t和tm数值范围如下:h≤1,hm≤1,r≤1,rm≤1,t≤1,tm≤1。
步骤2.基于模糊关系合成的知识图谱构建,获得知识图谱的模糊关系。本步骤的主要目的是通过模糊投影、设定并最小化损失函数来获得知识图谱的三元组集合。包括步骤2.1~步骤2.2:
步骤2.1:模糊投影:将步骤1.2中归一化后得到的hm和tm分别对rm进行模糊投影,得到两个模糊矩阵Fhr和Ftr,具体过程和原理如下:
将hm和tm分别对rm进行模糊投影,分别得到如下两个模糊矩阵Fhr和Ftr
其中,hT为h的转置,形似模糊矩阵的乘积,这里X为rm,Y为或者但是由于X和Y都只是向量,所以计算结果实际上只是利用行列向量构建一个矩阵,这个步骤实际上是和经典代数中的行列向量相乘构成的矩阵是一样的。然后,为了避免所构成的模糊矩阵Fhr和Ftr可能形成的空矩阵情况,本发明将向量相乘所得到矩阵的对角线元素与单位模糊矩阵进行模糊并运算,就可以分别得到头向量的模糊投影矩阵Fhr和尾向量的模糊投影矩阵Ftr
步骤2.2:模糊关系合成:将两个模糊矩阵Fhr和Ftr分别与hT和tT进行模糊关系合成,在得到投影空间之后,通过分别计算对头实体和尾实体的模糊空间Fhr和Ftr的映射的方法来进行模糊关系合成,具体公式如下:
其中,lhr为模糊空间Fhr与hT的模糊关系,ltr为模糊空间Ftr与tT的模糊关系。
步骤3:基于损失函数,最小化目标优化函数,获得优化后的三元组向量,即为优化后的知识图谱的三元组集合;本步骤的主要目的是通过进一步的基于边缘损失函数的目标优化来保证和增大目标知识图谱的区分能力,获得最优的三元组。包括步骤3.1~步骤3.3:
步骤3.1定义损失函数,通过迭代运算,尽可能让模糊关系合成后的头实体lhr在关系lr的作用下推导出尾实体ltr,即:lhr+lr≈ltr。具体过程和原理如下:
基于向量的平移不变性,在本发明中,对6个向量进行随机进行初始化以后,通过迭代运算尽可能的让lhr+lr≈ltr。为此,定义损失函数fr(h,t):
显然,fr(h,t)越小,lhr+lr与ltr越接近。需要说明的是,在这里依然使用代数运算而不是模糊运算。同时,在每一次迭代的最后,均使用归一化操作使得||h||2≤1,||hm||2≤1,||r||2≤1,||rm||2≤1,||lhr||2≤1,||ltr||2≤1。
步骤3.2:定义基于边缘损失函数的目标优化函数。与其他经典算法类似,在实际的训练过程中,为了保证和增大目标知识图谱的区分能力,本发明使用TransH提出的最大距离方法,即假设在训练集中有p个三元组(hi,ri,ti),i=1,2,…,p,若该三元组被正确划分,则设判别结果y=1;若是该三元组被错误划分,则设y=0。由于训练集中存在的三元组都是被正确划分的三元组,记为S,所以为了对在测试集中可能出现的错误进行预判训练,将选取部分三元组,将他们的头尾实体和其他的三元组的头尾实体进行调换,得到的自然是一些被错误划分的三元组集合S-,具体表示如下:
S-={(hi,rj,tj)|hi≠hj∧y=1}∪{(hj,rj,ti)|hi≠hj∧y=1} (5)
在公式(5)基础之上,基于边缘损失函数的目标优化函数定义如下:
其中,(h,r,t)表示正确三元组,(h′,r′,t′)表示通过公式(5)生成的错误三元组,max(a,b)表示返回a和b中较大的值,γ是边缘参数,表示正确三元组与错误三元组之间的距离。
步骤3.3:最小化目标优化函数:使用随机梯度下降的方法来得到最小化的目标优化函数L值,达到目标函数的优化。所述随机梯度下降算法的过程如下:在给定的训练样本集M中,随机选取其中N个样本作为新的训练样本集,去替代原训练样本集M,以完成梯度下降算法模型进行训练;在知识图谱中,随机梯度下降算法是对损失函数fr(h,t)进行参数优化;设置最大迭代次数,按照梯度反方向更新参数w直到如下函数收敛为止,并输出优化后的三元组向量,即为优化后的知识图谱的三元组集合;
其中,w表示需要优化的参数,而w′表示优化后得到新的参数的值,λ表示学习速率,表示对损失函数fr(h,t)求导的结果。
本发明一种基于模糊理论的知识图谱优化方法,具体实施即TransF的算法的实现。下面给出TransF算法伪代码表示,针对该算法编程即可实现基于模糊理论的知识图谱优化,得到新的知识图谱即新的三元组向量,如表1所示:
表1一种基于模糊理论的知识图谱优化方法伪代码表示:
这里通过实验证实本发明TransF的优势。
本发明所使用的实验设备是一台具有8Gb RAM和i5-4590T CPU的计算机,其中包含4个具有2.00GHz的处理器。本发明选取的两个数据集分别是普林斯顿的Miller于1995年提出的WordNet数据集和Bollacker等提出的FreeBase数据集。WordNet本身就是一个数量庞大的知识图谱结构,其中每个实体都是由几个单词构成的近义词集合组成,分别对应着单词不同的含义。WordNet中的关系表示的是词汇之间的相互关系,比如上位词、缩写等等。Freebase数据集表示的是人类社会的大量客观现实,比如(Beijing,Location,China),Location表示的就是头实体Beijing和尾实体China的关系。
实验从WordNet中选取了WN11和WN18两个数据集,WN11数据集有11种关系,WN18有18种关系。又在Freebase中选取了FB13和FB15K两个数据集,FB13数据集有13种关系,FB15K有15K种关系。表2展示了四个数据集的基本信息。
表2本发明实验所用的4个数据集
数据集 关系 实体 训练集 验证集 测试集
WN11 11 38,696 112,581 2,609 10,544
WN18 13 40,943 141,442 5000 5000
FB13 18 75,043 316,232 5908 23,733
FB15K 1345 14,951 483,142 50,000 59,071
实验采用的衡量指标包括:(1)Top@k准确率是指在返回的实体结果中,排在最前面的k个结果拥有正确实体中的总数与实验实体的总数N的比值;(2)平均排序(MeanRanks)是指在实验所得到的任意一个三元组返回所有结果中,三元组中正确实体在所有实体n中排序的均值。
三元组分类测试是典型的知识图谱的测试指标,具体地,就是对测试集中的一个三元组进行判断,看其是合法三元组还是错误三元组,如果判断正确就得到1,反之就得到0,最后根据判断的准确率来衡量知识图谱模型的性能。在本发明的实验中,由于在构造WN11和FB13数据集时已经将其测试集分成了合法数据集和错误数据集,所以就可以利用其对分类结果进行直接计算。而在计算的过程中需要对判断分类函数的阈值δr进行设置,根据前文所述,翻译模型用来判断一对实体是否存在某种关系就是根据式(6)来计算三者的损失函数f的结果来确定的。所以,本实验将验证集中达到准确率最高时候的fr设为阈值δr,凡是三元组的损失函数小于δr的,都认为是合法的三元组,反之则是错误三元组。
本实验选择使用Zeiler M D提出的随机梯度下降学习方法,并且对于WN11的数据集,所设置的参数取值分别为:边缘参数γ=1,向量维度k=n=50,取L1为相似性度量距离。对于FB13数据集,边缘参数γ=2,向量维度k=n=100,取L2为相似性度量距离。设定训练的迭代次数是1000次。
将本发明提出的算法和之前的经典知识图谱算法进行比较,表3展示了三元组分类的实验结果。
表3三元组分类在WN11和FB13上的结果(%)
SE SME SLM LFM TransE TransH TransR TransD TransF
WN11 53 70 69.9 73.8 75.9 78.8 85.9 86.4 86.8
FB13 75.2 63.7 85.3 84.3 81.5 83.3 82.5 89.1 84.7
链路预测也是知识图谱领域的常用衡量方法,其基本思想是通过已知一个实体和一个关系来预测三元组中的另一个实体,并根据其预测结果来评价知识图谱模型的好坏。在具体的实验设计中,本发明将测试集的头实体h和尾实体t依次替换成数据集中的所有实体,然后依次计算替换实体后的三元组的相似性,并对其进行降序排列,以此来观察原始的三元组所处的排序位置,并判断链路预测的结果好坏。和最开始TransE的方法所论述的类似,本实验也采取了平均排名和前十准确率两个评测指标。这里平均排名指的是测试集中所有三元组的正确结果在本实验的链路预测中排名的均值,记为Mean ranks,可以看出,这个数据越小,表示实验结果越好。前十准确率指的是正确结果出现在本章实验预测的结果中的前十名的概率,这里将其记为Hits@10,这个结果是越大越好。
但是本实验还要面临另外一个问题,就是在设定的链路预测实验中,每个三元组都只有一个提前预设好的结果,就是完全要与数据集中的原三元组保持一致,但是实际上,当已知一个实体和一个关系的情况下,另一个实体往往也并不是固定不变的。比如测试集中存在三元组(中国,城市,北京),当隐去实体“北京”并试图将其通过链路预测出来时,出现了这样的结果(中国,城市,上海),人们当然不能认为这个结果是错误的,而这很可能原本就是出现在数据集中其他位置的一个三元组,因此,本实验就将这个数据进行过滤。所以在本小节中将原始的数据记为Raw,已过滤的记为Filter。
在本实验中使用了WN18和FB15K的数据集。在实验中依然使用了Zeiler M D所提出的随机梯度下降方法,并且对于WN18数据集,设置边缘参数γ=2,向量维度k=n=50,取L1为相似性度量距离。对于FB15K,设置边缘参数γ=4,向量维度k=n=100,取L2为相似性度量距离。训练迭代次数同样为1000次。
三元组链路预测实验结果如表4所示。
通过实验还可以看出本发明在WordNet数据集的表现强于在Freebase的表现,这是因为本发明提出的方法更适合于WordNet那种数据集规模不是很大的场合。
在链路预测的实验中,本发明提出的方法在过滤后的数据集中的表现更加出色,这就是模糊逻辑的优势。众所周知,数据过滤后的实验结果更加符客观现实和人类的认知现实。而且总体来看,在链路预测实验中,Mean Ranks的实验结果更加优秀,这也证明了在应用模糊理论后,通过模糊化处理,预测的结果往往方差更小,更多的集中于正确的结果附近。
表4链路预测的实验结果(%)

Claims (2)

1.一种基于模糊理论的知识图谱优化方法,其特征在于,具体步骤如下:
步骤1:获取训练集三元组数据,并对所有三元组数据预处理,包括步骤1.1~步骤1.2:
步骤1.1:获取训练集三元组数据,将所有三元组随机初始化,将三元组随机初始化成两组不同的向量,一组用来构建三元组本身,另一组用来构建在模糊空间的三元组模糊投影,具体过程如下:
设有p个三元组(hi,ri,ti),i=1,2,...,p,hi表示头实体,ri表示关系,ti表示尾实体,(hi,ri,ti)表示hi和ti具有ri关系,采用模糊矩阵的乘积的形式表示双重模糊集在模糊关系中的合成,即:对于模糊向量lt和fr,lt在fr上的投影表示为对于任意模糊变量a∈lt和b∈fr,设-1≤a≤b≤1时有:
对于每一个三元组(h,r,t)所对应的向量分别初始化:h对应初始化为h和hm;r对应初始化为r和rm;t对应初始化为t和tm,其中,带有m下标的向量表示用来构建映射矩阵的元素,不带m下标的代表元素本身的向量;且h与hm均∈Rk,t与tm均∈Rk,r与rm均∈Rn,k和n分别表示实体向量和关系向量的维度,k=n,且h、hm、t、tm、r、rm均被设定为列向量;
步骤1.2:向量归一化;对h、hm、r、rm、t和tm分别进行归一化操作,归一化公式为:x=x/||x||,其中,x=h或hm或r或rm或t或tm,归一化后的h、hm、r、rm、t和tm数值范围如下:h≤1,hm≤1,r≤1,rm≤1,t≤1,tm≤1;
步骤2.基于模糊关系合成的知识图谱构建,获得知识图谱的模糊关系,包括步骤2.1~步骤2.2:
步骤2.1:模糊投影:将归一化后得到的hm和tm分别对rm进行模糊投影,得到两个模糊矩阵Fhr和Ftr,具体过程和原理如下:
将hm和tm分别对rm进行模糊投影,分别得到如下两个模糊矩阵Fhr和Ftr
其中,hT为h的转置,形似模糊矩阵的乘积,这里X为rm,Y为或者
步骤2.2:模糊关系合成:将两个模糊矩阵Fhr和Ftr分别与hT和tT进行模糊关系合成,在得到投影空间之后,通过分别计算对头实体和尾实体的模糊空间Fhr和Ftr的映射的方法来进行模糊关系合成,具体公式如下:
lhr=Fhr o hT;ltr=Ftr o tT (3)
其中,lhr为模糊空间Fhr与hT的模糊关系,ltr为模糊空间Ftr与tT的模糊关系;
步骤3:基于损失函数,最小化目标优化函数,获得优化后的三元组向量,即为优化后的知识图谱的三元组集合。
2.根据权利要求1所述一种基于模糊理论的知识图谱优化方法,其特征在于,步骤3具体包括步骤3.1~步骤3.3:
步骤3.1:定义损失函数fr(h,t):
步骤3.2:定义基于边缘损失函数的目标优化函数:使用TransH提出的最大距离方法,即假设在训练集中有p个三元组(hi,ri,ti),i=1,2,…,p,若该三元组被正确划分,则设判别结果y=1;若是该三元组被错误划分,则设y=0;由于训练集中存在的三元组都是被正确划分的三元组,记为S,所以为了对在测试集中可能出现的错误进行预判训练,将选取部分三元组,将他们的头尾实体和其他的三元组的头尾实体进行调换,得到;一些被错误划分的三元组集合S-,具体表示如下:
S-={(hi,rj,tj)|hi≠hj∧y=1}∪{(hj,rj,ti)|hi≠hj∧y=1} (5)
在公式(5)基础之上,基于边缘损失函数的目标优化函数定义如下:
其中,(h,r,t)表示正确三元组,(h′,r′,t′)表示通过公式(5)生成的错误三元组,max(a,b)表示返回a和b中较大的值,γ是边缘参数,表示正确三元组与错误三元组之间的距离;
步骤3.3:最小化目标优化函数:使用随机梯度下降的方法来得到最小化的目标优化函数L值,达到目标函数的优化;所述随机梯度下降算法的过程如下:在给定的训练样本集M中,随机选取其中N个样本作为新的训练样本集,去替代原训练样本集M,以完成梯度下降算法模型进行训练;在知识图谱中,随机梯度下降算法是对损失函数fr(h,t)进行参数优化;设置最大迭代次数,按照梯度反方向更新参数w直到如下函数收敛为止,并输出优化后的三元组向量,即为优化后的知识图谱的三元组集合;
其中,w表示需要优化的参数,而w′表示优化后得到新的参数的值,λ表示学习速率,表示对损失函数fr(h,t)求导的结果。
CN201910154244.8A 2019-03-01 2019-03-01 一种基于模糊理论的知识图谱优化方法 Pending CN109840282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910154244.8A CN109840282A (zh) 2019-03-01 2019-03-01 一种基于模糊理论的知识图谱优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910154244.8A CN109840282A (zh) 2019-03-01 2019-03-01 一种基于模糊理论的知识图谱优化方法

Publications (1)

Publication Number Publication Date
CN109840282A true CN109840282A (zh) 2019-06-04

Family

ID=66885277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910154244.8A Pending CN109840282A (zh) 2019-03-01 2019-03-01 一种基于模糊理论的知识图谱优化方法

Country Status (1)

Country Link
CN (1) CN109840282A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491106A (zh) * 2019-07-22 2019-11-22 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110704634A (zh) * 2019-09-06 2020-01-17 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN111428050A (zh) * 2020-03-23 2020-07-17 北京明略软件系统有限公司 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN112434812A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112735556A (zh) * 2019-10-28 2021-04-30 北京中医药大学 一种用于诊治失眠病症的中医古籍数据处理方法
CN113033914A (zh) * 2021-04-16 2021-06-25 哈尔滨工业大学 一种面向机械加工工艺知识图谱的实体和关系预测方法
CN113190424A (zh) * 2021-04-23 2021-07-30 南京航空航天大学 一种对知识图谱推荐系统的模糊综合评价方法
CN113377964A (zh) * 2021-06-30 2021-09-10 武汉大学 知识图谱链接预测方法、装置、设备及存储介质
CN113535972A (zh) * 2021-06-07 2021-10-22 吉林大学 一种融合上下文语义的知识图谱链路预测模型、方法及装置
CN113806561A (zh) * 2021-10-11 2021-12-17 中国人民解放军国防科技大学 一种基于实体属性的知识图谱事实补全方法
CN113849659A (zh) * 2021-08-18 2021-12-28 国网天津市电力公司 一种审计制度时序知识图谱的构建方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491106B (zh) * 2019-07-22 2022-03-18 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110491106A (zh) * 2019-07-22 2019-11-22 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110704634A (zh) * 2019-09-06 2020-01-17 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN110704634B (zh) * 2019-09-06 2023-08-01 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN112735556A (zh) * 2019-10-28 2021-04-30 北京中医药大学 一种用于诊治失眠病症的中医古籍数据处理方法
CN111428050A (zh) * 2020-03-23 2020-07-17 北京明略软件系统有限公司 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN111428050B (zh) * 2020-03-23 2023-06-02 北京明略软件系统有限公司 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN112434812A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112434812B (zh) * 2020-11-26 2023-09-05 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN113033914A (zh) * 2021-04-16 2021-06-25 哈尔滨工业大学 一种面向机械加工工艺知识图谱的实体和关系预测方法
CN113190424A (zh) * 2021-04-23 2021-07-30 南京航空航天大学 一种对知识图谱推荐系统的模糊综合评价方法
CN113535972A (zh) * 2021-06-07 2021-10-22 吉林大学 一种融合上下文语义的知识图谱链路预测模型、方法及装置
CN113377964A (zh) * 2021-06-30 2021-09-10 武汉大学 知识图谱链接预测方法、装置、设备及存储介质
CN113849659A (zh) * 2021-08-18 2021-12-28 国网天津市电力公司 一种审计制度时序知识图谱的构建方法
CN113806561A (zh) * 2021-10-11 2021-12-17 中国人民解放军国防科技大学 一种基于实体属性的知识图谱事实补全方法

Similar Documents

Publication Publication Date Title
CN109840282A (zh) 一种基于模糊理论的知识图谱优化方法
Kutuzov et al. Texts in, meaning out: neural language models in semantic similarity task for Russian
EP2947585B1 (en) Systems and methods for performing search and retrieval of electronic documents using a big index
Guo et al. Question generation from sql queries improves neural semantic parsing
CN105975488A (zh) 一种关系数据库中基于主题类簇单元的关键词查询方法
CN111368891B (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN106503731A (zh) 一种基于条件互信息和K‑means的无监督特征选择方法
CN109359302B (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN109299462A (zh) 基于多维卷积特征的短文本相似度计算方法
CN113906417A (zh) 用于搜索检索和排名的神经网络
CN112256847B (zh) 融合事实文本的知识库问答方法
CN110990580A (zh) 知识图谱的构建方法、构建装置、计算机设备及存储介质
CN115470133A (zh) 大规模持续集成的测试用例优先级排序方法、设备及介质
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
Zang et al. Improved spectral clustering based on density combining DNA genetic algorithm
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN111898039B (zh) 一种融合隐藏关系的属性社区搜索方法
CN112084312A (zh) 一种基于知识图构建的智能客服系统
Bo Research on the classification of high dimensional imbalanced data based on the optimizational random forest algorithm
CN115858799A (zh) 融合有序关系路径和实体描述信息的知识表示学习方法
CN112100382B (zh) 聚类方法及装置、计算机可读存储介质、处理器
JP3643516B2 (ja) 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190604

RJ01 Rejection of invention patent application after publication