CN109543043A - 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 - Google Patents
一种基于知识图谱推理的电力通信大数据错误的自动监测方法 Download PDFInfo
- Publication number
- CN109543043A CN109543043A CN201810444156.7A CN201810444156A CN109543043A CN 109543043 A CN109543043 A CN 109543043A CN 201810444156 A CN201810444156 A CN 201810444156A CN 109543043 A CN109543043 A CN 109543043A
- Authority
- CN
- China
- Prior art keywords
- entity
- path
- relationship
- matrix
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004891 communication Methods 0.000 title claims abstract description 21
- 238000012544 monitoring process Methods 0.000 title claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 78
- 239000011159 matrix material Substances 0.000 claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000005295 random walk Methods 0.000 claims description 15
- HMJIYCCIJYRONP-UHFFFAOYSA-N (+-)-Isradipine Chemical compound COC(=O)C1=C(C)NC(C)=C(C(=O)OC(C)C)C1C1=CC=CC2=NON=C12 HMJIYCCIJYRONP-UHFFFAOYSA-N 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 239000004744 fabric Substances 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及了一种基于知识图谱推理的电力通信大数据错误的自动监测方法。首先将知识图谱的命名实体集合E和实体关系集合R分别嵌入转换到低维向量空间;然后循环遍历命名实体集合,对于其中的命名实体对ei和ej,采用PRA算法查找实体对间的关系矩阵再对得到的路径矩阵进行张量分解,计算每个路径上的损失函数值,更新实体矩阵E和关系矩阵最后找出知识图谱G′中可能存在的错误的实体对关系。本发明涉及的路径张量分解算法在路径的张量分解方面作出了巨大改进,大大的降低了数据集的空间维度。是的知识推理算法更加高效。
Description
技术领域
本发明是对知识图谱应用领域的拓展,属于行业知识图谱的应用范畴,特别涉及了一种基于路径张量分解的知识图谱推理算法(PRESCAL)。
背景技术
知识图谱(Knowledge Graph):是一种结构化的语义知识库,形式上知识图谱是用符号来描述物理世界中的概念及其相互之间的关系。本质上,知识图谱是一种揭示实体之间关系的语义网络。
知识图谱的概念最初是由Google公司提出的,2012年,Google发布了知识图谱项目,同时宣布将知识图谱技术应用于智能搜索引擎,这一新技术的研发使得搜索引擎步入了智能化的新时代。随后,国内外的许多其他互联网公司也纷纷建立研发团队,构建了自己的知识图谱。例如已经投入使用的搜狗的“知立方”、微软的Probase和百度的“知心”。知识图谱技术使得语义检索功能变得更加智能化,搜索引擎从原始的基于字符串的匹配式搜索变成了基于知识实体的智能化搜索。目前,知识图谱已经被广泛应用于搜索引擎、智能问答、个性化推荐等领域。
知识图谱通用的表示方式是“三元组”,即G=(E,R,S),其中E={e1,e2,……,e∣E∣}代表知识库中的实体集合,共有|E|中不同的知识实体;R={r1,r2,……,r∣R∣}代表知识库中的实体关系的集合,共有|R|中不同的实体关系;代表的就是知识图谱的三元组集合,即为整个知识库的代表。三元组表示的是实体与实体之间的关系或者是概念与属性之间的关系。
知识图谱通常可以分为行业知识图谱和通用知识图谱两大类型。通用知识图谱注重的是知识库的广度,强调在大数据的基础上构建知识图谱,但其准确度比行业知识图谱低,并且受实体范围的影响较大,因此主要应用于精确度不要求很高的智能搜索领域。而行业知识图谱需要使用特定行业的数据来构建知识库,实体的属性和数据模式比较丰富,但需要根据特定行业考虑不同的业务场景。目前,行业知识图谱在电商、金融等行业得到了较为成熟的应用。
知识图谱推理:是一种利用原有知识图谱的实体三元组集合,在经过路径关系的推理计算之后,得到实体对间存在的新关系以丰富和拓展原知识图谱的手段。通常知识图谱的推理方法是将高维的知识图谱转换到低维的连续向量空间,利用低维向量的分解产生不同方式的推理方法,包括基于路径的推理算法和基于张量分解的推理算法等。
基于张量分解的推理算法是首先将整个知识图谱看作一个大的张量,然后通过张量分解技术将高维的知识图谱转换为低维的连续向量,从而大幅减少知识推理计算时的数据规模。在有关张量分解的知识图谱推理的研究中,Nickel等提出了基于三阶张量分解的RESCAL算法,其核心思想是将知识图谱中的所有三元组对应的张量值分解为实体和关系矩阵的形式。 Socher等通过神经张量网络构建推理算法,提出张量神经网络(Neural TensorNetworks,NTN) 模型.Chang等在构造训练模型时利用关系语义类型的约束,提出TRESCAL。
基于路径的推理算法根据知识图谱实体间的路径关系进行推理计算,能够有效的挖掘实体间的新关系。该算法的缺点是对于长路径的实体关系间的推理,目前还没有有效完善的推理方法。Lao等提出路径排列算法(Path Ranking Algorithm,PRA),利用随机游走的方式,来推理获取知识库中可能存在的实体间的新关系。Neelakantan等利用循环神经网络(Recurrent Neural Network,RNN)模式进行路径推理,通过PRA获取每个实体关系路径.Yang等利用神经网络嵌入模式,建立通用推理模型,并进行有关路径推理.Wang等利用设置物理规则和逻辑规则进行知识图谱的路径推理和完善知识图谱任务。
发明内容
目前,知识图谱的典型应用集中在“搜索引擎”和“深度问答系统”等方面。除此之外,行业知识图谱在某些垂直行业(如电商行业)中的应用也日渐成熟。然而除了以上几种应用方式之外,目前知识图谱的其他应用寥寥无几。本发明提出了利用国家电网电力通信的多种数据源来构建行业知识图谱以自动发现通信网络数据错误的新型应用方式。通信网络数据错误的发现本质上来说,就是对知识图谱实体对错误关系的识别,即找出知识图谱中隐含的错误的实体对关系。
为了重点阐述知识图谱的推理过程,这里忽略行业知识图谱的构建步骤。假设在现有的结构化和非结构化的数据源的基础之上,已经构建好了电网通信相关的知识图谱G=(E,R,S)。其中E为知识图谱的知识实体,R为实体间的关系,S为实体关系的三元组集合。
为了识别知识图谱实体对的错误关系,本发明采用了一种基于路径张量分解的知识图谱推理算法(PRESCAL)。在构建好知识图谱的基础之上,对现有知识图谱进行推理更新,利用实体对比对的方式找出其中隐含的可能存在的错误关系。具体需要以下几个步骤:
一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,基于定义:电网通信相关的知识图谱G=(E,R,S);其中E为知识图谱的知识实体,R为实体间的关系,S 为实体关系的三元组集合;具体包括:
步骤1:将知识图谱的命名实体集合E和实体关系集合R分别嵌入转换到低维向量空间,以减小推理计算的数据规模;
步骤2:循环遍历命名实体集合E={e1,e2,e3,......,en},对于其中的命名实体对ei和ej,采用PRA算法查找实体对间的关系矩阵
步骤3:对步骤2中得到的路径矩阵进行张量分解,计算每个路径上的损失函数值,损失函数模型公式如下:
其中,Xijk表示实体ei和实体ej关于某种关系k的三阶张量,和代表实体ei和ej的向量矩阵;
步骤4:更新实体矩阵E和关系矩阵使得整个张量分解的损失函数值逐渐收敛,直到达到迭代次数T或损失函数值小于某个设定值时,结束迭代更新;
步骤5:遍历分析已完成收敛的知识图谱G′,找出G′中可能存在的错误的实体对关系。
在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,所述步骤1中,定义现有知识图谱G=(E,R,S)中包含n个实体和m种关系,则可以使用一个三阶张量来表示G的三元组集合;对于给定的三元组(ei,rk,ej),在三阶张量中可用来表示,具体取值定义如下:
其中i,j=1,2,......n;k=1,2,,......m
对于三元组(ei,rk,ej),用向量和分别表示实体ei和ei,用关系矩阵Rk来表示实体对间的关系rk,则为n×d的矩阵,Rk为d×d的矩阵,d为每个实体具有的特征或者维数;这样就可以将实体以及关系嵌入到二维的向量空间中。
在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,所述步骤2具体包括:
步骤2.1PRA算法介绍
首先需要介绍一下相关概念dom(P)和range(P);假定存在关系路径P=(R1,R2,R3,...,RL),也可以表示为则dom(P)表示的就是路径P的域,range(P)就是路径P的范围;具体地,对于任意的路径元素Ri(1<i<L-1)有:
如果存在一种任意的关系路径P和一个实体结点s∈dom(P),则结点s的有约束的随机路径可以定义为以下分布函数的形式hs,P(e):
1)如果关系路径P为空,则定义为:
2)如果关系路径P不为空,令P′=(R1,R2,R3,...,RL-1),则会有hs,P(e)的定义如下:
hs,P(e)=∑e′∈range(P′)hs,P′(e′)·P(e|e′;RL)式5
其中,P(e|e′;RL)=RL(e′,e)/|RL(e′,·)|,表示用步长为1的随机路径RL可以从结点e′到达结点e的可能性,PL(e′,e)表示实体结点e′和e是否通过关系RL相互连接;
一般地,对于给定的一组路径关系的集合P1,......,Pn,我们可以将结点e的每一
个分布函数都看作是一个路径特征,通过线性模型将其排列为:
其中,θi为路径的权重值;则结点e和相关的需要查询的结点s之间的评估函式6公式(7)定义为:
其中,PA即为步长≤A的关系路径的集合;可以看出,通过公式(7)评估函数的对比,就可以选择出结点e的可能性最大的相关结点s;
步骤2.2获取实体对关系路径
在知识图谱中,假设存在三元组(e1,r1,e2)、(e2,r2,e3)、(e3,r3,e4),由于关系路径的传递性,则我们可以猜测命名实体e1和e4之间可能存在某种关系,即可能存在三元组(e1,r4,e4);本发明采用PRA随机游走的方式来获取实体间的可能存在的关系路径;特别地,用πL(i,j,k,t) 表示一条形如的长度为L的路径,其中t=(r1,r2,r3,...,rL);另外,假设用ΠL(i,j,k)来标识所有的长度为L的路径的集合;则PRA算法的核心是我们假定用随机游走的方式到达某条实体路径,则我们可以用到达这些路径的可能性作为特征来预测其是否是我们要推理的新路径;我们定义特征向量如下:
其中P(π)代表到指定路径的可能性,那么我们可以通过逻辑回归模型预测路径的可能性为:
根据逻辑回归的收敛值,我们就能预测该路径是否是我们预测的新路径。
在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,所述步骤3具体包括:
步骤3.1、计算路径张量的分解函数值,定义有三元组(ei,rk,ej),则定义路径张量Rk的分解函数为:
其中和为命名实体ei和ei的向量形式,Rk为实体对ei和ei间的关系矩阵;然而,公式(10) 只是实体对间的路径为1的路径张量的分解函数;一般地,假设有两个三元组(eh,r1,e1)和 (e1,r2,et),即第一个三元组的尾实体和第二个三元组的头实体相同,那么实体对eh和et之间的关系路径为rk=r1r2;则可以推理出该实体对的分解函数应为:
其中R1和R2为关系r1、r2的关系矩阵;更一般地,如果实体eh和et之间存在的路径为P=(r1r2r3……rL),则PRESCAL的张量分解函数为:
其中为关系ri的关系矩阵;
步骤3.2、计算整个张量的损失函数值,对于某种关系k,可以使用三阶张量的第k层来表示,通过张量的分解,则第k层张量表示为:
所以,由均方误差可知,整个第k层张量分解的损失函数可以表示为:为了使整个张量的分解更加合理,替换矩阵能够更加接近原始矩阵则张量分解的损失函数值应该收敛于极小值,即整个张量的分解问题转换为损失函数的极小值问题;即需要求得极小值
为了避免以上模型训练的过度拟合问题,将上式(14)修正为:
上式(15)即为张量分解损失函数的极值求解优化模型,其中,表示整个张量在路径分解过程中的损失函数模型,是为了避免模型过度拟合而引入的修正方式,λ为修正参数。
在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,所述步骤4具体方法是:
为了得到整个张量分解的损失函数极小值,算法需要在训练过程中,对实体矩阵E和关系矩阵不断更新,并求极值;PRESCAL算法采用了交替最小二乘法来更新实体矩阵和关系矩阵;即在更新某一矩阵的时候,先假定另一个矩阵保持不变,更新过程如下所示:
其中,λR、λ为修正参数,I为单位矩阵;
以上式15和式16的更新过程一直迭代进行,直到达到迭代次数T或者损失函数值收敛于某个设定值N;此时迭代完成,整个知识图谱在张量分解误差最小的代价下完成一次推理过程。
在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,定义经过推理之后的知识图谱为G′=(E′,R′,S′),所述步骤5利用知识图谱的实体关系比对,来自动抽取知识图谱中可能出现的错误和矛盾,具体是:
对于知识图谱的错误识别,本发明采用一种对比实体对和相关关系的方式
假设存在三元组(e1,r1,e2)和(e1,r1,e3),则对于实体e1,有两个同样的关系路径r1,却指向了两个不同的实体e2和e3;如果头实体e1的关系r1不具备一对多的实体属性,那么这两个三元组之间很可能存在错误的实体对关系;所谓关系的一对多属性可以这样理解,假设头实体为“国家”,关系1为“首都”,关系2为“城市”,则显然关系1是一对一属性,关系2是一对多属性;知识图谱的自动“识错”便是基于此来讨论的;
在步骤2中提到过,我们对于实体对正确关系的选择,可以通过PRA路径预测的可能性的大小来筛选;假设用P(πL(i,j,k))来表示实体对ei和ej之间存在长度为L的关系路径rk的可能性;那么通过计算比较实体对间的存在的关系路径的可能性P(πL)就能够较为准确地判断出三元组集合中存在的错误论断。
因此,本发明具有如下优点:
1、目前知识图谱的应用范围集中在“搜索引擎”和“自动问答系统”方面,但知识图谱本身具有的图结构属性,为推理其存在的实体关系提供了天然的便利和优势。本发明正是基于此背景,目的是讨论知识图谱的又一个应用领域——“知识推理”在国家电网通信领域的可行性。
2、在基于国家电网通信知识图谱的基础之上,利用知识图谱的推理能力提出了自动推理实体关系以发现数据错误的设想方法,从而达到提高数据质量的目的。这种自动推理识错的方法与以往传统的数据纠错方法相比,其最大的亮点和优势在于其自动发现错误的特性。
3、本发明采用了基于路径张量分解的知识图谱推理算法(PRESCAL),与传统的路径推理算法相比,路径张量分解算法在路径的张量分解方面作出了巨大改进,大大的降低了数据集的空间维度。是的知识推理算法更加高效。
附图说明
图1是张量分解模型示意图。
图2是知识图谱实体对错误关系识别的“识错”规则示例图。
具体实施方式
根据知识图谱的路径张量分解推理来自动发现实体对错误关系的具体实施步骤为:
步骤1:将知识图谱的命名实体集合和实体关系集合嵌入映射到低维向量空间。用向量矩阵的形式表示。
假设现有知识图谱G=(E,R,S)中包含n个实体和m种关系,则可以使用一个三阶张量来表示G的三元组集合。对于给定的三元组(ei,rk,ej),在三阶张量中可用来表示,具体取值定义如下:
其中i,j=1,2,......n;k=1,2,,......m
对于三元组(ei,rk,ej),用向量和分别表示实体ei和ei,用关系矩阵Rk来表示实体对间的关系rk,则为n×d的矩阵,Rk为d×d的矩阵,d为每个实体具有的特征或者维数。这样就可以将实体以及关系嵌入到二维的向量空间中。
步骤2:遍历命名实体集合E={e1,e2,e3,......,en},采用随机游走的方式(PRA)查找实体对间的关系矩阵
步骤2.1PRA算法介绍
首先需要介绍一下相关概念dom(P)和range(P)。假定存在关系路径P=(R1,R2,R3,...,RL),也可以表示为则dom(P)表示的就是路径P的域,range(P)就是路径P的范围。具体地,对于任意的路径元素Ri(1<i<L-1)有:
如果存在一种任意的关系路径P和一个实体结点s∈dom(P),则结点s的有约束的随机路径可以定义为以下分布函数的形式hs,P(e):
1)如果关系路径P为空,则定义为:
2)如果关系路径P不为空,令P′=(R1,R2,R3,...,RL-1),则会有hs,P(e)的定义如下:
其中,P(e|e′;RL)=RL(e′,e)/|RL(e′,·)|,表示用步长为1的随机路径RL可以从结点e′到达结点e的可能性,RL(e′,e)表示实体结点e′和e是否通过关系RL相互连接。
一般地,对于给定的一组路径关系的集合P1,......,Pn,我们可以将结点e的每一个分布函数都看作是一个路径特征,通过线性模型将其排列为:
其中,θi为路径的权重值。则结点e和相关的需要查询的结点s之间的评估函数可以通过公式(7)定义为:
其中,PA即为步长≤A的关系路径的集合。可以看出,通过公式(7)评估函数的对比,就可以选择出结点e的可能性最大的相关结点s。
步骤2.2获取实体对关系路径
在知识图谱中,假设存在三元组(e1,r1,e2)、(e2,r2,e3)、(e3,r3,e4),由于关系路径的传递性,则我们可以猜测命名实体e1和e4之间可能存在某种关系,即可能存在三元组(e1,r4,e4)。本发明采用PRA随机游走的方式来获取实体间的可能存在的关系路径。特别地,用πL(i,j,k,t) 表示一条形如的长度为L的路径,其中t=(r1,r2,r3,...,rL)。另外,假设用ΠL(i,j,k)来标识所有的长度为L的路径的集合。则PRA算法的核心是我们假定用随机游走的方式到达某条实体路径,则我们可以用到达这些路径的可能性作为特征来预测其是否是我们要推理的新路径。我们定义特征向量如下:
其中P(π)代表到指定路径的可能性,那么我们可以通过逻辑回归模型预测路径的可能性为:
根据逻辑回归的收敛值,我们就能预测该路径是否是我们预测的新路径。
步骤3:利用步骤2中随机游走获取的路径关系矩阵,计算其三元组的分解函数值f(ei,rk,ej),并计算整个张量的损失函数值。
步骤3.1计算路径张量的分解函数值
假定有三元组(ei,rk,ej),则定义路径张量Rk的分解函数为:
其中和为命名实体ei和ei的向量形式,Rk为实体对ei和ei间的关系矩阵。然而,公式 (10)只是实体对间的路径为1的路径张量的分解函数。一般地,假设有两个三元组(eh,r1,e1) 和(e1,r2,et),即第一个三元组的尾实体和第二个三元组的头实体相同,那么实体对eh和et之间的关系路径为rk=r1r2。则可以推理出该实体对的分解函数应为:
其中R1和R2为关系r1、r2的关系矩阵。更一般地,如果实体eh和et之间存在的路径为P=(r1r2r3......rL),则PRESCAL的张量分解函数为:
其中为关系ri的关系矩阵。
步骤3.2计算整个张量的损失函数值
在步骤1提到过,假定知识图谱G拥有n个实体和m种关系。对于某种关系k,可以使用三阶张量的第k层来表示。因此,如图1所示,通过张量的分解,则第k层张量可以近似表示为:
所以,由均方误差可知,整个第k层张量分解的损失函数可以表示为:为了使整个张量的分解更加合理,替换矩阵能够更加接近原始矩阵则张量分解的损失函数值应该收敛于极小值,即整个张量的分解问题转换为损失函数的极小值问题。即需要求得极小值
为了避免以上模型训练的过度拟合问题,PRESCAL算法提出了优化模型,将上式(14)修正为:
上式(15)即为张量分解损失函数的极值求解优化模型,其中,表示整个张量在路径分解过程中的损失函数模型,是为了避免模型过度拟合而引入的修正方式,λ为修正参数。
步骤4:更新实体矩阵E和关系矩阵使得公式(15)能够尽快求得极值
为了得到整个张量分解的损失函数极小值,算法需要在训练过程中,对实体矩阵E和关系矩阵不断更新,并求极值。PRESCAL算法采用了交替最小二乘法来更新实体矩阵和关系矩阵。即在更新某一矩阵的时候,先假定另一个矩阵保持不变,更新过程如下所示:
其中,λR、λ为修正参数,I为单位矩阵。
以上1)和2)的更新过程一直迭代进行,直到达到迭代次数T或者损失函数值收敛于某个设定值N。此时迭代完成,整个知识图谱在张量分解误差最小的代价下完成一次推理过程。
步骤5:在经过以上4个步骤的知识推理后,整个知识图谱G通过随机游走(PRA)获取新路径的方式,在优化损失函数模型对张量分解损失的保证之下,完成了整个实体矩阵和关系矩阵的更新,使得原有知识图谱得到了丰富和拓展。假设经过推理之后的知识图谱为 G′=(E′,R′,S′),本发明利用知识图谱的实体关系比对,来自动抽取知识图谱中可能出现的错误和矛盾。下面介绍知识图谱的“识错”规则。
知识图谱的“识错”规则:对于知识图谱的错误识别,本发明采用一种对比实体对和相关关系的方式。假设存在三元组(e1,r1,e2)和(e1,r1,e3),则对于实体e1,有两个同样的关系路径r1,却指向了两个不同的实体e2和e3。如果头实体e1的关系r1不具备一对多的实体属性,那么这两个三元组之间很可能存在错误的实体对关系。所谓关系的一对多属性可以这样理解,假设头实体为“国家”,关系1为“首都”,关系2为“城市”,则显然关系1是一对一属性,关系2是一对多属性。知识图谱的自动“识错”便是基于此来讨论的。
在步骤2中提到过,我们对于实体对正确关系的选择,可以通过PRA路径预测的可能性的大小来筛选。假设用P(πL(i,j,k))来表示实体对ei和ej之间存在长度为L的关系路径rk的可能性。那么通过计算比较实体对间的存在的关系路径的可能性P(πL)就能够较为准确地判断出三元组集合中存在的错误论断。举例说明如下:
如图2所示,假设三元组集合S存在多个三元组 (e1,r1,e2)、(e2,r2,e3)、(e1,r3,e4)、(e1,r5,e5)以及由推理算法推理得到的新三元组(e1,r3,e3)。从图中我们可以清楚地看到,(e1,r3,e3)和(e1,r3,e4)这两个三元组在头实体均为e1、实体关系均为r3的情况下,其尾实体分别为e3和e4,那么如果头实体e1的关系r3不是具有一对多属性的实体,则某个实体对间的关系很可能存在错误。假设两个实体对关系路径存在的可能性分别为P13=P(π1(1,3,r3))和P14=P(π1(1,4,r3))。那么如果P13>P14,则说明实体对e1和e3间存在的关系更合理,即三原组(e1,r3,e4)可能存在错误;否则说明实体对e1和e4间存在的关系更合理,三原组(e1,r3,e3)可能存在错误,这里特别注意的是要明确头实体e1的关系r3是否是一对多属性。
以上实体对关系识别的比对方法虽然不能完全百分之百的保证所筛选的实体对三元组一定是正确的,但在一定程度上可以得到路径可能性比对的保证。在通过知识图谱推理的方式,不断更新知识图谱的知识库的情况下,可以通过这种方式来筛选排除其中可能包含的错误。
Claims (6)
1.一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,基于定义:电网通信相关的知识图谱G=(E,R,S);其中E为知识图谱的知识实体,R为实体间的关系,S为实体关系的三元组集合;具体包括:
步骤1:将知识图谱的命名实体集合E和实体关系集合R分别嵌入转换到低维向量空间,以减小推理计算的数据规模;
步骤2:循环遍历命名实体集合E={e1,e2,e3,......,en},对于其中的命名实体对ei和ej,采用PRA算法查找实体对间的关系矩阵
步骤3:对步骤2中得到的路径矩阵进行张量分解,计算每个路径上的损失函数值,损失函数模型公式如下:
其中,Xijk表示实体ei和实体ej关于某种关系k的三阶张量,和代表实体ei和ej的向量矩阵;
步骤4:更新实体矩阵E和关系矩阵使得整个张量分解的损失函数值逐渐收敛,直到达到迭代次数T或损失函数值小于某个设定值时,结束迭代更新;
步骤5:遍历分析已完成收敛的知识图谱G′,找出G′中可能存在的错误的实体对关系。
2.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,所述步骤1中,定义现有知识图谱G=(E,R,S)中包含n个实体和m种关系,则可以使用一个三阶张量来表示G的三元组集合;对于给定的三元组(ei,rk,ej),在三阶张量中可用来表示,具体取值定义如下:
其中i,j=1,2,......n;k=1,2,,......m
对于三元组(ei,rk,ej),用向量和分别表示实体ei和ei,用关系矩阵Rk来表示实体对间的关系rk,则 为n×d的矩阵,Rk为d×d的矩阵,d为每个实体具有的特征或者维数;这样就可以将实体以及关系嵌入到二维的向量空间中。
3.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,所述步骤2具体包括:
步骤2.1PRA算法介绍
首先需要介绍一下相关概念dom(P)和range(P);假定存在关系路径P=(R1,R2,R3,...,RL),也可以表示为则dom(P)表示的就是路径P的域,range(P)就是路径P的范围;具体地,对于任意的路径元素Ri(1<i<L-1)有:
如果存在一种任意的关系路径P和一个实体结点s∈dom(P),则结点s的有约束的随机路径可以定义为以下分布函数的形式hs,P(e):
1)如果关系路径P为空,则定义为:
2)如果关系路径P不为空,令P′=(R1,R2,R3,...,RL-1),则会有hs,P(e)的定义如下:
hs,P(e)=∑e′∈range(P′)hs,P′(e′)·P(e|e′;RL) 式5
其中,P(e|e′;RL)=RL(e′,e)/|RL(e′,·)|,表示用步长为1的随机路径RL可以从结点e′到达结点e的可能性,RL(e′,e)表示实体结点e′和e是否通过关系RL相互连接;
一般地,对于给定的一组路径关系的集合P1,......,Pn,我们可以将结点e的每一个分布函数都看作是一个路径特征,通过线性模型将其排列为:
θ1hs,P1(e)+θ2hs,P2(e)+…+θnhs,Pn(e) 式6
其中,θi为路径的权重值;则结点e和相关的需要查询的结点s之间的评估函数可以通过公式(7)定义为:
其中,PA即为步长≤A的关系路径的集合;可以看出,通过公式(7)评估函数的对比,就可以选择出结点e的可能性最大的相关结点s;
步骤2.2获取实体对关系路径
在知识图谱中,假设存在三元组(e1,r1,e2)、(e2,r2,e3)、(e3,r3,e4),由于关系路径的传递性,则我们可以猜测命名实体e1和e4之间可能存在某种关系,即可能存在三元组(e1,r4,e4);本文采用PRA随机游走的方式来获取实体间的可能存在的关系路径;特别地,用πL(i,j,k,t)表示一条形如的长度为L的路径,其中t=(r1,r2,r3,...,rL);另外,假设用冂L(i,j,k)来标识所有的长度为L的路径的集合;则PRA算法的核心是我们假定用随机游走的方式到达某条实体路径,则我们可以用到达这些路径的可能性作为特征来预测其是否是我们要推理的新路径;我们定义特征向量如下:
其中P(π)代表到指定路径的可能性,那么我们可以通过逻辑回归模型预测路径的可能性为:
根据逻辑回归的收敛值,我们就能预测该路径是否是我们预测的新路径。
4.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,所述步骤3具体包括:
步骤3.1、计算路径张量的分解函数值,定义有三元组(ei,rk,ej),则定义路径张量Rk的分解函数为:
其中和为命名实体ei和ei的向量形式,Rk为实体对ei和ei间的关系矩阵;然而,公式(10)只是实体对间的路径为1的路径张量的分解函数;一般地,假设有两个三元组(eh,r1,e1)和(e1,r2,et),即第一个三元组的尾实体和第二个三元组的头实体相同,那么实体对eh和et之间的关系路径为rk=r1r2;则可以推理出该实体对的分解函数应为:
其中R1和R2为关系r1、r2的关系矩阵;更一般地,如果实体eh和et之间存在的路径为P=(r1r2r3......rL),则PRESCAL的张量分解函数为:
其中为关系ri的关系矩阵;
步骤3.2、计算整个张量的损失函数值,对于某种关系k,可以使用三阶张量的第k层来表示,通过张量的分解,则第k层张量表示为:
所以,由均方误差可知,整个第k层张量分解的损失函数可以表示为:为了使整个张量的分解更加合理,替换矩阵能够更加接近原始矩阵则张量分解的损失函数值应该收敛于极小值,即整个张量的分解问题转换为损失函数的极小值问题;即需要求得极小值
为了避免以上模型训练的过度拟合问题,将上式(14)修正为:
上式即为张量分解损失函数的极值求解优化模型,其中, 表示整个张量在路径分解过程中的损失函数模型,是为了避免模型过度拟合而引入的修正方式,λ为修正参数。
5.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,所述步骤4具体方法是:
为了得到整个张量分解的损失函数极小值,算法需要在训练过程中,对实体矩阵E和关系矩阵不断更新,并求极值;PRESCAL算法采用了交替最小二乘法来更新实体矩阵和关系矩阵;即在更新某一矩阵的时候,先假定另一个矩阵保持不变,更新过程如下所示:
其中,λR、λ为修正参数,I为单位矩阵;
以上式15和式16的更新过程一直迭代进行,直到达到迭代次数T或者损失函数值收敛于某个设定值N;此时迭代完成,整个知识图谱在张量分解误差最小的代价下完成一次推理过程。
6.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法,其特征在于,定义经过推理之后的知识图谱为G′=(E′,R′,S′),所述步骤5利用知识图谱的实体关系比对,来自动抽取知识图谱中可能出现的错误和矛盾,具体是:
对于知识图谱的错误识别,本文采用一种对比实体对和相关关系的方式假设存在三元组(e1,r1,e2)和(e1,r1,e3),则对于实体e1,有两个同样的关系路径r1,却指向了两个不同的实体e2和e3;如果头实体e1的关系r1不具备一对多的实体属性,那么这两个三元组之间很可能存在错误的实体对关系;所谓关系的一对多属性可以这样理解,假设头实体为“国家”,关系1为“首都”,关系2为“城市”,则显然关系1是一对一属性,关系2是一对多属性;知识图谱的自动“识错”便是基于此来讨论的;
在步骤2中提到过,我们对于实体对正确关系的选择,可以通过PRA路径预测的可能性的大小来筛选;假设用P(πL(i,j,k))来表示实体对ei和ej之间存在长度为L的关系路径rk的可能性;那么通过计算比较实体对间的存在的关系路径的可能性P(πL)就能够较为准确地判断出三元组集合中存在的错误论断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444156.7A CN109543043A (zh) | 2018-05-10 | 2018-05-10 | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444156.7A CN109543043A (zh) | 2018-05-10 | 2018-05-10 | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543043A true CN109543043A (zh) | 2019-03-29 |
Family
ID=65830775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810444156.7A Pending CN109543043A (zh) | 2018-05-10 | 2018-05-10 | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543043A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110243834A (zh) * | 2019-07-11 | 2019-09-17 | 西南交通大学 | 基于知识图谱的变压器设备缺陷分析方法 |
CN110457442A (zh) * | 2019-08-09 | 2019-11-15 | 国家电网有限公司 | 面向智能电网客服问答的知识图谱构建方法 |
CN110532399A (zh) * | 2019-08-07 | 2019-12-03 | 广州多益网络股份有限公司 | 面向游戏问答系统的知识图谱更新方法、系统及装置 |
CN110796254A (zh) * | 2019-10-30 | 2020-02-14 | 南京工业大学 | 一种知识图谱推理方法、装置、计算机设备及存储介质 |
CN111897972A (zh) * | 2020-08-06 | 2020-11-06 | 南方电网科学研究院有限责任公司 | 一种数据轨迹可视化方法和装置 |
CN112183728A (zh) * | 2020-09-29 | 2021-01-05 | 上海松鼠课堂人工智能科技有限公司 | 基于深度学习的学习策略生成方法和系统 |
CN112287043A (zh) * | 2020-12-29 | 2021-01-29 | 成都数联铭品科技有限公司 | 基于领域知识的图编码自动生成方法及系统、电子设备 |
CN112671792A (zh) * | 2020-12-29 | 2021-04-16 | 西安电子科技大学 | 一种基于张量分解与知识图谱的网络事件提取方法及系统 |
CN112699681A (zh) * | 2020-12-17 | 2021-04-23 | 国网冀北电力有限公司信息通信分公司 | 基于知识图谱的电力通信系统缺陷故障派单方法及装置 |
WO2022262320A1 (zh) * | 2021-06-15 | 2022-12-22 | 广东电网有限责任公司湛江供电局 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
-
2018
- 2018-05-10 CN CN201810444156.7A patent/CN109543043A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110243834B (zh) * | 2019-07-11 | 2020-03-31 | 西南交通大学 | 基于知识图谱的变压器设备缺陷分析方法 |
CN110243834A (zh) * | 2019-07-11 | 2019-09-17 | 西南交通大学 | 基于知识图谱的变压器设备缺陷分析方法 |
CN110532399A (zh) * | 2019-08-07 | 2019-12-03 | 广州多益网络股份有限公司 | 面向游戏问答系统的知识图谱更新方法、系统及装置 |
CN110457442B (zh) * | 2019-08-09 | 2022-04-26 | 国家电网有限公司 | 面向智能电网客服问答的知识图谱构建方法 |
CN110457442A (zh) * | 2019-08-09 | 2019-11-15 | 国家电网有限公司 | 面向智能电网客服问答的知识图谱构建方法 |
CN110796254A (zh) * | 2019-10-30 | 2020-02-14 | 南京工业大学 | 一种知识图谱推理方法、装置、计算机设备及存储介质 |
CN110796254B (zh) * | 2019-10-30 | 2024-02-27 | 南京工业大学 | 一种知识图谱推理方法、装置、计算机设备及存储介质 |
CN111897972A (zh) * | 2020-08-06 | 2020-11-06 | 南方电网科学研究院有限责任公司 | 一种数据轨迹可视化方法和装置 |
CN111897972B (zh) * | 2020-08-06 | 2023-10-17 | 南方电网科学研究院有限责任公司 | 一种数据轨迹可视化方法和装置 |
CN112183728A (zh) * | 2020-09-29 | 2021-01-05 | 上海松鼠课堂人工智能科技有限公司 | 基于深度学习的学习策略生成方法和系统 |
CN112183728B (zh) * | 2020-09-29 | 2021-07-20 | 上海松鼠课堂人工智能科技有限公司 | 基于深度学习的学习策略生成方法和系统 |
CN112699681A (zh) * | 2020-12-17 | 2021-04-23 | 国网冀北电力有限公司信息通信分公司 | 基于知识图谱的电力通信系统缺陷故障派单方法及装置 |
CN112671792A (zh) * | 2020-12-29 | 2021-04-16 | 西安电子科技大学 | 一种基于张量分解与知识图谱的网络事件提取方法及系统 |
CN112287043A (zh) * | 2020-12-29 | 2021-01-29 | 成都数联铭品科技有限公司 | 基于领域知识的图编码自动生成方法及系统、电子设备 |
WO2022262320A1 (zh) * | 2021-06-15 | 2022-12-22 | 广东电网有限责任公司湛江供电局 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543043A (zh) | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 | |
Yu et al. | Reinforcement learning with tree-lstm for join order selection | |
CN108009285B (zh) | 基于自然语言处理的林业生态环境人机交互方法 | |
CN109241313A (zh) | 一种基于高阶深度哈希学习的图像检索方法 | |
CN106529818B (zh) | 基于模糊小波神经网络的水质评价预测方法 | |
CN112382082A (zh) | 一种拥堵区域交通运行状态预测方法及系统 | |
CN107807986B (zh) | 一种描述地物空间关系语义的遥感影像智能理解的方法 | |
CN114896472B (zh) | 一种基于多源时空数据的知识图谱机器推理系统和方法 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN113780002A (zh) | 基于图表示学习和深度强化学习的知识推理方法及装置 | |
CN110245238A (zh) | 基于规则推理和句法图式的图嵌入方法及系统 | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN110263236A (zh) | 基于动态多视图学习模型的社交网络用户多标签分类方法 | |
CN108062369A (zh) | 一种整合情境的多态性泛在学习资源聚合方法及系统 | |
CN105825430A (zh) | 一种基于异构社会网络的检测方法 | |
CN113590799A (zh) | 一种基于多视角推理的弱监督知识图谱问答方法 | |
CN113420868A (zh) | 一种基于深度强化学习的旅行商问题求解方法及求解系统 | |
CN110309907A (zh) | 一种基于去跟踪自编码器的动态缺失值填补方法 | |
Sun | Study on application of data mining technology in university computer network educational administration management system | |
CN105718591B (zh) | 一种基于规则和约束满足的定性空间关系推理方法 | |
CN109242039A (zh) | 一种基于候选标记估计的未标记数据利用方法 | |
CN114116957A (zh) | 一种基于知识图谱的电磁信息泄漏智能分析方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
Gao | Design and Implementation of 3D Animation Data Processing Development Platform Based on Artificial Intelligence | |
CN109376248A (zh) | 一种基于增量学习的知识库构建及偏序结构图生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |