CN109543043A

CN109543043A - 一种基于知识图谱推理的电力通信大数据错误的自动监测方法

Info

Publication number: CN109543043A
Application number: CN201810444156.7A
Authority: CN
Inventors: 杨济海; 李仁华; 彭汐单; 巢玉坚; 马旭强; 伍小生; 田晖; 郑富永; 王�华; 付萍萍; 胡游君; 邱玉祥; 吕顺利; 周鹏; 邓伟; 刘皓; 蔡新忠; 查凡; 王宏; 丁传文
Original assignee: Information And Communication Branch Of Jiangxi Electric Power Co Ltd; Wuhan University WHU; NARI Group Corp
Current assignee: Information And Communication Branch Of Jiangxi Electric Power Co Ltd; Wuhan University WHU; NARI Group Corp; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2019-03-29

Abstract

本发明涉及了一种基于知识图谱推理的电力通信大数据错误的自动监测方法。首先将知识图谱的命名实体集合E和实体关系集合R分别嵌入转换到低维向量空间；然后循环遍历命名实体集合，对于其中的命名实体对e_i和e_j，采用PRA算法查找实体对间的关系矩阵再对得到的路径矩阵进行张量分解，计算每个路径上的损失函数值，更新实体矩阵E和关系矩阵最后找出知识图谱G′中可能存在的错误的实体对关系。本发明涉及的路径张量分解算法在路径的张量分解方面作出了巨大改进，大大的降低了数据集的空间维度。是的知识推理算法更加高效。

Description

一种基于知识图谱推理的电力通信大数据错误的自动监测方法

技术领域

本发明是对知识图谱应用领域的拓展，属于行业知识图谱的应用范畴，特别涉及了一种基于路径张量分解的知识图谱推理算法(PRESCAL)。

背景技术

知识图谱(Knowledge Graph)：是一种结构化的语义知识库，形式上知识图谱是用符号来描述物理世界中的概念及其相互之间的关系。本质上，知识图谱是一种揭示实体之间关系的语义网络。

知识图谱的概念最初是由Google公司提出的，2012年，Google发布了知识图谱项目，同时宣布将知识图谱技术应用于智能搜索引擎，这一新技术的研发使得搜索引擎步入了智能化的新时代。随后，国内外的许多其他互联网公司也纷纷建立研发团队，构建了自己的知识图谱。例如已经投入使用的搜狗的“知立方”、微软的Probase和百度的“知心”。知识图谱技术使得语义检索功能变得更加智能化，搜索引擎从原始的基于字符串的匹配式搜索变成了基于知识实体的智能化搜索。目前，知识图谱已经被广泛应用于搜索引擎、智能问答、个性化推荐等领域。

知识图谱通用的表示方式是“三元组”，即G＝(E，R，S)，其中E＝{e₁，e₂，……，e_∣E∣}代表知识库中的实体集合，共有|E|中不同的知识实体；R＝{r₁，r₂，……，r_∣R∣}代表知识库中的实体关系的集合，共有|R|中不同的实体关系；代表的就是知识图谱的三元组集合，即为整个知识库的代表。三元组表示的是实体与实体之间的关系或者是概念与属性之间的关系。

知识图谱通常可以分为行业知识图谱和通用知识图谱两大类型。通用知识图谱注重的是知识库的广度，强调在大数据的基础上构建知识图谱，但其准确度比行业知识图谱低，并且受实体范围的影响较大，因此主要应用于精确度不要求很高的智能搜索领域。而行业知识图谱需要使用特定行业的数据来构建知识库，实体的属性和数据模式比较丰富，但需要根据特定行业考虑不同的业务场景。目前，行业知识图谱在电商、金融等行业得到了较为成熟的应用。

知识图谱推理：是一种利用原有知识图谱的实体三元组集合，在经过路径关系的推理计算之后，得到实体对间存在的新关系以丰富和拓展原知识图谱的手段。通常知识图谱的推理方法是将高维的知识图谱转换到低维的连续向量空间，利用低维向量的分解产生不同方式的推理方法，包括基于路径的推理算法和基于张量分解的推理算法等。

基于张量分解的推理算法是首先将整个知识图谱看作一个大的张量，然后通过张量分解技术将高维的知识图谱转换为低维的连续向量，从而大幅减少知识推理计算时的数据规模。在有关张量分解的知识图谱推理的研究中，Nickel等提出了基于三阶张量分解的RESCAL算法，其核心思想是将知识图谱中的所有三元组对应的张量值分解为实体和关系矩阵的形式。 Socher等通过神经张量网络构建推理算法，提出张量神经网络(Neural TensorNetworks，NTN) 模型.Chang等在构造训练模型时利用关系语义类型的约束，提出TRESCAL。

基于路径的推理算法根据知识图谱实体间的路径关系进行推理计算，能够有效的挖掘实体间的新关系。该算法的缺点是对于长路径的实体关系间的推理，目前还没有有效完善的推理方法。Lao等提出路径排列算法(Path Ranking Algorithm，PRA)，利用随机游走的方式，来推理获取知识库中可能存在的实体间的新关系。Neelakantan等利用循环神经网络(Recurrent Neural Network，RNN)模式进行路径推理，通过PRA获取每个实体关系路径.Yang等利用神经网络嵌入模式，建立通用推理模型，并进行有关路径推理.Wang等利用设置物理规则和逻辑规则进行知识图谱的路径推理和完善知识图谱任务。

发明内容

目前，知识图谱的典型应用集中在“搜索引擎”和“深度问答系统”等方面。除此之外，行业知识图谱在某些垂直行业(如电商行业)中的应用也日渐成熟。然而除了以上几种应用方式之外，目前知识图谱的其他应用寥寥无几。本发明提出了利用国家电网电力通信的多种数据源来构建行业知识图谱以自动发现通信网络数据错误的新型应用方式。通信网络数据错误的发现本质上来说，就是对知识图谱实体对错误关系的识别，即找出知识图谱中隐含的错误的实体对关系。

为了重点阐述知识图谱的推理过程，这里忽略行业知识图谱的构建步骤。假设在现有的结构化和非结构化的数据源的基础之上，已经构建好了电网通信相关的知识图谱G＝(E，R，S)。其中E为知识图谱的知识实体，R为实体间的关系，S为实体关系的三元组集合。

为了识别知识图谱实体对的错误关系，本发明采用了一种基于路径张量分解的知识图谱推理算法(PRESCAL)。在构建好知识图谱的基础之上，对现有知识图谱进行推理更新，利用实体对比对的方式找出其中隐含的可能存在的错误关系。具体需要以下几个步骤：

一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，基于定义：电网通信相关的知识图谱G＝(E，R，S)；其中E为知识图谱的知识实体，R为实体间的关系，S 为实体关系的三元组集合；具体包括：

步骤1：将知识图谱的命名实体集合E和实体关系集合R分别嵌入转换到低维向量空间，以减小推理计算的数据规模；

步骤2：循环遍历命名实体集合E＝{e₁，e₂，e₃，......，e_n}，对于其中的命名实体对e_i和e_j，采用PRA算法查找实体对间的关系矩阵

步骤3：对步骤2中得到的路径矩阵进行张量分解，计算每个路径上的损失函数值，损失函数模型公式如下：

其中，X_ijk表示实体e_i和实体e_j关于某种关系k的三阶张量，和代表实体e_i和e_j的向量矩阵；

步骤4：更新实体矩阵E和关系矩阵使得整个张量分解的损失函数值逐渐收敛，直到达到迭代次数T或损失函数值小于某个设定值时，结束迭代更新；

步骤5：遍历分析已完成收敛的知识图谱G′,找出G′中可能存在的错误的实体对关系。

在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，所述步骤1中，定义现有知识图谱G＝(E，R，S)中包含n个实体和m种关系，则可以使用一个三阶张量来表示G的三元组集合；对于给定的三元组(e_i，r_k，e_j)，在三阶张量中可用来表示，具体取值定义如下：

其中i，j＝1，2，......n；k＝1，2，，......m

对于三元组(e_i，r_k，e_j)，用向量和分别表示实体e_i和e_i，用关系矩阵R_k来表示实体对间的关系r_k，则为n×d的矩阵，R_k为d×d的矩阵，d为每个实体具有的特征或者维数；这样就可以将实体以及关系嵌入到二维的向量空间中。

在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，所述步骤2具体包括：

步骤2.1PRA算法介绍

首先需要介绍一下相关概念dom(P)和range(P)；假定存在关系路径P＝(R₁，R₂，R₃，...，R_L)，也可以表示为则dom(P)表示的就是路径P的域，range(P)就是路径P的范围；具体地，对于任意的路径元素R_i(1＜i＜L-1)有:

如果存在一种任意的关系路径P和一个实体结点s∈dom(P)，则结点s的有约束的随机路径可以定义为以下分布函数的形式h_s，P(e)：

1)如果关系路径P为空，则定义为：

2)如果关系路径P不为空，令P′＝(R₁，R₂，R₃，...，R_L-1)，则会有h_s，P(e)的定义如下：

h_s，P(e)＝∑_{e′∈range(P′)}h_s，P′(e′)·P(e|e′；R_L)式5

其中，P(e|e′；R_L)＝R_L(e′，e)/|R_L(e′，·)|，表示用步长为1的随机路径R_L可以从结点e′到达结点e的可能性，P_L(e′，e)表示实体结点e′和e是否通过关系R_L相互连接；

一般地，对于给定的一组路径关系的集合P₁，......，P_n，我们可以将结点e的每一个分布函数都看作是一个路径特征，通过线性模型将其排列为：

其中，θ_i为路径的权重值；则结点e和相关的需要查询的结点s之间的评估函式6公式(7)定义为：

其中，P_A即为步长≤A的关系路径的集合；可以看出，通过公式(7)评估函数的对比，就可以选择出结点e的可能性最大的相关结点s；

步骤2.2获取实体对关系路径

在知识图谱中，假设存在三元组(e₁，r₁，e₂)、(e₂，r₂，e₃)、(e₃，r₃，e₄)，由于关系路径的传递性，则我们可以猜测命名实体e₁和e₄之间可能存在某种关系，即可能存在三元组(e₁，r₄，e₄)；本发明采用PRA随机游走的方式来获取实体间的可能存在的关系路径；特别地，用π_L(i，j，k，t) 表示一条形如的长度为L的路径，其中t＝(r₁，r₂，r₃，...，r_L)；另外，假设用Π_L(i，j，k)来标识所有的长度为L的路径的集合；则PRA算法的核心是我们假定用随机游走的方式到达某条实体路径，则我们可以用到达这些路径的可能性作为特征来预测其是否是我们要推理的新路径；我们定义特征向量如下：

其中P(π)代表到指定路径的可能性，那么我们可以通过逻辑回归模型预测路径的可能性为：

根据逻辑回归的收敛值，我们就能预测该路径是否是我们预测的新路径。

在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，所述步骤3具体包括：

步骤3.1、计算路径张量的分解函数值，定义有三元组(e_i，r_k，e_j)，则定义路径张量R_k的分解函数为：

其中和为命名实体e_i和e_i的向量形式，R_k为实体对e_i和e_i间的关系矩阵；然而，公式(10) 只是实体对间的路径为1的路径张量的分解函数；一般地，假设有两个三元组(e_h，r₁，e₁)和 (e₁，r₂，e_t)，即第一个三元组的尾实体和第二个三元组的头实体相同，那么实体对e_h和e_t之间的关系路径为r_k＝r₁r₂；则可以推理出该实体对的分解函数应为：

其中R₁和R₂为关系r₁、r₂的关系矩阵；更一般地，如果实体e_h和e_t之间存在的路径为P＝(r₁r₂r₃……r_L)，则PRESCAL的张量分解函数为：

其中为关系r_i的关系矩阵；

步骤3.2、计算整个张量的损失函数值，对于某种关系k，可以使用三阶张量的第k层来表示，通过张量的分解，则第k层张量表示为：

所以，由均方误差可知，整个第k层张量分解的损失函数可以表示为：为了使整个张量的分解更加合理，替换矩阵能够更加接近原始矩阵则张量分解的损失函数值应该收敛于极小值，即整个张量的分解问题转换为损失函数的极小值问题；即需要求得极小值

为了避免以上模型训练的过度拟合问题，将上式(14)修正为：

上式(15)即为张量分解损失函数的极值求解优化模型，其中，表示整个张量在路径分解过程中的损失函数模型，是为了避免模型过度拟合而引入的修正方式，λ为修正参数。

在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，所述步骤4具体方法是：

为了得到整个张量分解的损失函数极小值，算法需要在训练过程中，对实体矩阵E和关系矩阵不断更新，并求极值；PRESCAL算法采用了交替最小二乘法来更新实体矩阵和关系矩阵；即在更新某一矩阵的时候，先假定另一个矩阵保持不变，更新过程如下所示：

其中，λ_R、λ为修正参数，I为单位矩阵；

以上式15和式16的更新过程一直迭代进行，直到达到迭代次数T或者损失函数值收敛于某个设定值N；此时迭代完成，整个知识图谱在张量分解误差最小的代价下完成一次推理过程。

在上述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，定义经过推理之后的知识图谱为G′＝(E′，R′，S′)，所述步骤5利用知识图谱的实体关系比对，来自动抽取知识图谱中可能出现的错误和矛盾，具体是：

对于知识图谱的错误识别，本发明采用一种对比实体对和相关关系的方式

假设存在三元组(e₁，r₁，e₂)和(e₁，r₁，e₃)，则对于实体e₁，有两个同样的关系路径r₁，却指向了两个不同的实体e₂和e₃；如果头实体e₁的关系r₁不具备一对多的实体属性，那么这两个三元组之间很可能存在错误的实体对关系；所谓关系的一对多属性可以这样理解，假设头实体为“国家”，关系1为“首都”，关系2为“城市”，则显然关系1是一对一属性，关系2是一对多属性；知识图谱的自动“识错”便是基于此来讨论的；

在步骤2中提到过，我们对于实体对正确关系的选择，可以通过PRA路径预测的可能性的大小来筛选；假设用P(π_L(i，j，k))来表示实体对e_i和e_j之间存在长度为L的关系路径r_k的可能性；那么通过计算比较实体对间的存在的关系路径的可能性P(π_L)就能够较为准确地判断出三元组集合中存在的错误论断。

因此，本发明具有如下优点：

1、目前知识图谱的应用范围集中在“搜索引擎”和“自动问答系统”方面，但知识图谱本身具有的图结构属性，为推理其存在的实体关系提供了天然的便利和优势。本发明正是基于此背景，目的是讨论知识图谱的又一个应用领域——“知识推理”在国家电网通信领域的可行性。

2、在基于国家电网通信知识图谱的基础之上，利用知识图谱的推理能力提出了自动推理实体关系以发现数据错误的设想方法，从而达到提高数据质量的目的。这种自动推理识错的方法与以往传统的数据纠错方法相比，其最大的亮点和优势在于其自动发现错误的特性。

3、本发明采用了基于路径张量分解的知识图谱推理算法(PRESCAL)，与传统的路径推理算法相比，路径张量分解算法在路径的张量分解方面作出了巨大改进，大大的降低了数据集的空间维度。是的知识推理算法更加高效。

附图说明

图1是张量分解模型示意图。

图2是知识图谱实体对错误关系识别的“识错”规则示例图。

具体实施方式

根据知识图谱的路径张量分解推理来自动发现实体对错误关系的具体实施步骤为：

步骤1：将知识图谱的命名实体集合和实体关系集合嵌入映射到低维向量空间。用向量矩阵的形式表示。

假设现有知识图谱G＝(E，R，S)中包含n个实体和m种关系，则可以使用一个三阶张量来表示G的三元组集合。对于给定的三元组(e_i，r_k，e_j)，在三阶张量中可用来表示，具体取值定义如下：

其中i，j＝1，2，......n；k＝1，2，，......m

对于三元组(e_i，r_k，e_j)，用向量和分别表示实体e_i和e_i，用关系矩阵R_k来表示实体对间的关系r_k，则为n×d的矩阵，R_k为d×d的矩阵，d为每个实体具有的特征或者维数。这样就可以将实体以及关系嵌入到二维的向量空间中。

步骤2：遍历命名实体集合E＝{e₁，e₂，e₃，......，e_n}，采用随机游走的方式(PRA)查找实体对间的关系矩阵

步骤2.1PRA算法介绍

首先需要介绍一下相关概念dom(P)和range(P)。假定存在关系路径P＝(R₁，R₂，R₃，...，R_L)，也可以表示为则dom(P)表示的就是路径P的域，range(P)就是路径P的范围。具体地，对于任意的路径元素R_i(1＜i＜L-1)有:

1)如果关系路径P为空，则定义为：

其中，P(e|e′；R_L)＝R_L(e′，e)/|R_L(e′，·)|，表示用步长为1的随机路径R_L可以从结点e′到达结点e的可能性，R_L(e′，e)表示实体结点e′和e是否通过关系R_L相互连接。

其中，θ_i为路径的权重值。则结点e和相关的需要查询的结点s之间的评估函数可以通过公式(7)定义为：

其中，P_A即为步长≤A的关系路径的集合。可以看出，通过公式(7)评估函数的对比，就可以选择出结点e的可能性最大的相关结点s。

步骤2.2获取实体对关系路径

在知识图谱中，假设存在三元组(e₁，r₁，e₂)、(e₂，r₂，e₃)、(e₃，r₃，e₄)，由于关系路径的传递性，则我们可以猜测命名实体e₁和e₄之间可能存在某种关系，即可能存在三元组(e₁，r₄，e₄)。本发明采用PRA随机游走的方式来获取实体间的可能存在的关系路径。特别地，用π_L(i，j，k，t) 表示一条形如的长度为L的路径，其中t＝(r₁，r₂，r₃，...，r_L)。另外，假设用Π_L(i，j，k)来标识所有的长度为L的路径的集合。则PRA算法的核心是我们假定用随机游走的方式到达某条实体路径，则我们可以用到达这些路径的可能性作为特征来预测其是否是我们要推理的新路径。我们定义特征向量如下：

步骤3：利用步骤2中随机游走获取的路径关系矩阵，计算其三元组的分解函数值f(e_i，r_k，e_j),并计算整个张量的损失函数值。

步骤3.1计算路径张量的分解函数值

假定有三元组(e_i，r_k，e_j)，则定义路径张量R_k的分解函数为：

其中和为命名实体e_i和e_i的向量形式，R_k为实体对e_i和e_i间的关系矩阵。然而，公式 (10)只是实体对间的路径为1的路径张量的分解函数。一般地，假设有两个三元组(e_h，r₁，e₁) 和(e₁，r₂，e_t)，即第一个三元组的尾实体和第二个三元组的头实体相同，那么实体对e_h和e_t之间的关系路径为r_k＝r₁r₂。则可以推理出该实体对的分解函数应为：

其中R₁和R₂为关系r₁、r₂的关系矩阵。更一般地，如果实体e_h和e_t之间存在的路径为P＝(r₁r₂r₃......r_L)，则PRESCAL的张量分解函数为：

其中为关系r_i的关系矩阵。

步骤3.2计算整个张量的损失函数值

在步骤1提到过，假定知识图谱G拥有n个实体和m种关系。对于某种关系k，可以使用三阶张量的第k层来表示。因此，如图1所示，通过张量的分解，则第k层张量可以近似表示为：

所以，由均方误差可知，整个第k层张量分解的损失函数可以表示为：为了使整个张量的分解更加合理，替换矩阵能够更加接近原始矩阵则张量分解的损失函数值应该收敛于极小值，即整个张量的分解问题转换为损失函数的极小值问题。即需要求得极小值

为了避免以上模型训练的过度拟合问题，PRESCAL算法提出了优化模型，将上式(14)修正为：

步骤4：更新实体矩阵E和关系矩阵使得公式(15)能够尽快求得极值

为了得到整个张量分解的损失函数极小值，算法需要在训练过程中，对实体矩阵E和关系矩阵不断更新，并求极值。PRESCAL算法采用了交替最小二乘法来更新实体矩阵和关系矩阵。即在更新某一矩阵的时候，先假定另一个矩阵保持不变，更新过程如下所示：

其中，λ_R、λ为修正参数，I为单位矩阵。

以上1)和2)的更新过程一直迭代进行，直到达到迭代次数T或者损失函数值收敛于某个设定值N。此时迭代完成，整个知识图谱在张量分解误差最小的代价下完成一次推理过程。

步骤5：在经过以上4个步骤的知识推理后，整个知识图谱G通过随机游走(PRA)获取新路径的方式，在优化损失函数模型对张量分解损失的保证之下，完成了整个实体矩阵和关系矩阵的更新，使得原有知识图谱得到了丰富和拓展。假设经过推理之后的知识图谱为 G′＝(E′，R′，S′)，本发明利用知识图谱的实体关系比对，来自动抽取知识图谱中可能出现的错误和矛盾。下面介绍知识图谱的“识错”规则。

知识图谱的“识错”规则：对于知识图谱的错误识别，本发明采用一种对比实体对和相关关系的方式。假设存在三元组(e₁，r₁，e₂)和(e₁，r₁，e₃)，则对于实体e₁，有两个同样的关系路径r₁，却指向了两个不同的实体e₂和e₃。如果头实体e₁的关系r₁不具备一对多的实体属性，那么这两个三元组之间很可能存在错误的实体对关系。所谓关系的一对多属性可以这样理解，假设头实体为“国家”，关系1为“首都”，关系2为“城市”，则显然关系1是一对一属性，关系2是一对多属性。知识图谱的自动“识错”便是基于此来讨论的。

在步骤2中提到过，我们对于实体对正确关系的选择，可以通过PRA路径预测的可能性的大小来筛选。假设用P(π_L(i，j，k))来表示实体对e_i和e_j之间存在长度为L的关系路径r_k的可能性。那么通过计算比较实体对间的存在的关系路径的可能性P(π_L)就能够较为准确地判断出三元组集合中存在的错误论断。举例说明如下：

如图2所示，假设三元组集合S存在多个三元组 (e₁，r₁，e₂)、(e₂，r₂，e₃)、(e₁，r₃，e₄)、(e₁，r₅，e₅)以及由推理算法推理得到的新三元组(e₁，r₃，e₃)。从图中我们可以清楚地看到，(e₁，r₃，e₃)和(e₁，r₃，e₄)这两个三元组在头实体均为e₁、实体关系均为r₃的情况下，其尾实体分别为e₃和e₄，那么如果头实体e₁的关系r₃不是具有一对多属性的实体，则某个实体对间的关系很可能存在错误。假设两个实体对关系路径存在的可能性分别为P₁₃＝P(π₁(1，3,r₃))和P₁₄＝P(π₁(1，4，r₃))。那么如果P₁₃＞P₁₄，则说明实体对e₁和e₃间存在的关系更合理，即三原组(e₁，r₃，e₄)可能存在错误；否则说明实体对e₁和e₄间存在的关系更合理，三原组(e₁，r₃，e₃)可能存在错误，这里特别注意的是要明确头实体e₁的关系r₃是否是一对多属性。

以上实体对关系识别的比对方法虽然不能完全百分之百的保证所筛选的实体对三元组一定是正确的，但在一定程度上可以得到路径可能性比对的保证。在通过知识图谱推理的方式，不断更新知识图谱的知识库的情况下，可以通过这种方式来筛选排除其中可能包含的错误。

Claims

1.一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，基于定义：电网通信相关的知识图谱G＝(E，R，S)；其中E为知识图谱的知识实体，R为实体间的关系，S为实体关系的三元组集合；具体包括：

2.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，所述步骤1中，定义现有知识图谱G＝(E，R，S)中包含n个实体和m种关系，则可以使用一个三阶张量来表示G的三元组集合；对于给定的三元组(e_i，r_k，e_j)，在三阶张量中可用来表示，具体取值定义如下：

其中i，j＝1，2，......n；k＝1，2，，......m

3.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，所述步骤2具体包括：

步骤2.1PRA算法介绍

1)如果关系路径P为空，则定义为：

h_s，P(e)＝∑_{e′∈range(P′)}h_s，P′(e′)·P(e|e′；R_L) 式5

其中，P(e|e′；R_L)＝R_L(e′，e)/|R_L(e′，·)|，表示用步长为1的随机路径R_L可以从结点e′到达结点e的可能性，R_L(e′，e)表示实体结点e′和e是否通过关系R_L相互连接；

θ₁h_s，P₁(e)+θ₂h_s，P₂(e)+…+θ_nh_s，P_n(e) 式6

其中，θ_i为路径的权重值；则结点e和相关的需要查询的结点s之间的评估函数可以通过公式(7)定义为：

步骤2.2获取实体对关系路径

在知识图谱中，假设存在三元组(e₁，r₁，e₂)、(e₂，r₂，e₃)、(e₃，r₃，e₄)，由于关系路径的传递性，则我们可以猜测命名实体e₁和e₄之间可能存在某种关系，即可能存在三元组(e₁，r₄，e₄)；本文采用PRA随机游走的方式来获取实体间的可能存在的关系路径；特别地，用π_L(i，j，k，t)表示一条形如的长度为L的路径，其中t＝(r₁，r₂，r₃，...，r_L)；另外，假设用冂_L(i，j，k)来标识所有的长度为L的路径的集合；则PRA算法的核心是我们假定用随机游走的方式到达某条实体路径，则我们可以用到达这些路径的可能性作为特征来预测其是否是我们要推理的新路径；我们定义特征向量如下：

4.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，所述步骤3具体包括：

其中和为命名实体e_i和e_i的向量形式，R_k为实体对e_i和e_i间的关系矩阵；然而，公式(10)只是实体对间的路径为1的路径张量的分解函数；一般地，假设有两个三元组(e_h，r₁，e₁)和(e₁，r₂，e_t)，即第一个三元组的尾实体和第二个三元组的头实体相同，那么实体对e_h和e_t之间的关系路径为r_k＝r₁r₂；则可以推理出该实体对的分解函数应为：

其中R₁和R₂为关系r₁、r₂的关系矩阵；更一般地，如果实体e_h和e_t之间存在的路径为P＝(r₁r₂r₃......r_L)，则PRESCAL的张量分解函数为：

其中为关系r_i的关系矩阵；

为了避免以上模型训练的过度拟合问题，将上式(14)修正为：

上式即为张量分解损失函数的极值求解优化模型，其中，表示整个张量在路径分解过程中的损失函数模型，是为了避免模型过度拟合而引入的修正方式，λ为修正参数。

5.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，所述步骤4具体方法是：

其中，λ_R、λ为修正参数，I为单位矩阵；

6.根据权利要求1所述的一种基于知识图谱推理的电力通信大数据错误的自动监测方法，其特征在于，定义经过推理之后的知识图谱为G′＝(E′，R′，S′)，所述步骤5利用知识图谱的实体关系比对，来自动抽取知识图谱中可能出现的错误和矛盾，具体是：

对于知识图谱的错误识别，本文采用一种对比实体对和相关关系的方式假设存在三元组(e₁，r₁，e₂)和(e₁，r₁，e₃)，则对于实体e₁，有两个同样的关系路径r₁，却指向了两个不同的实体e₂和e₃；如果头实体e₁的关系r₁不具备一对多的实体属性，那么这两个三元组之间很可能存在错误的实体对关系；所谓关系的一对多属性可以这样理解，假设头实体为“国家”，关系1为“首都”，关系2为“城市”，则显然关系1是一对一属性，关系2是一对多属性；知识图谱的自动“识错”便是基于此来讨论的；