CN113806560A

CN113806560A - 一种电力数据知识图生成方法及系统

Info

Publication number: CN113806560A
Application number: CN202111172149.4A
Authority: CN
Inventors: 肖凯; 王晓辉; 刘鹏; 郭鹏天; 季知祥; 李道兴
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2021-12-17

Abstract

本发明公开了一种电力数据知识图生成方法及系统，所述电力数据知识图生成方法包括以下步骤：获取预选中电力专业的各业务系统的业务数据和数据模型；将业务数据转换为子图数据；获取各子图数据中各图节点的低维图表示向量；利用预训练好的节点连接预测模型，获得各子图数据中各图节点存在连接的概率；基于图节点的分类及存在连接的概率，更新子图数据内图节点间关系以及子图数据间图节点间关系，获得电力数据知识图。本发明能够根据模型预测的图节点连接概率来完成图数据间关联建立与修正，实现了电力多专业领域分散图数据的高效融合生成，提升了电力数据知识图表达的准确性。

Description

一种电力数据知识图生成方法及系统

技术领域

本发明属于电力数据处理技术领域，特别涉及一种电力数据知识图生成方法及系统。

背景技术

随着电力领域业务融合应用的不断发展，基于深度学习的算法模型对业务间数据融合的需求也越来越高。电力领域业务经过十多年的发展，基于专业划分形成了不同的领域数据，业务间存在数据壁垒，各类算法模型需要的跨专业数据样本加工成本极高，成为全业务数据融合亟待解决的难题。

目前在电力领域还缺乏图生成、表示及融合方法的研究，现有传统的图生成、表示方法主要集中于谱方法、结合网络结构的节点内容表示方法以及基于深度学习的方法，这些现有传统方法多数只利用了图数据的网络信息，忽略了同样具有重要作用的节点特征信息；另外，现有方法在节点信息降维映射成低维空间向量的过程中，需要为不同的图挖掘任务单独设计目标函数，领域相关性较强，可扩展性较差。

发明内容

本发明的目的在于提供一种电力数据知识图生成方法及系统，以解决上述存在的一个或多个技术问题。本发明中利用深度学习算法，提出融合电力图数据节点特征与网络特征的低维向量表示模型，能够根据模型预测的图节点连接概率来完成图数据间关联建立与修正，实现了电力多专业领域分散图数据的高效融合生成，提升了电力数据知识图表达的准确性。

为达到上述目的，本发明采用以下技术方案：

本发明的一种电力数据知识图生成方法，包括以下步骤：

获取预选中电力专业的各业务系统的业务数据和数据模型；

对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据；

获取各子图数据中各图节点的低维图表示向量；

基于各子图数据中各图节点的低维图表示向量，利用预训练好的节点连接预测模型，获得各子图数据中各图节点存在连接的概率；

对于各子图数据中各图节点，基于图节点的分类及存在连接的概率，更新子图数据内图节点间关系以及子图数据间图节点间关系，获得电力数据知识图。

本发明的进一步改进在于，所述对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据的步骤具体包括：

所述业务数据为结构化数据时，转换处理规则及过程包括：

如果结构化数据中任意两个表的主键相同，属性集不相交，则只构建一个图节点，对属性集合并；

如果结构化数据中任意两个表的主键相同，属性集相交，则在图中构建两个图节点，图节点间关系中增加两图节点的属性交集；

如果结构化数据中任意两个表的主键相同，属性集存在包含关系，则在图中构建两个图节点，图节点间关系增加包含关系。

所述业务数据为非结构化数据时，转换处理规则及过程包括：

将非结构化数据转换为文本格式的数据；

基于所述文本格式的数据，抽取图节点、关系数据直接用三元组(Entity1，RelationType，Entity2)表示；其中，Entity1、Entity2为抽取文本中的图节点，RelationType为预定义的Entity1、Entity2关系；

将图节点对象的标签定义为词位置、关系类型和角色三个部分，将图节点、关系之外的数据表示为非抽取对象，获得标注好的语料；其中，词位置用于表示单词在图节点中的位置；关系类型为从业务领域预定义的关系集合中选取；角色用于表示图节点在三元组中的位置；

将标注好的语料，根据标注序列就近原则合并生成三元组。

本发明的进一步改进在于，所述对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据，还包括：

(1)基于同名或属性值，对生成的各子图数据包含的图节点进行粗聚类；

(2)采用文本相似特征、基本特征抽取算法和互斥特征分析共同进行图节点相似度计算，对相似度符合预设要求的图节点进行合并；

(3)基于Base融合，在步骤(1)和(2)处理结果的基础上，采用层次聚类算法，对图节点进行对齐，形成Base版的融合数据，对每一个融合后图节点编码固定的ID值和当前时间戳。

本发明的进一步改进在于，所述获取各子图数据中各图节点的低维图表示向量的步骤具体包括：

针对各子图数据中每一个图节点，获取正样本集合、负样本集合并合并，获得合并样本集合；

随机初始化目标函数中图节点的表示向量参数；

将合并样本集合划分为若干批次互不相交的集合；

基于所述若干批次互不相交的集合，采用批量梯度下降方法优化目标函数，直至目标函数收敛，获得优化后的目标函数；

将优化后的目标函数的表示向量参数与图节点的先验特征向量拼接，得到图节点的低维图表示向量。

本发明的进一步改进在于，所述目标函数的表达式为，

式中，D表示所有正负样本的集合，里面每一个元素的含义通过γ来表达：γ＝1表示v_j是v_i的正样本，为邻居节点；γ＝-1表示v_j是v_i的负样本，v_j表示通过P_n(v)获取的抽样节点；σ(x)表示sigmoid函数；v_i、v_j表示生成的原始图中的第i、j个节点；Φ(v_i)表示节点i的表示向量；f_j表示节点j的先验节点属性特征向量。

本发明的进一步改进在于，所述节点连接预测模型的结构为包括1个输入层、多个隐藏层和1输出层的GCN深度神经网络；其中，所述输入层用于输入两个图节点的低维图表示向量，所述输出层用于输出两个图节点存在连接的概率。

本发明的进一步改进在于，获取所述预训练好的节点连接预测模型的步骤具体包括：

将所有子图数据生成的低维图表示向量随机等分成两部分，获得训练集和测试集；

采用GCN算法在训练集上采用全集方式训练，获得训练后的节点连接预测模型；

在测试集中测试所述训练后的节点连接预测模型，测试通过后，获得所述预训练好的节点连接预测模型。

本发明的进一步改进在于，在获得电力数据知识图之后，还包括：

统计图内各节点度数、边关系数，形成图节点对应节点、边关系统计列表，对列表中节点度数或边关系数超过阈值的超级点，采用混合优化分割方法进行图平衡；

其中，当节点度数超过阈值时，对超级点的邻居节点分类统计边数和边关系数，选择最大的分类进行分割；判断节点度数是否低于阈值，如果不满足，则重复上述操作，直到低于阈值；

当边关系数超过阈值时，对边关系属性分类统计，将最大的分类折分出来，建立新的节点边关系；判断边关系数是否低于阈值，如果不满足，则重复上述操作，直到低于阈值。

本发明的一种电力数据知识图生成系统，包括：

第一获取模块，用于获取预选中电力专业的各业务系统的业务数据和数据模型；

子图数据获取模块，用于对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据；

低维图表示向量获取模块，用于获取各子图数据中各图节点的低维图表示向量；

概率获取模块，用于基于各子图数据中各图节点的低维图表示向量，利用预训练好的节点连接预测模型，获得各子图数据中各图节点存在连接的概率；

知识图获取模块，用于对于各子图数据中各图节点，基于图节点的分类及存在连接的概率，更新子图数据内图节点间关系以及子图数据间图节点间关系，获得电力数据知识图。

与现有技术相比，本发明具有以下有益效果：

本发明的方法，针对电力各专业竖井式管理带来的数据隔离，以及海量结构化数据在价值分析过程中存在的知识表达维度和精度不足的问题，通过数据获取与处理、知识表示学习以及图融合，实现电力跨专业、多领域子图数据贯通与融合统一；其中，通过深度学习模型，可将电网高维、大规模稀疏的图数据转化成融合了多专业领域业务属性的低维图特征向量，从而可更好地满足电力领域模型训练的数据需求，消除电力图数据在分析处理、及模型应用的性能瓶颈，显著提升电网全业务数据集成共享与价值挖掘水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种电力数据知识图生成方法的流程示意图；

图2是本发明实施例中，原始图合并生成的流程示意图；

图3是本发明实施例的一种面向电力数据知识融合的图生成与表示方法的流程示意图；

图4是本发明实施例的一种面向电力数据知识融合的图生成与表示系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

目前的基于深度学习的图表示算法中，由Perozzi等人提出的DeepWalk算法，基于word2vec算法的随机游走策略，将词表示学习引入图表示习当中；由Jure Leskovec提出的Node2vec算法基于DeepWalk，将节点的随机游走过程调整为深度优先和广度优先策略，根据节点间边的概率来确定下一步游走方向，提升了图表示学习的可控性。微软提出的LINE算法通过计算图节点网络的一阶相似性和二阶相似性，并优化这两种相似性得出两种低维表示后进行拼接，作为节点的最终表示。这些图表示算法仅考虑了节点间的网络信息(即节点关系)，忽略了节点自身的属性。而电力数据实体关系反映的是业务流程的关联者，实体属性则是支撑业务流程执行的具体内容。利用上述算法学习到的图表示结果并不能良好地表达生成的图数据特征。

另外，申请号为202110261429.6的中国发明专利申请公开了一种基于迁移学习思想，采用半监督学习方式对少量标注数据进行学习，来捕获未标注图数据中的通用结构以提供有用的表征信息或参数给下游目标任务。该发明构建了全局和局部两个图自编码器预训练模型来进行图表示学习，结合深度学习方法在该模型后面添加一个与目标任务相关的输出层，与图节点本地特征一起迁移到目标任务的模型训练中，利用有标签数据对预训练模型参数进行微调得到最终的图神经网络模型，从而增强模型的学习能力。

结合上述分析可知，近年来开展的数据治理虽然贯通了一些业务领域，但是数据间仍然自成体系，数据表示及数据存储还存在以下不足和缺陷：

1)全网感知数据缺乏融合，包括：电网区域内“发-输-变-配-用”是一个天然的网络，但是各专业生成的关系型数据、文本、采集报文数据缺乏汇聚共享机制，业务间数据不能有效贯通，难以全面准确直观地掌握电网运行与业务运作的联系与动态；

2)多源数据挖掘应用欠佳，包括：通过电力大数据平台整合的大量数据缺乏不同维度的数据挖掘，例如客户行为、社会属性信息的标签管理，电力设备溯源、运行、维护等全息关联信息的直观展示以及面向深度学习的电力图数据表示方式等；

3)数据存储存在瓶颈，包括：电力营销、运检、客服、综合能源等领域知识图谱的构建基于关系数据模型，但是主流的图数据存储方案不能存储规模过大的数据，目前应用最广泛的Neo4J，社区版最大节点存储量不超过2³⁵字节，面对PB级电网数据，将不能保障大规模图数据的高效存储与管理。

为了充分挖掘电力大数据应用价值，有必要提供一种面向电力数据知识融合的图生成与表示方法，构建有效的图数据存储架构，将分散在不同业务领域的系统数据表、文本以及电网公共数据汇聚萃取成一个统一的知识融合中心，以便于全业务领域数据管控治理，结合电网天然的图拓扑结构以及业务链条的逐步延伸特点，由设备到系统、由区县供电单位到总部、由边缘到整体，形成一个立体关联的“电网一张图”体系。数据经过充分融合处理后，可提供给电网全业务领域使用，在电网跨业务多场景应用创新中体现重要价值。本发明实施例属于电力人工智能数据处理技术领域，公开了一种面向电力数据的图生成、表示与融合方法，包括数据获取与处理、原始图合并生成、知识表示学习、图融合和图平衡。

请参阅图1，本发明实施例的一种电力数据知识图生成方法，具体包括以下步骤：

步骤1，获取预设电力专业的业务数据和数据模型；

步骤2，对于所述预设电力专业中的每个业务系统，基于获取的数据模型和数据处理规则，将业务数据转换为子图数据；其中，所述子图数据包括实体、关系、属性；子图间数据通过实体对齐与合并建立关系；

步骤3，获取每个子图数据中的实体的低维向量表示；

步骤4，将获取的两个实体的低维向量表示输入预训练好的节点连接预测模型，获得两个图节点存在连接的概率；

步骤5，基于实体的分类和各分类概率，更新子图数据内实体间关系以及子图数据间实体间关系，获得电力数据知识图。

其中，所述节点连接预测模型的结构为包含1个输入层、多个隐藏层和1输出层的GCN深度神经网络，输入层包括两个节点的低维图表示向量输入，输出层输出两个节点存在连接的概率。

本发明实施例中，获取所述预训练好的节点连接预测模型的训练步骤具体包括：

1)将所有子图节点生成的低维图表示向量随机等分成两部分，分别作为训练集和测试集；

2)采用GCN算法在训练集上采用全集方式训练一个节点连接预测模型，其中，训练相关epoch、batch参数需要根据数据规模和算力资源规模来设置；

3)在测试集中测试训练好的节点连接预测模型，在子图内或子图间随机选取测试集两个低维图表示向量，预测存在连接的概率，以相应的两节点在图中实际关系进行验证，统计预测准确率，若低于经验阈值，则调整epoch、batch重新训练，直至预测准确率大于等于经验阈值。

本发明实施例具体提供了一种电力数据知识图生成方法，可适用于电力营销、运检、客服、综合能源等多业务领域海量高维数据的图生成、知识表示与融合方法；具体的，本发明针对电力各专业竖井式管理带来的数据隔离，以及海量结构化数据在价值分析过程中存在的知识表达维度和精度不足的问题，通过数据获取与处理、原始图合并生成、知识表示学习以及图融合，实现电力跨专业、多领域子图数据贯通与融合统一；通过深度学习模型，可将电网高维、大规模稀疏的图数据转化成融合了多专业领域业务属性的低维图特征向量，从而可更好地满足电力领域模型训练的数据需求，消除电力图数据在分析处理、及模型应用的性能瓶颈，显著提升电网全业务数据集成共享与价值挖掘水平。

本发明中，将电力图数据节点自身属性作为先验知识，与学习到的表示向量进行拼接，使得生成的节点向量既包含了自身特征，也能解释邻居节点的网络关联特征，有效提升了电力图数据节点表达的准确性。

本发明中，在目标函数中融入了节点自身特征向量作为已知系数，采用转换函数求取最大值来等价目标函数，显著降低了归一化项的时间复杂度。融合了网络信息和节点特征，通过负采样优化方法提升性能，算法的复杂度与图规模呈线性关系，可高效支撑大规模电力图数据生成表示任务。

示例性的，本发明实施例的步骤1中，通过结构化数据接口和对象存储数据接口批量将数据导入本地待处理数据域，将数据划分为结构化数据和非结构化数据；其中，所述预设电力专业的业务数据和数据模型具体包括：

1)营销，包括用电客户、用电合同、台区、运行电表、停上电事件、用电量；

2)运检，包括变电站、变压器、母线、线路、杆塔；

3)客服，包括客户、客户设备、投诉信息；

4)综合能源，包括智能终端、售电合同、发电量、用电量、客户资产。

示例性的，本发明实施例的步骤2中具体包括：

(2.1)针对结构化数据，根据其已定义好的数据模型和数据转换处理规则，利用电力图数据库提供图数据构建工具转换成三元组数据，通过调用电力大数据平台提供的ETL工具完成数据预处理后导入图数据库，生成子图数据，用于迅速构建领域内核心概念及其相互关系。

本发明实施例中，结构化数据的转换处理规则及过程如下：

1)如果结构化数据中任意两个表的主键相同，属性集不相交，则只构建一个实体，对属性集合并；

2)如果结构化数据中任意两个表的主键相同，属性集相交，则在图中构建两个实体，实体间关系中增加两实体的属性交集；

3)如果结构化数据中任意两个表的主键相同，属性集存在包含关系，则在图中构建两个实体，实体间关系增加包含关系。

(2.2)针对非结构化数据，主要包括文本、文档等数据，采用实体关系联合抽取方法获取上述类型数据中的实体、关系及属性，将抽取过程转换成基于特定的非结构化数据转换处理规则的标注任务。利用电力图数据库的图数据构建工具，将标注生成的三元组导入图数据库，生成非结构化子图数据。

本发明实施例中，非结构化数据转换处理规则及过程如下：

1)将文本、文档数据内容统一转换为文本格式的数据；

2)将抽取的实体、关系数据直接用三元组(Entity1，RelationType，Entity2)表示，其中，Entity1、Entity2为抽取文本中的实体，RelationType为预定义的Entity1、Entity2关系；

3)实体对象的标签定义为词位置、关系类型和角色三个部分，其中，词位置采用“BIES”方式标注，表示单词在实体中的位置；关系类型为从业务领域预定义的关系集合中选取，关系集合由业务领域核心业务数据梳理得出，采用英文名称首字母方式命名，如果关系集合中存在命名重复，则对后抽取关系的首个单词取前两个字母，依此类推解决；角色为数字“1”或“2”，用来表示实体在三元组中的位置；

4)实体、关系之外的数据表示为“O”，即非抽取对象；

5)将标注好的语料，根据标注序列就近原则合并生成三元组，其中，标注序列采用传统的BiLSTM算法进行编码。

示例性的，本发明实施例的步骤3具体包括：

1)针对图数据中每一个节点，利用DeepWalk算法生成游走长度为α1，滑动窗口α2的正样本集合。对于每一个正样本的节点，按照P_n(v)分布抽取其对应的若干个节点，组成对应负样本子集，按照比例α3从中抽取样本，添加到负样本集合中，重复α4次，最后将正负样本集合并；

2)随机初始化目标函数中节点的表示向量参数；

3)将合并的样本集合划分为若干批次互不相交的集合；

4)采用批量梯度下降方法优化目标函数，由于节点的先验特征向量是已知的，只需要调整表示向量参数，按照样本批次和梯度更新步长重复运行，直至目标函数收敛；

5)将目标函数优化结束后的表示向量参数与节点的先验特征向量拼接，得到节点最终的表示向量。

请参阅图2，本发明实施例中，对所述结构化数据生成的图数据与非结构化数据生成的三元组图数据进行实体对齐与合并，将业务领域内结构化、非结构化数据生成的多个子图数据通过以下步骤合并成一个图，具体执行过程描述如下：

(1)数据分桶

对生成的多个子图包含的实体数据进行粗聚类，粗聚类的方法基于简单的规则对数据进行分桶，具体规则主要是同名(原名或者别名相同)实体分在一个数据桶内。除了基于名称匹配，还可以将一些实体专有的属性值分在一个桶内，提升实体的聚集性。

(2)实体相似度计算

采用文本相似特征、基本特征抽取算法和互斥特征分析共同进行实体相似度计算，用来确定两个实体是否可以合并，以解决相似属性稀疏导致的欠融合问题，是实体对齐处理的核心环节。

(3)相似实体聚类合并

基于Base融合，在上述步骤的基础上，采用层次聚类算法，对每一个桶的实体进行对齐，形成Base版的融合数据，命名规则具体为，实体、属性名称优先采用结构化数据模型中的名称，其次按照实体名称来源文档的重要程度来选取，优先选择标准、规范类文档中的名称。最后，对每一个融合后实体编码固定的ID值和当前时间戳。

利用电力图模型构建工具提取生成图节点网络和各节点属性信息，将已知的各节点属性信息作为先验知识。基于DeepWalk算法提出的将图表示学习转化为词表示学习思路，设计同时考虑图节点网络和节点属性相似性目标函数，通过不断优化迭代该函数来得到融合图节点网络信息和节点属性特征信息的低维表示向量。

采用skip-gram模型，来优化和表达节点间网络特征的联合概率模型，然后将已知的节点属性特征融入到上述模型中，其基本原则是：如果两个节点具有相似的上下文，则判定为相似。针对电力图数据，如果两个节点拥有共同或特征相近的邻居节点，则判定为具有相似的低维表示。而节点属性特征一般是已知的，则学习到的节点的低维表示能够解释其邻居的节点属性特征。融合公式表示如下：

其中，v_i、v_j、v_k表示生成的原始图G中的第i、j、k个节点，v_i，v_j，v_k∈V(V表示图G的节点集合)；Φ(v_i)表示节点i的表示向量，Φ(v_i)∈R^d；f_j、f_k表示节点j、k的先验节点属性特征向量，f_j，f_k∈R^d(d表示先验节点属性特征向量的维度)。

由于公式(1)的归一化项时间复杂度非常高，利用负采样方法进行优化，将公式替换成通过最大化公式(2)来学习图中节点的表示向量：

其中，σ(x)表示sigmoid函数；E表示图G的边集合；

表示按照P_n(v)抽取节点v_i的负样本v_t。

采用DeepWalk算法中定义方式，将负样本v_t的度表示为deg(v_t)，且P_n(v)∝deg(v)^3/4。因此，融合节点网络信息和节点属性特征信息的目标函数表示如下：

其中，C_i表示节点v_i的邻居节点集合，且

经模型简化，最终目标函数形式表示如下：

其中，D表示所有正负样本的集合，里面每一个元素的含义通过γ来表达：γ＝1表示v_j是v_i的正样本，即邻居节点；γ＝-1表示v_j是v_i的负样本，即v_j表示通过P_n(v)获取的抽样节点。

本模型与DeepWalk共享全部参数，故模型参数设定与DeepWalk一致，1万级内和100万级内节点及边数图表示的典型参数设置表1所示。

表1. 1万级内和100万级内节点及边数图表示的典型参数设置

当图数据扩展到其他电力业务领域导致规模增大时，α1～α4根据模型测试效果调小，d根据节点属性特征信息最大规模从(64，128，256)中选择。

本发明的图融合中，利用知识表示学习对图数据分类预测数据，可构建或更新对应节点及其属性特征信息，对比结构化数据生成的图数据，进一步对上述合并图内节点及节点属性分别调整，从而提升分类实体、关系及属性的实体链接和知识合并的准确性。

进一步的，在模型运行环境方面，图数据主要基于主流的Neo4J等技术来提供存储能力，其节点最大存储数据量不超过2³⁵字节，从而不得不依赖第三方分布式存储(如HBase)来提供分布式协同能力，缺少超大图的子图均衡划分策略，当构建的包括海量数据的大图中存在超级节点(边数达到数十万甚至上百万)时，将会成为图查询和计算的致命瓶颈。

请参阅图3，本发明实施例的方法，还包括：图平衡；具体的，针对上述完成图融合后形成的新图，利用电力图建模工具统计图内各节点度数、边关系数，形成实体对应节点、边关系统计列表，对列表中节点度数或边关系数超过阈值(默认值为10万)的超级点，采用混合优化分割方法进行图平衡，具体包括：

(5.1)当节点度数超过阈值时，对超级点的邻居节点分类统计边数和边关系数，选择最大的分类进行分割，判断节点度数是否低于阈值，如果不满足，则重复上述操作，直到低于阈值；

(5.2)当边关系数超过阈值时，对边关系属性分类统计，将最大的分类折分出来，建立新的节点边关系，判断边关系数是否低于阈值，如果不满足，则重复上述操作，直到低于阈值；

(5.3)当节点度数和边关系数均超过阈值时，按(5.1)、(5.2)依次执行。

本发明实施例提供了一种面向电力数据知识的图生成、表示与融合方法，形成了针对选定业务领域结构化及非结构化数据的图生成、表示与融合流程，提升了电力领域图数据构建和图表示学习的准确性。系统的图融合存储模块，提供完全分布式去中心化的存储架构，以原生图存储方式，有效解决了当前图数据技术存在的单位节点存储存在上限，导致大规模电力图生成和应用的性能问题。

本发明实施例方法的关键创新点在于：

(1)提出基于DeepWalk算法的词表示学习算法，构建融合图节点网络信息与节点属性特征信息的图表示学习模型，利用已知的节点属性特征信息作为先验知识，将图表示学习过程转化为词表示学习过程，通过深度学习不断优化模型，得到融合了图节点网络信息与节点属性特征信息的低维节点表示向量，具有更好的内容表达能力。

(2)采用“BIES”与BiLSTM算法的嵌套方式来标注文本、文档等数据中的实体、关系向量，融合了实体向量表示和字向量表示特征，有效提升了三元组生成的准确性。

(3)以图表示学习算法为核心，构建的电力领域图数据生成、图融合、图平衡流程自成循环，可实现领域图数据信息的不断完善，精度的不断提升。

本发明实施例公开的方法，适用于电力运检、调度、营销、客服等多业务领域海量高维数据的图生成、知识表示与融合方法，通过数据获取与处理、原始图合并生成、知识表示学习、图融合、图平衡，可将电网高维、大规模稀疏的图数据转化成融合了多专业领域业务属性的低维图特征向量，从而更好地满足电力领域模型训练的数据需求，有效解决电力图数据分析、展示及模型应用的性能瓶颈，显著提升电网全业务数据集成共享与价值挖掘水平。

本发明实施例中，知识表示是指把知识客体中的知识因子与知识关联起来，便于人们识别和理解知识。知识表示是知识组织的前提和基础，任何知识组织方法都是要建立在知识表示的基础上；一般分为主观知识表示和客观知识表示两种。知识融合是指将多个知识图谱来源的关于同一个实体或概念的描述信息，经等价实例、等价类/子类、等价属性/子属性判定通过后合并的过程。深度学习是实现人工智能的最重要的研究方向，属机器学习的一种，通过多层神经网络算法学习样本数据的内在规律和表示层次，通过模仿人脑的机制来解释数据。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

请参阅图4，针对上述提出的面向电力数据知识融合的图生成与表示方法，本发明还实现了面向电力数据的图生成、表示与融合系统，具体包括数据获取与处理模块、图建模模块、知识抽取模块、图合并模块、知识表示模块、图融合存储模块、图自适应模块、图可视化模块。

下面以营配数据以及综合能源图数据构建为例，阐述本系统开展图生成、知识表示及图融合等工作过程。

(1)数据获取与处理模块，用于获取选定营配及综合能源业务在电力大数据平台的存储的关系型、文本、文档等数据，将数据转换成各数据类型遵循的标准格式；该模块提供统一的结构化、非结构数据调用接口，支持批量数据获取；

(2)图建模模块，用于将营配及综合能源业务现有的结构化数据模型、非结构化数据抽取实体、关系和属性构建成图模型，并加载对应的数据；

(3)知识抽取模块，用于对营配及综合能源业务范围内文本、文档等数据进行本体识别，实体、关系、属性识别与抽取，并将抽取的结果传递至图建模模块。该模块将文本、文档等数据统一转换成文本，采用上述“BIES”方式进行半监督方式标注，抽取“实体-关系-实体”三元组。以文本“用电客户A通过营销客户经理李明办理开户业务”为例，则“营销客户经理李明”实体表示为“S-CM-2”，并与最近实体“用电客户A”组合，生成三元组；

(4)原始图合并模块，用于将营配及综合能源结构化数据、非结构化数据形成的多个子图，基于节点、关系相似度及聚合度分析算法合并成一张图；

(5)知识表示模块，用于将营销图数据中各节点网络关系及属性特征加工转换成一个低维的特征向量存储，为图知识融合、图神经网络学习提供样本数据；

(6)图融合存储模块，用于调整营销原始图数据内节点、关系结构，提升融合图的精确性。该模块低层提供了原生(V，E)存储格式，存储架构为完全分布式去中心化的，不依赖任何第三方存储架构。存储节点间构建了一套稳定的消息队列和快照机制，使得任何节点和过程都可以假设一个虚拟的稳定的中间信息交互平台，保证消息的全局一致性、排序、最高一次送达，单一节点图存储规模无上限；

(7)图自适应模块，用于对图中节点度或边关系超过阈值的超级点进行自适应分割，优化计算与资源协同，使得超级点不成为图分析和计算的瓶颈；

(8)图可视化模块，用于集成多种图布局算法，提供静态、动态、混动图、多维的各种图布局和形态渲染等可视化展示库。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电力数据知识图生成方法，其特征在于，包括以下步骤：

获取预选中电力专业的各业务系统的业务数据和数据模型；

获取各子图数据中各图节点的低维图表示向量；

2.根据权利要求1所述的一种电力数据知识图生成方法，其特征在于，所述对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据的步骤具体包括：

所述业务数据为结构化数据时，转换处理规则及过程包括：

3.根据权利要求1所述的一种电力数据知识图生成方法，其特征在于，所述对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据的步骤具体包括：

将非结构化数据转换为文本格式的数据；

将标注好的语料，根据标注序列就近原则合并生成三元组。

4.根据权利要求1所述的一种电力数据知识图生成方法，其特征在于，所述对于每个业务系统，基于获取的数据模型和业务系统的数据处理规则，将业务数据转换为子图数据，还包括：

5.根据权利要求1所述的一种电力数据知识图生成方法，其特征在于，所述获取各子图数据中各图节点的低维图表示向量的步骤具体包括：

随机初始化目标函数中图节点的表示向量参数；

将合并样本集合划分为若干批次互不相交的集合；

6.根据权利要求5所述的一种电力数据知识图生成方法，其特征在于，所述目标函数的表达式为，

7.根据权利要求1所述的一种电力数据知识图生成方法，其特征在于，所述节点连接预测模型的结构为包括1个输入层、多个隐藏层和1输出层的GCN深度神经网络；其中，所述输入层用于输入两个图节点的低维图表示向量，所述输出层用于输出两个图节点存在连接的概率。

8.根据权利要求7所述的一种电力数据知识图生成方法，其特征在于，获取所述预训练好的节点连接预测模型的步骤具体包括：

9.根据权利要求1所述的一种电力数据知识图生成方法，其特征在于，在获得电力数据知识图之后，还包括：

10.一种电力数据知识图生成系统，其特征在于，包括：