CN112907222B

CN112907222B - 一种多源异构电网运监业务数据融合方法

Info

Publication number: CN112907222B
Application number: CN202110317131.2A
Authority: CN
Inventors: 胡伟; 郭秋婷; 马坤; 黄建平; 陈浩; 盛银波
Original assignee: Tsinghua University; State Grid Corp of China SGCC; Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Corp of China SGCC; Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-07-08
Anticipated expiration: 2041-03-25
Also published as: CN112907222A

Abstract

本发明属于大数据智能检测技术领域，涉及一种多源异构电网运监业务数据融合方法。本方法首先对数据进行预处理，然后通过基于稀疏降噪自编码器的深度置信网络对多源异构数据进行特征提取、分类识别过程，提高深度置信网络的特征表达能力和泛化性能，充分挖掘多源数据之间的深层抽象特征，避免了由于特征提取不充分导致的影响模型输出精度降低问题，然后采用强化学习与联合互信息相结合的方法自主获得多源信息之间的相关性，并按照相关性进行充分融合，有效提高电力系统多源异构运监业务数据的处理能力和利用效率，并且能够充分满足电力系统运监业务对数据实时性的要求。

Description

一种多源异构电网运监业务数据融合方法

技术领域

本发明属于大数据智能检测技术领域，涉及一种多源异构电网运监业务数据融合方法。

背景技术

随着智能电网的发展与信息技术的高度渗透，大空间尺度、小时间尺度和多数据类型的电力系统海量信息，极大促进了电力大数据的发展及应用。电力系统是一个复杂的高维系统，其内部数据流向有电力流、业务流、故障流、信息流和气象流等不同数据流，数据信息的多源异构问题，使得人们难以充分挖掘大数据的隐含信息，给电力大数据的高效应用造成极大阻碍。数据融合技术作为一种重要的数据处理手段，从原始数据和数据特征等多个层次对数据进行综合处理,获得应用需求的有价值信息,在降低多源异构数据的冗余度和存储资源浪费方面具有重要价值。因此，研究电网运监业务数据潜在的多源异构数据融合问题，充分挖掘电力系统运监业务数据中隐藏的有价值信息，有效提高电力运监业务大数据的处理能力和利用效率，对实现电力企业的可靠、安全、高效及经济化运行具有重要意义。随着深度强化学习技术的成熟和大数据理论的发展，基于人工智能方法进行多源异构数据融合为大电网的智能控运行制提供了新的思路。

发明内容

本发明的目的是提出一种多源异构电网运监业务数据融合方法，以有效提高电力系统多源异构运监业务数据的处理能力和利用效率，并且能够充分满足电力系统运监业务对数据实时性的要求。

本发明提出多源异构电网运监业务数据融合方法，包括：对多源异构电网运监业务数据预处理过程；基于深度学习的多源异构电网运监业务数据特征提取、分类识别过程；基于强化学习的决策级融合过程，最终获得数据量少、容错性高和分析能力强的数据集，用于对电力系统运监业务数据有价值信息进行有效挖掘。

本发明提出的多源异构电网运监业务数据融合方法，其特点和优点是：

1、本发明的多源异构电网运监业务数据融合方法，首先对数据进行预处理，然后通过深度学习方法充分挖掘多源数据之间的深层抽象特征，避免了由于特征提取不充分导致的影响模型输出精度降低问题，然后采用强化学习与联合互信息相结合的方法自主获得多源信息之间的相关性，并按照相关性进行充分融合，能够充分满足电力系统运监业务对数据实时性的要求。

2、本发明方法易于实施，本发明通过引入人工智能领域的深度强化学习方法，对其中较为关键的两部分，即基于稀疏降噪自编码器的深度置信网络对多源异构数据进行特征提取、分类识别过程和基于强化学习的多源异构数据融合过程，稀疏降噪自动编码器在特征提取、分析、降维和表达方面具有更好的效果，提高深度置信网络的特征表达能力和泛化性能，有效提高电力系统多源异构运监业务数据的处理能力和利用效率，因此本方法易于实施。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的多源异构电网运监业务数据融合方法涉及的深度置信网络特征提取流程。

图2为本发明方法涉及的稀疏降噪自编码器结构图。

图3为本发明方法涉及的受限玻尔兹曼机结构图。

图4为本发明方法涉及的深度置信网络结构图。

具体实施方式

本发明方法提出的多源异构电网运监业务数据融合方法，包括：对多源异构电网运监业务数据预处理过程；基于深度学习的多源异构电网运监业务数据特征提取、分类识别过程；基于强化学习的决策级融合过程，最终获得数据量少、容错性高和分析能力强的数据集，用于对电力系统运监业务数据有价值信息进行有效挖掘。

上述多源异构电网运监业务数据融合方法，具体包括以下步骤：

(1)对多源异构电网运监业务数据进行预处理，具体过程如下；

(1-1)从电网企业数据中台采集多源异构电网运监业务数据，包括电力用户用电信息采集系统数据、电力管理信息(MIS)系统数据、电能计量系统数据、数据采集与监视控制(SCADA)系统数据、电力设备在线检测系统数据和风光电功率预测系统数据，并将采集的多源异构电网运监业务数据分别存储在相对应的子数据库集合中；

(1-2)遍历步骤(1-1)的多源异构电网运监业务数据，进行筛查定位，对异常数据及缺失数据进行均值补偿，对冗余和无效的数据进行清理，得到预处理数据集；

(2)利用深度学习模型，对步骤(1)的预处理后的多源异构电网运监业务数据进行特征提取和分类识别，包括以下步骤：

(2-1)从步骤(1-2)的预处理数据集中读取预处理后的数据；

(2-2)分别对预处理的各数据源数据，此处的各数据源包括，电力用户用电信息采集系统数据、电力管理信息(MIS)系统数据、电能计量系统数据、数据采集与监视控制(SCADA)系统数据、电力设备在线检测系统数据和风光电功率预测系统数据，构建相应的稀疏降噪自编码器深度置信网络模型，设置模型参数，对模型进行训练，分别提取多源异构运监业务数据的数据特征，分别输出结果特征提取结果，如图1所示，具体过程如下：

(2-2-1)利用稀疏降噪自编码器(SDAE)建立一个单隐藏层网络，此处称为单隐层稀疏降噪自编码器，稀疏降噪自编码器结构如图2所示，输入步骤(2-1)读取的预处理后的数据，并对单隐层稀疏降噪自编码器进行训练，获得权值W和偏置b，稀疏降噪自动编码器的代价函数为：

其中，ρ是稀疏性参数，

是以ρ和

为均值的两个伯努利随机变量间的相对熵，m表示步骤(2-1)中读取的预处理数据样本数量，

为稀疏降噪自编码器的一个映射，

表示噪声，y⁽ⁱ⁾表示输出，β表示稀疏惩罚项权重系数，s表示单隐藏层网络中隐含层神经元的数量；

(2-2-2)建立一个具有双层RBM受限玻尔兹曼机网络的DBN深度置信网络模型，具体结构如图4所示：

受限玻尔兹曼机是一种基于能量函数的模型，受限玻尔兹曼机结构如图3所示，受限玻尔兹曼机的输入层和隐含层的联合配置能量函数如下：

其中，θ＝{a_i,b_j,W_ij}是受限玻尔兹曼机的参数，a_i和b_j分别代表受限玻尔兹曼机输入层神经元和隐含层神经元的偏置，x_i和h_j分别代表受限玻尔兹曼机输入层神经元和隐含层神经元的状态，W_ij为输入层神经元i与隐含层神经元j之间的连接权重；

在受限玻尔兹曼机中，用logistics函数表示激活状态时，输入层和隐含层各节点的激活概率为：

P(h_j＝1|x,θ)＝logistic(∑_iW_ijxi+b_j)

P(x_i＝1|h,θ)＝logistic(∑_jW_ijh_j+a_i)

(2-2-3)将步骤(2-2-1)中得到的权值W和偏置b赋值给步骤(2-2-2)所建立的深度置信网络中的第一层受限玻尔兹曼机，并对第一层受限玻尔兹曼机进行初始化；

(2-2-4)对步骤(2-2-2)建立的含双层RBM受限玻尔兹曼机网络的DBN深度置信网络模型进行训练，利用DBN深度置信网络的深层次特征提取能力，提取数据特征，并进行结果输出，得到提取后的数据特征；

(2-2-5)根据多源异构运监业务数据中不同数据源的数据，分别进行步骤(2-2-1)-步骤(2-2-4)的特征提取过程，直到完成所有数据源的数据特征提取；

(3)根据步骤(2)提取的多源异构运监业务数据特征，利用强化学习方法，进行多源异构运监业务数据融合过程，具体过程如下：

(3-1)根据步骤(2-2-5)中提取的各数据源的数据特征，采用Parzen窗方法，对各数据源中的各个特征进行离散估计和概率密度估计，分别得到电力系统多源异构数据特征的概率分布，即特征x_i的概率分布p(x_i)、特征x_j,x_i的联合概率分布p(x_i,x_j)，特征类别属性Y的概率分布p(y)和特征x_j在特征类别属性Y下的条件概率分布p(x_j,y)，特征x_j,x_i在特征类别属性Y条件下的联合概率分布p(x_i,x_j,y)；

(3-2)根据步骤(2-2-5)中提取的各数据源的数据特征，建立信息熵指标H(X_i)，计算每个特征的信息熵H(X_i)及信息熵均值meanH，得到所有特征的信息熵，计算所有特征信息熵的均值，并分别将每个特征的信息熵与信息熵的均值进行比较，将高于信息熵均值的特征记录在信息熵表中；

meanH＝∑H(X_i)/n

其中，dom(X)表示特征x_i的取值范围，p(x_i)表示特征x_i的概率分布，n表示特征的总个数；

(3-3)利用步骤(3-1)中得到电力系统多源异构数据特征的概率分布，即特征x_i的概率分布p(x_i)、特征x_j,x_i的联合概率分布p(x_i,x_j)、特征类别属性Y的概率分布p(y)和特征x_j在特征类别属性Y下的概率分布p(x_j,y)，特征x_j,x_i在特征类别属性Y下的联合概率分布为p(x_i,x_j,y)，建立特征协同效应系数MIG((X_i,X_j)；Y)，计算每个特征的协同效应系数值MIG((X_i,X_j)；Y)及协同效应系数值的均值meanMIG：

MIG((X_i,X_j)；Y)＝MI((X_i,X_j)；Y)-MI(X_i,Y)-MI(X_j,Y)

其中，X_i和X_j分别表示步骤(2-2-5)中提取的各数据源的数据特征，Y表示步骤(2-2-5)中提取的各数据源的数据特征的类别属性，n表示特征的总个数；

根据上述计算结果，形成一个特征协同效应系数表，将特征协同效应系数中的与低于均值meanMIG的特征记入一个集合S中；MIG((X_i,X_j)；Y)越小，则说明任意两特征的冗余程度越大；

(3-3)构建一个强化学习环境，设定步骤(2-2-4)中提取的全部数据特征为环境，环境中包含不同特征的特征子集S_t，构成状态集S，即步骤(3-2)中的集合S，设定一个动作集A，动作集A中包括添加特征和删除特征，根据最终数据融合效果，设定收益R为特征子集在分类器上的分类准确率，建立强化学习模型，具体过程如下：

(3-3-1)S为状态集合，S_t指智能体Agent在t时刻所处的状态，且S_t∈S；

(3-3-2)A为动作集合，a_t指智能体Agent在t时刻所处的状态，且a_t∈A；

(3-3-3)R为收益，R(S_t,a_t)指智能体Agent在环境状态为S_t时，执行动作a_t获得的收益，收益R根据任务需要自定义，本发明的一个实施例中的收益定义为特征子集在分类器上的分类准确率；

(3-3-4)利用动作评价函数Q(S_t,a_t)，计算智能体Agent在环境状态为S_t时，执行动作a_t获得的最大累计收益Q(S_t,a_t)：

Q(S_t,a_t)＝R(S_t,a_t)+γmaxQ(S_t+1,a_t+1)

其中，γ为折扣系数，γ∈[0,1]，表示当前的收益较之未来的收益更重要，即时间越久，影响越小，本发明的一个实施例中，折扣系数的取值为0.5；

(3-4)此步骤为强化学习算法中Agent进行迭代训练学习并逐步进行决策的核心过程，将步骤(3-1)获得的信息熵、(3-2)中获得的协同效应系数表及步骤(2-2-4)提取的数据特征带入智能体Agent，智能体Agent根据添加、删除的动作所带来的不同收益作出决策，得到决策级多源异构运监数据融合结果，具体步骤如下：

(3-4-1)初始化特征参数及强化学习模型参数，初始化当前特征子集

初始化折扣系数γ；

其中T为当前特征子集，表示智能体Agent在设定时刻已经选择特征的集合，H为候选特征子集，表示智能体Agent在设定时刻未被选入T中的特征集合；

(3-4-2)将步骤(3-1)的信息熵高于信息熵均值的特征计入集合HS，HS的初始为空集；

(3-4-3)将步骤(3-2)协同效应系数低于协同效应系数均值的特征计入集合MIGS，MIGS初始为空集；

(3-4-4)当

时，随机添加一个特征X_add，X_add∈H，T←T∪{X_add}，H←H\{X_add}；

其中，X_add表示要添加的特征，X_del表示要删除的特征，T←T∪{X_add}表示将T与特征X_add取并集的结果赋值给T，H←H\{X_add}表示将H中删除特征X_add的结果赋值给H；

(3-4-5)从H∩HS中随机添加一个特征X_add，计算特征子集T∪{X_add}的分类准确率，记为R_add，从步骤(3-4-3)的集合MIGS查询特征子集T中协同效应系数较大的几对特征，随机选择几对特征中的一个特征，计算特征子集T\{X_add}分类准确率，记为R_del，对分类准确率R_add与分类准确率R_del进行比较：

若R_add＞R_del，则执行T←T∪{X_add},H←H\{X_add}

若R_add＜R_del，则执行T←T\{X_del},H←H∪{X_del}

(3-4-6)根据步骤(3-3-4)中的动作评价函数Q(S_t,a_t)，计算Q值，并更新Q表；

(3-4-7)判断Q是否达到最大值，若满足，则停止，并通过Q表输出与最大Q值相对应的特征子集S，将该特征子集S作为最终数据融合结果，实现多源异构电网运监业务数据融合，若不满足，则重复步骤(3-4-4)-(3-4-7)。

Claims

1.一种多源异构电网运监业务数据融合方法，其特征在于，包括：对多源异构电网运监业务数据预处理过程；基于深度学习的多源异构电网运监业务数据特征提取、分类识别过程；基于强化学习的决策级融合过程，最终获得数据量少、容错性高和分析能力强的数据集，用于对电力系统运监业务数据有价值信息进行有效挖掘；其中，所述方法具体包括以下步骤：

(1-1)从电网企业数据中台采集多源异构电网运监业务数据，包括电力用户用电信息采集系统数据、电力管理信息系统数据、电能计量系统数据、数据采集与监视控制系统数据、电力设备在线检测系统数据和风光电功率预测系统数据，并将采集的多源异构电网运监业务数据分别存储在相对应的子数据库集合中；

(2-1)从步骤(1-2)的预处理数据集中读取预处理后的数据；

(2-2)分别对预处理的各数据源数据，构建相应的稀疏降噪自编码器深度置信网络模型，设置模型参数，对模型进行训练，分别提取多源异构运监业务数据的数据特征，分别输出结果特征提取结果，具体过程如下：

(2-2-1)利用稀疏降噪自编码器建立一个单隐藏层网络，此处称为单隐层稀疏降噪自编码器，输入步骤(2-1)读取的预处理后的数据，并对单隐层稀疏降噪自编码器进行训练，获得权值W和偏置b，稀疏降噪自动编码器的代价函数为：