CN112907222B - 一种多源异构电网运监业务数据融合方法 - Google Patents

一种多源异构电网运监业务数据融合方法 Download PDF

Info

Publication number
CN112907222B
CN112907222B CN202110317131.2A CN202110317131A CN112907222B CN 112907222 B CN112907222 B CN 112907222B CN 202110317131 A CN202110317131 A CN 202110317131A CN 112907222 B CN112907222 B CN 112907222B
Authority
CN
China
Prior art keywords
data
feature
characteristic
source heterogeneous
add
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110317131.2A
Other languages
English (en)
Other versions
CN112907222A (zh
Inventor
胡伟
郭秋婷
马坤
黄建平
陈浩
盛银波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
State Grid Corp of China SGCC
Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Tsinghua University
State Grid Corp of China SGCC
Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, State Grid Corp of China SGCC, Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202110317131.2A priority Critical patent/CN112907222B/zh
Publication of CN112907222A publication Critical patent/CN112907222A/zh
Application granted granted Critical
Publication of CN112907222B publication Critical patent/CN112907222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于大数据智能检测技术领域,涉及一种多源异构电网运监业务数据融合方法。本方法首先对数据进行预处理,然后通过基于稀疏降噪自编码器的深度置信网络对多源异构数据进行特征提取、分类识别过程,提高深度置信网络的特征表达能力和泛化性能,充分挖掘多源数据之间的深层抽象特征,避免了由于特征提取不充分导致的影响模型输出精度降低问题,然后采用强化学习与联合互信息相结合的方法自主获得多源信息之间的相关性,并按照相关性进行充分融合,有效提高电力系统多源异构运监业务数据的处理能力和利用效率,并且能够充分满足电力系统运监业务对数据实时性的要求。

Description

一种多源异构电网运监业务数据融合方法
技术领域
本发明属于大数据智能检测技术领域,涉及一种多源异构电网运监业务数据融合方法。
背景技术
随着智能电网的发展与信息技术的高度渗透,大空间尺度、小时间尺度和多数据类型的电力系统海量信息,极大促进了电力大数据的发展及应用。电力系统是一个复杂的高维系统,其内部数据流向有电力流、业务流、故障流、信息流和气象流等不同数据流,数据信息的多源异构问题,使得人们难以充分挖掘大数据的隐含信息,给电力大数据的高效应用造成极大阻碍。数据融合技术作为一种重要的数据处理手段,从原始数据和数据特征等多个层次对数据进行综合处理,获得应用需求的有价值信息,在降低多源异构数据的冗余度和存储资源浪费方面具有重要价值。因此,研究电网运监业务数据潜在的多源异构数据融合问题,充分挖掘电力系统运监业务数据中隐藏的有价值信息,有效提高电力运监业务大数据的处理能力和利用效率,对实现电力企业的可靠、安全、高效及经济化运行具有重要意义。随着深度强化学习技术的成熟和大数据理论的发展,基于人工智能方法进行多源异构数据融合为大电网的智能控运行制提供了新的思路。
发明内容
本发明的目的是提出一种多源异构电网运监业务数据融合方法,以有效提高电力系统多源异构运监业务数据的处理能力和利用效率,并且能够充分满足电力系统运监业务对数据实时性的要求。
本发明提出多源异构电网运监业务数据融合方法,包括:对多源异构电网运监业务数据预处理过程;基于深度学习的多源异构电网运监业务数据特征提取、分类识别过程;基于强化学习的决策级融合过程,最终获得数据量少、容错性高和分析能力强的数据集,用于对电力系统运监业务数据有价值信息进行有效挖掘。
本发明提出的多源异构电网运监业务数据融合方法,其特点和优点是:
1、本发明的多源异构电网运监业务数据融合方法,首先对数据进行预处理,然后通过深度学习方法充分挖掘多源数据之间的深层抽象特征,避免了由于特征提取不充分导致的影响模型输出精度降低问题,然后采用强化学习与联合互信息相结合的方法自主获得多源信息之间的相关性,并按照相关性进行充分融合,能够充分满足电力系统运监业务对数据实时性的要求。
2、本发明方法易于实施,本发明通过引入人工智能领域的深度强化学习方法,对其中较为关键的两部分,即基于稀疏降噪自编码器的深度置信网络对多源异构数据进行特征提取、分类识别过程和基于强化学习的多源异构数据融合过程,稀疏降噪自动编码器在特征提取、分析、降维和表达方面具有更好的效果,提高深度置信网络的特征表达能力和泛化性能,有效提高电力系统多源异构运监业务数据的处理能力和利用效率,因此本方法易于实施。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的多源异构电网运监业务数据融合方法涉及的深度置信网络特征提取流程。
图2为本发明方法涉及的稀疏降噪自编码器结构图。
图3为本发明方法涉及的受限玻尔兹曼机结构图。
图4为本发明方法涉及的深度置信网络结构图。
具体实施方式
本发明方法提出的多源异构电网运监业务数据融合方法,包括:对多源异构电网运监业务数据预处理过程;基于深度学习的多源异构电网运监业务数据特征提取、分类识别过程;基于强化学习的决策级融合过程,最终获得数据量少、容错性高和分析能力强的数据集,用于对电力系统运监业务数据有价值信息进行有效挖掘。
上述多源异构电网运监业务数据融合方法,具体包括以下步骤:
(1)对多源异构电网运监业务数据进行预处理,具体过程如下;
(1-1)从电网企业数据中台采集多源异构电网运监业务数据,包括电力用户用电信息采集系统数据、电力管理信息(MIS)系统数据、电能计量系统数据、数据采集与监视控制(SCADA)系统数据、电力设备在线检测系统数据和风光电功率预测系统数据,并将采集的多源异构电网运监业务数据分别存储在相对应的子数据库集合中;
(1-2)遍历步骤(1-1)的多源异构电网运监业务数据,进行筛查定位,对异常数据及缺失数据进行均值补偿,对冗余和无效的数据进行清理,得到预处理数据集;
(2)利用深度学习模型,对步骤(1)的预处理后的多源异构电网运监业务数据进行特征提取和分类识别,包括以下步骤:
(2-1)从步骤(1-2)的预处理数据集中读取预处理后的数据;
(2-2)分别对预处理的各数据源数据,此处的各数据源包括,电力用户用电信息采集系统数据、电力管理信息(MIS)系统数据、电能计量系统数据、数据采集与监视控制(SCADA)系统数据、电力设备在线检测系统数据和风光电功率预测系统数据,构建相应的稀疏降噪自编码器深度置信网络模型,设置模型参数,对模型进行训练,分别提取多源异构运监业务数据的数据特征,分别输出结果特征提取结果,如图1所示,具体过程如下:
(2-2-1)利用稀疏降噪自编码器(SDAE)建立一个单隐藏层网络,此处称为单隐层稀疏降噪自编码器,稀疏降噪自编码器结构如图2所示,输入步骤(2-1)读取的预处理后的数据,并对单隐层稀疏降噪自编码器进行训练,获得权值W和偏置b,稀疏降噪自动编码器的代价函数为:
Figure BDA0002991621910000031
其中,ρ是稀疏性参数,
Figure BDA0002991621910000032
Figure BDA0002991621910000033
是以ρ和
Figure BDA0002991621910000034
为均值的两个伯努利随机变量间的相对熵,m表示步骤(2-1)中读取的预处理数据样本数量,
Figure BDA0002991621910000035
为稀疏降噪自编码器的一个映射,
Figure BDA0002991621910000036
表示噪声,y(i)表示输出,β表示稀疏惩罚项权重系数,s表示单隐藏层网络中隐含层神经元的数量;
(2-2-2)建立一个具有双层RBM受限玻尔兹曼机网络的DBN深度置信网络模型,具体结构如图4所示:
受限玻尔兹曼机是一种基于能量函数的模型,受限玻尔兹曼机结构如图3所示,受限玻尔兹曼机的输入层和隐含层的联合配置能量函数如下:
Figure BDA0002991621910000041
其中,θ={ai,bj,Wij}是受限玻尔兹曼机的参数,ai和bj分别代表受限玻尔兹曼机输入层神经元和隐含层神经元的偏置,xi和hj分别代表受限玻尔兹曼机输入层神经元和隐含层神经元的状态,Wij为输入层神经元i与隐含层神经元j之间的连接权重;
在受限玻尔兹曼机中,用logistics函数表示激活状态时,输入层和隐含层各节点的激活概率为:
P(hj=1|x,θ)=logistic(∑iWijxi+bj)
P(xi=1|h,θ)=logistic(∑jWijhj+ai)
(2-2-3)将步骤(2-2-1)中得到的权值W和偏置b赋值给步骤(2-2-2)所建立的深度置信网络中的第一层受限玻尔兹曼机,并对第一层受限玻尔兹曼机进行初始化;
(2-2-4)对步骤(2-2-2)建立的含双层RBM受限玻尔兹曼机网络的DBN深度置信网络模型进行训练,利用DBN深度置信网络的深层次特征提取能力,提取数据特征,并进行结果输出,得到提取后的数据特征;
(2-2-5)根据多源异构运监业务数据中不同数据源的数据,分别进行步骤(2-2-1)-步骤(2-2-4)的特征提取过程,直到完成所有数据源的数据特征提取;
(3)根据步骤(2)提取的多源异构运监业务数据特征,利用强化学习方法,进行多源异构运监业务数据融合过程,具体过程如下:
(3-1)根据步骤(2-2-5)中提取的各数据源的数据特征,采用Parzen窗方法,对各数据源中的各个特征进行离散估计和概率密度估计,分别得到电力系统多源异构数据特征的概率分布,即特征xi的概率分布p(xi)、特征xj,xi的联合概率分布p(xi,xj),特征类别属性Y的概率分布p(y)和特征xj在特征类别属性Y下的条件概率分布p(xj,y),特征xj,xi在特征类别属性Y条件下的联合概率分布p(xi,xj,y);
(3-2)根据步骤(2-2-5)中提取的各数据源的数据特征,建立信息熵指标H(Xi),计算每个特征的信息熵H(Xi)及信息熵均值meanH,得到所有特征的信息熵,计算所有特征信息熵的均值,并分别将每个特征的信息熵与信息熵的均值进行比较,将高于信息熵均值的特征记录在信息熵表中;
Figure BDA0002991621910000051
meanH=∑H(Xi)/n
其中,dom(X)表示特征xi的取值范围,p(xi)表示特征xi的概率分布,n表示特征的总个数;
(3-3)利用步骤(3-1)中得到电力系统多源异构数据特征的概率分布,即特征xi的概率分布p(xi)、特征xj,xi的联合概率分布p(xi,xj)、特征类别属性Y的概率分布p(y)和特征xj在特征类别属性Y下的概率分布p(xj,y),特征xj,xi在特征类别属性Y下的联合概率分布为p(xi,xj,y),建立特征协同效应系数MIG((Xi,Xj);Y),计算每个特征的协同效应系数值MIG((Xi,Xj);Y)及协同效应系数值的均值meanMIG:
MIG((Xi,Xj);Y)=MI((Xi,Xj);Y)-MI(Xi,Y)-MI(Xj,Y)
Figure BDA0002991621910000052
Figure BDA0002991621910000053
Figure BDA0002991621910000054
Figure BDA0002991621910000055
其中,Xi和Xj分别表示步骤(2-2-5)中提取的各数据源的数据特征,Y表示步骤(2-2-5)中提取的各数据源的数据特征的类别属性,n表示特征的总个数;
根据上述计算结果,形成一个特征协同效应系数表,将特征协同效应系数中的与低于均值meanMIG的特征记入一个集合S中;MIG((Xi,Xj);Y)越小,则说明任意两特征的冗余程度越大;
(3-3)构建一个强化学习环境,设定步骤(2-2-4)中提取的全部数据特征为环境,环境中包含不同特征的特征子集St,构成状态集S,即步骤(3-2)中的集合S,设定一个动作集A,动作集A中包括添加特征和删除特征,根据最终数据融合效果,设定收益R为特征子集在分类器上的分类准确率,建立强化学习模型,具体过程如下:
(3-3-1)S为状态集合,St指智能体Agent在t时刻所处的状态,且St∈S;
(3-3-2)A为动作集合,at指智能体Agent在t时刻所处的状态,且at∈A;
(3-3-3)R为收益,R(St,at)指智能体Agent在环境状态为St时,执行动作at获得的收益,收益R根据任务需要自定义,本发明的一个实施例中的收益定义为特征子集在分类器上的分类准确率;
(3-3-4)利用动作评价函数Q(St,at),计算智能体Agent在环境状态为St时,执行动作at获得的最大累计收益Q(St,at):
Q(St,at)=R(St,at)+γmaxQ(St+1,at+1)
其中,γ为折扣系数,γ∈[0,1],表示当前的收益较之未来的收益更重要,即时间越久,影响越小,本发明的一个实施例中,折扣系数的取值为0.5;
(3-4)此步骤为强化学习算法中Agent进行迭代训练学习并逐步进行决策的核心过程,将步骤(3-1)获得的信息熵、(3-2)中获得的协同效应系数表及步骤(2-2-4)提取的数据特征带入智能体Agent,智能体Agent根据添加、删除的动作所带来的不同收益作出决策,得到决策级多源异构运监数据融合结果,具体步骤如下:
(3-4-1)初始化特征参数及强化学习模型参数,初始化当前特征子集
Figure BDA0002991621910000062
初始化折扣系数γ;
其中T为当前特征子集,表示智能体Agent在设定时刻已经选择特征的集合,H为候选特征子集,表示智能体Agent在设定时刻未被选入T中的特征集合;
(3-4-2)将步骤(3-1)的信息熵高于信息熵均值的特征计入集合HS,HS的初始为空集;
(3-4-3)将步骤(3-2)协同效应系数低于协同效应系数均值的特征计入集合MIGS,MIGS初始为空集;
(3-4-4)当
Figure BDA0002991621910000061
时,随机添加一个特征Xadd,Xadd∈H,T←T∪{Xadd},H←H\{Xadd};
其中,Xadd表示要添加的特征,Xdel表示要删除的特征,T←T∪{Xadd}表示将T与特征Xadd取并集的结果赋值给T,H←H\{Xadd}表示将H中删除特征Xadd的结果赋值给H;
(3-4-5)从H∩HS中随机添加一个特征Xadd,计算特征子集T∪{Xadd}的分类准确率,记为Radd,从步骤(3-4-3)的集合MIGS查询特征子集T中协同效应系数较大的几对特征,随机选择几对特征中的一个特征,计算特征子集T\{Xadd}分类准确率,记为Rdel,对分类准确率Radd与分类准确率Rdel进行比较:
若Radd>Rdel,则执行T←T∪{Xadd},H←H\{Xadd}
若Radd<Rdel,则执行T←T\{Xdel},H←H∪{Xdel}
(3-4-6)根据步骤(3-3-4)中的动作评价函数Q(St,at),计算Q值,并更新Q表;
(3-4-7)判断Q是否达到最大值,若满足,则停止,并通过Q表输出与最大Q值相对应的特征子集S,将该特征子集S作为最终数据融合结果,实现多源异构电网运监业务数据融合,若不满足,则重复步骤(3-4-4)-(3-4-7)。

Claims (1)

1.一种多源异构电网运监业务数据融合方法,其特征在于,包括:对多源异构电网运监业务数据预处理过程;基于深度学习的多源异构电网运监业务数据特征提取、分类识别过程;基于强化学习的决策级融合过程,最终获得数据量少、容错性高和分析能力强的数据集,用于对电力系统运监业务数据有价值信息进行有效挖掘;其中,所述方法具体包括以下步骤:
(1)对多源异构电网运监业务数据进行预处理,具体过程如下;
(1-1)从电网企业数据中台采集多源异构电网运监业务数据,包括电力用户用电信息采集系统数据、电力管理信息系统数据、电能计量系统数据、数据采集与监视控制系统数据、电力设备在线检测系统数据和风光电功率预测系统数据,并将采集的多源异构电网运监业务数据分别存储在相对应的子数据库集合中;
(1-2)遍历步骤(1-1)的多源异构电网运监业务数据,进行筛查定位,对异常数据及缺失数据进行均值补偿,对冗余和无效的数据进行清理,得到预处理数据集;
(2)利用深度学习模型,对步骤(1)的预处理后的多源异构电网运监业务数据进行特征提取和分类识别,包括以下步骤:
(2-1)从步骤(1-2)的预处理数据集中读取预处理后的数据;
(2-2)分别对预处理的各数据源数据,构建相应的稀疏降噪自编码器深度置信网络模型,设置模型参数,对模型进行训练,分别提取多源异构运监业务数据的数据特征,分别输出结果特征提取结果,具体过程如下:
(2-2-1)利用稀疏降噪自编码器建立一个单隐藏层网络,此处称为单隐层稀疏降噪自编码器,输入步骤(2-1)读取的预处理后的数据,并对单隐层稀疏降噪自编码器进行训练,获得权值W和偏置b,稀疏降噪自动编码器的代价函数为:
Figure FDA0003615106820000011
其中,ρ是稀疏性参数,
Figure FDA0003615106820000012
Figure FDA0003615106820000013
是以ρ和
Figure FDA0003615106820000014
为均值的两个伯努利随机变量间的相对熵,m表示步骤(2-1)中读取的预处理数据样本数量,
Figure FDA0003615106820000015
为稀疏降噪自编码器的一个映射,
Figure FDA0003615106820000016
表示噪声,y(i)表示输出,β表示稀疏惩罚项权重系数,s表示单隐藏层网络中隐含层神经元的数量;
(2-2-2)建立一个具有双层RBM受限玻尔兹曼机网络的DBN深度置信网络模型:
受限玻尔兹曼机的输入层和隐含层的联合配置能量函数如下:
Figure FDA0003615106820000021
其中,θ={ai,bj,Wij}是受限玻尔兹曼机的参数,ai和bj分别代表受限玻尔兹曼机输入层神经元和隐含层神经元的偏置,xi和hj分别代表受限玻尔兹曼机输入层神经元和隐含层神经元的状态,Wij为输入层神经元i与隐含层神经元j之间的连接权重;
在受限玻尔兹曼机中,用logistics函数表示激活状态时,输入层和隐含层各节点的激活概率为:
P(hj=1|x,θ)=logistic(∑iWijxi+bj)
P(xi=1|h,θ)=logistic(∑jWijhj+ai)
(2-2-3)将步骤(2-2-1)中得到的权值W和偏置b赋值给步骤(2-2-2)所建立的深度置信网络中的第一层受限玻尔兹曼机,并对第一层受限玻尔兹曼机进行初始化;
(2-2-4)对步骤(2-2-2)建立的含双层RBM受限玻尔兹曼机网络的DBN深度置信网络模型进行训练,利用DBN深度置信网络的深层次特征提取能力,提取数据特征,并进行结果输出,得到提取后的数据特征;
(2-2-5)根据多源异构运监业务数据中不同数据源的数据,分别进行步骤(2-2-1)-步骤(2-2-4)的特征提取过程,直到完成所有数据源的数据特征提取;
(3)根据步骤(2)提取的多源异构运监业务数据特征,利用强化学习方法,进行多源异构运监业务数据融合过程,具体过程如下:
(3-1)根据步骤(2-2-5)中提取的各数据源的数据特征,采用Parzen窗方法,对各数据源中的各个特征进行离散估计和概率密度估计,分别得到电力系统多源异构数据特征的概率分布,即特征xi的概率分布p(xi)、特征xj,xi的联合概率分布p(xi,xj),特征类别属性Y的概率分布p(y)和特征xj在特征类别属性Y下的条件概率分布p(xj,y),特征xj,xi在特征类别属性Y条件下的联合概率分布p(xi,xj,y);
(3-2)根据步骤(2-2-5)中提取的各数据源的数据特征,建立信息熵指标H(Xi),计算每个特征的信息熵H(Xi)及信息熵均值meanH,得到所有特征的信息熵,计算所有特征信息熵的均值,并分别将每个特征的信息熵与信息熵的均值进行比较,将高于信息熵均值的特征记录在信息熵表中;
Figure FDA0003615106820000031
meanH=∑H(Xi)/n
其中,dom(X)表示特征xi的取值范围,p(xi)表示特征xi的概率分布,n表示特征的总个数;
(3-3)利用步骤(3-1)中得到电力系统多源异构数据特征的概率分布,即特征xi的概率分布p(xi)、特征xj,xi的联合概率分布p(xi,xj)、特征类别属性Y的概率分布p(y)和特征xj在特征类别属性Y下的概率分布p(xj,y),特征xj,xi在特征类别属性Y下的联合概率分布为p(xi,xj,y),建立特征协同效应系数MIG((Xi,Xj);Y),计算每个特征的协同效应系数值MIG((Xi,Xj);Y)及协同效应系数值的均值meanMIG:
MIG((Xi,Xj);Y)=MI((Xi,Xj);Y)-MI(Xi;Y)-MI(Xj;Y)
Figure FDA0003615106820000032
Figure FDA0003615106820000033
Figure FDA0003615106820000034
Figure FDA0003615106820000035
其中,Xi和Xj分别表示步骤(2-2-5)中提取的各数据源的数据特征,Y表示步骤(2-2-5)中提取的各数据源的数据特征的类别属性,n表示特征的总个数;
根据上述计算结果,形成一个特征协同效应系数表,将特征协同效应系数中的与低于均值meanMIG的特征记入一个集合S中;
(3-3)构建一个强化学习环境,设定步骤(2-2-4)中提取的全部数据特征为环境,环境中包含不同特征的特征子集St,构成状态集S,即步骤(3-2)中的集合S,设定一个动作集A,动作集A中包括添加特征和删除特征,根据最终数据融合效果,设定收益R为特征子集在分类器上的分类准确率,建立强化学习模型,具体过程如下:
(3-3-1)S为状态集合,St指智能体Agent在t时刻所处的状态,且St∈S;
(3-3-2)A为动作集合,at指智能体Agent在t时刻所处的状态,且at∈A;
(3-3-3)R为收益,R(St,at)指智能体Agent在环境状态为St时,执行动作at获得的收益,收益R根据任务需要自定义;
(3-3-4)利用动作评价函数Q(St,at),计算智能体Agent在环境状态为St时,执行动作at获得的最大累计收益Q(St,at):
Q(St,at)=R(St,at)+γmaxQ(St+1,at+1)
其中,γ为折扣系数,γ∈[0,1],表示当前的收益较之未来的收益更重要,即时间越久,影响越小;
(3-4)将步骤(3-1)获得的信息熵、(3-2)中获得的协同效应系数表及步骤(2-2-4)提取的数据特征带入智能体Agent,智能体Agent根据添加、删除的动作所带来的不同收益作出决策,得到决策级多源异构运监数据融合结果,具体步骤如下:
(3-4-1)初始化特征参数及强化学习模型参数,初始化当前特征子集
Figure FDA0003615106820000041
初始化折扣系数γ;
其中T为当前特征子集,表示智能体Agent在设定时刻已经选择特征的集合,H为候选特征子集,表示智能体Agent在设定时刻未被选入T中的特征集合;
(3-4-2)将步骤(3-1)的信息熵高于信息熵均值的特征计入集合HS,HS的初始为空集;
(3-4-3)将步骤(3-2)协同效应系数低于协同效应系数均值的特征计入集合MIGS,MIGS初始为空集;
(3-4-4)当
Figure FDA0003615106820000042
时,随机添加一个特征Xadd,Xadd∈H,T←T∪{Xadd},H←H\{Xadd};
其中,Xadd表示要添加的特征,Xdel表示要删除的特征,T←T∪{Xadd}表示将T与特征Xadd取并集的结果赋值给T,H←H\{Xadd}表示将H中删除特征Xadd的结果赋值给H;
(3-4-5)从H∩HS中随机添加一个特征Xadd,计算特征子集T∪{Xadd}的分类准确率,记为Radd,从步骤(3-4-3)的集合MIGS查询特征子集T中协同效应系数较大的几对特征,随机选择几对特征中的一个特征,计算特征子集T\{Xadd}分类准确率,记为Rdel,对分类准确率Radd与分类准确率Rdel进行比较:
若Radd>Rdel,则执行T←T∪{Xadd},H←H\{Xadd}
若Radd<Rdel,则执行T←T\{Xdel},H←H∪{Xdel}
(3-4-6)根据步骤(3-3-4)中的动作评价函数Q(St,at),计算Q值,并更新Q表;
(3-4-7)判断Q是否达到最大值,若满足,则停止,并通过Q表输出与最大Q值相对应的特征子集S,将该特征子集S作为最终数据融合结果,实现多源异构电网运监业务数据融合,若不满足,则重复步骤(3-4-4)-(3-4-7)。
CN202110317131.2A 2021-03-25 2021-03-25 一种多源异构电网运监业务数据融合方法 Active CN112907222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110317131.2A CN112907222B (zh) 2021-03-25 2021-03-25 一种多源异构电网运监业务数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110317131.2A CN112907222B (zh) 2021-03-25 2021-03-25 一种多源异构电网运监业务数据融合方法

Publications (2)

Publication Number Publication Date
CN112907222A CN112907222A (zh) 2021-06-04
CN112907222B true CN112907222B (zh) 2022-07-08

Family

ID=76106303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110317131.2A Active CN112907222B (zh) 2021-03-25 2021-03-25 一种多源异构电网运监业务数据融合方法

Country Status (1)

Country Link
CN (1) CN112907222B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609360B (zh) * 2021-08-19 2024-07-05 武汉东湖大数据科技股份有限公司 一种基于场景化多源数据融合分析的方法和系统
CN113746855A (zh) * 2021-09-09 2021-12-03 国网电子商务有限公司 一种能源工业云网的数据接入方法及相关设备
CN114153839B (zh) * 2021-10-29 2024-09-20 杭州未名信科科技有限公司 多源异构数据的集成方法、装置、设备及存储介质
CN115099338B (zh) * 2022-06-24 2024-08-30 国网浙江省电力有限公司电力科学研究院 面向电网主设备多源异构质量信息融合处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730040A (zh) * 2017-09-30 2018-02-23 国网山东省电力公司电力科学研究院 基于rbm的电力信息系统日志信息综合特征提取方法和装置
CN111177911A (zh) * 2019-12-24 2020-05-19 大连理工大学 一种基于sdae-dbn算法的零件表面粗糙度在线预测方法
CN112398678A (zh) * 2020-10-16 2021-02-23 清华大学 适用于多源异构电网的运行方式拓扑结构特征提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730040A (zh) * 2017-09-30 2018-02-23 国网山东省电力公司电力科学研究院 基于rbm的电力信息系统日志信息综合特征提取方法和装置
CN111177911A (zh) * 2019-12-24 2020-05-19 大连理工大学 一种基于sdae-dbn算法的零件表面粗糙度在线预测方法
CN112398678A (zh) * 2020-10-16 2021-02-23 清华大学 适用于多源异构电网的运行方式拓扑结构特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于深度学习的多源异构数据融合方法;惠国保;《现代导航》;20170615(第03期);第218-223页 *
融合稀疏降噪自编码与聚类算法的配电网台区分类研究;张潇龙等;《电力信息与通信技术》;20191225(第12期);全文 *

Also Published As

Publication number Publication date
CN112907222A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112907222B (zh) 一种多源异构电网运监业务数据融合方法
Fang et al. Time series data imputation: A survey on deep learning approaches
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN113240011A (zh) 一种深度学习驱动的异常识别与修复方法及智能化系统
CN112183656B (zh) 一种电网故障中scada数据频繁项集挖掘方法
CN115508672B (zh) 电网主设备故障溯源推理方法、系统、设备及介质
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
CN115238197A (zh) 一种基于专家思维模型的领域业务辅助分析方法
CN115718861A (zh) 高耗能行业中用电用户的分类与异常行为监测方法及系统
Xu et al. TLS-WGAN-GP: A generative adversarial network model for data-driven fault root cause location
CN113987808A (zh) 一种特征加权贝叶斯网络的用电用户投诉预警方法
CN117992496A (zh) 一种基于时空特征融合的日志异常检测方法
Guan et al. GAMA: A multi-graph-based anomaly detection framework for business processes via graph neural networks
CN117909881A (zh) 多源数据融合的抽油机的故障诊断方法及装置
CN111275079A (zh) 基于图神经网络的众包标签推测方法及系统
Wei et al. Application of rough set and neural network in water energy utilization
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
CN112905845B (zh) 离散智能制造应用的多源非结构化数据清洗方法
CN114020901A (zh) 一种结合主题挖掘和情感分析的金融舆情分析方法
Yang et al. Fuzzy contrastive learning for online behavior analysis
CN112084332A (zh) 一种基于深度双向语言文本处理网络的违章分类方法
Li et al. Multi-source heterogeneous log fusion technology of power information system based on big data and imprecise reasoning theory
CN112836926B (zh) 基于电力大数据的企业经营状况评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant