CN114386331A - 基于多智能体宽大强化学习的电力安全经济调度方法 - Google Patents

基于多智能体宽大强化学习的电力安全经济调度方法 Download PDF

Info

Publication number
CN114386331A
CN114386331A CN202210043886.2A CN202210043886A CN114386331A CN 114386331 A CN114386331 A CN 114386331A CN 202210043886 A CN202210043886 A CN 202210043886A CN 114386331 A CN114386331 A CN 114386331A
Authority
CN
China
Prior art keywords
agent
power
network
reinforcement learning
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210043886.2A
Other languages
English (en)
Inventor
毛冬
丁俐夫
张辰
饶涵宇
何东
颜钢锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Zhejiang University ZJU
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202210043886.2A priority Critical patent/CN114386331A/zh
Publication of CN114386331A publication Critical patent/CN114386331A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了基于多智能体宽大强化学习的电力安全经济调度方法。针对智能电网规模的不断扩张,设计了多智能体宽大强化学习解决框架,采用深度学习拟合状态‑动作价值曲线,并融入了经验池,可以普遍应用于电力系统的分布式经济调度。针对新能源发电单元与网络干扰带来的成本函数不确定性问题,引入宽大强化学习的奖励空间拟合机制,消除智能体与环境交互过程中的不确定性奖励。采用信誉值评估各个智能体的安全状态,应对多智能体系统可能遇到的网络攻击问题,并通过信誉值更新网络通信权重,实现不安全节点的隔离。本发明实现了智能电网多发电机组分布式经济调度问题的联合求解,为复杂电网发电单元的安全、可靠、高效的调度提供可行的方案。

Description

基于多智能体宽大强化学习的电力安全经济调度方法
技术领域
本发明属于电力系统经济调度领域,具体涉及一种基于多智能体宽大强化学习的电力安全经济调度方法。
背景技术
近年来,随着深度强化学习的发展与应用,研究人员对基于深度强化学习的经济调度问题进行了详细研究。例如:专利文献1(CN201810999580.8)提出了一种考虑输电运行弹性空间的安全经济调度优化方法,将电力系统的经济调度模型转化为典型的多阶段序贯决策模型,实现任意场景下的电力系统动态经济调度。专利文献2(CN202010812190.2)公开了一种基于双Q值网络深度强化学习的微电网能量调度方法,设计了奖励函数来引导策略实现微电网运行的目标。但针对分布式经济调度,以上研究并没有涉及。
随着电网规模的不断扩大,分布式经济调度受到了广泛的关注。分布式系统更容易受到网络攻击,而现有的分布式经济调度算法大多忽略了这些潜在的网络攻击,这可能会对电网的安全性产生很大的影响。此外,由于可再生能源发电设备的使用和网络干扰,成本函数中通常存在不确定项,现有的规划算法与基于梯度的算法将无法解决这些不确定项。因此考虑网络攻击与不确定干扰的安全经济调度问题面临着新的挑战,是一个尚待解决的问题。
发明内容
针对现有技术的不足,本发明提出了基于多智能体宽大强化学习的电力安全经济调度方法,针对在网络攻击与不确定干扰的情况下的分布式发电机组,提供了可行的能量管理与经济调度方案,填补现有网络攻击下分布式安全经济调度方法的空缺。
对于一组有N个发电机组的组合G,其分布式经济调度问题可以描述为如下带约束优化问题:
Figure BDA0003471405980000011
Figure BDA0003471405980000012
Figure BDA0003471405980000013
其中,C为总发电代价,Ci为机组i的发电代价,Pi为机组i的发电功率,D为环境中总用电需求,P i
Figure BDA0003471405980000014
分别为机组i的发电上限与下限。机组i的发电代价Ci的代价函数通常被描述为如下二次函数:
Figure BDA0003471405980000021
其中ai、bi、ci为机组i的代价系数。考虑可再生能源发电设备和网络干扰时,需要在代价函数中引入不确定项,因此代价函数应改写为:
Figure BDA0003471405980000022
其中,N表示服从高斯分布的不确定项,σ是分布参数。
基于多智能体宽大强化学习的电力安全经济调度方法,根据用电环境构建多智能体系统,以环境中的用电需求为状态,通过多智能体的强化学习,优化发电机组的输出功率,将分布式经济调度问题构建为一个通过多智能体强化学习解决的合作决策问题。多个智能体间通过通讯模块实现协作,联合计算一致性结果。具体包括以下步骤:
步骤1、初始化多智能体强化学习的迭代次数与Q估计网络、R估计网络的参数,设置贪婪算法的概率∈=1。
步骤2、在当前时间t,观察环境中的用电需求Di,t,使用平均一致性,使得智能体获得网络总功率需求的信息:
Figure BDA0003471405980000023
其中,k为迭代次数,ε为步长,Di[k]为第k次迭代智能体i的用电需求,aij,t为智能体i和智能体j之间的通信权重,为多智能体网络的邻接矩阵的元素。Gi为所有给智能体i发送信息的智能体的集合。有
Figure BDA0003471405980000024
记平均用电需求为
Figure BDA0003471405980000025
步骤3、为解决多智能体系统的网络安全问题,针对DoS攻击与FDI(虚假数据注入)攻击进行检测。
所述DoS攻击模型为:
λi=φ
其中,λi表示智能体i的发送数据,φ表示空集。设置DoS攻击的检测判据为d=φ。
所述FDI攻击模型为:
λi=xii
其中,xi表示真实数据,δi表示虚假数据。采用线性距离d作为判据,设置FDI攻击的检测判据为
Figure BDA0003471405980000026
其中ΔCi=Ci(Pi,t)-Ci(Pi,t-1),
Figure BDA0003471405980000027
Figure BDA0003471405980000031
ηFDI是FDI攻击的判断阈值。
计算每个智能体的信誉值用于判断网络安全状态,所述信誉值定义如下:
Figure BDA0003471405980000032
其中RVij,t为t时刻智能体i监测到智能体j的信誉值。
通过信誉值调整智能体间的通信权重,实现攻击隔离:
Figure BDA0003471405980000033
作为优选,所述FDI攻击的判断阈值ηFDI=0.3,初始信誉值设置为100。
步骤4、为实现学习结果的收敛,单个智能体根据贪婪算法执行独立决策,在概率∈下随机选择输出功率,在概率1-∈下选择Q值最大的输出功率。概率∈会随着训练次数不断减小,使得算法收敛于最优策略。
步骤5、多智能体协作求解满足用电需求的输出功率组合,计算输出功率与平均用电需求的偏差
Figure BDA0003471405980000034
使用平均一致性得到多智能体间的平均偏差
Figure BDA0003471405980000035
Figure BDA0003471405980000036
根据平均偏差ei,t调整可输出功率:
Figure BDA0003471405980000037
步骤6、根据步骤5调整后的输出功率执行动作ai,t,并观察环境,获得环境反馈的奖励ri,t+1、下一时间的用电需求Di,t+1以及是否结束训练的标志dt。通过Q表评估状态-动作价值,确定如何执行输出功率能够获得更大的累积奖励。
将当前时间的用电需求Di,t和奖励ri,t+1输入R估计网络中,对奖励进行拟合,得到r′i,t+1。使用平均一致性
Figure BDA0003471405980000038
将得到的评价奖励作为多智能体的联合奖励,记为
Figure BDA0003471405980000039
步骤7、为了消除训练数据间的关联性,将智能体i训练元组<si,t,ai,t,ri,t+1,si,t+1>按步存储在经验池中。重复步骤2~6多次,从经验池中随机抽取样本,更新Q表、Q估计网络与R估计网络;
所述Q估计网络用于Q表的拟合,采用神经网络拟合Q表实现连续状态空间的强化学习,所述Q估计网络的训练损失函数为:
Figure BDA0003471405980000041
其中,
Figure BDA0003471405980000042
为Q估计网络拟合参数,si,t为用电需求Di,t对应的环境状态,yi为训练标签:
Figure BDA0003471405980000043
使用联合奖励
Figure BDA0003471405980000044
更新Q表:
Figure BDA0003471405980000045
其中,β为学习率,γ为衰减系数,maxaQ(.,.)为根据a求最大值。
所述R估计网络为宽大强化学习的核心,用于针对代价函数不确定项给即时奖励ri,t带来的不确定性,采用神经网络拟合奖励分布,消除不确定性,所述R估计网络的训练损失函数为:
Figure BDA0003471405980000046
其中,
Figure BDA0003471405980000047
为R估计网络拟合参数。
步骤8、更新贪婪算法中的概率∈:
Figure BDA0003471405980000048
步骤9、观察环境中的用电需求。当用电需求发生变化时,更新最优输出方案并返回步骤2;当用电需求没有发生变化时,进入步骤3;当环境中无用电需求时,结束。
本发明具有以下有益效果:
1、相比于现有的经济调度算法,本方法通过多智能体强化学习与协作,求解总发电需求和联合奖励,提高灵活性和泛化能力。
2、结合宽大强化学习与基于信誉值的安全隔离方案,解决了在出现网络攻击的情况下,或由于干扰而导致的不确定成本的情况下的电力系统安全经济调度问题,弥补了现有方法的不足。
附图说明
图1是基于宽大强化学习的安全经济调度方法的整体架构图;
图2是基于多智能体宽大强化学习的电力安全经济调度方法的流程图;
图3是实施例中的多智能体网络拓扑结构图与机组参数;
图4是实施例1中发电代价随训练次数变化的结果;
图5是实施例2中发电代价随训练次数变化的结果;
图6是实施例2中5号机组随训练次数变化的结果。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
图1是基于宽大强化学习的安全经济调度方法的整体架构图,具体包括环境、多智能体网络以及多个相互协作的智能体。
所述环境包括所有除智能体以外的部分,是自然存在的,本方法通过整合环境的变量,将分布式经济调度问题构建为一个可通过多智能体强化学习解决的合作决策问题。分布式经济调度问题存在于环境中,强化学习的动作为发电机组的输出功率,状态为环境中存在的用电需求,即时奖励与环境可以计算的发电代价相关。
智能体处于环境中,可以观察并获取其状态,据此决策并执行相应动作,通过环境反馈的奖励优化其策略,找到最优的输出功率。
所述智能体部署了基于宽大强化学习的安全经济调度方法,处于环境中,可以观察并获取环境的状态,根据获得的信息进行决策并执行相应动作,通过Q表评估其状态-动作的价值,以确定执行哪一种动作可以获得更大的累积奖励。智能体通过Q估计网络、R估计网络和经验池改进决策能力,找到最优的输出功率。
Q估计网络用于Q表的拟合,采用神经网络拟合Q表可以实现连续状态空间的强化学习,也是本发明体现泛化能力的基础。R估计网络为宽大强化学习的核心,用于针对代价函数不确定项给即时奖励ri带来的不确定性,采用神经网络拟合奖励分布。经验池用于消除训练数据间的关联性,存储了智能体的单步训练元组,每次的Q表更新都是从经验池中随机抽取批训练。
多智能体网络的通讯通过多智能体通讯模块实现,智能体通过接收、发送消息给其邻居智能体,可以使得整个多智能体系统对需要的变量达到一致性,用于总发电需求、联合奖励的求解。
网络安全检测模块用于解决多智能体系统的网络安全问题,基于信誉度的方法针对DoS攻击FDI攻击进行检测与隔离。
所述多智能体网络即由多个配置了本方法的智能体组成的网络,初始通信拓扑给定。
如图2所示,基于多智能体宽大强化学习的电力安全经济调度方法具体包括以下步骤:
步骤(1):观察环境并获取观察元组,多智能体协作求解总用电需求;
步骤(2):检测网络攻击,并执行安全隔离;
步骤(3):独立决策获取发电输出;
步骤(4):多智能体协作求解满足用电需求的输出组合;
步骤(5):执行动作并获取奖励,评估状态-动作价值;
步骤(6):达到一定训练次数,从经验池抽取样本,更新Q估计网络与R估计网络;
步骤(7):更新贪婪算法探索与开发平衡;
步骤(8):判断用电需求是否有变化,若是,更新最优输出方案,进入步骤(1),若否,返回步骤(2);
步骤(9):输出结果。
根据上述步骤部属智能体,进行电力安全经济调度。
实施例1
如图3所示,本实施例为4机组系统,设置为没有机组受到网络攻击。根据本方法进行电力安全经济调度,在总用电需求为800MW的发电代价随训练变化的结果如图4,根据训练结果可知本方法可以有效解决分布式经济调度问题。
实施例2
本实施例为5机组系统,其中1~4号机组的参数与实施例1的参数相同,5号机组设置为会随机受到网络攻击。在总用电需求为800MW的条件下采用本方法与现有技术分别进行电力安全经济调度,发电代价随训练变化的结果如图5所示,5号机组的信誉度随训练变化的结果如图6所示。由训练结果可知,本方法可以有效应对网络攻击,并且在解决分布式经济调度问题时可以有效降低成本。在5号机组受到攻击时,本方法可以降低其信誉度,实现攻击隔离,从而应对网络攻击。

Claims (7)

1.基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:将一个发电机组视为一个智能体,根据用电环境构建多智能体系统,以环境中的用电需求为状态,发电机组的输出功率为决策变量,将分布式经济调度问题构建为一个通过多智能体强化学习解决的合作决策问题;
所述智能体在每个时间步t观察环境,通过多智能体网络,采用平均一致性算法,将环境的功率需求Di,t作为状态si,t;根据邻居智能体发送的信息检测网络攻击,计算每个智能体的信誉值,根据信誉值调整通信权重aij,隔离受到攻击智能体;然后每个智能体根据状态si,t,在贪婪算法的作用下进行决策,执行动作ai,t输出相应的功率Pi,t,得到环境反馈的奖励ri,t+1,通过Q表评估状态-动作的价值;使用R估计网络进行拟合得到r′i,t+1;再采用平均一致性算法,求得多智能体的联合奖励
Figure FDA0003471405970000011
将单步训练元祖存储在经验池中,对多智能体进行多次训练后,从训练池中随机抽取样本,对Q估计网络、R估计网络和Q表进行训练、更新,输出最优调度方案。
2.如权利要求1所述基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:
对于一组有N个发电机组的组合G,其分布式经济调度问题描述为:
Figure FDA0003471405970000012
Figure FDA0003471405970000013
Figure FDA0003471405970000014
其中,C为总发电代价,Ci为机组i的发电代价,Pi为机组i的发电功率,D为环境中总用电需求,Pi
Figure FDA0003471405970000015
分别为机组i的发电上限与下限;机组i的发电代价Ci的代价函数通常被描述为如下二次函数:
Figure FDA0003471405970000016
其中ai、bi、ci为机组i的代价系数;考虑可再生能源发电设备和网络干扰时,需要在代价函数中引入不确定项,因此代价函数应改写为:
Figure FDA0003471405970000017
其中,N表示服从高斯分布的不确定项,σ是分布参数。
3.如权利要求1或2所述基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:具体包括以下步骤:
步骤1、初始化多智能体强化学习的迭代次数与Q估计网络、R估计网络的参数,设置贪婪算法的概率∈=1;
步骤2、在当前时间t,观察环境中的用电需求Di,t,使用平均一致性,使得智能体获得网络总功率需求的信息:
Figure FDA0003471405970000021
其中,k为迭代次数,ε为步长,Di[k]为第k次迭代智能体i的用电需求,aij,t为智能体i和智能体j之间的通信权重;Gi为所有给智能体i发送信息的智能体的集合;有
Figure FDA0003471405970000022
记平均用电需求为
Figure FDA0003471405970000023
步骤3、进行攻击检测,然后计算每个智能体的信誉值:
Figure FDA0003471405970000024
其中RVij,t为t时刻智能体i监测到智能体j的信誉值;
调整智能体间的通信权重,实现攻击隔离:
Figure FDA0003471405970000025
步骤4、智能体根据贪婪算法在概率∈下随机选择输出功率,在概率1-∈下选择令Q值最大的输出功率;
步骤5、多智能体协作求解满足用电需求的输出功率组合,计算输出功率与平均用电需求的偏差
Figure FDA0003471405970000026
使用平均一致性得到多智能体间的平均偏差
Figure FDA0003471405970000027
Figure FDA0003471405970000028
根据平均偏差ei,t调整可输出功率:
Figure FDA0003471405970000029
步骤6、根据步骤5调整后的输出功率执行动作ai,t,获得环境反馈的奖励ri,t+1、下一时间的用电需求Di,t+1;通过Q表评估状态-动作价;通过R估计网络对奖励进行拟合,得到r′i,t+1;使用平均一致性
Figure FDA00034714059700000210
计算多智能体的联合奖励
Figure FDA00034714059700000211
步骤7、将智能体i训练元组<si,t,ai,t,ri,t+1,si,t+1>按步存储在经验池中;重复步骤2~6多次,从经验池中随机抽取样本,更新Q表、Q估计网络与R估计网络;
步骤8、更新贪婪算法中的概率∈:
Figure FDA0003471405970000031
步骤9、观察环境中的用电需求;当用电需求发生变化时,更新最优输出方案并返回步骤2;当用电需求没有发生变化时,进入步骤3;当环境中无用电需求时,结束。
4.如权利要求3所述基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:设置智能体的初始信誉值为100。
5.如权利要求3所述基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:步骤3针对DoS攻击与FDI攻击进行检测,
所述DoS攻击模型为:
λi=φ
其中,λi表示智能体i的发送数据;设置DoS攻击的检测判据为d=φ,其中d为线性距离,φ表示空集;
所述FDI攻击模型为:
λi=xii
其中,xi表示真实数据,δi表示虚假数据;设置FDI攻击的检测判据为
Figure FDA0003471405970000032
其中ΔCi=Ci(Pi,t)-Ci(Pi,t-1),
Figure FDA0003471405970000033
ηFDI是FDI攻击的判断阈值。
6.如权利要求5所述基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:设置FDI攻击的判断阈值ηFDI=0.3。
7.如权利要求1或2所述基于多智能体宽大强化学习的电力安全经济调度方法,其特征在于:所述Q估计网络用于Q表的拟合,实现连续状态空间的强化学习,训练损失函数为:
Figure FDA0003471405970000034
其中,
Figure FDA0003471405970000035
为Q估计网络拟合参数,si,t为用电需求Di,t对应的环境状态,yi为训练标签:
Figure FDA0003471405970000036
使用联合奖励
Figure FDA0003471405970000037
更新Q表:
Figure FDA0003471405970000038
其中,β为学习率,γ为衰减系数;
所述R估计网络用于拟合奖励分布,训练损失函数为:
Figure FDA0003471405970000041
其中,
Figure FDA0003471405970000042
为R估计网络拟合参数。
CN202210043886.2A 2022-01-14 2022-01-14 基于多智能体宽大强化学习的电力安全经济调度方法 Pending CN114386331A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210043886.2A CN114386331A (zh) 2022-01-14 2022-01-14 基于多智能体宽大强化学习的电力安全经济调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210043886.2A CN114386331A (zh) 2022-01-14 2022-01-14 基于多智能体宽大强化学习的电力安全经济调度方法

Publications (1)

Publication Number Publication Date
CN114386331A true CN114386331A (zh) 2022-04-22

Family

ID=81201896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210043886.2A Pending CN114386331A (zh) 2022-01-14 2022-01-14 基于多智能体宽大强化学习的电力安全经济调度方法

Country Status (1)

Country Link
CN (1) CN114386331A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001787A (zh) * 2022-05-26 2022-09-02 华中科技大学 一种适用于受攻击情况下多智能体网络的分布式优化方法
CN115062871A (zh) * 2022-08-11 2022-09-16 山西虚拟现实产业技术研究院有限公司 基于多智能体强化学习的智能电表状态评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001787A (zh) * 2022-05-26 2022-09-02 华中科技大学 一种适用于受攻击情况下多智能体网络的分布式优化方法
CN115062871A (zh) * 2022-08-11 2022-09-16 山西虚拟现实产业技术研究院有限公司 基于多智能体强化学习的智能电表状态评估方法

Similar Documents

Publication Publication Date Title
CN110705743B (zh) 一种基于长短期记忆神经网络的新能源消纳电量预测方法
CN114386331A (zh) 基于多智能体宽大强化学习的电力安全经济调度方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
Liu et al. Federated reinforcement learning for decentralized voltage control in distribution networks
CN110910004A (zh) 一种多重不确定性的水库调度规则提取方法及系统
CN109255726A (zh) 一种混合智能技术的超短期风功率预测方法
CN112733417A (zh) 一种基于模型优化的异常负荷数据检测与修正方法和系统
CN112381359B (zh) 一种基于数据挖掘的多critic强化学习的电力经济调度方法
CN104915788B (zh) 一种考虑多风场相关性的电力系统动态经济调度的方法
CN110837934B (zh) 一种基于深度学习的智能电网短期住宅负荷预测方法
CN105260615B (zh) 一种粮食消费量预测方法
CN115577637A (zh) 一种知识和数据融合的电源系统剩余寿命预计方法
CN111723516A (zh) 基于自适应dnn替代模型的多目标海水入侵管理模型
Wang et al. Transmission network dynamic planning based on a double deep-Q network with deep ResNet
CN117910516A (zh) 一种基于深度雅克比的网络攻击弹性检测恢复方法及系统
CN117410959A (zh) 一种基于eemd-gwo-lstm网络和mc误差修正的电网负荷超短期预测方法
CN109242304B (zh) 一种电力系统小概率事件可靠性评估的方法
CN114169416B (zh) 一种基于迁移学习的小样本集下短期负荷预测方法
CN113449914B (zh) 一种电力系统监测方法及系统
CN112801815B (zh) 一种基于联邦学习的电力通信网络故障预警方法
CN115619028A (zh) 一种基于聚类算法融合的电力负荷精准预测方法
CN115395502A (zh) 一种光伏电站功率预测方法及系统
CN116307274B (zh) 一种考虑因果干预的城市区域能耗预测方法
CN117150212A (zh) 一种基于小样本历史数据的一元时间序列预测方法及设备
CN109670227A (zh) 一种基于大数据的仿真数学模型参数对的估量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination