CN116050632B - 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 - Google Patents
一种基于纳什q学习的微电网群互动博弈策略学习进化方法 Download PDFInfo
- Publication number
- CN116050632B CN116050632B CN202310083666.7A CN202310083666A CN116050632B CN 116050632 B CN116050632 B CN 116050632B CN 202310083666 A CN202310083666 A CN 202310083666A CN 116050632 B CN116050632 B CN 116050632B
- Authority
- CN
- China
- Prior art keywords
- micro
- grid
- learning
- solution
- grid group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 44
- 230000002787 reinforcement Effects 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000013526 transfer learning Methods 0.000 claims abstract description 15
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 230000008901 benefit Effects 0.000 claims description 23
- 238000004146 energy storage Methods 0.000 claims description 20
- 238000010248 power generation Methods 0.000 claims description 17
- 238000007599 discharging Methods 0.000 claims description 7
- 238000002485 combustion reaction Methods 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012067 mathematical method Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 claims 4
- 230000009977 dual effect Effects 0.000 claims 1
- 230000005611 electricity Effects 0.000 claims 1
- 239000000446 fuel Substances 0.000 claims 1
- 238000013486 operation strategy Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009916 joint effect Effects 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Power Engineering (AREA)
- Water Supply & Treatment (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,包括:考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子分布式优化算法松弛问题为全局优化问题求解近似均衡解;基于步骤1求得的近似均衡解,构建近似均衡解驱动的Q‑Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。本发明充分利用历史求得的近似均纳什衡解集,实现微电网群互动运行策略的学习,显著提高历史数据的利用与强化学习的训练效率,加速微电网群互动博弈策略的学习。
Description
技术领域
本发明属于配电技术领域,具体涉及一种基于基于纳什Q学习的微电网群互动博弈策略学习进化方法。
背景技术
随着社会发展以及世界各国对能源的需求不断增长,能源成本成为了限制社会发展进步的重要因素之一。新能源的高速扩张、物联网与人工智能技术的发展成熟为微电网群的互动博弈消纳新能源提供了平台与技术支撑。微电网群利用各自负荷的互补性、设备的弹性、经济性的差异等进行博弈交互,促进新能源的消纳、提高社会整体的经济收益与生产力。
然而随着博弈的微电网群数量增加、博弈对象的复杂化、用户隐私的保护需求等原因,微电网群的互动博弈策略越来越难以获取,一般的优化方法难以获取关键隐私参数且难以求解高维度的全局优化问题,传统的Q-learning(Q学习)强化学习方法在训练结果上收敛性差,训练耗时长,难以满足微电网群互动博弈的策略学习的精度需求与时间限制。
目前已有研究针对微电网群策略学习方法展开,如中国专利申请CN202111129369.9一种微电网群多层主体交易策略的优化方法,建立了微电网群的双层互动博弈策略优化学习方法,输出微电网群的交易价格与微电网群负荷策略。中国专利申请CN202210549821.5一种基于联邦学习的微电网群请求动态迁移调度方法及装置,提出了一种基于联邦学习的微电网群边缘训练模型与资源分配策略优化模型,通过边缘计算与联邦学习保护用户隐私并学习微电网群策略。中国专利申请CN202111496359.9一种多能微电网群自身及市场决策协同优化方法,提出了一种微电网群协同优化模型,基于构建的双层MILP模型学习微电网群的最有博弈解集与最优博弈策略。但是这些方法或者无法解决集中优化方法无法获取关键隐私数据的问题,或者无法充分利用历史数据导致训练速度慢。随着微电网群数量与类型的增加,微电网群互动博弈模型的优化精度进一步降低、策略求解速度愈发的慢,传统优化方法与传统强化学习无法解决这三大难题。
发明内容
为克服现有技术的缺点,本发明提出一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,首先利用交替方向乘子的分布式优化方法构建全局优化问题的近似纳什均衡解集。随后,基于近似均衡解驱动构建Q-Learning强化学习训练机制,构建微电网群策略强化学习的动作空间、状态空间与价值函数。最后,通过迁移强化学习与训练实现微电网群策略的学习。本发明可以充分实现对模型驱动的历史近似均纳什衡解集的充分复用,加速微电网群互动博弈运行策略的学习,显著提高历史数据的利用与强化学习的训练效率。
为达到上述目的,本发明采用的技术方案为:
一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,包括以下步骤:
步骤(1)考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子法松弛问题为全局优化问题,求解近似均衡解;
步骤(2)基于近似均衡解,构建近似均衡解驱动的Q-Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;
步骤(3)基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。
进一步地,所述的步骤(1)的具体步骤如下:
步骤(1-1)针对参与互动博弈的综合能源微电网利益目标,建立互动博弈的利益目标函数:
对于微电网群,构建如下的利益目标函数:
其中,i为综合能源微网序号,Cle,i为综合能源微网微i的负荷经济收益,mi,ni,ki为为综合能源微网微i的负荷收益系数,Pload,i(t)为综合能源微网微i在时刻t的负荷功率,Cne,i为综合能源微网微i的可再生能源上网收益,cps、cws分别为光伏和风电的上网电价的价格系数,Ppv-net,i(t)为综合能源微网微i在时刻t的光伏发电与电网交易功率,Pw-net,i(t)为综合能源微网微i在时刻t的风力发电与电网交易功率,△t为时间段长度,Cnc,i为综合能源微网微i的可再生能源运行维护成本,cpo、cwo分别为光伏和风电机组的运维成本的价格系数,Ppv,i(t)为综合能源微网微i在时刻t的光伏发电功率,Pw,i(t)为综合能源微网微i在时刻t的风力发电功率,Cgc,i为综合能源微网微i的燃机发电成本,ai,bi,ci为综合能源微网i的常规微燃机机组的成本系数,PGi,t为综合能源微网微i在时刻t的微燃机出力功率;
步骤(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束,建立互动博弈的约束条件:
0≤Ppv-net,i(t)≤Ppv,i(t) (10)
0≤Pw-net,i(t)≤Pw,i(t) (11)
其中,SOCi(t)为综合能源微网i在时刻t的储能设备的荷电状态,ηc,ηd分别为储能设备的充电效率与放电效率,分别为储能设备在时刻t的充电功率与放电功率,Cbat为储能设备的最大容量,/>分别为储能设备的充电功率最大值与放电功率最大值,/>分别为储能设备荷电状态的最大值与最大值。
步骤(1-3)引入拉格朗日函数(12),将求解博弈的纳什均衡问题转化为求解全局最优问题:
其中,为优化目标函数的拉格朗日增广函数,xi是综合能源微网i的优化变量,这里包括Pload,i(t)、Ppv-net,i(t)、Pw-net,i(t)和PGi,t,/>是所有综合能源微网群在第k次迭代时求解得到的解集除去xi之后的集合,Ci如式(1)所示是综合能源微网i的总经济收益,N是综合能源微网总数,Ai是等式约束的变量前系数,b是等式约束的常数,argminxi是求解以xi变量的函数最优解集,Zi为变量xi的辅助变量,满足约束Zi-xi=0,L是以Zi为变量的/>的对偶函数,T是时间段的最大值,/>为第k次数迭代的拉格朗日乘子,ρ为惩罚系数,和/>分别为第k次迭代时增广拉格朗日的互残差与自残差;
步骤(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解,包括:
1)设置最大迭代次数kmax,收敛精度ξ;初始化迭代次数k,自变量辅助变量/>增广拉格朗日乘子/>和惩罚因子ρ0,其中/>
2)对于微电网群主体i,从各微电网群主体接收其期望售给电网的光伏发电功率Ppv-net,i和风电发电功率Pw-net,i,根据优化目标及其约束构建其分布式优化的拉格朗日函数(12),基于公式(13)依次求解微电网群各优化变量,包括负荷优化功率Pload,i和微燃机出力功率PG,i;
3)根据公式(14)构建各微电网群主体辅助变量Zi与辅助变量对应的拉格朗日函数,根据公式(15)更新辅助变量Zi;
4)根据公式(16)更新拉格朗日乘子根据公式(17)所示更新惩罚系数ρk,更新迭代次数k=k+1;
5)根据公式(18)计算变量的互残差与自残差,判断算法收敛情况,如果满足迭代终止条件的公式(19),否则返回2)重复计算,直至满足收敛条件或最大迭代次数;
进一步地,所述的步骤(2)的具体步骤如下:
步骤(2-1)基于步骤1建立的理论近似解构建模拟环境,基于构建的模拟环境强化学习对多智能体进行强化学习训练,将步骤1中数学方法计算得到的理论近似均衡解,使用迁移学习的方法构加速训练强化学习模型策略;使用迁移学习方法判断,在满足相似度要求的前提下,将优化方法求解的近似均衡解迁移到强化学习的策略库中,充分利用历史数据与理论方法,加速强化学习求解过程;
步骤(2-2)构建Q-Learning强化学习的动作空间、状态空间与奖励函数:
动作空间是其针对环境变化作出的反应对于微电网群的动作,包括Pload(t),Ppv-net,i(t),PGi(t),构建状态空间为新能源出力Ppv,i(t),Pw,i(t)和储能SOC状态SOCi(t),奖励函数为时成本效益的时间累计减去约束越限的惩罚,奖励函数如下:
式中,为t时刻状态s下采取动作a的奖励,Ci(s,a)为式(1)中微网的经济收益,Aeq是动作变量a的等式约束系数,beq是等式约束的常数,动作a包含Pload(t),Ppv-net,i(t),PGi(t),状态s包含Ppv,i(t),Pw,i(t),SOCi(t)。
进一步地,所述的步骤(3)的具体步骤如下:
步骤(3-1)使用强化学习对综合能源系统进行训练,通过状态动作值函数Q对行为策略进行评价,估计最优策略的状态动作值函数Q的值,智能体的纳什-Q函数形式如下:
式中:s为系统状态;ai为智能体i的动作;Ri(s,a1,…,an)为智能体在联合动作下的奖励;β为折扣系数,β∈[0,1),为纳什均衡联合策略;
步骤(3-2)通过迁移学习方法加速强化学习训练过程,迁移学习利用数据或任务之间的相似性,将通过交替方向乘子法获得的纳什均衡近似解的经验应用于新任务的一种学习过程,具体包括:
1)基于步骤(2)中交替方向乘子法求解得到的部分纳什均衡近似解,将其进行聚类筛选后抽样并存入记忆库中;
2)在强化学习的训练过程,采用欧式距离分别对已有近似解与新训练之间的相似度进行评估,相似度评估函数如下所示:
式中,lQ为状态的相似度评估指标。Ppv,i(t)、Pw,i(t)、SOCi(t)为已有近似解的解集组成部分,Pp'v,i(t)、Pw',i(t)、SOCi'(t)为新训练结果的解集组成部分。
3)新任务与源任务之间的动态欧式距离越小,则两者之间越相似;当动态欧式距离小于一定的阀值,即lQ<δ,则对源任务的最优Q值矩阵进行迁移。
有益效果:
本发明通过交替方向乘子法优化方法,在保护隐私的前提下求解综合能源微网群互动博弈的均纳什衡策略解并形成解集,随后通过迁移学习方法,运用于强化学习策略训练中,可以充分实现对模型驱动的历史近似均纳什衡解集的充分复用,加快微电网群互动博弈运行策略的强化学习过程,提高了历史数据的利用率,提升了强化学习的训练效率。
附图说明
图1为交替方向乘子分布式优化算法求纳什近似均衡解流程图;
图2为近似均衡解驱动的Q-Learning强化学习虚拟环境示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基于纳什Q学习的微电网群互动博弈策略学习进化方法主要包括以下步骤:考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子法等数学方法,松弛问题为全局优化问题,求解近似均衡解。;基于近似均衡解,构建近似均衡解驱动的Q-Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。
本发明提出的一种基于基于纳什Q学习的微电网群互动博弈策略学习进化方法,可以充分利用近似均纳什衡解集,实现微电网群互动运行策略的学习,显著提高历史数据的利用与强化学习的训练效率,具有较好的应用前景。
本发明的基于纳什Q学习的微电网群互动博弈策略学习进化方法具体包括以下步骤:
步骤(1),考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子法等数学方法,松弛问题为全局优化问题求解近似均衡解,具体步骤如下:
(1-1)在微电网群互动博弈消纳可再生能源的过程中,各类型灵活性资源的互补性互动博弈将涉及到多方的利益,需对各相关方的成本效益进行分析,针对参与互动博弈的综合能源微电网利益目标,建立互动博弈的利益目标函数。
对于微电网群,构建如下的利益目标函数:
其中,i为综合能源微网序号,Cle,i为综合能源微网微i的负荷经济收益,mi,ni,ki为为综合能源微网微i的负荷收益系数,Pload,i(t)为综合能源微网微i在时刻t的负荷功率,Cne,i为综合能源微网微i的可再生能源上网收益,cps、cws分别为光伏和风电的上网电价的价格系数,Ppv-net,i(t)为综合能源微网微i在时刻t的光伏发电与电网交易功率,Pw-net,i(t)为综合能源微网微i在时刻t的风力发电与电网交易功率,△t为时间段长度,Cnc,i为综合能源微网微i的可再生能源运行维护成本,cpo、cwo分别为光伏和风电机组的运维成本的价格系数,Ppv,i(t)为综合能源微网微i在时刻t的光伏发电功率,Pw,i(t)为综合能源微网微i在时刻t的风力发电功率,Cgc,i为综合能源微网微i的燃机发电成本,ai,bi,ci为综合能源微网i的常规微燃机机组的成本系数,PGi,t为综合能源微网微i在时刻t的微燃机出力功率;
(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束,建立互动博弈的约束条件:
0≤Ppv-net,i(t)≤Ppv,i(t)(10)
0≤Pw-net,i(t)≤Pw,i(t)(11)
其中,SOCi(t)为综合能源微网i在时刻t的储能设备的荷电状态,ηc,ηd分别为储能设备的充电效率与放电效率,分别为储能设备在时刻t的充电功率与放电功率,Cbat为储能设备的最大容量,/>分别为储能设备的充电功率最大值与放电功率最大值,/>分别为储能设备荷电状态的最大值与最大值。
(1-3)引入拉格朗日函数(12),将求解博弈的纳什均衡问题转化为求解全局最优问题:
其中,为优化目标函数的拉格朗日增广函数,xi是综合能源微网i的优化变量,这里包括Pload,i(t)、Ppv-net,i(t)、Pw-net,i(t)和PGi,t,/>是所有综合能源微网群在第k次迭代时求解得到的解集除去xi之后的集合,Ci如式(1)所示是综合能源微网i的总经济收益,N是综合能源微网总数,Ai是等式约束的变量前系数,b是等式约束的常数,/>是求解以xi变量的函数最优解集,Zi为变量xi的辅助变量,满足约束Zi-xi=0,L是以Zi为变量的/>的对偶函数,T是时间段的最大值,/>为第k次数迭代的拉格朗日乘子,ρ为惩罚系数,和/>分别为第k次迭代时增广拉格朗日的互残差与自残差;
(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解,求解流程图如图1所示,详细流程描述如下:
1)设置最大迭代次数kmax,收敛精度ξ;初始化迭代次数k,自变量辅助变量/>增广拉格朗日乘子/>和惩罚因子ρ0,其中/>
2)对于微电网群主体i,从各微电网群主体接收其期望售给电网的光伏发电功率Ppv-net,i和风电发电功率Pw-net,i,根据优化目标及其约束构建其分布式优化的拉格朗日函数(12),基于公式(13)依次求解微电网群各优化变量,包括负荷优化功率Pload,i和微燃机出力功率PG,i;
3)根据公式(14)构建各微电网群主体辅助变量Zi与辅助变量对应的拉格朗日函数,根据公式(15)更新辅助变量Zi;
4)根据公式(16)更新拉格朗日乘子根据公式(17)所示更新惩罚系数ρk,更新迭代次数k=k+1;
5)根据公式(18)计算变量的互残差与自残差,判断算法收敛情况,如果满足迭代终止条件(19),否则返回流程2)重复计算,直至满足收敛条件或最大迭代次数;
所述步骤(2)中,基于近似均衡解,构建近似均衡解驱动的Q-Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数。具体步骤如下:
(2-1)基于步骤(1)建立的理论近似解构建模拟环境,基于构建的模拟环境强化学习对多智能体进行强化学习训练,将步骤1中数学方法计算得到的理论近似均衡解,使用迁移学习的方法构建加速训练强化学习模型策略。构建的虚拟环境架构如图2所示,首先构建微电网群互动博弈机理模型,通过步骤(1)中提到的交替方向乘子法求解Nash(纳什)均衡理论近似解。随后构建基于Q-learning的强化学习微电网群互动博弈策略学习虚拟环境,通过强化学习方法,寻找一定探索范围内的最优解,并将解集形成经验库,通过多次探索更新经验库。在此基础上,使用迁移学习方法判断,在满足相似度要求的前提下,将优化方法求解的近似均衡解迁移到强化学习的策略库中,充分利用历史数据与理论方法,加速强化学习求解过程。
(2-2)构建Q-Learning强化学习的动作空间、状态空间与奖励函数。动作空间指的是其针对环境变化作出的反应对于微电网群的动作,包括Pload(t),Ppv-net,i(t),PGi(t),构建状态空间为新能源出力Ppv,i(t),Pw,i(t)和储能SOC状态SOCi(t),奖励函数为时成本效益的时间累计减去约束越限的惩罚,奖励函数如下:
式中,为t时刻状态s下采取动作a的奖励,Ci(s,a)为式(1)中微网的经济收益,Aeq是动作变量a的等式约束系数,beq是等式约束的常数,动作a包含Pload(t),Ppv-net,i(t),PGi(t),状态s包含Ppv,i(t),Pw,i(t),SOCi(t)。
所述步骤(3)中,进行强化学习模型训练,求解获取多微电网群互动博弈均衡解,具体流程与步骤如下:
(3-1)使用强化学习对综合能源系统进行训练,通过状态动作值函数Q对行为策略进行评价,估计最优策略的状态动作值函数Q的值,智能体的纳什-Q函数形式如下:
式中:s为系统状态;ai为智能体i的动作;Ri(s,a1,…,an)为智能体在联合动作下的奖励;β为折扣系数,β∈[0,1),为纳什均衡联合策略。
(3-2)通过迁移学习方法加速强化学习训练过程。迁移学习利用数据或任务之间的相似性,将通过交替方向乘子法获得的纳什均衡近似解的经验应用于新任务的一种学习过程。具体流程如下:
1)基于步骤(2)中交替方向乘子法求解得到的部分纳什均衡近似解,将其进行聚类筛选后抽样并存入记忆库中。
2)在强化学习的训练过程,采用欧式距离分别对已有近似解与新训练之间的相似度进行评估。相似度评估函数如下所示:
式中,lQ为状态的相似度评估指标。Ppv,i(t)、Pw,i(t)、SOCi(t)为已有近似解的解集组成部分,Pp'v,i(t)、Pw',i(t)、SOCi'(t)为新训练结果的解集组成部分。
3)新任务与源任务之间的动态欧式距离越小,则两者之间越相似。当动态欧式距离小于一定的阀值(lQ<δ),则对源任务的最优Q值矩阵进行迁移。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,其特征在于,包括以下步骤:
步骤(1)考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子法松弛问题为全局优化问题,求解近似均衡解,包括:
步骤(1-1)针对参与互动博弈的综合能源微电网利益目标,建立互动博弈的利益目标函数:
对于微电网群,构建如下的利益目标函数:
(1)
(2)
(3)
(4)
(5)
其中,为综合能源微网序号,/>为综合能源微网微/>的负荷经济收益,/>,/>,/>为为综合能源微网微/>的负荷收益系数,/>为综合能源微网微/>在时刻/>的负荷功率,/>为综合能源微网微/>的可再生能源上网收益, />、/>分别为光伏和风电的上网电价的价格系数,/>为综合能源微网微/>在时刻/>的光伏发电与电网交易功率,/>为综合能源微网微/>在时刻/>的风力发电与电网交易功率,/>为时间段长度,/>为综合能源微网微的可再生能源运行维护成本,/>、/>分别为光伏和风电机组的运维成本的价格系数,为综合能源微网微/>在时刻/>的光伏发电功率,/>为综合能源微网微/>在时刻/>的风力发电功率,/>为综合能源微网微/>的燃机发电成本,/>,/>,/>为综合能源微网i的常规微燃机机组的成本系数,/>为综合能源微网微/>在时刻/>的微燃机出力功率;
步骤(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束,建立互动博弈的约束条件:
(6)
(7)
(8)
(9)
(10)
(11)
其中,为综合能源微网/>在时刻/>的储能设备的荷电状态,/>,/>分别为储能设备的充电效率与放电效率,/>,/>分别为储能设备在时刻/>的充电功率与放电功率,/>为储能设备的最大容量, />,/>分别为储能设备的充电功率最大值与放电功率最大值,,/>分别为储能设备荷电状态的最大值与最大值;
步骤(1-3)引入拉格朗日函数,将求解博弈的纳什均衡问题转化为求解全局最优问题:
(12)
(13)
(14)
(15)
(16)
(17)
(18)
其中,为优化目标函数的拉格朗日增广函数,/>是综合能源微网/>的优化变量, />是所有综合能源微网群在第k次迭代时求解得到的解集除去/>之后的集合, ( )是综合能源微网/>的总经济收益,/>是综合能源微网总数,/>是等式约束的变量前系数,/>是等式约束的常数,/>是求解以/>变量的函数最优解集, />为变量/>的辅助变量,满足约束/>,/>是以/>为变量的/>的对偶函数,/>是时间段的最大值,/>为第次数迭代的拉格朗日乘子,/>为惩罚系数,/>和/>分别为第k次迭代时增广拉格朗日的互残差与自残差;
步骤(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解,包括:
1)设置最大迭代次数,收敛精度/>;初始化迭代次数/>,自变量/>,辅助变量,增广拉格朗日乘子/>和惩罚因子/> ,其中/>,/>;
2)对于微电网群主体,从各微电网群主体接收其期望售给电网的光伏发电功率/>和风电发电功率/>,根据优化目标及其约束构建其分布式优化的拉格朗日函数(12),基于公式(13)依次求解微电网群各优化变量,包括负荷优化功率/>和微燃机出力功率/>;
3)根据公式(14)构建各微电网群主体辅助变量与辅助变量对应的拉格朗日函数,根据公式(15)更新辅助变量/>;
4)根据公式(16)更新拉格朗日乘子,根据公式(17)所示更新惩罚系数/>,更新迭代次数/>;
5)根据公式(18)计算变量的互残差与自残差,判断算法收敛情况,如果满足迭代终止条件的公式(19),否则返回2)重复计算,直至满足收敛条件或最大迭代次数;
(19);
步骤(2)基于近似均衡解,构建近似均衡解驱动的Q-Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;
步骤(3)基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。
2.如权利要求1所述的一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,其特征在于,所述的步骤(2)的具体步骤如下:
步骤(2-1)基于步骤(1)建立的理论近似解构建模拟环境,基于构建的模拟环境强化学习对多智能体进行强化学习训练,将步骤(1)中数学方法计算得到的理论近似均衡解,使用迁移学习的方法构加速训练强化学习模型策略;使用迁移学习方法判断,在满足相似度要求的前提下,将优化方法求解的近似均衡解迁移到强化学习的策略库中,充分利用历史数据与理论方法,加速强化学习求解过程;
步骤(2-2)构建Q-Learning强化学习的动作空间、状态空间与奖励函数:
动作空间是其针对环境变化作出的反应,对于微电网群的动作,包括,/>,/>,构建状态空间/>为新能源出力/>,/>和储能SOC状态/>,奖励函数为时成本效益的时间累计减去约束越限的惩罚,奖励函数如下:
(20)
式中,为/>时刻状态/>下采取动作/>的奖励,/>为式(1)中微网的经济收益,是动作变量/>的等式约束系数,/>是等式约束的常数,动作/>包含/>,/>,,状态/>包含/>,/>,/>。
3.如权利要求2所述的一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,其特征在于,所述的步骤(3)的具体步骤如下:
步骤(3-1)使用强化学习对综合能源系统进行训练,通过状态动作值函数Q对行为策略进行评价,估计最优策略的状态动作值函数Q的值,智能体的纳什-Q函数形式如下:
(21)
式中:s 为系统状态;为智能体 i 的动作; />为智能体在联合动作下的奖励;/>为折扣系数,/>,/>为纳什均衡联合策略;
步骤(3-2)通过迁移学习方法加速强化学习训练过程,迁移学习利用数据或任务之间的相似性,将通过交替方向乘子法获得的纳什均衡近似解的经验应用于新任务的一种学习过程,具体包括:
1)基于步骤(2)中交替方向乘子法求解得到的部分纳什均衡近似解,将其进行聚类筛选后抽样并存入记忆库中;
2)在强化学习的训练过程,采用欧式距离分别对已有近似解与新训练之间的相似度进行评估,相似度评估函数如下所示:
(22)
式中, 为状态的相似度评估指标;/>、/>、/>为已有近似解的解集组成部分,/>、/>、/>为新训练结果的解集组成部分;
3)新任务与源任务之间的动态欧式距离越小,则两者之间越相似;当动态欧式距离小于一定的阀值,即,则对源任务的最优 Q 值矩阵进行迁移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310083666.7A CN116050632B (zh) | 2023-02-08 | 2023-02-08 | 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310083666.7A CN116050632B (zh) | 2023-02-08 | 2023-02-08 | 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050632A CN116050632A (zh) | 2023-05-02 |
CN116050632B true CN116050632B (zh) | 2024-06-21 |
Family
ID=86123614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310083666.7A Active CN116050632B (zh) | 2023-02-08 | 2023-02-08 | 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050632B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117833307B (zh) * | 2023-12-08 | 2024-06-11 | 三峡大学 | 一种基于近似集体策略和独立学习器的家庭微网群优化方法 |
CN118316039B (zh) * | 2024-06-11 | 2024-08-30 | 华东交通大学 | 一种多微电网储能云管理优化调度方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542854A (zh) * | 2020-12-01 | 2021-03-23 | 国网福建省电力有限公司 | 一种含可再生能源的微电网多主体协调调度方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392279B (zh) * | 2014-11-19 | 2018-02-13 | 天津大学 | 一种多智能体结构的微电网优化运行方法 |
CN110728406B (zh) * | 2019-10-15 | 2022-07-29 | 南京邮电大学 | 基于强化学习的多智能体发电优化调度方法 |
AU2019101317A4 (en) * | 2019-10-30 | 2019-12-05 | Southeast University | A Bi-level Game-Based Planning Framework for Distribution Networks with multiple Micro-girds |
CN111881616B (zh) * | 2020-07-02 | 2024-06-11 | 国网河北省电力有限公司经济技术研究院 | 一种基于多主体博弈的综合能源系统的运行优化方法 |
CN113378456B (zh) * | 2021-05-21 | 2023-04-07 | 青海大学 | 多园区综合能源调度方法和系统 |
CN113988567B (zh) * | 2021-10-22 | 2024-07-02 | 华中科技大学 | 一种储能共享控制方法及其控制系统 |
CN114374219B (zh) * | 2021-11-29 | 2023-09-15 | 山东大学 | 基于合作博弈的园区综合能源系统分布式优化方法及系统 |
CN115411728A (zh) * | 2022-09-26 | 2022-11-29 | 南京理工大学 | 一种融合q学习与势博弈的多微电网系统协调控制方法 |
-
2023
- 2023-02-08 CN CN202310083666.7A patent/CN116050632B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542854A (zh) * | 2020-12-01 | 2021-03-23 | 国网福建省电力有限公司 | 一种含可再生能源的微电网多主体协调调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116050632A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116050632B (zh) | 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 | |
CN109347149B (zh) | 基于深度q值网络强化学习的微电网储能调度方法及装置 | |
Li et al. | Probabilistic charging power forecast of EVCS: Reinforcement learning assisted deep learning approach | |
CN112186743B (zh) | 一种基于深度强化学习的动态电力系统经济调度方法 | |
Li et al. | Electric vehicle charging management based on deep reinforcement learning | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、系统及装置 | |
CN112131733A (zh) | 计及电动汽车充电负荷影响的分布式电源规划方法 | |
CN111144641A (zh) | 一种基于改进粒子群算法的微电网优化调度方法 | |
CN113435793A (zh) | 一种基于强化学习的微电网优化调度方法 | |
CN104156789B (zh) | 计及储能寿命损耗的孤立微电网最优经济运行方法 | |
CN103336998B (zh) | 一种风电场功率波动平抑目标值的优化计算方法 | |
CN118174355A (zh) | 一种微电网能量优化调度方法 | |
CN112580897A (zh) | 基于鹦鹉算法的多能源电力系统优化调度的方法 | |
CN115409645A (zh) | 一种基于改进深度强化学习的综合能源系统能量管理方法 | |
CN115759604A (zh) | 一种综合能源系统优化调度方法 | |
CN114285093B (zh) | 一种源网荷储互动调度方法及系统 | |
CN116581792A (zh) | 一种基于数据模型驱动的风光储系统容量规划方法 | |
CN116683513A (zh) | 移动式微电网能量补充策略优化方法及系统 | |
CN118381095A (zh) | 新能源微电网储能充放电智能控制方法及装置 | |
CN117937568A (zh) | 一种家庭微电网能源管理方法及系统 | |
Dou et al. | Double‐deck optimal schedule of micro‐grid based on demand‐side response | |
CN117291390A (zh) | 一种基于SumTree-TD3算法的调度决策模型建立方法 | |
CN114188987A (zh) | 大规模可再生能源送端系统的共享储能优化配置方法 | |
CN117691586A (zh) | 基于行为克隆的新能源基地微电网优化运行方法及系统 | |
CN116562423A (zh) | 基于深度强化学习的电-热耦合新能源系统能量管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |