CN115411728A - 一种融合q学习与势博弈的多微电网系统协调控制方法 - Google Patents

一种融合q学习与势博弈的多微电网系统协调控制方法 Download PDF

Info

Publication number
CN115411728A
CN115411728A CN202211175322.0A CN202211175322A CN115411728A CN 115411728 A CN115411728 A CN 115411728A CN 202211175322 A CN202211175322 A CN 202211175322A CN 115411728 A CN115411728 A CN 115411728A
Authority
CN
China
Prior art keywords
microgrid
potential
micro
learning
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211175322.0A
Other languages
English (en)
Inventor
柳伟
张思聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202211175322.0A priority Critical patent/CN115411728A/zh
Publication of CN115411728A publication Critical patent/CN115411728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/24Arrangements for preventing or reducing oscillations of power in networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Power Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Feedback Control In General (AREA)

Abstract

一种融合Q学习与势博弈的多微电网系统协调控制方法,属于微电网协调控制技术领域,解决如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制问题,基于多微电网分布式协调架构和势博弈优化策略,构建了融合强化学习与势博弈的多微电网系统协调控制方法。充分利用势博弈的分布式特性,将每个微电网视为一个智能体,采用分布式协调控制结构,以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型,然后以强化学习的Q学习算法为载体,以参数传递的方法将势博弈和强化学习算法进行融合,从而得到最优纳什均衡解,以提高寻优性能,提高多微电网系统经济性,实现系统整体和系统内个体的利益平衡。

Description

一种融合Q学习与势博弈的多微电网系统协调控制方法
技术领域
本发明属于微电网协调控制技术领域,涉及一种融合Q学习与势博弈的多微电网系统协调控制方法。
背景技术
随着可再生能源技术的迅速发展及分布式能源在配电网中的大范围高渗透,单一微电网系统逐渐向多微电网系统转型。多微电网不仅具有更高可靠性,还能够有效提高可再生能源就地消纳能力,但因其规模大、复杂性高、投资主体多样化,传统集中式控制方法难以满足其控制需求,且系统整体利益及系统内个体利益难以达到平衡,参见文献《Amultiagent-based hierarchical energy management strategy for multi-microgridsconsidering adjustable power and demand response》(V.H.Bui,etc.,IEEETransactions on Smart Grid 9.2(2018):1323-1333);因此,亟需研究一种有效协调整体与个体间经济关系,提高系统经济性的多微电网分布式协调控制方法。
强化学习主要是通过智能体与环境进行交互从而不断改善自身行为,智能体选择动作作用于环境,得到环境奖励或惩罚的反馈,并根据反馈及环境变化选择下一个动作,有利于目标的动作被保留,不利于目标的动作被删减。Q学习算法是强化学习中一种基于值函数迭代的离线控制算法,原理是利用包含先前经验的Q值表作为后续迭代计算的初始值,从而缩短算法的收敛时间。势博弈(Potential game,PG)是非合作博弈的一个子类,于1996年由Monderer和Shapely首次提出。它将个体收益的变化映射到势函数中,当个体通过调整策略使得自己的收益增加时,势函数的值也同步增加,借助求解势函数最大值或极大值,可间接求得纳什均衡解。势博弈具有分布式特性,适合求解分布式优化问题,且拥有有限改进特性(finite improvement properties,FIP),每个有限势博弈必有纯策略纳什均衡,因此势博弈在算法复杂度和计算量方面有着很大的优势。
现有技术中,多微电网系统协调博弈优化多采用传统的主从博弈、库诺寡头博弈等方法。例如文献《Economic optimization method of multi-stakeholder in a multi-microgrid system based on Stackelberg game theory》(Q.Wu,etc.,Energy Reports 8(2022):345-351)提出了一种基于Stackelberg博弈的微电网系统能源管理优化方法;以及文献《Cournot oligopoly game-based local energy trading considering renewableenergy uncertainty costs》(Y.J.Zhang,etc.,Renewable Energy 159.3(2020):1117-1127)将库诺寡头博弈用于电力市场,以改善发电公司和海关之间的交易或平衡多个供应之间的利润;但是上述这些方法都存在难以契合分布式优化控制方法或纳什均衡求解过程复杂等问题。文献《A Potential Game Approach to Distributed OperationalOptimization for Microgrid Energy Management with Renewable Energy and DemandResponse》(J.Zeng,etc.,IEEE Transactions on Industrial Electronics 66.6(2019):4479-4489)将势博弈用于微电网能源管理系统的全分布式运行优化,但是该方法在博弈参与者较多、策略集合较大时,求解计算量仍然很大,算法求解效果仍有待提高。文献《基于多主体博弈与强化学习的并网型综合能源微网协调调度》(刘洪等,智能电网教育部重点实验室,天津大学,2019年1月),针对传统集中式优化调度方法难以全面反映综合能源微电网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微电网协调调度模型和方法;但是该文献解决的技术问题是:以多智能体间利益均衡为目标实现微电网协调调度;该文献采用的技术方案为:基于联合博弈方法建立多主体博弈协调调度模型后,先筛选出满足纳什均衡的状态动作值,然后再采用纳什Q学习算法进行迭代计算,求解出最优纳什均衡,其中筛选纳什均衡值的过程比较复杂,计算量较大。
发明内容
本发明所要解决的技术问题在于如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制。
本发明是通过以下技术方案解决上述技术问题的:
一种融合Q学习与势博弈的多微电网系统协调控制方法,包括以下步骤:
S1、构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化决策模型,并设定功率平衡约束条件以及微电网出力约束条件;
S2、对目标优化决策进行线性加权处理得到局部支付函数,进而设计满足势方程的全局势函数和局部效用函数,确立势博弈策略集,构建具有分布式特性的势博弈模型;
S3、以参数传递的方式将势博弈控制与Q学习算法进行融合,对势博弈模型进行求解,得到博弈优化结果并进行分析。
本发明的技术方案基于多微电网分布式协调架构和势博弈优化,构建了融合强化学习与势博弈的多微电网系统协调控制方法,充分利用势博弈的分布式特性,将每个微电网视为一个智能体,采用分布式协调控制结构,以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型,然后以强化学习Q学习算法为载体,以参数传递的方法将势博弈和强化学习算法进行融合,从而得到最优纳什均衡解,以提高寻优性能,实现了微电网收益最大化和微电网间出力平衡的双重目标,提高了多微电网系统经济性,实现系统整体和系统内个体的利益平衡;无需对状态动作值进行筛选处理,将博弈效用函数值传递给奖励值,直接代入Q学习迭代公式计算出纳什均衡并判断是否为最优纳什均衡,进一步减少计算复杂度。
进一步地,步骤S1中所述的优化决策模型的构建方法如下:
1)最大化微电网出力收益的净收益为:
maxF1,i=(ρ-mi)Pi (1)
其中,F1,i为微电网出力收益的净收益,Pi为多微电网系统中的微电网i的出力,ρ为单位电价,mi为微电网i出力成本系数;
2)最小化多微电网系统中的各微电网与邻居微电网之间的功率差额,以平衡各微电网出力,其目标函数为:
Figure BDA0003864957320000031
其中,F2,i为微电网i与其邻居微电网j之间的功率差额,Ii为微电网i的邻居集,Pj为微电网i的邻居微电网j的出力。
进一步地,步骤S1中所述的功率平衡约束条件以及微电网出力约束条件具体如下:
Figure BDA0003864957320000032
其中,Pload为多微电网系统的总负荷,N为势博弈参与者集合,Pi,max为微电网i的额定容量;nMG为多微电网系统中微电网的数量。
进一步地,步骤S2中所述的线性加权处理的方法为:
Figure BDA0003864957320000033
其中,Fi(Pi,P-i)为微电网i的局部支付函数,P-i为多微电网系统中为除微电网i以外的其他微电网出力,λ1和λ2分别为不同目标函数的加权系数。
进一步地,步骤S2中所述的全局势函数φ的公式如下:
Figure BDA0003864957320000041
所述的局部效用函数的公式如下:
Figure BDA0003864957320000042
其中,Ui(Pi,P-i)为局部效用函数,Fj(Pi,P-i)为微电网i的邻居微电网j的局部支付函数。
进一步地,步骤S2中所述的势博弈策略集的设计方法为:
(1)根据微电网出力约束来设计势博弈策略集,势博弈策略集Yi具体为:
Yi={Pi:0≤Pi≤Pi,max} (7)
(2)求解所得的势博弈策略需在微电网容量限制内,同时还要满足多微电网系统功率平衡约束。
进一步地,步骤S3中所述的以参数传递的方式将势博弈控制与Q学习算法进行融合,对势博弈模型进行求解,得到博弈优化结果并进行分析的方法具体如下:
(a)首先初始化博弈参数和Q值,离散化势博弈策略集,并将其传递给Q学习的状态集,
(b)考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定,设计由功率变化值ΔP组成的Q学习动作集;
(c)收集邻居微电网的信息,计算每个微电网的效用函数,并将效用函数值传递给Q学习算法中的即时奖励,并更新Q学习算法中的Q值;
(d)采用贪婪策略选择最优动作,并根据所选动作更新状态值,将状态值传递给博弈优化策略;
(e)判断是否达到纳什均衡,若达到,继续下一步,否则返回步骤(c);
(f)判断是否满足收敛条件,若满足,得到最终微电网出力计划,否则,返回步骤(c)。
进一步地,步骤(a)中所述的势博弈策略集的离散区间长度ΔPs为:
Figure BDA0003864957320000051
其中,M为划分的区间数;Pmax和Pmin由势博弈策略集上下限确定;
进一步地,步骤(c)中所述的Q学习算法中的Q值的更新的公式如下:
Figure BDA0003864957320000052
其中,Pi∈A为Q学习中每一步的动作值,α∈[0,1]是Q学习算法的学习率,γ∈[0,1]为折扣参数。
Figure BDA0003864957320000053
为第k+1次的Q迭代值,
Figure BDA0003864957320000054
为第k次的Q迭代值,ΔPi为第i个微电网的出力变化值,
Figure BDA0003864957320000055
为第i个微电网第k次时的效用函数值,ΔPi'为第i个微电网第k次迭代时最大Q值对应的出力变化值,Pi'为第i个微电网经过ΔPi'变化后的出力值。
进一步地,步骤(d)中所述的采用贪婪策略选择最优动作的公式如下:
Figure BDA0003864957320000056
其中,
Figure BDA0003864957320000057
为采用贪婪策略选择的最优动作。
本发明的优点在于:
本发明的技术方案基于多微电网分布式协调架构和势博弈优化,构建了融合强化学习与势博弈的多微电网系统协调控制方法,充分利用势博弈的分布式特性,将每个微电网视为一个智能体,采用分布式协调控制结构,以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型,然后以强化学习Q学习算法为载体,以参数传递的方法将势博弈和强化学习算法进行融合,从而得到最优纳什均衡解,以提高寻优性能,实现了微电网收益最大化和微电网间出力平衡的双重目标,提高了多微电网系统经济性,实现系统整体和系统内个体的利益平衡;无需对状态动作值进行筛选处理,将博弈效用函数值传递给奖励值,直接代入Q学习迭代公式计算出纳什均衡并判断是否为最优纳什均衡,进一步减少计算复杂度。
附图说明
图1是本发明实施例一的多微电网分布式博弈协调架构;
图2是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制方法的流程图;
图3是本发明实施例一的Q学习算法与势博弈融合流程图;
图4是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制的仿真模型结构图;
图5是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制前后系统出力对比图;
图6是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制前后系统收益对比图;
图7是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制后的结果验证图;
图8是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制与传统势博弈控制的系统出力对比图;
图9是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制与传统势博弈控制的系统收益对比图;
图10是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制与传统势博弈控制的算法收敛情况对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述:
实施例一
如图1所示,实施例的多微电网分布式博弈协调架构,将每个微电网视为一个智能体,各智能体之间通过虚拟通信线路进行邻居间分布式信息交互,收集到邻居信息后,各智能体兼顾自身效用和邻居效用进行博弈协调控制,得到优化后的各微电网出力,从而最大化各微电网效益以及多微电网系统的整体利益。
如图2所示,本实施例的融合Q学习与势博弈的多微电网系统协调控制方法,包括以下步骤:
步骤1、以最大化系统总收益以及平衡系统内经济关系为目的,构建多微电网分布式博弈架构下计及微电网出力收益最大化目标和出力平衡目标的优化决策模型,并设定功率平衡、微电网出力约束条件,对多微电网的经济性和公平性进行协调优化;
步骤1.1、构建多微电网分布式博弈架构下计及微电网出力收益最大化目标和出力平衡目标的优化决策模型,首先考虑最大化微电网出力获得的净收益,可以写作:
maxF1,i=(ρ-mi)Pi (1)
公式(1)中,Pi为系统中为微电网i出力;ρ为单位电价;其中mi为微电网i出力成本系数。
步骤1.2、其次考虑最小化各微电网与邻居微电网之间的功率差额,以平衡各微电网出力,增加公平性,避免资源浪费,其目标函数可以写作:
Figure BDA0003864957320000071
公式(2)中,Ii为微电网i的邻居集;Pj为系统中为微电网i的邻居微电网j的出力。
步骤1.3、为了保障电力系统的安全稳定运行,各变量都要在规定的范围内,功率平衡约束、微电网出力约束条件如下:
Figure BDA0003864957320000072
公式(3)中,Pload为多微电网系统总负荷;N为博弈参与者集合;Pi,max为微电网额定容量;nMG为多微电网系统中微电网的数量。
步骤2、在步骤1构建的优化决策目标的基础上进行线性加权处理,得到各微电网的局部支付函数,进而设计满足势方程的局部效用函数和全局势函数,确立势博弈策略集,构建具有分布式特性的博弈协调模型,实现多微电网之间分布式协调控制功能;
步骤2.1、采用线性加权法对步骤1中的优化决策目标进行处理,其过程为:
Figure BDA0003864957320000073
公式(4)中,P-i为系统中为除微电网i以外的其他微电网出力;和
分别为不同目标函数的加权系数。
步骤2.2、设计满足势方程的全局势函数和局部效用函数,根据最大化系统整体效益的原则,建立全局势函数如下:
Figure BDA0003864957320000081
设计局部效用函数不仅考虑博弈参与者自身策略所得收益,同时兼顾其邻居策略对自身收益的影响,其公式为:
Figure BDA0003864957320000082
公式(6)中,Fi(Pi,P-i)为微电网i的局部支付函数;Fj(Pi,P-i)为微电网i的邻居的局部支付函数。该公式充分体现了势博弈的分布式特性,能够和多微电网分布式优化思想相契合,提高优化性能。
步骤2.3、博弈策略集可根据微电网出力约束来设计,可写作:
Yi={Pi:0≤Pi≤Pi,max} (7)
最终求解所得博弈策略需在微电网容量限制内,同时还要满足系统功率平衡约束。
步骤3、结合势博弈理论和强化学习原理,以参数传递的方法将势博弈控制与Q学习算法进行融合,提出一种融合强化学习与势博弈的多微电网系统协调控制算法,对步骤2中所获得的分布式势博弈模型进行求解,其优化性能及收敛性均得到有效提高,融合后的算法流程如图3所示,最终获得博弈优化结果并进行分析。
步骤3.1、首先初始化博弈参数和Q值,离散化博弈策略集,并将其传递给Q学习的状态集。博弈策略集的离散为区间形式是为了对应Q学习离散状态集,区间长度可写作:
Figure BDA0003864957320000083
公式(9)中,M为划分的区间数;Pmax和Pmin由博弈策略集上下限确定。
步骤3.2、考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定,设计由功率变化值P组成的Q学习动作集。
步骤3.3、收集邻居微电网的信息,计算每个微电网的效用函数,并将效用函数值传递给Q学习算法中的即时奖励,根据下式更新Q值:
Figure BDA0003864957320000091
公式(9)中,Pi∈A为Q学习中每一步的动作值;α∈[0,1]是Q学习的学习率;γ∈[0,1]为折扣参数。
步骤3.4、采用贪婪策略选择最优动作如公式(10)所示,并根据所选动作更新状态值,将状态值传递给博弈优化策略。
Figure BDA0003864957320000092
步骤3.5、判断是否达到纳什均衡,若达到,继续下一步,否则返回步骤3.3。
步骤3.6、判断是否满足收敛条件,若满足,得到最终微电网出力计划,否则,返回步骤3.3。
如图4所示,建立多微电网系统仿真模型,其中包含3个微电网,每个微电网内包含若干分布式电源及负荷,其中负荷1和负荷3的额定有功功率为0.5MW,负荷2和负荷4的额定有功功率分别为0.6MW和0.4MW,每个微电网额容量均为1MW。t=0s时开关S1断开,多微电网系统运行在孤岛状态,t=1s时多微电网系统发生负荷突增,此时实施强化博弈控制。设置单位电价为1.2元/kW,各微电网的出力成本系数m1、m2和m3分别为0.7、0.6和0.8元/kW。
如图5和图6所示,经过博弈协调后的各微电网出力的接近程度明显比自主运行时高,说明微电网出力平衡性得到了明显改善。强化博弈控制模式下,多微电网系统的总体收益比自主运行模式下增加了16.84元,说明系统整体利益得到了有效优化。其次,采用强化博弈方法时,微电网1和微电网2的稳定出力及收益均比自主运行时高,微电网3的出力及收益则比自主运行时低。这是因为微电网3出力成本系数最大,提高微电网3的出力不容易获得较高的收益,为了更好地平衡微电网个体利益与系统整体利益,适当牺牲了微电网3的个体利益。
如图7所示,对求解得到的各智能体博弈策略进行验证,引入参数c 1,c2和c3∈[0.2 3],以此控制各智能体在最终求解结果的基础上单独改变其策略,c1=1,c2=1及c3=1时,即代表强化博弈方法求解得到的出力结果,各微电网单独改变其策略后的效用函数如图6所示,观察其各自效用函数的变化趋势,从图中明显可以看到c1=1,c2=1和c3=1时各智能体的效用函数值最大,因此可以证明所得纳什均衡结果的正确性。
如图8和图9所示,与传统的势博弈控制相比,强化博弈控制方式下,各微电网出力的接近程度更高,其稳定性也更好。与自主运行模式相比,采用传统势博弈控制时,微电网1的收益基本不变,微电网2的收益增加,微电网3的收益减少,即只有一个微电网的个体效益得到了提高。并且,传统势博弈控制的整体系统收益比强化博弈控制低1.96元。因此,强化博弈控制方法的优化效果显然优于传统势博弈控制。
如图10所示,在t=1s时系统采取两种不同控制方法后,强化博弈控制算法在t=1.3s后进入收敛范围,而传统势博弈控制算法在t=1.5s后才进入收敛范围。这说明强化博弈控制算法具有更好的收敛性,算法效率更高。
本发明的技术方案基于多微电网分布式协调架构和势博弈优化策略,构建了融合强化学习与势博弈的多微电网系统协调控制方法。充分利用势博弈的分布式特性,将每个微电网视为一个智能体,采用分布式协调控制结构,以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型,然后以强化学习Q学习算法为载体,以参数传递的方法将势博弈和强化学习算法进行融合,从而得到最优纳什均衡解,以提高寻优性能,提高多微电网系统经济性,实现系统整体和系统内个体的利益平衡。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,包括以下步骤:
S1、构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化决策模型,并设定功率平衡约束条件以及微电网出力约束条件;
S2、对目标优化决策进行线性加权处理得到局部支付函数,进而设计满足势方程的全局势函数和局部效用函数,确立势博弈策略集,构建具有分布式特性的势博弈模型;
S3、以参数传递的方式将势博弈控制与Q学习算法进行融合,对势博弈模型进行求解,得到博弈优化结果并进行分析。
2.根据权利要求1所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S1中所述的优化决策模型的构建方法如下:
1)最大化微电网出力收益的净收益为:
maxF1,i=(ρ-mi)Pi (1)
其中,F1,i为微电网出力收益的净收益,Pi为多微电网系统中的微电网i的出力,ρ为单位电价,mi为微电网i出力成本系数;
2)最小化多微电网系统中的各微电网与邻居微电网之间的功率差额,以平衡各微电网出力,其目标函数为:
Figure FDA0003864957310000011
其中,F2,i为微电网i与其邻居微电网j之间的功率差额,Ii为微电网i的邻居集,Pj为微电网i的邻居微电网j的出力。
3.根据权利要求2所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S1中所述的功率平衡约束条件以及微电网出力约束条件具体如下:
Figure FDA0003864957310000012
其中,Pload为多微电网系统的总负荷,N为势博弈参与者集合,Pi,max为微电网i的额定容量;nMG为多微电网系统中微电网的数量。
4.根据权利要求3所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S2中所述的线性加权处理的方法为:
Figure FDA0003864957310000021
其中,Fi(Pi,P-i)为微电网i的局部支付函数,P-i为多微电网系统中为除微电网i以外的其他微电网出力,λ1和λ2分别为不同目标函数的加权系数。
5.根据权利要求4所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S2中所述的全局势函数φ的公式如下:
Figure FDA0003864957310000022
所述的局部效用函数的公式如下:
Figure FDA0003864957310000023
其中,Ui(Pi,P-i)为局部效用函数,Fj(Pi,P-i)为微电网i的邻居微电网j的局部支付函数。
6.根据权利要求5所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S2中所述的势博弈策略集的设计方法为:
(1)根据微电网出力约束来设计势博弈策略集,势博弈策略集Yi具体为:
Yi={Pi:0≤Pi≤Pi,max} (7)
(2)求解所得的势博弈策略需在微电网容量限制内,同时还要满足多微电网系统功率平衡约束。
7.根据权利要求6所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S3中所述的以参数传递的方式将势博弈控制与Q学习算法进行融合,对势博弈模型进行求解,得到博弈优化结果并进行分析的方法具体如下:
(a)首先初始化博弈参数和Q值,离散化势博弈策略集,并将其传递给Q学习的状态集,
(b)考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定,设计由功率变化值ΔP组成的Q学习动作集;
(c)收集邻居微电网的信息,计算每个微电网的效用函数,并将效用函数值传递给Q学习算法中的即时奖励,并更新Q学习算法中的Q值;
(d)采用贪婪策略选择最优动作,并根据所选动作更新状态值,将状态值传递给博弈优化策略;
(e)判断是否达到纳什均衡,若达到,继续下一步,否则返回步骤(c);
(f)判断是否满足收敛条件,若满足,得到最终微电网出力计划,否则,返回步骤(c)。
8.根据权利要求7所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤(a)中所述的势博弈策略集的离散区间长度ΔPs为:
Figure FDA0003864957310000031
其中,M为划分的区间数;Pmax和Pmin由势博弈策略集上下限确定。
9.根据权利要求8所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤(c)中所述的Q学习算法中的Q值的更新的公式如下:
Figure FDA0003864957310000032
其中,Pi∈A为Q学习中每一步的动作值,α∈[0,1]是Q学习算法的学习率,γ∈[0,1]为折扣参数。
Figure FDA0003864957310000033
为第k+1次的Q迭代值,
Figure FDA0003864957310000034
为第k次的Q迭代值,ΔPi为第i个微电网的出力变化值,
Figure FDA0003864957310000035
为第i个微电网第k次时的效用函数值,ΔPi'为第i个微电网第k次迭代时最大Q值对应的出力变化值,Pi'为第i个微电网经过ΔPi'变化后的出力值。
10.根据权利要求9所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤(d)中所述的采用贪婪策略选择最优动作的公式如下:
ΔPi *=argmaxQ(Pi,ΔPi) (10)
其中,ΔPi *为采用贪婪策略选择的最优动作。
CN202211175322.0A 2022-09-26 2022-09-26 一种融合q学习与势博弈的多微电网系统协调控制方法 Pending CN115411728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211175322.0A CN115411728A (zh) 2022-09-26 2022-09-26 一种融合q学习与势博弈的多微电网系统协调控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211175322.0A CN115411728A (zh) 2022-09-26 2022-09-26 一种融合q学习与势博弈的多微电网系统协调控制方法

Publications (1)

Publication Number Publication Date
CN115411728A true CN115411728A (zh) 2022-11-29

Family

ID=84166235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211175322.0A Pending CN115411728A (zh) 2022-09-26 2022-09-26 一种融合q学习与势博弈的多微电网系统协调控制方法

Country Status (1)

Country Link
CN (1) CN115411728A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050632A (zh) * 2023-02-08 2023-05-02 中国科学院电工研究所 一种基于纳什q学习的微电网群互动博弈策略学习进化方法
CN116107276A (zh) * 2022-12-30 2023-05-12 福州大学 基于分布式微分博弈的物流仓储最优协调方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107276A (zh) * 2022-12-30 2023-05-12 福州大学 基于分布式微分博弈的物流仓储最优协调方法
CN116050632A (zh) * 2023-02-08 2023-05-02 中国科学院电工研究所 一种基于纳什q学习的微电网群互动博弈策略学习进化方法

Similar Documents

Publication Publication Date Title
Nguyen Optimal solution analysis and decentralized mechanisms for peer-to-peer energy markets
Ju et al. Multi-objective stochastic scheduling optimization model for connecting a virtual power plant to wind-photovoltaic-electric vehicles considering uncertainties and demand response
CN107545325B (zh) 一种基于博弈论的多微网互联运行优化方法
Zhang et al. Distributed online optimal energy management for smart grids
Niknam et al. A new multi-objective reserve constrained combined heat and power dynamic economic emission dispatch
Moghaddam et al. Multi-objective operation management of a renewable MG (micro-grid) with back-up micro-turbine/fuel cell/battery hybrid power source
CN115411728A (zh) 一种融合q学习与势博弈的多微电网系统协调控制方法
CN107392395A (zh) 一种基于价格激励机制的配电网和微电网协调优化方法
De Santis et al. Genetic optimization of a fuzzy control system for energy flow management in micro-grids
Soriano et al. Peer-to-peer energy trades based on multi-objective optimization
Li et al. Two-stage community energy trading under end-edge-cloud orchestration
Wang et al. Optimal scheduling for integrated energy system considering scheduling elasticity of electric and thermal loads
Yang et al. Exploring blockchain for the coordination of distributed energy resources
Yin et al. Equilibrium stability of asymmetric evolutionary games of multi-agent systems with multiple groups in open electricity market
Zhou et al. Spatial–temporal energy management of base stations in cellular networks
CN110489915A (zh) 计及综合需求响应的电热联合调度方法及系统
Zhou et al. Correlated deep q-learning based microgrid energy management
Ma et al. Multi-objective microgrid optimal dispatching based on improved bird swarm algorithm
Jiang et al. A novel multi-agent cooperative reinforcement learning method for home energy management under a peak power-limiting
CN116706917A (zh) 基于快速交替方向乘子法的智慧园区协同调控方法及系统
Zhang et al. Two-layered hierarchical optimization strategy with distributed potential game for interconnected hybrid energy systems
Hu et al. Multiobjective genetic algorithm for demand side management of smart grid
CN111654025B (zh) 考虑配网间互联的输配一体化协调调度方法
Zhang et al. Networked Multiagent-Based Safe Reinforcement Learning for Low-Carbon Demand Management in Distribution Networks
CN111310111B (zh) 多微电网系统协同优化调度模型与动态链接行为分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination