CN115411728A

CN115411728A - 一种融合q学习与势博弈的多微电网系统协调控制方法

Info

Publication number: CN115411728A
Application number: CN202211175322.0A
Authority: CN
Inventors: 柳伟; 张思聪
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-11-29

Abstract

一种融合Q学习与势博弈的多微电网系统协调控制方法，属于微电网协调控制技术领域，解决如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制问题，基于多微电网分布式协调架构和势博弈优化策略，构建了融合强化学习与势博弈的多微电网系统协调控制方法。充分利用势博弈的分布式特性，将每个微电网视为一个智能体，采用分布式协调控制结构，以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型，然后以强化学习的Q学习算法为载体，以参数传递的方法将势博弈和强化学习算法进行融合，从而得到最优纳什均衡解，以提高寻优性能，提高多微电网系统经济性，实现系统整体和系统内个体的利益平衡。

Description

一种融合Q学习与势博弈的多微电网系统协调控制方法

技术领域

本发明属于微电网协调控制技术领域，涉及一种融合Q学习与势博弈的多微电网系统协调控制方法。

背景技术

随着可再生能源技术的迅速发展及分布式能源在配电网中的大范围高渗透，单一微电网系统逐渐向多微电网系统转型。多微电网不仅具有更高可靠性，还能够有效提高可再生能源就地消纳能力，但因其规模大、复杂性高、投资主体多样化，传统集中式控制方法难以满足其控制需求，且系统整体利益及系统内个体利益难以达到平衡，参见文献《Amultiagent-based hierarchical energy management strategy for multi-microgridsconsidering adjustable power and demand response》(V.H.Bui,etc.,IEEETransactions on Smart Grid 9.2(2018):1323-1333)；因此，亟需研究一种有效协调整体与个体间经济关系，提高系统经济性的多微电网分布式协调控制方法。

强化学习主要是通过智能体与环境进行交互从而不断改善自身行为，智能体选择动作作用于环境，得到环境奖励或惩罚的反馈，并根据反馈及环境变化选择下一个动作，有利于目标的动作被保留，不利于目标的动作被删减。Q学习算法是强化学习中一种基于值函数迭代的离线控制算法，原理是利用包含先前经验的Q值表作为后续迭代计算的初始值，从而缩短算法的收敛时间。势博弈(Potential game，PG)是非合作博弈的一个子类，于1996年由Monderer和Shapely首次提出。它将个体收益的变化映射到势函数中，当个体通过调整策略使得自己的收益增加时，势函数的值也同步增加，借助求解势函数最大值或极大值，可间接求得纳什均衡解。势博弈具有分布式特性，适合求解分布式优化问题，且拥有有限改进特性(finite improvement properties，FIP)，每个有限势博弈必有纯策略纳什均衡，因此势博弈在算法复杂度和计算量方面有着很大的优势。

现有技术中，多微电网系统协调博弈优化多采用传统的主从博弈、库诺寡头博弈等方法。例如文献《Economic optimization method of multi-stakeholder in a multi-microgrid system based on Stackelberg game theory》(Q.Wu,etc.,Energy Reports 8(2022):345-351)提出了一种基于Stackelberg博弈的微电网系统能源管理优化方法；以及文献《Cournot oligopoly game-based local energy trading considering renewableenergy uncertainty costs》(Y.J.Zhang,etc.,Renewable Energy 159.3(2020):1117-1127)将库诺寡头博弈用于电力市场，以改善发电公司和海关之间的交易或平衡多个供应之间的利润；但是上述这些方法都存在难以契合分布式优化控制方法或纳什均衡求解过程复杂等问题。文献《A Potential Game Approach to Distributed OperationalOptimization for Microgrid Energy Management with Renewable Energy and DemandResponse》(J.Zeng,etc.,IEEE Transactions on Industrial Electronics 66.6(2019):4479-4489)将势博弈用于微电网能源管理系统的全分布式运行优化，但是该方法在博弈参与者较多、策略集合较大时，求解计算量仍然很大，算法求解效果仍有待提高。文献《基于多主体博弈与强化学习的并网型综合能源微网协调调度》(刘洪等，智能电网教育部重点实验室，天津大学，2019年1月)，针对传统集中式优化调度方法难以全面反映综合能源微电网内不同智能体的利益诉求，以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题，提出了基于多主体博弈与强化学习的并网型综合能源微电网协调调度模型和方法；但是该文献解决的技术问题是：以多智能体间利益均衡为目标实现微电网协调调度；该文献采用的技术方案为：基于联合博弈方法建立多主体博弈协调调度模型后，先筛选出满足纳什均衡的状态动作值，然后再采用纳什Q学习算法进行迭代计算，求解出最优纳什均衡，其中筛选纳什均衡值的过程比较复杂，计算量较大。

发明内容

本发明所要解决的技术问题在于如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制。

本发明是通过以下技术方案解决上述技术问题的：

一种融合Q学习与势博弈的多微电网系统协调控制方法，包括以下步骤：

S1、构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化决策模型，并设定功率平衡约束条件以及微电网出力约束条件；

S2、对目标优化决策进行线性加权处理得到局部支付函数，进而设计满足势方程的全局势函数和局部效用函数，确立势博弈策略集，构建具有分布式特性的势博弈模型；

S3、以参数传递的方式将势博弈控制与Q学习算法进行融合，对势博弈模型进行求解，得到博弈优化结果并进行分析。

本发明的技术方案基于多微电网分布式协调架构和势博弈优化，构建了融合强化学习与势博弈的多微电网系统协调控制方法，充分利用势博弈的分布式特性，将每个微电网视为一个智能体，采用分布式协调控制结构，以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型，然后以强化学习Q学习算法为载体，以参数传递的方法将势博弈和强化学习算法进行融合，从而得到最优纳什均衡解，以提高寻优性能，实现了微电网收益最大化和微电网间出力平衡的双重目标，提高了多微电网系统经济性，实现系统整体和系统内个体的利益平衡；无需对状态动作值进行筛选处理，将博弈效用函数值传递给奖励值，直接代入Q学习迭代公式计算出纳什均衡并判断是否为最优纳什均衡，进一步减少计算复杂度。

进一步地，步骤S1中所述的优化决策模型的构建方法如下：

1)最大化微电网出力收益的净收益为：

maxF_1,i＝(ρ-m_i)P_i (1)

其中，F_1,i为微电网出力收益的净收益，P_i为多微电网系统中的微电网i的出力，ρ为单位电价，m_i为微电网i出力成本系数；

2)最小化多微电网系统中的各微电网与邻居微电网之间的功率差额，以平衡各微电网出力，其目标函数为：

其中，F_2,i为微电网i与其邻居微电网j之间的功率差额，I_i为微电网i的邻居集，P_j为微电网i的邻居微电网j的出力。

进一步地，步骤S1中所述的功率平衡约束条件以及微电网出力约束条件具体如下：

其中，P_load为多微电网系统的总负荷，N为势博弈参与者集合，P_i,max为微电网i的额定容量；n_MG为多微电网系统中微电网的数量。

进一步地，步骤S2中所述的线性加权处理的方法为：

其中，F_i(P_i,P_-i)为微电网i的局部支付函数，P_-i为多微电网系统中为除微电网i以外的其他微电网出力,λ₁和λ₂分别为不同目标函数的加权系数。

进一步地，步骤S2中所述的全局势函数φ的公式如下：

所述的局部效用函数的公式如下：

其中，U_i(P_i,P_-i)为局部效用函数，F_j(P_i,P_-i)为微电网i的邻居微电网j的局部支付函数。

进一步地，步骤S2中所述的势博弈策略集的设计方法为：

(1)根据微电网出力约束来设计势博弈策略集，势博弈策略集Y_i具体为：

Y_i＝{P_i:0≤P_i≤P_i,max} (7)

(2)求解所得的势博弈策略需在微电网容量限制内，同时还要满足多微电网系统功率平衡约束。

进一步地，步骤S3中所述的以参数传递的方式将势博弈控制与Q学习算法进行融合，对势博弈模型进行求解，得到博弈优化结果并进行分析的方法具体如下：

(a)首先初始化博弈参数和Q值，离散化势博弈策略集，并将其传递给Q学习的状态集，

(b)考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定，设计由功率变化值ΔP组成的Q学习动作集；

(c)收集邻居微电网的信息，计算每个微电网的效用函数，并将效用函数值传递给Q学习算法中的即时奖励，并更新Q学习算法中的Q值；

(d)采用贪婪策略选择最优动作，并根据所选动作更新状态值，将状态值传递给博弈优化策略；

(e)判断是否达到纳什均衡，若达到，继续下一步，否则返回步骤(c)；

(f)判断是否满足收敛条件，若满足，得到最终微电网出力计划，否则，返回步骤(c)。

进一步地，步骤(a)中所述的势博弈策略集的离散区间长度ΔP_s为：

其中，M为划分的区间数；P_max和P_min由势博弈策略集上下限确定；

进一步地，步骤(c)中所述的Q学习算法中的Q值的更新的公式如下：

其中，P_i∈A为Q学习中每一步的动作值，α∈[0,1]是Q学习算法的学习率，γ∈[0,1]为折扣参数。

为第k+1次的Q迭代值，

为第k次的Q迭代值，ΔP_i为第i个微电网的出力变化值，

为第i个微电网第k次时的效用函数值，ΔP_i'为第i个微电网第k次迭代时最大Q值对应的出力变化值，P_i'为第i个微电网经过ΔP_i'变化后的出力值。

进一步地，步骤(d)中所述的采用贪婪策略选择最优动作的公式如下：

其中，

为采用贪婪策略选择的最优动作。

本发明的优点在于：

附图说明

图1是本发明实施例一的多微电网分布式博弈协调架构；

图2是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制方法的流程图；

图3是本发明实施例一的Q学习算法与势博弈融合流程图；

图4是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制的仿真模型结构图；

图5是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制前后系统出力对比图；

图6是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制前后系统收益对比图；

图7是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制后的结果验证图；

图8是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制与传统势博弈控制的系统出力对比图；

图9是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制与传统势博弈控制的系统收益对比图；

图10是本发明实施例一的融合Q学习与势博弈的多微电网系统协调控制与传统势博弈控制的算法收敛情况对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述：

实施例一

如图1所示，实施例的多微电网分布式博弈协调架构，将每个微电网视为一个智能体，各智能体之间通过虚拟通信线路进行邻居间分布式信息交互，收集到邻居信息后，各智能体兼顾自身效用和邻居效用进行博弈协调控制，得到优化后的各微电网出力，从而最大化各微电网效益以及多微电网系统的整体利益。

如图2所示，本实施例的融合Q学习与势博弈的多微电网系统协调控制方法，包括以下步骤：

步骤1、以最大化系统总收益以及平衡系统内经济关系为目的，构建多微电网分布式博弈架构下计及微电网出力收益最大化目标和出力平衡目标的优化决策模型，并设定功率平衡、微电网出力约束条件，对多微电网的经济性和公平性进行协调优化；

步骤1.1、构建多微电网分布式博弈架构下计及微电网出力收益最大化目标和出力平衡目标的优化决策模型，首先考虑最大化微电网出力获得的净收益，可以写作：

maxF_1,i＝(ρ-m_i)P_i (1)

公式(1)中，P_i为系统中为微电网i出力；ρ为单位电价；其中m_i为微电网i出力成本系数。

步骤1.2、其次考虑最小化各微电网与邻居微电网之间的功率差额，以平衡各微电网出力，增加公平性，避免资源浪费，其目标函数可以写作：

公式(2)中，I_i为微电网i的邻居集；P_j为系统中为微电网i的邻居微电网j的出力。

步骤1.3、为了保障电力系统的安全稳定运行，各变量都要在规定的范围内，功率平衡约束、微电网出力约束条件如下：

公式(3)中，P_load为多微电网系统总负荷；N为博弈参与者集合；P_i,max为微电网额定容量；n_MG为多微电网系统中微电网的数量。

步骤2、在步骤1构建的优化决策目标的基础上进行线性加权处理，得到各微电网的局部支付函数，进而设计满足势方程的局部效用函数和全局势函数，确立势博弈策略集，构建具有分布式特性的博弈协调模型，实现多微电网之间分布式协调控制功能；

步骤2.1、采用线性加权法对步骤1中的优化决策目标进行处理，其过程为：

公式(4)中，P_-i为系统中为除微电网i以外的其他微电网出力；和

分别为不同目标函数的加权系数。

步骤2.2、设计满足势方程的全局势函数和局部效用函数，根据最大化系统整体效益的原则，建立全局势函数如下：

设计局部效用函数不仅考虑博弈参与者自身策略所得收益，同时兼顾其邻居策略对自身收益的影响，其公式为：

公式(6)中，F_i(P_i,P_-i)为微电网i的局部支付函数；F_j(P_i,P_-i)为微电网i的邻居的局部支付函数。该公式充分体现了势博弈的分布式特性，能够和多微电网分布式优化思想相契合，提高优化性能。

步骤2.3、博弈策略集可根据微电网出力约束来设计，可写作：

Y_i＝{P_i:0≤P_i≤P_i,max} (7)

最终求解所得博弈策略需在微电网容量限制内，同时还要满足系统功率平衡约束。

步骤3、结合势博弈理论和强化学习原理，以参数传递的方法将势博弈控制与Q学习算法进行融合，提出一种融合强化学习与势博弈的多微电网系统协调控制算法，对步骤2中所获得的分布式势博弈模型进行求解，其优化性能及收敛性均得到有效提高，融合后的算法流程如图3所示，最终获得博弈优化结果并进行分析。

步骤3.1、首先初始化博弈参数和Q值，离散化博弈策略集，并将其传递给Q学习的状态集。博弈策略集的离散为区间形式是为了对应Q学习离散状态集，区间长度可写作：

公式(9)中，M为划分的区间数；P_max和P_min由博弈策略集上下限确定。

步骤3.2、考虑微电网的额定容量以及避免导致避免功率波动过大引起系统不稳定，设计由功率变化值P组成的Q学习动作集。

步骤3.3、收集邻居微电网的信息，计算每个微电网的效用函数，并将效用函数值传递给Q学习算法中的即时奖励，根据下式更新Q值：

公式(9)中，P_i∈A为Q学习中每一步的动作值；α∈[0,1]是Q学习的学习率；γ∈[0,1]为折扣参数。

步骤3.4、采用贪婪策略选择最优动作如公式(10)所示，并根据所选动作更新状态值，将状态值传递给博弈优化策略。

步骤3.5、判断是否达到纳什均衡，若达到，继续下一步，否则返回步骤3.3。

步骤3.6、判断是否满足收敛条件，若满足，得到最终微电网出力计划，否则，返回步骤3.3。

如图4所示，建立多微电网系统仿真模型，其中包含3个微电网，每个微电网内包含若干分布式电源及负荷，其中负荷1和负荷3的额定有功功率为0.5MW，负荷2和负荷4的额定有功功率分别为0.6MW和0.4MW，每个微电网额容量均为1MW。t＝0s时开关S1断开，多微电网系统运行在孤岛状态，t＝1s时多微电网系统发生负荷突增，此时实施强化博弈控制。设置单位电价为1.2元/kW，各微电网的出力成本系数m₁、m₂和m₃分别为0.7、0.6和0.8元/kW。

如图5和图6所示，经过博弈协调后的各微电网出力的接近程度明显比自主运行时高，说明微电网出力平衡性得到了明显改善。强化博弈控制模式下，多微电网系统的总体收益比自主运行模式下增加了16.84元，说明系统整体利益得到了有效优化。其次，采用强化博弈方法时，微电网1和微电网2的稳定出力及收益均比自主运行时高，微电网3的出力及收益则比自主运行时低。这是因为微电网3出力成本系数最大，提高微电网3的出力不容易获得较高的收益，为了更好地平衡微电网个体利益与系统整体利益，适当牺牲了微电网3的个体利益。

如图7所示，对求解得到的各智能体博弈策略进行验证，引入参数c 1，c2和c3∈[0.2 3]，以此控制各智能体在最终求解结果的基础上单独改变其策略，c1＝1，c2＝1及c3＝1时，即代表强化博弈方法求解得到的出力结果，各微电网单独改变其策略后的效用函数如图6所示，观察其各自效用函数的变化趋势，从图中明显可以看到c1＝1，c2＝1和c3＝1时各智能体的效用函数值最大，因此可以证明所得纳什均衡结果的正确性。

如图8和图9所示，与传统的势博弈控制相比，强化博弈控制方式下，各微电网出力的接近程度更高，其稳定性也更好。与自主运行模式相比，采用传统势博弈控制时，微电网1的收益基本不变，微电网2的收益增加，微电网3的收益减少，即只有一个微电网的个体效益得到了提高。并且，传统势博弈控制的整体系统收益比强化博弈控制低1.96元。因此，强化博弈控制方法的优化效果显然优于传统势博弈控制。

如图10所示，在t＝1s时系统采取两种不同控制方法后，强化博弈控制算法在t＝1.3s后进入收敛范围，而传统势博弈控制算法在t＝1.5s后才进入收敛范围。这说明强化博弈控制算法具有更好的收敛性，算法效率更高。

本发明的技术方案基于多微电网分布式协调架构和势博弈优化策略，构建了融合强化学习与势博弈的多微电网系统协调控制方法。充分利用势博弈的分布式特性，将每个微电网视为一个智能体，采用分布式协调控制结构，以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型，然后以强化学习Q学习算法为载体，以参数传递的方法将势博弈和强化学习算法进行融合，从而得到最优纳什均衡解，以提高寻优性能，提高多微电网系统经济性，实现系统整体和系统内个体的利益平衡。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。