CN116050632B

CN116050632B - 一种基于纳什q学习的微电网群互动博弈策略学习进化方法

Info

Publication number: CN116050632B
Application number: CN202310083666.7A
Authority: CN
Inventors: 肖浩; 裴玮; 彭大健; 马腾飞; 马丽
Original assignee: Institute of Electrical Engineering of CAS
Current assignee: Institute of Electrical Engineering of CAS
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2024-06-21
Anticipated expiration: 2043-02-08
Also published as: CN116050632A

Abstract

本发明提供一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，包括：考虑多主体利益诉求与微电网群互动约束，构建微电网群互动博弈模型，使用交替方向乘子分布式优化算法松弛问题为全局优化问题求解近似均衡解；基于步骤1求得的近似均衡解，构建近似均衡解驱动的Q‑Learning强化学习训练机制；构建微电网群策略强化学习的动作空间，状态空间和价值函数；基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。本发明充分利用历史求得的近似均纳什衡解集，实现微电网群互动运行策略的学习，显著提高历史数据的利用与强化学习的训练效率，加速微电网群互动博弈策略的学习。

Description

一种基于纳什Q学习的微电网群互动博弈策略学习进化方法

技术领域

本发明属于配电技术领域，具体涉及一种基于基于纳什Q学习的微电网群互动博弈策略学习进化方法。

背景技术

随着社会发展以及世界各国对能源的需求不断增长，能源成本成为了限制社会发展进步的重要因素之一。新能源的高速扩张、物联网与人工智能技术的发展成熟为微电网群的互动博弈消纳新能源提供了平台与技术支撑。微电网群利用各自负荷的互补性、设备的弹性、经济性的差异等进行博弈交互，促进新能源的消纳、提高社会整体的经济收益与生产力。

然而随着博弈的微电网群数量增加、博弈对象的复杂化、用户隐私的保护需求等原因，微电网群的互动博弈策略越来越难以获取，一般的优化方法难以获取关键隐私参数且难以求解高维度的全局优化问题，传统的Q-learning(Q学习)强化学习方法在训练结果上收敛性差，训练耗时长，难以满足微电网群互动博弈的策略学习的精度需求与时间限制。

目前已有研究针对微电网群策略学习方法展开，如中国专利申请CN202111129369.9一种微电网群多层主体交易策略的优化方法，建立了微电网群的双层互动博弈策略优化学习方法，输出微电网群的交易价格与微电网群负荷策略。中国专利申请CN202210549821.5一种基于联邦学习的微电网群请求动态迁移调度方法及装置，提出了一种基于联邦学习的微电网群边缘训练模型与资源分配策略优化模型，通过边缘计算与联邦学习保护用户隐私并学习微电网群策略。中国专利申请CN202111496359.9一种多能微电网群自身及市场决策协同优化方法，提出了一种微电网群协同优化模型，基于构建的双层MILP模型学习微电网群的最有博弈解集与最优博弈策略。但是这些方法或者无法解决集中优化方法无法获取关键隐私数据的问题，或者无法充分利用历史数据导致训练速度慢。随着微电网群数量与类型的增加，微电网群互动博弈模型的优化精度进一步降低、策略求解速度愈发的慢，传统优化方法与传统强化学习无法解决这三大难题。

发明内容

为克服现有技术的缺点，本发明提出一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，首先利用交替方向乘子的分布式优化方法构建全局优化问题的近似纳什均衡解集。随后，基于近似均衡解驱动构建Q-Learning强化学习训练机制，构建微电网群策略强化学习的动作空间、状态空间与价值函数。最后，通过迁移强化学习与训练实现微电网群策略的学习。本发明可以充分实现对模型驱动的历史近似均纳什衡解集的充分复用，加速微电网群互动博弈运行策略的学习，显著提高历史数据的利用与强化学习的训练效率。

为达到上述目的，本发明采用的技术方案为：

一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，包括以下步骤：

步骤(1)考虑多主体利益诉求与微电网群互动约束，构建微电网群互动博弈模型，使用交替方向乘子法松弛问题为全局优化问题，求解近似均衡解；

步骤(2)基于近似均衡解，构建近似均衡解驱动的Q-Learning强化学习训练机制；构建微电网群策略强化学习的动作空间，状态空间和价值函数；

步骤(3)基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。

进一步地，所述的步骤(1)的具体步骤如下：

步骤(1-1)针对参与互动博弈的综合能源微电网利益目标，建立互动博弈的利益目标函数：

对于微电网群，构建如下的利益目标函数：

其中，i为综合能源微网序号，C_le,i为综合能源微网微i的负荷经济收益，m_i，n_i，k_i为为综合能源微网微i的负荷收益系数，P_load,i(t)为综合能源微网微i在时刻t的负荷功率，C_ne,i为综合能源微网微i的可再生能源上网收益，c_ps、c_ws分别为光伏和风电的上网电价的价格系数，P_pv-net,i(t)为综合能源微网微i在时刻t的光伏发电与电网交易功率，P_w-net,i(t)为综合能源微网微i在时刻t的风力发电与电网交易功率，△t为时间段长度，C_nc,i为综合能源微网微i的可再生能源运行维护成本，c_po、c_wo分别为光伏和风电机组的运维成本的价格系数，P_pv,i(t)为综合能源微网微i在时刻t的光伏发电功率，P_w,i(t)为综合能源微网微i在时刻t的风力发电功率，C_gc,i为综合能源微网微i的燃机发电成本，a_i，b_i，c_i为综合能源微网i的常规微燃机机组的成本系数，P_Gi,t为综合能源微网微i在时刻t的微燃机出力功率；

步骤(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束，建立互动博弈的约束条件：

0≤P_pv-net,i(t)≤P_pv,i(t) (10)

0≤P_w-net,i(t)≤P_w,i(t) (11)

其中，SOC_i(t)为综合能源微网i在时刻t的储能设备的荷电状态，η_c，η_d分别为储能设备的充电效率与放电效率，分别为储能设备在时刻t的充电功率与放电功率，C_bat为储能设备的最大容量，/>分别为储能设备的充电功率最大值与放电功率最大值，/>分别为储能设备荷电状态的最大值与最大值。

步骤(1-3)引入拉格朗日函数(12)，将求解博弈的纳什均衡问题转化为求解全局最优问题：

其中，为优化目标函数的拉格朗日增广函数，x_i是综合能源微网i的优化变量，这里包括P_load,i(t)、P_pv-net,i(t)、P_w-net,i(t)和P_Gi,t，/>是所有综合能源微网群在第k次迭代时求解得到的解集除去x_i之后的集合，C_i如式(1)所示是综合能源微网i的总经济收益，N是综合能源微网总数，A_i是等式约束的变量前系数，b是等式约束的常数，argmin_xi是求解以x_i变量的函数最优解集，Z_i为变量x_i的辅助变量，满足约束Z_i-x_i＝0，L是以Z_i为变量的/>的对偶函数，T是时间段的最大值，/>为第k次数迭代的拉格朗日乘子，ρ为惩罚系数，和/>分别为第k次迭代时增广拉格朗日的互残差与自残差；

步骤(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解，包括：

1)设置最大迭代次数k_max，收敛精度ξ；初始化迭代次数k，自变量辅助变量/>增广拉格朗日乘子/>和惩罚因子ρ⁰，其中/>

2)对于微电网群主体i，从各微电网群主体接收其期望售给电网的光伏发电功率P_pv-net,i和风电发电功率P_w-net,i，根据优化目标及其约束构建其分布式优化的拉格朗日函数(12)，基于公式(13)依次求解微电网群各优化变量，包括负荷优化功率P_load,i和微燃机出力功率P_G,i；

3)根据公式(14)构建各微电网群主体辅助变量Z_i与辅助变量对应的拉格朗日函数，根据公式(15)更新辅助变量Z_i；

4)根据公式(16)更新拉格朗日乘子根据公式(17)所示更新惩罚系数ρ^k，更新迭代次数k＝k+1；

5)根据公式(18)计算变量的互残差与自残差，判断算法收敛情况，如果满足迭代终止条件的公式(19)，否则返回2)重复计算，直至满足收敛条件或最大迭代次数；

进一步地，所述的步骤(2)的具体步骤如下：

步骤(2-1)基于步骤1建立的理论近似解构建模拟环境，基于构建的模拟环境强化学习对多智能体进行强化学习训练，将步骤1中数学方法计算得到的理论近似均衡解，使用迁移学习的方法构加速训练强化学习模型策略；使用迁移学习方法判断，在满足相似度要求的前提下，将优化方法求解的近似均衡解迁移到强化学习的策略库中，充分利用历史数据与理论方法，加速强化学习求解过程；

步骤(2-2)构建Q-Learning强化学习的动作空间、状态空间与奖励函数：

动作空间是其针对环境变化作出的反应对于微电网群的动作，包括P_load(t)，P_pv-net,i(t)，P_Gi(t)，构建状态空间为新能源出力P_pv,i(t)，P_w,i(t)和储能SOC状态SOC_i(t)，奖励函数为时成本效益的时间累计减去约束越限的惩罚，奖励函数如下：

式中，为t时刻状态s下采取动作a的奖励，C_i(s,a)为式(1)中微网的经济收益，A_eq是动作变量a的等式约束系数，b_eq是等式约束的常数，动作a包含P_load(t)，P_pv-net,i(t)，P_Gi(t)，状态s包含P_pv,i(t)，P_w,i(t)，SOC_i(t)。

进一步地，所述的步骤(3)的具体步骤如下：

步骤(3-1)使用强化学习对综合能源系统进行训练，通过状态动作值函数Q对行为策略进行评价，估计最优策略的状态动作值函数Q的值，智能体的纳什-Q函数形式如下：

式中：s为系统状态；a_i为智能体i的动作；R_i(s,a₁,…,a_n)为智能体在联合动作下的奖励；β为折扣系数，β∈[0,1)，为纳什均衡联合策略；

步骤(3-2)通过迁移学习方法加速强化学习训练过程，迁移学习利用数据或任务之间的相似性，将通过交替方向乘子法获得的纳什均衡近似解的经验应用于新任务的一种学习过程，具体包括：

1)基于步骤(2)中交替方向乘子法求解得到的部分纳什均衡近似解，将其进行聚类筛选后抽样并存入记忆库中；

2)在强化学习的训练过程，采用欧式距离分别对已有近似解与新训练之间的相似度进行评估，相似度评估函数如下所示：

式中，l_Q为状态的相似度评估指标。P_pv,i(t)、P_w,i(t)、SOC_i(t)为已有近似解的解集组成部分，P_p'_v,i(t)、P_w'_,i(t)、SOC_i'(t)为新训练结果的解集组成部分。

3)新任务与源任务之间的动态欧式距离越小，则两者之间越相似；当动态欧式距离小于一定的阀值，即l_Q<δ，则对源任务的最优Q值矩阵进行迁移。

有益效果：

本发明通过交替方向乘子法优化方法，在保护隐私的前提下求解综合能源微网群互动博弈的均纳什衡策略解并形成解集，随后通过迁移学习方法，运用于强化学习策略训练中，可以充分实现对模型驱动的历史近似均纳什衡解集的充分复用，加快微电网群互动博弈运行策略的强化学习过程，提高了历史数据的利用率，提升了强化学习的训练效率。

附图说明

图1为交替方向乘子分布式优化算法求纳什近似均衡解流程图；

图2为近似均衡解驱动的Q-Learning强化学习虚拟环境示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基于纳什Q学习的微电网群互动博弈策略学习进化方法主要包括以下步骤：考虑多主体利益诉求与微电网群互动约束，构建微电网群互动博弈模型，使用交替方向乘子法等数学方法，松弛问题为全局优化问题，求解近似均衡解。；基于近似均衡解，构建近似均衡解驱动的Q-Learning强化学习训练机制；构建微电网群策略强化学习的动作空间，状态空间和价值函数；基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。

本发明提出的一种基于基于纳什Q学习的微电网群互动博弈策略学习进化方法，可以充分利用近似均纳什衡解集，实现微电网群互动运行策略的学习，显著提高历史数据的利用与强化学习的训练效率，具有较好的应用前景。

本发明的基于纳什Q学习的微电网群互动博弈策略学习进化方法具体包括以下步骤：

步骤(1)，考虑多主体利益诉求与微电网群互动约束，构建微电网群互动博弈模型，使用交替方向乘子法等数学方法，松弛问题为全局优化问题求解近似均衡解，具体步骤如下：

(1-1)在微电网群互动博弈消纳可再生能源的过程中，各类型灵活性资源的互补性互动博弈将涉及到多方的利益，需对各相关方的成本效益进行分析，针对参与互动博弈的综合能源微电网利益目标，建立互动博弈的利益目标函数。

对于微电网群，构建如下的利益目标函数：

(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束，建立互动博弈的约束条件：

0≤P_pv-net,i(t)≤P_pv,i(t)(10)

0≤P_w-net,i(t)≤P_w,i(t)(11)

(1-3)引入拉格朗日函数(12)，将求解博弈的纳什均衡问题转化为求解全局最优问题：

其中，为优化目标函数的拉格朗日增广函数，x_i是综合能源微网i的优化变量，这里包括P_load,i(t)、P_pv-net,i(t)、P_w-net,i(t)和P_Gi,t，/>是所有综合能源微网群在第k次迭代时求解得到的解集除去x_i之后的集合，C_i如式(1)所示是综合能源微网i的总经济收益，N是综合能源微网总数，A_i是等式约束的变量前系数，b是等式约束的常数，/>是求解以x_i变量的函数最优解集，Z_i为变量x_i的辅助变量，满足约束Z_i-x_i＝0，L是以Z_i为变量的/>的对偶函数，T是时间段的最大值，/>为第k次数迭代的拉格朗日乘子，ρ为惩罚系数，和/>分别为第k次迭代时增广拉格朗日的互残差与自残差；

(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解，求解流程图如图1所示，详细流程描述如下：

5)根据公式(18)计算变量的互残差与自残差，判断算法收敛情况，如果满足迭代终止条件(19)，否则返回流程2)重复计算，直至满足收敛条件或最大迭代次数；

所述步骤(2)中，基于近似均衡解，构建近似均衡解驱动的Q-Learning强化学习训练机制；构建微电网群策略强化学习的动作空间，状态空间和价值函数。具体步骤如下：

(2-1)基于步骤(1)建立的理论近似解构建模拟环境，基于构建的模拟环境强化学习对多智能体进行强化学习训练，将步骤1中数学方法计算得到的理论近似均衡解，使用迁移学习的方法构建加速训练强化学习模型策略。构建的虚拟环境架构如图2所示，首先构建微电网群互动博弈机理模型，通过步骤(1)中提到的交替方向乘子法求解Nash(纳什)均衡理论近似解。随后构建基于Q-learning的强化学习微电网群互动博弈策略学习虚拟环境，通过强化学习方法，寻找一定探索范围内的最优解，并将解集形成经验库，通过多次探索更新经验库。在此基础上，使用迁移学习方法判断，在满足相似度要求的前提下，将优化方法求解的近似均衡解迁移到强化学习的策略库中，充分利用历史数据与理论方法，加速强化学习求解过程。

(2-2)构建Q-Learning强化学习的动作空间、状态空间与奖励函数。动作空间指的是其针对环境变化作出的反应对于微电网群的动作，包括P_load(t)，P_pv-net,i(t)，P_Gi(t)，构建状态空间为新能源出力P_pv,i(t)，P_w,i(t)和储能SOC状态SOC_i(t)，奖励函数为时成本效益的时间累计减去约束越限的惩罚，奖励函数如下：

所述步骤(3)中，进行强化学习模型训练，求解获取多微电网群互动博弈均衡解，具体流程与步骤如下：

(3-1)使用强化学习对综合能源系统进行训练，通过状态动作值函数Q对行为策略进行评价，估计最优策略的状态动作值函数Q的值，智能体的纳什-Q函数形式如下：

式中：s为系统状态；a_i为智能体i的动作；R_i(s,a₁,…,a_n)为智能体在联合动作下的奖励；β为折扣系数，β∈[0,1)，为纳什均衡联合策略。

(3-2)通过迁移学习方法加速强化学习训练过程。迁移学习利用数据或任务之间的相似性，将通过交替方向乘子法获得的纳什均衡近似解的经验应用于新任务的一种学习过程。具体流程如下：

1)基于步骤(2)中交替方向乘子法求解得到的部分纳什均衡近似解，将其进行聚类筛选后抽样并存入记忆库中。

2)在强化学习的训练过程，采用欧式距离分别对已有近似解与新训练之间的相似度进行评估。相似度评估函数如下所示：

3)新任务与源任务之间的动态欧式距离越小，则两者之间越相似。当动态欧式距离小于一定的阀值(l_Q<δ)，则对源任务的最优Q值矩阵进行迁移。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，其特征在于，包括以下步骤：

步骤（1）考虑多主体利益诉求与微电网群互动约束，构建微电网群互动博弈模型，使用交替方向乘子法松弛问题为全局优化问题，求解近似均衡解，包括：

步骤（1-1）针对参与互动博弈的综合能源微电网利益目标，建立互动博弈的利益目标函数：

对于微电网群，构建如下的利益目标函数：

(1)

(2)

(3)

(4)

(5)

其中，为综合能源微网序号，/>为综合能源微网微/>的负荷经济收益，/>，/>，/>为为综合能源微网微/>的负荷收益系数，/>为综合能源微网微/>在时刻/>的负荷功率，/>为综合能源微网微/>的可再生能源上网收益， />、/>分别为光伏和风电的上网电价的价格系数，/>为综合能源微网微/>在时刻/>的光伏发电与电网交易功率，/>为综合能源微网微/>在时刻/>的风力发电与电网交易功率，/>为时间段长度，/>为综合能源微网微的可再生能源运行维护成本，/>、/>分别为光伏和风电机组的运维成本的价格系数，为综合能源微网微/>在时刻/>的光伏发电功率，/>为综合能源微网微/>在时刻/>的风力发电功率，/>为综合能源微网微/>的燃机发电成本，/>，/>，/>为综合能源微网i的常规微燃机机组的成本系数，/>为综合能源微网微/>在时刻/>的微燃机出力功率；

步骤（1-2）建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束，建立互动博弈的约束条件：

(6)

(7)

(8)

(9)

(10)

(11)

其中，为综合能源微网/>在时刻/>的储能设备的荷电状态，/>，/>分别为储能设备的充电效率与放电效率，/>，/>分别为储能设备在时刻/>的充电功率与放电功率，/>为储能设备的最大容量， />，/>分别为储能设备的充电功率最大值与放电功率最大值，，/>分别为储能设备荷电状态的最大值与最大值；

步骤（1-3）引入拉格朗日函数，将求解博弈的纳什均衡问题转化为求解全局最优问题：

(12)

(13)

(14)

(15)

(16)

(17)

(18)

其中，为优化目标函数的拉格朗日增广函数，/>是综合能源微网/>的优化变量， />是所有综合能源微网群在第k次迭代时求解得到的解集除去/>之后的集合， ( )是综合能源微网/>的总经济收益，/>是综合能源微网总数，/>是等式约束的变量前系数，/>是等式约束的常数，/>是求解以/>变量的函数最优解集， />为变量/>的辅助变量，满足约束/>，/>是以/>为变量的/>的对偶函数，/>是时间段的最大值，/>为第次数迭代的拉格朗日乘子，/>为惩罚系数，/>和/>分别为第k次迭代时增广拉格朗日的互残差与自残差；

步骤（1-4）使用交替方向乘子分布式优化算法求纳什近似均衡解，包括：

1）设置最大迭代次数，收敛精度/>；初始化迭代次数/>，自变量/>，辅助变量，增广拉格朗日乘子/>和惩罚因子/> ，其中/>，/>；

2）对于微电网群主体，从各微电网群主体接收其期望售给电网的光伏发电功率/>和风电发电功率/>，根据优化目标及其约束构建其分布式优化的拉格朗日函数(12)，基于公式(13)依次求解微电网群各优化变量，包括负荷优化功率/>和微燃机出力功率/>；

3）根据公式(14)构建各微电网群主体辅助变量与辅助变量对应的拉格朗日函数，根据公式(15)更新辅助变量/>；

4）根据公式(16)更新拉格朗日乘子，根据公式(17)所示更新惩罚系数/>，更新迭代次数/>；

5）根据公式(18)计算变量的互残差与自残差，判断算法收敛情况，如果满足迭代终止条件的公式(19)，否则返回2）重复计算，直至满足收敛条件或最大迭代次数；

(19)；

步骤（2）基于近似均衡解，构建近似均衡解驱动的Q-Learning强化学习训练机制；构建微电网群策略强化学习的动作空间，状态空间和价值函数；

步骤（3）基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。

2.如权利要求1所述的一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，其特征在于，所述的步骤（2）的具体步骤如下：

步骤（2-1）基于步骤（1）建立的理论近似解构建模拟环境，基于构建的模拟环境强化学习对多智能体进行强化学习训练，将步骤（1）中数学方法计算得到的理论近似均衡解，使用迁移学习的方法构加速训练强化学习模型策略；使用迁移学习方法判断，在满足相似度要求的前提下，将优化方法求解的近似均衡解迁移到强化学习的策略库中，充分利用历史数据与理论方法，加速强化学习求解过程；

步骤（2-2）构建Q-Learning强化学习的动作空间、状态空间与奖励函数：

动作空间是其针对环境变化作出的反应，对于微电网群的动作，包括，/>，/>，构建状态空间/>为新能源出力/>，/>和储能SOC状态/>，奖励函数为时成本效益的时间累计减去约束越限的惩罚，奖励函数如下：

(20)

式中，为/>时刻状态/>下采取动作/>的奖励，/>为式(1)中微网的经济收益，是动作变量/>的等式约束系数，/>是等式约束的常数，动作/>包含/>，/>，，状态/>包含/>，/>，/>。

3.如权利要求2所述的一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，其特征在于，所述的步骤（3）的具体步骤如下：

步骤（3-1）使用强化学习对综合能源系统进行训练，通过状态动作值函数Q对行为策略进行评价，估计最优策略的状态动作值函数Q的值，智能体的纳什-Q函数形式如下：

(21)

式中：s 为系统状态；为智能体 i 的动作； />为智能体在联合动作下的奖励；/>为折扣系数，/>，/>为纳什均衡联合策略；

步骤（3-2）通过迁移学习方法加速强化学习训练过程，迁移学习利用数据或任务之间的相似性，将通过交替方向乘子法获得的纳什均衡近似解的经验应用于新任务的一种学习过程，具体包括：

1）基于步骤（2）中交替方向乘子法求解得到的部分纳什均衡近似解，将其进行聚类筛选后抽样并存入记忆库中；

2）在强化学习的训练过程，采用欧式距离分别对已有近似解与新训练之间的相似度进行评估，相似度评估函数如下所示：

(22)

式中，为状态的相似度评估指标；/>、/>、/>为已有近似解的解集组成部分，/>、/>、/>为新训练结果的解集组成部分；

3）新任务与源任务之间的动态欧式距离越小，则两者之间越相似；当动态欧式距离小于一定的阀值，即，则对源任务的最优 Q 值矩阵进行迁移。