CN114611772B

CN114611772B - 一种基于多智能体强化学习的多微网系统协同优化方法

Info

Publication number: CN114611772B
Application number: CN202210178581.2A
Authority: CN
Inventors: 刘俊峰; 王晓生; 曾君; 卢俊菠
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2024-04-19
Anticipated expiration: 2042-02-24
Also published as: CN114611772A

Abstract

本发明公开了一种基于多智能体强化学习的多微网系统协同优化方法，包括如下三个部分：第一部分，建立微网中各设备的数学模型和多微网协同优化宏观模型；第二部分，采用神经网络来拟合多智能体强化学习算法Nash‑Q中的价值函数，解决了维数灾难问题；第三部分，在离线数据集中训练Nash‑Q学习算法直到收敛，训练完成后的智能体用于在线优化，能快速做出合理的决策。本发明可以实现各个微网的利益均衡；对Nash‑Q学习算法的改进解决了维数灾难问题，适用于复杂环境；方法对模型的依赖程度低，在离线环境中训练完成后，算法可根据当前情况快速做出合理的决策，可以较好地满足多微网协同调度的在线决策要求。

Description

一种基于多智能体强化学习的多微网系统协同优化方法

技术领域

本发明涉及微电网的运行、仿真、分析与调度的技术领域，尤其涉及一种基于多智能体强化学习的多微网系统协同优化方法。

背景技术

随着微电网技术的发展，多个微电网接入同一个配电网区域，构成了多微网系统。充分挖掘多微网间源储荷所具有的时空互补特性，实现多微网系统内能量互补，是目前微网发展的一种新趋势。相较于单微网运行优化，多微网的运行优化更为复杂：其一在于，微网内部能量流动具有多向性、多种能量在不同时间和空间层面有不同调度需求，多微网间的协同面临更多的影响因素及不确定性；其二则是，微网个体的自趋利性导致参与多微网系统协同的前提是最大化自身的利益，需兼顾个体与集群的效益。

从已有的研究来看，对于多微网系统的能量管理，传统多采用集中式优化，从整体的角度建立多微网系统的优化经济调度模型(徐青山，李淋，蔡霁霖，等.考虑电能交互的冷热电多微网系统日前优化经济调度[J].电力系统自动化，2018，42(21)：36-44.)。这忽视了微网个体的主动性，难以契合微网乃至智能电网未来的发展趋势。有研究将博弈论引入多微网系统的运行优化中，(吴福保，刘晓峰，孙谊媊，等.基于冷热电联供的多园区博弈优化策略[J].电力系统自动化，2018，42(13)：68-75.)以各园区日运转成本最小为目标，建立基于冷热电联供系统的多园区非合作博弈优化模型，实现了园区多能流互补协同优化，这充分体现了微网个体的自利性和智能性，与多微网系统分布式的特点相符合。在多主体博弈的框架下，通过求解博弈的纳什均衡来协调各微网的利益，是多微网系统协同优化的有效途径。但是，多微网系统具有的高维度、不确定性及多能流耦合等特点，导致多微网系统博弈模型的纳什均衡求解十分困难。目前，纳什均衡的一般求解方法是采用迭代搜索法，针对每个智能体的策略优化采用经典优化算法,如牛顿法(陈刚，杨毅，杨晓梅，等.基于分布式牛顿法的微电网群分布式优化调度方法[J].电力系统自动化，2017，41(21)：156-162.)或者启发式算法，如粒子群算法(吴定会，高聪，纪志成.混合粒子群算法在微电网经济优化运行的应用[J].控制理论与应用，2018，35(04)：457-467.)。从这些研究来看，经典优化算法对模型依赖性高，建模受到了限制；启发式算法虽然对模型依赖程度低，但都是基于简单生物群体行为，不具有学习记忆能力，泛化学习能力不足并且计算耗时长。随着人工智能技术的发展，作为人工智能重要分支之一的强化学习也广泛受到电力研究者的关注。在多利益主体环境下，常常采用多智能体强化学习算法Nash-Q来求解智能体的最优策略，(刘洪，李吉峰，葛少云，等.基于多主体博弈与强化学习的并网型综合能源微网协调调度[J].电力系统自动化，2019，43(01)：40-48.)以多智能体间利益均衡为目标建立了并网型综合微能源网的联合博弈决策模型，并采用Nash-Q学习算法求解博弈的Nash均衡。但是Nash-Q学习算法在面对复杂环境时会遇到策略集的维数灾难问题，难以直接使用。

发明内容

本发明的目的在于克服现有技术的缺点和不足，提出了一种基于多智能体强化学习的多微网系统协同优化方法，基于博弈论建立多微网系统的协同优化模型，实现各个微网的利益均衡，充分体现了微网个体的自主性和智能性。针对该模型纳什均衡求解困难的问题，提出一种改进的Nash-Q学习算法，该算法使用神经网络来拟合价值函数，解决了Nash-Q学习算法直接应用于复杂环境时遇到的维数灾难问题，并且训练完成后的强化学习算法能根据当前情况快速做出合理的决策，满足在线优化的要求。

为了实现上述目的，本发明提供的一种基于多智能体强化学习的多微网系统协同优化方法，包括以下步骤：

分别建立微网中各设备的数学模型，这些模型用于描述各设备的工作原理；

建立多微网协同优化宏观模型来描述微网之间的博弈关系，包括构建微网的目标函数以及多微网系统运行的约束条件；

采用改进的Nash-Q学习算法来求解纳什均衡，其中，Nash-Q学习算法的改进包括：采用深度神经网络来拟合Nash-Q学习算法中的价值函数，离线训练时从存储在经验池中的多个微网与环境交互得到的状态转移样本中随机抽取样本进行训练，且建立用于评估当前状态动作对的价值函数的当前值网络和用于评估目标状态动作对价值函数目标值网络，在离线训练时只更新当前值网络的参数，目标值网络参数保持不变，但每隔预设次数迭代后将各个微网的当前值网络参数复制给相应的目标值网络；

将当前时刻的状态信息输入到当前值网络即可得到纳什Q值，再通过迭代搜索法即可得到纳什均衡动作。

进一步地，微网内部存在冷、热、电三种用户负荷，其设备包括燃气轮机、余热回收锅炉、燃气锅炉、换热装置、电制冷机、蓄电池、风机和光伏电池。

进一步地，对于单个微网，它的优化目标是最小化优化周期的运行成本，而运行成本表达式如下：

式中：T为一天划分的时段数；C_i为微网i的日运行成本，C_OM,i(t)为t时段微网i的设备运行维护成本、C_NG,i(t)为t时段微网i的购买天然气成本、C_MG,i(t)为t时段微网i与其它微网的交互成本、C_g,i(t)为t时段微网i与电网的交互成本；

且在纳什均衡处，微网i运行成本满足：

式中：a_i表示微网i的策略，分别表示微网i的纳什均衡策略以及除微网i外其他微网的纳什均衡策略组合。

进一步地，多微网系统运行的约束条件包括各设备的局部约束、微网内部的冷热电能量平衡约束和微网之间的电能交互量平衡约束。

进一步地，微网内部的冷热电能量平衡约束包括电力总线能量平衡约束、热力总线能量平衡约束和冷却总线能量平衡约束，其中：

电力总线能量平衡约束为：

热力总线能量平衡约束为：

Q_GB,i(t)+Q_HX,i(t)＝L_h,i(t)

冷却总线能量平衡约束为：

P_EC,i(t)η_EC＝L_c,i(t)

式中：P_GT,i(t)为t时段微网i的燃气轮机的发电功率，P_B,i(t)为t时段微网i的蓄电池的功率，P_g,i(t)为微网i与电网的交互电功率，正值表示购电，负值表示售电，P_PV,i(t)为t时段微网i的光伏发电功率，P_WT,i(t)为t时段微网i的风机发电功率，L_e,i(t)为t时段微网i的电负荷，P_EC,i(t)为t时段微网i的电制冷机消耗的电功率，Q_GB,i(t)为t时段微网i的燃气锅炉的输出热功率，Q_HX,i(t)为t时段微网i的换热装置的输出热功率，P_ij(t)为t时段微网i与微网j的实际交互电功率，正值表示购电，负值表示售电，η_EC为电制冷机的性能系数，L_h,i(t)为t时段微网i的热负荷，L_c,i(t)为t时段微网i的冷负荷。

进一步地，微网之间的电能交互量平衡约束是指微网之间的实际交互电功率需要满足平衡约束，即

P_ij＝-P_ji

式中，P_ij为t时段微网i与微网j的实际交互电功率；P_ji为t时段微网j与微网i的实际交互电功率；

为了满足该约束，采用下式来决定实际交互电功率：

式中：P_x,max是微网间最大交互电功率；T_ij表示微网i对微网j的交易策略，T_ji表示微网j对微网i的交易策略，正值表示购电，负值表示售电。

进一步地，改进的Nash-Q学习算法离线训练的步骤包括：

Step1:初始化当前值网络的参数，同时将这些参数复制给目标值网络；建立经验池D；

Step2:开始一个新的训练回合，获取环境的初始状态数据，作为当前状态s；

Step3:采用ε-greedy策略选择动作，智能体有ε概率随机选择一个动作，有1-ε概率选择纳什均衡策略，纳什均衡策略要用到当前值网络来评估当前状态动作对的价值函数，将当前状态动作对输入到当前值网络，输出就是该状态动作对的价值函数，并采用迭代搜索法求解；

Step4:跳转到下一个状态，观察各个微网智能体的奖励以及在上一个状态各个微网智能体采取的动作，并将微网智能体的立即奖励定义为成本的负值；

Step5:将状态转换存入经验池D；

Step6:从经验池D随机抽取一批状态转换，计算出误差函数，并更新当前值网络的参数，且每隔预设次数训练之后将每个微网智能体的当前值网络参数复制给对应的目标值网络；

Step7:判断当前状态是否为终止状态，如果不是则返回Step3；否则记录当前回合每个微网的运行成本，如果算法已经收敛，则训练结束，输出每个微网智能体当前值网络的参数，否则回到步骤Step2。

进一步地，状态包括每个微网的风机和光伏出力、电负荷、热负荷、冷负荷、微网间购售电价、微网与电网的购售电价、蓄电池的荷电状态。

进一步地，Step3中采用迭代搜索法求解，包括：将当前状态和可以选择的动作输入到当前值网络，得到Q值，选择Q值最大的一个动作，依次类推，其他微网智能体也做相应的操作，不断迭代直到各个微网智能体的动作不变。

进一步地，Step6中所述误差函数为：

L_i＝[y_i-Q_i(s,a₁,…,a_n,θ)]²

式中，L_i为误差函数；y_i为目标Q值；Q_i(s,a₁,…,a_n,θ)为智能体i状态动作对(s,a₁,···,a_n)的当前Q值；(a ₁,···,a_n)分别为微网1到微网n的动作；θ为当前值网络的参数；θ′为目标值网络的参数；r_i为微网i智能体的奖励；γ为衰减系数；NashQ_i(s′,θ′)为状态s'下根据目标值网络计算出的微网智能体i的Nash-Q值，其含义为从状态s'开始所有智能体全部采取Nash均衡策略情况下智能体i的累积回报。

本发明与现有技术相比，至少具备以下有益效果：

1)基于博弈论的多微网优化架构以及分布式求解方法，充分体现了微网个体的分布性、自主性和自趋利性，同时保证了微网集群的利益最大化。

2)本发明改进的Nash-Q学习算法解决了Nash-Q学习算法直接用于复杂环境时遇到的维数灾难问题，在多微网系统协同优化模型的纳什均衡求解问题上表现出了优越的特性。

3)本发明对模型的依赖程度低，在离线环境中对大量历史信息进行经验学习之后，在线优化阶段仅需少量时间即可根据当前情况做出比较合理的决策，可以很好地满足多微网协同调度的在线决策要求。

附图说明

图1为微网结构示意图。

图2为改进Nash-Q学习算法示意图。

图3为基于多智能体强化学习的多微网系统协同优化方法流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

参见图1、图2和图3，本发明提供的一种基于多智能体强化学习的多微网系统协同优化方法，包括以下步骤：

步骤1：微网个体微观建模：分别建立微网中各设备的数学模型，各数学模型用于描述各设备的工作原理。

一个微网称为一个微网智能体，微网内部存在冷、热、电三种用户负荷，包括多种类型的设备，如有供能设备、能量转换设备、储能设备，具体地，在本发明的其中一些实施例中，微网内的主要设备包括燃气轮机、余热回收锅炉、燃气锅炉、换热装置、电制冷机、蓄电池、风机和光伏电池。燃气轮机通过燃烧天然气来发电，同时产生的废热由余热回收锅炉收集起来，再通过换热装置供给热负荷，不足的热负荷需求由燃气锅炉供给；冷负荷功率由电制冷机提供；蓄电池用来存储电能，并在合适的时段放电，以缓解可再生能源和负荷波动带来的影响。微网中分布式可再生电源为风力发电和光伏发电，并按照最大预测功率满电。

根据设备的工作原理分别建立设备的数学模型，具体如下：

1)燃气轮机

燃气轮机是微网的核心设备，通过燃烧天然气，将天然气中的化学能转化为电能和热能。燃气轮机的发电功率为

P_GT(t)＝V_GT(t)L_NGη_GT

式中：P_GT(t)为t时段燃气轮机的发电功率；V_GT(t)为t时段燃气轮机的单位时间天然气消耗量；L_NG为燃气热值；η_GT为燃气轮机的发电效率。

燃气轮机的发电功率满足约束条件：

P_GT,min≤P_GT(t)≤P_GT,max

式中：P_GT,max、P_GT,min分别为燃气轮机发电功率的上下限值。

燃气轮机除了将化学能转化为电能外，还会产生具有大量热量的烟气，其输出热功率为：

Q_GT(t)＝V_GT(t)L_NG(1-η_GT-η_GT,l)

式中：Q_GT(t)为t时段燃气轮机的输出热功率；η_GT,l为燃气轮机的热损失系数。

燃气轮机输出热功率的约束为：

Q_GT,min≤Q_GT(t)≤Q_GT,max

式中：Q_GT,max、Q_GT,min分别为燃气轮机输出热功率的上下限值。

2)余热回收锅炉

余热回收锅炉收集来自燃气轮机的高温烟气,再通过换热装置来供给热负荷。它的输出热功率与输入热功率、余热回收锅炉换热效率有关：

Q_HR(t)＝Q_HR,in(t)η_HR

式中：Q_HR(t)为t时段余热回收锅炉的输出热功率；Q_HR,in(t)为t时段余热回收锅炉的输入热功率；η_HR为余热回收锅炉的换热效率。

余热回收锅炉的输出热功率满足约束：

Q_HR,min≤Q_HR(t)≤Q_HR,max

式中：Q_HR,max、Q_HR,min分别为余热回收锅炉输出热功率的上下限。

3)燃气锅炉

燃气锅炉通过燃烧天然气将化学能转化为热能，是微网中产生大量热能的设备，其输出热功率为：

Q_GB(t)＝V_GB(t)L_NGη_GB

式中：Q_GB(t)为t时段燃气锅炉的输出热功率；V_GB(t)为t时段燃气锅炉的单位时间天然气消耗量；η_GB为燃气锅炉的效率。

燃气锅炉输出热功率满足约束条件：

Q_GB,min≤Q_GB(t)≤Q_GB,max

式中：Q_GB,max、Q_GB,min分别为燃气锅炉输出热功率的上下限值。

4)换热装置

换热装置将余热回收锅炉输出的热能进行转换后供给微网的热负荷需求。换热装置的输出热功率为

Q_HX(t)＝Q_HR(t)η_HX

式中：Q_HX(t)为t时段换热装置的输出热功率；η_HX为换热装置的换热效率。

换热装置输出热功率满足约束条件：

Q_HX,min≤Q_HX(t)≤Q_HX,max

式中：Q_HX,max、Q_HX,min分别为换热装置输出热功率的上下限值。

5)电制冷机

电制冷机通过消耗电能制冷提供冷功率给微网。电制冷机的制冷功率为

Q_EC(t)＝P_EC(t)η_EC

式中：Q_EC(t)为t时段电制冷机的制冷功率；P_EC(t)为t时段电制冷机消耗的电功率；η_EC为电制冷机的性能系数。

电制冷机的制冷功率满足约束条件：

Q_EC,min≤Q_EC(t)≤Q_EC,max

式中：Q_EC,max、Q_EC,min分别为电制冷机制冷功率的上下限值。

6)电储能

电储能是微网的重要组成部分，能够起到抑制风、光等可再生能源以及负荷预测波动的作用，在可再生能源充足时储存电能，不足时释放电能，一定程度上能缓解微网可再生能源和负荷不确定性带来的影响。微网中典型的电储能设备是蓄电池，本发明介绍蓄电池的数学模型。蓄电池的荷电状态与上一时段的荷电状态以及蓄电池的充放电功率有关，满足以下差分方程：

式中：SOC(t)为第t个时段结束时的蓄电池荷电状态；P_B(t)为t时段蓄电池的功率，P_B(t)>0表示放电，P_B(t)<0表示充电；η_BC、η_BD分别为蓄电池的充、放电效率；W_B为蓄电池的额定容量；Δt为时间步长。

为了尽量延长蓄电池的使用寿命，规定蓄电池储能约束如下：

SOC_min≤SOC(t)≤SOC_max

式中：SOC_max、SOC_min分别为蓄电池的最大、最小荷电状态。

通常规定蓄电池单位时间(1小时)内充放电量不超过额定容量的20％，有

-20％W_B/η_BC≤P_B(t)Δt≤20％W_Bη_BD

综上，蓄电池的充放电功率约束为：

P_B,min(t)≤P_B(t)≤P_B,max(t)

式中，P_B,max(t)、P_B,min(t)分别为t时段蓄电池功率的上下限值。

步骤2：多微网系统内的每个微网都是自利的个体，它们的目的是为了最大化自身的利益，因此在多微网系统协同优化中它们构成了非合作博弈关系。建立模型来描述该博弈关系，该模型称为多微网协同优化宏观模型，对于单个微网，它的优化目标是最小化优化周期即一天内的运行成本，而运行成本包括设备运行维护成本、购买天然气成本、与其它微网的交互成本、与电网的交互成本。

运行成本即微网i的目标函数为：

式中：T为一天划分的时段数，在本发明的其中一些实施例中取值24；C_i为微网i的日运行成本，C_OM,i(t)为t时段微网i的设备运行维护成本，C_NG,i(t)为t时段微网i的购买天然气成本，C_MG,i(t)为t时段微网i与其它微网的交互成本，C_g,i(t)为t时段微网i与电网的交互成本。

1)设备的运行维护成本：

C_OM,i(t)＝k_GTP_GT,i(t)+k_GBQ_GB,i(t)+k_HRQ_HR,i(t)+k_HXQ_HX,i(t)+k_ECP_EC,i(t)+k_PVP_PV,i(t)+k_WTP_WT,i(t)+k_B|P_B,i(t)|

式中：k_GT、k_GB、k_HR、k_HX、k_EC、k_PV、k_WT、k_B分别为燃气轮机、燃气锅炉、余热回收装置、换热装置、电制冷机、风机、光伏、蓄电池的单位功率运行维护成本；P_GT,i(t)为t时段微网i的燃气轮机的发电功率，Q_GB,i(t)为t时段微网i的燃气锅炉的输出热功率，Q_HR,i(t)为t时段微网i的余热回收锅炉的输出热功率，Q_HX,i(t)为t时段微网i的换热装置的输出热功率，P_EC,i(t)为t时段微网i的电制冷机消耗的电功率、P_PV,i(t)为t时段微网i的光伏发电功率，P_WT,i(t)为t时段微网i的风机发电功率，P_B,i(t)为t时段微网i的蓄电池的功率。

2)购买天然气成本：

式中：c_NG为天然气的单价。

3)微网i与其他微网的交互成本：

式中：ρ(t)为t时段微网间的购售电价，规定购电电价等于售电电价；P_ij(t)为t时段微网i与微网j的实际交互电功率，正值表示购电，负值表示售电。

4)微网i与电网的交互成本：

C_g,i(t)＝ρ_g(t)P_g,i(t)

式中：P_g,i(t)为微网i与电网的交互电功率，正值表示购电，负值表示售电；ρ_b(t)、ρ_s(t)分别为t时段微网与电网的购售电价。

微网i的日运行成本除了与自身的策略有关，还受其他微网的策略影响，微网之间存在利益关联，决策变量相互影响，构成了博弈关系。各微网在连续的时间内持续博弈，最终达到纳什均衡。在纳什均衡处，微网i运行成本满足：

式中：a_i表示微网i的策略，分别表示微网i的纳什均衡策略以及除微网i外其他微网的纳什均衡策略组合，该式描述了纳什均衡的性质：当一场博弈到达纳什均衡状态时，各个微网都不能单方面改变其策略而降低自己的成本。

2、约束条件

多微网系统运行的约束条件包括各设备的局部约束、微网内部的冷热电能量平衡约束、微网之间的电能交互量平衡约束。各个设备的局部约束在微网内部设备建模部分已经给出，微网内部各总线能量平衡约束如下：

1)电力总线能量平衡约束：

式中：L_e,i(t)为t时段微网i的电负荷。

2)热力总线能量平衡约束：

Q_GB,i(t)+Q_HX,i(t)＝L_h,i(t)

式中：L_h,i(t)为t时段微网i的热负荷。

3)冷却总线能量平衡约束：

P_EC,i(t)η_EC＝L_c,i(t)

式中：L_c,i(t)为t时段微网i的冷负荷。

为了与其他微网进行电能交互，微网i需要制定交易策略。微网之间的实际交互电功率需要满足平衡约束，即

P_ij＝-P_ji

式中，P_ij为t时段微网i与微网j的实际交互电功率；P_ji为t时段微网j与微网i的实际交互电功率。

为了满足该约束，采用下式来决定实际交互电功率：

步骤3：多微网强化学习Nash-Q训练

Nash-Q学习在复杂环境中会遇到维数灾难问题，Q表非常巨大，难以应用。针对多微网协同优化宏观模型的纳什均衡求解困难的问题，本发明提出了一种改进的Nash-Q学习算法，用于求解纳什均衡。本发明采用深度神经网络来拟合Nash-Q学习算法中的价值函数，实现了用有限参数的神经网络来替代巨大Q表的效果，解决了维数灾难问题。另外，为了提升算法的表现，训练过程中采用经验回放机制和参数冻结机制等价值学习的高级技巧。改进Nash-Q学习算法中经验回放机制的具体做法是把多个智能体与环境交互得到的状态转移样本(s,a₁,···,a_n,r₁,···,r_n,s')存储到经验池，要训练的时候再从经验池里随机取出一批样本来训练，达到降低样本之间的相关性以及提高样本利用率的目的；参数冻结机制则是为每个智能体建立两个结构相同的网络，其中一个称为当前值网络，用来评估当前状态动作对的价值函数；另一个称为目标值网络，用来评估目标状态动作对价值函数。在训练时只更新当前值网络的参数，目标值网络参数保持不变，每隔若干次迭代再将各个智能体的当前值网络参数复制给相应的目标值网络。

强化学习算法通过对大量历史数据进行离线学习，能够适应微网系统中可再生能源和负荷的随机性，训练过程中，智能体的经验越来越丰富，算法的决策能力不断提高。离线训练完成后，可以将智能体投入到在线优化任务中，智能体可以根据当前情况快速做出合理的决策，满足在线优化的要求。

具体地，请参阅图3，Nash-Q学习算法的离线训练所需基本步骤包括：

Step1:分别为多微网系统中的每个微网智能体建立两个结构相同的神经网络，一个是当前值网络，一个是目标值网络，并随机初始化当前值网络的参数(网络的神经元的权重)，同时将这些参数复制给目标值网络；建立一个大小合适的经验池D，用于存储与环境交互的记忆。

当前值网络和目标值网络的神经网络类型、结构均一样，在本发明的其中一些实施例中，当前值网络和目标值网络均为全连接网络。

Step2:获取环境的初始状态数据，作为当前状态s，在本发明的其中一些实施例中，状态包括每个微网的风机和光伏出力、电负荷、热负荷、冷负荷、微网间购售电价、微网与电网的购售电价、蓄电池的荷电状态。

Step3:根据当前时刻的蓄电池的荷电状态计算出蓄电池可行的动作范围。微网智能体的动作空间包括燃气轮机出力、燃气锅炉出力、余热回收锅炉热功率、换热装置热功率、电制冷机功率、蓄电池出力、与其他微网的交易策略、与电网的交互电功率，如下式：

A_i＝[P_GT,i(t),Q_GB,i(t),Q_HR,i(t),Q_HX,i(t),P_EC,i(t),P_B,i(t),T_i(t),P_g,i(t)]

将动作进行离散化。智能体采用ε-greedy策略选择动作a，有ε概率随机选择一个动作，有1-ε概率选择纳什均衡策略。采用迭代搜索法来求解当前的纳什均衡策略，具体做法：对于某个微网智能体，将当前状态和它可以选择的动作(此处的动作指的是微网的燃气轮机出力、燃气锅炉出力、余热回收锅炉热功率、换热装置热功率、电制冷机功率、蓄电池出力、与其他微网的交易策略、与电网的交互电功率)输入到当前值网络，得到Q值(即状态动作对的价值函数)，选择Q值最大的一个动作，依次类推，其他微网智能体也做相应的操作，不断迭代直到各个微网智能体的动作不变。

微网智能体的动作策略包括供能设备和储能设备的出力、与其他微网的交易策略、与电网的交互电功率。由于Nash-Q学习算法无法处理连续动作，因此需要采取合适的粒度离散化动作空间。

Step4:跳转到下一个状态(“状态”指环境提供给微网智能体的环境信息)，获取环境提供给微网智能体的环境信息，具体包括光伏和风机的出力、冷热电负荷大小，观察各个微网智能体的奖励以及在上一个状态各个微网智能体采取的动作，微网智能体的目标是使自身的日运行成本最小，而强化学习的目标是使累计回报最大，因此将微网智能体的立即奖励定义为成本的负值。

在本发明的其中一些实施例中，各个微网执行动作，计算当前时刻各个微网的运行成本，将成本的负值作为奖励r。计算下一个时刻蓄电池的荷电状态，获取下一时刻的其他环境状态数据，得到下一个状态s’。

Step5:将状态转移(s,a₁,···,a_n,r₁,···,r_n,s')存储到经验池中；

Step6:从经验池中随机抽取一批样本，根据下式计算误差函数，通过优化器更新当前值网络的参数，且每隔若干次训练之后将各个微网智能体的当前值网络参数复制给对应的目标值网络；

L_i＝[y_i-Q_i(s,a₁,…,a_n,θ)]²

Step7:将下一时刻状态数据作为当前状态s，如果到达一个训练回合(“回合”指的是一次训练从开始到结束整个过程，本发明实施例要解决的多微网系统优化问题的时间尺度是一天，因此定义一个训练回合的长度为一天)的最后时刻，则判断算法是否收敛，如果各个微网的日运行成本都已经收敛(日运行成本指的是在一个回合中微网的运行成本)，则算法收敛，训练完成，将各个微网智能体的当前值网络参数保存下来，否则返回Step2；如果还没到一个训练回合的最后时刻，则返回Step3。

步骤4：多微网系统调度在线优化。

离线训练完成的智能体具备合理的决策能力，可以直接用于多微网系统协同调度的在线优化，在线优化阶段不需要再对神经网络进行训练。获取当前的环境状态信息，将其输入微网智能体的当前值网络，通过迭代搜索法来获取纳什均衡策略，该策略就是微网的决策。

本发明实施例基于博弈论建立多微网系统的协同优化模型，实现各个微网的利益均衡，充分体现了微网个体的分布性、自主性和自趋利性，同时保证了微网集群的利益最大化；对Nash-Q学习算法的改进解决了维数灾难问题，适用于复杂环境；本方法对模型的依赖程度低，在离线环境中训练完成后，算法可根据当前情况快速做出合理的决策，可以很好地满足多微网协同调度的在线决策要求。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于多智能体强化学习的多微网系统协同优化方法，其特征在于，包括以下步骤：

将当前时刻的状态信息输入到当前值网络即可得到纳什Q值，再通过迭代搜索法即可得到纳什均衡动作；

对于单个微网，它的优化目标是最小化优化周期的运行成本，而运行成本表达式如下：

且在纳什均衡处，微网i运行成本满足：

式中：a_i表示微网i的策略，分别表示微网i的纳什均衡策略以及除微网i外其他微网的纳什均衡策略组合；

多微网系统运行的约束条件包括各设备的局部约束、微网内部的冷热电能量平衡约束和微网之间的电能交互量平衡约束；

微网内部的冷热电能量平衡约束包括电力总线能量平衡约束、热力总线能量平衡约束和冷却总线能量平衡约束，其中：

电力总线能量平衡约束为：

热力总线能量平衡约束为：

Q_GB,i(t)+Q_HX,i(t)＝L_h,i(t)

冷却总线能量平衡约束为：

P_EC,i(t)η_EC＝L_c,i(t)

式中：P_GT,i(t)为t时段微网i的燃气轮机的发电功率，P_B,i(t)为t时段微网i的蓄电池的功率，P_g,i(t)为微网i与电网的交互电功率，正值表示购电，负值表示售电，P_PV,i(t)为t时段微网i的光伏发电功率，P_WT,i(t)为t时段微网i的风机发电功率，L_e,i(t)为t时段微网i的电负荷，P_EC,i(t)为t时段微网i的电制冷机消耗的电功率，Q_GB,i(t)为t时段微网i的燃气锅炉的输出热功率，Q_HX,i(t)为t时段微网i的换热装置的输出热功率，P_ij(t)为t时段微网i与微网j的实际交互电功率，正值表示购电，负值表示售电，η_EC为电制冷机的性能系数，L_h,i(t)为t时段微网i的热负荷，L_c,i(t)为t时段微网i的冷负荷；

微网之间的电能交互量平衡约束是指微网之间的实际交互电功率需要满足平衡约束，即

P_ij＝-P_ji

为了满足该约束，采用下式来决定实际交互电功率：

式中：P_x,max是微网间最大交互电功率；T_ij表示微网i对微网j的交易策略，T_ji表示微网j对微网i的交易策略，正值表示购电，负值表示售电；

改进的Nash-Q学习算法离线训练的步骤包括：

Step5:将状态转换存入经验池D；

Step7:判断当前状态是否为终止状态，如果不是则返回Step3；否则记录当前回合每个微网的运行成本，如果算法已经收敛，则训练结束，输出每个微网智能体当前值网络的参数，否则回到步骤Step2；

Step6中所述误差函数为：

L_i＝[y_i-Q_i(s,a₁,…,a_n,θ)]²

式中，L_i为误差函数；y_i为目标Q值；Q_i(s,a₁,…,a_n,θ)为微网i状态动作对(s,a₁,···,a_n)的当前Q值；(a₁,···,a_n)分别为微网1到微网n的动作；θ为当前值网络的参数；θ′为目标值网络的参数；r_i为微网i的奖励；γ为衰减系数；NashQ_i(s′,θ′)为状态s'下根据目标值网络计算出的微网i的Nash-Q值，其含义为从状态s'开始所有智能体全部采取Nash均衡策略情况下微网i的累积回报。

2.根据权利要求1所述的一种基于多智能体强化学习的多微网系统协同优化方法，其特征在于，微网内部存在冷、热、电三种用户负荷，其设备包括燃气轮机、余热回收锅炉、燃气锅炉、换热装置、电制冷机、蓄电池、风机和光伏电池。

3.根据权利要求1所述的一种基于多智能体强化学习的多微网系统协同优化方法，其特征在于，状态包括每个微网的风机和光伏出力、电负荷、热负荷、冷负荷、微网间购售电价、微网与电网的购售电价、蓄电池的荷电状态。

4.根据权利要求1所述的一种基于多智能体强化学习的多微网系统协同优化方法，其特征在于，Step3中采用迭代搜索法求解，包括：将当前状态和可以选择的动作输入到当前值网络，得到Q值，选择Q值最大的一个动作，依次类推，其他微网智能体也做相应的操作，不断迭代直到各个微网智能体的动作不变。