CN117650553A

CN117650553A - 基于多智能体深度强化学习的5g基站储能电池充放电调度方法

Info

Publication number: CN117650553A
Application number: CN202311390904.5A
Authority: CN
Inventors: 王文辉; 杨晓春; 熊思源; 郭正伟; 刘艺洪; 陈实
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-03-05

Abstract

本发明提供一种基于多智能体深度强化学习的5G通信基站储能电池充放电调度方法。该以最小化配电网运行成本(计及碳排放成本)为目标，针对配电网状态信息复杂、难以建立精确数学模型、低感知度的特性和5G通信基站数目繁多的问题，将配电网划分成多个电气子区域，利用MATD3多智能体算法使各智能体独立学习配电网各电气子区域下的5G通信基站储能充放电策略，各智能体仅需采集其所属电气子区域的电气信息和基站信息即可完成合理调度，而不必采集系统全部信息，也不必实现各部位的通信；而且，该方法能够在满足5G通信基站平稳运行的前提下，通过控制储能的充放电过程优化电力系统的低碳经济调度，提高可再生能源利用率，实现低碳减排。

Description

基于多智能体深度强化学习的5G基站储能电池充放电调度方法

技术领域

本发明涉及电力调度技术领域，特别涉及一种基于多智能体深度强化学习的5G基站储能电池充放电调度方法。

背景技术

在共享经济，提高能源利用效率，减少电力系统的碳排放量，已成为电力系统建设的时代命题。而实现电力系统的碳减排，根本手段是能源替代——通过大规模的可再生能源替代煤炭等化石能源进行发电以有效减少碳排放。

利用储能系统，可极大地提升电力系统的调度性能。随着5G基站渗透率迅速提高，基站群的储能电池容量不可小觑，同时，5G基站内部储能锂电池具有响应速度快、接入系统的时间长等特点，具有进行灵活调度的巨大潜力，此外考虑到基站备用储能的不可移动性、闲置时间长，故将5G通信基站作为储能机构，不仅能够降低储能系统的建造成本，而且对提高能源利用效率、减少碳排放、降低宏观上电力系统传输线路两侧的压降(大规模基站接入电网使节点增多，相当于降低了电阻，从而降低功耗)，提高电力质量颇有益处。

不过，对于大规模通信基站的储能电池接入电力系统，仍面临以下技术问题：

1、鉴于配电网的低感知度特性，作为调度主体的电力系统无法同时对所有对象进行感知并发布调度策略。接入电网的各节点相互独立，从属于不同单位，无法站在总主体者的位置对其进行采样，而采样信息收集得不全，导致无法对系统进行准确稳定的数学建模(只能采集到部分观测数据，少量偏差就会对模型的准确性和稳定性造成影响)。

2、存在多个利益主体，包括配电网、不同的通信运营商等，不同的基站面临不同的利益主体，导致不能将基站群当成对单个基站的简单复制累加。

发明内容

基于大规模通信基站的储能电池接入电力系统所面临的技术问题，本发明提供一种基于多智能体深度强化学习的5G基站储能电池充放电调度方法；该方法以最小化配电网运行成本为目标，并使用MATD3多智能体算法，利用各智能体独立学习配电网各电气子区域下的5G通信基站储能机构充放电策略，各智能体仅需采集其所属电气子区域的电气信息和基站信息即可完成合理调度，而不必采集系统全部信息，也不必实现各部位的通信；而且，该方法能够在满足5G通信基站平稳运行的前提下，通过控制储能的充放电过程优化电力系统的低碳经济调度，提高可再生能源利用率，实现低碳减排。

本发明提供的基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其包括以下步骤：

S1：将配电网系统划分d个电气子区域，利用智能体A₁、A₂、…、A_d分别观测各自所属电气子区域的状态信息；

S2：每经过一个决策周期，智能体A_i获取电气子区域i在当前时刻t对应的状态信息s_t,i＝{g_t,i,e_t,i,t}，g_t,i代表智能体A_i在当前时刻t可获取的电力系统的局部基本信息；e_t,i代表智能体A_i在当前时刻t可获取的部分5G基站的信息；

S3：将获取的智能体A_i对应的状态信息s_t,i＝{g_t,i,e_t,i,t}输入至训练完成的多智能体调度模型，并输出相应的调度策略；其中，所述多智能体调度模型被配置为以最小化电力系统运行成本为目标，并基于MATD3算法训练各个的智能体A_i；

S4：根据所述调度策略，执行相应的控制动作，以控制各个5G基站储能电池的充放电动作。

根据一种可能的实施方式，以最小化电力系统运行成本为目标，其目标函数被配置为：

其中，F为电力系统运行成本；F_Gi为第i台发电机的发电成本；F_Bj为第j台基站的调度运行成本；F_C为系统的碳排放成本；P_i为用于约束智能体输出的惩罚项，为基站i动作的辅助向量、/>为当前策略下智能体控制基站i的动作向量；(a_gi,b_gi,c_gi)分别代表第i台火电机组发电成本的二次、一次和常数项系数，其可通过对发电机在不同功率水平下的运行成本进行统计求得；p_gi代表第i台火电机组的发电功率；(a_ci,b_ci,c_ci)分别代表第i台火电机组在不同功率水平下的煤耗量的二次、一次和常数项系数；/>代表第i台火电机组的发电功率关于其自身的百分比；α代表基站储能电池的折旧成本系数；β代表基站储能电池的调节成本系数；p_bj代表第j台基站的储能电池的运行功率；Δp_bj代表第j台基站的储能电池的功率变化值；p_c代表碳交易价格；η代表碳排放因子。

根据一种可能的实施方式所述状态信息s_t,i＝{g_t,i,e_t,i,t}中，其中，/> 分别代表智能体A_i所属电气子区域i节点的电压幅值、有功功率以及无功功率值；/>代表智能体A_i所属电气子区域i中的风电机组出力；{V_l ⁱ(t)}_l＝1,...,e代表智能体A_i所属电气子区域i中的光伏机组出力；e_t,i＝{e_sys,e_soc,e_cap,α,β,e_ch,e_dis,e_load,e_w,ξ}；其中；e_sys代表维持5G基站正常运行所必要的设备的功率数据；e_soc代表5G基站储能电池当前的SoC水平；e_cap代表5G基站基站储能电池容量；e_ch代表5G基站储能电池充电功率；e_dis代表5G基站储能电池放电功率；ξ代表基站储能电池充/放电效率，e_load代表5G基站过去k个统计周期及当前时刻的通信负载率；e_w代表5G基站所在的地区。。

根据一种可能的实施方式，基于MATD3算法训练智能体过程中，算法交替进行策略评估和策略改进；其中，

在策略评估阶段，需要计算状态-动作价值，即该Q函数可以由Bellman方程表示为：

利用神经网络将Q函数参数化后，通过最小化Bellman残差来近似Q函数：

其中，分别代表第i个智能体的Q网络和Target Q网络的参数；s_t代表在t时刻由全部智能体的观测量s_t,i拼接得到的向量；

在策略改进阶段，利用神经网络将Q函数参数化后，将最小化目标函数J_βi(μ)用于更新网络参数的梯度，即：

根据一种可能的实施方式，MATD3算法训练智能体过程中，还通过两个初始参数不同的Target Q网络来进行目标价值评估，并选择其中的较小值作为目标价值，因此，需最小化的Bellman残差修正为：

其中，为带噪音的动作；/>和/>为两个不同的Target Q网络的参数；

以及，使用目标策略平滑正则化，以增强策略的稳定性并平滑Q函数；即在计算Bellman残差时，在下一状态s_t+1所采取的动作a_t+1将被选取为：

其中，μ表示Target策略网络；ε为添加的噪音，一般选为高斯噪音，并对其幅值进行剪切以限制在一个较小的范围。

根据一种可能地的实施方式，配置智能体输出参数a_μ和a_std，并以此作为Q网络的输入，实际动作a'_te选取为：

a'_te＝tanh(a_μ+a_std·ε)

基于上述方案，本发明的有益效果为：

1、本发明以最小化电力系统运行成本为目标，将配电网系统划分多个电气子区域，并使用MATD3多智能体算法，利用各智能体独立学习配电网各电气子区域下的5G通信基站储能机构充放电策略，各智能体仅需采集其所属电气子区域的电气信息和基站信息即可完成合理调度，而不必采集系统全部信息，也不必实现各部位的通信，从而解决配电网状态信息复杂、难以建立精确数学模型、低感知度的特性和5G通信基站数目繁多以及不同区域主体间数据无法共享的问题。

2、本发明考虑潜在的多种利益主体(如配电网侧、通信运营商侧)，用多智能体来处理多主体问题(利益侧的多主体和信息侧的多主体)；同时，在最小化电力系统运行成本的目标函数中，不仅计及各利益主体的成本，还把用碳量折算为碳价参与目标函数构造，能够在满足5G通信基站平稳运行的前提下通过控制储能的充放电过程优化电力系统的低碳经济调度，大幅降低储能系统建设成本，提高可再生能源利用率，实现低碳减排。

附图说明：

图1为本发明方法的流程示意图；

图2为火电机组发电标准耗煤率与机组负荷的关系示意图；

图3仿真实验中的配电系统的物理系统直观示意图；

图4为系统额外收益和目标函数随训练次数的变化示意图；

图5为调度过程中当前电量和允许最小电量变化图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

在本发明的一个实施例中，如图1所示，本发明基于深度强化学习的5G基站储能电池多智能体调度方法，其包括以下步骤：

S1：将配电网系统划分d个电气子区域(d＝3)，利用智能体A₁、A₂、…、A_d分别观测各自所属电气子区域的状态信息；

在本实施例中，由于马尔科夫决策过程能够用于描述一系列历史无关的状态转移过程，下一状态仅取决于当前状态和当前所执行的动作。对于本发明所研究的联合调度问题，若将每个决策周期内的电源、负载及其它不受调度策略控制的量近似视为常数，则调度模型成为一个序贯模型，并能够进一步转化为一个MDP模型，从而能够使用强化学习算法求解。

具体的，一个典型的马尔科夫决策过程可以用一个五元组{S,A,R,P,γ}表示，其中S代表状态空间集合，A代表动作空间集合，R代表回报空间集合，P代表状态转移概率集合，γ代表回报折扣率；本发明以系统运行成本(计及碳排放成本)为最小的联合调度问题，可确定MDP对应的五元组为：

(1)S：State是智能体能够感知到的环境信息，该信息将被作为智能体的输入信息以生成一个策略或动作。定义在时刻t的State为：

s_t＝{g_t,e_t,t}

其中，g_t代表当前时刻t电力系统的基本信息，e_t代表当前时刻t基站储能电池的信息。

(2)A：Action是智能体在感知到状态s_t后能够输出的策略(或动作)，并将被输入到环境中以推动状态过渡到下一帧。定义状态s_t下智能体输出的动作

a_t＝{a_te,a_tb}

其中，a_te代表每座5G基站的充放电动作；a_tb代表基站储能电池的充放电功率。

(3)R：当智能体执行策略(或动作)后，能够从环境获得一定的回报，该回报值将被用以评估所采取的策略(或动作)的好坏。本发明中，Reward被定义为：

r_t＝p_t+c_t

其中，p_t代表基于调度策略导致的结果而产生的成本，包括了不同5G基站运营厂商的成本总和，由一系列辅助策略生成；c_t代表调度以及发电过程中产生的碳排放量。

(4)P：Probability代表状态转移概率。当智能体生成并执行一个策略(或动作)后，环境将根据该策略控制其中的各个对象进行交互，并过渡到下一状态。在这个过程中，由于环境自身存在的不确定性，将导致交互过程和过渡到的下一状态产生变化，因此，一般用一个状态转移概率矩阵P表示执行策略后转移到各个状态的概率。在本发明研究的模型中，由于下一时刻接入系统的基站储能电池机构是不确定的，因此即便采取相同的策略，下一时刻的状态对于智能体而言依旧是不确定的。该概率矩阵P通过对环境进行蒙特卡洛采样隐式地生成。

(5)λ：折扣因子λ用以描述在未来能够获得的回报的重要性。当经历一个完整的马尔科夫决策过程后，对应的将产生一条马尔科夫链，或等价地形成一条“轨迹”，经历这条“轨迹”将产生一个回报：

需要指出的是，一方面，由于存在状态转移概率，未来的回报是难以准确估计的，因此其重要性略低于当前的回报，而另一方面，当存在稀疏奖励时，一个状态的价值与最终结果密切相关，所以，在较远之后的回报需要乘以一个折扣因子，从而得到：

式中，λ的取值范围为[0，1]。λ的取值越小，表示智能体越关心当前策略(或动作)能够获得的回报，表现为短视，但训练过程收敛相对较快；γ的取值越大，智能体越注重策略(或动作)在未来能够获得的回报，表现为远见，但训练过程收敛缓慢，且可能存在饱和的问题。

一般地，γ可取值为0.9，或设轨迹的平均步长为n，则推荐的γ取值为：

在本实施例中，为了满足5G通信基站平稳运行的前提下，通过控制储能的充放电过程优化电力系统的低碳经济调度，大幅降低储能系统建设成本，提高可再生能源利用率，实现低碳减排；因而，本发明除了计及火电机组运行的发电成本，还进一步计及碳排放成本；考虑到火电机组在运行过程中将消耗燃料并产生一定的碳排放，并受到运行功率的影响。一般地，机组在低功率运行时生产一单位电力将消耗更多的燃料，如图2所示的火电机组的煤耗率与机组负荷的关系，通过该曲线，可以折算出一定负荷下火电机组的碳排放成本。

因此，可以得到火电机组运行的发电成本和碳排放成本分别为：

F_Gi＝a_gip_gi ²+b_gip_gi+c_gi

式中：(a_gi,b_gi,c_gi)分别代表第i台火电机组发电成本的二次、一次和常数项系数，其可通过对发电机在不同功率水平下的运行成本进行统计求得；p_gi代表第i台火电机组的发电功率；(a_ci,b_ci,c_ci)分别代表第i台火电机组在不同功率水平下的煤耗量的二次、一次和常数项系数；代表第i台火电机组的发电功率关于其自身的百分比；p_c代表碳交易价格；η代表碳排放因子。

同时，对于智能体A_i所属电气子区域内基站储能的调度运行成本为：

式中：F_Bi为智能体A_i所属电气子区域内基站储能的调度运行成本，N为智能体A_i所控制的基站储能数量；α代表基站储能电池的折旧成本系数；β代表基站储能电池的调节成本系数；p_bj代表第j台基站的储能电池的运行功率；Δp_bj代表第j台基站的储能电池的功率变化值；

因此，本发明，以最小化电力系统运行成本为目标，其目标函数被配置为：

式中：F为电力系统运行成本；P_i为用于约束智能体A_i动作输出的惩罚项，为基站i动作的辅助向量、/>为当前策略下智能体控制基站i的动作向量。

在本实施例中，智能体A_i获取电气子区域i在当前时刻t对应的状态信息s_t,i＝{g_t,i,e_t,i,t}，g_t,i代表智能体A_i在当前时刻t可获取的电力系统的局部基本信息，具体为：其中，分别代表智能体A_i所属电气子区域i节点的电压幅值、有功功率以及无功功率值；/>代表智能体A_i所属电气子区域i中的风电机组出力；{V_l ⁱ(t)}_l＝1,...,e代表智能体A_i所属电气子区域i中的光伏机组出力；而e_t,i代表智能体A_i在当前时刻t可获取的部分5G基站的信息，具体为：e_t,i＝{e_sys,e_soc,e_cap,α,β,e_ch,e_dis,e_load,e_w,ξ}；其中，e_sys代表维持5G基站正常运行所必要的设备(如AUU、BUU、温控系统等)的功率数据；e_soc代表5G基站储能电池当前的SoC水平；e_cap代表5G基站基站储能电池容量；e_ch代表5G基站储能电池充电功率；e_dis代表5G基站储能电池放电功率；ξ代表基站储能电池充/放电效率，e_load代表5G基站过去k个统计周期及当前时刻的通信负载率；e_w代表5G基站所在的地区(如商业区、居住区、工业区、校园等)。

而且，本发明对于上述状态信息，将5G基站储能电池的充放电过程分别由以下方程描述：

在本实施例中，基于MATD3算法训练智能体过程中，算法交替进行策略评估和策略改进；其中，

其中，分别代表第i个智能体的Q网络和Target Q网络的参数；s_t代表在t时刻，由全部智能体的观测量s_t,i拼接得到的向量，即s_t＝{{s_t,1},{s_t,2},{s_t,3}}。

同时在MATD3算法训练智能体过程中，还通过两个初始参数不同的Target Q网络来进行目标价值评估，并选择其中的较小值作为目标价值，因此，需最小化的Bellman残差修正为：

配置智能体输出参数a_μ和a_std，并以此作为Q网络的输入，实际动作a'_te选取为：

a'_te＝tanh(a_μ+a_std·ε)

同时，为了减小因Q函数尚未稳定就更新策略引起的震荡和误差，采用策略延迟更新技术，令策略改进阶段发生的频率低于策略评估阶段发生的频率，即智能体每次和环境进行交互时都进行策略评估，但仅在行一定次数的交互后再进行一次策略改进。

在本实施例中，基于MATD3算法训练智能体过程中，为了解决训练过程中Q值网络的过估计问题和平滑Q函数，使用双Q值网络和目标策略平滑正则化技术。具体的，通过两个初始参数不同的Target Q网络来进行目标价值评估，并选择其中的较小值作为目标价值。

其中，μ表示Target策略网络；ε为添加的噪音，一般选为高斯噪音，并对其幅值进行剪切以限制在一个较小的范围。通过为动作添加噪音，使计算动作的Q值能够收敛到邻域内动作的Q值的期望，从而平滑Q函数。利用经平滑的Q函数引导策略网络更新，能够有效避免因Q函数梯度过大导致的策略网络参数更新过快，从而增强策略网络的稳定性。

为进一步验证本发明基于深度强化学习的5G基站储能电池多智能体调度方法的有效性，进行仿真实验。具体的，选择IEEE 33节点配电系统作为仿真计算的原型，并在此基础上做出部分调整。如图3所示，分别在第9、16、24、19、27节点设置一风力发电机组和光伏发电系统，在第9、16、19、24、27节点各设置5G基站加基站储能设备；同时，将配电网划分为3个电气子区域。

其中，风力发电机组和光伏发电系统的出力数据来自于Elia.be对AggregateBelgian Wind Farms和Belgium地区在01/06/2021-30/06/2021期间的预测，并乘以适当的比例系数以适应配电系统的容量；基准电量边际排放因子根据《2019年度减排项目中国区域电网基准线排放因子》取为0.8953t/MWh，碳价格按照欧洲气候交易所21/02/2022-23/02/2022的交易均价取为91.38€/t，并按照国际汇率6.99￥/€进行折算。

实验中仿真步长取为1h，Actor、Critic网络的学习率及Target网络的更新权重分别设置为10^-5，3.0×10^-5，10^-3，折扣因子γ取为0.98，batch size设置为128，Buffer Size取为105。

本实验基于Python及Tensorflow 2.0框架进行，所使用的计算机配置AMD Ryzen75800H with Radeon Graphics CPU@3.20GHz及1张NVIDIA RTX 3060 GPU。

对多智能体调度模型进行为期一周的仿真训练(系统容量5MW，有64台19.2kWh/4.0kW的基站)，经1000个训练回合后，模型收敛；如图4所示，在训练初期，控制策略变化较为剧烈，系统相较于不使用基站调度时产生的额外收益具有较强的波动。在约500个训练回合后，模型逐渐稳定并开始收敛，系统的碳排放量下降至200元附近，对比200个训练回合前，使用基站调度时产生的额外收益两者相差较大。出现这种现象的原因在于，MATD3算法在训练过程中需要引入噪声进行策略探索。

图5所示，使用的数据来自于基站内部的检测装置采样到的设备当前数据(SOC)。该图像代表调度过程中某个时刻基站的当前电量和允许的最小电量(即用于保证停电时能够在一定时间内供电)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其特征在于，包括以下步骤：

S2：每经过一个决策周期，智能体A_i获取电气子区域i在当前时刻t对应的状态信息s_t,i＝{g_t,i,e_t,i,t}，gt_,i代表智能体A_i在当前时刻t可获取的电力系统的局部基本信息；e_t,i代表智能体A_i在当前时刻t可获取的部分5G基站的信息；

2.如权利要求1所述的基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其特征在于，以最小化电力系统运行成本为目标，其目标函数被配置为：

3.如权利要求2所述的基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其特征在于，所述状态信息s_t,i＝{g_t,i,e_t,i,t}中，其中，/> 分别代表智能体A_i所属电气子区域i节点的电压幅值、有功功率以及无功功率值；/>代表智能体A_i所属电气子区域i中的风电机组出力；{V_l ⁱ(t)}_l＝1,...,e代表智能体Ai所属电气子区域i中的光伏机组出力；e_t,i＝{e_sys,e_soc,e_cap,α,β,e_ch,e_dis,e_load,e_w,ξ}；其中；e_sys代表维持5G基站正常运行所必要的设备的功率数据；e_soc代表5G基站储能电池当前的SoC水平；e_cap代表5G基站基站储能电池容量；e_ch代表5G基站储能电池充电功率；e_dis代表5G基站储能电池放电功率；ξ代表基站储能电池充/放电效率，e_load代表5G基站过去k个统计周期及当前时刻的通信负载率；e_w代表5G基站所在的地区。

4.如权利要求3所述的基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其特征在于，基于MATD3算法训练智能体过程中，算法交替进行策略评估和策略改进；其中，

5.如权利要求4所述的基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其特征在于，MATD3算法训练智能体过程中，还通过两个初始参数不同的Target Q网络来进行目标价值评估，并选择其中的较小值作为目标价值，因此，需最小化的Bellman残差修正为：

6.如权利要求5所述的基于多智能体深度强化学习的5G基站储能电池充放电调度方法，其特征在于，配置智能体输出参数a_μ和a_std，并以此作为Q网络的输入，实际动作a'_te选取为：

a′_te＝tanh(a_μ+a_std·ε)