CN114725936B

CN114725936B - 基于多智能体深度强化学习的配电网优化方法

Info

Publication number: CN114725936B
Application number: CN202210420402.1A
Authority: CN
Inventors: 滕云龙; 李慧婷; 元硕成
Original assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2023-04-18
Anticipated expiration: 2042-04-21
Also published as: CN114725936A

Abstract

本发明公开了一种基于多智能体深度强化学习的配电网优化方法，包括以下步骤：S1、建立配电网电压优化模型；S2、进行马尔科夫博弈建模；S3、采用TD3算法进行离线训练。本发明考虑了分布式电源出力具有不确定性，建立含有光伏、风机以及储能装置的配电网电压优化模型，并采用双延迟深度确定性策略梯度算法进行求解，获得分布式电源的最优调度策略，使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型，可根据历史数据进行离线训练，训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题，一定程度上解决了可再生能源发电的消纳问题，提升了可再生能源的利用率。

Description

基于多智能体深度强化学习的配电网优化方法

技术领域

本发明属于配网技术领域，具体涉及一种基于多智能体深度强化学习的配电网优化方法。

背景技术

环境的恶化和化石能源的枯竭使人们对可再生能源的需求日益紧迫，发展可再生能源成为共识。调整不同能源间的结构，加大清洁能源比重是缓解当下问题的主要途径。相比于传统配电网的单一电源供电，分布式电源并网有更好的降低网损、改善电压分布、消纳电力以及削峰填谷等特性。

针对于可再生能源利用问题，考虑到以清洁能源为燃料的分布式电源的不可控性，当电力需求降低时供给无法停止，电力缺少存储空间，说明需要在清洁能源并网的情况下提升配电网的灵活性。储能技术的发展使各种形式的能量可以与电能相互转化，考虑到储能装置具有充放电特性，将储能装置与可再生能源进行协同并网可以一定程度上解决可再生能源的消纳问题。

分布式电源接入配电网会改变配电网的运行状态，随着分布式电源接入配电网的规模增加，如何调度分布式电源使配电网在保证运行安全同时优化运行成为关键。

发明内容

本发明的目的在于克服现有技术的不足，提供一种建立含有光伏、风机以及储能装置的配电网电压优化模型，并采用双延迟深度确定性策略梯度算法进行求解，来获得分布式电源的最优调度策略，使配电网在保证安全运行的同时电压波动最小的基于多智能体深度强化学习的配电网优化方法。

本发明的目的是通过以下技术方案来实现的：基于多智能体深度强化学习的配电网优化方法，包括以下步骤：

S1、建立配电网电压优化模型，包括以下子步骤：

S11、建立目标函数：

式中，

表示在t时刻在节点i的储能装置充电有功功率，

表示在t时刻储能装置的放电有功功率，

表示在t时刻储能装置的无功功率；

分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率；V_i,t为t时刻在节点i的电压；V₀为额定电压；N为配电网中的节点总数，T为运行周期；

S12、建立风机约束条件：

为t时刻风力发电机在节点i上的有功功率，

为风力发电机在节点i上的额定功率，

为在t时刻风力发电机在节点i上的视在功率；

S13、建立光伏约束条件：

为t时刻在节点i注入光伏逆变器的有功功率，

为节点i上光伏机组的最大额定功率，

为节点i上的光伏机组视在功率；

S14、建立储能装置的有功功率和无功功率输出约束：

S_i,pcsmax为储能装置的视在功率上限；

储能装置的容量平衡约束为：

E_min≤E_i,t≤E_max

E_i,t表示在t时刻储能装置电池的电量；η_ch、η_dis分别为充电和放电系数；E_min、E_max分别为储能装置电池容量上限和下限；

S15、建立含分布式电源配电网的潮流约束：

节点注入功率平衡约束为：

潮流不等式约束为：

V_i,min＜V_i,t＜V_i,max

分别为t时刻平衡节点注入的有功功率和无功功率；

分别为负荷节点i的有功功率和无功功率；V_i,t、V_j,t分别为t时刻节点i和节点j的电压；G_ij,t、B_ij,t和θ_ij,t分别为节点i,j之间的电导、电纳和相角差值；V_i,min、V_i,max为节点i电压的上限和下限；

S2、进行马尔可夫博弈建模；

S3、采用TD3算法进行离线训练。

进一步地，所述步骤S2具体实现方法为：马尔可夫模型由元组(N,S,A₁,A₂,...A_N,P,R₁,R₂,...R_N,γ)表示，其中N为智能体个数，S为环境中智能体观测到的状态，A_j为智能体j的动作集合，R_j为智能体j获得的奖励，P为状态转移概率，γ为折扣因子；将配电网作为环境，分布式电源定义为能够与环境交互的智能体，其中

表示t时刻智能体j观测到的状态值；

表示t时刻智能体j执行的动作；

所有智能体共享一个奖励值；

S21、定义状态量

为：

式中，E_i,t为t时刻节点i储能装置的能量；

S22、定义动作值

为：

式中，

为t时刻节点i储能装置的有功功率，充电时

放电时

为t时刻储能装置的无功功率；

S23、动作

在环境中执行后，所得奖励值

由评价综合指标与惩罚函数组成：

为配电网中所有节点在t时刻的总电压偏差，

为电压越限时的惩罚项；由于所有智能体共享一个奖励值，每个时刻t的每个智能体j的奖励r_t ^j都是相同的，因此将为r_k；

S24、计算t时刻开始的一次探索过程的累积奖励R_t：

式中：γ为折扣因数，γ∈(0,1)；

在t时刻，智能体j根据观测值获得状态量

并得出动作值

执行动作获得奖励值

并转移到下一个状态，一次探索结束获得累计奖励R_t，每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。

进一步地，所述步骤S3具体实现方法为：TD3算法由两个Actor网络和四个Critic网络组成，Critic当前网络和Critic目标网络分别由两个Critic网络组成；将每个智能体建模为一个TD3智能体，Actor网络作为策略网络对动作函数进行拟合，通过局部信息获得动作值；Critic网络作为评价网络对评价函数进行拟合，评估全局信息(S_t,A_t)得到Q值；具体包括以下子步骤：

S31、获取配电网运行的历史数据作为离线学习样本，每天划分为24个时刻进行数据采样；

S32、随机初始化Actor当前网络参数

Critic当前网络参数

并将当前网络参数拷贝给对应的Actor目标网络参数

和Critic目标网络参数

S33、设置最大迭代次数，开始进行训练；在训练的每个回合中，智能体j的Actor当前网络接收状态量

通过当下策略得到动作值

在环境中执行动作并得到奖励值

和下一个状态

将

存入经验回访池中，直到经验回访池存满；

指的是智能体j的Actor当前网络读取t时刻状态

在策略函数p_j下得到动作值

S34、从经验回访池中采样一定量的数据

k＝1,2,...,m，开始对网络参数进行更新，具体方法为：

S341、对于Actor当前网络采用梯度更新策略：

其中

为梯度计算公式，表示对

进行梯度更新；p＝{p₁,...p_j,...,p_N}表示所有智能体的策略集合，p_j为智能体j的策略函数；

为Critic当前网络的输出，η_μ是Actor当前网络学习率；

S342、对于Critic当前网络通过最小化损失函数进行更新：

式中y值通过双评价网络来计算，

p'_j(s_t')和

分别由智能体j的Actor目标网络和Critic目标网络的输出获得，

选择Critic目标网络输出中较小的值来更新；η_Q是Critic当前网络学习率；

S343、使用当前网络的参数对目标网络的参数进行小幅度更新：

式中τ为软更新系数；

S35、直到迭代到训练最大次数，训练结束并保存每个智能体的Actor当前网络。

本发明的有益效果是：本发明考虑了分布式电源出力具有不确定性，建立含有光伏、风机以及储能装置的配电网电压优化模型，对光伏、风机进行无功控制，对储能进行有功和无功控制。并采用双延迟深度确定性策略梯度算法进行求解，来获得分布式电源的最优调度策略，使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型，可根据历史数据进行离线训练，训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题，一定程度上解决了可再生能源发电的消纳问题，提升了可再生能源的利用率。

具体实施方式

强化学习算法是通过智能体不断与环境交互获得奖励，通过策略探索，建立起一个状态与动作之间的映射关系的自我学习机制。智能体与环境交互，通过策略得出动作值，在环境中执行动作并将得到奖励值反馈给智能体，智能体根据所得奖励值判断动作被强化或弱化。智能体可以学习到如何在环境中根据不同状态得出最高奖励值，从而得出最优控制策略。通常采用马尔可夫决策(Markov Decision Process,MDP)过程对强化学习问题进行建模。

配电网和分布式电源结构复杂，而强化学习算法的优势在于不依赖于对环境的建模，即通过判断智能体在环境中的探索奖励来得出最优策略，所以可以采用强化学习方法解决含分布式电源配电网优化问题。考虑到采用对配电网的集中控制对通信有强烈的依赖性，因此采用多智能体强化学习(multi-agent deep reinforcement learning,MADRL)方法，并以离线中心式训练和在线分布式执行为框架进行训练，使分布式电源可以根据局部信息做出决策，协同控制优化配电网。下面进一步说明本发明的技术方案。

本发明考虑分布式电源出力具有不确定性，建立含有光伏、风机以及储能装置的配电网电压优化模型，对光伏、风机进行无功控制，对储能进行有功和无功控制，使配电网在保证安全运行的同时电压波动最小。配电网是从输电网或发电厂接收电能并分配给用户的网络，可将配电线路上的柱上负荷看作是节点，而将配电线路和配电变压器综合看作是一种耗散元件，用户可视为负荷，分布式电源可视为外接的电能。

基于多智能体深度强化学习的配电网优化方法，包括以下步骤：

S1、建立配电网电压优化模型，包括以下子步骤：

S11、建立目标函数：

式中，

表示在t时刻在节点i的储能装置充电有功功率，

表示在t时刻储能装置的放电有功功率，

表示在t时刻储能装置的无功功率；

分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率；V_i,t为t时刻在节点i的电压；V₀为额定电压；N为配电网中的节点总数，T为运行周期，以一天为周期则设T＝24，t＝1,2，…，24；节点指是配电网节点，指的是电流的汇集点或支路的汇集点。

S12、建立风机约束条件：

为t时刻风力发电机在节点i上的有功功率，

为风力发电机在节点i上的额定功率，

为在t时刻风力发电机在节点i上的视在功率；

S13、建立光伏约束条件：

为t时刻在节点i注入光伏逆变器的有功功率，

为节点i上光伏机组的最大额定功率，

为节点i上的光伏机组视在功率；

S14、建立储能装置的有功功率和无功功率输出约束：

S_i,pcsmax为储能装置的视在功率上限；

储能装置的容量平衡约束为：

E_min≤E_i,t≤E_max

S15、建立含分布式电源配电网的潮流约束：

节点注入功率平衡约束为：

潮流不等式约束为：

V_i,min＜V_i,t＜V_i,max

分别为t时刻平衡节点注入的有功功率和无功功率；

S2、进行马尔可夫博弈建模；

具体实现方法为：马尔可夫模型由元组(N,S,A₁,A₂,...A_N,P,R₁,R₂,...R_N,γ)表示，其中N为智能体个数，S为环境中智能体观测到的状态，A_j为智能体j的动作集合，R_j为智能体j获得的奖励，P为状态转移概率，γ为折扣因子；将配电网作为环境，分布式电源定义为能够与环境交互的智能体，其中

表示t时刻智能体j观测到的状态值；

表示t时刻智能体j执行的动作；r_t ^j∈R_t，所有智能体共享一个奖励值；

S21、定义状态量

为：

式中，E_i,t为t时刻节点i储能装置的能量；

S22、定义动作值

为：

式中，

为t时刻节点i储能装置的有功功率，充电时

放电时

为t时刻储能装置的无功功率；

S23、动作

在环境中执行后，所得奖励值r_t ^j由评价综合指标与惩罚函数组成：

为配电网中所有节点在t时刻的总电压偏差，

为电压越限时的惩罚项；由于所有智能体共享一个奖励值，每个时刻t的每个智能体j的奖励r_t ^j都是相同的，因此将奖励记为r_k；

S24、计算t时刻开始的一次探索过程的累积奖励R_t：

式中：γ为折扣因数，γ∈(0,1)；

在t时刻，智能体j根据观测值获得状态量

并得出动作值

执行动作获得奖励值r_t ^j并转移到下一个状态，一次探索结束获得累计奖励R_t，每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。

S3、采用TD3算法进行离线训练；具体实现方法为：TD3(双延迟深度确定性策略梯度，Twin Delayed Deep Deterministic Policy Gradient)算法由两个Actor网络和四个Critic网络组成，Critic当前网络和Critic目标网络分别由两个Critic网络组成；Actor-Critic框架是由Actor网络和Critic网络组成的。在原有的Actor-Critic框架基础上，对其复制，形成两个Actor-Critic框架，分别作为当前网络和目标网络。再将每个Actor-Critic框架中的Critic网络设置为两个，最终形成两个Actor网络和四个Critic网络。将每个智能体建模为一个TD3智能体，Actor网络作为策略网络对动作函数进行拟合，通过局部信息获得动作值；Critic网络作为评价网络对评价函数进行拟合，评估全局信息(S_t,A_t)得到Q值；具体包括以下子步骤：

S32、随机初始化Actor当前网络参数

Critic当前网络参数

并将当前网络参数拷贝给对应的Actor目标网络参数

和Critic目标网络参数

通过当下策略得到动作值

在环境中执行动作并得到奖励值r_t ^j和下一个状态

将

存入经验回访池中，直到经验回访池存满；

指的是智能体j的Actor当前网络读取t时刻状态

在策略函数(即动作函数)p_j下得到动作值

S34、从经验回访池中采样一定量的数据

k＝1,2,...,m，开始对网络参数进行更新，具体方法为：

S341、对于Actor当前网络采用梯度更新策略：

其中

为梯度计算公式，表示对

为Critic当前网络的输出，η_μ是Actor当前网络学习率；

S342、对于Critic当前网络通过最小化损失函数进行更新：

式中y值通过双评价网络来计算，

p'_j(s_t')和

分别由智能体j的Actor目标网络和Critic目标网络的输出获得，因为用于计算y的Critic网络不断进行参数更新，所以引入目标网络来稳定算法训练过程；

选择Critic目标网络输出中较小的值来更新，来避免过高估计的Q值而使策略失效的问题；η_Q是Critic当前网络学习率；

式中τ为软更新系数；

训练所得智能体可以读取配电网局部节点的有功无功功率的实时数据作为状态值，通过最优策略给出动作值，从而对分布式电源进行调度，对配电网全局进行优化。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于多智能体深度强化学习的配电网优化方法，其特征在于，包括以下步骤：

S1、建立配电网电压优化模型，包括以下子步骤：

S11、建立目标函数：

式中，

表示在t时刻在节点i的储能装置充电有功功率，

表示在t时刻储能装置的放电有功功率，

表示在t时刻储能装置的无功功率；

S12、建立风机约束条件：

为t时刻风力发电机在节点i上的有功功率，

为风力发电机在节点i上的额定功率，

为在t时刻风力发电机在节点i上的视在功率；

S13、建立光伏约束条件：

为t时刻在节点i注入光伏逆变器的有功功率，

为节点i上光伏机组的最大额定功率，

为节点i上的光伏机组视在功率；

S14、建立储能装置的有功功率和无功功率输出约束：

S_i,pcsmax为储能装置的视在功率上限；

储能装置的容量平衡约束为：

E_min≤E_i,t≤E_max

S15、建立含分布式电源配电网的潮流约束：

节点注入功率平衡约束为：

潮流不等式约束为：

V_i,min＜V_i,t＜V_i,max

P_t ^s、

分别为t时刻平衡节点注入的有功功率和无功功率；

S2、进行马尔可夫博弈建模；具体实现方法为：马尔可夫模型由元组(N,S,A₁,A₂,...A_N,P,R₁,R₂,...R_N,γ)表示，其中N为智能体个数，S为环境中智能体观测到的状态，A_j为智能体j的动作集合，R_j为智能体j获得的奖励，P为状态转移概率，γ为折扣因子；将配电网作为环境，分布式电源定义为能够与环境交互的智能体，其中

表示t时刻智能体j观测到的状态值；

S21、定义状态量

为：

式中，E_i,t为t时刻节点i储能装置的能量；

S22、定义动作值

为：

式中，

为t时刻节点i储能装置的有功功率，充电时

放电时

为t时刻储能装置的无功功率；

S23、动作

为配电网中所有节点在t时刻的总电压偏差，

S24、计算t时刻开始的一次探索过程的累积奖励R_t：

式中：γ为折扣因数，γ∈(0,1)；

在t时刻，智能体j根据观测值获得状态量

并得出动作值

执行动作获得奖励值r_t ^j并转移到下一个状态，一次探索结束获得累计奖励R_t，每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值；

S3、采用TD3算法进行离线训练。

2.根据权利要求1所述的基于多智能体深度强化学习的配电网优化方法，其特征在于，所述步骤S3具体实现方法为：TD3算法由两个Actor网络和四个Critic网络组成，Critic当前网络和Critic目标网络分别由两个Critic网络组成；将每个智能体建模为一个TD3智能体，Actor网络作为策略网络对动作函数进行拟合，通过局部信息获得动作值；Critic网络作为评价网络对评价函数进行拟合，评估全局信息(S_t,A_t)得到Q值；具体包括以下子步骤：

S32、随机初始化Actor当前网络参数