CN110365056A

CN110365056A - 一种基于ddpg的分布式能源参与配电网调压优化方法

Info

Publication number: CN110365056A
Application number: CN201910749502.7A
Authority: CN
Inventors: 马溪原; 雷金勇; 胡洋; 周长城; 田兵; 袁智勇; 罗俊平; 丁士; 黄安迪; 练依情; 郭祚刚; 谈赢杰
Original assignee: China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: CSG Electric Power Research Institute; China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-10-22
Anticipated expiration: 2039-08-14
Also published as: CN110365056B

Abstract

本发明公开了一种基于DDPG的分布式能源参与配电网调压优化方法，将确定性深度确定性策略梯度算法运用到分布式能源参与配电网调压中，由于所采用的DDPG算法是一种“模型友好”算法，将原始分布式能源参与配电网调压优化策略问题运用马尔可夫决策过程方法转化为策略决策问题，提高了算法的通用性；通过运用目标网络提高样本训练的稳定性，更易于收敛，且具有可行性更高，运行成本更低的优点。

Description

一种基于DDPG的分布式能源参与配电网调压优化方法

技术领域

本发明实施例涉及电力系统技术领域，尤其涉及一种基于DDPG的分布式能源参与配电网调压优化方法。

背景技术

随着中国经济的迅速发展，电力用户用电量增大，对电压质量的要求越来越高。一方面，在用户用电高峰期时，较高需求的有功功率流过线路，线路损耗大，电压降落严重，电压偏低问题出现；另一方面，由于我国配电系统建设水平相比于发、输电系统落后，导致配电网电压质量问题更为突出。目前电压质量问题中尤以电压偏低、电压波动和供电电压偏差最为常见。针对此类问题，传统供电方式已不能满足当前时代发展的需求，而且会造成大量不必要的损失。而分布式能源具有节能环保、经济、能源利用率高等优点，因此能够较好地调节配电网电能质量，提升供电的安全性以及可靠性。

首先，分布式能源单机容量小、机组数目多，分布也比较分散，启动和停机便捷迅速，运行控制具有很强的灵活性。在相关控制策略下，分布式能源只需很短的时间就可以投入使用，也可以根据需要迅速退出运行。如果分布式能源能够在电网发生故障和扰动时继续保持运行，或者能转做备用电源，对于减小停电范围或者缩短停电时间都是很有帮助的，对于很多节点的电压暂降问题也都有抑制作用。

其次，分布式电源和电力用户距离很近，容易实现有功功率的就近提供和无功功率的就近补偿，而且输电损耗小。在传统的配电网中，当用户负荷突然大量增加或大量减少时，供电线路的电源会明显降低或升高，造成明显的电压偏差。如果用户负荷的变动数量大而且是动态变化，那么还会造成电压波动与闪变等问题。当分布式能源与当地负荷能够协调运行(分布式电源输出与负荷同步变化)时，将抑制系统电压的波动。具体而言也就是，若能将分布式电源也纳入电网的统一调度管理，那么在用户负荷突然大量增加或减小时，就可以根据负荷的变化相应调整分布式电源的输出功率，从而对负荷的功率变动进行补偿，抑制电压的大幅度波动。

目前现有的技术是运用一种基于结构经验风险最小化的极限学习机的方法。通过分布式能源接入配电网后潮流变化情况分析分布式的能源并网对电压影响的主要因素，在传统的极限学习机中引入结构风险最小化原理，克服其学习容易出现过拟合的问题。将配电网中分布式电源的输出功率和各负荷点的功率作为极限学习机的输入，输出为配电网中的开关状态，对极限学习机进行训练，利用极限学刊机优化配电网的网络结构，并控制并联补偿装置的投切调节配电网电压。

极限学习机(ELM)是2006年提出的一种新的单隐藏层反馈神经网络(SLFNs)学习机，ELM具有SLFNs结构简单、学习速度快的特点，同时利用Penrose-Moore广义逆求解网络权重，获得较小的权重范数。避免了基于梯度下降学习方法容易局部极小、迭代次数多、性能指标及学习率的确定困难等缺点，可获得良好的网络泛化性能。ELM可实现压缩、特征

学习、聚类、回归和分类等功能，已在多个领域得到了应用。目前ELM已应用在电力系统研究中的负荷预测、风电功率预测、电力建设成本估算、变压器故障分析等，同时也有研究将ELM用以反映配电网负荷模式与配电网最优结构之问的非线性关系。

现有的分布式电源并网的相关研究主要针对用电负荷与分布式电源都是静态的场景、或者在分布式电源规划方法的优化上，这些研究多以降低网损，降低分布式电源投资或运营成本为目标函数，在规划阶段能一定程度上优化分布式电源并网相关问题，但是针对负荷水平和分布式电源出力不确定性的配电网电压优化控制方法研究仍亟待完善，同时现有算法对模型依赖性较强。

发明内容

本发明提供一种基于DDPG的分布式能源参与配电网调压优化方法，以解决现有技术的不足。

为实现上述目的，本发明提供以下的技术方案：

一种基于DDPG的分布式能源参与配电网调压优化方法，包括：

S1、构建分布式能源参与配电网调压优化策略模型，确定系统目标函数、相关的约束条件和算法参数，形成原始优化问题；

其中，分布式能源参与配电网调压优化策略模型的目标函数为：

F(x)＝min(C+V)；

式中，F(x)为目标函数，C为分布式储能的运行成本，V为配电网节点平均电压偏差；P为分布式储能发出的有功功率；a、b、c为发电成本系数；U_B为基准电压；

S2、将分布式能源参与配电网调压优化策略模型转化为马尔可夫决策过程模型；

其中，所述马尔可夫决策过程模型包括状态空间s_t＝{d_τ,e_τ,c_τ},t∈T，动作空间a_t＝e_t,t∈T，c_τ为储能系统的运行成本，c_τ∈C，基于深度确定性策略梯度算法DDPG，定义储能系统参与配电网调压策略为e_t＝μ(s_t)，奖励值函数：

r_t＝|e_τ|·p_τ-|e_τ|·c_τ；

式中，p_τ为储能系统提供调压服务的收益，全周期奖励值函数求和为：

式中，γ为折扣因数，γ∈(0,1)；

S3、构建基于DDPG的分布式能源参与调压优化算法架：

定义动作价值Q函数为：

Q^μ(s_t,a_t)＝E[R_t|s_t,a_t；μ]；

其中，最优策略下满足贝尔曼等式的Q函数为：

式中，P{s_t+1|s_t}为由状态s_t以及动作a_t转移到状态s_t+1的概率；

定义储能充放电功率策略性能函数为：

J(μ)＝E[R₁；μ^*]；

根据DDPG中的动作-价值架构，使用神经网络近似表示动作价值Q函数为网络参数θ^Q，使用神经网络近似表示储能充放电功率策略函数为网络参数θ^μ；

分别为动作网络以及价值网络引入两个目标网络θ^μ'和θ^Q'；

定义经验回放缓存R，每一次迭代从R中随机选取最小规模m的样本用来估计动作价值Q函数和策略函数的梯度；

S4、获取某地区配电网的节点电压、分布式电源和分布式储能的历史数据，设定动作网络学习率以及价值网络的学习率分别为α^a和α^c，学习回合数为M；

S5、利用DDPG算法对分布式能源参与配电网调压优化策略模型进行求解，求解过程如下：

初始化动作网络和价值网络的神经网络参数:θ^Q和θ^μ；

将两个网络的参数拷贝给对应的目标网络参数：θ^Q'←θ^Q，θ^μ'←θ^μ；初始化经验回放缓存R；

S6、求解t时刻储能充放电策略值并计算奖励值：

对每个学习回合：初始化OU随机过程；

对每个学习回合中的每一时刻t：

动作网络根据储能充放电策略选择一个动作a_t下达给仿真环境执行该动作：

a_t＝μ(s_t|θ^μ)+N_t；

S7、存储状态转移函数：

通过仿真环境计算并返回奖励值r_t和新的状态s_t+1；

动作网络将这个状态转换过程：(s_t,a_t,r_t,s_t+1)存入经验回放缓存R中，作为状态转移函数训练动作网络和价值网络的数据集；

S8、从经验回放缓存R中，随机采样N个状态转换过程数据，作为动作网络和价值网络的一个最小规模m的训练数据；

用(s_i,a_i,r_i,s_i+1)表示最小规模m中的单个状态转换过程数据；

S9、最优化动作网络、价值网络以及相对应的目标网络；

计算Q网络的梯度：

定义损耗函数为：

其中，y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ′)θ^Q′)；

通过最小化损耗函数L对价值网络进行迭代：

估计储能充放电功率策略性能函数J的梯度：

通过公式最大化储能充放电功率策略性能函数J对动作网络进行迭代：

对目标网络进行迭代：

θ^Q’←ρθ^Q+(1-ρ)θ^Q’；

θ^μ’←ρθ^μ+(1-ρ)θ^μ’；

S10、若|R|＞m，迭代终止，否则重复步骤S8～S9。

S11、输出结果，得到分布式能源参与配电网调压的最优策略。

进一步地，所述基于DDPG的分布式能源参与配电网调压优化方法中，所述相关的约束条件包括：

(1)潮流约束：

其中，P_i(t)、Q_i(t)分别为t时段i节点的注入有功和无功功率；U_i(t)、U_j(t)分别为t时段i、j节点的电压幅值；G_ij和B_ij分别为支路ij的电导和电纳；θ_ij(t)为节点i与j在时段t的电压相角差。

(2)不等式约束：

Q_PVmin(t)≤Q_PV(t)≤Q_PVmax(t)；

P_PVmin(t)≤P_PV(t)≤P_PVmax(t)；

Q_WTmin(t)≤Q_WT(t)≤Q_WTmax(t)；

P_WTmin(t)≤P_WT(t)≤P_WTmax(t)；

k_SOCmin(t)≤k_SOC(t)≤k_SOCmax(t)；

U_imin(t)≤U_i(t)≤U_imax(t)；

其中，Q_PV(t)、Q_WT(t)分别为i节点接入的分布式光伏发电和分散式风力发电的无功容量，Q_PVmax(t)、Q_WTmax(t)、Q_PVmin(t)、Q_WTmin(t)分别为分布式光伏发电和分散式风力发电无功容量的上下限；P_PV(t)、P_WT(t)为分布式光伏发电和分散式风力发电接入系统t时段的有功功率，P_PVmax(t)、P_WTmax(t)、P_PVmin(t)、P_WTmin(t)为分布式光伏发电和分散式风力发电有功功率的上下限；k_SOC(t)为分布式储能装置t时段储能容量，k_SOCmax(t)、k_SOCmin(t)分别为储能装置的容量上下限；U_i(t)为节点i在t时段的电压幅值，U_imax(t)，U_imin(t)为节点电压的上下限。

进一步地，所述基于DDPG的分布式能源参与配电网调压优化方法中，所述马尔可夫决策过程模型还包括状态转移概率函数，表示为：

T＝(s_t,a_t,r_t,s_t+1)。

进一步地，所述基于DDPG的分布式能源参与配电网调压优化方法中，动作网络为策略网络，用来进行储能充放电的动作选择，价值网络为评估网络，用来对策略函数选择的储能出力动作进行评估。

进一步地，所述基于DDPG的分布式能源参与配电网调压优化方法中，储能充放电策略为根据当前储能参与配电网调压的策略μ和随机OU噪声N_t生成的随机过程，从该随机过程采样获得a_t的值。

本发明实施例提供的一种基于DDPG的分布式能源参与配电网调压优化方法，采用的DDPG算法是一种“模型友好”算法，将原始分布式能源参与配电网调压优化策略问题运用马尔可夫决策过程方法转化为策略决策问题，提高了算法的通用性；通过运用目标网络提高样本训练的稳定性，更易于收敛，且具有可行性更高，运行成本更低的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的基于DDPG的分布式能源参与配电网调压优化方法的流程示意图；

图2是本发明实施例提供的基于DDPG算法的分布式能源参与配电网调压优化策略的框架图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

请参阅附图1，为本发明实施例一提供的一种基于DDPG的分布式能源参与配电网调压优化方法的流程示意图。该方法具体包括如下步骤：

分布式能源参与配电网调压的目标函数为：

F(x)＝min(C+V)…………………………(1)；

式中，F(x)为目标函数，C为分布式储能的运行成本，V为配电网节点平均电压偏差；P为分布式储能发出的有功功率，MW；a、b、c为发电成本系数；U_B为基准电压，kV。

约束条件包括潮流约束以及分布式光伏发电和储能的容量约束：

(1)潮流约束：

(2)不等式约束：

Q_PVmin(t)≤Q_PV(t)≤Q_PVmax(t)…………………………(5)；

P_PVmin(t)≤P_PV(t)≤P_PVmax(t)…………………………(6)；

Q_WTmin(t)≤Q_WT(t)≤Q_WTmax(t)…………………………(7)；

P_WTmin(t)≤P_WT(t)≤P_WTmax(t)…………………………(8)；

k_SOCmin(t)≤k_SOC(t)≤k_SOCmax(t)…………………………(9)；

U_imin(t)≤U_i(t)≤U_imax(t)…………………………(10)；

其中，Q_PV(t)、Q_WT(t)分别为i节点接入的分布式光伏发电和分散式风力发电的无功容量，Q_PVmax(t)、Q_WTmax(t)、Q_PVmin(t)、Q_WTmin(t)分别为分布式光伏发电和分散式风力发电无功容量的上下限；P_PV(t)、P_WT(t)为分布式光伏发电和分散式风力发电接入系统t时段的有功功率，P_PVmax(t)、P_WTmax(t)、P_PVmin(t)、P_WTmin(t)为分布式光伏发电和分散式风力发电有功功率的上下限；k_SOC(t)为分布式储能装置t时段储能容量，k_SOCmax(t)、k_SOCmin(t)分别为储能装置的容量上下限；U_i(t)为节点i在t时段的电压幅值，U_imax(t)，U_imin(t)为节点电压的上下限；

然后，分布式能源参与配电网调压通过储能系统的充放电实现，因此，定义储能充放电功率反馈函数：

其中：d_τ表示t时刻配电网的节点电压值，e_τ表示t时刻储能系统的充放电功率(充电为正，放电为负)；

r_t＝|e_τ|·p_τ-|e_τ|·c_τ…………………………(12)；

式中，γ为折扣因数，γ∈(0,1)；另外，马尔可夫决策过程还包括状态转移概率函数表示为：

T＝(s_t,a_t,r_t,s_t+1)…………………………(14)。

S3、构建基于DDPG的分布式能源参与调压优化算法架：

定义动作价值Q函数为：

Q^μ(s_t,a_t)＝E[R_t|s_t,a_t；μ]…………………………(15)；

其中，最优策略下满足贝尔曼等式的Q函数为：

定义储能充放电功率策略性能函数为：

J(μ)＝E[R₁；μ^*]…………………………(17)；

根据DDPG中的动作-价值架构，动作网络为策略网络，用来进行储能充放电的动作选择，使用神经网络近似表示动作价值Q函数为网络参数θ^Q，价值网络为评估网络，用来对策略函数选择的储能出力动作进行评估，使用神经网络近似表示储能充放电功率策略函数为网络参数θ^μ；

S4、获取某地区配电网的节点电压、分布式电源(光伏、风电)和分布式储能的历史数据，设定动作网络学习率以及价值网络的学习率分别为α^a和α^c，学习回合数为M；

初始化动作网络和价值网络的神经网络参数:θ^Q和θ^μ；

S6、求解t时刻储能充放电策略值并计算奖励值：

对每个学习回合：初始化OU随机过程；

对每个学习回合中的每一时刻t：

a_t＝μ(s_t|θ^μ)+N_t…………………………(18)；

储能充放电策略是一个根据当前储能参与配电网调压的策略μ和随机OU噪声N_t生成的随机过程，从这个随机过程采样获得a_t的值。

S7、存储状态转移函数：

通过仿真环境计算并返回奖励值r_t和新的状态s_t+1；

我们用(s_i,a_i,r_i,s_i+1)表示最小规模m中的单个状态转换过程数据；

S9、最优化动作网络、价值网络以及相对应的目标网络；

计算Q网络的梯度：

定义损耗函数为：

其中，y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ′)θ^Q′)；

通过最小化损耗函数L对价值网络进行迭代：

估计储能充放电功率策略性能函数J的梯度：

对目标网络进行迭代：

θ^Q’←ρθ^Q+(1-ρ)θ^Q’…………………………(23)；

θ^μ’←ρθ^μ+(1-ρ)θ^μ’…………………………(24)；

S10、若|R|＞m，迭代终止，否则重复步骤S8～S9。

基于DDPG算法的分布式能源参与配电网调压优化策略框架如图2所示.

需要说明的是，本发明实施例中关键技术点在于：

(1)将分布式能源参与配电网调压问题转化为马尔可夫决策过程模型，模型包括1)状态空间；2)动作空间；3)储能系统参与配电网调压的奖励值函数；4)状态转移概率函数；

(2)根据DDPG算法原理，定义动作价值Q函数和储能充放电功率策略性能函数。

(3)根据确定性深度确定性策略梯度算法DDPG中的动作-价值架构，动作网络用来进行储能充放电的动作选择，使用神经网络近似表示动作价值Q函数为网络参数θ^Q，价值网络用来对策略函数选择的储能出力动作进行评估，使用神经网络近似表示储能充放电功率策略函数为网络参数θ^μ。动作网络以及价值网络引入两个目标网络θ^μ'和θ^Q'。经验回放缓存R用来存储每一时刻的马尔可夫过程状态转移概率函数。

(4)利用深度确定性策略梯度算法DDPG对分布式能源参与配电网调压优化策略问题进行求解，通过迭代更新“动作”网络θ^Q以及“价值”网络θ^μ以及与之相对应的两个目标(target)网络θ^μ'和θ^Q'，得到分布式能源参与配电网调压的最优策略。

至此，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于DDPG的分布式能源参与配电网调压优化方法，其特征在于，包括：

F(x)＝min(C+V)；

r_t＝|e_τ|·p_τ-|e_τ|·c_τ；

式中，Y为折扣因数，γ∈(0,1)；

S3、构建基于DDPG的分布式能源参与调压优化算法架：

定义动作价值Q函数为：

Q^μ(s_t,a_t)＝E[R_t|s_t,a_t；μ]；

其中，最优策略下满足贝尔曼等式的Q函数为：

定义储能充放电功率策略性能函数为：

J(μ)＝E[R₁；μ^*]；

初始化动作网络和价值网络的神经网络参数:θ^Q和θ^μ；

S6、求解t时刻储能充放电策略值并计算奖励值：

对每个学习回合：初始化OU随机过程；

对每个学习回合中的每一时刻t：

a_t＝μ(s_t|θ^μ)+N_t；

S7、存储状态转移函数：

通过仿真环境计算并返回奖励值r_t和新的状态s_t+1；

S9、最优化动作网络、价值网络以及相对应的目标网络；

计算Q网络的梯度：

定义损耗函数为：

其中，y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')θ^Q')；

通过最小化损耗函数L对价值网络进行迭代：

估计储能充放电功率策略性能函数J的梯度：

对目标网络进行迭代：

θ^Q'←ρθ^Q+(1-ρ)θ^Q'；

θ^μ'←ρθ^μ+(1-ρ)θ^μ'；

S10、若|R|＞m，迭代终止，否则重复步骤S8～S9；

2.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法，其特征在于，所述相关的约束条件包括：

(1)潮流约束：

其中，P_i(t)、Q_i(t)分别为t时段i节点的注入有功和无功功率；U_i(t)、U_j(t)分别为t时段i、j节点的电压幅值；G_ij和B_ij分别为支路ij的电导和电纳；θ_ij(t)为节点i与j在时段t的电压相角差；

(2)不等式约束：

Q_PVmin(t)≤Q_PV(t)≤Q_PVmax(t)；

P_PVmin(t)≤P_PV(t)≤P_PVmax(t)；

Q_WTmin(t)≤Q_WT(t)≤Q_WTmax(t)；

P_WTmin(t)≤P_WT(t)≤P_WTmax(t)；

k_SOCmin(t)≤k_SOC(t)≤k_SOCmax(t)；

U_imin(t)≤U_i(t)≤U_imax(t)；

3.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法，其特征在于，所述马尔可夫决策过程模型还包括状态转移概率函数，表示为：

T＝(s_t,a_t,r_t,s_t+1)。

4.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法，其特征在于，动作网络为策略网络，用来进行储能充放电的动作选择，价值网络为评估网络，用来对策略函数选择的储能出力动作进行评估。

5.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法，其特征在于，储能充放电策略为根据当前储能参与配电网调压的策略μ和随机OU噪声N_t生成的随机过程，从该随机过程采样获得a_t的值。