CN110365056A - 一种基于ddpg的分布式能源参与配电网调压优化方法 - Google Patents

一种基于ddpg的分布式能源参与配电网调压优化方法 Download PDF

Info

Publication number
CN110365056A
CN110365056A CN201910749502.7A CN201910749502A CN110365056A CN 110365056 A CN110365056 A CN 110365056A CN 201910749502 A CN201910749502 A CN 201910749502A CN 110365056 A CN110365056 A CN 110365056A
Authority
CN
China
Prior art keywords
network
power
pressure regulation
function
power distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910749502.7A
Other languages
English (en)
Other versions
CN110365056B (zh
Inventor
马溪原
雷金勇
胡洋
周长城
田兵
袁智勇
罗俊平
丁士
黄安迪
练依情
郭祚刚
谈赢杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Electric Power Research Institute
China Southern Power Grid Co Ltd
Research Institute of Southern Power Grid Co Ltd
Original Assignee
China Southern Power Grid Co Ltd
Research Institute of Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Co Ltd, Research Institute of Southern Power Grid Co Ltd filed Critical China Southern Power Grid Co Ltd
Priority to CN201910749502.7A priority Critical patent/CN110365056B/zh
Publication of CN110365056A publication Critical patent/CN110365056A/zh
Application granted granted Critical
Publication of CN110365056B publication Critical patent/CN110365056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Abstract

本发明公开了一种基于DDPG的分布式能源参与配电网调压优化方法,将确定性深度确定性策略梯度算法运用到分布式能源参与配电网调压中,由于所采用的DDPG算法是一种“模型友好”算法,将原始分布式能源参与配电网调压优化策略问题运用马尔可夫决策过程方法转化为策略决策问题,提高了算法的通用性;通过运用目标网络提高样本训练的稳定性,更易于收敛,且具有可行性更高,运行成本更低的优点。

Description

一种基于DDPG的分布式能源参与配电网调压优化方法
技术领域
本发明实施例涉及电力系统技术领域,尤其涉及一种基于DDPG的分布式能源参与配电网调压优化方法。
背景技术
随着中国经济的迅速发展,电力用户用电量增大,对电压质量的要求越来越高。一方面,在用户用电高峰期时,较高需求的有功功率流过线路,线路损耗大,电压降落严重,电压偏低问题出现;另一方面,由于我国配电系统建设水平相比于发、输电系统落后,导致配电网电压质量问题更为突出。目前电压质量问题中尤以电压偏低、电压波动和供电电压偏差最为常见。针对此类问题,传统供电方式已不能满足当前时代发展的需求,而且会造成大量不必要的损失。而分布式能源具有节能环保、经济、能源利用率高等优点,因此能够较好地调节配电网电能质量,提升供电的安全性以及可靠性。
首先,分布式能源单机容量小、机组数目多,分布也比较分散,启动和停机便捷迅速,运行控制具有很强的灵活性。在相关控制策略下,分布式能源只需很短的时间就可以投入使用,也可以根据需要迅速退出运行。如果分布式能源能够在电网发生故障和扰动时继续保持运行,或者能转做备用电源,对于减小停电范围或者缩短停电时间都是很有帮助的,对于很多节点的电压暂降问题也都有抑制作用。
其次,分布式电源和电力用户距离很近,容易实现有功功率的就近提供和无功功率的就近补偿,而且输电损耗小。在传统的配电网中,当用户负荷突然大量增加或大量减少时,供电线路的电源会明显降低或升高,造成明显的电压偏差。如果用户负荷的变动数量大而且是动态变化,那么还会造成电压波动与闪变等问题。当分布式能源与当地负荷能够协调运行(分布式电源输出与负荷同步变化)时,将抑制系统电压的波动。具体而言也就是,若能将分布式电源也纳入电网的统一调度管理,那么在用户负荷突然大量增加或减小时,就可以根据负荷的变化相应调整分布式电源的输出功率,从而对负荷的功率变动进行补偿,抑制电压的大幅度波动。
目前现有的技术是运用一种基于结构经验风险最小化的极限学习机的方法。通过分布式能源接入配电网后潮流变化情况分析分布式的能源并网对电压影响的主要因素,在传统的极限学习机中引入结构风险最小化原理,克服其学习容易出现过拟合的问题。将配电网中分布式电源的输出功率和各负荷点的功率作为极限学习机的输入,输出为配电网中的开关状态,对极限学习机进行训练,利用极限学刊机优化配电网的网络结构,并控制并联补偿装置的投切调节配电网电压。
极限学习机(ELM)是2006年提出的一种新的单隐藏层反馈神经网络(SLFNs)学习机,ELM具有SLFNs结构简单、学习速度快的特点,同时利用Penrose-Moore广义逆求解网络权重,获得较小的权重范数。避免了基于梯度下降学习方法容易局部极小、迭代次数多、性能指标及学习率的确定困难等缺点,可获得良好的网络泛化性能。ELM可实现压缩、特征
学习、聚类、回归和分类等功能,已在多个领域得到了应用。目前ELM已应用在电力系统研究中的负荷预测、风电功率预测、电力建设成本估算、变压器故障分析等,同时也有研究将ELM用以反映配电网负荷模式与配电网最优结构之问的非线性关系。
现有的分布式电源并网的相关研究主要针对用电负荷与分布式电源都是静态的场景、或者在分布式电源规划方法的优化上,这些研究多以降低网损,降低分布式电源投资或运营成本为目标函数,在规划阶段能一定程度上优化分布式电源并网相关问题,但是针对负荷水平和分布式电源出力不确定性的配电网电压优化控制方法研究仍亟待完善,同时现有算法对模型依赖性较强。
发明内容
本发明提供一种基于DDPG的分布式能源参与配电网调压优化方法,以解决现有技术的不足。
为实现上述目的,本发明提供以下的技术方案:
一种基于DDPG的分布式能源参与配电网调压优化方法,包括:
S1、构建分布式能源参与配电网调压优化策略模型,确定系统目标函数、相关的约束条件和算法参数,形成原始优化问题;
其中,分布式能源参与配电网调压优化策略模型的目标函数为:
F(x)=min(C+V);
式中,F(x)为目标函数,C为分布式储能的运行成本,V为配电网节点平均电压偏差;P为分布式储能发出的有功功率;a、b、c为发电成本系数;UB为基准电压;
S2、将分布式能源参与配电网调压优化策略模型转化为马尔可夫决策过程模型;
其中,所述马尔可夫决策过程模型包括状态空间st={dτ,eτ,cτ},t∈T,动作空间at=et,t∈T,cτ为储能系统的运行成本,cτ∈C,基于深度确定性策略梯度算法DDPG,定义储能系统参与配电网调压策略为et=μ(st),奖励值函数:
rt=|eτ|·pτ-|eτ|·cτ
式中,pτ为储能系统提供调压服务的收益,全周期奖励值函数求和为:
式中,γ为折扣因数,γ∈(0,1);
S3、构建基于DDPG的分布式能源参与调压优化算法架:
定义动作价值Q函数为:
Qμ(st,at)=E[Rt|st,at;μ];
其中,最优策略下满足贝尔曼等式的Q函数为:
式中,P{st+1|st}为由状态st以及动作at转移到状态st+1的概率;
定义储能充放电功率策略性能函数为:
J(μ)=E[R1;μ*];
根据DDPG中的动作-价值架构,使用神经网络近似表示动作价值Q函数为网络参数θQ,使用神经网络近似表示储能充放电功率策略函数为网络参数θμ
分别为动作网络以及价值网络引入两个目标网络θμ'和θQ'
定义经验回放缓存R,每一次迭代从R中随机选取最小规模m的样本用来估计动作价值Q函数和策略函数的梯度;
S4、获取某地区配电网的节点电压、分布式电源和分布式储能的历史数据,设定动作网络学习率以及价值网络的学习率分别为αa和αc,学习回合数为M;
S5、利用DDPG算法对分布式能源参与配电网调压优化策略模型进行求解,求解过程如下:
初始化动作网络和价值网络的神经网络参数:θQ和θμ
将两个网络的参数拷贝给对应的目标网络参数:θQ'←θQ,θμ'←θμ;初始化经验回放缓存R;
S6、求解t时刻储能充放电策略值并计算奖励值:
对每个学习回合:初始化OU随机过程;
对每个学习回合中的每一时刻t:
动作网络根据储能充放电策略选择一个动作at下达给仿真环境执行该动作:
at=μ(stμ)+Nt
S7、存储状态转移函数:
通过仿真环境计算并返回奖励值rt和新的状态st+1
动作网络将这个状态转换过程:(st,at,rt,st+1)存入经验回放缓存R中,作为状态转移函数训练动作网络和价值网络的数据集;
S8、从经验回放缓存R中,随机采样N个状态转换过程数据,作为动作网络和价值网络的一个最小规模m的训练数据;
用(si,ai,ri,si+1)表示最小规模m中的单个状态转换过程数据;
S9、最优化动作网络、价值网络以及相对应的目标网络;
计算Q网络的梯度:
定义损耗函数为:
其中,yi=ri+γQ'(si+1,μ'(si+1μ′Q′);
通过最小化损耗函数L对价值网络进行迭代:
估计储能充放电功率策略性能函数J的梯度:
通过公式最大化储能充放电功率策略性能函数J对动作网络进行迭代:
对目标网络进行迭代:
θQ’←ρθQ+(1-ρ)θQ’
θμ’←ρθμ+(1-ρ)θμ’
S10、若|R|>m,迭代终止,否则重复步骤S8~S9。
S11、输出结果,得到分布式能源参与配电网调压的最优策略。
进一步地,所述基于DDPG的分布式能源参与配电网调压优化方法中,所述相关的约束条件包括:
(1)潮流约束:
其中,Pi(t)、Qi(t)分别为t时段i节点的注入有功和无功功率;Ui(t)、Uj(t)分别为t时段i、j节点的电压幅值;Gij和Bij分别为支路ij的电导和电纳;θij(t)为节点i与j在时段t的电压相角差。
(2)不等式约束:
QPVmin(t)≤QPV(t)≤QPVmax(t);
PPVmin(t)≤PPV(t)≤PPVmax(t);
QWTmin(t)≤QWT(t)≤QWTmax(t);
PWTmin(t)≤PWT(t)≤PWTmax(t);
kSOCmin(t)≤kSOC(t)≤kSOCmax(t);
Uimin(t)≤Ui(t)≤Uimax(t);
其中,QPV(t)、QWT(t)分别为i节点接入的分布式光伏发电和分散式风力发电的无功容量,QPVmax(t)、QWTmax(t)、QPVmin(t)、QWTmin(t)分别为分布式光伏发电和分散式风力发电无功容量的上下限;PPV(t)、PWT(t)为分布式光伏发电和分散式风力发电接入系统t时段的有功功率,PPVmax(t)、PWTmax(t)、PPVmin(t)、PWTmin(t)为分布式光伏发电和分散式风力发电有功功率的上下限;kSOC(t)为分布式储能装置t时段储能容量,kSOCmax(t)、kSOCmin(t)分别为储能装置的容量上下限;Ui(t)为节点i在t时段的电压幅值,Uimax(t),Uimin(t)为节点电压的上下限。
进一步地,所述基于DDPG的分布式能源参与配电网调压优化方法中,所述马尔可夫决策过程模型还包括状态转移概率函数,表示为:
T=(st,at,rt,st+1)。
进一步地,所述基于DDPG的分布式能源参与配电网调压优化方法中,动作网络为策略网络,用来进行储能充放电的动作选择,价值网络为评估网络,用来对策略函数选择的储能出力动作进行评估。
进一步地,所述基于DDPG的分布式能源参与配电网调压优化方法中,储能充放电策略为根据当前储能参与配电网调压的策略μ和随机OU噪声Nt生成的随机过程,从该随机过程采样获得at的值。
本发明实施例提供的一种基于DDPG的分布式能源参与配电网调压优化方法,采用的DDPG算法是一种“模型友好”算法,将原始分布式能源参与配电网调压优化策略问题运用马尔可夫决策过程方法转化为策略决策问题,提高了算法的通用性;通过运用目标网络提高样本训练的稳定性,更易于收敛,且具有可行性更高,运行成本更低的优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的基于DDPG的分布式能源参与配电网调压优化方法的流程示意图;
图2是本发明实施例提供的基于DDPG算法的分布式能源参与配电网调压优化策略的框架图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
请参阅附图1,为本发明实施例一提供的一种基于DDPG的分布式能源参与配电网调压优化方法的流程示意图。该方法具体包括如下步骤:
S1、构建分布式能源参与配电网调压优化策略模型,确定系统目标函数、相关的约束条件和算法参数,形成原始优化问题;
其中,分布式能源参与配电网调压优化策略模型的目标函数为:
分布式能源参与配电网调压的目标函数为:
F(x)=min(C+V)…………………………(1);
式中,F(x)为目标函数,C为分布式储能的运行成本,V为配电网节点平均电压偏差;P为分布式储能发出的有功功率,MW;a、b、c为发电成本系数;UB为基准电压,kV。
约束条件包括潮流约束以及分布式光伏发电和储能的容量约束:
(1)潮流约束:
其中,Pi(t)、Qi(t)分别为t时段i节点的注入有功和无功功率;Ui(t)、Uj(t)分别为t时段i、j节点的电压幅值;Gij和Bij分别为支路ij的电导和电纳;θij(t)为节点i与j在时段t的电压相角差。
(2)不等式约束:
QPVmin(t)≤QPV(t)≤QPVmax(t)…………………………(5);
PPVmin(t)≤PPV(t)≤PPVmax(t)…………………………(6);
QWTmin(t)≤QWT(t)≤QWTmax(t)…………………………(7);
PWTmin(t)≤PWT(t)≤PWTmax(t)…………………………(8);
kSOCmin(t)≤kSOC(t)≤kSOCmax(t)…………………………(9);
Uimin(t)≤Ui(t)≤Uimax(t)…………………………(10);
其中,QPV(t)、QWT(t)分别为i节点接入的分布式光伏发电和分散式风力发电的无功容量,QPVmax(t)、QWTmax(t)、QPVmin(t)、QWTmin(t)分别为分布式光伏发电和分散式风力发电无功容量的上下限;PPV(t)、PWT(t)为分布式光伏发电和分散式风力发电接入系统t时段的有功功率,PPVmax(t)、PWTmax(t)、PPVmin(t)、PWTmin(t)为分布式光伏发电和分散式风力发电有功功率的上下限;kSOC(t)为分布式储能装置t时段储能容量,kSOCmax(t)、kSOCmin(t)分别为储能装置的容量上下限;Ui(t)为节点i在t时段的电压幅值,Uimax(t),Uimin(t)为节点电压的上下限;
然后,分布式能源参与配电网调压通过储能系统的充放电实现,因此,定义储能充放电功率反馈函数:
其中:dτ表示t时刻配电网的节点电压值,eτ表示t时刻储能系统的充放电功率(充电为正,放电为负);
S2、将分布式能源参与配电网调压优化策略模型转化为马尔可夫决策过程模型;
其中,所述马尔可夫决策过程模型包括状态空间st={dτ,eτ,cτ},t∈T,动作空间at=et,t∈T,cτ为储能系统的运行成本,cτ∈C,基于深度确定性策略梯度算法DDPG,定义储能系统参与配电网调压策略为et=μ(st),奖励值函数:
rt=|eτ|·pτ-|eτ|·cτ…………………………(12);
式中,pτ为储能系统提供调压服务的收益,全周期奖励值函数求和为:
式中,γ为折扣因数,γ∈(0,1);另外,马尔可夫决策过程还包括状态转移概率函数表示为:
T=(st,at,rt,st+1)…………………………(14)。
S3、构建基于DDPG的分布式能源参与调压优化算法架:
定义动作价值Q函数为:
Qμ(st,at)=E[Rt|st,at;μ]…………………………(15);
其中,最优策略下满足贝尔曼等式的Q函数为:
式中,P{st+1|st}为由状态st以及动作at转移到状态st+1的概率;
定义储能充放电功率策略性能函数为:
J(μ)=E[R1;μ*]…………………………(17);
根据DDPG中的动作-价值架构,动作网络为策略网络,用来进行储能充放电的动作选择,使用神经网络近似表示动作价值Q函数为网络参数θQ,价值网络为评估网络,用来对策略函数选择的储能出力动作进行评估,使用神经网络近似表示储能充放电功率策略函数为网络参数θμ
分别为动作网络以及价值网络引入两个目标网络θμ'和θQ'
定义经验回放缓存R,每一次迭代从R中随机选取最小规模m的样本用来估计动作价值Q函数和策略函数的梯度;
S4、获取某地区配电网的节点电压、分布式电源(光伏、风电)和分布式储能的历史数据,设定动作网络学习率以及价值网络的学习率分别为αa和αc,学习回合数为M;
S5、利用DDPG算法对分布式能源参与配电网调压优化策略模型进行求解,求解过程如下:
初始化动作网络和价值网络的神经网络参数:θQ和θμ
将两个网络的参数拷贝给对应的目标网络参数:θQ'←θQ,θμ'←θμ;初始化经验回放缓存R;
S6、求解t时刻储能充放电策略值并计算奖励值:
对每个学习回合:初始化OU随机过程;
对每个学习回合中的每一时刻t:
动作网络根据储能充放电策略选择一个动作at下达给仿真环境执行该动作:
at=μ(stμ)+Nt…………………………(18);
储能充放电策略是一个根据当前储能参与配电网调压的策略μ和随机OU噪声Nt生成的随机过程,从这个随机过程采样获得at的值。
S7、存储状态转移函数:
通过仿真环境计算并返回奖励值rt和新的状态st+1
动作网络将这个状态转换过程:(st,at,rt,st+1)存入经验回放缓存R中,作为状态转移函数训练动作网络和价值网络的数据集;
S8、从经验回放缓存R中,随机采样N个状态转换过程数据,作为动作网络和价值网络的一个最小规模m的训练数据;
我们用(si,ai,ri,si+1)表示最小规模m中的单个状态转换过程数据;
S9、最优化动作网络、价值网络以及相对应的目标网络;
计算Q网络的梯度:
定义损耗函数为:
其中,yi=ri+γQ'(si+1,μ'(si+1μ′Q′);
通过最小化损耗函数L对价值网络进行迭代:
估计储能充放电功率策略性能函数J的梯度:
通过公式最大化储能充放电功率策略性能函数J对动作网络进行迭代:
对目标网络进行迭代:
θQ’←ρθQ+(1-ρ)θQ’…………………………(23);
θμ’←ρθμ+(1-ρ)θμ’…………………………(24);
S10、若|R|>m,迭代终止,否则重复步骤S8~S9。
S11、输出结果,得到分布式能源参与配电网调压的最优策略。
基于DDPG算法的分布式能源参与配电网调压优化策略框架如图2所示.
需要说明的是,本发明实施例中关键技术点在于:
(1)将分布式能源参与配电网调压问题转化为马尔可夫决策过程模型,模型包括1)状态空间;2)动作空间;3)储能系统参与配电网调压的奖励值函数;4)状态转移概率函数;
(2)根据DDPG算法原理,定义动作价值Q函数和储能充放电功率策略性能函数。
(3)根据确定性深度确定性策略梯度算法DDPG中的动作-价值架构,动作网络用来进行储能充放电的动作选择,使用神经网络近似表示动作价值Q函数为网络参数θQ,价值网络用来对策略函数选择的储能出力动作进行评估,使用神经网络近似表示储能充放电功率策略函数为网络参数θμ。动作网络以及价值网络引入两个目标网络θμ'和θQ'。经验回放缓存R用来存储每一时刻的马尔可夫过程状态转移概率函数。
(4)利用深度确定性策略梯度算法DDPG对分布式能源参与配电网调压优化策略问题进行求解,通过迭代更新“动作”网络θQ以及“价值”网络θμ以及与之相对应的两个目标(target)网络θμ'和θQ',得到分布式能源参与配电网调压的最优策略。
至此,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于DDPG的分布式能源参与配电网调压优化方法,其特征在于,包括:
S1、构建分布式能源参与配电网调压优化策略模型,确定系统目标函数、相关的约束条件和算法参数,形成原始优化问题;
其中,分布式能源参与配电网调压优化策略模型的目标函数为:
F(x)=min(C+V);
式中,F(x)为目标函数,C为分布式储能的运行成本,V为配电网节点平均电压偏差;P为分布式储能发出的有功功率;a、b、c为发电成本系数;UB为基准电压;
S2、将分布式能源参与配电网调压优化策略模型转化为马尔可夫决策过程模型;
其中,所述马尔可夫决策过程模型包括状态空间st={dτ,eτ,cτ},t∈T,动作空间at=et,t∈T,cτ为储能系统的运行成本,cτ∈C,基于深度确定性策略梯度算法DDPG,定义储能系统参与配电网调压策略为et=μ(st),奖励值函数:
rt=|eτ|·pτ-|eτ|·cτ
式中,pτ为储能系统提供调压服务的收益,全周期奖励值函数求和为:
式中,Y为折扣因数,γ∈(0,1);
S3、构建基于DDPG的分布式能源参与调压优化算法架:
定义动作价值Q函数为:
Qμ(st,at)=E[Rt|st,at;μ];
其中,最优策略下满足贝尔曼等式的Q函数为:
式中,P{st+1|st}为由状态st以及动作at转移到状态st+1的概率;
定义储能充放电功率策略性能函数为:
J(μ)=E[R1;μ*];
根据DDPG中的动作-价值架构,使用神经网络近似表示动作价值Q函数为网络参数θQ,使用神经网络近似表示储能充放电功率策略函数为网络参数θμ
分别为动作网络以及价值网络引入两个目标网络θμ'和θQ'
定义经验回放缓存R,每一次迭代从R中随机选取最小规模m的样本用来估计动作价值Q函数和策略函数的梯度;
S4、获取某地区配电网的节点电压、分布式电源和分布式储能的历史数据,设定动作网络学习率以及价值网络的学习率分别为αa和αc,学习回合数为M;
S5、利用DDPG算法对分布式能源参与配电网调压优化策略模型进行求解,求解过程如下:
初始化动作网络和价值网络的神经网络参数:θQ和θμ
将两个网络的参数拷贝给对应的目标网络参数:θQ'←θQ,θμ'←θμ;初始化经验回放缓存R;
S6、求解t时刻储能充放电策略值并计算奖励值:
对每个学习回合:初始化OU随机过程;
对每个学习回合中的每一时刻t:
动作网络根据储能充放电策略选择一个动作at下达给仿真环境执行该动作:
at=μ(stμ)+Nt
S7、存储状态转移函数:
通过仿真环境计算并返回奖励值rt和新的状态st+1
动作网络将这个状态转换过程:(st,at,rt,st+1)存入经验回放缓存R中,作为状态转移函数训练动作网络和价值网络的数据集;
S8、从经验回放缓存R中,随机采样N个状态转换过程数据,作为动作网络和价值网络的一个最小规模m的训练数据;
用(si,ai,ri,si+1)表示最小规模m中的单个状态转换过程数据;
S9、最优化动作网络、价值网络以及相对应的目标网络;
计算Q网络的梯度:
定义损耗函数为:
其中,yi=ri+γQ'(si+1,μ'(si+1μ'Q');
通过最小化损耗函数L对价值网络进行迭代:
估计储能充放电功率策略性能函数J的梯度:
通过公式最大化储能充放电功率策略性能函数J对动作网络进行迭代:
对目标网络进行迭代:
θQ'←ρθQ+(1-ρ)θQ'
θμ'←ρθμ+(1-ρ)θμ'
S10、若|R|>m,迭代终止,否则重复步骤S8~S9;
S11、输出结果,得到分布式能源参与配电网调压的最优策略。
2.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法,其特征在于,所述相关的约束条件包括:
(1)潮流约束:
其中,Pi(t)、Qi(t)分别为t时段i节点的注入有功和无功功率;Ui(t)、Uj(t)分别为t时段i、j节点的电压幅值;Gij和Bij分别为支路ij的电导和电纳;θij(t)为节点i与j在时段t的电压相角差;
(2)不等式约束:
QPVmin(t)≤QPV(t)≤QPVmax(t);
PPVmin(t)≤PPV(t)≤PPVmax(t);
QWTmin(t)≤QWT(t)≤QWTmax(t);
PWTmin(t)≤PWT(t)≤PWTmax(t);
kSOCmin(t)≤kSOC(t)≤kSOCmax(t);
Uimin(t)≤Ui(t)≤Uimax(t);
其中,QPV(t)、QWT(t)分别为i节点接入的分布式光伏发电和分散式风力发电的无功容量,QPVmax(t)、QWTmax(t)、QPVmin(t)、QWTmin(t)分别为分布式光伏发电和分散式风力发电无功容量的上下限;PPV(t)、PWT(t)为分布式光伏发电和分散式风力发电接入系统t时段的有功功率,PPVmax(t)、PWTmax(t)、PPVmin(t)、PWTmin(t)为分布式光伏发电和分散式风力发电有功功率的上下限;kSOC(t)为分布式储能装置t时段储能容量,kSOCmax(t)、kSOCmin(t)分别为储能装置的容量上下限;Ui(t)为节点i在t时段的电压幅值,Uimax(t),Uimin(t)为节点电压的上下限。
3.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法,其特征在于,所述马尔可夫决策过程模型还包括状态转移概率函数,表示为:
T=(st,at,rt,st+1)。
4.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法,其特征在于,动作网络为策略网络,用来进行储能充放电的动作选择,价值网络为评估网络,用来对策略函数选择的储能出力动作进行评估。
5.根据权利要求1所述的基于DDPG的分布式能源参与配电网调压优化方法,其特征在于,储能充放电策略为根据当前储能参与配电网调压的策略μ和随机OU噪声Nt生成的随机过程,从该随机过程采样获得at的值。
CN201910749502.7A 2019-08-14 2019-08-14 一种基于ddpg的分布式能源参与配电网调压优化方法 Active CN110365056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749502.7A CN110365056B (zh) 2019-08-14 2019-08-14 一种基于ddpg的分布式能源参与配电网调压优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749502.7A CN110365056B (zh) 2019-08-14 2019-08-14 一种基于ddpg的分布式能源参与配电网调压优化方法

Publications (2)

Publication Number Publication Date
CN110365056A true CN110365056A (zh) 2019-10-22
CN110365056B CN110365056B (zh) 2021-03-12

Family

ID=68223921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749502.7A Active CN110365056B (zh) 2019-08-14 2019-08-14 一种基于ddpg的分布式能源参与配电网调压优化方法

Country Status (1)

Country Link
CN (1) CN110365056B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111799808A (zh) * 2020-06-23 2020-10-20 清华大学 一种电网无功电压分布式控制方法及系统
CN112084680A (zh) * 2020-09-02 2020-12-15 沈阳工程学院 一种基于dqn算法的能源互联网优化策略方法
CN112100920A (zh) * 2020-09-15 2020-12-18 东南大学 一种配电网三相电压计算方法、装置、设备及存储介质
CN112290536A (zh) * 2020-09-23 2021-01-29 电子科技大学 基于近端策略优化的电-热综合能源系统在线调度方法
CN112467752A (zh) * 2020-11-25 2021-03-09 青岛创新奇智科技集团有限公司 分布式能源配电系统调压方法及装置
CN112488826A (zh) * 2020-12-16 2021-03-12 北京逸风金科软件有限公司 基于深度强化学习对银行风险定价的优化方法和装置
CN112507614A (zh) * 2020-12-01 2021-03-16 广东电网有限责任公司中山供电局 一种分布式电源高渗透率地区电网综合优化方法
CN113095715A (zh) * 2021-04-29 2021-07-09 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113141017A (zh) * 2021-04-29 2021-07-20 福州大学 基于ddpg算法和soc恢复的储能系统参与电网一次调频的控制方法
CN114188997A (zh) * 2021-12-07 2022-03-15 国网甘肃省电力公司电力科学研究院 一种高占比新能源电源接入区域电网的动态无功优化方法
CN114243718A (zh) * 2021-12-23 2022-03-25 华北电力大学(保定) 一种基于ddpg算法的电网无功电压协调控制方法
CN114336759A (zh) * 2022-01-10 2022-04-12 国网上海市电力公司 一种基于深度强化学习的微电网自治运行电压控制方法
CN114330649A (zh) * 2021-12-13 2022-04-12 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114648178A (zh) * 2022-05-12 2022-06-21 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法
CN114725936A (zh) * 2022-04-21 2022-07-08 电子科技大学 基于多智能体深度强化学习的配电网优化方法
CN116755409A (zh) * 2023-07-04 2023-09-15 中国矿业大学 一种基于值分布ddpg算法的燃煤发电系统协调控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107104433A (zh) * 2017-05-15 2017-08-29 国网江苏省电力公司电力科学研究院 一种光储系统参与配电网优化运行策略的获取方法
CN108826354A (zh) * 2018-05-11 2018-11-16 上海交通大学 一种基于强化学习的火电燃烧优化方法
CN109980685A (zh) * 2019-04-02 2019-07-05 东南大学 一种考虑不确定性的主动配电网分布式优化运行方法
CN110109356A (zh) * 2019-05-15 2019-08-09 中南大学 锌电解过程无模型自适应学习型最优化控制方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107104433A (zh) * 2017-05-15 2017-08-29 国网江苏省电力公司电力科学研究院 一种光储系统参与配电网优化运行策略的获取方法
CN108826354A (zh) * 2018-05-11 2018-11-16 上海交通大学 一种基于强化学习的火电燃烧优化方法
CN109980685A (zh) * 2019-04-02 2019-07-05 东南大学 一种考虑不确定性的主动配电网分布式优化运行方法
CN110109356A (zh) * 2019-05-15 2019-08-09 中南大学 锌电解过程无模型自适应学习型最优化控制方法及系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111799808A (zh) * 2020-06-23 2020-10-20 清华大学 一种电网无功电压分布式控制方法及系统
CN112084680A (zh) * 2020-09-02 2020-12-15 沈阳工程学院 一种基于dqn算法的能源互联网优化策略方法
CN112084680B (zh) * 2020-09-02 2023-12-26 沈阳工程学院 一种基于dqn算法的能源互联网优化策略方法
CN112100920A (zh) * 2020-09-15 2020-12-18 东南大学 一种配电网三相电压计算方法、装置、设备及存储介质
CN112290536A (zh) * 2020-09-23 2021-01-29 电子科技大学 基于近端策略优化的电-热综合能源系统在线调度方法
CN112290536B (zh) * 2020-09-23 2022-12-23 电子科技大学 基于近端策略优化的电-热综合能源系统在线调度方法
CN112467752A (zh) * 2020-11-25 2021-03-09 青岛创新奇智科技集团有限公司 分布式能源配电系统调压方法及装置
CN112507614A (zh) * 2020-12-01 2021-03-16 广东电网有限责任公司中山供电局 一种分布式电源高渗透率地区电网综合优化方法
CN112488826A (zh) * 2020-12-16 2021-03-12 北京逸风金科软件有限公司 基于深度强化学习对银行风险定价的优化方法和装置
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113095715B (zh) * 2021-04-29 2022-07-05 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN113141017A (zh) * 2021-04-29 2021-07-20 福州大学 基于ddpg算法和soc恢复的储能系统参与电网一次调频的控制方法
CN113095715A (zh) * 2021-04-29 2021-07-09 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN114188997A (zh) * 2021-12-07 2022-03-15 国网甘肃省电力公司电力科学研究院 一种高占比新能源电源接入区域电网的动态无功优化方法
CN114330649A (zh) * 2021-12-13 2022-04-12 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114330649B (zh) * 2021-12-13 2023-02-28 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114243718A (zh) * 2021-12-23 2022-03-25 华北电力大学(保定) 一种基于ddpg算法的电网无功电压协调控制方法
CN114336759A (zh) * 2022-01-10 2022-04-12 国网上海市电力公司 一种基于深度强化学习的微电网自治运行电压控制方法
CN114725936A (zh) * 2022-04-21 2022-07-08 电子科技大学 基于多智能体深度强化学习的配电网优化方法
CN114725936B (zh) * 2022-04-21 2023-04-18 电子科技大学 基于多智能体深度强化学习的配电网优化方法
CN114648178A (zh) * 2022-05-12 2022-06-21 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法
CN116755409A (zh) * 2023-07-04 2023-09-15 中国矿业大学 一种基于值分布ddpg算法的燃煤发电系统协调控制方法
CN116755409B (zh) * 2023-07-04 2024-01-12 中国矿业大学 一种基于值分布ddpg算法的燃煤发电系统协调控制方法

Also Published As

Publication number Publication date
CN110365056B (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN110365056A (zh) 一种基于ddpg的分布式能源参与配电网调压优化方法
Li et al. Efficient experience replay based deep deterministic policy gradient for AGC dispatch in integrated energy system
JP7261507B2 (ja) 電気ヒートポンプ-熱電併給システムを最適化する調整方法及びシステム
Zhao et al. An MAS based energy management system for a stand-alone microgrid at high altitude
CN111242443B (zh) 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
CN110365057A (zh) 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN109861202B (zh) 一种柔性互联配电网动态优化调度方法及系统
Xi et al. A wolf pack hunting strategy based virtual tribes control for automatic generation control of smart grid
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
Zare et al. A new multi-objective for environmental and economic management of Volt/Var Control considering renewable energy resources
Xi et al. A deep reinforcement learning algorithm for the power order optimization allocation of AGC in interconnected power grids
CN106712075A (zh) 一种考虑风电并网系统安全约束的调峰策略优化方法
CN113783193B (zh) 一种基于边端协同的乡村供用能系统优化调控方法及系统
Li et al. A novel coordinated optimization strategy for high utilization of renewable energy sources and reduction of coal costs and emissions in hybrid hydro-thermal-wind power systems
CN109936162A (zh) 基于可控负荷提升新能源接纳能力的电网日前发电计划优化方法及系统
Engels et al. A distributed gossip-based voltage control algorithm for peer-to-peer microgrids
Carvalho et al. An adaptive multi-agent-based approach to smart grids control and optimization
Rezazadeh et al. A federated DRL approach for smart micro-grid energy control with distributed energy resources
Li et al. A multi-agent deep reinforcement learning-based “Octopus” cooperative load frequency control for an interconnected grid with various renewable units
Ebell et al. Coordinated multi-agent reinforcement learning for swarm battery control
Li et al. Reactive power convex optimization of active distribution network based on Improved GreyWolf Optimizer
Chen et al. Physical-assisted multi-agent graph reinforcement learning enabled fast voltage regulation for PV-rich active distribution network
CN113904343B (zh) 一种大规模储能集群系统的双层频率控制系统
Zareifard et al. Model predictive control for output smoothing and maximizing the income of a wind power plant integrated with a battery energy storage system
Li et al. Optimal real-time Voltage/Var control for distribution network: Droop-control based multi-agent deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant