CN113872198B - 一种基于强化学习方法的主动配电网故障恢复方法 - Google Patents
一种基于强化学习方法的主动配电网故障恢复方法 Download PDFInfo
- Publication number
- CN113872198B CN113872198B CN202111153648.9A CN202111153648A CN113872198B CN 113872198 B CN113872198 B CN 113872198B CN 202111153648 A CN202111153648 A CN 202111153648A CN 113872198 B CN113872198 B CN 113872198B
- Authority
- CN
- China
- Prior art keywords
- network
- island
- node
- representing
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/008—Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/388—Islanding, i.e. disconnection of local power supply from the network
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Abstract
本发明公开了一种基于强化学习方法的主动配电网故障恢复方法,通过DDPG网络模型对孤岛结构进行配电,包括以下步骤:步骤1:初始化网络参数;步骤2:基于状态st得到动作at;步骤3:执行动作at得到新状态st+1和奖励rt,将(st,at,rt,st+1)存入经验回放集R;步骤4:循环步骤2和步骤3直到达到预设的最大时刻;步骤5:从R中采样m个样本作为训练数据集;步骤6:更新actor双网络和critic双网络;步骤7:循环步骤2至步骤6,直到达到训练总迭代次数,保存神经网络模型。本发明基于配电网中分布式能源出力、节点负荷的不确定性问题,可通过神经网络的训练,实现针对含分布式能源的配电网孤岛恢复的快速求解。
Description
技术领域
本发明属于配网技术领域,具体涉及一种基于深度强化学习算法及源荷不确定性的主动配电网恢复方法。
背景技术
强化学习是一类特殊的机器学习算法,要解决的问题是决策主体在环境中怎样执行动作以获得最大的累计奖励。深度强化学习(DRL,deep reinforcement learning)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端的学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。
随着用户对电能的依赖程度不断提高,人们越来越意识到主动配电网恢复能力的重要性。配电网是高效快捷的电能输送通道,在恶劣天气下配电网可能会遭受严重的破坏,电网一旦破坏定会造成无法估量的损失。在发生故障造成停电事故后,如何采取有效的应对措施,用现有资源实现配电网的快速恢复,对于电网的建设具有重要的现实意义。因此提高配电网的韧性响应成为研究的新方向。
目前对配电网故障恢复的研究有形成孤岛恢复供电以及通过开关倒闸操作进行重构来恢复供电,主要集中在孤岛划分的算法以及重构的算法上。在大电网停电的前提下,分布式电源和负荷形成安全可靠的孤岛结构,保证重要负荷能够供电不中断,提高供电可靠性。这已经成为故障恢复的一种重要处理方式。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于配电网中分布式能源出力、节点负荷的不确定性问题,可通过神经网络的训练,实现针对含分布式能源的配电网孤岛恢复的快速求解的基于强化学习方法的主动配电网故障恢复方法
本发明的目的是通过以下技术方案来实现的:一种基于强化学习方法的主动配电网故障恢复方法,分布式电源和负荷形成孤岛结构,通过DDPG网络模型对孤岛结构进行配电,具体包括以下步骤:
步骤1:初始化Actor当前网络参数θμ和Critic当前网络参数θQ;并将当前网络参数拷贝给对应的Actor目标网络参数θμ′和Critic目标网络参数θQ′;
步骤2:对每个学习回合中的时刻t,Actor当前网络基于状态st得到动作at,并下达给仿真环境执行该动作;
步骤3:执行动作at,得到新状态st+1和奖励rt,并将(st,at,rt,st+1)存入经验回放集R,作为训练Actor网络和Critic网络的数据集;
步骤4:更新时间t=t+1,循环步骤2和步骤3,直到达到预设的最大的时刻T;
步骤5:从经验回放缓存集合R中采样m个样本(st,at,rt,st+1)作为Actor网络和Critic网络的一个最小规模训练数据集;
步骤6:用步骤5得到的训练数据集更新Actor当前网络和Actor目标神经、Critic当前网络和Critic目标网络;
步骤7:循环步骤2至步骤6,直到训练次数达到训练总迭代次数,停止训练,保存DDPG网络模型。
进一步地,所述步骤6具体更新步骤包括:
步骤61、将训练数据集内的状态st输入至Critic当前网络,使用神经网络表示Critic当前网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q(st,at|θQ);
将状态st+1输入Critic目标网络,使用神经网络表示Critic目标网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q′(st+1,μ′(st+1|θμ′)|θQ′);
步骤62、更新Critic当前网络:
计算Critic当前网络的Q值:yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
Critic当前网络损耗函数为:
步骤63、更新Actor当前网络:最优跟踪策略性能函数的梯度为:
步骤64、将Actor目标网络和Critic目标网络的参数更新为:
θQ′←τθQ+(1-τ)θQ′;θμ′←τθμ+(1-τ)θμ′,τ为预设的更新系数。
在t时刻的动作at定义为at={xij,ci,zsi},t∈T,i=1,...,q,ij∈Ωl;其中,xij表示线路(i,j)的恢复决策变量,q表示配电网节点总数量;i、j分别表示线路(i,j)的两个节点,xij等于1表示线路(i,j)恢复运行,xij等于0表示线路(i,j)从系统中切除;ci为节点i切除情况,ci等于0表示节点i归入孤岛运行范围,ci等于1表示节点i被切除;zsi为应急电动汽车配置变量,zsi=1表示应急电动汽车s连接到节点i处,zsi=0表示应急电动汽车s不连接到节点i处;Ωl表示系统所有线路集合;
t时刻的即时奖励rt由评价综合指标与惩罚函数组成:
rt=-rcut-rvol-rpower
其中,rcut为切负荷的目标函数,rvol+rpower为违反约束时的惩罚,rvol为节点电压波动,rpower为功率注入与输出间的关系;
惩罚函数考虑孤岛运行安全约束:
本发明的有益效果是:基于深度确定性梯度策略算法,分析配电网孤岛运行中的各种因素,具体确定算法中的状态、动作、智能体和奖励,其中建立目标函数并以此作为强化学习奖励值的基础;智能体随时间推移与环境交互,在每个时间步智能体收到状态空间中的一个状态;然后遵循策略,从动作空间中选择一个动作,执行之后返回一个奖励值,作为对该动作的评价;进行策略调整保证获得最大的奖励值,从而达到最优的控制策略。
具体实施方式
本发明考虑分布式能源出力具有不确定性,建立了含PV、EV的主动配电网孤岛恢复模型,同时还考虑了电动汽车在孤岛恢复期间的布点配置,使其在孤岛运行时可作为主电源和孤岛内的不可控电源联合运行,保证孤岛运行的稳定,且尽可能多地恢复失电负荷。
构建主动配电网孤岛恢复的数学模型,确定系统目标函数、相关的约束条件和算法参数,形成原始优化问题。孤岛恢复模型为:
①目标函数为:在故障情况下,负荷恢复主要是为了缩小停电范围,提高供电可靠性。目标函数为孤岛运行中切负荷最小。
②孤岛划分:在进行孤岛划分时,系统中的每个节点只能属于某一个孤岛内。节点分为三种:配电网自身的节点,即负荷节点;主动电源接入时连接的节点;恢复供电时的负荷恢复节点(小于等于配电网自身节点数)。除特别说明外,本发明中所描述的节点均为负荷节点。
式中:vis为节点孤岛划分变量;vis=1为节点i属于孤岛s;vis=0为节点i不属于孤岛s;S为孤岛集合。
一条线路(i,j)是只能属于某一个孤岛时,且线路两端节点i,j也必同时属于这个孤岛,否则的话线路(i,j)被断开。xij表示线路(i,j)的恢复决策变量,xij等于1表示线路(i,j)恢复运行,xij等于0表示线路(i,j)从系统中切除。
xij∈{0,1},ij∈Ωl
同时还要保障恢复后形成的孤岛满足辐射状运行要求。
式中:|Ωb|表示系统中所有节点的数量;|S|表示形成孤岛的数量,即主电源的台数;Ωl表示系统所有线路集合。
③应急电动汽车配置约束:每台应急电动汽车作为孤岛内的主电源,其连接点应该属于某个特定的孤岛内:
式中:zsi为应急电动汽车配置变量,zsi=1表示应急电动汽车s连接到节点i处;zsi=0表示应急电动汽车s不连接到节点i处。同时,一个节点只能连接一台应急电动汽车,一台电动汽车只能同时连接一个电网节点:
④孤岛潮流平衡约束:针对故障恢复,建立了含PV、EV的主动配电网潮流方程;
节点注入功率平衡方程为:
线路电压降落方程为:
式中:Pij,Qij分别表示线路(i,j)的有功、无功潮流;Iij表示线路(i,j)电流幅值,Vi表示节点i电压幅值;表示节点i处的光伏电源有功,无功注入;Rij,Xij,Zij分别表示线路(i,j)的电阻、电抗和阻抗值。
⑤运行安全约束:故障后形成的孤岛内部需要满足节点电压约束为:
式中:V0为系统参考电压幅值的平方;ε为电压波动范围参数,本文取0.05;约束式保证了节点电压Vi都在可接受电压波动范围内。
⑥孤岛内功率平衡的约束为:
式中:SDG,s表示孤岛s内分布式电源集合,Ns表示孤岛s内用电负荷集合。
⑦分布式电源的约束:应急电动汽车EV中含有若干块大容量储能电池,在孤岛运行时可作为主电源和孤岛内的不可控电源联合运行,以维持孤岛内的电压、频率稳定。
对应急电动汽车中的储能电池做如下建模PEV:
0≤Pev≤Pmax
Pev表示应急电动汽车的放电功率。
目标函数①作为奖励值rcut的一部分,相关约束②进行孤岛划分通过动作来决定孤岛,③是主动电源电动车接入的位置,影响孤岛划分,④孤岛潮流平衡约束来计算负荷的恢复节点电压值,⑤将其作为奖励值的惩罚函数的一部分rvol节点电压波动,⑥⑦作为奖励值惩罚函数的rpower。
光伏PV属于不可控分布式电源,其出力具有很强的不确定性,因此不具有独立带负荷运行的能力,必须和主电源联合供电运行。假设已经获得了风光的出力预测值PV。
将每个决策视作马尔科夫过程,通过观察状态,做出动作决策,并将动作应用于孤岛恢复环境中,再得到从环境反馈的奖惩信息与新的状态,重复这一过程,直到结束。决策过程的变量包括:
2)在t时刻的动作at定义为at={xij,ci,zsi},t∈T,i=1,...,33,ij∈Ωl;其中,xij表示线路(i,j)的恢复决策变量;i、j分别表示线路(i,j)的两个节点,xij等于1表示线路(i,j)恢复运行,xij等于0表示线路(i,j)从系统中切除;ci为节点i切除情况,ci等于0表示节点i归入孤岛运行范围,ci等于1表示节点i被切除;zsi为应急电动汽车配置变量,zsi=1表示应急电动汽车s连接到节点i处,zsi=0表示应急电动汽车s不连接到节点i处;Ωl表示系统所有线路集合;依据状态观测值st给出动作at后,需将动作应用到孤岛恢复中,得出拓扑结构,并进行潮流计算,得出线路潮流和节点电压情况。
3)奖励reward:当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供学习动作的好坏,t时刻的即时奖励rt由评价综合指标与惩罚函数组成:
rt=-rcut-rvol-rpower
其中,rcut为切负荷的目标函数,rvol+rpower为违反约束时的惩罚,rvol为节点电压波动,rpower为功率注入与输出间的关系;
惩罚函数考虑孤岛运行安全约束:
其中,Pinjection为形成的孤岛注入的功率总和,即外接主动电源功率总和:
Pout为孤岛上的输出的功率总和,即供电负荷总量:
4)策略π:策略为状态到动作的映射,指的是给定状态时选取一个动作的策略。
5)流程:在最开始系统处于某种初始状态s0下,系统根据策略π下达动作指令a0,将动作指令与环境交互,得到一次探索过程所期望的回报奖励r0和下一决策阶段的状态s1,循环进行这一过程直至最后一个决策阶段。将上述马尔可夫过程的模型采用深度确定性梯度策略算法求解,得到最优的决策。
一种基于强化学习方法的主动配电网故障恢复方法,分布式电源和负荷形成孤岛结构,孤岛是指当电网故障时,分布式电源向电网输送电能,同时与负载形成独立的自给自足的供电孤岛。通过DDPG网络模型对孤岛结构进行配电,根据DDPG中的Actor-Critic架构,使用神经网络近似表示动作价值Q函数,网络参数为θQ;用神经网络近似表示策略函数,网络参数为θμ,分别为Actor网络以及Critic网络引入目标网络,Actor目标网络参数θμ′,Critic目标网络参数θQ′。定义经验回放缓存集合R,每一次迭代从R中随机选取规模为m的样本用来估计动作价值函数和策略函数的梯度;具体包括以下步骤:
步骤1:采集配电网历史运行数据作为强化学习模型的学习样本数据,采样每天的所有数据,每天取24时刻点的数据进行训练;初始化Actor当前网络参数θμ和Critic当前网络参数θQ;并将当前网络参数拷贝给对应的Actor目标网络参数θμ′和Critic目标网络参数θQ′;
步骤2:对每个学习回合中的时刻t,Actor当前网络基于状态st得到动作at=μ(st|θμ)+N,N为添加噪声,并下达给仿真环境执行该动作;μ(st|θμ)是Actor当前网络所给出的策略,也就是基于网络参数θμ和状态值st通过策略选择出动作;
步骤3:执行动作at,得到新状态st+1和奖励rt,并将(st,at,rt,st+1)存入经验回放集R,作为训练Actor网络和Critic网络的数据集;
步骤4:更新时间t=t+1,循环步骤2和步骤3,直到达到预设的最大的时刻T;
步骤5:从经验回放缓存集合R中采样m个样本(st,at,rt,st+1)作为Actor网络和Critic网络的一个最小规模训练数据集;
步骤6:用步骤5得到的训练数据集更新Actor当前网络和Actor目标神经、Critic当前网络和Critic目标网络;具体更新步骤包括:
步骤61、将训练数据集内的状态st输入至Critic当前网络,使用神经网络表示Critic当前网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q(st,at|θQ);
将状态st+1输入Critic目标网络,使用神经网络表示Critic目标网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q′(st+1,μ′(st+1|θμ′)|θQ′);
步骤62、、更新Critic当前网络:
计算Critic当前网络的Q值:yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
Critic当前网络损耗函数为:
步骤63、更新Actor当前网络:最优跟踪策略性能函数的梯度为:
步骤64、将Actor目标网络和Critic目标网络的参数更新为:
θQ′←τθQ+(1-τ)θQ′;θμ′←τθμ+(1-τ)θμ′,τ为预设的更新系数。
步骤7:随机采样另一天的配电网历史运行数据,再循环步骤2至步骤6,直到训练次数达到训练总迭代次数,停止训练,保存DDPG网络模型。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (1)
1.一种基于强化学习方法的主动配电网故障恢复方法,其特征在于,建立含PV、应急电动汽车EV的主动配电网孤岛恢复模型,分布式电源和负荷形成孤岛结构;每台应急电动汽车EV作为孤岛内的主电源,在孤岛运行时作为主电源和孤岛内的不可控电源联合运行,其连接点应该属于某个特定的孤岛内;
孤岛恢复模型为:
①目标函数为:目标函数为孤岛运行中切负荷最小:
②孤岛划分:节点分为三种:配电网自身的节点,即负荷节点;主电源接入时连接的节点;恢复供电时的负荷恢复节点;除特别说明外,所描述的节点均为负荷节点;
式中:vis为节点孤岛划分变量;vis=1为节点i属于第s个孤岛;vis=0为节点i不属于第s个孤岛;S为孤岛集合;
恢复后形成的孤岛满足辐射状运行要求:
式中:|Ωb|表示系统中所有节点的数量,Ωb表示系统中所有节点集合;|S|表示形成孤岛的数量,即主电源的台数;Ωl表示系统所有线路集合;xij表示线路(i,j)的恢复决策变量,xij等于1表示线路(i,j)恢复运行,xij等于0表示线路(i,j)从系统中切除;
③应急电动汽车EV配置约束:
式中:zsi为应急电动汽车EV配置变量,zsi=1表示第s个应急电动汽车EV连接到节点i处;zsi=0表示第s个应急电动汽车EV不连接到节点i处;
④孤岛潮流平衡约束:针对故障恢复,建立了含PV、EV的主动配电网潮流方程;
节点注入功率平衡方程为:
线路电压降落方程为:
式中:Pij,Qij分别表示线路(i,j)的有功、无功潮流,Pki、Qki分别表示线路(k,i)的有功、无功潮流;Iij表示线路(i,j)电流幅值,Iki表示线路(k,i)电流幅值,Vi、Vj表示节点i、j电压幅值;表示节点i处的光伏电源有功,无功注入;Rij,Xij,Zij分别表示线路(i,j)的电阻、电抗和阻抗值;Rki、Xki分别表示线路(k,i)的电阻、电抗;为配电网节点i中接入的应急电动汽车EV的放电功率;
⑤运行安全约束:故障后形成的孤岛内部需要满足节点电压约束为:
式中:V0为系统参考电压幅值的平方;ε为电压波动范围参数;约束式保证了节点电压Vi都在可接受电压波动范围内;
⑥孤岛内功率平衡的约束为:
式中:SDG,s表示第s个孤岛内分布式电源集合,Ns表示第s个孤岛内用电负荷集合;
⑦分布式电源的约束:应急电动汽车EV中含有大容量储能电池,在孤岛运行时作为主电源和孤岛内的不可控电源联合运行,以维持孤岛内的电压、频率稳定;
对应急电动汽车EV中的储能电池做如下建模:
0≤Pev≤Pmax
Pev表示应急电动汽车EV的放电功率,Pmax表示应急电动汽车EV的最大放电功率;
通过DDPG网络模型对孤岛结构进行配电,根据DDPG中的Actor-Critic架构,使用神经网络近似表示动作价值Q函数,网络参数为θQ;用神经网络近似表示策略函数,网络参数为θμ,分别为Actor网络以及Critic网络引入目标网络,Actor目标网络参数θμ′,Critic目标网络参数θQ′;定义经验回放缓存集合R,每一次迭代从R中随机选取规模为m的样本用来估计动作价值函数和策略函数的梯度;具体包括以下步骤:
步骤1:采集配电网历史运行数据作为强化学习模型的学习样本数据,采样每天的所有数据,每天取24时刻点的数据进行训练;初始化Actor当前网络参数θμ和Critic当前网络参数θQ;并将当前网络参数拷贝给对应的Actor目标网络参数θμ′和Critic目标网络参数θQ′;
步骤2:对每个学习回合中的时刻t,Actor当前网络基于状态st得到动作at=μ(st|θμ)+N,并下达给仿真环境执行该动作;N为添加噪声;μ(st|θμ)是Actor当前网络所给出的策略,也就是基于网络参数θμ和状态st通过策略选择出动作;
在t时刻的动作at定义为at={xij,ci,zsi},t∈T,i=1,...,q,ij∈Ωl;其中,xij表示线路(i,j)的恢复决策变量,q表示配电网节点总数量;i、j分别表示线路(i,j)的两个节点,xij等于1表示线路(i,j)恢复运行,xij等于0表示线路(i,j)从系统中切除;ci为节点i切除情况,ci等于0表示节点i归入孤岛运行范围,ci等于1表示节点i被切除;zsi为应急电动汽车EV配置变量,zsi=1表示第s个应急电动汽车EV连接到节点i处,zsi=0表示应急第s个应急电动汽车EV不连接到节点i处;Ωl表示系统所有线路集合;步骤3:执行动作at,得到新状态st+1和奖励rt,并将(st,at,rt,st+1)存入经验回放缓存集合R,作为训练Actor网络和Critic网络的数据集;t时刻的即时奖励rt由评价综合指标与惩罚函数组成:
rt=-rcut-rvol-rpower
其中,rcut为切负荷的目标函数,rvol+rpower为违反约束时的惩罚,rvol为节点电压波动,rpower为功率注入与输出间的关系;
惩罚函数考虑孤岛运行安全约束:
其中,Pinjection为形成的孤岛注入的功率总和,即外接主电源功率总和:
Pout为孤岛上的输出的功率总和,即供电负荷总量:
步骤4:更新时间t=t+1,循环步骤2和步骤3,直到达到预设的最大的时刻T;
步骤5:从经验回放缓存集合R中采样m个样本(st,at,rt,st+1)作为Actor网络和Critic网络的一个最小规模训练数据集;
步骤6:用步骤5得到的训练数据集更新Actor当前网络和Actor目标网路、Critic当前网络和Critic目标网络;具体更新步骤包括:
步骤61、将训练数据集内的状态st输入至Critic当前网络,使用神经网络表示Critic当前网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q(st,at|θQ);
将状态st+1输入Critic目标网络,使用神经网络表示Critic目标网络的动作价值Q函数,神经网络输出Critic当前网络的Q值:Q′(st+1,μ′(st+1|θμ′)|θQ′);
步骤62、更新Critic当前网络:
计算Critic当前网络的Q值:yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
Critic当前网络损耗函数为:
步骤63、更新Actor当前网络:最优跟踪策略性能函数的梯度为:
步骤64、将Actor目标网络和Critic目标网络的参数更新为:
θQ′←τθQ+(1-τ)θQ′;θμ′←τθμ+(1-τ)θμ′,τ为预设的更新系数;
步骤7:随机采样另一天的配电网历史运行数据,再循环步骤2至步骤6,直到训练次数达到训练总迭代次数,停止训练,保存DDPG网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111153648.9A CN113872198B (zh) | 2021-09-29 | 2021-09-29 | 一种基于强化学习方法的主动配电网故障恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111153648.9A CN113872198B (zh) | 2021-09-29 | 2021-09-29 | 一种基于强化学习方法的主动配电网故障恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113872198A CN113872198A (zh) | 2021-12-31 |
CN113872198B true CN113872198B (zh) | 2022-09-13 |
Family
ID=79000695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111153648.9A Active CN113872198B (zh) | 2021-09-29 | 2021-09-29 | 一种基于强化学习方法的主动配电网故障恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113872198B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114243799B (zh) * | 2022-01-05 | 2023-11-07 | 国网浙江省电力有限公司宁波供电公司 | 基于分布式电源的深度强化学习配电网故障恢复方法 |
CN114336759A (zh) * | 2022-01-10 | 2022-04-12 | 国网上海市电力公司 | 一种基于深度强化学习的微电网自治运行电压控制方法 |
CN117394440B (zh) * | 2023-12-08 | 2024-03-01 | 南京邮电大学 | 基于ddpg算法的微电网并网离网控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487003A (zh) * | 2016-05-10 | 2017-03-08 | 国网江苏省电力公司南京供电公司 | 一种主配网故障恢复优化调度的方法 |
CN106662846A (zh) * | 2014-08-12 | 2017-05-10 | 西门子公司 | 用于估计交流网络的状态的方法和随后的自适应控制 |
CN112327104A (zh) * | 2020-11-19 | 2021-02-05 | 国网安徽省电力有限公司 | 一种含分布式电源配电网的故障检测与定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003038970A2 (en) * | 2001-10-26 | 2003-05-08 | Youtility, Inc. | Anti-islanding techniques for distributed power generation |
US11688160B2 (en) * | 2018-01-17 | 2023-06-27 | Huawei Technologies Co., Ltd. | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
-
2021
- 2021-09-29 CN CN202111153648.9A patent/CN113872198B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106662846A (zh) * | 2014-08-12 | 2017-05-10 | 西门子公司 | 用于估计交流网络的状态的方法和随后的自适应控制 |
CN106487003A (zh) * | 2016-05-10 | 2017-03-08 | 国网江苏省电力公司南京供电公司 | 一种主配网故障恢复优化调度的方法 |
CN112327104A (zh) * | 2020-11-19 | 2021-02-05 | 国网安徽省电力有限公司 | 一种含分布式电源配电网的故障检测与定位方法 |
Non-Patent Citations (1)
Title |
---|
考虑分布式电源孤岛运行的配电网故障恢复研究;余浩斌等;《水电能源科学》;20151125;第33卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113872198A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113872198B (zh) | 一种基于强化学习方法的主动配电网故障恢复方法 | |
Xiong et al. | Towards a smarter hybrid energy storage system based on battery and ultracapacitor-A critical review on topology and energy management | |
CN111884213B (zh) | 一种基于深度强化学习算法的配电网电压调节方法 | |
Sun et al. | A customized voltage control strategy for electric vehicles in distribution networks with reinforcement learning method | |
CN102097865B (zh) | 一种电力系统供电恢复方法 | |
Hu et al. | Multi-agent deep reinforcement learning for voltage control with coordinated active and reactive power optimization | |
CN102569922B (zh) | 一种基于单体电池一致性的蓄电池组soc估计改进方法 | |
Xu et al. | A soft actor-critic-based energy management strategy for electric vehicles with hybrid energy storage systems | |
CN113078641B (zh) | 一种基于评估器和强化学习的配电网无功优化方法及装置 | |
CN107862405A (zh) | 计及微网作为黑启动电源的电力系统网架重构优化方法 | |
CN106786546A (zh) | 基于风险评估的配电网故障恢复策略优化方法 | |
CN104123683B (zh) | 基于动态规划的电力系统黑启动方案生成方法 | |
CN111062632B (zh) | 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法 | |
CN107017622A (zh) | 含dg配网多故障多目标联合优化抢修恢复策略求取 | |
CN104934968A (zh) | 基于多智能体的配网应灾恢复协调控制方法及装置 | |
CN112310980B (zh) | 交直流混联电网直流闭锁频率安全稳定评估方法及系统 | |
CN103001218B (zh) | 基于输配电网综合效益的无功电压协调控制方法 | |
CN116187165A (zh) | 基于改进粒子群算法的电网弹性提升方法 | |
Ying et al. | Online energy management strategy of the flexible smart traction power supply system | |
Zhao et al. | A graph-based deep reinforcement learning framework for autonomous power dispatch on power systems with changing topologies | |
Abd El-Hamed et al. | Self-healing restoration of a distribution system using hybrid Fuzzy Control/Ant-Colony Optimization Algorithm | |
Hu et al. | Energy management for microgrids using a reinforcement learning algorithm | |
CN115588998A (zh) | 一种基于图强化学习的配电网电压无功优化方法 | |
CN115102192A (zh) | 一种应对极端天气的配电网弹性控制方法 | |
CN110729759B (zh) | 一种微电网中分布式电源配置方案的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |