CN111884213A

CN111884213A - 一种基于深度强化学习算法的配电网电压调节方法

Info

Publication number: CN111884213A
Application number: CN202010732991.8A
Authority: CN
Inventors: 史景坚; 周文涛; 张宁; 陈桥; 籍宁; 曹振博; 陈懿; 孟凡晨
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-03
Anticipated expiration: 2040-07-27
Also published as: CN111884213B

Abstract

本发明公开了一种基于深度强化学习算法的配电网电压调节方法，通过了解配电网电压运行水平影响因素，在配电网末端接入用于系统调压等辅助服务的储能系统，能有效应对分布式可再生能源的高度间歇性以及负荷需求波动导致的系统电压运行水平问题。本发明将电池储能的运行建模为马尔可夫决策过程，考虑其后续调控能力，通过内嵌一个Q深度神经网络来逼近最佳动作价值，以解决状态空间过大的问题。储能荷电状态、可再生能源预测出力以及负荷水平组成状态特征向量作为Q网络的输入，而输出提高电压运行水平的最优离散化充放电动作，并通过回放策略来训练，得到趋于最优调压策略的储能控制方法。

Description

一种基于深度强化学习算法的配电网电压调节方法

【技术领域】

本发明属于电力系统自动化技术领域，涉及一种基于深度强化学习算法的配电网电压调节方法。

【背景技术】

随着配网中清洁能源渗透率的不断提高，其强波动性和高不确定性对配网安全经济运行的影响不断加剧。当大量可再生分布式发电(Renewable Distributed Generation，RDG)接入配电网时，其出力的波动性同时也会对配电网的电压运行水平带来不利影响，甚至会使电压越限。根据配网有功-无功不解耦的特性可知，控制配网有功功率的平衡可快速有效地改善系统电压分布。除了在清洁能源并网点处安装分布式储能外，还可于配网末端配置主要用于系统调压的储能系统，通过多点分布式储能形成规模化汇聚效应，积极有效地面向电网应用，进而改善系统电压运行水平。同时随着储能技术的发展以及其成本的迅速下降，利用储能系统辅助系统调压已逐步成为除传统无功调压方法外的又一种可行的技术手段。

近年来机器学习快速发展，其强大的感知学习能力和数据分析能力契合了智能电网中大数据应用的需求。其中强化学习(Reinforcement Learning，RL)通过决策主体和环境之间的不断交互来获取环境知识，并采取影响环境的行动以达到预设目标。而深度学习(Deep Learning，DL)不依赖于任何解析方程，而利用大量的现有数据来描述数学问题和近似解，将其应用于RL中可以有效缓解价值函数求解困难等问题。

目前，已有较多研究对并网点处用于平抑RDG出力波动的储能控制策略进行分析，通过提高了系统运行稳定性，进而减小节点电压波动，而对直接参与提高系统电压静稳等辅助服务的储能控制方法的研究仍相对较少。针对考虑分布式可再生能源发电的配电网运行电压水平条件问题，调压设备与分布式储能系统协调控制等传统基于模型的方法都需要对RDG和负荷等不确定性因素进行建模分析，且储能最优控制的求解过程复杂，数值迭代收敛较慢，实用性较差。

现有技术中主要有以下技术问题：

1)如何合理地对应用人工智能方法，实现配电网电压运行水平的稳定控制，同时克服传统方法中不确定性建模复杂且收敛性差的问题；

2)如何解决考虑RDG和负荷等确定性因素时状态空间过大所导致的求解困难等问题。

【发明内容】

本发明的目的在于解决现有技术中不确定性建模复杂且收敛性差，以及状态空间过大导致的求解困难等问题，提供一种基于深度强化学习算法的配电网电压调节方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于深度强化学习算法的配电网电压调节方法，包括以下步骤：

S1：搭建多隐层Q网络模型，其输入为状态s的特征向量，输出对应于每一个动作集合A中a_t的动作价值q，同时初始化Q网络的所有参数θ并清空经验回放集合D；

S2：建立BESS的马尔科夫决策过程，将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程，确定算法控制目标、环境状态特征以及即时奖励；

S3：给出系统各节点负载水平按历史平均值，RDG并网点处按其各自平均历史出力输入，由此计算出配网潮流分布以及各节点电压目标标幺值向量；

S4：初始化迭代轮数T、每次迭代的计算步长step，从1到T开始进行迭代；

S5：在Q网络中使用s_t作为输入，得到所有动作对应的Q值输出；采用ε贪婪法在当前Q值输出中选择一个对应的动作a_t，在状态s_t执行当前动作a_t，得到新状态特征向量s_t+1和奖励r_t，并判断本次迭代是否为终止状态；

S6：将s_t、a_t、r_t、s_t+1和终止判定指标依次存放入经验回放数据集D中，当数据达到一定数量时开始从D中连续采样m个样本，计算当前目标Q值，通过梯度反向传播来更新Q网络的所有超参数，同时令当前状态s＝s_t+1，若s为终止状态则当前轮迭代完毕，或达到迭代轮数T则结束全部迭代，否则转到步骤S5继续进行迭代。

本发明进一步的改进在于：

所述步骤S1的具体方法如下：

BESS通过不断感知负荷需求与可再生能源波动的配电系统环境，并在控制目标下与环境进行交互得到反馈奖励；构建深度Q神经网络，以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量s_t作为Q网络输入，输出最优离散化充放电动作价值Q_t，并最终通过回放集数据进行网络训练来迭代收敛；

搭建双隐层架构并确定各隐层节点数目，激活函数选取ReLu函数来加速收敛过程；正态初始化层间权重ω，初始化偏置b都为趋于0的常数；确定经验回放集合D的容量大小，并清空D进行存储备用；

当感知到环境状态的变化后，agent将控制BESS反馈相应的动作a(t)，将BESS的动作P_be按其范围划分为K个离散的充放电选择，从而均匀离散化动作空间A：

式中，A为所有可能动作组成的集合；P_be ^(k)表示BESS均匀离散动作空间中的第k个充电/放电动作。

所述步骤S2的具体方法如下：

储能充电递推关系为：

SoC(t)＝(1-σ_sdr)·SoC(t-1)+P_be·(1-L_c)Δt/E_cap

储能放电过程表示如下：

SoC(t)＝(1-σ_sdr)·SoC(t-1)-P_beΔt/[E_cap·(1-L_dc)]

式中：SoC(t)为BESS在t时段的荷电状态；P_be(t)为BESS在t时段的充放电功率；σ_sdr为储能介质的自放电率；L_c和L_dc分别为BESS的充电和放电损耗；△t为每个计算窗口时长；

BESS在t时刻的最大允许充放电功率由其自身的充放电特性和t时刻的剩余荷电状态所决定，同时运行过程中满足约束：

SoC_min≤SoC(t)≤SoC_max

式中：SoC_max和SoC_min分别为BESS荷电状态约束的上、下限；

RL利用马尔科夫决策过程来简化其建模，将MDP定义为一个四元组，所述四元组为：S,A,r,f，其中：S为所有环境状态的集合，s_t∈S表示agent在t时刻所处的状态；A为agent可执行动作的集合，a_t∈A表示agent在t时刻所采取的动作；r为奖赏函数，r_t～r(s_t，a_t)表示agent在状态s_t执行动作a_t获得的立即奖赏值；f为状态转移概率分布函数，s_t+1～f(s_t，a_t)表示agent在在状态s_t执行动作a_t转移到下一状态s_t+1的概率；马尔科夫模型的目标是在初始化状态s后，找到一种最大化预期奖励总和的最优计划策略

式中，E_π表示在策略π下对价值的期望；0<γ<1是强化学习中表征未来奖励重要程度的一个衰减系数。

利用DQN进行改进求解，映射关系如下：

(1)控制目标

利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性，其控制目标为：

4)使系统节点电压平均波动最小化；

5)使系统薄弱节点电压波动最小化；

6)储能需保留后备容量用于系统后续调压，即吸收系统电能余量或者补充电能缺额；使BESS最大化地保存能量以用于平抑下一时刻的功率波动；

min|SoC(t)-SoC₀|

式中，N为配电网总节点个数；V_i(t)为节点i在t时刻的静态电压标幺值，在RDG实际出力和实际负荷条件下计算得到；V_i.base为节点i的基准标幺值，作为节点电压维稳的目标，V_i.base是在配网平均负荷水平条件下，各分布式可再生能源按其历史平均出力，通过潮流计算得到；SoC₀为其参与调压的初始荷电状态值；

(2)环境状态特征

对于一个拓扑参数确定的配电网系统，定义BESS在时刻t所感知到的环境状态特征向量为s_t为：

s_t＝(SoC(t),PV_i.pre(t),…,WT_j.pre(t),…,L_all(t))^T

式中，PV_i.pre(t)为接有光伏发电的节点i在时刻t的光伏注入有功功率的预测值；WT_j.pre(t)为接有风力发电的节点j在时刻t的风电注入有功功率的预测值；L_all(t)为时刻t时配电网负荷大小；

(3)反馈奖励

BESS在不断感知和学习过程中，所获得的单步奖励应包括反映电压稳定性的节点电压平均波动和节点电压最大波动，以及考虑储能后续提供调压服务能力的容量裕度；在给定环境状态s_t和选择动作a_t之后的奖励r_t定义为：

r_t2＝-|SoC(t)-SoC₀|

式中，α∈(0,1)，表示考虑电压稳定指标的奖励权重；r_done为惩罚，取值为负的常数。

所述步骤S3的具体方法如下：

V_base是在配网平均负荷水平条件下，各分布式可再生能源按其历史平均出力，通过潮流计算得到；首先计算RDG并网点处光伏和风力发电的平均历史出力，系统各节点负载水平按历史平均值计算，采用MATPOWER软件的PQ分解法进行配电网潮流计算，得到所有节点的基准标幺值组成的向量V_base作为节点电压维稳的目标；其中潮流计算过程满足以下约束：

(1)潮流约束：

式中，P_Ni和Q_Ni为节点有功和无功注入功率；P_Di和Q_Di为节点有功和无功输出功率；V_i和V_j为节点电压幅值；α_ij为节点电压相角差；G_ij和B_ij为节点导纳的实部和虚部；S_n为节点集合；

(2)稳定运行约束：

式中，P_maxGi和P_minGi为发电机有功出力上、下限；Q_maxGi和Q_minGi为无功源输出上、下限；V_maxi和V_mini为节点电压上、下限；P_maxij和P_minij为线路热稳定约束上下限；S_l为线路集合。

所述步骤S4的具体方法如下：

包括初始化迭代轮数T、每次迭代的计算步长step、衰减因子γ、贪婪策略的初始ε_ini和终止ε_fin、回放集合容量大小D以及小批量训练样本数量m，然后从1到T开始进行迭代，每次迭代开始时，同时初始化BESS的荷电状态和环境状态特征向量s_t；DQN的学习过程中，首先agent在每个时刻与环境交互得到一个多维状态量，并利用DL方法来感知观察；然后基于预期奖励来评估各动作的价值函数，并将当前状态映射为相应的动作；最后环境做出相关反馈更新，agent得到下一个状态观察，并不断循环以上过程，最终得到实现预期目标的最优策略。

所述步骤S5的具体方法如下：

对于ε-greedy策略，首先通过设置∈∈(0,1)的值，则在对应的动作时，以概率(1-∈)贪婪地选择当前被视为最大Q价值的最优动作a^*，而以∈的概率从所有K个离散的可选行为中随机探索潜在的行为：

其中，ε将随着迭代过程从ε_ini逐渐减小ε_fin；

done为迭代终止判定指标，用作DQN每次迭代过程的中断指标：

式中，如果储能运行过程中起荷电状态越限，则本次迭代的done等于1，否则为0；done＝1表示终止而跳出本次迭代，done＝0表示未终止。

所述步骤S6的具体方法如下：

在潮流不断迭代更新的过程中，每个数段t都将s_t、a_t、r_t、s_t+1和终止判定指标done组成的五元组{s_t,a_t,r_t,s_t+1,done}存放入经验回放集合D中；当存入数量达到回放集合容量大小D时，按个滚动溢出旧的数据而存入新数据，保证D中样本的有效性；一旦样本数量达到小批量训练样本数量m时，就开始从D中随机采样m个样本

其中，j＝1,2..,m；计算每个样本对应的当前目标Q值y_j：

使用均方差损失函数L(θ)，通过神经网络的梯度反向传播来更新Q网络的所有参数θ：

通过感知数据来驱动收敛得到BESS的最优离散化充放电策略，最终得到一个能够用于BESS自主进行最优充放电决策的DQN模型。

与现有技术相比，本发明具有以下有益效果：

本发明首先考虑电池储能系统的后续调控能力，将其运行建模为马尔可夫决策过程，以此构建基础Q-learning模型，避免了传统方法对RDG和负荷等不确定性模型进行复杂的建模；然后，为解决传统强化学习无法应对的配电网环境状态空间连续的问题，通过内嵌一个以包括分布式可再生能源出力等配网环境状态特征向量为输入、以蓄电池储能系统(Battery Energy Storage System,BESS)最优离散化充放电动作为输出的多隐层深度Q网络来逼近最佳动作价值，通过对最优动作价值函数的逼近而不依赖于任何解析方程，大大提升了传统Q-learning的应用性能，解决了配网环境状态连续且空间巨大导致的无法迭代求解等问题；在TensorFlow平台搭建基于Deep Q network(DQN)的深度强化学习算法架构，结合潮流时序求解器(MATPOWER)来更新环境状态，存储训练样本数据并最终通过经验回放(experience replay)策略进行训练收敛Q网络的超参数，以此得到趋于最优调压策略的储能控制方法。所提深度强化学习(Deep reinforcement Learning，DRL)算法计算效率较高，无需建立显式的RDG和负荷的不确定性模型，克服了传统方法中建模复杂且收敛性差，以及状态空间过大导致的求解困难等问题。

【附图说明】

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明调节方法的流程图；

图2为本发明的Q网络结构图；

图3为本发明基于经验回放的网络训练方法图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明基于深度强化学习算法的配电网电压调节方法，包括以下步骤：

S1：搭建多隐层Q网络模型，其输入为状态s的特征向量，输出对应于每一个动作集合A中a_t的动作价值q，同时初始化Q网络的所有参数θ并清空经验回放集合D；具体方法如下：

BESS通过不断感知负荷需求与可再生能源波动的配电系统环境，并在控制目标下与环境进行交互得到反馈奖励。构建深度Q神经网络，以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量s_t作为Q网络输入，输出最优离散化充放电动作价值Q_t，并最终通过回放集数据进行网络训练来迭代收敛。这种基于无模型强化学习和数据驱动的储能智能化控制方法，具备更高的计算效率和可观的拟合精度，且自适应能力较强。

搭建双隐层架构并确定各隐层节点数目，激活函数选取ReLu函数来加速收敛过程。正态初始化层间权重ω，初始化偏置b都为趋于0的常数。确定经验回放集合D的容量大小，并清空D进行存储备用。

当感知到环境状态的变化后，agent将控制BESS反馈相应的动作a(t)，将BESS的动作P_be按其范围划分为K个离散的充放电选择^[21]，从而均匀离散化动作空间A

S2：建立BESS的马尔科夫决策过程，将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程，确定算法控制目标、环境状态特征以及即时奖励等；具体方法如下：

建立BESS的马尔科夫决策过程，将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程，具体为：

BESS的剩余电量在充放电过程中不断变化，其变化量与该时段内的充、放电电量和自放电有关。储能充电递推关系为

SoC(t)＝(1-σ_sdr)·SoC(t-1)+P_be·(1-L_c)Δt/E_cap

储能放电过程表示如下

SoC(t)＝(1-σ_sdr)·SoC(t-1)-P_beΔt/[E_cap·(1-L_dc)]

式中：SoC(t)为BESS在t时段的荷电状态(state of charge，SoC)；P_be(t)为BESS在t时段的充放电功率；σ_sdr为储能介质的自放电率；L_c和L_dc分别为BESS的充电和放电损耗；△t为每个计算窗口时长。

SoC_min≤SoC(t)≤SoC_max

式中：SoC_max和SoC_min分别为BESS荷电状态约束的上、下限。

而强化学习是一种从环境状态映射到动作的学习，目标是使代理(agent)在与环境的交互过程中获得最大的累积奖赏。RL利用马尔科夫决策过程(Markov DecisionProcess，MDP)来简化其建模，通常将MDP定义为一个四元组(S，A，r，f)，其中：S为所有环境状态的集合，s_t∈S表示agent在t时刻所处的状态；A为agent可执行动作的集合，a_t∈A表示agent在t时刻所采取的动作；r为奖赏函数，r_t～r(s_t，a_t)表示agent在状态s_t执行动作a_t获得的立即奖赏值；f为状态转移概率分布函数，s_t+1～f(s_t，a_t)表示agent在在状态s_t执行动作a_t转移到下一状态s_t+1的概率。马尔科夫模型的目标是在初始化状态s后，找到一种最大化预期奖励总和的最优计划策略

在问题的规模比较小时，算法相对容易求解。然而对于实际问题来说，状态空间通常会很大，传统迭代求解的计算成本过高，且难以保证收敛，所以需要利用DQN进行改进求解。对应于本发明所提的提高配电网电压运行水平的储能DQN算法，映射关系如下：

(1)控制目标

利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性，其控制目标为

1)使系统节点电压平均波动最小化。

2)使系统薄弱节点电压波动最小化。

3)储能需保留一定的后备容量用于系统后续调压，即吸收系统电能余量或者补充电能缺额。使BESS最大化地保存能量以用于平抑下一时刻的功率波动。

min|SoC(t)-SoC₀|

式中，N为配电网总节点个数；V_i(t)为节点i在t时刻的静态电压标幺值，在RDG实际出力和实际负荷条件下计算得到；V_i.base为节点i的基准标幺值，作为节点电压维稳的目标，V_i.base是在配网平均负荷水平条件下，各分布式可再生能源按其历史平均出力，通过潮流计算得到；SoC₀为其参与调压的初始荷电状态值。

(2)环境状态特征

对于一个拓扑参数确定的配电网系统，定义BESS在时刻t所感知到的环境状态特征向量为s_t为

s_t＝(SoC(t),PV_i.pre(t),…,WT_j.pre(t),…,L_all(t))^T

式中，PV_i.pre(t)为接有光伏发电的节点i在时刻t的光伏注入有功功率的预测值；WT_j.pre(t)为接有风力发电的节点j在时刻t的风电注入有功功率的预测值；L_all(t)为时刻t时配电网负荷大小。

(3)反馈奖励

BESS在不断感知和学习过程中，所获得的单步奖励应包括反映电压稳定性的节点电压平均波动和节点电压最大波动，以及考虑储能后续提供调压服务能力的容量裕度。在给定环境状态s_t和选择动作a_t之后的奖励r_t定义为

r_t2＝-|SoC(t)-SoC₀|

式中，α∈(0,1)，表示考虑电压稳定指标的奖励权重；r_done为较大的惩罚，取值为负的常数。

S3：系统各节点负载水平按历史平均值给出，RDG并网点处按其各自平均历史出力输入，由此计算出配网潮流分布以及各节点电压目标标幺值向量；具体方法如下：

V_base是在配网平均负荷水平条件下，各分布式可再生能源按其历史平均出力，通过潮流计算得到。首先计算RDG并网点处光伏和风力发电的平均历史出力，系统各节点负载水平按历史平均值计算，采用MATPOWER软件的PQ分解法进行配电网潮流计算，得到所有节点的基准标幺值组成的向量V_base作为节点电压维稳的目标。其中潮流计算过程满足以下约束

(1)潮流约束：

式中，P_Ni和Q_Ni为节点有功和无功注入功率；P_Di和Q_Di为节点有功和无功输出功率；V_i和V_j为节点电压幅值；α_ij为节点电压相角差；G_ij和B_ij为节点导纳的实部和虚部；S_n为节点集合。

(2)稳定运行约束：

S4：初始化迭代轮数T、每次迭代的计算步长step等DQN算法的迭代参数，从1到T开始进行迭代；具体方法如下：

迭代参数包括初始化迭代轮数T、每次迭代的计算步长step、衰减因子γ、贪婪策略的初始ε_ini和终止ε_fin、回放集合容量大小D、小批量训练样本数量m等算法参数，然后从1到T开始进行迭代，每次迭代开始时，同时初始化BESS的荷电状态和环境状态特征向量s_t。DQN的学习过程中，首先agent在每个时刻与环境交互得到一个多维状态量，并利用DL方法来感知观察；然后基于预期奖励来评估各动作的价值函数，并通过一定策略将当前状态映射为相应的动作；最后环境做出相关反馈更新，agent得到下一个状态观察，并不断循环以上过程，最终可以得到实现预期目标的最优策略。

S5：在Q网络中使用s_t作为输入，得到所有动作对应的Q值输出。采用ε贪婪法在当前Q值输出中选择一个对应的动作a_t,在状态s_t执行当前动作a_t,得到新状态特征向量s_t+1和奖励r_t,并判断本次迭代是否为终止状态；具体方法包括：

对于ε-greedy策略，首先通过设置∈∈(0,1)的值，则在对应的动作时，以概率(1-∈)贪婪地选择当前被视为最大Q价值的最优动作a^*，而以∈的概率从所有K个离散的可选行为中随机探索潜在的行为

其中，ε将随着迭代过程从ε_ini逐渐减小ε_fin，以便在迭代的早期鼓励多进行探索，而在后期主要关注贪婪，以便算法可以稳定收敛。

done为迭代终止判定指标，用作DQN每次迭代过程的中断指标

式中，如果储能运行过程中起荷电状态越限，则本次迭代的done等于1，否则为0。done＝1表示终止而跳出本次迭代，done＝0表示未终止。

S6：将s_t、a_t、r_t、s_t+1和终止判定指标依次存放入经验回放数据集D中，当数据达到一定数量时开始从D中连续采样m个样本，计算当前目标Q值，通过梯度反向传播来更新Q网络的所有超参数，同时令当前状态s＝s_t+1，若s为终止状态则当前轮迭代完毕，或达到迭代轮数T则结束全部迭代，否则转到步骤S5继续进行迭代。具体方法如下：

在潮流不断迭代更新的过程中，每个数段t都将s_t、a_t、r_t、s_t+1和终止判定指标done组成的五元组{s_t,a_t,r_t,s_t+1,done}存放入经验回放集合D中。当存入数量达到回放集合容量大小D时，按个滚动溢出旧的数据而存入新数据，保证D中样本的有效性。一旦样本数量达到小批量训练样本数量m时，就开始从D中随机采样m个样本

(j＝1,2..,m)，计算每个样本对应的当前目标Q值y_j

使用均方差损失函数L(θ)，通过神经网络的梯度反向传播来更新Q网络的所有参数θ

通过大量考虑了不确定性的储能荷电状态、可再生能源预测出力以及负荷水平作为感知数据来驱动收敛得到BESS的最优离散化充放电策略，最终得到一个可用于BESS自主进行最优充放电决策的DQN模型。

本发明的原理：

本发明将电池储能系统运行建模为马尔可夫决策过程，通过内嵌一个多隐层深度Q网络来逼近最佳动作价值，基于Deep Q network的深度强化学习算法寻找趋于最优调压策略的储能控制方法。基于此，提出了基于无模型深度强化学习的储能智能化控制方法，这种基于无模型强化学习和数据驱动的智能化控制方法，具备更高的计算效率和可观的拟合精度，且自适应能力较强。

搭建多隐层Q网络模型，其输入为状态s的特征向量，即以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量s_t作为Q网络输入，输出对应于每一个动作集合A中a_t的动作价值，即输出最优离散化充放电动作价值Q_t，当感知到环境状态的变化后，agent将控制BESS反馈相应的动作a(t)，则需将BESS的动作P_be按其范围划分为K个离散的充放电选择，从而均匀离散化动作空间A。并最终通过回放集数据进行网络训练来迭代收敛。

本发明利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性，其控制目标为多个最目标，包括使系统节点电压平均波动最小化、使系统薄弱节点电压波动最小化以及考虑储能一定的后备容量用于系统后续调压；其环境状态特征包括各时段的储能荷电状态、光伏和风力发电的节点的注入有功功率的预测值、配电网负荷水平。

本发明系统各节点负载水平按历史平均值给出，RDG并网点处按其各自平均历史出力输入，通过Matpower潮流求解器计算出配网潮流分布以及各节点电压目标标幺值向量，同时将Matlab软件与基于Tensorflow架构的Python环境进行对接，以便后续迭代调用求解节点电压。

本发明在潮流不断迭代更新的过程中，每个数段t都将s_t、a_t、r_t、s_t+1和终止判定指标done组成的五元组存放入经验回放集合D中。当存入数量达到回放集合容量大小D时，按个滚动溢出旧的数据而存入新数据，保证D中样本的有效性。一旦样本数量达到小批量训练样本数量m时，就开始从D中随机采样m个样本进行训练，使用均方差损失函数L(θ)，通过神经网络的梯度反向传播来更新Q网络的所有参数。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。