CN113675890A

CN113675890A - 基于td3的新能源微电网优化方法

Info

Publication number: CN113675890A
Application number: CN202111039111.XA
Authority: CN
Inventors: 邹苏郦; 周艳婷; 马中静
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-11-19

Abstract

本发明公开的基于TD3的新能源微电网优化方法，属于电气工程领域。本发明通过建立新能源微电网模型，真实反映新能源微电网的多耦合运行情况，解决新能源的消纳问题，保证电网运行的安全性和稳定性。并使用一种在连续状态下进行优化的深度强化学习方法，采用双重Q网络解决过估计的问题，提升优化效果，降低新能源微电网运行成本。本发明可应用在新能源微电网管理领域。

Description

基于TD3的新能源微电网优化方法

技术领域

本发明涉及一种用于优化的深度强化学习方法，特别涉及一种基于TD3的新能源微电网优化方法，属于电气工程技术领域。

背景技术

随着碳中和政策的提出和科技的不断创新进步，以及在工业化进程的加快下，能源问题越来越成为全球关注并希望得到有效解决的问题。对于能源问题的解决，新能源发电发挥着重要作用，但由于其随机性和间歇性，使其在应用过程中受到限制。另外随着智能家居的发展，用户侧的用能行为和消费习惯对电网的安全性和稳定性产生了重大影响，电网运行容易出现极端情况甚至崩溃。现有新能源微电网模型各变量相互耦合，大多没有考虑新能源的消纳问题，因此新能源微电网的智能化管理十分必要。

传统的微电网管理优化方法大部分依靠复杂的系统模型，而基于模型的方法强烈依赖于合适的模型及参数，具有较强的专业性和匹配性，一旦发生变动需要修改，工作量较大。随着大数据时代的到来，基于数据的方法可以大大减少对模型的依赖，其中深度强化学习可以通过智能体和环境的互动学习最优策略，但深度Q网络(Deep Q Network，DQN)通常应用于离散的数据问题，离散化之后大大减小了动作的可选范围，会造成一定的误差。在连续数据问题的处理上，深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)已经被广泛应用在各大领域，但DDPG容易出现过估计的问题，显著影响优化效果，微电网运行成本较高。

发明内容

本发明针对现有微电网管理模型未考虑新能源的消纳问题及电网运行成本较高问题，提出基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient，TD3)的新能源微电网优化方法，目的是解决现有微电网管理模型新能源的消纳问题，保证电网运行的稳定性及安全性，提升微电网优化效果从而降低运行成本。

本发明的目的是通过以下技术方案实现的：

本发明通过建立新能源微电网模型，真实反映新能源微电网的多耦合运行情况，解决新能源的消纳问题，保证电网的正常运行。并采用一种在连续状态下进行优化的深度强化学习方法，通过双重Q网络解决过估计的问题，提升优化效果，降低新能源微电网运行成本。

基于TD3的新能源微电网优化方法的具体实现步骤：

S1：获取电网历史数据，对历史数据进行预处理，包括对异常数据的删除，对缺失数据的补充，最后进行归一化处理。

S2：根据电网实际运行状态建立新能源微电网模型。

新能源微电网由分布式发电系统、新能源发电系统、负载、储能系统组成，并与主电网进行交易。

分布式发电功率P_DG(t)的不等式约束及发电成本Cost_DG(t)为：

其中，a、b、c为分布式发电成本系数，Δt为时间段。

主电网的电价为小时电价记为Price(t)，新能源微电网与主电网的交易成本Cost_Grid(t)包括从主电网购电的成本以及向主电网售电的收益，购电时电网交易功率P_buy(t)大于零，售电时电网交易功率P_buy(t)小于零，具体交易成本如下：

为避免过度向主电网售电，售电价格乘上因子β。交易功率的约束条件为：

储能系统用于对电能的存储，储能的荷电状态(state of charge，SOC)计算如下：

SOC(t)＝SOC(t-1)+P_b(t)·η·Δt/E

其中，E为储能系统的容量，η为储能系统充放电转换效率，P_b(t)为充放电功率，正值代表充电，负值代表放电，其约束条件如下：

为避免储能系统过充过放，SOC需满足如下条件：

SOC^min(t)≤SOC(t)≤SOC^max(t)

如果SOC超出正常范围，则有惩罚函数Cost_penalty(t)如下：

Cost_penalty(t)＝λP_b(t)

其中，λ是惩罚系数。

全部电能负载为P_load(t)，太阳能发电功率为P_PV(t)，风能发电功率为P_wind(t)，为了增加新能源的消纳能力，净负载P_net(t)可以设为：

P_net(t)＝P_load(t)-P_PV(t)-P_wind(t)

新能源微电网中各个部分满足的等式约束条件为：

P_DG(t)+P_buy(t)＝P_net(t)+P_b(t)

其中，P_DG(t)表示分布式发电功率，P_buy(t)表示新能源微电网与主电网的交易功率，P_net(t)表示净负载，P_b(t)表示储能系统充放电功率。

新能源微电网的目标函数为：

其中，Cost_DG(t)表示分布式发电成本，Cost_Grid(t)表示新能源微电网与主电网的交易成本，Cost_penalty(t)表示SOC惩罚函数。

S3：根据马尔可夫决策过程确定强化学习的要素，包括智能体、环境、状态、动作、奖励。

对于整个强化学习，智能体是TD3方法，环境是新能源微电网，智能体通过与环境进行交互，从而产生新的状态和动作，环境会据此给出一个奖励，目标是获取尽可能多的奖励。

强化学习的基本组成部分主要包括：

状态：新能源微电网的状态量包括电能负载、光伏发电功率、风能发电功率、电价、储能系统荷电状态，其状态表示为：

S(t)＝{P_load(t),P_PV(t),P_wind(t),Price(t),SOC(t)}

动作：新能源微电网的动作由各产能设备和耗能设备组成，包括分布式发电功率、储能功率，另外，电网交易功率可由电功率平衡约束计算得出，故动作可以表示为：

A(t)＝{P_DG(t),P_b(t)}

奖励：新能源微电网的优化目标是最小化总运行成本，强化学习的优化目标是最大化奖励，因此将成本设为负数形式，故智能体在采取策略后得到的奖励可以表示为：

Cost(t)＝Cost_DG(t)+Cost_Grid(t)+Cost_penalty(t)

Reward(t)＝-Cost(t)

S4：搭建TD3方法框架，采用双重Q网络。

TD3在DDPG的基础上优化，一共有6个网络，分别是critic当前值神经网络1，critic当前值神经网络2、actor当前策略神经网络、critic目标值神经网络1、critic目标值神经网络2、actor目标策略神经网络。TD3对于critic当前值神经网络和critic目标值神经网络都采用双重Q网络，计算时选择两个critic目标值神经网络中Q值较小的网络，计算公式如下：

其中，r为奖励，γ为折扣因子，w′_i为critic目标值神经网络的参数，θ₁为actor当前策略神经网络的参数，s′为新的状态，π为策略。

对于目标神经网络的更新采用软更新，而且actor策略神经网络采用延迟更新，比critic值神经网络的更新频率低，更新方式如下：

w′←τw+(1-τ)w′

在actor目标策略神经网络上增加随机噪声，可以提高探索能力并得到更加平滑的效果，计算公式如下：

y＝r+γQ_w′(s′,π_θ′(s′)+ε)

ε～clip(N(0,σ),-c,c)

其中，ε为随机噪声。

通过确定性策略梯度更新actor策略神经网络，梯度公式为：

S5：将数据集通过TD3训练直至收敛，得到训练好的TD3模型。

S6：采用测试数据输入该模型进行测试。

有益效果

1、本发明根据新能源微电网实际运行状态建立模型，综合考虑变量之间的耦合因素，结合马尔可夫决策过程，制定成本函数，真实反映新能源微电网的实际运行状态，解决新能源的消纳问题，避免其随机性对电网的安全性和稳定性造成影响。

2、本发明使用一种深度强化学习方法TD3，摆脱复杂的先验模型，实现连续状态下的最优决策，通过采用双重Q网络，避免Q值过估计的问题，从而提升优化的效果，最大程度减少运行成本。

附图说明

附图1为基于TD3的新能源微电网优化方法的流程示意图；

附图2为本发明实施例提供的基于TD3的新能源微电网方法原理图；

附图3为本发明实施例提供的基于TD3的新能源微电网迭代收敛图；

附图4为本发明实施例提供的基于TD3的新能源微电网负载图；

附图5为本发明实施例提供的基于TD3的新能源微电网电价图；

附图6为本发明实施例提供的基于TD3的新能源微电网分布式发电情况图；

附图7为本发明实施例提供的基于TD3的新能源微电网与主电网的交易情况图；

附图8为本发明实施例提供的基于TD3的新能源微电网储能系统充放电情况图；

附图9为本发明实施例提供的基于TD3的新能源微电网荷电状态图；

具体实施方式

下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本次实验服务器配置为NVIDIA GeForce RTX 2060，采用的仿真工具为Python3.8，TensorFlow1.14.0框架。数据来源于Germany，一年中每月的前20天数据作为训练集，其余天的数据作为测试集。

步骤一：获取电网历史数据，对历史数据进行预处理，包括对异常数据的删除，对缺失数据的补充，最后进行归一化处理。

将原始数据归一化处理为0～1之间的数，转化函数为：

步骤二：根据电网实际运行状态建立新能源微电网模型。

分布式发电功率P_DG(t)的不等式约束及发电成本Cost_DG(t)为：

其中，a、b、c为分布式发电成本系数，△t为时间段。

储能系统用于对电能的存储，储能的荷电状态SOC计算如下：

SOC(t)＝SOC(t-1)+P_b(t)·η·Δt/E

为避免储能系统过充过放，SOC需满足如下条件：

SOC^min(t)≤SOC(t)≤SOC^max(t)

如果SOC超出正常范围，则有惩罚函数Cost_penalty(t)如下：

Cost_penalty(t)＝λP_b(t)

其中，λ是惩罚系数。

P_net(t)＝P_load(t)-P_PV(t)-P_wind(t)

新能源微电网中各个部分满足的等式约束条件为：

P_DG(t)+P_buy(t)＝P_net(t)+P_b(t)

新能源微电网的目标函数为：

步骤三：根据马尔可夫决策过程确定强化学习的要素，包括智能体，环境，状态，动作，奖励。

强化学习的基本组成部分主要包括：

S(t)＝{P_load(t),P_PV(t),P_wind(t),Price(t),SOC(t)}

A(t)＝{P_DG(t),P_b(t)}

Cost(t)＝Cost_DG(t)+Cost_Grid(t)+Cost_penalty(t)

Reward(t)＝-Cost(t)

步骤四：搭建TD3方法框架，采用双重Q网络。

TD3在DDPG的基础上优化，一共有6个网络，分别是critic当前值神经网络1，critic当前值神经网络2、actor当前策略神经网络、critic目标值神经网络1、critic目标值神经网络2、actor目标策略神经网络，TD3方法原理图如图2所示。TD3对于critic当前值神经网络和critic目标值神经网络都采用双重Q网络，计算时选择两个critic目标值神经网络中Q值较小的网络，计算公式如下：

w′←τw+(1-τ)w′

y＝r+γQ_w′(s′,π_θ′(s′)+ε)

ε～clip(N(0,σ),-c,c)

其中，ε为随机噪声。

通过确定性策略梯度更新actor策略神经网络，梯度公式为：

TD3方法流程如表1所示。

表1 TD3方法流程

步骤五：大量数据集通过TD3训练直至收敛，得到训练好的TD3模型。

TD3的迭代次数为100次，gamma为0.99，replay buffer为50000，mini batch为128，值网络学习率为0.001，策略网络学习率为0.0003。在训练过程中，episode在20代附近收敛，如图3所示。智能体输入负载、新能源发电功率、电价、储能系统荷电状态数据，根据本文采用的TD3方法计算奖励值，不断学习，调整网络参数，直到获得最大奖励，学习趋于收敛状态，输出最优调度策略。

电网参数设置如下表：

表2电网参数

Symbol	Value
		P<sub>DG</sub><sup>min</sup>	1000
P<sub>DG</sub><sup>max</sup>	6000
		P<sub>b</sub><sup>min</sup>	-1000
P<sub>b</sub><sup>max</sup>	1000
		P<sub>buy</sub><sup>min</sup>	-5000
P<sub>buy</sub><sup>max</sup>	18000
		SOC<sup>min</sup>	0.2
SOC<sup>max</sup>	1
		E	20000

实验参数设置如下表：

表3实验参数

Symbol	Value
		a	0.001
b	30
		c	0.5
β	0.3
		λ	500
η	0.95

步骤六：基于该模型对测试数据进行测试。

新能源微电网负载和电价分别如图4、图5所示，分布式发电情况、新能源微电网与主电网的交易情况分别如图6、图7所示。从图中可以看出，对于分布式发电系统，在电价高于相应的发电成本时，分布式发电系统增加发电量，当电价低于相应的发电成本时，分布式发电系统减少发电。对于主电网，为减少成本，电价较低时大量购入，电价较高时尽量减少购入电量，但在负载量较大时，其他能量不足以供应负载时，依然要从主电网采购电量。储能系统充放电情况和荷电状态分别如图8、图9所示。对于储能系统，在电价较低且负载量较低时，从主电网购电以存储备用；在电价较高且负载量较大时，储能系统释放电量作为补充。因此，各个动作量受电价影响较大。在电价较高的时段，分布式发电处于峰值，储能系统处于放电状态，SOC下降，缺失部分以主电网供电形式供给负载；在电价较低的时段，分布式发电较少，以向主电网购电为主，储能系统处于充电状态，SOC上升。实验结果表明，该方法经过智能体与环境的互动学习，学习到拟议的方法，可以解决新能源微电网的消纳问题并降低运行成本。

本方法与其他方法的日运行成本对比结果如下表所示。

表4不同方法优化结果对比

从上表可以看出，基于TD3的新能源微电网优化方法优化效果最好，日运行成本最低。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于TD3的新能源微电网优化方法，其特征在于：包括如下步骤：

S1：获取电网历史数据，对历史数据进行预处理，包括对异常数据的删除，对缺失数据的补充，最后进行归一化处理；

S2：根据电网实际运行状态建立新能源微电网模型；

S3：根据马尔可夫决策过程确定强化学习的要素，包括智能体、环境、状态、动作、奖励；

S4：搭建TD3方法框架，采用双重Q网络；

S5：大量数据集通过TD3训练直至收敛，得到训练好的TD3模型；

S6：基于该模型对测试数据进行测试。

2.根据权利要求1所述的基于TD3的新能源微电网优化方法，其特征在于：步骤S2的实现方法为：

新能源微电网由分布式发电系统、新能源发电系统、负载、储能系统组成，并与主电网进行交易；

分布式发电功率P_DG(t)的不等式约束及发电成本Cost_DG(t)为：

其中，a、b、c为分布式发电成本系数，△t为时间段；

为避免过度向主电网售电，售电价格乘上因子β；交易功率的约束条件为：

储能系统用于对电能的存储，储能的荷电状态SOC计算如下：

SOC(t)＝SOC(t-1)+P_b(t)·η·Δt/E

为避免储能系统过充过放，SOC需满足如下条件：

SOC^min(t)≤SOC(t)≤SOC^max(t)

如果SOC超出正常范围，则有惩罚函数Cost_penalty(t)如下：

Cost_penalty(t)＝λP_b(t)

其中，λ是惩罚系数；

P_net(t)＝P_load(t)-P_PV(t)-P_wind(t)

新能源微电网中各个部分满足的等式约束条件为：

P_DG(t)+P_buy(t)＝P_net(t)+P_b(t)

其中，P_DG(t)表示分布式发电功率，P_buy(t)表示新能源微电网与主电网的交易功率，P_net(t)表示净负载，P_b(t)表示储能系统充放电功率；

新能源微电网的目标函数为：

3.根据权利要求1所述的基于TD3的新能源微电网优化方法，其特征在于：步骤S3的实现方法为：

对于整个强化学习，智能体是TD3方法，环境是新能源微电网，智能体通过与环境进行交互，从而产生新的状态和动作，环境会据此给出一个奖励，目标是获取尽可能多的奖励；强化学习的基本组成部分主要包括：

S(t)＝{P_load(t),P_PV(t),P_wind(t),Price(t),SOC(t)}

A(t)＝{P_DG(t),P_b(t)}

Cost(t)＝Cost_DG(t)+Cost_Grid(t)+Cost_penalty(t)

Reward(t)＝-Cost(t)

其中，奖励Reward(t)为总成本Cost(t)的相反数。

4.根据权利要求1所述的基于TD3的新能源微电网优化方法，其特征在于：步骤S4的实现方法为：

TD3在DDPG基础上优化，一共有6个网络，分别是critic当前值神经网络1，critic当前值神经网络2、actor当前策略神经网络、critic目标值神经网络1、critic目标值神经网络2、actor目标策略神经网络；TD3对于critic当前值神经网络和critic目标值神经网络都采用双重Q网络，计算时选择两个critic目标值神经网络中Q值较小的网络，计算公式如下：

其中，r为奖励，γ为折扣因子，w′_i为critic目标值神经网络的参数，θ₁为actor当前策略神经网络的参数，s′为新的状态，π为策略；

w′←τw+(1-τ)w′

y＝r+γQ_w′(s′,π_θ′(s′)+ε)

ε～clip(N(0,σ),-c,c)

其中，ε为随机噪声；

通过确定性策略梯度更新actor策略神经网络，梯度公式为：

其中，▽_θ为策略神经网络梯度。