CN113675890A - 基于td3的新能源微电网优化方法 - Google Patents
基于td3的新能源微电网优化方法 Download PDFInfo
- Publication number
- CN113675890A CN113675890A CN202111039111.XA CN202111039111A CN113675890A CN 113675890 A CN113675890 A CN 113675890A CN 202111039111 A CN202111039111 A CN 202111039111A CN 113675890 A CN113675890 A CN 113675890A
- Authority
- CN
- China
- Prior art keywords
- grid
- power
- new energy
- cost
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/008—Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/50—Photovoltaic [PV] energy
- Y02E10/56—Power conversion systems, e.g. maximum power point trackers
Abstract
本发明公开的基于TD3的新能源微电网优化方法,属于电气工程领域。本发明通过建立新能源微电网模型,真实反映新能源微电网的多耦合运行情况,解决新能源的消纳问题,保证电网运行的安全性和稳定性。并使用一种在连续状态下进行优化的深度强化学习方法,采用双重Q网络解决过估计的问题,提升优化效果,降低新能源微电网运行成本。本发明可应用在新能源微电网管理领域。
Description
技术领域
本发明涉及一种用于优化的深度强化学习方法,特别涉及一种基于TD3的新能源微电网优化方法,属于电气工程技术领域。
背景技术
随着碳中和政策的提出和科技的不断创新进步,以及在工业化进程的加快下,能源问题越来越成为全球关注并希望得到有效解决的问题。对于能源问题的解决,新能源发电发挥着重要作用,但由于其随机性和间歇性,使其在应用过程中受到限制。另外随着智能家居的发展,用户侧的用能行为和消费习惯对电网的安全性和稳定性产生了重大影响,电网运行容易出现极端情况甚至崩溃。现有新能源微电网模型各变量相互耦合,大多没有考虑新能源的消纳问题,因此新能源微电网的智能化管理十分必要。
传统的微电网管理优化方法大部分依靠复杂的系统模型,而基于模型的方法强烈依赖于合适的模型及参数,具有较强的专业性和匹配性,一旦发生变动需要修改,工作量较大。随着大数据时代的到来,基于数据的方法可以大大减少对模型的依赖,其中深度强化学习可以通过智能体和环境的互动学习最优策略,但深度Q网络(Deep Q Network,DQN)通常应用于离散的数据问题,离散化之后大大减小了动作的可选范围,会造成一定的误差。在连续数据问题的处理上,深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)已经被广泛应用在各大领域,但DDPG容易出现过估计的问题,显著影响优化效果,微电网运行成本较高。
发明内容
本发明针对现有微电网管理模型未考虑新能源的消纳问题及电网运行成本较高问题,提出基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)的新能源微电网优化方法,目的是解决现有微电网管理模型新能源的消纳问题,保证电网运行的稳定性及安全性,提升微电网优化效果从而降低运行成本。
本发明的目的是通过以下技术方案实现的:
本发明通过建立新能源微电网模型,真实反映新能源微电网的多耦合运行情况,解决新能源的消纳问题,保证电网的正常运行。并采用一种在连续状态下进行优化的深度强化学习方法,通过双重Q网络解决过估计的问题,提升优化效果,降低新能源微电网运行成本。
基于TD3的新能源微电网优化方法的具体实现步骤:
S1:获取电网历史数据,对历史数据进行预处理,包括对异常数据的删除,对缺失数据的补充,最后进行归一化处理。
S2:根据电网实际运行状态建立新能源微电网模型。
新能源微电网由分布式发电系统、新能源发电系统、负载、储能系统组成,并与主电网进行交易。
分布式发电功率PDG(t)的不等式约束及发电成本CostDG(t)为:
其中,a、b、c为分布式发电成本系数,Δt为时间段。
主电网的电价为小时电价记为Price(t),新能源微电网与主电网的交易成本CostGrid(t)包括从主电网购电的成本以及向主电网售电的收益,购电时电网交易功率Pbuy(t)大于零,售电时电网交易功率Pbuy(t)小于零,具体交易成本如下:
为避免过度向主电网售电,售电价格乘上因子β。交易功率的约束条件为:
储能系统用于对电能的存储,储能的荷电状态(state of charge,SOC)计算如下:
SOC(t)=SOC(t-1)+Pb(t)·η·Δt/E
其中,E为储能系统的容量,η为储能系统充放电转换效率,Pb(t)为充放电功率,正值代表充电,负值代表放电,其约束条件如下:
为避免储能系统过充过放,SOC需满足如下条件:
SOCmin(t)≤SOC(t)≤SOCmax(t)
如果SOC超出正常范围,则有惩罚函数Costpenalty(t)如下:
Costpenalty(t)=λPb(t)
其中,λ是惩罚系数。
全部电能负载为Pload(t),太阳能发电功率为PPV(t),风能发电功率为Pwind(t),为了增加新能源的消纳能力,净负载Pnet(t)可以设为:
Pnet(t)=Pload(t)-PPV(t)-Pwind(t)
新能源微电网中各个部分满足的等式约束条件为:
PDG(t)+Pbuy(t)=Pnet(t)+Pb(t)
其中,PDG(t)表示分布式发电功率,Pbuy(t)表示新能源微电网与主电网的交易功率,Pnet(t)表示净负载,Pb(t)表示储能系统充放电功率。
新能源微电网的目标函数为:
其中,CostDG(t)表示分布式发电成本,CostGrid(t)表示新能源微电网与主电网的交易成本,Costpenalty(t)表示SOC惩罚函数。
S3:根据马尔可夫决策过程确定强化学习的要素,包括智能体、环境、状态、动作、奖励。
对于整个强化学习,智能体是TD3方法,环境是新能源微电网,智能体通过与环境进行交互,从而产生新的状态和动作,环境会据此给出一个奖励,目标是获取尽可能多的奖励。
强化学习的基本组成部分主要包括:
状态:新能源微电网的状态量包括电能负载、光伏发电功率、风能发电功率、电价、储能系统荷电状态,其状态表示为:
S(t)={Pload(t),PPV(t),Pwind(t),Price(t),SOC(t)}
动作:新能源微电网的动作由各产能设备和耗能设备组成,包括分布式发电功率、储能功率,另外,电网交易功率可由电功率平衡约束计算得出,故动作可以表示为:
A(t)={PDG(t),Pb(t)}
奖励:新能源微电网的优化目标是最小化总运行成本,强化学习的优化目标是最大化奖励,因此将成本设为负数形式,故智能体在采取策略后得到的奖励可以表示为:
Cost(t)=CostDG(t)+CostGrid(t)+Costpenalty(t)
Reward(t)=-Cost(t)
S4:搭建TD3方法框架,采用双重Q网络。
TD3在DDPG的基础上优化,一共有6个网络,分别是critic当前值神经网络1,critic当前值神经网络2、actor当前策略神经网络、critic目标值神经网络1、critic目标值神经网络2、actor目标策略神经网络。TD3对于critic当前值神经网络和critic目标值神经网络都采用双重Q网络,计算时选择两个critic目标值神经网络中Q值较小的网络,计算公式如下:
其中,r为奖励,γ为折扣因子,w′i为critic目标值神经网络的参数,θ1为actor当前策略神经网络的参数,s′为新的状态,π为策略。
对于目标神经网络的更新采用软更新,而且actor策略神经网络采用延迟更新,比critic值神经网络的更新频率低,更新方式如下:
w′←τw+(1-τ)w′
在actor目标策略神经网络上增加随机噪声,可以提高探索能力并得到更加平滑的效果,计算公式如下:
y=r+γQw′(s′,πθ′(s′)+ε)
ε~clip(N(0,σ),-c,c)
其中,ε为随机噪声。
通过确定性策略梯度更新actor策略神经网络,梯度公式为:
S5:将数据集通过TD3训练直至收敛,得到训练好的TD3模型。
S6:采用测试数据输入该模型进行测试。
有益效果
1、本发明根据新能源微电网实际运行状态建立模型,综合考虑变量之间的耦合因素,结合马尔可夫决策过程,制定成本函数,真实反映新能源微电网的实际运行状态,解决新能源的消纳问题,避免其随机性对电网的安全性和稳定性造成影响。
2、本发明使用一种深度强化学习方法TD3,摆脱复杂的先验模型,实现连续状态下的最优决策,通过采用双重Q网络,避免Q值过估计的问题,从而提升优化的效果,最大程度减少运行成本。
附图说明
附图1为基于TD3的新能源微电网优化方法的流程示意图;
附图2为本发明实施例提供的基于TD3的新能源微电网方法原理图;
附图3为本发明实施例提供的基于TD3的新能源微电网迭代收敛图;
附图4为本发明实施例提供的基于TD3的新能源微电网负载图;
附图5为本发明实施例提供的基于TD3的新能源微电网电价图;
附图6为本发明实施例提供的基于TD3的新能源微电网分布式发电情况图;
附图7为本发明实施例提供的基于TD3的新能源微电网与主电网的交易情况图;
附图8为本发明实施例提供的基于TD3的新能源微电网储能系统充放电情况图;
附图9为本发明实施例提供的基于TD3的新能源微电网荷电状态图;
具体实施方式
下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本次实验服务器配置为NVIDIA GeForce RTX 2060,采用的仿真工具为Python3.8,TensorFlow1.14.0框架。数据来源于Germany,一年中每月的前20天数据作为训练集,其余天的数据作为测试集。
步骤一:获取电网历史数据,对历史数据进行预处理,包括对异常数据的删除,对缺失数据的补充,最后进行归一化处理。
将原始数据归一化处理为0~1之间的数,转化函数为:
步骤二:根据电网实际运行状态建立新能源微电网模型。
新能源微电网由分布式发电系统、新能源发电系统、负载、储能系统组成,并与主电网进行交易。
分布式发电功率PDG(t)的不等式约束及发电成本CostDG(t)为:
其中,a、b、c为分布式发电成本系数,△t为时间段。
主电网的电价为小时电价记为Price(t),新能源微电网与主电网的交易成本CostGrid(t)包括从主电网购电的成本以及向主电网售电的收益,购电时电网交易功率Pbuy(t)大于零,售电时电网交易功率Pbuy(t)小于零,具体交易成本如下:
为避免过度向主电网售电,售电价格乘上因子β。交易功率的约束条件为:
储能系统用于对电能的存储,储能的荷电状态SOC计算如下:
SOC(t)=SOC(t-1)+Pb(t)·η·Δt/E
其中,E为储能系统的容量,η为储能系统充放电转换效率,Pb(t)为充放电功率,正值代表充电,负值代表放电,其约束条件如下:
为避免储能系统过充过放,SOC需满足如下条件:
SOCmin(t)≤SOC(t)≤SOCmax(t)
如果SOC超出正常范围,则有惩罚函数Costpenalty(t)如下:
Costpenalty(t)=λPb(t)
其中,λ是惩罚系数。
全部电能负载为Pload(t),太阳能发电功率为PPV(t),风能发电功率为Pwind(t),为了增加新能源的消纳能力,净负载Pnet(t)可以设为:
Pnet(t)=Pload(t)-PPV(t)-Pwind(t)
新能源微电网中各个部分满足的等式约束条件为:
PDG(t)+Pbuy(t)=Pnet(t)+Pb(t)
其中,PDG(t)表示分布式发电功率,Pbuy(t)表示新能源微电网与主电网的交易功率,Pnet(t)表示净负载,Pb(t)表示储能系统充放电功率。
新能源微电网的目标函数为:
其中,CostDG(t)表示分布式发电成本,CostGrid(t)表示新能源微电网与主电网的交易成本,Costpenalty(t)表示SOC惩罚函数。
步骤三:根据马尔可夫决策过程确定强化学习的要素,包括智能体,环境,状态,动作,奖励。
对于整个强化学习,智能体是TD3方法,环境是新能源微电网,智能体通过与环境进行交互,从而产生新的状态和动作,环境会据此给出一个奖励,目标是获取尽可能多的奖励。
强化学习的基本组成部分主要包括:
状态:新能源微电网的状态量包括电能负载、光伏发电功率、风能发电功率、电价、储能系统荷电状态,其状态表示为:
S(t)={Pload(t),PPV(t),Pwind(t),Price(t),SOC(t)}
动作:新能源微电网的动作由各产能设备和耗能设备组成,包括分布式发电功率、储能功率,另外,电网交易功率可由电功率平衡约束计算得出,故动作可以表示为:
A(t)={PDG(t),Pb(t)}
奖励:新能源微电网的优化目标是最小化总运行成本,强化学习的优化目标是最大化奖励,因此将成本设为负数形式,故智能体在采取策略后得到的奖励可以表示为:
Cost(t)=CostDG(t)+CostGrid(t)+Costpenalty(t)
Reward(t)=-Cost(t)
步骤四:搭建TD3方法框架,采用双重Q网络。
TD3在DDPG的基础上优化,一共有6个网络,分别是critic当前值神经网络1,critic当前值神经网络2、actor当前策略神经网络、critic目标值神经网络1、critic目标值神经网络2、actor目标策略神经网络,TD3方法原理图如图2所示。TD3对于critic当前值神经网络和critic目标值神经网络都采用双重Q网络,计算时选择两个critic目标值神经网络中Q值较小的网络,计算公式如下:
其中,r为奖励,γ为折扣因子,w′i为critic目标值神经网络的参数,θ1为actor当前策略神经网络的参数,s′为新的状态,π为策略。
对于目标神经网络的更新采用软更新,而且actor策略神经网络采用延迟更新,比critic值神经网络的更新频率低,更新方式如下:
w′←τw+(1-τ)w′
在actor目标策略神经网络上增加随机噪声,可以提高探索能力并得到更加平滑的效果,计算公式如下:
y=r+γQw′(s′,πθ′(s′)+ε)
ε~clip(N(0,σ),-c,c)
其中,ε为随机噪声。
通过确定性策略梯度更新actor策略神经网络,梯度公式为:
TD3方法流程如表1所示。
表1 TD3方法流程
步骤五:大量数据集通过TD3训练直至收敛,得到训练好的TD3模型。
TD3的迭代次数为100次,gamma为0.99,replay buffer为50000,mini batch为128,值网络学习率为0.001,策略网络学习率为0.0003。在训练过程中,episode在20代附近收敛,如图3所示。智能体输入负载、新能源发电功率、电价、储能系统荷电状态数据,根据本文采用的TD3方法计算奖励值,不断学习,调整网络参数,直到获得最大奖励,学习趋于收敛状态,输出最优调度策略。
电网参数设置如下表:
表2电网参数
Symbol | Value |
P<sub>DG</sub><sup>min</sup> | 1000 |
P<sub>DG</sub><sup>max</sup> | 6000 |
P<sub>b</sub><sup>min</sup> | -1000 |
P<sub>b</sub><sup>max</sup> | 1000 |
P<sub>buy</sub><sup>min</sup> | -5000 |
P<sub>buy</sub><sup>max</sup> | 18000 |
SOC<sup>min</sup> | 0.2 |
SOC<sup>max</sup> | 1 |
E | 20000 |
实验参数设置如下表:
表3实验参数
Symbol | Value |
a | 0.001 |
b | 30 |
c | 0.5 |
β | 0.3 |
λ | 500 |
η | 0.95 |
步骤六:基于该模型对测试数据进行测试。
新能源微电网负载和电价分别如图4、图5所示,分布式发电情况、新能源微电网与主电网的交易情况分别如图6、图7所示。从图中可以看出,对于分布式发电系统,在电价高于相应的发电成本时,分布式发电系统增加发电量,当电价低于相应的发电成本时,分布式发电系统减少发电。对于主电网,为减少成本,电价较低时大量购入,电价较高时尽量减少购入电量,但在负载量较大时,其他能量不足以供应负载时,依然要从主电网采购电量。储能系统充放电情况和荷电状态分别如图8、图9所示。对于储能系统,在电价较低且负载量较低时,从主电网购电以存储备用;在电价较高且负载量较大时,储能系统释放电量作为补充。因此,各个动作量受电价影响较大。在电价较高的时段,分布式发电处于峰值,储能系统处于放电状态,SOC下降,缺失部分以主电网供电形式供给负载;在电价较低的时段,分布式发电较少,以向主电网购电为主,储能系统处于充电状态,SOC上升。实验结果表明,该方法经过智能体与环境的互动学习,学习到拟议的方法,可以解决新能源微电网的消纳问题并降低运行成本。
本方法与其他方法的日运行成本对比结果如下表所示。
表4不同方法优化结果对比
从上表可以看出,基于TD3的新能源微电网优化方法优化效果最好,日运行成本最低。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于TD3的新能源微电网优化方法,其特征在于:包括如下步骤:
S1:获取电网历史数据,对历史数据进行预处理,包括对异常数据的删除,对缺失数据的补充,最后进行归一化处理;
S2:根据电网实际运行状态建立新能源微电网模型;
S3:根据马尔可夫决策过程确定强化学习的要素,包括智能体、环境、状态、动作、奖励;
S4:搭建TD3方法框架,采用双重Q网络;
S5:大量数据集通过TD3训练直至收敛,得到训练好的TD3模型;
S6:基于该模型对测试数据进行测试。
2.根据权利要求1所述的基于TD3的新能源微电网优化方法,其特征在于:步骤S2的实现方法为:
新能源微电网由分布式发电系统、新能源发电系统、负载、储能系统组成,并与主电网进行交易;
分布式发电功率PDG(t)的不等式约束及发电成本CostDG(t)为:
其中,a、b、c为分布式发电成本系数,△t为时间段;
主电网的电价为小时电价记为Price(t),新能源微电网与主电网的交易成本CostGrid(t)包括从主电网购电的成本以及向主电网售电的收益,购电时电网交易功率Pbuy(t)大于零,售电时电网交易功率Pbuy(t)小于零,具体交易成本如下:
为避免过度向主电网售电,售电价格乘上因子β;交易功率的约束条件为:
储能系统用于对电能的存储,储能的荷电状态SOC计算如下:
SOC(t)=SOC(t-1)+Pb(t)·η·Δt/E
其中,E为储能系统的容量,η为储能系统充放电转换效率,Pb(t)为充放电功率,正值代表充电,负值代表放电,其约束条件如下:
为避免储能系统过充过放,SOC需满足如下条件:
SOCmin(t)≤SOC(t)≤SOCmax(t)
如果SOC超出正常范围,则有惩罚函数Costpenalty(t)如下:
Costpenalty(t)=λPb(t)
其中,λ是惩罚系数;
全部电能负载为Pload(t),太阳能发电功率为PPV(t),风能发电功率为Pwind(t),为了增加新能源的消纳能力,净负载Pnet(t)可以设为:
Pnet(t)=Pload(t)-PPV(t)-Pwind(t)
新能源微电网中各个部分满足的等式约束条件为:
PDG(t)+Pbuy(t)=Pnet(t)+Pb(t)
其中,PDG(t)表示分布式发电功率,Pbuy(t)表示新能源微电网与主电网的交易功率,Pnet(t)表示净负载,Pb(t)表示储能系统充放电功率;
新能源微电网的目标函数为:
其中,CostDG(t)表示分布式发电成本,CostGrid(t)表示新能源微电网与主电网的交易成本,Costpenalty(t)表示SOC惩罚函数。
3.根据权利要求1所述的基于TD3的新能源微电网优化方法,其特征在于:步骤S3的实现方法为:
对于整个强化学习,智能体是TD3方法,环境是新能源微电网,智能体通过与环境进行交互,从而产生新的状态和动作,环境会据此给出一个奖励,目标是获取尽可能多的奖励;强化学习的基本组成部分主要包括:
状态:新能源微电网的状态量包括电能负载、光伏发电功率、风能发电功率、电价、储能系统荷电状态,其状态表示为:
S(t)={Pload(t),PPV(t),Pwind(t),Price(t),SOC(t)}
动作:新能源微电网的动作由各产能设备和耗能设备组成,包括分布式发电功率、储能功率,另外,电网交易功率可由电功率平衡约束计算得出,故动作可以表示为:
A(t)={PDG(t),Pb(t)}
奖励:新能源微电网的优化目标是最小化总运行成本,强化学习的优化目标是最大化奖励,因此将成本设为负数形式,故智能体在采取策略后得到的奖励可以表示为:
Cost(t)=CostDG(t)+CostGrid(t)+Costpenalty(t)
Reward(t)=-Cost(t)
其中,奖励Reward(t)为总成本Cost(t)的相反数。
4.根据权利要求1所述的基于TD3的新能源微电网优化方法,其特征在于:步骤S4的实现方法为:
TD3在DDPG基础上优化,一共有6个网络,分别是critic当前值神经网络1,critic当前值神经网络2、actor当前策略神经网络、critic目标值神经网络1、critic目标值神经网络2、actor目标策略神经网络;TD3对于critic当前值神经网络和critic目标值神经网络都采用双重Q网络,计算时选择两个critic目标值神经网络中Q值较小的网络,计算公式如下:
其中,r为奖励,γ为折扣因子,w′i为critic目标值神经网络的参数,θ1为actor当前策略神经网络的参数,s′为新的状态,π为策略;
对于目标神经网络的更新采用软更新,而且actor策略神经网络采用延迟更新,比critic值神经网络的更新频率低,更新方式如下:
w′←τw+(1-τ)w′
在actor目标策略神经网络上增加随机噪声,可以提高探索能力并得到更加平滑的效果,计算公式如下:
y=r+γQw′(s′,πθ′(s′)+ε)
ε~clip(N(0,σ),-c,c)
其中,ε为随机噪声;
通过确定性策略梯度更新actor策略神经网络,梯度公式为:
其中,▽θ为策略神经网络梯度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111039111.XA CN113675890A (zh) | 2021-09-06 | 2021-09-06 | 基于td3的新能源微电网优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111039111.XA CN113675890A (zh) | 2021-09-06 | 2021-09-06 | 基于td3的新能源微电网优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113675890A true CN113675890A (zh) | 2021-11-19 |
Family
ID=78548739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111039111.XA Pending CN113675890A (zh) | 2021-09-06 | 2021-09-06 | 基于td3的新能源微电网优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113675890A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114116183A (zh) * | 2022-01-28 | 2022-03-01 | 华北电力大学 | 基于深度强化学习的数据中心业务负载调度方法及系统 |
CN114336715A (zh) * | 2022-03-08 | 2022-04-12 | 安徽中科海奥电气股份有限公司 | 一种内置直流微网和高效dc变换器的储能充电桩 |
CN114285075B (zh) * | 2021-12-22 | 2023-09-15 | 浙江工业大学 | 一种基于分布式深度强化学习的微电网能量在线优化方法 |
CN117394461A (zh) * | 2023-12-11 | 2024-01-12 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
-
2021
- 2021-09-06 CN CN202111039111.XA patent/CN113675890A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114285075B (zh) * | 2021-12-22 | 2023-09-15 | 浙江工业大学 | 一种基于分布式深度强化学习的微电网能量在线优化方法 |
CN114116183A (zh) * | 2022-01-28 | 2022-03-01 | 华北电力大学 | 基于深度强化学习的数据中心业务负载调度方法及系统 |
CN114116183B (zh) * | 2022-01-28 | 2022-04-29 | 华北电力大学 | 基于深度强化学习的数据中心业务负载调度方法及系统 |
CN114336715A (zh) * | 2022-03-08 | 2022-04-12 | 安徽中科海奥电气股份有限公司 | 一种内置直流微网和高效dc变换器的储能充电桩 |
CN117394461A (zh) * | 2023-12-11 | 2024-01-12 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
CN117394461B (zh) * | 2023-12-11 | 2024-03-15 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113675890A (zh) | 基于td3的新能源微电网优化方法 | |
Sharma et al. | Probabilistic operation cost minimization of Micro-Grid | |
CN107294120B (zh) | 一种主动配电网混合储能容量优化配置方法及装置 | |
CN113688567A (zh) | 一种考虑冲击负荷的虚拟电厂两阶段优化调度方法 | |
CN108551176B (zh) | 一种结合储能均衡技术的储能电池系统容量配置方法 | |
CN110994694A (zh) | 计及差异化需求响应的微电网源荷储协调优化调度方法 | |
CN113572157A (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
Yin et al. | Equilibrium stability of asymmetric evolutionary games of multi-agent systems with multiple groups in open electricity market | |
CN115714382A (zh) | 一种基于安全强化学习的主动配电网实时调度方法及装置 | |
Zhang et al. | Deep reinforcement learning based bi-layer optimal scheduling for microgrid considering flexible load control | |
CN114925914A (zh) | 基于本征空间的能源优化调度方法及其电力交易方法 | |
Yu et al. | Research on energy management of a virtual power plant based on the improved cooperative particle swarm optimization algorithm | |
Zhang et al. | Physical-model-free intelligent energy management for a grid-connected hybrid wind-microturbine-PV-EV energy system via deep reinforcement learning approach | |
CN107579545B (zh) | 基于改进径向移动算法的含风电场电力系统经济调度方法 | |
Sun et al. | Multi-objective solution of optimal power flow based on TD3 deep reinforcement learning algorithm | |
CN110661277B (zh) | 一种基于敏感负荷接入的虚拟电厂日前调度方法 | |
Jin et al. | Research on energy management of microgrid in power supply system using deep reinforcement learning | |
CN113410900B (zh) | 基于自适应差分鲸鱼优化的微电网hess优化配置方法及系统 | |
CN113283654B (zh) | 基于聚合解列机制的微网群优化控制方法及系统 | |
Fang et al. | Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient | |
CN112865101A (zh) | 一种考虑可再生能源出力不确定性的线性化交易方法 | |
Lyu et al. | An Hour-ahead Cooperation Model of Virtual Power Plants Considering Uncertainties of Wind/Photovoltaic Power | |
Guru et al. | Wind generator and storage system scheduling for customer benefit and battery life | |
Wang et al. | Short-Term Load Forecasting for Industrial Enterprises Based on Long Short-Term Memory Network | |
Liu et al. | Multi-Objective Dynamic Economic Dispatch of Active Distribution Network Considering User Satisfaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |