CN117060386A - 一种基于值分布深度q网络的微电网储能调度优化方法 - Google Patents
一种基于值分布深度q网络的微电网储能调度优化方法 Download PDFInfo
- Publication number
- CN117060386A CN117060386A CN202310870454.3A CN202310870454A CN117060386A CN 117060386 A CN117060386 A CN 117060386A CN 202310870454 A CN202310870454 A CN 202310870454A CN 117060386 A CN117060386 A CN 117060386A
- Authority
- CN
- China
- Prior art keywords
- energy storage
- grid
- state
- micro
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 131
- 238000009826 distribution Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005457 optimization Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000009471 action Effects 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 44
- 238000010248 power generation Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 27
- 230000005611 electricity Effects 0.000 claims description 26
- 239000002245 particle Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000007599 discharging Methods 0.000 claims description 9
- 230000002787 reinforcement Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 230000001105 regulatory effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/008—Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电力调度工程技术领域,具体涉及一种基于值分布深度Q网络的微电网储能调度优化方法,通过将微电网储能调度问题描述为强化学习框架下的马尔科夫决策过程,不需要对微电网储能调度进行具体的数学建模,可以避免实际当中数学建模的困难和难以收敛到最优调度策略的问题。通过智能体与环境不断交互学习最终获得最优调度策略,通过最优调度策略来对储能系统进行调控,能够有效减少微电网运行成本,降低算法在微电网储能系统中训练的时间,具有很强的实用性和可移植性。
Description
技术领域
本发明涉及电力调度工程技术领域,尤其涉及一种基于值分布深度Q网络的微电网储能调度优化方法。
背景技术
微电网(microgrid,MG),作为新型电力系统的典型代表,其内部包含分布式供电单元、储能单元和负载单元,储能作为微电网中的核心环节,在微电网稳定运行、能量优化管理、短时供电、改善电能质量等方面起着至关重要的作用。以储能系统的控制方法为核心来研究微电网的调度策略是应对微电网优化运行问题的关键所在。
近年来,随着对节能减排的重视,越来越多的算法应用电力系统中。主要方法分为有模型和无模型两大类。对于有模型的方法:由于微电网同时面临能源侧和负荷侧的不确定性,这使得对于微电网的准确建模难以完成,且微电网的优化决策场景也难以表述为明确的数学表达式,会导致决策优化难以达到最优结果;对于无模型的方法:随着人工智能的兴起,将强化学习应用于电力系统中的研究也越来越多。强化学习方法是求解序贯决策的无模型方法,通过智能体与不确定环境的互动获取反馈来学习在环境中获得最大奖励的策略。现有方案大多数是基于DQN算法来实现对微电网的优化和管理,但由于微电网决策序列较长,而且新能源发电功率和负载需求功率以及电价具有波动性,会导致该方法需要大量时间去训练微电网储能调度决策。
发明内容
有鉴于此,本发明的目的在于提出一种基于值分布深度Q网络的微电网储能调度优化方法,以解决有模型方法的建立数学模型困难和无法达到最优调度决策以及无模型强化学习方法的训练时间过长的问题。
基于上述目的,本发明提供了一种基于值分布深度Q网络的微电网储能调度优化方法,包括以下步骤:
S1、根据目标微电网结构建立与之对应的储能系统模型;
S2、将微电网系统储能调度问题转换为马尔科夫决策过程,以此建立储能系统智能体状态空间、动作空间和奖励函数;
S3、利用值分布深度Q网络强化学习算法对储能调度马尔科夫决策过程进行训练,通过与环境的交互使从环境中获得的奖励达到稳定后,得到训练好的模型;
S4、将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,输出储能充放电调度策略,得出微电网运行成本最小的调度方案。
优选地,步骤S1进一步包括:
S11、建立储能系统模型:使用动态模型表示储能系统,和/>分别表示在时间t储能系统的充电或者放电功率,t时刻储能系统荷电状态用/>表示,则储能系统的模型为:
S12、设定储能系统限制条件:对于建立的储能模型,对其在t时刻的充电功率放电功率/>和储能系统荷电状态/>加以限制:
其中,分别表示储能系统充放电功率的最大值,/>分别表示储能系统荷电状态最小值和最大值;
S13、设定微电网功率平衡限制:功率平衡关系为:
其中,为t时刻微电网同外部电网的交互功率,若/>大于0则表示微电网向外部电网购电,若小于0则表示微电网向外部电网售电,/>为t时刻光伏发电功率,/>为t时刻储能系统充放电功率,/>为t时刻负载的功率需求。
优选地,步骤S2进一步包括:
S21、定义状态空间S:包括光伏发电功率、负载需求功率、储能系统荷电状态和从电网中的购电价格,状态空间为:
在系统状态空间S中,分别表示在t时刻的光伏发电功率和负荷需求功率,/>表示在t时刻的储能系统的荷电状态,pricet表示在t时刻外部电网的购电价格;
定义动作空间A:包括储能系统的充电功率和放电功率,动作空间表示为:
在系统动作空间A中,表示在t时刻的储能充放电功率;
定义奖励函数R:包括微电网系统在满足约束情况下运行时产生的成本和违反约束时的惩罚项,奖励函数表示为:
在奖励函数R中,表示在t时刻向外部电网交换电能的功率,C是储能系统的维修成本,η表示违反约束的惩罚项;
建立决策方法:使用深度神经网络来近似智能体的动作-价值函数和智能体接受环境的状态量,将状态量输入到深度神经网络中,深度神经网络输出在观测状态下的状态-动作价值分布Z(s,a),状态-动作价值分布函数表示智能体在观测状态st时并采取动作的长期回报的分布:
其中,γ是折扣因子,rt表示在t时刻状态s下执行动作a后获得的奖励,st表示t时刻的状态信息,at表示t时刻的动作,深度神经网络输出的状态-动作价值分布与储能智能体可采取的动作相对应,智能体根据最大Q值选取动作,其中Q值的公式为:
其中N表示神经网络输出的分布粒子数,i为第i个分布粒子,θ-是神经网络的参数,s,a为输入的状态和动作,输出为长期回报的分布Z。
优选地,步骤S3进一步包括:
S31、利用随机权重θ初始化神经网络,同时令目标神经网络权重θ-等于价值网络权重θ;初始化回放记忆单元D,初始化神经网络输出的分布粒子数N;
S32、获取微电网的状态信息,初始化储能系统荷电状态,设置初始荷电状态为0,对初始状态信息进行预处理转化成张量;
S33、在每个训练周期中,依据ε-贪心策略选择动作,设定ε如下:
ε=0.9×(0.995×i)
其中,i为智能体训练的周期数,同时在[0,1]范围内等概率随机生成一个数,若这个数大于ε,那么此时智能体选取获得最大估计值的动作价值函数Q所对应的动作a,若这个数小于ε,那么此时智能体从动作空间随机选取一个动作a;
S34、智能体在任一状态st时依据步骤S33中选取的动作执行,并观测在执行动作后获得的奖励rt同时转移到下一状态st+1;
S35、若此时下一状态st+1存在,将元组(st,at,rt,st+1)存入回放记忆单元,当记忆回放单元储存的样本数据达到最小样本数要求后,从回放记忆单元中选取小批量数据对智能体神经网络进行训练;
S36、将从回放记忆单元中选取的元组中的状态信息st输入到值分布Z,选取值分布Z输出的最大动作状态值Q(st,at;θ),并将此时的Q(st,at)作为监督信息,再将状态信息st+1也输入到值分布Z中,获取此时输出的最大动作状态值对应的动作索引index,然后从目标网络中获取在输入st+1的状态下对应index的动作的Q'(st+1,at+1;θ-)值,则此时神经网络的更新目标为:
其中,N为值分布的粒子个数;为通过核函数k计算出两个分布的距离,α表示神经网络的学习率;
对于目标值函数θ-,每隔十个训练周期,令θ-=θ用以更新目标值分布Z的深度神经网络参数;
S37、重复步骤S31-S36,直到值分别Z收敛,训练结束保存训练完成后的神经网络参数,得到训练好的模型。
优选地,步骤S4进一步包括:
S41、将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,在每个时隙t,智能体根据学习策略做出决策,执行动作at;
S42、观测t+1时刻状态st+1;
S43、重复步骤S41-S42,直到优化决策终止,得到每个时刻的调度方案。
本发明的有益效果:本发明将微电网储能调度问题描述为强化学习框架下的马尔科夫决策过程,不需要对微电网储能调度进行具体的数学建模,可以避免实际当中数学建模的困难和难以收敛到最优调度策略的问题。通过智能体与环境不断交互学习最终获得最优调度策略,通过最优调度策略来对储能系统进行调控,能够有效减少微电网运行成本,降低算法在微电网储能系统中训练的时间,具有很强的实用性和可移植性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的微电网储能系统模型示意图;
图2为本发明实施例的储能调度优化方法的训练实施步骤示意图;
图3为本发明实施例的储能系统训练时获得每日奖励的变化曲线图;
图4为本发明实施例的储能系统SOC变化情况和充放电功率图;
图5为本发明实施例的光伏发电、负荷需求、电价数据曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本说明书实施例提供一种基于值分布深度Q网络的微电网储能调度优化方法,采用最优的储能调度决策对储能设备进行调度,进而达到减少微电网系统运行成本的目的。
如图1所示,本发明系统模型包括:微电网系统中主要包括光伏发电、负载需求、储能电池三个模块,光伏发电可以将太阳能转化为电能,供给交流负荷或者经过变流器将电能转化成直流电供给储能系统,也可以直接出售给主电网。当光伏发电量无法满足微电网运行负载需求时,可以通过对储能系统进行放电或者从主电网中购买电量达到功率平衡,储能系统能源的调度可以在一定程度上减少微电网系统运行成本。
如图2所示,本发明提供的基于值分布深度Q网络的微电网储能调度优化方法包括以下步骤:
S1、根据目标微电网结构建立与之对应的储能系统模型;
具体来说,使用动态模型来表示储能系统,和/>分别表示在时间t储能系统的充电或者放电功率,t时刻储能系统荷电状态用/>表示,则储能系统的模型为
其中,ξ,η分别表示储能系统的充电效率和放电效率;EES表示储能系统的额定容量;Δt表示储能系统能量调度的时间间隔;同时在任意时刻,储能系统不能同时充电和放电;
设定储能系统限制条件:对于建立的储能模型,对其在t时刻的充电功率放电功率/>和储能系统荷电状态/>加以限制:
其中,分别表示储能系统充放电功率的最大值;/>分别表示储能系统荷电状态最小值和最大值;
设定微电网功率平衡限制:功率平衡关系如下:
其中,为t时刻微电网同外部电网的交互功率,若/>大于0则表示微电网向外部电网购电,若小于0则表示微电网向外部电网售电;/>为t时刻光伏发电功率;/>为t时刻储能系统充放电功率;/>为t时刻负载的功率需求。
S2、将微电网系统储能调度问题转换为马尔科夫决策过程,以此建立储能系统智能体状态空间、动作空间和奖励函数;
具体过程包括:
定义状态空间S:包括光伏发电功率、负载需求功率、储能系统荷电状态、从电网中的购电价格,发电功率和负载需求功率以KW为单位,储能系统荷电状态范围为0-1,购电价格以元为单位,状态空间如下所示:
在系统状态空间S中,分别表示在t时刻的光伏发电功率和负荷需求功率,/>表示在t时刻的储能系统的荷电状态,pricet表示在t时刻外部电网的购电价格;
定义动作空间A:包括储能系统的充电功率大小和放电功率大小的11个动作,把-1到1之间划分为11等分,动作空间表示如下:
在系统动作空间A中,表示在t时刻的储能的最大充放电功率;
定义奖励函数R:包括微电网系统在满足约束情况下运行时产生的成本,违反约束时的惩罚项,奖励函数表示如下:
在奖励函数R中,表示在t时刻向外部电网交换电能的功率,C是储能系统的维修成本,主要考虑充放电次数对储能寿命的影响,η表示违反约束的惩罚项;
建立决策方法:使用深度神经网络来近似智能体的动作-价值函数,智能体接受环境的状态量,将状态量输入到深度神经网络中,深度神经网络输出在观测状态下的状态-动作价值分布Z(s,a),状态-动作价值分布函数表示智能体在观测状态st时并采取动作的长期回报的分布:
在上式中,γ是折扣因子,其取值范围为0到1,表示长期回报的重要程度,rt表示在状态s下执行动作a后获得的奖励,st表示t时刻的状态信息,at表示t时刻的动作,深度神经网络输出的状态-动作价值分布与储能智能体可采取的动作相对应,智能体根据最大Q值选取动作,其中Q值的公式为:
其中,N表示神经网络输出的分布粒子数,i为第i个分布粒子,θ-是神经网络的参数,s,a为输入的状态和动作,输出为长期回报的分布Z。
S3、利用值分布深度Q网络强化学习算法对储能调度马尔科夫决策过程进行训练,通过与环境的交互使从环境中获得的奖励达到稳定后,得到训练好的模型;
具体来说,储能系统智能体的训练流程包括:
S31、利用随机权重θ初始化神经网络,同时令目标神经网络权重θ-等于价值网络权重θ;初始化回放记忆单元D;初始化神经网络输出的分布粒子数N;
S32、获取微电网的状态信息,包含(2.1)中所需的微电网状态信息,同时初始化储能系统荷电状态,设置初始荷电状态为0;对初始状态信息进行预处理转化成张量;
S33、在每个训练周期中,依据ε-贪心策略选择动作,设定ε如下:
ε=0.9×(0.995×i)
其中,i为智能体训练的周期数,同时在[0,1]范围内等概率随机生成一个数,若这个数大于ε,那么此时智能体选取获得最大估计值的动作价值函数Q所对应的动作a;若这个数小于ε,那么此时只能体从动作空间随机选取一个动作a;
S34、智能体在任一状态st时依据S33中选取的动作执行,并观测在执行动作后获得的奖励rt同时转移到下一状态st+1;
S35、若此时下一状态st+1存在,将元组(st,at,rt,st+1)存入回放记忆单元,当记忆回放单元储存的样本数据达到最小样本数要求后,从回放记忆单元中选取小批量数据对智能体神经网络进行训练;
S36、将从回放记忆单元中选取的元组中的状态信息st输入到值分布Z,选取值分布Z输出的最大动作状态值Q(st,at;θ),并将此时的Q(st,at)作为监督信息;再将状态信息st+1也输入到值分布Z中,获取此时输出的最大动作状态值对应的动作索引index;然后从目标网络中获取在输入st+1的状态下对应index的动作的Q'(st+1,at+1;θ-)值,则此时神经网络的更新目标为:
其中,N为值分布的粒子个数;α表示神经网络的学习率;为通过核函数k计算出两个分布Zθ和/>的距离:
其中,p,q分别是随机变量x,y的分布,是随机变量通过核函数k映射到再生希尔伯特空间中的向量;n,m分别为源域x和目标域y的样本数;
对于目标值函数θ-,每隔两个训练周期,令θ-=θ用以更新目标值分布Z的深度神经网络参数。
S37、重复步骤S31-S36,直到值分别Z收敛,训练结束保存训练完成后的神经网络参数。
S4、将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,输出储能充放电调度策略,得出微电网运行成本最小的调度方案。
具体包括:
S41、将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,在每个时隙t,智能体根据学习策略做出决策,执行动作at;
S42、观测t+1时刻状态st+1;
S43、重复步骤S41-S42,直到优化决策终止,得到每个时刻的调度方案。本发明实施例的一个应用场景:
微电网是商用型微电网,储能额定容量大小为500kWh,储能最大充放电功率为100kWh,储能充电效率ξ=99.5%,储能放电效率η=100.5%,储能的荷电状态水平限值分别为SOCmax=100%,SOCmin=0%。对于一天的负荷、光伏发电和电价简况,采集数据的时间周期为1小时。根据实际输入数据序列维度和数据量,本发明实施例采用全连接神经网络有一个输入层,两个隐藏层和一个输出层,输入层进行光伏发电、负荷需求、电价以及储能荷电状态数据的4个维度特征提取,隐藏层的神经元为64,输出值分布Z的粒子数为32,有11个动作输出,输出层为32*11个神经元,最后输出层采用激活函数relu函数输出离散化动作对应的Z分布。另外,强化学习算法中学习率初始值设为0.001,折扣因子设为0.9,贪婪策略概率ε初始值设为0.9。
图3展示了储能智能体在训练过程中,微电网运行的一天总运行成本随训练次数的变化,由图5可以看出在训练一定次数后微电网一天的运行成本基本达到了一个稳定值,表明微电网储能智能体已学习到一个较优的策略。由强化学习训练获得的储能智能体能够根据微电网的状态合理的充放电。图4和图5展示了面对光伏发电和负荷需求的波动的情况下,储能系统能够充分利用可再生能源,当光伏发电量较多时将能量储存起来并在负荷需求较大时地向本地负荷提供电力,起到了削峰填谷的作用;当光伏发电量不够时储能在低价时购买电量,在高价时供给负荷电力,减少了运行过程中向电力市场的购电花费。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于值分布深度Q网络的微电网储能调度优化方法,其特征在于,包括以下步骤:
S1、根据目标微电网结构建立与之对应的储能系统模型;
S2、将微电网系统储能调度问题转换为马尔科夫决策过程,以此建立储能系统智能体状态空间、动作空间和奖励函数;
S3、利用值分布深度Q网络强化学习算法对储能调度马尔科夫决策过程进行训练,通过与环境的交互使从环境中获得的奖励达到稳定后,得到训练好的模型;
S4、将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,输出储能充放电调度策略,得出微电网运行成本最小的调度方案。
2.根据权利要求1所述的基于值分布深度Q网络的微电网储能调度优化方法,其特征在于,步骤S1进一步包括:
S11、建立储能系统模型:使用动态模型表示储能系统,和/>分别表示在时间t储能系统的充电或者放电功率,t时刻储能系统荷电状态用/>表示,则储能系统的模型为:
S12、设定储能系统限制条件:对于建立的储能模型,对其在t时刻的充电功率放电功率/>和储能系统荷电状态/>加以限制:
其中,分别表示储能系统充放电功率的最大值,/>分别表示储能系统荷电状态最小值和最大值;
S13、设定微电网功率平衡限制:功率平衡关系为:
其中,为t时刻微电网同外部电网的交互功率,若/>大于0则表示微电网向外部电网购电,若小于0则表示微电网向外部电网售电,/>为t时刻光伏发电功率,/>为t时刻储能系统充放电功率,/>为t时刻负载的功率需求。
3.根据权利要求2所述的基于值分布深度Q网络的微电网储能调度优化方法,其特征在于,步骤S2进一步包括:
S21、定义状态空间S:包括光伏发电功率、负载需求功率、储能系统荷电状态和从电网中的购电价格,状态空间为:
在系统状态空间S中,分别表示在t时刻的光伏发电功率和负荷需求功率,表示在t时刻的储能系统的荷电状态,pricet表示在t时刻外部电网的购电价格;
定义动作空间A:包括储能系统的充电功率和放电功率,动作空间表示为:
在系统动作空间A中,表示在t时刻的储能充放电功率;
定义奖励函数R:包括微电网系统在满足约束情况下运行时产生的成本和违反约束时的惩罚项,奖励函数表示为:
在奖励函数R中,表示在t时刻向外部电网交换电能的功率,C是储能系统的维修成本,η表示违反约束的惩罚项;
建立决策方法:使用深度神经网络来近似智能体的动作-价值函数和智能体接受环境的状态量,将状态量输入到深度神经网络中,深度神经网络输出在观测状态下的状态-动作价值分布Z(s,a),状态-动作价值分布函数表示智能体在观测状态st时并采取动作的长期回报的分布:
其中,γ是折扣因子,rt表示在t时刻状态s下执行动作a后获得的奖励,st表示t时刻的状态信息,at表示t时刻的动作,深度神经网络输出的状态-动作价值分布与储能智能体可采取的动作相对应,智能体根据最大Q值选取动作,其中Q值的公式为:
其中N表示神经网络输出的分布粒子数,i为第i个分布粒子,θ-是神经网络的参数,s,a为输入的状态和动作,输出为长期回报的分布Z。
4.根据权利要求3所述的基于值分布深度Q网络的微电网储能调度优化方法,其特征在于,步骤S3进一步包括:
S31、利用随机权重θ初始化神经网络,同时令目标神经网络权重θ-等于价值神经网络权重θ;初始化回放记忆单元D,初始化神经网络输出的分布粒子数N;
S32、获取微电网的状态信息,初始化储能系统荷电状态,设置初始荷电状态为0,对初始状态信息进行预处理转化成张量;
S33、在每个训练周期中,依据ε-贪心策略选择动作,设定ε如下:
ε=0.9×(0.995×i)
其中,i为智能体训练的周期数,同时在[0,1]范围内等概率随机生成一个数,若这个数大于ε,那么此时智能体选取获得最大估计值的动作价值函数Q所对应的动作a,若这个数小于ε,那么此时智能体从动作空间随机选取一个动作a;
S34、智能体在任一状态st时依据步骤S33中选取的动作执行,并观测在执行动作后获得的奖励rt同时转移到下一状态st+1;
S35、若此时下一状态st+1存在,将元组(st,at,rt,st+1)存入回放记忆单元,当记忆回放单元储存的样本数据达到最小样本数要求后,从回放记忆单元中选取小批量数据对智能体神经网络进行训练;
S36、将从回放记忆单元中选取的元组中的状态信息st输入到值分布Z,选取值分布Z输出的最大动作状态值Q(st,at;θ),并将此时的Q(st,at)作为监督信息,再将状态信息st+1也输入到值分布Z中,获取此时输出的最大动作状态值对应的动作索引index,然后从目标网络中获取在输入st+1的状态下对应index的动作的Q'(st+1,at+1;θ-)值,则此时神经网络的更新目标为:
其中,N为值分布的粒子个数;为通过核函数k计算出两个分布的距离,α表示神经网络的学习率;
对于目标值函数θ-,每隔十个训练周期,令θ-=θ用以更新目标值分布Z的深度神经网络参数;
S37、重复步骤S31-S36,直到值分别Z收敛,训练结束保存训练完成后的神经网络参数,得到训练好的模型。
5.根据权利要求4所述的基于值分布深度Q网络的微电网储能调度优化方法,其特征在于,步骤S4进一步包括:
S41、将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,在每个时隙t,智能体根据学习策略做出决策,执行动作at;
S42、观测t+1时刻状态st+1;
S43、重复步骤S41-S42,直到优化决策终止,得到每个时刻的调度方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310870454.3A CN117060386A (zh) | 2023-07-14 | 2023-07-14 | 一种基于值分布深度q网络的微电网储能调度优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310870454.3A CN117060386A (zh) | 2023-07-14 | 2023-07-14 | 一种基于值分布深度q网络的微电网储能调度优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117060386A true CN117060386A (zh) | 2023-11-14 |
Family
ID=88668215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310870454.3A Pending CN117060386A (zh) | 2023-07-14 | 2023-07-14 | 一种基于值分布深度q网络的微电网储能调度优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117060386A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117613983A (zh) * | 2024-01-23 | 2024-02-27 | 国网冀北电力有限公司 | 基于融合规则强化学习的储能充放电控制决策方法及装置 |
-
2023
- 2023-07-14 CN CN202310870454.3A patent/CN117060386A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117613983A (zh) * | 2024-01-23 | 2024-02-27 | 国网冀北电力有限公司 | 基于融合规则强化学习的储能充放电控制决策方法及装置 |
CN117613983B (zh) * | 2024-01-23 | 2024-04-16 | 国网冀北电力有限公司 | 基于融合规则强化学习的储能充放电控制决策方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119886B (zh) | 一种主动配网动态规划方法 | |
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
Moghaddam et al. | Multi-objective operation management of a renewable MG (micro-grid) with back-up micro-turbine/fuel cell/battery hybrid power source | |
CN111934360B (zh) | 基于模型预测控制的虚拟电厂-储能系统能量协同优化调控方法 | |
Roy et al. | Solution of unit commitment problem using quasi-oppositional teaching learning based algorithm | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、系统及装置 | |
CN112418496B (zh) | 一种基于深度学习的配电台区储能配置方法 | |
Wan et al. | A data-driven approach for real-time residential EV charging management | |
CN117060386A (zh) | 一种基于值分布深度q网络的微电网储能调度优化方法 | |
Dong et al. | Optimal scheduling framework of electricity-gas-heat integrated energy system based on asynchronous advantage actor-critic algorithm | |
Hannan et al. | ANN-based binary backtracking search algorithm for VPP optimal scheduling and cost-effective evaluation | |
CN114285075B (zh) | 一种基于分布式深度强化学习的微电网能量在线优化方法 | |
Chang et al. | Model predictive control based energy collaborative optimization management for energy storage system of virtual power plant | |
Musilek et al. | Optimal energy management of residential PV/HESS using evolutionary fuzzy control | |
Hashmi et al. | Power energy management for a grid-connected PV system using rule-base fuzzy logic | |
Li et al. | Short-term load forecasting for an industrial park using LSTM-RNN considering energy storage | |
CN112003279B (zh) | 层次化微电网新能源消纳能力的评估方法 | |
Alam et al. | Optimal energy management strategy for ess with day ahead energy prediction | |
Alam et al. | Energy management by scheduling ESS with active demand response in low voltage grid | |
Elkholy et al. | Maximizing microgrid resilience: A two-stage AI-Enhanced system with an integrated backup system using a novel hybrid optimization algorithm | |
Luo et al. | Optimal scheduling for a multi-energy microgrid by a soft actor-critic deep reinforcement learning | |
Mahmud et al. | Load forecasting based dynamic pricing model for power sharing in solar home systems | |
Kramer et al. | Managing Energy in a Virtual Power Plant Using Learning Classifier Systems. | |
Li et al. | Optimal configuration of photovoltaic microgrid with improved ant colony dynamic programming | |
Piao et al. | Coordinated optimal dispatch of composite energy storage microgrid based on double deep Q-network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |