CN114123256A - 一种适应随机优化决策的分布式储能配置方法及系统 - Google Patents

一种适应随机优化决策的分布式储能配置方法及系统 Download PDF

Info

Publication number
CN114123256A
CN114123256A CN202111288522.2A CN202111288522A CN114123256A CN 114123256 A CN114123256 A CN 114123256A CN 202111288522 A CN202111288522 A CN 202111288522A CN 114123256 A CN114123256 A CN 114123256A
Authority
CN
China
Prior art keywords
energy storage
power
time
storage system
electricity price
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111288522.2A
Other languages
English (en)
Other versions
CN114123256B (zh
Inventor
吴强
黄河
高松
李妍
姜家兴
明威宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Huazhong University of Science and Technology
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, State Grid Jiangsu Electric Power Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN202111288522.2A priority Critical patent/CN114123256B/zh
Publication of CN114123256A publication Critical patent/CN114123256A/zh
Application granted granted Critical
Publication of CN114123256B publication Critical patent/CN114123256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Power Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种适应随机优化决策的分布式储能配置方法及系统,属于配电网规划领域,包括在平时电价时段和峰时电价时段内获取t时刻配电网的观测状态;根据当前状态采取相应的储能放电策略,得到配电网即时回报模型,开展基于竞争深度Q网络的神经网络的训练;获取k时刻实时观测状态输入已经训练完成的神经网络中,输出实时观测状态下的储能放电策略结合充电策略得到完整的典型日周期内的储能充放电策略。本发明建立基于马尔可夫决策过程的储能配置规划模型,分析随机性潮流对储能功率和容量的影响,在满足分布式电源和负荷随机性波动的约束条件下,将储能调度优化嵌入储能配置规划中去,实现分布式储能的规划运行一体化优化。

Description

一种适应随机优化决策的分布式储能配置方法及系统
技术领域
本发明属于配电网规划领域,更具体地,涉及一种适应随机优化决策的分布式储能配置方法及系统。
背景技术
近年来,分布式电源广泛接入,可再生能源出力波动叠加用户用电行为不确定性给配电网的供需平衡带来较大压力,分布式储能参与配电网优化运行是一种新的解决方案。适应配电网优化运行的分布式储能配置方法是实现充分消纳分布式电源的关键技术。
目前分布式储能的优化配置方法一般是基于规划和运行优化的双层耦合模型,如图1所示。外层模型为储能系统参数配置的优化模型,目标函数包括储能系统的投资成本、峰谷套利和辅助服务补偿等;内层模型为调度优化模型,目标函数为系统运行优化的相关目标,如电压改善、提高可再生能源消纳率等。现有规划模型具有非线性、高维度和多目标的特点;模型求解主要使用包括差分进化算法,粒子群算法,遗传算法及其改进算法在内的进化算法求解。
目前所建立的双层模型兼顾投资和运行优化,模型的求解需要采用智能算法基于双层之间互相反馈的优化结果迭代求解,增加了计算难度;目前的求解算法如遗传算法、差分进化算法难以找到最优解。
发明内容
针对现有技术的缺陷,本发明提供一种适应随机优化决策的分布式储能配置规划方法及系统,目的在于将储能的优化调度建模为基于马尔科夫过程的随机优化决策问题,分析随机性潮流对储能功率和容量的影响,在满足分布式电源和负荷随机性波动的约束条件下,得到分布式储能优化配置方案。
为实现上述目的,本发明提供了一种适应随机优化决策的分布式储能配置规划方法及系统,其目的在于,将储能的优化调度建模为基于马尔科夫决策过程的随机序贯决策问题,采用基于竞争深度Q网络的深度强化学习算法,利用其非线性映射能力优化求解非线性高维度的储能规划模型与储能调度策略方案。
本发明提供了一种适应随机优化决策的分布式储能配置方法,如图2所示,包括:
训练阶段:
(1)在平时电价时段和峰时电价时段内获取t时刻配电网的观测状态;
(2)根据当前状态采取相应的储能放电策略,得到配电网即时回报模型;
(3)为了使长远回报最大化,需要采取最佳动作,定义储能放电策略的动作估值函数Qπ(st,at),通过即时回报的反馈进行动作估值函数迭代更新,得到动作估值函数的目标值
Figure BDA0003334099390000021
(4)由目标值
Figure BDA0003334099390000022
与神经网络输出值Qπ′(st,at,ω)计算得到神经网络损失值,利用小批量梯度下降法更新神经网络参数,完成增强学习;
应用阶段:
(5)在平时电价时段和峰时电价时段内获取k时刻实时观测状态sk,输入已经训练完成的神经网络中,输出实时观测状态下的储能放电策略;
(6)设定储能系统在谷时电价时段按照平均功率充电,储能充电电能等于平时电价时段和峰时电价时段的放电电能,结合(5)中的储能放电策略得到完整的典型日周期内的储能充放电策略;
(7)根据储能充放电策略得到分布式储能系统的额定功率Prate和额定容量C参数。
进一步地,所述t时刻配电网的观测状态表示为:
Figure BDA0003334099390000031
其中,st是t时刻配电网的观测状态,
Figure BDA0003334099390000032
是t时刻观测节点i的电压,
Figure BDA0003334099390000033
是t时刻配有分布式储能系统的用户j的功率,Nnode、Nuser分别为电压可观测节点集合和配有储能系统的用户集合。其中t时刻属于平时电价和峰时电价时段,设定储能在谷时电价时段充电,平时电价和峰时电价时段按照神经网络输出的动作策略放电,因此仅获取平时电价和峰时电价时段的配电网观测状态对神经网络开展训练。
进一步地,还包括对所述电网的观测状态进行归一化处理:
Figure BDA0003334099390000034
Figure BDA0003334099390000035
其中,min()表示取最小值,max()表示取最大值。
进一步地,所述步骤(2)包括:
(2.1)根据当前状态采取相应的储能放电策略,按照放电和零功率运行两种状态考虑,相应设定t时刻的动作函数at,表示为
Figure BDA0003334099390000036
j∈Nuser
Figure BDA0003334099390000037
为编号为j的用户在t+1时刻供电方式的状态变量,只有0或1两种取值,取值为0代表用户由自身配备的分布式储能系统供电,满足储能系统的功率和能量平衡约束;取值为1代表用户由电网供电,满足潮流平衡约束、节点电压幅值及相角约束;
(2.2)建立配电网即时回报模型
Figure BDA0003334099390000038
即时回报由电压可观测节点i电压改善回报得分
Figure BDA0003334099390000039
供电方式切换控制回报得分
Figure BDA0003334099390000041
和用户用电成本回报得分
Figure BDA0003334099390000042
三部分及其对应的权重wsafe、wuser、weoc加权求和得到;
(2.3)对于用户用电成本回报得分
Figure BDA0003334099390000043
其中,
Figure BDA0003334099390000044
为该时刻的分时电价;
Figure BDA0003334099390000045
为第j个用户的分布式储能单位电量供电成本;
(2.4)对于电压改善回报得分
Figure BDA0003334099390000046
用奖励系数Freward和惩罚系数Fpunish度量电压控制的回报,其中,Urate为配电网运行的额定电压;
(2.5)对于供电方式切换控制回报得分
Figure BDA0003334099390000047
采用相邻两个采样时间用户的供电方式的状态改变量来定义,若状态改变,则为-1,否则取值为0。
进一步地,所述储能系统的功率和能量平衡约束包括:
充放电功率约束:分布式储能系统的额定功率满足充放电功率的最大需求,即Prate=max(Pdis,Pcharge),其中,Pdis为储能系统的放电功率,Pcharge为储能系统的充电功率;
分布式储能系统的能量平衡约束:分布式储能系统在运行周期中满足能量平衡,即
Figure BDA0003334099390000048
其中,P(t)为储能系统的功率;
所述潮流平衡约束、节点电压幅值及相角约束分别为:
潮流平衡约束:
Figure BDA0003334099390000049
Figure BDA00033340993900000410
其中,Pi、Qi为节点i的节点有功和无功功率,Vi为节点i的电压幅值,θik为节点i、k电压相角的差值,Gik、Bik为节点i、k之间支路的导纳;
节点电压幅值及相角约束:
Vi-min≤Vi≤Vi-max
θi-min≤θi≤θi-max
其中,Vi为节点i的电压幅值,θi为节点i的电压相量的相角,Vi-min、Vi-max为节点i的电压幅值的最小值和最大值;θi-min、θi-max为节点i的电压相角的最小值和最大值。
进一步地,所述步骤(3)包括:
定义动作估值函数如下:
Figure BDA0003334099390000051
其中,π代表控制策略,λ∈[0,1],称为折合因子,表明未来回报相对于当前回报的重要程度,E代表期望值,rt+1代表执行完具体动作at后的即时回报,动作估值函数的目标值
Figure BDA0003334099390000052
由贝尔曼方程可推出:
Figure BDA0003334099390000053
其中,At+1代表在t+1时刻所有能执行动作的集合,根据环境的运行状态观测值,通过迭代进行动作估值函数更新,具体公式如下:
Figure BDA0003334099390000054
其中,α为学习速率,满足0≤α≤1。
进一步地,所述步骤(4)包括:
(4.1)分别用两个神经网络来拟合观测状态下的状态估值函数V(st)和当前状态下各个动作的优势估值函数A(st,at),得到动作估值函数Qπ(st,at);
(4.2)在学习期间,引入ε-greedy策略来进行动作选取,以平衡对环境的探索和利用机制,公式如下:
Figure BDA0003334099390000061
其中,ε为一固定常数,T为总训练次数,t为当前训练时刻,β(0<β≤ε)为计算机生成的一个随机数;
(4.3)引入记忆回放机制,当经验池中的样本数超过回放开始容量,从经验池中抽取小批量样本开展神经网络训练;若样本数超出经验池容量,则剔除早期观测样本再存入新样本;
(4.4)计算神经网络损失值,利用小批量梯度下降法进行神经网络训练。
进一步地,所述步骤(5)包括:
获取观测状态,输入训练完成的神经网络执行正向计算,选取最大的估值动作,即最优的储能放电策略。
进一步地,所述步骤(6)包括:
分时电价中包含谷时电价、平时电价和峰时电价,日周期内,设定储能在谷时电价时段以平均功率Pcharge充电,充电电能等于放电电能E,
Figure BDA0003334099390000062
其中,Tdis={Δt1、Δt2、Δt3…Δtm…}为分布式储能系统为用户j提供电能的时间段的集合,Pdis为储能放电功率;
Figure BDA0003334099390000063
其中,Tcharge为充电时长,这里指谷时段时长,η为储能系统能量转换效率。
进一步地,所述步骤(7)包括:
所述储能系统的额定功率为储能平均充电功率Pcharge和放电功率Pdis的较大值,即
Prate=max(Pdis,Pcharge)
所述储能系统的额定容量为
Figure BDA0003334099390000071
其中,Edis为储能系统的典型日周期内的放电电能,η为储能系统的能量转换效率。
本发明另一方面提供了一种适应随机优化决策的分布式储能配置系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的适应随机优化决策的分布式储能配置方法。
通过本发明所构思的以上技术方案,与现有技术相比,本发明建立基于马尔可夫决策过程的储能配置规划模型,分析随机性潮流对储能功率和容量的影响,在满足分布式电源和负荷随机性波动的约束条件下,得到分布式储能优化配置方案,能将储能调度优化嵌入储能配置规划中去,实现分布式储能的规划运行一体化优化。采用基于竞争深度Q网络的深度强化学习算法对分布式储能的随机优化调度开展自学习,得到最优的储能充放电策略,规划的方案能满足日周期内分布式储能调度优化配电网的需求。由于深度强化学习是一种无模型的方法,不依赖于先验知识,而且方案将储能调度和规划综合优化,能够取得快速寻优、提高储能投资经济性的有益效果。
附图说明
图1是现有分布式储能配置规划双层模型的示意图;
图2是基于深度强化学习的分布式储能规划调度一体化的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互组合。
本发明提供的一种适应随机优化决策的分布式储能配置方法,包括:
训练阶段:
(1)在平时电价时段和峰时电价时段内获取t时刻配电网的观测状态;
(2)根据当前状态采取相应的储能放电策略,得到配电网即时回报模型;
(3)为了使长远回报最大化,需要采取最佳动作,定义储能放电策略的动作估值函数Qπ(st,at),通过即时回报的反馈进行动作估值函数迭代更新,得到动作估值函数的目标值
Figure BDA0003334099390000081
(4)由目标值
Figure BDA0003334099390000082
与神经网络输出值Qπ′(st,at,ω)计算得到神经网络损失值,利用小批量梯度下降法更新神经网络参数,完成增强学习;
应用阶段:
(5)在平时电价时段和峰时电价时段内获取k时刻实时观测状态sk,输入已经训练完成的神经网络中,输出实时观测状态下的储能放电策略;
(6)设定储能系统在谷时电价时段按照平均功率充电,储能充电电能等于平时电价时段和峰时电价时段的放电电能,结合(5)中的储能放电策略得到完整的典型日周期内的储能充放电策略;
(7)根据储能充放电策略得到分布式储能系统的额定功率Prate和额定容量C参数。
具体地,所述t时刻配电网的观测状态表示为:
Figure BDA0003334099390000083
其中,st是t时刻配电网的观测状态,
Figure BDA0003334099390000091
是t时刻观测节点i的电压,
Figure BDA0003334099390000092
是t时刻配有分布式储能系统的用户j的功率,Nnode、Nuser分别为电压可观测节点集合和配有储能系统的用户集合。其中t时刻属于平时电价和峰时电价时段,设定储能在谷时电价时段充电,平时电价和峰时电价时段按照神经网络输出的动作策略放电,因此仅获取平时电价和峰时电价时段的配电网观测状态对神经网络开展训练。
具体地,还包括对所述电网的观测状态进行归一化处理:
Figure BDA0003334099390000093
Figure BDA0003334099390000094
其中,min()表示取最小值,max()表示取最大值。
具体地,所述步骤(2)包括:
(2.1)根据当前状态采取相应的储能放电策略,按照放电和零功率运行两种状态考虑,相应设定t时刻的动作函数at,表示为
Figure BDA0003334099390000095
j∈Nuser
Figure BDA0003334099390000096
为编号为j的用户在t+1时刻供电方式状态变量,只有0或1两种取值,取值为0代表用户由自身配备的分布式储能系统供电,满足储能系统的功率和能量平衡约束;取值为1代表用户由电网供电,满足潮流平衡约束、节点电压幅值及相角约束;
(2.2)建立配电网即时回报模型
Figure BDA0003334099390000097
即时回报由电压可观测节点i电压改善回报得分
Figure BDA0003334099390000098
供电方式切换控制回报得分
Figure BDA0003334099390000099
和用户用电成本回报得分
Figure BDA00033340993900000910
三部分及其对应的权重wsafe、wuser、weoc加权求和得到;
(2.3)对于用户用电成本回报得分
Figure BDA00033340993900000911
其中,
Figure BDA00033340993900000912
为该时刻的分时电价;
Figure BDA0003334099390000101
为第j个用户的分布式储能单位电量供电成本;
(2.4)对于电压改善回报得分
Figure BDA0003334099390000102
用奖励系数Freward和惩罚系数Fpunish度量电压控制的回报,其中,Urate为配电网运行的额定电压;
(2.5)对于供电方式切换控制回报得分
Figure BDA0003334099390000103
采用相邻两个采样时间用户的供电方式的状态改变量来定义,若状态改变,则为-1,否则取值为0。
具体地,所述储能系统的功率和能量平衡约束包括:
充放电功率约束:分布式储能系统的额定功率满足充放电功率的最大需求,即Prate=max(Pdis,Pcharge),其中,Pdis为储能系统的放电功率,Pcharge为储能系统的充电功率;
分布式储能系统的能量平衡约束:分布式储能系统在运行周期中满足能量平衡,即
Figure BDA0003334099390000104
其中,P(t)为储能系统的功率;
所述潮流平衡约束、节点电压幅值及相角约束分别为:
潮流平衡约束:
Figure BDA0003334099390000105
Figure BDA0003334099390000106
其中,Pi、Qi为节点i的节点有功和无功功率,Vi为节点i的电压幅值,θik为节点i、k电压相角的差值,Gik、Bik为节点i、k之间支路的导纳;
节点电压幅值及相角约束:
Vi-min≤Vi≤Vi-max
θi-min≤θi≤θi-max
其中,Vi为节点i的电压幅值,θi为节点i的电压相量的相角,Vi-min、Vi-max为节点i的电压幅值的最小值和最大值;θi-min、θi-max为节点i的电压相角的最小值和最大值。
具体地,所述步骤(3)包括:
定义动作估值函数如下:
Figure BDA0003334099390000111
其中,π代表控制策略,λ∈[0,1],称为折合因子,表明未来回报相对于当前回报的重要程度,E代表期望值,rt+1代表执行完具体动作at后的即时回报,动作估值函数的目标值
Figure BDA0003334099390000112
由贝尔曼方程可推出:
Figure BDA0003334099390000113
其中At+1代表在t+1时刻所有能执行动作的集合,根据环境的运行状态观测值,通过迭代进行动作估值函数更新,具体公式如下:
Figure BDA0003334099390000114
其中,α为学习速率,满足0≤α≤1。
具体地,所述步骤(4)包括:
(4.1)分别用两个神经网络来拟合观测状态下的状态估值函数V(st)和当前状态下各个动作的优势估值函数A(st,at),得到动作估值函数Qπ(st,at);
(4.2)在学习期间,引入ε-greedy策略来进行动作选取,以平衡对环境的探索和利用机制,公式如下:
Figure BDA0003334099390000115
其中,ε为一固定常数,T为总训练次数,t为当前训练时刻,β(0<β≤ε)为计算机生成的一个随机数;
(4.3)引入记忆回放机制,当经验池中的样本数超过回放开始容量,从经验池中抽取小批量样本开展神经网络训练;若样本数超出经验池容量,则剔除早期观测样本再存入新样本;
(4.4)计算神经网络损失值,利用小批量梯度下降法进行神经网络训练。
具体地,所述步骤(5)包括:
获取观测状态,输入训练完成的神经网络执行正向计算,选取最大的估值动作,即最优的储能放电策略。
具体地,所述步骤(6)包括:
分时电价中包含谷时电价、平时电价和峰时电价,日周期内,设定储能在谷时电价时段以平均功率Pcharge充电,充电电能等于放电电能E,
Figure BDA0003334099390000121
其中,Tdis={Δt1、Δt2、Δt3…Δtm…}为分布式储能系统为用户j提供电能的时间段的集合,Pdis为储能放电功率;
Figure BDA0003334099390000122
其中,Tcharge为充电时长,这里指谷时段时长,η为储能系统能量转换效率。
具体地,所述步骤(7)包括:
所述储能系统的额定功率为储能平均充电功率Pcharge和放电功率Pdis的较大值,即
Prate=max(Pdis,Pcharge)
所述储能系统的额定容量为
Figure BDA0003334099390000123
其中,Edis为储能系统的典型日周期内的放电电能,η为储能系统的能量转换效率。
本发明另一方面提供了一种适应随机优化决策的分布式储能配置系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的适应随机优化决策的分布式储能配置方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种适应随机优化决策的分布式储能配置方法,其特征在于,包括:
训练阶段:
(1)在平时电价时段和峰时电价时段内获取t时刻配电网的观测状态;
(2)根据当前状态采取相应的储能放电策略,得到配电网即时回报模型;
(3)定义储能放电策略的动作估值函数Qπ(st,at),通过即时回报的反馈进行动作估值函数迭代更新,得到动作估值函数的目标值
Figure FDA0003334099380000011
(4)由目标值
Figure FDA0003334099380000012
与神经网络输出值Qπ′(st,at,ω)计算得到神经网络损失值,利用小批量梯度下降法更新神经网络参数,完成增强学习;
应用阶段:
(5)在平时电价时段和峰时电价时段内获取k时刻实时观测状态sk,输入已经训练完成的神经网络中,输出实时观测状态下的储能放电策略;
(6)设定储能系统在谷时电价时段按照平均功率充电,储能充电电能等于平时电价时段和峰时电价时段的放电电能,结合(5)中的储能放电策略得到完整的典型日周期内的储能充放电策略;
(7)根据储能充放电策略得到分布式储能系统的额定功率Prate和额定容量C参数。
2.如权利要求1所述的方法,其特征在于,所述t时刻配电网的观测状态表示为:
Figure FDA0003334099380000013
其中,st是t时刻配电网的观测状态,
Figure FDA0003334099380000014
是t时刻观测节点i的电压,Pt j是t时刻配有分布式储能系统的用户j的功率,Nnode、Nuser分别为电压可观测节点集合和配有储能系统的用户集合。
3.如权利要求1所述的方法,其特征在于,所述步骤(2)包括:
(2.1)根据当前状态采取相应的储能放电策略,按照放电和零功率运行两种状态考虑,相应设定t时刻的动作函数at,表示为
Figure FDA0003334099380000021
Figure FDA0003334099380000022
为编号为j的用户在t+1时刻供电方式的状态变量,只有0或1两种取值,取值为0代表用户由自身配备的分布式储能系统供电,满足储能系统的功率和能量平衡约束;取值为1代表用户由电网供电,满足潮流平衡约束、节点电压幅值及相角约束;
(2.2)建立配电网即时回报模型
Figure FDA0003334099380000023
即时回报由电压可观测节点i电压改善回报得分
Figure FDA0003334099380000024
供电方式切换控制回报得分
Figure FDA0003334099380000025
和用户用电成本回报得分
Figure FDA0003334099380000026
三部分及其对应的权重wsafe、wuser、weoc加权求和得到;
(2.3)对于用户用电成本回报得分
Figure FDA0003334099380000027
其中,
Figure FDA0003334099380000028
为该时刻的分时电价;
Figure FDA0003334099380000029
为第j个用户的分布式储能单位电量供电成本;
(2.4)对于电压改善回报得分
Figure FDA00033340993800000210
用奖励系数Freward和惩罚系数Fpunish度量电压控制的回报,其中,Urate为配电网运行的额定电压;
(2.5)对于供电方式切换控制回报得分
Figure FDA00033340993800000211
采用相邻两个采样时间用户的供电方式的状态改变量来定义,若状态改变,则为-1,否则取值为0。
4.如权利要求3所述的方法,其特征在于,所述储能系统的功率和能量平衡约束包括:
充放电功率约束:分布式储能系统的额定功率满足充放电功率的最大需求,即Prate=max(Pdis,Pcharge),其中,Pdis为储能系统的放电功率,Pcharge为储能系统的充电功率;
分布式储能系统的能量平衡约束:分布式储能系统在运行周期中满足能量平衡,即
Figure FDA0003334099380000031
其中,P(t)为储能系统的功率;
所述潮流平衡约束、节点电压幅值及相角约束分别为:
潮流平衡约束:
Figure FDA0003334099380000032
Figure FDA0003334099380000033
其中,Pi、Qi为节点i的节点有功和无功功率,Vi为节点i的电压幅值,θik为节点i、k电压相角的差值,Gik、Bik为节点i、k之间支路的导纳;
节点电压幅值及相角约束:
Vi-min≤Vi≤Vi-max
θi-min≤θi≤θi-max
其中,Vi为节点i的电压幅值,θi为节点i的电压相量的相角,Vi-min、Vi-max为节点i的电压幅值的最小值和最大值;θi-min、θi-max为节点i的电压相角的最小值和最大值。
5.如权利要求1所述的方法,其特征在于,所述步骤(3)包括:
定义动作估值函数如下:
Figure FDA0003334099380000034
其中,π代表控制策略,λ∈[0,1],称为折合因子,表明未来回报相对于当前回报的重要程度,E代表期望值,rt+1代表执行完具体动作at后的即时回报,动作估值函数的目标值
Figure FDA0003334099380000035
由贝尔曼方程可推出:
Figure FDA0003334099380000036
其中,At+1代表在t+1时刻所有能执行动作的集合,根据环境的运行状态观测值,通过迭代进行动作估值函数更新,具体公式如下:
Figure FDA0003334099380000041
其中,α为学习速率,满足0≤α≤1。
6.如权利要求1所述的方法,其特征在于,所述步骤(4)包括:
(4.1)分别用两个神经网络来拟合观测状态下的状态估值函数V(st)和当前状态下各个动作的优势估值函数A(st,at),得到动作估值函数Qπ(st,at);
(4.2)在学习期间,引入ε-greedy策略来进行动作选取,以平衡对环境的探索和利用机制,公式如下:
Figure FDA0003334099380000042
其中,ε为一固定常数,T为总训练次数,t为当前训练时刻,0<β≤ε,β为计算机生成的一个随机数;
(4.3)引入记忆回放机制,当经验池中的样本数超过回放开始容量,从经验池中抽取小批量样本开展神经网络训练;若样本数超出经验池容量,则剔除早期观测样本再存入新样本;
(4.4)计算神经网络损失值,利用小批量梯度下降法进行神经网络训练。
7.如权利要求1所述的方法,其特征在于,所述步骤(5)包括:
获取观测状态,输入训练完成的神经网络执行正向计算,选取最大的估值动作,即最优的储能放电策略。
8.如权利要求1所述的方法,其特征在于,所述步骤(6)包括:
分时电价中包含谷时电价、平时电价和峰时电价,日周期内,设定储能在谷时电价时段以平均功率Pcharge充电,充电电能等于放电电能E,
Figure FDA0003334099380000043
其中,Tdis={Δt1、Δt2、Δt3…Δtm…}为分布式储能系统为用户j提供电能的时间段的集合,Pdis为储能放电功率;
Figure FDA0003334099380000051
其中,Tcharge为充电时长,这里指谷时段时长,η为储能系统的能量转换效率。
9.如权利要求1所述的方法,其特征在于,所述步骤(7)包括:
所述储能系统的额定功率为储能平均充电功率Pcharge和放电功率Pdis的较大值,即
Prate=max(Pdis,Pcharge)
所述储能系统的额定容量为
Figure FDA0003334099380000052
其中,Edis为储能系统的典型日周期内的放电电能,η为储能系统的能量转换效率。
10.一种适应随机优化决策的分布式储能配置系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至9任一项所述的适应随机优化决策的分布式储能配置方法。
CN202111288522.2A 2021-11-02 2021-11-02 一种适应随机优化决策的分布式储能配置方法及系统 Active CN114123256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288522.2A CN114123256B (zh) 2021-11-02 2021-11-02 一种适应随机优化决策的分布式储能配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288522.2A CN114123256B (zh) 2021-11-02 2021-11-02 一种适应随机优化决策的分布式储能配置方法及系统

Publications (2)

Publication Number Publication Date
CN114123256A true CN114123256A (zh) 2022-03-01
CN114123256B CN114123256B (zh) 2023-10-03

Family

ID=80380149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288522.2A Active CN114123256B (zh) 2021-11-02 2021-11-02 一种适应随机优化决策的分布式储能配置方法及系统

Country Status (1)

Country Link
CN (1) CN114123256B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392143A (zh) * 2022-10-31 2022-11-25 北京大学 一种基于深度强化学习的移动储能充放电时空规划方法
CN115841191A (zh) * 2023-02-15 2023-03-24 广东南海电力设计院工程有限公司 一种储能装置的优化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428903A (zh) * 2019-10-31 2020-07-17 国家电网有限公司 一种基于深度增强学习的可中断负荷优选方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428903A (zh) * 2019-10-31 2020-07-17 国家电网有限公司 一种基于深度增强学习的可中断负荷优选方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜明秋等: "电动汽车充电控制的深度增强学习优化方法", 中国电机工程学报, vol. 39, no. 14, pages 4042 - 4048 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392143A (zh) * 2022-10-31 2022-11-25 北京大学 一种基于深度强化学习的移动储能充放电时空规划方法
CN115841191A (zh) * 2023-02-15 2023-03-24 广东南海电力设计院工程有限公司 一种储能装置的优化方法及系统

Also Published As

Publication number Publication date
CN114123256B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN109347149B (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
Sarshar et al. Multi-objective energy management of a micro-grid considering uncertainty in wind power forecasting
CN109492815B (zh) 一种市场机制下面向电网的储能电站选址定容优化方法
Wan et al. Residential energy management with deep reinforcement learning
Li et al. Probabilistic charging power forecast of EVCS: Reinforcement learning assisted deep learning approach
CN108347062A (zh) 基于势博弈的微电网能量管理分布式多目标协同优化算法
CN110417015A (zh) 基于模型预测控制的微电网多目标优化调度方法及系统
CN114123256A (zh) 一种适应随机优化决策的分布式储能配置方法及系统
CN110518580A (zh) 一种考虑微网主动优化的主动配电网运行优化方法
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
CN112800658A (zh) 一种考虑源储荷互动的主动配电网调度方法
CN114331059A (zh) 电氢互补的园区多楼宇供能系统及其协调调度方法
Yoldas et al. Optimal control of microgrids with multi-stage mixed-integer nonlinear programming guided $ Q $-learning algorithm
Zhang et al. A cooperative EV charging scheduling strategy based on double deep Q-network and Prioritized experience replay
CN114723230A (zh) 面向新能源发电和储能的微电网双层调度方法及系统
CN114611772A (zh) 一种基于多智能体强化学习的多微网系统协同优化方法
TWI639962B (zh) 一種應用於智慧電網之粒群最佳化模糊邏輯控制充電法
Leo et al. Multi agent reinforcement learning based distributed optimization of solar microgrid
Dou et al. Double‐deck optimal schedule of micro‐grid based on demand‐side response
CN117117878A (zh) 基于人工神经网络和多智能体强化学习的电网需求侧响应潜力评估及负荷调控方法
Viji et al. Hybrid STO-IWGAN method based energy optimization in fuel cell electric vehicles
CN117060386A (zh) 一种基于值分布深度q网络的微电网储能调度优化方法
CN114498769B (zh) 一种高比例风光孤岛微电网群能量调度方法及系统
CN116523327A (zh) 一种基于强化学习的配电网运行策略智能生成方法及设备
CN112862282B (zh) 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant