CN114243797A - 一种分布式电源优化调度方法、系统、设备及存储介质 - Google Patents
一种分布式电源优化调度方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114243797A CN114243797A CN202111538316.2A CN202111538316A CN114243797A CN 114243797 A CN114243797 A CN 114243797A CN 202111538316 A CN202111538316 A CN 202111538316A CN 114243797 A CN114243797 A CN 114243797A
- Authority
- CN
- China
- Prior art keywords
- scheduling
- region
- network
- power
- power supply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 105
- 238000010248 power generation Methods 0.000 claims abstract description 27
- 238000004146 energy storage Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 230000009471 action Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 25
- 238000009826 distribution Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000005611 electricity Effects 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 17
- 230000009194 climbing Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 238000007599 discharging Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 6
- 230000002787 reinforcement Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/466—Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/004—Generation forecast, e.g. methods or systems for forecasting future energy generation
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E70/00—Other energy conversion or management systems reducing GHG emissions
- Y02E70/30—Systems combining energy storage with energy generation of non-fossil origin
Abstract
本发明属于分布式电源优化调度领域,公开了一种分布式电源优化调度方法、系统、设备及存储介质,该方法包括:获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;基于可控设备最优出力,向本区域内的可控设备下发调度指令。该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
Description
技术领域
本发明属于分布式电源优化调度领域,特别是涉及一种分布式电源优化调度方法、系统、设备及存储介质。
背景技术
大规模分布式电源接入配电网,可以提高清洁能源的比重,但同时对配电网的运行与调度提出新的挑战。分布式电源优化调度策略是对分布式电源实施主动管理并实现网络安全经济运行的核心技术和重要手段。分布式电源优化调度分为集中式和分布式。
集中式优化方法通过调度中心采集全网数据进行优化调度计算,并下发调控指令到各受控单元。然而随着分布式电源大规模接入,集中调度中心需与各受控单元建立通信联系,收集和处理海量信息,计算效率降低。分布式优化方法基于“分解协调”思想,将多变量、多约束的复杂全局优化问题分解为多个复杂度较低的子问题,由各主体单独求解,然后通过多次迭代交互必要算法信息得到问题的全局最优解,有效克服海量数据处理。然而现有的分布式优化通过随机优化或鲁棒优化模型考虑分布式电源出力和负荷不确定性,对源荷的预测准确性依赖很高,如果预测误差较大,会导致实际运行情况与调度计划差异较大,调度计划的性能有较大退化。
深度强化学习方法中智能体利用与环境交互试错的方式学习,通过离线数据训练后的智能体用于在线决策,可根据源荷的随机变化实时给出优化调度结果。多智能体深度强化学习将深度强化学习的思想和算法用于多智能体系统的控制中,可组织多个智能体展开自主学习,并通过各智能体之间的交互实现问题的合作求解,已应用于储能系统分布式协同优化和电动汽车充电站的分布式能量管理。因此,多智能体深度强化学习将有助于解决考虑源荷不确定性的分布式优化调度问题。
发明内容
为解决集中式优化调度的海量信息处理问题,提升优化求解的计算效率,本发明提出一种分布式电源优化调度方法、系统、设备及存储介质,该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
为达到上述目的,本发明采用以下技术方案予以实现:
一种分布式电源优化调度方法,包括:
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
基于可控设备最优出力,向本区域内的可控设备下发调度指令。
作为本发明的进一步改进,所述获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息之前还包括:
将主动配电网划分为若干自治区域,各自治区域设置区域智能体收集本区域内可再生能源发电预测、负荷预测以及各设备状态信息。
作为本发明的进一步改进,所述分布式电源优化调度模型的构建方法包括:
分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
基于状态空间、动作空间和奖励函数构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理;
采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
作为本发明的进一步改进,所述状态空间的构建方法包括:
t时段第n个区域智能体的状态表示为:
作为本发明的进一步改进,所述动作空间的构建方法具体包括:
每个区域智能体的动作空间为其控制区域内可控设备出力,用微型燃气轮机功率和电储能充放电功率表示:
式中Pt n,es为t时段区域n内电储能放电功率,为正时处于放电状态,为负时处于充电状态;
各可控设备均有输出功率上下限,具体功率约束为:
作为本发明的进一步改进,所述奖励函数的构建方法包括:
奖励函数包括:运行成本项、联络线功率约束惩罚项、爬坡约束超限惩罚项和储能容量约束超限惩罚项;
1)运行成本项
以整个主动配电网日运行成本最低为优化目标,具体方法为:
式中b和c为微燃气轮机成本系数,ρ为度电成本系数,λbuy(t)和λsell(t)分别表示t时段上级电网购电、售电价格;Pt grid表示从上级电网购买的电功率;
2)联络线功率约束惩罚项
将约束条件以罚函数的形式加入奖励中;主动配电网与上级电网之间联络线传输功率存在上下限:
3)爬坡功率约束超限惩罚项
各区域内微型燃气轮机爬坡约束和爬坡功率约束超限惩罚项具体为:
4)储能容量约束超限惩罚项
各区域内电储能容量约束和储能容量约束超限惩罚项具体为:
环境每时段反馈给各区域智能体相同的全局奖励,具体为:
rt=F1(t)+k1F2(t)+k2F3(t)+k3F4(t) (19)
式中k1,k2和k3为各惩罚项的系数。
作为本发明的进一步改进,所述构建基于CommNet的分布式优化调度框架,具体包括:
通信层中,每个智能体将隐层状态信息ht,m-1送入通信层网络fm,并对相邻智能体通信层网络的输出ht,m做均值池化处理,将所得的结果和ht,m作为各相邻智能体下一层神经网络的输入;
各智能体通信层每一层输入和输出的迭代关系为:
各自治区域协同运行,根据所有区域智能体调度决策,各区域智能体获得相同的全局奖励并进入下一个调度时段的决策;将每个调度周期采样获得的经验(st,at,rt,st+1)存储于经验池中,以最大化每个调度周期T个时段累积全局奖励为目标更新网络参数。
作为本发明的进一步改进,每个区域智能体都包含策略网络和价值网络,策略网络和价值网络均采用CommNet架构连接;采用价值网络对策略网络所选动作进行评估,指导策略网络更新。
作为本发明的进一步改进,所述采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型,具体包括:
确定调度周期时段数T和区域智能体神经网络训练轮数M,并随机初始化各区域智能体策略网络参数θa和价值网络参数θc;确定初始时段各区域内设备运行状态,包括光伏功率P1 n,pv、负荷功率P1 n,load,以及电储能储电量
各区域智能体与环境交互,收集本区域状态信息作为网络输入,输出动作信息作为微燃气轮机和电储能调度指令,调度结束后计算全局奖励rt;将各时段采样经验(st,at,rt,st+1)存储于经验池中,用于网络参数更新;
一个调度周期采样结束后,利用经验池中T条经验,采用梯度下降法更新各智能体策略网络参数θa和价值网络参数θc,更新目标为最大化一个调度周期累积全局奖励;
判断是否达到所设定的最大训练轮数M:若满足则结束训练;若未满足则进行下一轮网络参数更新;最终得到预先训练的分布式电源优化调度模型。
一种分布式电源优化调度系统,包括:
获取模块,用于获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
决策模块,用于基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
下发模块,用于基于可控设备最优出力,向本区域内的可控设备下发调度指令。
所述分布式电源优化调度模型的构建方法包括:
分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
基于状态空间、动作空间和奖励函数构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式电源优化调度方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式电源优化调度方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明针对集中式管理系统面临海量数据的收集和处理计算效率降低的问题,提出基于分布式电源优化调度模型的分布式优化调度方法。分布式电源优化调度模型采用多智能体深度强化学习预先训练得到。该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
分布式电源优化调度模型基于CommNet的优化调度框架使各自治区域既能实现本区域自治又可协同运行,一方面各自治区域通过其神经网络实现本区域数据就地处理,避免了集中控制中心对大量数据的收集和处理,另一方面通过相邻区域智能体神经网络隐层特征信息的交互实现全局分布式协同优化。综合考虑优化目标和各种运行约束,设计状态空间、动作空间和奖励函数,并采用PPO算法进行模型训练,所训练的模型可根据源荷的随机变化实时给出优化调度结果,在线决策速度大幅提升。
附图说明
图1为本发明一种分布式电源优化调度方法流程框图;
图2为基于多智能体深度强化学习的分布式电源优化调度方法流程图;
图3为基于CommNet的分布式电源优化调度框架;
图4为离线训练算法流程图;
图5为本发明一种分布式电源优化调度系统框图;
图6为本发明一种电子设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
深度强化学习方法中智能体利用与环境交互试错的方式学习,通过离线数据训练后的智能体用于在线决策,可根据源荷的随机变化实时给出优化调度结果。多智能体深度强化学习将深度强化学习的思想和算法用于多智能体系统的控制中,可组织多个智能体展开自主学习,并通过各智能体之间的交互实现问题的合作求解,已应用于储能系统分布式协同优化和电动汽车充电站的分布式能量管理。因此,多智能体深度强化学习将有助于解决考虑源荷不确定性的分布式优化调度问题。
为解决集中式优化调度的海量信息处理问题,提升优化求解的计算效率,本发明提供了一种基于多智能体深度强化学习的分布式优化调度方法。研究采用基于通信神经网络(communication neural net,CommNet)架构的分布式电源优化调度模型实现分布式优化调度,在模型构建中,以网络日前运行成本最低为目标设计奖励;采用近端策略优化(PPO)算法对该模型进行离线训练,利用训练好的模型进行在线优化调度决策。该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
如图1所示,本发明第一个目的是提供一种分布式电源优化调度方法,包括以下步骤:
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
其中,最为关键是所述分布式电源优化调度模型的构建,其方法包括:
S01,综合考虑优化目标和各种运行约束,分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
S02,基于状态空间、动作空间和奖励函数构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
S03,采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
因此,本发明主动配电网各自治区域基于CommNet的交互机制是实现分布式协同的关键。仅通过本区域信息的收集和相邻区域之间神经网络隐层特征信息共享就能够实现集中式的优化效果,避免了大量数据的集中收集和处理,决策速度大幅提升。
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图1对本发明实施案例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
以模型构建和应用为例,针对分布式电源集中优化调度难以解决海量信息处理的问题,提出一种基于多智能体深度强化学习的分布式优化调度方法,如附图2所示。具体包括以下步骤:
S01,深度强化学习模型构建,将主动配电网划分为若干自治区域,各自治区域设置区域智能体;综合考虑优化目标和各种运行约束,对状态空间、动作空间和奖励函数进行设计;
S02,构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理是实现各区域分布式协同优化的关键。
S03,采用PPO算法对各区域智能体神经网络进行离线训练;
S04,利用训练好的模型进行在线优化调度决策,各区域智能体根据本区域设备状态求得到可控设备最优出力,下发调度指令。
本发明的基于多智能体深度强化学习的分布式优化调度方法,主要针对分布式电源高渗透率的主动配电网。该方法是将CommNet架构和深度强化学习相结合,建立能实现主动配电网分布式电源优化调度的分布式电源优化调度模型。首先,综合考虑优化目标和各种运行约束构建深度强化学习模型的状态空间和动作空间,并进行奖励函数进行设计。然后,构建基于CommNet的分布式优化调度框架,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化,参考附图3,。之后,利用PPO算法对模型进行离线训练,进行分布式优化调度方法的算法流程设计;最后,利用该模型进行在线优化调度决策。具体实施步骤如下:
步骤1:深度强化学习模型构建。
首先进行深度强化学习模型的构建,主要包括状态空间、动作空间的构建以及奖励函数的设计。将分布式电源高渗透率的主动配电网划分为若干自治区域。各自治区域设置区域智能体,负责收集本区域内可再生能源发电预测、负荷预测以及各设备状态信息,并对本区域内的可控设备下发调度指令。
步骤1.1:状态空间的构建。
状态空间需要反应各设备运行状态信息,设定的每个区域智能体的状态空间包括本区域内光伏发电功率、负荷功率、电储能电量以及所处调度时段t,同时为考虑微型燃气轮机功率爬坡约束,将上一时段的微燃气轮机出力也作为状态空间一部分。t时段第n个区域智能体的状态表示为:
为验证该模型可应对分布式电源出力和负荷的不确定性,考虑将光伏、负荷历史预测数据叠加预测偏差的随机性,作为(1)中Pt n,pv和Pt n,load的输入。假设预测偏差服从正态分布:
式中ΔPt n为t时段区域n光伏/负荷预测误差;μ、σ为预测偏差的期望与标准差。
步骤1.2:动作空间的构建。
动作空间为相关决策变量,每个区域智能体的动作空间为其控制区域内可控设备出力,即微型燃气轮机功率和电储能充放电功率:
式中Pt n,es为t时段区域n内电储能放电功率,为正时处于放电状态,为负时处于充电状态。
各可控设备均有输出功率上下限,如式(4)—(6)所示,
步骤1.3:奖励函数的设计
为综合考虑优化目标和约束条件,本文设计的奖励函数包括:运行成本项、联络线功率约束惩罚项、爬坡约束超限惩罚项和储能容量约束超限惩罚项。
1)运行成本项
本文以整个主动配电网日运行成本最低为优化目标,因此调度时段t系统运行成本越小,该时段给予各智能体的奖励越大,该项如式(7)所示。
微型燃气轮机运行成本、电储能运行成本和上级电网购电成本如式(8)-(11)所示。
式中b和c为微燃气轮机成本系数,ρ为度电成本系数,λbuy(t)和λsell(t)分别表示t时段上级电网购电、售电价格;Pt grid表示从上级电网购买的电功率,Pt grid>0表示购电,Pt grid<0表示售电。
2)联络线功率约束惩罚项
将约束条件以罚函数的形式加入奖励中。主动配电网与上级电网之间联络线传输功率存在上下限:
3)爬坡功率约束超限惩罚项
为考虑式(14)所示各区域内微型燃气轮机爬坡约束,设置如式(15)所示爬坡功率约束超限惩罚项。
4)储能容量约束超限惩罚项
同理,为考虑式(16)、(17)所示各区域内电储能容量约束,设置如式(18)所示储能容量约束超限惩罚项:
本文中各区域智能体为合作关系,因此环境每时段反馈给各区域智能体相同的全局奖励,如式(19)所示:
rt=F1(t)+k1F2(t)+k2F3(t)+k3F4(t) (19)
式中k1,k2和k3为各惩罚项的系数。
构建过程综合考虑优化目标和各种运行约束对各区域智能体的奖励函数进行设计。将目标函数的相反数设计为即时奖励,约束条件采用罚函数形式加入即时奖励中,使优化模型训练快速达到收敛。
步骤2:基于CommNet的分布式优化调度框架构建。
构建如附图3所示的分布式优化调度框架。可见每个区域智能体都包含策略网络(Actor)和价值网络(Critic),策略网络和价值网络均采用CommNet架构连接,从而在相邻区域智能体间进行神经网络隐层特征信息的交互,实现多个自治区域的分布式协同优化。
第t个调度时段,区域智能体n神经网络输入式(1)所示本区域状态编码函数将输入信息转化为隐层状态信息输入通信层;通信层中,每个智能体将隐层状态信息ht,m-1(m代表第m次通信)送入通信层网络fm,并对相邻智能体通信层网络的输出ht,m做均值池化处理,将所得的结果和ht,m作为各相邻智能体下一层神经网络的输入。各智能体通信层每一层输入和输出的迭代关系如式(20)、(21)所示:
式中表示t时段智能体n第m层通信层输出的隐层状态,Hm和Cm表示第m层通信层网络待更新参数;σ表示非线性激活函数;表示与智能体n相邻智能体的集合。最后一层网络为解码层,将隐层状态信息转化为式(3)所示调度决策因各自治区域协同运行,根据所有区域智能体调度决策,各区域智能体获得相同的全局奖励如式(19)所示,并进入下一个调度时段的决策。将每个调度周期采样获得的经验(st,at,rt,st+1)存储于经验池中,以最大化每个调度周期T个时段累积全局奖励为目标更新网络参数。价值网络对策略网络所选动作进行评估,从而指导策略网络更新。
步骤3:PPO算法离线训练。
采用PPO算法对上述优化调度模型进行离线训练,算法的整体流程如图4所示。
首先,确定调度周期时段数T和区域智能体神经网络训练轮数M,并随机初始化各区域智能体策略网络参数θa和价值网络参数θc,这些参数中包括式(20)所示Hm和Cm;初始化环境,即确定初始时段各区域内设备运行状态,包括式(1)中光伏功率P1 n,pv、负荷功率P1 n ,load,以及电储能储电量其次,各区域智能体与环境交互,收集式(1)所示本区域状态信息作为网络输入,输出式(3)所示动作信息作为微燃气轮机和电储能调度指令,该时段调度结束后计算式(19)所示全局奖励rt;将各时段采样经验(st,at,rt,st+1)存储于经验池中,用于网络参数更新。然后,一个调度周期采样结束后,利用经验池中T条经验,采用梯度下降法更新各智能体策略网络参数θa和价值网络参数θc,更新目标为最大化一个调度周期累积全局奖励。最后,判断是否达到所设定的最大训练轮数M,若满足则结束训练;若未满足则进行下一轮网络参数更新。
步骤4:在线优化调度决策。
上述优化调度模型训练完成后,即可用于在线优化调度决策。每个调度时段,各区域智能体只需收集本区域设备运行状态和相邻区域智能体神经网络隐层特征信息即可求得到可控设备最优出力,并下发调度指令各可控设备。
如图5所示,本发明还提供一种分布式电源优化调度系统,包括:
获取模块,用于获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
决策模块,用于基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
下发模块,用于基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
所述分布式电源优化调度模型的构建方法包括:
S01,综合考虑优化目标和各种运行约束,分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
S02,基于状态空间、动作空间和奖励函数构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
S03,采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
如图6所示,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式电源优化调度方法的步骤。
所述分布式电源优化调度方法包括以下步骤:
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式电源优化调度方法的步骤。
所述分布式电源优化调度方法包括以下步骤:
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (13)
1.一种分布式电源优化调度方法,其特征在于,包括:
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
基于可控设备最优出力,向本区域内的可控设备下发调度指令。
2.根据权利要求1所述的一种分布式电源优化调度方法,其特征在于,所述获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息之前还包括:
将主动配电网划分为若干自治区域,各自治区域设置区域智能体收集本区域内可再生能源发电预测、负荷预测以及各设备状态信息。
3.根据权利要求1所述的一种分布式电源优化调度方法,其特征在于,所述分布式电源优化调度模型的构建方法包括:
分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
基于状态空间、动作空间和奖励函数构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理;
采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
6.根据权利要求3所述的一种分布式电源优化调度方法,其特征在于,所述奖励函数的构建方法包括:
奖励函数包括:运行成本项、联络线功率约束惩罚项、爬坡约束超限惩罚项和储能容量约束超限惩罚项;
1)运行成本项
以整个主动配电网日运行成本最低为优化目标,具体方法为:
式中b和c为微燃气轮机成本系数,ρ为度电成本系数,λbuy(t)和λsell(t)分别表示t时段上级电网购电、售电价格;Pt grid表示从上级电网购买的电功率;
2)联络线功率约束惩罚项
将约束条件以罚函数的形式加入奖励中;主动配电网与上级电网之间联络线传输功率存在上下限:
3)爬坡功率约束超限惩罚项
各区域内微型燃气轮机爬坡约束和爬坡功率约束超限惩罚项具体为:
4)储能容量约束超限惩罚项
各区域内电储能容量约束和储能容量约束超限惩罚项具体为:
环境每时段反馈给各区域智能体相同的全局奖励,具体为:
rt=F1(t)+k1F2(t)+k2F3(t)+k3F4(t) (19)
式中k1,k2和k3为各惩罚项的系数。
7.根据权利要求3所述的一种分布式电源优化调度方法,其特征在于,所述构建基于CommNet的分布式优化调度框架,具体包括:
通信层中,每个智能体将隐层状态信息ht,m-1送入通信层网络fm,并对相邻智能体通信层网络的输出ht,m做均值池化处理,将所得的结果和ht,m作为各相邻智能体下一层神经网络的输入;
各智能体通信层每一层输入和输出的迭代关系为:
8.根据权利要求7所述的一种分布式电源优化调度方法,其特征在于,每个区域智能体都包含策略网络和价值网络,策略网络和价值网络均采用CommNet架构连接;采用价值网络对策略网络所选动作进行评估,指导策略网络更新。
9.根据权利要求3所述的一种分布式电源优化调度方法,其特征在于,所述采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型,具体包括:
确定调度周期时段数T和区域智能体神经网络训练轮数M,并随机初始化各区域智能体策略网络参数θa和价值网络参数θc;确定初始时段各区域内设备运行状态,包括光伏功率P1 n,pv、负荷功率P1 n,load,以及电储能储电量
各区域智能体与环境交互,收集本区域状态信息作为网络输入,输出动作信息作为微燃气轮机和电储能调度指令,调度结束后计算全局奖励rt;将各时段采样经验(st,at,rt,st+1)存储于经验池中,用于网络参数更新;
一个调度周期采样结束后,利用经验池中T条经验,采用梯度下降法更新各智能体策略网络参数θa和价值网络参数θc,更新目标为最大化一个调度周期累积全局奖励;
判断是否达到所设定的最大训练轮数M:若满足则结束训练;若未满足则进行下一轮网络参数更新;最终得到预先训练的分布式电源优化调度模型。
10.一种分布式电源优化调度系统,其特征在于,包括:
获取模块,用于获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
决策模块,用于基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
下发模块,用于基于可控设备最优出力,向本区域内的可控设备下发调度指令。
11.根据权利要求10所述的一种分布式电源优化调度系统,其特征在于,所述分布式电源优化调度模型的构建方法包括:
分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
基于状态空间、动作空间和奖励函数构建基于CommNet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
采用PPO算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
12.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-9任一项所述分布式电源优化调度方法的步骤。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述分布式电源优化调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111538316.2A CN114243797A (zh) | 2021-12-15 | 2021-12-15 | 一种分布式电源优化调度方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111538316.2A CN114243797A (zh) | 2021-12-15 | 2021-12-15 | 一种分布式电源优化调度方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114243797A true CN114243797A (zh) | 2022-03-25 |
Family
ID=80756591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111538316.2A Pending CN114243797A (zh) | 2021-12-15 | 2021-12-15 | 一种分布式电源优化调度方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114243797A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114844083A (zh) * | 2022-05-27 | 2022-08-02 | 深圳先进技术研究院 | 一种提高储能系统稳定性的电动汽车集群充放电管理方法 |
CN115933443A (zh) * | 2023-03-02 | 2023-04-07 | 国网江西省电力有限公司电力科学研究院 | 基于rt-lab硬件在环与psasp联合检验的风机建模方法 |
CN116436013A (zh) * | 2023-06-13 | 2023-07-14 | 中国电力科学研究院有限公司 | 配电系统功率分配方法、系统、计算机设备及存储介质 |
CN117117973A (zh) * | 2023-10-24 | 2023-11-24 | 国网浙江省电力有限公司宁波供电公司 | 基于时间尺度的分布式电源调度方法、装置及存储介质 |
CN117595346A (zh) * | 2024-01-18 | 2024-02-23 | 国网冀北电力有限公司 | 基于强化学习的充放电策略网络训练方法和储能控制方法 |
-
2021
- 2021-12-15 CN CN202111538316.2A patent/CN114243797A/zh active Pending
Non-Patent Citations (1)
Title |
---|
张津源等: "基于多智能体深度强化学习的分布式电源优化调度策略", 《电网技术》, pages 1 - 10 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114844083A (zh) * | 2022-05-27 | 2022-08-02 | 深圳先进技术研究院 | 一种提高储能系统稳定性的电动汽车集群充放电管理方法 |
CN114844083B (zh) * | 2022-05-27 | 2023-02-17 | 深圳先进技术研究院 | 一种提高储能系统稳定性的电动汽车集群充放电管理方法 |
CN115933443A (zh) * | 2023-03-02 | 2023-04-07 | 国网江西省电力有限公司电力科学研究院 | 基于rt-lab硬件在环与psasp联合检验的风机建模方法 |
CN115933443B (zh) * | 2023-03-02 | 2023-05-16 | 国网江西省电力有限公司电力科学研究院 | 基于rt-lab硬件在环与psasp联合检验的风机建模方法 |
CN116436013A (zh) * | 2023-06-13 | 2023-07-14 | 中国电力科学研究院有限公司 | 配电系统功率分配方法、系统、计算机设备及存储介质 |
CN116436013B (zh) * | 2023-06-13 | 2023-08-18 | 中国电力科学研究院有限公司 | 配电系统功率分配方法、系统、计算机设备及存储介质 |
CN117117973A (zh) * | 2023-10-24 | 2023-11-24 | 国网浙江省电力有限公司宁波供电公司 | 基于时间尺度的分布式电源调度方法、装置及存储介质 |
CN117117973B (zh) * | 2023-10-24 | 2024-01-12 | 国网浙江省电力有限公司宁波供电公司 | 基于时间尺度的分布式电源调度方法、装置及存储介质 |
CN117595346A (zh) * | 2024-01-18 | 2024-02-23 | 国网冀北电力有限公司 | 基于强化学习的充放电策略网络训练方法和储能控制方法 |
CN117595346B (zh) * | 2024-01-18 | 2024-04-05 | 国网冀北电力有限公司 | 基于强化学习的充放电策略网络训练方法和储能控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114243797A (zh) | 一种分布式电源优化调度方法、系统、设备及存储介质 | |
CN110276698B (zh) | 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法 | |
CN110298138B (zh) | 一种综合能源系统优化方法、装置、设备及可读存储介质 | |
Wan et al. | Residential energy management with deep reinforcement learning | |
Shukla et al. | Clustering based unit commitment with wind power uncertainty | |
CN112186799A (zh) | 基于深度强化学习的分布式能源系统自治控制方法及系统 | |
CN110365057A (zh) | 基于强化学习的分布式能源参与配电网调峰调度优化方法 | |
Jasmin et al. | Reinforcement learning approaches to economic dispatch problem | |
Leterme et al. | A flexible stochastic optimization method for wind power balancing with PHEVs | |
CN111062632B (zh) | 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法 | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、系统及装置 | |
Zhou et al. | Deep learning-based rolling horizon unit commitment under hybrid uncertainties | |
Han et al. | Lightweight actor-critic generative adversarial networks for real-time smart generation control of microgrids | |
CN112217195A (zh) | 一种基于gru多步预测技术的云储能充放电策略形成方法 | |
Zhang et al. | Ultra-short term wind power prediction model based on modified grey model method for power control in wind farm | |
Elamine et al. | Multi-agent system based on fuzzy control and prediction using NN for smart microgrid energy management | |
CN115795992A (zh) | 一种基于运行态势虚拟推演的园区能源互联网在线调度方法 | |
CN104915788B (zh) | 一种考虑多风场相关性的电力系统动态经济调度的方法 | |
CN115333111A (zh) | 多区域电网协同优化方法、系统、设备及可读存储介质 | |
CN115422728A (zh) | 基于随机规划的鲁棒优化的虚拟电厂优化控制系统 | |
CN115115276A (zh) | 考虑不确定性和隐私保护的虚拟电厂调度方法及系统 | |
Wai et al. | Intelligent daily load forecasting with fuzzy neural network and particle swarm optimization | |
Shuvo et al. | Optimal dispatch for a microgrid with distributed generations and ev charging load | |
CN116451880B (zh) | 一种基于混合学习的分布式能源优化调度方法及装置 | |
Liu et al. | Electric load forecasting using parallel RBF neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220325 |