CN115840794B - 一种基于gis和rl模型的光伏系统规划方法 - Google Patents
一种基于gis和rl模型的光伏系统规划方法 Download PDFInfo
- Publication number
- CN115840794B CN115840794B CN202310107412.4A CN202310107412A CN115840794B CN 115840794 B CN115840794 B CN 115840794B CN 202310107412 A CN202310107412 A CN 202310107412A CN 115840794 B CN115840794 B CN 115840794B
- Authority
- CN
- China
- Prior art keywords
- price
- function
- photovoltaic module
- gis
- photovoltaic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 91
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000009434 installation Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 230000006399 behavior Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000005611 electricity Effects 0.000 claims description 28
- 230000005855 radiation Effects 0.000 claims description 14
- 230000008901 benefit Effects 0.000 claims description 13
- 230000015556 catabolic process Effects 0.000 claims description 13
- 238000006731 degradation reaction Methods 0.000 claims description 13
- 229940112112 capex Drugs 0.000 claims description 11
- FEBLZLNTKCEFIT-VSXGLTOVSA-N fluocinolone acetonide Chemical compound C1([C@@H](F)C2)=CC(=O)C=C[C@]1(C)[C@]1(F)[C@@H]2[C@@H]2C[C@H]3OC(C)(C)O[C@@]3(C(=O)CO)[C@@]2(C)C[C@@H]1O FEBLZLNTKCEFIT-VSXGLTOVSA-N 0.000 claims description 11
- 230000005653 Brownian motion process Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000005537 brownian motion Methods 0.000 claims description 6
- MWRWFPQBGSZWNV-UHFFFAOYSA-N Dinitrosopentamethylenetetramine Chemical compound C1N2CN(N=O)CN1CN(N=O)C2 MWRWFPQBGSZWNV-UHFFFAOYSA-N 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- ZNNLBTZKUZBEKO-UHFFFAOYSA-N glyburide Chemical compound COC1=CC=C(Cl)C=C1C(=O)NCCC1=CC=C(S(=O)(=O)NC(=O)NC2CCCCC2)C=C1 ZNNLBTZKUZBEKO-UHFFFAOYSA-N 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 2
- 230000000630 rising effect Effects 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 24
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 6
- 230000007774 longterm Effects 0.000 description 4
- 229910002092 carbon dioxide Inorganic materials 0.000 description 3
- 239000001569 carbon dioxide Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000035899 viability Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Photovoltaic Devices (AREA)
Abstract
本发明涉及光伏系统规划和强化学习领域,提供了一种基于GIS和RL模型的光伏系统规划方法,包括步骤:利用GIS将光伏系统的安装地点生成网格单元,利用GIS的地理处理操作将变量输入到每个网格单元,基于PPO算法建立并训练RL模型,建立行为函数和未来奖励预测价值函数,执行行为的代理在事件期间与环境交互时,代理通过行为函数和价值函数根据每个状态预测奖励和行动,而环境接收到该状态和行动作为输入,并返回下一个状态和下一个奖励到代理,不断更新策略功能和价值功能,最终输出光伏系统优化计划。本发明可以应用于多种建筑和场景,有助于提高经济盈利能力,同时降低未来不确定条件下的风险。
Description
技术领域
本发明涉及光伏系统规划和强化学习领域,更具体涉及一种基于GIS和RL模型的光伏系统规划方法。
背景技术
为了在受地形和气象因素等区域特征影响较大的地区规划光伏系统,需要有效地收集、管理和分析广泛的空间数据。地理信息技术正被越来越多地用于这方面。近年来,基于GIS的光伏规划已经进行了许多研究。在这些研究中,GIS被用于从地理数据中计算太阳辐射和光伏发电,用于光伏系统安装的现场分析和决策,并预测潜在的效益。然而,关于制定提高光伏系统经济可行性水平的计划的研究仍然缺乏。为提高经济可行性,必须对每个光伏组件进行详细分析,屋顶光伏系统的规划必须考虑到与建筑相关的变量,如建筑年龄和屋顶的建筑面积。到目前为止,光伏系统的经济可行性已经在其生命周期成本(LCC)方面进行了优化,其中考虑了其安装、运行和维护、重置成本以及其发电所产生的经济效益。研究采用线性规划和非线性规划等数值方法,以提高光伏系统的长期成本效益和经济效益。此外,最近还利用遗传算法(GA)和粒子群优化(PSO)等启发式方法进行了研究。在这些研究中,确定性优化或随机优化都考虑了影响PV系统的长期辅助效率和效益的时间因变量。首先,在确定性优化的情况下,将时因变量预测为一个固定的场景来优化光伏系统的规划。然而,确定性优化需要对一个长期的场景进行假设或预测,如果与现实世界不同,可能会使优化结果不重要。另一方面,随机优化(即蒙特卡罗模拟)通过概率方法进一步降低了预测误差和不确定性造成的风险。然而,与在确定性优化中一样,在随机优化中,对长期情景的假设或预测的准确性可能会影响优化结果。特别是电力价格和光伏模块价格等时变变量在过去十年中表现出不规则的波动,使得难以准确预测。此外,由于规划是在整个目标期间一次性执行的,因此在反映将来要更新的信息方面存在限制。
综上所述,几种基于GIS的光伏系统规划分析方法已应用于优化方法。然而,在考虑建筑的详细地理空间特征和影响光伏系统经济效益的不确定时因变量方面存在局限性。
发明内容
本发明目的是提供了一种基于GIS的RL(强化学习)模型构建方法,能够考虑到建筑生命周期中未来情景的不确定性,对屋顶光伏系统提供最优规划。
本发明为实现上述目的,通过以下技术方案实现:
一种基于GIS和RL模型的光伏系统规划方法,包括步骤:
(1)利用GIS将光伏系统的安装地点进行划分,迭代生成网格单元;
(2)利用GIS的地理处理操作将变量输入到每个网格单元;
(3)基于PPO算法建立并训练RL模型,建立行为函数和未来奖励预测价值函数,执行行为的代理在事件期间与环境交互时,代理通过行为函数和价值函数根据每个状态预测奖励和行动,而环境接收到该状态和行动作为输入,并返回下一个状态和下一个奖励到代理,不断更新策略功能和价值功能,最终输出光伏系统优化计划。
RL模型在环境接收到代理的状态和行动并返回下一个状态和奖励时,根据环境中要解决的问题来设计观测空间、行动空间和奖励功能,观测空间包括每个网格的变量,行动空间包括可以选择的操作,奖励功能用来确定每一步所能获得的经济损益。
观测空间包括三个在每个网格单元表现不同的局部变量和两个应用于全部网格单元的全局变量,局部变量包括太阳辐射、光伏组件安装和光伏组件效率,全局变量包括电价和资本增值,太阳辐射被输入到使用GIS创建的网格电池数据表中,PV的存在根据已安装或空分别设置为二进制数字1和0,光伏组件的效率在事件开始时输入初始效率,当步骤通过时根据退化率设置为降低,电价和CAPEX提前输入整个事件要学习的值,当步长通过时,就设置相应步长的值。
奖励功能由资本支出、运营支出、售电收入和贴现率构成的奖励函数决定,该奖励函数定义为:
,
其中,为经济损益,为资本支出CAPEX,为光伏安装成本的政府补贴,为光伏的运营支出OPEX,为电力价格,为实际利率,为LCC分析周期,为电力销售,其具体计算方式为:
,
其中,、、分别为光伏组件面积、效率和太阳辐射。
使用几何布朗运动模型GBM,即一个时间序列模型,为光伏模块价格和电力价格来创造场景,估计CAPEX和OPEX,GBM通过波动率和平均漂移来确定:
,
其中C(t)和dC(t)分别为光伏组件及其衍生物的成本,和是随机游走的波动率和均值漂移,B(t)是一个遵循维纳过程的布朗运动,变化的均值为0,方差为1;波动率根据收集的历史数据计算,平均漂移由计算的波动率和预测的未来价格确定:
;
;
其中,是随时间变化的波动率,P(t)是随时间变化的预测未来价格,该价格不考虑波动率;
生成光伏模块价格的场景:使用光伏组件年平均价格计算光伏模块价格的波动率,根据斯旺森定律,光伏模块价格与累积太阳能装机容量之间存在指数相关关系:,C(Q)是光伏组件在累计计算时的价格,光伏模块的安装容量达到Q,C0是第一个采用的光伏组件的价格,β是学习参数;
建立电价的情景:获得SMP和可再生能源证书REC的波动性和预测的未来价格,电价通过SMP和REC乘以权重计算,使用历史SMP和REC数据计算电价的波动率,未来光伏模块价格或电力价格是从SMP和REC的预测未来价格中获得。
为了估计光伏组件的退化率,采用了与光伏组件退化率相似的伽马概率分布来创建退化率场景,因此光伏模块价格、电价和光伏组件退化率在不同的场景下被独立配置,伽马因子固定在1。
优选的,行动空间包括四个操作:维持现状、安装、丢弃和更换。
PPO算法PPO(近端策略优化算法)建立并训练的RL模型由两个网络组成:更新策略函数的actor网络和评估值函数的critic网络,actor网络增加了概率Pθi(st,at),通过更新政策的参数θ来获得不断上升的预期回报,来选择更好的行动,在PPO的参与者网络中,使用一个代理函数L(θ)作为一个目标函数,代理函数用于将总累积奖励的最渔网大化问题转化为策略方面:
其中是用来减少偏差的优势函数,在这个代理函数中应用了一个约束来确保一个稳定的策略梯度更新过程,当存在非常大的差异时,会设置一个防止更新太大的约束条件rt(θ),rt(θ)是指旧策略和新策略之比:
;
策略是决定agent(代理或智能体)行为的机制,是状态到行为的映射,Et是策略在时间t时的期望平均值,是代理或智能体在t时刻的动作,是代理在t时刻的状态,是代理在t时刻的策略;
目标函数如下:
;
函数中为变量,为下限,1+为上限,若,那么就输出,就输出,如果在上下限之间,就输出的值,设置为0.2;
critic网络被更新,以最大化代表状态累积奖励的价值函数,利用临界网络计算的当前状态和动作值作为反馈,优化参与者网络中的策略功能;在更新过程中,目标值函数Vtarget在所有策略的价值函数中选择最大的预期奖励以及价值函数Vθ(st),预测的Vθ(st)在它接近Vtarget时具有一个最大值目标:
;
最后,在PPO中将目标函数集成到actor网络和critic网络中,在探索时,添加熵项,使优化一次完成,而最优策略是根据更新过程利用每个状态的动作的概率分布来开发的,熵项赋予所选动作的概率分布一定程度的不确定性来探索各种策略,从而有助于实现无偏结果的收敛,终的目标函数为:
;
c1和c2分别是决定critic网络和探索的优化程度的超参数,LCLIP(θ)、LVF()和S(πθ)分别是被剪切的actor网络的代理函数、critic网络的代理函数和熵探索项。
优选的,RL模型中模型训练的超参数集设置为:广义优势估计GAE超参数lambda设置为1,表示这些步骤在值函数中反映的时间;最大的情节步数是50步,时间步长设定为目标建筑的剩余寿命,并且在到达该超参数集的结尾之后更新策略;学习参数epochs、environments、batches的数量分别设置为10、20和1024,迭代次数设置为2500万次,学习速率被设置为在0.001时呈线性下降。
优选的,利用GIS的地理处理操作将变量输入到每个网格单元的步骤为:网格单元格被赋予数字,并以数据表的形式存储,利用GIS将太阳能辐射和建筑信息输入到每个网格单元的数据表中,所述建筑信息包括建筑年龄和屋顶建筑面积。
本发明的优点在于:基于GIS的RL模型比GA模型、基于规则的模型和DQN模型的经济盈利能力更高,将基于GIS的RL模型中各建筑的经济利润与基于规则的模型中的经济利润进行比较,获得的经济利润也优于遗传算法模型,另外,与DQN算法相比,使用PPO算法更适合于解决已定义的屋顶光伏规划问题,这表明,作为基于GIS的RL模型可以应用于多种建筑和场景,有助于提高经济盈利能力,同时降低未来不确定条件下的风险。此外,当在社区层面使用基于GIS的RL模型时,建筑业主和能源企业主可以通过在没有额外补贴的情况下提高经济利润来实现自愿光伏安装,更加灵活自主。
附图说明
图1为本发明RL模型框架结构示意图;
图2为本发明RL模型的训练过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本实施例公开了一种基于GIS和RL模型的光伏系统规划方法,包括步骤:
S1. 获取数据与模型评价
(1)利用GIS将光伏系统的安装地点进行划分,迭代生成网格单元:使用ArcGIS中的地理处理工具,将建筑的屋顶定期划分为网格单元,利用ArcGIS模型构建器实现网格单元生成的迭代过程,将屋顶的地理形状确定为产生网格单元的边界。基于建筑足迹数据,使用ArcGIS模型建设者进行自动网格单元生成。通过缓冲工艺提取距离屋顶边界1米的地方,然后使用创建渔网工具,根据每个建筑的特定标准,在建筑屋顶上产生用于安装光伏组件的网格单元。网格单元格被赋予数字,并以数据表的形式存储。
(2)利用GIS的地理处理操作将变量输入到每个网格单元:利用GIS将太阳能辐射和建筑信息输入到每个网格单元的数据表中,网格单元数据处理请参照图1,使用ArcGIS中的太阳能分析工具计算了表面太阳辐射,在每个网格单元数据表中输入与光伏系统经济利润相关的建筑信息变量。本实施例中将建筑信息变量定义为建筑年龄和屋顶建筑面积,建筑年龄和屋顶建筑面积都是从综合建筑信息中收集出来的,并输入到网格单元的数据表中的每一列中。
S2. 基于GIS的RL模型的构建及训练
(1)基于PPO算法建立并训练RL模型:
RL适用于解决各种变量的不规则波动问题(例如电力价格、光伏效率和光伏模块价格)。这是由于RL的概念,它每年通过无数的模拟来计算经济利润和确定光伏规划,RL模型的训练过程请参照图2,在RL中执行行为的代理在事件期间与环境交互时观察状态并选择采取哪些行动。同时,还包括代理的行为函数策略和未来奖励预测价值函数。在这段时期的每一步,代理通过行为函数和价值函数根据每个状态预测奖励St和行动at,而环境的奖励函数接收到状态和行动作为输入,并返回下一个观察结果(也就是下一个状态St+1和奖励Rt+1)到代理。代理通过探索、试错学习获取更多的环境信息,并更新策略功能和价值功能,以增加最终的奖励。经过足够的探索后,代理可以实现通过利用已知信息,最大化奖励。
PPO(近端策略优化算法)模型由两个网络组成:更新策略函数的actor(演员)网络和评估值函数的critic(评论家)网络,actor网络增加了概率Pθi(st,at),通过更新政策的参数θ来获得不断上升的预期回报,来选择更好的行动,在PPO的参与者网络中,使用一个代理函数L(θ)作为一个目标函数,代理函数用于将总累积奖励的最大化问题转化为策略方面:
其中是用来减少偏差的优势函数,在这个代理函数中应用了一个约束来确保一个稳定的策略梯度更新过程,当存在非常大的差异时,会设置一个防止更新太大的约束条件rt(θ),rt(θ)是指旧策略和新策略之比:
;
策略是决定agent(代理或智能体)行为的机制,是状态到行为的映射,Et是策略在时间t时的期望平均值,是代理或智能体在t时刻的动作,是代理在t时刻的状态,是代理在t时刻的策略;
不采用KL散度作为约束,而是采用逻辑上合理的思路设计目标函数,其目标函数如下:
;
clip函数的意思是,在括号里面有三项,分别是(变量,下限,上限),因此函数中为变量,为下限,为上限,若,那么就输出,就输出,如果在上下限之间,就输出的值,设置为0.2;
critic网络被更新,以最大化代表状态累积奖励的价值函数,利用临界网络计算的当前状态和动作值作为反馈,优化参与者网络中的策略功能。在更新过程中,目标值函数Vtarget在所有策略的价值函数中选择最大的预期奖励以及价值函数Vθ(st),预测的Vθ(st)在它接近Vtarget时具有一个最大值目标:
;
最后,在PPO中将目标函数集成到actor网络和critic网络中,加入熵项,立即进行优化,得到最终目标函数:
;
c1和c2分别是决定critic网络和探索的优化程度的超参数,LCLIP(θ)、LVF()和S(πθ)分别是被剪切的(对新旧策略比例进行一定程度的Clip操作,以实现对代理变化幅度的约束)actor网络的代理函数、critic网络的代理函数和熵探索项。
(2)模型设计
请参照图1,在RL中,当环境接收到代理的动作并返回到下一个观察和奖励时,应该根据环境中要解决的问题来设计观测空间、行动空间和奖励功能,观测空间包括每个网格的变量,行动空间包括可以选择的操作,奖励功能用来确定每一步所能获得的经济损益,最终输出光伏系统优化计划。
在本实施例中,观测空间包括三个在每个网格单元表现不同的局部变量和两个应用于全部网格单元的全局变量,局部变量包括太阳辐射、光伏组件安装和光伏组件效率,全局变量包括电价和资本增值CAPEX,太阳辐射被输入到使用GIS创建的网格电池数据表中,PV的存在根据已安装或空分别设置为二进制数字1和0,光伏组件的效率在事件开始时输入初始效率,当步骤通过时根据退化率设置为降低,电价和CAPEX提前输入整个事件要学习的值,当步长通过时,就设置相应步长的值。
在光伏规划中,对于T年的每个网格,它的离散作用是由以下四个操作之一决定:①维持现状,②安装、③丢弃和④更换,根据在动作空间中选择的动作,计算观察空间的变化和奖励的变量。
奖励功能由资本支出、运营支出、售电收入和贴现率构成的奖励函数决定,奖励函数定义为一个方程,将每一步的实际利率应用于以下三个因素的总和:
;
;
其中,、、分别为光伏组件面积、效率和太阳辐射,为电力销售,为经济损益,为资本支出CAPEX,为光伏安装成本的政府补贴,为光伏的运营支出OPEX,为电力价格,为实际利率,为LCC分析周期。
(3)用于RL模型的训练和测试的场景生成
使用几何布朗运动模型GBM,即一个时间序列模型,为光伏模块价格和电力价格来创造场景,估计CAPEX和OPEX,GBM通过波动率和平均漂移来确定:
;
其中C(t)和dC(t)分别为光伏组件及其衍生物的成本,和是随机游走的波动率和均值漂移,B(t)是一个遵循维纳过程的布朗运动,变化的均值为0,方差为1;波动率根据收集的历史数据计算,平均漂移由计算的波动率和预测的未来价格确定:
;
;
是随时间变化的波动率,P(t)是随时间变化的预测未来价格,该价格不考虑波动率;
生成光伏模块价格的场景:使用光伏组件年平均价格计算光伏模块价格的波动率,根据斯旺森定律,光伏模块价格与累积太阳能装机容量之间存在指数相关关系:,C(Q)是光伏组件在累计计算时的价格,光伏模块的安装容量达到Q,C0是第一个采用的光伏组件的价格,β是学习参数,其中Q为1MW,C0=3.01$/Wp。
建立电价的情景:获得SMP和可再生能源证书REC的波动性和预测的未来价格,电价通过SMP和REC乘以权重计算,使用历史SMP和REC数据计算电价的波动率,未来光伏模块价格或电力价格是从SMP和REC的预测未来价格中获得。
为了估计光伏组件的退化率,采用了与光伏组件退化率相似的伽马概率分布来创建退化率场景,因此光伏模块价格、电价和光伏组件退化率在不同的场景下被独立配置,具体请参照图1的场景部分。
(4)超参数集设置
伽马因子固定在1,因为最大事件步长是一个由建筑年龄固定的有限情况。广义优势估计(GAE)lambda是一个超参数,它表示这些步骤在值函数中反映的时间,设置为1,所以情节奖励可以反映到最后,因为最大的情节步数(即the maximum episode step,其中anepisode可以理解为一个回合)是50步,该时间步长被设定为该建筑的剩余寿命,并且在到达该回合(episode)的结尾之后更新策略,学习参数epochs、environments、batches的数量分别设置为10、20和1024,因为它们表现出最好的性能,迭代次数设置为2500万次,每次迭代更新一次网络结构的参数并更新ppo,学习速率被设置为在0.001时呈线性下降。
模型评估:
本发明以二氧化碳排放和全球变暖潜力(GWP)为指标,分别计算了光伏组件和安装屋顶安装光伏的二氧化碳排放,评估了屋顶光伏系统规划的环境效益。对于强化学习方法,通过相同的场景,将DQN模型与PPO模型进行比较,分析基于GIS的屋顶光伏系统最优规划RL模型的经济盈利能力。基于GIS的RL模型比GA模型、基于规则的模型和DQN模型的经济盈利能力更高。因此,与DQN算法相比,使用PPO算法更适合于解决已定义的屋顶光伏规划问题。此外,基于GIS的RL模型比GA模型和基于规则的模型,在更多的情况下可以获得更大的经济利润。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于GIS和RL模型的光伏系统规划方法,其特征在于,包括步骤:
(1)利用GIS将光伏系统的安装地点进行划分,迭代生成网格单元;
(2)利用GIS的地理处理操作将变量输入到每个网格单元;
(3)基于PPO算法建立并训练RL模型,建立行为函数和未来奖励预测价值函数,执行行为的代理在事件期间与环境交互时,代理通过行为函数和价值函数根据每个状态预测奖励和行动,而环境接收到该状态和行动作为输入,并返回下一个状态和下一个奖励到代理,不断更新策略功能和价值功能,最终输出光伏系统优化计划;
所述RL模型在环境接收到代理的状态和行动并返回下一个状态和奖励时,根据环境中要解决的问题来设计观测空间、行动空间和奖励功能,所述观测空间包括每个网格的变量,所述行动空间包括可以选择的操作,所述奖励功能用来确定每一步所能获得的经济损益;
所述观测空间包括三个在每个网格单元表现不同的局部变量和两个应用于全部网格单元的全局变量,所述局部变量包括太阳辐射、光伏组件安装和光伏组件效率,所述全局变量包括电价和资本增值,所述太阳辐射PV的存在根据已安装或空分别设置为二进制数字1和0,所述光伏组件的效率在事件开始时输入初始效率,当步骤通过时根据退化率设置为降低,所述电价和CAPEX提前输入整个事件要学习的值,当步长通过时,就设置相应步长的值。
2.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,所述奖励功能由资本支出、运营支出、售电收入和贴现率构成的奖励函数决定,该奖励函数定义为:
其中,为经济损益,为资本支出CAPEX,为光伏安装成本的政府补贴,为光伏的运营支出OPEX,为电力价格,为实际利率,为LCC分析周期,为电力销售,其具体计算方式为:
其中,、、分别为光伏组件面积、效率和太阳辐射。
3.根据权利要求2所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,使用几何布朗运动模型GBM为光伏模块价格和电力价格来创造场景,估计CAPEX和OPEX,GBM通过波动率和平均漂移来确定:
其中C(t)和dC(t)分别为光伏组件及其衍生物的成本,和是随机游走的波动率和均值漂移,B(t)是一个遵循维纳过程的布朗运动,变化的均值为0,方差为1;波动率根据收集的历史数据计算,平均漂移由计算的波动率和预测的未来价格确定:
是随时间变化的波动率,P(t)是随时间变化的预测未来价格,该价格不考虑波动率;
生成光伏模块价格的场景:使用光伏组件年平均价格计算光伏模块价格的波动率,根据斯旺森定律,光伏模块价格与累积太阳能装机容量之间存在指数相关关系:,C(Q)是光伏组件在累计计算时的价格,光伏模块的安装容量达到Q,C0是第一个采用的光伏组件的价格,β是学习参数;
建立电价的情景:获得SMP和可再生能源证书REC的波动性和预测的未来价格,电价通过SMP和REC乘以权重计算,使用历史SMP和REC数据计算电价的波动率,未来光伏模块价格或电力价格是从SMP和REC的预测未来价格中获得。
4.根据权利要求2所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,光伏模块价格、电价和光伏组件退化率在不同的场景下被独立配置,使用伽马分布来创建退化率场景,伽马因子固定在1。
5.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,所述行动空间包括四个操作:维持现状、安装、丢弃和更换。
6.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,所述PPO算法建立训练的RL模型由两个网络组成:更新策略函数的actor网络和评估值函数的critic网络,actor网络增加了概率Pθi(st,at),通过更新政策的参数θ来获得不断上升的预期回报,来选择更好的行动,在PPO的参与者网络中,使用一个代理函数L(θ)作为一个目标函数,代理函数用于将总累积奖励的最大化问题转化为策略方面:
其中是用来减少偏差的优势函数,在这个代理函数中设置一个防止更新太大的约束条件rt(θ),rt(θ)是指旧策略和新策略之比:
Et是策略在时间t时的期望平均值,是代理或智能体在t时刻的动作,是代理在t时刻的状态,是代理在t时刻的策略;
目标函数如下:
函数中为变量,为下限,1+为上限,若,那么就输出,就输出,如果在上下限之间,就输出的值,设置为0.2;
critic网络被更新,以最大化代表状态累积奖励的价值函数,利用临界网络计算的当前状态和动作值作为反馈,优化参与者网络中的策略功能;在更新过程中,目标值函数Vtarget在所有策略的价值函数中选择最大的预期奖励以及价值函数Vθ(st),预测的Vθ(st)在它接近Vtarget时具有一个最大值目标:
最后,在PPO中将目标函数集成到actor网络和critic网络中,添加熵项,立即进行优化:
c1和c2分别是决定critic网络和探索的优化程度的超参数,LCLIP(θ)、LVF()和S(πθ)分别是被剪切的actor网络的代理函数、critic网络的代理函数和熵探索项。
7.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,所述RL模型中模型训练的超参数集设置为:广义优势估计GAE超参数lambda设置为1,表示这些步骤在值函数中反映的时间;最大的情节步数是50步,时间步长设定为目标建筑的剩余寿命,并且在到达该超参数集的结尾之后更新策略;学习参数epochs、environments、batches的数量分别设置为10、20和1024,迭代次数设置为2500万次,学习速率被设置为在0.001时呈线性下降。
8.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法,其特征在于,所述利用GIS的地理处理操作将变量输入到每个网格单元的步骤为:网格单元格被赋予数字,并以数据表的形式存储,利用GIS将太阳能辐射和建筑信息输入到每个网格单元的数据表中,所述建筑信息包括建筑年龄和屋顶建筑面积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310107412.4A CN115840794B (zh) | 2023-02-14 | 2023-02-14 | 一种基于gis和rl模型的光伏系统规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310107412.4A CN115840794B (zh) | 2023-02-14 | 2023-02-14 | 一种基于gis和rl模型的光伏系统规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115840794A CN115840794A (zh) | 2023-03-24 |
CN115840794B true CN115840794B (zh) | 2023-05-02 |
Family
ID=85579643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310107412.4A Active CN115840794B (zh) | 2023-02-14 | 2023-02-14 | 一种基于gis和rl模型的光伏系统规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115840794B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117613983B (zh) * | 2024-01-23 | 2024-04-16 | 国网冀北电力有限公司 | 基于融合规则强化学习的储能充放电控制决策方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144728A (zh) * | 2019-12-18 | 2020-05-12 | 东南大学 | 基于深度强化学习的热电联产系统经济调度方法 |
CN112330021A (zh) * | 2020-11-05 | 2021-02-05 | 中国电子科技集团公司第十八研究所 | 一种分布式光储系统的网络协调控制方法 |
CN114725936A (zh) * | 2022-04-21 | 2022-07-08 | 电子科技大学 | 基于多智能体深度强化学习的配电网优化方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116865B (zh) * | 2013-03-08 | 2016-01-13 | 华北电力大学 | 一种多维度协同电网规划的方法 |
CN111934344A (zh) * | 2020-07-09 | 2020-11-13 | 国网山东省电力公司东营供电公司 | 一种基于动态规划的园区光伏与储能多目标优化调度方法 |
US11610214B2 (en) * | 2020-08-03 | 2023-03-21 | Global Energy Interconnection Research Institute North America | Deep reinforcement learning based real-time scheduling of Energy Storage System (ESS) in commercial campus |
CN112186743B (zh) * | 2020-09-16 | 2022-03-25 | 北京交通大学 | 一种基于深度强化学习的动态电力系统经济调度方法 |
CN112396257A (zh) * | 2020-12-24 | 2021-02-23 | 亿景智联(北京)科技有限公司 | 利用强化学习实现的排班规划的方法和系统 |
CN113326872A (zh) * | 2021-05-19 | 2021-08-31 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113572157B (zh) * | 2021-07-27 | 2023-08-29 | 东南大学 | 一种基于近端策略优化的用户实时自治能量管理优化方法 |
CN114142530A (zh) * | 2021-09-23 | 2022-03-04 | 重庆大学 | 一种基于近端策略优化算法的考虑n-1安全约束的风险调度方法 |
CN115588998A (zh) * | 2022-10-17 | 2023-01-10 | 东南大学 | 一种基于图强化学习的配电网电压无功优化方法 |
CN115589067A (zh) * | 2022-10-28 | 2023-01-10 | 浙江中新电力工程建设有限公司 | 一种光伏发电的逆变系统及控制方法 |
CN115542099B (zh) * | 2022-11-28 | 2023-02-07 | 国网山东省电力公司东营供电公司 | 一种在线gis局部放电检测方法和装置 |
-
2023
- 2023-02-14 CN CN202310107412.4A patent/CN115840794B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144728A (zh) * | 2019-12-18 | 2020-05-12 | 东南大学 | 基于深度强化学习的热电联产系统经济调度方法 |
CN112330021A (zh) * | 2020-11-05 | 2021-02-05 | 中国电子科技集团公司第十八研究所 | 一种分布式光储系统的网络协调控制方法 |
CN114725936A (zh) * | 2022-04-21 | 2022-07-08 | 电子科技大学 | 基于多智能体深度强化学习的配电网优化方法 |
Non-Patent Citations (1)
Title |
---|
基于学习曲线模型的光伏上网电价预测;郑竞宏;杨俊;魏玲;朱守真;;电气应用(17);56-60 * |
Also Published As
Publication number | Publication date |
---|---|
CN115840794A (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mavromatidis et al. | Design of distributed energy systems under uncertainty: A two-stage stochastic programming approach | |
Shrivastava et al. | A multiobjective framework for wind speed prediction interval forecasts | |
Jung et al. | Optimal planning of a rooftop PV system using GIS-based reinforcement learning | |
Niu et al. | Uncertainty modeling for chaotic time series based on optimal multi-input multi-output architecture: Application to offshore wind speed | |
Pinciroli et al. | Optimization of the operation and maintenance of renewable energy systems by deep reinforcement learning | |
Oree et al. | A multi-objective framework for long-term generation expansion planning with variable renewables | |
Zhou et al. | Deep learning-based rolling horizon unit commitment under hybrid uncertainties | |
Li et al. | The negative impact of the COVID-19 on renewable energy growth in developing countries: Underestimated | |
CN115840794B (zh) | 一种基于gis和rl模型的光伏系统规划方法 | |
Jeyaraj et al. | Computer‐assisted demand‐side energy management in residential smart grid employing novel pooling deep learning algorithm | |
Yao et al. | Management of cascading outage risk based on risk gradient and Markovian tree search | |
Das et al. | Approximate dynamic programming with policy-based exploration for microgrid dispatch under uncertainties | |
Nematirad et al. | Optimal sizing of photovoltaic-battery system for peak demand reduction using statistical models | |
de Oliveira et al. | Optimisation modelling tools and solving techniques for integrated precinct-scale energy–water system planning | |
Eseye et al. | Short-term forecasting of electricity consumption in buildings for efficient and optimal distributed energy management | |
Baltputnis et al. | ANN-based city heat demand forecast | |
Shen et al. | An interval analysis scheme based on empirical error and MCMC to quantify uncertainty of wind speed | |
CN114372615A (zh) | 一种考虑空间相关性的短期光伏功率预测方法及系统 | |
Zhou et al. | Deep learning–based neural networks for day-ahead power load probability density forecasting | |
Bhatnagar et al. | Short-Term Electric Load Forecast Model Using the Combination of Ant Lion Optimization with Bi-LSTM Network | |
Piotrowski et al. | Forecasting of photovoltaic power generation using deep learning AI | |
Alvarado et al. | Ant colony systems application for electric distribution network planning | |
Serrano-Arévalo et al. | Optimal expansion for a clean power sector transition in Mexico based on predicted electricity demand using deep learning scheme | |
Pourmohammadi | A robust simulation-optimization approach for designing hybrid renewable energy systems | |
Liu et al. | Ensemble Forecasting Frame Based on Deep Learning and Multi-Objective Optimization for Planning Solar Energy Management: A Case Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |