CN115840794B

CN115840794B - 一种基于gis和rl模型的光伏系统规划方法

Info

Publication number: CN115840794B
Application number: CN202310107412.4A
Authority: CN
Inventors: 梁小姣; 冯媛媛; 姜吉平; 宫志寰; 李文杰; 孙永健; 张瑞春; 解昌顺; 徐晓辉; 赵嘉文; 王宗军; 王建华
Original assignee: Dongying Power Industry Bureau Of State Grid Shandong Electric Power Co
Current assignee: Dongying Power Industry Bureau Of State Grid Shandong Electric Power Co
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-02
Anticipated expiration: 2043-02-14
Also published as: CN115840794A

Abstract

本发明涉及光伏系统规划和强化学习领域，提供了一种基于GIS和RL模型的光伏系统规划方法，包括步骤：利用GIS将光伏系统的安装地点生成网格单元，利用GIS的地理处理操作将变量输入到每个网格单元，基于PPO算法建立并训练RL模型，建立行为函数和未来奖励预测价值函数，执行行为的代理在事件期间与环境交互时，代理通过行为函数和价值函数根据每个状态预测奖励和行动，而环境接收到该状态和行动作为输入，并返回下一个状态和下一个奖励到代理，不断更新策略功能和价值功能，最终输出光伏系统优化计划。本发明可以应用于多种建筑和场景，有助于提高经济盈利能力，同时降低未来不确定条件下的风险。

Description

一种基于GIS和RL模型的光伏系统规划方法

技术领域

本发明涉及光伏系统规划和强化学习领域，更具体涉及一种基于GIS和RL模型的光伏系统规划方法。

背景技术

为了在受地形和气象因素等区域特征影响较大的地区规划光伏系统，需要有效地收集、管理和分析广泛的空间数据。地理信息技术正被越来越多地用于这方面。近年来，基于GIS的光伏规划已经进行了许多研究。在这些研究中，GIS被用于从地理数据中计算太阳辐射和光伏发电，用于光伏系统安装的现场分析和决策，并预测潜在的效益。然而，关于制定提高光伏系统经济可行性水平的计划的研究仍然缺乏。为提高经济可行性，必须对每个光伏组件进行详细分析，屋顶光伏系统的规划必须考虑到与建筑相关的变量，如建筑年龄和屋顶的建筑面积。到目前为止，光伏系统的经济可行性已经在其生命周期成本(LCC)方面进行了优化，其中考虑了其安装、运行和维护、重置成本以及其发电所产生的经济效益。研究采用线性规划和非线性规划等数值方法，以提高光伏系统的长期成本效益和经济效益。此外，最近还利用遗传算法(GA)和粒子群优化(PSO)等启发式方法进行了研究。在这些研究中，确定性优化或随机优化都考虑了影响PV系统的长期辅助效率和效益的时间因变量。首先，在确定性优化的情况下，将时因变量预测为一个固定的场景来优化光伏系统的规划。然而，确定性优化需要对一个长期的场景进行假设或预测，如果与现实世界不同，可能会使优化结果不重要。另一方面，随机优化(即蒙特卡罗模拟)通过概率方法进一步降低了预测误差和不确定性造成的风险。然而，与在确定性优化中一样，在随机优化中，对长期情景的假设或预测的准确性可能会影响优化结果。特别是电力价格和光伏模块价格等时变变量在过去十年中表现出不规则的波动，使得难以准确预测。此外，由于规划是在整个目标期间一次性执行的，因此在反映将来要更新的信息方面存在限制。

综上所述，几种基于GIS的光伏系统规划分析方法已应用于优化方法。然而，在考虑建筑的详细地理空间特征和影响光伏系统经济效益的不确定时因变量方面存在局限性。

发明内容

本发明目的是提供了一种基于GIS的RL（强化学习）模型构建方法，能够考虑到建筑生命周期中未来情景的不确定性，对屋顶光伏系统提供最优规划。

本发明为实现上述目的，通过以下技术方案实现：

一种基于GIS和RL模型的光伏系统规划方法，包括步骤：

（1）利用GIS将光伏系统的安装地点进行划分，迭代生成网格单元；

（2）利用GIS的地理处理操作将变量输入到每个网格单元；

（3）基于PPO算法建立并训练RL模型，建立行为函数和未来奖励预测价值函数，执行行为的代理在事件期间与环境交互时，代理通过行为函数和价值函数根据每个状态预测奖励和行动，而环境接收到该状态和行动作为输入，并返回下一个状态和下一个奖励到代理，不断更新策略功能和价值功能，最终输出光伏系统优化计划。

RL模型在环境接收到代理的状态和行动并返回下一个状态和奖励时，根据环境中要解决的问题来设计观测空间、行动空间和奖励功能，观测空间包括每个网格的变量，行动空间包括可以选择的操作，奖励功能用来确定每一步所能获得的经济损益。

观测空间包括三个在每个网格单元表现不同的局部变量和两个应用于全部网格单元的全局变量，局部变量包括太阳辐射、光伏组件安装和光伏组件效率，全局变量包括电价和资本增值，太阳辐射被输入到使用GIS创建的网格电池数据表中，PV的存在根据已安装或空分别设置为二进制数字1和0，光伏组件的效率在事件开始时输入初始效率，当步骤通过时根据退化率设置为降低，电价和CAPEX提前输入整个事件要学习的值，当步长通过时，就设置相应步长的值。

奖励功能由资本支出、运营支出、售电收入和贴现率构成的奖励函数决定，该奖励函数定义为：

，

其中，为经济损益，为资本支出CAPEX，为光伏安装成本的政府补贴，为光伏的运营支出OPEX，为电力价格，为实际利率，为LCC分析周期，为电力销售，其具体计算方式为：

，

其中，、、分别为光伏组件面积、效率和太阳辐射。

使用几何布朗运动模型GBM，即一个时间序列模型，为光伏模块价格和电力价格来创造场景，估计CAPEX和OPEX，GBM通过波动率和平均漂移来确定：

，

其中C(t)和dC(t)分别为光伏组件及其衍生物的成本，和是随机游走的波动率和均值漂移，B(t)是一个遵循维纳过程的布朗运动，变化的均值为0，方差为1；波动率根据收集的历史数据计算，平均漂移由计算的波动率和预测的未来价格确定：

；

其中，是随时间变化的波动率，P(t)是随时间变化的预测未来价格，该价格不考虑波动率；

生成光伏模块价格的场景：使用光伏组件年平均价格计算光伏模块价格的波动率，根据斯旺森定律，光伏模块价格与累积太阳能装机容量之间存在指数相关关系：，C(Q)是光伏组件在累计计算时的价格，光伏模块的安装容量达到Q，C₀是第一个采用的光伏组件的价格，β是学习参数；

建立电价的情景：获得SMP和可再生能源证书REC的波动性和预测的未来价格，电价通过SMP和REC乘以权重计算，使用历史SMP和REC数据计算电价的波动率，未来光伏模块价格或电力价格是从SMP和REC的预测未来价格中获得。

为了估计光伏组件的退化率，采用了与光伏组件退化率相似的伽马概率分布来创建退化率场景，因此光伏模块价格、电价和光伏组件退化率在不同的场景下被独立配置，伽马因子固定在1。

优选的，行动空间包括四个操作：维持现状、安装、丢弃和更换。

PPO算法PPO（近端策略优化算法）建立并训练的RL模型由两个网络组成：更新策略函数的actor网络和评估值函数的critic网络，actor网络增加了概率Pθi(s_t,a_t)，通过更新政策的参数θ来获得不断上升的预期回报，来选择更好的行动，在PPO的参与者网络中，使用一个代理函数L(θ)作为一个目标函数，代理函数用于将总累积奖励的最渔网大化问题转化为策略方面：

其中是用来减少偏差的优势函数，在这个代理函数中应用了一个约束来确保一个稳定的策略梯度更新过程，当存在非常大的差异时，会设置一个防止更新太大的约束条件r_t(θ)，r_t(θ)是指旧策略和新策略之比：

；

策略是决定agent（代理或智能体）行为的机制，是状态到行为的映射，E_t是策略在时间t时的期望平均值，是代理或智能体在t时刻的动作，是代理在t时刻的状态，是代理在t时刻的策略；

目标函数如下：

；

函数中为变量，为下限，1+为上限，若，那么就输出，就输出，如果在上下限之间，就输出的值，设置为0.2；

critic网络被更新，以最大化代表状态累积奖励的价值函数，利用临界网络计算的当前状态和动作值作为反馈，优化参与者网络中的策略功能；在更新过程中，目标值函数V_target在所有策略的价值函数中选择最大的预期奖励以及价值函数V_θ(s_t)，预测的V_θ(s_t)在它接近V_target时具有一个最大值目标：

；

最后，在PPO中将目标函数集成到actor网络和critic网络中，在探索时，添加熵项，使优化一次完成，而最优策略是根据更新过程利用每个状态的动作的概率分布来开发的，熵项赋予所选动作的概率分布一定程度的不确定性来探索各种策略，从而有助于实现无偏结果的收敛，终的目标函数为：

；

c₁和c₂分别是决定critic网络和探索的优化程度的超参数，L^CLIP(θ)、L^VF()和S(π_θ)分别是被剪切的actor网络的代理函数、critic网络的代理函数和熵探索项。

优选的，RL模型中模型训练的超参数集设置为：广义优势估计GAE超参数lambda设置为1，表示这些步骤在值函数中反映的时间；最大的情节步数是50步，时间步长设定为目标建筑的剩余寿命，并且在到达该超参数集的结尾之后更新策略；学习参数epochs、environments、batches的数量分别设置为10、20和1024，迭代次数设置为2500万次，学习速率被设置为在0.001时呈线性下降。

优选的，利用GIS的地理处理操作将变量输入到每个网格单元的步骤为：网格单元格被赋予数字，并以数据表的形式存储，利用GIS将太阳能辐射和建筑信息输入到每个网格单元的数据表中，所述建筑信息包括建筑年龄和屋顶建筑面积。

本发明的优点在于：基于GIS的RL模型比GA模型、基于规则的模型和DQN模型的经济盈利能力更高，将基于GIS的RL模型中各建筑的经济利润与基于规则的模型中的经济利润进行比较，获得的经济利润也优于遗传算法模型，另外，与DQN算法相比，使用PPO算法更适合于解决已定义的屋顶光伏规划问题，这表明，作为基于GIS的RL模型可以应用于多种建筑和场景，有助于提高经济盈利能力，同时降低未来不确定条件下的风险。此外，当在社区层面使用基于GIS的RL模型时，建筑业主和能源企业主可以通过在没有额外补贴的情况下提高经济利润来实现自愿光伏安装，更加灵活自主。

附图说明

图1为本发明RL模型框架结构示意图；

图2为本发明RL模型的训练过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本实施例公开了一种基于GIS和RL模型的光伏系统规划方法，包括步骤：

S1. 获取数据与模型评价

（1）利用GIS将光伏系统的安装地点进行划分，迭代生成网格单元：使用ArcGIS中的地理处理工具，将建筑的屋顶定期划分为网格单元，利用ArcGIS模型构建器实现网格单元生成的迭代过程，将屋顶的地理形状确定为产生网格单元的边界。基于建筑足迹数据，使用ArcGIS模型建设者进行自动网格单元生成。通过缓冲工艺提取距离屋顶边界1米的地方，然后使用创建渔网工具，根据每个建筑的特定标准，在建筑屋顶上产生用于安装光伏组件的网格单元。网格单元格被赋予数字，并以数据表的形式存储。

（2）利用GIS的地理处理操作将变量输入到每个网格单元：利用GIS将太阳能辐射和建筑信息输入到每个网格单元的数据表中，网格单元数据处理请参照图1，使用ArcGIS中的太阳能分析工具计算了表面太阳辐射，在每个网格单元数据表中输入与光伏系统经济利润相关的建筑信息变量。本实施例中将建筑信息变量定义为建筑年龄和屋顶建筑面积，建筑年龄和屋顶建筑面积都是从综合建筑信息中收集出来的，并输入到网格单元的数据表中的每一列中。

S2. 基于GIS的RL模型的构建及训练

（1）基于PPO算法建立并训练RL模型：

RL适用于解决各种变量的不规则波动问题(例如电力价格、光伏效率和光伏模块价格)。这是由于RL的概念，它每年通过无数的模拟来计算经济利润和确定光伏规划，RL模型的训练过程请参照图2，在RL中执行行为的代理在事件期间与环境交互时观察状态并选择采取哪些行动。同时，还包括代理的行为函数策略和未来奖励预测价值函数。在这段时期的每一步，代理通过行为函数和价值函数根据每个状态预测奖励S_t和行动a_t，而环境的奖励函数接收到状态和行动作为输入，并返回下一个观察结果(也就是下一个状态S_t+1和奖励R_t+1)到代理。代理通过探索、试错学习获取更多的环境信息，并更新策略功能和价值功能，以增加最终的奖励。经过足够的探索后，代理可以实现通过利用已知信息，最大化奖励。

PPO（近端策略优化算法）模型由两个网络组成：更新策略函数的actor（演员）网络和评估值函数的critic（评论家）网络，actor网络增加了概率Pθi(s_t,a_t)，通过更新政策的参数θ来获得不断上升的预期回报，来选择更好的行动，在PPO的参与者网络中，使用一个代理函数L(θ)作为一个目标函数，代理函数用于将总累积奖励的最大化问题转化为策略方面：

；

不采用KL散度作为约束，而是采用逻辑上合理的思路设计目标函数，其目标函数如下：

；

clip函数的意思是，在括号里面有三项，分别是（变量，下限，上限），因此函数中为变量，为下限，为上限，若，那么就输出，就输出，如果在上下限之间，就输出的值，设置为0.2；

critic网络被更新，以最大化代表状态累积奖励的价值函数，利用临界网络计算的当前状态和动作值作为反馈，优化参与者网络中的策略功能。在更新过程中，目标值函数V_target在所有策略的价值函数中选择最大的预期奖励以及价值函数V_θ(s_t)，预测的V_θ(s_t)在它接近V_target时具有一个最大值目标：

；

最后，在PPO中将目标函数集成到actor网络和critic网络中，加入熵项，立即进行优化，得到最终目标函数：

；

c₁和c₂分别是决定critic网络和探索的优化程度的超参数，L^CLIP(θ)、L^VF()和S(π_θ)分别是被剪切的（对新旧策略比例进行一定程度的Clip操作，以实现对代理变化幅度的约束）actor网络的代理函数、critic网络的代理函数和熵探索项。

（2）模型设计

请参照图1，在RL中，当环境接收到代理的动作并返回到下一个观察和奖励时，应该根据环境中要解决的问题来设计观测空间、行动空间和奖励功能，观测空间包括每个网格的变量，行动空间包括可以选择的操作，奖励功能用来确定每一步所能获得的经济损益，最终输出光伏系统优化计划。

在本实施例中，观测空间包括三个在每个网格单元表现不同的局部变量和两个应用于全部网格单元的全局变量，局部变量包括太阳辐射、光伏组件安装和光伏组件效率，全局变量包括电价和资本增值CAPEX，太阳辐射被输入到使用GIS创建的网格电池数据表中，PV的存在根据已安装或空分别设置为二进制数字1和0，光伏组件的效率在事件开始时输入初始效率，当步骤通过时根据退化率设置为降低，电价和CAPEX提前输入整个事件要学习的值，当步长通过时，就设置相应步长的值。

在光伏规划中，对于T年的每个网格，它的离散作用是由以下四个操作之一决定：①维持现状，②安装、③丢弃和④更换，根据在动作空间中选择的动作，计算观察空间的变化和奖励的变量。

奖励功能由资本支出、运营支出、售电收入和贴现率构成的奖励函数决定，奖励函数定义为一个方程，将每一步的实际利率应用于以下三个因素的总和：

；

其中，、、分别为光伏组件面积、效率和太阳辐射，为电力销售，为经济损益，为资本支出CAPEX，为光伏安装成本的政府补贴，为光伏的运营支出OPEX，为电力价格，为实际利率，为LCC分析周期。

（3）用于RL模型的训练和测试的场景生成

；

是随时间变化的波动率，P(t)是随时间变化的预测未来价格，该价格不考虑波动率；

生成光伏模块价格的场景：使用光伏组件年平均价格计算光伏模块价格的波动率，根据斯旺森定律，光伏模块价格与累积太阳能装机容量之间存在指数相关关系：，C(Q)是光伏组件在累计计算时的价格，光伏模块的安装容量达到Q，C₀是第一个采用的光伏组件的价格，β是学习参数，其中Q为1MW，C₀=3.01$/Wp。

为了估计光伏组件的退化率，采用了与光伏组件退化率相似的伽马概率分布来创建退化率场景，因此光伏模块价格、电价和光伏组件退化率在不同的场景下被独立配置，具体请参照图1的场景部分。

（4）超参数集设置

伽马因子固定在1，因为最大事件步长是一个由建筑年龄固定的有限情况。广义优势估计(GAE)lambda是一个超参数，它表示这些步骤在值函数中反映的时间，设置为1，所以情节奖励可以反映到最后，因为最大的情节步数（即the maximum episode step，其中anepisode可以理解为一个回合）是50步，该时间步长被设定为该建筑的剩余寿命，并且在到达该回合（episode）的结尾之后更新策略，学习参数epochs、environments、batches的数量分别设置为10、20和1024，因为它们表现出最好的性能，迭代次数设置为2500万次，每次迭代更新一次网络结构的参数并更新ppo，学习速率被设置为在0.001时呈线性下降。

模型评估：

本发明以二氧化碳排放和全球变暖潜力(GWP)为指标，分别计算了光伏组件和安装屋顶安装光伏的二氧化碳排放，评估了屋顶光伏系统规划的环境效益。对于强化学习方法，通过相同的场景，将DQN模型与PPO模型进行比较，分析基于GIS的屋顶光伏系统最优规划RL模型的经济盈利能力。基于GIS的RL模型比GA模型、基于规则的模型和DQN模型的经济盈利能力更高。因此，与DQN算法相比，使用PPO算法更适合于解决已定义的屋顶光伏规划问题。此外，基于GIS的RL模型比GA模型和基于规则的模型，在更多的情况下可以获得更大的经济利润。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GIS和RL模型的光伏系统规划方法，其特征在于，包括步骤：

（2）利用GIS的地理处理操作将变量输入到每个网格单元；

（3）基于PPO算法建立并训练RL模型，建立行为函数和未来奖励预测价值函数，执行行为的代理在事件期间与环境交互时，代理通过行为函数和价值函数根据每个状态预测奖励和行动，而环境接收到该状态和行动作为输入，并返回下一个状态和下一个奖励到代理，不断更新策略功能和价值功能，最终输出光伏系统优化计划；

所述RL模型在环境接收到代理的状态和行动并返回下一个状态和奖励时，根据环境中要解决的问题来设计观测空间、行动空间和奖励功能，所述观测空间包括每个网格的变量，所述行动空间包括可以选择的操作，所述奖励功能用来确定每一步所能获得的经济损益；

所述观测空间包括三个在每个网格单元表现不同的局部变量和两个应用于全部网格单元的全局变量，所述局部变量包括太阳辐射、光伏组件安装和光伏组件效率，所述全局变量包括电价和资本增值，所述太阳辐射PV的存在根据已安装或空分别设置为二进制数字1和0，所述光伏组件的效率在事件开始时输入初始效率，当步骤通过时根据退化率设置为降低，所述电价和CAPEX提前输入整个事件要学习的值，当步长通过时，就设置相应步长的值。

2.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，所述奖励功能由资本支出、运营支出、售电收入和贴现率构成的奖励函数决定，该奖励函数定义为：

其中，、、分别为光伏组件面积、效率和太阳辐射。

3.根据权利要求2所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，使用几何布朗运动模型GBM为光伏模块价格和电力价格来创造场景，估计CAPEX和OPEX，GBM通过波动率和平均漂移来确定：

4.根据权利要求2所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，光伏模块价格、电价和光伏组件退化率在不同的场景下被独立配置，使用伽马分布来创建退化率场景，伽马因子固定在1。

5.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，所述行动空间包括四个操作：维持现状、安装、丢弃和更换。

6.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，所述PPO算法建立训练的RL模型由两个网络组成：更新策略函数的actor网络和评估值函数的critic网络，actor网络增加了概率Pθi(s_t,a_t)，通过更新政策的参数θ来获得不断上升的预期回报，来选择更好的行动，在PPO的参与者网络中，使用一个代理函数L(θ)作为一个目标函数，代理函数用于将总累积奖励的最大化问题转化为策略方面：

其中是用来减少偏差的优势函数，在这个代理函数中设置一个防止更新太大的约束条件r_t(θ)，r_t(θ)是指旧策略和新策略之比：

E_t是策略在时间t时的期望平均值，是代理或智能体在t时刻的动作，是代理在t时刻的状态，是代理在t时刻的策略；

目标函数如下：

最后，在PPO中将目标函数集成到actor网络和critic网络中，添加熵项，立即进行优化：

7.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，所述RL模型中模型训练的超参数集设置为：广义优势估计GAE超参数lambda设置为1，表示这些步骤在值函数中反映的时间；最大的情节步数是50步，时间步长设定为目标建筑的剩余寿命，并且在到达该超参数集的结尾之后更新策略；学习参数epochs、environments、batches的数量分别设置为10、20和1024，迭代次数设置为2500万次，学习速率被设置为在0.001时呈线性下降。

8.根据权利要求1所述的基于GIS和RL模型的光伏系统规划方法，其特征在于，所述利用GIS的地理处理操作将变量输入到每个网格单元的步骤为：网格单元格被赋予数字，并以数据表的形式存储，利用GIS将太阳能辐射和建筑信息输入到每个网格单元的数据表中，所述建筑信息包括建筑年龄和屋顶建筑面积。