CN114331025A

CN114331025A - 一种基于时序差分法的风光火储系统优化配置方法及系统

Info

Publication number: CN114331025A
Application number: CN202111473491.8A
Authority: CN
Inventors: 汪琳; 朱勇; 王建星; 刘明义; 曹传钊; 刘大为; 徐若晨; 曹曦; 裴杰; 李�昊
Original assignee: Huaneng Clean Energy Research Institute; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Huaneng Clean Energy Research Institute; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-12

Abstract

本申请提出一种基于时序差分法的风光火储系统优化配置方法和系统，所述方法包括：首先获取历史时段内各时刻的电网需求发电量、风电机组的发电量、光伏机组的发电量、预设约束条件和经济性参数，其次基于获取的上述数据确定所述系统中火电机组、储能设备的总需求发电量，然后划分系统的状态类型并基于SARSA算法训练基于风光火储一体化系统建立的强化学习模型，获取系统在不同状态下的最优策略，随后基于所述最优策略计算所述系统在给定时段内的累积运行成本，最后修改预设约束条件，选取不同约束下系统的累积投资运行成本最小值对应的预设约束条件对系统进行优化配置。本发明提供的技术方案，提高了风、光资源的利用率，节约了运行成本。

Description

一种基于时序差分法的风光火储系统优化配置方法及系统

技术领域

本申请涉及系统的优化配置技术领域，尤其涉及一种基于时序差分法的风光火储系统优化配置方法及系统。

背景技术

随着新能源的发展，风光互补发电系统的利用越来越广泛，但是风光互补发电系统受气候和环境的影响较大，采用大规模储能技术建立风光火储系统，可确保负载用电的持续性和可靠性，减少能源资源的浪费。

目前，现有的风光火储系统默认火电机组连续运行，当不需要火电机组出力时，机组运行在最小负荷工况下，长期低负荷运行会导致电量超过储能设备容量而弃电，增加运行成本，降低风、光资源的利用率。

发明内容

本申请提供一种基于时序差分法的风光火储系统优化配置方法及系统以至少解决相关技术中的风、光资源的利用率低，运行成本高的技术问题。

本申请第一方面实施例提出一种基于时序差分法的风光火储系统优化配置方法，所述方法包括：

获取历史时段内各时刻的电网需求发电量、风光火储系统中风电机组的发电量、光伏机组的发电量、预设约束条件和经济性参数；

根据历史时段内各时刻的电网需求发电量、风光火储系统中风电机组的发电量、光伏机组的发电量确定历史时段内各时刻风光火储系统中火电机组和储能设备的总需求发电量；

基于火电机组的运行状态和储能设备的可用电量，将风光火储系统的状态划分成不同的状态类型，并随机初始化各状态之间相互转移的概率值及各个状态类型对应的策略；

基于SARSA算法建立强化学习模型，将历史时段内各时刻风光火储系统中火电机组和储能设备的的总需求发电量作为采样序列，对模型进行训练，得到最优策略；

根据最优策略计算风光火储系统在给定时段内各时刻的状态及所述状态对应的风光火储系统的运行成本，从而计算出风光火储系统在给定时段内的累积投资运行成本；

修改预设约束条件，重新计算各个状态的最优策略及该预设约束条件下的所述系统在给定时段内的累积投资运行成本，从不同约束下系统的累积投资运行成本中筛选最小值，并利用所述最小值对应的预设约束条件对风光火储系统进行优化配置；

其中，所述预设约束条件包括：各发电和储能设备的容量约束、状态约束和风光火储系统的初始状态。

本申请第二方面实施例提出一种基于时序差分法的风光火储系统优化配置系统，所述系统包括：

获取模块，用于获取历史时段内各时刻的电网需求发电量、风光火储系统中风电机组的发电量、光伏机组的发电量、预设约束条件和经济性参数；

确定模块，用于根据历史时段内各时刻的电网需求发电量、风光火储系统中风电机组的发电量、光伏机组的发电量确定历史时段内各时刻风光火储系统中火电机组和储能设备的总需求发电量；

初始化模块，用于基于火电机组的运行状态和储能设备的可用电量，将风光火储系统划的状态划分成不同的状态类型，并随机初始化各状态之间相互转移的概率值及各个状态类型对应的策略；

最优策略模块，用于基于SARSA算法建立强化学习模型，将历史时段内各时刻风光火储系统中火电机组和储能设备的的总需求发电量作为采样序列，对模型进行训练，得到最优策略；

计算模块，用于根据最优策略计算风光火储系统在给定时段内各时刻的状态及该状态对应的所述系统的运行成本，从而计算出风光火储系统在给定时段内的累积投资运行成本；

优化配置模块，用于修改预设约束条件，重新计算各个状态的最优策略及该预设约束条件下的所述系统在给定时段内的累积投资运行成本，从不同约束下系统的累计投资运行成本中筛选最小值，并利用所述最小值对应的预设约束条件对风光火储系统进行优化配置；

本申请第三方面实施例提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如本申请第一方面实施例的方法。

本申请第四方面实施例提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如本申请第一方面实施例的方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

综上所述，本申请提出了一种基于时序差分法的风光火储系统优化配置方法和系统，所述方法包括：首先获取历史时段内各时刻的电网需求发电量、风电机组的发电量、光伏机组的发电量、预设约束条件和经济性参数，其次基于获取的上述数据确定所述系统中火电机组、储能设备的总需求发电量，然后划分系统的状态类型并基于SARSA算法训练基于风光火储一体化系统建立的强化学习模型，获取系统在不同状态下的最优策略，随后基于所述最优策略计算所述系统在给定时段内的累积运行成本，最后修改预设约束条件，选取不同约束下系统的累积投资运行成本最小值对应的预设约束条件对系统进行优化配置。本发明提供的技术方案，可动态调整火电机组的运行状态，利用时序差分算法在采样数量有限的情况下尽可能降低了一体化系统在给定时段内的累计投资运行成本，同时提高了风、光资源的利用率。

本申请附加的方面以及优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面以及优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例提供的一种基于时序差分法的风光火储系统优化配置方法的流程图；

图2为根据本申请一个实施例提供的状态转移图；

图3为根据本申请一个实施例提供的一种基于时序差分法的风光火储系统优化配置方法的具体流程图；

图4为根据本申请一个实施例提供的一种基于时序差分法的风光火储系统优化配置系统的结构图；

图5为为根据本申请一个实施例提供的一种基于时序差分法的风光火储系统优化配置系统中最优策略模块的结构图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

为了使本领域技术人员更好的理解本申请，本申请先对新能源发电的实际情况进行详细说明。风光互补发电系统受气候和环境的影响较大，采用大规模储能技术，可确保负载用电的持续性和可靠性，同时减少能源资源的浪费，因此，在设计风光火储系统时，应力求达到负荷需求、风电发电量、光伏发电量、火电发电量与储能系统在容量上的最佳组合，从而在较经济的条件下解决风光互补发电系统供电可靠性及电能质量的问题。

“风、光、火、蓄、储”多能源互补优化调度方法研究论文在传统的燃煤成本和启停成本基础上，考虑了常规机组低负荷运行和爬坡工况的发电成本，构建了蓄电池的寿命损耗成本模型；引入弃风、弃光惩罚成本计算模型和切负荷惩罚成本计算模型，从而建立了“风、光、火、蓄、储”多能源互补优化调度模型，并提出用动态惯性权值粒子群算法求解系统总运行成本最小的优化目标。

但是，大部分现有的研究成果默认火电机组处于连续运行状态，当不需要火电机组出力时，火电机组在最小负荷工况下运行，可能会出现火电机组长期处于低负荷运行状态，当总富余发电量超出储能设备容量时而弃电，增加了运行成本，降低了风、光资源的利用率。

为了解决运行成本高，风、光资源的利用率低的技术问题，本申请旨在提出一种基于时序差分法的风光火储系统优化配置方法、系统、设备和存储介质，即本申请基于时序差分法和调整预设的约束条件，对风光火储系统进行优化配置，提高风、光资源的利用率，节约风光火储系统的运行成本。

下面参考附图描述本申请实施例的基于时序差分法的风光火储系统优化配置方法、系统、设备和存储介质。

实施例1

本发明提供了一种基于时序差分法的风光火储系统优化配置方法，图1为本公开实施例所提供的基于时序差分法的风光火储系统优化配置方法的流程图，如图1所示，所述方法包括：

步骤1：获取历史时段内各时刻的电网需求发电量、风光火储系统中风电机组的发电量、光伏机组的发电量、预设约束条件和经济性参数；

需要说明的是，所述预设约束条件包括：各发电和储能设备的容量约束、状态约束和风光火储系统的初始状态。

步骤2：根据历史时段内各时刻的电网需求发电量、风光火储系统中风电机组的发电量、光伏机组的发电量确定历史时段内各时刻风光火储系统中火电机组和储能设备的总需求发电量；

步骤3：基于火电机组的运行状态和储能设备的可用电量，将风光火储系统的状态划分成不同的状态类型，并随机初始化各状态之间相互转移的概率值及各个状态类型对应的策略；

在本公开实施例中，所述基于火电机组的运行状态和储能设备的可用电量，将风光火储系统划分成不同的状态类型，包括：

将风光火储系统中火电机组运行且储能设备可用电量大于零的状态划分为为第一状态；

将风光火储系统中火电机组运行且储能设备可用电量等于零的状态划分为第二状态；

将风光火储系统中火电机组停运且储能设备可用电量大于零的状态划分为第三状态；

将风光火储系统中火电机组停运且储能设备可用电量等于零的状态划分为第四状态。

步骤4：基于SARSA算法建立强化学习模型，将历史时段内各时刻风光火储系统中火电机组和储能设备的的总需求发电量作为采样序列，对模型进行训练，得到最优策略；

在本公开实施例中，所述基于SARSA算法建立强化学习模型，将历史时段内各时刻的总电量需求作为采样序列，对模型进行训练，得到各状态下的最优策略，包括：

根据预设约束条件初始化强化学习模型中风光火储系统的初始状态；

将该初始状态和采样序列中的第一个采样值代入预先初始化的动作选择模型中，得到该初始状态对应的初始策略；

基于初始策略，确定初始状态对应的动作及该动作对应的下一个状态；

基于采样值及初始状态对应的动作计算该初始策略下的状态-动作对的奖赏值；

基于下一个状态的初始策略，确定该状态对应的下一个动作；

基于初始状态的状态-动作对的累积奖赏函数、初始策略下的状态-动作对的奖赏值、下一个状态的状态-动作对的累积奖赏函数更新初始状态的状态-动作对的累积奖赏函数及策略；

将前面所述的下一个状态及采样序列的下一个值代入强化学习模型，重复上述全部步骤，直至遍历完采样序列中的所有值，完成模型的训练。

训练完成的模型中各个状态对应的策略即为最优策略。

需要说明的是，所述动作选择模型，用于基于当前时刻风光火储系统的状态和下一时刻总需求发电量确定的当前时刻火电机组的运行状态转入下一时刻火电机组的运行状态对应的动作；

其中，总需求发电量包括：需求发电量为负、需求发电量为正且小于储能设备当前容量、需求发电量大于储能设备当前容量且小于储能设备当前容量与火电机组的最大负荷之和、需求发电量大于储能设备当前容量与火电机组的最大负荷之和；

火电机组的运行状态包括：停运和运行。

需要说明的是，所述状态-动作对的奖赏值与风光火储系统运行成本成反比；

其中，风光火储系统运行成本主要包括火电机组的燃煤成本、火电机组的启停费用、所述系统中各设备的维护成本、弃电惩罚成本、缺电惩罚成本以及不满足设备正常使用要求时的惩罚成本等。

需要说明的是，所述策略是由状态转移概率确定的；

其中，所述状态转移概率由状态-动作对的累积奖赏函数确定，若第i个状态有f个可选动作，则有f个状态-动作对，状态-动作对的累积奖赏函数可在初始化时获得或根据采样值计算得到；

第i个状态，将第1个动作至第f个动作各自对应的状态-动作对的累积奖赏函数中最大的一个动作作为状态集中第i个状态对应的最优动作，所述最优动作即该状态下的策略；

其中，f∈(1～δ)，δ为动作集中包含的动作个数，i∈(1～N)，N为状态集中包含的状态个数。

示例的，所述累积奖赏函数中第t+1次迭代过程中Q值Q_t+1的计算式如下所示：

Q_t+1(s,a)＝Q_t(s,a)+α(r+γQ_t(s',a')-Q_t(s,a))

式中，Q_t为第t次迭代过程中计算的Q值，r为本次计算过程选择的状态-动作对的奖赏值，s为当前状态，a为当前动作，s’为执行动作a后的状态，a’为s’状态的策略对应的动作，α为第一预设参数，γ为第二预设参数，t∈(1～T)，T为迭代次数阈值，所有状态-动作累积奖赏函数的所有迭代次数之和为采样序列的样本数。

步骤5：根据最优策略计算风光火储系统在给定时段内各时刻的状态及所述状态对应的风光火储系统的运行成本，从而计算出风光火储系统在给定时段内的累积投资运行成本；

步骤6：修改预设约束条件，重新计算各个状态的最优策略及该预设约束条件下的所述系统在给定时段内的累积投资运行成本，从不同约束下系统的累积投资运行成本中筛选最小值，并利用所述最小值对应的预设约束条件对风光火储系统进行优化配置。

结合上述配置方法对本申请的具体方法进行举例说明：

在本实施例中，火电机组开机状态序列与设备状态和运行成本有关，可以从机组运行状态转移的角度进行分析。在每个小时，火电机组有运行和停运两种可能的状态，储能设备有可用电量为0和可用电量大于0两种可能的状态，因此整个系统共有4种状态，分别记为S0、S1、S2、S3，对应的状态描述分别为：

S0：火电机组运行，且储能设备可用电量大于0；

S1：火电机组运行，且储能设备可用电量为0；

S2：火电机组停运，且储能设备可用电量大于0；

S3：火电机组停运，且储能设备可用电量为0；

当前状态为S0时的状态转移图如图2所示。每种状态根据下一时刻的电量需求和火电机组的动作，转移到下一状态，同时可得出与本次状态转移的运行成本成反比的状态转移的奖赏值r。其中火电机组的动作包括运行(A₀)和停运(A₁)，电量需求有四种情况，分别是需求为负值(Case0)、需求为正值且小于储能设备的当前容量(Case1)、需求大于储能设备的当前容量且小于储能设备当前容量与火电机组的最大负荷之和(Case2)、以及需求大于储能设备当前容量与火电机组的最大负荷之和(Case3)。

由于每个状态都以一定的概率选择某个动作，每个状态-动作对都以一定的概率P转移到某个状态，如图2中的箭头所示，当前状态为S0，且电量需求为Case0时，执行动作A₀时，会以P₀₀₀的概率转移到状态S0，以P₀₀₁的概率转移到状态S1，因此当某个状态转移策略使累计奖赏函数最大时，即为最优策略，在该策略下求出的火电机组开机状态序列使风光火储系统的运行成本最小。由于在不同的输入参数、不同的设备运行状态、不同的成本计算方式以及不同的设备约束条件下，状态转移的奖赏值不同，所以上述两个概率是未知的，此时可使用免模型强化学习方法，如时序差分学习方法。

基于免模型时序差分学习的SARSA算法的风光火储系统优化配置方法的具体流程图如图3所示，具体步骤为：

F1:读入发电量需求、各设备的预设约束条件、以及相关的经济性参数等；

F2:初始化系统的当前状态s、当前采样步数i、所有状态-动作对的累计奖赏函数Q(s,a)、所有状态的策略函数Π(s)；

F3:若当前采样步数i小于等于采样序列长度，则执行单步策略进入步骤F4，否则进入步骤F9；

F4:根据策略Π(s)确定当前动作a，并计算本次采样的奖赏值r及一体化系统中各发电和储能设备的运行状态，r与运行成本有关，成本越小，奖赏值越大；

F5:根据当前状态s和当前动作a可得到下一个状态s’，并根据策略Π(s’)确定下一个动作a’；

F6:根据式Q_t+1(s,a)＝Q_t(s,a)+α(r+γQ_t(s',a')-Q_t(s,a))，动态更新状态-动作对的累计奖赏函数Q的第t+1次估计值，中α为更新步长，γ为奖赏折扣；

F7:根据更新后的Q(s,a)，更新策略Π(s)为在状态s下使Q值最大的动作a”；

F8:步数i加1，并将s’和a’带入步骤F3，重复执行步骤F3-F8；

F9:执行完全部采样后，可以得到该组预设约束条件下的最优策略Π’，保存该策略下风光火储系统在给定时段内各时刻的状态及所述状态对应的风光火储系统的累计运行成本、供电可靠性指标等；

F10:若需调整预设约束参数重新计算，则返回步骤F1，否则对比不同的预设约束参数下得出的投资运行成本、供电可靠性指标等，选择出风光火储系统的最佳配置方案。

综上所述，本发明提供的基于时序差分法的风光火储系统优化配置方法，首先获取历史时段内各时刻的电网需求发电量、风电机组的发电量、光伏机组的发电量、预设约束条件和经济性参数，其次基于获取的上述数据确定所述系统中火电机组、储能设备的总需求发电量，然后划分系统的状态类型并基于SARSA算法训练基于风光火储一体化系统建立的强化学习模型，获取系统在不同状态下的最优策略，随后基于所述最优策略计算所述系统在给定时段内的累积运行成本，最后修改预设约束条件，选取不同约束下系统的累积投资运行成本最小值对应的预设约束条件对系统进行优化配置。本发明提供的技术方案，提高了风、光资源的利用率，节约了运行成本。

实施例2

图4为本公开实施例所提供的一种基于时序差分法的风光火储系统优化配置系统的结构图，如图4所示，所述系统包括：

在本公开实施例中，所述最优策略模块，如图5所示，包括：

初始化单元，用于根据预设约束条件初始化强化学习模型中风光火储系统的初始状态；

初始策略单元，用于将该初始状态和采样序列中的第一个采样值代入预先初始化的动作选择模型中，得到该初始状态对应的初始策略；

第一确定单元，用于基于初始策略，确定初始状态对应的动作及该动作对应的下一个状态；

计算单元，用于基于采样值及初始状态对应的动作计算该初始策略下的状态-动作对的奖赏值；

第二确定单元，用于基于下一个状态的初始策略，确定该状态对应的下一个动作；

更新单元，用于基于初始状态的状态-动作对的累积奖赏函数、初始策略下的状态-动作对的奖赏值、下一个状态的状态-动作对的累积奖赏函数更新初始状态的状态-动作对的累积奖赏函数及策略；

循环单元，用于将前面所述的下一个状态及采样序列的下一个值代入强化学习模型，重复上述全部步骤，直至遍历完采样序列中的所有值，完成模型的训练。

最优策略单元，用于训练完成的模型中各个状态对应的策略即为最优策略。

火电机组的运行状态包括：停运和运行。

需要说明的是，所述策略是由状态转移概率确定的；

Q_t+1(s,a)＝Q_t(s,a)+α(r+γQ_t(s',a')-Q_t(s,a))

综上所述，本申请提出的一种基于时序差分法的风光火储系统优化配置系统，所述系统包括：获取模块、确定模块、初始化模块、最优策略模块、计算模块和优化配置模块。本发明基于时序差分法和调整预设的约束条件，对风光火储系统进行优化配置，提高风、光资源的利用率，节约风光火储系统的运行成本。

实施例3

为了实现上述实施例，本申请实施例还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如本申请实施例1所描述的方法。

实施例4

为了实现上述实施例，本申请实施例还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如本申请实施例1所描述的方法。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于时序差分法的风光火储系统优化配置方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于火电机组的运行状态和储能设备的可用电量，将风光火储系统的状态划分成不同的状态类型，包括：

3.如权利要求1所述的方法，其特征在于，所述基于SARSA算法建立强化学习模型，将历史时段内各时刻的总电量需求作为采样序列，对模型进行训练，得到各状态下的最优策略，包括：

训练完成的模型中各个状态对应的策略即为最优策略。

4.如权利要求3所述的方法，其特征在于，所述动作选择模型，用于基于当前时刻风光火储系统的状态和下一时刻总需求发电量确定的当前时刻火电机组的运行状态转入下一时刻火电机组的运行状态对应的动作；

火电机组的运行状态包括：停运和运行。

5.如权利要求3所述的方法，其特征在于，所述状态-动作对的奖赏值与风光火储系统运行成本成反比；

6.如权利要求3所述的方法，其特征在于，所述策略是由状态转移概率确定的；

7.如权利要求3所述的方法，其特征在于，所述累积奖赏函数中第t+1次迭代过程中Q值Q_t+1的计算式如下所示：

Q_t+1(s,a)＝Q_t(s,a)+α(r+γQ_t(s',a')-Q_t(s,a))

8.一种基于时序差分法的风光火储系统优化配置系统，其特征在于，所述系统包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如权利要求1-7中任一的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如权利要求1-7中任一的方法。