CN116345577B

CN116345577B - 风-光-储微电网能量调控优化方法、设备及存储介质

Info

Publication number: CN116345577B
Application number: CN202310530670.3A
Authority: CN
Inventors: 孟庆霖; 葛磊蛟; 王剑晓; 王中冠; 孙冰; 张博; 高锋; 张欣燕; 许良; 王瑞; 刘春雨; 孙继科; 赵金; 药炜; 孙京生
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Marketing Service Center of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Marketing Service Center of State Grid Tianjin Electric Power Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-08
Anticipated expiration: 2043-05-12
Also published as: CN116345577A

Abstract

本发明公开了风‑光‑储微电网能量调控优化方法、设备及存储介质，包括：对风光储微电网系统建立以风光跟踪考核成本以及储能运行成本最小为目标的风光储协调控制模型；设置以风光储微电网系统运行成本最小为目标的目标函数；设置风光储微电网系统的约束条件；对所述风光储协调控制模型进行学习，根据学习结果，对风光储微电网系统进行协调控制。本发明，首先建立了联合系统的动态经济调度模型以跟踪日前计划出力，减少储能充放电成本。然后给出了在强化学习框架下的模型描述。之后学习风光储系统的联合调度策略，以实现对能量管理优化模型功率跟踪和减少储能充放电的目的。

Description

风-光-储微电网能量调控优化方法、设备及存储介质

技术领域

本发明涉及能源优化技术领域，具体为风-光-储微电网能量调控优化方法、设备及存储介质。

背景技术

在众多可再生能源中，风电、光伏因其分布广泛、成本低廉等优势脱颖而出。然而，风光其固有的随机波动性和间歇性特征大大影响了自身的发展。储能有着平抑波动、削峰填谷等功能，它将成为解决风光发展问题的有效手段。鉴于储能良好的调节特性，将其与风光联合进行发电，可以有效改善联合系统的总体有功输出，提高微电网运行的安全性和稳定性，降低系统发电成本。

由于考虑到风光出力的不确定性和间歇性，文献：基于相关机会目标规划的风光储联合发电系统储能调度策略，赵书强等，通过提出相关机会规划理论。文献：一种基于跟踪计划的风光储联合发电系统储能控制策略研究，李华等。通过提出采用置信区间理论，以及文献：基于鲁棒优化的风光储联合发电系统储能配置策略，李笑竹等。通过采用鲁棒优化分别对联合发电系统中的风光出力进行预测和求解。

而针对风光储联合运行经济性这一问题，文献：风光储联合发电系统有功控制策略研究及工程应用，任洛卿等，提出了风光储联合发电系统在平滑模式、跟踪计划、自由发电和频率调整四种不同模式下的调度策略，用以解决不同的应用需求，在国家风光储示范工程得到应用，被验证是可行和有效的。在此基础上文献：考虑碳排放成本的风光储多能互补系统优化运行研究，朱晔等以及考虑V2G及碳排放量的风光储综合能源系统协调优化运行，罗继东等，考虑到了联合系统的碳排放成本，文献：考虑储能运行成本的风光储微网的经济运行，刘燕华等，考虑到了储能运行成本，文献：基于合作博弈的风光储集群协同优化调度模型，张海宁等，还将计划发电误差惩罚收益和输电成本融入到了模型上。

尽管如此，以上研究方法都是通过既定的概率模型考虑风光的不确定性，并且对于长时间调度问题，上述求解方法很容易由于维数灾而陷入局部最优。

发明内容

本发明的目的在于提供一种风-光-储微电网能量调控优化方法、设备及存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

风-光-储微电网能量调控优化方法，包括：

对风光储微电网系统建立以风光跟踪考核成本以及储能运行成本最小为目标的风光储协调控制模型；

设置以风光储微电网系统运行成本最小为目标的目标函数；

设置风光储微电网系统的约束条件；

对所述风光储协调控制模型进行学习，根据学习结果，对风光储微电网系统进行协调控制。

进一步的，所述目标函数的表达式为：

；

（1）式中，C为联合系统的总成本，C _g为联合系统跟踪偏差考核成本，C _bt为储能运行成本，其计算方法如下所示：

；

（2）式中，T为调度周期长度，、、分别是风电、光伏以及储能在t时刻的控制功率，为微电网系统在t时刻的日前出力计划值，而和分别是风光跟踪偏差单位考核成本以及储能充放电单位成本。

进一步的，所述约束条件包括风电出力约束、光伏电站出力约束以及储能系统出力和容量约束。

进一步的，所述风电出力约束的表达式为：

；

（3）式中：为t时刻风电的最大出力，为风电的日前功率预测值；

为时段t内风电的出力调整速度；为风电功率向下调整速度限值；

为风电功率向上调整速度限值，和通过风电机组实际运行中统计得到的调整速度整定得到，将统计得到的向上和向下调整速度的最大值作为相应的限值。

进一步的，所述光伏电站出力约束的表达式为：

；

（4）式中：为t时刻风电的最大出力，为风电的日前功率预测值；

为时段t内光伏电站的出力调整速度；

为光伏电站功率向下调整速度限值；

为光伏电站功率向上调整速度限值，和通过光伏电站实际运行中统计得到的调整速度整定得到，将统计得到的向上和向下调整速度的最大值作为相应的限值。

进一步的，所述储能系统出力和容量约束的出力约束条件表达式为：

；

（5）式中：为储能系统允许最大充放电功率，和分别为t时段储能系统处于充电或放电状态的0-1标志，保证储能系统无法同时处于充电和放电状态。

进一步的，所述储能系统出力和容量约束的容量约束表达式为：

；

（6）式中：E _t为t时段储能系统存储电量值，、分别为储能系统存储电量允许的最大值、最小值；

；

（7）至（8）式中：ρ为储能电池的自持放电率，E_t-1为_t-1时段储能系统存储电量值；

ΔE _t为第t个时段的电量变化，正数表示放电，负数表示充电；

η _c为充电效率；

η _d为放电效率；

Δt为每个时段间隔时间；

此外，在一个调度周期始末储能系统电量一致，则需满足约束：

；

（9）式中：为0点储能系统电量；

为24点储能系统电量。

进一步的，风光储协调控制模型基于SARSA算法强化学习：模型由马尔可夫决策过程进行表示，具体形式为(S,A,P,R,γ)其中，S表示环境中可被感知到的所有状态集合，A表示智能体可采取的所有动作集合，P表示状态转移概率，R表示特定状态及动作下的即时奖励，γ表示回报折扣率，在强化学习过程中，定义策略π为状态空间到动作空间的一个映射(S→A)，表示为智能体在状态s _t选择动作a _t，执行该动作并以概率P (s _t,a _t)转移到下一状态s _t+1，同时接受来自环境反馈的奖赏r _t，智能体根据得到的奖励R来调整自身的策略并针对新的状态s _t+1做出新的决策a _t+1，用于获得最大的长期累积奖励。

进一步的，SARSA算法通过在与环境交互的过程中生成的学习样本以及获得的奖励值和下一状态或状态—动作对的评价来更新动作：Q值，其迭代过程可表示为：

；

（10）式中，α为学习率，用来控制学习的收敛情况；

折扣率γ∈[0，1]，决定了未来时刻t的奖惩值对现在的重要程度，γ接近于0时，智能体更在意短期回报，γ接近于1时，智能体更在意长期回报；

在迭代过程中，贪婪策略π*会在当前状态下选择Q值最大的动作，如下：

；

（11）式采用如下动作选择策略：

在预学习阶段认为选择各动作的可能性相等，概率均为1/A，A表示可供选择的动作数量；

在学习过程中，依据Q值的大小确定各动作被选择的概率，各动作被选择的概率可表示为：

；

（12）式中：a _t表示贪婪策略；P _s(a _t)表示贪婪策略a _t被选择的概率；

P _s(a)表示其它非贪婪策略a被选择的概率；β为贪婪因子，越接近1时贪婪策略被选择的概率越大；正数δ。

进一步的，所述SARSA算法强化学习过程包括：选取状态空间S、动作空间A，设置奖励函数R，通过状态空间S、动作空间A以及奖励函数R进行预学习和在线学习。

进一步的，所述选取状态空间S包括：选取储能系统存储电量值、风电以及光伏的预测出力作为状态空间，可表示如下：

；

（13）式中，S _Et代表储能系统存储电量值，S _wt和S _pv代表风电以及光伏的预测出力。

进一步的，所述选取动作空间A包括：选取风电、光伏的出力增量及储能充放电功率作为动作空间集合，其如下所示：

；

（14）式中，A _wt和A _pv代表风电和光伏的出力增量集合，A _bt代表储能系统充放电功率集合。

进一步的，奖励函数R的设置包括：设置目标函数的负值作为奖励函数，得到即时奖励r _t的计算公式如下所示：

；

（15）式中，r _t表示智能体在状态s _t下选择动作a _t以后，可以得到r _t的即时奖励，表示t时刻的联合系统跟踪偏差考核成本，表示t时刻的储能运行成本，a_t表示贪婪策略，s_t表示未来时刻t状态。

进一步的，预学习和在线学习包括：

SARSA算法以Q值表为依据选取最优动作策略；

协调控制包括：

步骤1，初始化Q值表；

步骤2，确定当前所属的状态s_t，进一步随机选取该状态对应的动作策略，根据策略选取动作a_t；

步骤3，下一时段到来后，通过联合系统调度模型计算r _t并确定s _t+1；

步骤4，判断时间t是否完成一个周期，如果一个调度周期没有结束，则令t=t+1，转至步骤2，如果一个调度周期结束，则根据SARSA算法的迭代公式对Q值表进行更新；

步骤5，判断学习过程是否收敛，判断标准为Q值表收敛于最优值，如果是则结束迭代，如果不是则判断是否达到迭代次数，如果达到则结束，没有达到则继续进行迭代；

其中r _t表示智能体在状态s _t下选择动作a _t以后，可以得到r _t的即时奖励，a_t表示贪婪策略，s_t表示未来时刻t状态，s _t+1表示未来时刻t+1的状态。

进一步的，步骤1中，预学习初始化阶段Q值表中各元素初值均取为0，在线学习中将其初始化为预学习保留的Q值表，并设置迭代次数K。

为实现上述目的，本发明还提供如下技术方案：

风-光-储微电网能量调控优化设备，包括：

构建模块，用于对风光储微电网系统建立以风光跟踪考核成本以及储能运行成本最小为目标的风光储协调控制模型；

第一设置模块，用于设置以风光储微电网系统运行成本最小为目标的目标函数；

第二设置模块，用于设置风光储微电网系统的约束条件；

学习协控模块，用于对所述风光储协调控制模型进行学习，根据学习结果，对风光储微电网系统进行协调控制。

为实现上述目的，本发明还提供如下技术方案：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述中任一项所述方法的步骤。

为实现上述目的，本发明还提供如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述中任一项所述的方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明，首先建立了联合系统的动态经济调度模型以跟踪日前计划出力，减少储能充放电成本。然后给出了在强化学习框架下的模型描述。之后学习风光储系统的联合调度策略，以实现对能量管理优化模型功率跟踪和减少储能充放电的目的。

本发明，针对风光储微电网具有不确定性、约束复杂等特点，SARSA算法不依赖于数学模型等特点能与之良好适应。

本发明，提出的方法通过考虑风光出力波动和储能的充放电，可以较好的跟踪系统的联合运行计划，实现居民小区用电需求和风光储微电网系统的经济运行。

本发明，SARSA算法与MPC算法对比求解优化模型时，SARSA算法计算效率更高。

附图说明

图1为本发明用于实现根据本发明实施例的风-光-储微电网能量调控优化方法、设备及存储介质的示例电子设备的示意性框图。

图2为本发明一个实施例的风-光-储微电网能量调控优化方法的示意性流程图。

图3为本发明一个实施例的风光储微电网系统示意图。

图4为本发明一个实施例的强化学习原理图。

图5为本发明一个实施例的SARSA算法流程图。

图6为本发明一个实施例的日前功率预测曲线示意图。

图7为本发明一个实施例的可再生能源预测功率示意图。

图8为本发明一个实施例的总成本变化曲线示意图。

图9为本发明一个实施例的不同迭代次数优化对比示意图。

图10为本发明一个实施例的SARSA和MPC出力对比示意图。

图11为本发明一个实施例的风-光-储微电网能量调控优化设备的示意性框图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上端”、下端”、“内”、“外”、“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、 “套设有”、“套接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1至图11，本发明提供一种技术方案：

参考图1来描述用于实现根据本发明实施例的风-光-储微电网能量调控优化方法、设备及存储介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108和数据获取装置110，这些组件通过总线系统112和/或其它形式的连接机构（未示出）互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元（CPU）、图形处理器（GPU）或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中（由处理器实现）的在给定风光下的微电网系统的联合调度策略功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部（例如用户)输出各种信息（例如图像和/或声音），并且可以包括显示器、扬声器等中的一个或多个。

所述数据获取装置110可以采集图像等各种形式的数据，并且将所采集的数据存储在所述存储装置104中以供其它组件使用。数据获取装置110可以是摄像头等。应当理解，数据获取装置110仅是示例，电子设备100可以不包括数据获取装置110。在这种情况下，可以利用其他数据获取装置获取数据，并将所获取的数据发送给电子设备100。

示例性地，用于实现根据本发明实施例的基于强化学习的风光储微电网能量管理优化方法及设备的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的风-光-储微电网能量调控优化方法。图2示出根据本发明一个实施例的风-光-储微电网能量调控优化方法的示意性流程图。如图2所示，该方法包括以下步骤。

S100、对风光储微电网系统建立以风光跟踪考核成本以及储能运行成本最小为目标的风光储协调控制模型；

S110、设置以风光储微电网系统运行成本最小为目标的目标函数；

S120、设置风光储微电网系统的约束条件；

S130、对所述风光储协调控制模型进行学习，根据学习结果，对风光储微电网系统进行协调控制。

下面做具体说明：针对风光储微电网系统能量管理时未充分考虑风光不确定性和储能充放电问题，本发明提出了一种基于强化学习的风光储微电网系统能量管理优化模型。首先以计划跟踪和储能运行成本最小为目标，建立了充分考虑风光储各个系统约束下的能量管理优化模型。然后定义了该能量管理优化模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等。随后引入了SARSA算法，利用其环境交互和迭代探索策略的机制，学习风光储微电网系统的联合调度策略，以实现对联合系统功率跟踪和减少储能充放电的目的。最后借用某居民小区为例，运行蒙特卡洛对EV充电负荷进行模拟，由基础负荷与EV充电负荷叠加得到日前计划出力，将联合调度模型应用于算例中对日前计划出力进行追踪，算例结果表明所提方法可以得到在给定风光下的微电网系统的联合调度策略。

本发明将强化学习引入风光储微电网系统的调度中。强化学习是一种自适应的无模型机器学习方法，其通过动作和奖励机制，利用与环境交互的反馈信息逐步改进决策能力，最后学习在奖励最大下的动作策略。因此，其具有很好的对历史数据特征的提取与在不确定性环境下的决策能力，可以直接学习风光的历史出力数据，训练出可以适应风光随机变化的决策网络，并且实现在线快速决策，避免了复杂的风光不确定性建模和维数灾的问题。

为此，本发明提出了一种基于强化学习的风光储微电网系统的能量管理优化模型。首先，建立了联合系统的动态经济调度模型以跟踪日前计划出力，减少储能充放电成本。然后给出了在强化学习框架下的模型描述，之后学习风光储系统的联合调度策略，以实现对能量管理优化模型功率跟踪和减少储能充放电的目的。

1、微电网系统架构

1.1、系统模型

风光储微电网系统是由微电网能量管理中心、风光储监控层以及设备层组成，其结构框图如图3所示。

从图3可知，微电网能量管理中心是微电网运行控制的主要单元，它通过收集负荷需求并通过风光储监控层的监控信息实现对风电、光伏以及储能的协调控制，风光储监控层主要实现对各个子系统的单独监控和各个设备的运行信息的上传，而其中设备层主要包括风力发电系统、光伏发电系统和储能系统。其中风电和光伏系统是主要的功率输出模块，储能系统主要为了抑制新能源波动以及帮助微电网系统跟踪日前计划曲线，避免考核。

由图3所示微电网实行“自发自用”的孤岛运行策略。首先微电网能量管理中心通过收集居民小区的基础负荷和EV充电负荷得到日前计划出力曲线，然后场站监控层接收到调度指令之后，分解后下发到设备层的各个风电、光伏以及储能单元。因此，风光储微电网系统的核心功能就是通过统一协调分配风电、光伏以及储能系统的发电功率，以实现跟踪日前计划出力的目的。

1.2、目标函数

为了保证风光储微电网系统的输出功率跟踪能力并降低储能充放电成本，本发明以1h为时间分辨率将1d划分为24个时段作为一个调度周期，建立了以风光跟踪考核成本以及储能运行成本最小为目标的风光储协调控制模型，其目标函数如下所示：

；

（2）式中，T为调度周期长度，、、分别是风电、光伏以及储能在t时刻的控制功率，为微电网系统在t时刻的日前出力计划值。而和分别是风光跟踪偏差单位考核成本以及储能充放电单位成本。

1.3、约束条件

（1）风电出力约束

；

（3）式中：为t时刻风电的最大出力，为风电的日前功率预测值；为时段t内风电的出力调整速度；为风电功率向下调整速度限值；为风电功率向上调整速度限值。和 ^x通过风电机组实际运行中统计得到的调整速度整定得到，将统计得到的向上和向下调整速度的最大值作为相应的限值。

（2）光伏电站出力约束

；

（4）式中：为t时刻风电的最大出力，为风电的日前功率预测值；为时段t内光伏电站的出力调整速度；为光伏电站功率向下调整速度限值；为光伏电站功率向上调整速度限值。和通过光伏电站实际运行中统计得到的调整速度整定得到，将统计得到的向上和向下调整速度的最大值作为相应的限值。

（3）储能系统出力和容量约束

为了引导储能设备合理充放电和避免过充过放，延长其使用时间，设置储能系统的出力约束条件如下所示：

；

（5）式中：为储能系统允许最大充放电功率，和分别为t时段储能系统处于充电或放电状态的0-1标志，保证储能系统无法同时处于充电和放电状态，0-1标志代表储，表储能不能同时充电和放电，如果储能充电的话，那么=1，且，反之，则相反。

设置储能系统的容量约束如下：

；

式中：E_t为t时段储能系统存储电量值，、分别为储能系统存储电量允许的最大值、最小值；

；

（7）和（8）式中：ρ为储能电池的自持放电率；E_t-1为t-1；ΔE _t为第t个时段的电量变化，正数表示放电，负数表示充电；η_c为充电效率；η_d为放电效率；Δt为每个时段间隔时间。

此外，在一个调度周期（1天）始末储能系统电量一致，则需满足约束：

；

（9）式中：为0点储能系统电量，为24点储能系统电量。

2、基于SARSA算法的风光储联合优化调度

强化学习是智能体在与未知环境不断交互的过程中，通过采取一定的动作以最大化累积奖励的机器学习方法，数学模型可由马尔可夫决策过程（markov decisionprocess，MDP）进行表示，具体形式为(S，A，P，R，γ)其中，S表示环境中可被感知到的所有状态集合，A表示智能体可采取的所有动作集合，P表示状态转移概率，R表示特定状态及动作下的即时奖励，γ表示回报折扣率。

在强化学习过程中，定义策略π为状态空间到动作空间的一个映射(S→A)，表示为智能体在状态s _t选择动作a _t，执行该动作并以概率P (s _t，a _t)转移到下一状态s _t+1，同时接受来自环境反馈的奖赏r _t。

因此，智能体根据得到的奖励R来调整自身的策略并针对新的状态s _t+1做出新的决策a _t+1，以期获得最大的长期累积奖励，其原理图4如下所示。

2.1、SARSA算法基本原理

SARSA算法是一种模型无关的时序差分（TD）算法，它是一种被广泛应用的强化学习算法之一。SARSA算法主要通过在与环境交互的过程中生成的学习样本以及获得的奖励值和下一状态或状态—动作对的评价来更新动作：Q值，其迭代过程可表示为：

；

（10）式中，为在状态s_t下选择动作a _t的动作，s_t为未来时刻t状态，a_t为贪婪策略，r_t为智能体在状态s _t下选择动作a _t以后，可以得到的即时奖励，αα为学习率，用来控制学习的收敛情况；折扣率γ∈[0，1]，决定了未来时刻t的奖惩值对现在的重要程度。γ接近于0时，智能体更在意短期回报，γ接近于1时，智能体更在意长期回报。

；

（11）式中，π*（s）为状态下s下的贪婪策略。

考虑到SARSA算法仅采用贪婪策略将出现局部收敛的情况，无法根据已有经验对动作空间进行搜索。因此，本发明采用如下动作选择策略。

（1）在预学习阶段认为选择各动作的可能性相等，概率均为1/A，A表示可供选择的动作数量。

（2）在学习过程中，依据Q值的大小确定各动作被选择的概率。各动作被选择的概率可表示为：

；

（12）式中：a _t表示贪婪策略；P _s(a _t)表示贪婪策略a _t被选择的概率；P _s(a)表示其它非贪婪策略a被选择的概率，a为非贪婪策略；β为贪婪因子，越接近1时贪婪策略被选择的概率越大；为保证所有动作被选择的概率均不等于0，在式中引入一个极小的正数δ。

2.2、SARSA学习的过程

（1）状态空间S的选取

在风光储协调控制模型中，选取储能系统存储电量值、风电以及光伏的预测出力作为状态空间。可表示如下：

；

（2）动作空间A的选取

在强化学习中，一般选取模型的决策变量作为系统的动作空间，如风电、光伏以及储能的出力。本发明为了简化模型，选取风电、光伏的出力增量及储能充放电功率作为动作空间集合，其如下所示：

；

（3）奖励函数R

为了训练智能体学习到在联合调度总成本最低下的调度策略，设置目标函数的负值作为奖励函数，即中成本越低，奖励越大，由此鼓励智能体学习最优调度计划。因此可以得到即时奖励r _t的计算公式如下所示：

；

（15）式中，r _t表示智能体在状态s _t下选择动作a _t以后，可以得到r _t的即时奖励。

（4）学习流程

在输入状态空间和动作策略集合确定后，即可进行预学习和在线学习。SARSA算法以Q值表为依据选取最优动作策略，在初始阶段Q值表未达到最优值，动作的选取难以保证最优性。为此，在投入在线运行之前，需要通过预学习进行经验的积累。此后，可投入到真实运行环境中进行在线学习。

SARSA算法应用于风光储联合系统日联合优化调度问题的流程见图5：

步骤1）初始化Q值表。预学习初始化阶段Q值表中各元素初值均取为0，在线学习中将其初始化为预学习保留的Q值表，并设置迭代次数K。

步骤2）确定当前所属的状态s _t，进一步随机选取该状态对应的动作策略，根据策略选取动作a _t。

步骤3）下一时段到来后，通过风光储协调控制模型计算r _t并确定s _t+1，s _t+1为未来时刻t+1的状态。

步骤4）判断时间t是否完成一个周期，如果一个调度周期没有结束，则令t=t+1，转至步骤2）。如果一个调度周期结束，则根据SARSA算法的迭代公式对Q值表进行更新。

步骤5）判断学习过程是否收敛，判断标准为Q值表收敛于最优值，如果是则结束迭代，如果不是则判断是否达到迭代次数，如果达到则结束，没有达到则继续进行迭代。

3、算例分析

3.1、参数设定

算例场景设计为利用风光储微电网系统为居民小区内的基础负荷和EV充电负荷供电，用于验证所提能量管理优化数学模型的有效性。

本文采用文献：计及动态电价的电动汽车充放电优化调度，程杉等，预测方法，使用蒙特卡洛模拟法对居民小区内EV充电负荷进行预测，如图6所示。从图6中可看出EV充电负荷主要集中在18:00-24:00，两种负荷相叠加组成则可得到系统日前计划出力曲线。

该联合系统典型日内风机光伏的日前预测功率如图7所示，该联合系统的跟踪机制为通过储能配合风光场站真实出力数据跟踪日前计划出力曲线。该系统的风电场容量为140kW，光伏电站容量为60kW，储能系统参数如表1所示。

3.2、预学习阶段

在预学习阶段，本文采用一种较为典型的参数设置方式。其中：α取为0.56；γ取为0.95；β取为0.5。选取一年的风光历史数据进行预学习，在学习过程中每一个月的系统的平均总成本如图8所示。

由图8可知，在预学习的初始阶段，混合系统所需的调度成本较高。这主要是由于Q值表中各元素的数值相对其最优值仍存在较大差距，需要不断的探索去学习最优动作策略。随着学习的不断进行，Q值表逐渐逼近最优解，SARSA算法的决策能力不断提高。

在预学习过程中，经过七个月的风光历史数据训练后，混合系统所需成本逐渐稳定在较低水平，说明此时SARSA算法通过探索试错，已积累了一定的经验，具备了给出较为合理的储能出力和风光出力增量策略的能力。

3.3、仿真结果分析

3.3.1 经济性分析

经过预学习后，保留预学习获得的Q值表，将其投入到在线学习。设置参数：α取为0.56；γ取为0.95；β取为0.5。本发明所提策略各成本指标如下表2所示。

由表2可知，经过预学习后，在线学习阶段Q学习算法的决策能力明显提高，采用贪婪动作策略(β=1.0)或非贪婪动作策略(β=0.5)所需的成本均能够维持在较低水平。

3.3.2 跟踪优化结果分析

如图9所示，SARSA算法通过不断迭代试错来逐步选取每个状态下的最优动作。在迭代初始阶段，算法Q值表值均为默认，与各元素的最优值存在很大的差距，因此迭代次数较少时，系统动作更多为随机探索，实际出力与计划出力曲线偏差较大；经过了一定次数迭代后，通过不断试错，Q值表内各元素值都已经更新，各个状态下所采取的动作接近或收敛于最优值，计划出力与实际出力曲线的拟合度较高。图9为不同迭代次数下，风光储微电网系统实际出力曲线的优化结果。

由图9可看出，当迭代次数达6000次后，风光储微电网系统的出力曲线与计划曲线大致重合，跟踪偏差很小。

3.3.3 与其他算法对比结果分析

为了进一步说明算法的学习效果，将不同迭代次数下的SARSA算法与文献：基于多时间尺度和多源储能的综合能源系统能量协调优化调度，何畅等，MPC算法进行对比，两种算法下风光储微电网系统实际出力跟踪计划出力曲线见图10，优化结果对比见表3。

由图10可看出，两种算法均能使得系统实际出力曲线与计划出力曲线相拟合，系统跟踪偏差考核成本相差不大。但由表3可以看出，在求解时间上，相比于MPC算法，SARSA算法可通过改变相关参数提高算法收敛速度，大大减少计算时间。

4、结论

本发明在强化学习的框架下，提出了一种基于SARSA算法的风光储微电网能量优化管理模型。同时通过算例的分析，对发明文提出模型的有效性和优势进行了充分的阐述和论证，并且得到结论如下所示：

(1)风光储微电网具有不确定性、约束复杂等特点，SARSA算法不依赖于数学模型等特点能与之良好适应。

(2)本发明提出的方法通过考虑风光出力波动和储能的充放电，可以较好的跟踪系统的联合运行计划，实现居民小区用电需求和风光储微电网系统的经济运行。

(3)SARSA算法与MPC算法对比求解优化模型时，SARSA算法计算效率更高。

如图11所示，风-光-储微电网能量调控优化设备，包括构建模块200、第一设置模块210、第二设置模块220和学习协控模块230。所述各个模块/单元可分别执行上文中所述的风-光-储微电网能量调控优化方法的各个步骤/功能。以下仅对该设备的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

构建模块200，用于对风光储微电网系统建立以风光跟踪考核成本以及储能运行成本最小为目标的风光储协调控制模型；

第一设置模块210，用于设置以风光储微电网系统运行成本最小为目标的目标函数；

第二设置模块220，用于设置风光储微电网系统的约束条件；

学习协控模块230，用于对所述风光储协调控制模型进行学习，根据学习结果，对风光储微电网系统进行协调控制。

各单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块/单元实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的风-光-储微电网能量调控优化设备中的一些模块/单元的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.风-光-储微电网能量调控优化方法，其特征在于，包括：

设置以风光储微电网系统运行成本最小为目标的目标函数；

设置风光储微电网系统的约束条件；

对所述风光储协调控制模型进行学习，根据学习结果，对风光储微电网系统进行协调控制；

风光储协调控制模型基于SARSA算法强化学习：模型由马尔可夫决策过程进行表示，具体形式为(S,A,P,R,γ)其中，S表示环境中可被感知到的所有状态集合，A表示智能体可采取的所有动作集合，P表示状态转移概率，R表示特定状态及动作下的即时奖励，γ表示回报折扣率，在强化学习过程中，定义策略π为状态空间到动作空间的一个映射(S→A)，表示为智能体在状态s_t选择动作a_t，执行该动作并以概率P(s_t,a_t)转移到下一状态s_t+1，同时接受来自环境反馈的奖赏r_t，智能体根据得到的奖励R来调整自身的策略并针对新的状态s_t+1做出新的决策a_t+1，用于获得最大的长期累积奖励；

SARSA算法通过在与环境交互的过程中生成的学习样本以及获得的奖励值和下一状态或状态—动作对的评价来更新动作：Q值，其迭代过程可表示为：

Q(s_t,a_t)＝Q(s_t,a_t)+α(r_t+γQ(s_t+1,a_t+1)-Q(s_t,a_t)) (10)；

(10)式中，α为学习率，用来控制学习的收敛情况；

(11)式采用如下动作选择策略：

(12)式中：a_t表示贪婪策略；P_s(a_t)表示贪婪策略a_t被选择的概率；

P_s(a)表示其它非贪婪策略a被选择的概率；β为贪婪因子，越接近1时贪婪策略被选择的概率越大；正数δ。

2.如权利要求1所述的风-光-储微电网能量调控优化方法，其特征在于，所述目标函数的表达式为：

min C＝C_g+C_bt (1)；

(1)式中，C为联合系统的总成本，C_g为联合系统跟踪偏差考核成本，C_bt为储能运行成本，其计算方法如下所示：

(2)式中，T为调度周期长度，P_t ^wt、P_t ^pv、P_t ^bt分别是风电、光伏以及储能在t时刻的控制功率，P_t ^plan为微电网系统在t时刻的日前出力计划值，而和分别是风光跟踪偏差单位考核成本以及储能充放电单位成本。

3.如权利要求1所述的风-光-储微电网能量调控优化方法，其特征在于，所述约束条件包括风电出力约束、光伏电站出力约束以及储能系统出力和容量约束。

4.如权利要求3所述的风-光-储微电网能量调控优化方法，其特征在于，所述风电出力约束的表达式为：

(3)式中：P_t ^wt,pre为t时刻风电的最大出力，为风电的日前功率预测值；

V_t ^wt为时段t内风电的出力调整速度；-V^wt,dmax为风电功率向下调整速度限值；

V^wt,upmax为风电功率向上调整速度限值，-V^wt,dmax和V^wt,upmax通过风电机组实际运行中统计得到的调整速度整定得到，将统计得到的向上和向下调整速度的最大值作为相应的限值。

5.如权利要求3所述的风-光-储微电网能量调控优化方法，其特征在于，所述光伏电站出力约束的表达式为：

(4)式中：P_t ^pv,pre为t时刻风电的最大出力，为风电的日前功率预测值；

P_t ^pv为时段t内光伏电站的出力调整速度；

-V^pv,dmax为光伏电站功率向下调整速度限值；

V^pv,upmax为光伏电站功率向上调整速度限值，-V^pv,dmax和V^pv,upmax通过光伏电站实际运行中统计得到的调整速度整定得到，将统计得到的向上和向下调整速度的最大值作为相应的限值。

6.如权利要求3所述的风-光-储微电网能量调控优化方法，其特征在于，所述储能系统出力和容量约束的出力约束条件表达式为：

(5)式中：P^bt,max为储能系统允许最大充放电功率，和分别为t时段储能系统处于充电或放电状态的0-1标志，储能系统无法同时处于充电和放电状态，如果储能充电的话，那么且反之，则相反。

7.如权利要求3所述的风-光-储微电网能量调控优化方法，其特征在于，所述储能系统出力和容量约束的容量约束表达式为：

E^min≤E_t≤E^max (6)；

(6)式中：E_t为t时段储能系统存储电量值，E^min、E^max分别为储能系统存储电量允许的最大值、最小值；

E_t＝(1-ρ)E_t-1-ΔE_t (7)；

(7)至(8)式中：ρ为储能电池的自持放电率，E_t-1为_t-1时段储能系统存储电量值；

ΔE_t为第t个时段的电量变化，正数表示放电，负数表示充电；

η_c为充电效率；

η_d为放电效率；

Δt为每个时段间隔时间；

(9)式中：为0点储能系统电量；

为24点储能系统电量。

8.如权利要求1所述的风-光-储微电网能量调控优化方法，其特征在于，所述SARSA算法强化学习过程包括：状态空间S的选取、动作空间A的选取，设置奖励函数R，通过状态空间S的选取、动作空间A的选取以及设置奖励函数R进行预学习和在线学习。

9.如权利要求8所述的风-光-储微电网能量调控优化方法，其特征在于，所述状态空间S的选取包括：选取储能系统存储电量值、风电以及光伏的预测出力作为状态空间，可表示如下：

(13)式中，S_Et代表储能系统存储电量值，S_wt和S_pv代表风电以及光伏的预测出力。

10.如权利要求8所述的风-光-储微电网能量调控优化方法，其特征在于，所述动作空间A的选取包括：选取风电、光伏的出力增量及储能充放电功率作为动作空间集合，其如下所示：

A＝{A_bt,A_wt,A_pv} (14)；

(14)式中，A_wt和A_pv代表风电和光伏的出力增量集合，A_bt代表储能系统充放电功率集合。

11.如权利要求8所述的风-光-储微电网能量调控优化方法，其特征在于，设置奖励函数R包括：设置目标函数的负值作为奖励函数，得到即时奖励r_t的计算公式如下所示：

(15)式中，r_t表示智能体在状态s_t下选择动作a_t以后，可以得到r_t的即时奖励，表示t时刻的联合系统跟踪偏差考核成本，表示t时刻的储能运行成本，a_t表示贪婪策略，s_t表示未来时刻t状态。

12.如权利要求8所述的风-光-储微电网能量调控优化方法，其特征在于，预学习和在线学习包括：

SARSA算法以动作：Q值表为依据选取最优动作策略；

协调控制包括：

步骤1，初始化Q值表；

步骤3，下一时段到来后，通过联合系统调度模型计算r_t并确定s_t+1；

步骤4，判断时间t是否完成一个周期，如果一个调度周期没有结束，则令t＝t+1，转至步骤2，如果一个调度周期结束，则根据SARSA算法的迭代公式对Q值表进行更新；

其中r_t表示智能体在状态s_t下选择动作a_t以后，可以得到r_t的即时奖励，a_t表示贪婪策略，s_t表示未来时刻t状态，s_t+1表示未来时刻t+1的状态。

13.如权利要求12所述的风-光-储微电网能量调控优化方法，其特征在于，步骤1中，预学习初始化阶段Q值表中各元素初值均取为0，在线学习中将其初始化为预学习保留的Q值表，并设置迭代次数K。

14.风-光-储微电网能量调控优化设备，其特征在于，包括：

第二设置模块，用于设置风光储微电网系统的约束条件；

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至13中任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述的方法的步骤。