CN113807564B

CN113807564B - 基于两阶段强化学习的园区微网负荷优化调度方法及系统

Info

Publication number: CN113807564B
Application number: CN202110860153.3A
Authority: CN
Inventors: 周开乐; 周昆树; 张增辉; 陆信辉; 殷辉
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-08-04
Anticipated expiration: 2041-07-28
Also published as: CN113807564A

Abstract

本发明提供一种基于两阶段强化学习的园区微网负荷优化调度方法及系统，涉及微网负荷优化调度技术领域。本发明获取园区各微网的相关参数，然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；最后基于最优价格，利用深度强化学习Actor‑Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与，并使用两阶段强化学习作为最优价格获取和微网优化调度的算法，能够在获取不完全用户信息和环境信息，以及不依赖设备的具体运行模型、参数的情况下，更加准确、及时、高效的提供园区微网运行最优策略，同时可保护微网用户的隐私和提高微网的经济性。

Description

基于两阶段强化学习的园区微网负荷优化调度方法及系统

技术领域

本发明涉及微网负荷优化调度技术领域，具体涉及一种基于两阶段强化学习的园区微网负荷优化调度方法及系统。

背景技术

为了适应能源体系转型的发展战略，园区能源微网已成为区域用能的重要角色，随着园区微网系统的发展，在同一配电园区内往往存在多个园区微网能源系统。电力市场改革的不断深化为园区微网的并网运行又提供了新的机遇。随着电力市场的开放，园区微网将可以以独立的身份参与到区域电力调度中，通过与配电公司的双向互动，提高电力负荷的分配效率。如果能进一步对这些园区微网负荷进行优化调度，可以大大节约能源消耗和生产成本，意义重大。

现有技术虽然提出了一些针对园区微网进行负荷优化调度的技术，但是存在以下问题：一方面，传统园区微网负荷优化调度模型均高度依赖于对微网内部组件运行的模型构建、数据获取、用户行为特征等较为私密的信息，且由于隐私保护、传感器安装不到位等原因，导致无法完全获取各微网的组件构成以及运行模型、参数等信息，使得利用传统优化算法建模和优化均存在极大困难；另一方面，基于模型的优化算法在面临微网运行场景发生改变的情况时，需要重新对微网进行建模，并重新计算，极大降低了优化调度的效率。

由此可知，现有技术无法在用户信息和环境信息获取不完全，或者用户信息和环境信息发生改变时，精准、高效的对园区微网进行负荷优化调度。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于两阶段强化学习的园区微网负荷优化调度方法及系统，解决了现有技术在用户信息和环境信息获取不完全或者发生改变时无法对园区微网进行精准、高效负荷优化调度的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明首先提供了一种基于两阶段强化学习的园区微网负荷优化调度方法，所述方法包括：

获取园区各微网的相关参数；所述相关参数包括环境参数、负荷需求数据，以及电力批发市场中的电价数据；

负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；

基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。

优选的，所述方法还包括：在获取园区各微网的相关参数后，对所述相关参数进行预处理；所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。

优选的，所述负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括：

S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型；所述第一阶段马尔可夫决策模型用四元组表示；其中：

C表示第一阶段的状态空间；c_t∈C表示负荷代理在t时段与环境交互后所处的状态；C_t＝[I_t，ρ_t，L_t，n，T_t，H_t]，其中，I_t表示园区t时刻的光照强度；ρ_t表示电力批发市场t时刻的电价；L_t，n表示第n个微网在t时刻的负荷需求；T_t表示t时刻的环境温度；H_t表示t时刻的环境湿度；

M表示第一阶段强化学习过程中动作空间；m_t∈M表示负荷代理在t时刻向微网传递出的价格信号；m_t＝[λ_t，1，λ_t，2，...，λ_t，n，...，λ_t，N]；其中，λ_t，n表示t时刻负荷代理向第n个微网传递的最优价格信号；

V表示第一阶段的奖励函数；其中，v_t∈V(c_t，m_t)；

其中，v_t表示负荷代理在状态c_t时执行动作m_t所获得的即时回报；V(c_t，m_t)表示累计折扣回报函数；ρ_m，t表示负荷代理从电力批发市场购电的价格；P_m，t表示负荷代理与电力批发市场的电量交互；表示负荷代理与各微网之间的负荷交互；γ₁表示折扣因子；

表示第一阶段的策略集合，即状态空间C到动作空间M的映射；

S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格。

优选的，所述基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括：

S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型；所述第二阶段的马尔可夫决策模型用四元组(S，A，R，π)表示，其中：

S表示第二阶段的状态空间，s_t∈S表示微网在t时段与环境交互后所处的状态；S_t＝[RE_t，λ_t，D_t，SOC_t]；其中，RE_t表示t时刻微网中可再生能源发电量；λ_t表示上层负荷代理决策层传递过来的最优价格；D_t表示t时刻微网的负荷需求；SOC_t表示t时刻锂电池的SOC，即荷电状态；

A表示第二阶段的动作空间，a_t∈A表示微网在t时刻可执行的动作；a_t＝[P_t ^ess，P_t ^agent]，其中，P_t ^ess表示电池在t时刻的充放电功率，正值表示放电、负值表示充电；P_t ^agent表示微网与上层负荷代理的功率交换，正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电；

R表示第二阶段的奖励函数，其中，r_t∈R(s_t，a_t)，r_t表示微网在状态s_t时执行动作a_t所获得的即时回报；微网的累计奖励函数为：

R(s_t，a_t)＝E_1，t+E_2，t+E_3，t

E_2，t＝c_penalty·|P_s，t-D_t|

E_3，t＝c_b|SOC_t-ε|²

P_s，t＝RE_t+P_t ^ess+P_t ^agent

其中，E_1，t表示微网的运行成本；E_2，t表示微网系统运行过程中能量供需不匹配时的系统惩罚；E_3，t表示电池过充/放电是的惩罚；表示微网与负荷代理进行功率交换的成本；/>表示电池充放电折损成本，E_cs表示电池单位功率充放电成本；c_penalty表示微网功率不平衡时的单位惩罚；P_s，t表示微网t时刻的电力总供给；

π表示第二阶段的策略集合，即状态空间S到动作空间A的映射；

S32、利用深度强化学习Actor-Critic算法对第二阶段马尔可夫决策模型进行求解，并对园区各微网进行优化调度。

第二方面，本发明还提出了一种基于两阶段强化学习的园区微网负荷优化调度系统，所述系统包括：

相关参数获取模块，用于获取园区各微网的相关参数；所述相关参数包括环境参数、负荷需求数据，以及电力批发市场中的电价数据；

负荷代理优化决策模块，用于负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；

园区微网优化调度模块，用于基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。

优选的，所述系统还包括：数据预处理模块，用于在获取园区各微网的相关参数后，对所述相关参数进行预处理；所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。

优选的，所述负荷代理优化决策模块中负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括：

M表示第一阶段强化学习过程中动作空间；m_t∈M表示负荷代理在t时刻向微网传递出的价格信号；mt＝[λ_t，1，λ_t，2，...，λ_t，n，...，λ_t，N]；其中，λ_t，n表示t时刻负荷代理向第n个微网传递的最优价格信号；

V表示第一阶段的奖励函数；其中，v_t∈V(c_t，m_t)；

优选的，所述园区微网优化调度模块中基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括：

R(s_t，a_t)＝E_1，t+E_2，t+E_3，t

E₂，t＝cpenalty·|P_s，t-D_t|

E_3，t＝c_b|SOC_t-ε|²

P_s，t＝RE_t+P_t ^ess+P_t ^agent

(三)有益效果

本发明提供了一种基于两阶段强化学习的园区微网负荷优化调度方法及系统。与现有技术相比，具备以下有益效果：

1、本发明获取园区各微网的相关参数，然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；最后基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与，并使用两阶段强化学习作为最优价格获取和微网优化调度的算法，能够在获取不完全用户信息和环境信息，以及不依赖设备的具体运行模型、参数的情况下，提高优化运行策略的可扩展性，同时在保护微网用户隐私的前提下，更加准确、及时、高效的提供园区微网运行最优策略，节约了能源消耗，节省了生产成本。

2、本发明由负荷代理基于相关参数利用强化学习参与微网的电力价格选择，而强化学习是一种无模型的自适应最优控制算法，因而当园区中新增或退出微网用户时，无需重新建立模型，负荷代理只需要获取微网用户的总负荷需求数据，在保护用户隐私的同时，就可以为各微网用户传递最优价格；

3、本发明在第一阶段基于随机策略梯度的强化学习算法进行价格寻优，可以在获取不完全用户信息的情况下为园区内各微网传递不同的最优价格信号；在第二阶段使用的深度强化学习Actor-Critic算法对微网进行优化调度，对于微网中源荷功率的随机波动性有较好的自学习能力，能够针对不同场景生成合理的优化调度策略，并且当场景发生变化时，不需要重新训练模型，能够及时给出优化策略，具有强大的自适应、自学习能力，最大程度提高了策略的可扩展性、环境适应性和优化调度的高效性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于两阶段强化学习的园区微网负荷优化调度方法的流程图；

图2为本发明实施例中基于两阶段强化学习的园区微网负荷优化调度系统框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于两阶段强化学习的园区微网负荷优化调度方法及系统，解决了现有技术在用户信息和环境信息获取不完全或者发生改变时无法对园区微网进行精准、高效负荷优化调度的问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

为了在获取不完全用户信息和环境信息，以及不依赖设备的具体运行模型、参数的情况下，依然可以高效、精准的对园区微网进行负荷优化调度，本发明首先获取园区各微网的相关参数，然后负荷代理基于相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；最后基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明由负荷代理参与，并使用两阶段强化学习算法进行园区微网负荷优化调度，可以在获取不完全用户信息和环境信息，以及不依赖设备的具体运行模型、参数的情况下，提高优化运行策略的可扩展性，同时在保护微网用户隐私的前提下，更加准确、及时、高效的提供园区微网运行最优策略，节约了能源消耗，节省了生产成本。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

第一方面，本发明首先提出了一种基于两阶段强化学习的园区微网负荷优化调度方法，参见图1，该方法包括：

S1、获取园区各微网的相关参数；所述相关参数包括环境参数、负荷需求数据，以及电力批发市场中的电价数据；

S2、负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；

S3、基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。

可见，本实施例获取园区各微网的相关参数，然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格；最后基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与，并使用两阶段强化学习作为最优价格获取和微网优化调度的算法，能够在获取不完全用户信息和环境信息，以及不依赖设备的具体运行模型、参数的情况下，提高优化运行策略的可扩展性，同时在保护微网用户隐私的前提下，更加准确、及时、高效的提供园区微网运行最优策略，节约了能源消耗，节省了生产成本。

下面结合对S1-S3具体步骤的解释，来详细说明本发明一个实施例的实现过程。

S1、获取园区各微网的相关参数；所述相关参数包括环境参数、负荷需求数据，以及电力批发市场中的电价数据。

通过传感器、智能电表等收集园区的光照强度、温度、湿度、各微网负荷需求，以及电力批发市场中电价数据这些与园区各微网相关的参数。为了使后续处理结果更加精准，在获取园区各微网的相关参数后，对这些相关参数进行预处理。具体的，相关参数的预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化五个步骤。

S2、负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格。

负荷代理采用无模型的强化学习算法，结合各微网的相关参数确定园区内各微网的最优价格。负荷代理可理解为园区内各微网的“代表人”代表人，是一个智能体，它是非盈利性质的，不以自身利润最大化为目标，而是以负荷代理以及园区内所有微网的整体利益最大化为目标。强化学习算法的任务是在不获取各微网内部详细运行细节(即获取各微网相关参数不完全)的情况下，将各微网建模为对电价敏感的可控负荷，通过智能体与环境的不断交互发掘电价与各微网和负荷代理之间电力交互的复杂关系。

实际操作时，将负荷代理优化决策过程建模成马尔可夫决策过程(模型)，并将该过程定义为第一阶段的强化学习过程。具体的，

第一阶段的马尔可夫决策模型由一个四元组表示，其中各元素含义以及与相关参数的对应关系如下：

C表示第一阶段强化学习过程中的状态空间。c_t∈C表示负荷代理在t时段与环境交互后所处的状态。在本层决策方案中，状态空间包含园区光照强度、温度、湿度数据，各微网负荷需求数据，以及电力批发市场中的电价数据。具体表现形式为：C_t＝[I_t，ρ_t，L_t，n，T_t，H_t]，式中I_t表示园区t时刻的光照强度，ρ_t表示电力批发市场t时刻的电价，L_t，n表示第n个微网在t时刻的负荷需求，T_t表示t时刻的环境温度，H_t表示t时刻的环境湿度。

M表示第一阶段强化学习过程中动作空间。m_t∈M表示负荷代理在t时刻向微网传递出的价格信号。具体表现形式为，m_t＝[λ_t，1，λ_t，2，...，λ_t，n，...，λ_t，N]式中，λ_t，n表示t时刻负荷代理向第n个微网传递的最优价格信号。

V表示第一阶段强化学习过程中奖励函数。由v_t∈V(c_t，m_t)表示，其中v_t表示负荷代理在状态c_t时执行动作m_t所获得的即时回报。在本实施例中，负荷代理的奖励函数形式为：

其中，ρ_m，t表示负荷代理从电力批发市场购电的价格；P_m，t表示负荷代理与电力批发市场的电量交互；表示负荷代理与各微网之间的负荷交互。在求解算法时需要考虑负荷代理在与环境不断交互过程中的回报，需要将即时回报函数转化为累计折扣回报函数，具体形式为：

其中，γ₁表示折扣因子。

表示第一阶段强化学习过程中的策略集合，其含义为负荷代理的状态空间C到动作空间M的映射。

本实施例中负荷代理不以盈利为目的，而是以所有微网的共同利益最大化为目标，负荷代理的任务在于向园区中各微网传递最优价格信号，具体到强化学习算法中，其任务就是求解最优策略本实施例中采用无模型、基于策略的随机策略梯度方法来求解最优策略。

在利用随机策略梯度方法求解最优策略时，首先需要将策略进行参数化，利用神经网络来表示策略，然后利用Adam优化器训练策略网络，最后找到最优的参数，也就找到了最优的策略，可以说策略搜索的过程，就是利用梯度不断寻找参数的过程。具体过程如下：

首先，需要将策略表示成为状态的函数，即π＝f(c；θ₁)，其中，c表示状态，θ₁表示参数。当给定c时，动作m服从高斯分布，即

其中，θ₁和θ₂为参数。

梯度就是目标函数对参数的偏导数，因此求解梯度首先要将目标函数表示出来，因此累计折扣回报的期望函数为：

进而利用如下公式对参数θ求梯度：

其中，P(τ，θ)表示在参数θ的策略下系统状态和动作的轨迹τ发生的概率，该轨迹的概率为：

P(τ，θ)＝P(m₀|c₀；θ)·P(c₁|c₀；m₀)·P(c₂|c₁；m₁)...

因此，最终随机策略梯度的计算公式可表示为：

通过对该公式的求解，获取参数θ的值，进而得到最优策略，最优策略即为适合各微网的最优价格。

由于园区内各个微网内部的设备参数存在差异，如果采用传统优化调度算法则存在容易陷入局部最优、可扩展性较差、泛化能力较差等缺点。因而，本实施例中采用深度强化学习Actor-Critic算法进行求解。深度强化学习在解决微网优化调度问题时，其关注的是微网中能源生产装置、转换装置和储能装置在每个决策阶段的启停和充放电动作的选择。

在求解时，首先，同样需要将优化调度问题转化为马尔可夫决策模型，定义第二阶段强化学习过程中马尔可夫决策模型中四元组(S，A，R，π)所对应本层的内容如下：

S表示第二阶段强化学习过程中状态空间，s_t∈S表示微网在t时段与环境交互后所处的状态。在本层决策方案中，状态空间包含微网中可再生能源发电量、负荷需求、负荷代理所传递的最优价格信号以及储能电池的荷电状态。具体表现形式为：

S＝[RE_t，λ_t，D_t，SOC_t]

其中，RE_t表示t时刻微网中可再生能源发电量；λ_t表示上层负荷代理决策层传递过来的最优价格；D_t表示t时刻微网的负荷需求；SOC_t表示t时刻锂电池的SOC，即荷电状态。

A表示第二阶段强化学习过程中动作空间，a_t∈A表示微网在t时刻可执行的动作。具体到本实施例中微网在优化调度过程中的动作选择结合包含储能设备的充放电功率以及与微网与上层负荷代理的功率交换，具体表现形式为a_t＝[P_t ^ess，P_t ^agent]，其中，P_t ^ess表示电池在t时刻的充放电功率，正值表示放电、负值表示充电；P_t ^agent表示微网与上层负荷代理的功率交换，正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电。

R表示第二阶段强化学习过程中奖励函数，由r_t∈R(s_t，a_t)表示，其中r_t表示微网在状态s_t时执行动作a_t所获得的即时回报。对应于本实施例，微网的奖励函数包含三个部分，第一部分是微网运行成本，具体形式为：

其中，求和公式第一项表示微网与负荷代理进行功率交换的成本，求和第二项/>表示电池充放电折损成本，E_cs表示电池单位功率充放电成本。

奖励函数第二部分是微网系统运行过程中能量供需不匹配时的系统惩罚，具体表现形式为：

E_2，t＝c_penalty·|P_s，t-D_t|

P_s，t＝RE_t+P_t ^ess+P_t ^agent

其中，c_penalty表示微网功率不平衡时的单位惩罚；P_s，t表示微网t时刻的电力总供给。

第三部分是电池过充/放电是的惩罚：

E_3，t＝c_b|SOC_t-ε|²

其中，c_b表示电池过充/放电时的单位惩罚；ε表示电池的合理运行容量范围。

则累计奖励函数最终形式为：

R(s_t，a_t)＝E_1，t+E_2，t+E_3，t

π表示第二阶段的策略集合，即状态空间S到动作空间A的映射。

Actor-Critic算法属于深度强化学习中无模型、基于策略的算法，在求解时需要用参数表示策略，在每一个决策时刻，Actor根据观察到的微网运行状态以及最优价格信号组成的状态空间s_t，通过策略网络生成动作a_t，微网根据此时执行的动作进行状态转移，使微网达到下一时刻的状态s_t+1，并产生t时刻的奖励函数r_t，记录数据元组(s_t，a_t，r_t，s_t+1)，并存入经验池中。然后Actor的动作策略采样与系统状态同时输入至Critic中，并输出动作-价值函数Q(s_t，a_t)以进行策略优劣的评估。将此过程反复循环进行，Actor和Critic通过Adam优化器训练神经网络，从而实现模型自适应学习。随着训练过程的进行，调度周期内系统的累计奖励函数会逐步增加，最终收敛，求得策略参数，进而获得最优动作策略，最优策略即表示各微网根据其获取的最优价格所最终确定的各微网中设备的出力策略。各微网中设备的出力策略包括储能设备的充放电功率以及与微网与上层负荷代理的功率交换，最终，园区内各微网基于其对应的这些数据执行操作，从而达到园区微网负荷优化调度的目的。

至此，则完成了本发明一种基于两阶段强化学习的园区微网负荷优化调度方法的全部过程。

实施例2：

第二方面，本发明还提供了一种基于两阶段强化学习的园区微网负荷优化调度系统，参见图2，该系统包括：

可选的，所述系统还包括：数据预处理模块，用于在获取园区各微网的相关参数后，对所述相关参数进行预处理；所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。

可选的，所述负荷代理优化决策模块中负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括：

V表示第一阶段的奖励函数；其中，v_t∈V(c_t，m_t)；

可选的，所述园区微网优化调度模块中基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括：

R(s_t，a_t)＝E_1，t+E_2，t+E_3，t

E_2，t＝c_penalty·|P_s，t-D_t|

E_3，t＝c_b|SOC_t-ε|²

P_s，t＝RE_t+P_t ^ess+P_t ^agent

可理解的是，本发明实施例提供的基于两阶段强化学习的园区微网负荷优化调度系统与上述基于两阶段强化学习的园区微网负荷优化调度方法相对应，其有关内容的解释、举例、有益效果等部分可以参照基于两阶段强化学习的园区微网负荷优化调度方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于两阶段强化学习的园区微网负荷优化调度方法，其特征在于，所述方法包括：

基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度；

所述负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括：

C表示第一阶段的状态空间；c_t∈C表示负荷代理在t时段与环境交互后所处的状态；C_t＝[I_t,ρ_t,L_t,n,T_t,H_t]，其中，I_t表示园区t时刻的光照强度；ρ_t表示电力批发市场t时刻的电价；L_t,n表示第n个微网在t时刻的负荷需求；T_t表示t时刻的环境温度；H_t表示t时刻的环境湿度；

M表示第一阶段强化学习过程中动作空间；m_t∈M表示负荷代理在t时刻向微网传递出的价格信号；m_t＝[λ_t,1,λ_t,2,...,λ_t,n,...,λ_t,N]；其中，λ_t,n表示t时刻负荷代理向第n个微网传递的最优价格信号；

V表示第一阶段的奖励函数；其中，v_t∈V(c_t,m_t)；

其中，v_t表示负荷代理在状态c_t时执行动作m_t所获得的即时回报；V(c_t,m_t)表示累计折扣回报函数；ρ_m,t表示负荷代理从电力批发市场购电的价格；P_m,t表示负荷代理与电力批发市场的电量交互；表示负荷代理与各微网之间的负荷交互；γ₁表示折扣因子；

S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格；

所述基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括：

S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型；所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示，其中：

S表示第二阶段的状态空间，s_t∈S表示微网在t时段与环境交互后所处的状态；S_t＝[RE_t,λ_t,D_t,SOC_t]；其中，RE_t表示t时刻微网中可再生能源发电量；λ_t表示上层负荷代理决策层传递过来的最优价格；D_t表示t时刻微网的负荷需求；SOC_t表示t时刻锂电池的SOC，即荷电状态；

A表示第二阶段的动作空间，a_t∈A表示微网在t时刻可执行的动作；a_t＝[P_t ^ess,P_t ^agent]，其中，P_t ^ess表示电池在t时刻的充放电功率，正值表示放电、负值表示充电；P_t ^agent表示微网与上层负荷代理的功率交换，正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电；

R表示第二阶段的奖励函数，其中，r_t∈R(s_t,a_t)，r_t表示微网在状态s_t时执行动作a_t所获得的即时回报；微网的累计奖励函数为：

R(s_t,a_t)＝E_1,t+E_2,t+E_3,t

E_3,t＝c_b|SOC_t-ε|²

P_s,t＝RE_t+P_t ^ess+P_t ^agent

其中，E_1,t表示微网的运行成本；E_2,t表示微网系统运行过程中能量供需不匹配时的系统惩罚；E_3,t表示电池过充/放电是的惩罚；表示微网与负荷代理进行功率交换的成本；/>表示电池充放电折损成本，E_cs表示电池单位功率充放电成本；c_penalty表示微网功率不平衡时的单位惩罚；P_s,t表示微网t时刻的电力总供给；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：在获取园区各微网的相关参数后，对所述相关参数进行预处理；所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。

3.一种基于两阶段强化学习的园区微网负荷优化调度系统，其特征在于，所述系统包括：

园区微网优化调度模块，用于基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度；

所述负荷代理优化决策模块中负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括：

V表示第一阶段的奖励函数；其中，v_t∈V(c_t,m_t)；

所述园区微网优化调度模块中基于最优价格，利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括：

R(s_t,a_t)＝E_1,t+E_2,t+E_3,t

E_3,t＝c_b|SOC_t-ε|²

P_s,t＝RE_t+P_t ^ess+P_t ^agent

4.如权利要求3所述的系统，其特征在于，所述系统还包括：数据预处理模块，用于在获取园区各微网的相关参数后，对所述相关参数进行预处理；所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。