CN114202229B

CN114202229B - 基于深度强化学习的微电网的能量管理策略的确定方法

Info

Publication number: CN114202229B
Application number: CN202111560458.9A
Authority: CN
Inventors: 李鹏; 俞靖一; 马溪原; 张子昊; 黄彦璐; 闫东翔; 姚森敬; 张凡; 陈元峰; 程凯; 李卓环; 周悦
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-06-30
Anticipated expiration: 2041-12-20
Also published as: CN114202229A

Abstract

本申请涉及一种基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取训练样本集，其中，所述训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，所述状态描述信息包括所述微电网在所述历史时间段的运行状态，所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态；基于所述训练样本，训练预设模型，得到目标模型；基于所述微电网在当前时间段的状态描述信息和所述目标模型，得到所述微电网在当前时间段的特性描述信息；根据所述特性描述信息，确定所述微电网的能量管理策略。采用本方法能够适应真实场景的需求。

Description

基于深度强化学习的微电网的能量管理策略的确定方法

技术领域

本申请涉及微电网能量管理技术领域，特别是涉及一种基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

微电网包括分布式发电机、负荷、储能装置及保护装置等组成部分，并与大电网在公共连接点连接。微电网的能量管理策略是以微电网的优化运行为目标，制定合理的能量管理策略，实现微电网在稳定可靠运行的基础上的运行效益最大化。

传统的基于优化方法制定能量管理策略时，需要假定已知微电网在未来时间段内的可再生能源发电和负荷，然而真实场景中可再生能源和负荷具有强烈的不确定性，因此，采用传统方法得到的能量管理策略无法适应真实场景的需求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够适应真实场景的需求的基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于深度强化学习的微电网的能量管理策略的确定方法。所述方法包括：

获取训练样本集，其中，该训练样本集中的各训练样本包括该微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，该状态描述信息包括该微电网在该历史时间段的运行状态，该特性描述信息包括该微电网在该历史时间段的功率和运行状态；

基于该训练样本，训练预设模型，得到目标模型；

基于该微电网在当前时间段的状态描述信息和该目标模型，得到该微电网在当前时间段的特性描述信息；

根据该特性描述信息，确定该微电网的能量管理策略。

在其中一个实施例中，所述方法还包括：

建立该微电网的电网约束条件，该电网约束条件包括该微电网的功率平衡的约束条件、该微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、该微电网中储能电池的充放电状态的约束条件、该储能电池的充放电功率的约束条件、该储能电池的荷电状态的约束条件以及该微电网与大电网之间的功率交换的约束条件；

获取该储能电池的充放电特性曲线，该充放电特性曲线是用于表征该储能电池的内阻随荷电状态的变化而变化的关系曲线；

根据该充放电特性曲线，构建该训练样本集。

在其中一个实施例中，根据该充放电特性曲线，构建该训练样本集，包括：

根据该充放电特性曲线，确定最小内阻对应的荷电状态；

基于该最小内阻对应的荷电状态，构建该训练样本集。

在其中一个实施例中，基于该最小内阻对应的荷电状态，构建该训练样本集包括：

基于该最小内阻对应的荷电状态，确定该微电网在各该历史时间段内的运行成本；

对于各该历史时间段，将该历史时间段内的运行成本、状态描述信息以及特性描述信息作为该训练样本集中的一个样本。

在其中一个实施例中，该特性描述信息包括的运行状态为该微电网的可控发电机组的运行状态，该特性描述信息包括的功率为该可控发电机组的功率，该特性描述信息还包括该微电网中储能电池的充电功率和放电功率以及该微电网与大电网的交换功率。

在其中一个实施例中，该状态描述信息中的运行状态包括该微电网的可控发电机组在该历史时间段的上一时间段的运行状态和功率、该微电网中风机机组在该历史时间段的发电功率、该微电网中光伏机组在该历史时间段的发电功率、该微电网在该历史时间段的负荷、该微电网中储能电池在该上一时间段的荷电状态以及电网的电价。

第二方面，本申请还提供了一种基于深度强化学习的微电网的能量管理策略的确定装置。所述装置包括：

第一获取模块，用于获取训练样本集，其中，该训练样本集中的各训练样本包括该微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，该状态描述信息包括该微电网在该历史时间段的运行状态，该特性描述信息包括该微电网在该历史时间段的功率和运行状态；

训练模块，用于基于该训练样本，训练预设模型，得到目标模型；

第一确定模块，用于基于该微电网在当前时间段的状态描述信息和该目标模型，得到该微电网在当前时间段的特性描述信息；

第二确定模块，用于根据该特性描述信息，确定该微电网的能量管理策略。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方法的步骤。

上述种基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、存储介质和计算机程序产品，通过获取训练样本集，其中，该训练样本集中的各训练样本包括该微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，该状态描述信息包括该微电网在该历史时间段的运行状态，该特性描述信息包括该微电网在该历史时间段的功率和运行状态。并基于该训练样本，训练预设模型，得到目标模型，进而基于该微电网在当前时间段的状态描述信息和该目标模型，得到该微电网在当前时间段的特性描述信息，从而根据该特性描述信息，确定该微电网的能量管理策略。传统的基于优化方法的能量管理策略中，需要假定已知未来时间段内的可再生能源发电和负荷，而本实施例由于通过获取训练样本集，并根据训练样本得到目标模型，最终基于该微电网在当前时间段的状态描述信息和该目标模型，无需假定已知未来时间段内的可再生能源发电和负荷，就可以得到该微电网在当前时间段的特性描述信息，从而根据该特性描述信息，确定该微电网的能量管理策略。因此，本实施例的方法解决了传统方法中得到的能量管理策略无法适应真实场景的需求的问题，从而本实施例确定的能量管理策略能够适应真实场景的需求。

附图说明

图1为本申请实施例中提供的基于深度强化学习的微电网的能量管理策略的确定方法的流程示意图；

图2为本申请实施例中提供的一种构建训练样本集的流程示意图；

图3为本实施例提供的充放电特性曲线；

图4为本申请实施例中提供的一种确定训练样本集的流程示意图；

图5为本申请实施例中提供的一种得到训练样本集的流程示意图；

图6为本申请实施例中提供的一种基于深度强化学习的微电网的能量管理策略的确定装置的结构示意图；

图7为本申请实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本实施例中，提供了一种基于深度强化学习的微电网的能量管理策略的确定方法，本实施例以该方法应用于计算机设备进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括计算机设备和服务器的系统，并通过计算机设备和服务器的交互实现。

图1为本申请实施例中提供的基于深度强化学习的微电网的能量管理策略的确定方法的流程示意图，该方法应用于计算机设备或服务器中，在一个实施例中，如图1所示，包括以下步骤：

S101，获取训练样本集，其中，训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，状态描述信息包括微电网在历史时间段的运行状态，特性描述信息包括微电网在历史时间段的功率和运行状态。

在本实施例中，获取训练样本集，训练样本集包括微电网在多个历史时间段内的运行成本r_t、状态描述信息s_t和s_t+1、特性描述信息a_t。其中，t取值大于零小于T的整数，例如T为24小时，则t取值1～24，表示一天内的第t个时间段，则历史时间段表示过去若干天中各个时间段。更具体地，本实施例将多个历史时间段内的r_t、s_t、s_t+1、rt以及a_t，作为一组样本存储到训练样本集。

S102，基于训练样本，训练预设模型，得到目标模型。

在本实施例中，当训练样本集中储存的样本组数量满足训练要求时，则从训练样本集中随机采样N个样本组作为训练样本。其中，满足训练要求的样本组数量是预设的数量，本实施例不做限制。

本实施例采用了基于深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)的强化学习方法训练预设模型。其中，预设模型包括1个Actor网络和1个Critic网络，Actor和Critic网络均包含了1个Eval网络和1个Target网络，即Actor-Eval网络、Actor-Target、Critic-Eval网络以及Critic-Target网络。

更具体地，Critic-Eval网络通过如下式(1)的最小化损失函数进行训练，更新Critic-Eval网络的参数。

其中，θ^Q是Critic-Eval网络的参数，

表示第n次迭代时Critic-Eval网络的参数。N为训练样本数量，i是大于等于1小于等于N的整数，样本i就是第N个训练样本。y_i为Critic-Target网络的动作值，可以通过如下式(2)确定。Q表示向Critic-Eval网络输入样本i对应的s_i和a_i后输出的最优调度动作的质量。可以由如下式(3)得到。

y_i＝r_i+γQ′(s_i+1,u′(s_i+1|θ^u′)|θ^Q′) (2)

其中，π表示策略，它是从状态到动作的映射，E_π是平均值。K是优化视界，是大于等于1小于等于24的整数。γ表示折扣因子，在0～1之间取值，γ越大，折扣越小。Q′表示向Critic-Target网络输入样本i对应的s_i和a_i后输出的最优调度动作的质量，u′表示s_i+1对应的特性描述信息。θ^Q′是Critic-Target网络的参数。

通过如下式(4)，可以进一步求解式(1)，更新Critic-Eval网络的参数。

其中，

表示第n+1次迭代时Critic-Eval网络的参数，/>

为学习率。

Actor-Eval网络的参数θ^u通过如下式(5)的策略梯度进行更新。

Critic-Target网络的参数θ^Q′按照如下式(6)更新。

θ^Q′＝τθ^Q+(1-τ)θ^Q′ (6)

Actor-Target网络的参数θ^u′按照如下式(7)更新。

θ^u′＝τθ^u+(1-τ)θ^u′ (7)

其中，τ在0～1之间取值。

在本实施例中，直到式(1)和式(5)均表现为收敛，则表示训练结束，将此时的各网络参数θ^Q、θ^u、θ^Q′和θ^u′作为最终目标模型的网络参数，得到目标模型。

S103，基于微电网在当前时间段的状态描述信息和目标模型，得到微电网在当前时间段的特性描述信息。

在本实施例中，基于根据训练样本得到的目标模型，将当前时间段的状态描述信息s_t输入目标模型，就会得到微电网在当前时间段的特性描述信息a_t。

S104，根据特性描述信息，确定微电网的能量管理策略。

在本实施例中，根据微电网在当前时间段的特性描述信息，就可以得到相应的微电网能量管理策略，实现微电网的实时能量管理。更具体地，本实施例可以输入当前时刻的可再生能源发电功率例如风机发电功率、上一时刻的可控发电机组的发电功率、储能电池的荷电状态、微电网的负荷以及电网购售电价，得到当前时刻的可控发电机组上午的出力、储能电池的充电功率、放电功率、以及微电网与大电网的交换功率。

本实施例通过通过获取训练样本集，其中，训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，状态描述信息包括微电网在历史时间段的运行状态，特性描述信息包括微电网在历史时间段的功率和运行状态。并基于训练样本，训练预设模型，得到目标模型，进而基于微电网在当前时间段的状态描述信息和目标模型，得到微电网在当前时间段的特性描述信息，从而根据特性描述信息，确定微电网的能量管理策略。传统的基于优化方法的能量管理策略中，需要假定已知未来时间段内的可再生能源发电和负荷，而本实施例由于通过获取训练样本集，并根据训练样本得到目标模型，最终基于该微电网在当前时间段的状态描述信息和该目标模型，无需假定已知未来时间段内的可再生能源发电和负荷，就可以得到该微电网在当前时间段的特性描述信息，从而根据该特性描述信息，确定该微电网的能量管理策略。因此，本实施例的方法解决了传统方法中得到的能量管理策略无法适应真实场景的需求的问题，从而本实施例确定的能量管理策略能够适应真实场景的需求。

图2为本申请实施例中提供的一种构建训练样本集的流程示意图，参照图2，本实施例涉及的是如何根据充放电特性曲线构建训练样本集的一种的实现方式。在上述实施例的基础上，上述的基于深度强化学习的微电网的能量管理策略的确定方法还包括如下步骤：

S201，建立微电网的电网约束条件，电网约束条件包括微电网的功率平衡的约束条件、微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、微电网中储能电池的充放电状态的约束条件、储能电池的充放电功率的约束条件、储能电池的荷电状态的约束条件以及微电网与大电网之间的功率交换的约束条件。

在本实施例中，微电网包括包括分布式发电机、负荷、储能装置等元件组成，本实施例根据微电网的元件组成，建立微电网的电网约束条件如下。可以理解的是，微电网的元件组成可以根据微电网的实际架构变动，本实施例不做限制。

微电网的功率平衡的约束条件如式(8)所示。

其中，i为1～N之间的整数，N为可控发电机组的数量，共N个可控发电机组，i表示可控发电机组i。例如，当i＝1时表示可控发电机组1，具体地，可控发电机组可以是柴油机组，本实施例不做限制。其中，t取值大于零小于T的整数，例如T为24小时，则t取值1～24，表示一天内的第t个时间段，P_G，i，t表示可控发电机组i在第t个时间段内的出力，即可控发电机组i在第t个时间段内的功率。P_dis，t表示微电网中储能电池在第t个时间段内的放电功率，P_cha，t表示微电网中储能电池在第t个时间段内的充电功率。P_Grid，t表示微电网与大电网在第t个时间段内的交换功率，P_Grid，t＞0表示微电网从大电网买电，P_Grid，t≤0表示微电网向大电网卖电。P_load，t表示微电网在第t个时间段内的负荷。P_WT，t表示风机机组在第t个时间段内的发电功率。P_PV，t表示光伏机组在第t个时间段内的发电功率。

微电网的可控发电机组的出力约束条件如式(9)所示。

其中，

和/>

分别表示可控发电机组i的最小出力和最大出力，n_on，i，t可控发电机组i在第t个时间段内的运行状态，n_on，i，t等于1时表示可控发电机组i在第t个时间段内处于运行状态，n_on，i，t等于0时表示可控发电机组i在第t个时间段内处于非运行状态。式(9)表示对于任意一个可控发电机组i在运行时状态时，在同一个时间段t的出力总是小于等于最大出力且大于等于最小出力。

微电网的可控发电机组的爬坡约束条件如式(10)所示。

其中，P_i，RD和P_i，RU分别表示可控发电机组i的最大下调出力和最大上调出力。式(10)表示对于任意一个可控发电机组i，第t个时间段内的出力和第t-1个时间段内的出力差值总是大于等于最大下调出力且小于等于最小下调出力。

微电网的可控发电机组的状态约束条件如式(11)和式(12)所示。

其中，n_su，i，t可控发电机组i在第t个时间段内的启动状态，n_on，i，t等于1时表示可控发电机组i在第t个时间段内处于启动状态，n_on，i，t等于0时表示可控发电机组i在第t个时间段内处于非启动状态。n_sd，i，t可控发电机组i在第t个时间段内的停机状态，n_on，i，t等于1时表示可控发电机组i在第t个时间段内处于停机状态，n_on，i，t等于0时表示可控发电机组i在第t个时间段内处于非停机状态。式(11)表示同一个可控发电机组i在相邻两个时间段，要么都是运行状态，要么都是非运行状态，要么从运行状态变为非运行状态，要么从非运行状态变为运行状态。同理，同一个可控发电机组i在同一时间段内，要么是启动状态，要么停机状态，要么是非启动非停机状态。式(12)表示同一个时间段内可控发电机组i不能同时处于启动状态和停机状态。

微电网中储能电池的充放电状态的约束条件如式(13)所示。

其中，n_cha，t表示储能电池的充电状态，n_cha，t等于1时表示储能电池在第t个时间段内处于充电状态，n_cha，t等于0时储能电池在第t个时间段内处于非充电状态。n_dis，t表示储能电池的放电状态，n_dis，t等于1时表示储能电池在第t个时间段内处于放电状态，n_dis，t等于0时储能电池在第t个时间段内处于非放电状态。式(13)表示同一个时间段内储能电池不能同时处于充电状态和放电状态。

微电网中储能电池的充放电功率的约束条件如式(14)和式(15)所示。

其中，η_cha，t表示储能电池在第t个时间段内的充电效率，η_dis，t表示储能电池在第t个时间段内的放电效率。

表示储能电池的最大充电功率，/>

表示储能电池的最大放电功率。式(14)表示储能电池在同一个时间段的充电功率大于等于0且小于等于最大放电功率乘以该时间段内的充电效率；式(15)表示储能电池在同一个时间段的放电功率大于等于0且小于等于最大放电功率乘以该时间段内的放电效率。

微电网中储能电池的荷电状态的约束条件如式(16)和式(17)所示。

其中，soc_t表示储能电池在第t个时间段内的荷电状态；E_c表示储能电池的最大容量；soc_min表示储能电池的最小荷电状态，soc_max表示储能电池的最大荷电状态。式(16)表示储能电池在当前时间段内的荷电状态由上一个时间段的荷电状态、储能电池的充电功率、放电功率、充电效率、放电效率以及储能电池的最大容量决定；式(17)表示储能电池在任意一个时间段内的荷电状态大于等于储能电池的最小荷电状态且小于等于储能电池的最大荷电状态。

微电网与大电网之间的功率交换的约束条件如式(18)所示。

其中，

表示微电网与大电网允许交换的最大功率。式(18)表示，表示微电网与大电网在任意时间段的交换功率不能超过微电网与大电网允许交换的最大功率。

S202，获取储能电池的充放电特性曲线，充放电特性曲线是用于表征储能电池的内阻随荷电状态的变化而变化的关系曲线。

本实施例在深度强化学习基础上融合了专家知识。专家知识指传统的基于优化方法的能量管理策略中并未考虑到的专业知识。更具体地，储能电池的充放电特性曲线为基于专家知识得到的曲线，该曲线对于微电网的能量管理起着非常重要的作用，因为储能电池的充放电特性曲线与储能电池的荷电状态有着十分密切的关系。因此本实施例获取储能电池的充放电特性曲线，需要说明的是，充放电特性曲线是根据储能电池实验得到的，不同的储能电池的充放电特性曲线不同。图3为本实施例提供的充放电特性曲线，结合图3，该储能电池的内阻随着随荷电状态的变化而变化。

S203，根据充放电特性曲线，构建训练样本集。

在本实施例中，根据充放电特性曲线，就可以确定储能电池的充放电成本，从而确定微电网在多个历史时间段内的运行成本，进而构建训练样本集。

本实施例通过建立微电网的电网约束条件，并获取储能电池的充放电特性曲线，充放电特性曲线是用于表征储能电池的内阻随荷电状态的变化而变化的关系曲线，进而根据充放电特性曲线，构建训练样本集。由于根据充放电特性曲线，构建训练样本集，考虑了储能电池的充放电特性曲线，较传统的方法进一步融合专家知识构建训练样本集，并基于训练样本通过对历史数据训练，集得到目标模型，实现微电网能量管理策略的合理设定，增强微电网能量管理策略的自适应能力，提高强化学习神经网络模型的训练速度，从而确定的微电网能量管理策略能够适应真实场景的需求。

图4为本申请实施例中提供的一种确定训练样本集的流程示意图，参照图4，本实施例涉及的是如何根据充放电特性曲线，构建训练样本集的一种的实现方式。在上述实施例的基础上，上述的S403包括如下步骤：

S401，根据充放电特性曲线，确定最小内阻对应的荷电状态。

在本实施例中，如图3所示，当该储能电池的荷电状态(State of Charge，SOC)介于0.4到0.8之间时，储能电池的内阻是比较小并相对一致的，这一区间可以保证储能电池具有较高的充放电效率。结合图3，尤其是该储能电池SOC在0.6附近的时候，储能电池的充放电内阻最小。需要说明的是，内阻最小对应的SOC值不应局限于0.6，因为不同类型的电池，内阻最小点对应的SOC区间是不同的。因此，本实施例确定最小内阻对应的荷电状态为soc_ref，即soc_ref＝0.6。

S402，基于最小内阻对应的荷电状态，构建训练样本集。

在本实施例中，基于最小内阻对应的荷电状态，就可以确定储能电池的充放电成本，例如，可以确定微电网在至少一个历史时间段内的运行成本，进而基于运行成本构建训练样本集。

本实施例通过根据充放电特性曲线，确定最小内阻对应的荷电状态，并基于最小内阻对应的荷电状态，构建训练样本集。由于较传统的方法进一步融合专家知识构建训练样本集，避免仅基于工程人员经验的短视和局限性，从而确定的微电网能量管理策略能够适应真实场景的需求。

图5为本申请实施例中提供的一种得到训练样本集的流程示意图，参照图5，本实施例涉及的是如何基于最小内阻对应的荷电状态构建训练样本集的一种的实现方式。在上述实施例的基础上，上述的S402包括如下步骤：

S501，基于最小内阻对应的荷电状态，确定微电网在各历史时间段内的运行成本。

在本实施例中，微电网能量管理策略的目标是需要微电网的总运行成本最低。进一步地，根据专家知识，需要保持储能电池的SOC在最小内阻附近，此时的储能电池运行在高效状态，可以减少充放电损失，从而降低微电网的总运行成本。

因此，微电网在多个历史时间段内的运行成本r_t，即在第t个时刻段内的总运行成本表示为如下式(19)。r_t包括可控发电机组在第t个时刻段内的燃料成本和启动成本F_DG，t、储能电池在第t个时刻段内的充放电成本F_bat，t以及微电网与大电网之间在第t个时刻段内的购售电成本F_Grid，t，F_DG，t、F_bat，t和F_Grid，t分为表示为式(20)、式(21)和式(22)：

r_t＝-(α(F_DG，t+F_bat，t+F_Grid，t)+β(soc-soc_ref)²) (19)

F_DG，t＝a·P_G，t ²+b·P_G，t+c·n_on，t (20)

F_bat，t＝c_b，t(P_dis，t+P_cha，t) (21)

F_Grid，t＝λ_b，tP_bat，t (22)

其中，α表示微电网运行成本的权重系数，β表示储能电池SOC维持程度的权重系数；a、b、c为可控发电机组的燃料成本系数。P_G，t是所有可控发电机组在第t个时刻段内的出力之和，n_on，t是所有可控发电机组在第t个时刻段内的运行状态之和。

S502，对于各历史时间段，将历史时间段内的运行成本、状态描述信息以及特性描述信息作为训练样本集中的一个样本。

在本实施例中将多个历史历史时间段内的r_t、s_t、s_t+1、rt以及a_t，作为一组样本存储到训练样本集。

本实施例通过基于最小内阻对应的荷电状态，确定微电网在各历史时间段内的运行成本，进而对于各历史时间段，将历史时间段内的运行成本、状态描述信息以及特性描述信息作为样本集中的一个样本。由于基于最小内阻对应的荷电状态，确定微电网在各历史时间段内的运行成本，因此实现了储能电池运行在高校的充放电状态，在最大降低微电网的运行成本的情况下，保证储能电池运行在充放电高效率的状态，提高了微电网的整体运行性能。进一步地，还减小了训练过程的搜索空间，有利于提高目标模型训练的收敛速度。

可选的，状态描述信息中的运行状态包括微电网的可控发电机组在历史时间段的上一时间段的运行状态和功率、微电网中风机机组在历史时间段的发电功率、微电网中光伏机组在历史时间段的发电功率、微电网在历史时间段的负荷、微电网中储能电池在上一时间段的荷电状态以及电网的电价。

在本实施例中，微电网的状态描述信息s_t可以用如下式(23)表示。

s_t＝(n_DG，t-1，P_G，t-1，P_WT，t，P_PV，t，P_load，t，λ_b，t，soc_t-1) (23)

n_DG，t-1＝(n_on，t-1，n_su，t-1，n_sd，t-1) (24)

其中，n_DG，t-1表示可控发电机组在上一个时间段内的机组状态，即微电网的可控发电机组在历史时间段的上一时间段的运行状态。n_DG，t-1具体表示为式(24)，包括所有可控发电机组在上一个时间段内的运行状态之和、启动状态之和和停机状态之和。P_G，t-1表示所有可控发电机组在上一个时间段内的出力之和。P_WT，t表示风机机组在在历史时间段的发电功率。P_PV，t表示光伏机组在历史时间段内的发电功率。P_load，t表示微电网在在历史时间段内的负荷λ_b，t表示电网的电价。电网可以是微电网，也可以是大电网。

可以理解的是，历史时间段可以是历史中任意一个时间段t，则历史时间段的上一时间段就是t-1。例如，历史时间段是昨天的第2个时间段，则历史时间段的上一时间段就是昨天的第一个时间段。

本实施例的状态描述信息，可以进一步得到特性描述信，进而确定所述微电网的能量管理策略。

可选的，特性描述信息包括的运行状态为微电网的可控发电机组的运行状态，特性描述信息包括的功率为可控发电机组的功率，特性描述信息还包括微电网中储能电池的充电功率和放电功率以及微电网与大电网的交换功率。

在本实施例中，微电网的特性描述信息a_t可以用如下式(25)表示。

a_t＝(n_DG，t，P_G，t，P_Grid，t，P_cha，t，P_dis，t) (25)

n_DG，t＝(n_on，t，n_su，t，n_sd，t) (26)

其中，n_DG，t表示可控发电机组在历史时间段的机组状态，即微电网的可控发电机组在历史时间段的运行状态。n_DG，t具体表示为式(26)，包括所有可控发电机组在历史时间段的运行状态之和、启动状态之和和停机状态之和。P_G，t表示所有可控发电机组在历史时间段内的出力之和。P_dis，t表示微电网中储能电池在历史时间段的放电功率，P_cha，t表示微电网中储能电池在历史时间段的充电功率。P_Grid，t表示微电网与大电网在历史时间段的交换功率。可以理解的是，历史时间段可以是历史中任意一个时间段t，例如，历史时间段是昨天的第2个时间段，

本实施例的特性描述信息，可以进一步确定所述微电网的能量管理策略。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于深度强化学习的微电网的能量管理策略的确定方法的基于深度强化学习的微电网的能量管理策略的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于深度强化学习的微电网的能量管理策略的确定装置实施例中的具体限定可以参见上文中对于基于深度强化学习的微电网的能量管理策略的确定方法的限定，在此不再赘述。

在一个实施例中，参照图6，图6为本申请实施例中提供的一种基于深度强化学习的微电网的能量管理策略的确定装置的结构示意图，该装置600包括：第一获取模块601、训练模块602、第一确定模块603和第二确定模块604，其中：

第一获取模块601，用于获取训练样本集，其中，训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，状态描述信息包括微电网在历史时间段的运行状态，特性描述信息包括微电网在历史时间段的功率和运行状态。

训练模块602，用于基于训练样本，训练预设模型，得到目标模型。

第一确定模块603，用于基于微电网在当前时间段的状态描述信息和目标模型，得到微电网在当前时间段的特性描述信息。

第二确定模块604，用于根据特性描述信息，确定微电网的能量管理策略。

本实施例提供的基于深度强化学习的微电网的能量管理策略的确定装置，通过通过获取训练样本集，其中，训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，状态描述信息包括微电网在历史时间段的运行状态，特性描述信息包括微电网在历史时间段的功率和运行状态。并基于训练样本，训练预设模型，得到目标模型，进而基于微电网在当前时间段的状态描述信息和目标模型，得到微电网在当前时间段的特性描述信息，从而根据特性描述信息，确定微电网的能量管理策略。传统的基于优化方法的能量管理策略中，需要假定已知未来时间段内的可再生能源发电和负荷，而本实施例由于通过获取训练样本集，并根据训练样本得到目标模型，最终基于该微电网在当前时间段的状态描述信息和该目标模型，无需假定已知未来时间段内的可再生能源发电和负荷，就可以得到该微电网在当前时间段的特性描述信息，从而根据该特性描述信息，确定该微电网的能量管理策略。因此，本实施例的方法解决了传统方法中得到的能量管理策略无法适应真实场景的需求的问题，从而本实施例确定的能量管理策略能够适应真实场景的需求。

可选的，该装置600还包括：

建立模块，用于建立微电网的电网约束条件，电网约束条件包括微电网的功率平衡的约束条件、微电网的功率的约束条件、爬坡约束条件、微电网的机组状态的约束条件、微电网中储能电池的充放电状态的约束条件、储能电池的充放电功率的约束条件、储能电池的荷电状态的约束条件以及微电网与大电网之间的功率交换的约束条件。

第二获取模块，用于获取储能电池的充放电特性曲线，充放电特性曲线是用于表征储能电池的内阻随荷电状态的变化而变化的关系曲线。

构建模块，用于根据充放电特性曲线，构建训练样本集。

可选的，构建模块包括：

确定单元，用于根据充放电特性曲线，确定最小内阻对应的荷电状态。

构建单元，用于基于最小内阻对应的荷电状态，构建训练样本集。

可选的，构建单元包括：

第一确定子单元，用于基于最小内阻对应的荷电状态，确定微电网在各历史时间段内的运行成本。

第二确定子单元，用于对于各历史时间段，将历史时间段内的运行成本、状态描述信息以及特性描述信息作为训练样本集中的一个样本。

上述基于深度强化学习的微电网的能量管理策略的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图7为本申请实施例中计算机设备的内部结构图，在本实施例中，提供了一种计算机设备，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于深度强化学习的微电网的能量管理策略的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取训练样本集，其中，所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，所述状态描述信息包括所述微电网在所述历史时间段的运行状态，所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态；

基于所述训练样本，训练预设模型，得到目标模型；

基于所述微电网在当前时间段的状态描述信息和所述目标模型，得到所述微电网在当前时间段的特性描述信息；

根据所述特性描述信息，确定所述微电网的能量管理策略。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

建立所述微电网的电网约束条件，所述电网约束条件包括所述微电网的功率平衡的约束条件、所述微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、所述微电网中储能电池的充放电状态的约束条件、所述储能电池的充放电功率的约束条件、所述储能电池的荷电状态的约束条件以及所述微电网与大电网之间的功率交换的约束条件；

获取所述储能电池的充放电特性曲线，所述充放电特性曲线是用于表征所述储能电池的内阻随荷电状态的变化而变化的关系曲线；

根据所述充放电特性曲线，构建所述训练样本集。

根据所述充放电特性曲线，确定最小内阻对应的荷电状态；

基于所述最小内阻对应的荷电状态，构建所述训练样本集。

基于所述最小内阻对应的荷电状态，确定所述微电网在各所述历史时间段内的运行成本；

对于各所述历史时间段，将所述历史时间段内的运行成本、状态描述信息以及特性描述信息作为所述训练样本集中的一个样本。

所述特性描述信息包括的运行状态为所述微电网的可控发电机组的运行状态，所述特性描述信息包括的功率为所述可控发电机组的功率，所述特性描述信息还包括所述微电网中储能电池的充电功率和放电功率以及所述微电网与大电网的交换功率。

所述状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

基于所述训练样本，训练预设模型，得到目标模型；

根据所述特性描述信息，确定所述微电网的能量管理策略。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据所述充放电特性曲线，构建所述训练样本集。

根据所述充放电特性曲线，确定最小内阻对应的荷电状态；

基于所述最小内阻对应的荷电状态，构建所述训练样本集。

状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于所述训练样本，训练预设模型，得到目标模型；

根据所述特性描述信息，确定所述微电网的能量管理策略。

根据所述充放电特性曲线，构建所述训练样本集。

根据所述充放电特性曲线，确定最小内阻对应的荷电状态；

基于所述最小内阻对应的荷电状态，构建所述训练样本集。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的微电网的能量管理策略的确定方法，其特征在于，所述方法包括：

基于所述训练样本，训练预设模型，得到目标模型；

根据所述特性描述信息，确定所述微电网的能量管理策略；

所述预设模型包括Actor-Eval网络、Actor-Target、Critic-Eval网络以及Critic-Target网络；

所述Critic-Eval网络基于

和/>

更新；

θ^Q为所述Critic-Eval网络的参数，

表示第n次迭代时所述Critic-Eval网络的参数，

表示第n+1次迭代时所述Critic-Eval网络的参数，/>

为学习率；N为所述训练样本的数量，i为大于等于1小于等于N的整数，y_i为所述Critic-Target网络的动作值，y_i通过y_i＝r_i+γQ′(s_i+1,u′(s_i+1|θ^u′)|θ^Q′)确定；Q表示向所述Critic-Eval网络输入样本i对应的s_i和a_i后输出的最优调度动作的质量，通过/>

确定；

π表示策略，是从状态到动作的映射，E_π是平均值，K是优化视界，K是大于等于1小于等于24的整数，γ表示折扣因子，γ在0～1之间取值；Q^′表示向所述Critic-Target网络输入样本i对应的s_i和a_i后输出的最优调度动作的质量，u^′表示s_i+1对应的特性描述信息；θ^Q′是Critic-Target网络的参数；

所述Actor-Eval网络的参数θ^u基于如下公式更新：

所述Critic-Target网络的参数θ^Q′基于θ^Q′＝τθ^Q+(1-τ)θ^Q′更新；

所述Actor-Target网络的参数θ^u′基于θ^u′＝τθ^u+(1-τ)θ^u′更新；

τ取值0～1；

所述基于所述训练样本，训练预设模型，得到目标模型，包括：

将

和/>

均表现为收敛的情况下的θ^Q、θ^u、θ^Q′和θ^u′作为所述目标模型的网络参数，以确定所述目标模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述充放电特性曲线，构建所述训练样本集。

3.根据权利要求2所述的方法，其特征在于，所述根据所述充放电特性曲线，构建所述训练样本集，包括：

根据所述充放电特性曲线，确定最小内阻对应的荷电状态；

基于所述最小内阻对应的荷电状态，构建所述训练样本集。

4.根据权利要求3所述的方法，其特征在于，所述基于所述最小内阻对应的荷电状态，构建所述训练样本集，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述特性描述信息包括的运行状态为所述微电网的可控发电机组的运行状态，所述特性描述信息包括的功率为所述可控发电机组的功率，所述特性描述信息还包括所述微电网中储能电池的充电功率和放电功率以及所述微电网与大电网的交换功率。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。

7.一种基于深度强化学习的微电网的能量管理策略的确定装置，其特征在于，所述装置包括：

第一获取模块，用于获取训练样本集，其中，所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息，所述状态描述信息包括所述微电网在所述历史时间段的运行状态，所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态；

训练模块，用于基于所述训练样本，训练预设模型，得到目标模型；

第一确定模块，用于基于所述微电网在当前时间段的状态描述信息和所述目标模型，得到所述微电网在当前时间段的特性描述信息；

第二确定模块，用于根据所述特性描述信息，确定所述微电网的能量管理策略；

所述Critic-Eval网络基于

和/>

更新；

θ^Q为所述Critic-Eval网络的参数，

表示第n次迭代时所述Critic-Eval网络的参数，

表示第n+1次迭代时所述Critic-Eval网络的参数，/>

确定；

π表示策略，是从状态到动作的映射，E_π是平均值，K是优化视界，K是大于等于1小于等于24的整数，γ表示折扣因子，γ在0～1之间取值；Q′表示向所述Critic-Target网络输入样本i对应的s_i和a_i后输出的最优调度动作的质量，u′表示s_i+1对应的特性描述信息；θ^Q′是Critic-Target网络的参数；

所述Actor-Eval网络的参数θ^u基于如下公式更新：

τ取值0～1；

所述训练模块，还用于将

和

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。