CN117060386A

CN117060386A - 一种基于值分布深度q网络的微电网储能调度优化方法

Info

Publication number: CN117060386A
Application number: CN202310870454.3A
Authority: CN
Inventors: 余诺; 宫家凯; 葛愿; 韩芬; 唐斌
Original assignee: Anhui Polytechnic University
Current assignee: Anhui Polytechnic University
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-11-14

Abstract

本发明涉及电力调度工程技术领域，具体涉及一种基于值分布深度Q网络的微电网储能调度优化方法，通过将微电网储能调度问题描述为强化学习框架下的马尔科夫决策过程，不需要对微电网储能调度进行具体的数学建模，可以避免实际当中数学建模的困难和难以收敛到最优调度策略的问题。通过智能体与环境不断交互学习最终获得最优调度策略，通过最优调度策略来对储能系统进行调控，能够有效减少微电网运行成本，降低算法在微电网储能系统中训练的时间，具有很强的实用性和可移植性。

Description

一种基于值分布深度Q网络的微电网储能调度优化方法

技术领域

本发明涉及电力调度工程技术领域，尤其涉及一种基于值分布深度Q网络的微电网储能调度优化方法。

背景技术

微电网(microgrid,MG),作为新型电力系统的典型代表,其内部包含分布式供电单元、储能单元和负载单元，储能作为微电网中的核心环节，在微电网稳定运行、能量优化管理、短时供电、改善电能质量等方面起着至关重要的作用。以储能系统的控制方法为核心来研究微电网的调度策略是应对微电网优化运行问题的关键所在。

近年来，随着对节能减排的重视，越来越多的算法应用电力系统中。主要方法分为有模型和无模型两大类。对于有模型的方法：由于微电网同时面临能源侧和负荷侧的不确定性，这使得对于微电网的准确建模难以完成，且微电网的优化决策场景也难以表述为明确的数学表达式，会导致决策优化难以达到最优结果；对于无模型的方法：随着人工智能的兴起，将强化学习应用于电力系统中的研究也越来越多。强化学习方法是求解序贯决策的无模型方法，通过智能体与不确定环境的互动获取反馈来学习在环境中获得最大奖励的策略。现有方案大多数是基于DQN算法来实现对微电网的优化和管理，但由于微电网决策序列较长，而且新能源发电功率和负载需求功率以及电价具有波动性，会导致该方法需要大量时间去训练微电网储能调度决策。

发明内容

有鉴于此，本发明的目的在于提出一种基于值分布深度Q网络的微电网储能调度优化方法，以解决有模型方法的建立数学模型困难和无法达到最优调度决策以及无模型强化学习方法的训练时间过长的问题。

基于上述目的，本发明提供了一种基于值分布深度Q网络的微电网储能调度优化方法，包括以下步骤：

S1、根据目标微电网结构建立与之对应的储能系统模型；

S2、将微电网系统储能调度问题转换为马尔科夫决策过程，以此建立储能系统智能体状态空间、动作空间和奖励函数；

S3、利用值分布深度Q网络强化学习算法对储能调度马尔科夫决策过程进行训练，通过与环境的交互使从环境中获得的奖励达到稳定后，得到训练好的模型；

S4、将微电网储能调度模型中的光伏发电组件的日发电量，日负荷量，储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型，输出储能充放电调度策略，得出微电网运行成本最小的调度方案。

优选地，步骤S1进一步包括：

S11、建立储能系统模型：使用动态模型表示储能系统，和/>分别表示在时间t储能系统的充电或者放电功率，t时刻储能系统荷电状态用/>表示，则储能系统的模型为：

S12、设定储能系统限制条件：对于建立的储能模型，对其在t时刻的充电功率放电功率/>和储能系统荷电状态/>加以限制：

其中，分别表示储能系统充放电功率的最大值，/>分别表示储能系统荷电状态最小值和最大值；

S13、设定微电网功率平衡限制：功率平衡关系为：

其中，为t时刻微电网同外部电网的交互功率，若/>大于0则表示微电网向外部电网购电，若小于0则表示微电网向外部电网售电，/>为t时刻光伏发电功率，/>为t时刻储能系统充放电功率，/>为t时刻负载的功率需求。

优选地，步骤S2进一步包括：

S21、定义状态空间S：包括光伏发电功率、负载需求功率、储能系统荷电状态和从电网中的购电价格，状态空间为：

在系统状态空间S中，分别表示在t时刻的光伏发电功率和负荷需求功率，/>表示在t时刻的储能系统的荷电状态，price_t表示在t时刻外部电网的购电价格；

定义动作空间A：包括储能系统的充电功率和放电功率，动作空间表示为：

在系统动作空间A中，表示在t时刻的储能充放电功率；

定义奖励函数R：包括微电网系统在满足约束情况下运行时产生的成本和违反约束时的惩罚项，奖励函数表示为：

在奖励函数R中，表示在t时刻向外部电网交换电能的功率，C是储能系统的维修成本,η表示违反约束的惩罚项；

建立决策方法：使用深度神经网络来近似智能体的动作-价值函数和智能体接受环境的状态量，将状态量输入到深度神经网络中，深度神经网络输出在观测状态下的状态-动作价值分布Z(s,a)，状态-动作价值分布函数表示智能体在观测状态s_t时并采取动作的长期回报的分布：

其中，γ是折扣因子，r_t表示在t时刻状态s下执行动作a后获得的奖励，s_t表示t时刻的状态信息，a_t表示t时刻的动作，深度神经网络输出的状态-动作价值分布与储能智能体可采取的动作相对应，智能体根据最大Q值选取动作，其中Q值的公式为：

其中N表示神经网络输出的分布粒子数，i为第i个分布粒子，θ^-是神经网络的参数，s,a为输入的状态和动作，输出为长期回报的分布Z。

优选地，步骤S3进一步包括：

S31、利用随机权重θ初始化神经网络，同时令目标神经网络权重θ^-等于价值网络权重θ；初始化回放记忆单元D，初始化神经网络输出的分布粒子数N；

S32、获取微电网的状态信息，初始化储能系统荷电状态，设置初始荷电状态为0，对初始状态信息进行预处理转化成张量；

S33、在每个训练周期中，依据ε-贪心策略选择动作，设定ε如下：

ε＝0.9×(0.995×i)

其中，i为智能体训练的周期数，同时在[0,1]范围内等概率随机生成一个数，若这个数大于ε，那么此时智能体选取获得最大估计值的动作价值函数Q所对应的动作a，若这个数小于ε，那么此时智能体从动作空间随机选取一个动作a；

S34、智能体在任一状态s_t时依据步骤S33中选取的动作执行，并观测在执行动作后获得的奖励r_t同时转移到下一状态s_t+1；

S35、若此时下一状态st+1存在，将元组(s_t,a_t,r_t,s_t+1)存入回放记忆单元，当记忆回放单元储存的样本数据达到最小样本数要求后，从回放记忆单元中选取小批量数据对智能体神经网络进行训练；

S36、将从回放记忆单元中选取的元组中的状态信息s_t输入到值分布Z，选取值分布Z输出的最大动作状态值Q(s_t,a_t；θ)，并将此时的Q(s_t,a_t)作为监督信息，再将状态信息s_t+1也输入到值分布Z中，获取此时输出的最大动作状态值对应的动作索引index，然后从目标网络中获取在输入s_t+1的状态下对应index的动作的Q'(s_t+1,a_t+1；θ^-)值，则此时神经网络的更新目标为：

其中，N为值分布的粒子个数；为通过核函数k计算出两个分布的距离，α表示神经网络的学习率；

对于目标值函数θ^-，每隔十个训练周期，令θ^-＝θ用以更新目标值分布Z的深度神经网络参数；

S37、重复步骤S31-S36，直到值分别Z收敛，训练结束保存训练完成后的神经网络参数，得到训练好的模型。

优选地，步骤S4进一步包括：

S41、将微电网储能调度模型中的光伏发电组件的日发电量，日负荷量，储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型，在每个时隙t，智能体根据学习策略做出决策，执行动作a_t；

S42、观测t+1时刻状态s_t+1；

S43、重复步骤S41-S42，直到优化决策终止，得到每个时刻的调度方案。

本发明的有益效果：本发明将微电网储能调度问题描述为强化学习框架下的马尔科夫决策过程，不需要对微电网储能调度进行具体的数学建模，可以避免实际当中数学建模的困难和难以收敛到最优调度策略的问题。通过智能体与环境不断交互学习最终获得最优调度策略，通过最优调度策略来对储能系统进行调控，能够有效减少微电网运行成本，降低算法在微电网储能系统中训练的时间，具有很强的实用性和可移植性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的微电网储能系统模型示意图；

图2为本发明实施例的储能调度优化方法的训练实施步骤示意图；

图3为本发明实施例的储能系统训练时获得每日奖励的变化曲线图；

图4为本发明实施例的储能系统SOC变化情况和充放电功率图；

图5为本发明实施例的光伏发电、负荷需求、电价数据曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本说明书实施例提供一种基于值分布深度Q网络的微电网储能调度优化方法，采用最优的储能调度决策对储能设备进行调度，进而达到减少微电网系统运行成本的目的。

如图1所示，本发明系统模型包括：微电网系统中主要包括光伏发电、负载需求、储能电池三个模块，光伏发电可以将太阳能转化为电能，供给交流负荷或者经过变流器将电能转化成直流电供给储能系统，也可以直接出售给主电网。当光伏发电量无法满足微电网运行负载需求时，可以通过对储能系统进行放电或者从主电网中购买电量达到功率平衡，储能系统能源的调度可以在一定程度上减少微电网系统运行成本。

如图2所示，本发明提供的基于值分布深度Q网络的微电网储能调度优化方法包括以下步骤：

S1、根据目标微电网结构建立与之对应的储能系统模型；

具体来说，使用动态模型来表示储能系统，和/>分别表示在时间t储能系统的充电或者放电功率，t时刻储能系统荷电状态用/>表示，则储能系统的模型为

其中，ξ，η分别表示储能系统的充电效率和放电效率；E_ES表示储能系统的额定容量；Δt表示储能系统能量调度的时间间隔；同时在任意时刻，储能系统不能同时充电和放电；

设定储能系统限制条件：对于建立的储能模型，对其在t时刻的充电功率放电功率/>和储能系统荷电状态/>加以限制：

其中，分别表示储能系统充放电功率的最大值；/>分别表示储能系统荷电状态最小值和最大值；

设定微电网功率平衡限制：功率平衡关系如下：

其中，为t时刻微电网同外部电网的交互功率，若/>大于0则表示微电网向外部电网购电，若小于0则表示微电网向外部电网售电；/>为t时刻光伏发电功率；/>为t时刻储能系统充放电功率；/>为t时刻负载的功率需求。

具体过程包括：

定义状态空间S：包括光伏发电功率、负载需求功率、储能系统荷电状态、从电网中的购电价格，发电功率和负载需求功率以KW为单位，储能系统荷电状态范围为0-1，购电价格以元为单位，状态空间如下所示：

定义动作空间A：包括储能系统的充电功率大小和放电功率大小的11个动作，把-1到1之间划分为11等分，动作空间表示如下：

在系统动作空间A中，表示在t时刻的储能的最大充放电功率；

定义奖励函数R：包括微电网系统在满足约束情况下运行时产生的成本，违反约束时的惩罚项，奖励函数表示如下：

在奖励函数R中，表示在t时刻向外部电网交换电能的功率，C是储能系统的维修成本,主要考虑充放电次数对储能寿命的影响，η表示违反约束的惩罚项；

建立决策方法：使用深度神经网络来近似智能体的动作-价值函数，智能体接受环境的状态量，将状态量输入到深度神经网络中，深度神经网络输出在观测状态下的状态-动作价值分布Z(s,a),状态-动作价值分布函数表示智能体在观测状态s_t时并采取动作的长期回报的分布：

在上式中，γ是折扣因子，其取值范围为0到1，表示长期回报的重要程度，r_t表示在状态s下执行动作a后获得的奖励，s_t表示t时刻的状态信息，a_t表示t时刻的动作，深度神经网络输出的状态-动作价值分布与储能智能体可采取的动作相对应，智能体根据最大Q值选取动作，其中Q值的公式为：

其中，N表示神经网络输出的分布粒子数，i为第i个分布粒子，θ^-是神经网络的参数，s,a为输入的状态和动作，输出为长期回报的分布Z。

具体来说，储能系统智能体的训练流程包括：

S31、利用随机权重θ初始化神经网络，同时令目标神经网络权重θ^-等于价值网络权重θ；初始化回放记忆单元D；初始化神经网络输出的分布粒子数N；

S32、获取微电网的状态信息，包含(2.1)中所需的微电网状态信息，同时初始化储能系统荷电状态，设置初始荷电状态为0；对初始状态信息进行预处理转化成张量；

ε＝0.9×(0.995×i)

其中，i为智能体训练的周期数，同时在[0,1]范围内等概率随机生成一个数，若这个数大于ε，那么此时智能体选取获得最大估计值的动作价值函数Q所对应的动作a；若这个数小于ε，那么此时只能体从动作空间随机选取一个动作a；

S34、智能体在任一状态s_t时依据S33中选取的动作执行，并观测在执行动作后获得的奖励r_t同时转移到下一状态s_t+1；

S36、将从回放记忆单元中选取的元组中的状态信息s_t输入到值分布Z，选取值分布Z输出的最大动作状态值Q(s_t,a_t；θ)，并将此时的Q(s_t,a_t)作为监督信息；再将状态信息s_t+1也输入到值分布Z中，获取此时输出的最大动作状态值对应的动作索引index；然后从目标网络中获取在输入s_t+1的状态下对应index的动作的Q'(s_t+1,a_t+1；θ^-)值，则此时神经网络的更新目标为：

其中，N为值分布的粒子个数；α表示神经网络的学习率；为通过核函数k计算出两个分布Z_θ和/>的距离：

其中，p,q分别是随机变量x,y的分布，是随机变量通过核函数k映射到再生希尔伯特空间中的向量；n，m分别为源域x和目标域y的样本数；

对于目标值函数θ^-，每隔两个训练周期，令θ^-＝θ用以更新目标值分布Z的深度神经网络参数。

S37、重复步骤S31-S36，直到值分别Z收敛，训练结束保存训练完成后的神经网络参数。

具体包括：

S42、观测t+1时刻状态s_t+1；

S43、重复步骤S41-S42，直到优化决策终止，得到每个时刻的调度方案。本发明实施例的一个应用场景：

微电网是商用型微电网，储能额定容量大小为500kWh，储能最大充放电功率为100kWh，储能充电效率ξ＝99.5％，储能放电效率η＝100.5％，储能的荷电状态水平限值分别为SOC_max＝100％,SOC_min＝0％。对于一天的负荷、光伏发电和电价简况，采集数据的时间周期为1小时。根据实际输入数据序列维度和数据量，本发明实施例采用全连接神经网络有一个输入层，两个隐藏层和一个输出层，输入层进行光伏发电、负荷需求、电价以及储能荷电状态数据的4个维度特征提取，隐藏层的神经元为64，输出值分布Z的粒子数为32，有11个动作输出，输出层为32*11个神经元，最后输出层采用激活函数relu函数输出离散化动作对应的Z分布。另外，强化学习算法中学习率初始值设为0.001，折扣因子设为0.9，贪婪策略概率ε初始值设为0.9。

图3展示了储能智能体在训练过程中，微电网运行的一天总运行成本随训练次数的变化，由图5可以看出在训练一定次数后微电网一天的运行成本基本达到了一个稳定值，表明微电网储能智能体已学习到一个较优的策略。由强化学习训练获得的储能智能体能够根据微电网的状态合理的充放电。图4和图5展示了面对光伏发电和负荷需求的波动的情况下，储能系统能够充分利用可再生能源，当光伏发电量较多时将能量储存起来并在负荷需求较大时地向本地负荷提供电力，起到了削峰填谷的作用；当光伏发电量不够时储能在低价时购买电量，在高价时供给负荷电力，减少了运行过程中向电力市场的购电花费。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于值分布深度Q网络的微电网储能调度优化方法，其特征在于，包括以下步骤：

S1、根据目标微电网结构建立与之对应的储能系统模型；

2.根据权利要求1所述的基于值分布深度Q网络的微电网储能调度优化方法，其特征在于，步骤S1进一步包括：

S13、设定微电网功率平衡限制：功率平衡关系为：

3.根据权利要求2所述的基于值分布深度Q网络的微电网储能调度优化方法，其特征在于，步骤S2进一步包括：

在系统状态空间S中，分别表示在t时刻的光伏发电功率和负荷需求功率，表示在t时刻的储能系统的荷电状态，price_t表示在t时刻外部电网的购电价格；

在系统动作空间A中，表示在t时刻的储能充放电功率；

4.根据权利要求3所述的基于值分布深度Q网络的微电网储能调度优化方法，其特征在于，步骤S3进一步包括：

S31、利用随机权重θ初始化神经网络，同时令目标神经网络权重θ^-等于价值神经网络权重θ；初始化回放记忆单元D，初始化神经网络输出的分布粒子数N；

ε＝0.9×(0.995×i)

5.根据权利要求4所述的基于值分布深度Q网络的微电网储能调度优化方法，其特征在于，步骤S4进一步包括：

S42、观测t+1时刻状态s_t+1；