CN111725836B

CN111725836B - 一种基于深度强化学习的需求响应控制方法

Info

Publication number: CN111725836B
Application number: CN202010562543.8A
Authority: CN
Inventors: 奚培锋; 张少迪; 江浩; 官乐乐; 崔承刚; 胡桐月; 方文
Original assignee: Shanghai Electrical Apparatus Research Institute Group Co Ltd; Shanghai Motor System Energy Saving Engineering Technology Research Center Co Ltd
Current assignee: Shanghai Electrical Apparatus Research Institute Group Co Ltd; Shanghai Motor System Energy Saving Engineering Technology Research Center Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-05-17
Anticipated expiration: 2040-06-18
Also published as: CN111725836A

Abstract

本发明涉及一种基于深度强化学习的需求响应控制方法。本发明在满足综合能源系统能源供给与消耗的平衡的前提下，基于电价的可中断负荷控制和能源存储装置来平滑电网负荷，实现削峰填谷和最小化园区的耗能成本。与现有技术相比，本发明具有如下优点：在不影响电动汽车用户使用电动汽车的前提下，将电动汽车当作广义储能参与到电力调度中；考虑到灵活爬坡量，可以削减光伏和风电带来的不确定性；在保证园区正常运行的前提下，在用电高峰时刻，对可中断负荷容量进行削减，达到了削峰的同时也降低了园区的耗能成本；通过储电装置和储热装置，在用电低谷期时，储存电能和热能，在用电高峰时参与能源调度，达到了填谷的目的。

Description

一种基于深度强化学习的需求响应控制方法

技术领域

本发明涉及园区需求响应优化领域，具体涉及一种基于深度强化学习的园区需求响应优化控制方法，以提高园区综合能源系统经济性。

背景技术

园区综合能源系统作为将多类型能源生产、存储、传输、消费以及能源市场交易深度融合而衍生的全新能源工业形态，主要包括微型燃气轮机、燃气锅炉、储电装置和储热装置。但是随着园区高比例新能源并网、电力电子装置和新负荷接入与多种能源种类、网络结构、主体的智能电网不断发展，为电网带来复杂性和不确定性。仅依靠发电侧的支撑配合不能满足智能电网实时供需平衡需求，需要通过可中断负荷控制和可转移负荷的控制来实现需求侧削峰填谷与提高综合能源系统运行经济性。

已有一些方法解决综合能源系统的需求响应优化中。文献1：徐业琰等,基于综合需求响应和博弈的区域综合能源系统多主体日内联合优化调度.电网技术,2019.43(07):第2506-2518页.提出了一种两阶段优化调度策略。一阶段为系统管理商的经济收益优化，利用Stackelberg博弈和电价型IDR策略实现用户对系统管理商经济优化的制约；二阶段为产能基地与用户利益的联合优化，采用激励型IDR策略建立用户与产能基地的互利关系，利用联盟博弈实现用户间制约平衡，从而实现三方主体利益相互制约和联合优化。上述方法没有考虑新能源的不确定性，在短时间调度时会造成计算偏差。专利1：CN110994694A，公开日：2020.04.10，提出一种计及差异化需求响应方法，根据负荷用电特性将负荷分为商业负荷、居民负荷和工业负荷，并根据不同类型负荷响应弹性差异性，构建了负荷变化量与电价改变量的新型价格型需求响应机制；然后结合储能充放电模型，建立了微电网源荷储协调优化调度模型。文献2：孙毅,刘迪,李彬等.深度强化学习在需求响应中的应用[J].电力系统自动化,2019,第43卷(5):183-194.提出了基于深度强化学习的需求响应实施架构及实现流程。通过基于LSTM的用户虚拟响应网络，模拟用户的响应行为，用二次函数近似表示用户的效益函数代表响应成本；然后用动作Q值代表售电商的收益，通过深度强化学习的找到最大的奖励值。

发明内容

本发明要解决的技术问题是：现有解决综合能源系统的需求响应优化的方法未考虑综合能源系统的分布式能源的出力情况，只是从需求响应成本单方面建立智能体与环境的交互。

为了解决上述技术问题，本发明的技术方案是提供了一种基于深度强化学习的需求响应控制方法，其特征在于，包括以下步骤：

步骤1、满足综合能源系统的供销平衡的前提下，将综合能源系统最小耗能问题建模为基于马尔可夫博弈的深度神经网络，并设计相应的动作、环境状态、以及奖励函数，包括以下步骤：

步骤101、将动作的表达式设计为：

A_t＝(P_A，t，P_B，t，P_C，t，P_D，t，P_E，i，t，P_H，t)

上式中，A_t表示t时刻的动作，P_A，t表示t时刻的储电系统的放电量，P_B，t表示t时刻储热系统的放热量，P_C，t表示t时刻的微燃机的消耗燃气量，P_D，t表示t时刻的燃气锅炉的消耗燃气量，P_E，i，t表示第i个电动汽车t时刻的电动汽车充电量，P_H，t表示t时刻的可中断负荷的中断量；

步骤102、建立综合能源系统模型及需求响应机制，其中，综合能源系统包括微型燃气轮机、燃气锅炉、储电装置和储热装置，并将电动汽车当作储能装置，参与电力调度，则有：

微型燃气轮机模型如下式所示：

P_gas，t＝P_C，tL_NG

式中，P_MT，t表示t时刻微型燃气轮机的发电功率，表示微型燃气轮机的发电效率，P_gas，t表示t时刻微型燃气轮机消耗的天然气功率，Q_MT，t表示t时刻微型燃气轮机的产热功率，/>表示微型燃气轮机的散热损失系数，P_C，t表示t时刻微型燃气轮机消耗的燃料量，L_NG表示天然气燃烧的低热值；

燃气锅炉模型如下式所示：

式中，Q_GB，t表示t时刻燃气锅炉的热功率，P_D，t表示t时刻燃气锅炉在消耗的燃气量，表示燃气锅炉的产热效率；

电动汽车充放电模型如下式所示：

当EV_SOC，t+P_G，t≤EV_capacity时，电动汽车的充电量为P_G，t；

当EV_SOC，t+P_G，t≥EV_capacity时，电动汽车的充电量P_G，t＝EV_capacity-EV_SOC，t；

式中，EV_SOC，t为电动汽车t时刻电量，EV_capacity为电动汽车容量；

可中断负荷模型如下式所示：

P_H，min≤P_H，t≤P_H，max

式中，P_H，min表示可中断容量的最小值，P_H，t表示t时刻可中断容量，P_H，max可中断容量的最大值；

储电系统充放电模型如下式所示：

当P_A，t＞0时，储电系统处于放电状态，放电状态包括正常放电状态及过度放电状态，当储电系统处于正常放电状态时：

ESS_min＜ESS_SOC，t-P_A，t≤ESS_capacity

t时刻电网的购电量P_GA，t＝ele_demand+P_G，t-P_A，t-P_MT，t-F_e，t；

式中，ESS_min、ESS_capacity、ESS_SOC，t分别为储电系统最低电量、储电系统容量和储电系统t时刻电量，ele_demand为电负荷需求量，F_e，t为灵活爬坡量；

当储电系统处于过度放电状态时：

ESS_SOC，t-P_A，t≤ESS_min

t时刻电网的购电量P_GA，t＝ele_demand+P_G，t-(ESS_min-ESS_SOC，t)-P_MT，t-F_e，t；

当P_A，t＜0时，储电系统处于充电状态：

ESS_SOC，t-P_A，t≥ESS_capacity

t时刻电网的购电量P_GA，t＝ele_demand+P_G，t-(ESS_SOC，t-ESS_capacity)-P_MT，t-F_e，t；

储热系统蓄/放模型如下式所示：

当P_B，t＞0时，储热系统处于放热状态，放热状态包括正常放热状态及过度放热状态，当储热系统处于正常放热状态时：

HSS_min＜HSS_SOC，t-P_B，t≤HSS_capacity

t时刻的可中断负荷的中断量P_H，t＝heat_demand-P_B，t-Q_MT，t；

式中，HSS_min为储热系统最低热量，HSS_capacity为储热系统容量，HSS_SOC，t储热系统t时刻热量，heat_demand，t为热负荷需求量；

当储热系统处于过度放热状态时：

HSS_SOC，t-P_B，t≤HSS_min

t时刻的可中断负荷的中断量P_H，t＝heat_demand-(HSS_min-HSS_SOC，t)-Q_MT；

当P_B，t＜0时，储热系统处于蓄热状态：

HSS_SOC，t-P_B，t≥HSS_capacity

t时刻的可中断负荷的中断量P_H，t＝heat_demand-(HSS_SOC，t-HSS_capacity)-Q_MT；

步骤103、将环境状态的表达式设计为：

S_t＝(ΔP_grid，ΔP_A，t，ΔP_B，t，ΔP_C，t，ΔP_D，t，ΔP_E，i，t)

式中，S_t代表t时刻环境状态值，ΔP_grid代表t时刻与t-1时刻从电网购电价格的差值，ΔP_A，t代表t时刻与t-1时刻储电系统的电量的差值，ΔP_B，t代表t时刻与t-1时刻储热系统的热量的差值，ΔP_C，t代表t时刻与t-1时刻微燃机的发电量的差值，ΔP_D，t代表t时刻与t-1时刻燃气锅炉的发热量的差值，ΔP_E，t代表时刻与t-1时刻的第i个电动汽车的电动汽车充电量的差值；

步骤104、将奖励函数reward表达式设计为：

式中，price_ele，t为t时刻电网买电电价，price_heat，t为t时刻供热价格，price_gas，t为t时刻天然气价格，price_F，t为t时刻灵活爬坡备用价格，price_IL，t为t时刻可中断补偿价格；

马尔科夫决策过程求解奖励函数reward的最大值，故取耗能成本的负值，当奖励函数reward取得最大值时，综合能源系统的耗能成本最低；

步骤2、使用深度确定性梯度算法对步骤1建立的深度神经网络进行训练，深度确定性梯度算法包括actor当前策略网络、actor目标策略网络、critic当前Q网络和critic目标Q网络；

步骤3、在实际应用中，依据训练好的深度神经网络和新的环境状态输入即可获得关于综合能源系统中微燃机、储电/热装置和燃气锅炉各个时刻的出力情况以及可中断负荷的中断容量情况。

优选地，将一天24小时分为24个时刻，则在所述电动汽车充放电模型中，当t＝17时，EV_SOC，17＝EV_capacity，当t＞17和t＜9时，电动汽车不参与电力调度。

优选地，所述步骤2包括以下步骤：

步骤201、初始化S_t为当前状态序列的第一个状态；

步骤202、actor当前策略网络根据行为策略BP选择动作集A_t，智能体将行为策略BP下达给综合能源系统环境执行该动作集A_t；

步骤203、综合能源系统环境根据动作集A_t，返回综合能源系统环境的奖励值R_t和新的状态S_t+1；

步骤204、actor当前策略网络将转换过程数据(S_t，A_t，R_t，S_t+1)存入回放内容缓冲区中，作为actor当前策略网络的数据集。

步骤205、S_t+1＝S_t；

步骤206、从回放内容缓冲区中，随机采样N个转换过程数据作为actor当前策略网络、critic当前Q网络的一个训练数据；

步骤207、计算当前目标Q值y_j：

步骤208、使用均方差损失函数，通过神经网络的梯度反向传播来更新critic当前Q网络的所有参数ω；

步骤209、通过神经网络的梯度反向传播来更新actor当前策略网络的所有参数θ；

步骤210、如果目标Q网络参数更新频率C％最大迭代次数T＝1，则更新actor目标Q网络参数和actor目标策略网络参数；

步骤211、判断当前R_t是否达到目标，如果未达到目标则转至步骤202。

优选地，步骤202中，所述行为策略BP是根据当前策略和随机噪声生成的随机过程，从这个随机过程采样获得所述动作集A_t的值。

本发明在满足综合能源系统能源供给与消耗的平衡的前提下，基于电价的可中断负荷控制和能源存储装置来平滑电网负荷，实现削峰填谷和最小化园区的耗能成本。与现有技术相比，本发明具有如下优点：

1、在不影响电动汽车用户使用电动汽车的前提下，将电动汽车当作广义储能参与到电力调度中。

2、考虑到灵活爬坡量，可以削减光伏和风电带来的不确定性。

3、在保证园区正常运行的前提下，在用电高峰时刻，对可中断负荷容量进行削减，达到了削峰的同时也降低了园区的耗能成本。

4、通过储电装置和储热装置，在用电低谷期时，储存电能和热能，在用电高峰时参与能源调度，达到了填谷的目的。

附图说明

图1示意了本发明初始训练引入随机噪声；

图2示意了本发明的算法步骤；

图3示意了本发明的实施过程。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

步骤101、将动作的表达式设计为：

A_t＝(P_A，t，P_B，t，P_C，t，P_D，t，P_E，i，t，P_H，t)

在本实施例中，将一天24小时分为24个时刻；

步骤102、建立综合能源系统模型及需求响应机制：

综合能源系统包括微型燃气轮机、燃气锅炉、储电装置和储热装置，并将电动汽车当作储能装置，参与电力调度，则有：

微型燃气轮机模型如下式所示：

P_gas，t＝P_C，tL_NG

式中，P_MT，t表示t时刻微型燃气轮机的发电功率，kW；

表示微型燃气轮机的发电效率，％；

P_gas，t表示t时刻微型燃气轮机消耗的天然气功率，kW；

Q_MT，t表示t时刻微型燃气轮机的产热功率，kW；

表示微型燃气轮机的散热损失系数；

P_C，t表示t时刻微型燃气轮机消耗的燃料量，Nm³；

L_NG表示天然气燃烧的低热值，9.7kWh/m³；

燃气锅炉模型如下式所示：

式中，Q_GB，t表示t时刻燃气锅炉的热功率，kW；

P_D，t表示t时刻燃气锅炉在消耗的燃气量，Nm³；

表示燃气锅炉的产热效率，％；

电动汽车充放电模型如下式所示：

当EV_SOC，t+P_G，t≤EV_capacity时，电动汽车的充电量为P_G，t；

为了保证不影响车主的使用，需要保证在下班时刻，电动汽车的电量处于最大电量状态，即当t＝17时，EV_SOC，17＝EV_capacity，当t＞17和t＜9时，电动汽车不参与电力调度；

可中断负荷模型如下式所示：

P_H，min≤P_H，t≤P_H，max

储电系统(Electricity storage system，ESS)充放电模型如下式所示：

ESS_min＜ESS_SOC，t-P_A，t≤ESS_capacity

当储电系统处于过度放电状态时：

ESS_SOC，t-P_A，t≤ESS_min

t时刻的放电量为ESS_min-ESS_SOC，t，则有：

当P_A，t＜0时，储电系统处于充电状态：

ESS_SOC，t-P_A，t≥ESS_capacity

t时刻储电系统由电源转换成负荷，t时刻的发电量为P_A，t＝ESS_SOC，t-ESS_capacity＜0，则有：

储热系统(Heat storage system，HSS)蓄/放模型如下式所示：

HSS_min＜HSS_SOC，t-P_B，t≤HSS_capacity

t时刻的可中断负荷的中断量P_H，t＝heat_demand-P_B，t-Q_MT，t；

当储热系统处于过度放热状态时：

HSS_SOC，t-P_B，t≤HSS_min

t时刻的放热量为HSS_min-HSS_SOC，t，则有：

当P_B，t＜0时，储热系统处于蓄热状态：

HSS_SOC，t-P_B，t≥HSS_capacity

t时刻储热系统由供热装置转换成热负荷，t时刻的发电量为P_B，t＝HSS_SOC，t-HSS_capacity＜0，则有：

步骤103、将环境状态的表达式设计为：

步骤104、将奖励函数reward表达式设计为：

步骤2、使用深度确定性梯度算法(Deep Deterministic Policy Gradient，DDPG)对步骤1建立的深度神经网络进行训练，深度确定性梯度算法包括actor当前策略网络、actor目标策略网络、critic当前Q网络和critic目标Q网络，包括以下步骤：

步骤201、初始化S_t为当前状态序列的第一个状态；

步骤202、actor当前策略网络根据行为策略(behavior policy，BP)选择动作集A_t，智能体将行为策略BP下达给综合能源系统环境(environment，ENV)执行该动作集A_t；行为策略BP如图1所示是根据当前策略和随机噪声生成的随机过程，从这个随机过程采样获得所述动作集A_t的值；

步骤204、actor当前策略网络将转换过程数据(S_t，A_t，R_t，S_t+1)存入回放内容缓冲区(replay memory buffer，RMB)中，作为actor当前策略网络的数据集；

步骤205、S_t+1＝S_t；

步骤207、计算当前目标Q值y_j：

步骤208、使用均方差损失函数，通过深度神经网络的梯度反向传播来更新critic当前Q网络的所有参数ω；

步骤209、通过深度神经网络的梯度反向传播来更新actor当前策略网络的所有参数θ；

如图3所示，在实际的中的包括如下操作步骤：

(1)使用综合能源系统的历史数据训练模型。

(2)模型进行优化。

(3)将模型下达至综合能源系统控制中心。

(4)综合能源系统控制中心将当天的电价数据、天然气价格数据、预测的电/热负荷数据等数据作为输入，输入到优化的模型当中。模型通过迭代，输出最优的动作，包括：综合能源系统中微燃机、储电/热装置和燃气锅炉各个时刻的出力情况以及可中断负荷的中断容量情况。

(5)综合能源系统控制中心最优动作下达至具体设备，控制设备的出力情况。

Claims

1.一种基于深度强化学习的需求响应控制方法，其特征在于，包括以下步骤：

步骤101、将动作的表达式设计为：

A_t＝(P_A，t，P_B，t，P_C，t，P_D，t，P_E，i，t，P_H，t)

微型燃气轮机模型如下式所示：

P_gas，t＝P_C，tL_NG

燃气锅炉模型如下式所示：

电动汽车充放电模型如下式所示：

当EV_SOC，t+P_G，t≤EV_capacity时，电动汽车的充电量为P_G，t；

可中断负荷模型如下式所示：

P_H，min≤P_H，t≤P_H，max

储电系统充放电模型如下式所示：

ESS_min＜ESS_SOC，t-P_A，t≤ESS_capacity

当储电系统处于过度放电状态时：

ESS_SOC，t-P_A，t≤ESS_min

当P_A，t＜0时，储电系统处于充电状态：

ESS_SOC，t-P_A，t≥ESS_capacity

储热系统蓄/放模型如下式所示：

HSS_min＜HSS_SOC，t-P_B，t≤HSS_capacity

t时刻的可中断负荷的中断量P_H，t＝heat_demand-P_B，t-Q_MT，t；

当储热系统处于过度放热状态时：

HSS_SOC，t-P_B，t≤HSS_min

当P_B，t＜0时，储热系统处于蓄热状态：

HSS_SoC，t-P_B，t≥HSS_capacity

步骤103、将环境状态的表达式设计为：

步骤104、将奖励函数reward表达式设计为：

2.如权利要求1所述的一种基于深度强化学习的需求响应控制方法，其特征在于，将一天24小时分为24个时刻，则在所述电动汽车充放电模型中，当t＝17时，EV_SOC，17＝EV_capacity，当t＞17和t＜9时，电动汽车不参与电力调度。

3.如权利要求1所述的一种基于深度强化学习的需求响应控制方法，其特征在于，所述步骤2包括以下步骤：

步骤201、初始化S_t为当前状态序列的第一个状态；

步骤204、actor当前策略网络将转换过程数据(S_t，A_t，R_t，S_t+1)存入回放内容缓冲区中，作为actor当前策略网络的数据集；

步骤205、S_t+1＝S_t；

步骤207、计算当前目标Q值y_j：

4.如权利要求3所述一种基于深度强化学习的需求响应控制方法，其特征在于，步骤202中，所述行为策略BP是根据当前策略和随机噪声生成的随机过程，从这个随机过程采样获得所述动作集A_t的值。