CN116362471A

CN116362471A - 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法

Info

Publication number: CN116362471A
Application number: CN202310038198.1A
Authority: CN
Inventors: 谢东日; 明东岳; 彭涛; 丁黎; 傅晨; 樊立攀; 刘俊; 聂永欣
Original assignee: Metering Center of State Grid Hubei Electric Power Co Ltd
Current assignee: Metering Center of State Grid Hubei Electric Power Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-06-30

Abstract

本发明公开了一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法，该发明主要包括以下步骤：首先，收集多类型建筑的历史负荷数据和储能系统数据，建立负荷模型，提取动作空间和观测空间；其次，设计奖励函数，并对建筑物的需求响应过程建立马尔可夫过程模型；第三，建立动作价值网络，目标价值网络和策略网络；最后，使用历史负荷数据和储能系统数据训练上述网络模型，训练后的网络可根据当前建筑物的负荷状态输出负荷动作序列和负荷可调潜力。本发明考虑到储能系统的参与会增加需求响应动作空间的维度并且引入离散化变量，在更新状态价值网络和策略网络参数的过程中引入动作熵，提高了收敛速度，可实时评估负荷可调潜力。

Description

考虑储能参与的柔性深度强化学习建筑负荷需求响应方法

技术领域

本发明涉及电力系统控制技术领域，具体涉及考虑储能参与的柔性深度强化学习建筑负荷需求响应方法。

背景技术

需求响应是指当电力批发市场价格升高或系统可靠性受威胁时,电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后,改变其固有的习惯用电模式，达到减少或者推移某时段的用电负荷而响应电力供应,从而保障电网稳定,并抑制电价上升的短期行为，其作为一种重要的电力需求管理方法逐渐引起了国内外研究人员的关注。

目前有很多技术可实现需求响应的建模和应用,包括深度学习,强化学习和区块链技术。需求响应系统的建模一般从以下几个方面考虑：用户用电负荷的建模,用户用电画像,需求响应价格策略,用户负荷的响应策略,新能源的消纳。

深度强化学习作为一种能够与环境交互的智能算法，成为需求响应这一领域新的研究趋势。由于深度强化学习通过不断与环境交互来提取优化知识，当环境变化时，其提取到的优化知识也能在线更新，自动适应被控系统的不确定性，自动探索到最优解。

但是，传统的离散型深度学习算法在面对高维度的动作空间时，常常会出现无法收敛或者收敛速度过慢的结果，同时也极易陷入局部最优。

发明内容

为了克服上述现有技术存在的问题，本发明的目的在于提供一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法，解决了用户用电习惯随时间变化后，需求响应策略无法及时适配用户用电习惯变化的问题。

为解决上述技术问题，本发明所采取的技术方案为：

考虑储能参与的柔性深度强化学习建筑负荷需求响应方法，该方法需要收集历史负荷数据，建立负荷模型，根据负荷模型构建强化学习环境，设计奖励函数，对需求响应过程建立马尔可夫过程模型，使用深度强化学习算法训练动作价值网络，目标价值网络和策略网络，包括以下步骤：

S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲，同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据，确定建筑物内不同种类负荷的负荷模型与负荷静态参数，根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间；

S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数，并定义折扣回报,对需求响应过程建立马尔可夫过程模型，并构建深度强化学习环境；

S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络，参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。

S4使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数，用于更新网络参数的数据为历史负荷数据，参数更新收敛条件为整个需求响应时期的折扣回报稳定；训练得到的策略网络根据建筑物负荷状态输出负荷响应动作，目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力，动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。

所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型；其中，温控负荷模型包括空调系统负荷模型和供暖系统负荷模型；

所述不响应负荷模型为：

其中，

指编号为i的建筑物t时刻不响应负荷的功率，/>

指编号为i的建筑物在开启时刻/>

到关闭时刻/>

之间的平均功率，/>

指电力系统内所有建筑物不响应负荷的总功率；

所述空调系统负荷模型为：

其中，C_in指建筑物室内等效热容，R_out指建筑物室外的等效热阻，

指建筑物t时刻空调系统的总功率，η_AC指空调系统的等效能源效率，T_in，t指t时刻建筑物的等效室内温度，T_out，t指t时刻建筑物的等效室外温度，t指时间，单位为小时；

所述供暖系统负荷模型为：

其中，m代表供暖系统内流体的质量，C代表供暖系统循环水管内流体的比热容，(mC)_in表示供暖系统散热器内流体的储热系数，t代表时间，单位为小时，U_p和A_p分别为循环水管的等效传热系数和接触面积，U_r和A_r表示散热器的等效传热系数和等效面积，U_wall和A_wall表示建筑物外墙的等效传热系数和等效面积,U_win和A_win表示建筑物窗户的等效传热系数和等效面积,T_r表示散热器内流体的等效温度，T_out表示建筑物室外的环境温度，T_in表示建筑物室内的环境温度，Qs指其他设备产生的热能，等于不响应负荷在单位时间内产生的热能。

所述储能系统的负荷模型为：

其中，SOC_t指储能系统在t时刻的荷电状态，SOC_t-1指储能系统在t-1时刻的荷电状态，

表示储能系统在t-1时刻的充电功率，/>

表示储能系统在t-1时刻的输出功率，η_charge和η_output表示储能系统的充电效率指数和放电效率指数，η_loss指储能系统荷电状态随时间降低的损耗指数，Δt指t-1时刻和t时刻之间的时间间隔。

所述S1中需求响应的动作空间由建筑物的负荷可调参数组成，所述S2中观测空间由收集的历史负荷数据组成，分别包含以下参数：

其中，S_i，t表示i栋建筑在t时刻的负荷数据观测值，A_i，t表示i栋建筑在t时刻的负荷可调参数，

表示电力系统内建筑物i不响应负荷的总功率，T_out指建筑物的室外温度，T_in指建筑物的室内温度，Qs指其他设备产生的热能，/>

指建筑物t时刻的空调系统的总功率，/>

指储能系统的充电功率，/>

指储能系统的输出功率，/>

表示t时刻编号为i的建筑物空调系统的可调参数，/>

表示t时刻编号为i的建筑物供暖系统的可调参数，/>

表示t时刻编号为i的建筑物储能系统的可调参数。

所述S2中的奖励函数包括：负荷响应奖励和越限惩罚，即

其中，

表示t时刻的负荷响应奖励，/>

表示t时刻的越限惩罚；

t时刻的负荷响应奖励为：

其中，

为电力系统总负荷功率，/>

指i栋建筑物与电网交互的净功率：

其中，

为编号为i的建筑物t时刻不响应负荷的功率，/>

为编号为i的建筑物t时刻空调系统负荷的功率，/>

指编号为i的建筑物t时刻供暖系统负荷的功率，/>

指编号为i的建筑物t时刻储能系统负荷的功率；

越限惩罚为：

其中，

表示i栋建筑t时刻的越限惩罚，/>

表示i栋建筑t时刻的空调系统的越限惩罚，/>

表示i栋建筑t时刻的供暖系统的越限惩罚，/>

表示i栋建筑t时刻温控系统的浪费惩罚，/>

表示i栋建筑t时刻的储能系统的越限惩罚；

空调系统的越限惩罚为：

其中，σ表示越限惩罚系数，T_set表示温控系统的设定温度，T_min表示温控系统的最小设定温度，T_out表示建筑物室外的环境温度；

供暖系统的越限惩罚为：

温控系统的浪费惩罚为：

其中，K_p表示越限惩罚系数，

表示t-1时刻编号为i的建筑物供暖系统的可调参数，/>

表示t-1时刻编号为i的建筑物空调系统的可调参数；

储能系统的越限惩罚为：

其中，SOC_min表示储能系统最小荷电状态，SOC_max表示储能系统最大荷电状态；

根据奖励函数、动作空间和状态空间建立马尔可夫过程模型，即建筑物下一时刻的负荷状态空间只与上一时刻的负荷状态空间有关，与之前时刻的负荷状态空间无关，且负荷状态空间的转换过程不随时间的变化而变化；依据马尔可夫过程模型以及建筑物负荷模型构建深度强化学习环境。

所述S3中的依据马尔可夫过程模型建立1个策略网络，2个动作价值网络，2个目标价值网络；策略网络的网络架构为三层卷积神经网络与两层全连接神经网络，动作价值网络的网络架构为三层卷积神经网络，两层全连接神经网络与一层池化层，目标价值网络的网络架构为三层卷积神经网络，两层全连接神经网络与一层池化层。

所述S3中的参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度；

状态价值网络的柔性Bellman残差为：

其中，J_Q(φ)指状态价值函数的柔性Bellman残差，Q_π(S_t，A_t)指状态价值函数，γ表示折扣化系数，Q(S_t，A_t)指目标价值函数，αlogπ_θ(A_t|S_t)指策略π_θ的动作熵，

表示期望，R(S_t，A_t)表示在环境在状态空间S_t和动作空间A_t下获得的奖励值；状态价值网络和目标价值网络输出状态价值函数和目标价值函数的期望；

动作价值网络的KL散度为：

其中，J_π(θ)表示动作价值函数的KL散度，策略网络输出动作价值函数的期望。

所述S4中网络参数的更新公式如下：

ε←(1-τ)φ+τε

其中，φ表示状态价值网络的参数，θ表示策略网络的参数，ε表示目标价值网络的参数，λ_Q指训练状态价值网络的学习率，λ_π表示训练策略网络的学习率，τ表示目标价值网络的更新参数，J_Q(φ)指状态价值函数的柔性Bellman残差；

更新流程如下：策略网络输入当前时刻的建筑物的负荷数据，输出可调参数，可调参数作用于环境得到下一个时刻的建筑物负荷数据，建筑物将下一时刻的建筑物负荷数据输入目标价值网络，目标价值网络输出下一时刻目标值，将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络，取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值，根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵，使用动作熵计算得到的KL散度更新动作价值网络，使用动作熵计算得到的柔性Bellman残差更新状态价值网络，最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络

本发明以智能电网，需求响应技术和强化学习技术为基础，以独立建筑物为单位，建立了考虑用户负荷曲线特征的需求响应系统。该系统通过对建筑物中负荷模型的调度，降低系统总的负荷功率峰值，平抑负荷功率波动。

特别地，本发明针对建筑物的需求响应策略由于负荷动作空间维度较大且大多为连续变量导致使用传统离散方法训练神经网络导致的无法收敛，收敛速度较慢的问题，使用柔性深度强化学习算法，使用引入动作熵的柔性Bellman残差和KL散度更新状态价值网络和动作价值网络，提高了训练的收敛速度，同时优化了需求响应策略的“削峰填谷”效果，使得需求响应技术可以更快速地发掘建筑物负荷的响应能力。

附图说明

图1为本发明方法流程图。

图2为神经网络参数更新示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

在本实施例中，系统内参与需求响应的建筑物有九栋，主要包括一个中型写字楼，一个快餐店，一栋移动零售百货，一栋综合购物广场和五栋中型多户住宅。所有建筑位于同一地级市，处于相同的气候区。以往的负荷数据时间跨度为5年，时间单位为小时。图1是基于深度强化学习Actor-Critic算法考虑储能参与的建筑负荷需求响应方法的流程图。如图1所示，包括以下步骤：

步骤S1，收集电力系统内建筑物中负荷可调参数和负荷静态参数的范围与量纲，同时收集电力系统内所有建筑物的历史负荷数据，确定建筑物内不同种类负荷的负荷模型与负荷静态参数，根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间。

由于收集的负荷数据维度和数据量较大，这里展示负荷数据的主要特征：

表1某地级市数据集建筑物历史负荷数据特征

强化学习环境参数收集如下：

表2负荷静态参数(强化学习环境参数)

负荷参数	参数设置值
		建筑物室内的等效传热面积	5000m³
建筑物室内的等效传热系数	0.8555
		建筑物外墙的等效传热面积	15000m³
建筑物外墙的等效传热系数	0.9533
		建筑物窗户的等效传热面积	1000m³
建筑物窗户的等效传热系数	0.9123
		中央空调等效能源效率	0.466

所有建筑物中均包含不响应负荷和温控负荷。通过智能电网，调度平台可以获得数据类型有：建筑物的供暖功率，空调系统功率，供暖系统容量，室内温度，室外温度，不响应负荷功率，储能系统的荷电状态。

步骤S2，根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数，并定义折扣回报,对需求响应过程建立马尔可夫过程模型，并构建深度强化学习环境。

负荷响应的奖励的需要首先计算总负荷功率和建筑物与电力系统净交换负荷功率，计算当前时刻总负荷功率与过去一天负荷功率平均值的差值，可以得到目前电力系统处于峰值还是谷值状态，对应建筑物需要提高建筑物功率还是降低负荷功率，根据所需动作设置奖励值，帮助建筑物中的储能系统在系统负荷处于谷值时快速充电。

负荷动态参数范围与量纲如下表所示：

表3负荷动态参数范围和量纲

负荷参数	参数设置值
		空调系统最大功率	100kW
空调系统最大功率	10kW
		供暖系统最大功率	100kW
供暖系统最大功率	10kW
		储能系统最大荷电状态	0.99
储能系统最小荷电状态	0.10

奖励函数中越限惩罚的设计参考上述表格。

步骤S3，依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络，参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。

策略网络的网络架构为三层卷积神经网络与两层全连接神经网络，动作价值网络的网络架构为三层卷积神经网络，两层全连接神经网络与一层池化层，目标价值网络的网络架构为三层卷积神经网络，两层全连接神经网络与一层池化层。

步骤S4，使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数，用于更新网络参数的数据为历史负荷数据，参数更新收敛条件为整个需求响应时期的折扣回报稳定。训练得到的策略网络可根据建筑物负荷状态输出负荷响应动作，目标价值网络可根据建筑物负荷状态评估建筑物负荷可调潜力，动作价值网络可对建筑物的负荷动作进行负荷可调潜力评估。

图2是价值网络，目标价值网络和策略网络参数更新流程。参数更新流程如下：策略网络输入当前时刻的建筑物的负荷数据，输出可调参数，可调参数作用于环境得到下一个时刻的建筑物负荷数据，建筑物将下一时刻的建筑物负荷数据输入目标价值网络，目标价值网络输出下一时刻目标值，将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络，取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值，根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵，使用动作熵计算得到的KL散度更新动作价值网络，使用动作熵计算得到的柔性Bellman残差更新状态价值网络，最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络。。

网络中超参数设定如下：

表4深度强化学习超参数设置

参数类型	参数设置值
		学习率	3×10^-4
衰减系数	5×10^-3
		折扣系数	0.99
目标熵	2×10^-4

最终，神经网络经过历史负荷数据的训练，可以输出需求响应策略，该策略可在保证电力系统稳定性的前提下，降低电力系统的负荷波动，得到电力系统在引入电力需求响应方法前后的负荷曲线的特征值对比结果如下：

表5加入需求响应系统前后的负荷特征对比

	无需求响应系统	有需求响应系统
			负荷曲线坡度	0.941	0.912
峰谷因数	1.078	0.921
			平均日均净需求量峰值	1.071	0.939
最高峰值	1.221	0.989

在没有需求响应参与的情况下，所有建筑物一年的总能耗为6696×10³kWh，而采用本方法后，所有建筑物一年的总能耗为6291×10³kWh，下降了6％。

具体而言，发明中的需求响应系统采用“集中训练+集中调度”的调度模式，需求响应系统收集用户数据，使用系统内所有建筑物的数据进行训练，以获得针对系统内全部建筑的负荷响应策略，最终的优化目标为在不破坏电力系统稳定性的前提下，系统全部的建筑物的折扣回报(即当前时刻与未来所有时刻的折扣化奖励的和)最大。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.考虑储能参与的柔性深度强化学习建筑负荷需求响应方法，其特征在于，该方法需要收集历史负荷数据，建立负荷模型，根据负荷模型构建强化学习环境，设计奖励函数，对需求响应过程建立马尔可夫过程模型，使用深度强化学习算法训练动作价值网络，目标价值网络和策略网络，包括以下步骤：

S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络，参考柔性Actor-Critic算法推导状态价值网络的柔性Bel lman残差和动作价值网络的KL散度。

S4使用状态价值网络的柔性Bel lman残差和动作价值网络的KL散度更新网络参数，用于更新网络参数的数据为历史负荷数据，参数更新收敛条件为整个需求响应时期的折扣回报稳定；训练得到的策略网络根据建筑物负荷状态输出负荷响应动作，目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力，动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。

2.如权利要求1所述的方法，其特征在于，所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型；其中，温控负荷模型包括空调系统负荷模型和供暖系统负荷模型；

所述不响应负荷模型为：

其中，

指编号为i的建筑物t时刻不响应负荷的功率，/>

指编号为i的建筑物在开启时刻/>

到关闭时刻/>

之间的平均功率，/>

指电力系统内所有建筑物不响应负荷的总功率；

所述空调系统负荷模型为：

所述供暖系统负荷模型为：

其中，m代表供暖系统内流体的质量，C代表供暖系统循环水管内流体的比热容，(mC)_in表示供暖系统散热器内流体的储热系数，t代表时间，单位为小时，U_p和A_p分别为循环水管的等效传热系数和接触面积，U_r和A_r表示散热器的等效传热系数和等效面积，U_wall和A_wall表示建筑物外墙的等效传热系数和等效面积,U_win和A_win表示建筑物窗户的等效传热系数和等效面积,T_r表示散热器内流体的等效温度，T_out表示建筑物室外的环境温度，T_in表示建筑物室内的环境温度，Q_S指其他设备产生的热能，等于不响应负荷在单位时间内产生的热能。

所述储能系统的负荷模型为：

表示储能系统在t-1时刻的充电功率，/>

3.如权利要求1所述的方法，其特征在于，所述S1中需求响应的动作空间由建筑物的负荷可调参数组成，所述S2中观测空间由收集的历史负荷数据组成，分别包含以下参数：

表示电力系统内建筑物i不响应负荷的总功率，T_out指建筑物的室外温度，T_in指建筑物的室内温度，Q_S指其他设备产生的热能，/>

指建筑物t时刻的空调系统的总功率，

指储能系统的充电功率，/>

指储能系统的输出功率，/>

表示t时刻编号为i的建筑物空调系统的可调参数，/>

表示时刻编号为i的建筑物供暖系统的可调参数，/>

表示t时刻编号为i的建筑物储能系统的可调参数。

4.如权利要求1所述的方法，其特征在于，所述S2中的奖励函数包括：负荷响应奖励和越限惩罚，即

其中，

表示t时刻的负荷响应奖励，/>

表示t时刻的越限惩罚；

t时刻的负荷响应奖励为：

其中，

为电力系统总负荷功率，/>

指i栋建筑物与电网交互的净功率：

其中，

为编号为i的建筑物t时刻不响应负荷的功率，/>

为编号为i的建筑物t时刻空调系统负荷的功率，/>

指编号为i的建筑物t时刻供暖系统负荷的功率，/>

指编号为i的建筑物t时刻储能系统负荷的功率；

越限惩罚为：

其中，

表示i栋建筑t时刻的越限惩罚，/>

表示i栋建筑t时刻的空调系统的越限惩罚，/>

表示i栋建筑t时刻的供暖系统的越限惩罚，/>

表示i栋建筑t时刻温控系统的浪费惩罚，/>

表示i栋建筑t时刻的储能系统的越限惩罚；

空调系统的越限惩罚为：

供暖系统的越限惩罚为：

温控系统的浪费惩罚为：

其中，K_p表示越限惩罚系数，

表示t-1时刻编号为i的建筑物供暖系统的可调参数，/>

表示t-1时刻编号为i的建筑物空调系统的可调参数；

储能系统的越限惩罚为：

5.如权利要求1所述的方法，其特征在于，所述S3中的依据马尔可夫过程模型建立1个策略网络，2个动作价值网络，2个目标价值网络；策略网络的网络架构为三层卷积神经网络与两层全连接神经网络，动作价值网络的网络架构为三层卷积神经网络，两层全连接神经网络与一层池化层，目标价值网络的网络架构为三层卷积神经网络，两层全连接神经网络与一层池化层。

6.如权利要求1所述的方法，其特征在于，所述S3中的参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度；

状态价值网络的柔性Bellman残差为：

动作价值网络的KL散度为：

7.如权利要求1所述的方法，其特征在于，所述S4中网络参数的更新公式如下：

ε←(1-τ)φ+τε

更新流程如下：策略网络输入当前时刻的建筑物的负荷数据，输出可调参数，可调参数作用于环境得到下一个时刻的建筑物负荷数据，建筑物将下一时刻的建筑物负荷数据输入目标价值网络，目标价值网络输出下一时刻目标值，将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络，取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值，根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵，使用动作熵计算得到的KL散度更新动作价值网络，使用动作熵计算得到的柔性Bellman残差更新状态价值网络，最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络。