CN116468291A

CN116468291A - 含电动汽车充电站的商业建筑混合能源调度方法

Info

Publication number: CN116468291A
Application number: CN202310402111.4A
Authority: CN
Inventors: 季霖宇; 陈茗; 郁进明; 张光林
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-21

Abstract

本发明涉及一种含电动汽车充电站的商业建筑混合能源调度方法，在演员‑评论家(Actor‑Critic)框架基础上，为了适用于大规模状态输入和连续动作空间，对算法进行改进：软最大化策略优化算法，在不知道状态转移概率的情况下，降低了系统的总成本并兼顾了用户满意度。本发明方法不仅优化了智能建筑系统的总能源成本和碳排放成本，还兼顾了建筑内部用户的需求满意度。通过将深度神经网络引入强化学习，更加适用于大规模场景下的连续动作空间的策略学习，在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化，相对其他技术能获得更低的成本和更高的用户满意度，并且降低了碳排放量。

Description

含电动汽车充电站的商业建筑混合能源调度方法

技术领域

本发明涉及一种调度技术，特别涉及一种含电动汽车充电站的商业建筑混合能源调度方法。

背景技术

全球能源消耗迅速增长，导致化石燃料的使用增加，引发了能源危机、全球变暖和环境污染等重大问题。因此，节能和清洁能源的发展变得至关重要。建筑物是城市地区最大的能源消费者之一，在2021年建筑能源消耗和二氧化碳排放分别占全球能源消耗和全球二氧化碳排放的约34％和37％。因此，减少建筑能源消耗在缓解这些问题方面起着至关重要的作用。

近年来，物联网、机器学习和大数据分析等技术的出现导致智能建筑引起了越来越多的关注。智能建筑配备了先进的物联网传感设备，如温度传感器、光传感器和湿度传感器，使它们能够收集关于室内和室外环境的各种信息，包括温度、占用情况、湿度水平和光强度。要实现智能建筑的功能，建筑能源管理系统(BEMS)是必不可少的。通过处理和利用收集的数据，BEMS可以智能利用分布式能源资源、管理各种类型的负荷，并为用户提供舒适且具有成本效益的环境。BEMS还可以帮助实现能源消耗、能源成本、碳排放和用户舒适度之间的最佳平衡。

高效的能量管理方法对BEMS的成功至关重要。然而，BEMS的开发面临着几个挑战。首先，系统参数存在显著的不确定性，例如电价、室内外温度和可再生能源发电量，这些参数可能随时发生变化，导致系统运行不稳定。其次，当前的决策会影响未来的决策，例如当能量储存系统充满电时，多余的电能无法存储。再其次，需要控制各种不同类型的负载，每种负载具有不同的功耗级别和操作约束。最后，BEMS通常具有多个目标，包括降低能源消耗、确保居住者舒适度和减少碳排放。

与此同时，随着电动汽车行业的不断扩大，越来越多的商业建筑为用户提供电动汽车充电服务。然而，对于电动汽车充电服务，直接协调和调度方法受到通信、计算和隐私约束的限制，均增加了BEMS开发难度。

发明内容

针对建筑能源调度随着不确定性条件增加而难度增加问题，提出了一种含电动汽车充电站的商业建筑混合能源调度方法，考虑建筑内部热需求和电需求，通过制定合适的能量调度策略和动态定价策略，优化建筑运营总成本和碳排放量。

本发明的技术方案为：一种含电动汽车充电站的商业建筑混合能源调度方法，具体包括如下步骤：

1)初始化系统参数，设置每个时隙为1h，基于演员-评论家框架，建立2个深度价值Q网络、1个深度策略网络和2个目标Q网络；

演员是指策略函数π(a∣s)，即学习一个策略π来得到尽量高的回报；

评论家是指动作价值函数Q(s，a)，对当前策略的价值函数进行估计，即评估演员的好坏；

基于价值函数，演员-评论家算法进行单步更新参数，不需要等到回合结束才进行更新；动作价值函数Q的定义在某一个状态s，采取某一个动作a，假设策略就是π的情况下会得到的累积奖励的期望值V^π(s)；

初始化2个深度价值Q网络和1个深度策略网络π_φ(a_t|s_t)，对应的3个神经网络参数分别记为θ₁,θ₂,φ；

将两个深度价值Q网络的模型以及初始参数复制到两个目标Q网络，建立两个目标Q网络用于软更新以减少估计值的偏差，目标Q网络初始参数结构直接从深度价值Q网络中复制，参数在右上角记’则表示目标网络参数，目标网络参数后续训练过程中根据更新的深度价值Q网络参数和软更新系数进行更新；设置两种网络学习率均为0.003,将未来奖励的折扣因子设置为γ＝0.99，软更新系数τ＝0.005；初始化一个大小为B的经验回放池D用于存放过去的经验；

2)观察当前时隙的系统状态s_t＝{t,n_t ^c,n_t ^wait,T_t ⁱⁿ,T_t ^out,E_t,Q_t,Q_t ^d,P_t ^non,I_t,P_t ^ev,ρ_t ^gas,ρ_t ^grid}，s_t从左到右分别表示当前时间指数t、电动汽车充电站的当前停放车辆数n_t ^c、电动汽车充电站的当前等待充电车辆数n_t ^wait、建筑室内温度T_t ⁱⁿ、室外温度T_t ^out、储能系统当前能量E_t、储热系统当前储存的热量Q_t、建筑内部产生的热需求Q_t ^d、建筑内部产生的不可调度电力需求P_t ^non、当前太阳辐射强度I_t、电动汽车充电站当前时隙能耗P_t ^ev、天然气价格ρ_t ^gas、实时电价ρ_t ^grid；

将系统状态s_t输入到深度策略网络中，从深度策略网络输出动作的均值和标准差，按照该均值和标准差生成一个正态分布并从中采样得到动作a_t＝{ρ_t ^ev,P_t ^gas,P_t ^hvac,P_t ^ess}～π_φ(a_t|s_t)，其中动作a_t从左到右分别表示电动汽车充电站的实时充电定价ρ_t ^ev、热电联产机组的能量输入P_t ^gas、暖通空调系统的能量输入P_t ^hvac、储能系统的充/放电功率P_t ^ess；

3)执行当前动作a_t，到达下一环境状态s_t+1，计算当前系统成本和居民不满程度，获取奖励函数r_t；

4)将得到的数据样本(s_t,a_t,r_t,s_t+1)存入经验回放池D中；

5)将下一状态s_t+1设置为当前状态；

6)从经验回放池D中采样K个数据样本，计算当前深度策略的熵值和状态-动作价值函数Q_θ(s_t,a_t)，通过策略梯度方法更新深度策略网络和深度价值网络参数；

7)重复步骤2)-6)直至达到最大迭代次数，保存神经网络的参数，至此算法训练部分完成；

8)在实际决策阶段，下载深度策略网络模型及参数，给定一个状态输入，该网络即可输出最优调度决策，使得系统总成本最小化。

进一步，所述奖赏函数r_t为t时隙负的系统能源总成本与碳排放成本和用户不满程度的加权和。

进一步，所述步骤6)中策略梯度方法是用梯度下降最小化损失函数以及梯度上升最大化累计折扣回报G_t，以上神经网络均使用的是Adam优化器，具体的优化更新步骤如下：

6.1)两个深度价值Q网络训练：使用目标Q网络输出当前动作真实价值的估计值，通过梯度下降减小损失函数来更新深度价值Q网络；K个数据样本分别送入两个深度价值Q网络中，两个深度价值Q网络输出价值函数，在使用时取二者输出较小值，即两个目标价值网络的输出同理，这一改动直接通过取较小值来抑制时序差分方法中产生的高估问题，有效提高算法稳定性；

计算深度价值Q网络的损失函数其中Q_target(s_t,a_t)是根据目标Q网络和得到的奖励函数估算出的时序差分目标，根据贝尔曼等式迭代计算：/>其中是状态价值函数，用于估计某一状态的好坏，-αlog(π_φ(a_t|s_t)表示当前深度策略的熵值，之后利用梯度下降方法最小化损失函数L_Q(θ)，并通过反向传播更新深度Q网络参数。

6.2)设深度策略网络输出的均值和标准差为x和y，引入一个从标准高斯分布中随机采样得到的的随机变量ò_t，令a_t＝f_φ(_t,a_t)＝x+_ty，则动作a_t转变为了以ò_t为变量的函数，损失函数如下：

而后利用梯度下降方法最小化损失函数，通过反向传播更新深度策略网络参数；

6.3)通过软更新的方式更新两个目标网络的参数；软更新具体方式：

本发明的有益效果在于：本发明含电动汽车充电站的商业建筑混合能源调度方法，奖励函数的设计不仅优化了智能建筑系统的总能源成本和碳排放成本，还兼顾了建筑内部用户的需求满意度。通过将深度神经网络引入强化学习，更加适用于大规模场景下的连续动作空间的策略学习，在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化，相对其他技术能获得更低的成本和更高的用户满意度，并且降低了碳排放量。

附图说明

图1为本发明的智能商业建筑混合能量调度系统和电动汽车充电站模型图；

图2为本发明所提方法与其他同类型方法收敛速度对比图；

图3为本发明方法所提的含电动汽车充电站的商业建筑混合能源调度方法与其他基准算法长期总运行成本对比图；

图4为本发明所提的含电动汽车充电站的商业建筑混合能源调度方法在调度暖通空调系统时室内温度和其他基准算法对比图；

图5为本发明所提方法中大规模连续动作空间下的电动汽车充电站动态定价策略与固定定价策略消耗功率与收入对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实例公开了一种含电动汽车充电站的商业建筑混合能源调度方法，包括以下步骤：

1)初始化系统参数，设置每个时隙为1h，基于演员-评论家(Actor-Critic)框架(演员-评论家算法(Actor-Critic)是一种结合策略梯度和时序差分学习的强化学习方法，其中：演员(Actor)是指策略函数π(a∣s)，即学习一个策略π来得到尽量高的回报；评论家(Critic)是指动作价值函数Q(s，a)，对当前策略的价值函数进行估计，即评估演员的好坏；基于价值函数，演员-评论家算法可以进行单步更新参数，不需要等到回合结束才进行更新；动作价值函数Q的定义在某一个状态s，采取某一个动作a，假设策略就是π的情况下会得到的累积奖励的期望值V^π(s))，初始化2个深度价值Q网络(critic-Q network)和1个深度策略网络(actornetwork)π_φ(a_t|s_t)，对应的3个神经网络参数分别记为θ₁,θ₂,φ。将两个深度价值Q网络的模型以及初始参数复制到两个目标Q网络，建立两个目标Q网络用于软更新以减少估计值的偏差。目标Q网络初始参数结构直接从深度价值Q网络中复制，参数在右上角记’则表示目标网络参数，目标网络参数后续训练过程中根据更新的深度价值Q网络参数和软更新系数进行更新。设置两种网络学习率均为0.003,将未来奖励的折扣因子设置为γ＝0.99，软更新系数τ＝0.005；初始化一个大小为B的经验回放池D用于存放过去的经验；

2)观察当前时隙的系统状态s_t从左到右分别表示当前时间指数t(当前时隙属于当天的第几个时隙)、电动汽车充电站的当前停放车辆数/>电动汽车充电站的当前等待充电车辆数n_t ^wait、建筑室内温度T_t ⁱⁿ、室外温度T_t ^out、储能系统当前能量E_t、储热系统当前储存的热量Q_t、建筑内部产生的热需求Q_t ^d、建筑内部产生的不可调度电力需求P_t ^non、当前太阳辐射强度I_t、电动汽车充电站当前时隙能耗P_t ^ev、天然气价格ρ_t ^gas、实时电价ρ_t ^grid。将系统状态s_t输入到深度策略网络中，从深度策略网络输出动作的均值和标准差，按照该均值和标准差生成一个正态分布并从中采样得到动作a_t＝{ρ_t ^ev,P_t ^gas,P_t ^hvac,P_t ^ess}～π_φ(a_t|s_t)，其中动作a_t从左到右分别表示电动汽车充电站的实时充电定价ρ_t ^ev、热电联产机组的能量输入P_t ^gas、暖通空调系统的能量输入P_t ^hvac、储能系统的充/放电功率P_t ^ess。

3)执行当前动作a_t，到达下一环境状态s_t+1，计算当前系统成本(系统用电成本加上天然气成本减去电动汽车充电站的收益)和居民不满程度，获取奖励函数r_t；奖赏函数r_t为t时隙负的系统能源总成本与碳排放成本和用户不满程度的加权和；

4)将得到的数据样本(s_t,a_t,r_t,s_t+1)存入经验回放池D中；

5)将下一状态s_t+1设置为当前状态；

策略梯度方法是用梯度下降最小化损失函数以及梯度上升最大化累计折扣回报G_t，以上神经网络均使用的是Adam优化器。具体的优化步骤如下：

6.1)两个深度价值Q网络训练：使用目标Q网络输出当前动作真实价值的估计值，通过梯度下降减小损失函数来更新深度价值Q网络；K个数据样本分别送入两个深度价值Q网络中，两个深度价值Q网络输出价值函数，在使用时取二者输出较小值，即两个目标价值网络的输出同理，这一改动直接通过取较小值来抑制时序差分方法中产生的高估问题，能够有效提高算法稳定性；

计算深度价值Q网络的损失函数其中Q_target(s_t,a_t)是根据目标Q网络和得到的奖励函数估算出的时序差分目标，根据贝尔曼等式迭代计算：/>其中是状态价值函数，用于估计某一状态的好坏，-αlog(π_φ(a_t|s_t)表示当前深度策略的熵值。之后利用梯度下降方法最小化损失函数L_Q(θ)，并通过反向传播更新深度Q网络参数。

6.2)利用深度策略Q网络的输出计算当前策略的KL散度(即当前策略与符合Q值策略的差距)：其中Z_θ(s_t)是配分函数，对梯度没有贡献，因此在后续计算损失函数时可以省略，由于动作是由策略采样得到无法计算梯度，因此采用重参数化技巧，设深度策略网络输出的均值和标准差为x和y，引入一个从标准高斯分布中随机采样得到的的随机变量ò_t，令a_t＝f_φ(_t,a_t)＝x+_ty，则动作a_t转变为了以ò_t为变量的函数，因而可以对其求取梯度，将损失函数改写如下：

而后利用梯度下降方法最小化损失函数，通过反向传播更新深度策略网络参数。

不难发现，相比于其他能源互联网能量调度优化方法，本发明利用深度强化学习算法，在演员-评论家(Actor-Critic)框架基础上，为了适用于大规模状态输入和连续动作空间，对算法进行改进：软最大化策略优化算法，在不知道状态转移概率的情况下，降低了系统的总成本并兼顾了用户满意度。因此，本发明所提算法可以达到智能建筑系统成本和碳排放量最优化的目的，具有良好的可行性和有效性。

本实施例结合说明书附图1至图5对本发明提出能源互联网混合能量调度方法作详细的说明。

如图1所示，本发明开发了一个建筑能量管理系统，配备可再生能源光伏发电系统、主电网、天然气站、储能系统、储热系统、热电联产机组、暖通空调系统、不可调度负载以及附带一个电动汽车充电站，其中电动汽车充电站的实时定价是动态的，由建筑能量管理系统实时决定。系统的总成本主要由向电网购电的成本加上向天然气站购买天然气的成本减去电动汽车充电站的利润组成，此外在消耗能量时会根据能量来源产生相应的碳排放量，在总成本中以加权形式与其他成本相加，该系统需要根据当前的可再生能源产量、时变电价、用户用电需求等高度随机的状态，通过在线学习算法，合理的调度系统内部电能和热能，从而在满足用户需求的同时减少系统运行总成本，并且有效减少碳排放量，促进低碳型智能建筑的产生。

在每个时隙内，系统接收到当前的可再生能源产量、时变电价、用户用电需求等状态信息后，将其输入到深度策略神经网络，输出连续动作空间下的能量调度决策，进行系统的能量调度，得到当前调度下的系统总成本，并转到下一时隙的状态。对本发明的混合能量调度模型进行仿真性能验证，仿真结果如图2-图5所示。

图2的仿真结果表明，与著名的连续空间深度强化学习算法DDPG对比，本发明的SAC在收敛速度和结果上均更优，同时更稳定。图3比较了本发明的算法与5种基准算法(分别是传统基于规则的控制方法、基于DDPG的深度强化学习方法，贪婪算法，以及分别未采用动态定价和未考虑碳排放的本文算法)在30天内长期系统运行总成本，依次对应图3中proposed、baseline1、baseline2、baseline3、baseline4、baseline5，结果表明在长期运行时本发明的算法能够取得最低的成本。图4详细展示了本发明的算法和前三种基准算法在室内温度控制上的具体结果，结果显示，本发明的算法在48小时调度中始终保持室内温度在舒适温度之间。图5展示了本发明的算法在电动汽车充电站调度时与固定定价的对比，结果表明本发明的算法相比3种固定定价方法，在能耗较少的情况下取得了更多的利润。

综上所述，与其它发明相比，本发明在节约系统运行总成本和保证居民舒适度方面具有更加优秀的性能表现，具有较高的可行性和有效性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种含电动汽车充电站的商业建筑混合能源调度方法，其特征在于，具体包括如下步骤：

将两个深度价值Q网络的模型以及初始参数复制到两个目标Q网络，建立两个目标Q网络用于软更新以减少估计值的偏差，目标Q网络初始参数结构直接从深度价值Q网络中复制，参数在右上角记’则表示目标网络参数，目标网络参数后续训练过程中根据更新的深度价值Q网络参数和软更新系数进行更新；

设置两种网络学习率均为0.003,将未来奖励的折扣因子设置为γ＝0.99，软更新系数τ＝0.005；初始化一个大小为B的经验回放池D用于存放过去的经验；

2)观察当前时隙的系统状态s_t从左到右分别表示当前时间指数t、电动汽车充电站的当前停放车辆数/>电动汽车充电站的当前等待充电车辆数/>建筑室内温度T_t ⁱⁿ、室外温度T_t ^out、储能系统当前能量E_t、储热系统当前储存的热量Q_t、建筑内部产生的热需求/>建筑内部产生的不可调度电力需求P_t ^non、当前太阳辐射强度I_t、电动汽车充电站当前时隙能耗P_t ^ev、天然气价格/>实时电价

将系统状态s_t输入到深度策略网络中，从深度策略网络输出动作的均值和标准差，按照该均值和标准差生成一个正态分布并从中采样得到动作其中动作a_t从左到右分别表示电动汽车充电站的实时充电定价/>热电联产机组的能量输入P_t ^gas、暖通空调系统的能量输入P_t ^hvac、储能系统的充/放电功率P_t ^ess；

4)将得到的数据样本(s_t,a_t,r_t,s_t+1)存入经验回放池D中；

5)将下一状态s_t+1设置为当前状态；

2.根据权利要求1所述含电动汽车充电站的商业建筑混合能源调度方法，其特征在于，所述奖赏函数r_t为t时隙负的系统能源总成本与碳排放成本和用户不满程度的加权和。

3.根据权利要求1所述含电动汽车充电站的商业建筑混合能源调度方法，其特征在于，所述步骤6)中策略梯度方法是用梯度下降最小化损失函数以及梯度上升最大化累计折扣回报G_t，以上神经网络均使用的是Adam优化器，具体的优化更新步骤如下：

计算深度价值Q网络的损失函数其中Q_target(s_t,a_t)是根据目标Q网络和得到的奖励函数估算出的时序差分目标，

根据贝尔曼等式迭代计算：其中是状态价值函数，用于估计某一状态的好坏，-αlog(π_φ(a_t|s_t)表示当前深度策略的熵值，之后利用梯度下降方法最小化损失函数L_Q(θ)，并通过反向传播更新深度Q网络参数。