CN116468291A - 含电动汽车充电站的商业建筑混合能源调度方法 - Google Patents
含电动汽车充电站的商业建筑混合能源调度方法 Download PDFInfo
- Publication number
- CN116468291A CN116468291A CN202310402111.4A CN202310402111A CN116468291A CN 116468291 A CN116468291 A CN 116468291A CN 202310402111 A CN202310402111 A CN 202310402111A CN 116468291 A CN116468291 A CN 116468291A
- Authority
- CN
- China
- Prior art keywords
- network
- value
- networks
- depth
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009471 action Effects 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims abstract description 13
- 229910052799 carbon Inorganic materials 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000005265 energy consumption Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 57
- 238000005070 sampling Methods 0.000 claims description 10
- 230000005611 electricity Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004146 energy storage Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000004378 air conditioning Methods 0.000 claims description 4
- 238000005338 heat storage Methods 0.000 claims description 4
- 238000010438 heat treatment Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000009423 ventilation Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000005855 radiation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000007704 transition Effects 0.000 abstract description 4
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 12
- 239000007789 gas Substances 0.000 description 7
- 239000003345 natural gas Substances 0.000 description 6
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种含电动汽车充电站的商业建筑混合能源调度方法,在演员‑评论家(Actor‑Critic)框架基础上,为了适用于大规模状态输入和连续动作空间,对算法进行改进:软最大化策略优化算法,在不知道状态转移概率的情况下,降低了系统的总成本并兼顾了用户满意度。本发明方法不仅优化了智能建筑系统的总能源成本和碳排放成本,还兼顾了建筑内部用户的需求满意度。通过将深度神经网络引入强化学习,更加适用于大规模场景下的连续动作空间的策略学习,在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化,相对其他技术能获得更低的成本和更高的用户满意度,并且降低了碳排放量。
Description
技术领域
本发明涉及一种调度技术,特别涉及一种含电动汽车充电站的商业建筑混合能源调度方法。
背景技术
全球能源消耗迅速增长,导致化石燃料的使用增加,引发了能源危机、全球变暖和环境污染等重大问题。因此,节能和清洁能源的发展变得至关重要。建筑物是城市地区最大的能源消费者之一,在2021年建筑能源消耗和二氧化碳排放分别占全球能源消耗和全球二氧化碳排放的约34%和37%。因此,减少建筑能源消耗在缓解这些问题方面起着至关重要的作用。
近年来,物联网、机器学习和大数据分析等技术的出现导致智能建筑引起了越来越多的关注。智能建筑配备了先进的物联网传感设备,如温度传感器、光传感器和湿度传感器,使它们能够收集关于室内和室外环境的各种信息,包括温度、占用情况、湿度水平和光强度。要实现智能建筑的功能,建筑能源管理系统(BEMS)是必不可少的。通过处理和利用收集的数据,BEMS可以智能利用分布式能源资源、管理各种类型的负荷,并为用户提供舒适且具有成本效益的环境。BEMS还可以帮助实现能源消耗、能源成本、碳排放和用户舒适度之间的最佳平衡。
高效的能量管理方法对BEMS的成功至关重要。然而,BEMS的开发面临着几个挑战。首先,系统参数存在显著的不确定性,例如电价、室内外温度和可再生能源发电量,这些参数可能随时发生变化,导致系统运行不稳定。其次,当前的决策会影响未来的决策,例如当能量储存系统充满电时,多余的电能无法存储。再其次,需要控制各种不同类型的负载,每种负载具有不同的功耗级别和操作约束。最后,BEMS通常具有多个目标,包括降低能源消耗、确保居住者舒适度和减少碳排放。
与此同时,随着电动汽车行业的不断扩大,越来越多的商业建筑为用户提供电动汽车充电服务。然而,对于电动汽车充电服务,直接协调和调度方法受到通信、计算和隐私约束的限制,均增加了BEMS开发难度。
发明内容
针对建筑能源调度随着不确定性条件增加而难度增加问题,提出了一种含电动汽车充电站的商业建筑混合能源调度方法,考虑建筑内部热需求和电需求,通过制定合适的能量调度策略和动态定价策略,优化建筑运营总成本和碳排放量。
本发明的技术方案为:一种含电动汽车充电站的商业建筑混合能源调度方法,具体包括如下步骤:
1)初始化系统参数,设置每个时隙为1h,基于演员-评论家框架,建立2个深度价值Q网络、1个深度策略网络和2个目标Q网络;
演员是指策略函数π(a∣s),即学习一个策略π来得到尽量高的回报;
评论家是指动作价值函数Q(s,a),对当前策略的价值函数进行估计,即评估演员的好坏;
基于价值函数,演员-评论家算法进行单步更新参数,不需要等到回合结束才进行更新;动作价值函数Q的定义在某一个状态s,采取某一个动作a,假设策略就是π的情况下会得到的累积奖励的期望值Vπ(s);
初始化2个深度价值Q网络和1个深度策略网络πφ(at|st),对应的3个神经网络参数分别记为θ1,θ2,φ;
将两个深度价值Q网络的模型以及初始参数复制到两个目标Q网络,建立两个目标Q网络用于软更新以减少估计值的偏差,目标Q网络初始参数结构直接从深度价值Q网络中复制,参数在右上角记’则表示目标网络参数,目标网络参数后续训练过程中根据更新的深度价值Q网络参数和软更新系数进行更新;设置两种网络学习率均为0.003,将未来奖励的折扣因子设置为γ=0.99,软更新系数τ=0.005;初始化一个大小为B的经验回放池D用于存放过去的经验;
2)观察当前时隙的系统状态st={t,nt c,nt wait,Tt in,Tt out,Et,Qt,Qt d,Pt non,It,Pt ev,ρt gas,ρt grid},st从左到右分别表示当前时间指数t、电动汽车充电站的当前停放车辆数nt c、电动汽车充电站的当前等待充电车辆数nt wait、建筑室内温度Tt in、室外温度Tt out、储能系统当前能量Et、储热系统当前储存的热量Qt、建筑内部产生的热需求Qt d、建筑内部产生的不可调度电力需求Pt non、当前太阳辐射强度It、电动汽车充电站当前时隙能耗Pt ev、天然气价格ρt gas、实时电价ρt grid;
将系统状态st输入到深度策略网络中,从深度策略网络输出动作的均值和标准差,按照该均值和标准差生成一个正态分布并从中采样得到动作at={ρt ev,Pt gas,Pt hvac,Pt ess}~πφ(at|st),其中动作at从左到右分别表示电动汽车充电站的实时充电定价ρt ev、热电联产机组的能量输入Pt gas、暖通空调系统的能量输入Pt hvac、储能系统的充/放电功率Pt ess;
3)执行当前动作at,到达下一环境状态st+1,计算当前系统成本和居民不满程度,获取奖励函数rt;
4)将得到的数据样本(st,at,rt,st+1)存入经验回放池D中;
5)将下一状态st+1设置为当前状态;
6)从经验回放池D中采样K个数据样本,计算当前深度策略的熵值和状态-动作价值函数Qθ(st,at),通过策略梯度方法更新深度策略网络和深度价值网络参数;
7)重复步骤2)-6)直至达到最大迭代次数,保存神经网络的参数,至此算法训练部分完成;
8)在实际决策阶段,下载深度策略网络模型及参数,给定一个状态输入,该网络即可输出最优调度决策,使得系统总成本最小化。
进一步,所述奖赏函数rt为t时隙负的系统能源总成本与碳排放成本和用户不满程度的加权和。
进一步,所述步骤6)中策略梯度方法是用梯度下降最小化损失函数以及梯度上升最大化累计折扣回报Gt,以上神经网络均使用的是Adam优化器,具体的优化更新步骤如下:
6.1)两个深度价值Q网络训练:使用目标Q网络输出当前动作真实价值的估计值,通过梯度下降减小损失函数来更新深度价值Q网络;K个数据样本分别送入两个深度价值Q网络中,两个深度价值Q网络输出价值函数,在使用时取二者输出较小值,即两个目标价值网络的输出同理,这一改动直接通过取较小值来抑制时序差分方法中产生的高估问题,有效提高算法稳定性;
计算深度价值Q网络的损失函数其中Qtarget(st,at)是根据目标Q网络和得到的奖励函数估算出的时序差分目标,根据贝尔曼等式迭代计算:/>其中是状态价值函数,用于估计某一状态的好坏,-αlog(πφ(at|st)表示当前深度策略的熵值,之后利用梯度下降方法最小化损失函数LQ(θ),并通过反向传播更新深度Q网络参数。
6.2)设深度策略网络输出的均值和标准差为x和y,引入一个从标准高斯分布中随机采样得到的的随机变量òt,令at=fφ(t,at)=x+ty,则动作at转变为了以òt为变量的函数,损失函数如下:
而后利用梯度下降方法最小化损失函数,通过反向传播更新深度策略网络参数;
6.3)通过软更新的方式更新两个目标网络的参数;软更新具体方式:
本发明的有益效果在于:本发明含电动汽车充电站的商业建筑混合能源调度方法,奖励函数的设计不仅优化了智能建筑系统的总能源成本和碳排放成本,还兼顾了建筑内部用户的需求满意度。通过将深度神经网络引入强化学习,更加适用于大规模场景下的连续动作空间的策略学习,在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化,相对其他技术能获得更低的成本和更高的用户满意度,并且降低了碳排放量。
附图说明
图1为本发明的智能商业建筑混合能量调度系统和电动汽车充电站模型图;
图2为本发明所提方法与其他同类型方法收敛速度对比图;
图3为本发明方法所提的含电动汽车充电站的商业建筑混合能源调度方法与其他基准算法长期总运行成本对比图;
图4为本发明所提的含电动汽车充电站的商业建筑混合能源调度方法在调度暖通空调系统时室内温度和其他基准算法对比图;
图5为本发明所提方法中大规模连续动作空间下的电动汽车充电站动态定价策略与固定定价策略消耗功率与收入对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实例公开了一种含电动汽车充电站的商业建筑混合能源调度方法,包括以下步骤:
1)初始化系统参数,设置每个时隙为1h,基于演员-评论家(Actor-Critic)框架(演员-评论家算法(Actor-Critic)是一种结合策略梯度和时序差分学习的强化学习方法,其中:演员(Actor)是指策略函数π(a∣s),即学习一个策略π来得到尽量高的回报;评论家(Critic)是指动作价值函数Q(s,a),对当前策略的价值函数进行估计,即评估演员的好坏;基于价值函数,演员-评论家算法可以进行单步更新参数,不需要等到回合结束才进行更新;动作价值函数Q的定义在某一个状态s,采取某一个动作a,假设策略就是π的情况下会得到的累积奖励的期望值Vπ(s)),初始化2个深度价值Q网络(critic-Q network)和1个深度策略网络(actornetwork)πφ(at|st),对应的3个神经网络参数分别记为θ1,θ2,φ。将两个深度价值Q网络的模型以及初始参数复制到两个目标Q网络,建立两个目标Q网络用于软更新以减少估计值的偏差。目标Q网络初始参数结构直接从深度价值Q网络中复制,参数在右上角记’则表示目标网络参数,目标网络参数后续训练过程中根据更新的深度价值Q网络参数和软更新系数进行更新。设置两种网络学习率均为0.003,将未来奖励的折扣因子设置为γ=0.99,软更新系数τ=0.005;初始化一个大小为B的经验回放池D用于存放过去的经验;
2)观察当前时隙的系统状态st从左到右分别表示当前时间指数t(当前时隙属于当天的第几个时隙)、电动汽车充电站的当前停放车辆数/>电动汽车充电站的当前等待充电车辆数nt wait、建筑室内温度Tt in、室外温度Tt out、储能系统当前能量Et、储热系统当前储存的热量Qt、建筑内部产生的热需求Qt d、建筑内部产生的不可调度电力需求Pt non、当前太阳辐射强度It、电动汽车充电站当前时隙能耗Pt ev、天然气价格ρt gas、实时电价ρt grid。将系统状态st输入到深度策略网络中,从深度策略网络输出动作的均值和标准差,按照该均值和标准差生成一个正态分布并从中采样得到动作at={ρt ev,Pt gas,Pt hvac,Pt ess}~πφ(at|st),其中动作at从左到右分别表示电动汽车充电站的实时充电定价ρt ev、热电联产机组的能量输入Pt gas、暖通空调系统的能量输入Pt hvac、储能系统的充/放电功率Pt ess。
3)执行当前动作at,到达下一环境状态st+1,计算当前系统成本(系统用电成本加上天然气成本减去电动汽车充电站的收益)和居民不满程度,获取奖励函数rt;奖赏函数rt为t时隙负的系统能源总成本与碳排放成本和用户不满程度的加权和;
4)将得到的数据样本(st,at,rt,st+1)存入经验回放池D中;
5)将下一状态st+1设置为当前状态;
6)从经验回放池D中采样K个数据样本,计算当前深度策略的熵值和状态-动作价值函数Qθ(st,at),通过策略梯度方法更新深度策略网络和深度价值网络参数;
策略梯度方法是用梯度下降最小化损失函数以及梯度上升最大化累计折扣回报Gt,以上神经网络均使用的是Adam优化器。具体的优化步骤如下:
6.1)两个深度价值Q网络训练:使用目标Q网络输出当前动作真实价值的估计值,通过梯度下降减小损失函数来更新深度价值Q网络;K个数据样本分别送入两个深度价值Q网络中,两个深度价值Q网络输出价值函数,在使用时取二者输出较小值,即两个目标价值网络的输出同理,这一改动直接通过取较小值来抑制时序差分方法中产生的高估问题,能够有效提高算法稳定性;
计算深度价值Q网络的损失函数其中Qtarget(st,at)是根据目标Q网络和得到的奖励函数估算出的时序差分目标,根据贝尔曼等式迭代计算:/>其中是状态价值函数,用于估计某一状态的好坏,-αlog(πφ(at|st)表示当前深度策略的熵值。之后利用梯度下降方法最小化损失函数LQ(θ),并通过反向传播更新深度Q网络参数。
6.2)利用深度策略Q网络的输出计算当前策略的KL散度(即当前策略与符合Q值策略的差距):其中Zθ(st)是配分函数,对梯度没有贡献,因此在后续计算损失函数时可以省略,由于动作是由策略采样得到无法计算梯度,因此采用重参数化技巧,设深度策略网络输出的均值和标准差为x和y,引入一个从标准高斯分布中随机采样得到的的随机变量òt,令at=fφ(t,at)=x+ty,则动作at转变为了以òt为变量的函数,因而可以对其求取梯度,将损失函数改写如下:
而后利用梯度下降方法最小化损失函数,通过反向传播更新深度策略网络参数。
6.3)通过软更新的方式更新两个目标网络的参数;软更新具体方式:
7)重复步骤2)-6)直至达到最大迭代次数,保存神经网络的参数,至此算法训练部分完成;
8)在实际决策阶段,下载深度策略网络模型及参数,给定一个状态输入,该网络即可输出最优调度决策,使得系统总成本最小化。
不难发现,相比于其他能源互联网能量调度优化方法,本发明利用深度强化学习算法,在演员-评论家(Actor-Critic)框架基础上,为了适用于大规模状态输入和连续动作空间,对算法进行改进:软最大化策略优化算法,在不知道状态转移概率的情况下,降低了系统的总成本并兼顾了用户满意度。因此,本发明所提算法可以达到智能建筑系统成本和碳排放量最优化的目的,具有良好的可行性和有效性。
本实施例结合说明书附图1至图5对本发明提出能源互联网混合能量调度方法作详细的说明。
如图1所示,本发明开发了一个建筑能量管理系统,配备可再生能源光伏发电系统、主电网、天然气站、储能系统、储热系统、热电联产机组、暖通空调系统、不可调度负载以及附带一个电动汽车充电站,其中电动汽车充电站的实时定价是动态的,由建筑能量管理系统实时决定。系统的总成本主要由向电网购电的成本加上向天然气站购买天然气的成本减去电动汽车充电站的利润组成,此外在消耗能量时会根据能量来源产生相应的碳排放量,在总成本中以加权形式与其他成本相加,该系统需要根据当前的可再生能源产量、时变电价、用户用电需求等高度随机的状态,通过在线学习算法,合理的调度系统内部电能和热能,从而在满足用户需求的同时减少系统运行总成本,并且有效减少碳排放量,促进低碳型智能建筑的产生。
在每个时隙内,系统接收到当前的可再生能源产量、时变电价、用户用电需求等状态信息后,将其输入到深度策略神经网络,输出连续动作空间下的能量调度决策,进行系统的能量调度,得到当前调度下的系统总成本,并转到下一时隙的状态。对本发明的混合能量调度模型进行仿真性能验证,仿真结果如图2-图5所示。
图2的仿真结果表明,与著名的连续空间深度强化学习算法DDPG对比,本发明的SAC在收敛速度和结果上均更优,同时更稳定。图3比较了本发明的算法与5种基准算法(分别是传统基于规则的控制方法、基于DDPG的深度强化学习方法,贪婪算法,以及分别未采用动态定价和未考虑碳排放的本文算法)在30天内长期系统运行总成本,依次对应图3中proposed、baseline1、baseline2、baseline3、baseline4、baseline5,结果表明在长期运行时本发明的算法能够取得最低的成本。图4详细展示了本发明的算法和前三种基准算法在室内温度控制上的具体结果,结果显示,本发明的算法在48小时调度中始终保持室内温度在舒适温度之间。图5展示了本发明的算法在电动汽车充电站调度时与固定定价的对比,结果表明本发明的算法相比3种固定定价方法,在能耗较少的情况下取得了更多的利润。
综上所述,与其它发明相比,本发明在节约系统运行总成本和保证居民舒适度方面具有更加优秀的性能表现,具有较高的可行性和有效性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (3)
1.一种含电动汽车充电站的商业建筑混合能源调度方法,其特征在于,具体包括如下步骤:
1)初始化系统参数,设置每个时隙为1h,基于演员-评论家框架,建立2个深度价值Q网络、1个深度策略网络和2个目标Q网络;
演员是指策略函数π(a∣s),即学习一个策略π来得到尽量高的回报;
评论家是指动作价值函数Q(s,a),对当前策略的价值函数进行估计,即评估演员的好坏;
基于价值函数,演员-评论家算法进行单步更新参数,不需要等到回合结束才进行更新;动作价值函数Q的定义在某一个状态s,采取某一个动作a,假设策略就是π的情况下会得到的累积奖励的期望值Vπ(s);
初始化2个深度价值Q网络和1个深度策略网络πφ(at|st),对应的3个神经网络参数分别记为θ1,θ2,φ;
将两个深度价值Q网络的模型以及初始参数复制到两个目标Q网络,建立两个目标Q网络用于软更新以减少估计值的偏差,目标Q网络初始参数结构直接从深度价值Q网络中复制,参数在右上角记’则表示目标网络参数,目标网络参数后续训练过程中根据更新的深度价值Q网络参数和软更新系数进行更新;
设置两种网络学习率均为0.003,将未来奖励的折扣因子设置为γ=0.99,软更新系数τ=0.005;初始化一个大小为B的经验回放池D用于存放过去的经验;
2)观察当前时隙的系统状态st从左到右分别表示当前时间指数t、电动汽车充电站的当前停放车辆数/>电动汽车充电站的当前等待充电车辆数/>建筑室内温度Tt in、室外温度Tt out、储能系统当前能量Et、储热系统当前储存的热量Qt、建筑内部产生的热需求/>建筑内部产生的不可调度电力需求Pt non、当前太阳辐射强度It、电动汽车充电站当前时隙能耗Pt ev、天然气价格/>实时电价
将系统状态st输入到深度策略网络中,从深度策略网络输出动作的均值和标准差,按照该均值和标准差生成一个正态分布并从中采样得到动作其中动作at从左到右分别表示电动汽车充电站的实时充电定价/>热电联产机组的能量输入Pt gas、暖通空调系统的能量输入Pt hvac、储能系统的充/放电功率Pt ess;
3)执行当前动作at,到达下一环境状态st+1,计算当前系统成本和居民不满程度,获取奖励函数rt;
4)将得到的数据样本(st,at,rt,st+1)存入经验回放池D中;
5)将下一状态st+1设置为当前状态;
6)从经验回放池D中采样K个数据样本,计算当前深度策略的熵值和状态-动作价值函数Qθ(st,at),通过策略梯度方法更新深度策略网络和深度价值网络参数;
7)重复步骤2)-6)直至达到最大迭代次数,保存神经网络的参数,至此算法训练部分完成;
8)在实际决策阶段,下载深度策略网络模型及参数,给定一个状态输入,该网络即可输出最优调度决策,使得系统总成本最小化。
2.根据权利要求1所述含电动汽车充电站的商业建筑混合能源调度方法,其特征在于,所述奖赏函数rt为t时隙负的系统能源总成本与碳排放成本和用户不满程度的加权和。
3.根据权利要求1所述含电动汽车充电站的商业建筑混合能源调度方法,其特征在于,所述步骤6)中策略梯度方法是用梯度下降最小化损失函数以及梯度上升最大化累计折扣回报Gt,以上神经网络均使用的是Adam优化器,具体的优化更新步骤如下:
6.1)两个深度价值Q网络训练:使用目标Q网络输出当前动作真实价值的估计值,通过梯度下降减小损失函数来更新深度价值Q网络;K个数据样本分别送入两个深度价值Q网络中,两个深度价值Q网络输出价值函数,在使用时取二者输出较小值,即两个目标价值网络的输出同理,这一改动直接通过取较小值来抑制时序差分方法中产生的高估问题,有效提高算法稳定性;
计算深度价值Q网络的损失函数其中Qtarget(st,at)是根据目标Q网络和得到的奖励函数估算出的时序差分目标,
根据贝尔曼等式迭代计算:其中是状态价值函数,用于估计某一状态的好坏,-αlog(πφ(at|st)表示当前深度策略的熵值,之后利用梯度下降方法最小化损失函数LQ(θ),并通过反向传播更新深度Q网络参数。
6.2)设深度策略网络输出的均值和标准差为x和y,引入一个从标准高斯分布中随机采样得到的的随机变量òt,令at=fφ(t,at)=x+ty,则动作at转变为了以òt为变量的函数,损失函数如下:
而后利用梯度下降方法最小化损失函数,通过反向传播更新深度策略网络参数;
6.3)通过软更新的方式更新两个目标网络的参数;软更新具体方式:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310402111.4A CN116468291A (zh) | 2023-04-14 | 2023-04-14 | 含电动汽车充电站的商业建筑混合能源调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310402111.4A CN116468291A (zh) | 2023-04-14 | 2023-04-14 | 含电动汽车充电站的商业建筑混合能源调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468291A true CN116468291A (zh) | 2023-07-21 |
Family
ID=87178406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310402111.4A Pending CN116468291A (zh) | 2023-04-14 | 2023-04-14 | 含电动汽车充电站的商业建筑混合能源调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468291A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118037334A (zh) * | 2024-04-11 | 2024-05-14 | 国网江苏省电力有限公司电力科学研究院 | 一种电动汽车充电动态定价方法及相关装置 |
-
2023
- 2023-04-14 CN CN202310402111.4A patent/CN116468291A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118037334A (zh) * | 2024-04-11 | 2024-05-14 | 国网江苏省电力有限公司电力科学研究院 | 一种电动汽车充电动态定价方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | A multistage home energy management system with residential photovoltaic penetration | |
Cui et al. | Economic storage sharing framework: Asymmetric bargaining-based energy cooperation | |
Tushar et al. | Distributed real-time electricity allocation mechanism for large residential microgrid | |
CN111555355B (zh) | 水光蓄联合发电的调度策略及其优化方法 | |
US20220036392A1 (en) | Deep Reinforcement Learning Based Real-time scheduling of Energy Storage System (ESS) in Commercial Campus | |
Rahmani-Andebili et al. | Price-controlled energy management of smart homes for maximizing profit of a GENCO | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
CN112668791A (zh) | 热电联供系统的优化方法 | |
CN110889581A (zh) | 一种电动汽车参与的台区优化调度方法和系统 | |
CN116316567A (zh) | 一种阶梯碳交易机制下综合能源需求响应优化方法 | |
CN116468291A (zh) | 含电动汽车充电站的商业建筑混合能源调度方法 | |
Keerthisinghe et al. | Addressing the stochastic nature of energy management in smart homes | |
CN115759604B (zh) | 一种综合能源系统优化调度方法 | |
Ikeda et al. | A new optimization strategy for the operating schedule of energy systems under uncertainty of renewable energy sources and demand changes | |
CN111047097A (zh) | 一种综合能源系统日中滚动优化方法 | |
Wang et al. | Electric vehicle charging scheduling strategy for supporting load flattening under uncertain electric vehicle departures | |
CN117578537A (zh) | 基于碳交易和需求响应的微电网优化调度方法 | |
Mirjalili et al. | A comparative study of machine learning and deep learning methods for energy balance prediction in a hybrid building-renewable energy system | |
CN113869742B (zh) | 基于行动家和评论家网络的综合供需侧的电力调度系统 | |
CN111091239A (zh) | 基于差分进化算法的能源服务商电价策略制定方法及装置 | |
Yuanyuan et al. | Optimization scheduling method of power grid energy-saving based on fuzzy decision | |
Kyriakou et al. | Optimal frequency support method for urban microgrids of building prosumers | |
CN117543581A (zh) | 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用 | |
CN117332989A (zh) | 一种区域综合能源系统削峰填谷方法 | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |