CN116734424A - 基于rc模型和深度强化学习的室内热环境的控制方法 - Google Patents
基于rc模型和深度强化学习的室内热环境的控制方法 Download PDFInfo
- Publication number
- CN116734424A CN116734424A CN202310692015.8A CN202310692015A CN116734424A CN 116734424 A CN116734424 A CN 116734424A CN 202310692015 A CN202310692015 A CN 202310692015A CN 116734424 A CN116734424 A CN 116734424A
- Authority
- CN
- China
- Prior art keywords
- model
- indoor
- air conditioning
- battery
- conditioning system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002787 reinforcement Effects 0.000 title claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000010438 heat treatment Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000005265 energy consumption Methods 0.000 claims abstract description 11
- 230000005611 electricity Effects 0.000 claims abstract description 10
- 238000004378 air conditioning Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 31
- 230000009471 action Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000011217 control strategy Methods 0.000 claims description 7
- 230000005855 radiation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000007599 discharging Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000004134 energy conservation Methods 0.000 claims description 2
- 230000033228 biological regulation Effects 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000009423 ventilation Methods 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 description 12
- 230000007613 environmental effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004146 energy storage Methods 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005338 heat storage Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000003990 capacitor Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011491 glass wool Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Classifications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
- F24F11/64—Electronic processing using pre-stored data
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/30—Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
- F24F11/46—Improving electric energy efficiency or saving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02S—GENERATION OF ELECTRIC POWER BY CONVERSION OF INFRARED RADIATION, VISIBLE LIGHT OR ULTRAVIOLET LIGHT, e.g. USING PHOTOVOLTAIC [PV] MODULES
- H02S40/00—Components or accessories in combination with PV modules, not provided for in groups H02S10/00 - H02S30/00
- H02S40/30—Electrical components
- H02S40/38—Energy storage means, e.g. batteries, structurally associated with PV modules
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2110/00—Control inputs relating to air properties
- F24F2110/10—Temperature
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2110/00—Control inputs relating to air properties
- F24F2110/10—Temperature
- F24F2110/12—Temperature of the outside air
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2110/00—Control inputs relating to air properties
- F24F2110/20—Humidity
- F24F2110/22—Humidity of the outside air
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/10—Numerical modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/08—Thermal analysis or thermal optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mechanical Engineering (AREA)
- Computing Systems (AREA)
- Combustion & Propulsion (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于RC模型和深度强化学习的室内热环境的控制方法属于人工智能和建筑环境控制相结合的技术领域,属于建筑环境控制技术领域。本发明通过对房屋搭建热容热阻RC模型,集成到能源系统中,通过与RC模型交互得到输入参数,利用构建的DRL控制器,输出得到对应建筑的暖通空调和蓄电池的运行调控策略,在保证室内温度的同时,实现了空调能耗的下降和家庭购电成本得最小化。与现有技术相比,本发明发挥基于RC模型的深度强化学习的优点,并结合PER算法使学习成本下降、学习曲线收敛加快,并提升建筑能源系统优化效果,系统整体性能提高。
Description
技术领域
本发明属于人工智能和建筑环境控制相结合的技术领域,特别是涉及一种基于RC模型和深度强化学习的室内热环境的控制方法。
背景技术
随着人类的活动加剧了气候变暖的进程,全球平均气温正在以前所未有的速度上升。据调查显示,目前建筑领域碳排放量每年约20亿吨,约占全国总碳排放量的40%。而住宅作为建筑领域能耗的主体,有着巨大的节能潜力。有很多方法可以实现住宅建筑的能耗目标,其中之一就是住宅能源管理系统接入可再生能源。可再生能源具有环境友好、发展潜力和可持续利用等优点,这无疑是缓解当前能源危机的关键因素。在所有可再生能源中,太阳能是增长最快的能源之一,由于近年来光伏安装成本逐渐下降,并且部署方便,家庭屋顶光伏安装呈现快速增长态势。
随着其他可再生能源设备接入建筑能源系统,能源系统日趋复杂,给建筑能源系统的优化控制带来挑战。传统的基于规则和PID的控制,完全忽略了系统环境的随机性,遵循的是一种静态的操作策略,通常与最优策略相去甚远。强化学习(RL)作为机器学习(ML)的一个分支,专门为控制问题设计,并且结合人工智能领域的深度神经网络(NN)强大的非线性拟合能力在优化建筑控制方面得到了迅速发展,实现建筑能源效率、需求灵活性和弹性。
为了避免对建筑能源系统的复杂建模以及提高计算速度,大多数RL在建筑能源系统(BES)的研究集中无模型的方法,然而在优化控制上存在以下局限:(1) 由于每个建筑的保温性能会有所差异,采用无模型的方法无法做到精确控制,导致建筑热性能预测结果不准确 ;(2)目前室内热舒适评价主要集中在热感觉投票指标上,即推荐一个满足舒适环境的室内温度设定范围。然而,建筑的动态物理模型对室内的热舒适有显著影响。
发明内容
本发明的目的在于提供一种基于RC模型和深度强化学习的室内热环境的控制方法,以弥补现有技术的不足。
热电阻-电容网络(RC模型)的优点是简单性和计算效率,基于RC模型的数据驱动模型能够用于提高建筑物的能源性能;此外,建筑物的慢热动态特性使它相当于储热设施,为家庭能源管理系统(HEMS)在调度HVAC系统方面提供了额外的灵活性。
RC模型(原理如图1所示)代表了控制建筑及其与环境之间能量相互作用的基本物理关系,保留了对建筑能源和区域环境研究中通常使用的设计参数的敏感性;能够更好地理解建筑的物理问题,并使容易评估建模和不同参数的设置成为可能。
强化学习的基本原理为智能体在环境反馈奖励或惩罚的刺激下持续学习,根据反馈不断调整策略,最终达成奖励最大化或实现特定目标。其中智能体(Agent)是进行不断学习和实施动作的控制器,智能体之外所有与其相互作用的部分被称为环境(Environment)。智能体在状态下,根据策略选择动作 ,环境将会基于智能体所做出的动作给出响应的奖励(Reward),并转移到下一时刻新的状态 ;根据获得的奖励获得最优策略:
;
其中: 为折扣率。
强化学习的最终目的是通过最大化奖励值来获得最优策,具有较强的决策能力,在越来越复杂的现实场景中,深度学习可以从原始大规模交互数据中提取高级特征,具有较强的感知能力。
本发明的目标是满足室内热舒适性要求的前提下,降低能源成本,这一目标由两个调控对象实现:(1)降低空调系统的能耗;(2)通过调控蓄电池,使本地光伏消纳率最大化,实现购电成本的最小化。为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略。为此,本发明特地将一个房屋进行系统的热力学建模,并将简化的房屋RC模型集成到HEMS调度中,由DRL控制器进行新风系统(HVAC)进行调控,实现室内热舒适在合理的区间前提下,通过住宅内蓄电池与电网实时交互,上网电价高时放电,电价低时蓄电,从而实现购电成本的最小化。
深度强化学习(Deep Reinforcement Learning, DRL)将强化学习与深度学习结合起来,本发明将构建一个住宅RC模型,作为训练的环境模型。控制算法采用D3QN算法控制策略,该算法与DRL经典算法DQN的区别主要是D3QN引入经验优先(PER)算法,与DQN的经验重放方法相比,引入PER算法提高了模型采样的效率,加快了本发明应用实例算法的学习过程。
为达到上述目的,基于上述技术原理和分析,本发明是通过以下技术方案实现的:
一种基于RC模型和深度强化学习的室内热环境的控制方法,该方法包括以下步骤:
S1:搭建建筑RC模型,作为环境模型;
S2:获取观测数据:包括获取室内外热环境和蓄电池的相关参数;
S3:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、电池荷电状态;
S4:利用S2获取的观测数据在S3建立的模型中进行循环运算,并引入D3QN强化学习方法,所述D3QN强化学习方法为DQN与PER算法相结合的控制策略;基于神经网络训练控制空调系统、蓄电池的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量以及电池充放电决策的优化过程,得到最优控制策略,即得到最优的控制方法。
进一步的,所述S1中,利用RC储能模型对建筑的制热区域建立简化的物理模型,建筑的RC热网格模型由热阻与热容构成,其中,热阻具有热传输的能力,将整个建筑连接在一起,热容是具有存储热的能力;在单位面积、单位时间内透过围护结构的导热热量,称为热流强度,通常用q表示,其值为等式(1):
(1)
等式中T1,T2分别为围护结构两侧的表面温度℃;d为围护结构的厚度,λ为壁体材料导热系数。
建筑物RC热能耗模型,有加热器为房间提供恒定的热能q,来模拟室内的空调或暖气,加热后房间内和室外的温度分别为Tr、To,围护结构的温度为TW,当热能q流入围护结构时,通过热能守恒方程,得到等式(2),代表了房间室内外环境热量转换的基本过程;
(2)
式中Rr是房间空气热阻;Rw是房间围护结构热阻;C为热容。
进一步的,所述S2中,室内外热环境数据包括时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量和室内温度;蓄电池的相关参数包括蓄电池模型所需的光伏、住宅负荷、电价信息。
进一步的,所述S3中,搭建神经网络模型:选用四层前馈全连接神经网络(一个输入层、两个隐含层、一个输出层)建立系统的输入输出模型;选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,上述神经网络模型中,选择输入层参数,并输出下一时刻的室内温度 、空调系统耗电量/>和电池荷电状态Soc (t+1)。
具体的,最终选择时刻信息,室外温度/>,室外相对湿度/>,太阳辐射强度/>,空调系统耗电量/>,室内温度/>,S1 = [h, Tamb, Hamb, R, P, Tin ]作为空调系统模型的输入层参数;选择Pv(W), Load(kWh), Price(yuan), S2 = [Pv, Load,Price]作为蓄电池模型的输入层参数; t表示时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和荷电状态;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程,具体包括:
(1)对空调系统S1和蓄电池S2两个部分:
在空调系统S1中,状态观测空间S1设置为S1 = [h, Tamb, Hamb, R, P, Tin ],可控制变量为空调制热量,动作空间A1设置为A1 = [0,0.25q,0.5q,0.75q,q];在蓄电池模型S2中,状态空间S2 = [ Pv, Load, Price, Month, Hour ],动作空间A2 = [ Charge Soc,Discharge Soc , μ], μ表示在能源系统中,住宅净负荷为0时,电池动作处于闲置状态;
(2)定义奖励函数设置
在奖励函数R的设置为在保证室内热舒适区间的同时降低能源成本为优化目标,如式(3)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,为实时电;第二部分/> ,/>为室内温度下限,/>为室内温度上限;/>为惩罚系数,体现了超越温度范围相对系统能源成本的影响;为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持在18~24°C之间,即/>为18°C,/>为24°C;在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚;第三部分penalty(E),表示当电池容量保持在合理的工作范围内时,惩罚值为0;当智能体选择错误的动作,导致电池容量低于最小容量或高于最大容量而不能保证电池正常工作时,惩罚值为更大的100;
R = -.P + penalty (Tt) + penalty (E) (3)
(4)
(5)
(3)运行阶段
设学习率为lr,折现因子为γ,贪婪率为ε,经验样本数为k,网络参数更新频率为C,迭代次数为U,单集最大步长为T。
进一步的,所述D3QN算法流程如下所示:
第一步:初始化经验重放池;
第二步:初始化当前网络Q和目标值网络Q^,当前网络权重参数θ,目标网络权重参数θ^;
第三步:初始化变更后权重Δ = 0;
第四步:循环遍历事件episode=1,2,…,M。当episode=1,U做初始化状态S1;
第五步:当t = 1时,T根据以下情况做出决策:
当贪婪政策为ε时,选择随机动作at,否则选择at = argmax Q(st,a;w)
在环境中执行动作at并观察rt和st+1
存储转换(st, at, rt, st+1)和概率pt ;
第六步:当j = 1时,k根据等式(6)计算采样概率P(j),并根据等式(8)计算抽样权重;
(6)
其中P(i)为经验样本的优先级;O为采样系数,当O等于0时,表示采用均匀随机抽样进行经验重放。等式(6)中p(i) 采用优先计算方法,它可以表示下面的等式(7):
(7)
等式(7)中ε为贪婪策略,该策略可以避免计算TD误差为零时样本不被重放的问题。在与房屋RC模型学习到样本后,为了消除抽样的误差,引入新的权重计算方法,该权重表示为等式(8)
(8);
第七步:计算TD误差,并根据等式(7)更新概率Pt;
第八步:根据等式(9)计算损失函数:
(9)
等式(9)中r 为回报,γ为衰减因子,为目标价值网络,/>为目标价值网络的权重参数;
第九步:累积权重变化Δ←Δ +∇θL;
第十步:重复步骤第四步至第九步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,更新目标动作值网络参数;
第十一步:重复以上步骤M次,直到智能体学习出使得累计奖励值R最大的策略。
与现有技术相比,本发明的优点和有益效果是:
本发明设计一种基于深度强化学习的建筑能源系统优化控制方法具有重要意义,能够形成一套完整的感知决策体系,维持室内热舒适环境,并有效提高住宅建筑的经济效益。
附图说明
图1是本发明热容热阻(RC)模型图。
图2是本发明的算法神经网络结构图。
图3是本发明的D3QN算法流程图。
图4是本发明实施例中的模型学习曲线图。
图5是本发明实施例中的调控效果图;(a)为室内温度调控效果图,(b)为现场光伏消纳结果图。
具体实施方式
下面结合实施例和附图对本发明所述的技术方案作进一步地描述说明。
实施例1
本实施例优化控制策略的目标是满足室内热舒适性要求的前提下,实现经济收益的最大化,这一目标通过降低空调系统能耗和调节家庭蓄电池实现。
为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略。为此,本发明特地将一个房屋进行系统的热力学建模,并将简化的房屋RC模型集成到HEMS调度中,由RL控制器进行新风系统(HVAC)进行调控,实现室内热舒适在合理的区间前提下,通过住宅内蓄电池与电网实时交互,上网电价高时放电,电价低时蓄电,从而实现购电成本的最小化。
深度强化学习(Deep Reinforcement Learning, DRL)将强化学习与深度学习结合起来,本发明将构建一个住宅RC模型,作为训练的环境模型。控制算法采用D3QN与经验优先(PER)算法相结合的DQN控制策略,与传统的经验重放方法相比,引入PER算法提高了模型采样的效率,加快了本发明应用实例算法的学习过程。
为达到上述目的,本发明是通过以下技术方案实现的:
一种基于RC模型和数据驱动住宅能源系统优化控制方法,该方法包括以下步骤:
S1:搭建研究实例的房屋RC模型,作为训练用的环境模型。
S2:获取观测数据:包括获取室内外热环境和蓄电池的相关参数;
S3:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、电池荷电状态;
S4:利用S2获取的数据在S3建立的模型中进行循环运算,并引入D3QN强化学习方法,基于神经网络训练控制空调系统、蓄电池的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量以及电池充放电决策的优化过程,得到最优控制策略,即得到最优的控制方法,实现能源成本的优化。
在一实施例中,所述S1中,利用RC储能模型对建筑的制热区域建立简化的物理模型,建筑的RC热网格模型由热阻与热容构成,其中,热阻具有热传输的能力,将整个建筑连接在一起,热容是具有存储热的能力;在单位面积、单位时间内透过围护结构的导热热量,称为热流强度,通常用q表示,其值为等式(1):
(1)
等式中T1,T2分别为围护结构两侧的表面温度℃;d为围护结构的厚度,λ为壁体材料导热系数。建筑物RC热能耗模型,如上图1所示,有加热器为房间提供恒定的热能q,来模拟我们室内的空调或暖气,加热后房间内和室外的温度分别为Tr、To,围护结构的温度为TW,当热能q流入围护结构时,通过热能守恒方程,可以得到等式(2),它代表了房间室内外环境热量转换的基本过程。
(2)
式中Rr是房间空气热阻;Rw是房间围护结构热阻;C为热容。
在一实施例中,所述S2中,室内外热环境数据:时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量和室内温度,以及蓄电池模型所需的光伏、住宅负荷、电价信息。
在一实施例中,所述S3中,搭建神经网络模型:选用四层前馈全连接神经网络(一个输入层、两个隐含层、一个输出层)建立系统的输入输出模型;选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。与DQN中直接输出Q值的深度神经网络不同,D3QN在获得中间特征后分别输出预测状态值函数V和预测相对优势函数A,这两个函数作为动作值函数添加。通过同时训练V和A,可以避免网络训练时的过拟合问题,加快网络的训练速度。神经网络结构如图2所示。
在一实施例中,上述神经网络模型中,选择输入层参数,并输出下一时刻的室内温度 、空调系统耗电量/>和电池荷电状态Soc (t+1)。
具体的,最终选择时刻信息,室外温度/>,室外相对湿度/>,太阳辐射强度/>,空调系统耗电量/>,室内温度/>,S1 = [h, Tamb, Hamb, R, P, Tin ]作为空调系统模型的输入层参数。选择Pv(W), Load(kWh), Price(yuan), S2 = [Pv, Load,Price]作为蓄电池模型的输入层参数。 t表示时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和荷电状态;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
在一实施例中,所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程,具体包括:
(1)对空调系统S1和蓄电池S2两个部分:
在空调系统S1中,状态观测空间S1设置为S1 = [h, Tamb, Hamb, R, P, Tin ],可控制变量为空调制热量,动作空间A1设置为A1 = [0,0.25q,0.5q,0.75q,q]。在蓄电池模型S2中,状态空间S2 = [ Pv, Load, Price, Month, Hour ],动作空间A2 = [ Charge Soc,Discharge Soc , μ], μ表示在能源系统中,住宅净负荷为0时,电池动作处于闲置状态。
(2)定义奖励函数设置
在奖励函数R的设置为在保证室内热舒适区间的同时降低能源成本为优化目标,如式(3)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,为实时电;第二部分/> ,/>为室内温度下限,/>为室内温度上限;/>为惩罚系数,体现了超越温度范围相对系统能源成本的影响;为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持在18~24°C之间,即/>为18°C,/>为24°C;在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚。第三部分penalty(E),表示当电池容量保持在合理的工作范围内时,惩罚值为0;当智能体选择错误的动作,导致电池容量低于最小容量或高于最大容量而不能保证电池正常工作时,惩罚值为更大的100。
R = -.P + penalty (Tt) + penalty (E) (3)
(4)
(5)
(3)运行阶段
设学习率为lr,折现因子为γ,贪婪率为ε,经验样本数为k,网络参数更新频率为C,迭代次数为U,单集最大步长为T 。
D3QN-PER算法流程如图3所示。
第一步:初始化经验重放池;
第二步:初始化当前网络Q和目标值网络Q^,当前网络权重参数θ,目标网络权重参数θ^;
第三步:初始化变更后权重Δ = 0;
第四步:循环遍历事件episode=1,2,…,M。当episode=1,U做初始化状态S1;
第五步:当t = 1时,T根据以下情况做出决策:
当贪婪政策为ε时,选择随机动作at,否则选择at = argmax Q(st,a;w)
在环境中执行动作at并观察rt和st+1
存储转换(st, at, rt, st+1)和概率pt ;
第六步:当j = 1时,k根据等式(6)计算采样概率P(j),并根据等式(8)计算抽样权重;
(6)
其中P(i)为经验样本的优先级;O为采样系数,当O等于0时,表示采用均匀随机抽样进行经验重放。等式(6)中p(i) 采用优先计算方法,它可以表示下面的等式(7):
(7)
等式(7)中ε为贪婪策略,该策略可以避免计算TD误差为零时样本不被重放的问题。在与房屋RC模型学习到样本后,为了消除抽样的误差,引入新的权重计算方法,该权重表示为等式(8)
(8);
第七步:计算TD误差,并根据等式(7)更新概率Pt;
第八步:根据等式(9)计算损失函数:
(9)
等式(9)中r 为回报,γ为衰减因子,为目标价值网络,/>为目标价值网络的权重参数;
第九步:累积权重变化Δ←Δ +∇θL;
第十步:重复步骤第四步至第九步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,更新目标动作值网络参数;
第十一步:重复以上步骤M次,直到智能体学习出使得累计奖励值R最大的策略 。
以上述实施例为基础,进行验证:
为了检验所提出的强化学习算法的可行性和有效性,选择了现实两层的零能耗住宅作为测试对象,其中总建筑面积105m2,选用的零能耗住宅围护结构填充玻璃棉保温效果好,保温性能高,围护结构平均整体热损失率Ua为0.58W/(m2·K),所以零能耗住宅具有很高的热灵活性潜力。为此收集了该房子从 2020 年1月1日到3月30日,以 30 分钟为间隔收集的运行数据,该房子配备有4.8kWp的光伏系统和容量为5.6kW的储能电池(图1),房间收集数据特征,鉴于可用数据,使用10周数据(共3628 个控制步骤,间隔 30 分钟)来作为输入端并训练 DRL 智能体,输入到S3步骤中,模型的求解过程详细见第三部分运行阶段。模型的训练曲线见图4。
图4展示了本发明设计模型训练曲线,训练过程主要分为两个过程,奖励在训练过程的初始阶段(100个训练次数之前)迅速增加,然后奖励值越来越稳定,达到训练阶段结束时的收敛阶段,这表明所提出的D3QN智能体有效学习到了能源系统的最佳调控策略,而且训练次数大大减少便可以达到收敛的效果,节省了计算资源和时间。
如图5所示,本发明提出的控制方法能实现兼顾室内热舒适的前提下(温度保证在20~24℃)实现空调电费的下降,同时蓄电池模型作为平衡能源系统的调节器,有效提升了现场光伏的消纳率,实现家庭购买能源经济成本的有效降低。
在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。
最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于RC模型和深度强化学习的室内热环境的控制方法,其特征在于,该方法包括以下步骤:
S1:搭建建筑RC模型,作为环境模型;
S2:获取观测数据:包括获取室内外热环境和蓄电池的相关参数;
S3:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、电池荷电状态;
S4:利用S2获取的观测数据在S3建立的模型中进行循环运算,并引入D3QN强化学习方法,所述D3QN强化学习方法为DQN与PER算法相结合的控制策略;基于神经网络训练控制空调系统、蓄电池的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量以及电池充放电决策的优化过程,得到最优控制策略,即得到最优的控制方法。
2.如权利要求1所述的室内热环境的控制方法,其特征在于,所述S1中,所述建筑RC模型由热阻与热容构成;在单位面积、单位时间内透过围护结构的导热热量,称为热能,用q表示,其值为等式(1):
(1)
其中,T1,T2分别为围护结构两侧的表面温度℃;d为围护结构的厚度,λ为壁体材料导热系数;
加热后房间内和室外的温度分别为Tr、To,围护结构的温度为TW,当热能q流入围护结构时,通过热能守恒方程,得到等式(2),代表室内外环境热量转换的基本过程;
(2)
式中Rr是房间空气热阻;Rw是房间围护结构热阻;C为热容。
3.如权利要求1所述的室内热环境的控制方法,其特征在于,所述S2中,室内外热环境数据包括时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量和室内温度;蓄电池的相关参数包括蓄电池模型所需的光伏、住宅负荷、电价信息。
4.如权利要求1所述的室内热环境的控制方法,其特征在于,所述S3中,搭建神经网络模型:选用四层前馈全连接神经网络:一个输入层、两个隐含层、一个输出层,以建立系统的输入输出模型;选择均方差作为神经网络建模的损失函数;优化器选择随机梯度下降法来寻找模型最优解。
5.如权利要求1所述的室内热环境的控制方法,其特征在于,所述神经网络模型中,选择输入层参数,并输出下一时刻的室内温度 、空调系统耗电量/>和电池荷电状态Soc (t+1)。
6.如权利要求5所述的室内热环境的控制方法,其特征在于,选择时刻信息,室外温度,室外相对湿度/>,太阳辐射强度/>,空调系统耗电量/>,室内温度,S1 = [h, Tamb, Hamb, R, P, Tin ]作为空调系统模型的输入层参数;选择Pv(W),Load(kWh), Price(yuan), S2 = [Pv, Load, Price]作为蓄电池模型的输入层参数; t表示时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和荷电状态;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。
7.如权利要求6所述的室内热环境的控制方法,其特征在于,所述神经网络模型中将控制方法运行优化问题建模为马尔科夫决策过程,具体包括:
(1)对空调系统S1和蓄电池S2两个部分:
在空调系统S1中,状态观测空间S1设置为S1 = [h, Tamb, Hamb, R, P, Tin ],可控制变量为空调制热量,动作空间A1设置为A1 = [0,0.25q,0.5q,0.75q,q];在蓄电池模型S2中,状态空间S2 = [ Pv, Load, Price, Month, Hour ],动作空间A2 = [ Charge Soc,Discharge Soc , μ], μ表示在能源系统中,住宅净负荷为0时,电池动作处于闲置状态;
(2)定义奖励函数设置
在奖励函数R的设置为在保证室内热舒适区间的同时降低能源成本为优化目标,如式(3)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,为实时电;第二部分/> ,/>为室内温度下限,/>为室内温度上限;/>为惩罚系数,体现了超越温度范围相对系统能源成本的影响;冬季室内温度保持在18~24°C之间,即为18°C,/>为24°C;在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚;第三部分penalty(E),表示当电池容量保持在合理的工作范围内时,惩罚值为0;当智能体选择错误的动作,导致电池容量低于最小容量或高于最大容量而不能保证电池正常工作时,惩罚值为更大的100;
R = -.P + penalty (Tt) + penalty (E) (3)
(4)
(5)
(3)运行阶段
设学习率为lr,折现因子为γ,贪婪率为ε,经验样本数为k,网络参数更新频率为C,迭代次数为U,单集最大步长为T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310692015.8A CN116734424B (zh) | 2023-06-13 | 2023-06-13 | 基于rc模型和深度强化学习的室内热环境的控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310692015.8A CN116734424B (zh) | 2023-06-13 | 2023-06-13 | 基于rc模型和深度强化学习的室内热环境的控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116734424A true CN116734424A (zh) | 2023-09-12 |
CN116734424B CN116734424B (zh) | 2023-12-22 |
Family
ID=87903951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310692015.8A Active CN116734424B (zh) | 2023-06-13 | 2023-06-13 | 基于rc模型和深度强化学习的室内热环境的控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116734424B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118328458A (zh) * | 2024-06-11 | 2024-07-12 | 山东佐耀科技有限公司 | 基于强化学习的空气源热泵供热系统温度控制方法及装置 |
CN118361831A (zh) * | 2024-06-20 | 2024-07-19 | 中国海洋大学 | 基于物联网和强化学习的多区域建筑环境调控系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523226A (zh) * | 2020-04-21 | 2020-08-11 | 南京工程学院 | 一种基于优化多层残差bp深度网络的蓄电池寿命预测方法 |
US20200379417A1 (en) * | 2019-05-29 | 2020-12-03 | University Of Washington | Techniques for using machine learning for control and predictive maintenance of buildings |
CN113094995A (zh) * | 2021-04-15 | 2021-07-09 | 天津大学 | 一种基于集总电容模型的建筑热质量用于空调负荷转移评估方法 |
CN113934246A (zh) * | 2021-10-19 | 2022-01-14 | 西安建筑科技大学 | 一种建筑热舒适模型预测控制方法及系统 |
CN114325404A (zh) * | 2021-12-09 | 2022-04-12 | 重庆大学 | 一种基于热-神经网络耦合模型的电池温度估计方法 |
CN114370698A (zh) * | 2022-03-22 | 2022-04-19 | 青岛理工大学 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
CN116227883A (zh) * | 2023-03-13 | 2023-06-06 | 浙江工商大学 | 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法 |
-
2023
- 2023-06-13 CN CN202310692015.8A patent/CN116734424B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200379417A1 (en) * | 2019-05-29 | 2020-12-03 | University Of Washington | Techniques for using machine learning for control and predictive maintenance of buildings |
CN111523226A (zh) * | 2020-04-21 | 2020-08-11 | 南京工程学院 | 一种基于优化多层残差bp深度网络的蓄电池寿命预测方法 |
CN113094995A (zh) * | 2021-04-15 | 2021-07-09 | 天津大学 | 一种基于集总电容模型的建筑热质量用于空调负荷转移评估方法 |
CN113934246A (zh) * | 2021-10-19 | 2022-01-14 | 西安建筑科技大学 | 一种建筑热舒适模型预测控制方法及系统 |
CN114325404A (zh) * | 2021-12-09 | 2022-04-12 | 重庆大学 | 一种基于热-神经网络耦合模型的电池温度估计方法 |
CN114370698A (zh) * | 2022-03-22 | 2022-04-19 | 青岛理工大学 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
CN116227883A (zh) * | 2023-03-13 | 2023-06-06 | 浙江工商大学 | 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118328458A (zh) * | 2024-06-11 | 2024-07-12 | 山东佐耀科技有限公司 | 基于强化学习的空气源热泵供热系统温度控制方法及装置 |
CN118328458B (zh) * | 2024-06-11 | 2024-08-27 | 山东佐耀科技有限公司 | 基于强化学习的空气源热泵供热系统温度控制方法及装置 |
CN118361831A (zh) * | 2024-06-20 | 2024-07-19 | 中国海洋大学 | 基于物联网和强化学习的多区域建筑环境调控系统及方法 |
CN118361831B (zh) * | 2024-06-20 | 2024-08-23 | 中国海洋大学 | 基于物联网和强化学习的多区域建筑环境调控系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116734424B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116734424B (zh) | 基于rc模型和深度强化学习的室内热环境的控制方法 | |
Luo et al. | A multistage home energy management system with residential photovoltaic penetration | |
Shen et al. | Multi-agent deep reinforcement learning optimization framework for building energy system with renewable energy | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
CN109270841A (zh) | 一种基于模型预测控制的智能楼宇用能灵活性调控方法 | |
CN113112077B (zh) | 基于多步预测深度强化学习算法的hvac控制系统 | |
CN114370698B (zh) | 基于强化学习的室内热环境学习效率提升的优化控制方法 | |
CN109712019A (zh) | 一种多能楼宇实时能量管理优化方法 | |
CN115907350B (zh) | 一种建筑综合能源系统的能量管理方法及系统 | |
Du et al. | Multi-regional building energy efficiency intelligent regulation strategy based on multi-objective optimization and model predictive control | |
Omarov et al. | Design of fuzzy logic based controller for energy efficient operation in smart buildings | |
CN113203187A (zh) | 基于部分线性模型的建筑暖通空调负荷优化控制方法 | |
Qin et al. | Energy-efficient heating control for nearly zero energy residential buildings with deep reinforcement learning | |
Yang et al. | Optimal dispatch for a combined cooling, heating and power microgrid considering building virtual energy storage | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 | |
Sun et al. | Development of advanced controllers to extend the peak shifting possibilities in the residential buildings | |
CN114462696A (zh) | 基于td3的综合能源系统源荷协同运行优化方法 | |
CN113435042A (zh) | 一种建筑空调系统需求响应的强化学习建模方法 | |
CN115705608A (zh) | 一种虚拟电厂负荷感知方法及装置 | |
CN116502921A (zh) | 一种园区综合能源系统优化管理系统及其协调调度方法 | |
CN114017904B (zh) | 一种建筑物hvac系统的运行控制方法及装置 | |
CN115456250A (zh) | 一种适用于楼宇微网能源系统容量的优化配置方法及系统 | |
CN115169839A (zh) | 一种基于数据-物理-知识联合驱动的供暖负荷调度方法 | |
CN118328458B (zh) | 基于强化学习的空气源热泵供热系统温度控制方法及装置 | |
CN115840986B (zh) | 一种基于随机模型预测控制的能量管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |