CN116734424B - 基于rc模型和深度强化学习的室内热环境的控制方法 - Google Patents

基于rc模型和深度强化学习的室内热环境的控制方法 Download PDF

Info

Publication number
CN116734424B
CN116734424B CN202310692015.8A CN202310692015A CN116734424B CN 116734424 B CN116734424 B CN 116734424B CN 202310692015 A CN202310692015 A CN 202310692015A CN 116734424 B CN116734424 B CN 116734424B
Authority
CN
China
Prior art keywords
model
battery
indoor
equation
air conditioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310692015.8A
Other languages
English (en)
Other versions
CN116734424A (zh
Inventor
李岩学
何观杰
徐阳
高伟俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Technology
Original Assignee
Qingdao University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Technology filed Critical Qingdao University of Technology
Priority to CN202310692015.8A priority Critical patent/CN116734424B/zh
Publication of CN116734424A publication Critical patent/CN116734424A/zh
Application granted granted Critical
Publication of CN116734424B publication Critical patent/CN116734424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/46Improving electric energy efficiency or saving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02SGENERATION OF ELECTRIC POWER BY CONVERSION OF INFRARED RADIATION, VISIBLE LIGHT OR ULTRAVIOLET LIGHT, e.g. USING PHOTOVOLTAIC [PV] MODULES
    • H02S40/00Components or accessories in combination with PV modules, not provided for in groups H02S10/00 - H02S30/00
    • H02S40/30Electrical components
    • H02S40/38Energy storage means, e.g. batteries, structurally associated with PV modules
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/10Temperature
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/10Temperature
    • F24F2110/12Temperature of the outside air
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/20Humidity
    • F24F2110/22Humidity of the outside air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation

Abstract

本发明公开了一种基于RC模型和深度强化学习的室内热环境的控制方法属于人工智能和建筑环境控制相结合的技术领域,属于建筑环境控制技术领域。本发明通过对房屋搭建热容热阻RC模型,集成到能源系统中,通过与RC模型交互得到输入参数,利用构建的DRL控制器,输出得到对应建筑的暖通空调和蓄电池的运行调控策略,在保证室内温度的同时,实现了空调能耗的下降和家庭购电成本得最小化。与现有技术相比,本发明发挥基于RC模型的深度强化学习的优点,并结合PER算法使学习成本下降、学习曲线收敛加快,并提升建筑能源系统优化效果,系统整体性能提高。

Description

基于RC模型和深度强化学习的室内热环境的控制方法
技术领域
本发明属于人工智能和建筑环境控制相结合的技术领域,特别是涉及一种基于RC模型和深度强化学习的室内热环境的控制方法。
背景技术
随着人类的活动加剧了气候变暖的进程,全球平均气温正在以前所未有的速度上升,中国在第75届联合国大会上提出将力争于2030年前实现碳达峰、2060年前实现碳中和的目标。据调查显示,目前建筑领域碳排放量每年约20亿吨,约占全国总碳排放量的40%。而住宅作为建筑领域能耗的主体,有着巨大的节能潜力。有很多方法可以实现住宅建筑的能耗目标,其中之一就是住宅能源管理系统接入可再生能源。可再生能源具有环境友好、发展潜力和可持续利用等优点,这无疑是缓解当前能源危机的关键因素。在所有可再生能源中,太阳能是增长最快的能源之一,由于近年来光伏安装成本逐渐下降,并且部署方便,家庭屋顶光伏安装呈现快速增长态势。
随着其他可再生能源设备接入建筑能源系统,能源系统日趋复杂,给建筑能源系统的优化控制带来挑战。传统的基于规则和PID的控制,完全忽略了系统环境的随机性,遵循的是一种静态的操作策略,通常与最优策略相去甚远。强化学习(RL)作为机器学习(ML)的一个分支,专门为控制问题设计,并且结合人工智能领域的深度神经网络(NN)强大的非线性拟合能力在优化建筑控制方面得到了迅速发展,实现建筑能源效率、需求灵活性和弹性。
为了避免对建筑能源系统的复杂建模以及提高计算速度,大多数RL在建筑能源系统(BES)的研究集中无模型的方法,然而在优化控制上存在以下局限:(1)由于每个建筑的保温性能会有所差异,采用无模型的方法无法做到精确控制,导致建筑热性能预测结果不准确;(2)目前室内热舒适评价主要集中在热感觉投票指标上,即推荐一个满足舒适环境的室内温度设定范围。然而,建筑的动态物理模型对室内的热舒适有显著影响。
发明内容
本发明的目的在于提供一种基于RC模型和深度强化学习的室内热环境的控制方法,以弥补现有技术的不足。
热电阻-电容网络(RC模型)的优点是简单性和计算效率,基于RC模型的数据驱动模型能够用于提高建筑物的能源性能;此外,建筑物的慢热动态特性使它相当于储热设施,为家庭能源管理系统(HEMS)在调度HVAC系统方面提供了额外的灵活性。
RC模型(原理如图1所示)代表了控制建筑及其与环境之间能量相互作用的基本物理关系,保留了对建筑能源和区域环境研究中通常使用的设计参数的敏感性;能够更好地理解建筑的物理问题,并使容易评估建模和不同参数的设置成为可能。
强化学习的基本原理为智能体在环境反馈奖励或惩罚的刺激下持续学习,根据反馈不断调整策略,最终达成奖励最大化或实现特定目标。其中智能体(Agent)是进行不断学习和实施动作的控制器,智能体之外所有与其相互作用的部分被称为环境(Environment)。智能体在状态下,根据策略选择动作,环境将会基于智能体所做出的动作给出响应的奖励(Reward),并转移到下一时刻新的状态;根据获得的奖励获得最优策略:
其中:γ∈(0,1)为衰减因子。
强化学习的最终目的是通过最大化奖励值来获得最优策,具有较强的决策能力,在越来越复杂的现实场景中,深度学习可以从原始大规模交互数据中提取高级特征,具有较强的感知能力。
本发明的目标是满足室内热舒适性要求的前提下,降低能源成本,这一目标由两个调控对象实现:(1)降低空调系统的能耗;(2)通过调控蓄电池,使本地光伏消纳率最大化,实现购电成本的最小化。为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略。为此,本发明特地将一个房屋进行系统的热力学建模,并将简化的房屋RC模型集成到HEMS调度中,由DRL控制器进行新风系统(HVAC)进行调控,实现室内热舒适在合理的区间前提下,通过住宅内蓄电池与电网实时交互,上网电价高时放电,电价低时蓄电,从而实现购电成本的最小化。
深度强化学习(Deep Reinforcement Learning,DRL)将强化学习与深度学习结合起来,本发明将构建一个住宅RC模型,作为训练的环境模型。控制算法采用D3QN算法控制策略,该算法与DRL经典算法DQN的区别主要是D3QN引入经验优先(PER)算法,与DQN的经验重放方法相比,引入PER算法提高了模型采样的效率,加快了本发明应用实例算法的学习过程。
为达到上述目的,基于上述技术原理和分析,本发明是通过以下技术方案实现的:
一种基于RC模型和深度强化学习的室内热环境的控制方法,该方法包括以下步骤:
S1:搭建建筑RC模型,作为环境模型;
S2:获取观测数据:包括获取室内外热环境和蓄电池的相关参数;
S3:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、电池荷电状态;
S4:利用S2获取的观测数据在S3建立的模型中进行循环运算,并引入D3QN强化学习方法,所述D3QN强化学习方法为DQN与PER算法相结合的控制策略;基于神经网络训练控制空调系统、蓄电池的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量以及电池充放电决策的优化过程,得到最优控制策略,即得到最优的控制方法。
进一步的,所述S1中,利用RC储能模型对建筑的制热区域建立简化的物理模型,建筑的RC热网格模型由热阻与热容构成,其中,热阻具有热传输的能力,将整个建筑连接在一起,热容是具有存储热的能力;在单位面积、单位时间内透过围护结构的导热热量,称为热流强度,通常用q表示,其值为等式(1):
等式中T1,T2分别为围护结构两侧的表面温度℃;d为围护结构的厚度,λ为壁体材料导热系数。
建筑物RC热能耗模型,有加热器为房间提供恒定的热能q,来模拟室内的空调或暖气,加热后房间内和室外的温度分别为Tr、To,围护结构的温度为Tw,当热能q流入围护结构时,通过热能守恒方程,得到等式(2),代表了房间室内外环境热量转换的基本过程;
式中Rr是房间空气热阻;Rw是房间围护结构热阻;C为热容。
进一步的,所述S2中,室内外热环境数据包括时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量和室内温度;蓄电池的相关参数包括蓄电池模型所需的光伏、住宅负荷、电价信息。
进一步的,所述S3中,搭建神经网络模型:选用四层前馈全连接神经网络(一个输入层、两个隐含层、一个输出层)建立系统的输入输出模型;选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,上述神经网络模型中,选择输入层参数,并输出下一时刻的室内温度Tin(t+1)、空调系统耗电量P(t+1)和电池荷电状态Soc(t+1)。
具体的,最终选择时刻信息h,室外温度Tamb(℃),室外相对湿度Hamb(%),太阳辐射强度R(W/m2),空调系统耗电量p(kW),室内温度Tin(℃),SHVAC=[h,Tamb,Hamb,R,P,Tin]作为空调系统模型的输入层参数;选择Pv(W),Load(kWh),Price(yuan),SBattery=[Pv,Load,Price]作为蓄电池模型的输入层参数;t表示时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和荷电状态;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程,具体包括:
(1)对空调系统H和蓄电池B两个部分:
在空调系统H中,状态观测空间SHVAC设置为SHVAC=[h,Tamb,Hamb,R,P,Tin],可控制变量为空调制热量,动作空间AHVAC设置为AHVAC=[0,0.25q,0.5q,0.75q,q];在蓄电池模型B中,状态空间SBattery=[Pv,Load,Price,Month,Hour],动作空间ABattery=[ChargeSoc,DischargeSoc,μ],μ表示在能源系统中,住宅净负荷为0时,电池动作处于闲置状态;
(2)定义奖励函数设置
在奖励函数R的设置为在保证室内热舒适区间的同时降低能源成本为优化目标,如式(3)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,η为实时电;第二部分penalty(Tin),Tlower_bound为室内温度下限,Tupper_bound为室内温度上限;λ为惩罚系数,体现了超越温度范围相对系统能源成本的影响;为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持在18~24℃之间,即Tlower_bound为18℃,Tupper_bound为24℃;在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚;第三部分penalty(E),表示当电池容量保持在合理的工作范围内时,惩罚值为0;当智能体选择错误的动作,导致电池容量低于最小容量或高于最大容量而不能保证电池正常工作时,惩罚值为更大的100;
R=-η*P+penalty(Tt)+penalty(E) (3)
(3)运行阶段
设学习率为r,衰减因子为γ,贪婪率为ε,经验样本数为k,网络参数更新频率为C,迭代次数为U,单集最大步长为T。
进一步的,所述D3QN算法流程如下所示:
第一步:初始化经验重放池
第二步:初始化当前网络Q和目标值网络Q^,当前网络权重参数θ,目标网络权重参数θ^。
第三步:初始化变更后权重Δ=0
第四步:循环遍历事件episode=1,2,…,M。当episode=1,U做
初始化状态S1
第五步:当t=1时,T做
当贪婪率为ε时,选择随机动作at,否则选择at=argmax Q(st,a;w)
在环境中执行动作at并观察rt和St+1
存储转换(st,at,rt,st+1)和概率pt
第六步:当j=1时,k根据等式(6)计算采样概率P(j),并根据等式(8)计算抽样权重。
其中P(i)为经验样本的优先级;O为采样系数,当O等于0时,表示采用均匀随机抽样进行经验重放。等式(6)中p(i)采用优先计算方法,它可以表示下面的等式(7)
pi=TD-error+ε (7)
等式(7)中ε为贪婪率,该策略可以避免计算TD误差为零时样本不被重放的问题。在与房屋RC模型学习到样本后,为了消除抽样的误差,引入新的权重计算方法,该权重表示为等式(8)
第七步:计算TD误差,并根据等式(7)更新概率Pt
第八步:根据等式(9)计算损失函数。
等式(9)中r为回报,γ为衰减因子,为目标价值网络,/>为目标价值网络的权重参数。
第九步:累积权重变化
第十步:重复步骤第四步至第九步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,更新目标动作值网络参数。
第十一步:重复以上步骤M次,直到智能体学习出使得累计奖励值R最大的策略。
与现有技术相比,本发明的优点和有益效果是:
本发明设计一种基于深度强化学习的建筑能源系统优化控制方法具有重要意义,能够形成一套完整的感知决策体系,维持室内热舒适环境,并有效提高住宅建筑的经济效益。
附图说明
图1是本发明热容热阻(RC)模型图。
图2是本发明的算法神经网络结构图。
图3是本发明的D3QN算法流程图。
图4是本发明实施例中的模型学习曲线图。
图5是本发明实施例中的调控效果图;(a)为室内温度调控效果图,(b)为现场光伏消纳结果图。
具体实施方式
下面结合实施例和附图对本发明所述的技术方案作进一步地描述说明。
实施例1
本实施例优化控制策略的目标是满足室内热舒适性要求的前提下,实现经济收益的最大化,这一目标通过降低空调系统能耗和调节家庭蓄电池实现。
为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略。为此,本发明特地将一个房屋进行系统的热力学建模,并将简化的房屋RC模型集成到HEMS调度中,由RL控制器进行新风系统(HVAC)进行调控,实现室内热舒适在合理的区间前提下,通过住宅内蓄电池与电网实时交互,上网电价高时放电,电价低时蓄电,从而实现购电成本的最小化。
深度强化学习(Deep Reinforcement Learning,DRL)将强化学习与深度学习结合起来,本发明将构建一个住宅RC模型,作为训练的环境模型。控制算法采用D3QN与经验优先(PER)算法相结合的DQN控制策略,与传统的经验重放方法相比,引入PER算法提高了模型采样的效率,加快了本发明应用实例算法的学习过程。
为达到上述目的,本发明是通过以下技术方案实现的:
一种基于RC模型和数据驱动住宅能源系统优化控制方法,该方法包括以下步骤:
S1:搭建研究实例的房屋RC模型,作为训练用的环境模型。
S2:获取观测数据:包括获取室内外热环境和蓄电池的相关参数;
S3:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、电池荷电状态;
S4:利用S2获取的数据在S3建立的模型中进行循环运算,并引入D3QN强化学习方法,基于神经网络训练控制空调系统、蓄电池的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量以及电池充放电决策的优化过程,得到最优控制策略,即得到最优的控制方法,实现能源成本的优化。
在一实施例中,所述S1中,利用RC储能模型对建筑的制热区域建立简化的物理模型,建筑的RC热网格模型由热阻与热容构成,其中,热阻具有热传输的能力,将整个建筑连接在一起,热容是具有存储热的能力;在单位面积、单位时间内透过围护结构的导热热量,称为热流强度,通常用q表示,其值为等式(1):
等式中T1,T2分别为围护结构两侧的表面温度℃;d为围护结构的厚度,λ为壁体材料导热系数。建筑物RC热能耗模型,如上图1所示,有加热器为房间提供恒定的热能q,来模拟我们室内的空调或暖气,加热后房间内和室外的温度分别为Tr、To,围护结构的温度为TW,当热能q流入围护结构时,通过热能守恒方程,可以得到等式(2),它代表了房间室内外环境热量转换的基本过程。
式中Rr是房间空气热阻;Rw是房间围护结构热阻;C为热容。
在一实施例中,所述S2中,室内外热环境数据:时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量和室内温度,以及蓄电池模型所需的光伏、住宅负荷、电价信息。
在一实施例中,所述S3中,搭建神经网络模型:选用四层前馈全连接神经网络(一个输入层、两个隐含层、一个输出层)建立系统的输入输出模型;选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。与DQN中直接输出Q值的深度神经网络不同,D3QN在获得中间特征后分别输出预测状态值函数V和预测相对优势函数A,这两个函数作为动作值函数添加。通过同时训练V和A,可以避免网络训练时的过拟合问题,加快网络的训练速度。神经网络结构如图2所示。
在一实施例中,上述神经网络模型中,选择输入层参数,并输出下一时刻的室内温度Tin(t+1)、空调系统耗电量P(t+1)和电池荷电状态Soc(t+1)。
具体的,最终选择时刻信息h,室外温度Tamb(℃),室外相对湿度Hamb(%),太阳辐射强度R(W/m2),空调系统耗电量P(kW),室内温度Tin(℃),SHVAC=[h,Tamb,Hamb,R,P,Tin]作为空调系统模型的输入层参数。选择Pv(W),Load(kWh),Price(yuan),SBattery=[Pv,Load,Price]作为蓄电池模型的输入层参数。t表示时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和荷电状态;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
在一实施例中,所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程,具体包括:
(1)对空调系统H和蓄电池B两个部分:
在空调系统H中,状态观测空间SHVAC设置为SHVAC=[h,Tamb,Hamb,R,P,Tin],可控制变量为空调制热量,动作空间AHVAC设置为AHVAC=[0,0.25q,0.5q,0.75q,q];在蓄电池模型B中,状态空间SBattery=[Pv,Load,Price,Month,Hour],动作空间ABattery=[ChargeSoc,DischargeSoc,μ],μ表示在能源系统中,住宅净负荷为0时,电池动作处于闲置状态。
(2)定义奖励函数设置
在奖励函数R的设置为在保证室内热舒适区间的同时降低能源成本为优化目标,如式(3)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,η为实时电;第二部分penalty(Tin),Tlower_bound为室内温度下限,Tupper_bound为室内温度上限;λ为惩罚系数,体现了超越温度范围相对系统能源成本的影响;为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持在18~24℃之间,即Tlower_bound为18℃,Tupper_bound为24℃;在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚。第三部分penalty(E),表示当电池容量保持在合理的工作范围内时,惩罚值为0;当智能体选择错误的动作,导致电池容量低于最小容量或高于最大容量而不能保证电池正常工作时,惩罚值为更大的100。
R=-η*P+penalty(Tt)+penalty(E) (3)
(3)运行阶段
设学习率为r,衰减因子为γ,贪婪率为ε,经验样本数为k,网络参数更新频率为C,迭代次数为U,单集最大步长为T:
D3QN-PER算法流程如图3所示。
第一步:初始化经验重放池
第二步:初始化当前网络Q和目标值网络Q^,当前网络权重参数θ,目标网络权重参数θ^。
第三步:初始化变更后权重Δ=0
第四步:循环遍历事件episode=1,2,…,M。当episode=1,U做
初始化状态S1
第五步:当t=1时,T做
当贪婪率为ε时,选择随机动作at,否则选择at=argmax Q(st,a;w)
在环境中执行动作at并观察rt和st+1
存储转换(st,at,rt,st+1)和概率pt
第六步:当j=1时,k根据等式(6)计算采样概率P(j),并根据等式(8)计算抽样权重。
其中P(i)为经验样本的优先级;O为采样系数,当O等于0时,表示采用均匀随机抽样进行经验重放。等式(6)中p(i)采用优先计算方法,它可以表示下面的等式(7)
pi=TD-error+ε (7)
等式(7)中ε为贪婪率,该策略可以避免计算TD误差为零时样本不被重放的问题。在与房屋RC模型学习到样本后,为了消除抽样的误差,引入新的权重计算方法,该权重表示为等式(8)
第七步:计算TD误差,并根据等式(7)更新概率Pt
第八步:根据等式(9)计算损失函数。
等式(9)中r为回报,γ为衰减因子,为目标价值网络,/>为目标价值网络的权重参数。
第九步:累积权重变化
第十步:重复步骤第四步至第九步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,更新目标动作值网络参数。
第十一步:重复以上步骤M次,直到智能体学习出使得累计奖励值R最大的策略。
以上述实施例为基础,进行验证:
为了检验所提出的强化学习算法的可行性和有效性,选择了现实两层的零能耗住宅作为测试对象,其中总建筑面积105m2,选用的零能耗住宅围护结构填充玻璃棉保温效果好,保温性能高,围护结构平均整体热损失率Ua为0.58W/(m2·K),所以零能耗住宅具有很高的热灵活性潜力。为此收集了该房子从2020年1月1日到3月30日,以30分钟为间隔收集的运行数据,该房子配备有4.8kWp的光伏系统和容量为5.6kW的储能电池(图1),房间收集数据特征,鉴于可用数据,使用10周数据(共3628个控制步骤,间隔30分钟)来作为输入端并训练DRL智能体,输入到S3步骤中,模型的求解过程详细见第三部分运行阶段。模型的训练曲线见图4。
图4展示了本发明设计模型训练曲线,训练过程主要分为两个过程,奖励在训练过程的初始阶段(100个训练次数之前)迅速增加,然后奖励值越来越稳定,达到训练阶段结束时的收敛阶段,这表明所提出的D3QN智能体有效学习到了能源系统的最佳调控策略,而且训练次数大大减少便可以达到收敛的效果,节省了计算资源和时间。
如图5所示,本发明提出的控制方法能实现兼顾室内热舒适的前提下(温度保证在20~24℃)实现空调电费的下降,同时蓄电池模型作为平衡能源系统的调节器,有效提升了现场光伏的消纳率,实现家庭购买能源经济成本的有效降低。
在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。
最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于RC模型和深度强化学习的室内热环境的控制方法,其特征在于,该方法包括以下步骤:
S1:搭建建筑RC模型,作为环境模型;所述建筑RC模型由热阻与热容构成;在单位面积、单位时间内透过围护结构的导热热量,称为热能,用q表示,其值为等式(1):
其中,T1,T2分别为围护结构两侧的表面温度℃;d为围护结构的厚度,λ为壁体材料导热系数;
加热后房间内和室外的温度分别为Tr、To,围护结构的温度为TW,当热能q流入围护结构时,通过热能守恒方程,得到等式(2),代表室内外环境热量转换的基本过程;
式中Rr是房间空气热阻;Rw是房间围护结构热阻;C为热容;
S2:获取观测数据:包括获取室内外热环境和蓄电池的相关参数;
S3:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、电池荷电状态;所述神经网络模型选用四层前馈全连接神经网络:一个输入层、两个隐含层、一个输出层,选择均方差作为神经网络模型的损失函数;优化器选择随机梯度下降法来寻找模型最优解;所述神经网络模型中,选择输入层参数,并输出下一时刻的室内温度Tin(t+1)、空调系统耗电量P(t+1)和电池荷电状态Soc(t+1);选择时刻信息h,室外温度Tamb(℃),室外相对湿度Hamb(%),太阳辐射强度R(W/m2),空调系统耗电量P(kW),室内温度Tin(℃),SHVAC=[h,Tamb,Hamb,R,P,Tin]作为空调系统模型的输入层参数;选择Pv(W),Load(kWh),Price(yuan),SBattery=[Pv,Load,Price]作为蓄电池模型的输入层参数;t表示时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和荷电状态;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数;所述神经网络模型中将控制方法运行优化问题建模为马尔科夫决策过程;
S4:利用S2获取的观测数据在S3建立的模型中进行循环运算,并引入D3QN强化学习方法,所述D3QN强化学习方法为DQN与PER算法相结合的控制策略;基于神经网络训练控制空调系统、蓄电池的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量以及电池充放电决策的优化过程,得到最优控制策略,即得到最优的控制方法。
2.如权利要求1所述的室内热环境的控制方法,其特征在于,所述S2中,室内外热环境数据包括时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量和室内温度;蓄电池的相关参数包括蓄电池模型所需的光伏、住宅负荷、电价信息。
3.如权利要求1所述的室内热环境的控制方法,其特征在于,所述神经网络模型中将控制方法运行优化问题建模为马尔科夫决策过程,具体包括:
(1)对空调系统H和蓄电池B两个部分:
在空调系统H中,状态观测空间SHVAC设置为SHVAC=[h,Tamb,Hamb,R,P,Tin],可控制变量为空调制热量,动作空间AHVAC设置为AHVAC=[0,0.25q,0.5q,0.75q,q];在蓄电池模型B中,状态空间SBattery=[Pv,Load,Price,Month,Hour],动作空间ABattery=[ChargeSoc,DischargeSoc,μ],μ表示在能源系统中,住宅净负荷为0时,电池动作处于闲置状态;
(2)定义奖励函数设置
在奖励函数R的设置为在保证室内热舒适区间的同时降低能源成本为优化目标,如式(3)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,η为实时电;第二部分penalty(Tin),Tlower_bound为室内温度下限,Tupper_bound为室内温度上限;λ为惩罚系数,体现了超越温度范围相对系统能源成本的影响;冬季室内温度保持在18~24℃之间,即Tlower_bound为18℃,Tupper_bound为24℃;在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚;第三部分penalty(E),表示当电池容量保持在合理的工作范围内时,惩罚值为0;当智能体选择错误的动作,导致电池容量低于最小容量或高于最大容量而不能保证电池正常工作时,惩罚值为更大的100;
R=-η*P+penalty(Tt)+penalty(E) (3)
(3)运行阶段
设学习率为r,衰减因子为γ,贪婪率为ε,经验样本数为k,网络参数更新频率为C,迭代次数为U,单集最大步长为T。
4.如权利要求1所述的室内热环境的控制方法,其特征在于,所述D3QN强化学习方法流程如下所示:
第一步:初始化经验重放池;
第二步:初始化当前网络Q和目标值网络Q^,当前网络权重参数θ,目标网络权重参数θ^;
第三步:初始化变更后权重Δ=0;
第四步:循环遍历事件episode=1,2,…,M,当episode=1,U做初始化状态S1;
第五步:当t=1时,T根据以下情况做出决策:
当贪婪率为ε时,选择随机动作at,否则选择at=argmax Q(st,a;w)
在环境中执行动作at并观察rt和st+1
存储转换(st,at,rt,st+1)和概率pt
第六步:当j=1时,k根据等式(6)计算采样概率P(j),并根据等式(8)计算抽样权重;
其中P(i)为经验样本的优先级;O为采样系数,当O等于0时,表示采用均匀随机抽样进行经验重放;等式(6)中p(i)采用优先计算方法,它可以表示下面的等式(7)
pi=TD-error+ε (7)
等式(7)中ε为贪婪率,以避免计算TD误差为零时样本不被重放的问题;在与房屋RC模型学习到样本后,为了消除抽样的误差,引入新的权重计算方法,该权重表示为等式(8)
第七步:计算TD误差,并根据等式(7)更新概率Pt
第八步:根据等式(9)计算损失函数:
等式(9)中r为回报,γ为衰减因子,为目标价值网络,/>为目标价值网络的权重参数;
第九步:累积权重变化
第十步:重复步骤第四步至第九步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,更新目标动作值网络参数;
第十一步:重复以上步骤M次,直到智能体学习出使得累计奖励值R最大的策略。
CN202310692015.8A 2023-06-13 2023-06-13 基于rc模型和深度强化学习的室内热环境的控制方法 Active CN116734424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310692015.8A CN116734424B (zh) 2023-06-13 2023-06-13 基于rc模型和深度强化学习的室内热环境的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310692015.8A CN116734424B (zh) 2023-06-13 2023-06-13 基于rc模型和深度强化学习的室内热环境的控制方法

Publications (2)

Publication Number Publication Date
CN116734424A CN116734424A (zh) 2023-09-12
CN116734424B true CN116734424B (zh) 2023-12-22

Family

ID=87903951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310692015.8A Active CN116734424B (zh) 2023-06-13 2023-06-13 基于rc模型和深度强化学习的室内热环境的控制方法

Country Status (1)

Country Link
CN (1) CN116734424B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523226A (zh) * 2020-04-21 2020-08-11 南京工程学院 一种基于优化多层残差bp深度网络的蓄电池寿命预测方法
CN113094995A (zh) * 2021-04-15 2021-07-09 天津大学 一种基于集总电容模型的建筑热质量用于空调负荷转移评估方法
CN113934246A (zh) * 2021-10-19 2022-01-14 西安建筑科技大学 一种建筑热舒适模型预测控制方法及系统
CN114325404A (zh) * 2021-12-09 2022-04-12 重庆大学 一种基于热-神经网络耦合模型的电池温度估计方法
CN114370698A (zh) * 2022-03-22 2022-04-19 青岛理工大学 基于强化学习的室内热环境学习效率提升的优化控制方法
CN116227883A (zh) * 2023-03-13 2023-06-06 浙江工商大学 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200379417A1 (en) * 2019-05-29 2020-12-03 University Of Washington Techniques for using machine learning for control and predictive maintenance of buildings

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523226A (zh) * 2020-04-21 2020-08-11 南京工程学院 一种基于优化多层残差bp深度网络的蓄电池寿命预测方法
CN113094995A (zh) * 2021-04-15 2021-07-09 天津大学 一种基于集总电容模型的建筑热质量用于空调负荷转移评估方法
CN113934246A (zh) * 2021-10-19 2022-01-14 西安建筑科技大学 一种建筑热舒适模型预测控制方法及系统
CN114325404A (zh) * 2021-12-09 2022-04-12 重庆大学 一种基于热-神经网络耦合模型的电池温度估计方法
CN114370698A (zh) * 2022-03-22 2022-04-19 青岛理工大学 基于强化学习的室内热环境学习效率提升的优化控制方法
CN116227883A (zh) * 2023-03-13 2023-06-06 浙江工商大学 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法

Also Published As

Publication number Publication date
CN116734424A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Luo et al. A multistage home energy management system with residential photovoltaic penetration
Huang et al. A neural network-based multi-zone modelling approach for predictive control system design in commercial buildings
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
CN114370698B (zh) 基于强化学习的室内热环境学习效率提升的优化控制方法
CN115907350B (zh) 一种建筑综合能源系统的能量管理方法及系统
Omarov et al. Design of fuzzy logic based controller for energy efficient operation in smart buildings
Du et al. Multi-regional building energy efficiency intelligent regulation strategy based on multi-objective optimization and model predictive control
Yang et al. Optimal dispatch for a combined cooling, heating and power microgrid considering building virtual energy storage
CN114462696A (zh) 基于td3的综合能源系统源荷协同运行优化方法
CN116734424B (zh) 基于rc模型和深度强化学习的室内热环境的控制方法
CN117172499A (zh) 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质
Sun et al. Development of advanced controllers to extend the peak shifting possibilities in the residential buildings
CN115115145B (zh) 分布式光伏智能住宅的需求响应调度方法及系统
CN116502921A (zh) 一种园区综合能源系统优化管理系统及其协调调度方法
CN113435042B (zh) 一种建筑空调系统需求响应的强化学习建模方法
CN114017904B (zh) 一种建筑物hvac系统的运行控制方法及装置
Li et al. Thermal comfort control based on MEC algorithm for HVAC systems
Vergini et al. A critical overview of net zero energy buildings and fuzzy cognitive maps
CN115705608A (zh) 一种虚拟电厂负荷感知方法及装置
CN115840986B (zh) 一种基于随机模型预测控制的能量管理方法
CN113078629A (zh) 一种用于集群温控负荷聚合商功率调控的聚合体功率分配模型及分布式一致性控制方法
Nguyen Enhancing Building Energy Efficiency Through Its Windows
He et al. Demand response strategy for HVAC based on reinforcement learning and imitation learning
Dey et al. Reinforcement Learning Building Control: An Online Approach with Guided Exploration using Surrogate Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant