CN112948125A - 基于gpu并行强化学习的建筑节能方法 - Google Patents

基于gpu并行强化学习的建筑节能方法 Download PDF

Info

Publication number
CN112948125A
CN112948125A CN202110336583.5A CN202110336583A CN112948125A CN 112948125 A CN112948125 A CN 112948125A CN 202110336583 A CN202110336583 A CN 202110336583A CN 112948125 A CN112948125 A CN 112948125A
Authority
CN
China
Prior art keywords
building energy
gpu
strategy
saving method
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110336583.5A
Other languages
English (en)
Inventor
颜峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Technology Co ltd
Original Assignee
Beijing Shenrui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Technology Co ltd filed Critical Beijing Shenrui Technology Co ltd
Priority to CN202110336583.5A priority Critical patent/CN112948125A/zh
Publication of CN112948125A publication Critical patent/CN112948125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明提供基于GPU并行强化学习的建筑节能方法,涉及建筑节能方法领域。该基于GPU并行强化学习的建筑节能方法,包括以下步骤:S1.在服务器端生成节能操控容器实例,并从系统平台感知环境参数;S2.在服务器端,判定环境参数,如达到初始设置要求,则停止操作;否则,构造决策模型;S3.将模型传输到GPU计算工作站;S4.GPU计算工作站根据模型,进行FCM分类;S5.选取每个分类中的典型操控策略,逐个对比,整体评估;S6.将最优操控策略传输到边缘控制系统,进行系统操控。本发明设计的建筑节能方法中的策略评估过程采用GPU并行计算技术,运行速度和效率加快,系统实时响应提升,同时该建筑节能方法中策略分类、测评与策略执行是同时执行的,系统吞吐率被有效提升。

Description

基于GPU并行强化学习的建筑节能方法
技术领域
本发明涉及建筑节能方法技术领域,具体为基于GPU并行强化学习的建筑节能方法。
背景技术
作为占地资源、消耗水、电、气大户的公共建筑领域,《中国建筑节能发展研究报告》(2017-2020)统计数据,商业办公建筑和住宅建筑能耗逐年攀升,远远超过其他领域能耗的上升速度。同时,建筑能耗伴随着建筑面积的逐步扩大和人们对所居住建筑的智能化、绿色、便利、舒适度需求的提高,呈现出不断攀升的趋势。随着技术的进步,智能建筑的节能研究不可避免成为大家关注和研究的重点。大数据,深度学习、模糊分类、人工智能以及它们之间的协同工作,是近期在建筑节能开发研究中,新兴的也是很有发展前景的技术领域。
在智能建筑节能领域,国际上不断有基于强化学习的方法被提出,用于进行节能控制。理论上,在节能控制领域,经典的强化学习算法是一种行之有效的方法,但应用到建筑的现实情况中,两个问题需要解决:其一是维数不可控问题,因为影响节能的因素很多,而且处于变化中;其二是在大容量状态空间或者多态连续空间问题中,传统的强化学习算法存在收敛速度慢,甚至会出现难以收敛的情况。针对在国内建筑节能领域中,重硬件轻软件控制的实际情况,本发明提出的基于GPU并行强化学习的建筑节能方法,体现在快速策略评估和与环境交互并行计算上。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于GPU并行强化学习的建筑节能方法,解决了传统强化学习方法维数不可控,存在收敛速度慢,甚至会出现难以收敛的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:基于GPU并行强化学习的建筑节能方法,包括以下步骤:
S1.在服务器端生成节能操控容器实例,并从系统平台感知环境参数;
S2.在服务器端,判定环境参数,如达到初始设置要求,则停止操作;否则,构造决策模型;
S3.将模型传输到GPU计算工作站;
S4.GPU计算工作站根据模型,进行FCM分类;
S5.选取每个分类中的典型操控策略,逐个对比,整体评估;
S6.将最优操控策略传输到边缘控制系统,进行系统操控;
S7.边缘控制系统接收操控策略,并按策略向末端设备发送指令;
S8.边缘设备将按照指令操作后更新的参数,传送服务器。
优选的,所述S2中决策模型选用马尔科夫决策建模。
优选的,所述决策模型对建筑环境中的空间状态、动作、回馈以及状态转移函数进行建模。
优选的,所述S4中GPU工作站安装FCM算法,对可能的策略进行分类,算法具体包括:
a.输入:当前执行的划分方法相关的参数:i,Ci,权重指数m,聚类中心
Figure BDA0002997934210000021
b.Δ=0;
c.For each j∈{1,2,...,N},do;
d.V=vi,u=ui
e.
Figure BDA0002997934210000031
f.
Figure BDA0002997934210000032
g.Δ=max{Δa|v-vi|,||u-uij||};
h.UntilΔ<θ,θ为一个极小的正实数;
i.输出Uc、Vc、f(c),从分类之中选取典型的策略,评估后,传输到边缘系统。
(三)有益效果
本发明提供了基于GPU并行强化学习的建筑节能方法。具备以下有益效果:
1、本发明设计的建筑节能方法中策略分类、测评与策略执行是同时执行的,系统吞吐率被有效提升。
2、本发明设计的建筑节能方法中的策略评估过程采用GPU并行计算技术,运行速度和效率加快,系统实时响应提升。GPU并行计算技术对CPU并没有增加太大开销,还可以降低运算时间。
附图说明
图1为本发明提出的建筑节能算法构架示意图;
图2为本发明提出的建筑节能方法步骤示意图;
图3为本发明提出的建筑节能方法流程示意图;
图4为马尔科夫过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1-3所示,本发明实施例提供基于GPU并行强化学习的建筑节能方法,包括以下步骤:
S1.在服务器端生成节能操控容器实例,并从系统平台感知环境参数;
S2.在服务器端,判定环境参数,如达到初始设置要求,则停止操作;否则,构造马尔科夫决策模型;
S3.将模型传输到GPU计算工作站;
S4.GPU计算工作站根据模型,进行FCM分类;
S5.选取每个分类中的典型操控策略,逐个对比,整体评估;
S6.将最优操控策略传输到边缘控制系统,进行系统操控;
S7.边缘控制系统接收操控策略,并按策略向末端设备发送指令;
S8.边缘设备将按照指令操作后更新的参数,传送服务器。
以通风空调为例,进行节能建模,以节省能源消耗,其他能耗的控制,也可采用类似的方法。如果同时开启空调系统、通风系统、电动窗系统,三者之间的效能会相互抵消一部分。本实施例模型设定抵消系数为0.3,开窗和通风系统对CO2浓度均产生直接影响,影响系数设为1:1.5,建模如下:
(1)状态
状态建模主要考虑三个因素,分别是室内空气温度T(单位:摄氏度)、室内二氧化碳浓度βt(单位:ppm)以及设置温度setT(单位:摄氏度),其计算公式如式(1)、式(2)和式(3)所示。其中,室内温度T的范围为[0,40],βt的范围为[200,1000],CO2浓度的范围为[300,850],CO2浓度参数的作用是:当CO2浓度低至200ppm时给一个接近于0的值;当该浓度高于900ppm时给一个接近于1的值。这里设置的200ppm是室外CO2浓度能能够达到的最低水平,而900ppm则是室内人体感觉舒适的极限水平。setT与βt的设置方式相同。故状态可以表示为:s=[T,βt,setT]。其中,Et表示实时能耗,T0表示室内初始温度,Emax表示一段时间段内,空调系统、电动窗系统和通风系统的最大能耗。
(2)动作
动作建模为80×3的矩阵,各种操作的组合数action_num=80,每行由一组三维向量组成,对应一组动作,动作来自空调系统、开窗状态以及通风系统。其中空调系统AC_CONfig的设定主要包含5个子动作:0为关闭,1为取暖小风,2为制冷小风,3为取暖大风,4为制冷大风;电动百叶window_CONfig主要包含4个子动作;0为关闭,1为微张,2为半张,3为全开;通风系统ventilation_CONfig主要包含4个子动作:0是关闭,1是小档,2是中档,3是大档。用a=[AC_CONfig,window_CONfig,ventilation_CONfig]来表示动作。
(3)回馈
回馈建模主要考虑室内温度、室内空气CO2浓度以及能源消耗参数。其计算如式(5)、式(6)、式(7)和式(8)所示:
r=w1(T_penalty)+w2(indoor_air_quaility_penalty)+w3(E_penalty)
(1)
Figure BDA0002997934210000051
Figure BDA0002997934210000052
Figure BDA0002997934210000053
w1、w2、w3分别表示其权重参数,根据经验,本实施例将其设置为:w1=0.6,w2=0.3,w3=0.1,T_reward表示室内温度回馈,indoor_air_quality_reward表示室内空气质量回馈,E_reward,表示能耗回馈。
(4)状态转移函数
状态转移公式如式(5)、式(6)、式(7)和式(8)所示:
Tt+1←Tt-[(-1AC_CONfig%2)×T_ch angerate×(1-0.1ventilation_CONfig)]
(5)
βt+1=βt-0.1×window_CONfig+0.2×ventilation_CONfi
(6)
Et+1=Et+AC_CONfig+ventilation_CONfig (7)
Figure BDA0002997934210000061
其中T_changrate表示温度变化速度,与采用大风、小风还是关闭的动作有关。室内温度与设置温度的差距、室内CO2浓度高低、能耗值高低,与整体能耗成正向比例。当三个相关变量变化时,r的值与之线性关联变化;r值减小,整体能耗就显示下降了。这便是节能算法要达到的最终目标:在保障用户舒适度的前置条件下,达到减少建筑能耗,即:在基本满足环境主要约束条件下,用能最少。
马尔科夫决策过程(MDP)用于对顺序决策过程的数学建模。MDP模型中,顺序变化中的下一步环境状态,由当前的环境状态和对当前环境采取的操作决定。因此,可以通过现有的环境状态信息来预计今后的状态以及对现有状态的回馈。
MDP一般可以表示为一个五元组(S,A,P,R,γ),如图4所示,其中S表示环境状态s构成的状态空间,状态s由多个变量组成;A表示Agent所能执行的所有动作α构成的集合;P:S×A×S’→【0.1】为环境状态转移概率函数,P(s,a,s’)表示Agent在状态s中执行动作a后环境迁移到新状态s'的概率;R:S×A×S’→R为回报函数,R(s,a,s’)表示Agent在环境状态s中执行动作a造成环境因此迁移到状态S’后所取得的直接回馈。γ表示折扣因子系数。后来的状态受当前状态s的影响,但是这个影响随着顺序推进,逐渐变弱。现有的一个动作会对接下来马上要发生的事件会有很大的影响,但随着事件的推进,这个动作对后面事件的影响逐渐弱化,所以需要一个折扣因子来表达衰减。
算法模型中,agent与environment(环境)一直处于交互状态。在每个时刻t,agent会接收到来平台系统自环境传感器的信息,这些信息反映了目前的状态s,基于这个状态s,agent会发出指令a,平台系统会按照这个指令操作,平台系统之后会给agent一个回馈R,并且agent就会到达新的状态。所以,其实agent与environment之间的交互就是产生了一个序列:
S0,A0,R1,S1,A1,R2,...S0,A0,R1,S1,A1,R2,...
这个序列就是决策过程,马尔科夫决策过程使决策序列变得公式化,模型化,决策序列过程广泛用于系统的科学预测。
模糊聚类方法(FUZZY C-MENAS)不是传统意义上非此即彼的分类方法,它提取样本事物间的特征,计算相互间距离,通过统计相似度百分比,对样本事物进行模糊分类。基于GPU的节能算法中,依照模糊聚类的距离算法,对策略向量进行分类,进而对典型的分类策略进行选优,优选出最佳控制策略,该方法能有效提升算法性能。
以模糊统计方式进行类别划分的算法中,FCM(Fuzzy C-Means)算法被普遍成功运用,它通过计算每个样本点对所有类中心的距离,通过距离大小来判定各个样本点的类别。假定对数据集X中的所有数据进行分类,设定类的数量为C,相应的,每个类都有一个中心点Ci,每个样本Xj距离Ci的归属百分比定义为Uij,那么FCM目标函数及其约束条件定义如下:
Figure BDA0002997934210000071
Figure BDA0002997934210000072
目标函数(a)由相应样本的归属各类的百分比与该样本到各类中心的距离相乘组成的,(b)为约束条件,每个样本点与各个聚类中心点的隶属度百分比之和要为1。(1)中的m是一个隶属度的因子,一般为可以自由设定,通常计算中,一般设定为2。||Xj-Ci||表示Xj到中心点Ci的欧式距离。目标函数J越小越好,说以我们要求得目标函数J的极小值,FCM结论如下,Uij的迭代公式:
Figure BDA0002997934210000081
Ci的迭代公式:
Figure BDA0002997934210000082
FCM中,Uij和Ci是相互关联的,彼此包含对方。FCM算法开始的时,Uij和Ci都没有初始值;在程序开始的时候,只需要任意设定一个Uij,只要数值满足约束条件即可,然后迭代启动,通过Uij计算出Ci,Ci进一步计算出Uij,不断循环;在循环中,目标函数J一直在变化,逐渐收敛。那么当J不再变化或趋向一个固定值时,就认为算法收敛到一个较好的结果了。
FCM算法有两个返回值,一个是每个聚类的中心点坐标向量,数量是c;一个是N×c(N为样本数量,也就是本发明中控制策略的总数量)的样本矩阵。矩阵中的每行,是各样本点与每个类中心之间距离的百分比值,也即归属度。本章提出的方法基于FCM的粗略模糊划分,FCM的过程由GPU完成,从而提高整个算法的速度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.基于GPU并行强化学习的建筑节能方法,其特征在于:包括以下步骤:
S1.在服务器端生成节能操控容器实例,并从系统平台感知环境参数;
S2.在服务器端,判定环境参数,如达到初始设置要求,则停止操作;否则,构造决策模型;
S3.将模型传输到GPU计算工作站;
S4.GPU计算工作站根据模型,进行FCM分类;
S5.选取每个分类中的典型操控策略,逐个对比,整体评估;
S6.将最优操控策略传输到边缘控制系统,进行系统操控;
S7.边缘控制系统接收操控策略,并按策略向末端设备发送指令;
S8.边缘设备将按照指令操作后更新的参数,传送服务器。
2.根据权利要求1所述的基于GPU并行强化学习的建筑节能方法,其特征在于:所述S2中决策模型选用马尔科夫决策建模。
3.根据权利要求1所述的基于GPU并行强化学习的建筑节能方法,其特征在于:所述决策模型对建筑环境中的空间状态、动作、回馈以及状态转移函数进行建模。
4.根据权利要求1所述的基于GPU并行强化学习的建筑节能方法,其特征在于:所述S4中GPU工作站安装FCM算法,对可能的策略进行分类,算法具体包括:
a.输入:当前执行的划分方法相关的参数:i,Ci,权重指数m,聚类中心
Figure FDA0002997934200000011
b.Δ=0;
c.For each j∈{1,2,...,N},do;
d.V=vi,u=ui
e.
Figure FDA0002997934200000021
f.
Figure FDA0002997934200000022
g.Δ=max{Δa|v-vi|,||u-uij||};
h.UntilΔ<θ,θ为一个极小的正实数;
i.输出Uc、Vc、f(c),从分类之中选取典型的策略,评估后,传输到边缘系统。
CN202110336583.5A 2021-03-29 2021-03-29 基于gpu并行强化学习的建筑节能方法 Pending CN112948125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336583.5A CN112948125A (zh) 2021-03-29 2021-03-29 基于gpu并行强化学习的建筑节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110336583.5A CN112948125A (zh) 2021-03-29 2021-03-29 基于gpu并行强化学习的建筑节能方法

Publications (1)

Publication Number Publication Date
CN112948125A true CN112948125A (zh) 2021-06-11

Family

ID=76227423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110336583.5A Pending CN112948125A (zh) 2021-03-29 2021-03-29 基于gpu并行强化学习的建筑节能方法

Country Status (1)

Country Link
CN (1) CN112948125A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统
CN109242188A (zh) * 2018-09-12 2019-01-18 大连理工大学 一种钢铁煤气系统长期区间预测及其结构学习方法
CN109669452A (zh) * 2018-11-02 2019-04-23 北京物资学院 一种基于并行强化学习的云机器人任务调度方法和系统
US20200285982A1 (en) * 2018-09-12 2020-09-10 Dalian University Of Technology A method for construction of long-term prediction intervals and its structural learning for gaseous system in steel industry

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统
CN109242188A (zh) * 2018-09-12 2019-01-18 大连理工大学 一种钢铁煤气系统长期区间预测及其结构学习方法
US20200285982A1 (en) * 2018-09-12 2020-09-10 Dalian University Of Technology A method for construction of long-term prediction intervals and its structural learning for gaseous system in steel industry
CN109669452A (zh) * 2018-11-02 2019-04-23 北京物资学院 一种基于并行强化学习的云机器人任务调度方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
季挺 等: "非参数化近似策略迭代并行强化学习算法", 计算机工程, no. 11 *
王廷银 等: "基于北斗RDSS的核辐射监测应急通讯方法", 计算机系统应用, no. 12 *
胡龄爻 等: "一种面向建筑节能的强化学习自适应控制方法", 计算机工程与应用, no. 21 *

Similar Documents

Publication Publication Date Title
Alcalá et al. Fuzzy control of HVAC systems optimized by genetic algorithms
Zhang et al. Optimal design of building environment with hybrid genetic algorithm, artificial neural network, multivariate regression analysis and fuzzy logic controller
Alcala et al. A genetic rule weighting and selection process for fuzzy control of heating, ventilating and air conditioning systems
CN109959123A (zh) 一种基于遗传算法和长短期记忆循环神经网络的空调节能方法
CN106920006A (zh) 一种基于isoa‑lssvm的地铁站空调系统能耗预测方法
CN107704875A (zh) 基于改进ihcmac神经网络的建筑负荷预测方法和装置
CN109146121A (zh) 基于pso-bp模型的停限产情况下的电量预测方法
CN110186170B (zh) 热舒适度指标pmv控制方法及设备
CN111735178A (zh) 基于精英主义和svr回归算法的空调节能系统及优化方法
CN114623569B (zh) 一种基于深度强化学习的集群空调负荷差异化调控方法
CN113326651A (zh) 基于t-s模糊模型的制冷站负荷和能效比动态建模方法
CN116729060A (zh) 一种基于ddpg的纯电动汽车乘员舱空调制冷控制方法
CN114662201A (zh) 一种自然通风智能调控的寻优方法
CN114322208A (zh) 基于深度强化学习的智能园区空调负荷调控方法和系统
Sun et al. Research on prediction of housing prices based on GA-PSO-BP neural network model: evidence from Chongqing, China
CN113435042A (zh) 一种建筑空调系统需求响应的强化学习建模方法
Fu et al. A Sarsa-based adaptive controller for building energy conservation
CN112948125A (zh) 基于gpu并行强化学习的建筑节能方法
CN117234080A (zh) 一种面向大型动环监控场景的室温智能调控方法
CN115115145B (zh) 分布式光伏智能住宅的需求响应调度方法及系统
CN111563614A (zh) 一种基于自适应神经网络与tlbo算法的负荷预测方法
CN116880169A (zh) 一种基于深度强化学习的峰值功率需求预测控制方法
CN115983492A (zh) 含氢多能源系统运行碳排放优化决策方法、系统及介质
CN116227725A (zh) 一种建筑物空调系统的负荷预测方法、装置及电子设备
CN114611823B (zh) 电-冷-热-气多能需求典型园区的优化调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination