CN110598906B - 一种基于深度强化学习的大型商场能耗实时控制方法和系统 - Google Patents

一种基于深度强化学习的大型商场能耗实时控制方法和系统 Download PDF

Info

Publication number
CN110598906B
CN110598906B CN201910755021.7A CN201910755021A CN110598906B CN 110598906 B CN110598906 B CN 110598906B CN 201910755021 A CN201910755021 A CN 201910755021A CN 110598906 B CN110598906 B CN 110598906B
Authority
CN
China
Prior art keywords
data information
energy consumption
time
network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910755021.7A
Other languages
English (en)
Other versions
CN110598906A (zh
Inventor
陈建平
周鑫
傅启明
高振
许洪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Mizao Intelligent Technology Co ltd
Original Assignee
Zhuhai Mizao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Mizao Intelligent Technology Co ltd filed Critical Zhuhai Mizao Intelligent Technology Co ltd
Priority to CN201910755021.7A priority Critical patent/CN110598906B/zh
Publication of CN110598906A publication Critical patent/CN110598906A/zh
Application granted granted Critical
Publication of CN110598906B publication Critical patent/CN110598906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Abstract

本发明涉及一种基于深度强化学习的大型商场能耗实时控制方法和系统。主要是获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息,根据环境状态信息建立环境模型,根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略,通过将最优控制策略生成控制指令来控制空调和风机的运转。可以针对随机复杂的人流量动态自动修正最优控制策略,不易陷入局部最优的情况,随着训练的不断进行直至训练过程的结束,系统所得到的策略其优化控制空调与风机设备的功能会越来越好。

Description

一种基于深度强化学习的大型商场能耗实时控制方法和系统
技术领域
本发明涉及自适应调节控制领域,特别是涉及基于深度强化学习的大型商场能耗实时控制方法和系统。
背景技术
目前,随着大型大型商场能耗设备的不断装配,在控制能耗的同时又能保证大型商场内部人员舒适感成为一个急需解决的问题。
发明内容
基于此,提供一种基于深度强化学习的大型商场能耗实时控制方法。在控制能耗的同时兼顾大型商场内部人员的舒适感。
一种基于深度强化学习的大型商场能耗实时控制方法,包括:
获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息,
根据环境状态信息建立环境模型,
根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略,
通过将最优控制策略生成控制指令来控制空调和风机的运转。
上述方法同时考虑了能耗,温度、湿度、PM2.5浓度,CO2浓度以及人流量,在控制能耗的同时兼顾大型商场内部人员的舒适感。
在其中一个实施例中,所述根据环境信息建立环境模型包括:
将空调能耗控制问题建模为一个马尔科夫决策过程模型,并定义其中的状态,动作以及立即奖赏函数,具体为:
a)状态,用s表示,设t时刻,能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(%RH)、PM2.5浓度数据信息为MP(μg/m3),以及CO2浓度数据信息为MC(ppm),此时人流量数据信息为MM(人/s),则此时刻的状态可表示为:
St=(ME,MT,MH,MP,MC,MM),
b)动作,用a表示,设空调的温度为OT,风机的功率为OW,t时刻的动作a用[设置温度,风机功率]表示,则t时刻可采取的动作集合为:
a={[OT0,OW0],[OT1,OW1],[OT2,OW2],...},
c)立即奖赏函数,用r表示,MS是当前状态下的环境质量,Mg是状态环境质量的目标值,
rS=MS-Mg
其中,MS计算公式如下:
Ms=IE×40%+IS×24%+IA×12%+IC×12%+IM×12%,这里,
IE=ME-ME-min/ME-max-ME-min
IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,
IC=MC/1500,IM=MM-MM平均/MM标准差
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,动作值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
在其中一个实施例中,所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括:
1)初始化记忆回放单元,容量是N,用于储存训练的样本;
2)初始化两个估值网络,随机初始化权重参数θ;
初始化两个目标网络,结构以及初始化权重与估值网络相同;
3)将环境状态信息通过双网络DQN算法计算出值函数后,得到任意状态s下的Q(s,a),使用ε-greedy策略来选择动作a,每一次状态转移(即做出动作)记为一个时间步t,得到下一个时间步s′的状态值,将每个时间步得到的数据(s,a,r,s′)存入回放记忆单元,
4)定义一个损失函数:
L(θ)={α[Qm-2(s,a;θ2)-Qm-1(s,a;θ3)]-(α-1)[Qm-1(s,a;θ4)-Qm-2(s,a;θ2)]}2其中,α是可调参数,θ2为双网络中DQN_1模型目标网络的参数,θ3与θ4分别为DQN_2模型中估值网络和目标网络中的参数,模型训练的每一步更新过程中,参数更新如下:将DQN_2中估值网络的参数传递给DQN_1中的估值网络,且同时保持自身的更新,即θ3=θ1,θ3=θ3′,其中θ3′表示DQN_2中估值网络下一状态的权重参数;每间隔N步,将DQN_1中的估值网络参数传递给目标网络,即θ2=θ1,且同时将DQN_2中的估值网络参数传递给目标网络,即θ4=θ3
5)从回放记忆单元中随机抽取一个(s,a,r,s′),将(s,a),s′,r分别传给估值网络,目标值网络和L(θ),对L(θ)关于θ使用梯度下降法进行更新,求解出最优策略,双网络DQN算法更新值函数的方式如下:
Q(s,a)←Q(s,a)+β[r+γmaxa′Q(s′,a′;θ)-Q(s,a)],其中β为学习率,γ为折扣因子,根据实际收敛情况调整;
6)每N次迭代后更新目标值网络的参数为估值网络的参数。
一种基于深度强化学习的大型商场能耗实时控制系统,包括:
信息获取单元,所述信息获取单元用于获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息;
数据处理终端,所送数据处理终端包括建模单元和决策单元,所述建模单元用于根据环境状态信息建立环境模型,所述决策单元用于根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略;
控制执行单元,所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。在其中一个实施例中,所述信息获取单元包括数据采集模块、摄像头和传感器,所述数据采集模块用于获取摄像头和传感器的数据。
在其中一个实施例中,所述传感器包括AM2301温湿度传感器,所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。
在其中一个实施例中,所述传感器包括CO2传感器,所述CO2传感器的型号为TGS4160,所述CO2传感器用于获取CO2浓度数据信息。
在其中一个实施例中,所述传感器包括PSMU系列PM2.5传感器,所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。
在其中一个实施例中,所述控制执行单元包括协调器模块和执行器,所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连,所述协调器模块用于将最优控制策略生成控制指令,所述执行器用于根据控制指令控制空调以及风机的运转。
在其中一个实施例中,还包括上位机,所述上位机与所述数据处理终端相连,所述上位机用于显示所述环境状态信息。
附图说明
图1为本发明的实施例的大型商场能耗实时控制方法的流程图。
图2为本发明的实施例的大型商场能耗实时控制方法的双网络DQN算法的原理图。
图3为本发明的实施例的大型商场能耗实时控制系统的示意图。
图4为本发明的实施例的大型商场能耗实时控制系统的数据处理终端的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1和图2所示,本发明的实施例提供了一种基于深度强化学习的大型商场能耗实时控制方法,包括:
S100、获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息。上述能耗数据信息是空调和风机的总能耗。
S200、根据环境状态信息建立环境模型。
S300、根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略。
S400、通过将最优控制策略生成控制指令来控制空调和风机的运转。
上述方法同时考虑了能耗,温度、湿度、PM2.5浓度,CO2浓度以及人流量,在控制能耗的同时兼顾大型商场内部人员的舒适感。
本发明的方法可以是将大型大型商场分成各个区域进行分区域管理。每个区域独立管理,也就是每个区域应用本发明的方法进行能耗的控制。也可以是,将大型大型商场分成各个区域,对各个区域分别采集环境数据信息,然后通过本发明的方法统一对大型商场内所有设备进行控制。
具体的,所述S200、根据环境信息建立环境模型包括:
S210、将空调能耗控制问题建模为一个马尔科夫决策过程模型,并定义其中的状态,动作以及立即奖赏函数,具体为:
a)状态,用s表示,设t时刻,能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(%RH)、PM2.5浓度数据信息为MP(μg/m3),以及CO2浓度数据信息为MC(ppm),此时人流量数据信息为MM(人/s),则此时刻的状态可表示为:
St=(ME,MT,MH,MP,MC,MM),
b)动作,用a表示,设空调的温度为OT,风机的功率为OW,t时刻的动作a用[设置温度,风机功率]表示,则t时刻可采取的动作集合为:
a={[OT0,OW0],[OT1,OW1],[OT2,OW2],...},这里[OT0,Ow0]也就是第一种空调设置温度以及风机功率,[OT1,Ow1]也就是第二种空调设置温度以及风机功率,以此类推,动作集合内包含多种动作。具体的,可根据实际应用的空调类型以及风机类型确定。
c)立即奖赏函数,用r表示,MS是当前状态下的环境质量,Mg是状态环境质量的目标值,
rS=MS-Mg
其中,MS计算公式如下:
Ms=IE×40%+IS×24%+IA×12%+IC×12%+IM×12%,
这里,IE=ME-ME-min/ME-max-ME-min,这里,ME-min表示一段时间内历史数据中能耗数据的最小值,ME-max表示同一段时间内历史数据中能耗数据的最大值,且在随后的计算中持续更新。
IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,
IC=MC/1500,IM=MM-MM平均/MM标准差
其中,MM平均表示一段时间内历史数据中人流量情况的平均值,MM标准差是相同时间内根据人流量的平均值计算得到的标准差,可通过一下公式获得:n表示数据的个数。
进一步的是,上述Mg是一个期望获得的状态环境质量。可以参考MS的计算方式获得。也就是:
Mg=IE×40%+IS×24%+IA×12%+IC×12%+IM×12%,
IE=ME-ME-min/ME-max-ME-min
IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,
IC=MC/1500,IM=MM-MM平均/MM标准差
这里,ME-min表示一段时间内历史数据中能耗数据的最小值,ME-max表示同一段时间内历史数据中能耗数据的最大值。具体的,能耗数据信息ME(kwh),以及ME-min和ME-max可根据该大型商场所处环境以及设计标准等在一定范围内合理确定。
同理,上述温度数据信息MT(℃)、湿度数据信息MH(%RH)、PM2.5浓度数据信息MP(μg/m3),CO2浓度数据信息MC(ppm)以及人流量数据信息MM(人/s)可根据该大型商场所处环境以及设计标准在一定范围内合理确定。例如,温度的舒适值:夏季为17-26.1℃,冬季为15.6-23.3℃,湿度的舒适值:夏季为40%-80%,冬季为30%-60%。PM2.5的事宜含量为35-75μg/m3,CO2的适宜含量为350-1000ppm;人流量的适宜标注为15人/s。具体数据可从上述范围内进行确定。可以理解,以上只是举例说明,具体数值根据大型商场所处环境以及设计标准等信息可进行调整。
S220、建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,动作值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
具体的,如图2所示,所述S300、根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括:
1)初始化记忆回放单元,容量是N,用于储存训练的样本;
2)初始化两个估值网络,随机初始化权重参数θ;
初始化两个目标网络,结构以及初始化权重与估值网络相同;
3)将环境状态信息通过双网络DQN算法计算出值函数后,得到任意状态s下的Q(s,a),使用ε-greedy策略来选择动作a,每一次状态转移(即做出动作)记为一个时间步t,得到下一个时间步s′的状态值,将每个时间步得到的数据(s,a,r,s′)存入回放记忆单元,
4)定义一个损失函数:
L(θ)={α[Qm-2(s,a;θ2)-Qm-1(s,a;θ3)]-(α-1)[Qm-1(s,a;θ4)-Qm-2(s,a;θ2)]}2其中,α是可调参数,θ2为双网络中DQN_1模型目标网络的参数,θ3与θ4分别为DQN_2模型中估值网络和目标网络中的参数,模型训练的每一步更新过程中,参数更新如下:将DQN_2中估值网络的参数传递给DQN_1中的估值网络,且同时保持自身的更新,即θ3=θ1,θ3=θ3′,其中θ3′表示DQN_2中估值网络下一状态的权重参数;每间隔N步,将DQN_1中的估值网络参数传递给目标网络,即θ2=θ1,且同时将DQN_2中的估值网络参数传递给目标网络,即θ4=θ3
5)从回放记忆单元中随机抽取一个(s,a,r,s′),将(s,a),s′,r分别传给估值网络,目标值网络和L(θ),对L(θ)关于θ使用梯度下降法进行更新,求解出最优策略,双网络DQN算法更新值函数的方式如下:
Q(s,a)←Q(s,a)+β[r+γmaxa′Q(s′,a′;θ)-Q(s,a)],其中β为学习率,γ为折扣因子,根据实际收敛情况调整;
6)每N次迭代后更新目标值网络的参数为估值网络的参数。
本发明的上述双网络DQN算法相比传统的DQN算法具有更好的收敛稳定性。
如图3和图4所示,本发明的实施例还提供了一种基于深度强化学习的大型商场能耗实时控制系统,包括:
信息获取单元,所述信息获取单元用于获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息;
数据处理终端,所送数据处理终端包括建模单元和决策单元,所述建模单元用于根据环境状态信息建立环境模型,所述决策单元用于根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略;
控制执行单元,所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。需要说明的是,本发明的上述系统可应用本发明的上述方法来进行建模和获得最优控制策略。这里就不再赘述。
本实施例中,所述信息获取单元包括数据采集模块、摄像头和传感器,所述数据采集模块用于获取摄像头和传感器的数据。
进一步的,所述数据采集模块可为单片机,例如可使用Raspberry Pi 3 Model B+单片机。对于能耗数据的采集可采集电表数据,或者从大型商场空调控制系统以及风机控制系统获取。
本实施例中,所述传感器包括AM2301温湿度传感器,所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。
本实施例中,所述传感器包括CO2传感器,所述CO2传感器的型号为TGS4160,所述CO2传感器用于获取CO2浓度数据信息。
本实施例中,所述传感器包括PSMU系列PM2.5传感器,所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。
本实施例中,所述控制执行单元包括协调器模块和执行器,所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连,所述协调器模块用于将最优控制策略生成控制指令,所述执行器用于根据控制指令控制空调以及风机的运转。所述协调器模块可为树莓派3代B型。所述协调器模块可将数据进行收集并发送给数据处理终端并将数据处理终端获取的最优控制策略转换成控制指令发送给执行器。可以理解,上述协调器模块可以集成空调控制器和风机控制器。
进一步的,所述数据采集模块与所述协调器模块可通过WIFI网络通信。也可以通过其它方式通信连接。所述数据处理终端与所述协调器模块之间可通过USB接口通信,也可以采用其它方式通信连接。
本实施例中,还包括上位机,所述上位机与所述数据处理终端相连,所述上位机用于显示所述环境状态信息。上位机可设置显示模块、存储模块和数据处理模块。数据处理模块接收数据处理终端发送的数据,并在存储模块进行存储,在显示模块将相应数据进行显示。
本发明的上述系统能够根据大型大型商场内部的能耗数据与实际环境数据进行自适应调整,及时提供准确的调控方案,能够极大程度的缓解大型大型商场能耗过大的问题。
具体应用时,在大型商场内各个区域安装温湿度传感器、PM2.5传感器、CO2传感器,电子摄像头和与所述摄像头连接的通信模块,实时监测大型商场的温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息以及人流信息。该系统中每个协调器节点包括多个数据采集模块,每个数据采集模块通过协调器模块进行集成操作,每个所述数据采集模块与协调器模块通过WIFI网络连接。所述协调器节点可通过USB接口等方式与数据处理终端连接。将大型大型商场内部的空调和风机的能耗数据,大型商场内的温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,以及将大型商场各个区域的人流情况每4帧图像作为一组数据,传输至数据处理终端,数据处理终端收集数据,通过强化学习的方法构建马尔可夫决策过程并求解最优策略。即决定当前空调控制系统和风机系统做出最适合的动作。最终,通过执行器控制各个空调和风机的运转。
需要说明的是,上述人流信息的获取可通过现有的各种模型或算法实现。例如,通过已经训练好的RCNN算法实现对人的识别与标记,利用均值漂移算法对已经标记的人进行目标跟踪,并通过不断迭代更新人目标位置并实时标记。此外,可利用多对象目标跟踪器实现对多个目标进行跟踪,最终实现对人的目标跟踪以及人流量情况的统计。人流量也就是单位时间内的人数。更多算法和模型这里就不再赘述。
本发明的上述系统可以针对随机复杂的人流量动态自动修正最优控制策略,不易陷入局部最优的情况,随着训练的不断进行直至训练过程的结束,系统所得到的策略其优化控制空调与风机设备的功能会越来越好,且控制效果稳定,系统可以适应大型商场的设计布局而不依赖于特定的环境模型。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度强化学习的大型商场能耗实时控制方法,其特征在于,包括:
获取环境状态信息,所述环境状态信息包括:能耗数据信息、温度数据信息、湿度数据信息、PM2.5浓度数据信息、CO2浓度数据信息和人流量数据信息,
根据环境状态信息建立环境模型,
根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略,
通过将最优控制策略生成控制指令来控制空调和风机的运转;所述根据环境状态信息建立环境模型包括:
将空调能耗控制问题建模为一个马尔科夫决策过程模型,并定义其中的状态、动作以及立即奖赏函数,具体为:
a)状态,用s表示,设t时刻,能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(%RH)、PM2.5浓度数据信息为MP(μg/m3)、以及CO2浓度数据信息为MC(ppm),此时人流量数据信息为MM(人/s),则此时刻的状态可表示为:
St=(ME,MT,MH,MP,MC,MM),
b)动作,用a表示,设空调的温度为OT,风机的功率为OW,t时刻的动作at用[设置温度,风机功率]表示,则t时刻可采取的动作集合为:
at={[OT0,OW0],[OT1,OW1],[OT2,OW2],...},
c)立即奖赏函数,用r表示,MS是当前状态下的环境质量,Mg是状态环境质量的目标值,
r=MS-Mg
其中,MS计算公式如下:
Ms=IE×40%+IS×24%+IA×12%+IC×12%+IM×12%,
这里,IE=ME-ME-min/ME-max-ME-min
IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,
IC=MC/1500,IM=MM-MM平均/MM标准差
ME-min表示一段时间内历史数据中能耗数据的最小值,ME-max表示同一段时间内历史数据中能耗数据的最大值,且在随后的计算中持续更新,
其中,MM平均表示一段时间内历史数据中人流量情况的平均值,MM标准差是相同时间内根据人流量的平均值计算得到的标准差,可通过以下公式获得:
n表示数据的个数,
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,动作值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
2.根据权利要求1所述的基于深度强化学习的大型商场能耗实时控制方法,其特征在于,所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括:
1)初始化记忆回放单元,容量是N,用于储存训练的样本;
2)初始化两个估值网络,随机初始化权重参数θ;
初始化两个目标网络,结构以及初始化权重与估值网络相同;
3)将环境状态信息通过双网络DQN算法计算出值函数后,得到任意状态s下的Q(s,a),使用ε-greedy策略来选择动作a,每一次状态转移记为一个时间步t,得到下一个时间步s'的状态值,将每个时间步得到的数据(s,a,r,s')存入回放记忆单元,
4)定义一个损失函数:
L(θ)={α[Qm-2(s,a;θ2)-Qm-1(s,a;θ3)]-(α-1)[Qm-1(s,a;θ4)-Qm-2(s,a;θ2)]}2,其中,α是可调参数,θ2为双网络中DQN_1模型目标网络的参数,θ3与θ4分别为DQN_2模型中估值网络和目标网络中的参数,模型训练的每一步更新过程中,参数更新如下:将DQN_2中估值网络的参数传递给DQN_1中的估值网络,且同时保持自身的更新,即θ3=θ1,θ3=θ3',其中θ3'表示DQN_2中估值网络下一状态的权重参数;每间隔N步,将DQN_1中的估值网络参数传递给目标网络,即θ2=θ1,且同时将DQN_2中的估值网络参数传递给目标网络,即θ4=θ3
5)从回放记忆单元中随机抽取一个(s,a,r,s'),将(s,a),s',r分别传给估值网络,目标值网络和L(θ),对L(θ)关于θ使用梯度下降法进行更新,求解出最优策略,双网络DQN算法更新值函数的方式如下:
Q(s,a)←Q(s,a)+β[r+γmaxa'Q(s',a';θ)-Q(s,a)],其中β为学习率,γ为折扣因子,根据实际收敛情况调整;
6)每N次迭代后更新目标值网络的参数为估值网络的参数。
3.一种基于深度强化学习的大型商场能耗实时控制系统,其特征在于,包括:
信息获取单元,所述信息获取单元用于获取环境状态信息,所述环境状态信息包括:能耗数据信息、温度数据信息、湿度数据信息、PM2.5浓度数据信息、CO2浓度数据信息和人流量数据信息,
数据处理终端,所送数据处理终端包括建模单元和决策单元,所述建模单元用于根据环境状态信息建立环境模型,所述决策单元用于根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略;
所述根据环境状态信息建立环境模型包括:
将空调能耗控制问题建模为一个马尔科夫决策过程模型,并定义其中的状态、动作以及立即奖赏函数,具体为:
a)状态,用s表示,设t时刻,能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(%RH)、PM2.5浓度数据信息为MP(μg/m3)、以及CO2浓度数据信息为MC(ppm),此时人流量数据信息为MM(人/s),则此时刻的状态可表示为:
St=(ME,MT,MH,MP,MC,MM),
b)动作,用a表示,设空调的温度为OT,风机的功率为OW,t时刻的动作at用[设置温度,风机功率]表示,则t时刻可采取的动作集合为:
at={[OT0,OW0],[OT1,OW1],[OT2,OW2],...},
c)立即奖赏函数,用r表示,MS是当前状态下的环境质量,Mg是状态环境质量的目标值,
r=MS-Mg
其中,MS计算公式如下:
Ms=IE×40%+IS×24%+IA×12%+IC×12%+IM×12%,
这里,IE=ME-ME-min/ME-max-ME-min
IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,
IC=MC/1500,IM=MM-MM平均/MM标准差
ME-min表示一段时间内历史数据中能耗数据的最小值,ME-max表示同一段时间内历史数据中能耗数据的最大值,且在随后的计算中持续更新,
其中,MM平均表示一段时间内历史数据中人流量情况的平均值,MM标准差是相同时间内根据人流量的平均值计算得到的标准差,可通过以下公式获得:n表示数据的个数,
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,动作值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
控制执行单元,所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。
4.根据权利要求3所述的基于深度强化学习的大型商场能耗实时控制系统,其特征在于,所述信息获取单元包括数据采集模块、摄像头和传感器,所述数据采集模块用于获取摄像头和传感器的数据。
5.根据权利要求4所述的基于深度强化学习的大型商场能耗实时控制系统,其特征在于,所述传感器包括AM2301温湿度传感器,所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。
6.根据权利要求4所述的基于深度强化学习的大型商场能耗实时控制系统,其特征在于,所述传感器包括CO2传感器,所述CO2传感器的型号为TGS4160,所述CO2传感器用于获取CO2浓度数据信息。
7.根据权利要求4所述的基于深度强化学习的大型商场能耗实时控制系统,其特征在于,所述传感器包括PSMU系列PM2.5传感器,所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。
8.根据权利要求3所述的基于深度强化学习的大型商场能耗实时控制系统,其特征在于,所述控制执行单元包括协调器模块和执行器,所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连,所述协调器模块用于将最优控制策略生成控制指令,所述执行器用于根据控制指令控制空调以及风机的运转。
9.根据权利要求3所述的基于深度强化学习的大型商场能耗实时控制系统,其特征在于,还包括上位机,所述上位机与所述数据处理终端相连,所述上位机用于显示所述环境状态信息。
CN201910755021.7A 2019-08-15 2019-08-15 一种基于深度强化学习的大型商场能耗实时控制方法和系统 Active CN110598906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910755021.7A CN110598906B (zh) 2019-08-15 2019-08-15 一种基于深度强化学习的大型商场能耗实时控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910755021.7A CN110598906B (zh) 2019-08-15 2019-08-15 一种基于深度强化学习的大型商场能耗实时控制方法和系统

Publications (2)

Publication Number Publication Date
CN110598906A CN110598906A (zh) 2019-12-20
CN110598906B true CN110598906B (zh) 2024-02-13

Family

ID=68854515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910755021.7A Active CN110598906B (zh) 2019-08-15 2019-08-15 一种基于深度强化学习的大型商场能耗实时控制方法和系统

Country Status (1)

Country Link
CN (1) CN110598906B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639804B (zh) * 2020-05-28 2023-09-26 珠海格力电器股份有限公司 培育空间的监控方法、设备、存储介质和生长柜
CN111928459B (zh) * 2020-09-29 2021-01-19 国网(天津)综合能源服务有限公司 一种新型城市综合体供冷供热控制装置及其控制方法
CN112380761B (zh) * 2020-10-20 2024-01-26 珠海米枣智能科技有限公司 一种基于强化学习的建筑环境控制器和控制方法
CN112325447B (zh) * 2020-11-02 2022-04-26 珠海米枣智能科技有限公司 一种基于强化学习的制冷机组控制装置及控制方法
CN112380770B (zh) * 2020-11-16 2024-03-15 珠海米枣智能科技有限公司 一种基于强化学习的建筑能耗控制装置和控制方法
CN112484255B (zh) * 2020-11-30 2021-12-28 成都航空职业技术学院 一种节能型暖通空调系统及楼宇自控方法
CN112866021B (zh) * 2021-01-12 2021-11-09 中移(成都)信息通信科技有限公司 基于深度强化学习的ai智慧节能动态控制方法
CN116312354B (zh) * 2023-05-22 2023-07-25 深圳市领耀东方科技股份有限公司 一种led显示屏系统的控制方法及控制系统
CN117557300B (zh) * 2024-01-12 2024-04-05 湖南大学 基于主要设备的能耗数据推演商业活跃度的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065582A (zh) * 2017-03-31 2017-08-18 苏州科技大学 一种基于环境的参数的室内空气智能调节系统和调节方法
CN107734579A (zh) * 2017-10-16 2018-02-23 西北大学 一种基于马尔可夫决策过程的移动平台能耗优化方法
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统
CN109670637A (zh) * 2018-12-06 2019-04-23 苏州科技大学 建筑能耗预测方法、存储介质、装置和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065582A (zh) * 2017-03-31 2017-08-18 苏州科技大学 一种基于环境的参数的室内空气智能调节系统和调节方法
CN107734579A (zh) * 2017-10-16 2018-02-23 西北大学 一种基于马尔可夫决策过程的移动平台能耗优化方法
CN109063903A (zh) * 2018-07-19 2018-12-21 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统
CN109670637A (zh) * 2018-12-06 2019-04-23 苏州科技大学 建筑能耗预测方法、存储介质、装置和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"一种面向建筑节能的强化学习自适应控制方法";胡龄爻;陈建平;傅启明;胡文;倪庆文;;《计算机工程与应用》(第21期);第244-251页 *
"基于Double-DQN的中央空调系统节能优化运行";闫军威 等;《华南理工大学学报(自然科学版)》;第47卷(第1期);第135-144页 *
"基于二阶时序差分误差的双网络DQN算法";陈建平 等;《计算机工程》;第46卷(第5期);第78-85、93页 *
闫军威 等."基于Double-DQN的中央空调系统节能优化运行".《华南理工大学学报(自然科学版)》.2019,第47卷(第1期),第135-144页. *

Also Published As

Publication number Publication date
CN110598906A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110598906B (zh) 一种基于深度强化学习的大型商场能耗实时控制方法和系统
EP3411634B1 (en) Data learning server and method for generating and using learning model thereof
CN110836514B (zh) 空调组的控制方法和装置
TWI435038B (zh) 空調控制裝置與方法
US9504386B2 (en) Controlling devices based on physiological measurements
CN103398451B (zh) 基于学习用户行为的多维舒适度室内环境控制方法及系统
CN107065582B (zh) 一种基于环境的参数的室内空气智能调节系统和调节方法
CN106871365A (zh) 空调器的运行控制方法、装置和空调系统
CN104033988B (zh) 空调控制系统及其控制方法
CN112413831A (zh) 一种中央空调节能控制系统及方法
CN106696976B (zh) 轨道车辆空调系统的控制方法、装置和系统
CN111442478A (zh) 空调系统优化控制方法、智能终端、存储装置
CN111486554A (zh) 一种基于在线学习的空调温度无感化控制方法
Biyik et al. Cloud-based model predictive building thermostatic controls of commercial buildings: Algorithm and implementation
JP6675667B1 (ja) 空調システム、及び空調システムの制御方法
Asad et al. Distributed real-time optimal control of central air-conditioning systems
CN114110824B (zh) 一种恒湿机智能控制方法及装置
CN203443020U (zh) 基于学习用户行为的多维舒适度室内环境控制系统
CN115585541A (zh) 空调机房系统的控制方法及装置、电子设备及存储介质
CN110778266B (zh) 一种牛舍卷帘智能调控方法及系统
CN115507527A (zh) 一种基于深度强化学习的空调控制系统
CN110726216B (zh) 空调器及其控制方法、装置、系统、存储介质和处理器
CN115169839A (zh) 一种基于数据-物理-知识联合驱动的供暖负荷调度方法
CN110147612A (zh) 一种建筑内部气流组织分布计算、智能节点及系统
WO2022025819A1 (en) System and method of controlling an air-conditioning and/or heating system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant