CN110598906B

CN110598906B - 一种基于深度强化学习的大型商场能耗实时控制方法和系统

Info

Publication number: CN110598906B
Application number: CN201910755021.7A
Authority: CN
Inventors: 陈建平; 周鑫; 傅启明; 高振; 许洪华
Original assignee: Zhuhai Mizao Intelligent Technology Co ltd
Current assignee: Zhuhai Mizao Intelligent Technology Co ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2024-02-13
Anticipated expiration: 2039-08-15
Also published as: CN110598906A

Abstract

本发明涉及一种基于深度强化学习的大型商场能耗实时控制方法和系统。主要是获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO₂浓度数据信息，人流量数据信息，根据环境状态信息建立环境模型，根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略，通过将最优控制策略生成控制指令来控制空调和风机的运转。可以针对随机复杂的人流量动态自动修正最优控制策略，不易陷入局部最优的情况，随着训练的不断进行直至训练过程的结束，系统所得到的策略其优化控制空调与风机设备的功能会越来越好。

Description

一种基于深度强化学习的大型商场能耗实时控制方法和系统

技术领域

本发明涉及自适应调节控制领域，特别是涉及基于深度强化学习的大型商场能耗实时控制方法和系统。

背景技术

目前，随着大型大型商场能耗设备的不断装配，在控制能耗的同时又能保证大型商场内部人员舒适感成为一个急需解决的问题。

发明内容

基于此，提供一种基于深度强化学习的大型商场能耗实时控制方法。在控制能耗的同时兼顾大型商场内部人员的舒适感。

一种基于深度强化学习的大型商场能耗实时控制方法，包括：

获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO₂浓度数据信息，人流量数据信息，

根据环境状态信息建立环境模型，

根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略，

通过将最优控制策略生成控制指令来控制空调和风机的运转。

上述方法同时考虑了能耗，温度、湿度、PM2.5浓度，CO₂浓度以及人流量，在控制能耗的同时兼顾大型商场内部人员的舒适感。

在其中一个实施例中，所述根据环境信息建立环境模型包括：

将空调能耗控制问题建模为一个马尔科夫决策过程模型，并定义其中的状态，动作以及立即奖赏函数，具体为：

a)状态，用s表示，设t时刻，能耗数据信息为M_E(kwh)、温度数据信息为M_T(℃)、湿度数据信息为M_H(％RH)、PM2.5浓度数据信息为M_P(μg/m³)，以及CO₂浓度数据信息为M_C(ppm)，此时人流量数据信息为M_M(人/s)，则此时刻的状态可表示为：

S_t＝(M_E，M_T，M_H，M_P，M_C，M_M)，

b)动作，用a表示，设空调的温度为O_T，风机的功率为O_W，t时刻的动作a用[设置温度，风机功率]表示，则t时刻可采取的动作集合为：

a＝{[O_T0，O_W0]，[O_T1，O_W1]，[O_T2，O_W2]，...}，

c)立即奖赏函数，用r表示，M_S是当前状态下的环境质量，M_g是状态环境质量的目标值，

r_S＝M_S-M_g，

其中，M_S计算公式如下：

M_s＝I_E×40％+I_S×24％+I_A×12％+I_C×12％+I_M×12％，这里，

I_E＝M_E-M_E-min/M_E-max-M_E-min，

I_S＝(1.818M_T+18.18)×(0.88+0.002M_H)+(M_T-32)/(45-M_T)+18.2，

I_C＝M_C/1500，I_M＝M_M-M_M平均/M_M标准差；

建立值函数回报模型，设R(s，a)表示在状态s下采用动作a的回报值，动作值函数Q(s，a)是关于R(s，a)的期望，则Q(s，a)＝E[R(s，a)]。

在其中一个实施例中，所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括：

1)初始化记忆回放单元，容量是N，用于储存训练的样本；

2)初始化两个估值网络，随机初始化权重参数θ；

初始化两个目标网络，结构以及初始化权重与估值网络相同；

3)将环境状态信息通过双网络DQN算法计算出值函数后，得到任意状态s下的Q(s，a)，使用ε-greedy策略来选择动作a，每一次状态转移(即做出动作)记为一个时间步t，得到下一个时间步s′的状态值，将每个时间步得到的数据(s，a，r，s′)存入回放记忆单元，

4)定义一个损失函数：

L(θ)＝{α[Q_m-2(s，a；θ₂)-Q_m-1(s，a；θ₃)]-(α-1)[Q_m-1(s，a；θ₄)-Q_m-2(s，a；θ₂)]}²其中，α是可调参数，θ₂为双网络中DQN_1模型目标网络的参数，θ₃与θ₄分别为DQN_2模型中估值网络和目标网络中的参数，模型训练的每一步更新过程中，参数更新如下：将DQN_2中估值网络的参数传递给DQN_1中的估值网络，且同时保持自身的更新，即θ₃＝θ₁，θ₃＝θ₃′，其中θ₃′表示DQN_2中估值网络下一状态的权重参数；每间隔N步，将DQN_1中的估值网络参数传递给目标网络，即θ₂＝θ₁，且同时将DQN_2中的估值网络参数传递给目标网络，即θ₄＝θ₃；

5)从回放记忆单元中随机抽取一个(s，a，r，s′)，将(s，a)，s′，r分别传给估值网络，目标值网络和L(θ)，对L(θ)关于θ使用梯度下降法进行更新，求解出最优策略，双网络DQN算法更新值函数的方式如下：

Q(s，a)←Q(s，a)+β[r+γmax_a′Q(s′，a′；θ)-Q(s，a)]，其中β为学习率，γ为折扣因子，根据实际收敛情况调整；

6)每N次迭代后更新目标值网络的参数为估值网络的参数。

一种基于深度强化学习的大型商场能耗实时控制系统，包括：

信息获取单元，所述信息获取单元用于获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO₂浓度数据信息，人流量数据信息；

数据处理终端，所送数据处理终端包括建模单元和决策单元，所述建模单元用于根据环境状态信息建立环境模型，所述决策单元用于根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略；

控制执行单元，所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。在其中一个实施例中，所述信息获取单元包括数据采集模块、摄像头和传感器，所述数据采集模块用于获取摄像头和传感器的数据。

在其中一个实施例中，所述传感器包括AM2301温湿度传感器，所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。

在其中一个实施例中，所述传感器包括CO₂传感器，所述CO₂传感器的型号为TGS4160，所述CO₂传感器用于获取CO₂浓度数据信息。

在其中一个实施例中，所述传感器包括PSMU系列PM2.5传感器，所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。

在其中一个实施例中，所述控制执行单元包括协调器模块和执行器，所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连，所述协调器模块用于将最优控制策略生成控制指令，所述执行器用于根据控制指令控制空调以及风机的运转。

在其中一个实施例中，还包括上位机，所述上位机与所述数据处理终端相连，所述上位机用于显示所述环境状态信息。

附图说明

图1为本发明的实施例的大型商场能耗实时控制方法的流程图。

图2为本发明的实施例的大型商场能耗实时控制方法的双网络DQN算法的原理图。

图3为本发明的实施例的大型商场能耗实时控制系统的示意图。

图4为本发明的实施例的大型商场能耗实时控制系统的数据处理终端的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1和图2所示，本发明的实施例提供了一种基于深度强化学习的大型商场能耗实时控制方法，包括：

S100、获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO₂浓度数据信息，人流量数据信息。上述能耗数据信息是空调和风机的总能耗。

S200、根据环境状态信息建立环境模型。

S300、根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略。

S400、通过将最优控制策略生成控制指令来控制空调和风机的运转。

本发明的方法可以是将大型大型商场分成各个区域进行分区域管理。每个区域独立管理，也就是每个区域应用本发明的方法进行能耗的控制。也可以是，将大型大型商场分成各个区域，对各个区域分别采集环境数据信息，然后通过本发明的方法统一对大型商场内所有设备进行控制。

具体的，所述S200、根据环境信息建立环境模型包括：

S210、将空调能耗控制问题建模为一个马尔科夫决策过程模型，并定义其中的状态，动作以及立即奖赏函数，具体为：

S_t＝(M_E，M_T，M_H，M_P，M_C，M_M)，

a＝{[O_T0，O_W0]，[O_T1，O_W1]，[O_T2，O_W2]，...}，这里[O_T0，O_w0]也就是第一种空调设置温度以及风机功率，[O_T1，O_w1]也就是第二种空调设置温度以及风机功率，以此类推，动作集合内包含多种动作。具体的，可根据实际应用的空调类型以及风机类型确定。

r_S＝M_S-M_g，

其中，M_S计算公式如下：

M_s＝I_E×40％+I_S×24％+I_A×12％+I_C×12％+I_M×12％，

这里，I_E＝M_E-M_E-min/M_E-max-M_E-min，这里，M_E-min表示一段时间内历史数据中能耗数据的最小值，M_E-max表示同一段时间内历史数据中能耗数据的最大值，且在随后的计算中持续更新。

I_S＝(1.818M_T+18.18)×(0.88+0.002M_H)+(M_T-32)/(45-M_T)+18.2，

I_C＝M_C/1500，I_M＝M_M-M_M平均/M_M标准差，

其中，M_M平均表示一段时间内历史数据中人流量情况的平均值，M_M标准差是相同时间内根据人流量的平均值计算得到的标准差，可通过一下公式获得：n表示数据的个数。

进一步的是，上述M_g是一个期望获得的状态环境质量。可以参考M_S的计算方式获得。也就是：

M_g＝I_E×40％+I_S×24％+I_A×12％+I_C×12％+I_M×12％，

I_E＝M_E-M_E-min/M_E-max-M_E-min，

I_S＝(1.818M_T+18.18)×(0.88+0.002M_H)+(M_T-32)/(45-M_T)+18.2，

I_C＝M_C/1500，I_M＝M_M-M_M平均/M_M标准差。

这里，M_E-min表示一段时间内历史数据中能耗数据的最小值，M_E-max表示同一段时间内历史数据中能耗数据的最大值。具体的，能耗数据信息M_E(kwh)，以及M_E-min和M_E-max可根据该大型商场所处环境以及设计标准等在一定范围内合理确定。

同理，上述温度数据信息M_T(℃)、湿度数据信息M_H(％RH)、PM2.5浓度数据信息M_P(μg/m³)，CO2浓度数据信息M_C(ppm)以及人流量数据信息M_M(人/s)可根据该大型商场所处环境以及设计标准在一定范围内合理确定。例如，温度的舒适值：夏季为17-26.1℃，冬季为15.6-23.3℃，湿度的舒适值：夏季为40％-80％，冬季为30％-60％。PM2.5的事宜含量为35-75μg/m³，CO2的适宜含量为350-1000ppm；人流量的适宜标注为15人/s。具体数据可从上述范围内进行确定。可以理解，以上只是举例说明，具体数值根据大型商场所处环境以及设计标准等信息可进行调整。

S220、建立值函数回报模型，设R(s，a)表示在状态s下采用动作a的回报值，动作值函数Q(s，a)是关于R(s，a)的期望，则Q(s，a)＝E[R(s，a)]。

具体的，如图2所示，所述S300、根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括：

1)初始化记忆回放单元，容量是N，用于储存训练的样本；

2)初始化两个估值网络，随机初始化权重参数θ；

4)定义一个损失函数：

6)每N次迭代后更新目标值网络的参数为估值网络的参数。

本发明的上述双网络DQN算法相比传统的DQN算法具有更好的收敛稳定性。

如图3和图4所示，本发明的实施例还提供了一种基于深度强化学习的大型商场能耗实时控制系统，包括：

控制执行单元，所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。需要说明的是，本发明的上述系统可应用本发明的上述方法来进行建模和获得最优控制策略。这里就不再赘述。

本实施例中，所述信息获取单元包括数据采集模块、摄像头和传感器，所述数据采集模块用于获取摄像头和传感器的数据。

进一步的，所述数据采集模块可为单片机，例如可使用Raspberry Pi 3 Model B+单片机。对于能耗数据的采集可采集电表数据，或者从大型商场空调控制系统以及风机控制系统获取。

本实施例中，所述传感器包括AM2301温湿度传感器，所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。

本实施例中，所述传感器包括CO₂传感器，所述CO₂传感器的型号为TGS4160，所述CO₂传感器用于获取CO₂浓度数据信息。

本实施例中，所述传感器包括PSMU系列PM2.5传感器，所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。

本实施例中，所述控制执行单元包括协调器模块和执行器，所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连，所述协调器模块用于将最优控制策略生成控制指令，所述执行器用于根据控制指令控制空调以及风机的运转。所述协调器模块可为树莓派3代B型。所述协调器模块可将数据进行收集并发送给数据处理终端并将数据处理终端获取的最优控制策略转换成控制指令发送给执行器。可以理解，上述协调器模块可以集成空调控制器和风机控制器。

进一步的，所述数据采集模块与所述协调器模块可通过WIFI网络通信。也可以通过其它方式通信连接。所述数据处理终端与所述协调器模块之间可通过USB接口通信，也可以采用其它方式通信连接。

本实施例中，还包括上位机，所述上位机与所述数据处理终端相连，所述上位机用于显示所述环境状态信息。上位机可设置显示模块、存储模块和数据处理模块。数据处理模块接收数据处理终端发送的数据，并在存储模块进行存储，在显示模块将相应数据进行显示。

本发明的上述系统能够根据大型大型商场内部的能耗数据与实际环境数据进行自适应调整，及时提供准确的调控方案，能够极大程度的缓解大型大型商场能耗过大的问题。

具体应用时，在大型商场内各个区域安装温湿度传感器、PM2.5传感器、CO2传感器，电子摄像头和与所述摄像头连接的通信模块，实时监测大型商场的温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO₂浓度数据信息以及人流信息。该系统中每个协调器节点包括多个数据采集模块，每个数据采集模块通过协调器模块进行集成操作，每个所述数据采集模块与协调器模块通过WIFI网络连接。所述协调器节点可通过USB接口等方式与数据处理终端连接。将大型大型商场内部的空调和风机的能耗数据，大型商场内的温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO₂浓度数据信息，以及将大型商场各个区域的人流情况每4帧图像作为一组数据，传输至数据处理终端，数据处理终端收集数据，通过强化学习的方法构建马尔可夫决策过程并求解最优策略。即决定当前空调控制系统和风机系统做出最适合的动作。最终，通过执行器控制各个空调和风机的运转。

需要说明的是，上述人流信息的获取可通过现有的各种模型或算法实现。例如，通过已经训练好的RCNN算法实现对人的识别与标记，利用均值漂移算法对已经标记的人进行目标跟踪，并通过不断迭代更新人目标位置并实时标记。此外，可利用多对象目标跟踪器实现对多个目标进行跟踪，最终实现对人的目标跟踪以及人流量情况的统计。人流量也就是单位时间内的人数。更多算法和模型这里就不再赘述。

本发明的上述系统可以针对随机复杂的人流量动态自动修正最优控制策略，不易陷入局部最优的情况，随着训练的不断进行直至训练过程的结束，系统所得到的策略其优化控制空调与风机设备的功能会越来越好，且控制效果稳定，系统可以适应大型商场的设计布局而不依赖于特定的环境模型。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的大型商场能耗实时控制方法，其特征在于，包括：

获取环境状态信息，所述环境状态信息包括：能耗数据信息、温度数据信息、湿度数据信息、PM2.5浓度数据信息、CO₂浓度数据信息和人流量数据信息，

根据环境状态信息建立环境模型，

通过将最优控制策略生成控制指令来控制空调和风机的运转；所述根据环境状态信息建立环境模型包括：

将空调能耗控制问题建模为一个马尔科夫决策过程模型，并定义其中的状态、动作以及立即奖赏函数，具体为：

a)状态，用s表示，设t时刻，能耗数据信息为M_E(kwh)、温度数据信息为M_T(℃)、湿度数据信息为M_H(％RH)、PM2.5浓度数据信息为M_P(μg/m³)、以及CO₂浓度数据信息为M_C(ppm)，此时人流量数据信息为M_M(人/s)，则此时刻的状态可表示为：

S_t＝(M_E,M_T,M_H,M_P,M_C,M_M)，

b)动作，用a表示，设空调的温度为O_T，风机的功率为O_W，t时刻的动作a_t用[设置温度，风机功率]表示，则t时刻可采取的动作集合为：

a_t＝{[O_T0,O_W0],[O_T1,O_W1],[O_T2,O_W2],...}，

r＝M_S-M_g，

其中,M_S计算公式如下：

M_s＝I_E×40％+I_S×24％+I_A×12％+I_C×12％+I_M×12％，

这里，I_E＝M_E-M_E-min/M_E-max-M_E-min，

I_S＝(1.818M_T+18.18)×(0.88+0.002M_H)+(M_T-32)/(45-M_T)+18.2，

I_C＝M_C/1500，I_M＝M_M-M_M平均/M_M标准差，

M_E-min表示一段时间内历史数据中能耗数据的最小值，M_E-max表示同一段时间内历史数据中能耗数据的最大值，且在随后的计算中持续更新，

其中，M_M平均表示一段时间内历史数据中人流量情况的平均值，M_M标准差是相同时间内根据人流量的平均值计算得到的标准差，可通过以下公式获得：

n表示数据的个数，

建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值，动作值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]。

2.根据权利要求1所述的基于深度强化学习的大型商场能耗实时控制方法，其特征在于，所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括：

1)初始化记忆回放单元，容量是N，用于储存训练的样本；

2)初始化两个估值网络，随机初始化权重参数θ；

3)将环境状态信息通过双网络DQN算法计算出值函数后，得到任意状态s下的Q(s,a)，使用ε-greedy策略来选择动作a，每一次状态转移记为一个时间步t，得到下一个时间步s'的状态值，将每个时间步得到的数据(s,a,r,s')存入回放记忆单元，

4)定义一个损失函数：

L(θ)＝{α[Q_m-2(s,a；θ₂)-Q_m-1(s,a；θ₃)]-(α-1)[Q_m-1(s,a；θ₄)-Q_m-2(s,a；θ₂)]}²，其中，α是可调参数，θ₂为双网络中DQN_1模型目标网络的参数，θ₃与θ₄分别为DQN_2模型中估值网络和目标网络中的参数，模型训练的每一步更新过程中，参数更新如下：将DQN_2中估值网络的参数传递给DQN_1中的估值网络，且同时保持自身的更新，即θ₃＝θ₁，θ₃＝θ₃'，其中θ₃'表示DQN_2中估值网络下一状态的权重参数；每间隔N步，将DQN_1中的估值网络参数传递给目标网络，即θ₂＝θ₁，且同时将DQN_2中的估值网络参数传递给目标网络，即θ₄＝θ₃；

5)从回放记忆单元中随机抽取一个(s,a,r,s')，将(s,a)，s',r分别传给估值网络，目标值网络和L(θ)，对L(θ)关于θ使用梯度下降法进行更新，求解出最优策略，双网络DQN算法更新值函数的方式如下：

Q(s,a)←Q(s,a)+β[r+γmax_a'Q(s',a'；θ)-Q(s,a)]，其中β为学习率，γ为折扣因子，根据实际收敛情况调整；

6)每N次迭代后更新目标值网络的参数为估值网络的参数。

3.一种基于深度强化学习的大型商场能耗实时控制系统，其特征在于，包括：

信息获取单元，所述信息获取单元用于获取环境状态信息，所述环境状态信息包括：能耗数据信息、温度数据信息、湿度数据信息、PM2.5浓度数据信息、CO₂浓度数据信息和人流量数据信息，

所述根据环境状态信息建立环境模型包括：

S_t＝(M_E,M_T,M_H,M_P,M_C,M_M)，

a_t＝{[O_T0,O_W0],[O_T1,O_W1],[O_T2,O_W2],...}，

r＝M_S-M_g，

其中,M_S计算公式如下：

M_s＝I_E×40％+I_S×24％+I_A×12％+I_C×12％+I_M×12％，

这里，I_E＝M_E-M_E-min/M_E-max-M_E-min，

I_S＝(1.818M_T+18.18)×(0.88+0.002M_H)+(M_T-32)/(45-M_T)+18.2，

I_C＝M_C/1500，I_M＝M_M-M_M平均/M_M标准差，

其中，M_M平均表示一段时间内历史数据中人流量情况的平均值，M_M标准差是相同时间内根据人流量的平均值计算得到的标准差，可通过以下公式获得：n表示数据的个数，

建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值，动作值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]；

控制执行单元，所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。

4.根据权利要求3所述的基于深度强化学习的大型商场能耗实时控制系统，其特征在于，所述信息获取单元包括数据采集模块、摄像头和传感器，所述数据采集模块用于获取摄像头和传感器的数据。

5.根据权利要求4所述的基于深度强化学习的大型商场能耗实时控制系统，其特征在于，所述传感器包括AM2301温湿度传感器，所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。

6.根据权利要求4所述的基于深度强化学习的大型商场能耗实时控制系统，其特征在于，所述传感器包括CO₂传感器，所述CO₂传感器的型号为TGS4160，所述CO₂传感器用于获取CO₂浓度数据信息。

7.根据权利要求4所述的基于深度强化学习的大型商场能耗实时控制系统，其特征在于，所述传感器包括PSMU系列PM2.5传感器，所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。

8.根据权利要求3所述的基于深度强化学习的大型商场能耗实时控制系统，其特征在于，所述控制执行单元包括协调器模块和执行器，所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连，所述协调器模块用于将最优控制策略生成控制指令，所述执行器用于根据控制指令控制空调以及风机的运转。

9.根据权利要求3所述的基于深度强化学习的大型商场能耗实时控制系统，其特征在于，还包括上位机，所述上位机与所述数据处理终端相连，所述上位机用于显示所述环境状态信息。