CN114020079A

CN114020079A - 一种室内空间温度和湿度调控方法及装置

Info

Publication number: CN114020079A
Application number: CN202111293890.6A
Authority: CN
Inventors: 张勇; 郭达; 孙蕴琪; 罗丹峰; 袁思雨; 张晨曦; 张修勇; 吴来明; 徐方圆
Original assignee: Beijing Pengtong Gaoke Science & Technology Co ltd; SHANGHAI MUSEUM; Beijing University of Posts and Telecommunications
Current assignee: Beijing Pengtong Gaoke Science & Technology Co ltd; SHANGHAI MUSEUM; Beijing University of Posts and Telecommunications
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08
Anticipated expiration: 2041-11-03
Also published as: CN114020079B

Abstract

本发明提供一种室内空间温度和湿度调控方法及装置，所述方法以分布式结构布置的传感器检测设定空间内的湿度值和温度值作为状态空间，并采用深度强化学习的方式选取每个时间步状态对应的动作。在强化学习过程中，引用所述湿度精度偏差、所述湿度均匀度偏差、所述温度精度偏差和所述温度均匀度偏差计算观测奖励值，以从综合考量温度和湿度的控制精度以及设定空间内各位置的均匀度，使得强化控制方法最终能够达到能够精确和均匀控制设定空间内温度和湿度的效果。

Description

一种室内空间温度和湿度调控方法及装置

技术领域

本发明涉及电子设备控制技术领域，尤其涉及一种室内空间温度和湿度调控方法及装置。

背景技术

博物馆中的文物的保存环境与文物的寿命息息相关，环境中的温湿度是影响文物保存的两个重要因素，稳定适宜的温湿度环境是降低文物劣化风险，延长文物寿命的重要条件之一，且由于任何材质的文物都有它最适宜的温度和湿度条件的范围,如果超过这个范围,文物就容易发生病害。因此，针对博物馆内进行温湿度精准调控十分关键，且由于传统的控制方法使用的监测点单一，往往会忽略室内的温湿度的均匀性以及在应对干扰时具有一定的时延性的问题，而目前已有的研究工作都无法有效解决这一问题。

目前，已有许多针对博物馆内温湿度调控问题的方法被提出，通过控制控制空调的风向或者间接直接蒸发冷却(IDEC)和超声波雾化加湿(UAH)装置等方式来控制温湿度的浮动范围。但是，现有技术大多仅针对展示柜等小空间内温湿度的精确控制，面对博物馆展厅这样室内空间的温度和湿度的控制精度和均匀性水平不足，对于温湿度要求较高的应用场景，并不适用。

发明内容

本发明实施例提供了一种室内空间温度和湿度调控方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有技术无法针对室内空间内的温度和湿度进行精确控制的问题。

本发明的技术方案如下：

一方面，本发明提供一种室内空间温度和湿度调控方法，所述方法用于在控制器上运行，所述控制器通过物联网连接设定空间内的多个传感器和多个执行器，所述传感器包括湿度传感器和温度传感器，所述执行器为恒温恒湿机的出风口，所述方法包括：

获取各湿度传感器和各温度传感器按照指定间隔时间采集的湿度值和温度值组作为状态参数构成状态空间，以及以设定湿度和设定温度运行的各出风口的风速档位作为动作参数构成动作空间；

采用预设深度强化学习模型，根据每个时间步的状态参数输出相应的动作参数并控制所述执行器执行；获取每个时间步下各湿度传感器的实际湿度值和各温度传感器的实际温度值，计算各湿度传感器的实际湿度值与所述设定湿度的湿度精度偏差以及各实际湿度值之间的湿度均匀度偏差，计算各温度传感器的实际温度值与所述设定温度的温度精度偏差以及各实际温度值之间的温度均匀度偏差，根据每个时间步对应的所述湿度精度偏差、所述湿度均匀度偏差、所述温度精度偏差和所述温度均匀度偏差计算观测奖励值；将各时间步对应的状态参数、动作参数和观测奖励值存储在经验池中作为经验数据；

在深度强化学习过程中，所述预设深度强化学习模型按照优先级对经验池中的经验数据进行采样，采用神经网络拟合在当前状态下各个动作的价值Q，所述神经网络模型设置本地网络用于计算当前时间步各个动作的预测Q值并根据设定策略选择动作参数，设置目标网络用于计算下一时间步各个动作的目标Q值，所述本地网络与所述目标网络的结构相同，每间隔设定时长将所述本地网络的参数更新至所述目标网络；并且所述神经网络将动作参数的Q值分解为仅与状态有关的状态价值部分以及与状态和动作均相关的优势函数部分；基于所述预测Q值、所述目标Q值以及未来多个时间步的观测奖励值构建损失函数，以最大化奖励值之和为优化目标进行学习直至收敛。

在一些实施例中，计算各湿度传感器的实际湿度值与所述设定湿度的湿度精度偏差以及各实际湿度值之间的湿度均匀度偏差中，所述湿度精度偏差的计算式为：

其中，H_sc表示所述湿度精度偏差，

表示t时间步第i个湿度传感器检测的湿度值，H_set表示所述设定湿度，k₁为所述湿度传感器的数量；

所述湿度均匀度偏差的计算式为：

其中，H_unif为所述湿度均匀度偏差，

表示t时间步第i个湿度传感器检测的湿度值，

表示t时间步各湿度传感器检测的湿度值的平均值，k₁为所述湿度传感器的数量；

计算各温度传感器的实际温度值与所述设定温度的温度精度偏差以及各实际温度值之间的温度均匀度偏差中，所述温度精度偏差的计算式为：

其中，T_sc表示所述温度精度偏差，T_t ⁱ表示t时间步第i个温度传感器检测的温度值，T_set表示所述设定温度，k₂为所述温度传感器的数量；

所述温度均匀度偏差的计算式为：

其中，T_unif表示所述温度均匀度偏差，T_t ⁱ表示t时间步第i个温度传感器检测的温度值，

表示t时间步各温度传感器检测的温度值的平均值，k₂为所述温度传感器的数量。

在一些实施例中，根据每个时间步对应的所述湿度精度偏差、所述湿度均匀度偏差、所述温度精度偏差和所述温度均匀度偏差计算观测奖励值，包括：

R_t＝α₁(T_sc+H_sc)+α₂(T_unif+H_unif)；

其中，R_t为所述观测奖励值，α₁和α₂为权重系数。

在一些实施例中，所述预设深度强化学习模型按照优先级对经验池中的经验数据进行采样，包括：

获取各时间步状态参数的误差TD-error，各经验数据优先级p_ξ正比于所述TD-error，表达式为：

p_ξ∝|δ_ξ|；

其中，δ_ξ为所述TD-error的值，p_ξ为所述优先级，R_t+1为t+1时间步的观测奖励值，γ为折扣因子，S_t+1为t+1时间步的状态参数，S_t为t时间步的状态参数，Q_θ(S_t,A_t)为所述本地网络在状态S_t下输出价值最大的动作A_t的预测Q值，a′为基于本地网络选择的最大的预测Q值对应的动作，

为在选择动作a′条件下所述目标网络输出的状态S_t+1的目标Q值。

在一些实施例中，基于所述预测Q值、所述目标Q值以及未来多个时间步的观测奖励值构建损失函数，包括：

定义未来n个时间步的回报总和

的公式为：

其中，γ^(x)为未来第x时间步的折扣因子，R_t+x+1为未来第x时间步的观测奖励值；

设置损失函数L为：

其中，

未来n步为观测奖励值之和，γ⁽ⁿ⁾为n步折扣因子，S_t+n为t+n时间步的状态参数，S_t为t时间步的状态参数，Q_θ(S_t,A_t)为所述本地网络在状态S_t下输出价值最大的动作A_t的预测Q值，a′为基于本地网络选择的最大的预测Q值对应的动作，

为在选择动作a′条件下所述目标网络输出的状态S_t+n的目标Q值。

在一些实施例中，所述折扣因子为0.9～0.95。

在一些实施例中，所述设定策略为ε-贪婪策略，以ε的概率随机选择动作，以1-ε的概率由所述神经网络选择动作。

在一些实施例中，所述预设深度强化学习模型的学习率为0.00005～0.0001。

另一方面，本发明还提供一种室内空间温度和湿度调控系统，所述系统包括：

多个传感器，所述传感器包括湿度传感器和温度传感器，所述传感器设置在设定空间内；

恒温恒湿机，所述恒温恒湿机设有多个出风口，每个出风口设有多个风速档位，各出风口的风速档位单独设置不同，各出风口设置在设定空间内；

控制器，所述控制器连接各传感器用于获取湿度值和温度值，所述控制器还连接恒温恒湿机并根据上述室内空间温度和湿度调控方法控制所述设定空间内的温度和湿度。

另一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述方法的步骤。

本发明的有益效果至少是：

所述室内空间温度和湿度调控方法及装置中，所述方法以分布式结构布置的传感器检测设定空间内的湿度值和温度值作为状态空间，并采用深度强化学习的方式选取每个时间步状态对应的动作。在强化学习过程中，引用所述湿度精度偏差、所述湿度均匀度偏差、所述温度精度偏差和所述温度均匀度偏差计算观测奖励值，以从综合考量温度和湿度的控制精度以及设定空间内各位置的均匀度，使得强化控制方法最终能够达到能够精确和均匀控制设定空间内温度和湿度的效果。

进一步地，所述方法采用神经网络拟合所选择的动作参数的Q值，以适应对室内空间湿度进行调控场景下连续的状态空间；通过按照优先级对经验池中的经验数据进行采样学习，能够使模型更多关注经验池中状态值估计的误差较大的经验数据；通过设置本地网络和目标网络将动作选择和价值估计分开，避免价值过高估计；通过将动作参数的预估奖励值分解为状态价值和优势函数，能够更快的收敛；采用ε-贪婪策略选择动作，能够有效提升探索能力。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所述室内空间温度和湿度调控方法中深度强化学习过程的逻辑示意图；

图2为本发明一实施例中所述室内空间温度和湿度调控方法对室内温湿度调控流程示意图；

图3为本发明一实施例中所述室内空间温度和湿度调控方法中采用的神经网络结构示意图；

图4为本发明一实施例模拟的博物馆库房结构示意图；

图5为nD3QN-PER、DDQN-PER和D3QN三种算法的收敛情况比较图；

图6为不同学习率下nD3QN-PER算法的性能对比图；

图7为不同折扣因子下nD3QN-PER算法的性能对比图；

图8为不同隐藏层大小下nD3QN-PER算法的性能对比图；

图9为干扰条件下rule-based-1策略与nD3QN-PER策略平均湿度精准度、平均温度精准度、平均湿度均匀度和平均温度均匀度的对比图；

图10为随机干扰条件下rule-based-2策略与nD3QN-PER策略平均湿度精准度、平均温度精准度、平均湿度均匀度和平均温度均匀度的对比图；

图11为干扰条件下3D3QN-PER、DDQN-PER、D3QN、rule-based-1和rule-based-2的调控时长对比图；

图12为干扰条件下3D3QN-PER、DDQN-PER、D3QN、rule-based-1和rule-based-2的平均能耗对比图；

图13为3D3QN-PER控制条件下在第一时间段中观察室内的温度变化图；

图14为rule-based-1控制条件下在第一时间段中观察室内的温度变化图；

图15为rule-based-2控制条件下在第一时间段中观察室内的温度变化图；

图16为3D3QN-PER控制条件下在第一时间段中观察室内的湿度变化图；

图17为rule-based-1控制条件下在第一时间段中观察室内的湿度变化图；

图18为rule-based-2控制条件下在第一时间段中观察室内的湿度变化图；

图19为在不同月份的天气条件下nD3QN-PER算法调控室内温湿度变化图；

图20为3D3QN-PER、DDQN-PER和D3QN调控下室内平均温度和湿度对比图；

图21为部署6个传感器和3个送风口的库房模型A；

图22为部署4个传感器和3个送风口的库房模型B；

图23为库房模型A和库房模型B在3D3QN-PER算法控制下平均湿度精准度、平均温度精准度、平均湿度均匀度和平均温度均匀度的对比图；

图24为库房模型A与库房模型C在3D3QN-PER算法控制下平均湿度精准度、平均温度精准度、平均湿度均匀度和平均温度均匀度的对比图；

图25为库房模型A、库房模型B与库房模型C在3D3QN-PER算法控制下平均调整时间和平均能耗的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

强化学习方法可以通过与环境互动而学习到最佳策略，且无模型的方法可以忽略对不同环境进行建模与计算的复杂度与难度。因此不少研究工作引入了强化学习方法，进行室内温湿度控制。使用不同的强化学习算法对室内的设置进行调节，如窗户、空调开关、摆向、出风温度等来提高人体舒适性，这些方法并没有精确考虑室内温度不同位置的精确度以及均匀性，更多考虑人体的舒适性，但由于人体对舒适的体感范围较大，并不适用于对温湿度敏感的文物保护工作中，且在这些研究工作中，控制单一风口，难以达到均匀的效果，且并没有研究工作考虑到外界干扰突然发生的情况，因此，需要一种方法能够满足文物保护环境中温湿度精准均匀的要求，且具有更高的抗干扰能力。

本发明提供一种室内空间温度和湿度调控方法，所述方法用于在控制器上运行，控制器通过物联网连接设定空间内的多个传感器和多个执行器，传感器包括湿度传感器和温度传感器，执行器为恒温恒湿机的出风口。其中，湿度传感器和温度传感器可以合并设置也可以根据具体的需要分别设置在不同的位置；恒温恒湿机能够在设定温度和设定高湿度条件下以不同的风速档位运行，在设定好温湿度之后，工作过程中由控制器控制恒温恒湿机变换风速档位，所述方法包括步骤S101～S103：

需要强调的是，本实施例中所述的步骤S101～S103并不是对步骤先后顺序的限定，应当理解为，在各步骤可以调换先后顺序或并行。

步骤S101：获取各湿度传感器和各温度传感器按照指定间隔时间采集的湿度值和温度值组作为状态参数构成状态空间，以及以设定湿度和设定温度运行的各出风口的风速档位作为动作参数构成动作空间。

步骤S102：采用预设深度强化学习模型，根据每个时间步的状态参数输出相应的动作参数并控制执行器执行；获取每个时间步下各湿度传感器的实际湿度值和各温度传感器的实际温度值，计算各湿度传感器的实际湿度值与设定湿度的湿度精度偏差以及各实际湿度值之间的湿度均匀度偏差，计算各温度传感器的实际温度值与设定温度的温度精度偏差以及各实际温度值之间的温度均匀度偏差，根据每个时间步对应的湿度精度偏差、湿度均匀度偏差、温度精度偏差和温度均匀度偏差计算观测奖励值；将各时间步对应的状态参数、动作参数和观测奖励值存储在经验池中作为经验数据。

步骤S103：在深度强化学习过程中，预设深度强化学习模型按照优先级对经验池中的经验数据进行采样，采用神经网络拟合所选择的动作参数的Q值，神经网络模型设置本地网络用于计算当前时间步的预测Q值并根据设定策略选择动作参数，设置目标网络用于计算下一时间步的目标Q值，本地网络与目标网络的结构相同，每间隔设定时长将本地网络的参数更新至目标网络；并且神经网络将动作参数的Q值分解为仅与状态有关的状态价值部分以及与状态和动作均相关的优势函数部分；基于预测Q值、目标Q值以及未来多个时间步的观测奖励值构建损失函数，以最大化各时间步动作参数对应奖励值之和为优化目标进行学习直至收敛。

在步骤S101中，在控制器上运行深度强化学习的智能体，按照设定时间间隔获取湿度传感器和温度传感器采集的湿度值和温度值，具体的，湿度传感器和温度传感器可以按照相同的检测点位设置，也可以分开设置。各检测点位均匀的分布在设定空间内，也可以根据具体检测需求的差异分别设置在特定位置上。控制器中智能体所获得的各温度传感器和湿度传感器的多个温度值和多个湿度值作为状态参数构成状态空间。控制器以恒温恒湿机的各出风口所选择的风速档位构成动作空间，以设定温度和设定湿度为目标运行。

在步骤S102中，预设深度强化学习模型根据每个时间步的状态参数选择和输出相应的动作参数。获取在真实环境中的各参数的观测值，包括各湿度传感器的实际湿度值，各温度传感器的实际温度值，用于反映环境真实状态。本实施例的目的是为了针对设定空间进行湿度和温度调控时，能够达到精确和均匀调控的效果，因此，从调控的精确度和均匀性两方面构件观测奖励值，以评价动作的价值。进一步的，通过构建经验池，用于存储经验数据。

在一些实施例中，在步骤S102中，计算各湿度传感器的实际湿度值与设定湿度的湿度精度偏差以及各实际湿度值之间的湿度均匀度偏差中，湿度精度偏差的计算式为：

其中，H_sc表示湿度精度偏差，

表示t时间步第i个湿度传感器检测的湿度值，H_set表示设定湿度，k₁为湿度传感器的数量。

湿度均匀度偏差的计算式为：

其中，H_unif为湿度均匀度偏差，

表示t时间步第i个湿度传感器检测的湿度值，

计算各温度传感器的实际温度值与所述设定温度的温度精度偏差以及各实际温度值之间的温度均匀度偏差中，温度精度偏差的计算式为：

其中，T_sc表示温度精度偏差，T_t ⁱ表示t时间步第i个温度传感器检测的温度值，T_set表示设定温度，k₂为温度传感器的数量；

温度均匀度偏差的计算式为：

其中，T_unif表示温度均匀度偏差，T_t ⁱ表示t时间步第i个温度传感器检测的温度值，

表示t时间步各温度传感器检测的温度值的平均值，k₂为温度传感器的数量。

在一些实施例中，根据每个时间步对应的湿度精度偏差、湿度均匀度偏差、温度精度偏差和温度均匀度偏差计算观测奖励值，包括：

R_t＝α₁(T_sc+H_sc)+α₂(T_unif+H_unif)； (7)

其中，R_t为观测奖励值，α₁和α₂为权重系数。

在步骤S103中，本发明是对设定空间内的温度和湿度进行同步调控的，其状态空间是连续性的，采用离散Q值表的Q-learning算法并不适用于本发明。所以，本实施例中，采用神经网络对所选动作参数的价值，也即对Q值进行拟合，使其逼近最优Q值。神经网络可以采用卷积神经网络或者全连接层网络。

预设深度强化学习模型按照优先级对经验池中的经验数据进行采样，用于学习，为了引入经验数据的重要性，提高采样学习率，本实施例基于TD-error选取回放经验池中的经验数据，TD-error越大，优先级越高。每个时间步的TD-error就是该时间步状态动作价值估计的误差，该时间步对应经验数据的采样概率就正比于该误差。

在一些实施例中，步骤S103中，预设深度强化学习模型按照优先级对经验池中的经验数据进行采样，包括：获取各时间步状态参数的误差TD-error，各经验数据优先级p_ξ正比于所述TD-error，表达式为：

p_ξ∝|δ_ξ|； (8)

进一步的，为了避免对奖励值的过高估计，本申请中的神经网络同时构建了本地网络和目标网络，用于将动作选择和Q值的计算进行解耦，本地网络和目标网络的结构相同，都是以状态参数作为输入以Q值作为输出，对于当前已知的状态S_t，由本地网络基于完全贪婪算法选择Q值最大的动作，假设为动作为a₁，Q值为Q(S_t，a₁)，将动作输入环境中可以得到下一时间步的状态S_t+1，将下一时间步的状态参数S_t+1输入目标网络，并找到a₁对应的Q值Q(S_t+1，a₁)，最后以本地网络的预测作为预测值，以R_t+1+γQ(S_t+1，a₁)作为实际值，进行误差反向传播。loss函数可以选择方差等，将其当做一个有监督学习即可。每过一段时间后，将本地网络中的参数硬拷贝到目标网络中。

神经网络将动作参数的预估奖励值分解为仅与状态有关的状态价值部分以及与状态和动作均相关的优势函数部分，还可以引入行采样干扰；其中，神经网络考虑将Q网络分成两部分，第一部分是仅仅与状态s有关，与具体要采用的动作a无关，这部分叫做价值函数部分，记做V(s)，第二部分同时与状态s和动作a有关，这部分叫做优势函数(AdvantageFunction)部分，记为A(s,a)，那么最终的价值函数可以重新表示为：

Q(s,a)＝V(s)+A(s,a)； (10)

在一些实施例中，步骤S103中，基于预测Q值、目标Q值以及未来多个时间步的观测奖励值构建损失函数，包括：

定义未来x个时间步的回报总和

的公式为：

设置损失函数L为：

其中，

在一些实施例中，所述折扣因子为0.9～0.95。

在一些实施例中，设定策略为ε-贪婪策略，以ε的概率随机选择动作，以1-ε的概率由神经网络选择动作。其中，神经网络在选择动作的过程中，选择预估奖励值最高的动作。

在一些实施例中，预设深度强化学习模型的学习率为0.00005～0.0001。

控制器，所述控制器连接各传感器用于获取湿度值和温度值，所述控制器还连接恒温恒湿机并根据上述步骤S101～S103所述的室内空间温度和湿度调控方法控制设定空间内的温度和湿度。

下面结合一具体实施例对本发明进行说明：

本实施例提供一种用于博物馆库房温湿度精准均匀调控的强化学习方法，通过强化学习算法，控制室内恒温恒湿机的档位，进行温湿度调节，包括如下步骤201～205：

步骤201：设计仿真场景，并设计控制系统要素，由于使用基于强化学习的控制算法，需根据当前场景设计强化学习算法三大要素：状态、控制动作以及奖励。

步骤202：在CFD仿真软件中模拟实际库房场景，初始化仿真场景，并将当前的环境状态(温湿度情况)传送给强化学习算法控制智能体。

步骤203：智能体根据传入状态，计算当前的奖励值，经过神经网络训练，根据一定法则选择当前状态下的最优动作，并将动作通信给执行器，即恒温恒湿机。

步骤204：恒温恒湿机执行动作完毕，再将下一状态发送至智能体，进行下一步的学习。由此循环交替，形成智能体于环境的互动过程。

步骤205：经过训练学习，智能体能根据当前状态，选择最优动作，实现室内温湿度达到精准均匀的效果，且在发生外界干扰的情况下，所需应对时间缩短，能耗减少，维持温湿度在最佳状态。

具体的，对深度强化学习控制系统进行设计，环境部分，在博物馆的库房中，配置有恒温恒湿系统，该系统通过多个入风口对室内环境进行温湿度调控。由于不同材质的文物需要存放在特定的温湿度环境中，因此必须严格控制库房内的空气温度和湿度；传感器部分，采用温湿度传感器，可定时检测环境状况，并通过物联网(Internet of Thing，IoT)网络将收集的数据上传至控制器。大面积房间往往存在室内温度和湿度不均匀的问题。因此，部署了分布式温度和湿度传感器来探测室内环境中不同位置的湿度数据。控制器部分，控制器采用基于DRL(Deep Reinforcement Learning)的算法，控制器的目标是将温度和湿度保持在期望范围内且均匀，根据多个传感器上传的环境信息反馈，控制器通过更新多个风口的风速档位来做出控制决策。执行器部分，恒温湿度空调系统将根据控制器的决策调整通风口的风速档位，在设计的系统中，不同风口的风速可调节至不同档位。

如图2所展示的室内温湿度控制流程图，在控制过程中，由分布式温湿度传感器将采集的室内各点的温湿度值上传至控制系统中，基于DRL的控制器会将分布式温湿度传感器上传的信息作为状态参数输入，通过神经网络，进行训练，得到相应的决策，并将动作决策输出到执行器当中，在本发明中，执行器指恒温恒湿系统(Constant Temperature andHumidity，CTHA)，在一定的时隙后，分布式温湿度传感器将新采集得到的数据，再次上传至控制器，控制器根据当前的温湿度状态计算得到该动作的奖励值，基于该奖励值，进行控制器的强化学习训练。控制器中，智能体的DRL神经网络结构由全连接层构件得到。

设置控制器的系统模型并定义问题，控制过程被定义为马尔可夫决策过程，因为下一个时隙的室内空气温度和湿度由当前室内状态、CTHA系统的动作决定，与之前的状态无关。因此控制优化可以定义为一个强化学习问题。

1)确定室内温湿度状态：本实施例基于DRL的控制器基于当前室内多点的温度和湿度状态进行决策。因此，状态是一个重要因素。部署分布式传感器来检测室内环境信息，包括各点的温度和湿度。获取分布式传感器在t时刻检测到的温度值和湿度值为T_t ⁱ和

。

2)温度和湿度设定点：将目标温度和目标湿度定义为T_set和H_set，该值可以根据文物保护的最适宜温度和湿度确定。由于几乎不可能精确保持在目标温度和湿度，因此温度和湿度的期望偏差为±0.5℃，±1％。控制算法的目标是尽可能地减少与期望状态的偏差。

3)设置风速：恒温恒湿系统以恒定的温度和湿度工作，基于DRL的智能体主要通过控制CTHA的风速档位，维持室内的温湿度在均匀精准的状态。本实施例将风速档位定义为F，F＝{off,low,medium,high}。即关闭，低，中，高四个档位。

4)设置CTHA系统的能耗：系统消耗的能量与通风量成正比。它们用于加热、加湿等。能耗将由系统的智能电表测量。只考虑每个时隙中的整体能耗，能量损耗将以单位kW·h进行评估。

5)定义问题，定义系统状态(State)：控制决策(即多个风口的档位值)基于对当前室内温度和湿度的观测。每个时隙的系统状态由多个传感器检测到的当前温度和湿度组成。本实施例将系统状态定义为：

其中，β表示温度和湿度传感器的数量。

定义控制动作(Action)：本实施例认为可控制的变量是CTHA系统多个风口的风速档位，每个风口的风速可以从四个不同的档位进行选择，定义为F。控制动作定义为：

A_t＝{f_t ¹，f_t ²…f_t ^m}，f∈F； (14)

其中，m表示风口的数量，f_t ^m表示t时间步第m个风口的风速裆位。因此，整个动作状态空间为

其中

奖励(Reward)：当智能体在当前状态下执行动作，环境将进入新的状态，并获得奖励，奖励函数参照式7，由于主要考虑室内温度和湿度的精度和均匀性，其由两部分组成。

R_t＝α₁(T_sc+H_sc)+α₂(T_unif+H_unif)； (7)

其中，R_t为奖励值，α₁和α₂为权重系数。

式子7中的第一项计算了每个点之间与目标状态的温度和湿度偏差。定义了两个变量，温度精准度T_sc(即温度精度偏差)和湿度精准度H_set(即湿度精度偏差)，以测量室内温度和湿度的精度。其中，

分别表示每个传感器检测到的温度和湿度。在控制过程中要求每个点的温度和湿度都尽可能接近所需的状态。

式子7中的第二项主要关注了室内温湿度的均匀性。控制器智能体旨在减少房间内不均匀温湿度分布。因此，本实施例定义了测量值H_unif为湿度均匀度偏差(即平均湿度均匀度)，以及T_unif表示温度均匀度偏差(即平均温度均匀度)，如式子17和18，其中

为各温度传感器检测到的温度平均值，

为各湿度传感器检测到的湿度平均值。在式子7中，α_i(i＝1,2)表示的是权重，表示两个部分的相对重要性。如果室内温湿度的精度更重要，则参数α₁应设置为更大的值。否则，其应调整为较小的值，以获得更高的均匀度。

优化目标：智能体根据环境产生的结果来判断动作的好坏。它的目标在于学习可以使其实现目标的动作序列，使得整个时间段内的各动作奖励值之和最高，目标函数表示如下：

其中，γ表示折扣因素且γ＜1。深度强化学习的目标是最大限度地提高折扣奖励的总和。

算法结构设计：

由于温度和湿度值是连续的，使其状态空间较大，普通Q学习在存储状态动作空间时会导致空间爆炸。因此本实施例决定采用DRL(Deep Reinforcement Learning，深度强化学习)，它结合了深度学习，允许智能体处理复杂和大维度状态输入的问题。由于动作为离散变量，本实施例基于全连接神经网络构建拟合Q值。

基于Double DQN结构，神经网络模型设置本地网络用于计算当前时间步的预测Q值并根据设定策略选择动作参数，设置目标网络用于计算下一时间步的目标Q值，本地网络与目标网络的结构相同，每间隔设定时长将本地网络的参数更新至目标网络。基于当前环境参数，包括多个传感器检测到的温度和湿度，基于本地网络选择使用ε-greedy策略调整CTHA系统多个风口的风速档位。在每个时隙结束时，根据式子7计算奖励值，当前奖励值与下一时刻状态s_t+1，当前动作a_t以及当前状态s_t相结合，组成一条经验并存入到经验池中。训练时从经验池中随机采样mini-batch输入到本地网络Q_θ-network，以及目标网络

中计算损失函数，损失函数将用于更新本地网络Q_θ-network的权重，且这些权重会以一定的频率更新到目标网络

中。

引入n-step法，观察未来多个步骤的奖励进行更新，定义未来x个时间步的回报总和

公式参照式11：

设置损失函数L为，公式参照式12：

其中，

未来n步为观测奖励值之和，γ⁽ⁿ⁾为n步折扣因子，S_t+1为t+1时间步的状态参数，S_t为t时间步的状态参数，Q_θ(S_t,A_t)为所述本地网络在状态S_t下输出价值最大的动作A_t的预测Q值，a′为基于本地网络选择的最大的预测Q值对应的动作，

进一步的，基于Dueling DQN结构，如图3所示，本地网络和目标网络对预测Q值和目标Q值的评估分为两个部分，第一部分是仅仅与状态s有关，与具体要采用的动作a无关，这部分叫做价值函数部分，记做V(s)，第二部分同时与状态状态s和动作a有关，这部分叫做优势函数(Advantage Function)部分，记为A(s,a)，那么最终的价值函数可以重新表示为：

Q(s,a)＝V(s)+A(s,a)； (10)

在本实施例中，基于Prioritized Experience Replay，深度强化学习过程通过构建经验池存放经验数据，优先经验回放通过赋予不同的经验一定的优先级，使得一些更“重要”的经验可以以更高的频率被采样。每条经验的优先级p_ξ会正比于TD-error的值δ_ξ，其定义如式8和9：

p_ξ∝|δ_ξ|； (8)

其概率分布P(ξ)以及重要性权重w_ξ计算如下：

其中，N表示经验总数，λ决定了优先的比例。p_ξ表示经验ζ的优先级，P(ξ)表示该条经验的概率分布，w_ξ表示重要姓权重，σ表示重要性权重的选取比例，K表示经验池所有经验。

将本实施例中结合了Double DQN、Dueling DQN、Prioritized ExperienceReplay和n-step，将该结构的深度强化学习方法定义为nD3QN-PER(n-step DuelingDouble DQN with Prioritized Experience Replay)。接下来作为对比，还将Double DQN和Prioritized Experience Replay结合的深度强化学习方法定义为DDQN-PER，将DoubleDQN和Dueling DQN结合的深度强化学习方法定义为D3QN(Dueling Double DQN)。

采用nD3QN-PER、DDQN-PER和D3QN分别实验用于对比。

本实施例中，温湿度控制仿真在CFD仿真软件中完成，算法部分我们使用了开源深度学习框架tensorflow2.0完成。

设计实验，模拟了10米(长度)*9米(宽度)*3米(高度)的博物馆库房，如图4所示。南北方向各有两扇门。在房间中间，部署了两个储藏文物的柜子。恒温和湿度空调系统通过房间顶部的三个入风口调节室内温湿度。房间内均匀布置了九个温湿度传感器。

在本实施例的实验中，T_set＝25℃,H_set＝50％。九个传感器将检测到的数据上传到控制系统。因此，当前时隙系统状态定义为

动作定义为A_t＝{f_t ¹,f_t ²,f_t ³},f∈F，其中f_t ¹,f_t ²,f_t ³分别表示三个通风口的风速档位大小。假设博物馆仓库有良好的隔热设计，没有与外界的热交换。在每个训练集，初始温度和湿度是不均匀的，每个回合包括30步(2分钟1步)。训练回合数大于800。为了提高控制系统的抗干扰能力，在每一回合里，假设从房间的门到北面的干扰都会使房间的温湿度状态发生明显变化。智能体经过训练，能够识别干扰且以更短的时间应对干扰。

DRL神经网络中有两个隐藏层，每个层都有512个神经元。采用了ReLU为激活函数。并使用Adam优化器，学习率设置为0.0001。折扣系数设置为0.9，mini-batch大小为32。动作选择过程中，使用ε-greedy策略进行开发和探索。ε初始是1，经过200回合它最终减少到0.001。

在不同的设置下评估所提出的控制系统。由于不存在类似的研究工作，其性能与两种常用的基于规则的方法进行比较。rule-based-1和基于规则的rule-based-2控制策略分别如式子22和23中显示。在现实世界中，CTHA系统的传感器通常部署在侧壁顶部。此实验中，假设安装了3个。该系统采用开-关的控制策略。例如，在rule-based-2方法中，如果室内平均温度和湿度超出预期边界(即Δ_T＝0.5℃,Δ_H＝1％)，三个通风口的风速档位将设置为高模式。否则，系统将被关闭。

其中，T_i表示第i各传感器检测到的温度值，H_i表示第i个传感器传感器检测到的湿度值。

下面进行性能对比，评估nD3QN-PER、DDQN-PER和D3QN三种不同算法的收敛情况，结果见图5。我们可以观察到，nD3QN-PER(在此实验中，采用3-step，记为3D3QN-PER)收敛到比D3QN和DDQN-PER更高的奖励值。与D3QN相比，3D3QN-PER将D3QN与3-step和PER策略相结合。它观察未来3个步骤的奖励、状态和行动，因此它更加有远见和稳定。PER方法弥补了均匀取样的缺点，使智能体能够有效地学习更有价值的经验。因此，与其他基于DQN variants的方法相比，3D3QN-PER具有更好的性能。

评估nD3QN-PER、DDQN-PER和D3QN三种不同算法的在不同学习率下的学习情况，从图6中可以看出，当学习率(learning rate)过大(例如0.005)时，收敛率明显更快。当它太小(例如，0.00005)时，算法以略低的速度收敛。但是，学习率过高会导致模型在不稳定的学习过程中学习到次优解解。随着学习率的降低，模型收敛的奖励越高。当学习速率设置为0.0001和0.00005时，算法会收敛到最佳性能，并且它们比其他曲线更稳定。

评估nD3QN-PER、DDQN-PER和D3QN三种不同算法的在不同折扣因子下的学习情况，图7显示了算法在不同折扣因子γ(gamma)下的性能对比。折扣因子基本上决定了未来奖励相对于当前奖励的重要性。如图7所示，当折扣系数γ设置为0.7时，该算法的收敛值较低。当γ从0.8增加到0.9时，奖励会略有增加，因为较低的γ会导致智能体没有远见，更关心当前的奖励。当伽玛设置为0.95时，曲线波动较大，但与0.9的奖励差异并不显著。

进一步的，针对nD3QN-PER，比较隐藏层中不同神经元数量对算法收敛的影响，如图8所示，当两个隐藏层维度变大时，收敛速度会变快，因为更多的神经元能带来更好的学习能力。但是，这四个设置下的收敛值没有明显区别。特别来说，每个隐藏层中具有512个神经元的算法具有更稳定的收敛性。因此，总合来看在两个隐藏层中具有512个神经元的算法更好。

进一步地，对比rule-based-1方法、rule-based-2方法与3D3QN-PER方法在干扰条件下温湿度的平均精度和均匀性，为了评估干扰下的精准度和均匀度，测试了50回合。与训练过程中不同的是，每回合由60步(2小时)组成。即在2小时内观察温湿度变化，评估三种方法的温湿度精准度和均匀度。在每一回合中，假设随机温度和湿度的干扰(例如温度27℃：湿度：45％，等)在随机时刻进入，导致室内在某些位置温度和湿度偏离目标值(温度：25℃，湿度：50％)。根据式子15～18计算多个点的平均温湿度均匀度和精准度。图9表明，与rule-based-1方法相比，3D3QN-PER方法平均将温度和湿度的精度提高了26.7％、23.5％。在均匀性方面，平均提高了22.4％、29.9％。图10中显示与rule-based-2方法相比，所提出的方法表现出更好的性能，在干扰下可以达到更高的均匀性和精度。温度的精度和均匀性提高了2.1％、19.3％，湿度提高了5.4％和21.8％。此外，还节约了18％的能耗。更重要的是，从图9和图10可以观察到，3D3QN-PER为基础的方法在不同的干扰下更稳定。

进一步的，分析nD3QN-PER、DDQN-PER、D3QN、rule-based-1和rule-based-2在干扰下调控时长和能耗的对比，为了评估控制系统的抗干扰能力，本实施例评估了系统在不同控制方法下达到室内目标温湿度状态所需要的的调控时间和能耗，结果见图11和图12。这说明本发么的方法nD3QN-PER明显优于其他方法。从图11可以看出，与D3QN、DDQN-PER、rule-based-1、rule-based-2的方法相比，平均调整时间分别缩短了19.7％、19.8％、23.8％、24.2％。DDQN-PER、D3QN算法的性能没有明显差异，调控时间消耗略低于两种rule-based的方法。由于rule-based的方法中的传感器通常集中安装在远离入口的地方，这些入口为干扰可能来源，使得控制器的的监控区域狭窄。控制器需要更长的时间才能检测到房间内的温湿度变化，并导致高延迟控制。然而，相比之下，基于3D3QN-PER方法的分布式传感器可以在干扰空气扩散之前捕捉到变化，并做出相应的调整和及时决策。

图12显示了处理干扰时的平均能耗。基于DQN的方法消耗的能源较少，特别地，3D3QN-PER方法节省的能源最多，而rule-based-2方法消耗的能量最多。因为一方面，基于DQN的方法消耗更少的调控时间，另一方面，多风口多档位以及分布式传感器部署的设计使系统在处理干扰方面变得更加灵活。与其他4种方法相比，3D3QN-PER在应对干扰时，能耗平均分别降低了21.7％、22.9％、26.6％、34.2％。

进一步地，对天气环境影响下nD3QN-PER、rule-based-1和rule-based-2的性能进行对比。

在博物馆里，除了库房、展厅的温度和湿度也需要精确控制。然而，展厅里的温湿度通常受到天气的影响。因此，考虑天气变化，观察室内温度和湿度的变化情况。以2021年9月13日13：00至19：00时间段为第一时间段，图13～18显示在第一时间段内3D3QN-PER、rule-based-1和rule-based-2对背景室内温度和湿度调控变化情况。与两种rule-based的方法相比，3D3QN-PER方法可以在期望波动范围内保持更稳定的室内温度和湿度。且每个传感器探测到的温湿度更接近目标的状态。由于采用rule-based方法的CTHA系统，通过监控多个传感器进行控制决策，当检测到的温度和湿度在目标阈值内时，其停止工作。然而，房间其他位置的温湿度仍然超出范围。因此，在某些时刻，温湿度偏离期望范围。同时，基于rule-based方法采取开-关的策略，导致更多温湿度波动。结果表明，本发明所提出的方法nD3QN-PER也适用于展厅。

此外，本实施例还评估系统在不同天气下的性能。户外天气数据收集于北京5月到9月。随机选择每月中的一天进行测试，观察一天中的温度和湿度变化。图19表明，一天的平均室内温度和湿度可以稳定在预期状态，波动较小。结果表明，当引入天气影响时，尽管室外天气明显不同，但室内平均空气温湿度可以保持在期望范围内。基于nD3QN-PER的方法是可行的。

进一步比较了nD3QN-PER、DDQN-PER和D3QN控制方法在一天内的平均温度和湿度。从图20中，可以观察到，在三种方法下，平均温湿度可以控制在期望范围内。此外，显然，3D3QN-PER方法比其他方法达到更好的性能。本实施例所提出的nD3QN-PER方法的平均室内温度的标准偏差(SD)为0.44，而D3QN为0.51，DDQN-PER为0.54。nD3QN-PER的平均湿度标准偏差为1.2，而D3QN和DDQN-PER的标准偏差为2.06和2.12。可见，3D3QN-PER方法在温度和湿度的变化要小得多，更适合文物保护。

进一步地，评价分析不同传感器数量对系统调节性能的影响，为了降低实际部署成本，本实施例设计6个传感器和3个送风口的库房模型A，以及4个传感器和3个送风口的库房模型B以评估传感器部署密度对系统性能的影响，如图21和图22所示，传感器均匀地部署在库房内。

采用3D3QN-PER算法进行训练。同样，在随机干扰下评估50回合的温度和湿度精度和均匀性。图23展示了6传感器的库房模型A与4传感器的库房模型B的比较。由此可见，库房模型A和库房模型B精度和均匀性差异不大，但6传感器系统的性能稍好一些。此外，如图24所示，部署有9个传感器的库房模型C(图中未示出)在温度和湿度上都达到了最高的精度和均匀性。与6个传感器相比，9个传感器系统显著提高了温度和湿度的精度14.5％和17.2％，同时4.2％和5.9％的均匀度。

进一步地，对不同传感器数量条件下的抗干扰性能进行对比，同时，对系统在干扰情况下调控至目标状态所消耗的时间于能耗进行评估。如图25显示，随着分布式传感器数量的增加，系统消耗的调整时间和能量更少。与4传感器系统相比，9传感器系统的调控时间和能耗降低了31.1％和22.6％。与6传感器系统相比，24.1％、14.8％的调控时间和能耗被节省。这是由于安装的传感器越多，系统对环境变化就越敏感。但是，部署的传感器过多会大大增加输入维度，并且需要更多的时间进行网络的训练。因此，传感器部署的密度应该适当。

考虑到文物保存的环境对温湿度的精准度有严格要求，且长期均匀并稳定的环境更有利于文物保存，本实施例提出了一种用于博物馆库房温湿度精准均匀调控的强化学习方法，并提供了完整的解决方案。采用了分布式架构，通过监测库房内多个不同位置的温湿度，控制恒温恒湿机多个风口，进而智能化调控室内的温湿度状态。提出了基于深度强化学习算法的调控方法，解决当前问题，实现在室内不同的温湿度状态下，智能体能够选择当前状态下最佳控制动作。实现多目标，包括：各位置温湿度达到精准适宜状态、各点温湿度达到均匀状态，以及当发生外界干扰，其抗干扰能力更强。

综上所述，本发明所述室内空间温度和湿度调控方法及装置中，所述方法以分布式结构布置的传感器检测设定空间内的湿度值和温度值作为状态空间，并采用深度强化学习的方式选取每个时间步状态对应的动作。在强化学习过程中，引用所述湿度精度偏差、所述湿度均匀度偏差、所述温度精度偏差和所述温度均匀度偏差计算观测奖励值，以从综合考量温度和湿度的控制精度以及设定空间内各位置的均匀度，使得强化控制方法最终能够达到能够精确和均匀控制设定空间内温度和湿度的效果。

进一步地，所述方法采用神经网络拟合所选择的动作参数的预估奖励值，以适应对室内空间湿度进行调控场景下连续的状态空间；通过按照优先级对经验池中的经验数据进行采样学习，能够使模型更多关注经验池中状态值估计的误差较大的经验数据；通过设置本地网络和目标网络将动作选择和价值估计分开，避免价值过高估计；通过将动作参数的预估奖励值分解为状态价值和优势函数，能够更快的收敛；通过引入高斯噪声，并采用ε-贪婪策略选择动作，能够有效提升探索能力。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种室内空间温度和湿度调控方法，其特征在于，所述方法用于在控制器上运行，所述控制器通过物联网连接设定空间内的多个传感器和多个执行器，所述传感器包括湿度传感器和温度传感器，所述执行器为恒温恒湿机的出风口，所述方法包括：

2.根据权利要求1所述的室内空间温度和湿度调控方法，其特征在于，计算各湿度传感器的实际湿度值与所述设定湿度的湿度精度偏差以及各实际湿度值之间的湿度均匀度偏差中，所述湿度精度偏差的计算式为：

其中，H_sc表示所述湿度精度偏差，

所述湿度均匀度偏差的计算式为：

其中，H_unif为所述湿度均匀度偏差，

表示t时间步第i个湿度传感器检测的湿度值，

所述温度均匀度偏差的计算式为：

3.根据权利要求2所述的室内空间温度和湿度调控方法，其特征在于，根据每个时间步对应的所述湿度精度偏差、所述湿度均匀度偏差、所述温度精度偏差和所述温度均匀度偏差计算观测奖励值，包括：

R_t＝α₁(T_sc+H_sc)+α₂(T_unif+H_unif)；

其中，R_t为所述观测奖励值，α₁和α₂为权重系数。

4.根据权利要求3所述的室内空间温度和湿度调控方法，其特征在于，所述预设深度强化学习模型按照优先级对经验池中的经验数据进行采样，包括：

p_ξ∝|δ_ξ|；

5.根据权利要求4所述的室内空间温度和湿度调控方法，其特征在于，基于所述预测Q值、所述目标Q值以及未来多个时间步的观测奖励值构建损失函数，包括：

定义未来n个时间步的回报总和

的公式为：

设置损失函数L为：

其中，

6.根据权利要求1所述的室内空间温度和湿度调控方法，其特征在于，所述折扣因子为0.9～0.95。

7.根据权利要求1所述的室内空间温度和湿度调控方法，其特征在于，所述设定策略为ε-贪婪策略，以ε的概率随机选择动作，以1-ε的概率由所述神经网络选择动作。

8.根据权利要求1所述的室内空间温度和湿度调控方法，其特征在于，所述预设深度强化学习模型的学习率为0.00005～0.0001。

9.一种室内空间温度和湿度调控系统，其特征在于，所述系统包括：

控制器，所述控制器连接各传感器用于获取湿度值和温度值，所述控制器还连接恒温恒湿机并根据权利要求1至8任意一项所述室内空间温度和湿度调控方法控制所述设定空间内的温度和湿度。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。