CN113983638A

CN113983638A - 一种基于改进型dqn的室内热舒适控制方法及系统

Info

Publication number: CN113983638A
Application number: CN202111275451.2A
Authority: CN
Inventors: 闫秀英; 肖桂波; 赵旭蒙; 吉星星
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28

Abstract

本发明公开了一种基于改进型DQN的室内热舒适控制方法及系统，实时采集影响室内热舒适指标PMV的物理环境指标值；利用物理环境指标值建立室内热舒适状态模型；将室内热舒适状态模型经过控制策略判断得到空调系统判断动作，利用空调系统动作空间进行动作，得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射，将环境中感知到的状态映射为单独的数值作为奖赏函数；在基于双经验池优先经验回放的DQN控制策略的深度强化学习网络中根据奖赏函数确定奖赏值，按照优先级的大小比例进行抽取训练，将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制，实现室内热舒适控制。本发明使室内热舒适水平得到显著提升。

Description

一种基于改进型DQN的室内热舒适控制方法及系统

技术领域

本发明属于技术领域，具体涉及一种基于改进型DQN的室内热舒适控制方法及系统。

背景技术

以室内空气温度为控制目标的传统定温控制策略为当前的大多数空调系统所采用，低成本、高可靠是其最大优点。但这种单纯地定温控制策略(主要以温度为其控制参数，部分系统会以相对湿度为辅助控制参数)在今天越来越难以匹配大家对室内环境的舒适性追求，所以其存在改善空间。如：当室内温度和室内相对湿度的其他几个因素变化较大时，室内人体热舒适度也会出现较大变化。此时，房间内的用户往往会在热应激反应和滞后性控制效果的双重作用下，过分调高或调低HVAC系统的设定温度，不仅难以达到满意的室内热环境，也会导致系统能耗的增加。

热舒适度指标PMV是由丹麦科学家Fanger教授于20世纪70年代提出的用于表征人体热反应的评价指标。在范格尔教授的PMV评价体系中，影响人体热舒适度的除了相对湿度、温度、空气流速、平均辐射温度这四个客观因素外，人体服装热阻和人体新陈代谢率这两个主观因素也扮演着非常重要的角色。但传统的基于温度的HVAC控制策略只考虑了室内空气温度和室内相对湿度两个因素，而忽略了其他四个因素。在这种控制策略下，HVAC系统维持的并非用户真实所需的热舒适状态。

同时PMV指标也是当前国际上应用范围最广、认可度最高的热舒适评价指标。它与多种环境变量和人体参数等有着复杂的非线性关系，无法直接控制。而以BP神经网络为核心工具的PMV预测方法极为耗时，且精度不高。以生成对抗网络GAN为核心工具的PMV预测方法，针对原始GAN中存在的初始粒子自由度过高导致算法收敛较慢的问题。

深度Q网络(DQN)是由Google的Deep-mind团队提出的一种将深度学习与强化学习结合起来的非线性值函数近似方法。该方法近年来在大规模强化学习问题中展现了超强的性能。基于深度强化学习(DRL)与蒙特卡洛树搜索的围棋人工智能(AlphaGo Zero)甚至轻易击败了人类的顶尖职业棋手。

在DQN中的每个训练时间步(设定的时间间隔)，智能体将在线得到的转移序列存入回放记忆池中。然后用于更新模型权重的数量固定的转移样本被将从记忆池中随机抽取。显而易见的是这种经验回放机制(依赖于从记忆池随机抽取转移样本)仍然存在一定的弊端。随机抽样模式忽略了记忆池中不同样本之间对智能体学习过程中促进作用的大小。也就是说随机抽样模式不能将对智能体学习有较大促进作用的转移样本进行优先学习和优先利用。并且计算机的存储空间也是有限的，一些新样本未能被及时利用的话存在被覆盖的可能性，造成样本浪费。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于改进型DQN的室内热舒适控制方法及系统，不需要过多先验知识，能够有效适用于非本专业的操作人员，同时使室内热舒适水平得到显著提升。

本发明采用以下技术方案：

一种基于改进型DQN的室内热舒适控制方法，包括以下步骤：

S1、建立环境感知模型，实时采集影响室内热舒适指标PMV的物理环境指标值；

S2、设计空调系统动作空间；

S3、利用步骤S1获取的物理环境指标值表示建筑模型内的室内热舒适状态，建立室内热舒适状态模型；

S4、设计基于双经验池优先经验回放的DQN控制策略；

S5、将步骤S3建立的室内热舒适状态模型经过步骤S4设计的DQN控制策略判断得到空调系统判断动作，利用步骤S2设计的空调系统动作空间进行动作，得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射，将环境中感知到的状态映射为单独的数值作为奖赏函数；根据奖赏函数确定奖赏值，按照优先级的大小比例进行抽取训练，将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制，实现室内热舒适控制。

具体的，步骤S1中，物理环境指标值包括室内温度、室内相对湿度、室内风速和室内黑球温度。

具体的，步骤S2中，空调系统在时间t采取的动作A_t为：

A_t＝§(S_t)

其中，§是热舒适控制的控制策略，S_t为室内热舒适状态模型中的一种室内热舒适状态。

具体的，步骤S3中，室内热舒适状态模型中的一种室内热舒适状态S_t为：

S_t＝(T_in,H_in,V_in,Tmr_in)

其中，T_in为室内温度，H_in为室内相对湿度，V_in为室内风速，Tmr_in为室内黑球温度。

具体的，步骤S4中，基于双经验池优先经验回放的DQN控制策略具体为：

根据实际回报的大小将学习经验依次存储于两个不同的经验池，采用优先经验回放方法，按照优先级从记忆池的转移序列中抽取转移样本；在转移序列中同时记录每个样本在智能体训练过程中被使用的次数N_i，当第i个样本被选择后，样本被选中概率随时间步降低。

进一步的，两个不同的经验池中，带有正奖励的转移序列被存放于回放记忆池D1；带有负奖励及零奖励的转移序列被存放于回放经验池D2；当时间步为非10的整数倍时，从回放记忆池D1中抽取转移样本；当时间步为10的整数倍时，采用随机抽取的方式从回放经验池D2中抽选转移样本。

进一步的，第j个样本被选中的概率p_j为：

其中，N_i表示第i个样本累计被选中的次数；r_i为第i个样本的奖赏值。

具体的，步骤S5中，奖赏函数R_t为：

R_t＝(S_t,A_t)

其中，S_t为室内热舒适状态模型，A_t为空调系统动作空间。

本发明的另一技术方案是，一种基于改进型DQN的室内热舒适控制系统，包括：

采集模块，建立环境感知模型，实时采集影响室内热舒适指标PMV的物理环境指标值；

动作模块，设计空调系统动作空间；

舒适度模块，利用采集模块获取的物理环境指标值表示建筑模型内的室内热舒适状态，建立室内热舒适状态模型；

DQN模块，设计基于双经验池优先经验回放的DQN策略；

控制模块，将舒适度模块建立的室内热舒适状态模型经过控制策略判断得到空调系统判断动作，利用动作模块设计的空调系统动作空间进行动作，得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射，将环境中感知到的状态映射为单独的数值作为奖赏函数；根据函数模块得到的奖赏函数确定奖赏值，按照优先级的大小比例进行抽取训练，将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制，实现室内热舒适控制。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于改进型DQN的室内热舒适控制方法，在范格尔教授的PMV评价体系中，影响人体热舒适度的除了相对湿度、温度、空气流速、平均辐射温度这四个客观因素外，人体服装热阻和人体新陈代谢率这两个主观因素也扮演着非常重要的角色。但传统的基于温度的HVAC控制策略只考虑了室内空气温度和室内相对湿度两个因素，而忽略了其他四个因素。在这种控制策略下，HVAC系统维持的并非用户真实所需的热舒适状态，本发明实时采集影响室内热舒适指标PMV的物理环境指标值，能够表示智能体当时的热舒适状态。

进一步的，为四个物理环境指标值更能贴合得表示智能体真实所需的热舒适状态。

进一步的，本发明设计两种表达公式来表示空调系统达到对应舒适程度的控制动作；并且设计空调系统动作空间，从两种表达公式可以看出要使控制空调系统达到舒适状态，采集到的室内热舒适状态模型在控制策略的判断下对应空调系统需要改变空气温度设定点，这样就在设计好的空调系统动作空间下实现空气温度设定点的改变与控制策略进行联动。

进一步的，室内热舒适状态可以将相对湿度、温度、空气流速、平均辐射温度这四个客观因素联合表示智能体所感受到的自身状态，也更精准得、更快得调控温度来达到智能体最舒适的状态；在室内热舒适状态模型的建立下，可以很清楚得看出四个客观因素可以表示出室内热舒适状态。在建立的空调系统动作空间下，可以看出将表示出来的热舒适状态在策略判断后在空调系统动作空间下联动进行调控室内调控温度的动作，这样就及时快速地进行调控温度动作。

进一步的，在采用深度Q网络(DQN)中进行室内热舒适控制时，针对深度Q网络的经验回放机制中存在的“无视样本差异性”和“样本浪费”问题提出基于双经验池的“优先经验”回放算法。

进一步的，将对智能体学习进程有帮助的转移样本进行先期学习和利用，对奖赏值量级大小不同的样本进行了分层采样，这可以有效提高价值较高的转移样本(奖赏为正)的利用率，间接缩短智能体训练所需的时间；在这中间奖励为正的转移序列将被存储于记忆池D1，当时间步为非10的整数倍时，从经验池D1中抽取转移样本。这样就会让奖励为负和零的转移样本与奖励为正的转移样本区分开，且很明显时间步为非10的整数倍的样本要远多于时间步为10的整数倍的转移样本，这样抽取转移样本就对智能体学习进程有帮助的转移样本能进行先期学习和利用。

进一步的，最大程度避免某些转移样本从未被抽取到，却被记忆池避掩的“样本浪费”弊端；会给本经验池中的样本赋予优先级，每个样本优先级的大小与其被抽取到次数有关。每个样本在D1中的优先级会伴随其被抽取次数上涨而降低。

进一步的，本发明是将奖赏值存储在计算机内，这样就不必要把每个转移样本存储起来，达到的效果是一样的，节省计算机的存储空间，并且不会样本浪费。

综上所述，本发明能够使得室内热舒适度指标PMV处于(-1，1)之间的时长增加10％，使室内热舒适水平得到显著提升。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为热舒适控制仿真系统的实现；

图2为本发明方法流程框图；

图3为定温和DQN两种控制策略下室内PMV变化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

请参阅图2，本发明一种基于改进型DQN的室内热舒适控制方法，包括以下步骤：

S1、建立环境感知模型，通过空调系统的传感器实时采集影响室内热舒适指标PMV的物理环境指标值，获取研究房间中的室内温度、室内相对湿度、室内风速、室内黑球温度，采集到的数据为在步骤S3中使用；

相较于传统基于控制空调温度的空调系统而言，不仅考虑到研究房间的室内温度，还考虑到影响人体热舒适度的相对湿度、空气流速、平均辐射温度这三个客观因素。

S2、设计空调系统动作空间，设计的空调系统动作空间用于将空调温度设定点的改变与步骤S5设计的控制策略的判断实现联动；将步骤S3中得到的室内热舒适状态经过控制策略判断下得到空调系统判断动作，随之空调系统控制温度的动作进行动作，这样在步骤S2中得到一系列的控制动作，和对应的PMV热舒适值；

空调系统的控制动作表示为一种系统设定温度的改变，同时，这种空调系统的控制动作也可以表示为采集当前研究房间的状态，进而由控制策略进行处理所做出的判断动作。

设计的空调系统动作空间是为了将空调温度设定点的改变与控制策略的判断实现联动，所以这里是空调系统动作空间。

本发明设计两种表达公式表示空调系统达到对应舒适程度的控制动作；并且设计空调系统动作空间，从两种表达公式看出要使控制空调系统达到舒适状态，采集到的室内热舒适状态模型在控制策略的判断下对应空调系统需要改变空气温度设定点，这样就在设计好的空调系统动作空间下实现空气温度设定点的改变与控制策略进行联动。

同样地，空气温度设定点改变后，在空调系统动作空间的作用下室内的热舒适状态会随之改变，这样就需要继续重新在控制策略下进行重新判断，判断是否符合室内人员的舒适，如符合则继续保持该状态；如不符合将继续在空调系统动作空间的作用下实现联动。

S3、建立室内热舒适状态模型，将步骤S1中采集到的数据表示该建筑模型内室内热舒适状态(即对步骤S1进行状态表示得到步骤S3中的一种室内热舒适状态)；多组采集到的数据表示研究房间内的不同时间段内的热舒适状态情况，将研究房间内的不同时间段内的热舒适状态情况视为室内热舒适状态模型，基于此建立热舒适状态模型，步骤S3热舒适状态公式和表示方法应用于步骤S2中；

室内热舒适状态在本发明中仅想表示某时刻或者某控制动作后的室内热舒适状态，而室内热舒适状态模型是一个大的状态群。

通过步骤S1采集到的室内温度、相对湿度、空气流速、平均辐射温度这四个影响研究房间内人体舒适度的因素，表示当前研究房间的状态；将影响研究房间内人体舒适度的多个因素表示一个研究房间的状态，即将多个因素视为输入层的输入，即为深度Q网络(DQN)输入层的输入。

S4、设计基于双经验池优先经验回放的DQN策略；

S401、设置双经验池

根据实际回报的大小将学习经验依次存储于两个不同的经验池。两个不同经验池中的经验在回放过程中具有不同优先级。

S402、采用优先经验回放策略

智能体优先学习具有较高优先级的记忆池中的经验，同时为了保证学习经验的多样性，每隔一定时间步，智能体将从具有较低优先级的经验池中学习经验。

传统双网络DQN算法的经验回放机制(依赖于从记忆池随机抽取转移样本)，随机抽样模式忽略了记忆池中不同样本之间对智能体学习过程中促进作用的大小(即模式无法将对智能体学习进程有较大帮助的转移样本进行先期学习和利用)，并且计算机的存储空间也是有限的，一些新样本未能被及时利用的话存在被覆盖的可能性，会造成样本浪费。

对于设置的双经验池，将奖赏值量级大小不同的样本进行了分层采样，这可以有效提高价值较高的转移样本(奖赏为正)的利用率，间接缩短智能体训练所需的时间。

S5、设计奖赏函数，将步骤S3建立的室内热舒适状态模型经过步骤S4设计的DQN控制策略判断得到空调系统判断动作，利用步骤S2设计的空调系统动作空间进行动作，得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射，将环境中感知到的状态映射为单独的数值作为奖赏函数(reward)，如果空调系统动作产生的效果符合此刻最优的室内热舒适状态奖赏值就会越大；反之，越小(可以理解进行控制的每一次动作并不是次次都是最优的，所以会有奖赏值的差异)；在深度强化学习网络中，从记忆池的转移序列中抽取转移样本，按照奖赏值的正负零进行划分经验池，按照优先级的大小比例进行抽取训练。当训练达到设定的最大迭代次数就会达到对应的最优空调系统动作，这个最优空调系统动作就与空调系统动作空间进行联动控制，实现室内热舒适控制；

按照函数计算，当执行调控温度后的热舒适状态越接近最舒适状态对于此状态的调控温度动作所得的奖赏值越大，即越接近最优舒适状态奖赏值越大，越不舒适奖赏值越小。在深度强化学习网洛中根据奖赏函数得到的奖赏值分为回放记忆池D1、回放经验池D2中。

目前Q-Learning算法当属强化学习领域主要支柱之一，其核心思想为凭借智能体(判别器Agent)感知研究环境(Environment)中的信息，然后不断反馈优化策略，使得其控制动作(action)能从研究环境(Environment)中获取最大的奖赏值(reward)。

奖赏是对热舒适控制策略性能的评估，当促进房间内的用户处于研究房间内的热舒适时，奖赏值为正值；当阻碍房间内的用户处于研究房间内的热舒适时，奖赏值为负值。

将室内热舒适控制表述为一个强化学习问题，智能体调整室内温度设点(动作)后不断获取室内热环境参数(状态)及人员舒适水平(奖赏)，其目标是随着时间的推移使得人员舒适度维持在较高水平。

S6、将本发明提供方法的控制效果与采用定温控制策略的控制方法进行比对，判定性能的优劣。

请参阅图3，通过不同控制策略下室内PMV变化图看出：

在DQN策略下，智能体在当前空调系统所调控的室内环境所感受到的热舒适更接近于PMV＝0情况下上下波动，在这种状态下智能体会在微冷、微热间徘徊，而人类本是恒温动物，这样在自身调节下更能使自身处于舒适状态。

在定温策略下，智能体在空调系统所调控的室内环境所感受到的热舒适大部分处于(0，1)区间，但还是有一部分超过PMV＝1的水平线，即会让智能体感觉微热并趋向于热。

总结下来就是，在EnergyPlus中进行的模拟显示采用该方法可以使得室内热舒适度指标PMV处于(-1，1)之间的时长增加10％。所以相比于传统定温控制空调系统，在DQN策略下控制空调系统更优。

本发明再一个实施例中，提供一种基于改进型DQN的室内热舒适控制系统，该系统能够用于实现上述基于改进型DQN的室内热舒适控制方法，具体的，该基于改进型DQN的室内热舒适控制系统包括采集模块、动作模块、舒适度模块、函数模块以及控制模块。

其中，采集模块，建立环境感知模型，实时采集影响室内热舒适指标PMV的物理环境指标值；

动作模块，设计空调系统动作空间；

DQN模块，设计基于双经验池优先经验回放的DQN策略；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于改进型DQN的室内热舒适控制方法的操作，包括：

建立环境感知模型，实时采集影响室内热舒适指标PMV的物理环境指标值；设计空调系统动作空间；利用物理环境指标值表示建筑模型内的室内热舒适状态，建立室内热舒适状态模型；设计基于双经验池优先经验回放的DQN策略；将室内热舒适状态模型经DQN控制策略判断得到空调系统判断动作，利用空调系统动作空间进行动作，得到某时刻的室内热舒适状态并和对应时刻的空调系统动作进行映射，将环境中感知到的状态映射为单独的数值作为奖赏函数；根据奖赏函数确定奖赏值，按照优先级的大小比例进行抽取训练，将训练达到最大迭代次数对应的最优空调系统动作与空调系统动作空间进行联动控制，实现室内热舒适控制。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于改进型DQN的室内热舒适控制方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在Sketchup中建立关中农村某住宅模型，该住宅内某房间装有1匹的分体式空调，采用EnergyPlus与PyCharm联合模拟该房间空调在改进型DQN控制策略下的室内热舒适变化，并采用EnergyPlus模拟该房间空调在定温控制策略下的室内热舒适变化。

在EnergyPlus中设定该建筑空调采用定温控制策略，同样基于该模型，在每个时间步(设定的时间间隔)开始时，将从EnergyPlus中读取仿真环境中的热状态，并通过接口写入MySQL，控制代理将从MySQL中读取热状态信息，并进行控制动作，即暖通空调的室内温度新设点。设定点将被写入MySQL，EnergyPlus将通过接口从MySQL中读取设定点，并更新暖通空调的温度设点，如图1所示。

步骤1，建立环境感知模型；

本发明选定以室内PMV指标作为室内环境热舒适性评价标准的间接控制模式，并在分析后确定以室内温度为直接控制参数。在这种控制模式下，系统通过实时监测风速、平均辐射温度、相对湿度来更新系统温度的预设值，通过改变室内温度方式以达到间接调整热舒适这一目标。

通过空调系统的传感器实时采集影响室内热舒适指标PMV的物理环境指标值(室内温度T_in、室内相对湿度H_in、室内风速V_in、室内黑球温度Tmr_in)，人体服装热阻和人体新陈代谢率设为定值。对于人体服装热阻和人体新陈代谢率这两个主观因素，本发明由于人体服装热阻和新陈代谢率具有较强的个体差异性，属于不可控因素，本发明将其设为正常标准值。

步骤2，空调系统动作空间设计；

控制动作是室内空调系统空气温度设定点的改变，控制行为影响室内热状态和居住者的热舒适性，将控制动作表示为：

A_t＝(T_t ^set)

其中，T_t ^set为室内空调系统空气温度设定点，A_t是在时间t采取的动作，控制动作由控制策略和当前状态决定，这种关系表示为：

A_t＝§(S_t)

其中，§是热舒适控制的控制策略。

步骤3，建立室内热舒适状态模型；

状态是每个时间步开始时的当前室内热状态，这种状态极大的影响着室内居住者的舒适度，状态表示为：

S_t＝(T_in,H_in,V_in,Tmr_in)

步骤4，奖赏函数设计；

奖赏是对热舒适控制策略性能的评估，热舒适控制的性能指标主要为室内人员的舒适水平，表示为：

R_t＝(S_t,A_t)

对于步骤2、步骤3和步骤4，将室内热舒适控制表述为一个强化学习问题，智能体调整室内温度设点(动作)后不断获取室内热环境参数(状态)及人员舒适水平(奖赏)，其目标是随着时间的推移使得人员舒适度维持在较高水平，在EnergyPlus中进行的模拟显示采用该方法可以使得室内热舒适度指标PMV处于(-1，1)之间的时长增加10％；即更久得处于PMV＝0的上下波动区间水平。

步骤5，基于双经验池优先经验回放的DQN策略设计；

请参阅图2，具体如下：

(1)设置双经验池

根据实际回报的大小将学习经验依次存储于两个不同的经验池。带有正奖励的转移序列将被存放于具有较高优先级的回放记忆池D1，带有负奖励及零奖励的转移序列将被存放于具有较低优先级的回放记忆池D2。当时间步为10的整数倍时，从经验池D2中随机抽取转移样本。当时间步非10的整数倍时，从经验池D1中抽取转移样。为最大程度避免某些转移样本从未被抽取到，按照优先级抽取转移样本。

(2)采用优先经验回方法

优先经验回放方法在转移序列中同时记录每个样本在智能体训练过程中被使用的次数，并用N_i表示该采样次数。

样本优先级更新公式和每个样本从记忆池中被抽到的概率为：

其中，p_j表示第j个样本被选中的概率；所有样本被选中的概率在初始时是相等的，N_i表示第i个样本累计被选中的次数；r_i为第i个样本的奖赏值。

当第i个样本被选择后，该样本被选中概率会因为Ν_j出现在分母项上而随着时间步而逐渐降低。

步骤6，将本发明提供方法的控制效果与采用定温控制策略的控制方法进行比对，判定性能的优劣，结果图示如图3所示。

本发明以关中某农村住宅为研究对象，在冬季进行了室内的现场热环境测试与人体热舒适调查，对实验现场采集到的热环境数据与人体热舒适数据完成了分析研究。将室内热舒适控制问题与一个强化学习过程相对应，提出了以双网络DQN为核心工具的室内热舒适控制方法。从图3结果可以看出以双网络DQN为核心工具的室内热舒适控制方法相较于以定温策略的室内热舒适控制方法更优。

综上所述，本发明一种基于改进型DQN的室内热舒适控制方法及系统具有以下特点：

能够解决房间内的用户往往在热应激反应和滞后性控制效果的双重作用下，过分调高或调低HVAC系统的设定温度，可以达到满意的室内热环境，也会使系统能耗减少；

考虑了影响人体热舒适度的除了相对湿度、温度、空气流速、平均辐射温度这四个客观因素，在这种控制策略下，HVAC系统维持的可以更多地趋向于用户真实所需的热舒适状态；

采用了基于双经验池优先经验回放的DQN策略设计，高效地利用智能体学习过程中的学习经验，此部分将学习经验按照奖励大小的不同存储于具有不同优先级的经验池，加快智能体的学习速度；

具有较高优先级的经验池中的经验在回放过程中采用优先经验回放策略，具有较低优先级的经验池中的经验在回放过程中采用随机经验回放策略。既保证了智能体学习过程中经验的多样性，也保证了学习的针对性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于改进型DQN的室内热舒适控制方法，其特征在于，包括以下步骤：

S2、设计空调系统动作空间；

S4、设计基于双经验池优先经验回放的DQN控制策略；

2.根据权利要求1所述的方法，其特征在于，步骤S1中，物理环境指标值包括室内温度、室内相对湿度、室内风速和室内黑球温度。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，空调系统在时间t采取的动作A_t为：

A_t＝§(S_t)

4.根据权利要求1所述的方法，其特征在于，步骤S3中，室内热舒适状态模型中的一种室内热舒适状态S_t为：

S_t＝(T_in,H_in,V_in,Tmr_in)

5.根据权利要求1所述的方法，其特征在于，步骤S4中，基于双经验池优先经验回放的DQN控制策略具体为：

6.根据权利要求5所述的方法，其特征在于，两个不同的经验池中，带有正奖励的转移序列被存放于回放记忆池D1；带有负奖励及零奖励的转移序列被存放于回放经验池D2；当时间步为非10的整数倍时，从回放记忆池D1中抽取转移样本；当时间步为10的整数倍时，采用随机抽取的方式从回放经验池D2中抽选转移样本。

7.根据权利要求5所述的方法，其特征在于，第j个样本被选中的概率p_j为：

8.根据权利要求1所述的方法，其特征在于，步骤S5中，奖赏函数R_t为：

R_t＝(S_t,A_t)

其中，S_t为室内热舒适状态模型，A_t为空调系统动作空间。

9.一种基于改进型DQN的室内热舒适控制系统，其特征在于，包括：

动作模块，设计空调系统动作空间；

DQN模块，设计基于双经验池优先经验回放的DQN策略；