CN114110824B - 一种恒湿机智能控制方法及装置 - Google Patents

一种恒湿机智能控制方法及装置 Download PDF

Info

Publication number
CN114110824B
CN114110824B CN202111295458.0A CN202111295458A CN114110824B CN 114110824 B CN114110824 B CN 114110824B CN 202111295458 A CN202111295458 A CN 202111295458A CN 114110824 B CN114110824 B CN 114110824B
Authority
CN
China
Prior art keywords
humidity
value
network
action
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111295458.0A
Other languages
English (en)
Other versions
CN114110824A (zh
Inventor
张勇
郭达
罗丹峰
孙蕴琪
张晨曦
袁思雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111295458.0A priority Critical patent/CN114110824B/zh
Publication of CN114110824A publication Critical patent/CN114110824A/zh
Application granted granted Critical
Publication of CN114110824B publication Critical patent/CN114110824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F3/00Air-conditioning systems in which conditioned primary air is supplied from one or more central stations to distributing units in the rooms or spaces where it may receive secondary treatment; Apparatus specially designed for such systems
    • F24F3/12Air-conditioning systems in which conditioned primary air is supplied from one or more central stations to distributing units in the rooms or spaces where it may receive secondary treatment; Apparatus specially designed for such systems characterised by the treatment of the air otherwise than by heating and cooling
    • F24F3/14Air-conditioning systems in which conditioned primary air is supplied from one or more central stations to distributing units in the rooms or spaces where it may receive secondary treatment; Apparatus specially designed for such systems characterised by the treatment of the air otherwise than by heating and cooling by humidification; by dehumidification
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/50Control or safety arrangements characterised by user interfaces or communication
    • F24F11/61Control or safety arrangements characterised by user interfaces or communication using timers
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/20Humidity

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Fuzzy Systems (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明提供一种恒湿机智能控制方法及装置,所述方法通过分布在大空间内的湿度传感器检测环境的湿度值,并基于智能控制器控制分布在大空间内的恒湿机工作以控制湿度稳定,所述方法基于强化学习的方式更新智能控制器的策略得到对恒湿机的控制模型,在强化学习过程中,利用所有湿度传感器检测到的湿度与目标设定值的欧氏距离计算出平均绝对湿度差,测量恒湿机的功耗,基于平均绝对湿度差和功耗定义了各时间步的动作参数对应的奖励值,引入了对湿度均匀性和风机功耗的评价,能够使强化学习训练得到的模型实现对大空间内湿度稳定性的控制,并极大减小功耗。

Description

一种恒湿机智能控制方法及装置
技术领域
本发明涉及电子设备控制技术领域,尤其涉及一种恒湿机智能控制方法及装置。
背景技术
博物馆内一般存放书画、青铜器、雕塑等珍贵的文物,不同类型文物存放的环境不太一样。在存放以及展览过程中,如果存放的环境差,文物容易被造成开裂、翘曲、收缩和剥落等破坏。在不适当的条件下,青铜器会喷发出绿色的粉末腐蚀物,而在高湿度的夏季,纸质物品有时会长满霉菌。在木材或象牙雕塑可能会出现长裂纹,而皮革,羊皮纸经常起皱或撕破,其中影响最主要的因素是湿度。不同藏馆的文物湿度环境要求不大一样,但大多数湿度首选范围是40%-60%左右。对于像书画,皮革,羊皮纸等特定的文物,对特定的环境条件比其他材料更敏感,因此它们需要存储在一个相对稳定的环境中,必须尽量减少波动,因此控制湿度均匀性和稳定性显得十分重要。
目前针对建筑的温湿度环境控制提出许多方法,有的是通过控制空调和风机的工作,确保建筑内的环境满足生产环境以及人体舒适度,有的通过控制风机频率变化的序列满足用户舒适度和维持能源效率,还有些是基于数据驱动方法来控制建筑暖通的空调系统。大部分文献都是对单独的建筑区域整体进行能耗分析,而没有考虑建筑区域内部气体气流的变化对环境的影响,从而忽视湿度的均匀性。同时现有技术对于湿度控制的过程中,并没有考虑到风机的能耗问题。
发明内容
本发明实施例提供了一种恒湿机智能控制方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,以解决现有技术无法在保障低能耗的基础上均匀控制大空间内各处湿度的问题。
本发明的技术方案如下:
一方面,本发明提供一种恒湿机智能控制方法,所述方法在智能控制器上运行,所述智能控制器连接指定空间内的分布式的多个湿度传感器和多个恒湿机,所述方法包括:
获取各湿度传感器按照设定时间间隔采集得到的湿度值序列作为状态空间的状态参数,以及各恒湿机对应的湿度设定值序列和风档设定值序列作为动作空间的动作参数;
采用预设强化学习模型根据各时间步状态参数确定输出相应的动作参数,并获取各时间步对应动作参数下各恒湿机的功耗,根据所有湿度传感器实际检测到的湿度与目标设定值的欧氏距离计算出平均绝对湿度差,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值,采用回放缓存区存储各时间步对应的状态参数、动作参数、功耗、奖励值和目标湿度值;
在强化学习过程中,所述预设强化学习模型按照优先级对回放缓存区中的经验数据进行采样,采用神经网络拟合所选择的动作参数的所述奖励值,所述神经网络模型设置本地网络用于计算当前时间步的预测价值并选择预测价值最高的动作参数,设置目标网络用于计算下一时间步的目标价值,所述本地网络与所述目标网络的结构相同,每间隔设定时长将所述本地网络的参数更新至所述目标网络;并且所述神经网络将动作参数的预估奖励值分解为仅与状态有关的值函数部分以及与状态和动作均相关的优势函数部分,还引入高斯噪声进行采样干扰;基于所述预测价值、所述目标价值以及未来多个时间步的奖励值构建损失函数,以最大化各时间步动作参数对应奖励值之和为优化目标进行学习直至收敛。
在一些实施例中,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值之前,还包括:
对各时间步对应的功耗进行标准化处理,得到单位时间内的相对功耗RPt,计算式为:
Figure SMS_1
其中,FPt (i)为t时间步第i个恒湿机的功耗,FPmax、FPmin分别为恒湿机功率的最大值和最小值;
定义可调的缩放参数NS,将所述平均绝对湿度差与所述缩放参数NS相除进而缩放至一个合适的区间,计算式为:
Figure SMS_2
Figure SMS_3
其中,Hmax、Hmin分别为恒湿机湿度设定值的最大值和最小值,Hgoal为所述目标湿度值,
Figure SMS_4
为第t时间步各湿度传感器的平均绝对湿度差。
在一些实施例中,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值,计算式为:
Figure SMS_5
其中,α、β分别为平均绝对湿度差和风扇功耗的权重比例系数。
在一些实施例中,所述预设强化学习模型按照优先级对回放缓存区中的经验数据进行采样,包括:
获取各时间步状态参数的误差TD-error,各经验数据被选择的概率pt正比于所述TD-error,表达式为:
Figure SMS_6
其中,Rt+1为t+1时间步的奖励值,γt+1为t+1时间步的折扣因子,St+1为t+1时间步的状态参数,a′为在状态St+1下基于本地网络策略选择最大价值对应的动作,St为t时间步的状态参数、At为在状态St下的动作,
Figure SMS_7
为所述目标网络输出的价值,qθ(St,At)为所述本地网络输出的价值,ω为优先级指数。
在一些实施例中,每间隔设定时长将所述本地网络的参数更新至所述目标网络,包括:
利用所述本地网络和所述目标网络参数的凸组合对所述目标网络的参数进行软更新,所述目标网络的更新频率为1,更新表达式为:
Qt←τ×Ql+(1-τ)×Qt
其中,τ是更新系数,Ql为所述本地网络,Qt为所述目标网络。
在一些实施例中,基于所述预测价值 、所述目标价值 以及未来多个时间步的奖励值构建损失函数,包括:
定义未来n个时间步的回报总和
Figure SMS_8
的公式为:
Figure SMS_9
其中,
Figure SMS_10
表示第t时间步之后第k个时间步的折扣因子,Rt+k+1表示t+k+1时间步的奖励值,n为计算的时间步的数量;
设置Loss损失函数为:
Figure SMS_11
其中,
Figure SMS_12
表示第n*时间步的折扣因子,
Figure SMS_13
表示在未来第n*状态
Figure SMS_14
下选择最大价值对应的动作a′,
Figure SMS_15
是在状态
Figure SMS_16
下执行动作a′得到目标价值,qθ(St,At)表示本地网络输出的预测价值。
在一些实施例中,所述神经网络将动作参数的预估奖励值分解为仅与状态有关的状态价值部分以及与状态和动作均相关的优势函数部分,还引入高斯噪声进行采样干扰,包括:
将Dueling-DQN网络与Noisy-DQN网络结合得到Noisy Dueling网络,所述本地网络和所述目标网络军采用Noisy Dueling网络。
在一些实施例中,所述方法还包括:采用总能耗指标EC、抗干扰能力指标FV、均匀性指标D、平均湿度均匀偏离度指标UF以及回报总和指标∑R衡量所述智能控制器的性能,计算式如下:
Figure SMS_17
其中,Δt为时间间隔,
Figure SMS_18
表示t时间步第i个恒湿机的功耗,m为恒湿机数量,L 为时间步的数量;
Figure SMS_19
其中,
Figure SMS_20
为第t时间步各湿度传感器的平均绝对湿度差,T为时长;
Figure SMS_21
其中,
Figure SMS_22
表示第i个湿度传感器在t时刻的湿度值,
Figure SMS_23
表示t时刻所有湿度传感器检测到的湿度的平均值;
Figure SMS_24
Figure SMS_25
其中,γt′为t′时间步的折扣因子,Rt+t′(St+t′,At+t′)表示状态参数St+t′下动作At+t′的奖励值。
另一方面,本发明还提供一种湿度智能控制系统,包括:
在设定空间内分布式设置的多个湿度传感器和多个恒湿机;
智能控制器,连接所有湿度传感器用于获取湿度值,并连接所有恒湿机用于根据上述恒湿机智能控制方法控制所述设定空间内的湿度。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的有益效果至少是:
所述恒湿机智能控制方法及装置中,所述方法通过分布在大空间内的湿度传感器检测环境的湿度值,并基于智能控制器控制分布在大空间内的恒湿机工作以控制湿度稳定,所述方法基于强化学习的方式更新智能控制器的策略得到对恒湿机的控制模型,在强化学习过程中,利用所有湿度传感器检测到的湿度与目标设定值的欧氏距离计算出平均绝对湿度差,测量恒湿机的功耗,基于平均绝对湿度差和功耗定义了各时间步的动作参数对应的奖励值,引入了对湿度均匀性和风机功耗的评价,能够使强化学习训练得到的模型实现对大空间内湿度稳定性的控制,并极大减小功耗。同时,采用神经网络拟合所选择的动作参数的预估奖励值,以适应对大空间湿度进行调控场景下连续的状态空间;通过按照优先级对回放缓存区中的经验数据进行采样学习,能够使模型更多关注回访缓存区中状态值估计的误差较大的经验数据;通过设置本地网络和目标网络将动作选择和价值估计分开,避免价值过高估计;通过将动作参数的预估奖励值分解为状态价值和优势函数,所述神经网络模型还引入高斯噪声进行采样干扰,构建Noisy Dueling网络结构,能够更快的收敛并且增加模型的探索能力。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述恒湿机智能控制方法中强化学习过程的逻辑示意图;
图2为本发明一实施例中采用的房间环境模型A中恒湿机、出入口和湿度监测点布局图;
图3为本发明一实施例采用的房间环境模型B中吊顶管道式送风口、回风口和出入口布局图;
图4为本发明一实施例所述恒湿机智能控制方法中采用的神经网络结构图;
图5为本发明一实施例采用的房间环境模型中传感器位置分布图;
图6为无干扰模式下各调控策略在模型A中的平均绝对湿度差和功耗对比图;
图7为干扰模式下各调控策略在模型A中的平均绝对湿度差和功耗对比图;
图8为无干扰模式下各调控策略在模型B中的平均绝对湿度差和功耗对比图;
图9为干扰模式下各调控策略在模型B中的平均绝对湿度差和功耗对比图;
图10为单干扰模式下CCS策略、低档位策略、中档位、高档位以及6个点RH-rainbow策略、9个点RH-rainbow策略和15个点RH-rainbow策略的平均绝对湿度差下降曲线图;
图11为多干扰模式下CCS策略、低档位策略、中档位、高档位以及6个点RH-rainbow策略、9个点RH-rainbow策略和15个点RH-rainbow策略的平均绝对湿度差下降曲线图;
图12为无干扰模式下1分钟、3分钟和5分钟上报时间对应的CCS策略、低档位策略、中档位、高档位以及RH-rainbow策略的平均绝对湿度差下降曲线和功耗对比图;
图13为干扰模式下1分钟、3分钟和5分钟上报时间对应的CCS策略、低档位策略、中档位、高档位以及RH-rainbow策略的平均绝对湿度差下降曲线和功耗对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
强化学习是机器学习领域的一个分支。强化学习通过不断试错的方式进行学习,得到的奖励作为参考,不断地调整策略,最终获得最大的奖励。深度强化学习是深度学习和强化学习的结合产物,用复杂的神经网络去近似强化学习的Q-Learning的Q-table的方法,更好的适用于动作空间和状态空间庞大的情况,因此有不少研究者将深度强化学习应用于智能建筑领域。目前有些控制方法考虑的是人体舒适度,然而人体舒适度适合的温湿度范围大,对湿度控制方面也达不到博物馆所需要的均匀和稳定。目前针对湿度环境控制都是基于规则和专家经验,并没有智能化的控制方式。现有技术中没有对建筑区域内的湿度进行单独的控制的先例,更没有关于大空间内湿度均匀性控制的要求,单一的恒湿机控制广阔的区域湿度均匀是非常困难的,而且现有技术中也没有考虑外界干扰气流的情况。因此需要一个有效的控制方法来满足博物馆湿度均匀、节能以及抗干扰能力。
具体的,本实施例提供一种恒湿机智能控制方法,所述方法在智能控制器上运行,智能控制器连接指定空间内的分布式的多个湿度传感器和多个恒湿机,参照图1,所述方法包括步骤S101~S103:
需要强调的是,本实施例中所述的步骤S101~S103并不是对步骤先后顺序的限定,应当理解为,在各步骤可以调换先后顺序或并行。
步骤S101:获取各湿度传感器按照设定时间间隔采集得到的湿度值序列作为状态空间的状态参数,以及各恒湿机对应的湿度设定值序列和风档设定值序列作为动作空间的动作参数。
步骤S102:采用预设强化学习模型根据各时间步状态参数确定输出相应的动作参数,并获取各时间步对应动作参数下各恒湿机的功耗,根据所有湿度传感器实际检测到的湿度与目标设定值的欧氏距离计算出平均绝对湿度差,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值,采用回放缓存区存储各时间步对应的状态参数、动作参数、功耗、奖励值和目标湿度值。
步骤S103:在强化学习过程中,预设强化学习模型按照优先级对回放缓存区中的经验数据进行采样,采用神经网络拟合所选择的动作参数的所述奖励值,神经网络模型设置本地网络用于计算当前时间步的预测价值并选择预测价值最高的动作参数,设置目标网络用于计算下一时间步的目标价值,本地网络与目标网络的结构相同,每间隔设定时长将所述本地网络的参数更新至所述目标网络;并且神经网络将动作参数的预估价值分解为仅与状态有关的值函数部分以及与状态和动作均相关的优势函数部分,还引入高斯噪声进行采样干扰;基于预测价值、目标价值以及未来多个时间步的奖励值构建损失函数,以最大化各时间步动作参数对应奖励值之和为优化目标进行学习直至收敛。
在步骤S101中,智能控制器获取各湿度传感器采集的湿度值,具体的,湿度传感器按照指定间隔均匀分布在指定空间内或根据实际场景的需求设置在指定空间内的特定位置。各传感器按照设定间隔时长采集相应位置的湿度值,每个时间步采集的各湿度值作为状态参数构成状态空间。智能控制器进一步通过调节湿度设定值和风档设定值控制恒湿机进行湿度调节,所以恒湿机的各湿度设定值和风档设定值作为控制动作,形成动作空间。
在步骤S102中,基于预设的强化学习模型进行学习和控制各恒湿机的湿度设定值和风档设定值,在每个时间步可以通过对每个恒湿机单独设置电表以检测和计算功耗,这里需要说明的是,本步骤采用每个时间步实际检测到的最终状态和数据计算实际的奖励值。每个时间步所产生的所有数据均存储在回放缓存区中作为经验数据,所有数据包括实际环境中的数据,以及强化学习模型预测的数据。
在一些实施例中,步骤S102中,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值之前,还包括:
对各时间步对应的功耗进行标准化处理,得到单位时间内的相对功耗RPt,计算式为:
Figure SMS_26
其中,FPt (i)为t时间步第i个恒湿机的功耗,FPmax、FPmin分别为恒湿机功率的最大值和最小值;
定义可调的缩放参数NS,将所述平均绝对湿度差与所述缩放参数NS相除进而缩放至一个合适的区间,计算式为:
Figure SMS_27
Figure SMS_28
其中,Hmax、Hmin分别为恒湿机湿度设定值的最大值和最小值,Hgoal为所述目标湿度值,
Figure SMS_29
为第t时间步各湿度传感器的平均绝对湿度差。
在一些实施例中根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值,计算式为:
Figure SMS_30
其中,α、β分别为平均绝对湿度差和风扇功耗的权重比例系数。
在步骤S103中,针对指定空间内湿度的调控过程,其状态空间和动作空间是连续的,传统Q-learning的Q值表是离散的,并不适用。因此,本申请中采用神经网络替代Q值表,对状态动作的Q值进行拟合,并通过更新神经网络的参数使Q值逼近最有Q值。
具体的,采用回放缓存区存储的过去的经验数据进行学习,为了引入经验数据的重要性,提高采样学习率,本实施例基于TD-error选取回放缓存区中的经验数据,TD-error越大,选择的概率越高。具体的,TD-error为状态参数St的未来估计V(St)与更好估计Rt+1+γV(St+1)的差值,Rt+1为t+1时间步的奖励,γ为折扣因子。每个时间步的TD- error就是该时间步状态值估计的误差,该时间步对应经验数据的采样概率就正比于该时间差。
在本实施例中,预设强化学习模型按照优先级对回放缓存区中的经验数据进行采样,包括:获取各时间步状态参数的误差TD-error,各经验数据被选择的概率pt正比于TD-error,表达式为:
Figure SMS_31
其中,Rt+1为t+1时间步的奖励值,γt+1为t+1时间步的折扣因子,St+1为t+1时间步的状态参数,a′为基于本地网络在状态St+1下选择最大价值对应的动作,St为t时间步的状态参数、At为状态St下选择的动作,
Figure SMS_32
为所述目标网络输出的奖励值,qθ(St,At)为所述本地网络输出的奖励值,ω为优先级指数。
进一步的,为了避免对奖励值的过高估计,本申请中的神经网络同时构建了本地网络和目标网络,用于将动作选择和奖励值(即Q值)的计算进行解耦,本地网络和目标网络的结构相同,都是以状态参数作为输入以奖励值(即Q值)作为输出,对于当前已知的状态St,由本地网络基于完全贪婪算法选择Q值最大的动作,假设为动作为a1,奖励值为Q(St,a1),将动作输入环境中可以得到下一时间步的状态St+1,将下一时间步的状态参数St+1输入目标网络,并找到a1对应的Q值Q(St+1,a1),最后以本地网络的预测作为预测值,以Rt+1+γQ(St+1,a1)作为实际值,进行误差反向传播。loss函数可以选择方差等,将其作为一个监督学习即可。每过一段时间后,将本地网络中的参数按照软更新方式更新目标网络。
进一步的,每间隔设定时长将本地网络的参数更新至目标网络包括:
利用本地网络和目标网络参数的凸组合对目标网络的参数进行软更新,目标网络的更新频率为1,更新表达式为:
Qt←τ×Ql+(1-τ)×Qt; (6)
其中,τ是更新系数,Ql为本地网络,Qt为目标网络。
所述神经网络将动作参数的预估奖励值分解为仅与状态有关的状态价值部分以及与状态和动作均相关的优势函数部分,还引入高斯噪声进行采样干扰;其中,神经网络考虑将Q网络分成两部分,第一部分是仅仅与状态S有关,与具体要采用的动作A无关,这部分叫做值函数部分,记做V(S),第二部分同时与状态S和动作A有关,这部分叫做优势函数部分,记为A(S,A),那么最终的价值函数可以重新表示为:
Q(S,A)=V(S)+A(S,A); (7)
在网络中加入高斯噪声中进行采样扰动,其目的是执行采样干扰并增强智能体探索环境的能力。
具体的,在一些实施例中,神经网络将动作参数的预估奖励值分解为仅与状态有关的值函数部分以及与状态和动作均相关的优势函数部分,还引入高斯噪声进行采样干扰,包括:将Dueling-DQN网络与Noisy-DQN网络结合得到Noisy Dueling网络,所述本地网络和所述目标网络均采用Noisy Dueling网络。
在一些实施例中,基于预测价值 、目标价值 以及未来多个时间步的奖励值构建损失函数,包括:
定义未来n个时间步的回报总和
Figure SMS_33
的公式为:
Figure SMS_34
其中,
Figure SMS_35
表示第t时间步之后第k个时间步的折扣因子,Rt+k+1表示t+k+1时间步的奖励值,n为计算的时间步的数量;
设置Loss损失函数为:
Figure SMS_36
其中,
Figure SMS_37
表示t+1时间步的折扣因子,
Figure SMS_38
表示基于本地网络在未来第n*状态
Figure SMS_39
下选择最大价值对应的动作a′,
Figure SMS_40
是基于目标网络在状态
Figure SMS_41
下执行动作a′得到目标价值,qθ(St,At)表示基于本地网络在状态St下执行价值最高的动作At得到本地价值。
在一些实施例中,所述方法还包括:采用总能耗指标EC、抗干扰能力指标FV、均匀性指标D、平均湿度均匀偏离度指标UF以及回报总和指标∑R衡量所述智能控制器的性能,计算式如下:
Figure SMS_42
其中,Δt为时间间隔,
Figure SMS_43
表示t时间步第i个恒湿机的功耗,m为恒湿机数量,L 为时间步的数量;
Figure SMS_44
其中,
Figure SMS_45
为第t时间步各湿度传感器的平均绝对湿度差,T为时长;
Figure SMS_46
其中,
Figure SMS_47
表示第i个湿度传感器在t时刻的湿度值,
Figure SMS_48
表示t时刻所有湿度传感器检测到的湿度的平均值;
Figure SMS_49
Figure SMS_50
其中,γt′为t′时间步的折扣因子,Rt+t′(St+t′,At+t′)表示状态参数St+t′下动作At+t′的奖励值。
另一方面,本发明还提供一种湿度智能控制系统,包括:
在设定空间内分布式设置的多个湿度传感器和多个恒湿机;
智能控制器,连接所有湿度传感器用于获取湿度值,并连接所有恒湿机用于根据上述步骤S101~S103所述的恒湿机智能控制方法控制设定空间内的湿度。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
下面结合具体实施例对本发明进行说明:
本实施例提供一种湿度智能控制系统,包括分多个布式传感器、智能控制器以及多个分布式恒湿机,智能控制器连接所有传感器用于获取湿度值,智能控制器并连接所有恒湿机用于控制湿度。
分布式传感器,在环境中分布着多个监测点,这些监测点可以是稀疏的也可以是密集的,排列方式需要根据实际环境来排列。分布式传感器每隔一段时间就读取房间内的环境状况,通过物联网等设备与智能控制器连接,分布式传感器将收集到的数据发送给智能控制器进行动作选择。
智能控制器,可以看作是强化学习中的智能体,它的内部是智能控制算法。智能控制器与环境交互并获得一系列经验。然后根据历史的试错经验,智能控制器学习策略,选择最佳动作,并将设定点发送到环境中的多个设施。目标设定点代表环境的最终目标。
分布式恒湿机,与房间环境相连接的多个设备。这些设备通过修改设置参数的方式更改出风口的参数。
湿度智能控制系统设置在房间环境内,将展厅或仓库看作一个环境,使用一个或多个参数来表示环境的状态,如温度、湿度、二氧化碳浓度等。
分布式传感器每隔相同的时间获取房间环境多个传感器的参数,然后把环境中的参数传给智能控制器。智能控制器可以通过学习后的算法得出选择的动作,然后通过命令发送给不同的控制设备。分布式设备接受到命令后,执行对应的动作。最终环境中的参数发生变化。在控制过程中,智能控制器可以收集相关数据,进行学习并更新内部策略。随着智能体与环境的不断地进行交互,智能控制器逐渐学习到更好的策略。
对系统模型和问题进行描述:
1.环境:针对博物馆文物保护环境进行应用,提出的模型基于一个离散的时间序列, t代表步数(step),Δt作为时间间隔。由于湿度对于文物影响是最主要的,把湿度单独作为环境的参数,把t时刻下房间环境的湿度表示为Ht
2.分布式设备的设定值:智能体控制器通过改变分布式控制设备设定值从而改变房间环境。因此用
Figure SMS_51
表示智能体在t时刻学习到的湿度设定值。还定义一个控制器的目标值Hgoal表示房间环境最终需要到达的目标。
3.湿度差指标:需要一个指标表示环境的湿度是否达到目标并且均匀,而欧式距离通常表示的是两点之间的距离。因此可以将房间环境的传感器监测的状态Ht与目标值Hgoal之间的差定义为绝对湿度差。在t时刻,n个湿度监测点与目标设定值的绝对湿度差:
Figure SMS_52
在这基础上,对n个湿度点的绝对湿度差求平均数,表示平均绝对湿度差。
Figure SMS_53
把平均绝对湿度差(Mean absolute difference of humidity)表示空气环境的湿度差指标。
4.实验设备的功率:实恒湿机的功率可以通过单独的电表去精确测量。在这里,采用恒湿机在不同风扇档位和湿度设定值下的平均功率作为功耗指标。
5.问题描述:将房间环境中分布式设备的能耗和空气环境的稳定性指标作为一个强化学习问题,目标是随着训练时间的不断增加让模型的回报学习到最大值。
状态:状态可以用房间内的湿度值来表示。假设房间内有n个均匀分布的湿度传感器监测点,它们用于采集测量房间内湿度值的分布情况,每隔t秒向智能体控制器上传一次湿度值。房间内t时刻第i个点的湿度值用
Figure SMS_54
表示,多个监测点湿度表示为
Figure SMS_55
因此可以将状态表示为:
St=Ht; (17)
动作:控制动作是恒湿机设备出风口的参数的设定值,包含湿度和风扇档位两部分。 t时刻,第i个恒湿机湿度设定值为
Figure SMS_56
它的风扇档位设定值为
Figure SMS_57
m个恒湿机湿度设定值
Figure SMS_58
m个风扇档位设定值为
Figure SMS_59
因此恒湿机在t时刻出风口参数的设定值可以表示为:
At=(RHt,FSt); (18)
如果某个恒湿机有g个湿度档位设定值,q个风扇档位设定值,
Figure SMS_60
不同的风扇档位的功率各不相同 FP∈{fp0,fp1,...,fpq-1},例如fs0档位功率为fp0,在t时刻,第i个恒湿机的功率为FPt i,那么m个恒湿机的动作取值的维度有gmqm
奖励:根据前面的内容,优化目标包括两部分,一部分是多个湿度监测点平均绝对湿度差
Figure SMS_61
另一部分是恒湿机风扇功耗FP。由于奖励中的平均绝对湿度差
Figure SMS_62
和风扇功率FP的数量级不一样,它们通过计算得到的结果可能会出现一边的值远大于另一边。reward数值过大过小可能会造成训练过程中网络梯度爆炸或者网络无法收敛的情况。解决上述难题常见的一种方法是对每部分奖励先进行放缩到合适的区间,再进行加权和。
首先对功率FP进行Min-max标准化,得到单位时间内的相对功率RPt,如式1:
Figure SMS_63
其中,FPt (i)为t时间步第i个恒湿机的功耗,FPmax、FPmin分别为恒湿机功率的最大值和最小值;
其次,定义一个可调节的放缩参数NS,让平均绝对湿度差
Figure SMS_64
与NS相除进而放缩到一个合适的区间[C1,C2].实验中设计的调节参数NS,以及t时刻经过NS放缩过后的 RH′t如下所示:
Figure SMS_65
Figure SMS_66
其中,Hmax、Hmin分别为恒湿机湿度设定值的最大值和最小值,Hgoal为所述目标湿度值,
Figure SMS_67
为第t时间步各湿度传感器的平均绝对湿度差。
在设计奖励函数过程中,分别在平均绝对湿度差和风扇功耗的前面乘一个权重比例系数。为了更好地训练模型,在前面添加负号,表示惩罚奖励。公式如式4:
Figure SMS_68
其中,α、β分别为平均绝对湿度差和风扇功耗的权重比例系数(α+β=1),意味着每部分组成的重要性。当
Figure SMS_69
时,平均绝对湿度差在放缩NS的范围内,说明模型训练的差距在“可视”范围内。为了表示合适的目标差距,把区间范围放缩到[-1,0]之间。如果不在“可视”范围内,说明执行的动作带来的影响远远偏离目标,因此都看作为-1(最差的奖励)。这样做的好处是一方面动作对环境的影响达到比较好的情况下给出适合的奖励,让奖励变得不是稀疏也不过于密集;另一方面是避免在密集的奖励中,不同的状态动作对带来相近的回报。
6.优化目标:深度强化学习的目标是最大化当前期间的累计折扣回报。因此,智能体获得了最优的湿度控制策略。因此目标函数∑R表示为式14:
Figure SMS_70
其中,γ∈[0,1]为折扣因子。
模型设计,按照前面的需求,模拟一个博物馆展厅的两种不同的环境模型:
模型A:为了模拟一个博物馆展厅的湿度环境,在仿真软件中建立一个房间环境A,空间的大小是12×8×3m3,展厅墙壁使用的是绝热材料,因此房间环境与外界是无热交换的。如图2(a)所示,展厅的入口(InletDoor)和出口(OutletDoor)设定在展厅的前后侧正中央,在模型的中央,摆放了两个文物架(图中两个虚拟的隔板区域),文物的隔板区域是从顶部贯穿到地面,两个文物架之间有等宽的三条走廊,每条走廊的尽头放置一台独立式恒湿机,整个房间环境共三台(型号相同的三台恒湿机InletRHa、 InletRHb和InletRHc),但三台恒湿机摆放不在同一条直线上。如图2(b)所示,房间内部均匀分布着21个湿度监测点,用于监测环境的湿度值。房间的初始环境是温度为25 摄氏度,湿度为50%,目标设定值是40%(Hgoal=40)。
模型B:为了验证模型的泛化性,建立了房间环境B,房间环境的位置布局和模型A是一致的,不同的是使用的恒湿机是吊顶管道式恒湿机,送风口位置(InletTa、InletTb 和InletTc)在走廊的顶部,如图3所示,回风口(InletRHa、InletRHb和InletRHc)在走廊的尽头,采用顶部送风底部回风的一种模式。
算法设计:由于实验的动作状态对空间庞大,传统基于Q-table经验存储的强化学习难以表示所有的经验,因此选用rainbow算法,rainbow算法是整合dqn的六种变体的一个算法,而且rainbow算法中复杂的神经网络能近似强化学习Q-table方法,可以更好的适用于动作空间和状态空间庞大的情况。在前文的基础上,本实施例对rainbow算法的 reward重新设计,后面都称RH-rainbow算法,算法各部分如下:
定义的未来多步的回报公式8作为对未来的奖励,定义Loss损失函数如下式9:
Figure SMS_71
Figure SMS_72
qθ(St,At)是本地Q值,目标Q值是根据当前n步奖励
Figure SMS_73
和目标Q网络
Figure SMS_74
获得的。损失函数是本地Q值与目标Q值之差的平方。
由于传统的mini-batch均匀采样学习效率低,忽略了经验的重要程度,而经验优先回放机制根据“TD-error”进行选取数据,“TD-error”越大,选择的概率pt越高,从而加快模型的收敛,提高了学习的效率:
Figure SMS_75
基于Dueling networks的结构对每个状态的状态动作的价值进行估计,将值函数vη和在所选动作中具有零优势的优势函数aψ组合在一起。该操作解决了可识别性问题,提高了优化的稳定性。
Figure SMS_76
其中,ξ、η、和ψ分别为共享网络fξ、值函数vη和优势函数aψ的参数。
Figure SMS_77
是计算优势函数aψ在所有动作上的均值,Nactions表示智能体动作的维度。
基于Noisy Nets的结构在网络中加入高斯噪声中进行采样扰动,其目的是执行采样干扰并增强智能体探索环境的能力。
y=(b+Wx)+(bnoisy⊙∈b+(Wnoisy⊙∈w)x); (20)
参数b,W,bnoisy和Wnoisy都是可学习的网络参数,∈b和∈w是随机变量,⊙表示元素的乘积,然后可以使用此转换来代替标准的线性y=b+Wx。随着训练的进行,网络可以学会忽略噪声流,并允许以自退火的形式进行状态条件探索。
Dueling网络与Noisy网络结合形成图中的Noisy Dueling网络,如图4所示。本地网络和目标网络均采用Noisy Dueling网络。
一种软更新方法是利用本地网络和目标网络参数的凸组合作为新目标网络的参数。为确保在每次迭代中更新目标网络,目标网络的更新频率为1。软更新根据如公式6进行更新。
Qt←τ×Ql+(1-τ)×Qt; (6)
其中,τ是软目标更新系数(0<τ<<1),Ql为本地网络,Qt为目标网络。τ越小, RH-rainbow越稳定,目标网络参数变化越小,RH-rainbow的收敛速度越慢。合适的τ可以使RH-rainbow训练快速稳定。
接下来对本实施例所采用的系统模型的性能进行评价:
定义性能指标:采用总能耗指标EC、抗干扰能力指标FV、均匀性指标D、平均湿度均匀偏离度指标UF以及回报总和指标∑R衡量所述智能控制器的性能,计算式如下:
Figure SMS_78
其中,Δt为时间间隔,
Figure SMS_79
表示t时间步第i个恒湿机的功耗,m为恒湿机数量,L 为时间步的数量;
Figure SMS_80
其中,
Figure SMS_81
为第t时间步各湿度传感器的平均绝对湿度差,T为时长;
Figure SMS_82
其中,
Figure SMS_83
表示第i个湿度传感器在t时刻的湿度值,
Figure SMS_84
表示t时刻所有湿度传感器检测到的湿度的平均值;
Figure SMS_85
Figure SMS_86
其中,γt′为t′时间步的折扣因子,Rt+t′(St+t′,At+t′)表示状态参数St+t′下动作At+t′的奖励值。
对验证参数的初步设定:为了验证使用的场景,给出如下参数的设定,房间环境中初步设定21个均匀分布的湿度传感器、3个恒湿机。分布式传感器每隔30秒向智能体控制器上传一次湿度值,分布式恒湿机的湿度设定值为{40,50,60},风机档位设定值有 4档,分别为{fs0,fs1,fs2,fs3},因此恒湿机的设定值可能的一种取值为[30,40,50, fs0,fs2,fs3],这种情况下,恒湿机动作维度有33×43=1728维,而且实际生活中,也不存在一个房间里一边在加湿一边在除湿的情况。为了提高训练的效率,将三个恒湿机的湿度值设定为同一个值,风速设定值可以取不同,因此原来的维度变为3×43=192维。在后续讨论传感器分布以及上报时间的实验中,让
Figure SMS_87
即控制器的设定值和目标值一致,动作维度又变成64维,加快收敛。
在分布式架构的监测系统中,没有恒湿机风机的功耗数据,因此自定义恒湿机风机档位以及对应的功率,功率是随着档位的升高而升高,fs0档代表恒湿机处于待机状态且风机关闭,档位为fs1代表恒湿机正常工作且它的风机风速较小,fs2档、fs3档风速逐渐增大,恒湿机的档位与功率对应表如下表1所示:
表1恒湿机风机档位-功率表
Figure SMS_88
RH-rainbow参数如表2所示,RH-rainbow参数和符号定义表如表2所示。通常情况下,隐藏层网络节点的维度需要超过输入和输出的维度,因此将隐藏层网络的维度设置为256。设定实验回合数episodes为2500,每个episodes的steps的数量为20,时间间隔Δt设置为30秒,每批选择64条经验,折扣率设定为0.95,α和β分别设定为0.9和0.1,经验池的大小设置为10的5次方。
表2算法参数的设定
Figure SMS_89
Figure SMS_90
为了验证实际项目的场景应用,模型训练的环境是STAR-CCM+仿真平台,项目是部署在ubuntu 18操作系统上,深度学习的框架采用的是tensorflow 2.4。
人工策略和模拟控制:除了前面所述的智能算法控制外,本实施例引入模拟三种人工策略和简单的恒湿机内部控制算法,是为了与本实施例的算法进行指标数据的对比,验证本实施例方法的一些优点。人工策略采用三种方式:低档位策略、中档位策略和高档位策略,模拟控制使用的是条件控制策略,模拟恒湿机内部的算法控制房间环境。
低档位策略:湿度目标值,风机档为fs1,动作表达式如下:
At=(Hgoal,fs1); (21)
中档位策略:湿度目标值,风机档为fs2,动作表达式如下:
At=(Hgoal,fs2); (22)
高档位策略:湿度目标值,风机档为fs3,动作表达式如下:
At=(Hgoal,fs3); (23)
条件控制策略(CCS):模拟恒湿机内部控制算法,动作表达式如下:
Figure SMS_91
其中,ΔHset设定为1,Ht表示t时刻恒湿机内部湿度传感器监测环境的湿度值,把它们分别放在恒湿机的附近,对两种模型的湿度传感器安装位置如下,模型A在房间环境的一侧墙壁设置2个传感器,另一侧设置1个恒湿机。模型B在房间环境的顶端横向设置3个传感器。
对两个模型的效果进行比对:
为了验证模型的泛化性,本实施例的算法在两组不同的场景下(模型A和模型B)进行训练和测试,并与人工策略和条件控制算法进行性能对比。在测试阶段中分为无干扰和干扰的两种模式。房间的初始环境湿度为50%,目标设定值是40%。无干扰模式是在测试过程中,房间环境没有外界气流的侵入;干扰模式是在测试过程中,外界有干扰气流从InletDoor入口进入房间环境持续一段时间的干扰,对环境湿度产生一种干扰的模式。
模式A在无干扰模式下:CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中平均绝对湿度的变化和总功耗情况如图6所示, RH-rainbow策略能够更快达到目标湿度值且总功耗较低。CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中的性能对比如表3所示。
图6(a)表明RH-rainbow可以调整湿度接近目标设定值,并且曲线相对稳定。图6(b)的表明RH-rainbow的总功耗排在中间,高档策略的总功耗最高。表3可以看出, RH-rainbow相比于条件控制策略,多消耗0.02kw.h的能耗,但平均湿度均匀偏离度降低 61%,平均波动值降低55%,说明湿度下降曲线均匀稳定。低档、中档和高档策略的功耗是逐渐上升的,但是平均波动值和平均湿度均匀偏离度却变小,说明高档策略相比于低档策略是用大量的能耗换取抗干扰能力和均匀度。RH-rainbow在控制过程中找到一种合适的控制方法,能适当的节能并满足一定的抗干扰能力和均匀度。RH-rainbow的奖励总和最高,表明RH-rainbow实现了目标的优化。因此,在A型无干扰模式的测试过程中,RH-rainbow是最佳策略。
表3无干扰模式下模型A不同算法之间的性能对比
指标 CCS 低档位 中档位 高档位 RH-rainbow
FV 2.94 2.42 1.67 1.39 1.33
EC 0.35 0.30 0.55 0.80 0.37
UF 2.76 2.26 1.33 1.02 1.08
∑R -6.09 -5.02 -4.34 -4.50 -3.25
模式A在干扰模式下:CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中平均绝对湿度的变化和总功耗情况如图7所示,RH-rainbow策略能够更快达到目标湿度值、受干扰影响较小且总功耗较低。CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中的性能对比如表4所示。
如图7,在模型A的有干扰实验中,当步数t为14时,展厅的入口有一团风速为1m/s湿度为55%的干扰气流持续干扰房间环境一段时间(30秒)。不同策略恒湿机的总能耗如图11右侧所示。表4表明了本实施例的算法相比于条件控制策略多消耗0.19kw.h 的能耗,但平均波动值和平均湿度均匀偏离度分别低49%和36%;相比于中档策略,本实施例的算法降低0.55kw.h的能耗,同时平均波动值和平均湿度均匀偏离度的数值相近,说明在有效降低能耗的前提下还能达到和中档策略近似的效果。RH-rainbow的奖励总和也是最高的,因此RH-rainbow是在模型A干扰模式下的最佳策略。
表4干扰模式下模型A不同算法之间的性能对比
指标 CCS 低档位 中档位 高档位 RH-rainbow
FV 1.98 1.52 0.99 0.82 1.01
EC 0.61 0.74 1.35 1.96 0.80
UF 1.56 2.04 1.10 0.82 1.00
∑R -10.20 -8.48 -7.72 -8.58 -6.35
模式B在无干扰模式下:CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中平均绝对湿度的变化和总功耗情况如图8所示。CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中的性能对比如表5所示。
在图8中,实验结果与模型A的无干扰模式类似。模型B的无干扰实验中如表5所示,本实施例的方法虽然相比于条件控制策略多消耗0.11kw.h的能耗,但是平均波动值和平均湿度均匀偏离度分别低14%和66%。相比于低档策略,本实施例的方法降低6%的能耗,降低了37%的平均波动值和6%的平均湿度均匀偏离度。因此RH-rainbow学到了更灵活的控制方法,既节能又有更好的抗干扰能力和控制过程的均匀度。RH-rainbow 的奖励总和也是最高的,因此RH-rainbow是测试模式中的最佳策略。无干扰环境下的模型A和模型B都能满足在适当节能的情况下的达到更好抗干扰能力和均匀度的要求,说明了本实施例的算法适用性强。
表5无干扰模式下模型B不同算法之间的性能对比
指标 CCS 低档位 中档位 高档位 RH-rainbow
FV 1.76 2.39 1.43 1.09 1.51
EC 0.59 0.75 1.38 2.00 0.70
UF 0.85 0.31 0.23 0.20 0.29
∑R -9.16 -12.42 -9.78 -9.91 -8.33
模式B在有干扰模式下:CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中平均绝对湿度的变化和总功耗情况如图9所示。CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略在调控过程中的性能对比如表6所示。
在图9中,实验结果与模型A的干扰模式类似。模型B中的干扰实验如表6所示,干扰气流和模型A的干扰实验一样。在整个控制过程中,RH-rainbow相比于条件控制策略,多消耗0.09kw.h的能耗,但平均抗干扰能力降低了10%,平均湿度均匀性降低了 44%。相比于中档策略,RH-rainbow和模型A的干扰模式效果类似,说明本实施例的模型适用性更强,泛化能力更高。RH-rainbow的奖励总和也是最高的,因此RH-rainbow是模型B干扰模式下的最佳策略。
表6干扰模式下模型B不同算法之间的性能对比
指标 CCS 低档位 中档位 高档位 RH-rainbow
FV 2.42 3.35 2.05 1.55 2.18
EC 0.80 0.75 1.38 2.00 0.89
UF 1.78 1.47 1.08 0.91 0.99
∑R -12.69 -16.74 -12.57 -11.98 -11.85
进一步的,对传感器分布的影响进行评价,在房间环境A中分别均匀地部署6、9和15个湿度监测点,讨论了不同数量的分布式传感器对算法指标的影响。用单个干扰和多个干扰进行测试,不同点策略的选定点如表7所示。
表7点的分布策略及其编号
点的分布策略 点的编号
6个点 3,5,10,12,17,19
9个点 2,4,6,9,11,13,6,18,20
15个点 2,3,4,5,6,9,10,11,12,13,16,17,18,19,20
单干扰模式下,CCS策略、低档位策略、中档位、高档位以及本实施例所采用的6 个点RH-rainbow策略、9个点RH-rainbow策略和15个点RH-rainbow策略平均绝对温差下降曲线如图10所示,性能对比如表8所示。
在图10中,单次干扰试验类似于干扰模式下的模型A试验。结果表明,与其他策略相比,RH-rainbow还可以控制湿度达到目标设定值。在表8中,尽管中档策略和高档策略在平均波动值和均匀性方面表现更好,但这些策略消耗了大量的能耗。条件控制策略的能耗与15点相近,但其平均波动值和均匀性不如15个点(RH-rainbow)。与RH-rainbow 相比,条件控制策略中的恒湿机缺乏周围环境的关注。RH-rainbow中的分布式传感器对的环境有更好的感知,神经网络对高维状态有智能决策。因此,RH-rainbow在能耗、平均波动值和均匀性方面具有良好的性能。正常情况下,监测点越多,控制效果越好。但是15个点的奖励总和并不是最好,平均波动值较高,可能对环境过于敏感。因此,适当增加监测点的数量将带来良好的效果。在这些策略中,9个点(RH-rainbow)奖励之和也是最高的,因此RH-rainbow是模型A干扰模式下的最佳策略。
表8单干扰模式下,不同分布点RH-rainbow和其他算法之间的性能对比
Figure SMS_92
多个干扰模式下,CCS策略、低档位策略、中档位、高档位以及本实施例所采用的 6个点RH-rainbow策略、9个点RH-rainbow策略和15个点RH-rainbow策略平均绝对温差下降曲线如图11所示,性能对比如表9所示。
多个干扰实验如图11所示,步数t分别在15、30、45、60、75时,有多个风速为 1m/s湿度分别为45%、50%、55%、60%、55%的干扰气流从展厅入口进入到房间环境。在表11中,与其他策略相比,RH-rainbow还可以控制湿度达到目标设定值。表9表明6 个监测点、9个监测点和15个监测点这三种策略中,能耗由低到高的分别为9个监测点、 6个监测点、15个监测点,说明了在多干扰环境中,监测点越少,对环境整体的感知能力越差,控制效果也越来越差;监测点越多,对环境过于敏感,控制效果也不一定越好。 9个点平均波动值和平均湿度均匀偏离度比条件控制策略少23%和26%,因此抗干扰能力和均匀度有着更好的表现。在这些策略中,9个点(RH-rainbow)奖励之和也是最高的,因此RH-rainbow是模型A多个干扰模式下的最佳策略。
表9多干扰模式下,不同分布点RH-rainbow和其他算法之间的性能对比
Figure SMS_93
进一步讨论不同上报时间间隔的影响:讨论在房间A环境中的不同上报时间间隔对算法指标的影响,在环境中分别设定1分钟、3分钟和5分钟等多个不同的上报时间间隔实验,分布式传感器统一用15个点分布,其他的参数见默认参数设定。用无干扰模式和干扰模式进行测试。
在无干扰模式下,CCS策略、低档位策略、中档位、高档位以及本实施例所采用的RH-rainbow策略基于不同上报时间算法的平均绝对湿度差下降曲线图和功耗图对比如图12所示,性能对比如表10所示。
如图12所示,与其他策略相比,RH-rainbow在不同报告时间间隔的无干扰模式下可以控制湿度以达到目标设定值。在表10中,比较了非干扰模式下不同报告时间算法的指标。时间间隔为1分钟的无干扰模式中,RH-rainbow比低档策略的平均波动值、能耗和平均湿度均匀偏离度低35%、39%和30%,用更少的能耗带来抗干扰能力和更好的均匀度。条件控制策略能耗最少,但是它的平均波动值最大,抗干扰能力最差。中档策略和高档策略虽然平均波动值和平均湿度均匀偏离度是比较小的,但是能耗偏高。时间间隔为3分钟的无干扰模式中和时间间隔为1分钟的无干扰模式结论类似。时间间隔为5分钟的无干扰模式中,本实施例RH-rainbow算法比条件控制策略的平均波动值、能耗和平均湿度均匀偏离度低3%、18%和40%,用更少的能耗带来抗干扰能力和更好的均匀度。尽管RH-rainbow的平均波动值不是最好的,但是能耗上比条件控制策略、低档策略、中档策略、高档策略分别节能18%、75%、87%、91%的能耗,而且均匀度也是最优秀的。因此RH-rainbow算法在节能方面的优势明显。总的来说,RH-rainbow的奖励总和普遍是最高的。因此,RH-rainbow是适用于不同的上报时间间隔的无干扰模式下的最佳策略。
表10无干扰模式下,不同上报时间算法的性能对比
Figure SMS_94
在干扰模式下,CCS策略、低档位策略、中档位、高档位以及本实施例所采用的 RH-rainbow策略基于不同上报时间算法的平均绝对湿度差下降曲线图和功耗图对比如图 13所示,性能对比如表11所示。
在图13中,对不同时间间隔实验,分别给湿度范围为[40,60]的不同干扰。在表11中,时间间隔为1分钟的干扰模式中,本实施例RH-rainbow算法比条件控制策略的平均波动值、能耗和平均湿度均匀偏离度低14%、27%和26%,用更少的能耗带来抗干扰能力和更好的均匀度。条件控制策略能耗最少,但是它的平均波动值偏大,抗干扰能力较差。中档策略和高档策略虽然在平均波动值和平均湿度均匀偏离度比RH-rainbow小,但是能耗偏高。时间间隔为3分钟的干扰模式中,得到的结论和时间间隔为1分钟的干扰模式类似。时间间隔为5分钟的干扰模式中,本实施例RH-rainbow算法虽然在平均波动值没有其他策略优越,但是能耗是最低的,比条件控制策略、低档策略、中档策略、高档策略分别节能15%、69%、83%、88%的能耗。在不同上报时间间隔的干扰模式下, RH-rainbow的奖励总和都是最高的。总体而言,在干扰模式下,RH-rainbow是最佳策略。
表11干扰模式下,不同上报时间算法的性能对比
Figure SMS_95
综上所述,所述恒湿机智能控制方法及装置中,所述方法通过分布在大空间内的湿度传感器检测环境的湿度值,并基于智能控制器控制分布在大空间内的恒湿机工作以控制湿度稳定,所述方法基于强化学习的方式更新智能控制器的策略得到对恒湿机的控制模型,在强化学习过程中,利用所有湿度传感器检测到的湿度与目标设定值的欧氏距离计算出平均绝对湿度差,测量恒湿机的功耗,基于平均绝对湿度差和功耗定义了各时间步的动作参数对应的奖励值,引入了对湿度均匀性和风机功耗的评价,能够使强化学习训练得到的模型实现对大空间内湿度稳定性的控制,并极大减小功耗。
同时,采用神经网络拟合所选择的动作参数的预估奖励值,以适应对大空间湿度进行调控场景下连续的状态空间;通过按照优先级对回放缓存区中的经验数据进行采样学习,能够使模型更多关注回访缓存区中状态值估计的误差较大的经验数据;通过设置本地网络和目标网络将动作选择和价值估计分开,避免价值过高估计;通过将动作参数的预估奖励值分解为状态价值和优势函数,所述神经网络模型还引入高斯噪声进行采样干扰,构建Noisy Dueling网络结构,能够更快的收敛并且增加模型的探索能力。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF) 链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种恒湿机智能控制方法,其特征在于,所述方法在智能控制器上运行,所述智能控制器连接指定空间内的分布式的多个湿度传感器和多个恒湿机,所述方法包括:
获取各湿度传感器按照设定时间间隔采集得到的湿度值序列作为状态空间的状态参数,以及各恒湿机对应的湿度设定值序列和风档设定值序列作为动作空间的动作参数;
采用预设强化学习模型根据各时间步状态参数确定输出相应的动作参数,并获取各时间步对应动作参数下各恒湿机的功耗,根据所有湿度传感器实际检测到的湿度与目标设定值的欧氏距离计算出平均绝对湿度差,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值,采用回放缓存区存储各时间步对应的状态参数、动作参数、功耗、奖励值和目标湿度值;
在强化学习过程中,所述预设强化学习模型按照优先级对回放缓存区中的经验数据进行采样,采用神经网络拟合所选择的动作参数的所述奖励值,所述神经网络模型设置本地网络用于计算当前时间步的预测价值并选择价值最高的动作参数,设置目标网络用于计算下一时间步的目标价值,所述本地网络与所述目标网络的结构相同,每间隔设定时长将所述本地网络的参数更新至所述目标网络;并且所述神经网络将动作参数的预估奖励值分解为仅与状态有关的值函数部分以及与状态和动作均相关的优势函数部分,还引入高斯噪声进行采样干扰,将Dueling-DQN网络与Noisy-DQN网络结合得到Noisy Dueling网络,所述本地网络和所述目标网络均采用Noisy Dueling网络;基于所述预测价值、所述目标价值以及未来多个时间步的奖励值构建损失函数,以最大化各时间步动作参数对应奖励值之和为优化目标进行学习直至收敛;
其中,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值,计算式为:
Figure QLYQS_1
其中,α、β分别为平均绝对湿度差和风扇功耗的权重比例系数;
所述预设强化学习模型按照优先级对回放缓存区中的经验数据进行采样,包括:获取各时间步状态参数的误差TD-error,各经验数据被选择的概率pt正比于所述TD-error,表达式为:
Figure QLYQS_2
其中,Rt+1为t+1时间步的奖励值,γt+1为t+1时间步的折扣因子,St+1为t+1时间步的状态参数,St为t时间步的状态参数,qθ(St,At)为所述本地网络在状态St下输出价值最大的动作At预测价值,a′为基于本地网络策略选择的最大的预测价值对应的动作,
Figure QLYQS_3
为在选择动作a′条件下所述目标网络输出的状态St+1的目标价值,ω是优先级指数;
每间隔设定时长将所述本地网络的参数更新至所述目标网络,包括:利用所述本地网络和所述目标网络参数的凸组合对所述目标网络的参数进行软更新,所述目标网络的更新频率为1,更新表达式为:
Qt←τ×Ql+(1-τ)×Qt
其中,τ是更新系数,Ql为所述本地网络,Qt为所述目标网络;
基于所述预测价值 、所述目标价值 以及未来多个时间步的奖励值构建损失函数,包括:定义未来n个时间步的回报总和
Figure QLYQS_4
的公式为:
Figure QLYQS_5
其中,
Figure QLYQS_6
表示第t时间步之后第k个时间步的折扣因子,Rt+k+1表示t+k+1时间步的奖励值,n为计算的时间步的数量;
设置Loss损失函数为:
Figure QLYQS_7
其中,
Figure QLYQS_8
表示第n*步的折扣因子,
Figure QLYQS_9
表示在未来第n*状态
Figure QLYQS_10
下选择最大价值对应的动作a′,
Figure QLYQS_11
是表示目标网络在状态
Figure QLYQS_12
下执行动作a′得到目标价值,qθ(St,At)表示本地网络在状态St下执行动作At带来最大的本地价值。
2.根据权利要求1所述的恒湿机智能控制方法,其特征在于,根据每个时间步所述平均绝对湿度差和所有恒湿机实际的功耗计算每个时间步的奖励值之前,还包括:
对各时间步对应的功耗进行标准化处理,得到单位时间内的相对功耗RPt,计算式为:
Figure QLYQS_13
其中,FPt (i)为t时间步第i个恒湿机的功耗,FPmax、FPmin分别为恒湿机功率的最大值和最小值;
定义可调的缩放参数NS,将所述平均绝对湿度差与所述缩放参数NS相除进而缩放至一个合适的区间,计算式为:
Figure QLYQS_14
其中,Hmax、Hmin分别为恒湿机湿度设定值的最大值和最小值,Hgoal为所述目标湿度值,
Figure QLYQS_15
为第t时间步各湿度传感器的平均绝对湿度差。
3.根据权利要求1所述的恒湿机智能控制方法,其特征在于,所述方法还包括:
采用总能耗指标EC、抗干扰能力指标FV、均匀性指标D、平均湿度均匀偏离度指标UF以及回报总和指标∑R衡量所述智能控制器的性能,计算式如下:
Figure QLYQS_16
其中,Δt为时间间隔,FPt i表示t时间步第i个恒湿机的功耗,m为恒湿机数量,L为时间步的数量;
Figure QLYQS_17
其中,
Figure QLYQS_18
为第t时间步各湿度传感器的平均绝对湿度差,T为时长;
Figure QLYQS_19
其中,
Figure QLYQS_20
表示第i个湿度传感器在t时刻的湿度值,Ht MEAN表示t时刻所有湿度传感器检测到的湿度的平均值;
Figure QLYQS_21
Figure QLYQS_22
其中,γt′为t′时间步的折扣因子,Rt+t′(St+t′,At+t′)表示状态参数St+t′下动作At+t′的奖励值。
4.一种湿度智能控制系统,其特征在于,包括:
在设定空间内分布式设置的多个湿度传感器和多个恒湿机;
智能控制器,连接所有湿度传感器用于获取湿度值,并连接所有恒湿机用于根据权利要求1至3任意一项所述恒湿机智能控制方法控制所述设定空间内的湿度。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述方法的步骤。
CN202111295458.0A 2021-11-03 2021-11-03 一种恒湿机智能控制方法及装置 Active CN114110824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111295458.0A CN114110824B (zh) 2021-11-03 2021-11-03 一种恒湿机智能控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111295458.0A CN114110824B (zh) 2021-11-03 2021-11-03 一种恒湿机智能控制方法及装置

Publications (2)

Publication Number Publication Date
CN114110824A CN114110824A (zh) 2022-03-01
CN114110824B true CN114110824B (zh) 2023-05-02

Family

ID=80380400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111295458.0A Active CN114110824B (zh) 2021-11-03 2021-11-03 一种恒湿机智能控制方法及装置

Country Status (1)

Country Link
CN (1) CN114110824B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115773579A (zh) * 2022-11-30 2023-03-10 珠海格力电器股份有限公司 热水器的节能控制方法及装置、热水器
CN117648005B (zh) * 2024-01-25 2024-04-05 天津新科联泰金属制品有限公司 基于空气湿度的设备控制方法及系统
CN118224713A (zh) * 2024-05-07 2024-06-21 深圳市亚晔实业有限公司 一种基于多智能体系统的通排风协同控制方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134165B (zh) * 2019-05-13 2020-12-25 北京鹏通高科科技有限公司 一种用于环境监测与控制的强化学习方法及系统
CN110986492A (zh) * 2019-12-10 2020-04-10 江西艾维斯机械有限公司 一种冷冻式干燥机及其控制方法
CN111144793B (zh) * 2020-01-03 2022-06-14 南京邮电大学 基于多智能体深度强化学习的商业建筑hvac控制方法
CN111351180B (zh) * 2020-03-06 2021-09-17 上海外高桥万国数据科技发展有限公司 一种运用人工智能实现数据中心节能温控的系统及方法

Also Published As

Publication number Publication date
CN114110824A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN114110824B (zh) 一种恒湿机智能控制方法及装置
CN111351180B (zh) 一种运用人工智能实现数据中心节能温控的系统及方法
Homod Analysis and optimization of HVAC control systems based on energy and performance considerations for smart buildings
Homod et al. Gradient auto-tuned Takagi–Sugeno Fuzzy Forward control of a HVAC system using predicted mean vote index
CN104019526B (zh) 改进pso算法模糊自适应pid温湿度控制系统及方法
CN113283156B (zh) 一种基于深度强化学习的地铁站空调系统节能控制方法
CN106949598B (zh) 网络流量负载变化时的网络中心机房节能优化方法
US11999388B2 (en) Interior air quality monitoring and ventilation control method and system for train
US20120197828A1 (en) Energy Saving Control for Data Center
CN103246212A (zh) 系统控制装置及系统控制方法
CN114020079B (zh) 一种室内空间温度和湿度调控方法及装置
Baghaee et al. User comfort and energy efficiency in HVAC systems by Q-learning
CN110726218A (zh) 空调器及其控制方法、装置、存储介质和处理器
CN105117770A (zh) 基于改进型模糊神经网络的表冷器控制方法
CN112577159A (zh) 基于人体热舒适度的空调节能智能控制方法及装置
CN114234381A (zh) 基于强化学习的中央空调控制方法和控制系统
CN110986249B (zh) 空调的自调节控制方法、系统及空调器
Jin et al. Prediction-based online optimal control of outdoor air of multi-zone VAV air conditioning systems
CN115983438A (zh) 数据中心末端空调系统运行策略确定方法及装置
Jiang et al. Hybrid modeling-based temperature and humidity adaptive control for a multi-zone HVAC system
CN116485044B (zh) 一种电网交互型高效商业建筑智能运行优化方法
CN117190405A (zh) 一种基于强化学习的除湿机组系统的节能优化控制方法
CN115717758A (zh) 一种室内空间温度和湿度调控方法及系统
CN116241991A (zh) 一种基于深度强化学习中央空调控制方法及系统
Cui et al. A hierarchical HVAC optimal control method for reducing energy consumption and improving indoor air quality incorporating soft Actor-Critic and hybrid search optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant