CN112325447A - 一种基于强化学习的制冷机组控制装置及控制方法 - Google Patents

一种基于强化学习的制冷机组控制装置及控制方法 Download PDF

Info

Publication number
CN112325447A
CN112325447A CN202011201158.7A CN202011201158A CN112325447A CN 112325447 A CN112325447 A CN 112325447A CN 202011201158 A CN202011201158 A CN 202011201158A CN 112325447 A CN112325447 A CN 112325447A
Authority
CN
China
Prior art keywords
network
critic
value
target
networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011201158.7A
Other languages
English (en)
Other versions
CN112325447B (zh
Inventor
陈建平
范晶晶
傅启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Mizao Intelligent Technology Co ltd
Suzhou University of Science and Technology
Original Assignee
Zhuhai Mizao Intelligent Technology Co ltd
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Mizao Intelligent Technology Co ltd, Suzhou University of Science and Technology filed Critical Zhuhai Mizao Intelligent Technology Co ltd
Priority to CN202011201158.7A priority Critical patent/CN112325447B/zh
Publication of CN112325447A publication Critical patent/CN112325447A/zh
Application granted granted Critical
Publication of CN112325447B publication Critical patent/CN112325447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/46Improving electric energy efficiency or saving
    • F24F11/47Responding to energy costs
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/50Control or safety arrangements characterised by user interfaces or communication
    • F24F11/56Remote control
    • F24F11/58Remote control using Internet communication
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/70Control systems characterised by their outputs; Constructional details thereof
    • F24F11/80Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air
    • F24F11/83Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air by controlling the supply of heat-exchange fluids to heat-exchangers
    • F24F11/85Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air by controlling the supply of heat-exchange fluids to heat-exchangers using variable-flow pumps
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/70Control systems characterised by their outputs; Constructional details thereof
    • F24F11/80Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air
    • F24F11/86Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air by controlling compressors within refrigeration or heat pump circuits
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/88Electrical aspects, e.g. circuits
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/89Arrangement or mounting of control or safety devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Fuzzy Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Thermal Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明涉及一种基于强化学习的制冷机组控制装置及控制方法。主要包括数据采集模块和数据处理模块,所述数据采集模块用于获取环境数据,所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。上述装置通过采集环境数据,并建立环境模型,然后通过DDPG算法求解最优控制策略,通过最优控制策略来控制各个相关设备的运转。这样可在保证中央空调系统正常运转的同时,使得总能耗较低。

Description

一种基于强化学习的制冷机组控制装置及控制方法
技术领域
本发明涉及控制领域,特别是涉及基于强化学习的制冷机组控制装置及控制方法。
背景技术
随着经济的发展,大型建筑内应用了中央空调系统来调节建筑物内部温度。中央空调系统的主要耗能设备包括冷冻泵、冷却泵以及制冷压缩机。这些设备可通过无极调节方式进行调节。但这些设备如何相互配合才能达到总能耗较低且保证中央空调系统正常运转,这已经成为一个难题。
发明内容
基于此,有必要提供一种基于强化学习的制冷机组控制装置。该装置有利于在保证中央空调系统正常运转的同时,使得总能耗较低。
一种基于强化学习的制冷机组控制装置,
包括数据采集模块和数据处理模块,
所述数据采集模块用于获取环境数据,
所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
上述装置通过采集环境数据,并建立环境模型,然后通过DDPG算法求解最优控制策略,通过最优控制策略来控制各个相关设备的运转。这样可在保证中央空调系统正常运转的同时,使得总能耗较低。
在其中一个实施例中,
所述根据所述数据建立环境模型,包括:
将制冷机组控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,总能耗为Pq,冷冻水出水温度为To、冷却水进水温度为Ti、冷冻泵的出水口的冷冻水流量为V0、冷却泵的出水口的冷却水流量为Vi,则此时刻的状态可表示为:
St=(Pq,To,Ti,Vo,Vi),
其中,冷冻水出水温度To的限制范围为:5≤To≤12,冷却水进水温度Ti的限制范围为:22≤Ti≤33,冷冻泵的冷冻水流量V0的限制范围为:63≤Vo≤105,冷却泵的冷却水流量Vi的限制范围为:75≤Vi≤125,动作,用a表示,t时刻的动作a用[设置冷冻泵,设置冷却泵,设置制冷压缩机]表示,其中,设置冷冻泵用Od表示,设置冷却泵用Oq表示,设置制冷压缩机用Oy表示,则t时刻可采取的动作集合为:
a={[Od0,Oq0,Oy0],[Od1,Oq1,Oy1],[Od2,Oq2,Oy2],...},
立即奖赏函数,用r表示,其中,若t时刻采用动作a后,冷冻水出水温度To在限制范围外,或冷却水进水温度Ti在限制范围外,或冷冻泵的冷冻水流量V0在限制范围外,或冷却泵的冷却水流量Vi在限制范围外,则r=-100Pq,否则,r=-Pq
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
在其中一个实施例中,
所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
在其中一个实施例中,
所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
LMCi)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2,其中,LMCi)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,Lavg(θ)为评论家网络的损失函数平均值,Ltari)为目标评论家网络的损失函数值,
Figure BDA0002755119170000031
其中,
Figure BDA0002755119170000032
是目标评论家网络的Q值平均值,Qavg(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏,
Figure BDA0002755119170000033
其中,K为在线评论家网络的个数,Qi(s,a,θi)为第i个在线评论家网络的Q值,
Figure BDA0002755119170000034
其中,K为目标评论家网络的个数,
Figure BDA0002755119170000035
为第i个目标评论家网络的Q值,
Figure BDA0002755119170000036
为K个目标评论家网络的Q值平均值,
Figure BDA0002755119170000037
其中,r(s,a)为立即奖赏,Qi(s,a,θi)为第i个在线评论家网络的Q值。
在其中一个实施例中,
所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:
Figure BDA0002755119170000038
其中
Figure BDA0002755119170000039
表示策略梯度,N为网络个数,
Figure BDA0002755119170000041
为EMA网络的策略梯度,
Figure BDA0002755119170000042
为策略网络的策略梯度,
通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:
Figure BDA0002755119170000043
θμ′←qθμ+(1-q)θμ′,其中,θEMA为EMA网络的权重,
Figure BDA0002755119170000044
为评论家网络的权重,θμ为策略网络的权重,m,n,q都是0到1之间的浮点数。
一种基于强化学习的制冷机组控制方法,
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
在其中一个实施例中,
所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:
Figure BDA0002755119170000045
其中
Figure BDA0002755119170000046
表示策略梯度,N为网络个数,
Figure BDA0002755119170000047
为EMA网络的策略梯度,
Figure BDA0002755119170000048
为策略网络的策略梯度,
通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:
Figure BDA0002755119170000049
θμ′←qθμ+(1-q)θμ′,其中,θEMA为EMA网络的权重,
Figure BDA00027551191700000410
为评论家网络的权重,θμ为策略网络的权重,m,n,q都是0到1之间的浮点数。
在其中一个实施例中,
所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
在其中一个实施例中,
所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
LMC(θii)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2,其中,LMCi)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,Lavg(θ)为评论家网络的损失函数平均值,Ltari)为目标评论家网络的损失函数值,
Figure BDA0002755119170000051
其中,
Figure BDA0002755119170000052
是目标评论家网络的Q值平均值,Qavg(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏,
Figure BDA0002755119170000053
其中,K为在线评论家网络的个数,Qi(s,a,θi)为第i个在线评论家网络的Q值,
Figure BDA0002755119170000054
其中,K为目标评论家网络的个数,
Figure BDA0002755119170000055
为第i个目标评论家网络的Q值,
Figure BDA0002755119170000056
为K个目标评论家网络的Q值平均值,
Figure BDA0002755119170000057
其中,r(s,a)为立即奖赏,Qi(s,a,θi)为第i个在线评论家网络的Q值。
一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的制冷机组控制方法对应的操作。
附图说明
图1为本发明的实施例的制冷机组控制装置的示意图。
图2为本发明的实施例的制冷机组的示意图。
图3为本发明的实施例的制冷机组控制装置中的DDPG算法的流程图,图中的策略网络也就是行动者网络,图中的值网络也就是评论家网络。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,本发明的实施例提供了一种基于强化学习的制冷机组控制装置,该装置包括数据采集模块和数据处理模块。
所述数据采集模块用于获取环境数据,例如,可获取总能耗(冷冻泵、冷却泵以及制冷压缩机的三个设备的总能耗)、冷冻水出水温度、冷却水进水温度、冷冻水泵流量、冷却水泵流量。
上述冷冻泵、冷却泵以及制冷压缩机可采用无极调节的设备。也就是各个设备的调节是连续变化的。
所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
本实施例中,所述根据所述数据建立环境模型,包括:
将制冷机组控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,总能耗为Pq,也就是冷冻泵、冷却泵以及制冷压缩机的三个设备的总能耗,冷冻水出水温度为To(℃)。这里的冷冻水出水温度就是由图3中的蒸发器换热后流出的冷冻水的温度。冷却水进水温度为Ti(℃)、这里的冷却水进水温度就是进入冷却装置的冷却水的温度,例如图3中,冷却水进水温度就是冷却塔入水口处的冷却水的温度。冷冻泵的出水口的冷冻水流量为V0(m3/h)、冷却泵的出水口的冷却水流量为Vi(m3/h),则此时刻的状态可表示为:
St=(Pq,To,Ti,Vo,Vi),
其中,冷冻水出水温度To的限制范围为:5≤To≤12,冷却水进水温度Ti的限制范围为:22≤Ti≤33,冷冻泵的冷冻水流量V0的限制范围为:63≤Vo≤105,冷却泵的冷却水流量Vi的限制范围为:75≤Vi≤125。动作,用a表示,t时刻的动作a用[设置冷冻泵,设置冷却泵,设置制冷压缩机]表示,其中,设置冷冻泵用Od表示,设置冷却泵用Oq表示,设置制冷压缩机用Oy表示,则t时刻可采取的动作集合为:
a={[Od0,Oq0,Oy0],[Od1,Oq1,Oy1],[Od2,Oq2,Oy2],...},
立即奖赏函数,用r表示,其中,若t时刻采用动作a后,冷冻水出水温度To在限制范围外,或冷却水进水温度Ti在限制范围外,或冷冻泵的冷冻水流量V0在限制范围外,或冷却泵的冷却水流量Vi在限制范围外,则r=-100Pq,否则,r=-Pq
也就是,如果冷冻水出水温度To在限制范围内,且冷却水进水温度Ti在限制范围内,且冷冻泵的冷冻水流量V0在限制范围内,且冷却泵的冷却水流量Vi在限制范围内,则r=-Pq,否则,如果有其中一个参数的取值超出对应的限制范围,则r=-100Pq
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
本实施例中,所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差(时间差分误差)的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
具体的,从B2经验回放池中采样的概率的初始值可为8%、10%和12%等。
传统的DDPG算法中的单样本池容易导致算法收敛速度慢。因此,本发明提出双样本池方法,也就是使用两个样本池B1和B2来存储Agent的样本。
使用两个样本池B1和B2来存储Agent的样本,其中B1和B2的工作方式相同,但B2的规模要比B1小。在双重经验回放中,非常好或者非常差的样本被视为具有高TD误差的样本,这样的样本存储在B2中。其他样本则存储在B1中。
具体的,可设置一个阈值,例如td误差阈值为0.4,td误差大于等于0.4就是好的样本,这些样本存储在B2经验池。td误差低于0.4就是普通样本,这些样本存储在B1经验池。
以上只是举例,可以根据实际的环境模型等来具体设置上述阈值的大小。也可以根据实际情况来调整阈值的大小。
当进行采样时,从B1中采样一部分,从B2中采样一小部分。随着训练过程的进行,Agent的学习的表现效果会更好,甚至取得最好的分数,因此B2中的经验不再具有高TD误差,所以对双重经验回放的需求随着训练过程的进行应该降低。
具体的,可应用概率函数Pder表示从B2中采样一小部分的概率。随着时间的后移,该概率随之降低,具体公式见下式:
Figure BDA0002755119170000091
其中,P是一个概率,δ是一个数值,当pder≥P时,随时间后移,pder逐渐减小。当小于P时,pder为0。
本发明使用两个样本池B1和B2能在训练前期加快训练过程,并且在模型趋于收敛时降低自身的作用,进一步加快收敛。
进一步的是,传统的DDPG方法的训练对评论家学习的有效性过于敏感,为了提高评论家网络的准确性,本实施例中,所述DDPG算法中包括K个目标评论家网络(也就是图3中的目标值网络)和K个在线评论家网络(就是图3中的在线值网络),所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
LMCi)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2
其中,LMCi)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,Lavg(θ)为评论家网络的损失函数平均值,Ltari)为目标评论家网络的损失函数值。因为当K为1时,LMC应该等于Ltar,即损失函数可以看作是三个两两相关部分的总和:两组评论家之间的全局平均误差、单个评论家和其对应的目标评论家之间的独立TD误差、用来减小评论家方差的单个评论家与K个评论家平均值的差值。
Figure BDA0002755119170000092
其中,
Figure BDA0002755119170000101
是K个目标评论家网络的Q值平均值,Qavg(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏。
Figure BDA0002755119170000102
其中,K为在线评论家网络的个数,Qi(s,a,θi)为第i个在线评论家网络的Q值。
Figure BDA0002755119170000103
其中,K为目标评论家网络的个数,
Figure BDA0002755119170000104
为第i个目标评论家网络的Q值,
Figure BDA0002755119170000105
为K个目标评论家网络的Q值平均值。
Figure BDA0002755119170000106
其中,r(s,a)为立即奖赏,Qi(s,a,θi)为第i个在线评论家网络的Q值。
本实施例中,为了提高DDPG算法的稳定性,所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:
Figure BDA0002755119170000107
其中
Figure BDA0002755119170000108
表示策略梯度,N为网络个数,
Figure BDA0002755119170000109
为EMA网络的策略梯度,
Figure BDA00027551191700001010
为策略网络的策略梯度。
通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:
Figure BDA00027551191700001011
Figure BDA00027551191700001012
θμ′←qθμ+(1-q)θμ′
其中,θEMA为EMA网络的权重,
Figure BDA00027551191700001013
为评论家网络的权重,θμ为策略网络的权重,m,n,q都是0到1之间的浮点数。
需要说明的是,在DDPG算法的动作探索部分是加入了噪声,其特点为噪声随机性很强,通过μ(s|θμ)函数对动作进一步探索,也就是在每一个状态st,根据at=μ(stμ)+Nt来选择动作,目的是为了让探索的动作更具有目标性。
本发明在此基础上进行了改进,通过上述方法可以使算法随着进程逐渐收敛的同时稳定性也更好。
本发明的实施例还提供了一种基于强化学习的制冷机组控制方法,具体包括:
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
本实施例中,所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:
Figure BDA0002755119170000111
其中
Figure BDA0002755119170000112
表示策略梯度,N为网络个数,
Figure BDA0002755119170000113
为EMA网络的策略梯度,
Figure BDA0002755119170000114
为策略网络的策略梯度。
通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:
Figure BDA0002755119170000115
Figure BDA0002755119170000116
θμ′←qθμ+(1-q)θμ′
其中,θEMA为EMA网络的权重,
Figure BDA0002755119170000117
为评论家网络的权重,θμ为策略网络的权重,m,n,q都是0到1之间的浮点数。
本实施例中,所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
本实施例中,所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
LMCi)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2
其中,LMCi)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,Lavg(θ)为评论家网络的损失函数平均值,Ltari)为目标评论家网络的损失函数值。
Figure BDA0002755119170000121
其中,
Figure BDA0002755119170000122
是目标评论家网络的Q值平均值,Qavg(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏。
Figure BDA0002755119170000123
其中,K为在线评论家网络的个数,Qi(s,a,θi)为第i个在线评论家网络的Q值。
Figure BDA0002755119170000124
其中,K为目标评论家网络的个数,
Figure BDA0002755119170000125
为第i个目标评论家网络的Q值,
Figure BDA0002755119170000126
为K个目标评论家网络的Q值平均值。
Figure BDA0002755119170000127
其中,r(s,a)为立即奖赏,Qi(s,a,θi)为第i个在线评论家网络的Q值。
以下是本发明改进后的DDPG算法的流程:
1)随机初始化K个在线评论家网络
Figure BDA0002755119170000128
在线行动者网络μ(s|θμ)及它们相对应的权重
Figure BDA0002755119170000131
和θμ,i=0,1...k-1,初始化EMA网络QEMA,权重为θEMA
Figure BDA0002755119170000132
K个目标评论家网络Qi′,目标行动者网络μ′,权重为
Figure BDA0002755119170000133
和θμ′
Figure BDA0002755119170000134
θμ′←θμ,原始样本池B1和高误差样本池B2初始为空,B2内存较小,时间步为T,
2)while episode do,
3)初始化一个随机过程Nt用于探索动作,
4)获得初始观察状态s0
5)while t=0,T do,
6)根据当前策略和高斯噪声at=μ(stμ)+Nt选择动作,
7)执行动作at,得到rt,st+1
8)将(st,at,rt,st+1)存储在两个样本池B1,B2中,
9)从样本池B1中随机采样一部分,B2随机采样一小部分,约占10%,
10)通过最小化损失函数来更新每个评论家网络:
LMCi)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2
11)通过策略梯度来更新行动者的策略:
Figure BDA0002755119170000135
12)更新目标网络的参数:
Figure BDA0002755119170000136
θμ′←qθμ+(1-q)θμ′
13)end,
14)end。
本发明的实施例还提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的制冷机组控制方法对应的操作。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于强化学习的制冷机组控制装置,其特征在于,
包括数据采集模块和数据处理模块,
所述数据采集模块用于获取环境数据,
所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
2.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,
所述根据所述数据建立环境模型,包括:
将制冷机组控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,总能耗为Pq,冷冻水出水温度为To、冷却水进水温度为Ti、冷冻泵的出水口的冷冻水流量为V0、冷却泵的出水口的冷却水流量为Vi,则此时刻的状态可表示为:
St=(Pq,To,Ti,Vo,Vi),
其中,冷冻水出水温度To的限制范围为:5≤To≤12,冷却水进水温度Ti的限制范围为:22≤Ti≤33,冷冻泵的冷冻水流量V0的限制范围为:63≤Vo≤105,冷却泵的冷却水流量Vi的限制范围为:75≤Vi≤125,
动作,用a表示,t时刻的动作a用[设置冷冻泵,设置冷却泵,设置制冷压缩机]表示,其中,设置冷冻泵用Od表示,设置冷却泵用Oq表示,设置制冷压缩机用Oy表示,则t时刻可采取的动作集合为:
a={[Od0,Oq0,Oy0],[Od1,Oq1,Oy1],[Od2,Oq2,Oy2],...},
立即奖赏函数,用r表示,其中,若t时刻采用动作a后,冷冻水出水温度To在限制范围外,或冷却水进水温度Ti在限制范围外,或冷冻泵的冷冻水流量V0在限制范围外,或冷却泵的冷却水流量Vi在限制范围外,
则r=-100Pq,否则,r=-Pq
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
3.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
4.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
LMCi)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2,其中,LMCi)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,Lavg(θ)为评论家网络的损失函数平均值,Ltari)为目标评论家网络的损失函数值,
Figure FDA0002755119160000021
其中,
Figure FDA0002755119160000022
是目标评论家网络的Q值平均值,Qavg(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏,
Figure FDA0002755119160000023
其中,K为在线评论家网络的个数,Qi(s,a,θi)为第i个在线评论家网络的Q值,
Figure FDA0002755119160000024
其中,K为目标评论家网络的个数,
Figure FDA0002755119160000025
为第i个目标评论家网络的Q值,
Figure FDA0002755119160000031
为K个目标评论家网络的Q值平均值,
Figure FDA0002755119160000032
其中,r(s,a)为立即奖赏,Qi(s,a,θi)为第i个在线评论家网络的Q值。
5.根据权利要求1所述的基于强化学习的制冷机组控制装置,其特征在于,
所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:
Figure FDA0002755119160000033
其中
Figure FDA0002755119160000034
表示策略梯度,N为网络个数,
Figure FDA0002755119160000035
为EMA网络的策略梯度,
Figure FDA0002755119160000036
为策略网络的策略梯度,
通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:
Figure FDA0002755119160000037
θμ′←qθμ+(1-q)θμ′,其中,θEMA为EMA网络的权重,
Figure FDA0002755119160000038
为评论家网络的权重,θμ为策略网络的权重,m,n,q都是0到1之间的浮点数。
6.一种基于强化学习的制冷机组控制方法,其特征在于,
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
7.根据权利要求6所述的基于强化学习的制冷机组控制方法,其特征在于,
所述DDPG算法中,通过策略梯度来更新行动者的策略,具体应用以下公式:
Figure FDA0002755119160000039
其中
Figure FDA00027551191600000310
表示策略梯度,N为网络个数,
Figure FDA00027551191600000311
为EMA网络的策略梯度,
Figure FDA00027551191600000312
为策略网络的策略梯度,
通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数,具体应用以下公式:
Figure FDA0002755119160000041
θμ′←qθμ+(1-q)θμ′,其中,θEMA为EMA网络的权重,
Figure FDA0002755119160000042
为评论家网络的权重,θμ为策略网络的权重,m,n,q都是0到1之间的浮点数。
8.根据权利要求6所述的基于强化学习的制冷机组控制方法,其特征在于,
所述DDPG算法的经验回放池的数量为两个,分别为B1经验回放池和B2经验回放池,具有高TD误差的经验存储在B2经验回放池,其他经验存储在B1经验回放池中,当进行采样时,从B1经验回放池中采样一部分,从B2经验回放池中采样一部分,且从B2经验回放池中采样的概率的初始值为8%到12%,且所述概率随着时间的后移逐渐降低。
9.根据权利要求6所述的基于强化学习的制冷机组控制方法,其特征在于,
所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络,所述DDPG算法通过以下最小化损失函数来更新每个评论家网络:
LMCi)=αLavg(θ)+βLtari)+η(Qi(s,a,θi)-Qavg(s,a,θ))2,其中,LMCi)为平均评论家的损失函数平均值,α,β和η为权重,α,β和η都是0到1之间的浮点数,α和β加起来等于1,Lavg(θ)为评论家网络的损失函数平均值,Ltari)为目标评论家网络的损失函数值,
Figure FDA0002755119160000043
其中,
Figure FDA0002755119160000044
是目标评论家网络的Q值平均值,Qavg(s,a,θ)为K个在线评论家网络的Q值平均值,r(s,a)为立即奖赏,
Figure FDA0002755119160000045
其中,K为在线评论家网络的个数,Qi(s,a,θi)为第i个在线评论家网络的Q值,
Figure FDA0002755119160000046
其中,K为目标评论家网络的个数,
Figure FDA0002755119160000047
为第i个目标评论家网络的Q值,
Figure FDA0002755119160000048
为K个目标评论家网络的Q值平均值,
Figure FDA0002755119160000051
其中,r(s,a)为立即奖赏,Qi(s,a,θi)为第i个在线评论家网络的Q值。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求6至9中任意一项所述的制冷机组控制方法对应的操作。
CN202011201158.7A 2020-11-02 2020-11-02 一种基于强化学习的制冷机组控制装置及控制方法 Active CN112325447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011201158.7A CN112325447B (zh) 2020-11-02 2020-11-02 一种基于强化学习的制冷机组控制装置及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011201158.7A CN112325447B (zh) 2020-11-02 2020-11-02 一种基于强化学习的制冷机组控制装置及控制方法

Publications (2)

Publication Number Publication Date
CN112325447A true CN112325447A (zh) 2021-02-05
CN112325447B CN112325447B (zh) 2022-04-26

Family

ID=74324181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011201158.7A Active CN112325447B (zh) 2020-11-02 2020-11-02 一种基于强化学习的制冷机组控制装置及控制方法

Country Status (1)

Country Link
CN (1) CN112325447B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114279042A (zh) * 2021-12-27 2022-04-05 苏州科技大学 一种基于多智能体深度强化学习的中央空调控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180100661A1 (en) * 2016-10-09 2018-04-12 Ecoer Inc. Demand response based air conditioning management systems and method
CN108386971A (zh) * 2018-01-28 2018-08-10 浙江博超节能科技有限公司 中央空调节能自控系统
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
CN110598906A (zh) * 2019-08-15 2019-12-20 珠海米枣智能科技有限公司 一种基于深度强化学习的大型商场能耗实时控制方法和系统
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111351180A (zh) * 2020-03-06 2020-06-30 上海外高桥万国数据科技发展有限公司 一种运用人工智能实现数据中心节能温控的系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180100661A1 (en) * 2016-10-09 2018-04-12 Ecoer Inc. Demand response based air conditioning management systems and method
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
CN108386971A (zh) * 2018-01-28 2018-08-10 浙江博超节能科技有限公司 中央空调节能自控系统
CN110598906A (zh) * 2019-08-15 2019-12-20 珠海米枣智能科技有限公司 一种基于深度强化学习的大型商场能耗实时控制方法和系统
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111351180A (zh) * 2020-03-06 2020-06-30 上海外高桥万国数据科技发展有限公司 一种运用人工智能实现数据中心节能温控的系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何超: "基于深度强化学习的建筑节能控制方法研究", 《中国优秀硕士学位论文全文数据库(工程科技Ⅱ期)》 *
何超: "增强型深度确定策略梯度算法", 《通信学报》 *
白辰甲等: "基于TD-error自适应校正的深度Q学习主动采样方法", 《计算机研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114017904B (zh) * 2021-11-04 2023-01-20 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114279042A (zh) * 2021-12-27 2022-04-05 苏州科技大学 一种基于多智能体深度强化学习的中央空调控制方法
CN114279042B (zh) * 2021-12-27 2024-01-26 苏州科技大学 一种基于多智能体深度强化学习的中央空调控制方法

Also Published As

Publication number Publication date
CN112325447B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN112325447B (zh) 一种基于强化学习的制冷机组控制装置及控制方法
Lin et al. Episodic memory deep q-networks
WO2022012542A1 (zh) 基于数据分析的云计算数据中心精密空调节能控制方法
US20220335179A1 (en) System and Method for Calibrating a Model of Thermal Dynamics
CN113739365A (zh) 中央空调冷站群控节能控制方法、装置、设备及存储介质
WO2022111232A1 (zh) 水冷系统的控制模型优化方法、电子设备和存储介质
Miryoosefi et al. A simple reward-free approach to constrained reinforcement learning
US20200005185A1 (en) Automatic control artificial intelligence device and method for updating a control function
US20230106530A1 (en) Calibration System and Method for Calibrating an Industrial System Model using Simulation Failure
CN111950158A (zh) 基于序列最小二乘规划的中央空调能耗优化方法
CN114279042A (zh) 一种基于多智能体深度强化学习的中央空调控制方法
CN113791538B (zh) 一种机房设备的控制方法、控制设备及控制系统
CN116112563A (zh) 一种基于流行度预测的双策略自适应缓存替换方法
CN113821903B (zh) 温度控制方法和设备、模块化数据中心及存储介质
Hanssen et al. Scenario based implicit dual model predictive control
CN116697567A (zh) 一种中央空调水系统节能优化控制方法及装置
CN114322382B (zh) 机房制冷控制方法、系统、设备及存储介质
Li et al. Improving exploration in actor–critic with weakly pessimistic value estimation and optimistic policy optimization
CN114912368A (zh) 结合梯度算法和演化算法对神经网络模型进行优化的方法
CN114002949B (zh) 基于人工智能的控制方法与控制装置
CN114997306A (zh) 一种基于动态贝叶斯网络的目标意图识别方法
CN112944599A (zh) 空调系统的多参数耦合控制方法及装置
CN111291808A (zh) 数据处理方法、数据处理装置、空调系统和存储介质
WO2022257267A1 (zh) 环境参数控制设备集群控制方法、装置、设备及存储介质
Cérou et al. Adaptive Reduced Multilevel Splitting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant