CN114216256B - 离线预训练-在线学习的通风系统风量控制方法 - Google Patents

离线预训练-在线学习的通风系统风量控制方法 Download PDF

Info

Publication number
CN114216256B
CN114216256B CN202111580810.5A CN202111580810A CN114216256B CN 114216256 B CN114216256 B CN 114216256B CN 202111580810 A CN202111580810 A CN 202111580810A CN 114216256 B CN114216256 B CN 114216256B
Authority
CN
China
Prior art keywords
training
air
air valve
strategy
air volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111580810.5A
Other languages
English (en)
Other versions
CN114216256A (zh
Inventor
崔璨
黎明
李春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202111580810.5A priority Critical patent/CN114216256B/zh
Publication of CN114216256A publication Critical patent/CN114216256A/zh
Application granted granted Critical
Publication of CN114216256B publication Critical patent/CN114216256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/70Control systems characterised by their outputs; Constructional details thereof
    • F24F11/72Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure
    • F24F11/74Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/50Control or safety arrangements characterised by user interfaces or communication
    • F24F11/54Control or safety arrangements characterised by user interfaces or communication using one central controller connected to several sub-controllers
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)
  • Fuzzy Systems (AREA)
  • Fluid Mechanics (AREA)
  • Human Computer Interaction (AREA)

Abstract

本发明提供一种离线预训练‑在线学习的通风系统风量控制方法,包括离线预训练和在线学习两个阶段。在离线预训练过程中,采用目标风量构建训练数据库,建立通风系统的仿真模型,逐一采用目标风量及仿真模型的风阀角度、及角度对应的仿真出风量数据进行风量‑风阀开度智能体的离线训练。在训练过程中,进行策略输出和策略评价网络参数的更新。将离线训练后的网络参数作为初始参数,采用在线数据对风量‑风阀开度智能体进行学习训练,最终获得合格智能体参数。该方法不需要建立建筑环境模型,也不需要采集标签数据,能够从任意初始状态快速调节到目标风量,大大提高了通风系统风量控制的自动化程度,对提高室内舒适度、系统性能有重要意义。

Description

离线预训练-在线学习的通风系统风量控制方法
技术领域
本发明涉及智能控制技术领域,具体涉及一种离线预训练-在线学习的通风系统风量控制方法。
背景技术
通风系统用于平衡室内冷热负荷,满足室内通风需求,维持房间的正、负压要求。通风系统的风量控制技术一般通过调节各房间的风阀开度,改变各个房间送风量,以满足室内负荷变化及调控参数变化的要求,并实现系统的舒适与节能。
目前通风系统的风量控制方法主要为传统的“风量等比调整法”。然而,由于通风系统的风量调节较为复杂,非线性耦合极强,传统方法难以达到理想的效果。其主要原因在于,传统方法本质上是一种经验试错法,调试过程繁琐,耗费大量的时间精力。
针对传统方法的缺点,一些学者提出基于模型的风量控制方法,如模型预测控制、随机模型预测控制、分布式模型预测控制、非线性优化方法等。然而,由于建筑环境复杂以及各种因素的影响难以建模,当模型建立得不准确时,风量控制精度将受到很大影响。另外,不同的建筑环境需要建立不同的模型,使得前述方法很难直接应用于所有建筑环境,不具备通用性。另外,在优化求解过程中,这些方法都必须计算全部或部分的可行解并选择最佳解。当解空间很大时,计算过程将非常耗时。也有一些学者提出基于标签数据的风量控制方法,但是由于需要大量的标签数据,并且标签数据很难获得,导致此类方法代价较高。
发明内容
本发明的目的在于解决上述技术问题之一,提供一种可减少控制系统设计时间成本、采用离线预训练、在线学习的通风系统控制方法,该方法可减少风阀调节步数,将通风系统快速调节至控制目标。
为解决以上问题,本发明提供如下技术方案:
一种离线预训练-在线学习的通风系统风量控制方法,适用于多区域通风系统的控制,所述通风系统包括中央控制器、位于每个房间内的通风口、通风口处设置的风阀、风阀控制器及风阀执行器,所述中央控制器连接每个风阀控制器,风阀控制器通过风阀执行器控制风阀开度;
所述控制方法包括离线训练方法和在线学习方法;
所述离散训练方法包括以下步骤:
S1:数据库构建步骤:根据实际通风系统的出风量要求,构建离线学习数据库,所述数据库作为风阀训练的目标风量;
S2:仿真模型建立步骤:建立通风系统的仿真模型,可基于仿真模型获得风阀角度、及角度对应的出风量;
S3:离线预训练步骤:采用预训练神经网络拟合风量-风阀开度智能体,初始化神经网络参数,逐一选取训练用目标风量,同时将仿真系统风阀角度及出风量输入智能体,训练智能体并获得预训练神经网络参数,所述预训练神经网络包括策略输出网络和策略评价网络,所述策略输出网络用于生成风阀的动作指令,所述策略评价网络用于评价动作指令的优异度,以使策略输出网络根据策略评价网络的评价结果调节输出策略;输出为风阀角度增量值;离线预训练结束获得预训练神经网络参数;
所述在线学习方法包括以下步骤:
S4:将获得的预训练神经网络参数作为初始参数值,同时将实际通风系统中测量获得的风阀角度、出风口处的风量输入风量-风阀开度智能体,进行在线神经网络学习,进一步更新在线神经网络参数;所述在线神经网络包括策略输出网络和策略评价网络,所述策略输出网络用于生成风阀的动作指令,所述策略评价网络用于评价动作指令的优异度,以使策略输出根据策略评价的评价结果调节输出策略;输出为风阀角度增量值;
S5:将在线学习合格的风量-风阀开度智能体用于通风系统风阀的控制。
本发明一些实施例中,所述策略输出网络及策略评价网络参数更新步骤包括:
设定策略输出神经网络目标函数Jπ(φ):
Figure GDA0003801726750000031
其中,st表示智能体训练模型的输入,用于表示输入的目标风量、风阀开度及角度下的出风量;D表示经验回放池,用于存储训练过程中产生的数据;DKL函数表示KL散度,用于测量变量之间的差异;πφ(·|t)函数表示策略输出神经网络,用于表示在输入为st时,选择某一风阀动作的概率,φ为神经网络参数;Qω(st,·)表示状态-动作函数,用于表示在输入为st时,被选择动作的优劣,ω为神经网络参数;Zω(st)为将exp(Qω(st,·))的指数约束在概率范围内的函数,用于与πφ(·|st)计算KL散度;E为期望求取的数学函数;
设定策略评价神经网络目标函数JQ(ω):
Figure GDA0003801726750000041
其中,Q(st,at)为参数为ω的状态-动作函数,
Figure GDA0003801726750000042
为参数为
Figure GDA0003801726750000043
的目标状态-动作函数,
Figure GDA0003801726750000044
为神经网络参数,E为期望求取的数学函数;
Figure GDA0003801726750000045
其中,τ为学习率;
Q(st,at)=E[Gt|st=s,at=a,π];
其中,Gt为智能体的回报,用于表示输入为at时,智能体的累计奖励。
本发明一些实施例中,Gt的获取,包括以下步骤:
定义目标风量qg下,智能体输出控制指令对应的实时风量为qt
计算风量绝对误差:
Figure GDA0003801726750000046
根据绝对误差,计算智能体在各时刻t的反馈奖励rt
rt=-c惩罚max(qratio,t)+c奖励
其中:
Figure GDA0003801726750000047
Figure GDA0003801726750000048
基于各时刻的反馈奖励计算风量-风阀开度智能体各时刻的回报Gt
Figure GDA0003801726750000049
其中,T为风量-风阀开度智能体完成训练所需的步数,t表示具体训练步数,i为中间变量,γ为折扣因子;
基于各时刻的回报Gt的期望进行策略评价。
本发明一些实施例中,策略输出神经网络对目标函数求梯度,运用梯度下降的方法对风量-风阀开度智能体神经网络的参数φ进行更新。
本发明一些实施例中,策略评价神经网络对目标函数求梯度,运用梯度下降的方法对风量-风阀开度智能体神经网络的参数ω进行更新。
本发明一些实施例中,所述风量-风阀开度智能体训练步骤进一步包括:
训练过程中,将每次训练过程中产生的数据存储在经验回放池;
策略输出和策略评价网络更新时,在经验回放池随机抽取批量数据进行参数更新训练。
本发明一些实施例中,进一步包括以下步骤:
智能体训练步骤中,选取目标风量进行训练,定义为当前目标风量;
参数更新后,采用训练后的智能体进行风阀控制并记录调节到当前目标风量的调节步数;
判断所述步数是否小于设定的阈值;
若是,判定训练合格;
若否,判定训练不合格;
当训练合格次数大于设定的阈值,判定对当前目标风量的训练结束,更换下一目标风量继续进行训练。
本发明提供的系统有益效果在于:
1、本发明提出一种在没有准确的建筑环境模型的情况下,在随机的初始风阀角度状态下,经过离线预训练-在线学习的过程,获得合格的风量-风阀开度智能体的方法。该方法不需要建立建筑环境模型,也不需要采集标签数据,在训练过程中变换目标风量,能够从任意初始状态快速调节到目标风量,大大提高了通风系统风量控制的自动化程度,大大加速了在线学习的收敛过程,显著降低了学习成本,提高了风量控制的效率,对提高室内舒适度、系统性能有重要意义。
2、该方法使用预模型训练智能体,在实际系统中使用训练好的智能体进行调节。训练完成的智能体可以从任意的初始角度开始找到符合任意目标流量的风阀角度组合。
3、该方法解决了基于模型的方法中模型难以准确建立的问题,避免了由于模型带来的误差,避免了大量标签数据的采集,减少了采集数据的时间;可以解决连续的状态动作空间问题,避免了由于数据维数过大带来的计算量大的问题;解决当前风平衡调试方法中存在的耗费时间长的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明通风系统控制方法流程示意图。
图2为策略输出神经网络结构示意图。
图3为策略评价神经网络结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种通风系统风量控制策略,通风系统可以为空调。通风系统包括中央控制器、风阀执行器和风量-风阀开度智能体,风量-风阀开度智能体用于风阀执行器的控制以控制风阀的开度,控制出风量,以使通风系统出风量满足目标要求。
以中央空调为例,主要包括中央控制器、通风系统(包括多个出风口、数据采集器等)、基于强化学习的风量-风阀开度智能体、风阀执行器、通风系统风量调节阀门。训练风量-风阀开度智能体,在输入当前的风阀角度、出风口处的实时风量与目标风量的情况下,寻找能够达到目标风量的最优风阀角度调节方法,控制风阀执行器动作,实现自动调节风阀角度达到房间的新风量需求。
一种离线预训练-在线学习的通风系统风量控制方法,适用于多区域通风系统的控制。
首先介绍多区域通风系统的结构。通风系统包括中央控制器、位于每个房间内的通风口、通风口处设置的风阀、风阀控制器、风阀执行器及数据才集体,中央控制器连接每个风阀控制器,风阀控制器通过风阀执行器控制风阀开度。
其基本控制过程如下:中央控制器可以根据各房间的设定风量,计算每个房间的风阀开度,并下发给各房间的风阀控制器;通风系统数据采集器实时采集各房间风阀开度及出风口的实际风量;房间风阀接收中央控制器计算的风阀开度信息,并发送给该房间的风阀执行器;房间风阀执行器执行中央控制器发送的风阀动作;房间风阀改变挡板开度调节送入房间的风量。
为了实现对多区域通风系统的更好的控制,本专利中,设计控制方法包括离线预训练和在线学习两个阶段,具体如下。
离线预训练方法包括以下步骤:
S1:数据库构建步骤:根据实际通风系统的出风量要求,构建离线学习数据库,所述数据库作为风阀训练的目标风量。
具体的说,离线预训练数据库为目标风量库,生成目标风量库用于强化学习中目标的变换。可以根据实际应用中通风系统中新风量的需求,随机选取几十组目标风量组成目标风量库,作为预训练的目标风量。
S2:仿真模型建立步骤:建立通风系统的仿真模型,可基于仿真模型获得风阀角度、及角度对应的出风量。
实际通风系统不参与离线预训练过程,离线预训练的过程中需要知道运行智能体输出的动作环境的状态发生的变化,因此需要根据实际的通风系统建立环境仿真模型。
S3:离线预训练步骤:采用预训练神经网络拟合风量-风阀开度智能体,初始化神经网络参数,逐一选取训练用目标风量,同时将仿真系统风阀角度及出风量输入智能体,训练智能体并获得预训练神经网络参数,预训练神经网络包括策略输出网络和策略评价网络,策略输出网络用于生成风阀的动作指令,策略评价网络用于评价动作指令的优异度,以使策略输出网络根据策略评价网络的评价结果调节输出策略;输出为风阀角度增量值;离线预训练结束获得预训练神经网络参数。
训练过程中,将仿真模型的风阀角度、计算出风量,以及数据库中的训练用目标风量逐一输入风量-风阀开度智能体,进行风量-风阀开度智能体训练;策略输出网络根据策略评价网络调整输出策略。根据实际的物理通风系统,训练过程中,风量-风阀开度智能体的输出定义为风阀角度的调节量,调节量的步长值选择为3(°),即每次输出控制指令为风阀开度最大改变3(°)。预训练结束后,获得每个目标风量下,智能体的输出动作。
本发明一些实施例中,策略输出步骤及策略评价步骤包括以下步骤。
策略输出神经网络称作策略πφ(at|st),为在输入st下选择动作at的概率,神经网络中的参数为φ。策略输出模块为多输入多输出,设置神经网络的输入为通风系统数据采集器采集到的出风口处的风量、风阀角度与中央控制器计算的目标风量,输出为选择风阀角度概率的高斯分布的均值与方差,根据高斯分布选取风阀角度。策略评价模块为多输入单输出模块,设置神经网络的输入为通风系统数据采集器采集到的出风口处的风量、风阀角度与中央控制器计算的目标风量,输出为在输入的状态下选择选择的风阀开度的好坏,用于评价策略的好坏。
设定策略输出神经网络目标函数Jπ(φ):
Figure GDA0003801726750000091
其中,st表示风量-风阀开度智能体训练模型的输入,用于表示输入的目标风量、风阀开度及角度下的出风量;D表示经验回放池,用于存储训练过程中产生的数据,在进行策略输出神经网络参数更新时,可采用经验回放池中的数据更新神经网络参数,提高策略输出神经网络性能;DKL(DKL1||π2))函数表示KL散度,用于测量变量π1和π2之间的差异,对应测量输出目标函数中πφ(·|st)和
Figure GDA0003801726750000101
之间的差异;πφ(·|st)函数表示策略输出神经网络,用于表示在输入为st时,选择某一动作的概率,此处所述的动作是指风阀的角度调整动作,φ为神经网络参数;Qω(st,·)表示状态动作函数,用于表示在输入为st时,被选择动作的优劣,ω为神经网络参数;Zω(st)为将exp(Qω(st,·))约束在概率范围内的函数,用于与πφ(·|st)计算KL散度。由于策略输出神经网络参数更新的时候Zω(st)可以约去,故Zω(st)可以随意选取;E为期望求取的数学函数;
设定策略评价神经网络目标函数JQ(ω):
Figure GDA0003801726750000102
其中,Q(st,at)为参数为ω的状态-动作函数;
Figure GDA0003801726750000103
为参数为
Figure GDA0003801726750000104
的目标状态-动作函数,
Figure GDA0003801726750000105
为神经网络参数;E为期望求取的数学函数;
Figure GDA0003801726750000106
其中,τ为学习率;
Q(st,at)=E[Gt|st=s,at=a,π];
其中,Gt为智能体的回报,用于表示输入为st时,风量-风阀开度智能体的累计奖励。
参考图2和图3,策略输出神经网络和策略评价神经网络中每一层的神经元数为64,神经网络参数更新的学习率为1e-3,训练网络的优化器为Adam优化器,为了避免神经网络过度拟合,增加L2正则化因子选项,正则因子设置为1e-5。
本发明一些实施例中,在前述风量-风阀开度智能体训练过程中:
将每次训练使用后的数据存储在经验回放池D;
策略输出和策略评价神经网络参数更新时,在经验回放池随机抽取批量数据进行更新训练。
本发明一些实施例中,Gt的获取,包括以下步骤:
将风量-风阀开度智能体得到的反馈定义为奖励,判断风量-风阀开度智能体在当前的环境状态下得出的风阀角度增量的好坏。在风量-风阀开度智能体每个时间步t都会得到一个反馈奖励rt,直到训练完成,达到末端状态sT
定义目标风量qg下,风量-风阀开度智能体输出控制指令对应的实时风量为qt
计算风量绝对误差:
Figure GDA0003801726750000111
根据反馈判断当前风阀角度组合的好坏,根据反馈调节智能体输出动作的值。智能体在当前状态下选择了一个不合适的动作或者当前风阀角度不符合目标风量,反馈的值为负值;智能体调节到了符合目标的风阀角度组合时,反馈的值为正值。
根据绝对误差,计算风量-风阀开度智能体在各时刻t的反馈奖励rt
rt=-c惩罚max(qratio,t)+c奖励
其中:
Figure GDA0003801726750000112
Figure GDA0003801726750000113
基于各时刻的反馈奖励计算风量-风阀开度智能体各时刻的回报Gt
Figure GDA0003801726750000121
其中,T为风量-风阀开度智能体完成训练所需的步数,t表示具体训练步数,i为中间变量,γ为折扣因子;基于各时刻的回报Gt进行的期望策略评价。根据工业允许误差,设置当智能体调节实时风量在目标风量误差的百分之八以内认为调节完成。
在训练过程中,将当前时刻的通风系统状态st、风阀动作at、获得的奖励rt及通风系统下一时刻的状态st+1组合(st,at,rt,st+1)储存在经验回放池D中,神经网络更新时使用经验回放池中的数据。在每次更新时,从经验回放池中随机抽取多个样本进行批量式训练。在本专利中设置经验回放池D的大小为1000,每次更新在经验回放池中采样大小为32。
训练过程的算法及参数的设定如下:根据要解决的物理问题的性质选择强化学习算法为soft actor-critic,设置强化学习参数,设置强化学习的最大幕数为10000,每个幕执行的最大时间步为400步,设置强化学习的折扣因子γ为0.99,设置强化学习中探索因子的学习率τ为0.0003,设置经验池D的大小为1000。
本发明一些实施例中,策略输出神经网络对目标函数求梯度,运用梯度下降的方法对风量-风阀开度智能体神经网络的参数φ进行更新。
本发明一些实施例中,策略评价神经网络对目标函数求梯度,运用梯度下降的方法对风量-风阀开度智能体神经网络的参数ω进行更新。
重复前述步骤,直至完成所有目标风量的训练,获得对应的风阀控制策略。
在线学习方法包括以下步骤:
S4:将获得的预训练神经网络参数作为初始参数值,同时将实际通风系统中测量获得的风阀角度、出风口出风量及目标风量输入风量-风阀开度智能体,进行在线神经网网络学习,进一步更新在线神经网络参数;所述在线更新神经网络参数的步骤包括策略输出和策略评价神经网络更新,所述策略输出神经网络用于生成风阀的动作指令,测量评价步骤用于评价动作指令的优异度,以使策略输出网络根据策略评价网络的评价结果调节输出策略;输出为风阀角度增量值;
S5:将在线学习合格的风量-风阀开度智能体用于通风系统风阀的控制。
在线学习的步骤与离线预训练的步骤的区别在于,是将智能体应用于实际的通风系统,参数更新采用通风系统的真实运行数据,策略输出网络和策略评价网络参数更新的目标函数均与预训练时相同,评价的指标标准也相同。
本发明一些实施例中,在风量-风阀开度智能体离线训练步骤中,通过如下方法,判断是否结束当前目标风量值的训练。
选取目标风量进行训练,定义为当前目标风量;
参数更新后,采用训练后的风量-风阀开度智能体进行风阀控制并记录调节到当前目标风量的调节步数;
判断所述步数是否小于设定的阈值;本实施例中,该阈值设定为30,判断调节到当前目标风量的步数是否少于30步,当调节到当前目标风量的步数少于30步,记录训练完成的次数加一,否则置零;
若是,判定训练合格;
若否,判定训练不合格;
当训练合格次数大于设定的阈值,判定对当前目标风量的训练结束,更换下一目标风量继续进行训练。本实施例中,该阈值设定为5,判断当前目标风量的训练完成的次数是否大于5,当大于5,当前训练的目标序号加一,更换下一个目标值,否则保持不变。以上为在训练过程中变换目标的方法。
前述训练过程,不需要收集标签数据,不需要建立准确的建筑环境数学模型,避免了收集标签数据的代价,避免了模型建立不准确导致的预测误差,此外,在智能体训练的过程中变换目标风量,训练完成的智能体能够从任意的初始风阀角度调节到符合任意的新风需求的值。训练过程中,变换训练目标的强化学习方法可以使智能体适应实际通风系统中实时变化的目标风量,可以避免不必要的风阀调节次数。
本发明一些实施例中,进一步包括在线调试步骤,将离线训练和在线学习后的风量-风阀开度智能体进行在线调试。
将训练好的智能体运用到实际的通风系统中。首先,智能体能够获取实际通风系统中每个出风口处的风阀角度与实时风量,能够得到目标风量的大小。智能体在获得数据后进行分析,给出风阀调节动作。风量-风阀开度智能体装置与通风系统之间能够相互接受和发送数据信息,通风系统将实时风量与风阀角度传递给风量-风阀开度智能体,风量-风阀开度智能体通过所获得的数据与目标风量,将风阀应该调节的动作传递给通风系统,通风系统调节风阀。具体的实施步骤如下:
步骤1:风量-风阀开度智能体获得来自工程师指定的目标风量(该目标风量与数据库中的目标风量相对应);
步骤2:通风系统将检测到的风阀角度、每个出风口风量传递给风量-风阀开度智能体;
步骤3:风量-风阀开度智能体获得来自通风系统的数据及工程师指定的目标,计算出在当前的状态下风阀角度应该调节的大小与方向;
步骤4:通风系统检测当前风量是否符合标准,若不符合重复步骤2、3。
S6:将训练和调试结束的风量-风阀开度智能体用于通风系统风阀的控制。
仍然以中央空调为例,来说明本发明控制方法和控制系统的应用。中央控制器根据房间内的新风量需求,计算出通风系统每个出风口处的目标风量;通风系统数据采集器采集当前通风系统风阀角度与出风口处的实时风量;基于强化学习的风量-风阀开度智能体给出应该调节的风阀角度;风阀执行器执行来自风量-风阀开度智能体的动作。
采用本发明训练完成的智能体可以从任意的初始角度开始找到符合任意目标风量的风阀开度,以满足所有房间的风量需求。解决了实际系统中受多种因素影响的变化的目标风量的问题;解决了当前风量控制调试方法中存在的耗费时间长的问题;为一种风量控制的新方法。
本发明既可以解决手动调节风阀中存在的耗费时间过长的问题,也可以避免在机器学习中需要收集大量标签数据的问题,提高了变风量通风系统的自动化程度,对降低能耗、提高舒适度有重要意义。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种离线预训练-在线学习的通风系统风量控制方法,其特征在于,适用于多区域通风系统的控制,所述通风系统包括中央控制器、位于每个房间内的通风口、通风口处设置的风阀、风阀控制器及风阀执行器,所述中央控制器连接每个风阀控制器,风阀控制器通过风阀执行器控制风阀开度;
所述控制方法包括离线预训练方法和在线学习方法;
所述离线预训练方法包括以下步骤:
S1:数据库构建步骤:根据实际通风系统的出风量要求,构建离线学习数据库,所述数据库作为风阀训练的目标风量;
S2:仿真模型建立步骤:建立通风系统的仿真模型,可基于仿真模型获得风阀角度、及角度对应的出风量;
S3:离线预训练步骤:采用预训练神经网络拟合风量-风阀开度智能体,初始化神经网络参数,逐一选取训练用目标风量,同时将仿真系统风阀角度及出风量输入智能体,训练智能体并获得预训练的神经网络参数,所述预训练神经网络包括策略输出网络和策略评价网络,所述策略输出网络用于生成风阀的动作指令,所述策略评价网络用于评价动作指令的优异度,以使策略输出网络根据策略评价网络的评价结果调节输出策略;输出为风阀角度增量值;离线预训练结束获得预训练神经网络参数;
所述在线学习方法包括以下步骤:
S4:将获得的预训练神经网络参数作为初始参数值,同时将实际通风系统中测量获得的风阀角度、出风口处的出风量输入风量-风阀开度智能体,进行在线神经网络学习,进一步更新在线神经网络参数;所述在线神经网络包括策略输出网络和策略评价网络,所述策略输出网络用于生成风阀的动作指令,所述策略评价网络用于评价动作指令的优异度,以使策略输出根据策略评价的评价结果调节输出策略;输出为风阀角度增量值;
S5:将在线学习合格的风量-风阀开度智能体用于通风系统风阀的控制;
策略输出网络及策略评价网络的参数更新步骤包括:
设定策略输出神经网络目标函数Jπ(φ):
Figure FDA0003801726740000021
其中,st表示智能体训练模型的输入,用于表示输入的目标风量、风阀开度及角度下的出风量;D表示经验回放池,用于存储训练过程中产生的数据;DKL函数表示KL散度,用于测量变量之间的差异;πφ(·|st)函数表示策略输出神经网络,用于表示在输入为st时,选择某一风阀动作的概率,φ为神经网络参数;Qω(st,·)表示状态-动作函数,用于表示在输入为st时,被选择动作的优劣,ω为神经网络参数;Zω(st)为将exp(Qω(st,·))的指数约束在概率范围内的函数,用于与πφ(·|st)计算KL散度;E为期望求取的数学函数;
设定策略评价神经网络目标函数JQ(ω):
Figure FDA0003801726740000022
其中,Q(st,at)为参数为ω的状态-动作函数,
Figure FDA0003801726740000023
为参数为
Figure FDA0003801726740000024
的目标状态-动作函数,
Figure FDA0003801726740000025
为神经网络参数,E为期望求取的数学函数;
Figure FDA0003801726740000026
其中,τ为学习率;
Q(st,at)=E[Gt|st=s,at=a,π];
其中,Gt为智能体的回报,用于表示输入为st时,智能体的累计奖励;Gt的获取,包括以下步骤:
定义目标风量qg下,智能体输出控制指令对应的实时风量为qt
计算风量绝对误差:
Figure FDA0003801726740000031
根据绝对误差,计算智能体在各时刻t的反馈奖励rt
rt=-c惩罚max(qratio,t)+c奖励
其中:
Figure FDA0003801726740000032
Figure FDA0003801726740000033
基于各时刻的反馈奖励计算风量-风阀开度智能体各时刻的回报Gt
Figure FDA0003801726740000034
其中,T为风量-风阀开度智能体完成训练所需的步数,t表示具体训练步数,i为中间变量,γ为折扣因子;
基于各时刻的回报Gt的期望进行策略评价。
2.如权利要求1所述的离线预训练-在线学习的通风系统风量控制方法,其特征在于,策略输出神经网络对目标函数求梯度,运用梯度下降的方法对风量-风阀开度智能体神经网络的参数φ进行更新。
3.如权利要求1所述的离线预训练-在线学习的通风系统风量控制方法,其特征在于,策略评价神经网络对目标函数求梯度,运用梯度下降的方法对风量-风阀开度智能体神经网络的参数ω进行更新。
4.如权利要求1所述的离线预训练-在线学习的通风系统风量控制方法,其特征在于,所述风量-风阀开度智能体训练步骤进一步包括:
训练过程中,将每次训练过程中产生的数据存储在经验回放池;
策略输出和策略评价网络更新时,在经验回放池随机抽取批量数据进行参数更新训练。
5.如权利要求1所述的离线预训练-在线学习的通风系统风量控制方法,其特征在于,进一步包括以下步骤:
智能体训练步骤中,选取目标风量进行训练,定义为当前目标风量;
参数更新后,采用训练后的智能体进行风阀控制并记录调节到当前目标风量的调节步数;
判断所述步数是否小于设定的阈值;
若是,判定训练合格;
若否,判定训练不合格;
当训练合格次数大于设定的阈值,判定对当前目标风量的训练结束,更换下一目标风量继续进行训练。
CN202111580810.5A 2021-12-22 2021-12-22 离线预训练-在线学习的通风系统风量控制方法 Active CN114216256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111580810.5A CN114216256B (zh) 2021-12-22 2021-12-22 离线预训练-在线学习的通风系统风量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111580810.5A CN114216256B (zh) 2021-12-22 2021-12-22 离线预训练-在线学习的通风系统风量控制方法

Publications (2)

Publication Number Publication Date
CN114216256A CN114216256A (zh) 2022-03-22
CN114216256B true CN114216256B (zh) 2022-09-23

Family

ID=80705035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111580810.5A Active CN114216256B (zh) 2021-12-22 2021-12-22 离线预训练-在线学习的通风系统风量控制方法

Country Status (1)

Country Link
CN (1) CN114216256B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114838452B (zh) * 2022-07-06 2022-09-02 中国海洋大学 一种应用于变风量系统的智能风阀及系统和控制方法
CN115743504B (zh) * 2023-01-07 2023-04-07 中国海洋大学 一种海洋平台多舱室通风多目标优化控制方法
CN116610037B (zh) * 2023-07-17 2023-09-29 中国海洋大学 海洋平台通风系统的风量综合优化控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4414594A1 (de) * 1994-04-27 1995-11-02 Auto Electronics Corp Sensor zum Zwecke der schadstoffabhängigen Lüftungssteuerung, insbesondere zur Kfz.-Belüftung
CN102353119A (zh) * 2011-08-09 2012-02-15 北京建筑工程学院 一种vav变风量空调系统控制方法
CN102865649A (zh) * 2012-09-24 2013-01-09 东华大学 一种基于二级模糊控制的车厢内空气质量多目标调节方法
CN103256666A (zh) * 2013-05-15 2013-08-21 天津中德职业技术学院 一种含有热管换热器的独立新风系统及其工作方法
CN113418288A (zh) * 2021-05-07 2021-09-21 绍兴艾能科技有限公司 一种基于仿真模型的神经网络多末端风阀控制系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4414594A1 (de) * 1994-04-27 1995-11-02 Auto Electronics Corp Sensor zum Zwecke der schadstoffabhängigen Lüftungssteuerung, insbesondere zur Kfz.-Belüftung
CN102353119A (zh) * 2011-08-09 2012-02-15 北京建筑工程学院 一种vav变风量空调系统控制方法
CN102865649A (zh) * 2012-09-24 2013-01-09 东华大学 一种基于二级模糊控制的车厢内空气质量多目标调节方法
CN103256666A (zh) * 2013-05-15 2013-08-21 天津中德职业技术学院 一种含有热管换热器的独立新风系统及其工作方法
CN113418288A (zh) * 2021-05-07 2021-09-21 绍兴艾能科技有限公司 一种基于仿真模型的神经网络多末端风阀控制系统及方法

Also Published As

Publication number Publication date
CN114216256A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN114216256B (zh) 离线预训练-在线学习的通风系统风量控制方法
CN109270842B (zh) 一种基于贝叶斯网络的区域供热模型预测控制系统及方法
CN103912966B (zh) 一种地源热泵制冷系统优化控制方法
CN108916986B (zh) 信息物理融合的二级管网变流量水力平衡调控方法及系统
CN111365828A (zh) 结合机器学习实现数据中心节能温控的模型预测控制方法
US20060259198A1 (en) Intelligent system for detection of process status, process fault and preventive maintenance
WO2022062339A1 (zh) 一种变风量布风器风阀的控制系统及其控制方法
CN112413831A (zh) 一种中央空调节能控制系统及方法
CN112330012B (zh) 一种基于迁移学习的建筑能耗预测方法及设备
CN109798646A (zh) 一种基于大数据平台的变风量空调控制系统和方法
CN110097929A (zh) 一种高炉铁水硅含量在线预测方法
CN105867138A (zh) 一种基于pid控制器的稳定平台控制方法及装置
CN111288610A (zh) 一种变风量空调系统变静压自适应模糊控制方法
CN105259754B (zh) 一种基于主动学习的板厚智能控制方法
CN112180733B (zh) 一种基于模糊逻辑的建筑能耗系统预测控制参数整定方法
EP4006686A1 (en) Method of controlling heat transfer process in heating substation, regulator, computer program product and heating substation
CN116449779A (zh) 基于Actor-Critic结构的汽车车身喷涂用环境数据分析方法
CN114838452B (zh) 一种应用于变风量系统的智能风阀及系统和控制方法
CN107168066A (zh) 一种温室环境自适应控制方法
CN115408930A (zh) 一种地铁通风空调系统负荷预测方法
CN114909707A (zh) 一种基于智能平衡装置和强化学习的供热二级网调控方法
CN114909706A (zh) 一种基于强化学习算法和压差控制的二级网平衡调控方法
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN113625557A (zh) 一种在线优化模型的hvac系统模型预测控制方法
CN111445005A (zh) 基于强化学习的神经网络控制方法及强化学习系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant