CN114216256A

CN114216256A - 离线预训练-在线学习的通风系统风量控制方法

Info

Publication number: CN114216256A
Application number: CN202111580810.5A
Authority: CN
Inventors: 崔璨; 黎明; 李春晓
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-22
Anticipated expiration: 2041-12-22
Also published as: CN114216256B

Abstract

本发明提供一种离线预训练‑在线学习的通风系统风量控制方法，包括离线预训练和在线学习两个阶段。在离线预训练过程中，采用目标风量构建训练数据库，建立通风系统的仿真模型，逐一采用目标风量及仿真模型的风阀角度、及角度对应的仿真出风量数据进行风量‑风阀开度智能体的离线训练。在训练过程中，进行策略输出和策略评价网络参数的更新。将离线训练后的网络参数作为初始参数，采用在线数据对风量‑风阀开度智能体进行学习训练，最终获得合格智能体参数。该方法不需要建立建筑环境模型，也不需要采集标签数据，能够从任意初始状态快速调节到目标风量，大大提高了通风系统风量控制的自动化程度，对提高室内舒适度、系统性能有重要意义。

Description

离线预训练-在线学习的通风系统风量控制方法

技术领域

本发明涉及智能控制技术领域，具体涉及一种离线预训练-在线学习的通风系统风量控制方法。

背景技术

通风系统用于平衡室内冷热负荷，满足室内通风需求，维持房间的正、负压要求。通风系统的风量控制技术一般通过调节各房间的风阀开度，改变各个房间送风量，以满足室内负荷变化及调控参数变化的要求，并实现系统的舒适与节能。

目前通风系统的风量控制方法主要为传统的“风量等比调整法”。然而，由于通风系统的风量调节较为复杂，非线性耦合极强，传统方法难以达到理想的效果。其主要原因在于，传统方法本质上是一种经验试错法，调试过程繁琐，耗费大量的时间精力。

针对传统方法的缺点，一些学者提出基于模型的风量控制方法，如模型预测控制、随机模型预测控制、分布式模型预测控制、非线性优化方法等。然而，由于建筑环境复杂以及各种因素的影响难以建模，当模型建立得不准确时，风量控制精度将受到很大影响。另外，不同的建筑环境需要建立不同的模型，使得前述方法很难直接应用于所有建筑环境，不具备通用性。另外，在优化求解过程中，这些方法都必须计算全部或部分的可行解并选择最佳解。当解空间很大时，计算过程将非常耗时。也有一些学者提出基于标签数据的风量控制方法，但是由于需要大量的标签数据，并且标签数据很难获得，导致此类方法代价较高。

发明内容

本发明的目的在于解决上述技术问题之一，提供一种可减少控制系统设计时间成本、采用离线预训练、在线学习的通风系统控制方法，该方法可减少风阀调节步数，将通风系统快速调节至控制目标。

为解决以上问题，本发明提供如下技术方案：

一种离线预训练-在线学习的通风系统风量控制方法，适用于多区域通风系统的控制，所述通风系统包括中央控制器、位于每个房间内的通风口、通风口处设置的风阀、风阀控制器及风阀执行器，所述中央控制器连接每个风阀控制器，风阀控制器通过风阀执行器控制风阀开度；

所述控制方法包括离线训练方法和在线学习方法；

所述离散训练方法包括以下步骤：

S1：数据库构建步骤：根据实际通风系统的出风量要求，构建离线学习数据库，所述数据库作为风阀训练的目标风量；

S2：仿真模型建立步骤：建立通风系统的仿真模型，可基于仿真模型获得风阀角度、及角度对应的出风量；

S3：离线预训练步骤：采用预训练神经网络拟合风量-风阀开度智能体，初始化神经网络参数，逐一选取训练用目标风量，同时将仿真系统风阀角度及出风量输入智能体，训练智能体并获得预训练神经网络参数，所述预训练神经网络包括策略输出网络和策略评价网络，所述策略输出网络用于生成风阀的动作指令，所述策略评价网络用于评价动作指令的优异度，以使策略输出网络根据策略评价网络的评价结果调节输出策略；所述输出为风阀角度增量值；离线预训练结束获得预训练神经网络参数；

所述在线学习方法包括以下步骤：

S4：将获得的预训练神经网络参数作为初始参数值，同时将实际通风系统中测量获得的风阀角度、出风口处的风量输入风量-风阀开度智能体，进行在线神经网络学习，进一步更新在线神经网络参数；所述在线神经网络包括策略输出网络和策略评价网络，所述策略输出网络用于生成风阀的动作指令，所述测量评价网络用于评价动作指令的优异度，以使策略输出根据策略评价的评价结果调节输出策略；所述输出为风阀角度增量值；

S5：将在线学习合格的风量-风阀开度智能体用于通风系统风阀的控制。

本发明一些实施例中，所述策略输出网络及策略评价网络参数更新步骤包括：

设定策略输出神经网络目标函数J_π(φ)：

其中，s_t表示智能体训练模型的输入，用于表示输入的目标风量、风阀开度及角度下的出风量；D表示经验回放池，用于存储训练过程中产生的数据；D_KL函数表示KL散度，用于测量变量之间的差异；π_φ(·|s_t)函数表示策略输出神经网络，用于表示在输入为s_t时，选择某一风阀动作的概率，φ为神经网络参数；Q_ω(s_t,·)表示状态-动作函数，用于表示在输入为s_t时，被选择动作的优劣，ω为神经网络参数；Z_ω(s_t)为将exp(Q_ω(s_t,·))的指数约束在概率范围内的函数，用于与π_φ(·|s_t)计算KL散度；E为期望求取的数学函数；

设定策略评价神经网络目标函数J_Q(ω):

其中，Q(s_t,a_t)为参数为ω的状态-动作函数，

为参数为

的目标状态-动作函数，

为神经网络参数，E为期望求取的数学函数；

其中，τ为学习率；

Q(s_t,a_t)＝E[G_t|s_t＝s,a_t＝a,π]；

其中，G_t为智能体的回报，用于表示输入为s_t时，智能体的累计奖励。

本发明一些实施例中，G_t的获取，包括以下步骤：

定义目标风量q_g下，智能体输出控制指令对应的实时风量为q_t；

计算风量绝对误差：

根据绝对误差，计算智能体在各时刻t的反馈奖励r_t：

r_t＝-c^惩罚max(q_ratio,t)+c^奖励；

其中：

基于各时刻的反馈奖励计算风量-风阀开度智能体各时刻的回报G_t：

其中，T为风量-风阀开度智能体完成训练所需的步数，t表示具体训练步数，i为中间变量，γ为折扣因子；

基于各时刻的回报G_t的期望进行策略评价。

本发明一些实施例中，策略输出神经网络对目标函数求梯度，运用梯度下降的方法对风量-风阀开度智能体神经网络的参数φ进行更新。

本发明一些实施例中，策略评价神经网络对目标函数求梯度，运用梯度下降的方法对风量-风阀开度智能体神经网络的参数ω进行更新。

本发明一些实施例中，所述风量-风阀开度智能体训练步骤进一步包括：

训练过程中，将每次训练过程中产生的数据存储在经验回放池；

策略输出和策略评价网络更新时，在经验回放池随机抽取批量数据进行参数更新训练。

本发明一些实施例中，进一步包括以下步骤：

智能体训练步骤中，选取目标风量进行训练，定义为当前目标风量；

参数更新后，采用训练后的智能体进行风阀控制并记录调节到当前目标风量的调节步数；

判断所述步数是否小于设定的阈值；

若是，判定训练合格；

若否，判定训练不合格；

当训练合格次数大于设定的阈值，判定对当前目标风量的训练结束，更换下一目标风量继续进行训练。

本发明提供的系统有益效果在于：

1、本发明提出一种在没有准确的建筑环境模型的情况下，在随机的初始风阀角度状态下，经过离线预训练-在线学习的过程，获得合格的风量-风阀开度智能体的方法。该方法不需要建立建筑环境模型，也不需要采集标签数据，在训练过程中变换目标风量，能够从任意初始状态快速调节到目标风量，大大提高了通风系统风量控制的自动化程度，大大加速了在线学习的收敛过程，显著降低了学习成本，提高了风量控制的效率，对提高室内舒适度、系统性能有重要意义。

2、该方法使用预模型训练智能体，在实际系统中使用训练好的智能体进行调节。训练完成的智能体可以从任意的初始角度开始找到符合任意目标流量的风阀角度组合。

3、该方法解决了基于模型的方法中模型难以准确建立的问题，避免了由于模型带来的误差，避免了大量标签数据的采集，减少了采集数据的时间；可以解决连续的状态动作空间问题，避免了由于数据维数过大带来的计算量大的问题；解决当前风平衡调试方法中存在的耗费时间长的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明通风系统控制方法流程示意图。

图2为策略输出神经网络结构示意图。

图3为策略评价神经网络结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种通风系统风量控制策略，通风系统可以为空调。通风系统包括中央控制器、风阀执行器和风量-风阀开度智能体，风量-风阀开度智能体用于风阀执行器的控制以控制风阀的开度，控制出风量，以使通风系统出风量满足目标要求。

以中央空调为例，主要包括中央控制器、通风系统(包括多个出风口、数据采集器等)、基于强化学习的风量-风阀开度智能体、风阀执行器、通风系统风量调节阀门。训练风量-风阀开度智能体，在输入当前的风阀角度、出风口处的实时风量与目标风量的情况下，寻找能够达到目标风量的最优风阀角度调节方法，控制风阀执行器动作，实现自动调节风阀角度达到房间的新风量需求。

一种离线预训练-在线学习的通风系统风量控制方法，适用于多区域通风系统的控制。

首先介绍多区域通风系统的结构。通风系统包括中央控制器、位于每个房间内的通风口、通风口处设置的风阀、风阀控制器、风阀执行器及数据才集体，中央控制器连接每个风阀控制器，风阀控制器通过风阀执行器控制风阀开度。

其基本控制过程如下：中央控制器可以根据各房间的设定风量，计算每个房间的风阀开度，并下发给各房间的风阀控制器；通风系统数据采集器实时采集各房间风阀开度及出风口的实际风量；房间风阀接收中央控制器计算的风阀开度信息，并发送给该房间的风阀执行器；房间风阀执行器执行中央控制器发送的风阀动作；房间风阀改变挡板开度调节送入房间的风量。

为了实现对多区域通风系统的更好的控制，本专利中，设计控制方法包括离线预训练和在线学习两个阶段，具体如下。

离散预训练方法包括以下步骤：

S1：数据库构建步骤：根据实际通风系统的出风量要求，构建离线学习数据库，所述数据库作为风阀训练的目标风量。

具体的说，离线预训练数据库为目标风量库，生成目标风量库用于强化学习中目标的变换。可以根据实际应用中通风系统中新风量的需求，随机选取几十组目标风量组成目标风量库，作为预训练的目标风量。

S2：仿真模型建立步骤：建立通风系统的仿真模型，可基于仿真模型获得风阀角度、及角度对应的出风量。

实际通风系统不参与离线预训练过程，离线预训练的过程中需要知道运行智能体输出的动作环境的状态发生的变化，因此需要根据实际的通风系统建立环境仿真模型。

S3：离线预训练步骤：采用预训练神经网络拟合风量-风阀开度智能体，初始化神经网络参数，逐一选取训练用目标风量，同时将仿真系统风阀角度及出风量输入智能体，训练智能体并获得预训练神经网络参数，预训练神经网络包括策略输出网络和策略评价网络，策略输出网络用于生成风阀的动作指令，策略评价网络用于评价动作指令的优异度，以使策略输出网络根据策略评价网络的评价结果调节输出策略；所述输出为风阀角度增量值；离线预训练结束获得预训练神经网络参数。

训练过程中，将仿真模型的风阀角度、计算出风量，以及数据库中的训练用目标风量逐一输入风量-风阀开度智能体，进行风量-风阀开度智能体训练；策略输出网络根据策略评价网络调整输出策略。根据实际的物理通风系统，训练过程中，风量-风阀开度智能体的输出定义为风阀角度的调节量，调节量的步长值选择为3(°)，即每次输出控制指令为风阀开度最大改变3(°)。预训练结束后，获得每个目标风量下，智能体的输出动作。

本发明一些实施例中，策略输出步骤及策略评价步骤包括以下步骤。

策略输出神经网络称作策略π_φ(a_t|s_t)，为在输入s_t下选择动作a_t的概率，神经网络中的参数为φ。策略输出模块为多输入多输出，设置神经网络的输入为通风系统数据采集器采集到的出风口处的风量、风阀角度与中央控制器计算的目标风量，输出为选择风阀角度概率的高斯分布的均值与方差，根据高斯分布选取风阀角度。策略评价模块为多输入单输出模块，设置神经网络的输入为通风系统数据采集器采集到的出风口处的风量、风阀角度与中央控制器计算的目标风量，输出为在输入的状态下选择选择的风阀开度的好坏，用于评价策略的好坏。

设定策略输出神经网络目标函数J_π(φ)：

其中，s_t表示风量-风阀开度智能体训练模型的输入，用于表示输入的目标风量、风阀开度及角度下的出风量；D表示经验回放池，用于存储训练过程中产生的数据，在进行策略输出神经网络参数更新时，可采用经验回放池中的数据更新神经网络参数，提高策略输出神经网络性能；D_KL(D_KL(π₁||π₂))函数表示KL散度，用于测量变量π₁和π₂之间的差异，对应测量输出目标函数中π_φ(·|s_t)和

之间的差异；π_φ(·|s_t)函数表示策略输出神经网络，用于表示在输入为s_t时，选择某一动作的概率，此处所述的动作是指风阀的角度调整动作，φ为神经网络参数；Q_ω(s_t,·)表示状态动作函数，用于表示在输入为s_t时，被选择动作的优劣，ω为神经网络参数；Z_ω(s_t)为将exp(Q_ω(s_t,·))约束在概率范围内的函数，用于与π_φ(·|s_t)计算KL散度。由于策略输出神经网络参数更新的时候Z_ω(s_t)可以约去，故Z_ω(s_t)可以随意选取；E为期望求取的数学函数；

设定策略评价神经网络目标函数J_Q(ω):

其中，Q(s_t,a_t)为参数为ω的状态-动作函数；

为参数为

的目标状态-动作函数，

为神经网络参数；E为期望求取的数学函数；

其中，τ为学习率；

Q(s_t,a_t)＝E[G_t|s_t＝s,a_t＝a,π]；

其中，G_t为智能体的回报，用于表示输入为s_t时，风量-风阀开度智能体的累计奖励。

参考图2和图3，策略输出神经网络和策略评价神经网络中每一层的神经元数为64，神经网络参数更新的学习率为1e-3，训练网络的优化器为Adam优化器，为了避免神经网络过度拟合，增加L2正则化因子选项，正则因子设置为1e-5。

本发明一些实施例中，在前述风量-风阀开度智能体训练过程中：

将每次训练使用后的数据存储在经验回放池D；

策略输出和策略评价神经网络参数更新时，在经验回放池随机抽取批量数据进行更新训练。

本发明一些实施例中，G_t的获取，包括以下步骤：

将风量-风阀开度智能体得到的反馈定义为奖励，判断风量-风阀开度智能体在当前的环境状态下得出的风阀角度增量的好坏。在风量-风阀开度智能体每个时间步t都会得到一个反馈奖励r_t，直到训练完成，达到末端状态s_T。

定义目标风量q_g下，风量-风阀开度智能体输出控制指令对应的实时风量为q_t；

计算风量绝对误差：

根据反馈判断当前风阀角度组合的好坏，根据反馈调节智能体输出动作的值。智能体在当前状态下选择了一个不合适的动作或者当前风阀角度不符合目标风量，反馈的值为负值；智能体调节到了符合目标的风阀角度组合时，反馈的值为正值。

根据绝对误差，计算风量-风阀开度智能体在各时刻t的反馈奖励r_t：

r_t＝-c^惩罚max(q_ratio,t)+c^奖励；

其中：

其中，T为风量-风阀开度智能体完成训练所需的步数，t表示具体训练步数，i为中间变量，γ为折扣因子；基于各时刻的回报G_t进行的期望策略评价。根据工业允许误差，设置当智能体调节实时风量在目标风量误差的百分之八以内认为调节完成。

在训练过程中，将当前时刻的通风系统状态s_t、风阀动作a_t、获得的奖励r_t及通风系统下一时刻的状态s_t+1组合(s_t,a_t,r_t,s_t+1)储存在经验回放池D中，神经网络更新时使用经验回放池中的数据。在每次更新时，从经验回放池中随机抽取多个样本进行批量式训练。在本专利中设置经验回放池D的大小为1000，每次更新在经验回放池中采样大小为32。

训练过程的算法及参数的设定如下：根据要解决的物理问题的性质选择强化学习算法为soft actor-critic，设置强化学习参数，设置强化学习的最大幕数为10000，每个幕执行的最大时间步为400步，设置强化学习的折扣因子γ为0.99，设置强化学习中探索因子的学习率τ为0.0003，设置经验池D的大小为1000。

重复前述步骤，直至完成所有目标风量的训练，获得对应的风阀控制策略。

在线学习方法包括以下步骤：

S4：将获得的预训练神经网络参数作为初始参数值，同时将实际通风系统中测量获得的风阀角度、出风口出风量及目标风量输入风量-风阀开度智能体，进行在线神经网网络学习，进一步更新在线神经网络参数；所述在线更新神经网络参数的步骤包括策略输出和策略评价神经网络更新，所述策略输出神经网络用于生成风阀的动作指令，测量评价步骤用于评价动作指令的优异度，以使策略输出网络根据策略评价网络的评价结果调节输出策略；所述输出为风阀角度增量值；

在线学习的步骤与离线预训练的步骤的区别在于，是将智能体应用于实际的通风系统，参数更新采用通风系统的真实运行数据，策略输出网络和策略评价网络参数更新的目标函数均与预训练时相同，评价的指标标准也相同。

本发明一些实施例中，在风量-风阀开度智能体离线训练步骤中，通过如下方法，判断是否结束当前目标风量值的训练。

选取目标风量进行训练，定义为当前目标风量；

参数更新后，采用训练后的风量-风阀开度智能体进行风阀控制并记录调节到当前目标风量的调节步数；

判断所述步数是否小于设定的阈值；本实施例中，该阈值设定为30，判断调节到当前目标风量的步数是否少于30步，当调节到当前目标风量的步数少于30步，记录训练完成的次数加一，否则置零；

若是，判定训练合格；

若否，判定训练不合格；

当训练合格次数大于设定的阈值，判定对当前目标风量的训练结束，更换下一目标风量继续进行训练。本实施例中，该阈值设定为5，判断当前目标风量的训练完成的次数是否大于5，当大于5，当前训练的目标序号加一，更换下一个目标值，否则保持不变。以上为在训练过程中变换目标的方法。

前述训练过程，不需要收集标签数据，不需要建立准确的建筑环境数学模型，避免了收集标签数据的代价，避免了模型建立不准确导致的预测误差，此外，在智能体训练的过程中变换目标风量，训练完成的智能体能够从任意的初始风阀角度调节到符合任意的新风需求的值。训练过程中，变换训练目标的强化学习方法可以使智能体适应实际通风系统中实时变化的目标风量，可以避免不必要的风阀调节次数。

本发明一些实施例中，进一步包括在线调试步骤，将离线训练和在线学习后的风量-风阀开度智能体进行在线调试。

将训练好的智能体运用到实际的通风系统中。首先，智能体能够获取实际通风系统中每个出风口处的风阀角度与实时风量，能够得到目标风量的大小。智能体在获得数据后进行分析，给出风阀调节动作。风量-风阀开度智能体装置与通风系统之间能够相互接受和发送数据信息，通风系统将实时风量与风阀角度传递给风量-风阀开度智能体，风量-风阀开度智能体通过所获得的数据与目标风量，将风阀应该调节的动作传递给通风系统，通风系统调节风阀。具体的实施步骤如下：

步骤1：风量-风阀开度智能体获得来自工程师指定的目标风量(该目标风量与数据库中的目标风量相对应)；

步骤2：通风系统将检测到的风阀角度、每个出风口风量传递给风量-风阀开度智能体；

步骤3：风量-风阀开度智能体获得来自通风系统的数据及工程师指定的目标，计算出在当前的状态下风阀角度应该调节的大小与方向；

步骤4：通风系统检测当前风量是否符合标准，若不符合重复步骤2、3。

S6：将训练和调试结束的风量-风阀开度智能体用于通风系统风阀的控制。

仍然以中央空调为例，来说明本发明控制方法和控制系统的应用。中央控制器根据房间内的新风量需求，计算出通风系统每个出风口处的目标风量；通风系统数据采集器采集当前通风系统风阀角度与出风口处的实时风量；基于强化学习的风量-风阀开度智能体给出应该调节的风阀角度；风阀执行器执行来自风量-风阀开度智能体的动作。

采用本发明训练完成的智能体可以从任意的初始角度开始找到符合任意目标风量的风阀开度，以满足所有房间的风量需求。解决了实际系统中受多种因素影响的变化的目标风量的问题；解决了当前风量控制调试方法中存在的耗费时间长的问题；为一种风量控制的新方法。

本发明既可以解决手动调节风阀中存在的耗费时间过长的问题，也可以避免在机器学习中需要收集大量标签数据的问题，提高了变风量通风系统的自动化程度，对降低能耗、提高舒适度有重要意义。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种离线预训练-在线学习的通风系统风量控制方法，其特征在于，适用于多区域通风系统的控制，所述通风系统包括中央控制器、位于每个房间内的通风口、通风口处设置的风阀、风阀控制器及风阀执行器，所述中央控制器连接每个风阀控制器，风阀控制器通过风阀执行器控制风阀开度；

所述控制方法包括离线预训练方法和在线学习方法；

所述离散预训练方法包括以下步骤：

S3：离线预训练步骤：采用预训练神经网络拟合风量-风阀开度智能体，初始化神经网络参数，逐一选取训练用目标风量，同时将仿真系统风阀角度及出风量输入智能体，训练智能体并获得预训练的神经网络参数，所述预训练神经网络包括策略输出网络和策略评价网络，所述策略输出网络用于生成风阀的动作指令，所述策略评价网络用于评价动作指令的优异度，以使策略输出网络根据策略评价网络的评价结果调节输出策略；所述输出为风阀角度增量值；离线预训练结束获得预训练神经网络参数；

所述在线学习方法包括以下步骤：

S4：将获得的预训练神经网络参数作为初始参数值，同时将实际通风系统中测量获得的风阀角度、出风口处的出风量输入风量-风阀开度智能体，进行在线神经网络学习，进一步更新在线神经网络参数；所述在线神经网络包括策略输出网络和策略评价网络，所述策略输出网络用于生成风阀的动作指令，所述测量评价网络用于评价动作指令的优异度，以使策略输出根据策略评价的评价结果调节输出策略；所述输出为风阀角度增量值；

2.如权利要求1所述的离线预训练-在线学习的通风系统风量控制方法，其特征在于，所述策略输出网络及策略评价网络的参数更新步骤包括：

设定策略输出神经网络目标函数J_π(φ)：

其中，s_t表示智能体训练模型的输入，用于表示输入的目标风量、风阀开度及角度下的出风量；D表示经验回放池，用于存储训练过程中产生的数据；D_KL函数表示KL散度，用于测量变量之间的差异；π_φ(·|s_t)函数表示策略输出神经网络，用于表示在输入为s_t时，选择某一风阀动作的概率，φ为神经网络参数；Q_ω(s_t，·)表示状态-动作函数，用于表示在输入为s_t时，被选择动作的优劣，ω为神经网络参数；Z_ω(s_t)为将exp(Q_ω(s_t，·))的指数约束在概率范围内的函数，用于与π_φ(·|s_t)计算KL散度；E为期望求取的数学函数；

设定策略评价神经网络目标函数J_Q(ω)：