CN115081327A

CN115081327A - 一种基于强化学习的间壁式换热器动态仿真模型建模方法

Info

Publication number: CN115081327A
Application number: CN202210709700.2A
Authority: CN
Inventors: 王轩; 王瑞; 田华; 舒歌群
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-20

Abstract

本发明公开一种基于强化学习的间壁式换热器动态仿真模型建模方法，包括：建立换热器动态仿真模型的骨架，使用一组不重复的最基本的换热机理模型建立包括多个表征参数的机理骨架模型；使用强化学习的算法获得表征参数的准确值；拟合换热器关键状态参数和对应的表征参数之间的函数关系，观察误差，从而仅根据换热器模型当前的关键状态参数输出准确的表征参数，从而构建高精度的换热器模型。

Description

一种基于强化学习的间壁式换热器动态仿真模型建模方法

技术领域

本发明涉及能源利用技术领域，具体涉及一种基于强化学习的间壁式换热器动态仿真模型建模方法。

背景技术

间壁式换热器广泛应用于能源、动力、石油、冶金、化工、制药等工业系统中，在生产中占有举足轻重的地位，其中间壁式换热器是目前应用最广泛的换热器。换热器对整个系统的稳态和动态性能都有至关重要的影响作用，因此在系统运行过程中对换热器内的重要参数，如温度和压力进行有效的控制是保证系统安全和高效运行的必要条件。高效精准的换热过程控制系统开发，往往是建立在高精度的动态仿真模型基础上的。

目前对换热器动态仿真模型建立的方法主要分为两种：一种是基于换热机理的建模方法，另一种是基于实验数据的各类模型辨识方法。基于换热机理的建模方法中一般的换热器动态仿真模型都会简化成一维的，最多是二维，否则很难完成面向控制的动态仿真计算。模型辨识的方法在没有训练过的数据集中很难保证模型总是具有很高的精度，而且有时甚至可能会输出偏差非常大的结果。目前两种主要的换热器动态仿真模型建模方法都存在着明显的缺点：机理建模误差较大，计算速度较慢；模型辨识不可解释，适用性和稳定性差。因此本文将提出一种结合两种方法优势的新建模方法以克服目前存在的问题，从而获得一个全工况下高精度，高计算速度，高稳定性的模型。

发明内容

本发明的目的在于克服现有技术中的不足，提出一种基于强化学习的间壁式换热器动态仿真模型建模方法，该方法使用一组不重复的最基本的换热机理模型建立包括多个表征参数的机理骨架模型，最大限度减少模型公式的数量，同时使用强化学习的算法来获得这些参数的准确值，解决了间壁式换热器动态仿真模型瞬态过程精度差的问题以及提高了计算速度。

一种基于强化学习的间壁式换热器动态仿真模型建模方法，包括：

第一步，建立换热器动态仿真模型的骨架：

对待建模换热器的实际物理过程设置热源的进出口流量和进口温度、工质的进出口流量和进口温度作为模型的边界条件,对待建模换热器的换热机理模型进行推导得到包括多个表征参数的机理骨架模型，所述表征参数随换热器状态实时变化；其中，所述边界条件为动态数据，即所述边界条件涉及参数的时间序列，任何一侧流体的机理骨架模型方程具体为：

其中V,

ρ,h,p,α,A,T,C分别代表流体的体积，质量流量，密度，温度，压力，换热系数，换热面积，温度和比热；下标ave，in，out，w分别代表计算平均值，进口，出口和壁面和流体；

所述计算平均值是指用计算平均温度(即流体进出口温度之和的二分之一)和流体压力计算出的各项流体参数；f₁，f₂分别代表两侧流体；β₁，β₂，β₃，β₄，β₅是表征参数；

第二步，使用强化学习的算法获得表征参数的准确值：

设置采集工质的出口温度和压力作为学习样本，将推导出的所述表征参数每时每刻的值看作是一个决策变量，即化学习中智能体的动作，推导出的换热器的机理骨架模型作为是环境，模型计算的工质关键状态参数，即出口温度、压力、平均壁温以及它们的变化率作为观察量；采用模型输出的工质出口温度和采集的实际换热器的工质出口温度的误差来构建奖励函数，误差越小，奖励函数的值就越大；其中，所述学习样本为动态实验数据，即温度或压力的时间序列；

通过用强化学习训练智能体，使智能体每时每刻输出最优的动作策略，即使得模型输出和实际值误差最小的表征参数，获得输入值和输出值的对应关系，其中输入值是换热器关键状态参数和误差，输出值是表征参数；

第三步：拟合换热器关键状态参数和对应的表征参数之间的函数关系，从而仅根据换热器模型当前的关键状态参数(不再需要输入误差)就可以输出准确的表征参数，从而构建高精度的换热器仿真模型。

进一步的，所述表征参数包括：β₁代表修正计算平均密度对时间的导数，β₂代表修正计算平均内能对时间的导数，β₃代表修正冷流体与管壁的对流换热量，β₄代表修正热流体与管壁的对流换热量，β₅代表修正平均壁面温度对时间的导数。

进一步的，当表征参数通过强化学习的方法进行训练时,其奖励函数是由骨架模型输出的流体压力或出口温度与实际换热器输出的流体压力或出口温度之间的误差构成的。所述奖励函数的特点是，所述误差越小，奖励函数的值越大。

进一步的，所述强化学习算法采用基于价值的强化学习算法或者基于策略的强化学习算法；第三步中的拟合方法采用多项式拟合或神经网络拟合方法。

与现有技术相比，本发明的技术方案所带来的有益效果是：

本发明使用一组不重复的最基本的换热机理模型作为所述建模方法建立的新模型的机理骨架模型，保证所述建模方法具有最基本的可解释性和稳定性，同时最大限度减少模型公式的数量，提高计算速度；另一方面，由于机理模型的简化产生了一些难以准确计算的参数，在所述方法中将其称为表征参数，并使用强化学习的算法来获得这些参数的准确值，以满足模型高精度的要求。

附图说明

图1是本发明所述的建模方法的原理图；

图2示出典型的逆流套管换热器其机理模型示意图；

图3示出实施例中作为建模对象的边界条件示意图；

图4是实施例采用的建模方法的计算结果与实验数据的对比。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步详细描述，所描述的具体的实施例仅对本发明进行解释说明，并不用以限制本发明。

如图3所示，本实施例对一个螺旋管换热器采用一种基于强化学习的间壁式换热器动态仿真模型建模方法建立动态仿真模型，所述螺旋管换热器为基本朗肯循环中的蒸发器，热源为热空气，由一个风机通入换热器热侧并排到环境中；冷侧为R245fa工质，液态工质由隔膜泵加压后进入换热器中，加热后的工质变为气态流出换热器在膨胀阀中膨胀，之后进入冷凝器被冷却成液体。本实施例使用一组不重复的最基本的换热机理模型，即所述建模方法的骨架模型方程组(方程17)来建立换热器的动态仿真模型，保证模型具有最基本的可解释性和稳定性，同时最大限度减少模型公式的数量，提高计算速度。热源侧由于空气比热远远小于工质比热，因此采用简单的稳态模型。

换热器的设计如表1所示。

表1：换热器中蒸发器的主要设计参数

如图1所示，具体包括如下步骤：

第一步，建立换热器动态仿真模型的骨架：基于代码编写平台如matlab或python建立机理骨架模型，建立的所述机理骨架模型为由基本换热机理推导而来的一组不重复的换热机理模型，包括多个表征参数，其中，所述表征参数随换热器状态实时变化，包括修正计算平均密度对时间的导数，修正计算平均内能对时间的导数，修正冷流体与管壁的对流换热量，修正冷热流体与管壁的对流换热量，修正平均壁面温度对时间的导数。

图2示出一个典型的逆流套管换热器其机理模型示意图。换热段被分成了很多个控制体，每个控制体内冷流体和热流体的质量和能量守恒方程一样，如方程(1)和(2)所示，壁面没有质量守恒方程，只有能量守恒方程(3)。事实上各类间壁式换热器如果沿着流动方向划分成N个控制体，每个控制体内也遵循如下的方程。

每个控制体内的方程(1)-(3)构成的方程组就是间壁式换热器传统机理建模的核心机理。传统的机理建模方法就是在N个控制体内建立N组这样的方程，然后赋予边界条件联立求解。

由于冷流体和热流体(f₁和f₂)的能量和质量守恒方程相同，以下以冷流体f₁为例对模型骨架进行推导。如果对所有控制体内流体的质量守恒方程进行加和，那么可以得到：

对其进行进一步的化简，可得：

是实际的平均密度，V_f1是流体总体积。但是实际的平均密度非常难计算，因此用算数平均温度(进出口温度之和除以2)和流体压力相应的密度作为平均密度，并将所有用算数平均温度和压力求得的各个参数称为计算平均参数，用下标ave表示，如计算平均温度T_{f1_ave}和计算平均密度ρ_{f1_ave}。因为计算平均密度和实际平均密度是存在误差的，所以方程(4)中计算平均密度对时间的导数自然也会和真实平均密度的导数存在误差，在此我们用β₁修正这个误差，即：

同理，对流体的能量守恒方程加和即：

对其进行进一步的化简，可得：

其中：

u_f1是真实的单位质量平均内能，

是真实的总内能，无论是

还是m_f1都很难精确计算。而用计算平均参数计算的流体总内能

对时间的变化率，和真实总内能

对时间的变化率之间的误差可用一个系数β₂表示，即：

如果令：

则可得

β₂的物理意义可理解为是对冷流体f₁与管壁的对流换热系数，以及用计算平均温度算得的算术平均温度的综合修正，即对冷流体f₁对流换热量的修正。同理，对壁面的能量守恒方程加和即：

管壁的比热和密度随温度变化很小，可以认为都等于平均比热和密度，所以

用上述同样的方法对方程右边进行进一步的化简，可得：

其中β₄的物理意义可理解为是对热流体与管壁的对流换热系数，以及用计算平均温度算得的算术平均温度的综合修正，即对热流体对流换热量的修正。β₅的物理意义可理解为对平均壁面温度时间导数的修正。

这样我们就可以用方程(7)、(13)、(16)这三个方程组成的方程组(17)来描述某一流体侧的骨架模型方程具体为：

其中V,

ρ,h,p,α,A,T,C分别代表流体的体积，质量流量，密度，温度，压力，换热系数，换热面积，温度和比热；下标ave、in、out、w分别代表计算平均值，进口，出口和壁面和流体；β₁、β₂、β₃、β₄、β₅是表征参数，其随换热器状态实时变化，分别为修正计算平均密度对时间的导数，修正计算平均内能对时间的导数，修正冷流体与管壁的对流换热量，修正热流体与管壁的对流换热量，修正平均壁面温度对时间的导数；

所述计算平均值是指用计算平均温度(即流体进出口温度之和的二分之一)和流体压力计算出的各项流体参数；f₁，f₂分别代表两侧流体。

模型的精度将主要由β₁，β₂，β₃，β₄，β₅这5个难以通过机理精确计算的表征参数决定，以下通过强化学习的算法获得所述表征参数的准确值。

第二步，使用强化学习的算法获得表征参数的准确值：

为了通过真实的换热器实验数据来学习这5个表征参数，改变泵的转速，然后采集热源的进出口流量和进口温度，工质的进出口流量和进口温度，作为模型的边界条件，所述边界条件为动态实验数据，即上述参数的时间序列。采集工质的出口温度和压力作为学习样本，所述学习样本为动态实验数据，即温度或压力的时间序列。热流体为高温空气，进口温度和流量直接给定；由于出口通大气环境，因此假定进出口流量基本一致。

所述表征参数的强化学习训练算法的重要参数如表2所示。

表2：训练算法的重要参数

强化学习关键要素是智能体，环境，状态，动作和奖励。把β₁,β₂,β₃,β₄，β₅这五个表征参数每时每刻的值看作是一个决策变量，即把这五个参数看作是智能体的动作；换热器的骨架模型看作是环境；换热器模型两侧流体的出口温度、压力、平均壁温和它们的变化率作为观察量；采用模型输出的工质出口温度和采集的实际换热器的工质出口温度的偏差来构建奖励函数如公式(18)所示，偏差越小，奖励函数的值就越大。这样就可以通过用强化学习来获得每时每刻这五个最优的动作策略，获得输入值和输出值的对应关系，其中输入值是换热器关键状态参数和误差，输出值是表征参数；本实施案例中采用的是深度强化学习算法。

具体学习过程为：

(1)在每个时刻智能体输出一组5个表征参数，并利用深度神经网络来观察和感知骨架模型的关键状态，即模型计算的工质出口温度、压力、平均壁温以及它们的变化率，以得到具体的状态特征表示。

(2)基于骨架模型的计算工质出口压力值和实际换热器的工质出口压力值之间的误差按照公式(2)计算即时奖励值，来评价各动作的价值函数，选择行动来最大化未来回报，并将当前状态映射为相应的动作；

(3)骨架模型对此动作做出反应，并得到下一组观察量。通过不断循环以上过程并不断更新状态和动作的映射关系，最终可以得到使得模型和实验数据误差最小的状态和动作之间的映射关系，即5个表征参数随模型状态的变化关系。

第三步：拟合换热器关键状态参数和对应的表征参数之间的函数关系：

在通过深度强化学习算法获得换热器各个状态下的表征参数时，不但需要观察换热器的关键状态参数，还需要观察误差。而实际使用模型的时候是不可能知道误差的，因此还需要拟合换热器关键状态参数和对应的表征参数之间的函数关系，在此可以用多项式拟合，神经网络拟合等多种拟合方法。这样在使用模型时，就可以仅仅根据换热器模型当前的关键状态参数输出准确的表征参数，使得模型输出达到很高的精度。

最终采用本发明所述的建模方法的换热器模型计算结果与实验数据的对比如图4所示。本发明所述的建模方法只采用一组方程(17)进行计算，在硬件条件配置下：Matlab2019a版本，处理器IntelIi7-9700CPU@3.00GHz，本发明所述的建模方法建立的模型仅用了16.7s即完成如图4所示的计算结果，且其计算结果精度高。而传统有限体积法的模型(划分为20个控制体，即需要20组方程)需要大约10分钟计算时间。

上述深度强化学习算法、深度神经网络、多项式拟合为本领域的公知算法，本发明实施例对此不做赘述。可选的，所述强化学习算法也可以是基于价值的强化学习算法或者基于策略的强化学习算法。

尽管上面结合附图对本发明的优选实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，并不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以作出很多形式，这些均属于本发明的保护范围之内。

Claims

1.一种基于强化学习的间壁式换热器动态仿真模型建模方法，其特征在于，包括：

第一步，建立换热器动态仿真模型的骨架

其中V,

所述计算平均值是指用计算平均温度和流体压力计算出的各项流体参数；f₁，f₂分别代表两侧流体；β₁，β₂，β₃，β₄，β₅是表征参数；

第二步，使用强化学习的算法获得表征参数的准确值

设置采集工质的出口温度和压力作为学习样本，将推导出的所述表征参数每时每刻的值看作是一个决策变量，即化学习中智能体的动作，推导出的换热器的机理骨架模型作为环境，模型计算的工质关键状态参数，即出口温度、压力、平均壁温以及它们的变化率作为观察量；采用模型输出的工质出口温度或压力，和采集的实际换热器的工质出口温度或压力的误差来构建奖励函数，误差越小，奖励函数的值就越大；其中，所述学习样本为动态实验数据，即温度或压力的时间序列；

通过用强化学习训练智能体，使智能体每时每刻输出最优的动作策略，获得输入值和输出值的对应关系，其中输入值是换热器关键状态参数和误差，输出值是表征参数；

第三步：拟合换热器关键状态参数和对应的表征参数之间的函数关系，从而仅根据换热器模型当前的关键状态参数就可以输出准确的表征参数，从而构建换热器仿真模型。

2.根据权利要求1所述的基于强化学习的间壁式换热器动态仿真模型建模方法，其特征在于，所述表征参数包括：β₁代表修正计算平均密度对时间的导数，β₂代表修正计算平均内能对时间的导数，β₃代表修正冷流体与管壁的对流换热量，β₄代表修正热流体与管壁的对流换热量，β₅代表修正平均壁面温度对时间的导数。

3.根据权利要求1所述的基于强化学习的间壁式换热器动态仿真模型建模方法，其特征在于，当表征参数通过强化学习的方法进行训练时,其奖励函数是由骨架模型输出的流体出口焓值或压力与实际换热器输出的流体出口焓值或压力之间的误差构成的，且误差越小，奖励函数的值越大。

4.根据权利要求1所述的基于强化学习的间壁式换热器动态仿真模型建模方法，其特征在于，所述强化学习算法采用基于价值的强化学习算法或者基于策略的强化学习算法；第三步中的拟合方法采用多项式拟合或神经网络拟合方法。