CN115857330A

CN115857330A - 基于深度强化学习的朗肯循环余热回收系统优化控制方法

Info

Publication number: CN115857330A
Application number: CN202211384624.9A
Authority: CN
Inventors: 王轩; 王瑞; 舒歌群; 田华; 蔡金文
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-28

Abstract

本发明公开了基于深度强化学习的朗肯循环余热回收系统优化控制方法，包括建立朗肯循环余热回收系统的深度强化学习算法的学习环境，使用智能体作为所述余热回收系统的控制器，设计所述余热回收系统中膨胀机入口的工质温度和压力以及热源进入余热回收系统的温度和流量作为智能体的观察量，智能体通过观察做出调整泵转速的动作；设定边界条件后训练智能体控制器，进行测试直至系统积累输出功优于传统PID恒温或恒压控制方法的积累输出功后结束训练，将获得的智能体控制器用于所述朗肯循环余热回收系统的优化控制。

Description

基于深度强化学习的朗肯循环余热回收系统优化控制方法

技术领域

本发明属于能源动力系统智能控制领域，具体涉及一种基于深度强化学习的朗肯循环余热回收系统优化控制方法。

背景技术

现代工业生产和交通运输中产生了大量的余热，如钢铁生产中的石灰窑烟气余热，内燃机的尾气和缸套水余热等等。将这部分余热有效的利用，对节能减排和实现双碳目标具有重要的意义。朗肯循环(包括各类工质)因其热效率较高、工质适应性强、部件成熟等优点，被认为是目前主流的余热回收技术。然而由于实际中余热源条件可能不断在变化，最典型的是车用内燃机余热随着汽车工况变化的瞬态波动。因此朗肯循环余热回收系统可能常常处在瞬态变化的工况中，为保证余热回收系统的安全和高效运行，系统控制至关重要。

现有的朗肯循环余热回收系统使用基于稳态标定的监督控制方法，但是在瞬态热源条件下则会失效。有学者提出采用基于模型预测的优化控制方式解决上述问题，虽然我们可以通过基于模型的在线优化，获得每个非稳态状态下的优化控制动作，但由于系统模型的复杂度和非线性特征，再加上严格的安全约束条件，会使在线计算任务量巨大，因此很难保证控制的实时性。此外，对未来工况的精确预测显著影响基于模型预测的控制效果，而现实中又很难精确预测卡车的运行工况。同时系统对超温超压的安全要求也很高，因此在波动热源条件下兼顾安全要求的朗肯循环余热回收系统高效优化控制是目前的重要难点。

深度强化学习(DRL:Deep reinforcement learning)是深度神经网络和强化学习(RL)的结合，同时具有强大的感知和决策能力，其学习的一般过程可描述为：

(1)在每个时刻智能体与环境交互观察到环境的状态，并利用深度神经网络来感知状态，以得到具体的状态特征表示；

(2)基于环境回馈的即时奖励评价各动作的价值函数，选择行动来最大化未来回报，并通过深度神经网络将当前状态映射为相应的动作；

(3)环境对此动作做出反应，并得到下一个观察。通过不断循环以上过程并不断更新策略，最终可以得到实现目标的最优策略。

为此，考虑引入DRL算法以解决朗肯循环余热回收系统在瞬态波动的热源条件下兼顾安全的优化控制问题。

发明内容

本发明的目的在于克服现有技术的缺陷，提出了一种基于深度强化学习的朗肯循环余热回收系统优化控制方法，所述控制方法不使用传统的PID控制(比例积分微分控制)算法，基于深度强化学习算法，通过观察余热回收系统状态直接作出动作，从而改变工质流量获得最大的系统输出功，从而解决瞬态波动热源条件下，兼顾安全要求的朗肯循环余热回收系统优化控制。

基于深度强化学习的朗肯循环余热回收系统优化控制方法，包括：

步骤一：建立朗肯循环余热回收系统动态仿真模型，形成深度强化学习算法的学习环境；使用智能体作为所述余热回收系统的控制器，所述余热回收系统的动态仿真模型为与智能体交互的环境；所述动态仿真模型包括换热器模型、泵、膨胀机、储液罐以及各阀门管道；

步骤二：设计深度强化学习算法的奖励、观察量、状态和动作；具体的：

通过奖励函数设置深度强化学习算法的奖励，所述奖励函数为：

其中r代表奖励，Wnet代表系统净功，k是一个比例系数，p代表压力，T代表温度，下标t代表涡轮，in代表入口，max代表最大允许值；如果该动作使得系统状态超过预设的安全限值，则获得一个负的奖励，即惩罚，并停止本次训练片段，重新开始新的训练片段；

设置所述余热回收系统中膨胀机入口的工质温度和压力以及热源进入余热回收系统的温度和流量作为智能体的观察量；智能体通过观察系统状态从而做出决策动作，动作就是通过直接或者间接调整泵的转速控制工质流量大小，从而使系统达到最优的温度和压力状态；

智能体通过获得的奖励来评价所执行动作的好坏，以此与环境不断交互并不断向着奖励大的方向收敛，最终训练得到一个可获得最大奖励即积累输出功最大的智能体控制器；

步骤三：设定训练环境的边界条件后，根据预设的训练算法训练智能体控制器；在训练后，将几组未训练过的且与训练时的热源波动条件在同一幅值范围内变化、随时间波动的热源边界条件输入给朗肯循环余热回收系统进行测试；

当测试结果的系统积累输出功小于根据传统PID恒温或恒压控制方法的实际运行数据中系统积累输出功时，返回步骤三，重新设定训练环境的边界条件和训练算法参数，继续训练，直至系统积累输出功更优，结束训练，将获得的智能体控制器用于所述朗肯循环余热回收系统的优化控制。

进一步的，所述系统为朗肯循环余热回收系统的高精度动态仿真模型，或是一个真实的朗肯循环余热回收系统；当所述系统为真实的朗肯循环余热回收系统时，在执行步骤一之前建立基于真实的朗肯循环余热回收系统的系统仿真模型，并使用系统仿真模型对强化学习智能体进行优化控制的预训练，训练过程与上述步骤一-三相同，预训练后的智能体才可以使用真实的朗肯循环余热回收系统作为下一步的训练环境。

进一步的，所述优化控制方法适用于亚临界有机朗肯循环和跨临界有机朗肯循环。

进一步的，所述智能体控制器的训练算法包括深度确定策略梯度算法和深度Q网络算法。

进一步的，步骤三中训练环境的边界条件的选定包括如下步骤：从所述余热回收系统的实际运行数据中，选择一组在所述余热回收系统的热源经常波动的范围内的随机波动热源数据作为训练环境的边界条件，包括热源的流量和温度数据；数据样本量越大智能体训练后控制效果越好，且外推性越好也越稳定。但是同样会带来更大的训练成本，需要对此折中考虑。

相较于现有技术，本发明所述的基于深度强化学习的朗肯循环余热回收系统优化控制方法具有的优点以及带来的有益效果是：

本发明所述优化控制方法在实际使用时计算任务很小，不需要对未来干扰进行预测，也不需要大量的在线优化计算，因此可有效保证控制的实时性；

所述优化控制方法不但可以使系统获得更多的回收功，同时也能保证系统的安全性。

附图说明

图1为实施例利用本发明所述朗肯循环余热回收系统优化控制方法的原理图并采用工质泵转速作为控制动作的原理图；

图2为实施例利用本发明所述朗肯循环余热回收系统优化控制方法并采用膨胀机入口状态信号作为控制动作的原理图；

图3是实施例中深度强化学习算法训练时的热源边界条件；

图4是实施例中未经训练的热源边界条件。

具体实施方式

下面通过结合附图以及具体实施例对本发明作进一步的说明。本发明的实施例是为了使本领域的技术人员更好地理解本发明，并不对本发明作任何的限制。下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理。

朗肯循环余热回收系统按高压端的参数条件是否处在超临界状态可分为亚临界循环和跨临界循环，本发明对亚临界循环和跨临界循环均适用，且不限于工质和循环构型，即该控制方法适用于任何工质和循环构型的朗肯循环系统，以下实施例针对跨临界有机朗肯循环(ORC)。

现有的朗肯循环余热回收系统使用基于稳态标定的监督控制方法，本发明使用深度强化学习(DRL)解决跨临界朗肯循环余热回收系统在瞬态波动的热源条件下兼顾安全的优化控制问题。

深度强化学习算法的关键要素是环境、奖励、智能体、状态和动作。

本实施例设置膨胀机入口的工质温度和压力以及热源的流量和入口温度作为智能体的观察量。智能体通过观察环境(即余热回收系统)状态从而做出决策动作，本实施例中的动作就是泵转速的控制信号，从而改变工质流量。智能体通过获得的奖励来评价所执行动作的优劣，以此与环境不断交互并不断学习每一个环境状态下可获得最大奖励的动作，最终训练得到一个可获得最大积累奖励即积累输出功最大的智能体控制器。

如图1所示，采用泵转速作为控制动作的基于深度强化学习的朗肯循环余热回收系统优化控制方法，包括：

步骤一：建立深度强化学习算法的学习环境

S101：使用Simulink建立跨临界有机朗肯循环(以下简称ORC)余热回收系统动态仿真模型，包括分别建立系统中各个部件的动态仿真模型，然后再根据各个部件之间的关系将他们相互连接，组成系统的动态仿真模型；具体包括

(1)换热器模型

在系统仿真模型中换热器往往被简化为一个典型的逆流换热器，换热器被分成多个控制体，每个控制体内的冷热流体都遵从同样的质量和能量守恒方程(忽略动量守恒)，如方程(1)和(2)所示。管壁没有质量守恒方程，只有能量守恒方程(3)。所有控制体的方程(1-3)构成的整个方程组就是整个换热器的仿真模型，然后赋予边界条件和初值便可联立求解。

其中，

V，/>

p，/>

和/>

分别表示流体的质量流量，控制体体积，平均密度，压力，平均焓值和平均温度；下标“in”和“out”表示控制体入口和出口；α和A表示流体与管壁的换热系数和换热面积；下标“w”表示管壁；上式推导结果是基于平均密度是平均焓值和压力的函数而简化得到的。

(2)泵和膨胀机

由于泵和膨胀机的响应速度远远快于换热器，因此一般采用稳态模型用于系统仿真。本系统中的泵为容积式隔膜泵，其模型为：

h_{p_out}＝h_{p_in}+(h_{sp_out}-h_{p_in})/η_sp (5)

其中，η_v是容积效率，ρ_p是工质密度，V_cyl是泵容积，ω是泵转速可由变频器调控，是本系统的关键控制变量。下标p代表泵，s代表等熵。

膨胀机的模型被简化成了一个阀门，其模型如公式(6-7)所示。需要注意的是本模型跟下文实验验证时的实际系统一致，实际系统中也是用膨胀阀代替膨胀机。下标t代表膨胀机。

h_{t_out}＝h_{t_in}-(h_{t_in}-h_{st_out})η_st (7)

(3)储液罐

储液罐可以储存多余液态工质从而确保泵进口为液体，还可以维持系统冷端压力。通常将其视为一个控制体，内部工质处于两相共存状态。在忽略动量守恒方程的情况下，推导出的质量守恒方程和能量守恒如下：

其中下标“l”、“v”和“rec”分别表示饱和液态、饱和气态和储液罐。

S102：使用智能体作为所述余热回收系统的控制器，与智能体交互的环境为所述余热回收系统的动态仿真模型。

步骤二：设置奖励函数。奖励通过一个奖励函数来计算，由于余热回收系统的目标是最大限度回收余热增大输出功，因此奖励函数特点是如果该动作使得系统输出功越大，那么这个动作获得的奖励就越大。

具体奖励函数如下式所示：

其中r代表奖励，Wnet代表系统净功，k是一个比例系数，p代表压力，T代表温度，下标t代表涡轮，in代表入口，max代表最大允许值；如果该动作使得系统状态超过安全限值(本实施例中是7MPa,具体数值根据实际余热回收系统的不同而有较大差异)，则获得一个负的奖励，即惩罚，并停止本次训练片段，重新开始新的训练片段。

步骤三：选择训练算法：采用深度确定策略梯度(Deep Deterministic PolicyGradient,DDPG)算法训练DRL智能体控制器，以实现对跨临界ORC系统的安全优化控制。根据实际需要，可选用各种通用的深度强化学习算法，如深度Q网络(Deep Q-Network,DQN)算法等。

步骤四：选择观察状态。智能体对环境的观察量应该是能够唯一表示系统当前状态的一组变量，采用所述余热回收系统中膨胀机入口工质的温度和压力，以及内燃机烟气进入余热回收系统的温度和流量作为观察量。

步骤五：选择智能体的动作。本发明所述的朗肯循环余热回收系统主要是通过直接或者间接控制工质的流量来适应热源的变化，从而达到安全和高效的控制。本实施例的本步骤中，采用系统中工质泵的流量信号或者转速信号作为智能体动作，直接控制系统工质流量。

步骤六：训练DRL智能体控制器

S601：从所述余热回收系统的实际运行数据中，选择一组在所述余热回收系统的热源经常波动的范围内的随机波动热源数据作为训练环境的边界条件，包括热源的流量和温度数据，如图3所示。根据选定的深度确定策略梯度算法训练DRL智能体控制器；数据样本量越大智能体训练后控制效果越好，且外推性越好也越稳定，但是同样会带来更大的训练成本，需要对此折中考虑。

S602：为了测试训练的DRL智能体控制器的效果，将几组未训练过的且与S601训练过的热源波动条件在同一幅值范围内变化、随时间波动的热源边界条件如图4所示输入给朗肯循环余热回收系统(即深度强化学习算法的环境)，测试训练完成后的智能体对系统的安全优化控制效果。

当测试结果的系统积累输出功小于传统PID恒温或恒压控制方法的系统积累输出功时(控制膨胀机进口工质温度或压力为定值)，返回步骤三，重新设定训练环境的边界条件和训练算法参数，继续训练，直至系统积累输出功更优，结束训练，将获得的智能体控制器用于所述朗肯循环余热回收系统的优化控制；

经过测试后的智能体，方可以对朗肯循环余热回收系统在瞬态波动的热源条件下，进行兼顾安全的高效优化控制。

通过不断训练DRL智能体，学习到了获得最大输出功的策略。这与使用现有PID恒温控制器(控制膨胀机进口工质温度为定值)的控制方法不同，PID控制仅是跟踪目标温度，并不能意识到快速提高流量从而增大输出功。

实施例2

如图2所示，本实施例针对跨临界有机朗肯循环(ORC)的余热回收系统，其控制方法与实施例1近似，以下只描述其区别特征：

步骤五采用所述余热回收系统中将膨胀机入口的温度或压力的参考控制信号作为智能体动作，工质流量控制器通过控制工质流量大小，去跟踪智能体动作指定的膨胀机入口的温度或压力的状态，因此智能体动作也是系统工质流量控制器的参考信号。如果采用实施例1的动作设置方案，那么由于深度神经网络的不可解释性，智能体可能会做出一些难以理解的不合理动作，影响系统安全性；如果采用实施例2的动作设置方案，只要将动作信号的范围限制在系统安全状态值以下，比如安全的温度压力之下(本实施例采用温度参考控制信号作为智能体动作，安全范围100-200℃)，那么即使深度神经网络具有不可解释性，智能体也不可能给工质流量控制器一个超过安全值的参考跟踪信号，最多是某个不合理的动作影响了系统的高效性，从而保证了系统始终工作在安全状态。然而由于流量控制器的干涉，实施例2的系统余热回收性能优化效果很可能不如实施例1。总之实施例1的动作设置方案优化效果更佳，但是安全性差；实施例2的动作设置方案优化效果差点，但是安全性高。。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.基于深度强化学习的朗肯循环余热回收系统优化控制方法，包括：

步骤一：建立朗肯循环余热回收系统动态仿真模型，形成深度强化学习算法的学习环境；使用智能体作为所述余热回收系统的控制器，所述余热回收系统的动态仿真模型为与智能体交互的环境；所述动态仿真模型包括换热器模型、泵、膨胀机、储液罐以及各阀门管道。

当测试结果的系统积累输出功小于根据传统PID恒温或恒压控制方法的实际运行数据中系统积累输出功时，返回步骤三，重新设定训练环境的边界条件和训练算法参数，继续训练，直至系统积累输出功大于根据传统PID恒温或恒压控制方法的实际运行数据中系统积累输出功时，结束训练，将获得的智能体控制器用于所述朗肯循环余热回收系统的优化控制。

2.根据权利要求1所述的基于深度强化学习的朗肯循环余热回收系统优化控制方法，其特征在于，所述系统为朗肯循环余热回收系统的高精度动态仿真模型，或是一个真实的朗肯循环余热回收系统；当所述系统为真实的朗肯循环余热回收系统时，在执行步骤一之前建立基于真实的朗肯循环余热回收系统的系统仿真模型，并使用系统仿真模型对强化学习智能体进行优化控制的预训练，训练过程与上述步骤一-三相同，预训练后的智能体才可以使用真实的朗肯循环余热回收系统作为下一步的训练环境。

3.根据权利要求1所述的基于深度强化学习的朗肯循环余热回收系统优化控制方法，其特征在于，所述优化控制方法适用于亚临界有机朗肯循环和跨临界有机朗肯循环。

4.根据权利要求1所述的基于深度强化学习的朗肯循环余热回收系统优化控制方法，其特征在于，所述智能体控制器的训练算法包括深度确定策略梯度算法和深度Q网络算法。

5.根据权利要求1所述的基于深度强化学习的朗肯循环余热回收系统优化控制方法，其特征在于，步骤三中训练环境的边界条件的选定包括如下步骤：从所述余热回收系统的实际运行数据中，选择一组在所述余热回收系统的热源经常波动的范围内的随机波动热源数据作为训练环境的边界条件，包括热源的流量和温度数据。