CN111552179B

CN111552179B - 一种基于神经动态规划的温度分布过程优化控制方法

Info

Publication number: CN111552179B
Application number: CN202010337261.8A
Authority: CN
Inventors: 罗彪
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-09-14
Anticipated expiration: 2040-04-26
Also published as: CN111552179A

Abstract

本发明提供了一种基于神经动态规划的温度分布过程优化控制方法，属于智能控制以及工业过程控制领域。其包括：步骤S1：对于传感器获取的温度分布过程的高维温度分布数据进行降维，获得温度分布过程的低阶模型；步骤S2：根据所得到的低阶模型，设计基于神经网络的执行‑评价结构，分别使用执行网络与评价网络实现控制器与优化性能指标；步骤S3：基于神经动态规划的优化控制器实现，利用神经动态规划实现优化控制器的在线运行。其中，基于神经动态规划的优化控制器通过在线学习以获得优化性能，实现对温度分布过程的优化控制。本发明所设计优化控制器实现简单，对温度分布过程控制效果好。

Description

一种基于神经动态规划的温度分布过程优化控制方法

技术领域

本发明总地涉及智能控制技术领域，且更具体地涉及一种基于神经动态规划的温度分布过程优化控制方法。

背景技术

温度分布过程普遍存在于航空、航天、化工、智能家居等领域，由于其状态信息具有时空分布特性，系统动态一般由偏微分方程表述，这类系统通常被称分布参数系统。为实际温度分布过程设计控制系统时，存在着许多困难：(1)由于温度分布过程具有无穷维自由度特征，所以现有针对集中参数系统的控制方法无法直接用于温度分布过程；(2)实际工业问题需要考虑一系列的性能，如最优性能、干扰衰减性能等；(3)迄今为止，不管是针对集中参数系统，还是分布参数系统，大多数控制理论与方法依赖于动态系统精确的数学模型，它们一般基于这样的思路：首先根据系统的物理化学机理建立精确数学模型，然后基于模型设计控制与优化方法。然而，对于大多数实际温度分布过程，由于系统动态十分复杂且受到各类干扰与不确定性因素的影响，导致精确建立过程的数学模型代价非常大，或建立的模型非常复杂而无法用于控制器设计。近年来，自适应动态规划，也称为强化学习，被用于解决优化控制问题，可以系统模型未知的情况下，利用实际系统的数据，学习优化控制器。然而，现有的自适应动态控制方法主要针对集中参数系统，难以适应于温度分布过程的优化控制。为此，本发明提供了一种基于神经动态规划的温度分布过程优化控制方法，以至少部分的解决上述问题。

发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

为至少部分地解决上述技术问题，本发明提供了一种基于神经动态规划的温度分布过程优化控制方法，其包括：

步骤S1：对于传感器获取的温度分布过程的高维温度分布数据进行降维，获得温度分布过程的低阶模型；

步骤S2：根据步骤S1所得到的低阶模型，设计基于神经网络的执行-评价结构，分别使用执行网络与评价网络实现控制器与优化性能指标；

步骤S3：基于神经动态规划的优化控制器实现，利用神经动态规划实现优化控制器的在线运行。

进一步地，所述步骤S1包括：

步骤S11：计算高维温度分布数据的协方差矩阵，并计算协方差矩阵的特征值与特征向量，将特征值及其对应的特征向量按递减进行排序，选取前有限个特征向量作为空间经验基向量；

步骤S12：利用空间经验基向量，将温度分布过程分解成一个低阶慢子系统与一个快系统的组合，基于奇异摄动技术得到低阶模型。

本发明使用实际温度分布过程的实际测量数据进行模型降阶，与现有普遍使用的基于模型的降阶方法相比，具有几个明显的优势：(1)本发明利用实际过程数据，避免了复杂的系统建模，比现有方法操作更加简单可行；(2)由于本发明降阶方法不需要过程的数学模型，所以不存在模型不确定性，使用基于数据的方法提高降阶的精度。

进一步地，所述步骤S2包括：

步骤S21：将低阶模型的优化控制问题转化为求解哈密顿-雅可比-贝尔曼方程；

步骤S22：使用神经网络逼近值函数与控制器，设计执行-评价网络结构。

现有温度分布过程的控制方法往往只能实现过程的稳定性，与现有的方法相比，本发明基于低阶模型设计优化控制器，转化为求解哈密顿-雅可比-贝尔曼方程，不仅可以实现温度分布过程的稳定性，还可以实现期望的优化性能，如最小成本代价。另一方面，本发明所设计的执行-评价网络结构，进一步提高了控制器的控制性能。

进一步地，所述步骤S3包括：

步骤S31：使用低阶模型状态x(t)和x(t+Δt)，使用如下方法更新学习神经网络的权值：

其中，w(t)为神经网络的权值，Φ(x(t))为神经网络的激活函数，a>0为权值的学习速率，C(x(τ),u(x(τ)))表示即时控制成本，ΔΦ(x(t))＝Φ(x(t+Δt))-Φ(x(t))；

步骤S32：使用如下方法计算在线控制信号：

其中，符号

表示取导数，R为正定矩阵，B为控制矩阵。

总体来说，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)与现有控制方法相比，本发明的降阶方法与控制器的实现是数据驱动的，不依赖于温度分布过程的数学模型，因而本发明的技术更加简单、易于实现；避免了系统建模所带来的不确实性，因而本发明的技术控制精度更高、控制性能更好。

(2)与现有控制方法相比，本发明所设计的优化控制器不仅可以实现温度分布过程和稳定性，还可以实现期望的优化性能，从而可以降低控制成本，进一步改进控制性能。

附图说明

为了使本发明的优点更容易理解，将通过参考在附图中示出的具体实施方式更详细地描述上文简要描述的本发明。可以理解这些附图只描绘了本发明的典型实施方式，因此不应认为是对其保护范围的限制，通过附图以附加的特性和细节描述和解释本发明。

图1为本发明所述的一种基于神经动态规划的温度分布过程优化控制方法的结构示意图。

图2是本发明实施例提供的一种仿真图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员来说显而易见的是，本发明实施方式可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明实施方式发生混淆，对于本领域公知的一些技术特征未进行描述。

为了彻底了解本发明实施方式，将在下列的描述中提出详细的结构。显然，本发明实施方式的施行并不限定于本领域的技术人员所熟习的特殊细节。本发明的较佳实施方式详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

参阅图1所示，本发明提供了一种基于神经动态规划的温度分布过程优化控制方法，其包括：

具体而言，步骤S1包括：步骤S11：计算高维温度分布数据的协方差矩阵，并计算协方差矩阵的特征值与特征向量，将特征值及其对应的特征向量按递减进行排序，选取前有限个特征向量作为空间经验基向量；步骤S12：利用空间经验基向量，将温度分布过程分解成一个低阶慢子系统与一个快系统的组合，基于奇异摄动技术得到低阶模型。

具体而言，使用T(l)表示温度状态分布，其中l为空间位置信息，通过将温度分布过程进行空间离散化，取m个空间位置，这样某一时刻过程的温度可以表示成一个m维列向量y_i；通过测量获得n个时刻的温度分布，这样可得到一个m×n维的矩阵Y＝[y₁,y₂,…,y_n]；利用矩阵Y计算协方差矩阵S，通过软件Matlab求解特征方程Sα＝λα，计算得到特征值α及特征向量λ，将特征值及其对应的特征向量按递减进行排序，即：λ₁≥λ₂≥λ₃≥…；选取前k个特征向量作为空间经验基向量，参数k的确定满足如下标准：

对于温度分布过程，通常有k远小于m。利用空间经验基向量α₁,α₂,…,α_k，低阶系统的状态x＝[x₁,x₂,…,x_k]^T可以使用如下方法计算：

x_i＝y^Tα_i,i＝1,2,…,k

由于k远小于m，从而达到温度分布过程系统降阶的目的。

具体而言，步骤S2包括：步骤S21：将低阶模型的优化控制问题转化为求解哈密顿-雅可比-贝尔曼方程；步骤S22：使用神经网络逼近值函数与控制器，设计执行-评价网络结构。

具体而言，步骤S3包括：

步骤S32：使用如下方法计算在线控制信号：

其中，符号

表示取导数，R为正定矩阵，B为控制矩阵。

具体而言，通过将低阶系统的优化控制任务转化为求解如下形式的哈密顿-雅可比-贝尔曼方程：

其中，V^*(x)为待求解的最优值函数，Q(x)为正定函数。利用实际系统的状态信息，使用策略迭代方法求解哈密顿-雅可比-贝尔曼方程得到最优值函数V^*(x)，具体而言，策略迭代包括：1)基于过程数据求解如下方程：

V⁽ⁱ⁾(x(t))＝∫_t ^t+ΔtC(x(τ)，u(x(τ)))dτ+V⁽ⁱ⁾(x(t+Δt))

计算V⁽ⁱ⁾(x)；2)使用如下方法：

计算控制策略；3)在线不断迭代上述前两步使得策略迭代算法收敛。为实现上述策略迭代算法，设计执行-评价结构，采用评价神经网络逼近值函数，使用公式(1)更新评价神经网络的权值，并使用公式(2)在线计算实时控制信号，作用于温度分布过程。图2展示了本发明温度分布过程的仿真效果图，可以看出，温度的收敛速度快，控制效果好。

除非另有定义，本文中所使用的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。本文中使用的术语只是为了描述具体的实施目的，不是旨在限制本发明。本文中在一个实施方式中描述的特征可以单独地或与其它特征结合地应用于另一个实施方式，除非该特征在该另一个实施方式中不适用或是另有说明。

本发明已经通过上述实施方式进行了说明，但应当理解的是，上述实施方式只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施方式范围内。本领域技术人员可以理解的是，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。

Claims

1.一种基于神经动态规划的温度分布过程优化控制方法，其特征在于，包括：

步骤S3：基于神经动态规划的优化控制器实现，利用神经动态规划实现优化控制器的在线运行；

所述步骤S1包括：

步骤S12：利用空间经验基向量，将温度分布过程分解成一个低阶慢子系统与一个快系统的组合，基于奇异摄动技术得到低阶模型；

所述步骤S2包括：

步骤S22：使用神经网络逼近值函数与控制器，设计执行-评价网络结构；

所述步骤S3包括：

步骤S32：使用如下方法计算在线控制信号：

其中，符号

表示取导数，R为正定矩阵，B为控制矩阵。