CN115016286A

CN115016286A - 非线性工业系统数据驱动强化学习鲁棒控制方法

Info

Publication number: CN115016286A
Application number: CN202210765784.1A
Authority: CN
Inventors: 穆朝絮; 张勇; 蔡光斌; 孙长银
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-09-06

Abstract

本发明公开了一种非线性工业系统强化学习数据驱动鲁棒控制方法，包括：通过数学等价转换，将最优控制策略转换为数据驱动控制策略，收集系统运行的原始数据，设计数据样本计算模型，收集数据样本到经验池中，直至形成完整数据集合，构建数据驱动控制策略迭代模型；内环迭代中计算数据驱动控制策略，外环迭代中将得到的数据驱动控制策略用于被控系统中；设计新型数据样本存储经验池，在外环迭代控制策略用于被控系统之前，提取并处理数据样本形成不完整数据集合，存储不完整数据集合到经验池，将外环迭代控制策略用于被控系统，收集新的数据样本补充经验池直至形成完整数据集合，从而再次进入双闭环框架中的内环迭代。本发明缓解了相邻数据样本相关性对数据驱动算法收敛性的影响。

Description

非线性工业系统数据驱动强化学习鲁棒控制方法

技术领域

本发明涉及非线性工业系统数据驱动控制领域，尤其涉及一种非线性工业系统数据驱动强化学习鲁棒控制方法，具体非线性工业系统包括但不限于机械臂、伺服电机、倒立摆系统等。

背景技术

随着现代工业水平的发展，非线性工业系统对于生产精度的要求越来越高，因此，非线性工业系统的控制问题一直受到关注。在实际应用中，常见的非线性工业系统，例如：工业机械臂系统、伺服电机系统、倒立摆系统等会由于装配误差、计算误差、摩擦系数波动、电磁波动、负载波动等因素引入各种扰动信号。这些扰动的存在会影响实际控制输出，进而影响最终工业产品品质。例如：机械臂系统中的负载波动可能导致整体转动惯量的变化，进而影响驱动系统输出端转速，从而降低控制精度；伺服电机系统中的计算误差、电磁波动会直接影响控制电压大小，进而影响电机输出力矩，导致输出转速不稳定；倒立摆系统中的装配误差、摩擦系数波动等也会影响驱动电机的输出力矩，从而影响摆臂在平衡位置的稳定性。这些都是现代工业生产中不可避免的一类问题，也是鲁棒控制中需要解决的一类典型问题。传统的非线性工业系统鲁棒控制方法如：变结构控制、反步法控制、模型预测控制等需要依赖精确的数学模型进行控制策略设计。但是，现代工业系统逐渐朝着规模化、复杂化的方向发展，精确的系统数学模型往往难以获得。如果扰动出现时继续使用依赖模型的传统控制方法，系统的控制精度将会降低。因此，发展数据驱动的无模型控制方法具有重要意义。

近年来，强化学习作为一种数据驱动控制方法被用于非线性工业系统控制领域。强化学习根据系统运行数据来寻找最优控制策略，可实现无模型控制。然而，在现有的强化学习鲁棒控制技术中，仍然存在两个问题没有解决：一、当采集的工业系统数据存在不确定性时，算法的稳定性和收敛性将会被影响。异策略算法是一种典型的数据驱动强化学习算法。存在干扰时，异策略算法仅通过有限的历史工业数据得到控制策略，因此无法自适应调整输出。为了减少不确定数据对算法性能的影响，通常设计在线迭代的同策略算法以提高其对工业环境的适应性。然而，这些方法通常需要依赖工业系统的模型信息。二、面对不确定的工业系统场景时，需要尽快地使用少量系统数据得到控制策略。在数据驱动强化学习算法中，数据样本间的线性相关性会影响算法收敛性。在少量的工业系统数据的支持下，特别是对于连续时间控制问题，相邻数据样本的相关性问题更为严重，这将极大影响算法稳定性。近年来，一些自然语言处理的强化学习方案中利用经验回放技术来缓解数据相关性的问题。然而，在基于强化学习的控制领域中，相关技术仍然有待开发。

因此，迫切需要开发一种数据驱动的、自适应性强的非线性工业系统鲁棒控制策略，在不确定数据的影响下，仍然可以实现非线性工业系统如：机械臂、伺服电机、倒立摆等系统的鲁棒控制策略的自适应改进。迫切需要设计一种数据样本处理方法，在连续时间非线性工业系统控制问题中，用于缓解相邻数据样本相关性对数据驱动算法收敛性的影响。

发明内容

本发明提供了一种非线性工业系统数据驱动强化学习鲁棒控制方法，本发明解决了在不确定数据下模型未知非线性工业系统的鲁棒控制问题，实现了非线性工业系统数据驱动鲁棒控制策略的自适应改进，缓解了相邻数据样本相关性对数据驱动算法收敛性的影响，详见下文描述：

一种非线性工业系统强化学习数据驱动鲁棒控制方法，所述方法包括：

针对含有控制信道扰动的非线性工业系统，设计含有鲁棒项的代价函数，给出最优控制策略；

通过数学等价转换，将最优控制策略转换为数据驱动控制策略，收集系统运行的原始数据，设计数据样本计算模型，收集数据样本到经验池中，直至形成完整数据集合，构建数据驱动控制策略迭代模型；

内环迭代中计算数据驱动控制策略，外环迭代中将得到的数据驱动控制策略用于被控系统中；

设计新型数据样本存储经验池，在外环迭代控制策略用于被控系统之前，提取并处理数据样本形成不完整数据集合，存储不完整数据集合到经验池，将外环迭代控制策略用于被控系统，收集新的数据样本补充经验池直至形成完整数据集合，从而再次进入双闭环框架中的内环迭代。

其中，所述含有鲁棒项的代价函数为：

其中，J(x(t))为代价函数，

为被积效用函数，

为被积时间变量，U(x(t),u(t))为效用函数；Q和M是相应维数的正定矩阵，γ是正实数，

为代价函数鲁棒项，x(t)为系统状态，u(t)为控制信号，

为与扰动信号相关的函数。

进一步地，所述数据样本计算模型为：

其中，

和

为数据样本。φ_c(·)为评价网络激活函数，φ_a(·)为行为网络激活函数，

为行为网络权值参数矩阵；

为单位矩阵。u_d0(x)＝u₀(x)+d_u(x)为受扰初始稳定控制策略，u₀(x)为初始稳定控制策略，d_u(x)为系统扰动信号；

为矩阵克罗内科积运算；

所述数据驱动控制策略迭代模型为：

W^(i,j+1)＝[(Π^(i,j))^TΠ^(i,j)]^-1(Π^(i,j))^TΛ^(i,j)

其中，

为神经网络权值矩阵，vec(·)表示矩阵的列向量变换。

为评价网络权值参数矩阵。Π^(i,j)和Λ^(i,j)为数据样本集合。

其中，所述内环迭代中计算数据驱动控制策略，外环迭代中将得到的数据驱动控制策略用于被控系统具体为：

a:初始化:设定初始内外环迭代步数i＝j＝0，初始稳定控制u⁽⁰⁾＝u_d0，收集的样本维数W_dim，内环最大迭代步数M_m，采样时间T，累计最大样本维数N_m，内环迭代收敛终止条件β；

b:数据收集：应用控制策略

第一次框架循环时，使用u⁽⁰⁾)于被控系统，收集原始系统数据包括：系统状态和扰动控制信号；

c:策略评估：计算并存储数据样本

和

于经验池，直至构成完整数据集合Π^(i,j)和Λ^(i,j)；

策略提高：基于数据驱动控制策略迭代模型式，计算神经网络权值参数W^(i,j+1)，更新评价网络与行为网络的权值参数

与

d:判断条件：当‖W^(i,j+1)-W^(i,j)‖²>＝β时，如果最大迭代步数M_m没有满足，进入流程c，且j←j+1；如果‖W^(i,j+1)-W^(i,j)‖²<β并且达到最大训练时间，停止算法迭代并得到控制策略；否则，基于所设计的数据处理方法处理数据样本，进入流程b，且i←i+1。

所述方法还包括：提取经验池“集合1”中的所有样本数据，将W_dim维数据样本顺序随机打乱，对每一个数据样本进行编号，通过随机数算法生成q_m1个随机数，q_m1以及每个随机数均为小于W_dim的正数；将经验池中q_m个随机数与完整数据集合中的数据样本匹配并标记，剔除其余未标记的数据样本，被标记的数据样本按照打乱后的顺序排列，形成不完整数据集合并存储于经验池。

进一步地，所述方法应用于机械臂、伺服电机、倒立摆系统。

本发明提供的技术方案的有益效果是：

1)本发明针对模型未知的非线性工业系统，考虑控制信道扰动导致的不确定数据，设计了一种基于强化学习的数据驱动鲁棒控制方法，可以实现不确定数据下模型未知非线性工业系统的自适应鲁棒控制，相比经典强化学习控制方法，具有更强的自适应性；

2)在连续时间非线性工业系统鲁棒控制问题中，设计了一种基于经验回放技术的新型数据样本处理方法，可以缓解相邻数据样本的数据相关性的问题，提高数据驱动强化学习算法的收敛性；在数据驱动鲁棒控制的外环迭代中，通过随机保留历史数据样本，将历史数据样本用于构建新的完整数据集合，在引入新的数据样本的同时，保留了系统历史数据信息，提高控制方法的稳定性与数据利用效率。

附图说明

图1为数据驱动鲁棒控制框架的结构图；

图2为数据样本处理方法的流程图；

图3为评价网络权值参数收敛过程的示意图；

图4为行为网络权值参数收敛过程的示意图；

图5为倒立摆系统角位置轨迹曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种非线性工业系统强化学习数据驱动鲁棒控制方法，该方法包括：

步骤101：针对含有控制信道扰动的非线性工业系统，设计特殊的含有鲁棒项的代价函数，给出最优控制策略；

步骤102：通过数学等价转换，将最优控制策略转换为数据驱动控制策略，收集系统运行的原始数据，设计数据样本计算模型，收集数据样本到经验池中，直至形成完整数据集合，构建数据驱动控制策略迭代模型；

步骤103：设计基于强化学习的数据驱动鲁棒控制双闭环框架，内环迭代中计算数据驱动控制策略，外环迭代中将得到的数据驱动控制策略用于被控系统中；

步骤104：设计新型数据样本存储经验池，在外环迭代控制策略用于被控系统之前，提取并处理数据样本形成不完整数据集合，存储不完整数据集合到经验池，将外环迭代控制策略用于被控系统，收集新的数据样本补充经验池直至形成完整数据集合，从而再次进入双闭环框架中的内环迭代。

其中，为了便于阅读，这里给出如下公式变量声明：

形如变量a(t)，

表示变量a(t)的一阶导数，

表示变量a(t)的二阶导数；

表示函数

关于变量a的偏导数；a(t)∈R表示a(t)属于实数集R；

形如矩阵A，A^T表示矩阵A的转置，A∈Rⁿ表示A为n维列向量，A∈R^m×n表示A为m×n维矩阵；

表示函数F(t)在t到∞上的积分。

在上述技术方案中，步骤101进一步包括下述步骤：

(1-1)针对的客体为含有控制信道扰动的不确定非线性工业系统，该系统可以为常见的工业系统例如：伺服系统、机械臂系统等。不失一般性的，系统原始数学模型可以描述为：

其中，x(t)∈Rⁿ为系统运行状态，具体工业系统例如：机械臂系统中可以为机械臂转角、机械臂转速等，伺服系统中可以为伺服电机转速、电机电流等，倒立摆系统中可以为摆臂角度、摆臂角速度等。f(x(t))表示未知的非线性工业系统动态模型。g(x(t))为非线性工业系统控制增益矩阵。u(t)∈R^m为控制信号，具体工业系统中如：机械臂系统与倒立摆系统中可以为输出转矩等，伺服系统中可以为控制电压。d_u(x)为与系统状态相关的有界控制信道扰动，满足

其中

为与扰动信号有关的已知有界函数，此为本领域中的常见定义。

对于同种工业系统数学模型，上述对于系统状态和控制信号的描述也可能存在差异。系统状态中，机械臂系统还可以包括机械臂转角位置，伺服系统还可以包括转速误差，倒立摆系统还可以包括摆臂角度误差等。控制信号中，机械臂系统与倒立摆系统中还可以为驱动电路电压信号，伺服系统还可以为电流信号或励磁信号等。这些差异取决于非线性工业系统模型构建方法的不同。

(1-2)被控系统的标称数学模型可以表示为：

针对标称数学模型，设计特殊的含有鲁棒项的代价函数：

其中，J(x(t))为代价函数，

为被积效用函数，

为被积时间变量，U(x(t),u(t))为效用函数，且在系统平衡点处等于零。Q和M是相应维数的正定矩阵，γ是正实数，

为代价函数鲁棒项。

(1-3)基于代价函数，构建非线性工业系统的李雅普诺夫方程：

进而，最优代价函数可以表示为：

其中，“*”表示函数的最优值，如J^*(x(t))表示最优代价函数，Ω_u为容许控制策略集合。

表示在条件u(t)∈Ω_u下，

可以得到最小值。对于连续可微的代价函数，可以得到系统哈密尔顿方程：

其中，

表示哈密尔顿函数；

表示J(x(t))对于x(t)的偏导数。

进而，基于贝尔曼最优性原理，控制问题的最优解可以通过求解HJB(哈密尔顿-雅克比-贝尔曼)方程得到，其中，HJB方程如下所示：

推导得到最优控制策略：

其中，u^*(t)∈Ω_u为满足HJB方程的最优解，J^*(x(t))为最优代价函数。

可以得到基于强化学习的策略迭代算法，包括策略评估：

其中，u⁽ⁱ⁾(x(t))为第i次迭代的控制策略，U(x(t),u⁽ⁱ⁾(x(t)))为第i次迭代的效用函数。

与策略提高：

其中，i指迭代步数。

通过重复循环策略评估与策略提高，直至前后两次代价函数偏差满足阈值条件‖J⁽ⁱ⁺¹⁾(x(t))-J⁽ⁱ⁾(x(t))‖<ξ₁，ξ₁是一个正数，停止算法迭代并输出控制策略。

在上述技术方案中，步骤102进一步包括下述步骤：

(2-1)对于模型未知的非线性工业系统，控制增益矩阵g(x(t))是未知的。然而，最优控制策略式(8)中仍需该部分系统模型信息。因此，需要将上述基于模型的控制策略转换为数据驱动的控制策略。

结合标称模型构建的李雅普诺夫方程以及最优控制策略，具体的，对应算法中策略评估式(9)与策略提高式(10)，基于积分强化学习方法，可以得到：

其中，u₀(x)为具体工业系统的初始稳定控制策略。在初始稳定控制策略下，工业系统状态只需保持不发散即可。u_d0(x)＝u₀(x)+d_u(x)表示初始稳定控制策略u₀(x)与扰动信号d_u(x)共同作用下的受扰初始稳定控制策略。

进而，对上式在时间区间[t,t+δt]上进行积分，可以得到：

通过收集时间区间[t,t+δt]上的系统运行数据，可以求解公式(12)，进而得到数据驱动的鲁棒控制策略。其中，t为被积时间变量。

其中，非线性工业系统的模型信息已经不再需要，且上式的解在数学上与最优控制策略是一致的，保证了方法的最优性。

(2-2)基于神经网络构建评价网络与行为网络来近似代价函数与控制策略：

其中，

与

分别是评价网络与行为网络隐藏层到输出层的权值矩阵，k_c与k_a分别为评价网络与行为网络隐藏层中神经元个数，φ_c(·)与φ_a(·)分别为评价网络与行为网络激活函数，其具体形式包括但不限于多项式激活函数、双曲正切激活函数等。

公式(13)中，符号右上角的角标i为数据驱动鲁棒控制双闭环框架的外环迭代的循环次数，j为内环迭代的循环次数，如

表示第i次外环迭代中第j+1次内环迭代的代价函数，同样

和

分别对应第i次外环迭代中第j+1次内环迭代的控制策略、评价网络权值矩阵和行为网络权值矩阵。

进而，定义一个时间序列{t_k},k∈{0,...,W_dim}，W_dim为需要收集的数据样本维数。在每一个时刻t_k收集系统状态x_k与扰动控制信号u_d0，扰动控制信号为当前控制策略与控制信道扰动的求和。为了简化描述，使用

代替

结合公式(12)，得到包含控制信道扰动的神经网络残差项ε_k(t)：

(2-3)收集系统运行的原始数据包括系统状态和扰动控制信号，推导数据样本计算模型，具体如下：

其中，

为单位矩阵。

数据样本

和

可以基于系统运行的原始数据包括：系统状态和扰动控制信号进行计算与存储。

进而，神经网络残差项可以表示为：

其中，

由评价网络和行为网络的权值参数矩阵组成，vec(X)表示矩阵X的列向量变换。

在时间序列{t_k},k∈{0,...,W_dim}中计算并存储数据样本

和

于经验池，构成完整数据样本集合：

进而，可以得到数据驱动控制策略迭代模型：

W^(i,j+1)＝[(Π^(i,j))^TΠ^(i,j)]^-1(Π^(i,j))^TΛ^(i,j) (20)

结合公式(20)，神经网络权值参数可以基于最小二乘迭代技术进行求解。可选的，W_dim为需要收集的数据样本维数，且需满足W_dim≥rank(Π^(i,j))，即W_dim≥k_c+k_am。

在上述技术方案中，步骤103进一步包括下述步骤：

设计基于强化学习的数据驱动鲁棒控制双闭环框架，包括：内环迭代与外环迭代。数据驱动鲁棒控制框架结构图如图1所示，框架流程如下a-d所示：

a:初始化:设定初始内外环迭代步数i＝j＝0，初始稳定控制u⁽⁰⁾＝u_d0，需要收集的样本维数W_dim，内环最大迭代步数M_m，采样时间T，累计最大样本维数N_m，内环迭代收敛终止条件β。

b:数据收集：应用控制策略

(第一次框架循环时，使用u⁽⁰⁾)于被控系统，收集原始系统数据包括：系统状态和扰动控制信号。

c:策略评估：基于数据样本计算模型式(15)与(16)，计算并存储数据样本

和

于经验池，基于公式(18)与(19)，直至构成完整数据集合Π^(i,j)和Λ^(i,j)。

策略提高：基于数据驱动控制策略迭代模型式(20)，计算神经网络权值参数W⁽ⁱ ^,j+1)，更新评价网络与行为网络的权值参数

与

其中，在第一次迭代循环中，需要设定容许控制策略u_d0(x)＝u₀(x)+d_u(x)，保证系统在干扰信号的影响下不会发散。控制信道扰动d_u(x)会干扰控制策略，降低系统稳定性。更重要的是，控制信道扰动会影响收集数据集的准确性，不利于数据驱动算法的收敛。

本发明实施例中设计基于强化学习的数据驱动鲁棒控制双闭环框架，结合同策略算法对不确定环境的自适应能力，通过将内环迭代得到的控制策略进行反馈用于系统控制，并重新收集一些新的系统数据，从而计算得到新的数据样本，使控制策略能够针对扰动问题自主调整，提高了数据驱动鲁棒控制方法的自适应能力。

上述流程b中，收集系统原始数据包括：系统状态与扰动控制信号。

上述流程c中对应数据驱动鲁棒控制双闭环框架的内环迭代部分。结合流程b中收集的原始数据，基于数据样本计算模型式(15)与式(16)，计算数据样本并存储于经验池中。基于公式(18)与(19)，存储样本直到经验池中样本维数到达期望值，构成完整数据集合；基于数据驱动控制策略迭代模型式(20)，可得神经网络参数矩阵。

流程d中，判断内环迭代终止条件是否满足。若不满足，进入内环迭代的下一步循环，将一步神经网络参数矩阵带入数据样本计算模型中，更新完整数据集合，基于数据驱动控制策略迭代模型得到下一步神经网络参数矩阵；若满足，则进入外环迭代过程；

判断外环迭代终止条件是否满足。若不满足，则结合神经网络参数矩阵，计算当前控制策略，进入外环迭代的下一步循环，将该策略用于被控系统。若满足，则终止数据驱动鲁棒控制双闭环框架的迭代过程。

进一步地，上述步骤104具体包括：

(4-1)在基于数据驱动的强化学习方法中，连续时间控制中相邻数据之间的相关性将显著增加。当样本是在一个环境中按顺序探索而产生时，很难假设样本是独立同分布的。这会引发数据驱动强化学习的数据相关性问题、计算效率降低以及满秩条件问题，从而影响框架迭代的收敛性和稳定性。

本发明实施例基于经验回放技术，通过设计经验池存储与释放数据样本来缓解这一问题。通过从经验池中随机提取特定维度的数据集，混合最新的样本来打破连续时间控制问题中的数据样本相关性。在框架迭代中，打破了相邻数据的原始序列，从而降低了数据的相关性，更容易满足满秩条件，提高了算法的稳定性。同时，经验数据的重用提高了数据利用率，减少了重新收集数据的时间，提高了算法的效率。

设计新型的数据样本处理方法。在外环迭代控制策略用于被控系统之前，提取并处理数据样本形成不完整数据集合，存储不完整数据集合到经验池，将外环迭代控制策略用于被控系统之后收集数据样本补充经验池，直至形成完整数据集合，从而再次进入双闭环框架中的内环迭代。具体数据样本处理方法流程图参见图2。

其中，“集合i”，i＝1,2,3...，对应数据驱动鲁棒控制双闭环框架中第i次外环迭代的完整数据集合。完整数据集合的收集过程可以参考框架流程中的流程c。不同的是，“集合1”的收集是基于初始稳定控制u_d0进行的；“集合i”，i＝2,3,4...，的收集是基于内环迭代的控制策略

i＝2,3,4...，进行的，j_i为第i次外环迭代对应的内环迭代步数。

下面，以经验池“集合1”的数据处理过程为例进行说明。如何在经验池“集合1”中获取q_m1维数据样本是数据处理的关键。首先，提取经验池“集合1”中的所有样本数据，将W_dim维数据样本顺序随机打乱，对每一个数据样本进行编号。通过随机数算法生成q_m1个随机数，其中，q_m1以及每个随机数均为小于W_dim的正数。将经验池中q_m个随机数与完整数据集合中的数据样本匹配并标记，剔除其余未标记的数据样本，被标记的数据样本按照打乱后的顺序排列，形成不完整数据集合并存储于经验池。

通过数据处理，减少了下一步外环迭代中需要收集的数据量，进一步提高了数据利用效率。同时，基于随机选择的数据可以有效减少数据样本相关性，从而提高框架迭代的收敛性能。

(4-2)数据处理之后，由于经验池中的数据样本维数小于进入内环迭代的维数条件，需要继续补充数据样本到经验池，直至形成完整数据集合，从而再次进入内环迭代。

将外环迭代的控制策略用于被控系统，收集含有新的控制信道扰动的系统原始数据包括：系统状态与扰动控制信号。进而，基于数据样本模型，计算新的数据样本并存储于经验池中，直至数据集合数据样本维数达到W_dim维，即形成完整数据集合，从而再次进入双闭环框架中的内环迭代过程。

实施例2

为使本领域技术人员更好的理解本发明，下面结合具体实施例，对非线性工业系统数据驱动强化学习鲁棒控制方法进行详细说明。

考虑控制信道扰动，对于如下二阶倒立摆系统：

其中，摆杆的质量m_l＝1/3kg，摆杆的长度l＝3/2m，重力加速度

θ_l是角位置，ν_l是角速度，F是控制信号对应于角加速度。d_F是控制信道扰动，具体为：

其中，[e^-0.01t·(sin(5πt)+sin(15πt)+sin(17πt)+sin(34πt)+sin(50πt))·10^-1]<0.18。因此，在代价函数中，定义鲁棒项

d_F1(ν_l,θ_l)为[ν_l(t)·θ_l(t)]，d_F2(t)为[e^-0.01t·(sin(5πt)+sin(15πt)+sin(17πt)+sin(34πt)+sin(50πt))·10^-1]。

该实施例的控制目的是将摆锤从最低位置(θ_l＝π)驱动到最高位置(θ_l＝0)。当摆锤摆动到最高位置时，系统很容易受到干扰的影响，然后发生振荡。因此，这是一个具有挑战性的非线性工业系统鲁棒控制问题。

初始化过程中，初始状态被设定为

代价函数中的矩阵和参数分别设定为Q＝diag[1,1]，M＝1和γ＝1，其中diag[]表示对角矩阵；评价网络和行为网络的激活函数被分别定义为：

和

初始神经网络参数分别设为

和

初始稳定控制策略结合φ_a(ν_l,θ_l)与

得到；需要收集的样本维数W_dim＝50；内环最大迭代步数M_m＝100；采样时间T＝0.1s；累计最大样本维数N_m＝125；内环迭代收敛终止条件β＝10e-6。

在控制信道扰动的影响下，数据驱动鲁棒控制方法的评价网络权值参数收敛过程如图3所示，收敛结果具体为

行为网络权值参数收敛过程如图4所示，收敛结果具体为：

可以看出，神经网络参数在扰动的影响下不断更新，通过及时调整网络参数来保证系统的稳定性。进一步，结合公式(13)中的行为网络函数表示，可以得到具体的数据驱动鲁棒控制策略用于倒立摆系统控制。

倒立摆系统角位置轨迹曲线如图5所示。为了更好的展示本方法的有效性，将本方法与经典同策略方法和异策略方法进行对比。显然，经典同策略方法与异策略方法均不能提供良好的控制，而数据驱动鲁棒控制方法可以获得更好的控制效果和预期响应。可以看出，当摆杆在最高点稳定时，控制信道扰动d_F(ν_l,θ_l)将逐渐减小。相反，不稳定的动态响应[ν_l,θ_l]^T会通过控制信道扰动d_F(ν_l,θ_l)对系统的稳定性产生更坏的影响。因此，实施例2有效的验证了数据驱动鲁棒控制方法的稳定性和鲁棒性。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非线性工业系统强化学习数据驱动鲁棒控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法，其特征在于，所述含有鲁棒项的代价函数为：

其中，J(x(t))为代价函数，

为被积效用函数，

为代价函数鲁棒项，x(t)为系统状态，u(t)为控制信号，

为与扰动信号相关的函数。

3.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法，其特征在于，

所述数据样本计算模型为：

其中，

和

为数据样本，φ_c(·)为评价网络激活函数，φ_a(·)为行为网络激活函数，

为行为网络权值参数矩阵；

为单位矩阵，u_d0(x)＝u₀(x)+d_u(x)为受扰初始稳定控制策略，u₀(x)为初始稳定控制策略，d_u(x)为系统扰动信号；

为矩阵克罗内科积运算；

所述数据驱动控制策略迭代模型为：

W^(i,j+1)＝[(Π^(i,j))^TΠ^(i,j)]^-1(Π^(i,j))^TΛ^(i,j)

其中，

为神经网络权值矩阵，vec(·)表示矩阵的列向量变换，

为评价网络权值参数矩阵，Π^(i,j)和Λ^(i,j)为数据样本集合。

4.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法，其特征在于，所述内环迭代中计算数据驱动控制策略，外环迭代中将得到的数据驱动控制策略用于被控系统具体为：

b:数据收集：应用控制策略

第一次框架循环时，使用u⁽⁰⁾于被控系统，收集原始系统数据包括：系统状态和扰动控制信号；

c:策略评估：计算并存储数据样本

和

于经验池，直至构成完整数据集合Π^(i,j)和Λ^(i,j)；

与

5.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法，其特征在于，提取经验池“集合1”中的所有样本数据，将W_dim维数据样本顺序随机打乱，对每一个数据样本进行编号，通过随机数算法生成q_m1个随机数，q_m1以及每个随机数均为小于W_dim的正数；将经验池中q_m个随机数与完整数据集合中的数据样本匹配并标记，剔除其余未标记的数据样本，被标记的数据样本按照打乱后的顺序排列，形成不完整数据集合并存储于经验池。

6.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法，其特征在于，所述方法应用于机械臂、伺服电机、倒立摆系统。