CN115016286A - 非线性工业系统数据驱动强化学习鲁棒控制方法 - Google Patents

非线性工业系统数据驱动强化学习鲁棒控制方法 Download PDF

Info

Publication number
CN115016286A
CN115016286A CN202210765784.1A CN202210765784A CN115016286A CN 115016286 A CN115016286 A CN 115016286A CN 202210765784 A CN202210765784 A CN 202210765784A CN 115016286 A CN115016286 A CN 115016286A
Authority
CN
China
Prior art keywords
data
control strategy
iteration
loop iteration
driven
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210765784.1A
Other languages
English (en)
Inventor
穆朝絮
张勇
蔡光斌
孙长银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210765784.1A priority Critical patent/CN115016286A/zh
Publication of CN115016286A publication Critical patent/CN115016286A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种非线性工业系统强化学习数据驱动鲁棒控制方法,包括:通过数学等价转换,将最优控制策略转换为数据驱动控制策略,收集系统运行的原始数据,设计数据样本计算模型,收集数据样本到经验池中,直至形成完整数据集合,构建数据驱动控制策略迭代模型;内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统中;设计新型数据样本存储经验池,在外环迭代控制策略用于被控系统之前,提取并处理数据样本形成不完整数据集合,存储不完整数据集合到经验池,将外环迭代控制策略用于被控系统,收集新的数据样本补充经验池直至形成完整数据集合,从而再次进入双闭环框架中的内环迭代。本发明缓解了相邻数据样本相关性对数据驱动算法收敛性的影响。

Description

非线性工业系统数据驱动强化学习鲁棒控制方法
技术领域
本发明涉及非线性工业系统数据驱动控制领域,尤其涉及一种非线性工业系统数据驱动强化学习鲁棒控制方法,具体非线性工业系统包括但不限于机械臂、伺服电机、倒立摆系统等。
背景技术
随着现代工业水平的发展,非线性工业系统对于生产精度的要求越来越高,因此,非线性工业系统的控制问题一直受到关注。在实际应用中,常见的非线性工业系统,例如:工业机械臂系统、伺服电机系统、倒立摆系统等会由于装配误差、计算误差、摩擦系数波动、电磁波动、负载波动等因素引入各种扰动信号。这些扰动的存在会影响实际控制输出,进而影响最终工业产品品质。例如:机械臂系统中的负载波动可能导致整体转动惯量的变化,进而影响驱动系统输出端转速,从而降低控制精度;伺服电机系统中的计算误差、电磁波动会直接影响控制电压大小,进而影响电机输出力矩,导致输出转速不稳定;倒立摆系统中的装配误差、摩擦系数波动等也会影响驱动电机的输出力矩,从而影响摆臂在平衡位置的稳定性。这些都是现代工业生产中不可避免的一类问题,也是鲁棒控制中需要解决的一类典型问题。传统的非线性工业系统鲁棒控制方法如:变结构控制、反步法控制、模型预测控制等需要依赖精确的数学模型进行控制策略设计。但是,现代工业系统逐渐朝着规模化、复杂化的方向发展,精确的系统数学模型往往难以获得。如果扰动出现时继续使用依赖模型的传统控制方法,系统的控制精度将会降低。因此,发展数据驱动的无模型控制方法具有重要意义。
近年来,强化学习作为一种数据驱动控制方法被用于非线性工业系统控制领域。强化学习根据系统运行数据来寻找最优控制策略,可实现无模型控制。然而,在现有的强化学习鲁棒控制技术中,仍然存在两个问题没有解决:一、当采集的工业系统数据存在不确定性时,算法的稳定性和收敛性将会被影响。异策略算法是一种典型的数据驱动强化学习算法。存在干扰时,异策略算法仅通过有限的历史工业数据得到控制策略,因此无法自适应调整输出。为了减少不确定数据对算法性能的影响,通常设计在线迭代的同策略算法以提高其对工业环境的适应性。然而,这些方法通常需要依赖工业系统的模型信息。二、面对不确定的工业系统场景时,需要尽快地使用少量系统数据得到控制策略。在数据驱动强化学习算法中,数据样本间的线性相关性会影响算法收敛性。在少量的工业系统数据的支持下,特别是对于连续时间控制问题,相邻数据样本的相关性问题更为严重,这将极大影响算法稳定性。近年来,一些自然语言处理的强化学习方案中利用经验回放技术来缓解数据相关性的问题。然而,在基于强化学习的控制领域中,相关技术仍然有待开发。
因此,迫切需要开发一种数据驱动的、自适应性强的非线性工业系统鲁棒控制策略,在不确定数据的影响下,仍然可以实现非线性工业系统如:机械臂、伺服电机、倒立摆等系统的鲁棒控制策略的自适应改进。迫切需要设计一种数据样本处理方法,在连续时间非线性工业系统控制问题中,用于缓解相邻数据样本相关性对数据驱动算法收敛性的影响。
发明内容
本发明提供了一种非线性工业系统数据驱动强化学习鲁棒控制方法,本发明解决了在不确定数据下模型未知非线性工业系统的鲁棒控制问题,实现了非线性工业系统数据驱动鲁棒控制策略的自适应改进,缓解了相邻数据样本相关性对数据驱动算法收敛性的影响,详见下文描述:
一种非线性工业系统强化学习数据驱动鲁棒控制方法,所述方法包括:
针对含有控制信道扰动的非线性工业系统,设计含有鲁棒项的代价函数,给出最优控制策略;
通过数学等价转换,将最优控制策略转换为数据驱动控制策略,收集系统运行的原始数据,设计数据样本计算模型,收集数据样本到经验池中,直至形成完整数据集合,构建数据驱动控制策略迭代模型;
内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统中;
设计新型数据样本存储经验池,在外环迭代控制策略用于被控系统之前,提取并处理数据样本形成不完整数据集合,存储不完整数据集合到经验池,将外环迭代控制策略用于被控系统,收集新的数据样本补充经验池直至形成完整数据集合,从而再次进入双闭环框架中的内环迭代。
其中,所述含有鲁棒项的代价函数为:
Figure BDA0003725503800000021
Figure BDA0003725503800000022
其中,J(x(t))为代价函数,
Figure BDA0003725503800000023
为被积效用函数,
Figure BDA0003725503800000024
为被积时间变量,U(x(t),u(t))为效用函数;Q和M是相应维数的正定矩阵,γ是正实数,
Figure BDA0003725503800000031
为代价函数鲁棒项,x(t)为系统状态,u(t)为控制信号,
Figure BDA0003725503800000032
为与扰动信号相关的函数。
进一步地,所述数据样本计算模型为:
Figure BDA0003725503800000033
Figure BDA0003725503800000034
其中,
Figure BDA0003725503800000035
Figure BDA0003725503800000036
为数据样本。φc(·)为评价网络激活函数,φa(·)为行为网络激活函数,
Figure BDA0003725503800000037
为行为网络权值参数矩阵;
Figure BDA0003725503800000038
为单位矩阵。ud0(x)=u0(x)+du(x)为受扰初始稳定控制策略,u0(x)为初始稳定控制策略,du(x)为系统扰动信号;
Figure BDA0003725503800000039
为矩阵克罗内科积运算;
所述数据驱动控制策略迭代模型为:
W(i,j+1)=[(Π(i,j))TΠ(i,j)]-1(i,j))TΛ(i,j)
其中,
Figure BDA00037255038000000310
为神经网络权值矩阵,vec(·)表示矩阵的列向量变换。
Figure BDA00037255038000000311
为评价网络权值参数矩阵。Π(i,j)和Λ(i,j)为数据样本集合。
其中,所述内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统具体为:
a:初始化:设定初始内外环迭代步数i=j=0,初始稳定控制u(0)=ud0,收集的样本维数Wdim,内环最大迭代步数Mm,采样时间T,累计最大样本维数Nm,内环迭代收敛终止条件β;
b:数据收集:应用控制策略
Figure BDA00037255038000000312
第一次框架循环时,使用u(0))于被控系统,收集原始系统数据包括:系统状态和扰动控制信号;
c:策略评估:计算并存储数据样本
Figure BDA00037255038000000313
Figure BDA00037255038000000314
于经验池,直至构成完整数据集合Π(i,j)和Λ(i,j)
策略提高:基于数据驱动控制策略迭代模型式,计算神经网络权值参数W(i,j+1),更新评价网络与行为网络的权值参数
Figure BDA00037255038000000315
Figure BDA00037255038000000316
d:判断条件:当‖W(i,j+1)-W(i,j)2>=β时,如果最大迭代步数Mm没有满足,进入流程c,且j←j+1;如果‖W(i,j+1)-W(i,j)2<β并且达到最大训练时间,停止算法迭代并得到控制策略;否则,基于所设计的数据处理方法处理数据样本,进入流程b,且i←i+1。
所述方法还包括:提取经验池“集合1”中的所有样本数据,将Wdim维数据样本顺序随机打乱,对每一个数据样本进行编号,通过随机数算法生成qm1个随机数,qm1以及每个随机数均为小于Wdim的正数;将经验池中qm个随机数与完整数据集合中的数据样本匹配并标记,剔除其余未标记的数据样本,被标记的数据样本按照打乱后的顺序排列,形成不完整数据集合并存储于经验池。
进一步地,所述方法应用于机械臂、伺服电机、倒立摆系统。
本发明提供的技术方案的有益效果是:
1)本发明针对模型未知的非线性工业系统,考虑控制信道扰动导致的不确定数据,设计了一种基于强化学习的数据驱动鲁棒控制方法,可以实现不确定数据下模型未知非线性工业系统的自适应鲁棒控制,相比经典强化学习控制方法,具有更强的自适应性;
2)在连续时间非线性工业系统鲁棒控制问题中,设计了一种基于经验回放技术的新型数据样本处理方法,可以缓解相邻数据样本的数据相关性的问题,提高数据驱动强化学习算法的收敛性;在数据驱动鲁棒控制的外环迭代中,通过随机保留历史数据样本,将历史数据样本用于构建新的完整数据集合,在引入新的数据样本的同时,保留了系统历史数据信息,提高控制方法的稳定性与数据利用效率。
附图说明
图1为数据驱动鲁棒控制框架的结构图;
图2为数据样本处理方法的流程图;
图3为评价网络权值参数收敛过程的示意图;
图4为行为网络权值参数收敛过程的示意图;
图5为倒立摆系统角位置轨迹曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种非线性工业系统强化学习数据驱动鲁棒控制方法,该方法包括:
步骤101:针对含有控制信道扰动的非线性工业系统,设计特殊的含有鲁棒项的代价函数,给出最优控制策略;
步骤102:通过数学等价转换,将最优控制策略转换为数据驱动控制策略,收集系统运行的原始数据,设计数据样本计算模型,收集数据样本到经验池中,直至形成完整数据集合,构建数据驱动控制策略迭代模型;
步骤103:设计基于强化学习的数据驱动鲁棒控制双闭环框架,内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统中;
步骤104:设计新型数据样本存储经验池,在外环迭代控制策略用于被控系统之前,提取并处理数据样本形成不完整数据集合,存储不完整数据集合到经验池,将外环迭代控制策略用于被控系统,收集新的数据样本补充经验池直至形成完整数据集合,从而再次进入双闭环框架中的内环迭代。
其中,为了便于阅读,这里给出如下公式变量声明:
形如变量a(t),
Figure BDA0003725503800000051
表示变量a(t)的一阶导数,
Figure BDA0003725503800000052
表示变量a(t)的二阶导数;
Figure BDA0003725503800000053
表示函数
Figure BDA0003725503800000054
关于变量a的偏导数;a(t)∈R表示a(t)属于实数集R;
形如矩阵A,AT表示矩阵A的转置,A∈Rn表示A为n维列向量,A∈Rm×n表示A为m×n维矩阵;
Figure BDA0003725503800000055
表示函数F(t)在t到∞上的积分。
在上述技术方案中,步骤101进一步包括下述步骤:
(1-1)针对的客体为含有控制信道扰动的不确定非线性工业系统,该系统可以为常见的工业系统例如:伺服系统、机械臂系统等。不失一般性的,系统原始数学模型可以描述为:
Figure BDA0003725503800000056
其中,x(t)∈Rn为系统运行状态,具体工业系统例如:机械臂系统中可以为机械臂转角、机械臂转速等,伺服系统中可以为伺服电机转速、电机电流等,倒立摆系统中可以为摆臂角度、摆臂角速度等。f(x(t))表示未知的非线性工业系统动态模型。g(x(t))为非线性工业系统控制增益矩阵。u(t)∈Rm为控制信号,具体工业系统中如:机械臂系统与倒立摆系统中可以为输出转矩等,伺服系统中可以为控制电压。du(x)为与系统状态相关的有界控制信道扰动,满足
Figure BDA0003725503800000057
其中
Figure BDA0003725503800000058
为与扰动信号有关的已知有界函数,此为本领域中的常见定义。
对于同种工业系统数学模型,上述对于系统状态和控制信号的描述也可能存在差异。系统状态中,机械臂系统还可以包括机械臂转角位置,伺服系统还可以包括转速误差,倒立摆系统还可以包括摆臂角度误差等。控制信号中,机械臂系统与倒立摆系统中还可以为驱动电路电压信号,伺服系统还可以为电流信号或励磁信号等。这些差异取决于非线性工业系统模型构建方法的不同。
(1-2)被控系统的标称数学模型可以表示为:
Figure BDA0003725503800000061
针对标称数学模型,设计特殊的含有鲁棒项的代价函数:
Figure BDA0003725503800000062
Figure BDA0003725503800000063
其中,J(x(t))为代价函数,
Figure BDA0003725503800000064
为被积效用函数,
Figure BDA0003725503800000065
为被积时间变量,U(x(t),u(t))为效用函数,且在系统平衡点处等于零。Q和M是相应维数的正定矩阵,γ是正实数,
Figure BDA0003725503800000066
为代价函数鲁棒项。
(1-3)基于代价函数,构建非线性工业系统的李雅普诺夫方程:
Figure BDA0003725503800000067
进而,最优代价函数可以表示为:
Figure BDA0003725503800000068
其中,“*”表示函数的最优值,如J*(x(t))表示最优代价函数,Ωu为容许控制策略集合。
Figure BDA0003725503800000069
表示在条件u(t)∈Ωu下,
Figure BDA00037255038000000610
可以得到最小值。对于连续可微的代价函数,可以得到系统哈密尔顿方程:
Figure BDA00037255038000000611
其中,
Figure BDA00037255038000000612
表示哈密尔顿函数;
Figure BDA00037255038000000613
表示J(x(t))对于x(t)的偏导数。
进而,基于贝尔曼最优性原理,控制问题的最优解可以通过求解HJB(哈密尔顿-雅克比-贝尔曼)方程得到,其中,HJB方程如下所示:
Figure BDA00037255038000000614
推导得到最优控制策略:
Figure BDA00037255038000000615
其中,u*(t)∈Ωu为满足HJB方程的最优解,J*(x(t))为最优代价函数。
可以得到基于强化学习的策略迭代算法,包括策略评估:
Figure BDA0003725503800000071
其中,u(i)(x(t))为第i次迭代的控制策略,U(x(t),u(i)(x(t)))为第i次迭代的效用函数。
与策略提高:
Figure BDA0003725503800000072
其中,i指迭代步数。
通过重复循环策略评估与策略提高,直至前后两次代价函数偏差满足阈值条件‖J(i+1)(x(t))-J(i)(x(t))‖<ξ1,ξ1是一个正数,停止算法迭代并输出控制策略。
在上述技术方案中,步骤102进一步包括下述步骤:
(2-1)对于模型未知的非线性工业系统,控制增益矩阵g(x(t))是未知的。然而,最优控制策略式(8)中仍需该部分系统模型信息。因此,需要将上述基于模型的控制策略转换为数据驱动的控制策略。
结合标称模型构建的李雅普诺夫方程以及最优控制策略,具体的,对应算法中策略评估式(9)与策略提高式(10),基于积分强化学习方法,可以得到:
Figure BDA0003725503800000073
其中,u0(x)为具体工业系统的初始稳定控制策略。在初始稳定控制策略下,工业系统状态只需保持不发散即可。ud0(x)=u0(x)+du(x)表示初始稳定控制策略u0(x)与扰动信号du(x)共同作用下的受扰初始稳定控制策略。
进而,对上式在时间区间[t,t+δt]上进行积分,可以得到:
Figure BDA0003725503800000074
通过收集时间区间[t,t+δt]上的系统运行数据,可以求解公式(12),进而得到数据驱动的鲁棒控制策略。其中,t为被积时间变量。
其中,非线性工业系统的模型信息已经不再需要,且上式的解在数学上与最优控制策略是一致的,保证了方法的最优性。
(2-2)基于神经网络构建评价网络与行为网络来近似代价函数与控制策略:
Figure BDA0003725503800000081
其中,
Figure BDA0003725503800000082
Figure BDA0003725503800000083
分别是评价网络与行为网络隐藏层到输出层的权值矩阵,kc与ka分别为评价网络与行为网络隐藏层中神经元个数,φc(·)与φa(·)分别为评价网络与行为网络激活函数,其具体形式包括但不限于多项式激活函数、双曲正切激活函数等。
公式(13)中,符号右上角的角标i为数据驱动鲁棒控制双闭环框架的外环迭代的循环次数,j为内环迭代的循环次数,如
Figure BDA0003725503800000084
表示第i次外环迭代中第j+1次内环迭代的代价函数,同样
Figure BDA0003725503800000085
Figure BDA0003725503800000086
分别对应第i次外环迭代中第j+1次内环迭代的控制策略、评价网络权值矩阵和行为网络权值矩阵。
进而,定义一个时间序列{tk},k∈{0,...,Wdim},Wdim为需要收集的数据样本维数。在每一个时刻tk收集系统状态xk与扰动控制信号ud0,扰动控制信号为当前控制策略与控制信道扰动的求和。为了简化描述,使用
Figure BDA0003725503800000087
代替
Figure BDA0003725503800000088
结合公式(12),得到包含控制信道扰动的神经网络残差项εk(t):
Figure BDA0003725503800000089
(2-3)收集系统运行的原始数据包括系统状态和扰动控制信号,推导数据样本计算模型,具体如下:
Figure BDA00037255038000000810
Figure BDA00037255038000000811
其中,
Figure BDA00037255038000000812
为单位矩阵。
数据样本
Figure BDA00037255038000000813
Figure BDA00037255038000000814
可以基于系统运行的原始数据包括:系统状态和扰动控制信号进行计算与存储。
进而,神经网络残差项可以表示为:
Figure BDA00037255038000000815
其中,
Figure BDA00037255038000000816
由评价网络和行为网络的权值参数矩阵组成,vec(X)表示矩阵X的列向量变换。
在时间序列{tk},k∈{0,...,Wdim}中计算并存储数据样本
Figure BDA0003725503800000091
Figure BDA0003725503800000092
于经验池,构成完整数据样本集合:
Figure BDA0003725503800000093
Figure BDA0003725503800000094
进而,可以得到数据驱动控制策略迭代模型:
W(i,j+1)=[(Π(i,j))TΠ(i,j)]-1(i,j))TΛ(i,j) (20)
结合公式(20),神经网络权值参数可以基于最小二乘迭代技术进行求解。可选的,Wdim为需要收集的数据样本维数,且需满足Wdim≥rank(Π(i,j)),即Wdim≥kc+kam。
在上述技术方案中,步骤103进一步包括下述步骤:
设计基于强化学习的数据驱动鲁棒控制双闭环框架,包括:内环迭代与外环迭代。数据驱动鲁棒控制框架结构图如图1所示,框架流程如下a-d所示:
a:初始化:设定初始内外环迭代步数i=j=0,初始稳定控制u(0)=ud0,需要收集的样本维数Wdim,内环最大迭代步数Mm,采样时间T,累计最大样本维数Nm,内环迭代收敛终止条件β。
b:数据收集:应用控制策略
Figure BDA0003725503800000095
(第一次框架循环时,使用u(0))于被控系统,收集原始系统数据包括:系统状态和扰动控制信号。
c:策略评估:基于数据样本计算模型式(15)与(16),计算并存储数据样本
Figure BDA0003725503800000096
Figure BDA0003725503800000097
于经验池,基于公式(18)与(19),直至构成完整数据集合Π(i,j)和Λ(i,j)
策略提高:基于数据驱动控制策略迭代模型式(20),计算神经网络权值参数W(i ,j+1),更新评价网络与行为网络的权值参数
Figure BDA0003725503800000098
Figure BDA0003725503800000099
d:判断条件:当‖W(i,j+1)-W(i,j)2>=β时,如果最大迭代步数Mm没有满足,进入流程c,且j←j+1;如果‖W(i,j+1)-W(i,j)2<β并且达到最大训练时间,停止算法迭代并得到控制策略;否则,基于所设计的数据处理方法处理数据样本,进入流程b,且i←i+1。
其中,在第一次迭代循环中,需要设定容许控制策略ud0(x)=u0(x)+du(x),保证系统在干扰信号的影响下不会发散。控制信道扰动du(x)会干扰控制策略,降低系统稳定性。更重要的是,控制信道扰动会影响收集数据集的准确性,不利于数据驱动算法的收敛。
本发明实施例中设计基于强化学习的数据驱动鲁棒控制双闭环框架,结合同策略算法对不确定环境的自适应能力,通过将内环迭代得到的控制策略进行反馈用于系统控制,并重新收集一些新的系统数据,从而计算得到新的数据样本,使控制策略能够针对扰动问题自主调整,提高了数据驱动鲁棒控制方法的自适应能力。
上述流程b中,收集系统原始数据包括:系统状态与扰动控制信号。
上述流程c中对应数据驱动鲁棒控制双闭环框架的内环迭代部分。结合流程b中收集的原始数据,基于数据样本计算模型式(15)与式(16),计算数据样本并存储于经验池中。基于公式(18)与(19),存储样本直到经验池中样本维数到达期望值,构成完整数据集合;基于数据驱动控制策略迭代模型式(20),可得神经网络参数矩阵。
流程d中,判断内环迭代终止条件是否满足。若不满足,进入内环迭代的下一步循环,将一步神经网络参数矩阵带入数据样本计算模型中,更新完整数据集合,基于数据驱动控制策略迭代模型得到下一步神经网络参数矩阵;若满足,则进入外环迭代过程;
判断外环迭代终止条件是否满足。若不满足,则结合神经网络参数矩阵,计算当前控制策略,进入外环迭代的下一步循环,将该策略用于被控系统。若满足,则终止数据驱动鲁棒控制双闭环框架的迭代过程。
进一步地,上述步骤104具体包括:
(4-1)在基于数据驱动的强化学习方法中,连续时间控制中相邻数据之间的相关性将显著增加。当样本是在一个环境中按顺序探索而产生时,很难假设样本是独立同分布的。这会引发数据驱动强化学习的数据相关性问题、计算效率降低以及满秩条件问题,从而影响框架迭代的收敛性和稳定性。
本发明实施例基于经验回放技术,通过设计经验池存储与释放数据样本来缓解这一问题。通过从经验池中随机提取特定维度的数据集,混合最新的样本来打破连续时间控制问题中的数据样本相关性。在框架迭代中,打破了相邻数据的原始序列,从而降低了数据的相关性,更容易满足满秩条件,提高了算法的稳定性。同时,经验数据的重用提高了数据利用率,减少了重新收集数据的时间,提高了算法的效率。
设计新型的数据样本处理方法。在外环迭代控制策略用于被控系统之前,提取并处理数据样本形成不完整数据集合,存储不完整数据集合到经验池,将外环迭代控制策略用于被控系统之后收集数据样本补充经验池,直至形成完整数据集合,从而再次进入双闭环框架中的内环迭代。具体数据样本处理方法流程图参见图2。
其中,“集合i”,i=1,2,3...,对应数据驱动鲁棒控制双闭环框架中第i次外环迭代的完整数据集合。完整数据集合的收集过程可以参考框架流程中的流程c。不同的是,“集合1”的收集是基于初始稳定控制ud0进行的;“集合i”,i=2,3,4...,的收集是基于内环迭代的控制策略
Figure BDA0003725503800000114
i=2,3,4...,进行的,ji为第i次外环迭代对应的内环迭代步数。
下面,以经验池“集合1”的数据处理过程为例进行说明。如何在经验池“集合1”中获取qm1维数据样本是数据处理的关键。首先,提取经验池“集合1”中的所有样本数据,将Wdim维数据样本顺序随机打乱,对每一个数据样本进行编号。通过随机数算法生成qm1个随机数,其中,qm1以及每个随机数均为小于Wdim的正数。将经验池中qm个随机数与完整数据集合中的数据样本匹配并标记,剔除其余未标记的数据样本,被标记的数据样本按照打乱后的顺序排列,形成不完整数据集合并存储于经验池。
通过数据处理,减少了下一步外环迭代中需要收集的数据量,进一步提高了数据利用效率。同时,基于随机选择的数据可以有效减少数据样本相关性,从而提高框架迭代的收敛性能。
(4-2)数据处理之后,由于经验池中的数据样本维数小于进入内环迭代的维数条件,需要继续补充数据样本到经验池,直至形成完整数据集合,从而再次进入内环迭代。
将外环迭代的控制策略用于被控系统,收集含有新的控制信道扰动的系统原始数据包括:系统状态与扰动控制信号。进而,基于数据样本模型,计算新的数据样本并存储于经验池中,直至数据集合数据样本维数达到Wdim维,即形成完整数据集合,从而再次进入双闭环框架中的内环迭代过程。
实施例2
为使本领域技术人员更好的理解本发明,下面结合具体实施例,对非线性工业系统数据驱动强化学习鲁棒控制方法进行详细说明。
考虑控制信道扰动,对于如下二阶倒立摆系统:
Figure BDA0003725503800000111
其中,摆杆的质量ml=1/3kg,摆杆的长度l=3/2m,重力加速度
Figure BDA0003725503800000112
θl是角位置,νl是角速度,F是控制信号对应于角加速度。dF是控制信道扰动,具体为:
Figure BDA0003725503800000113
其中,[e-0.01t·(sin(5πt)+sin(15πt)+sin(17πt)+sin(34πt)+sin(50πt))·10-1]<0.18。因此,在代价函数中,定义鲁棒项
Figure BDA0003725503800000121
dF1ll)为[νl(t)·θl(t)],dF2(t)为[e-0.01t·(sin(5πt)+sin(15πt)+sin(17πt)+sin(34πt)+sin(50πt))·10-1]。
该实施例的控制目的是将摆锤从最低位置(θl=π)驱动到最高位置(θl=0)。当摆锤摆动到最高位置时,系统很容易受到干扰的影响,然后发生振荡。因此,这是一个具有挑战性的非线性工业系统鲁棒控制问题。
初始化过程中,初始状态被设定为
Figure BDA0003725503800000122
代价函数中的矩阵和参数分别设定为Q=diag[1,1],M=1和γ=1,其中diag[]表示对角矩阵;评价网络和行为网络的激活函数被分别定义为:
Figure BDA0003725503800000123
Figure BDA0003725503800000124
初始神经网络参数分别设为
Figure BDA0003725503800000125
Figure BDA0003725503800000126
初始稳定控制策略结合φall)与
Figure BDA0003725503800000127
得到;需要收集的样本维数Wdim=50;内环最大迭代步数Mm=100;采样时间T=0.1s;累计最大样本维数Nm=125;内环迭代收敛终止条件β=10e-6。
在控制信道扰动的影响下,数据驱动鲁棒控制方法的评价网络权值参数收敛过程如图3所示,收敛结果具体为
Figure BDA0003725503800000128
行为网络权值参数收敛过程如图4所示,收敛结果具体为:
Figure BDA0003725503800000129
可以看出,神经网络参数在扰动的影响下不断更新,通过及时调整网络参数来保证系统的稳定性。进一步,结合公式(13)中的行为网络函数表示,可以得到具体的数据驱动鲁棒控制策略用于倒立摆系统控制。
倒立摆系统角位置轨迹曲线如图5所示。为了更好的展示本方法的有效性,将本方法与经典同策略方法和异策略方法进行对比。显然,经典同策略方法与异策略方法均不能提供良好的控制,而数据驱动鲁棒控制方法可以获得更好的控制效果和预期响应。可以看出,当摆杆在最高点稳定时,控制信道扰动dFll)将逐渐减小。相反,不稳定的动态响应[νll]T会通过控制信道扰动dFll)对系统的稳定性产生更坏的影响。因此,实施例2有效的验证了数据驱动鲁棒控制方法的稳定性和鲁棒性。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述方法包括:
针对含有控制信道扰动的非线性工业系统,设计含有鲁棒项的代价函数,给出最优控制策略;
通过数学等价转换,将最优控制策略转换为数据驱动控制策略,收集系统运行的原始数据,设计数据样本计算模型,收集数据样本到经验池中,直至形成完整数据集合,构建数据驱动控制策略迭代模型;
内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统中;
设计新型数据样本存储经验池,在外环迭代控制策略用于被控系统之前,提取并处理数据样本形成不完整数据集合,存储不完整数据集合到经验池,将外环迭代控制策略用于被控系统,收集新的数据样本补充经验池直至形成完整数据集合,从而再次进入双闭环框架中的内环迭代。
2.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述含有鲁棒项的代价函数为:
Figure FDA0003725503790000011
Figure FDA0003725503790000012
其中,J(x(t))为代价函数,
Figure FDA0003725503790000013
为被积效用函数,
Figure FDA0003725503790000014
为被积时间变量,U(x(t),u(t))为效用函数;Q和M是相应维数的正定矩阵,γ是正实数,
Figure FDA0003725503790000015
为代价函数鲁棒项,x(t)为系统状态,u(t)为控制信号,
Figure FDA0003725503790000016
为与扰动信号相关的函数。
3.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,
所述数据样本计算模型为:
Figure FDA0003725503790000017
其中,
Figure FDA0003725503790000018
Figure FDA0003725503790000019
为数据样本,φc(·)为评价网络激活函数,φa(·)为行为网络激活函数,
Figure FDA0003725503790000021
为行为网络权值参数矩阵;
Figure FDA0003725503790000022
为单位矩阵,ud0(x)=u0(x)+du(x)为受扰初始稳定控制策略,u0(x)为初始稳定控制策略,du(x)为系统扰动信号;
Figure FDA0003725503790000023
为矩阵克罗内科积运算;
所述数据驱动控制策略迭代模型为:
W(i,j+1)=[(Π(i,j))TΠ(i,j)]-1(i,j))TΛ(i,j)
其中,
Figure FDA0003725503790000024
为神经网络权值矩阵,vec(·)表示矩阵的列向量变换,
Figure FDA0003725503790000025
为评价网络权值参数矩阵,Π(i,j)和Λ(i,j)为数据样本集合。
4.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统具体为:
a:初始化:设定初始内外环迭代步数i=j=0,初始稳定控制u(0)=ud0,收集的样本维数Wdim,内环最大迭代步数Mm,采样时间T,累计最大样本维数Nm,内环迭代收敛终止条件β;
b:数据收集:应用控制策略
Figure FDA0003725503790000026
第一次框架循环时,使用u(0)于被控系统,收集原始系统数据包括:系统状态和扰动控制信号;
c:策略评估:计算并存储数据样本
Figure FDA0003725503790000027
Figure FDA0003725503790000028
于经验池,直至构成完整数据集合Π(i,j)和Λ(i,j)
策略提高:基于数据驱动控制策略迭代模型式,计算神经网络权值参数W(i,j+1),更新评价网络与行为网络的权值参数
Figure FDA0003725503790000029
Figure FDA00037255037900000210
d:判断条件:当‖W(i,j+1)-W(i,j)2>=β时,如果最大迭代步数Mm没有满足,进入流程c,且j←j+1;如果‖W(i,j+1)-W(i,j)2<β并且达到最大训练时间,停止算法迭代并得到控制策略;否则,基于所设计的数据处理方法处理数据样本,进入流程b,且i←i+1。
5.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,提取经验池“集合1”中的所有样本数据,将Wdim维数据样本顺序随机打乱,对每一个数据样本进行编号,通过随机数算法生成qm1个随机数,qm1以及每个随机数均为小于Wdim的正数;将经验池中qm个随机数与完整数据集合中的数据样本匹配并标记,剔除其余未标记的数据样本,被标记的数据样本按照打乱后的顺序排列,形成不完整数据集合并存储于经验池。
6.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述方法应用于机械臂、伺服电机、倒立摆系统。
CN202210765784.1A 2022-07-01 2022-07-01 非线性工业系统数据驱动强化学习鲁棒控制方法 Pending CN115016286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210765784.1A CN115016286A (zh) 2022-07-01 2022-07-01 非线性工业系统数据驱动强化学习鲁棒控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210765784.1A CN115016286A (zh) 2022-07-01 2022-07-01 非线性工业系统数据驱动强化学习鲁棒控制方法

Publications (1)

Publication Number Publication Date
CN115016286A true CN115016286A (zh) 2022-09-06

Family

ID=83078618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210765784.1A Pending CN115016286A (zh) 2022-07-01 2022-07-01 非线性工业系统数据驱动强化学习鲁棒控制方法

Country Status (1)

Country Link
CN (1) CN115016286A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933383A (zh) * 2022-11-21 2023-04-07 中国矿业大学 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933383A (zh) * 2022-11-21 2023-04-07 中国矿业大学 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法
CN115933383B (zh) * 2022-11-21 2023-05-30 中国矿业大学 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Similar Documents

Publication Publication Date Title
Cheng et al. Real-time optimal control for spacecraft orbit transfer via multiscale deep neural networks
CN112560337B (zh) 复杂工业过程数字孪生系统智能建模方法、装置、设备及存储介质
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
US6411944B1 (en) Self-organizing control system
CN107671861A (zh) 一种改进的scara机器人动力学参数辨识方法
Chu et al. Final quality prediction method for new batch processes based on improved JYKPLS process transfer model
CN112077839B (zh) 一种机械臂的运动控制方法及装置
CN115016286A (zh) 非线性工业系统数据驱动强化学习鲁棒控制方法
Guan et al. Ship steering control based on quantum neural network
CN113703319A (zh) 基于强化学习的关节模组不等式约束最优鲁棒控制方法
CN103399488B (zh) 基于自学习的多模型控制方法
Georgieva et al. Neural network-based control strategies applied to a fed-batch crystallization process
Piccinini et al. A physics-driven artificial agent for online time-optimal vehicle motion planning and control
CN116619383B (zh) 基于确定学习的机械臂pid控制方法及系统
CN116460860A (zh) 一种基于模型的机器人离线强化学习控制方法
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN115042172A (zh) 基于融合模型的机器人逆动力学前馈控制方法及系统
CN116088299A (zh) 卫星天线混联运动机构神经网络反步控制方法
CN110932609B (zh) 一种多电机伺服系统自适应递推控制方法和系统
Emamzadeh et al. Fuzzy-based interaction prediction approach for hierarchical control of large-scale systems
CN116774576A (zh) 基于神经网络间接估计的水下航行器动力学黑盒建模方法
Hill et al. Neuroevolution with CMA-ES for Real-time Gain Tuning of a Car-like Robot Controller.
Rashed Simulation of speed control for separately excited dc motor utilizing fuzzy logic controller
Yang et al. Intelligent forecasting system using Grey model combined with neural network
Guo et al. Combined control algorithm based on synchronous reinforcement learning for a self-balancing bicycle robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination