CN116048085B - 一种移动机器人的故障估计和容错迭代学习控制方法 - Google Patents
一种移动机器人的故障估计和容错迭代学习控制方法 Download PDFInfo
- Publication number
- CN116048085B CN116048085B CN202310080001.0A CN202310080001A CN116048085B CN 116048085 B CN116048085 B CN 116048085B CN 202310080001 A CN202310080001 A CN 202310080001A CN 116048085 B CN116048085 B CN 116048085B
- Authority
- CN
- China
- Prior art keywords
- fault
- mobile robot
- actuator
- formula
- control system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 12
- 230000010355 oscillation Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 238000010923 batch production Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000006698 induction Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0219—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种移动机器人的故障估计和容错迭代学习控制方法,涉及移动机器人容错控制技术领域,该方法基于提升技术,将执行重复任务的移动机器人控制系统转换为时间序列的输入输出矩阵模型,并在迭代学习控制的框架下,设计了基于Q‑learning的故障估计算法和容错迭代学习控制算法,故障估计算法为容错迭代学习控制算法提供故障信息,容错迭代学习控制算法基于范数优化迭代学习控制框架,每个批次通过使用实时故障信息校正控制器输入,并且通过压缩映射的方法,证明了所设计容错迭代学习控制算法的收敛性。该方法可以解决执行器故障下移动机器人控制系统的轨迹跟踪问题,从而实现对期望轨迹的有效跟踪。
Description
技术领域
本发明涉及移动机器人容错控制技术领域,尤其是一种移动机器人的故障估计和容错迭代学习控制方法。
背景技术
作为集合智能感知、计算决策、运动控制等功能于一体的综合系统,移动机器人在勘探、排爆、安保、国防等方面有着广泛的应用场景。其中,轮式移动机器人是移动机器人的典型代表,具有移动灵活、高效率、轻量级的优势。
针对执行重复任务的移动机器人,结构简单、高性能的迭代学习控制能够提供良好的轨迹跟踪解决方案。一方面,由于复杂工况下的不确定性,重复任务系统很难保证系统参数不变化。另一方面,由于迭代学习控制对执行器的需求具有重复性,迭代学习控制对故障更加敏感,极易产生机械疲劳和损耗,需要更多的关注迭代学习控制框架下的执行器故障。因此,希望设计的迭代学习控制律具有一定的容错性能,使系统在执行器故障下尽可能跟踪上期望轨迹。
未知故障的存在给确定的系统动力学引入了不确定性,导致较差的控制性能。同时,故障的负面影响会逐渐累积,使得系统偏离预期的控制目标。因此,维持执行器故障下系统性能的关键是减小未知故障的影响,而故障估计可以直接重构故障信息,并为容错控制提供有力的支持。因此,希望设计的故障估计算法具有较好的估计性能,为容错迭代学习控制律提供有效的故障信息。
针对上述迭代学习框架下的执行器故障问题,故障估计和容错迭代学习控制方法应运而生。
发明内容
本发明人针对上述问题及技术需求,提出了一种移动机器人的故障估计和容错迭代学习控制方法,在迭代学习控制的框架下,提出了一个适合离散多输入多输出系统的故障估计和容错学习框架,引入Q-learning算法进行故障估计,通过估计的故障信息来辅助容错控制,从而提高执行器故障下系统的可靠性和性能。采用范数优化迭代学习控制框架设计容错迭代学习控制律,并根据压缩映射的方法,得到系统在执行器故障下的有界收敛条件。
本发明的技术方案如下:
一种移动机器人的故障估计和容错迭代学习控制方法,该方法包括:
确定双轮独立驱动的刚性移动机器人控制系统的动力学模型;对双轮独立驱动的刚性移动机器人控制系统进行解耦,并构建其离散状态空间方程;建立双轮独立驱动的刚性移动机器人控制系统的提升模型;建立执行器故障下双轮独立驱动的刚性移动机器人控制系统的提升模型和名义提升模型;设计执行器故障下的容错迭代学习控制轨迹跟踪算法;设计执行器故障下的基于Q-learning的故障估计算法;分析执行器故障下的容错迭代学习控制轨迹跟踪算法的收敛性;实现双轮独立驱动的刚性移动机器人控制系统在执行器故障下的轨迹跟踪。
本发明的有益技术效果是:
本申请公开了针对双轮独立驱动的刚性移动机器人控制系统此类具有重复运动特征的线性系统,将该移动机器人控制系统作为被控对象,针对执行器故障的情况,提出故障估计和容错迭代学习控制设计框架,并在该框架下设计可实现的容错迭代学习控制算法,进而在保证跟踪需求的同时提升系统的可靠性和性能。本算法基于范数优化迭代控制框架,设计了容错迭代学习控制算法,保证了系统跟踪误差的收敛性。
附图说明
图1是本申请提供的双轮独立驱动的刚性移动机器人控制系统原理框图。
图2是本申请提供的双轮独立驱动的刚性移动机器人控制系统实际物理模型图。
图3是本申请提供的移动机器人控制系统的线速度和方向角期望输出与实际输出曲线图。
图4是本申请提供的移动机器人控制系统的期望轨迹与实际跟踪轨迹。
图5是本申请提供的移动机器人控制系统的线速度和方向角的跟踪误差2-范数收敛图。
图6是本申请提供的移动机器人控制系统沿批次轴的故障估计误差2-范数图。
图7是本申请提供的移动机器人控制系统的故障估计值和实际值。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本实施例提供了一种移动机器人的故障估计和容错迭代学习控制方法,具体包括如下步骤:
第一步、确定双轮独立驱动的刚性移动机器人控制系统的动力学模型,包括:
双轮独立驱动的刚性移动机器人控制系统通过左右车轮的驱动电压来控制移动机器人的线速度和方向角,在固定平面上建立绝对坐标系,假设双轮独立驱动的刚性移动机器人在固定平面内移动,移动机器人的实际物理模型如式(1)所示:
其中,v为移动机器人的线速度,φ为移动机器人的方向角;ur和ul分别为移动机器人的右轮和左轮的驱动电压;c为粘性摩擦系数;M为移动机器人的质量;r为移动机器人的车轮半径;Iw为移动机器人的车轮的转动惯量;ka为驱动增益因子;l为移动机器人的左轮或右轮到移动机器人重心的距离;Iv为围绕移动机器人中心的转动惯量。
第二步、对双轮独立驱动的刚性移动机器人控制系统进行解耦,并构建其离散状态空间模型,包括:
将移动机器人的线速度、方向角和方向角的导数定义为状态变量:将右轮和左轮的驱动电压定义为输入变量:u=[ur ul]T,将移动机器人的线速度和方向角定义为输出变量:y=[v φ]T,则式(1)所示的刚性移动机器人控制系统描述为:
其中:
由于双轮独立驱动的刚性移动机器人控制系统是一个线性多输入多输出的耦合系统,为使用线速度的驱动电压uv和方向角的驱动电压uφ直接控制移动机器人的线速度和角速度,使用下述式(3)对耦合系统进行解耦:
再对解耦后的系统进行离散化,选取满足香农采样定理的采样周期Ts,进一步得出双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型:
式中,t表示采样时刻,k表示批次,选取批次过程的运行周期为T,且在每个重复运行周期t∈[0,N]内,共有N个采样点;和/>分别表示双轮独立驱动的刚性移动机器人控制系统第k批次t采样时刻的对应维度的输入、输出和状态向量;A,B和C为式(2)中离散系统先解耦后离散化的系统参数矩阵,并且满足CB≠0;假设系统每个批次的初始状态保持一致,即xk(0)=x0。
第三步、建立双轮独立驱动的刚性移动机器人控制系统的提升模型,包括:
针对式(4)表示的线性离散系统,将其离散状态空间模型转化为时间序列形式的提升模型:
yk=Guk+d (5)
其中:
d=[(CA)T,(CA2)T,...,(CAN)T]Tx0
G是时间序列上的输入输出传递矩阵,d是系统初始状态的输出响应;输入Hilbert空间和输出Hilbert空间/>分别由如下的内积和相应的诱导范数定义:
其中,是输入Hilbert空间的向量,/>是输出Hilbert空间的向量,矩阵/>和/>分别为对应维数的对称正定权重矩阵。
定义期望输入和期望输出/>为:
并且根据式(5)所示的输入输出模型,期望输出表示为:
yd=Gud+d (10)
由此定义跟踪误差为:
ek=yd-Guk-d (11)
第四步、建立执行器故障下双轮独立驱动的刚性移动机器人控制系统的提升模型和名义提升模型,包括:
定义执行器故障下的输入为:
并且,执行器故障下的输入由执行器故障系数表示为:
其中:
δk(t)=diag{δ1,k(t),δ2,k(t),...,δm,k(t)} (14)
估计的执行器故障系数表示为:
执行器故障系数的下界和上界分别定义为:
δ=diag{δ 1,δ 2,...,δ m} (18)
并且上述执行器故障系数下界的最小值和上界的最大值分别定义为:
假设执行器故障系数的下界δ i(0≤δ i≤1)和上界是已知的,即故障执行器系数δi,k(t)在已知范围内变化;δi,k(t)=0表示第i个执行器在第k批次t采样时刻完全故障;δi,k(t)=1表示第i个执行器在第k批次t采样时刻正常工作;0<δi,k(t)<1表示第i个执行器在第k批次t采样时刻有剩余驱动力;δi,k(t)>1表示第i个执行器在第k批次t采样时刻有过量驱动力。
执行器故障下式(4)所示的离散状态空间模型表示为:
针对式(22)表示的执行器故障下的线性离散系统,将其离散状态空间模型转化为时间序列形式的提升模型:
yk=Gδkuk+d (23)
其中:
进一步得出估计的执行器故障系数表示的执行器故障下的名义提升模型:
其中:
式(23)所示的执行器故障下提升模型的实际跟踪误差表示为:
ek=yd-Gδkuk-d (25)
式(24)所示的执行器故障下名义提升模型的数值跟踪误差表示为:
第五步、设计执行器故障下的容错迭代学习控制轨迹跟踪算法,包括:
考虑范数优化迭代学习控制框架,每批次优化一个性能指标函数,性能指标函数定义为:
其中,性能指标函数包括数值跟踪误差和控制振荡;Q和R分别为数值跟踪误差和控制振荡的对称正定权重矩阵,以表示性能指标函数考虑数值跟踪误差和控制振荡的优先级,即Q=QT>0,R=RT>0。
由式(6)和式(7)得到跟踪误差及控制振荡的诱导范数:
将式(26),式(28)和式(29)代入式(27),对uk+1求二次型最优解,得到:
由于正定,故其可逆。并且为改进本步骤设计算法的鲁棒性,将名义提升模型的数值跟踪误差/>替换成测量所得的实际跟踪误差ek,从而引入真实故障信息。因此,得到迭代学习更新律:
其中,和/>分别为第k批次的输入项学习增益和误差项学习增益:
综上,当给定双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型的初始输入u0,初始状态x0,参考轨迹yd,选定加权矩阵Q和R,其中该系统的离散状态空间模型为线性离散时不变系统,一种执行器故障下的容错迭代学习控制轨迹跟踪算法设计如下:
步骤5.1:对式(4)运行u0以获得y0;记录测量所得e0并通过式(31)的迭代学习更新律得出u1;
步骤5.2:根据第六步设计的执行器故障下的基于Q-learning的故障估计算法,计算重复该步骤直至采样次数达到N,输出最新的/>
步骤5.3:使用uk和ek,通过式(31)的迭代学习更新律得出uk+1;
步骤5.4:运行uk+1测量得到下一批次的输出yk+1和跟踪误差ek+1;
步骤5.5:重新执行步骤5.2,直至误差精度小于等于设定值,则算法结束。
第六步、设计执行器故障下的基于Q-learning的故障估计算法,包括:
考虑强化学习中的Q-learning算法,在每一批次每一时刻,估计一次故障信息,为式(31)所示的迭代学习更新律提供估计故障信息。Q-learning算法涉及的主要对象包括:智能体为故障估计器;环境为移动机器人控制系统;状态空间为其中每一个状态 动作空间为/>其中每一个动作
执行器故障下的故障估计算法的基本思想如下:
状态转移公式为:
采取∈-贪心策略作为动作选择策略π(s):
其中,Q(s,a)为动作价值函数,∈为贪心概率,p为动作选择概率。
动作价值函数的更新式为:
其中,α为学习率,γ为折扣因子,为在状态s下执行动作a从而转移到状态s'时获得的奖赏。
为准确进行故障估计,定义下述损失方程为:
进一步定义奖赏为:
其中,是一个与状态数量有关的常数,/>是关于故障估计精度的损失方程阈值。
综上,当给定学习率α,折扣因子γ,贪心概率∈,损失方程阈值状态xk和输入uk,一种执行器故障下的基于Q-learning的故障估计算法设计如下:
步骤6.1:初始化动作价值函数Q(s,a)和初始状态s0;
步骤6.2:通过∈-贪心策略选择初始状态s0的初始动作a0;
步骤6.3:通过式(36)更新动作价值函数Q(s,a);
步骤6.4:执行当前动作a,将当前状态转移至下一个状态s',并获得相应的奖赏
步骤6.5:通过∈-贪心策略选择下一个状态s'的动作a',之后s更新为s',a更新为a';
步骤6.6:重新执行步骤6.3,直至则算法结束,最终更新的s'即为估计的执行器故障系数/>
第七步、分析执行器故障下的容错迭代学习控制轨迹跟踪算法的收敛性,包括:
根据式(10)和式(25),第k批次的跟踪误差表示为:
定义输入误差Δuk为:
Δuk=ud-δkuk (40)
则将式(39)改写为:
ek=GΔuk (41)
根据式(40)和迭代学习更新律式(31),得到第k+1批次的输入误差:
其中,为对角阵δk的伪逆。
对式(42)两边取范数,得到:
接下来,证明存在上界的方法包括:
根据范数的相容性和三角不等式,得到下式:
由于δk、均为对角阵,根据式(20)和式(21)得到δk,/>和/>
根据式(32),得到:
由于R-1,G和Q均为正定,得到/>因此根据式(45),将式(46)改写为:
将式(47)代入式(44),得到:
定义正标量b为:
则根据式(49),式(43)表示为:
定义bu=bud,则系统迭代k批次后,得到:
若选择的对称正定权重矩阵Q和R使得下述约束条件成立:
其中,ρ为满足式(52)的常数。
则根据压缩映射引理,得到当k→∞时,式(51)表示为:
根据式(41)和式(53),得到:
定义cG=||G||,得到:
由此证得误差范数||ek+1||可以收敛至一个有界值。
第八步、实现双轮独立驱动的刚性移动机器人控制系统在执行器故障下的轨迹跟踪,包括:
根据容错迭代学习更新律确定刚性移动机器人控制系统每一迭代批次的输入矢量,利用得到的输入矢量对移动机器人控制系统进行轨迹跟踪控制,在发生执行器故障时,移动机器人在输入矢量的作用下追踪对应期望输出。
请参考图1,其示出了本申请提供的双轮独立驱动的刚性移动机器人控制系统原理框图。第k批次的迭代学习控制器生成的输入信号为uk,将其作用于移动机器人控制系统得到第k批次的输出信号yk。将yk与存储在期望轨迹存储器中的期望输出信号yd进行比较得到跟踪误差ek。接下来将跟踪误差ek与误差精度的设定值作比较,若ek没有达到误差精度的设定值,则进行下一次迭代,先将测量状态xk和uk传递到Q-learning故障估计器得到估计的执行器故障系数再将估计的执行器故障系数/>跟踪误差ek和输入信号uk传递给范数优化迭代学习控制器,从而生成下一批次的输入信号uk+1,如此循环,直至误差精度小于误差精度的设定值,则停止算法,此时控制器输入即为最优输入信号。
在本实施例中,针对图2和式(1)所示的双轮独立驱动的刚性移动机器人控制系统的实际物理模型,变量参数分别设定为:
c=0.05kgm2/s,M=200kg,r=0.1m,
Iw=0.005kgm2,ka=5,
l=0.3m,Iv=10kgm2。
控制系统的运行周期设定为T=2s,采样时刻设定为t=0.05s,则控制系统的离散状态空间模型的参数矩阵分别为:
在移动机器人控制系统运行过程中,需要系统跟踪某一特定轨迹,因此,本实施方式分别设定移动机器人的期望线速度和期望方向角为:
vd=2m/s,φd=πt rad。
令初始状态满足xk(0)=x0=[0 0 0]T。
考虑执行器故障系数:
其中:
δ1,k=0.15sin(πk/10-π/2)+0.7,
δ2,k(t)=0.1sin(πk/8-π/2)+0.75+0.1sin(2πt),t∈[0,N-1],
并且执行器故障系数中元素有上下界:
选取对称正定权重矩阵Q=I,R=0.001I,初始输入为u0=0。选取学习率α=0.1,折扣因子γ=1,贪心概率∈=0.1,损失方程阈值对称正定权重矩阵Q和R确定,再由故障估计算法得出估计的执行器故障因子/>容错迭代学习律中的/>和/>也随之确定。本申请的容错迭代学习控制器通过STM32F103RCT6芯片实现,芯片的输入为移动机器人的电机驱动电压u和状态信号x,并通过电压传感器、速度传感器与位置传感器采集得到。第k批次的输入信号uk和状态信号xk通过调理电路,进入STM32F103RCT6芯片进行存储与计算,首先CPU计算估计出执行器故障因子/>再构建容错迭代学习控制律,计算后得到第k+1批次的控制输入信号uk+1,输入信号再经过RS232通信模块作用到移动机器人控制系统,通过不断修正输出轨迹,来跟踪上期望轨迹目标。移动机器人控制系统的动态模型(1)运行时,请参考图3和图4,其分别示出了移动机器人控制系统应用容错迭代学习更新律(31)时线速度和方向角的轨迹跟踪图与移动机器人控制系统的实际轨迹跟踪图,运行一定的批次k后,系统的输出在执行器故障下能相对准确的跟踪上目标轨迹。图5示出了移动机器人控制系统线速度和方向角的跟踪误差的2-范数,随着迭代批次的增加,会逐步收敛,这验证了本申请所设计的容错迭代学习控制算法的合理性及有效性。
图6示出了执行器故障系数的估计误差2-范数,基于Q-learning的故障估计算法有稳定的估计性能,说明了本申请所设计的故障估计算法的有效性。图7示出了执行器故障系数的估计值与实际值,可以看出由于时间因果关系,执行器故障系数的估计值始终延迟实际值一个批次,这也导致了图6的执行器故障系数的估计误差。
本申请提出的针对执行器故障的故障估计与容错迭代学习控制算法,故障估计算法基于Q-learning算法,Q-learning算法提供了一种在未知环境下不需要大量先验数据就可以进行学习的可行方法,为容错迭代学习控制算法提供故障信息,容错迭代学习控制算法基于范数优化迭代学习控制框架,每个批次通过使用实时故障信息校正控制器输入,从而达到提升系统可靠性与性能的目的。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
Claims (1)
1.一种移动机器人的故障估计和容错迭代学习控制方法,其特征在于,所述方法包括:
第一步、确定双轮独立驱动的刚性移动机器人控制系统的动力学模型,包括:
所述双轮独立驱动的刚性移动机器人控制系统通过左右车轮的驱动电压来控制移动机器人的线速度和方向角,在固定平面上建立绝对坐标系,假设所述双轮独立驱动的刚性移动机器人在所述固定平面内移动,移动机器人的实际物理模型如式(1)所示:
其中,v为移动机器人的线速度,φ为移动机器人的方向角;ur和ul分别为移动机器人的右轮和左轮的驱动电压;c为粘性摩擦系数;M为移动机器人的质量;r为移动机器人的车轮半径;Iw为移动机器人的车轮的转动惯量;ka为驱动增益因子;l为移动机器人的左轮或右轮到移动机器人重心的距离;Iv为围绕移动机器人中心的转动惯量;
第二步、对所述双轮独立驱动的刚性移动机器人控制系统进行解耦,并构建其离散状态空间模型,包括:
将移动机器人的线速度、方向角和方向角的导数定义为状态变量:将右轮和左轮的驱动电压定义为输入变量:u=[ur ul]T,将移动机器人的线速度和方向角定义为输出变量:y=[v φ]T,则式(1)所示的刚性移动机器人控制系统描述为:
其中:
由于所述双轮独立驱动的刚性移动机器人控制系统是一个线性多输入多输出的耦合系统,为使用线速度的驱动电压uv和方向角的驱动电压uφ直接控制所述移动机器人的线速度和角速度,使用下述式(3)对所述耦合系统进行解耦:
再对解耦后的系统进行离散化,选取满足香农采样定理的采样周期Ts,进一步得出所述双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型:
式中,t表示采样时刻,k表示批次,选取批次过程的运行周期为T,且在每个重复运行周期t∈[0,N]内,共有N个采样点;和/>分别表示所述双轮独立驱动的刚性移动机器人控制系统第k批次t采样时刻的对应维度的输入、输出和状态向量;A,B和C为式(2)中离散系统先解耦后离散化的系统参数矩阵,并且满足CB≠0;假设系统每个批次的初始状态保持一致,即xk(0)=x0;
第三步、建立所述双轮独立驱动的刚性移动机器人控制系统的提升模型,包括:
针对式(4)表示的线性离散系统,将其离散状态空间模型转化为时间序列形式的提升模型:
yk=Guk+d (5)
其中:
d=[(CA)T,(CA2)T,...,(CAN)T]Tx0
G是时间序列上的输入输出传递矩阵,d是系统初始状态的输出响应;输入Hilbert空间和输出Hilbert空间/>分别由如下的内积和相应的诱导范数定义:
其中,是输入Hilbert空间的向量,/>是输出Hilbert空间的向量,矩阵/>和/>分别为对应维数的对称正定权重矩阵;
定义期望输入和期望输出/>为:
并且根据式(5)所示的输入输出模型,期望输出表示为:
yd=Gud+d (10)
由此定义跟踪误差为:
ek=yd-Guk-d (11)
第四步、建立执行器故障下所述双轮独立驱动的刚性移动机器人控制系统的提升模型和名义提升模型,包括:
定义执行器故障下的输入为:
并且,执行器故障下的输入由执行器故障系数表示为:
其中:
δk(t)=diag{δ1,k(t),δ2,k(t),...,δm,k(t)} (14)
估计的执行器故障系数表示为:
执行器故障系数的下界和上界分别定义为:
δ=diag{δ 1,δ 2,...,δ m} (18)
并且执行器故障系数下界的最小值和上界的最大值分别定义为:
假设执行器故障系数的下界δ i(0≤δ i≤1)和上界是已知的,即故障执行器系数δi,k(t)在已知范围内变化;δi,k(t)=0表示第i个执行器在第k批次t采样时刻完全故障;δi,k(t)=1表示第i个执行器在第k批次t采样时刻正常工作;0<δi,k(t)<1表示第i个执行器在第k批次t采样时刻有剩余驱动力;δi,k(t)>1表示第i个执行器在第k批次t采样时刻有过量驱动力;
执行器故障下式(4)所示的离散状态空间模型表示为:
针对式(22)表示的执行器故障下的线性离散系统,将其离散状态空间模型转化为时间序列形式的提升模型:
yk=Gδkuk+d (23)
其中:
进一步得出估计的执行器故障系数表示的执行器故障下的名义提升模型:
其中:
式(23)所示的执行器故障下提升模型的实际跟踪误差表示为:
ek=yd-Gδkuk-d (25)
式(24)所示的执行器故障下名义提升模型的数值跟踪误差表示为:
第五步、设计执行器故障下的容错迭代学习控制轨迹跟踪算法,包括:
考虑范数优化迭代学习控制框架,每批次优化一个性能指标函数,所述性能指标函数定义为:
其中,所述性能指标函数包括数值跟踪误差和控制振荡;Q和R分别为数值跟踪误差和控制振荡的对称正定权重矩阵,以表示性能指标函数考虑数值跟踪误差和控制振荡的优先级,即Q=QT>0,R=RT>0;
由式(6)和式(7)得到跟踪误差及控制振荡的诱导范数:
将式(26),式(28)和式(29)代入式(27),对uk+1求二次型最优解,得到:
由于正定,故其可逆;并且为改进本步骤设计算法的鲁棒性,将名义提升模型的数值跟踪误差/>替换成测量所得的实际跟踪误差ek,从而引入真实故障信息;因此,得到迭代学习更新律:
其中,和/>分别为第k批次的输入项学习增益和误差项学习增益:
当给定所述双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型的初始输入u0,初始状态x0,参考轨迹yd,选定加权矩阵Q和R,一种执行器故障下的容错迭代学习控制轨迹跟踪算法设计如下:
步骤5.1:对式(4)运行u0以获得y0;记录测量所得的e0并通过式(31)的迭代学习更新律得出u1;
步骤5.2:根据第六步设计的执行器故障下的基于Q-learning的故障估计算法,计算重复该步骤直至采样次数达到N,输出最新的/>
步骤5.3:使用uk和ek,通过式(31)的迭代学习更新律得出uk+1;
步骤5.4:运行uk+1测量得到下一批次的输出yk+1和跟踪误差ek+1;
步骤5.5:重新执行步骤5.2,直至误差精度小于等于设定值,则算法结束;
第六步、设计执行器故障下的基于Q-learning的故障估计算法,包括:
考虑强化学习中的Q-learning算法,在每一批次每一时刻,估计一次故障信息,为式(31)所示的迭代学习更新律提供估计故障信息;所述Q-learning算法涉及的主要对象包括:智能体为故障估计器;环境为所述移动机器人控制系统;状态空间为其中每一个状态/>动作空间为/>其中每一个动作
执行器故障下的故障估计算法的基本思想如下:
状态转移公式为:
采取∈-贪心策略作为动作选择策略π(s):
其中,Q(s,a)为动作价值函数,∈为贪心概率,p为动作选择概率;
动作价值函数的更新式为:
其中,α为学习率,γ为折扣因子,为在状态s下执行动作a从而转移到状态s'时获得的奖赏;
为准确进行故障估计,定义下述损失方程为:
进一步定义奖赏为:
其中,是一个与状态数量有关的常数,/>是关于故障估计精度的损失方程阈值;
当给定学习率α,折扣因子γ,贪心概率∈,损失方程阈值状态xk和输入uk,一种执行器故障下的基于Q-learning的故障估计算法设计如下:
步骤6.1:初始化动作价值函数Q(s,a)和初始状态s0;
步骤6.2:通过∈-贪心策略选择初始状态s0的初始动作a0;
步骤6.3:通过式(36)更新动作价值函数Q(s,a);
步骤6.4:执行当前动作a,将当前状态转移至下一个状态s',并获得相应的奖赏
步骤6.5:通过∈-贪心策略选择下一个状态s'的动作a',之后s更新为s',a更新为a';
步骤6.6:重新执行步骤6.3,直至则算法结束,最终更新的s'即为估计的执行器故障系数/>
第七步、分析执行器故障下的容错迭代学习控制轨迹跟踪算法的收敛性,包括:
根据式(10)和式(25),第k批次的跟踪误差表示为:
定义输入误差Δuk为:
Δuk=ud-δkuk (40)
则将式(39)改写为:
ek=GΔuk (41)
根据式(40)和迭代学习更新律式(31),得到第k+1批次的输入误差:
其中,为对角阵δk的伪逆;
对式(42)两边取范数,得到:
证明存在上界的方法包括:
根据范数的相容性和三角不等式,得到下式:
由于δk、均为对角阵,根据式(20)和式(21)得到||δk||,/>和/>的上界为:
根据式(32),得到:
由于R-1,G和Q均为正定,得到/>因此根据式(45),将式(46)改写为:
将式(47)代入式(44),得到:
定义正标量b为:
则根据式(49),式(43)表示为:
定义bu=b||ud||;则系统迭代k批次后,得到:
若选择的对称正定权重矩阵Q和R使得下述约束条件成立:
其中,ρ为满足式(52)的常数;
则根据压缩映射引理,得到当k→∞时,式(51)表示为:
根据式(41)和式(53),得到:
定义cG=||G||,得到:
证得误差范数||ek+1||收敛至一个有界值;
第八步、实现所述双轮独立驱动的刚性移动机器人控制系统在执行器故障下的轨迹跟踪,包括:
根据迭代学习更新律确定所述刚性移动机器人控制系统每一迭代批次的输入矢量,利用得到的输入矢量对移动机器人控制系统进行轨迹跟踪控制,在发生执行器故障时,移动机器人在输入矢量的作用下追踪对应期望输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310080001.0A CN116048085B (zh) | 2023-02-03 | 2023-02-03 | 一种移动机器人的故障估计和容错迭代学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310080001.0A CN116048085B (zh) | 2023-02-03 | 2023-02-03 | 一种移动机器人的故障估计和容错迭代学习控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116048085A CN116048085A (zh) | 2023-05-02 |
CN116048085B true CN116048085B (zh) | 2023-11-07 |
Family
ID=86131225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310080001.0A Active CN116048085B (zh) | 2023-02-03 | 2023-02-03 | 一种移动机器人的故障估计和容错迭代学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116048085B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110815225A (zh) * | 2019-11-15 | 2020-02-21 | 江南大学 | 电机驱动单机械臂系统的点对点迭代学习优化控制方法 |
CN112318505A (zh) * | 2020-10-28 | 2021-02-05 | 江南大学 | 一种移动机器人变批次长度迭代学习优化控制方法 |
CN113625563A (zh) * | 2021-08-06 | 2021-11-09 | 江南大学 | 一种直流电动机量化迭代学习容错控制方法 |
WO2022094624A1 (en) * | 2020-11-01 | 2022-05-05 | Nvidia Corporation | Model-based reinforcement learning for behavior prediction in autonomous systems and applications |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10372579B2 (en) * | 2017-03-10 | 2019-08-06 | Artesyn Embedded Computing, Inc. | FPGA mismatched packet stop for a safety system |
-
2023
- 2023-02-03 CN CN202310080001.0A patent/CN116048085B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110815225A (zh) * | 2019-11-15 | 2020-02-21 | 江南大学 | 电机驱动单机械臂系统的点对点迭代学习优化控制方法 |
CN112318505A (zh) * | 2020-10-28 | 2021-02-05 | 江南大学 | 一种移动机器人变批次长度迭代学习优化控制方法 |
WO2022094624A1 (en) * | 2020-11-01 | 2022-05-05 | Nvidia Corporation | Model-based reinforcement learning for behavior prediction in autonomous systems and applications |
CN113625563A (zh) * | 2021-08-06 | 2021-11-09 | 江南大学 | 一种直流电动机量化迭代学习容错控制方法 |
Non-Patent Citations (2)
Title |
---|
Output feedback based robust iterative learning control via a heuristic approach for batch processes with time-varying state delays and uncertainties;Junyu Wei et al.;Journal of Process Control;第116卷;第159-171页 * |
一类不确定性离散非线性重复过程的迭代学习容错控制;陶洪峰 等;《信息与控制》;第48卷(第1期);第88-96页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116048085A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Model predictive tracking control of nonholonomic mobile robots with coupled input constraints and unknown dynamics | |
CN111319036B (zh) | 基于自适应算法的移动机械臂位置/力自抗扰控制方法 | |
Fareh et al. | Robust active disturbance rejection control for flexible link manipulator | |
Peng et al. | Neural-learning-based force sensorless admittance control for robots with input deadzone | |
CN107942670B (zh) | 一种双柔性空间机械臂模糊鲁棒滑模削抖运动控制方法 | |
CN110340898B (zh) | 一种自由漂浮空间机械臂自适应容错控制方法 | |
Rigatos | Model-based and model-free control of flexible-link robots: A comparison between representative methods | |
Khan et al. | Control strategies for robotic manipulators | |
WO2022088471A1 (zh) | 一种移动机器人变批次长度迭代学习优化控制方法 | |
CN110103225B (zh) | 一种数据驱动的机械臂重复运动控制方法与装置 | |
Li | Predefined-time convergent neural solution to cyclical motion planning of redundant robots under physical constraints | |
Qi et al. | Stable indirect adaptive control based on discrete-time T–S fuzzy model | |
Zhao et al. | Vibration control for flexible manipulators with event-triggering mechanism and actuator failures | |
Tian et al. | Constrained motion control of flexible robot manipulators based on recurrent neural networks | |
CN112077839B (zh) | 一种机械臂的运动控制方法及装置 | |
Yang et al. | Dynamics and noncollocated model‐free position control for a space robot with multi‐link flexible manipulators | |
Zhou et al. | Torque sensorless force/position decentralized control for constrained reconfigurable manipulator with harmonic drive transmission | |
CN110802589A (zh) | 一种工业机器人单关节伺服控制的迟滞补偿方法 | |
Jun-Pei et al. | Neural network control of space manipulator based on dynamic model and disturbance observer | |
Tan et al. | New varying-parameter recursive neural networks for model-free kinematic control of redundant manipulators with limited measurements | |
Zhao et al. | Deterministic learning from adaptive neural network control for a 2-dof helicopter system with unknown backlash and model uncertainty | |
Dutta et al. | Adaptive model predictive control design using multiple model second level adaptation for parameter estimation of two‐degree freedom of helicopter model | |
CN116048085B (zh) | 一种移动机器人的故障估计和容错迭代学习控制方法 | |
Zhang et al. | Dual heuristic programming with just‐in‐time modeling for self‐learning fault‐tolerant control of mobile robots | |
Zhang et al. | Adaptive control of discrete-time nonlinear systems using ITF-ORVFL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |