CN113093548A - 基于事件触发机制的移动机器人轨迹跟踪最优控制方法 - Google Patents

基于事件触发机制的移动机器人轨迹跟踪最优控制方法 Download PDF

Info

Publication number
CN113093548A
CN113093548A CN202110370188.9A CN202110370188A CN113093548A CN 113093548 A CN113093548 A CN 113093548A CN 202110370188 A CN202110370188 A CN 202110370188A CN 113093548 A CN113093548 A CN 113093548A
Authority
CN
China
Prior art keywords
robot
tracking
network
error
optimal control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110370188.9A
Other languages
English (en)
Inventor
程松松
方笑晗
潘天红
樊渊
陈烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110370188.9A priority Critical patent/CN113093548A/zh
Publication of CN113093548A publication Critical patent/CN113093548A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种基于事件触发机制的机器人轨迹跟踪最优控制方法,包括:结合最优控制理论,定义参考机器人与跟踪机器人的轨迹误差为机器人系统误差状态,使系统误差状态为零;通过动作‑评判网络框架去求解机器人的最优跟踪轨迹,利用评判网络来逼近非线性系统的代价函数,并用动作网络来估计最优控制律;通过采用事件触发方法,控制信号以非周期方式传输,评判网络和动作网络两个神经网络仅在由事件触发条件决定的更新时刻更新自身权值;定义Lyapunov函数,基于此函数设计事件触发条件,并利用最优控制理论,保证机器人跟踪系统的误差状态收敛到零。本发明方便求解最优轨迹,且极大的减少了机器人跟踪系统内部的通信损耗,减少了系统资源不必要的浪费。

Description

基于事件触发机制的移动机器人轨迹跟踪最优控制方法
技术领域
本发明涉及机器人跟踪系统的事件触发和最优控制领域,尤其涉及一种基于事件触发与最优控制相结合以控制非完整机器人轨迹跟踪的方法。
背景技术
近年来,非完整机器人越来越受到控制界的重视。非完整机器人是一种运动约束用不可积微分方程表示的机器人。非完整机器人的设计与控制涉及机器人学、分析力学、非线性控制理论等学科的综合。传统的非完整移动机器人跟踪控制方法主要有Taylor线性化或基于跟踪误差模型的动态反馈线性化,得到局部跟踪结果。最近,最优控制广泛应用于航空航天、机器人和飞行器等领域。随着神经网络的发展,自适应动态规划(ADP)在求解控制约束下的最优控制问题方面受到了广泛的关注。从数学的角度看,找到最优控制器等价于求解非线性HJB方程。然而,ADP方法一般采用时间触发控制。这往往会导致大量的网络通信资源的使用。所以,本发明将基于事件触发的ADP策略应用于机器人轨迹跟踪控制的问题中,以提高非完整机器人系统的网络带宽利用率和轨迹跟踪精度。
与本发明相关的现有技术一:
公开号为CN103631142A的专利申请公开了一种用于轮式机器人轨迹跟踪的跌代学习算法
现有技术一的技术方案
该方法涉及一种用于移动机器人轨迹跟踪的控制方法,解决增益参数的选取问题。
1)在常规PID迭代学习控制的基础上,将实际轨迹的状态参与到每一次的迭代运算中使的控制效果更接近于期望值;
2)将模型算法学习律中学习增益矩阵的形式引入到PID算法的学习增益矩阵中,解决了增益矩阵较难获取的问题。
现有技术一的缺点
1)没有考虑机器人轨迹跟踪的最优路径.
2)没有考虑减少机器人跟踪系统的通信损耗。
与本发明相关的现有技术二:
公开号为CN109960150A的专利申请公开了一种巡检机器人轨迹跟踪控制方法
现有技术二的技术方案
该发明公开了一种巡检机器人轨迹跟踪控制方法,具体步骤为:建立车轮轴中心与机器人参考位置不重合时的机器人前轮转向后轮驱动的运动学模型;根据机器人前轮转向后轮驱动的运动学模型建立机器人的原地转向模型;确定轨迹跟踪控制率,完成巡检机器人轨迹跟踪控制。
现有技术二的缺点
1)巡检机器人轨迹跟踪运动学模型特别复杂,计算复杂度高;
2)没有考虑减少巡检机器人轨迹跟踪系统的通信损耗;
3)未考虑最优轨迹跟踪路径。
与本发明相关的现有技术三:
公开号为CN111290408A公开了一种移动机器人轨迹跟踪控制方法
现有技术三的技术方案
该发明公开了一种移动机器人轨迹跟踪控制方法,涉及机器人技术领域,解决了现有技术中机器人路径规划方法得出的路径长度过大、难以达到最优值的问题,该发明通过改进遗传算法和改进粒子群算法规划机器人全局静态路径和局部动态路径,使得机器人得到的全局静态路径短,局部动态路径规划迅速,提高了移动机器人的局部避障能力,提高了移动机器人的工作效率。
现有技术三的缺点
1)没有考虑减少机器人跟踪系统的通信损耗;
2)该发明使用的遗传算法最终得到的是机器人的局部最优跟踪轨迹。
发明内容
本发明所要解决的技术问题在于如何减少机器人跟踪系统的通信损耗以及如何得到机器人轨迹跟踪的最优路径。
本发明公开一种基于事件触发机制的机器人轨迹跟踪最优控制方法,该方法包括:
步骤1:结合最优控制理论,考虑机器人跟踪系统在事件触发机制下的建模与分析问题,通过定义参考机器人与跟踪机器人的轨迹误差为机器人系统误差状态,目的是使系统误差状态为零,即跟踪机器人能完全跟踪参考机器人;
步骤2:通过动作-评判网络框架去求解机器人的最优跟踪轨迹,利用评判网络来逼近非线性系统的代价函数,并用动作网络来估计最优控制律;
步骤3:通过采用事件触发方法,控制信号以非周期方式传输,以减少计算量和传输成本,评判网络和动作网络两个神经网络仅在由事件触发条件决定的更新时刻更新自身权值;
步骤4:定义Lyapunov函数,基于此Lyapunov函数设计事件触发条件,并利用最优控制理论,保证机器人跟踪系统的误差状态收敛到零。
本发明提出了一个非线性闭环系统,基于事件触发和最优控制理论,模拟机器人的自动跟踪系统,将机器人轨迹跟踪问题建模成非线性系统,方便求解最优轨迹;为了得到机器人最优的跟踪轨迹,采用ADP方法来求解机器人跟踪系统的最优控制问题,提高了非完整机器人系统的网络带宽利用率和轨迹跟踪精度,与一般采用时间触发的ADP方法相比,结合事件触发和ADP控制方法应用于机器人跟踪系统中,极大的减少了机器人跟踪系统内部的通信损耗;由于机器人跟踪系统是由非线性系统所模拟,本发明提出了一个动作-评判网络框架去求解机器人的最优跟踪轨迹,利用评判网络来逼近非线性系统的代价函数,并用动作网络来估计最优控制律,减少了系统资源不必要的浪费,取得了更高的资源利用率。
进一步的,所述步骤1中定义参考机器人与跟踪机器人的轨迹误差为机器人系统误差状态具体包括:
考虑跟踪机器人系统模型满足下列动力学方程
Figure BDA0003008960990000031
其中(x,y)是跟踪机器人的笛卡尔坐标,θ是跟踪机器人航向和x轴之间的角度,(v,ω)表示控制输入向量,其中v是跟踪机器人运动的速度,ω是跟踪机器人的角速度,参考机器人满足以下动力学方程
Figure BDA0003008960990000032
其中(xr,yr)是参考机器人的笛卡尔坐标,θr是参考机器人的航向和xr轴之间的角度,(vrr)表示控制输入向量,vr是参考机器人运动的速度,ωr是参考机器人的角速度;
为了解决机器人跟踪问题,引入了误差坐标
Figure BDA0003008960990000033
在新坐标系中,跟踪误差动态变为
Figure BDA0003008960990000034
系统的控制目标是设计适当的控制律(v,ω),使(xe,yee)趋于零,同时保证系统的稳定性。
进一步的,从事件触发机制的角度设计控制器,使移动机器人能够逐步跟踪参考机器人:
定义系统误差状态X(t)=[xe(t),ye(t),θe(t)]T和u(t)=[ω(t),v(t)]T,得
Figure BDA0003008960990000041
其中ω(t)是跟踪机器人的角速度,ν(t)是跟踪机器人的线速度,ωr(t)是参考机器人的角速度,νr(t)是参考机器人的线速度。T是矩阵的转置;
通过以上分析,基于公式(4)的机器人跟踪误差系统(4)的动力学方程化为非完整移动机器人方程:
Figure BDA0003008960990000042
最优控制的目标是找到一个控制律u,使如下给定的代价函数最小:
Figure BDA0003008960990000043
因此,非完整移动机器人系统(5)的Lyapunov方程被描述为
Figure BDA0003008960990000044
其中u是机器人跟踪误差系统的控制输入,X是机器人跟踪误差系统的状态。Q,R是分别与状态向量X和u维度相匹配的正定对称矩阵,VX是代价函数V(X)相对于X的偏导数;
为简单起见,f(X)和g(X)分别表示为f和g,将哈密顿函数定义为
H(X,VX,u)=VX T(f+gu)+XTQX+uTRu (8)
然后,最优控制律等价于求解非线性移动机器人系统(5)的HJB方程,
Figure BDA0003008960990000045
其中
Figure BDA0003008960990000046
是最优代价函数V*(X)相对于X的偏导数。通过上述公式的计算,得到最优控制律如下
Figure BDA0003008960990000047
为了降低通信资源的损耗,引入事件触发形式的HJB方程,控制器只在离散时间序列{t0,t1,…,tk}时更新,其中k是正整数,因此,事件触发方案中的最优控制策略为
Figure BDA0003008960990000051
其中Xs表示系统采样状态,采样之后的控制律u(Xs)=[ωs,vs,0],其中ωs和vs分别是移动机器人速度和角速度的采样版本,应用公式(11)给出的最优事件触发控制器,得到公式(5)的跟踪误差动力学方程,
Figure BDA0003008960990000052
进一步的,步骤2中,评判网络设计如下:
通过使用评判网络,代价函数化为如下所示
Figure BDA0003008960990000053
其中ωc是评判网络理想权重,φ表示激活函数,εc是重构误差,然后,代价函数V*(X)对X的导数为
Figure BDA0003008960990000054
其中符合
Figure BDA0003008960990000055
表示梯度算子,通过利用评判网络来逼近代价函数,哈密顿函数(8)被近似为
Figure BDA0003008960990000056
其中
Figure BDA00030089609900000513
表示残差,并且满足εH≤εHM,εHM是一个正常数,在该方法中,使用评判网络权值的估计值
Figure BDA0003008960990000057
去表示代价函数,得
Figure BDA0003008960990000058
其中
Figure BDA0003008960990000059
Figure BDA00030089609900000510
分别表示V*(X)和ωc的估计值,因此,估计的Lyapunov方程描述为
Figure BDA00030089609900000511
由于评判网络的估计值不可能完全准确,所以上述Lyapunov方程是非零的,控制目标是定义如下二次误差函数最小化
Figure BDA00030089609900000512
进一步的,步骤2中,动作网络设计如下:
动作网络的权重仅在触发时刻更新,利用动作网络,给出了最优控制律
Figure BDA0003008960990000061
其中评判网络和动作网络使用相同的激活函数
Figure BDA0003008960990000062
εa是动作网络的重构误差,为了确定最优代价函数,事件触发的最优控制律使用动作网络进行逼近,如下所示
Figure BDA0003008960990000063
其中Xs表示系统采样状态。
Figure BDA0003008960990000064
动作网络的估计权重,同样,动作网络的权值估计误差定义为
Figure BDA0003008960990000065
为了寻找动作网络估计权值
Figure BDA0003008960990000066
的控制律,定义动作网络的误差函数为
Figure BDA0003008960990000067
控制目标是通过选择合适的估计权值
Figure BDA0003008960990000068
使误差ea最小化,因此,定义了如下二次误差函数
Figure BDA0003008960990000069
进一步的,步骤3具体为:
在事件触发方案中,估计的评判网络权值仅在触发时刻tk更新,并在区间(tk,tk+1]时保持不变,
Figure BDA00030089609900000610
在触发时刻tk选择如下权值更新律
Figure BDA00030089609900000611
其中lc>0是评判神经网络的学习率,
Figure BDA00030089609900000612
是评判网络下一次更新的估计权重,
Figure BDA00030089609900000613
且m=κTκ+1,
然后,定义评判网络的估计误差
Figure BDA00030089609900000614
根据上面的分析,得
Figure BDA00030089609900000615
类似于评判网络的权值更新,定义动作网络的权重调整率为
Figure BDA0003008960990000071
其中la>0是动作网络的学习率,
Figure BDA0003008960990000072
是动作网络下一次更新的估计权重,因为条件
Figure BDA0003008960990000073
推导出
Figure BDA0003008960990000074
其中
Figure BDA0003008960990000075
假设激活函数φ(X)关于状态X的Lipschitz连续性,得
||φ(X)-φ(Xs)||≤L||e(t)||
其中e=X-Xs,L是个正数。
进一步的,步骤4具体为:
考虑非完整移动机器人系统(5),评判和动作神经网络的估计权重更新为公式(25)和(27),然后,通过如下触发条件
Figure BDA0003008960990000076
使得非线性移动机器人跟踪系统的状态和估计误差最终有界,其中σ∈(0,1)是设计的参数,gM是满足条件||g(X)||≤gM的已知正数。以下技术手段实现解决上述技术问题的:
本发明的优点在于:
1)本发明提出了一个非线性闭环系统,基于事件触发和最优控制理论,模拟机器人的自动跟踪系统,将机器人轨迹跟踪问题建模成非线性系统,方便求解最优轨迹;
2)为了得到机器人最优的跟踪轨迹,采用ADP方法来求解机器人跟踪系统的最优控制问题,提高了非完整机器人系统的网络带宽利用率和轨迹跟踪精度,与一般采用时间触发的ADP方法相比,结合事件触发和ADP控制方法应用于机器人跟踪系统中,极大的减少了机器人跟踪系统内部的通信损耗;
3)由于机器人跟踪系统是由非线性系统所模拟,本发明提出了一个动作-评判网络框架去求解机器人的最优跟踪轨迹,利用评判网络来逼近非线性系统的代价函数,并用动作网络来估计最优控制律,减少了系统资源不必要的浪费,取得了更高的资源利用率。
附图说明
图1为机器人系统建模的坐标图;
图2为从事件触发机制的角度设计控制器的原理图;
图3为非线性移动机器人跟踪系统的框架简略;
图4是非线性移动机器人跟踪系统的原理图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图3和图4所示,本发明公开了一种基于事件触发机制的机器人轨迹跟踪最优控制方法,该方法包括:
步骤1:结合最优控制理论,考虑机器人跟踪系统在事件触发机制下的建模与分析问题,通过定义参考机器人与跟踪机器人的轨迹误差为机器人系统误差状态,目的是使系统误差状态为零,即跟踪机器人能完全跟踪参考机器人,具体步骤如下:
如图1所示,考虑跟踪机器人系统模型满足下列动力学方程
Figure BDA0003008960990000081
其中(x,y)是跟踪机器人的笛卡尔坐标,θ是跟踪机器人航向和x轴之间的角度,(v,ω)表示控制输入向量,其中v是跟踪机器人运动的速度,ω是跟踪机器人的角速度。
参考机器人满足以下动力学方程
Figure BDA0003008960990000082
其中(xr,yr)是参考机器人的笛卡尔坐标,θr是参考机器人的航向和xr轴之间的角度,(vrr)表示控制输入向量,vr是参考机器人运动的速度,ωr是参考机器人的角速度。
为了解决机器人跟踪问题,引入了误差坐标
Figure BDA0003008960990000083
其中xe,yee是定义的机器人跟踪的对应于x,y,θ各项指标误差。
在新坐标系中,机器人跟踪误差系统为
Figure BDA0003008960990000091
系统的控制目标是设计适当的控制律(v,ω),使(xe,yee)趋于零,同时保证系统的稳定性。为了减少通信量,提出了基于公式(4)的事件触发方法。
如图2所示,本文的主要任务是从事件触发机制的角度设计控制器,使移动机器人能够逐步跟踪参考机器人。
定义系统误差状态X(t)=[xe(t),ye(t),θe(t)]T和u(t)=[ω(t),v(t)]T,可得
Figure BDA0003008960990000092
其中ω(t)是跟踪机器人的角速度,ν(t)是跟踪机器人的线速度,ωr(t)是参考机器人的角速度,νr(t)是参考机器人的线速度。T是矩阵的转置。
通过以上分析,基于公式(4)的机器人跟踪误差系统(4)的动力学方程可化为非完整移动机器人方程。
Figure BDA0003008960990000093
最优控制的目标是找到一个控制律u,使如下给定的代价函数最小。
Figure BDA0003008960990000094
因此,非完整移动机器人系统(5)的Lyapunov方程被描述为
Figure BDA0003008960990000095
其中u是机器人跟踪误差系统的控制输入,X是机器人跟踪误差系统的状态。Q,R是分别与状态向量X和u维度相匹配的正定对称矩阵,VX是代价函数V(X)相对于X的偏导数。
为简单起见,f(X)和g(X)分别表示为f和g。将哈密顿函数定义为
Figure BDA0003008960990000096
然后,最优控制律等价于求解非线性移动机器人系统(5)的HJB方程。
Figure BDA0003008960990000097
其中
Figure BDA0003008960990000101
是最优代价函数V*(X)相对于X的偏导数。通过上述公式的计算,得到最优控制律如下
Figure BDA0003008960990000102
为了降低通信资源的损耗,引入事件触发形式的HJB方程。控制器只在离散时间序列{t0,t1,…,tk}时更新,其中k是正整数。因此,事件触发方案中的最优控制策略为
Figure BDA0003008960990000103
其中Xs表示系统采样状态。采样之后的控制律u(Xs)=[ωs,vs,0],其中ωs和vs分别是移动机器人速度和角速度的采样版本。应用公式(11)给出的最优事件触发控制器,可以得到公式(5)的跟踪误差动力学方程。
Figure BDA0003008960990000104
步骤2:本发明提出了一个动作-评判网络框架去求解机器人的最优跟踪轨迹,利用评判网络来逼近非线性系统的代价函数,并用动作网络来估计最优控制律,具体如下:
在这一部分中,详细阐述了非线性移动机器人系统事件触发最优控制器的设计。由于HJB方程的非线性,直接求解HJB方程很难找到最优控制策略。因此,采用了基于神经网络的事件触发最优控制方法。采用动作-评判神经网络结构来逼近代价函数和最优事件触发控制器。两个神经网络仅在由事件触发条件决定的更新时刻更新自身权值。
评判网络设计
通过使用评判网络,代价函数可化为如下所示
Figure BDA0003008960990000105
其中ωc是评判网络理想权重,φ表示激活函数,εc是重构误差。然后,可知代价函数V*(X)对X的导数为
Figure BDA0003008960990000106
其中符合
Figure BDA0003008960990000107
表示梯度算子。通过利用评判网络来逼近代价函数,哈密顿函数(8)被近似为
Figure BDA0003008960990000108
其中
Figure BDA0003008960990000109
表示残差,并且满足εH≤εHM,εHM是一个正常数。在该方法中,使用评判网络权值的估计值
Figure BDA00030089609900001010
去表示代价函数,可得
Figure BDA00030089609900001011
其中
Figure BDA00030089609900001012
Figure BDA00030089609900001013
分别表示V*(X)和ωc的估计值。因此,估计的Lyapunov方程描述为
Figure BDA0003008960990000111
由于评判网络的估计值不可能完全准确,所以上述Lyapunov方程是非零的。控制目标是定义如下二次误差函数最小化
Figure BDA0003008960990000112
动作网络设计
在这一部分中,使用动作神经网络来逼近最优控制策略。类似地,动作网络的权重仅在触发时刻更新。利用动作网络,给出了最优控制律
Figure BDA0003008960990000113
其中评判网络和动作网络使用相同的激活函数
Figure BDA0003008960990000114
εa是动作网络的重构误差。为了确定最优代价函数,事件触发的最优控制律使用动作网络进行逼近,如下所示
Figure BDA0003008960990000115
其中Xs表示系统采样状态。
Figure BDA0003008960990000116
是动作网络的估计权重。同样,动作网络的权值估计误差定义为
Figure BDA0003008960990000117
为了寻找动作网络估计权值
Figure BDA0003008960990000118
的控制律,定义动作网络的误差函数为
Figure BDA0003008960990000119
控制目标是通过选择合适的估计权值
Figure BDA00030089609900001110
使误差ea最小化。因此,定义了如下二次误差函数
Figure BDA00030089609900001111
步骤3:通过采用事件触发方法,控制信号以非周期方式传输,以减少计算量和传输成本,两个神经网络仅在由事件触发条件决定的更新时刻更新自身权值,其中事件触发条件由步骤4给出。
在事件触发方案中,估计的评判网络权值仅在触发时刻tk更新,并在区间(tk,tk+1]时保持不变。
Figure BDA00030089609900001112
在触发时刻tk选择如下权值更新律
Figure BDA00030089609900001113
其中lc>0是评判神经网络的学习率,
Figure BDA00030089609900001114
是评判网络下一次更新的估计权重。
Figure BDA0003008960990000121
且m=κTκ+1。
然后,定义评判网络的估计误差
Figure BDA0003008960990000122
根据上面的分析,可得
Figure BDA0003008960990000123
类似于评判网络的权值更新,定义动作网络的权重调整率为
Figure BDA0003008960990000124
其中la>0是动作网络的学习率,
Figure BDA0003008960990000125
是动作网络下一次更新的估计权重。因为条件
Figure BDA0003008960990000126
可推导出
Figure BDA0003008960990000127
其中
Figure BDA0003008960990000128
假设激活函数φ(X)关于状态X的Lipschitz连续性,可得
||φ(X)-φ(Xs)||≤L||e(t)||
其中e=X-Xs,L是个正数。
步骤4:利用Lyapunov稳定性方法在保证闭环系统(5)稳定的条件下推导出的触发条件公式(28)。
考虑非完整移动机器人系统(5)。评判和动作神经网络的估计权重更新为公式(25)和(27)。然后,通过如下触发条件
Figure BDA0003008960990000129
使得非线性移动机器人跟踪系统的状态和估计误差最终有界。其中σ∈(0,1)是设计的参数,gM是满足条件||g(X)||≤gM的已知正数。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:该方法包括:
步骤1:结合最优控制理论,考虑机器人跟踪系统在事件触发机制下的建模与分析问题,通过定义参考机器人与跟踪机器人的轨迹误差为机器人系统误差状态,目的是使系统误差状态为零,即跟踪机器人能完全跟踪参考机器人;
步骤2:通过动作-评判网络框架去求解机器人的最优跟踪轨迹,利用评判网络来逼近非线性系统的代价函数,并用动作网络来估计最优控制律;
步骤3:通过采用事件触发方法,控制信号以非周期方式传输,评判网络和动作网络两个神经网络仅在由事件触发条件决定的更新时刻更新自身权值;
步骤4:定义Lyapunov函数,基于此Lyapunov函数设计事件触发条件,并利用最优控制理论,保证机器人跟踪系统的误差状态收敛到零。
2.如权利要求1所述的基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:该方法包括:
所述步骤1中定义参考机器人与跟踪机器人的轨迹误差为机器人系统误差状态具体包括:
考虑跟踪机器人系统模型满足下列动力学方程
Figure FDA0003008960980000011
其中(x,y)是跟踪机器人的笛卡尔坐标,θ是跟踪机器人航向和x轴之间的角度,(v,ω)表示控制输入向量,其中v是跟踪机器人运动的速度,ω是跟踪机器人的角速度,参考机器人满足以下动力学方程
Figure FDA0003008960980000012
其中(xr,yr)是参考机器人的笛卡尔坐标,θr是参考机器人的航向和xr轴之间的角度,(vrr)表示控制输入向量,vr是参考机器人运动的速度,ωr是参考机器人的角速度;
为了解决机器人跟踪问题,引入了误差坐标
Figure FDA0003008960980000021
在新坐标系中,跟踪误差动态变为
Figure FDA0003008960980000022
系统的控制目标是设计适当的控制律(v,ω),使(xe,yee)趋于零,同时保证系统的稳定性。
3.如权利要求2所述的基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:从事件触发机制的角度设计控制器,使移动机器人能够逐步跟踪参考机器人:
定义系统误差状态X(t)=[xe(t),ye(t),θe(t)]T和u(t)=[ω(t),v(t)]T,得
Figure FDA0003008960980000023
其中ω(t)是跟踪机器人的角速度,ν(t)是跟踪机器人的线速度,ωr(t)是参考机器人的角速度,νr(t)是参考机器人的线速度。T是矩阵的转置;
通过以上分析,基于公式(4)的机器人跟踪误差系统(4)的动力学方程化为非完整移动机器人方程:
Figure FDA0003008960980000024
最优控制的目标是找到一个控制律u,使如下给定的代价函数最小:
Figure FDA0003008960980000025
因此,非完整移动机器人系统(5)的Lyapunov方程被描述为
Figure FDA0003008960980000026
其中u是机器人跟踪误差系统的控制输入,X是机器人跟踪误差系统的状态。Q,R是分别与状态向量X和u维度相匹配的正定对称矩阵,VX是代价函数V(X)相对于X的偏导数;
为简单起见,f(X)和g(X)分别表示为f和g,将哈密顿函数定义为
Figure FDA0003008960980000031
然后,最优控制律等价于求解非线性移动机器人系统(5)的HJB方程,
Figure FDA0003008960980000032
其中
Figure FDA0003008960980000033
是最优代价函数V*(X)相对于X的偏导数。通过上述公式的计算,得到最优控制律如下
Figure FDA0003008960980000034
为了降低通信资源的损耗,引入事件触发形式的HJB方程,控制器只在离散时间序列{t0,t1,…,tk}时更新,其中k是正整数,因此,事件触发方案中的最优控制策略为
Figure FDA0003008960980000035
其中Xs表示系统采样状态,采样之后的控制律u(Xs)=[ωs,vs,0],其中ωs和vs分别是移动机器人速度和角速度的采样版本,应用公式(11)给出的最优事件触发控制器,得到公式(5)的跟踪误差动力学方程,
Figure FDA0003008960980000036
4.如权利要求3所述的基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:
步骤2中,评判网络设计如下:
通过使用评判网络,代价函数化为如下所示
Figure FDA0003008960980000037
其中ωc是评判网络理想权重,φ表示激活函数,εc是重构误差,然后,代价函数V*(X)对X的导数为
Figure FDA0003008960980000038
其中符合
Figure FDA0003008960980000039
表示梯度算子,通过利用评判网络来逼近代价函数,哈密顿函数(8)被近似为
Figure FDA00030089609800000310
其中
Figure FDA0003008960980000041
表示残差,并且满足εH≤εHM,εHM是一个正常数,在该方法中,使用评判网络权值的估计值
Figure FDA0003008960980000042
去表示代价函数,得
Figure FDA0003008960980000043
其中
Figure FDA0003008960980000044
Figure FDA0003008960980000045
分别表示V*(X)和ωc的估计值,因此,估计的Lyapunov方程描述为
Figure FDA0003008960980000046
由于评判网络的估计值不可能完全准确,所以上述Lyapunov方程是非零的,控制目标是定义如下二次误差函数最小化
Figure FDA0003008960980000047
5.如权利要求4所述的基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:
步骤2中,动作网络设计如下:
动作网络的权重仅在触发时刻更新,利用动作网络,给出了最优控制律
Figure FDA0003008960980000048
其中评判网络和动作网络使用相同的激活函数
Figure FDA0003008960980000049
εa是动作网络的重构误差,为了确定最优代价函数,事件触发的最优控制律使用动作网络进行逼近,如下所示
Figure FDA00030089609800000410
其中Xs表示系统采样状态。
Figure FDA00030089609800000411
是动作网络的估计权重,同样,动作网络的权值估计误差定义为
Figure FDA00030089609800000412
为了寻找动作网络估计权值
Figure FDA00030089609800000413
的控制律,定义动作网络的误差函数为
Figure FDA00030089609800000414
控制目标是通过选择合适的估计权值
Figure FDA00030089609800000415
使误差ea最小化,因此,定义了如下二次误差函数
Figure FDA00030089609800000416
6.如权利要求5所述的基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:步骤3具体为:
在事件触发方案中,估计的评判网络权值仅在触发时刻tk更新,并在区间(tk,tk+1]时保持不变,
Figure FDA0003008960980000051
在触发时刻tk选择如下权值更新律
Figure FDA0003008960980000052
其中lc>0是评判神经网络的学习率,
Figure FDA0003008960980000053
是评判网络下一次更新的估计权重,
Figure FDA0003008960980000054
且m=κTκ+1,
然后,定义评判网络的估计误差
Figure FDA0003008960980000055
根据上面的分析,得
Figure FDA0003008960980000056
类似于评判网络的权值更新,定义动作网络的权重调整率为
Figure FDA0003008960980000057
其中la>0是动作网络的学习率,
Figure FDA0003008960980000058
是动作网络下一次更新的估计权重,因为条件
Figure FDA0003008960980000059
推导出
Figure FDA00030089609800000510
其中
Figure FDA00030089609800000511
假设激活函数φ(X)关于状态X的Lipschitz连续性,得
||φ(X)-φ(Xs)||≤L||e(t)||
其中e=X-Xs,L是个正数。
7.如权利要求6所述的基于事件触发机制的机器人轨迹跟踪最优控制方法,其特征在于:步骤4具体为:
考虑非完整移动机器人系统(5),评判和动作神经网络的估计权重更新为公式(25)和(27),然后,通过如下触发条件
Figure FDA0003008960980000061
使得非线性移动机器人跟踪系统的状态和估计误差最终有界,其中σ∈(0,1)是设计的参数,gM是满足条件||g(X)||≤gM的已知正数。
CN202110370188.9A 2021-04-07 2021-04-07 基于事件触发机制的移动机器人轨迹跟踪最优控制方法 Withdrawn CN113093548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110370188.9A CN113093548A (zh) 2021-04-07 2021-04-07 基于事件触发机制的移动机器人轨迹跟踪最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110370188.9A CN113093548A (zh) 2021-04-07 2021-04-07 基于事件触发机制的移动机器人轨迹跟踪最优控制方法

Publications (1)

Publication Number Publication Date
CN113093548A true CN113093548A (zh) 2021-07-09

Family

ID=76674733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110370188.9A Withdrawn CN113093548A (zh) 2021-04-07 2021-04-07 基于事件触发机制的移动机器人轨迹跟踪最优控制方法

Country Status (1)

Country Link
CN (1) CN113093548A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113791614A (zh) * 2021-08-19 2021-12-14 广州大学 非完整轮式机器人的控制方法、系统、装置及存储介质
CN113848905A (zh) * 2021-09-24 2021-12-28 西北工业大学 基于神经网络和自适应控制的移动机器人轨迹跟踪方法
CN113955153A (zh) * 2021-12-21 2022-01-21 南京航空航天大学 一种燃料最优的连续小推力轨道转移方法
CN117031937A (zh) * 2023-07-11 2023-11-10 淮阴工学院 一种基于预定性能误差的自平衡机器人的强化学习控制方法
CN117111629A (zh) * 2023-07-26 2023-11-24 中国人民解放军陆军工程大学 基于自适应动态规划的多无人机固定时间最优控制方法
CN117724336A (zh) * 2023-12-18 2024-03-19 中国矿业大学 一种基于状态和估计参数触发的机器人系统跟踪控制方法
CN118584819A (zh) * 2024-08-06 2024-09-03 西安羚控电子科技有限公司 一种无人机的事件触发预测控制轨迹跟踪方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669479A (zh) * 2018-10-22 2019-04-23 安徽大学 一种基于事件触发的移动机器人轨迹跟踪控制方法
CN111618864A (zh) * 2020-07-20 2020-09-04 中国科学院自动化研究所 基于自适应神经网络的机器人模型预测控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669479A (zh) * 2018-10-22 2019-04-23 安徽大学 一种基于事件触发的移动机器人轨迹跟踪控制方法
CN111618864A (zh) * 2020-07-20 2020-09-04 中国科学院自动化研究所 基于自适应神经网络的机器人模型预测控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUO CHEN等: "Event-triggered Optimal Adaptive Control for Robot Trajectory Tracking", 《 2020 16TH INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION, ROBOTICS AND VISION (ICARCV)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113791614A (zh) * 2021-08-19 2021-12-14 广州大学 非完整轮式机器人的控制方法、系统、装置及存储介质
CN113848905A (zh) * 2021-09-24 2021-12-28 西北工业大学 基于神经网络和自适应控制的移动机器人轨迹跟踪方法
CN113848905B (zh) * 2021-09-24 2024-07-12 西北工业大学 基于神经网络和自适应控制的移动机器人轨迹跟踪方法
CN113955153A (zh) * 2021-12-21 2022-01-21 南京航空航天大学 一种燃料最优的连续小推力轨道转移方法
CN117031937A (zh) * 2023-07-11 2023-11-10 淮阴工学院 一种基于预定性能误差的自平衡机器人的强化学习控制方法
CN117111629A (zh) * 2023-07-26 2023-11-24 中国人民解放军陆军工程大学 基于自适应动态规划的多无人机固定时间最优控制方法
CN117111629B (zh) * 2023-07-26 2024-05-28 中国人民解放军陆军工程大学 基于自适应动态规划的多无人机固定时间最优控制方法
CN117724336A (zh) * 2023-12-18 2024-03-19 中国矿业大学 一种基于状态和估计参数触发的机器人系统跟踪控制方法
CN117724336B (zh) * 2023-12-18 2024-06-11 中国矿业大学 一种基于状态和估计参数触发的机器人系统跟踪控制方法
CN118584819A (zh) * 2024-08-06 2024-09-03 西安羚控电子科技有限公司 一种无人机的事件触发预测控制轨迹跟踪方法及系统

Similar Documents

Publication Publication Date Title
CN113093548A (zh) 基于事件触发机制的移动机器人轨迹跟踪最优控制方法
Carron et al. Data-driven model predictive control for trajectory tracking with a robotic arm
CN109465825B (zh) 机械臂柔性关节的rbf神经网络自适应动态面控制方法
CN108255791B (zh) 基于分布式传感器一致性的机动目标跟踪方法
CN108153153A (zh) 一种学习变阻抗控制系统及控制方法
CN110877333A (zh) 一种柔性关节机械臂控制方法
CN112904728A (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN115157238B (zh) 一种多自由度机器人动力学建模和轨迹跟踪方法
Yu et al. Design of robust adaptive neural switching controller for robotic manipulators with uncertainty and disturbances
CN113671962B (zh) 一种无人驾驶铰接式清扫车的横向控制方法
CN111965976B (zh) 基于神经网络观测器的机器人关节滑模控制方法及系统
CN116460860A (zh) 一种基于模型的机器人离线强化学习控制方法
Li Robot target localization and interactive multi-mode motion trajectory tracking based on adaptive iterative learning
CN110703692A (zh) 一种基于虚拟结构法的多移动机器人分布式预测控制方法
CN111168682A (zh) 输送用并联机器人结合鲁棒精确微分器有限时间收敛滑模控制方法
Li et al. A unified perspective on multiple shooting in differential dynamic programming
Chen et al. Neural network compensator-based robust iterative learning control scheme for mobile robots nonlinear systems with disturbances and uncertain parameters
CN115933647B (zh) 基于复合控制算法的omr轨迹跟踪控制方法及存储介质
CN111152213B (zh) 一种基于混合控制的机械臂振动补偿方法及装置
Wang et al. Tracking moving target for 6 degree-of-freedom robot manipulator with adaptive visual servoing based on deep reinforcement learning PID controller
CN116047888A (zh) 一种基于bp神经网络pid的自平衡车的控制方法
CN114147713A (zh) 基于自适应神经网络高阶动态滑模的轨迹跟踪控制方法
Li et al. Event-triggered boundary control of a flexible manipulator with uncertain end load
CN114200830A (zh) 一种多智能体一致性强化学习控制方法
Guerra et al. UKF-Based Neural Training for Nonlinear Systems Identification and Control Improvement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210709

WW01 Invention patent application withdrawn after publication