CN112318509B - 一种空间机器人高斯过程轨迹跟踪控制方法 - Google Patents

一种空间机器人高斯过程轨迹跟踪控制方法 Download PDF

Info

Publication number
CN112318509B
CN112318509B CN202011197637.6A CN202011197637A CN112318509B CN 112318509 B CN112318509 B CN 112318509B CN 202011197637 A CN202011197637 A CN 202011197637A CN 112318509 B CN112318509 B CN 112318509B
Authority
CN
China
Prior art keywords
model
gaussian process
hyper
parameters
covariance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011197637.6A
Other languages
English (en)
Other versions
CN112318509A (zh
Inventor
符启恩
孙长银
陆科林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011197637.6A priority Critical patent/CN112318509B/zh
Publication of CN112318509A publication Critical patent/CN112318509A/zh
Application granted granted Critical
Publication of CN112318509B publication Critical patent/CN112318509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种空间机器人高斯过程轨迹跟踪控制方法,对空间机器人系统动力学模型进行在线辨识,同时利用模型置信度动态地调整控制增益。进一步地,对高斯过程动力学模型的在线训练采用基于引导数据点的稀疏化方法,同时采用一种边缘粒子滤波器对高斯过程模型的超参数进行在线估计,有效地减小了模型训练和预测的计算负担。

Description

一种空间机器人高斯过程轨迹跟踪控制方法
技术领域
本发明涉及轨迹跟踪控制技术领域,特别涉及一种空间机器人高斯过程轨迹跟踪控制方法。
背景技术
在空间探索计划中,空间机器人的应用能够帮助人类完成十分危险而困难的工作。在空间站在轨装配、维护维修等任务中,空间机器人都扮演着十分重要的角色。空间机器人的轨迹跟踪控制是空间机器人应用中的一项重要技术。随着系统辨识理论和控制理论的不断发展,基于数据和机器学习的控制方法不断提出,大大提高了在系统模型未知情况下的轨迹跟踪控制性能。
《面向模型未知的自由漂浮空间机械臂自适应神经鲁棒控制》,载于《中国工程机械学报》(王超,蒋理剑,叶晓平,蒋黎红,and张文辉,"面向模型未知的自由漂浮空间机械臂自适应神经鲁棒控制,"中国工程机械学报,vol.17,pp.153-158,2019.)公开了一种基于神经网络模型的空间机器人轨迹跟踪控制方法,使用径向基神经网络对机器人动力学模型中的未知部分进行逼近,设计鲁棒控制器对逼近误差和外界干扰进行补偿。然而,该方法与其他类似使用神经网络进行轨迹跟踪控制律设计的方法存在一定问题,包括模型可解释性差、模型置信度难以评估、需要大量训练数据等。
高斯过程是一种非参数化的机器学习模型,与神经网络相比,高斯过程模型预测中得到的后验协方差可以作为模型准确度的度量,灵活运用在模型应用中,具备天生的优势。同时,训练高斯过程模型所需的数据也相对较少。《Stable gaussian process basedtracking control of euler–lagrange systems》,载于《Automatica》(T.Beckers,D.
Figure BDA0002754463870000011
and S.Hirche,"Stable gaussian process based tracking control of euler–lagrange systems,"Automatica,vol.103,pp.390-397,2019.)中公开了一种基于高斯过程的欧拉-拉格朗日系统轨迹跟踪方法,使用高斯过程模型对系统未知动力学进行拟合,结合传统的计算转矩控制方法,取得了较好的控制效果。然而,使用原始的高斯过程方法计算复杂度较高,而且该方法基于离线学习,无法应对环境的变化。
稀疏在线高斯过程是高斯过程技术的延展,是解决上述两个问题的途径。《Variational learning of inducing variables in sparse Gaussian processes》,载于会议《Artificial Intelligence and Statistics》(M.Titsias,"Variationallearning of inducing variables in sparse Gaussian processes,"in ArtificialIntelligence and Statistics,2009,pp.567-574.)公开了一种基于引导输入点的稀疏高斯过程方法,用引导点值归纳训练数据中的信息,大大提高了高斯过程方法的计算效率;《Amarginalized particle Gaussian process regression》,载于会议《Advances inNeural Information Processing Systems》(Y.Wang and B.Chaib-draa,"Amarginalized particle Gaussian process regression,"in Advances in NeuralInformation Processing Systems,2012,pp.1187-1195.)公开了一种在线高斯过程技术,基于边缘粒子滤波器技术对高斯过程模型进行在线更新。然而这些技术都限于算法上的改进,缺乏与实际应用的结合。
现有的空间机器人轨迹跟踪控制方法中,基于模型的方法受限于动力学模型的准确度,基于数据的方法则大多面临无法衡量模型置信度的问题。目前尚没有能够较好地应用诸如高斯过程模型此类的非参数化贝叶斯机器学习方法的轨迹跟踪控制方法出现。
发明内容
本发明的目的是提供一种准确有效的、能够评估模型置信度、能够实现在线更新且计算效率较高的空间机器人轨迹跟踪控制方法。
为了实现上述目的,本发明的技术方案如下:一种空间机器人高斯过程轨迹跟踪控制方法,该方法包括以下步骤:
步骤(1)基于稀疏化的高斯过程模型,对空间机器人系统动力学模型进行辨识;
步骤(2)将所辨识的系统与计算转矩控制方法相结合,得到高斯过程控制律;
步骤(3)在控制过程中,基于边缘粒子滤波器方法根据实时得到的数据对系统模型进行在线更新。
进一步地,所述步骤(1)包括:
(11)建立动力学模型,设定高斯过程模型输入输出
空间机器人的动力学模型为
Figure BDA0002754463870000031
其中
Figure BDA0002754463870000032
为机器人系统广义变量,
Figure BDA0002754463870000033
u(t)为控制输入,f(p)为无法精确建模的未知动力学影响,M(q)为广义惯量矩阵,
Figure BDA0002754463870000034
为广义科氏力矩阵,
Figure BDA0002754463870000035
均为无法准确得到的模型参数;令空间机器人动力学系统的估计模型为
Figure BDA0002754463870000036
选择
Figure BDA0002754463870000037
作为高斯过程模型输入变量,选择
Figure BDA0002754463870000038
作为待辨识的高斯过程模型输出,代表模型误差,
Figure BDA0002754463870000039
(12)获取训练数据
在输入空间内随机选取训练输入P=[p1,…,pN],选取任意一种控制律u,测量系统各阶广义变量,得到训练数据输出H=[h(p1),...,h(pN)]=[h1,...,hD]T
(13)给定高斯过程先验模型
对系统模型误差函数的各个维度使用独立的高斯过程进行建模,考虑系统模型误差函数h(p)的其中一个维度hd(p),给定其高斯过程先验为
Figure BDA00027544638700000310
其中md(p)为均值函数,kd(p,p')为协方差函数。
(14)高斯过程稀疏化处理
采用基于引导点的稀疏化方法,对模型误差函数hd(p),令其引导输入为Zd=[zd,1,…,zd,M],引导点值为ud=[hd(zd,1),…,hd(zd,M)]T
(15)超参数训练
通过训练数据的似然对高斯过程模型超参数进行训练,得到最优超参数为
Figure BDA00027544638700000311
式中最大化的似然函数为
Figure BDA0002754463870000041
其中
Figure BDA0002754463870000042
Kuu=K(Zd,Zd)和Kuh=K(Zd,P)为协方差矩阵,其元素根据协方差函数得到,
Figure BDA0002754463870000043
(16)获得高斯过程后验模型
根据训练数据和优化后的超参数,对待辨识的输入点p*得到其高斯过程后验分布
Figure BDA0002754463870000044
其均值和方差为
Figure BDA0002754463870000045
Figure BDA0002754463870000046
其中
Figure BDA0002754463870000047
md,h=[md(p1),…,md(pN)]T,k*u=k(p*,Zd)为协方差向量。
(17)整合各维度均值和协方差
整合系统误差函数各维度均值和协方差为μ(p*)=[μ1,*,...,μD,*]T
Figure BDA0002754463870000048
进一步地,使用P和Z前D维度,得到模型误差函数的后验比例边际协方差Σp(q*),使用P和Z前2D维度,得到模型误差函数的后验比例边际协方差
Figure BDA0002754463870000049
进一步地,所述步骤(2)包括:
(21)设计高斯过程控制律前馈补偿部分
基于高斯过程后验均值对模型误差进行补偿,设计高斯过程控制律前馈补偿部分
Figure BDA00027544638700000410
(22)设计高斯过程控制律反馈控制部分
基于高斯过程后验边际协方差对反馈增益进行动态调整,设计高斯过程控制律反馈控制部分
Figure BDA0002754463870000051
其中Gp(·),Gd(·)为对称正定矩阵值函数,e=q-qd为系统跟踪误差,qd
Figure BDA0002754463870000052
为给定参考轨迹。
(23)设计高斯过程轨迹跟踪控制律
设计高斯过程轨迹跟踪控制律为
u(t)=uf(t)+ub(t)
进一步地,所述步骤(3)包括:
(31)实时数据获取
考虑模型误差函数的一个维度d,设时刻t时新获得的训练数据为Dt={Pt,hd,t},其中
Figure BDA0002754463870000053
记0:t时刻的全部训练数据为D0:t
(32)引导输入点更新
通过贝叶斯公式得到引导输入点更新的解析形式。省略对超参数θd的依赖,设t-1时刻ud的分布为
Figure BDA0002754463870000054
根据贝叶斯公式和稀疏化假设,运用卡尔曼滤波中的更新步骤,得到更新后引导点值ud的分布
Figure BDA0002754463870000055
其均值和方差为
Figure BDA0002754463870000056
Figure BDA0002754463870000057
其中Ad,t=Kd(Pt,Zd)Kd(Zd,Zd)-1
(33)超参数更新
使用边缘粒子滤波器对引导输入点和超参数进行综合更新,其中超参数的更新采用粒子滤波器方法。设超参数满足以下的马尔可夫过程
Figure BDA0002754463870000058
其中
Figure BDA0002754463870000061
和Vd,t-1为θd,t-1的蒙特卡罗均值和方差,a=(3b-1)/(2b),b∈(0.95,0.99)。
则所有待更新变量的分布为
Figure BDA0002754463870000062
根据粒子滤波的更新方法,对每个粒子分别进行引导点的更新,即可完成所有变量的更新。
相对于现有技术,本发明的优点如下:1)该方法相比于传统的基于模型的控制方法,其减少了对精确建模的依赖,能够通过数据对系统动力学模型进行学习和辨识,并对模型中的未知部分进行补偿;2)相比于以神经网络为代表的大多数数据驱动的控制方法,所采用的高斯过程算法能够对所学习的模型的置信度进行评估,并用于控制增益的调节,从而获得更小的控制增益,减轻了执行器的负担,提高了控制系统的安全性;3)相比于原始的高斯过程算法,通过稀疏化的手段降低了计算复杂度,提高了运算速度,同时能够实现在线更新,使空间机器人更能适应未知多变的外部环境。
附图说明
图1为使用传统控制方法的空间机器人轨迹跟踪曲线图;
图2为使用本发明中的控制方法的空间机器人轨迹跟踪曲线图;
图3为使用本发明中的控制方法与传统控制方法的跟踪误差的比较图;
图4为使用本发明中的控制方法与传统控制方法得到的空间机器人其中一个关节的轨迹对比图。
具体实施方式
下面结合附图和具体实施方式,对本发明的技术方案作进一步的介绍。
实施例1:参见图2,一种空间机器人高斯过程轨迹跟踪控制方法,该方法包括以下步骤:
步骤(1)基于稀疏化的高斯过程模型,对空间机器人系统动力学模型进行辨识;
步骤(2)将所辨识的系统与计算转矩控制方法相结合,得到高斯过程控制律;
步骤(3)在控制过程中,基于边缘粒子滤波器方法根据实时得到的数据对系统模型进行在线更新。
进一步地,所述步骤(1)包括:
(11)建立动力学模型,设定高斯过程模型输入输出
空间机器人的动力学模型为
Figure BDA0002754463870000071
其中
Figure BDA0002754463870000072
为机器人系统广义变量,
Figure BDA0002754463870000073
u(t)为控制输入。f(p)为无法精确建模的未知动力学影响,M(q)为广义惯量矩阵,
Figure BDA0002754463870000074
为广义科氏力矩阵,
Figure BDA0002754463870000075
均为无法准确得到的模型参数。令空间机器人动力学系统的估计模型为
Figure BDA0002754463870000076
选择
Figure BDA0002754463870000077
作为高斯过程模型输入变量,选择
Figure BDA0002754463870000078
作为待辨识的高斯过程模型输出,代表模型误差,
Figure BDA0002754463870000079
(12)获取训练数据;
在输入空间内随机选取训练输入P=[p1,…,pN],选取任意一种控制律u,测量系统各阶广义变量,得到训练数据输出H=[h(p1),...,h(pN)]=[h1,...,hD]T
(13)给定高斯过程先验模型;
对系统模型误差函数的各个维度使用独立的高斯过程进行建模,考虑系统模型误差函数h(p)的其中一个维度hd(p),给定其高斯过程先验为
Figure BDA00027544638700000710
其中md(p)为均值函数,kd(p,p')为协方差函数。
(14)高斯过程稀疏化处理;
采用基于引导点的稀疏化方法,对模型误差函数hd(p),令其引导输入为Zd=[zd,1,…,zd,M],引导点值为ud=[hd(zd,1),…,hd(zd,M)]T
(15)超参数训练;
通过训练数据的似然对高斯过程模型超参数进行训练,得到最优超参数为
Figure BDA0002754463870000081
式中最大化的似然函数为
Figure BDA0002754463870000082
其中
Figure BDA0002754463870000083
Kuu=K(Zd,Zd)和Kuh=K(Zd,P)为协方差矩阵,其元素根据协方差函数得到,
Figure BDA0002754463870000084
(16)获得高斯过程后验模型;
根据训练数据和优化后的超参数,对待辨识的输入点p*得到其高斯过程后验分布
Figure BDA0002754463870000085
其均值和方差为
Figure BDA0002754463870000086
Figure BDA0002754463870000087
其中
Figure BDA0002754463870000088
md,h=[md(p1),…,md(pN)]T,k*u=k(p*,Zd)为协方差向量。
(17)整合各维度均值和协方差;
整合系统误差函数各维度均值和协方差为μ(p*)=[μ1,*,...,μD,*]T
Figure BDA0002754463870000089
进一步地,使用P和Z前D维度,得到模型误差函数的后验比例边际协方差Σp(q*),使用P和Z前2D维度,得到模型误差函数的后验比例边际协方差
Figure BDA00027544638700000810
进一步地,所述步骤(2)包括:
(21)设计高斯过程控制律前馈补偿部分;
基于高斯过程后验均值对模型误差进行补偿,设计高斯过程控制律前馈补偿部分
Figure BDA0002754463870000091
(22)设计高斯过程控制律反馈控制部分;
基于高斯过程后验边际协方差对反馈增益进行动态调整,设计高斯过程控制律反馈控制部分
Figure BDA0002754463870000092
其中Gp(·),Gd(·)为对称正定矩阵值函数,e=q-qd为系统跟踪误差,qd
Figure BDA0002754463870000093
为给定参考轨迹。
(23)设计高斯过程轨迹跟踪控制律;
设计高斯过程轨迹跟踪控制律为
u(t)=uf(t)+ub(t)
进一步地,所述步骤(3)包括:
(31)实时数据获取
考虑模型误差函数的一个维度d,设时刻t时新获得的训练数据为Dt={Pt,hd,t},其中
Figure BDA0002754463870000094
记0:t时刻的全部训练数据为D0:t
(32)引导输入点更新;
通过贝叶斯公式得到引导输入点更新的解析形式。省略对超参数θd的依赖,设t-1时刻ud的分布为
Figure BDA0002754463870000095
根据贝叶斯公式和稀疏化假设,运用卡尔曼滤波中的更新步骤,得到更新后引导点值ud的分布
Figure BDA0002754463870000096
其均值和方差为
Figure BDA0002754463870000097
Figure BDA0002754463870000098
其中Ad,t=Kd(Pt,Zd)Kd(Zd,Zd)-1
(33)超参数更新;
使用边缘粒子滤波器对引导输入点和超参数进行综合更新,其中超参数的更新采用粒子滤波器方法。设超参数满足以下的马尔可夫过程
Figure BDA0002754463870000101
其中
Figure BDA0002754463870000102
和Vd,t-1为θd,t-1的蒙特卡罗均值和方差,a=(3b-1)/(2b),b∈(0.95,0.99)。
则所有待更新变量的分布为
Figure BDA0002754463870000103
根据粒子滤波的更新方法,对每个粒子分别进行引导点的更新,即可完成所有变量的更新。
具体应用实施例:考虑一个平面内的两连杆空间机器人,其各项参数如下,两连杆质量为m1=m2=1kg,长度为l1=l2=1m,其广义变量q=[q1,q2]T为两个连杆的关节角,高斯过程模型的复合输入向量为
Figure BDA0002754463870000104
受到的非线性扰动为
Figure BDA0002754463870000105
其动力学模型中的各项矩阵参数的估计为
Figure BDA0002754463870000106
Figure BDA0002754463870000107
Figure BDA0002754463870000108
机器人轨迹跟踪任务为捕获一个平面内的运动目标,参考轨迹依据一种基于比例制导的追踪方法生成,机器人末端初始状态为xm0=[0,1],vm0=[0,0],目标初始状态为xt0=[1.0,1.2],vt0=[-π/10,-0.2],运动方程为at=[-0.2(π/2)2sin(πt/2),0]。
对h1(p),h2(p)使用两个高斯过程模型进行学习,高斯过程先验均采用均值为0,协方差函数为径向基(RBF)核函数,其表达式如下
k(x,x')=α2exp((x-x')TΛ-1(x-x'))
其中α2为幅度系数,
Figure BDA0002754463870000111
为相关度系数。初始训练数据在区间p∈[-0.5,0.5]6内随机选取729个点,引导点为区间内均匀分布的64个点,在训练输入点处采用普通的PI控制律作为生成训练数据的控制输入,随后以训练数据的似然作为指标,采用梯度优化方法对参数进行训练,训练初值设定为
Figure BDA0002754463870000112
训练完成后,在轨迹跟踪控制过程中,使用训练后的参数和训练数据对每一步时的状态进行估计,并补偿到控制律中。根据全条件独立稀疏假设(FITC),当引导点u给定时,函数在不同输入点的值满足条件独立,即p(h(p1),h(p2)|u)=p(h(p1)|u)p(h(p2)|u)。对待辨识的输入点p*,计算其各维度后验概率
Figure BDA0002754463870000113
根据步骤(16)和步骤(17)中的公式计算得到其后验均值和方差。控制律设计为
Figure BDA0002754463870000114
其中增益函数Gpp(q))和
Figure BDA0002754463870000115
设定为
Figure BDA0002754463870000116
Figure BDA0002754463870000117
控制律中,系统误差函数h(p)的后验均值μ(p)用于对估计的系统动力学模型进行补偿;后验协方差Σp(q)和
Figure BDA0002754463870000118
则用于反馈增益的调整中,当协方差较大使,代表此时模型置信度较低,模型不准确的概率更大,则适当增大反馈增益,确保系统的跟踪性能,当模型置信度较高时,则减小反馈增益,减轻燃料损耗,防止执行器饱和,从而不仅实现模型置信度的评估,也利用其来动态调整控制律,达到更好的控制效果。
在模型的在线更新中,设定时间步长为0.01s,0.5s更新一次。考虑t-1时刻θd,t-1的K个粒子
Figure BDA0002754463870000121
及其对应的引导点先验分布参数
Figure BDA0002754463870000122
当训练数据D0:t到来后,首先对每一个粒子
Figure BDA0002754463870000123
从进化模型中生成t时刻新的粒子
Figure BDA0002754463870000124
然后使用新的超参数
Figure BDA0002754463870000125
和对应的引导点先验
Figure BDA0002754463870000126
根据步骤(32)中的引导点更新算法得到对应粒子的引导点后验分布
Figure BDA0002754463870000127
最后基于训练数据似然来更新粒子权重,即
Figure BDA0002754463870000128
并执行归一化和重采样步骤。
具体方案的实施结果如图1-4所示,可以看出,相比于传统的控制方法,所提出的高斯过程轨迹跟踪控制方法能够取得更好的控制性能。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (3)

1.一种空间机器人高斯过程轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:
步骤(1)基于稀疏化的高斯过程模型,对空间机器人系统动力学模型进行辨识;
步骤(2)将所辨识的系统与计算转矩控制方法相结合,得到高斯过程控制律;
步骤(3)在控制过程中,基于边缘粒子滤波器方法根据实时得到的数据对系统模型进行在线更新;
所述步骤(1)包括:
(11)建立动力学模型,设定高斯过程模型输入输出
空间机器人的动力学模型为
Figure FDA0003539536910000011
其中
Figure FDA0003539536910000012
为机器人系统广义变量,
Figure FDA0003539536910000013
u(t)为控制输入,f(p)为无法精确建模的未知动力学影响,M(q)为广义惯量矩阵,
Figure FDA0003539536910000014
为广义科氏力矩阵,
Figure FDA0003539536910000015
均为无法准确得到的模型参数,令空间机器人动力学系统的估计模型为
Figure FDA0003539536910000016
选择
Figure FDA0003539536910000017
作为高斯过程模型输入变量,选择
Figure FDA0003539536910000018
作为待辨识的高斯过程模型输出,代表模型误差,
Figure FDA0003539536910000019
(12)获取训练数据
在输入空间内随机选取训练输入P=[p1,…,pN],选取任意一种控制律u,测量系统各阶广义变量,得到训练数据输出
Figure FDA00035395369100000110
(13)给定高斯过程先验模型
对系统模型误差函数的各个维度使用独立的高斯过程进行建模,考虑系统模型误差函数h(p)的其中一个维度hd(p),给定其高斯过程先验为
Figure FDA0003539536910000021
其中md(p)为均值函数,kd(p,p')为协方差函数;
(14)高斯过程稀疏化处理;
采用基于引导点的稀疏化方法,对模型误差函数hd(p),令其引导输入为Zd=[zd,1,...,zd,M],引导点值为
Figure FDA0003539536910000022
(15)超参数训练
通过训练数据的似然对高斯过程模型超参数进行训练,得到最优超参数为
Figure FDA0003539536910000023
式中最大化的似然函数为
Figure FDA0003539536910000024
其中
Figure FDA0003539536910000025
Kuu=K(Zd,Zd)和Kuh=K(Zd,P)为协方差矩阵,其元素根据协方差函数得到,
Figure FDA0003539536910000026
(16)获得高斯过程后验模型
根据训练数据和优化后的超参数,对待辨识的输入点p*得到其高斯过程后验分布
Figure FDA0003539536910000027
其均值和方差为
Figure FDA0003539536910000028
Figure FDA0003539536910000029
其中
Figure FDA00035395369100000210
md,*=md(p*),
Figure FDA00035395369100000211
k*u=k(p*,Zd)为协方差向量;
(17)整合各维度均值和协方差
整合系统误差函数各维度均值和协方差为
Figure FDA0003539536910000031
Figure FDA0003539536910000032
进一步地,使用P和Z前D维度,得到模型误差函数的后验比例边际协方差Σp(q*),使用P和Z前2D维度,得到模型误差函数的后验比例边际协方差
Figure FDA0003539536910000033
2.根据权利要求1所述的空间机器人高斯过程轨迹跟踪控制方法,其特征在于,所述步骤(2)包括:
(21)设计高斯过程控制律前馈补偿部分;
基于高斯过程后验均值对模型误差进行补偿,设计高斯过程控制律前馈补偿部分
Figure FDA0003539536910000034
(22)设计高斯过程控制律反馈控制部分;
基于高斯过程后验边际协方差对反馈增益进行动态调整,设计高斯过程控制律反馈控制部分
Figure FDA0003539536910000035
其中Gp(·),Gd(·)为对称正定矩阵值函数,e=q-qd为系统跟踪误差,qd
Figure FDA0003539536910000036
为给定参考轨迹;
(23)设计高斯过程轨迹跟踪控制律
设计高斯过程轨迹跟踪控制律为
u(t)=uf(t)+ub(t)。
3.根据权利要求1所述的空间机器人高斯过程轨迹跟踪控制方法,其特征在于,所述步骤(3)包括:
(31)实时数据获取;
考虑模型误差函数的一个维度d,设时刻t时新获得的训练数据为Dt={Pt,hd,t},其中
Figure FDA0003539536910000037
记0:t时刻的全部训练数据为D0:t
(32)引导输入点更新;
通过贝叶斯公式得到引导输入点更新的解析形式,省略对超参数θd的依赖,设t-1时刻ud的分布为
Figure FDA0003539536910000041
根据贝叶斯公式和稀疏化假设,运用卡尔曼滤波中的更新步骤,得到更新后引导点值ud的分布
Figure FDA0003539536910000042
其均值和方差为
Figure FDA0003539536910000043
Figure FDA0003539536910000044
其中Ad,t=Kd(Pt,Zd)Kd(Zd,Zd)-1
(33)超参数更新;
使用边缘粒子滤波器对引导输入点和超参数进行综合更新,其中超参数的更新采用粒子滤波器方法,设超参数满足以下的马尔可夫过程
Figure FDA0003539536910000045
其中
Figure FDA0003539536910000046
和Vd,t-1为θd,t-1的蒙特卡罗均值和方差,a=(3b-1)/(2b),b∈(0.95,0.99);所有待更新变量的分布为
Figure FDA0003539536910000047
考虑t-1时刻θd,t-1的K个粒子
Figure FDA0003539536910000048
及其对应的引导点先验分布参数
Figure FDA0003539536910000049
当训练数据D0:t到来后,首先对每一个粒子
Figure FDA00035395369100000410
从进化模型中生成t时刻新的粒子
Figure FDA00035395369100000411
然后使用新的超参数
Figure FDA00035395369100000412
和对应的引导点先验
Figure FDA00035395369100000413
根据(32)中的引导点更新算法得到对应粒子的引导点后验分布
Figure FDA00035395369100000414
最后基于训练数据似然来更新粒子权重,即
Figure FDA0003539536910000051
并执行归一化和重采样步骤。
CN202011197637.6A 2020-10-30 2020-10-30 一种空间机器人高斯过程轨迹跟踪控制方法 Active CN112318509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011197637.6A CN112318509B (zh) 2020-10-30 2020-10-30 一种空间机器人高斯过程轨迹跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011197637.6A CN112318509B (zh) 2020-10-30 2020-10-30 一种空间机器人高斯过程轨迹跟踪控制方法

Publications (2)

Publication Number Publication Date
CN112318509A CN112318509A (zh) 2021-02-05
CN112318509B true CN112318509B (zh) 2022-04-29

Family

ID=74323840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011197637.6A Active CN112318509B (zh) 2020-10-30 2020-10-30 一种空间机器人高斯过程轨迹跟踪控制方法

Country Status (1)

Country Link
CN (1) CN112318509B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883331B (zh) * 2021-02-24 2024-03-01 东南大学 一种基于多输出高斯过程的目标跟踪方法
CN113771034B (zh) * 2021-09-17 2023-05-05 西北工业大学 一种基于模型置信度和高斯过程的机器人轨迹预测方法
CN113561187B (zh) * 2021-09-24 2022-01-11 中国科学院自动化研究所 机器人控制方法、装置、电子设备及存储介质
CN114355976B (zh) * 2021-12-31 2023-12-05 中山大学 一种基于学习的控制无人机在风扰下完成轨迹跟踪的方法
CN114193458B (zh) * 2022-01-25 2024-04-09 中山大学 一种基于高斯过程在线学习的机器人控制方法
CN117687342B (zh) * 2024-01-31 2024-05-17 中国科学技术大学 基于高斯过程非保守概率误差界的机器人安全控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013213397A1 (de) * 2013-07-09 2015-01-15 Robert Bosch Gmbh Verfahren und Vorrichtung zum Bereitstellen von Stützstellendaten für ein datenbasiertes Funktionsmodell
CN104345735A (zh) * 2014-09-30 2015-02-11 同济大学 一种基于落脚点补偿器的机器人行走控制方法
CN105205313A (zh) * 2015-09-07 2015-12-30 深圳大学 模糊高斯和粒子滤波方法、装置及目标跟踪方法、装置
CN107292445A (zh) * 2017-06-29 2017-10-24 西北工业大学 一种空间非合作目标位姿预测方法
CN109352655A (zh) * 2018-11-28 2019-02-19 清华大学 一种基于多输出高斯过程回归的机器人变形补偿方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013213397A1 (de) * 2013-07-09 2015-01-15 Robert Bosch Gmbh Verfahren und Vorrichtung zum Bereitstellen von Stützstellendaten für ein datenbasiertes Funktionsmodell
CN104345735A (zh) * 2014-09-30 2015-02-11 同济大学 一种基于落脚点补偿器的机器人行走控制方法
CN105205313A (zh) * 2015-09-07 2015-12-30 深圳大学 模糊高斯和粒子滤波方法、装置及目标跟踪方法、装置
CN107292445A (zh) * 2017-06-29 2017-10-24 西北工业大学 一种空间非合作目标位姿预测方法
CN109352655A (zh) * 2018-11-28 2019-02-19 清华大学 一种基于多输出高斯过程回归的机器人变形补偿方法

Also Published As

Publication number Publication date
CN112318509A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112318509B (zh) 一种空间机器人高斯过程轨迹跟踪控制方法
de Jesús Rubio Discrete time control based in neural networks for pendulums
Singh et al. Stability analysis of robust adaptive hybrid position/force controller for robot manipulators using neural network with uncertainties
El-Hussieny et al. Adaptive learning of human motor behaviors: An evolving inverse optimal control approach
Liang et al. Finite-time velocity-observed based adaptive output-feedback trajectory tracking formation control for underactuated unmanned underwater vehicles with prescribed transient performance
Zhou et al. Adaptive NN control for nonlinear systems with uncertainty based on dynamic surface control
Shin et al. Adaptive support vector regression for UAV flight control
Patanè et al. Echo-state networks for soft sensor design in an SRU process
Kong et al. Approximate optimal control for an uncertain robot based on adaptive dynamic programming
Zhang et al. A novel event-triggered robust neural formation control for USVs with the optimized leader–follower structure
US20210341884A1 (en) Generation of a control system for a target system
Patan et al. Neural networks in design of iterative learning control for nonlinear systems
Castillo et al. Reinforcement learning meets hybrid zero dynamics: A case study for rabbit
Dai et al. A fast tube model predictive control scheme based on sliding mode control for underwater vehicle-manipulator system
Ahmadi et al. Control-oriented learning of Lagrangian and Hamiltonian systems
Song et al. Prescribed performance adaptive control for an uncertain robotic manipulator with input compensation updating law
Liu et al. Attitude control for hypersonic reentry vehicles: An efficient deep reinforcement learning method
Peng et al. Aggressive maneuver oriented integrated fault-tolerant control of a 3-DOF helicopter with experimental validation
Gao et al. Offset-free trajectory tracking control for hypersonic vehicle under external disturbance and parametric uncertainty
Shi et al. Neural network-based iterative learning control for trajectory tracking of unknown SISO nonlinear systems
Wang et al. Optimized Bézier-curve-based command generation and robust inverse optimal control for attitude tracking of spacecraft
Zhang et al. Adaptive neural control of a quadrotor helicopter with extreme learning machine
Folgheraiter et al. One-Shot Bipedal Robot Dynamics Identification With a Reservoir-Based RNN
Yuqi et al. Time-varying parameters estimation with adaptive neural network EKF for missile-dual control system
Zhang et al. Single neural network-based asymptotic adaptive control for an autonomous underwater vehicle with uncertain dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant