CN112318509B

CN112318509B - 一种空间机器人高斯过程轨迹跟踪控制方法

Info

Publication number: CN112318509B
Application number: CN202011197637.6A
Authority: CN
Inventors: 符启恩; 孙长银; 陆科林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-04-29
Anticipated expiration: 2040-10-30
Also published as: CN112318509A

Abstract

本发明公开了一种空间机器人高斯过程轨迹跟踪控制方法，对空间机器人系统动力学模型进行在线辨识，同时利用模型置信度动态地调整控制增益。进一步地，对高斯过程动力学模型的在线训练采用基于引导数据点的稀疏化方法，同时采用一种边缘粒子滤波器对高斯过程模型的超参数进行在线估计，有效地减小了模型训练和预测的计算负担。

Description

一种空间机器人高斯过程轨迹跟踪控制方法

技术领域

本发明涉及轨迹跟踪控制技术领域，特别涉及一种空间机器人高斯过程轨迹跟踪控制方法。

背景技术

在空间探索计划中，空间机器人的应用能够帮助人类完成十分危险而困难的工作。在空间站在轨装配、维护维修等任务中，空间机器人都扮演着十分重要的角色。空间机器人的轨迹跟踪控制是空间机器人应用中的一项重要技术。随着系统辨识理论和控制理论的不断发展，基于数据和机器学习的控制方法不断提出，大大提高了在系统模型未知情况下的轨迹跟踪控制性能。

《面向模型未知的自由漂浮空间机械臂自适应神经鲁棒控制》，载于《中国工程机械学报》(王超,蒋理剑,叶晓平,蒋黎红,and张文辉,"面向模型未知的自由漂浮空间机械臂自适应神经鲁棒控制,"中国工程机械学报,vol.17,pp.153-158,2019.)公开了一种基于神经网络模型的空间机器人轨迹跟踪控制方法，使用径向基神经网络对机器人动力学模型中的未知部分进行逼近，设计鲁棒控制器对逼近误差和外界干扰进行补偿。然而，该方法与其他类似使用神经网络进行轨迹跟踪控制律设计的方法存在一定问题，包括模型可解释性差、模型置信度难以评估、需要大量训练数据等。

高斯过程是一种非参数化的机器学习模型，与神经网络相比，高斯过程模型预测中得到的后验协方差可以作为模型准确度的度量，灵活运用在模型应用中，具备天生的优势。同时，训练高斯过程模型所需的数据也相对较少。《Stable gaussian process basedtracking control of euler–lagrange systems》，载于《Automatica》(T.Beckers,D.

and S.Hirche,"Stable gaussian process based tracking control of euler–lagrange systems,"Automatica,vol.103,pp.390-397,2019.)中公开了一种基于高斯过程的欧拉-拉格朗日系统轨迹跟踪方法，使用高斯过程模型对系统未知动力学进行拟合，结合传统的计算转矩控制方法，取得了较好的控制效果。然而，使用原始的高斯过程方法计算复杂度较高，而且该方法基于离线学习，无法应对环境的变化。

稀疏在线高斯过程是高斯过程技术的延展，是解决上述两个问题的途径。《Variational learning of inducing variables in sparse Gaussian processes》，载于会议《Artificial Intelligence and Statistics》(M.Titsias,"Variationallearning of inducing variables in sparse Gaussian processes,"in ArtificialIntelligence and Statistics,2009,pp.567-574.)公开了一种基于引导输入点的稀疏高斯过程方法，用引导点值归纳训练数据中的信息，大大提高了高斯过程方法的计算效率；《Amarginalized particle Gaussian process regression》，载于会议《Advances inNeural Information Processing Systems》(Y.Wang and B.Chaib-draa,"Amarginalized particle Gaussian process regression,"in Advances in NeuralInformation Processing Systems,2012,pp.1187-1195.)公开了一种在线高斯过程技术，基于边缘粒子滤波器技术对高斯过程模型进行在线更新。然而这些技术都限于算法上的改进，缺乏与实际应用的结合。

现有的空间机器人轨迹跟踪控制方法中，基于模型的方法受限于动力学模型的准确度，基于数据的方法则大多面临无法衡量模型置信度的问题。目前尚没有能够较好地应用诸如高斯过程模型此类的非参数化贝叶斯机器学习方法的轨迹跟踪控制方法出现。

发明内容

本发明的目的是提供一种准确有效的、能够评估模型置信度、能够实现在线更新且计算效率较高的空间机器人轨迹跟踪控制方法。

为了实现上述目的，本发明的技术方案如下：一种空间机器人高斯过程轨迹跟踪控制方法，该方法包括以下步骤：

步骤(1)基于稀疏化的高斯过程模型，对空间机器人系统动力学模型进行辨识；

步骤(2)将所辨识的系统与计算转矩控制方法相结合，得到高斯过程控制律；

步骤(3)在控制过程中，基于边缘粒子滤波器方法根据实时得到的数据对系统模型进行在线更新。

进一步地，所述步骤(1)包括：

(11)建立动力学模型，设定高斯过程模型输入输出

空间机器人的动力学模型为

其中

为机器人系统广义变量，

u(t)为控制输入，f(p)为无法精确建模的未知动力学影响，M(q)为广义惯量矩阵，

为广义科氏力矩阵，

均为无法准确得到的模型参数；令空间机器人动力学系统的估计模型为

选择

作为高斯过程模型输入变量，选择

作为待辨识的高斯过程模型输出，代表模型误差，

(12)获取训练数据

在输入空间内随机选取训练输入P＝[p₁,…,p_N]，选取任意一种控制律u，测量系统各阶广义变量，得到训练数据输出H＝[h(p₁),...,h(p_N)]＝[h₁,...,h_D]^T。

(13)给定高斯过程先验模型

对系统模型误差函数的各个维度使用独立的高斯过程进行建模，考虑系统模型误差函数h(p)的其中一个维度h_d(p)，给定其高斯过程先验为

其中m_d(p)为均值函数，k_d(p,p')为协方差函数。

(14)高斯过程稀疏化处理

采用基于引导点的稀疏化方法，对模型误差函数h_d(p)，令其引导输入为Z_d＝[z_d,1,…,z_d,M]，引导点值为u_d＝[h_d(z_d,1),…,h_d(z_d,M)]^T。

(15)超参数训练

通过训练数据的似然对高斯过程模型超参数进行训练，得到最优超参数为

式中最大化的似然函数为

其中

K_uu＝K(Z_d,Z_d)和K_uh＝K(Z_d,P)为协方差矩阵，其元素根据协方差函数得到，

(16)获得高斯过程后验模型

根据训练数据和优化后的超参数，对待辨识的输入点p_*得到其高斯过程后验分布

其均值和方差为

其中

m_d,h＝[m_d(p₁),…,m_d(p_N)]^T，k_*u＝k(p_*,Z_d)为协方差向量。

(17)整合各维度均值和协方差

整合系统误差函数各维度均值和协方差为μ(p_*)＝[μ_1,*,...,μ_D,*]^T和

进一步地，使用P和Z前D维度，得到模型误差函数的后验比例边际协方差Σ_p(q_*)，使用P和Z前2D维度，得到模型误差函数的后验比例边际协方差

进一步地，所述步骤(2)包括：

(21)设计高斯过程控制律前馈补偿部分

基于高斯过程后验均值对模型误差进行补偿，设计高斯过程控制律前馈补偿部分

(22)设计高斯过程控制律反馈控制部分

基于高斯过程后验边际协方差对反馈增益进行动态调整，设计高斯过程控制律反馈控制部分

其中G_p(·)，G_d(·)为对称正定矩阵值函数，e＝q-q_d为系统跟踪误差，q_d，

为给定参考轨迹。

(23)设计高斯过程轨迹跟踪控制律

设计高斯过程轨迹跟踪控制律为

u(t)＝u_f(t)+u_b(t)

进一步地，所述步骤(3)包括：

(31)实时数据获取

考虑模型误差函数的一个维度d，设时刻t时新获得的训练数据为D_t＝{P_t,h_d,t}，其中

记0:t时刻的全部训练数据为D_0:t。

(32)引导输入点更新

通过贝叶斯公式得到引导输入点更新的解析形式。省略对超参数θ_d的依赖，设t-1时刻u_d的分布为

根据贝叶斯公式和稀疏化假设，运用卡尔曼滤波中的更新步骤，得到更新后引导点值u_d的分布

其均值和方差为

其中A_d,t＝K_d(P_t,Z_d)K_d(Z_d,Z_d)^-1。

(33)超参数更新

使用边缘粒子滤波器对引导输入点和超参数进行综合更新，其中超参数的更新采用粒子滤波器方法。设超参数满足以下的马尔可夫过程

其中

和V_d,t-1为θ_d,t-1的蒙特卡罗均值和方差，a＝(3b-1)/(2b)，b∈(0.95,0.99)。

则所有待更新变量的分布为

根据粒子滤波的更新方法，对每个粒子分别进行引导点的更新，即可完成所有变量的更新。

相对于现有技术，本发明的优点如下：1)该方法相比于传统的基于模型的控制方法，其减少了对精确建模的依赖，能够通过数据对系统动力学模型进行学习和辨识，并对模型中的未知部分进行补偿；2)相比于以神经网络为代表的大多数数据驱动的控制方法，所采用的高斯过程算法能够对所学习的模型的置信度进行评估，并用于控制增益的调节，从而获得更小的控制增益，减轻了执行器的负担，提高了控制系统的安全性；3)相比于原始的高斯过程算法，通过稀疏化的手段降低了计算复杂度，提高了运算速度，同时能够实现在线更新，使空间机器人更能适应未知多变的外部环境。

附图说明

图1为使用传统控制方法的空间机器人轨迹跟踪曲线图；

图2为使用本发明中的控制方法的空间机器人轨迹跟踪曲线图；

图3为使用本发明中的控制方法与传统控制方法的跟踪误差的比较图；

图4为使用本发明中的控制方法与传统控制方法得到的空间机器人其中一个关节的轨迹对比图。

具体实施方式

下面结合附图和具体实施方式，对本发明的技术方案作进一步的介绍。

实施例1：参见图2，一种空间机器人高斯过程轨迹跟踪控制方法，该方法包括以下步骤：

进一步地，所述步骤(1)包括：

(11)建立动力学模型，设定高斯过程模型输入输出

空间机器人的动力学模型为

其中

为机器人系统广义变量，

u(t)为控制输入。f(p)为无法精确建模的未知动力学影响，M(q)为广义惯量矩阵，

为广义科氏力矩阵，

均为无法准确得到的模型参数。令空间机器人动力学系统的估计模型为

选择

作为高斯过程模型输入变量，选择

作为待辨识的高斯过程模型输出，代表模型误差，

(12)获取训练数据；

(13)给定高斯过程先验模型；

其中m_d(p)为均值函数，k_d(p,p')为协方差函数。

(14)高斯过程稀疏化处理；

(15)超参数训练；

式中最大化的似然函数为

其中

(16)获得高斯过程后验模型；

其均值和方差为

其中

m_d,h＝[m_d(p₁),…,m_d(p_N)]^T，k_*u＝k(p_*,Z_d)为协方差向量。

(17)整合各维度均值和协方差；

进一步地，所述步骤(2)包括：

(21)设计高斯过程控制律前馈补偿部分；

(22)设计高斯过程控制律反馈控制部分；

为给定参考轨迹。

(23)设计高斯过程轨迹跟踪控制律；

设计高斯过程轨迹跟踪控制律为

u(t)＝u_f(t)+u_b(t)

进一步地，所述步骤(3)包括：

(31)实时数据获取

记0:t时刻的全部训练数据为D_0:t。

(32)引导输入点更新；

其均值和方差为

其中A_d,t＝K_d(P_t,Z_d)K_d(Z_d,Z_d)^-1。

(33)超参数更新；

其中

则所有待更新变量的分布为

具体应用实施例：考虑一个平面内的两连杆空间机器人，其各项参数如下，两连杆质量为m₁＝m₂＝1kg，长度为l₁＝l₂＝1m，其广义变量q＝[q₁,q₂]^T为两个连杆的关节角，高斯过程模型的复合输入向量为

受到的非线性扰动为

其动力学模型中的各项矩阵参数的估计为

机器人轨迹跟踪任务为捕获一个平面内的运动目标，参考轨迹依据一种基于比例制导的追踪方法生成，机器人末端初始状态为x_m0＝[0,1]，v_m0＝[0,0]，目标初始状态为x_t0＝[1.0,1.2]，v_t0＝[-π/10,-0.2]，运动方程为a_t＝[-0.2(π/2)²sin(πt/2),0]。

对h₁(p)，h₂(p)使用两个高斯过程模型进行学习，高斯过程先验均采用均值为0，协方差函数为径向基(RBF)核函数，其表达式如下

k(x,x')＝α²exp((x-x')^TΛ^-1(x-x'))

其中α²为幅度系数，

为相关度系数。初始训练数据在区间p∈[-0.5,0.5]⁶内随机选取729个点，引导点为区间内均匀分布的64个点，在训练输入点处采用普通的PI控制律作为生成训练数据的控制输入，随后以训练数据的似然作为指标，采用梯度优化方法对参数进行训练，训练初值设定为

训练完成后，在轨迹跟踪控制过程中，使用训练后的参数和训练数据对每一步时的状态进行估计，并补偿到控制律中。根据全条件独立稀疏假设(FITC)，当引导点u给定时，函数在不同输入点的值满足条件独立，即p(h(p₁),h(p₂)|u)＝p(h(p₁)|u)p(h(p₂)|u)。对待辨识的输入点p_*，计算其各维度后验概率

根据步骤(16)和步骤(17)中的公式计算得到其后验均值和方差。控制律设计为

其中增益函数G_p(Σ_p(q))和

设定为

控制律中，系统误差函数h(p)的后验均值μ(p)用于对估计的系统动力学模型进行补偿；后验协方差Σ_p(q)和

则用于反馈增益的调整中，当协方差较大使，代表此时模型置信度较低，模型不准确的概率更大，则适当增大反馈增益，确保系统的跟踪性能，当模型置信度较高时，则减小反馈增益，减轻燃料损耗，防止执行器饱和，从而不仅实现模型置信度的评估，也利用其来动态调整控制律，达到更好的控制效果。

在模型的在线更新中，设定时间步长为0.01s，0.5s更新一次。考虑t-1时刻θ_d,t-1的K个粒子

及其对应的引导点先验分布参数

当训练数据D_0:t到来后，首先对每一个粒子

从进化模型中生成t时刻新的粒子

然后使用新的超参数

和对应的引导点先验

根据步骤(32)中的引导点更新算法得到对应粒子的引导点后验分布

最后基于训练数据似然来更新粒子权重，即

并执行归一化和重采样步骤。

具体方案的实施结果如图1-4所示，可以看出，相比于传统的控制方法，所提出的高斯过程轨迹跟踪控制方法能够取得更好的控制性能。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。