CN111531543B

CN111531543B - 基于生物启发式神经网络的机器人自适应阻抗控制方法

Info

Publication number: CN111531543B
Application number: CN202010398615.XA
Authority: CN
Inventors: 高洁; 康二龙; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2021-10-08
Anticipated expiration: 2040-05-12
Also published as: CN111531543A

Abstract

本发明属于机器人控制和非线性系统领域，具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法，旨在解决现有技术无法实现复杂非线性系统中机器人的实时精准控制的问题。本发明包括：获取系统的初始控制力矩、期望阻抗、运动轨迹；构建含阻抗的n自由度机械臂系统的动态方程、期望阻抗模型分别获取机器人t时刻系统真实状态和期望状态；基于全状态反馈和生物启发式网络构建自适应控制器并获取t+1时刻控制力矩；循环进行状态获取、自适应阻抗控制、运动控制，直至机器人机械臂完成运动轨迹。本发明结合生物启发式网络结构、时滞反馈，采用了奖励值调节的海扁算法以及网络估计与全状态反馈结合的结构，系统稳定、控制精度高。

Description

基于生物启发式神经网络的机器人自适应阻抗控制方法

技术领域

本发明属于机器人控制和非线性系统领域，具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法。

背景技术

阻抗控制是用于解决机器人和环境之间的安全交互问题。机器人的阻抗控制的机器人应用领域的一个复杂问题。由于机器人结构的复杂性，导致实际的机器人系统往往存在大量的不确定性，如严格的非线性、未知的环境、未知系统参数等等。

针对不确定性存在的系统阻抗控制问题，传统方法主要分为两种：反馈控制，如PID控制；预测控制，如模型控制等。PID控制器(比例-积分-微分控制器)是一个在工业控制应用中常见的反馈回路部件，由比例单元P、积分单元I和微分单元D组成。PID控制的基础是比例控制；通过积分控制消除稳态误差，但可能增加超调；通过微分控制加快大惯性系统响应速度以及减弱超调趋势。PID控制可根据测量误差反馈，设计比例、积分微分控制增益，来降低不确定性对于控制性能的影响。然而PID不具备在线学习和调节的能力，这使得系统控制的实时性降低。而模型预测控制主要针对的是线性系统，通过过程模型考虑当前时刻以后的一段时间内的过程特性，选择给定输入的未来变化规律以使得预测响应能够更好地满足控制目标。但是对非线性系统而言，模型控制无法取得满意的效果。后来，基于前馈神经网络的自适应控制方法得到了发展，它是通过在线学习的方式，不断使网络的输出逼近系统的未知动态的过程。然而前馈网络由于结构简单，难以产生较为复杂的动态特性，因此对于实际的复杂系统而言，估计能力有所下降。另外传统训练网络的方式是误差梯度反传，一定意义上违背了大脑的学习策略，缺少一定的灵活性和可靠性。

总的来说，现有机器人阻抗控制方法无法实现复杂非线性系统中机器人阻抗的实时精准控制，设计新的机器人的网络自适应控制方法，对于提高实时控制能力具有重要意义。

发明内容

为了解决现有技术中的上述问题，即现有技术无法实现复杂非线性系统中机器人的实时精准阻抗控制的问题，本发明提供了一种基于生物启发式神经网络的机器人自适应阻抗控制方法，该方法包括：

步骤S10，获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹；构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型；

步骤S20，基于控制力矩与期望阻抗的差以及期望阻抗，分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型，获取t时刻机器人机械臂控制系统的真实状态以及期望状态；

步骤S30，基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态，通过自适应阻抗控制器，获取t+1时刻机器人机械臂控制系统的控制力矩；

步骤S40，基于所述t+1时刻机器人机械臂控制系统的控制力矩，控制机器人机械臂运动，并令t＝t+1后跳转步骤S20，直至机器人机械臂完成运动轨迹。

在一些优选的实施例中，所述n自由度机械臂系统的动态方程为：

其中，x∈Rⁿ为机械臂末端的位置坐标；

和

分别为对应的末端速度和加速度；Γ∈Rⁿ为控制力矩；D(q)∈R^n×n为对称且正定的惯性矩阵；

G(g)∈Rⁿ分别为笛卡尔空间的科氏力矩阵以及重力矩阵；Γ_e∈Rⁿ为期望阻抗，即机器人与环境之间的期望的相互作用力。

在一些优选的实施例中，所述期望阻抗模型为：

其中，x_c为预先定义的命令轨迹，x_d为完成期望交互动作的目标轨迹，D_d、C_d、G_d分别为期望的惯性参数矩阵、科氏力矩阵、重力矩阵。

在一些优选的实施例中，所述自适应阻抗控制器为：

其中，

为动力学信息

的估计值，r_s(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数，u为输入量；

为期望的自适应控制权值，ζ_e(u)∈Rⁿ，

为网络估计误差；z₁＝x_d(k)-x(k)，为机械臂在笛卡尔空间的跟踪误差，x_d(k)为系统当前时刻k下的期望状态，x(k)为系统当前时刻k下的真实状态；

为z₁＝x_d(k)-x(k)的一阶导数，

的一阶导数；

是为了确保系统稳定性引入的虚拟变量，

为x_d(k)的一阶导数，K₁代表常数比例矩阵；K_p和K_r分别是具有对角结构的正的恒定增益矩阵，分别用于调控反馈误差z₂和饱和误差sgn(z₂)对跟踪性能的影响。

在一些优选的实施例中，所述系统信息估算网络基于生物启发式网络构建，并通过时滞神经元进行反馈，包括输入层、中间层、循环层和时滞层。

在一些优选的实施例中，所述时滞神经元，其膜电位的动态变化方程为：

其中，

和

分别表示当前时刻k下的第i个神经元的状态和响应值；δ(k)为随机时变的时滞项，其值满足[0，k)的均匀分布；

和

分别为循环权值矩阵和时滞权值矩阵；

代表输入矩阵；u_b(k)为当前时刻k下的外界输入；

为探索常数，代表均值为零、方差为

的高斯函数；τ为时间常数；tanh()为时滞神经元的响应函数。

在一些优选的实施例中，所述循环权值矩阵，其更新方法为：

其中，

为循环权值矩阵，

用于记录当前时刻k下的相邻神经元响应状态的相关性，S(x)＝x^1/3为单调递增函数，

为当前时刻k下的全局信息的奖励值信号R_x(k)的转置，

为当前时刻k下的全局信息的期望奖励值信号

的转置，η(k)为学习因子常数。

在一些优选的实施例中，所述时滞权值矩阵，其更新方法为：

其中，

为时滞权值矩阵，

用于记录相邻时滞神经元响应状态的相关性，S(x)＝x^1/3为单调递增函数，

为当前时刻k下的全局信息的奖励值信号R_x(k)的转置，

为当前时刻k下的全局信息的期望奖励值信号

的转置，η(k)为学习因子常数。

在一些优选的实施例中，所述全局信息的期望奖励信号，其更新方法为：

其中，

为当前时刻k下的全局信息的期望奖励值信号，

为k-1时刻下的全局信息的期望奖励值信号，R_x(k)为当前时刻k下的全局信息的奖励值信号，l_trace为预先给定的调整因子。

本发明的另一方面，提出了一种基于生物启发式神经网络的机器人自适应阻抗控制系统，该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块；

所述输入模块，配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入；

所述模型构建模块，配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型；

所述状态获取模块，配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗，分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型，获取t时刻机器人机械臂控制系统的真实状态以及期望状态；

所述自适应阻抗控制模块，配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态，通过自适应阻抗控制器，获取t+1时刻机器人机械臂控制系统的控制力矩；

所述运动控制模块，配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩，控制机器人机械臂运动；

所述循环模块，配置为令t＝t+1后跳转状态获取模块，循环进行状态获取、自适应阻抗控制、运动控制，直至机器人机械臂完成运动轨迹。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。

本发明的有益效果：

本发明基于生物启发式神经网络的机器人自适应阻抗控制方法，打破了传统采用前馈网络进行估计的思路，从生物脑神经连接的结构出发，设计了一种新的生物启发式网络结构，该网络结构的特点是内部构建大量的循环连接，并加入了时滞反馈，大大丰富网络的动态特性。通过调节权值，更好的提高网络对于未知函数的自适应估计能力。同时，本发明借鉴神经学当中的突触学习机制，采用了基于奖励值调节的海扁学习算法，这是一种局部与全局信息相结合的方式，用于循环和时滞权值的更新和调整，能够显著提高网络学习的灵活性和准确性。另外，本发明提出了学习率自适应的策略，令学习率可以根据外界奖励信号的指示，做出合适的调整。这样做可以充分增强权值调整对环境的鲁棒性，并且保证了网络的全局收敛性。最后，控制采用网络估计与全状态反馈相结合的结构，促进系统渐进稳定跟踪。本发明方法实现了非线性系统中机器人阻抗的实时控制，控制精度高、效率高。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法的流程示意图；

图2是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的生物启发式网络结构示意图；

图3是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图；

图4是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪误差对比图；

图5是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图；

图6是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的位置及速度控制误差的一阶范数。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于生物启发式神经网络的机器人自适应阻抗控制方法，本方法设计了一种基于生物启发式网络的自适应阻抗控制，将全状态反馈和网络未知动态估计结合在一起：首先，根据一阶跟踪误差，利用其连续可微的性质，采用反步设计法得到相应的二阶误差和虚拟变量，作为控制器和生物启发式网络的输入；然后，采用加权的方式，对于网络的输出进行调节，作为控制器中对系统估计的部分；最后，从跟踪性能和闭环稳定性的角度出发，对控制权值和增益进行在线调整。通过状态反馈和网络估计的有效结合，使得系统存在大量参数不确定性的情况下，依然能够实现稳态渐进的跟踪效果。

本发明的一种基于生物启发式神经网络的机器人自适应阻抗控制方法，该方法包括：

为了更清晰地对本发明基于生物启发式神经网络的机器人自适应阻抗控制方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于生物启发式神经网络的机器人自适应阻抗控制方法，包括步骤S10-步骤S40，各步骤详细描述如下：

步骤S10，获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹；构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型。

n自由度机械臂系统的动态方程如式(1)所示：

其中，x∈Rⁿ为机械臂末端的位置坐标；

和

G(q)∈Rⁿ分别为笛卡尔空间的科氏力矩阵以及重力矩阵；Γ_e∈Rⁿ为期望阻抗，即机器人与环境之间的期望的相互作用力。

当机器人在环境中运动时，为了保证机器人与环境之间进行安全的交互，我们需要机器人与环境之间的相互作用力Γ_e按照期望的设定去发展，该期望阻抗模型如式(2)所示：

其中，x_c为预先定义的命令轨迹，该轨迹光滑且二阶可导，一般情况下，该命令轨迹可以通过离线的运动规划来获得，x_d为利用模型(2)得到的完成期望交互动作的目标轨迹，用于实现机器人与环境的安全交互。D_d、C_d、G_d分别为阻抗模型(2)的惯性参数矩阵、科氏力矩阵、重力矩阵。

当环境处于自由空间时，命令轨迹与期望轨迹重合：x_c＝x_d，即环境的阻抗力Γ_e为0。当机械臂与环境出现交互时，阻抗Γ_e的变化会使得机械臂的轨迹发生改变，从而保证机器与环境之间的安全交互。

步骤S20，基于控制力矩与期望阻抗的差以及期望阻抗，分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型，获取t时刻机器人机械臂控制系统的真实状态以及期望状态。

将获取的预先设定的期望阻抗输入到构建的期望阻抗模型中，可以获取机器人机械臂系统的期望状态；将获取的初始控制力矩与期望阻抗的差输入到构建的n自由度机械臂系统的动态方程中，可以获取机器人机械臂系统的真实状态。

步骤S30，基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态，通过自适应阻抗控制器，获取t+1时刻机器人机械臂控制系统的控制力矩。

假设系统的全状态信息是已知的，首先通过反步设计法，给出全状态反馈的控制器的设定。

定义机械臂在笛卡尔空间的跟踪误差，如式(3)所示：

z₁＝x_d-x 式(3)

其中，x_d为完成期望交互动作的目标轨迹，x为实际的机械臂位置状态。

上述误差的一阶导数形式如式(4)所示：

为了确保闭环系统的稳定性，引入式(5)所示的虚拟变量：

其中，K1代表常数比例矩阵。

基于上述的机械臂在笛卡尔空间的跟踪误差、误差的二阶导数、虚拟变量，构建的自适应阻抗控制器如式(6)所示：

其中，K_p是具有对角结构的正的恒定增益矩阵，用于调控反馈误差z₂对跟踪性能的影响；阻抗Γ_e会根据环境对机器人施加的外力来调整机器人的运动；D为机器人动力学中的惯性参数矩阵，C为机器人动力学中的科氏力矩阵，G为机器人动力学中的重力矩阵。

稳定性是控制性能当中的重要指标，本发明还用李亚普诺夫定理来验证上述控制是否能使机器人产生稳定的运动，即跟踪稳定性。

首先考虑不带有网络估计得情况，选择式(7)所示的李雅普诺夫函数：

对上述的李雅普诺夫函数求导，如式(8)所示：

为了方便得到其导数的形式，首先将模型的动力学方程(1)转换为如(9)所示的等价形式：

根据上式的结果进一步获得z₁和z₂的导数，如式(10)所示：

将式(10)的结果和式(6)定义的控制量代入到式(8)中，进一步展开

可得式(11)：

由上式可知，当K₁＞0，K_p＞0，满足

说明式(6)的自适应阻抗控制器能使机器人产生稳定的运动。

由于式(6)需要完整的动力学信息

这在实际系统中是难以获得的，因此，本发明采用生物启发式网络对系统信息进行估计，因此，网络对于系统参数的估计如式(12)所示：

其中，

为期望的自适应控制权值，f(u)表示从输入到待估计系统参数的映射函数，并通过加权的方式来提高估计的准确性。

传统的前馈网络如径向基网络，是采用高斯核函数完成输入到估计的映射，本发明采用生物启发式网络来拟合这一映射的过程，因网络估计存在一定的误差，为减小误差、增加准确率，本发明考虑网络估计误差，从而网络对于系统参数的期望估计如式(13)所示：

其中，ζ_e，i(u)∈Rⁿ为网络估计误差，在一定的输入范围内有界

基于上式，在实际应用中，网络对于系统参数的实际估计如式(14)所示：

从而，式(6)可调整为式(15)所示：

其中，

为动力学信息

为期望的自适应控制权值，ζ_e(u)∈Rⁿ，

为z₁＝x_d(k)-x(k)的二阶导数，

的一阶导数；

是为了确保系统稳定性引入的虚拟变量，

从控制性能和系统稳定性的角度出发，本发明对上式中的控制权值采用式(16)所示的方法更新：

其中，K_R，i＞0为更新增益，其值的设定对整个闭环系统的稳定性有影响；σ_R，i＞0为小的微调常数，用来确保控制的鲁棒性。

如图2所示，为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的生物启发式网络结构示意图，网络具有全连接的循环结构，另外加入了时滞神经元的反馈。该网络结构总共由四部分构成，输入层、中间层、循环层和时滞层(Timedelay)构成，这种结构近似于人脑神经元的连接状态。其中，中间层的神经元全部相互连接在一起，同时，引入时滞神经元的反馈。整个神经网络采用循环递归的方式进行神经元状态的更新，相比已有传统前馈网络，该网络能够更好的产生类似人脑的复杂动态行为，提高对模型的估计能力。

时滞神经元，其膜电位的动态变化通过一阶差分方程模拟，如式(17)所示：

其中，

和

和

分别为循环权值矩阵和时滞权值矩阵；

代表输入矩阵；u_b(k)为当前时刻k下的外界输入；ζ_e为探索常数，代表均值为零、方差为

在权值设计中，本发明采用基于奖励式的海扁学习算法，这种方法借鉴了生物学上突触调节的思想，即相邻两个神经元的状态高度相关时，它们之间突触的增强。另外多巴胺会根据外界环境的奖励信号，对调节突触的学习过程。

循环权值矩阵，其更新方法如式(18)所示：

其中，

为循环权值矩阵，

为当前时刻k下的全局信息的奖励值信号R_x(k)的转置，

为当前时刻k下的全局信息的期望奖励值信号

的转置，η(k)为学习因子常数。

受多巴胺会影响信号在神经轴索上的传输速率机制的启发，本发明对于时滞权值矩阵的更新也采取相似的方法，如式(19)所示：

其中，

为时滞权值矩阵，

为当前时刻k下的全局信息的奖励值信号R_x(k)的转置，

为当前时刻k下的全局信息的期望奖励值信号

的转置，η(k)为学习因子常数。

上述的循环权值矩阵和时滞权值矩阵更新过程中的期望奖励值也采用一种时间更新的方法来提高对环境变化的适应性，如式(20)所示：

其中，

为当前时刻k下的全局信息的期望奖励值信号，

通过上述方法，有效的时滞神经元状态被保留用于网络的更新，而干扰或者无效的时滞神经元则会被滤除。

不断基于机器人当前状态和预期状态的差距值，获取下一时刻机器人的控制力矩，直到机器人完成设定的运动轨迹。

在系统中加入了启发式神经网络进行系统状态估计，还需要进一步对网络估计的渐进收敛性的稳定性进行判别，本发明是通过构建关于控制误差和控制权值偏差的李雅普诺夫泛函，得到满足系统渐进稳定的参数条件。首先对于式(3)-式(5)描述的状态变量和在线学习机制下式(16)的控制器式(14)，假设初始条件是有界的，可以得出当反馈增益K₁＞0，K_p＞0和K_r＝diag[k_rii]，k_rii≥||ζ_e，i(u)||，系统实现渐进稳定的跟踪效果，且跟踪误差会收敛到以零值中心的小邻域内：即

其中z₁的误差上界为

上述系统稳定性的证明具体如下：

第一步，构建带有网络估计的李雅普诺夫泛函数，如式(21)所示：

将上式代入网络估计式(14)，进一步展开，可获得式(22)所示的表达式：

将控制权值的更新表达式替换上式的

获得式(23)所示的表达式：

其中，

且

根据

获得式(24)所示的表达式：

其中，υ＝min(φ₁，φ₂，φ₃)，φ₁＝λ_min(2K₁)，φ₂＝λ_min(2K_p)，

为了确保υ中所有的元素均大于零，控制增益需满足：K₁＞0，K_p＞0，从而使得

为负定函数，从而系统能使机器人产生稳定的运动。

本发明采用了生物启发式网络对系统的不确定性进行估计。在网络的学习和训练中，我们采用了学习率自适应可调的奖励干预的海扁学习算法，其中学习率根据奖励信号来做出相应的变化。这是为了考虑权值在更新的过程中，依然能确保网络的全局收敛性，并提高网络对环境的鲁棒性。

首先，假设待估计的系统是输入有界-输出有界稳定的(BIBO)，即对于零初始条件的线性时变系统，设G(t，τ)为其脉冲响应矩阵。假设存在一个有限的常熟k，对于任意的时间t∈[t₀，∞)，G(t，τ)的每一个元素g_ij(t，τ)都满足式(25)：

生物启发式网络定义如式(26)所示：

其中，x(k)为待估计的系统的状态，也是网络的内部状态；

为模型误差，其二次方型有界；时间常数τ构成矩阵A：A＝diag(τ-1)；

为网络偏差。

根据斯通-魏尔斯特拉斯(Stone-Weierstrass)定理，非线性系统的未知部分可以写为网络的估计形式，如式(27)所示：

定义系统的估计误差如式(28)所示：

则可将式(27)转换为关于误差的动态方程，如式(29)所示：

其中，

权值更新的学习率η(k)满足式(30)：

当相关参数如时间常数满足

和预期奖励值更新的预先给定的调整因子满足

其估计误差能够稳定渐进的收敛。

建立关于循环权值偏差和时滞权值偏差的李雅普诺夫泛函数，如式(31)所示：

其中，

权值更新的定义如式(32)所示：

根据上式可推导出式(33)：

另外，从式(18)和(19)定义的可行迹e^k、

以及0＜r^k＜1和

可以得出e^k＞r^k，

则可以得到式(34)：

下面，分两种情况进行描述：

第一种情况：τ||R_x(k+1)||≥||R_x(k)||。

从预期奖励的更新过程(20)可以得出，存在0～1之间的常数τ和l_trace，则可获得式(35)：

由式(20)可得新的期望奖励值的更新式如式(36)所示：

假定初始的奖励值和期望奖励值均为0，则上式可进一步推出式(37)：

则可获得式(38)、式(39)：

根据τ||R_x(k+1)||≥||R_x(k)||可以得到：τ^k-i||R_x(k)||≥||R_x(i)||，将其代入到上式中可得式(40)：

根据范数不等式

进一步展开(34)可得式(41)：

其中，

将式(34)的结果代入(41)，可得式(42)：

将学习率式(30)代入上式(42)，可得式(43)：

其中，

由于

和

则π＞0。V(k)满足式(44)：

从

可以看出，关于估计误差R_x(k)的系统李雅普诺夫泛函数V(k)满足输入-状态稳定的形式，即估计误差能够稳定的收敛在一定的范围内。

第二种情况：τ||R_x(k+1)||＜||R_x(k)||。

由式(30)可知，该情况下η＝0，也就是ΔV(k)＝0，即无权值的更新发生。同时又由于

则辨识误差R_x(k)逐渐有界，并随着时间趋近于无穷，估计误差逐渐收敛至零。

为了进一步验证本发明设计的控制器的性能，本发明基于MATLAB软件做了仿真，其仿真的实例如下：

首先，考虑如式(45)所示的机械臂系统状态方程：

其中，x₁＝[q₁，q₂，q₃]和

分别表示关节角和相关角速度。上式中的参数矩阵D(q)，

G_x(q)如式(46)所示：

其中，D_x(q)、

G(q)分别如式(47)、式(48)、(49)所示：

其中，

p₂＝m₃l₂、p₃＝m₃l₁、

p₈＝p₆+p₇、

假设预期轨迹定义如式(50)所示：

从式(42)中可以看到机械臂在自由空间中沿着圆弧进行运动，其半径为0.2m，圆心为x＝[0.2m，0.8m，0.8m]。另外，在x＝0.8m处存在一个障碍物。通过新的阻抗控制方法，使得机械臂的末端能够在接触到障碍物时贴着障碍物表面滑动，而在其它位置可以跟踪期望轨迹。

假定机械臂的初始位置和速度分别为x(0)＝[0.25m 0.6n 0.85m^T，

其中，目标阻抗的参数矩阵定义为D_d＝diag[1.0]，C_d＝diag[10.0]，G_d＝diag[60.0]。假设总共的仿真时间为20s，系统的采样频率为100Hz。

为了更好的突出本发明方法的效果，现将本发明方法与已有的两种控制器进行对比：

(1)PD控制器

PD控制器的表达式如式(51)所示：

Γ_PD(t)＝K_pz₂+K_rsgn(z₂) 式(51)

增益分别设置为K_p＝diag([10 10 10])和K_r＝diag([0.5 0.5 0.5])。为了确保对比的公平性，我们对其他两种方法也设置相同的增益。

(2)基于径向基前馈网络的自适应控制器

基于径向基前馈网络的自适应控制器的表达式如式(52)所示：

其中，K_pz₂+K_rsgn(z₂)的设定与PD控制器相同。径向基网络的输出：

和

的加权和用于对参数D_x，C_x和G_x的估计。其中关于径向基网络的设定如下：

对于每一个核函数S_i(Z)而言，其中心点的设置为：[-1，1]×[-1，1]×[-1，1]×[-1，1]×[-1，1]×[-1，1]×[-1，1]×[-1，1]，即中心点随机取值为1或者-1，方差设置为25。核函数的输入为：

高斯核函数的节点数为l_D＝l_C＝l_G＝2⁸。其中权值更新()中的增益矩阵和调节系数设置为：Γ_D＝Γ_C＝Γ_G＝100I_256×256，σ_D＝σ_C＝σ_G＝0.01。权值的初始值设置为0。

(3)本发明基于生物启发式网络的自适应控制器

本发明基于生物启发式网络的自适应控制器的表达式如式(15)所示。

网络的输入

循环权值和时滞权值的初始值服从均值0，方差g＝(pN_rec)的高斯分布，p是概率值。生物启发式网络的相关参数设置为：概率值p＝0.9，网络输入节点、中间循环、时滞节点和输出节点的个数分别为：N_in＝12，N_rec＝N_recd＝400，N_out＝3，时间常数τ＝0.8s，高斯噪声的方差σ_rec＝0.015，预先给定的调整因子为l_trace＝0.33。控制权值的更新增益和调节系数为：Γ_R＝3I_256×256，σ_R＝0.01。

如图3所示，为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图，从第一幅图可以看出，PD控制器由于缺少对系统不确定性的自适应估计，使得实际的轨迹明显偏离期望轨迹，其跟踪误差在一个较大的范围内进行波动；第二幅图展示了基于RBF网络的跟踪控制效果明显得到了改善，其中原有的圆弧运动在x₁₂＝0.8m处进行了截断,这意味着机械臂在碰到x₁₂＝0.8m处的障碍物时，开始沿着墙体表面滑动，然而从时间t约等于9s开始，其跟踪偏差开始变得较为明显，由于单纯的前馈网络的估计能力难以满足复杂系统的需求，可以看到控制系统在一些位置上仍然不能准确的跟踪；第三幅图为本发明方法的跟踪效果，可以看到系统能够稳定精准的跟踪期望轨迹，效果明显优于前两幅图。如图4所示，为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪误差对比图，展示了跟踪误差的波动情况，从第一幅图中可以看出PD控制下系统跟踪的误差较大；第二幅图中，偏差能够很快的收敛到零值附近。，由于外界环境中的障碍物带来阻抗的变化，系统位置误差在x₁₂处呈现周期震荡的形式，特别地在9s之后，震荡变得更加剧烈，进一步反映了静态网对复杂系统不确定性的估计能力不足；第三幅图中x₁₁和x₁₃的误差曲线能平稳的保持在零值附近，x₁₂位置处的误差也没有较大的偏离。如图5所示，为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图，分别展示了这三种控制器下，机械臂在三维空间中的运动情况。可以看到带有网络估计的自适应控制方法比PD更能体现出很好的跟踪性和安全交互性,很明显，机械臂在x₁₂＝0.8m时，轨迹表现出机械臂末端在接触到障碍物时，沿着物体的表面滑动，轨迹呈现半圆的形状。通过两种网络自适应方法的对比，可以得出基于生物启发式网络对于保证系统跟踪稳定性、同时对外界环境和系统内部不确定性的估计能力要优于前馈网络。如图6所示，为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法的位置及速度控制误差的一阶范数对比(加入时滞前和时滞后)。不难看出，加入时滞后，速度和位置误差能够很好的收敛到接近0的有界范围内，且无论是速度偏差还是位置偏差，带有时滞的网络的收敛结果都优于未加时滞的情况。

本发明第二实施例的基于生物启发式神经网络的机器人自适应阻抗控制系统，该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于生物启发式神经网络的机器人自适应阻抗控制系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。