CN111531543B - 基于生物启发式神经网络的机器人自适应阻抗控制方法 - Google Patents

基于生物启发式神经网络的机器人自适应阻抗控制方法 Download PDF

Info

Publication number
CN111531543B
CN111531543B CN202010398615.XA CN202010398615A CN111531543B CN 111531543 B CN111531543 B CN 111531543B CN 202010398615 A CN202010398615 A CN 202010398615A CN 111531543 B CN111531543 B CN 111531543B
Authority
CN
China
Prior art keywords
robot
control
impedance
mechanical arm
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010398615.XA
Other languages
English (en)
Other versions
CN111531543A (zh
Inventor
高洁
康二龙
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010398615.XA priority Critical patent/CN111531543B/zh
Publication of CN111531543A publication Critical patent/CN111531543A/zh
Application granted granted Critical
Publication of CN111531543B publication Critical patent/CN111531543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明属于机器人控制和非线性系统领域,具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法,旨在解决现有技术无法实现复杂非线性系统中机器人的实时精准控制的问题。本发明包括:获取系统的初始控制力矩、期望阻抗、运动轨迹;构建含阻抗的n自由度机械臂系统的动态方程、期望阻抗模型分别获取机器人t时刻系统真实状态和期望状态;基于全状态反馈和生物启发式网络构建自适应控制器并获取t+1时刻控制力矩;循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。本发明结合生物启发式网络结构、时滞反馈,采用了奖励值调节的海扁算法以及网络估计与全状态反馈结合的结构,系统稳定、控制精度高。

Description

基于生物启发式神经网络的机器人自适应阻抗控制方法
技术领域
本发明属于机器人控制和非线性系统领域,具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法。
背景技术
阻抗控制是用于解决机器人和环境之间的安全交互问题。机器人的阻抗控制的机器人应用领域的一个复杂问题。由于机器人结构的复杂性,导致实际的机器人系统往往存在大量的不确定性,如严格的非线性、未知的环境、未知系统参数等等。
针对不确定性存在的系统阻抗控制问题,传统方法主要分为两种:反馈控制,如PID控制;预测控制,如模型控制等。PID控制器(比例-积分-微分控制器)是一个在工业控制应用中常见的反馈回路部件,由比例单元P、积分单元I和微分单元D组成。PID控制的基础是比例控制;通过积分控制消除稳态误差,但可能增加超调;通过微分控制加快大惯性系统响应速度以及减弱超调趋势。PID控制可根据测量误差反馈,设计比例、积分微分控制增益,来降低不确定性对于控制性能的影响。然而PID不具备在线学习和调节的能力,这使得系统控制的实时性降低。而模型预测控制主要针对的是线性系统,通过过程模型考虑当前时刻以后的一段时间内的过程特性,选择给定输入的未来变化规律以使得预测响应能够更好地满足控制目标。但是对非线性系统而言,模型控制无法取得满意的效果。后来,基于前馈神经网络的自适应控制方法得到了发展,它是通过在线学习的方式,不断使网络的输出逼近系统的未知动态的过程。然而前馈网络由于结构简单,难以产生较为复杂的动态特性,因此对于实际的复杂系统而言,估计能力有所下降。另外传统训练网络的方式是误差梯度反传,一定意义上违背了大脑的学习策略,缺少一定的灵活性和可靠性。
总的来说,现有机器人阻抗控制方法无法实现复杂非线性系统中机器人阻抗的实时精准控制,设计新的机器人的网络自适应控制方法,对于提高实时控制能力具有重要意义。
发明内容
为了解决现有技术中的上述问题,即现有技术无法实现复杂非线性系统中机器人的实时精准阻抗控制的问题,本发明提供了一种基于生物启发式神经网络的机器人自适应阻抗控制方法,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
在一些优选的实施例中,所述n自由度机械臂系统的动态方程为:
Figure GDA0003233409250000031
其中,x∈Rn为机械臂末端的位置坐标;
Figure GDA0003233409250000032
Figure GDA0003233409250000033
分别为对应的末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩阵;
Figure GDA0003233409250000034
G(g)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵;Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
在一些优选的实施例中,所述期望阻抗模型为:
Figure GDA0003233409250000035
其中,xc为预先定义的命令轨迹,xd为完成期望交互动作的目标轨迹,Dd、Cd、Gd分别为期望的惯性参数矩阵、科氏力矩阵、重力矩阵。
在一些优选的实施例中,所述自适应阻抗控制器为:
Figure GDA0003233409250000036
其中,
Figure GDA0003233409250000037
为动力学信息
Figure GDA0003233409250000038
的估计值,rs(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数,u为输入量;
Figure GDA0003233409250000039
为期望的自适应控制权值,ζe(u)∈Rn
Figure GDA00032334092500000310
为网络估计误差;z1=xd(k)-x(k),为机械臂在笛卡尔空间的跟踪误差,xd(k)为系统当前时刻k下的期望状态,x(k)为系统当前时刻k下的真实状态;
Figure GDA00032334092500000311
为z1=xd(k)-x(k)的一阶导数,
Figure GDA00032334092500000312
的一阶导数;
Figure GDA00032334092500000313
是为了确保系统稳定性引入的虚拟变量,
Figure GDA00032334092500000314
为xd(k)的一阶导数,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
在一些优选的实施例中,所述系统信息估算网络基于生物启发式网络构建,并通过时滞神经元进行反馈,包括输入层、中间层、循环层和时滞层。
在一些优选的实施例中,所述时滞神经元,其膜电位的动态变化方程为:
Figure GDA0003233409250000041
其中,
Figure GDA00032334092500000418
Figure GDA00032334092500000419
分别表示当前时刻k下的第i个神经元的状态和响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;
Figure GDA0003233409250000042
Figure GDA0003233409250000043
分别为循环权值矩阵和时滞权值矩阵;
Figure GDA0003233409250000044
代表输入矩阵;ub(k)为当前时刻k下的外界输入;
Figure GDA00032334092500000420
为探索常数,代表均值为零、方差为
Figure GDA0003233409250000045
的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
在一些优选的实施例中,所述循环权值矩阵,其更新方法为:
Figure GDA0003233409250000046
其中,
Figure GDA0003233409250000047
为循环权值矩阵,
Figure GDA0003233409250000048
用于记录当前时刻k下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure GDA0003233409250000049
为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,
Figure GDA00032334092500000410
为当前时刻k下的全局信息的期望奖励值信号
Figure GDA00032334092500000411
的转置,η(k)为学习因子常数。
在一些优选的实施例中,所述时滞权值矩阵,其更新方法为:
Figure GDA00032334092500000412
其中,
Figure GDA00032334092500000413
为时滞权值矩阵,
Figure GDA00032334092500000414
用于记录相邻时滞神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure GDA00032334092500000415
为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,
Figure GDA00032334092500000416
为当前时刻k下的全局信息的期望奖励值信号
Figure GDA00032334092500000417
的转置,η(k)为学习因子常数。
在一些优选的实施例中,所述全局信息的期望奖励信号,其更新方法为:
Figure GDA0003233409250000051
其中,
Figure GDA0003233409250000052
为当前时刻k下的全局信息的期望奖励值信号,
Figure GDA0003233409250000053
为k-1时刻下的全局信息的期望奖励值信号,Rx(k)为当前时刻k下的全局信息的奖励值信号,ltrace为预先给定的调整因子。
本发明的另一方面,提出了一种基于生物启发式神经网络的机器人自适应阻抗控制系统,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
本发明的有益效果:
本发明基于生物启发式神经网络的机器人自适应阻抗控制方法,打破了传统采用前馈网络进行估计的思路,从生物脑神经连接的结构出发,设计了一种新的生物启发式网络结构,该网络结构的特点是内部构建大量的循环连接,并加入了时滞反馈,大大丰富网络的动态特性。通过调节权值,更好的提高网络对于未知函数的自适应估计能力。同时,本发明借鉴神经学当中的突触学习机制,采用了基于奖励值调节的海扁学习算法,这是一种局部与全局信息相结合的方式,用于循环和时滞权值的更新和调整,能够显著提高网络学习的灵活性和准确性。另外,本发明提出了学习率自适应的策略,令学习率可以根据外界奖励信号的指示,做出合适的调整。这样做可以充分增强权值调整对环境的鲁棒性,并且保证了网络的全局收敛性。最后,控制采用网络估计与全状态反馈相结合的结构,促进系统渐进稳定跟踪。本发明方法实现了非线性系统中机器人阻抗的实时控制,控制精度高、效率高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法的流程示意图;
图2是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的生物启发式网络结构示意图;
图3是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图;
图4是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪误差对比图;
图5是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图;
图6是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的位置及速度控制误差的一阶范数。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于生物启发式神经网络的机器人自适应阻抗控制方法,本方法设计了一种基于生物启发式网络的自适应阻抗控制,将全状态反馈和网络未知动态估计结合在一起:首先,根据一阶跟踪误差,利用其连续可微的性质,采用反步设计法得到相应的二阶误差和虚拟变量,作为控制器和生物启发式网络的输入;然后,采用加权的方式,对于网络的输出进行调节,作为控制器中对系统估计的部分;最后,从跟踪性能和闭环稳定性的角度出发,对控制权值和增益进行在线调整。通过状态反馈和网络估计的有效结合,使得系统存在大量参数不确定性的情况下,依然能够实现稳态渐进的跟踪效果。
本发明的一种基于生物启发式神经网络的机器人自适应阻抗控制方法,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
为了更清晰地对本发明基于生物启发式神经网络的机器人自适应阻抗控制方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于生物启发式神经网络的机器人自适应阻抗控制方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型。
n自由度机械臂系统的动态方程如式(1)所示:
Figure GDA0003233409250000091
其中,x∈Rn为机械臂末端的位置坐标;
Figure GDA0003233409250000092
Figure GDA0003233409250000093
分别为对应的末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩阵;
Figure GDA0003233409250000094
G(q)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵;Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
当机器人在环境中运动时,为了保证机器人与环境之间进行安全的交互,我们需要机器人与环境之间的相互作用力Γe按照期望的设定去发展,该期望阻抗模型如式(2)所示:
Figure GDA0003233409250000095
其中,xc为预先定义的命令轨迹,该轨迹光滑且二阶可导,一般情况下,该命令轨迹可以通过离线的运动规划来获得,xd为利用模型(2)得到的完成期望交互动作的目标轨迹,用于实现机器人与环境的安全交互。Dd、Cd、Gd分别为阻抗模型(2)的惯性参数矩阵、科氏力矩阵、重力矩阵。
当环境处于自由空间时,命令轨迹与期望轨迹重合:xc=xd,即环境的阻抗力Γe为0。当机械臂与环境出现交互时,阻抗Γe的变化会使得机械臂的轨迹发生改变,从而保证机器与环境之间的安全交互。
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态。
将获取的预先设定的期望阻抗输入到构建的期望阻抗模型中,可以获取机器人机械臂系统的期望状态;将获取的初始控制力矩与期望阻抗的差输入到构建的n自由度机械臂系统的动态方程中,可以获取机器人机械臂系统的真实状态。
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩。
假设系统的全状态信息是已知的,首先通过反步设计法,给出全状态反馈的控制器的设定。
定义机械臂在笛卡尔空间的跟踪误差,如式(3)所示:
z1=xd-x 式(3)
其中,xd为完成期望交互动作的目标轨迹,x为实际的机械臂位置状态。
上述误差的一阶导数形式如式(4)所示:
Figure GDA0003233409250000101
为了确保闭环系统的稳定性,引入式(5)所示的虚拟变量:
Figure GDA0003233409250000102
其中,K1代表常数比例矩阵。
基于上述的机械臂在笛卡尔空间的跟踪误差、误差的二阶导数、虚拟变量,构建的自适应阻抗控制器如式(6)所示:
Figure GDA0003233409250000103
其中,Kp是具有对角结构的正的恒定增益矩阵,用于调控反馈误差z2对跟踪性能的影响;阻抗Γe会根据环境对机器人施加的外力来调整机器人的运动;D为机器人动力学中的惯性参数矩阵,C为机器人动力学中的科氏力矩阵,G为机器人动力学中的重力矩阵。
稳定性是控制性能当中的重要指标,本发明还用李亚普诺夫定理来验证上述控制是否能使机器人产生稳定的运动,即跟踪稳定性。
首先考虑不带有网络估计得情况,选择式(7)所示的李雅普诺夫函数:
Figure GDA0003233409250000111
对上述的李雅普诺夫函数求导,如式(8)所示:
Figure GDA0003233409250000112
为了方便得到其导数的形式,首先将模型的动力学方程(1)转换为如(9)所示的等价形式:
Figure GDA0003233409250000113
根据上式的结果进一步获得z1和z2的导数,如式(10)所示:
Figure GDA0003233409250000114
将式(10)的结果和式(6)定义的控制量代入到式(8)中,进一步展开
Figure GDA0003233409250000115
可得式(11):
Figure GDA0003233409250000116
由上式可知,当K1>0,Kp>0,满足
Figure GDA0003233409250000117
说明式(6)的自适应阻抗控制器能使机器人产生稳定的运动。
由于式(6)需要完整的动力学信息
Figure GDA00032334092500001110
这在实际系统中是难以获得的,因此,本发明采用生物启发式网络对系统信息进行估计,因此,网络对于系统参数的估计如式(12)所示:
Figure GDA0003233409250000118
其中,
Figure GDA0003233409250000119
为期望的自适应控制权值,f(u)表示从输入到待估计系统参数的映射函数,并通过加权的方式来提高估计的准确性。
传统的前馈网络如径向基网络,是采用高斯核函数完成输入到估计的映射,本发明采用生物启发式网络来拟合这一映射的过程,因网络估计存在一定的误差,为减小误差、增加准确率,本发明考虑网络估计误差,从而网络对于系统参数的期望估计如式(13)所示:
Figure GDA0003233409250000121
其中,ζe,i(u)∈Rn为网络估计误差,在一定的输入范围内有界
Figure GDA0003233409250000122
基于上式,在实际应用中,网络对于系统参数的实际估计如式(14)所示:
Figure GDA0003233409250000123
从而,式(6)可调整为式(15)所示:
Figure GDA0003233409250000124
其中,
Figure GDA0003233409250000125
为动力学信息
Figure GDA0003233409250000126
的估计值,rs(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数,u为输入量;
Figure GDA0003233409250000127
为期望的自适应控制权值,ζe(u)∈Rn
Figure GDA0003233409250000128
为网络估计误差;z1=xd(k)-x(k),为机械臂在笛卡尔空间的跟踪误差,xd(k)为系统当前时刻k下的期望状态,x(k)为系统当前时刻k下的真实状态;
Figure GDA0003233409250000129
为z1=xd(k)-x(k)的二阶导数,
Figure GDA00032334092500001210
的一阶导数;
Figure GDA00032334092500001211
是为了确保系统稳定性引入的虚拟变量,
Figure GDA00032334092500001212
为xd(k)的一阶导数,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
从控制性能和系统稳定性的角度出发,本发明对上式中的控制权值采用式(16)所示的方法更新:
Figure GDA00032334092500001213
其中,KR,i>0为更新增益,其值的设定对整个闭环系统的稳定性有影响;σR,i>0为小的微调常数,用来确保控制的鲁棒性。
如图2所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的生物启发式网络结构示意图,网络具有全连接的循环结构,另外加入了时滞神经元的反馈。该网络结构总共由四部分构成,输入层、中间层、循环层和时滞层(Timedelay)构成,这种结构近似于人脑神经元的连接状态。其中,中间层的神经元全部相互连接在一起,同时,引入时滞神经元的反馈。整个神经网络采用循环递归的方式进行神经元状态的更新,相比已有传统前馈网络,该网络能够更好的产生类似人脑的复杂动态行为,提高对模型的估计能力。
时滞神经元,其膜电位的动态变化通过一阶差分方程模拟,如式(17)所示:
Figure GDA0003233409250000131
其中,
Figure GDA0003233409250000136
Figure GDA0003233409250000137
分别表示当前时刻k下的第i个神经元的状态和响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;
Figure GDA0003233409250000132
Figure GDA0003233409250000133
分别为循环权值矩阵和时滞权值矩阵;
Figure GDA0003233409250000134
代表输入矩阵;ub(k)为当前时刻k下的外界输入;ζe为探索常数,代表均值为零、方差为
Figure GDA0003233409250000135
的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
在权值设计中,本发明采用基于奖励式的海扁学习算法,这种方法借鉴了生物学上突触调节的思想,即相邻两个神经元的状态高度相关时,它们之间突触的增强。另外多巴胺会根据外界环境的奖励信号,对调节突触的学习过程。
循环权值矩阵,其更新方法如式(18)所示:
Figure GDA0003233409250000141
其中,
Figure GDA0003233409250000142
为循环权值矩阵,
Figure GDA0003233409250000143
用于记录当前时刻k下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure GDA0003233409250000144
为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,
Figure GDA0003233409250000145
为当前时刻k下的全局信息的期望奖励值信号
Figure GDA0003233409250000146
的转置,η(k)为学习因子常数。
受多巴胺会影响信号在神经轴索上的传输速率机制的启发,本发明对于时滞权值矩阵的更新也采取相似的方法,如式(19)所示:
Figure GDA0003233409250000147
其中,
Figure GDA0003233409250000148
为时滞权值矩阵,
Figure GDA0003233409250000149
用于记录相邻时滞神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure GDA00032334092500001410
为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,
Figure GDA00032334092500001411
为当前时刻k下的全局信息的期望奖励值信号
Figure GDA00032334092500001412
的转置,η(k)为学习因子常数。
上述的循环权值矩阵和时滞权值矩阵更新过程中的期望奖励值也采用一种时间更新的方法来提高对环境变化的适应性,如式(20)所示:
Figure GDA00032334092500001413
其中,
Figure GDA00032334092500001414
为当前时刻k下的全局信息的期望奖励值信号,
Figure GDA00032334092500001415
为k-1时刻下的全局信息的期望奖励值信号,Rx(k)为当前时刻k下的全局信息的奖励值信号,ltrace为预先给定的调整因子。
通过上述方法,有效的时滞神经元状态被保留用于网络的更新,而干扰或者无效的时滞神经元则会被滤除。
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
不断基于机器人当前状态和预期状态的差距值,获取下一时刻机器人的控制力矩,直到机器人完成设定的运动轨迹。
在系统中加入了启发式神经网络进行系统状态估计,还需要进一步对网络估计的渐进收敛性的稳定性进行判别,本发明是通过构建关于控制误差和控制权值偏差的李雅普诺夫泛函,得到满足系统渐进稳定的参数条件。首先对于式(3)-式(5)描述的状态变量和在线学习机制下式(16)的控制器式(14),假设初始条件是有界的,可以得出当反馈增益K1>0,Kp>0和Kr=diag[krii],krii≥||ζe,i(u)||,系统实现渐进稳定的跟踪效果,且跟踪误差会收敛到以零值中心的小邻域内:即
Figure GDA0003233409250000151
其中z1的误差上界为
Figure GDA0003233409250000152
上述系统稳定性的证明具体如下:
第一步,构建带有网络估计的李雅普诺夫泛函数,如式(21)所示:
Figure GDA0003233409250000153
将上式代入网络估计式(14),进一步展开,可获得式(22)所示的表达式:
Figure GDA0003233409250000154
将控制权值的更新表达式替换上式的
Figure GDA0003233409250000155
获得式(23)所示的表达式:
Figure GDA0003233409250000161
其中,
Figure GDA0003233409250000162
Figure GDA0003233409250000163
根据
Figure GDA0003233409250000164
获得式(24)所示的表达式:
Figure GDA0003233409250000165
其中,υ=min(φ1,φ2,φ3),φ1=λmin(2K1),φ2=λmin(2Kp),
Figure GDA0003233409250000166
Figure GDA0003233409250000167
为了确保υ中所有的元素均大于零,控制增益需满足:K1>0,Kp>0,从而使得
Figure GDA0003233409250000168
为负定函数,从而系统能使机器人产生稳定的运动。
本发明采用了生物启发式网络对系统的不确定性进行估计。在网络的学习和训练中,我们采用了学习率自适应可调的奖励干预的海扁学习算法,其中学习率根据奖励信号来做出相应的变化。这是为了考虑权值在更新的过程中,依然能确保网络的全局收敛性,并提高网络对环境的鲁棒性。
首先,假设待估计的系统是输入有界-输出有界稳定的(BIBO),即对于零初始条件的线性时变系统,设G(t,τ)为其脉冲响应矩阵。假设存在一个有限的常熟k,对于任意的时间t∈[t0,∞),G(t,τ)的每一个元素gij(t,τ)都满足式(25):
Figure GDA0003233409250000169
生物启发式网络定义如式(26)所示:
Figure GDA00032334092500001610
Figure GDA00032334092500001711
其中,x(k)为待估计的系统的状态,也是网络的内部状态;
Figure GDA0003233409250000179
为模型误差,其二次方型有界;时间常数τ构成矩阵A:A=diag(τ-1);
Figure GDA00032334092500001710
为网络偏差。
根据斯通-魏尔斯特拉斯(Stone-Weierstrass)定理,非线性系统的未知部分可以写为网络的估计形式,如式(27)所示:
Figure GDA0003233409250000171
定义系统的估计误差如式(28)所示:
Figure GDA0003233409250000172
则可将式(27)转换为关于误差的动态方程,如式(29)所示:
Figure GDA0003233409250000173
其中,
Figure GDA0003233409250000174
权值更新的学习率η(k)满足式(30):
Figure GDA0003233409250000175
当相关参数如时间常数满足
Figure GDA0003233409250000176
和预期奖励值更新的预先给定的调整因子满足
Figure GDA0003233409250000177
其估计误差能够稳定渐进的收敛。
建立关于循环权值偏差和时滞权值偏差的李雅普诺夫泛函数,如式(31)所示:
Figure GDA0003233409250000178
其中,
Figure GDA0003233409250000181
权值更新的定义如式(32)所示:
Figure GDA0003233409250000182
根据上式可推导出式(33):
Figure GDA0003233409250000183
另外,从式(18)和(19)定义的可行迹ek
Figure GDA0003233409250000184
以及0<rk<1和
Figure GDA0003233409250000185
可以得出ek>rk
Figure GDA0003233409250000186
则可以得到式(34):
Figure GDA0003233409250000187
下面,分两种情况进行描述:
第一种情况:τ||Rx(k+1)||≥||Rx(k)||。
从预期奖励的更新过程(20)可以得出,存在0~1之间的常数τ和ltrace,则可获得式(35):
Figure GDA0003233409250000188
由式(20)可得新的期望奖励值的更新式如式(36)所示:
Figure GDA0003233409250000189
假定初始的奖励值和期望奖励值均为0,则上式可进一步推出式(37):
Figure GDA0003233409250000191
则可获得式(38)、式(39):
Figure GDA0003233409250000192
Figure GDA0003233409250000193
根据τ||Rx(k+1)||≥||Rx(k)||可以得到:τk-i||Rx(k)||≥||Rx(i)||,将其代入到上式中可得式(40):
Figure GDA0003233409250000194
根据范数不等式
Figure GDA0003233409250000195
进一步展开(34)可得式(41):
Figure GDA0003233409250000196
Figure GDA0003233409250000197
Figure GDA0003233409250000201
其中,
Figure GDA0003233409250000202
Figure GDA0003233409250000203
将式(34)的结果代入(41),可得式(42):
Figure GDA0003233409250000204
将学习率式(30)代入上式(42),可得式(43):
Figure GDA0003233409250000205
Figure GDA0003233409250000206
其中,
Figure GDA0003233409250000207
Figure GDA0003233409250000208
由于
Figure GDA0003233409250000209
Figure GDA00032334092500002010
则π>0。V(k)满足式(44):
Figure GDA00032334092500002011
Figure GDA00032334092500002012
Figure GDA0003233409250000211
可以看出,关于估计误差Rx(k)的系统李雅普诺夫泛函数V(k)满足输入-状态稳定的形式,即估计误差能够稳定的收敛在一定的范围内。
第二种情况:τ||Rx(k+1)||<||Rx(k)||。
由式(30)可知,该情况下η=0,也就是ΔV(k)=0,即无权值的更新发生。同时又由于
Figure GDA0003233409250000212
则辨识误差Rx(k)逐渐有界,并随着时间趋近于无穷,估计误差逐渐收敛至零。
为了进一步验证本发明设计的控制器的性能,本发明基于MATLAB软件做了仿真,其仿真的实例如下:
首先,考虑如式(45)所示的机械臂系统状态方程:
Figure GDA0003233409250000213
其中,x1=[q1,q2,q3]和
Figure GDA0003233409250000214
分别表示关节角和相关角速度。上式中的参数矩阵D(q),
Figure GDA0003233409250000215
Gx(q)如式(46)所示:
Figure GDA0003233409250000216
其中,Dx(q)、
Figure GDA0003233409250000217
G(q)分别如式(47)、式(48)、(49)所示:
Figure GDA0003233409250000218
Figure GDA0003233409250000219
Figure GDA0003233409250000221
其中,
Figure GDA0003233409250000222
p2=m3l2、p3=m3l1
Figure GDA0003233409250000223
Figure GDA0003233409250000224
Figure GDA0003233409250000225
Figure GDA0003233409250000226
p8=p6+p7
Figure GDA0003233409250000227
Figure GDA0003233409250000228
Figure GDA0003233409250000229
假设预期轨迹定义如式(50)所示:
Figure GDA00032334092500002210
从式(42)中可以看到机械臂在自由空间中沿着圆弧进行运动,其半径为0.2m,圆心为x=[0.2m,0.8m,0.8m]。另外,在x=0.8m处存在一个障碍物。通过新的阻抗控制方法,使得机械臂的末端能够在接触到障碍物时贴着障碍物表面滑动,而在其它位置可以跟踪期望轨迹。
假定机械臂的初始位置和速度分别为x(0)=[0.25m 0.6n 0.85mT
Figure GDA00032334092500002211
其中,目标阻抗的参数矩阵定义为Dd=diag[1.0],Cd=diag[10.0],Gd=diag[60.0]。假设总共的仿真时间为20s,系统的采样频率为100Hz。
为了更好的突出本发明方法的效果,现将本发明方法与已有的两种控制器进行对比:
(1)PD控制器
PD控制器的表达式如式(51)所示:
ΓPD(t)=Kpz2+Krsgn(z2) 式(51)
增益分别设置为Kp=diag([10 10 10])和Kr=diag([0.5 0.5 0.5])。为了确保对比的公平性,我们对其他两种方法也设置相同的增益。
(2)基于径向基前馈网络的自适应控制器
基于径向基前馈网络的自适应控制器的表达式如式(52)所示:
Figure GDA0003233409250000235
Figure GDA0003233409250000236
其中,Kpz2+Krsgn(z2)的设定与PD控制器相同。径向基网络的输出:
Figure GDA0003233409250000231
Figure GDA0003233409250000232
的加权和用于对参数Dx,Cx和Gx的估计。其中关于径向基网络的设定如下:
对于每一个核函数Si(Z)而言,其中心点的设置为:[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1],即中心点随机取值为1或者-1,方差设置为25。核函数的输入为:
Figure GDA0003233409250000233
高斯核函数的节点数为lD=lC=lG=28。其中权值更新()中的增益矩阵和调节系数设置为:ΓD=ΓC=ΓG=100I256×256,σD=σC=σG=0.01。权值的初始值设置为0。
(3)本发明基于生物启发式网络的自适应控制器
本发明基于生物启发式网络的自适应控制器的表达式如式(15)所示。
网络的输入
Figure GDA0003233409250000234
循环权值和时滞权值的初始值服从均值0,方差g=(pNrec)的高斯分布,p是概率值。生物启发式网络的相关参数设置为:概率值p=0.9,网络输入节点、中间循环、时滞节点和输出节点的个数分别为:Nin=12,Nrec=Nrecd=400,Nout=3,时间常数τ=0.8s,高斯噪声的方差σrec=0.015,预先给定的调整因子为ltrace=0.33。控制权值的更新增益和调节系数为:ΓR=3I256×256,σR=0.01。
如图3所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图,从第一幅图可以看出,PD控制器由于缺少对系统不确定性的自适应估计,使得实际的轨迹明显偏离期望轨迹,其跟踪误差在一个较大的范围内进行波动;第二幅图展示了基于RBF网络的跟踪控制效果明显得到了改善,其中原有的圆弧运动在x12=0.8m处进行了截断,这意味着机械臂在碰到x12=0.8m处的障碍物时,开始沿着墙体表面滑动,然而从时间t约等于9s开始,其跟踪偏差开始变得较为明显,由于单纯的前馈网络的估计能力难以满足复杂系统的需求,可以看到控制系统在一些位置上仍然不能准确的跟踪;第三幅图为本发明方法的跟踪效果,可以看到系统能够稳定精准的跟踪期望轨迹,效果明显优于前两幅图。如图4所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪误差对比图,展示了跟踪误差的波动情况,从第一幅图中可以看出PD控制下系统跟踪的误差较大;第二幅图中,偏差能够很快的收敛到零值附近。,由于外界环境中的障碍物带来阻抗的变化,系统位置误差在x12处呈现周期震荡的形式,特别地在9s之后,震荡变得更加剧烈,进一步反映了静态网对复杂系统不确定性的估计能力不足;第三幅图中x11和x13的误差曲线能平稳的保持在零值附近,x12位置处的误差也没有较大的偏离。如图5所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图,分别展示了这三种控制器下,机械臂在三维空间中的运动情况。可以看到带有网络估计的自适应控制方法比PD更能体现出很好的跟踪性和安全交互性,很明显,机械臂在x12=0.8m时,轨迹表现出机械臂末端在接触到障碍物时,沿着物体的表面滑动,轨迹呈现半圆的形状。通过两种网络自适应方法的对比,可以得出基于生物启发式网络对于保证系统跟踪稳定性、同时对外界环境和系统内部不确定性的估计能力要优于前馈网络。如图6所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法的位置及速度控制误差的一阶范数对比(加入时滞前和时滞后)。不难看出,加入时滞后,速度和位置误差能够很好的收敛到接近0的有界范围内,且无论是速度偏差还是位置偏差,带有时滞的网络的收敛结果都优于未加时滞的情况。
本发明第二实施例的基于生物启发式神经网络的机器人自适应阻抗控制系统,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于生物启发式神经网络的机器人自适应阻抗控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (11)

1.一种基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹;
其中,所述自适应阻抗控制器为:
Figure FDA0003233409240000011
其中,
Figure FDA0003233409240000012
为动力学信息
Figure FDA0003233409240000013
的估计值,rs(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数,u为输入量;
Figure FDA0003233409240000014
为期望的自适应控制权值,ζe(u)∈Rn
Figure FDA0003233409240000015
为网络估计误差;z1=xd(k)-x(k),为机械臂在笛卡尔空间的跟踪误差,xd(k)为系统当前时刻k下的期望状态,x(k)为系统当前时刻k下的真实状态;
Figure FDA0003233409240000016
为z1=xd(k)-x(k)的一阶导数,
Figure FDA0003233409240000017
为x(k)的一阶导数;
Figure FDA0003233409240000018
是为了确保系统稳定性引入的虚拟变量,
Figure FDA0003233409240000021
为xd(k)的一阶导数,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
2.根据权利要求1所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,笛卡尔空间下的n自由度机械臂系统的动态方程为:
Figure FDA0003233409240000022
其中,x∈Rn为机械臂末端的位置坐标;
Figure FDA0003233409240000023
Figure FDA0003233409240000024
分别为对应的末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩阵;
Figure FDA0003233409240000025
G(q)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵;Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
3.根据权利要求2所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述期望阻抗模型为:
Figure FDA0003233409240000026
其中,xc为预先定义的命令轨迹,xd为完成期望交互动作的目标轨迹,Dd、Cd、Gd分别为期望的惯性参数矩阵、科氏力矩阵、重力矩阵。
4.根据权利要求1所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述系统信息估算网络基于生物启发式网络构建,并通过时滞神经元进行反馈,包括输入层、中间层、循环层和时滞层。
5.根据权利要求4所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述时滞神经元,其膜电位的动态变化方程为:
Figure FDA0003233409240000031
其中,
Figure FDA0003233409240000032
Figure FDA0003233409240000033
分别表示当前时刻k下的第i个神经元的状态和响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;
Figure FDA0003233409240000034
Figure FDA0003233409240000035
分别为循环权值矩阵和时滞权值矩阵;
Figure FDA0003233409240000036
代表输入矩阵;ub(k)为当前时刻k下的外界输入;
Figure FDA0003233409240000037
为探索常数,代表均值为零、方差为
Figure FDA0003233409240000038
的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
6.根据权利要求5所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述循环权值矩阵,其更新方法为:
Figure FDA0003233409240000039
其中,
Figure FDA00032334092400000310
为循环权值矩阵,
Figure FDA00032334092400000311
用于记录当前时刻k下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure FDA00032334092400000312
为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,
Figure FDA00032334092400000313
为当前时刻k下的全局信息的期望奖励值信号
Figure FDA00032334092400000314
的转置,η(k)为学习因子常数。
7.根据权利要求5所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述时滞权值矩阵,其更新方法为:
Figure FDA00032334092400000315
其中,
Figure FDA00032334092400000316
为时滞权值矩阵,
Figure FDA00032334092400000317
用于记录相邻时滞神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure FDA0003233409240000041
为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,
Figure FDA0003233409240000042
为当前时刻k下的全局信息的期望奖励值信号
Figure FDA0003233409240000043
的转置,η(k)为学习因子常数。
8.根据权利要求6或7所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述全局信息的期望奖励值信号,其更新方法为:
Figure FDA0003233409240000044
其中,
Figure FDA0003233409240000045
为当前时刻k下的全局信息的期望奖励值信号,
Figure FDA0003233409240000046
为k-1时刻下的全局信息的期望奖励值信号,Rx(k)为当前时刻k下的全局信息的奖励值信号,ltrace为预先给定的调整因子。
9.一种基于生物启发式神经网络的机器人自适应阻抗控制系统,其特征在于,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹:
其中,所述自适应阻抗控制器为:
Figure FDA0003233409240000051
其中,
Figure FDA0003233409240000052
为动力学信息
Figure FDA0003233409240000053
的估计值,rs(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数,u为输入量;
Figure FDA0003233409240000054
为期望的自适应控制权值,ζe(u)∈Rn
Figure FDA0003233409240000055
为网络估计误差;z1=xd(k)-x(k),为机械臂在笛卡尔空间的跟踪误差,xd(k)为系统当前时刻k下的期望状态,x(k)为系统当前时刻k下的真实状态;
Figure FDA0003233409240000056
为z1=xd(k)-x(k)的一阶导数,
Figure FDA0003233409240000057
为x(k)的一阶导数;
Figure FDA0003233409240000058
是为了确保系统稳定性引入的虚拟变量,
Figure FDA0003233409240000059
为xd(k)的一阶导数,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
11.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-8任一项所述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
CN202010398615.XA 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法 Active CN111531543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010398615.XA CN111531543B (zh) 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010398615.XA CN111531543B (zh) 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法

Publications (2)

Publication Number Publication Date
CN111531543A CN111531543A (zh) 2020-08-14
CN111531543B true CN111531543B (zh) 2021-10-08

Family

ID=71971856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010398615.XA Active CN111531543B (zh) 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法

Country Status (1)

Country Link
CN (1) CN111531543B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112894809B (zh) * 2021-01-18 2022-08-02 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN113894787B (zh) * 2021-10-31 2022-06-14 哈尔滨工业大学 用于机械臂强化学习运动规划的启发式奖励函数设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289204A (zh) * 2011-06-03 2011-12-21 华南理工大学 基于确定学习理论的机械臂通用控制方法
CN108170028A (zh) * 2017-12-07 2018-06-15 华南理工大学 一种基于部分神经网络的机器人混沌反控制方法
CN110065070A (zh) * 2019-04-29 2019-07-30 华中科技大学 一种基于动力学模型的机器人自适应阻抗控制系统
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110977988A (zh) * 2019-12-27 2020-04-10 青岛大学 基于有限时间命令滤波的多关节机械臂阻抗控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289204A (zh) * 2011-06-03 2011-12-21 华南理工大学 基于确定学习理论的机械臂通用控制方法
CN108170028A (zh) * 2017-12-07 2018-06-15 华南理工大学 一种基于部分神经网络的机器人混沌反控制方法
CN110065070A (zh) * 2019-04-29 2019-07-30 华中科技大学 一种基于动力学模型的机器人自适应阻抗控制系统
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110977988A (zh) * 2019-12-27 2020-04-10 青岛大学 基于有限时间命令滤波的多关节机械臂阻抗控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于扰动观测器的机器人自适应神经网络跟踪控制研究";于欣波等;《自动化学报》;20190731;全文 *

Also Published As

Publication number Publication date
CN111531543A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN109465825B (zh) 机械臂柔性关节的rbf神经网络自适应动态面控制方法
CN110909859B (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111496792A (zh) 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统
Xu et al. Kernel-based approximate dynamic programming for real-time online learning control: An experimental study
Radac et al. Three-level hierarchical model-free learning approach to trajectory tracking control
CN111531543B (zh) 基于生物启发式神经网络的机器人自适应阻抗控制方法
CN112077839B (zh) 一种机械臂的运动控制方法及装置
CN114450131A (zh) 机器人系统的无导数模型学习系统及设计
CN109582030A (zh) 一种调整无人机姿态控制中待整定参数方法及相关装置
Rego et al. Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems
CN109062040B (zh) 基于系统嵌套优化的预测pid方法
Morales et al. LAMDA control approaches applied to trajectory tracking for mobile robots
Kumar et al. Lyapunov stability-based control and identification of nonlinear dynamical systems using adaptive dynamic programming
Zhou et al. Online sequential fuzzy dropout extreme learning machine compensate for sliding-mode control system errors of uncertain robot manipulator
CN113985732B (zh) 针对飞行器系统的自适应神经网络控制方法及装置
Theodorou et al. An iterative path integral stochastic optimal control approach for learning robotic tasks
Kumar et al. Comparative study of neural networks for control of nonlinear dynamical systems with lyapunov stability-based adaptive learning rates
Gu et al. Homography‐based uncalibrated visual servoing with neural‐network‐assisted robust filtering scheme and adaptive servo gain
CN114488815B (zh) 空空弹自抗扰控制参数整定方法、装置及电子设备
CN114378820B (zh) 一种基于安全强化学习的机器人阻抗学习方法
Du et al. Reformative artificial bee colony algorithm based PID controller for radar servo system
CN113515044B (zh) 一种轮式移动机器人的基于学习预测跟踪控制方法及装置
Roveda et al. Cartesian tasks oriented friction compensation through a reinforcement learning approach
Emaletdinova et al. Algorithms of constructing a neural network model for a dynamic object of control and adjustment of PID controller parameters
An et al. Prediction of angular acceleration for practical realization of incremental nonlinear trajectory-tracking control for aircrafts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant