CN111531543B - 基于生物启发式神经网络的机器人自适应阻抗控制方法 - Google Patents
基于生物启发式神经网络的机器人自适应阻抗控制方法 Download PDFInfo
- Publication number
- CN111531543B CN111531543B CN202010398615.XA CN202010398615A CN111531543B CN 111531543 B CN111531543 B CN 111531543B CN 202010398615 A CN202010398615 A CN 202010398615A CN 111531543 B CN111531543 B CN 111531543B
- Authority
- CN
- China
- Prior art keywords
- robot
- control
- impedance
- mechanical arm
- expected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 42
- 230000003044 adaptive effect Effects 0.000 claims abstract description 60
- 230000033001 locomotion Effects 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 26
- 210000002569 neuron Anatomy 0.000 claims description 26
- 230000003993 interaction Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000001276 controlling effect Effects 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 239000012528 membrane Substances 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 description 4
- 210000000225 synapse Anatomy 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229960003638 dopamine Drugs 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003050 axon Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明属于机器人控制和非线性系统领域,具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法,旨在解决现有技术无法实现复杂非线性系统中机器人的实时精准控制的问题。本发明包括:获取系统的初始控制力矩、期望阻抗、运动轨迹;构建含阻抗的n自由度机械臂系统的动态方程、期望阻抗模型分别获取机器人t时刻系统真实状态和期望状态;基于全状态反馈和生物启发式网络构建自适应控制器并获取t+1时刻控制力矩;循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。本发明结合生物启发式网络结构、时滞反馈,采用了奖励值调节的海扁算法以及网络估计与全状态反馈结合的结构,系统稳定、控制精度高。
Description
技术领域
本发明属于机器人控制和非线性系统领域,具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法。
背景技术
阻抗控制是用于解决机器人和环境之间的安全交互问题。机器人的阻抗控制的机器人应用领域的一个复杂问题。由于机器人结构的复杂性,导致实际的机器人系统往往存在大量的不确定性,如严格的非线性、未知的环境、未知系统参数等等。
针对不确定性存在的系统阻抗控制问题,传统方法主要分为两种:反馈控制,如PID控制;预测控制,如模型控制等。PID控制器(比例-积分-微分控制器)是一个在工业控制应用中常见的反馈回路部件,由比例单元P、积分单元I和微分单元D组成。PID控制的基础是比例控制;通过积分控制消除稳态误差,但可能增加超调;通过微分控制加快大惯性系统响应速度以及减弱超调趋势。PID控制可根据测量误差反馈,设计比例、积分微分控制增益,来降低不确定性对于控制性能的影响。然而PID不具备在线学习和调节的能力,这使得系统控制的实时性降低。而模型预测控制主要针对的是线性系统,通过过程模型考虑当前时刻以后的一段时间内的过程特性,选择给定输入的未来变化规律以使得预测响应能够更好地满足控制目标。但是对非线性系统而言,模型控制无法取得满意的效果。后来,基于前馈神经网络的自适应控制方法得到了发展,它是通过在线学习的方式,不断使网络的输出逼近系统的未知动态的过程。然而前馈网络由于结构简单,难以产生较为复杂的动态特性,因此对于实际的复杂系统而言,估计能力有所下降。另外传统训练网络的方式是误差梯度反传,一定意义上违背了大脑的学习策略,缺少一定的灵活性和可靠性。
总的来说,现有机器人阻抗控制方法无法实现复杂非线性系统中机器人阻抗的实时精准控制,设计新的机器人的网络自适应控制方法,对于提高实时控制能力具有重要意义。
发明内容
为了解决现有技术中的上述问题,即现有技术无法实现复杂非线性系统中机器人的实时精准阻抗控制的问题,本发明提供了一种基于生物启发式神经网络的机器人自适应阻抗控制方法,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
在一些优选的实施例中,所述n自由度机械臂系统的动态方程为:
其中,x∈Rn为机械臂末端的位置坐标;和分别为对应的末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩阵;G(g)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵;Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
在一些优选的实施例中,所述期望阻抗模型为:
其中,xc为预先定义的命令轨迹,xd为完成期望交互动作的目标轨迹,Dd、Cd、Gd分别为期望的惯性参数矩阵、科氏力矩阵、重力矩阵。
在一些优选的实施例中,所述自适应阻抗控制器为:
其中,为动力学信息的估计值,rs(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数,u为输入量;为期望的自适应控制权值,ζe(u)∈Rn,为网络估计误差;z1=xd(k)-x(k),为机械臂在笛卡尔空间的跟踪误差,xd(k)为系统当前时刻k下的期望状态,x(k)为系统当前时刻k下的真实状态;为z1=xd(k)-x(k)的一阶导数,的一阶导数;是为了确保系统稳定性引入的虚拟变量,为xd(k)的一阶导数,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
在一些优选的实施例中,所述系统信息估算网络基于生物启发式网络构建,并通过时滞神经元进行反馈,包括输入层、中间层、循环层和时滞层。
在一些优选的实施例中,所述时滞神经元,其膜电位的动态变化方程为:
其中,和分别表示当前时刻k下的第i个神经元的状态和响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;和分别为循环权值矩阵和时滞权值矩阵;代表输入矩阵;ub(k)为当前时刻k下的外界输入;为探索常数,代表均值为零、方差为的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
在一些优选的实施例中,所述循环权值矩阵,其更新方法为:
其中,为循环权值矩阵,用于记录当前时刻k下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,为当前时刻k下的全局信息的期望奖励值信号的转置,η(k)为学习因子常数。
在一些优选的实施例中,所述时滞权值矩阵,其更新方法为:
其中,为时滞权值矩阵,用于记录相邻时滞神经元响应状态的相关性,S(x)=x1/3为单调递增函数,为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,为当前时刻k下的全局信息的期望奖励值信号的转置,η(k)为学习因子常数。
在一些优选的实施例中,所述全局信息的期望奖励信号,其更新方法为:
本发明的另一方面,提出了一种基于生物启发式神经网络的机器人自适应阻抗控制系统,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
本发明的有益效果:
本发明基于生物启发式神经网络的机器人自适应阻抗控制方法,打破了传统采用前馈网络进行估计的思路,从生物脑神经连接的结构出发,设计了一种新的生物启发式网络结构,该网络结构的特点是内部构建大量的循环连接,并加入了时滞反馈,大大丰富网络的动态特性。通过调节权值,更好的提高网络对于未知函数的自适应估计能力。同时,本发明借鉴神经学当中的突触学习机制,采用了基于奖励值调节的海扁学习算法,这是一种局部与全局信息相结合的方式,用于循环和时滞权值的更新和调整,能够显著提高网络学习的灵活性和准确性。另外,本发明提出了学习率自适应的策略,令学习率可以根据外界奖励信号的指示,做出合适的调整。这样做可以充分增强权值调整对环境的鲁棒性,并且保证了网络的全局收敛性。最后,控制采用网络估计与全状态反馈相结合的结构,促进系统渐进稳定跟踪。本发明方法实现了非线性系统中机器人阻抗的实时控制,控制精度高、效率高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法的流程示意图;
图2是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的生物启发式网络结构示意图;
图3是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图;
图4是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪误差对比图;
图5是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图;
图6是本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的位置及速度控制误差的一阶范数。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于生物启发式神经网络的机器人自适应阻抗控制方法,本方法设计了一种基于生物启发式网络的自适应阻抗控制,将全状态反馈和网络未知动态估计结合在一起:首先,根据一阶跟踪误差,利用其连续可微的性质,采用反步设计法得到相应的二阶误差和虚拟变量,作为控制器和生物启发式网络的输入;然后,采用加权的方式,对于网络的输出进行调节,作为控制器中对系统估计的部分;最后,从跟踪性能和闭环稳定性的角度出发,对控制权值和增益进行在线调整。通过状态反馈和网络估计的有效结合,使得系统存在大量参数不确定性的情况下,依然能够实现稳态渐进的跟踪效果。
本发明的一种基于生物启发式神经网络的机器人自适应阻抗控制方法,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
为了更清晰地对本发明基于生物启发式神经网络的机器人自适应阻抗控制方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于生物启发式神经网络的机器人自适应阻抗控制方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型。
n自由度机械臂系统的动态方程如式(1)所示:
其中,x∈Rn为机械臂末端的位置坐标;和分别为对应的末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩阵;G(q)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵;Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
当机器人在环境中运动时,为了保证机器人与环境之间进行安全的交互,我们需要机器人与环境之间的相互作用力Γe按照期望的设定去发展,该期望阻抗模型如式(2)所示:
其中,xc为预先定义的命令轨迹,该轨迹光滑且二阶可导,一般情况下,该命令轨迹可以通过离线的运动规划来获得,xd为利用模型(2)得到的完成期望交互动作的目标轨迹,用于实现机器人与环境的安全交互。Dd、Cd、Gd分别为阻抗模型(2)的惯性参数矩阵、科氏力矩阵、重力矩阵。
当环境处于自由空间时,命令轨迹与期望轨迹重合:xc=xd,即环境的阻抗力Γe为0。当机械臂与环境出现交互时,阻抗Γe的变化会使得机械臂的轨迹发生改变,从而保证机器与环境之间的安全交互。
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态。
将获取的预先设定的期望阻抗输入到构建的期望阻抗模型中,可以获取机器人机械臂系统的期望状态;将获取的初始控制力矩与期望阻抗的差输入到构建的n自由度机械臂系统的动态方程中,可以获取机器人机械臂系统的真实状态。
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩。
假设系统的全状态信息是已知的,首先通过反步设计法,给出全状态反馈的控制器的设定。
定义机械臂在笛卡尔空间的跟踪误差,如式(3)所示:
z1=xd-x 式(3)
其中,xd为完成期望交互动作的目标轨迹,x为实际的机械臂位置状态。
上述误差的一阶导数形式如式(4)所示:
为了确保闭环系统的稳定性,引入式(5)所示的虚拟变量:
其中,K1代表常数比例矩阵。
基于上述的机械臂在笛卡尔空间的跟踪误差、误差的二阶导数、虚拟变量,构建的自适应阻抗控制器如式(6)所示:
其中,Kp是具有对角结构的正的恒定增益矩阵,用于调控反馈误差z2对跟踪性能的影响;阻抗Γe会根据环境对机器人施加的外力来调整机器人的运动;D为机器人动力学中的惯性参数矩阵,C为机器人动力学中的科氏力矩阵,G为机器人动力学中的重力矩阵。
稳定性是控制性能当中的重要指标,本发明还用李亚普诺夫定理来验证上述控制是否能使机器人产生稳定的运动,即跟踪稳定性。
首先考虑不带有网络估计得情况,选择式(7)所示的李雅普诺夫函数:
对上述的李雅普诺夫函数求导,如式(8)所示:
为了方便得到其导数的形式,首先将模型的动力学方程(1)转换为如(9)所示的等价形式:
根据上式的结果进一步获得z1和z2的导数,如式(10)所示:
传统的前馈网络如径向基网络,是采用高斯核函数完成输入到估计的映射,本发明采用生物启发式网络来拟合这一映射的过程,因网络估计存在一定的误差,为减小误差、增加准确率,本发明考虑网络估计误差,从而网络对于系统参数的期望估计如式(13)所示:
基于上式,在实际应用中,网络对于系统参数的实际估计如式(14)所示:
从而,式(6)可调整为式(15)所示:
其中,为动力学信息的估计值,rs(u)表示通过基于生物启发式网络构建的系统信息估算网络完成输入到系统参数的映射函数,u为输入量;为期望的自适应控制权值,ζe(u)∈Rn,为网络估计误差;z1=xd(k)-x(k),为机械臂在笛卡尔空间的跟踪误差,xd(k)为系统当前时刻k下的期望状态,x(k)为系统当前时刻k下的真实状态;为z1=xd(k)-x(k)的二阶导数,的一阶导数;是为了确保系统稳定性引入的虚拟变量,为xd(k)的一阶导数,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
从控制性能和系统稳定性的角度出发,本发明对上式中的控制权值采用式(16)所示的方法更新:
其中,KR,i>0为更新增益,其值的设定对整个闭环系统的稳定性有影响;σR,i>0为小的微调常数,用来确保控制的鲁棒性。
如图2所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的生物启发式网络结构示意图,网络具有全连接的循环结构,另外加入了时滞神经元的反馈。该网络结构总共由四部分构成,输入层、中间层、循环层和时滞层(Timedelay)构成,这种结构近似于人脑神经元的连接状态。其中,中间层的神经元全部相互连接在一起,同时,引入时滞神经元的反馈。整个神经网络采用循环递归的方式进行神经元状态的更新,相比已有传统前馈网络,该网络能够更好的产生类似人脑的复杂动态行为,提高对模型的估计能力。
时滞神经元,其膜电位的动态变化通过一阶差分方程模拟,如式(17)所示:
其中,和分别表示当前时刻k下的第i个神经元的状态和响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;和分别为循环权值矩阵和时滞权值矩阵;代表输入矩阵;ub(k)为当前时刻k下的外界输入;ζe为探索常数,代表均值为零、方差为的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
在权值设计中,本发明采用基于奖励式的海扁学习算法,这种方法借鉴了生物学上突触调节的思想,即相邻两个神经元的状态高度相关时,它们之间突触的增强。另外多巴胺会根据外界环境的奖励信号,对调节突触的学习过程。
循环权值矩阵,其更新方法如式(18)所示:
其中,为循环权值矩阵,用于记录当前时刻k下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,为当前时刻k下的全局信息的期望奖励值信号的转置,η(k)为学习因子常数。
受多巴胺会影响信号在神经轴索上的传输速率机制的启发,本发明对于时滞权值矩阵的更新也采取相似的方法,如式(19)所示:
其中,为时滞权值矩阵,用于记录相邻时滞神经元响应状态的相关性,S(x)=x1/3为单调递增函数,为当前时刻k下的全局信息的奖励值信号Rx(k)的转置,为当前时刻k下的全局信息的期望奖励值信号的转置,η(k)为学习因子常数。
上述的循环权值矩阵和时滞权值矩阵更新过程中的期望奖励值也采用一种时间更新的方法来提高对环境变化的适应性,如式(20)所示:
通过上述方法,有效的时滞神经元状态被保留用于网络的更新,而干扰或者无效的时滞神经元则会被滤除。
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
不断基于机器人当前状态和预期状态的差距值,获取下一时刻机器人的控制力矩,直到机器人完成设定的运动轨迹。
在系统中加入了启发式神经网络进行系统状态估计,还需要进一步对网络估计的渐进收敛性的稳定性进行判别,本发明是通过构建关于控制误差和控制权值偏差的李雅普诺夫泛函,得到满足系统渐进稳定的参数条件。首先对于式(3)-式(5)描述的状态变量和在线学习机制下式(16)的控制器式(14),假设初始条件是有界的,可以得出当反馈增益K1>0,Kp>0和Kr=diag[krii],krii≥||ζe,i(u)||,系统实现渐进稳定的跟踪效果,且跟踪误差会收敛到以零值中心的小邻域内:即其中z1的误差上界为
上述系统稳定性的证明具体如下:
第一步,构建带有网络估计的李雅普诺夫泛函数,如式(21)所示:
将上式代入网络估计式(14),进一步展开,可获得式(22)所示的表达式:
本发明采用了生物启发式网络对系统的不确定性进行估计。在网络的学习和训练中,我们采用了学习率自适应可调的奖励干预的海扁学习算法,其中学习率根据奖励信号来做出相应的变化。这是为了考虑权值在更新的过程中,依然能确保网络的全局收敛性,并提高网络对环境的鲁棒性。
首先,假设待估计的系统是输入有界-输出有界稳定的(BIBO),即对于零初始条件的线性时变系统,设G(t,τ)为其脉冲响应矩阵。假设存在一个有限的常熟k,对于任意的时间t∈[t0,∞),G(t,τ)的每一个元素gij(t,τ)都满足式(25):
生物启发式网络定义如式(26)所示:
其中,x(k)为待估计的系统的状态,也是网络的内部状态;
根据斯通-魏尔斯特拉斯(Stone-Weierstrass)定理,非线性系统的未知部分可以写为网络的估计形式,如式(27)所示:
定义系统的估计误差如式(28)所示:
则可将式(27)转换为关于误差的动态方程,如式(29)所示:
权值更新的学习率η(k)满足式(30):
建立关于循环权值偏差和时滞权值偏差的李雅普诺夫泛函数,如式(31)所示:
权值更新的定义如式(32)所示:
根据上式可推导出式(33):
下面,分两种情况进行描述:
第一种情况:τ||Rx(k+1)||≥||Rx(k)||。
从预期奖励的更新过程(20)可以得出,存在0~1之间的常数τ和ltrace,则可获得式(35):
由式(20)可得新的期望奖励值的更新式如式(36)所示:
假定初始的奖励值和期望奖励值均为0,则上式可进一步推出式(37):
则可获得式(38)、式(39):
根据τ||Rx(k+1)||≥||Rx(k)||可以得到:τk-i||Rx(k)||≥||Rx(i)||,将其代入到上式中可得式(40):
将式(34)的结果代入(41),可得式(42):
将学习率式(30)代入上式(42),可得式(43):
第二种情况:τ||Rx(k+1)||<||Rx(k)||。
为了进一步验证本发明设计的控制器的性能,本发明基于MATLAB软件做了仿真,其仿真的实例如下:
首先,考虑如式(45)所示的机械臂系统状态方程:
假设预期轨迹定义如式(50)所示:
从式(42)中可以看到机械臂在自由空间中沿着圆弧进行运动,其半径为0.2m,圆心为x=[0.2m,0.8m,0.8m]。另外,在x=0.8m处存在一个障碍物。通过新的阻抗控制方法,使得机械臂的末端能够在接触到障碍物时贴着障碍物表面滑动,而在其它位置可以跟踪期望轨迹。
假定机械臂的初始位置和速度分别为x(0)=[0.25m 0.6n 0.85mT,其中,目标阻抗的参数矩阵定义为Dd=diag[1.0],Cd=diag[10.0],Gd=diag[60.0]。假设总共的仿真时间为20s,系统的采样频率为100Hz。
为了更好的突出本发明方法的效果,现将本发明方法与已有的两种控制器进行对比:
(1)PD控制器
PD控制器的表达式如式(51)所示:
ΓPD(t)=Kpz2+Krsgn(z2) 式(51)
增益分别设置为Kp=diag([10 10 10])和Kr=diag([0.5 0.5 0.5])。为了确保对比的公平性,我们对其他两种方法也设置相同的增益。
(2)基于径向基前馈网络的自适应控制器
基于径向基前馈网络的自适应控制器的表达式如式(52)所示:
对于每一个核函数Si(Z)而言,其中心点的设置为:[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1],即中心点随机取值为1或者-1,方差设置为25。核函数的输入为:高斯核函数的节点数为lD=lC=lG=28。其中权值更新()中的增益矩阵和调节系数设置为:ΓD=ΓC=ΓG=100I256×256,σD=σC=σG=0.01。权值的初始值设置为0。
(3)本发明基于生物启发式网络的自适应控制器
本发明基于生物启发式网络的自适应控制器的表达式如式(15)所示。
网络的输入循环权值和时滞权值的初始值服从均值0,方差g=(pNrec)的高斯分布,p是概率值。生物启发式网络的相关参数设置为:概率值p=0.9,网络输入节点、中间循环、时滞节点和输出节点的个数分别为:Nin=12,Nrec=Nrecd=400,Nout=3,时间常数τ=0.8s,高斯噪声的方差σrec=0.015,预先给定的调整因子为ltrace=0.33。控制权值的更新增益和调节系数为:ΓR=3I256×256,σR=0.01。
如图3所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图,从第一幅图可以看出,PD控制器由于缺少对系统不确定性的自适应估计,使得实际的轨迹明显偏离期望轨迹,其跟踪误差在一个较大的范围内进行波动;第二幅图展示了基于RBF网络的跟踪控制效果明显得到了改善,其中原有的圆弧运动在x12=0.8m处进行了截断,这意味着机械臂在碰到x12=0.8m处的障碍物时,开始沿着墙体表面滑动,然而从时间t约等于9s开始,其跟踪偏差开始变得较为明显,由于单纯的前馈网络的估计能力难以满足复杂系统的需求,可以看到控制系统在一些位置上仍然不能准确的跟踪;第三幅图为本发明方法的跟踪效果,可以看到系统能够稳定精准的跟踪期望轨迹,效果明显优于前两幅图。如图4所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪误差对比图,展示了跟踪误差的波动情况,从第一幅图中可以看出PD控制下系统跟踪的误差较大;第二幅图中,偏差能够很快的收敛到零值附近。,由于外界环境中的障碍物带来阻抗的变化,系统位置误差在x12处呈现周期震荡的形式,特别地在9s之后,震荡变得更加剧烈,进一步反映了静态网对复杂系统不确定性的估计能力不足;第三幅图中x11和x13的误差曲线能平稳的保持在零值附近,x12位置处的误差也没有较大的偏离。如图5所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图,分别展示了这三种控制器下,机械臂在三维空间中的运动情况。可以看到带有网络估计的自适应控制方法比PD更能体现出很好的跟踪性和安全交互性,很明显,机械臂在x12=0.8m时,轨迹表现出机械臂末端在接触到障碍物时,沿着物体的表面滑动,轨迹呈现半圆的形状。通过两种网络自适应方法的对比,可以得出基于生物启发式网络对于保证系统跟踪稳定性、同时对外界环境和系统内部不确定性的估计能力要优于前馈网络。如图6所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法的位置及速度控制误差的一阶范数对比(加入时滞前和时滞后)。不难看出,加入时滞后,速度和位置误差能够很好的收敛到接近0的有界范围内,且无论是速度偏差还是位置偏差,带有时滞的网络的收敛结果都优于未加时滞的情况。
本发明第二实施例的基于生物启发式神经网络的机器人自适应阻抗控制系统,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于生物启发式神经网络的机器人自适应阻抗控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹;
其中,所述自适应阻抗控制器为:
4.根据权利要求1所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述系统信息估算网络基于生物启发式网络构建,并通过时滞神经元进行反馈,包括输入层、中间层、循环层和时滞层。
9.一种基于生物启发式神经网络的机器人自适应阻抗控制系统,其特征在于,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹:
其中,所述自适应阻抗控制器为:
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
11.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-8任一项所述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010398615.XA CN111531543B (zh) | 2020-05-12 | 2020-05-12 | 基于生物启发式神经网络的机器人自适应阻抗控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010398615.XA CN111531543B (zh) | 2020-05-12 | 2020-05-12 | 基于生物启发式神经网络的机器人自适应阻抗控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111531543A CN111531543A (zh) | 2020-08-14 |
CN111531543B true CN111531543B (zh) | 2021-10-08 |
Family
ID=71971856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010398615.XA Active CN111531543B (zh) | 2020-05-12 | 2020-05-12 | 基于生物启发式神经网络的机器人自适应阻抗控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111531543B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112894809B (zh) * | 2021-01-18 | 2022-08-02 | 华中科技大学 | 一种基于强化学习的阻抗控制器设计方法和系统 |
CN113894787B (zh) * | 2021-10-31 | 2022-06-14 | 哈尔滨工业大学 | 用于机械臂强化学习运动规划的启发式奖励函数设计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289204A (zh) * | 2011-06-03 | 2011-12-21 | 华南理工大学 | 基于确定学习理论的机械臂通用控制方法 |
CN108170028A (zh) * | 2017-12-07 | 2018-06-15 | 华南理工大学 | 一种基于部分神经网络的机器人混沌反控制方法 |
CN110065070A (zh) * | 2019-04-29 | 2019-07-30 | 华中科技大学 | 一种基于动力学模型的机器人自适应阻抗控制系统 |
CN110119844A (zh) * | 2019-05-08 | 2019-08-13 | 中国科学院自动化研究所 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
CN110977988A (zh) * | 2019-12-27 | 2020-04-10 | 青岛大学 | 基于有限时间命令滤波的多关节机械臂阻抗控制方法 |
-
2020
- 2020-05-12 CN CN202010398615.XA patent/CN111531543B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289204A (zh) * | 2011-06-03 | 2011-12-21 | 华南理工大学 | 基于确定学习理论的机械臂通用控制方法 |
CN108170028A (zh) * | 2017-12-07 | 2018-06-15 | 华南理工大学 | 一种基于部分神经网络的机器人混沌反控制方法 |
CN110065070A (zh) * | 2019-04-29 | 2019-07-30 | 华中科技大学 | 一种基于动力学模型的机器人自适应阻抗控制系统 |
CN110119844A (zh) * | 2019-05-08 | 2019-08-13 | 中国科学院自动化研究所 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
CN110977988A (zh) * | 2019-12-27 | 2020-04-10 | 青岛大学 | 基于有限时间命令滤波的多关节机械臂阻抗控制方法 |
Non-Patent Citations (1)
Title |
---|
"基于扰动观测器的机器人自适应神经网络跟踪控制研究";于欣波等;《自动化学报》;20190731;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111531543A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109465825B (zh) | 机械臂柔性关节的rbf神经网络自适应动态面控制方法 | |
CN110909859B (zh) | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 | |
CN111496792A (zh) | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 | |
Xu et al. | Kernel-based approximate dynamic programming for real-time online learning control: An experimental study | |
Radac et al. | Three-level hierarchical model-free learning approach to trajectory tracking control | |
CN111531543B (zh) | 基于生物启发式神经网络的机器人自适应阻抗控制方法 | |
CN112077839B (zh) | 一种机械臂的运动控制方法及装置 | |
CN114450131A (zh) | 机器人系统的无导数模型学习系统及设计 | |
CN109582030A (zh) | 一种调整无人机姿态控制中待整定参数方法及相关装置 | |
Rego et al. | Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
Morales et al. | LAMDA control approaches applied to trajectory tracking for mobile robots | |
Kumar et al. | Lyapunov stability-based control and identification of nonlinear dynamical systems using adaptive dynamic programming | |
Zhou et al. | Online sequential fuzzy dropout extreme learning machine compensate for sliding-mode control system errors of uncertain robot manipulator | |
CN113985732B (zh) | 针对飞行器系统的自适应神经网络控制方法及装置 | |
Theodorou et al. | An iterative path integral stochastic optimal control approach for learning robotic tasks | |
Kumar et al. | Comparative study of neural networks for control of nonlinear dynamical systems with lyapunov stability-based adaptive learning rates | |
Gu et al. | Homography‐based uncalibrated visual servoing with neural‐network‐assisted robust filtering scheme and adaptive servo gain | |
CN114488815B (zh) | 空空弹自抗扰控制参数整定方法、装置及电子设备 | |
CN114378820B (zh) | 一种基于安全强化学习的机器人阻抗学习方法 | |
Du et al. | Reformative artificial bee colony algorithm based PID controller for radar servo system | |
CN113515044B (zh) | 一种轮式移动机器人的基于学习预测跟踪控制方法及装置 | |
Roveda et al. | Cartesian tasks oriented friction compensation through a reinforcement learning approach | |
Emaletdinova et al. | Algorithms of constructing a neural network model for a dynamic object of control and adjustment of PID controller parameters | |
An et al. | Prediction of angular acceleration for practical realization of incremental nonlinear trajectory-tracking control for aircrafts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |