CN111531543A - 基于生物启发式神经网络的机器人自适应阻抗控制方法 - Google Patents

基于生物启发式神经网络的机器人自适应阻抗控制方法 Download PDF

Info

Publication number
CN111531543A
CN111531543A CN202010398615.XA CN202010398615A CN111531543A CN 111531543 A CN111531543 A CN 111531543A CN 202010398615 A CN202010398615 A CN 202010398615A CN 111531543 A CN111531543 A CN 111531543A
Authority
CN
China
Prior art keywords
robot
mechanical arm
control
impedance
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010398615.XA
Other languages
English (en)
Other versions
CN111531543B (zh
Inventor
高洁
康二龙
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010398615.XA priority Critical patent/CN111531543B/zh
Publication of CN111531543A publication Critical patent/CN111531543A/zh
Application granted granted Critical
Publication of CN111531543B publication Critical patent/CN111531543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明属于机器人控制和非线性系统领域,具体涉及了一种基于生物启发式神经网络的机器人自适应阻抗控制方法,旨在解决现有技术无法实现复杂非线性系统中机器人的实时精准控制的问题。本发明包括:获取系统的初始控制力矩、期望阻抗、运动轨迹;构建含阻抗的n自由度机械臂系统的动态方程、期望阻抗模型分别获取机器人t时刻系统真实状态和期望状态;基于全状态反馈和生物启发式网络构建自适应控制器并获取t+1时刻控制力矩;循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。本发明结合生物启发式网络结构、时滞反馈,采用了奖励值调节的海扁算法以及网络估计与全状态反馈结合的结构,系统稳定、控制精度高。

Description

基于生物启发式神经网络的机器人自适应阻抗控制方法
技术领域
本发明属于机器人控制和非线性系统领域,具体涉及了一种 基于生物启发式神经网络的机器人自适应阻抗控制方法。
背景技术
阻抗控制是用于解决机器人和环境之间的安全交互问题。机 器人的阻抗控制的机器人应用领域的一个复杂问题。由于机器人结构的 复杂性,导致实际的机器人系统往往存在大量的不确定性,如严格的非 线性、未知的环境、未知系统参数等等。
针对不确定性存在的系统阻抗控制问题,传统方法主要分为 两种:反馈控制,如PID控制;预测控制,如模型控制等。PID控制器 (比例-积分-微分控制器)是一个在工业控制应用中常见的反馈回路部件, 由比例单元P、积分单元I和微分单元D组成。PID控制的基础是比例控 制;通过积分控制消除稳态误差,但可能增加超调;通过微分控制加快 大惯性系统响应速度以及减弱超调趋势。PID控制可根据测量误差反馈, 设计比例、积分微分控制增益,来降低不确定性对于控制性能的影响。 然而PID不具备在线学习和调节的能力,这使得系统控制的实时性降低。 而模型预测控制主要针对的是线性系统,通过过程模型考虑当前时刻以 后的一段时间内的过程特性,选择给定输入的未来变化规律以使得预测 响应能够更好地满足控制目标。但是对非线性系统而言,模型控制无法 取得满意的效果。后来,基于前馈神经网络的自适应控制方法得到了发 展,它是通过在线学习的方式,不断使网络的输出逼近系统的未知动态 的过程。然而前馈网络由于结构简单,难以产生较为复杂的动态特性, 因此对于实际的复杂系统而言,估计能力有所下降。另外传统训练网络 的方式是误差梯度反传,一定意义上违背了大脑的学习策略,缺少一定 的灵活性和可靠性。
总的来说,现有机器人阻抗控制方法无法实现复杂非线性系 统中机器人阻抗的实时精准控制,设计新的机器人的网络自适应控制方 法,对于提高实时控制能力具有重要意义。
发明内容
为了解决现有技术中的上述问题,即现有技术无法实现复杂 非线性系统中机器人的实时精准阻抗控制的问题,本发明提供了一种基 于生物启发式神经网络的机器人自适应阻抗控制方法,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期 望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程 以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分 别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻 机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态 以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制 系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力 矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械 臂完成运动轨迹。
在一些优选的实施例中,所述n自由度机械臂系统的动态方 程为:
Figure BDA0002488497070000031
其中,x∈Rn为机械臂末端的位置坐标;
Figure BDA0002488497070000032
Figure BDA0002488497070000033
分别为对应的 末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩 阵;
Figure BDA0002488497070000034
G(q)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵; Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
在一些优选的实施例中,所述期望阻抗模型为:
Figure BDA0002488497070000035
其中,xc为预先定义的命令轨迹,xd为完成期望交互动作的 目标轨迹,Dd、Cd、Gd分别为期望的惯性参数矩阵、科氏力矩阵、重力 矩阵。
在一些优选的实施例中,所述自适应阻抗控制器为:
Figure BDA0002488497070000036
其中,
Figure BDA0002488497070000037
为动力学信息
Figure BDA0002488497070000038
的估计值,rs(u) 表示通过生物启发式网络完成输入到系统参数的映射函数,u为输入量;
Figure BDA0002488497070000039
为期望的自适应控制权值,ζe(u)∈Rn
Figure BDA00024884970700000310
为网络估计 误差;z1=xd-x,为机械臂在笛卡尔空间的跟踪误差,xd为期望状态,x 为当前系统状态;
Figure BDA00024884970700000311
为z1=xd-x的二阶导数;
Figure BDA00024884970700000312
是为 了确保系统稳定性引入的虚拟变量,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误 差sgn(z2)对跟踪性能的影响。
在一些优选的实施例中,所述系统信息估算网络基于生物启 发式网络构建,并通过时滞神经元进行反馈,包括输入层、中间层、循 环层和时滞层。
在一些优选的实施例中,所述时滞神经元,其膜电位的动态 变化方程为:
Figure BDA0002488497070000041
其中,
Figure BDA0002488497070000042
Figure BDA0002488497070000043
分别表示第i个神经元的状态和 响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;
Figure BDA0002488497070000044
Figure BDA0002488497070000045
分别为循环权值矩阵和时滞权值矩阵;
Figure BDA0002488497070000046
代表输 入矩阵;ub(k)为外界输入;
Figure BDA0002488497070000047
为探索常数,代表均值为零、方差为
Figure BDA0002488497070000048
的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
在一些优选的实施例中,所述循环权值矩阵,其更新方法为:
Figure BDA0002488497070000049
其中,
Figure BDA00024884970700000410
为循环权值矩阵,
Figure BDA00024884970700000411
用于记录当前时刻k 下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure BDA00024884970700000412
为全 局信息的奖励值信号,
Figure BDA00024884970700000413
为全局信息的期望奖励值,η(k)为学习因子 常数。
在一些优选的实施例中,所述时滞权值矩阵,其更新方法为:
Figure BDA00024884970700000414
其中,
Figure BDA00024884970700000415
为时滞权值矩阵,
Figure BDA00024884970700000416
用于记录相邻时滞 神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure BDA00024884970700000417
为全局信息的 奖励值信号,
Figure BDA00024884970700000418
为全局信息的期望奖励值信号,η(k)为学习因子常数。
在一些优选的实施例中,所述全局信息的期望奖励信号,其 更新方法为:
Figure BDA00024884970700000419
其中,
Figure BDA00024884970700000420
为预先给定的调账因子。
本发明的另一方面,提出了一种基于生物启发式神经网络的 机器人自适应阻抗控制系统,该系统包括输入模块、模型构建模块、状 态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控 制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机 械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻 抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及 期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状 态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机 械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1 时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂 控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环 进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运 动轨迹。
本发明的第三方面,提出了一种存储装置,其中存储有多条 程序,所述程序适于由处理器加载并执行以实现上述的基于生物启发式 神经网络的机器人自适应阻抗控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存 储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多 条程序;所述程序适于由处理器加载并执行以实现上述的基于生物启发 式神经网络的机器人自适应阻抗控制方法。
本发明的有益效果:
本发明基于生物启发式神经网络的机器人自适应阻抗控制 方法,打破了传统采用前馈网络进行估计的思路,从生物脑神经连接的 结构出发,设计了一种新的生物启发式网络结构,该网络结构的特点是 内部构建大量的循环连接,并加入了时滞反馈,大大丰富网络的动态特 性。通过调节权值,更好的提高网络对于未知函数的自适应估计能力。 同时,本发明借鉴神经学当中的突触学习机制,采用了基于奖励值调节 的海扁学习算法,这是一种局部与全局信息相结合的方式,用于循环和 时滞权值的更新和调整,能够显著提高网络学习的灵活性和准确性。另 外,本发明提出了学习率自适应的策略,令学习率可以根据外界奖励信 号的指示,做出合适的调整。这样做可以充分增强权值调整对环境的鲁 棒性,并且保证了网络的全局收敛性。最后,控制采用网络估计与全状 态反馈相结合的结构,促进系统渐进稳定跟踪。本发明方法实现了非线 性系统中机器人阻抗的实时控制,控制精度高、效率高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详 细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于生物启发式神经网络的机器人自适应阻 抗控制方法的流程示意图;
图2是本发明基于生物启发式神经网络的机器人自适应阻 抗控制方法一种实施例的生物启发式网络结构示意图;
图3是本发明基于生物启发式神经网络的机器人自适应阻 抗控制方法一种实施例的三种控制器跟踪效果对比图;
图4是本发明基于生物启发式神经网络的机器人自适应阻 抗控制方法一种实施例的三种控制器跟踪误差对比图;
图5是本发明基于生物启发式神经网络的机器人自适应阻 抗控制方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图;
图6是本发明基于生物启发式神经网络的机器人自适应阻 抗控制方法一种实施例的位置及速度控制误差的一阶范数。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以 理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发 明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有 关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实 施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明 本申请。
本发明提供一种基于生物启发式神经网络的机器人自适应 阻抗控制方法,本方法设计了一种基于生物启发式网络的自适应阻抗控 制,将全状态反馈和网络未知动态估计结合在一起:首先,根据一阶跟 踪误差,利用其连续可微的性质,采用反步设计法得到相应的二阶误差 和虚拟变量,作为控制器和生物启发式网络的输入;然后,采用加权的 方式,对于网络的输出进行调节,作为控制器中对系统估计的部分;最 后,从跟踪性能和闭环稳定性的角度出发,对控制权值和增益进行在线 调整。通过状态反馈和网络估计的有效结合,使得系统存在大量参数不 确定性的情况下,依然能够实现稳态渐进的跟踪效果。
本发明的一种基于生物启发式神经网络的机器人自适应阻 抗控制方法,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期 望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程 以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分 别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻 机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态 以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制 系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制 力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人 机械臂完成运动轨迹。
为了更清晰地对本发明基于生物启发式神经网络的机器人 自适应阻抗控制方法进行说明,下面结合图1对本发明方法实施例中各 步骤展开详述。
本发明一种实施例的基于生物启发式神经网络的机器人自 适应阻抗控制方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期 望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程 以及期望阻抗模型。
n自由度机械臂系统的动态方程如式(1)所示:
Figure BDA0002488497070000081
其中,x∈Rn为机械臂末端的位置坐标;
Figure BDA0002488497070000082
Figure BDA0002488497070000083
分别为对应的 末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩 阵;
Figure BDA0002488497070000084
G(q)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵; Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
当机器人在环境中运动时,为了保证机器人与环境之间进行 安全的交互,我们需要机器人与环境之间的相互作用力Γe按照期望的设 定去发展,该期望阻抗模型如式(2)所示:
Figure BDA0002488497070000091
其中,xc为预先定义的命令轨迹,该轨迹光滑且二阶可导, 一般情况下,该命令轨迹可以通过离线的运动规划来获得,xd为利用模 型(2)得到的完成期望交互动作的目标轨迹,用于实现机器人与环境的 安全交互。Dd、Cd、Gd分别为阻抗模型(2)的惯性参数矩阵、科氏力矩 阵、重力矩阵。
当环境处于自由空间时,命令轨迹与期望轨迹重合:xc=xd, 即环境的阻抗力Γe为0。当机械臂与环境出现交互时,阻抗Γe的变化会使 得机械臂的轨迹发生改变,从而保证机器与环境之间的安全交互。
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分 别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻 机器人机械臂控制系统的真实状态以及期望状态。
将获取的预先设定的期望阻抗输入到构建的期望阻抗模型 中,可以获取机器人机械臂系统的期望状态;将获取的初始控制力矩与 期望阻抗的差输入到构建的n自由度机械臂系统的动态方程中,可以获取 机器人机械臂系统的真实状态。
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态 以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制 系统的控制力矩。
假设系统的全状态信息是已知的,首先通过反步设计法,给 出全状态反馈的控制器的设定。
定义机械臂在笛卡尔空间的跟踪误差,如式(3)所示:
z1=xd-x 式(3)
其中,xd为完成期望交互动作的目标轨迹,x为实际的机械 臂位置状态。
上述误差的二阶导数形式如式(4)所示:
Figure BDA0002488497070000101
为了确保闭环系统的稳定性,引入式(5)所示的虚拟变量:
Figure BDA0002488497070000102
其中,K1代表常数比例矩阵。
基于上述的机械臂在笛卡尔空间的跟踪误差、误差的二阶导 数、虚拟变量,构建的自适应阻抗控制器如式(6)所示:
Figure BDA0002488497070000103
其中,K1和Kp分别是具有对角结构的正的恒定增益矩阵, 分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响;阻抗Γe会 根据环境对机器人施加的外力来调整机器人的运动;D为机器人动力学中 的阻尼矩阵,C为机器人动力学中的科氏力矩阵,G为机器人动力学中的 重力矩阵。
稳定性是控制性能当中的重要指标,本发明还用李亚普诺夫 定理来验证上述控制是否能使机器人产生稳定的运动,即跟踪稳定性。
首先考虑不带有网络估计得情况,选择式(7)所示的李雅 普诺夫函数:
Figure BDA0002488497070000104
对上述的李雅普诺夫函数求导,如式(8)所示:
Figure BDA0002488497070000105
为了方便得到其导数的形式,首先将模型的动力学方程(1) 转换为如(9)所示的等价形式:
Figure BDA0002488497070000111
根据上式的结果进一步获得z1和z2的导数,如式(10)所示:
Figure BDA0002488497070000112
将式(10)的结果和式(6)定义的控制量代入到式(8)中, 进一步展开
Figure BDA0002488497070000113
可得式(11):
Figure BDA0002488497070000114
由上式可知,当K1>0,Kp>0,满足
Figure BDA0002488497070000115
说明式(6)的自 适应阻抗控制器能使机器人产生稳定的运动。
由于式(6)需要完整的动力学信息
Figure BDA0002488497070000116
这在实际 系统中是难以获得的,因此,本发明采用生物启发式网络对系统信息进 行估计,因此,网络对于系统参数的估计如式(12)所示:
Figure BDA0002488497070000117
其中,
Figure BDA0002488497070000118
为期望的自适应控制权值,f(u)表示从输入到待 估计系统参数的映射函数,并通过加权的方式来提高估计的准确性。
传统的前馈网络如径向基网络,是采用高斯核函数完成输入 到估计的映射,本发明采用生物启发式网络来拟合这一映射的过程,因 网络估计存在一定的误差,为减小误差、增加准确率,本发明考虑网络 估计误差,从而网络对于系统参数的期望估计如式(13)所示:
Figure BDA0002488497070000119
其中,ζe,i(u)∈Rn为网络估计误差,在一定的输入范围内有界
Figure BDA00024884970700001110
基于上式,在实际应用中,网络对于系统参数的实际估计如 式(14)所示:
Figure BDA0002488497070000121
从而,式(6)可调整为式(15)所示:
Figure BDA0002488497070000122
其中,
Figure BDA0002488497070000123
为动力学信息
Figure BDA0002488497070000124
的估计值,rs(u) 表示通过生物启发式网络完成输入到系统参数的映射函数,u为输入量;
Figure BDA0002488497070000125
为期望的自适应控制权值,ζe(u)∈Rn
Figure BDA0002488497070000126
为网络估计 误差;z1=xd-x,为机械臂在笛卡尔空间的跟踪误差,xd为期望状态,x 为当前系统状态;
Figure BDA0002488497070000127
为z1=xd-x的二阶导数;
Figure BDA0002488497070000128
是为 了确保系统稳定性引入的虚拟变量,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误 差sgn(z2)对跟踪性能的影响。
从控制性能和系统稳定性的角度出发,本发明对上式中的控 制权值采用式(16)所示的方法更新:
Figure BDA0002488497070000129
其中,KR,i>0为更新增益,其值的设定对整个闭环系统的稳 定性有影响;σR,i>0为小的微调常数,用来确保控制的鲁棒性。
如图2所示,为本发明基于生物启发式神经网络的机器人自 适应阻抗控制方法一种实施例的生物启发式网络结构示意图,网络具有 全连接的循环结构,另外加入了时滞神经元的反馈。该网络结构总共由 四部分构成,输入层、中间层、循环层和时滞层(Timedelay)构成,这 种结构近似于人脑神经元的连接状态。其中,中间层的神经元全部相互 连接在一起,同时,引入时滞神经元的反馈。整个神经网络采用循环递 归的方式进行神经元状态的更新,相比已有传统前馈网络,该网络能够 更好的产生类似人脑的复杂动态行为,提高对模型的估计能力。
时滞神经元,其膜电位的动态变化通过一阶差分方程模拟, 如式(17)所示:
Figure BDA0002488497070000131
其中,
Figure BDA0002488497070000132
Figure BDA0002488497070000133
分别表示第i个神经元的状态和 响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;
Figure BDA0002488497070000134
Figure BDA0002488497070000135
分别为循环权值矩阵和时滞权值矩阵;
Figure BDA0002488497070000136
代表输 入矩阵;ub(k)为外界输入;
Figure BDA0002488497070000137
为探索常数,代表均值为零、方差为
Figure BDA0002488497070000138
的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
在权值设计中,本发明采用基于奖励式的海扁学习算法,这 种方法借鉴了生物学上突触调节的思想,即相邻两个神经元的状态高度 相关时,它们之间突触的增强。另外多巴胺会根据外界环境的奖励信号, 对调节突触的学习过程。
循环权值矩阵,其更新方法如式(18)所示:
Figure BDA0002488497070000139
其中,
Figure BDA00024884970700001310
为循环权值矩阵,
Figure BDA00024884970700001311
用于记录当前时刻k 下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure BDA00024884970700001312
为 全局信息的奖励值信号,
Figure BDA00024884970700001313
为全局信息的期望奖励值,η(k)为学习因 子常数。
受多巴胺会影响信号在神经轴索上的传输速率机制的启发, 本发明对于时滞权值矩阵的更新也采取相似的方法,如式(19)所示:
Figure BDA0002488497070000141
其中,
Figure BDA0002488497070000142
为时滞权值矩阵,
Figure BDA0002488497070000143
用于记录相邻时滞 神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure BDA0002488497070000144
为全局信息 的奖励值信号,
Figure BDA0002488497070000145
为全局信息的期望奖励值信号,η(k)为学习因子常 数。
上述的循环权值矩阵和时滞权值矩阵更新过程中的期望奖 励值也采用一种时间更新的方法来提高对环境变化的适应性,如式(20) 所示:
Figure BDA0002488497070000146
其中,
Figure BDA0002488497070000147
为预先给定的调账因子。
通过上述方法,有效的时滞神经元状态被保留用于网络的更 新,而干扰或者无效的时滞神经元则会被滤除。
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力 矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械 臂完成运动轨迹。
不断基于机器人当前状态和预期状态的差距值,获取下一时 刻机器人的控制力矩,直到机器人完成设定的运动轨迹。
在系统中加入了启发式神经网络进行系统状态估计,还需要 进一步对网络估计的渐进收敛性的稳定性进行判别,本发明是通过构建 关于控制误差和控制权值偏差的李雅普诺夫泛函,得到满足系统渐进稳 定的参数条件。首先对于式(3)-式(5)描述的状态变量和在线学习机 制下式(16)的控制器式(14),假设初始条件是有界的,可以得出当 反馈增益K1>0,Kp>0和Kr=diag[krii],krii≥||ζe,i(u)||,系统实现渐进稳定的跟 踪效果,且跟踪误差会收敛到以零值中心的小邻域内:即
Figure BDA0002488497070000151
其中z1的误差上界为
Figure BDA0002488497070000152
上述系统稳定性的证明具体如下:
第一步,构建带有网络估计的李雅普诺夫泛函数,如式(21) 所示:
Figure BDA0002488497070000153
将上式代入网络估计式(14),进一步展开,可获得式(22) 所示的表达式:
Figure BDA0002488497070000154
将控制权值的更新表达式替换上式的
Figure BDA0002488497070000155
获得式(23)所 示的表达式:
Figure BDA0002488497070000156
其中,
Figure BDA0002488497070000157
Figure BDA0002488497070000158
根据
Figure BDA0002488497070000159
获得式(24)所示的表达式:
Figure BDA00024884970700001510
其中,υ=min(φ123),φ1=λmin(2K1),φ2=λmin(2Kp),
Figure RE-GDA00025242037400001511
为了确保υ中所有的元素均大于零,控制增益需满足:K1>0, Kp>0,从而使得
Figure BDA0002488497070000161
为负定函数,从而系统能使机器人产生稳定的运动。
本发明采用了生物启发式网络对系统的不确定性进行估计。 在网络的学习和训练中,我们采用了学习率自适应可调的奖励干预的海 扁学习算法,其中学习率根据奖励信号来做出相应的变化。这是为了考 虑权值在更新的过程中,依然能确保网络的全局收敛性,并提高网络对 环境的鲁棒性。
首先,假设待估计的系统是输入有界-输出有界稳定的 (BIBO),即对于零初始条件的线性时变系统,设G(t,τ)为其脉冲响应矩阵。 假设存在一个有限的常熟k,对于任意的时间t∈[t0,∞),G(t,τ)的每一个元 素gij(t,τ)都满足式(25):
Figure BDA0002488497070000162
生物启发式网络定义如式(26)所示:
Figure BDA0002488497070000163
其中,x(k)为待估计的系统的状态,也是网络的内部状态;
Figure BDA0002488497070000164
为模型误差,其二次方型有界;时间常数τ构成 矩阵A:A=diag(τ-1);
Figure BDA0002488497070000165
为网络偏差。
根据斯通-魏尔斯特拉斯(Stone-Weierstrass)定理,非线性系 统的未知部分可以写为网络的估计形式,如式(27)所示:
Figure BDA0002488497070000166
定义系统的估计误差如式(28)所示:
Figure BDA0002488497070000167
则可将式(27)转换为关于误差的动态方程,如式(29)所 示:
Figure BDA0002488497070000171
其中,
Figure BDA0002488497070000172
权值更新的学习率η(k)满足式(30):
Figure BDA0002488497070000173
当相关参数如时间常数满足
Figure BDA0002488497070000174
和预期奖励值更新的折 中因子满足
Figure BDA0002488497070000175
其估计误差能够稳定渐进的收敛。
建立关于循环权值偏差和时滞权值偏差的李雅普诺夫泛函 数,如式(31)所示:
Figure BDA0002488497070000176
其中,
Figure BDA0002488497070000177
权值更新的定义如式(32)所示:
Figure BDA0002488497070000178
根据上式可推导出式(33):
Figure BDA0002488497070000179
另外,从式(18)和(19)定义的可行迹ek
Figure BDA00024884970700001710
以及0<rk<1和
Figure BDA00024884970700001711
可以得出ek>rk,
Figure BDA00024884970700001712
则可以得到式(34):
Figure BDA0002488497070000181
下面,分两种情况进行描述:
第一种情况:τ||Rx(k+1)||≥||Rx(k)||。
从预期奖励的更新过程(20)可以得出,存在0~1之间的常数 τ和
Figure BDA0002488497070000188
则可获得式(35):
Figure BDA0002488497070000182
由式(20)可得新的期望奖励值的更新式如式(36)所示:
Figure BDA0002488497070000183
假定初始的奖励值和期望奖励值均为0,则上式可进一步推 出式(37):
Figure BDA0002488497070000184
则可获得式(38)、式(39):
Figure BDA0002488497070000185
Figure BDA0002488497070000186
根据τ||Rx(k+1)||≥||Rx(k)||可以得到:τk-i||Rx(k)||≥||Rx(i)||,将其代 入到上式中可得式(40):
Figure BDA0002488497070000187
根据范数不等式
Figure BDA0002488497070000191
进一步展开(34)可得 式(41):
Figure BDA0002488497070000192
其中,
Figure BDA0002488497070000193
将式(34)的结果代入(41),可得式(42):
Figure BDA0002488497070000194
将学习率式(30)代入上式(42),可得式(43):
Figure BDA0002488497070000195
其中,
Figure BDA0002488497070000201
Figure BDA0002488497070000202
由于
Figure BDA0002488497070000203
Figure BDA0002488497070000204
则π>0。V(k)满足式(44):
Figure BDA0002488497070000205
Figure BDA0002488497070000206
Figure BDA0002488497070000207
可以看出,关于估计误 差Rx(k)的系统李雅普诺夫泛函数V(k)满足输入-状态稳定的形式,即估计 误差能够稳定的收敛在一定的范围内。
第二种情况:τ||Rx(k+1)||<||Rx(k)||。
由式(30)可知,该情况下η=0,也就是ΔV(k)=0,即无权 值的更新发生。同时又由于
Figure RE-GDA0002524203740000206
则辨识误差Rx(k)逐渐有界, 并随着时间趋近于无穷,估计误差逐渐收敛至零。
为了进一步验证本发明设计的控制器的性能,本发明基于 MATLAB软件做了仿真,其仿真的实例如下:
首先,考虑如式(45)所示的机械臂系统状态方程:
Figure BDA0002488497070000209
其中,x1=[q1,q2,q3]和
Figure BDA00024884970700002010
分别表示关节角和相关角速 度。上式中的参数矩阵D(q),
Figure BDA00024884970700002011
Gx(q)如式(46)所示:
Figure BDA00024884970700002012
其中,Dx(q)、
Figure BDA0002488497070000211
G(q)分别如式(47)、式(48)、 (49)所示:
Figure BDA0002488497070000212
Figure BDA0002488497070000213
Figure BDA0002488497070000214
其中,
Figure BDA0002488497070000215
p2=m3l2、p3=m3l1
Figure BDA0002488497070000216
Figure BDA0002488497070000217
p8=p6+p7
Figure BDA0002488497070000218
Figure BDA0002488497070000219
假设预期轨迹定义如式(50)所示:
Figure BDA00024884970700002110
从式(42)中可以看到机械臂在自由空间中沿着圆弧进行运 动,其半径为0.2m,圆心为x=[0.2m,0.8m,0.8m]。另外,在x=0.8m处存在一 个障碍物。通过新的阻抗控制方法,使得机械臂的末端能够在接触到障 碍物时贴着障碍物表面滑动,而在其它位置可以跟踪期望轨迹。
假定机械臂的初始位置和速度分别为x(0)=[0.25m 0.6m 0.85m]T
Figure RE-GDA00025242037400002110
其中,目标阻抗的参数矩阵定义为 Dd=diag[1.0],Cd=diag[10.0],Gd=diag[60.0]。假设总共的仿真时间为20s,系统的 采样频率为100Hz。
为了更好的突出本发明方法的效果,现将本发明方法与已有 的两种控制器进行对比:
(1)PD控制器
PD控制器的表达式如式(51)所示:
ΓPD(t)=Kpz2+Krsgn(z2) 式(51)
增益分别设置为Kp=diag([101010])和Kr=diag([0.50.50.5])。为 了确保对比的公平性,我们对其他两种方法也设置相同的增益。
(2)基于径向基前馈网络的自适应控制器
基于径向基前馈网络的自适应控制器的表达式如式(52)所 示:
Figure BDA0002488497070000221
其中,Kpz2+Krsgn(z2)的设定与PD控制器相同。径向基网络 的输出:
Figure BDA0002488497070000222
Figure BDA0002488497070000223
的加权和用于对参数Dx,Cx和Gx的估计。其中 关于径向基网络的设定如下:
对于每一个核函数Si(Z)而言,其中心点的设置为: [-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1]×[-1,1],即中心点随机取值为1或者 -1,方差设置为25。核函数的输入为:
Figure BDA0002488497070000224
高斯核函 数的节点数为lD=lC=lG=28。其中权值更新()中的增益矩阵和调节系数设 置为:ΓD=ΓC=ΓG=100I256×256D=σC=σG=0.01。权值的初始值设置为0。
(3)本发明基于生物启发式网络的自适应控制器
本发明基于生物启发式网络的自适应控制器的表达式如式 (15)所示。
网络的输入
Figure BDA0002488497070000225
循环权值和时滞权值的初始值服 从均值0,方差g=(pNrec)的高斯分布,p是概率值。生物启发式网络的相 关参数设置为:概率值p=0.9,网络输入节点、中间循环、时滞节点和输 出节点的个数分别为:Nin=12,Nrec=Nrecd=400,Nout=3,时间常数τ=0.8s, 高斯噪声的方差σrec=0.015,期望奖励值的学习率为
Figure BDA0002488497070000231
控制权值的 更新增益和调节系数为:ΓR=3I256×256,σR=0.01。
如图3所示,为本发明基于生物启发式神经网络的机器人自 适应阻抗控制方法一种实施例的三种控制器跟踪效果对比图,从第一幅 图可以看出,PD控制器由于缺少对系统不确定性的自适应估计,使得实 际的轨迹明显偏离期望轨迹,其跟踪误差在一个较大的范围内进行波动; 第二幅图展示了基于RBF网络的跟踪控制效果明显得到了改善,其中原有的圆弧运动在x12=0.8m处进行了截断,这意味着机械臂在碰到x12=0.8m处 的障碍物时,开始沿着墙体表面滑动,然而从时间t约等于9s开始,其跟 踪偏差开始变得较为明显,由于单纯的前馈网络的估计能力难以满足复 杂系统的需求,可以看到控制系统在一些位置上仍然不能准确的跟踪; 第三幅图为本发明方法的跟踪效果,可以看到系统能够稳定精准的跟踪 期望轨迹,效果明显优于前两幅图。如图4所示,为本发明基于生物启发 式神经网络的机器人自适应阻抗控制方法一种实施例的三种控制器跟踪 误差对比图,展示了跟踪误差的波动情况,从第一幅图中可以看出PD控 制下系统跟踪的误差较大;第二幅图中,偏差能够很快的收敛到零值附 近。,由于外界环境中的障碍物带来阻抗的变化,系统位置误差在x12处 呈现周期震荡的形式,特别地在9s之后,震荡变得更加剧烈,进一步反映 了静态网对复杂系统不确定性的估计能力不足;第三幅图中x11和x13的误 差曲线能平稳的保持在零值附近,x12位置处的误差也没有较大的偏离。 如图5所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制 方法一种实施例的三种控制器机器人机械臂末端运动轨迹对比图,分别 展示了这三种控制器下,机械臂在三维空间中的运动情况。可以看到带 有网络估计的自适应控制方法比PD更能体现出很好的跟踪性和安全交互 性,很明显,机械臂在x12=0.8m时,轨迹表现出机械臂末端在接触到障碍 物时,沿着物体的表面滑动,轨迹呈现半圆的形状。通过两种网络自适 应方法的对比,可以得出基于生物启发式网络对于保证系统跟踪稳定性、 同时对外界环境和系统内部不确定性的估计能力要优于前馈网络。如图6 所示,为本发明基于生物启发式神经网络的机器人自适应阻抗控制方法 的位置及速度控制误差的一阶范数对比(加入时滞前和时滞后)。不难 看出,加入时滞后,速度和位置误差能够很好的收敛到接近0的有界范围 内,且无论是速度偏差还是位置偏差,带有时滞的网络的收敛结果都优 于未加时滞的情况。
本发明第二实施例的基于生物启发式神经网络的机器人自 适应阻抗控制系统,该系统包括输入模块、模型构建模块、状态获取模 块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控 制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机 械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻 抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及 期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状 态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机 械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1 时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂 控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环 进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运 动轨迹。
所属技术领域的技术人员可以清楚地了解到,为描述的方便 和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方 法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于生物启发式神经网络 的机器人自适应阻抗控制系统,仅以上述各功能模块的划分进行举例说 明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块 来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如, 上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的 模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发 明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序, 所述程序适于由处理器加载并执行以实现上述的基于生物启发式神经网 络的机器人自适应阻抗控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置; 处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序 适于由处理器加载并执行以实现上述的基于生物启发式神经网络的机器 人自适应阻抗控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便 和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明, 可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施 例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者 二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储 器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除 可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所 公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的 可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及 步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案 的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来 使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明 的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不 是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包 含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包 括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过 程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技 术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然 不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域 技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换 之后的技术方案都将落入本发明的保护范围之内。

Claims (12)

1.一种基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,该方法包括:
步骤S10,获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹;构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
步骤S20,基于控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
步骤S30,基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
步骤S40,基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动,并令t=t+1后跳转步骤S20,直至机器人机械臂完成运动轨迹。
2.根据权利要求1所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,笛卡尔空间下的n自由度机械臂系统的动态方程为:
Figure FDA0002488497060000011
其中,x∈Rn为机械臂末端的位置坐标;
Figure FDA0002488497060000012
Figure FDA0002488497060000013
分别为对应的末端速度和加速度;Γ∈Rn为控制力矩;D(q)∈Rn×n为对称且正定的惯性矩阵;
Figure FDA0002488497060000014
G(q)∈Rn分别为笛卡尔空间的科氏力矩阵以及重力矩阵;Γe∈Rn为期望阻抗,即机器人与环境之间的期望的相互作用力。
3.根据权利要求2所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述期望阻抗模型为:
Figure FDA0002488497060000021
其中,xc为预先定义的命令轨迹,xd为完成期望交互动作的目标轨迹,Dd、Cd、Gd分别为期望的惯性参数矩阵、科氏力矩阵、重力矩阵。
4.根据权利要求1所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述自适应阻抗控制器为:
Figure FDA0002488497060000022
其中,
Figure FDA0002488497060000023
为动力学信息
Figure FDA0002488497060000024
的估计值,rs(u)表示通过生物启发式网络完成输入到系统参数的映射函数,u为输入量;
Figure FDA0002488497060000025
为期望的自适应控制权值,ζe(u)∈Rn
Figure FDA0002488497060000026
为网络估计误差;z1=xd-x,为机械臂在笛卡尔空间的跟踪误差,xd为期望状态,x为当前系统状态;
Figure FDA0002488497060000027
为z1=xd-x的二阶导数;
Figure FDA0002488497060000028
是为了确保系统稳定性引入的虚拟变量,K1代表常数比例矩阵;Kp和Kr分别是具有对角结构的正的恒定增益矩阵,分别用于调控反馈误差z2和饱和误差sgn(z2)对跟踪性能的影响。
5.根据权利要求4所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述系统信息估算网络基于生物启发式网络构建,并通过时滞神经元进行反馈,包括输入层、中间层、循环层和时滞层。
6.根据权利要求5所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述时滞神经元,其膜电位的动态变化方程为:
Figure FDA0002488497060000031
其中,
Figure FDA0002488497060000032
Figure FDA0002488497060000033
分别表示第i个神经元的状态和响应值;δ(k)为随机时变的时滞项,其值满足[0,k)的均匀分布;
Figure FDA0002488497060000034
Figure FDA0002488497060000035
分别为循环权值矩阵和时滞权值矩阵;
Figure FDA0002488497060000036
代表输入矩阵;ub(k)为外界输入;
Figure FDA0002488497060000037
为探索常数,代表均值为零、方差为
Figure FDA0002488497060000038
的高斯函数;τ为时间常数;tanh()为时滞神经元的响应函数。
7.根据权利要求6所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述循环权值矩阵,其更新方法为:
Figure FDA0002488497060000039
其中,
Figure FDA00024884970600000310
为循环权值矩阵,
Figure FDA00024884970600000311
用于记录当前时刻k下的相邻神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure FDA00024884970600000312
为全局信息的奖励值信号,
Figure FDA00024884970600000313
为全局信息的期望奖励值,η(k)为学习因子常数。
8.根据权利要求6所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述时滞权值矩阵,其更新方法为:
Figure FDA00024884970600000314
其中,
Figure FDA00024884970600000315
为时滞权值矩阵,
Figure FDA00024884970600000316
用于记录相邻时滞神经元响应状态的相关性,S(x)=x1/3为单调递增函数,
Figure FDA00024884970600000317
为全局信息的奖励值信号,
Figure FDA00024884970600000318
为全局信息的期望奖励值信号,η(k)为学习因子常数。
9.根据权利要求7或8所述的基于生物启发式神经网络的机器人自适应阻抗控制方法,其特征在于,所述全局信息的期望奖励信号,其更新方法为:
Figure FDA0002488497060000041
其中,ltrace为预先给定的调账因子。
10.一种基于生物启发式神经网络的机器人自适应阻抗控制系统,其特征在于,该系统包括输入模块、模型构建模块、状态获取模块、自适应阻抗控制模块、运动控制模块、循环模块;
所述输入模块,配置为获取机器人机械臂控制系统的初始控制力矩、期望阻抗、运动轨迹并输入;
所述模型构建模块,配置为构建机器人含阻抗的n自由度机械臂系统的动态方程以及期望阻抗模型;
所述状态获取模块,配置为基于所述初始控制力矩与期望阻抗的差以及期望阻抗,分别通过所述n自由度机械臂系统的动态方程以及期望阻抗模型,获取t时刻机器人机械臂控制系统的真实状态以及期望状态;
所述自适应阻抗控制模块,配置为基于所述t时刻机器人机械臂控制系统的真实状态以及期望状态,通过自适应阻抗控制器,获取t+1时刻机器人机械臂控制系统的控制力矩;
所述运动控制模块,配置为基于所述t+1时刻机器人机械臂控制系统的控制力矩,控制机器人机械臂运动;
所述循环模块,配置为令t=t+1后跳转状态获取模块,循环进行状态获取、自适应阻抗控制、运动控制,直至机器人机械臂完成运动轨迹。
11.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-9任一项所述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
12.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-9任一项所述的基于生物启发式神经网络的机器人自适应阻抗控制方法。
CN202010398615.XA 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法 Active CN111531543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010398615.XA CN111531543B (zh) 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010398615.XA CN111531543B (zh) 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法

Publications (2)

Publication Number Publication Date
CN111531543A true CN111531543A (zh) 2020-08-14
CN111531543B CN111531543B (zh) 2021-10-08

Family

ID=71971856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010398615.XA Active CN111531543B (zh) 2020-05-12 2020-05-12 基于生物启发式神经网络的机器人自适应阻抗控制方法

Country Status (1)

Country Link
CN (1) CN111531543B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112894809A (zh) * 2021-01-18 2021-06-04 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN113894787A (zh) * 2021-10-31 2022-01-07 哈尔滨工业大学 一种用于机械臂强化学习运动规划中启发式奖励函数的设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289204A (zh) * 2011-06-03 2011-12-21 华南理工大学 基于确定学习理论的机械臂通用控制方法
CN108170028A (zh) * 2017-12-07 2018-06-15 华南理工大学 一种基于部分神经网络的机器人混沌反控制方法
CN110065070A (zh) * 2019-04-29 2019-07-30 华中科技大学 一种基于动力学模型的机器人自适应阻抗控制系统
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110977988A (zh) * 2019-12-27 2020-04-10 青岛大学 基于有限时间命令滤波的多关节机械臂阻抗控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289204A (zh) * 2011-06-03 2011-12-21 华南理工大学 基于确定学习理论的机械臂通用控制方法
CN108170028A (zh) * 2017-12-07 2018-06-15 华南理工大学 一种基于部分神经网络的机器人混沌反控制方法
CN110065070A (zh) * 2019-04-29 2019-07-30 华中科技大学 一种基于动力学模型的机器人自适应阻抗控制系统
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110977988A (zh) * 2019-12-27 2020-04-10 青岛大学 基于有限时间命令滤波的多关节机械臂阻抗控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于欣波等: ""基于扰动观测器的机器人自适应神经网络跟踪控制研究"", 《自动化学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112894809A (zh) * 2021-01-18 2021-06-04 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN112894809B (zh) * 2021-01-18 2022-08-02 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN113894787A (zh) * 2021-10-31 2022-01-07 哈尔滨工业大学 一种用于机械臂强化学习运动规划中启发式奖励函数的设计方法
CN113894787B (zh) * 2021-10-31 2022-06-14 哈尔滨工业大学 用于机械臂强化学习运动规划的启发式奖励函数设计方法

Also Published As

Publication number Publication date
CN111531543B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN110909859B (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
Precup et al. Model-free sliding mode control of nonlinear systems: Algorithms and experiments
Xu et al. Kernel-based approximate dynamic programming for real-time online learning control: An experimental study
CN111496792A (zh) 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统
Radac et al. Three-level hierarchical model-free learning approach to trajectory tracking control
CN111531543B (zh) 基于生物启发式神经网络的机器人自适应阻抗控制方法
CN112077839B (zh) 一种机械臂的运动控制方法及装置
Shou et al. Finite‐time formation control and obstacle avoidance of multi‐agent system with application
Shimansky et al. A novel model of motor learning capable of developing an optimal movement control law online from scratch
Xie et al. Adaptive fractional order PI controller design for a flexible swing arm system via enhanced virtual reference feedback tuning
Kumar et al. Lyapunov stability-based control and identification of nonlinear dynamical systems using adaptive dynamic programming
Lee et al. Automatic gain tuning method of a quad-rotor geometric attitude controller using A3C
Kumar et al. Comparative study of neural networks for control of nonlinear dynamical systems with lyapunov stability-based adaptive learning rates
Arshad et al. Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning.
Gu et al. Homography‐based uncalibrated visual servoing with neural‐network‐assisted robust filtering scheme and adaptive servo gain
Uçak et al. Adaptive stable backstepping controller based on support vector regression for nonlinear systems
Kamalapurkar Model-based reinforcement learning for online approximate optimal control
CN114474078B (zh) 机械臂的摩擦力补偿方法、装置、电子设备及存储介质
CN114378820B (zh) 一种基于安全强化学习的机器人阻抗学习方法
Roveda et al. Cartesian tasks oriented friction compensation through a reinforcement learning approach
Emaletdinova et al. Algorithms of constructing a neural network model for a dynamic object of control and adjustment of PID controller parameters
Du et al. Reformative artificial bee colony algorithm based PID controller for radar servo system
Hajipour et al. Optimized neuro observer-based sliding mode control for a nonlinear system using fuzzy static sliding surface
CN113515044A (zh) 一种轮式移动机器人的基于学习预测跟踪控制方法及装置
Köpf et al. Partner Approximating Learners (PAL): Simulation-Accelerated Learning with Explicit Partner Modeling in Multi-Agent Domains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant