CN113352322A - 一种基于最优导纳参数的自适应人机协作控制方法 - Google Patents

一种基于最优导纳参数的自适应人机协作控制方法 Download PDF

Info

Publication number
CN113352322A
CN113352322A CN202110543512.2A CN202110543512A CN113352322A CN 113352322 A CN113352322 A CN 113352322A CN 202110543512 A CN202110543512 A CN 202110543512A CN 113352322 A CN113352322 A CN 113352322A
Authority
CN
China
Prior art keywords
robot
admittance
model
task
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110543512.2A
Other languages
English (en)
Other versions
CN113352322B (zh
Inventor
禹鑫燚
杨吴斌
吴加鑫
欧林林
罗惠珍
史栓武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110543512.2A priority Critical patent/CN113352322B/zh
Publication of CN113352322A publication Critical patent/CN113352322A/zh
Application granted granted Critical
Publication of CN113352322B publication Critical patent/CN113352322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于最优导纳参数的自适应人机协作控制方法,包括如下步骤:描述具有HRC任务的机器人动力学模型和用于机器人导纳控制的机器人导纳模型;设计基于BLF的机器人自适应约束控制器的内环;步骤3:设计基于积分强化学习的任务优化的外环;步骤4:利用积分强化学习求解LQR问题。本发明通过使用BLF考虑了机器人的运动约束,从而提高了HRC任务的安全性;然后,在面向任务的外环中获得最优导纳参数,以使任务跟踪误差和交互力最小;提出了一种基于积分强化学习的无模型方法来寻找最优导纳参数;此外,设计了基于特定任务轨迹的辅助力,保证了良好的任务跟踪。

Description

一种基于最优导纳参数的自适应人机协作控制方法
技术领域
本发明涉及人机协作任务中一种基于最有导纳参数的自适应控制方法。
背景技术
如今,机器人不仅需要完成高精度的重复性任务,还被广泛应用于修复、搬运、装配等人-机协作任务。因此,有必要开发人-机器人协作(HRC)系统,使人与机器人的优势互补。例如,人类有处理未知环境的分析能力,而机器人可以在危险的环境中不知疲倦地工作。
为了完成HRC任务,操作者需要通过安装在机器人上的力/扭矩传感器与机器人进行交互。近年来,阻抗控制和导纳控制因其鲁棒性和灵活性被广泛应用于HRC任务中。在阻抗控制方面,提出了一个阻尼-弹簧-质量模型来建立环境与机器人之间的动态关系。然后通过测量机器人的位置和适当的阻抗参数,得到机器人的输入力/转矩。导纳控制的目的是通过测量相互作用的力和适当的导纳参数来获得所需的机器人轨迹。而对于阻抗控制和导纳控制,则必须根据不同的操作人员和工作环境选择合适的模型参数。结合生物反馈策略和自适应控制策略,根据患者的肌肉活动自适应调整阻抗参数。叶伯生提出了一种基于动力学模型的机器人自适应阻抗控制系统,对机器人动力学模型进行优化,进而将优化后的动力学模型传输给阻抗控制器来实现机器人末端的力和位置的柔顺控制(叶伯生,陶婕妤,谢鹏,饶阿龙,张文彬,谢远龙,谭朝,帅思远.一种基于动力学模型的机器人自适应阻抗控制系统[P].CN110065070B,2020-09-18.)但在实际应用中,多数机器人的模型是未知的,基于模型的方法应用的场景较少。尤波等提出一种基于意图识别的人机协作系统控制方法,利用神经网络识别系统估计人的意图,使机械臂产生控制输入,该方法既减小了交互力,又改善了运动的柔顺性(尤波,焦龙,李佳钰.一种基于意图识别的人机协作系统控制方法[P].CN112276944A,2021-01-29.)但该方法未考虑机器人工作在一个安全的工作空间内,在人机协作的任务中,会存在机器人工作超出安全空间的隐患。
发明内容
本发明要克服现有技术的上述缺点,提出了一种基于最优导纳参数的自适应人机协作控制方法。
本发明首先建立了由内环和外环组成的整体控制结构。内环和外环的任务分别是机器人控制和任务优化。在此基础上,提出了一种结合障碍李雅普诺夫函数(BLF)和径向基函数神经网络(RBFNN)的机器人内环控制器,使具有未知动力学的机器人安全地表现为操作者感知的规定的机器人导纳模型。然后,在外环中获得机器人导纳模型的最优参数,以使任务跟踪误差和交互力最小。通过构建人-机器人协作系统模型,将机器人导纳模型的优化问题转化为线性二次型调节问题。该模型包含了操作员的未知动态和任务执行细节。为了放宽对系统模型的要求,采用积分强化学习的方法来解决线性二次调节问题。此外,还设计了辅助力,帮助操作者更好地完成特定的任务。与传统的控制方案相比,提高了人机协作系统的安全性能和交互性能。
本发明的一种基于最优导纳参数的自适应人机协作控制方法,具体步骤如下:
步骤1:描述具有HRC任务的机器人动力学模型和用于机器人导纳控制的导纳模型。动力学模型为:
Figure BDA0003072687690000021
q=k(x),
Figure BDA0003072687690000022
Figure BDA0003072687690000023
其中
Figure BDA0003072687690000024
分别为关节角、速度和加速度矢量。
Figure BDA0003072687690000025
分别为末端执行器位置、速度和加速度矢量。M(q)∈Rp×p为对称惯性矩阵,
Figure BDA0003072687690000026
为科氏力和向心力的矢量,G(q)∈Rp表示重力矢量,J(q)∈Rn×p为雅可比矩阵,τ∈Rp为机器人控制输入力矩,fh∈Rn为由操作者产生的相互作用力,Gh∈Rn表示人的输入力增益,κ(·)为逆运动学的解,p为机器人关节的数量,n表示笛卡尔空间中的维数。
本发明将导纳控制用于机器人与操作者的交互,导纳模型描述为:
Figure BDA0003072687690000031
其中xm是期望参考轨迹,即导纳模型和xd的输出是预定的任务轨迹,Md,Bd和Kd分别代表期望的惯性、阻尼和刚度系数。
Figure BDA0003072687690000032
是后面要设计的辅助力,对应于xm和xd的关节坐标可以表示为qm和qd
步骤2:设计基于BLF的机器人自适应约束控制器的内环;
内环设计的目的是使机器人的行为像规定的机器人导纳模型,并保持在一个安全工作空间内。不需要任务信息,只需关注于最下化规定的机器人导纳模型输出与机器人实际运动之间的跟踪误差。具体步骤如下:
步骤2-1:将节点约束设为|q|<kl,其中kl=[kl1,...,klp]为约束边界。取q1=q,
Figure BDA0003072687690000033
机器人动力学(1)可以表示为:
Figure BDA0003072687690000034
Figure BDA0003072687690000035
y=q1.
定义跟踪误差e1=q1-qm,e2=q2-α,其中,
Figure BDA0003072687690000036
Figure BDA0003072687690000037
其中,ki(i=1,…,p)是正常数,
Figure BDA0003072687690000038
代表跟踪误差的约束条件,
Figure BDA0003072687690000039
其中是由qm的最大绝对值组成的向量。对e2相对于时间求微分:
Figure BDA00030726876900000310
步骤2-2:构造一个log型BLF候选V1,如下所示:
Figure BDA00030726876900000311
对V1相对于时间求微分得到:
Figure BDA0003072687690000041
步骤2-3:设计另一个BLF候选V2
Figure BDA0003072687690000042
对V2相对于时间求微分得到:
Figure BDA0003072687690000043
根据摩尔-彭罗斯伪逆性质可以得到:
Figure BDA0003072687690000044
当e2=[0 0... 0]T时,等式(11)满足
Figure BDA0003072687690000045
因此系统渐进稳定。然而,e2=[0 0 ... 0]T的情况在实际中几乎是不可能的。
步骤2-4:对于其他情况,设计基于模型的控制器如下:
Figure BDA0003072687690000046
其中,
Figure BDA0003072687690000047
代表
Figure BDA0003072687690000048
的伪逆,K2是满足
Figure BDA0003072687690000049
的增益矩阵。将(13)代入(11)得到:
Figure BDA00030726876900000410
可见控制器(13)可以使系统稳定。另外,根据BLF的性质,误差e1i满足-kbi<e1i<kbi。因此,关节状态保持在区间|q1i|<kli
步骤2-5:将控制器(13)改写为:
Figure BDA00030726876900000411
由于在实际应用中,(1)中机器人模型总是未知的。考虑到神经网络可以逼近任何未知的连续函数,故将控制器改为上述形式。其中
Figure BDA00030726876900000412
是神经网络的输入,S(·)表示径向基函数,
Figure BDA0003072687690000051
是估计得神经网络权重,l是神经网络节点数量,
Figure BDA0003072687690000052
表示理想的
Figure BDA0003072687690000053
的近似。
Figure BDA0003072687690000054
Figure BDA0003072687690000055
之间的关系由下给出:
Figure BDA0003072687690000056
其中W*表示理想的神经网络权重,ε(Z)是近似误差。设计神经网络权值的更新规则为
Figure BDA0003072687690000057
其中
Figure BDA0003072687690000058
表示
Figure BDA0003072687690000059
的第i列,
Figure BDA00030726876900000510
是常值增益矩阵,σi是提高系统鲁棒性的一个小的正常数。
步骤2-6:给出候选BLFV3为:
Figure BDA00030726876900000511
其中
Figure BDA00030726876900000512
对V3相对时间微分并结合等式(14)-(16),可以得到:
Figure BDA00030726876900000513
进一步根据(11)的性质,我们得到:
Figure BDA00030726876900000514
其中,
Figure BDA00030726876900000515
λmin(·)和λmax(·)分别表示矩阵的极小特征值和极大特征值。所有误差信号都是半全局一致最终有界(SGUUB)。
步骤3:设计基于积分强化学习的任务优化外环:
在外环设计中,对导纳模型的参数进行优化,以使任务跟踪误差和交互力最小。为此,本发明将导纳参数优化问题转化为LQR问题,在不考虑系统模型的情况下,采用积分强化学习的方法求解。此外,需要注意的是,完全依靠操作者很难实现良好的任务跟踪。因此,设计一个名为辅助力的前馈项来协助操作者。具体步骤如下:
步骤3-1:设计系统辅助力:
当手臂执行简单任务时,定义人手臂阻抗模型为:
(Kus+Kp)fh=keed, (22)
其中Ku,Kp,ke表示不同操作者和任务的位置矩阵,ed为跟踪误差,定义为:
ed=xd-xm. (23)
Figure BDA0003072687690000061
其中
Figure BDA0003072687690000062
xd和xm分别表示特定任务轨迹和期望轨迹,式(22)可以写成:
Figure BDA0003072687690000063
将导纳模型(3)改写为如下状态空间方程:
Figure BDA0003072687690000064
Figure BDA0003072687690000065
其中,
Figure BDA0003072687690000066
Figure BDA0003072687690000067
从式(28),可以得到:
Figure BDA0003072687690000068
为了设计辅助力,假设系统式稳定的,即xm→xd。因此可以得到:
Figure BDA0003072687690000069
Figure BDA0003072687690000071
Figure BDA0003072687690000072
步骤3-2:设计最优控制器:
我们将HRC系统的性能函数定义为该系统的状态状态空间模型:
Figure BDA0003072687690000073
其中Q=diag(Qd,Qh),
Figure BDA0003072687690000077
R=RT>0。可见,性能函数优化问题可以转化为LQR问题。因此,最优控制器设计为:
Figure BDA0003072687690000074
其中P是代数黎卡提方程的解:
PA+ATP-PBR-1BTP+Q=0. (35)
矩阵R-1BTP包含了机器人导纳模型的参数和人的增益Gh。结合方程(27)和(34)可以得到
Figure BDA0003072687690000075
通过求解上式,可以得到最优导纳参数。
步骤4:利用积分强化学习求解LQR问题:
由于系统矩阵A和B中存在未知参数,用传统方法求解LQR问题比较困难。积分强化学习作为一种在线离轨算法,可以不需要系统模型的先验知识,利用在线收集的系统信息解决LQR问题。本发明采用一种基于值迭代(VI)的积分强化学习算法来估计最优控制器。导纳参数优化的具体算法如下:
步骤4-1:从允许控制策略u=KkX+e开始,其中Kk包含初始导纳参数,e为探索噪声,选择
Figure BDA0003072687690000076
设置迭代参数k,q为0。
步骤4-2:在时间间隔t∈[th-1,th],h=1,2,...内收集系统状态;
步骤4-3:收集到足够的系统状态后,用下面的贝尔曼方程求解Hk和Kk
Figure BDA0003072687690000081
其中Hk=ATPk+PkA;
步骤4-4:更新
Figure BDA0003072687690000082
其中∈k是步长;
步骤4-5:如果
Figure BDA0003072687690000083
则将Pk+1更新为P0,q更新为q+1,k更新为k+1,执行第3步,其中Bq是有界的非空集合。
步骤4-6:如果
Figure BDA0003072687690000084
其中ε是一个小的常数,使用u*=-KkX作为估计的最优策略。然后求解
Figure BDA0003072687690000085
得到估计的最优导纳参数c。否则,将Pk+1更新为
Figure BDA0003072687690000086
k更新为k+1,执行步骤3。
本发明提出了一种基于最优导纳参数的人机协作方法。建立了包括内外环在内的控制结构。设计了面向机器人的内环,使具有未知动力学的机器人表现为一个规定的导纳模型。
本发明的优点:通过使用BLF考虑了机器人的运动约束,从而提高了HRC任务的安全性;然后,在面向任务的外环中获得最优导纳参数,以使任务跟踪误差和交互力最小;提出了一种基于积分强化学习的无模型方法来寻找最优导纳参数;此外,设计了基于特定任务轨迹的辅助力,保证了良好的任务跟踪。
附图说明
图1是本发明的人机交互场景。
图2是本发明的系统控制结构。
图3是本发明的机器人内环设计图。
图4是本发明的机器人外环设计图。
图5是本发明的实验过程说明。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于最优导纳参数的自适应人机协作控制方法,具体过程如下:
步骤1:本发明使用的是Franka Emika Panda机器人。它有7个柔性关节,每个关节都有角度和扭矩传感器。设置关节1-3的最大扭矩设置为25Nm,关节4-7的最大扭矩设置为20Nm。机器人的通信频率为1000Hz。操作系统是Ubuntu 16.04,开发平台是ROS Kinetic。由于计算机的计算速度有限,我们使用如图5所示的两个ROS节点来控制机器人并进行计算。第一个节点可以计算出自适应约束控制器,并将结果传递给第二个节点。第二个节点接收来自机器人的信息,并发布控制信号来控制机器人。两个节点之间的通信频率为200Hz。
步骤2:为了验证自适应约束控制器的有效性,进行了一项没有人机协作的机器人轨迹跟踪任务。期望轨迹预先生成。将S(·)设为高斯函数。神经网络节点个数为16个,在[-1,1]区域内选择每个节点的中心。中心方差设为1.5。初始权重
Figure BDA0003072687690000091
为0。控制参数K2=diag(12,12,12,10,10,10,10)。跟踪误差约束设为kb1=4.5,kb2=4.7,kb3=4.7,kb4=2.7,kb5=2.5,kb6=2.5,kb7=2.7,k1i=3,σi=0.02,Γi=200I16×16(i=1,2...7)
步骤3:在Franka机器人上进行HRC任务。操作者手持机器人的末端执行器,在起点和终点之间进行有规律的点对点运动。末端执行器的旋转和高度是恒定的,这意味着我们只关注x方向和y方向。该自适应约束控制器的参数与之前的步骤一致。具体的任务轨迹在x方向和y方向均设置为0.106sin(0.00125πt)。随后,初始参数Md、Bd和Kd的导纳模型设置为Md=diag(5,5)、Bd=diag(7,7)和Kd=diag(3,3),增益矩阵设为Gh=diag(0.2,0.2)。将探测噪声加入到相互力中,设为
Figure BDA0003072687690000092
其中ωi∈[-10,10]。
步骤4:为了优化HRC任务的性能,设计了外环。积分强化学习参数设为Q=diag(5,5,5,5,10,10),R=I2,T=0.01s,采样时间为t=5s。取P0=0.001I6,∈k=(k+1)-1,Bq=10(q+1),ε=0.01。
本发明提出了一种基于最优导纳参数的人机协作方法。建立了包括内外环在内的控制结构。设计了面向机器人的内环,使具有未知动力学的机器人表现为一个规定的导纳模型。与以往的机器人控制方法相比,该方法通过使用BLF考虑了机器人的运动约束。从而提高了HRC任务的安全性。然后,在面向任务的外环中获得最优导纳参数,以使任务跟踪误差和交互力最小。提出了一种基于积分强化学习的无模型方法来寻找最优导纳参数。此外,设计了基于特定任务轨迹的辅助力,保证了良好的任务跟踪。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于最优导纳参数的自适应人机协作控制方法,具体步骤如下:
步骤1:描述具有HRC任务的机器人动力学模型和用于机器人导纳控制的机器人导纳模型;
机器人动力学模型为:
Figure FDA0003072687680000011
Figure FDA0003072687680000012
其中q,
Figure FDA0003072687680000013
分别为关节角、速度和加速度矢量;x,
Figure FDA0003072687680000014
分别为末端执行器位置、速度和加速度矢量;M(q)∈Rp×p为对称惯性矩阵,
Figure FDA0003072687680000015
为科氏力和向心力的矢量,G(q)∈Rp表示重力矢量,J(q)∈Rn×p为雅可比矩阵,τ∈Rp为机器人控制输入力矩,fh∈Rn为由操作者产生的相互作用力,Gh∈Rn表示人的输入力增益,κ(·)为逆运动学的解,p为机器人关节的数量,n表示笛卡尔空间中的维数;
机器人导纳模型描述为:
Figure FDA0003072687680000016
其中xm是期望参考轨迹,即机器人导纳模型和xd的输出是预定的任务轨迹,Md,Bd和Kd分别代表期望的惯性、阻尼和刚度系数;a(xd)是后面要设计的辅助力,对应于xm和xd的关节坐标可以表示为qm和qd
步骤2:设计基于BLF的机器人自适应约束控制器的内环;
内环设计的目的是使机器人的行为像规定的机器人导纳模型,并保持在一个安全工作空间内;不需要任务信息,只需关注于最下化规定的机器人导纳模型输出与机器人实际运动之间的跟踪误差;具体步骤如下:
步骤2-1:将节点约束设为|q|<kl,其中kl=[kl1,...,klp]为约束边界;取q1=q,
Figure FDA0003072687680000017
机器人动力学(1)可以表示为:
Figure FDA0003072687680000021
定义跟踪误差e1=q1-qm,e2=q2-α,其中,
Figure FDA0003072687680000022
Figure FDA0003072687680000023
其中,ki(i=1,…,p)是正常数,
Figure FDA0003072687680000024
代表跟踪误差的约束条件,
Figure FDA0003072687680000025
其中是由qm的最大绝对值组成的向量;对e2相对于时间求微分:
Figure FDA0003072687680000026
步骤2-2:构造一个log型BLF候选V1,如下所示:
Figure FDA0003072687680000027
对V1相对于时间求微分得到:
Figure FDA0003072687680000028
步骤2-3:设计另一个BLF候选V2
Figure FDA0003072687680000029
对V2相对于时间求微分得到:
Figure FDA00030726876800000210
根据摩尔-彭罗斯伪逆性质可以得到:
Figure FDA00030726876800000211
当e2=[0 0 ... 0]T时,等式(11)满足
Figure FDA00030726876800000212
因此系统渐进稳定;然而,e2=[0 0 ... 0]T的情况在实际中几乎是不可能的;
步骤2-4:对于其他情况,设计基于模型的控制器如下:
Figure FDA0003072687680000031
其中,
Figure FDA0003072687680000032
代表
Figure FDA0003072687680000033
的伪逆,K2是满足
Figure FDA0003072687680000034
的增益矩阵;将(13)代入(11)得到
Figure FDA0003072687680000035
可见控制器(13)可以使系统稳定;另外,根据BLF的性质,误差e1i满足-kbi<e1i<kbi;因此,关节状态保持在区间|q1i|<kli
步骤2-5:将控制器(13)改写为:
Figure FDA0003072687680000036
由于在实际应用中,(1)中机器人模型总是未知的;考虑到神经网络可以逼近任何未知的连续函数,故将控制器改为上述形式;其中
Figure FDA0003072687680000037
是神经网络的输入,S(·)表示径向基函数,
Figure FDA0003072687680000038
是估计得神经网络权重,l是神经网络节点数量,
Figure FDA0003072687680000039
表示理想的
Figure FDA00030726876800000310
的近似;
Figure FDA00030726876800000311
Figure FDA00030726876800000312
之间的关系由下给出:
Figure FDA00030726876800000313
其中W*表示理想的神经网络权重,ε(Z)是近似误差;设计神经网络权值的更新规则为:
Figure FDA00030726876800000314
其中
Figure FDA00030726876800000315
表示
Figure FDA00030726876800000316
的第i列,
Figure FDA00030726876800000317
是常值增益矩阵,σi是提高系统鲁棒性的一个小的正常数;
步骤2-6:给出候选BLFV3为:
Figure FDA00030726876800000318
其中
Figure FDA00030726876800000319
对V3相对时间微分并结合等式(14)-(16),可以得到:
Figure FDA00030726876800000320
进一步根据(11)的性质,得到:
Figure FDA0003072687680000041
其中,
Figure FDA0003072687680000042
λmin(·)和λmax(·)分别表示矩阵的极小特征值和极大特征值;所有误差信号都是半全局一致最终有界(SGUUB);
步骤3:设计基于积分强化学习的任务优化的外环:
在外环设计中,对导纳模型的参数进行优化,以使任务跟踪误差和交互力最小;为此,本发明将导纳参数优化问题转化为LQR问题,在不考虑系统模型的情况下,采用积分强化学习的方法求解;此外,需要注意的是,完全依靠操作者很难实现良好的任务跟踪;因此,设计一个名为辅助力的前馈项来协助操作者;具体步骤如下:
步骤3-1:设计系统辅助力:
当手臂执行简单任务时,定义人手臂阻抗模型为(Kus+Kp)fh=keed, (22)
其中Ku,Kp,ke表示不同操作者和任务的位置矩阵,ed为跟踪误差,定义为
ed=xd-xm. (23)
Figure FDA0003072687680000043
其中
Figure FDA0003072687680000044
xd和xm分别表示特定任务轨迹和期望轨迹,式(22)可以写成:
Figure FDA0003072687680000045
将导纳模型(3)改写为如下状态空间方程:
Figure FDA0003072687680000046
Figure FDA0003072687680000051
其中
Figure FDA0003072687680000052
Figure FDA0003072687680000053
从式(28),可以得到:
Figure FDA0003072687680000054
为了设计辅助力,假设系统式稳定的,即xm→xd;因此可以得到:
Figure FDA0003072687680000055
Figure FDA0003072687680000056
Figure FDA0003072687680000057
步骤3-2:设计最优控制器:
将HRC系统的性能函数定义为该系统的状态状态空间模型
Figure FDA0003072687680000058
其中Q=diag(Qd,Qh),Qd=Qd T>0,Qh=Qh T>0,R=RT>0;可见,性能函数优化问题可以转化为LQR问题;因此,最优控制器设计为
Figure FDA0003072687680000059
其中P是代数黎卡提方程的解;
PA+ATP-PBR-1BTP+Q=0. (35)
矩阵R-1BTP包含了机器人导纳模型的参数和人的增益Gh;结合方程(27)和(34)可以得到
Figure FDA00030726876800000510
通过求解式(36),可以得到最优导纳参数;
步骤4:利用积分强化学习求解LQR问题:
由于系统矩阵A和B中存在未知参数,用传统方法求解LQR问题比较困难;积分强化学习作为一种在线离轨算法,能够不需要系统模型的先验知识,利用在线收集的系统信息解决LQR问题;采用一种基于值迭代(VI)的积分强化学习算法来估计最优控制器;导纳参数优化的具体算法如下:
步骤4-1:从允许控制策略u=KkX+e开始,其中Kk包含初始导纳参数,e为探索噪声,选择P0=P0 T>0,设置迭代参数k,q为0;
步骤4-2:在时间间隔t∈[th-1,th],h=1,2,...内收集系统状态;
步骤4-3:收集到足够的系统状态后,用下面的贝尔曼方程求解Hk和Kk
Figure FDA0003072687680000061
其中Hk=ATPk+PkA
步骤4-4:更新
Figure FDA0003072687680000062
其中∈k是步长;
步骤4-5:如果
Figure FDA0003072687680000063
则将Pk+1更新为P0,q更新为q+1,k更新为k+1,执行第3步,其中Bq是有界的非空集合;
步骤4-6:如果
Figure FDA0003072687680000064
其中ε是一个小的常数,使用u*=-KkX作为估计的最优策略;然后求解
Figure FDA0003072687680000065
得到估计的最优导纳参数c;否则,将Pk+1更新为
Figure FDA0003072687680000066
k更新为k+1,执行步骤3。
CN202110543512.2A 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法 Active CN113352322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110543512.2A CN113352322B (zh) 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110543512.2A CN113352322B (zh) 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法

Publications (2)

Publication Number Publication Date
CN113352322A true CN113352322A (zh) 2021-09-07
CN113352322B CN113352322B (zh) 2022-10-04

Family

ID=77526945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110543512.2A Active CN113352322B (zh) 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法

Country Status (1)

Country Link
CN (1) CN113352322B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113954077A (zh) * 2021-11-15 2022-01-21 天津大学 带有能量优化的水下游动机械臂轨迹跟踪控制方法及装置
CN114193458A (zh) * 2022-01-25 2022-03-18 中山大学 一种基于高斯过程在线学习的机器人控制方法
CN114378820A (zh) * 2022-01-18 2022-04-22 中山大学 一种基于安全强化学习的机器人阻抗学习方法
CN114571444A (zh) * 2022-03-01 2022-06-03 中南大学 一种基于Q-learning的扒渣机器人阻抗控制方法
CN114932557A (zh) * 2022-06-24 2022-08-23 合肥工业大学 一种运动学约束下基于能量消耗的自适应导纳控制方法
CN116300966A (zh) * 2023-05-05 2023-06-23 北京科技大学 一种人机协作搬运的协作机器人控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170144304A1 (en) * 2014-09-02 2017-05-25 The Johns Hopkins University System and method for flexible human-machine collaboration
CN108227506A (zh) * 2018-02-08 2018-06-29 常州普旺科技有限公司 一种基于自适应最优化方法的机器人导纳控制系统
CN109249394A (zh) * 2018-09-27 2019-01-22 上海电气集团股份有限公司 基于导纳控制算法的机器人控制方法及系统
CN111258267A (zh) * 2020-01-17 2020-06-09 北京科技大学 一种人机协作搬运系统及其混合视触控制方法
CN112150878A (zh) * 2020-09-24 2020-12-29 陈晓明 一种人工智能生产平台及综合能力训练实训系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170144304A1 (en) * 2014-09-02 2017-05-25 The Johns Hopkins University System and method for flexible human-machine collaboration
CN106794581A (zh) * 2014-09-02 2017-05-31 约翰霍普金斯大学 用于灵活的人机协作的系统和方法
CN108227506A (zh) * 2018-02-08 2018-06-29 常州普旺科技有限公司 一种基于自适应最优化方法的机器人导纳控制系统
CN109249394A (zh) * 2018-09-27 2019-01-22 上海电气集团股份有限公司 基于导纳控制算法的机器人控制方法及系统
CN111258267A (zh) * 2020-01-17 2020-06-09 北京科技大学 一种人机协作搬运系统及其混合视触控制方法
CN112150878A (zh) * 2020-09-24 2020-12-29 陈晓明 一种人工智能生产平台及综合能力训练实训系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI HE 等: "Admittance-Based Controller Design for Physical Human–Robot Interaction in the Constrained Task Space", 《IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING》 *
ZHIJUN LI 等: "Adaptive Impedance Control of Human-Robot Cooperation Using Reinforcement Learning", 《IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS》 *
付兴 等: "基于导纳控制的喷涂机器人直接示教方法研究", 《现代制造工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113954077A (zh) * 2021-11-15 2022-01-21 天津大学 带有能量优化的水下游动机械臂轨迹跟踪控制方法及装置
CN114378820A (zh) * 2022-01-18 2022-04-22 中山大学 一种基于安全强化学习的机器人阻抗学习方法
CN114193458A (zh) * 2022-01-25 2022-03-18 中山大学 一种基于高斯过程在线学习的机器人控制方法
CN114193458B (zh) * 2022-01-25 2024-04-09 中山大学 一种基于高斯过程在线学习的机器人控制方法
CN114571444A (zh) * 2022-03-01 2022-06-03 中南大学 一种基于Q-learning的扒渣机器人阻抗控制方法
CN114932557A (zh) * 2022-06-24 2022-08-23 合肥工业大学 一种运动学约束下基于能量消耗的自适应导纳控制方法
CN116300966A (zh) * 2023-05-05 2023-06-23 北京科技大学 一种人机协作搬运的协作机器人控制方法
CN116300966B (zh) * 2023-05-05 2023-08-15 北京科技大学 一种人机协作搬运的协作机器人控制方法

Also Published As

Publication number Publication date
CN113352322B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN113352322B (zh) 一种基于最优导纳参数的自适应人机协作控制方法
Yang et al. Adaptive neural network output feedback control of uncertain underactuated systems with actuated and unactuated state constraints
He et al. Reinforcement learning control of a flexible two-link manipulator: An experimental investigation
Zhang et al. A review on model reference adaptive control of robotic manipulators
Brahmi et al. Novel adaptive impedance control for exoskeleton robot for rehabilitation using a nonlinear time-delay disturbance observer
Alandoli et al. A critical review of control techniques for flexible and rigid link manipulators
Korayem et al. Path planning algorithm in wheeled mobile manipulators based on motion of arms
Fan et al. Data-driven motion-force control scheme for redundant manipulators: A kinematic perspective
Perrusquía et al. Human-in-the-loop control using Euler angles
CN115157238A (zh) 一种多自由度机器人动力学建模和轨迹跟踪方法
Escorcia-Hernández et al. A new solution for machining with RA-PKMs: Modelling, control and experiments
Liang et al. A novel impedance control method of rubber unstacking robot dealing with unpredictable and time-variable adhesion force
Li et al. Parameter estimation and anti-sideslip line-of-sight method-based adaptive path-following controller for a multijoint snake robot
Tan et al. Toward unified adaptive teleoperation based on damping ZNN for robot manipulators with unknown kinematics
Tong et al. Neural network based visual servo control under the condition of heavy loading
Song et al. Modeling and control strategy of a haptic interactive robot based on a cable-driven parallel mechanism
Wang Fuzzy sliding mode joint impedance control for a tendon-driven robot hand performing peg-in-hole assembly
Tao et al. Optimization and control of cable tensions for hyper-redundant snake-arm robots
Yu et al. Co-carrying an object by robot in cooperation with humans using visual and force sensing
Rani et al. An optimal control approach for hybrid motion/force control of coordinated multiple nonholonomic mobile manipulators using neural network
Xu et al. Extended state observer based dynamic iterative learning for trajectory tracking control of a six-degrees-of-freedom manipulator
An et al. Fast model-free learning for controlling a quadrotor UAV with designed error trajectory
Torres-Martínez et al. Four Wheeled Humanoid Second-Order Cascade Control of Holonomic Trajectories
Yu et al. Adaptive human-robot collaboration control based on optimal admittance parameters
Wu et al. An adaptive neural network compensator for decoupling of dynamic effects of a macro-mini manipulator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant