CN113352322B - 一种基于最优导纳参数的自适应人机协作控制方法 - Google Patents

一种基于最优导纳参数的自适应人机协作控制方法 Download PDF

Info

Publication number
CN113352322B
CN113352322B CN202110543512.2A CN202110543512A CN113352322B CN 113352322 B CN113352322 B CN 113352322B CN 202110543512 A CN202110543512 A CN 202110543512A CN 113352322 B CN113352322 B CN 113352322B
Authority
CN
China
Prior art keywords
robot
admittance
model
task
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110543512.2A
Other languages
English (en)
Other versions
CN113352322A (zh
Inventor
禹鑫燚
杨吴斌
吴加鑫
欧林林
罗惠珍
史栓武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110543512.2A priority Critical patent/CN113352322B/zh
Publication of CN113352322A publication Critical patent/CN113352322A/zh
Application granted granted Critical
Publication of CN113352322B publication Critical patent/CN113352322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop

Abstract

一种基于最优导纳参数的自适应人机协作控制方法,包括如下步骤:描述具有HRC任务的机器人动力学模型和用于机器人导纳控制的机器人导纳模型;设计基于BLF的机器人自适应约束控制器的内环;步骤3:设计基于积分强化学习的任务优化的外环;步骤4:利用积分强化学习求解LQR问题。本发明通过使用BLF考虑了机器人的运动约束,从而提高了HRC任务的安全性;然后,在面向任务的外环中获得最优导纳参数,以使任务跟踪误差和交互力最小;提出了一种基于积分强化学习的无模型方法来寻找最优导纳参数;此外,设计了基于特定任务轨迹的辅助力,保证了良好的任务跟踪。

Description

一种基于最优导纳参数的自适应人机协作控制方法
技术领域
本发明涉及人机协作任务中一种基于最有导纳参数的自适应控制方法。
背景技术
如今,机器人不仅需要完成高精度的重复性任务,还被广泛应用于修复、搬运、装配等人-机协作任务。因此,有必要开发人-机器人协作(HRC)系统,使人与机器人的优势互补。例如,人类有处理未知环境的分析能力,而机器人可以在危险的环境中不知疲倦地工作。
为了完成HRC任务,操作者需要通过安装在机器人上的力/扭矩传感器与机器人进行交互。近年来,阻抗控制和导纳控制因其鲁棒性和灵活性被广泛应用于HRC任务中。在阻抗控制方面,提出了一个阻尼-弹簧-质量模型来建立环境与机器人之间的动态关系。然后通过测量机器人的位置和适当的阻抗参数,得到机器人的输入力/转矩。导纳控制的目的是通过测量相互作用的力和适当的导纳参数来获得所需的机器人轨迹。而对于阻抗控制和导纳控制,则必须根据不同的操作人员和工作环境选择合适的模型参数。结合生物反馈策略和自适应控制策略,根据患者的肌肉活动自适应调整阻抗参数。叶伯生提出了一种基于动力学模型的机器人自适应阻抗控制系统,对机器人动力学模型进行优化,进而将优化后的动力学模型传输给阻抗控制器来实现机器人末端的力和位置的柔顺控制(叶伯生,陶婕妤,谢鹏,饶阿龙,张文彬,谢远龙,谭朝,帅思远.一种基于动力学模型的机器人自适应阻抗控制系统[P].CN110065070B,2020-09-18.)但在实际应用中,多数机器人的模型是未知的,基于模型的方法应用的场景较少。尤波等提出一种基于意图识别的人机协作系统控制方法,利用神经网络识别系统估计人的意图,使机械臂产生控制输入,该方法既减小了交互力,又改善了运动的柔顺性(尤波,焦龙,李佳钰.一种基于意图识别的人机协作系统控制方法[P].CN112276944A,2021-01-29.)但该方法未考虑机器人工作在一个安全的工作空间内,在人机协作的任务中,会存在机器人工作超出安全空间的隐患。
发明内容
本发明要克服现有技术的上述缺点,提出了一种基于最优导纳参数的自适应人机协作控制方法。
本发明首先建立了由内环和外环组成的整体控制结构。内环和外环的任务分别是机器人控制和任务优化。在此基础上,提出了一种结合障碍李雅普诺夫函数(BLF)和径向基函数神经网络(RBFNN)的机器人内环控制器,使具有未知动力学的机器人安全地表现为操作者感知的规定的机器人导纳模型。然后,在外环中获得机器人导纳模型的最优参数,以使任务跟踪误差和交互力最小。通过构建人-机器人协作系统模型,将机器人导纳模型的优化问题转化为线性二次型调节问题。该模型包含了操作员的未知动态和任务执行细节。为了放宽对系统模型的要求,采用积分强化学习的方法来解决线性二次调节问题。此外,还设计了辅助力,帮助操作者更好地完成特定的任务。与传统的控制方案相比,提高了人机协作系统的安全性能和交互性能。
本发明的一种基于最优导纳参数的自适应人机协作控制方法,具体步骤如下:
步骤1:描述具有HRC任务的机器人动力学模型和用于机器人导纳控制的导纳模型。动力学模型为:
Figure GDA0003685053930000021
Figure GDA0003685053930000022
其中q,
Figure GDA0003685053930000023
分别为关节角、速度和加速度矢量。x,
Figure GDA0003685053930000024
分别为末端执行器位置、速度和加速度矢量。M(q)∈Rp×p为对称惯性矩阵,
Figure GDA0003685053930000025
为科氏力和向心力的矢量,G(q)∈Rp表示重力矢量,J(q)∈Rn×p为雅可比矩阵,τ∈Rp为机器人控制输入力矩,fh∈Rn为由操作者产生的相互作用力,Gh∈Rn表示人的输入力增益,κ(·)为逆运动学的解,p为机器人关节的数量,n表示笛卡尔空间中的维数。
本发明将导纳控制用于机器人与操作者的交互,导纳模型描述为:
Figure GDA0003685053930000031
其中xm是期望参考轨迹,即导纳模型和xd的输出是预定的任务轨迹,Md,Bd和Kd分别代表期望的惯性、阻尼和刚度系数。
Figure GDA0003685053930000032
是后面要设计的辅助力,对应于xm和xd的关节坐标可以表示为qm和qd
步骤2:设计基于BLF的机器人自适应约束控制器的内环;
内环设计的目的是使机器人的行为像规定的机器人导纳模型,并保持在一个安全工作空间内。不需要任务信息,只需关注于最下化规定的机器人导纳模型输出与机器人实际运动之间的跟踪误差。具体步骤如下:
步骤2-1:将节点约束设为|q|<kl,其中kl=[kl1,...,klp]为约束边界。取q1=q,
Figure GDA0003685053930000033
机器人动力学(1)可以表示为:
Figure GDA0003685053930000034
定义跟踪误差e1=q1-qm,e2=q2-α,其中,
Figure GDA0003685053930000035
Figure GDA0003685053930000036
其中,ki(i=1,…,p)是正常数,
Figure GDA0003685053930000037
代表跟踪误差的约束条件,
Figure GDA0003685053930000038
其中是由qm的最大绝对值组成的向量。对e2相对于时间求微分:
Figure GDA0003685053930000039
步骤2-2:构造一个log型BLF候选V1,如下所示:
Figure GDA00036850539300000310
对V1相对于时间求微分得到:
Figure GDA0003685053930000041
步骤2-3:设计另一个BLF候选V2
Figure GDA0003685053930000042
对V2相对于时间求微分得到:
Figure GDA0003685053930000043
根据摩尔-彭罗斯伪逆性质可以得到:
Figure GDA0003685053930000044
当e2=[0 0 ... 0]T时,等式(11)满足
Figure GDA0003685053930000045
因此系统渐进稳定。然而,e2=[0 0 ... 0]T的情况在实际中几乎是不可能的。
步骤2-4:对于其他情况,设计基于模型的控制器如下:
Figure GDA0003685053930000046
其中,
Figure GDA0003685053930000047
代表
Figure GDA0003685053930000048
的伪逆,K2是满足
Figure GDA0003685053930000049
的增益矩阵。将(13)代入(11)得到:
Figure GDA00036850539300000410
可见控制器(13)可以使系统稳定。另外,根据BLF的性质,误差e1i满足-kbi<e1i<kbi。因此,关节状态保持在区间|q1i|<kli
步骤2-5:将控制器(13)改写为:
Figure GDA00036850539300000411
由于在实际应用中,(1)中机器人模型总是未知的。考虑到神经网络可以逼近任何未知的连续函数,故将控制器改为上述形式。其中
Figure GDA00036850539300000412
是神经网络的输入,S(·)表示径向基函数,
Figure GDA0003685053930000051
是估计得神经网络权重,l是神经网络节点数量,
Figure GDA0003685053930000052
表示理想的
Figure GDA0003685053930000053
的近似。
Figure GDA0003685053930000054
Figure GDA0003685053930000055
之间的关系由下给出:
Figure GDA0003685053930000056
其中W*表示理想的神经网络权重,ε(Z)是近似误差。设计神经网络权值的更新规则为
Figure GDA0003685053930000057
其中
Figure GDA0003685053930000058
表示
Figure GDA0003685053930000059
的第i列,
Figure GDA00036850539300000510
是常值增益矩阵,σi是提高系统鲁棒性的一个小的正常数。
步骤2-6:给出候选BLFV3为:
Figure GDA00036850539300000511
其中
Figure GDA00036850539300000512
对V3相对时间微分并结合等式(14)-(16),可以得到:
Figure GDA00036850539300000513
进一步根据(11)的性质,我们得到:
Figure GDA00036850539300000514
其中,
Figure GDA00036850539300000515
λmin(·)和λmax(·)分别表示矩阵的极小特征值和极大特征值。所有误差信号都是半全局一致最终有界(SGUUB)。
步骤3:设计基于积分强化学习的任务优化外环:
在外环设计中,对导纳模型的参数进行优化,以使任务跟踪误差和交互力最小。为此,本发明将导纳参数优化问题转化为LQR问题,在不考虑系统模型的情况下,采用积分强化学习的方法求解。此外,需要注意的是,完全依靠操作者很难实现良好的任务跟踪。因此,设计一个名为辅助力的前馈项来协助操作者。具体步骤如下:
步骤3-1:设计系统辅助力:
当手臂执行简单任务时,定义人手臂阻抗模型为:
(Kus+Kp)fh=keed, (22)
其中Ku,Kp,ke表示不同操作者和任务的位置矩阵,ed为跟踪误差,定义为:
ed=xd-xm. (23)
Figure GDA0003685053930000061
其中
Figure GDA0003685053930000062
xd和xm分别表示特定任务轨迹和期望轨迹,式(22)可以写成:
Figure GDA0003685053930000063
将导纳模型(3)改写为如下状态空间方程:
Figure GDA0003685053930000064
Figure GDA0003685053930000065
其中,
Figure GDA0003685053930000066
Figure GDA0003685053930000067
从式(28),可以得到:
Figure GDA0003685053930000068
为了设计辅助力,假设系统是稳定的,即xm→xd。因此可以得到:
Figure GDA0003685053930000069
Figure GDA0003685053930000071
Figure GDA0003685053930000072
步骤3-2:设计最优控制器:
我们将HRC系统的性能函数定义为该系统的状态空间模型:
Figure GDA0003685053930000073
其中Q=diag(Qd,Qh),
Figure GDA0003685053930000074
R=RT>0。可见,性能函数优化问题可以转化为LQR问题。因此,最优控制器设计为:
Figure GDA0003685053930000075
其中P是代数黎卡提方程的解:
PA+ATP-PBR-1BTP+Q=0. (35)
矩阵R-1BTP包含了机器人导纳模型的参数和人的增益Gh。结合方程(27)和(34)可以得到
Figure GDA0003685053930000076
通过求解上式,可以得到最优导纳参数。
步骤4:利用积分强化学习求解LQR问题:
由于系统矩阵A和B中存在未知参数,用传统方法求解LQR问题比较困难。积分强化学习作为一种在线离轨算法,可以不需要系统模型的先验知识,利用在线收集的系统信息解决LQR问题。本发明采用一种基于值迭代(VI)的积分强化学习算法来估计最优控制器。导纳参数优化的具体算法如下:
步骤4-1:从允许控制策略u=KkX+e开始,其中Kk包含初始导纳参数,e为探索噪声,选择
Figure GDA0003685053930000077
设置迭代参数k,q为0。
步骤4-2:在时间间隔t∈[th-1,th],h=1,2,...内收集系统状态;
步骤4-3:收集到足够的系统状态后,用下面的贝尔曼方程求解Hk和Kk
Figure GDA0003685053930000081
其中Hk=ATPk+PkA;
步骤4-4:更新
Figure GDA0003685053930000082
Figure GDA0003685053930000083
其中∈k是步长;
步骤4-5:如果
Figure GDA0003685053930000084
则将Pk+1更新为P0,q更新为q+1,k更新为k+1,执行第3步,其中Bq是有界的非空集合。
步骤4-6:如果
Figure GDA0003685053930000085
其中ε是一个小的常数,使用u*=-KkX作为估计的最优策略。然后求解
Figure GDA0003685053930000086
得到估计的最优导纳参数c。否则,将Pk+1更新为
Figure GDA0003685053930000087
k更新为k+1,执行步骤3。
本发明提出了一种基于最优导纳参数的人机协作方法。建立了包括内外环在内的控制结构。设计了面向机器人的内环,使具有未知动力学的机器人表现为一个规定的导纳模型。
本发明的优点:通过使用BLF考虑了机器人的运动约束,从而提高了HRC任务的安全性;然后,在面向任务的外环中获得最优导纳参数,以使任务跟踪误差和交互力最小;提出了一种基于积分强化学习的无模型方法来寻找最优导纳参数;此外,设计了基于特定任务轨迹的辅助力,保证了良好的任务跟踪。
附图说明
图1是本发明的人机交互场景。
图2是本发明的系统控制结构。
图3是本发明的机器人内环设计图。
图4是本发明的机器人外环设计图。
图5是本发明的实验过程说明。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于最优导纳参数的自适应人机协作控制方法,具体过程如下:
步骤1:本发明使用的是Franka Emika Panda机器人。它有7个柔性关节,每个关节都有角度和扭矩传感器。设置关节1-3的最大扭矩设置为25Nm,关节4-7的最大扭矩设置为20Nm。机器人的通信频率为1000Hz。操作系统是Ubuntu 16.04,开发平台是ROS Kinetic。由于计算机的计算速度有限,我们使用如图5所示的两个ROS节点来控制机器人并进行计算。第一个节点可以计算出自适应约束控制器,并将结果传递给第二个节点。第二个节点接收来自机器人的信息,并发布控制信号来控制机器人。两个节点之间的通信频率为200Hz。
步骤2:为了验证自适应约束控制器的有效性,进行了一项没有人机协作的机器人轨迹跟踪任务。期望轨迹预先生成。将S(·)设为高斯函数。神经网络节点个数为16个,在[-1,1]区域内选择每个节点的中心。中心方差设为1.5。初始权重
Figure GDA0003685053930000091
为0。控制参数K2=diag(12,12,12,10,10,10,10)。跟踪误差约束设为kb1=4.5,kb2=4.7,kb3=4.7,kb4=2.7,kb5=2.5,kb6=2.5,kb7=2.7,k1i=3,σi=0.02,Γi=200I16×16(i=1,2...7)
步骤3:在Franka机器人上进行HRC任务。操作者手持机器人的末端执行器,在起点和终点之间进行有规律的点对点运动。末端执行器的旋转和高度是恒定的,这意味着我们只关注x方向和y方向。该自适应约束控制器的参数与之前的步骤一致。具体的任务轨迹在x方向和y方向均设置为0.106sin(0.00125πt)。随后,初始参数Md、Bd和Kd的导纳模型设置为Md=diag(5,5)、Bd=diag(7,7)和Kd=diag(3,3),增益矩阵设为Gh=diag(0.2,0.2)。将探测噪声加入到相互力中,设为
Figure GDA0003685053930000092
其中ωi∈[-10,10]。
步骤4:为了优化HRC任务的性能,设计了外环。积分强化学习参数设为Q=diag(5,5,5,5,10,10),R=I2,T=0.01s,采样时间为t=5s。取P0=0.001I6,∈k=(k+1)-1,Bq=10(q+1),ε=0.01。
本发明提出了一种基于最优导纳参数的人机协作方法。建立了包括内外环在内的控制结构。设计了面向机器人的内环,使具有未知动力学的机器人表现为一个规定的导纳模型。与以往的机器人控制方法相比,该方法通过使用BLF考虑了机器人的运动约束。从而提高了HRC任务的安全性。然后,在面向任务的外环中获得最优导纳参数,以使任务跟踪误差和交互力最小。提出了一种基于积分强化学习的无模型方法来寻找最优导纳参数。此外,设计了基于特定任务轨迹的辅助力,保证了良好的任务跟踪。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于最优导纳参数的自适应人机协作控制方法,具体步骤如下:
步骤1:描述具有HRC任务的机器人动力学模型和用于机器人导纳控制的机器人导纳模型;
机器人动力学模型为:
Figure FDA0003706677650000011
Figure FDA0003706677650000012
其中q,
Figure FDA0003706677650000013
分别为关节角、速度和加速度矢量;x,
Figure FDA0003706677650000014
分别为末端执行器位置、速度和加速度矢量;M(q)∈Rp×p为对称惯性矩阵,
Figure FDA0003706677650000015
为科氏力和向心力的矢量,G(q)∈Rp表示重力矢量,J(q)∈Rn×p为雅可比矩阵,τ∈Rp为机器人控制输入力矩,fh∈Rn为由操作者产生的相互作用力,Gh∈Rn表示人的输入力增益,κ(·)为逆运动学的解,p为机器人关节的数量,n表示笛卡尔空间中的维数;
机器人导纳模型描述为:
Figure FDA0003706677650000016
其中xm是期望参考轨迹,即机器人导纳模型和xd的输出是预定的任务轨迹,Md,Bd和Kd分别代表期望的惯性、阻尼和刚度系数;
Figure FDA0003706677650000017
是系统辅助力,对应于xm和xd的关节坐标可以表示为qm和qd
步骤2:设计基于BLF的机器人自适应约束控制器的内环;
内环设计的目的是使机器人的行为跟踪规定的机器人导纳模型的输出,并保持在一个安全工作空间内;不需要任务信息,只需关注于最小化规定的机器人导纳模型输出与机器人实际运动之间的跟踪误差;具体步骤如下:
步骤2-1:将节点约束设为|q|<kl,其中kl=[kl1,...,klp]为约束边界;取q1=q,
Figure FDA0003706677650000018
机器人动力学(1)可以表示为:
Figure FDA0003706677650000021
定义跟踪误差e1=q1-qm,e2=q2-α,其中,
Figure FDA0003706677650000022
Figure FDA0003706677650000023
其中,ki(i=1,…,p)是正常数,
Figure FDA0003706677650000024
代表跟踪误差的约束条件,
Figure FDA0003706677650000025
其中是由qm的最大绝对值组成的向量;对e2相对于时间求微分:
Figure FDA0003706677650000026
步骤2-2:构造一个log型BLF候选V1,如下所示:
Figure FDA0003706677650000027
对V1相对于时间求微分得到:
Figure FDA0003706677650000028
步骤2-3:设计另一个BLF候选V2
Figure FDA0003706677650000029
对V2相对于时间求微分得到:
Figure FDA00037066776500000210
根据摩尔-彭罗斯伪逆性质可以得到:
Figure FDA00037066776500000211
当e2=[0 0...0]T时,等式(11)满足
Figure FDA00037066776500000212
因此系统渐进稳定;然而,e2=[0 0...0]T的情况在实际中几乎是不可能的;
步骤2-4:对于其他情况,设计基于模型的控制器如下:
Figure FDA0003706677650000031
其中,
Figure FDA0003706677650000032
代表
Figure FDA0003706677650000033
的伪逆,K2是满足
Figure FDA0003706677650000034
的增益矩阵;将(13)代入(11)得到
Figure FDA0003706677650000035
可见控制器(13)可以使系统稳定;另外,根据BLF的性质,误差e1i满足-kbi<e1i<kbi;因此,关节状态保持在区间|q1i|<kli
步骤2-5:将控制器(13)改写为:
Figure FDA0003706677650000036
由于在实际应用中,公式(1)中机器人模型总是未知的;考虑到神经网络可以逼近任何未知的连续函数,故将控制器改为公式(15);其中
Figure FDA0003706677650000037
是神经网络的输入,S(·)表示径向基函数,
Figure FDA0003706677650000038
是估计的神经网络权重,l是神经网络节点数量,
Figure FDA0003706677650000039
表示理想的W*TS(Z)的近似;
Figure FDA00037066776500000310
和W*TS(Z)之间的关系由下给出:
Figure FDA00037066776500000311
其中W*表示理想的神经网络权重,ε(Z)是近似误差;设计神经网络权值的更新规则为:
Figure FDA00037066776500000312
其中
Figure FDA00037066776500000313
表示
Figure FDA00037066776500000314
的第i列,
Figure FDA00037066776500000315
是常值增益矩阵,σi是提高系统鲁棒性的一个小的正常数;
步骤2-6:给出候选BLF的V3为:
Figure FDA00037066776500000316
其中
Figure FDA00037066776500000317
对V3相对时间微分并结合等式(14)-(16),可以得到:
Figure FDA00037066776500000318
进一步根据(11)的性质,得到:
Figure FDA0003706677650000041
其中,
Figure FDA0003706677650000042
λmin(·)和λmax(·)分别表示矩阵的极小特征值和极大特征值;所有误差信号都是半全局一致最终有界;
步骤3:设计基于积分强化学习的任务优化的外环:
在外环设计中,对导纳模型的参数进行优化,以使任务跟踪误差和交互力最小;将导纳参数优化问题转化为LQR问题,在不考虑系统模型的情况下,采用积分强化学习的方法求解;系统辅助力的设计具体步骤如下:
步骤3-1:设计系统辅助力:
当手臂执行简单任务时,定义人手臂阻抗模型为(Kus+Kp)fh=keed, (22)
其中Ku,Kp,ke表示不同操作者和任务的位置矩阵,ed为跟踪误差,定义为
ed=xd-xm, (23)
Figure FDA0003706677650000043
其中
Figure FDA0003706677650000044
xd和xm分别表示特定任务轨迹和期望轨迹,式(22)可以写成:
Figure FDA0003706677650000045
将导纳模型(3)改写为如下状态空间方程:
Figure FDA0003706677650000046
Figure FDA0003706677650000047
其中
Figure FDA0003706677650000051
Figure FDA0003706677650000052
从式(28),可以得到:
Figure FDA0003706677650000053
为了设计辅助力,假设系统是稳定的,即xm→xd;因此可以得到:
Figure FDA0003706677650000054
Figure FDA0003706677650000055
Figure FDA0003706677650000056
步骤3-2:设计最优控制器:
将HRC系统的性能函数定义为该系统的状态空间模型
Figure FDA0003706677650000057
其中Q=diag(Qd,Qh),
Figure FDA0003706677650000058
R=RT>0;将性能函数优化问题转化为LQR问题,最优控制器设计为
Figure FDA0003706677650000059
其中P是代数黎卡提方程的解;
PA+ATP-PBR-1BTP+Q=0, (35)
矩阵R-1BTP包含了机器人导纳模型的参数和人的增益Gh;结合方程(27)和(34)可以得到
Figure FDA00037066776500000510
通过求解式(36),可以得到最优导纳参数;
步骤4:利用积分强化学习求解LQR问题:
由于系统矩阵A和B中存在未知参数,采用一种基于值迭代的积分强化学习算法来估计最优控制器;导纳参数优化的具体算法如下:
步骤4-1:从允许控制策略u=KkX+e开始,其中Kk包含初始导纳参数,e为探索噪声,选择
Figure FDA0003706677650000061
设置迭代参数k,q为0;
步骤4-2:在时间间隔t∈[th-1,th],h=1,2,...内收集系统状态;
步骤4-3:收集到足够的系统状态后,用下面的贝尔曼方程求解Hk和Kk
Figure FDA0003706677650000062
其中Hk=ATPk+PkA
步骤4-4:更新
Figure FDA0003706677650000063
Figure FDA0003706677650000064
其中∈k是步长;
步骤4-5:如果
Figure FDA0003706677650000065
则将Pk+1更新为P0,q更新为q+1,k更新为k+1,执行第3步,其中Bq是有界的非空集合;
步骤4-6:如果
Figure FDA0003706677650000066
其中ε是一个小的常数,使用u*=-KkX作为估计的最优策略;然后求解
Figure FDA0003706677650000067
得到估计的最优导纳参数c;否则,将Pk+1更新为
Figure FDA0003706677650000068
k更新为k+1,执行步骤3。
CN202110543512.2A 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法 Active CN113352322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110543512.2A CN113352322B (zh) 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110543512.2A CN113352322B (zh) 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法

Publications (2)

Publication Number Publication Date
CN113352322A CN113352322A (zh) 2021-09-07
CN113352322B true CN113352322B (zh) 2022-10-04

Family

ID=77526945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110543512.2A Active CN113352322B (zh) 2021-05-19 2021-05-19 一种基于最优导纳参数的自适应人机协作控制方法

Country Status (1)

Country Link
CN (1) CN113352322B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113954077B (zh) * 2021-11-15 2023-03-24 天津大学 带有能量优化的水下游动机械臂轨迹跟踪控制方法及装置
CN114378820B (zh) * 2022-01-18 2023-06-06 中山大学 一种基于安全强化学习的机器人阻抗学习方法
CN114193458B (zh) * 2022-01-25 2024-04-09 中山大学 一种基于高斯过程在线学习的机器人控制方法
CN114932557B (zh) * 2022-06-24 2023-07-28 合肥工业大学 一种运动学约束下基于能量消耗的自适应导纳控制方法
CN116300966B (zh) * 2023-05-05 2023-08-15 北京科技大学 一种人机协作搬运的协作机器人控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9272418B1 (en) * 2014-09-02 2016-03-01 The Johns Hopkins University System and method for flexible human-machine collaboration
CN108227506A (zh) * 2018-02-08 2018-06-29 常州普旺科技有限公司 一种基于自适应最优化方法的机器人导纳控制系统
CN109249394B (zh) * 2018-09-27 2022-04-15 上海电气集团股份有限公司 基于导纳控制算法的机器人控制方法及系统
CN111258267B (zh) * 2020-01-17 2021-07-16 北京科技大学 一种人机协作搬运系统及其混合视触控制方法
CN112150878A (zh) * 2020-09-24 2020-12-29 陈晓明 一种人工智能生产平台及综合能力训练实训系统

Also Published As

Publication number Publication date
CN113352322A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113352322B (zh) 一种基于最优导纳参数的自适应人机协作控制方法
Brahmi et al. Novel adaptive impedance control for exoskeleton robot for rehabilitation using a nonlinear time-delay disturbance observer
Zhang et al. A review on model reference adaptive control of robotic manipulators
Yang et al. Adaptive neural network output feedback control of uncertain underactuated systems with actuated and unactuated state constraints
CN104723340B (zh) 基于连接和阻尼配置的柔性关节机械臂的阻抗控制方法
Wang et al. Neural-network-based contouring control for robotic manipulators in operational space
Korayem et al. Path planning algorithm in wheeled mobile manipulators based on motion of arms
Fan et al. Data-driven motion-force control scheme for redundant manipulators: A kinematic perspective
CN113681543A (zh) 一种基于模型预测的机械臂零力控制方法
CN115157238A (zh) 一种多自由度机器人动力学建模和轨迹跟踪方法
Tourajizadeh et al. Optimal control and path planning of a 3PRS robot using indirect variation algorithm
Dachang et al. Adaptive backstepping sliding mode control of trajectory tracking for robotic manipulators
Shafei et al. Trajectory tracking control of a wheeled mobile robot in the presence of matched uncertainties via a composite control approach
Homayounzade et al. A robust tracking controller for electrically driven robot manipulators: stability analysis and experiment
Zhang et al. Time delay compensation of a robotic arm based on multiple sensors for indirect teaching
Kumar et al. Sensor-based estimation and control of forces and moments in multiple cooperative robots
Tong et al. Neural network based visual servo control under the condition of heavy loading
Han et al. Visual servoing control of robotics with a neural network estimator based on spectral adaptive law
Song et al. Modeling and control strategy of a haptic interactive robot based on a cable-driven parallel mechanism
Izadbakhsh et al. Superiority of q-Chlodowsky operators versus fuzzy systems and neural networks: Application to adaptive impedance control of electrical manipulators
Tan et al. Toward unified adaptive teleoperation based on damping ZNN for robot manipulators with unknown kinematics
Yu et al. Co-carrying an object by robot in cooperation with humans using visual and force sensing
Achili et al. A stable adaptive force/position controller for a C5 parallel robot: a neural network approach
JP4587052B2 (ja) 位置制御装置、位置制御方法及び位置制御プログラム
An et al. Fast model-free learning for controlling a quadrotor UAV with designed error trajectory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant