CN113246121B - 一种基于Actor-Critic深度强化学习的同心管机器人控制方法 - Google Patents

一种基于Actor-Critic深度强化学习的同心管机器人控制方法 Download PDF

Info

Publication number
CN113246121B
CN113246121B CN202110374971.2A CN202110374971A CN113246121B CN 113246121 B CN113246121 B CN 113246121B CN 202110374971 A CN202110374971 A CN 202110374971A CN 113246121 B CN113246121 B CN 113246121B
Authority
CN
China
Prior art keywords
concentric tube
robot
actor
critic
concentric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110374971.2A
Other languages
English (en)
Other versions
CN113246121A (zh
Inventor
冯子俊
李永强
冯宇
冯远静
刘扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110374971.2A priority Critical patent/CN113246121B/zh
Publication of CN113246121A publication Critical patent/CN113246121A/zh
Application granted granted Critical
Publication of CN113246121B publication Critical patent/CN113246121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1607Calculation of inertia, jacobian matrixes and inverses
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/30Surgical robots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Robotics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

一种基于Actor‑Critic深度强化学习的同心管机器人控制方法。本发明包括如下步骤:1)设置同心管机器人几何参数和力学参数,并建立其运动学模型;2)数据预处理,获得同心管曲率‑位置状态集合;3)利用同心管曲率‑位置状态集,更新Actor网络和Critic网络参数;4)根据最终的收敛模型,可以得到基于Actor‑Critic深度强化学习的同心管机器人最优控制策略,即所需采用的驱动量。与现有技术相比,本发明通过深度强化学习的方法,获取了同心管机器人逆运动学计算方法,最终得到了更精确的逆运动学解。

Description

一种基于Actor-Critic深度强化学习的同心管机器人控制 方法
技术领域
本发明涉及同心管手术机器人领域,具体涉及一种基于Actor-Critic深度强化学习的同心管机器人控制方法
背景技术
目前随着社会医疗水平的提高,高精度、高稳定性的手术机器人开始逐步介入医学。相比于具有刚性关节的机械手,一种可灵活弯曲,并可沿着既定的非线性路径到达目标位置的同心管机器人开始受到人们的广泛关注。
同心管机器人由多根预弯曲的超弹性镍钛合金管嵌套而成,并由驱动端管的旋转和伸缩来改变机器人的姿态。同心管基于经典弹性杆模型建立静力学平衡方程进行正运动学的求解计算,并已能够在建模中考虑摩擦及外力。但由于其没有明显的关节区分,并且是一种容易发生分岔的非线性系统,故同心管机器人的逆运动学求解是很有挑战性的。
发明内容
为了克服使用雅可比矩阵方法容易使系统陷入无解的不足,提高逆运动学求解的准确性,本发明提出一种基于Actor-Critic深度强化学习的同心管机器人控制方法,可以有效处理同心管机器人的逆运动学,并能在奖励收敛后得到对于期望位置的最优驱动输入量。
本发明所采用的技术方案是:
一种基于Actor-Critic深度强化学习的同心管机器人控制方法,包括以下步骤:
1)利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure BDA0003010807790000011
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uixuiyuiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,…,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量,且本发明规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure BDA0003010807790000021
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure BDA0003010807790000022
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前时刻同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,arg max(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
进一步,所述步骤3)的实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10。Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
Figure BDA0003010807790000031
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,得到优化的同心管逆运动学控制方案。
本发明的技术构思为:首先获取同心管在不同输入下的曲率-位置信息,并在此基础上加入期望的位置信息。然后基于这些信息,使用Actor-Critic方法进行训练优化,最终得到同心管机器人的最佳控制输入。
本发明的有益效果为:该发明可以有效处理同心管机器人的逆运动学,并能在奖励收敛后得到对于期望位置的最优驱动输入量。
附图说明
图1显示了基于Actor-Critic深度强化学习的同心管机器人控制方法流程图;
图2显示了同心管机器人驱动输入示意图;
图3显示了同心管机器人在自由空间中的形状示意图,用于下文的分析。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于Actor-Critic深度强化学习的同心管机器人控制方法,包括以下步骤:
1)根据图1,利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure BDA0003010807790000041
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)参考图2,本发明将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,...,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量(如图2),且本发明规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际
输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure BDA0003010807790000042
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure BDA0003010807790000043
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度,实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10。Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
θ=θ+α▽J(θ)
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前时刻同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,arg max(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
本发明以使用MATLAB R2018b建立同心管机器人运动学模型为实施例,进行训练仿真,一种基于Actor-Critic深度强化学习的同心管机器人控制方法,包括以下步骤:
1)根据图1,利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure BDA0003010807790000051
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)参考图3,本发明将同心管机器人的逆运动学描述为马尔科夫决策过程(MDP),且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,...,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量(如图2),且本发明规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure BDA0003010807790000061
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure BDA0003010807790000062
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度,实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10。Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
Figure BDA0003010807790000071
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案。
4)根据最终得到的神经网络模型,可以给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,可确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前时刻同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,arg max(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
以MATLAB仿真软件为实施例,运用以上方法得到了基于Actor-Critic深度强化学习的同心管机器人控制方法,结果显示当训练收敛或达到最大迭代次数后,能够得到最优控制策略,最终的位置与期望位置的误差在0.2mm以内。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述方法包括以下步骤:
1)利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure FDA0003010807780000011
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;
动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,…,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量,且规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure FDA0003010807780000012
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure FDA0003010807780000013
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,argmax(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
2.如权利要求1所述的一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述步骤3)的实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10,Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
θ=θ+α▽J(θ)
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案。
CN202110374971.2A 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法 Active CN113246121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110374971.2A CN113246121B (zh) 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110374971.2A CN113246121B (zh) 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Publications (2)

Publication Number Publication Date
CN113246121A CN113246121A (zh) 2021-08-13
CN113246121B true CN113246121B (zh) 2022-04-08

Family

ID=77220445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110374971.2A Active CN113246121B (zh) 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Country Status (1)

Country Link
CN (1) CN113246121B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103536365A (zh) * 2013-10-22 2014-01-29 同济大学 一种用于微创手术同心管机器人的引导装置
CN108972550A (zh) * 2018-07-10 2018-12-11 哈尔滨工业大学(深圳) 一种同心管机器人逆运动学求解方法
CN111679576A (zh) * 2020-05-21 2020-09-18 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103536365A (zh) * 2013-10-22 2014-01-29 同济大学 一种用于微创手术同心管机器人的引导装置
CN108972550A (zh) * 2018-07-10 2018-12-11 哈尔滨工业大学(深圳) 一种同心管机器人逆运动学求解方法
CN111679576A (zh) * 2020-05-21 2020-09-18 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法

Also Published As

Publication number Publication date
CN113246121A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN108876815B (zh) 骨骼姿态计算方法、人物虚拟模型驱动方法及存储介质
CN108284442B (zh) 一种基于模糊神经网络的机械臂柔性关节控制方法
Schegg et al. Review on generic methods for mechanical modeling, simulation and control of soft robots
Goharimanesh et al. A fuzzy reinforcement learning approach for continuum robot control
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN110666793A (zh) 基于深度强化学习实现机器人方形零件装配的方法
WO2018227820A1 (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
WO2020215717A1 (zh) 一种基于常曲率假设的弹性软体机器人运动学建模方法
Zeng et al. Adaptive finite-time model estimation and control for manipulator visual servoing using sliding mode control and neural networks
CN104678766A (zh) 仿人机械臂飞行球体作业最优击球构型一种求取方法
CN111168680B (zh) 一种基于神经动力学方法的软体机器人控制方法
Tan et al. Trajectory tracking of soft continuum robots with unknown models based on varying parameter recurrent neural networks
CN113246121B (zh) 一种基于Actor-Critic深度强化学习的同心管机器人控制方法
Kong et al. Impedance force control of manipulator based on variable universe fuzzy control
CN112947123B (zh) 一种抑制多源干扰的外骨骼机器人跟踪控制方法和系统
CN111158238B (zh) 一种基于粒子群算法的力反馈设备动力学参数估计算法
CN118625849A (zh) 一种基于分离式艉舵的水下航行器横倾控制方法
CN118357924A (zh) 一种基于拉力优化的丝传动连续体机器人轨迹跟踪方法及设备
CN106570341A (zh) 一种基于无网格径向基数据拟合的软组织受力形变模型建模方法
CN114028156B (zh) 康复训练方法、装置及康复机器人
CN113858204B (zh) 一种冗余机械臂的追踪控制方法、装置及介质
CN115533911A (zh) 基于块脉冲函数的柔性机械臂分数阶建模与补偿方法
Zheng et al. Neurodynamics Adaptive Reward and Action for Hand-to-Eye Calibration with Deep Reinforcement Learning
CN113290557A (zh) 一种基于数据驱动的蛇形机器人控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant