CN113246121B - 一种基于Actor-Critic深度强化学习的同心管机器人控制方法 - Google Patents

一种基于Actor-Critic深度强化学习的同心管机器人控制方法 Download PDF

Info

Publication number
CN113246121B
CN113246121B CN202110374971.2A CN202110374971A CN113246121B CN 113246121 B CN113246121 B CN 113246121B CN 202110374971 A CN202110374971 A CN 202110374971A CN 113246121 B CN113246121 B CN 113246121B
Authority
CN
China
Prior art keywords
concentric tube
robot
concentric
actor
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110374971.2A
Other languages
English (en)
Other versions
CN113246121A (zh
Inventor
冯子俊
李永强
冯宇
冯远静
刘扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110374971.2A priority Critical patent/CN113246121B/zh
Publication of CN113246121A publication Critical patent/CN113246121A/zh
Application granted granted Critical
Publication of CN113246121B publication Critical patent/CN113246121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1607Calculation of inertia, jacobian matrixes and inverses
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/30Surgical robots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种基于Actor‑Critic深度强化学习的同心管机器人控制方法。本发明包括如下步骤:1)设置同心管机器人几何参数和力学参数,并建立其运动学模型;2)数据预处理,获得同心管曲率‑位置状态集合;3)利用同心管曲率‑位置状态集,更新Actor网络和Critic网络参数;4)根据最终的收敛模型,可以得到基于Actor‑Critic深度强化学习的同心管机器人最优控制策略,即所需采用的驱动量。与现有技术相比,本发明通过深度强化学习的方法,获取了同心管机器人逆运动学计算方法,最终得到了更精确的逆运动学解。

Description

一种基于Actor-Critic深度强化学习的同心管机器人控制 方法
技术领域
本发明涉及同心管手术机器人领域,具体涉及一种基于Actor-Critic深度强化学习的同心管机器人控制方法
背景技术
目前随着社会医疗水平的提高,高精度、高稳定性的手术机器人开始逐步介入医学。相比于具有刚性关节的机械手,一种可灵活弯曲,并可沿着既定的非线性路径到达目标位置的同心管机器人开始受到人们的广泛关注。
同心管机器人由多根预弯曲的超弹性镍钛合金管嵌套而成,并由驱动端管的旋转和伸缩来改变机器人的姿态。同心管基于经典弹性杆模型建立静力学平衡方程进行正运动学的求解计算,并已能够在建模中考虑摩擦及外力。但由于其没有明显的关节区分,并且是一种容易发生分岔的非线性系统,故同心管机器人的逆运动学求解是很有挑战性的。
发明内容
为了克服使用雅可比矩阵方法容易使系统陷入无解的不足,提高逆运动学求解的准确性,本发明提出一种基于Actor-Critic深度强化学习的同心管机器人控制方法,可以有效处理同心管机器人的逆运动学,并能在奖励收敛后得到对于期望位置的最优驱动输入量。
本发明所采用的技术方案是:
一种基于Actor-Critic深度强化学习的同心管机器人控制方法,包括以下步骤:
1)利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure BDA0003010807790000011
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uixuiyuiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,…,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量,且本发明规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure BDA0003010807790000021
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure BDA0003010807790000022
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前时刻同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,arg max(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
进一步,所述步骤3)的实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10。Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
Figure BDA0003010807790000031
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,得到优化的同心管逆运动学控制方案。
本发明的技术构思为:首先获取同心管在不同输入下的曲率-位置信息,并在此基础上加入期望的位置信息。然后基于这些信息,使用Actor-Critic方法进行训练优化,最终得到同心管机器人的最佳控制输入。
本发明的有益效果为:该发明可以有效处理同心管机器人的逆运动学,并能在奖励收敛后得到对于期望位置的最优驱动输入量。
附图说明
图1显示了基于Actor-Critic深度强化学习的同心管机器人控制方法流程图;
图2显示了同心管机器人驱动输入示意图;
图3显示了同心管机器人在自由空间中的形状示意图,用于下文的分析。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于Actor-Critic深度强化学习的同心管机器人控制方法,包括以下步骤:
1)根据图1,利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure BDA0003010807790000041
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)参考图2,本发明将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,...,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量(如图2),且本发明规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际
输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure BDA0003010807790000042
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure BDA0003010807790000043
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度,实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10。Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
θ=θ+α▽J(θ)
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前时刻同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,arg max(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
本发明以使用MATLAB R2018b建立同心管机器人运动学模型为实施例,进行训练仿真,一种基于Actor-Critic深度强化学习的同心管机器人控制方法,包括以下步骤:
1)根据图1,利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure BDA0003010807790000051
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)参考图3,本发明将同心管机器人的逆运动学描述为马尔科夫决策过程(MDP),且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,...,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量(如图2),且本发明规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure BDA0003010807790000061
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure BDA0003010807790000062
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度,实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10。Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
Figure BDA0003010807790000071
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案。
4)根据最终得到的神经网络模型,可以给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,可确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前时刻同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,arg max(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
以MATLAB仿真软件为实施例,运用以上方法得到了基于Actor-Critic深度强化学习的同心管机器人控制方法,结果显示当训练收敛或达到最大迭代次数后,能够得到最优控制策略,最终的位置与期望位置的误差在0.2mm以内。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述方法包括以下步骤:
1)利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
Figure FDA0003010807780000011
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;
动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,…,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量,且规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数
Figure FDA0003010807780000012
和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
Figure FDA0003010807780000013
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,argmax(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
2.如权利要求1所述的一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述步骤3)的实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10,Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
θ=θ+α▽J(θ)
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案。
CN202110374971.2A 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法 Active CN113246121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110374971.2A CN113246121B (zh) 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110374971.2A CN113246121B (zh) 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Publications (2)

Publication Number Publication Date
CN113246121A CN113246121A (zh) 2021-08-13
CN113246121B true CN113246121B (zh) 2022-04-08

Family

ID=77220445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110374971.2A Active CN113246121B (zh) 2021-04-08 2021-04-08 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Country Status (1)

Country Link
CN (1) CN113246121B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103536365A (zh) * 2013-10-22 2014-01-29 同济大学 一种用于微创手术同心管机器人的引导装置
CN108972550A (zh) * 2018-07-10 2018-12-11 哈尔滨工业大学(深圳) 一种同心管机器人逆运动学求解方法
CN111679576A (zh) * 2020-05-21 2020-09-18 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103536365A (zh) * 2013-10-22 2014-01-29 同济大学 一种用于微创手术同心管机器人的引导装置
CN108972550A (zh) * 2018-07-10 2018-12-11 哈尔滨工业大学(深圳) 一种同心管机器人逆运动学求解方法
CN111679576A (zh) * 2020-05-21 2020-09-18 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法

Also Published As

Publication number Publication date
CN113246121A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN110434851B (zh) 一种5自由度机械臂逆运动学求解方法
CN108932216B (zh) 一种基于粒子群优化算法的机器人逆运动学求解方法
CN110076775B (zh) 一种绳驱动连续型机械臂的三维静力学建模方法
US11529733B2 (en) Method and system for robot action imitation learning in three-dimensional space
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN111890350A (zh) 机器人及其控制方法、计算机可读存储介质
CN110861088A (zh) 一种冗余自由度机器人的运动优化方法
CN112417755A (zh) 一种主从式手术机器人轨迹预测控制方法
CN113510704A (zh) 一种基于强化学习算法的工业机械臂运动规划方法
CN109901397A (zh) 一种使用粒子群优化算法的机械臂逆运动学方法
CN109605377B (zh) 一种基于强化学习的机器人关节运动控制方法及系统
CN113172621B (zh) 一种面向scara机械臂的动力学参数辨识方法
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN111890351A (zh) 机器人及其控制方法、计算机可读存储介质
CN113246121B (zh) 一种基于Actor-Critic深度强化学习的同心管机器人控制方法
CN112560343B (zh) 基于深度神经网络与打靶算法的J2摄动Lambert问题求解方法
CN112036062A (zh) 一种金属材料弯曲成形回弹角预测方法
CN110900608B (zh) 基于最优测量构型选择的机器人运动学标定方法
EP3536467B1 (en) Action transfer device, action transfer method, and non-temporary computer readable medium having action transfer program stored thereon
CN114019798B (zh) 机器人轨迹跟踪控制方法、磁性医疗机器人及存储介质
CN111158238B (zh) 一种基于粒子群算法的力反馈设备动力学参数估计算法
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
CN114521960B (zh) 一种腹腔手术机器人的全自动实时标定方法、装置及系统
WO2023216581A1 (zh) 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质
CN111723445B (zh) 一种基于mmpso算法的作业型飞行机器人逆解求取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant