CN113246121B

CN113246121B - 一种基于Actor-Critic深度强化学习的同心管机器人控制方法

Info

Publication number: CN113246121B
Application number: CN202110374971.2A
Authority: CN
Inventors: 冯子俊; 李永强; 冯宇; 冯远静; 刘扬
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2022-04-08
Anticipated expiration: 2041-04-08
Also published as: CN113246121A

Abstract

一种基于Actor‑Critic深度强化学习的同心管机器人控制方法。本发明包括如下步骤：1)设置同心管机器人几何参数和力学参数，并建立其运动学模型；2)数据预处理，获得同心管曲率‑位置状态集合；3)利用同心管曲率‑位置状态集，更新Actor网络和Critic网络参数；4)根据最终的收敛模型，可以得到基于Actor‑Critic深度强化学习的同心管机器人最优控制策略，即所需采用的驱动量。与现有技术相比，本发明通过深度强化学习的方法，获取了同心管机器人逆运动学计算方法，最终得到了更精确的逆运动学解。

Description

一种基于Actor-Critic深度强化学习的同心管机器人控制方法

技术领域

本发明涉及同心管手术机器人领域，具体涉及一种基于Actor-Critic深度强化学习的同心管机器人控制方法

背景技术

目前随着社会医疗水平的提高，高精度、高稳定性的手术机器人开始逐步介入医学。相比于具有刚性关节的机械手，一种可灵活弯曲，并可沿着既定的非线性路径到达目标位置的同心管机器人开始受到人们的广泛关注。

同心管机器人由多根预弯曲的超弹性镍钛合金管嵌套而成，并由驱动端管的旋转和伸缩来改变机器人的姿态。同心管基于经典弹性杆模型建立静力学平衡方程进行正运动学的求解计算，并已能够在建模中考虑摩擦及外力。但由于其没有明显的关节区分，并且是一种容易发生分岔的非线性系统，故同心管机器人的逆运动学求解是很有挑战性的。

发明内容

为了克服使用雅可比矩阵方法容易使系统陷入无解的不足，提高逆运动学求解的准确性，本发明提出一种基于Actor-Critic深度强化学习的同心管机器人控制方法，可以有效处理同心管机器人的逆运动学，并能在奖励收敛后得到对于期望位置的最优驱动输入量。

本发明所采用的技术方案是：

一种基于Actor-Critic深度强化学习的同心管机器人控制方法，包括以下步骤：

1)利用静力学平衡法建立了同心管机器人运动学模型，并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数，使系统满足刚度主宰且避免发生非线性分岔：

其中L为机器人预弯曲部分的总长度，r为任意相邻同心预弯管的曲率乘积，K为同心管的刚度，σ也是直接和机器人几何、力学参数相关的量，N为组成同心管机器人所用的镍钛管数量；

2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP，且状态设置为S_t＝{U₁,...,U_N,P_c,P_t}，其中U_i＝[u_ixu_iyu_iz]为当前时刻同心管机器人末端点的曲率向量，P_c和P_t分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量；动作则设置为相对上一时刻的旋转和伸缩输入增量：

A_t＝{Δθ₁,Δφ₁,…,Δθ_N,Δφ_N}

其中θ_i和φ_i分别为同心管的旋转和伸缩输入量，且本发明规定旋转输入的变化量|Δθ_i|≤3°，伸缩输入的变化量|Δφ_i|≤0.2mm，在此基础上得到的实际输入量还需满足：

θ_i∈[-2π,2π]

φ_i∈[0,l_i]

l_i为第i根镍钛管的长度；

3)利用能完整描述同心管机器人在自由空间中运动状态的集合S_t，初始化神经网络权重，关于策略的目标函数

和状态动作值函数Q(S_t,A_t)，这里的θ为参数化的策略，τ为一个采样周期，r为所定义的奖励函数：

e＝||P_c-P_t||₂

其中e为当前回合同心管机器人末端点与期望位置的误差，λ＝1mm为目标容忍度；

4)根据最终得到的神经网络模型，给出基于Actor-Critic深度强化学习的同心管机器人控制策略：在现实场景中，根据同心管末端的位姿信息和当前的驱动输入，确定下一个时刻所需的同心管状态信息：

S_next＝arg max(Q(S_now,A_now))

其中，S_next为下一时刻同心管所处的状态，S_now为当前时刻同心管的运动状态，A_now为到达当前状态所需执行的驱动输入，Q(S_now,A_now)表示由当前时刻同心管的状态和动作所决定的Q值函数，arg max(Q(S_now,A_now))指的是使Q值函数取到最大值所对应的同心管位置。

进一步，所述步骤3)的实现过程如下：

a)首先，初始化训练参数，奖励折扣γ＝0.95，Actor和Critic的学习率分别为α＝0.001和β＝0.005，训练步长step＝10。Actor和Critic的神经网络均为三层全连接层，且神经元个数为128-64-32；

b)根据同心管曲率-位置的状态集合S_t，奖励值r_t+1以及下一时刻的同心管状态集合S_t+1，计算评估Actor执行策略好坏的TD-error，并更新Critic网络参数ω：

δ_t←r_t+1+γQ(S_t+1,A_t+1)-Q(S_t,A_t)

w＝w+βδ_t

c)根据同心管曲率-位置的状态集合S_t，动作A_t以及Critic返回的TD-error进行Actor网络参数的更新：

d)不断进行迭代更新神经网络，直到迭代次数达到M＝100000为止，得到优化的同心管逆运动学控制方案。

本发明的技术构思为：首先获取同心管在不同输入下的曲率-位置信息，并在此基础上加入期望的位置信息。然后基于这些信息，使用Actor-Critic方法进行训练优化，最终得到同心管机器人的最佳控制输入。

本发明的有益效果为：该发明可以有效处理同心管机器人的逆运动学，并能在奖励收敛后得到对于期望位置的最优驱动输入量。

附图说明

图1显示了基于Actor-Critic深度强化学习的同心管机器人控制方法流程图；

图2显示了同心管机器人驱动输入示意图；

图3显示了同心管机器人在自由空间中的形状示意图，用于下文的分析。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于Actor-Critic深度强化学习的同心管机器人控制方法，包括以下步骤：

1)根据图1，利用静力学平衡法建立了同心管机器人运动学模型，并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数，使系统满足刚度主宰且避免发生非线性分岔：

2)参考图2，本发明将同心管机器人的逆运动学描述为马尔科夫决策过程MDP，且状态设置为S_t＝{U₁,...,U_N,P_c,P_t}，其中U_i＝[u_ix u_iy u_iz]为当前时刻同心管机器人末端点的曲率向量，P_c和P_t分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量；动作则设置为相对上一时刻的旋转和伸缩输入增量：

A_t＝{Δθ₁,Δφ₁,...,Δθ_N,Δφ_N}

其中θ_i和φ_i分别为同心管的旋转和伸缩输入量(如图2)，且本发明规定旋转输入的变化量|Δθ_i|≤3°，伸缩输入的变化量|Δφ_i|≤0.2mm，在此基础上得到的实际

输入量还需满足：

θ_i∈[-2π,2π]

φ_i∈[0,l_i]

l_i为第i根镍钛管的长度；

e＝||P_c-P_t||₂

其中e为当前回合同心管机器人末端点与期望位置的误差，λ＝1mm为目标容忍度，实现过程如下：

δ_t←r_t+1+γQ(S_t+1,A_t+1)-Q(S_t,A_t)

w＝w+βδ_t

θ＝θ+α▽J(θ)

d)不断进行迭代更新神经网络，直到迭代次数达到M＝100000为止，可得到优化的同心管逆运动学控制方案；

S_next＝arg max(Q(S_now,A_now))

本发明以使用MATLAB R2018b建立同心管机器人运动学模型为实施例，进行训练仿真，一种基于Actor-Critic深度强化学习的同心管机器人控制方法，包括以下步骤：

2)参考图3，本发明将同心管机器人的逆运动学描述为马尔科夫决策过程(MDP)，且状态设置为S_t＝{U₁,...,U_N,P_c,P_t}，其中U_i＝[u_ix u_iy u_iz]为当前时刻同心管机器人末端点的曲率向量，P_c和P_t分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量；动作则设置为相对上一时刻的旋转和伸缩输入增量：

A_t＝{Δθ₁,Δφ₁,...,Δθ_N,Δφ_N}

其中θ_i和φ_i分别为同心管的旋转和伸缩输入量(如图2)，且本发明规定旋转输入的变化量|Δθ_i|≤3°，伸缩输入的变化量|Δφ_i|≤0.2mm，在此基础上得到的实际输入量还需满足：

θ_i∈[-2π,2π]

φ_i∈[0,l_i]

l_i为第i根镍钛管的长度；

e＝||P_c-P_t||₂

δ_t←r_t+1+γQ(S_t+1,A_t+1)-Q(S_t,A_t)

w＝w+βδ_t

d)不断进行迭代更新神经网络，直到迭代次数达到M＝100000为止，可得到优化的同心管逆运动学控制方案。

4)根据最终得到的神经网络模型，可以给出基于Actor-Critic深度强化学习的同心管机器人控制策略：在现实场景中，根据同心管末端的位姿信息和当前的驱动输入，可确定下一个时刻所需的同心管状态信息：

S_next＝arg max(Q(S_now,A_now))

以MATLAB仿真软件为实施例，运用以上方法得到了基于Actor-Critic深度强化学习的同心管机器人控制方法，结果显示当训练收敛或达到最大迭代次数后，能够得到最优控制策略，最终的位置与期望位置的误差在0.2mm以内。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于Actor-Critic深度强化学习的同心管机器人控制方法，其特征在于，所述方法包括以下步骤：

2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP，且状态设置为S_t＝{U₁,...,U_N,P_c,P_t}，其中U_i＝[u_ix u_iy u_iz]为当前时刻同心管机器人末端点的曲率向量，P_c和P_t分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量；

动作则设置为相对上一时刻的旋转和伸缩输入增量：

A_t＝{Δθ₁,Δφ₁,…,Δθ_N,Δφ_N}

其中θ_i和φ_i分别为同心管的旋转和伸缩输入量，且规定旋转输入的变化量|Δθ_i|≤3°，伸缩输入的变化量|Δφ_i|≤0.2mm，在此基础上得到的实际输入量还需满足：

θ_i∈[-2π,2π]

φ_i∈[0,l_i]

l_i为第i根镍钛管的长度；

e＝||P_c-P_t||₂

S_next＝arg max(Q(S_now,A_now))

其中，S_next为下一时刻同心管所处的状态，S_now为当前同心管的运动状态，A_now为到达当前状态所需执行的驱动输入，Q(S_now,A_now)表示由当前时刻同心管的状态和动作所决定的Q值函数，argmax(Q(S_now,A_now))指的是使Q值函数取到最大值所对应的同心管位置。

2.如权利要求1所述的一种基于Actor-Critic深度强化学习的同心管机器人控制方法，其特征在于，所述步骤3)的实现过程如下：

a)首先，初始化训练参数，奖励折扣γ＝0.95，Actor和Critic的学习率分别为α＝0.001和β＝0.005，训练步长step＝10，Actor和Critic的神经网络均为三层全连接层，且神经元个数为128-64-32；

δ_t←r_t+1+γQ(S_t+1,A_t+1)-Q(S_t,A_t)

w＝w+βδ_t

θ＝θ+α▽J(θ)