CN111048212B

CN111048212B - 基于深度强化学习的斜尖柔性针路径跟踪用网络优化方法

Info

Publication number: CN111048212B
Application number: CN201911328961.4A
Authority: CN
Inventors: 张旭明; 胡捷; 覃瑶; 王拓
Original assignee: Wuhan Kelu Robot Technology Co ltd; Huazhong University of Science and Technology
Current assignee: Wuhan Kelu Robot Technology Co ltd; Huazhong University of Science and Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-04-18
Anticipated expiration: 2039-12-20
Also published as: CN111048212A

Abstract

本发明属于穿刺针路径跟踪领域，公开了一种基于深度强化学习的斜尖柔性针路径跟踪用网络优化方法，包括以下步骤：(1)基于斜尖柔性针的自行车模型，构建仿真环境；(2)初始化整个斜尖柔性针模型，同时给出预先规划设定的跟踪路径；(3)构建动作网络和目标动作网络；(4)将[s(t),a(t),s(t+1),R(t+1)]整体作为一个样本存储到经验池replay变量中直至replay变量饱和；(5)随机取出多个样本作为训练样本，对动作网络和目标动作网络进行训练，同时确保这两个网络的收敛；训练好的收敛的动作网络，即为得到的斜尖柔性针路径跟踪用动作网络。本发明优化方法得到的动作网络能够用于对柔性针的复杂三维穿刺路径进行跟踪，与传统基于占空比的方法相比，拥有更小的路径跟踪误差。

Description

基于深度强化学习的斜尖柔性针路径跟踪用网络优化方法

技术领域

本发明属于穿刺针路径跟踪领域，更具体地，涉及基于深度强化学习的斜尖柔性针路径跟踪用网络优化方法，优化得到的动作网络可用于实现对柔性针的三维路径进行跟踪的目的。

背景技术

穿刺手术是目前临床中应用最为广泛的手术之一。在穿刺手术中，常用的穿刺针多为刚性针，但其只能沿直线前进，难以有效避开血管等障碍。柔性穿刺针可以沿曲线前进，从而避开重要的血管和器官，减少穿刺手术对人体的损伤、减轻病人的痛苦，因此近年来柔性穿刺针在穿刺手术中得到广泛关注。

目前，国内外高校等科研机构在柔性针穿刺方面开展了一定的研究工作。不列颠哥伦比亚大学的Okazawa等人，将预弯的柔性针嵌入一段刚性中空管中，当柔性针从中空管伸出时，可以实现局部曲线运动。由于中空管将柔性针与组织隔离，降低了组织特性对于柔性针的影响，但其运动范围仅仅局限在中空管端部周围，并且只能以固定曲率进行穿刺动作，灵活性上仍然较为欠缺，无法实现对大范围的曲线规划路径进行跟踪。

帝国理工大学的Riccardo Secoli等人构建了多段柔性针模型，多段柔性针的针体由多段平行部分构成，通过改变各平行部分的相对位置，可以改变针尖的形状，使针尖的受力方向发生改变，进而改变柔性针的前进方向，由此可对多种曲线路径进行跟踪，但是针体的设计加工难度较大。

坦普尔大学的V.Zhao等人将形状记忆合金应用到柔性针的针尖设计中，通过外部改变柔性针的温度来改变整个柔性针针体的形状，实现改变柔性针前进方向的目的，但是整个针体的形变程度较小，也无法实现对针尖弯曲程度的精确控制。

约翰霍普金斯大学的Webster等人对普通斜尖柔性针的穿刺过程进行研究，提出了用于斜尖柔性针运动分析的自行车模型，同时其证明了柔性针在组织中的路径为圆弧形，并给出了曲率与针的参数的关系(Webster,and J.R.."Nonholonomic Modeling ofNeedle Steering."The International Journal of Robotics Research 25.5-6(2006):509-525.)。卡耐基梅隆大学的Davneet S.Minhas在自行车模型的基础上提出了斜尖柔性针的占空比控制原理，利用柔性针的自转来改变针的运动路径的曲率，从而实现在平面之中改变柔性针的前进方向(Minhas D S,Engh J A,Fenske M M,et al.Modeling ofNeedle Steering via Duty-Cycled Spinning[J].Conference proceedings:.AnnualInternational Conference of the IEEE Engineering in Medicine and BiologySociety.IEEE Engineering in Medicine and Biology Society.Conference,2007,2007:2756-2759.)。但是其研究仅仅局限在平面的双圆弧形式的穿刺路径上，没有实现对三维空间中复杂路径的路径跟踪。

国内，哈尔滨工业大学杜志江将压电材料应用到了柔性针的设计中，通过压电效应，对柔性针施加不同程度的电压，来达到改变整个柔性针针体弯曲程度的目的，能够较为精确地控制柔性针的前进方向，但是整个针体的加工难度和生产成本较高。

哈尔滨工业大学赵燕江等人对Webster提出的斜尖柔性针的自行车模型进行了改进，提出了在穿刺过程中更加精确的带返程的自行车模型，但其并未对基于改进模型的控制算法进行深入研究，穿刺的轨迹仅局限在单圆弧形式和双圆弧形式上。

清华大学郑浩峻对柔性针穿刺过程中的受力进行了建模分析，提出了一种用于柔性针路径预测的悬臂梁模型，并利用其对柔性针穿刺过程中的误差进行了深入分析，但该模型仅限于物理特性均一化的组织中，与实际的非均一的人体组织结构存在一定的差异。

总体而言，目前国内外开展的柔性针路径跟踪方法存在穿刺范围有限或穿刺路径形式较为单一等不足。

发明内容

针对现有柔性针路径跟踪技术的不足，本发明的目的在于提供一种基于深度强化学习的斜尖柔性针路径跟踪用网络优化方法，通过对斜尖柔性针路径跟踪用动作网络的优化方法进行改进，基于深度强化学习并配合目标动作网络一起完成动作网络的训练优化；优化得到的动作网络能够进一步实现对斜尖柔性针三维路径的跟踪，尤其能对柔性针的复杂三维穿刺路径进行跟踪，与传统基于占空比的方法相比，拥有更小的路径跟踪误差。该优化方法、利用该优化方法得到的动作网络、及基于该优化动作网络的斜尖柔性针路径跟踪方法，不需要带有标注的训练样本，通过柔性针在路径跟踪中反馈的位置和误差信息，实现网络的自主训练和优化，逐步学习到用于跟踪斜尖柔性各种路径的策略，斜尖柔性针路径跟踪方法精度和灵活均更佳，可进一步实现在未知的人体组织环境中对斜尖柔性针的复杂运动路径进行跟踪的目的，并有助于柔性针避开血管和器官，减少对人体的损伤，提高穿刺手术的精度，具有重要的临床应用价值。

为实现上述目的，按照本发明，提供了一种基于深度强化学习的斜尖柔性针路径跟踪用动作网络的优化方法，其特征在于，包括以下步骤：

(1)基于斜尖柔性针的自行车模型，构建仿真环境；所述仿真环境包括斜尖柔性针模型，用于控制斜尖柔性针绕轴旋转的电机模型，以及用于推动斜尖柔性针前进的滑块导轨模型；在该仿真环境中，斜尖柔性针与旋转电机连接，而旋转电机则固定在滑块导轨中的滑块上；

(2)初始化整个斜尖柔性针模型，将柔性针的针尖位置设置为预先设定的初始化位置，将柔性针的针尖方向设置为预先设定的初始化方向，同时给出预先规划设定的跟踪路径；

(3)构建动作网络和目标动作网络，其中，所述动作网络的输出随时间的变化关系记为Q(t)函数，表示各个电机占空比对应动作的累积价值函数；所述目标动作网络的输出随时间的变化关系记为Q′(t)函数，表示各个电机占空比对应动作的目标累积价值函数；

(4)记t时刻下，包含柔性针的针尖位置和角度状态的信息为s(t)，通过所述动作网络生成的各个动作的累积价值函数为Q(t)，按照ε-greedy策略选择动作a(t)，根据选择的动作a(t)控制电机旋转带动柔性针旋转对应的角度，同时调节电机对应的占空比；记t+1时刻下，包含柔性针的针尖位置和角度状态的信息为s(t+1)，奖励信息为R(t+1)，在t+1时刻下，将[s(t),a(t),s(t+1),R(t+1)]整体作为一个样本存储到容量大小预先设定的经验池replay变量中，如此随着时间t的推进，将不同时刻对应的新样本不断放入replay变量的不同存储空间中直至训练结束；并且，当replay变量的存储空间饱和后，将最开始被存储的样本用新获得的样本替换，避免replay变量数据溢出；

(5)从replay变量中随机取出满足预先设定总数量要求的多个样本作为训练样本，对于其中的某个被取出的样本[s(t),a(t),s(t+1),R(t+1)]，将样本中的s(t)输入所述动作网络中，并从所述动作网络的输出中选择a(t)对应的累积价值函数Q(s(t),a(t))，同时，将样本中的s(t+1)输入到所述目标动作网络中，并从所述目标动作网络的输出中选择a(t)对应的目标累积价值函数Q′(s(t+1),a(t))；将γ·Q′(s(t+1),a(t))+R(t+1)作为Q(s(t),a(t))的目标值，其中γ为预先设定的衰减系数；整个所述动作网络的损失函数为loss＝Q(s(t),a(t))-(γ·Q′(s(t+1),a(t))+R(t+1))，利用梯度下降法对整个所述动作网络的参数进行训练更新；同时，所述目标动作网络按照预先设定的目标动作网络学习率学习所述动作网络的参数，由此实现所述目标动作网络参数的训练更新；如此在利用全部所述训练样本完成对所述动作网络和所述目标动作网络的训练后，接着再判断训练得到的所述动作网络和所述目标动作网络是否均收敛，不收敛的话则重复该步骤(5)直至收敛；训练好的收敛的所述动作网络，即为基于深度强化学习优化得到的斜尖柔性针路径跟踪用动作网络。

作为本发明的进一步优选，所述步骤(1)中，所述仿真环境还包括人体组织模型。

作为本发明的进一步优选，所述步骤(2)中，所述预先设定的初始化位置为所述预先规划设定的跟踪路径的起点，所述预先设定的初始化方向为水平方向。

作为本发明的进一步优选，所述步骤(3)构建的所述动作网络，包括依次相连的输入层、第一隐藏层、第二隐藏层、第三隐藏层和输出层，其中，所述输入层包含m个神经元，所述第一隐藏层包含n个神经元，所述第二隐藏层包含p个神经元；所述第三隐藏层包括两个部分，其中一个部分包含q个神经元用于刻画各个动作的选择对输出层的影响，另一个部分包含1个神经元用于传递环境信息对输出层的影响；所述输出层包含q个神经元；任意一个所述隐藏层的激活函数ReLu，所述输出层则无激活函数；

所述步骤(3)构建的所述目标动作网络，与所述动作网络相对应，包括依次相连的输入层、第一隐藏层、第二隐藏层、第三隐藏层和输出层，其中，所述输入层包含m个神经元，所述第一隐藏层包含n个神经元，所述第二隐藏层包含p个神经元；所述第三隐藏层包括两个部分，其中一个部分包含q个神经元用于刻画各个动作的选择对输出层的影响，另一个部分包含1个神经元用于传递环境信息对输出层的影响；所述输出层包含q个神经元；任意一个所述隐藏层的激活函数ReLu，所述输出层则无激活函数；

其中，m、n、p、q均为预先设定的正整数；优选的，m＝39，n＝100，p＝100，q＝360。

作为本发明的进一步优选，所述步骤(4)中，所述s(t)为一个1×39的矩阵；具体的，柔性针的针尖位置的信息对应一个3×1的矩阵，柔性针的角度状态的信息对应一个3×3的矩阵，预先规划设定的跟踪路径上针尖位置之后的10个点的位置信息为10个3×1的矩阵，将这10个点的位置信息矩阵分别与针尖位置信息的矩阵求差，再将差值矩阵与角度状态信息矩阵进行合并，得到含有39个元素的矩阵，再将该矩阵调整成一个1×39的矩阵即可。

作为本发明的进一步优选，所述步骤(4)中，按照ε-greedy策略选择动作a(t)的具体过程如下：

首先选择动作网络中Q(t)值最大的输出对应的动作，然后根据预先设定的概率ε的大小，采用随机选择的动作替代该动作，最终选择的动作为a(t)。

作为本发明的进一步优选，所述步骤(4)中，根据选择的动作a(t)控制电机旋转带动柔性针旋转对应的角度，具体计算公式为：

其中，Angle代表角度，

代表对

进行取整；

根据选择的动作a(t)同时调节电机对应的占空比，具体计算公式为：

其中，DC代表占空比，

代表对

进行取整。

作为本发明的进一步优选，所述步骤(5)中，所述利用梯度下降法对整个所述动作网络的参数进行训练更新，更新所满足的公式如下：

其中，W为所述动作网络的参数，α为预先设定的动作网络学习率。

作为本发明的进一步优选，所述步骤(5)中，所述目标动作网络按照预先设定的目标动作网络学习率学习所述动作网络的参数，由此实现所述目标动作网络参数的训练更新，更新所满足的公式如下：

其中W′为所述目标动作网络的参数，

为预先设定的目标动作网络学习率。

作为本发明的进一步优选，所述步骤(5)中，γ＝0.99。

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

本发明是基于深度强化学习并配合目标动作网络一起完成对动作网络的训练优化，优化得到的动作网络能够进一步实现对斜尖柔性针三维路径的跟踪。在本发明中，不局限于目标跟踪和平面的路径跟踪，将跟踪路径上的点而非目标点的位置作为动作网络的输入，实现对三维空间中复杂路径的跟踪。训练收敛后动作网络和目标网络参数趋同，之所以设置2个网络，它们的作用主要体现在训练过程中目标值的生成上。

在本发明中，不局限于针尖位置之后的跟踪路径上的单点，而是将针尖位置之后目标路径上的10个点的位置信息作为动作网络的输入，使动作网络的控制策略更加具有全局性，实现从局部最优到全局最优的过渡，降低了动作网络在整体上的跟踪误差。更多的观测点能够使控制策略更加具有全局性，但是这么多的观测点带来的位置信息要如何处理，这是个尤其需要攻克的难题；本发明中基于深度强化学习，通过使用深度强化学习来训练动作网络，训练优化得到的动作网络能够进一步用于分析这么多观测点下如何控制动作，也就是说，基于本发明优化方法及优化得到的动作网络，本发明能够将更多的信息输入到能够处理更多信息的网络进行处理以进行决策，比现有技术中只用局限少量信息进行简单推导的结果更优。

本发明尤其通过使用特定层结构及神经元数量设置的网络，这些特定的参数是仿真验证的一套与目标路径上的10个点的要求相匹配的模型参数，控制系统仿真后效果较好，同时结构相对小、方便快速收敛。

基于本发明优化方法得到的动作网络能够进一步实现对斜尖柔性针三维路径的跟踪，例如可根据实际的跟踪路径要求，得到柔性针针尖位置随时间的变化规律，以及柔性针角度状态随时间的变化规律，将它们输入到训练好的收敛的所述动作网络，选取输出值最大的动作作为柔性针控制信号，从而实现斜尖柔性针路径跟踪。本发明可实现斜尖柔性针对三维空间中复杂路径的跟踪，同时通过采集路径上多点作为网络输入实现了从局部最优到全局最优的过渡，降低了控制网络在整个规划路径上的跟踪误差。本发明中基于深度强化学习的斜尖柔性针路径跟踪用动作网络的优化方法，以及进一步利用该优化方法所得动作网络的斜尖柔性针路径跟踪方法，对斜尖柔性针的结构没有其他特殊要求，适用于各种通用的斜尖柔性针。

附图说明

图1为本发明中基于深度强化学习的斜尖柔性针路径跟踪用动作网络的优化方法的流程图。

图2为动作网络和目标动作网络结构示意图；图2中的(a)对应动作网络，图2中的(b)对应目标动作网络，图中各结构层名称后括号中所示出的阿拉伯数字代表该层的神经元个数。

图3为圆弧路径跟踪结果及误差；图3中的(a)对应路径跟踪结果，图3中的(b)对应误差。

图4为RRT生成路径跟踪结果及误差；图4中的(a)对应路径跟踪结果，图4中的(b)对应误差。

图5为螺旋路径跟踪结果及误差；图5中的(a)对应路径跟踪结果，图5中的(b)对应误差。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

总体来说，本发明基于深度强化学习的斜尖柔性针路径跟踪用动作网络的优化方法，包括：构建仿真模型；初始化穿刺系统模型；构建动作网络和目标动作网络；获取当前系统状态；获取执行动作；获取动作执行之后的系统状态和奖励；在网络收敛之前不断收集样本；在样本达到指定数量时随机选取一定数量样本，进而获得目标动作网络中对应动作的输出值；获得动作网络损失；利用梯度下降算法更新动作网络参数；更新目标动作网络学习主网络参数；重复训练过程直到网络收敛。优化得到的网络能够进一步用于实现对斜尖柔性针的控制，例如，在应用时，可根据实际的跟踪路径要求，得到柔性针针尖位置随时间的变化规律，以及柔性针角度状态随时间的变化规律，将它们输入到训练好的收敛的动作网络，选取输出值最大的动作作为柔性针控制信号，从而实现斜尖柔性针路径跟踪，利用获得的动作网络进行斜尖柔性针控制。

以下为具体实施例：

实施例1

图1是本发明中基于深度强化学习的斜尖柔性针路径跟踪用动作网络的优化方法的流程图。如图1所示，该方法包括如下步骤：

1)在Webster提出的斜尖柔性针的自行车模型基础上构建仿真环境(Webster,andJ.R.."Nonholonomic Modeling of Needle Steering."The International Journal ofRobotics Research 25.5-6(2006):509-525.)。仿真环境包括：人体组织模型，斜尖柔性针模型，用于控制斜尖柔性针绕轴旋转的电机模型，用于推动斜尖柔性针前进的滑块导轨模型。其中，斜尖柔性针与旋转电机连接，而旋转电机则固定在导轨中的滑块上。

2)初始化整个斜尖柔性针模型。给出规划路径上的所有点的位置信息，将斜尖柔性针针尖的初始位置设在跟踪路径的起点处，将针尖方向设为水平。

3)构建动作网络和目标动作网络，构建动作网络与目标动作网络中的动作网络包含一个输入层，两个隐藏层和一个输出层。其中输入层包含39个神经元，两个隐藏层各包含100个神经元，输出层包含360个神经元。隐藏层的激活函数为ReLu，输出层无激活函数。目标动作网络结构与动作网络结构相同。其中动作网络的输出为Q(t)，表示各个动作累积价值函数。目标动作网络的输出为Q′(t)，表示各个动作的目标累积价值函数。

4)在t时刻，系统的状态为s(t)，s(t)为一个1×39的矩阵，针尖的位置信息为一个3×1的矩阵(即，将位置信息在三维空间下的三维空间坐标记为一个3×1的列向量)，方向信息为一个3×3的矩阵，目标路径上针尖之后10个点的位置信息为10个3×1的矩阵，对目标路径上点的位置矩阵与针尖位置求差，将差值矩阵与针尖方向信息的矩阵合并，并调整为1×39的矩阵，该矩阵保存至replay，作为后面控制网络的输入。

5)通过动作网络生成的各个动作的累积价值函数为Q(t)，按照现有技术中常规的ε-greedy策略选择动作a(t)的过程如下。首先选择动作网络中Q值最大的输出对应的动作，然后根据概率ε的大小(ε的取值大小预先设定，例如，可以为0.1)，采用随机选择的动作替代该动作，最终选择的动作为a(t)。

6)根据选择的动作a(t)控制电机旋转对应的角度，同时调节电机至指定的占空比。a(t)对应的旋转角度的公式为Angle＝10[a(t)/10]，其中Angle为对应的柔性针旋转角度，[]为取整符号。a(t)对应的占空比公式为DC＝(a(t)-[a(t)/10])/10，其中DC为电机对应的旋转占空比。在t+1时刻，获取斜尖柔性针的位置和角度信息s(t+1)以及奖励信息R(t+1)。s(t+1)为时间t的函数，其变化规律可以根据超声图像或其他途径确定；奖励信息R(t+1)既可以是t的函数，也可以是常量，以便于训练。

7)将[s(t),a(t),s(t+1),R(t+1)]作为一个训练样本存储到replay变量中。不断地将新样本放入replay变量中，一直持续到训练结束；当replay的存储饱和后，将最开始的训练样本用新获得的训练样本替换。

本实施例中，replay变量的大小为25000个，即可以存储25000个样本标签对；t+1中的时间1，是一个单位时间，在本实施例中为0.1s(即，本实施例在计算机中仿真时对应的是计算机的时钟周期)，当然，若采用其他计算机的时钟周期，这一单位时间的绝对长度也可以对应调整。

8)判断replay是否饱和，若未饱和，则重复步骤5到步骤8的训练样本收集工作。继续判断网络是否收敛，如果未收敛，重复步骤5到步骤7的训练样本收集工作，否则结束训练。

9)当replay中存储样本饱和后，从replay中随机取出一定数量的样本，将取出样本中的s(t)输入动作网络中，并从网络的输出中选择a(t)对应的累积价值函数Q(s(t),a(t))，将样本中的s(t+1)输入到目标动作网络中并从网络的输出中选择a(t)对应的累积价值函数Q′(s(t+1),a(t))。

10)将γ·Q′(s(t+1),a(t))+R(t+1)作为Q(s(t),a(t))的目标值，其中γ为预先设定的衰减系数，代表了未来的奖励折算到现在的折扣值，本实施例中取γ＝0.99。整个动作网络的损失函数为loss＝Q(s(t),a(t))-(γ·Q′(s(t+1),a(t))+R(t+1))。

11)利用梯度下降法对整个动作网络的参数进行更新，更新的公式如下：

其中W为动作网络的参数，α为预先设定的动作网络学习率(α的取值在本实施例中预先设定为0.001)。

12)目标动作网络按照一定的学习率学习主网络的参数，由此实现网络参数的更新。更新的公式如下：

其中W′为目标动作网络的参数；

为预先设定的目标动作网络学习率，本实施例中采用0.001，当然也可以采用与0.001量级相当的其他值。

13)当动作网络和目标动作网络收敛时(收敛后动作网络和目标网络参数趋同，不论是动作网络，还是目标动作网络收敛，当跟踪误差不再下降或者下降非常缓慢的时候，可以认为网络已经收敛)，结束训练。否则重复步骤9到步骤13。

可以利用训练得到的动作网络进行斜尖柔性针的路径跟踪控制，例如，根据实际的跟踪路径要求，得到柔性针针尖位置随时间的变化规律，以及柔性针角度状态随时间的变化规律，将它们输入到训练好的收敛的动作网络，选取输出值最大的动作作为柔性针控制信号，从而实现斜尖柔性针路径跟踪。

图2是本发明中动作网络和目标动作网络结构示意图。如图2所示，动作网络包含一个输入层I，三个隐藏层h1，h2，h3，一个输出层O。输入层I包含39个神经元，隐藏层h1包含100个神经元，激活函数为ReLu，其公式为

x表示神经元输入，y表示神经元输出；隐藏层h2包含100个神经元，激活函数为ReLu；隐藏层h3包含分开的两部分，第一部分包含360个神经元，其输出为A(a_t)，第二部分包含1个神经元，其输出为V(s_t)，这一层的隐藏层没有激活函数。输出层O包含360个神经元，隐藏层h3的A(a_t)的输出先减去整个A(a_t)输出的均值，然后加上单个V(s_t)的输出，然后一对一的与输出层O进行连接。目标动作网络与动作网络结构相同。当然，各个层结构的神经元的数量，像39、100、100、360、360，也可以取其他正整数，但是最后一层的隐藏层必须要有单独的1个神经元的组成部分，用于传递环境信息对输出层的影响。

应用本发明优化动作网络的柔性针路径跟踪方法，从图3、图4、图5可知，不同的路径均能够完成跟踪，且跟踪误差能够控制在很小的范围内。

表1为相同实验环境中不同噪声强度下传统占空比控制方法与本发明方法的总跟踪误差。

表1

传统占空比控制方法的原理可参考Minhas D S,Engh J A,Fenske M M,etal.Modeling of Needle Steering via Duty-Cycled Spinning[J].Conferenceproceedings:.Annual International Conference of the IEEE Engineering inMedicine and Biology Society.IEEE Engineering in Medicine and BiologySociety.Conference,2007,2007:2756-2759.。

本发明中的取整，可以为四舍五入取整，也可以是向上取整，或向下取整，任选其一即可。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的斜尖柔性针路径跟踪用动作网络的优化方法，其特征在于，包括以下步骤：

(1)基于斜尖柔性针的自行车模型，构建仿真环境；所述仿真环境包括斜尖柔性针模型，用于实现斜尖柔性针绕轴旋转的电机模型，以及用于实现斜尖柔性针前进的滑块导轨模型；在该仿真环境中，斜尖柔性针与旋转电机连接，而旋转电机则固定在滑块导轨中的滑块上；

2.如权利要求1所述优化方法，其特征在于，所述步骤(1)中，所述仿真环境还包括人体组织模型。

3.如权利要求1所述优化方法，其特征在于，所述步骤(2)中，所述预先设定的初始化位置为所述预先规划设定的跟踪路径的起点，所述预先设定的初始化方向为水平方向。

4.如权利要求1所述优化方法，其特征在于，所述步骤(3)构建的所述动作网络，包括依次相连的输入层、第一隐藏层、第二隐藏层、第三隐藏层和输出层，其中，所述输入层包含m个神经元，所述第一隐藏层包含n个神经元，所述第二隐藏层包含p个神经元；所述第三隐藏层包括两个部分，其中一个部分包含q个神经元用于刻画各个动作的选择对输出层的影响，另一个部分包含1个神经元用于传递环境信息对输出层的影响；所述输出层包含q个神经元；任意一个所述隐藏层的激活函数ReLu，所述输出层则无激活函数；

其中，m、n、p、q均为预先设定的正整数。

5.如权利要求4所述优化方法，其特征在于，m＝39，n＝100，p＝100，q＝360。

6.如权利要求1所述优化方法，其特征在于，所述步骤(4)中，所述s(t)为一个1×39的矩阵；具体的，柔性针的针尖位置的信息对应一个3×1的矩阵，柔性针的角度状态的信息对应一个3×3的矩阵，预先规划设定的跟踪路径上针尖位置之后的10个点的位置信息为10个3×1的矩阵，将这10个点的位置信息矩阵分别与针尖位置信息的矩阵求差，再将差值矩阵与角度状态信息矩阵进行合并，得到含有39个元素的矩阵，再将该矩阵调整成一个1×39的矩阵即可。

7.如权利要求1所述优化方法，其特征在于，所述步骤(4)中，按照ε-greedy策略选择动作a(t)的具体过程如下：

8.如权利要求1所述优化方法，其特征在于，所述步骤(4)中，根据选择的动作a(t)控制电机旋转带动柔性针旋转对应的角度，具体计算公式为：