CN114118771B

CN114118771B - 基于深度强化学习的血管介入手术训练构建方法及系统

Info

Publication number: CN114118771B
Application number: CN202111398773.6A
Authority: CN
Inventors: 王宇; 王娟; 任诚; 李亚鑫
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2023-08-01
Anticipated expiration: 2041-11-19
Also published as: CN114118771A

Abstract

本发明提供了基于深度强化学习的血管介入手术训练构建方法及系统，方法包括采集介入专家医生的操作信息以及对应的导管尖端的位置坐标数据，所述操作信息包括导管尖端在血管环境中的各个位置坐标中所施加的力与力矩数据，形成数据集；再采用深度强化学习的方式构建基于介入专家医生的操作信息以及对应的导管尖端的位置坐标数据的训练指导模型，并使用数据集对所述训练指导模型进行更新训练；系统适用于方法；本发明通过深度强化学习算法提取专家医生的操作经验，再用于对受训者进行训练指导和定量评价；解决了传统训练方式只能依靠受训者盲目探索和机械性重复导致的训练效率低下且存在技术瓶颈的问题。

Description

基于深度强化学习的血管介入手术训练构建方法及系统

技术领域

本发明涉及血管介入手术模拟技术领域，具体而言，涉及基于深度强化学习的血管介入手术训练构建方法及系统。

背景技术

心脑血管疾病传统的治疗方案为药物治疗和外科手术治疗两种，分别具有治疗效果不明显和并发症多等缺点。介入手术治疗方案因手术创口小，治疗效果有效，并发症少等优点而倍受关注。

血管介入手术医生需要通过大量的训练才能达到上岗要求，传统训练方式不能完全呈现活体的一些生物体特征且训练机会较少，无法满足大量医生长期训练的要求；使用橡胶模型，无法达到生物学仿真要求，缺乏活体真实感，并且人体模型价格高昂，使训练成本增大；使用动物训练，动物与人类生物体结构差异很大，不能提供高质量的训练环境和模拟手段。随着计算机技术的不断进步，虚拟现实技术以其自身可以为操作者提供视觉直观感受和触觉亲身体验的好处，使得基于虚拟现实技术的血管介入手术训练系统被广泛提出和应用；但训练过程仍然多依靠受训者盲目性探索和机械性重复来完成操作技能的提升，且这种盲目的训练方式导致受训者很容易进入训练疲劳期，从而不能取得很好的训练效果。

基于以上，本申请希望通过深度强化学习算法提取专家医生的操作经验，再用于对受训者进行训练指导和定量评价。

发明内容

本发明的目的在于提供基于深度强化学习的血管介入手术训练构建方法及系统，其通过深度强化学习算法提取专家医生的操作经验，再用于对受训者进行训练指导和定量评价。

本发明的实施例通过以下技术方案实现：

第一方面，提供基于深度强化学习的血管介入手术训练系统构建方法，包括如下步骤：

S1.采集介入专家医生的操作信息以及对应的导管尖端的位置坐标数据，所述操作信息包括导管尖端在不同血管环境中的各个位置坐标中所施加的力与力矩数据；所述操作信息与导管尖端的位置坐标数据汇总为数据集(S，A，R，S′)，其中S表示导管尖端在血管内腔中的位置坐标构成的集合，A表示介入专家医生每次操作导管的力与力矩信息所构成的集合，R表示介入专家医生实施相应动作之后所获得的奖励集，S′表示导管完成相应动作之后导管尖端在血管内腔的新位置坐标构成的集合；

S2.采用深度强化学习的方式构建基于介入专家医生的操作信息以及对应的导管尖端的位置坐标数据的训练指导模型；并使用数据集(S，A，R，S′)对所述训练指导模型进行更新训练。

进一步的，所述训练指导模型的构建包括，设置值函数网络的参数更新方式，向着估计的Q值和实际的Q值的平方损失最小的方向进行，得到损失函数如下式(1)，

其中，Q值的大小表征当前策略的优劣，N表示数据集(S，A，R，S′)中的数据组数，i表示N组数据中的第i组，s_i表示导管尖端在血管内腔中的位置坐标构成的集合S中的第i组数据，a_i表示介入专家医生每次操作导管的力与力矩信息所构成的集合A中的第i组数据，θ^Q表示值函数网络的权重参数，y_i表示状态现实网络输出的Q值和奖励集R的和。

进一步的，所述训练指导模型的构建还包括，设置策略网络参数，通过值函数采用梯度下降的方式来更新策略网络的参数，此时值函数采用梯度下降更新的方式得到的损失函数如下式(2)，

其中，J为策略网络的值函数，θ^μ为策略网络的权重参数，Q(s,a|θ^Q)表示值函数网络的输出，μ(s|θ^μ)表示策略网络的输出。

进一步的，所述使用数据集(S，A，R，S′)对所述训练指导模型进行更新训练具体为，将数据集(S，A，R，S′)存储于经验回放池中，采用随机采样策略在经验回访池中采集固定数量的数据对值函数网络与策略网络进行更新，循环上述更新过程，直至算法收敛，得到更新后的训练指导模型。

第二方面，提供基于深度强化学习的血管介入手术训练评分方法，应用于上述的基于深度强化学习的血管介入手术训练系统构建方法，当训练者在进行介入操作时，训练指导模型根据导管尖端所在血管环境中的位置坐标数据得到最优操作信息，最优操作信息包括当前血管环境中导管尖端位置坐标以及对应的第一操作力与第一操作力矩数据，将操作者在该坐标下的施加的第二操作力减第一操作力后得到差值x，将操作者在该坐标下的施加的第二操作力矩减第一操作力矩后得到差值h，当x、h均在预设的阈值范围内时当前坐标环境下采取的操作为合格，否则为不合格。

进一步的，包括为操作者提供触觉反馈，当所述差值x、h小于预设的阈值时，无触觉反馈，当所述差值x大于预设的阈值时，提供轴向触觉反馈，当所述差值h大于预设的阈值时，提供周向触觉反馈。

第三方面，提供基于深度强化学习的血管介入手术训练系统，应用于上述的基于深度强化学习的血管介入手术训练系统构建方法，包括导管操作设备、环境构建模块、深度强化学习模块以及评分模块；

所述导管操作设备用于作为受训者的训练操作设备，采集操作时的力与力矩数据并反馈导管在视觉环境中的碰撞信息；所述环境构建模块用于构建血管介入手术训练时的视觉环境并可实时记录导管尖端的坐标信息；所述深度强化学习模块用于通过学习专家医生的操作行为数据来实现训练时的主动引导；所述评分模块用于对操作者的操作进行评价打分。

进一步的，所述导管操作设备包括手控操作机构、数据采集模块以及触觉反馈模块，所述数据采集模块与触觉反馈模块均设置于所述手控操作机构上，所述数据采集模块用于采集操作所述手控操作机构时所施加的力与力矩，所述触觉反馈模块用于产生轴向和周向的两自由度触觉实现主动引导。

进一步的，所述环境构建模块包括血管与导管构建单元以及碰撞检测单元，所述血管与导管构建单元用于构建血管模型与导管模型，所述血管模型与导管模型的建立均包括视觉模型建模与物理建模，其中，视觉模型建模用于完成虚拟环境中物体的三维构型，并反应物体的表面结构，完成视觉效果上与真实物体的近似；物理建模则是在几何模型的基础上为物体模型添加运动约束条件，模拟物体的物理特性；所述碰撞检测单元根据所述血管视觉模型中的面数据与所述导管视觉模型中的顶点数据的交汇区域情况进行碰撞检测。

进一步的，所述血管视觉模型建模具体包括使用磁共振成像的方式获取真实的血管几何模型，将血管几何模型中的噪点以及重叠的血管树删除，再将优化后的所述血管几何模型进行渲染着色得到血管视觉模型；所述导管视觉模型建模包括将导管的几何模型平均分为若干段，其中每段的长度为导管直径的1-2倍，再将导管的几何模型渲染着色获取导管视觉模型。

本发明实施例的技术方案至少具有如下优点和有益效果：

本申请通过深度强化学习算法提取专家医生的操作经验，再用于对受训者进行训练指导和定量评价；解决了传统训练方式只能依靠受训者盲目性探索和机械性重复导致的训练效率低下且存在技术瓶颈的问题；并且利用深度强化学习算法训练的得到的专家医生经验模型能够对受训者的操作进行定量评价，解决了传统评价方式中需要依靠专家医生主观判断的问题，使得操作的定量评价系统更具有客观性和公平性。同时给出了基于深度强化学习的训练系统构建方法，使得所构建的系统更能帮助受训者进行高效训练。

附图说明

图1为本发明提供的血管介入手术训练系统构建方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

随着计算机技术的不断进步，虚拟现实技术以其自身可以为操作者提供视觉直观感受和触觉亲身体验的好处，使得基于虚拟现实技术的血管介入手术训练系统被广泛提出和应用；但训练过程仍然多依靠受训者的盲目探索和机械性重复来完成操作技能的提升，且这种盲目的训练方式导致受训者很容易进入训练疲劳期，从而不能取得很好的训练效果。

基于此，本申请提供基于深度强化学习的血管介入手术训练系统构建方法，如图1所示，包括如下步骤：

上述训练指导模型的构建包括，设置值函数网络的参数更新方式，向着估计的Q值和实际的Q值的平方损失最小的方向进行，得到损失函数如下式(1)，

其中，y_i的获得方式如下式(3)所示，

y_i＝R(s_i，a_i)+γQ′(s_i+1，μ′(S_i+1|θ^μ′)|θ^Q′) (3)

上述训练指导模型的构建还包括，设置策略网络参数，通过值函数采用梯度下降的方式来更新策略网络的参数，此时值函数采用梯度下降更新的方式得到的损失函数如下式(2)，

为了使得学习过程更加稳定，算法收敛更有保障，对策略和值函数分别使用两个神经网络来完成训练过程，即深度强化学习框架由四个深度神经网络组成，分别是：主策略网络、目标策略网络、主值函数网络和目标值函数网络。并且目标网络的参数由主网络采用软更新的方式进行更新，进一步保证了学习过程中的稳定性。

构建好值函数网络与策略网络后，将数据集(S，A，R，S′)存储于经验回放池中，采用随机采样策略在经验回访池中采集固定数量的数据对值函数网络与策略网络进行更新，循环上述更新过程，直至算法收敛，得到更新后的训练指导模型。

在深度强化学习算法中，需要用到深度神经网络，而深度神经网络作为有监督学习模型，数据要求独立同分布。所以利用经验回放池采用先存储然后随机采样的方法，打破了数据的关联性，并且经验回放机制的使用也提高了数据利用率。

为了对受训者的操作进行客观且公正的定量评价，本申请还提出如下的评分方法：

基于深度强化学习的血管介入手术训练评分方法，其应用于上述的基于深度强化学习的血管介入手术训练系统构建方法；具体方法为：当训练者在进行介入操作时，训练指导模型根据导管尖端所在血管环境中的位置坐标数据得到最优操作信息，最优操作信息包括当前血管环境中导管尖端位置坐标以及对应的第一操作力与第一操作力矩数据，将操作者在该坐标下的施加的第二操作力减第一操作力后得到差值x，将操作者在该坐标下的施加的第二操作力矩减第一操作力矩后得到差值h，当x、h均在预设的阈值范围内时当前坐标环境下采取的操作为合格，否则为不合格。

该评分方法还包括为操作者提供触觉反馈，当所述差值x、h小于预设的阈值时，无触觉反馈，当所述差值x大于预设的阈值时，提供轴向触觉反馈，当所述差值h大于预设的阈值时，提供周向触觉反馈。

另外，还能利用训练好的值函数网络对受训者的每个操作进行评分，即对应的导管尖端状态和受训者的操作力/力矩信息作为值函数网络的输入，而值函数网络的输出Q(s,a)的大小表征了受训者所采取动作的质量，将受训者的每一个操作的评分相加和求平均，最终得到用于评价受训者操作的分数，实现受训者操作的定量评价。

为了得到更适合本申请训练系统构建方法与评分方法的训练系统，本申请还提供了如下的训练系统：

基于深度强化学习的血管介入手术训练系统，应用于上述的基于深度强化学习的血管介入手术训练系统构建方法；该系统包括导管操作设备、环境构建模块、深度强化学习模块以及评分模块；

其中，所述导管操作设备包括手控操作机构、数据采集模块以及触觉反馈模块，所述数据采集模块与触觉反馈模块均设置于所述手控操作机构上，所述数据采集模块用于采集操作所述手控操作机构时所施加的力与力矩，所述触觉反馈模块用于产生轴向和周向的两自由度触觉实现主动引导。

可以知晓的是，所述环境构建模块包括血管与导管构建单元以及碰撞检测单元，所述血管与导管构建单元用于构建血管模型与导管模型，所述血管模型与导管模型的建立均包括视觉模型建模与物理建模，其中，视觉模型建模用于完成虚拟环境中物体的三维构型，并反应物体的表面结构，完成视觉效果上与真实物体的近似；物理建模则是在几何模型的基础上为物体模型添加运动约束条件，模拟物体的物理特性；所述碰撞检测单元根据所述血管视觉模型中的面数据与所述导管视觉模型中的顶点数据的交汇区域情况进行碰撞检测。

以及所述血管视觉模型建模具体包括使用磁共振成像的方式获取真实的血管几何模型，将血管几何模型中的噪点以及重叠的血管树删除，再将优化后的所述血管几何模型进行渲染着色得到血管视觉模型；所述导管视觉模型建模包括将导管的几何模型平均分为若干段，其中每段的长度为导管直径的1-2倍，再将导管的几何模型渲染着色获取导管视觉模型。

本申请通过深度强化学习算法提取专家医生的操作经验，再用于对受训者进行训练指导和定量评价；解决了传统训练方式只能依靠受训者盲目性探索和机械性重复导致的训练效率低下且存在技术瓶颈的问题；并且利用深度强化学习算法训练的得到的专家医生经验模型能够对受训者的操作进行定量评价，解决了传统评价方式中需要依靠专家医生的主观判断的问题，使得操作的定量评价系统更具有客观性和公平性。同时给出了基于深度强化学习的训练系统构建方法，使得所构建的系统更能帮助受训者进行高效训练。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度强化学习的血管介入手术训练系统构建方法，其特征在于，包括如下步骤：

S2.采用深度强化学习的方式构建基于介入专家医生的操作信息以及对应的导管尖端的位置坐标数据的训练指导模型；并使用数据集(S，A，R，S′)对所述训练指导模型进行更新训练；

所述训练指导模型的构建包括，设置值函数网络的参数更新方式，向着估计的Q值和实际的Q值的平方损失最小的方向进行，得到损失函数如下式(1)，

其中，Q值的大小表征当前策略的优劣，N表示数据集(S，A，R，S′)中的数据组数，i表示N组数据中的第i组，s_i表示导管尖端在血管内腔中的位置坐标构成的集合S中的第i组数据，a_i表示介入专家医生每次操作导管的力与力矩信息所构成的集合A中的第i组数据，θ^Q表示值函数网络的权重参数，y_i表示状态现实网络输出的Q值和奖励集R的和；以及设置策略网络参数，通过值函数采用梯度下降的方式来更新策略网络的参数，此时值函数采用梯度下降更新的方式得到的损失函数如下式(2)，

其中，J为策略网络的值函数，θ^μ为策略网络的权重参数，Q(s,a|θ^Q)表示值函数网络的输出，μ(s|θ^μ)表示策略网络的输出；其中，y_i的获得方式如下式(3)所示，

y_i＝R(s_i，a_i)+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′) (3)；

所述使用数据集(S，A，R，S′)对所述训练指导模型进行更新训练具体为，将数据集(S，A，R，S′)存储于经验回放池中，采用随机采样策略在经验回访池中采集固定数量的数据对值函数网络与策略网络进行更新，循环上述更新过程，直至算法收敛，得到更新后的训练指导模型。

2.基于深度强化学习的血管介入手术训练评分方法，应用于权利要求1所述的基于深度强化学习的血管介入手术训练系统构建方法，其特征在于，当训练者在虚拟环境中进行介入操作时，训练指导模型根据导管尖端所在血管环境中的位置坐标数据得到最优操作信息，最优操作信息包括当前血管环境中导管尖端位置坐标以及对应的第一操作力与第一操作力矩数据，将操作者在该坐标下的施加的第二操作力减第一操作力后得到差值x，将操作者在该坐标下的施加的第二操作力矩减第一操作力矩后得到差值h，当x、h均在预设的阈值范围内时当前坐标环境下采取的操作为合格，否则为不合格。

3.根据权利要求2所述的基于深度强化学习的血管介入手术训练评分方法，其特征在于，还包括为操作者提供触觉反馈，当所述差值x、h小于预设的阈值时，无触觉反馈，当所述差值x大于预设的阈值时，提供轴向触觉反馈，当所述差值h大于预设的阈值时，提供周向触觉反馈。

4.基于深度强化学习的血管介入手术训练系统，应用于权利要求1所述的基于深度强化学习的血管介入手术训练系统构建方法，其特征在于，包括导管操作设备、环境构建模块、深度强化学习模块以及评分模块；

5.根据权利要求4所述的基于深度强化学习的血管介入手术训练系统，其特征在于，所述导管操作设备包括手控操作机构、数据采集模块以及触觉反馈模块，所述数据采集模块与触觉反馈模块均设置于所述手控操作机构上，所述数据采集模块用于采集操作所述手控操作机构时所施加的力与力矩，所述触觉反馈模块用于产生轴向和周向的两自由度触觉实现主动引导。

6.根据权利要求4所述的基于深度强化学习的血管介入手术训练系统，其特征在于，所述环境构建模块包括血管与导管构建单元以及碰撞检测单元，所述血管与导管构建单元用于构建血管模型与导管模型，所述血管模型与导管模型的建立均包括视觉模型建模与物理建模，其中，视觉模型建模用于完成虚拟环境中物体的三维构型，并反应物体的表面结构，完成视觉效果上与真实物体的近似；物理建模则是在几何模型的基础上为物体模型添加运动约束条件，模拟物体的物理特性；所述碰撞检测单元根据所述血管视觉模型中的面数据与所述导管视觉模型中的顶点数据的交汇区域情况进行碰撞检测。

7.根据权利要求6所述的基于深度强化学习的血管介入手术训练系统，其特征在于，所述血管视觉模型建模具体包括使用磁共振成像的方式获取真实的血管几何模型，将血管几何模型中的噪点以及重叠的血管树删除，再将优化后的所述血管几何模型进行渲染着色得到血管视觉模型；所述导管视觉模型建模包括将导管的几何模型平均分为若干段，其中每段的长度为导管直径的1-2倍，再将导管的几何模型渲染着色获取导管视觉模型。