CN116229065B

CN116229065B - 一种基于多分支融合的机器人手术器械分割方法

Info

Publication number: CN116229065B
Application number: CN202310109939.0A
Authority: CN
Inventors: 刘敏; 梁博旭; 韩雨斌; 张哲�; 王耀南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-12-01
Anticipated expiration: 2043-02-14
Also published as: CN116229065A

Abstract

本发明公开了一种基于多分支融合的机器人手术器械分割方法，其方法包括：获取腔镜影像数据，构建分支聚合注意力网络模型，分支聚合注意力网络模型包括编码器、分支均衡聚合模块以及分块注意力融合模块；根据腔镜影像数据通过编码器生成特征图，特征图包括多个，将每个特征图作为一个分支；根据各分支的特征图通过分支均衡聚合模块得到低阶特征图；将第一分支的特征图与第二分支的低阶特征图经过一分块注意力融合模块进行处理后融合，得到融合特征图；将融合特征图与下一分支的低阶特征图进行融合；以此循环，直至遍历完所有分支；将最后得到的融合特征图作为手术器械分割结果。本发明能够提高手术器械分割的精度。

Description

一种基于多分支融合的机器人手术器械分割方法

技术领域

本发明涉及计算机视觉和手术器械分割技术领域，具体涉及一种基于多分支融合的机器人手术器械分割方法。

背景技术

手术机器人近年来发展迅速，因为它们可以使手术过程更安全、创伤性更小。然而，现有的手术机器人仍然面临一些技术挑战，例如：难以识别手术目标和机器人无法自主规划手术路径。为了解决这些问题，需要进一步发展智能技术。手术器械分割作为智能手术机器人的关键技术之一，旨在将手术器械从背景中区分出来，让医生准确识别手术器械的种类和位置。

然而，由于分割场景的独特性，手术器械分割是一项艰巨的任务。其难点为：（1）会产生大量的噪声影响手术器械分割；如：手术器械照明产生反射；超声波手术刀切割组织时，组织液会蒸发并形成水雾；由于手术器械的移动从而引起的手术器械模糊；（2）由于手术视野有限，同一手术器械总是以不同的形式出现，有时作为一个整体出现，有时只出现在特定的区域。

以前的研究很少关注手术过程可能引入的噪声问题，也没有充分考虑手术器械的各种姿态，这可能导致在某些情况下器械分割效果不佳。

发明内容

基于此，有必要针对现有的问题，提出一种基于多分支融合的机器人手术器械分割方法。

本发明提出了一种基于多分支融合的机器人手术器械分割方法，该方法包括：

S1：获取腔镜影像数据；构建分支聚合注意力网络模型；所述分支聚合注意力网络模型包括编码器、分支均衡聚合模块以及分块注意力融合模块；

S2：根据所述腔镜影像数据通过所述编码器生成特征图；所述特征图包括多个；将每个所述特征图作为一个分支；

S3：根据各分支的所述特征图得到低阶特征图，所述低阶特征图包括多个；

S4：将第一分支的所述特征图与第二分支的所述低阶特征图经过一所述分块注意力融合模块进行处理后融合，得到融合特征图；将所述融合特征图与下一分支的所述低阶特征图进行融合；以此循环，直至遍历完所有分支；将最后得到的所述融合特征图作为手术器械分割结果。

优选的，S1中，所述分块注意力融合模块作为解码器；所述分块注意力融合模块包括多个。

优选的，所述编码器为轻量化网络MobileNetV2；所述编码器根据腔镜影像数据生成不同尺寸的特征图。

优选的，S3中，所述分支均衡聚合模块对每个分支的所述特征图进行上采样，将各上采样之后的特征图进行逐元素加法运算，得到各分支的过渡特征图；将每个分支的过渡特征图与其分支的所述特征图相乘，得到所述低阶特征图。

优选的，所述低阶特征图计算公式为：

；

其中，表示第m个分支的输出；X_m表示第m个分支的特征图；g()表示用特征图进行上采样并调整通道数；X_i表示第i个分支的特征图。

优选的，每个所述分块注意力融合模块均包括通道注意力模块和空间注意力模块。

优选的，S4中，对第一分支的所述特征图的处理包括：

将第一分支的所述特征图通过所述通道注意力模块进行最大池化操作以及平均池化操作，将得到的第一最大池化值以及第一平均池化值，通过多层感知器并进行逐元素加法运算，将相加的结果进行sigmoid函数操作得到第一通道注意力特征图；所述空间注意力模块将所述第一通道注意力特征图沿通道方向进行最大池化操作以及平均池化操作，将得到的第二最大池化值以及第二平均池化值，进行拼接并进行sigmoid函数操作得到第一空间注意力特征图；

将第一分支的所述特征图沿高度和宽度方向均分为四块，将分块后的第一分支的所述特征图通过所述通道注意力模块进行最大池化操作以及平均池化操作，将得到的第二最大池化值以及第二平均池化值，通过多层感知器并进行逐元素加法运算，将相加的结果进行sigmoid函数操作得到第二通道注意力特征图；所述空间注意力模块将所述第二通道注意力特征图沿通道方向进行最大池化操作以及平均池化操作，将得到的第三最大池化值以及第三平均池化值，进行拼接并进行sigmoid函数操作得到第二空间注意力特征图；

将所述第一空间注意力特征图与所述第二空间注意力特征图相加，得到第一定位特征图；

对第二分支的所述低阶特征图进行同样的处理，得到第二定位特征图。

优选的，S4中，将所述第一定位特征图与所述第二定位特征图相加，得到所述融合特征图。

优选的，特征图的不同尺寸包括腔镜影像数据的1/4、腔镜影像数据的1/8、腔镜影像数据的1/16、腔镜影像数据的1/32。

优选的，所述腔镜影像数据为腔镜视频或腔镜图片。

有益效果：该方法能够提高手术器械分割的精度；同时，能够有效降低分割模型的参数量，从而提高机器人对手术器械分割的实时性；此外，通过该方法得到的手术器械分割结果可进一步用于姿态估计和手术导航，并且还可以根据手术器械分割结果生成手术器械的工作路径，以作为手术过程的重要参考，便于外科医生优化手术流程。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请一示例性实施例提供的方法的流程图。

图2为根据本申请一示例性实施例提供的分支聚合注意力网络模型的结构示意图。

图3为根据本申请一示例性实施例提供的分支均衡聚合模块与其他融合方法的比较示意图。

图4为根据本申请一示例性实施例提供的分块注意力融合模块的结构示意图。

图5为根据本申请一示例性实施例提供的通道注意力模块的结构示意图。

图6为根据本申请一示例性实施例提供的空间注意力模块的结构示意图。

图7为根据申请一示例性实施例提供的分支聚合注意力网络模型与其它分割模型对手术器械分割的结果部分对比效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种基于多分支融合的机器人手术器械分割方法，下面结合附图进行说明。

请参考图1，其示出了本申请的一种基于多分支融合的机器人手术器械分割方法，如图所示，方法可以包括以下步骤：

S1：获取腔镜影像数据；所述腔镜影像数据为腔镜视频或腔镜图片；

具体的，还包括构建分支聚合注意力网络模型；如图2所示，所述分支聚合注意力网络模型（BAANet，Branch Aggregation Attention network）包括编码器（Encoder）、分支均衡聚合模块（BBA，Branch Balance Aggregation Module）以及解码器；将分块注意力融合模块(BAF，Block Attention Fusion Module)作为解码器（Decoder）；所述分块注意力融合模块包括多个。

在本实施例中，由于网络需要具备较小的参数和实时分割能力，故编码器采用轻量化网络MobileNetV2，该轻量化网络能极大降低模型的参数量，提高分割的实时性。

S2：编码器根据腔镜影像数据生成不同尺寸的特征图；所述特征图包括四个；将每个所述特征图作为一个分支；

在本实施例中，特征图的不同尺寸包括腔镜影像数据的1/4、腔镜影像数据的1/8、腔镜影像数据的1/16、腔镜影像数据的1/32。

S3：分支均衡聚合模块根据各分支的所述特征图得到低阶特征图，所述低阶特征图包括多个；

具体的，分支均衡聚合模块对每个分支的所述特征图进行上采样，将各上采样之后的特征图进行逐元素加法运算，得到各分支的过渡特征图；将每个分支的过渡特征图与其分支的所述特征图相乘，得到所述低阶特征图。其计算公式为：

；

由于手术画面可能存在影响分割精度的噪声，故通过分支均衡聚合模块融合高阶特征图的语义信息与低阶特征图的细节信息的同时抑制噪声。

如图3所示，图3（a）至图3（c）描述了另外三种与分支均衡聚合模块（图3（d））进行比较的特征融合方法，分别可通过如下计算公式表示：

；

其中，、/>、/>表示不同特征融合方法。

为了单独检查分支均衡聚合模块的作用，将各方法的输出从图2中提取出来，则图3（a）至图3（d）的输出可表示为：

；

其中，、/>、/>、/>分别表示不同特征融合方法的输出。

当神经网络反向传播计算梯度时，图3（a）所示的每个分支的梯度是恒定的并且与其他分支不相关，这意味着分支之间没有相互影响，网络不能有效地优化分割结果，乘法融合方法可以在抑制噪声的同时有效利用不同分支的特征信息。然而，从以下方程式中可以看出特征图X₁对各个分支的影响是不同的，作为高层特征，X₁缺乏详细信息，对分割精度影响很大；方程式如下：

；

根据如下方程式，当网络反向传播计算梯度时，分支均衡聚合模块将分支相互关联，分支之间的影响是平衡的；方程式如下：

；

图3（c）描绘了分支均衡聚合模块所示的特征融合方法的逆过程；虽然该方法平衡了每个分支的影响，但在低阶特征的下采样过程中会丢失许多细节，显著降低特征融合的效果。

S4：将第一分支的所述特征图与第二分支的所述低阶特征图一分块注意力融合模块进行处理后融合，得到融合特征图；将所述融合特征图与下一分支的所述低阶特征图进行融合；以此循环，直至遍历完所有分支；将最后得到的所述融合特征图作为手术器械分割结果；

由于手术视野有限，同一手术器械可能会以不同的形态出现在视野中，导致手术器械的准确定位存在困难。当手术区域从较远的角度看，手术器械是一个整体，而从较近的方向看，手术器械只是部分出现在一个区块中，因此，将网络的注意力引导到不同视野中手术器械出现的区域可以显著提高手术器械分割的有效性。

其中，如图4所示，在分块注意力融合模块中包括通道注意力模块和空间注意力模块；并将处理过程分为两个部分；

在第一个部分中：

如图4中，X_High的分支1所示，将第一分支的所述特征图通过所述通道注意力模块进行最大池化操作以及平均池化操作，将得到的第一最大池化值以及第一平均池化值，通过多层感知器并进行逐元素加法运算，将相加的结果进行sigmoid函数操作得到第一通道注意力特征图，如图5所示；

通道注意力特征图计算公式如下：

；

其中，F_c(X)表示通道注意力特征图；；/>表示sigmoid函数；MLP表示共享的多层感知器；/>表示第一平均池化值；/>；/>表示第一最大池化值；/>。

所述空间注意力模块将所述第一通道注意力特征图沿通道方向进行最大池化操作以及平均池化操作，将得到的第二最大池化值以及第二平均池化值，进行拼接并进行sigmoid函数操作得到第一空间注意力特征图，如图6所示；

空间注意力特征图计算公式如下：

；

其中，F_s(X)表示空间注意力特征图；；f()表示卷积运算，其滤波器大小为3x3；/>表示第二平均池化值；/>；/>表示第二最大池化值；/>；H表示高度；W表示宽度。

图4中，X_High的分支2所示，将第一分支的所述特征图沿高度和宽度方向均分为四块，将分块后的第一分支的所述特征图通过所述通道注意力模块进行最大池化操作以及平均池化操作，将得到的第二最大池化值以及第二平均池化值，通过多层感知器并进行逐元素加法运算，将相加的结果进行sigmoid函数操作得到第二通道注意力特征图；所述空间注意力模块将所述第二通道注意力特征图沿通道方向进行最大池化操作以及平均池化操作，将得到的第三最大池化值以及第三平均池化值，进行拼接并进行sigmoid函数操作得到第二空间注意力特征图；

将所述第一空间注意力特征图与所述第二空间注意力特征图相加，得到第一定位特征图，第一定位特征图记为：；

在第二个部分中，采用上述同样的方式对第二分支的所述低阶特征图进行处理，得到第二定位特征图，第二定位特征图记为：。

最后将所述第一定位特征图与所述第二定位特征图相加，得到所述融合特征图。

每个部分中分为两种模式（未分块特征图以及分块特征图）；未分块特征图的模式能够帮助网络在全局视野上定位手术器械，而分块特征图的模式能够帮助网络在局部视野上定位手术器械，从而使得网络能够专注于分割目标并进一步融合上下文信息，从而整体提高手术器械的分割精度。

本实施例提供这种器械分割方法通过构建手术器械语义分割模型；利用轻量化编码器对输入图像进行编码，输出不同阶段的编码结果，从而获取4个不同尺寸的特征图，分别为输入数据的1/4、1/8、1/16、1/32；利用分支均衡聚合模块分别对高阶和低阶特征图进行语义分割特征融合，并输出各阶段的融合特性图；利用分块注意力融合模块处理各阶段的融合特征图图，将网络的注意力引导到手术器械区域中；多个分块注意力融合模块串联组成网络的解码器，对来自编码器的多个高阶和低阶特征图进行解码处理，从而得到与输入图像尺寸相同的分割结果。

为了量化网络的分割性能，使用常用的评估指标，相似性的统计量（Dice，DiceCoefficient）和交并比（IoU，Intersection of Union），它们用于评估真值（groundtruth）和预测之间的相似性，值越大表示分割性能越好；其指标计算公式如下：

；

其中，G表示真值结果，P表示预测结果。

由于该方法是对不同类型的仪器进行分割，因此使用mDice和mIoU来评估分割效果，mDice和mIoU是每个仪器类型的平均Dice值和IoU值，计算公式如下：

；

其中，n表示仪器的类型，l表示第l种仪器；d_l表示第l种仪器的Dice值；u_l表示第l种仪器的IoU值；

在本实施例中使用四折交叉验证方法对Endovis2017数据集进行测试，数据集被平均分为四份，每一份作为四次对比实验中的一个测试集；

Endovis2017数据集包括的器械种类有：极钳(BF),进肌钳(PF),持针器(LND),血管封口器(VS),吸引器(SI),抓握牵引器(GR),施夹器(CA),单极弯曲剪刀(MCS),超声探头(UP)。

在相同的条件下进行其他分割网络的分割实验，得到四次对比实验的表格；

表1为四次对比实验的对比表；

；

每个器械在每一折的平均值，以及四折的平均值作为这个分割网络的分割效果评价；通过表1可知，在四折中的第一折中，本实施例提供的分支聚合注意力网络模型排在第一位；在第三折中，本实施例提供的分支聚合注意力网络模型也排在第一位。表1中，UNet，生物医学图像分割的卷积网络；TernausNet，一个在2017年机器人器械分割挑战赛中取得优异成绩并在器械分割子任务-器械类型分割中表现最好的网络；RASNet，一种基于迁移学习的手术器械分割网络，其中Attention Fusion提出模块(AFM)以引导网络专注于手术器械；RAUNet，一种剩余注意力机制的U-Net架构，具有增强注意模(AAM) 和混合损失；LWANet，一种注意力引导的轻量级网络，可以实时分割手术器械。

表2为实验中各模型的参数量对比表；

；

由表2可以看出，本实施例提供的分支聚合注意力网络模型具有更少的参数量，网络更加轻量化；并且前向推理时间较短，能够满足实时分割的要求。

在图7中，第一列（Image）为输入的三个不同的腔镜影像数据，第二列（Reference）为针对三个不同的腔镜影像数据得到的参考分割结果，第三列为本实施例分支聚合注意力网络模型的分割结果，其余列为其它对比实验的分割结果。如图7所示，本实施例提供的分支聚合注意力网络模型的分割结果较为理想，其噪声问题较少；相较于其它对比实验的分割结果，分支聚合注意力网络模型的分割精度更高，性能更优。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种基于多分支融合的机器人手术器械分割方法，其特征在于，包括：

所述分块注意力融合模块作为解码器；所述分块注意力融合模块包括多个；

所述编码器为轻量化网络MobileNetV2；所述编码器根据腔镜影像数据生成不同尺寸的特征图；

S3：根据各分支的所述特征图通过分支均衡聚合模块得到低阶特征图，所述低阶特征图包括多个；

所述分支均衡聚合模块对每个分支的所述特征图进行上采样，将各上采样之后的特征图进行逐元素加法运算，得到各分支的过渡特征图；将每个分支的过渡特征图与其分支的所述特征图相乘，得到所述低阶特征图；

所述分支均衡聚合模块包括：

第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层；

对第一分支的所述特征图进行2倍上采样，通过所述第一卷积层对上采样后的第一分支的特征图进行特征提取，第一卷积层提取的特征图为第一分支的低阶特征图；

对第一分支的所述特征图进行2倍上采样，通过所述第二卷积层对上采样后的第一分支的特征图进行特征提取，第二卷积层提取的特征图与第二分支的所述特征图相乘，得到第二分支的低阶特征图；

对第二分支的所述特征图进行2倍上采样，对第一分支的所述特征图进行4倍上采样；通过所述第三卷积层对上采样后的第二分支的特征图进行特征提取，通过所述第四卷积层对上采样后的第一分支的特征图进行特征提取，将第三卷积层提取的特征图与第四卷积层提取的特征图进行逐元素加法运算，得到第三分支的过渡特征图；将第三分支的过渡特征图与第三分支的特征图相乘，得到第三分支的低阶特征图；

对第三分支的特征图进行2倍上采样，对第二分支的特征图进行4倍上采样，对第一分支的特征图进行8倍上采样，通过所述第五卷积层对上采样后的第三分支的特征图进行特征提取，通过所述第六卷积层对上采样后的第二分支的特征图进行特征提取，通过所述第七卷积层对上采样后的第一分支的特征图进行特征提取，将第五卷积层提取的特征图、第六卷积层提取的特征图与第七卷积层提取的特征图进行逐元素加法运算，得到第四分支的过渡特征图；将第四分支的过渡特征图与第四分支的特征图相乘，得到第四分支的低阶特征图；

所述低阶特征图计算公式为：

其中，表示第m个分支的输出；X_m表示第m个分支的特征图；g()表示用特征图进行上采样并调整通道数；X_i表示第i个分支的特征图；

S4：将第一分支的所述特征图与第二分支的所述低阶特征图经过一所述分块注意力融合模块进行处理后融合，得到融合特征图；将所述融合特征图与下一分支的所述低阶特征图进行融合；以此循环，直至遍历完所有分支；将最后得到的所述融合特征图作为手术器械分割结果；

每个所述分块注意力融合模块均包括通道注意力模块和空间注意力模块；

对第一分支的所述特征图的处理包括：

对第二分支的所述低阶特征图进行同样的处理，得到第二定位特征图；

将所述第一定位特征图与所述第二定位特征图相加，得到所述融合特征图；

对第一分支的特征图与第二分支的低阶特征图融合得到的融合特征图进行2倍上采样，通过第八卷积层对上采样后的融合特征图进行特征提取，得到第八卷积层提取后的融合特征图；

对第八卷积层提取后的融合特征图与第三分支的低阶特征图融合得到的融合特征图进行2倍上采样，通过第九卷积层对上采样后的融合特征图进行特征提取，得到第九卷积层提取后的融合特征图；

将第九卷积层提取后的融合特征图与第四分支的低阶特征图经过一所述分块注意力融合模块进行处理后融合，得到手术器械分割结果。

2.根据权利要求1所述的一种基于多分支融合的机器人手术器械分割方法，其特征在于，特征图的不同尺寸包括腔镜影像数据的1/4、腔镜影像数据的1/8、腔镜影像数据的1/16、腔镜影像数据的1/32。

3.根据权利要求1所述的一种基于多分支融合的机器人手术器械分割方法，其特征在于，所述腔镜影像数据为腔镜视频或腔镜图片。