CN116030397A

CN116030397A - 一种基于时序信息交互的腔镜手术视频分割方法

Info

Publication number: CN116030397A
Application number: CN202310304494.1A
Authority: CN
Inventors: 刘敏; 韩雨斌; 王璨; 张哲�; 王耀南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-04-28
Anticipated expiration: 2043-03-27
Also published as: CN116030397B

Abstract

本发明公开了一种基于时序信息交互的腔镜手术视频分割方法，该方法通过视频帧特征交互的方式，可以通过辅助帧的特征对分割帧进行特征修复或者抑制不正确的特征表达，可以有效提高腔镜手术视频全场景分割的精度。该方法得到的分割结果可以进一步用于手术导航和手术技能评估，并且可以作为参考进行手术路径的规划，作为腔镜机器人手术的辅助技术，实现智能化的机器人手术。

Description

一种基于时序信息交互的腔镜手术视频分割方法

技术领域

本发明涉及手术场景分割技术领域，具体涉及一种基于时序信息交互的腔镜手术视频分割方法。

背景技术

近年来，计算机干预（Computer assisted interventions, CAI）成为了改变外科手术格局的关键技术。理想的腔镜手术机器人系统能从视觉、听觉和触觉上为医生进行手术操作提供多模态感知信息，有效提高医生手术操作精准度、手术临床感以及手术步骤安全性，减少手术伤口及术后并发症。

腔镜手术视频分割对输入的腔镜视频图像中每个像素进行归类，划分为两块及以上具有相应语义类别的像素区域，获取图像中血管、输尿管、解剖结构、手术器械等目标的像素级精度的位置信息，可以用作手术导航，手术技能评估和手术自动化等多个临床任务。

现有的最先进的技术使用DeepLabV3+等自然场景下的深度学习网络对手术场景进行语义分割。但是，此类方法存在三个弱点：1）无法区分局部相似性高的目标。由于腹腔镜成像视野较小，分割目标在网络中的呈现通常是不完整的，而分割目标如肾脏区域和小肠在局部特征上差异小，颜色和纹理等视觉特征相似，现有目标难以对此类目标进行精准识别。2）网络实时性差。快速准确的视频分割对于手术现场场景至关重要，通常要求网络模型的推理速度高于24帧每秒（Frames Per Second, FPS）；但是针对复杂视频场景下的语义分割，现有的方法多使用卷积的堆叠增加可训练参数，以此来学习更丰富的语义信息，计算复杂度较高，难以满足手术视频分割的实时性要求。3）难以识别持续变化的特征。在手术过程中，手术区域和手术器械等分割目标会实时形变和移位，其特征会随形变和移位产生较大变化，原始方法难以对目标柔性边缘的变化做出响应，进而影响分割精度。

发明内容

基于此，有必要针对现有的问题，提供一种基于时序信息交互的腔镜手术视频分割方法。

本发明提供了一种基于时序信息交互的腔镜手术视频分割方法，该方法包括：

S1：获取腔镜手术视频的影像数据；构建多帧特征交互网络模型；所述多帧特征交互网络模型包括分割帧特征提取网络、辅助帧特征提取网络、多帧特征交互模块、并行特征增强模块；

S2：基于所述影像数据提取出分割帧和辅助帧；将所述分割帧输入至所述分割帧特征提取网络，生成分割帧特征图；将所述辅助帧输入至所述辅助帧特征提取网络，生成辅助帧特征图；

S3：将所述分割帧特征图和所述辅助帧特征图输入至所述多帧特征交互模块，得到辅助帧特征图相对于分割帧特征图的亲和性权重；

S4：将所述辅助帧特征图与所述亲和性权重相乘，相乘结果与所述分割帧特征图进行融合，得到融合特征图；

S5：将所述融合特征图输入至所述并行特征增强模块，得到增强后的融合特征图；将所述增强后的融合特征图与所述分割帧特征图进行融合，得到最终特征图；

S6：将所述最终特征图通过线性上采样后，再进行特征映射，得到手术场景的分割结果。

优选的，S1中，腔镜手术视频从腔镜手术机器人系统中获取，对视频进行实时采样得到所述影像数据；

所述分割帧特征提取网络采用HRNetV2网络；

所述辅助帧特征提取网络采用MobileNetV2网络。

优选的，S2中，所述分割帧和所述辅助帧为相邻帧；

分割帧特征图的计算公式为：

；

辅助帧特征图的计算公式为：

；

其中， F _Q表示分割帧特征图； Enc _Q()表示分割帧特征提取网络； X _Q表示分割帧； F _M表示辅助帧特征图； Enc _M()表示辅助帧特征提取网络； X _M表示辅助帧。

优选的，S3中，所述多帧特征交互模块基于输入的所述分割帧特征图和所述辅助帧特征图，通过空间卷积操作聚合辅助帧特征图的空间信息，并压缩其通道直至通道数与所述分割帧特征图相同；将压缩后的辅助帧特征图与所述分割帧特征图进行逐元素相加，得到相加特征图；所述相加特征图通过Relu激活函数增加非线性，并通过第一通道卷积操作对增加非线性的所述相加特征图进行通道维的特征映射，得到泛化亲和性权重；将所述泛化亲和性权重通过Sigmoid激活函数进行特征激活得到所述亲和性权重；

亲和性权重的计算公式为：

；

其中， Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重； γ _s表示Sigmoid激活函数； W _d2表示第一通道卷积操作； γ _R表示Relu激活函数； F _Q表示分割帧特征图；表示矩阵加法； W _d1表示空间卷积操作； F _M表示辅助帧特征图。

优选的，S4中，融合特征图的计算公式为：

；

其中， F _f表示融合特征图； W _d3表示第二通道卷积操作，其用于将拼接结果的通道数降至与所述分割帧特征图相同； Con(,)表示沿通道维度的拼接操作； F _Q表示分割帧特征图； Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重；表示矩阵乘法； F _M表示辅助帧特征图。

优选的，S5中，所述并行特征增强模块包括通道注意力块和位置注意力块；所述通道注意力块与所述位置注意力块并行；所述通道注意力块用于对特征图的语义信息进行增强；所述位置注意力块用于对特征图的空间信息进行增强。

优选的，S5中，增强后的融合特征图的计算公式为：

；

其中， F _e表示增强后的融合特征图； F _f表示融合特征图；表示矩阵加法； CAB()表示通道注意力块； PAB()表示位置注意力块；

最终特征图的计算公式为：

；

其中， F表示最终特征图； W _d4表示第三通道卷积操作，其用于进行通道维度的特征映射； Con(,)表示沿通道维度的矩阵拼接操作； F _Q表示分割帧特征图。

优选的，手术场景的分割结果的计算公式为：

；

其中， Output表示分割结果； Cls()表示分割头，其用于通过特征映射将上采样后的最终特征图进行分类； Up _×4表示线性上采样操作； F表示最终特征图。

优选的，分割帧特征图的尺寸以及辅助帧特征图的尺寸均为影像数据的1/4。

优选的，所述分割结果包括解剖结构和手术器械。

有益效果：本发明提供的这种方法通过视频帧特征交互的方式，可以通过辅助帧的特征对分割帧进行特征修复或者抑制不正确的特征表达，可以有效提高腔镜手术视频全场景分割的精度。该方法得到的分割结果可以进一步用于手术导航和手术技能评估，并且可以作为参考进行手术路径的规划，作为腔镜机器人手术的辅助技术，实现智能化的机器人手术。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请一示例性实施例提供的方法的流程图。

图2为根据本申请一示例性实施例提供的多帧特征交互网络模型的结构示意图。

图3为本实施例提供的分割结果部分对比效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种基于时序信息交互的腔镜手术视频分割方法，下面结合附图进行说明。

请参考图1、图2，其示出了本申请的一些实施方式所提供的一种基于时序信息交互的腔镜手术视频分割方法的流程图，如图所示，方法可以包括以下步骤：

S1：获取腔镜手术视频的影像数据；构建多帧特征交互网络模型（MFINet, Multi-Frames Interaction network）；所述多帧特征交互网络模型包括分割帧特征提取网络（Encoder_Q）、辅助帧特征提取网络（Encoder_M）、多帧特征交互模块（MFIB, Multi-FramesInteraction Module）、并行特征增强模块（PFEM, Parallel Feature EnhancementModule）；

具体的，腔镜手术视频从腔镜手术机器人系统中获取，对视频进行实时采样得到所述影像数据。

所述分割帧特征提取网络采用HRNetV2网络；

所述辅助帧特征提取网络采用MobileNetV2网络；

所述多帧特征交互模块的结构由输入的辅助帧的数量决定；

所述并行特征增强模块包括通道注意力块（Channel Attention Block）和位置注意力块（Position Attention Block）；所述通道注意力块与所述位置注意力块并行；所述通道注意力块用于对特征图的语义信息进行增强；所述位置注意力块用于对特征图的空间信息进行增强。

在本实施例中，腔镜手术视频可由达芬奇X或Xi系统获取，也可根据实际情况从其它系统中获取。由于手术视频场景分割对网络实时性有较高要求，故辅助帧特征提取网络采用轻量化特征提取网络MobileNetV2，可以有效降低模型的参数量，提高分割的实时性。由于分割结果的特征较为复杂，故分割帧特征提取网络采用HRNetV2网络，其保持高分辨特征表示的特殊结构可以联合学习到多尺度的特征。

具体的，分割帧和辅助帧来源于腔镜手术视频的实时采集，所述分割帧和所述辅助帧为相邻帧；

分割帧特征图的计算公式为：

；

辅助帧特征图的计算公式为：

；

在本实施例中，所述分割帧和所述辅助帧均为一帧；根据实际情况需要，辅助帧可以是多帧，由每帧辅助帧的特征逐一与分割帧的特征交互。分割帧和辅助帧在输入至所述分割帧特征提取网络以及所述辅助帧特征提取网络前均被裁剪至768*768；分割帧特征图的尺寸以及辅助帧特征图的尺寸均为影像数据的1/4；并且，分割帧特征图和辅助帧特征图均包括多个。

由于分割帧和辅助帧使用不同的特征提取网络，故可以提取到多元的手术场景特征，且辅助帧的特征可以作为分割帧特征的补充，减少不同目标间相互遮挡所造成的影响。

具体的，所述多帧特征交互模块基于输入的所述分割帧特征图和所述辅助帧特征图，通过空间卷积操作聚合辅助帧特征图的空间信息，并压缩其通道直至通道数与所述分割帧特征图相同；将压缩后的辅助帧特征图与所述分割帧特征图进行逐元素相加，得到相加特征图；该过程对两特征图共有的部分进行增强，对非共有的部分进行抑制。所述相加特征图通过Relu激活函数增加非线性，并通过第一通道卷积操作对增加非线性的所述相加特征图进行特征映射，得到泛化亲和性权重；将所述泛化亲和性权重通过Sigmoid激活函数进行特征激活得到所述亲和性权重；

亲和性权重的计算公式为：

；

其中， Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重； γ _s表示Sigmoid激活函数； W _d2表示第一通道卷积操作； γ _R表示Relu激活函数； F _Q表示分割帧特征图；表示矩阵加法； W _d1表示空间卷积操作； F _M表示辅助帧特征图；表示增加非线性的所述相加特征图。通过连续使用两种不同的激活函数扩大特征图中像素值的极差，增强特征差异性。

在本实施例中，，对其进行特征映射时，其宽、高不变，将其通道数由 C维降至1维，故泛化亲和性权重表示为：。

所述亲和性权重代表了辅助帧特征图与分割帧特征图之间的相似性，且保留了两个特征图的关键信息；故将亲和性权重与辅助帧特征图相乘，可以增强辅助帧特征图中两个特征图共有区域的特征表示；将相乘结果再与分割帧特征图融合，可以在补充分割帧特征表示的同时弥补分割帧特征图缺少的信息，且由于亲和性权重存在，不会带来噪声干扰。

在本实施例中，使用加法而不是进行减法计算特征图之间的相似性，这是由于跟减法相比，加法更加的保守，在增强共有区域特征表示的同时减少对细节的损害。

具体的，融合特征图的计算公式为：

；

在本实施例中，采用 Con(,)拼接操作而不是采用矩阵加法进行特征融合，这样可以充分利用特征的多样性。

具体的，增强后的融合特征图的计算公式为：

；

最终特征图的计算公式为：

；

其中， F表示最终特征图； W _d4表示第三通道卷积操作，其用于进行通道维度的特征映射； Con(,)表示沿通道维度的拼接操作； F _Q表示分割帧特征图。

进一步的， W _d2、 W _d3、 W _d4分别为进行不同通道维度特征映射的通道卷积操作，三者改变的通道数不一致。

在本实施例中，最终特征图通过增强后的融合特征图与分割帧特征进行融合得到，是为了增强特征表示稳定性。

具体的，手术场景的分割结果的计算公式为：

；

其中， Output表示分割结果； Cls()表示分割头，其用于通过特征映射将上采样后的最终特征图进行分类； Up _×4表示四倍最近邻线性上采样操作； F表示最终特征图。

在本实施例中，所述分割结果包括解剖结构和手术器械。

本实施例提供的这种方法，通过构建多帧特征交互网络模型对腔镜手术视频的影像数据进行多目标实时分割；利用两种不同的特征提取网络对输入的辅助帧和分割帧进行特征编码，输出辅助帧特征图和分割帧特征图；进而利用多帧特征交互模块计算亲和性权重，将辅助帧特征图与亲和性权重相乘后再与分割帧特征图进行融合，利用连续帧之间具有的时空上下文信息关联弥补分割帧的特征表示；之后，利用并行特征增强模块从语义信息和空间信息两个维度增强融合特征图的特征表示，这样可以关注到全局和局部等不同尺度的特征信息；在将增强后的融合特征图与分割帧特征图进行融合，最后经过线性上采样操作以及特征映射，得到与输入图像尺寸相同的分割结果。

为了量化模型的分割性能，使用常用的评估指标交并比（IoU,Intersection ofUnion）评估模型性能；其用于评估真值（ground truth）与预测之间的相似性，值越大表示分割性能越好；指标计算公式如下：

；

其中，IoU表示交并比， G表示真值结果， P表示预测结果；

由于该方法是对手术场景中的多目标进行分割，因此使用mIoU来评估分割效果，mIoU是每个分割目标的平均IoU值，计算公式如下：

；

其中， n表示分割目标的总数， l表示第 l种分割目标， u _l表示第 l种分割目标的IoU值。

在本实施例中，采用Endovis2018数据集进行测试，该数据集有19个序列组成，官方分为15个用于训练，4个用于测试。每个训练序列包含149帧，共2235帧；每个测试序列包含249/250帧，共997张，其分辨率为1280×1024。

Endovis2018数据集需要分割的目标共10类，分别是：器械轴 (InstrumentShaft, IS)，器械爪 (Instrument Clasper, IC)，器械腕 (Instrument Wrist, IW)，肾实质 (Kidney Parenchyma, KP)，被覆盖的肾实质 (Covered Kidney, CK)，线 (Thread,T)，针 (Needle, N)，超声探头 (US Probe, UP)，肠 (Intestine, I)，钳夹 (Clamps, C)。

在相同的条件下进行其它分割网络的分割试验，得到四次对比实验的表格；

表1为不同分割网络在四个测试序列上的mIoU值；

；

由表1可知，本实施例提供的多帧特征交互网络模型在整体的指标上排在第一位，在第一个测试序列也排在第一位。表1中，UNet为生物医学图像分割的卷积网络；UperNet为基于上下文信息的语义分割网络；DeepLabV3+为带有空洞卷积和空间金字塔池化模块的语义分割网络；PSPNet为空间金字塔池化语义分割网络；STDCNet为带有短距离密集连接的轻量化语义分割网络；OCRNet为基于像素区域相似度的语义分割网络；OTH为在2018年机器人全场景分割挑战赛中表现最好的网络。

表2为不同分割网络分割不同类别所得的分割结果；

；

由表2可知，本实施例提供的多帧特征交互网络模型在整体的指标上排在第一位，在许多类别上也有非常突出的表现。

如图3所示，图3为分割结果部分对比效果图，图中，（a）为Endovis2018数据集中测试序列1的第86张测试图片，（a1）为（a）的官方分割结果，（a2）为本实施例提供的多帧特征交互网络模型对（a）的分割结果；（b）为Endovis2018数据集中测试序列1的第229张测试图片，（b1）为（b）的官方分割结果，（b2）为本实施例提供的多帧特征交互网络模型对（b）的分割结果；（c）为Endovis2018数据集中测试序列3的第118张测试图片，（c1）为（c）的官方分割结果，（c2）为本实施例提供的多帧特征交互网络模型对（c）的分割结果。如图所示，本实施例提供的多帧特征交互网络模型的分割结果较为理想，在有效的分割出复杂的解剖结构和器械的同时，可以较好的识别出针、线等小目标。对于多个目标交界形成的边界，网络也可以实现高精度的分割。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种基于时序信息交互的腔镜手术视频分割方法，其特征在于，包括：

2.根据权利要求1所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S1中，腔镜手术视频从腔镜手术机器人系统中获取，对视频进行实时采样得到所述影像数据；

所述分割帧特征提取网络采用HRNetV2网络；

所述辅助帧特征提取网络采用MobileNetV2网络。

3.根据权利要求2所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S2中，所述分割帧和所述辅助帧为相邻帧；

分割帧特征图的计算公式为：

；

辅助帧特征图的计算公式为：

；

其中，F _Q表示分割帧特征图；Enc _Q()表示分割帧特征提取网络；X _Q表示分割帧；F _M表示辅助帧特征图；Enc _M()表示辅助帧特征提取网络；X _M表示辅助帧。

4.根据权利要求3所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S3中，所述多帧特征交互模块基于输入的所述分割帧特征图和所述辅助帧特征图，通过空间卷积操作聚合辅助帧特征图的空间信息，并压缩其通道直至通道数与所述分割帧特征图相同；将压缩后的辅助帧特征图与所述分割帧特征图进行逐元素相加，得到相加特征图；所述相加特征图通过Relu激活函数增加非线性，并通过第一通道卷积操作对增加非线性的所述相加特征图进行通道维的特征映射，得到泛化亲和性权重；将所述泛化亲和性权重通过Sigmoid激活函数进行特征激活得到所述亲和性权重；

亲和性权重的计算公式为：

；

其中，Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重；γ _s表示Sigmoid激活函数；W _d2表示第一通道卷积操作；γ _R表示Relu激活函数；F _Q表示分割帧特征图；表示矩阵加法；W _d1表示空间卷积操作；F _M表示辅助帧特征图。

5.根据权利要求4所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S4中，融合特征图的计算公式为：

；

其中，F _f表示融合特征图；W _d3表示第二通道卷积操作，其用于将拼接结果的通道数降至与所述分割帧特征图相同；Con(,)表示沿通道维度的拼接操作；F _Q表示分割帧特征图；Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重；表示矩阵乘法；F _M表示辅助帧特征图。

6.根据权利要求5所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S5中，所述并行特征增强模块包括通道注意力块和位置注意力块；所述通道注意力块与所述位置注意力块并行；所述通道注意力块用于对特征图的语义信息进行增强；所述位置注意力块用于对特征图的空间信息进行增强。

7.根据权利要求5所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S5中，增强后的融合特征图的计算公式为：

；

其中，F _e表示增强后的融合特征图；F _f表示融合特征图；表示矩阵加法；CAB()表示通道注意力块；PAB()表示位置注意力块；

最终特征图的计算公式为：

；

其中，F表示最终特征图；W _d4表示第三通道卷积操作，其用于进行通道维度的特征映射；Con(,)表示沿通道维度的矩阵拼接操作；F _Q表示分割帧特征图。

8.根据权利要求7所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，S6中，手术场景的分割结果的计算公式为：

；

其中，Output表示分割结果；Cls()表示分割头，其用于通过特征映射将上采样后的最终特征图进行分类；Up _×4表示线性上采样操作；F表示最终特征图。

9.根据权利要求1所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，分割帧特征图的尺寸以及辅助帧特征图的尺寸均为影像数据的1/4。

10.根据权利要求1所述的基于时序信息交互的腔镜手术视频分割方法，其特征在于，所述分割结果包括解剖结构和手术器械。