CN112085760A

CN112085760A - 一种腹腔镜手术视频的前景分割方法

Info

Publication number: CN112085760A
Application number: CN202010924388.XA
Authority: CN
Inventors: 王连生
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-15
Anticipated expiration: 2040-09-04
Also published as: CN112085760B

Abstract

本发明公开了一种腹腔镜手术视频的前景分割方法，其包括以下步骤：S1、获取腹腔镜手术视频，划分训练集及测试集；S2、对训练集内腹腔镜手术视频进行裁剪及手术器械像素的标注的预处理；S3、构建前景分割系统，将S2中腹腔镜手术视频输入前景分割系统，通过光流预测模块结合图像分割模块进行前景分割，得到分割结果；本发明在复杂的手术场景中精确分割腹腔镜手术器械，对腹腔镜手术器械进行细分，避免干扰，提高了腹腔镜手术的精确度。

Description

一种腹腔镜手术视频的前景分割方法

技术领域

本发明涉及腹腔镜手术技术领域，尤其涉及一种腹腔镜手术视频的前景分割方法。

背景技术

腹腔镜手术就是利用腹腔镜及其相关器械进行的手术：使用冷光源提供照明，将腹腔镜镜头插入腹腔内，运用数字摄像技术使腹腔镜镜头拍摄到的图像通过光导纤维传导至后级信号处理系统，并且实时显示在专用监视器上。然后医生通过监视器屏幕上所显示患者器官不同角度的图像，对病人的病情进行分析判断，并且运用特殊的腹腔镜手术器械进行手术。

与普通外科手术相比，腹腔镜手术避免了开发的手术环境，并且缩短了患者的康复时间，配合手术辅助系统减少医生在手术过程中的疲劳度，提高手术的准确性，腹腔镜手术器械分割是手术辅助系统的关键要素之一，但是由于手术场景较为复杂，在复杂的手术场景中，腹腔镜手术视频容易出现器械运动伪影、器械被周围组织、血液或烟雾遮挡导致手术辅助系统分析异常，难以对手术器械进行细分。

发明内容

本发明的目的在于提供一种腹腔镜手术视频的前景分割方法，在复杂的手术场景中精确分割腹腔镜手术器械，对腹腔镜手术器械进行细分，避免干扰，提高了腹腔镜手术的精确度。

为实现上述目的，本发明采用以下技术方案：

一种腹腔镜手术视频的前景分割方法，包括以下步骤：

S1、获取腹腔镜手术视频，划分训练集及测试集；

S2、对训练集内腹腔镜手术视频进行裁剪及手术器械像素的标注的预处理；

S3、构建前景分割系统，将S2中腹腔镜手术视频输入前景分割系统，通过光流预测模块结合图像分割模块进行前景分割，得到分割结果。

进一步地，所述步骤S2中的腹腔镜手术视频采样频率为1Hz，腹腔镜手术视频的原始图像的尺寸为1920×1080，通过缩放得到尺寸为640×512的图像，对尺寸为640×512的图像裁剪得到320×256的区域图像作为前景分割系统的输入图像；手术器械像素的标注为单通道的二值语义标注。

进一步地，所述步骤S3中前景分割系统还包括采样路径的编码器、上采用路径的解码器、瓶颈模块及注意力模块，编码器与解码器进行跳跃连接，瓶颈模块分别与编码器及解码器相连接；图像分割模块分别与编码器、解码器、光流预测模块及注意力模块相连接；注意力模块分别与编码器、解码器及光流预测模块相连接；步骤S3的具体步骤为：

S31、腹腔手术视频输入编码器进行下采样提取特征并输入瓶颈模块；

S32、瓶颈模块调整特征的通道数后输入解码器；

S33、解码器与编码器将具有相同尺度的特征沿着通道方向进行拼接得到拼接特征；

S34、将拼接特征输入注意力模块得到特征

l为注意力模块的尺度，t为腹腔镜手术视频的图像在视频序列中的位置；

S35、注意力模块接收注意力信息与特征

进行融合并输出第一融合特征；

S36、将融合特征输入解码器进行上采样放大得到尺寸为1920×1080的第一融合特征；

S37、通过Sigmoid函数激活尺寸为1920×1080的第一融合特征并将激活后的尺寸为1920×1080的第一融合特征输入编码器，重复4次S31-S37的操作，得到尺寸为1920×1080的第二融合特征；

S38、通过Sigmoid函数激活尺寸为1920×1080的第二融合特征得到分割结果。

进一步地，所述编码器及解码器分别进行5次采样操作，编码器提取得到低维特征及解码器提取得到高维特征分别输送给注意力模块，注意力模块通过1×1卷积对低维特征及高维特征进行拼接得到特征

进一步地，所述图像分割模块设有5个子模块，5个子模块依次相连接，5个子模块的卷积层数分别为1、1、2、2及2，5个子模块的卷积层通道数分别为64、128、256、512及1024，后3个子模块均设有并行卷积层。

进一步地，所述步骤S32中的瓶颈模块调整特征的通道数为256；步骤S35中的注意力信息为步骤S37中注意力模块输出的尺寸为1920×1080的第一融合特征或光流预测模块对腹腔镜手术视频的预测信息；注意力信息与特征

进行点乘提取时空信息，时空信息与特征

的每个通道相加得到第一融合特征。

进一步地，所述并行卷积层为带有ReLU激活函数的1×1卷积层。

进一步地，所述光流预测模块对腹腔镜手术视频的上一帧图像及下一帧图像相邻的两帧图像提取光流，光流设有2个通道U及通道V，上一帧图像上具有手术器械像素的标注，坐标为x及y，光流预测模块通过光流对标注进行形变，得到新坐标x_new及y_new，具体公式如下：

x_new＝clip(x+U,0,w-1)

y_new＝clip(y+V,0,h-1)

其中，x为上一帧图像的手术器械像素在通道U方向上的坐标，y为上一帧图像的手术器械像素在通道V方向上的坐标，w为上一帧图像的宽，h为上一帧图像的长；

对新坐标x_new及y_new进行形态学膨胀处理得到光流预测模块对腹腔镜手术视频的预测信息。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明通过构建前景分割系统，将预处理后的腹腔镜手术视频及腹腔镜手术器械像素的标注输入前景分割系统，利用光流预测模块获取腹腔镜手术视频的信息配合图像分割模块对腹腔镜手术视频内的手术器械进行分割，得到分割结果，对腹腔镜手术器械进行细分，避免干扰，提高了腹腔镜手术的精确度。

2、本发明通过通过图像分割模块的5个子模块对腹腔镜手术视频进行采样操作提取特征，特征输入瓶颈模块调整特征通道数后输送给解码器，利用跳跃连接补充解码器下采样过程丢失的信息，编码器提取得到低维特征及解码器提取得到高维特征分别输送给注意力模块进行拼接得到特征

注意力模块接收光流预测模块或上一个注意力模块输出得到的第一融合特征与特征

进行融合得到尺寸为1920×1080的第二融合特征，经过Sigmoid函数激活尺寸为1920×1080的第二融合特征得到分割结果；注意力模块融合腹腔镜手术视频中图像之间的时序信息和拼接后的特征，利用时序信息指导前景分割系统直接关注到手术器械所在的空间区域，提高了手术器械的细分精确度。

附图说明

图1为本发明整体流程图；

图2为本发明整体结构示意图；

图3为本发明图像分割整体结构示意图；

图4为本发明注意力模块整体结构示意图；

图5为本发明光流预测模块的光流示意图；

图6为本发明分割结果对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

配合图1至图5所示，本发明公开了一种腹腔镜手术视频的前景分割方法，包括以下步骤：

S1、获取腹腔镜手术视频，划分训练集及测试集。

S2、对训练集内腹腔镜手术视频进行裁剪及手术器械像素的标注的预处理。

步骤S2中的腹腔镜手术视频采样频率为1Hz，腹腔镜手术视频的原始图像尺寸为1920×1080，裁剪掉原始图像的黑边，通过缩放得到尺寸为640×512的图像，对尺寸为640×512的图像裁剪得到320×256的区域图像作为前景分割系统的输入图像；手术器械像素的标注为单通道的二值语义标注；若像素的标注中的像素对应的值大于0，则在单通道的二值语义标注上将对应位置赋值为1；手术器械共有8种，分别为单孔弯头双极钳、双孔长抓钳、有创单孔组织抓钳、大号持针器、血管封口器、牵开器、超声探头及单极弯剪刀。

配合图2至图4所示，步骤S3中前景分割系统还包括采样路径的编码器、上采用路径的解码器、瓶颈模块及注意力模块，编码器与解码器进行跳跃连接(copy andconcatente)，瓶颈模块分别与编码器及解码器相连接；图像分割模块分别与编码器、解码器、光流预测模块及注意力模块相连接；注意力模块分别与编码器、解码器及光流预测模块相连接；步骤S3的具体步骤为：

S31、腹腔手术视频输入编码器进行下采样提取特征并输入瓶颈模块。

S32、瓶颈模块调整特征的通道数后输入解码器。

S33、解码器与编码器将具有相同尺度的特征沿着通道方向进行拼接得到拼接特征。

S34、将拼接特征输入注意力模块得到特征

l为注意力模块的尺度，t为腹腔镜手术视频的图像在视频序列中的位置。

S35、注意力模块接收注意力信息(attention map)与特征

进行融合并输出第一融合特征。

S36、将融合特征输入解码器进行上采样放大得到尺寸为1920×1080的第一融合特征。

S37、通过Sigmoid函数激活尺寸为1920×1080的第一融合特征并将激活后的尺寸为1920×1080的第一融合特征输入编码器，重复4次S31-S37的操作，得到尺寸为1920×1080的第二融合特征。

光流预测模块优选光流估算网络FlowNet2.0，以监督学习的方式预测图像之间的光流，即在2帧图像之间像素标注的位移信息；图像分割模块优选以U-Net为结构基础，TernausNetV1为基准在编码器的下采样过程将VGG-11的特征提取网络与并行卷积分支结合。

编码器及解码器分别进行5次采样操作，编码器提取得到低维特征及解码器提取得到高维特征分别输送给注意力模块，注意力模块通过1×1卷积对低维特征及高维特征进行拼接得到特征

图像分割模块设有5个子模块分别为模块1、模块2、模块3、模块4及模块5，5个子模块依次相连接，5个子模块的卷积层数分别为1、1、2、2及2，5个子模块的卷积层通道数分别为64、128、256、512及1024，后3个子模块均设有并行卷积层；VGG-11的前7个卷积(Conv)操作中，每个卷积核(Conv2d)的大小都为3×3，输出都经过ReLU激活；5个最大池化层(MaxPooling)的下采样倍数都为2，且不含全连接层FC，第1个卷积层产生64个通道，之后的每个卷积层所产生的通道数都成倍增加。

瓶颈模块由2个带ReLU激活函数的1×1卷积层(Conv2d)组成；步骤S32中的瓶颈模块调整特征的通道数为256；步骤S35中的注意力信息为步骤S37中注意力模块输出的尺寸为1920×1080的第一融合特征或光流预测模块对腹腔镜手术视频的预测信息；注意力信息与特征

进行点乘提取时空信息，时空信息与特征

的每个通道相加得到第一融合特征，第一融合特征带有时序信息；，并行卷积层为带有ReLU激活函数的1×1卷积层，这一设置的目的是在不同的通道上对每个像素点进行线性叠加，实现通道间的信息交互，且保留特征的原有平面结构；图像分割模块中两路卷积的输出最终在平面上进行叠加。

参考图5所示，光流预测模块对腹腔镜手术视频的上一帧图像及下一帧图像相邻的两帧图像提取光流，不同颜色代表像素的不同运动方向，而颜色的深浅则表示像素运动时相对速度的快慢，光流设有2个通道U及通道V，上一帧图像上具有手术器械像素的标注，坐标为x及y，光流预测模块通过光流对标注进行形变，得到新坐标x_new及y_new，具体公式如下：

x_new＝clip(x+U,0,w-1)

y_new＝clip(y+V,0,h-1)

其中，x为上一帧图像的手术器械像素在通道U方向上的坐标，y为上一帧图像的手术器械像素在通道V方向上的坐标，w为上一帧图像的宽，h为上一帧图像的长；对新坐标x_new及y_new进行形态学膨胀处理得到光流预测模块对腹腔镜手术视频的预测信息。

实验评价

训练集中的腹腔镜手术视频都具有双目摄像机的左右视野，每个视野各包含300帧RGB图像；训练集包含8段序列长度为225帧的视频，测试集包含训练集中所有视频的最后75帧图像以及另外两段长度为300帧的视频。

对训练集进行数据增强操作，数据增强操作包括对图像进行随机裁剪和中心裁剪，分别以0.5的概率对图像沿着水平或垂直方向进行随机翻转和旋转，训练集的腹腔镜手术视频在进行数据增强后，经归一化操作后输入前景分割系统。

编码器的下采样操作使用的是降采样因子为2的最大池化层，而解码器的上采样操作使用的是双线性插值，其上采样因子也为2，相比于直接进行转置卷积操作，双线性插值方法无可学习参数，利用中心点四周的像素值就可以计算中心值，操作简单，速度较快，此外，还使用学习率衰减和提前终止(early stopping)训练策略，其中学习率衰减率为0.9，提前终止的容忍值为20个epoch。

通过损失函数Loss监督前景分割系统，损失函数Loss的公式为：

Loss＝0.4·BCE+0.6·(1-IoU)

其中，二分类交叉熵(BCE)的公式为：

其中，N为腹腔镜手术视频中目标图像的像素个数，ti为目标图像的像素个数中一个像素的类别，取0或1，yi为该像素被前景分割模型分类为正例的概率，IoU为真实值与预测值之间的交并比，取值越大说明真实标注与预测结果之间的重叠面积越大，其公式为：

其中，gt为真实值，pred为测试值，tp为被前景分割系统判断为前景像素-真阳性的数量，fp为被前景分割系统判断为背景像素-假阳性的数量，fn为被前景分割系统判断为前景像素-假阴性的数量。

通过Dice评价系数得出真实值与测试值的相似度，其公式为：

取值越大代表手术器械大小和前景分割系统的分割结果越接近。

验证前景分割系统的性能，结果如表1所示：

表1前景分割系统的性能对比表

通过前景分割系统的TernausNetV1+并行卷积层结构与单独的U-Net、TernausNetV1结构在四折交叉验证时的平均性能对比结果可知，前景分割系统的TernausNetV1+并行卷积层结构引入注意力信息后分割结果得到更小的方差，鲁棒性更好。

验证前景分割系统与其他分割系统的有效性对比，结果如表2所示：

表2验证前景分割系统与其他分割系统的有效性对比表

通过表2可知前景分割系统的TernausNetV1+并行卷积层结构引入注意力信息的性能更佳。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种腹腔镜手术视频的前景分割方法，其特征在于，包括以下步骤：

S1、获取腹腔镜手术视频，划分训练集及测试集；

2.如权利要求1所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述步骤S2中的腹腔镜手术视频采样频率为1Hz，腹腔镜手术视频的原始图像的尺寸为1920×1080，通过缩放得到尺寸为640×512的图像，对尺寸为640×512的图像裁剪得到320×256的区域图像作为前景分割系统的输入图像；手术器械像素的标注为单通道的二值语义标注。

3.如权利要求1所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述步骤S3中前景分割系统还包括采样路径的编码器、上采用路径的解码器、瓶颈模块及注意力模块，编码器与解码器进行跳跃连接，瓶颈模块分别与编码器及解码器相连接；图像分割模块分别与编码器、解码器、光流预测模块及注意力模块相连接；注意力模块分别与编码器、解码器及光流预测模块相连接；步骤S3的具体步骤为：

S32、瓶颈模块调整特征的通道数后输入解码器；

S34、将拼接特征输入注意力模块得到特征

S35、注意力模块接收注意力信息与特征

进行融合并输出第一融合特征；

4.如权利要求3所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述编码器及解码器分别进行5次采样操作，编码器提取得到低维特征及解码器提取得到高维特征分别输送给注意力模块，注意力模块通过1×1卷积对低维特征及高维特征进行拼接得到特征

5.如权利要求3所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述图像分割模块设有5个子模块，5个子模块依次相连接，5个子模块的卷积层数分别为1、1、2、2及2，5个子模块的卷积层通道数分别为64、128、256、512及1024，后3个子模块均设有并行卷积层。

6.如权利要求3所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述步骤S32中的瓶颈模块调整特征的通道数为256；步骤S35中的注意力信息为步骤S37中注意力模块输出的尺寸为1920×1080的第一融合特征或光流预测模块对腹腔镜手术视频的预测信息；注意力信息与特征

进行点乘提取时空信息，时空信息与特征

的每个通道相加得到第一融合特征。

7.如权利要求5所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述并行卷积层为带有ReLU激活函数的1×1卷积层。

8.如权利要求6所述的一种腹腔镜手术视频的前景分割方法，其特征在于：所述光流预测模块对腹腔镜手术视频的上一帧图像及下一帧图像相邻的两帧图像提取光流，光流设有2个通道U及通道V，上一帧图像上具有手术器械像素的标注，坐标为x及y，光流预测模块通过光流对标注进行形变，得到新坐标x_new及y_new，具体公式如下：

x_new＝clip(x+U,0,w-1)

y_new＝clip(y+V,0,h-1)