CN112085717A

CN112085717A - 一种用于腹腔镜手术的视频预测方法及其系统

Info

Publication number: CN112085717A
Application number: CN202010924387.5A
Authority: CN
Inventors: 王连生
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-15
Anticipated expiration: 2040-09-04
Also published as: CN112085717B

Abstract

本发明公开了一种用于腹腔镜手术的视频预测方法及其系统，该方法包括光流估算、函数变换和空间替换卷积(SDC)处理，此外还引入了损失函数处理，从而开发出一种能够根据输入视频序列准确、清晰地预测未来图像的视频下一帧预测系统，在难以获取高质量标注数据时，仍能完成对图像自动识别和预测任务，具有节约计算资源、无需对图像进行额外标注、所得预测图像清晰且接近真实情景的优点。

Description

一种用于腹腔镜手术的视频预测方法及其系统

技术领域

本发明涉及图像处理技术领域，特别涉及一种用于腹腔镜手术的视频预测方法及其系统。

背景技术

在内镜诊疗中，常常要对有关部位或病灶进行动态观察，因此需要构建观察对象的动态模型。对手术视频进行下一帧或者下几帧的预测，从预测的视频帧中可以得到许多有用的信息，而生成图像的质量将直接影响到手术视频分析的后续环节。在手术过程中，手术器械始终在不断移动，相邻图像之间的像素运动幅度较大，因此视频中存在着较明显的像素遮挡问题，预测光流不够准确；手术空间较为狭小，不同对象之间存在相互重叠或边界模糊等情况，例如器械之间的交错、血渍及烟雾的遮挡等，使得模型在应对上述情况时难以提高像素生成质量。

现有的像素级别的视频预测方法主要有：卷积神经网络、递归神经网络、自编码器以及生成对抗网络。然而，在已有的各类方法中，使用生成模型来直接合成像素的方法预测的图像仍存在着模糊等问题，不能很好地对大幅度的物体运动建模。通过对输入图像学习变换关系来预测视频帧的方法依赖于图像间的光流，但获取大规模的光流标注比较困难，而在训练中使用估算的光流又可能得到错误的监督信号。

发明内容

为解决上述问题，本发明提供了一种用于腹腔镜手术的视频预测方法，该方法能根据输入的视频序列准确、清晰地预测视频下一帧图像。

本发明采用以下技术方案：

所述一种用于腹腔镜手术的视频预测方法包括以下步骤：

S1、收集自然视频数据，并进行预处理；

S2、光流估算：将预处理后的数据以视频序列的方式输入到光流估算网络FlowNet2.0，输入的序列长度为t，所述光流估算网络FlowNet2.0对相邻两帧之间的光流进行预测，输出得到t-1帧光流；

S3、函数变换预测：将所述光流估算网络FlowNet2.0输出的t-1帧光流与原图沿通道拼接，将拼接的结果输入变换函数预测网络，设适应性核函数的大小为N*N，所述变换函数预测网络为每个像素都预测2N+2个参数，其输出包括适应性核函数K(x，y)和位移向量(u，v)；

S4、空间替换卷积(SDC)处理：将所述变换函数预测网络的输出结果进行SDC模块处理，在SDC模块中，对输入序列的第t帧图像进行形变，最终得到预测的第t+1帧。

优选地，还包括步骤S5、计算损失函数L_total：所述损失函数L_total由主要损失函数和辅助损失函数组成，所述主要损失函数由图像的色彩误差L_color、图像的色彩梯度误差L_{color_gradient}和光流的平滑误差L_{flow_smoothness}组成，所述图像的色彩误差L_color为预测的RGB图(记作impred)和目标图像(记作tar)之间的L1损失，所述图像的色彩梯度误差L_{color_gradient}和所述光流的平滑误差L_{flow_smoothness}在预测图像和目标图像的平面维度上对所有通道的像素计算差值，并且对这两个差值求L1距离，以对生成图像的高频分量进行控制，其中，色彩的梯度误差直接沿着图像的水平和垂直方向进行计算，而光流平滑损失则沿着输出光流的水平和垂直方向进行计算。

优选地，所述步骤S1中的数据预处理具体为：首先对每个视频的黑边都进行裁剪，再将每帧图像的分辨率缩放至512×512，然后，对训练集和验证集中的每个视频都随机截取长度为3的序列，片段中对图像的采样间隔为3帧，分别以0.5的概率将采样的序列图像沿着时序、水平和垂直方向进行翻转，然后对其进行归一化，并以此作为网络输入。

优选地，步骤S2中所述FlowNet2.0的完整结构由5个子网络组成：FlowNetC、2个FlowNetS、FlowNet-SD和混合网络。该网络通过合成两张图片之间的光流并与该光流的真实标注计算代价函数来实现训练。

除了混合网络之外，其余子网络在其顶端都使用解码细化模块，即都引入了coarse-to-fine机制。解码过程使用转置卷积操作进行升维，对每个转置卷积层而言，其输入为上一尺度输出的光流特征与编码过程中尺度相同的特征沿通道进行点乘的结果。通过这一步骤，让每个解码模块可以同时获得深层的抽象信息和浅层的具象信息，以弥补因下采样造成的信息损失。

FlowNetC的输入是两帧图像沿通道方向拼接的结果。该网络具有“互相关层”，先对图像提取特征，再去计算特征之间的相关性，这一操作实际上就是在空间中对两帧图像的特征做卷积运算，目标是提升网络的匹配性能，以模仿标准的匹配过程。得到的值越大，代表图像之间越相关，也越接近。该网络得到图像I_t-1和I_t或网络特征图之间的关联后，模型的后续部分能够利用这种关联对光流进行估算。然后，模型根据输出的光流对I_t进行形变，即，使用对每个像素估算的偏移量来移动I_t中的每个像素，使之与I_t-1对齐。此时，要对齐的2张图之间仍然存在偏差，因此可以计算二者之间的亮度差值。FlowNetS的输入则是I_t-1、I_t、两帧图像之间的估算光流、根据光流形变后的图像以及亮度误差的组合，该网络的作用是预测大幅度的像素替换。

FlowNet-SD的输入和FlowNetC相同，但其具有更长的解码过程，并且将FlowNet中大小为7×7和5×5的卷积核替换为尺寸更小的3×3卷积，步长减小为1，该网络负责预测的是更加精细的小幅度像素替换。FlowNet-SD和第2个FlowNetS的输出具有相同的形式，将上述两个输出与I_t-1一起输入混合网络中，就可以得到最终的估算光流。

优选地，步骤S3中所述变换函数预测由1个U型全卷积神经网络组成，分为编码器和解码器两部分，各含有5个子模块，网络的输入和输出在平面上具有相同的尺寸。该网络通过卷积操作来同时处理平面图像的空间以及时间信息。

将输入的RGB图像(不包括目标图像)和对应的光流沿通道方向拼接，因此当输入的RGB图像数量为2时，该网络的输入具有8个通道。编码器中所有卷积层的激活函数都使用LeakyReLU。在网络的前3个模块，分别堆叠3、2、2个卷积层，其中，在最靠近输入的卷积层中，使用三维卷积来整合输入之间的时序信息，此时在时序方向的卷积步长为2，时序维度的输出通道为1，在该层之后进行的都是二维卷积，这些层在平面上卷积核大小都为3×3，以便于在控制参数的同时能够获得更大的感受野。为了提取长范围的空间依赖，编码器的卷积层在宽度和深度方向上的步长都为2。

在解码器的每个子模块中，都先进行1次上采样，上采样因子为2，之后进行1次卷积，激活函数为LeakyReLU。然后对上采样和下采样过程中具有相同尺度的特征进行拼接，将拼接后的特征作为该子模块的输出。设适应性核函数的大小为N*N，则该网络的输出具有2N+2个通道，其中，第1～N、N+1～2N个通道分别对应适应性核函数在水平和垂直方向上的取值，第2N+1、2N+2个通道则分别为位移向量在水平和垂直方向上的分量。上述自适应核函数不仅能通过对被遮挡像素进行采样来适应不同程度的像素移动，还可以学习到上一帧图像的背景像素在目标图像上的最佳填充位置。考虑到被遮挡的像素，位移向量(u,v)并不等同于网络所预测的光流。

优选地，所述步骤S4的SDC处理包括：

S4.1、对像素替换和核函数学习这两个过程进行解耦，将位移向量、适应性核和源图I_t上将被替换的像素位置分别记为(u，v)、K(x，y)、(x+u，y+v)，则SDC进行像素合成的过程可以描述为：

I_t+1(x，y)＝K(x，y)*P_t(x+u，y+v)

其中，*代表局部卷积运算，上式将预测的核函数K(x,y)与原图I_t上的对应区域P_t(x+u，y+v)进行参数不共享的卷积，以得到预测图像I_t+1上对应位置的像素值，

SDC预测的I_t+1(x，y)即为I_t上以(x+u，y+v)为中心、大小为N×N的区域P_t(x+u，y+v)与I_t+1上像素(x,y)对应的核函数进行卷积的结果；

S4.2、P_t(x+u，y+v)的求解过程为：当其坐标并非整数时，需对坐标进行双线性插值，若用θ_*表示计算过程中的中间变量、I′(x，y)表示对I_t进行坐标插值后的图像，则这一操作可以表示为：

其中，

代表向上取整，

代表向下取整；

由于模型通过已有帧和已有光流对下一帧图像进行预测，可以将模型表达为：

I_t+1＝τ(G(I_1：t，F_2：t)，I_t)

其中，变换τ代表SDC在第t帧图像I_t上的操作，G为变换函数预测过程，由于进行SDC变换时以图像I_t+1上的像素坐标为参照，所以F_i为Ii和I_i-1之间的后向光流，即是从I_i到I_i-1的光流。

优选地，步骤S5中所述的损失函数L_total的计算为：

设图片的维度顺序为(通道，长，宽)，记输入图像为x，输出图像为y，则L1距离的计算公式如下：

L1(x,y)＝|x-y|；

图像的色彩误差L_color为：

L_color＝L1Loss(im_pred，tar)；

图像的色彩梯度误差L_{color_gradient}为：

图像的光流平滑误差L_{flow_smoothness}为：

L_{flow_smoothness}＝L1Loss(flow_pred[...，1：]，flow_pred[...，：-1])+L1Loss(flow_pred[...，1：，：]，flow_pred[...，：-1，：])；

辅助损失函数L_辅助为L1损失，权重为1；

记γ₁、γ₂、γ₃、γ₄分别为模型各个部分损失在总误差中所占的权重，则模型的总误差L_total为：

L_total＝γ₁L_color+γ₂L_{color_gradient+}γ₃L_{flow_smoothness}+γ₄L_辅助。

优选地，所述方法可用于腹腔镜手术的视频预测。

一种用于腹腔镜手术的视频预测系统，该系统包括数据预处理模块、光流估算模块、函数变换模块、空间替换卷积模块和损失函数模块。

优选地，所述数据预处理模块用于对自然视频数据进行统一处理，归一化后作为系统的输入数据使用；所述光流估算模块用于对输入的t帧视频进行光流估算，输出得到t-1帧光流；所述函数变换模块用于对输入的t-1帧光流进行函数预测，输出得到适应性核函数和位移向量；所述空间替换卷积模块用于对函数变换模块输出的结果进行空间替换卷积处理，即对输入的第t帧图像进行形变，输出得到最终预测的第t+1帧图像；所述损失函数模块用于计算主要损失函数和辅助损失函数作为监督信号，优化系统预测图像的效果。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、函数变换采用核函数插值和向量方法的结合，能够有效应对像素遮挡问题；

2、SDC模块处理对像素替换和核函数学习这两个过程进行解耦，这可以使基于核函数的视频下一帧预测方法在提升视觉效果的同时，控制核函数的空间尺寸，节约计算资源；

3、将光流估算与损失函数相结合，能使产生的预测图像在物体边界上的噪声像素更少，为后续模块产生更精确的光流，提高模型的预测性能；

4、本发明技术方案无需额外对图像进行标注，就能为给定的视频序列自动预测其下一帧或几帧图像，从而生成更加清晰且接近真实情境的图像，解决了在难以获得高质量数据标注时的图像预测难题；

5、能够根据不同程度的像素移动调整对被遮挡区域的采样，同时学习对背景像素的最佳处理方式。

附图说明

图1为本发明技术方案整体示意图；

图2为SDC变换过程示意图；

图3为本发明实施例一的效果图；

图4为本发明实施例二的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

本发明的一种用于腹腔镜手术的视频预测方法整体结构如图1所示，具体包括以下步骤：

S1、收集自然视频数据，并进行预处理；

本实施例收集的视频数据包括训练集、验证集和测试集，其所包含的视频数量分别为4446、360和201。在数据处理阶段，首先对每个视频的黑边都进行裁剪，再将每帧图像的分辨率缩放至512×512。然后，对训练集和验证集中的每个视频都随机截取长度为3的序列，片段中对图像的采样间隔为3帧。分别以0.5的概率将采样的序列图像沿着时序、水平和垂直方向进行翻转，然后对其进行归一化，并以此作为网络输入。

在此之前，我们还进行了模型训练阶段，使用1块GTX2080tiGPU，输入数据的批大小设置为16，训练代码实现基于PyTorch框架。采样得到的视频序列的前三帧图像是本章模型的输入，第4帧图像是模型拟合的目标。网络所使用的优化器为Adam，初始学习率为5e-4，参数β1＝0.9，β2＝0.999。学习率衰减策略如式所示：

其中，epoch表示当前训练的轮数，而nb_epoch表示训练的总轮数。

FlowNet2.0网络使用经MPI-Sintel数据集[i]预训练的权重，在训练过程中使用目标数据集进行微调。SDC操作中，适应性核函数的尺寸为11*11。在变换函数预测网络中，编码器激活函数LeakyReLU的斜率为0.1，解码器所使用的上采样方法为双线性插值。共进行500轮训练，用时约7天。

如图2所示，SDC处理包括以下步骤：

I_t+1(x，y)＝K(x，y)*P_t(x+u，y+v)

其中，

代表向上取整，

代表向下取整；

I_t+1＝τ(G(I_1：t，F_2：t)，I_t)

本实施例得到预测结果示例如图3所示，虽然预测器械的形状和大小与真实情况存在差异，但图中内容在色调与纹理上都与真实图片较为接近。而且，在相似的数据集上得到的预测结果还可以证明该方法具有较好的泛化能力。

实施例二

本实施例采用与实施例一相同的原始数据，步骤S1-S4也与实施例一相同，但在末端增加了步骤S5、计算损失函数L_total，关注生成图像的质量，具体如下：

所述损失函数由图像的色彩误差L_color、图像的色彩梯度误差L_{color_gradient}和光流的平滑误差L_{flow_smoothness}组成，所述图像的色彩误差L_color为预测的RGB图(记作impred)和目标图像(记作tar)之间的L1损失，所述图像的色彩梯度误差L_{color_gradient}和所述光流的平滑误差L_{flow_smoothness}在预测图像和目标图像的平面维度上对所有通道的像素计算差值，并且对这两个差值求L1距离，以对生成图像的高频分量进行控制，其中，色彩的梯度误差直接沿着图像的水平和垂直方向进行计算，而光流平滑损失则沿着输出光流的水平和垂直方向进行计算。

步骤S5中所述的损失函数L_total的计算为：

L1(x,y)＝|x-y|；

图像的色彩误差L_color为：

L_color＝L1Loss(m_pred，tar)；

图像的色彩梯度误差L_{color_gradient}为：

图像的光流平滑误差L_{flow_smoothness}为：

辅助损失函数为L1损失，权重为1；

L_total＝γ₁L_color+γ₂L_{color_gradient}+γ₃L_{flow_smoothness}+γ₄L_辅助。

上式为最终的损失函数表达式，该式的前3项之和为网络的主要损失，经多次微调，最终将该损失每项对应的权重分别设置为γ₁＝7、γ₂＝1、γ₃＝1，辅助损失的权重为γ₄＝0.5。

以上方法得到的预测结果如图4所示，图中第二行图像是仅计算主要损失的效果图，第三行则是计算主要损失和辅助损失的总和得到的效果图，由生成结果可以看出，加入辅助损失后产生的预测图像在物体边界上的噪声像素更少，而且对周围组织的生成效果更接近原图。

在本实施例中，还采用质量评价指标为PSNR和SSIM，这两个指标的值越大，都代表生成图像越接近原图，但二者之间并无直接联系。PSNR是被最广泛使用的一种图像客观评价指标，该指标的重要部分是两张图像上对应像素点之间的均方差，因此其对误差敏感；SSIM则说明两张图像之间的相似度同时受到亮度、对比度和结构这三个因素的影响。

SSIM的绝对值在[0,1]之间，当SSIM＝0时，代表两张图片之间没有任何关联，而当SSIM＝1时，则说明两张图片完全相同。上述公式中，常数C的作用是防止除0操作。

本实施例采用上述方法后，得到的视频预测结果与其他方法比较，得到如下表的结果：

表1本实施例方法与其他视频预测方法对比

由该表可知，与其他方法相比，本实施例在两项指标上均有所提升，达到的PSNR为26.72，SSIM为0.80。对像素直接进行预测的方法包括BeyondMSE、MCNet和PredNet，其中，BeyondMSE使用生成-对抗结构学习重建图像的内部表达，达到的PSNR和SSIM分别为19.63和0.62；MCNet和PredNet在设计中利用递归神经网络，CNN负责预测像素的RGB值，而循环机制则用于对时序变化建模，MCNet的PSNR指标为25.73，SSIM为0.69，PredNet的指标则分别为22.01和0.67。而DVF和SepConv先利用CNN直接对光流进行预测，并以此得到相连帧之间对应像素的变换向量，再使用得到的向量对源图形变，生成结果图像。DVF达到的PSNR为25.44，SSIM为0.77，SepConv达到的指标分别为25.03和0.75。

由上述结果可见，单独使用像素预测方法或基于向量的方法，预测图像的质量较差。

而提出实施例在增加损失函数作为监督信号后，最终达到的PSNR和SSIM分别为26.72和0.80，能够得到与原图在像素距离和视觉效果上都更加接近的预测图像。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种用于腹腔镜手术的视频预测方法，其特征在于，包括以下步骤：

S1、收集自然视频数据，并进行预处理；

S3、函数变换预测：将所述光流估算网络FlowNet2.0输出的t-1帧光流与原图沿通道拼接，将拼接的结果输入变换函数预测网络，设适应性核函数的大小为N＊N，所述变换函数预测网络为每个像素都预测2N+2个参数，其输出包括适应性核函数K(x，y)和位移向量(u，v)；

2.如权利要求1所述的一种用于腹腔镜手术的视频预测方法，其特征在于：还包括步骤S5、计算损失函数L_total：

所述损失函数L_total由主要损失函数和辅助损失函数组成，所述主要损失函数由图像的色彩误差L_color、图像的色彩梯度误差L_{color_gradient}和光流的平滑误差L_{flow_smoothness}组成，所述图像的色彩误差L_color为预测的RGB图(记作impred)和目标图像(记作tar)之间的L1损失，所述图像的色彩梯度误差L_{color_gradient}和所述光流的平滑误差L_{flow_smoothness}在预测图像和目标图像的平面维度上对所有通道的像素计算差值，并且对这两个差值求L1距离，以对生成图像的高频分量进行控制，其中，色彩的梯度误差直接沿着图像的水平和垂直方向进行计算，而光流平滑损失则沿着输出光流的水平和垂直方向进行计算。

3.权利要求1所述的一种用于腹腔镜手术的视频预测方法，其特征在于：所述步骤S1中的数据预处理具体为：首先对每个视频的黑边都进行裁剪，再将每帧图像的分辨率缩放至512×512，然后，对训练集和验证集中的每个视频都随机截取长度为3的序列，片段中对图像的采样间隔为3帧，分别以0.5的概率将采样的序列图像沿着时序、水平和垂直方向进行翻转，然后对其进行归一化，并以此作为网络输入。

4.如权利要求1所述的一种用于腹腔镜手术的视频预测方法，其特征在于：所述步骤S4的SDC处理包括：

I_t+1(x，y)＝K(x，y)*P_t(x+u，y+v)

其中，＊代表局部卷积运算，上式将预测的核函数K(x，y)与原图I_t上的对应区域P_t(x+u，y+v)进行参数不共享的卷积，以得到预测图像I_t+1上对应位置的像素值，

SDC预测的I_t+1(x，y)即为I_t上以(x+u，y+v)为中心、大小为N×N的区域P_t(x+u，y+v)与I_t+1上像素(x，y)对应的核函数进行卷积的结果；

其中，

代表向上取整，

代表向下取整；

由于模型通过已有帧和已有光流对下一帧图像进行预测，可以将模型表达为：I_t+1＝τ(G(I_1：t，F_2：t)，I_t)

5.如权利要求1所述的一种用于腹腔镜手术的视频预测方法，其特征在于：步骤S5中所述的损失函数L_total的计算为：

L1(x，y)＝|x-y|；

图像的色彩误差L_color为：

L_color＝L1Loss(im_pred，tar)；

图像的色彩梯度误差L_{color_gradient}为：

图像的光流平滑误差L_{flow_smoothness}为：

辅助损失函数L_辅助为L1损失，权重为1；

6.如权利要求1-5任一项所述的一种用于腹腔镜手术的视频预测方法，其特征在于：所述方法可用于腹腔镜手术的视频预测。

7.一种用于腹腔镜手术的视频预测系统，其特征在于：包括数据预处理模块、光流估算模块、函数变换模块、空间替换卷积模块和损失函数模块。

8.如权利要求7所述的一种用于腹腔镜手术的视频预测系统，其特征在于：

所述数据预处理模块用于对自然视频数据进行统一处理，归一化后作为系统的输入数据使用；所述光流估算模块用于对输入的t帧视频进行光流估算，输出得到t-1帧光流；所述函数变换模块用于对输入的t-1帧光流进行函数预测，输出得到适应性核函数和位移向量；所述空间替换卷积模块用于对函数变换模块输出的结果进行空间替换卷积处理，即对输入的第t帧图像进行形变，输出得到最终预测的第t+1帧图像；所述损失函数模块用于计算主要损失函数和辅助损失函数作为监督信号，优化系统预测图像的效果。