CN112085717A - 一种用于腹腔镜手术的视频预测方法及其系统 - Google Patents
一种用于腹腔镜手术的视频预测方法及其系统 Download PDFInfo
- Publication number
- CN112085717A CN112085717A CN202010924387.5A CN202010924387A CN112085717A CN 112085717 A CN112085717 A CN 112085717A CN 202010924387 A CN202010924387 A CN 202010924387A CN 112085717 A CN112085717 A CN 112085717A
- Authority
- CN
- China
- Prior art keywords
- image
- optical flow
- function
- color
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000002357 laparoscopic surgery Methods 0.000 title claims abstract description 18
- 230000003287 optical effect Effects 0.000 claims abstract description 69
- 230000009466 transformation Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000006073 displacement reaction Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000006467 substitution reaction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012327 Endoscopic diagnosis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012277 endoscopic treatment Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种用于腹腔镜手术的视频预测方法及其系统,该方法包括光流估算、函数变换和空间替换卷积(SDC)处理,此外还引入了损失函数处理,从而开发出一种能够根据输入视频序列准确、清晰地预测未来图像的视频下一帧预测系统,在难以获取高质量标注数据时,仍能完成对图像自动识别和预测任务,具有节约计算资源、无需对图像进行额外标注、所得预测图像清晰且接近真实情景的优点。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种用于腹腔镜手术的视频预测方法及其系统。
背景技术
在内镜诊疗中,常常要对有关部位或病灶进行动态观察,因此需要构建观察对象的动态模型。对手术视频进行下一帧或者下几帧的预测,从预测的视频帧中可以得到许多有用的信息,而生成图像的质量将直接影响到手术视频分析的后续环节。在手术过程中,手术器械始终在不断移动,相邻图像之间的像素运动幅度较大,因此视频中存在着较明显的像素遮挡问题,预测光流不够准确;手术空间较为狭小,不同对象之间存在相互重叠或边界模糊等情况,例如器械之间的交错、血渍及烟雾的遮挡等,使得模型在应对上述情况时难以提高像素生成质量。
现有的像素级别的视频预测方法主要有:卷积神经网络、递归神经网络、自编码器以及生成对抗网络。然而,在已有的各类方法中,使用生成模型来直接合成像素的方法预测的图像仍存在着模糊等问题,不能很好地对大幅度的物体运动建模。通过对输入图像学习变换关系来预测视频帧的方法依赖于图像间的光流,但获取大规模的光流标注比较困难,而在训练中使用估算的光流又可能得到错误的监督信号。
发明内容
为解决上述问题,本发明提供了一种用于腹腔镜手术的视频预测方法,该方法能根据输入的视频序列准确、清晰地预测视频下一帧图像。
本发明采用以下技术方案:
所述一种用于腹腔镜手术的视频预测方法包括以下步骤:
S1、收集自然视频数据,并进行预处理;
S2、光流估算:将预处理后的数据以视频序列的方式输入到光流估算网络FlowNet2.0,输入的序列长度为t,所述光流估算网络FlowNet2.0对相邻两帧之间的光流进行预测,输出得到t-1帧光流;
S3、函数变换预测:将所述光流估算网络FlowNet2.0输出的t-1帧光流与原图沿通道拼接,将拼接的结果输入变换函数预测网络,设适应性核函数的大小为N*N,所述变换函数预测网络为每个像素都预测2N+2个参数,其输出包括适应性核函数K(x,y)和位移向量(u,v);
S4、空间替换卷积(SDC)处理:将所述变换函数预测网络的输出结果进行SDC模块处理,在SDC模块中,对输入序列的第t帧图像进行形变,最终得到预测的第t+1帧。
优选地,还包括步骤S5、计算损失函数Ltotal:所述损失函数Ltotal由主要损失函数和辅助损失函数组成,所述主要损失函数由图像的色彩误差Lcolor、图像的色彩梯度误差Lcolor_gradient和光流的平滑误差Lflow_smoothness组成,所述图像的色彩误差Lcolor为预测的RGB图(记作impred)和目标图像(记作tar)之间的L1损失,所述图像的色彩梯度误差Lcolor_gradient和所述光流的平滑误差Lflow_smoothness在预测图像和目标图像的平面维度上对所有通道的像素计算差值,并且对这两个差值求L1距离,以对生成图像的高频分量进行控制,其中,色彩的梯度误差直接沿着图像的水平和垂直方向进行计算,而光流平滑损失则沿着输出光流的水平和垂直方向进行计算。
优选地,所述步骤S1中的数据预处理具体为:首先对每个视频的黑边都进行裁剪,再将每帧图像的分辨率缩放至512×512,然后,对训练集和验证集中的每个视频都随机截取长度为3的序列,片段中对图像的采样间隔为3帧,分别以0.5的概率将采样的序列图像沿着时序、水平和垂直方向进行翻转,然后对其进行归一化,并以此作为网络输入。
优选地,步骤S2中所述FlowNet2.0的完整结构由5个子网络组成:FlowNetC、2个FlowNetS、FlowNet-SD和混合网络。该网络通过合成两张图片之间的光流并与该光流的真实标注计算代价函数来实现训练。
除了混合网络之外,其余子网络在其顶端都使用解码细化模块,即都引入了coarse-to-fine机制。解码过程使用转置卷积操作进行升维,对每个转置卷积层而言,其输入为上一尺度输出的光流特征与编码过程中尺度相同的特征沿通道进行点乘的结果。通过这一步骤,让每个解码模块可以同时获得深层的抽象信息和浅层的具象信息,以弥补因下采样造成的信息损失。
FlowNetC的输入是两帧图像沿通道方向拼接的结果。该网络具有“互相关层”,先对图像提取特征,再去计算特征之间的相关性,这一操作实际上就是在空间中对两帧图像的特征做卷积运算,目标是提升网络的匹配性能,以模仿标准的匹配过程。得到的值越大,代表图像之间越相关,也越接近。该网络得到图像It-1和It或网络特征图之间的关联后,模型的后续部分能够利用这种关联对光流进行估算。然后,模型根据输出的光流对It进行形变,即,使用对每个像素估算的偏移量来移动It中的每个像素,使之与It-1对齐。此时,要对齐的2张图之间仍然存在偏差,因此可以计算二者之间的亮度差值。FlowNetS的输入则是It-1、It、两帧图像之间的估算光流、根据光流形变后的图像以及亮度误差的组合,该网络的作用是预测大幅度的像素替换。
FlowNet-SD的输入和FlowNetC相同,但其具有更长的解码过程,并且将FlowNet中大小为7×7和5×5的卷积核替换为尺寸更小的3×3卷积,步长减小为1,该网络负责预测的是更加精细的小幅度像素替换。FlowNet-SD和第2个FlowNetS的输出具有相同的形式,将上述两个输出与It-1一起输入混合网络中,就可以得到最终的估算光流。
优选地,步骤S3中所述变换函数预测由1个U型全卷积神经网络组成,分为编码器和解码器两部分,各含有5个子模块,网络的输入和输出在平面上具有相同的尺寸。该网络通过卷积操作来同时处理平面图像的空间以及时间信息。
将输入的RGB图像(不包括目标图像)和对应的光流沿通道方向拼接,因此当输入的RGB图像数量为2时,该网络的输入具有8个通道。编码器中所有卷积层的激活函数都使用LeakyReLU。在网络的前3个模块,分别堆叠3、2、2个卷积层,其中,在最靠近输入的卷积层中,使用三维卷积来整合输入之间的时序信息,此时在时序方向的卷积步长为2,时序维度的输出通道为1,在该层之后进行的都是二维卷积,这些层在平面上卷积核大小都为3×3,以便于在控制参数的同时能够获得更大的感受野。为了提取长范围的空间依赖,编码器的卷积层在宽度和深度方向上的步长都为2。
在解码器的每个子模块中,都先进行1次上采样,上采样因子为2,之后进行1次卷积,激活函数为LeakyReLU。然后对上采样和下采样过程中具有相同尺度的特征进行拼接,将拼接后的特征作为该子模块的输出。设适应性核函数的大小为N*N,则该网络的输出具有2N+2个通道,其中,第1~N、N+1~2N个通道分别对应适应性核函数在水平和垂直方向上的取值,第2N+1、2N+2个通道则分别为位移向量在水平和垂直方向上的分量。上述自适应核函数不仅能通过对被遮挡像素进行采样来适应不同程度的像素移动,还可以学习到上一帧图像的背景像素在目标图像上的最佳填充位置。考虑到被遮挡的像素,位移向量(u,v)并不等同于网络所预测的光流。
优选地,所述步骤S4的SDC处理包括:
S4.1、对像素替换和核函数学习这两个过程进行解耦,将位移向量、适应性核和源图It上将被替换的像素位置分别记为(u,v)、K(x,y)、(x+u,y+v),则SDC进行像素合成的过程可以描述为:
It+1(x,y)=K(x,y)*Pt(x+u,y+v)
其中,*代表局部卷积运算,上式将预测的核函数K(x,y)与原图It上的对应区域Pt(x+u,y+v)进行参数不共享的卷积,以得到预测图像It+1上对应位置的像素值,
SDC预测的It+1(x,y)即为It上以(x+u,y+v)为中心、大小为N×N的区域Pt(x+u,y+v)与It+1上像素(x,y)对应的核函数进行卷积的结果;
S4.2、Pt(x+u,y+v)的求解过程为:当其坐标并非整数时,需对坐标进行双线性插值,若用θ*表示计算过程中的中间变量、I′(x,y)表示对It进行坐标插值后的图像,则这一操作可以表示为:
由于模型通过已有帧和已有光流对下一帧图像进行预测,可以将模型表达为:
It+1=τ(G(I1:t,F2:t),It)
其中,变换τ代表SDC在第t帧图像It上的操作,G为变换函数预测过程,由于进行SDC变换时以图像It+1上的像素坐标为参照,所以Fi为Ii和Ii-1之间的后向光流,即是从Ii到Ii-1的光流。
优选地,步骤S5中所述的损失函数Ltotal的计算为:
设图片的维度顺序为(通道,长,宽),记输入图像为x,输出图像为y,则L1距离的计算公式如下:
L1(x,y)=|x-y|;
图像的色彩误差Lcolor为:
Lcolor=L1Loss(impred,tar);
图像的色彩梯度误差Lcolor_gradient为:
图像的光流平滑误差Lflow_smoothness为:
Lflow_smoothness=L1Loss(flowpred[...,1:],flowpred[...,:-1])+L1Loss(flowpred[...,1:,:],flowpred[...,:-1,:]);
辅助损失函数L辅助为L1损失,权重为1;
记γ1、γ2、γ3、γ4分别为模型各个部分损失在总误差中所占的权重,则模型的总误差Ltotal为:
Ltotal=γ1Lcolor+γ2Lcolor_gradient+γ3Lflow_smoothness+γ4L辅助。
优选地,所述方法可用于腹腔镜手术的视频预测。
一种用于腹腔镜手术的视频预测系统,该系统包括数据预处理模块、光流估算模块、函数变换模块、空间替换卷积模块和损失函数模块。
优选地,所述数据预处理模块用于对自然视频数据进行统一处理,归一化后作为系统的输入数据使用;所述光流估算模块用于对输入的t帧视频进行光流估算,输出得到t-1帧光流;所述函数变换模块用于对输入的t-1帧光流进行函数预测,输出得到适应性核函数和位移向量;所述空间替换卷积模块用于对函数变换模块输出的结果进行空间替换卷积处理,即对输入的第t帧图像进行形变,输出得到最终预测的第t+1帧图像;所述损失函数模块用于计算主要损失函数和辅助损失函数作为监督信号,优化系统预测图像的效果。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、函数变换采用核函数插值和向量方法的结合,能够有效应对像素遮挡问题;
2、SDC模块处理对像素替换和核函数学习这两个过程进行解耦,这可以使基于核函数的视频下一帧预测方法在提升视觉效果的同时,控制核函数的空间尺寸,节约计算资源;
3、将光流估算与损失函数相结合,能使产生的预测图像在物体边界上的噪声像素更少,为后续模块产生更精确的光流,提高模型的预测性能;
4、本发明技术方案无需额外对图像进行标注,就能为给定的视频序列自动预测其下一帧或几帧图像,从而生成更加清晰且接近真实情境的图像,解决了在难以获得高质量数据标注时的图像预测难题;
5、能够根据不同程度的像素移动调整对被遮挡区域的采样,同时学习对背景像素的最佳处理方式。
附图说明
图1为本发明技术方案整体示意图;
图2为SDC变换过程示意图;
图3为本发明实施例一的效果图;
图4为本发明实施例二的效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
本发明的一种用于腹腔镜手术的视频预测方法整体结构如图1所示,具体包括以下步骤:
S1、收集自然视频数据,并进行预处理;
本实施例收集的视频数据包括训练集、验证集和测试集,其所包含的视频数量分别为4446、360和201。在数据处理阶段,首先对每个视频的黑边都进行裁剪,再将每帧图像的分辨率缩放至512×512。然后,对训练集和验证集中的每个视频都随机截取长度为3的序列,片段中对图像的采样间隔为3帧。分别以0.5的概率将采样的序列图像沿着时序、水平和垂直方向进行翻转,然后对其进行归一化,并以此作为网络输入。
在此之前,我们还进行了模型训练阶段,使用1块GTX2080tiGPU,输入数据的批大小设置为16,训练代码实现基于PyTorch框架。采样得到的视频序列的前三帧图像是本章模型的输入,第4帧图像是模型拟合的目标。网络所使用的优化器为Adam,初始学习率为5e-4,参数β1=0.9,β2=0.999。学习率衰减策略如式所示:
其中,epoch表示当前训练的轮数,而nb_epoch表示训练的总轮数。
FlowNet2.0网络使用经MPI-Sintel数据集[i]预训练的权重,在训练过程中使用目标数据集进行微调。SDC操作中,适应性核函数的尺寸为11*11。在变换函数预测网络中,编码器激活函数LeakyReLU的斜率为0.1,解码器所使用的上采样方法为双线性插值。共进行500轮训练,用时约7天。
S2、光流估算:将预处理后的数据以视频序列的方式输入到光流估算网络FlowNet2.0,输入的序列长度为t,所述光流估算网络FlowNet2.0对相邻两帧之间的光流进行预测,输出得到t-1帧光流;
S3、函数变换预测:将所述光流估算网络FlowNet2.0输出的t-1帧光流与原图沿通道拼接,将拼接的结果输入变换函数预测网络,设适应性核函数的大小为N*N,所述变换函数预测网络为每个像素都预测2N+2个参数,其输出包括适应性核函数K(x,y)和位移向量(u,v);
S4、空间替换卷积(SDC)处理:将所述变换函数预测网络的输出结果进行SDC模块处理,在SDC模块中,对输入序列的第t帧图像进行形变,最终得到预测的第t+1帧。
如图2所示,SDC处理包括以下步骤:
S4.1、对像素替换和核函数学习这两个过程进行解耦,将位移向量、适应性核和源图It上将被替换的像素位置分别记为(u,v)、K(x,y)、(x+u,y+v),则SDC进行像素合成的过程可以描述为:
It+1(x,y)=K(x,y)*Pt(x+u,y+v)
其中,*代表局部卷积运算,上式将预测的核函数K(x,y)与原图It上的对应区域Pt(x+u,y+v)进行参数不共享的卷积,以得到预测图像It+1上对应位置的像素值,
SDC预测的It+1(x,y)即为It上以(x+u,y+v)为中心、大小为N×N的区域Pt(x+u,y+v)与It+1上像素(x,y)对应的核函数进行卷积的结果;
S4.2、Pt(x+u,y+v)的求解过程为:当其坐标并非整数时,需对坐标进行双线性插值,若用θ*表示计算过程中的中间变量、I′(x,y)表示对It进行坐标插值后的图像,则这一操作可以表示为:
由于模型通过已有帧和已有光流对下一帧图像进行预测,可以将模型表达为:
It+1=τ(G(I1:t,F2:t),It)
其中,变换τ代表SDC在第t帧图像It上的操作,G为变换函数预测过程,由于进行SDC变换时以图像It+1上的像素坐标为参照,所以Fi为Ii和Ii-1之间的后向光流,即是从Ii到Ii-1的光流。
本实施例得到预测结果示例如图3所示,虽然预测器械的形状和大小与真实情况存在差异,但图中内容在色调与纹理上都与真实图片较为接近。而且,在相似的数据集上得到的预测结果还可以证明该方法具有较好的泛化能力。
实施例二
本实施例采用与实施例一相同的原始数据,步骤S1-S4也与实施例一相同,但在末端增加了步骤S5、计算损失函数Ltotal,关注生成图像的质量,具体如下:
所述损失函数由图像的色彩误差Lcolor、图像的色彩梯度误差Lcolor_gradient和光流的平滑误差Lflow_smoothness组成,所述图像的色彩误差Lcolor为预测的RGB图(记作impred)和目标图像(记作tar)之间的L1损失,所述图像的色彩梯度误差Lcolor_gradient和所述光流的平滑误差Lflow_smoothness在预测图像和目标图像的平面维度上对所有通道的像素计算差值,并且对这两个差值求L1距离,以对生成图像的高频分量进行控制,其中,色彩的梯度误差直接沿着图像的水平和垂直方向进行计算,而光流平滑损失则沿着输出光流的水平和垂直方向进行计算。
步骤S5中所述的损失函数Ltotal的计算为:
设图片的维度顺序为(通道,长,宽),记输入图像为x,输出图像为y,则L1距离的计算公式如下:
L1(x,y)=|x-y|;
图像的色彩误差Lcolor为:
Lcolor=L1Loss(mpred,tar);
图像的色彩梯度误差Lcolor_gradient为:
图像的光流平滑误差Lflow_smoothness为:
Lflow_smoothness=L1Loss(flowpred[...,1:],flowpred[...,:-1])+L1Loss(flowpred[...,1:,:],flowpred[...,:-1,:]);
辅助损失函数为L1损失,权重为1;
记γ1、γ2、γ3、γ4分别为模型各个部分损失在总误差中所占的权重,则模型的总误差Ltotal为:
Ltotal=γ1Lcolor+γ2Lcolor_gradient+γ3Lflow_smoothness+γ4L辅助。
上式为最终的损失函数表达式,该式的前3项之和为网络的主要损失,经多次微调,最终将该损失每项对应的权重分别设置为γ1=7、γ2=1、γ3=1,辅助损失的权重为γ4=0.5。
以上方法得到的预测结果如图4所示,图中第二行图像是仅计算主要损失的效果图,第三行则是计算主要损失和辅助损失的总和得到的效果图,由生成结果可以看出,加入辅助损失后产生的预测图像在物体边界上的噪声像素更少,而且对周围组织的生成效果更接近原图。
在本实施例中,还采用质量评价指标为PSNR和SSIM,这两个指标的值越大,都代表生成图像越接近原图,但二者之间并无直接联系。PSNR是被最广泛使用的一种图像客观评价指标,该指标的重要部分是两张图像上对应像素点之间的均方差,因此其对误差敏感;SSIM则说明两张图像之间的相似度同时受到亮度、对比度和结构这三个因素的影响。
SSIM的绝对值在[0,1]之间,当SSIM=0时,代表两张图片之间没有任何关联,而当SSIM=1时,则说明两张图片完全相同。上述公式中,常数C的作用是防止除0操作。
本实施例采用上述方法后,得到的视频预测结果与其他方法比较,得到如下表的结果:
表1本实施例方法与其他视频预测方法对比
由该表可知,与其他方法相比,本实施例在两项指标上均有所提升,达到的PSNR为26.72,SSIM为0.80。对像素直接进行预测的方法包括BeyondMSE、MCNet和PredNet,其中,BeyondMSE使用生成-对抗结构学习重建图像的内部表达,达到的PSNR和SSIM分别为19.63和0.62;MCNet和PredNet在设计中利用递归神经网络,CNN负责预测像素的RGB值,而循环机制则用于对时序变化建模,MCNet的PSNR指标为25.73,SSIM为0.69,PredNet的指标则分别为22.01和0.67。而DVF和SepConv先利用CNN直接对光流进行预测,并以此得到相连帧之间对应像素的变换向量,再使用得到的向量对源图形变,生成结果图像。DVF达到的PSNR为25.44,SSIM为0.77,SepConv达到的指标分别为25.03和0.75。
由上述结果可见,单独使用像素预测方法或基于向量的方法,预测图像的质量较差。
而提出实施例在增加损失函数作为监督信号后,最终达到的PSNR和SSIM分别为26.72和0.80,能够得到与原图在像素距离和视觉效果上都更加接近的预测图像。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种用于腹腔镜手术的视频预测方法,其特征在于,包括以下步骤:
S1、收集自然视频数据,并进行预处理;
S2、光流估算:将预处理后的数据以视频序列的方式输入到光流估算网络FlowNet2.0,输入的序列长度为t,所述光流估算网络FlowNet2.0对相邻两帧之间的光流进行预测,输出得到t-1帧光流;
S3、函数变换预测:将所述光流估算网络FlowNet2.0输出的t-1帧光流与原图沿通道拼接,将拼接的结果输入变换函数预测网络,设适应性核函数的大小为N*N,所述变换函数预测网络为每个像素都预测2N+2个参数,其输出包括适应性核函数K(x,y)和位移向量(u,v);
S4、空间替换卷积(SDC)处理:将所述变换函数预测网络的输出结果进行SDC模块处理,在SDC模块中,对输入序列的第t帧图像进行形变,最终得到预测的第t+1帧。
2.如权利要求1所述的一种用于腹腔镜手术的视频预测方法,其特征在于:还包括步骤S5、计算损失函数Ltotal:
所述损失函数Ltotal由主要损失函数和辅助损失函数组成,所述主要损失函数由图像的色彩误差Lcolor、图像的色彩梯度误差Lcolor_gradient和光流的平滑误差Lflow_smoothness组成,所述图像的色彩误差Lcolor为预测的RGB图(记作impred)和目标图像(记作tar)之间的L1损失,所述图像的色彩梯度误差Lcolor_gradient和所述光流的平滑误差Lflow_smoothness在预测图像和目标图像的平面维度上对所有通道的像素计算差值,并且对这两个差值求L1距离,以对生成图像的高频分量进行控制,其中,色彩的梯度误差直接沿着图像的水平和垂直方向进行计算,而光流平滑损失则沿着输出光流的水平和垂直方向进行计算。
3.权利要求1所述的一种用于腹腔镜手术的视频预测方法,其特征在于:所述步骤S1中的数据预处理具体为:首先对每个视频的黑边都进行裁剪,再将每帧图像的分辨率缩放至512×512,然后,对训练集和验证集中的每个视频都随机截取长度为3的序列,片段中对图像的采样间隔为3帧,分别以0.5的概率将采样的序列图像沿着时序、水平和垂直方向进行翻转,然后对其进行归一化,并以此作为网络输入。
4.如权利要求1所述的一种用于腹腔镜手术的视频预测方法,其特征在于:所述步骤S4的SDC处理包括:
S4.1、对像素替换和核函数学习这两个过程进行解耦,将位移向量、适应性核和源图It上将被替换的像素位置分别记为(u,v)、K(x,y)、(x+u,y+v),则SDC进行像素合成的过程可以描述为:
It+1(x,y)=K(x,y)*Pt(x+u,y+v)
其中,*代表局部卷积运算,上式将预测的核函数K(x,y)与原图It上的对应区域Pt(x+u,y+v)进行参数不共享的卷积,以得到预测图像It+1上对应位置的像素值,
SDC预测的It+1(x,y)即为It上以(x+u,y+v)为中心、大小为N×N的区域Pt(x+u,y+v)与It+1上像素(x,y)对应的核函数进行卷积的结果;
S4.2、Pt(x+u,y+v)的求解过程为:当其坐标并非整数时,需对坐标进行双线性插值,若用θ*表示计算过程中的中间变量、I′(x,y)表示对It进行坐标插值后的图像,则这一操作可以表示为:
由于模型通过已有帧和已有光流对下一帧图像进行预测,可以将模型表达为:It+1=τ(G(I1:t,F2:t),It)
其中,变换τ代表SDC在第t帧图像It上的操作,G为变换函数预测过程,由于进行SDC变换时以图像It+1上的像素坐标为参照,所以Fi为Ii和Ii-1之间的后向光流,即是从Ii到Ii-1的光流。
5.如权利要求1所述的一种用于腹腔镜手术的视频预测方法,其特征在于:步骤S5中所述的损失函数Ltotal的计算为:
设图片的维度顺序为(通道,长,宽),记输入图像为x,输出图像为y,则L1距离的计算公式如下:
L1(x,y)=|x-y|;
图像的色彩误差Lcolor为:
Lcolor=L1Loss(impred,tar);
图像的色彩梯度误差Lcolor_gradient为:
图像的光流平滑误差Lflow_smoothness为:
Lflow_smoothness=L1Loss(flowpred[...,1:],flowpred[...,:-1])+L1Loss(flowpred[...,1:,:],flowpred[...,:-1,:]);
辅助损失函数L辅助为L1损失,权重为1;
记γ1、γ2、γ3、γ4分别为模型各个部分损失在总误差中所占的权重,则模型的总误差Ltotal为:
Ltotal=γ1Lcolor+γ2Lcolor_gradient+γ3Lflow_smoothness+γ4L辅助。
6.如权利要求1-5任一项所述的一种用于腹腔镜手术的视频预测方法,其特征在于:所述方法可用于腹腔镜手术的视频预测。
7.一种用于腹腔镜手术的视频预测系统,其特征在于:包括数据预处理模块、光流估算模块、函数变换模块、空间替换卷积模块和损失函数模块。
8.如权利要求7所述的一种用于腹腔镜手术的视频预测系统,其特征在于:
所述数据预处理模块用于对自然视频数据进行统一处理,归一化后作为系统的输入数据使用;所述光流估算模块用于对输入的t帧视频进行光流估算,输出得到t-1帧光流;所述函数变换模块用于对输入的t-1帧光流进行函数预测,输出得到适应性核函数和位移向量;所述空间替换卷积模块用于对函数变换模块输出的结果进行空间替换卷积处理,即对输入的第t帧图像进行形变,输出得到最终预测的第t+1帧图像;所述损失函数模块用于计算主要损失函数和辅助损失函数作为监督信号,优化系统预测图像的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010924387.5A CN112085717B (zh) | 2020-09-04 | 2020-09-04 | 一种用于腹腔镜手术的视频预测方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010924387.5A CN112085717B (zh) | 2020-09-04 | 2020-09-04 | 一种用于腹腔镜手术的视频预测方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085717A true CN112085717A (zh) | 2020-12-15 |
CN112085717B CN112085717B (zh) | 2024-03-19 |
Family
ID=73731483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010924387.5A Active CN112085717B (zh) | 2020-09-04 | 2020-09-04 | 一种用于腹腔镜手术的视频预测方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085717B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113813053A (zh) * | 2021-09-18 | 2021-12-21 | 长春理工大学 | 一种基于腹腔镜内窥影像的手术进程分析方法 |
CN114372962A (zh) * | 2021-12-27 | 2022-04-19 | 华南理工大学 | 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 |
CN114627560A (zh) * | 2022-05-13 | 2022-06-14 | 浙江大华技术股份有限公司 | 一种动作识别方法、动作识别模型训练方法及相关装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN109379550A (zh) * | 2018-09-12 | 2019-02-22 | 上海交通大学 | 基于卷积神经网络的视频帧率上变换方法及系统 |
US20190297326A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Video prediction using spatially displaced convolution |
US20190304069A1 (en) * | 2018-03-29 | 2019-10-03 | Pixar | Denoising monte carlo renderings using neural networks with asymmetric loss |
CN110363794A (zh) * | 2019-07-17 | 2019-10-22 | 青岛科技大学 | 视频连续帧之间的光流预测方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
JP2020027659A (ja) * | 2018-08-10 | 2020-02-20 | ネイバー コーポレーションNAVER Corporation | 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法 |
CN110910391A (zh) * | 2019-11-15 | 2020-03-24 | 安徽大学 | 一种双模块神经网络结构视频对象分割方法 |
CN111259779A (zh) * | 2020-01-13 | 2020-06-09 | 南京大学 | 一种基于中心点轨迹预测的视频动作检测方法 |
-
2020
- 2020-09-04 CN CN202010924387.5A patent/CN112085717B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190297326A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Video prediction using spatially displaced convolution |
US20190304069A1 (en) * | 2018-03-29 | 2019-10-03 | Pixar | Denoising monte carlo renderings using neural networks with asymmetric loss |
JP2020027659A (ja) * | 2018-08-10 | 2020-02-20 | ネイバー コーポレーションNAVER Corporation | 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法 |
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN109379550A (zh) * | 2018-09-12 | 2019-02-22 | 上海交通大学 | 基于卷积神经网络的视频帧率上变换方法及系统 |
CN110363794A (zh) * | 2019-07-17 | 2019-10-22 | 青岛科技大学 | 视频连续帧之间的光流预测方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
CN110910391A (zh) * | 2019-11-15 | 2020-03-24 | 安徽大学 | 一种双模块神经网络结构视频对象分割方法 |
CN111259779A (zh) * | 2020-01-13 | 2020-06-09 | 南京大学 | 一种基于中心点轨迹预测的视频动作检测方法 |
Non-Patent Citations (2)
Title |
---|
张倩;姜峰: "基于深度学习的视频插帧算法", 智能计算机与应用, no. 004, 31 December 2019 (2019-12-31) * |
李栋;黄绍辉;黄晓阳;王连生;王博亮;: "模糊连接图像分割CUDA并行算法的改进", 计算机辅助设计与图形学学报, no. 02, 15 February 2016 (2016-02-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113813053A (zh) * | 2021-09-18 | 2021-12-21 | 长春理工大学 | 一种基于腹腔镜内窥影像的手术进程分析方法 |
CN114372962A (zh) * | 2021-12-27 | 2022-04-19 | 华南理工大学 | 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 |
CN114627560A (zh) * | 2022-05-13 | 2022-06-14 | 浙江大华技术股份有限公司 | 一种动作识别方法、动作识别模型训练方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112085717B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI672667B (zh) | 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體 | |
CN112085717B (zh) | 一种用于腹腔镜手术的视频预测方法及其系统 | |
CN113012172B (zh) | 一种基于AS-UNet的医学图像分割方法及系统 | |
WO2023015743A1 (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
WO2023231329A1 (zh) | 一种医学图像的语义分割方法及装置 | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN110930416A (zh) | 一种基于u型网络的mri图像前列腺分割方法 | |
CN111428575A (zh) | 一种基于孪生网络的针对模糊目标的跟踪方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
KR20120018267A (ko) | 화상 처리 장치 및 방법, 및 프로그램 | |
CN115861616A (zh) | 面向医学图像序列的语义分割系统 | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
Bare et al. | Real-time video super-resolution via motion convolution kernel estimation | |
CN116563916A (zh) | 基于注意力融合的循环人脸超分辨率方法及系统 | |
CN115578262A (zh) | 基于afan模型的偏振图像超分辨率重建方法 | |
CN112270691B (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN113920171B (zh) | 基于特征级和决策级融合的双模态目标跟踪方法 | |
CN110033422B (zh) | 一种眼底oct图像融合方法及装置 | |
JP2023003764A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN117197166B (zh) | 基于边缘和邻域信息的息肉图像分割方法及成像方法 | |
CN111539988B (zh) | 一种视觉里程计实现方法、装置和电子设备 | |
CN116433607B (zh) | 基于关键区域特征双重加权融合的儿童手骨x光图像骨龄评估方法及系统 | |
CN116523983B (zh) | 融合多路径特征与器官形态导向的胰腺ct图像配准方法 | |
Qiu et al. | Stabilization algorithm based on improved motion model for jittery video in minimally invasive surgery | |
Wang et al. | Temporal spatial-adaptive interpolation with deformable refinement for electron microscopic images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |