CN114359082A

CN114359082A - 一种基于自建数据对的胃镜图像去模糊算法

Info

Publication number: CN114359082A
Application number: CN202111600032.1A
Authority: CN
Inventors: 颜波; 谭伟敏; 李吉春; 林青
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15
Anticipated expiration: 2041-12-24
Also published as: CN114359082B

Abstract

本发明属于医疗图像处理技术领域，具体为一种基于自建数据对的胃镜图像去模糊算法。本发明算法包括：对于胃镜视频的处理、制作胃镜清晰图‑模糊图训练样本以及胃镜去模糊算法的训练。具体而言，首先收集一定量的胃镜视频，对其中的数据进行清洗；然后收集医生的标注，对每一帧的清晰或者模糊进行标注，并对“指导模型”进行训练；再用采用全部为清晰图的视频段，合成清晰‑模糊肠镜图片数据对；最后用清晰‑模糊肠镜图片数据对，训练肠镜去模糊算法。实验结果表明，本发明算法对于肠镜模糊图片的模糊去除具有很好的效果，具有很强的应用价值。

Description

一种基于自建数据对的胃镜图像去模糊算法

技术领域

本发明属于医疗图像处理技术领域，具体涉及胃镜图像去模糊算法。

背景技术

随着计算机科学的发展，智能医疗成为了一项提高现代医疗水平的重大科技革新。作为人工智能与新型医疗的结合点，它在各个方面所具有的优势正在得到越来越多的认可与关注。

在内镜图像分析的应用场景中，医生在进行胃镜检查的时候，往往容易因为镜头推拉、移动过快，遇见胃镜图像质量模糊的情况。当回溯、查看、评估病情的时候，如果此时关键部位的胃镜图像是模糊的，为了诊断准确，就需要重新对病人进行胃镜检查。这不仅仅挤占了宝贵的医疗资源，而且还为病人带来额外的痛苦。因此，对模糊的胃镜图片进行去模糊增强，对医生诊断的可靠性、医疗资源的节省以及病人的关怀都十分关键。

发明内容

本发明的目的在于提供一种操作方便、去模糊效果好的胃镜图像去模糊的算法。

本发明将医生对于胃镜图像去模糊与深度学习相结合，提出基于深度学习的胃镜图像去模糊算法。本发明通过引入医生对于清晰、模糊图像分类的先验知识，训练得到的分类网络，可以利用医生的判断，衡量去模糊图与真实图片的差距，更好的为去模糊算法进行指导。本发明还通过视频插帧与时间域融合的方法，生成更加逼真的模糊-清晰数据对，以此让本文提出的去模糊算法进行学习，从而能够去除胃镜的模糊。本发明方法去模糊效果好，简明易操作，适用于胃镜检查过后，对于关键的模糊胃镜图片进行增强的场景。

本发明提供的胃镜图像去模糊的算法，是一种是基于自建数据对的食管内镜视频帧序列质量分类算法，利用医生对于清晰模糊判断经验，指导去模糊网络的优化，而且利用插帧与时间域融合的方法，构建了胃镜清晰-模糊图像对加以训练。具体步骤如下：

(1)数据收集与清洗：首先收集一定量的胃镜视频，对其中的数据进行清洗。即对视频中含有气泡、没有内容、失去焦距、内容混乱的胃镜无效视频帧进行剔除。

(2)标注与训练D-Net：请专业的医生对清洗完毕的、所有的有效视频帧进行分类，医生认为清晰的图片标记为0，医生认为不清晰的图片标记为1。然后，使用ResNet-34，利用该数据，训练该分类网络，对单张输入胃镜视频帧是否清晰，进行分类，该网络记作D-Net，符号记作ψ；

(3)模糊-清晰图像对的生成：从所有的有效视频帧内，抽取医生标注为清晰的视频帧，然后保留时间域连续帧超过阈值THRESH帧的片段，获得总数为P个全清晰视频片段。不妨令第i段视频记作

其中1≤i≤P，M_i为第i个视频片段总帧数。使用DAIN算法^[1]，在原来两帧之间插9帧，即10倍插帧，此时生成的第i段插帧后视频表示为：

其中，F_j＝F′_j×10为原始清晰帧。第i段视频中选择清晰图片集合为：

即对原视频V_i首尾3帧抛弃；其对应的模糊图图片集合记作：

其生成方式是，对于原视频V_i中某帧F_j+3，在其插帧后视频V′_i中对应的时刻上，对空间域相邻的视频帧相加取平均。其计算方法如下：

其中，k为哑变量，L为空间域的长度。同时，求得S_i,j帧所对应的运动先验信息GT_Diff_i,j：GT_Diff_i,j＝S_i,j-S_i,j-1，

即视频的第j帧与第j-1帧直接相减即可。最终，获得训练数据三元组为：

即每个训练样本包括模糊胃镜图、清晰胃镜图及其运动先验信息。

(4)构建卷积神经网络：改进参考文献[2]中的SimpleNet算法模块，即对其中的残差模块(ResBlock)、感受野多样性模块(PVB)做出改进，得到轻量残差块与简单多感受模块，以获得更好的速度提升；并且，在第二个降采样层之后独立出两层卷积层预测的三通道运动先验信息PRED_Dif，然后将其送入第一个上采样层级联。该胃镜去模糊卷积神经网络简记作DTM-Net，如图2所示。

(5)训练：对卷积神经网络，利用训练数据三元组对神经网络模型进行训练。损失函数如下：

其中，

为预测结果Pred与清晰图GT之间的L1损失，

为预测的三通道运动先验信息PRED_Dif与实际的三通道运动先验信息GT_Diff的L1损失，

为由D-Net提供的含有医生判断的先验信息指导去模糊网络的损失，简称为“医生指导损失”，其计算式为：

其中，ψ代表D-Net网络，Pred为算法输出去模糊结果图，GT为清晰图，c_j、h_j、w_j分别为D-Net的第j层卷积层特征的通道数、高度与宽度，J为医生指导损失所采用的D-Net卷积层的集合；λ₁，λ₂，λ₃为权重系数。

(6)测试与使用：给定模糊的输入图Input，将其输入至DTM-Net中，得到输出图Pred，即为模糊去除的结果。

本发明步骤(3)中，所述的模糊-清晰图像对的生成中，阈值THRESH取25；空间域的长度L根据经验，在集合{47,49,51,53,55}中随机取得。

本发明步骤(4)中，所述的构建卷积神经网络中，对残差模块改进后的轻量残差模块采用两层卷积以加快其运算速度，计算如下：

Out＝Conv 2D(ReLU(Conv 2D(I,W₁)),W₂)+I，

其中，I为输入信号，W₁、W₂分别为第一层卷积与第二层卷积的权值；Conv2D为卷积操作，ReLU为激活函数。

本发明步骤(4)中，所述的构建卷积神经网络中，改进后的简单多感受模块，能够在参数量没有增加且没有可变性卷积的参与下，获得更大的感受野，进一步有利于模糊的去除，其计算如下：

Out＝Conv2D(ReLU(fuse),W₁)；

其中，W_D1为膨胀率为1的膨胀卷积，W_D2为膨胀率为2的膨胀卷积，

为卷积核大小为i×j的卷积；Concat为特征按照通道维度级联的操作。

本发明步骤(5)中，所述的训练中，其训练超参数为：学习率为0.0001，训练批大小为8，权值衰减为4e-8；学习率衰减，每训练1500轮次，学习衰减为原来的

共训练5000轮次；λ₁＝1，λ₂＝0.01，λ₃＝0.1。

本发明方法去模糊效果好，简明易操作，可以提高医生诊断的可靠性、节约医疗资源、减少病人痛苦；适用于胃镜检查过后，对于关键的模糊胃镜图片进行增强的场景。

附图说明

图1为本发明去模糊模块的网络结构设计图。

图2为数据整理与训练的流程图。

图3为本发明的运行结果示意图。

具体实施方式

利用相邻帧时空信息的食管内镜视频帧序列质量分类的算法，模型结构如图1所示，数据整理流程如图2所示，其具体步骤如下：

第一步，数据收集与清洗：

首先收集一定量的胃镜视频，对其中的数据进行清洗。需要对其中含有气泡、没有内容、失去焦距、内容混乱的胃镜无效视频帧进行剔除。

第二步，标注与训练D-Net：

请专业的医生对清洗完毕的、所有的有效视频帧进行分类，医生认为清晰的图片标记为0，医生认为不清晰的图片标记为1。然后，使用ResNet-34，利用该数据，训练分类网络，对单张输入胃镜视频帧是否清晰，进行分类，该网络记作D-Net，符号记作ψ。

第三步，模糊-清晰图像对的生成：

从所有的有效视频帧内，抽取医生标注为清晰的视频帧，然后保留时间域连续帧超过25帧的片段，获得P个全清晰视频片段。不妨令第i段视频记作

其中1≤i≤P，M_i为第i个视频片段总帧数。使用DAIN算法^[1]，在原来两帧之间插9帧，即10倍插帧，此时生成的第i段插帧后视频表示为

其中F_j＝F′_j×10为原始清晰帧。第i段视频中选择清晰图片集合为

即对原视频V_i首尾3帧抛弃；其对应的模糊图图片集合记作

其中，k为哑变量，L为空间域的长度，L根据经验，在集合{47,49,51,53,55}中随机取得。同时，我们求得S_i,j帧所对应的运动先验信息GT_Diff_i,j，GT_Diff_i,j＝S_i,j-S_i,j-1，即视频的第j帧与第j-1帧直接相减即可。最终，我们获得训练数据三元组为

第四步，构建卷积神经网络：

在文献^[2]算法的基础上，将其中的传统残差模块、感知多样性模块替换为轻量残差模块以及简单多感受模块；并且，在第二个降采样层之后独立出两层卷积层预测的三通道运动先验信息PRED_Dif，然后将其送入第一个上采样层级联，如图1所示。其中，改进后的轻量残差模块采用两层卷积以加快其运算速度，输出为out，计算如下：

Out＝Conv 2D(ReLU(Conv 2D(I,W₁)),W₂)+I

改进后的简单多感受模块，其输出为out，计算如下：

Out＝Conv2D(ReLU(fuse),W₁)

第五步，训练：

对卷积神经网络，利用训练数据三元组对神经网络模型进行训练。损失函数如下：

其中，

为预测结果Pred与清晰图GT之间的L1损失。

为预测的三通道运动先验信息PRED_Dif与实际的三通道运动先验信息GT_Diff的L1损失。

为由D-Net提供的含有医生判断的先验信息指导去模糊网络的损失，简称为“医生指导损失”，其计算为：

其中，ψ代表D-Net网络，Pred为算法输出去模糊结果图，GT为清晰图，c_j、h_j、w_j分别为D-Net的第j层卷积层特征的通道数、高度与宽度。J为医生指导损失所采用的D-Net卷积层的集合，取{47,49,51,53,55}。

在对于去模糊网络进行优化的时候，采用的超参数为：学习率为0.0001，训练批大小为8，权值衰减为4e-8；学习率衰减，每训练1500轮次，学习衰减为原来的

共训练5000轮次；λ₁＝1，λ₂＝0.01，λ₃＝0.1。

第六步，测试与使用：

给定模糊的输入图Input，将其输入至DTM-Net中，得到输出图Pred，即为模糊去除的结果。结果图与其他方法的对比，如图3所示。

参考文献

[1]Bao W,Lai W S,Ma C,et al.Depth-aware video frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:3703-3712.

[2]Li J,Tan W,Yan B.Perceptual Variousness Motion Deblurring WithLight Global Context Refinement[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision.2021:4116-4125

[3]Tao X,Gao H,Shen X,et al.Scale-recurrent network for deep imagedeblurring[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:8174-8182.

[4]Zhang H,Dai Y,Li H,et al.Deep stacked hierarchical multi-patchnetwork for image deblurring[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:5978-5986.

[5]Cho S J,Ji S W,Hong J P,et al.Rethinking coarse-to-fine approachin single image deblurring[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision.2021:4641-4650。

Claims

1.一种基于自建数据对的胃镜图像去模糊算法，是食管内镜视频帧序列质量分类算法，利用医生对于清晰模糊判断经验，指导去模糊网络的优化，而且利用插帧与时间域融合的方法，构建胃镜清晰-模糊图像对加以训练；具体步骤如下：

(1)数据收集与清洗：收集一定量的胃镜视频，对其中的数据进行清洗，即剔除视频中含有气泡、没有内容、失去焦距、内容混乱的胃镜无效视频帧；

(2)标注与训练D-Net：由专业医生对经过清洗的、所有有效视频帧进行分类，医生认为清晰的图片标记为0，医生认为不清晰的图片标记为1；然后，使用分类网络ResNet-34，利用标注的数据，训练该分类网络，对单张输入胃镜视频帧是否清晰，进行分类，该网络记作D-Net，符号记作ψ；

(3)模糊-清晰图像对的生成：从所有的有效视频帧内，抽取医生标注为清晰的视频帧，然后保留时间域连续帧超过阈值THRESH帧的片段，获得总数为P个全清晰视频片段；设第i段视频记作

其中1≤i≤P，M_i为第i个视频片段总帧数；使用DAIN算法，在原来两帧之间插9帧，即10倍插帧，此时生成的第i段插帧后视频表示为：

其中，F_j＝F′_j×10为原始清晰帧；第i段视频中选择清晰图片集合为：

即对原视频V_i首尾3帧抛弃；其对应的模糊图图片集合记作：

其生成方式是，对于原视频V_i中某帧F_j+3，在其插帧后视频V_i′中对应的时刻上，对空间域相邻的视频帧相加取平均，其计算式如下：

其中，k为哑变量，L为空间域的长度；同时，求得S_i,j帧所对应的运动先验信息GT_Diff_i,j：

GT_Diff_i,j＝S_i,j-S_i,j-1，

即视频的第j帧与第j-1帧直接相减；最终，获得训练数据三元组为：

即每个训练样本包括模糊胃镜图、清晰胃镜图及其运动先验信息；

(4)构建卷积神经网络：采用改进的SimpleNet算法模块，即对其中的残差模块、感受野多样性模块做出改进，得到轻量残差块与简单多感受模块，以获得更好的速度提升；并且，在第二个降采样层之后独立出两层卷积层预测的三通道运动先验信息PRED_Dif，然后将其送入第一个上采样层级联；该胃镜去模糊卷积神经网络简记作DTM-Net；

(5)训练：利用训练数据三元组对卷积神经网络模型进行训练；其损失函数如下：

其中，

为预测结果Pred与清晰图GT之间的L1损失，

其中，ψ代表D-Net网络，Pred为算法输出去模糊结果图，GT为清晰图，c_j、h_j、w_j分别为D-Net的第j层卷积层特征的通道数、高度与宽度，J为医生指导损失所采用的D-Net卷积层的集合；λ₁，λ₂，λ₃为权重系数；

(6)测试与使用：给定模糊的输入图Input，将其输入至经过训练的DTM-Net中，得到输出图Pred，即为模糊去除的结果。

2.根据权利要求1所述的胃镜图像去模糊算法，其特征在于，步骤(3)中所述阈值THRESH取为25；空间域的长度L根据经验，在集合{47,49,51,53,55}中随机取得。

3.根据权利要求1所述的胃镜图像去模糊算法，其特征在于，步骤(4)中所述内容，改进后的轻量残差模块采用两层卷积以加快其运算速度，计算如下：

Out＝Conv 2D(ReLU(Conv 2D(I,W₁)),W₂)+I；

4.根据权利要求1所述的胃镜图像去模糊算法，其特征在于，步骤(4)中所述改进后的简单多感受模块，能够在参数量没有增加且没有可变性卷积的参与下，获得更大的感受野，进一步有利于模糊的去除，其计算如下：

fuse＝Concat((Conv 2D(I,W_D1),Conv2D(I,W_D2),

Out＝Conv2D(ReLU(fuse),W₁)

5.根据权利要求1所述的胃镜图像去模糊算法，其特征在于，步骤(5)中所述训练，超参数设为：学习率为0.0001，训练批大小为8，权值衰减为4e-8；学习率衰减，每训练1500轮次，学习衰减为原来的

共训练5000轮次。

6.根据权利要求1所述的胃镜图像去模糊算法，其特征在于，步骤(5)中所述权重系数取为：λ₁＝1，λ₂＝0.01，λ₃＝0.1。