CN113066026A

CN113066026A - 基于深度神经网络的内窥镜图像烟雾净化方法

Info

Publication number: CN113066026A
Application number: CN202110325986.XA
Authority: CN
Inventors: 庞宇; 蒋媚秋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-02
Anticipated expiration: 2041-03-26
Also published as: CN113066026B

Abstract

本发明涉及一种基于深度神经网络的内窥镜图像烟雾净化方法，属于图像处理领域。该方法为：采用Render模拟手术过程中烟雾出现的各种情况随机对腹腔镜图像加入烟雾得到模型的训练、测试和验证数据集；在编码器每一层加入拉普拉斯图像金字塔融合图像，将训练图像输入编码器提取高维特征；在解码器后五层加入CBAM注意力机制，将编码器部分提取到的图像特征通过解码器还原到输入图像尺寸；将包含烟雾的合成图像作为训练集、将原始图像作为训练集标签送入改进的U‑Net网络中进行训练，通过反向传播使得网络各层获得相应参数。本发明能够实时有效净化内窥镜图像烟雾，并保留图像的色彩、细节特征。

Description

基于深度神经网络的内窥镜图像烟雾净化方法

技术领域

本发明属于图像处理领域，涉及基于深度神经网络的内窥镜图像烟雾净化方法。

背景技术

目前，多数医院都配备了内窥镜，辅助医生进行腹腔、胸腔、耳鼻喉等部位的微创手术，并发展出多种衍生功能，其优势是医生不再需要用手术刀将腹腔、胸腔切开，仅在手术目标区域开三个小孔就可以进行手术(一个小孔放置医学影像装置，一个小孔放置超声波手术刀，一个小孔放置吸收手术废弃物装置)，根据人体的自恢复能力，小孔无需缝合，就可自行愈合，不仅缩短了康复的时间，而且减少了病人的创伤和痛苦。以腹腔镜为例，在手术过程中，医生通过超声探头和腹腔镜头来观察患者腹腔状况，这些器械通过小切口插入患者腹部，因此腹腔镜获取的视频或图像是手术期间的主要数据来源。在手术过程中，图像质量会因噪声而降低，噪声主要由血液、光照变化、镜面反射、烟雾等造成，其中，特别是由激光或电烙烧蚀人体组织引起的烟雾，会显著降低遮挡区域图像的质量，影响医生判断、加长手术时间、增加手术风险，因此，通过物理方法排除烟雾(如腹腔镜烟雾过滤系统)和通过图像处理算法来净化烟雾是非常必要的。

烟雾净化在许多领域中都有较多的应用，例如交通烟雾净化、手术场景烟雾净化、烟雾警报、电子摄影设备拍摄图像的烟雾净化等等，在现有的烟雾净化算法中，自然场景图像烟雾净化的研究较多，内窥镜烟雾净化作为近年来的热门研究领域，主要有基于传统方法、基于深度学习两大类方法构成。基于传统方法的烟雾净化通过暗通道检查、贝叶斯推理或能见度驱动的融合等算法估计烟雾位置并进行净化，近几年基于传统方法的烟雾净化能够有效去除烟雾，但是单张图像的处理时间普遍较长。随着神经网络的不断发展，基于神经网络的烟雾净化方案以其效果好、速度快的优势发展迅猛。

基于深度学习的方法主要分为两个类别，第一个类别仍然基于大气扩散模型，使用卷积神经网络对大气扩散模型公式中透射率图像和全局大气背景光进行求解，第二个类别采用端对端网络，利用模型直接进行烟雾净化，Chen等人采用U-Net结构，使用简单的差值损失函数，得到的最终烟雾净化图像色彩有一定失真，Bolkar等人在自然图像去雾AOD-Net模型的基础上采用迁移学习实现内窥镜图像去雾，能够完全净化烟雾。以上的方案侧重于净化烟雾，虽然基本能够达到实时处理烟雾，但在净化后烟雾的色彩和细节信息保留方面还需要进行深入的研究。

为了克服以上方法的不足，本发明提出了一种基于改进U-Net的烟雾净化模型，能够实时有效净化内窥镜图像烟雾，并保留图像的色彩、细节特征。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度神经网络的内窥镜图像烟雾净化方法。

为达到上述目的，本发明提供如下技术方案：

基于深度神经网络的内窥镜图像烟雾净化方法，该方法包括以下步骤：

S1：采用Render模拟手术过程中烟雾出现的各种情况随机对腹腔镜图像加入烟雾得到模型的训练、测试和验证数据集；

S2：在U-Net网络基础上改进，在编码器每一层加入拉普拉斯图像金字塔融合图像，将训练图像输入编码器提取高维特征；

S3：在解码器后五层加入CBAM注意力机制，将编码器部分提取到的图像特征通过解码器还原到输入图像尺寸；

S4：将包含烟雾的合成图像作为训练集、将原始图像作为训练集标签送入改进的U-Net网络中进行训练，通过反向传播使得网络各层获得相应参数。

特别地，在所述S1中，对于原本不包含烟雾的内窥镜图像进行用软件Render加雾操作，选择真实不含背景的烟雾图像作为软件生成烟雾的参考，生成烟雾的强度、密度和位置都由软件随机控制，随机烟雾图像按照R:G:B＝0.3:0.59:0.11的比例生成的，合成烟雾图像由原有内窥镜图像和随机烟雾图像叠加而成；为保证烟雾浓度由明显变化，加雾一次的图像作为淡雾数据集，加雾两次的图像为浓雾数据集。

特别地，所述S2中，针对编码器，对于输入为W×H的图像，原编码部分包含7个卷积组，编码部分由卷积conv1到conv7组成，每一组包含两个步幅分别为1和2的卷积层，每层采取2×2最大池化，7个卷积组对应卷积核大小分别为7×7、5×5、3×3、3×3、3×3、3×3、3×3，输出层数分别为32、64、128、256、512、512、512，总的下采样因子为64，原编码层每层图像的输入尺寸为

拉普拉斯金字塔图像融合的下采样的次数7，先对烟雾图像进行高斯下采样，将下层图像上采样到本层尺寸并与本层作差得到拉普拉斯金字塔融合图像，每层融合图像的尺寸为

通道数为彩色RGB3通道，与原编码器每层输入的尺寸一样，将经过拉普拉斯金字塔融合的图像与对应尺寸的卷积做拼接操作，得到网络每一层的的输入尺寸为35、67、131、259、515、515、515；编码器每一层的作用为提取烟雾图像的不同特征，多层下采样操作是为了提取图像不同频域的特征。

特别地，所述S3中，在解码器的后五层加入CBAM注意力机制，解码器采用7组卷积，每一组包含步幅分别为1和2的两个上采样层，卷积核尺寸全为3×3，输出层数分别为512、512、256、128、64、32、16；输入特征首先与同尺寸编码器的输出特征做拼接操作，此拼接操作不改变图像的尺寸，仅做维度上的简单叠加，目的是将高层信息直接传输到网络底层，防止高质量细节的丢失；叠加后的特征进行卷积操作得到卷积特征，再将卷积特征送入CBAM注意力模块中；

CBAM注意力模块先在通道的特征长宽方向，对输入特征F进行最大池化后和卷积与激活操作，再对此F特征进行平均池化和卷积与激活操作，将两次操作求和得到通道注意力特征；

同时在图像空间方向，即特征堆叠方向，对输入特征F进行最大池化后和卷积与激活操作，再对此F特征进行平均池化和卷积与激活操作，将两次操作求和得到空间注意力特征，将空间注意力和通道注意力合并后得到本层的输出特征，CBAM注意力模块用于帮助网络提取更好的空间特征。

特别地，所述S3中，在解码器的后五层加入CBAM注意力机制设置，将包含烟雾的合成图像作为训练集、将原始图像作为训练集标签送入改进的U-Net网络中进行训练，损失函数为原图像和预测图像差值的绝对值，通过反向传播使得网络各层获得相应参数，通过5折交叉验证确认训练效果的可靠性，最终输入烟雾内窥镜图像得到净化效果。

本发明的有益效果在于：本发明在实时运行净化内窥镜图像烟雾的同时，能够保持内窥镜图像的色彩和细节，应用在内窥镜手术中能有效净化医生视野、加快手术进程、降低手术风险，也可以为计算机辅助算法例如病灶识别、病灶分割、三维显示、三维重建、手术跟踪等提供图像预处理方案，保证计算机辅助算法性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明整体流程图；

图2为改进U-Net结构图；

图3为拉普拉斯图像金字塔融合流程图；

图4为CBAM注意力模块图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明通过在U-Net网络编码器部分加入经过拉普拉斯金字塔变换的烟雾内窥镜图像，可以使净化后的内窥镜图像保留更多细节信息；该方法通过在U-Net网络解码器部分加入CBAM注意力机制模块，可以使得网络提取中间特征的能力更佳。本发明总体框图见图1。

本发明提出的改进U-Net网络的内窥镜图像烟雾净化算法，传统的检测方法需要人工提取特征，设计过程繁杂，针对性不足，机器学习是人工智能的研究热点，其理论和方法已经被广泛应用于解决工程应用和科学领域的问题，在目标检测领域取得重大突破。本发明将深度学习中较为流行长短期记忆网络和卷积神经网络结合对于处理不定序列文本具有更好的检测准确率。

医学图像边界模糊、梯度复杂，需要高分辨率信息表示，同时人体内部结构相对固定，同一组织器官的烟雾净化前景和背景之间有一定规律可循，需要低分辨率信息表示，因此选择能够同时结合高、低分辨率信息的U-Net作为基础框架，它通过编码器网络，经过多次下采样后得到低分辨率信息，经过聚合操作能够直接从编码器将高分辨率信息传递到同高度解码器上，本发明在编码器编码器部分加入经过拉普拉斯金字塔变换的烟雾内窥镜图像，解码器加入CBAM注意力机制模块，使得系统在实时运行的同时能够较好的保留图像细节。

本发明所用的算法模型主要包括以下几个步骤：

S1，采用Render模拟手术过程中烟雾出现的各种情况随机对腹腔镜图像加入烟雾得到模型的训练、测试和验证数据集；

S2，在U-Net网络基础上改进，在编码器每一层加入拉普拉斯图像金字塔融合图像，将训练图像输入编码器提取高维特征；

S3，在解码器后五层加入CBAM注意力机制，将编码器部分提取到的图像特征通过解码器还原到输入图像尺寸；

S4，将包含烟雾的合成图像作为训练集、将原始图像作为训练集标签送入改进的U-Net网络中进行训练，通过反向传播使得网络各层获得相应参数；

步骤S5，将烟雾净化部分的代码写入到一个主程序，当输入一张包含烟雾的图片时，直接输出净化后的图像。

本发明的主要效果就是提升净化后图像的PSNR、SSIM和单张图像的处理时间。具体如下：

提高PSNR和SSIM

PSNR是图像重建质量的标准，定义如公式(3.12)。

式中，MAX＝2^B-1，B为图像中使用的比特数，MSE是均方误差，其定义如公式(3.13)所示：

其中，I和J表示用于检测的两幅图像，m×n是图像尺寸。

在本发明的实验结果中，PSNR值越高越好，SSIM结构相似性越高越好，可以增加与主观评价的相关性，其值定义在-1到1之间，-1表示总反相关性，0表示无相关性，1表示两张图像一致。对于原始图像和重构图像I和J，SSIM的定义如下：

其中，μ是平均值，σ是方差，σ_IJ是图像的协方差，C₁和C₂两个变量避免了分母或分子变为0的可能性。

本发明烟雾净化模型主要分为以下三个步骤：首先由于内窥镜烟雾图像数据集缺失，本发明采用软件Render对内窥镜图像进行加烟操作；其次将训练图像输入网络编码器部分提取特征；然后将编码器提取到的特征通过解码器还原到原有图像尺寸与标签进行比较得到损失，最后通过反向传播细化损失函数使得本发明U-Net网络的每一层得到相应的参数，输入测试图像能够得到净化烟雾的效果。其具体实现步骤如下：

步骤一、采用软件Render对内窥镜图像进行加烟操作；

烟雾净化领域的无论是自然场景或者是医用场景数据集都较为稀少，尤其是医用场景，目前没有包含真实标签的数据集。因此只能采取无监督学习或者使用软件为医用内窥镜图像增加烟雾，再使用未添加烟雾的图像作为标签，在这两种方案中，烟雾合成后使用简单的监督学习即可进行求解，且监督学习在深度神经网络领域应用成熟，因此本发明选择人工合成烟雾的方案。人工合成烟雾可以使用物理方案或者软件合成，由于腹腔镜手术中产生的烟雾通常是随机产生的并且与深度无关，现代图像渲染引擎具有完善的内置模型，相比物理方案可以更好模拟烟雾的形状、位置与密度。在过去的研究中，许多作者不仅在合成烟雾数据集上进行测试，也在真实包含烟雾的数据集上进行测试并获得良好的效果，验证了使用软件为内窥镜增加烟雾的可行性。因此，本发明使用三维图形渲染引擎Render在不含有烟雾的腹腔镜图像上进行烟雾渲染得到训练图像。

烟雾由渲染引擎渲染，并且具有局部颜色和透明度，如公式(4)所示，烟雾由输入参数随机强度Trand、密度Drand和位置position控制：

I_smoke(x,y)＝Blender(T_rand,D_rand,P_rand) (4)

本发明使用软件Render的渲染引擎对于腹腔镜图像进行加雾，由Render所渲染的烟雾与真实烟雾相似，具有局部纯白色和透明的特点，如公式(5)所示，加雾图像由原图和经渲染引擎Render得到随机烟雾叠加而成。

I_s-image(x,y)＝I_s-free(x,y)+I_smoke (5)

在腹腔镜上所添加的烟雾由Render所产生烟雾的R，G，B通道的亮度值按比例叠加而成，其比例如公式(6)所示。

I_mask(x,y)＝(0.3*I_smoke(x,y)^R)+(0.59*I_smoke(x,y)^G)+(0.11*I_smoke(x,y)^B) (6)

为更好的模拟烟雾的浓淡情况，本发明渲染两种浓淡的雾气。首先在数据集中选择不包含雾气的图像作为原始训练集，在Render中采用以上公式的数据设置对原始数据集进行随机加雾，加入一次烟雾的作为淡雾数据集，将淡雾数据集再一次送入Render进行二次随机加雾获得浓雾数据集，在浓雾数据集和淡雾数据集上分别进行训练。

步骤二、编码器提取烟雾图像特征：

编码器可以通过卷积层提取内窥镜图像的特征，图像在下采样过程中丢失部分高频细节，为更好的保留图像细节，参考Wang等人在上采样部分引入拉普拉斯金字塔，该文采取最近邻插值方法进行上采样，该方法计算量很小、运算速度较快，但仅使用离待测采样点最近的像素的灰度值作为该采样点的灰度值，没考虑其他相邻像素点的影响，因而重新采样后灰度值有明显的不连续性，图像质量损失较大，可能产生的马赛克和锯齿现象。在该方法基础上进行改进，采取双线性插值，它考虑了待测采样点周围四个直接邻点对该采样点的相关性影响，缩放后图像质量高，基本克服了最近邻插值灰度值不连续的问题。

拉普拉斯图像金字塔融合流程图如图2所示，在编码器中的每一个卷积层之前添加经过拉普拉斯变换后的烟雾图像，(LaplacianPyramid)，定义为

L_i(I)＝G_i(I)-up(down(G_i(I))) (7)

式中，I表示包含烟雾的原始图像，i表示金字塔的等级。如图2所示，G_i(I)表示对图像做高斯下采样，即图2中上方彩色内窥镜图片会随着高斯下采样次数增多而减小尺寸但保留图像主要信息，L_i(I)为高斯采样的图像减去经过上采样的下一级高斯采样图像的差值，L(1)，L(2),L(3)…L(7)构成拉普拉斯金字塔，如图3中的拉普拉斯叠加层和拼接操作所示，将L(1)，L(2),L(3)…L(7)拼接到对应尺寸的卷积层参与训练。

步骤三、将编码器提取到的特征通过解码器还原到原有图像尺寸与标签进行比较得到损失。

解码器将经过下采样的图像恢复至原有尺寸，在U-Net网络解码部分的前5层插入CBAM注意力模块，如2上采样部分所示，解码器也采用7组卷积，每一组包含步幅分别为1和2的两个上采样层，卷积核尺寸全为3×3，输出层数分别为512、512、256、128、64、32、16。编码器和解码器之间有对应连接，低层的特征与高层的特征相连接，将高层信息直接传输到网络底层，防止高质量细节的丢失。

采用CBAM注意力模块，由于CBAM量级较轻，因此该模块的开销较小，可以将其集成到CNN网络中进行训练，使得模型能够更好地表示中间特征。将CBAM加入到解码器的第1至5组，对于任意层的中间特征图，CBAM模块会沿着两个独立的维度(通道和空间)依次得出注意力图，然后将注意力图与输入特征图相乘进行自适应特征优化。其具体过程如下，对于任意中间层的特征矩阵F∈R^C*H*W，CBAM将会顺序推理出1维的通道特征图M_c∈R^C*1*1，如图4中标注“通道注意力”所对应的长条长方体所示，其过程由公式(8)推导；以及2维的空间特征图M_c∈R^1*H*W，如图4中标注“空间注意力”所对应的扁平长方体所示，其过程由公式(9)推导，整个过程如下所示：

特征图的每个通道都被视为一个特征检测器，通道注意力主要关注输入图片的内容，为了高效地计算通道注意力，使用最大池化和平均池化对特征图在空间维度上进行压缩，得到两个不同的空间背景描述：

和

使用由MLP组成的共享网络对这两个不同的空间背景描述进行计算得到通道特征图：M_c∈R^C*1*1。计算过程如下公式(10)与(11)所示：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (10)

其中W₀∈R^C/r*C，W₁∈R^C*C/r，在W₀后使用Relu作为激活函数。与通道注意力不同，空间注意力主要关注于位置信息，在通道的维度上使用最大池化和平均池化得到两个不同的特征描述

和

然后使用聚合操作将两个特征描述合并，并使用卷积操作生成空间特征图M_s(F)∈R_H*W。计算过程如下公式(12)与(13)所示：

M_s＝σ(f^7*7([AvgPool(F)；MaxPool(F)])) (12)

改进U-Net网络的损失函数如公式(14)所示，为原始图像和合成烟雾图像的最小绝对值偏差损失L。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于深度神经网络的内窥镜图像烟雾净化方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于深度神经网络的内窥镜图像烟雾净化方法，其特征在于：在所述S1中，对于原本不包含烟雾的内窥镜图像进行用软件Render加雾操作，选择真实不含背景的烟雾图像作为软件生成烟雾的参考，生成烟雾的强度、密度和位置都由软件随机控制，随机烟雾图像按照R:G:B＝0.3:0.59:0.11的比例生成的，合成烟雾图像由原有内窥镜图像和随机烟雾图像叠加而成；为保证烟雾浓度由明显变化，加雾一次的图像作为淡雾数据集，加雾两次的图像为浓雾数据集。

3.根据权利要求1所述的基于深度神经网络的内窥镜图像烟雾净化方法，其特征在于：所述S2中，针对编码器，对于输入为W×H的图像，原编码部分包含7个卷积组，编码部分由卷积conv1到conv7组成，每一组包含两个步幅分别为1和2的卷积层，每层采取2×2最大池化，7个卷积组对应卷积核大小分别为7×7、5×5、3×3、3×3、3×3、3×3、3×3，输出层数分别为32、64、128、256、512、512、512，总的下采样因子为64，原编码层每层图像的输入尺寸为

4.根据权利要求3所述的基于深度神经网络的内窥镜图像烟雾净化方法，其特征在于：所述S3中，在解码器的后五层加入CBAM注意力机制，解码器采用7组卷积，每一组包含步幅分别为1和2的两个上采样层，卷积核尺寸全为3×3，输出层数分别为512、512、256、128、64、32、16；输入特征首先与同尺寸编码器的输出特征做拼接操作，此拼接操作不改变图像的尺寸，仅做维度上的简单叠加，目的是将高层信息直接传输到网络底层，防止高质量细节的丢失；叠加后的特征进行卷积操作得到卷积特征，再将卷积特征送入CBAM注意力模块中；

5.根据权利要求4所述的基于深度神经网络的内窥镜图像烟雾净化方法，其特征在于：所述S3中，在解码器的后五层加入CBAM注意力机制设置，将包含烟雾的合成图像作为训练集、将原始图像作为训练集标签送入改进的U-Net网络中进行训练，损失函数为原图像和预测图像差值的绝对值，通过反向传播使得网络各层获得相应参数，通过5折交叉验证确认训练效果的可靠性，最终输入烟雾内窥镜图像得到净化效果。