CN112200773A

CN112200773A - 一种基于空洞卷积的编码器和解码器的大肠息肉检测方法

Info

Publication number: CN112200773A
Application number: CN202010979481.0A
Authority: CN
Inventors: 曹鱼; 孙辛子; 刘本渊
Original assignee: Suzhou Huiwei Intelligent Medical Technology Co ltd
Current assignee: Suzhou Huiwei Intelligent Medical Technology Co ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-08

Abstract

本发明涉及一种基于空洞卷积的编码器和解码器的大肠息肉检测方法，包括如下步骤：S1构建基于空洞卷积的编码器和解码器的模型后进行训练并固定；S2获取单帧内镜图像；S3将单帧内镜图像输入到S1模型中的编码器后获取特征图；S4将特征图输入到S1模型中的解码器后获取息肉分割预测图像；S5利用后处理模块对息肉分割预测图像进行处理，其中，后处理模块包括：边界平滑处理和小连通域过滤；本发明的基于空洞卷积的编码器和解码器的大肠息肉检测方法，最后测出的息肉分割预测图像的准确率和召回率超过95%，符合大肠内窥镜息肉的检测需求，整个检测过程方便快捷且检测精准。

Description

一种基于空洞卷积的编码器和解码器的大肠息肉检测方法

技术领域

本发明涉及一种大肠内窥镜息肉的检测方法，尤其涉及一种基于空洞卷积的编码器和解码器的大肠息肉检测方法。

背景技术

早期的大肠息肉检测与切割方法主要是基于手工选取的图形特征，例如形状，颜色，线条，轮廓等，由于真实环境中的大肠息肉存在各种形态，同时有些和周围的正常组织有着很相似的特征，而传统的基于手工选择图形特征的方法只能学习有限的特定特征，因此这种方法无法取得令人满意的结果。随着神经网络与深度学习的快速发展，基于卷积神经网络的方法被广泛应用于图像识别领域，包括医疗图像识别，近几年，该方法在大肠息肉识别与分割领域也已经得到了一定的应用。

Mohammed等人在2018年发表的学术论文《Y-Net: A deep Convolutional NeuralNetwork for Polyp Detection》中提出了基于Y-Net的大肠息肉检测与切割方法，其中Y-Net是一个基于卷积神经网络的图像语义分割算法，受到U-Net编码器-解码器结构的启发，该网络由两个提取图像特征的编码器和一个生成语义分割图像的解码器组成，第一个编码器在训练之前预先加载了由ImageNet数据集（自然图像）训练得到的网络参数，由此可以利用已经学习到的广泛存在于自然图像中的图形特征，例如边界，曲线特征等，来帮助模型进行大肠息肉分类；第二个编码器通过Xavier normal initializer随机初始化起始参数，并通过较大的学习步长，来学习大肠息肉图片独有的图像特征；两个编码器提取出的不同图像特征将被融合并作为解码器的输入，该方法在公有数据集得到的召回率为84.4%，准确率为87.4%。

Wang等人在2018年发表的学术论文《Development and validation of a deep-learning algorithm for the detection of polyps during colonoscopy》中提出了基于SegNet的大肠息肉检测与分割方法，其中的SegNet同样是一种基于卷积神经网络CNN的图像语义分割算法，与U-Net类似，该网络由一个解码器和一个编码器构成，并增加了网络层数。同时，作者提出一套息肉检测系统，该系统有三个线程组成，每个线程单独运行一个SegNet网络模型进行图像分割。每个线程检测一张图片需要耗时100毫秒，从而整个系统的运行速度能达到30帧每秒，该算法在公有数据集上得到了88.24%的召回率。

但是上述两种方法在长时间的使用后发现，其召回率与准确率皆低于95%，没有达到实际使用的要求。

发明内容

本发明目的是为了克服现有技术的不足而提供一种对大肠内窥镜息肉检测的方法快速有效，且最后测出的息肉分割预测图像的准确率和召回率超过95%的基于空洞卷积的编码器和解码器的大肠息肉检测方法。

为达到上述目的，本发明采用的技术方案是：一种基于空洞卷积的编码器和解码器的大肠息肉检测方法，包括如下步骤：

S1: 构建基于空洞卷积的编码器和解码器的模型后进行训练并固定；

S2: 获取单帧内镜图像；

S3: 将单帧内镜图像输入到S1模型中的编码器后获取特征图；

S4: 将特征图输入到S1模型中的解码器后获取息肉分割预测图像。

进一步的，所述S1中基于空洞卷积的编码器的构建方法如下：

选用基于ImageNet预训练的Resnet50网络作为骨干网络，且所述Resnet50网络分为四个阶段，第一阶段由3个bottleneck叠加构成，第二阶段由4个bottleneck叠加构成，第三阶段由6个bottleneck叠加构成，第四阶段由语义增强模块构成；

其中，语义增强模块由一个普通1x1卷积核和三个具有不同膨胀率（膨胀率为： 6，12，18）的3x3卷积核组成，通过应用不同膨胀率的卷积核得到具有不同视野域的语义信息并进行融合；

进一步的，所述S3的步骤包括如下：

所述单帧内镜图像输入到基于空洞卷积的编码器后通过Resnet50网络的三个阶段和语义增强模块，共输出四层特征图，四层特征图输入到经过训练且固定模型中的解码器内。

进一步的，所述S4的步骤包括如下：

将编码器输出的四层特征图，通过1x1的卷积核将由深到浅的四层特征图的通道数减低到128维，64维，64维，64维；

再通过不同放大率的差值操作将每个特征图上采样到原图大小；

最后，上述包含不同语义信息的四个特征图叠加在一起并通过一组3x3，1x1, 3x3的卷积组合将不同层的特征融合，并最终输出息肉分割预测图像。

进一步的，在S4后还包括如下步骤：利用后处理模块对息肉分割预测图像进行处理，其处理方法如下：

a边界平滑处理：一个腐蚀算法紧接一个膨胀算法构成的开运算消除息肉分割预测图像中的噪声，再由一个膨胀算法紧接一个腐蚀算法构成的闭运算封闭息肉分割预测图像内部的小孔，得到平滑的息肉分割边界；

b小连通域过滤: 将a中得到的息肉分割预测图像大小调整为512x512后，删除小于1000像素的对象；

进一步的，所述构建基于空洞卷积的编码器和解码器的模型的训练方法如下：

①收集关于大肠内窥镜手术的图片，并将所有图片调整到512x512的大小然后将所有的图片进行数据增强操作，同时把图片分为训练集和测试集；

②将训练集中的图片输入到模型中，每张图片通过编码器提取特征图然后通过解码器生成息肉切割预测图像后，得到一个息肉分割的二值掩码图；

③用预测的二值掩码图与提前标注的真实分割图计算模型的误差，并通过误差调整整个模型的参数使其的输出更接近真实的标注，将上述过程重复多次训练直至误差到达可以接受的范围；

④训练结束模型固定下来后，用模型对所有测试集中的图片进行息肉分割的预测，并用该预测与对应的提前标注好的真实分割图对比并计算出相关指标，确保模型最后得出的息肉分隔预测图的准确性达到要求。

进一步的，所述数据增强的操作包括但不限于：

随机旋转、随机水平、垂直翻转、随机缩放、倾斜、剪切、随机扭曲变形、随机对比度和随机亮度变化。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明方案的基于空洞卷积的编码器和解码器的大肠息肉检测方法，主要包括编码器，解码器与后处理模块三个主要部分，检测时单帧内镜图像通过编码器提取特征图，然后经由解码器对特征图进行特征融合后输出息肉分割预测图像，最后经由后处理模块对息肉分割预测图像处理后生成更精确的息肉分割预测图像，得出的息肉分割预测图像的准确率和召回率超过95%，符合大肠内窥镜息肉的检测需求，整个检测过程方便快捷且检测精准。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为本发明的使用流程示意图；

附图2为本发明的检测效果图；

附图3为本发明的召回率和准确率的数据图；

附图4为基于空洞卷积的编码器和解码器的模型的示意图；

附图5为语义增强模块的使用过程示意图；

附图6为相邻预测框融合过程中的使用示意图；

其中：1、单帧内镜图像；2、第一特征图；3、第二特征图；4、第三特征图；5、语义增强模块；6、第四特征图；7、处理后的第一特征图；8、处理后的第二特征图；9、处理后的第三特征图；10、处理后的第四特征图；12、息肉分割预测图像12。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

请参阅附图1，本发明所述的一种基于空洞卷积的编码器和解码器的大肠息肉检测方法，其主要包括如下步骤：S1: 构建基于空洞卷积的编码器和解码器的模型后进行训练并固定；S2: 获取单帧内镜图像；S3: 将单帧内镜图像输入到S1模型中的编码器后获取特征图；S4: 将特征图输入到S1模型中的解码器后获取息肉分割预测图像。

其中，训练过程如下所述：

①训练阶段，我们将所有的输入图片的大小调整到512x512，并对所有的图片进行了数据增强操作，数据增强是一项广泛用于机器学习重要的技术，通过将图像的变化（例如不同的方向，位置，比例，亮度等）引入现有数据，我们可以提高模型的鲁邦性并减少模型的过拟合。

本发明中我们应用了一些基本的数据增强方法，例如随机旋转，随机水平、垂直翻转和随机缩放，由于结肠镜镜头和结肠的运动引起的内膜的扭曲外观，我们还应用了倾斜（偏斜），剪切，随机扭曲变形，此外，我们应用随机对比度和随机亮度变化来模拟结肠镜检查过程中可能发生的不同照明环境或不同的摄影设备。

②将训练集中的图片输入到本发明的模型中，每张图片通过编码器提取特征图，然后通过解码器生成息肉切割预测图像过程后，得到一个息肉分割的二值掩码图。

③然后用预测的息肉分割的二值掩码图与提前标注的真实分割图计算模型的误差，并通过误差调整整个模型的参数使其的输出更接近真实的标注，将上述过程重复几十甚至数百次直至误差到达可以接受的范围。

④当训练结束模型固定下来后，我们用模型对测试集中的所有图片进行息肉分割的预测，并用该预测与对应的提前标注好的真实分割图对比并计算出准确率与召回率等评价指标，这个过程是训练的测试阶段，测试到最后确保本发明中的模型最后得出的息肉切割预测图像的召回率与准确率达到实际的要求。

另外训练目的是：模型的参数在初始化时是随机分配的，通过反复执行以上训练过程并通过误差调整参数，模型会更好的学习到图片的特征并生成更为准确的息肉分割预测图。

本模型实际的检测效果如图2所示，通过使用本方法能精准的检测到息肉的位置。

本发明使用后的评价指标如图3所示，其召回率与准确率皆高于95%，符合使用需求，其处理图片的每秒运行帧数达到23，处理速度快。

另外，其中F1-score: 2 x精确率x召回率 / (精确率 + 召回率)，一种综合评价指标。精确率和召回率有时候会出现矛盾，需要有所权衡，这时可以用F1-score来综合考虑他们。

F2-score: 5 x 精确率x召回率 / (4 * 精确率 + 召回率)。另一种综合评价指标，同样是综合考虑精确率和召回率，但更看重召回率。

本发明中的F1-score和F2-score也均高于95%，满足实际的使用需求。

请参阅附图4，本发明中编码器的结构如图中的上半部分所示，其选用通用的基于ImageNet预训练的Resnet50网络作为骨干网络，并且采用了特征金字塔结构将主干网络中的4个不同分辨率的特征层提取出来得到不同层级的语义信息；ResNet50由一个7x7的卷积层与16个‘BottleNeck’结构组成，其中‘BottleNeck’由一组三层卷积层组成，卷积尺寸分别为1x1，3x3和1x1。

Resnet50网络分为四个阶段，每个阶段由若干个‘bottleneck’结构构成，具体的：第一阶段由3个bottleneck叠加构成；第二阶段由4个bottleneck叠加构成；第三阶段由6个bottleneck叠加构成; 第四阶段由3个bottleneck叠加构成，在这里我们保留Resne50t50网络中的第一，二，三阶段由单帧内镜图像1输入后输出的第一特征图2、第二特征图3和第三特征图4并进行一系列的变换操作，作为随后解码器的输入，在输入图像尺寸为512x512的情况下，三个特征图的尺寸为：128x128x256，96x96x512, 48x48x1024。

同时我们去掉了第四阶段，而加入了特殊设计的语义增强模块5，这是因为在传统的骨干网络，例如VGG16，VGG19， Resnet50， Resnet101等原本是为了图像分类任务设计的，为卷积核提供更大的视野阈，从而得到整张图片的语义信息用于图像分类；而对于图像切割任务，由于需要得到在原始图像上的精准语义分割结果，因此图像的细节信息起到了至关重要的作用。

在图像分割中，传统神经网络中的下采样方法会使得图像的分辨率降低，造成细节特征的丢失，从而导致图像分割精度的下降。因此，在构建主干网络的过程中，为了减少特征图的缩小所带来的分辨率的损失，我们在网络的最后一个阶段引入了空洞卷积，通过空洞卷积，我们在不使用下采样操作的前提下得到了与原始操作一样大的视野域，从而达到了既保留原有图像特征又不过多的降低图像分辨率的效果。

为了得到准确的分割边界，我们去掉的第四阶段的下采样操作，从而得到4倍于原始大小的特征图；但同时，对于单独像素的种类预测，我们仍然需要通过足够大的视野域去获取整体的语音信息，因此我们在骨干网络的第三阶段后面引入了特殊设计的语义增强模块作为第四阶段。

其中，语义增强模块由一个普通1x1卷积核和三个具有不同膨胀率的3x3卷积核（空洞卷积）组成，通过应用不同膨胀率的卷积核得到具有不同视野域的语义信息并进行融合，语义增强模块的具体结构如图5所示，通过不同膨胀率产生的特征图被叠加在一起并通过一个1x1的卷积核产生第四阶段的特征图输出，第四阶段输出的特征图维度为48x48x1024，应用中的语义增强模型所使用的三卷积核的膨胀率为： 6，12，18。

通过引入具有不同膨胀率的空洞卷积，网络可以学习到一组不同尺度的并具有大视野域的语义信息，通过不同语义信息的结合，网络可以在不过多损失图像精度的前提下，学习到具有更多细节特征的同时，也得到具有更多有助于分类的大视野域深层语义信息。

解码器如图4的下半部分所示：为了得到更为精细的图像分割结果，本发明的解码器部分除了利用最深层的第四特征图6进行分割预测，也引入了三个更为浅层的第一特征图2、第二特征图3和第三特征图4，以引入包含更多细节的浅层语义特征。

对于编码器的四层特征图输出，我们通过1x1的卷积核将由深到浅的四层特征图的通道数减低到128维，64维，64维，64维，以减少运算量；为了得到更为准确的像素分类结果，最底层的特征图保留了更多的维度，再通过不同放大率的差值操作将每个特征图上采样到原图大小，即附图4中相应的处理后的第一特征图7、处理后的第二特征图8、处理后的第三特征图9和处理后的第四特征图10，在经过了上采样操作后，包含不同语义信息的上述四个处理后的特征图叠加在一起并通过一组3x3，1x1, 3x3的卷积组合将不同层的特征融合，并最终输出息肉分割预测图像12。

对于解码器生成的分割图像，我们引入了三种后处理算法以提高检测与分割的准确性：边界平滑处理、小连通域过滤。

具体的，边界平滑处理：在实际情况中，息肉的边界通常十分平滑的，为了得到平滑的息肉分割边界，我们应用了一组形态学变化，包括几个具有不同内核大小的开运算与闭运算操作；由一个腐蚀算法紧接一个膨胀算法构成的开运算可以消除分割图像中的噪声，再由一个膨胀算法紧接一个腐蚀算法构成的闭运算可以封闭已分割物体内部的小孔。

小连通域过滤：再经过边界平滑操作后，我们仍然观察到少量细小的分隔物体，这些微小的物体会降低算法的整体精度，并对结肠镜检测的实时显示产生不利影响，我们对数据集进行统计，发现将图像大小调整为512x512后，所有息肉都大于1000像素，因此，我们在输出的息肉分割预测图像中删除了那些小于1000像素的对象。

本发明的基于空洞卷积的编码器和解码器的大肠息肉检测方法，主要包括编码器，解码器与后处理模块三个主要部分，单帧内镜图像通过编码器提取特征图后再经由解码器对图像进行特征融合后输出息肉分割预测图像，最后经由后处理模块对息肉分割预测图像处理后生成更精确的息肉分割预测图像，得出的息肉分割预测图像的准确率和召回率超过95%，符合大肠内窥镜息肉的检测需求，整个检测过程方便快捷且检测精准。

以上仅是本发明的具体应用范例，对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于空洞卷积的编码器和解码器的大肠息肉检测方法，其特征在于,包括如下步骤：

S2: 获取单帧内镜图像；

S3: 将单帧内镜图像输入到S1模型中的编码器后获取特征图；

2.根据权利要求1所述的基于空洞卷积的编码器和解码器的大肠息肉检测方法，其特征在于，所述S1中基于空洞卷积的编码器的构建方法如下：

其中，语义增强模块由一个普通1x1卷积核和三个具有不同膨胀率的3x3卷积核组成，通过应用不同膨胀率的卷积核得到具有不同视野域的语义信息并进行融合。

3.根据权利要求2所述的基于空洞卷积的编码器和解码器的大肠息肉检测方法,其特征在于，所述S3的步骤包括如下：

4.根据权利要求3所述的基于空洞卷积的编码器和解码器的大肠息肉检测方法,其特征在于，所述S4的步骤包括如下：

5.根据权利要求1所述的基于空洞卷积的编码器和解码器的大肠息肉检测方法，其特征在于，在S4后还包括如下步骤：利用后处理模块对息肉分割预测图像进行处理，其处理方法如下：

根据权利要求1所述的基于空洞卷积的编码器和解码器的大肠息肉检测方法，其特征在于，所述构建基于空洞卷积的编码器和解码器的模型的训练方法如下：

6.根据权利要求6所述的基于空洞卷积的编码器和解码器的大肠息肉检测方法，其特征在于，所述数据增强的操作包括但不限于：

随机旋转、随机水平、垂直翻转、随机缩放、倾斜、剪切、随机扭曲形变、随机对比度和随机亮度变化。