CN116597138A

CN116597138A - 一种基于深度卷积神经网络的息肉图像语义分割方法

Info

Publication number: CN116597138A
Application number: CN202310461599.8A
Authority: CN
Inventors: 徐丹; 易文彬; 束鑫; 史金龙; 段先华
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-15

Abstract

本发明公开了一种基于深度卷积神经网络的息肉图像语义分割方法，包括：使用深度卷积神经网络模型作为编码器提取图像多层特征，根据卷积层的深度将特征分为浅层特征和深层特征；使用多尺度语义增强模块对深层特征进行语义增强；将得到的多个增强特征融合为全局增强特征；将所得全局增强特征输入到解码端，使用跨层特征融合模块对多层特征由深到浅逐级上采样解码，得到预测分割图。本发明综合考虑了深层和浅层特征的互补性和相关性，可提高息肉图像语义分割的准确性。

Description

一种基于深度卷积神经网络的息肉图像语义分割方法

技术领域

本发明属于医学图像处理技术领域，涉及一种基于深度卷积神经网络的息肉图像语义分割方法。

背景技术

生长在结直肠黏膜表面并向肠腔内突出的赘生物称为结直肠息肉，通常分为腺瘤性和非腺瘤性息肉,其中腺瘤性息肉有可能转变为结直肠癌，因此腺瘤性结直肠息肉的诊断和切除是预防结直肠癌的重要措施。结肠镜、直肠镜检查是有效的结直肠息肉检测技术，从检测图像中分割出息肉，辅助医生进行病情诊断和病理分析，提高诊断效率和准确率，在临床实践中具有重要意义。

肠道息肉图像语义分割的不确定性主要有两个原因：同一类型的息肉具有不同的大小、颜色和纹理；息肉与其周围粘膜之间的边界不清晰。目前流行的医学图像分割网络通常依赖于U-Net或类似U-Net的网络(例如：U-Net++，ResUNet等)。这些模型本质上是编解码框架，编码阶段的所有层级特征以相同权重用于解码和分割图预测，但与深层特征相比，浅层特征具有更大的空间分辨率，需要更多的计算资源，却又对息肉分割的性能贡献较小。

发明内容

本发明在于克服现有技术的缺陷，提供一种基于深度卷积神经网络的息肉图像语义分割方法，可在编码阶段重点关注深层特征，以提取息肉的高层语义信息；在解码阶段则采用跨层融合的方法，综合考虑深层和浅层特征的互补性和相关性，从而提高息肉图像语义分割的准确性。

为解决上述技术问题，本发明采用以下技术方案。

一种基于深度卷积神经网络的息肉图像语义分割方法，包括以下步骤：

步骤1、将用于训练的息肉图像输入VGG16编码器，使用编码器提取图像不同层次的特征，根据卷积层的深度将特征分为浅层特征和深层特征；

步骤2、应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征；

步骤3、将增强特征Z₃、Z₄、Z₅进行融合，得到全局增强特征F₅；

步骤4、将全局增强特征F₅和深层特征X₄输入跨层特征融合模块，得到跨层融合特征F₄；将F₄和X₃输入跨层特征融合模块，得到跨层融合特征F₃；将F₃和X₂输入跨层特征融合模块，得到跨层融合特征F₂；将F₂和X₁输入跨层特征融合模块，得到跨层融合特征F₁；

步骤5、F₁经过卷积核数量为1、padding为2、卷积核大小为3×3的卷积层、Sigmoid函数，得到预测的息肉分割图S；

步骤6、以最小化预测息肉分割图S和真值图G之间的交叉熵损失函数为目标训练网络，利用损失反向传播更新网络参数；

交叉熵损失函数：

其中,N为像素点个数,y_i为由真值图G取得的第i个像素的真实类别，为由预测息肉分割图S取得的第i个像素是息肉的概率；

步骤7、将测试图像输入训练好的网络，获得息肉分割图，采用mIoU均交并比评价息肉分割的性能。

具体地，在步骤1中，所述的将训练图像输入VGG16编码器，使用编码器提取图像不同层次的特征，根据卷积层的深度将特征分为浅层特征和深层特征，包括以下过程：

1.1将训练图像缩放到统一尺寸224×224，输入VGG16编码器；

1.2将VGG16编码器按卷积层的深度分为5个模块，每个模块对应一个侧向输出，由浅至深将得到的输出结果记为X₁、X₂、X₃、X₄、X₅，其通道数和大小依次为64×224×224，128×112×112，256×56×56，512×28×28，512×14×14；

1.3将X₁、X₂称为浅层特征，将X₃、X₄、X₅称为深层特征。

具体地，在步骤2中，所述的应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征，包括：

2.1应用多尺度语义增强模块对深层特征X₅进行特征增强：

2.1.1将深层特征X₅依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为3，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×14×14的特征图；

2.1.2将X₅依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为2，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×14×14的特征图；

2.1.3将X₅依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为1，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×14×14的特征图；

2.1.4将X₅依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为0，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×14×14的特征图；

2.1.5将2.1～2.4中得到的四个特征图在通道维度上进行拼接，得到通道数和大小为512×14×14的特征图，然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层，得到多尺度增强特征Z₅，Z₅的通道数和大小与X₅保持一致，为512×14×14。

具体地，在步骤2中，所述的应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征，其过程包括：

2.2应用多尺度语义增强模块对深层特征X₄进行特征增强：

2.2.1将深层特征X₄依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为3，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×28×28的特征图；

2.2.2将X₄依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为2，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×28×28的特征图；

2.2.3将X₄依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为1，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×28×28的特征图；

2.2.4将X₄依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为0，卷积层的卷积核数量为128、padding为0，得到通道数和大小为128×28×28的特征图；

2.2.5将2.2.1～2.2.4中得到的四个特征图在通道维度上进行拼接，得到通道数和大小为512×28×28的特征图，然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层，得到多尺度增强特征Z₄，Z₄的通道数和大小与X₄保持一致，为512×28×28。

进一步地，在步骤2中，所述的应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征，包括：

2.3应用多尺度语义增强模块对深层特征X₃进行特征增强：

2.3.1将深层特征X₃依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为3，卷积层的卷积核数量为128、padding为0，得到通道数和大小为64×56×56的特征图；

2.3.2将X₃依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为2，卷积层的卷积核数量为128、padding为0，得到通道数和大小为64×56×56的特征图；

2.3.3将X₃依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为1，卷积层的卷积核数量为128、padding为0，得到通道数和大小为64×56×56的特征图；

2.3.4将X₃依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层，其中，深度卷积层的卷积核数量为1、padding为0，卷积层的卷积核数量为128、padding为0，得到通道数和大小为64×56×56的特征图；

2.3.5将2.3.1～2.3.4中得到的四个特征图在通道维度上进行拼接，得到通道数和大小为256×56×56的特征图，然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层，得到多尺度增强特征Z₃，Z₃的通道数和大小与X₃保持一致，为256×56×56。

具体地，在步骤3中，所述的将增强特征Z3、Z4、Z5进行融合，得到全局增强特征F5，其过程包括：

3.1将增强特征Z₅进行4倍插值上采样，大小变为512×56×56；

3.2将增强特征Z₄进行2倍插值上采样，大小变为512×56×56；

3.3将增强特征Z₅、Z₄、Z₃在通道维度进行拼接，依次通过通道注意力模块、卷积核大小为3×3的卷积层、批量归一化、Relu激活层，得到全局增强特征F₅，通道数和大小为512×56×56。

具体地，所述的步骤4，包括以下过程：

4.1使用插值法将F₅缩放至与X₄一样大小，然后将F₅和X₄输入跨层特征融合模块；

4.2将F₅依次通过最大池化，卷积核大小为1×1的卷积层，得到通道数为1的特征图，即1×28×28；然后通过批量归一化、Relu激活层、Sigmoid函数，再通过通道复制，得到特征图A，A和X₄的通道数和大小一致，为512×28×28；

4.3将F₅依次通过卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层、批量归一化、Relu激活层，得到特征图Y，Y与X₄的通道数和大小一致，为512×28×28；

4.4将Y与A对应位置元素相加，X₄与A对应位置元素相乘，得到两个特征图，大小均为512×28×28；

4.5将4.4中得到的两个特征进行通道拼接，然后通过卷积核大小为3×3的卷积层、批量归一化、Relu激活层，得到融合特征F₄，大小为512×28×28；

4.6使用插值法将F₄缩放至与X₃一样大小，将F₄和X₃输入跨层特征融合模块，执行步骤4.2～4.5，得到融合特征F₃，通道数和大小为256×56×56；

4.7使用插值法将F₃缩放至与X₂一样大小，将F₃和X₂输入跨层特征融合模块，执行步骤4.2～4.5得到融合特征F₂，通道数和大小为128×112×112；

4.8使用插值法将F₂缩放至与X₁一样大小，将F₂和X₁输入跨层特征融合模块，执行步骤4.2～4.5得到融合特征F₁，通道数和大小为64×224×224。

与现有技术相比，本发明具有以下优点和有益效果：

(1)本发明采用多尺度语义增强模块，使用不同大小的深度卷积对深层特征进行分析融合，有效的提取息肉图像的高层语义信息，包括目标对象定位和全局语义信息；

(2)本发明的跨层特征融合模块在解码阶段，由深到浅逐层上采样解码，充分利用深层特征中的全局语义信息，以浅层特征中的颜色、纹理等信息作为辅助，分割出内部完整、边缘清晰的息肉图像，有效提高息肉图像语义分割的准确率。

附图说明

图1是本发明的一种实施例的方法流程图。

图2是本发明的一种实施例的息肉分割深度卷积神经网络结构图。

图3是本发明的一种实施例的多尺度特征增强(MFE)模块结构图。

图4是本发明的一种实施例的跨层特征融合(CLFF)模块结构图。

图5是分割结果实例对比图。

具体实施方式

本发明的一种基于深度卷积神经网络的息肉图像语义分割方法，包括：使用深度卷积神经网络模型作为编码器提取图像多层特征，根据卷积层的深度将特征分为浅层特征和深层特征；使用多尺度语义增强模块对深层特征进行语义增强；将得到的多个增强特征融合为全局增强特征；将所得全局增强特征输入到解码端，使用跨层特征融合模块对多层特征由深到浅逐级上采样解码，得到预测分割图。同一类型的息肉通常具有不同的大小、颜色和纹理，且息肉与周围粘膜之间的边界模糊，利用浅层特征难以正确地分割出目标区域，故本方法在编码阶段重点关注深层特征。利用多尺度语义增强模块对深层特征进行增强，提高特征表达能力；使用跨层特征融合模块由深至浅逐层上采样解码，充分利用相邻层特征的互补性、相关性，有效提高息肉图像语义分割的准确率。本发明方法使用的息肉分割数据集来源于网络。

下面结合附图对本发明做进一步详细说明。

本发明的一种基于深度卷积神经网络的息肉图像语义分割方法，如图1所示，使用深度卷积神经网络模型作为编码器，将训练图像输入编码器，提取图像的浅层和深层特征；用多尺度特征增强模块增强深层特征；使用跨层融合模块进行上采样解码，直到网络输出与原图像大小一致的分割图；以最小化分割图与训练图像真值图之间的交叉熵损失为目标训练网络。包括以下步骤：

步骤1、将训练图像输入VGG16编码器，使用编码器提取图像不同层次的特征，根据卷积层的深度将特征分为浅层特征和深层特征。如图2所示，本步骤的具体实现方法如下：

1.1将用来训练的息肉图像缩放到统一尺寸224×224，输入VGG16编码器；

步骤2、应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征。如图3所示，本步骤的具体实现方法如下：

2.1应用多尺度语义增强模块对深层特征X₅进行特征增强：

2.1.5将2.1.1～2.1.4中得到的四个特征图在通道维度上进行拼接，得到通道数和大小为512×14×14的特征图，然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层，得到多尺度增强特征Z₅，Z₅的通道数和大小与X₅保持一致，为512×14×14；

2.2应用多尺度语义增强模块对深层特征X₄进行特征增强：

2.3应用多尺度语义增强模块对深层特征X₃进行特征增强：

步骤3、将增强特征Z₃、Z₄、Z₅进行融合，得到全局增强特征F₅；本步骤的具体实现方法如下：

3.1将增强特征Z₅进行4倍插值上采样，大小变为512×56×56；

3.2将增强特征Z₄进行2倍插值上采样，大小变为512×56×56；

3.3将增强特征Z₅、Z₄、Z₃在通道维度进行拼接，依次通过通道注意力模块、卷积核大小为3×3的卷积层、批量归一化、Relu激活层，得到全局增强特征F₅，通道数和大小为512×56×56；

步骤4、将全局增强特征F₅和深层特征X₄输入跨层特征融合模块，得到跨层融合特征F₄；将F₄和X₃输入跨层特征融合模块，得到跨层融合特征F₃；将F₃和X₂输入跨层特征融合模块，得到跨层融合特征F₂；将F₂和X₁输入跨层特征融合模块，得到跨层融合特征F₁。如图4所示，本步骤的具体实现方法如下：

4.8使用插值法将F₂缩放至与X₁一样大小，将F₂和X₁输入跨层特征融合模块，执行步骤4.2～4.5得到融合特征F₁，通道数和大小为64×224×224；

步骤5、如图2所示，F₁经过卷积核数量为1、padding为2、卷积核大小为3×3的卷积层、Sigmoid函数，得到预测的息肉分割图S；

步骤6、以最小化预测息肉分割图S和真值图G之间的交叉熵损失函数为目标训练网络，利用损失反向传播更新网络参数。

交叉熵损失函数：

其中,N为像素点个数,y_i为由真值图G取得的第i个像素的真实类别，为由预测息肉分割图S取得的第i个像素是息肉的概率。

步骤7、将测试图像输入训练好的网络，获得息肉分割图，采用mIoU(MeanIntersection over Union，均交并比)评价息肉分割的性能。

下面是按照本发明的方法进行的实验，说明本发明的效果。

实验环境：PyTorch 1.9.0；Python 3.8(ubuntu18.04)；Cuda 11.1；GPU RTX3090*1。

数据集：实验所用数据集为肠道息肉分割公开数据集Kvasir-SEG，其中880张作为训练数据，120张作为测试数据。

测试指标：本发明使用mIoU(Mean Intersection over Union，均交并比)为评价指标。

表1展示了本发明方法与Unet、Unet++、ResUnet、ResUnet++、PraNet、MKDCNet方法在数据集Kvasir-SEG上进行训练的评分对比。

图5显示了本发明方法和Unet、Unet++、PraNet、MKDCNet方法的分割结果实例对比。

表1

综合来看，在表1中本发明方法的测试结果评分高于其他模型。在图5中，可以看到本发明方法有效避免了很多会丢失或者误测的情况。本发明在分析复杂的图象、不易察觉的息肉目标时更具有优势。

Claims

1.一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，包括以下步骤：

交叉熵损失函数：

2.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，在步骤1中，所述的将训练图像输入VGG16编码器，使用编码器提取图像不同层次的特征，根据卷积层的深度将特征分为浅层特征和深层特征，包括以下过程：

1.1将训练图像缩放到统一尺寸224×224，输入VGG16编码器；

3.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，在步骤2中，所述的应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征，包括：

2.1应用多尺度语义增强模块对深层特征X₅进行特征增强：

4.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，在步骤2中，所述的应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征，其过程包括：

2.2应用多尺度语义增强模块对深层特征X₄进行特征增强：

5.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，在步骤2中，所述的应用多尺度语义增强模块分别对深层特征X₃、X₄、X₅进行特征增强，得到每个深层特征对应的增强特征，包括：

2.3应用多尺度语义增强模块对深层特征X₃进行特征增强：

6.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，在步骤3中，所述的将增强特征Z3、Z4、Z5进行融合，得到全局增强特征F5，其过程包括：

3.1将增强特征Z₅进行4倍插值上采样，大小变为512×56×56；

3.2将增强特征Z₄进行2倍插值上采样，大小变为512×56×56；

7.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法，其特征在于，所述的步骤4，包括以下过程：