CN116597138A - 一种基于深度卷积神经网络的息肉图像语义分割方法 - Google Patents
一种基于深度卷积神经网络的息肉图像语义分割方法 Download PDFInfo
- Publication number
- CN116597138A CN116597138A CN202310461599.8A CN202310461599A CN116597138A CN 116597138 A CN116597138 A CN 116597138A CN 202310461599 A CN202310461599 A CN 202310461599A CN 116597138 A CN116597138 A CN 116597138A
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- multiplied
- feature
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 208000037062 Polyps Diseases 0.000 title claims abstract description 52
- 230000011218 segmentation Effects 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 40
- 230000004913 activation Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000022131 polyp of large intestine Diseases 0.000 description 3
- 208000004804 Adenomatous Polyps Diseases 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 2
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- 208000032177 Intestinal Polyps Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000004877 mucosa Anatomy 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002052 colonoscopy Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的息肉图像语义分割方法,包括:使用深度卷积神经网络模型作为编码器提取图像多层特征,根据卷积层的深度将特征分为浅层特征和深层特征;使用多尺度语义增强模块对深层特征进行语义增强;将得到的多个增强特征融合为全局增强特征;将所得全局增强特征输入到解码端,使用跨层特征融合模块对多层特征由深到浅逐级上采样解码,得到预测分割图。本发明综合考虑了深层和浅层特征的互补性和相关性,可提高息肉图像语义分割的准确性。
Description
技术领域
本发明属于医学图像处理技术领域,涉及一种基于深度卷积神经网络的息肉图像语义分割方法。
背景技术
生长在结直肠黏膜表面并向肠腔内突出的赘生物称为结直肠息肉,通常分为腺瘤性和非腺瘤性息肉,其中腺瘤性息肉有可能转变为结直肠癌,因此腺瘤性结直肠息肉的诊断和切除是预防结直肠癌的重要措施。结肠镜、直肠镜检查是有效的结直肠息肉检测技术,从检测图像中分割出息肉,辅助医生进行病情诊断和病理分析,提高诊断效率和准确率,在临床实践中具有重要意义。
肠道息肉图像语义分割的不确定性主要有两个原因:同一类型的息肉具有不同的大小、颜色和纹理;息肉与其周围粘膜之间的边界不清晰。目前流行的医学图像分割网络通常依赖于U-Net或类似U-Net的网络(例如:U-Net++,ResUNet等)。这些模型本质上是编解码框架,编码阶段的所有层级特征以相同权重用于解码和分割图预测,但与深层特征相比,浅层特征具有更大的空间分辨率,需要更多的计算资源,却又对息肉分割的性能贡献较小。
发明内容
本发明在于克服现有技术的缺陷,提供一种基于深度卷积神经网络的息肉图像语义分割方法,可在编码阶段重点关注深层特征,以提取息肉的高层语义信息;在解码阶段则采用跨层融合的方法,综合考虑深层和浅层特征的互补性和相关性,从而提高息肉图像语义分割的准确性。
为解决上述技术问题,本发明采用以下技术方案。
一种基于深度卷积神经网络的息肉图像语义分割方法,包括以下步骤:
步骤1、将用于训练的息肉图像输入VGG16编码器,使用编码器提取图像不同层次的特征,根据卷积层的深度将特征分为浅层特征和深层特征;
步骤2、应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征;
步骤3、将增强特征Z3、Z4、Z5进行融合,得到全局增强特征F5;
步骤4、将全局增强特征F5和深层特征X4输入跨层特征融合模块,得到跨层融合特征F4;将F4和X3输入跨层特征融合模块,得到跨层融合特征F3;将F3和X2输入跨层特征融合模块,得到跨层融合特征F2;将F2和X1输入跨层特征融合模块,得到跨层融合特征F1;
步骤5、F1经过卷积核数量为1、padding为2、卷积核大小为3×3的卷积层、Sigmoid函数,得到预测的息肉分割图S;
步骤6、以最小化预测息肉分割图S和真值图G之间的交叉熵损失函数为目标训练网络,利用损失反向传播更新网络参数;
交叉熵损失函数:
其中,N为像素点个数,yi为由真值图G取得的第i个像素的真实类别,为由预测息肉分割图S取得的第i个像素是息肉的概率;
步骤7、将测试图像输入训练好的网络,获得息肉分割图,采用mIoU均交并比评价息肉分割的性能。
具体地,在步骤1中,所述的将训练图像输入VGG16编码器,使用编码器提取图像不同层次的特征,根据卷积层的深度将特征分为浅层特征和深层特征,包括以下过程:
1.1将训练图像缩放到统一尺寸224×224,输入VGG16编码器;
1.2将VGG16编码器按卷积层的深度分为5个模块,每个模块对应一个侧向输出,由浅至深将得到的输出结果记为X1、X2、X3、X4、X5,其通道数和大小依次为64×224×224,128×112×112,256×56×56,512×28×28,512×14×14;
1.3将X1、X2称为浅层特征,将X3、X4、X5称为深层特征。
具体地,在步骤2中,所述的应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征,包括:
2.1应用多尺度语义增强模块对深层特征X5进行特征增强:
2.1.1将深层特征X5依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.2将X5依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.3将X5依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.4将X5依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.5将2.1~2.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为512×14×14的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z5,Z5的通道数和大小与X5保持一致,为512×14×14。
具体地,在步骤2中,所述的应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征,其过程包括:
2.2应用多尺度语义增强模块对深层特征X4进行特征增强:
2.2.1将深层特征X4依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.2将X4依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.3将X4依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.4将X4依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.5将2.2.1~2.2.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为512×28×28的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z4,Z4的通道数和大小与X4保持一致,为512×28×28。
进一步地,在步骤2中,所述的应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征,包括:
2.3应用多尺度语义增强模块对深层特征X3进行特征增强:
2.3.1将深层特征X3依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.2将X3依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.3将X3依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.4将X3依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.5将2.3.1~2.3.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为256×56×56的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z3,Z3的通道数和大小与X3保持一致,为256×56×56。
具体地,在步骤3中,所述的将增强特征Z3、Z4、Z5进行融合,得到全局增强特征F5,其过程包括:
3.1将增强特征Z5进行4倍插值上采样,大小变为512×56×56;
3.2将增强特征Z4进行2倍插值上采样,大小变为512×56×56;
3.3将增强特征Z5、Z4、Z3在通道维度进行拼接,依次通过通道注意力模块、卷积核大小为3×3的卷积层、批量归一化、Relu激活层,得到全局增强特征F5,通道数和大小为512×56×56。
具体地,所述的步骤4,包括以下过程:
4.1使用插值法将F5缩放至与X4一样大小,然后将F5和X4输入跨层特征融合模块;
4.2将F5依次通过最大池化,卷积核大小为1×1的卷积层,得到通道数为1的特征图,即1×28×28;然后通过批量归一化、Relu激活层、Sigmoid函数,再通过通道复制,得到特征图A,A和X4的通道数和大小一致,为512×28×28;
4.3将F5依次通过卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到特征图Y,Y与X4的通道数和大小一致,为512×28×28;
4.4将Y与A对应位置元素相加,X4与A对应位置元素相乘,得到两个特征图,大小均为512×28×28;
4.5将4.4中得到的两个特征进行通道拼接,然后通过卷积核大小为3×3的卷积层、批量归一化、Relu激活层,得到融合特征F4,大小为512×28×28;
4.6使用插值法将F4缩放至与X3一样大小,将F4和X3输入跨层特征融合模块,执行步骤4.2~4.5,得到融合特征F3,通道数和大小为256×56×56;
4.7使用插值法将F3缩放至与X2一样大小,将F3和X2输入跨层特征融合模块,执行步骤4.2~4.5得到融合特征F2,通道数和大小为128×112×112;
4.8使用插值法将F2缩放至与X1一样大小,将F2和X1输入跨层特征融合模块,执行步骤4.2~4.5得到融合特征F1,通道数和大小为64×224×224。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明采用多尺度语义增强模块,使用不同大小的深度卷积对深层特征进行分析融合,有效的提取息肉图像的高层语义信息,包括目标对象定位和全局语义信息;
(2)本发明的跨层特征融合模块在解码阶段,由深到浅逐层上采样解码,充分利用深层特征中的全局语义信息,以浅层特征中的颜色、纹理等信息作为辅助,分割出内部完整、边缘清晰的息肉图像,有效提高息肉图像语义分割的准确率。
附图说明
图1是本发明的一种实施例的方法流程图。
图2是本发明的一种实施例的息肉分割深度卷积神经网络结构图。
图3是本发明的一种实施例的多尺度特征增强(MFE)模块结构图。
图4是本发明的一种实施例的跨层特征融合(CLFF)模块结构图。
图5是分割结果实例对比图。
具体实施方式
本发明的一种基于深度卷积神经网络的息肉图像语义分割方法,包括:使用深度卷积神经网络模型作为编码器提取图像多层特征,根据卷积层的深度将特征分为浅层特征和深层特征;使用多尺度语义增强模块对深层特征进行语义增强;将得到的多个增强特征融合为全局增强特征;将所得全局增强特征输入到解码端,使用跨层特征融合模块对多层特征由深到浅逐级上采样解码,得到预测分割图。同一类型的息肉通常具有不同的大小、颜色和纹理,且息肉与周围粘膜之间的边界模糊,利用浅层特征难以正确地分割出目标区域,故本方法在编码阶段重点关注深层特征。利用多尺度语义增强模块对深层特征进行增强,提高特征表达能力;使用跨层特征融合模块由深至浅逐层上采样解码,充分利用相邻层特征的互补性、相关性,有效提高息肉图像语义分割的准确率。本发明方法使用的息肉分割数据集来源于网络。
下面结合附图对本发明做进一步详细说明。
本发明的一种基于深度卷积神经网络的息肉图像语义分割方法,如图1所示,使用深度卷积神经网络模型作为编码器,将训练图像输入编码器,提取图像的浅层和深层特征;用多尺度特征增强模块增强深层特征;使用跨层融合模块进行上采样解码,直到网络输出与原图像大小一致的分割图;以最小化分割图与训练图像真值图之间的交叉熵损失为目标训练网络。包括以下步骤:
步骤1、将训练图像输入VGG16编码器,使用编码器提取图像不同层次的特征,根据卷积层的深度将特征分为浅层特征和深层特征。如图2所示,本步骤的具体实现方法如下:
1.1将用来训练的息肉图像缩放到统一尺寸224×224,输入VGG16编码器;
1.2将VGG16编码器按卷积层的深度分为5个模块,每个模块对应一个侧向输出,由浅至深将得到的输出结果记为X1、X2、X3、X4、X5,其通道数和大小依次为64×224×224,128×112×112,256×56×56,512×28×28,512×14×14;
1.3将X1、X2称为浅层特征,将X3、X4、X5称为深层特征。
步骤2、应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征。如图3所示,本步骤的具体实现方法如下:
2.1应用多尺度语义增强模块对深层特征X5进行特征增强:
2.1.1将深层特征X5依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.2将X5依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.3将X5依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.4将X5依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.5将2.1.1~2.1.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为512×14×14的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z5,Z5的通道数和大小与X5保持一致,为512×14×14;
2.2应用多尺度语义增强模块对深层特征X4进行特征增强:
2.2.1将深层特征X4依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.2将X4依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.3将X4依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.4将X4依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.5将2.2.1~2.2.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为512×28×28的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z4,Z4的通道数和大小与X4保持一致,为512×28×28。
2.3应用多尺度语义增强模块对深层特征X3进行特征增强:
2.3.1将深层特征X3依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.2将X3依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.3将X3依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.4将X3依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.5将2.3.1~2.3.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为256×56×56的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z3,Z3的通道数和大小与X3保持一致,为256×56×56。
步骤3、将增强特征Z3、Z4、Z5进行融合,得到全局增强特征F5;本步骤的具体实现方法如下:
3.1将增强特征Z5进行4倍插值上采样,大小变为512×56×56;
3.2将增强特征Z4进行2倍插值上采样,大小变为512×56×56;
3.3将增强特征Z5、Z4、Z3在通道维度进行拼接,依次通过通道注意力模块、卷积核大小为3×3的卷积层、批量归一化、Relu激活层,得到全局增强特征F5,通道数和大小为512×56×56;
步骤4、将全局增强特征F5和深层特征X4输入跨层特征融合模块,得到跨层融合特征F4;将F4和X3输入跨层特征融合模块,得到跨层融合特征F3;将F3和X2输入跨层特征融合模块,得到跨层融合特征F2;将F2和X1输入跨层特征融合模块,得到跨层融合特征F1。如图4所示,本步骤的具体实现方法如下:
4.1使用插值法将F5缩放至与X4一样大小,然后将F5和X4输入跨层特征融合模块;
4.2将F5依次通过最大池化,卷积核大小为1×1的卷积层,得到通道数为1的特征图,即1×28×28;然后通过批量归一化、Relu激活层、Sigmoid函数,再通过通道复制,得到特征图A,A和X4的通道数和大小一致,为512×28×28;
4.3将F5依次通过卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到特征图Y,Y与X4的通道数和大小一致,为512×28×28;
4.4将Y与A对应位置元素相加,X4与A对应位置元素相乘,得到两个特征图,大小均为512×28×28;
4.5将4.4中得到的两个特征进行通道拼接,然后通过卷积核大小为3×3的卷积层、批量归一化、Relu激活层,得到融合特征F4,大小为512×28×28;
4.6使用插值法将F4缩放至与X3一样大小,将F4和X3输入跨层特征融合模块,执行步骤4.2~4.5,得到融合特征F3,通道数和大小为256×56×56;
4.7使用插值法将F3缩放至与X2一样大小,将F3和X2输入跨层特征融合模块,执行步骤4.2~4.5得到融合特征F2,通道数和大小为128×112×112;
4.8使用插值法将F2缩放至与X1一样大小,将F2和X1输入跨层特征融合模块,执行步骤4.2~4.5得到融合特征F1,通道数和大小为64×224×224;
步骤5、如图2所示,F1经过卷积核数量为1、padding为2、卷积核大小为3×3的卷积层、Sigmoid函数,得到预测的息肉分割图S;
步骤6、以最小化预测息肉分割图S和真值图G之间的交叉熵损失函数为目标训练网络,利用损失反向传播更新网络参数。
交叉熵损失函数:
其中,N为像素点个数,yi为由真值图G取得的第i个像素的真实类别,为由预测息肉分割图S取得的第i个像素是息肉的概率。
步骤7、将测试图像输入训练好的网络,获得息肉分割图,采用mIoU(MeanIntersection over Union,均交并比)评价息肉分割的性能。
下面是按照本发明的方法进行的实验,说明本发明的效果。
实验环境:PyTorch 1.9.0;Python 3.8(ubuntu18.04);Cuda 11.1;GPU RTX3090*1。
数据集:实验所用数据集为肠道息肉分割公开数据集Kvasir-SEG,其中880张作为训练数据,120张作为测试数据。
测试指标:本发明使用mIoU(Mean Intersection over Union,均交并比)为评价指标。
表1展示了本发明方法与Unet、Unet++、ResUnet、ResUnet++、PraNet、MKDCNet方法在数据集Kvasir-SEG上进行训练的评分对比。
图5显示了本发明方法和Unet、Unet++、PraNet、MKDCNet方法的分割结果实例对比。
表1
综合来看,在表1中本发明方法的测试结果评分高于其他模型。在图5中,可以看到本发明方法有效避免了很多会丢失或者误测的情况。本发明在分析复杂的图象、不易察觉的息肉目标时更具有优势。
Claims (7)
1.一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,包括以下步骤:
步骤1、将用于训练的息肉图像输入VGG16编码器,使用编码器提取图像不同层次的特征,根据卷积层的深度将特征分为浅层特征和深层特征;
步骤2、应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征;
步骤3、将增强特征Z3、Z4、Z5进行融合,得到全局增强特征F5;
步骤4、将全局增强特征F5和深层特征X4输入跨层特征融合模块,得到跨层融合特征F4;将F4和X3输入跨层特征融合模块,得到跨层融合特征F3;将F3和X2输入跨层特征融合模块,得到跨层融合特征F2;将F2和X1输入跨层特征融合模块,得到跨层融合特征F1;
步骤5、F1经过卷积核数量为1、padding为2、卷积核大小为3×3的卷积层、Sigmoid函数,得到预测的息肉分割图S;
步骤6、以最小化预测息肉分割图S和真值图G之间的交叉熵损失函数为目标训练网络,利用损失反向传播更新网络参数;
交叉熵损失函数:
其中,N为像素点个数,yi为由真值图G取得的第i个像素的真实类别,为由预测息肉分割图S取得的第i个像素是息肉的概率;
步骤7、将测试图像输入训练好的网络,获得息肉分割图,采用mIoU均交并比评价息肉分割的性能。
2.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,在步骤1中,所述的将训练图像输入VGG16编码器,使用编码器提取图像不同层次的特征,根据卷积层的深度将特征分为浅层特征和深层特征,包括以下过程:
1.1将训练图像缩放到统一尺寸224×224,输入VGG16编码器;
1.2将VGG16编码器按卷积层的深度分为5个模块,每个模块对应一个侧向输出,由浅至深将得到的输出结果记为X1、X2、X3、X4、X5,其通道数和大小依次为64×224×224,128×112×112,256×56×56,512×28×28,512×14×14;
1.3将X1、X2称为浅层特征,将X3、X4、X5称为深层特征。
3.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,在步骤2中,所述的应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征,包括:
2.1应用多尺度语义增强模块对深层特征X5进行特征增强:
2.1.1将深层特征X5依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.2将X5依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.3将X5依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.4将X5依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×14×14的特征图;
2.1.5将2.1~2.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为512×14×14的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z5,Z5的通道数和大小与X5保持一致,为512×14×14。
4.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,在步骤2中,所述的应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征,其过程包括:
2.2应用多尺度语义增强模块对深层特征X4进行特征增强:
2.2.1将深层特征X4依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.2将X4依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.3将X4依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.4将X4依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为128×28×28的特征图;
2.2.5将2.2.1~2.2.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为512×28×28的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z4,Z4的通道数和大小与X4保持一致,为512×28×28。
5.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,在步骤2中,所述的应用多尺度语义增强模块分别对深层特征X3、X4、X5进行特征增强,得到每个深层特征对应的增强特征,包括:
2.3应用多尺度语义增强模块对深层特征X3进行特征增强:
2.3.1将深层特征X3依次输入卷积核大小为7×7的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为3,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.2将X3依次输入卷积核大小为5×5的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为2,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.3将X3依次输入卷积核大小为3×3的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为1,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.4将X3依次输入卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层,其中,深度卷积层的卷积核数量为1、padding为0,卷积层的卷积核数量为128、padding为0,得到通道数和大小为64×56×56的特征图;
2.3.5将2.3.1~2.3.4中得到的四个特征图在通道维度上进行拼接,得到通道数和大小为256×56×56的特征图,然后通过通道注意力模块、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到多尺度增强特征Z3,Z3的通道数和大小与X3保持一致,为256×56×56。
6.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,在步骤3中,所述的将增强特征Z3、Z4、Z5进行融合,得到全局增强特征F5,其过程包括:
3.1将增强特征Z5进行4倍插值上采样,大小变为512×56×56;
3.2将增强特征Z4进行2倍插值上采样,大小变为512×56×56;
3.3将增强特征Z5、Z4、Z3在通道维度进行拼接,依次通过通道注意力模块、卷积核大小为3×3的卷积层、批量归一化、Relu激活层,得到全局增强特征F5,通道数和大小为512×56×56。
7.根据权利要求1所述的一种基于深度卷积神经网络的息肉图像语义分割方法,其特征在于,所述的步骤4,包括以下过程:
4.1使用插值法将F5缩放至与X4一样大小,然后将F5和X4输入跨层特征融合模块;
4.2将F5依次通过最大池化,卷积核大小为1×1的卷积层,得到通道数为1的特征图,即1×28×28;然后通过批量归一化、Relu激活层、Sigmoid函数,再通过通道复制,得到特征图A,A和X4的通道数和大小一致,为512×28×28;
4.3将F5依次通过卷积核大小为1×1的深度卷积层、卷积核大小为1×1的卷积层、批量归一化、Relu激活层,得到特征图Y,Y与X4的通道数和大小一致,为512×28×28;
4.4将Y与A对应位置元素相加,X4与A对应位置元素相乘,得到两个特征图,大小均为512×28×28;
4.5将4.4中得到的两个特征进行通道拼接,然后通过卷积核大小为3×3的卷积层、批量归一化、Relu激活层,得到融合特征F4,大小为512×28×28;
4.6使用插值法将F4缩放至与X3一样大小,将F4和X3输入跨层特征融合模块,执行步骤4.2~4.5,得到融合特征F3,通道数和大小为256×56×56;
4.7使用插值法将F3缩放至与X2一样大小,将F3和X2输入跨层特征融合模块,执行步骤4.2~4.5得到融合特征F2,通道数和大小为128×112×112;
4.8使用插值法将F2缩放至与X1一样大小,将F2和X1输入跨层特征融合模块,执行步骤4.2~4.5得到融合特征F1,通道数和大小为64×224×224。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461599.8A CN116597138A (zh) | 2023-04-26 | 2023-04-26 | 一种基于深度卷积神经网络的息肉图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461599.8A CN116597138A (zh) | 2023-04-26 | 2023-04-26 | 一种基于深度卷积神经网络的息肉图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597138A true CN116597138A (zh) | 2023-08-15 |
Family
ID=87598281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461599.8A Pending CN116597138A (zh) | 2023-04-26 | 2023-04-26 | 一种基于深度卷积神经网络的息肉图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597138A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152441A (zh) * | 2023-10-19 | 2023-12-01 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
-
2023
- 2023-04-26 CN CN202310461599.8A patent/CN116597138A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152441A (zh) * | 2023-10-19 | 2023-12-01 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
CN117152441B (zh) * | 2023-10-19 | 2024-05-07 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
Tian et al. | Deep learning on image denoising: An overview | |
Tian et al. | Designing and training of a dual CNN for image denoising | |
Tian et al. | Lightweight image super-resolution with enhanced CNN | |
Xu et al. | RSSFormer: Foreground saliency enhancement for remote sensing land-cover segmentation | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
Wang et al. | Frnet: an end-to-end feature refinement neural network for medical image segmentation | |
CN112949838B (zh) | 基于四分支注意力机制的卷积神经网络及图像分割方法 | |
CN112712528B (zh) | 一种多尺度u型残差编码器与整体反向注意机制结合的肠道病灶分割方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
Li et al. | MIA-Net: Multi-information aggregation network combining transformers and convolutional feature learning for polyp segmentation | |
Han et al. | Multi-level U-net network for image super-resolution reconstruction | |
CN115019143A (zh) | 一种基于CNN和Transformer混合模型的文本检测方法 | |
CN113989301A (zh) | 一种融合多种注意力机制神经网络的结直肠息肉分割方法 | |
CN116935044B (zh) | 一种多尺度引导和多层次监督的内镜息肉分割方法 | |
CN117078930A (zh) | 基于边界感知和注意力机制的医学图像分割方法 | |
CN116597138A (zh) | 一种基于深度卷积神经网络的息肉图像语义分割方法 | |
CN117237641A (zh) | 一种基于双分支特征融合网络的息肉分割方法及系统 | |
Su et al. | Physical model and image translation fused network for single-image dehazing | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
Gao | A method for face image inpainting based on generative adversarial networks | |
Zhang et al. | MSDANet: A multi-scale dilation attention network for medical image segmentation | |
CN116894943B (zh) | 一种双约束的伪装目标检测方法及系统 | |
CN117197470A (zh) | 一种基于结肠镜图像的息肉分割方法、设备及介质 | |
CN116935051A (zh) | 一种息肉分割网络方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |