CN112233129A - 基于深度学习的并行多尺度注意力机制语义分割方法及装置 - Google Patents
基于深度学习的并行多尺度注意力机制语义分割方法及装置 Download PDFInfo
- Publication number
- CN112233129A CN112233129A CN202011128413.XA CN202011128413A CN112233129A CN 112233129 A CN112233129 A CN 112233129A CN 202011128413 A CN202011128413 A CN 202011128413A CN 112233129 A CN112233129 A CN 112233129A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- convolution
- eds
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 39
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011800 void material Substances 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims 1
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的并行多尺度注意力机制语义分割方法,首先对图像数据集进行预处理,提高模型的分割精度及其鲁棒性。以对第五层卷积层进行调整后的ResNet‑50为基础,再通过接在基网络的顶部的并行多尺度注意力模块用来聚合多尺度语义信息。最后通过双线性上采样恢复图像尺寸。本发明在原来每个并行的五个大小不同的卷积核得到的特征图后面增加了一个相似度EDS模块。通过添加这种注意力机制,增强五个并行膨胀卷积得到的特征图中的重要语义信息,抑制次要语义信息。
Description
技术领域
本发明属于深度学习及计算机视觉领域,具体涉及一种基于深度学习的并行多尺度注意力机制语义分割方法及装置。
背景技术
语义分割是一个基础且具有挑战性的任务,其目的就是需要预测每个像素的类别,即需要学习物体轮廓、物体位置和物体类别的高层语义信息和局部位置信息。作为计算机视觉最基本的任务之一,语义分割已经在自动驾驶、医学诊断、视频编辑、目标检测以及航空图像分析等领域得到了广泛的应用。近年来,随着深度卷积神经网络的发展,相较于随机森林等传统的机器学习方法,深度卷积神经网络具有更为强大的特征提取能力。尤其是全卷积网络FCN的出现,使语义分割实现了端到端的预测。随后语义分割的发展主要围绕如何获取更多的上下文信息和如何提升分辨率两个方面做改进。
一般来说网络越深感受野越大,但是实际网络中的感受野远小于理论上的感受野,这使得网络无法有效的融合全局特征信息。虽然全卷积网络FCN实现了语义分割领域端到端预测,但是FCN网络缺乏更大范围的捕获上下特征,而这些信息对提高语义分割精度是有帮助的。为了聚合更多的上下特征,文献“Rethinking Atrous ConvolutionforSemantic Image Segmentation”提出了空间金字塔池化ASPP模型用来融合不同区域的上下文特征。而虽然ASPP利用几个不同空洞率的卷积核能有效地捕获多尺度信息,但是在多尺度信息聚合阶段没有考虑到不同感受野捕获的特征之间的差异。
发明内容
针对ASPP模型现有技术的缺陷,本发明的目的在于通过设计EDS模块,希望能建立ASPP中多尺度特征图之间的相互依赖关系,通过学习的方式获取不同尺度信息的重要程度。本发明提出的并行多尺度注意力模块能够在捕获多尺度信息的同时,增强重要特征信息的表达并抑制次要信息。
为了实现上述技术目的,本发明的技术方案是,
一种基于深度学习的并行多尺度注意力机制语义分割方法,包括以下步骤:
步骤1:对训练集中的图像进行预处理;
步骤2:基于预处理后的图像对图像处理模型进行训练,其中图像处理模型是基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1;图像在由ResNet-50网络处理后再聚合多尺度语义信息,最后通过双线性上采样恢复图像尺寸,得到预测图;
步骤3:将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中,通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图,同时使用平均交并比作为模型的评估标准来对模型进行评估,并基于训练集中不同图像反复迭代来训练模型,在达到评估标准或最大迭代次数后完成训练;
步骤3:训练完成后即得到图像处理模型,将需要处理的图像输入图像处理模型,得到分割结果。
所述的方法,所述的步骤1中的预处理包括以下步骤:
在0.5到1.5倍之间随机缩小或放大图像,并在缩小后进行相应填充,或在放大后进行相应裁剪,以使图像回复原尺寸;然后进行水平翻转,再通过高斯滤波对图像进行平滑处理。
所述的方法,在图像缩小后进行相应填充时,是在缩小后的图像四周均匀填充灰度值为0的像素,直到图像恢复原尺寸;在放大后进行相应裁剪时,是将超过图像原尺寸大小的部分从图像四周均匀删除,直到图像恢复原尺寸。
所述的方法,所述的步骤2中聚合多尺度语义信息处理过程为;
首先由五个并行且大小不同的空洞卷积核所构成的ASPP模块对经ResNet-50网络处理后的图像提取特征,从而得到五张不同的特征图,然后通过计算其中一张特征图U∈RH ×W×C和V∈RH×W×5C之间的相似度即EDS模块操作,使U成为带有注意力的特征图的U′,即:
U′=Feds(U,V)
其中,U为提取出的五张特征图中的一张,V为将五张特征图以串联形式拼接后的特征图,R表示特征图的大小,H,W,C分别表示特征图的高度,宽度,通道数,Feds是EDS模块操作,U′是最终输出特征图;对每张特征图均执行同样的上述操作。
所述的方法,所述的ASPP模块中五个并行且大小不同的空洞卷积核包括:1×1的卷积核,3×3膨胀率为6的空洞卷积核,3×3膨胀率为12的空洞卷积核,3×3膨胀率为18的空洞卷积核,全局平均池化卷积核。
所述的方法,EDS模块操作包括以下步骤:
对ASPP模块产生的五张特征图分别单独执行以下操作:
首先将U顺着空间维度进行压缩,即将每个二维的特征通道利用全局平均池化将其变为一个实数,随后将输入至1x1的卷积,再进行Batch Normalization和ReLU操作,得到特征图X∈R1×1×C:
然后将特征图V先进行1x1的卷积操作,随后进行如处理U的相同操作,最后得到特征图Y∈R1×1×C:
然后计算特征图向量X=[x1,x2…xC]和Y=[y1,y2…yC]的相似度d(X,Y):
其中xC表示特征图X在对应的第C个通道上的值,yC表示特征图Y在对应的第C个通道上的值;
求倒数以将相似度d(X,Y)的范围限定在(0~1):
然后将相似度特征值λ乘以原来的特征图U,得到带有注意力机制的特征图U′,
U'=λ×U
然后将原来ASPP模块得到的5个特征图和经过EDS模块变换得到的5个注意力特征图以串联形式进行拼接,再用1x1卷积将通道降为C,最后依次进行Batch Normalization、ReLU、Droupout(0.3)。
所述的方法,所述的步骤2中双线性上采样包括以下步骤:
将经过EDS模块处理后的特征图输入一个1x1的卷积得到一个具有k个通道的热图t,其中k为所要预测图像中的所需要识别分割的类别数,最后将热图t通过双线性上采样算法进行16倍上采样恢复到原图大小,得到最终的预测图T={T1,T2,…,TK}。
所述的方法,步骤3中所述的交叉熵损失函数L为:
其中p(xi)是真实样本分布,q(xi)是预测得到的样本分布,q(xi)=hw,b(xi),hw,b表示图像处理模型的前向传播,w和b表示需要训练的图像处理模型的权重和偏置;
new_w=existing_w-new_lr×gradient
其中existing_w为当前图像处理模型的权重,new_lr为当前学习率,gradient为图像处理模型设置的梯度,new_w为经过一次反向传播算法后更新的权重。
所述的方法,步骤3中所述的反向传播算法,是通过poly学习策略更新当前学习率new_lr,表达式为:
new_lr=base_lr*(1-iter/maxiter)power
其中new_lr为当前学习率,power为常量,base_lr为初始学习率,iter为当前迭代步数,maxiter为最大迭代步数。
所述的方法,步骤3中所述的作为评估标准的平均交并比MeanIou为:
其中pii表示真正被预测正确的像素数量,pij表示本属于i类但被预测为j类的像素数量,pji表示本属于j类但被预测为i类的像素数量,k为所要预测图像的类别数。
一种基于深度学习的并行多尺度注意力机制语义分割装置,包括:
下采样特征提取模块,用于对图像进行特征提取并得到特征图;
双线性上采样模块,用于对特征图进行上采样以恢复至原始图片大小;
所述的下采样特征提取模块包括ResNet-50神经网络子模块,ASPP模块和EDS模块;
所述的ResNet-50神经网络子模块为基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1的神经网络模块,用于对原始图像进行初步特征提取;
所述的ASPP模块包括五个并行且大小不同的卷积核,用于对经ResNet-50神经网络子模块处理后的特征图进行特征提取以得到五张不同的特征图;
所述的EDS模块用于对五张不同的特征图与五张特征图以串联形式拼接后的特征图进行相似度计算,以得到五张带有注意力机制的特征图,最后进行拼接。
本发明的技术效果在于:
(1)本发明通过对图像进行预处理提高模型的精度同时能增强模型的鲁棒性。
(2)本发明通过构建基于深度学习的并行多尺度注意力机制语义分割结构,能够有效地对图像特征进行提取,提高语义分割的精度。
(3)本发明在将ResNet-50第五层卷积改为空洞率为2的卷积,这样可以在不增加计算量的同时增加感受野。此外,将原ResNet-50第五层的步长改为1,可以不降低图像的分辨率,提高分割精度。
(4)本发明改进了原来的ASPP结构,本方法在原来每个并行的五个大小不同卷积核得到的特征图后面增加了一个相似度EDS模块。通过添加这种注意力机制,增强五个并行大小不同卷积核得到的特征图中的重要语义信息,抑制次要语义信息。
附图说明
图1为本发明的图像处理过程图。
图2为本发明的总体流程图。
图3为本发明的并行多尺度注意力模块。
图4为本发明的EDS模块详细结构图。
图5为数据集中飞鸟原图A。
图6为飞鸟原图A的标签图。
图7为飞鸟原图A在deeplabv3模型下的分割预测图。
图8为飞鸟原图A在本发明神经网络框架下的分割预测图。
具体实施方式
下面结合附图对本实施例做进一步的描述。
本实施例所涉及的图像处理过程如图1所示,在图1的神经网络模型结构中包括图像预处理、下采样特征提取模块、并行多尺度注意力模块、上采样模型。其中并行多尺度注意力模块包括ASPP模块和EDS模块。
预处理阶段可以理解为一种数据增强,即对图像进行旋转、缩放、裁剪翻转。通过对图像进行预处理操作可以提高语义分割效果,增强模型的鲁棒性。具体来说,本实施例首先在0.5到1.5倍之间随机缩小或放大图像,并在缩小后进行相应填充,或在放大后进行相应裁剪,以使图像回复原尺寸;然后进行水平翻转,再通过高斯滤波对图像进行平滑处理。其中在图像缩小后进行相应填充时,是通过padding方式,即在缩小后的图像四周均匀填充灰度值为0的像素,直到图像恢复原尺寸。在放大后进行相应裁剪时,是将超过图像原尺寸大小的部分从图像四周均匀删除,即从图像四周同时删除一部分,直到图像恢复原尺寸。
然后对预处理后的图片进行下采样提取特征,首先输入基于ResNet-50搭建的神经网络框架。本实施例对ResNet-50的第五层进行了修改,将第五层的卷积层改为空洞率为2,同时将步长改为1,这样可以增加感受野同时不降低分辨率,减少边缘细节损失,提高分割精度。
参见图3,经过处理后的图像再输入并行多尺度注意力模块,本实施例的并行多尺度注意力模块设置在ResNet-50网络第五层之后,且包括ASPP模块和EDS模块,其中ASPP模块采用五个并行不同大小的卷积核分别提取特征,五个卷积核分别为1×1的卷积核,3×3膨胀率为6的空洞卷积核,3×3膨胀率为12的空洞卷积核,3×3膨胀率为18的空洞卷积核,全局平均池化卷积核。图像经ASPP模块处理后,得到五个特征图。
然后通过EDS模块计算五个并行特征图之间的相似度,以此方法来突出重要的特征并抑制次要特征。
参见图4,EDS模块的操作流程包括以下步骤:
以U∈RH×W×C和V∈RH×W×5C作为ASPP的输出,其中U为提取出的五张特征图中的一张,V为将五张特征图以串联形式拼接后的特征图,H,W,C分别表示特征图的高度,宽度,通道数,将U和V输入EDS模块,使U成为带有注意力的特征图的U′,整个转换过程即:
U′=Feds(U,V)
其中Feds是EDS模块操作,U′是最终输出特征图。然后再将其余四个并行特征图分别来与V进行处理,以得到五个结果。
具体来说,在对一张特征图进行EDS模块处理时,为了聚集空间信息,首先将原ASPP产生的特征图U顺着空间维度进行压缩,将每个二维的特征通道利用全局平均池化将其变为一个实数,这个实数某种程度上具有全局的感受野。也就是说,通过全局平均池化得到的特征图在一定程度上能代表特征图U所携带的信息。随后将其输入1x1的卷积,再进行Batch Normalization和ReLU操作。最后得到特征图X∈R1×1×C。计算操作如下:
为了使V的输出通道数和U的输出通道数相匹配,先将特征图V进行1x1的卷积操作,随后进行和V相同的操作。最后得到特征图Y∈R1×1×C。计算操作如下:
然后计算特征图向量X=[x1,x2…xC]和Y=[y1,y2…yC]的相似度d(X,Y),计算过程如下:
其中xC表示特征图X在对应的第C个通道上的值,yC表示特征图Y在对应的第C个通道上的值;
为了将相似度d(X,Y)的范围限定在(0~1),再进行一次取倒数,计算如下:
最后将相似度特征值λ乘以原来的特征图U,得到带有注意力机制的特征图U′,计算过程如下:
U'=λ×U
原ASPP模块剩下的四特征图也进行同样的操作得到相应的注意力特征图。然后将原来ASPP模块得到的5个特征图和经过EDS模块变换得到的5个注意力特征图以串联的形式进行拼接。最后,用1x1卷积将通道降为C,再进行Batch Normalization、ReLU、Droupout(0.3)。
完成特征提取后,再执行双线性上采样,首先用一个1x1的卷积得到一个k通道的热图t,其中k为所要预测图像的类别数,也即图像中的所需要进行识别分割的类别数,将热图t通过双线性上采样算法进行16倍上采样恢复到原图大小得到最终的预测图T={T1,T2,…,TK}。
最后将得到的预测图和真实标签图输入到交叉熵损失函数中,通过反向传播算法优化交叉熵损失函数L的值来使本发明模型的预测图不断逼近真实图标签。其中真实标签图就是人为的对数据集中原始的输入图片进行分割上色标记所生成的标签图,这个标签图是百分之百分割正确的。交叉熵损失函数定义如下:
q(xi)=hw,b(xi)
其中p(xi)是真实样本分布,q(xi)是预测得到的样本分布,hw,b表示图像处理模型的前向传播,w和b表示需要训练的图像处理模型的权重和偏置。整个模型的训练就是利用反向传播算法优化损失函数L中的权重w和偏置b,有
new_w=existing_w-new_lr×gradient
其中existing_w为当前网络模型的权重,new_lr为当前学习率,gradient为网络模型设置的梯度,new_w为经过一次反向传播算法后更新的权重。偏置b是一个微调参数,反向传播时会自己调节,以实现更好的拟合数据。
本实施例采用poly学习策略来控制学习率,数学表达示定义如下:
new_lr=base_lr*(1-iter/maxiter)power
其中new_lr为当前学习率,power为常量设置为0.9,base_lr为初始学习率,在本实施例中设置为0.0053,iter为当前迭代步数,maxinter为最大迭代步数。
poly学习策略的目的是逐渐减小反向传播算法中的学习率来控制交叉熵损失函数L值的收敛速度。在模型训练前期,学习率较大,加速模型的训练来节约模型的训练时间。在模型训练后期,此时预测图比较接近真实图,再通过ploy学习策略来减小反向传播算法中的学习率,放慢模型训练速度来使模型训练更加精细化。
为了验证本发明模型在交叉熵损失函数和poly学习策略辅助下的图片分割效果。对分割效果图进行评估,本实施例采用平均交并比作(Miou)为主要评估标准,数学表达示定义如下:
其中pii表示真正被预测正确的像素数量,pij表示本属于i类但被预测为j类的像素数量,pji表示本属于j类但被预测为i类的像素数量。k+1表示的是一张图片中要预测的k个所需要进行识别分割的类别数和1个背景。
本实施例最终得到的基于深度学习的并行多尺度注意力机制语义分割装置,包括:
下采样特征提取模块,用于对图像进行特征提取并得到特征图;
双线性上采样模块,用于对特征图进行上采样以恢复至原始图片大小;
下采样特征提取模块包括ResNet-50神经网络子模块,ASPP模块和EDS模块;
ResNet-50神经网络子模块为基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1的神经网络模块,用于对原始图像进行初步特征提取;
ASPP模块包括五个并行且大小不同的卷积核,用于对经ResNet-50神经网络子模块处理后的特征图进行特征提取以得到五张不同的特征图;
EDS模块用于对五张不同的特征图与五张特征图以串联形式拼接后的特征图进行相似度计算,以得到五张带有注意力机制的特征图,最后进行拼接。
本实施例的效果验证:
根据Miou值和分割效果图进行分析。
图5为飞鸟图像A的原图;图6为飞鸟图像A的标签;图7为飞鸟图像A在deeplabv3模型下的分割预测图;图8为飞鸟图像A在本发明神经网络框架结构下的分割预测图。本实施例得到的Miou值为72.69%。通过对比分割预测图可以看出,本发明的神经网络框架结构能分割预测出鸟儿的尾巴,表明本发明采用的方法可以进一步提高分割效果。
Claims (10)
1.一种基于深度学习的并行多尺度注意力机制语义分割方法,其特征在于,包括以下步骤:
步骤1:对训练集中的图像进行预处理;
步骤2:基于预处理后的图像对图像处理模型进行训练,其中图像处理模型是基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1;图像在由ResNet-50网络处理后再聚合多尺度语义信息,最后通过双线性上采样恢复图像尺寸,得到预测图;
步骤3:将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中,通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图,同时使用平均交并比作为模型的评估标准来对模型进行评估,并基于训练集中不同图像反复迭代来训练模型,在达到评估标准或最大迭代次数后完成训练;
步骤3:训练完成后即得到图像处理模型,将需要处理的图像输入图像处理模型,得到分割结果。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中的预处理包括以下步骤:
在0.5到1.5倍之间随机缩小或放大图像,并在缩小后进行相应填充,或在放大后进行相应裁剪,以使图像回复原尺寸;然后进行水平翻转,再通过高斯滤波对图像进行平滑处理。
3.根据权利要求1所述的方法,其特征在于,所述的步骤2中聚合多尺度语义信息处理过程为;
首先由五个并行且大小不同的卷积核所构成的ASPP模块对经ResNet-50网络处理后的图像提取特征,从而得到五张不同的特征图,然后通过计算其中一张特征图U∈RH×W×C和V∈RH×W×5C之间的相似度即EDS模块操作,使U成为带有注意力的特征图的U′,即:
U′=Feds(U,V)
其中,U为提取出的五张特征图中的一张,V为将五张特征图以串联形式拼接后的特征图,R表示特征图的大小,H,W,C分别表示特征图的高度,宽度,通道数,Feds是EDS模块操作,U′是最终输出特征图;对每张特征图均执行同样的上述操作。
4.根据权利要求3所述的方法,其特征在于,所述的ASPP模块中五个并行且大小不同的卷积核包括:1×1的卷积核,3×3膨胀率为6的空洞卷积核,3×3膨胀率为12的空洞卷积核,3×3膨胀率为18的空洞卷积核,全局平均池化卷积核。
5.根据权利要求3所述的方法,其特征在于,EDS模块操作包括以下步骤:
对ASPP模块产生的五张特征图分别单独执行以下操作:
首先将U顺着空间维度进行压缩,即将每个二维的特征通道利用全局平均池化将其变为一个实数,随后将输入至1x1的卷积,再进行Batch Normalization和ReLU操作,得到特征图X∈R1×1×C:
然后将特征图V先进行1x1的卷积操作,随后进行如处理U的相同操作,最后得到特征图Y∈R1×1×C:
然后计算特征图向量X=[x1,x2…xC]和Y=[y1,y2…yC]的相似度d(X,Y):
其中xC表示特征图X在对应的第C个通道上的值,yC表示特征图Y在对应的第C个通道上的值;
求倒数以将相似度d(X,Y)的范围限定在(0~1):
然后将相似度特征值λ乘以原来的特征图U,得到带有注意力机制的特征图U′,
U'=λ×U
然后将原来ASPP模块得到的5个特征图和经过EDS模块变换得到的5个注意力特征图以串联形式进行拼接,再用1x1卷积将通道降为C,最后依次进行Batch Normalization、ReLU、Droupout(0.3)。
6.根据权利要求1所述的方法,其特征在于,所述的步骤2中双线性上采样包括以下步骤:
将经过EDS模块处理后的特征图输入一个1x1的卷积得到一个具有k个通道的热图t,其中k为所要预测图像中的所需要识别分割的类别数,最后将热图t通过双线性上采样算法进行16倍上采样恢复到原图大小,得到最终的预测图T={T1,T2,…,TK}。
8.根据权利要求7所述的方法,其特征在于,步骤3中所述的反向传播算法,是通过poly学习策略更新当前学习率new_lr,表达式为:
new_lr=base_lr*(1-iter/maxiter)power
其中new_lr为当前学习率,power为常量,base_lr为初始学习率,iter为当前迭代步数,maxiter为最大迭代步数。
10.一种基于深度学习的并行多尺度注意力机制语义分割装置,其特征在于,包括:
下采样特征提取模块,用于对图像进行特征提取并得到特征图;
双线性上采样模块,用于对特征图进行上采样以恢复至原始图片大小;
所述的下采样特征提取模块包括ResNet-50神经网络子模块,ASPP模块和EDS模块;
所述的ResNet-50神经网络子模块为基于ResNet-50网络搭建,且第五层的卷积层的空洞率为2,步长为1的神经网络模块,用于对原始图像进行初步特征提取;
所述的ASPP模块包括五个并行且大小不同的卷积核,用于对经ResNet-50神经网络子模块处理后的特征图进行特征提取以得到五张不同的特征图;
所述的EDS模块用于对五张不同的特征图与五张特征图以串联形式拼接后的特征图进行相似度计算,以得到五张带有注意力机制的特征图,最后进行拼接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128413.XA CN112233129B (zh) | 2020-10-20 | 2020-10-20 | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128413.XA CN112233129B (zh) | 2020-10-20 | 2020-10-20 | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233129A true CN112233129A (zh) | 2021-01-15 |
CN112233129B CN112233129B (zh) | 2023-06-27 |
Family
ID=74117503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011128413.XA Active CN112233129B (zh) | 2020-10-20 | 2020-10-20 | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233129B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750129A (zh) * | 2021-03-11 | 2021-05-04 | 湘潭大学 | 一种基于特征增强位置注意力机制的图像语义分割模型 |
CN112766155A (zh) * | 2021-01-19 | 2021-05-07 | 山东华宇航天空间技术有限公司 | 一种基于深度学习的海水养殖区提取方法 |
CN113033454A (zh) * | 2021-04-07 | 2021-06-25 | 桂林电子科技大学 | 一种城市视频摄像中建筑物变化的检测方法 |
CN113469266A (zh) * | 2021-07-14 | 2021-10-01 | 广西电网有限责任公司 | 一种基于改进深度卷积神经网络的窃电行为检测方法 |
CN113537228A (zh) * | 2021-07-07 | 2021-10-22 | 中国电子科技集团公司第五十四研究所 | 一种基于深度特征的实时图像语义分割方法 |
CN113643310A (zh) * | 2021-05-21 | 2021-11-12 | 北京工业大学 | 一种基于上下文聚合的mri图像肝血管分割方法 |
CN114119997A (zh) * | 2021-11-26 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 图像特征提取模型的训练方法、装置、服务器和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
US20190050667A1 (en) * | 2017-03-10 | 2019-02-14 | TuSimple | System and method for occluding contour detection |
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN110781895A (zh) * | 2019-10-10 | 2020-02-11 | 湖北工业大学 | 一种基于卷积神经网络的图像语义分割方法 |
CN111210432A (zh) * | 2020-01-12 | 2020-05-29 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
CN111563909A (zh) * | 2020-05-10 | 2020-08-21 | 中国人民解放军91550部队 | 一种复杂街景图像语义分割方法 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
US20200273192A1 (en) * | 2019-02-26 | 2020-08-27 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
-
2020
- 2020-10-20 CN CN202011128413.XA patent/CN112233129B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US20190050667A1 (en) * | 2017-03-10 | 2019-02-14 | TuSimple | System and method for occluding contour detection |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
US20200273192A1 (en) * | 2019-02-26 | 2020-08-27 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110781895A (zh) * | 2019-10-10 | 2020-02-11 | 湖北工业大学 | 一种基于卷积神经网络的图像语义分割方法 |
CN111210432A (zh) * | 2020-01-12 | 2020-05-29 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
CN111563909A (zh) * | 2020-05-10 | 2020-08-21 | 中国人民解放军91550部队 | 一种复杂街景图像语义分割方法 |
Non-Patent Citations (4)
Title |
---|
FAN ZHANG.ET AL: ""ACFNet: Attentional Class Feature Network for Semantic Segmentation"", 《ICCV》 * |
FAN ZHANG.ET AL: ""ACFNet: Attentional Class Feature Network for Semantic Segmentation"", 《ICCV》, 2 November 2019 (2019-11-02) * |
LIANG-CHIEH CHEN.ET AL: ""DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
LIANG-CHIEH CHEN.ET AL: ""DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 40, no. 4, 30 April 2018 (2018-04-30) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766155A (zh) * | 2021-01-19 | 2021-05-07 | 山东华宇航天空间技术有限公司 | 一种基于深度学习的海水养殖区提取方法 |
CN112750129A (zh) * | 2021-03-11 | 2021-05-04 | 湘潭大学 | 一种基于特征增强位置注意力机制的图像语义分割模型 |
CN112750129B (zh) * | 2021-03-11 | 2022-12-02 | 湘潭大学 | 一种基于特征增强位置注意力机制的图像语义分割模型 |
CN113033454A (zh) * | 2021-04-07 | 2021-06-25 | 桂林电子科技大学 | 一种城市视频摄像中建筑物变化的检测方法 |
CN113643310A (zh) * | 2021-05-21 | 2021-11-12 | 北京工业大学 | 一种基于上下文聚合的mri图像肝血管分割方法 |
CN113537228A (zh) * | 2021-07-07 | 2021-10-22 | 中国电子科技集团公司第五十四研究所 | 一种基于深度特征的实时图像语义分割方法 |
CN113537228B (zh) * | 2021-07-07 | 2022-10-21 | 中国电子科技集团公司第五十四研究所 | 一种基于深度特征的实时图像语义分割方法 |
CN113469266A (zh) * | 2021-07-14 | 2021-10-01 | 广西电网有限责任公司 | 一种基于改进深度卷积神经网络的窃电行为检测方法 |
CN113469266B (zh) * | 2021-07-14 | 2022-08-23 | 广西电网有限责任公司 | 一种基于改进深度卷积神经网络的窃电行为检测方法 |
CN114119997A (zh) * | 2021-11-26 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 图像特征提取模型的训练方法、装置、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112233129B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112233129B (zh) | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN108986050B (zh) | 一种基于多分支卷积神经网络的图像和视频增强方法 | |
CN109035149B (zh) | 一种基于深度学习的车牌图像去运动模糊方法 | |
CN110163213B (zh) | 基于视差图和多尺度深度网络模型的遥感图像分割方法 | |
CN109005398B (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN111325165A (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN113269224B (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN112419191A (zh) | 基于卷积神经网络的图像运动模糊去除方法 | |
CN112419163B (zh) | 一种基于先验知识和深度学习的单张图像弱监督去雾方法 | |
CN114037893A (zh) | 一种基于卷积神经网络的高分辨率遥感图像建筑提取方法 | |
CN114092467A (zh) | 一种基于轻量化卷积神经网络的划痕检测方法及系统 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 | |
CN116012709B (zh) | 一种高分辨率遥感影像建筑物提取方法及系统 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN114821174B (zh) | 一种基于内容感知的输电线路航拍图像数据清洗方法 | |
CN115511061A (zh) | 基于YOLOv5模型的知识蒸馏方法 | |
CN113627368B (zh) | 基于深度学习的视频行为识别方法 | |
CN112464916B (zh) | 人脸识别方法及其模型训练方法 | |
CN113989567A (zh) | 垃圾图片分类方法及装置 | |
CN112529081A (zh) | 基于高效注意力校准的实时语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |