CN112287940A - 一种基于深度学习的注意力机制的语义分割的方法 - Google Patents
一种基于深度学习的注意力机制的语义分割的方法 Download PDFInfo
- Publication number
- CN112287940A CN112287940A CN202011194569.8A CN202011194569A CN112287940A CN 112287940 A CN112287940 A CN 112287940A CN 202011194569 A CN202011194569 A CN 202011194569A CN 112287940 A CN112287940 A CN 112287940A
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention
- feature
- channel
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 55
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 53
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 3
- 238000011176 pooling Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 10
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 claims description 3
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 claims description 3
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 claims description 3
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于深度学习的注意力机制的语义分割的方法,具体步骤按照以下实施;首先获取标准数据集预处理;然后将标准数据集图像信息存储并导入深度神经网络模型中,具体框架采用DeepLabv3+图像语义分割网络,将MS‑CAM模型与DeepLabv3+结合,解决尺度不一致问题,利用AFF模块解决上下文集合和初始集合融合问题,将MS‑CAM模块嵌入到AFF或者多次迭代的iAFF模块,解决语义特征融合和尺度不一致问题具有良好的效果。本发明在DeepLabv3+图像语义分割技术下,使用尺度不同的两个分支来提取通道注意力权重,达到因尺度变化和小物体而引起的识别问题。
Description
技术领域
本发明属于人工智能技术领域,涉及一种基于深度学习的注意力机制的语义分割的方法。
背景技术
随着计算机技术的迅速发展,基于计算机平台的机器学习和计算机视觉技术成为了现代人工智能的主要研究方向,而计算机视觉作为人工智能的重要分支,对于场景理解的重要性越来越突出,如何精确且高效的从现实场景中推理出相关知识或者语义,并应用到现实场景成为了一种必然趋势。不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题,图像语义分割是从像素级理解图像,从而确定图像中像素对应的目标分类。
针对目前卷积神经网络应用于语义分割中其中主要的问题就是池化层问题(poollayers),池化层增加了视野,同时也丢失了精确的位置信息,这与语义分割需要的准确像素信息相矛盾。针对这个问题一般有两种类型的解决方法,一种是编码解码器(encoder-decoder)网络结构,编码器使用池化层逐渐减少空间维度,解码器逐渐恢复目标对象的细节和空间维度,通常从编码器到解码器的快捷连接,帮助解码器更好地恢复对象细节;另一种是取消池化层并使用空洞卷积。由于对象的比例变化是计算机视觉中的关键挑战,缓解因尺度变化和小物体而引起的语义分割问题是现有技术研究的关键。
发明内容
本发明的目的是提供一种基于深度学习的注意力机制的语义分割的方法,为了缓解因尺度变化和小物体而引起的语义分割问题。
本发明所采用的技术方案是,一种基于深度学习的注意力机制的语义分割的方法,具体步骤按照以下实施;
步骤1,获取标准数据集,进行预处理;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASSP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度;
步骤3,结合多通道注意力模块,沿通道维度聚合尺度的上下文信息,强调分部大型对象,并在全局范围内突出本地小物体信息,采用注意力特征融合模块进行特征融合,将现有特征算子与拟议的AFF模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤4,采用条件随机场对语义分割的预测结果进行特征优化,将低层图像信息和逐像素分类结果相结合;
步骤5,调整解码端输出特征的通道数并激活,即获取最终的预测结果。
本发明的特点还在于,
步骤1具体为:
步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
步骤1.2,下载Deeplabv3+模型常用的标准PASCALVOC 2012数据集;
步骤1.3,预处理PASCAL VOC 2012数据集,PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集,采用增强数据集的数据标签 label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;
步骤1.5,数据集导入编码端,调用函数转换导入数据集。
步骤2的具体步骤为:
步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,将编码器输出特征图;
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.4,利用空洞金字塔池化,提出多尺度信息,根据ASPP有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1 卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理。
步骤2.3的具体步骤为:
步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为 5×5,从而增加了五个参数,并引入了空白信息;
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:
其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i 特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数, H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长, padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出。
步骤2.4具体步骤为:
步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若 out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有 BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1 卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在 channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride 为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
步骤3具体步骤为:
步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块,使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块将一个通道内的信息进行全局平均;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
步骤3.5,注意力特征融合基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景。
步骤步骤3.3具体为;
步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down 结构实现;
buttom-up部分:执行下采样(down sample),多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息;
top-down部分:执行上采样(up sample)线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即对mask中的Attention添加不同约束,使其成为channel attention注意力模型。
步骤3.4首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:mask brunch和trunk branch,最后以特征点积输出;计算如下所示;
Hi,c(x)=Mi,c(x)*Ti,c(x) (4)
其中Mi,c是mask分支输出的注意力特征权重,Ti,c(x)是trunk分支经过一系列操作所提取的特征图表示,Hi,c为输出,即为二者的点积;
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块(MS-CAM) 实现空间池大小缩放,将本地上下文信息添加到注意模块中的全局上下文,选择点卷积(PWCov)作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
L(X)=B(PWConv2(δ(B(PWConv1(Z'))))) (5)
步骤3.5具体步骤为:
步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出, Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,将注意力特征融合表示为:
步骤3.5.3,选择逐元素求和作为初始积分,AFF和iAFF模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y)表示融合权重,将网络在X,Y之间进行平均或者软选择。
步骤4中采用Atrous Conv算法扩大视野,获取更多的上下文信息。
本发明的有益效果是,本发明采用最新的Deeplabv3+语义分割模型,该模型结合了空间金字塔池化模块和编码解码器结构,使网络能够对多种采样率和多个感受野进行滤波和池化操作来探查传入特征,从而对多尺度上下文信息进行编码,通过逐渐恢复空间信息来捕获更清晰的对象边界。在语义分割过程中,提出一种融合语义和尺度不一致的特征,多尺度通道注意模块 (MS-CAM),用于解决跨不同尺度的特征不一致问题,以进行注意力特征融合(AFF)的方法。基于DeepLabv3+语义分割网络模型,多尺度注意机制模块在全局范围内的强调大对象,并突出显示分布在本地范围内的小对象,从而有助于网络识别和检测极端尺度变化下的对象。
附图说明
图1本发明一种基于深度学习的注意力机制的语义分割的方法总体框架图。
图2本发明多尺度通道注意模块(MS-CAM)框图;
图3本发明注意力特征融合模块(AFF-iAFF)框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明是一种基于深度学习的注意力机制的语义分割的方法,具体按照以下步骤实施:
步骤1,获取标准数据集,进行预处理;
步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
DeepLabv3+模型级联多个卷积模块,在空间维度上便于更好的捕捉图像上下文信息,利用观察不同视野特征,利用金字塔池化的方式融合特征,该方法不足在于小尺度物体分割不明显,采用注意力机制多尺度通道模块来优化。
步骤1.2,下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集; PASCAL VOC2012包括原始数据集和增强数据集两种版本的数据集,数据集中包含20个对象类,person、bird、cat、cow等室外场景,包括10个动作类,running、reading等,数据集使用过程中要保证训练数据集train.txt和验证数据集vai.txt没有交集。
步骤1.3,预处理PASCAL VOC 2012数据集,采用增强数据集的数据标签label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;.mat是MATLAB数据的保存格式。
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;大多数场合使用的数据集是两个以上数据的融合,本质区别在于数据的多少。
步骤1.5,数据集导入编码端,调用函数转换导入数据集;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络(DCNN)模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASSP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度。
步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,首先将编码器输出特征图,
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.3的具体步骤为:
步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为 5×5,从而增加了五个参数,并引入了空白信息。
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:
其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i 特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下所示:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数, H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长, padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出;
步骤2.4,利用空洞金字塔池化(ASPP),提出多尺度信息,根据ASPP 有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder 部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理;
步骤2.4具体步骤为:
步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若 out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有 BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1 卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在 channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride 为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
步骤3,结合多通道注意力模块(MS-CAM),沿通道维度聚合尺度的上下文信息,强调分部大型对象并在全局范围内突出本地小物体信息,采用注意力特征融合(AFF)模块进行特征融合,将现有特征算子与拟议的AFF 模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤3具体步骤为:
步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块 (MS-CAM),使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;在DeepLav3+模型上提出的多尺度通道注意模块(MS-CAM),框架如图2所示,为融合语义和多尺度不一致特征,用以解决融合特征出现的问题;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;注意力机制(Attention Mechanism)是一种用来强调或者选择目标处理对象的重要信息,并且抑制一些无关信息的数据处理方法。
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块(MS-CAM)将一个通道内的信息进行全局平均;
步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down 结构实现,这种结构也是一种encoder-decoder模型实现。
buttom-up部分:执行下采样(down sample),多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息。
top-down部分:执行上采样(up sample)线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即可对mask中的Attention添加不同约束,使其成为channel attention注意力模型;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:maskbrunch和trunk branch,最后以特征点积输出;计算如下所示;
Hi,c(x)=Mi,c(x)*Ti,c(x) (4)
其中Mi,c是mask分支输出的注意力特征权重,Ti,c(x)是trunk分支经过一系列操作所提取的特征图表示,Hi,c为输出,即为二者的点积;
具体步骤如下:
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块(MS-CAM) 实现空间池大小缩放,如图2所示MS-CAM结构图,将本地上下文信息添加到注意模块中的全局上下文,选择点卷积(PWCov)作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
L(X)=B(PWConv2(δ(B(PWConv1(Z'))))) (5)
步骤3.5,注意力特征融合(AFF),基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景;
步骤3.5具体步骤为:
步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出, Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,可以将注意力特征融合(AFF)表示为:
步骤3.5.3,选择逐元素求和作为初始积分,如图3所示,AFF和iAFF 模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y) 表示融合权重,将网络在X,Y之间进行平均或者软选择;
步骤4,特征优化通常采用条件随机场(CRF)对语义分割的预测结果进行优化,将低层图像信息和逐像素分类结果相结合;
步骤4中采用Atrous Conv(带孔)算法扩大视野,获取更多的上下文信息,解决在高级特征的映射和池化下采样导致的语义分割精准度不够,信号采样或者池化分辨率降低的问题,针对DCNN分类器定位精度 DeepLabv3+采用完全连接的条件随机场(CRF),提高模型获取细节的能力。
步骤5,调整解码端输出特征的通道数并激活,即可获取最终的预测结果;
步骤5中通过DeepLabv3+在模型架构上引入对尺度信息的融合结构、 encoder-decoder架构,为引入任意控制编码而达到控制分辨率的效果,并通过上文空洞卷积平衡精度和耗时,通过MS-CAM模块使用尺度不同的两个分支来提取通道注意力权重,达到两个线程分别处理全局特征和局部特征的目的;
本发明一种基于深度学习的注意力机制的语义分割的方法,采用最新的Deeplabv3+语义分割模型,为了融合多尺度信息,引入了语义分割常用的 encoder-decoder形式。在encoder-decoder架构中,引入可任意控制编码器提取特征的分辨率,通过空洞卷积平衡精度和耗时,通过沿通道维度聚合的多尺度上下文信息。结合MS-CAM模型,可以同时强调分布更多的大型对象,在全局范围内容中显示出分部在本地的小物体特征。
通过结合空间金字塔池化模块和编码解码器结构,使网络能够对多种采样率和多个感受野进行滤波和池化操作来探查传入特征,从而对多尺度上下文信息进行编码,通过逐渐恢复空间信息来捕获更清晰的对象边界。在语义分割过程中,多尺度通道注意模块(MS-CAM),用于解决跨不同尺度的特征不一致问题,以进行注意力特征融合(AFF)的方法。基于DeepLabv3+语义分割网络模型,多尺度注意机制模块在全局范围内的强调大对象,并突出显示分布在本地范围内的小对象,从而有助于网络识别和检测极端尺度变化下的对象。
本发明一种基于深度学习的注意力机制的语义分割的方法,结合深度神经网络中的语义分割任务,即金字塔池化模块和编码解码模块,实现对多种采样率和多个感受野进行滤波和池化操作,提取输入特征,并且通过逐点恢复空间信息来捕获对象边界,改进了语义分割任务的准确性和快速性。通过分析在特征提取过程中会出现融合语义信息和尺度不一致问题,特征对象的比例变化会影响语义分割的精度,而描述符更容易倾向强调分布在全局范围内的大物体,并且可能会抹去存在于大对象里的小物体,而造成特征丢失。因此提出将多尺度通道注意模块(MS-CAM),该模块可以通过改变空间池化的大小,在多个尺度上实现对通道的关注,只需要将本地上下文添加到注意模块的全局上下文中,利用逐点卷积(PWConv)作为本地通道实现全局信息交互,将MS-CAM模块引入注意力特征融合模块(AFF),用以解决上下文聚合和初始集成的多尺度跨层融合问题。通过引入最新DeepLabv3+ 网络提出一种基于深度学习提出一种融合语义和尺度不一致特征的注意力机制特征融合,在DeepLabv3+图像语义分割技术下,使用尺度不同的两个分支来提取通道注意力权重,达到因尺度变化和小物体而引起的识别问题。本方法与特征直接融合的方法相比,用于特征融合的更复杂的注意力机制具有持续产生更好结果的巨大潜力。
本发明一种基于深度学习的注意力机制的语义分割方法,基于 DeepLabv3+模型架构,结合了深度神经网络中最常用的语义分割任务解决方案,即金字塔池化模块和编码解码模块,实现对多种采样率和多个感受野进行滤波和池化操作,提取输入特征,并且通过逐点恢复空间信息来捕获对象边界,改进了语义分割任务的准确性和快速性。通过分析在特征提取过程中会出现融合语义信息和尺度不一致问题,特征对象的比例变化会影响语义分割的精度,而描述符更容易倾向强调分布在全局范围内的大物体,并且可能会抹去存在于大对象里的小物体,而造成特征丢失。因此提出将多尺度通道注意模块(MS-CAM),该模块可以通过改变空间池化的大小,在多个尺度上实现对通道的关注,只需要将本地上下文添加到注意模块的全局上下文中,利用逐点卷积(PWConv)作为本地通道实现全局信息交互。
Claims (10)
1.一种基于深度学习的注意力机制的语义分割的方法,其特征在于,具体步骤按照以下实施;
步骤1,获取标准数据集,进行预处理;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASSP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度;
步骤3,结合多通道注意力模块,沿通道维度聚合尺度的上下文信息,强调分部大型对象,并在全局范围内突出本地小物体信息,采用注意力特征融合模块进行特征融合,将现有特征算子与拟议的AFF模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤4,采用条件随机场对语义分割的预测结果进行特征优化,将低层图像信息和逐像素分类结果相结合;
步骤5,调整解码端输出特征的通道数并激活,即获取最终的预测结果。
2.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤1具体为:
步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
步骤1.2,下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集;
步骤1.3,预处理PASCAL VOC 2012数据集,PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集,采用增强数据集的数据标签label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;
步骤1.5,数据集导入编码端,调用函数转换导入数据集。
3.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,将编码器输出特征图;
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.4,利用空洞金字塔池化,提出多尺度信息,根据ASPP有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理。
4.根据权利要求3所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2.3的具体步骤为:
步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为5×5,从而增加了五个参数,并引入了空白信息;
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:
其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数,H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长,padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出。
5.根据权利要求4所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2.4具体步骤为:
步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
6.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3具体步骤为:
步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块,使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块将一个通道内的信息进行全局平均;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
步骤3.5,注意力特征融合基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景。
7.根据权利要求6所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤步骤3.3具体为;
步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down结构实现;
buttom-up部分:执行下采样,多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息;
top-down部分:执行上采样线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即对mask中的Attention添加不同约束,使其成为channel attention注意力模型。
8.根据权利要求7所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.4首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:mask brunch和trunk branch,最后以特征点积输出;计算如下所示;
Hi,c(x)=Mi,c(x)*Ti,c(x) (4)
其中Mi,c是mask分支输出的注意力特征权重,Ti,c(x)是trunk分支经过一系列操作所提取的特征图表示,Hi,c为输出,即为二者的点积;
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块实现空间池大小缩放,如图2所示MS-CAM结构图,将本地上下文信息添加到注意模块中的全局上下文,选择点卷积作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
L(X)=B(PWConv2(δ(B(PWConv1(Z'))))) (5)
9.根据权利要求8所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.5具体步骤为:
步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出,Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,将注意力特征融合表示为:
步骤3.5.3,选择逐元素求和作为初始积分,AFF和iAFF模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y)表示融合权重,将网络在X,Y之间进行平均或者软选择。
10.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤4中采用Atrous Conv算法扩大视野,获取更多的上下文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011194569.8A CN112287940A (zh) | 2020-10-30 | 2020-10-30 | 一种基于深度学习的注意力机制的语义分割的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011194569.8A CN112287940A (zh) | 2020-10-30 | 2020-10-30 | 一种基于深度学习的注意力机制的语义分割的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287940A true CN112287940A (zh) | 2021-01-29 |
Family
ID=74353804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011194569.8A Pending CN112287940A (zh) | 2020-10-30 | 2020-10-30 | 一种基于深度学习的注意力机制的语义分割的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287940A (zh) |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966716A (zh) * | 2021-02-03 | 2021-06-15 | 大连海事大学 | 一种素描引导的鞋印图像检索方法 |
CN112990299A (zh) * | 2021-03-11 | 2021-06-18 | 五邑大学 | 基于多尺度特征的深度图获取方法、电子设备、存储介质 |
CN113076960A (zh) * | 2021-05-11 | 2021-07-06 | 清华大学深圳国际研究生院 | 基于多尺度特征迭代融合网络的图像分类方法和装置 |
CN113095330A (zh) * | 2021-04-30 | 2021-07-09 | 辽宁工程技术大学 | 一种用于语义分割像素组的压缩注意力模型 |
CN113192087A (zh) * | 2021-05-19 | 2021-07-30 | 北京工业大学 | 一种基于卷积神经网络的图像分割方法 |
CN113205153A (zh) * | 2021-05-26 | 2021-08-03 | 华侨大学 | 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型 |
CN113205524A (zh) * | 2021-05-17 | 2021-08-03 | 广州大学 | 基于U-Net的血管图像分割方法、装置和设备 |
CN113220915A (zh) * | 2021-04-29 | 2021-08-06 | 华中科技大学 | 一种基于残差注意力的遥感图像检索方法及装置 |
CN113222904A (zh) * | 2021-04-21 | 2021-08-06 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
CN113240040A (zh) * | 2021-05-27 | 2021-08-10 | 西安理工大学 | 一种基于通道注意力深度网络的极化sar图像分类方法 |
CN113298825A (zh) * | 2021-06-09 | 2021-08-24 | 东北大学 | 一种基于MSF-Net网络的图像分割方法 |
CN113421268A (zh) * | 2021-06-08 | 2021-09-21 | 南京邮电大学 | 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法 |
CN113469094A (zh) * | 2021-07-13 | 2021-10-01 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN113486897A (zh) * | 2021-07-29 | 2021-10-08 | 辽宁工程技术大学 | 一种卷积注意力机制上采样解码的语义分割方法 |
CN113506336A (zh) * | 2021-06-30 | 2021-10-15 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113592878A (zh) * | 2021-06-29 | 2021-11-02 | 中国人民解放军陆军工程大学 | 一种紧致的多尺度视频前景分割方法 |
CN113591859A (zh) * | 2021-06-23 | 2021-11-02 | 北京旷视科技有限公司 | 图像分割方法、装置、设备及介质 |
CN113643322A (zh) * | 2021-07-16 | 2021-11-12 | 重庆邮电大学 | 基于DeepLabv3+_SLAM的动态对象检测方法 |
CN113706544A (zh) * | 2021-08-19 | 2021-11-26 | 天津师范大学 | 一种基于完备注意力卷积神经网络的医学图像分割方法 |
CN113744279A (zh) * | 2021-06-09 | 2021-12-03 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113763386A (zh) * | 2021-07-13 | 2021-12-07 | 合肥工业大学 | 基于多尺度特征融合的手术器械图像智能分割方法和系统 |
CN113852858A (zh) * | 2021-08-19 | 2021-12-28 | 阿里巴巴(中国)有限公司 | 视频处理方法及电子设备 |
CN113902915A (zh) * | 2021-10-12 | 2022-01-07 | 江苏大学 | 一种基于低光照复杂道路场景下的语义分割方法及系统 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN113989234A (zh) * | 2021-10-28 | 2022-01-28 | 杭州中科睿鉴科技有限公司 | 基于多特征融合的图像篡改检测方法 |
CN114037833A (zh) * | 2021-11-18 | 2022-02-11 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114066908A (zh) * | 2021-10-09 | 2022-02-18 | 山东师范大学 | 一种用于脑肿瘤图像分割的方法及系统 |
CN114359554A (zh) * | 2021-11-25 | 2022-04-15 | 河南农业大学 | 一种基于多感受野上下文语义信息的图像语义分割方法 |
CN114426069A (zh) * | 2021-12-14 | 2022-05-03 | 哈尔滨理工大学 | 一种基于实时语义分割的室内救援车及图像语义分割方法 |
CN114565655A (zh) * | 2022-02-28 | 2022-05-31 | 上海应用技术大学 | 一种基于金字塔分割注意力的深度估计方法及装置 |
CN114565860A (zh) * | 2022-03-01 | 2022-05-31 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
CN114758178A (zh) * | 2022-04-18 | 2022-07-15 | 江南大学 | 一种基于深度学习的轮毂实时分类及其气阀孔定位方法 |
CN114913325A (zh) * | 2022-03-24 | 2022-08-16 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN115100409A (zh) * | 2022-06-30 | 2022-09-23 | 温州大学 | 一种基于孪生网络的视频人像分割算法 |
CN115631452A (zh) * | 2022-11-15 | 2023-01-20 | 中国科学院空天信息创新研究院 | 智能红外弱小目标检测方法、装置、电子设备及介质 |
CN115937113A (zh) * | 2022-11-24 | 2023-04-07 | 脉得智能科技(无锡)有限公司 | 一种皮肤病超声图像多病种识别方法、设备及存储介质 |
CN115937533A (zh) * | 2022-12-05 | 2023-04-07 | 中国科学院合肥物质科学研究院 | 一种基于语义分割的雾培番茄特征提取方法 |
CN116152504A (zh) * | 2023-04-20 | 2023-05-23 | 杰创智能科技股份有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN116152890A (zh) * | 2022-12-28 | 2023-05-23 | 北京融威众邦电子技术有限公司 | 一种医疗费用自助支付系统 |
CN116172580A (zh) * | 2023-04-20 | 2023-05-30 | 华南理工大学 | 一种适用于多声源场景的听觉注意对象解码方法 |
CN116630626A (zh) * | 2023-06-05 | 2023-08-22 | 吉林农业科技学院 | 连通双注意力多尺度融合语义分割网络 |
CN116645505A (zh) * | 2023-05-12 | 2023-08-25 | 中国地质大学(武汉) | 基于多尺度和级联的神经网络遥感影像语义分割方法 |
CN116740362A (zh) * | 2023-08-14 | 2023-09-12 | 南京信息工程大学 | 一种基于注意力的轻量化非对称场景语义分割方法及系统 |
CN113920378B (zh) * | 2021-11-09 | 2023-10-20 | 西安交通大学 | 基于注意力机制的柴胡种子识别方法 |
CN117095136A (zh) * | 2023-10-19 | 2023-11-21 | 中国科学技术大学 | 一种基于3d gan的多物体和多属性的图像重建和编辑方法 |
CN117237644A (zh) * | 2023-11-10 | 2023-12-15 | 广东工业大学 | 基于红外小目标检测的森林余火检测方法及系统 |
CN117522884A (zh) * | 2024-01-05 | 2024-02-06 | 武汉理工大学三亚科教创新园 | 一种海洋遥感图像语义分割方法、装置及电子设备 |
CN117593633A (zh) * | 2024-01-19 | 2024-02-23 | 宁波海上鲜信息技术股份有限公司 | 面向海洋场景的图像识别方法、系统、设备和存储介质 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019089192A1 (en) * | 2017-11-03 | 2019-05-09 | Siemens Aktiengesellschaft | Weakly-supervised semantic segmentation with self-guidance |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
US20190370972A1 (en) * | 2018-06-04 | 2019-12-05 | University Of Central Florida Research Foundation, Inc. | Capsules for image analysis |
US20200160175A1 (en) * | 2018-11-15 | 2020-05-21 | D-Wave Systems Inc. | Systems and methods for semantic segmentation |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
EP3712811A1 (en) * | 2019-03-20 | 2020-09-23 | NavInfo Europe B.V. | Real-time scene understanding system |
KR102167808B1 (ko) * | 2020-03-31 | 2020-10-20 | 한밭대학교 산학협력단 | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 |
-
2020
- 2020-10-30 CN CN202011194569.8A patent/CN112287940A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019089192A1 (en) * | 2017-11-03 | 2019-05-09 | Siemens Aktiengesellschaft | Weakly-supervised semantic segmentation with self-guidance |
US20190370972A1 (en) * | 2018-06-04 | 2019-12-05 | University Of Central Florida Research Foundation, Inc. | Capsules for image analysis |
US20200160175A1 (en) * | 2018-11-15 | 2020-05-21 | D-Wave Systems Inc. | Systems and methods for semantic segmentation |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
EP3712811A1 (en) * | 2019-03-20 | 2020-09-23 | NavInfo Europe B.V. | Real-time scene understanding system |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
KR102167808B1 (ko) * | 2020-03-31 | 2020-10-20 | 한밭대학교 산학협력단 | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
Non-Patent Citations (5)
Title |
---|
XIA, ZY,等: "Mixed spatial pyramid pooling for semantic segmentation", APPLIED SOFT COMPUTING, vol. 91, pages 106209 * |
ZHANG, XQ,等: "Pyramid Channel-based Feature Attention Network for image dehazing", COMPUTER VISION AND IMAGE UNDERSTANDING, vol. 197, pages 103003 * |
刘文祥,等: "采用双注意力机制Deeplabv3+算法的遥感影像语义分割", 热带地理, no. 02, pages 303 - 313 * |
徐慧,等: "基于深度学习的服装图像语义分析与检索推荐", 纺织高校基础科学学报, no. 03, pages 64 - 72 * |
高丹,等: "A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型", 中国电子科学研究院学报, vol. 15, no. 06, pages 518 - 523 * |
Cited By (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966716B (zh) * | 2021-02-03 | 2023-10-27 | 大连海事大学 | 一种素描引导的鞋印图像检索方法 |
CN112966716A (zh) * | 2021-02-03 | 2021-06-15 | 大连海事大学 | 一种素描引导的鞋印图像检索方法 |
CN112990299B (zh) * | 2021-03-11 | 2023-10-17 | 五邑大学 | 基于多尺度特征的深度图获取方法、电子设备、存储介质 |
CN112990299A (zh) * | 2021-03-11 | 2021-06-18 | 五邑大学 | 基于多尺度特征的深度图获取方法、电子设备、存储介质 |
CN113222904A (zh) * | 2021-04-21 | 2021-08-06 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
CN113220915A (zh) * | 2021-04-29 | 2021-08-06 | 华中科技大学 | 一种基于残差注意力的遥感图像检索方法及装置 |
CN113095330A (zh) * | 2021-04-30 | 2021-07-09 | 辽宁工程技术大学 | 一种用于语义分割像素组的压缩注意力模型 |
CN113076960A (zh) * | 2021-05-11 | 2021-07-06 | 清华大学深圳国际研究生院 | 基于多尺度特征迭代融合网络的图像分类方法和装置 |
CN113076960B (zh) * | 2021-05-11 | 2023-07-11 | 清华大学深圳国际研究生院 | 基于多尺度特征迭代融合网络的图像分类方法和装置 |
CN113205524A (zh) * | 2021-05-17 | 2021-08-03 | 广州大学 | 基于U-Net的血管图像分割方法、装置和设备 |
CN113192087A (zh) * | 2021-05-19 | 2021-07-30 | 北京工业大学 | 一种基于卷积神经网络的图像分割方法 |
CN113205153A (zh) * | 2021-05-26 | 2021-08-03 | 华侨大学 | 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型 |
CN113205153B (zh) * | 2021-05-26 | 2023-05-30 | 华侨大学 | 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型 |
CN113240040A (zh) * | 2021-05-27 | 2021-08-10 | 西安理工大学 | 一种基于通道注意力深度网络的极化sar图像分类方法 |
CN113240040B (zh) * | 2021-05-27 | 2023-04-18 | 西安理工大学 | 一种基于通道注意力深度网络的极化sar图像分类方法 |
CN113421268B (zh) * | 2021-06-08 | 2022-09-16 | 南京邮电大学 | 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法 |
CN113421268A (zh) * | 2021-06-08 | 2021-09-21 | 南京邮电大学 | 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法 |
CN113298825A (zh) * | 2021-06-09 | 2021-08-24 | 东北大学 | 一种基于MSF-Net网络的图像分割方法 |
CN113744279A (zh) * | 2021-06-09 | 2021-12-03 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113298825B (zh) * | 2021-06-09 | 2023-11-14 | 东北大学 | 一种基于MSF-Net网络的图像分割方法 |
CN113744279B (zh) * | 2021-06-09 | 2023-11-14 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113591859A (zh) * | 2021-06-23 | 2021-11-02 | 北京旷视科技有限公司 | 图像分割方法、装置、设备及介质 |
CN113592878A (zh) * | 2021-06-29 | 2021-11-02 | 中国人民解放军陆军工程大学 | 一种紧致的多尺度视频前景分割方法 |
CN113506336A (zh) * | 2021-06-30 | 2021-10-15 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113506336B (zh) * | 2021-06-30 | 2024-04-26 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113763386A (zh) * | 2021-07-13 | 2021-12-07 | 合肥工业大学 | 基于多尺度特征融合的手术器械图像智能分割方法和系统 |
CN113763386B (zh) * | 2021-07-13 | 2024-04-19 | 合肥工业大学 | 基于多尺度特征融合的手术器械图像智能分割方法和系统 |
CN113469094B (zh) * | 2021-07-13 | 2023-12-26 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN113469094A (zh) * | 2021-07-13 | 2021-10-01 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN113643322B (zh) * | 2021-07-16 | 2024-03-22 | 重庆邮电大学 | 基于DeepLabv3+_SLAM的动态对象检测方法 |
CN113643322A (zh) * | 2021-07-16 | 2021-11-12 | 重庆邮电大学 | 基于DeepLabv3+_SLAM的动态对象检测方法 |
CN113486897A (zh) * | 2021-07-29 | 2021-10-08 | 辽宁工程技术大学 | 一种卷积注意力机制上采样解码的语义分割方法 |
CN113706544B (zh) * | 2021-08-19 | 2023-08-29 | 天津师范大学 | 一种基于完备注意力卷积神经网络的医学图像分割方法 |
CN113706544A (zh) * | 2021-08-19 | 2021-11-26 | 天津师范大学 | 一种基于完备注意力卷积神经网络的医学图像分割方法 |
CN113852858A (zh) * | 2021-08-19 | 2021-12-28 | 阿里巴巴(中国)有限公司 | 视频处理方法及电子设备 |
CN114066908A (zh) * | 2021-10-09 | 2022-02-18 | 山东师范大学 | 一种用于脑肿瘤图像分割的方法及系统 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN113902915A (zh) * | 2021-10-12 | 2022-01-07 | 江苏大学 | 一种基于低光照复杂道路场景下的语义分割方法及系统 |
CN113989234A (zh) * | 2021-10-28 | 2022-01-28 | 杭州中科睿鉴科技有限公司 | 基于多特征融合的图像篡改检测方法 |
CN113920378B (zh) * | 2021-11-09 | 2023-10-20 | 西安交通大学 | 基于注意力机制的柴胡种子识别方法 |
CN114037833B (zh) * | 2021-11-18 | 2024-03-19 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114037833A (zh) * | 2021-11-18 | 2022-02-11 | 桂林电子科技大学 | 一种苗族服饰图像语义分割方法 |
CN114359554A (zh) * | 2021-11-25 | 2022-04-15 | 河南农业大学 | 一种基于多感受野上下文语义信息的图像语义分割方法 |
CN114426069A (zh) * | 2021-12-14 | 2022-05-03 | 哈尔滨理工大学 | 一种基于实时语义分割的室内救援车及图像语义分割方法 |
CN114426069B (zh) * | 2021-12-14 | 2023-08-25 | 哈尔滨理工大学 | 一种基于实时语义分割的室内救援车及图像语义分割方法 |
CN114565655B (zh) * | 2022-02-28 | 2024-02-02 | 上海应用技术大学 | 一种基于金字塔分割注意力的深度估计方法及装置 |
CN114565655A (zh) * | 2022-02-28 | 2022-05-31 | 上海应用技术大学 | 一种基于金字塔分割注意力的深度估计方法及装置 |
CN114565860A (zh) * | 2022-03-01 | 2022-05-31 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
CN114913325A (zh) * | 2022-03-24 | 2022-08-16 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN114758178B (zh) * | 2022-04-18 | 2024-04-05 | 江南大学 | 一种基于深度学习的轮毂实时分类及其气阀孔定位方法 |
CN114758178A (zh) * | 2022-04-18 | 2022-07-15 | 江南大学 | 一种基于深度学习的轮毂实时分类及其气阀孔定位方法 |
CN115100409B (zh) * | 2022-06-30 | 2024-04-26 | 温州大学 | 一种基于孪生网络的视频人像分割算法 |
CN115100409A (zh) * | 2022-06-30 | 2022-09-23 | 温州大学 | 一种基于孪生网络的视频人像分割算法 |
CN115631452A (zh) * | 2022-11-15 | 2023-01-20 | 中国科学院空天信息创新研究院 | 智能红外弱小目标检测方法、装置、电子设备及介质 |
CN115937113A (zh) * | 2022-11-24 | 2023-04-07 | 脉得智能科技(无锡)有限公司 | 一种皮肤病超声图像多病种识别方法、设备及存储介质 |
CN115937113B (zh) * | 2022-11-24 | 2024-01-30 | 脉得智能科技(无锡)有限公司 | 一种皮肤病超声图像多病种识别方法、设备及存储介质 |
CN115937533A (zh) * | 2022-12-05 | 2023-04-07 | 中国科学院合肥物质科学研究院 | 一种基于语义分割的雾培番茄特征提取方法 |
CN115937533B (zh) * | 2022-12-05 | 2023-08-25 | 中国科学院合肥物质科学研究院 | 一种基于语义分割的雾培番茄特征提取方法 |
CN116152890B (zh) * | 2022-12-28 | 2024-01-26 | 北京融威众邦电子技术有限公司 | 一种医疗费用自助支付系统 |
CN116152890A (zh) * | 2022-12-28 | 2023-05-23 | 北京融威众邦电子技术有限公司 | 一种医疗费用自助支付系统 |
CN116152504A (zh) * | 2023-04-20 | 2023-05-23 | 杰创智能科技股份有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN116172580A (zh) * | 2023-04-20 | 2023-05-30 | 华南理工大学 | 一种适用于多声源场景的听觉注意对象解码方法 |
CN116152504B (zh) * | 2023-04-20 | 2024-04-09 | 杰创智能科技股份有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN116172580B (zh) * | 2023-04-20 | 2023-08-22 | 华南理工大学 | 一种适用于多声源场景的听觉注意对象解码方法 |
CN116645505A (zh) * | 2023-05-12 | 2023-08-25 | 中国地质大学(武汉) | 基于多尺度和级联的神经网络遥感影像语义分割方法 |
CN116630626A (zh) * | 2023-06-05 | 2023-08-22 | 吉林农业科技学院 | 连通双注意力多尺度融合语义分割网络 |
CN116630626B (zh) * | 2023-06-05 | 2024-04-26 | 吉林农业科技学院 | 连通双注意力多尺度融合语义分割网络 |
CN116740362A (zh) * | 2023-08-14 | 2023-09-12 | 南京信息工程大学 | 一种基于注意力的轻量化非对称场景语义分割方法及系统 |
CN116740362B (zh) * | 2023-08-14 | 2023-11-21 | 南京信息工程大学 | 一种基于注意力的轻量化非对称场景语义分割方法及系统 |
CN117095136B (zh) * | 2023-10-19 | 2024-03-29 | 中国科学技术大学 | 一种基于3d gan的多物体和多属性的图像重建和编辑方法 |
CN117095136A (zh) * | 2023-10-19 | 2023-11-21 | 中国科学技术大学 | 一种基于3d gan的多物体和多属性的图像重建和编辑方法 |
CN117237644A (zh) * | 2023-11-10 | 2023-12-15 | 广东工业大学 | 基于红外小目标检测的森林余火检测方法及系统 |
CN117237644B (zh) * | 2023-11-10 | 2024-02-13 | 广东工业大学 | 基于红外小目标检测的森林余火检测方法及系统 |
CN117522884A (zh) * | 2024-01-05 | 2024-02-06 | 武汉理工大学三亚科教创新园 | 一种海洋遥感图像语义分割方法、装置及电子设备 |
CN117522884B (zh) * | 2024-01-05 | 2024-05-17 | 武汉理工大学三亚科教创新园 | 一种海洋遥感图像语义分割方法、装置及电子设备 |
CN117593633A (zh) * | 2024-01-19 | 2024-02-23 | 宁波海上鲜信息技术股份有限公司 | 面向海洋场景的图像识别方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287940A (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN110717851B (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN107123089B (zh) | 基于深度卷积网络的遥感图像超分辨重建方法及系统 | |
CN108717524B (zh) | 一种基于双摄手机和人工智能系统的手势识别系统 | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112541459A (zh) | 基于多尺度感知注意力网络的人群计数方法及系统 | |
CN112288772B (zh) | 基于在线多特征选择的通道注意力目标跟踪方法 | |
CN112270366B (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN115457568B (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN113409355A (zh) | 一种基于fpga的运动目标识别系统及方法 | |
CN113297956A (zh) | 一种基于视觉的手势识别方法及系统 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN113888505A (zh) | 一种基于语义分割的自然场景文本检测方法 | |
CN108764287A (zh) | 基于深度学习和分组卷积的目标检测方法及系统 | |
CN112668675A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN116758415A (zh) | 一种基于二维离散小波变换的轻量化害虫识别方法 | |
CN115423982B (zh) | 基于图像和深度的桌面冰壶三维检测方法 | |
CN111127355A (zh) | 一种对缺损光流图进行精细补全的方法及其应用 | |
CN111489361B (zh) | 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240206 Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province Applicant after: Shenzhen Wanzhida Technology Co.,Ltd. Country or region after: China Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 19 Applicant before: XI'AN POLYTECHNIC University Country or region before: China |
|
TA01 | Transfer of patent application right |