CN112287940A - 一种基于深度学习的注意力机制的语义分割的方法 - Google Patents

一种基于深度学习的注意力机制的语义分割的方法 Download PDF

Info

Publication number
CN112287940A
CN112287940A CN202011194569.8A CN202011194569A CN112287940A CN 112287940 A CN112287940 A CN 112287940A CN 202011194569 A CN202011194569 A CN 202011194569A CN 112287940 A CN112287940 A CN 112287940A
Authority
CN
China
Prior art keywords
convolution
attention
feature
channel
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011194569.8A
Other languages
English (en)
Inventor
王晓华
李志正
张蕾
王文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanzhida Technology Co ltd
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202011194569.8A priority Critical patent/CN112287940A/zh
Publication of CN112287940A publication Critical patent/CN112287940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于深度学习的注意力机制的语义分割的方法,具体步骤按照以下实施;首先获取标准数据集预处理;然后将标准数据集图像信息存储并导入深度神经网络模型中,具体框架采用DeepLabv3+图像语义分割网络,将MS‑CAM模型与DeepLabv3+结合,解决尺度不一致问题,利用AFF模块解决上下文集合和初始集合融合问题,将MS‑CAM模块嵌入到AFF或者多次迭代的iAFF模块,解决语义特征融合和尺度不一致问题具有良好的效果。本发明在DeepLabv3+图像语义分割技术下,使用尺度不同的两个分支来提取通道注意力权重,达到因尺度变化和小物体而引起的识别问题。

Description

一种基于深度学习的注意力机制的语义分割的方法
技术领域
本发明属于人工智能技术领域,涉及一种基于深度学习的注意力机制的语义分割的方法。
背景技术
随着计算机技术的迅速发展,基于计算机平台的机器学习和计算机视觉技术成为了现代人工智能的主要研究方向,而计算机视觉作为人工智能的重要分支,对于场景理解的重要性越来越突出,如何精确且高效的从现实场景中推理出相关知识或者语义,并应用到现实场景成为了一种必然趋势。不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题,图像语义分割是从像素级理解图像,从而确定图像中像素对应的目标分类。
针对目前卷积神经网络应用于语义分割中其中主要的问题就是池化层问题(poollayers),池化层增加了视野,同时也丢失了精确的位置信息,这与语义分割需要的准确像素信息相矛盾。针对这个问题一般有两种类型的解决方法,一种是编码解码器(encoder-decoder)网络结构,编码器使用池化层逐渐减少空间维度,解码器逐渐恢复目标对象的细节和空间维度,通常从编码器到解码器的快捷连接,帮助解码器更好地恢复对象细节;另一种是取消池化层并使用空洞卷积。由于对象的比例变化是计算机视觉中的关键挑战,缓解因尺度变化和小物体而引起的语义分割问题是现有技术研究的关键。
发明内容
本发明的目的是提供一种基于深度学习的注意力机制的语义分割的方法,为了缓解因尺度变化和小物体而引起的语义分割问题。
本发明所采用的技术方案是,一种基于深度学习的注意力机制的语义分割的方法,具体步骤按照以下实施;
步骤1,获取标准数据集,进行预处理;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASSP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度;
步骤3,结合多通道注意力模块,沿通道维度聚合尺度的上下文信息,强调分部大型对象,并在全局范围内突出本地小物体信息,采用注意力特征融合模块进行特征融合,将现有特征算子与拟议的AFF模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤4,采用条件随机场对语义分割的预测结果进行特征优化,将低层图像信息和逐像素分类结果相结合;
步骤5,调整解码端输出特征的通道数并激活,即获取最终的预测结果。
本发明的特点还在于,
步骤1具体为:
步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
步骤1.2,下载Deeplabv3+模型常用的标准PASCALVOC 2012数据集;
步骤1.3,预处理PASCAL VOC 2012数据集,PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集,采用增强数据集的数据标签 label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;
步骤1.5,数据集导入编码端,调用函数转换导入数据集。
步骤2的具体步骤为:
步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,将编码器输出特征图;
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.4,利用空洞金字塔池化,提出多尺度信息,根据ASPP有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1 卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理。
步骤2.3的具体步骤为:
步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为 5×5,从而增加了五个参数,并引入了空白信息;
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:
Figure RE-GDA0002832334340000041
其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i 特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
Figure RE-GDA0002832334340000042
Figure RE-GDA0002832334340000043
Figure RE-GDA0002832334340000044
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数, H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长, padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出。
步骤2.4具体步骤为:
步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若 out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有 BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1 卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在 channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride 为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
步骤3具体步骤为:
步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块,使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块将一个通道内的信息进行全局平均;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
步骤3.5,注意力特征融合基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景。
步骤步骤3.3具体为;
步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down 结构实现;
buttom-up部分:执行下采样(down sample),多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息;
top-down部分:执行上采样(up sample)线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即对mask中的Attention添加不同约束,使其成为channel attention注意力模型。
步骤3.4首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:mask brunch和trunk branch,最后以特征点积输出;计算如下所示;
Hi,c(x)=Mi,c(x)*Ti,c(x) (4)
其中Mi,c是mask分支输出的注意力特征权重,Ti,c(x)是trunk分支经过一系列操作所提取的特征图表示,Hi,c为输出,即为二者的点积;
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块(MS-CAM) 实现空间池大小缩放,将本地上下文信息添加到注意模块中的全局上下文,选择点卷积(PWCov)作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
步骤3.4.2,计算本地通道上下文信息
Figure RE-GDA0002832334340000071
计算模型输出所示;
L(X)=B(PWConv2(δ(B(PWConv1(Z'))))) (5)
其中卷积核大小为PWconv1和PWconv1分别为
Figure RE-GDA0002832334340000072
Figure RE-GDA0002832334340000073
步骤3.4.3,给定全局通道上下文信息个g(X)和本地通道上下文信息 L(X),并且重新定义特征X',将其记为
Figure RE-GDA0002832334340000074
即利用本地通道上下文信息作为新的输入特征,输入输出模型如下:
Figure RE-GDA0002832334340000075
其中
Figure RE-GDA0002832334340000076
相当于MS-CAM生成的注意力权重,
Figure RE-GDA0002832334340000077
表示按元素进行乘法,
Figure RE-GDA0002832334340000078
表示加法,σ为激活函数。
步骤3.5具体步骤为:
步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
步骤3.5.2,给定两幅特征图,
Figure RE-GDA0002832334340000079
默认情况下,假定Y是具有较大感受野范围的特征图;
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出, Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,将注意力特征融合表示为:
Figure RE-GDA00028323343400000710
其中,
Figure RE-GDA00028323343400000711
是融合后的输出特征,∪表示初始特征集整合;
步骤3.5.3,选择逐元素求和作为初始积分,AFF和iAFF模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y)表示融合权重,将网络在X,Y之间进行平均或者软选择。
步骤4中采用Atrous Conv算法扩大视野,获取更多的上下文信息。
本发明的有益效果是,本发明采用最新的Deeplabv3+语义分割模型,该模型结合了空间金字塔池化模块和编码解码器结构,使网络能够对多种采样率和多个感受野进行滤波和池化操作来探查传入特征,从而对多尺度上下文信息进行编码,通过逐渐恢复空间信息来捕获更清晰的对象边界。在语义分割过程中,提出一种融合语义和尺度不一致的特征,多尺度通道注意模块 (MS-CAM),用于解决跨不同尺度的特征不一致问题,以进行注意力特征融合(AFF)的方法。基于DeepLabv3+语义分割网络模型,多尺度注意机制模块在全局范围内的强调大对象,并突出显示分布在本地范围内的小对象,从而有助于网络识别和检测极端尺度变化下的对象。
附图说明
图1本发明一种基于深度学习的注意力机制的语义分割的方法总体框架图。
图2本发明多尺度通道注意模块(MS-CAM)框图;
图3本发明注意力特征融合模块(AFF-iAFF)框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明是一种基于深度学习的注意力机制的语义分割的方法,具体按照以下步骤实施:
步骤1,获取标准数据集,进行预处理;
步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
DeepLabv3+模型级联多个卷积模块,在空间维度上便于更好的捕捉图像上下文信息,利用观察不同视野特征,利用金字塔池化的方式融合特征,该方法不足在于小尺度物体分割不明显,采用注意力机制多尺度通道模块来优化。
步骤1.2,下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集; PASCAL VOC2012包括原始数据集和增强数据集两种版本的数据集,数据集中包含20个对象类,person、bird、cat、cow等室外场景,包括10个动作类,running、reading等,数据集使用过程中要保证训练数据集train.txt和验证数据集vai.txt没有交集。
步骤1.3,预处理PASCAL VOC 2012数据集,采用增强数据集的数据标签label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;.mat是MATLAB数据的保存格式。
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;大多数场合使用的数据集是两个以上数据的融合,本质区别在于数据的多少。
步骤1.5,数据集导入编码端,调用函数转换导入数据集;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络(DCNN)模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASSP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度。
步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,首先将编码器输出特征图,
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.3的具体步骤为:
步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为 5×5,从而增加了五个参数,并引入了空白信息。
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:
Figure RE-GDA0002832334340000101
其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i 特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下所示:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
Figure RE-GDA0002832334340000102
Figure RE-GDA0002832334340000103
Figure RE-GDA0002832334340000104
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数, H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长, padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出;
步骤2.4,利用空洞金字塔池化(ASPP),提出多尺度信息,根据ASPP 有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder 部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理;
步骤2.4具体步骤为:
步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若 out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有 BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1 卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在 channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride 为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
步骤3,结合多通道注意力模块(MS-CAM),沿通道维度聚合尺度的上下文信息,强调分部大型对象并在全局范围内突出本地小物体信息,采用注意力特征融合(AFF)模块进行特征融合,将现有特征算子与拟议的AFF 模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤3具体步骤为:
步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块 (MS-CAM),使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;在DeepLav3+模型上提出的多尺度通道注意模块(MS-CAM),框架如图2所示,为融合语义和多尺度不一致特征,用以解决融合特征出现的问题;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;注意力机制(Attention Mechanism)是一种用来强调或者选择目标处理对象的重要信息,并且抑制一些无关信息的数据处理方法。
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块(MS-CAM)将一个通道内的信息进行全局平均;
步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down 结构实现,这种结构也是一种encoder-decoder模型实现。
buttom-up部分:执行下采样(down sample),多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息。
top-down部分:执行上采样(up sample)线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即可对mask中的Attention添加不同约束,使其成为channel attention注意力模型;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:maskbrunch和trunk branch,最后以特征点积输出;计算如下所示;
Hi,c(x)=Mi,c(x)*Ti,c(x) (4)
其中Mi,c是mask分支输出的注意力特征权重,Ti,c(x)是trunk分支经过一系列操作所提取的特征图表示,Hi,c为输出,即为二者的点积;
具体步骤如下:
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块(MS-CAM) 实现空间池大小缩放,如图2所示MS-CAM结构图,将本地上下文信息添加到注意模块中的全局上下文,选择点卷积(PWCov)作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
步骤3.4.2,计算本地通道上下文信息
Figure RE-GDA0002832334340000141
计算模型输出所示;
L(X)=B(PWConv2(δ(B(PWConv1(Z'))))) (5)
其中卷积核大小为PWconv1和PWconv1分别为
Figure RE-GDA0002832334340000142
Figure RE-GDA0002832334340000143
步骤3.4.3,给定全局通道上下文信息个g(X)和本地通道上下文信息 L(X),并且重新定义特征X',将其记为
Figure RE-GDA0002832334340000144
即利用本地通道上下文信息作为新的输入特征,输入输出模型如下:
Figure RE-GDA0002832334340000145
其中
Figure RE-GDA0002832334340000146
相当于MS-CAM生成的注意力权重,
Figure RE-GDA0002832334340000147
表示按元素进行乘法,
Figure RE-GDA0002832334340000148
表示加法,σ为激活函数;
步骤3.5,注意力特征融合(AFF),基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景;
步骤3.5具体步骤为:
步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
步骤3.5.2,给定两幅特征图,
Figure RE-GDA0002832334340000149
默认情况下,假定Y是具有较大感受野范围的特征图。
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出, Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,可以将注意力特征融合(AFF)表示为:
Figure RE-GDA0002832334340000151
其中,
Figure RE-GDA0002832334340000152
是融合后的输出特征,∪表示初始特征集整合;
步骤3.5.3,选择逐元素求和作为初始积分,如图3所示,AFF和iAFF 模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y) 表示融合权重,将网络在X,Y之间进行平均或者软选择;
步骤4,特征优化通常采用条件随机场(CRF)对语义分割的预测结果进行优化,将低层图像信息和逐像素分类结果相结合;
步骤4中采用Atrous Conv(带孔)算法扩大视野,获取更多的上下文信息,解决在高级特征的映射和池化下采样导致的语义分割精准度不够,信号采样或者池化分辨率降低的问题,针对DCNN分类器定位精度 DeepLabv3+采用完全连接的条件随机场(CRF),提高模型获取细节的能力。
步骤5,调整解码端输出特征的通道数并激活,即可获取最终的预测结果;
步骤5中通过DeepLabv3+在模型架构上引入对尺度信息的融合结构、 encoder-decoder架构,为引入任意控制编码而达到控制分辨率的效果,并通过上文空洞卷积平衡精度和耗时,通过MS-CAM模块使用尺度不同的两个分支来提取通道注意力权重,达到两个线程分别处理全局特征和局部特征的目的;
本发明一种基于深度学习的注意力机制的语义分割的方法,采用最新的Deeplabv3+语义分割模型,为了融合多尺度信息,引入了语义分割常用的 encoder-decoder形式。在encoder-decoder架构中,引入可任意控制编码器提取特征的分辨率,通过空洞卷积平衡精度和耗时,通过沿通道维度聚合的多尺度上下文信息。结合MS-CAM模型,可以同时强调分布更多的大型对象,在全局范围内容中显示出分部在本地的小物体特征。
通过结合空间金字塔池化模块和编码解码器结构,使网络能够对多种采样率和多个感受野进行滤波和池化操作来探查传入特征,从而对多尺度上下文信息进行编码,通过逐渐恢复空间信息来捕获更清晰的对象边界。在语义分割过程中,多尺度通道注意模块(MS-CAM),用于解决跨不同尺度的特征不一致问题,以进行注意力特征融合(AFF)的方法。基于DeepLabv3+语义分割网络模型,多尺度注意机制模块在全局范围内的强调大对象,并突出显示分布在本地范围内的小对象,从而有助于网络识别和检测极端尺度变化下的对象。
本发明一种基于深度学习的注意力机制的语义分割的方法,结合深度神经网络中的语义分割任务,即金字塔池化模块和编码解码模块,实现对多种采样率和多个感受野进行滤波和池化操作,提取输入特征,并且通过逐点恢复空间信息来捕获对象边界,改进了语义分割任务的准确性和快速性。通过分析在特征提取过程中会出现融合语义信息和尺度不一致问题,特征对象的比例变化会影响语义分割的精度,而描述符更容易倾向强调分布在全局范围内的大物体,并且可能会抹去存在于大对象里的小物体,而造成特征丢失。因此提出将多尺度通道注意模块(MS-CAM),该模块可以通过改变空间池化的大小,在多个尺度上实现对通道的关注,只需要将本地上下文添加到注意模块的全局上下文中,利用逐点卷积(PWConv)作为本地通道实现全局信息交互,将MS-CAM模块引入注意力特征融合模块(AFF),用以解决上下文聚合和初始集成的多尺度跨层融合问题。通过引入最新DeepLabv3+ 网络提出一种基于深度学习提出一种融合语义和尺度不一致特征的注意力机制特征融合,在DeepLabv3+图像语义分割技术下,使用尺度不同的两个分支来提取通道注意力权重,达到因尺度变化和小物体而引起的识别问题。本方法与特征直接融合的方法相比,用于特征融合的更复杂的注意力机制具有持续产生更好结果的巨大潜力。
本发明一种基于深度学习的注意力机制的语义分割方法,基于 DeepLabv3+模型架构,结合了深度神经网络中最常用的语义分割任务解决方案,即金字塔池化模块和编码解码模块,实现对多种采样率和多个感受野进行滤波和池化操作,提取输入特征,并且通过逐点恢复空间信息来捕获对象边界,改进了语义分割任务的准确性和快速性。通过分析在特征提取过程中会出现融合语义信息和尺度不一致问题,特征对象的比例变化会影响语义分割的精度,而描述符更容易倾向强调分布在全局范围内的大物体,并且可能会抹去存在于大对象里的小物体,而造成特征丢失。因此提出将多尺度通道注意模块(MS-CAM),该模块可以通过改变空间池化的大小,在多个尺度上实现对通道的关注,只需要将本地上下文添加到注意模块的全局上下文中,利用逐点卷积(PWConv)作为本地通道实现全局信息交互。

Claims (10)

1.一种基于深度学习的注意力机制的语义分割的方法,其特征在于,具体步骤按照以下实施;
步骤1,获取标准数据集,进行预处理;
步骤2,将步骤1预处理后的标准数据集图像信息存储并导入深度神经网络模型中,通过DeeplabV3+引入的编码-解码结构和带空洞卷积的金字塔池化模块,以端到端的方式对网络进行训练,通过ASSP引入多尺度信息,通过Decoder模块将底层特征和高层特征进行融合,提升分割边界准确度;
步骤3,结合多通道注意力模块,沿通道维度聚合尺度的上下文信息,强调分部大型对象,并在全局范围内突出本地小物体信息,采用注意力特征融合模块进行特征融合,将现有特征算子与拟议的AFF模块一同放置,通过迭代集成的AFF框架形成iAFF框架;
步骤4,采用条件随机场对语义分割的预测结果进行特征优化,将低层图像信息和逐像素分类结果相结合;
步骤5,调整解码端输出特征的通道数并激活,即获取最终的预测结果。
2.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤1具体为:
步骤1.1,采用DeepLabv3+语义分割网络适用的数据集PASCAL VOC 2012;
步骤1.2,下载Deeplabv3+模型常用的标准PASCAL VOC 2012数据集;
步骤1.3,预处理PASCAL VOC 2012数据集,PASCAL VOC 2012包括原始数据集和增强数据集两种版本的数据集,采用增强数据集的数据标签label是.mat格式的文件,将.mat格式转换为.png格式的图片文件,转化后的数据图片是8-bit的灰度图;
步骤1.4,数据集融合,将增强数据集中label转化为三通道RGB图,并转化为8-bit的灰度.png图像;
步骤1.5,数据集导入编码端,调用函数转换导入数据集。
3.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1,图像信息Image输入到Deeplabv3+上端编码器Encoder中,通过解码端处理,将编码器输出特征图;
步骤2.2,采用不同尺寸卷积核和rate,利用多扩张率的空洞卷积获取更丰富的上下文语义信息,提取多尺度特征,引入膨胀卷积即多扩张空洞卷积增加网络感受野;
步骤2.3,使用Dilated Convolution膨胀卷积提取特征阶段,实现感受野的扩大,并且不降低分辨率,实现保留原有位置信息并且语义信息保持不变;
步骤2.4,利用空洞金字塔池化,提出多尺度信息,根据ASPP有五个尺度,在Encoder部分,高级特征讲过五个不同从操作得到5个输出一个1×1卷积,3个不同尺度rate的dilation conv和1个ImagePool,在Decoder部分,对于两个输入分别操作,将low-level-feature经过1×1卷积调整维度,另一操作将Eecoder的1×1conv经过Decoder中的向上采样Upsample,利用双线性插值法,再将两操作进行Concat结合处理。
4.根据权利要求3所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2.3的具体步骤为:
步骤2.3.1,利用膨胀卷积将卷积核变大,将一个3×3的卷积核膨胀为5×5,从而增加了五个参数,并引入了空白信息;
步骤2.3.2,利用具有Atrous卷积的编码-解码器,由深度神经网络计算特征的分辨率,并且调整滤波器的视场以捕获多尺度信息,对于二维信号,输出特征图y上的每个位置i和卷积滤波器w,在输入特征图上进行如下粗卷积计算:
Figure FDA0002753656110000031
其中,y表示输出特征图,i表示某一具体卷积操作的像素,y[i]表示i特征输出图,r表示参数距离也就是速率rate,k为有效视野感受参数,w为卷积滤波器;
步骤2.3.3,膨胀卷积输入输出维度大小计算公式如下:
Input:(N,Cin,Hin,Win)
Output:(N,Cout,Hout,Wout)
Figure FDA0002753656110000032
Figure FDA0002753656110000033
Figure FDA0002753656110000034
其中Input,Output为输入输出特征尺寸大小,C表示输入输出通道数,H,W表示输入图片尺寸大小,kernel_size表示卷积核尺寸,stride表示步长,padding表示宽度,dilation表示膨胀率,Hout和Wout为膨胀卷积的输入和输出。
5.根据权利要求4所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤2.4具体步骤为:
步骤2.4.1,取一个1×1卷积层,以及3×3的空洞卷积,对于输入图像分辨率和输出图像分辨率的比值out_stride=16,其中rate为(6,12,18),若out_stride=8,rate加倍,此类卷积层的输出channel数均为256,并且含有BN层;
步骤2.4.2,一个金字塔平均池化得到的image-level特征,然后送入1×1卷积层,输出256个channel;
步骤2.4.3,将步骤2.2.1和步骤2.2.2得到的4个不同尺度的特征在channel维度结合到一起,将多尺度的特征图调整分辨率后拼接融合,并利用1×1卷积将输出通道数调整为256,此时编码器输出特征图的分辨率是原始图像的十六分之一;
步骤2.4.4,对于DeepLabv3+,经过ASPP模块得到的特征图的out_stride为8或者16,其经过1×1的分类层后,利用Encoder-Decoder结构对于输入的空间分辨率进行向下采样,得到低分辨率并经过学习高效的区分特征图,在进行向上采样特征表示全分辨率分割图。
6.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3具体步骤为:
步骤3.1,在DeepLav3+模型上提出一种多尺度通道注意模块,使用尺度不同的两个分支来提取通道注意力权重,多尺度通道注意模块结构分为两部分,其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力;
步骤3.2,将得到的采样图X,经MS-CAM注意力机制模块,分为两部分分别输入到全局特征提取和卷积局部特征通道;
步骤3.3,应用卷积神经网络注意力机制,采用channel Attention,对于每个通道channel维度,学习不同权重,平面维度上权重相同,基于多尺度通道注意力模块将一个通道内的信息进行全局平均;
步骤3.4,通过注意力掩模和特征图作用机制,在图像特征信息中实现总体结构;
步骤3.5,注意力特征融合基于步骤3.2卷积神经网络的注意力机制,将生成的特征进行融合,用以解决特征融合上下文聚合和初始集成的问题,实现特征融合从相同层场景扩展到跨层场景。
7.根据权利要求6所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤步骤3.3具体为;
步骤3.3.1,分支trunk实现,应用传统的卷积神经网络结构,通过多次卷积操作提取原始特征;
步骤3.3.2,分支mask实现,利用注意力模块的buttom-up和top-down结构实现;
buttom-up部分:执行下采样,多次进行最大池化操作扩大接受域,直到达到最低分辨率,强语义信息的特征图,从而收集整个图片的全局信息;
top-down部分:执行上采样线性插值,直到特征图尺寸与输入时相等,扩展Bottom-up所产生的特征图,使其尺寸与输入Bottom-up前的特征图大小相同,从而对输入特征图的每个像素进行推理选择;
步骤3.3.3,在mask输出之前,通过改变激活函数中的标准方差式,即对mask中的Attention添加不同约束,使其成为channel attention注意力模型。
8.根据权利要求7所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.4首先将多个注意力模块的堆叠而成,并且将注意力模块分成两个分支:mask brunch和trunk branch,最后以特征点积输出;计算如下所示;
Hi,c(x)=Mi,c(x)*Ti,c(x) (4)
其中Mi,c是mask分支输出的注意力特征权重,Ti,c(x)是trunk分支经过一系列操作所提取的特征图表示,Hi,c为输出,即为二者的点积;
步骤3.4.1,通过汇聚上下文信息利用多尺度通道注意模块实现空间池大小缩放,如图2所示MS-CAM结构图,将本地上下文信息添加到注意模块中的全局上下文,选择点卷积作为本地通道上下文聚合器,利用逐点通道每个位置空间的互动;
步骤3.4.2,计算本地通道上下文信息
Figure FDA0002753656110000069
计算模型输出所示;
L(X)=B(PWConv2(δ(B(PWConv1(Z'))))) (5)
其中卷积核大小为PWconv1和PWconv1分别为
Figure FDA0002753656110000061
Figure FDA0002753656110000062
步骤3.4.3,给定全局通道上下文信息个g(X)和本地通道上下文信息L(X),并且重新定义特征X',将其记为
Figure FDA0002753656110000063
即利用本地通道上下文信息作为新的输入特征,输入输出模型如下:
Figure FDA0002753656110000064
其中
Figure FDA0002753656110000065
相当于MS-CAM生成的注意力权重,
Figure FDA0002753656110000066
表示按元素进行乘法,
Figure FDA0002753656110000067
表示加法,σ为激活函数。
9.根据权利要求8所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤3.5具体步骤为:
步骤3.5.1,将现有特征融合算子与拟议的AFF模块结合,通过迭代集成的AFF框架完善初始集成,即融合权重生成器,用它作为输出通过另一个AFF模块接收特征,形成迭代注意力特征融合iAFF;
步骤3.5.2,给定两幅特征图,X,
Figure FDA0002753656110000068
默认情况下,假定Y是具有较大感受野范围的特征图;
对于不同结构中,具体X,Y对应:同层场景中:X是3×3卷积的输出,Y是5×5卷积的输出;在短跳跃连接场景:X是本身映射,Y是学习残差;在长跳跃场景:X是低级特征图,Y是高层特征金字塔中的高阶语义特征图;基于多尺度通道注意力模块MS-CAM,将注意力特征融合表示为:
Figure FDA0002753656110000071
其中,
Figure FDA0002753656110000072
是融合后的输出特征,∪表示初始特征集整合;
步骤3.5.3,选择逐元素求和作为初始积分,AFF和iAFF模块与多尺度通道之间的框架关系,其中虚线表示1-M(X∪Y),M(X∪Y)表示融合权重,将网络在X,Y之间进行平均或者软选择。
10.根据权利要求1所述的一种基于深度学习的注意力机制的语义分割的方法,其特征在于,所述步骤4中采用Atrous Conv算法扩大视野,获取更多的上下文信息。
CN202011194569.8A 2020-10-30 2020-10-30 一种基于深度学习的注意力机制的语义分割的方法 Pending CN112287940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011194569.8A CN112287940A (zh) 2020-10-30 2020-10-30 一种基于深度学习的注意力机制的语义分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011194569.8A CN112287940A (zh) 2020-10-30 2020-10-30 一种基于深度学习的注意力机制的语义分割的方法

Publications (1)

Publication Number Publication Date
CN112287940A true CN112287940A (zh) 2021-01-29

Family

ID=74353804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011194569.8A Pending CN112287940A (zh) 2020-10-30 2020-10-30 一种基于深度学习的注意力机制的语义分割的方法

Country Status (1)

Country Link
CN (1) CN112287940A (zh)

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966716A (zh) * 2021-02-03 2021-06-15 大连海事大学 一种素描引导的鞋印图像检索方法
CN112990299A (zh) * 2021-03-11 2021-06-18 五邑大学 基于多尺度特征的深度图获取方法、电子设备、存储介质
CN113076960A (zh) * 2021-05-11 2021-07-06 清华大学深圳国际研究生院 基于多尺度特征迭代融合网络的图像分类方法和装置
CN113095330A (zh) * 2021-04-30 2021-07-09 辽宁工程技术大学 一种用于语义分割像素组的压缩注意力模型
CN113192087A (zh) * 2021-05-19 2021-07-30 北京工业大学 一种基于卷积神经网络的图像分割方法
CN113205153A (zh) * 2021-05-26 2021-08-03 华侨大学 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型
CN113205524A (zh) * 2021-05-17 2021-08-03 广州大学 基于U-Net的血管图像分割方法、装置和设备
CN113220915A (zh) * 2021-04-29 2021-08-06 华中科技大学 一种基于残差注意力的遥感图像检索方法及装置
CN113222904A (zh) * 2021-04-21 2021-08-06 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN113240040A (zh) * 2021-05-27 2021-08-10 西安理工大学 一种基于通道注意力深度网络的极化sar图像分类方法
CN113298825A (zh) * 2021-06-09 2021-08-24 东北大学 一种基于MSF-Net网络的图像分割方法
CN113421268A (zh) * 2021-06-08 2021-09-21 南京邮电大学 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113486897A (zh) * 2021-07-29 2021-10-08 辽宁工程技术大学 一种卷积注意力机制上采样解码的语义分割方法
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113592878A (zh) * 2021-06-29 2021-11-02 中国人民解放军陆军工程大学 一种紧致的多尺度视频前景分割方法
CN113591859A (zh) * 2021-06-23 2021-11-02 北京旷视科技有限公司 图像分割方法、装置、设备及介质
CN113643322A (zh) * 2021-07-16 2021-11-12 重庆邮电大学 基于DeepLabv3+_SLAM的动态对象检测方法
CN113706544A (zh) * 2021-08-19 2021-11-26 天津师范大学 一种基于完备注意力卷积神经网络的医学图像分割方法
CN113744279A (zh) * 2021-06-09 2021-12-03 东北大学 一种基于FAF-Net网络的图像分割方法
CN113763386A (zh) * 2021-07-13 2021-12-07 合肥工业大学 基于多尺度特征融合的手术器械图像智能分割方法和系统
CN113852858A (zh) * 2021-08-19 2021-12-28 阿里巴巴(中国)有限公司 视频处理方法及电子设备
CN113902915A (zh) * 2021-10-12 2022-01-07 江苏大学 一种基于低光照复杂道路场景下的语义分割方法及系统
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN113989234A (zh) * 2021-10-28 2022-01-28 杭州中科睿鉴科技有限公司 基于多特征融合的图像篡改检测方法
CN114037833A (zh) * 2021-11-18 2022-02-11 桂林电子科技大学 一种苗族服饰图像语义分割方法
CN114066908A (zh) * 2021-10-09 2022-02-18 山东师范大学 一种用于脑肿瘤图像分割的方法及系统
CN114359554A (zh) * 2021-11-25 2022-04-15 河南农业大学 一种基于多感受野上下文语义信息的图像语义分割方法
CN114426069A (zh) * 2021-12-14 2022-05-03 哈尔滨理工大学 一种基于实时语义分割的室内救援车及图像语义分割方法
CN114565655A (zh) * 2022-02-28 2022-05-31 上海应用技术大学 一种基于金字塔分割注意力的深度估计方法及装置
CN114565860A (zh) * 2022-03-01 2022-05-31 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN114758178A (zh) * 2022-04-18 2022-07-15 江南大学 一种基于深度学习的轮毂实时分类及其气阀孔定位方法
CN114913325A (zh) * 2022-03-24 2022-08-16 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品
CN115100409A (zh) * 2022-06-30 2022-09-23 温州大学 一种基于孪生网络的视频人像分割算法
CN115631452A (zh) * 2022-11-15 2023-01-20 中国科学院空天信息创新研究院 智能红外弱小目标检测方法、装置、电子设备及介质
CN115937113A (zh) * 2022-11-24 2023-04-07 脉得智能科技(无锡)有限公司 一种皮肤病超声图像多病种识别方法、设备及存储介质
CN115937533A (zh) * 2022-12-05 2023-04-07 中国科学院合肥物质科学研究院 一种基于语义分割的雾培番茄特征提取方法
CN116152504A (zh) * 2023-04-20 2023-05-23 杰创智能科技股份有限公司 图像分割方法、装置、电子设备及存储介质
CN116152890A (zh) * 2022-12-28 2023-05-23 北京融威众邦电子技术有限公司 一种医疗费用自助支付系统
CN116172580A (zh) * 2023-04-20 2023-05-30 华南理工大学 一种适用于多声源场景的听觉注意对象解码方法
CN116630626A (zh) * 2023-06-05 2023-08-22 吉林农业科技学院 连通双注意力多尺度融合语义分割网络
CN116645505A (zh) * 2023-05-12 2023-08-25 中国地质大学(武汉) 基于多尺度和级联的神经网络遥感影像语义分割方法
CN116740362A (zh) * 2023-08-14 2023-09-12 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN113920378B (zh) * 2021-11-09 2023-10-20 西安交通大学 基于注意力机制的柴胡种子识别方法
CN117095136A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 一种基于3d gan的多物体和多属性的图像重建和编辑方法
CN117237644A (zh) * 2023-11-10 2023-12-15 广东工业大学 基于红外小目标检测的森林余火检测方法及系统
CN117522884A (zh) * 2024-01-05 2024-02-06 武汉理工大学三亚科教创新园 一种海洋遥感图像语义分割方法、装置及电子设备
CN117593633A (zh) * 2024-01-19 2024-02-23 宁波海上鲜信息技术股份有限公司 面向海洋场景的图像识别方法、系统、设备和存储介质
CN114913325B (zh) * 2022-03-24 2024-05-10 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019089192A1 (en) * 2017-11-03 2019-05-09 Siemens Aktiengesellschaft Weakly-supervised semantic segmentation with self-guidance
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110263833A (zh) * 2019-06-03 2019-09-20 韩慧慧 基于编码-解码结构的图像语义分割方法
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
US20190370972A1 (en) * 2018-06-04 2019-12-05 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
US20200160175A1 (en) * 2018-11-15 2020-05-21 D-Wave Systems Inc. Systems and methods for semantic segmentation
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111325751A (zh) * 2020-03-18 2020-06-23 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111626300A (zh) * 2020-05-07 2020-09-04 南京邮电大学 基于上下文感知的图像语义分割模型及建模方法
EP3712811A1 (en) * 2019-03-20 2020-09-23 NavInfo Europe B.V. Real-time scene understanding system
KR102167808B1 (ko) * 2020-03-31 2020-10-20 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019089192A1 (en) * 2017-11-03 2019-05-09 Siemens Aktiengesellschaft Weakly-supervised semantic segmentation with self-guidance
US20190370972A1 (en) * 2018-06-04 2019-12-05 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
US20200160175A1 (en) * 2018-11-15 2020-05-21 D-Wave Systems Inc. Systems and methods for semantic segmentation
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
EP3712811A1 (en) * 2019-03-20 2020-09-23 NavInfo Europe B.V. Real-time scene understanding system
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110263833A (zh) * 2019-06-03 2019-09-20 韩慧慧 基于编码-解码结构的图像语义分割方法
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN111325751A (zh) * 2020-03-18 2020-06-23 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
KR102167808B1 (ko) * 2020-03-31 2020-10-20 한밭대학교 산학협력단 Ar에 적용 가능한 의미적인 분할 방법 및 시스템
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111626300A (zh) * 2020-05-07 2020-09-04 南京邮电大学 基于上下文感知的图像语义分割模型及建模方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIA, ZY,等: "Mixed spatial pyramid pooling for semantic segmentation", APPLIED SOFT COMPUTING, vol. 91, pages 106209 *
ZHANG, XQ,等: "Pyramid Channel-based Feature Attention Network for image dehazing", COMPUTER VISION AND IMAGE UNDERSTANDING, vol. 197, pages 103003 *
刘文祥,等: "采用双注意力机制Deeplabv3+算法的遥感影像语义分割", 热带地理, no. 02, pages 303 - 313 *
徐慧,等: "基于深度学习的服装图像语义分析与检索推荐", 纺织高校基础科学学报, no. 03, pages 64 - 72 *
高丹,等: "A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型", 中国电子科学研究院学报, vol. 15, no. 06, pages 518 - 523 *

Cited By (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966716B (zh) * 2021-02-03 2023-10-27 大连海事大学 一种素描引导的鞋印图像检索方法
CN112966716A (zh) * 2021-02-03 2021-06-15 大连海事大学 一种素描引导的鞋印图像检索方法
CN112990299B (zh) * 2021-03-11 2023-10-17 五邑大学 基于多尺度特征的深度图获取方法、电子设备、存储介质
CN112990299A (zh) * 2021-03-11 2021-06-18 五邑大学 基于多尺度特征的深度图获取方法、电子设备、存储介质
CN113222904A (zh) * 2021-04-21 2021-08-06 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN113220915A (zh) * 2021-04-29 2021-08-06 华中科技大学 一种基于残差注意力的遥感图像检索方法及装置
CN113095330A (zh) * 2021-04-30 2021-07-09 辽宁工程技术大学 一种用于语义分割像素组的压缩注意力模型
CN113076960A (zh) * 2021-05-11 2021-07-06 清华大学深圳国际研究生院 基于多尺度特征迭代融合网络的图像分类方法和装置
CN113076960B (zh) * 2021-05-11 2023-07-11 清华大学深圳国际研究生院 基于多尺度特征迭代融合网络的图像分类方法和装置
CN113205524A (zh) * 2021-05-17 2021-08-03 广州大学 基于U-Net的血管图像分割方法、装置和设备
CN113192087A (zh) * 2021-05-19 2021-07-30 北京工业大学 一种基于卷积神经网络的图像分割方法
CN113205153A (zh) * 2021-05-26 2021-08-03 华侨大学 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型
CN113205153B (zh) * 2021-05-26 2023-05-30 华侨大学 一种儿科肺炎辅助诊断模型的训练方法及训练所得的模型
CN113240040A (zh) * 2021-05-27 2021-08-10 西安理工大学 一种基于通道注意力深度网络的极化sar图像分类方法
CN113240040B (zh) * 2021-05-27 2023-04-18 西安理工大学 一种基于通道注意力深度网络的极化sar图像分类方法
CN113421268B (zh) * 2021-06-08 2022-09-16 南京邮电大学 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法
CN113421268A (zh) * 2021-06-08 2021-09-21 南京邮电大学 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法
CN113298825A (zh) * 2021-06-09 2021-08-24 东北大学 一种基于MSF-Net网络的图像分割方法
CN113744279A (zh) * 2021-06-09 2021-12-03 东北大学 一种基于FAF-Net网络的图像分割方法
CN113298825B (zh) * 2021-06-09 2023-11-14 东北大学 一种基于MSF-Net网络的图像分割方法
CN113744279B (zh) * 2021-06-09 2023-11-14 东北大学 一种基于FAF-Net网络的图像分割方法
CN113591859A (zh) * 2021-06-23 2021-11-02 北京旷视科技有限公司 图像分割方法、装置、设备及介质
CN113592878A (zh) * 2021-06-29 2021-11-02 中国人民解放军陆军工程大学 一种紧致的多尺度视频前景分割方法
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113506336B (zh) * 2021-06-30 2024-04-26 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113763386A (zh) * 2021-07-13 2021-12-07 合肥工业大学 基于多尺度特征融合的手术器械图像智能分割方法和系统
CN113763386B (zh) * 2021-07-13 2024-04-19 合肥工业大学 基于多尺度特征融合的手术器械图像智能分割方法和系统
CN113469094B (zh) * 2021-07-13 2023-12-26 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113643322B (zh) * 2021-07-16 2024-03-22 重庆邮电大学 基于DeepLabv3+_SLAM的动态对象检测方法
CN113643322A (zh) * 2021-07-16 2021-11-12 重庆邮电大学 基于DeepLabv3+_SLAM的动态对象检测方法
CN113486897A (zh) * 2021-07-29 2021-10-08 辽宁工程技术大学 一种卷积注意力机制上采样解码的语义分割方法
CN113706544B (zh) * 2021-08-19 2023-08-29 天津师范大学 一种基于完备注意力卷积神经网络的医学图像分割方法
CN113706544A (zh) * 2021-08-19 2021-11-26 天津师范大学 一种基于完备注意力卷积神经网络的医学图像分割方法
CN113852858A (zh) * 2021-08-19 2021-12-28 阿里巴巴(中国)有限公司 视频处理方法及电子设备
CN114066908A (zh) * 2021-10-09 2022-02-18 山东师范大学 一种用于脑肿瘤图像分割的方法及系统
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN113902915A (zh) * 2021-10-12 2022-01-07 江苏大学 一种基于低光照复杂道路场景下的语义分割方法及系统
CN113989234A (zh) * 2021-10-28 2022-01-28 杭州中科睿鉴科技有限公司 基于多特征融合的图像篡改检测方法
CN113920378B (zh) * 2021-11-09 2023-10-20 西安交通大学 基于注意力机制的柴胡种子识别方法
CN114037833B (zh) * 2021-11-18 2024-03-19 桂林电子科技大学 一种苗族服饰图像语义分割方法
CN114037833A (zh) * 2021-11-18 2022-02-11 桂林电子科技大学 一种苗族服饰图像语义分割方法
CN114359554A (zh) * 2021-11-25 2022-04-15 河南农业大学 一种基于多感受野上下文语义信息的图像语义分割方法
CN114426069A (zh) * 2021-12-14 2022-05-03 哈尔滨理工大学 一种基于实时语义分割的室内救援车及图像语义分割方法
CN114426069B (zh) * 2021-12-14 2023-08-25 哈尔滨理工大学 一种基于实时语义分割的室内救援车及图像语义分割方法
CN114565655B (zh) * 2022-02-28 2024-02-02 上海应用技术大学 一种基于金字塔分割注意力的深度估计方法及装置
CN114565655A (zh) * 2022-02-28 2022-05-31 上海应用技术大学 一种基于金字塔分割注意力的深度估计方法及装置
CN114565860A (zh) * 2022-03-01 2022-05-31 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN114913325A (zh) * 2022-03-24 2022-08-16 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品
CN114913325B (zh) * 2022-03-24 2024-05-10 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品
CN114758178B (zh) * 2022-04-18 2024-04-05 江南大学 一种基于深度学习的轮毂实时分类及其气阀孔定位方法
CN114758178A (zh) * 2022-04-18 2022-07-15 江南大学 一种基于深度学习的轮毂实时分类及其气阀孔定位方法
CN115100409B (zh) * 2022-06-30 2024-04-26 温州大学 一种基于孪生网络的视频人像分割算法
CN115100409A (zh) * 2022-06-30 2022-09-23 温州大学 一种基于孪生网络的视频人像分割算法
CN115631452A (zh) * 2022-11-15 2023-01-20 中国科学院空天信息创新研究院 智能红外弱小目标检测方法、装置、电子设备及介质
CN115937113A (zh) * 2022-11-24 2023-04-07 脉得智能科技(无锡)有限公司 一种皮肤病超声图像多病种识别方法、设备及存储介质
CN115937113B (zh) * 2022-11-24 2024-01-30 脉得智能科技(无锡)有限公司 一种皮肤病超声图像多病种识别方法、设备及存储介质
CN115937533A (zh) * 2022-12-05 2023-04-07 中国科学院合肥物质科学研究院 一种基于语义分割的雾培番茄特征提取方法
CN115937533B (zh) * 2022-12-05 2023-08-25 中国科学院合肥物质科学研究院 一种基于语义分割的雾培番茄特征提取方法
CN116152890B (zh) * 2022-12-28 2024-01-26 北京融威众邦电子技术有限公司 一种医疗费用自助支付系统
CN116152890A (zh) * 2022-12-28 2023-05-23 北京融威众邦电子技术有限公司 一种医疗费用自助支付系统
CN116152504A (zh) * 2023-04-20 2023-05-23 杰创智能科技股份有限公司 图像分割方法、装置、电子设备及存储介质
CN116172580A (zh) * 2023-04-20 2023-05-30 华南理工大学 一种适用于多声源场景的听觉注意对象解码方法
CN116152504B (zh) * 2023-04-20 2024-04-09 杰创智能科技股份有限公司 图像分割方法、装置、电子设备及存储介质
CN116172580B (zh) * 2023-04-20 2023-08-22 华南理工大学 一种适用于多声源场景的听觉注意对象解码方法
CN116645505A (zh) * 2023-05-12 2023-08-25 中国地质大学(武汉) 基于多尺度和级联的神经网络遥感影像语义分割方法
CN116630626A (zh) * 2023-06-05 2023-08-22 吉林农业科技学院 连通双注意力多尺度融合语义分割网络
CN116630626B (zh) * 2023-06-05 2024-04-26 吉林农业科技学院 连通双注意力多尺度融合语义分割网络
CN116740362A (zh) * 2023-08-14 2023-09-12 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN116740362B (zh) * 2023-08-14 2023-11-21 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN117095136B (zh) * 2023-10-19 2024-03-29 中国科学技术大学 一种基于3d gan的多物体和多属性的图像重建和编辑方法
CN117095136A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 一种基于3d gan的多物体和多属性的图像重建和编辑方法
CN117237644A (zh) * 2023-11-10 2023-12-15 广东工业大学 基于红外小目标检测的森林余火检测方法及系统
CN117237644B (zh) * 2023-11-10 2024-02-13 广东工业大学 基于红外小目标检测的森林余火检测方法及系统
CN117522884A (zh) * 2024-01-05 2024-02-06 武汉理工大学三亚科教创新园 一种海洋遥感图像语义分割方法、装置及电子设备
CN117522884B (zh) * 2024-01-05 2024-05-17 武汉理工大学三亚科教创新园 一种海洋遥感图像语义分割方法、装置及电子设备
CN117593633A (zh) * 2024-01-19 2024-02-23 宁波海上鲜信息技术股份有限公司 面向海洋场景的图像识别方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN112287940A (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN110717851B (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN107123089B (zh) 基于深度卷积网络的遥感图像超分辨重建方法及系统
CN108717524B (zh) 一种基于双摄手机和人工智能系统的手势识别系统
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN112541459A (zh) 基于多尺度感知注意力网络的人群计数方法及系统
CN112288772B (zh) 基于在线多特征选择的通道注意力目标跟踪方法
CN112270366B (zh) 基于自适应多特征融合的微小目标检测方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN115457568B (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
CN113409355A (zh) 一种基于fpga的运动目标识别系统及方法
CN113297956A (zh) 一种基于视觉的手势识别方法及系统
CN115482529A (zh) 近景色水果图像识别方法、设备、存储介质及装置
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN108764287A (zh) 基于深度学习和分组卷积的目标检测方法及系统
CN112668675A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN116758415A (zh) 一种基于二维离散小波变换的轻量化害虫识别方法
CN115423982B (zh) 基于图像和深度的桌面冰壶三维检测方法
CN111127355A (zh) 一种对缺损光流图进行精细补全的方法及其应用
CN111489361B (zh) 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240206

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 19

Applicant before: XI'AN POLYTECHNIC University

Country or region before: China

TA01 Transfer of patent application right