CN113095330A - 一种用于语义分割像素组的压缩注意力模型 - Google Patents

一种用于语义分割像素组的压缩注意力模型 Download PDF

Info

Publication number
CN113095330A
CN113095330A CN202110482353.XA CN202110482353A CN113095330A CN 113095330 A CN113095330 A CN 113095330A CN 202110482353 A CN202110482353 A CN 202110482353A CN 113095330 A CN113095330 A CN 113095330A
Authority
CN
China
Prior art keywords
attention
pixel
compressed
attn
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110482353.XA
Other languages
English (en)
Inventor
叶松发
齐向明
王晓龙
刘强
严萍萍
李健林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202110482353.XA priority Critical patent/CN113095330A/zh
Publication of CN113095330A publication Critical patent/CN113095330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种用于语义分割像素组的压缩注意力模型,该模型利用有效的压缩注意力(SA)模块来解决语义分割中像素组的两个独特特征:(1)像素组注意力和(2)逐像素预测。具体而言,提出的SA模型通过引入“注意力”卷积通道将像素组注意力强加于常规卷积上,从而以有效的方式考虑了空间通道的相互依赖性。与现有的注意力模型不同,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型(SA)。因此,SA模型增强了像素级密集预测的目标,并考虑了被忽略的像素组注意力的问题。本发明相较于其他方法都有显著提高,在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。

Description

一种用于语义分割像素组的压缩注意力模型
技术领域
本发明属于语义分割的技术领域,尤其涉及一种用于语义分割像素组的压缩注意力模型。
背景技术
卷积网络(FCN)是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。采用反卷积层对最后一个卷积层的feature map进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。但主要主要集中于从像素级别提高分割性能,但很大程度上忽略了像素分组的隐式任务。
多尺度空间非对称重新校准(MS-SAR),证明了不完全压缩的模块对于图像分类是有效的,且边际计算成本较高。由于空间非对称重新校准(SAR)模块生成的权重是矢量,因此它们不能直接用于分割。
发明内容
为了克服现有技术中的不足,本发明所解决的技术问题在于提供一种用于语义分割像素组的压缩注意力模型,解决在于考虑被忽略的像素组注意力的问题。
为了解决上述技术问题,本发明通过以下技术方案来实现:本发明提供一种用于语义分割像素组的压缩注意力模型,通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能;
首先以残差网络作为基础的残差块;
通过重新校准特征图通道;
采用重新加权机制对通道进行加权,并且对未完全压缩的空间信息进行解析。
优选的,对未完全压缩的空间信息进行解析表示如下:
xout=xattn*xres+xattn
Figure BDA0003049742950000021
和Up(·)用于扩展关注通道输出的上采样函数;
Figure BDA0003049742950000022
其中
Figure BDA0003049742950000023
表示注意力卷积通道Fattn(·)的输出,该输出由θattn和注意力卷积层的结构ψattn进行参数化;平均池化层APool(·)用于执行未完全压缩的操作,然后对注意力通道
Figure BDA0003049742950000024
的输出进行上采样,以匹配主卷积通道xres的输出。
进一步的,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型。
由上,本发明针对于语义分割像素组的问题,提出了一种新颖的压缩注意力模型,可以处理单个像素的多尺度密集预测,又可以处理像素组的空间注意,具有以下优点:
1、增强了像素级密集预测。
2、解决了大部分被忽略的像素组注意问题。
3、达到更好的语义分割效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的用于语义分割像素组的压缩注意力模型的结构图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
如图1所示,本发明的用于语义分割像素组的压缩注意力模型包括:
以通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能。
SA模型首先以残差网络(ResNets)作为基础的残差块,传统的残基表示如(1):
Figure BDA0003049742950000031
F(·)表示残差函数,用θ,
Figure BDA0003049742950000032
表示卷积层结构,xout∈RC×H×W和xin∈RC′×H′×W′是特征图的输出与输入。
SA模块通过重新校准特征图通道,得到表达式如(2):
Figure BDA0003049742950000033
其中w为校准权重。
SA采用重新加权机制对通道进行加权,并且对未完全压缩的空间信息进行解析。提出一个简单的压缩注意模型如图1所示,可以将其表达如(3)、(4):
xout=xattn*xres+xattn (3)
Figure BDA0003049742950000034
和Up(·)是用于扩展关注通道输出的上采样函数。
Figure BDA0003049742950000041
其中
Figure BDA0003049742950000042
表示注意力卷积通道Fattn(·)的输出,该输出由θattn和注意力卷积层的结构ψattn进行参数化。平均池化层APool(·)用于执行未完全压缩的操作,然后对注意力通道
Figure BDA0003049742950000043
的输出进行上采样,以匹配主卷积通道xres的输出。
这样,SA模型保留了的为压缩的空间信息,同时注意力通道的上采样输出x在主要通道上收集了非局部提取的特征。
本发明实验选在处理器i7-8700k、8GB内存、2个GPU、NVIDIA GeForce GTX1080Ti8GB显卡、windows操作系统上,通过PyTorch深度学习框架实现。
数据集方面:Pascal数据集包含59个类别,共10103张图片。其中4998张为训练集,2505张为验证集,2600张为测试集。从该数据集的实验中可以得到具体定量分析的结果。其中PAcc为像素级精度,mIoU为图像像素每个类累加后的平均值。
表1在Pascal数据集上定量分析对比FCN50、FCN101和SA
Figure BDA0003049742950000044
从上表可见,在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。SA模型增强了像素级密集预测的目标,并解决了被忽略的像素组注意力的问题。
本发明的模型利用有效的压缩注意力(SA)模块来解决语义分割中像素组的两个独特特征:(1)像素组注意力和(2)逐像素预测。具体而言,提出的SA模型通过引入“注意力”卷积通道将像素组注意力强加于常规卷积上,从而以有效的方式考虑了空间通道的相互依赖性。与现有的注意力模型不同,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型(SA)。因此,SA模型增强了像素级密集预测的目标,并考虑了被忽略的像素组注意力的问题。本发明相较于其他方法都有显著提高,在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

Claims (3)

1.一种用于语义分割像素组的压缩注意力模型,其特征在于,通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能;
首先以残差网络作为基础的残差块;
通过重新校准特征图通道;
采用重新加权机制对通道进行加权,并且对未完全压缩的空间信息进行解析。
2.如权利要求1所述的用于语义分割像素组的压缩注意力模型,其特征在于,对未完全压缩的空间信息进行解析表示如下:
xout=xattn*xreS+xattn
Figure FDA0003049742940000011
和Up(·)用于扩展关注通道输出的上采样函数;
Figure FDA0003049742940000012
其中
Figure FDA0003049742940000013
表示注意力卷积通道Fattn(·)的输出,该输出由θattn和注意力卷积层的结构ψattn进行参数化;平均池化层APool(·)用于执行未完全压缩的操作,然后对注意力通道
Figure FDA0003049742940000014
的输出进行上采样,以匹配主卷积通道xres的输出。
3.如权利要求2所述的用于语义分割像素组的压缩注意力模型,其特征在于,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型。
CN202110482353.XA 2021-04-30 2021-04-30 一种用于语义分割像素组的压缩注意力模型 Pending CN113095330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110482353.XA CN113095330A (zh) 2021-04-30 2021-04-30 一种用于语义分割像素组的压缩注意力模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110482353.XA CN113095330A (zh) 2021-04-30 2021-04-30 一种用于语义分割像素组的压缩注意力模型

Publications (1)

Publication Number Publication Date
CN113095330A true CN113095330A (zh) 2021-07-09

Family

ID=76681053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110482353.XA Pending CN113095330A (zh) 2021-04-30 2021-04-30 一种用于语义分割像素组的压缩注意力模型

Country Status (1)

Country Link
CN (1) CN113095330A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106412559A (zh) * 2016-09-21 2017-02-15 北京物语科技有限公司 全视觉摄像技术
CN110569851A (zh) * 2019-08-28 2019-12-13 广西师范大学 门控多层融合的实时语义分割方法
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112580782A (zh) * 2020-12-14 2021-03-30 华东理工大学 基于通道增强的双注意力生成对抗网络及图像生成方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106412559A (zh) * 2016-09-21 2017-02-15 北京物语科技有限公司 全视觉摄像技术
CN110569851A (zh) * 2019-08-28 2019-12-13 广西师范大学 门控多层融合的实时语义分割方法
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112580782A (zh) * 2020-12-14 2021-03-30 华东理工大学 基于通道增强的双注意力生成对抗网络及图像生成方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高丹;陈建英;谢盈;: "A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型", 《中国电子科学研究院学报》, vol. 15, no. 6, pages 518 - 523 *

Similar Documents

Publication Publication Date Title
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
CN111127374B (zh) 一种基于多尺度密集网络的Pan-sharpening方法
CN109726657B (zh) 一种深度学习场景文本序列识别方法
CN111898439B (zh) 基于深度学习的交通场景联合目标检测和语义分割方法
US11538244B2 (en) Extraction of spatial-temporal feature representation
CN112488229B (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN111461039A (zh) 基于多尺度特征融合的地标识别方法
CN111951164A (zh) 一种图像超分辨率重建网络结构及图像重建效果分析方法
CN110599455A (zh) 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114596566A (zh) 文本识别方法及相关装置
CN115601820A (zh) 一种人脸伪造图像检测方法、装置、终端及存储介质
CN115908833A (zh) 一种基于改进YOLOv3的轻量级垃圾检测方法
CN114494701A (zh) 一种基于图结构神经网络的语义分割方法及装置
CN115661578A (zh) 一种工业缺陷图像生成方法
CN114626984A (zh) 中文文本图像的超分辨率重建方法
CN113569687B (zh) 基于双流网络的场景分类方法、系统、设备及介质
CN113505640A (zh) 一种基于多尺度特征融合的小尺度行人检测方法
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN111339950A (zh) 一种遥感图像目标检测方法
CN101511020B (zh) 一种基于稀疏分解的图像压缩方法
CN113095330A (zh) 一种用于语义分割像素组的压缩注意力模型
CN113256528B (zh) 基于多尺度级联深度残差网络的低照度视频增强方法
CN116363361A (zh) 基于实时语义分割网络的自动驾驶方法
CN113920127B (zh) 一种训练数据集独立的单样本图像分割方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination