CN116681978A - 一种基于注意力机制和多尺度特征融合的显著性目标检测方法 - Google Patents

一种基于注意力机制和多尺度特征融合的显著性目标检测方法 Download PDF

Info

Publication number
CN116681978A
CN116681978A CN202310667710.9A CN202310667710A CN116681978A CN 116681978 A CN116681978 A CN 116681978A CN 202310667710 A CN202310667710 A CN 202310667710A CN 116681978 A CN116681978 A CN 116681978A
Authority
CN
China
Prior art keywords
attention
saliency
feature
target detection
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310667710.9A
Other languages
English (en)
Inventor
张雷洪
沈自敏
方舒
徐润初
李阳俊
张怡强
杨麾
刘凯
王凯民
徐邦联
张大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202310667710.9A priority Critical patent/CN116681978A/zh
Publication of CN116681978A publication Critical patent/CN116681978A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制和多尺度特征融合的显著性目标检测方法,包括:S1、进行数据预处理,构建深度学习模型训练及测试所需的数据集及标签;S2、构建基于注意力机制和多尺度特征融合的显著性目标检测网络;S3、将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练,得到显著性目标检测模型;S4、随机挑选图片输入到该模型中,得到检测结果。根据本发明,有效的提取到显著性区域的特征,有效地过滤冗余特征。

Description

一种基于注意力机制和多尺度特征融合的显著性目标检测 方法
技术领域
本发明涉及图像处理的技术领域,特别涉及一种基于注意力机制和多尺度特征融合的显著性目标检测方法。
背景技术
显著性目标旨在获取到图像中在视觉上最具有吸引力的物体,作为很多计算机视觉任务的预处理步骤而广受关注成为计算机视觉不可或缺的一部分。例如弱监督语义分割,视觉追踪,图像检索,视频分割,内容感知图像裁剪和编辑等下游任务中都应用到了显著性目标检测。现在很多的显著性目标检测网络中对于显著性区域的关注不足,并且提取到的特征冗余较多,影响了检测的准确性。
发明内容
针对现有技术中存在的不足之处,本发明的目的是提供一种基于注意力机制和多尺度特征融合的显著性目标检测方法,有效的提取到显著性区域的特征,有效地过滤冗余特征。为了实现根据本发明的上述目的和其他优点,提供了一种基于注意力机制和多尺度特征融合的显著性目标检测方法,包括:
S1、进行数据预处理,构建深度学习模型训练及测试所需的数据集及标签;
S2、构建基于注意力机制和多尺度特征融合的显著性目标检测网络;
S3、将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练,得到显著性目标检测模型;
S4、随机挑选图片输入到该模型中,得到检测结果。
优选的,步骤S2中显著性目标检测网络的构建包括构建特征提取模块,将输入的原始图像经过卷积,再将卷积后的输出进行归一化,将归一化后的结果进行线性修正得到维度为C×H×W的特征图;
构建通道注意力模块;
建基于注意力机制的编码器和解码器,编码器和解码器的结构相同;
构建基于注意力门控机制的U型结构,分别构建深度为7、6、5、4及3层的基于注意力机制的编码器和解码器。
优选的,将图像经过卷积处理后提取的维度为C×H×W的特征图命名为A,构建通道注意力模块包括以下步骤将A分别重塑成两个C×N(N=H×W)维的矩阵,用B、C表示,D与A相同,对D进行重塑加转置成N×C维矩阵,命名为D';
C与D'矩阵相乘,后跟一个softmax函数,得到一个C×C维的矩阵X,X的生成公式为:其中,xji是衡量第i个通道对第j个通道的影响;
X再与B相乘得到一个C×N维的矩阵,再把该矩阵重塑成C×H×W维的矩阵;
矩阵与原特征图A进行每个元素对应相加操作,得到一个新的加上通道注意力权重的特征图,每个通道的最终特征是所有通道特征与原始特征的加权和。
优选的,构建基于注意力门控机制的U型结构包括将7,6,5,4,3层的编码器按照自顶向下的通路排列中间通过下采样进行链接,将3,4,5,6,7层的解码器按照自底向上的通路排列;通过3层的编码器将两个通路连接起来;每一个解码器的输入是经过注意力门控机制进行过滤冗余特征的特征以及上一层经过上采样后的特征,注意力门控机制接收上一层输出的特征以及对应层数编码器输出的特征。
优选的,U型结构中包含了不同深度的编码器和解码器,对应不同尺度的特征信息,将每一层的编码器的输出进行卷积再进行双线性插值便得到了每一层的显著性图,U型结构共有6层所以得到了六张不同的显著性图,对这6张显著性图进行融合,便得到了最终的结果。
优选的,步骤S1中下载显著性目标检测领域的公开数据集DUTS-TR数据集,其中DUTS-TR数据集包括10553张png格式的图像和图像对应的jpg格式显著性图,将png格式的图像当作数据,将jpg格式的显著性图当作标签;对这些图片进行水平翻转等操作进行数据增强,将该数据集扩充到21106张,将21106张图像以及对应的显著性图作为训练数据集。
本发明与现有技术相比,其有益效果是:通过编码器和解码器结构,该模块自适应的分配通道信息的权重,使特征更集中于显著性区域。基于注意力门控机制的U型结构,可以有效地过滤冗余特征。
附图说明
图1为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的流程图;
图2为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的构建的训练数据集图;
图3为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的通道注意力机制图;
图4为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的基于注意力机制的编码器和解码器结构图;
图5为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的注意力门控机制图;
图6为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的于注意力门控机制的U型结构图。
图7为根据本发明的基于注意力机制和多尺度特征融合的显著性目标检测方法的检测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-7,一种基于注意力机制和多尺度特征融合的显著性目标检测方法,包括:步骤1,下载显著性目标检测领域的公开数据集DUTS-TR数据集,其中DUTS-TR数据集包括10553张png格式的图像和图像对应的jpg格式显著性图,将png格式的图像当作数据,将jpg格式的显著性图当作标签;对这些图片进行水平翻转等操作进行数据增强,将该数据集扩充到21106张;将这21106张图像以及对应的显著性图作为训练数据和标签输入S2构建的显著性目标检测网络中进行训练。
步骤2,构建基于注意力机制的编码器和基于注意力机制的解码器,首先构建特征提取模块,将输入的原始图像经过卷积,再将卷积后的输出进行归一化,将归一化后的结果进行线性修正得到维度为C×H×W的特征图;其次构建通道注意力模块,将图像经过卷积处理后提取的维度为C×H×W的特征图命名为A。第一步:将A分别重塑成两个C×N(N=H×W)维的矩阵,我们用B、C表示。另外D与A相同,对D进行重塑加转置成N×C维矩阵,命名为D'。总体如图2所示。第二步:C与D'矩阵相乘,后跟一个softmax函数,得到一个C×C维的矩阵X。其中X的生成公式为:其中,xji是衡量第i个通道对第j个通道的影响。第三步:X再与B相乘得到一个C×N维的矩阵,再把该矩阵重塑成C×H×W维的矩阵。第四步:最后把第三步中得到的矩阵与原特征图A进行每个元素对应相加操作,得到一个新的加上通道注意力权重的特征图,即E,其中E的生成公式为:/>这样每个通道的最终特征是所有通道特征与原始特征的加权和;最后构建基于注意力机制的编码器和解码器,编码器和解码器的结构相同,只是在网络结构中的功能不同,输入的原始图像进行多次特征提取和下采样后进行特征融合,特征融合模块的输入分别是上一阶段的特征以及对应尺度的特征提取输出的特征,经特征融合模块处理后再次输入特征提取模块,从特征提取模块输出后再进入通道注意力模块,最后进行上采样,重复该过程直至特征维度与输入是的特征维度相同,构建不同深度的该模块即改变重复进行特征提取和下采样的次数,因为不同的深度导致感受野不同,也便可以提取到不同尺度的特征信息。
步骤3,构建基于注意力门控机制的U型结构,分别构建深度为7,6,5,4,3层的基于注意力机制的编码器和解码器,将7,6,5,4,3层的编码器按照自顶向下的通路排列中间通过下采样进行链接,将3,4,5,6,7层的解码器按照自底向上的通路排列;通过3层的编码器将两个通路连接起来;每一个解码器的输入是经过注意力门控机制进行过滤冗余特征的特征以及上一层经过上采样后的特征;注意力门控机制接收上一层输出的特征以及对应层数编码器输出的特征;其中注意力门控机制的工作原理是:首先将编码器部分对应的输出进行卷积得到A;然后将来自于上一层的输出进行卷积得到B;将A、B相加得到C,相加是为了突出特征,如果在两个图中某个点两者都有,加起来,会更为突出;对C进行线性修正得到D;对D做卷积,降维到1通道得到E;对E进行sigmoid,使得值落在0-1区间,值越大,越是重点。得到的就是注意力权重最后和上一层的输出相乘,经过这一系列操作,可以达到抑制输入图像中的不相关区域,同时突出特定局部区域的显著特征的效果。
步骤4,构建的基于注意力门控机制的U型结构,因为U型结构中包含了不同深度的编码器和解码器,对应不同尺度的特征信息,将每一层的编码器的输出进行卷积再进行双线性插值便得到了每一层的显著性图,因为U型结构共有6层所以得到了六张不同的显著性图,对这6张显著性图进行融合,便得到了最终的结果。
步骤5,将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练,得到显著性目标检测模型,随机挑选图片输入到该模型中,得到检测结果。
这里说明的设备数量和处理规模是用来简化本发明的说明的,对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (6)

1.一种基于注意力机制和多尺度特征融合的显著性目标检测方法,其特征在于,包括以下步骤:
S1、进行数据预处理,构建深度学习模型训练及测试所需的数据集及标签;
S2、构建基于注意力机制和多尺度特征融合的显著性目标检测网络;
S3、将S1中的训练数据集输入到S2中构建的显著性目标检测网络中进行训练,得到显著性目标检测模型;
S4、随机挑选图片输入到该模型中,得到检测结果。
2.如权利要求1所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法,其特征在于,步骤S2中显著性目标检测网络的构建包括构建特征提取模块,将输入的原始图像经过卷积,再将卷积后的输出进行归一化,将归一化后的结果进行线性修正得到维度为C×H×W的特征图;
构建通道注意力模块;
建基于注意力机制的编码器和解码器,编码器和解码器的结构相同;
构建基于注意力门控机制的U型结构,分别构建深度为7、6、5、4及3层的基于注意力机制的编码器和解码器。
3.如权利要求2所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法,其特征在于,将图像经过卷积处理后提取的维度为C×H×W的特征图命名为A,构建通道注意力模块包括以下步骤将A分别重塑成两个C×N(N=H×W)维的矩阵,用B、C表示,D与A相同,对D进行重塑加转置成N×C维矩阵,命名为D';
C与D'矩阵相乘,后跟一个softmax函数,得到一个C×C维的矩阵X,X的生成公式为:其中,xji是衡量第i个通道对第j个通道的影响;
X再与B相乘得到一个C×N维的矩阵,再把该矩阵重塑成C×H×W维的矩阵;
矩阵与原特征图A进行每个元素对应相加操作,得到一个新的加上通道注意力权重的特征图,每个通道的最终特征是所有通道特征与原始特征的加权和。
4.如权利要求3所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法,其特征在于,构建基于注意力门控机制的U型结构包括将7,6,5,4,3层的编码器按照自顶向下的通路排列中间通过下采样进行链接,将3,4,5,6,7层的解码器按照自底向上的通路排列;通过3层的编码器将两个通路连接起来;每一个解码器的输入是经过注意力门控机制进行过滤冗余特征的特征以及上一层经过上采样后的特征,注意力门控机制接收上一层输出的特征以及对应层数编码器输出的特征。
5.如权利要求4所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法,其特征在于,U型结构中包含了不同深度的编码器和解码器,对应不同尺度的特征信息,将每一层的编码器的输出进行卷积再进行双线性插值便得到了每一层的显著性图,U型结构共有6层所以得到了六张不同的显著性图,对这6张显著性图进行融合,便得到了最终的结果。
6.如权利要求1所述的一种基于注意力机制和多尺度特征融合的显著性目标检测方法,其特征在于,步骤S1中下载显著性目标检测领域的公开数据集DUTS-TR数据集,其中DUTS-TR数据集包括10553张png格式的图像和图像对应的jpg格式显著性图,将png格式的图像当作数据,将jpg格式的显著性图当作标签;对这些图片进行水平翻转等操作进行数据增强,将该数据集扩充到21106张,将21106张图像以及对应的显著性图作为训练数据集。
CN202310667710.9A 2023-06-07 2023-06-07 一种基于注意力机制和多尺度特征融合的显著性目标检测方法 Pending CN116681978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310667710.9A CN116681978A (zh) 2023-06-07 2023-06-07 一种基于注意力机制和多尺度特征融合的显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310667710.9A CN116681978A (zh) 2023-06-07 2023-06-07 一种基于注意力机制和多尺度特征融合的显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN116681978A true CN116681978A (zh) 2023-09-01

Family

ID=87790419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310667710.9A Pending CN116681978A (zh) 2023-06-07 2023-06-07 一种基于注意力机制和多尺度特征融合的显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN116681978A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351374A (zh) * 2023-12-05 2024-01-05 山东大学 一种遥感图像显著性目标检测方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351374A (zh) * 2023-12-05 2024-01-05 山东大学 一种遥感图像显著性目标检测方法、系统、设备及介质
CN117351374B (zh) * 2023-12-05 2024-03-08 山东大学 一种遥感图像显著性目标检测方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN111242037A (zh) 基于结构信息的车道线检测方法
CN112132844A (zh) 基于轻量级的递归式非局部自注意力的图像分割方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN115082675B (zh) 一种透明物体图像分割方法及系统
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN111914654A (zh) 一种文本版面分析方法、装置、设备和介质
CN117058160B (zh) 基于自适应特征融合网络的三维医学图像分割方法及系统
CN111667401B (zh) 多层次渐变图像风格迁移方法及系统
CN116681978A (zh) 一种基于注意力机制和多尺度特征融合的显著性目标检测方法
CN114241218A (zh) 一种基于逐级注意力机制的目标显著性检测方法
CN117095277A (zh) 一种边缘引导的多注意力rgbd水下显著目标检测方法
CN114119627B (zh) 基于深度学习的高温合金微观组织图像分割方法及装置
CN117726954B (zh) 一种遥感图像海陆分割方法及系统
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN111428809B (zh) 基于空间信息融合与卷积神经网络的人群计数方法
CN116704367A (zh) 一种多尺度特征融合耕地变化检测方法及系统
CN114549958A (zh) 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114299091A (zh) 一种基于DA-Net的杂草自动分割方法
CN111539922A (zh) 基于多任务网络的单目深度估计与表面法向量估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination