CN112241765B - 一种基于多尺度卷积和注意力机制的图像分类模型及方法 - Google Patents

一种基于多尺度卷积和注意力机制的图像分类模型及方法 Download PDF

Info

Publication number
CN112241765B
CN112241765B CN202011154873.XA CN202011154873A CN112241765B CN 112241765 B CN112241765 B CN 112241765B CN 202011154873 A CN202011154873 A CN 202011154873A CN 112241765 B CN112241765 B CN 112241765B
Authority
CN
China
Prior art keywords
feature map
convolution
feature
width
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011154873.XA
Other languages
English (en)
Other versions
CN112241765A (zh
Inventor
于桐
吴文瑾
李新武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Zhongke Remote Sensing Research Institute
Original Assignee
Sanya Zhongke Remote Sensing Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Zhongke Remote Sensing Research Institute filed Critical Sanya Zhongke Remote Sensing Research Institute
Priority to CN202011154873.XA priority Critical patent/CN112241765B/zh
Publication of CN112241765A publication Critical patent/CN112241765A/zh
Application granted granted Critical
Publication of CN112241765B publication Critical patent/CN112241765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于多尺度卷积和注意力机制的图像分类模型及方法。该模型包括:预处理层,依次连接的M个编码器,注意力模块,解码器,预测层。待分类的图像经过预处理层处理后输出到编码器。对于M个编码器中的任意的第i个编码器,对接收的特征图进行多尺度卷积提取特征,扩大网络感受野。注意力模块用于对提取的特征进行波段注意力和空间注意力的优化,突出重点特征与细节特征。解码器对优化后的特征进行上采样,逐步还原图像尺寸,最终经过预测层预测,得到像素级分类结果。如此,本发明可以在快速高效获得分类结果的同时获得高精度的验证结果,可以促进图像信息提取领域相关技术的发展。

Description

一种基于多尺度卷积和注意力机制的图像分类模型及方法
技术领域
本申请涉及遥感图像分类领域,更具体的,涉及一种基于多尺度卷积和注意力机制的图像分类方法。
背景技术
遥感影像分类是通过对遥感影像光谱、纹理等特征进行分析并判断影像各个像素级所属类别的技术。传统的分类方法单一地依靠地物的光谱特征,并未充分挖掘影像数据特征,分类的鲁棒性较差。相较于传统算法,深度学习模型的卷积神经网络能很好地应用于影像分类任务中,但在浅层特征提取、特征优化与还原方面还有待提高。
通过深度学习相关方法研究各类自然保护区地表覆盖的技术方法很少,因此基于遥感数据将深度学习技术扩展到各种自然保护区遥感监测领域十分有必要。
使用相应方法到保护区监测中遇到三个问题:自然保护区相应的公开数据集很少,需人工构建数据集;保护区地表覆盖类别严重不平衡导致构建的数据集也会出现样本不平衡情况;不同类别保护区(如森林生态、海洋海岸等)地表差异较大。已有的一些分类方法不能很好的解决这些问题,因此,需要一种新的特征提取与还原能力更强的分类方法。
发明内容
本申请的目的是为了解决现有技术中存在的问题,可以在快速高效获得分类结果的同时获得高精度的验证结果,可以促进图像信息提取领域相关技术的发展。
一方面,本申请提供了一种基于多尺度卷积和注意力机制的图像分类模型,包括:预处理层,依次连接的M个编码器,注意力模块,解码器,预测层;其中:
所述预处理层,用于接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
对于所述M个编码器中的任意的第i个编码器,用于接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
所述注意力模块,用于针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
所述解码器,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;
所述预测层,用于根据待预测特征图,预测所述目标图片的分类。
优选地,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;其中:
所述卷积模块,用于根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i-1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
所述特征提取模块,用于:
根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
优选地,所述解码器包括:叠加层,上采样层和卷积层;其中:
所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;
所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;
所述卷积层,用于对第(M-i+1)个第二十一特征图进行卷积处理,得到第(M-i+1)个第三特征图。
另一方面,本申请提供了一种利用基于多尺度卷积和注意力机制的图像分类方法,所述方法包括:
利用预处理层,接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
利用M个编码器中的任意第i个编码器接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
利用注意力模块,针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
利用解码器,对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;
利用预测层,根据待预测特征图,预测所述目标图片的分类。
优选地,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;所述方法还包括:
利用卷积模块,根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i-1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
利用特征提取模块,根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
优选地,所述解码器包括叠加层,上采样层和卷积层;所述方法还包括:
利用所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;
利用所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;
利用所述卷积层,用于对第(M-i+1)个第二十一特征图进行卷积处理,得到第(M-i+1)个第三特征图。
本申请将深度神经网络技术应用到保护区遥感监测中,提出基于多尺度卷积和注意力机制的自然保护区遥感图像分类模型。该模型总体结构为编-解码器的卷积神经网络。编码器在残差网络模型基础上加入多尺度卷积提取特征,扩大网络感受野,使网络可提取地物不同尺度的特征,各阶段特征经过通过空间注意力和波段注意力串联的注意力模块进行优化后输入解码器,突出其重点特征和细节信息,并抑制其他无用信息。解码器通过双线性插值与卷积层构成上采样模块,逐步还原图像尺寸及信息,最终得到像素级分类结果。
附图说明
图1为本申请实施例中提供的一种基于多尺度卷积和注意力机制的图像分类模型示意图;
图2为本申请实施例中提供的一种利用基于多尺度卷积和注意力机制进行图像分类过程的示意图;
图3为本申请实施例中编码器中卷积模块示意图;
图4为本申请实施例中编码器中特征提取模块示意图;
图5为本申请实施例中波段注意力模块示意图;
图6为本申请实施例中空间注意力模块示意图;
图7为本申请实施例中解码器示意图;
具体实施方式
下面结合附图和实施例,对本发明所提供的技术方案做进一步的详细描述。
图1是本申请实施例中提供的一种基于多尺度卷积和注意力机制的图像分类模型示意图。如图1所示,该图像分类模型可以包括预处理层101,依次连接的M个编码器102,注意力模块103,解码器104,以及预测层105。其中,预处理层101用于接收目标图片,对目标图片进行预处理,以得到第一特征图,将得到的第一特征图输出。
依次连接的M个编码器102,用于对接收的目标特征图进行编码处理。其中,与预处理层101相连接的第一个编码器用于接收第一特征图,对第一特征图编码,得到并输出第一个第二特征图。对于之后的任意第i个编码器102,都用于接收其之前的第i-1个编码器102所输出的第i-1个第二特征图。对第i-1个第二特征图进行编码处理,得到并输出第i个第二特征图。M为大于0的整数,i大于0且不大于M。
注意力模块103用于对每一个第二特征图进行处理,以得到每一个第二特征图所对应的优化后的注意力特征。
解码器104,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;当i=M时,即编码器102为依次连接的M个编码器102中的最后一个编码器,此时,解码器104接收的只有其对应的第M个第二特征图,没有第三特征图。对第M个第三特征图进行解码操作,得到待预测特征图。
预测层105,对待预测特征图进行预测,得到目标图片的分类。
图2是本申请实施例中依照图像分类模型进行图像分类的过程示意图。示例性的,本申请实施例中的依次连接的M个编码器,M值取4。如图2所示,可以按照如下过程进行图像分类:
首先,预处理层对目标图片进行预处理,具体过程为:对待分类的目标图片进行0填充(ZeroPadding),然后对进行过0填充的目标图片进行2D卷积(Conv2D)处理,对进行过2D卷积处理的图片进行最大池化处理(MaxPooling),得到第一特征图,并向第一个编码器输出第一特征图。
编码器,包括卷积模块和特征提取模块。图3为本申请实施例中编码器中卷积模块示意图,图4为本申请实施例中编码器中特征提取模块示意图。
如图3所示,卷积模块为一个改进的残差模块。卷积模块接收目标特征图,根据长度和宽度均为1的卷积核,对接收的目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i-1的第十四特征图;根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;将第十四特征图和第十五特征图相加,得到并输出第十六特征图。将一个标准残差模块中的原有3*3卷积核更改为1*1,3*3,5*5,7*7四种卷积核,可以对目标进行多尺度卷积,扩大特征提取的感受野。
如图4所示,特征提取模块为一个残差模块,根据长度和宽度均为1、的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;根据长度和宽度均为3、的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;根据长度和宽度均为1、的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
本实施例中,第一个编码器,利用接收到的第一特征图,按照图3所示,得到并输出第一个第十六特征图。第一个第十六特征图,经过2次特征提取模块处理,得到并输出第一个第二特征图。
第二个编码器,利用接收到的接收第一个编码器输出的第一个第二特征图,按照图3所示,得到并输出第二个第十六特征图。第二个第十六特征图,经过3次特征提取模块处理,得到并输出第二个第二特征图。
第三个编码器,利用接收到的第二个编码器输出的第二个第二特征图,按照图3所示,得到并输出第三个第十六特征图。第三个第十六特征图,经过5次特征提取模块处理,得到并输出第三个第二特征图。
第四个编码器,利用接收到的第三个编码器输出的第三个第二特征图,按照图3所示,得到并输出第四个第十六特征图。第四个第十六特征图,经过2次特征提取模块处理,得到并输出第四个第二特征图。
注意力模块(attention_block),由串联的波段注意力模块和空间注意力模块组成。图5为本申请实施例中波段注意力模块示意图;图6为本申请实施例中空间注意力模块示意图。
如图5所示,波段注意力模块用于针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化(Max)和均值池化(Avg),分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层(Dense)后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和(Add),得到第八特征图;将第八特征图与所述当前特征图相乘,得到并输出优化后的波段注意力特征。
如图6所示,空间注意力模块对接收的波段注意力特征进行波段维最大池化(Max)和均值池化(Avg),得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接(Concatenate)第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积(Conv2D)处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征。
此优化可以突出图像的重点特征和细节信息。
图7为本申请实施例中解码器示意图。如图7所示,解码器包括:叠加层,上采样层和卷积层。
叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;对于M=i时,其接收的只有最后一个编码器对应的注意力特征,没有第三特征图,此时的第一个叠加特征图直接为第M个第二特征图所对应的注意力特征。对于i=0时,接收的直接为第M个第三特征图,没有注意力特征。
上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;
卷积层,用于对第(M-i+1)个第二十一特征图,用长度和宽度均为3的卷积核进行卷积处理,得到第(M-i+1)个第三特征图。
本实施例中,解码器首先接收经过注意力模块处理的第四个第二特征图得到的对应注意力特征,此时M=i,第一个叠加特征图直接为注意力特征。对第一个叠加特征图进行上采样,得到并输出第一个第二十一特征图。对第一个第二十一特征图进行卷积处理,得到并输出第一个第三特征图。
接着,解码器接收经过注意力模块处理的第三个第二特征图得到的对应注意力特征,和第一个第三特征图。按照图7所示,将接收的注意力特征和第一个第三特征图相叠加,得到并输出第二个叠加特征图。对第二个叠加特征图进行上采样,得到并输出第二个第二十一特征图。对第二个第二十一特征图进行卷积处理,得到并输出第二个第三特征图。
接着,解码器接收经过注意力模块处理的第二个第二特征图得到的对应注意力特征,和第二个第三特征图。按照图7所示,将接收的注意力特征和第二个第三特征图相叠加,得到并输出第三个叠加特征图。对第三个叠加特征图进行上采样,得到并输出第三个第二十一特征图。对第三个第二十一特征图进行卷积处理,得到并输出第三个第三特征图。
接着,解码器接收经过注意力模块处理的第一个第二特征图得到的对应注意力特征,和第三个第三特征图。按照图7所示,将接收的注意力特征和第三个第三特征图相叠加,得到并输出第四个叠加特征图。对第四个叠加特征图进行上采样,得到并输出第四个第二十一特征图。对第四个第二十一特征图进行卷积处理,得到并输出第四个第三特征图。
最后,解码器只接收第四个第三特征图。对第四个第三特征图进行上采样,得到并输出第五个第二十一特征图。对第五个第二十一特征图进行卷积处理,得到并输出待预测特征图。
预测层,根据待预测特征图,预测目标图片的分类。
对于本模型的适用性测试,本申请自主构建了海南数据集,并分别对自主构建的海南数据集和公开数据集分别进行了性能测试。
对于海南数据集,经过数据增强处理,数据集共包含750张256*256的影像,有6个语义类别。将数据集按4:1的比例随机的划分为训练集和验证集。利用本申请提出的网络对数据集内两组影像进行预测,对验证集整体进行精度评价并和已有的经典语义分割网络进行对比,精度指标如下表1所示。
表1海南数据集验证集精度
对于公开数据集,经过数据增强处理,数据集共包含16448张256*256影像,有17个语义类别。将数据集按4:1的比例随机的划分为训练集和验证集。利用本申请提出的网络对数据集内两组影像进行预测,对验证集整体进行精度评价并和已有的经典语义分割网络进行对比,精度指标如下表2所示。
表2公开数据集验证集精度
从表1和表2的数据中明显可知,使用本申请的网络模型,较传统方法可以获得更高精度的验证结果。
本申请基于残差模块、多尺度卷积和注意力机制构建了遥感影像分类网络,本网络可探测地物多尺度特征,实现端到端像素级分类。自动化的模型省去了大量的人工操作,在快速高效获得分类结果的同时获得高精度验证结果,较传统方法具有更好的适应性和鲁棒性,可以促进图像信息提取领域相关技术的发展。
在此处所提供的说明书中,说明了大量的具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于多尺度卷积和注意力机制的图像分类装置,其特征在于,包括:预处理层,依次连接M个编码器,注意力模块,解码器,预测层;其中:
所述预处理层,用于接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
对于所述M个编码器中的任意的第i个编码器,用于接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
所述注意力模块,用于针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
所述解码器包括:叠加层,上采样层和卷积层;其中:所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;所述卷积层,用于对第(M-i+1)个第二十一特征图,用长度和宽度均为3的卷积核进行卷积处理,得到第(M-i+1)个第三特征图;所述解码器,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;
所述预测层,用于根据待预测特征图,预测所述目标图片的分类。
2.根据权利要求1所述的装置,其特征在于,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;其中:
所述卷积模块,用于根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i -1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
所述特征提取模块,用于:
根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3的卷积核,对第十七特征图进行卷积处理,得到通道数为64*2i-1的并输出第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
3.一种基于多尺度卷积和注意力机制的图像分类方法,其特征在于,所述方法包括:
利用预处理层,接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
利用M个编码器中的任意第i个编码器接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
利用注意力模块,针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
利用解码器,对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;其中,所述解码器包括叠加层,上采样层和卷积层;所述得到第(M-i+1)个第三特征图具体包括:利用所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;利用所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;利用所述卷积层,用于对第(M-i+1)个第二十一特征图,用长度和宽度均为3的卷积核进行卷积处理,得到第(M-i+1)个第三特征图;
利用预测层,根据待预测特征图,预测所述目标图片的分类。
4.根据权利要求3所述的方法,其特征在于,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;所述方法还包括:
利用卷积模块,根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i -1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
利用特征提取模块,根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3、的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
CN202011154873.XA 2020-10-26 2020-10-26 一种基于多尺度卷积和注意力机制的图像分类模型及方法 Active CN112241765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154873.XA CN112241765B (zh) 2020-10-26 2020-10-26 一种基于多尺度卷积和注意力机制的图像分类模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154873.XA CN112241765B (zh) 2020-10-26 2020-10-26 一种基于多尺度卷积和注意力机制的图像分类模型及方法

Publications (2)

Publication Number Publication Date
CN112241765A CN112241765A (zh) 2021-01-19
CN112241765B true CN112241765B (zh) 2024-04-26

Family

ID=74169861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154873.XA Active CN112241765B (zh) 2020-10-26 2020-10-26 一种基于多尺度卷积和注意力机制的图像分类模型及方法

Country Status (1)

Country Link
CN (1) CN112241765B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537239B (zh) * 2021-07-08 2022-02-18 宁波大学 一种基于全局关系感知注意力的高光谱图像波段选择方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985317A (zh) * 2018-05-25 2018-12-11 西安电子科技大学 一种基于可分离卷积和注意力机制的图像分类方法
CN110555458A (zh) * 2019-07-24 2019-12-10 中北大学 基于注意力机制生成对抗网络的多波段图像特征级融合方法
CN111062441A (zh) * 2019-12-18 2020-04-24 武汉大学 基于自监督机制和区域建议网络的场景分类方法及装置
CN111199237A (zh) * 2020-01-12 2020-05-26 湖南大学 一种基于注意力的卷积神经网络分频特征提取方法
CN111310767A (zh) * 2020-01-16 2020-06-19 浙江科技学院 一种基于边界增强的显著性检测方法
CN111476251A (zh) * 2020-03-26 2020-07-31 中国人民解放军战略支援部队信息工程大学 一种遥感影像匹配方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645835B2 (en) * 2017-08-30 2023-05-09 Board Of Regents, The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985317A (zh) * 2018-05-25 2018-12-11 西安电子科技大学 一种基于可分离卷积和注意力机制的图像分类方法
CN110555458A (zh) * 2019-07-24 2019-12-10 中北大学 基于注意力机制生成对抗网络的多波段图像特征级融合方法
CN111062441A (zh) * 2019-12-18 2020-04-24 武汉大学 基于自监督机制和区域建议网络的场景分类方法及装置
CN111199237A (zh) * 2020-01-12 2020-05-26 湖南大学 一种基于注意力的卷积神经网络分频特征提取方法
CN111310767A (zh) * 2020-01-16 2020-06-19 浙江科技学院 一种基于边界增强的显著性检测方法
CN111476251A (zh) * 2020-03-26 2020-07-31 中国人民解放军战略支援部队信息工程大学 一种遥感影像匹配方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Dictionaries of deep features for land-use scene classification of very high spatial resolution images";Eliezer Flores;《Pattern Recognition》;第89卷;第32-44页 *
"基于深度学习的高光谱图像分类";李诗卉;《中国优秀硕士学位论文全文数据库 工程科技II辑》(2020年第02期);第C028-183页 *
"热带亚热带自然保护区高分辨率遥感监测与生态系统健康评价方法研究——以海南岛自然保护区为例";于桐;《中国优秀硕士学位论文全文数据库 基础科学辑》(2022年第02期);第A008-192页 *

Also Published As

Publication number Publication date
CN112241765A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
Hui et al. Effective building extraction from high-resolution remote sensing images with multitask driven deep neural network
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
CN110348487B (zh) 一种基于深度学习的高光谱图像压缩方法及装置
CN111160276A (zh) 基于遥感影像的u型空洞全卷积分割网络识别模型
Tian et al. Multiscale building extraction with refined attention pyramid networks
CN112348770A (zh) 一种基于多分辨率卷积网络的桥梁裂缝检测方法
KR20050109543A (ko) 전자 워터마크 매립장치, 전자 워터마크 검출장치, 및 그방법, 및 프로그램
CN112017192B (zh) 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
Gashnikov et al. Hyperspectral remote sensing data compression and protection
CN113887472A (zh) 基于级联颜色及纹理特征注意力的遥感图像云检测方法
CN112241765B (zh) 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN115861703A (zh) 一种基于多尺度CNN-Transformer的遥感图像变化检测方法和装置
CN114266957A (zh) 一种基于多降质方式数据增广的高光谱图像超分辨率复原方法
CN117095287A (zh) 一种基于时空交互Transformer模型的遥感图像变化检测方法
CN116778318A (zh) 一种卷积神经网络遥感影像道路提取模型及方法
CN117422711B (zh) 一种海洋涡旋高光谱变化检测方法、装置、设备及介质
CN117475216A (zh) 一种基于aglt网络的高光谱与激光雷达数据融合分类方法
CN117351372A (zh) 一种基于改进DeeplabV3+的遥感图像道路分割方法
CN113850284B (zh) 一种基于多尺度特征融合和多分支预测的多操作检测方法
CN116977747B (zh) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN113887470B (zh) 基于多任务注意力机制的高分辨率遥感图像地物提取方法
CN115909077A (zh) 基于无监督光谱解混神经网络的高光谱图像变化检测方法
CN114821351A (zh) 铁路危险源识别方法、装置、电子设备及存储介质
CN116958800A (zh) 基于层次注意力残差UNet++的遥感影像变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant