CN112241765B - 一种基于多尺度卷积和注意力机制的图像分类模型及方法 - Google Patents
一种基于多尺度卷积和注意力机制的图像分类模型及方法 Download PDFInfo
- Publication number
- CN112241765B CN112241765B CN202011154873.XA CN202011154873A CN112241765B CN 112241765 B CN112241765 B CN 112241765B CN 202011154873 A CN202011154873 A CN 202011154873A CN 112241765 B CN112241765 B CN 112241765B
- Authority
- CN
- China
- Prior art keywords
- feature map
- convolution
- feature
- width
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 title claims abstract description 13
- 238000013145 classification model Methods 0.000 title abstract description 9
- 238000010586 diagram Methods 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 67
- 238000011176 pooling Methods 0.000 claims description 20
- 238000012795 verification Methods 0.000 abstract description 11
- 238000005070 sampling Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000011161 development Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供一种基于多尺度卷积和注意力机制的图像分类模型及方法。该模型包括:预处理层,依次连接的M个编码器,注意力模块,解码器,预测层。待分类的图像经过预处理层处理后输出到编码器。对于M个编码器中的任意的第i个编码器,对接收的特征图进行多尺度卷积提取特征,扩大网络感受野。注意力模块用于对提取的特征进行波段注意力和空间注意力的优化,突出重点特征与细节特征。解码器对优化后的特征进行上采样,逐步还原图像尺寸,最终经过预测层预测,得到像素级分类结果。如此,本发明可以在快速高效获得分类结果的同时获得高精度的验证结果,可以促进图像信息提取领域相关技术的发展。
Description
技术领域
本申请涉及遥感图像分类领域,更具体的,涉及一种基于多尺度卷积和注意力机制的图像分类方法。
背景技术
遥感影像分类是通过对遥感影像光谱、纹理等特征进行分析并判断影像各个像素级所属类别的技术。传统的分类方法单一地依靠地物的光谱特征,并未充分挖掘影像数据特征,分类的鲁棒性较差。相较于传统算法,深度学习模型的卷积神经网络能很好地应用于影像分类任务中,但在浅层特征提取、特征优化与还原方面还有待提高。
通过深度学习相关方法研究各类自然保护区地表覆盖的技术方法很少,因此基于遥感数据将深度学习技术扩展到各种自然保护区遥感监测领域十分有必要。
使用相应方法到保护区监测中遇到三个问题:自然保护区相应的公开数据集很少,需人工构建数据集;保护区地表覆盖类别严重不平衡导致构建的数据集也会出现样本不平衡情况;不同类别保护区(如森林生态、海洋海岸等)地表差异较大。已有的一些分类方法不能很好的解决这些问题,因此,需要一种新的特征提取与还原能力更强的分类方法。
发明内容
本申请的目的是为了解决现有技术中存在的问题,可以在快速高效获得分类结果的同时获得高精度的验证结果,可以促进图像信息提取领域相关技术的发展。
一方面,本申请提供了一种基于多尺度卷积和注意力机制的图像分类模型,包括:预处理层,依次连接的M个编码器,注意力模块,解码器,预测层;其中:
所述预处理层,用于接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
对于所述M个编码器中的任意的第i个编码器,用于接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
所述注意力模块,用于针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
所述解码器,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;
所述预测层,用于根据待预测特征图,预测所述目标图片的分类。
优选地,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;其中:
所述卷积模块,用于根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i-1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
所述特征提取模块,用于:
根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
优选地,所述解码器包括:叠加层,上采样层和卷积层;其中:
所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;
所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;
所述卷积层,用于对第(M-i+1)个第二十一特征图进行卷积处理,得到第(M-i+1)个第三特征图。
另一方面,本申请提供了一种利用基于多尺度卷积和注意力机制的图像分类方法,所述方法包括:
利用预处理层,接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
利用M个编码器中的任意第i个编码器接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
利用注意力模块,针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
利用解码器,对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;
利用预测层,根据待预测特征图,预测所述目标图片的分类。
优选地,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;所述方法还包括:
利用卷积模块,根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i-1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
利用特征提取模块,根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
优选地,所述解码器包括叠加层,上采样层和卷积层;所述方法还包括:
利用所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;
利用所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;
利用所述卷积层,用于对第(M-i+1)个第二十一特征图进行卷积处理,得到第(M-i+1)个第三特征图。
本申请将深度神经网络技术应用到保护区遥感监测中,提出基于多尺度卷积和注意力机制的自然保护区遥感图像分类模型。该模型总体结构为编-解码器的卷积神经网络。编码器在残差网络模型基础上加入多尺度卷积提取特征,扩大网络感受野,使网络可提取地物不同尺度的特征,各阶段特征经过通过空间注意力和波段注意力串联的注意力模块进行优化后输入解码器,突出其重点特征和细节信息,并抑制其他无用信息。解码器通过双线性插值与卷积层构成上采样模块,逐步还原图像尺寸及信息,最终得到像素级分类结果。
附图说明
图1为本申请实施例中提供的一种基于多尺度卷积和注意力机制的图像分类模型示意图;
图2为本申请实施例中提供的一种利用基于多尺度卷积和注意力机制进行图像分类过程的示意图;
图3为本申请实施例中编码器中卷积模块示意图;
图4为本申请实施例中编码器中特征提取模块示意图;
图5为本申请实施例中波段注意力模块示意图;
图6为本申请实施例中空间注意力模块示意图;
图7为本申请实施例中解码器示意图;
具体实施方式
下面结合附图和实施例,对本发明所提供的技术方案做进一步的详细描述。
图1是本申请实施例中提供的一种基于多尺度卷积和注意力机制的图像分类模型示意图。如图1所示,该图像分类模型可以包括预处理层101,依次连接的M个编码器102,注意力模块103,解码器104,以及预测层105。其中,预处理层101用于接收目标图片,对目标图片进行预处理,以得到第一特征图,将得到的第一特征图输出。
依次连接的M个编码器102,用于对接收的目标特征图进行编码处理。其中,与预处理层101相连接的第一个编码器用于接收第一特征图,对第一特征图编码,得到并输出第一个第二特征图。对于之后的任意第i个编码器102,都用于接收其之前的第i-1个编码器102所输出的第i-1个第二特征图。对第i-1个第二特征图进行编码处理,得到并输出第i个第二特征图。M为大于0的整数,i大于0且不大于M。
注意力模块103用于对每一个第二特征图进行处理,以得到每一个第二特征图所对应的优化后的注意力特征。
解码器104,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;当i=M时,即编码器102为依次连接的M个编码器102中的最后一个编码器,此时,解码器104接收的只有其对应的第M个第二特征图,没有第三特征图。对第M个第三特征图进行解码操作,得到待预测特征图。
预测层105,对待预测特征图进行预测,得到目标图片的分类。
图2是本申请实施例中依照图像分类模型进行图像分类的过程示意图。示例性的,本申请实施例中的依次连接的M个编码器,M值取4。如图2所示,可以按照如下过程进行图像分类:
首先,预处理层对目标图片进行预处理,具体过程为:对待分类的目标图片进行0填充(ZeroPadding),然后对进行过0填充的目标图片进行2D卷积(Conv2D)处理,对进行过2D卷积处理的图片进行最大池化处理(MaxPooling),得到第一特征图,并向第一个编码器输出第一特征图。
编码器,包括卷积模块和特征提取模块。图3为本申请实施例中编码器中卷积模块示意图,图4为本申请实施例中编码器中特征提取模块示意图。
如图3所示,卷积模块为一个改进的残差模块。卷积模块接收目标特征图,根据长度和宽度均为1的卷积核,对接收的目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i-1的第十四特征图;根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;将第十四特征图和第十五特征图相加,得到并输出第十六特征图。将一个标准残差模块中的原有3*3卷积核更改为1*1,3*3,5*5,7*7四种卷积核,可以对目标进行多尺度卷积,扩大特征提取的感受野。
如图4所示,特征提取模块为一个残差模块,根据长度和宽度均为1、的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;根据长度和宽度均为3、的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;根据长度和宽度均为1、的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
本实施例中,第一个编码器,利用接收到的第一特征图,按照图3所示,得到并输出第一个第十六特征图。第一个第十六特征图,经过2次特征提取模块处理,得到并输出第一个第二特征图。
第二个编码器,利用接收到的接收第一个编码器输出的第一个第二特征图,按照图3所示,得到并输出第二个第十六特征图。第二个第十六特征图,经过3次特征提取模块处理,得到并输出第二个第二特征图。
第三个编码器,利用接收到的第二个编码器输出的第二个第二特征图,按照图3所示,得到并输出第三个第十六特征图。第三个第十六特征图,经过5次特征提取模块处理,得到并输出第三个第二特征图。
第四个编码器,利用接收到的第三个编码器输出的第三个第二特征图,按照图3所示,得到并输出第四个第十六特征图。第四个第十六特征图,经过2次特征提取模块处理,得到并输出第四个第二特征图。
注意力模块(attention_block),由串联的波段注意力模块和空间注意力模块组成。图5为本申请实施例中波段注意力模块示意图;图6为本申请实施例中空间注意力模块示意图。
如图5所示,波段注意力模块用于针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化(Max)和均值池化(Avg),分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层(Dense)后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和(Add),得到第八特征图;将第八特征图与所述当前特征图相乘,得到并输出优化后的波段注意力特征。
如图6所示,空间注意力模块对接收的波段注意力特征进行波段维最大池化(Max)和均值池化(Avg),得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接(Concatenate)第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积(Conv2D)处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征。
此优化可以突出图像的重点特征和细节信息。
图7为本申请实施例中解码器示意图。如图7所示,解码器包括:叠加层,上采样层和卷积层。
叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;对于M=i时,其接收的只有最后一个编码器对应的注意力特征,没有第三特征图,此时的第一个叠加特征图直接为第M个第二特征图所对应的注意力特征。对于i=0时,接收的直接为第M个第三特征图,没有注意力特征。
上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;
卷积层,用于对第(M-i+1)个第二十一特征图,用长度和宽度均为3的卷积核进行卷积处理,得到第(M-i+1)个第三特征图。
本实施例中,解码器首先接收经过注意力模块处理的第四个第二特征图得到的对应注意力特征,此时M=i,第一个叠加特征图直接为注意力特征。对第一个叠加特征图进行上采样,得到并输出第一个第二十一特征图。对第一个第二十一特征图进行卷积处理,得到并输出第一个第三特征图。
接着,解码器接收经过注意力模块处理的第三个第二特征图得到的对应注意力特征,和第一个第三特征图。按照图7所示,将接收的注意力特征和第一个第三特征图相叠加,得到并输出第二个叠加特征图。对第二个叠加特征图进行上采样,得到并输出第二个第二十一特征图。对第二个第二十一特征图进行卷积处理,得到并输出第二个第三特征图。
接着,解码器接收经过注意力模块处理的第二个第二特征图得到的对应注意力特征,和第二个第三特征图。按照图7所示,将接收的注意力特征和第二个第三特征图相叠加,得到并输出第三个叠加特征图。对第三个叠加特征图进行上采样,得到并输出第三个第二十一特征图。对第三个第二十一特征图进行卷积处理,得到并输出第三个第三特征图。
接着,解码器接收经过注意力模块处理的第一个第二特征图得到的对应注意力特征,和第三个第三特征图。按照图7所示,将接收的注意力特征和第三个第三特征图相叠加,得到并输出第四个叠加特征图。对第四个叠加特征图进行上采样,得到并输出第四个第二十一特征图。对第四个第二十一特征图进行卷积处理,得到并输出第四个第三特征图。
最后,解码器只接收第四个第三特征图。对第四个第三特征图进行上采样,得到并输出第五个第二十一特征图。对第五个第二十一特征图进行卷积处理,得到并输出待预测特征图。
预测层,根据待预测特征图,预测目标图片的分类。
对于本模型的适用性测试,本申请自主构建了海南数据集,并分别对自主构建的海南数据集和公开数据集分别进行了性能测试。
对于海南数据集,经过数据增强处理,数据集共包含750张256*256的影像,有6个语义类别。将数据集按4:1的比例随机的划分为训练集和验证集。利用本申请提出的网络对数据集内两组影像进行预测,对验证集整体进行精度评价并和已有的经典语义分割网络进行对比,精度指标如下表1所示。
表1海南数据集验证集精度
对于公开数据集,经过数据增强处理,数据集共包含16448张256*256影像,有17个语义类别。将数据集按4:1的比例随机的划分为训练集和验证集。利用本申请提出的网络对数据集内两组影像进行预测,对验证集整体进行精度评价并和已有的经典语义分割网络进行对比,精度指标如下表2所示。
表2公开数据集验证集精度
从表1和表2的数据中明显可知,使用本申请的网络模型,较传统方法可以获得更高精度的验证结果。
本申请基于残差模块、多尺度卷积和注意力机制构建了遥感影像分类网络,本网络可探测地物多尺度特征,实现端到端像素级分类。自动化的模型省去了大量的人工操作,在快速高效获得分类结果的同时获得高精度验证结果,较传统方法具有更好的适应性和鲁棒性,可以促进图像信息提取领域相关技术的发展。
在此处所提供的说明书中,说明了大量的具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (4)
1.一种基于多尺度卷积和注意力机制的图像分类装置,其特征在于,包括:预处理层,依次连接M个编码器,注意力模块,解码器,预测层;其中:
所述预处理层,用于接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
对于所述M个编码器中的任意的第i个编码器,用于接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
所述注意力模块,用于针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
所述解码器包括:叠加层,上采样层和卷积层;其中:所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;所述卷积层,用于对第(M-i+1)个第二十一特征图,用长度和宽度均为3的卷积核进行卷积处理,得到第(M-i+1)个第三特征图;所述解码器,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;
所述预测层,用于根据待预测特征图,预测所述目标图片的分类。
2.根据权利要求1所述的装置,其特征在于,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;其中:
所述卷积模块,用于根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i -1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
所述特征提取模块,用于:
根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3的卷积核,对第十七特征图进行卷积处理,得到通道数为64*2i-1的并输出第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
3.一种基于多尺度卷积和注意力机制的图像分类方法,其特征在于,所述方法包括:
利用预处理层,接收待处理的目标图片,对所述目标图片进行预处理,获得并输出第一特征图;
利用M个编码器中的任意第i个编码器接收目标特征图,所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图,M为大于0的整数,i大于0且不大于M;对所述目标特征图进行编码处理,获得并输出第i个第二特征图;
利用注意力模块,针对M个所述第二特征图中的每个当前特征图,对所述当前特征图分别进行平面维最大池化和均值池化,分别得到波段不变且行数和列数都为1的第四特征图和第五特征图;将第四特征图和第五特征图分别输入两个全连接层后,得到第六特征图和第七特征图;将第六特征图与第七特征图求和,得到第八特征图;将第八特征图与所述当前特征图相乘,得到优化后的波段注意力特征;对所述波段注意力特征进行波段维最大池化和均值池化,得到行数和列数不变且波段数为1的第九特征图和第十特征图,拼接第九特征图和第十特征图,得到第十一特征图;对第十一特征图进行卷积处理,将卷积结果与所述优化后的波段注意力特征相乘,得到并输出优化后的注意力特征;
利用解码器,对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理,得到第(M-i+1)个第三特征图;对第M个第三特征图进行解码处理,得到待预测特征图;其中,所述解码器包括叠加层,上采样层和卷积层;所述得到第(M-i+1)个第三特征图具体包括:利用所述叠加层,用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加,得到第(M-i+1)个叠加特征图;利用所述上采样层,用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理,得到第(M-i+1)个第二十特征图,根据长度和宽度均为1的卷积核,对第(M-i+1)个第二十特征图进行卷积处理,得到第(M-i+1)个第二十一特征图;利用所述卷积层,用于对第(M-i+1)个第二十一特征图,用长度和宽度均为3的卷积核进行卷积处理,得到第(M-i+1)个第三特征图;
利用预测层,根据待预测特征图,预测所述目标图片的分类。
4.根据权利要求3所述的方法,其特征在于,对于所述M个编码器中的任意的第i个编码器,包括卷积模块和特征提取模块;所述方法还包括:
利用卷积模块,根据长度和宽度均为1的卷积核,对接收的所述目标特征图进行卷积处理,得到通道数为64*2i-1的第十二特征图;以及
根据长度和宽度均为1,长度和宽度均为3,长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理,将得到的结果波段向拼接,得到第十三特征图;
根据长度和宽度均为1的卷积核,对第十三卷积核进行卷积处理,得到通道数为256*2i -1的第十四特征图;
根据长度和宽度均为1的卷积核,对所述目标特征图进行卷积处理,得到通道数为256*2i-1的第十五特征图;
将第十四特征图和第十五特征图相加,得到并输出第十六特征图;
利用特征提取模块,根据长度和宽度均为1的卷积核,对第十六特征图进行卷积处理,得到并输出通道数为64*2i-1的第十七特征图;
根据长度和宽度均为3、的卷积核,对第十七特征图进行卷积处理,得到并输出通道数为64*2i-1的第十八特征图;
根据长度和宽度均为1的卷积核,对第十八特征图进行卷积处理,得到并输出通道数为256*2i-1的第十九特征图;
将第十六特征图与第十九特征图相加,得到并输出第i个第二特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154873.XA CN112241765B (zh) | 2020-10-26 | 2020-10-26 | 一种基于多尺度卷积和注意力机制的图像分类模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154873.XA CN112241765B (zh) | 2020-10-26 | 2020-10-26 | 一种基于多尺度卷积和注意力机制的图像分类模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241765A CN112241765A (zh) | 2021-01-19 |
CN112241765B true CN112241765B (zh) | 2024-04-26 |
Family
ID=74169861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011154873.XA Active CN112241765B (zh) | 2020-10-26 | 2020-10-26 | 一种基于多尺度卷积和注意力机制的图像分类模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241765B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537239B (zh) * | 2021-07-08 | 2022-02-18 | 宁波大学 | 一种基于全局关系感知注意力的高光谱图像波段选择方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985317A (zh) * | 2018-05-25 | 2018-12-11 | 西安电子科技大学 | 一种基于可分离卷积和注意力机制的图像分类方法 |
CN110555458A (zh) * | 2019-07-24 | 2019-12-10 | 中北大学 | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 |
CN111062441A (zh) * | 2019-12-18 | 2020-04-24 | 武汉大学 | 基于自监督机制和区域建议网络的场景分类方法及装置 |
CN111199237A (zh) * | 2020-01-12 | 2020-05-26 | 湖南大学 | 一种基于注意力的卷积神经网络分频特征提取方法 |
CN111310767A (zh) * | 2020-01-16 | 2020-06-19 | 浙江科技学院 | 一种基于边界增强的显著性检测方法 |
CN111476251A (zh) * | 2020-03-26 | 2020-07-31 | 中国人民解放军战略支援部队信息工程大学 | 一种遥感影像匹配方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645835B2 (en) * | 2017-08-30 | 2023-05-09 | Board Of Regents, The University Of Texas System | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications |
-
2020
- 2020-10-26 CN CN202011154873.XA patent/CN112241765B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985317A (zh) * | 2018-05-25 | 2018-12-11 | 西安电子科技大学 | 一种基于可分离卷积和注意力机制的图像分类方法 |
CN110555458A (zh) * | 2019-07-24 | 2019-12-10 | 中北大学 | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 |
CN111062441A (zh) * | 2019-12-18 | 2020-04-24 | 武汉大学 | 基于自监督机制和区域建议网络的场景分类方法及装置 |
CN111199237A (zh) * | 2020-01-12 | 2020-05-26 | 湖南大学 | 一种基于注意力的卷积神经网络分频特征提取方法 |
CN111310767A (zh) * | 2020-01-16 | 2020-06-19 | 浙江科技学院 | 一种基于边界增强的显著性检测方法 |
CN111476251A (zh) * | 2020-03-26 | 2020-07-31 | 中国人民解放军战略支援部队信息工程大学 | 一种遥感影像匹配方法及装置 |
Non-Patent Citations (3)
Title |
---|
"Dictionaries of deep features for land-use scene classification of very high spatial resolution images";Eliezer Flores;《Pattern Recognition》;第89卷;第32-44页 * |
"基于深度学习的高光谱图像分类";李诗卉;《中国优秀硕士学位论文全文数据库 工程科技II辑》(2020年第02期);第C028-183页 * |
"热带亚热带自然保护区高分辨率遥感监测与生态系统健康评价方法研究——以海南岛自然保护区为例";于桐;《中国优秀硕士学位论文全文数据库 基础科学辑》(2022年第02期);第A008-192页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112241765A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hui et al. | Effective building extraction from high-resolution remote sensing images with multitask driven deep neural network | |
CN112668494A (zh) | 基于多尺度特征提取的小样本变化检测方法 | |
CN110348487B (zh) | 一种基于深度学习的高光谱图像压缩方法及装置 | |
CN111160276A (zh) | 基于遥感影像的u型空洞全卷积分割网络识别模型 | |
Tian et al. | Multiscale building extraction with refined attention pyramid networks | |
CN112348770A (zh) | 一种基于多分辨率卷积网络的桥梁裂缝检测方法 | |
KR20050109543A (ko) | 전자 워터마크 매립장치, 전자 워터마크 검출장치, 및 그방법, 및 프로그램 | |
CN112017192B (zh) | 基于改进U-Net网络的腺体细胞图像分割方法及系统 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
Gashnikov et al. | Hyperspectral remote sensing data compression and protection | |
CN113887472A (zh) | 基于级联颜色及纹理特征注意力的遥感图像云检测方法 | |
CN112241765B (zh) | 一种基于多尺度卷积和注意力机制的图像分类模型及方法 | |
CN115861703A (zh) | 一种基于多尺度CNN-Transformer的遥感图像变化检测方法和装置 | |
CN114266957A (zh) | 一种基于多降质方式数据增广的高光谱图像超分辨率复原方法 | |
CN117095287A (zh) | 一种基于时空交互Transformer模型的遥感图像变化检测方法 | |
CN116778318A (zh) | 一种卷积神经网络遥感影像道路提取模型及方法 | |
CN117422711B (zh) | 一种海洋涡旋高光谱变化检测方法、装置、设备及介质 | |
CN117475216A (zh) | 一种基于aglt网络的高光谱与激光雷达数据融合分类方法 | |
CN117351372A (zh) | 一种基于改进DeeplabV3+的遥感图像道路分割方法 | |
CN113850284B (zh) | 一种基于多尺度特征融合和多分支预测的多操作检测方法 | |
CN116977747B (zh) | 基于多路多尺度特征孪生网络的小样本高光谱分类方法 | |
CN113887470B (zh) | 基于多任务注意力机制的高分辨率遥感图像地物提取方法 | |
CN115909077A (zh) | 基于无监督光谱解混神经网络的高光谱图像变化检测方法 | |
CN114821351A (zh) | 铁路危险源识别方法、装置、电子设备及存储介质 | |
CN116958800A (zh) | 基于层次注意力残差UNet++的遥感影像变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |