CN112241765B

CN112241765B - 一种基于多尺度卷积和注意力机制的图像分类模型及方法

Info

Publication number: CN112241765B
Application number: CN202011154873.XA
Authority: CN
Inventors: 于桐; 吴文瑾; 李新武
Original assignee: Sanya Zhongke Remote Sensing Research Institute
Current assignee: Sanya Zhongke Remote Sensing Research Institute
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2024-04-26
Anticipated expiration: 2040-10-26
Also published as: CN112241765A

Abstract

本发明提供一种基于多尺度卷积和注意力机制的图像分类模型及方法。该模型包括：预处理层，依次连接的M个编码器，注意力模块，解码器，预测层。待分类的图像经过预处理层处理后输出到编码器。对于M个编码器中的任意的第i个编码器，对接收的特征图进行多尺度卷积提取特征，扩大网络感受野。注意力模块用于对提取的特征进行波段注意力和空间注意力的优化，突出重点特征与细节特征。解码器对优化后的特征进行上采样，逐步还原图像尺寸，最终经过预测层预测，得到像素级分类结果。如此，本发明可以在快速高效获得分类结果的同时获得高精度的验证结果，可以促进图像信息提取领域相关技术的发展。

Description

一种基于多尺度卷积和注意力机制的图像分类模型及方法

技术领域

本申请涉及遥感图像分类领域，更具体的，涉及一种基于多尺度卷积和注意力机制的图像分类方法。

背景技术

遥感影像分类是通过对遥感影像光谱、纹理等特征进行分析并判断影像各个像素级所属类别的技术。传统的分类方法单一地依靠地物的光谱特征，并未充分挖掘影像数据特征，分类的鲁棒性较差。相较于传统算法，深度学习模型的卷积神经网络能很好地应用于影像分类任务中，但在浅层特征提取、特征优化与还原方面还有待提高。

通过深度学习相关方法研究各类自然保护区地表覆盖的技术方法很少，因此基于遥感数据将深度学习技术扩展到各种自然保护区遥感监测领域十分有必要。

使用相应方法到保护区监测中遇到三个问题：自然保护区相应的公开数据集很少，需人工构建数据集；保护区地表覆盖类别严重不平衡导致构建的数据集也会出现样本不平衡情况；不同类别保护区(如森林生态、海洋海岸等)地表差异较大。已有的一些分类方法不能很好的解决这些问题，因此，需要一种新的特征提取与还原能力更强的分类方法。

发明内容

本申请的目的是为了解决现有技术中存在的问题，可以在快速高效获得分类结果的同时获得高精度的验证结果，可以促进图像信息提取领域相关技术的发展。

一方面，本申请提供了一种基于多尺度卷积和注意力机制的图像分类模型，包括：预处理层，依次连接的M个编码器，注意力模块，解码器，预测层；其中：

所述预处理层，用于接收待处理的目标图片，对所述目标图片进行预处理，获得并输出第一特征图；

对于所述M个编码器中的任意的第i个编码器，用于接收目标特征图，所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图，M为大于0的整数，i大于0且不大于M；对所述目标特征图进行编码处理，获得并输出第i个第二特征图；

所述注意力模块，用于针对M个所述第二特征图中的每个当前特征图，对所述当前特征图分别进行平面维最大池化和均值池化，分别得到波段不变且行数和列数都为1的第四特征图和第五特征图；将第四特征图和第五特征图分别输入两个全连接层后，得到第六特征图和第七特征图；将第六特征图与第七特征图求和，得到第八特征图；将第八特征图与所述当前特征图相乘，得到优化后的波段注意力特征；对所述波段注意力特征进行波段维最大池化和均值池化，得到行数和列数不变且波段数为1的第九特征图和第十特征图，拼接第九特征图和第十特征图，得到第十一特征图；对第十一特征图进行卷积处理，将卷积结果与所述优化后的波段注意力特征相乘，得到并输出优化后的注意力特征；

所述解码器，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理，得到第(M-i+1)个第三特征图；对第M个第三特征图进行解码处理，得到待预测特征图；

所述预测层，用于根据待预测特征图，预测所述目标图片的分类。

优选地，对于所述M个编码器中的任意的第i个编码器，包括卷积模块和特征提取模块；其中：

所述卷积模块，用于根据长度和宽度均为1的卷积核，对接收的所述目标特征图进行卷积处理，得到通道数为64*2^i-1的第十二特征图；以及

根据长度和宽度均为1，长度和宽度均为3，长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理，将得到的结果波段向拼接，得到第十三特征图；

根据长度和宽度均为1的卷积核，对第十三卷积核进行卷积处理，得到通道数为256*2^i-1的第十四特征图；

根据长度和宽度均为1的卷积核，对所述目标特征图进行卷积处理，得到通道数为256*2^i-1的第十五特征图；

将第十四特征图和第十五特征图相加，得到并输出第十六特征图；

所述特征提取模块，用于：

根据长度和宽度均为1的卷积核，对第十六特征图进行卷积处理，得到并输出通道数为64*2^i-1的第十七特征图；

根据长度和宽度均为3的卷积核，对第十七特征图进行卷积处理，得到并输出通道数为64*2^i-1的第十八特征图；

根据长度和宽度均为1的卷积核，对第十八特征图进行卷积处理，得到并输出通道数为256*2^i-1的第十九特征图；

将第十六特征图与第十九特征图相加，得到并输出第i个第二特征图。

优选地，所述解码器包括：叠加层，上采样层和卷积层；其中：

所述叠加层，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加，得到第(M-i+1)个叠加特征图；

所述上采样层，用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理，得到第(M-i+1)个第二十特征图，根据长度和宽度均为1的卷积核，对第(M-i+1)个第二十特征图进行卷积处理，得到第(M-i+1)个第二十一特征图；

所述卷积层，用于对第(M-i+1)个第二十一特征图进行卷积处理，得到第(M-i+1)个第三特征图。

另一方面，本申请提供了一种利用基于多尺度卷积和注意力机制的图像分类方法，所述方法包括：

利用预处理层，接收待处理的目标图片，对所述目标图片进行预处理，获得并输出第一特征图；

利用M个编码器中的任意第i个编码器接收目标特征图，所述目标特征图为所述第一特征图或第i-1个编码器输出的第i-1个第二特征图，M为大于0的整数，i大于0且不大于M；对所述目标特征图进行编码处理，获得并输出第i个第二特征图；

利用注意力模块，针对M个所述第二特征图中的每个当前特征图，对所述当前特征图分别进行平面维最大池化和均值池化，分别得到波段不变且行数和列数都为1的第四特征图和第五特征图；将第四特征图和第五特征图分别输入两个全连接层后，得到第六特征图和第七特征图；将第六特征图与第七特征图求和，得到第八特征图；将第八特征图与所述当前特征图相乘，得到优化后的波段注意力特征；对所述波段注意力特征进行波段维最大池化和均值池化，得到行数和列数不变且波段数为1的第九特征图和第十特征图，拼接第九特征图和第十特征图，得到第十一特征图；对第十一特征图进行卷积处理，将卷积结果与所述优化后的波段注意力特征相乘，得到并输出优化后的注意力特征；

利用解码器，对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理，得到第(M-i+1)个第三特征图；对第M个第三特征图进行解码处理，得到待预测特征图；

利用预测层，根据待预测特征图，预测所述目标图片的分类。

优选地，对于所述M个编码器中的任意的第i个编码器，包括卷积模块和特征提取模块；所述方法还包括：

利用卷积模块，根据长度和宽度均为1的卷积核，对接收的所述目标特征图进行卷积处理，得到通道数为64*2^i-1的第十二特征图；以及

利用特征提取模块，根据长度和宽度均为1的卷积核，对第十六特征图进行卷积处理，得到并输出通道数为64*2^i-1的第十七特征图；

优选地，所述解码器包括叠加层，上采样层和卷积层；所述方法还包括：

利用所述叠加层，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加，得到第(M-i+1)个叠加特征图；

利用所述上采样层，用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理，得到第(M-i+1)个第二十特征图，根据长度和宽度均为1的卷积核，对第(M-i+1)个第二十特征图进行卷积处理，得到第(M-i+1)个第二十一特征图；

利用所述卷积层，用于对第(M-i+1)个第二十一特征图进行卷积处理，得到第(M-i+1)个第三特征图。

本申请将深度神经网络技术应用到保护区遥感监测中，提出基于多尺度卷积和注意力机制的自然保护区遥感图像分类模型。该模型总体结构为编-解码器的卷积神经网络。编码器在残差网络模型基础上加入多尺度卷积提取特征，扩大网络感受野，使网络可提取地物不同尺度的特征，各阶段特征经过通过空间注意力和波段注意力串联的注意力模块进行优化后输入解码器，突出其重点特征和细节信息，并抑制其他无用信息。解码器通过双线性插值与卷积层构成上采样模块，逐步还原图像尺寸及信息，最终得到像素级分类结果。

附图说明

图1为本申请实施例中提供的一种基于多尺度卷积和注意力机制的图像分类模型示意图；

图2为本申请实施例中提供的一种利用基于多尺度卷积和注意力机制进行图像分类过程的示意图；

图3为本申请实施例中编码器中卷积模块示意图；

图4为本申请实施例中编码器中特征提取模块示意图；

图5为本申请实施例中波段注意力模块示意图；

图6为本申请实施例中空间注意力模块示意图；

图7为本申请实施例中解码器示意图；

具体实施方式

下面结合附图和实施例，对本发明所提供的技术方案做进一步的详细描述。

图1是本申请实施例中提供的一种基于多尺度卷积和注意力机制的图像分类模型示意图。如图1所示，该图像分类模型可以包括预处理层101，依次连接的M个编码器102，注意力模块103，解码器104，以及预测层105。其中，预处理层101用于接收目标图片，对目标图片进行预处理，以得到第一特征图，将得到的第一特征图输出。

依次连接的M个编码器102，用于对接收的目标特征图进行编码处理。其中，与预处理层101相连接的第一个编码器用于接收第一特征图，对第一特征图编码，得到并输出第一个第二特征图。对于之后的任意第i个编码器102，都用于接收其之前的第i-1个编码器102所输出的第i-1个第二特征图。对第i-1个第二特征图进行编码处理，得到并输出第i个第二特征图。M为大于0的整数，i大于0且不大于M。

注意力模块103用于对每一个第二特征图进行处理，以得到每一个第二特征图所对应的优化后的注意力特征。

解码器104，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理，得到第(M-i+1)个第三特征图；当i＝M时，即编码器102为依次连接的M个编码器102中的最后一个编码器，此时，解码器104接收的只有其对应的第M个第二特征图，没有第三特征图。对第M个第三特征图进行解码操作，得到待预测特征图。

预测层105，对待预测特征图进行预测，得到目标图片的分类。

图2是本申请实施例中依照图像分类模型进行图像分类的过程示意图。示例性的，本申请实施例中的依次连接的M个编码器，M值取4。如图2所示，可以按照如下过程进行图像分类：

首先，预处理层对目标图片进行预处理，具体过程为：对待分类的目标图片进行0填充(ZeroPadding)，然后对进行过0填充的目标图片进行2D卷积(Conv2D)处理，对进行过2D卷积处理的图片进行最大池化处理(MaxPooling)，得到第一特征图，并向第一个编码器输出第一特征图。

编码器，包括卷积模块和特征提取模块。图3为本申请实施例中编码器中卷积模块示意图，图4为本申请实施例中编码器中特征提取模块示意图。

如图3所示，卷积模块为一个改进的残差模块。卷积模块接收目标特征图，根据长度和宽度均为1的卷积核，对接收的目标特征图进行卷积处理，得到通道数为64*2^i-1的第十二特征图；以及根据长度和宽度均为1，长度和宽度均为3，长度和宽度均为5以及长度和宽度均为7的4个卷积核进行卷积处理，将得到的结果波段向拼接，得到第十三特征图；根据长度和宽度均为1的卷积核，对第十三卷积核进行卷积处理，得到通道数为256*2^i-1的第十四特征图；根据长度和宽度均为1的卷积核，对所述目标特征图进行卷积处理，得到通道数为256*2^i-1的第十五特征图；将第十四特征图和第十五特征图相加，得到并输出第十六特征图。将一个标准残差模块中的原有3*3卷积核更改为1*1，3*3，5*5，7*7四种卷积核，可以对目标进行多尺度卷积，扩大特征提取的感受野。

如图4所示，特征提取模块为一个残差模块，根据长度和宽度均为1、的卷积核，对第十六特征图进行卷积处理，得到并输出通道数为64*2^i-1的第十七特征图；根据长度和宽度均为3、的卷积核，对第十七特征图进行卷积处理，得到并输出通道数为64*2^i-1的第十八特征图；根据长度和宽度均为1、的卷积核，对第十八特征图进行卷积处理，得到并输出通道数为256*2^i-1的第十九特征图；将第十六特征图与第十九特征图相加，得到并输出第i个第二特征图。

本实施例中，第一个编码器，利用接收到的第一特征图，按照图3所示，得到并输出第一个第十六特征图。第一个第十六特征图，经过2次特征提取模块处理，得到并输出第一个第二特征图。

第二个编码器，利用接收到的接收第一个编码器输出的第一个第二特征图，按照图3所示，得到并输出第二个第十六特征图。第二个第十六特征图，经过3次特征提取模块处理，得到并输出第二个第二特征图。

第三个编码器，利用接收到的第二个编码器输出的第二个第二特征图，按照图3所示，得到并输出第三个第十六特征图。第三个第十六特征图，经过5次特征提取模块处理，得到并输出第三个第二特征图。

第四个编码器，利用接收到的第三个编码器输出的第三个第二特征图，按照图3所示，得到并输出第四个第十六特征图。第四个第十六特征图，经过2次特征提取模块处理，得到并输出第四个第二特征图。

注意力模块(attention_block)，由串联的波段注意力模块和空间注意力模块组成。图5为本申请实施例中波段注意力模块示意图；图6为本申请实施例中空间注意力模块示意图。

如图5所示，波段注意力模块用于针对M个所述第二特征图中的每个当前特征图，对所述当前特征图分别进行平面维最大池化(Max)和均值池化(Avg)，分别得到波段不变且行数和列数都为1的第四特征图和第五特征图；将第四特征图和第五特征图分别输入两个全连接层(Dense)后，得到第六特征图和第七特征图；将第六特征图与第七特征图求和(Add)，得到第八特征图；将第八特征图与所述当前特征图相乘，得到并输出优化后的波段注意力特征。

如图6所示，空间注意力模块对接收的波段注意力特征进行波段维最大池化(Max)和均值池化(Avg)，得到行数和列数不变且波段数为1的第九特征图和第十特征图，拼接(Concatenate)第九特征图和第十特征图，得到第十一特征图；对第十一特征图进行卷积(Conv2D)处理，将卷积结果与所述优化后的波段注意力特征相乘，得到并输出优化后的注意力特征。

此优化可以突出图像的重点特征和细节信息。

图7为本申请实施例中解码器示意图。如图7所示，解码器包括：叠加层，上采样层和卷积层。

叠加层，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加，得到第(M-i+1)个叠加特征图；对于M＝i时，其接收的只有最后一个编码器对应的注意力特征，没有第三特征图，此时的第一个叠加特征图直接为第M个第二特征图所对应的注意力特征。对于i＝0时，接收的直接为第M个第三特征图，没有注意力特征。

上采样层，用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理，得到第(M-i+1)个第二十特征图，根据长度和宽度均为1的卷积核，对第二十特征图进行卷积处理，得到第(M-i+1)个第二十一特征图；

卷积层，用于对第(M-i+1)个第二十一特征图，用长度和宽度均为3的卷积核进行卷积处理，得到第(M-i+1)个第三特征图。

本实施例中，解码器首先接收经过注意力模块处理的第四个第二特征图得到的对应注意力特征，此时M＝i，第一个叠加特征图直接为注意力特征。对第一个叠加特征图进行上采样，得到并输出第一个第二十一特征图。对第一个第二十一特征图进行卷积处理，得到并输出第一个第三特征图。

接着，解码器接收经过注意力模块处理的第三个第二特征图得到的对应注意力特征，和第一个第三特征图。按照图7所示，将接收的注意力特征和第一个第三特征图相叠加，得到并输出第二个叠加特征图。对第二个叠加特征图进行上采样，得到并输出第二个第二十一特征图。对第二个第二十一特征图进行卷积处理，得到并输出第二个第三特征图。

接着，解码器接收经过注意力模块处理的第二个第二特征图得到的对应注意力特征，和第二个第三特征图。按照图7所示，将接收的注意力特征和第二个第三特征图相叠加，得到并输出第三个叠加特征图。对第三个叠加特征图进行上采样，得到并输出第三个第二十一特征图。对第三个第二十一特征图进行卷积处理，得到并输出第三个第三特征图。

接着，解码器接收经过注意力模块处理的第一个第二特征图得到的对应注意力特征，和第三个第三特征图。按照图7所示，将接收的注意力特征和第三个第三特征图相叠加，得到并输出第四个叠加特征图。对第四个叠加特征图进行上采样，得到并输出第四个第二十一特征图。对第四个第二十一特征图进行卷积处理，得到并输出第四个第三特征图。

最后，解码器只接收第四个第三特征图。对第四个第三特征图进行上采样，得到并输出第五个第二十一特征图。对第五个第二十一特征图进行卷积处理，得到并输出待预测特征图。

预测层，根据待预测特征图，预测目标图片的分类。

对于本模型的适用性测试，本申请自主构建了海南数据集，并分别对自主构建的海南数据集和公开数据集分别进行了性能测试。

对于海南数据集，经过数据增强处理，数据集共包含750张256*256的影像，有6个语义类别。将数据集按4：1的比例随机的划分为训练集和验证集。利用本申请提出的网络对数据集内两组影像进行预测，对验证集整体进行精度评价并和已有的经典语义分割网络进行对比，精度指标如下表1所示。

表1海南数据集验证集精度

对于公开数据集，经过数据增强处理，数据集共包含16448张256*256影像，有17个语义类别。将数据集按4：1的比例随机的划分为训练集和验证集。利用本申请提出的网络对数据集内两组影像进行预测，对验证集整体进行精度评价并和已有的经典语义分割网络进行对比，精度指标如下表2所示。

表2公开数据集验证集精度

从表1和表2的数据中明显可知，使用本申请的网络模型，较传统方法可以获得更高精度的验证结果。

本申请基于残差模块、多尺度卷积和注意力机制构建了遥感影像分类网络，本网络可探测地物多尺度特征，实现端到端像素级分类。自动化的模型省去了大量的人工操作，在快速高效获得分类结果的同时获得高精度验证结果，较传统方法具有更好的适应性和鲁棒性，可以促进图像信息提取领域相关技术的发展。

在此处所提供的说明书中，说明了大量的具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多尺度卷积和注意力机制的图像分类装置，其特征在于，包括：预处理层，依次连接M个编码器，注意力模块，解码器，预测层；其中：

所述解码器包括：叠加层，上采样层和卷积层；其中：所述叠加层，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加，得到第(M-i+1)个叠加特征图；所述上采样层，用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理，得到第(M-i+1)个第二十特征图，根据长度和宽度均为1的卷积核，对第(M-i+1)个第二十特征图进行卷积处理，得到第(M-i+1)个第二十一特征图；所述卷积层，用于对第(M-i+1)个第二十一特征图，用长度和宽度均为3的卷积核进行卷积处理，得到第(M-i+1)个第三特征图；所述解码器，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理，得到第(M-i+1)个第三特征图；对第M个第三特征图进行解码处理，得到待预测特征图；

2.根据权利要求1所述的装置，其特征在于，对于所述M个编码器中的任意的第i个编码器，包括卷积模块和特征提取模块；其中：

根据长度和宽度均为1的卷积核，对第十三卷积核进行卷积处理，得到通道数为256*2ⁱ ^-1的第十四特征图；

所述特征提取模块，用于：

根据长度和宽度均为3的卷积核，对第十七特征图进行卷积处理，得到通道数为64*2^i-1的并输出第十八特征图；

3.一种基于多尺度卷积和注意力机制的图像分类方法，其特征在于，所述方法包括：

利用解码器，对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图进行解码处理，得到第(M-i+1)个第三特征图；对第M个第三特征图进行解码处理，得到待预测特征图；其中，所述解码器包括叠加层，上采样层和卷积层；所述得到第(M-i+1)个第三特征图具体包括：利用所述叠加层，用于对第i个第二特征图所对应的注意力特征和第(M-i)个第三特征图相叠加，得到第(M-i+1)个叠加特征图；利用所述上采样层，用于对第(M-i+1)个所述叠加特征图进行双线性插值的上采样处理，得到第(M-i+1)个第二十特征图，根据长度和宽度均为1的卷积核，对第(M-i+1)个第二十特征图进行卷积处理，得到第(M-i+1)个第二十一特征图；利用所述卷积层，用于对第(M-i+1)个第二十一特征图，用长度和宽度均为3的卷积核进行卷积处理，得到第(M-i+1)个第三特征图；

4.根据权利要求3所述的方法，其特征在于，对于所述M个编码器中的任意的第i个编码器，包括卷积模块和特征提取模块；所述方法还包括：

根据长度和宽度均为3、的卷积核，对第十七特征图进行卷积处理，得到并输出通道数为64*2^i-1的第十八特征图；