CN114386531A

CN114386531A - 基于双级注意力的图像识别方法及装置

Info

Publication number: CN114386531A
Application number: CN202210085821.4A
Authority: CN
Inventors: 张凯; 徐卿; 袭肖明; 杨光远
Original assignee: Shandong Liju Robot Technology Co ltd
Current assignee: Shandong Liju Robot Technology Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-22
Anticipated expiration: 2042-01-25
Also published as: CN114386531B

Abstract

本发明是关于一种基于双级注意力的图像识别方法和装置，其中，方法包括：获取原始图像和对应的二值目标定位图，并对所述原始图像进行预处理，将所述二值目标定位图缩放为预设尺寸；从预处理后的原始图像中提取抽象特征图；根据所述二值目标定位图和抽象特征，计算得到物体特征图和背景特征图；使用空间注意力机制处理所述物体特征图，以得到新的物体特征图；使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图；使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果。通过该技术方案，提高网络训练效率，提升预测的准确率。

Description

基于双级注意力的图像识别方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于双级注意力的图像识别方法和装置。

背景技术

图像分类是根据图像中的目标的语义信息，判断目标所属的类别的工作，是计算机视觉领域中的重要研究方向。在实际应用的各个领域中，图像分类都有重要的作用，例如生物识别技术中的人脸识别，自动驾驶技术中的交通场景识别，临床医学领域中的医学图像识别等。

目前，深度学习方法在图像分类工作中得到了广泛的应用。卷积神经网络能高效地识别图片的语义信息，判断图片中物体所属的分类。一般来说，位于目标区域的像素点能提供较多的有利于识别语义的特征信息，而背景像素点能提供的特征信息相对较少。但目前的方法通常对图片全图进行同等的特征提取，不考虑物体与背景的差异性，降低了模型的训练效率。此外，也有通过裁剪背景等方式，只对目标进行特征提取的方法，但这些方法完全舍弃了背景信息，使模型提取到的可用特征信息减少，降低了分类器的准确率。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于双级注意力的图像识别方法和装置，从而实现保留背景信息的同时，提高网络训练效率，提升预测的准确率。

根据本发明实施例的第一方面，提供一种基于双级注意力的图像识别方法，所述方法包括：

获取原始图像和对应的二值目标定位图，并对所述原始图像进行预处理，将所述二值目标定位图缩放为预设尺寸；

从预处理后的原始图像中提取抽象特征图；

根据所述二值目标定位图和抽象特征，计算得到物体特征图和背景特征图；

使用空间注意力机制处理所述物体特征图，以得到新的物体特征图；

使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图；

使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果。

在一个实施例中，优选地，根据所述二值目标定位图和抽象特征图，计算得到物体特征图和背景特征图，包括：

使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜；

将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算，以得到所述物体特征图和背景特征图。

在一个实施例中，优选地，使用空间注意力机制处理所述物体特征图，以得到新的物体特征图，包括：

使用空间注意力机制计算空间像素权重分布；

将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算，以得到更新物体像素权重的新的物体特征图。

在一个实施例中，优选地，使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图，包括：

将所述新的物体特征图和背景特征图融合，以得到所述总特征图；

使用通道注意力机制计算通道权重向量；

将所述通道权重向量与所述总特征图进行逐元素相乘计算，以得到所述新的总特征图。

在一个实施例中，优选地，使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果，包括：

使用全连接层计算所述新的总特征图的特征映射向量；

通过所述分类器确定所述特征映射向量对应的概率分布；

将最大概率对应的类别确定为所述原始图像所属的图像类别。

根据本发明实施例的第二方面，提供一种基于双级注意力的图像识别装置，所述装置包括：

数据获取模块，用于获取原始图像和对应的二值目标定位图，并对所述原始图像进行预处理，将所述二值目标定位图缩放为预设尺寸；

特征提取模块，用于从预处理后的原始图像中提取抽象特征图；

计算模块，用于根据所述二值目标定位图和抽象特征，计算得到物体特征图和背景特征图；

第一注意力模块，用于使用空间注意力机制处理所述物体特征图，以得到新的物体特征图；

第二注意力模块，用于使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图；

分类模块，用于使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果。

在一个实施例中，优选地，计算模块包括：

第一计算单元，用于使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜；

第二计算单元，用于将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算，以得到所述物体特征图和背景特征图。

在一个实施例中，优选地，第一注意力模块包括：

第三计算单元，用于使用空间注意力机制计算空间像素权重分布；

第四计算单元，用于将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算，以得到更新物体像素权重的新的物体特征图。

在一个实施例中，优选地，第二注意力模块包括：

融合单元，用于将所述新的物体特征图和背景特征图融合，以得到所述总特征图；

第五计算单元，用于使用通道注意力机制计算通道权重向量；

第六计算单元，用于将所述通道权重向量与所述总特征图进行逐元素相乘计算，以得到所述新的总特征图。

在一个实施例中，优选地，所述分类模块包括：

第七计算单元，用于使用全连接层计算所述新的总特征图的特征映射向量；

第一确定单元，用于通过所述分类器确定所述特征映射向量对应的概率分布；

第二确定单元，用于将最大概率对应的类别确定为所述原始图像所属的图像类别。

根据本发明实施例的第三方面，提供一种基于双级注意力的图像识别装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从预处理后的原始图像中提取抽象特征图；

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项所述方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，将二值目标定位图作为分类器的输入使用，而不是将二值定位图作为图像的预处理工具，通过利用定位图进行并行的局部卷积计算，将物体与背景分离到不同的通道中，通过channel attention（通道注意力）机制调整网络对于物体与背景的偏好，保留了背景信息的同时，提高了网络训练效率，提升了预测的准确率；另一方面，本发明通过提取物体特征图，配合spatial attention（空间注意力）机制，更有效地增强了位于物体区域的重要像素点的重要性，减少了常规空间注意力机制中用于背景像素点的梯度计算，提升了网络训练效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于双级注意力的图像识别方法的流程图。

图2是根据一示例性实施例示出的一种基于双级注意力的图像识别方法的具体流程图。

图3是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S103的流程图。

图4是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S104的流程图。

图5是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S105的流程图。

图6是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S106的流程图。

图7是根据一示例性实施例示出的一种基于双级注意力的图像识别装置的框图。

图8是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中计算模块的框图。

图9是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第一注意力模块的框图。

图10是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第二注意力模块的框图。

图11是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第二注意力模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于双级注意力的图像识别方法的流程图，如图1所示，该方法包括：

步骤S101，获取原始图像和对应的二值目标定位图，并对所述原始图像进行预处理，将所述二值目标定位图缩放为预设尺寸；其中，对原始图像进行的预处理包括将原始图像处理为规定尺寸，单通道，并进行归一化处理。

步骤S102，从预处理后的原始图像中提取抽象特征图；

步骤S103，根据所述二值目标定位图和抽象特征，计算得到物体特征图和背景特征图；

步骤S104，使用空间注意力机制处理所述物体特征图，以得到新的物体特征图；

步骤S105，使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图；

步骤S106，使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果。

在该实施例中，具体地，如图2所示，构建了包含两层注意力机制的网络结构，首先以Resnet50作为基网络，在最后的特征图后添加并行的特殊卷积操作，两个卷积操作分别以物体和背景区域作为感兴趣区域，对特征图进行局部的卷积计算得到两个特殊特征图。对于感兴趣区域为物体的特征图，添加spatial attention（空间注意力）模块来提高模型对于关键像素的注意力。对感兴趣区域为背景的特征图不作处理。将这两个特征图叠加，添加channel attention（通道注意力）模块来为不同的通道进行权重分配，划分物体与背景的重要性，实现模型的高效训练。本发明使用了并行的局部卷积计算将特征图中的物体与背景进行分离，便于进行不同的特征提取，在包含物体信息的特征图中，通过spatialattention来进行更有效的特征提取。而channel attention则是通过重新划分通道的权重，间接为像素点的重要性进行了重新划分，使模型训练时自适应的根据物体与背景的重要性差别进行调整，同时提升了训练的效率与预测的准确率。

如图3所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S301，使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜；

步骤S302，将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算，以得到所述物体特征图和背景特征图。

如图4所示，在一个实施例中，优选地，上述步骤S104包括：

步骤S401，使用空间注意力机制计算空间像素权重分布；

步骤S402，将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算，以得到更新物体像素权重的新的物体特征图。

如图5所示，在一个实施例中，优选地，上述步骤S105包括：

步骤S501，将所述新的物体特征图和背景特征图融合，以得到所述总特征图；

步骤S502，使用通道注意力机制计算通道权重向量；

步骤S503，将所述通道权重向量与所述总特征图进行逐元素相乘计算，以得到所述新的总特征图。

如图6所示，在一个实施例中，优选地，上述步骤S106包括：

步骤S601，使用全连接层计算所述新的总特征图的特征映射向量；

步骤S602，通过所述分类器确定所述特征映射向量对应的概率分布；

步骤S603，将最大概率对应的类别确定为所述原始图像所属的图像类别。

如图7所示，根据本发明实施例的第二方面，提供一种基于双级注意力的图像识别装置，所述装置包括：

数据获取模块71，用于获取原始图像和对应的二值目标定位图，并对所述原始图像进行预处理，将所述二值目标定位图缩放为预设尺寸；

特征提取模块72，用于从预处理后的原始图像中提取抽象特征图；

计算模块73，用于根据所述二值目标定位图和抽象特征，计算得到物体特征图和背景特征图；

第一注意力模块74，用于使用空间注意力机制处理所述物体特征图，以得到新的物体特征图；

第二注意力模块75，用于使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图；

分类模块76，用于使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果。

如图8所示，在一个实施例中，优选地，计算模块73包括：

第一计算单元81，用于使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜；

第二计算单元82，用于将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算，以得到所述物体特征图和背景特征图。

如图9所示，在一个实施例中，优选地，第一注意力模块74包括：

第三计算单元91，用于使用空间注意力机制计算空间像素权重分布；

第四计算单元92，用于将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算，以得到更新物体像素权重的新的物体特征图。

如图10所示，在一个实施例中，优选地，第二注意力模块75包括：

融合单元1001，用于将所述新的物体特征图和背景特征图融合，以得到所述总特征图；

第五计算单元1002，用于使用通道注意力机制计算通道权重向量；

第六计算单元1003，用于将所述通道权重向量与所述总特征图进行逐元素相乘计算，以得到所述新的总特征图。

如图11所示，在一个实施例中，优选地，所述分类模块76包括：

第七计算单元1101，用于使用全连接层计算所述新的总特征图的特征映射向量；

第一确定单元1102，用于通过所述分类器确定所述特征映射向量对应的概率分布；

第二确定单元1103，用于将最大概率对应的类别确定为所述原始图像所属的图像类别。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从预处理后的原始图像中提取抽象特征图；

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于双级注意力的图像识别方法，其特征在于，所述方法包括：

从预处理后的原始图像中提取抽象特征图；

2.根据权利要求1所述的方法，其特征在于，根据所述二值目标定位图和抽象特征图，计算得到物体特征图和背景特征图，包括：

3.根据权利要求1所述的方法，其特征在于，使用空间注意力机制处理所述物体特征图，以得到新的物体特征图，包括：

使用空间注意力机制计算空间像素权重分布；

4.根据权利要求1所述的方法，其特征在于，使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图，以得到新的总特征图，包括：

使用通道注意力机制计算通道权重向量；

5.根据权利要求1所述的方法，其特征在于，使用全连接层计算所述新的总特征图的特征映射向量，并通过分类器确定分类结果，包括：

使用全连接层计算所述新的总特征图的特征映射向量；

通过所述分类器确定所述特征映射向量对应的概率分布；

6.一种基于双级注意力的图像识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，计算模块包括：

8.根据权利要求6所述的装置，其特征在于，第一注意力模块包括：

9.根据权利要求6所述的装置，其特征在于，第二注意力模块包括：

10.根据权利要求6所述的装置，其特征在于，所述分类模块包括：