CN111104898A

CN111104898A - 基于目标语义和注意力机制的图像场景分类方法及装置

Info

Publication number: CN111104898A
Application number: CN201911311047.9A
Authority: CN
Inventors: 陈丽琼; 邹炼; 范赐恩; 王嘉乐; 程谟凡; 裘兆炳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-05
Anticipated expiration: 2039-12-18
Also published as: CN111104898B

Abstract

本发明公开了一种基于目标语义和注意力机制的图像场景分类方法及装置，属于图像识别领域，包括：收集或下载自然图像场景分类数据集；计算每类场景的目标概率分布；构建融合了通道注意力和空间注意力机制的场景分类网络，在数据集上进行训练，然后利用训练好的网络计算测试图片的类别概率；对于给定的测试图片，利用现有的目标检测网络检测场景图片存在的目标，并结合上一步的结果计算修正系数；用修正系数乘以类别概率，得到最后的场景分类概率，排序后输出最高概率的场景类别。本发明利用注意力机制提取有效特征，抑制无用特征，并且结合了场景的目标语义信息，使得最后的分类结果更加符合真实的场景类别，提高了自然图像场景分类的准确率。

Description

基于目标语义和注意力机制的图像场景分类方法及装置

技术领域

本发明属于图像识别领域，更具体地，涉及一种基于目标语义信息和注意力机制的自然图像场景分类方法及装置。

背景技术

随着互联网技术的迅猛发展以及智能手机、单反相机等移动设备的快速普及，数字图像已经成为一种被广泛利用的信息媒体，能够获取和访问的图像也在成倍增长。场景分类是图像识别领域的研究热点问题，在海量图像的检索与管理、人机交互、智能机器人、医学应用和旅游导航等领域有着广泛的应用。场景是由目标、空间布局、背景和它们之间的关联关系综合而成，是十分抽象的概念。场景分类不同于目标识别，原因在于场景的类别概念具有很强的主观性和复杂性，它不仅仅取决于场景图片中所包含的目标，还由各个语义区域及其层次结构和空间布局所决定。因此，场景分类也面临着更大的挑战，主要表现在以下方面：1)同类场景的类内差异性大，同一类别的场景中大多存在着相似的目标，但是由于光照变化、尺度变化、拍摄角度变化、天气变化等因素可能导致同类场景呈现不同的表现形式或结构布局，存在很大的差异性；2)不同场景类别可能具有较高的相似性，例如地铁站和火车站、机房和办公室都有着相似的外观和布局，在图片数量和场景类别日益增多的情况下，这种类间歧义性导致场景分类的准确率难以大幅提升。

传统的场景分类算法主要采取特征提取+特征聚合+分类的流程，可以分为基于底层特征的方法和基于高层特征的方法。底层特征关注的是颜色、纹理、形状等视觉特征，比较常用的特征描述子有SIFT、HOG、LBP、GIST特征等，常用的特征聚合模块包括视觉词袋模型(Bag of Visual Words,BoVW)、稀疏编码、费舍尔向量(Fisher Vector,FV)和局部聚合描述子向量(Vector of Locally Aggregated Descriptor,VLAD)，得到聚合的特征之后输入分类器得到场景类别。论文“Object Bank:A High-Level Image Representation forScene Classification&Semantic Feature Sparsification”从高层语义特征的角度入手，用一系列目标检测子的多尺度响应图为基础构建特征向量，通过识别场景中的目标进一步确定场景的类别，该方法在各类数据集上都有较为理想的表现。

上述方法设计方便，符合人眼的直观感知，但是随着数据量和场景类别的增加，传统方法无法提取深层次的图像特征，而深度学习的方法却十分适合处理海量数据的问题。随着MIT67、SUN397、Places365这些大规模场景分类数据集的出现，越来越多的学者将深度卷积神经网络(Convolutional Neural Networks，CNN)用于场景分类任务，典型的网络结构包括AlexNet、VGGNet、谷歌的Inception系列、ResNet、ResNeXt、SENet等。现有的一些基于深度学习的场景分类专利和论文如下：

1)申请号为CN201910302105.5的发明专利“基于改进残差网络的遥感图像场景分类方法”通过在原始的残差网络最后增加一个conv6卷积层，并适当调整了网络的层数减少网络参数，提高了网络在背景纹理复杂的遥感图像数据集上的分类准确率，但是该方法仅使用了单一的特征表示，在实际应用中泛化能力不强。

2)申请号为CN201910614535.0的发明专利“一种基于尺度注意力网络的遥感图像场景分类方法”提出了一种尺度注意力网络，利用注意力模块产生注意力图用于微调场景分类网络，进一步提高了遥感图像场景分类的精度。虽然注意力模块可以突出主要特征，抑制次要特征，但是该方法没有利用到场景图片包含的目标语义信息。

3)论文“Fusing Object Semantics and Deep Appearance Features for SceneRecognition”是一种针对自然图像的场景分类算法，融合了场景图片的目标语义特征、上下文特征和全局特征，最后将特征串联起来用SVM分类，在多个自然图像场景分类数据集都取得了不错的结果。但是特征提取和分类是分开进行的，导致这种方法不能进行端到端的优化。

由此可知，现有技术中的场景分类方法仍存在一定的局限性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于目标语义和注意力机制的图像场景分类方法及装置，由此解决现有场景分类方法存在的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于目标语义和注意力机制的图像场景分类方法，包括：

(1)获取自然图像场景分类数据集，并按照所述数据集的标准划分训练集和测试集；

(2)计算所述训练集中每类场景的目标概率分布，以及在场景图片出现某类目标时，该场景图片属于某类场景的后验概率；

(3)构建基于注意力机制的场景分类网络，使用所述训练集对所述场景分类网络进行训练，并给定所述测试集中的待测图片，使用训练好的场景分类网络计算所述待测图片的场景分类概率；

(4)对于所述待测图片，利用预训练好的目标检测网络检测所述待测图片中存在的目标，并结合所述后验概率得到场景的修正系数；

(5)利用所述修正系数乘以所述场景分类概率，得到修正后的场景分类概率，排序后得到具有最高分类概率的场景类别。

优选地，步骤(2)包括：

(2.1)对所述训练集中的每张图片进行滑动取样，将每张图片分为若干图像块；

(2.2)将各图像块输入到预训练好的基网络进行目标识别，得到各图像块的目标类别概率，对所有图像块的目标类别概率进行求和，得到每张图片的目标概率分布，进而得到所述训练集中每类场景的目标概率分布；

(2.3)基于所述训练集中每类场景的目标概率分布得到在图片出现某类目标时，该图片属于某类场景的后验概率。

优选地，由

确定第j类场景s_j中目标的概率分布，其中，N_j表示所述训练集中第j类场景的图片数量，f_o(x_i)表示属于第j类场景s_j的第i张图片x_i的目标概率分布。

优选地，由

确定图片出现目标o_i时，该图片属于场景s_j的后验概率，其中，p(o_i|s_j)表示p(o|s_j)中第i类目标o_i的概率值，p(s_j)表示第j类场景的先验概率，C表示场景类别数量。

优选地，步骤(3)包括：

(3.1)构建基于注意力机制的场景分类网络，利用所述预训练好的基网络初始化所述场景分类网络，使用所述训练集对所述场景分类网络进行训练；

(3.2)给定所述测试集中的待测图片，利用训练好的场景分类网络对所述待测图片所属的场景类别进行预测，得到每类场景的类别概率。

优选地，步骤(3.1)包括：

使用融合通道注意力和空间注意力的注意力模块嵌入基网络，得到基于注意力机制的场景分类网络，其中，所述注意力模块的输入为原始特征图，经过三个并行的卷积层后，将得到的三个特征图相加，得到中间特征图，所述中间特征图经过通道注意力模块得到第一特征图，经过空间注意力模块得到第二特征图，将所述第一特征图与所述第二特征图相加得到输出特征图；

其中，所述通道注意力模块的输入为所述中间特征图，分别采用最大池化和平均池化对所述中间特征图进行压缩，得到两个通道描述子，然后经过两个全连接层对通道描述子进行激活操作，将得到的结果相加，并将相加后的结果填充到所述中间特征图的大小，作为通道权重。最后将通道权重与所述中间特征图对应位置相乘，得到通道注意力模块的第一特征图；

所述空间注意力模块的输入为所述中间特征图，经过两个并行的膨胀卷积，将两个膨胀卷积后的特征图进行串联操作，再经过一个卷积层，得到空间注意力权重，最后将所述空间注意力权重填充到所述中间特征图的大小后，与所述中间特征图对应位置相乘，得到空间注意力模块的第二特征图。

优选地，步骤(4)包括：

(4.1)对于所述待测图片，利用预训练好的目标检测网络检测所述待测图片中包含的目标类别；

(4.2)基于所述待测图片中包含的目标类别及所述后验概率得到场景的修正系数。

优选地，由

j∈[1,C]得到第j类场景s_j的修正系数t_j，C表示场景类别数量，α(o_i)为权重系数，反映所述待测图片中是否包含第i类目标o_i，p(s_j|o_i)表示所述待测图片出现目标o_i时，所述待测图片属于场景s_j的后验概率。

优选地，步骤(5)包括：

(5.1)由

j∈[1,C]得到第j类场景最后的分类概率

进而得到每类场景最后的分类概率

其中，t_j表示第j类场景s_j的修正系数，r_j表示由所述训练好的场景分类网络对所述待测图片所属的场景类别进行预测，得到的第j类场景的类别概率，C表示场景类别数量；

(5.2)将具有最高分类概率的场景类别作为所述待测图片所属的场景类别预测结果。

按照本发明的另一个方面，提供了一种基于目标语义和注意力机制的图像场景分类装置，包括：

数据集获取模块，用于获取自然图像场景分类数据集，并按照所述数据集的标准划分训练集和测试集；

后验概率获取模块，用于计算所述训练集中每类场景的目标概率分布，以及在场景图片出现某类目标时，该场景图片属于某类场景的后验概率；

场景分类概率获取模块，用于构建基于注意力机制的场景分类网络，使用所述训练集对所述场景分类网络进行训练，并给定所述测试集中的待测图片，使用训练好的场景分类网络计算所述待测图片的场景分类概率；

修正系数获取模块，用于对于所述待测图片，利用预训练好的目标检测网络检测所述待测图片中存在的目标，并结合所述后验概率得到场景的修正系数；

预测模块，用于利用所述修正系数乘以所述场景分类概率，得到修正后的场景分类概率，排序后得到具有最高分类概率的场景类别。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明设计了一种基于注意力机制的场景分类网络，融合了两种注意力机制：通道注意力和空间注意力，有效地增强了有用特征，抑制了无用特征，提高了场景图片的特征表达能力；

(2)本发明为了区分一些相似场景，引入目标检测网络检测场景图片包含的目标，利用目标语义信息计算修正系数，使得最后的分类结果更加接近真实场景，提高了场景分类的准确率。

附图说明

图1是本发明实施例提供的一种方法流程示意图；

图2是本发明实施例提供的一种测试阶段的算法框图；

图3是本发明实施例提供的一种注意力模块结构图；

图4是本发明实施例提供的一种通道注意力模块的结构图；

图5是本发明实施例提供的一种空间注意力模块的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一种基于目标语义信息和注意力机制的自然图像场景分类方法及装置，旨在克服场景图片类内差异性大、类间相似性高的困难，充分利用场景图片的目标语义信息优化场景分类结果，提高分类的准确率。

如图1所示是本发明实施例公开的一种基于目标语义信息和注意力机制的自然图像场景分类方法的流程示意图，在图1所示的方法中包括以下步骤：

步骤1：下载公开的数据集，目前比较常用的场景分类数据集有MIT67、SUN397、Places365等，按照数据集官方给出的标准划分训练集和测试集；

步骤2：计算数据集中每类场景的目标概率分布，以及出现某类目标时，场景图片属于某类场景的后验概率；

在本发明实施例中，步骤2的具体步骤如下：

步骤2.1：以步骤1下载的任意一个数据集为例，比如以MIT67数据集为例，该数据集共有15620张图片，包含C类室内场景(C＝67)，每个类别至少包含100张图片，按照通用的评估标准，每个类别选择80张用于训练，20张用于测试。对训练集的每一张图片进行滑动取样，滑动窗口的大小为k×k(在本发明实施例中设k＝128)，步长设为d(在本发明实施例中设d＝32)。假设单张图片x采样后得到的图像块集合表示为A＝{a₁,...,a_i,...,a_n}，其中，a_i表示大小为k×k的图像块，n表示图像块的个数；

步骤2.2：下载在ImageNet数据集上训练好的ImageNet-CNN(在本发明实施例中优先选用ResNet-101，也可以选择其他的基网络，如AlexNet、VGGNet、ResNeXt、SENet等网络)，将集合A中的图像块输入到ResNet-101进行目标识别，得到n个图像块的分数集合H＝{h₁,...,h_i,...,h_n}，其中h_i为1000×1维的向量，表示图像块a_i的目标类别概率，对图像x中所有图像块的目标分数向量进行求和，得到单张图像的目标概率分布f_o(x)，其计算公式如下：

步骤2.3：根据步骤2.2的结果计算MIT67训练集中每类场景的目标概率分布，假设数据集中第j类场景s_j的所有图片集合表示为

其中N_j表示数据集中第j类场景的图片数量，j∈[1,C]，则第j类场景s_j中目标的多项式分布p(o|s_j)计算如下：

步骤2.4：假设每类场景的先验概率为p(s_j)，在本发明实施例中p(s_j)＝1/C，根据贝叶斯公式推断出现目标o_i时场景图片属于场景s_j的后验概率，其计算公式如下：

其中p(o_i|s_j)是一个标量，表示p(o|s_j)中第i类目标的概率值。

步骤3：构建基于注意力机制的场景分类网络，用下载的公开数据集进行训练，测试阶段的算法框图如图2所示，网络由两个分支组成，上面的分支是场景分类网络，用于给出初步的场景分类概率，下面的分支是目标检测网络，用于计算修正系数，使得预测结果更加接近真实的场景类别。测试时，给定一张待测的场景图片，首先用训练好的场景分类网络计算测试图片的场景类别概率。

在本发明实施例中，步骤3的具体步骤如下：

步骤3.1：构建基于注意力机制的场景分类网络，为了捕获场景图片的类内差异性，设计了一种融合通道注意力和空间注意力的注意力模块，可以方便的嵌入基础网络中，如VGGNet、ResNet、ResNeXt等，用来增强有效的特征以及提取显著目标的语义特征，从而提高场景分类的准确率。

在本发明实施例中选用ResNet101作为场景分类的基础网络，用图3所示的注意力模块替换残差网络每一个Bottleneck中原有的3×3卷积层，得到基于注意力机制的场景分类网络。该模块输入为D×H×W大小的特征图，经过三个并行的卷积层，卷积核的大小分别为1×1,3×3,5×5，将得到的三个特征图相加，得到中间特征图F。F经过通道注意力模块得到特征图F_c，经过空间注意力模块得到特征图F_s，最后的输出特征图等于两个分支的结果相加，计算公式如下：F_o＝F_c+F_s；

该注意力模块融合了通道注意力和空间注意力，可以有效增强有用特征、抑制无用特征，从而提高场景分类的准确率。

具体地，通道注意力模块的结构如图4所示，输入为D×H×W大小的中间特征图F，分别采用最大池化和平均池化对特征图进行压缩，得到两个D×1×1的通道描述子。然后经过两个全连接层对通道描述子进行激活操作，将得到的结果相加。图4中的Reshape表示将D×1×1大小的通道描述子填充到输入特征图的大小(即D×H×W)，作为通道权重，最后将通道权重与中间特征图F对应位置相乘，得到通道注意力模块的特征图F_c。

具体地，空间注意力模块的结构如图5所示，输入为D×H×W大小的中间特征图F，分别经过膨胀值为1和2、卷积核大小为3×3、滤波器个数为D/r的膨胀卷积(本发明实施例中设r＝16)。采用膨胀卷积是为了增大网络的感受野，卷积后的特征图尺寸为D/r×H×W，将两个膨胀卷积后的特征图进行串联(Concat)操作，再经过一个卷积核大小为1×1的卷积，得到空间注意力权重(尺寸为1×H×W)。最后将权重填充到D×H×W的大小，与中间特征图F对应位置相乘，得到空间注意力模块的特征图F_s。

步骤3.2：利用ImageNet或Places365数据集上预训练的ResNet101初始化基于注意力机制的场景分类网络，在训练集上微调，保存训练好的分类网络；

步骤3.3：给定一张测试图片，利用训练好的场景分类网络对场景类别进行预测，得到每类场景类别概率R＝[r₁,...,r_j,...,r_C]，R为C×1维的向量。

步骤4：对于给定的测试图片，利用目标检测网络检测场景图片存在哪些目标，结合步骤2的结果计算修正系数。

在本发明实施例中，步骤4的具体步骤如下：

步骤4.1：采用在COCO数据集和ImageNet数据集上联合训练的目标检测网络YOLOv2对给定的测试图片进行检测，得到场景图片中包含的目标类别以及位置信息；

步骤4.2：根据步骤4.1的检测结果计算每一类场景的修正系数t_j，其计算公式如下：

其中，α(o_i)为权重系数，反映场景图片中是否包含某类目标。当场景图片中检测到目标o_i时，α(o_i)取值为α；没有检测到时α(o_i)取值为1-α，p(s_j|o_i)表示步骤2.4中计算得到的后验概率。

步骤5：用步骤4的修正系数乘上步骤3的类别概率，得到最后的场景分类概率，排序后输出具有最高概率的场景类别。

在本发明实施例中，步骤5的具体步骤如下：

步骤5.1：用步骤4.2中每一类场景的修正系数t_j乘上步骤3.3中分类网络预测出来的类别概率r_j，得到每类场景最后的分类概率

其计算公式如下：

步骤5.2：对步骤5.1得到的场景分类概率

按从大到小排序，输出具有最高概率的场景类别作为预测后的结果。结合了目标语义信息和注意力机制的场景分类网络使得修正后的分类结果更接近真实的场景类别，极大地提高了场景分类的准确率。

在本发明的另一实施例中，还提供了一种基于目标语义和注意力机制的图像场景分类装置，包括：

数据集获取模块，用于获取自然图像场景分类数据集，并按照数据集的标准划分训练集和测试集；

后验概率获取模块，用于计算训练集中每类场景的目标概率分布，以及在场景图片出现某类目标时，该场景图片属于某类场景的后验概率；

场景分类概率获取模块，用于构建基于注意力机制的场景分类网络，使用训练集对场景分类网络进行训练，并给定测试集中的待测图片，使用训练好的场景分类网络计算待测图片的场景分类概率；

修正系数获取模块，用于对于待测图片，利用预训练好的目标检测网络检测待测图片中存在的目标，并结合后验概率得到场景的修正系数；

预测模块，用于利用修正系数乘以场景分类概率，得到修正后的场景分类概率，排序后得到具有最高分类概率的场景类别。

其中，各模块的具体实施方式可以参考方法实施例的描述，本发明实施例将不再复述。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于目标语义和注意力机制的图像场景分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤(2)包括：

3.根据权利要求2所述的方法，其特征在于，由

4.根据权利要求3所述的方法，其特征在于，由

5.根据权利要求1所述的方法，其特征在于，步骤(3)包括：

6.根据权利要求5所述的方法，其特征在于，步骤(3.1)包括：

其中，所述通道注意力模块的输入为所述中间特征图，分别采用最大池化和平均池化对所述中间特征图进行压缩，得到两个通道描述子，然后经过两个全连接层对通道描述子进行激活操作，将得到的结果相加，并将相加后的结果填充到所述中间特征图的大小，作为通道权重，最后将通道权重与所述中间特征图对应位置相乘，得到通道注意力模块的第一特征图；

7.根据权利要求1至4任意一项所述的方法，其特征在于，步骤(4)包括：

8.根据权利要求7所述的方法，其特征在于，由

9.根据权利要求8所述的方法，其特征在于，步骤(5)包括：

(5.1)由

j∈[1,C]得到第j类场景最后的分类概率

进而得到每类场景最后的分类概率

10.一种基于目标语义和注意力机制的图像场景分类装置，其特征在于，包括：