CN115424123A

CN115424123A - 基于多头注意力机制的多阶段深度网络室内场景识别方法

Info

Publication number: CN115424123A
Application number: CN202211017228.2A
Authority: CN
Inventors: 陈略峰; 段文浩; 吴敏; 李敏
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-02

Abstract

本发明提供了一种基于多头注意力机制的多阶段深度网络室内场景识别方法，包括以下步骤：获取室内场景的数据集，并将数据集按比例分为训练集和测试集；对训练集中的室内场景图像进行预处理和数据增强处理；将增强后的图像输入到3层不同步长的卷积层中进行下采样；将提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息；将深度特征信息输入到池化层、全连接层和分类器中，得到训练完成的分类器；利用训练完成的分类器对测试集进行测试，从而确定室内场景类别。本发明可以获取更好的局部特征信息和深度特征信息，并在减少特征信息的损失的同时实现室内场景的准确识别。

Description

基于多头注意力机制的多阶段深度网络室内场景识别方法

技术领域

本发明属于识别检测技术领域，是机器人对环境感知的基础，具体涉及一种基于多头注意力机制的多阶段深度网络室内场景识别方法。

背景技术

场景识别是人工智能的核心研究领域，主要研究利用场景图像的特征信息对图像中的场景进行分类。场景识别广泛应用于人机交互中，因此机器可以识别图像中的场景信息。因此，场景识别在图像检索、智能机器人、智能安全等领域发挥着重要作用。

与室外场景相比，包含多个对象的室内场景的图像内容更为复杂，且对象之间存在遮挡，因此很难提取场景特征。早期的室内场景识别主要采用中层特征和高层语义特征，识别效果取决于所选特征，不能有效消除室内物体的干扰，准确提取室内场景特征。深度学习算法在很多方面取得了巨大的成就，因此越来越多的学者开始研究深度学习算法来解决室内场景分类问题。

传统的基于深度学习的场景识别方法主要分为以下三类：基于深度学习与视觉词袋相结合的场景识别、基于显著部分的场景识别和基于多层特征融合的场景识别。

在基于深度学习和视觉单词袋相结合的场景识别中，单词袋模型基于文本处理的思想，将图像视为一组无序的视觉单词，提取并聚类从图像中获得的图像块的特征，并构造一个视觉码本来表示图像，简单易用，在一些研究中取得了良好的效果，但是需要针对具体任务进行码本的构建，并且没有充分利用室内场景图像的深度特征信息。

基于显著部分的场景识别方法可以归结为人眼通常只能根据图像中最具代表性的部分来判断场景的类别。一些研究发现，用于场景识别的CNN可以定位图像中能够提供有用信息的目标，但是复杂场景可能包含不止一个显著目标，不同场景的显著目标可能存在一定的重合，对场景识别精度有一定的影响。

对于基于多层特征融合的场景识别，CNN模型的每一层结构都可以学习不同的特征。层次越深，学习到的特征就越抽象和有区别。使用预先训练的CNN模型来提取场景图像特征，并将最后两个完整连接层的输出连接为图像表示。这种方法侧重于使用抽象的全连接层特征来表示图像，而忽略了卷积层中丰富的局部信息，使得图像信息中的局部特征信息没有得到充分利用，降低了室内场景的识别精度。

因此，传统的基于深度学习的场景识别方法，其室内场景图像局部特征和深度特征信息易丢失，没有得到充分利用，从而导致识别精度较低。

发明内容

本发明要解决的技术问题主要在于：传统室内场景识别方法存在的室内场景图像局部特征和深度特征信息易丢失，没有得到充分利用，从而识别精度较低的问题，为了解决该问题，本发明提出一种基于多头注意力机制的多阶段深度网络室内场景识别方法。输入为数据库原始图像和数据增强函数，经过Trivial augmentation数据增强模块得到增强后的室内场景图像，经过三层不同步长的卷积层进行局部特征提取，同时保留更多的特征信息，采用多阶段训练方式，利用深度卷积和多头注意力机制顺序叠加进行深度特征提取，经过最后的池化层和全连接层，得到最终训练完成的分类器，进行最终室内场景的识别与检测。

根据本发明的第一方面，本发明一种基于多头注意力机制的多阶段深度网络室内场景识别方法，包括以下步骤：

S1：获取室内场景的数据集，并将数据集按比例分为训练集和测试集；

S2：对训练集中的室内场景图像进行预处理和数据增强处理，得到增强后的图像；

S3：将增强后的图像输入到3层不同步长的卷积层网络中进行下采样，减小图像的大小，同时保留更多的特征信息和局部信息；

S4：将S3中提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息；

S5：将深度特征信息依次输入池化层、全连接层和分类器中，得到最终权值和训练完成的分类器；

S6：利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试，从而确定室内场景类别。

优选地，步骤S1中，所述获取室内场景的数据集的步骤，包括：

利用情感机器人进行常见室内交互环境的场景图像数据收集，并与IndoorCVPR_09相关数据集合并制作室内场景的数据集。

优选地，步骤S2中，使用Trivial augmentation方法对预处理后的室内场景图像进行数据增强处理，具体包括：

增加一个数据增强函数的集合A作为输入，集合A的数据增强函数包括旋转、平移、翻转、均衡、像素值翻转和亮度，每个数据增强函数都有其对应的增强范围{0,1,2…,N}；

从A中随机采样一个数据增强函数，并从增强范围{0,1,2…,N}中均匀采样一个值作为强度m，其中N表示任意正整数，根据强度m对输入图像进行数据增强，并返回增强后的图像。

优选地，步骤S3中，所述将增强后的图像输入到3层不同步长的卷积层网络中进行下采样的步骤，包括：

将增强后的图像作为输入图像，输入到3层不同步长的卷积层网络中；

第一个卷积层使用3x3，步长为2的卷积，输出通道为32，对输入图像进行一次下采样的操作，减小输入图像的大小，保留更多的特征信息；

将前一个卷积层的输出作为输入，使用两层3x3，步长为1的卷积，获得更好的局部信息。

优选地，步骤S4中，所述主干网络分为四个阶段来生成不同尺度的特征图，为了产生分层表示，在每个阶段之前添加一个2x2，步长为2的卷积层，以减小中间特征的大小，并将其投影到更大的维度；

每个阶段中，在多头注意力机制前还有一个深度卷积层DW，用于局部特征的提取，同时减少计算量。

优选地，步骤S5中，以一个全局平均池化层、一个全连接层和一个带有softmax的1000路分类层结束，得到最终权值和训练完成的分类器。

根据本发明的第二方面，一种基于多头注意力机制的多阶段深度网络室内场景识别装置，包括以下模块：

数据集获取模块，用于获取室内场景的数据集，并将数据集按比例分为训练集和测试集；

数据增强模块，用于对训练集中的室内场景图像进行预处理和数据增强处理，得到增强后的图像；

下采样模块，用于将增强后的图像输入到3层不同步长的卷积层网络中进行下采样，减小图像的大小，同时保留更多的特征信息和局部信息；

深度特征提取模块，用于将下采样模块提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息；

分类器获取模块，用于将深度特征信息依次输入池化层、全连接层和分类器中，得到最终权值和训练完成的分类器；

场景识别模块，用于利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试，从而确定室内场景类别。

根据本发明的第三方面，一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如所述的多阶段深度网络室内场景识别方法的步骤。

根据本发明的第四方面，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的多阶段深度网络室内场景识别方法的步骤。

本发明提供的技术方案具有以下有益效果：

本发明提出一种基于多头注意力机制的多阶段深度网络室内场景识别方法，输入为数据库原始图像和数据增强函数，经过Trivial augmentation数据增强得到增强后的室内场景图像，经过三层不同步长的卷积层进行局部特征提取，同时保留更多的特征信息，采用多阶段训练方式，利用深度卷积和多头注意力机制顺序叠加进行深度特征提取，经过最后的池化层和全连接层，得到最终训练完成的分类器，进行最终室内场景的识别与检测。使用深度神经网络进行了情感机器人交互环境场景识别的实验，并对实验结果进行了分析和验证。从实验结果来看，深度卷积神经网络和多头注意力机制的结合，有效提高了室内场景图像的识别准确率，本发明提出的方法在IndoorCVPR_09数据集上相比VisionTransformer方法识别精度提高了4.3％，在Scene15数据集上识别精度提高了3.2％。

附图说明

下面将结合附图及实施例对本发明的具体效果作进一步说明，附图中：

图1是本发明实施例中基于多头注意力机制的多阶段深度网络室内场景识别方法的流程图；

图2是本发明实施例中Trivial augmentation数据增强示意图；

图3是本发明实施例中基于多头注意力机制的多阶段深度网络结构图；

图4是本发明实施例中基于多头注意力机制的多阶段深度网络室内场景识别装置的结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

基于多头注意力机制的多阶段深度网络室内场景识别方法将深度卷积和多头注意力机制相结合，并采用多阶段深度特征提取，挖掘室内场景图像局部特征和深度特征信息，从而得到更好的检测结果。

实施例一：

参考图1，本实施例提供的一种基于多头注意力机制的多阶段深度网络室内场景识别方法，其具体包括以下步骤：

具体地，步骤S1中：利用情感机器人进行常见室内交互环境的场景图像数据收集，并与IndoorCVPR_09相关数据集合并制作室内场景的数据集，同时将数据集按比例分为训练集和测试集。

(1)将情感机器人胸口摄像头采集到的室内场景图像进行人工分类，相同类别的室内场景图像存放在同一文件夹下，文件夹命名为室内场景图像的类别名称，并将所有采集到的图像转化为RGB图像。

(2)从收集到的情感机器人室内场景图像和IndoorCVPR_09数据集结合生成新的室内场景数据集，以8：2的比例将数据集分为训练集和测试集；数据集场景图像包括会议室，教室，厨房，客厅，卧室等20类室内场景。

需要说明的是，IndoorCVPR_09相关数据集选择、数据集的划分比例，数据集场景图像的种类均可根据实际情况和需求调整或替换。

具体地，预处理过程为：将数据库中图像尺寸缩放到224*224，并将图像通道数改为3；

具体地，本实施例优选Trivial augmentation数据增强进行数据增强处理，可参考图2，图2是本发明实施例中Trivial augmentation数据增强示意图，增加一个数据增强函数的集合A作为输入，集合A的数据增强函数包括旋转、平移、翻转、均衡、像素值翻转、亮度等，每个增强函数都有其对应的增强范围，从A中随机采样一个数据增强函数，然后从增强范围{0,1,2…,N}中均匀采样一个值作为强度m，然后对输入图像进行数据增强，并返回增强后的图像。

需要说明的是，本实施例中优选取N＝30，在其他实施例中，N的取值可根据实际情况和需求调整。

具体地，步骤S3中：将经过数据增强的图像输入到3层不同步长的卷积层网络中进行下采样，减小图像的大小，同时保留更多的特征信息和局部信息。第一个卷积层使用3x3卷积，步长为2，输出通道为32，对输入图像进行一次下采样的操作，减小输入图像的大小，保留更多的特征信息到下一层。然后将前一个卷积层的输出作为输入，使用两层3x3，步长为1的卷积，获得更好的局部信息。以上三层卷积层的设置使得模型得到更好的收敛，同时模型的训练不会对超参数的设置太过敏感。

需要说明的是，本实施例中的主干网络分为四个阶段来生成不同尺度的特征图，为了产生分层表示，在每个阶段之前应用一个2x2，步长为2的卷积层，以减小中间特征的大小(分辨率降低2倍)，并将其投影到更大的维度(维度扩大2倍)。在每个阶段中，几个多头注意力机制顺序堆叠以进行特征变换，同时保持输入的相同分辨率。

每个阶段中，在多头注意力机制前还有一个深度卷积层DW，用于局部特征的提取，同时减少计算量，深度卷积层DW的公式描述为：

DW(X)＝DWConv(X)+X

其中，X表示当前输入图像，X∈H×W×d，H×W是当前输入的分辨率，d表示特征的维数，DWConv表示深度卷积；

多头注意力机制中，使用k×k，步长为k的深度卷积，使得多头注意力机制的输入分别为H_i×W_i×C_i、

和

则多头注意力机制对应的Q_i、K_i、V_i分别为：

Q_i＝(H_i×W_i)×C_i

其中，H_i、W_i和C_i分别表示输入特征图i的高、宽和通道数；

根据Q_i和K_i序列一致、K_i和V_i的token数量一致原则，则多头注意力机制(MultiHead)的计算公式为：

MultiHead(Q_i,K_i,V_i)＝Concat(head₁,…,head_h)W^O

其中，

表示K_i的维度，T表示转置，Attention()表示独立的注意力机制，多头注意力机制MultiHead()则是将多个独立的注意力机制进行Concat操作，即在维度上进行特征层的拼接，并经过变换矩阵W^O进行变换；head_i表示第i个注意力机制进行的独立注意力机制操作，h表示注意力机制的数量，一个注意力机制对应一个特征图，

分别表示Q_i、K_i、V_i对应的变换矩阵；

多头注意力机制能够动态调整权重值，得到更多的局部特征信息以及全局特征信息。与此同时，本发明还采用了多阶段训练模式，在每个阶段中，深度卷积和多头注意力机制顺序堆叠以进行特征变换，同时保持输入的相同分辨率，从而能够提取到室内场景的深度特征，提高室内场景的识别精度。

具体地，步骤S5中以一个全局平均池化层、一个全连接层和一个带有softmax的1000路分类层结束，得到最终权值和训练完成的分类器。

S6：利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试，从而确定室内场景类别；

步骤S6具体包括：

将测试集中的室内场景图像作为待检测图像输入训练完成的分类器中；

根据预设的要求调整所述待检测图像的尺寸大小，本实施例优选调整为224*224*3，与步骤S2中的预处理尺寸一致，生成第一检测图像；

将所述第一检测图像输送至主干网络中进行深度特征提取和匹配识别，生成分类识别信息以及分类识别信息对应的分类概率值；

判断所述分类概率值是否大于预设的分类概率阈值，例如60％，若是，则将所述检测框和分类识别信息作为识别的分类结果；若否，则继续进行其余分类概率值比较，直至分类概率值大于预设的分类概率阈值，得到识别结果。

参考图3，图3是本实施例基于深度卷积和多头注意力机制的网络结构图。输入为数据库原始图像和数据增强函数，经过Trivial augmentation数据增强模块得到增强后的室内场景图像，经过三层不同步长的卷积层进行局部特征提取，同时保留更多的特征信息，采用多阶段训练方式，利用深度卷积和多头注意力机制顺序叠加进行深度特征提取，经过最后的池化层和全连接层，得到最终训练完成的分类器，用于进行最终室内场景的识别与检测。

如图3所示，本实施例基于多头注意力机制的多阶段深度网络室内场景识别方法，包括3个用于下采样，保留更多特征信息的卷积层，以及四个阶段堆叠的深度卷积层和多头注意力机制，进行深度特征的提取，1个池化层、1个全连接层、1个分类输出层。采用卷积层和多头注意力机制的结合，参考R50模型结构，采用多阶段的多头注意力机制的叠加进行深度特征的提取，挖掘室内场景图像局部特征和深度特征信息，从而得到更好的检测结果。

本实施例中，提出一种基于多头注意力机制的多阶段深度网络室内场景识别方法，使用深度神经网络进行了情感机器人交互环境场景识别的实验，并对实验结果进行了分析和验证。实验结果如表1：

表1本发明方法与Vision Transformer方法实验结果对比

	IndoorCVPR_09	Scene15
			Vision Transformer	82.1％	90.3％
本发明方法	86.4％	93.5％

从表1的实验结果来看，本发明提出的方法在IndoorCVPR_09数据集上相比VisionTransformer方法识别精度提高了4.3％，在Scene15数据集上识别精度提高了3.2％。因此将深度卷积神经网络和多头注意力机制的结合，有效提高了室内场景图像的识别准确率。

实施例二：

参考图4，本实施例提供了一种基于多头注意力机制的多阶段深度网络室内场景识别装置，包括以下模块：

数据集获取模块1，用于获取室内场景的数据集，并将数据集按比例分为训练集和测试集；

数据增强模块2，用于对训练集中的室内场景图像进行预处理和数据增强处理，得到增强后的图像；

下采样模块3，用于将增强后的图像输入到3层不同步长的卷积层网络中进行下采样，减小图像的大小，同时保留更多的特征信息和局部信息；

深度特征提取模块4，用于将下采样模块提取到的特征信息输入到主干网络中，利用深度卷积和多头自注意力机制，采用多阶段的训练方式进行深度特征提取，得到深度特征信息；

分类器获取模块5，用于将深度特征信息依次输入池化层、全连接层和分类器中，得到最终权值和训练完成的分类器；

场景识别模块6，用于利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试，从而确定室内场景类别。

实施例三：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一所述的多阶段深度网络室内场景识别方法的步骤，且能实现相同的技术效果，在此不再赘述。

实施例四：

本实施例提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现实施例一所述的多阶段深度网络室内场景识别方法的步骤，且能实现相同的技术效果，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S1中，所述获取室内场景的数据集的步骤，包括：

3.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S2中，使用Trivialaugmentation方法对预处理后的室内场景图像进行数据增强处理，具体包括：

4.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S3中，所述将增强后的图像输入到3层不同步长的卷积层网络中进行下采样的步骤，包括：

5.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S4中，所述主干网络分为四个阶段来生成不同尺度的特征图，为了产生分层表示，在每个阶段之前添加一个2x2，步长为2的卷积层，以减小中间特征的大小，并将其投影到更大的维度；

每个阶段中，在多头注意力机制前还有一个深度卷积层DW，深度卷积层用于局部特征的提取，同时减少计算量；多头注意力机制用于动态调整权重值，得到更多的局部特征信息以及全局特征信息。

6.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S5中，以一个全局平均池化层、一个全连接层和一个带有softmax的1000路分类层结束，得到最终权值和训练完成的分类器。

7.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法，其特征在于，步骤S6中，所述利用训练完成的分类器和最终权值对测试集中室内场景图像进行测试的步骤，包括：

将测试集中室内场景图像作为待检测图像输入训练完成的分类器中；

根据预设的要求调整所述待检测图像的尺寸大小，生成第一检测图像；

判断所述分类概率值是否大于预设的分类概率阈值，若是，则将所述检测框和分类识别信息作为识别的分类结果；若否，则继续进行其余分类概率值比较，直至分类概率值大于预设的分类概率阈值，得到识别结果。

8.一种基于多头注意力机制的多阶段深度网络室内场景识别装置，其特征在于，包括以下模块：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多阶段深度网络室内场景识别方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的多阶段深度网络室内场景识别方法的步骤。