CN111199212A

CN111199212A - 基于注意力模型的行人属性识别方法

Info

Publication number: CN111199212A
Application number: CN202010001740.2A
Authority: CN
Inventors: 任劼; 胡剑波; 章万韩
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-26
Anticipated expiration: 2040-01-02
Also published as: CN111199212B

Abstract

本发明公开了一种基于注意力模型的行人属性识别方法，具体包括如下步骤：步骤1：对输入图像进行卷积特征提取，得到特征F；步骤2：将步骤1中提取的特征送入CBAM模块进行注意力特征提取，得到注意力特征向量F″；步骤3：经过Inception网络以及每个Inception网络后的CBAM，得到最终的特征向量；步骤4：对特征向量进行识别进而分类得到识别结果。本发明旨在改进传统算法训练时间长与硬件要求高的缺点，即减小网络模型大小的同时又能保持、接近、甚至优于传统算法的精确度。

Description

基于注意力模型的行人属性识别方法

技术领域

本发明属于智能识别技术领域，具体涉及一种基于注意力模型的行人属性识别方法。

背景技术

在智能监控中，行人的属性识别是一个热点研究课题。行人属性是指人的一些可观测的外部特征，可作为重要的生物特征信息被用于行人再识别，安防监控，智慧城市等任务中。根据属性的类型，可将行人属性分为具体属性和抽象属性两个部分。具体属性是对人物图像中，人的不同区域的具体细节描述。例如，发型及头发颜色、帽子、眼镜等。抽象属性与一些抽象概念相对应，如性别、身体方向和年龄，这些抽象概念通常不能从单个区域进行分析。

根据不同的特征层次，行人属性识别的方法大致可以分成两类：基于整体区域的分析方法和基于局部区域的分析方法。基于整体区域的分析方法是将整个人体作为输入进行处理，所需的模型通常较为简单。然而，不同于目标检测，行人属性识别是一个细粒度的识别，包含了对同一类中不同子类物体间的更细化的分类。在实际场景中，某些特定的行人属性总是由图像中某一小块区域决定。因此，有许多研究者提出了基于局部区域的分析方法，利用不同属性和身体部位之间的对应关系来识别这些属性。J.Zhu等人提出了一个多标签卷积神经网络MLCNN，它将整张图分成15个重叠区域，用了一个卷积神经网络去获取特征。这类方法通常包括三个步骤：首先检测重要的人体图像子区域，然后提取每个子区域的特征，最后基于预先训练的分类器对特征进行属性识别。考虑到不同的属性大多发生在女性身上，所以头发的长度可以作为性别的判断依据。因此，更好地识别出行人属性特征的细节，并将不同细节更好地结合起来可以提高行人属性识别的准确度。

随着深度学习的研究，深度CNN(ConvolutionalNeuralNetworks)在行人属性识别中展现出了显著的效果。为了进一步提高性能，一些学者采用了增加网络深度的方法对CNN的网络结构进行改进。但是，随着网络深度的增加和模型的复杂度增高，所需的训练时间和硬件实现难度增加。

发明内容

本发明的目的是提供一种基于注意力模型的行人属性识别方法，旨在改进传统方法训练时间长与硬件要求高的缺点，即减小网络模型大小的同时又能保持、接近、甚至优于传统方法的精确度。

本发明所采用的技术方案是，一种基于注意力模型的行人属性识别方法，具体包括如下步骤：

步骤1：对输入图像进行卷积特征提取，得到特征F；

步骤2：将步骤1中提取的特征送入CBAM模块进行注意力特征提取，得到注意力特征向量F″；

步骤3：经过Inception网络以及每个Inception网络后的CBAM，得到最终的特征向量；

步骤4：对特征向量进行识别进而分类得到识别结果。

本发明的特点还在于：

步骤2中CBAM是一个结合通道特征以及空间特征的注意力图提取模型，由简称为CAM的通道注意力模块和简称为SAM的空间注意力模块串联而成。

步骤2的具体过程如下：

步骤2.1：F通过CAM得到通道注意力图M_C(F)；

步骤2.2：M_C(F)与F进行元素相乘得到通道注意力特征F′；

步骤2.3：F′传入SAM中，得到空间注意力图M_S(F′)；

步骤2.4：M_S(F′)再与F′进行元素相乘，得到注意力特征向量F″。

步骤3中Inception网络选取Inception-v3作为特征提取的基础网络。

步骤3的具体过程如下：

步骤3.1：将步骤2中得到的输出F″输入到Inception网络使用小卷积核进行降维，减少参数的个数；

步骤3.2：将3.1中经过降维的特征输入CBAM模块，进行步骤2中的操作；

步骤3.3：重复上述两个步骤共三次，得到最终的特征向量。

步骤4的具体过程为：

步骤4.1：将步骤3中得到的特征向量传入简称为GAP的全局平均池化层与简称为FC的全连接；

步骤4.2：对每个特征图进行平均值计算；

步骤4.3：将上一步得到的结果用Softmax进行分类，Softmax是一个多分类器，可以计算预测对象属于各个类别的概率，得到该输入的识别结果。

其计算公式为：

其中，z是上一层的输出，Softmax分类器的输入，维度为C。y_i为预测对象属于第C类的概率。

步骤2.1的具体过程为：

CAM将输入分别通过最大池化层和平均池化层，对特征进行空间维度的压缩，然后用Sigmoid函数对其进行归一化，得出通道注意力图M_C(F)。

步骤2.3的具体过程为：

将F′传入SAM模块中使F′经过最大池化和平均池化操作重新结合，然后经过卷积操作，通过Sigmoid函数进行归一化，得到M_S(F^′)。

最大池化操作，即对邻域内特征点取最大，计算公式为：

其中h代表所选池化窗口的高度，w代表池化窗口的宽度，x_i,j表示坐标为(i，j)的特征点值；

平均池化操作，对邻域内特征点求平均，计算公式为：

Sigmoid函数可以将输入的数据映射在(0，1)之间，其计算公式为：

其中x为输入的数据。

本发明的有益效果是，本发明提出了一种基于注意力模型的行人属性识别方法——MCBAM。所提出的方法采用了已在各识别任务中表现良好的 Inception-V3，对感兴趣区域快速定位，提高对细节属性的识别能力。 Inception-V3网络利用较小的卷积核和不对称的卷积概念来减少网络参数的数量。卷积块注意力模块(ConvolutionalBlockAttentionModule，以下简称 CBAM)采用通道注意模块和空间注意模块，分别将通道信息和空间信息进行提取。再将生成的注意图与Inception-V3特征图相乘，进行自适应特征细化，进一步提高了识别性能。本发明提供的方法在减小网络模型大小的同时保持、接近、甚至优于传统算法的精确度。

附图说明

图1是本发明一种基于注意力模型的行人属性识别方法的流程图；

图2是本发明CBAM模块的结构示意图；

图3是图2中CAM模块的结构示意图；

图4是图2中SAM模块的结构示意图；

图5是图2中IBC模块的结构示意图；

图6是Inception-v3网络结构示意图；

图7是采用PETA数据集时的两组属性分析结果图；

图8是本发明在批尺寸等于8时，PETA数据集行人属性的准确率示意图；

图9是采用PA-100K的数据集时的两组行人属性分析结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于注意力模型的行人属性识别方法，如图1所示，具体包括如下步骤：

步骤1：对输入图像进行卷积特征提取，得到特征F；

步骤2的具体过程为：

步骤2.1：F通过CAM得到通道注意力图M_C(F)，具体的，CAM将输入分别通过最大池化层和平均池化层，对特征进行空间维度的压缩，然后用Sigmoid函数对其进行归一化，得出通道注意力图M_C(F)。

步骤2.2：M_C(F)与F进行元素相乘得到通道注意力特征F′；

步骤2.3：F′传入SAM中，得到空间注意力图M_S(F′)，具体的，将F′传入 SAM模块中使F′经过最大池化和平均池化操作重新结合，然后经过卷积操作，通过Sigmoid函数进行归一化，得到M_S(F′)。

其中，CBAM模块的结构如图2所示，CBAM是一个结合通道特征以及空间特征的注意力图提取模型，由CAM(channelattentionmodule)和SAM (spatialattentionmodule)两个模块组成，CBAM的输入是由图像经过卷积层计算得到的特征，即

F通过CAM得到通道注意力图M_C(F)。M_C(F) 与F进行元素相乘得到通道注意力特征F′。然后，F′传入SAM中，得到空间注意力图M_S(F′)。M_S(F′)再与F′进行元素相乘，最终得到

整体过程可概括为：

式中

表示元素相乘。

如图3所示，为提取通道注意力特征图的模型CAM的模块结构示意图， CAM将输入分别通过最大池化层和平均池化层，对特征进行空间维度的压缩，然后用Sigmoid函数对其进行归一化，得出通道注意力图M_C(F)。

最大池化操作，即对邻域内特征点取最大。计算公式为：

其中j＝1,…,K,…

平均池化操作，对邻域内特征点求平均。计算公式为：

α_i∈{0，1}^K，α_i，j＝1当且仅当

其中j＝1,…,K,…

由于特征图的每个通道都被视为特征检测器，CAM注重的是对输入图像有意义的特征。为了有效地计算通道注意力特征，网络压缩了输入特征图的空间尺寸。

对于空间信息部分，目前采用的是平均池化的方法进行提取。同时，最大池化的方法收集了关于不同对象特征的另外一个线索，即空间信息，用以推断更精细的通道注意力特征。因此，同时使用最大池化和平均池化两种池化方法可提升网络的特征提取能力，从而大大提高网络的表示能力。

如图4所示，SAM表示的是一个提取空间注意力特征图的模型。输入的 F′传入最大池化层和平均池化层再对其进行结合，再经过卷积层后，通过 Sigmoid函数对其进行归一化。

与CAM不同的是，空间注意力特征注重的是提供信息的区域，它与通道注意力特征互补。为了总结空间信息，目前普遍采用平均池化。周等人使用平均池化有效地了解目标对象的范围，Hu等人在他们的注意力模块中采用平均池化来计算空间统计。通过连接最大池化和平均池化，计算出空间注意力特征；再将空间注意力特征通过卷积层，最终生成空间注意力特征图。

图2中的IBC模块在其不断加深网络结构的背景下，庞大的计算量使得网络计算成本不断增加。在现有的特征抽取网络后加入注意力提取模块则可以提高网络识别性能，使深度不太深的简单网络也可以达到深度较深的网络的所能达到的性能。所以，本文将Inception网络和CBAM结合，组成了IBC 模块，对特征进行抽取，其网络结构如图5所示。

步骤3：经过Inception网络以及每个Inception网络后的CBAM，得到最终的特征向量，其中，Inception网络选取Inception-v3作为特征提取的基础网络，具体结构如图6所示，选取Inception-v3作为特征提取的基础网络是由于该网络不仅可以减少计算量和参数的个数，并且在增加了网络宽度的同时，增加了网络对尺度的适应性，Inception-v3与Inception-v1相比，Inception-v3 网络将一个n×n的卷积核分解为1×n和n×1两个卷积核，并且加入BN (batchnormalized)进行正则化处理。例如，如果将一个5×5的卷积核分成了2个3×3的卷积核，在计算成本上，一个5×5的卷积是一个3×3卷积的2.78 倍。再将3×3的卷积核分解成1×3和3×1的卷积核。该方法在计算成本上要比单个3×3的卷积核降低33％。因此，采用Inception-v3网络的优势是在减少计算成本的同时，保证了网络的性能。

步骤3的具体过程为：

步骤3.3：重复上述两个步骤共三次，得到最终的特征向量。

步骤4：对特征向量进行识别进而分类得到识别结果。

步骤4的具体过程为：

其中，GAP层的作用是对整个网络在结构上做正则化防止过拟合，在引入GAP 层的同时加入FC层。FC层的作用则是对特征进行分类。经过主网络得出的特征，将其全部联系起来，这时得到的是经过多次卷积(CBAM模块和IBC 模块)后高度抽象化的特征，然后经过GAP层和FC层的整合，对各种分类情况都输出一个概率，之后可以根据FC层得到的概率进行分类。

步骤4.2：对每个特征图进行平均值计算；

步骤4.3：将上一步得到的结果用Softmax进行分类，所述Softmax是一个多分类器，可以计算预测对象属于各个类别的概率，得到该输入的识别结果。其计算公式为：

针对上述方法对其进行实验分析

实验在ubuntu16.04系统下进行，选取了pytorch作为网络框架，采用两个公版的NVIDIAGEFORCE2080(8GB)GPU进行SLI。

在实验中，我们将随机梯度下降的方法作为优化器，初始学习率设置为 0.002，动量设置为0.9。为了验证所提出算法的有效性，本文采用了平均准确率(mA)、准确度(Accu)、精准度(Prec)、召回率(recall)andF1得分 (F1-score)这五个评估标准对所提出的算法和现有的算法在使用PETA和 PA-100K两个数据集下进行了对比。

(1)PETA数据集中结果分析

PETA数据集是由香港中文大学信息工程系的邓等人提出。它是由8个室外场景和2个室内场景组成的，包含8705个行人，共19000张图像。其分辨率范围较大，由范围从17*39至169*365大小的图片组成。每个行人标注了 61个二值的和4个多类别的属性。如图7所示，为采用PETA数据集时的两组属性分析结果，行人属性分析的结果在图片的右边展示。例如图7a中的识别结果为年龄在31-45岁之间，穿着鞋子的短发男性；图7b中的识别结果为年龄在16-30岁之间，穿着牛仔裤的短发男性，同图7a一样，性别属性作为默认属性，并不显示。

表1采用PETA数据集的性能分析

表1为本发明所提出算法与ELF-mm，FC7-mm，FC6-mm，ACN算法在 PETA数据集下的对比结果。考虑到不同批尺寸下对特征提取时的侧重点不同，本文还对所提出算法在不同批尺寸下的结果进行了对比。表1中B表示批尺寸(batchsize)。实验结果表明MCBAM网络在Prec和Recall上有着不错的效果。从B的对比中可以发现，在PETA数据集中，B＝16的时候为相对最适参数。当批尺寸的大小B为8的时候，训练实验时间约为47张/s；当B为 16时，训练实验时间约为70张/s；当B为32时，训练实验时间约为88张/s。模型大小约为18MB。

如图8所示，展示的是本文所提出的算法在批尺寸等于8时，PETA数据集行人属性的准确率，由表可见，该算法在PETA数据集下也能得到良好的效果。

(2)PA-100K数据集下实验对比

PA-100K是由刘等人提出的，作为一个大规模的行人属性数据集， PA-100K包含100000张行人图片，分别拍摄于598个场景。PA-100K数据集中，属性被设置为26种，有性别、年龄以及物体属性，如手提包，穿着等。与其他公开数据集相比，PA-100K提供了一个广泛的行人属性数据集。针对 PA-100K数据集，本文所提出的算法与DeepMar，MNet以及HY-net的结果进行了对比。

如图9所示，采用PA-100K的数据集时的两组行人属性分析结果，行人属性分析的结果在图片的右边展示。例如图9c中的识别结果为年龄在18-60 岁之间，戴眼镜穿着长袖、裤子的男性，其中性别属性作为默认属性，并不显示；图9d中的识别结果为年龄在18-60岁之间，穿着长袖、裤子的女性。

表2 PA-100K下实验方法对比

从表2中可以看出，在PA-100K数据集中，MCBAM在Prec以及F1的得分中，超过HY-net。当B＝32时，MCBAM的F1得分上升0.07％，Prec得分上升2.5％。而对比MNet，B＝8时，MCBAM的mA得分上升0.33％，Accu 得分上升0.76％，Prec得分上升3.11％，F1得分上升0.73％。

相比于PETA数据集，MCBAM在数据量更大的PA-100K数据集上更能展示网络优势。从B的对比中可以发现，网络MCBAM在B＝8的时候，mA超过了B＝16和B＝32的网络。实验表明，当B＝8时，mA的值高于B＝16和 32。在对比各项属性预测值之后，当B取值小，网络模型更加注重细小的特征。

本发明一种基于注意力模型的行人属性识别方法，所提出的方法采用了已在各识别任务中表现良好的Inception-V3，对感兴趣区域快速定位，提高对细节属性的识别能力。Inception-V3网络利用较小的卷积核和不对称的卷积概念来减少网络参数的数量。卷积块注意力模块 (ConvolutionalBlockAttentionModule，以下简称CBAM)采用通道注意模块和空间注意模块，分别将通道信息和空间信息进行提取。再将生成的注意图与Inception-V3特征图相乘，进行自适应特征细化，进一步提高了识别性能。本发明提供的方法在减小网络模型大小的同时保持、接近、甚至优于传统算法的精确度。