CN111597870B

CN111597870B - 一种基于注意力机制与多任务学习的人体属性识别方法

Info

Publication number: CN111597870B
Application number: CN202010225601.8A
Authority: CN
Inventors: 邹良钰; 程球; 毛泉涌; 文凌艳; 张永晋
Original assignee: CETC 52 Research Institute
Current assignee: CETC 52 Research Institute
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2022-05-03
Anticipated expiration: 2040-03-26
Also published as: CN111597870A

Abstract

本发明公开了一种基于注意力机制与多任务学习的人体属性识别方法，包括获取行人图像进行处理得到人体框；构建共享卷积网络，对人体框进行共享特征提取；针对人体各属性构建独立的分支卷积网络，以共享特征作为各分支卷积网络的输入，得到各分支卷积网络的输出作为对应属性的个性特征；将得到的各属性的个性特征分别输入至各属性分支对应的注意力机制网络，生成各属性的注意力图，将注意力图叠加至对应的个性特征上，得到定位有对应属性的所属区域的特征图；将特征图分别输入至各属性分支对应的全连接层，输出人体各属性的预测识别结果。本发明可学习各属性之间的内在联系，并且得到各属性的关键信息区域，提供属性识别的准确率。

Description

一种基于注意力机制与多任务学习的人体属性识别方法

技术领域

本申请属于计算机视觉领域，具体涉及一种基于注意力机制与多任务学习的人体属性识别方法。

背景技术

随着人工智能的发展和高清视频监控设备的大范围部署，行人属性识别在视频监控、智能零售业、行人重识别等领域有着良好的应用前景，受到了越来越多的研究者的关注，并且已成为视频监控系统领域的新型研究主题。视频监控分布在城市的各个角落，如果从海量的监控视频信息中提取有效信息，必然会耗费大量的人力物力，效率低下。行人属性识别是对检测到的行人结构化属性进行提取，一般包括性别、年龄段、上衣类型、上衣颜色等，这种有效的结构化信息，会给监控视频的检索工作带来极大的便利。

最早的行人属性识别通过人工提取特征，并针对每个不同的属性分别训练分类器。随着CNN的发展，人们开始把所有属性置于同一个网络进行多任务训练，并发现多任务训练能够带来更好的效果。目前行人属性识别的基本方法是将整个图片扔进同一个CNN网络，并输出多个代表属性的标签进行分类。行人属性识别属于多标签分类问题，但因为其各个属性粗细粒度不同、收敛速度不同，以及容易受到遮挡、光照等因素的影响，当前监控环境下对行人属性的识别效果一直不甚理想，目前最前沿的算法也只能在mAP(平均准确率)上达到 80％左右。

目前，行人属性识别主要存在以下几个问题：

1)针对细粒度属性，如眼镜、首饰，经过多层的卷积层和池化层处理，该特征减弱或消失，传统的直接提取整张图像的特征无法很好的识别这些属性；另外，行人属性各不相同，有的属性需要浅层特征，而有的属性需要高层特征，有的属性需要局部特征，有的属性需要全局特征才能识别，如何提取一个能够包含所有以上针对不同属性的特征就成了至关重要的问题。

2)每个属性的收敛速度不同，会导致不同属性在训练过程中影响到其他属性的识别效果。

3)同一个属性在不同的样本中的相对位置可能不同，如人们背包的位置可能在后背，也可能在腰间附近。

4)模型训练样本均为人工标注，行人均在框中心位置，而实际应用中，属性识别的输入为检测输出，行人有可能不在行人框的中心或者人体框不全，从而影响到属性识别的效果。

因此解决上述问题，提取准确的人体属性信息，对视频监控领域的检索工作具有重要意义。

发明内容

本申请的目的在于提供一种基于注意力机制与多任务学习的人体属性识别方法，可学习各属性之间的内在联系，并且得到各属性的关键信息区域，提供属性识别的准确率。

为实现上述目的，本申请所采取的技术方案为：

一种基于注意力机制与多任务学习的人体属性识别方法，所述基于注意力机制与多任务学习的人体属性识别方法，包括：

获取行人图像，采用行人检测算法对行人图像进行处理，得到人体框；

构建共享卷积网络，对所述人体框进行共享特征提取；

针对人体各属性构建独立的分支卷积网络，以所述共享特征作为各分支卷积网络的输入，得到各分支卷积网络的输出作为对应属性的个性特征；

将得到的各属性的个性特征分别输入至各属性分支对应的注意力机制网络，生成各属性的注意力图，将注意力图叠加至对应的个性特征上，得到定位有对应属性的所属区域的特征图；

将定位有对应属性的所属区域的特征图分别输入至各属性分支对应的全连接层，输出人体各属性的预测识别结果。

作为优选，所述共享卷积网络为BN_inception网络。

作为优选，所述人体属性包括是否有背包、背包颜色、上衣类型、下衣类型和鞋子颜色。

作为优选，所述针对人体各属性构建独立的分支卷积网络，包括：

所述上衣类型和下衣类型具有粗粒度，均采用三层卷积网络；

所述是否有背包和背包颜色具有中粒度，均采用特征金字塔网络；

所述鞋子颜色具有细粒度，采用加入了Bottom-up path augmentation结构的PANet网络。

作为优选，所述注意力机制网络从输入侧至输出侧包括依次连接的globalaverage pooling层、1x1的conv层、激活函数ReLU、1x1的conv层、Sigmoid 层和Mul层。

本申请提供的基于注意力机制与多任务学习的人体属性识别方法，通过结合基于注意力机制的属性粗定位和多任务学习，一方面可以得益于多任务训练，各个属性之间共享底层特征，使各个属性训练任务之间相互获益；另一方面，通过注意力机制定位属性所属区域，进一步提高属性识别准确率。

附图说明

图1为本申请基于注意力机制与多任务学习的人体属性识别方法的流程图；

图2为本申请注意力机制网络的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

其中一个实施例中，提供一种基于注意力机制与多任务学习的人体属性识别方法，该方法通过注意力机制和多任务训练提高人体属性识别的准确度，对监控视频中检测到的行人结构化属性进行提取，解决了从海量监控视频中提取有效信息的难度，给监控视频的检索工作带来极大的便利。

如图1所示，本实施例中的基于注意力机制与多任务学习的人体属性识别方法，包括：

步骤S1、获取行人图像，采用行人检测算法对行人图像进行处理，得到人体框。

在具体应用时，根据监控视频采集的数据获取行人图像，经过行人检测算法剪切出人体框。本实施例采用现有的行人检测算法，例如HOG+SVM的行人检测算法或HOG+AdaBoost的行人检测算法等。通过行人检测算法将每张图像中的行人一一检测出来，分别进行属性识别。

当然在本申请的人体属性识别方法具体应用之前，需要对算法(本申请的人体属性识别方法)进行训练以保证识别准确度。在训练过程中同样根据监控视频采集的数据获取行人图像，经过行人检测算法剪切出人体框，然后清洗并标注，对人体各属性进行标注。

将标注后的数据按照一定比例(例如7:2:1)分成训练集、验证集、测试集，首先用训练集对算法进行训练至收敛，后用验证集验证算法的训练效果，若训练效果不达标则重新训练；若达标则采用测试集对算法进行最终的测试。

步骤S2、构建共享卷积网络，对所述人体框进行共享特征提取。

采用共享卷积网络提取共享特征，使各属性之间共享底层特征，从而有利于各属性的训练任务之间相互获益，避免不同属性在训练过程中影响到其他属性的识别效果。

为了保证共享特征提取的有效性，在一实施例中，共享卷积网络采用 BN_inception网络。

步骤S3、针对人体各属性构建独立的分支卷积网络，以所述共享特征作为各分支卷积网络的输入，得到各分支卷积网络的输出作为对应属性的个性特征。

与人脸属性识别相比，人体各属性间的粒度差异较大，如果针对于细粒度的属性和粗粒度属性任务采用相同的分支网络，会使细粒度属性的特征减弱或消失，从而影响识别效果。

本申请主要针对的人体属性包括是否有背包、背包颜色、上衣类型、下衣类型和鞋子颜色。其中上衣类型和下衣类型具有较粗粒度、是否有背包和背包颜色具有中粒度、鞋子颜色具有细粒度。

在对训练数据进行标注时，将上衣类型分为长袖和短袖，且分别标注为0 和1；将下衣类型分为长裤和短裤，且分别标注为0和1；将是否有背包中的有背包标注为1，无背包标注为0；将背包颜色分为黑色、白色、其他这三种类型，且分别标注为0、1、2。应该理解的是，上述标注方式仅为本实施例提供的一种可执行标注规则，在实际使用时可根据需要进行更改。

本发明中每个属性识别任务分支根据粗细粒度情况进行设计，即针对人体各属性构建独立的分支卷积网络，对于粗粒度的属性采用三层卷积网络，对于中粒度的属性采用特征金字塔网络，融合56*56、28*28、14*14、7*7的特征图，充分利用高中低三种尺度特征。对于细粒度的属性采用加入了Bottom-up path augmentation结构的PathAggregation Network(PANet)网络，防止经过多层传递造成浅层特征信息丢失。

在一实施例中，提供的各分支卷积网络的参数为：

三层卷积网络：

三个卷积层采用“卷积+BN+ReLU”形式，三个卷积的参数分别为：卷积层的参数包括：kernel size＝3，padding＝1，stride＝1，out channel＝64；BN层的参数包括：kernelsize＝3，padding＝1，stride＝1，out channel＝128；ReLU激励层的参数包括：kernelsize＝3，padding＝1，stride＝1，out channel＝256。

特征金字塔网络(FPN分支)：

取共享网络的56*56(channel＝256)，28*28(channel＝512)， 14*14(channel＝1024)，7*7(channel＝2048)的特征图，其中56*56、28*28、14*14、 7*7对应的lateral操作为kernel size＝1、out channel＝256的卷积操作。不同尺度的特征图进行element-wisesum时需要进行上采样操作，其采用kernel size＝4、 stride＝2、padding＝1、outchannel＝256的转置卷积。不同尺度特征图融合后会有混叠效应，采用kernel size＝3、stride＝1、padding＝1、out channel＝256的卷积操作消除混叠效应。

FPN分支处理完成后，在融合后的特征图上加入visual attention模块，然后经过average pooling和全连接层，输出预测结果，并送入loss函数中。

加入了Bottom-up path augmentation结构的PANet网络：

该网络是在FPN分支基础上，对FPN分支融合后的特征图进行自下而上的再次融合操作，其中自下而上的下采样和消除混叠效应采用的是kernel size＝3、 stride＝2、padding＝1、out channel＝256的卷积，融合后续操作同FPN分支。

需要说明的是，本申请的任务分支根据粗细粒度进行设计，因此本申请算法能够识别的属性不仅限于是否有背包、背包颜色、上衣类型、下衣类型和鞋子颜色，还可以是人体上能够区分粗细粒度的任意属性。

步骤S4、将得到的各属性的个性特征分别输入至各属性分支对应的注意力机制网络(Visual Attention Module)，生成各属性的注意力权值，将注意力权值加权至对应的个性特征上，得到定位有对应属性的所属区域的特征图。

当前的人体属性算法中，大部分都没有能够定位出各个属性的相对位置，所以识别属性准确率较低，而部分人体属性算法虽然实现注意力机制，但是在实现过程中有内积运算，其参数量很大，不利于实时性。

而本申请加入注意力机制网络，在实现粗定位各个属性的位置的同时，内部不存在内积运算，从而提高识别准确率的同时具有实时性。

在一实施例中，如图2所示，注意力机制网络从输入侧至输出侧包括依次连接的global average pooling层、1x1的conv层、激活函数ReLU、1x1的conv 层、Sigmoid层和Mul层。

图中X_i为各个属性分支输出的个性特征，将其输入到注意力机制网络得到每个通道的特征权重，然后通过乘法逐通道加权到之前的特征图上，完成在通道维度上的对原始特征的重标定。

注意力机制网络的工作流程中，使用global average pooling进行压缩操作，将特征图从H*W*C压缩到1*1*C，增强感受野；紧接着用1x1的conv降维， 1x1的卷积结构去建模通道间的相关性，并输出和输入特征同样数目的权重；然后经过激活函数ReLU，增加神经网络的非线性；再经过一个1x1的conv进行升维，使输出与global average pooling处理后的维度相同，其中先降维后升维的好处是：第一，具有更多的非线性，可以更好的拟合通道间复杂的相关性；第二，极大地减少了参数量和计算量；然后通过一个Sigmoid获得0～1之间归一化的注意力权重，最后通过Mul将归一化的注意力权重加权到每个通道的特征上，这样可以初步各个属性的所属区域，得到注意力图，进一步提高人体属性识别准确率。

经过注意力机制网络得到注意力图后，将注意力图与对应分支卷积网络的输出的个性特征进行叠加，最终得到定位有对应属性的所属区域的特征图。

图1中的注意力机制网络后的加号即为图2中的add模块，即叠加模块，经叠加模块后得到的定位有对应属性的所属区域的特征图如图1所示，其中矩形框即为对应属性的所属区域。需要说明的是，所属区域不仅限于采用矩形框表示，还可以是采用色彩进行聚焦等方式。

通过注意力机制网络粗定位各属性相关的区域，避免同一属性在不同样本中的相对位置不同造成的识别困难，使得本申请的算法进一步提高了属性识别效果。

步骤S5、将定位有对应属性的所属区域的特征图分别输入至各属性分支对应的全连接层(fc层)，输出人体各属性的识别结果。

本实施例的人体属性识别方法，利用多任务学习，可以学习到各个属性之间的内在联系；另外，注意力机制模块可以定位特定属性的关键信息区域，可以有效提高属性识别效果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制与多任务学习的人体属性识别方法，其特征在于，所述基于注意力机制与多任务学习的人体属性识别方法，包括：

构建共享卷积网络，对所述人体框进行共享特征提取；

2.如权利要求1所述的基于注意力机制与多任务学习的人体属性识别方法，其特征在于，所述共享卷积网络为BN_inception网络。

3.如权利要求1所述的基于注意力机制与多任务学习的人体属性识别方法，其特征在于，所述人体属性包括是否有背包、背包颜色、上衣类型、下衣类型和鞋子颜色。

4.如权利要求3所述的基于注意力机制与多任务学习的人体属性识别方法，其特征在于，所述针对人体各属性构建独立的分支卷积网络，包括：

5.如权利要求1所述的基于注意力机制与多任务学习的人体属性识别方法，其特征在于，所述注意力机制网络从输入侧至输出侧包括依次连接的global average pooling层、1x1的conv层、激活函数ReLU、1x1的conv层、Sigmoid层和Mul层。