CN113139501A

CN113139501A - 一种联合局部区域检测与多级特征抓取的行人多属性识别方法

Info

Publication number: CN113139501A
Application number: CN202110508765.6A
Authority: CN
Inventors: 楼群
Original assignee: Shenzhen Qicheng Technology Co ltd
Current assignee: Shenzhen Qicheng Technology Co ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-07-20
Anticipated expiration: 2041-05-12
Also published as: CN113139501B

Abstract

本发明提供一种联合局部区域检测与多级特征抓取的行人多属性识别方法，涉及行人属性识别技术领域。该联合局部区域检测与多级特征抓取的行人多属性识别方法，包括行人分割模块、特征融合模块和多任务学习模块，所述行人分割模块、特征融合模块和多任务学习模块融合成一个端到端的框架。本发明提供一种联合局部区域检测与多级特征抓取的行人多属性识别方法，基于对身份识别技术的深度学习，在减少无关信息的同时充分利用属性相关性信息，解决样本分布不均衡问题的同时增强对行人属性的识别能力，并且搭建了一个完整的行人多属性识别框架，可以解决环境信息干扰问题，还能充分利用多属性相关性以及额外的辅助信息来增强对各局部属性的识别能力。

Description

一种联合局部区域检测与多级特征抓取的行人多属性识别方法

技术领域

本发明涉及行人属性识别技术领域，具体为一种联合局部区域检测与多级特征抓取的行人多属性识别方法。

背景技术

行人属性指人员的属性，例如面部、衣服、饰品、年龄等，对这些属性的准确识别不仅可以提高智能机器对人类的认识能力，而且在许多实际应用技术中起着关键作用，例如：基于视频的智能化商业化推荐、视频监控中的行人重识别、以及基于属性的行人检索等。

现有行人属性识别的方法主要包括基于手工特征提取的方法以及基于深度学习的方法，基于手工特征提取的方法主要是利用低层特征例如颜色、纹理等进行识别和检测，利用HOG等方法获取特征的表达。基于这类传统特征提取算法的行人属性识别方法很快便达到了瓶颈，随着深度学习的发展，越来越多的行人属性识别研究开始采用深度学习的方法，基于深度学习的方法是运用大量样本和标签以监督学习的方式不断训练网络参数，使训练好的分类器利用训练特征自主的进行属性识别，一种简单的方法就是将整个行人图像送入深度神经网络，让神经网络自适应学习局部属性和特征之间的关系。

行人属性与行人身体的局部部位有着很强的对应关系，例如头发的长短属性可以对应到行人的头部区域，而裤子的长短则可以对应到行人的腿部区域，是否带有口罩和眼镜则对应的是行人面部更加细粒度的部位，因此现有的一些研究方法首先对属性位置进行检测，然后利用相关区域进行分割，再对分割后的图像分别进行卷积特征训练，最后联合多个深度特征进行属性分类，针对不同区域所关注的不同区域特征，注意力机制也被应用于行人属性识别中，不同属性之间是具有一定联系的，即语义属性之间存在相关性，比如穿裙子和高跟鞋的行人大部分性别时女性，因此“裙子”和“高更鞋”以及“性别”之间就具有了潜在的相关性，因此若行人图像质量较差，分辨率较低，导致某些属性再行人图像中不易分辨时，属性之间的相关性就可以用来辅助预测属性的分布。

基于手工特征提取的方法不具有较强的泛化性，并且特征提取时间较长，不适合大数据集的特征提取，为了更好的学习属性特征，需要建立一个复杂的数学关系从低级特征对高级语义信息进行描述，难以形成一套通用的体系，目前主流的基于深度学习的行人属性识别方法仍无法有效的利用属性之间的相关性，并且对于样本分布不均衡的属性识别效果较差，除此之外，环境的影响也会干扰注意力机制对局部属性区域特征增强的效果，进而影响属性识别的效果。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种联合局部区域检测与多级特征抓取的行人多属性识别方法，解决了基于手工特征提取的方法不具有较强的泛化性，并且特征提取时间较长，不适合大数据集的特征提取，主流的基于深度学习的行人属性识别方法仍无法有效的利用属性之间的相关性，对于样本分布不均衡的属性识别效果较差，并且环境的影响也会干扰注意力机制对局部属性区域特征增强的效果的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种联合局部区域检测与多级特征抓取的行人多属性识别方法，包括行人分割模块、特征融合模块和多任务学习模块，所述行人分割模块、特征融合模块和多任务学习模块融合成一个端到端的框架；

行人分割模块，利用注意力机制将行人与环境分离，消除外界环境的干扰；

特征融合模块，利用卷积神经网络对不同属性区域进行定位检测，并抓取不同层级属性特征，通过各层级特征之间的融合，以此利用低层和中层属性对高层属性进行推测，并且高层属性可用来指导低层和中层属性；

多任务学习模块，建立多层级任务分支与自适应加权损失函数以在不同级特征上进行多属性学习，结合不同层级属性的识别结果，并增加行人身份信息作为辅助，完成最终的多属性识别；

一种联合局部区域检测与多级特征抓取的行人多属性识别方法，包括以下过程：

S1.数据集准备

准备多个数据集用以训练和测试模型，常用的行人属性数据集有PETA、RAP、PA-100K、Market-1501等；

S2.行人图像分割

从收集到的数据集中选取一批量行人图像用作模型训练，使用分割模块产生行人整个身体的mask掩模，具体采用的方法是MASK R-CNN，将输入的原始行人图像通过Mask R-CNN得到相应的mask遮罩，该过程直接使用训练好的Mask R-CNN模型即可；

S3.图像融合

使用分割模块中的乘法层对原始图像和mask掩模图进行融合，在融合之前需对mask掩膜图进行二值化处理，即行人身体部分的像素灰度值置1，而环境部分像素灰度值置0，将像素灰度值1保留，滤除像素灰度值0，得到没有环境信息的融合行人图像，再将该融合的行人图像作为输入图像进入骨干网络；

S4.局部区域检测

经过上述步骤S1-S3，已经滤除环境干扰信息，由于行人属性往往存在于行人图像的特定区域，通过局部区域检测，建立属性与区域的对应关系；

S5.建立骨干网络

采用Darknet-53作为骨干网络，通过训练使网络能够完成局部属性特定区域的定位，并能产生边界框和置信度，然后将行人图像输入骨干网络；

S6.多级特征抓取与融合

分别抓取Darknet-53中的低层、中层和高层特征，利用基于卷积的多分支群融合方法对多层级特征进行融合，利用低层级特征与中层级特征对高层级特征进行推理，而高层级特征用于指导中层级特征与低层级特征；

S7.多层级任务划分

通过多层级特征融合后，得到低层级、中层级和高层级一共三个层级上的融合特征，分别进行多属性预测；

S8.多属性识别

构建一种多层级自适应加权损失函数，在多层级上分别进行多属性预测，得到各属性在不同层级上的预测值，在三个层级上进行逐元素比较，选取其中最大的值作为该属性最终的预测值。

优选的，所述步骤S1中的Mask R-CNN与Faster R-CNN采用了相同的两阶段步骤：首先是域提案网络，用于寻找相关的感兴趣区域(Rol)，然后对找到的每个Rol进行分类、定位，mask分支就是应用在每一个Rol上的一个小的全卷积网络(FCN)，以像素到像素的方式预测分割mask。

优选的，所述步骤S3中的图像融合过程采用的是逐元素相乘的方法，该方法可以保留行人图像中行人的身体部分信息，而滤除环境信息，最终得到没有环境信息的行人图像。

优选的，所述步骤S5中的Darknet-53是Yolov3网络中的骨干网络，具体的网络结构见附图3。

优选的，所述步骤S1中的行人属性数据集Market-1501需要使用属性标签进行辅助使用。

优选的，所述步骤S6中的基于卷积的多分支群融合方法相较于传统级联式的特征融合方法，具有更显著性目标检测、更少的网络参数等特点。

优选的，所述步骤S8中的多层级自适应加权损失函数可定义如下式：

式中N为行人样本数量，L为属性总数，y_ij代表第i个行人图像的第j个属性的真实情况。P_ij代表的进入损失函数前的激活函数，此处采用的使Sigmod函数。

优选的，所述步骤S8中的多层级自适应加权损失函数，在监控视频中，有些属性存在于所有的图像中，比如“性别”、“年龄”等，但有些属性并不是在所有的图像中都出现，例如“口罩”，“眼镜”等，所以这些属性可能存在正负样本分布差异大的现象，使得网络更倾向学习正样本占比大的属性，而忽略掉正样本占比小的属性，从而影响属性识别性能，为了解决样本分布不均衡的问题，可以采用加权二进制交叉熵损失函数，修改后的多属性分类损失函数如下：

式中Wc代表各属性正样本占总样本的比例。

优选的，所述步骤S8中的多层级自适应加权损失函数，若数据集中含有身份标签，则该自适应加权损失函数可以利用行人身份信息作为行人属性识别的辅助，这在一定程度熵可以解决训练集图像中由视角等因素造成的蓝样本问题，以此总的损失函数由一个交叉熵损失函数(softmax loss)和一个加权二进制交叉熵函数(WBCE loss)组成，而加权二进制交叉熵函数用于多属性分类并平衡样本分布。构建的多层级自适应加权损失函数如下：

式中a，b超参数，N为样本数量，L为属性数量，代表了当前属性正样本数量占总数量的比例。

优选的，所述步骤S8中的多层级自适应加权损失函数，若需要改善身份分类分支的精度，可对传统的softmax loss进行修改，采用角度交叉熵损失(A-softmax loss)，其几何意义可解释为将学习到的特征作为判别信息嵌入到一个超球面流形空间上，通过角度进行判别，最终得到的A-softmax loss的公式如下：

(三)有益效果

本发明提供了一种联合局部区域检测与多级特征抓取的行人多属性识别方法。具备以下有益效果：

1、本发明提供了一种联合局部区域检测与多级特征抓取的行人多属性识别方法，通过融合mask掩模图和行人图像可消除无关的环境信息影响，进而增强行人的特征表示，有利于增强对各行人属性的识别能力。

2、本发明提供了一种联合局部区域检测与多级特征抓取的行人多属性识别方法，对于同一数据集下同一行人具有相同的属性信息，利用身份信息进行辅助处理，在一定程度上解决了难样本问题，并且采用加权二进制交叉损失解决了可能存在的属性样本分布不平衡问题。

3、本发明提供了一种联合局部区域检测与多级特征抓取的行人多属性识别方法，基于对身份识别技术的深度学习，在减少无关信息的同时充分利用属性相关性信息，解决样本分布不均衡问题的同时增强对各行人属性的识别能力，并且在现有研究的基础上，搭建了一个完整的行人多属性识别框架，该框架不仅可以解决环境信息干扰问题，还能充分利用多属性相关性以及额外的辅助信息来增强对各局部属性的识别能力，大大提高智能机器对人类的认识能力。

附图说明

图1为本发明的流程图；

图2为本发明的总体控制框架结构示意图；

图3为本发明的Mask R-CNN实例分割框架示意图；

图4为本发明的Darknet-53网络结构图；

图5为本发明的多级特征融合的多分支群融合框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1-5所示，本发明实施例提供一种联合局部区域检测与多级特征抓取的行人多属性识别方法，包括行人分割模块、特征融合模块和多任务学习模块，所述行人分割模块、特征融合模块和多任务学习模块融合成一个端到端的框架；

S1.数据集准备

S2.行人图像分割

S3.图像融合

S4.局部区域检测

S5.建立骨干网络

S6.多级特征抓取与融合

S7.多层级任务划分

S8.多属性识别

步骤S1中的Mask R-CNN与Faster R-CNN采用了相同的两阶段步骤：首先是域提案网络，用于寻找相关的感兴趣区域(Rol)，然后对找到的每个Rol进行分类、定位，mask分支就是应用在每一个Rol上的一个小的全卷积网络(FCN)，以像素到像素的方式预测分割mask。

步骤S3中的图像融合过程采用的是逐元素相乘的方法，该方法可以保留行人图像中行人的身体部分信息，而滤除环境信息，最终得到没有环境信息的行人图像。

步骤S5中的Darknet-53是Yolov3网络中的骨干网络，具体的网络结构见附图3。

步骤S1中的行人属性数据集Market-1501需要使用属性标签进行辅助使用。

步骤S6中的基于卷积的多分支群融合方法相较于传统级联式的特征融合方法，具有更显著性目标检测、更少的网络参数等特点。

步骤S8中的多层级自适应加权损失函数可定义如下式：

步骤S8中的多层级自适应加权损失函数，在监控视频中，有些属性存在于所有的图像中，比如“性别”、“年龄”等，但有些属性并不是在所有的图像中都出现，例如“口罩”，“眼镜”等，所以这些属性可能存在正负样本分布差异大的现象，使得网络更倾向学习正样本占比大的属性，而忽略掉正样本占比小的属性，从而影响属性识别性能，为了解决样本分布不均衡的问题，可以采用加权二进制交叉熵损失函数，修改后的多属性分类损失函数如下：

式中Wc代表各属性正样本占总样本的比例。

步骤S8中的多层级自适应加权损失函数，若数据集中含有身份标签，则该自适应加权损失函数可以利用行人身份信息作为行人属性识别的辅助，这在一定程度熵可以解决训练集图像中由视角等因素造成的蓝样本问题，以此总的损失函数由一个交叉熵损失函数(softmax loss)和一个加权二进制交叉熵函数(WBCE loss)组成，而加权二进制交叉熵函数用于多属性分类并平衡样本分布。构建的多层级自适应加权损失函数如下：

步骤S8中的多层级自适应加权损失函数，若需要改善身份分类分支的精度，可对传统的softmax loss进行修改，采用角度交叉熵损失(A-softmax loss)，其几何意义可解释为将学习到的特征作为判别信息嵌入到一个超球面流形空间上，通过角度进行判别，最终得到的A-softmax loss的公式如下：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种联合局部区域检测与多级特征抓取的行人多属性识别方法，包括行人分割模块、特征融合模块和多任务学习模块，其特征在于：所述行人分割模块、特征融合模块和多任务学习模块融合成一个端到端的框架；

S1.数据集准备

S2.行人图像分割

S3.图像融合

使用分割模块中的乘法层对原始图像和mask掩模图进行融合在融合之前需对mask掩膜图进行二值化处理，即行人身体部分的像素灰度值置1，而环境部分像素灰度值置0，将像素灰度值1保留，滤除像素灰度值0，得到没有环境信息的融合行人图像，再将该融合的行人图像作为输入图像进入骨干网络；

S4.局部区域检测

S5.建立骨干网络

S6.多级特征抓取与融合

S7.多层级任务划分

S8.多属性识别

2.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S1中的Mask R-CNN与Faster R-CNN采用了相同的两阶段步骤：首先是域提案网络，用于寻找相关的感兴趣区域(Rol)，然后对找到的每个Rol进行分类、定位，mask分支就是应用在每一个Rol上的一个小的全卷积网络(FCN)，以像素到像素的方式预测分割mask。

3.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S3中的图像融合过程采用的是逐元素相乘的方法，该方法可以保留行人图像中行人的身体部分信息，而滤除环境信息，最终得到没有环境信息的行人图像。

4.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S5中的Darknet-53是Yolov3网络中的骨干网络，具体的网络结构见附图3。

5.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S1中的行人属性数据集Market-1501需要使用属性标签进行辅助使用。

6.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S6中的基于卷积的多分支群融合方法相较于传统级联式的特征融合方法，具有更显著性目标检测、更少的网络参数等特点。

7.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S8中的多层级自适应加权损失函数可定义如下式：

8.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S8中的多层级自适应加权损失函数，在监控视频中，有些属性存在于所有的图像中，比如“性别”、“年龄”等，但有些属性并不是在所有的图像中都出现，例如“口罩”，“眼镜”等，所以这些属性可能存在正负样本分布差异大的现象，使得网络更倾向学习正样本占比大的属性，而忽略掉正样本占比小的属性，从而影响属性识别性能，为了解决样本分布不均衡的问题，可以采用加权二进制交叉熵损失函数，修改后的多属性分类损失函数如下：

式中Wc代表各属性正样本占总样本的比例。

9.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S8中的多层级自适应加权损失函数，若数据集中含有身份标签，则该自适应加权损失函数可以利用行人身份信息作为行人属性识别的辅助，这在一定程度熵可以解决训练集图像中由视角等因素造成的蓝样本问题，以此总的损失函数由一个交叉熵损失函数(softmax loss)和一个加权二进制交叉熵函数(WBCE loss)组成，而加权二进制交叉熵函数用于多属性分类并平衡样本分布。构建的多层级自适应加权损失函数如下：

10.根据权利要求1所述的一种联合局部区域检测与多级特征抓取的行人多属性识别方法，其特征在于：所述步骤S8中的多层级自适应加权损失函数，若需要改善身份分类分支的精度，可对传统的softmax loss进行修改，采用角度交叉熵损失(A-softmax loss)，其几何意义可解释为将学习到的特征作为判别信息嵌入到一个超球面流形空间上，通过角度进行判别，最终得到的A-softmax loss的公式如下：