CN110046550A

CN110046550A - 基于多层特征学习的行人属性识别系统及方法

Info

Publication number: CN110046550A
Application number: CN201910191877.6A
Authority: CN
Inventors: 袁宝煜; 郑伟诗
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-07-23
Anticipated expiration: 2039-03-14
Also published as: CN110046550B

Abstract

本发明公开了一种基于多层特征学习的行人属性识别系统及方法，该系统包括自下到上特征提取模块、自上到下特征融合模块、特征预测模块、多层预测融合模块和测试模块，该方法具体步骤为：自下到上逐层处理图片得到多层特征；自上到下逐层融合相邻层的特征，较高一层得到的特征图压缩通道，并与上一层上采样后的特征图进行特征融合和通道降维，输出当前层特征；融合后特征和提取的最上层特征，经最大池化层、全连接层后得到不同层级的初步预测结果；将不同层级的初步预测结果叠加，并对每层预测的每个属性对应赋予权重值，得到最终的预测结果；提取图片对应预测结果，计算各个指标的结果。本发明针对融合后的特征得到的预测值，对每个属性学习一组特定的权重，让每个属性各自更好地利用多层特征来得到更好的识别效果。

Description

基于多层特征学习的行人属性识别系统及方法

技术领域

本发明涉及基于深度学习的计算机视觉领域，具体涉及一种基于多层特征学习的行人属性识别系统及方法。

背景技术

行人属性识别，也称为人体属性识别，是识别图片中行人的属性，如头发颜色，头发长度，衣服类型，衣服颜色等，属于多标签分类问题。行人属性识别在监控系统下的行人再识别，行人检测等有广泛的应用，可以借用行人属性来辅助这些任务的进行。在行人属性识别领域，现有的大部分方法都基于深度学习的实现，例如，采用注意力机制生成注意力图应用到神经网络的各个层，来获取不同的特征，即分几个分支将注意力图与不同层特征图点乘，最后将特征拼起来做属性识别任务；还有将GAP(全局平均池化)层换成不同大小的池化核来分别进行池化操作，再将得到的特征拼起来，而且是在神经网络的几个不同层进行操作，最后再将全部特征向量拼接。

现有的技术并不能很好地针对每个属性去学到其所需要的特征，因为这些工作做的多层特征融合都只是在特征层面上做，而且大部分操作都是把特征向量拼接，并不能更好地利用并融合多层特征，且没有针对具体的每个属性去对应学习对于各层特征的关注力度。

发明内容

为了克服现有技术的缺陷，本发明提供一种基于多层特征学习的行人属性识别系统及方法，专注于更好地融合各层的特征，并且基于ensemble(集成学习)的思想，针对融合后的特征得到的预测值，对每个属性，学习一组特定的权重，让每个属性各自更好地利用多层特征来得到更好的识别效果。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于多层特征学习的行人属性识别系统，包括行人属性识别网络训练模块和测试模块，

所述行人属性识别网络训练模块包括自下到上特征提取模块、自上到下特征融合模块、特征预测模块和多层预测融合模块，

所述自下到上特征提取模块：采用卷积神经网络逐层提取图片特征得到多层特征，

所述自上到下特征融合模块：用于逐层融合相邻层的特征，较高一层得到的三维特征图先通过第一卷积层来压缩通道数，保持通道数与上一层上采样后的特征图一致，通过相加的操作进行特征融合，融合后的特征通过第二卷积层，继续进行通道数降维，得到当前层特征；

特征预测模块：根据从自下到上特征提取模块的最后一层的特征、以及自上到下特征融合模块得到的融合特征，每一层特征经过最大池化层和全连接层得到初始向量，通过Sigmoid函数进行激活后得到每个属性对应的预测概率，最后得到不同层级的初步预测结果；

多层预测融合模块：将特征预测模块的初步预测结果进行向量叠加，每组预测结果的每个属性赋予权重，得到最终的预测结果；

测试模块：利用训练好的行人属性识别网络，提取图片对应的最终的预测结果，然后算出各个指标的结果。

作为优选的技术方案，所述第一卷积层采用带有1*1卷积核的卷积层，所述第二卷积层采用带有3*3卷积核的卷积层。

作为优选的技术方案，所述自下到上特征提取模块采用卷积神经网络中的ResNet-50，采用ResNet-50中的残差模块作为特征输出的层。

作为优选的技术方案，所述多层预测融合模块中权重采用组卷积层，组卷积层的卷积核为5*1，且有N组卷积滤波，N对应图片数据集的行人属性个数。

本发明还提供一种基于多层特征学习的行人属性识别方法，包括下述步骤：

S1：采用卷积神经网络自下到上逐层提取图片特征得到多层特征；

S2：自上到下逐层融合相邻层的特征，在较高一层得到的特征图第一卷积层压缩通道，保持通道数不变，并与上一层进行上采样后得到特征图通过相加的操作进行特征融合，融合后的特征通过第二卷积层进行通道降维，在进行上采样到下一层的特征融合的同时，输出当前层特征；

S3：自上到下逐层融合相邻层得到的融合特征，以及自下到上提取到的最上层的特征，经过对应的最大池化层后，得到图片大小一致的特征图，并再经过全连接层，通过Sigmoid函数进行激活后得到一个每个点的值为0～1之间的向量，为每个属性对应的分类预测概率，得到不同层级的初步预测结果；

S4：将不同层级的初步预测结果向量叠加，得到多层预测矩阵，通过组卷积层对多层预测矩阵进行卷积操作，对应每组初步预测结果，每个属性都设置一组自动学习的权重，每个属性对初步预测结果进行加权平均结合得到最终的预测结果；

S5：根据训练好的行人属性识别网络，提取图片对应最终的预测结果，计算各个指标的结果。

作为优选的技术方案，步骤S2中所述的上采样采用的是双线性插值的上采样方法。

作为优选的技术方案，步骤S4中所述对应每组预测、每个属性设置一组自动学习的权重，权重采用组卷积层，组卷积层的卷积核为5*1，且有N组卷积滤波，N对应图片数据集的行人属性个数。

作为优选的技术方案，步骤S5中所述的指标，包括：基于标签的指标和基于样本的指标，所述基于标签从标签维度上计算平均准确率(mA)，所述基于样本的指标从样本维度上计算准确率(accuracy)，精确率(precision)，召回率(recall)和F1值，

基于标签维度的平均准确率mA的计算公式如下：

其中，L表示属性的个数，i是第i个属性维度，TP_i是ground truth为1且预测为1的样本数，样本数是指每一个具体的标签，TN_i是ground truth为0且预测为0的样本数，P_i和N_i是第i个属性的正样本和负样本个数，

基于样本维度的指标计算公式如下：

其中，TP_i是标签为1且预测为1的样本数，TN_i是标签为0且预测为0的样本数，FP_i是标签为0而预测为1的样本数，FN_i是标签为1而预测为0的样本数，N是总样本数，在样本维度上是属性的总个数，i指的是第i张图片。

作为优选的技术方案，步骤S5中所述的根据训练好的行人属性识别网络，行人属性识别网络采用交叉熵损失函数进行训练过程的优化，并采用随机梯度下降算法更新行人属性识别网络参数。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明不仅逐层融合不同层的特征，还融合了通过不同层特征得到的不同层预测，对最终的预测结果做了更好的增强。

(2)本发明更彻底地利用到每一层的特征，借助组卷积层使每个行人属性都有一组关于各层预测的权重，将每层融合后的特征预测结果作为ensemble的子分类器，并得到最终的预测结果，能够利用有限的参数来增强实验结果。

(3)本发明在逐层融合特征的时候，使用双线性插值方法进行上采样，且在特征图相加之后加了卷积层，在进一步降低特征图通道数的同时使得融合的特征更稳定。

附图说明

图1为本发明基于多层特征学习的行人属性识别系统流程图；

图2为本发明行人属性识别网络训练模块结构示意图；

图3为本发明的测试模块结构示意图；

图4为本发明的残差模块的结构示意图；

图5为本发明的基于标签维度和基于样本维度的指标计算示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1、图2、图3所示，本实施例提供一种基于多层特征学习的行人属性识别系统，包括行人属性识别网络训练模块和行人属性识别系统测试模块，所述行人属性识别网络训练模块包括自下到上特征提取模块，自上到下特征融合模块，特征预测模块和多层预测融合模块。

在本实施例中，所述自下到上特征提取模块：这个模块是一个基于经典的卷积神经网络，作为一个逐层处理图片得到多层特征的模块，本实施例选取了经典网络ResNet-50作为模块的主体，并将ResNet-50中的四个Residual Block(残差模块)作为特征输出的层。残差模块的结构如图4所示，模块的输出为经过模块网络层操作后的输出，加上模块输入的和。

在本实施例中，自上到下特征融合模块：这个模块旨在逐层融合相邻层的特征，然后用来得到下一步的预测结果。从高层语义，逐渐到低层特征，逐层融合相邻层的特征。较高一层得到的三维特征图会先通过一个带有1*1卷积核的卷积层来压缩通道数，保持通道数不变，并与上一层上采样后的特征图通过相加的操作进行特征融合，融合后的特征会通过一个3*3的卷积层，继续进行通道数降维，同时使得融合的特征更稳定。在进行上采样到下一层的融合的同时，输出该层特征。上采样的操作是在保证两份特征图通道数的情况下，形状大小也一样，本实施例采用的是双线性插值的上采样方法。最高一层没有上层特征，所以没有相加操作和3*3的卷积层。

在本实施例中，特征预测模块：从自上到下特征融合模块得到了四份不同层的融合后的特征，以及从自下到上特征提取模块的最后一层的特征，因为这些特征图的大小和通道数都不一样，经过最大池化层后都得到7*7大小的特征图，所以每份特征图对应的池化层的核都不一样。最后分别通过7*7的最大池化层得到一维的特征向量，然后再通过一层全连接层，得到初始向量，初始向量维度与数据集的标签个数一致，通过Sigmoid函数进行激活，会得到一个每个点的值为0～1之间的向量，便是每个属性对应的预测概率，最后得到不同层级的初步预测结果；

在本实施例中，所述多层预测融合模块：得到了多层的预测结果之后，将这些预测结果向量叠加在一起，拼成一个多层预测矩阵。在自上到下特征融合模块进行了多层特征融合之后，进一步基于ensemble的思想，把各层的预测结果当作子分类器的结果，进行预测结果的加权融合得到更好的结果。对应每组预测，每个属性都有一组权重来自动学习如何偏重于哪些层的预测。这些权重由一个组卷积层来实现，这层卷积的卷积核为5*1，且有N组卷积滤波，N对应数据集的行人属性个数。经过这层卷积的学习，进一步得到最终的预测结果。

在本实施例中，所述行人属性识别系统测试模块主要是利用训练好的卷积神经网络模型，提取图片对应的结果，然后算出各个指标的结果。计算的指标分为两种：基于标签的指标和基于样本的指标。基于标签的指标是从标签维度上计算准确率的，而基于样本的指标是从样本维度上计算准确率，精确率，召回率和F1值(F-Measure)，F-Measure是一种统计量，常用于评价模型的好坏。

本实施例还提供一种基于多层特征学习的行人属性识别方法，包括下述步骤：

S1：采用卷积神经网络自下到上逐层提取图片特征得到多层特征，

S2：自上到下逐层融合相邻层的特征，在较高一层得到的特征图通过带有1*1卷积核的卷积层压缩通道，保持通道数不变，并与上一层进行上采样后得到特征图通过相加的操作进行特征融合，融合后的特征通过3*3卷积核的卷积层进行通道降维，在进行上采样到下一层的特征融合的同时，输出当前层特征；

S3：自上到下逐层融合相邻层得到的融合特征，以及自下到上提取到的最上层的特征，经过对应的最大池化层后，得到图片大小一致的特征图，并再经过全连接层，通过Sigmoid函数进行激活，会得到一个每个点的值为0～1之间的向量，便是每个属性对应的分类预测概率，最后得到不同层级的初步预测结果；

S4：将多个大小为1*N的不同层级的初步预测结果向量叠加，得到大小为5*N的多层预测矩阵，此处的N对应所用数据集包括的属性总个数，通过组卷积层对矩阵进行卷积操作，即对应每组初步预测结果，每个属性都设有一组自动学习的权重，通过网络的优化，每组初步预测结果可以找到最优的权重，每个属性通过五组预测结果进行加权平均得到最终的预测结果；权重采用组卷积层，组卷积层的卷积核为5*1，且有N组卷积滤波，N对应图片数据集的行人属性个数；

S5：根据训练好的行人属性识别网络，提取图片对应最终的预测结果，计算各个指标的结果。如图3所示，所述的指标包括：基于标签的指标和基于样本的指标，所述基于标签从标签维度上计算平均准确率(mA)，所述基于样本的指标从样本维度上计算准确率(accuracy)，精确率(precision)，召回率(recall)和F1值。

(1)基于标签维度的平均准确率mA的计算公式如下：

其中，L是属性的个数，i是第i个属性维度，TP_i是ground truth为1且预测为1的样本数，本实施例的样本数是指每一个具体的标签，TN_i是ground truth为0且预测为0的样本数，P_i和N_i是第i个属性的正样本和负样本个数。

(2)基于样本维度的指标计算如下：

其中，Acc表示准确率，Pre表示精确率，Rec表示召回率，F1表示F1值，

同样地，TP_i是标签为1且预测为1的样本数，TN_i是标签为0且预测为0的样本数等。FP_i是标签为0而预测为1的样本数，FN_i是标签为1而预测为0的样本数，N是总样本数，在样本维度上是属性的总个数，i指的是第i张图片。

在本实施例中，与mA的计算区别在于是在样本维度上。比如，属性数量为m，样本数量为n。

如图5所示，为样本集的属性标签矩阵，mA是在属性维度上计算TP和TN，即灰度竖条对应一个属性的一组标签进行独立计算；基于样本的指标是在样本维度上计算TP/TN/FP/FN，即灰度横条对应一个样本的一组标签进行独立计算。

在本实施例中，步骤S1-S4为训练过程所需的步骤，最后预测结果和训练集的标签通过交叉熵损失函数进行网络的优化，并采用随机梯度下降的优化方法。而进行测试的时候，会包括S1-S4和S5得到指标的结果。训练集和测试集是不交叉的数据，一般会先预先分好。

本实施例专注于更好地融合各层的特征，并且基于ensemble(集成学习)的思想，针对融合后的特征得到的预测值，对每个属性，学习一组特定的权重，让每个属性各自更好地利用多层特征来得到更好的识别效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多层特征学习的行人属性识别系统，其特征在于，包括行人属性识别网络训练模块和测试模块，

2.根据权利要求1所述的基于多层特征学习的行人属性识别系统，其特征在于，所述第一卷积层采用带有1*1卷积核的卷积层，所述第二卷积层采用带有3*3卷积核的卷积层。

3.根据权利要求1所述的基于多层特征学习的行人属性识别系统，其特征在于，所述自下到上特征提取模块采用卷积神经网络中的ResNet-50，采用ResNet-50中的残差模块作为特征输出的层。

4.根据权利要求1所述的基于多层特征学习的行人属性识别系统，其特征在于，所述多层预测融合模块中权重采用组卷积层，组卷积层的卷积核为5*1，且有N组卷积滤波，N对应图片数据集的行人属性个数。

5.一种基于多层特征学习的行人属性识别方法，其特征在于，包括下述步骤：

S2：自上到下逐层融合相邻层的特征，在较高一层得到的特征图通过第一卷积层压缩通道，保持通道数不变，并与上一层进行上采样后得到特征图通过相加的操作进行特征融合，融合后的特征通过第二卷积层进行通道降维，在进行上采样到下一层的特征融合的同时，输出当前层特征；

6.根据权利要求5所述的基于多层特征学习的行人属性识别方法，其特征在于，步骤S2中所述的上采样采用的是双线性插值的上采样方法。

7.根据权利要求5所述的基于多层特征学习的行人属性识别方法，其特征在于，步骤S4中所述对应每组预测、每个属性设置一组自动学习的权重，权重采用组卷积层，组卷积层的卷积核为5*1，且有N组卷积滤波，N对应图片数据集的行人属性个数。

8.根据权利要求5所述的基于多层特征学习的行人属性识别方法，其特征在于，步骤S5中所述的指标，包括：基于标签的指标和基于样本的指标，所述基于标签从标签维度上计算平均准确率(mA)，所述基于样本的指标从样本维度上计算准确率(accuracy)，精确率(precision)，召回率(recall)和F1值，

基于标签维度的平均准确率mA的计算公式如下：

基于样本维度的指标计算公式如下：

9.根据权利要求5所述的基于多层特征学习的行人属性识别方法，其特征在于，步骤S5中所述的根据训练好的行人属性识别网络，行人属性识别网络采用交叉熵损失函数进行训练过程的优化，并采用随机梯度下降算法更新行人属性识别网络参数。