CN110222636A

CN110222636A - 基于背景抑制的行人属性识别方法

Info

Publication number: CN110222636A
Application number: CN201910482659.8A
Authority: CN
Inventors: 张良; 袁配配
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-10
Anticipated expiration: 2039-05-31
Also published as: CN110222636B

Abstract

一种基于背景抑制的行人属性识别方法，其包括提取行人掩码图与背景掩码图；构建行人属性识别网络；行人特征向量提取；背景特征向量提取；网络优化；属性识别等步骤。本发明方法通过引入行人掩码图和背景掩码图，将其与行人属性识别网络分类层的输出特征图结合，使行人属性识别网络能获取分类层的行人特征图和背景特征图，然后提取行人图像特征向量、行人特征向量、背景特征向量，联合加权交叉熵损失函数和区域级三元损失函数两个损失函数共同训练，使行人属性识别网络在完成属性识别的同时，提高网络提取特征的稳定性。在此损失函数的约束下，神经网络学习到的特征将具有背景杂乱不变性，从而可提高行人属性识别的准确度。

Description

基于背景抑制的行人属性识别方法

技术领域

本发明属于图像处理技术领域，特别是涉及一种基于背景抑制的行人属性识别方法。

背景技术

行人属性识别是计算机视觉领域一项重要的任务，其在智能视频监控系统中起着至关重要的作用。行人属性识别可以将监控视频中的大量行人信息转换为可用于检索的高级语义信息(如性别、年龄、服饰、携带品等)，这些信息可以应用于嫌疑人搜索、失踪人口查找等工作中。通常，这些信息需要依靠人工观察的方式进行提取，工作量巨大且十分耗时。行人属性识别可以自动对监控视频中的信息进行提取，因而，具有较为广阔的应用前景。

但监控视频环境复杂，传统方法难以对监控场景的行人图像进行有效的特征描述。随着深度学习在计算机视觉任务中的表现越来越突出，研究人员提出多种基于深度学习的行人属性识别算法。对GoogleNet进行改进(陈萍,杨鸿波.基于深度学习的行人属性识别[J].信息通信,2018(04):74-76.)，使模型可以输入任意大小的图像，无需对图像进行缩放或裁剪。利用poselet部件检测器对行人进行分割(LI Y N,HUANG C,Loy C C,etal.Human Attribute Recognition by Deep Hierarchical Contexts[C]//Procee-dingsof the European Conference on Computer Vision.Berlin,Germany:Springer,2016:684-700.)，将分割后的行人部件与行人整体结合，提取深度特征进行行人属性识别。

现有的方法虽然都取得不错的识别效果，但由于监控场景的背景杂乱以及行人被遮挡等问题，行人属性识别在实际应用时的效果并不理想。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于背景抑制的行人属性识别方法。

为了达到上述目的，本发明提供的基于背景抑制的行人属性识别方法包括按顺序进行的下列步骤：

(1)利用图像语义分割方法中经典的Deeplab-v2网络提取行人属性数据集中行人图像的行人掩码图与背景掩码图；

(2)构建如图1所示的行人属性识别网络，所述的行人属性识别网络以Resnet-50网络作为基础网络，在Resnet-50网络上增加了两个分支而对该网络进行改进，并以加权交叉熵损失函数和区域级三元损失函数联合作为行人属性识别网络中分类层的损失函数；

(3)以行人图像作为步骤(2)中行人属性识别网络的输入，将Resnet-50网络中残差块1的输出特征图与步骤(1)中的行人掩码图逐元素相乘即可获得行人特征图，然后利用残差块2、残差块3和残差块4继续对上述行人特征图进行提取，即可获得行人特征向量；

(4)以行人图像作为步骤(2)中行人属性识别网络的输入，将上述Resnet-50网络中残差块1的输出特征图与步骤(1)中的背景掩码图逐元素相乘即可获得背景特征图，然后利用残差块2、残差块3和残差块4继续对背景特征图进行提取，即可获得背景特征向量；

(5)将行人图像作为步骤(2)中行人属性识别网络的输入，即可获得行人图像特征向量，然后将步骤(3)、步骤(4)中获得的行人特征向量、背景特征向量及上述行人图像特征向量作为分类层的输入即可计算出行人属性识别网络的损失，之后利用随机梯度下降算法对行人属性识别网络进行优化，并保存最优网络参数；

(6)利用步骤(5)中获得最优网络参数初始化Resnet-50网络，最后输入任意的行人图像即可进行行人属性识别。

在步骤(1)中，所述的利用图像语义分割方法中经典的Deeplab-v2网络提取行人属性数据集中行人图像的行人掩码图与背景掩码图的具体方法是：

利用由Pytorch框架构建的deeplab-v2网络将输入的行人图像中行人区域元素置为1，背景区域元素置为0所得的矩阵即为行人掩码图，将背景区域元素置为1，行人区域元素置为0所得的矩阵即为背景掩码图。

在步骤(2)中，所述的构建行人属性识别网络，所述的行人属性识别网络以Resnet-50网络作为基础网络，在Resnet-50网络上增加了两个分支而对该网络进行改进的具体方法是：

1)在ResNet-50的基础上增加两个分支，用于提取行人特征向量与背景特征向量，Resnet-50网络用于提取行人图像特征向量；

2)修改Resnet-50网络全连接层的输出维度，使其与行人属性数据集中的标签属性个数一致。

在步骤(2)中，所述的区域级三元损失函数的数学表达式如下：

其中，m由实验获得，F_full、F_foreground、F_background分别为行人属性识别网络提取的行人图像特征向量、行人特征向量和背景特征向量。

在步骤(2)中，所述的加权交叉熵损失函数的数学表达式如下：

其中，p_l为第l个属性的正例数量在训练集中所占的比率，σ设置为1，y_il为样例x_i的第l个属性的标签，为属性识别网络预测的样例x_i是否包含第l个属性的概率。

在步骤(2)中，所述的损失函数的数学表达式为：

L_all＝L_att+λL_trip

其中，λ由实验获得。

在步骤(3)中，所述的以行人图像作为步骤(2)中行人属性识别网络的输入，将Resnet-50网络中残差块1的输出特征图与步骤(1)中的行人掩码图逐元素相乘即可获得行人特征图，然后利用残差块2、残差块3和残差块4继续对上述行人特征图进行提取，即可获得行人特征向量的具体方法是：

对步骤(1)中提取的行人掩码图进行尺度变换，使其维度与残差块1的输出特征图的维度一致，然后将尺度变换后的行人掩码图与残差块1的输出特征图逐元素相乘，即可将背景区域元素置为0，得到行人特征图；将行人特征图作为残差块2的输入继续进行特征提取即可得到行人特征向量。

在步骤(4)中，所述的以行人图像作为步骤(2)中行人属性识别网络的输入，将上述Resnet-50网络中残差块1的输出特征图与步骤(1)中的背景掩码图逐元素相乘即可获得背景特征图，然后利用残差块2、残差块3和残差块4继续对背景特征图进行提取，即可获得背景特征向量的具体方法是：

对步骤(1)中提取的背景掩码图进行尺度变换，使其维度与残差块1的输出特征图的维度一致，然后将尺度变换后的背景掩码图与残差块1的输出特征图逐元素相乘，即可将行人区域元素置为0，得到背景特征图；将背景特征图作为残差块2的输入继续进行特征提取即可得到背景特征向量。

在步骤(5)中，所述的将行人图像作为步骤(2)中行人属性识别网络的输入，即可获得行人图像特征向量，然后将步骤(3)、步骤(4)中获得的行人特征向量、背景特征向量及上述行人图像特征向量作为分类层的输入即可计算出行人属性识别网络的损失，之后利用随机梯度下降算法对行人属性识别网络进行优化，并保存最优网络参数的具体方法是：

利用Resnet-50网络提取行人图像特征向量，将行人图像作为行人属性识别网络的输入，Resnet-50网络中残差块4的输出即为行人图像特征向量；将行人图像特征向量通过全局平均池化操作进行降维，然后进行分类并利用交叉熵损失函数计算行人属性识别网络的损失；利用区域级三元损失函数计算行人图像特征向量分别与行人特征向量、背景特征向量的欧式距离作为行人属性识别网络特征提取的损失；将两个损失值联合作为行人属性识别网络的总损失；利用随机梯度下降算法对行人属性识别网络参数进行优化，设置网络的学习率和权重衰减，在设置的最大迭代学习次数下，不断迭代学习，直至行人属性识别网络的损失函数的损失值达到一个较小值，网络收敛，保存最优网络参数。

本发明提供的基于背景抑制的行人属性识别方法通过引入行人掩码图和背景掩码图，将其与行人属性识别网络分类层的输出特征图结合，使行人属性识别网络能获取分类层的行人特征图和背景特征图，然后提取行人图像特征向量、行人特征向量、背景特征向量，联合加权交叉熵损失函数和区域级三元损失函数两个损失函数共同训练，使行人属性识别网络在完成属性识别的同时，提高网络提取特征的稳定性。在此损失函数的约束下，神经网络学习到的特征将具有背景杂乱不变性，从而可提高行人属性识别的准确度。

附图说明

图1是本发明中行人属性识别网络结构示意图。

图2是本发明中残差块结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于背景抑制的行人属性识别方法进行详细说明。

本发明提供的基于背景抑制的行人属性识别方法包括按顺序进行的下列步骤：

利用由Pytorch框架构建的deeplab-v2网络将输入的行人图像中行人区域元素置为1，背景区域元素置为0所得的矩阵即为行人掩码图，将背景区域元素置为1，行人区域元素置为0所得的矩阵即为背景掩码图。Pytorch框架是一个针对深度学习，并使用GPU和CPU优化的深度学习张量库。

具体方法是：

所述的ResNet-50网络是在网络结构中加入一些快捷连接(shortcutconnections)，也可以称之为残差块，结构如图2所示。

其中残差块1、残差块2、残差块3和残差块4在提高神经网络特征提取能力的同时，不会增加模型的参数和复杂度，因此，可以加速神经网络的训练，提高模型的准确率。

所述的区域级三元损失函数用于计算行人属性识别网络提取特征造成的损失，其数学表达式如下：

其中，m由实验获得，F_full、F_foreground、F_background分别为行人属性识别网络提取的行人图像特征向量、行人特征向量和背景特征向量。该损失函数计算的是行人图像特征向量分别与行人特征向量、背景特征向量的欧氏距离。随着该损失的最小化，网络提取的行人图像特征向量与行人特征向量越来越相似，行人图像特征向量与背景特征向量越来越相异。因此，该损失函数可以在行人属性识别网络提取特征的时候，抑制背景的影响。

所述的加权交叉熵损失函数的作用是计算行人属性识别网络的损失。行人属性数据集中每个属性的正负样本数目不均衡，加权交叉熵损失函数可为正样本数目较少的属性赋予较大的惩罚权重，为正样本数目较多的属性赋予较小的惩罚权重，以解决样本不均衡的问题，其数学表达式如下：

利用区域级三元损失函数和加权交叉熵损失函数联合作为行人属性识别网络的损失函数，其数学表达式为：

L_all＝L_att+λL_trip

其中，λ由实验获得。

具体方法是：

Claims

1.一种基于背景抑制的行人属性识别方法，其特征在于：所述的基于背景抑制的行人属性识别方法包括按顺序进行的下列步骤：

2.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(1)中，所述的利用图像语义分割方法中经典的Deeplab-v2网络提取行人属性数据集中行人图像的行人掩码图与背景掩码图的具体方法是：

3.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(2)中，所述的构建行人属性识别网络，所述的行人属性识别网络以Resnet-50网络作为基础网络，在Resnet-50网络上增加了两个分支而对该网络进行改进的具体方法是：

4.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(2)中，所述的区域级三元损失函数的数学表达式如下：

5.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(2)中，所述的加权交叉熵损失函数的数学表达式如下：

6.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(2)中，所述的损失函数的数学表达式为：

L_all＝L_att+λL_trip

其中，λ由实验获得。

7.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(3)中，所述的以行人图像作为步骤(2)中行人属性识别网络的输入，将Resnet-50网络中残差块1的输出特征图与步骤(1)中的行人掩码图逐元素相乘即可获得行人特征图，然后利用残差块2、残差块3和残差块4继续对上述行人特征图进行提取，即可获得行人特征向量的具体方法是：

8.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(4)中，所述的以行人图像作为步骤(2)中行人属性识别网络的输入，将上述Resnet-50网络中残差块1的输出特征图与步骤(1)中的背景掩码图逐元素相乘即可获得背景特征图，然后利用残差块2、残差块3和残差块4继续对背景特征图进行提取，即可获得背景特征向量的具体方法是：

9.根据权利要求1所述的基于背景抑制的行人属性识别方法，其特征在于：在步骤(5)中，所述的将行人图像作为步骤(2)中行人属性识别网络的输入，即可获得行人图像特征向量，然后将步骤(3)、步骤(4)中获得的行人特征向量、背景特征向量及上述行人图像特征向量作为分类层的输入即可计算出行人属性识别网络的损失，之后利用随机梯度下降算法对行人属性识别网络进行优化，并保存最优网络参数的具体方法是：