CN109784197B

CN109784197B - 基于孔洞卷积与注意力学习机制的行人再识别方法

Info

Publication number: CN109784197B
Application number: CN201811569608.0A
Authority: CN
Inventors: 袁媛; 王�琦; 蒋旻悦
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2022-06-07
Anticipated expiration: 2038-12-21
Also published as: CN109784197A

Abstract

本发明公开了一种基于孔洞卷积与注意力学习机制的行人再识别方法，用于解决现有行人再识别方法实用性差的技术问题。技术方案是首先设计基于孔洞卷积的瓶颈模块，并将多个瓶颈模块串联组成主干网络；对主干网络进行预训练，得到预训练模型；在主干网络的不同层次提取注意力特征图，并限制多层注意力特征图一致，自主学习不同层次注意力特征；采用交叉熵损失函数、三元组损失函数以及注意力特征图约束损失函数对网络进行训练；利用主干网络直接提取最终的特征，并在行人检索库中搜索与待搜索行人特征距离最小的行人图片，将身份赋予待搜索行人，完成再识别过程。本发明将卷积神经网络与注意力学习机制相结合，能够精确进行行人再识别，实用性好。

Description

基于孔洞卷积与注意力学习机制的行人再识别方法

技术领域

本发明涉及一种行人再识别方法，特别涉及一种基于孔洞卷积与注意力学习机制的行人再识别方法。

背景技术

行人再识别是指在不同摄像头场景下识别出行人身份的技术，是视频监控分析技术中非常重要的一部分。然而由于监控视频比较复杂，受到剧烈变化的光照、天气、视角变换、行人姿态、遮挡等因素的影响，以及成像设备分辨率差的影响，使得在不同摄像头下识别出同一行人比较困难。随着深度学习在图像分类、目标识别等多个计算机视觉领域取得重大突破。

将深度学习应用在行人再识别上能够很好地处理上述问题。一般来说，深度学习的行人再识别算法主要包含以下几个步骤：

步骤一、对行人图片进行预处理；

步骤二、利用交叉熵损失函数将行人再识别对深度卷积神经网络进行训练；

步骤三、使用训练好的网络提取待搜索行人与查询库中的行人特征；

步骤四、计算待搜索行人特征与检索库行人特征间的距离，并排序；

步骤五、将距离最小的检索库行人的身份赋予待查询行人，再识别完成。

当前基于深度学习的行人再识别方法主要是通过利用深度卷积神经网络与设计损失函数进行行人再识别。深度卷积神经网络通过不断堆叠卷积层、激活函数层、池化层、全连接层等提取行人图片特征，卷积层中的卷积核根据场景进行调整，以适应复杂环境。通过反向传播，损失函数能够指导网络学习在复杂场景下更加鲁棒、更加具有辨别力的特征。利用上述训练的网络对待查找图片和检索库中所有图片提取特征，并计算特征之间的距离，并认为距离最小的检索图片中行人的身份为待查找图片中行人的身份。

Li等人在文献“D.Li,X.Chen,Z.Zhang,K.Huang,Learning Deep Context-awareFeatures over Body and Latent Parts for Person Re-identification.IEEEInternational Conference on Computer Vision and Pattern Recognition,384-393,2017.”中提出了一种深度学习的行人再识别的方法，该方法利用卷积神经网络首先将行人图片分成头、躯干、腿三部分，然后再输入到网络中提取3个部分的深层特征，并串联起来，该网络使用交叉熵损失函数进行训练。基于深度学习的方法能够在复杂场景下提取鲁棒并且具有辨别力的特征，目前逐渐成为行人再识别领域的主流算法。虽然该方法中使用了行人的多个部分的深层特征进行匹配，但直接忽略了浅层特征，很多的细节信息只在浅层特征中存在，在深层特征中已经丢失，因此不能直接丢弃浅层特征，深浅层特征应有选择的进行融合。同时，该网络深浅层特征之间的大小不同，不添加额外的上采样或下采样操作无法直接使用。

发明内容

为了克服现有行人再识别方法实用性差的不足，本发明提供一种基于孔洞卷积与注意力学习机制的行人再识别方法。该方法首先设计基于孔洞卷积的瓶颈模块，并将多个瓶颈模块串联组成主干网络；对主干网络进行预训练，得到预训练模型；在主干网络的不同层次提取注意力特征图，并限制多层注意力特征图一致，自主学习不同层次注意力特征；采用交叉熵损失函数、三元组损失函数以及注意力特征图约束损失函数对网络进行训练；利用主干网络直接提取最终的特征，并在行人检索库中搜索与待搜索行人特征距离最小的行人图片，将身份赋予待搜索行人，完成再识别过程。本发明将卷积神经网络与注意力学习机制相结合，能够精确识别出不同摄像头下的行人身份，实用性好。

本发明解决其技术问题所采用的技术方案：一种基于孔洞卷积与注意力学习机制的行人再识别方法，其特点是包括以下步骤：

步骤一、设计基于孔洞卷积的瓶颈模块，将多个瓶颈模块串联组成主干网络。

步骤二、使用注意力特征图提取模块，根据注意力特征图公式：

提取注意力特征图；其中，input为输入特征，att_i,j代表注意力特征图上的(i,j)点的数值，i,j为特征(i,j)点的数值，1≤i≤H，1≤j≤W，H，W分别为输入特征的高和宽，k为特征的一个通道，1≤k≤C，C为特征的通道数。将特征在通道上进行平均，得到注意力特征图。

步骤三、对主干网络进行训练。

训练采用随机梯度下降法，对分类损失函数、三元组损失函数以及注意力特征图约束损失函数进行优化。

分类损失函数公式如下：

L_cls＝-logp_u，

其中，

u是真实类别标签，N为类别数目。

三元组损失函数公式如下：

L_trip＝max(0,d(f(x_i),f(x_j))-d(f(x_i),f(x_k))+α)，

其中，x_i,x_j,x_k为输入的三张行人图片，x_i,x_j行人身份一致，x_i,x_k行人身份不一致，α为间隔，f(.)为通过卷积神经网络提取的特征，d(.)为欧氏距离。

注意力特征图约束损失函数公式如下：

L_sac＝|att(l₅)-att(l₃)|+|att(l₅)-att(l₄)|，

其中，att(.)为不同层次的注意力特征图，l_g为各层次中最后一个卷积层输出的特征。

通过随机梯度下降训练网络直至收敛，并保存网络权重。

步骤四、利用步骤三训练完成的网络提取对应测试行人特征，以及行人检索库的行人特征。

步骤五、将步骤四提取的测试行人特征与检索库中行人特征计算距离，并进行排序，将排序中距离最小的检索库行人图片的行人身份赋予待搜索行人，完成行人再识别。

本发明的有益效果是：该方法首先设计基于孔洞卷积的瓶颈模块，并将多个瓶颈模块串联组成主干网络；对主干网络进行预训练，得到预训练模型；在主干网络的不同层次提取注意力特征图，并限制多层注意力特征图一致，自主学习不同层次注意力特征；采用交叉熵损失函数、三元组损失函数以及注意力特征图约束损失函数对网络进行训练；利用主干网络直接提取最终的特征，并在行人检索库中搜索与待搜索行人特征距离最小的行人图片，将身份赋予待搜索行人，完成再识别过程。本发明将卷积神经网络与注意力学习机制相结合，能够精确识别出不同摄像头下的行人身份，实用性好。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于孔洞卷积与注意力学习机制的行人再识别方法的流程图。

图2是本发明方法实施例中孔洞卷积示意图。

图3是本发明方法实施例中基于孔洞卷积的瓶颈模块示意图。

图4是本发明方法实施例搜索出的行人结果照片。

具体实施方式

参照图1-4。本发明基于孔洞卷积与注意力学习机制的行人再识别方法具体步骤如下：

步骤一、设计基于孔洞卷积的瓶颈模块，并将多个瓶颈模块串联起来组成最终的主干网络；

参照图2中的孔洞卷积模块，将图3中的瓶颈模块中的3x3卷积替换为孔洞卷积。孔洞卷积包含了三层卷积层，分别使用1x1、3x3和1x1大小的卷积核。第一个1x1卷积操作将输入特征的通道数减少为四分之一，极大地减少了参数数量，提升模型运行速度。第二个3x3卷积，维持通道数不变，学习图像局部结构信息。第三个1x1的卷积将通道数还原为输入特征的通道数，提高特征的表达能力。基于孔洞卷积的瓶颈模块保持网络感受野不变的同时保持特征图空间分辨率不变。

步骤二、提取注意力特征图；

在resnet50网络的层次3、4、5的最后一个特征图上使用注意力特征图提取模块，提取不同层次的注意力显著区域。

注意力特征图的公式为：

其中，input为输入特征，att_i,j代表注意力特征图上的(i,j)点的数值，i,j为特征(i,j)点的数值，1≤i≤H，1≤j≤W，H，W分别为输入特征的高和宽，k为特征的一个通道，1≤k≤C，C为特征的通道数。将特征在通道上进行平均，得到注意力特征图。

步骤三、对主干网络进行训练。

分类损失函数公式如下：

L_cls＝-logp_u，

其中

u是真实类别标签，N为类别数目。通过优化该损失函数，卷积神经网络能够有效分类行人身份。

三元组损失函数公式如下：

L_trip＝max(0,d(f(x_i),f(x_j))-d(f(x_i),f(x_k))+α)，

其中x_i,x_j,x_k为输入的三张行人图片，x_i,x_j行人身份一致，x_i,x_k行人身份不一致，α为间隔，f(.)为通过卷积神经网络提取的特征，d(.)为欧氏距离，通过优化该损失函数，卷积神经网络能够拉近同一行人特征间距离，推远不同行人特征间的距离，有效提高网络的泛化性能。

注意力特征图约束损失函数公式如下：

L_sac＝|att(l₅)-att(l₃)|+|att(l₅)-att(l₄)|，

其中att(.)为不同层次的注意力特征图，l_g为各层次中最后一个卷积层输出的特征。通过优化该损失函数，卷积神经网络能够融合不同层次的注意力特征图，将细节信息和语意信息结合。

通过随机梯度下降训练网络直至收敛，并保存网络权重。

步骤四、将训练完成的网络用于特征提取。

利用上述训练好的模型提取对应测试的行人图片特征，以及行人检索库的行人特征。

步骤五、进行行人身份的再识别。

将上述计算好的测试行人特征与检索库中行人特征计算距离，并进行排序，将排序中距离最小的检索库行人图片的行人身份赋予待搜索行人，完成行人再识别。

本发明的效果通过以下实验做进一步的说明。

1.实验条件。

本发明是在显存12G的GTX 1080Ti、Ubuntu操作系统中运行，使用Python进行仿真实验。

实验中使用的训练和测试数据均来自于Market-1501数据集，包括了来自于6个摄像头共36036张图片，其中训练集包含12936张图片行人身份751人，测试集包含测试行人图片3368张图片，检索数据库包括19732张图片750人。选取的图片包含了各种复杂光照条件，如低光照，逆光，眩光等。

2.实验内容。

用于训练和测试的详细数据参见表1，然后按照具体实施方式中给出的步骤，通过平均精度均值来作为衡量识别效果的指标。

表1

镜头号	1	2	3	4	5	6
							训练集	2017	1709	2707	920	2338	3245
测试集	3843	3465	4169	1556	2978	3721

不同部分所起的作用见表2，其中有代表模型中包含这一部分，空白代表不包含该部分，多损失函数包含交叉熵损失函数，三元组损失函数以及注意力特征图约束损失函数三个部分。其中，编号为1的网络为基础网络，仅使用交叉熵损失函数以及resnet50网络进行训练，其平均精度均值为72.3％。

表2

经过多次试验，对于测试集上的3368位行人，使用5号模型综合多种方法，模型的平均精度均值约为82.6％，表明本方法能够有效的从行人库中迅速检索出行人身份，同时将相关行人图片也一并检索。通过孔洞卷积、约束不同层次之间的注意力特征图、以及多损失函数共同训练，行人显著部位的特征能够有效提取，模型性能得到大幅提升。

Claims

1.一种基于孔洞卷积与注意力学习机制的行人再识别方法，其特征在于包括以下步骤：

步骤一、设计基于孔洞卷积的瓶颈模块，将多个瓶颈模块串联组成主干网络；

提取注意力特征图；其中，input为输入特征，att_i,j代表注意力特征图上的(i,j)点的数值，i,j为特征(i,j)点的数值，1≤i≤H，1≤j≤W，H，W分别为输入特征的高和宽，k为特征的一个通道，1≤k≤C，C为特征的通道数；将特征在通道上进行平均，得到注意力特征图；

步骤三、对主干网络进行训练；

训练采用随机梯度下降法，对分类损失函数、三元组损失函数以及注意力特征图约束损失函数进行优化；

分类损失函数公式如下：

L_cls＝-log p_u，

其中，

u是真实类别标签，N为类别数目；

三元组损失函数公式如下：

L_trip＝max(0,d(f(x_i),f(x_j))-d(f(x_i),f(x_k))+α)，

其中，x_i,x_j,x_k为输入的三张行人图片，x_i,x_j行人身份一致，x_i,x_k行人身份不一致，α为间隔，f(.)为通过卷积神经网络提取的特征，d(.)为欧氏距离；

注意力特征图约束损失函数公式如下：

L_sac＝|att(l₅)-att(l₃)|+|att(l₅)-att(l₄)|，

其中，att(.)为不同层次的注意力特征图，l_g为各层次中最后一个卷积层输出的特征；

通过随机梯度下降训练网络直至收敛，并保存网络权重；

步骤四、利用步骤三训练完成的网络提取对应测试行人特征，以及行人检索库的行人特征；