CN110688966B

CN110688966B - 语义指导的行人重识别方法

Info

Publication number: CN110688966B
Application number: CN201910942207.3A
Authority: CN
Inventors: 全红艳; 刘超
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2024-01-09
Anticipated expiration: 2039-09-30
Also published as: CN110688966A

Abstract

本发明公开了一种语义指导的行人重识别方法，该方法采用条件生成式对抗网络，并结合行人部件语义分割技术，实现行人重识别功能，方法中的深度学习架构包括：编码子网络、分类子网络、解码子网络及判别子网络，利用编码子网络提取语义与类别特征，并构建了分类子网络，实现类别特征的准确判别，进一步地，在解码子网络中，结合编码特征生成语义和类别一致性的行人图像，引入判别子网络，给出了类别与语义损失函数，以确保模型训练过程中的质量和性能，在行人姿势和视角多变的情况下，该方法能够准确进行识别，提高行人重识别的准确性。

Description

语义指导的行人重识别方法

技术领域

本发明涉及行人重识别技术领域，具体涉及一种语义指导的行人重识别方法，该方法采用条件生成式对抗网络，并结合行人部件语义分割技术，实现行人重识别功能，在行人姿势和视角多变的情况下，该方法能够准确进行识别，提高行人重识别的准确性。

背景技术

在智能安防领域中，视频监控系统的大量普及给社会公共安全工作提供了保障，行人重识别技术致力于解决非重叠摄像机下行人是否匹配的问题，由于非重叠摄像机下拍摄的同一行人视域不同，进而导致行人图像在外观上出现姿势以及视角多变等情形，这给研究行人重识别技术带来了困难，传统方法通过手工提取行人特征，但是手工特征难以减轻视角差异大的影响，此外，传统的行人重识别技术仅仅考虑行人的颜色、纹理等底层特征，没有考虑更加抽象的人体语义特征，无法保证提取的行人特征具有高辨别性，现有的行人重识别方法很少利用人体部件语义分割技术来提升重识别的性能，如何建立有效的深度学习模型实现行人重识别是一个亟待解决的实际问题。

发明内容

本发明的目的是针对现有技术的不足，并针对行人重识别中出现的行人姿态多变、角度不一致等实际问题，利用深度学习策略，构建生成式对抗网络，提供一种高效的行人重识别方法；

实现本发明目的的具体技术方案是：

步骤1：行人数据集构建

下载行人数据集Market1501，Market1501包含单行人图像，从Market1501中选取M幅图像，构建数据集R＝{h_η|0≤η≤M-1}，20000≤M≤40000，将R中每幅行人图像赋予一个类别标签s_l,一共创建K个类别，1≤l≤K,500≤K≤2000；

按照如下方法构建行人重识别数据集F：从网站https://github.com/minar09/LIP-JPPNet-TensorFlow下载训练的网络模型ε，将R中每幅图像输入到ε中，输出与h_k对应的人体语义分割图像π_k，将h_k和π_k的分辨率缩放为H×W，并将h_k和π_k中每个像素三个通道RGB的颜色采用归一化方法表示，归一化后的像素值为ρ，-1＜ρ＜1，归一化后的结果分别记为I_k和J_k，由I_k和J_k组合构建行人重识别数据集F；

步骤2：构建神经网络

神经网络为六个子网络：类别编码子网络EP-Net，语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net；

对于EP-Net，输入为I_k，输入张量形状为H×W×3，输出为表示行人的类别特征A_k，尺度为2048×1；

对于ES-Net，输入为J_j，j≠k，输入张量形状为H×W×3，输出为表示人体语义的特征B_j，尺度为a×1，a为128、256或者512；

对于C-Net，A_k作为输入，输出I_k的类别D，0＜D＜K-1；

对于DE-Net，A_k、B_j和C作为输入，C表示高斯噪声，其张量形状为b×1，b为64，128或者256，输出为合成的行人图像S和人体部件语义分割图像Q，尺度均为H×W×3；

对于DI-Net，输入为S或者I_j，输出为1个神经元；

对于DP-Net，输入为Q或者J_j，输出为1个神经元；

对于EP-Net，采用ResNet50结构，并在基本的ResNet50结构的基础上，将最后的全连接层去除；

对于ES-Net，网络结构设置为以下6层：第一层为卷积操作，卷积核设置为64，核形状为4×4，输出结果为特征图，即为Z₁，后5层均为卷积层，其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成，卷积核分别设置为128，256，512，512，a，前4层卷积运算核形状均为4×4，最后1层卷积运算核形状设置为8×4，输出结果为不同尺度的特征图，分别表示为Z₂、Z₃、Z₄、Z₅、Z₆；

对于C-Net，网络结构设置为以下2层：批归一化层和全连接层，全连接层的神经元个数为P，0＜P＜K-1；

对于DE-Net，网络结构设置为以下6层：6个上采样层，第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成，其采样核大小为8×4，采样输出通道为512，中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成，采样输出通道分别为512、256、128、64，其采样核大小均为4×4，每层的输入由上个采样层输出的结果分别和Z₅、Z₄、Z₃、Z₂串接而成，最后一个采样层包含2个输出，1个输出包含上采样、批归一化、ReLU激活、卷积运算以及Tanh激活组成，上采样的核为3×3，步长为2，输出通道为64，卷积运算的核为3×3，步长为1，输出通道为3，另一个输出由上采样及Tanh激活操作组成，其采样核大小为4×4，步长为2，采样输出通道为3，并接收Z₁和第五个上采样层的输出作为输入；

对于DI-Net，采用与EP-Net类似的网络，将ResNet50结构的最后一层全连接去除，加入1个全连接层，全连接层的神经元个数为1；

对于DP-Net，网络结构设置为以下7层：5层卷积层、1个全局平均池化层和1个全连接层，卷积层由卷积运算、批归一化和LeakyReLU激活操作组成，卷积核分别设置为64，128，256，512，1024，全连接层的神经元个数为1；

步骤3：神经网络的训练

将数据集F中样本图像按照4:1:4的比例划分为训练数据集α，样例数据集β和测试数据集γ，利用α训练网络模型，利用β数据集用于取出要识别的行人对象样本，β和γ用于评估及测试行人重识别的性能；

对EP-Net和C-Net同时进行训练，训练轮次为50次，固定EP-Net和C-Net，对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练，训练轮次为100次，对EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练，训练轮次为100次；

对C-Net的损失定义为：

其中p_d表示I_k属于d类别的概率，q_d表示I_k属于d类别的标签，其中x_i表示类别为i的行人样例图像在训练时，经过EP-Net得到的特征，c_i表示同一个批次中，类别为i的所有行人样例图像训练时，经过EP-Net得到的特征的平均值，m表示批次的大小；

对DI-Net的损失定义为：

其中U和V分别代表真实图像和生成图像的数据分布，T表示类别判别子网络DI-Net的输出映射，E代表数学期望；

对DP-Net的损失定义为：

其中u和v分别代表真实语义图像和生成语义图像的数据分布G表示语义判别子网络DP-Net的输出映射，E代表数学期望；

对DE-Net的损失定义为：

其中θ表示I_k的像素点个数，Y_e为I_k中每个像素点值，y_e为S中每个像素点值，O_e为J_j中每个像素点值，o_e为Q中每个像素点值；

所以，训练模型的总损失定义如下：

L＝λ₁L_g+λ₂L_d+λ₃L_z+λ₄L_w (5)

其中λ₁、λ₂、λ₃、λ₄为超参数常量；

步骤4：行人重识别和行人图像生成操作

从样例数据集β中选取一个样例I_k，将其输入到EP-Net与C-Net网络中，利用训练好的模型参数构建网络，再利用这个网络进行预测，得到预测的特征σ,再按照这样相同的方法，预测γ中每个样本的特征，将这些特征中的每个特征分别与σ利用欧式距离进行比对，当欧式距离取得最极小时，γ中对应的样本即为重识别的结果，从样例数据集γ中选取一对样例I_k和J_j,分别输入到EP-Net和ES-Net，DE-Net的输出记为行人图像生成的结果；

本发明具有高效、实用的特点，本发明包含编码子网络、分类子网络、解码子网络及判别子网络，利用编码子网络提取语义与类别特征，并构建分类子网络，实现类别特征的准确判别，进一步地，在解码子网络中，结合编码特征生成语义和类别一致性的行人图像，引入判别子网络，给出了类别与语义损失函数，以确保模型训练过程中的质量和性能，在行人姿势和视角多变的情况下，该方法能够准确进行识别，提高行人重识别的准确性。

本发明应用于智能安防、视频监控和行人检索等领域，可以作为人脸识别技术的支持，在公共安防的侦察工作中以及图像检索等场景中有很高的应用价值。

附图说明

图1为本发明不同摄像头下行人检索的结果图；

图2为本发明利用模型进行行人图像生成的结果图。

具体实施方式

实施例

下面结合附图对本发明进一步说明；

本实施例在PC机上Windows10 64位操作系统下进行实施，其硬件配置为CPUCore^TM i5-7500 3.4GHz，显卡NVIDIAGeForce GTX 1060 6G，深度学习框架Pytorch，编程语言采用Python 3.6，主要利用的Python库为OpenCV 3.3.1，NumPy 1.14.3；

实现本发明的具体实施方案是一种语义指导的行人重识别方法，其特征在于，该方法输入包含行人图像和行人部件语义分割图像，输入图像的分辨率均为H×W，H取256，W取128，具体包括以下步骤：

步骤1：行人数据集构建

下载行人数据集Market1501，Market1501包含单行人图像，从Market1501中选取M幅图像，构建数据集R＝{h_n|0≤η≤M-1}，M取29419，将R中每幅行人图像赋予一个类别标签s_l,一共创建K个类别，1≤l≤K,K取1501；

步骤2：构建神经网络

对于ES-Net，输入为J_j，j≠k，输入张量形状为H×W×3，输出为表示人体语义的特征B_j，尺度为a×1，a取256；

对于C-Net，A_k作为输入，输出I_k的类别D，0＜D＜K-1；

对于DE-Net，A_k、B_j和C作为输入，C表示高斯噪声，其张量形状为b×1，b取128，输出为合成的行人图像S和人体部件语义分割图像Q，尺度均为H×W×3；

对于DI-Net，输入为S或者I_j，输出为1个神经元；

对于DP-Net，输入为Q或者J_j，输出为1个神经元；

对于C-Net，网络结构设置为以下2层：批归一化层和全连接层，全连接层的神经元个数为P，P取751；

步骤3：神经网络的训练

对C-Net的损失定义为：

对DI-Net的损失定义为：

对DP-Net的损失定义为：

对DE-Net的损失定义为：

所以，训练模型的总损失定义如下：

L＝λ₁L_g+λ₂L_d+λ₃L_z+λ₄L_w (5)

其中λ₁、λ₂、λ₃、λ₄为超参数常量；

步骤4：行人重识别和行人图像生成操作

训练过程中的超参数设置为：Dropout率取0.5，对EP-Net和C-Net同时进行训练，优化器选择随机梯度下降(SGD)优化器，批处理样本数为16，学习率固定，且设为0.01，训练周期为50，固定EP-Net和C-Net，对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练，ES-Net、DE-Net采用Adam优化器，学习率设定为0.001，DI-Net和DP-Net采用SGD优化器，学习率设定为0.01，批处理样本数为16，训练周期为100，EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练，ES-Net、DE-Net采用Adam优化器，学习率设定为0.0001，EP-Net、C-Net、DI-Net和DP-Net采用SGD优化器，学习率设定为0.001，训练周期为100。

图1为不同摄像头下行人检索的结果，选取了4个不同摄像头下拍摄的行人图像，可以看出，对于摄像机拍摄角度导致行人姿态呈现多变的情况，模型能够消除这些姿态多变的影响，从而提高跨摄像机下行人检索的准确率；

图2为利用模型进行行人图像生成的结果，当模型输入一张行人图像和一个人体语义分割图像，可以看出生成的行人图像满足行人类别和语义的一致性。

Claims

1.一种语义指导的行人重识别方法，其特征在于，该方法输入包含行人图像和行人语义分割图像，输入图像的分辨率均为H×W，H为128、256或者384，W为H/2，具体包括以下步骤：

步骤1：行人数据集构建

按照如下方法构建行人重识别数据集F：获取训练的网络模型ε，将R中每幅图像输入到ε中，输出与h_k对应的人体语义分割图像π_k，将h_k和π_k的分辨率缩放为H×W，并将h_k和π_k中每个像素三个通道RGB的颜色采用归一化方法表示，归一化后的像素值为ρ，-1<ρ<1，归一化后的结果分别记为I_k和J_k，由I_k和J_k组合构建行人重识别数据集F；

步骤2：构建神经网络

神经网络包括六个子网络：类别编码子网络EP-Net、语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net；

对于C-Net，A_k作为输入，输出I_k的类别D，1≤D≤K；

对于DE-Net，A_k、B_j和C作为输入，C表示高斯噪声，其张量形状为b×1，b为64、128或者256，输出为合成的行人图像S和人体部件语义分割图像Q，尺度均为H×W×3；

对于DI-Net，输入为S或者I_k，输出为1个神经元；

对于DP-Net，输入为Q或者J_j，输出为1个神经元；

对于ES-Net，网络结构设置为以下6层：第一层为卷积操作，卷积核设置为64，核形状为4×4，输出结果为特征图，即为Z₁；后5层均为卷积层，其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成，卷积核分别设置为128、256、512、512、a；前4层卷积运算核形状均为4×4，最后1层卷积运算核形状设置为8×4，输出结果为不同尺度的特征图，分别表示为Z₂、Z₃、Z₄、Z₅、Z₆；

对于C-Net，网络结构设置为以下2层：批归一化层和全连接层，全连接层的神经元个数为P，≤P≤K；

对于DE-Net，网络结构设置为以下6层：6个上采样层；第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成，其采样核大小为8×4，采样输出通道为512；中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成，采样输出通道分别为512、256、128、64，其采样核大小均为4×4，每层的输入由上个采样层输出的结果分别和Z₅、Z₄、Z₃、Z₂串接而成；最后一个采样层包含2个输出，1个输出包含上采样、批归一化、ReLU激活、卷积运算以及Tanh激活组成，上采样的核为3×3，步长为2，输出通道为64，卷积运算的核为3×3，步长为1，输出通道为3；另一个输出由上采样及Tanh激活操作组成，其采样核大小为4×4，步长为2，采样输出通道为3；最后一个采样层接收Z₁和第五个上采样层的输出作为输入；

对于DP-Net，网络结构设置为以下7层：5层卷积层、1个全局平均池化层和1个全连接层，卷积层由卷积运算、批归一化和LeakyReLU激活操作组成，卷积核分别设置为64、128、256、512、1024，全连接层的神经元个数为1；

步骤3：神经网络的训练

将数据集F中样本图像按照4:1:4的比例划分为训练数据集α，样例数据集β和测试数据集γ，利用数据集α训练网络模型，利用数据集β取出要识别的行人对象样本，数据集β和γ用于评估及测试行人重识别的性能；

对EP-Net和C-Net同时进行训练，训练轮次为50次；固定EP-Net和C-Net，对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练，训练轮次为100次；对EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练，训练轮次为100次；

对C-Net的损失定义为：

其中p_d表示I_k属于d类别的概率，q_d表示I_k属于d类别的标签，其中x_i表示图像为i的行人样例在训练时，经过EP-Net得到的特征，c_i表示同一个批次中，图像为i的所有行人样例训练时，经过EP-Net得到的特征的平均值，m表示批次的大小；

对DI-Net的损失定义为：

对DP-Net的损失定义为：

其中u和v分别代表真实语义图像和生成语义图像的数据分布，G表示语义判别子网络DP-Net的输出映射，E代表数学期望；

对DE-Net的损失定义为：

所以，训练模型的总损失定义如下：

L＝λ₁L_g+λ₂L_d+λ₃L_z+λ₄L_w (5)

其中λ₁、λ₂、λ₃、λ₄为超参数常量；

步骤4：行人重识别和行人图像生成操作

从样例数据集β中选取一个样例I_k，将其输入到EP-Net，EP-Net输出进入C-Net网络中，利用训练好的模型参数构建网络，利用所构建网络进行预测，得到预测的特征σ；再按照相同的方法，预测γ中每个样本的特征，将这些特征中的每个特征分别与σ利用欧式距离进行比对，当欧式距离取得最极小时，γ中对应的样本即为重识别的结果，从样例数据集γ中选取一对样例I_k和J_j，分别输入到EP-Net和ES-Net；DE-Net的输出记为行人图像生成的结果。