CN111931802A

CN111931802A - 基于Siamese网络结构融合中层特征的行人重识别方法

Info

Publication number: CN111931802A
Application number: CN202010546270.8A
Authority: CN
Inventors: 张小瑞; 陈旋; 孙伟; 宋爱国
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-11-13

Abstract

本发明公开了一种基于Siamese网络融合中层特征的行人重识别方法，包括以下步骤：(1)预训练DenseNet121网络；(2)调整DenseNet121网络结构，搭建Siamese网络；(3)预处理训练集，利用随机擦除增强数据；(4)用预处理的训练集训练Siamese网络；(5)使用训练好的Siamese网络模型，得到待查询与图像库图像特征；(6)用余弦距离计算待查询与图像库行人图像的相似度，将图像库行人图像按照相似度大小排列。本发明利用调整后的DenseNet121搭建Siamese网络，提高了行人图像特征的区分程度和辨识度，同时利用随机擦除增加行人被遮挡的情形，提高行人重识别模型的泛化能力，适合复杂场景下跨摄像头的行人重识别。

Description

基于Siamese网络结构融合中层特征的行人重识别方法

技术领域

本发明涉及行人重识别方法，尤其涉及一种基于Siamese网络结构融合中层特征的行人重识别方法。

背景技术

行人重识别是指在跨摄像头的环境中，判断是否存在给定行人图像。该技术在智能视频监控、维护社会治安等方面发挥着重要的作用。然而行人重识别存在着较大的挑战：当姿势以及光照、背景等环境因素变化时，同一行人的外观在不同的监控视频下存在明显的差异，而不同行人的外观在某种情况下会比较相似。

近年来，深度学习的方法被广泛应用，相比于传统手工设计方法，深度学习能够取得更好的性能。在跨摄像头下检索给定的行人图像，深度行人重识别模型通常选用ResNet50作为基础网络在有限的数据集上进行优化，产生巨大的参数量，增加了过拟合的风险，降低泛化能力。同时针对跨摄像头行人出现的模态差异，一些基于GAN网络和利用注意力机制的方法被用来关注模态之间突出的特征，但这些方法模型复杂，训练不稳定。

发明内容

发明目的：本发明的目的是提供一种抗过拟合性能好、鲁棒性高的基于Siamese网络结构融合中层特征的行人重识别方法。

技术方案：本发明所述的行人重识别方法，包括以下步骤：

(1)预训练DenseNet121网络；

(2)调整DenseNet121网络结构，搭建Siamese网络；

(3)预处理训练集，利用随机擦除增强数据；

(4)用预处理的训练集训练Siamese网络；

(5)使用训练好的Siamese网络模型，得到待查询与图像库图像特征；

(6)用余弦距离计算查询与图像库图像的相似度，将图像库图像按相似度大小排列。

步骤(1)中，将ImageNet数据集作为训练数据集，训练一个DenseNet121网络，使DenseNet121网络具有初始值。

步骤(2)中，在DenseNet121中间层与最后一层后添加SElayer，得到的中级特征和高级特征，将它们相融合，在调整后的DenseNet121后添加两个全连接层，构建ID分类网络，将两个ID分类网络做并行连接，并行网络间加入一个对比层和一个全连接层构建验证网络，搭建一个完善的Siamese网络。

步骤(3)中，采用随机擦除的数据增广方法对图像进行随机的遮拦，以增强模型学习能力。

步骤(4)中，采用ID损失和验证损失联合的损失L优化Siamese网络。

步骤(5)中，得到待查询图像特征feature₁与图像库图像特征feature₂。

步骤(6)中，余弦距离d计算公式为：

式中，feature₁为待查询图像特征，feature₂为图像库图像特征。

图像库图像根据余弦距离按相似度大小排列，返回最相似行人图像。

有益效果：本发明与现有技术相比，其显著效果如下：1、使用DenseNet121为基础网络，减少参数和计算量，具有非常好的抗过拟合性能；2、使用Siamese网络模型，可以预测两个输入图像的身份，以及判断它们是否属于同一身份，充分利用了行人的标注；3、采用随机擦除，扩充样本、防止过拟合、提高模型鲁棒性，适合复杂场景下跨摄像头的行人重识别；4、采用中级语义特征与高级语义特征融合，同时在中间层与最后层之后添加一个SElayer，让模型可以更加关注信息量最大的通道特征，进一步提高了行人图像的特征区分度。

附图说明

图1为本发明的流程图；

图2为本发明的SElayer网络结构；

图3是本发明的DenseNet121网络结构；

图4是本发明的Siamese网络模型。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

本发明采用DenseNet121网络，大大减少了参数的数量，并鼓励特征重用。同时调整DenseNet121网络结构，中间层含有更多的局部突出信息，不需要额外的注意力机制，将中间层与最后层特征相融合，便可获得更具区分性的行人特征，同时在中间层与最后层之后添加一个SElayer，让Siamese网络模型可以更加关注信息量最大的通道特征，而抑制那些不重要的通道特征。

如图1所示为本发明的流程图，详细步骤如下：

(1)预训练DenseNet121网络

将ImageNet数据集作为训练数据集，训练一个DenseNet121网络，使DenseNet121网络具有初始值。

(2)调整DenseNet121网络结构，搭建Siamese网络

调整DenseNet121网络结构，一次输入n张行人图像input，在DenseNet121中间层denseblock3后面加入SElayer，将denseblock3的输出作为SElayer的输入。SElayer结构图如图2所示，使用全局平均池化(avgpool)作为Squeeze操作，紧接着两个全连接层(fc)去建模通道间的相关性。首先通过一个全连接层进行特征降维，然后经过relu激活后再通过一个全连接层升回到原来的维度，然后通过一个sigmoid函数获得归一化的权重，最后通过一个scale的操作来将归一化后的权重加权到每个通道的特征上。通过添加SElayer可以获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

如图3所示，在SElayer后使用全局平局池化得到中级特征维度为[n,1024,1,1]，在最后层denseblock4后添加同样的SElayer,全局平均池化后得到高级特征维度为[n,1024,1,1]，中级特征与高级特征按行拼接融合得到特征f维度大小为[n,2048,1,1]，中间层信息更能突出局部特征，直接利用中间层特征与最后层层特征融合能够得到更具有区分性的行人特征，从而避免了额外设计局部注意机制模型。

将两个调整后的DenseNet121网络做并行连接，搭建Siamese网络。如图4所示，利用两个调整后的DenseNet121，搭建Siamese网络，这两个DenseNet121享有相同的权值，上层DenseNet121输出特征记作f₀，下层DenseNet121输出特征记作f₁，f₀、f₁分别作为全连接层FC_1-0、FC_1-1的输入，FC_1-0、FC_1-1输出特征分别为fc_1-0、fc_1-1，维度大小为[n,512]，最后全连接层FC_2-0、FC_2-1输出特征维度大小为[n,K]，K为训练集行人的个数,构建了ID分类网络。在上下全连接层FC_1-0、FC_1-1后加入对比层，输出张量f_m的计算公式为：

f_m＝fc_1-0-fc_1-1 (1)

式(1)中，fc_1-0为全连接层FC_1-0的输出特征，fc_1-1为全连接层FC_1-1输出特征。

在对比层后添加一个全连接层FC₃输出特征维度为[n,2]，构成验证网络，构成了一个完善的Siamese网络。

(3)预处理训练集，利用随机擦除增强数据

采用REA(Random Erasing Data Augmentation随机擦除的数据增广方法)对图像进行随机的遮拦，以增强模型学习能力，其中设置随机遮拦的概率a＝0.5，遮拦矩形框面积为0.02<S<0.4。

(4)用预处理的训练集训练Siamese网络

采用ID损失L_ID和验证损失L_ver组合的损失L优化Siamese网络。其中ID损失L_ID计算公式为：

式(2)中，K为训练集行人的个数，p_i是输入行人图片的标签；

为输入图片属于第i个(i∈{1,2,3,...K})行人的概率，计算公式为：

式(3)中z_i∈{z₁,z₂,z₃,..z_K}，[z₁,z₂,z₃,...z_K]是ID分类网络最后一层输出向量。

验证损失L_ver计算公式为：

式(4)中，q_i表示Siamese网络输入的成对图像是否为同一行人，若为同一行人则q₁＝1，q₂＝0；否则，q₁＝0，q₂＝1；

表示是否为同一行人的概率，计算公式为：

式(5)中，w_i∈{w₁,w₂}，[w₁,w₂]是验证网络的输出向量。

组合的损失L计算公式为：

L＝L_ID+L_ver (6)

(5)使用训练好的Siamese网络模型，得到待查询与图像库图像特征

使用训练好的Siamese网络模型，得到待查询图像特征feature₁与图像库图像特征feature₂，得到待查询与图像库图像特征。

(6)用余弦距离计算查询与图像库图像的相似度，按相似度大小排列

余弦距离d计算公式为：

feature₁为待查询图像特征，feature₂为图像库图像特征。

图像库图像按相似度大小排列，返回最相似行人图像。

综上所述，本发明所述的行人重识别方法充分利用了DenseNet121为基础网络，减少参数和计算量；使用Siamese网络模型，充分利用了行人的标注；采用随机擦除的数据增广方法扩充样本，具有非常好的抗过拟合性能；采用中级语义特征与高级语义特征融合，同时在中间层与最后层之后添加一个SElayer，增加了行人图像的特征区分度，提高了模型鲁棒性。

Claims

1.一种基于Siamese网络融合中层特征的行人重识别方法，其特征在于，包括以下步骤：

(1)预训练DenseNet121网络；

(2)调整DenseNet121网络结构，搭建Siamese网络；

(3)预处理训练集，利用随机擦除增强数据；

(4)用预处理的训练集训练Siamese网络；

2.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法，其特征在于：步骤(1)中，将ImageNet数据集作为训练数据集，训练一个DenseNet121网络，使DenseNet121网络具有初始值。

3.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法，其特征在于：步骤(2)中，在DenseNet121中间层后加入SElayer得到中级特征，最后层加入SElayer得到高级特征，将中级特征与高级特征相融合，在调整后的DenseNet121后添加两个全连接层，构建ID分类网络，将两个ID分类网络做并行连接，并行网络间加入一个对比层和一个全连接层构建验证网络，搭建一个完善的Siamese网络。

4.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法，其特征在于：步骤(3)中，采用随机擦除的数据增广方法对图像进行随机的遮拦，以增强模型学习能力。

5.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法，其特征在于：步骤(4)中，采用ID损失和验证损失联合的损失L优化Siamese网络。

6.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法，其特征在于：步骤(5)中，得到待查询图像特征feature₁与图像库图像特征feature₂。

7.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法，其特征在于：步骤(6)中，余弦距离d计算公式为：