CN111709311B

CN111709311B - 一种基于多尺度卷积特征融合的行人重识别方法

Info

Publication number: CN111709311B
Application number: CN202010460003.9A
Authority: CN
Inventors: 廖开阳; 邓轩; 郑元林; 章明珠; 曹从军; 李妮
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-11-28
Anticipated expiration: 2040-05-27
Also published as: CN111709311A

Abstract

本发明公开了一种多尺度卷积特征融合的行人重识别方法，首先对行人图片预处理；将Resnet‑50卷积神经网络作为骨干网络构建多层卷积神经网络，将处理后的图像作为样本数据输入到多层卷积神经网络中，得到卷积后的特征图；构建多尺度卷积神经单元；利用多尺度卷积神经单元计算原始特征距离，给定查询图像，通过将其k‑倒数最近邻编码为单个向量来计算k‑倒数特征，该单个矢量用于在雅克比距离下重新排序，最终距离计算为原始距离与雅克比距离的组合；本发明方法大幅度提高行人重识别的精度，并能广泛应用于行人重识别领域；本发明基于多尺度卷积特征融合的行人重识别算法也适合于图像检索领域，能大幅提高图像检索的精度。

Description

一种基于多尺度卷积特征融合的行人重识别方法

技术领域

本发明属于图像分析及图像识别技术领域，具体涉及一种基于多尺度卷积特征融合的行人重识别方法。

背景技术

行人重识别的目的是识别在不同位置以及不同摄像机视图中拍摄到的相同的行人并广泛应用于行人检索和摄像机跟踪任务的视频分析中。当在众多的视频序列中搜索特定的行人时，利用行人重识别系统可以节省时间和成本，因此利用身体外观的行人重识别已经受到越来越多的关注，但是由于行人容易受到姿态、照明、背景以及遮挡等方面的影响，使得行人重识别方法在本质上具有挑战性。

目前，具有深层的卷积神经网络的行人重识别取得了进展并且取得了高的识别率，许多先进的方法都设计了复杂的网络结构并连接了多分支网络，这些工作都集中在学习对行人姿势、照明和视角变化具有鲁棒性的判别性特征表示，以使用卷积神经网络提高行人的识别率。因为行人重识别的识别率的高低很大程度上取决于行人特征的鲁棒性，获取的行人图像的特征表示越全面，得到的行人重识别的精确度越高。为了更好的提高模型的鲁棒性，一些有效的训练技巧也被应用到行人重识别领域。因为随着视角的变化，行人的面部、手和脚等身体部位极不稳定，而卷积神经网络主要集中在行人的主干部分，因此抑制了对行人其他身体部位的描述；Fan等人(Xing Fan,Hao Luo,Xuan Zhang,et al.SCPNet:Spatial-Channel Parallelism Network for Joint Holistic and Partial Person Re-Identification[C]//Asian Conference on Computer Vision.Springer,Cham,2018)提出了一个空间通道并行网络(Spatial-Channel Parallelism Network,SCPNet)，提供了行人身体某一块空间区域的特征，并利用空间-通道相关性来监督网络学习一个鲁棒的特征，该方法在训练阶段有效地使用局部特征来利用全局特征。Dai等人(Z.Dai,M.Chen,X.Gu,S.Zhu and P.Tan,"Batch DropBlock Network for Person Re-Identification andBeyond,"2019IEEE/CVF International Conference on Computer Vision(ICCV),Seoul,Korea(South),2019,pp.3690-3700.)提出了批处理丢弃块(Batch DropBlock,BDB)网络，该模型以ResNet-50作为骨干网络，将骨干网络作为全局分支和特征删除分支组成两个分支网络，其中全局分支主要针对行人图像的全局特征提取，特征擦除分支主要通过批量随机擦除所有输入特征图的相同区域，以加强对行人图像局部区域特征的学习功能，最后，网络将两个分支得到的特征进行串联，得到了更全面和具有判别力的特征表示。

深度卷积神经网络已经证明了行人重识别的突破精度，从CNN学到的一系列特征提取器已经用于其他计算机视觉任务。来自CNN不同层次的特征旨在编码不同层次的信息，一系列从低层到高层的特征提取器可以从大规模的训练数据中以端到端的方式自动学习。不同层次的特征有着各自不同的特点，低层特征分辨率更高，包含更多位置和细节信息，用于度量细粒度的相似度，但是由于其经过的卷积层数较低，包含噪声较多，语义性不强，容易受到背景混乱和语义杂波的影响。高层特征具有更强的语义信息，用于度量语义的相似度，但其分辨率较低，对细节的感知能力较差，不足以描述图像细粒度的细节，因此如何将两者有效结合是提高识别准确率的关键。

发明内容

本发明的目的是提供一种多尺度卷积特征融合的行人重识别方法，充分利用不同层次的卷积特征的更多的互补优势，在骨干网络的基础上应用一系列优化技巧，把经过ResNet-50网络第2，3，4阶段的特征分别进行池化操作，得到多尺度特征，将这些不同层次的卷积特征进行拼接以测试图像，利用低层和高层特征的互补性来提高查询图像和其他候选图像之间的相似性度量。

本发明所采用的技术方案是，一种多尺度卷积特征融合的行人重识别方法，其特征在于，具体按以下步骤实施：

步骤1，数据预处理；

步骤2，将Resnet-50卷积神经网络作为骨干网络，构建多层卷积神经网络，将步骤1得到的处理后的图像作为样本数据输入到多层卷积神经网络中，得到卷积后的特征图；

步骤3，构建多尺度卷积神经单元；

步骤4，计算原始特征距离，将查询目标行人图像和候选行人图像集中每个行人图像输入到经步骤3训练好的网络模型中，计算查询目标行人图像特征与候选行人集中每个行人图像特征的原始特征距离；

步骤5，重排序策略，给定查询图像，通过将其k-倒数最近邻编码为单个向量来计算k-倒数特征，该单个矢量用于在雅克比距离下重新排序，最终距离计算为原始距离与雅克比距离的组合。

本发明的特点还在于：

其中步骤1具体操作包括以下步骤：

步骤1.1，将Resnet-50卷积网络作为骨干网络，将行人图片统一变换为长256宽128的大小，采用ImageNet中真实图像的RGB三通道均值和标准差来归一化输入图像，并使用随机翻转来进行数据增强；

步骤1.2，在经步骤1.1数据增强后，使用随机擦除增强策略来进行数据预处理；

其中步骤2具体操作包括以下步骤：

步骤2.1，将步骤1处理后的行人图片输入到网络中；骨干网络采用Resnet-50网络；

步骤2.2，提取特征图，分别提取Resnet-50网络卷积层第2阶段和第3阶段得到的特征图，并经Resnet-50网络第4阶段得到的特征图深度复制为两份，总共得到4个特征图；

其中步骤3具体操作包括以下步骤：将经步骤2得到的多层的卷积特征图经过池化处理以后进行特征拼接，使用动态学习率机制将得到的每一个特征向量进行独立分类，将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层，通过Tripletloss和Softmax loss损失将维数进一步降低到512维，最后使用梯度下降法优化得到分类损失，得到网络训练模型；

其中步骤3中构建多尺度卷积神经单元包括以下步骤：

步骤3.1，池化策略，将步骤2.2得到的经过卷积第2阶段和第3阶段得到的特征图，分别经过全局最大池化和全局平均池化，得到包含特征信息的1024维和2048维的特征向量；在ResNet-50的第4阶段之后，卷积核的步长由2变为1，然后将得到的特征图深度复制为两份，将经过第4阶段得到的深度复制以后的特征向量分别采用全局平均池化和全局最大池化策略，得到包含高层次特征信息的特征向量；

步骤3.2，学习率的设置，用前10个周期从3.5′10^-5到3.5′10^-4线性增加学习率；然后，在第40个和第70个学习周期，学习率分别下降到3.5′10^-5和3.5′10^-6；在第t个周期的学习率l_r(t)计算为：

步骤3.3，在步骤3.2学习率设置的基础上，将经过步骤3.1得到的每一个特征向量进行独立分类，并将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层；

步骤3.4，损失函数的设置，将步骤3.1得到的特征向量分别输入到损失函数中，softmax函数的公式表示为：

式中，S_i代表的是第i个神经元的输出，z_i为第i个节点的输出值，k为输出节点的个数，即分类的类别个数；

式中，w_ij为是第i个神经元的第j个权重；b表示每个神经元的偏置值；z_i表示该网络的第i个输出，x_ij表示网络第i个神经元的输入值；

给z_i加上一个softmax函数，为：

a_i表示这个输入图像对应的第i类的概率值的大小，每类a_i的取值范围是[0,1]区间内；z_i为第i个节点的输出值，k为输出节点的个数，即分类的类别个数；

步骤3.5，经步骤3.4分别求出所有所属类别的概率值后，在神经网络后面添加softmax函数，经过softmax loss得出的值就是预测的结果，因此可以使用交叉熵函数来作为损失函数；因此softmax的损失函数为：

式中，y_i是神经元的输出也可以作为预测结果；是第i个类别的真实值，/>只能取值0或者1，在softmax中取以e为底的对数；

步骤3.6，将三元组损失结合softmax损失应用在网络模型中，在使用三元组损失函数时，将是三张图片作为网络的输入，其中/>是锚点样本，是在训练数据集中随机选取的一个样本，/>表示与锚点样本属于同一行人标签的样本，即正样本，代表与锚点样本不属于同一行人标签的样本，即负样本；在特征提取时，输入相同的网络结构，经过特征提取之后计算损失函数的公式如下：

式中：

表示正样本与锚点样本的欧氏距离度量值，即类内距离；

代表负样本与锚点样本的欧式度量值，即类间距离；

α是指与/>之间的距离和/>与/>之间的距离之间有一个最小的间隔；

+表示[]内的值大于零时，该值为损失值，小于零的时候，损失为零；

步骤3.6，最终的损失函数表示为：

式中，m代表损失函数的个数，L_softmax表示使用softmax函数得到损失值，L_triplet表示使用trilpet函数得到的损失值；

步骤3.8，最后使用随机梯度下降法优化得到的分类损失；

其中步骤4具体操作包括以下步骤：

步骤4.1，在测试阶段，将获得的不同卷积层的特征进行拼接操作，使用多个不同的特征向量的融合来预测行人身份；

步骤4.2，利用欧氏距离公式，计算查询目标行人图像特征与候选行人集中每个行人图像特征的特征距离；给定一个测试图行人p和参考图像集G＝{g_i|i＝1,2,...,N}，两个行人图像p和g_i之间的原始距离可以通过马氏距离来测量，

式中，x_p代表测试图像p的外观特征；代表参考图像g_i的外观特征；M表示半正定矩阵；

其中步骤5具体操作包括以下步骤：

步骤5.1，定义一个更具有鲁棒性的集合：

对于原来的集合R(p,k)中的每一个测试样本q，找到它们的k-倒数最近邻集合在重合样本数量达到一定的条件时，求其与R(p,k)的并集，将原本不在R(p,k)集合中匹配的正样本重新包含在集合中；

步骤5.2，使用高斯核将检索图像的k倒排最近邻集合编码成N维向量，定义为设置为：

步骤5.3，计算雅克比距离时用到的交集的基数就改写为：

步骤5.4，最终得到的雅克比距离如下：

步骤5.5，则最终计算距离如下：

d^*(p，g_i)＝(1-λ)d_J(p，g_i)+λd(p，g_i) (14)

通过结合步骤4.2得到的原始马氏距离和雅克比距离对初始的排序进行重排序，其最终距离为两个距离的加权和，根据最终距离得到匹配的等级。

本发明的有益效果是：

本发明通过设计基于多尺度卷积特征融合的行人重识别的算法，能明显提高行人重识别的鲁棒性；通过行人重识别数据集，在使用优化技巧的基础上重新训练了网络模型Resnet-50，使网络模型能够判别不同身份的行人；对多层卷积特征今天不同的池化策略处理后得到的特征描述子用于行人重识别，提高行人重识别的性能；该方法利用不同层次的卷积特征的互补优势，在训练阶段，在应用一系列优化技巧的基础上，使用全局平均池化和全局最大池化对多个卷积特征图进行池化操作，并结合多个损失函数，得到多个特征向量，并对每一个特征向量进行独立分类，最后使用梯度下降法优化所有的损失函数。在测试阶段，将池化后的多个特征向量拼接成一个新的特征向量，使用新的特征向量进行相似性度量。大幅度提高行人重识别的精度，并能广泛应用于行人重识别领域；本发明基于多尺度卷积特征融合的行人重识别算法也适合于图像检索领域，能大幅提高图像检索的精度。

附图说明

图1是本发明的一种多尺度卷积特征融合的行人重识别方法的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种多尺度卷积特征融合的行人重识别方法，具体按以下步骤实施：

步骤1，数据预处理：

步骤2，将Resnet-50卷积神经网络作为骨干网络，构建多层卷积神经网络，将步骤1得到的处理后的图像作为样本数据输入到多层卷积神经网络中，得到卷积后的特征图：

步骤2.1，将步骤1得到的行人图片输入到网络中。骨干网络采用Resnet-50网络，ResNet-50网络结构一般分为5个阶段，若给定输入图像尺寸为(224,224,3)，其中224代表图像的宽度和高度，3代表RGB三个通道，每经过一层，其输出的图像尺寸会变为上一层的一半。本发明只利用网络的前四个阶段，并在ResNet-50的第4阶段之后，卷积核的步长由2变为1，以获得包含更多细节信息的行人图片；

步骤2.2，提取特征图，分别提取Resnet-50网络卷积层第2阶段和第3阶段得到的特征图，并经网络第4阶段得到的特征图深度复制为两份，总共得到4个特征图；

步骤3，构建多尺度卷积神经单元：

将经步骤2得到的多层的卷积特征图经过池化处理以后进行特征拼接，使用动态学习率机制将得到的每一个特征向量进行独立分类，将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层，通过triplet loss和softmax loss损失将维数进一步降低到512维，最后使用梯度下降法优化得到分类损失，得到网络训练模型；

构建多尺度卷积神经单元包括以下步骤：

步骤3.2，学习率的设置，用前10个周期从3.5′10^-5到3.5′10^-4线性增加学习率。然后，在第40个和第70个学习周期，学习率分别下降到3.5′10^-5和3.5′10^-6；在第t个周期的学习率l_r(t)计算为：

给z_i加上一个softmax函数，为：

式中：

表示正样本与锚点样本的欧氏距离度量值，即类内距离；

代表负样本与锚点样本的欧式度量值，即类间距离；

步骤3.6，最终的损失函数表示为：

步骤3.8，最后使用随机梯度下降法优化得到的分类损失；

步骤4，计算原始特征距离，将查询目标行人图像和候选行人图像集中每个行人图像输入到经步骤3训练好的网络模型中，计算查询目标行人图像特征与候选行人集中每个行人图像特征的原始特征距离：

步骤5，重排序策略，给定查询图像，通过将其k-倒数最近邻编码为单个向量来计算k-倒数特征，该单个矢量用于在雅克比距离下重新排序，最终距离计算为原始距离与雅克比距离的组合；

步骤5具体操作包括以下步骤：

步骤5.1，定义一个更具有鲁棒性的集合：

步骤5.3，计算雅克比距离时用到的交集的基数就改写为：

步骤5.4，最终得到的雅克比距离如下：

步骤5.5，则最终计算距离如下：

d^*(p，g_i)＝(1-λ)d_J(p，g_i)+λd(p，g_i) (14)

多尺度卷积特征融合的行人重识别方法算法的框架图，如图1所示，从算法输入输出来看，本发明输入两个图像库(查询图库、待处理图像库)，其中两幅图像在训练的Resnet-50的特征提取阶段经过，得到多个卷积特征；

从算法的流程来看；利用不同层次的卷积特征的更多互补优势，提出了一种基于多尺度卷积特征融合的行人重识别方法，所提的多尺度卷积特征融合方法如图1所示，主要分为以下几个部分：

1)在骨干网络的基础上应用一系列优化技巧，将第4阶段卷积核的步幅由2设置为1，增加特征图的尺寸，应用随机擦除的数据增强方法和动态学习率机制，增加网络模型的鲁棒性，使得模型的性能更好。归一化每个分类器的权重与特征，使得损失函数只优化权重与特征之间的角度，提升了分类性能；

2)把经过ResNet-50网络第2,3,4阶段的特征分别进行池化操作，得到多尺度特征，并将得到的特征进行独立分类，同时使用softmax loss和triplet loss函数，弥补判别特征信息不足的缺陷；

3)在测试阶段，将获得的不同卷积层的特征进行拼接操作，使用多个不同的特征向量的融合来预测行人身份。

Claims

1.一种多尺度卷积特征融合的行人重识别方法，其特征在于，具体按以下步骤实施：

步骤1，数据预处理；

步骤3，构建多尺度卷积神经单元，具体操作包括以下步骤：将经步骤2得到的多层的卷积特征图经过池化处理以后进行特征拼接，使用动态学习率机制将得到的每一个特征向量进行独立分类，将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层，通过triplet loss和softmax loss损失将维数进一步降低到512维，最后使用梯度下降法优化得到分类损失，得到网络训练模型；

构建多尺度卷积神经单元包括以下步骤：

步骤3.2，学习率的设置，用前10个周期从3.5×10^-5到3.5×10^-4线性增加学习率；然后，在第40个和第70个学习周期，学习率分别下降到3.5×10^-5和3.5×10^-6；在第t个周期的学习率l_r(t)计算为：

给z_i加上一个softmax函数，为：

步骤3.6，将三元组损失结合softmax损失应用在网络模型中，在使用三元组损失函数时，将是三张图片作为网络的输入，其中/>是锚点样本，是在训练数据集中随机选取的一个样本，/>表示与锚点样本属于同一行人标签的样本，即正样本，/>代表与锚点样本不属于同一行人标签的样本，即负样本；在特征提取时，输入相同的网络结构，经过特征提取之后计算损失函数的公式如下：

式中：

表示正样本与锚点样本的欧氏距离度量值，即类内距离；

代表负样本与锚点样本的欧式度量值，即类间距离；

步骤3.6，最终的损失函数表示为：

步骤3.8，最后使用随机梯度下降法优化得到的分类损失；

2.根据权利要求1所述的一种多尺度卷积特征融合的行人重识别方法，其特征在于，所述步骤1具体操作包括以下步骤：

步骤1.2，在经步骤1.1数据增强后，使用随机擦除增强策略来进行数据预处理。

3.根据权利要求1所述的一种多尺度卷积特征融合的行人重识别方法，其特征在于，所述步骤4具体操作包括以下步骤：

式中，x_p代表测试图像p的外观特征；代表参考图像g_i的外观特征；M表示半正定矩阵。

4.根据权利要求1所述的一种多尺度卷积特征融合的行人重识别方法，其特征在于，所述步骤5具体操作包括以下步骤：

步骤5.1，定义一个更具有鲁棒性的集合：

步骤5.3，计算雅克比距离时用到的交集的基数就改写为：

步骤5.4，最终得到的雅克比距离如下：

步骤5.5，则最终计算距离如下：

d^*(p，g_i)＝(1-λ)d_J(p，g_i)+λd(p，g_i) (14)