CN111209886B

CN111209886B - 一种基于深度神经网络的快速行人再识别方法

Info

Publication number: CN111209886B
Application number: CN202010037806.3A
Authority: CN
Inventors: 潘志松; 焦珊珊; 白玮; 唐斯琪; 李云波; 陈坤峰; 王家宝; 施蕾
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-10-31
Anticipated expiration: 2040-01-14
Also published as: CN111209886A

Abstract

本发明公开了一种基于深度神经网络的快速行人再识别方法，所述方法包括如下步骤：将待查行人图片与图片库输入至训练好的模型中；通过模型分别提取待查行人图片与图片库中所有图片的哈希特征；计算待查行人图片与图片库中所有图片哈希特征的汉明距离；根据汉明距离得出识别结果，该方法通过将哈希编码引入深度神经网络代替高维特征可以提高检索效率，并且损失的精度较少，能够在匹配速度和精度之间达到一个较好的平衡。

Description

一种基于深度神经网络的快速行人再识别方法

技术领域

本发明涉及卷积神经网络和图像检索领域，具体涉及一种基于深度神经网络的快速行人再识别方法。

背景技术：

行人再识别技术是指给定一个待查人员的图像，在多个不重叠的摄像头拍摄的画面中，找到该名行人出现的所有图片。因其可以广泛应用于监控安防、商业分析和数据挖掘等领域，近年来这一技术成为计算机视觉的一个热门研究方向。随着摄像头成本的降低和图像质量越来越高，用于行人再识别的图像数量和质量都呈上升趋势。现有的行人再识别算法都是以提高识别精度为目的，往往以很大的存储空间和计算量为代价，这对实际应用带来很大的困难。目前的一些快速行人再识别方法，又损失了很多的准确率来提高计算速度。为了解决上述技术问题，需要提出新的能够适应大数据量的行人再识别算法，使其能够更好的满足应用场景的需求，提取更加鲁棒的特征，从而提高最终的正确识别率和计算效率。

本发明的创新点主要表现在，首先分析了多分辨率特征可以解决行人再识别中的遮挡、视角变换、光照变化造成的困难场景，并在此基础上提出了一个多分辨率特征融合的办法，该方法能够让图像提取的特征更鲁棒，更好的适应于实际应用场景。最后，通过将高维特征转换为哈希特征，提高了识别效率，满足了应用需求。

发明内容

本发明的目的在于提供一种基于深度神经网络的快速行人再识别方法，以解决现有技术中现有的行人再识别方法需要很大的计算量和更多的存储空间的缺陷。

一种基于深度神经网络的快速行人再识别方法，所述方法包括如下步骤：

将待查行人图片与图片库输入至训练好的模型中；

通过模型分别提取待查行人图片与图片库中所有图片的哈希特征；

计算待查行人图片与图片库中所有图片哈希特征的汉明距离；

根据汉明距离得出识别结果。

进一步的，模型的训练方法包括如下步骤：

将预处理后的图像输入网络模型；

通过网络模型提取多分辨率特征；

将多分辨率特征进行融合得到高维特征；

将高维特征转化为哈希特征；

将哈希特征与对应图像的标签进行训练得到模型。

进一步的，图像预处理的方法包括如下步骤：

将图像分成若干组，每组图片的数量为P×K张；

其中P表示行人ID数量，K表示每个ID的图片数量；

每组中选择若干图片作为样本。

进一步的，所述样本包括原样本、正样本和负样本；所述原样本为原始ID图片，所述正样本为与原样本有相同ID的其他图片，所述负样本为与原样本不同ID的其他图片。

进一步的，通过网络模型提取多分辨率特征的方法包括如下步骤：

将图像输入网络模型；

网络模型通过交错卷积得到多个相同语义级别不同分辨率的特征。

进一步的，将多分辨率特征进行融合得到高维特征的方法包括如下步骤：

通过卷积层将多个不同分辨率的特征通道数提高到相同数值；

通过全局池化层将多个不同分辨率的特征转化为相同大小；

通过数学公式将多个特征进行融合得到高维特征。

进一步的，将高维特征转化为哈希特征的方法包括如下步骤：

将高维特征分两路进行监督学习；

通过两路的互相促进得到哈希特征。

进一步的，将高维特征分两路进行监督学习的方法包括如下步骤：

将其中一路的高维特征通过损失函数监督学习；

将另一路的高维特征降维，得到哈希特征所需的比特长度，再通过tanh函数产生近似的哈希特征。

进一步的，根据汉明距离得出识别结果的方法包括如下步骤：

对汉明距离进行相似度排序；

将汉明距离与预先设定的阈值进行比较；

若小于阈值则输出图片。

本发明的优点在于：该种基于深度神经网络的快速行人再识别方法，通过将哈希编码引入深度神经网络代替高维特征可以提高检索效率，并且损失的精度较少，能够在匹配速度和精度之间达到一个较好的平衡，计算量少，所需的存储空间小。

附图说明

图1为本发明中基于深度神经网络的快速行人再识别测试流程图。

图2为本发明中基于深度神经网络的快速行人再识别训练流程图。

图3为本发明中HRNet基本架构图。

图4为本发明中不同分辨率特征在原图上的重要区域可视化表示示意图。

图5为本发明中多分辨率特征融合模块图。

图6为本发明中高维特征与哈希特征转化模块图。

图7为本发明中快速行人再识别方法训练过程的示意图。

图8为本发明中快速行人再识别方法测试过程的示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1至图8所示，一种基于深度神经网络的快速行人再识别方法，所述方法包括如下步骤：

将待查行人图片与图片库输入至训练好的模型中；

根据汉明距离得出识别结果。

本发明选择Ke Sun等人在文献“deep high-resolution representationlearning for human pose estimation”中提出的HRNet为用于提取多分辨率特征的卷积神经网络。

基于深度神经网络的快速行人再识别框架可以分为三个模块：多分辨率特征生成模块，多分辨率特征融合模块，高维特征与哈希特征转化模块。

在本实施例中，模型的训练方法包括如下步骤：

将预处理后的图像输入网络模型；

通过网络模型提取多分辨率特征；

将多分辨率特征进行融合得到高维特征；

将高维特征转化为哈希特征；

将哈希特征与对应图像的标签进行训练得到模型；

模型的训练过程如图7所示。训练的图像统一处理为256×128大小。设置超参数α＝0.6。初始学习率为3×10^-4。训练次数为120次，学习率在训练的第40次和70次分别衰减为3×10^-5，3×10^-6。采用Adam优化器来调整模型的参数训练。

在本实施例中，图像预处理的方法包括如下步骤：

将图像分成若干组，每组图片的数量为P×K张；

其中P表示行人ID数量，K表示每个ID的图片数量；

每组中选择若干图片作为样本。

在本实施例中，所述样本包括原样本、正样本和负样本；所述原样本为原始ID图片，所述正样本为与原样本有相同ID的其他图片，所述负样本为与原样本不同ID的其他图片；

图像预处理的方法具体为：输入所选定的数据集，设其中有N张图像，训练时要将图像进行分组。为了计算triplet loss，每组随机挑选P个ID的行人，每个ID的行人随机挑选K张不同的图像，如果不足K张则复制其中的一张进行补足。最终每组训练图像的个数是P×K张，其中每一张图像本身为原样本，与其相同ID的为正样本，与其不同ID的为负样本，这三种样本构成一个三元组。在本实例中P取16，K取4。

在本实施例中，通过网络模型提取多分辨率特征的方法包括如下步骤：

将图像输入网络模型；

网络模型通过交错卷积得到多个相同语义级别不同分辨率的特征；

提取多分辨率特征的方法具体为：

在多分辨率特征生成模块中，采用HRNet作为主干网络。HRNet通过交错卷积能够并行的生成4种分辨率的特征。目前大多数的主干网如ResNet,DenseNet和VGG是只有一条分支，将底层特征与高层特征相融合，最终输出的是一个高语义级别低分辨率的特征。HRNet利用相同深度和相似语义水平的低分辨率特征，重复多尺度特征融合以提高高分辨率特征，反之亦然，最终可以得到四个相同语义级别不同分辨率的特征。其网络结构如图3所示：其中输入图像组为是每一幅图像的标签。N是每个图像组的图片个数，M是类别数。给定一张图片I_i，HRNet能够输出四种特征

C_j＝32×2^(j-1)；

H，W，C分别是特征的高，宽和通道数。

将HRNet输出的四个特征通过Grad-CAM可视化，得到的结果如图4所示，热力图展示了输出特征在原图上的响应强度，表明了原图中所有的像素点对识别所起到的作用大小。从图4可以看出，第一个分支的特征主要关注在原图的局部区域，这对于判断人的身份是不足够的。随着特征图的分辨率逐渐降低，第二三个分支的特征在原图上的相应区域越来越大，但仍然不能覆盖所有的有区分性的部分。第四个分支的特征覆盖原图的区域最大，但是引入了部分噪声，这会影响识别的准确率。因此为了能够得到表征性更强的特征，将四种不同分辨率的特征融合起来。

在本实施例中，将多分辨率特征进行融合得到高维特征的方法包括如下步骤：

通过全局池化层将多个不同分辨率的特征转化为相同大小；

通过数学公式将多个特征进行融合得到高维特征；

为了增强显著区域和减弱噪声区域，我们提出了多分辨率特征融合模块如图5所示。首先通过一个1×1卷积层将4个生成的特征通道数统一提高到2048，增大特征的表达性。然后通过一个全局平均池化global average pooling(GAP)将4个不同分辨率的特征转化为相同的1×1大小。为了计算不同分辨率分支的权重，我们采用如下的公式：

其中，代表不同分支的权重，/>代表一维卷积conv1d的参数，代表卷积操作，σ代表sigmoid函数，/>是4个经过GAP之后的特征表示。我们将不同的分支的特征采用如下的公式融合：

其中，F(I_i)是多分辨率特征融合模块输出的图像I_i最终的特征表示。

在本实施例中，将高维特征转化为哈希特征的方法包括如下步骤：

将高维特征分两路进行监督学习；

通过两路的互相促进得到哈希特征。

在本实施例中，将高维特征分两路进行监督学习的方法包括如下步骤：

将其中一路的高维特征通过损失函数监督学习；

将另一路的高维特征降维，得到哈希特征所需的比特长度，再通过tanh函数产生近似的哈希特征；

为了达到快速行人再识别的目的，我们将哈希方法与深度神经网络相结合，提出了高维特征与哈希特征转化模块如图6所示。哈希编码和汉明距离度量需要较少的计算量和存储空间，这个优点已经在很多方面得到验证。我们采用了两路分支，一路高维特征进行损失函数的监督学习，另一路近似的哈希特征进行损失函数的监督学习。这两种特征可以互相促进，优化的高维特征能够提取出更有效的哈希特征，同时优化的哈希特征能够调整高维特征使其更适合于二值化。高维特征F(I_i)首先进行一个降维，输出的特征F_r(I_i)的维度等于所需哈希特征的比特长度。在训练过程种，近似的哈希特征h(I_i)由tanh函数产生：

h(I_i)＝tanh(F_r(I_i))；

其中，tanh代表tanh函数。

在高维特征与哈希特征转化模块中，高维特征和哈希特征都采用softmax和triplet联合训练如图6所示。需要注意的是，高维特征F(I_i)经过一个批归一化层BatchNormalization(BN)得到F′(I_i)。F(I_i)采用triplet loss(L_F,t)进行监督学习，F′(I_i)采用softmax loss(L_F,s)进行监督学习。对与哈希特征h(I_i)，采用联合的softmax loss和triplet loss(L_h,s+L_h,t)进行监督学习。最终每个分支的损失函数如下所示：

L＝α(L_F,s+L_h,s)+(L_F,t+L_h,s)；

其中，超参数α能够调节softmax loss和triplet loss的平衡；

在测试阶段，二值化的哈希特征H(I_i)由如下公式计算：

H(I_i)＝δ(h(I_i))；

其中，δ代表符号函数。

在本实施例中，根据汉明距离得出识别结果的方法包括如下步骤：

对汉明距离进行相似度排序；

将汉明距离与预先设定的阈值进行比较；

若小于阈值则输出图片；

利用训练好的网络模型对待查行人图片和图片库中的所有图像进行二值化的哈希特征提取，得到每张图像的特征向量。计算待查行人图像的特征向量与图片库中所有图片的特征向量的汉明距离，然后将汉明距离从小到大对应的图像库中的图像排序，排在首位的就是与待查行人图像最相似的行人图像。图8展示了快速行人再识别方法的测试过程。

基于上述，该种基于深度神经网络的快速行人再识别方法：

首先，对输入的图像数据集进行图像预处理，并选择能够提取不同分辨率特征的网络模型；第二，对图像进行分组，分组后得数据来训练网络模型；第三，对不同分辨率的特征进行处理，引入注意力机制，得到更强表达能力的特征；第四，将得到的高维特征转化为哈希特征，选择损失函数进行训练；在最后，利用训练好的网络分别对数据库中的图像和待查询行人图像提取哈希特征，计算特征向量间的汉明距离，根据距离大小判断识别结果。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于深度神经网络的快速行人再识别方法，其特征在于，所述方法包括如下步骤：

将待查行人图片与图片库输入至训练好的模型中；

根据汉明距离得出识别结果；

其中，模型的训练方法包括如下步骤：

将预处理后的图像输入网络模型；

通过网络模型提取多分辨率特征；

将多分辨率特征进行融合得到高维特征；

将高维特征转化为哈希特征；

将哈希特征与对应图像的标签进行训练得到模型；

图像预处理的方法包括如下步骤：

将图像分成若干组，每组图片的数量为P×K张；

其中P表示行人ID数量，K表示每个ID的图片数量；

每组中选择若干图片作为样本；

所述样本包括原样本、正样本和负样本；所述原样本为原始ID图片，所述正样本为与原样本有相同ID的其他图片，所述负样本为与原样本不同ID的其他图片；

通过网络模型提取多分辨率特征的方法包括如下步骤：

将图像输入网络模型；

将多分辨率特征进行融合得到高维特征的方法包括如下步骤：

通过全局池化层将多个不同分辨率的特征转化为相同大小；

通过数学公式将多个特征进行融合得到高维特征；

将高维特征转化为哈希特征的方法包括如下步骤：

将高维特征分两路进行监督学习；

通过两路的互相促进得到哈希特征；

将高维特征分两路进行监督学习的方法包括如下步骤：

将其中一路的高维特征通过损失函数监督学习；

根据汉明距离得出识别结果的方法包括如下步骤：

对汉明距离进行相似度排序；

将汉明距离与预先设定的阈值进行比较；

若小于阈值则输出图片。