CN112818859B

CN112818859B - 一种基于深度哈希的多级检索行人重识别方法

Info

Publication number: CN112818859B
Application number: CN202110141536.5A
Authority: CN
Inventors: 李建清; 彭冠兰; 王宏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-06-24
Anticipated expiration: 2041-02-02
Also published as: CN112818859A

Abstract

本发明公开了一种基于深度哈希的行人重识别方法，加载输入行人图像；训练特征提取网络；构造多级哈希训练网络，分别输出实值特征和多个哈希编码；为特征提取网络的训练设计基于余弦相似度的三元组loss_t和用于分类的交叉熵loss_c，为哈希网络的训练设计三元组loss；输入测试集图像，获取哈希网络的多级输出，二值化后存储为哈希库；输入一张图像，根据哈希码的长度，由短到长依次检索哈希库，逐步缩小检索范围，最后使用实值特征对检索到的图像按照余弦相似度排序，并返回最相似样本。本发明采用多级哈希检索，能够训练检索精度更高的哈希码，通过逐步缩小检索范围的方法，将检索过程的计算量进一步减小，可以实现更快速的检索速度。

Description

一种基于深度哈希的多级检索行人重识别方法

技术领域

本发明涉及一种基于深度哈希多级检索的行人重识别方法，用于实现更快速的检索速度。

背景技术

行人重识别，又称行人再识别、Person Re-identification，简称为ReID，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，被广泛认为是图像检索的一个子问题。其主要工作就是给定一个监控行人图像，检索不同位置不同监控设备下的该行人图像。目前的行人重识别方法使用深度神经网络对行人图像进行特征提取，再进行特征相似度计算和排序。近些年来，随着行人重识别的研究逐渐深入，不少方法在公开数据集上都取得了不错的效果，但由于实值特征数据的计算复杂度高的问题，在面对海量数据时，检索效率很难满足实时处理需求。

深度哈希检索是使用深度卷积神经网络(DCNN)对图像进行哈希编码的技术，其目的在于对图像库中的图像进行哈希编码，使得拥有相同标签的图像在汉明空间中距离较近、拥有不同标签的图像在汉明空间中距离较远，这种方法的优势是计算复杂度小，可以快速完成特征的检索匹配，但相对实值特征检索精度较差；若是首先通过哈希码进行一次检索，缩小检索范围，再用实值特征进行二次精确检索，这样能在加快检索速度的同时又不损害检索精度。但这种方式在哈希码检索精度不高、范围较大的情况下，检索效率依然不够。

发明内容

本发明针对现有技术的不足，提供一种基于深度哈希多级检索的行人重识别方法，能够训练检索精度更高的哈希码，提供更快速的检索速度。

为了解决上述技术问题，本发明通过以下方式来实现：

一种基于深度哈希的多级检索行人重识别方法，具体包括以下步骤：

S1、加载训练图像，并对图像进行数据增强后，以一定形式送入网络；

S2、使用在ImageNet数据集上预训练好的ResNet50网络作为基网络，构造多级哈希训练网络，分别输出实值特征和多个哈希编码；

S3、为特征提取网络的训练设计基于余弦相似度的三元组loss_t和用于分类的交叉熵loss_c，为哈希网络的训练设计三元组loss；

S4、将图像送入网络进行训练，在测试集上对训练好的网络进行测试，比较哈希检索及实值特征检索的计算速度。

进一步地，所述步骤S1具体方法是：加载训练图像，训练图像的数据集包含N个不同人(即N个类别)图像的训练集，M个不同人(即M个类别)图像的测试集，每个人包含最多K个不同摄像头拍摄的图像，并对图像进行水平翻转、裁切、擦除、色彩抖动操作以对数据增强；每次从数据集中任意挑选n1个人，每人任意挑选n2张图像送入网络。

进一步地，所述步骤S2包括以下子步骤：

S21、使用在Imagenet数据集上预训练好的Resnet50网络作为基网络，去掉最后的全连接层后接上一层2048维的全连接层fc1，并将fc1层的输出进行L2范数归一化处理输出实值特征；将输入的图像水平翻转再输入特征提取网络，得到的特征与翻转前的特征相加进行L2范数归一化处理，输出融合实值特征；在fc1层后接上N维的全连接层作为分类层fc2，分类层fc2以softmax为激活函数，其中L2范数归一化处理公式如下：

X＝(x₁，x₂，x₃，...，x_i) (2)

其中X为i维向量，X_L2为X经过L2范数归一化处理的结果；

S22、在fc1层之后，加上三层并联的一维卷积层h1、h2、h3，卷积核个数为hash码长度，采用分组卷积方式，分组数为hash码长度，以tanh作为激活函数。

进一步地，所述步骤S3包括以下子步骤：

S31、为特征提取网络的训练设计基于余弦相似度的三元组loss_t，对于fc1层输出的实值特征，首先一个batch中的每一张照片(称为anchor)，挑选一张特征的余弦相似度最小的同类图(positive)，再挑选一张特征的余弦相似度最大的异类图(negative)，按照如下公式计算：

loss_t＝max(S_ap-S_an+m，0) (3)

其中S_ap为同一人的两张图像间的余弦相似度，即anchor与positive的余弦相似度，S_an为不同两个人的两张图像间的余弦相似度，即anchor与negative的余弦相似度，m为期望的S_ap和S_an间差距的阈值margin；

S32、为特征提取网络的训练设计用于分类的交叉熵loss_c，对每一张输入的图像，根据特征提取网络对该图像分类的正确性，按照如下公式计算：

其中y_i为0或1，当i为该图像类别标签时，y_i为1；p_i为网络预测该输入图像的类别为i的概率，将loss_t和loss_c加起来，作为特征提取网络的最终loss；

S33、为哈希网络h1、h2、h3的训练设计三元组loss，按照如下公式对h1、h2、h3层分别计算loss：

loss_hash＝loss_hasp-ap+loss_hash-an (7)

其中y_ai为选定anchor输出的哈希码的第i位，y_pi为选定positive输出的哈希码的第i位，y_aj为选定anchor输出的哈希码的第j位，y_pj为选定negative输出的哈希码的第j位，bits为该哈希网络输出的哈希码位数。

进一步地，所述步骤S4包括以下子步骤：

S41、对包含M个不同人图像的测试集，为每个人在不同摄像头的图像中各抽取一张作为query用于检索，剩下的作为gallery用于被检索；

S42、使用query中的一张图像，送入网络测试得到实值特征和哈希码，在gallery中进行检索并排除与检索图像为同一人且同一摄像头的图像，使用哈希码作为初步筛选，并根据需要使用从短到长的多级哈希码分步检索，逐级减少检索范围，然后使用最终实值特征将检索结果按相似度由高到低排列；将多级哈希检索与单级哈希检索及实值特征检索的速度进行比较，并对不同位的哈希码使用rank1、rank5、rank20、mAP作为检索效果的验证指标。

与现有技术相比，本发明具有的有益效果：

本发明使用多级哈希检索，能够训练检索精度更高的哈希码，通过逐步缩小检索范围的方法，将检索过程的计算量进一步减小，可以实现更快速的检索速度；对哈希网络的训练关注正负号，同号的数量而非强制哈希网络输出贴近1和-1，让哈希网络的输出具有更好的表达性。

附图说明

图1为本发明所用的深度神经网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。

如图1所示，一种基于深度哈希的多级检索行人重识别方法，具体包括以下步骤：

S1、加载训练图像，训练图像的数据集包含N个不同人(即N个类别)图像的训练集，M个不同人(即M个类别)图像的测试集，每个人包含最多K个不同摄像头拍摄的图像，并对图像进行水平翻转、裁切、擦除、色彩抖动操作以对数据增强；每次从数据集中任意挑选n1个人，每人任意挑选n2张图像送入网络。

S2、使用在ImageNet数据集上预训练好的ResNet50网络作为基网络，构造多级哈希训练网络，分别输出实值特征和多个哈希编码，具体包括以下子步骤：

S21、使用在Imagenet数据集上预训练好的Resnet50网络作为基网络，去掉最后的全连接层后接上一层2048维的全连接层fc1，并将fc1层的输出进行L2范数归一化处理输出实值特征；将输入的图像水平翻转再输入特征提取网络，得到的特征与翻转前的特征相加进行L2范数归一化处理，输出融合实值特征；在fc1层后接上N维的全连接层作为分类层fc2，分类层fc2以softmax为激活函数，Resnet50到fc2为特征提取网络，其中L2范数归一化处理公式如下：

X＝(x₁，x₂，x₃，...，x_i) (2)

其中X为i维向量，X_L2为X经过L2范数归一化处理的结果；

Imagenet是一个包含2万多个类别，共有1400多万张图像的数据集，是目前深度学习图像领域最大的数据集，也是检验算法性能的标准数据集，Resnet50网络是深度卷积神经网络，本发明使用在Imagenet上预训练好的Resnet50网络作为基网络，实值特征用于计算特征提取网络的loss_t，融合实值特征用于检索和作为哈希网络的输入。

h1、h2、h3作为哈希网络的作用是，将特征映射到(-1，1)的区间，小于0的输出取0，大于0的输出取1，最终得到只含有0和1的二进制哈希特征。将一张图像和其水平翻转的图像输入特征提取网络，将得到的两个实值特征相加，并进行L2范数归一化，得到该图片最终的融合实值特征，将融合实值特征作为哈希网络的输入。

S3、为特征提取网络的训练设计基于余弦相似度的三元组loss_t和用于分类的交叉熵loss_c，为哈希网络的训练设计三元组loss，具体包括以下子步骤：

loss_t＝max(S_ap-S_an+m，0) (3)

其中S_ap为同一人的两张图像间的余弦相似度，即anchor与positive的余弦相似度。S_an为不同两个人的两张图像间的余弦相似度，即anchor与negative的余弦相似度。m为期望的S_ap和S_an间差距的阈值margin；

其中y_i为0或1，当i为该图像类别标签时，y_i为1，p_i为网络预测该输入图像的类别为i的概率，将loss_t和loss_c加起来，作为特征提取网络的最终loss；

S33、为哈希网络h1、h2、h3的训练设计三元组loss，考虑到二值化结果只和哈希网络输出的正负有关，按照如下公式对h1、h2、h3层分别计算loss：

loss_hash＝loss_hash-ap+loss_hash-an (7)

其中y_ai为选定anchor输出的哈希码的第i位，y_pi为选定positive输出的哈希码的第i位，y_aj为选定anchor输出的哈希码的第j位，y_pj为选定negative输出的哈希码的第j位，bits为该哈希网络输出的哈希码位数。α的作用是让输出偏离0附近，哈希网络的loss由两部分组成，loss_hash-ap的作用是让同一个人两张照片的哈希码中正负不同号的位数尽可能少，loss_hash-an的作用是让不同人两张照片的哈希码同号的位数尽可能少。

S4、将图像送入网络进行训练，在测试集上对训练好的网络进行测试，比较哈希检索及实值特征检索的计算速度，具体包括以下子步骤：

其中rankn的意思是使用query检索出的图像按照哈希码的汉明距离从小到大排序，前n张中如果有一张与query为同一个人，则视为命中，统计query中所有图像检索结果的rankn命中率取平均。mAP就是图像检索通用评价指标，用于计算所有query中图像的平均检索精度。

本发明的具体模型应用实例：

本实例基于深度学习框架Pytorch，机器GPU为1060，CPU为AMD Ryzen 5 2600六核，数据集包含1501个不同的人，即类别为1501类，其中训练集751类，包含12936张图像，验证集750类，包含19732张图像，输入神经网络的图像尺寸为256*128。

实验所用数据集为Market-1501。Market-1501数据集是在清华大学校园中采集，在2015年构建并公开，它包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到，并且在一个摄像头中可能具有多张图像。训练集有751人，包含12,936张图像，平均每个人有17.2张训练数据；测试集有750人，包含19,732张图像，平均每个人有26.3张测试数据。训练集和测试集行人是不重复的。

测试方法：为每个人在不同摄像头中的图像中各抽取一张作为query图像用于检索，共有3,368张图像，剩下的作为gallery用于被检索，检索时在gallery中排除与检索图像为同一人且同一摄像头的图像，统计所有query中图像的检索效果，计算总体检索效果。

具体的方法步骤如下：

加载训练集时，对图像进行水平翻转、裁切、擦除、色彩抖动等操作进行数据增强。将训练集以每个batch任意选择20个人，每个人任意选择4张图像的方式输入网络。首先冻结哈希网络的参数，使用特征提取网络输出的实值特征计算三元组损失(loss_t)，使用特征提取网络分类层的分类结果计算交叉熵损失(loss_c)，将两个loss相加作为特征提取网络的最终loss，利用梯度下降法进行反向传播训练特征提取网络200个epoch。然后将特征提取网络的参数冻结，使用3个哈希层的输出分别计算loss_hash，训练哈希网络200个epoch。使用训练好的模型在测试集上进行测试，通过rank1、rank5、rank20、mAP验证哈希码的效果，通过不同级检索消耗的时间验证多级检索的效果。

为了比较本文方法训练的哈希码检索效果，与目前一些表现效果较好的哈希模型及其他专利的效果比较。比较结果如下：

表1：与其他哈希模型和专利在2048bits长度的哈希码上的检索效果比较

表2：和其他哈希模型及专利在不同长度的哈希码上的检索效果比较

为了验证多级检索的效果，使用本方法训练的特征提取网络和三级哈希网络，在检索结果mAP相近(即检索效果不受到太大影响)的情况下，在cpu上比较了只使用图像融合实值特征直接检索的速度、使用单哈希码+融合融合实值特征的检索速度、使用多级哈希码+融合实值特征的检索速度比较。

表3：多级哈希检索与单级检索在Market1501数据集上的检索速度比较

检索方式	消耗时间	mAP(％)
			仅实值特征	929.3s	73.9％
512bits哈希码+实值特征	118.8s	72.9％
			64bits哈希码+实值特征	66.6s	71.8％
16bits哈希码+实值特征	248.6s	72.7％
			16+64+512bits哈希+实值特征	33.4s	72.4％

从表1表2的结果可以看到，本发明训练的不同长度的哈希码的检索效果相较于之前的方法均有不小提升，本发明在特征提取阶段结合了三元组loss和交叉熵loss，提取了较好的实值特征，又使用只关注输出正负的三元组loss训练哈希网络，让训练出的哈希值具有更好的表达性，取得了更高的检索精度。从表3的结果可以看出，使用多级哈希检索在对检索精度无较大影响的情况下，拥有更快的检索速度。

本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度哈希的多级检索行人重识别方法，其特征在于：具体包括以下步骤：

S4、将图像送入网络进行训练，在测试集上对训练好的网络进行测试，比较哈希检索及实值特征检索的计算速度；

所述步骤S2包括以下子步骤：

X＝(x₁，x₂，x₃，...，x_i) (2)

其中X为i维向量，X_L2为X经过L2范数归一化处理的结果；

2.如权利要求1所述的一种基于深度哈希的多级检索行人重识别方法，其特征在于：

所述步骤S1具体方法是：加载训练图像，训练图像的数据集包含N个不同人图像的训练集，M个不同人图像的测试集，每个人包含最多K个不同摄像头拍摄的图像，并对图像进行水平翻转、裁切、擦除、色彩抖动操作以对数据增强；每次从数据集中任意挑选n1个人，每人任意挑选n2张图像送入网络。

3.如权利要求1所述的一种基于深度哈希的多级检索行人重识别方法，其特征在于：

所述步骤S3包括以下子步骤：

S31、为特征提取网络的训练设计基于余弦相似度的三元组loss_t，对于fc1层输出的实值特征，首先一个batch中的每一张照片，挑选一张特征的余弦相似度最小的同类图，再挑选一张特征的余弦相似度最大的异类图按照如下公式计算：

loss_t＝max(S_ap-S_an+m，0) (3)

其中S_ap为同一人的两张图像间的余弦相似度，anchor与positive的余弦相似度，S_an为不同两个人的两张图像间的余弦相似度，anchor与negative的余弦相似度，m为期望的S_ap和S_an间差距的阈值margin；

loss_hash＝loss_hash-ap+loss_hash-an (7)

其中y_ai为选定anchor输出的哈希码的第i位，y_pi为选定positive输出的哈希码的第i位，y_aj为选定anchor输出的哈希码的第j位，y_pj为选定negative输出的哈希码的第j位，bits为该哈希网络输出的哈希码位数，α的作用是让输出偏离0附近。

4.如权利要求1所述的一种基于深度哈希的多级检索行人重识别方法，其特征在于：

所述步骤S4包括以下子步骤：