CN110046579B - 一种深度哈希的行人再识别方法 - Google Patents
一种深度哈希的行人再识别方法 Download PDFInfo
- Publication number
- CN110046579B CN110046579B CN201910311137.1A CN201910311137A CN110046579B CN 110046579 B CN110046579 B CN 110046579B CN 201910311137 A CN201910311137 A CN 201910311137A CN 110046579 B CN110046579 B CN 110046579B
- Authority
- CN
- China
- Prior art keywords
- hash
- loss
- pedestrian
- learning
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种深度哈希的行人再识别方法,它包括步骤:1、构建深度神经网络,该深度神经网包括特征学习模块和哈希学习模块,所述特征学习模块采用Resnet网络,所述哈希学习模块为一个全连接层和一个tanh函数层;2、深度神经网络的训练,1)、准备行人图片,2)、把训练图片送入深度神经网络进行训练,包括特征学习、哈希学习和损失函数学习;3)、网络优化及参数更新;步骤3、深度神经网络的测试,通过特征学习模块与哈希学习模块得到松弛的哈希码,然后通过符号函数转化为严格的‑1,1码,计算query与gallery中行人图片对应的哈希码间欧式距离进行特征匹配。本发明的优点是:提高了行人再识别准确率,又减少了行人再识别的时间。
Description
技术领域
本发明属于行人再识别技术领域。
背景技术
行人再识别应用于行人追踪和刑侦搜索方面。在多摄像头监控系统,一个基本任务就是将不同时间、不同的地点的跨摄像头的行人联系起来,这就是行人再识别技术。具体来说,再识别就是根据在不同时间,分布于不同场景的摄像头得到的一系列数据对不同场景的单个或多个行人进行视觉匹配的过程。“行人再识别”主要目的是判断某个摄像头中的某个行人是否曾经出现在其他的摄像头中,即需要将某个行人特征与其他行人特征进行对比,判断是否属于同一个行人。
行人再识别主要存在的挑战有:行人姿态及摄像头视角的影响,行人背景杂乱及遮挡的影响,光照和图像分辨率的影响等。这些挑战对行人特征匹配造成了较大的困难,目前的识别方法是提取强健的具有判别性的特征。在实际监控过程中,无法捕捉到行人的脸部有效信息,通常使用行人的整体进行搜索。而在对行人的识别过程中,通常由于行人的姿态,光照,摄像头角度等多个因素的影响,可能使不同行人的特征比同一人的特征更为相似,对行人搜索造成了困难,学习更好的特征表达是一种比较有效的方式。
面对与日俱增的数据量、复杂度和精度,人工神经网络的规模也不断加深,用简单的表示来表达复杂表示。深度卷积网络就是一种监督学习下的深度学习模型,现有的许多行人再识别方法是基于提取行人特征,该行人特征是对行人图像的视角变化,光照影响,遮挡等问题具有较好的鲁棒性的特征,大幅提升了行人再识别的性能,其训练和测试的基本步骤如下:
1、准备数据,准备带对应标签的训练和测试数据;
2、把准备好的训练数据(包括图片及其对应的标签)送入深度卷积网络进行训练,训练时利用ADAM优化算法对深度卷积网络参数进行优化;
3、在深度卷积网络的损失收敛后,利用标准数据集的测试集对训练得到的深度卷积网络模型进行测试,测试标准参考标准数据集的评价方式,对网络模型的泛化能力进行评估。
目前测试方式主要基于度量,在gallery集中寻找与query集中图像匹配的图像。
哈希学习是将高维空间中的计算量大、复杂度高的高维数据,在尽可能保证其相似性的条件下,映射为简洁的二进制码便于进行计算;行人再识别中,由于摄像头视频数据的急剧增长,数据的特征表示和特征匹配计算量及复杂度也随之增长,计算和度量匹配就变得十分困难。大尺度的数据需要有效的计算和存储。
度量学习是学习一个合适的度量,现有的方法通常将行人再识别问题当作排序问题,通过构造二元组,三元组乃至四元组对样本间的关系进行度量,然后通过根据样本间关系构造损失学习度量。
“Deep Residual Learning for Image Recognition,Kaiming He,XiangyuZhang,Shaoqing Ren,Jian Sun;The IEEE Conference on Computer Vision andPattern Recognition(CVPR),2016,pp.770-778.”(“用于图像识别的深度残差学习”,何凯明等,计算机视觉与模式识别会议,2016,770-778),该文提出一种深度残差学习网络,残差结构使该网络更易求解且比普通的网络更深,能提升网络性能,常用残差网络结构按层数划分包括Resnet18,Resnet34,Resnet50,Resnet101,Resnet152等。
“用于图像识别的深度残差学习”简写为“Resnet”。
快速和准确地完成行人再识别过程更有利于实际应用,例如在应用行人再识别技术进行案件侦破的时效性是公安部门进行案件侦破工作中的一项重要指标。现有的行人再识别方法,大多关注于行人再识别的准确率,却忽视了识别效率的问题,难以满足实际应用的需求。
发明内容
针对现有技术存在的问题,本发明所要解决的技术问题就是提供一种深度哈希的行人再识别方法,它将行人再识别方法与哈希方法相结合,使用不同背景、不同姿态的图片,既能提高行人再识别准确率,又能实现快速识别,减少行人再识别的时间。
本发明的构思是:学习一个简单且有效的特征表示以实施有效地计算和存储,对此本发明将行人再识别方法与哈希方法相结合,构建一个端到端的既简单易于存储、又具有判别性的哈希特征的网络(端到端的网络是指:输入为原始数据,输出为最后的结果,将特征提取,特征匹配,哈希学习整合的网络);针对使用汉明距离损失不容易收敛的问题,本发明采用基于概率距离的三元组损失监督哈希码的学习;本发明还使用编码再解码的方式进行重构(编码再解码:将原始的2048位深度特征进行编码得到128位的哈希码再解码得到2048位的码,监督编码再解码后的码与原始码相近)对全局特征中具有判别性的部位进行筛选,然后形成哈希码,使得到的哈希码能够代表全局特征,保持哈希码的判别性。
本发明所要解决的技术问题是通过这样的技术方案实现的,它包括
步骤1、构建深度神经网络
深度神经网包括特征学习模块和哈希学习模块,所述特征学习模块采用Resnet网络,行人图片通过特征学习得到2048位的特征;所述哈希学习模块主要为一个全连接层和一个tanh函数层;
步骤2、深度神经网络的训练
1)、数据的准备:准备行人图片,输入行人图片和对应的id标签,作为训练图片和测试图片;
2)、把训练图片送入深度神经网络进行训练
本步骤包括特征学习、哈希学习和损失函数学习;
所述特征学习为:将训练图片成批送入深度神经网络,特征学习的结果是输出2048维的全局特征;
所述哈希学习为:采用一个全连接层作为哈希学习函数,将2048维的全局特征映射为128位,然后使用激活函数tanh将128位的实值特征映射为区间[-1,1]内的模拟值;
所述损失函数学习包括:三元哈希损失运算、量化损失运算和重构损失运算,三元哈希损失运算是让具有相同id的行人图片输出的哈希码的距离更近,让具有不同id的行人图片得到的哈希码的距离更远;量化损失运算是使学习到的哈希码更加接近严格的哈希码;重构损失运算是监督解码后得到的2048位特征与原始的全局特征相近,保持判别性。
3)、网络优化及参数更新
更新包括前向传播和反向传播两部分,前向传播通过网络计算输出与损失大小,然后再反向传播过程中反传损失的梯度,从而对网络进行更新
步骤3、深度神经网络的测试
将测试图片输入步骤1构建的深度神经网络,通过特征学习模块与哈希学习模块得到松弛的哈希码(tanh码),然后通过符号函数转化为严格的-1,1码,计算query与gallery集中行人图片对应的哈希码间欧式距离进行特征匹配。
本发明的技术效果是:
1、将深度哈希学习应用于行人再识别,学习具有判别性的哈希码,在提高行人识别准确率的情况下,将特征映射为简单的二进制码,方便特征匹配。
2、对现有的三元组损失进行改进,用指数距离度量替换汉明距离采用新的度量方式度量哈希码间的距离,有利于损失计算和模型收敛。
3、设置重构损失监督解码后得到的图片特征与原始全局特征相近,保持了判别性。
本发明的优点是:提高了行人再识别准确率,又减少了行人再识别的时间。
附图说明
本发明的附图说明如下:
图1为本发明的深度神经网络的结构框图;
图2为本发明损失模块的描述图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
本专利申请的“行人再识别网络”是指行人再识别网络与哈希学习结合的融合网络。
本发明的深度哈希的行人再识别方法,包括以下步骤:
步骤1、构建深度神经网络
深度神经网络主要依赖于深度平台pytorch,网络的搭建主要依靠pytorch内部定义的各种操作层的堆叠(例如,卷积层,池化层,全连接层等)。构建的深度神经网络如图1所示,主要包括特征学习和哈希学习两个模块:
特征学习模块采用基础的Resnet网络,行人图片通过特征学习得到2048位的特征;哈希学习模块主要为一个全连接层和一个tanh函数(双曲正切函数)层。
全连接层操作实际就是一种线性操作,可以对矩阵或者向量进行操作:f(x)=Wx+b,W为全连接层的转换矩阵,b是其偏置,x是全连接层前一层输出的特征,f(x)是全连接层的输出,这里是128位的特征。
得到的哈希码就是h(f(x))=tanh(Wf(x)+b),为[-1,1]区间值。
全连接层的维度为128位,2048位的特征通过哈希学习,将2048位的特征映射为128位的哈希码;该哈希码能大幅提升计算和存储效率,又保持了原有特征的判别性。哈希学习模块的输入为2048位的特征,输出为128位的哈希码(近似二值码)。
在图1中,在训练阶段,三个损失共同作用在整个深度神经网络上监督哈希码的学习;测试阶段是输入测试图片经过网络输出对应的哈希码,然后根据评价准则(Top-1和mAP指标)进行评价。
如图2所示,三个损失分别为:
1、三元哈希损失,与现有的三元组损失类似,在汉明空间对哈希码的学习进行监督,使相同行人id的哈希码的距离更近,不同行人id的哈希码距离更远,从而在进行搜索的时候,直接可以直接在query中寻找与query样本最近的样本即可。
2、量化损失,是哈希学习中比较常见的损失,将现有的深度特征量化为哈希码不可避免的存在信息的损失,量化损失的作用就是减小量化前后的差距,在本网络中,采用的是通过符号函数得到的严格的-1,1二值码,在训练过程中使用的是tanh码(属于[-1,1]区间),为减小差距,需要构造量化损失,使tanh码与严格的-1,1二值码间的距离尽可能小。
3、重构损失,为本发明的特点,通过编码再解码的方式监督解码后的特征与编码前的特征相近,以此来保持学习到的哈希码的判别性,因为学习哈希码(tanh码)具有较强的判别性时才能在解码后与原特征相似,本发明先将2048位的深度特征学习为128位的哈希码(编码),再将128位的哈希码学习为2048位的特征(解码),采用欧式距离监督解码后的特征与原始特征间的距离。
解码过程:输入为得到的128位的tanh码,输出为2048位的特征;解码的实现也是通过全连接层实现的。
f2(h(f(x)))=W2(h(f(x)))+b2,W2是解码全连接层的转换矩阵,b2为解码全连接层的偏置,f2(h(f(x)))为解码后的2048位特征,h(f(x))为编码后的128位tanh码。
从图2看出:经过特征学习得到2048位的全局深度特征,经过全连接层和tanh函数学习为128位的哈希码,三个损失都用于监督哈希码的学习。三元哈希损失:参考样本与正样本的哈希码距离更近,参考样本与负样本的哈希码距离更远。量化损失,监督得到的tanh码与符号函数得到的严格二值码距离相近。重构损失:监督解码后得到的2048位特征与原始的2048位全局特征相近,保持判别性。
以上三个损失的具体计算和处理过程见下一步骤的训练过程。
步骤2、深度神经网络的训练
1)、数据的准备:准备行人图片,输入行人图片和对应的id标签,作为训练图片和测试图片;
深度神经网络通常将数据分大小送入网络进行训练,训练图片的像素大小都设置为(384,128),一个批次的大小为128位,包含32个不同的id,每个id有4张图片,为后续三元组的在线构造做准备。
测试图片也是将图片的像素大小设置为(384,128),一次输入32张测试图片,经过整个网络结构处理后得到的哈希码。
2)、把训练图片送入深度神经网络进行训练
本步骤包括特征学习、哈希学习和损失函数学习三部分:
特征学习:将训练图片成批送入深度神经网络,目前常用的残差网络Resnet有Resnet50,Resnet101等深度神经网络采用通常使用的resnet50网络,将resnet50的输出全连接层的输出节点数改为2048维,特征学习的结果是输出2048维的全局特征(N张图片生成N*2048的矩阵)。
现有的行人再识别方法是将深度神经网络得到的全局特征直接利用损失监督学习;本步骤是将得到的全局特征后进行哈希学习。
哈希学习:采用一个全连接层作为哈希学习函数,将2048维的全局特征映射为128位,然后使用激活函数tanh将128位的实值特征(实值特征是指特征的每一位值为任意实数)映射为区间[-1,1]内的模拟值;
在测试阶段,通过符号函数将tanh码转化为严格的-1,1哈希码。
损失函数学习:包括三元哈希损失运算、量化损失运算和重构损失运算,三元哈希损失运算是为了保证哈希码的判别性,也就是让具有相同id的行人图片输出的哈希码的距离更近,让具有不同id的行人图片得到的哈希码的距离更远;量化损失运算是使学习到的哈希码更加接近严格的哈希码;重构损失运算是监督解码后得到的2048位特征与原始的全局特征相近,保持判别性。
(1)、三元哈希损失运算式:
Lossth=[H(h(f(xi)),h(f(xj)))-H(h(f(xi)),h(f(xk)))+α]+ (1)
式(1)接在哈希码后面监督哈希码的学习,在一个批次图片里面在线选取难样本构造三元组(xi,xj,xk),xi为参考样本,xj为与xi的id标签相同特征距离最大的难正样本,xk为与xi的id标签不同特征距离最小的难负样本,α为正负样本对间的间隔,f(xi),f(xj),f(xk)为样本对应的特征,h(.)=f2(f1())为哈希函数,[x]+=max(0,x),当三元哈希损失小于0时,损失为0;H(.)是汉明距离。
运算式(1)是基于三元组损失提出的,三元组损失在文献"In defense of thetriplet loss for person re-identification",Hermans,Alexander,Lucas Beyer,andBastian Leibe,arXiv preprint arXiv:1703.07737(2017)(“辩解用于行人重识别的三元组损失”,Hermans,Alexander,Lucas Beyer,和Bastian Leibe,arXiv preprint arXiv:1703.07737(2017)),以及“A Unified Embedding for Face Recognition andClustering”,F.Schroff,D.Kalenichenko,and J.Philbin.In 2015 IEEE Conference onComputer Vision and Pattern Recognition,2015(“用于人脸识别和聚类的一种统一嵌入”,F.Schroff,D.Kalenichenko和J.Philbin,2015年IEEE计算机视觉和模式识别会议,2015年)中有记载。本发明将欧式距离空间的三元损失引入汉明空间,并针对汉明空间引入指数距离对其进行改进提出三元哈希损失。
a、在线三元组构造
一个批次的大小为128位,包含32个不同的行人id,每个id有4张图片,在线难样本的构造主要是基于特征间的欧式距离以及行人id标签信息,根据上述文献"In defense ofthe triplet loss for person re-identification",Hermans,Alexander,Lucas Beyer,and Bastian Leibe,arXiv preprint arXiv:1703.07737(2017)的记载:先计算一个批次里面所有特征间的欧式距离,任选一个样本作为参考样本,然后选取与参考样本相同id但距离最大的样本作为难正样本,选取与参考样本不同id但距离最小的样本作为难负样本,以此构造三元组。
基于此,本发明对现有的三元组损失计算方法进行了修改,具体是通过随机抽取P个类(person identity)来形成批次,然后随机抽取每个类(person)的K个图像,从而生成一批PK图像。现在,对于批次中的每个样本a,在形成三个一组计算损失时,选择批次中最难的正样本和最难的负样本,本申请称之为“难批次”。
b、松弛优化
由于三元哈希损失是对深度卷积神经网的训练进行监督,然后反向传播对整个网络的参数进行更新,所以它涉及到哈希学习模块中的运算。
哈希学习运算中的比较重要的一个方面就是哈希学习函数的求解,汉明距离常用于度量哈希码间距离,但是汉明距离的导数不易于计算,在哈希学习求解时通常会应用松弛的方法,现有的深度哈希的方法是直接将汉明距离替换为欧式距离:
欧式距离:d(x,y)=||x-y||2
式中,x,y对应两个样本的特征,||.||2是二范数。
本步骤用指数距离度量替换汉明距离:
汉明距离松弛为指数距离:H(x,y)=e-β·d(x,y) (2)
式(2)中,H(x,y)为改进后的指数距离,β是超参数,用于控制d(x,y)与H(x,y)间的关系,d(x,y)是欧式距离。
式(2)对式(1)进行负的指数计算,相当于对欧式距离进行映射,本发明参考概率的分布,建立对应的欧式距离与指数距离的关系,将欧式距离映射到[0,1]区间内,有利于损失计算和模型收敛。
(2)、量化损失运算
Lossqt=H(|h(f(x))|-1) (3)
式(3)中,h(f(x))为学习得到的哈希码,|.|为绝对值函数。
在测试阶段,要使用严格的-1,1码,这样才可以提高计算速度来提高行人搜索的效率,所以在保证哈希码能够保持判别性的同时,哈希码都应尽可能的逼近于1或-1。
(3)、重构损失运算:Losscons=d(f(x),f2(h(f(x))))
式中,d(.)为欧式距离,f(x)为2048位全局特征,f2(h(f(x)))为解码后的2048位特征,f2(h(f(x)))=W2(tanh(Wf(x)+b))+b2
W为编码全连接层的转换矩阵,W2是解码全连接层的转换矩阵,b,b2为对应全连接层的偏置。
重构损失运算是对哈希码的判别性学习实施了进一步约束,希望学习到的128位的哈希码能准确代表量化前的2048位全局深度特征。
三元哈希损失、量化损失和重构损失都是在训练过程中共同作用在学习到的tanh码上。
(4)、总损失运算:
Loss=λth·Lossth+λqt·Lossqt+λcons·Losscons (4)
λth、λqt,λcons是超参数,控制每个损失在训练过程中的权重。
训练过程中,不同的损失函数共同作用在特征上,控制权重计算总损失,使每个损失对训练过程的监督都起到一定的作用。
3)、网络优化及参数更新
步骤1构建的深度神经网络通过pytorch实现,不需要人为计算偏导数得到梯度进行更新,直接通过loss.backward()函数计算梯度并反向传播通过迭代不断更新参数直至收敛。网络的更新主要包括前向传播和反向传播两部分,前向传播通过网络计算输出与损失大小,然后再反向传播过程中反传损失的梯度,从而对网络进行更新。
在参数更新过程中,总损失作用在哈希码上,保证得到的哈希码简短且能保持判别性。
步骤3、深度神经网络的测试
测试阶段的主要目的是通过训练好的模型提取图片对应的哈希码,然后计算哈希码间的距离进行特征匹配。
在测试阶段,将行人图片输入步骤1构建的深度神经网络,通过特征学习模块与哈希学习模块得到松弛的哈希码(即tanh码,为[-1,1]间的码,不是严格的-1,1码,所以称为松弛的哈希码),然后通过符号函数转化为严格的-1,1码,计算query与gallery集中行人图片对应的哈希码间欧式距离进行特征匹配。具体来说,就是将query图片输入网络得到严格的-1,1二值码,将所有的gallery集图片输入网络也输入网络得到严格的-1,1二值码,然后再gallery中寻找与query对应二值码距离最近的二值码对应的图片。如果query图片的行人id与在gallery中找到的图片行人id一致,则认为匹配成功。
符号函数为:sign(x)=x/|x|,|.|为绝对值。
实施例:
1、数据集
使用Market1501数据集,有Zheng等人采集于校园场景并于2015年发布,数据集中包含1501个行人id,由6个摄像机拍摄,一共有32217张图片。
2、实验设置
训练集有1501个行人id,在测试和训练过程中,选取751个id的行人图片作为训练集,剩余750个id的图片作为测试集;在实验中,设置λth=1,λqt=0.001,λcons=0.01,β=1,学习率为3*10-4,学习率到150epoch后呈指数变小。
3、训练和测试方法
训练阶段:将图片成批送入网络进行训练,batchsize设为128,损失监督产生梯度反传更新(SGD),迭代300个Epoch后结束得到最终的网络模型。
测试阶段:将测试图片输入训练好的网络模型,提取对应的哈希码特征,评价方法按照Market1501的评价方法进行,计算Top-1和mAP指标。
识别准确率比较
为了验证本发明的有效性,将本发明与现有的行人再识别方法进行对比,现有的行人再识别方法主要有:
1、BOW:Zheng,Liang,et al."Scalable Person Re-identification:ABenchmark."2015 IEEE International Conference on Computer Vision(ICCV)IEEEComputer Society,2015.
2、SCSP:Chen,Dapeng,et al."Similarity learning with spatialconstraints for person re-identification."2016 IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2016
3、DNS:Zhang,Li,T.Xiang,and S.Gong."Learning a Discriminative NullSpace for Person Re-identification."2016 IEEE Conference on Computer Visionand Pattern Recognition(CVPR)2016
4、Spindle Net:Zhao,Haiyu,et al."Spindle Net:Person Re-identificationwith Human Body Region Guided Feature Decomposition and Fusion."2017 IEEEConference on Computer Vision and Pattern Recognition(CVPR)IEEE ComputerSociety,2017.
5、re-ranking:Zhong,Zhun,et al."Re-ranking Person Re-identificationwith k-reciprocal Encoding."2017 IEEE Conference on Computer Vision andPattern Recognition(CVPR),2017.
6、GAN:Zheng,Zhedong,L.Zheng,and Y.Yang."Unlabeled Samples Generatedby GAN Improve the Person Re-identification Baseline in vitro."2017 IEEEInternational Conference on Computer Vision(ICCV),2017.
7、Part-aligned:Zhao,Liming,et al."Deeply-Learned Part-AlignedRepresentations for Person Re-Identification."2017 IEEE InternationalConference on Computer Vision(ICCV),2017.
测试结果见表1:
表1
说明:本发明+re-ranked是指本发明与re-ranked的结合。
从表1可以看出:使用本发明训练的模型在行人数据集上取得的指标比现有的方法的指标都高,识别率明显提高,这是因为:1、本发明使用三元哈希损失,并采用指数距离对欧式距离进行改进,更符合距离与概率间的关系,便于模型收敛,且能较好的保持判别性;2、本发明使用重构损失对编解码做出约束,使学习到的128位哈希码能较好的代表原有特征且具有更强的判别性。
由于本发明中使用的特征为哈希码特征,在相同效果下,哈希码的计算效率更高,存储的哈希码为二值码,与存储实值的浮点数特征相比,占用的存储空间更小,更能满足实际应用。
表2中,特征匹配计算的时间是在测试文件中通过计算程序运行时间所得。使用本发明,一方面使用2048位全局深度特征计算(2048位的深度特征由网络中第一个全连接层的输出,能提取出来用于计算),另一方面将特征转化为哈希码后的匹配,运行时间见下表:
表2
从表2可以看出,使用本发明训练的模型可以提高计算效率和节省存储空间。
Claims (6)
1.一种深度哈希的行人再识别方法,其特征是,包括以下步骤:
步骤1、构建深度神经网络
深度神经网包括特征学习模块和哈希学习模块,所述特征学习模块采用Resnet网络,行人图片通过特征学习得到2048位的特征;所述哈希学习模块为一个全连接层和一个tanh函数层;
步骤2、深度神经网络的训练
1)、数据的准备:准备行人图片,输入行人图片和对应的id标签,作为训练图片和测试图片;
2)、把训练图片送入深度神经网络进行训练
本步骤包括特征学习、哈希学习和损失函数学习;
所述特征学习为:将训练图片成批送入深度神经网络,特征学习的结果是输出2048维的全局特征;
所述哈希学习为:采用一个全连接层作为哈希学习函数,将2048维的全局特征映射为128位,然后使用激活函数tanh将128位的实值特征映射为区间[-1,1]内的模拟值;所述损失函数学习包括:三元哈希损失运算、量化损失运算和重构损失运算,三元哈希损失运算是让具有相同id的行人图片输出的哈希码的距离更近,让具有不同id的行人图片得到的哈希码的距离更远;量化损失运算是使学习到的哈希码更加接近严格的哈希码;重构损失运算是监督解码后得到的2048位特征与原始的全局特征相近,保持判别性;
所述三元哈希损失运算为:
Lossth=[H(h(f(xi)),h(f(xj)))-H(h(f(xi)),h(f(xk)))+α]+
式中,一个批次图片的三元组(xi,xj,xk),xi为参考样本,xj为与xi的id标签相同特征距离最大的难正样本,xk为与xi的id标签不同特征距离最小的难负样本,α为正负样本对间的间隔,f(xi),f(xj),f(xk)为样本对应的特征,h(.)=f2(f1())为哈希函数,[x]+=max(0,x),当三元哈希损失小于0时,损失为0;H(.)是汉明距离;
汉明距离松弛为:
H(x,y)=e-β·d(x,y)
式中,H(x,y)为指数距离,β是超参数,用于控制d(x,y)与H(x,y)间的关系,d(x,y)是欧式距离;
3)、网络优化及参数更新
更新包括前向传播和反向传播两部分,前向传播通过网络计算输出与损失大小,然后再反向传播过程中反传损失的梯度,从而对网络进行更新;
步骤3、深度神经网络的测试
将测试图片输入步骤1构建的深度神经网络,通过特征学习模块与哈希学习模块得到松弛的哈希码,然后通过符号函数转化为严格的-1,1码,计算query与gallery集中行人图片对应的哈希码间欧式距离进行特征匹配。
2.根据权利要求1所述的深度哈希的行人再识别方法,其特征是:在步骤2的数据准备中,训练图片的像素大小都设置为(384,128),一个批次的大小为128位,包含32个不同的id,每个id有4张图片。
3.根据权利要求2所述的深度哈希的行人再识别方法,其特征是:在步骤2中,所述量化损失运算为:
Lossqt=H(|h(f(x))|-1)
式中,h(f(x))为学习得到的哈希码,|.|为绝对值函数。
4.根据权利要求3所述的深度哈希的行人再识别方法,其特征是:在步骤2中,所述重构损失运算为:
Losscons=d(f(x),f2(h(f(x))))
式中,d(.)为欧式距离,f(x)为2048位全局特征,f2(h(f(x)))为解码后的2048位特征。
5.根据权利要求4所述的深度哈希的行人再识别方法,其特征是:在步骤2中,总损失运算为:
Loss=λth·Lossth+λqt·Lossqt+λcons·Losscons
式中,λth、λqt,λcons是超参数,控制每个损失在训练过程中的权重。
6.根据权利要求5所述的深度哈希的行人再识别方法,其特征是:在步骤3中,所述符号函数为:sign(x)=x/|x|,|.|为绝对值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311137.1A CN110046579B (zh) | 2019-04-18 | 2019-04-18 | 一种深度哈希的行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311137.1A CN110046579B (zh) | 2019-04-18 | 2019-04-18 | 一种深度哈希的行人再识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046579A CN110046579A (zh) | 2019-07-23 |
CN110046579B true CN110046579B (zh) | 2023-04-07 |
Family
ID=67277692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910311137.1A Active CN110046579B (zh) | 2019-04-18 | 2019-04-18 | 一种深度哈希的行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046579B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446270B (zh) * | 2019-09-05 | 2024-05-14 | 华为云计算技术有限公司 | 行人再识别网络的训练方法、行人再识别方法和装置 |
CN110852152B (zh) * | 2019-09-27 | 2024-04-09 | 中山大学 | 一种基于数据增强的深度哈希行人重识别方法 |
CN111209886B (zh) * | 2020-01-14 | 2023-10-31 | 中国人民解放军陆军工程大学 | 一种基于深度神经网络的快速行人再识别方法 |
CN111563184B (zh) * | 2020-03-25 | 2023-04-18 | 中山大学 | 一种基于深度学习的视频哈希检索表征转换方法 |
CN111738058B (zh) * | 2020-05-07 | 2023-04-25 | 华南理工大学 | 基于生成对抗网络的针对生物模板保护的重构攻击方法 |
CN112818859B (zh) * | 2021-02-02 | 2022-06-24 | 电子科技大学 | 一种基于深度哈希的多级检索行人重识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006096162A2 (en) * | 2005-03-04 | 2006-09-14 | Jacob Yadegar | Method for content driven image compression |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN107423376A (zh) * | 2017-07-10 | 2017-12-01 | 上海交通大学 | 一种有监督深度哈希快速图片检索方法及系统 |
WO2017209564A1 (ko) * | 2016-06-02 | 2017-12-07 | 주식회사 플런티코리아 | 앱 리스트 제공 방법 및 그 장치 |
CN107480261A (zh) * | 2017-08-16 | 2017-12-15 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
CN109241317A (zh) * | 2018-09-13 | 2019-01-18 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
CN109255052A (zh) * | 2018-08-29 | 2019-01-22 | 浙江工业大学 | 一种基于多特征的三阶段车辆检索方法 |
-
2019
- 2019-04-18 CN CN201910311137.1A patent/CN110046579B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006096162A2 (en) * | 2005-03-04 | 2006-09-14 | Jacob Yadegar | Method for content driven image compression |
WO2017209564A1 (ko) * | 2016-06-02 | 2017-12-07 | 주식회사 플런티코리아 | 앱 리스트 제공 방법 및 그 장치 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN107423376A (zh) * | 2017-07-10 | 2017-12-01 | 上海交通大学 | 一种有监督深度哈希快速图片检索方法及系统 |
CN107480261A (zh) * | 2017-08-16 | 2017-12-15 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
CN109255052A (zh) * | 2018-08-29 | 2019-01-22 | 浙江工业大学 | 一种基于多特征的三阶段车辆检索方法 |
CN109241317A (zh) * | 2018-09-13 | 2019-01-18 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
Non-Patent Citations (7)
Title |
---|
Deep Supervised Hashing with Information Loss;Xueni Zhang等;《Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR)》;20180802;395–405 * |
基于深度哈希的多模态视频拷贝检测方法;张乃光等;《广播电视信息》;20181011;90-96 * |
基于深度哈希的大规模人脸图像检索研究;谭春强;《中国优秀硕士学位论文全文数据库信息科技辑》;20180815(第8期);I138-564 * |
基于深度学习的图像情感分析研究;宋凯凯;《中国博士学位论文全文数据库信息科技辑》;20180915(第9期);I138-43 * |
基于视角混淆及紧凑特征学习的行人再识别算法研究;刘方驿;《中国优秀硕士学位论文全文数据库信息科技辑》;20220415(第4期);I138-788 * |
基于量化的近似最近邻搜索技术研究;张婷;《中国博士学位论文全文数据库信息科技辑》;20170915(第9期);I138-73 * |
深度哈希算法行人再识别技术研究;章东平等;《中国计量大学学报》;20170630;第28卷(第2期);208-213 * |
Also Published As
Publication number | Publication date |
---|---|
CN110046579A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046579B (zh) | 一种深度哈希的行人再识别方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
Deng et al. | Extreme learning machines: new trends and applications | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN114926746B (zh) | 基于多尺度差分特征注意力机制的sar图像变化检测方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
Tang et al. | Multi-modal metric learning for vehicle re-identification in traffic surveillance environment | |
Bazi et al. | Bi-modal transformer-based approach for visual question answering in remote sensing imagery | |
Zheng et al. | Prompt vision transformer for domain generalization | |
CN113822368A (zh) | 一种基于无锚的增量式目标检测方法 | |
CN116503636A (zh) | 一种基于自监督预训练的多模态遥感影像分类方法 | |
Liu et al. | Deeply coupled convolution–transformer with spatial–temporal complementary learning for video-based person re-identification | |
Savadi Hosseini et al. | A hybrid deep learning architecture using 3d cnns and grus for human action recognition | |
Ma et al. | Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism | |
Chen et al. | Self-supervised 3D behavior representation learning based on homotopic hyperbolic embedding | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
Zhou et al. | Masked Spectral-Spatial Feature Prediction for Hyperspectral Image Classification | |
Kuang et al. | Joint Image and Feature Levels Disentanglement for Generalizable Vehicle Re-identification | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
Jo et al. | POEM: polarization of embeddings for domain-invariant representations | |
Chen et al. | Dual attention network for unsupervised domain adaptive person re-identification | |
He et al. | Few-Shot Object Counting with Dynamic Similarity-Aware in Latent Space | |
An et al. | Pedestrian Re-Identification Algorithm Based on Attention Pooling Saliency Region Detection and Matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |