CN109919084B - 一种基于深度多索引哈希的行人重识别方法 - Google Patents

一种基于深度多索引哈希的行人重识别方法 Download PDF

Info

Publication number
CN109919084B
CN109919084B CN201910166071.1A CN201910166071A CN109919084B CN 109919084 B CN109919084 B CN 109919084B CN 201910166071 A CN201910166071 A CN 201910166071A CN 109919084 B CN109919084 B CN 109919084B
Authority
CN
China
Prior art keywords
hash
pedestrian
index
real
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910166071.1A
Other languages
English (en)
Other versions
CN109919084A (zh
Inventor
李武军
李明威
蒋庆远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910166071.1A priority Critical patent/CN109919084B/zh
Publication of CN109919084A publication Critical patent/CN109919084A/zh
Application granted granted Critical
Publication of CN109919084B publication Critical patent/CN109919084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于深度多索引哈希的行人重识别方法,达到了非重叠视角域多摄像头网络场景下行人检索存储空间低且检索高效的效果。该方法首先从原始视频数据中构造行人图片训练集,再结合深度学习构造端到端的有互反馈的多粒度特征学习网络,基于训练集对网络模型进行训练,得到哈希函数和训练集对应的哈希编码,并基于哈希编码构建索引。对于摄像头新收集的数据,使用哈希函数计算对应的哈希编码,并实时增加到索引中。在线检索时,对于给定的目标行人图片,首先使用多粒度网络模型进行特征的提取,使用哈希函数计算目标行人图片的哈希编码,然后基于哈希编码在索引中进行近邻检索,最后基于实值特征在近邻范围内进行重排序,得到检索结果。

Description

一种基于深度多索引哈希的行人重识别方法
技术领域
本发明涉及一种基于深度多索引哈希的行人重识别方法,用于实现非重叠视角域多摄像头网络场景下利用低存储空间的高效行人检索。
背景技术
随着计算机视觉技术的发展,图像和视频等相关的应用在国民日常生活中的地位日益突出。此外,图像处理学科既是科学领域中具有挑战的研究方向,也是工程领域中的重要应用技术。行人重识别是近几年计算机视觉领域新兴的研究热点,是指在非重叠视角域多摄像头网络场景下进行行人匹配的任务,即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一行人,属于在复杂视频环境下的图像处理和分析范畴,是许多监控和安防应用中的主要任务。
由于公共安全需求的增加,以及摄像监控网络规模的扩大,单纯依靠人力劳动力进行行人重识别任务的成本极高,甚至是无法完成的。因此在大规模行人数据中,如何自动准确地进行待查询行人的匹配备受关注。
大多数的行人重识别研究工作主要关注算法的效果却很少在意其检索的效率。在实际的应用中,行人图片数据是呈爆炸式增长的,因此设计一种准确、高效的行人重识别算法至关重要。
发明内容
发明目的:为了解决这个问题,本发明主要从哈希学习的角度出发,用离散哈希对行人图片进行表示,一方面降低行人图片的存储开销,另一方面通过哈希检索技术在海明空间内进行行人图片的匹配,大大提高了算法运行的效率。
技术方案:一种基于深度多索引哈希的行人重识别方法,引入多索引哈希意在解决行人图片的存储开销大以及检索效率低的问题。同时,通过多粒度深度网络学习行人图片的实值特征表示和哈希编码来提升算法性能。主要包括特征学习和多索引哈希检索两部分,具体包括以下的步骤:
1)基于行人区域检测技术,从原始视频数据中构造行人图片训练集;
2)基于行人图片训练集,构建并训练多粒度网络模型,得到哈希函数以及训练集图片对应的实值特征和哈希编码;
3)基于哈希编码,设计分块划分策略构建索引;
4)对于摄像头新收集的数据,使用哈希函数计算哈希编码,并实时增加到索引中;使得在线检索可以返回实时的结果;
5)对于给定的目标行人图片,使用哈希函数计算哈希编码,基于哈希编码在索引中进行检索,再基于实值特征进行重排序。
上述步骤1)的过程为:对于来自监控摄像头的原始视频数据,首先需要进行视频切帧操作,然后对切帧后的图片数据进行行人区域检测,以生成行人图片作为训练集。
上述步骤2)的过程为:使用预训练的卷积神经网络多粒度网络模型提取行人图片的特征表示,预训练的卷积神经网络多粒度网络模型以ResNet-50(Kaiming He,XiangyuZhang,Shaoqing Ren,Jian Sun,Deep Residual Learning for Image Recognition,2016{IEEE}Conference on Computer Vision and Pattern Recognition)作为主干,并将其划分为:全局分支、上下身分支、上中下身分支。在训练和测试的过程中将三个分支的输出进行合并从而得到行人图片的实值特征表示,这样的特征表示蕴含了多粒度的行人信息。对于每一个分支,在特征表示层后添加一层全连接层作为哈希层,哈希层的维度对应于哈希编码的长度。
在多粒度网络模型的训练过程中,使用归一化指数函数损失为行人图片的实值特征表示建模,使用三元组损失为行人图片的哈希编码建模,使用多索引查询敏感损失来为检索进行加速。在求解时,使用梯度反向传播优化深度网络的参数。
上述步骤3)的过程为:在需要建立多个哈希索引的情况下,使用分块划分策略,对行人图片的哈希编码进行划分,划分后的子串分别进行索引的建立,从而缓解直接对哈希编码进行划分可能导致的单个索引中不存在多粒度的信息,即多粒度的信息在划分过程中遭到破坏的问题。
上述步骤5)的过程为:基于多索引哈希的近邻检索通常会返回大量的近邻,且近邻之间的排序关系较为粗糙,在此基础上,基于多粒度网络模型输出的实值特征表示,在近邻范围内进行重排序,再根据要求按序返回重排序后的检索结果,可以进一步提升系统在精确度方面的表现。
附图说明
图1为本发明索引构建流程图;
图2为本发明索引更新流程图;
图3为本发明在线检索流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图1展示了基于深度多索引哈希的行人重识别方法的索引构建流程。首先收集来自监控摄像头的原始视频数据,进行视频切帧操作,然后对切帧后的图片数据进行行人区域检测,以生成行人图片作为训练集。
将行人图片作为多粒度网络模型的输入,学习行人图片的实值特征表示和哈希编码。多粒度网络模型以ResNet-50作为主干,包括五层卷积神经网络,一层全局池化层,一层维度压缩层,一层哈希层,其中第五层卷积神经网络将原始的ResNet-50划分为:全局分支、上下身分支、上中下身分支,具体参数配置如表1。网络的配置可能包含如下几个部分:"filter"指定卷积感受野的大小和卷积个数;"stride"指定两个卷积操作间的间隔;"pad"表示零填充的数目;"max pool"指定最大值下采样的区域大小。维度压缩层用2048维作为实值特征表示,哈希层的维度为对应的哈希编码的长度。
多粒度网络模型的目标函数由三部分组成,对于第i个输入图片xi,令
Figure BDA0001986302610000031
表示多粒度网络模型输出的实值特征表示,令{di,gi,hi}表示对应的离散二值编码,其中di,gi,hi∈{-1,+1}r,r为单个分支输出的哈希编码的长度。规定[]T表示向量的转置,[x]+表示函数max(0,x),||bi-bj||H表示二值向量bi和bj之间的海明距离:
1)以最小批处理量为N的数据
Figure BDA0001986302610000032
为例,三元组损失函数可以如下定义:
Figure BDA0001986302610000033
其中di,
Figure BDA0001986302610000034
分别表示锚点、正样例点、负样例点,α表示间隔超参数。
由此我们可以定义关于离散二值编码{di,gi,hi}的三元组损失函数如下:
Figure BDA0001986302610000035
2)为了能够学习到更加鲁棒的实值特征标志,我们使用归一化指数函数损失为行人图片的实值特征表示建模,我们定义分类损失函数如下:
Figure BDA0001986302610000041
由此我们可以定义关于实值特征的归一化指数函数损失如下:
Figure BDA0001986302610000042
3)在需要建立m个哈希索引的情况下,需要对哈希编码进行m等份的划分。然而直接对哈希编码[di;gi;hi]T进行划分可能会导致单个索引中不存在多粒度的信息,即多粒度的信息在划分的过程中遭到了破坏。为了缓解这个问题,设计分块划分策略,对每个分支输出的哈希编码单独进行m等份的划分,然后将各分支的第j份划分进行合并以形成第j个索引
Figure BDA0001986302610000043
Figure BDA0001986302610000044
这种划分方式可以使每个索引都具有多粒度的信息。基于这种划分方式,令
Figure BDA0001986302610000045
Figure BDA0001986302610000046
分别表示离散二值变量bi和bj的第l个索引,定义
Figure BDA0001986302610000047
Figure BDA0001986302610000048
之间的海明距离为
Figure BDA0001986302610000049
定义多索引查询敏感损失如下:
Figure BDA00019863026100000410
综合式(2),(4),(6),可以得到多粒度网络模型的最终目标函数如下:
Figure BDA00019863026100000411
Figure BDA00019863026100000412
这里β,γ是折中超参数,均为正实数,N是最小批处理量,r为单个分支输出的哈希编码的长度。在求解时,对目标函数(7)进行求导,使用梯度反向传播优化模型的参数。训练完成后,将实值特征保存在外存,构建外存数据库;基于哈希编码构建索引,并将哈希编码及索引保存在内存,构建内存数据库,以便于快速检索。
图2展示了基于深度多索引哈希的行人重识别方法的索引更新流程。对于摄像头新收集的数据,使用多粒度网络模型得到对应的实值特征和哈希编码,并实时地添加到内外存数据库中。
图3展示了基于深度多索引哈希的行人重识别方法的在线检索流程。对于给定的目标行人图片,将该图片作为多粒度网络模型的输入,计算并输出对应的实值特征表示和哈希编码。然后基于哈希编码,使用多索引哈希检索技术在内存中检索待查询行人图片的近邻。由于基于多索引哈希的近邻检索通常会检索出大量的近邻,且近邻之间的排序关系较为粗糙,为了进一步提升系统在精确度方面的表现,可以将保存在外存中的近邻图片的实值特征读入内存,计算其与目标行人图片的实值特征之间的欧氏距离,并根据计算得到的欧氏距离对近邻图片进行升序排序,再根据检索的要求按序返回检索结果。
表1多粒度网络模型参数配置
层名 配置
卷积层一 filter 64×7×7;stride 2×2;pad 0;max pool 3×3;
卷积层二 filter 64×1×1;filter 64×3×3;filter 256×1×1;
卷积层三 [filter 128×1×1;filter 128×3×3;filter 512×1×1;]×3
卷积层四 [filter 256×1×1;filter 256×3×3;filter 1024×1×1;]×3
全局分支 [filter 512×1×1;filter 512×3×3;filter 2048×1×1;]×3
上下身分支 [filter 512×1×1;filter 512×3×3;filter 2048×1×1;]×3
上中下身分支 [filter 512×1×1;filter 512×3×3;filter 2048×1×1;]×3
全局池化层 [max pool 24×8;max pool 12×8;max pol 8×8;]
维度压缩层 [filter 256×1×1;]×8
哈希层 哈希编码长度

Claims (4)

1.一种基于深度多索引哈希的行人重识别方法,其特征在于,该方法包括以下的步骤:
1)基于行人区域检测技术,从原始视频数据中构造行人图片训练集;
2)基于行人图片训练集,构建并训练多粒度网络模型,得到哈希函数以及训练集图片对应的实值特征和哈希编码;
将行人图片作为多粒度网络模型的输入,学习行人图片的实值特征表示和哈希编码;多粒度网络模型以ResNet-50作为主干,包括五层卷积神经网络,一层全局池化层,一层维度压缩层,一层哈希层,其中第五层卷积神经网络将原始的ResNet-50划分为:全局分支、上下身分支、上中下身分支;
在训练和测试的过程中将三个分支的输出进行合并从而得到行人图片的实值特征表示,这样的特征表示蕴含了多粒度的行人信息;对于每一个分支,在特征表示层后添加一层全连接层作为哈希层,哈希层的维度对应于哈希编码的长度;在多粒度网络模型的训练过程中,使用归一化指数函数损失为行人图片的实值特征表示建模,使用三元组损失为行人图片的哈希编码建模,使用多索引查询敏感损失来为检索进行加速;在求解时,使用梯度反向传播优化深度网络的参数;
多粒度网络模型的目标函数由三部分组成,对于第i个输入图片xi,令{fi (1),fi (2),fi (3)}表示多粒度网络模型输出的实值特征表示,令{di,gi,hi}表示对应的离散二值编码,其中di,gi,hi∈{-1,+1}r,r为单个分支输出的哈希编码的长度,规定[]T表示向量的转置,[x]+表示函数max(0,x),∥bi-bjH表示二值向量bi和bj之间的海明距离:
1)对于最小批处理量为N的数据三元组损失函数如下定义:
其中di,分别表示锚点、正样例点、负样例点,α表示间隔超参数;
定义关于离散二值编码{di,gi,hi}的三元组损失函数如下:
2)使用归一化指数函数损失为行人图片的实值特征表示建模,定义分类损失函数如下:
定义关于实值特征的归一化指数函数损失如下:
3)在需要建立m个哈希索引的情况下,对哈希编码进行m等份的划分;设计分块划分策略,对每个分支输出的哈希编码单独进行m等份的划分,然后将各分支的第j份划分进行合并以形成第j个索引
分别表示离散二值变量bi和bj的第l个索引,定义之间的海明距离为定义多索引查询敏感损失如下:
综合式(2),(4),(6),得到多粒度网络模型的最终目标函数如下:
β,γ是折中超参数,均为正实数,N是最小批处理量,r为单个分支输出的哈希编码的长度,在求解时,对目标函数(7)进行求导,使用梯度反向传播优化模型的参数,训练完成后,将实值特征保存在外存,构建外存数据库;基于哈希编码构建索引,并将哈希编码及索引保存在内存,构建内存数据库,以便于快速检索;
3)基于哈希编码,设计分块划分策略构建索引;
4)对于摄像头新收集的数据,使用哈希函数计算哈希编码,并实时增加到索引中;
5)对于给定的目标行人图片,使用哈希函数计算哈希编码,基于哈希编码在索引中进行检索,再基于实值特征进行重排序。
2.如权利要求1所述的基于深度多索引哈希的行人重识别方法,其特征在于,所述步骤1)中,对于来自监控摄像头的原始视频数据,首先需要进行视频切帧操作,然后对切帧后的图片数据进行行人区域检测,以生成行人图片作为训练集。
3.如权利要求1所述的基于深度多索引哈希的行人重识别方法,其特征在于,步骤3)中,在需要建立多个哈希索引的情况下,使用分块划分策略,对行人图片的哈希编码进行划分,划分后的子串分别进行索引的建立,从而缓解直接对哈希编码进行划分可能导致的单个索引中不存在多粒度的信息,即多粒度的信息在划分过程中遭到破坏的问题。
4.如权利要求1所述的基于深度多索引哈希的行人重识别方法,其特征在于,步骤5)中,对于给定的目标行人图片,将该图片作为多粒度网络模型的输入,计算并输出对应的实值特征表示和哈希编码;然后基于哈希编码,使用多索引哈希检索技术在内存中检索待查询行人图片的近邻;将保存在外存中的近邻图片的实值特征读入内存,计算其与目标行人图片的实值特征之间的欧氏距离,并根据计算得到的欧氏距离对近邻图片进行升序排序,再根据检索的要求按序返回检索结果。
CN201910166071.1A 2019-03-06 2019-03-06 一种基于深度多索引哈希的行人重识别方法 Active CN109919084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910166071.1A CN109919084B (zh) 2019-03-06 2019-03-06 一种基于深度多索引哈希的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910166071.1A CN109919084B (zh) 2019-03-06 2019-03-06 一种基于深度多索引哈希的行人重识别方法

Publications (2)

Publication Number Publication Date
CN109919084A CN109919084A (zh) 2019-06-21
CN109919084B true CN109919084B (zh) 2023-04-25

Family

ID=66963325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910166071.1A Active CN109919084B (zh) 2019-03-06 2019-03-06 一种基于深度多索引哈希的行人重识别方法

Country Status (1)

Country Link
CN (1) CN109919084B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569244A (zh) * 2019-08-30 2019-12-13 深圳计算科学研究院 一种海明空间近似查询方法及存储介质
CN110852152B (zh) * 2019-09-27 2024-04-09 中山大学 一种基于数据增强的深度哈希行人重识别方法
CN111104566B (zh) * 2019-12-26 2023-07-21 腾讯科技(深圳)有限公司 特征索引编码方法、装置、电子设备及存储介质
CN115017366B (zh) * 2022-07-11 2024-04-02 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN117034385B (zh) * 2023-08-30 2024-04-02 四开花园网络科技(广州)有限公司 一种支持人形角色创意设计的ai系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5594601B2 (ja) * 2011-01-13 2014-09-24 大日本印刷株式会社 タッチパネルセンサ、当該タッチパネルセンサの製造方法、および当該タッチパネルセンサを備えた入出力装置の製造方法
CN108197538B (zh) * 2017-12-21 2020-10-16 浙江银江研究院有限公司 一种基于局部特征和深度学习的卡口车辆检索系统及方法
CN108647295B (zh) * 2018-05-08 2022-09-23 南京大学 一种基于深度协同哈希的图片标注方法

Also Published As

Publication number Publication date
CN109919084A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109919084B (zh) 一种基于深度多索引哈希的行人重识别方法
CN107577990B (zh) 一种基于gpu加速检索的大规模人脸识别方法
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN108154194B (zh) 一种用基于张量的卷积网络提取高维特征的方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN113516012B (zh) 一种基于多层级特征融合的行人重识别方法及系统
CN110543581B (zh) 基于非局部图卷积网络的多视图三维模型检索方法
CN104794219A (zh) 一种基于地理位置信息的场景检索方法
CN108491856B (zh) 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN110222718B (zh) 图像处理的方法及装置
CN111125397B (zh) 一种基于卷积神经网络的布料图像检索方法
CN103020321B (zh) 近邻搜索方法与系统
CN111027140A (zh) 基于多视角点云数据的飞机标准件模型快速重构方法
CN114694185B (zh) 一种跨模态目标重识别方法、装置、设备及介质
CN116740538A (zh) 一种基于YOLOv8改进的轻量化目标检测方法及系统
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN116861022A (zh) 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法
CN113743251B (zh) 一种基于弱监督场景的目标搜索方法及装置
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN106886783A (zh) 一种基于区域特征的图像检索方法及系统
Nazarİ et al. A Deep learning model for image retargetting level detection
CN117351246B (zh) 一种误匹配对去除方法、系统及可读介质
CN116680435B (zh) 一种基于多层特征提取的相似图像检索匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant