CN109241317A - 基于深度学习网络中度量损失的行人哈希检索方法 - Google Patents
基于深度学习网络中度量损失的行人哈希检索方法 Download PDFInfo
- Publication number
- CN109241317A CN109241317A CN201811065988.4A CN201811065988A CN109241317A CN 109241317 A CN109241317 A CN 109241317A CN 201811065988 A CN201811065988 A CN 201811065988A CN 109241317 A CN109241317 A CN 109241317A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- hash
- loss
- layer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于深度学习网络中度量损失的行人哈希检索方法,通过构建卷积特征网络行人哈希学习模型CFNPHL,实现行人图像的哈希码学习;再通过计算行人图像哈希码间的距离,实现大规模行人图像数据的检索。包括:建立卷积神经网络模型,提取行人特征信息;映射二值哈希码;加入量化损失得到度量损失;设定分类损失函数学习不同行人区别特征,得到行人类别;网络损失值最小化;训练网络CFNPHL,得到图像检索的行人哈希码库;再将待检索的行人图像,输入到训练好的网络中,得到待检索行人的哈希码;通过计算距离进行行人检索。本发明针对复杂场景下进行行人检索,有效提高检索速度,精确率较高。
Description
技术领域
本发明属于模式识别和机器视觉技术领域,针对复杂场景下的行人检索问题,提出了一种在深度学习网络中基于度量损失的行人哈希检索方法,有效的提高了行人检索的精确率。
背景技术
近年来,随着模式识别和机器视觉技术的发展,行人检索技术得到了很大的发展,并且在复杂的视频场景监控领域实现了大量的应用。
行人检索一直是图像检索领域的一个研究热点课题。图像哈希检索方法一般包括对图像进行特征提取得到图像的特征码和对特征码进行哈希映射两部分。传统的图像哈希检索方法在进行图像的低维紧凑特征提取时,采用手工设计的描述算子对图像进行处理,主要得到图像的颜色、纹理、形状、梯度等底层特征信息。此类方法不仅复杂度高、鲁棒性差,而且在复杂的场景中进行应用时,往往不能很好的覆盖到所有情况。
近些年,已有不少工作对上述传统的图像哈希检索方法进行改进。例如,2014年,潘炎等研究者提出了CNNH(Convolutional Neural Network Hashing)模型,将哈希学习分为两个阶段,在第一个阶段,基于LMNN(Large-Margin Nearest Neighbors)的思想构建图像对的相似度矩阵,将相似矩阵分解得到二值向量,完成图像数据的二值编码并作为第二阶段的训练标签;在第二个阶段,构建CNN(Convolutional Neural Network)模型拟合图像的二值编码,并通过分类损失函数提升模型的性能。但是此方法学到的图像表示并不能反作用于二值哈希码的更新。(Xia R,Pan Y,Lai H,et al.Supervised hashing for imageretrieval via image representation learning[C]//AAAI Conference on ArtificialIntelligence.2014.)。
2015年,潘炎等研究者提出了更深的网络结构NINH,该模型以三元组的三张图像作为输入,利用三元组损失获取哈希码,使得相似图像在汉明(Hamming)空间中的距离较近。(Network in Network Hashing)模型(Lai H,Pan Y,Liu Y,et al.Simultaneousfeature learning and hash coding with deep neural networks[J].2015:3270-3278.)
同年,林倞等研究者在文献中提出基于加权汉明距离的哈希方法DRSCH(DeepRegularized Similarity Comparison Hashing),该模型提高了图像的检索精确度。但该网络的问题在于sigmoid激活函数的使用,由于激活函数具有饱和的性质,当输出接近期望值(0或1)时,梯度会较小,网络训练较困难。(Zhang R,Lin L,Zhang R,et al.Bit-Scalable Deep Hashing With Regularized Similarity Learning for ImageRetrieval and Person Re-Identification[J].IEEE Transactions on ImageProcessing,2015,24(12):4766-4779.)
基于深度学习的哈希检索方法可以从数据中获取到有用的特征,且泛化性更好,提取出的特征具有语义性,表达能力较强,能够解决传统哈希检索方法提取特征的单一性和鲁棒性差的问题。但是,在复杂场景中,存在着姿态、光照、遮挡、背景干扰等诸多不确定因素,因此,现有的行人检索技术存在检索精确率不高的问题,实现对行人更高准确率的检索是一项极具挑战性的技术任务。
发明内容
为了克服传统哈希检索方法存在的不足,本发明提出了一种针对复杂场景下基于度量损失的深度哈希行人检索方法,通过引入卷积神经网络(Convolutional NeuralNetwork,CNN)模型使得网络可以端到端的学习行人检索的二值哈希码,实现对行人的检索,具有较高的行人检索精确度。
本发明的目的是提供一种新的方法,实现对行人较高精确率的检索。首先,为了克服传统的提取行人特征方法的局限性,采用CNN网络模型来提取行人图像的特征;然后,为了使CNN网络可以进一步得到二值哈希码,在CNN网络模型的全连接层引入一层哈希层,此哈希层用作特征的哈希映射,得到二进制哈希码。该CNN网络同时考虑哈希层中引入量化损失和全连接层的分类损失,使得网络学习到的哈希码可以较好逼近行人图像的语义信息。最后通过计算行人图像哈希码之间汉明距离实现行人的检索。方法的模型结构如图1所示。
本发明提供的技术方案如下:
一种基于深度学习网络中度量损失的行人哈希检索方法,首先通过提出的卷积特征网络行人哈希学习(Convolutional feature network person hash learning,CFNPHL)模型可以实现行人图像的哈希码学习,然后通过计算行人图像哈希码间的距离,实现大规模行人图像数据的检索。具体包括如下步骤:
构建CFNPHL模型,包括步骤1)~5):
步骤1):建立四层的卷积神经网络模型,提取行人特征信息
卷积神经网络可以从图像数据中获取到有用的特征,且泛化性更好,提取出的特征具有语义性,表达能力较强,因此本发明采用卷积神经网络来提取行人的特征信息。
具体实施时,本发明采用卷积神经网络模型来实现行人特征的提取,包括四层卷积层和两层池化层;卷积层1(conv1)的卷积核大小为3×3,卷积核数量为32个;其后连接为卷积层2(conv2),卷积核大小为5×5,卷积核数量为32个;其后为池化层1(pool1),pool层的核大小为2×2,采用最大值池化(max pool)策略,步长(stride)为2;然后连接的为卷积层3,该层卷积核的大小为3×3,卷积核的数量为64个;再连接一个卷积层4,卷积层4的卷积核大小为3×3,卷积核数量为64个;其后连接池化层2(pool2),该层核大小为2×2,采用最大值池化策略,步长为2。在各卷积层不进行边缘填充,即padding=0。
为避免网络出现过拟合的现象,本发明在Pool2层后引入dropout层,该层的目的是在训练过程中,以一定的概率p让某些节点输出设定为0。经dropout层所得到的行人特征信息与维度为4096的FC5层相连,FC5层得到卷积特征网络所提取的行人特征的表示信息。dropout层和FC5层是全连接层。
本发明设计的卷积特征网络结构层次浅,网络在训练的过程中,收敛速度快,训练时间短,网络权值参数易于优化,可以提取具有较强表达能力的行人图像特征信息。
步骤2):映射二值哈希码,执行如下操作:
21)在FC5层后引入哈希层,哈希层本质是全连接层,哈希层的维度H是要映射的哈希码长度;将与FC5层相连得到的数值,采用Sigmoid函数进行激活处理,得到的哈希层的每一位数值均在0到1之间;Sigmoid函数的表达如下式1:
式1中,x是哈希层与FC5层直接相连得到的数值,f(x)是Sigmoid函数的结果。
22)对哈希层经Sigmoid函数激活得到的数值进行阈值处理,使哈希层的每一位数值转变成二值哈希码,即通过映射使得每一位的数值为0或1;式2是此映射的关系式:
式2中,T为阈值,经过阈值处理后,可以得到二值的哈希码。
步骤3):在步骤2)进行阈值处理后得到二进制哈希码,此过程会出现的信息丢失。为了使得阈值处理过程丢失的信息尽可能的少,在模型的损失中加入了量化损失。
设量化损失的函数为式3:
其中,x是哈希层的数值,H(x)为公式2,Lossq定义为度量损失。在度量损失的驱动下,模型在学习的过程中,哈希层的每一位会逐渐趋近于0或者1。
步骤4):设定分类损失函数,学习不同行人的区别特征信息,得到行人类别;执行如下操作:
41)在哈希层的后边增加一层softmax层,用于行人之间的分类,区分不同行人之间的特征,该层的维度为数据集的行人类别数y(i);
42)采用Softmax分类器,将每个输入向量,通过训练,估算得到属于每一个类别j的概率,对行人进行分类;
43)在训练过程中,使得损失函数最小化;
具体地,在分类任务中,利用分类损失是为了能够让模型学习到区别不同行人的特征信息,能让同一行人的特征码相似;不同的行人的特征码不相似。本发明在哈希层的后边增加一层softmax层,用于行人之间的分类,使得网络可以更好的区分不同行人之间的特征,该层的维度为数据集的行人类别数y(i)。该部分采用的是多分类逻辑回归中的Softmax分类器。
将m个有标签的样本作为数据集,即{(x(1),y(1)),(x (2),y(2)),…,(x(m),y(m))},其中x(i)∈Rn+1为n+1维特征向量,y(i)∈{1,2,…,k}是行人样本数据的类别标签,i为数据集中行人图像数量,k为数据集中行人类别数。
Softmax分类器的任务是将每个输入向量,估算属于每一个类别j的概率,设其概率函数计算为式4:
在式4中,hθ(x(i))为计算x(i)在各类别下的概率;p为计算概率函数;θ1,θ2,…,θk∈Rn+1为模型随机设置的参数;
其损失函数为式5所示,在训练过程中,要使得损失函数Lossc(θ)最小化。
式5中,m为数据集的样本个数;Lossc(θ)为Softmax分类损失值。
步骤5):网络损失值最小化,网络损失值包括量化损失值和分类损失值;
在训练过程中,要使得步骤3)中的量化损失值和步骤4)中的分类损失值最小化,则本发明中模型最后的损失函数loss度量式表示为式6:
loss=Lossc+lossq (式6)
其中,Lossc为分类损失;lossq为度量损失。
步骤6):训练网络,得到训练数据集和测试数据集的哈希码,作为图像检索的行人哈希码库;
步骤1)-步骤5)是本发明CFNPHL模型建立的关键过程,将有标签的训练数据集和测试数据集输入到上述建立的网络模型,经过K次迭代之后,使得损失值loss逐渐收敛,最终逐渐趋于某一较小的定值(比如0)。通过此次网络的训练,可以得到训练数据集和测试数据集的哈希码,将这两个数据集的哈希码作为行人图像检索的哈希码库。
再将待检索的行人图像,输入到训练好的网络中,进行网络的前向计算,取出其哈希层的输出结果,由此便得到待检索行人的哈希码。
全连接层第一层是FC5,第二层是本发明的哈希层,第三层是Softmax分类层。
本发明将全连接层的第二层设置为哈希层,维度设置为64、128、256或512。该层与4096维的FC5层直接相连,此连接相当于一个编码的过程,使用量化损失对数值变成哈希码的损失进行约束;哈希层之后与全连接层的Softmax层相连,Softmax层的维度为检索图像数据集的类别数,从而可以实现对大规模图像数据集的哈希检索。
步骤7):通过计算距离进行行人检索;
本文在进行行人图像检索采用的度量流程如图3所示,首先利用汉明距离相似性度量计算待检索行人图像的哈希码与行人图像哈希码库之间的距离。
如图4所示,在进行汉明距离度量时,同一行人图像的哈希码是相同或者相近的,则汉明距离小。相反地,不同行人图像的哈希码差别较大,则汉明距离大。
在进行待检索行人图像与行人哈希码库的汉明距离计算时,若汉明距离为d时的图像有n张,本文再对这n张图像与待检索图像进行欧式距离度量。本文的欧式距离计算采用二范数的平方形式,如下式8:
综上,本文按照计算的汉明距离进行排序,若多张图片汉明距离相同,则对汉明距离相同的图像进行欧式距离的排序,最终实现对行人图像的哈希检索。
与现有技术相比,本发明的有益效果是:
本发明提供了一种针对复杂场景下行人检索的方法。利用本发明提供的技术方案,通过设计的卷积神经网络模型对行人的图像特征进行提取,然后在网络的全连接层引入哈希层,实现将行人特征信息转化为二值哈希码,并通过度量损失函数使得网络在将特征信息转为哈希码时丢失的信息最少。同时为了使得网络学习的哈希码能够更好的表达行人信息,在网络的全连接层的最后一层引入分类损失函数。通过此方法实现了行人哈希码端到端的学习,并且学习到的哈希码在同一行人图像之间具有较高的相似性,而不同行人之间的哈希码相似性较差。最后通过计算带检索图像的哈希码与哈希码库中的汉明距离和欧氏距离实现行人图像的检索。该方法是针对复杂场景下行人检索提出的新的方法,有效的提高了行人检索的速度,并且相比于其他方法,检索的精确率也比较高。
附图说明
图1为本发明实施例提供的用于行人检索的网络结构图。
图2为本发明实施例中Sigmoid函数的曲线图。
图3为本发明中行人图像哈希码的距离检索流程框图。
图4为本发明所使用的汉明距离示意图。图5为本发明的整体流程图。
图6为本发明模型训练过程中loss变化曲线图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种针对复杂场景下基于度量损失的深度哈希行人检索方法,通过引入CNN模型使得网络可以端到端的学习行人检索的二值哈希码,实现对行人的检索,具有较高的行人检索精确度。
具体实施时,本发明采用4层的卷积神经网络模型来实现行人特征的提取。具体的网络层设置如表1所示。卷积层1(conv1)的卷积核大小为3×3,卷积核数量为32个;其后连接为卷积层2(conv2),卷积核大小为5×5,卷积核数量为32个;其后为池化层1(pool1),pool层的核大小为2×2,采用最大值池化(max pool)策略,步长(stride)为2;然后连接的为卷积层3,该层卷积核的大小为3×3,卷积核的数量为64个;在连接一个卷积层4,卷积层4的卷积核大小为3×3,卷积核数量为64个;其后连接池化层2(pool2),该层核大小为2×2,采用最大值池化策略,步长为2。在各卷积层不进行边缘填充,即padding=0。
在卷积特征网络的Pool2层所提取的行人特征信息的维度较高,若直接与全连接层FC5相连容易导致网络出现过拟合的现象。因此,本发明为了避免此类问题,在Pool2层后引入dropout层,该层的目的是在训练过程中,以一定的概率p让某些节点输出设定为0。经dropout层所得到的行人特征信息与维度为4096的FC5层相连,FC5层得到卷积特征网络所提取的行人特征的表示信息。
表1卷积神经网络层及相应参数设置表
以下实例是采用本发明方法针对数据集Market 1501进行的行人检索,具体包括以下步骤:
1.将Market 1501数据集中的训练集数据Ui和测试数据集Li输入到本发明设计的网络,数据集中的各个图像在各层卷积神经网络提出特征的大小情况如下表2所示,以Market 1501数据集图像的大小128×64为例。
表2卷积神经网络各层的输入输出情况
2.FC5层的维度设置为4096,其后连接哈希层,设置哈希层的维度为H,该层的维度H便是最终得到的哈希码的维度值,再该层之后通过引入下式(1)的Sigmoid激活函数,使得该层得到的数值均在0-1之间。
经过Sigmoid激活函数后得到的数值,再进行阈值处理,阈值处理的关系式如下式2所示:
3.在哈希层进行阈值处理时,同时在该部分加入了量化损失,量化损失的函数为式3:
4.在哈希层的后边连接softmax层,设置该层的维度为数据集的不同行人类别数k。对于采用的多分类逻辑回归Softmax分类器,将m个有标签的样本作为数据集,即{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))},其中x(i)∈Rn+1为n+1维特征向量,取值为y代表类别标签,y(i)∈{1,2,…,k}。
Softmax分类器的任务是将每个输入向量,估算属于每一个类别j的概率,设其函数计算为式4:
在上式(4)中,θ1,θ2,…,θk∈Rn+1为模型参数,其损失函数为下式(5)所示,在训练过程中,要使得最小化损失函数。
5.在训练过程中,要综合网络的量化损失值和分类损失值,使得网络的loss值逐渐变小,该模型损失函数式为下式(6)所示:
loss=Lossc+Lossq (式6)
6.通过本发明建立的上述模型,利用有标签的训练数据集和测试数据集对该网络模型进行K次迭代训练,使得网络的loss值逐渐收敛,并最终趋于某一较小的定值时,可结束网络的训练。通过此次网络的训练,可以得到训练数据集和测试数据集的哈希码,将这两个数据集的哈希码作为行人图像检索的哈希码库。
再将待检索的行人图像,输入到训练好的网络中,进行网络的前向计算,取出其哈希层的输出结果,由此便得到带检索行人的哈希码。
7.将待检测行人图像的哈希码与行人哈希码库中的所有哈希码进行汉明距离的计算,汉明距离的度量公式为下式7:
若经过汉明距离计算得出映射成相同哈希码的图像有n张时,再对这n张图像进行欧式距离度量,欧式距离计算采用二范数的平方形式,如式8:
通过将检索的结果进行汉明距离和欧氏距离的综合排序,前q张图片便是检索的行人图像结果。
以下实例是针对数据集Market 1501进行的行人检索,该数据集来源于清华校园6个不同的摄像头拍摄的图像,背景、角度、行人姿态都不尽相同,同时有一个摄像头的像素偏低。该数据集已划分好训练集、测试集、查询集。训练集包含12936张图像,751个ID,测试集包含19732张图像,752个ID,查询集包含3368张图像,750个ID。
下面对本实验的关键参数做以下说明,如表3所示,其他参数为默认值。
表3本发明的模型实验参数设置
在上述实验参数的设置下,模型在训练过程中loss曲线的变化如图4所示。
从图4可以看出模型的loss值在训练的前10000次下降的速度较快,之后缓慢下降,最终Loss值基本趋近于0,并保持稳定,由此反映出模型具有一定的可靠性。
对查询集所有图像进行网络的前向计算,取出其哈希层的输出结果用于行人检索。检索评价,则采用CMC指标来评价。
哈希层不同的维度对CMC指标有一定影响。实验分析了在不同维度的哈希层进行检索的CMC指标结果,实验CMC指标如下表4所示:
表4哈希检索实验结果
通过表4可以看出,随着哈希码的长度增加,CMC指标是有所提高,其中rank-1增长比较明显,哈希码的维度在256、512的时候,rank-10、rank-20增长缓慢。原因在于哈希码长度增加,对特征的描述越详尽,在第一个搜索到相同目标的几率要大一些,当搜索rank变大的时候,也能搜索到目标。但是随着哈希码长度成倍数增长,对硬盘存储空间的大小、检索速度也是成倍增长的。
为了验证本发明提出的方法的可靠性。不改变实验的其他设置参数一致,仅在模型训练时不考虑量化损失,只考虑分类损失来进行训练模型。在哈希码长度为256时的对比实验结果如下表5所示:
表5量化损失对实验结果的影响
由表5得出,在不考虑度量损失的模型的CMC指标比考虑度量损失的模型平均低出了4个百分点。通过对比可以看出,本发明提出的方法能够有效提高行人检索的精确度。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (6)
1.一种基于深度学习网络中度量损失的行人哈希检索方法,通过构建卷积特征网络行人哈希学习模型CFNPHL,实现行人图像的哈希码学习;再通过计算行人图像哈希码间的距离,实现大规模行人图像数据的检索;包括如下步骤:
构建CFNPHL模型,包括步骤1)~5):
步骤1):建立卷积神经网络模型提取行人特征信息;所述卷积神经网络模型包括四层卷积层和两层池化层,结构层次浅;
在池化层pool2之后引入dropout层,避免网络出现过拟合;
经dropout层所得到的行人特征信息与FC5层相连,FC5层得到卷积特征网络所提取的行人特征的表示信息;
步骤2):映射二值哈希码,执行如下操作:
21)在FC5层后引入哈希层,哈希层为全连接层;哈希层的维度H表示要映射的哈希码长度;将与FC5层相连得到的数值,采用Sigmoid函数进行激活处理,得到的哈希层的每一位数值均在0到1之间;
22)对哈希层经Sigmoid函数激活得到的数值进行阈值处理,使哈希层的每一位数值转变成二值哈希码,即通过映射,使得每一位的数值为0或1;
步骤3):在模型的损失中加入了量化损失函数得到度量损失,使得阈值处理过程丢失的信息尽可能少;在模型学习的过程中受量化损失的约束,哈希层的每一位数值逐渐趋近于0或1;
步骤4):设定分类损失函数,学习不同行人的区别特征信息,得到行人类别;执行如下操作:
41)在哈希层的后边增加一层softmax层,用于行人之间的分类,区分不同行人之间的特征,该层的维度为数据集的行人类别数y(i);
42)采用Softmax分类器,将每个输入向量,通过训练,估算得到属于每一个类别j的概率,对行人进行分类;
43)在训练过程中,使得损失函数最小化;
将m个有标签的样本作为数据集,即{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))},其中x(i)∈Rn+1为n+1维特征向量,取值为y,代表类别标签,y(i)∈{1,2,…,k},i为数据集中行人图像数量,k为数据集中行人类别数;
Softmax分类器对每个输入向量,估算属于每一个类别j的概率;设其概率函数为式4:
在式4中,hθ(x(i))为计算x(i)在各类别下的概率;p为计算概率函数;θ1,θ2,…,θk∈Rn+1;
其损失函数为式5所示,在训练过程中,要使得损失函数Lossc(θ)最小化:
式5中,Lossc(θ)为Softmax分类损失值;m为数据集的样本个数;
步骤5):网络损失值最小化;
网络损失值包括量化损失值和分类损失值,建立损失函数loss度量式;通过训练使得步骤3)中的量化损失值和步骤4)中的分类损失值最小化;
步骤6):训练网络CFNPHL,得到训练数据集和测试数据集的哈希码,作为图像检索的行人哈希码库;
再将待检索的行人图像,输入到训练好的网络中,进行网络的前向计算,取出其哈希层的输出结果,由此得到待检索行人的哈希码;
步骤7):通过计算距离进行行人检索;
首先利用汉明距离相似性度量计算待检索行人图像的哈希码与行人图像哈希码库之间的距离;
若汉明距离为d时的图像有n张,再对该n张图像与待检索图像进行欧式距离度量;欧式距离计算采用二范数的平方形式,表示如式9:
按照计算的汉明距离进行排序;若多张图片汉明距离相同,则对汉明距离相同的图像进行欧式距离的排序,由此实现对行人图像的哈希检索。
2.如权利要求1所述基于深度学习网络中度量损失的行人哈希检索方法,其特征是,步骤1)采用卷积神经网络模型实现行人特征的提取,具体地,卷积层conv1的卷积核大小为3×3,卷积核数量为32个;其后连接卷积层conv2,卷积核大小为5×5,卷积核数量为32个;其后为池化层pool1,pool层的核大小为2×2,采用最大值池化策略,步长为2;然后连接卷积层conv3,该层卷积核的大小为3×3,卷积核的数量为64个;再连接卷积层conv4,卷积核大小为3×3,卷积核数量为64个;其后连接池化层pool2,该层核大小为2×2,采用最大值池化策略,步长为2;各卷积层不进行边缘填充。
3.如权利要求1所述基于深度学习网络中度量损失的行人哈希检索方法,其特征是,步骤21)中,Sigmoid函数的表达如式1:
式1中,x是哈希层与FC5层直接相连得到的数值,f(x)是Sigmoid函数的结果;
步骤22)中,具体通过式2的映射,使得每一位的数值为0或1:
式2中,T为阈值,经过阈值处理后,得到二值的哈希码H(x)。
4.如权利要求3所述基于深度学习网络中度量损失的行人哈希检索方法,其特征是,步骤3)设量化损失的函数为式3:
其中,x是哈希层的数值;H(x)为二值的哈希码;Lossq定义为度量损失。
5.如权利要求4所述基于深度学习网络中度量损失的行人哈希检索方法,其特征是,步骤5建立损失函数loss度量式,表示为式6:
loss=Lossc+Lossq (式6)
其中,Lossc为分类损失;Lossq为度量损失。
6.如权利要求1所述基于深度学习网络中度量损失的行人哈希检索方法,其特征是,FC5层的维度为4096。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811065988.4A CN109241317B (zh) | 2018-09-13 | 2018-09-13 | 基于深度学习网络中度量损失的行人哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811065988.4A CN109241317B (zh) | 2018-09-13 | 2018-09-13 | 基于深度学习网络中度量损失的行人哈希检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241317A true CN109241317A (zh) | 2019-01-18 |
CN109241317B CN109241317B (zh) | 2022-01-11 |
Family
ID=65057977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811065988.4A Active CN109241317B (zh) | 2018-09-13 | 2018-09-13 | 基于深度学习网络中度量损失的行人哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241317B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815908A (zh) * | 2019-01-25 | 2019-05-28 | 同济大学 | 一种基于深度学习和重叠图像块间度量的行人再辨识方法 |
CN109948585A (zh) * | 2019-03-29 | 2019-06-28 | 湖北工业大学 | 一种基于高精度哈希图像检索技术的行人检测方法及系统 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN109993116A (zh) * | 2019-03-29 | 2019-07-09 | 上海工程技术大学 | 一种基于人体骨骼相互学习的行人再识别方法 |
CN110046579A (zh) * | 2019-04-18 | 2019-07-23 | 重庆大学 | 一种深度哈希的行人再识别方法 |
CN110083734A (zh) * | 2019-04-15 | 2019-08-02 | 中南大学 | 基于自编码网络和鲁棒核哈希的半监督图像检索方法 |
CN110717068A (zh) * | 2019-08-27 | 2020-01-21 | 中山大学 | 一种基于深度学习的视频检索方法 |
CN110852152A (zh) * | 2019-09-27 | 2020-02-28 | 中山大学 | 一种基于数据增强的深度哈希行人重识别方法 |
CN111209886A (zh) * | 2020-01-14 | 2020-05-29 | 中国人民解放军陆军工程大学 | 一种基于深度神经网络的快速行人再识别方法 |
CN111241327A (zh) * | 2020-01-17 | 2020-06-05 | 北京航空航天大学 | 一种基于深度哈希的病理全切片检索算法 |
CN112948611A (zh) * | 2021-03-01 | 2021-06-11 | 北京航空航天大学 | 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法 |
CN113326393A (zh) * | 2021-05-31 | 2021-08-31 | 西安理工大学 | 一种基于深度哈希特征和异构并行处理的图像检索方法 |
CN113343014A (zh) * | 2021-05-25 | 2021-09-03 | 武汉理工大学 | 基于深度异构相关学习的跨模态图像音频检索方法 |
CN113704522A (zh) * | 2021-10-28 | 2021-11-26 | 山东建筑大学 | 基于人工智能的目标图像快速检索方法及系统 |
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
CN111563184B (zh) * | 2020-03-25 | 2023-04-18 | 中山大学 | 一种基于深度学习的视频哈希检索表征转换方法 |
CN116050508A (zh) * | 2021-10-28 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 神经网络训练方法以及装置 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077590A (zh) * | 2014-06-30 | 2014-10-01 | 安科智慧城市技术(中国)有限公司 | 一种视频指纹提取方法及系统 |
CN104657350A (zh) * | 2015-03-04 | 2015-05-27 | 中国科学院自动化研究所 | 融合隐式语义特征的短文本哈希学习方法 |
US20150169644A1 (en) * | 2013-01-03 | 2015-06-18 | Google Inc. | Shape-Gain Sketches for Fast Image Similarity Search |
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105512289A (zh) * | 2015-12-07 | 2016-04-20 | 郑州金惠计算机系统工程有限公司 | 基于深度学习和哈希的图像检索方法 |
CN105512273A (zh) * | 2015-12-03 | 2016-04-20 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN106407352A (zh) * | 2016-09-06 | 2017-02-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于深度学习的交通图像检索方法 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN107016708A (zh) * | 2017-03-24 | 2017-08-04 | 杭州电子科技大学 | 一种基于深度学习的图像哈希编码方法 |
CN107220368A (zh) * | 2017-06-09 | 2017-09-29 | 北京邮电大学 | 图像检索方法及装置 |
CN107330074A (zh) * | 2017-06-30 | 2017-11-07 | 中国科学院计算技术研究所 | 基于深度学习和哈希编码的图像检索方法 |
CN107423376A (zh) * | 2017-07-10 | 2017-12-01 | 上海交通大学 | 一种有监督深度哈希快速图片检索方法及系统 |
CN107480261A (zh) * | 2017-08-16 | 2017-12-15 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
US20180069854A1 (en) * | 2016-09-07 | 2018-03-08 | Bank Of America Corporation | Encrypted Biometric Authentication |
CN108427738A (zh) * | 2018-03-01 | 2018-08-21 | 中山大学 | 一种基于深度学习的快速图像检索方法 |
CN108510559A (zh) * | 2017-07-19 | 2018-09-07 | 哈尔滨工业大学深圳研究生院 | 一种基于有监督多视角离散化的多媒体二值编码方法 |
-
2018
- 2018-09-13 CN CN201811065988.4A patent/CN109241317B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150169644A1 (en) * | 2013-01-03 | 2015-06-18 | Google Inc. | Shape-Gain Sketches for Fast Image Similarity Search |
CN104077590A (zh) * | 2014-06-30 | 2014-10-01 | 安科智慧城市技术(中国)有限公司 | 一种视频指纹提取方法及系统 |
CN104657350A (zh) * | 2015-03-04 | 2015-05-27 | 中国科学院自动化研究所 | 融合隐式语义特征的短文本哈希学习方法 |
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105512273A (zh) * | 2015-12-03 | 2016-04-20 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN105512289A (zh) * | 2015-12-07 | 2016-04-20 | 郑州金惠计算机系统工程有限公司 | 基于深度学习和哈希的图像检索方法 |
CN106407352A (zh) * | 2016-09-06 | 2017-02-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于深度学习的交通图像检索方法 |
US20180069854A1 (en) * | 2016-09-07 | 2018-03-08 | Bank Of America Corporation | Encrypted Biometric Authentication |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN107016708A (zh) * | 2017-03-24 | 2017-08-04 | 杭州电子科技大学 | 一种基于深度学习的图像哈希编码方法 |
CN107220368A (zh) * | 2017-06-09 | 2017-09-29 | 北京邮电大学 | 图像检索方法及装置 |
CN107330074A (zh) * | 2017-06-30 | 2017-11-07 | 中国科学院计算技术研究所 | 基于深度学习和哈希编码的图像检索方法 |
CN107423376A (zh) * | 2017-07-10 | 2017-12-01 | 上海交通大学 | 一种有监督深度哈希快速图片检索方法及系统 |
CN108510559A (zh) * | 2017-07-19 | 2018-09-07 | 哈尔滨工业大学深圳研究生院 | 一种基于有监督多视角离散化的多媒体二值编码方法 |
CN107480261A (zh) * | 2017-08-16 | 2017-12-15 | 上海荷福人工智能科技(集团)有限公司 | 一种基于深度学习细粒度人脸图像快速检索方法 |
CN108427738A (zh) * | 2018-03-01 | 2018-08-21 | 中山大学 | 一种基于深度学习的快速图像检索方法 |
Non-Patent Citations (2)
Title |
---|
章东平等: "深度哈希算法行人再识别技术研究", 《中国计量大学学报》 * |
陈秀新等: "基于Tri_training的多特征融合图像检索", 《计算机应用研究》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815908A (zh) * | 2019-01-25 | 2019-05-28 | 同济大学 | 一种基于深度学习和重叠图像块间度量的行人再辨识方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN109948585A (zh) * | 2019-03-29 | 2019-06-28 | 湖北工业大学 | 一种基于高精度哈希图像检索技术的行人检测方法及系统 |
CN109993116A (zh) * | 2019-03-29 | 2019-07-09 | 上海工程技术大学 | 一种基于人体骨骼相互学习的行人再识别方法 |
CN110083734A (zh) * | 2019-04-15 | 2019-08-02 | 中南大学 | 基于自编码网络和鲁棒核哈希的半监督图像检索方法 |
CN110083734B (zh) * | 2019-04-15 | 2024-05-03 | 中南大学 | 基于自编码网络和鲁棒核哈希的半监督图像检索方法 |
CN110046579B (zh) * | 2019-04-18 | 2023-04-07 | 重庆大学 | 一种深度哈希的行人再识别方法 |
CN110046579A (zh) * | 2019-04-18 | 2019-07-23 | 重庆大学 | 一种深度哈希的行人再识别方法 |
CN110717068B (zh) * | 2019-08-27 | 2023-04-18 | 中山大学 | 一种基于深度学习的视频检索方法 |
CN110717068A (zh) * | 2019-08-27 | 2020-01-21 | 中山大学 | 一种基于深度学习的视频检索方法 |
CN110852152B (zh) * | 2019-09-27 | 2024-04-09 | 中山大学 | 一种基于数据增强的深度哈希行人重识别方法 |
CN110852152A (zh) * | 2019-09-27 | 2020-02-28 | 中山大学 | 一种基于数据增强的深度哈希行人重识别方法 |
CN111209886A (zh) * | 2020-01-14 | 2020-05-29 | 中国人民解放军陆军工程大学 | 一种基于深度神经网络的快速行人再识别方法 |
CN111209886B (zh) * | 2020-01-14 | 2023-10-31 | 中国人民解放军陆军工程大学 | 一种基于深度神经网络的快速行人再识别方法 |
CN111241327A (zh) * | 2020-01-17 | 2020-06-05 | 北京航空航天大学 | 一种基于深度哈希的病理全切片检索算法 |
CN111241327B (zh) * | 2020-01-17 | 2022-05-13 | 北京航空航天大学 | 一种基于深度哈希的病理全切片检索方法 |
CN111563184B (zh) * | 2020-03-25 | 2023-04-18 | 中山大学 | 一种基于深度学习的视频哈希检索表征转换方法 |
CN112948611B (zh) * | 2021-03-01 | 2023-06-23 | 北京航空航天大学 | 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法 |
CN112948611A (zh) * | 2021-03-01 | 2021-06-11 | 北京航空航天大学 | 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法 |
CN113343014A (zh) * | 2021-05-25 | 2021-09-03 | 武汉理工大学 | 基于深度异构相关学习的跨模态图像音频检索方法 |
CN113326393A (zh) * | 2021-05-31 | 2021-08-31 | 西安理工大学 | 一种基于深度哈希特征和异构并行处理的图像检索方法 |
CN113704522B (zh) * | 2021-10-28 | 2022-02-18 | 山东建筑大学 | 基于人工智能的目标图像快速检索方法及系统 |
CN116050508A (zh) * | 2021-10-28 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 神经网络训练方法以及装置 |
CN113704522A (zh) * | 2021-10-28 | 2021-11-26 | 山东建筑大学 | 基于人工智能的目标图像快速检索方法及系统 |
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
CN115131570B (zh) * | 2022-05-27 | 2023-08-22 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109241317B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241317A (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
CN111553193B (zh) | 一种基于轻量级深层神经网络的视觉slam闭环检测方法 | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
Zhang et al. | Detection of co-salient objects by looking deep and wide | |
CN107330396B (zh) | 一种基于多属性和多策略融合学习的行人再识别方法 | |
Tahir et al. | An open-ended continual learning for food recognition using class incremental extreme learning machines | |
US20220222918A1 (en) | Image retrieval method and apparatus, storage medium, and device | |
CN112613552B (zh) | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 | |
CN110059206A (zh) | 一种基于深度表征学习的大规模哈希图像检索方法 | |
CN109711422A (zh) | 图像数据处理、模型的建立方法、装置、计算机设备和存储介质 | |
CN114494195B (zh) | 用于眼底图像分类的小样本注意力机制并行孪生方法 | |
CN113705597A (zh) | 一种图像处理方法、装置、计算机设备以及可读存储介质 | |
CN106991373A (zh) | 一种基于深度学习和图论的拷贝视频检测方法 | |
CN111985581A (zh) | 一种基于样本级注意力网络的少样本学习方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN111353411A (zh) | 一种基于联合损失函数的遮挡人脸的识别方法 | |
CN108733801A (zh) | 一种面向数字人文的移动视觉检索方法 | |
CN116052218B (zh) | 一种行人重识别方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN107704509A (zh) | 一种联合稳定区域与深度学习的重排序方法 | |
Li et al. | Facial age estimation by deep residual decision making | |
CN110472088B (zh) | 一种基于草图的图像检索方法 | |
CN114741549A (zh) | 基于lire的图像查重方法、装置、计算机设备和存储介质 | |
CN111401519B (zh) | 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |