CN110796057A - 行人重识别方法、装置及计算机设备 - Google Patents
行人重识别方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN110796057A CN110796057A CN201911007704.0A CN201911007704A CN110796057A CN 110796057 A CN110796057 A CN 110796057A CN 201911007704 A CN201911007704 A CN 201911007704A CN 110796057 A CN110796057 A CN 110796057A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- training
- training data
- data set
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种行人重识别方法、装置和计算机设备,所述行人重识别方法基于残差网络和生成对抗网络,包括以下:通过生成对抗网络把行人重识别训练集中每一个摄像头下的每一张行人图片都转换为其它摄像头风格的图片,从而增大了训练集的数据规模;将扩充后的数据集经过残差网络提取图像的深度特征,利用三元组损失作为损失函数训练模型;通过计算图像深度特征之间的欧式距离得到图片间的相似度,从而得到候选图像列表。本发明提供的兴仁县重识别方法利用生成对抗网络产生更多更加丰富的数据样本,能够更好解决因为训练数据量不足和背景噪声带来的检索精度损失,提升了跨域场景下行人重识别模型的泛化能力。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及行人重识别方法、装置及计算机设备。
背景技术
随着人们对公共安全问题的重视以及监控摄像头数量和覆盖程度的快速增加,监控设备智能化数据处理日益成为学术界和工业界研究的热点技术之一。这其中,行人重识别技术因对于人物检索、嫌疑人搜寻等多种应用起着至关重要的作用,具有广泛的应用场景和重要的研究意义,也因此在学术界和工业界都得到了高度重视和深入研究。
得益于深度学习算法的快速发展和大规模行人重识别数据集的出现,行人重识别技术在一些标准公开数据集上的测试准确率已经得到了显著提高。然而,由于不同摄像头的架设角度、背景环境,它物遮挡、光线条件、分辨率、行人姿态动作等因素影响,在具体实现该技术时面临着诸多挑战。现有技术中,行人重识别方法利用预训练好的卷积神经网络模型(如ResNet、VGG)提取输入图像特征,之后接一个全连接层和softmax分类器,把每一个行人ID视为一类,通过优化分类损失函数来训练这个模型。这些方法的基本思想是把重识别问题转换为分类问题,该方法在训练分类模型时不仅对数据的质量和数量要求都比较高,而且提取输入图像特征的方法仍然是人为设计或加入先验知识,不仅识别准确率低,而且模型泛化能力比较弱。
可见,大多数行人重识别模型普遍面临同样一个问题:如果训练模型的训练集和评估模型的测试集来自不同的域时,模型表现会有明显下降,这意味着把在一个场景下训练得到的模型迁移到另一个新的场景中进行测试时往往难以得到令人满意的效果。
因此,如何提高行人重识别系统在跨域场景下的识别准确率日益成为本领域技术人员亟待解决的技术问题。
需要说明的是,公开于该发明背景技术部分的信息仅仅旨在加深对本发明一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明的目的在于提高现有技术中行人重识别系统跨域场景下的识别准确率低及泛化能力差的技术问题,提出一种行人重识别方法、装置及计算机设备。
为实现上述一种行人重识别方法目的,本发明通过以下技术方案予以实现:一种行人重识别方法,包括如下步骤:
S100:利用生成对抗网络,对原始训练数据集中的原始样本图片进行风格转换,扩增所述原始训练数据集,得到扩增后的训练数据集;
S200:初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,基于三元组损失优化所述残差网络的参数,得到行人重识别模型;
S300:利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表;
其中,所述风格转换包括,将原始样本图片转换为若干个目标域摄像装置风格下的目标域样本图片,所述目标域摄像装置均为所述原始训练数据集使用的摄像装置的个数。
可选地,在对原始训练数据集中的原始样本图片进行风格转换之前,先对每一张所述原始样本图片预处理,所述预处理包括以下步骤,
将所述原始样本图片进行图像归一化得到大小统一的图片;
将所述原始样本图片的所属摄像装置序号作为其源域标签;
给所述原始样本图片随机生成一个目标域标签,其中,所述目标域标签为所述原始样本图片被转换为目标域摄像装置的序号。
可选地,在对每一张所述原始样本图片预处理之后,还包括训练所述生成对抗网络,然后再对原始训练数据集中的原始样本图片进行风格转换,其中,训练所述生成对抗网络的步骤如下,
初始化生成单元G、生成单元F、判别单元DX和判别单元DY的权值;
使用对抗损失函数,分别训练所述判别单元DX和所述判别单元DY的权值;
根据对抗损失函数和一致性稳定损失函数,分别训练所述生成单元G和所述生成单元F的权值,其中,所述一致性稳定损失函数的公式为:
其中,G,F表示生成单元操作。
可选地,所述风格转换的步骤如下,
将所述原始训练数据集中的每一张原始样本图片,分别经过所述生成对抗网络训练得到的所述生成单元G,产生各自所述目标域摄像装置风格下的目标域样本图片;
重复上述操作,直至将每一张所述原始样本图片都转换为其它N-1个目标域摄像装置风格下的目标域样本图片,得到所述扩增后的训练数据集;
其中,N为所述原始训练数据集的摄像装置的个数。
可选地,步骤S200中所述初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,基于三元组损失优化所述残差网络的参数,得到行人重识别模型,包括以下步骤,
S210:将所述扩增后的训练数据集中的训练样本图片随机划分为若干个训练数据子集,每一个训练数据子集均包含M个行人ID的所述训练样本图片;
S220:利用ImageNet数据集作为训练数据,训练一个ResNet-50参差网络作为所述行人重识别模型的初始权值,去掉所述ResNet-50残差网络最后的第一维数全连接层,在最后一个均值池化层之后连接一个第二维数全连接层和一个第三维数全连接层,得到初始化的ResNet-50残差网络;
S230:将其中一个所述训练数据子集中的所述训练样本图片输入到所述初始化的ResNet-50残差网络,经过所述初始化的ResNet-50残差网络的前向推理得到一维特征向量;
S240:基于难样本挖掘,构建三元组;
S250:计算所述三元组损失;
S260:根据所述三元组损失,反向传播优化所述ResNet-50残差网络的参数。
可选地,所述基于难样本挖掘,构建三元组,包括以下步骤,
在一个所述训练数据子集中随机选取一张训练样本图片作为三元组中的固定图片;
计算所述固定图片与所述训练数据子集中其他图片特征向量之间的欧式距离;
在所述固定图片所属行人ID的所有图片中,将与所述固定图片距离最大的训练样本图片作为三元组中的正样本图片;
在其他行人ID的样本图片中,挑选与所述固定图片距离最小的训练样本图片作为三元组中的负样本图片。
可选地,所述计算所述三元组损失,包括,根据所述固定图片、所述正样本图片和所述负样本图片的特征向量计算所述三元组损失,损失函数的计算公式为:
其中,其中X表示一个batch的数据,xa,xp,xn分别表示所述固定图片,所述正样本图片和所述负样本图片,D表示图片特征向量间的欧式距离,m为一个阈值,+号表示对中括号里面的值取正。
可选地,步骤S300中,所述利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表,包括,
将所述待识别测试集输入到所述行人重识别模型进行前向推理,把所述行人重识别模型的最后一个池化层的输出转换为一维特征向量,得到所述特征向量;
计算每一个行人图像的特征向量间的欧式距离,得到所述行人图像间的相似度,从而得到每一个所述行人图像的候选行人图像列表;
对所述候选行人图像列表按照相似度的大小重新排序,获取行人重识别结果。
本发明通过以下技术方案,实现提供一种行人重识别装置的目的,一种行人重识别装置,所述行人重识别装置用于执行上述任一项所述的行人重识别方法,所述行人重识别装置包括,
数据扩增单元,用于利用生成对抗网络对原始训练数据集中的原始样本图片进行风格转换,扩增所述原始训练数据集,从而得到扩增后的训练数据集;
模型构建单元,用于初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,还用于基于三元组损失优化所述残差网络的参数,从而得到行人重识别模型;
行人识别单元,用于利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,还用于计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表。
本发明通过以下技术方案,实现提供一种计算机设备的目的,一种计算机设备,所述计算机设备包括处理器以及存储设备,所述处理器适于实现各指令,所述存储设备适于存储多条指令,所述指令适于由处理器加载并执行时实现如上述任一项所述的行人重识别方法。
与现有技术相比,本发明提供的一种行人重识别方法,具有以下优点和有益效果:
通过生成对抗网络把行人重识别训练集中每一个摄像装置下的每一张行人图片都转换为其它摄像装置风格的图片,从而增大了训练集的数据规模;
将扩充后的数据集经过残差网络提取图像的深度特征,利用三元组损失作为损失函数训练模型;通过计算图像深度特征之间的欧式距离得到图片间的相似度,从而得到候选图像列表,提高了行人重识别的准确率;
本发明能够更好解决因为训练数据量不足和背景噪声带来的检索精度损失,提升了跨域场景下行人重识别模型的泛化能力。
本发明提供的一种行人重识别装置和计算机设备,与所述行人重识别模型具有同一发明构思,也具有与所述行人重识别方法相同的有益效果。
附图说明
图1为本发明其中一个实施例中行人重识别方法的步骤流程图;
图2为本发明其中一个实施例中扩增原始训练数据集的步骤流程图;
图3为本发明其中一个实施例中初始化和训练参差网络的步骤流程图;
图4为本发明其中一个实施例行人重识别装置的结构示意图;
其中,附图标记说明如下:
100-数据扩增单元,200-模型构建单元,300-行人识别单元。
具体实施方式
为使本发明的目的、优点和特征更加清楚,以下结合附图对本发明提出的发明名称作进一步详细说明。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。应当了解,说明书附图并不一定按比例地显示本发明的具体结构,并且在说明书附图中用于说明本发明某些原理的图示性特征也会采取略微简化的画法。本文所公开的本发明的具体设计特征包括例如具体尺寸、方向、位置和外形将部分地由具体所要应用和使用的环境来确定。以及,在以下说明的实施方式中,有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分,而省略其重复说明。在本说明书中,使用相似的标号和字母表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明的其中一个实施例,提供了一种行人重识别方法,如附图1所示,包括以下步骤,
S100:利用生成对抗网络,对原始训练数据集中的原始样本图片进行风格转换,扩增所述原始训练数据集,得到扩增后的训练数据集。该步骤用于扩增训练数据集的规模。
S200:初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,基于三元组损失优化所述残差网络的参数,得到行人重识别模型。
S300:利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表。
其中,步骤S100中的所述风格转换包括,将原始样本图片转换为若干个目标域摄像装置风格下的目标域样本图片,所述目标域摄像装置均为所述原始训练数据集使用的摄像装置的个数。
较佳地,如附图2所示,在步骤S100中,在对原始训练数据集中的原始样本图片进行风格转换之前,还包括步骤S110,对原始训练数据集中的所述原始样本图片预处理,所述预处理包括以下步骤,
S111:将所述原始样本图片进行图像归一化得到大小统一的图片。在本发明的其中一个实施方式中,将所述原始样本图片统一归一化为224×224的大小。
S112:将所述原始样本图片的所属摄像装置序号作为其源域标签。其中,所属摄像装置为采集该原始样本图片时使用的摄像装置,所述源域标签为所属摄像装置的序号,即获取该原始样本图片的摄像装置的序号。在其中一种实施方式中,所述摄像装置为摄像头。显然地,本发明对所述摄像装置并无任何限制。
S113:给所述原始样本图片随机生成一个目标域标签,其中,所述目标域标签为所述原始样本图片被转换为目标域摄像装置的序号,特别地,所述目标摄像装置与所属摄像装置不是同一个摄像装置。
进一步地,继续参见附图2,可以看出步骤S100还包括,在步骤S110对每一张所述原始样本图片预处理之后,还包括步骤S120训练所述生成对抗网络,然后再对原始训练数据集中的原始样本图片进行风格转换,其中,所述训练所述生成对抗网络的步骤如下,
S121:初始化生成单元G、生成单元F、判别单元DX和判别单元DY的权值;
S122:使用对抗损失函数,分别训练所述判别单元DX和所述判别单元DY的权值。其中,在其中一种实施方式中,以DY为例,所述对抗损失函数的公式为:
其中E代表求期望操作,pdata()代表对应数据的概率分布,G代表生成单元操作,D代表判别单元操作。
S123:根据对抗损失函数和一致性稳定损失函数,分别训练所述生成单元G和所述生成单元F的权值,其中,所述一致性稳定损失函数的公式为:
其中,G,F表示生成单元操作。
继续参见附图2,步骤S130利用所述生成对抗网络,对所述原始样本图片进行风格转换,其中,所述风格转换的步骤如下:
将所述原始训练数据集中的每一张原始样本图片,分别经过所述生成单元G,产生各自所述目标域摄像装置风格下的目标域样本图片,其中,所述单元G是由生成对抗网络训练得到的。
重复上述操作,直至将每一张所述原始样本图片都转换为其它N-1个目标域摄像装置风格下的目标域样本图片,得到所述扩增后的训练数据集;
其中,N为所述原始训练数据集的摄像装置的个数。
亦即对所述原始训练数据集中的每一张原始样本图片s(x),都经过在步骤S120中训练得到的生成单元G,产生另一个摄像头风格下的目标域样本图片t(x),然后所述原始样本图片s(x)转换为其余摄像头风格的目标域样本图片,扩增后的训练数据集规模扩大为原始训练数据集的N倍,该方法能够在保留行人前景的前提下转换其背景风格。
具体地,所述原始训练数据集的数据可以在不同的域场景、不同季节、不同光照及不同域场景下的摄像装置采集。且不限制每个域场景下摄像装置的个数。所述域场景包括但不限于大学校园、闹市接头、红绿灯交叉路口、田间野外、办公场所、游乐场及居民社区等。也不限制行人的个数,也不限制摄像装置的分辨率,更不限制摄像装置的型号。同一行人的所述原始样本图片可能来自相同的摄像装置视角,也可能来自不同的摄像装置视觉。但是对于来自同一摄像装置视觉的同一行人的所属摄像装置不会作为其目标域标签。假如有3个行人P1、P2和P3以及8个摄像装置C1、C2、C3、C4、C5、C6、C7和C8,现有P1、P2和P3分别在摄像装置5下的不同摄像视角的3张原始样本图片P1C5、P2C5和P3C5,通过上述风格转换之后,由P1C5扩增得到目标域样本图片P1C1、P1C2、P1C3、P1C4、P1C6、P1C7和P1C8,再加上原始样本图片P1C5,行人P1有原始一张在摄像装置5下的P1C5原始样本图片,得到在其他7个摄像装置风格的样本图片。同样地,由原始样本图片P2C5扩增得到目标域样本图片P2C1、P2C2、P2C3、P2C4、P2C6、P2C7和P2C8。由原始样本图片P3C5扩增得到目标域样本图片P3C1、P3C2、P3C3、P3C4、P3C6、P3C7和P3C8,由此,从原来的3张原始样本图片得到24张训练样本图像。
进一步地,步骤S200中,所述初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,基于三元组损失优化所述残差网络的参数,得到行人重识别模型。在其中一种实施方式中,所述残差网络选用ResNet-50残差网络,如附图3所示,包括以下步骤,
S210:输入数据预处理,具体地,将所述扩增后的训练数据集中的训练样本图片随机划分为若干个batch(训练数据子集),每一个batch均包含M个行人ID的所述训练样本图片。其中,所述训练样本图片为初始样本图片和目标域样本图片的合集,在本实施例中,所述M为32,所述M个行人ID表示32个不同的行人。较佳地,在本发明的其他实施方式中,在将所述扩增后的训练数据集中的训练样本图片随机划分为若干个batch之前,还包括对所述训练样本图片进行归一化得到大小统一的图片,比如,将所述训练样本图片的大小统一为224×224。
S220:初始化残差网络。具体地,利用ImageNet数据集作为训练数据,训练一个ResNet-50参差网络作为所述行人重识别模型的初始权值,去掉所述ResNet-50残差网络最后的第一维数全连接层,在最后一个均值池化层之后连接一个第二维数全连接层和一个第三维数全连接层,得到初始化的ResNet-50残差网络。在其中一个实施方式中,所述第一维数为1000,第二维数为1024,第三个维数为128。即训练一个ResNet-50参差网络作为所述行人重识别模型的初始权值,去掉所述ResNet-50残差网络最后的1000维全连接层,在最后一个均值池化层之后连接一个1024维全连接层和一个128维全连接层,得到初始化的ResNet-50残差网络。
S230:残差网络前向推理得到特征向量。具体地,将所述扩增后的训练数据集输入到所述初始化的ResNet-50残差网络,。经过所述初始化的ResNet-50残差网络前向推理得到一维特征向量。在其中一个实施方式中,把一个batch的所述训练样本图片输入到所述初始化的ResNet-50残差网络中,经过所述初始化的ResNet-50残差网络的前向推理,用最后第三维数全连接层的输出,作为图像的特征向量。同样地,在本实施例中,所第三维数的值为128。
S240:基于难样本挖掘,构建三元组。具体地,包括以下步骤如下:
S241:在一个batch中随机选取一张训练样本图片作为三元组中的固定图片;
S242:计算所述固定图片与这个batch中其他图片特征向量之间的欧式距离;
S243:在所述固定图片所属行人ID的所有训练样本图片中,将与所述固定图片距离最大的训练样本图片作为三元组中的正样本图片;
在其他行人ID的样本图片中,挑选与所述固定图片距离最小的训练样本图片作为三元组中的负样本图片。
S250:计算三元组损失。具体地,根据所述固定图片、所述正样本图片和所述负样本图片的特征向量计算所述三元组损失。在其中一种实施方式中,损失函数的计算公式如下:
其中,其中X表示一个batch的数据,xa,xp,xn分别表示所述固定图片,所述正样本图片和所述负样本图片,D表示图片特征向量间的欧式距离,m为一个阈值,+号表示对中括号里面的值取正。
S260:反向传播优化所述残差网络的参数。具体地,根据所述三元组损失,反向传播优化所述ResNet-50残差网络的参数。在其中一个实施方式中,具体地,根据三元组损失用Adam优化算法更新残差网络的权值参数,在第150次迭代后进行学习率衰减,衰减率为0.1,总的迭代次数是300次。显而易见地,上述迭代次数、总的迭代次数仅是其中一个具体实施方式的描述,并非本发明的限制。在其他的实施方式中,本领域的技术人员,可以也能够根据本发明揭示的内容结合实际工况合理设置。
本发明提供的其他实施方式,在步骤S300中,所述利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表,包括以下步骤,
S310:输入待识别测试集,得到候选行人图像列表。具体地,步骤S310包括步骤S311和步骤S312两个子步骤,具体如下。
S311:将所述待识别测试集输入到所述行人重识别模型进行前向推理,把所述行人重识别模型的最后一个池化层的输出转换为一维特征向量,得到所述特征向量;
S312:计算每一个行人图像的特征向量间的欧式距离,得到所述行人图像间的相似度,从而得到每一个所述行人图像的候选行人图像列表。
S320:对所述候选行人图像列表按照相似度的大小重新排序,获取行人重识别结果。
在本发明的再一实施例中,提供了一种行人重识别装置,如附图4所示,所述行人重识别装置,包括数据扩增单元100,模型构建单元200和行人识别单元300。分别说明如下:
数据扩增单元100,用于利用生成对抗网络对原始训练数据集中的原始样本图片进行风格转换,扩增所述原始训练数据集,从而得到扩增后的训练数据集。
模型构建单元200,用于初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,还用于基于三元组损失优化所述残差网络的参数,从而得到行人重识别模型;
行人识别单元300,用于利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,还用于计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表。
表一基于本实施例在跨域场景下测试模型检索准确率的结果,是识别准确率及性能对比表。具体地,以Market-1501和DukeMTMC-reID作为实验的行人重识别数据集,可以看到本实施例精度在不同跨域场景下都有了性能提升。其中,Market-1501是目前常用的行人重识别数据集;DukeMTMC数据集是一个大规模标记的多目标多摄像机行人跟踪数据集,DukeMTMC-reID是DukeMTMC数据集的行人重识别子集。
表一:识别准确率及性能对比表
本发明的又一实施例,提供了一种计算机设备,所述计算机设备包括处理器以及存储设备,所述处理器适于实现各指令,所述存储设备适于存储多条指令,所述指令适于由处理器加载并执行时实现如上述任一项所述的行人重识别方法。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下,前者是更佳的实施方式。基于这样的理解,本发明的技术方案对现有技术做出贡献的部分能以软件产品的形式体现出来。该计算机软件产品存储在计算机可读存储介质上,包括若干指令用以使得一台设备执行本发明各个实施例所述的方法,所述设备包括但不限于电脑。
本发明提供的一种行人重识别方法、装置及计算机设备,基于残差网络和生成对抗网络,主要解决目前跨域场景下行人重识别模型检索准确率低的问题。该方法通过生成对抗网络把行人重识别训练集中每一个摄像头下的每一张行人图片都转换为其它摄像头风格的图片,从而增大了训练集的数据规模;将扩充后的数据集经过残差网络提取图像的深度特征,利用三元组损失作为损失函数训练模型;通过通过计算图像深度特征之间的欧式距离得到图片间的相似度,从而得到候选图像列表。本发明能够更好解决因为训练数据量不足和背景噪声带来的检索精度损失,提升了跨域场景下行人重识别模型的泛化能力。
综上,上述实施例对行人重识别方法、装置及计算机设备的不同构型进行了详细说明,当然,上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明包括但不局限于上述实施中所列举的构型,本领域技术人员可以根据上述实施例的内容举一反三,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
Claims (10)
1.一种行人重识别方法,其特征在于,包括如下步骤:
S100:利用生成对抗网络,对原始训练数据集中的原始样本图片进行风格转换,扩增所述原始训练数据集,得到扩增后的训练数据集;
S200:初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,基于三元组损失优化所述残差网络的参数,得到行人重识别模型;
S300:利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表;
其中,所述风格转换包括,将原始样本图片转换为若干个目标域摄像装置风格下的目标域样本图片,所述目标域摄像装置均为所述原始训练数据集使用的摄像装置的个数。
2.根据权利要求1所述的行人重识别方法,其特征在于,在对原始训练数据集中的原始样本图片进行风格转换之前,先对每一张所述原始样本图片预处理,所述预处理包括以下步骤,
将所述原始样本图片进行图像归一化得到大小统一的图片;
将所述原始样本图片的所属摄像装置序号作为其源域标签;
给所述原始样本图片随机生成一个目标域标签,其中,所述目标域标签为所述原始样本图片被转换为目标域摄像装置的序号。
4.根据权利要求3所述的行人重识别方法,其特征在于,所述风格转换的步骤如下,
将所述原始训练数据集中的每一张原始样本图片,分别经过所述生成对抗网络训练得到的所述生成单元G,产生各自所述目标域摄像装置风格下的目标域样本图片;
重复上述操作,直至将每一张所述原始样本图片都转换为其它N-1个目标域摄像装置风格下的目标域样本图片,得到所述扩增后的训练数据集;
其中,N为所述原始训练数据集的摄像装置的个数。
5.根据权利要求1所述的行人重识别方法,其特征在于,步骤S200中所述初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,基于三元组损失优化所述残差网络的参数,得到行人重识别模型,包括以下步骤,
S210:将所述扩增后的训练数据集中的训练样本图片随机划分为若干个训练数据子集,每一个训练数据子集均包含M个行人ID的所述训练样本图片;
S220:利用ImageNet数据集作为训练数据,训练一个ResNet-50参差网络作为所述行人重识别模型的初始权值,去掉所述ResNet-50残差网络最后的第一维数全连接层,在最后一个均值池化层之后连接一个第二维数全连接层和一个第三维数全连接层,得到初始化的ResNet-50残差网络;
S230:将其中一个所述训练数据子集中的所述训练样本图片输入到所述初始化的ResNet-50残差网络,经过所述初始化的ResNet-50残差网络的前向推理得到一维特征向量;
S240:基于难样本挖掘,构建三元组;
S250:计算所述三元组损失;
S260:根据所述三元组损失,反向传播优化所述ResNet-50残差网络的参数。
6.根据权利要求5所述的行人重识别方法,其特征在于,所述基于难样本挖掘,构建三元组,包括以下步骤,
在一个所述训练数据子集中随机选取一张训练样本图片作为三元组中的固定图片;
计算所述固定图片与所述训练数据子集中其他图片特征向量之间的欧式距离;
在所述固定图片所属行人ID的所有图片中,将与所述固定图片距离最大的训练样本图片作为三元组中的正样本图片;
在其他行人ID的样本图片中,挑选与所述固定图片距离最小的训练样本图片作为三元组中的负样本图片。
7.根据权利要求6所述的行人重识别方法,其特征在于,所述计算所述三元组损失,包括,根据所述固定图片、所述正样本图片和所述负样本图片的特征向量计算所述三元组损失,损失函数的计算公式为:
其中,其中X表示一个batch的数据,xa,xp,xn分别表示所述固定图片,所述正样本图片和所述负样本图片,D表示图片特征向量间的欧式距离,m为一个阈值,+号表示对中括号里面的值取正。
8.根据权利要求1所述的行人重识别方法,其特征在于,步骤S300中,所述利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表,包括,
将所述待识别测试集输入到所述行人重识别模型进行前向推理,把所述行人重识别模型的最后一个池化层的输出转换为一维特征向量,得到所述特征向量;
计算每一个行人图像的特征向量间的欧式距离,得到所述行人图像间的相似度,从而得到每一个所述行人图像的候选行人图像列表;
对所述候选行人图像列表按照相似度的大小重新排序,获取行人重识别结果。
9.一种行人重识别装置,用于执行权利要求1-8任一项所述的行人重识别方法,其特征在于,所述行人重识别装置包括,
数据扩增单元,用于利用生成对抗网络对原始训练数据集中的原始样本图片进行风格转换,扩增所述原始训练数据集,从而得到扩增后的训练数据集;
模型构建单元,用于初始化残差网络,并利用所述扩增后的训练数据集训练所述残差网络,还用于基于三元组损失优化所述残差网络的参数,从而得到行人重识别模型;
行人识别单元,用于利用所述行人重识别模型,提取待识别测试集中每一张待识别行人图像的深度特征得到特征向量,还用于计算所述特征向量之间的相似度,得到每一张所述待识别行人图像的候选行人图像列表;
其中,所述风格转换包括,将原始样本图片转换为若干个目标域摄像装置风格下的目标域样本图片,所述目标域摄像装置均为所述原始训练数据集使用的摄像装置的个数。
10.一种计算机设备,其特征在于,包括处理器以及存储设备,所述处理器适于实现各指令,所述存储设备适于存储多条指令,所述指令适于由处理器加载并执行时实现如权利要求1-8任一项所述的行人重识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911007704.0A CN110796057A (zh) | 2019-10-22 | 2019-10-22 | 行人重识别方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911007704.0A CN110796057A (zh) | 2019-10-22 | 2019-10-22 | 行人重识别方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110796057A true CN110796057A (zh) | 2020-02-14 |
Family
ID=69440919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911007704.0A Pending CN110796057A (zh) | 2019-10-22 | 2019-10-22 | 行人重识别方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796057A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929706A (zh) * | 2020-02-19 | 2020-03-27 | 北京海天瑞声科技股份有限公司 | 视频抽选方法、装置及存储介质 |
CN111461061A (zh) * | 2020-04-23 | 2020-07-28 | 湖北工业大学 | 一种基于相机风格适应的行人重识别方法 |
CN111598004A (zh) * | 2020-05-18 | 2020-08-28 | 北京星闪世图科技有限公司 | 一种渐进增强自学习的无监督跨领域行人再识别方法 |
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN111985554A (zh) * | 2020-08-18 | 2020-11-24 | 创新奇智(西安)科技有限公司 | 一种模型训练方法、手镯识别方法及对应装置 |
CN112016402A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 基于无监督学习的行人重识别领域自适应方法及装置 |
CN112149740A (zh) * | 2020-09-25 | 2020-12-29 | 上海商汤智能科技有限公司 | 目标重识别方法、装置、存储介质及设备 |
CN112381056A (zh) * | 2020-12-02 | 2021-02-19 | 山西大学 | 一种融合多个源域的跨域行人重识别方法及系统 |
CN112651459A (zh) * | 2020-12-31 | 2021-04-13 | 厦门易仕特仪器有限公司 | 深度学习图像对抗样本防御方法、装置、设备及存储介质 |
CN112733701A (zh) * | 2021-01-07 | 2021-04-30 | 中国电子科技集团公司信息科学研究院 | 一种基于胶囊网络的鲁棒场景识别方法及系统 |
CN112966685A (zh) * | 2021-03-23 | 2021-06-15 | 平安国际智慧城市科技股份有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN113033410A (zh) * | 2021-03-26 | 2021-06-25 | 中山大学 | 基于自动数据增强的域泛化行人重识别方法、系统及介质 |
CN113191338A (zh) * | 2021-06-29 | 2021-07-30 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
CN113221625A (zh) * | 2021-03-02 | 2021-08-06 | 西安建筑科技大学 | 一种利用深度学习的局部特征对齐行人重识别方法 |
CN113378620A (zh) * | 2021-03-31 | 2021-09-10 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
CN113716146A (zh) * | 2021-07-23 | 2021-11-30 | 武汉纺织大学 | 基于深度学习的纸巾产品包装检测方法 |
WO2022247005A1 (zh) * | 2021-05-27 | 2022-12-01 | 平安科技(深圳)有限公司 | 图像中目标物识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
CN110210335A (zh) * | 2019-05-16 | 2019-09-06 | 上海工程技术大学 | 一种行人重识别学习模型的训练方法、系统和装置 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
-
2019
- 2019-10-22 CN CN201911007704.0A patent/CN110796057A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
CN110210335A (zh) * | 2019-05-16 | 2019-09-06 | 上海工程技术大学 | 一种行人重识别学习模型的训练方法、系统和装置 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
张安琪: "基于孪生卷积神经网络与三元组损失函数的图像识别模型" * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929706A (zh) * | 2020-02-19 | 2020-03-27 | 北京海天瑞声科技股份有限公司 | 视频抽选方法、装置及存储介质 |
CN111461061A (zh) * | 2020-04-23 | 2020-07-28 | 湖北工业大学 | 一种基于相机风格适应的行人重识别方法 |
CN111598004A (zh) * | 2020-05-18 | 2020-08-28 | 北京星闪世图科技有限公司 | 一种渐进增强自学习的无监督跨领域行人再识别方法 |
CN111598004B (zh) * | 2020-05-18 | 2023-12-08 | 江苏星闪世图科技(集团)有限公司 | 一种渐进增强自学习的无监督跨领域行人再识别方法 |
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN112016402A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 基于无监督学习的行人重识别领域自适应方法及装置 |
CN112016402B (zh) * | 2020-08-04 | 2024-05-17 | 杰创智能科技股份有限公司 | 基于无监督学习的行人重识别领域自适应方法及装置 |
CN111985554A (zh) * | 2020-08-18 | 2020-11-24 | 创新奇智(西安)科技有限公司 | 一种模型训练方法、手镯识别方法及对应装置 |
CN112149740A (zh) * | 2020-09-25 | 2020-12-29 | 上海商汤智能科技有限公司 | 目标重识别方法、装置、存储介质及设备 |
CN112381056A (zh) * | 2020-12-02 | 2021-02-19 | 山西大学 | 一种融合多个源域的跨域行人重识别方法及系统 |
CN112651459A (zh) * | 2020-12-31 | 2021-04-13 | 厦门易仕特仪器有限公司 | 深度学习图像对抗样本防御方法、装置、设备及存储介质 |
CN112733701A (zh) * | 2021-01-07 | 2021-04-30 | 中国电子科技集团公司信息科学研究院 | 一种基于胶囊网络的鲁棒场景识别方法及系统 |
CN113221625A (zh) * | 2021-03-02 | 2021-08-06 | 西安建筑科技大学 | 一种利用深度学习的局部特征对齐行人重识别方法 |
CN112966685A (zh) * | 2021-03-23 | 2021-06-15 | 平安国际智慧城市科技股份有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN112966685B (zh) * | 2021-03-23 | 2024-04-19 | 深圳赛安特技术服务有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN113033410A (zh) * | 2021-03-26 | 2021-06-25 | 中山大学 | 基于自动数据增强的域泛化行人重识别方法、系统及介质 |
CN113378620A (zh) * | 2021-03-31 | 2021-09-10 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
CN113378620B (zh) * | 2021-03-31 | 2023-04-07 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
WO2022247005A1 (zh) * | 2021-05-27 | 2022-12-01 | 平安科技(深圳)有限公司 | 图像中目标物识别方法、装置、电子设备及存储介质 |
CN113191338B (zh) * | 2021-06-29 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
US11830275B1 (en) | 2021-06-29 | 2023-11-28 | Inspur Suzhou Intelligent Technology Co., Ltd. | Person re-identification method and apparatus, device, and readable storage medium |
CN113191338A (zh) * | 2021-06-29 | 2021-07-30 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
CN113716146A (zh) * | 2021-07-23 | 2021-11-30 | 武汉纺织大学 | 基于深度学习的纸巾产品包装检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796057A (zh) | 行人重识别方法、装置及计算机设备 | |
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN111539370A (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
KR20200023221A (ko) | 딥러닝 기반의 실시간 대상 추적 방법 및 시스템 | |
Jemilda et al. | Moving object detection and tracking using genetic algorithm enabled extreme learning machine | |
Asadi-Aghbolaghi et al. | Supervised spatio-temporal kernel descriptor for human action recognition from RGB-depth videos | |
Li et al. | Real-time tracking algorithm for aerial vehicles using improved convolutional neural network and transfer learning | |
CN111291785A (zh) | 目标检测的方法、装置、设备及存储介质 | |
Yin | Object Detection Based on Deep Learning: A Brief Review | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN116075820A (zh) | 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备 | |
Thangaraj et al. | Deep Learning based Real-Time Face Detection and Gender Classification using OpenCV and Inception v3 | |
Konishi et al. | Detection of target persons using deep learning and training data generation for Tsukuba challenge | |
Proenca et al. | SHREC’15 Track: Retrieval of Oobjects captured with kinect one camera | |
CN113792660B (zh) | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 | |
Manasa et al. | Differential evolution evolved RBFNN based automated recognition of traffic sign images | |
Sun et al. | Attention-guided region proposal network for pedestrian detection | |
CN114360058A (zh) | 一种基于行走视角预测的跨视角步态识别方法 | |
Xi et al. | Real-time Pedestrian Detection Algorithm Based on Improved YOLOv3 | |
Ko et al. | View-invariant, partially occluded human detection in still images using part bases and random forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |