CN111461061A - 一种基于相机风格适应的行人重识别方法 - Google Patents
一种基于相机风格适应的行人重识别方法 Download PDFInfo
- Publication number
- CN111461061A CN111461061A CN202010325367.6A CN202010325367A CN111461061A CN 111461061 A CN111461061 A CN 111461061A CN 202010325367 A CN202010325367 A CN 202010325367A CN 111461061 A CN111461061 A CN 111461061A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- batch
- sample
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于相机风格适应的行人重识别方法。分别构建原行人图像训练集、测试集,将原行人图像训练集通过生成对抗网络得到风格转换后的行人图像训练集;风格转换后的训练集与原训练集通过批处理得到批次样本,进一步构建训练集;对批次样本中每幅图像依次进行预处理;构建待训练的残差网络,将预处理后批次样本输入至残差网络,提取图像特征向量,构建损失模型,使用梯度下降优化训练;通过训练好的残差网络预测得到感兴趣行人图像的特征向量、测试集中行人图像的特征向量,进行距离度量并在测试集中行人图像匹配与感兴趣行人图像属同一行人的图像集合。本发明减少了图像的相机风格差异,增加了训练样本,提升了特征提取的性能。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于相机风格适应的行人重识别方法。
背景技术
行人重识别通常被认为是一个图像检索的问题,是利用计算机视觉技术在图像或视频中检索特定行人的技术,即给定一个感兴趣的行人图像,在多个摄像机收集的图库中找出同一个人。行人重识别是许多监控和安防应用中的主要任务。由于人体姿态,背景,环境光照,遮挡以及摄像头的差异性等诸多因素,这给行人重识别研究带来巨大的困难,因此学习到更有效的特征成为了行人重识别的研究热点。
传统的行人重识别方法是利用手工设计图像特征,然而手工特征描述能力有限,难以适应复杂场景下的任务。近年来随着深度学习算法在行人重识别领域的应用,行人重识别的准确率得到极大的提升。与传统方法不同,深度学习可以自动较好的提取图像特征,但是深度学习往往需要大量标注好的行人图像,尽管目前已经发布了一些较大的行人重识别训练集,但是相对其他领域,训练集的大小任然远远不够。
发明内容
本发明的目的是:针对数据缺乏和提取行人特征存在信息缺失导致鲁棒性不足的问题,提出了一种基于相机风格适应的行人重识别方法。该方法改进了CamStyle的行人重识别网络,在ResNet后额外增加了一个批量归一化层。在一组摄像头收集的图像样本中,每个摄像头收集的图像样本都可以通过CamStyle网络转换成其他摄像头风格的图像。在Market1501数据集中,图像的收集是由6个不同位置的摄像头完成的,1个摄像头拍摄的图像通过CamStyle网络可以被转换为其他5个摄像头的风格,转换后的图像使用其原图像的标签,真实的图像和转换风格后的图像组合成新的训练集。
本发明所采用的技术方案是:一种基于相机风格适应的行人重识别方法,其特征在于,包括以下步骤:
步骤1:分别构建原行人图像训练集、测试集,将原行人图像训练集通过生成对抗网络的生成器得到风格转换后的行人图像训练集;
步骤2:将风格转换后的行人图像训练集与原行人图像训练集通过批处理得到批次样本,进一步构建训练集;
步骤3:将批次样本中每幅图像依次通过随机擦除、水平翻转,得到预处理后批次样本;
步骤4:构建待训练的残差网络,将预处理后批次样本输入至残差网络,提取图像特征向量,构建行人的正样本以及负样本,通过三元组损失模型、中心损失模型、身份分类损失模型构建残差网络损失模型,进一步使用梯度下降法优化训练,得到训练后残差网络;
步骤5:重复执行步骤3至步骤4,直至达到iter即最大参数迭代更新次数,则完成一代训练;
步骤6:重复执行步骤2至步骤5共epoch次,即共训练epoch代,得到训练好的残差网络。
步骤7:将感兴趣行人图像通过训练好的残差网络预测得到感兴趣行人图像的特征向量,将测试集中行人图像依次通过训练好的残差网络预测得到测试集中行人图像的特征向量,将感兴趣行人图像的特征向量与测试集中行人图像的特征向量进行距离度量,在测试集中行人图像匹配与感兴趣行人图像属同一行人的图像集合;
作为优选,步骤1所述原行人图像训练集为:
Ibefore={p1,p2,...,pA}
a∈[1,A]
其中,Ibefore为原行人图像训练集,A为训练集中行人的数量,pa为第a个行人图像训练集,pa,i为第a个行人图像训练集中第i幅图像,na为第a个行人图像训练集中图像的数量,i∈[1,na];
步骤1所述测试集为:
步骤1所述风格转换后的行人图像训练集为:
a∈[1,A]
作为优选,步骤2所述通过批处理构建训练集为:
在A个行人中随机选择P个行人,在随机选择的每个行人中在其行人图像训练集中随机选择M幅图像,在其风格转换后的行人图像训练集中随机选择N幅图像,令K=M+N,K为第i个批次样本中每个行人所有图像的数量;
P*K为第j个批次样本中图像的数量,将其定义为S,即S=P*K,并将第j个批次样本中图像训练集定义为dataj;
所述训练集为:
train={data1,data2,...,dataiter}
dataj={dataj,1,dataj,2,...,dataj,s}
j∈[1,iter]
其中,dataj为第j个批次样本,train为步骤1所述训练集,dataj,q为第j个批次样本中第q幅图像,q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为每个批次样本中图像的数量;
Hj,l={dataj,(l-1)*K+1,...,dataj,l*K},l∈[1,P]
1≤(l-1)*K+1<l*K≤S
其中,Hj,l为第j个批次样本中第l个行人所有图像,l∈[1,P],K为第j个批次样本中第l个行人所有图像的数量,且K=M+N,P为第i个批次样本中行人的数量;
作为优选,步骤3所述批次样本中每幅图像为:
dataj,q,即第j个批次样本中第q幅图像,j∈[1,iter],q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为每个批次样本中图像的数量;
步骤3所述随机擦除为:
在dataj,q上随机选择一个矩形块定义为Ie,将矩形块内的像素值随机化;
具体过程为:
所述矩形块的选择过程为:
W为dataj,q的长,H为dataj,q的宽,We为的Ie长,He为Ie的宽;
在dataj,q上随机选择一个初始点P=(xe,ye),xe∈[1,W],ye∈[1,H];
若满足约束条件:
xe+We≤W
ye+He≤H
则擦除矩形块Ie左上角坐标为(xe,ye),右下角坐标为(xe+We,ye+He);
否则继续随机选择初始点P直至满足约束条件;
矩形块选取完成后并使用随机值替代Ie范围内的像素值,随机值的范围为[0,255];
步骤3所述水平翻转为:
步骤3所述预处理后批次样本为:
预处理后批次样本中行人所有图像为:
l∈[1,P]
1≤(l-1)*K+1<l*K≤S
其中,Hj,l为第j个预处理后批次样本中第l个行人所有图像,K为第j个预处理后批次样本中第l个行人所有图像的数量,P为第j个预处理后批次样本中行人的数量,S=P*K;
作为优选,步骤4所述构建待训练的残差网络为:
所述残差网络为ResNet50残差网络;
所述ResNet50残差网络由多层卷积层、多层池化层以及全连接层构成;
将所述全连接层的输出维度设置为A,A即为训练集中行人的数量;
在所述ResNet50残差网络中,最后一个平均池化层和全连接层之间添加批量归一化层;
ResNet50残差网络中待学习优化的卷积核参数参数为:
ResNet50残差网络中待学习优化的全连接层参数为:WF,WF为列向量;
所述批量归一化层为:
μ=E(X),σ2=D(X)
X为批量归一化层的输入,即通过最后一个平均池化层得到行人身份特征向量,Y为批量归一化层的输出,γ和β为批量归一化层的参数,ε为防止分母为0的微小正数,E(X)为平均值,D(X)为方差;
步骤4所述将预处理后批次样本输入至残差网络,提取行人身份特征向量为:
fj={fj,1,fj,2,...,fj,s}
其中,fj,q(q∈[1,S])为第j个预处理后批次样本中第q幅图像的特征向量,j∈[1,iter],q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为第j个预处理后批次样本中图像的数量;
步骤4所述构建行人的正样本以及负样本为:
计算锚样本与第j个预处理后批次样本中每幅图像的欧氏距离为:
作为锚样本时,根据步骤2中定义Hj,l={dataj,(l-1)*K+1,...,dataj,l*K},Hj,l为第j个批次样本中第l个行人所有图像,可以根据(l-1)*K+1≤q≤l*K,计算出l的取值,得出属于第l个行人的图像,K为第j个预处理后批次样本中第l个行人所有图像的数量;
在同一行人Hj,l中根据同一行人距离集合Dj,l选择与锚样本距离最大的作为正样本,不同行人即dataj中除了Hj,l的其他行人,中根据不同行人距离集合即Dj中除了Dj,l的其他距离集合,选择与锚样本距离最小的作为负样本;
步骤4所述构建三元组损失模型为:
其中,为第j个批次的三元组损失模型,为第j个批次第q张图像的三元组损失模型,为计算欧氏距离函数,分别为第j个批次第q张图像的锚样本的特征向量,正样本的特征向量、负样本的特征向量,α为三元组损失的边距,[X]+等同于max(0,X),即0、X两数之间的最大值。
三元组损失函数可以使模型得到的相同行人的特征向量距离更近,不同行人的特征向量距离更远;
步骤4所述构建中心损失模型为:
为了降低三元组损失函数只考虑样本对间的相对距离,没考虑正样本对间的绝对距离的缺陷,在训练阶段加入了中心损失函数,中心损失函数如下所示:
cj={cj,1,...,cj,A}
其中,fj,e为批次dataj中第e张图片的特征向量,可以根据(l-1)*K+1≤e≤l*K,计算出l的取值,得出fj,e是属于第l个行人的特征向量,为计算欧氏距离函数,S为第j批次样本中图像的数量,为第j个批次时所有行人特征中心的集合,的值为随机初始化得到,l为dataj中第e张图片的标签,l∈[1,A],根据(l-1)*K+1≤e≤l*K,可以计算出l的取值,得出该图像的标签即该图像属于第l个行人,cj,l为第j个批次中第l个行人的特征中心,Hj,l中所有图像共享同一个特征中心cj,l,α为人工设置的权值,K=M+N;
步骤4所述构建身份分类损失模型为:
对于有标签的训练样本,IDE是一种有效的训练方法,可以利用ID损失函数将训练过程转化为一个分类问题;
全连接层之后得到的特征向量为:
其中,A为训练集中行人的数量,将zj,q通过softmax函数进行运算,得到第j个批次中第q张图像属于A个行人中身份为第a个行人的预测概率:
将预测概率p与其对应的标签进行交叉熵运算;
身份为第a个行人的损失函数如下所示:
其中,S为第j个批次样本中图像的数量,A为训练集中行人的数量。
步骤4所述构建残差网络损失模型为:
步骤4所述使用梯度下降法优化训练为:
根据损失函数使用梯度下降进行训练,将通过第j个批次样本训练得到的卷积核参数Wj K′,以及通过第j个批次样本训练得到的全连接层参数Wj F′;
若j=1,表示待训练的残差网络为第一次参数更新,j-1表示残差网络初始化的参数。
作为优选,步骤7所述感兴趣行人图像为人工选择的行人图像;
步骤7所述预测得到感兴趣行人图像的特征向量为:
步骤7所述测试集中行人图像的构建方法为:
步骤7所述预测得到测试集中行人图像的特征向量为:
将测试集中每幅行人图像也输入到训练好的残差网络,得到特征向量为:
其中,G为测试集中行人图像的数量;
步骤7所述将感兴趣行人图像的特征向量与测试集中行人图像的特征向量进行距离度量为:
将欧式距离Gp中每个元素依次与距离阈值比较,若小于距离阈值则判定测试集中对应的行人图像与感兴趣行人图像属于同一行人的图像。
本发明的有益效果是:本发明的基于相机风格适应的行人重识别方法,减少了摄像机的风格差异,同时增加了训练样本数量,减少神经网络的过拟合影响。同时引入批量归一化层,提升了特征提取的性能,同时有效的解决了类内紧凑性和类间可分离性。
附图说明
图1:是风格转换图像样例。
图2:是随即擦除图像样例。
图3:是行人重识别模型图。
图4:是行人重识别流程图。
具体实施方式
为了更好地理解本发明,下面结合实施例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样在本申请所列权利要求书限定范围之内。
不同相机风格的图像被认为是不同的域,用Market1501数据集训练好的CycleGAN可以将一种相机风格的图像转化为另一种相机风格;因为每个风格转换后的图像保留了原始图像的内容,所以新生成的图像与原图像是同一个标签。Market1501分为原行人图像训练集、测试集。
本发明具体实施方式为一种基于相机风格适应的行人重识别方法,其特征在于,包括以下步骤:
步骤1:分别构建原行人图像训练集、测试集,将原行人图像训练集通过生成对抗网络的生成器得到风格转换后的行人图像训练集,如图1所示;
步骤1所述原行人图像训练集为:
Ibefore={p1,p2,...,pA}
a∈[1,A]
其中,Ibefore为原行人图像训练集,A为训练集中行人的数量A=751,pa为第a个行人图像训练集,pa,i为第a个行人图像训练集中第i幅图像,na为第a个行人图像训练集中图像的数量,i∈[1,na];
步骤1所述测试集为:
步骤1所述风格转换后的行人图像训练集为:
a∈[1,A]
步骤2:将风格转换后的行人图像训练集与原行人图像训练集通过批处理得到批次样本,进一步构建训练集;
步骤2所述通过批处理构建训练集为:
在A个行人中随机选择P=16个行人,在随机选择的每个行人中在其行人图像训练集中随机选择M=3幅图像,在其风格转换后的行人图像训练集中随机选择N=1幅图像,K=M+N=4;
P*K为第i个批次样本中图像的数量,将其定义为S,即S=P*K,并将第j个批次样本中图像训练集定义为dataj;
所述训练集为:
train={data1,data2,...,dataiter}
dataj={dataj,1,dataj,2,...,dataj,S}
j∈[1,iter]
其中,dataj为第j个批次样本,train为步骤1所述训练集,dataj,q为第j个批次样本中第q幅图像,q∈[1,S],iter=202为批次的数量即最大参数迭代更新次数,S=64为每个批次样本中图像的数量;
Hj,l={dataj,(l-1)*K+1,...,dataj,l*K},l∈[1,P]
1≤(l-1)*K+1<l*K≤S
其中,Hj,l为第j个批次样本中第l个行人所有图像,l∈[1,P],K为第j个批次样本中第l个行人所有图像的数量,且K=M+N,P为第j个批次样本中行人的数量;
步骤3:将批次样本dataj中每幅图像依次通过随机擦除、水平翻转,得到预处理后批次样本;
步骤3所述批次样本中每幅图像为:
dataj,q,即第j个批次样本中第q幅图像,j∈[1,iter|,q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为每个批次样本中图像的数量;
步骤3所述随机擦除为:
在dataj,q上随机选择一个矩形块定义为Ie,将矩形块内的像素值随机化;
具体过程为:
所述矩形块的选择过程为:
W为dataj,q的长,H为dataj,q的宽,We为的Ie长,He为Ie的宽;
在dataj,q上随机选择一个初始点P=(xe,ye),xe∈[1,W],ye∈[1,H];
若满足约束条件:
xe+We≤W
ye+He≤H
则擦除矩形块Ie左上角坐标为(xe,ye),右下角坐标为(xe+We,ye+He);
否则继续随机选择初始点P直至满足约束条件;
矩形块选取完成后并使用随机值替代Ie范围内的像素值,随机值的范围为[0,255];
步骤3所述水平翻转为:
步骤3所述预处理后批次样本为:
预处理后批次样本中行人所有图像为:
l∈[1,P]
1≤(l-1)*K+1<l*K≤S
其中,Hj,l为第j个预处理后批次样本中第l个行人所有图像,K为第j个预处理后批次样本中第l个行人所有图像的数量,P为第j个预处理后批次样本中行人的数量,S=P*K;
步骤4:构建待训练的残差网络,将预处理后批次样本输入至残差网络,提取行人身份特征向量,构建行人的正样本以及负样本,通过三元组损失模型、中心损失模型、身份分类损失模型构建残差网络损失模型,进一步使用梯度下降法优化训练,得到训练后残差网络;
步骤4所述构建待训练的残差网络为:
所述残差网络为ResNet50残差网络;
所述ResNet50残差网络由多层卷积层、多层池化层以及全连接层构成;
将所述全连接层的输出维度设置为A=751,A即为训练集中行人的数量;
在所述ResNet50残差网络中,最后一个平均池化层和全连接层之间添加批量归一化层,网络模型结构如图3所示;
ResNet50残差网络中待学习优化的卷积核参数参数为:
ResNet50残差网络中待学习优化的全连接层参数为:WF,WF为列向量;
所述批量归一化层为:
μ=E(X),σ2=D(X)
X为批量归一化层的输入,即通过最后一个平均池化层得到行人身份特征向量,Y为批量归一化层的输出,γ和β为批量归一化层的参数,ε=1×10-12为防止分母为0的微小正数,E(X)为平均值,D(X)为方差;
步骤4所述将预处理后批次样本输入至残差网络,提取行人身份特征向量为:
fj={fj,1,fj,2,...,fj,S}
其中,fj,q(q∈[1,S])为第j个预处理后批次样本中第q幅图像的特征向量,j∈[1,iter],q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为第j个预处理后批次样本中图像的数量;
步骤4所述构建行人的正样本以及负样本为:
计算锚样本与第j个预处理后批次样本中每幅图像的欧氏距离为:
作为锚样本时,根据步骤2中定义Hj,l={dataj,(l-1)*K+1,...,dataj,l*K},Hj,l为第j个批次样本中第l个行人所有图像,可以根据(l-1)*K+1≤q≤l*K,计算出l的取值,得出属于第l个行人的图像,K为第j个预处理后批次样本中第l个行人所有图像的数量;
在同一行人Hj,l中根据同一行人距离集合Dj,l选择与锚样本距离最大的作为正样本,不同行人即dataj中除了Hj,l的其他行人,中根据不同行人距离集合即Dj中除了Dj,l的其他距离集合,选择与锚样本距离最小的作为负样本;
步骤4所述构建三元组损失模型为:
其中,为第j个批次的三元组损失模型,为第j个批次第q张图像的三元组损失模型,为计算欧氏距离函数,分别为第j个批次第q张图像的锚样本的特征向量,正样本的特征向量、负样本的特征向量,α=0.3为三元组损失的边距,[X]+等同于max(0,X),即0、X两数之间的最大值。
三元组损失函数可以使模型得到的相同行人的特征向量距离更近,不同行人的特征向量距离更远;
步骤4所述构建中心损失模型为:
为了降低三元组损失函数只考虑样本对间的相对距离,没考虑正样本对间的绝对距离的缺陷,在训练阶段加入了中心损失函数,中心损失函数如下所示:
cj={cj,1,...,cj,A}
其中,fj,e为批次dataj中第e张图片的特征向量,可以根据(l-1)*K+1≤e≤l*K,计算出l的取值,得出fj,e是属于第l个行人的特征向量,为计算欧氏距离函数,S为第j批次样本中图像的数量,为第j个批次时所有行人特征中心的集合,的值为随机初始化得到,l为dataj中第e张图片的标签,l∈[1,A],根据(l-1)*K+1≤e≤l*K,可以计算出l的取值,得出该图像的标签即该图像属于第l个行人,cj,l为第j个批次中第l个行人的特征中心,Hj,l中所有图像共享同一个特征中心cj,l,α=0.1为人工设置的权值,K=M+N;
步骤4所述构建身份分类损失模型为:
对于有标签的训练样本,IDE是一种有效的训练方法,可以利用ID损失函数将训练过程转化为一个分类问题;
全连接层之后得到的特征向量为:
其中,A为训练集中行人的数量,将zj,q通过softmax函数进行运算,得到第j个批次中第q张图像属于A个行人中身份为第a个行人的预测概率:
将预测概率p与其对应的标签进行交叉熵运算;
身份为第a个行人的损失函数如下所示:
其中,S为第j个批次样本中图像的数量,A为训练集中行人的数量。
步骤4所述构建残差网络损失模型为:
步骤4所述使用梯度下降法优化训练为:
根据损失函数使用梯度下降进行训练,将通过第j个批次样本训练得到的卷积核参数Wj K′,以及通过第j个批次样本训练得到的全连接层参数Wj F′;
若j=1,表示待训练的残差网络为第一次参数更新,j-1表示残差网络初始化的参数。
步骤5:重复执行步骤3至步骤4,直至达到iter=202即最大参数迭代更新次数,则完成一代训练;
步骤6:重复执行步骤2至步骤5共epoch=120次,即共训练120代,得到训练好的残差网络。
步骤7:将感兴趣行人图像通过训练好的残差网络预测得到感兴趣行人图像的特征向量,将测试集中行人图像依次通过训练好的残差网络预测得到测试集中行人图像的特征向量,将感兴趣行人图像的特征向量与测试集中行人图像的特征向量进行距离度量,在测试集中行人图像匹配与感兴趣行人图像属同一行人的图像集合,流程如图4所示;
步骤7所述感兴趣行人图像为人工选择的行人图像;
步骤7所述预测得到感兴趣行人图像的特征向量为:
步骤7所述测试集中行人图像的构建方法为:
步骤7所述预测得到测试集中行人图像的特征向量为:
将测试集中每幅行人图像也输入到训练好的残差网络,得到特征向量为:
其中,G为测试集中行人图像的数量;
步骤7所述将感兴趣行人图像的特征向量与测试集中行人图像的特征向量进行距离度量为:
将欧式距离Gp中每个元素依次与距离阈值比较,若小于距离阈值则判定测试集中对应的行人图像与感兴趣行人图像属于同一行人的图像。
本发明方法在Market1501数据集上进行了验证,实验结果表明该方法具有良好的性能。
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
Claims (6)
1.一种基于相机风格适应的行人重识别方法,其特征在于,包括以下步骤:
步骤1:分别构建原行人图像训练集、测试集,将原行人图像训练集通过生成对抗网络的生成器得到风格转换后的行人图像训练集;
步骤2:将风格转换后的行人图像训练集与原行人图像训练集通过批处理得到批次样本,进一步构建训练集;
步骤3:将批次样本中每幅图像依次通过随机擦除、水平翻转,得到预处理后批次样本;
步骤4:构建待训练的残差网络,将预处理后批次样本输入至残差网络,提取图像特征向量,构建行人的正样本以及负样本,通过三元组损失模型、中心损失模型、身份分类损失模型构建残差网络损失模型,进一步使用梯度下降法优化训练,得到训练后残差网络;
步骤5:重复执行步骤3至步骤4,直至达到iter即最大参数迭代更新次数,则完成一代训练;
步骤6:重复执行步骤2至步骤5共epoch次,即共训练epoch代,得到训练好的残差网络;
步骤7:将感兴趣行人图像通过训练好的残差网络预测得到感兴趣行人图像的特征向量,将测试集中行人图像依次通过训练好的残差网络预测得到测试集中行人图像的特征向量,将感兴趣行人图像的特征向量与测试集中行人图像的特征向量进行距离度量,在测试集中行人图像匹配与感兴趣行人图像属同一行人的图像集合。
2.根据权利要求1所述的基于相机风格适应的行人重识别方法,其特征在于:
步骤1所述原行人图像训练集为:
Ibefore={p1,p2,...,pA}
a∈[1,A]
其中,Ibefore为原行人图像训练集,A为训练集中行人的数量,pa为第a个行人图像训练集,pa,i为第a个行人图像训练集中第i幅图像,na为第a个行人图像训练集中图像的数量,i∈[1,na];
步骤1所述测试集为:
步骤1所述风格转换后的行人图像训练集为:
a∈[1,A]
3.根据权利要求1所述的基于相机风格适应的行人重识别方法,其特征在于:
步骤2所述通过批处理构建训练集为:
在A个行人中随机选择P个行人,在随机选择的每个行人中在其行人图像训练集中随机选择M幅图像,在其风格转换后的行人图像训练集中随机选择N幅图像,令K=M+N,K为第j个批次样本中每个行人所有图像的数量;
P*K为第j个批次样本中图像的数量,将其定义为S,即S=P*K,并将第j个批次样本中图像训练集定义为dataj;
所述训练集为:
train={data1,data2,...,dataiter}
dataj={dataj,1,dataj,2,...,dataj,s}
j∈[1,iter]
其中,dataj为第j个批次样本,train为步骤1所述训练集,dataj,q为第j个批次样本中第q幅图像,q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为每个批次样本中图像的数量;
Hj,l={dataj,(l-1)*K+1,...,dataj,l*K},l∈[1,P]
1≤(l-1)*K+1<l*K≤S
其中,Hj,l为第j个批次样本中第l个行人所有图像,l∈[1,P],K为第j个批次样本中第l个行人所有图像的数量,且K=M+N,P为第i个批次样本中行人的数量。
4.根据权利要求1所述的基于相机风格适应的行人重识别方法,其特征在于:
步骤3所述批次样本中每幅图像为:
dataj,q,即第j个批次样本中第q幅图像,j∈[1,iter],q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为每个批次样本中图像的数量;
步骤3所述随机擦除为:
在dataj,q上随机选择一个矩形块定义为Ie,将矩形块内的像素值随机化;
具体过程为:
所述矩形块的选择过程为:
W为dataj,q的长,H为dataj,q的宽,We为的Ie长,He为Ie的宽;
在dataj,q上随机选择一个初始点P=(xe,ye),xe∈[1,W],ye∈[1,H];
若满足约束条件:
xe+We≤W
ye+He≤H
则擦除矩形块Ie左上角坐标为(xe,ye),右下角坐标为(xe+We,ye+He);
否则继续随机选择初始点P直至满足约束条件;
矩形块选取完成后并使用随机值替代Ie范围内的像素值,随机值的范围为[0,255];
步骤3所述水平翻转为:
步骤3所述预处理后批次样本为:
预处理后批次样本中行人所有图像为:
l∈[1,P]
1≤(l-1)*K+1<l*K≤S
其中,Hj,l为第j个预处理后批次样本中第l个行人所有图像,K为第j个预处理后批次样本中第l个行人所有图像的数量,P为第j个预处理后批次样本中行人的数量,S=P*K。
5.根据权利要求1所述的基于相机风格适应的行人重识别方法,其特征在于:
步骤4所述构建待训练的残差网络为:
所述残差网络为ResNet50残差网络;
所述ResNet50残差网络由多层卷积层、多层池化层以及全连接层构成;
将所述全连接层的输出维度设置为A,A即为训练集中行人的数量;
在所述ResNet50残差网络中,最后一个平均池化层和全连接层之间添加批量归一化层;
ResNet50残差网络中待学习优化的卷积核参数参数为:
ResNet50残差网络中待学习优化的全连接层参数为:WF,WF为列向量;
所述批量归一化层为:
μ=E(X),σ2=D(X)
X为批量归一化层的输入,即通过最后一个平均池化层得到行人身份特征向量,Y为批量归一化层的输出,γ和β为批量归一化层的参数,ε为防止分母为0的微小正数,E(X)为平均值,D(X)为方差;
步骤4所述将预处理后批次样本输入至残差网络,提取行人身份特征向量为:
fj={fj,1,fj,2,...,fj,s}
其中,fj,q(q∈[1,S])为第j个预处理后批次样本中第q幅图像的特征向量,j∈[1,iter],q∈[1,S],iter为批次的数量即最大参数迭代更新次数,S为第j个预处理后批次样本中图像的数量;
步骤4所述构建行人的正样本以及负样本为:
计算锚样本与第j个预处理后批次样本中每幅图像的欧氏距离为:
作为锚样本时,根据步骤2中定义Hj,l={dataj,(l-1)*K+1,...,dataj,l*K},Hj,l为第j个批次样本中第l个行人所有图像,可以根据(l-1)*K+1≤q≤l*K,计算出l的取值,得出属于第l个行人的图像,K为第j个预处理后批次样本中第l个行人所有图像的数量;
在同一行人Hj,l中根据同一行人距离集合Dj,l选择与锚样本距离最大的作为正样本,不同行人即dataj中除了Hj,l的其他行人,中根据不同行人距离集合即Dj中除了Dj,l的其他距离集合,选择与锚样本距离最小的作为负样本;
步骤4所述构建三元组损失模型为:
其中,为第j个批次的三元组损失模型,为第j个批次第q张图像的三元组损失模型,为计算欧氏距离函数,分别为第j个批次第q张图像的锚样本的特征向量,正样本的特征向量、负样本的特征向量,α为三元组损失的边距,[X]+等同于max(0,X),即0、X两数之间的最大值;
三元组损失函数可以使模型得到的相同行人的特征向量距离更近,不同行人的特征向量距离更远;
步骤4所述构建中心损失模型为:
为了降低三元组损失函数只考虑样本对间的相对距离,没考虑正样本对间的绝对距离的缺陷,在训练阶段加入了中心损失函数,中心损失函数如下所示:
cj={cj,1,...,cj,A}
其中,fj,e为批次dataj中第e张图片的特征向量,可以根据(l-1)*K+1≤e≤l*K,计算出l的取值,得出fj,e是属于第l个行人的特征向量,为计算欧氏距离函数,S为第j批次样本中图像的数量,为第j个批次时所有行人特征中心的集合,的值为随机初始化得到,l为dataj中第e张图片的标签,l∈[1,A],根据(l-1)*K+1≤e≤l*K,可以计算出l的取值,得出该图像的标签即该图像属于第l个行人,cj,l为第j个批次中第l个行人的特征中心,Hj,l中所有图像共享同一个特征中心cj,l,α为人工设置的权值,K=M+N;
步骤4所述构建身份分类损失模型为:
对于有标签的训练样本,IDE是一种有效的训练方法,可以利用ID损失函数将训练过程转化为一个分类问题;
全连接层之后得到的特征向量为:
其中,A为训练集中行人的数量,将zj,q通过softmax函数进行运算,得到第j个批次中第q张图像属于A个行人中身份为第a个行人的预测概率:
将预测概率p与其对应的标签进行交叉熵运算;
身份为第a个行人的损失函数如下所示:
其中,S为第j个批次样本中图像的数量,A为训练集中行人的数量;
步骤4所述构建残差网络损失模型为:
步骤4所述使用梯度下降法优化训练为:
根据损失函数使用梯度下降进行训练,将通过第j个批次样本训练得到的卷积核参数Wj K′,以及通过第j个批次样本训练得到的全连接层参数Wj F′;
若j=1,表示待训练的残差网络为第一次参数更新,j-1表示残差网络初始化的参数。
6.根据权利要求1所述的基于相机风格适应的行人重识别方法,其特征在于:
步骤7所述感兴趣行人图像为人工选择的行人图像;
步骤7所述预测得到感兴趣行人图像的特征向量为:
步骤7所述测试集中行人图像的构建方法为:
步骤7所述预测得到测试集中行人图像的特征向量为:
将测试集中每幅行人图像也输入到训练好的残差网络,得到特征向量为:
其中,G为测试集中行人图像的数量;
步骤7所述将感兴趣行人图像的特征向量与测试集中行人图像的特征向量进行距离度量为:
将欧式距离Gp中每个元素依次与距离阈值比较,若小于距离阈值则判定测试集中对应的行人图像与感兴趣行人图像属于同一行人的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010325367.6A CN111461061A (zh) | 2020-04-23 | 2020-04-23 | 一种基于相机风格适应的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010325367.6A CN111461061A (zh) | 2020-04-23 | 2020-04-23 | 一种基于相机风格适应的行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111461061A true CN111461061A (zh) | 2020-07-28 |
Family
ID=71683761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010325367.6A Pending CN111461061A (zh) | 2020-04-23 | 2020-04-23 | 一种基于相机风格适应的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461061A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807401A (zh) * | 2021-08-18 | 2021-12-17 | 南京中兴力维软件有限公司 | 通用id识别方法、装置及设备 |
CN113807401B (zh) * | 2021-08-18 | 2024-05-24 | 南京中兴力维软件有限公司 | 通用id识别方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190446A (zh) * | 2018-07-06 | 2019-01-11 | 西北工业大学 | 基于三元组聚焦损失函数的行人再识别方法 |
CN109711281A (zh) * | 2018-12-10 | 2019-05-03 | 复旦大学 | 一种基于深度学习的行人重识别与特征识别融合方法 |
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
-
2020
- 2020-04-23 CN CN202010325367.6A patent/CN111461061A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190446A (zh) * | 2018-07-06 | 2019-01-11 | 西北工业大学 | 基于三元组聚焦损失函数的行人再识别方法 |
CN109711281A (zh) * | 2018-12-10 | 2019-05-03 | 复旦大学 | 一种基于深度学习的行人重识别与特征识别融合方法 |
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
TONG ZHANG ,CAIQUAN XIONG: "Person Re-identification Based on Camera Style Adaptation" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807401A (zh) * | 2021-08-18 | 2021-12-17 | 南京中兴力维软件有限公司 | 通用id识别方法、装置及设备 |
CN113807401B (zh) * | 2021-08-18 | 2024-05-24 | 南京中兴力维软件有限公司 | 通用id识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334765B (zh) | 基于注意力机制多尺度深度学习的遥感影像分类方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
CN108681752B (zh) | 一种基于深度学习的图像场景标注方法 | |
CN110321830B (zh) | 一种基于神经网络的中文字符串图片ocr识别方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN111639719B (zh) | 基于时空运动和特征融合的足迹图像检索方法 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN113111814B (zh) | 基于正则化约束的半监督行人重识别方法及装置 | |
CN109002771B (zh) | 一种基于递归神经网络的遥感图像分类方法 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN112364791A (zh) | 一种基于生成对抗网络的行人重识别方法和系统 | |
CN114676777A (zh) | 一种基于孪生网络的自监督学习细粒度图像分类方法 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
Bappy et al. | Real estate image classification | |
CN114821299B (zh) | 一种遥感图像变化检测方法 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN112132257A (zh) | 基于金字塔池化及长期记忆结构的神经网络模型训练方法 | |
CN115049952A (zh) | 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 | |
CN113191361B (zh) | 一种形状识别方法 | |
CN110728238A (zh) | 一种融合型神经网络的人员再检测方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |