CN111814705A - 一种基于批次分块遮挡网络的行人再辨识方法 - Google Patents
一种基于批次分块遮挡网络的行人再辨识方法 Download PDFInfo
- Publication number
- CN111814705A CN111814705A CN202010672398.9A CN202010672398A CN111814705A CN 111814705 A CN111814705 A CN 111814705A CN 202010672398 A CN202010672398 A CN 202010672398A CN 111814705 A CN111814705 A CN 111814705A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- network
- batch
- training
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000000903 blocking effect Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 101150064138 MAP1 gene Proteins 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于批次分块遮挡网络的行人再辨识方法,包括如下步骤:1)分集;2)预处理;3)预训练;4)输入;5)构建批次分块遮挡模块;6)构建批次分块遮挡网络模型;7)训练行人再辨识网络模型;8)计算总训练损失;9)测试;10)比较特征距离;11)完成再辨识。这种方法识别能力强,提高了再辨识方法的性能。
Description
技术领域
发明涉及计算机视觉技术领域,具体是一种基于批次分块遮挡网络的行人再辨识方法。
背景技术
行人再辨识旨在用于解决跨摄像场景行人身份再认的问题,即对不同监控场景中的行人进行身份再认,属于图像检索的一个分支。行人再辨识广泛应用于智能安防,无人超市,人机交互,相册聚类等领域。由于行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化等原因,使得行人再识别成为目前计算机视觉领域一个既具有研究价值又极具挑战性的热点和难点问题。目前,行人再辨识领域研究工作主要分为以下几类:1.研究行人对象的特征表示方法,提取更加具有鲁棒性的鉴别特征对行人进行表示; 2.基于局部特征的行人再辨识方法;3.使用距离度量学习方法,通过学习一个有判别力的距离度量函数,使得同一个人的图像间距离小于不同行人图像间的距离。
上述基于特征的方法都是使用标准距离(如曼哈顿距离、欧氏距离和巴氏距离等)进行相似性度量。然而同一身份行人在跨越多个无重叠区摄像头时,不同外貌特征受视角、光照等因素的影响不同,标准的距离度量方法平等的对待每一种特征,而不会摒弃那些独立使用时效果很差的特征。因此,研究者尝试通过距离学习的方法,获得一个新的距离度量空间,使得同一行人不同图像的距离小于不同人间的距离。距离学习方法一般在Mahalanobis距离的基础上进行,通过学习一个投影矩阵,使得在投影空间中同类样本之间的距离较小,而不同类样本之间的距离较大。基于局部特征的行人再辨识方法,常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等,图片切块是一种很常见的提取局部特征方式,其中将输入的特征图均匀水平分割为若干份更符合对人体的直观感受,度量学习 (Metric learning)是广泛用于图像检索利于的一种方法。不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片(正样本对)的距离尽可能小,不同行人图片(负样本对)的距离尽可能大。常用的度量学习损失方法有对比损失 (Contrastive loss)、三元组损失(Triplet loss)、四元组损失(Quadruplet loss)、难样本采样三元组损失(Triplet hard loss with batch hardmining,TriHard loss)、边界挖掘损失(Margin sample mining loss,MSML)。
随着深度学习研究的不断深入,各种基于深度学习的行人再辨识方法不断被提出。但行人再辨识仍面临诸多挑战,主要原因如下:①背景杂乱和遮挡;②同一行人在不同时间内有着不同的外表;③光照强度不同;④不同行人有着相似外表。基于卷积神经网络(Convolutional Neural Networks,CNN)的识别方法主要把特征学习的重点放在人体的主干部分,而手、脚、脸等部分通常会被忽略。为此,基于姿态定位的方法是通过先定位不同的身体特征再使用对齐来改进识别性能,也有一些方法使用传统粗分割或选择注意网络方法来改进特征学习。但是这种基于姿态定位的方法通常会要求额外的姿态估计和语义信息,从而增加了问题的复杂度,为此,有必要发明一种批次分块遮挡网络来改进这些问题。
发明内容
本发明的目的在于针对现有技术中存在的不足,提供一种基于批次分块遮挡网络的行人再辨识方法。这种方法识别能力强,提高了再辨识方法的性能。
实现本发明目的技术方案是:
一种基于批次分块遮挡网络的行人再辨识方法,包括如下步骤:
1)分集:将已知的行人再辨识数据集Market-1501和DukeMTMC-reID中的图像分为训练数据集和测试数据集;
2)预处理:将训练数据集和测试数据集中的所有图像进行统一尺寸裁剪,将完成裁剪后的训练数据集图像顺序打乱,测试数据集中的图像不做其余处理,为需要辨识的每个行人在训练数据集中随机选择k张图像,组成小训练批,其中k=32或64;
3)预训练:利用训练数据集对ResNet-50网络进行预训练,初始化ResNet-50网络中的参数,对输入的行人图像进行特征提取,预训练的步骤如下:
3-1)将步骤2)中完成裁剪的训练数据集图像输入到ResNet-50网络中,训练数据集图像首先经过ResNet-50网络中一个步长为2的7×7卷积和一个池化层,得到特征图1;
3-2)将特征图1输入ResNet-50网络的第一卷积层,经过3个步长为1且内核大小为1 ×1的残差模块,输出特征图2;
3-3)将特征图2输入ResNet-50网络的第二卷积层,经过4个步长为1且内核大小为3 ×3的残差模块,输出特征图3;
3-4)将特征图3输入ResNet-50网络的第三卷积层,经过6个步长为1且内核大小为3 ×3的残差模块,输出特征图4;
3-5)将特征图4输入ResNet-50网络的第四卷积层,微调ResNet-50的网络结构,即在 ResNet-50网络的第四卷积层不使用下采样操作,所以经第四卷积层后特征图4大小不变,经过4个步长为1且内核大小为3×3的残差模块,输出特征图5;
4)输入:ResNet-50网络第四卷积层之后称为全局分支,将步骤3-5)中1/2数量的特征图5作为全局分支的输入,依次经过1×1卷积层、批处理归一化层和ReLU层得到特征图S;
5)构建批次分块遮挡模块:构建的批次分块遮挡模块由两个包含不同擦除模块的Part 1 分支和Part 2分支组成,Part 1分支中的批量擦除层会随机擦除张量中的同一区域,将擦除区域内所有位置的值都归为0;Part 2分支则会先将输入的特征图均分成上下两块,然后在每一块中随机地遮挡一小块,即将遮挡区域内的所有值设为0,以步骤3-5)中另外1/2数量的特征图5作为批次分块特征遮挡模块的输入,然后利用全局最大池化得到2048维的特征向量,最后利用三元组损失和softmax损失将特征向量的维度从2048维降到1024维,设单批输入图像经part 1分支在特征图上应用擦除处理后计算得到的特征图为T,设经part 2 分支在特征图上应用擦除处理后得到的特征图为T';
6)构建批次分块遮挡网络模型:在步骤3)的ResNet-50网络的第四卷积层后添加一个批次分块遮挡模块,即完成批次分块遮挡网络模型的构建,批次分块遮挡网络模型即为行人再辨识网络模型;
7)训练行人再辨识网络模型:使用步骤4)的特征图S、步骤5)中的特征图T和特征图 T'通过三元组损失和softmax损失函数对步骤6)中的批次分块遮挡网络模型进行优化,循环执行步骤7),直至损失值收敛;
softmax损失函数表示如下:
三元组损失函数表示如下:
其中,表示的是正样本图片和标准图片之间的欧式距离度量,表示的是负样本图片和标准图片之间的欧式距离度量,α是指x_a与x_n之间的距离和x_a与x_p之间的距离之间的最小间隔,右下角的+号表示表示[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零;
8)计算总训练损失:采用三元组损失函数和Softmax损失函数计算总训练损失,总训练损失为三元组损失函数和Softmax损失函数在全局分支和批次分块遮挡分支上的总和;
总训练损失表达式如下:
L=Lg+λ1L1+λ2L2,
其中,Lg表示全局分支上的损失,L1和L2分别代表特征删除分支上Part 1分支和Part 2分支的损失,λ1和λ2为控制part 1分支和part 2分支的权重,λ1和λ2均设置为1;
9)测试:将测试数据集输入到步骤7)训练后的行人再辨识网络模型中,行人再辨识网络模型读取测试数据集中的图像后,输出辨识结果,通过比较输出辨识结果与输入图像标签的泛化误差,来验证行人再辨识网络模型的训练效果和性能;
10)比较特征距离:从实时采集的视频中筛选出所有的行人图像组成候选库,并将候选库中的图像和待查询行人图像全部送入到批次分块遮挡网络模型中进行辨识分类,并比较它们之间的特征距离;
特征距离采用欧氏距离表示:
其中,x表示侯选库图像,y表示待查询行人图像,x1表示侯选库图像像素点的横坐标, x2表示侯选库图像像素点的纵坐标,y1表示待查询行人图像像素点的横坐标,y2表示待查询行人图像像素点的纵坐标;
11)完成再辨识:按照特征距离从小到大的顺序对实时采集的视频中筛选出所有的行人图像进行排序,排序从前到后相似性依次减小,即排位第一的训练图像是与待查询行人图像为同一行人的图像,找出指定对象的所有行人图像,从而完成行人再辨识。
本技术方案的方法使用ResNet-50作为全局分支来提供全局特征表示,监督对特征删除分支的训练,并使特征删除分支应用于学习良好的特征映射,通过具有分块特性的特征遮挡分支来学习详细的特征,本技术方案的方法扩充了训练数据集的多样性,增强了深度神经网络对于行人的识别能力,提高了行人再辨识网络模型对于遮挡情境下行人再辨识方法的性能。
这种方法识别能力强,提高了再辨识方法的性能。
附图说明
图1为实施例中批次分块遮挡网络结构图;
图2为实施例中Part 1分支和Part 2分支的比较示意图;
图3为实施例中Market-1501数据集上检索结果的可视化图;
图4为实施例中不同分块数量在Market-1501上的对比示意图。
图中,Rank-1表示第一匹配率精度,mAP表示平均率均值,part表示特征图分块的数量。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例1:
一种基于批次分块遮挡网络的行人再辨识方法,包括如下步骤:
1)分集:将已知的行人再辨识数据集Market-1501和DukeMTMC-reID中的图像分为训练数据集和测试数据集,Market-1501和DukeMTMC-reID是两个大规模的行人再识别领域通用的数据集,Market-1501数据集包含从6个摄像机视点观察到的1501个身份,包含751人的12936幅由DPM检测到的训练图像和750人的19732幅测试图像;DukeMTMC-reID数据集包含702人的16522幅训练图像,702人的17661测试图像,它们共对应1404个不同的人,图片尺寸大小不一,因此本例训练数据集包括29458张图像,测试数据集包括37393张图像;
2)预处理:将训练数据集和测试数据集中的所有图像进行统一尺寸裁剪,本例尺寸剪裁为384×128,将完成裁剪后的训练数据集图像顺序打乱,测试数据集中的图像不做其余处理,为需要辨识的每个行人在训练数据集中随机选择k张图像,组成小训练批,其中k=32或64,本例k=64;
3)预训练:利用训练数据集对ResNet-50网络进行预训练,初始化ResNet-50网络中的参数,对输入的行人图像进行特征提取,如图1所示,预训练的步骤如下:
3-1)将步骤2)中完成裁剪的训练数据集图像输入到ResNet-50网络中,训练数据集图像首先经过ResNet-50网络中一个步长为2的7×7卷积和一个池化层,使得输出图像尺寸仅为输入图像尺寸的1/4,得到尺寸大小为96×32的特征图1;
3-2)将特征图1输入ResNet-50网络的第一卷积层,经过3个步长为1且内核大小为1 ×1的残差模块,输出尺寸大小为96×32的特征图2;
3-3)将特征图2输入ResNet-50网络的第二卷积层,经过4个步长为1且内核大小为3 ×3的残差模块,特征图2尺寸大小变成原来的1/2,输出尺寸大小为48×16的特征图3;
3-4)将特征图3输入ResNet-50网络的第三卷积层,经过6个步长为1且内核大小为3 ×3的残差模块,特征图3尺寸大小变成原来的1/2,输出24×8的特征图4;
3-5)将特征图4输入ResNet-50网络的第四卷积层,微调ResNet-50的网络结构,即在 ResNet-50网络的第四卷积层不使用下采样操作,所以经第四卷积层后特征图4大小不变,经过4个步长为1且内核大小为3×3的残差模块,输出尺寸大小为24×8特征图5;
4)输入:ResNet-50网络第四卷积层之后称为全局分支,将步骤3-5)中1/2数量的特征图5作为全局分支的输入,依次经过1×1卷积层、批处理归一化层和ReLU层得到特征图S;
5)构建批次分块遮挡模块:构建的批次分块遮挡模块由两个包含不同擦除模块的Part 1 分支和Part 2分支组成,如图2所示,Part 1分支中的批量擦除层会随机擦除张量中的同一区域,将擦除区域内所有位置的值都归为0;Part 2分支则会先将输入的特征图均分成上下两块,然后在每一块中随机地遮挡一小块,即将遮挡区域内的所有值设为0,以步骤3-5) 中另外1/2数量的特征图5作为批次分块特征遮挡模块的输入,然后利用全局最大池化得到 2048维的特征向量,最后利用三元组损失和softmax损失将特征向量的维度从2048维降到 1024维,设单批输入图像经part 1分支在特征图上应用擦除处理后计算得到的特征图为T,设经part 2分支在特征图上应用擦除处理后得到的特征图为T';
6)构建批次分块遮挡网络模型:在步骤3)的ResNet-50网络的第四卷积层后添加一个批次分块遮挡模块,即完成批次分块遮挡网络模型的构建,本例批次分块遮挡网络模型即为行人再辨识网络模型;
7)训练行人再辨识网络模型:使用步骤4)的特征图S、步骤5)中的特征图T和特征图 T'通过三元组损失和softmax损失函数对步骤6)中的批次分块遮挡网络模型进行优化,本例优化过程即为循环执行步骤7),直至损失值收敛;
softmax损失函数表示如下:
三元组损失函数表示如下:
其中,表示的是正样本图片和标准图片之间的欧式距离度量,表示的是负样本图片和标准图片之间的欧式距离度量,α是指x_a与x_n之间的距离和x_a与x_p之间的距离之间的最小间隔,右下角的+号表示表示[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零;
8)计算总训练损失:采用三元组损失函数和Softmax损失函数计算总训练损失,总训练损失为三元组损失函数和Softmax损失函数在全局分支和批次分块遮挡分支上的总和;
总训练损失表达式如下:
L=Lg+λ1L1+λ2L2,
其中,Lg表示全局分支上的损失,L1和L2分别代表特征删除分支上Part 1分支和Part 2分支的损失,λ1和λ2为控制part 1分支和part 2分支的权重,λ1和λ2均设置为1;
9)测试:将测试数据集输入到步骤7)训练后的行人再辨识网络模型中,行人再辨识网络模型读取测试数据集中的图像后,输出辨识结果,通过比较输出辨识结果与输入图像标签的泛化误差,来验证行人再辨识网络模型的训练效果和性能;
10)比较特征距离:从实时采集的视频中筛选出所有的行人图像组成候选库,并将候选库中的图像和待查询行人图像全部送入到批次分块遮挡网络模型中进行辨识分类,并比较它们之间的特征距离;
特征距离采用欧氏距离表示:
其中,x表示侯选库图像,y表示待查询行人图像,x1表示侯选库图像像素点的横坐标, x2表示侯选库图像像素点的纵坐标,y1表示待查询行人图像像素点的横坐标,y2表示待查询行人图像像素点的纵坐标;
11)完成再辨识:按照特征距离从小到大的顺序对实时采集的视频中筛选出所有的行人图像进行排序,排序从前到后相似性依次减小,即排位第一的训练图像是与待查询行人图像为同一行人的图像,找出指定对象的所有行人图像,从而完成行人再辨识,如图3所示。
实施例2:
步骤2)中k=32,其余步骤同实施例1。
下面使用实施例1的方法与现有方法进行性能比较,比较结果如下:
表1.本例方法与现有的行人再辨识方法的效果对比
表2.全局分支和特征删除分支在Market-1501上的数据对比
其中,Baseline包含全局分支,BDB包含全局分支+Part 1分支,本例方法包含全局分支+Part 1分支+Part 2分支。
由实验结果可以看出,本例方法有效的提高了网络的识别精度。
将实施例1与实施例2在Market-1501上进行实验结果比较,如图4所示,当part=1时,遮挡模块学习特征是全局的,当part开始增加时,提高了检索的准确性,由图4行可知,检索的准确性并不总是随着part的增加而增加,当part增加到4部分以上时,无论是rank-1还是mAP都开始表现出轻微的下降,过度增加的part实际上损害了部分特征的鉴别能力,故在实际应用中,建议采用part=2,k=64的训练方式。
Claims (1)
1.一种基于批次分块遮挡网络的行人再辨识方法,其特征在于,包括如下步骤:
1)分集:将已知的行人再辨识数据集Market-1501和DukeMTMC-reID中的图像分为训练数据集和测试数据集;
2)预处理:将训练数据集和测试数据集中的所有图像进行统一尺寸裁剪,将完成裁剪后的训练数据集图像顺序打乱,测试数据集中的图像不做其余处理,为需要辨识的每个行人在训练数据集中随机选择k张图像,组成小训练批,其中k=32或64;
3)预训练:利用训练数据集对ResNet-50网络进行预训练,初始化ResNet-50网络中的参数,对输入的行人图像进行特征提取,预训练的步骤如下:
3-1)将步骤2)中完成裁剪的训练数据集图像输入到ResNet-50网络中,训练数据集图像首先经过ResNet-50网络中一个步长为2的7×7卷积和一个池化层,得到特征图1;
3-2)将特征图1输入ResNet-50网络的第一卷积层,经过3个步长为1且内核大小为1×1的残差模块,输出特征图2;
3-3)将特征图2输入ResNet-50网络的第二卷积层,经过4个步长为1且内核大小为3×3的残差模块,输出特征图3;
3-4)将特征图3输入ResNet-50网络的第三卷积层,经过6个步长为1且内核大小为3×3的残差模块,输出特征图4;
3-5)将特征图4输入ResNet-50网络的第四卷积层,微调ResNet-50的网络结构,即在ResNet-50网络的第四卷积层不使用下采样操作,所以经第四卷积层后特征图4大小不变,经过4个步长为1且内核大小为3×3的残差模块,输出特征图5;
4)输入:ResNet-50网络第四卷积层之后称为全局分支,将步骤3-5)中1/2数量的特征图5作为全局分支的输入,依次经过1×1卷积层、批处理归一化层和ReLU层得到特征图S;
5)构建批次分块遮挡模块:构建的批次分块遮挡模块由两个包含不同擦除模块的Part1分支和Part 2分支组成,Part 1分支中的批量擦除层会随机擦除张量中的同一区域,将擦除区域内所有位置的值都归为0;Part 2分支则会先将输入的特征图均分成上下两块,然后在每一块中随机地遮挡一小块,即将遮挡区域内的所有值设为0,以步骤3-5)中另外1/2数量的特征图5作为批次分块特征遮挡模块的输入,然后利用全局最大池化得到2048维的特征向量,最后利用三元组损失和softmax损失将特征向量的维度从2048维降到1024维,设单批输入图像经part 1分支在特征图上应用擦除处理后计算得到的特征图为T,设经part 2分支在特征图上应用擦除处理后得到的特征图为T';
6)构建批次分块遮挡网络模型:在步骤3)的ResNet-50网络的第四卷积层后添加一个批次分块遮挡模块,即完成批次分块遮挡网络模型的构建,批次分块遮挡网络模型即为行人再辨识网络模型;
7)训练行人再辨识网络模型:使用步骤4)的特征图S、步骤5)中的特征图T和特征图T'通过三元组损失和softmax损失函数对步骤6)中的批次分块遮挡网络模型进行优化,循环执行步骤7),直至损失值收敛;
softmax损失函数表示如下:
三元组损失函数表示如下:
其中,表示的是正样本图片和标准图片之间的欧式距离度量,表示的是负样本图片和标准图片之间的欧式距离度量,α是指x_a与x_n之间的距离和x_a与x_p之间的距离之间的最小间隔,右下角的+号表示表示[]内的值大于零的时候,取该值为损失,小于零的时候,损失为零;
8)计算总训练损失:采用三元组损失函数和Softmax损失函数计算总训练损失,总训练损失为三元组损失函数和Softmax损失函数在全局分支和批次分块遮挡分支上的总和;
总训练损失表达式如下:
L=Lg+λ1L1+λ2L2,
其中,Lg表示全局分支上的损失,L1和L2分别代表特征删除分支上Part 1分支和Part 2分支的损失,λ1和λ2分别为控制part 1分支和part 2分支的权重,λ1和λ2均设置为1;
9)测试:将测试数据集输入到步骤7)训练后的行人再辨识网络模型中,行人再辨识网络模型读取测试数据集中的图像后,输出辨识结果,通过比较输出辨识结果与输入图像标签的泛化误差,来验证行人再辨识网络模型的训练效果和性能;
10)比较特征距离:从实时采集的视频中筛选出所有的行人图像组成候选库,并将候选库中的图像和待查询行人图像全部送入到批次分块遮挡网络模型中进行辨识分类,并比较它们之间的特征距离;
特征距离采用欧氏距离表示:
其中,x表示侯选库图像,y表示待查询行人图像,x1表示侯选库图像像素点的横坐标,x2表示侯选库图像像素点的纵坐标,y1表示待查询行人图像像素点的横坐标,y2表示待查询行人图像像素点的纵坐标;
11)完成再辨识:按照特征距离从小到大的顺序对实时采集的视频中筛选出所有的行人图像进行排序,排序从前到后相似性依次减小,即排位第一的训练图像是与待查询行人图像为同一行人的图像,找出指定对象的所有行人图像,从而完成行人再辨识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672398.9A CN111814705B (zh) | 2020-07-14 | 2020-07-14 | 一种基于批次分块遮挡网络的行人再辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672398.9A CN111814705B (zh) | 2020-07-14 | 2020-07-14 | 一种基于批次分块遮挡网络的行人再辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814705A true CN111814705A (zh) | 2020-10-23 |
CN111814705B CN111814705B (zh) | 2022-08-02 |
Family
ID=72843476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010672398.9A Active CN111814705B (zh) | 2020-07-14 | 2020-07-14 | 一种基于批次分块遮挡网络的行人再辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814705B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537032A (zh) * | 2021-07-12 | 2021-10-22 | 南京邮电大学 | 一种基于图片分块丢弃的分集多支路行人重识别方法 |
CN117173476A (zh) * | 2023-09-05 | 2023-12-05 | 北京交通大学 | 一种单源域泛化行人再识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018524A1 (en) * | 2015-12-16 | 2018-01-18 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109815908A (zh) * | 2019-01-25 | 2019-05-28 | 同济大学 | 一种基于深度学习和重叠图像块间度量的行人再辨识方法 |
CN109871821A (zh) * | 2019-03-04 | 2019-06-11 | 中国科学院重庆绿色智能技术研究院 | 自适应网络的行人重识别方法、装置、设备及存储介质 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110516533A (zh) * | 2019-07-11 | 2019-11-29 | 同济大学 | 一种基于深度度量的行人再辨识方法 |
CN110956158A (zh) * | 2019-12-12 | 2020-04-03 | 中山大学 | 一种基于教师学生学习框架的遮挡行人再标识方法 |
US20200125925A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Foreground Attentive Feature Learning for Person Re-Identification |
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
-
2020
- 2020-07-14 CN CN202010672398.9A patent/CN111814705B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018524A1 (en) * | 2015-12-16 | 2018-01-18 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
US20200125925A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Foreground Attentive Feature Learning for Person Re-Identification |
CN109815908A (zh) * | 2019-01-25 | 2019-05-28 | 同济大学 | 一种基于深度学习和重叠图像块间度量的行人再辨识方法 |
CN109871821A (zh) * | 2019-03-04 | 2019-06-11 | 中国科学院重庆绿色智能技术研究院 | 自适应网络的行人重识别方法、装置、设备及存储介质 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110516533A (zh) * | 2019-07-11 | 2019-11-29 | 同济大学 | 一种基于深度度量的行人再辨识方法 |
CN110956158A (zh) * | 2019-12-12 | 2020-04-03 | 中山大学 | 一种基于教师学生学习框架的遮挡行人再标识方法 |
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
LINGCHUAN SUN等: "Local to Global with Multi-Scale Attention Network for Person Re-Identification", 《2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
SONGYU CHANG等: "Batch Part-mask Network for person", 《2021 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
杨继伟: "多特征融合的行人重识别算法研究及其加速", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
陈可: "面向复杂场景的行人自动检测及重识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537032A (zh) * | 2021-07-12 | 2021-10-22 | 南京邮电大学 | 一种基于图片分块丢弃的分集多支路行人重识别方法 |
CN113537032B (zh) * | 2021-07-12 | 2023-11-28 | 南京邮电大学 | 一种基于图片分块丢弃的分集多支路行人重识别方法 |
CN117173476A (zh) * | 2023-09-05 | 2023-12-05 | 北京交通大学 | 一种单源域泛化行人再识别方法 |
CN117173476B (zh) * | 2023-09-05 | 2024-05-24 | 北京交通大学 | 一种单源域泛化行人再识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111814705B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN108898620B (zh) | 基于多重孪生神经网络与区域神经网络的目标跟踪方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111914664A (zh) | 基于重识别的车辆多目标检测和轨迹跟踪方法 | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN112101150A (zh) | 一种基于朝向约束的多特征融合行人重识别方法 | |
CN110728263A (zh) | 一种基于距离选择的强判别特征学习的行人重识别方法 | |
CN114220124A (zh) | 一种近红外-可见光跨模态双流行人重识别方法及系统 | |
CN109829467A (zh) | 图像标注方法、电子装置及非暂态电脑可读取储存媒体 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN113920472B (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN111814705B (zh) | 一种基于批次分块遮挡网络的行人再辨识方法 | |
CN111709313A (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN108921064B (zh) | 基于多特征融合的行人重识别方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN115620393A (zh) | 一种面向自动驾驶的细粒度行人行为识别方法及系统 | |
CN110135435A (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN117079226A (zh) | 一种基于多尺度注意力机制的车辆重识别方法 | |
CN117152625A (zh) | 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231102 Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province Patentee after: Shenzhen Wanzhida Technology Co.,Ltd. Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Patentee before: Guangxi Normal University |
|
TR01 | Transfer of patent right |