CN112396036A - 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 - Google Patents

一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 Download PDF

Info

Publication number
CN112396036A
CN112396036A CN202011426322.4A CN202011426322A CN112396036A CN 112396036 A CN112396036 A CN 112396036A CN 202011426322 A CN202011426322 A CN 202011426322A CN 112396036 A CN112396036 A CN 112396036A
Authority
CN
China
Prior art keywords
network
picture
pedestrian
spatial
img
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011426322.4A
Other languages
English (en)
Other versions
CN112396036B (zh
Inventor
郑伟诗
张镓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202011426322.4A priority Critical patent/CN112396036B/zh
Publication of CN112396036A publication Critical patent/CN112396036A/zh
Application granted granted Critical
Publication of CN112396036B publication Critical patent/CN112396036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,包括下述步骤:用模拟遮挡生成器构建有遮挡的行人图片集;将原始图片与有遮挡的行人图片组成数据集并输入到空间变换网络中进行空间变换纠正;通过卷积神经网络和空间金字塔池化层对纠正后的图进行多尺度特征提取并合并为定长一维特征向量;将定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量并进行身份分类训练,得到训练好的网络;用训练好的网络提取待查询的行人图像的特征并进行相似度匹配。本发明进行多尺度特征提取,通过结合不同尺度的特征图,使得模型更具鲁棒性;还引入了空间变换网络,可直接嵌入到任意深度网络模型中进行端到端的训练。

Description

一种结合空间变换网络和多尺度特征提取的遮挡行人重识别 方法
技术领域
本发明属于深度学习和计算机视觉的技术领域,具体涉及一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法。
背景技术
行人重识别被认为是一个图像检索的子问题,其希望利用计算机视觉技术进行跨摄像头的追踪,具体为给出某一张摄像头下的待查询行人图像,从其他非重叠摄像头拍摄得到的图像库中检索出具有相同身份的行人图像。该技术被广泛应用于视频监控、智能安保等公共安全领域。在过去的几年中,行人重识别问题得到了广泛的研究,但它们通常假设图像库和待查询图像是完整的行人图像,而实际场景中我们的行人总会不可避免被各种障碍物遮挡、比如车辆、墙壁、其他行人等,这就是有遮挡的行人重识别问题。
针对遮挡行人重识别问题,一些研究者提出了自己的解决方案,概括地说主要有以下几种:
1)增强训练样本,在训练样本加入随机遮挡样本来提升深度神经网络对于遮挡行人图像的识别能力,但是仅仅只是这样做也会不可避免地由于遮挡而引入了噪声特征。
2)成对训练学习,选取一张完整行人图像和一张被遮挡的行人图像组成一对输入数据,分别送入相同/不同的网络去提取特征,最后根据拉近相同身份的人的特征,拉远不同身份的人的特征这个原则来指导网络学习。这种方法能够有效地区分不同行人的身份,但是它对训练样本的组成敏感,训练样本的数量不同或者一对输入数据的两张图片选择不同,可能会很大地影响模型效果。
3)引入人体关键点估计模型。通过识别一张图上人的关键点(骨架点),让模型能够只关注人的区域,最后通过提高人的区域的特征权重,大幅降低或去掉非人部分的特征权重,能够有效地提升识别效果,减轻遮挡因素的干扰。但是这种方法取决于要事先训练出一个效果优秀的人体关键点估计模型,训练成本稍大。
4)采用图网络和人体关键点估计结合的方法。先使用人体关键点估计模型来学习关键点,提取对应关键点的语义信息,然后将学到的语义特征作为图的节点,通过一个方向自适应图卷积层来学习和传递边缘特征,最后学习两张图(两个人)的节点间的对应关系。这个方法能够大大提高识别的正确率,但由于同时有图网络和人体关键点估计、模型较复杂,训练成本较高。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,能够以较简单的模型、较低的训练成本取得较好的识别效果。
为了达到上述目的,本发明采用以下技术方案:
本发明提供了一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,包括下述步骤:
S1、利用模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片;
S2、将原始行人图片与新生成的有遮挡的行人图片组成新的数据集,并将新的数据集输入到空间变换网络中进行空间变换纠正;所述空间变换网络用于对新的数据集中的图片进行自动裁剪、平移、缩放,使图片只保留人的部分,得到纠正后的图片;
S3、利用卷积神经网络和空间金字塔池化层对所述纠正后的图片进行多尺度特征提取并合成定长一维特征向量;
S4、将所述定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量,再进行行人图像的身份分类训练,得到训练好的网络;
S5、利用所述训练好的网络提取待查询的行人图像的特征并进行相似度匹配。
作为优选的方案,步骤S1中,所述模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片的具体步骤为:
S1.1、设原始行人图片img的大小为w*h,提取img的四个顶点的像素值img[0,0],img[0,h-1],img[w-1,0]以及img[w-1,h-1],求出所述四个顶点的平均像素值C,计算公式如下:
C=(img[0,0]+img[0,h-1]+img[w-1,0]+img[w-1,h-1])/4;
S1.2、随机选取一个矩形局域:
AREA=[Xrandom,Yrandom,Xrandom+w′,Yrandom+h′];
其中Xrandom,Yrandom表示矩形左上角坐标,Xrandom+w′,Yrandom+h′表示矩形右下角坐标,满足w′=min(w,50),h′=min(h,50)且矩形区域不超出原图的范围;
S1.3、使用C替换该矩形区域的像素值,得到一张有遮挡的行人图片。
作为优选的方案,步骤S2中,所述空间变换网络包括:定位网络、坐标生成器和采样器;
所述定位网络利用一个小卷积神经网络提取图片特征,并将所述图片特征通过全连接回归层得到6个变换参数;
所述坐标生成器用于根据所述变换参数构建采样网络,即得到一种映射关系Tθ,具体为:
Figure BDA0002824988210000041
其中
Figure BDA0002824988210000042
表示输入空间变换网络中的图片U的第i个像素点的坐标,
Figure BDA0002824988210000043
Figure BDA0002824988210000044
表示目标图像V的第i个像素点的坐标,θ为定位网络得到的6个变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片U进行像素级采样复制得到目标图像V;所述采样器采用双线性采样,计算公式如下:
Figure BDA0002824988210000045
Figure BDA0002824988210000046
其中,H、W、C分别为输入空间变换网络中的图片U的高、宽和通道数,
Figure BDA0002824988210000047
为输入空间变换网络中的图片U的第c个通道中坐标为(n,m)的像素点的值,H′、W′分别表示目标图像V的高和宽,
Figure BDA0002824988210000048
表示目标图像V第c个通道中第i个像素点的值。
作为优选的方案,步骤S3中,所述卷积神经网络采用调整后的ResNet50,具体为:采用原始ResNet50的第一层卷积层到第五层卷积层结构并对最后一层卷积层结构执行放大操作,得到比原输出的特征图大一倍的特征图表示;所述的放大操作为将第五层卷积层结构的卷积核步长由原始的2改为1。
作为优选的方案,步骤S3中,所述空间金字塔池化层用于将任意大小的输入图片输出成多个不同固定大小的特征图,并将所述多个不同固定大小的特征图各自展开成一维特征向量并通过concat操作合并成一个定长一维特征向量;所述的将任意大小的输入图片输出成多个不同固定大小的特征图的方法为:
设输入图片的大小为h*w,输出的特征图大小为ha*wb,则有:
Figure BDA0002824988210000051
最后采用卷积核为(hwindow,wwindow),步长为(hstride,wstride)的最大池化层对输入图片进行下采样操作得到固定大小为a*b的特征图输出。
作为优选的方案,步骤S4中,所述全连接层的输出为:
Figure BDA0002824988210000052
其中x表示空间金字塔池化层得到的定长一维特征向量输入,K表示训练数据种类数,yk表示输出的一维特征向量中的第k个元素,
Figure BDA0002824988210000053
和bk分别为对应的权重和偏置项。
作为优选的方案,步骤S4中,所述行人图像的身份分类训练采用的损失函数为标签平滑后的交叉熵,具体形式如下式:
Figure BDA0002824988210000054
Figure BDA0002824988210000055
Figure BDA0002824988210000056
其中p(k|x)表示样本x属于类别k的概率,yk为全连接层输出的一维特征向量中的第k个元素,q(k)为训练数据属于种类k的真实概率,q′(k)为标签平滑后的q(k),Loss为最终的损失函数,α为超参数,默认值为0.1。
作为优选的方案,步骤S5中,所述利用训练好的网络提取待查询的行人图像的特征并进行相似度匹配具体为:
将所述待查询的行人图像顺序经过训练好的网络的空间变换网络、卷积神经网络以及空间金字塔池化层,提取定长一维特征向量,并利用KNN算法计算待查询的行人图像的定长一维特征向量与数据库中所有图片的特征向量之间的欧几里得距离,距离最短的认为两者最大概率为同一个人,距离次短的认为两者第二大概率为同一个人,以此类推。
本发明与现有技术相比,具有如下优点和有益效果:
1、在训练数据增强上,现有技术通常为随机生成一个黑框来模拟遮挡,这样做使得遮挡物单一且与人物周围环境不符。本发明的遮挡框为提取原图的像素构成,遮挡物与周围环境类似且不同样本之间的遮挡物不同,以此提高训练样本的多样性,从而帮助模型提高识别准确率。
2、引入空间变换网络进行图片自动裁剪、缩放、平移,帮助模型更专注于图片中人的部分。相比于大多数现有方法需要额外训练一个姿态估计模型去识别人的部分,空间变换网络不需要额外训练,可以直接嵌入到任意深度网络模型中进行端到端的训练,模型会更简单但却有效。
3、针对行人图像可能会存在不同尺度的问题,本发明进行多尺度特征提取,通过结合不同尺度的特征图,使得模型更具鲁棒性。而多尺度特征提取采用空间金字塔池化可以对任意输入产生固定大小的输出,也提高了图像的尺度不变性。
4、现有最优方法大多需要额外单独训练某个模型或者网络结构再用它们来辅助训练最终的模型,这样的方法训练起来较麻烦,而本发明的各个结构可以整体一起训练,没有需要单独训练的部分,是一种端到端的模型,训练容易,效果也不差于现有最优方法。
附图说明
图1为本发明实施例的整体框架图;
图2为本发明实施例的空间变换网络结构图;
图3为本发明实施例的卷积神经网络结构图;
图4为本发明实施例的空间金字塔池化层结构图。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方案和具体操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例提供了一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,包括以下步骤:
S1、构建行人图像训练集。具体地,在本实施例中,采用Market1501为原始行人图片数据集,首先将Market1501所有训练集图片resize成384*128的大小并输入到模拟遮挡生成器,得到对应的有遮挡的行人图片集,然后将原始图片数据集和新生成的有遮挡的行人图片集合并成一个新数据集,具体包括:
S1.1、利用模拟遮挡生成器生成遮挡,具体方法为:设原始行人图片img的大小为w*h,提取img的四个顶点的像素值img[0,0],img[0,h-1],img[w-1,0]以及img[w-1,h-1],求出所述四个顶点的平均像素值C,计算公式如下:
C=(img[0,0]+img[0,h-1]+img[w-1,0]+img[w-1,h-1])/4;
S1.2、随机选取一个矩形区域:
AREA=[Xrandom,Yrandom,Xrandom+w′,Yrandom+h′];
其中Xrandom,Yrandom表示矩形左上角坐标,Xrandom+w′,Yrandom+h′表示矩形右下角坐标,满足w′=min(w,50),h′=min(h,50)且矩形区域不超出原图的范围;
S1.3、使用C替换该矩形区域的像素值,得到一张新生成的有遮挡的行人图片,将所述原始图片与新生成的有遮挡图片组成新的数据集;
S2、将S1.3中得到的新的数据集输入到空间变换网络中进行空间变化纠正;所述空间变换网络用于对图片进行自动平移、裁剪、缩放,得到尽可能只保留人的部分的纠正后的图片;如图2所示,所述空间变换网络包括定位网络、坐标生成器以及采样器三个部分;所述定位网络包括小卷积神经网络部分和全连接层部分;
S2.1、所述定位网络的小卷积神经网络部分采用两组卷积层,其中,第一组卷积层的卷积核为3*3,步长为1,填充宽度为1,输出通道为8,最大池化的卷积核为2*2,步长为2,最后采用ReLU作为激活函数。第二组卷积层的卷积核为3*3,步长为1,填充宽度为1,输出通道为16,最大池化的卷积核为1,步长为2,最后采用ReLU作为激活函数;
S2.2、所述定位网络的全连接层部分采用了两个全连接层,其中,第一个全连接层输出512维特征向量,第二个全连接层输出6维特征向量;
S2.3、所述坐标生成器使用步骤S2.2所得的6维特征向量作为变换参数构建采样网络,即得到一种映射关系Tθ,具体为:
Figure BDA0002824988210000081
其中
Figure BDA0002824988210000082
表示原始图片中某一像素点的坐标,
Figure BDA0002824988210000083
表示目标图像某一像素点的坐标,θ为定位网络得到的6个变换参数;
S2.4、所述采样器用于根据所述采样网络所得的映射关系对输入空间变换网络中的图片U进行像素级采样复制得到目标图像V,所述采样器采用双线性采样,计算公式如下:
Figure BDA0002824988210000091
Figure BDA0002824988210000092
其中,H、W、C分别为输入空间变换网络中的图片U的高、宽和通道数,
Figure BDA0002824988210000093
为表示输入空间变换网络中的图片U的第c个通道中坐标为(n,m)的像素点的值,H′、W′分别表示目标图像V的高和宽,
Figure BDA0002824988210000094
表示图片v第c个通道中第i个像素点的值;特别地,在本实施例中,输入空间变换网络中的图片U和目标图像V的高、宽以及通道数都是相等的。
S3、将步骤S2.4所得目标图像V输入到卷积神经网络中提取特征,然后将提取到的特征图再输入到空间金字塔池化层进行多尺度特征提取:
S3.1、所述卷积神经网络采用调整后的ResNet50,其结构如图3所示;采用原始ResNet50的第一层卷积层到第五层卷积层结构(conv1~conv5),其中conv1~conv4的结构不变,conv5的步长由2改为1,即最后一层卷积层conv5的结构执行放大操作,用于得到比原输出的特征图大一倍的特征图表示;
S3.2、空间金字塔池化层结构如图4所示,所述空间金字塔池化层用于将任意大小的输入图片输出成多个不同固定大小的特征图,再将所述多个不同固定大小的特征图各自展开成一维特征向量并通过concat操作合并成一个定长一维特征向量,具体方法为:
设输入图片的大小为h*w,输出的特征图大小为ha*wb,则有:
Figure BDA0002824988210000095
最后采用卷积核为(hwindow,wwindow),步长为(hstride,wstride)的最大池化层进行对输入图片进行下采样操作就能得到固定大小为a*b的特征图输出;进一步地,本发明实施例中的空间金字塔池化层输出为一个4*4大小的特征图和一个1*1大小的特征图;
S4、如图1所示,将所述定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量,再进行行人图像的身份分类训练,得到训练好的网络,具体为:
S4.1、将步骤S3.2所得的定长一维特征向量输入到全连接层,所述全连接层输出为包含K个元素的一维特征向量,具体为:
Figure BDA0002824988210000101
其中x表示空间金字塔池化层得到的定长一维特征向量输入,K表示训练数据种类数,yk表示输出的一维特征向量中的第k个元素,
Figure BDA0002824988210000102
和bk分别为对应的权重和偏置项;
S4.2、进行行人身份分类训练;所述行人身份分类训练采用的损失函数为标签平滑后的交叉熵,具体形式如下式:
Figure BDA0002824988210000103
Figure BDA0002824988210000104
Figure BDA0002824988210000105
其中p(k|x)表示样本x属于类别k的概率,yk为全连接层的输出的一维特征向量中的第k个元素,q(k)为训练数据属于种类k的真实概率,q′(k)为标签平滑后的q(k),Loss为最终的损失函数,α为超参数,默认值为0.1。
S5、如图1所示,将所述待查询的行人图像顺序经过训练好的网络的空间变换网络、卷积神经网络以及空间金字塔池化层,得到所述待查询行人图片的最终一维特征向量;用所述最终一维特征向量与图像库里的行人图像进行相似度匹配;
具体地,在本实施例中,相似度匹配算法采用KNN算法,所述KNN算法计算待查询图像特征向量与数据库中所有图片的特征向量之间的欧几里得距离,距离最短的可认为两者最大概率为同一个人,距离次短可以认为两者第二大概率为同一个人,以此类推。
在本实施例中采用端到端的模型在partial-reid遮挡行人重识别数据集上依然取得了不弱于现有技术的结果,具体如表1所示:
方法 Rank-1 Rank-3 mAP
AMC+SWM 34.27 46.00 31.33
DSR 50.70 70.00 68.07
SFR 56.90 78.50 /
resnet50 53.80 69.50 65.70
PCB 56.30 / 54.70
Teacher-S 55.00 / 59.80
VPM 64.30 81.90 /
PGFA 68.00 80.00 /
our 64.30 82.30 74.39
表1
特别地,本发明的所有参数除指明取值的超参数外,均为深度网络参数,由随机梯度下降法进行自主学习优化。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,包括下述步骤:
利用模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片;
将原始行人图片与新生成的有遮挡的行人图片组成新的数据集,并将新的数据集输入到空间变换网络中进行空间变换纠正;所述空间变换网络用于对新的数据集中的图片进行自动裁剪、平移、缩放,使图片只保留人的部分,得到纠正后的图片;
利用卷积神经网络和空间金字塔池化层对所述纠正后的图片进行多尺度特征提取并合成定长一维特征向量;
将所述定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量,再进行行人图像的身份分类训练,得到训练好的网络;
利用所述训练好的网络提取待查询的行人图像的特征并进行相似度匹配。
2.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片的具体步骤为:
设原始行人图片img的大小为w*h,提取img的四个顶点的像素值img[0,0],img[0,h-1],img[w-1,0]以及img[w-1,h-1],求出所述四个顶点的平均像素值C,计算公式如下:
C=(img[0,0]+img[0,h-1]+img[w-1,0]+img[w-1,h-1])/4;
随机选取一个矩形局域:
AREA=[Xrandom,Yrandom,Xrandom+w′,Yrandom+h′];
其中Xrandom,Yrandom表示矩形左上角坐标,Xrandom+w′,Yrandom+h′表示矩形右下角坐标,满足w′=min(w,50),h′=min(h,50)且矩形区域不超出原图的范围;
使用C替换该矩形区域的像素值,得到一张有遮挡的行人图片。
3.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述空间变换网络包括:定位网络、坐标生成器和采样器;
所述定位网络利用一个小卷积神经网络提取图片特征,并将所述图片特征通过全连接回归层得到6个变换参数;
所述坐标生成器用于根据所述变换参数构建采样网络,即得到一种映射关系Tθ,具体为:
Figure FDA0002824988200000021
其中
Figure FDA0002824988200000022
表示输入空间变换网络中的图片U的第i个像素点的坐标,
Figure FDA0002824988200000023
Figure FDA0002824988200000024
表示目标图像V的第i个像素点的坐标,θ为定位网络得到的6个变换参数;
所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片U进行像素级采样复制得到目标图像V;所述采样器采用双线性采样,计算公式如下:
Figure FDA0002824988200000025
Figure FDA0002824988200000026
其中,H、W、C分别为输入空间变换网络中的图片U的高、宽和通道数,
Figure FDA0002824988200000027
为输入空间变换网络中的图片U的第c个通道中坐标为(n,m)的像素点的值,H′、W′分别表示目标图像V的高和宽,
Figure FDA0002824988200000028
表示目标图像V第c个通道中第i个像素点的值。
4.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述卷积神经网络采用调整后的ResNet50,具体为:采用原始ResNet50的第一层卷积层到第五层卷积层结构并对最后一层卷积层结构执行放大操作,得到比原输出的特征图大一倍的特征图表示。
5.根据权利要求4所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述的放大操作为将第五层卷积层结构的卷积核步长由原始的2改为1。
6.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述空间金字塔池化层用于将任意大小的输入图片输出成多个不同固定大小的特征图,并将所述多个不同固定大小的特征图各自展开成一维特征向量并通过concat操作合并成一个定长一维特征向量。
7.根据权利要求6所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述的将任意大小的输入图片输出成多个不同固定大小的特征图的方法为:
设输入图片的大小为h*w,输出的特征图大小为ha*wb,则有:
Figure FDA0002824988200000031
最后采用卷积核为(hwindow,wwindow),步长为(hstride,wstride)的最大池化层对输入图片进行下采样操作得到固定大小为a*b的特征图输出。
8.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述全连接层的输出为:
Figure FDA0002824988200000032
其中x表示空间金字塔池化层得到的定长一维特征向量输入,K表示训练数据种类数,yk表示输出的一维特征向量中的第k个元素,
Figure FDA0002824988200000033
和bk分别为对应的权重和偏置项。
9.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述行人图像的身份分类训练采用的损失函数为标签平滑后的交叉熵,具体形式如下式:
Figure FDA0002824988200000034
Figure FDA0002824988200000035
Figure FDA0002824988200000041
其中p(k|x)表示样本x属于类别k的概率,yk为全连接层输出的一维特征向量中的第k个元素,q(k)为训练数据属于种类k的真实概率,q′(k)为标签平滑后的q(k),Loss为最终的损失函数,α为超参数,默认值为0.1。
10.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法,其特征在于,所述利用训练好的网络提取待查询的行人图像的特征并进行相似度匹配具体为:
将所述待查询的行人图像顺序经过训练好的网络的空间变换网络、卷积神经网络以及空间金字塔池化层,提取最终的定长一维特征向量,并利用KNN算法计算待查询的行人图像最终的定长一维特征向量与数据库中所有图片的特征向量之间的欧几里得距离,距离最短的认为两者最大概率为同一个人,距离次短的认为两者第二大概率为同一个人,以此类推。
CN202011426322.4A 2020-12-09 2020-12-09 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 Active CN112396036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011426322.4A CN112396036B (zh) 2020-12-09 2020-12-09 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011426322.4A CN112396036B (zh) 2020-12-09 2020-12-09 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法

Publications (2)

Publication Number Publication Date
CN112396036A true CN112396036A (zh) 2021-02-23
CN112396036B CN112396036B (zh) 2023-08-08

Family

ID=74624762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011426322.4A Active CN112396036B (zh) 2020-12-09 2020-12-09 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法

Country Status (1)

Country Link
CN (1) CN112396036B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801051A (zh) * 2021-03-29 2021-05-14 哈尔滨理工大学 一种基于多任务学习的遮挡行人重识别方法
CN112990144A (zh) * 2021-04-30 2021-06-18 德鲁动力科技(成都)有限公司 一种用于行人重识别的数据增强方法及系统
CN114639165A (zh) * 2022-03-16 2022-06-17 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960127A (zh) * 2018-06-29 2018-12-07 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN109670528A (zh) * 2018-11-14 2019-04-23 中国矿业大学 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110135366A (zh) * 2019-05-20 2019-08-16 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN108960127A (zh) * 2018-06-29 2018-12-07 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN109670528A (zh) * 2018-11-14 2019-04-23 中国矿业大学 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN110135366A (zh) * 2019-05-20 2019-08-16 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈聪;杨忠;宋佳蓉;韩家明;: "一种改进的卷积神经网络行人识别方法", 应用科技, no. 03, pages 55 - 61 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801051A (zh) * 2021-03-29 2021-05-14 哈尔滨理工大学 一种基于多任务学习的遮挡行人重识别方法
CN112990144A (zh) * 2021-04-30 2021-06-18 德鲁动力科技(成都)有限公司 一种用于行人重识别的数据增强方法及系统
CN112990144B (zh) * 2021-04-30 2021-08-17 德鲁动力科技(成都)有限公司 一种用于行人重识别的数据增强方法及系统
CN114639165A (zh) * 2022-03-16 2022-06-17 平安科技(深圳)有限公司 基于人工智能的行人重识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112396036B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN108460356B (zh) 一种基于监控系统的人脸图像自动处理系统
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN107103277B (zh) 一种基于深度相机和3d卷积神经网络的步态识别方法
US20210264144A1 (en) Human pose analysis system and method
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN113361495A (zh) 人脸图像相似度的计算方法、装置、设备及存储介质
JP7439153B2 (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN112396036B (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN115497122A (zh) 遮挡行人重识别方法、装置、设备和计算机可存储介质
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN113971801A (zh) 一种基于四类多模态数据融合的目标多维度检测方法
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN106650629A (zh) 一种基于核稀疏表示的快速遥感目标检测识别方法
Safar et al. Learning shape priors for object segmentation via neural networks
CN113112547A (zh) 机器人及其重定位方法、定位装置及存储介质
CN113792660B (zh) 基于改进YOLOv3网络的行人检测方法、系统、介质、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant