CN109492528A - 一种基于高斯和深度特征的行人再识别方法 - Google Patents
一种基于高斯和深度特征的行人再识别方法 Download PDFInfo
- Publication number
- CN109492528A CN109492528A CN201811149328.4A CN201811149328A CN109492528A CN 109492528 A CN109492528 A CN 109492528A CN 201811149328 A CN201811149328 A CN 201811149328A CN 109492528 A CN109492528 A CN 109492528A
- Authority
- CN
- China
- Prior art keywords
- feature
- pedestrian
- model
- follows
- patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于高斯和深度特征的行人再识别方法,其方法为:步骤一、收集训练集和测试集;步骤二、快速的提取行人特征;步骤三、提取行人特征的语义特征;步骤四、用模型进行训练和提取特征;步骤五、对JDAG模型的性能进行测试;步骤六、对最终的结果队列进行重新排序。有益效果:将卷积神经网络提取的语义特征与行人的特有特征(颜色、纹理)相结合,提高特征的可辨别性。接下来又使用Re‑ranking的方法,对以前的相似性分数进行重新排列,使得给出一张图片,能够更加精准的找出图片集中与该图片中行人有相同ID的行人。
Description
技术领域
本发明涉及一种行人再识别方法,特别涉及一种基于高斯和深度特征的行人再识别方法。
背景技术
目前,计算机视觉领域的智能监督系统中出现了一个新兴的任务——行人再识别。这项任务主要是解决在复杂变化的环境中行人识别和行人身份相似性匹配的问题。行人再识别的要解决的关键问题是将索引队列中的行人图片与整个数据集中的图片进行匹配,找出同一个人。当然数据集中的行人图片都是用不同位置的摄像机拍摄后截取得到,即要确保行人场景的真实性。然而,正是因为摄像机的位置和角度不同,有一些行人的外置因素会给行人再识别任务带来极大的挑战,例如光照、遮挡、行人姿势、分辨率、位置远近等不可抗性因素。因此研究者们更加关注于提高识别和检索任务的准确性和有效性。
解决行人再识别问题一般分为三个步骤:特征提取、相似度计算和评估。首先,我们知道卷积神经网络已经被广泛的用于特征向量提取,并且已经取得了一流的效果。然后,这里仍然存在着两个主要的困难:1)行人再识别任务的训练集相对较小,因此训练过程中容易产生过拟合现象。2)行人再识别问题主要是基于行人的颜色和纹理特征。然而,卷积神经网络并没有特意关注这些特征,反而提取的是图片的语义特征。尽管语义特征可能会更加的精准和丰富,但是确不能很好的处理小数据集。对于小数据集来说,使用传统的机器学习方法来提取行人的颜色和纹理特征性能会更加的完善。正因为上面情况的存在,我们提出了一个想法:将传统的机器学习和卷积网络进行结合从而提升特征的可辨别性。
众所周知,用传统的机器学习的方法提取特征一直以来也是一个研究热点。比如,Local Maximal Occurrence(LOMO)特征、Covariance-of-Covariance特征和最近提出的Gaussian Of Gaussian(GOG)特征。GOG特征是在区域层次中结合了均值和方差信息,从而获得了很好的性能。因此,我们将GOG特征作为我们模型中的传统分支。
相似性计算和评估可以看成是一个整体。我们用距离度量学习(DML)来进行训练。当前,已经证明有很多DML方法对行人再识别问题帮助很大。例如,Davis等人提出了一个信息理论方法(ITML),该方法能够有效的解决行人再识别问题。Guillaumin等人为了训练带标签的一对图片,提出了逻辑判别法。DML方法也包括person re-id methods(eSDC),KISSME,XQDA和直接使用欧氏距离来直接计算相似性分数。我们使用欧式距离的方法来作为神经网络中的验证模型。
发明内容
本发明的目的是为了提高识别和检索任务的准确性和有效性而提供的一种基于高斯和深度特征的行人再识别方法。
本发明提供的基于高斯和深度特征的行人再识别方法,其方法如下所述:
步骤一、从互联网上找出不同摄像头拍摄的同个路段的视频,并对视频按照一定时间提取帧,手动画出行人的位置框,收集训练集和测试集;
步骤二、使用传统机器学习多层次高斯描述符GOG方法,按照行人再识别技术的侧重点,构造提取行人特征函数,并且快速的提取行人特征;
步骤三、使用深度学习方法,将识别模型与验证模型结合共同训练数据集,提取行人特征的语义特征;
步骤四、将传统机器学习的GOG模型与深度训练模型融合形成联合的JDAG模型,用该模型进行训练和提取特征;
步骤五、使用距离度量训练的方法来判定两张图片是否表示同一个人,从而对JDAG模型的性能进行测试;
步骤六、使用k-reciprocal编码的方法,结合原始的排序结果,对最终的结果队列进行重新排序。
步骤一中从互联网上找出不同摄像头拍摄的同个路段的视频,并对视频按照一定时间提取帧,手动画出行人的位置框,收集训练集和测试集的步骤如下:
(1)、从互联网中下载行人再识别技术中的常见图像数据集Market1501,构成图像集合其中Nd是集合IMG中的图像总数;
(2)、该数据集共有数个行人,数个位置框,这些行人共用数个相机去捕捉,每个行人至少用两个摄像机去标注;
(3)、使用Deformable Part Model即DPM技术来提取位置框,从而产生错误的正例,这样可以避免手工提取框的“完美性”和“不切实际性”,训练结果更贴近真实场景;
(4)、图片的命名方式,例如,0001_c1s1_001051_00.jpg,其中“c1”指的是第一台摄像机,“s1”指的是摄像机1的第一段视频,其中“c1s1”和“c2s1”表示的是不同摄像机同一个时间段下的画面,“001051”表示的“c1s1”下的第1051帧,帧是通过视频每25秒截取一次来得到的,“0001”指行人id;
(5)、将图片集划分训练集和测试集,测试集“bounding_box_test”有数张图片,训练集“bounding_box_train”有数张图片,“query”有数个行人,对于每个摄像机随机选取一个队列图片,所以一个行人最多有6张队列图片,一共有数张图片,“gt_query”包含的是真实值的标注信息,对于每一个队列来说,每一个相关的图片被标记为“good”或者“junk”,“junk”对搜索的精度无任何影响。
步骤二中使用传统机器学习多层次高斯描述符GOG方法,按照行人再识别技术的侧重点,构造提取行人特征的函数,并且快速的提取行人特征的步骤如下:
(1)、构造像素特征函数:设一个行人图片是一个G区域,为了描述G的局部结构,提取个像素的k*k方形区域为一个patch,每个patch间隔为p个像素,对于每一个像素i,我们提取d维的特征向量fi,我们提取8维的像素特征向量:
y表示的是垂直方向的像素位置,指的是四个方向的像素梯度大小,R,G,B是颜色通道值,使用上面的公式提取像素特征;
(2)、定义patch高斯特征向量函数:在提取完像素特征之后,将这些特征通过经典的参数分布来进行总结,具有求均值和协方差意义的高斯分布,对于每个patch s,patch高斯函数为:
μs是均值向量,∑s是patch s的协方差矩阵,均值向量和协方差矩阵分别表示为:
其中Ls表示patch s区域,ns表示Ls中像素的个数;
(3)、定义区域高斯函数:将patch高斯总结在一个区域中,把patch高斯编码进d+1维的SPD矩阵中,用表示,则定义转换后patch高斯的公式为:
然后将patch高斯Ps通过一个矩阵算法映射进正切空间中,将Ps再次变换为m=(d2+3d)/2+1维的信号向量gs:
其中,log(Ps)是矩阵算法操作;
(4)、构造权重函数:一张行人图片会包含一定的背景区域,为了抑制背景区域的影响,为每一个patch引入一个权重,定义权重均值向量和协方差矩阵为:
其中,G指的是总结patch高斯后的区域,最后的区域高斯表达为N(g;μG,ΣG);
(5)、融合不同的颜色空间:从不同的颜色空间提取特征能够对整体的特征进行补充,从而能够提高行人再识别技术的精确性,RGB是最基本的颜色空间,用其他三种颜色空间{Lab,HSV,nRGB}对其进行替换,然后将所有的特征进行融合,形成GOG特征,其中nRGB指的是标准化颜色空间nRGB=R/(R+G+B),像素空间的维度为d={8,8,8,7},patch高斯向量的维度为m={45,45,45,36};
(6)、标准化GOG特征:对得到的特征进行L2标准化:
其中是GOG特征的均值;
步骤三中使用深度学习方法,将识别模型与验证模型结合共同训练数据集,提取行人特征的语义特征的步骤如下:
(1)、验证模型:验证模型的输入是一对图片,输出一个相似性分数,该相似性分数一般计算特征向量的余弦距离得到,然后再通过对比损失函数来不断的调整,一般的验证模型先找到两张图片的相似位置,然后使用softmax损失函数将相似性回归作为一个二分类的问题,也可以加入一个不同匹配层,从而比较两张图片的相邻像素中的激活情况,更直接的方式是使用CNN网络来提取特征,也可以用三个样例来进行训练,这样就可以同时的考虑这两张图片是同一个人或者是不同的人;
(2)、识别模型:正常情况下的CNN网络模型没有部分匹配的功能,因此只能够通过本身来训练出可以辨别的特征向量,已有很多的方法都是直接的使用卷积的重新调参的方法来进行行人再识别,效果显著,这说明了卷积网络的确适合行人再识别技术,也有使用CNN提取的特征与手工提取的特征进行组合,取得了不错的效果,这说明特征互相补充能够影响性能;
(3)、验证识别模型结合:模型使用了ImageNet预训练模型,该模型已经被证实,是提取图片特征比较完善的预训练模型,能够达到很好的性能;
(4)、识别损失函数与验证损失函数:识别损失函数和验证损失函数都是用交叉熵损失函数来定义,识别损失函数表示为:
其中,ο表示卷积操作,f是一个1×1×4096维度的向量,t是目标类,θI表示的是加入卷积层的参数,是一个预测概率,pi是目标概率,当i=t时,pt=1,其余所有情况pi=0;
验证损失函数表示为:
步骤四中将传统机器学习的GOG模型与深度训练模型融合形成联合的JDAG模型,用该模型进行训练和提取特征的步骤如下:
(1)、引入2stream Siamese的Resnet50模型来提取一对图片的pool5层特征;
(2)、两张图片的GOG特征fg和fg_2分别输入进全连接层中,输出分别为f1和f2;
(3)、将pool5层特征和GOG特征结合,形成融合特征和
(4)、融合特征通过全连接层作为一个多分类任务来识别行人的ID;
(5)、使用欧式距离层来比较融合特征,用接下来的全连接层作为二分类任务来预测相似性分数,欧式距离层可以表示为:
(6)、用softmax层来计算两个识别损失函数和一个验证损失函数,通过交叉熵损失函数来表示:
其中,x表示特征向量,p(x)和q(x)分别表示预测概率和目标概率,H是交叉熵损失函数。
步骤五中使用距离度量训练的方法来判定两张图片是否表示同一个人,从而对JDAG模型的性能进行测试的步骤如下;
(1)、从网上直接下载KISSME距离度量训练代码,将所求得的特征输入,绘制CMC曲线图;
(2)、从网上直接下载XQDA距离度量训练代码,将所求得的特征向量输入,并绘制CMC曲线图;
(3)、直接使用欧式距离公式来求得特征向量间的欧式距离,以此来判断两张图片的相似性,若距离越小,说明两张图片越相似,更可能为同一个行人ID。
步骤六中使用k-reciprocal编码的方法,结合原始的排序结果,对最终的结果队列进行重新排序的步骤如下:
(1)、给出一个指针行人p和N张图片集G={gi|i=1,2,...,N},两张行人p和gi的马氏距离为:
d(p,gi)=(xp-xgi)TM(xp-xgi), (17)
根据原始求得的距离,排序得到的列表为:目标是对L进行重新排序;
(2)、求K-reciprocal最近邻,定义k层最近邻为N(p,k),因此K-reciprocal最近邻为:
R(p,k)={(gi∈N(p,k))∩(p∈N(gi,k))}, (18)
将R*(p,k)更多正例加入候选集R(p,k)中;
(3)、求Jaccard距离:通过比较p和gi的k-reciprocal最近邻来重新计算它们的距离,使用Jaccard距离策略来计算p和gi最近邻的距离:
(4)、将该Jaccard距离作为原始距离的重新排序,则最后的距离公式为:
d*(p,gi)=(1-λ)dJ(p,gi)+λd(p,gi), (21)。
本发明的有益效果:
本发明提供了一种行人再识别的研究方法,当同一个行人在不同路段中路过,能否被机器自动的识别出是否是同一个人,这是行人再识别应用在生产生活中的关键。为了更加贴近生活场景,本发明选取的是Market1501的校园路段数据集,通过DPM方法框出行人,不采用手工标注是因为DPM标注更加符合环境。然而,若直接使用卷积神经网络网络模型(如VGG16、ResNet50)容易产生过拟合现象,而且没能关注到行人一些特有的特征(如衣服颜色、纹理),因此本发明引入了一个最新的模型JDAG,该模型融合2stream ResNet50的神经学习网络和GOG的传统机器学习模型。将卷积神经网络提取的语义特征与行人的特有特征(颜色、纹理)相结合,提高特征的可辨别性。接下来又使用Re-ranking的方法,对以前的相似性分数进行重新排列,使得给出一张图片,能够更加精准的找出图片集中与该图片中行人有相同ID的行人。
附图说明
图1为本发明识别模型与验证模型的结合原理框图。
图2为本发明所述的k-reciprocal最近邻的扩大过程示意图。
具体实施方式
请参阅图1至图2所示:
本发明提供的基于高斯和深度特征的行人再识别方法,其方法如下所述:
步骤一、从互联网上找出不同摄像头拍摄的同个路段的视频,并对视频按照一定时间提取帧,手动画出行人的位置框,收集训练集和测试集的步骤如下:
(1)、从互联网中下载行人再识别技术中的常见图像数据集(Market1501),构成图像集合其中Nd是集合IMG中的图像总数。
(2)、该数据集共有1501个行人,Nd=32668个位置框,这些行人共用6个相机去捕捉,每个行人至少用两个摄像机去标注。
(3)、使用Deformable Part Model(DPM)技术来提取位置框,从而产生错误的正例,这样可以避免手工提取框的“完美性”和“不切实际性”,训练结果更贴近真实场景。
(4)、图片的命名方式,例如,0001_c1s1_001051_00.jpg,其中“c1”指的是第一台摄像机(一共有6台摄像机),“s1”指的是摄像机1的第一段视频,其中“c1s1”和“c2s1”表示的是不同摄像机同一个时间段下的画面。“001051”表示的“c1s1”下的第1051帧,帧是通过视频每25秒截取一次来得到的。“0001”指行人id。
(5)、将图片集划分训练集和测试集。测试集“bounding_box_test”有19732张图片。训练集“bounding_box_train”有12936张图片。“query”有750个行人。对于每个摄像机随机选取一个队列图片,所以一个行人最多有6张队列图片,一共有3368张图片。“gt_query”包含的是真实值的标注信息。对于每一个队列来说,每一个相关的图片被标记为“good”或者“junk”。“junk”对搜索的精度无任何影响。
步骤二、使用传统机器学习多层次高斯描述符GOG方法,按照行人再识别技术的侧重点,构造提取行人特征的函数,并且快速的提取行人特征的步骤如下:
(1)、构造像素特征函数。设一个行人图片是一个G区域,为了描述G的局部结构,我们提取个像素的k*k方形区域为一个patch,每个patch间隔为p个像素。对于每一个像素i,我们提取d维的特征向量fi。我们提取8维的像素特征向量:
y表示的是垂直方向的像素位置,指的是四个方向的像素梯度大小,R,G,B是颜色通道值。使用上面的公式提取像素特征。
(2)、定义patch高斯特征向量函数。在提取完像素特征之后,我们将这些特征通过经典的参数分布来进行总结,例如,具有求均值和协方差意义的高斯分布。对于每个patchs,patch高斯函数为:
μs是均值向量,∑s是patch s的协方差矩阵。均值向量和协方差矩阵分别表示为:
其中Ls表示patch s区域,ns表示Ls中像素的个数。
(3)、定义区域高斯函数。我们将patch高斯总结在一个区域中,需要用到一些数学上的操作,例如,高斯函数中的均值和协方差操作。为了能够进行求欧式距离操作,我们把patch高斯编码进d+1维的SPD矩阵中,用表示。则定义转换后patch高斯的公式为:
然后我们将patch高斯Ps通过一个矩阵算法映射进正切空间中。将Ps再次变换为m=(d2+3d)/2+1维的信号向量gs:
其中,log(Ps)是矩阵算法操作。
(4)、构造权重函数。一张行人图片会包含一定的背景区域,为了抑制背景区域的影响,为每一个patch引入一个权重,定义权重均值向量和协方差矩阵为:
其中,G指的是总结patch高斯后的区域,最后的区域高斯表达为N(g;μG,ΣG)。
(5)、融合不同的颜色空间。从不同的颜色空间提取特征能够对整体的特征进行补充,从而能够提高行人再识别技术的精确性。RGB是最基本的颜色空间,我们用其他三种颜色空间{Lab,HSV,nRGB}对其进行替换,然后将所有的特征进行融合,形成GOG特征。其中nRGB指的是标准化颜色空间nRGB=R/(R+G+B).因此像素空间的维度为d={8,8,8,7},因此patch高斯向量的维度为m={45,45,45,36}。
(6)、标准化GOG特征。对得到的特征进行L2标准化:
其中是GOG特征的均值。
最后GOG融合的维度的计算方法为:
(452+3×45)/2+1=1081,(362+3×36)/2+1=703,3(颜色空间)×1081×G(区域)+1(颜色空间)×703×G(区域)=GOG融合维度。
步骤三、使用深度学习方法,将识别模型与验证模型结合共同训练数据集,提取行人特征的语义特征的步骤如下:
结构图如图1。
(1)、验证模型:
验证模型的输入是一对图片,输出一个相似性分数,该相似性分数一般计算特征向量的余弦距离得到,然后再通过对比损失函数来不断的调整。一般的验证模型先找到两张图片的相似位置,然后使用softmax损失函数将相似性回归作为一个二分类的问题。也可以加入一个不同匹配层,从而比较两张图片的相邻像素中的激活情况。更直接的方式是使用CNN网络来提取特征,但是经过试验得出效果并不是很好。也可以用三个样例来进行训练,这样就可以同时的考虑这两张图片是同一个人或者是不同的人。
(2)、识别模型:
正常情况下的CNN网络模型没有部分匹配的功能,因此只能够通过本身来训练出可以辨别的特征向量。已有很多的方法都是直接的使用卷积的重新调参的方法来进行行人再识别,效果显著,这说明了卷积网络的确适合行人再识别技术。也有使用CNN提取的特征与手工提取的特征进行组合,取得了不错的效果,这说明特征互相补充能够影响性能。
(3)、验证识别模型结合:
首先,我们使用的交叉熵损失函数。我们发现当图片数量有限的时候,使用对比损失函数容易出现过拟合的现象。其次,我们采用了dropout方法来减少过拟合现象,在任意位置引入了零值。最后,我们的模型使用了ImageNet预训练模型。该模型已经被证实,是提取图片特征比较完善的预训练模型,能够达到很好的性能。
(4)、识别损失函数与验证损失函数:
识别损失函数和验证损失函数都是用交叉熵损失函数来定义,识别损失函数表示为:
其中,ο表示卷积操作。f是一个1×1×4096维度的向量,t是目标类,θI表示的是加入卷积层的参数。是一个预测概率,pi是目标概率。当i=t时,pt=1,其余所有情况pi=0。
验证损失函数表示为:
步骤四、将传统机器学习的GOG模型与深度训练模型融合形成联合的JDAG模型,用该模型进行训练和提取特征的步骤如下:
(1)、建立融合模型,引入2stream Siamese的Resnet50模型来提取一对图片的pool5层特征。
(2)、两张图片的GOG特征fg和fg_2分别输入进全连接层中,输出分别为f1和f2。
(3)、将pool5层特征和GOG特征结合,形成融合特征和
(4)、融合特征通过全连接层作为一个多分类任务来识别行人的ID。
(5)、使用欧式距离层来比较融合特征,用接下来的全连接层作为二分类任务来预测相似性分数。欧式距离层可以表示为:
(6)、用softmax层来计算两个识别损失函数和一个验证损失函数。通过交叉熵损失函数来表示:
其中,x表示特征向量。p(x)和q(x)分别表示预测概率和目标概率。H是交叉熵损失函数。我们设置参数,batchsize=32,迭代次数=70.将GOG特征输入一个2048的全连接层。
步骤五、使用距离度量训练的方法来判定两张图片是否表示同一个人,从而对JDAG模型的性能进行测试的步骤如下;
(1)、使用KISSME。从网上直接下载KISSME距离度量训练代码,将所求得的特征输入,绘制CMC曲线图。
(2)、使用XQDA。从网上直接下载XQDA距离度量训练代码,将所求得的特征向量输入,并绘制CMC曲线图。
(3)、使用欧式距离,直接使用欧式距离公式来求得特征向量间的欧式距离,以此来判断两张图片的相似性,若距离越小,说明两张图片越相似,更可能为同一个行人ID。
步骤六、使用k-reciprocal编码的方法,结合原始的排序结果,对最终的结果队列进行重新排序的步骤如下:
(1)、问题定义。给出一个指针行人p和N张图片集G={gi|i=1,2,...,N},两张行人p和gi的马氏距离为:
根据原始求得的距离,排序得到的列表为:目标是对L进行重新排序。
(2)、求K-reciprocal最近邻。定义k层最近邻为N(p,k),因此K-reciprocal最近邻为:
R(p,k)={(gi∈N(p,k))∩(p∈N(gi,k))}, (18)
将R*(p,k)更多正例加入候选集R(p,k)中。
(3)、求Jaccard距离:我们通过比较p和gi的k-reciprocal最近邻来重新计算它们的距离,两张图片越相似,则最近邻的覆盖率越高。因此,使用Jaccard距离策略来计算p和gi最近邻的距离:
(4)、将该Jaccard距离作为原始距离的重新排序。则最后的距离公式为:
d*(p,gi)=(1-λ)dJ(p,gi)+λd(p,gi), (21)
其中,λ的取值为0.3,扩充正例图片实例图如图2。
Claims (7)
1.一种基于高斯和深度特征的行人再识别方法,其特征在于:其方法如下所述:
步骤一、从互联网上找出不同摄像头拍摄的同个路段的视频,并对视频按照一定时间提取帧,手动画出行人的位置框,收集训练集和测试集;
步骤二、使用传统机器学习多层次高斯描述符GOG方法,按照行人再识别技术的侧重点,构造提取行人特征函数,并且快速的提取行人特征;
步骤三、使用深度学习方法,将识别模型与验证模型结合共同训练数据集,提取行人特征的语义特征;
步骤四、将传统机器学习的GOG模型与深度训练模型融合形成联合的JDAG模型,用该模型进行训练和提取特征;
步骤五、使用距离度量训练的方法来判定两张图片是否表示同一个人,从而对JDAG模型的性能进行测试;
步骤六、使用k-reciprocal编码的方法,结合原始的排序结果,对最终的结果队列进行重新排序。
2.根据权利要求1所述的一种基于高斯和深度特征的行人再识别方法,其特征在于:所述的步骤一中从互联网上找出不同摄像头拍摄的同个路段的视频,并对视频按照一定时间提取帧,手动画出行人的位置框,收集训练集和测试集的步骤如下:
(1)、从互联网中下载行人再识别技术中的常见图像数据集Market1501,构成图像集合其中Nd是集合IMG中的图像总数;
(2)、该数据集共有数个行人,数个位置框,这些行人共用数个相机去捕捉,每个行人至少用两个摄像机去标注;
(3)、使用Deformable Part Model即DPM技术来提取位置框,从而产生错误的正例,这样可以避免手工提取框的“完美性”和“不切实际性”,训练结果更贴近真实场景;
(4)、图片的命名方式,例如,0001_c1s1_001051_00.jpg,其中“c1”指的是第一台摄像机,“s1”指的是摄像机1的第一段视频,其中“c1s1”和“c2s1”表示的是不同摄像机同一个时间段下的画面,“001051”表示的“c1s1”下的第1051帧,帧是通过视频每25秒截取一次来得到的,“0001”指行人id;
(5)、将图片集划分训练集和测试集,测试集“bounding_box_test”有数张图片,训练集“bounding_box_train”有数张图片,“query”有数个行人,对于每个摄像机随机选取一个队列图片,所以一个行人最多有6张队列图片,一共有数张图片,“gt_query”包含的是真实值的标注信息,对于每一个队列来说,每一个相关的图片被标记为“good”或者“junk”,“junk”对搜索的精度无任何影响。
3.根据权利要求1所述的一种基于高斯和深度特征的行人再识别方法,其特征在于:所述的步骤二中使用传统机器学习多层次高斯描述符GOG方法,按照行人再识别技术的侧重点,构造提取行人特征的函数,并且快速的提取行人特征的步骤如下:
(1)、构造像素特征函数:设一个行人图片是一个G区域,为了描述G的局部结构,提取个像素的k*k方形区域为一个patch,每个patch间隔为p个像素,对于每一个像素i,我们提取d维的特征向量fi,我们提取8维的像素特征向量:
y表示的是垂直方向的像素位置,指的是四个方向的像素梯度大小,R,G,B是颜色通道值,使用上面的公式提取像素特征;
(2)、定义patch高斯特征向量函数:在提取完像素特征之后,将这些特征通过经典的参数分布来进行总结,具有求均值和协方差意义的高斯分布,对于每个patch s,patch高斯函数为:
μs是均值向量,∑s是patch s的协方差矩阵,均值向量和协方差矩阵分别表示为:
其中Ls表示patch s区域,ns表示Ls中像素的个数;
(3)、定义区域高斯函数:将patch高斯总结在一个区域中,把patch高斯编码进d+1维的SPD矩阵中,用表示,则定义转换后patch高斯的公式为:
然后将patch高斯Ps通过一个矩阵算法映射进正切空间中,将Ps再次变换为m=(d2+3d)/2+1维的信号向量gs:
其中,log(Ps)是矩阵算法操作;
(4)、构造权重函数:一张行人图片会包含一定的背景区域,为了抑制背景区域的影响,为每一个patch引入一个权重,定义权重均值向量和协方差矩阵为:
其中,G指的是总结patch高斯后的区域,最后的区域高斯表达为N(g;μG,ΣG);
(5)、融合不同的颜色空间:从不同的颜色空间提取特征能够对整体的特征进行补充,从而能够提高行人再识别技术的精确性,RGB是最基本的颜色空间,用其他三种颜色空间{Lab,HSV,nRGB}对其进行替换,然后将所有的特征进行融合,形成GOG特征,其中nRGB指的是标准化颜色空间nRGB=R/(R+G+B),像素空间的维度为d={8,8,8,7},patch高斯向量的维度为m={45,45,45,36};
(6)、标准化GOG特征:对得到的特征进行L2标准化:
其中是GOG特征的均值。
4.根据权利要求1所述的一种基于高斯和深度特征的行人再识别方法,其特征在于:所述的步骤三中使用深度学习方法,将识别模型与验证模型结合共同训练数据集,提取行人特征的语义特征的步骤如下:
(1)、验证模型:验证模型的输入是一对图片,输出一个相似性分数,该相似性分数一般计算特征向量的余弦距离得到,然后再通过对比损失函数来不断的调整,一般的验证模型先找到两张图片的相似位置,然后使用softmax损失函数将相似性回归作为一个二分类的问题,也可以加入一个不同匹配层,从而比较两张图片的相邻像素中的激活情况,更直接的方式是使用CNN网络来提取特征,也可以用三个样例来进行训练,这样就可以同时的考虑这两张图片是同一个人或者是不同的人;
(2)、识别模型:正常情况下的CNN网络模型没有部分匹配的功能,因此只能够通过本身来训练出可以辨别的特征向量,已有很多的方法都是直接的使用卷积的重新调参的方法来进行行人再识别,效果显著,这说明了卷积网络的确适合行人再识别技术,也有使用CNN提取的特征与手工提取的特征进行组合,取得了不错的效果,这说明特征互相补充能够影响性能;
(3)、验证识别模型结合:模型使用了ImageNet预训练模型,该模型已经被证实,是提取图片特征比较完善的预训练模型,能够达到很好的性能;
(4)、识别损失函数与验证损失函数:识别损失函数和验证损失函数都是用交叉熵损失函数来定义,识别损失函数表示为:
其中,表示卷积操作,f是一个1×1×4096维度的向量,t是目标类,θI表示的是加入卷积层的参数,是一个预测概率,pi是目标概率,当i=t时,pt=1,其余所有情况pi=0;
验证损失函数表示为:
5.根据权利要求1所述的一种基于高斯和深度特征的行人再识别方法,其特征在于:所述的步骤四中将传统机器学习的GOG模型与深度训练模型融合形成联合的JDAG模型,用该模型进行训练和提取特征的步骤如下:
(1)、引入2stream Siamese的Resnet50模型来提取一对图片的pool5层特征;
(2)、两张图片的GOG特征fg和fg_2分别输入进全连接层中,输出分别为f1和f2;
(3)、将pool5层特征和GOG特征结合,形成融合特征f1 *和
(4)、融合特征通过全连接层作为一个多分类任务来识别行人的ID;
(5)、使用欧式距离层来比较融合特征,用接下来的全连接层作为二分类任务来预测相似性分数,欧式距离层可以表示为:
(6)、用softmax层来计算两个识别损失函数和一个验证损失函数,通过交叉熵损失函数来表示:
其中,x表示特征向量,p(x)和q(x)分别表示预测概率和目标概率,H是交叉熵损失函数。
6.根据权利要求1所述的一种基于高斯和深度特征的行人再识别方法,其特征在于:所述的步骤五中使用距离度量训练的方法来判定两张图片是否表示同一个人,从而对JDAG模型的性能进行测试的步骤如下;
(1)、从网上直接下载KISSME距离度量训练代码,将所求得的特征输入,绘制CMC曲线图;
(2)、从网上直接下载XQDA距离度量训练代码,将所求得的特征向量输入,并绘制CMC曲线图;
(3)、直接使用欧式距离公式来求得特征向量间的欧式距离,以此来判断两张图片的相似性,若距离越小,说明两张图片越相似,更可能为同一个行人ID。
7.根据权利要求1所述的一种基于高斯和深度特征的行人再识别方法,其特征在于:所述的步骤六中使用k-reciprocal编码的方法,结合原始的排序结果,对最终的结果队列进行重新排序的步骤如下:
(1)、给出一个指针行人p和N张图片集G={gi|i=1,2,...,N},两张行人p和gi的马氏距离为:
根据原始求得的距离,排序得到的列表为:目标是对L进行重新排序;
(2)、求K-reciprocal最近邻,定义k层最近邻为N(p,k),因此K-reciprocal最近邻为:
R(p,k)={(gi∈N(p,k))∩(p∈N(gi,k))}, (18)
将R*(p,k)更多正例加入候选集R(p,k)中;
(3)、求Jaccard距离:通过比较p和gi的k-reciprocal最近邻来重新计算它们的距离,使用Jaccard距离策略来计算p和gi最近邻的距离:
(4)、将该Jaccard距离作为原始距离的重新排序,则最后的距离公式为:
d*(p,gi)=(1-λ)dJ(p,gi)+λd(p,gi), (21)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811149328.4A CN109492528A (zh) | 2018-09-29 | 2018-09-29 | 一种基于高斯和深度特征的行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811149328.4A CN109492528A (zh) | 2018-09-29 | 2018-09-29 | 一种基于高斯和深度特征的行人再识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492528A true CN109492528A (zh) | 2019-03-19 |
Family
ID=65689344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811149328.4A Pending CN109492528A (zh) | 2018-09-29 | 2018-09-29 | 一种基于高斯和深度特征的行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492528A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852210A (zh) * | 2019-10-29 | 2020-02-28 | 上海眼控科技股份有限公司 | 车辆重识别模型的生成方法及设备 |
CN111209874A (zh) * | 2020-01-09 | 2020-05-29 | 北京百目科技有限公司 | 一种对人头部穿戴属性的分析识别方法 |
CN112257684A (zh) * | 2020-12-07 | 2021-01-22 | 之江实验室 | 一种基于实时视频流的跨摄像头全局行人跟踪方法 |
CN112686200A (zh) * | 2021-01-11 | 2021-04-20 | 中山大学 | 一种基于多方案并联关注机制的行人重识别方法及系统 |
CN113051962A (zh) * | 2019-12-26 | 2021-06-29 | 四川大学 | 基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法 |
CN113158715A (zh) * | 2020-11-05 | 2021-07-23 | 西安天伟电子系统工程有限公司 | 一种船只检测方法及装置 |
CN113344012A (zh) * | 2021-07-14 | 2021-09-03 | 马上消费金融股份有限公司 | 物品识别方法、装置及设备 |
CN113378620A (zh) * | 2021-03-31 | 2021-09-10 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018081135A1 (en) * | 2016-10-25 | 2018-05-03 | Vmaxx Inc. | Point to set similarity comparison and deep feature learning for visual recognition |
CN108345860A (zh) * | 2018-02-24 | 2018-07-31 | 江苏测联空间大数据应用研究中心有限公司 | 基于深度学习和距离度量学习的人员再识别方法 |
-
2018
- 2018-09-29 CN CN201811149328.4A patent/CN109492528A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018081135A1 (en) * | 2016-10-25 | 2018-05-03 | Vmaxx Inc. | Point to set similarity comparison and deep feature learning for visual recognition |
CN108345860A (zh) * | 2018-02-24 | 2018-07-31 | 江苏测联空间大数据应用研究中心有限公司 | 基于深度学习和距离度量学习的人员再识别方法 |
Non-Patent Citations (5)
Title |
---|
LIANG ZHENG,ET AL.: "Scalable Person Re-identification: A Benchmark", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
NAN SONG ET AL.: "Joint Deep Learning and Gaussian Representation for Person Re-identification", 《ICIMCS 2017: INTERNET MULTIMEDIA COMPUTING AND SERVICE》 * |
TETSU MATSUKAWA ET AL.: "Hierarchical Gaussian descriptor for person re-identification", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
ZHEDONG ZHENG ET AL.: "A Discriminatively Learned CNN Embedding for Person Re-identification", 《ARXIV》 * |
ZHUN ZHONG ET AL.: "Re-ranking Person Re-identification with k-reciprocal Encoding", 《ARXIV》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852210A (zh) * | 2019-10-29 | 2020-02-28 | 上海眼控科技股份有限公司 | 车辆重识别模型的生成方法及设备 |
CN113051962A (zh) * | 2019-12-26 | 2021-06-29 | 四川大学 | 基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法 |
CN113051962B (zh) * | 2019-12-26 | 2022-11-04 | 四川大学 | 基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法 |
CN111209874A (zh) * | 2020-01-09 | 2020-05-29 | 北京百目科技有限公司 | 一种对人头部穿戴属性的分析识别方法 |
CN111209874B (zh) * | 2020-01-09 | 2020-11-06 | 北京百目科技有限公司 | 一种对人头部穿戴属性的分析识别方法 |
CN113158715A (zh) * | 2020-11-05 | 2021-07-23 | 西安天伟电子系统工程有限公司 | 一种船只检测方法及装置 |
CN112257684A (zh) * | 2020-12-07 | 2021-01-22 | 之江实验室 | 一种基于实时视频流的跨摄像头全局行人跟踪方法 |
CN112257684B (zh) * | 2020-12-07 | 2021-04-16 | 之江实验室 | 一种基于实时视频流的跨摄像头全局行人跟踪方法 |
CN112686200A (zh) * | 2021-01-11 | 2021-04-20 | 中山大学 | 一种基于多方案并联关注机制的行人重识别方法及系统 |
CN113378620A (zh) * | 2021-03-31 | 2021-09-10 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
CN113344012A (zh) * | 2021-07-14 | 2021-09-03 | 马上消费金融股份有限公司 | 物品识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492528A (zh) | 一种基于高斯和深度特征的行人再识别方法 | |
CN108108657B (zh) | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN107330396B (zh) | 一种基于多属性和多策略融合学习的行人再识别方法 | |
US11809485B2 (en) | Method for retrieving footprint images | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111325115B (zh) | 带有三重约束损失的对抗跨模态行人重识别方法和系统 | |
CN101630363B (zh) | 复杂背景下彩色图像人脸的快速检测方法 | |
CN111666843B (zh) | 一种基于全局特征和局部特征拼接的行人重识别方法 | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN110807434B (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
CN104915643A (zh) | 一种基于深度学习的行人再标识方法 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN104504362A (zh) | 基于卷积神经网络的人脸检测方法 | |
Li et al. | A generative/discriminative learning algorithm for image classification | |
CN110598535A (zh) | 一种监控视频数据中使用的人脸识别分析方法 | |
CN109492589A (zh) | 通过二进制特征与联合层叠结构融合的人脸识别工作方法以及智能芯片 | |
CN109063649A (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN114067444A (zh) | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 | |
CN112507853B (zh) | 一种基于互注意力机制的跨模态行人重识别方法 | |
CN104281572A (zh) | 一种基于互信息的目标匹配方法及其系统 | |
CN108073940B (zh) | 一种非结构化环境中的3d目标实例物体检测的方法 | |
CN115830637B (zh) | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 | |
CN109165698A (zh) | 一种面向智慧交通的图像分类识别方法及其存储介质 | |
CN109165612A (zh) | 基于深度特征和双向knn排序优化的行人再识别方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |