CN108960127B - 基于自适应深度度量学习的遮挡行人重识别方法 - Google Patents

基于自适应深度度量学习的遮挡行人重识别方法 Download PDF

Info

Publication number
CN108960127B
CN108960127B CN201810696880.9A CN201810696880A CN108960127B CN 108960127 B CN108960127 B CN 108960127B CN 201810696880 A CN201810696880 A CN 201810696880A CN 108960127 B CN108960127 B CN 108960127B
Authority
CN
China
Prior art keywords
network
layer
sample
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810696880.9A
Other languages
English (en)
Other versions
CN108960127A (zh
Inventor
严严
杨婉香
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810696880.9A priority Critical patent/CN108960127B/zh
Publication of CN108960127A publication Critical patent/CN108960127A/zh
Application granted granted Critical
Publication of CN108960127B publication Critical patent/CN108960127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Abstract

基于自适应深度度量学习的遮挡行人重识别方法,涉及计算机视觉技术。首先设计对遮挡鲁棒的卷积神经网络结构,在网络中先提取行人图像的中低层语义特征;然后提取对遮挡鲁棒的局部特征,并联合全局特征,再学习高层语义特征,并且使用自适应近邻的深度度量损失学习对于行人身份变化足够具有判别力的特征,并联合使用分类损失,快速稳定地完成整个网络的更新学习;最后根据训练好的网络模型,对测试图像提取第一个全连接层的输出作为特征表示,并完成后续的特征相似度比较和排序,得到最后的行人重识别结果。有效地提高特征对遮挡的鲁棒性。

Description

基于自适应深度度量学习的遮挡行人重识别方法
技术领域
本发明涉及计算机视觉技术,尤其是涉及基于自适应深度度量学习的遮挡行人重识别方法。
背景技术
行人重识别是指,从不同的摄像机视角中识别单个行人,即判断不同视角下出现的行人是否为同一个人。行人重识别技术是计算机视觉领域中一个具有挑战性的技术,广泛应用在摄像监控、智能安防等。行人重识别任务的主要挑战难点,是不同摄像机下拍摄的行人表观的剧烈变化。
行人重识别方法主要包括两个步骤:1)有效的特征描述,用于刻画行人表观变化,比如Yang等人(Y.Yang,J.Yang,J.Yan,S.Liao,D.Yi,and S.Z.Li,“Salientcolor namesfor person re-identification,”in European Conference onComputer Vision(ECCV),2014,pp.536-551.)提出的基于显著颜色名称的颜色描述。2)合适的度量,用于衡量行人图像之间的相似度,比如常见的欧式距离、余弦距离等。随着深度学习的发展,很多研究学者基于深度学习,提出了整合上述两个步骤的深度卷积神经网络方法,可以进行端到端训练,用于学习对行人表观变化鲁棒的具有判别性的图像特征。
遮挡是造成行人表观变化剧烈的一个常见因素。为了解决行人表观变化大的问题,经典的行人重识别方法,有Yi等人(D.Yi,Z.Lei,S.Liao,and S.Z.Li,“Deep metriclearning for personre-identification,”in International Conference on PatternRecognition(ICPR),2014,pp.34-39.)提出基于局部匹配的深度卷积网络方法。该方法首先将行人图像划分成三个重叠的局部区域(从上到下),然后使用三个独立分支的卷积神经网络分别学习不同局部区域的特征。由于是按照某种预设置的方式对行人图像进行划分,当行人图像没有进行空间对齐的时候,这个方法会出现匹配错误的问题。最近,Zhong等人(Z.Zhong,L.Zheng,G.Kang,S.Li,andY.Yang,“Random erasing data augmentation,”arXiv preprint arXiv:1708.04896,2017.)提出一种随机数据增强的方法。该方法在训练图像中随机增加一些遮挡区域,在某种程度上能够处理遮挡的问题。但是该方法没有考虑行人图像中的空间结构关系,而这恰恰能够有效处理遮挡下的行人识别。
发明内容
本发明的目的在于提供基于自适应深度度量学习的遮挡行人重识别方法。
本发明包括以下步骤:
1)准备行人图像训练样本集(xi,yi),i=1,...,m,m为训练样本数且为自然数;xi表示第i个训练样本对应的行人图像,yi(1≤yi≤N)表示第i个训练样本的身份类别标签,N表示训练样本集包含的身份类别数且为自然数;
2)设计一个对遮挡鲁棒的卷积神经网络结构,所述卷积神经网络由两个部分网络组成,第一部分网络用于提取行人图像的中低层语义特征,第二部分网络用于提取行人图像的高层语义特征;
3)在设计好的卷积神经网络中,使用自适应深度度量损失和分类损失作为损失函数,用于学习对于遮挡鲁棒并且对行人身份可分的高判别力特征;
4)在大规模图像数据上,利用反向传播算法对卷积神经网络的第一部分网络进行预训练,得到预训练模型;
5)在预训练模型的基础上,使用行人图像训练样本集,利用反向传播算法对卷积神经网络进行端到端训练,得到训练好的模型;
6)利用训练好的模型进行行人重识别,其中将卷积神经网络的第二部分网络的输出特征作为行人图像的特征表示。
在步骤2)中,所述设计一个对遮挡鲁棒的卷积神经网络结构的具体步骤如下:
(1)卷积神经网络的第一部分网络为全卷积网络,其输入图像的大小为256×128,用于提取行人图像的中低层语义特征;第一部分网络,采用残差网络ResNet-34(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”inComputer Vision and Pattern Recognition(CVPR),2016,pp.770-778.)中的第一层卷积层到第五层卷积层(conv1~conv5)的网络结构,全卷积网络的最后一层共享卷积层的大小为1×512×3×3,输出特征图大小为1×512×8×4;
(2)卷积神经网络的第二部分网络包括局部特征子网络、全局特征子网络和两个全连接层组成;
对于局部特征子网络,包括一个平均池化层、一个卷积层和一个长短期记忆网络层(LSTM);平均池化层的输入为第一部分网络输出的中低层特征图,其对特征图在行方向上进行池化操作,输出特征图大小为1×512×8×1;卷积层采用的卷积核大小为1×128×1×1,其作用等价于对特征进行维度约减,得到局部特征为St(t=1,...,8),St大小为1×128×1×1;每个局部特征对应行人图像不同局部区域的特征;由于行人身体存在相对固定的空间依赖关系,比如从上到下依次是头部、颈部、上身、下肢;因此,行人图像不同局部区域之间的空间依赖关系可以通过长短期记忆网络进行学习;长短期记忆网络层的输入为卷积层的输出St,每个时间步骤t上的隐层神经元状态ht可由式(1)~(3)计算得到,ht大小为1×128×1×1:
Figure GDA0003231404180000021
Figure GDA0003231404180000022
Figure GDA0003231404180000023
其中,it,ft,ot,gt,dt分别表示输入门、遗忘门、输出门、细胞状态候选值和细胞状态;sigm,tanh分别表示sigmoid,tanh非线性激活函数;WL表示长短期记忆网络层的权重矩阵;
Figure GDA0003231404180000024
表示按位相乘计算;
根据式(1),长短期记忆网络层会根据当前输入局部特征St和前一个时间步骤的隐层神经元状态ht-1,自动决定更新、遗忘和输出信息;根据式(2),细胞状态的更新取决于前一个时间步骤的细胞状态dt-1经过遗忘门ft的输出值和细胞状态候选值gt经过输入门it的输出值;根据式(3),当前时间步骤t的隐层神经元状态ht取决于细胞候选值dt的激活值经过输出门ot的输出值;长短期记忆网络层输出最后一个时间步骤的隐层神经元状态作为空间编码的局部特征,表示为L,其大小为1×128×1×1;该特征对行人图像不同局部区域之间的空间依赖关系进行编码;由于遮挡是影响行人图像中的某个局部区域,该局部区域特征可以看成是噪音输入,其会被长短期记忆网络进行过滤,因此该特征对遮挡鲁棒;
对于全局特征子网络,包括一个全局平均池化层,输入为第一部分网络输出的中低层特征,输出为全局特征,表示为G,其大小为1×512×1×1;
对于两个全连接层,第一个全连接层的输入为局部特征和全局特征的拼接特征,通过全连接层,进行高层语义特征的映射学习;第二个全连层的输入为第一个全连层的输出,输出是身份类别的最大分类概率(softmax)。
在步骤3)中,所述在设计好的卷积神经网络中,使用自适应深度度量损失和分类损失作为损失函数包括以下步骤:
(1)对每个输入样本,计算分类不确定性H和自适应动态近邻个数K:
每个输入样本a,经过步骤2)中的卷积神经网络最后一层输出为
Figure GDA0003231404180000031
表示该样本a属于第j个类别的概率,1≤j≤N,可以由式(4)计算样本a的分类不确定性Ha
Figure GDA0003231404180000032
分类不确定性Ha是衡量softmax分类器的分类置信度,描述的是全局的数据分布,当Ha值比较大时,表示该样本是较难分类的样本,因此需要在比较大的近邻范围内,计算度量损失,根据Ha的值,自适应调整近邻个数K,可由式(5)计算得到:
Figure GDA0003231404180000033
其中,
Figure GDA0003231404180000034
表示向上取整操作,K0表示最小的近邻个数(通常设置为1);
(2)计算自适应近邻范围内的平均正例样本距离Dap和平均负例样本距离Dan
对于输入样本xa,计算输入样本与当前训练样本中的正例样本xp(标签相同)之间的距离Dap,对于正例样本,只考虑前K个最难(距离最远)的正例样本,可由式(6)计算得到:
Figure GDA0003231404180000035
对于输入样本xa,计算输入样本与当前训练样本中的负例样本xn(标签不同)之间的距离Dan,对于负例样本,只考虑前K个最难(距离最近)的负例样本,可由式(7)计算得到:
Figure GDA0003231404180000036
其中,f(·)表示样本的特征,是输入样本经过卷积神经网络的第一个全连接层的输出,||||2表示的是欧式距离。
(3)计算自适应近邻的深度度量损失LANN
对于输入样本xa,希望充分利用样本近邻范围内的样本,在该范围内,类间样本分散,类内样本紧缩,由于在该范围内平均负例样本之间的距离至少大于平均正例样本之间的距离某个间隔,因此,可由式(8)计算得到训练样本的自适应近邻的深度度量损失:
Figure GDA0003231404180000041
其中,[]+表示铰链损失(hinge loss),B表示小批次训练样本数且为自然数;
(4)对所有训练样本在卷积神经网络的最后一层全连接层的输出,可由式(9)计算分类损失(softmax loss)LS
Figure GDA0003231404180000042
(5)联合使用自适应深度度量损失和分类损失,如式(10)所示:
L=LS+λLANN (10)
其中,λ用于平衡两个损失函数的权重,通常设置为0.05。
本发明首先设计对遮挡鲁棒的卷积神经网络结构,在网络中先提取行人图像的中低层语义特征;然后提取对遮挡鲁棒的局部特征,并联合全局特征,再学习高层语义特征,并且使用自适应近邻的深度度量损失学习对于行人身份变化足够具有判别力的特征,并联合使用分类损失,快速稳定地完成整个网络的更新学习;最后根据训练好的网络模型,对测试图像提取第一个全连接层的输出作为特征表示,并完成后续的特征相似度比较和排序,得到最后的行人重识别结果。
本发明基于长短期记忆网络学习行人图像之间的空间依赖关系,有效地提高了特征对遮挡的鲁棒性。该发明提出根据样本的分类不确定性,自适应设置不同大小的近邻范围。在近邻范围内,保持类内紧缩和类间分散,同时使用该自适应深度度量损失,可以使得学习到的特征更加具有判别性,这对于行人类内表观变化大,类间表观变化小的问题是非常重要的。本发明联合度量损失和分类损失进行端到端的网络训练,充分提高了训练效率和训练稳定性。
附图说明
图1为本发明实施例的框架图。
图2为在Market1501数据集上在不同实验设置下,在不同遮挡比例情况下的行人重识别第一匹配率(rank-1)的精度。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例的实施方式包括以下步骤:
1.设计一个对遮挡鲁棒的卷积神经网络结构。该网络由两个部分网络组成。第一部分网络用于提取行人图像的中低层语义特征,第二部分网络用于提取行人图像的高层语义特征。
A1.网络的第一部分网络为全卷积网络,其输入图像的大小256×128,用于提取行人图像的中低层语义特征。第一部分网络,采用残差网络ResNet-34(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in Computer Visionand Pattern Recognition(CVPR),2016,pp.770-778.)中的第一层卷积层到第五层卷积层(conv1~conv5)的网络结构。全卷积网络的最后一层共享卷积层的大小为1×512×3×3,输出特征图大小为1×512×8×4。
A2.网络的第二部分网络包括局部特征子网络和全局特征子网络以及两个全连接层组成。
对于局部特征子网络,包括一个平均池化层和一个卷积层以及一个长短期记忆网络层(LSTM)。平均池化层的输入为第一部分网络输出的中低层特征图,其对特征图在行方向上进行池化操作,输出特征图大小为1×512×8×1。卷积层采用的卷积核大小为1×128×1×1,其作用等价于对特征进行维度约减,得到局部特征为St(t=1,...,8),St大小为1×128×1×1。每个局部特征对应行人图像不同局部区域的特征。由于行人身体存在相对固定的空间依赖关系,比如从上到下依次是头部、颈部、上身、下肢。因此,行人图像不同局部区域之间的空间依赖关系可以通过长短期记忆网络进行学习。长短期记忆网络层的输入为卷积层的输出St,每个时间步骤t上的隐层神经元状态ht可由式(1)~(3)计算得到(ht大小为1×128×1×1):。
Figure GDA0003231404180000051
Figure GDA0003231404180000052
Figure GDA0003231404180000053
其中,it,ft,ot,gt,dt分别表示输入门、遗忘门、输出门、细胞状态候选值和细胞状态。sigm,tanh分别表示sigmoid,tanh非线性激活函数;WL表示长短期记忆网络层的权重矩阵,
Figure GDA0003231404180000054
表示按位相乘计算。
根据式(1),长短期记忆网络层会根据当前输入局部特征St和前一个时间步骤的隐层神经元状态ht-1,自动决定更新,遗忘和输出信息。根据式(2),细胞状态的更新取决于前一个时间步骤的细胞状态dt-1经过遗忘门ft的输出值,和细胞状态候选值gt经过输入门it的输出值。根据式(3),当前时间步骤t的隐层神经元状态ht取决于细胞候选值dt的激活值经过输出门ot的输出值。长短期记忆网络层输出最后一个时间步骤的隐层神经元状态作为空间编码的局部特征,表示为L,其大小为1×128×1×1。该特征对行人图像不同局部区域之间的空间依赖关系进行编码。由于遮挡是影响行人图像中的某个局部区域,该局部区域特征可以看成是噪音输入,其会被长短期记忆网络进行过滤,因此该特征对遮挡鲁棒。
对于全局特征子网络,包括一个全局平均池化层。输入为第一部分网络输出的中低层特征,输出为全局特征,表示为G,其大小为1×512×1×1。
对于两个全连接层,第一个全连接层的输入为局部特征和全局特征的拼接特征,通过全连接层,进行高层语义特征的映射学习;第二个全连层的输入为第一个全连层的输出,输出是身份类别的最大分类概率(softmax)。
2.在设计好的卷积神经网络里中,使用自适应深度度量损失和分类损失作为损失函数,用来学习对于遮挡鲁棒并且对行人身份可分的高判别力特征。
B1.对每个输入样本,计算分类不确定性H和自适应动态近邻个数K。
每个输入样本a,经过步骤B中的卷积神经网络最后一层输出为
Figure GDA0003231404180000061
表示该样本a属于第j个类别的概率,1≤j≤N。可以由下面式(4),计算样本a的分类不确定性Ha
Figure GDA0003231404180000062
分类不确定性Ha是衡量softmax分类器的分类置信度,描述的是全局的数据分布。当Ha值比较大时,表示该样本是较难分类的样本,因此需要在比较大的近邻范围内,计算度量损失。根据Ha的值,自适应调整近邻个数K,可由式(5)计算得到:
Figure GDA0003231404180000063
其中,
Figure GDA0003231404180000064
表示向上取整操作,K0表示最小的近邻个数(通常设置为1)。
B2.计算自适应近邻范围内的平均正例样本距离Dap和平均负例样本距离Dan
对于输入样本xa,计算输入样本与当前训练样本中的正例样本xp(标签相同)之间的距离Dap。对于正例样本,只考虑前K个最难(距离最远)的正例样本,可由式(6)计算得到:
Figure GDA0003231404180000065
对于输入样本xa,计算输入样本与当前训练样本中的负例样本xn(标签不同)之间的距离Dan。对于负例样本,只考虑前K个最难(距离最近)的负例样本,可由式(7)计算得到:
Figure GDA0003231404180000066
其中,f(·)表示样本的特征,是输入样本经过卷积神经网络的第一个全连接层的输出;||||2表示欧式距离。
B3.计算自适应近邻的深度度量损失LANN
对于输入样本xa,希望充分利用样本近邻范围内的样本。在该范围内,类间样本分散,类内样本紧缩。由于在该范围内平均负例样本之间的距离至少大于平均正例样本之间的距离某个间隔,因此可由式(8)计算得到训练样本的自适应近邻的深度度量损失:
Figure GDA0003231404180000067
其中,[]+表示铰链损失(hinge loss),B表示小批次训练样本数且为自然数。
B4.对所有训练样本在卷积神经网络的最后一层全连接层的输出,可由式(9)计算分类损失(softmax loss)LS
Figure GDA0003231404180000068
B5.联合使用自适应深度度量损失和分类损失,如式(10)所示:
L=LS+λLANN (10)
其中,λ用于平衡两个损失函数的权重,通常设置为0.05。
3.在大规模图像数据上,利用反向传播算法对卷积神经网络的第一部分网络进行预训练,得到预训练模型。
4.在预训练模型的基础上,使用行人图像训练样本集,利用反向传播算法对卷积神经网络进行端到端训练,得到训练好的模型。
5.利用训练好的模型进行行人重识别,其中将卷积神经网络的第二部分网络的输出特征作为行人图像的特征表示。
在Market1501数据集上在不同实验设置下,在不同遮挡比例情况下的行人重识别第一匹配率(rank-1)的精度参见图2,在图2中,RNS\采用卷积神经网络的第一部分的网络和第二部分的全局子特征网络,并使用分类损失;RNJ\采用与RNS\同样的网络,并使用本发明提出的联合损失;RNLSTMS采用本发明提出的卷积神经网络,并使用分类损失;RNLSTMJ采用本发明提出的网络,并使用本发明提出的联合损失。
表1
Figure GDA0003231404180000071
表2
Figure GDA0003231404180000072
表3
Figure GDA0003231404180000081
表1~3分别为在Market1501,DukeMTMC-reID,CUHK03数据集上,本发明提出的方法与其他方法在不同遮挡比例下的行人重识别结果对比。其中:
XQDA对应S.Liao等人提出的方法(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by 10cal maximal occurrence representation and metriclearning,”in Computer Vision and Pattern Recognition(CVPR),2015,pp.2197-2206.);
NPD对应L.Zhang等人提出的方法(L.Zhang,T.Xiang,and S.Gong,“Learning adiscriminative null space for person re-identification.”in Computer Visionand Pattern Recognition(CVPR),2016,pp.1239-1248.);
IDE对应L.Zheng等人提出的方法(L.Zheng,Y.Yang,and A.G.Hauptmann,“Personre-identification:Past,present and future,”arXiv preprint arXiv:1610.02984,2016.);
TriNet对应A.Hermans等人提出的方法(A.Hermans,L.Beyer,andB.Leibe,“Indefense of the triplet loss for person re-identification,”arXiv preprintarXiv:1703.07737,2017.);
PAN对应L.Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-alignedrepresentations for person re-identification,”inInternational Conferenceon Computer Vision(ICCV),2017,pp.3239-3248.);
SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,and S.Wang,“Svdnetfor pedestriantetrieval,”in International Conference on Computer Vision(ICCV),2017,pp.3820-3828.)。

Claims (2)

1.基于自适应深度度量学习的遮挡行人重识别方法,其特征在于包括以下步骤:
1)准备行人图像训练样本集(xi,yi),i=1,...,m,m为训练样本数且为自然数;xi表示第i个训练样本对应的行人图像,yi,表示第i个训练样本的身份类别标签,其中,1 ≤yi ≤N,N表示训练样本集包含的身份类别数且为自然数;
2)设计一个对遮挡鲁棒的卷积神经网络结构,所述卷积神经网络由两个部分网络组成,第一部分网络用于提取行人图像的中低层语义特征,第二部分网络用于提取行人图像的高层语义特征;
3)在设计好的卷积神经网络中,使用自适应深度度量损失和分类损失作为损失函数,用于学习对于遮挡鲁棒并且对行人身份可分的高判别力特征;
4)在大规模图像数据上,利用反向传播算法对卷积神经网络的第一部分网络进行预训练,得到预训练模型;
5)在预训练模型的基础上,使用行人图像训练样本集,利用反向传播算法对卷积神经网络进行端到端训练,得到训练好的模型;
6)利用训练好的模型进行行人重识别,其中将卷积神经网络的第二部分网络的输出特征作为行人图像的特征表示;
步骤2)中,所述设计一个对遮挡鲁棒的卷积神经网络结构的具体步骤如下:
(1)卷积神经网络的第一部分网络为全卷积网络,其输入图像的大小为256×128,用于提取行人图像的中低层语义特征;第一部分网络,采用残差网络ResNet-34中的第一层卷积层到第五层卷积层的网络结构,全卷积网络的最后一层共享卷积层的大小为1×512×3×3,输出特征图大小为1×512×8×4;
(2)卷积神经网络的第二部分网络包括局部特征子网络、全局特征子网络和两个全连接层组成;
对于局部特征子网络,包括一个平均池化层、一个卷积层和一个长短期记忆网络层;平均池化层的输入为第一部分网络输出的中低层特征图,其对特征图在行方向上进行池化操作,输出特征图大小为1×512×8×1;卷积层采用的卷积核大小为1×128×1×1,其作用等价于对特征进行维度约减,得到局部特征为St,其中,t=1,...,8,St 大小为1×128×1×1;每个局部特征对应行人图像不同局部区域的特征;由于行人身体存在相对固定的空间依赖关系,因此行人图像不同局部区域之间的空间依赖关系通过长短期记忆网络进行学习;长短期记忆网络层的输入为卷积层的输出St ,每个时间步骤t上的隐层神经元状态ht由式(1)~(3)计算得到,ht大小为1×128×1×1;
Figure FDA0003231404170000011
Figure FDA0003231404170000012
Figure FDA0003231404170000013
其中,it,ft,ot,gt,dt分别表示输入门、遗忘门、输出门、细胞状态候选值和细胞状态;sigm,tanh分别表示sigmoid,tanh非线性激活函数;WL表示长短期记忆网络层的权重矩阵;
Figure FDA0003231404170000021
表示按位相乘计算;
根据式(1),长短期记忆网络层会根据当前输入局部特征St和前一个时间步骤的隐层神经元状态ht-1,自动决定更新、遗忘和输出信息;根据式(2),细胞状态的更新取决于前一个时间步骤的细胞状态dt-1经过遗忘门ft的输出值和细胞状态候选值gt经过输入门it的输出值;根据式(3),当前时间步骤t的隐层神经元状态ht取决于细胞候选值dt的激活值经过输出门ot的输出值;长短期记忆网络层输出最后一个时间步骤的隐层神经元状态作为空间编码的局部特征,表示为L,其大小为1×128×1×1;该特征对行人图像不同局部区域之间的空间依赖关系进行编码;由于遮挡是影响行人图像中的某个局部区域,该局部区域特征是噪音输入,其会被长短期记忆网络进行过滤,因此该特征对遮挡鲁棒;
对于全局特征子网络,包括一个全局平均池化层,输入为第一部分网络输出的中低层特征,输出为全局特征,表示为G,其大小为1×512×1×1;
对于两个全连接层,第一个全连接层的输入为局部特征和全局特征的拼接特征,通过全连接层,进行高层语义特征的映射学习;第二个全连接层 的输入为第一个全连接层 的输出,输出是身份类别的最大分类概率。
2.如权利要求1所述基于自适应深度度量学习的遮挡行人重识别方法,其特征在于在步骤3)中,所述在设计好的卷积神经网络中,使用自适应深度度量损失和分类损失作为损失函数包括以下步骤:
(1)对每个输入样本,计算分类不确定性H和自适应动态近邻个数K:
每个输入样本a,经过步骤2)中的卷积神经网络最后一层输出为
Figure FDA0003231404170000022
表示该样本a属于第j个类别的概率,1≤j≤N,由式(4)计算样本a的分类不确定性Ha
Figure FDA0003231404170000023
分类不确定性Ha是衡量softmax分类器的分类置信度,描述的是全局的数据分布,当Ha值大于预设值时,该样本被设为预设难度分类样本,需要在预设近邻范围内,计算度量损失,根据Ha的值,自适应调整近邻个数K,由式(5)计算得到:
Figure FDA0003231404170000024
其中,
Figure FDA0003231404170000025
表示向上取整操作,K0表示最小的近邻个数;
(2)计算自适应近邻范围内的平均正例样本距离Dap和平均负例样本距离Dan
对于输入样本xa,计算输入样本与当前训练样本中的正例样本xp之间的距离Dap,对于正例样本,只考虑前K个最难的正例样本,由式(6)计算得到:
Figure FDA0003231404170000026
对于输入样本xa,计算输入样本与当前训练样本中的负例样本xn之间的距离Dan,对于负例样本,只考虑前K个最难的负例样本,由式(7)计算得到:
Figure FDA0003231404170000027
其中,f(·)表示样本的特征,是输入样本经过卷积神经网络的第一个全连接层的输出,|| ||2表示的是欧式距离;
(3)计算自适应近邻的深度度量损失LANN
对于输入样本xa,利用样本近邻范围内的样本,在该范围内,类间样本分散,类内样本紧缩,由于在该范围内平均负例样本之间的距离至少大于平均正例样本之间的距离某个间隔,因此由式(8)计算得到训练样本的自适应近邻的深度度量损失:
Figure FDA0003231404170000031
其中,[]+表示铰链损失(hinge loss),B表示小批次训练样本数且为自然数;
(4)对所有训练样本在卷积神经网络的最后一层全连接层的输出,由式(9)计算分类损失LS
Figure FDA0003231404170000032
(5)联合使用自适应深度度量损失和分类损失,如式(10)所示:
L=LS+λLANN (10)
其中,λ用于平衡两个损失函数的权重,设置为0.05。
CN201810696880.9A 2018-06-29 2018-06-29 基于自适应深度度量学习的遮挡行人重识别方法 Active CN108960127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810696880.9A CN108960127B (zh) 2018-06-29 2018-06-29 基于自适应深度度量学习的遮挡行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810696880.9A CN108960127B (zh) 2018-06-29 2018-06-29 基于自适应深度度量学习的遮挡行人重识别方法

Publications (2)

Publication Number Publication Date
CN108960127A CN108960127A (zh) 2018-12-07
CN108960127B true CN108960127B (zh) 2021-11-05

Family

ID=64484347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810696880.9A Active CN108960127B (zh) 2018-06-29 2018-06-29 基于自适应深度度量学习的遮挡行人重识别方法

Country Status (1)

Country Link
CN (1) CN108960127B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635728B (zh) * 2018-12-12 2020-10-13 中山大学 一种基于非对称度量学习的异构行人再识别方法
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN109635770A (zh) * 2018-12-20 2019-04-16 上海瑾盛通信科技有限公司 活体检测方法、装置、存储介质及电子设备
CN109711366B (zh) * 2018-12-29 2021-04-23 浙江大学 一种基于群组信息损失函数的行人重识别方法
CN109784288B (zh) * 2019-01-22 2023-01-06 天津师范大学 一种基于判别感知融合的行人再识别方法
CN109635141B (zh) * 2019-01-29 2021-04-27 京东方科技集团股份有限公司 用于检索图像的方法、电子设备和计算机可读存储介质
CN110096947A (zh) * 2019-03-15 2019-08-06 昆明理工大学 一种基于深度学习的行人再识别算法
CN111753601B (zh) * 2019-03-29 2024-04-12 华为技术有限公司 一种图像处理的方法、装置以及存储介质
CN109993116B (zh) * 2019-03-29 2022-02-11 上海工程技术大学 一种基于人体骨骼相互学习的行人再识别方法
CN110070505A (zh) * 2019-04-12 2019-07-30 北京迈格威科技有限公司 增强图像分类模型噪声鲁棒性的方法和装置
CN110110780B (zh) * 2019-04-30 2023-04-07 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN110135366B (zh) * 2019-05-20 2021-04-13 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法
CN110516533B (zh) * 2019-07-11 2023-06-02 同济大学 一种基于深度度量的行人再辨识方法
CN110543823B (zh) * 2019-07-30 2024-03-19 平安科技(深圳)有限公司 基于残差网络的行人再识别方法、装置和计算机设备
CN110728221A (zh) * 2019-09-30 2020-01-24 华东师范大学 多属性约束的行人重识别方法
CN110781939A (zh) * 2019-10-17 2020-02-11 中国铁塔股份有限公司 一种相似图片的检测方法、装置及项目管理系统
CN110956158A (zh) * 2019-12-12 2020-04-03 中山大学 一种基于教师学生学习框架的遮挡行人再标识方法
CN111126223B (zh) * 2019-12-16 2023-04-18 山西大学 基于光流引导特征的视频行人再识别方法
CN111797813B (zh) * 2020-07-21 2022-08-02 天津理工大学 基于可见感知纹理语义对齐的部分行人重识别方法
CN112101150B (zh) * 2020-09-01 2022-08-12 北京航空航天大学 一种基于朝向约束的多特征融合行人重识别方法
CN112200111B (zh) * 2020-10-19 2022-05-17 厦门大学 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN112560626B (zh) * 2020-12-09 2024-02-23 南京创盈数智智能科技有限公司 一种基于局部与全局联合的深度度量学习漫画识别方法
CN112396036B (zh) * 2020-12-09 2023-08-08 中山大学 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN113033410B (zh) * 2021-03-26 2023-06-06 中山大学 基于自动数据增强的域泛化行人重识别方法、系统及介质
CN113536965B (zh) * 2021-06-25 2024-04-09 深圳数联天下智能科技有限公司 一种训练脸部遮挡识别模型的方法及相关装置
CN113947802B (zh) * 2021-12-21 2022-04-01 武汉天喻信息产业股份有限公司 有遮挡人脸识别方法、装置、设备及可读存储介质
CN116313115B (zh) * 2023-05-10 2023-08-15 浙江大学 基于线粒体动态表型和深度学习的药物作用机制预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292333B (zh) * 2017-06-05 2019-11-29 浙江工业大学 一种基于深度学习的快速图像分类方法
CN107679465B (zh) * 2017-09-20 2019-11-15 上海交通大学 一种基于生成网络的行人重识别数据生成和扩充方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Metric Learning for Person Re-Identification;Dong Yi等;《2014 22nd International Conference on Pattern Recognition》;20141231;第34-39页 *
Person Re-identification via Recurrent;Yichao Yan等;《ECCV 2016》;20161231;第701-716页 *

Also Published As

Publication number Publication date
CN108960127A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108960127B (zh) 基于自适应深度度量学习的遮挡行人重识别方法
CN110309861B (zh) 一种基于生成对抗网络的多模态人类活动识别方法
CN111274916B (zh) 人脸识别方法和人脸识别装置
Huang et al. Face detection from cluttered images using a polynomial neural network
Lu et al. A method of face recognition based on fuzzy c-means clustering and associated sub-NNs
CN106599797A (zh) 一种基于局部并行神经网络的红外人脸识别方法
CN111126575A (zh) 基于机器学习的气体传感器阵列混合气体检测方法及装置
Liu et al. A three-domain fuzzy support vector regression for image denoising and experimental studies
Xing et al. A self-organizing incremental neural network based on local distribution learning
Alom et al. Object recognition using cellular simultaneous recurrent networks and convolutional neural network
Lin et al. Determination of the varieties of rice kernels based on machine vision and deep learning technology
Yang et al. A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm.
Kumar et al. One-shot face recognition
Chen et al. A skin detector based on neural network
Bailly et al. Boosting feature selection for neural network based regression
Aria et al. Generalized cooccurrence matrix to classify IRS-1D images using neural network
Hongjiao Application of advanced BP neural network in image recognition
CN114254738A (zh) 双层演化的动态图卷积神经网络模型构建方法及应用
Moghadam et al. Online, self-supervised vision-based terrain classification in unstructured environments
Choobeh Improving automatic age estimation algorithms using an efficient ensemble technique
Chen et al. A weighted block cooperative sparse representation algorithm based on visual saliency dictionary
Zhao et al. Joint weakly parameter-shared and higher order statistical criteria for domain adaptation
Hu et al. Learning to detect saliency with deep structure
Xiaolin et al. Research on Face Recognition Algorithm Based on Improved Residual Neural Network
Kumar et al. On Mitigating the Utility-Loss in Differentially Private Learning: A New Perspective by a Geometrically Inspired Kernel Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant