CN108960127B

CN108960127B - 基于自适应深度度量学习的遮挡行人重识别方法

Info

Publication number: CN108960127B
Application number: CN201810696880.9A
Authority: CN
Inventors: 严严; 杨婉香; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-11-05
Anticipated expiration: 2038-06-29
Also published as: CN108960127A

Abstract

基于自适应深度度量学习的遮挡行人重识别方法，涉及计算机视觉技术。首先设计对遮挡鲁棒的卷积神经网络结构，在网络中先提取行人图像的中低层语义特征；然后提取对遮挡鲁棒的局部特征，并联合全局特征，再学习高层语义特征，并且使用自适应近邻的深度度量损失学习对于行人身份变化足够具有判别力的特征，并联合使用分类损失，快速稳定地完成整个网络的更新学习；最后根据训练好的网络模型，对测试图像提取第一个全连接层的输出作为特征表示，并完成后续的特征相似度比较和排序，得到最后的行人重识别结果。有效地提高特征对遮挡的鲁棒性。

Description

基于自适应深度度量学习的遮挡行人重识别方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及基于自适应深度度量学习的遮挡行人重识别方法。

背景技术

行人重识别是指，从不同的摄像机视角中识别单个行人，即判断不同视角下出现的行人是否为同一个人。行人重识别技术是计算机视觉领域中一个具有挑战性的技术，广泛应用在摄像监控、智能安防等。行人重识别任务的主要挑战难点，是不同摄像机下拍摄的行人表观的剧烈变化。

行人重识别方法主要包括两个步骤：1)有效的特征描述，用于刻画行人表观变化，比如Yang等人(Y.Yang，J.Yang，J.Yan，S.Liao，D.Yi，and S.Z.Li，“Salientcolor namesfor person re-identification，”in European Conference onComputer Vision(ECCV)，2014，pp.536-551.)提出的基于显著颜色名称的颜色描述。2)合适的度量，用于衡量行人图像之间的相似度，比如常见的欧式距离、余弦距离等。随着深度学习的发展，很多研究学者基于深度学习，提出了整合上述两个步骤的深度卷积神经网络方法，可以进行端到端训练，用于学习对行人表观变化鲁棒的具有判别性的图像特征。

遮挡是造成行人表观变化剧烈的一个常见因素。为了解决行人表观变化大的问题，经典的行人重识别方法，有Yi等人(D.Yi，Z.Lei，S.Liao，and S.Z.Li，“Deep metriclearning for personre-identification，”in International Conference on PatternRecognition(ICPR)，2014，pp.34-39.)提出基于局部匹配的深度卷积网络方法。该方法首先将行人图像划分成三个重叠的局部区域(从上到下)，然后使用三个独立分支的卷积神经网络分别学习不同局部区域的特征。由于是按照某种预设置的方式对行人图像进行划分，当行人图像没有进行空间对齐的时候，这个方法会出现匹配错误的问题。最近，Zhong等人(Z.Zhong，L.Zheng，G.Kang，S.Li，andY.Yang，“Random erasing data augmentation，”arXiv preprint arXiv：1708.04896，2017.)提出一种随机数据增强的方法。该方法在训练图像中随机增加一些遮挡区域，在某种程度上能够处理遮挡的问题。但是该方法没有考虑行人图像中的空间结构关系，而这恰恰能够有效处理遮挡下的行人识别。

发明内容

本发明的目的在于提供基于自适应深度度量学习的遮挡行人重识别方法。

本发明包括以下步骤：

1)准备行人图像训练样本集(x_i，y_i)，i＝1，...，m，m为训练样本数且为自然数；x_i表示第i个训练样本对应的行人图像，y_i(1≤y_i≤N)表示第i个训练样本的身份类别标签，N表示训练样本集包含的身份类别数且为自然数；

2)设计一个对遮挡鲁棒的卷积神经网络结构，所述卷积神经网络由两个部分网络组成，第一部分网络用于提取行人图像的中低层语义特征，第二部分网络用于提取行人图像的高层语义特征；

3)在设计好的卷积神经网络中，使用自适应深度度量损失和分类损失作为损失函数，用于学习对于遮挡鲁棒并且对行人身份可分的高判别力特征；

4)在大规模图像数据上，利用反向传播算法对卷积神经网络的第一部分网络进行预训练，得到预训练模型；

5)在预训练模型的基础上，使用行人图像训练样本集，利用反向传播算法对卷积神经网络进行端到端训练，得到训练好的模型；

6)利用训练好的模型进行行人重识别，其中将卷积神经网络的第二部分网络的输出特征作为行人图像的特征表示。

在步骤2)中，所述设计一个对遮挡鲁棒的卷积神经网络结构的具体步骤如下：

(1)卷积神经网络的第一部分网络为全卷积网络，其输入图像的大小为256×128，用于提取行人图像的中低层语义特征；第一部分网络，采用残差网络ResNet-34(K.He，X.Zhang，S.Ren，and J.Sun，“Deep residual learning for image recognition，”inComputer Vision and Pattern Recognition(CVPR)，2016，pp.770-778.)中的第一层卷积层到第五层卷积层(conv1～conv5)的网络结构，全卷积网络的最后一层共享卷积层的大小为1×512×3×3，输出特征图大小为1×512×8×4；

(2)卷积神经网络的第二部分网络包括局部特征子网络、全局特征子网络和两个全连接层组成；

对于局部特征子网络，包括一个平均池化层、一个卷积层和一个长短期记忆网络层(LSTM)；平均池化层的输入为第一部分网络输出的中低层特征图，其对特征图在行方向上进行池化操作，输出特征图大小为1×512×8×1；卷积层采用的卷积核大小为1×128×1×1，其作用等价于对特征进行维度约减，得到局部特征为S_t(t＝1，...，8)，S_t大小为1×128×1×1；每个局部特征对应行人图像不同局部区域的特征；由于行人身体存在相对固定的空间依赖关系，比如从上到下依次是头部、颈部、上身、下肢；因此，行人图像不同局部区域之间的空间依赖关系可以通过长短期记忆网络进行学习；长短期记忆网络层的输入为卷积层的输出S_t，每个时间步骤t上的隐层神经元状态h_t可由式(1)～(3)计算得到，h_t大小为1×128×1×1：

其中，i_t，f_t，o_t，g_t，d_t分别表示输入门、遗忘门、输出门、细胞状态候选值和细胞状态；sigm，tanh分别表示sigmoid，tanh非线性激活函数；W_L表示长短期记忆网络层的权重矩阵；

表示按位相乘计算；

根据式(1)，长短期记忆网络层会根据当前输入局部特征S_t和前一个时间步骤的隐层神经元状态h_t-1，自动决定更新、遗忘和输出信息；根据式(2)，细胞状态的更新取决于前一个时间步骤的细胞状态d_t-1经过遗忘门f_t的输出值和细胞状态候选值g_t经过输入门i_t的输出值；根据式(3)，当前时间步骤t的隐层神经元状态h_t取决于细胞候选值d_t的激活值经过输出门o_t的输出值；长短期记忆网络层输出最后一个时间步骤的隐层神经元状态作为空间编码的局部特征，表示为L，其大小为1×128×1×1；该特征对行人图像不同局部区域之间的空间依赖关系进行编码；由于遮挡是影响行人图像中的某个局部区域，该局部区域特征可以看成是噪音输入，其会被长短期记忆网络进行过滤，因此该特征对遮挡鲁棒；

对于全局特征子网络，包括一个全局平均池化层，输入为第一部分网络输出的中低层特征，输出为全局特征，表示为G，其大小为1×512×1×1；

对于两个全连接层，第一个全连接层的输入为局部特征和全局特征的拼接特征，通过全连接层，进行高层语义特征的映射学习；第二个全连层的输入为第一个全连层的输出，输出是身份类别的最大分类概率(softmax)。

在步骤3)中，所述在设计好的卷积神经网络中，使用自适应深度度量损失和分类损失作为损失函数包括以下步骤：

(1)对每个输入样本，计算分类不确定性H和自适应动态近邻个数K：

每个输入样本a，经过步骤2)中的卷积神经网络最后一层输出为

表示该样本a属于第j个类别的概率，1≤j≤N，可以由式(4)计算样本a的分类不确定性H_a：

分类不确定性H_a是衡量softmax分类器的分类置信度，描述的是全局的数据分布，当H_a值比较大时，表示该样本是较难分类的样本，因此需要在比较大的近邻范围内，计算度量损失，根据H_a的值，自适应调整近邻个数K，可由式(5)计算得到：

其中，

表示向上取整操作，K₀表示最小的近邻个数(通常设置为1)；

(2)计算自适应近邻范围内的平均正例样本距离D_ap和平均负例样本距离D_an：

对于输入样本x_a，计算输入样本与当前训练样本中的正例样本x_p(标签相同)之间的距离D_ap，对于正例样本，只考虑前K个最难(距离最远)的正例样本，可由式(6)计算得到：

对于输入样本x_a，计算输入样本与当前训练样本中的负例样本x_n(标签不同)之间的距离D_an，对于负例样本，只考虑前K个最难(距离最近)的负例样本，可由式(7)计算得到：

其中，f(·)表示样本的特征，是输入样本经过卷积神经网络的第一个全连接层的输出，||||₂表示的是欧式距离。

(3)计算自适应近邻的深度度量损失L_ANN：

对于输入样本x_a，希望充分利用样本近邻范围内的样本，在该范围内，类间样本分散，类内样本紧缩，由于在该范围内平均负例样本之间的距离至少大于平均正例样本之间的距离某个间隔，因此，可由式(8)计算得到训练样本的自适应近邻的深度度量损失：

其中，[]₊表示铰链损失(hinge loss)，B表示小批次训练样本数且为自然数；

(4)对所有训练样本在卷积神经网络的最后一层全连接层的输出，可由式(9)计算分类损失(softmax loss)L_S：

(5)联合使用自适应深度度量损失和分类损失，如式(10)所示：

L＝L_S+λL_ANN (10)

其中，λ用于平衡两个损失函数的权重，通常设置为0.05。

本发明首先设计对遮挡鲁棒的卷积神经网络结构，在网络中先提取行人图像的中低层语义特征；然后提取对遮挡鲁棒的局部特征，并联合全局特征，再学习高层语义特征，并且使用自适应近邻的深度度量损失学习对于行人身份变化足够具有判别力的特征，并联合使用分类损失，快速稳定地完成整个网络的更新学习；最后根据训练好的网络模型，对测试图像提取第一个全连接层的输出作为特征表示，并完成后续的特征相似度比较和排序，得到最后的行人重识别结果。

本发明基于长短期记忆网络学习行人图像之间的空间依赖关系，有效地提高了特征对遮挡的鲁棒性。该发明提出根据样本的分类不确定性，自适应设置不同大小的近邻范围。在近邻范围内，保持类内紧缩和类间分散，同时使用该自适应深度度量损失，可以使得学习到的特征更加具有判别性，这对于行人类内表观变化大，类间表观变化小的问题是非常重要的。本发明联合度量损失和分类损失进行端到端的网络训练，充分提高了训练效率和训练稳定性。

附图说明

图1为本发明实施例的框架图。

图2为在Market1501数据集上在不同实验设置下，在不同遮挡比例情况下的行人重识别第一匹配率(rank-1)的精度。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例的实施方式包括以下步骤：

1.设计一个对遮挡鲁棒的卷积神经网络结构。该网络由两个部分网络组成。第一部分网络用于提取行人图像的中低层语义特征，第二部分网络用于提取行人图像的高层语义特征。

A1.网络的第一部分网络为全卷积网络，其输入图像的大小256×128，用于提取行人图像的中低层语义特征。第一部分网络，采用残差网络ResNet-34(K.He，X.Zhang，S.Ren，and J.Sun，“Deep residual learning for image recognition，”in Computer Visionand Pattern Recognition(CVPR)，2016，pp.770-778.)中的第一层卷积层到第五层卷积层(conv1～conv5)的网络结构。全卷积网络的最后一层共享卷积层的大小为1×512×3×3，输出特征图大小为1×512×8×4。

A2.网络的第二部分网络包括局部特征子网络和全局特征子网络以及两个全连接层组成。

对于局部特征子网络，包括一个平均池化层和一个卷积层以及一个长短期记忆网络层(LSTM)。平均池化层的输入为第一部分网络输出的中低层特征图，其对特征图在行方向上进行池化操作，输出特征图大小为1×512×8×1。卷积层采用的卷积核大小为1×128×1×1，其作用等价于对特征进行维度约减，得到局部特征为S_t(t＝1，...，8)，S_t大小为1×128×1×1。每个局部特征对应行人图像不同局部区域的特征。由于行人身体存在相对固定的空间依赖关系，比如从上到下依次是头部、颈部、上身、下肢。因此，行人图像不同局部区域之间的空间依赖关系可以通过长短期记忆网络进行学习。长短期记忆网络层的输入为卷积层的输出S_t，每个时间步骤t上的隐层神经元状态h_t可由式(1)～(3)计算得到(h_t大小为1×128×1×1)：。

其中，i_t，f_t，o_t，g_t，d_t分别表示输入门、遗忘门、输出门、细胞状态候选值和细胞状态。sigm，tanh分别表示sigmoid，tanh非线性激活函数；W_L表示长短期记忆网络层的权重矩阵，

表示按位相乘计算。

根据式(1)，长短期记忆网络层会根据当前输入局部特征S_t和前一个时间步骤的隐层神经元状态h_t-1，自动决定更新，遗忘和输出信息。根据式(2)，细胞状态的更新取决于前一个时间步骤的细胞状态d_t-1经过遗忘门f_t的输出值，和细胞状态候选值g_t经过输入门i_t的输出值。根据式(3)，当前时间步骤t的隐层神经元状态h_t取决于细胞候选值d_t的激活值经过输出门o_t的输出值。长短期记忆网络层输出最后一个时间步骤的隐层神经元状态作为空间编码的局部特征，表示为L，其大小为1×128×1×1。该特征对行人图像不同局部区域之间的空间依赖关系进行编码。由于遮挡是影响行人图像中的某个局部区域，该局部区域特征可以看成是噪音输入，其会被长短期记忆网络进行过滤，因此该特征对遮挡鲁棒。

对于全局特征子网络，包括一个全局平均池化层。输入为第一部分网络输出的中低层特征，输出为全局特征，表示为G，其大小为1×512×1×1。

2.在设计好的卷积神经网络里中，使用自适应深度度量损失和分类损失作为损失函数，用来学习对于遮挡鲁棒并且对行人身份可分的高判别力特征。

B1.对每个输入样本，计算分类不确定性H和自适应动态近邻个数K。

每个输入样本a，经过步骤B中的卷积神经网络最后一层输出为

表示该样本a属于第j个类别的概率，1≤j≤N。可以由下面式(4)，计算样本a的分类不确定性H_a；

分类不确定性H_a是衡量softmax分类器的分类置信度，描述的是全局的数据分布。当H_a值比较大时，表示该样本是较难分类的样本，因此需要在比较大的近邻范围内，计算度量损失。根据H_a的值，自适应调整近邻个数K，可由式(5)计算得到：

其中，

表示向上取整操作，K₀表示最小的近邻个数(通常设置为1)。

B2.计算自适应近邻范围内的平均正例样本距离D_ap和平均负例样本距离D_an。

对于输入样本x_a，计算输入样本与当前训练样本中的正例样本x_p(标签相同)之间的距离D_ap。对于正例样本，只考虑前K个最难(距离最远)的正例样本，可由式(6)计算得到：

对于输入样本x_a，计算输入样本与当前训练样本中的负例样本x_n(标签不同)之间的距离D_an。对于负例样本，只考虑前K个最难(距离最近)的负例样本，可由式(7)计算得到：

其中，f(·)表示样本的特征，是输入样本经过卷积神经网络的第一个全连接层的输出；||||₂表示欧式距离。

B3.计算自适应近邻的深度度量损失L_ANN。

对于输入样本x_a，希望充分利用样本近邻范围内的样本。在该范围内，类间样本分散，类内样本紧缩。由于在该范围内平均负例样本之间的距离至少大于平均正例样本之间的距离某个间隔，因此可由式(8)计算得到训练样本的自适应近邻的深度度量损失：

其中，[]₊表示铰链损失(hinge loss)，B表示小批次训练样本数且为自然数。

B4.对所有训练样本在卷积神经网络的最后一层全连接层的输出，可由式(9)计算分类损失(softmax loss)L_S：

B5.联合使用自适应深度度量损失和分类损失，如式(10)所示：

L＝L_S+λL_ANN (10)

其中，λ用于平衡两个损失函数的权重，通常设置为0.05。

3.在大规模图像数据上，利用反向传播算法对卷积神经网络的第一部分网络进行预训练，得到预训练模型。

4.在预训练模型的基础上，使用行人图像训练样本集，利用反向传播算法对卷积神经网络进行端到端训练，得到训练好的模型。

5.利用训练好的模型进行行人重识别，其中将卷积神经网络的第二部分网络的输出特征作为行人图像的特征表示。

在Market1501数据集上在不同实验设置下，在不同遮挡比例情况下的行人重识别第一匹配率(rank-1)的精度参见图2，在图2中，RN_S\采用卷积神经网络的第一部分的网络和第二部分的全局子特征网络，并使用分类损失；RN_J\采用与RN_S\同样的网络，并使用本发明提出的联合损失；RNLSTM_S采用本发明提出的卷积神经网络，并使用分类损失；RNLSTM_J采用本发明提出的网络，并使用本发明提出的联合损失。

表1

表2

表3

表1～3分别为在Market1501，DukeMTMC-reID，CUHK03数据集上，本发明提出的方法与其他方法在不同遮挡比例下的行人重识别结果对比。其中：

XQDA对应S.Liao等人提出的方法(S.Liao，Y.Hu，X.Zhu，and S.Z.Li，“Person re-identification by 10cal maximal occurrence representation and metriclearning，”in Computer Vision and Pattern Recognition(CVPR)，2015，pp.2197-2206.)；

NPD对应L.Zhang等人提出的方法(L.Zhang，T.Xiang，and S.Gong，“Learning adiscriminative null space for person re-identification.”in Computer Visionand Pattern Recognition(CVPR)，2016，pp.1239-1248.)；

IDE对应L.Zheng等人提出的方法(L.Zheng，Y.Yang，and A.G.Hauptmann，“Personre-identification：Past，present and future，”arXiv preprint arXiv：1610.02984，2016.)；

TriNet对应A.Hermans等人提出的方法(A.Hermans，L.Beyer，andB.Leibe，“Indefense of the triplet loss for person re-identification，”arXiv preprintarXiv：1703.07737，2017.)；

PAN对应L.Zhao等人提出的方法(L.Zhao，X.Li，Y.Zhuang，and J.Wang，“Deeply-learned part-alignedrepresentations for person re-identification，”inInternational Conferenceon Computer Vision(ICCV)，2017，pp.3239-3248.)；

SVDNet对应Y.Sun等人提出的方法(Y.Sun，L.Zheng，W.Deng，and S.Wang，“Svdnetfor pedestriantetrieval，”in International Conference on Computer Vision(ICCV)，2017，pp.3820-3828.)。

Claims

1.基于自适应深度度量学习的遮挡行人重识别方法，其特征在于包括以下步骤：

1)准备行人图像训练样本集(x_i，y_i)，i＝1，...，m，m为训练样本数且为自然数；x_i表示第i个训练样本对应的行人图像，y_i，表示第i个训练样本的身份类别标签，其中，1 ≤y_i ≤N，N表示训练样本集包含的身份类别数且为自然数；

6)利用训练好的模型进行行人重识别，其中将卷积神经网络的第二部分网络的输出特征作为行人图像的特征表示；

步骤2)中，所述设计一个对遮挡鲁棒的卷积神经网络结构的具体步骤如下：

(1)卷积神经网络的第一部分网络为全卷积网络，其输入图像的大小为256×128，用于提取行人图像的中低层语义特征；第一部分网络，采用残差网络ResNet-34中的第一层卷积层到第五层卷积层的网络结构，全卷积网络的最后一层共享卷积层的大小为1×512×3×3，输出特征图大小为1×512×8×4；

对于局部特征子网络，包括一个平均池化层、一个卷积层和一个长短期记忆网络层；平均池化层的输入为第一部分网络输出的中低层特征图，其对特征图在行方向上进行池化操作，输出特征图大小为1×512×8×1；卷积层采用的卷积核大小为1×128×1×1，其作用等价于对特征进行维度约减，得到局部特征为S_t，其中，t＝1，...，8，S_t 大小为1×128×1×1；每个局部特征对应行人图像不同局部区域的特征；由于行人身体存在相对固定的空间依赖关系，因此行人图像不同局部区域之间的空间依赖关系通过长短期记忆网络进行学习；长短期记忆网络层的输入为卷积层的输出S_t ，每个时间步骤t上的隐层神经元状态ht由式(1)～(3)计算得到，ht大小为1×128×1×1；

表示按位相乘计算；

根据式(1)，长短期记忆网络层会根据当前输入局部特征S_t和前一个时间步骤的隐层神经元状态h_t-1，自动决定更新、遗忘和输出信息；根据式(2)，细胞状态的更新取决于前一个时间步骤的细胞状态d_t-1经过遗忘门f_t的输出值和细胞状态候选值g_t经过输入门i_t的输出值；根据式(3)，当前时间步骤t的隐层神经元状态h_t取决于细胞候选值d_t的激活值经过输出门o_t的输出值；长短期记忆网络层输出最后一个时间步骤的隐层神经元状态作为空间编码的局部特征，表示为L，其大小为1×128×1×1；该特征对行人图像不同局部区域之间的空间依赖关系进行编码；由于遮挡是影响行人图像中的某个局部区域，该局部区域特征是噪音输入，其会被长短期记忆网络进行过滤，因此该特征对遮挡鲁棒；

对于两个全连接层，第一个全连接层的输入为局部特征和全局特征的拼接特征，通过全连接层，进行高层语义特征的映射学习；第二个全连接层的输入为第一个全连接层的输出，输出是身份类别的最大分类概率。

2.如权利要求1所述基于自适应深度度量学习的遮挡行人重识别方法，其特征在于在步骤3)中，所述在设计好的卷积神经网络中，使用自适应深度度量损失和分类损失作为损失函数包括以下步骤：

表示该样本a属于第j个类别的概率，1≤j≤N，由式(4)计算样本a的分类不确定性H_a：

分类不确定性H_a是衡量softmax分类器的分类置信度，描述的是全局的数据分布，当H_a值大于预设值时，该样本被设为预设难度分类样本，需要在预设近邻范围内，计算度量损失，根据H_a的值，自适应调整近邻个数K，由式(5)计算得到：

其中，

表示向上取整操作，K₀表示最小的近邻个数；

对于输入样本x_a，计算输入样本与当前训练样本中的正例样本x_p之间的距离D_ap，对于正例样本，只考虑前K个最难的正例样本，由式(6)计算得到：

对于输入样本x_a，计算输入样本与当前训练样本中的负例样本x_n之间的距离D_an，对于负例样本，只考虑前K个最难的负例样本，由式(7)计算得到：

其中，f(·)表示样本的特征，是输入样本经过卷积神经网络的第一个全连接层的输出，|| ||₂表示的是欧式距离；

(3)计算自适应近邻的深度度量损失L_ANN；

对于输入样本x_a，利用样本近邻范围内的样本，在该范围内，类间样本分散，类内样本紧缩，由于在该范围内平均负例样本之间的距离至少大于平均正例样本之间的距离某个间隔，因此由式(8)计算得到训练样本的自适应近邻的深度度量损失：

(4)对所有训练样本在卷积神经网络的最后一层全连接层的输出，由式(9)计算分类损失L_S：

(5)联合使用自适应深度度量损失和分类损失，如式(10)所示：

L＝L_S+λL_ANN (10)

其中，λ用于平衡两个损失函数的权重，设置为0.05。