CN108229444A

CN108229444A - 一种基于整体和局部深度特征融合的行人再识别方法

Info

Publication number: CN108229444A
Application number: CN201810132400.6A
Authority: CN
Inventors: 张重; 司统振; 刘爽
Original assignee: Tianjin Normal University
Current assignee: Guoqi Beijing Intelligent Network Association Automotive Research Institute Co ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-06-29
Anticipated expiration: 2038-02-09
Also published as: CN108229444B

Abstract

本发明实施例公开了一种基于整体和局部深度特征融合的行人再识别方法，该方法包括：构建局部特征目标网络和整体特征目标网络；把训练行人图像子区域对输入局部特征目标网络，得到局部特征学习模型；把测试行人图像子区域输入局部特征学习模型，得到子区域特征向量；把训练行人图像整幅输入整体特征目标网络，得到整体特征学习模型；把测试行人图像整幅输入整体特征学习模型，得到整体特征向量；将子区域特征向量和整体特征向量组合形成最终特征表示，计算该行人图像与训练图像的相似度，得到行人识别结果。本发明充分利用深度学习的优势，挖掘行人图像的局部特征和整体特征，最终结合两种特征形成图像的特征向量，提高了行人再识别的匹配正确率。

Description

一种基于整体和局部深度特征融合的行人再识别方法

技术领域

本发明属于模式识别、人工智能领域，具体涉及一种基于整体和局部深度特征融合的行人再识别方法。

背景技术

随着计算机技术的发展，公共场所安装了大量的监控设备。人工操作难以在大量的监控数据中提取有效信息，利用计算机解决此问题已经成为必然趋势，因此近年来行人再识别技术被广泛关注。但是由于真实场景中行人外观、姿态以及外界环境的光线和拍摄角度变化较大，使得行人再识别技术面临着很大的挑战。

为了提高计算机对行人再识别的匹配正确率，经过多年的研究，人们提出了多种有效的方法。在特征表示方面，Gray等人提出了局部特征集合(Ensemble of LocalFeatures，ELF)。Liao等人提出了局部最大共生特征(Local Maximal Occurrence，LOMO)。在度量学习方法，Zheng等人提出了概率相对距离比较算法(Probabilistic RelativeDistance Comparison，PRDC)。Liao等人提出了一种交叉视角的二次性判别分析度量方法(Cross-view Quadratic Discriminant Analysis，XQDA)。

目前很多研究者将深度学习算法应用到行人再识别领域，并且取得了不错的效果。Xiao等人训练了一个分类模型并且提出了弃权函数来处理大量的类别。Zheng等人联合了分类摸型和验证模型，并且同时利用三个损失函数训练网络。Yi等人把一幅图像分为三个水平子区域，用子区域同时训练三个网络。Zheng等人提出利用生成式对抗网络产生标签，取得了较好的实验效果。深度学习方法已经达到了比较好的效果，大部分方法都是利用整幅图像作为输入提取整体特征，同时也有一些方法提取了局部特征，但都没有充分的挖掘出图像的特征表示方法。

发明内容

本发明的目的是要解决行人的整体特征或局部特征在深度学习中未被充分利用的技术问题，为此，本发明提供一种基于整体和局部深度特征融合的行人再识别方法。

为了实现所述目的，本发明提出的一种基于整体和局部深度特征融合的行人再识别方法包括以下步骤：

步骤S1，对预训练网络进行初始化，构建提取局部特征的局部特征目标网络；

步骤S2，把训练集的行人图像分别划分为n个水平子区域，对应位置的子区域为子区域对，把子区域对输入到所述局部特征目标网络中，得到局部特征学习模型；

步骤S3，把测试集的行人图像同样地划分为n个水平子区域，把每个子区域输入至所述局部特征学习模型中，得到子区域的特征向量p_i(i＝1,2,…n)，其中，p_i(i＝1,2,…n)表示第i个子区域的特征向量；

步骤S4，对预训练网络进行初始化，构建提取整体特征的整体特征目标网络；

步骤S5，基于构建的整体特征目标网络，把训练集的行人图像整幅输入至所述整体特征目标网络中，得到整体特征学习模型；

步骤S6，基于所述整体特征学习模型，把测试集的行人图像整幅输入至所述整体特征学习模型中，得到行人图像的整体特征向量B；

步骤S7，合并每幅行人图像的所有子区域特征向量形成行人图像的局部特征向量P，局部特征向量与整体特征向量B结合组成该行人图像的最终特征表示；

步骤S8，基于行人图像最终的特征表示，计算该行人图像与训练集中任意一幅图像间的相似度，相似度最高的被认为是相同的行人，得到行人识别结果。

可选地，所述步骤S1包括以下步骤：

步骤S11，获取m个已预先训练好的深度学习网络模型，并对其分别进行初始化，其中m为自然数，m＝2，3，…；

步骤S12，将初始化后的m个深度学习网络模型进行并行组合，并在m个网络模型的末端进行合并；

步骤S13，根据组合网络卷积层中神经元的激活值得到待建局部特征目标网络的预测概率，并根据所述预测概率设置损失函数，形成完整的局部特征目标网络结构。

可选地，所述步骤S12包括以下步骤：

步骤S121，将初始化后的m个深度学习网络模型进行并行组合，m个深度学习网络模型上下并行同时进行传播，共享权重，在末端生成特征向量f₁、f₂…f_m；

步骤S122，将m个深度学习网络模型在末端进行合并形成平方层，在该层中计算得到特征向量f₁、f₂…f_m之间的相似性f_s；

步骤S123，在平方层后增加卷积层。

可选地，所述步骤S13包括以下步骤：

步骤S131，根据所述卷积层中神经元的激活值得到局部特征目标网络的预测概率y_i：

其中，a_i表示卷积层中第i个神经元的激活值；

步骤S132，根据所述预测概率将所述局部特征目标网络中的损失函数设置为L_V，形成完整的局部特征目标网络结构，其中，损失函数L_V表示为：

其中，p_i表示子区域对正负概率值。

可选地，所述步骤S2包括以下步骤：

步骤S21，把训练集中的每一幅行人图像划分为n个水平子区域，定义相同行人的对应子区域为正子区域对，不同行人的对应子区域为负子区域对；

步骤S22，随机抽取子区域对，将子区域对进行预处理，然后分别输入到所述局部特征目标网络中的子网络中，得到局部特征学习模型。

可选地，所述步骤S3包括以下步骤：

步骤S31，把测试集中的每一幅行人图像同样地划分为n个水平子区域；

步骤S32，按照训练的方式将子区域进行预处理，然后分别输入至所述局部特征学习模型中，得到n个子区域各自的特征向量p_i(i＝1,2,…n)。

可选地，所述步骤S4包括以下步骤：

步骤S41，获取已预先训练好的深度学习网络模型，并对其进行初始化；

步骤S42，在初始化后的深度学习网络模型后加入卷积层；

步骤S43，根据所述卷积层中神经元的激活值得到待建整体特征目标网络的预测概率，并根据所述预测概率设置损失函数，形成完整的整体特征目标网络结构。

可选地，所述步骤S43包括以下步骤：

步骤S431，根据所述卷积层中神经元的激活值得到整体特征目标网络的预测概率y_j，表示为：

其中，a_j表示卷积层中第j个神经元的激活值，C为行人图像的类别总数。

步骤S432，根据所述预测概率将所述整体特征目标网络中的损失函数设置为L_I，形成完整的整体特征目标网络结构，其中，损失函数L_I表示为：

其中，q_j表示标签概率，K为类别标签总数。

可选地，所述步骤S5包括以下步骤：

步骤S51，把训练集中的每一幅行人图像进行预处理；

步骤S52，将预处理后的行人图像输入至所述整体特征目标网络中，经过学习得到整体特征学习模型。

可选地，所述步骤S6包括以下步骤：

步骤S61，将测试集中的行人图像进行预处理；

步骤S62，将预处理后的行人图像输入至所述整体特征目标网络中，得到行人图像的整体特征向量B。

本发明的有益效果为：本发明通过深度学习利用整体特征学习模型和局部特征学习模型获得行人图像的整体特征向量和局部特征向量，组合两种特征向量形成最终的特征表示，达到充分挖掘行人图像的特征表示的目的，从而提高行人再识别匹配的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.61501327、No.61711530240，天津市自然科学基金重点项目No.17JCZDJC30600，天津市应用基础与前沿技术研究计划青年基金项目No.15JCQNJC01700，天津师范大学“青年科研拔尖人才培育计划”No.135202RC1703，模式识别国家重点实验室开放课题基金No.201700001、No.201800002，中国国家留学基金No.201708120040、No.201708120039的资助。

附图说明

图1是根据本发明一实施例的一种基于整体和局部深度特征融合的行人再识别方法的流程图；

图2是根据本发明一实施例的基于深度学习的局部特征学习模型和整体特征学习模型示意图；

图3是根据本发明一实施例的局部特征、整体特征以及最终特征表示的形成方式示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例的一种基于整体和局部深度特征融合的行人再识别方法的流程图，下面以图1为例来说明本发明的一些具体实现流程。本发明是一种基于整体和局部深度特征融合的行人再识别方法，具体步骤包括：

进一步地，所述步骤S1包括以下步骤：

在本发明一实施例中，所采用的已预先训练好的深度学习网络模型为ResNet-50。

其中，所述初始化包括对于所述深度学习网络模型参数的初始化。

所述步骤S12包括以下步骤：

步骤S123，在平方层后增加卷积层。

下面以m＝2为例对于本方法进行说明。

进一步地，所述步骤S12包括以下步骤：

步骤S121，如图2(a)所示，将初始化后的2个深度学习网络模型进行并行组合，2个深度学习网络模型上下并行同时进行传播，共享权重，在末端生成具有2048维度的特征向量f₁和f₂；

步骤S122，将2个深度学习网络模型在末端进行合并形成平方层，如图2(a)所示，在该层中计算得到特征向量f₁和f₂之间的相似性f_s：

f_s＝(f₁-f₂)²

步骤S123，在平方层后增加卷积层，如图2(a)所示，所述卷积层卷积核的大小为1×1×2048×2。

进一步地，所述步骤S13包括以下步骤：

步骤S131，根据所述卷积层中神经元的激活值得到局部特征目标网络的预测概率y_i，表示为：

其中，a_i表示最后一层卷积层中第i个神经元的激活值。

其中，p_i表示子区域对正负概率值，其是一个真实概率，如果输入的是正子区域对，那么p₁＝1，p₂＝0；如果输入的是负子区域对，那么p₁＝0，p₂＝1。

进一步地，所述步骤S2包括以下步骤：

在本发明一实施例中，每一幅行人图像分为3个水平子区域进行训练。

步骤S22，随机抽取子区域对，将子区域对进行预处理，然后分别输入到所述局部特征目标网络中的子网络中，比如如图2(a)所示的上下两个子网络，得到局部特征学习模型。

在本发明一实施例中，在进行预处理时，利用最近邻插值法将子区域扩展为p×p大小，比如256×256，然后将所有像素点的像素值减去所有子区域像素的均值，最后随机裁剪一个q×q大小，比如224×224的区域作为所述局部特征目标网络的输入，其中，p>q。

在本发明一实施例中，在对于所述局部特征学习模型进行训练时，采用梯度下降法进行迭代优化，迭代次数设置为75，前70次迭代的学习率设置为0.1，后五次迭代的学习率设置为0.01，优化过程中权重衰减值设置为0.0005，每次迭代的输入为24个样本。

进一步地，所述步骤S3包括以下步骤：

在本发明一实施例中，测试过程中每幅行人图像划分的子区域个数与训练时每幅行人图像划分的子区域个数相同，即n＝3。

进一步地，所述步骤S4包括以下步骤：

在本发明一实施例中，所采用的已预先训练好的深度学习网络模型ResNet-50。

步骤S42，在初始化后的深度学习网络模型后加入卷积层，如图2(b)所示，所述卷积层卷积核的大小为1×1×2048×C。

其中，C为行人图像的类别总数。

在本发明一实施例中，在CUHK03数据库中进行测试时C＝1367。

进一步地，所述步骤S43包括以下步骤：

其中，a_j表示最后一层卷积层中第j个神经元的激活值。

其中，q_j是真实概率，如果第j个类别是真实标签，那么q_j＝1，剩余的类别q_j＝0，K为类别标签总数。

步骤S5，基于构建的整体特征目标网络，如图2(b)所示，把训练集的行人图像整幅输入至所述整体特征目标网络中，得到整体特征学习模型；

进一步地，所述步骤S5包括以下步骤：

步骤S51，把训练集中的每一幅行人图像进行预处理；

在本发明一实施例中，在进行预处理时，利用最近邻插值法将行人图像扩展为pˊ×pˊ大小，比如256×256，然后将所有像素点的像素值减去所有行人图像像素的均值，最后随机裁剪一个qˊ×qˊ大小，比如224×224的区域作为所述整体特征目标网络的输入。

步骤S52，将预处理后的行人图像输入至所述整体特征目标网络中，如图2(b)所示，经过学习得到整体特征学习模型。

进一步地，所述步骤S6包括以下步骤：

步骤S61，将测试集中的行人图像进行预处理；

在本发明一实施例中，该预处理的方法与训练时预处理的方法相同。

在本发明一实施例中，将图2(b)中的f视为整体特征。

步骤S7，合并每幅行人图像的所有子区域特征向量形成行人图像的局部特征向量P，局部特征向量与整体特征向量B结合组成该行人图像的最终特征表示，其中的操作过程如图3所示；

进一步地，所述步骤S7包括以下步骤：

步骤S71，将每幅行人图像的所有子区域的特征向量进行权重相加形成该行人图像的局部特征向量P；

进一步地，所述局部特征向量P的组合方式为：

P＝α₁p₁+α₂p₂+…+α_np_n

其中，n表示每幅行人图像划分得到的水平子区域的总个数，p_i(i＝1,2,…n)表示每幅行人图像第i个子区域的特征向量，α_i(i＝1,2,…n)用于控制第i个子区域的特征向量所占的权重大小。

在本发明一实施例中，由于将每幅行人图像分为3个子区域，因此可设置α₁＝0.5，α₂＝0.4，α₃＝0.2。

步骤S72，将局部特征向量P和整体特征向量B进行合并形成该行人图像的最终特征表示F。

进一步地，所述行人图像的最终特征表示的组合方式为：

F＝[λP,βB]

其中，λ和β分别用于控制行人图像的局部特征向量和整体特征的向量权重，经过串联形成最终的特征表示F。

在本发明一实施例中，可设置λ＝β＝1。

以网上公开的行人再识别大型数据库作为测试对象，在CUHK03数据库上测试时，本发明行人再识别匹配的平均正确率达到79.86％。本发明行人再识别方法运用整体特征与局部特征相融合的方法，很大程度地提高了行人再识别匹配正确率，由此可见本发明方法的有效性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于整体和局部深度特征融合的行人再识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述步骤S12包括以下步骤：

步骤S123，在平方层后增加卷积层。

4.根据权利要求2所述的方法，其特征在于，所述步骤S13包括以下步骤：

其中，a_i表示卷积层中第i个神经元的激活值；

其中，p_i表示子区域对正负概率值。

5.根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：

6.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

7.根据权利要求1所述的方法，其特征在于，所述步骤S4包括以下步骤：

步骤S42，在初始化后的深度学习网络模型后加入卷积层；

8.根据权利要求7所述的方法，其特征在于，所述步骤S43包括以下步骤：

其中，q_j表示标签概率，K为类别标签总数。

9.根据权利要求1所述的方法，其特征在于，所述步骤S5包括以下步骤：

步骤S51，把训练集中的每一幅行人图像进行预处理；

10.根据权利要求1所述的方法，其特征在于，所述步骤S6包括以下步骤：

步骤S61，将测试集中的行人图像进行预处理；