CN111126135A

CN111126135A - 一种基于统一划分的特征自适应行人再识别方法

Info

Publication number: CN111126135A
Application number: CN201911096785.6A
Authority: CN
Inventors: 宋晓宁; 张德磊; 冯振华; 於东军
Original assignee: Shanghai Litu Information Technology Co Ltd
Current assignee: Shanghai Litu Information Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-05-08
Anticipated expiration: 2039-11-11
Also published as: CN111126135B

Abstract

本发明公开了一种基于统一划分的自适应行人再识别方法，包括以下步骤，构建DenseNet骨干网络作为特征提取的网络结构并进行优化和训练；提取网络全连接层之前的目标特征；对提取的所述目标特征进行统一划分；利用马氏距离均值判断划分后的相邻特征是否需要特征融合；对DenseNet提取的特征做切片划分之后，切片后的特征做池化并将池化后的相邻特征拼接，拼接之后再做一次池化；添加fc层对融合后的张量展开做全连接，所述fc层经过Softmax分类获取目标ID来预测行人的身份。本发明的有益效果：本发明在基于统一划分的自适应行人再识别方法中能够取得了最高的精度，表明其稳定性与有效性。

Description

一种基于统一划分的特征自适应行人再识别方法

技术领域

本发明涉及深度学习的技术领域，尤其涉及一种基于统一划分的特征自适应行人再识别方法。

背景技术

近年来深度学习方法由于其提取特征能力强和模型泛化能力优秀，受到学术界以及工业界的青睐。然而深度学习出现之初，虽然学习能力强，但是由于软硬件性能支撑有限，导致其应用范围受限。而随着卷积神经网络的出现，网络参数量大幅减少，计算机硬件性能大规模改善，深度学习方法近十几年得到了广泛的关注与发展。深度学习方法在模式识别方向上得到了大规模应用，并且取得了很好的效果。

其中行人再识别作为模式识别中的一个方向，在安防、无人超市等领域应用需求的刺激下，得到了人们的关注，也取得了一定的发展。早期，行人再识别的发展仅局限于传统机器学习方法的应用，然而传统机器学习方法提取的特征泛化能力有限，识别率迟迟无法得到有效的提升。随着深度学习被应用于行人再识别(PersonRe-identification，Re-ID)，识别率在近年得到了大幅提高。与深度学习在人脸识别的应用不同，Re-ID并不依赖于人脸信息的学习，而更依赖人的姿态信息、颜色信息等等来识别行人ID。而行人姿态信息，在不同场景中，往往出现目标姿态偏差，目标遮挡等问题，这也为Re-ID任务带来了极大的挑战。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：提供一种基于统一划分的自适应行人再识别方法，提高识别精度。

为解决上述技术问题，本发明提供如下技术方案：一种基于统一划分的自适应行人再识别方法，包括以下步骤，构建DenseNet骨干网络作为特征提取的网络结构并进行优化和训练；提取网络全连接层之前的目标特征；对提取的所述目标特征进行统一划分；利用马氏距离均值判断划分后的相邻特征是否需要特征融合；对DenseNet提取的特征做切片划分之后，切片后的特征做池化并将池化后的相邻特征拼接，拼接之后再做一次池化；添加fc层对融合后的张量展开做全连接，所述fc层经过Softmax分类获取目标ID来预测行人的身份。

作为本发明所述的基于统一划分的自适应行人再识别方法的一种优选方案，其中：所述网络结构的优化包括，将最后一层的pooling步长改为1*1，增加特征信息量；通过1*1卷积将得到的1664通道数特征改为2048通道数。

作为本发明所述的基于统一划分的自适应行人再识别方法的一种优选方案，其中：利用所述Softmax函数对网络输出结果做优化分类训练，包括假设网络原始网络的输出为y₁，y₂，…，y_n；

经过Softmax回归处理后的输出为：

通过交叉熵损失，计算预测概率分布与真实概率分布之间的距离。

作为本发明所述的基于统一划分的自适应行人再识别方法的一种优选方案，其中：所述马氏距离计算过程为：

其中S表示协方差矩阵，则由上述公式可以计算出相邻部位

中对应点的马氏距离；

再利用对应点的距离均值求出相邻特征距离大小，计算过程为：

其中N表示常数8，M表示常数2，

表示向量

的组合数，即28。

作为本发明所述的基于统一划分的自适应行人再识别方法的一种优选方案，其中：所述DenseNet骨干网络通过对TriHardloss及ID loss(分类损失) 的联合训练，在部位特征识别的基础上，利用度量学习方法进一步挖掘数据集中的难样本。

作为本发明所述的基于统一划分的自适应行人再识别方法的一种优选方案，其中：所述难样本的挖掘包括以下步骤，对于每一个训练batch挑选P个 ID的行人；每个行人随机挑选K张不同的图片，即一个batch含有P×K张图片；对于batch中的每一张图片a，挑选一个最难的正样本和一个最难的负样本和a组成一个三元组；定义和a为相同ID的图片集为A，剩下不同ID的图片集为B；则难三元TriHard损失表示为：

其中

表示正样本与原样本之间的距离，

表示负样本与原样本之间的距离，α是需要调整的参数，公式表示正样本与原样本+α的距离要大于负样本与原样本的距离。

本发明的有益效果：本发明在基于统一划分的自适应行人再识别方法中能够取得了最高的精度，表明其稳定性与有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为传统行人特征平均切片的示意图；

图2为本发明相邻部位之间特征做融合的网络框架示意图；

图3为本发明所述难三元损失的联合训练的示意图；

图4为本发明所述原不包括联合训练的实验精度对比图；

图5为本发明所述包括联合训练的实验精度对比表。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～3的示意，本实施例中为了解决在行人再识别模式中局部特征关联性丢失问题，解决数据集中难样本难以分类问题，以及行人再识别网络深层特征信息丢失的问题。提出一种基于统一划分的自适应行人再识别方法，具体的，该方法包括以下步骤，

S1：构建DenseNet骨干网络作为特征提取的网络结构并进行优化和训练；本步骤中需要说明的是，构建DenseNet骨干网络与以往Reid方法类似，同样是基于骨干网络做一个分类任务。

其不同点在于，本实施例中骨干网络采用的是DenseNet(一种卷积神经网络)骨干网络。与ResNet(一种卷积神经网络)相比，DenseNet将残差这一概念用到了极致，通过密集连接的方式，缓解梯度消失问题，复用特征，加强深层特征与浅层特征的直接联系，极大减少参数量。而其能够减少参数数目的原因在于：每一卷积层的输入X_l＝H_l([X₀,X₁,…,X_(l-1)])，其中[X₀,X₁,…,X_(l-1)]就是将之前featuremap的特征图按通道的维度进行合并，因而每一层都包含之前层的所有输入信息，每层所产生的特征图却很少。因而与ResNet想比，参数数量得到了大大的减少，且由于网络特征图的密集连接，提取的特征在大部分模式识别任务上都比ResNet要好。

进一步的，DenseNet骨干网络的网络结构优化包括，

将最后一层的pooling步长改为1*1，增加特征信息量；

通过1*1卷积将得到的1664通道数特征改为2048通道数。

S2：提取网络全连接层之前的目标特征；本步骤是通过DenseNet169网络提取特征，并将网络最后一层的步长改为1提高特征的细粒度。

S3：对提取的目标特征进行统一划分；在PCB以及AlignedReid文章中都是将行人特征平均切片，然后便将平均切片的特征做分类。这种方式其实存在着人体部位信息丢失的情况。参照图1的示意，可以看出在第二和第三切片部分，存在着明显的信息关联，而这种方式显得太过暴力。

S4：利用马氏距离均值判断划分后的相邻特征是否需要特征融合；马氏距离计算过程为：

其中S表示协方差矩阵，则由上述公式可以计算出相邻部位

中对应点的马氏距离；

其中N表示常数8(统一划分后部位特征宽度)，M表示常数2(统一划分后，表示两个相邻部位数量为2)，

表示向量

的组合数，即28。

通过计算相邻部位特征的相似度，如果相似度较高，则不需要融合，如果较低则融合，使得融合的特征包含尽量多的特征。

S5：对DenseNet提取的特征做切片划分之后，切片后的特征做池化并将池化后的相邻特征拼接，拼接之后再做一次池化；需要说明的是，在拼接过程中不需要做融合，在拼接之后会对根据特征之间的相似度做判断去融合，这个过程是发生在池化之前。

先对切分后的部位特征做相似度判断；

然后根据判断结果，判断是否需要融合部位特征，如果融合，则会出现融合后的特征比融合前的特征大的情况，这时做一次池化，来保证融合后的特征与融合前特征大小相同。

S6：添加fc层对融合后的张量展开做全连接(连接层的输入为2048，输出为行人的类别数，在Market1501数据集上的类别数为751)，fc层经过Softmax 分类获取目标ID来预测行人的身份。由于张量是三维的，而全连接层的输入是一维的，所以此处的展开指的是将一个N*M*S的向量转换成NMS*1的一维矩阵。张量是数学上的名词，特征是图像领域的名词。

本实施例中提出一种思路(参照图2)，将相邻部位之间特征做融合，在切片的同时又保留部位与部位之间的相关性。融合思路是对相邻部位做相似度计算，相似度低的做融合，高的保留不变。优点是统一划分相对暴力，忽略了行人空间信息，而融合后的特征由于多了空间信息，提升了识别精度。

在对DenseNet提取的特征做切片之后，将切片后的特征做池化，并将池化后的相邻特征拼接，拼接之后再做一次池化。这样与原来的切片特征相比，在不改变特征tensor(张量)大小的情况下，同样大小的tensor包含了更多部位信息，使得网络在训练过程中，传递信息更加稳定与有效。

然后添加fc层，对融合后的张量展开做全连接，此时的fc层要经过Softmax 分类，最终预测行人的身份。

Softmax(交叉熵)函数可以用来对网络输出结果做优化分类，使得输出值更加符合实际值。假设网络原始网络的输出为y₁，y₂，…，y_n，经过Softmax 回归处理后的输出为：

从上述的运算过程可以看出，网络的输出被当作置信度，经过softmax函数的运算后，得到了新的输出，而新出输出满足概率分布的所有要求。此时，把网络的输出看成属于是某结果属于不同类别的概率是多少，因而网络的输出在这里可以看作是一个概率分布，通过交叉熵损失，计算预测概率分布与真实概率分布之间的距离(对应目的是计算两个部位之间的相似度)。

进一步的，如下图3所示联合训练将之前介绍的方法与TriHardloss训练方法做结合。主要目的是将局部特征方法与全部特征方法做结合以提高精度。联合训练要解决的技术难点是难样本挖掘问题。联合训练后实验效果得到进一步提升，提升的精度主要体现在难样本方面。

本实施例利用DenseNet骨干网络通过对TriHardloss及ID loss(分类损失) 的联合训练，在部位特征识别的基础上，利用度量学习方法(通过计算不同行人整体特征的三元损失距离，来计算TriHardloss三元损失参数，以此优化网络) 进一步挖掘数据集中的难样本。难样本问题在实际场景采集的数据集中是经常出现的，因而进一步提高了本实施例方法的应用价值。需要说明的是，本步骤是联合训练网络的；是与之前的步骤从实验开始并列展开的。其中识别指的是识别拥有此部位的行人的身份，识别发生在特征提取之后，具体步骤是通过上述softmax函数计算此部位属于某个行人的概率。

本实施例中TriHard loss(难三元损失)的核心思想是：

对于每一个训练batch挑选P个ID的行人；

每个行人随机挑选K张不同的图片，即一个batch含有P×K张图片；

对于batch中的每一张图片a，挑选一个最难的正样本和一个最难的负样本和a组成一个三元组；此处利用Re-ID实验中有一常用的标准挑选方法，引用其方法即可实现挑选。

定义和a为相同ID的图片集为A，剩下不同ID的图片集为B；

则TriHard损失表示为：

其中

表示正样本与原样本之间的距离，

公式目的是为了找出最大距离的难正样本，最小距离的难负样本，使得网络对难样本的适应性增强，提高整个网络的鲁棒性。

经过对比实验，实验数据如下：

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合) 可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

实施例2

参照图4～5的示意，针对上述实施例提出的基于统一划分的自适应行人再识别方法，本实施例使用了两个目前Re-ID任务公认的数据集Market-1501与 DukeMTMC-reID作为实验对象，Market-1501数据集包含有6个摄像机视点下的观察照片，共计1501个身份，其中训练集751个身份共计12936张训练图片，测试集750个身份共计19732张测试图片，query共计3368张图片。 DukeMTMC-reID数据集包含1404个身份，共计36511张图片。其中测试集702 个身份，共计16522个训练图像。训练集702个身份，共计17661张图片。Query 共2228张图片。

测试的整体思路如下：

将384*128大小图片输入到densenet169网络中做特征提取；

将最后一层的pooling步长改为1*1，以增加特征信息量；

将得到的1664通道数特征，通过1*1卷积改为2048通道数；

将特征做部位特征融合；

将融合后特征做全连接并分类。

具体的实验细节：

在实验过程中，将batch大小设置为64，图片大小设为384*128，模型迭代次数epoch为60次，学习率为0.1，momentum动量为0.9，其余参数设置为常规设置。网络选用densenet169，模型参数选用已在imagenet上预训练好的参数，网络输出分类再market-1501上设置为751，在duke数据集上分类数设置为702。

实验结果：

为了验证本实施例提出算法的效果，与PCB算法以及AligedReID方法做了实验对比，对上述两个数据库在同样条件下，做实验对比，实验结果如图5 所示。

并且参照图4的实验数据，本实施例在Market-1501和DukeMTMC-reID数据集上取得了82.8％的和70.4％的mAP，mAP指数相比于PCB-baseline方法提升了5.4％，R-1提升了1.6％；与PCB+RPP方法对比，mAP提高了1.2％，R-1 提升了1.4％。表明了本实施例模型在Maket-1501数据库上取得了更好的稳定性。在DukeMTMC-reID数据集上，与PCB+RPP方法相比，mAP提升了1.2％以及R-1上涨1.8％，均表明了之前提出方法的有效性。在实验过程中发现，迭代40次的效果为最佳。通过增加补充的图5实验效果示意，将其原图4的数据对比，明显可知本实施例的相对图4效果更佳。与原方法(不包括联合训练) 相比，本实验中Market1501和DuckMTMC-reID数据集上分别取得了83.7％和70.8％的mAP精度。在market1501数据集上,mAP精度提高了0.9，R-1精度提高了0.2，在DuckMTMC-reID上，mAP提高了0.5，R-1提高了0.8。实验结果表明，联合训练方法有效提高了实验精度。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。