CN115294601B

CN115294601B - 基于多尺度特征动态融合的行人重识别方法

Info

Publication number: CN115294601B
Application number: CN202210870763.6A
Authority: CN
Inventors: 邹玮; 浦嘉成; 王加俊; 胡丹峰; 方二喜
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2023-07-11
Anticipated expiration: 2042-07-22
Also published as: CN115294601A

Abstract

本发明涉及一种基于多尺度特征动态融合的行人重识别方法，包括构建包括主干网络和三条分支网络的神经网络，主干网络根据输入图像得到行人的多尺度全局特征图，三条分支网络根据行人的多尺度全局特征图提取全局特征和多维度的局部特征；根据全局特征和多维度的局部特征训练包括主干网络和三条分支网络的神经网络得到训练完成的神经网络，将待识别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果。本发明可以得到丰富且具有辨别性的特征、提高行人重识别的精度。

Description

基于多尺度特征动态融合的行人重识别方法

技术领域

本发明涉及图像识别技术领域，尤其是指一种基于多尺度特征动态融合的行人重识别方法。

背景技术

行人重识别(Person re-identification,Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别用于弥补摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，广泛应用于智能视频监控、智能安保等领域。

Re-ID在实际应用场景下的数据非常复杂，由于收集跨摄像头匹配的人图像的困难十分大，目前主要技术难点为类内差异大，类间差异小。现有技术有基于表征学习的行人重识别，这种方法通过CNN网络提取图像的表征特征，然后进行训练模型，重识别则靠网络验证两张行人图像来实现。而基于度量学习的方法则是把重识别的实现放在对行人图像相似度比较上，也就是说对于同一行人的图片，他们之间相似度要更大，损失函数也是根据这种关系进行设计，如图1所示为行人重识别系统的框架设计图，其中参考图像集和查询集都是在测试集中出现的概念，测试时在查询集中选取元素到参考图像集中寻找，最终测试阶段对模型性能的评估是根据查询集中元素检索的效果来反映的。

尽管在卷积神经网络(Convolutional Neural Network,CNN)的端到端表示学习帮助下，RE-ID的性能得到了显著提升，但在如何进行特征提取和度量学习计算还有很大进步空间。作为一个实例级识别任务，在不相交的摄像机视图下重新识别人需要克服类内变化大和类间模糊两大困难。例如相机之间的视角变化(从正面到背面、侧面)给背包区域带来了较大的外观变化，这需要使用RE-ID特性来捕获细微的细节，用以区分具有相似外表的人，仅利用全局特征会忽略掉一部分细粒度信息，无法提取出具有辨别性的特征，这会大大降低识别性能。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于多尺度特征动态融合的行人重识别方法，可以得到丰富且具有辨别性的特征、提高行人重识别的精度。

为解决上述技术问题，本发明提供了一种基于多尺度特征动态融合的行人重识别方法，包括以下步骤：

构建包括主干网络和三条分支网络的神经网络，所述主干网络根据输入图像得到行人的多尺度全局特征图，所述三条分支网络根据所述行人的多尺度全局特征图提取全局特征和多维度的局部特征；

根据所述全局特征和多维度的局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络；

将待识别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果。

作为优选的，所述主干网络包括七层，分别为：第一层卷积层、第二层最大池化层、第三层统一聚合门、第四层平均池化层、第五层统一聚合门、第六层平均池化层、第七层统一聚合门；

输入图像经过第一层卷积层后经下采样操作进入第二层最大池化层，然后经过第三层统一聚合门后经下采样操作进入第四层平均池化层，接着经过第五层统一聚合门后经下采样操作进入第六层平均池化层，最后经过第七层的统一聚合门后得到行人的多尺度全局特征图。

作为优选的，所述三条分支网络分别为Part-1分支、Part-2分支和Part-3分支，

所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征，

所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征。

作为优选的，所述Part-1分支包括带指数参数p的广义平均池化层，

所述带指数参数p的广义平均池化层从所述行人的多尺度全局特征图中提取全局特征

作为优选的，所述Part-2分支包括两个卷积核不相同的全局最大池化层，Part-2分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征

Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征

所述Part-3分支包括两个卷积核不相同的全局最大池化层，Part-3分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征

Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征

所述n与m取值不同。

作为优选的，所述Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征

具体为：

将所述行人的多尺度全局特征图的图谱分成上下两部分得到上半身多尺度全局特征图和下半身多尺度全局特征图，分别对所述上半身多尺度全局特征图和下半身多尺度全局特征图进行局部特征提取和降维，得到2个局部特征

和/>

作为优选的，所述Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征

具体为：

将所述行人的多尺度全局特征图的图谱分成上下三部分得到头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图，分别对所述头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图进行局部特征提取和降维，得到3个局部特征

和/>

作为优选的，根据所述全局特征和多维度的局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络，具体为：

使用所述局部特征

和局部特征/>

构建分类学习的损失函数L1，使用所述全局特征和局部特征/>

构建度量学习的损失函数L2；

根据所述分类学习的损失函数L1和度量学习的损失函数L2建立所述包括主干网络和三条分支网络的神经网络的联合训练的损失函数L＝L1+αL2，其中α为加权因子；

获取训练集并使用训练集训练所述包括主干网络和三条分支网络的神经网络，直到所述联合训练的损失函数L收敛结束训练，得到所述训练完成的神经网络。

作为优选的，所述分类学习的损失函数L1为Softmax损失函数，所述度量学习的损失函数L2为三元组损失函数。

作为优选的，所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征时，在所述行人的多尺度全局特征图进入所述Part-1分支时会进行下采样操作；

所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征时，在所述行人的多尺度全局特征图进入所述Part-2分支和所述Part-3分支时不进行下采样操作。

本发明的上述技术方案相比现有技术具有以下优点：

本发明通过主干网络得到行人的多尺度全局特征图，并通过三条分支网络分别提取全局特征和多维度的局部特征，由此得到了丰富且具有辨别性的特征，提高了识别性能，提高了行人重识别的精度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是行人重识别系统的框架设计图；

图2是本发明的流程图；

图3是本发明中主干网络的结构示意图；

图4是本发明中Part-1分支的结构示意图；

图5是本发明中Part-2分支的结构示意图；

图6是本发明中Part-3分支的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图2所示，本发明公开了一种基于多尺度特征动态融合的行人重识别方法，包括：

S1：构建包括主干网络和三条分支网络的神经网络，所述主干网络根据输入图像得到行人的多尺度全局特征图，三条所述分支网络根据所述行人的多尺度全局特征图提取全局特征和多维度的局部特征，从而提取更精细的特征进行辨别。

如图3所示，所述主干网络包括七层，分别为第一层卷积层、第二层最大池化层、第三层统一聚合门(AG)、第四层平均池化层、第五层统一聚合门、第六层平均池化层、第七层统一聚合门；

本实施例中，第一层卷积层的卷积核为7x7、第二层最大池化层的卷积核为3x3、第四层和第六层平均池化层的卷积核均为2x2，下采样操作时的步长均为2。图像大小为384x128的输入图像经过4个不同感受野的卷积特征流后，提取到行人不同尺度的特征，再由统一聚合门进行动态融合形成大小为16x8x512维的行人的多尺度全局特征图，可以有效的学习到行人的多尺度特征。提取的特征是多尺度的，因此定义要提取的特征是变量同构和异构尺度的组合，所以本发明中设计的构建块由多个不同的卷积特征流组成，每个流所关注的特征尺度由指数决定，指数是一个新的维度因子，跨流线性增加，以确保每个块中捕获不同尺度；接着由统一聚合门(AG)生成的通道权值融合得到行人的多尺度全局特征图。AG是一种跨所有流共享参数的子网络，根据特定的输入图像，门可以通过为特定的尺度分配主导权重来生成异构的特征尺度。

所述三条分支网络分别为Part-1分支、Part-2分支和Part-3分支，所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征，所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征。

如图4所示，所述Part-1分支包括带指数参数p的广义平均池化(generalizedmean pooling,GeM)层和全连接层，所述带指数参数p的广义平均池化层从所述行人的多尺度全局特征图中提取全局特征

具体为将所述行人的多尺度全局特征图映射成所述全局特征/>

GeM将空间响应转化成固定大小，本实施例中p初始化为6.5。所述全连接层使用分类损失函数对所述全局特征/>

进行分类学习，同时使用三元组损失函数对所述全局特征

进行度量学习。

如图5所示，所述Part-2分支包括两个卷积核不相同的全局最大池化层，Part-2分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征

Part-2分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取n个局部特征/>

具体为：将所述行人的多尺度全局特征图的图谱分成上下两部分得到上半身多尺度全局特征图和下半身多尺度全局特征图，分别对所述上半身多尺度全局特征图和下半身多尺度全局特征图进行局部特征提取和降维，得到2个局部特征/>

和/>

如图6所示，所述Part-3分支包括两个卷积核不相同的全局最大池化层，Part-3分支的一个全局最大池化层从所述行人的多尺度全局特征图中提取局部特征

Part-3分支的另一个全局最大池化层从所述行人的多尺度全局特征图中提取m个局部特征/>

具体为：将所述行人的多尺度全局特征图的图谱分成上下三部分得到头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图，分别对所述头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图进行局部特征提取和降维，得到3个局部特征/>

和/>

n与m取值不同。本实施例中，Part-2分支的一个全局最大池化层的卷积核大小为24x8，另一个全局最大池化层的卷积核大小为12x8。16x8x512维的行人的多尺度全局特征图经过卷积核大小为24x8的全局最大池化层得到1x1x2048维的局部特征

16x8x512维的行人的多尺度全局特征图通过卷积核大小为12x8的全局最大池化层后生成2x1x2048的向量，拆分生成2个1x1x2048的向量后再做降维得到2个1x1x256维的局部特征/>

和/>

本实施例中，Part-3分支的一个全局最大池化层的卷积核大小为24x8，另一个全局最大池化层的卷积核大小为12x8。16x8x512维的行人的多尺度全局特征图经过卷积核大小为24x8的全局最大池化层得到1x1x2048维的局部特征

16x8x512维的行人的多尺度全局特征图通过卷积核大小为8x8的全局最大池化层后生成3x1x2048的向量，拆分生成3个1x1x2048的向量，再做降维得到3个1x1x256维的局部特征/>

和/>

所述Part-1分支从所述行人的多尺度全局特征图中提取全局特征时，在所述行人的多尺度全局特征图进入所述Part-1分支时会进行下采样操作；所述Part-2分支和所述Part-3分支分别从所述行人的多尺度全局特征图中提取不同维度的局部特征时，在所述行人的多尺度全局特征图进入所述Part-2分支和所述Part-3分支时不进行下采样操作。不进行下采样操作，不仅可以获得更高分辨率的特征图、增强网络挖掘细节信息的能力，而且可以保留足够的局部特征感受野来对特征映射进行分块操作。

Part-2包括

和/>

三个特征尺度的局部特征，Part-3包括/>

和/>

四个特征尺度的局部特征，每个局部特征都分别计算，可以使得模型尽量对每个特征学习更多的信息，从而提高行人重识别的精确度。

S2：述全局特征和局部特征训练所述包括主干网络和三条分支网络的神经网络得到训练完成的神经网络。

S2-1：使用所述局部特征

和局部特征/>

构建分类学习的损失函数L1，所述Part-2分支的全局最大池化层后设有n个分类器，n个局部特征/>

输入n个分类器得到n个分类预测损失；所述Part-3分支的全局最大池化层后设有m个分类器，m个局部特征/>

输入m个分类器得到m个分类预测损失；使用n+m个分类预测损失构建分类学习的损失函数L1。使用所述全局特征/>

和局部特征/>

构建度量学习的损失函数L2；结合全局特征和局部特征来完善对学习特征的综合性，可以提高神经网络模型的识别能力。

分类学习的损失函数L1为Softmax损失函数，分类学习的损失函数还可以是交叉熵损失函数等其他函数。所述度量学习的损失函数L2为三元组损失函数，全局特征

和局部特征/>

通过利用三元组损失函数进行度量学习的计算，可以有效扩大不同类的区别、减少相同类的差距。通过softmax损失函数和三元组损失函数对不同的特征进行有区分的分类学习和度量学习，可以提高辨识性能。

S2-2：根据所述分类学习的损失函数L1和度量学习的损失函数L2建立所述包括主干网络和三条分支网络的神经网络的联合训练的损失函数L＝L1+αL2，其中α为加权因子；本实施例中α取值0.3。

S2-3：获取训练集并使用训练集训练所述包括主干网络和三条分支网络的神经网络，直到所述联合训练的损失函数L收敛结束训练，得到所述训练完成的神经网络。

S3：别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果。

本发明通过主干网络得到行人的多尺度全局特征图，并通过三条分支网络分别提取全局特征和多维度的局部特征，由此得到了丰富且具有辨别性的特征，提高了识别性能，提高了行人重识别的精度。相比于传统的仅利用全局特征的方法，可以提取到更加细致细粒度的特征；并通过特征融合来融合全局特征和多维度的局部特征，使得最终获得的特征具有零件级的分辨度。

为了进一步说明本发明的有益效果，本实施例中在公开的行人数据集Market1501上，分别使用本发明方法、BDB(ICCV19)方法(详见文献“Dai,Z.,Chen,M.,Gu,X.,Zhu,S.,and Tan,P.,“Batch DropBlock Network for Person Re-identification and Beyond”,<i>arXiv e-prints</i>,2018.¹”)、SONA(ICCV19)方法(详见文献“Xia B N,Gong Y,ZhangY,et al.Second-order non-local attention networks for person re-identification[C]//Proceedings of the IEEE International Conference onComputer Vision.2019:3760-3769”)、Auto-ReID(ICCV19)方法(详见文献“Quan R,DongX,Wu Y,et al.Auto-reid:Searching for a part-aware convnet for person re-identification[C]//Proceedings of the IEEE International Conference onComputer Vision.2019:3750-3759.”)和OSNet(ICCV19)方法(详见文献“Zhou K,Yang Y,Cavallaro A,et al.Omni-scale feature learning for person re-identification[C]//Proceedings of the IEEE International Conference on ComputerVision.2019:3702-3712”)进行行人重识别实验。

所有实验均使用单个Nvidia Tesla P100 GPU进行训练，训练批次大小(BatchSize)设为64，因此是每个批次随机选择16个身份(Identity)，每个身份在一个随机批次中选择4张实例图像。对于Markeyt1501数据集，采用120个轮次训练，采用随机梯度下降算法进行训练，初始化学习率设为3.5e-5,前20个轮次采用warm up策略，是一种基于矩阵的快速计算神经网络输出的方法，可以防止神经网络开始学习率过大导致不能拟合的问题。20个轮次后将学习率线性增长到3.5e-4，当轮次达到60时学习率降为3.5e-5，当轮次达到90时，学习率降为3.5e-6。

训练时，将输入图像尺寸调整为384X128，为了提高模型的泛化能力，在输入图像前设置采用一种或两种的数据增强方案，如随机水平翻转(Random Horizontal Flip)、随机擦除(Random Erasing)和归一化(Normalization)，通过以上方法可以提高数据集样本数量并增加噪声数据，在深度学习中，样本数量越多，训练出来的模型的鲁棒性越好，模型的泛化能力越强。测试时，同样将图像尺寸调整为384x128，数据增强只采用归一化。

通过平均精度均值(mean average precision,mAP)对识别结果进行对比，结果如表1所示。平均精度均值mAP把每个类别的精度均值都单独拿出来，然后计算所有类别AP的平均值，是对检测到的目标平均精度的一个综合度量，mAP越大，行人重识别的效果越好。

表1使用本发明方法、BDB(ICCV19)、SONA(ICCV19)、Auto-ReID(ICCV19)和OSNet进行行人重识别的结果对比表

方法	mAP
		BDB(ICCV19)	86.7
SONA(ICCV19)	88.67
		Auto-ReID(ICCV19)	85.1
OSNet(ICCV19)	84.1
		本发明方法	88.9

从表1可以看出，本发明方法的mAP相较于现有技术都有提高，行人重识别效果得到了提高，证明了本发明的有益效果。

术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于多尺度特征动态融合的行人重识别方法，其特征在于，包括以下步骤：

将待识别图像作为输入图像输入所述训练完成的神经网络得到行人重识别结果；

所述主干网络包括七层，分别为：第一层卷积层、第二层最大池化层、第三层统一聚合门、第四层平均池化层、第五层统一聚合门、第六层平均池化层、第七层统一聚合门；

输入图像经过第一层卷积层后经下采样操作进入第二层最大池化层，然后经过第三层统一聚合门后经下采样操作进入第四层平均池化层，接着经过第五层统一聚合门后经下采样操作进入第六层平均池化层，最后经过第七层的统一聚合门后得到行人的多尺度全局特征图；

所述三条分支网络分别为Part-1分支、Part-2分支和Part-3分支，

所述Part-2分支包括两个卷积核不相同的全局最大池化层，所述Part-2分支的一个全局最大池化层将所述行人的多尺度全局特征图的图谱分成上下两部分得到上半身多尺度全局特征图和下半身多尺度全局特征图，分别对所述上半身多尺度全局特征图和下半身多尺度全局特征图进行局部特征提取和降维，得到2个局部特征

和/>

所述Part-3分支包括两个卷积核不相同的全局最大池化层，所述Part-3分支的一个全局最大池化层将所述行人的多尺度全局特征图的图谱分成上下三部分得到头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图，分别对所述头部多尺度全局特征图、腹胸多尺度全局特征图和腿部多尺度全局特征图进行局部特征提取和降维，得到3个局部特征