CN111488797B

CN111488797B - 一种行人再识别方法

Info

Publication number: CN111488797B
Application number: CN202010165628.2A
Authority: CN
Inventors: 李艳凤; 孙嘉; 陈后金; 张斌
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-12-05
Anticipated expiration: 2040-03-11
Also published as: CN111488797A

Abstract

本发明涉及一种行人再识别方法，包括步骤1、调整原始行人图像尺寸，进行预处理；2、将预处理后的图像输入MEMF模型进行前向传播，输出四个特征向量；3、计算一次训练的总损失；4、根据总损失进行反向传播，更新并保存网络权重；5、将网络权重作为下一次模型训练的初始网络权重，重复步骤2‑4，保存最后一次训练后的模型；6、调整检索图像和图像库中图像的大小并归一化；7、归一化后输入训练好的模型，每幅图像得到四个等维的特征表达向量；8、将每幅图像的四个特征表达向量级联作为最终特征表达向量；9、计算检索图像和图像库图像的最终特征表达向量间的欧氏距离，从小到大排序；10、根据排序，输出对应序列图像作为识别结果。

Description

一种行人再识别方法

技术领域

本发明属于模式识别与计算机视觉中的图像检索领域，具体涉及利用深度学习进行有监督的行人再识别方法，特别是一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。

背景技术

视频监控作为一种可以保留一定时间段场景信息的手段，由于具有全天候、多方位、直观等优点，目前已广泛应用于街道、商场、车站等各种场所，并逐渐成为维护公共安全和社会稳定的重要手段。据统计，我国已经建成世界上最大的视频监控网，城镇视频监控摄像头超过2500万个。视频监控联网带来了海量的监控数据，对海量监控数据进行分析尤为重要。完全依靠人工浏览的视频图像数据分析方式不仅耗费大量的人力物力，而且分析结果受人为因素影响大，效率低。智能视频分析技术可完成海量监控数据的自动分析，在计算机视觉领域获得了越来越多的关注。行人再识别(person re-identification,Re-ID)作为智能视频分析技术的重要组成部分，其在智能安防与刑事侦查中具有广阔的应用前景。

行人再识别用于判断非重叠视域中拍摄到的行人是否属于同一个人，即在非重叠视域图像组成的查找数据库中，判断待识别行人是否出现，并将属于该行人的数据返回。近年来，行人再识别技术引起了学术界和工业界的广泛关注，已经成为计算机视觉领域的一个研究热点。由于行人兼具刚性和柔性物体的特性,外观易受穿着、姿态和视角变化以及光照、遮挡、环境等各种复杂因素的影响，使得行人再识别面临着巨大的技术挑战。

早期的行人再识别主要依靠传统方法，主要包括人工设计特征和距离度量。随着深度学习的快速发展和大规模行人再识别数据集的发布，越来越多的研究人员将卷积神经网络(CNN)应用于行人再识别。基于深度学习的行人再识别方法通常先通过网络提取行人特征，然后根据欧氏距离度量特征间的距离，根据距离值从小到大排序，获得最佳识别结果。目前的基于深度学习的方法更多地集中在学习更好的特征表示上，大致可以分为三类：(1)全局特征表达。一些方法仅使用行人身份作为标签，并提取全局特征作为特征表达，但这容易忽略行人的细节并且性能较差。还有一些方法将学习到的行人属性(发型，服装颜色等)作为全局特征，但需要大量人工标注的标签信息，十分耗时。(2)局部特征表达。基于局部的特征表示可以更好地描述行人的细节，并且已在许多方法中得到应用。提取局部特征的典型方法是图像分割，通常将图像水平分成若干份。它可以使学习到的特征集中在某些人的细节上，但是由于行人间遮挡和背景杂波的影响，这种简单的划分通常无法将行人部位完全对应，从而在距离度量时不能获得较好的结果。尽管有些方法尝试通过关键点检测来对齐行人部位。但是这通常需要额外的技术支持(例如标记关键点)，并且对齐不当会导致性能下降。(3)全局-局部特征表达。这些方法将全局和局部特征连接为最终特征表示。这种组合的特征通常在训练和测试阶段需要更多的计算，因为与单分支模型相比，这种组合存在更多的分支，从而导致运行时间变慢。

发明内容

本发明的目的在于克服以上问题，提供一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。本发明关注行人更具代表性的特征并通过该特征来辅助全局特征的表达，相比于其他同领域的方法具有更高的识别准确率。

为达到以上目的，本发明采取的技术方案是：

一种基于多级注意力嵌入和多层特征融合(Multi-level-attention Embeddingand Multi-layer-feature Fusion，MEMF)模型的行人再识别方法，包括MEMF模型的训练过程和使用MEMF模型进行行人再识别的测试过程：

一、MEMF模型的训练过程，具体包括以下步骤：

步骤1：调整训练用的原始行人图像的尺寸，通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理。

步骤2：将预处理后的图像输入MEMF模型中进行前向传播，将ResNet-50网络作为基础网络，将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重，输出四个与训练数据集中行人类别数等维的特征向量。

步骤3：分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值，将得到的交叉熵损失值加和取平均值，得到交叉熵损失平均值。并对模型中的每一层权重计算特征值差正交损失，将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失。

步骤4：根据步骤3得到的总损失进行反向传播，更新并保存网络权重。

步骤5：将步骤4保存的网络权重作为下一次模型训练的初始网络权重，重复步骤2-4，使损失趋近于零，直至网络收敛。保存最后一次训练后的MEMF模型。

二、将最后一次训练后的MEMF模型用于行人再识别的测试过程，具体包括以下步骤：

步骤6：调整检索图像和图像库中的图像的大小，并进行归一化。

步骤7：将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中，每幅图像将得到四个等维的特征表达向量。

步骤8：将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量。

步骤9：给定一幅检索图像，计算检索图像和图像库图像的最终特征表达向量间的欧氏距离，从小到大排序。

步骤10：根据欧氏距离的排序顺序，输出对应序列图像作为识别结果。

步骤2的具体方法为：1)将大小为3×288×144的图像输入ResNet-50网络第一层，输出大小为64×144×72的特征图。

2)将大小为64×144×72的特征图输入ResNet-50网络第二层，输出大小为256×72×36的特征图，后将大小为256×72×36的特征图输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的大小为256×72×36的特征图。

3)将改变像素值的大小为256×72×36的特征图输入ResNet-50网络第三层，输出大小为512×36×18的特征图，后将大小为512×36×18的特征图输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的大小为512×36×18的特征图。

4)将改变像素值的大小为512×36×18的特征图输入ResNet-50网络第四层，输出大小为1024×18×9的特征图，后将大小为1024×18×9的特征图输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的大小为1024×18×9的特征图。

5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化层和全局最大池化层组成的池化块中，输出一个大小为1024×1×1的特征向量。

将步骤4)中输出的改变像素值的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层，分别输出三个大小为2048×18×9的特征图，将三个大小为2048×18×9的特征图对应输入三个多级注意力模块，将三个多级注意力模块的输出对应输入三个1×1的卷积层，再将三个1×1的卷积层的输出对应输入三个池化块，三个池化块分别输出三个大小为2048×1×1的特征向量，其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。

6)将步骤5)中得到的四个输出特征向量分别输入四个分类器中，每个分类器由两个全连接层组成，输出四个与训练数据集中行人类别数等维的特征向量。

步骤5)中，全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽，x_i为改变像素值的大小为1024×18×9的特征图中对应点的像素值，共有m×n个像素值。全局最大池化层的输出为F_i ^max＝max(x_i)；则由全局平均池化层和全局最大池化层组成的池化块的输出为F_i＝F_i ^avg+F_i ^max。

步骤3中，交叉熵损失值定义为其中y_j为步骤2输出的四个与训练数据集中行人类别数等维的特征向量，/>为行人类别数，N为行人数量。特征值差正交损失定义为/>其中β为正交系数，λ_max和λ_min分别为网络每层的权重矩阵的转置与权重矩阵的乘积W^TW的最大、最小特征值。总损失为L＝L_CEL+γL_EDO，γ是超参数。

γ的值随着训练次数的增加而变化，具体变化为：

步骤9中，检索图像和图像库图像的最终特征表达向量间的欧氏距离为A、B分别为检索图像和图像库图像的最终特征表达向量，a_p，b_p分别为检索图像和图像库图像的最终特征表达向量中对应点的值，q为最终特征表达向量的维度。

本发明的有益效果是：

本发明创新性地将多级注意力模块嵌入多层特征融合网络中，突出行人细节特征，通过关注更具代表性的特征辅助全局特征表达，有助于识别相似度较高的不同行人。使用多层特征融合网络，在每次训练时得到多个不同的特征向量，将全局平均池化层和全局最大池化层结合，丰富全局特征表达。提出特征值差正交损失，用于降低特征向量间的相关性，相比于其他同领域的方法具有更高的识别率。本发明无需对行人属性等进行额外标注，只需要行人类别即可进行训练。应用于监控安防和刑事侦查领域，可以快速处理大量视频监控数据，找到目标位置，减少相关人员的工作量，提高智能视频分析处理的准确率和效率。

附图说明

本发明有如下附图：

图1是本发明行人再识别方法的流程图；

图2是本发明行人再识别方法中多级注意力模块的流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

如图1所示，本发明提供了一种基于多级注意力嵌入和多层特征融合(Multi-level-attention Embedding and Multi-layer-feature Fusion，MEMF)模型的行人再识别方法，具体流程图如图1和图2所示，包括MEMF模型的训练过程和使用MEMF模型进行行人再识别的测试过程：

一、MEMF模型的训练过程，具体包括以下步骤：

步骤1：将训练用的原始行人图像的尺寸调整为288×144，通过水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理。

步骤2：将预处理后的图像输入MEMF模型中进行前向传播，将ResNet-50网络作为基础网络，将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重，输出四个与训练数据集中行人类别数等维的特征向量。其具体方法为：

1)将大小为3×288×144的图像输入ResNet-50网络第一层，输出大小64×144×72的特征图。

5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化层和全局最大池化层组成的池化块中，输出一个大小为1024×1×1的特征向量。其中，全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽，x_i为改变像素值的大小为1024×18×9的特征图中对应点的像素值，共有m×n个像素值。全局最大池化层的输出为F_i ^max＝max(x_i)。则由全局平均池化层和全局最大池化层组成的池化块的输出为F_i＝F_i ^avg+F_i ^max。

将步骤4)中输出的改变像素值的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层，分别输出三个大小为2048×18×9的特征图，将三个大小为2048×18×9的特征图对应输入三个多级注意力模块，将三个多级注意力模块的输出对应输入三个1×1的卷积层，再将三个1×1的卷积层的输出对应输入三个池化块，三个池化块分别输出三个大小为2048×1×1的特征向量，其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。其目的是进行多层特征提取，充分利用输入图像的信息，使输出的特征向量更加丰富。

其中交叉熵损失值定义为其中y_j为步骤2输出的四个与训练数据集中行人类别数等维的特征向量，/>为行人类别数，N为行人数量。特征值差正交损失定义为/>其中β为正交系数，λ_max和λ_min分别为网络每层的权重矩阵的转置与权重矩阵的乘积W^TW的最大、最小特征值。总损失为L＝L_CEL+γL_EDO，γ是超参数。

步骤5：将步骤4保存的网络权重作为下一次模型训练的初始网络权重，重复步骤2-4，使总损失趋近于零，直至网络收敛。保存最后一次训练后的MEMF模型。

步骤6：将检索图像和图像库中的图像的大小调整为288×144，并进行归一化。

步骤7：将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中，每幅图像得到四个等维的特征表达向量。

步骤9：给定一幅检索图像，计算检索图像和图像库图像的最终特征表达向量间的欧氏距离A、B分别为检索图像和图像库图像的最终特征表达向量，a_p，b_p分别为检索图像和图像库图像的最终特征表达向量中对应点的值，q为最终特征表达向量的维度。将欧氏距离从小到大排序。

实施例1

一种基于多级注意力嵌入和多层特征融合(MEMF)模型的行人再识别方法，通过以下步骤进行具体的实施：

步骤1：将训练用的原始行人图像的大小调整为288×144，通过水平翻转、随机裁剪、归一化和随机擦除来对图像进行预处理。将图像像素值归一化为[-1.0,1.0]

1)将大小为3×288×144的图像输入ResNet-50网络第一层，输出为64×144×72大小的特征图。

2)将64×144×72大小的特征图输入ResNet-50网络第二层，输出为256×72×36大小的特征图，后将其输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的256×72×36大小的特征图。

3)将改变像素值的256×72×36大小的特征图输入ResNet-50网络第三层，输出为512×36×18大小的特征图，后将其输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的512×36×18大小的特征图。

4)将改变像素值的512×36×18大小的特征图输入ResNet-50网络第四层，输出为1024×18×9大小的特征图，后将其输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的1024×18×9大小的特征图。

5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化和全局最大池化层组成的池化块中，输出一个大小为1024×1×1的特征向量。其中，全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽，x_i为改变像素值的大小为1024×18×9的特征图中对应点的像素值，共有m×n个像素值。全局最大池化层的输出为F_i ^max＝max(x_i)。则组合后的池化块输出为F_i＝F_i ^avg+F_i ^max。

将步骤4)中得到的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层，分别输出三个大小为2048×18×9的特征图，将三个大小为2048×18×9的特征图对应输入三个多级注意力模块，将三个多级注意力模块的输出对应输入三个1×1的卷积层，再将三个1×1的卷积层的输出对应输入三个池化块，三个池化块分别输出三个2048×1×1大小的特征向量，其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。

步骤3：分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人标签间的交叉熵损失值，将得到的交叉熵损失值加和取平均值，得到交叉熵损失平均值。并对模型中的每一层权重计算特征值差正交损失，将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失。

其中交叉熵损失定义为其中y_j为步骤2输出的四个与训练数据集中行人类别数等维的特征向量，/>为行人类别数，N为行人数量。特征值差正交损失定义为/>其中β为正交系数，λ_max和λ_min分别为网络每层的权重矩阵的转置与权重矩阵的乘积W^TW的最大、最小特征值。总损失为L＝L_CEL+γL_EDO，γ是超参数。这里β取0.1，γ的值随着训练次数的增加而变化，具体变化为：

步骤5：将步骤4保存的网络权重作为下一次模型训练的初始网络权重，重复步骤2-4，共进行220次训练，使损失趋近于零，直至网络收敛。保存最后一次训练后的MEMF模型。

步骤6：读入检索图像，将其大小调整为288×144，并将像素值归一化为[-1.0,1.0]，读入图像库中的图像进行相同处理。

步骤7：将归一化后的后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中，每幅图像得到四个等维的特征表达向量。

步骤8：将得到的四个特征表达向量级联作为一幅图像的最终特征表达向量。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种行人再识别方法，其特征在于，包括如下步骤：

步骤1：调整训练用的原始行人图像的尺寸，通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理；

步骤2：将预处理后的图像输入MEMF模型中进行前向传播，将ResNet-50网络作为基础网络，将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重，输出四个与训练数据集中行人类别数等维的特征向量；

步骤3：分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值，将得到的交叉熵损失值加和取平均值，得到交叉熵损失平均值；并对模型中的每一层权重计算特征值差正交损失，将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失；

步骤4：根据步骤3得到的总损失进行反向传播，更新并保存网络权重；

步骤5：将步骤4保存的网络权重作为下一次模型训练的初始网络权重，重复步骤2-4，使损失趋近于零，直至网络收敛；保存最后一次训练后的MEMF模型；

步骤6：调整检索图像和图像库中的图像的大小，并进行归一化；

步骤7：将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中，每幅图像将得到四个等维的特征表达向量；

步骤8：将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量；

步骤9：给定一幅检索图像，计算检索图像和图像库图像的最终特征表达向量间的欧氏距离，从小到大排序；

步骤10：根据欧氏距离的排序顺序，输出对应序列图像作为识别结果；

所述步骤2的具体方法为：

1)将大小为3×288×144的图像输入ResNet-50网络第一层，输出为64×144×72大小的特征图；

2)将64×144×72大小的特征图输入ResNet-50网络第二层，输出为256×72×36大小的特征图，后将其输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的256×72×36大小的特征图；

3)将改变像素值的256×72×36大小的特征图输入ResNet-50网络第三层，输出为512×36×18大小的特征图，后将其输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的512×36×18大小的特征图；

4)将改变像素值的512×36×18大小的特征图输入ResNet-50网络第四层，输出为1024×18×9大小的特征图，后将其输入多级注意力模块，改变每幅特征图的像素值，输出改变像素值的1024×18×9大小的特征图；

5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化和全局最大池化层组成的池化块中，输出一个大小为1024×1×1的特征向量，其中，全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽，x_i为改变像素值的大小为1024×18×9的特征图中对应点的像素值，共有m×n个像素值，全局最大池化层的输出为F_i ^max＝max(x_i)，则组合后的池化块输出为F_i＝F_i ^avg+F_i ^max；

2.如权利要求1所述的行人再识别方法，其特征在于，步骤2的具体方法还包括：

3.如权利要求1所述的行人再识别方法，其特征在于，步骤3中，交叉熵损失值定义为其中y_j为步骤2输出的四个与训练数据集中行人类别数等维的特征向量，/>为行人类别，N为行人数量；特征值差正交损失定义为其中β为正交系数，λ_max和λ_min分别为网络每层的权重矩阵的转置与权重矩阵的乘积W^TW的最大、最小特征值；总损失为/>γ是超参数。

4.如权利要求3所述的行人再识别方法，其特征在于，所述γ的值随着训练次数的增加而变化，具体变化为：

5.如权利要求1所述的行人再识别方法，其特征在于，步骤9中，检索图像和图像库图像的最终特征表达向量间的欧氏距离为A、B分别为检索图像和图像库图像的最终特征表达向量，a_p，b_p分别为检索图像和图像库图像的最终特征表达向量中对应点的值，q为最终特征表达向量的维度。