CN112712042A

CN112712042A - 嵌入关键帧提取的行人重识别端到端网络架构

Info

Publication number: CN112712042A
Application number: CN202110003744.9A
Authority: CN
Inventors: 李耶; 殷光强; 李超; 王治国; 王春雨
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-27
Anticipated expiration: 2041-01-04
Also published as: CN112712042B

Abstract

本发明公开了嵌入关键帧提取的行人重识别端到端网络架构，按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元，其中，征提取单元，用于行人特征提取；关键帧提取单元，用于关键帧的提取；识别单元，用于身份识别并证明关键帧的有效性；在特征提取单元中输入样本由多组统一为供电张数的视频片段所组成，在关键帧提取单元的设置上，采用两个卷积层、一个池化层和一个全连接层所构成的神经网络并采用两者损失函数进行loss的计算，本发明的实施，能够使用重识别的效果的优劣来反映提取关键帧的好坏。

Description

嵌入关键帧提取的行人重识别端到端网络架构

技术领域

本发明涉及计算机视觉领域中的行人重识别技术领域，具体的说，是嵌入关键帧提取的行人重识别端到端网络架构。

背景技术

Person Re-identification(Person ReID)主要是从不同摄像头中分辨出(distinguishing)行人身份(person identity)，旨在弥补目前固定的摄像头的视觉局限，并可与行人检测和行人跟踪技术相结合，可广泛应用于智能视频监控(intelligent videosurveillance)、智能安保(intelligent security)等领域。这已经成为计算机视觉领域十分重要的一项工作。

但是，ReID是一个具有挑战性的问题。由于同一个行人在不同摄像头下的角度朝向不同，同时不同背景下的色调和饱和度也不同，而且有些不同ID(identity)的行人具有极其相似的特征，所以，仅利用单一图像信息进行行人重识别很难取得飞跃性的突破。近些年来基于视频的ReID方法因为不仅包含图像的空间信息，同时还包含时间维上的动态信息，所以逐渐受到重视。

基于视频的ReID方法需要抽取时间维度的信息，即需要网络的输入为图片帧序列(frame sequence)，然而不同ID(identity)的图片帧序列(frame sequence)长度不等，随之而来的一个很重要的问题是选取哪些帧输入到网络，同时又怎么证明选取帧能够最好的提取样本的特征。目前一些研究对所有帧统一处理，采用random和evenly等方式挑选出帧，输入到网络中进行特征提取，这种方式没有加入任何的人为干预，很多情况下会导致选取的帧相似性极大，对网络输入造成冗余；另外的研究采用Cluster以及Frame difference等方式选出帧，然后输入到网络中进行特征提取，这种方式虽然人为提取了关键帧，但是没有将关键帧挑选和行人重识别任务相关联，导致无法及时判断选取的关键帧是否对行人重识别任务有效。

所以对帧序列中一些关键帧的提取是非常有必要的。它不仅能够使得信息冗余达到较低的水平，还能有效地反映改序列的信息，以达到增强输入的作用。提取关键帧在动作识别中应用非常广泛，但是却没有一个权威的指标去衡量关键帧提取的质量。

现有技术针对视频流进行行人重实别的方法，如一种使用随机或者均匀抽取视频数据集中的方法，并利用一种名为temporal pooling的方法来对行人进行识别。该方法共分为三部分从上到下依次顺序为：

1、关键帧提取单元

此部分是处于数据的预处理部分，实现关键帧的提取。首先将源数据(即多段长度不定视频片段)进行抽样。此部分的方法主要应用了两种方法：随机抽取、均匀抽取，之后将抽取关键帧通过特定的采样方法(即若是一组为32张图片，则对8个不同摄像头下的视频片段中抽样4张图片作为输入，共32张图片)划分为一组以方便后面的损失计算。最后将这些帧组成一个批次加入后面的特征提取单元。

2、特征提取单元

这个部分采用去掉了最后两层的ResNet-50作为基础网络。这个基础网络包含了一个7*7视野的卷积核(Conv1)和一个池化层以及四个残差块。其输入的维度形状为N*T*3*256*128,N代表了批次的数量，T代表每个样本中帧的数量，3代表彩色图像的r，g，b通道，256*128代表输入图像的大小。样本经过特征提取单元后，输出的特征图具有这样的维度：N*T*2048*8*4。

3、识别单元

在识别单元中，应用了temporal pooling方法提取时间维度信息。将特征提取单元的提取的深度特征输入到识别单元，利用这些帧信息来进行重识别任务。识别单元包括时间池化层(temporal pooling)和一个全连接层。时间池化层用于融合每个帧序列中帧信息，以达到提取时间维信息的作用。具体公式如下：

公式中c代表了一个ID，也就是只展示了一个ID的特征融合过程。其实是需要对所有ID的行人特征做融合的。最后，将融合后的特征输入到全连接层进行身份的识别和分类；之后不断优化整个网络以训练一个较好的模型。

发明内容

本发明的目的在于提供嵌入关键帧提取的行人重识别端到端网络架构，使用重识别的效果的优劣来反映提取关键帧的好坏。

本发明通过下述技术方案实现：嵌入关键帧提取的行人重识别端到端网络架构，包括关键帧提取单元、特征提取单元、识别单元，为使用重识别的效果的优劣来反映提取关键帧的好坏，特别采用下述设置方式：所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。

其中，特征提取单元，用于行人特征提取；

关键帧提取单元，用于关键帧的提取；

识别单元，用于身份识别并证明关键帧的有效性。

进一步的为更好地实现本发明，特别采用下述设置方式：所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络，所述基础网络采用去掉最后两层(即全连接层)的ResNet-50而得到的改进的ResNet-50神经网络，且改进的ResNet-50神经网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块，四个小模块分别设置有3个、4个、6个、3个残差模块。

进一步的为更好地实现本发明，特别采用下述设置方式：四个小模块中的残差模块采用统一形式，皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。

进一步的为更好地实现本发明，特别采用下述设置方式：所述输入样本包括统一采用固定张数(优选为12张)视频图像为一组的视频片段，且输入样本的维度为：N*T*3*256*128；其中，N代表一组输入样本中包含视频片段的数量，T代表每个视频片段中帧序列长度，3代表彩色图像的r、g、b通道，258*128表示输入的视频图像大小；输入样本经过特征提取单元后，输出的特征图具有的维度为：N*T*2048*8*4。

已经得到特征提取单元提取的特征图F，且F∈R^{N×T×2048×8×4}。由于关键帧的关键在于这些帧彼此之间相似度比较小，则完全可以将关键帧提取的任务抽象成一个分类任务。相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说，关键帧的挑选为小分类任务(即基于T维度的分类任务)。

针对关键帧挑选的小分类任务，在解决标签生成的问题，优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧F_iji∈N,j∈T，对应的标签L_iji∈N,j∈T。

基于此，进一步的为更好地实现本发明，特别采用下述设置方式：所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。

进一步的为更好地实现本发明，特别采用下述设置方式：所述关键帧提取单元进行关键帧提取过程为L_ij＝C(F_ij)＝K i∈N,j∈T，包括下述步骤：

1)将特征提取单元所提取的特征图F输入到关键帧提取单元，得到关键帧提取单元的池化层后的特征图输出F’；

2)利用层次聚类法，对特征图输出F’进行聚类，生成伪标签；

3)将伪标签作为真实标签，利用交叉熵损失函数训练关键帧提取网络；经多次迭代后完成关键帧提取网络的训练，并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类，并从特征图输出F’的分类中各挑选出一个作为关键帧的特征，组成集合F’_k，且

即得输入样本的关键帧集合，从而对应到原来的特征提取单元的输入，找到对应的帧即为关键帧。

在关键帧提取单元中，利用交叉熵损失函数训练关键帧提取网络时，采用的交叉熵损失函数计算公式为：

进一步的为更好地实现本发明，特别采用下述设置方式：所述识别单元包括一个temporal pooling层和一个全连接层，且识别单元用于身份识别并证明关键帧的有效性具体为：首先利用temporal pooling层融合时间维度上的特征，而后将融合后的特征输入到全连接层，利用triplet loss和交叉熵损失函数计算loss，不断优化识别单元。

其中，在识别单元中，

triplet loss计算loss的具体计算公式为：

交叉熵损失函数计算loss的具体计算公式为：

对于第i个身份的第a个片段的特征用F_i,a表示，F_i,p,F_i,n分别表示与F_i,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量，K代表每个ID中的视频片段数量，y代表行人的ID；

则行人重识别端到端网络最终的损失函数为：

L_ALL＝Loss_kf+Loss_ids+Loss_tri。

进一步的为更好地实现本发明，特别采用下述设置方式：所述temporal pooling层进行时间维度上的特征融合时，具体计算公式如下：

公式中c代表了一个ID，T代表一段序列中帧数，f_fuse代表融合的特征，t代表从1到T的迭代变量。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明通过该端到端网络可以及时反馈关键帧提取的效果。

(2)本发明结合了关键帧提取与行人重识别任务，关键帧的提取对行人重识别的任务有促进作用。

(3)本发明以行人帧序列作为输入，可以提取行人时间和空间维度特征。

附图说明

图1为本发明所述的行人重识别端到端网络架构图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

术语解释：

Video Sequence：视频序列；

Conv Net：卷积网络；；

Label：行人ID标签；

Cluster：聚类；

Conv：卷积；

Fc：网络模型全卷积层；

Softmax：得分归一化算法；

Key Frame ID：关键帧的ID标签；

Temporal Pooling：时间维度的特征融合操作。

实施例1：

本发明设计出嵌入关键帧提取的行人重识别端到端网络架构，包括关键帧提取单元、特征提取单元、识别单元，为使用重识别的效果的优劣来反映提取关键帧的好坏，特别采用下述设置方式：所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。

其中，特征提取单元，用于行人特征提取；

关键帧提取单元，用于关键帧的提取；

识别单元，用于身份识别并证明关键帧的有效性。

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络，所述基础网络采用去掉最后两层(即全连接层)的ResNet-50而得到的改进的ResNet-50神经网络，且改进的ResNet-50神经网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块，四个小模块分别设置有3个、4个、6个、3个残差模块。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：四个小模块中的残差模块采用统一形式，皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述输入样本包括统一采用固定张数(优选为12张)视频图像为一组的视频片段，且输入样本的维度为：N*T*3*256*128；其中，N代表一组输入样本中包含视频片段的数量，T代表每个视频片段帧序列长度，3代表彩色图像的r、g、b通道，258*128表示输入的视频图像大小；输入样本经过特征提取单元后，输出的特征图具有的维度为：N*T*2048*8*4。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，已经得到特征提取单元提取的特征图F，且F∈R^{N×T×2048×8×4}。由于关键帧的关键在于这些帧彼此之间相似度比较小，则完全可以将关键帧提取的任务抽象成一个分类任务。相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说，关键帧的挑选为小分类任务(即基于T维度的分类任务)。

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述关键帧提取单元进行关键帧提取过程为L_ij＝C(F_ij)＝K i∈N,j∈T，包括下述步骤：

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述识别单元包括一个temporal pooling层和一个全连接层，且识别单元用于身份识别并证明关键帧的有效性具体为：首先利用temporal pooling层融合时间维度上的特征，而后将融合后的特征输入到全连接层，利用triplet loss和交叉熵损失函数计算loss，不断优化识别单元。

其中，在识别单元中，

triplet loss计算loss的具体计算公式为：

交叉熵损失函数计算loss的具体计算公式为：

则行人重识别端到端网络最终的损失函数为：

L_ALL＝Loss_kf+Loss_ids+Loss_tri。

实施例8：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述temporalpooling层进行时间维度上的特征融合时，具体计算公式如下：

实施例9：

嵌入关键帧提取的行人重识别端到端网络架构，如图1所示，整个网络架构与现有技术一样分为关键帧提取单元、特征提取单元、识别单元三个单元，但与现有技术在设置顺序上和应用方法上存在本质的不同，其为使用重识别的效果的优劣来反映提取关键帧的好坏，该行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。

图1中，

(a)为特征提取单元，用于行人特征提取；

(b)为关键帧提取单元，用于关键帧的提取；

(c)为识别单元，用于身份识别并证明关键帧的有效性。

所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络。

该技术方案在应用方法上，就输入样本与现有技术亦存在本质的不同，其中，输入样本由多组视频片段所组成，每一组视频片段统一成12张，视频中不够12张的使用重复的补全；在该实施例中，选取了8个不同行人的视频片段；所述基础网络采用去掉最后两层(即全连接层)的ResNet-50而得到的改进的ResNet-50神经网络，该改进的ResNet-50神经网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块，该四个小模块分别设置有3个、4个、6个、3个残差模块。

其中，四个小模块中的残差模块采用统一形式，皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。

在实施时，输入样本的维度为：N*T*3*256*128；其中，N代表一组输入样本中包含视频片段的数量，T代表每个视频片段中帧序列长度，3代表彩色图像的r、g、b通道，258*128表示输入的视频图像大小；输入样本经过特征提取单元后，输出的特征图具有的维度为：N*T*2048*8*4。

针对关键帧挑选的小分类任务，如图1中(b)所示，在解决标签生成的问题，优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧F_iji∈N,j∈T，对应的标签L_iji∈N,j∈T。

所述关键帧提取单元进行关键帧提取过程为L_ij＝C(F_ij)＝K i∈N,j∈T，包括下述步骤：

其，k为图像序列某一帧，K为图像序列所有帧ID集合，即得输入样本的关键帧集合，从而对应到原来的特征提取单元的输入，找到对应的帧即为关键帧，则可以将关键帧输入到识别单元中进行身份识别并证明关键帧的有效性。

在识别单元中个，应用了temporal pooling方法提取时间维度信息。使用时将关键帧提取单元挑选的关键帧输入到识别单元，利用这些帧信息来进行行人重识别，其中，识别单元包括一个temporal pooling层和一个全连接层的结构(如图1的(b)所示)，所述temporal pooling层进行时间维度上的特征融合时，具体计算公式如下：

识别单元用于身份识别并证明关键帧的有效性具体为：首先利用temporalpooling层融合时间维度上的特征，而后将融合后的特征输入到全连接层，利用tripletloss和交叉熵损失函数计算loss，不断优化识别单元。

其中，在识别单元中，

triplet loss计算loss的具体计算公式为：

交叉熵损失函数计算loss的具体计算公式为：

则行人重识别端到端网络最终的损失函数为：

L_ALL＝Loss_kf+Loss_ids+Loss_tri。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.嵌入关键帧提取的行人重识别端到端网络架构，包括关键帧提取单元、特征提取单元、识别单元，其特征在于：所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。

2.根据权利要求1所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络，所述基础网络采用改进的ResNet-50神经网络，且改进的ResNet-50神经网络包括7*7核的卷积层、池化层以及四个小模块，四个小模块分别设置有3个、4个、6个、3个残差模块。

3.根据权利要求2所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：四个小模块中的残差模块采用统一形式，皆设置有一个1*1核的卷积层、归一化层、3*3核的卷积层、BN层和1*1核的卷积层。

4.根据权利要求2所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：所述输入样本包括统一采用固定张数视频图像为一组的视频片段，且输入样本的维度为：N*T*3*256*128；其中，N代表一组输入样本中包含视频片段的数量，T代表每个视频片段中帧序列长度，3代表彩色图像的r、g、b通道，258*128表示输入的视频图像大小。

5.根据权利要求1～4任一项所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。

6.根据权利要求5所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：所述关键帧提取单元进行关键帧提取包括下述步骤：

3)将伪标签作为真实标签，利用交叉熵损失函数训练关键帧提取网络；经多次迭代后完成关键帧提取网络的训练，并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类，并从特征图输出F’的分类中各挑选出一个作为关键帧的特征，组成集合F’_k，即得输入样本的关键帧集合。

7.根据权利要求1～4任一项所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：所述识别单元包括一个temporal pooling层和一个全连接层，且识别单元用于身份识别并证明关键帧的有效性具体为：首先利用temporal pooling层融合时间维度上的特征，而后将融合后的特征输入到全连接层，利用triplet loss和交叉熵损失函数计算loss，不断优化识别单元。

8.根据权利要求7所述的嵌入关键帧提取的行人重识别端到端网络架构，其特征在于：所述temporal pooling层进行时间维度上的特征融合时，具体计算公式如下：