CN112733695B

CN112733695B - 一种行人重识别领域中的非监督关键帧挑选方法

Info

Publication number: CN112733695B
Application number: CN202110003753.8A
Authority: CN
Inventors: 罗啸宇; 殷光强; 李耶; 游长江; 杨晓宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2023-04-25
Anticipated expiration: 2041-01-04
Also published as: CN112733695A

Abstract

本发明公开了一种行人重识别领域中的非监督关键帧挑选方法，包括下述步骤：输入N个具有T帧的行人的连续视频片段至基础网络中提取出特征图F；然后将特征图F输入到关键帧提取单元，得到池化层后的特征图输出F’；利用层次聚类法，对特征图输出F’进行聚类，生成伪标签；将伪标签当做真实标签，利用交叉熵损失函数Loss_kf经多次迭代训练关键帧提取网络；将每次迭代训练时关键帧提取网络最后的FC层进行分类，并从特征图输出F’的分类中各挑选出一个作为关键帧的特征

组成集合F_k'，从而对应到原来的特征提取单元的输入，找到对应的帧即为关键帧；实现关键帧的无监督自适应挑选，使得挑选出来的关键帧能够最大程度包含视频核心信息。

Description

一种行人重识别领域中的非监督关键帧挑选方法

技术领域

本发明涉及人工智能中计算机视觉领域，具体的说，是一种行人重识别领域中的非监督关键帧挑选方法。

背景技术

行人重识别(Person Re-identification(Person ReID))主要是从不同摄像头中分辨出行人身份，即给定一个行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

一个行人在摄像头下，会形成一段连续的轨迹，这段轨迹称为连续帧，为从这段连续帧中挑选出最能代表这个行人信息的关键帧，但目前面对的问题是，行人的连续帧之间的差异很小，即走路的姿势和步子的大小之类的差异很小，行人外观在连续帧之间几乎没有差异，所以很难用简单的传统算法挑选他们的差异，而且这其中会加入主观认为，最终导致关键帧中蕴含的信息无法完全代表行人信息。

现有技术就提取关键帧的方法主要分为三类：

(1)基于光流、SIFT等传统特征；基于光流等特征提取关键帧的算法对于同一个ID重复出现时会提取到相似的特征；

(2)基于聚类等算法；基于聚类等提取关键帧的算法会对初始选取的簇中心极其敏感；

(3)基于卷积神经网络(CNNs)+人工设定；基于卷积神经网络的方法没有与任务相关联，而是人为认定关键帧是哪些，缺乏理论依据，而且带有较大的随机性，其中，人工指随机抽取或者均匀抽取。

现有技术的一种具体技术方案如一种针对行人重识别领域视频帧的输入的一种关键帧的挑选方法(基于卷积神经网络(CNNs)+人工设定的方式)，在数据的预处理部分采用随机抽取和均匀抽取两种方法实现对关键帧的提取。

其中，随机抽取：从原始的帧序列中，随机选取一定数量的帧作为关键帧，输入到特征提取网络。

均匀抽取：从原始的帧序列中，间隔均匀的选取一定数量的帧作为关键帧，输入到特征提取网络。

发明内容

本发明的目的在于提供一种行人重识别领域中的非监督关键帧挑选方法，实现关键帧的无监督自适应挑选，使得挑选出来的关键帧能够最大程度包含视频核心信息。

本发明通过下述技术方案实现：一种行人重识别领域中的非监督关键帧挑选方法，包括下述步骤：

1)输入N个具有T帧的行人的连续视频片段至基础网络中提取出特征图F，且F∈R^N ^×T×c×h×w；其中，N代表视频片段的个数，即连续帧序列的个数，此处也代表ID的个数，T代表单个视频片段中帧的长度，c代表特征图F的通道数，优选为3，即r、g、b三通道，h(优选为256)和w(优选为128)分别代表特征图F的高度和宽度，优选的每个视频片段包含有12张视频图像，即输入N个具有T帧的行人的连续视频片段的维度为：N*T*3*256*128；

2)将特征图F输入到关键帧提取单元，得到池化层后的特征图输出F’，即特征图输出F’具有的维度为：N*T*2048*8*4；

3)利用层次聚类法，对特征图输出F’进行聚类，生成伪标签；例如，对于第i个行人的第j帧，生成的伪标签为L_iji∈N,j∈T，对应的特征为F'_iji∈N,j∈T，则有：

L_ij＝C(F_i'_j)i∈N,j∈T；

4)将步骤3)所生成的伪标签当做真实标签，利用交叉熵损失函数Loss_kf经多次迭代训练关键帧提取网络，且交叉熵损失函数Loss_kf的计算公式为：

5)将每次迭代训练时关键帧提取网络最后的FC(全连接)层进行分类，并从特征图输出F’的分类中各挑选出一个作为关键帧的特征

组成集合F_k'，其中，F_k ^*代表一个关键帧的特征，F_k’代表所有关键帧的特征组成的集合，即得输入样本的关键帧的特征的集合，从而对应到原来的特征提取单元的输入，找到对应的帧即为关键帧。

进一步的为更好地实现本发明，特别采用下述设置方式：所述基础网络采用去掉最后两层的ResNet-50而得到的改进的ResNet-50神经网络。

进一步的为更好地实现本发明，特别采用下述设置方式：所述改进的ResNet-50神经网络包括一个7*7核的卷积层(Conv1)、3*3核的池化层(maxpooling)以及连接在池化层后的四个小模块，且四个小模块分别设置有3个、4个、6个、3个残差模块。

进一步的为更好地实现本发明，特别采用下述设置方式：四个小模块中的所述残差模块采用统一形式，皆设置有一个1*1核的卷积层、3*3核的卷积层和1*1核的卷积层。

进一步的为更好地实现本发明，特别采用下述设置方式：在任一残差模块的1*1核的卷积层和3*3核的卷积层之间皆设置有归一化层。

进一步的为更好地实现本发明，特别采用下述设置方式：所述关键帧提取单元设置有两个1*1的卷积层、一个池化层和一个全连接层。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明在搭建好关键帧挑选网络(key frame extraction net)的基础上，通过层次聚类(hierarchical clustering)生成伪标签(pseudo label)，利用伪标签训练关键帧挑选网络(即关键帧提取网络)，实现完全无监督的关键帧挑选，在同等情况下，该方法挑选出的关键帧能够极大程度代表视频片段的核心信息。

(2)本发明采用的是无监督的方法，没有加入人为干预，网络进行自主优化，达到最优后，提取出来的关键帧能够极大代表视频帧序列的核心信息。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例1：

本发明设计出一种行人重识别领域中的非监督关键帧挑选方法，实现关键帧的无监督自适应挑选，使得挑选出来的关键帧能够最大程度包含视频核心信息，包括下述步骤：

L_ij＝C(F_i'_j)i∈N,j∈T；

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述基础网络采用去掉最后两层的ResNet-50而得到的改进的ResNet-50神经网络，且改进的ResNet-50神经网络包括一个7*7核的卷积层(Conv1)、3*3核的池化层(maxpooling)以及连接在池化层后的四个小模块，且四个小模块分别设置有3个、4个、6个、3个残差模块。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：四个小模块中的所述残差模块采用统一形式，皆设置有一个1*1核的卷积层、3*3核的卷积层和1*1核的卷积层。

作为优选的设置方案，在任一残差模块的1*1核的卷积层和3*3核的卷积层之间皆设置有归一化层。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述关键帧提取单元设置有两个1*1的卷积层、一个池化层和一个全连接层。

实施例5：

一种行人重识别领域中的非监督关键帧挑选方法，由于挑选视频片段中的关键帧关键在于挑选出的帧之间的差异比较大，且能够涵盖这段视频中的大部分信息，则在该实施例中将关键帧提取的任务抽象成一个分类任务，即针对T维度上的分类任务。所以，该实施例针对这个分类任务训练一个网络，让网络逐渐去学习视频中比较关键的帧是哪些，然后挑选出来，在训练模型的过程中，由于需要解决标签生成的问题，则在该实施例中使用了层次聚类传统算法来生成对应视频片段中每一帧的标签，然后利用标签训练网络，再更新，不断优化特征提取网络。满足迭代次数后，网络达到最优，而后可以利用该网络提取关键帧。

如表1所示为本实施例中所采用的基础网络的结构表：

表1基础网络结构表

如表2所示为本实施例所采用的关键帧提取网络；

表2关键帧提取网络

结合表1、表2，该实施例所示出的一种行人重识别领域中的非监督关键帧挑选方法具体为：

(1)输入为N个行人的连续视频片段(每个视频片段包含T帧)，首先经过基础网络(表1，为改进的ResNet-50网络)后提取到特征图F，且F∈R^{N×T×c×h×w}；其中，N代表视频片段的个数，即连续帧序列的个数，此处也代表ID的个数，T代表单个视频片段中帧的长度，c代表特征图的通道数，优选为3即r、g、b三通道，h(优选为256)和w(优选为128)分别代表特征图F的高度和宽度。此处经过基础网络后，得到的特征图为F∈R^{N×T×2048×8×4}。改进的ResNet-50网络包括了一个7*7核的卷积层(Conv1)、3*3核的池化层(Pool1)以及后面四个模块；这四个模分别包含了3、4、6、3个残差块；每一个残差块均包含了同样的结构：1*1核的卷积层、3*3核的卷积层、1*1核的卷积层，有时候每一个残差模块会加入归一化层(BN)。其中stride指的是卷积核运动的步长，用来控制输出特征图的大小。

(2)将特征图F输入到关键帧提取单元(亦称关键帧提取网络，如表2所示，为两个卷积层、一个池化层和一个全连接层)，得到池化层后的特征图输出F’；

(3)利用层次聚类法，对特征图输出F’进行聚类，生成伪标签。例如，对于第i个行人的第j帧，生成的伪标签为L_iji∈N,j∈T，对应的特征为F'_iji∈N,j∈T，则有：

L_ij＝C(F_i'_j)i∈N,j∈T；

(4)把层次聚类产生的伪标签当做真实标签，利用交叉熵损失函数Loss_kf训练关键帧提取网络。在进行训练时，设置一个迭代次数，达到这个迭代次数后，就退出这个关键帧提取网络的训练。最后利用关键帧提取网络最后的FC层进行分类，即将每次迭代训练时关键帧提取网络最后的FC(全连接)层进行分类，并从特征图输出F’的分类中各挑选出一个作为关键帧的特征

本发明通过具体实例将步骤(2)、(3)和(4)的详细过程展示如下：输入:

特征图F：N个行人对应的T个视频片段经过基础网络后的得到的特征图F＝{F_ij}(i∈N,j∈T)；

迭代次数：I

执行:

簇类个数：c；

关键帧数量:n＝c；

设置迭代次数:iter＝0；

For I＝1:I do

将输入导入关键帧提取网络，输出两层卷积后的特征F_S。

F_S＝σ2(conv2(σ1(conv1(F))))。

将F_S导入层次聚类模型，得到F_S特征所对应的类簇L

L＝C_cluser(F_s)

将F_S输入全连接FC层，得到得分S。

S＝L_linear(F_s)

结合S和L，利用交叉熵损失函数Loss_kf计算loss。

反向传播，更新关键帧提取网络。

iter＝iter+1

输出:

关键帧对应的特征图

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种行人重识别领域中的非监督关键帧挑选方法，其特征在于：包括下述步骤：

1)输入N个具有T帧的行人的连续视频片段至基础网络中提取出特征图F，且F∈R^N ^×T×c×h×w；其中，N代表视频片段的个数，T代表单个视频片段中帧的长度，c代表特征图F的通道数，h和w分别代表特征图F的高度和宽度；所述基础网络采用去掉最后两层的ResNet-50而得到的改进的ResNet-50神经网络；所述改进的ResNet-50神经网络包括一个7*7核的卷积层、3*3核的池化层以及连接在池化层后的四个小模块，且四个小模块分别设置有3个、4个、6个、3个残差模块；四个小模块中的所述残差模块采用统一形式，皆设置有一个1*1核的卷积层、3*3核的卷积层和1*1核的卷积层；在任一残差模块的1*1核的卷积层和3*3核的卷积层之间皆设置有归一化层；

2)将特征图F输入到关键帧提取单元，得到池化层后的特征图输出F’；

3)利用层次聚类法，对特征图输出F’进行聚类，生成伪标签；

其中，L_ij代表第i个行人的第j帧，生成的伪标签，其中L_iji∈N,j∈T；

5)将每次迭代训练时关键帧提取网络最后的FC层进行分类，并从特征图输出F’的分类中各挑选出一个作为关键帧的特征

组成集合

其中，F_k ^*代表一个关键帧的特征，F_k’代表所有关键帧的特征组成的集合，即得输入样本的关键帧的特征的集合，从而对应到原来的特征提取单元的输入，找到对应的帧即为关键帧。

2.根据权利要求1所述的一种行人重识别领域中的非监督关键帧挑选方法，其特征在于：所述关键帧提取单元设置有两个1*1的卷积层、一个池化层和一个全连接层。