CN111310633B

CN111310633B - 基于视频的并行时空注意力行人重识别方法

Info

Publication number: CN111310633B
Application number: CN202010084877.9A
Authority: CN
Inventors: 孔军; 滕振德; 蒋敏
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2023-05-05
Anticipated expiration: 2040-02-10
Also published as: CN111310633A

Abstract

基于视频的并行时空注意力行人重识别方法，属于计算机视觉领域。本发明提出的并行时空网络模型，能够同时提取行人的时序特征和空间特征，显著减少了行人信息的损失。此外为获取更具有辨识性的时序特征，本发明提出了全局时序注意力模块，同时为获取更具有辨识性的空间特征本发明引入了空间卷积注意力模块。全局时序注意力模块能够选择出辨识性更强的视频帧，同时空间卷积注意力模块能够对显著性区域进行特征提取。最终本发明使用特征融合的方法对时序特征和空间特征进行联合，从而获得更加完整的行人特征用于行人的重识别，极大提高了行人重识别模型的鲁棒性。

Description

基于视频的并行时空注意力行人重识别方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于视频的并行时空注意力行人重识别方法。

背景技术

行人重识别是计算机视觉领域具有挑战性的理论研究方向，同时也是工程领域中的重要应用技术。由于光照、遮挡、行人姿态变化等因素的影响，行人重识别还有很多问题亟待解决。目前，行人重识别主要分为基于图片和基于视频两类方法。基于图片行人重识别以图片作为研究对象，但是图像所提供的信息非常有限，想要捕获有效的信息进行识别并不容易。相较而言，在基于视频的行人重识别中，研究人员可以从视频帧中提取出时序信息和更加完整的空间信息。因此，本发明以视频为研究对象，针对网络提取视频中行人特征所面临的问题，提出独特的并行时空注意力方法来有效地提取辨识性特征用于行人重识别。

目前，基于视频的行人重识别主要使用二维卷积网络与时序池化结合的方法和三维卷积网络的方法来提取行人特征。这两种方法都能够获得行人的特征，但是依然存在以下问题：(1)在二维卷积网络与时序池化结合的方法中，首先使用二维卷积网络提取行人空间信息，然后使用时序池化将行人的信息提取到一个特征矩阵中，提取出的时序特征矩阵将作为行人最终的特征。然而，由于一个人在一个视频序列中可能表现出很大的视觉变化，单一的特征矩阵不能完全表达行人外观的多样性，因此仅仅使用提取出的时序特征矩阵作为行人最终的特征不可避免的会丢失一些重要的细节信息。(2)使用三维卷积网络能够同时提取出行人的空间特征和时序特征，但是三维卷积网络的参数量众多，训练难度大，计算代价非常高。

为解决以上问题，本发明提出了基于视频的并行时空注意力行人重识别方法。首先使用并行时空网络提取行人的时序特征和空间特征，减少行人信息的损失。其次，引入全局时序注意力模块和空间卷积注意力模块获取更具有辨识性的行人特征。

发明内容

本发明的主要目的是提出一种基于视频的并行时空注意力行人重识别方法，以实现高效的行人重识别。

为实现以上目的，本发明提供如下技术方案：

步骤一、获取视频帧：从数据集的每段视频中选取出T帧视频，其中视频帧数T为超参数；

步骤二、提取视频帧中的初级空间特征：将步骤一中提取的视频帧输入到初级空间特征提取网络中，首先使用卷积网络分别提取每一帧中的初级空间特征s_i,i＝1,2…,T,然后按照视频帧的时序将初级空间特征s_i按照原有视频顺序拼接在一起构成该段视频的初级空间特征集合S＝{s₁,s₂,…,s_i,…,s_T}。

步骤三、提取行人时序特征：将步骤二中生成的初级空间特征集合S输入到时序特征提取模块中。在时序特征提取模块中首先使用卷积网络进一步提取行人的空间特征，然后构建全局时序注意力模块计算时序注意力权重W_t∈R^T×T，最后对视频帧进行加权融合生成行人的时序特征f_t。

步骤四、选取权重最高的视频帧：按照步骤三中产生的时序注意力权重对视频帧进行排序，根据排序结果选取出权重最高的前N帧视频帧；

步骤五、使用并行空间特征提取模块提取行人空间特征：将步骤四选取出的权重最高的前N帧视频帧所对应的初级空间特征s_i∈S分别输入到空间特征提取模块中。在空间特征提取模块首先使用空间卷积注意力模块计算每帧的空间注意力概率分布W_s，然后使用该空间概率分布与该帧的初级空间特征进行加权融合得到加权后的空间特征矩阵最后对生成的空间特征使用卷积操作和空间上的平均池化计算出权重最高的前N帧视频帧最终的行人空间特征i＝ 1,2,…,N。

步骤六、融合行人特征：将步骤三中产生的行人时序特征f_t和步骤五中产生的N个行人空间特征i＝1,2,…,N使用矩阵拼接的方式沿通道方向融合为最终的行人特征。

步骤七、模型训练：采用三元组损失函数和交叉熵损失函数作为该模型的目标函数，训练得到并行时空注意力网络模型。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用并行的空间特征提取模块能够提取出更多的行人空间特征。与以往直接使用时序特征作为行人特征的方法相比，能够减少行人空间信息的损失。

2、步骤三中构建的全局时序注意力模块能够根据当前帧与视频片段中所有视频帧之间的关系计算当前帧的权重。与仅计算当前帧与相邻帧之间的关系相比更加精确的计算视频帧的权重，有效的提高了行人时序特征的获取。

3、步骤六中选取视频帧，本发明充分利用了全局时序注意力模块产生的权重。与随机抽帧相比，使用全局时序注意力模块产生的权重选取的视频帧更具有辨识性。

附图说明

图1为本发明的算法模型图。

图2本发明的全局时序注意力模型图。

图3为本发明的选取视频帧示意图。

图4为本发明使用的空间注意力模型图。

图5为MARS数据集空间注意力结果图。其中，(a)(b)(c)(d)为第一个行人的视频序列中不同帧(时刻)的注意力结果图；(e)(f)(g)(h)为第二个行人的视频序列中不同帧(时刻)的注意力结果图；(i)(j)(k)(l)为第三个行人的视频序列中不同帧(时刻)的注意力结果图。

图6为本发明的模型训练图。

具体实施方式

图1表示本发明的算法模型图。算法以视频帧为输入，包含初级特征提取模块、时序特征提取模块、空间特征提取模块、特征融合模块等部分。其中时序特征提取模块中包含全局时序注意力模型，用于计算不同视频帧的权重及选取视频帧；空间特征模块中包含空间卷积注意力模型，用于计算空间不同部位的权重。

为了对本发明进行更好的说明，下面以公开的行人重识别数据集MARS进行阐述。

上述技术方案中步骤一中T帧视频的具体选取方法是：

在选取视频的过程中，预先设定视频帧数T。对每段视频序列，若其总帧数大于T则选取前T帧视频，否则选取该段视频全部视频帧，然后从该段视频的第一帧开始二次选取以补全T帧。

上述技术方案中步骤二中初级空间特征提取网络的构建方法是：

以ResNet网络为基础，使用ResNet50网络中前4层conv1至conv4取视频帧中行人的初级空间特征。在初级空间特征提取网络的训练阶段，首先将ResNet50网络在ImageNet数据集上进行预训练，并在行人重识别数据集MARS 上进行微调，利用微调后的ResNet50网络实现初级特征的提取。

上述技术方案中步骤三中全局时序注意力模型的构建方法为：

全局时序注意力模型如图2所示，输入初级空间特征矩阵S，首先使用二维卷积神经网络来进一步提取行人的空间特征，并压缩每一视频帧的空间尺寸到1*1 从而得到特征矩阵M。对M分别使用一维卷积神经网络提取视频帧中的时序信息得到得到时序特征θ∈R^T×1和时序特征然后将θ和进行矩阵乘积并经过 Softmax操作得到时序注意力权重W_t∈R^T×T，即

M＝Conv2d(X)

θ＝Conv1d(M)

其中Conv1d为一维卷积神经网络，Conv2d为二维卷积神经网络。另外使用空间平均池化的方法从初级空间特征矩阵S中压缩空间尺寸到1*1从而得到特征矩阵 P。最后将特征矩阵P与权重矩阵W_t进行矩阵相乘并在时序上使用平均池化获得行人的时序特征f_t。全局时序注意力可以获得每一帧与视频序列中所有帧之间的关联性，相比于仅仅计算当前帧与相邻帧之间的关系，本发明提出的全局时序注意力生成的权重矩阵W_t可以对视频的时序信息作出更好的评价。

上述技术方案中步骤四中选取权重最高的视频帧的方法为：

首先对步骤三中产生的时序注意力权重矩阵W_t进行按列求和获得选择矩阵 W，然后对选择矩阵W按照数值大小进行排序并记录最大的前4帧视频帧的编号，最后根据编号选择对应视频帧送入空间模块进行进一步的特征提取。图3为本发明对行人重识别数据集MARS中一个视频序列的选取结果。

上述技术方案中步骤五中空间卷积注意力模型由Sanghyun Woo等人为解决图像分类问题而提出，其构建方法为：

如图4所示，输入一帧视频帧s_i首先在空间上使用最大池化的方法获得空间特征矩阵f，使用空间平均池化的方法获得空间特征矩阵g，然后将f和g拼接为空间特征矩阵h并使用二维卷积神经网络进一步提取空间信息，最后使用 Sigmoid操作得到注意力概率分布W_s,即

g＝AvgPool(s_i)

W_s＝σ(Conv2d(f+g))

其中AvgPool为空间平均池化，MaxPool为空间最大池化，Conv2d为二维空间卷积，σ为Sigmoid操作。

使用W_s与s_i进行矩阵乘法操作获得评价结果图5为MARS数据集部分帧使用空间注意力后的结果图。从该图可以看出使用空间注意力后可以对视频帧中具有辨识性的空间部分赋予更高的权重，这将有效的提高行人的重识别。

上述技术方案中步骤七中模型的训练方法为：

为训练网络模型，本发明采用三元组损失函数和交叉熵损失函数作为目标函数。如图6所示，本发明对提取出的时序特征f_t和N个行人空间特征i＝ 1,2,…,N分别使用三元组损失进行训练。另外获取到时序特征和空间特征后分别使用全连接层获得行人的ID，然后使用交叉熵损失函数进行训练。通过对每部分特征进行分别训练可以获得更具有差异性的行人特征，增强模型的鲁棒性。

为验证本发明的准确性和鲁棒性，本发明在公开的PRID2011、iLIDS-VID和 MARS数据集上进行了实验。PRID2011是一个常用的视频行人重识别数据集，该数据集共有两个摄像头拍摄而成，其中一个摄像头中有475个行人另一个摄像头中有753个行人，每个行人的视频片段包含5到675帧。iLIDS-VID数据集从iLIDS-MCTS数据集中提取了包括300个身份的600个视频。取自监控航空接站大厅，从2个不相交摄像机创建该数据集。由于iLIDS-MCTS数据集的局限性， iLIDS-VID遮挡非常严重。MARS数据集是一个数据量大，识别难度高的数据集。该数据集拍摄于清华大学校园内，有7个摄像头共同拍摄而成，包含了1261个行人和超过20000段的视频序列。

这三种数据集中的行人存在姿态、尺寸、视角、光照条件等变化因素，因此是具有挑战性的数据集。iLIDS-VID和MARS数据集中更是存在着部分遮挡和行人外表改变的影响因素，这为行人的重识别带来了极大的挑战。表1中是这三个数据中存在的干扰因素，主要包含光照、遮挡、形变等问题。

表1视频中存在的干扰因素

视频类别	干扰因素
		PRID2011	光照变化、低分辨率、背景混乱
iLIDS-VID	形变、视角，物体不明显
		MARS	光照变换、视角、遮挡、形变

实验参数设置：

表2数据库实验参数设置

数据集	训练样本数	测试样本数	图片大小	学习率	迭代次数
						PRID2011	占2/3	占1/3	256*128	0.001	400
iLIDS-VID	占1/2	占1/2	256*128	0.001	400
						MARS	625个	636个	256*128	0.001	400

表2是两个数据集在实验中的各个参数设置。其中分别包括训练样本和测试样本所占的比例、处理后的图片大小、学习率及其变化以及总的迭代次数。

本发明采用了累计匹配(CMC)和平均正确率(mAP)两个指标对本发明提出的方法进行了验证。表3为本发明提出的方法与时空联合递归神经网络(SeeForest)、基于局部质量评估网络(RQEN)、多样性正则化注意力模型(STAN) 等方法在PRID2011、iLIDS-VID和MARS数据集上的测试结果，本发明在这三个数据集上都取得了较高的识别率。尽管这些数据集存在着遮挡，变形，低分辨率等影响因素，但本发明提出的方法对这些影响因素具有很好的鲁棒性。

表3数据集上的识别率

上面结合附图对本发明的具体实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于视频的并行时空注意力行人重识别方法，其特征在于，步骤如下：

步骤二、提取视频帧中的初级空间特征：将步骤一中提取的视频帧输入到初级空间特征提取网络中，首先使用卷积网络分别提取每一帧中的初级空间特征s_i,i＝1,2…,T,然后按照视频帧的顺序将初级空间特征s_i拼接在一起，构成该段视频的初级空间特征集合S＝{s₁,s₂,…,s_i,…,s_T}；

所述步骤二中，初级空间特征提取网络的构建方法是：

以ResNet网络为基础，使用ResNet50网络中前4层conv1至conv4提取视频帧中行人的初级空间特征，在初级空间特征提取网络的训练阶段，首先将ResNet50网络在ImageNet数据集上进行预训练，并在行人重识别数据集MARS上进行微调，利用微调后的ResNet50网络实现初级特征的提取；

步骤三、提取行人时序特征：将步骤二中生成的初级空间特征集合S输入到时序特征提取模块中，在时序特征提取模块中首先使用卷积网络进一步提取行人的空间特征，然后构建全局时序注意力模块，计算时序注意力权重W_t∈R^T×T，最后对视频帧进行加权融合生成行人的时序特征f_t；

所述步骤三的具体过程为：

输入初级空间特征集合S，首先使用二维卷积神经网络来进一步提取行人的空间特征，并压缩每一视频帧的空间尺寸到1*1，从而得到特征矩阵M；对M分别使用一维卷积神经网络提取视频帧中的时序信息，得到时序特征θ∈R^T×1和时序特征

然后将θ和

进行矩阵乘积并经过Softmax操作得到时序注意力权重W_t∈R^T×T，即

M＝Conv2d(X)

θ＝Conv1d(M)

其中Conv1d为一维卷积神经网络，Conv2d为二维卷积神经网络；另外使用空间平均池化的方法从初级空间特征集合S中压缩空间尺寸到1*1从而得到特征矩阵P；最后将特征矩阵P与权重矩阵W_t进行矩阵相乘，并在时序上使用平均池化获得行人的时序特征f_t；

所述步骤四中，选取权重最高的视频帧的具体过程为：

首先对步骤三中产生的时序注意力权重W_t矩阵进行按列求和，获得选择矩阵W，然后对选择矩阵W按照数值大小进行排序并记录最大的前N帧视频帧的编号，最后根据编号选择对应前N帧视频帧送入空间特征提取模块进行进一步的特征提取；

步骤五、使用并行空间特征提取模块提取行人空间特征：将步骤四选取出的权重最高的前N帧视频帧所对应的初级空间特征s_i∈S分别输入到空间特征提取模块中；在空间特征提取模块首先使用空间卷积注意力模块计算每帧的空间注意力概率分布W_s，然后使用该空间注意力概率分布与该帧的初级空间特征进行加权融合得到加权后的空间特征矩阵

最后对生成的空间特征使用卷积操作和空间上的平均池化计算出权重最高的前N帧视频帧最终的行人空间特征f_s ⁱ,i＝1,2,…,N；

步骤六、融合行人特征：将步骤三中产生的行人时序特征f_t和步骤五中产生的N个行人空间特征f_s ⁱ,i＝1,2,…,N使用矩阵拼接的方式沿通道方向融合为最终的行人特征；

步骤七、模型训练：采用三元组损失函数和交叉熵损失函数作为该模型的目标函数，训练得到并行时空注意力网络模型；

所述步骤七中，模型训练的方法为：

采用三元组损失函数和交叉熵损失函数作为目标函数；对提取出的时序特征f_t和N个行人空间特征f_s ⁱ,i＝1,2,…,N分别使用三元组损失进行训练；另外获取到时序特征和空间特征后分别使用全连接层获得行人的ID，然后使用交叉熵损失函数进行训练；通过对每部分特征进行分别训练可以获得更具有差异性的行人特征，增强模型的鲁棒性。