CN111126223A

CN111126223A - 基于光流引导特征的视频行人再识别方法

Info

Publication number: CN111126223A
Application number: CN201911297061.8A
Authority: CN
Inventors: 张丽红; 王芬
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-08
Anticipated expiration: 2039-12-16
Also published as: CN111126223B

Abstract

本发明涉及识别领域，特别涉及视频行人识别领域。基于光流引导特征的视频行人再识别方法，首先使用卷积神经网络提取行人图像的深度特征，并根据深度特征图计算光流引导特征来描述行人运动信息；然后联合行人空间外观特征与时间运动特征，获得视频级的行人特征描述矢量；最后计算特征描述矢量之间的欧式距离，判定两段图像序列中的行人是否为同一身份。本发明的有益效果是：采用本发明方法行人再识别准确率得到明显提高。

Description

基于光流引导特征的视频行人再识别方法

技术领域

本发明涉及识别领域，特别涉及视频行人识别领域。

背景技术

行人再识别的任务是判断两个或者多个无重叠视域的摄像头捕获的行人是否为同一身份，这一技术被广泛应用于刑事侦查、行人检索等任务当中，成为当前的研究热点。目前的行人再识别方法主要包括基于图像与基于视频两大类，基于图像的行人再识别方法采用从监控视频中截取的行人图像作为数据集来训练网络，主要通过行人的空间外观信息来判定行人身份。相对于单幅图像来说，连续的视频序列不仅包含了行人的空间外观信息，还包含了行人的时间运动信息，联合空间与时间信息能够获得更加精准的行人特征描述，从而提高行人再识别的准确率。MclaughlinN等人结合卷积神经网络(ConvolutionalNeural Networks，CNN)与循环神经网络(Recurrent Neural Network，RNN)提出了CNN-RNN结构，输入图像首先经过CNN提取深度特征，然后利用RNN融合多个时间步的信息，获得视频级的行人特征描述矢量。Chen L在CNN-RNN的基础上提出了Deep CNN-RNN，通过连接CNN与RNN的输出，形成行人序列的时空特征描述，该方法相对基础CNN-RNN一定程度上提高了行人再识别的准确率。Xu S等人同样对CNN-RNN结构做出改进，设计了注意力时空池化网络(AttentiveSpatial-Temporal Pooling Networks，ASTPN)，提取更具有辨识力的行人特征。LIU Yi-min等人在Xu S的基础上，根据行人步伐大小、运动快慢生成帧间信息，并在网络训练过程中对输入序列添加自适应帧率尺度变化，提高了网络的性能。这些方法大都使用手动方式提取图像序列的光流图，手动提取光流图费时费力且存储光流图会占据大量的磁盘空间，Liu H等人提出一种累积运动上下文网络(Accumulative Motion Context，AMOC)，利用光流提取网络代替手动方式提取光流图，再结合CNN-RNN结构实现视频行人再识别，这种方法进一步提升了行人再识别的准确率，但由于光流提取网络结构复杂，参数数量较大，极大地影响了网络训练的效率。

发明内容

本发明所要解决的技术问题是：如何提高行人再识别的准确率。

本发明所采用的技术方案是：基于光流引导特征的视频行人再识别方法，首先使用卷积神经网络提取行人图像的深度特征，并根据深度特征图计算光流引导特征来描述行人运动信息；然后联合行人空间外观特征与时间运动特征，获得视频级的行人特征描述矢量；最后计算特征描述矢量之间的欧式距离，判定两段图像序列中的行人是否为同一身份。

具体按照如下的步骤进行

步骤一、将含有T帧图像的视频作为行人图像的深度特征输入卷积神经网络，其中每一帧行人图片都经过卷积神经网络提取图像特征

其中t表示第t帧图像对应的图像特征，i表示第i个卷积神经网络层，

表示第t帧第i个卷积神经网络层对应的图像特征，它是图像特征xA的一个子集；

步骤二、两个相邻帧的图像特征

和

同时输入OFF单元后，首先经过卷积核大小为1×1的卷积神经网络获得两个相邻帧的当前图像特征

和

分别与sobel算子相卷积，获得x，y方向的梯度表示

将两个图像特征逐元素相减得

其中，*表示卷积运算，常数N_c表示特征f(I)的通道数，令

f(I，c)为基本特征f(I)的第c个通道；

步骤三、在后两个卷积层对应的OFF单元中，对前一个OFF单元的输出

执行下采样，得到特征图

然后将

与当前层的

相加，即获得当前OFF单元的输出特征图

其中t表示第t帧图像对应的图像特征，i表示第i个卷积神经网络层；

步骤四、最后一个卷积层的输出特征图为图像深度特征

最后一个OFF单元的输出特征图为图像时空特征

且

经通道融合获得第t帧的时空融合图像特征

步骤五、设第t帧图像对应的行人融合图像特征为x^t，则

将x^t作为循环神经网络的输入，输出单帧时空特征o_t与隐藏状态h_t

r_t＝σ(W_r·[h_t-1，x_t])

z_t＝σ(W_z·[h_t-1，x_t])

o_t＝σ(W_o·h_t)

其中，r_t表示重置门，z_t表示更新门，W表示待训练参数，σ表示sigmoid层，

表示候选隐藏状态，h_t表示最终隐藏状态。GRU单元的输入为当前特征x_t与前一单元的隐藏状态h_t-1，输出为o_t序列与隐藏状态h_t；

步骤六、将T帧时空特征o_t序列输入时间池化层，整合序列信息，输出视频级时空特征描述y_R，

步骤七、对比损失函数用来最小化同一身份的行人之间的距离，最大化不同身份行人的距离，设行人序列a对应的视频级行人特征描述为x_a，相应正负样本的特征为y_b+、y_b-，对比损失

其中y_b+代表y_a的正对，而y_b-代表y_a的负对，α表示区分不同行人的特征距离边界，损失包括两种惩罚：第一是惩罚相距太远的正对(y_a，y_b+)，此时

第二是惩罚负对(y_a，y_b-)，当负对之间的距离小于α时，

当负对之间距离大于α，则没有惩罚，并且L_cat(y_a，y_b-)＝0，行人身份损失由Softmax函数预测，用来匹配行人图像特征与身份标签，行人身份损失

其中y为行人特征描述矢量，总共有k个不同身份的行人，p为预测值，q为行人真实标签，W_p和W_k是softmax权值矩阵的第p行和第k，最终的损失函数由对比损失与身份损失相结合，最终的损失函数L＝L_cat(y_a，y_b)+L_sof(ya)+L_sof(y_b)；

步骤八、在网络测试阶段，设两段输入序列为s_a，s_b，将网络的特征提取子网络与信息融合子网络直接作为特征提取器R(·)，视频级描述矢量

然后使用欧几里得距离直接计算提取的特征向量

的距离，若

则序列s_a，s_b中的行人为同一身份，否则为不同身份。

本发明的有益效果是：采用本发明方法行人再识别准确率得到明显提高。

附图说明

图1是基于光流引导特征设计了视频行人再识别深度学习网络框架；

图2是特征提取子网络结构图；

图3是OFF单元的内部结构图；

图4是iLIDS-VID数据集中的行人图像序列；

图5是基本方法与本发明方法在数据集iLIDS-VID上的结果对比图；

图6是基本方法与本发明方法在数据集PRID2011上的结果对比；

图7是本发明方法与其他方法在数据集iLIDS-VID上的CMC曲线图。

具体实施方式

光流引导特征(Optical Flow Guided Feature，OFF)是将光流法应用于卷积神经网络提取的特征图上得出的行人运动特征描述。本实施例将光流引导特征提取结构与CNN-RNN的视频行人再识别网络结构相结合，应用于视频行人再识别。该方法利用卷积神经网络提取行人空间外观特征，光流引导特征表征行人运动特征，联合空间与时间特征生成最终的行人特征描述。在多个数据集上进行实验，结果表明该方法在有效精简网络结构的同时，能够保证较高的识别率。

光流法是利用图像序列中相邻两帧的像素变化来找到上一帧跟当前帧之间存在的对应关系，从而计算物体运动信息的一种方法。光流约束方程是光流法中一个重要的理论基础。假设物体同一位置的像素点在相邻帧之间的亮度不会改变，且位移很小，光流约束方程如式(1)：

I(x；y；t)＝I(x+Δx；y+Δy；t+Δt) (1)

其中I(x；y；t)表示第t帧上位置为(x，y)的点的光强度，Δt表示时间间隔，Δx和Δy分别为像素点在x轴和y轴上的空间位移。将RGB图像输入卷积神经网络，经过卷积操作获得深度特征图。将光流约束方程运用到该特征图，可得式(2)：

f(I；ω)(x；y；t)＝f(I；ω)(x+Δx；y+Δy；t+Δt) (2)

其中f是表示从图像I中提取特征的映射函数，ω表示映射函数中的参数。这里的f指卷积神经网络。设p＝(x；y；t)，将公式(2)泰勒级数展开，得到公式(3)：

公式(3)两边同时除以Δt，得公式(4)：

当f(I；ω)(p)＝I(p)时，则f(I；ω)(p)仅表示p点处的像素值，(v_x，v_y)即为光流。当f(I；ω)(p)≠I(p)时，则(v_x，v_y)为特征流。从等式(4)可以看出，有矢量

与包含特征流的向量(v_x，v_y，1)正交，即

会随着特征流的变化而变化。因此，可以认为矢量

由特征流引导，称为光流引导特征。

由于OFF特征

与特征流(v_x，v_y)正交，能够很好地编码时空信息。用其代替光流来描述行人的运动信息，能够避免手动提取光流图，并一定程度上保证行人再识别的准确率。

基于光流引导特征设计了视频行人再识别深度学习网络框架，其具体结构如图1所示，主要分为特征提取子网络和信息融合子网络两个部分。特征提取子网络包括卷积层与OFF层，其中卷积层用来获取图像序列的空间外观信息，OFF层用来获取图像序列的时间运动信息；信息融合子网络包括时空信息融合，循环神经网络和时间池化层三部分，主要用来融合图像序列的时空信息，形成视频级的行人特征描述矢量。网络训练过程采用多任务损失函数：一是对比损失，通过计算行人特征描述矢量之间的欧氏距离，表征同一身份行人与不同身份行人的距离；二是身份损失，通过匹配特征描述矢量与行人身份标签，优化行人特征提取器。

特征提取子网络以卷积神经网络为主干结构，输入的多帧行人图像首先经过卷积神经网络提取深度特征图，同时将网络中间层获得的特征图作为OFF单元的输入，用来提取行人运动特征，具体结构如图2所示。卷积神经网络的主干结构包含三层，每一层都包含卷积层、tanh激活层、以及最大池化层三部分，用来提取深度特征图，卷积层Conv-3的输出即为行人空间外观特征描述。其中卷积层Conv-1的卷积核大小为5×5×16，卷积步长为1，其他层参数如图2。

由于每个中间层对应特征图的尺寸都不相同，OFF层也包含多个不同尺寸的单元，分别对应不同尺寸的特征图。设卷积层输出的特征图为

其中t表示第t帧图像对应的图像特征，i表示第i个卷积神经网络层。除第一个OFF单元的输入为相邻两帧对应中间层的特征图之外，其他OFF单元的输入均是相邻两帧同一尺寸的特征图与上一个OFF单元的输出，采用残差块连接每两个OFF单元，最后一个OFF单元的输出特征图即为行人的运动特征描述。设OFF单元输出的特征图为

其中t表示第t帧图像对应的图像特征，i表示第i个卷积神经网络层对应OFF单元。OFF单元的内部结构如图3所示。

根据式(3)可知，光流引导特征应包括特征图的空间梯度和时间梯度。设f(I，c)为基本特征f(I)的第c个通道，令

和

分别为特征图上x和y方向的梯度。采用Sobel算子计算空间梯度，如式(5)、(6)：

其中，*表示卷积运算，常数N_c表示特征f(I)的通道数。

设

为OFF特征中时间方向上的梯度，通过两个特征图逐元素相减获得，，如公式(7)：

其中

分别表示相邻两帧图像对应的特征图。

光流引导特征单元输出的行人运动特征描述与全连接层输出的外观特征描述同时作为特征提取子网络的输出，输入到信息融合子网络。

信息融合子网络包含三个部分，一是时空信息融合，采用级联融合的方式，融合行人的空间外观特征与时间运动特征；二是循环神经网络，采用门控循环单元^[11](GatedRecurrent Unit，GRU)使不同时间步的行人时空信息相互流通；三是时间池化层，采用平均池化的方式汇总循环神经网络中每一个时间步的输出，获得视频级的行人特征描述矢量。

时空信息融合

卷积层输出行人的外观信息，OFF层输出行人的运动信息，融合卷积层与OFF的输出，即为单帧图像的行人时空特征描述特征图，最后一层卷积层和OFF单元，即i＝3时，其输出分别为

且

采用通道融合的方式，将两个特征图跨通道d堆叠到相同的空间位置上，如式(8)：

其中，设u^A，u^B分别为卷积层与OFF层的输出，设

则行人时空特征为

循环神经网络

循环神经网络允许时间步中的信息相互流通，从而实现连续多帧的行人时空信息的融合。本实施例采用循环神经网络的一种变体门控循环单元来实现帧间的特征融合。相比基础RNN单元，GRU添加了重置门(Reset Gated)与更新门(Update Gated)两个门控结构，能够避免基础RNN无法很好地处理远距离依赖的问题。

设时空融合后，t时刻的行人时空特征为v^t，则

输入序列共有T帧，序列V＝(v⁰，...，v^T-1)为输入序列对应时空特征组成的序列，作为GRU的输入。GRU将学习图像序列的长期依赖关系，取h₀＝0，单个GRU单元内的具体操作如式(9)：

表示候选隐藏状态，h_t表示最终隐藏状态。GRU单元的输入为当前特征x_t与前一单元的隐藏状态h_t-1，输出为单帧图像的时空特征o_t序列与隐藏状态h_t。

时间池化层

时间池化层在时间维度上执行的平均池化操作来汇总所有时间步的信息。理论上来说，循环神经网络后期时间步的输出综合了所有输入的特征。但实际上，由于后期时间步输出的内容有限，会丢失很大一部分信息，为了尽可能获得更鲁棒的特征描述，采用平均池化的方式综合所有时间步的信息是一种简单有效的手段。图1中将GRU的输出作为时间池化层的输入，执行池化操作后，即可获得视频级的行人时空特征。如式(10)：

其中，T表示序列长度，每个GRU单元的输出为单帧图像对应的时空特征o_t，y_R为行人的视频级时空特征描述。

损失函数

本实施例采用对比损失函数与行人身份损失函数相结合的多任务损失。

对比损失函数用来最小化同一身份的行人之间的距离，最大化不同身份行人的距离。设行人序列a对应的视频级行人特征描述矢量为x_a，相应正负样本的特征描述矢量为y_b+、y_b-，则对比损失具体如式(11)：

其中y_b+代表y_a的正对，而y_b-代表y_a的负对，α表示区分不同行人的特征距离边界。损失包括两种惩罚：第一是惩罚相距太远的正对(y_a，y_b+)，此时

第二是惩罚负对(y_a，y_b-)，当负对之间的距离小于α时，

当负对之间距离大于α，则没有惩罚，并且L_cat(y_a，y_b-)＝0。

行人身份损失由Softmax函数预测，用来匹配行人图像特征与身份标签，如式(12)：

其中y为行人特征描述矢量，总共有k个不同身份的行人，p为预测值，q为行人真实标签，W_p和W_k是softmax权值矩阵的第p行和第k行。最终的损失函数由对比损失与身份损失相结合，如式(13)：

L＝L_cat(y_a，y_b)+L_sof(y_a)+L_sof(y_b) (13)

在网络训练阶段，采用的是正负样本交替输入的方式。在测试阶段，不再采用多任务损失函数，只将OFF-CNN-RNN结构作为特征提取器应用于原始图像序列，然后计算获取特征向量的欧氏距离，来度量行人的相似性。当欧氏距离大于某一阈值，即认为两段视频序列中的行人为同一身份，否则为不同身份。

实验及结果分析

数据集

(1)iLIDS-VID：iLIDS-VID数据集是从机场到大厅的两个非重叠摄像机视域中捕获的行人创建的。数据集中有300个不同身份的行人，每个人有两个摄像机视图的一对图像序列，总共600个图像序列。图像序列长度的平均数为73，范围为23到192。该数据集中大量行人的服装相似，视图中的照明和视点变化较大，背景杂乱且遮挡问题严重，使得实现行人再识别具有很大的挑战性。如图4所示。

(2)PRID-2011：PRID-2011数据集包含来自两个非重叠视域的摄像头视图的行人图像序列，其中一个摄像头捕获385个行人，另一个摄像头捕获749个行人，两个摄像头之间共有200个人为同一身份。本实施例只选用具有相同身份的200个行人，共400个图像序列进行评估。序列长度范围为5到675帧，平均帧数为100。与iLIDS-VID数据集相比，PRID-2011数据集在不拥挤的室外场景中采集，背景相对简单干净，很少见遮挡，实现行人再识别的难度相对较小。

评价标准

当前行人再识别常用的评价指标主要指累积匹配特征曲线(Cumulative MatchCharacteristics，CMC)，其中Rank-n表示准确率排名前n的匹配结果中包含正确匹配对象的概率。将数据集随机分成训练集和测试集。网络训练时，从训练集中选取两段16帧的视频序列作为输入；测试时，将测试集中两个摄像机捕获的行人视频序列分别作为查询集与图集。重复实验五次，并报告平均结果。

实验结果

表1为基本方法与本实施例方法在数据集iLIDS-VID上的结果对比。其中基本方法指网络只采用基本CNN-RNN结构，不包含OFF层的方案。本实施例方法指采用网络结构为CNN-RNN结合OFF层的方案。从表1可以看出，添加了OFF层的方案明显比不采用OFF的网络结构识别率更高，其Rank-1可以达到66％，相对于后者提高了8％。如图5为两种方法在数据集iLIDS-VID上的CMC曲线。

表1基本方法与本实施例方法在数据集iLIDS-VID上的结果对比iLIDS-VID

表2为两种方案数据集PRID2011上的结果对比。从中可以看出采用光流引导特征的方法的Rank-1比基本方法提高了9％。此外，从表1与表2的对比结果看，两种方案在PRID2011数据集上的测试结果都明显优于iLIDS-VID数据集。图6为两种方法在数据集PRID2011上的CMC曲线图。

表2基本方法与本实施例方法在数据集PRID2011上的结果对比PRID2011

表3是在数据集iLIDS-VID上本实施例方法与其他方法的对比结果。从表3可以看出，本实施例方法的实验结果相对于其他大部分方案有一定的提高，达到了当前的先进水平，证明本实施例提出的网络具有良好的性能。图7为本实施例方法与其他方法在数据集iLIDS-VID上的CMC曲线图。

表3本实施例方法与其他方法在数据集iLIDS-VID上对比

参考文献：

[1]M.M.Kalayeh，E.Basaran，M.G kmen，et al.Human semantic parsing forperson re-identification[C].Proceedings of the In IEEE Conference on ComputerVision and Pattern Recognition，CVPR，Salt Lake City，Utah，June 18-22，2018.IEEEXplore，2018：1062-1071.

[2]Cao Z，Simonn T，Wei S E，et al.Realtime multi-person 2d poseestimation using part affinity fields[C].Proceedings of the In IEEEConference on Computer Vision and Pattern Recognition，CVPR，Hawaii，July 21-26，2017.IEEEXplore，2017：7291-7299.

[3]Chung D，Tahboub K，Delp E J.A Two Stream Siamese ConvolutionalNeural Network for Person Re-identification[C].Proceedings of the 2017 IEEEInternatioual Conference on Computer Vision，ICCV..Venice，Italy，October 22-29，2017.IEEE，2017：1983-1991.

[4]You J，Wu A，Li X，et al.Top-push Video-based Person Re-identification[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition，CVPR.Las Vegas，June 26-July 1，2016.IEEE，2016：1345-1353.

[5]Mclaughlin N，Rincon J M D，Miller P.Recurrent Convolutional Networkfor Video-Based Person Re-identification[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，CVPR.Las Vegas，June 26-July 1，2016.IEEE，2016：1325-1334.

[6]Chen L，Yang H，Zhu J，et al.Deep Spatial-Temporal Fusion Network forVideo-Based Person Re-identification[C].Proceedings of the In IEEE Conferenceon Computer Vision and Pattern Recognition，CVPR.Hawaii，July 21-26，2017.IEEEXplore，2017：63-70.

[7]Xu S，Cheng Y，Gu K，et al.Jointly Attentive Spatial-Temporal PoolingNetworks for Video-based Person Re-Identification[C].2017 IEEE InternationalConference on Computer Vision，ICCV.Venice，Italy，October 22-29，2017.IEEE，2017：4733-4742.

[8]LIU Yi-min，JIANG Jian-guo，Qi Mei-bin.Video-based Person Re-identification Method Based on Multi-scale Frame Rate[J].Computer Knowledgeand Technology，2018，14(1)：196-199.(in Chinese)

[9]Liu H，Jie Z，Jayashree K，et al.Video-based Person Re-identificationwith Accumulative Motion Context[J].IEEE Transactious on Circuits and Systemsfor Video Technology，2017，28(10)：2788-2802.

[10]Sun S，Kuang Z，Ouyang W，et al.Optical Flow Guided Feature：A Fastand Robust Motion Representation for Video Action Recognition[C].Proceedingsof the In IEEE Conference on Computer Vision and Pattern Recognition，CVPR，Salt Lake City，Utah，June 18-22，2018.IEEE，2018：1390-1399.

[11]Dey R，Salemt FM.Gate-variants of Gated Recurrent Unit(GRU)neuralnetworks[C].IEEE International Midwest Symposium on Circuits and Systems，MWSCAS，Boston，MA，Aug 6-9，2017.Springer，2017：1597-1600.

[12]Wang T，Gong S，Zhu X，et al.Person Re-Identification byDiscriminative Selection in Video Ranking[J].IEEE Transactions on PatternAnalysis and Machine Intelligence，2016，38(12)：2501-2514.

[13]Hirzer M，Beleznai C，Roth P M，et a1.Person Re-identification byDescriptive and Discriminative Classification[C].Scandinavian Conference onImage Analysis，SCIA，Heidelberg，Berlin，May 23，2011-May 27，2011.Springer，2011：91-102.

结论

本实施例提出了基于光流引导特征的视频行人再识别方法。首先通过卷积层提取图像序列的深度特征，然后利用OFF单元内部的逐元素相减法与Sobel算子计算行人图像的时空梯度，即为光流引导特征。通过使用光流引导特征描述行人运动信息可以避免手动提取光流图，简化了网络结构，行人再识别准确率得到明显提高。通过在多个数据集上进行实验，证明了本实施例方法的可行性与有效性。