CN106096568B

CN106096568B - 一种基于cnn和卷积lstm网络的行人再识别方法

Info

Publication number: CN106096568B
Application number: CN201610450898.1A
Authority: CN
Inventors: 尤鸣宇; 沈春华; 徐杨柳
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2019-06-11
Anticipated expiration: 2036-06-21
Also published as: CN106096568A

Abstract

本发明提出了一种基于CNN和卷积LSTM网络的行人再识别方法，属于图像处理技术领域。首先用一组CNN提取编码在帧中的空间信息，再利用卷积LSTM构成的编码‑解码框架，得到帧级别的深度时空外观描述器，最后使用Fisher向量编码，使描述器可以描述视频级别的特征。通过这种方式可以提取一种特征表示，这一特征表示能将视频当作排列好的序列，同时保持其空间信息，建立精确的模型。

Description

一种基于CNN和卷积LSTM网络的行人再识别方法

技术领域

本发明涉及视频图像处理领域，特别涉及一种基于CNN和卷积LSTM网络的行人再识别方法。

背景技术

行人再识别是指，从无重叠的摄像机视图中识别单个行人，即确认不同位置的摄像机在不同时间捕捉到的是否为同一个行人。这一问题在视频监控领域有重要的现实价值。

通常通过匹配空间外观特征的方式进行行人再识别。匹配的方法包括：基于一对单帧的行人图像，匹配它们的颜色和强度梯度直方图。但是，单帧的外观特征本质上很容易改变，因为光照，位置，姿势和视角不同都会导致人体外观的巨大变化。此外，匹配从不同人体部位提取出的空间外观特征本质上是空间校正的一种形式，而在一个动作的不同阶段，人体部位也会呈现不同的外观。基于多帧行人图像的算法虽然提高了匹配的稳定性，但依然只是运用了一部分视频中的信息，它们的效果取决于识别对应帧的机制是否表现良好，即是否能识别不同时间，地点和视角的视频的对应帧。

基于视频的行人再识别提供了一种更加自然的在监控系统下识别行人的方法。监控系统中很容易捕捉行人的视频，与视频中的一部分图像相比，完整的视频蕴含了更丰富的信息。在以往的研究中，时空信息并没有很好地运用于行人再识别。传统的基于视频解决行人再识别问题的方式为：选取最能表示特征的帧或是手动调整时间序列，而后进行低等级的特征提取，这种方法的最大缺点在于，它不能精确地从视频序列中学习特征。此外，该方法在提取低水平特征中表现出色，但是这些特征与行人外观的关系并不紧密，尤其难于区分不同人的外观特征。

发明内容

本发明针对现有技术存在的不足，提出一种基于CNN和卷积LSTM网络的行人再识别方法，既能提升行人再识别的准确度，又能应用于多种复杂的场景中。

本发明通过以下技术方案实现：

一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：所述网络使用CNN提取空间信息，用卷积LSTM网络构成的编码-解码网络，提取帧级别的深度时空外观描述器，使用Fisher向量编码，使描述器可以描述视频级别的特征；具体包括如下步骤：

步骤A：采集视频图像。

步骤B：视频图像预处理，提取步行周期。

步骤C：训练CNN。

步骤D：训练卷积LSTM网络。

步骤E：提取CNN特征：

CNN结构包含5个卷积层和2个全连接层。卷积层用conv表示，全连接层用fc表示，下标为该层在整个网络中的位置。。卷积层的卷积核分别设置为：96(11×11)，256(5×5)，384(3×3)，384(3×3)和256(3×3)。将提取的步行周期送入完成训练的CNN，从conv₅输出CNN特征。

步骤F：编码和解码：

LSTM编码-解码框架包含一个编码网络和一个解码网络，每个网络各有两个的卷积LSTM层。在conv₅的最后，每个输入序列都能用帧级别的256个特征映射表示。将CNN特征送入编码网络，编码LSTM用隐藏状态张量进行编码，将输入序列压缩为固定长度的表示。复制编码网络的最后状态和细胞输出，作为解码网络的初始状态，进行解码，解码LSTM将编码网络得到的表示展开。

步骤G：视频级别特征提取：

将LSTM解码后的特征图展开为向量，使用Fisher向量编码，用Θ＝{(μ_k,σ_k,π_k),k＝1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM)，μ_k，σ_k和π_k分别为帧级别下第c个组成部分的均值、方差和先验参数，上述组成部分从步骤F中LSTM重新构建的帧级别的描述符X＝[x₁,…,x_t]中得到。利用LSTM网络从视频中提取的深度描述符，计算从第c个组成部分中获取的均值和方差的偏移向量u_k和v_k。Fisher向量由所有C个组成部分的u_k和v_k相连接而构成，可以描述视频级别的特征，为后续各类处理提供条件。

步骤H：特征比对：

将两个相机的视频提取的特征进行比对，判断视频中是否同一行人。

本发明采用的技术方案与现有的技术相比，有如下技术效果：

1)提出用于行人再识别的深度时空视频表示，提取视频中更丰富的信息。

2)使用一种用于解决基于视频的行人再识别问题的卷积LSTM网络，可以表示复杂的外观和动作变化。

3)提取的特征与行人外观的关系紧密，有助于区分不同人的外观特征。

4)本发明创新性地设计“CNN+卷积LSTM”结构，将步骤E和步骤F配合起来，从而达到提取行人视频中空间和时间特征的目的。

附图说明

图1是一种基于CNN和卷积LSTM网络的行人再识别方法的整体流程图

图2是一种基于CNN和卷积LSTM网络的行人再识别方法的网络结构图

图3是iLIDS-VID中不同相机视图下相同行人的对比图

图4是来自iLIDS-VID的输入序列(上图)与一种基于CNN和卷积LSTM网络的行人再识别方法的重构序列(下图)的对比图

具体实施方式

本发明方法方案：给出一系列视频中连续的行人图像，首先利用CNN中帧级别的卷积层提取其CNN特征，以此捕捉外观中复杂的变化，再将提取出的特征送到卷积LSTM编码-解码框架中，其中编码框架利用局部自适应核捕捉一个序列中行人的动作，从而将输入序列编码为隐藏表示，而后，利用解码器将编码框架输出的隐藏表示解码为一个序列。经过LSTM的编码和解码，得到帧级别的深度时空外观描述器。最后使用Fisher向量编码，使描述器可以描述视频级别的特征。

为使本发明中提出的基于CNN和卷积LSTM网络的行人再识别方法更加清楚，下面以本发明在iLID-VID数据集上的使用为例，结合附图和具体实施方式对本发明进行进一步的说明。

图1为本发明的整体流程图，包括视频采集、预处理、训练CNN、训练LSTM网络、提取CNN特征、编码解码、视频级别特征和特征比对提取八个部分。

步骤A.视频采集：从iLID-VID数据集中采集视频。该数据集包含从300个随机采样的行人中提取的600个视频序列，这些视频序列建立在两个无重叠的相机视图的基础上，利用i-LIDS多镜头摄像机追踪场景进行拍摄。

步骤B.预处理：使用流能剖面(FEP)信号识别一个步行周期。通过检测视频序列的FEP的局部极小值或极大值，并在极大值或极小值附近提取有序的数帧，得到一个完整的步行周期。

步骤C.训练CNN：分为预训练和调整两阶段。

预训练阶段：使用ImageNet数据集预训练CNN。CNN结构包含5个卷积层和2个全连接层。卷积层用conv表示，全连接层用fc表示，下标为该层在整个网络中的位置。每一层利用整流线性单元(ReLU)作为非线性激活函数。移除两个全连接层，在conv₅和fc₆之间引进一个差值层。预训练时采用随机梯度下降法(该技术已属于现有技术)。

调整阶段：完成预训练后，用行人再识别数据集中的视频训练数据对参数进行调整。用一对来自无重叠相机视图的视频序列Q和作为输入，Q和拍摄的画面来自不同的相机，Q和是否为同一个人的视频序列是已知的。卷积层实施协同卷积，在两个视图间共享权值。输入序列经过conv₅后，成为帧级别的特征映射。用差值层计算特征差异，特征差异经过全连接层fc₆和fc₇以及用于分类的softmax层(softmax层是现有技术)，得到判断视频序列是否描述同一个人的二值向量，与真值比较，调整网络参数。

步骤D.训练卷积LSTM网络：将每个视频序列分段，穿过LSTM编码-解码框架，重新构建特征(编码LSTM)，随后构造与输入序列相同数目的序列(解码LSTM)，利用交叉熵损失计算预测帧和真实帧的差异，使用反向传播法和RMSProp训练，令交叉熵损失最小。

步骤E.提取CNN特征：将步骤B中提取的步行周期送入完成步骤C训练的CNN，从conv₅输出CNN特征，得到帧级别的特征映射。

步骤F.编码和解码：将步骤E中提取的CNN特征送入完成步骤D训练的两层卷积LSTM编码网络，复制编码网络的最后状态和细胞输出，作为步骤D训练的两层卷积LSTM解码网络的初始状态，进行解码，解码LSTM将编码网络得到的表示重新展开为特征图。

步骤G.视频级别特征提取：将步骤F解码得到的特征图展开成向量，再用Fisher向量编码，进行视频级别的特征提取。

步骤H.特征比对：用计算余弦相似度的方式，比较两段视频经过上述步骤得到的一组特征向量。当特征向量的余弦相似度大于阈值时，认为不是同一个人，当余弦相似度小于或等于阈值时，认为是同一个人。

所述步骤D中，卷积LSTM的隐藏状态用以下等式计算：

i_t＝σ(W_xi*X_t+W_hi*H_t-1+W_ci℃_t-1+b_i)

f_t＝σ(W_xf*X_t+W_hf*H_t-1+W_cf℃_t-1+b_f)

C_t＝f_t℃_t-1+i_t°tanh(W_xc*X_t+W_hc*H_t-1+b_c)

o_t＝σ(W_xo*X_t+W_ho*H_t-1+W_co℃_t-1+b_o)

H_t＝o_t°tanh(C_t)

上述公式中符号的含义如下：

X₁,X₂,…,X_t为卷积LSTM的输入，C₁,…,C_t为细胞输出，H₁,…,H_t为隐藏状态，i_t,f_t,o_t分别为输入门，遗忘门，输出门，它们的下标表示时间，即位于第几帧。W_xi,W_hi,W_ci,W_xf,W_hf,W_cf,W_xc,W_hc,W_xo,W_ho,W_co为步骤D训练得到的权值，b_i,b_f,b_c,b_o为步骤D训练得到的偏置。

它们都是三维张量。*表示卷积滤波，°表示Hadamard内积，σ表示sigmoid函数(sigmoid函数也是现有技术)。

所述步骤G中，从第c个组成部分中获取的均值和方差偏移向量的计算方法为：

上述公式中符号的含义如下：

Θ＝{(μ_k,σ_k,π_k),k＝1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM)，μ_k，σ_k和π_k分别为帧级别下第c个组成部分的均值、方差和先验参数，x_i为步骤F中LSTM重新构建的帧级别的描述符，N为帧数。u_k和v_k为第c个组成部分中获取的均值和方差的偏移向量。q_ki是后验概率。

Claims

1.一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：获得一系列视频中连续的行人图像，首先利用CNN中帧级别的卷积层提取其CNN特征，以此捕捉外观中复杂的变化，再将提取出的特征送到卷积LSTM编码-解码框架中，其中编码框架利用局部自适应核捕捉一个序列中行人的动作，从而将输入序列编码为隐藏表示，而后，利用解码器将编码框架输出的隐藏表示解码为一个序列；经过LSTM的编码和解码，得到帧级别的深度时空外观描述器；最后使用Fisher向量编码，使描述器描述视频级别的特征；

所述网络使用CNN提取空间信息，用卷积LSTM网络构成的编码-解码网络，提取帧级别的深度时空外观描述器，使用Fisher向量编码，使描述器描述视频级别的特征；

具体包括如下步骤：

步骤A：采集视频图像；

步骤B：视频图像预处理，提取步行周期；

步骤C：训练CNN；分为预训练和调整两阶段，

预训练阶段：使用ImageNet数据集预训练CNN；CNN结构包含5个卷积层和2个全连接层；卷积层用conv表示，全连接层用fc表示，下标为该层在整个网络中的位置；每一层利用整流线性单元作为非线性激活函数；移除两个全连接层，在conv₅和fc₆之间引进一个差值层；预训练时采用随机梯度下降法；

调整阶段：完成预训练后，用行人再识别数据集中的视频训练数据对参数进行调整；用一对来自无重叠相机视图的视频序列Q和作为输入，Q和拍摄的画面来自不同的相机，Q和是否为同一个人的视频序列是已知的；卷积层实施协同卷积，在两个视图间共享权值；输入序列经过conv₅后，成为帧级别的特征映射；用差值层计算特征差异，特征差异经过全连接层fc₆和fc₇以及用于分类的softmax层，得到判断视频序列Q、作是否描述同一个人的二值向量，与真值比较，调整网络参数；

步骤D：训练卷积LSTM网络；

将每个视频序列分段，穿过LSTM编码-解码框架，重新构建特征即编码LSTM，随后构造与输入序列相同数目的序列即解码LSTM，利用交叉熵损失计算预测帧和真实帧的差异，使用反向传播法和RMSProp训练，令交叉熵损失最小；

所述步骤D中，卷积LSTM的隐藏状态用以下等式计算：

上述公式中符号的含义如下：

X₁,X₂,…,X_t为卷积LSTM的输入，C₁,…,C_t为细胞输出，H₁,…,H_t为隐藏状态，i_t,f_t,o_t分别为输入门，遗忘门，输出门，它们的下标表示时间，即位于第几帧；W_xi,W_hi,W_ci,W_xf,W_hf,W_cf,W_xc,W_hc,W_xo,W_ho,W_co为步骤D训练得到的权值，b_i,b_f,b_c,b_o为步骤D训练得到的偏置；

它们都是三维张量；*表示卷积滤波，表示Hadamard内积，σ表示sigmoid函数；

步骤E：提取CNN特征：

将提取的步行周期送入完成训练的CNN，从conv₅输出CNN特征，每个输入序列都能用帧级别的256个特征映射表示；

步骤F：编码和解码：

将CNN特征送入编码网络，编码LSTM用隐藏状态张量进行编码，将输入序列压缩为固定长度的表示；复制编码网络的最后状态和细胞输出，作为解码网络的初始状态，进行解码，解码LSTM将编码网络得到的表示展开；

步骤G：视频级别特征提取：

将LSTM解码后的特征图展开为向量，使用Fisher向量编码，用Θ＝{(μ_k,σ_k,π_k),k＝1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM)，μ_k，σ_k和π_k分别为帧级别下第c个组成部分的均值、方差和先验参数，上述组成部分从LSTM重新构建的帧级别的描述符中得到；利用LSTM网络从视频中提取的深度描述符，计算从第c个组成部分中获取的均值和方差的偏移向量u_k和v_k；Fisher向量由所有C个组成部分的u_k和v_k相连接而构成，可以描述视频级别的特征；

上述公式中符号的含义如下：

Θ＝{(μ_k,σ_k,π_k),k＝1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM)，μ_k，σ_k和π_k分别为帧级别下第c个组成部分的均值、方差和先验参数，x_i为步骤F中LSTM重新构建的帧级别的描述符，N为帧数；u_k和v_k为第c个组成部分中获取的均值和方差的偏移向量；q_ki是后验概率；步骤H：特征比对：

将两个相机的视频提取的步骤G获得的特征进行比对，判断视频中是否同一行人。

2.根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：所述步骤C和E中，CNN结构包含5个卷积层和2个全连接层；卷积层的卷积核分别设置为：96(11×11)，256(5×5)，384(3×3)，384(3×3)和256(3×3)。

3.根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：所述步骤D和F中，LSTM编码-解码框架包含一个编码网络和一个解码网络，每个网络各有两个的卷积LSTM层。

4.根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：步骤G中，使用Fisher向量编码，描述视频级别的特征，为后续各类处理提供条件。