CN109886090B

CN109886090B - 一种基于多时间尺度卷积神经网络的视频行人再识别方法

Info

Publication number: CN109886090B
Application number: CN201910013082.6A
Authority: CN
Inventors: 张史梁; 李佳宁; 黄铁军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2020-12-04
Anticipated expiration: 2039-01-07
Also published as: CN109886090A

Abstract

一种基于多时间尺度卷积神经网络的视频行人再识别方法，包括：利用多时间尺度卷积神经网络模型处理视频，获得具有空间特征和多尺度时间特征的第一输出，其中，所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得；利用空间卷积神经网络模型处理所述视频，获得具有空间特征的第二输出；将所述第一输出和所述第二输出进行融合；根据融合结果，对所述视频中的行人进行步态识别和/或空间特征识别。本发明实现了对视频中行人的空间特征(衣着)以及步态的识别，具有更高的识别率。与2D神经网络相比，获取了多尺度的时间线索；与3D神经网路相比，引入的参数容量更小，在相同系统中的运行速度更快。

Description

一种基于多时间尺度卷积神经网络的视频行人再识别方法

技术领域

本发明涉及卷积神经网络的构建与应用领域，特别的涉及了一种基于多时间尺度卷积神经网络的视频行人再识别方法。

背景技术

目前关于行人的重新识别(ReID)的研究主要是关注于视觉序列和视频信息。最近几年见证了基于图像人物的行人识别的发展，例如，通过基于图像数据中行人的行为表现形式的深度研究(Li，Zhu和Gong 2018b；Xu等人2018；Liu等人2018b；Su等人2016；2015)。由于能够探索大量的空间和时间线索，相比与基于图像行人表现的研究基于视频的人ReID具有更好的潜力来解决基于图像的行人识别中的一些挑战。如图4所示，单独观察视觉很难识别两个穿着视觉上相似的人。但是，他们却可以通过步态线索轻松区分。因此，基于视频的行人识别还可以利用基于图像的行人识别的最新进展。如图5中的两个人显示出类似的步态线索，但可以通过他们的空间和外观来区分。

最近，3D卷积神经网络(ConvolutionalNeuralNetworkCNN)中引入了空间-时间概念，用于表示视频中的其他任务，如动作识别(Carreira和Zisserm an 2017；Qiu，Yao和Mei2017；Tran et al.2018)。其方法是通过在空间和时间维度上的滑动卷积核，3DCNN对视觉外观和时间跨越连续帧进行编码。其性能的提升已经在多个研究中进行了报道(Carreiraand Zisserman 2017；Tra n等人2015；Ji等人2013)。但是由于单个3D卷积内核只能覆盖短暂的时间，研究人员通常会将几个3D卷积核整合在一起以获得更强的时间线索的学习能力。尽管其表现出更好的性能，但堆叠的3D卷积核导致参数的大幅增长，例如，广泛使用的C3D(Tran等人2015)网络达到的模型大小为321MB，但仅有8个3D卷积层，几乎是ResNet50(Heetal.2016)的95.795个参数的3倍。多多的参数不仅使得3D卷积网络的计算成本昂贵，还会也导致模型训练和优化的困难。这使得3D卷积网络不容易适用于基于视频的行人识别，因为，其训练集通常很小并且对行人的注释是昂贵的。

发明内容

本发明的目的是通过以下技术方案实现的一种基于多时间尺度卷积神经网络的视频行人再识别方法，其特征在于，包括：利用多时间尺度卷积神经网络模型处理视频，获得具有空间特征和多尺度时间特征的第一输出，其中，所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得；利用空间卷积神经网络模型处理所述视频，获得具有空间特征的第二输出；将所述第一输出和所述第二输出进行融合；根据融合结果，对所述视频中的行人进行步态识别。

进一步的，所述多时间尺度卷积神经网络包括多个顺序连接的复合神经元，每个复合神经元具体包括：顺序连接的3D卷积层、至少一个残差注意力块以及残差注意力层；其中，所述3D卷积层用于插入多尺度的时间线索；所述至少一个残差注意力块为具有空间特征的2D神经元；所述残差注意力层用于获得时间-空间关注掩模；相邻的复合神经元之间通过残差注意力层和3D卷积层连接。

更进一步的，所述多时间尺度卷积神经网络还包括：与所述顺序连接的复合神经元的输入端和输出端分别连接的两个平均池化层；其中，所述两个平均池化层分别用于聚集帧特征和时间特征。

更进一步的，所述3D卷积层包括：特征提取子卷积层以及至少一个时间卷积核；其中，根据时间卷积核数量的不同，所述3D卷积层用于获取不同尺度的时间线索，当该3D卷积层具有多个卷积核时，所述多个卷积核以并行方式存在。

进一步的，所述3D卷积层中，所述时间卷积核的数量的确定方法包括：当给定时间维度为T的输入特征映射，则时间卷积核的数量为：

其中，n为时间卷积核的数量，T为输入特征映射的维度。

更进一步的，所述残差注意力层包括：空间关注掩模学习层，用于获得空间关注掩模；通道关注掩模学习层，用于获得通道关注掩模；时间关注掩模学习层，用于获得时间关注掩模；S型函数，用于对所述空间关注掩模、通道关注掩模以及时间关注掩模进行归一化处理；其中，经过归一化处理的空间关注掩模、通道关注掩模以及时间关注掩模通过乘法操作后获得时间-空间掩模。

更进一步的，所述时间-空间关注掩模用于包括：对输入向量x加权，从而获得输出向量y，

其中，四维输入向量x∈C×T×H×W，时间-空间关注掩模M∈C×T×H×W；C为该图像通道数量，T为时间长度，H为空间高度，W为空间宽度。

更进一步的，所述空间关注掩模学习层包括：全局时间池层和两个卷积层；其中，全局时间层用于跨不同时间维度聚合信息；所述两个卷积层用于模拟跨通道的差异。

更进一步的，所述通道关注掩模学习层和时间关注掩模学习层均包括：一个池化层和两个1×1的卷积层；其中，所述汇池化层用于将时间维度特征和空间特征维度聚合成时空线索；所述两个1×1的卷积层用于SE结构下的瓶颈计算；其中，所述SE结结构用于，通过显式的建模通道之间的相互依赖关系，自适应的重新校准通道式的特征响应。

进一步的，所述根据所述据融合结果还用于：对视频中的行人进行空间特征进行匹配识别。

本发明的优点在于：通过多时间尺度卷积神经网络模型和空间卷积神经网络模型的输出融合，实现了对视频中行人的空间特征(衣着)以及步态的识别，具有更高的识别率。此外，多时间尺度卷积神经网络模型通过在2D神经网络中插入M3D卷积层和残差注意层构建，与2D神经网络相比，其实现了获取多尺度的时间线索；与3D神经网路相比，其结构更为紧凑，引入的参数容量更小，在相同系统中的运行速度更快。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明具体实施方式的双流多尺度3D神经网络的形成及结构示意图。

附图2示出了根据本发明具体实施方式的M3D卷积层的结构及其插入结构示意图。

附图3示出了根据本发明具体实施方式的残差注意力层的组成示意图。

附图4示出了步态匹配识别示意图。

附图5示出了空间特征匹配识别示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明旨在从一个大型数据库中识别出一个特定的人，这个人可以实现一个特定的任务。如，给定查询视频Q＝(S¹,S²,…,S^T)，其中T是序列长度，S^T是时间t的第t帧。则基于视频中人物的行人识别可以通过视频差异响应分析函数f对图库序列进行排序，并通过计算视频Q和每个图库序列之间的距离度量D来解决。在返回的等级列表中，包含有与查询视频Q相同的人物的视频应该出现在列表的顶部。因此，学习具有辨别能力的视频响应以及计算视频Q和每个图库序列之间的距离度量D是对人物行的人识别的两个关键步骤。

其中，对于学习或设计一个具有辨别力的视频差异响应分析函数f，对嵌入在视频中的空间和时间线索对于识别特定人来说可能是重要的，如图4或图5所示情形。由于空间和时间线索相互补充，本发明中分别通过两个模型模块提取它们。设视频的特征可以表示为：

f_st＝[f_s,f_t] (1)

其中，fs和ft分别表示空间和时间特征，[，]表示特征间的串联操作。现有的基于图像的人物的行人识别工作已经提出了多种用于空间特征提取的成功方法，其中2D神经网络是一种主流方法。利用空间卷积神经网络(二维神经网络)来提取视频中的空间特征fs的具体过程是，通过文档描述从每个单独的视频框架中获得空间表示，然后通过平均池化来聚集框架特征，即

其中，F_2d是指用于提取帧特征的2D神经网络。如上文所述，应该研究更有效的获取时间特征的方法。因此，对于时间差异响应f_t，本发明中使用多尺度3D卷积网络(Multi-scale3DConvolutionNetworkM3D)来获得多尺度时间线索。其中，

f_t＝F_M3D(Q) (3)

其中，F_M3D表示M3D卷积网络。其可以直接从视频中学习时间特征从而获得时间线索。本发明中通过由2D神经网络和多尺度3D神经网络组成的双流神经网络进行上述时间线索和空间线索的获取。具体如图1所示，其中t×256×128表示为像素为256×128的第t帧图像。

如图1所示，为根据本发明具体实施方式的双流多尺度3D神经网络的形成及结构示意图。其中，本发明的双流多尺度3D神经网络中的双流分别指的是多尺度时间流(即多时间尺度卷积神经网络模型)和空间流(空间卷积神经网络模型)。在如图1所示的实施例中，时间流流的形成过程包括：将连续多个具有多尺度的3D卷积层插入2D神经网络中；在完成第一次插入后的每下一次的具有多尺度的3D卷积层插入2D神经网络前，利用残差注意力层重新确定时间线索，形成具有空间特征和多尺度时间特征的卷积层神经网络；从而，通过所述空间流和多尺度时间流对视频中的行人进行步态匹配识别或对视频中的行人进行空间特征匹(衣着)进行配识别。其中，所述空间卷积神经网络(2D神经网络)包括：池化层和残差块；所述多时间尺度卷积神经网络模型通过在另一个所述空间卷积神经网络框架中插入M3D卷积层和残差注意力层构成，并且在插入过程中所述M3D卷积层和残差注意力层会占用一个残差块，即所述多时间尺度卷积神经网络模型总要比多时间尺度卷积神经网络模型少一个残差块。这种结构方式使得两个模型的输出可以通过其各自获得的空间特征进行融合(其中，空间模型可以获取更加丰富的空间特征)。

如图2所示，为根据本发明具体实施方式的M3D卷积层的结构及其插入结构示意图。

为了更好的介绍M3D卷积层，首先对现有的3D卷积层进行简单介绍。3D卷积层，视频剪辑可以用四维向量进行表示，包括：C×T×H×W，分别表示颜色通道数量，时间长度、画面的长和宽。一个3D卷积核可以由一个3D向量组成，包括：T×H×W，与四维向量相比仅仅是缺少了颜色通道数量；其中，t为卷积核的时间深度，h和w为空间尺寸。3D卷积通过在视频剪辑的时间和空间尺度上滑动从而译码时空特征。

3D卷积核只能捕获短时间的时间特征，如在图2中b-e中，3D卷积核仅能捕获3帧的时序关系。为了塑造更长时间的时间线索，多尺度的3D卷积核被串联起来组成深度网络。这使得通过该方式构成的3D神经网络包含大量的参数。并且，3D神经网络无法利用图像网络中的2D图像对模型进行预训练，从而使得对3D神经网络的优化更加困难。

多尺度3D卷积层，针对3D神经网络的缺点，本发明设计了一种更加兼容的并且能获得更长时间的时间线索的卷积核。本发明公开的M3D层包括了一个空间卷积核和n和具有不同时间范围的平行时间核。给定一个输入特征映射x∈R^C×T×H×W，定义输出的M3D层为：

其中，S表示空间卷积，T⁽ⁱ⁾为具有膨胀率i的时间卷积。S的计算与其在2D神经网络中的计算相同。T⁽ⁱ⁾的计算为：

其中，W⁽ⁱ⁾为第i个时间核。

图2中可选的示出了一种M3D层的详细结构，包括n＝3的残块(视频剪辑帧中的部分图像)。其中，n用于控制接收场在时间尺度上的尺寸。例如，当n＝1时，相当于将3D卷积层的卷积核分解成一个空间核和一个时间核。此外，本发明中为了确保接收场的尺寸符合输入信号的时间尺度，给定了一个与T的时间尺度有关的输入特征的映射，从而计算时间核n的数量。其中，

其中，符号

为下舍操作。

在图2所示的结构中，当n＝3时，本发明的M3D层可以覆盖7个时间尺度，因此本法明的M3D层具有更大范围的时间接收场。其另一个好处是，通过多尺度时间核的引入，使得通过其可以进行丰富的长、短时间线索的学习。此外，任何2D

神经网络层都可以以图2所示的通过残余连接的方式插入时间核从而形成M3D层。M3D层的结构使其可以被初始化成更加容易被训练的2D神经网络层。例如，设置时间核的权值为0。反过来说，通过一个训练好的2D神经网络，M3D神经网络可以更加容易的进行优化。

残差注意力层，在一长串的视频中，不同的帧可能呈现出不同的视觉质量。此时，在一些连续帧的视频线索可能比其它帧的时间线索更加重要，或者说更加具有鲁棒性。因此，同等的对待不同的空间或时间线索是不合理的。因此，本发明通过设计了对应的选择机制进而对从M3D层获取的时间和空间线索进行定义。

本发明设计了残差注意力层用于获得时间-空间关注掩模。设给定输入向量为x∈R^C×T×H×W，残差注意力层将会估算出与输入向量x具有相同尺寸的具有显著特征的关注掩模M＝R^C×T×H×W。传统的关注掩模普遍的通过多个特征映射来强调重要的区域。区别与现有方法，本发明通过利用残留线索的方式设计了关注模型：

其中，x和y分别为四维输入和输出向量，M为被归一化到(0,1)的四维关注掩模。在公式(7)中，残留关注层(M)以残留卷积层的方式被实施，即在保持输入向量x部分特征的同时，通过掩模M对在输入向量中更加有意义的线索进行强调。

直接的学习掩模M的代价是很大的，因为其包含了大量的参数。因此，本发明通过将掩模M分解成三个低维度的关注掩模用以减少参数的数量。该过程以公式表示为：

M＝Sigmoid(S_m×C_m×T_m) (8)

其中，Sigmoid()表示利用S型函数，S_m∈R^1×1×H×W为空间关注掩模，C_m∈R^C×1×1×1为信号关注掩模，T_m∈R^1×T×1×1为时间关注掩模。

空间注意掩模学习：空间注意分支包括：一个全局时间池化层和用于估算的卷积层。设给定输入为x∈R^C×T×H×W，则全局池化的过程为：

所述全局池化层设计用于集合不同时间尺度下的信息。并且其还可以用于减少后续过程中的卷积参数。因此利用输入向量的空间分支x_S进行计算空间关注掩模。

为了模拟信道的差异，本发明利用一个卷积层

去继承单通道的关注映射。利用一个1×1的卷积层进一步的引入从而学习尺度参数用以进一步的融合。形成的S_m可以表示为：

信道关注掩模学习，信道关注掩模同样包含一个池化层和两个1×1的卷积层、第一步的全局池化操作是利用空间和时间尺度去提取空间和时间线索，其可以表示为：

本发明通过Squeeze-and-Excitation(SE)结构并设置瓶颈的方式设计了信道分支。则信道关注掩模为：

其中，

输出信道被设为

其中，r表示瓶颈减少率。

的输出信道被设置为c。通过SE结构减少两个卷积层的参数的方式如从(c²+c²)到

其中可选的，在本发明的具体实施例中将r设置为16。

时间关注掩模学习，时间分支的设计同信道分支的设计相同。首先通过全局池化提取空间和信道特征。然后，时间关注掩模通过两个卷积层获得。

对经过三个分支获得的输出结合从而获得最终的关注掩模M，并且同样通过s型函数将关注掩模M的范围归一化到[0,1]。通过对所有的卷积层初始为0，从而获得

最终得到了如公式(7)所示的方程。

本发明利用M3D层和残差注意力层，构建了以ResNet50为基础的卷积网络试验。具体情况将在以下的具体实施例中进行说明。

具体实施例一(与现有的技术手段的对比)

本发明以一个ResNet50作为一个简单的2D神经网络。在本实施中，进行了以ResNet50为基础通过将其中的2D卷积层替换成3D卷积层；并与根据发明方法将部分2D卷积层替换为M3D卷积层以及插入残差注意力层所形成的M3D层进行了对比。在本实施例的开始阶段，本发明完成了对全部四个残差块的替换和插入操作。

本实施例中利用PyTorch学习框架训练和调整模型。利用梯度下降算法SGD估算模型。输入图像被设定尺寸为256×128.。中值被减去每个信道值(B，G和R)。经过2D神经网络的训练后每一批次包含有128帧图像。将初始学习率设置为0.001，并且在每10次循环后减少10次学习次数。本实施例中的训练在20次循环后结束。表1中示出了几种常用手段与本发明方法的各项指标的对比：

表1

为了训练模型，本发明在每个时间节点从每个视频中提取第T帧及其附近多帧作为一般式输入，并总共进行了300次。

在测试开始时，本发明使用2D神经网络从静止帧中提取特征，然后通过平均池化手段将从视频帧中提取到的特征转化为空间特征。对于3D模型，本实施例通过取样来自原始视频的第T帧及其附近帧作为输入。设视频长度为L，则可以得到

的取样输入及其相关参数。视频水平上的特征最终通过将这些参数求平均值获得。本实施例被实施于GTXTITAN XGPU以及Intel i7CPU，并具有128GB内存的设备上。

I3D方法(Carreir and Zisserman 2017)通过将2D卷积核加入3D视频中从而获得对时间线索的学习能力。其使用的2D卷积核是典型的平方形式，因此该方法引入了大量的参数。

P3D方法(Qiu，Yao，andMei 2017)虽然其在3D神经网络的构建中通过因式分解减少了参数的数量，然而却无法避免因需获得较长时间的时间线索从而堆叠时间核而导致的参数数量的增多。

具体实施例二(残差注意力层的有效性)

在本实施例中将对本发明的残差注意力层的有效性进行说明，包括残差注意力层的三个分支：空间注意分支、时间注意分支以及信道注意分支。本实施例中仍然以2D的ResNet50网络为基础，分别对包含有三个分支的残差注意力层，以及分别包含有一个分支所形成的残差注意力层进行试验。其结果如表2所示：

表2

从表2中可以看出，单独使用任何一个分支所形成残差注意力层都提升了M3D的性能表现，而使用三个分支联合所形成的残差注意力层(即本发明方法)表现出来最优的性能表现。

此外，从表2中还可以看出，在考虑了边缘和额外的时间信息后，M3D神经网络的表现强于2D神经网络。这就体现了在视频的行人识别过程中时间线索的重要性。因此，在接下来的实施例中，将对对本发明利用双流(空间流和时间流)M3D网络与现有技术在三个数据上的有效性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于多时间尺度卷积神经网络的视频行人再识别方法，其特征在于，包括：

利用多时间尺度卷积神经网络模型处理视频，获得具有空间特征和多尺度时间特征的第一输出，其中，所述多时间尺度卷积神经网络由在空间卷积神经网络中插入多尺度的3D卷积层和残差注意力层获得；其中，多时间尺度卷积神经网络包括多个顺序连接的复合神经元，每个复合神经元具体包括：

顺序连接的3D卷积层、至少一个残差注意力块以及残差注意力层；其中，

所述3D卷积层用于插入多尺度的时间线索；

所述至少一个残差注意力块为具有空间特征的2D神经元；

所述残差注意力层用于获得时间-空间关注掩模；

相邻的复合神经元之间通过残差注意力层和3D卷积层连接；

利用空间卷积神经网络模型处理所述视频，获得具有空间特征的第二输出；其中，所述卷积神经网络采用ResNet50进行构建；

将所述第一输出和所述第二输出进行融合；

根据融合结果，对所述视频中的行人进行步态识别。

2.根据权利要求1所述的视频行人再识别方法，其特征在于，所述多时间尺度卷积神经网络还包括：

与所述顺序连接的复合神经元的输入端和输出端分别连接的两个平均池化层；其中，

所述两个平均池化层分别用于聚集帧特征和时间特征。

3.根据权利要求1所述的视频行人再识别方法，其特征在于，所述3D卷积层包括：

特征提取子卷积层以及至少一个时间卷积核；其中，

根据时间卷积核数量的不同，所述3D卷积层用于获取不同尺度的时间线索，当该3D卷积层具有多个卷积核时，所述多个卷积核以并行方式存在。

4.根据权利要求3所述的视频行人再识别方法，其特征在于，所述3D卷积层中，所述时间卷积核的数量的确定方法包括：

当给定时间维度为T的输入特征映射，则时间卷积核的数量为：

其中，n为时间卷积核的数量，T为输入特征映射的维度。

5.根据权利要求1所述的视频行人再识别方法，其特征在于，所述残差注意力层包括：

空间关注掩模学习层，用于获得空间关注掩模；

信道关注掩模学习层，用于获得信道关注掩模；

时间关注掩模学习层，用于获得时间关注掩模；

其中，预先设定输入向量为x∈R^C×T×H×W，所述残差注意力层估算与所述输入向量x具有相同尺寸的关注掩模M＝R^C×T×H×W，R为神经网络，C为所述视频行人图像信道数量，T为时间长度，H为空间高度，W为空间宽度；

将所述掩模M分解成三个低维度的关注掩模用以减少参数的数量，该过程以公式表示为：

M＝Sigmoid(S_m×C_m×T_m)；

其中，Sigmoid()表示利用S型函数，S_m∈R^1×1×H×W为空间关注掩模，C_m∈R^C×1×1×1为信道关注掩模，T_m∈R^1×T×1×1为时间关注掩模；

所述S型函数，用于对所述空间关注掩模、信道关注掩模以及时间关注掩模进行归一化处理；其中，

经过归一化处理的空间关注掩模、信道关注掩模以及时间关注掩模通过乘法操作后获得时间-空间掩模。

6.根据权利要求5所述的视频行人再识别方法，其特征在于，所述时间-空间关注掩模用于包括：

对输入向量x加权，从而获得输出向量y，

其中，

四维输入向量x∈C×T×H×W，时间-空间关注掩模M∈C×T×H×W；C为所述的视频行人图像信道数量，T为时间长度，H为空间高度，W为空间宽度。

7.根据权利要求4所述的视频行人再识别方法，其特征在于，所述空间关注掩模学习层包括：

全局时间池层和两个卷积层；其中，

全局时间池层用于跨不同时间维度聚合信息；所述两个卷积层用于模拟跨信道的差异。

8.根据权利要求4所述的视频行人再识别方法，其特征在于，所述空间关注掩模学习层和时间关注掩模学习层均包括：

一个池化层和两个1×1的卷积层；其中，

所述池化层用于将时间维度特征和空间特征维度聚合成时空线索；

所述两个1×1的卷积层用于所述ResNet50中的SENet结构下的瓶颈计算；其中，

所述SENet结构用于，通过显式的建模信道之间的相互依赖关系，自适应的重新校准信道式的特征响应。

9.根据权利要求1所述的视频行人再识别方法，其特征在于，所述根据融合结果还用于：

对视频中的行人空间特征进行匹配识别。