CN107220611B

CN107220611B - 一种基于深度神经网络的空时特征提取方法

Info

Publication number: CN107220611B
Application number: CN201710370428.9A
Authority: CN
Inventors: 杨华; 陈琳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2020-02-11
Anticipated expiration: 2037-05-23
Also published as: CN107220611A

Abstract

本发明公开一种基于深度神经网络的行人空时特征提取方法，步骤为：在一个深度网络中利用卷积神经网络(CNN)提取行人的空域特征，利用递归神经网络(RNN)综合提取出的空域特征从而得到行人的时域特征；在网络中设计叠加层融合CNN和RNN提取出的空域和时域特征，得到行人的空时特征表达；分别在行人的全局图片和局部图片进行网络训练得到相应的具有互补性质的全局特征和局部特征，加之进行融合，得到最终的特征表达。本发明具有很好的鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；结合了行人的局部和全局特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

Description

一种基于深度神经网络的空时特征提取方法

技术领域

本发明属于计算机视觉技术领域，具体为一种基于行人视频的空时特征提取方法，尤其是涉及一种适合于行人重识别中提升识别性能的空时特征提取方法。

背景技术

行人重识别是智能视频监控中的一项关键任务,是近年来计算机视觉领域中一直备受关注的研究热点，适用于安防以及公共场所寻人等技术领域。行人重识别可定义为:在无重叠的视频监控网络中,对于摄像头中给定的某个行人，判断其是否出现在其他摄像头中的过程。它是一种自动的目标识别技术，能在监控网络中快速定位到感兴趣的人体目标，是智能视频监控和人体行为分析等应用中的重要步骤。

特征提取作为行人重识别技术中的一项重要任务，是当中首先要解决的问题。从现有的技术文献检索发现，整体来讲有两种主要的研究思路。思路之一是利用传统的计算机是利用传统的计算机视觉的方法，通过复杂的数学推导和模型设计从而实现特定数据集的特征提取(参见I.Kviatkovsky,A.Adam,and E.Rivlin.Color invariants for personreidentification.IEEE Transactions on Pattern Analysis and MachineIntelligence,35(7):1622–1634,2013.1；R.Zhao,W.Ouyang,and X.Wang.Person re-identification by salience matching.In Proceedings of the IEEE InternationalConference on Computer Vision,pages 2528–2535,2013.1)但是，这类方法受光照变化，遮挡等的严重影响，性能并不好。另一方面，复杂的模型设计对不同的数据集并没有很好地适应性，从而严重影响了这类方法的普适性。思路二是利用深度学习的方法，设计网络自适应的学习行人的特征表达。这种方法近年来得到了很大的应用，尤其是用深度卷积网络(CNN)提取行人的空域特征(参见E.Ahmed,M.Jones,and T.K.Marks.An improved deeplearning architecture for person re-identification.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 3908–3916,2015.1,2)取得了比较好的效果。然而，这类方法在行人外貌特征变化很大时，提取出的空域特征并不够可靠，此时性能不够理想。这种方法忽略了更为可靠的行人姿态等时域特征。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于深度神经网络的空时特征提取方法，该方法基于卷积神经网络(CNN)和递归神经网络的特性，采用行人空域特征和时域特征融合的深度空时特征提取网络；此外，基于局部特征和全局特征的互补性，提出了局部-全局特征融合的方法得到更具辨识度更有效的特征表达。

本发明是通过以下技术方案实现的：

本发明首先设计了一个网络，其中利用卷积神经网络(CNN)提取行人的空域特征，利用递归神经网络(RNN)综合提取出的空域特征从而得到行人的时域特征。在网络中设计叠加层融合CNN和RNN提取出的空域和时域特征，得到行人的空时特征表达；其次，本发明分别在行人的全局图片和局部图片进行网络训练得到相应的具有互补性质的全局空时特征和局部空时特征，加之进行融合，得到最终的特征表达。

这样，本发明同时考虑了行人的空域特征和更具代表性的时域特征，并在同一深度网络中加之进行了高效的融合，提取出的特征更具有区分度，更具有鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；同时结合了行人的局部和全局特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

具体地，所述的基于深度神经网络的空时特征提取方法，包括以下步骤：

第一步：设计一个三层卷积神经网络(CNN)，每一层均包含一个卷积层，一个激活层，一个池化层；

第二步：对行人视频中的每一张图片s(t)，均经过第一步中的卷积神经网络，得到特征输出即空域特征f(t)；

第三步：对一个行人序列中的图片输出的空域特征f(t)进行平均，得到平均特征向量x_c；

第四步：利用递归神经网络(RNN)综合卷积神经网络(CNN)提取出的空域特征f(t)，得到相应的时域特征o(t)；

第五步：对一个行人序列中的所有图片进行第四步中的操作，得到相应的时域特征，对输出的时域特征o(t)进行平均，得到平均特征向量x_R；

第六步：将卷积神经网络提取出的平均行人空域特征x_c和递归神经网络提取出的平均时域特征x_R进行融合，得到行人的空时特征表达x_F；

第七步：将行人的空时特征表达x_F送入对比损失函数(Siamese loss)和交叉熵损失(Softmax loss)函数中算出损失，从而对整个网络进行优化迭代，得到最终的特征提取模型；

第八步：将行人图像分为上下两部分，分别经过步骤一到步骤七所构成的网络的训练和特征提取步骤，利用最终训练出的特征提取模型提取出局部空时特征；训练行人的全局图片，利用特征提取模型提取出全局空时特征；将互补性的全局空时特征和局部空时特征融合，得到最终更具区分度的特征表达。

优选地，第一步中，所述三层卷积神经网络中，每一个卷积层卷积核大小均为5x5，激活层为双曲正切(Tanh)激活层，池化层为最大值池化(Max pooling)。

优选地，第三步中，所述对一个行人序列中的图片输出的空域特征f(t)进行平均，是通过时域池化(temporal pooling)层实现，得到维度为128的平均特征向量x_c，具体公式为：

T为一个行人图片序列的长度。

优选地，第六步中，所述将卷积神经网络提取出的平均行人空域特征x_c和递归神经网络提取出的平均时域特征x_R进行融合，其中特征向量采用1:1的线性叠加，具体为：

x_F＝x_C+x_R。

优选地，第七步中，所述用对比损失函数(Siamese loss)和交叉熵损失(Softmaxloss)对网络进行优化迭代，两种loss的权重比为1:1。

优选地，第八步中，所述将互补性的全局空时特征和局部空时特征融合，其中融合权重从训练集中学得最优参数。

与现有技术相比，本发明的有益效果在于：

1)本发明同时考虑并利用了行人的空域和时域特征，用以对行人进行描述，因此能得到更为鲁棒性和代表性的特征表达；

2)本发明将行人的空时特征提取整合在同一个深度网络中，降低了复杂度，同时保证了特征的一致性；

3)本发明提出了局部-全局特征融合方法，分别在行人的分部图片和全局图片中训练并提取特征，并进行局部-全局特征融合，从而得到更具有区分度的特征表达，进一步提升下一步的行人识别率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中网络结构的具体参数和组成方式示意图；

图2为本发明一实施例中整个方法的流程示意图；

图3为本发明一实施例中局部-全局特征融合示意图；

图4为本发明一实施例中提取出的特征做行人重识别的最终结果示意图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施采用的图像帧来自数据库PRID-2011和i-LIDS-VID中的群体监控视频(video for traffic surveillance)。该视频序列是由(Martin Hirzer,Csaba Beleznai,Peter M.Roth,and Horst Bischof.2011.Person Re-identification by Descriptiveand Discriminative Classification.Springer Berlin Heidelberg.91–102pages.)和(Wei Shi Zheng,Shaogang Gong,and Tao Xiang.2009.Associating Groups ofPeople.Active Range Imaging Dataset for Indoor Surveillance(2009))提供的，以进行行人重识别性能评估。

本实施例涉及的基于深度神经网络的空时特征提取方法，包括如下步骤：

第一步：构造卷积神经网络，实现对行人视频中空域特征提取。

本步骤中具体操作为：

1.设计一个三层的卷积神经网络，每一层均包含一个卷积层，一个激活层，一个池化层。本实施例中每一个卷积层卷积核大小均为5x5，激活层为双曲正切(Tanh)激活层，池化层为最大值池化(Max pooling)。

2.对行人视频中的每一张图片s(t)，均经过1中的卷积神经网络，得到特征输出f(t)：

f(t)＝C(s(t))，

其中C代表经过卷积神经网络的操作。本实施例中，特征向量维度为128。

3.设计时域池化(temporal pooling)层，对一个行人序列中的图片输出的特征进行平均，得到平均特征向量x_c：

其中T为一个行人序列的长度。本实施例中T为16。

图1是步骤中所述网络结构的具体参数和组成方式示意图，其中卷积神经网络中卷积核个数分别为(16，32，32)，卷积核大小均为5x5，步长均为1。行人序列是以成对的方式输入，经过同样的卷积池化等操作后提取出空域特征送入递归神经网络中进行下一步综合得到时域特征。

第二步：基于递归神经网络(RNN)，提取行人的时域特征。

本步骤中具体操作为：

1.利用递归神经网络(RNN)综合卷积神经网络(CNN)提取出的空域特征f(t)，得到相应的时域特征o(t)，即：

o(t)＝R(f(t))，

其中R代表经过递归神经网络的操作。

2.对一个行人序列中的所有图片进行1中的操作，得到相应的时域特征，对输出的特征连接时域池化(temporal pooling)层进行平均，得到平均特征向量x_R：

第三步：进行行人空时特征融合。

本步骤中具体操作为：

设计一个线性叠加层，将CNN提取出的平均行人空域特征x_c和RNN提取出的平均时域特征x_R进行融合，得到行人的空时特征表达x_F：

x_F＝x_C+x_R

在本实施例中，特征向量采用1:1的线性叠加。

第四步：将行人的空时特征表达x_F送入对比损失函数(Siamese loss)和交叉熵损失(Softmax loss)函数中算出损失从而对整个网络进行优化迭代。

在本实施例中，两种损失的计算权重为1:1。

图2是整个网络结构运行的流程示意图。详细阐释了第一到第四步网络设计的具体过程和数据流向。本发明中的深度行人空时特征提取集成在同一个深度神经网络架构中，易于重现且具有很好地适用性和推广性。

第五步：将行人图像分为上下两部分，分别经过步骤一到步骤四所构成的网络的训练和特征提取步骤，利用最终训练出的特征提取模型提取出局部空时特征；训练行人的全局图片，利用特征提取模型提取出全局空时特征；将互补性的全局空时特征和局部空时特征融合，得到最终更具区分度的特征表达。

在本实施例中，全局特征和局部特征的融合权重从训练集中学得最优参数，根据不同的训练集自适应调整。

图3是局部-全局特征融合示意图。其中CRF代表步骤一到四中设计的行人空时特征提取网络。局部-全局特征融合示意图中具体阐明了分部的操作，其中的权重w由训练集学得并应用在测试集上。

综上所述，本发明方法步骤同时考虑了行人的空域特征和更具代表性的时域特征，并在同一深度网络中加之进行了高效的融合，提取出的特征更具有区分度，更具有鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；结合了行人的局部和全局特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

如图4所示，是基于本发明提取出的特征做行人重识别的最终结果示意图，以行人重识别中普遍应用的累积匹配特性(CMC)曲线作为表征。五条曲线从上至下依次代表的是本发明方法和其他方法在不同条件下的性能，作为参照系用以进行方法的比较；

第一条带圆圈的曲线代表本发明的方法得到的准确率结果；

第二条带五角星的曲线代表本发明参考的方法(参见：N.McLaughlin,J.Martinezdel Rincon,and P.Miller.Recurrent convolutional network for video-basedperson re-identification.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2016.2,3,5,7)，在同样的网络结构下只用RNN提取出的特征所得到的结果；

其他的曲线代表了运用不同网络提取出相对应的特征所得到的性能(参见：S.Karanam,Y.Li,and R.J.Radke.Sparse re-id:Block sparsity for person re-identification.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops,pages 33–40,2015.5,7；参见：T.Wang,S.Gong,X.Zhu,and S.Wang.Person re-identification by video ranking.In European Conferenceon Computer Vision,pages 688–703.Springer,2014.2,5,7)。

从图4中可以看出，本发明的方法较之前的方法能够更好地提取出更具有区分度的特征，并且在不同的数据集上都能得到很好地效果，识别的精度有了明显的提高。

以下表1，是基于本发明得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本发明实施结果的数值比较。可以看到本发明精度在不同数据集上都有很好的效果提升。

表1

以下表2，是本发明的方法的中间结果性能比较，用以说明本发明的有效性。其中五行结果自上至下分别代表本发明的各个步骤所得到的特征用于识别的性能，分别为只选用CNN提取的特征，只选用RNN提取的特征，局部结果中的只选用上半部分行人图片所提取出的空时特征，只选用下半部分行人图片提取出的空时特征，以及最终的局部-全局空时特征融合结果比较。

表2

从表2中可以看出，本发明的方法提出的空时特征融合以及局部-全局特征融合的方法的确能带来性能上的提升，能够更好的挖掘行人的本质特征，给出更好的特征提取方案。

综上，本发明具有很好的鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；结合了行人的局部和全局特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于深度神经网络的空时特征提取方法，其特征在于包括以下步骤：

第六步：将卷积神经网络提取出的平均行人空域特征x_c和递归神经网络提取出的平均时域特征x_R进行融合，得到行人的空时特征表达x_F；其中特征向量采用1:1的线性叠加，具体为：

x_F＝x_C+x_R；

第七步：将行人的空时特征表达x_F送入对比损失函数和交叉熵损失函数中算出损失，从而对整个网络进行优化迭代，得到最终的特征提取模型；

2.根据权利要求1所述的基于深度神经网络的空时特征提取方法，其特征在于：第一步中，所述三层卷积神经网络中，每一个卷积层卷积核大小均为5x5，激活层为双曲正切激活层，池化层为最大值池化。

3.根据权利要求1所述的基于深度神经网络的空时特征提取方法，其特征在于：第三步中，所述对一个行人序列中的图片输出的空域特征f(t)进行平均，是通过时域池化层实现，得到维度为128的平均特征向量x_c，具体公式为：

T为一个行人图片序列的长度。

4.根据权利要求1-3任一项所述的基于深度神经网络的空时特征提取方法，其特征在于：第七步中，所述用对比损失函数和交叉熵损失对网络进行优化迭代，两种损失的权重比为1:1。

5.根据权利要求1-3任一项所述的基于深度神经网络的空时特征提取方法，其特征在于：第八步中，所述将互补性的全局空时特征和局部空时特征融合，其中融合权重从训练集中学得最优参数。