CN106203318A

CN106203318A - 基于多层次深度特征融合的摄像机网络行人识别方法

Info

Publication number: CN106203318A
Application number: CN201610524455.2A
Authority: CN
Inventors: 王勋; 王慧燕; 严国丽
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Uniview Technologies Co Ltd; Zhejiang Gongshang University
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-12-07
Anticipated expiration: 2036-06-29
Also published as: CN106203318B

Abstract

本发明公开了一种基于多层次深度特征融合的摄像机网络行人识别方法，其通过迁移预训练网络的参数到行人数据库，在行人数据库上学习了一个新的网络模型，利用新的网络模型提取多个不同层次的深度特征，并通过将卷积神经网络最后一层的Softmax分类器替换为SVM分类器，达到了充分利用多层深度特征的目的；进而利用不同层次的深度特征构造多组二分类的SVM分类器，并对这些二分类器的决策值进行线性加权得到最终分类结果。本发明在SVM分类器的决策层进行多层特征融合的方式能够有效提高对行人目标进行识别的准确率。

Description

基于多层次深度特征融合的摄像机网络行人识别方法

技术领域

本发明属于计算机视觉监控技术领域，具体涉及一种基于多层次深度特征融合的摄像机网络行人识别方法。

背景技术

近年来，摄像机网络已经越来越多地应用于机场、地铁站、广场、银行等公共场所的视频监控。在无重叠视域的多摄像机之间匹配行人目标的问题，我们称之为行人识别问题，其目的在于从整个摄像机网络中找到一个或者几个感兴趣的行人目标。

行人识别问题一直是计算机视觉领域的研究热点，利用该技术可以对监控视频中的行人进行自动分析，从而改变了传统人工对大量视频数据进行监察的方式，大大节约了人力成本，提高了视频处理的效率。然而在摄像机网络中，由于不同摄像头的拍摄视角变化、监控环境的光照变化、行人的姿态变化，加上复杂变换的背景和遮挡等问题，导致了相同的人在不同视频中的视觉外观产生较大的差异，这给行人识别带来了巨大的挑战。针对同一个人在不同光照和拍摄环境下的图像外观会出现不一致的问题，已有很多研究人员在行人特征提取方面做了大量的研究工作，致力于找到一种对光照、拍摄角度、人体姿态等具有不变性的特征表示，比如ELF、SDALF、kBiCov、LDFV等。这些手工提取或基于学习的特征描述子在行人识别领域取得了一定的成果，但都属于浅层特征，对行人图片的表征能力有限。

深度特征是利用深度卷积神经网络提取的特征，近年来，深度学习在语音识别、图像识别、自然语言处理等领域都获得了突破性的进展，其采用的模型为深层神经网络模型，即包含多个隐层的神经网络，多层非线性结构使其具备强大的特征表达能力和对复杂任务的建模能力。但是目前还没有有效的方法来充分利用多层次的深度特征用于行人识别任务。一方面，在实际的监控场景中，由于带标签的行人样本量往往较少，不足以对深度网络进行充分训练，因此难以提取行人图片的鲁棒性深度特征；另一方面，由于卷积神经网络的最后一层为Softmax分类器，它的局限在于只能将前一层的输出作为输入的特征进行分类，不能充分利用不同层次的深度特征。

发明内容

基于上述，本发明提供了一种基于多层次深度特征融合的摄像机网络行人识别方法，适用于对多摄像机网络中的行人样本进行分类以实现行人识别，能够有效提高对行人目标进行识别的准确率。

一种基于多层次深度特征融合的摄像机网络行人识别方法，包括如下步骤：

(1)根据AlexNet图像分类模型的八层卷积神经网络结构，在ImageNet数据库上进行训练得到一个预训练网络；

(2)通过对所述的预训练网络进行微调，在行人数据库上学习一个新的网络模型，即目标网络；

(3)根据所述的目标网络提取所有训练样本第l层的深度特征，l＝5、6或7，并用不同层次特征表示的训练样本分别训练k个二分类的SVM(支持向量机)，k为行人数据库的行人类别数，其中第j个SVM用于将第j类与其他所有类别划分开，j为自然数且1≤j≤k；

(4)对于行人数据库中任一测试样本，在SVM的决策层对其不同层次的深度特征进行融合，得到该测试样本对应的决策值向量V，取决策值向量V中最大元素值所对应的类别即为该测试样本的类别标签。

所述预训练网络的网络结构及其训练方法已有文献公开披露，具体参见作者AlexKrizhevsky,Ilya Sutskever and Geoffrey E.Hinton发表的标题为ImageNetClassification with Deep Convolutional Neural Networks的文献(出版源：Advancesin Neural Information Processing Systems,2012,25(2):2012)。

所述步骤(2)的具体实现过程为：首先修改预训练网络的网络结构，即将该预训练网络最后一层的输出单元个数修改为行人数据库的行人类别数，其余保持不变，得到目标网络的网络结构；然后迁移预训练网络第1～7层的网络参数至目标网络的第1～7层，并用行人数据库中的训练数据重新学习目标网络最后一层的参数，最终学习完成后得到所述的目标网络。

所述步骤(3)的具体实现过程为：首先将行人数据库中的训练样本集分为若干个批次，并分批输入至目标网络中，对所有批次提取目标网络第l层的输出，得到整个训练样本集的第l层深度特征；然后将第j类训练样本的第l层深度特征作为正样本，其余训练样本的第l层深度特征作为负样本，训练二分类的SVM，训练得到的SVM记为SVM_lj，并依此遍历k个类别。

所述步骤(4)的具体实现过程为：对于行人数据库中任一测试样本，首先将该测试样本输入至目标网络中，提取目标网络第l层的输出作为该测试样本第l层深度特征；进而将该测试样本第l层深度特征输入至各SVM中，得到对应的决策函数值并组成向量G_l；最后根据下式对各层次进行融合得到决策值向量V：

V = \underset{l = 5, 6, 7}{Σ} α_{l} G_{l}

其中：a_l为第l层深度特征所占的权重(可通过交叉验证的方法获得各层次特征的权重)。

本发明通过迁移预训练网络的参数到行人数据库，在行人数据库上学习了一个新的网络模型，利用新的网络模型提取多个不同层次的深度特征，并通过将卷积神经网络最后一层的Softmax分类器替换为SVM分类器，达到了充分利用多层深度特征的目的；进而利用不同层次的深度特征构造多组二分类的SVM分类器，并对这些二分类器的决策值进行线性加权得到最终分类结果。本发明在SVM分类器的决策层进行多层特征融合的方式能够有效提高对行人目标进行识别的准确率。

附图说明

图1为本发明构建行人数据库深度网络模型的流程示意图。

图2为本发明多层次深度特征提取与融合的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明方法包括行人数据库上的深度网络模型构建和多层次深度特征的提取与融合这样两个部分。我们通过迁移预训练网络参数到行人数据库的方法，帮助行人数据库上目标网络的学习，利用目标网络提取了行人样本的多个层次的深度特征，再利用不同层次的深度特征构造多组二分类的SVM分类器，并对这些二分类器的决策值进行线性加权以得到最终的分类结果。下面结合附图对本发明方法作进一步说明：

图1所示了构建行人数据库深度网络模型的流程，具体方案如下：

(1)步骤100根据AlexNet的八层卷积神经网络结构搭建网络；步骤101在ImageNet数据库上进行预训练得到一个预训练网络模型。预训练网络的网络结构和训练方法具体参见：Krizhevsky A,Sutskever I and Hinton G E.ImageNet classification with deepconvolutional neural networks.Advances in Neural Information ProcessingSystems,2012,25(2):2012。

(2)通过对步骤101的预训练网络进行微调，在行人数据库上学习一个新的网络模型，即目标网络；其步骤如下：

步骤102修改预训练网络的网络结构，即将该网络最后一层Softmax层的输出单元个数修改为行人数据库的行人类别数，作为目标网络的网络结构；

步骤103迁移预训练网络第一至第七层的网络参数到目标网络的第一至第七层；

步骤104用行人数据库中的训练数据重新学习目标网络最后一层的参数，最终得到一个目标网络。

(3)得到目标网络以后，利用目标网络提取行人的深度特征；图2所示了多层次深度特征提取与融合的流程，本发明采用构造多个二分类SVM分类器的方法来实现多分类；假设目标域的类别数为k，则需要训练k个二分类SVM，其中第j个分类器把第j类同其他类别划分开，其步骤如下：

先把行人数据库的n个训练样本记为{(x⁽ⁱ⁾，y⁽ⁱ⁾)|i＝1，2，...，n}，其中y⁽ⁱ⁾∈{1，2，...，k}表示第i个训练样本对应的类别标签。步骤200将这n个训练样本输入到目标网络，将网络第l层的输出提取出来，作为训练样本的第l层的深度特征表示，记为其中l＝5，6，7。

步骤201将第j类的训练样本作为正样本，将其余类别的训练样本作为负样本，训练二分类的SVM，记为SVM_lj，其中l＝5，6，7，j＝1，2，...，k。

(4)在分类器的决策层对不同层次的深度特征进行融合，其步骤如下：

先将行人数据库的m个测试样本{x^(τ)|τ＝1，2，...，m}输入到目标网络，步骤200将网络第l层的输出提取出来，作为测试样本的第l层的深度特征表示，记为其中l＝5，6，7。

假设二分类器SVM_lj对应的决策函数为g_lj其中l＝5，6，7，j＝1，2，...，k。步骤202将用第l层的深度特征表示的测试样本输入到二分类器SVM_lj中，得到对应的决策函数值为

步骤203对于每个测试样本x^(τ)，第l层特征所训练的k个二分类器的决策值组成一个决策值向量，记为：

G_l＝[g_l1 g_l2 … g_lk]^T

其中，k为行人数据库的类别数。

步骤204对不同特征得到的分类器决策值进行线性加权，得到测试样本最终的决策值向量，也即本发明融合特征所对应的决策值向量，如下式所示：

V = \underset{l}{Σ} α_{l} G_{l}

其中，α_l表示第l层特征在融合特征中所占的权重，通过交叉验证的方法可以获得不同层次特征的权重。

步骤205判定测试样本x^(τ)的类别标签C，判定公式如下：

C = \arg \underset{j}{m a x} (\underset{l}{Σ} α_{l} g_{l j} (x_{l}^{(τ)})) = \arg \underset{j}{m a x} (v_{j})

其中，v_j表示向量V的第j个元素。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于多层次深度特征融合的摄像机网络行人识别方法，包括如下步骤：

(3)根据所述的目标网络提取所有训练样本第l层的深度特征，l＝5、6或7，并用不同层次特征表示的训练样本分别训练k个二分类的SVM，k为行人数据库的行人类别数，其中第j个SVM用于将第j类与其他所有类别划分开，j为自然数且1≤j≤k；

2.根据权利要求1所述的摄像机网络行人识别方法，其特征在于：所述步骤(2)的具体实现过程为：首先修改预训练网络的网络结构，即将该预训练网络最后一层的输出单元个数修改为行人数据库的行人类别数，其余保持不变，得到目标网络的网络结构；然后迁移预训练网络第1～7层的网络参数至目标网络的第1～7层，并用行人数据库中的训练数据重新学习目标网络最后一层的参数，最终学习完成后得到所述的目标网络。

3.根据权利要求1所述的摄像机网络行人识别方法，其特征在于：所述步骤(3)的具体实现过程为：首先将行人数据库中的训练样本集分为若干个批次，并分批输入至目标网络中，对所有批次提取目标网络第l层的输出，得到整个训练样本集的第l层深度特征；然后将第j类训练样本的第l层深度特征作为正样本，其余训练样本的第l层深度特征作为负样本，训练二分类的SVM，训练得到的SVM记为SVM_lj，并依此遍历k个类别。

4.根据权利要求1所述的摄像机网络行人识别方法，其特征在于：所述步骤(4)的具体实现过程为：对于行人数据库中任一测试样本，首先将该测试样本输入至目标网络中，提取目标网络第l层的输出作为该测试样本第l层深度特征；进而将该测试样本第l层深度特征输入至各SVM中，得到对应的决策函数值并组成向量G_l；最后根据下式对各层次进行融合得到决策值向量V：

V = \underset{l = 5, 6, 7}{Σ} α_{l} G_{l}

其中：a_l为第l层深度特征所占的权重。

5.根据权利要求4所述的摄像机网络行人识别方法，其特征在于：所述的权重a_l通过交叉验证的方法获得。