CN106778921A

CN106778921A - 基于深度学习编码模型的人员再识别方法

Info

Publication number: CN106778921A
Application number: CN201710080498.0A
Authority: CN
Inventors: 赵永威; 谭佩耀; 胡畏; 李博
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2017-05-31

Abstract

本发明涉及一种基于深度学习编码模型的人员再识别方法，包括以下步骤：首先，利用非监督RBM网络采用自底向上的方式对初始SIFT特征进行编码得到视觉词典；其次，采用自顶向下的方式为整个网络参数进行有监督微调；然后，就是利用误差反向传播对初始视觉词典进行有监督微调，获取视频图像新的图像表达方式，也就是图像深度学习表示向量；最后，利用图像深度学习表示向量训练线性SVM分类器用以对行人进行分类识别。本发明有效地解决了传统特征提取技术因监控视频质量较差，视角和光照差异引起效果不好、鲁棒性不强的问题及传统分类器的高运算复杂度，有效地提高了人员目标检测的准确度和特征表达的性能并能高效地识别出监控视频中的行人。

Description

基于深度学习编码模型的人员再识别方法

技术领域

本发明涉及一种基于深度学习编码模型的人员再识别方法。

背景技术

近年来，随着视频监控系统大量建设与应用，使其在打击犯罪、维护稳定实践中发挥着越来越重要的作用。当前大多数监控系统采用实时拍摄和人工监视的形式，这要求监控人员时刻注意监控画面，仔细分辨视频中的事件，而这显然是不现实的，何况人工查看的方式存在大量的疏漏和主观误差。考虑到日益增长的监控视频规模，这种方式所需的人力成本也将难以承受，而且效率低下。因此，急需方便快捷的方法来替代现有的人工主导的监控体系。强烈的现实需求和计算机相关技术的进步，催生了人员再识别技术(Person Re-identification)，该技术也成为了当前视频智能监控领域中一个极具有挑战性的问题，其主要任务是完成跨摄像头的行人搜索与识别。人员再识别技术主要是通过视觉比对的方式将视场不重叠的多个摄像机所拍摄到的属于同一个行人的图像或者视频片段关联起来的技术。

在整个人员再识别系统中，特征提取和分类器设计是两个基本也是关键的步骤，目前一些学者对行人识别和分类的研究主要集中在这两个方面，且取得了很大的成果。有人引入了利用HOG进行行人检测。有文献把纹理边缘描述子(Texture-Edge Descriptor,TED)特征应用于视频序列中的行人检测，此特征包括纹理和垂直方向的边缘信息，适用于室内外的不同环境。另外，行人识别中常用的特征还有PCA特征、Harr特征、SIFT特征和积分通道特征等。在机器学习中常用泛化能力较好的分类器进行行人分类识别和检测，如支持向量机(Support Vector Machine,SVM)分类器、多核SVM(MultiKernel SVM,MKSVM)分类器、AdaBoost分类器等。基于无监督的深度学习(Deep Learning)是关于自动学习要建模的数据的潜在分布的多层表达算法，故能自动提取分类需要的低层次或者高层次特征。因此，它用数据学习特征，避免了大量的手工设计数据，在使用中非常方便而且效果也更好。深度学习结合了监督学习和无监督学习的优点，因此既强调了网络结构的深度又突出了特征表达的能力。此外，词袋方法(Bag of Words,BoW)是基于视觉信息的识别方法中利用目标的外观表象信息的一种常用的目标建模方法。它的核心思想是利用一组视觉单词表示目标图像。近年来，词袋模型在许多目标和场景的图像数据集上取得了良好的分类识别性能。

发明内容

本发明的目的在于提出一种基于深度学习编码模型的人员再识别方法，有效地解决了传统特征提取技术因监控视频质量较差，视角和光照差异引起效果不好、鲁棒性不强的问题及传统分类器的高运算复杂度，有效地提高了人员目标检测的准确度和特征表达的性能并能高效地识别出监控视频中的行人。

本发明的目的是通过以下技术方案实现的：

一种基于深度学习编码模型的人员再识别方法，包括以下步骤：

首先，利用非监督RBM网络采用自底向上的方式对初始SIFT特征进行编码得到视觉词典；

其次，采用自顶向下的方式为整个网络参数进行有监督微调；

然后，就是利用误差反向传播对初始视觉词典进行有监督微调，获取视频图像新的图像表达方式，也就是图像深度学习表示向量；

最后，利用图像深度学习表示向量训练线性SVM分类器用以对行人进行分类识别。

进一步地，所述的基于深度学习编码模型的人员再识别方法，首先，提取训练图像库的SIFT特征；其次，结合SIFT特征的空间信息，将邻近的SIFT特征作为RBM的输入，通过CD快速算法训练RBM，得到隐藏层特征；然后邻近的隐藏层特征作为下一层RBM的输入，得到输出词典；ω¹和ω²作为RBM的连接权重，RBM具有一个显见层，一个隐层，但是在RBM中，同层的神经元之间是无连接的，这样学习使得过程更简单。

在网络的训练过程中，RBM的隐层与显层之间是通过条件概率分布相关联的，显层和隐层的条件概率为：

其中，x_i，z_j分别代表特征层和编码层，也就是RBM中的显层与隐层。ω_ij为特征层x_i与编码层之间的连接权重系数，给定权重系数矩阵ω和隐层偏置向量b，输入层特征x就可以编码为视觉词典z，相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码层(x,z)，其能量函数可计算如下：

基于能量函数，可得到(x,z)的联合概率分布函数：

进而得到联合分布的边缘分布——特征输入节点的概率分布，即：

而RBM网络训练的目的就是使p(x)的值最大化，为此，对式(5)求其梯度得，

其中，<x_iz_j>_dist表示在分布dist下的期望，<x_iz_j>_data是指训练数据集经验概率分布下的期望值，而<x_iz_j>_model指该模型下概率分布的期望值，通常可由蒙特卡罗马尔可夫链(Monte-Carlo Markov chain，MCMC)方法来得到模型样例：

通过CD算法对RBM进行快速学习，加快参数的收敛，可得到权值w_ij的更新量为：

Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model) (8)

其中ε为学习速率，通过CD算法，就可以得到不断更新的参数，一直到参数收敛，得到初始的视觉词典。

进一步地，所述的基于深度学习编码模型的人员再识别方法，为了更加准确地表达图像内容，在RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

其中，λ为正则项的加权系数。深度学习编码能够使得学习得到的视觉词典具较强的选择性，并使得图像表达向量具有较好的稀疏性。

稀疏性的核心思想是使用少量的基向量来有效而简洁地表示图像内容。具体的就是稀疏向量中大部分分量为零，只有少数分量为非零，而少数非零系数则揭示了图像数据的内在结构和本质属性。它是对编码向量对输入特征响应的一种度量准则。选择性就是度量一个单一视觉单词对输入特征向量的响应。视觉词典兼具稀疏性和选择性，可以认为词典中的单词具有多样性，且单词之间不具有相关性。若觉词典只具有选择性，如此会导致某些输入特征向量被忽视或者过表达的现象。若视觉词典只具有稀疏性，它会导致视觉词典中的单词相关性较强，加大冗余。

利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性，即：

其中，是每个单词针对K个特征平均激活概率的期望值，单词z_j对特征x_k响应概率的期望值可标记为p_jk∈(0,1)，那么，整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素p_j·代表了单词z_j,1≤j≤J对K个输入特征向量响应的期望值，列向量p_·k则代表了输入特征x_k在整个视觉词典上的分布。因此，为了对整个RBM网络进行有监督地微调，定义交叉熵损失函数h(z)如下：

学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关，对视觉词典而言，矩阵P中元素为：

其中，参数μ∈(0,1)，这样就可以获得兼具稀疏性和选择性的视觉词典，进而既能保证各视觉单词的多样性又能兼顾图像局部特征表达之间的差异性，更加准确地表达图像内容。

进一步地，所述的基于深度学习编码模型的人员再识别方法，由于深度学习编码需要对多层网络进行训练学习，而无监督RBM网络在训练时存在一个问题就是，若对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递，从而导致严重的欠拟合问题。为此，在利用深度学习对SIFT特征编码时，首先采用自底向上的非监督RBM分层训练各层参数每层网络生成视觉词典，训练时逐层学习每一层参数，降低时间复杂度。此外，由于非监督RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据本身的结构，从而得到比输入更有表示能力的特征；然后根据训练数据的标签类别，误差自顶向下传播，对网络各层参数进行微调如下：

其中，φ^(l)是一个超参数函数，γ，η，ε代表学习速率，且有γ＝ε-η。那么对于第一层网络而言z⁽⁰⁾即为图像SIFT特征输入向量x，且也即是深度学习表示向量。那么最顶层网络的参数就可更新如下：

其中，y_c是指顶层输出向量被判别为图像类别C，在上述微调的过程中，采用最大交叉信息熵损失代表基于特征的分类误差，然后该误差反向传播至每层网络中。

综上，整个基于深度学习编码模型的人员再识别方法可以分为三个阶段，第一阶段就是利用非监督RBM网络采用自底向上的方式对初始SIFT特征进行编码得到视觉词典，然后就是利用自顶向下的方式为整个网络参数进行有监督微调；第三阶段就是利用误差反向传播对初始视觉词典进行有监督微调，获得新的图像表达方式，也即是图像深度学习表示向量训练线性SVM分类器用以对行人进行分类识别。

本发明的有益积极效果：

1、本发明基于深度学习编码模型的人员再识别方法，与传统的稀疏编码方法相比，是一种深层的编码学习，不需要对每一个局部特征进行编码操作，当特征数量和词典规模较大的时候，会提高编码效率，节约大量的时间。其次，由深度学习编码学习得到的稀疏向量兼具稀疏性和选择性，能够大大提高特征对图像内容的分辨力，进而提高人员再识别的准确度。

实验结果表明，与传统方法相比，新方法较好地提高了视觉词典的稀疏性和选择性，提取的特征能够更加准确的表达图像本质属性，从而很好地提升人员再识别准确度。

2、本发明基于深度学习编码模型的人员再识别方法，在数据规模增大的情况下，依然可以保持较高的时间效率，具有更强的实用性。

附图说明

图1为基于卷积神经网络的行人检测结果；

图2为基于深度学习编码模型的人员再识别流程图；

图3为无监督RBM特征编码示意图；

图4为视觉词典稀疏性和选择性示意图，其中，(a)表示的视觉词典兼具稀疏性和选择性，(b)表示的视觉词典只具有选择性，(c)表示的视觉词典只具有稀疏性，

图5为不同视觉词典对人员再识别准确率的影响；

图6为有监督微调对人员再识别准确率的影响。

具体实施方式

实施例一：本实施例基于深度学习编码模型的人员再识别方法针对矢量量化编码的量化误差严重，而稀疏编码只是一种浅层学习模型，容易导致视觉词典对图像特征缺乏选择性的问题。首先，采用深度学习网络—无监督的受限玻尔兹曼机(RBM)代替传统的K-Means聚类及稀疏编码等方法对SIFT特征库进行编码学习，生成视觉词典；其次，根据学习得到的词典，得到每一个SIFT特征对应的稀疏向量，并对其进行融合得到图像的深度学习表示向量，并以此训练SVM分类器；然后，利用训练数据的类别标签信息对RBM网络学习进行有监督的微调，并利用SVM分类器完成行人分类识别。

与传统的稀疏编码方法及其改进算法相比，有效地降低了时间开销，并且能在一定程度上提高视觉词典的稀疏性和选择性，增强了人员再识别的准确度及效率。

实施例二：参见图2、图3，本实施例的基于深度学习编码模型的人员再识别方法，采用下述步骤，生成兼具稀疏性和选择性的视觉词典：

首先，提取训练图像库的SIFT特征；提取SIFT特征；其次，结合SIFT特征的空间信息，将邻近的SIFT特征作为RBM的输入，通过CD快速算法训练RBM，得到隐藏层特征；然后邻近的隐藏层特征作为下一层RBM的输入，得到输出词典。其中，ω¹和ω²是RBM的连接权重，RBM具有一个显见层，一个隐层，但是在RBM中，同层的神经元之间是无连接的，这样学习使得过程更简单。

在网络的训练过程中，RBM的隐层与显层间之间是通过条件概率分布相关联的，显层层和隐层的条件概率为：

其中，x_i，z_j分别代表特征层和编码层，也即是RBM中的显层与隐层。ω_ij为特征层x_i与编码层之间的连接权重系数，给定权重系数矩阵ω和隐层偏置向量b，输入层特征x就可以编码为视觉词典z，相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码层(x,z)，其能量函数可计算如下：

基于能量函数，可得到(x,z)的联合概率分布函数：

而RBM网络训练的目的就是使p(x)的值最大化，为此，对式(5)求其梯度得：

通过CD算法对RBM进行快速学习，加快参数的收敛，可得到权值w_ij的更新量为

Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model) (8)

实施例三：参见图4，本实施例为了更加准确地表达图像内容，在RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

由于深度学习编码需要对多层网络进行训练学习，而无监督RBM网络在训练时存在一个问题就是，若对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递，从而导致严重的欠拟合问题。为此，在利用深度学习对SIFT特征编码时，首先采用自底向上的非监督RBM分层训练各层参数每层网络生成视觉词典，训练时逐层学习每一层参数，降低时间复杂度。此外，由于非监督RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据本身的结构，从而得到比输入更有表示能力的特征；然后根据训练数据的标签类别，误差自顶向下传播，对网络各层参数进行微调如下：

其中，y_c是指顶层输出向量被判别为图像类别C，在上述微调的过程中，采用最大交叉信息熵损失代表基于特征的分类误差，然后该误差反向传播至每层网络中，然后得到最终的图像深度学习表示向量，并利用其进行训练SVM分类器，实现人员分类识别。

实验结果与分析

这里分别在常用的：INRIA图像集、TUD图像集对本实例性能进行评估。：INRIA数据库是目前使用多的静态行人检测数据库且图片中人体大部分为站立姿势，它的训练集有正样本614张，负样本1218张；测试集有正样本288张，负样本453张。TUD行人数据库采集于车载摄像机，它的训练集正样本为1092对图像(包含1776个行人)，负样本为192对非行人图像。在有监督微调阶段从每个图像类别中随机选取100幅图像用以有监督地微调整个RBM网络，并用同样的数据训练线性SVM分类器，每个类别中的剩余图像用作测试图像集。人员识别性能评价指标为平均准确率(Average Precision,AP)以及时间开销。相关定义如下：

参数的影响

首先，在INRIA图像集上进行分类识别实验，分析不同视觉词典规模对的影响，结果如图5所示。从图5中不难看出，在一定范围内，随着视觉词典规模的增加人员再识别的准确率有着明显的提升，然而，当视觉词典规模达到一定数量时，识别准确率会增长缓慢甚至会有所降低，这是因为当词典规模较小时，视觉词典中的单词不足以表达全部的图像内容，而当视觉词典规模过大时会导致词典中有一定的冗余信息，降低视觉词典的语义分辨能力。因此，针对不同的数据只有选择合适的词典规模才能达到较好的识别效果，后续实验中选取词典规模为1024。

其次，为了验证有监督微调对识别的效果，在同样的数据和词典规模下分别采用有监督的微调和不进行微调进行10次识别实验，得识别结果如图6所示。从图6可以看出，利用RBM对SIFT特征进行编码时，在有监督微调之后可以明显的改善人员识别性能。这是因为，有监督微调可以利用误差反向传播的方式更好地调整网络各层参数。

实验性能分析

首先，分别在INRIA数据集和TUD数据集上进行识别实验，将本方法与其他几种经典的人员识别方法包括基于传统视觉词袋模型的方法以及基于稀疏编码模型的方法进行比较，以验证本方法性能，识别表AP值如表1所示。

表1不同方法在INRIA数据集与TUD数据集上的识别结果

从表1可以看出，ScSPM方法和LLC方法由于得到了图像语义的稀疏表达，其识别性能要优于传统的基于硬分配的视觉词袋模型方法(HA)和基于软分配的视觉词袋模型方法(SA)。本方法由于利用RBM对SIFT特征进行深度编码，并利用训练数据的类别信息对整个编码网络进行有监督微调，使得视觉词典具有很好的选择性且图像表示向量具有稀疏性，因此，其分识别性能要优于ScSPM方法以及LLC方法。

然后，我们在数据集INRIA数据集上进行实验，将本方法与其他方法之间的人员再识别时间效率进行分析对比，得平均训练时间和平均测试时间如表2所示。从表2可以看出，由于ScSPM方法、LLC方法以及本方法采用线性SVM分类器进行分类识别，因此，它们的训练时间要远低于SA方法。由于LLC方法叫较之于ScSPM方法作了一些优化工作，所以其训练和测试时间要高于ScSPM方法。综合，表1和表2可以看出，本方法可以取得较好识别性能的情况下，消耗最少的识别时间，尤其适用于大规模数据下的人员再识别。

表2不同方法在数据集15-Scenes上的时间效率对比

Claims

1.一种基于深度学习编码模型的人员再识别方法，其特征在于，包括以下步骤：

首先，利用非监督RBM网络采用自底向上的方式对提取的初始SIFT特征进行编码得到视觉词典；

2.根据权利要求1所述的基于深度学习编码模型的人员再识别方法，其特征在于，具体包括以下步骤：

首先，提取训练图像库的SIFT特征；

其次，结合SIFT特征的空间信息，将邻近的SIFT特征作为RBM的输入，通过CD快速算法训练RBM，得到隐藏层特征；

然后，邻近的隐藏层特征作为下一层RBM的输入，得到输出词典；

ω¹和ω²作为RBM的连接权重，RBM具有一个显见层，一个隐层，但是在RBM中，同层的神经元之间是无连接的，这样学习使得过程更简单。

3.根据权利要求2所述的基于深度学习编码模型的人员再识别方法，其特征在于：在网络的训练过程中，RBM的隐层与显层之间是通过条件概率分布相关联的，显层和隐层的条件概率为：

p (z_{j} | x) = s i g m o i d (b_{j} + Σ_{i = 1}^{I} ω_{i j} x_{i}) - - - (1)

p (x_{i} | z) = s i g m o i d (c_{i} + Σ_{i = 1}^{I} ω_{i j} z_{j}) - - - (2)

其中，x_i，z_j分别代表特征层和编码层，也就是RBM中的显层与隐层；ω_ij为特征层x_i与编码层之间的连接权重系数，给定权重系数矩阵ω和隐层偏置向量b，输入层特征x就可以编码为视觉词典z，相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码层(x,z)，其能量函数可计算如下：

E (x, z) = - \log p (x, z) = - Σ_{i = 1}^{I} Σ_{j = 1}^{J} x_{i} ω_{i j} z_{j} - Σ_{i = 1}^{I} c_{i} x_{i} - Σ_{j = 1}^{J} b_{j} z_{j} - - - (3)

基于能量函数，可得到(x,z)的联合概率分布函数：

p (x, z) = \frac{e^{- E (x, z)}}{Σ_{x, z} e^{- E (x, z)}} - - - (4)

p (x) = \frac{Σ_{z} e^{- E (x, z)}}{Σ_{x, z} e^{- E (x, z)}} - - - (5)

\frac{\partial \log p (x)}{\partial ω_{i j}} = < x_{i} z_{j} >_{d a t a} - < x_{i} z_{j} >_{\mod e l} - - - (6)

其中，<x_iz_j>_dist表示在分布dist下的期望，<x_iz_j>_data是指训练数据集经验概率分布下的期望值，而<x_iz_j>_model指该模型下概率分布的期望值，通常可由蒙特卡罗马尔可夫链方法来得到模型样例：

x_{i} = f_{d e c} (z, ω_{i}) = σ Σ_{j = 0}^{J} ω_{i j} z_{j} - - - (7)

Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model) (8)

4.根据权利要求3所述的基于深度学习编码模型的人员再识别方法，其特征在于：在RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

\underset{ω, c, b}{argmin} - Σ_{k = 1}^{K} \lg (\underset{z}{Σ} p (x_{k}, z_{j})) + λ h (z) - - - (9)

其中，λ为正则项的加权系数；深度学习编码能够使得学习得到的视觉词典具较强的选择性，并使得图像表达向量具有较好的稀疏性。

5.根据权利要求4所述的基于深度学习编码模型的人员再识别方法，其特征在于：利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性，即：

h (z) = Σ_{j = 1}^{J} | | \hat{p} - \frac{1}{K} Σ_{k = 1}^{K} p_{j k} | |^{2} - - - (10)

其中，是每个单词针对K个特征平均激活概率的期望值，单词z_j对特征x_k响应概率的期望值可标记为p_jk∈(0,1)，那么，整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素p_j·代表了单词z_j,1≤j≤J对K个输入特征向量响应的期望值，列向量p_·k则代表了输入特征x_k在整个视觉词典上的分布。

6.根据权利要求5所述的基于深度学习编码模型的人员再识别方法，其特征在于：为了对整个RBM网络进行有监督地微调，定义交叉熵损失函数h(z)如下：

h (z) = - Σ_{j = 1}^{J} Σ_{k = 1}^{K} p_{j k} \lg p_{j k} + (1 - p_{j k}) l o g (1 - p_{j k}) - - - (11)

p_{n} = {(r a n k (z_{n}, z))}^{\frac{1}{μ} - 1} - - - (12)

7.根据权利要求6所述的基于深度学习编码模型的人员再识别方法，其特征在于：由于非监督RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据本身的结构，从而得到比输入更有表示能力的特征；然后根据训练数据的标签类别，误差自顶向下传播，对网络各层参数进行微调如下：

{\tilde{z}}_{j, t \arg e t}^{(l)} = f_{d e c} (φ^{(l + 1)} {\tilde{z}}_{j, t \arg e t}^{(l)} + (1 - φ^{(l + 1)}) z_{d a t a}^{(l + 1)}, ω_{j}^{(l + 1)}) - - - (13)

{Δw}_{i j}^{(l)} = γ < z_{i}^{(l - 1)} z_{j}^{(l)} >_{d a t a} + η < z_{i, d a t a}^{(l - 1)} {\tilde{z}}_{j, t \arg e t}^{(l)} > - ϵ < z_{i}^{(l - 1)} z_{j}^{(l)} >_{r e c o n} - - - (14)

其中，φ^(l)是一个超参数函数，γ，η，ε代表学习速率，且有γ＝ε-η；那么对于第一层网络而言z⁽⁰⁾即为图像SIFT特征输入向量x，且也即是深度学习表示向量；那么最顶层网络的参数就可更新如下：

{Δω}_{i c}^{(3)} = ϵ (< z_{i}^{(2)} y_{c} >_{d a t a} - < z_{i}^{(2)} y_{c} >_{r e c o n}) - - - (15)

其中，y_c是指顶层输出向量被判别为图像类别C，在上述微调的过程中，采用最大交叉信息熵损失代表基于特征的分类误差，将该误差反向传播至每层网络中，并得到最终的深度学习表示向量，并用以训练SVM分类器，实现人员再分类识别。