CN108345860A

CN108345860A - 基于深度学习和距离度量学习的人员再识别方法

Info

Publication number: CN108345860A
Application number: CN201810157658.1A
Authority: CN
Inventors: 李弼程; 赵永威; 朱彩英; 陈良浩
Original assignee: Jiangsu Test Joint Space Big Data Application Research Center Ltd Co
Current assignee: Jiangsu Test Joint Space Big Data Application Research Center Ltd Co
Priority date: 2018-02-24
Filing date: 2018-02-24
Publication date: 2018-07-31

Abstract

本发明涉及识别方法领域，尤其是基于深度学习和距离度量学习的人员再识别方法。该识别方法包括：(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理，检测出视频中的行人目标；(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典；(3)利用误差反向传播对初始视觉词典进行有监督微调，获取视频图像新的图像表达方式，也即是图像深度学习表示向量；(4)采用特征分组与特征值最优化的距离度量学习方法，获取更加接近真实语义的度量空间，并采用线性SVM分类器对行人目标进行识别。本发明能够更加准确的表达图像本质属性，从而很好地提升行人再识别准确度。

Description

基于深度学习和距离度量学习的人员再识别方法

技术领域

本发明涉及识别方法领域，尤其是基于深度学习和距离度量学习的人员再识别方法。

背景技术

近年来，随着视频监控系统大量建设与应用，使其在打击犯罪、维护稳定实践中发挥着越来越重要的作用。当前大多数监控系统采用实时拍摄和人工监视的形式，这要求监控人员时刻注意监控画面，仔细分辨视频中的事件，而这显然是不现实的，何况人工查看的方式存在大量的疏漏和主观误差。考虑到日益增长的监控视频规模，这种方式所需的人力成本也将难以承受，而且效率低下。因此，急需方便快捷的方法来替代现有的人工主导的监控体系。强烈的现实需求和计算机相关技术的进步，催生了行人再识别技术(Person Re-identification)，该技术也成为了当前视频智能监控领域中一个极具有挑战性的问题，其主要任务是完成跨摄像头的行人搜索与识别。行人再识别技术主要是通过视觉比对的方式将视场不重叠的多个摄像机所拍摄到的属于同一个行人的图像或者视频片段关联起来的技术。

特征提取是人员再识别技术的核心步骤，特征的好坏直接影响着识别结果的准确与否，因此，需要我们研究如何提取能够准确表达人体结构性信息的特征。深度学习的兴起和发展为图像特征表达提供了新的技术手段，但存在着解释性差、模型复杂度高、计算强度高等问题。而视觉词袋模型则能够有效地进行中层语义建模，将图像底层特征映射至视觉单词上，建立了跨越“语义鸿沟” 的桥梁，那么如何将深度学习网络强大的自学习能力用于生成兼具稀疏性和选择性的视觉词典，同时对深度学习网络进行优化是本发明解决的一个关键问题。

在完成行人图像特征提取之后，需要使用训练好的分类器或者距离度量完成跨摄像机的图片相似度匹配，对查询图像进行身份判定。然而，现有的相似性度量模型的泛化能力不强，另一个问题就是研究一种区分性更好的度量空间，使特征空间和语义空间相一致，进一步提升行人再识别的性能。

发明内容

本发明要解决的技术问题是：为了解决现有的现有的相似性度量模型的泛化能力不强，且行人再识别性能差的不足，本发明提供了一种基于深度学习和距离度量学习的人员再识别方法，通过深度学习和距离度量学习，较好地提高了视觉词典的稀疏性和选择性，提取的特征能够更加准确的表达图像本质属性，从而很好地提升行人再识别准确度。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习和距离度量学习的人员再识别方法，包括以下步骤：

(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理，检测出视频中的行人目标；

(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典；

(3)利用误差反向传播对初始视觉词典进行有监督微调，获取视频图像新的图像表达方式，也即是图像深度学习表示向量；

(4)采用特征分组与特征值最优化的距离度量学习方法，获取更加接近真实语义的度量空间，并采用线性SVM分类器对行人目标进行识别。

具体地，所述采用基于卷积神经网络的行人目标检测方法，分为模型训练阶段和目标检测阶段：

(1)在模型训练阶段中，首先通过选择不同角度及外表颜色的样本措施增大样本的多样性，然后将这些样本重新调整至统一的分辨率，再增强样本的对比度，最后通过尝试不同的CNN模型参数训练模型，获得检测性能较好的参数组合；

(2)在运动目标检测阶段，首先直接对整幅图像做卷积计算来提取图像特征，然后采用并行计算方法将图像分割为同样大小的小块图像，然后使用训练好的CNN模型同时对这些小块图像进行计算，使用背景建模算法提取每一帧图像中可能存在运动目标的区域，使用非最大值抑制算法将不同尺度下的检测结果进行优化，获得目标的准确位置。

具体地，在网络的训练过程中，所述RBM的隐层与显层间之间是通过条件概率分布相关联的，显层层和隐层的条件概率为：

公式一：

公式二：

x_i，z_j分别代表特征层和编码层，也即是RBM中的显层与隐层；ω_ij为特征层x_i与编码层之间的连接权重系数，给定权重系数矩阵ω和隐层偏置向量b，输入层特征x就可以编码为视觉词典z，相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x；对于RBM中一组给定的输入层和编码层(x,z)，其能量函数可计算如下：

公式三：

基于能量函数，可得到(x,z)的联合概率分布函数：

公式四：

进而得到联合分布的边缘分布——特征输入节点的概率分布，即：

公式五：

而RBM网络训练的目的就是使p(x)的值最大化，为此，对公式五求其梯度得，

公式六：

其中，<x_iz_j>_dist表示在分布dist下的期望，<x_iz_j>_data是指训练数据集经验概率分布下的期望值，而<x_iz_j>_model指该模型下概率分布的期望值，可由蒙特卡罗马尔可夫链(Monte-Carlo Markov chain，MCMC)方法来得到模型样例：

公式七：

通过CD算法对RBM进行快速学习，加快参数的收敛，可得到权值w_ij的更新量为：

公式八：Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model)

其中ε为学习速率，通过CD算法，就可以得到不断更新的参数，一直到参数收敛，得到初始的视觉词典。

具体地，所述RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

公式九：

其中λ为正则项的加权系数；

利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性，即：

公式十：

是每个单词针对K个特征平均激活概率的期望值，单词z_j对特征x_k响应概率的期望值可标记为p_jk∈(0,1)，整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素p_j·代表了单词z_j,1≤j≤J对K个输入特征向量响应的期望值，列向量p_·k则代表了输入特征x_k在整个视觉词典上的分布，因此为了对整个RBM网络进行有监督地微调，定义交叉熵损失函数h(z)如下：

公式十一：

学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关，对视觉词典而言，矩阵P中元素为：

公式十二：

参数μ∈(0,1)，根据训练数据的标签类别，误差自顶向下传播，对网络各层参数进行微调如下：

公式十三：

公式十四：

φ^(l)是一个超参数函数，γ，η，ε代表学习速率，且有γ＝ε-η，那么对于第一层网络而言z⁽⁰⁾即为图像SIFT特征输入向量x，且也即是深度学习表示向量，最顶层网络的参数就可更新如下：

公式十五：

y_c是指顶层输出向量被判别为图像类别C，在上述微调的过程中，采用最大交叉信息熵损失代表基于特征的分类误差，将该误差反向传播至每层网络中，并得到最终的深度学习表示向量。

具体地，所述利用特征分组与特征值最优化方法对度量空间进行学习，具体为：

(1)采用Ncut特征分组算法，根据特征各维数之间的相关性对图像语义表示向量进行分组；

(2)在相似样本约束对的距离小于一定阈值的条件下，将传统的求解SDP 问题转化为特征值最优化问题；

(3)求解特征值最优化问题，也即是计算每次循环迭代中对称矩阵最大特征值所对应的特征向量；

(4)将各分组特征学习得到的度量矩阵进行融合得到全局度量矩阵，形成新的距离度量空间，并用以训练SVM分类器，实现人员再分类识别。

本发明的有益效果是：本发明提供了一种基于深度学习和距离度量学习的人员再识别方法，通过深度学习和距离度量学习，较好地提高了视觉词典的稀疏性和选择性，提取的特征能够更加准确的表达图像本质属性，从而很好地提升行人再识别准确度。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明基于卷积神经网络的行人检测流程图；

图2是本发明基于深度学习编码模型的行人再识别流程图；

图3是本发明无监督RBM特征编码示意图；

图4是本发明视觉词典稀疏性和选择性示意图；

图5是本发明不同视觉词典对行人再识别准确率的影响；

图6是本发明有监督微调对行人再识别准确率的影响；

具体实施方式

图1是本发明基于卷积神经网络的行人检测流程图，图2是本发明基于深度学习编码模型的行人再识别流程图，图3是本发明无监督RBM特征编码示意图，图4是本发明视觉词典稀疏性和选择性示意图，图5是本发明不同视觉词典对行人再识别准确率的影响，图6是本发明有监督微调对行人再识别准确率的影响。

首先，采用基于卷积神经网络的行人目标检测方对海量视频数据进行处理，检测出视频中的行人目标。

其次，利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典；

然后，利用误差反向传播对初始视觉词典进行有监督微调，获取视频图像新的图像表达方式，也即是图像深度学习表示向量；

最后，采用特征分组与特征值最优化的距离度量学习方法，获取更加接近真实语义的度量空间，并采用线性SVM分类器对行人目标进行识别。

所述的基于深度学习和距离度量学习的行人再识别方法，首先，利用卷积神经网络检测出视频中的行人目标；其次，结合SIFT特征的空间信息，将邻近的SIFT特征作为RBM的输入，通过CD快速算法训练RBM，得到隐藏层特征，而邻近的隐藏层特征作为下一层RBM的输入，得到输出词典。其中，ω¹和ω²是RBM的连接权重，RBM具有一个显见层，一个隐层，但是在RBM中，同层的神经元之间是无连接的，这样学习使得过程更简单。

在网络的训练过程中，RBM的隐层与显层间之间是通过条件概率分布相关联的，显层和隐层的条件概率为：

其中，x_i，z_j分别代表特征层和编码层，也即是RBM中的显层与隐层。ω_ij为特征层x_i与编码层之间的连接权重系数，给定权重系数矩阵ω和隐层偏置向量b，输入层特征x就可以编码为视觉词典z，相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码层(x,z)，其能量函数可计算如下：

基于能量函数，可得到(x,z)的联合概率分布函数：

而RBM网络训练的目的就是使p(x)的值最大化，为此，对式(5)求其梯度得，

其中，<x_iz_j>_dist表示在分布dist下的期望，<x_iz_j>_data是指训练数据集经验概率分布下的期望值，而<x_iz_j>_model指该模型下概率分布的期望值，通常可由蒙特卡罗马尔可夫链(Monte-Carlo Markov chain，MCMC)方法来得到模型样例：

通过CD算法对RBM进行快速学习，加快参数的收敛，可得到权值w_ij的更新量为

Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model) (8)

所述的基于深度学习编码模型的行人再识别方法，为了更加准确地表达图像内容，在RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

其中，λ为正则项的加权系数。深度学习编码能够使得学习得到的视觉词典具较强的选择性，并使得图像表达向量具有较好的稀疏性。

稀疏性的核心思想是使用少量的基向量来有效而简洁地表示图像内容。具体的就是稀疏向量中大部分分量为零，只有少数分量为非零，而少数非零系数则揭示了图像数据的内在结构和本质属性。它是对编码向量对输入特征响应的一种度量准则。选择性就是度量一个单一视觉单词对输入特征向量的响应。视觉词典兼具稀疏性和选择性，可以认为词典中的单词具有多样性，且单词之间不具有相关性。若觉词典只具有选择性，如此会导致某些输入特征向量被忽视或者过表达的现象。若视觉词典只具有稀疏性，它会导致视觉词典中的单词相关性较强，加大冗余。

其中，是每个单词针对K个特征平均激活概率的期望值，单词z_j对特征x_k响应概率的期望值可标记为p_jk∈(0,1)，那么，整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素p_j·代表了单词z_j,1≤j≤J对K个输入特征向量响应的期望值，列向量p_·k则代表了输入特征x_k在整个视觉词典上的分布。因此，为了对整个RBM网络进行有监督地微调，定义交叉熵损失函数h(z)如下：

其中，参数μ∈(0,1)，这样就可以获得兼具稀疏性和选择性的视觉词典，进而既能保证各视觉单词的多样性又能兼顾图像局部特征表达之间的差异性，更加准确地表达图像内容。

所述的基于深度学习编码模型的行人再识别方法，在利用深度学习对SIFT 特征编码时，首先采用自底向上的非监督RBM分层训练各层参数每层网络生成视觉词典，训练时逐层学习每一层参数，降低时间复杂度。此外，由于非监督 RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据本身的结构，从而得到比输入更有表示能力的特征；然后根据训练数据的标签类别，误差自顶向下传播，对网络各层参数进行微调如下：

其中，φ^(l)是一个超参数函数，γ，η，ε代表学习速率，且有γ＝ε-η。那么对于第一层网络而言z⁽⁰⁾即为图像SIFT特征输入向量x，且也即是深度学习表示向量。那么最顶层网络的参数就可更新如下：

其中，y_c是指顶层输出向量被判别为图像类别C，在上述微调的过程中，采用最大交叉信息熵损失代表基于特征的分类误差，然后该误差反向传播至每层网络中。

综上，整个基于深度学习和距离度量学习的行人再识别方法可以分为三个阶段，第一阶段就是利用卷积神经网络检测出行人目标；第二阶段就是利用非监督RBM网络采用自底向上的方式对初始SIFT特征进行编码得到视觉词典并对整个网络参数进行有监督微调；第三阶段就是利用利用特征分组与特征值最优化的距离度量学习方法，获取新的度量空间，以此训练线性SVM分类器用对行人进行分类识别。

实施例一：本实施例基于深度学习和距离度量学习的行人再识别方法

首先，针对视频目标遮挡严重等问题，采用基于卷积神经网络的行人目标检测方对海量视频数据进行处理，检测出视频中的行人目标。其次，利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典；然后，利用误差反向传播对初始视觉词典进行有监督微调，获取视频图像新的图像表达方式，也即是图像深度学习表示向量；最后，采用特征分组与特征值最优化的距离度量学习方法，获取更加接近真实语义的度量空间，并采用线性SVM分类器对行人目标进行识别。

深度学习编码能够很好地提升视觉词典的稀疏性和选择性，进而提高特征的表达能力；基于特征分组与特征值最优化的距离度量学习方法能够获取更加精准的特征度量空间，进一步提高行人再识别的准确度。

实施例二：由于监控视频质量较差、而且环境不可控、拍摄视角变化范围广以及行人之间部分遮挡，传统的目标检测方法难以在这种开放环境下取得好的效果，本实施例采用基于卷积神经网络的行人目标检测方法，主要分为模型训练阶段和目标检测阶段，具体流程和结果如图1所示，具体过程可描述为：

(1)在模型训练阶段中，工作重点是样本的选择和预处理，以及对CNN网络参数进行实验，选出最优的参数组合。首先，通过选择不同角度及外表颜色的样本等措施增大样本的多样性，然后将这些样本重新调整至统一的分辨率，再增强样本的对比度。最后，通过尝试不同的CNN模型参数训练模型，获得检测性能较好的参数组合。

(2)在运动目标检测阶段，为了避免重复计算，提高检测速度，本项目拟采用一种能有效减少冗余计算的方法，首先，直接对整幅图像做卷积计算，来提取图像特征，从而避免了滑动窗口引起的大量的重复计算。为了进一步提高检测速度，然后采用并行计算方法将图像分割为同样大小的小块图像，然后使用训练好的CNN模型同时对这些小块图像进行计算，这样就大大加快了检测的速度。此外，使用背景建模算法提取每一帧图像中可能存在运动目标的区域，因而，可以直接在这些候选区域中而不是在整幅图像上进行目标检测，减少了搜索范围，同时也避免了大量不必要的计算。最后，使用非最大值抑制算法将不同尺度下的检测结果进行优化，获得目标的准确位置。

实施例三：参见图2、图3，图4，本实施例的基于深度学习编码模型的行人再识别方法，采用下述步骤，生成兼具稀疏性和选择性的视觉词典：

图4中，(a)表示的视觉词典兼具稀疏性和选择性，(b)表示的视觉词典只具有选择性，(c)表示的视觉词典只具有稀疏性。

首先，提取训练图像库的SIFT特征；提取SIFT特征；其次，结合SIFT特征的空间信息，将邻近的SIFT特征作为RBM的输入，通过CD快速算法训练RBM，得到隐藏层特征；然后邻近的隐藏层特征作为下一层RBM的输入，得到输出词典。其中，ω¹和ω²是RBM的连接权重，RBM具有一个显见层，一个隐层，但是在RBM 中，同层的神经元之间是无连接的，这样学习使得过程更简单。

在网络的训练过程中，RBM的隐层与显层间之间是通过条件概率分布相关联的，显层层和隐层的条件概率为：

基于能量函数，可得到(x,z)的联合概率分布函数：

Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model) (8)

为了更加准确地表达图像内容，在RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

由于深度学习编码需要对多层网络进行训练学习，而无监督RBM网络在训练时存在一个问题就是，若对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递，从而导致严重的欠拟合问题。为此，在利用深度学习对SIFT特征编码时，首先采用自底向上的非监督RBM分层训练各层参数每层网络生成视觉词典，训练时逐层学习每一层参数，降低时间复杂度。此外，由于非监督RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据本身的结构，从而得到比输入更有表示能力的特征；然后根据训练数据的标签类别，误差自顶向下传播，对网络各层参数进行微调如下：

其中，y_c是指顶层输出向量被判别为图像类别C，在上述微调的过程中，采用最大交叉信息熵损失代表基于特征的分类误差，然后该误差反向传播至每层网络中，然后得到最终的图像深度学习表示向量。

实施例四：参见图5。在行人再识别问题中，导致识别率不高的原因不仅仅是不同摄像头之间相同行人外观存在的巨大差异，还因为不同人之间的外观特征经常差异较小。不同的人时常由于穿着相似或者摄像机颜色畸变导致外观特征相似度较高。在这种情况下，为了获得更好的匹配性能，需要提取并保留一些外观的细节特征，并且要在能够反映特征本质属性的空间对其进行度量。

距离度量学习就是一种通过训练数据，获得一种能够反应样本空间结构信息或语义约束信息的线性或非线性的变换，得到一种区分性更好的度量空间的方法。但是，当前主流的距离度量学习方法都需要求解半正定规划 (Semi-definite Programming，SDP)问题，而其中每次循环迭代中的矩阵完全特征分解运算使得计算复杂度很高，实用性不强，为此，本实施例根据特征各维数之间的相关性对其进行分组，降低计算复杂度，并在相似样本约束对的距离小于一定阈值的条件下，将传统的求解SDP问题转化为特征值最优化问题 (Eigenvalue Optimization)，进而减少度量矩阵的学习时间，增强距离度量学习算法在大数据下的实用性。

基于特征分组与特征值最优化的距离度量学习方法的具体流程如图5所示，可描述如下：

Step1：采用Ncut特征分组算法，根据特征各维数之间的相关性对图像语义表示向量进行分组；

Step2：在相似样本约束对的距离小于一定阈值的条件下，将传统的求解SDP 问题转化为特征值最优化问题；

Step3：求解特征值最优化问题，也即是计算每次循环迭代中对称矩阵最大特征值所对应的特征向量；

Step4：将各分组特征学习得到的度量矩阵进行融合得到全局度量矩阵，形成新的距离度量空间。

实验结果与分析

这里分别在常用的：INRIA图像集、TUD图像集对本实例性能进行评估。INRIA 数据库是目前使用多的静态行人检测数据库且图片中人体大部分为站立姿势，它的训练集有正样本614张，负样本1218张；测试集有正样本288张，负样本453张。TUD行人数据库采集于车载摄像机，它的训练集正样本为1092对图像(包含1776个行人)，负样本为192对非行人图像。在有监督微调阶段从每个图像类别中随机选取100幅图像用以有监督地微调整个RBM网络，并用同样的数据训练线性SVM分类器，每个类别中的剩余图像用作测试图像集。人员识别性能评价指标为平均准确率(Average Precision,AP)以及时间开销。相关定义如下：

参数的影响

首先，在INRIA图像集上进行分类识别实验，分析不同视觉词典规模对的影响，结果如图6所示。从图6中不难看出，在一定范围内，随着视觉词典规模的增加行人再识别的准确率有着明显的提升，然而，当视觉词典规模达到一

其次，为了验证有监督微调对识别的效果，在同样的数据和词典规模下分别采用有监督的微调和不进行微调进行10次识别实验，得识别结果如图6所示。从图6可以看出，利用RBM对SIFT特征进行编码时，在有监督微调之后可以明显的改善人员识别性能。这是因为，有监督微调可以利用误差反向传播的方式更好地调整网络各层参数。

实验性能分析

首先，分别在INRIA数据集和TUD数据集上进行识别实验，将本方法与其他几种经典的人员识别方法包括基于传统视觉词袋模型的方法以及基于稀疏编码模型的方法进行比较，以验证本方法性能，识别表AP值如表1所示。

表1不同方法在INRIA数据集与TUD数据集上的识别结果

从表1可以看出，ScSPM方法和LLC方法由于得到了图像语义的稀疏表达，其识别性能要优于传统的基于硬分配的视觉词袋模型方法(HA)和基于软分配的视觉词袋模型方法(SA)。本方法由于利用RBM对SIFT特征进行深度编码，并利用训练数据的类别信息对整个编码网络进行有监督微调，使得视觉词典具有很好的选择性且图像表示向量具有稀疏性，因此，其分识别性能要优于ScSPM 方法以及LLC方法。

然后，我们在数据集INRIA数据集上进行实验，将本方法与其他方法之间的行人再识别时间效率进行分析对比，得平均训练时间和平均测试时间如表2 所示。从表2可以看出，由于ScSPM方法、LLC方法以及本方法采用线性SVM分类器进行分类识别，因此，它们的训练时间要远低于SA方法。由于LLC方法叫较之于ScSPM方法作了一些优化工作，所以其训练和测试时间要高于ScSPM方法。综合，表1和表2可以看出，本方法可以取得较好识别性能的情况下，消耗最少的识别时间，尤其适用于大规模数据下的行人再识别。

表2不同方法在数据集15-Scenes上的时间效率对比

1.1深度学习相关理论

深度学习的概念起源于人工神经网络，其基本思想是利用多层非线性运算单元构建深度学习网络，并将较低层的输出作为更高层的输入，以此从大量输入数据中学习得到有效的高阶特征表示，最后将这些高阶特征表示用于解决分类、回归和信息检索等特定问题。得益于深度学习的强大表达能力，它已经被成功应用于文本数据学习和视觉识别任务当中。

相较于浅学习而言，深度学习具有更强的特征表达能力，然而，非凸目标函数产生的局部最优解是造成深度学习困难的主要因素，且情况随着网络深度的增加而越发复杂。针对该问题，2006年，Hinton等人提出了一种用于深度置信网络的无监督学习算法，有效地解决了深度学习模型训练困难的问题。 Ranzato等人提出用无监督学习初始化每一层神经网络的想法。具体的在图像分类识别领域，2012年，Srivastava等人提出了一种多模式深度置信网络模型 (Multimodal Deep Belief Network,MDBN)，该模型对图像和图像标注数据分别建立DBN，在最顶层通过学习联合受限玻尔兹曼机将这两个DBN结合起来，取得了较好的图像分类性能。同年，Krizhevsky等人构建了具有6千万个参数、 65万神经元的大规模深度卷积神经网络，利用GPU加速学习过程，在 ILSVRC-2012比赛中成功地将图像分类误判率从26.2％降到15.3％，取得了远超其他方法的结果。2013年，Munawar等人在堆栈自编码网络的基础上提出了基于模板的深度重构模型(Template Deep ReconstructionModel,TDRM)，该模型利用无监督的贪婪逐层训练算法训练高斯受限波尔兹曼机(Gaussian Restricted Boltzmann Machines,GRBM)，并将训练好的参数作为TDRM的初始值，减少了TDRM参数训练时间，在Pascal VOC 2013年图像分类竞赛中取得了最好的成绩。

然而，上述基于深度学习的图像分类识别方法都是以训练图像集的像素级数据作为输入，然后学习得到若干维的图像表达向量，这种方法的时间复杂度和计算复杂度都极高，需要耗费大量的人力物力。此外，对学习得到的特征解释性差，也即是这种图像内容的表达方式也仍然停留在底层视觉特征层面。

1.2视觉词袋模型

Sivic等人借鉴文本处理领域中的词袋模型(Bag of Words,BoW)，提出了视觉词袋模型(Bag of Visual Words Model,BoVWM)，成功地把自然语言处理领域的一些方法应用到了图像处理领域。

视觉词袋模型首先从训练图像库中提取大量的SIFT特征，并对其进行聚类生成视觉词典；然后，提取测试图像的SIFT特征，并将它们与视觉词典中的单词进行匹配映射；最后，统计各单词出现的频率，得到表征测试图像语义内容的视觉词汇分布直方图特征。

Claims

1.一种基于深度学习和距离度量学习的人员再识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法，其特征在于：所述采用基于卷积神经网络的行人目标检测方法，分为模型训练阶段和目标检测阶段：

3.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法，其特征在于：在网络的训练过程中，所述RBM的隐层与显层间之间是通过条件概率分布相关联的，显层层和隐层的条件概率为：

公式一：

公式二：

公式三：

基于能量函数，可得到(x,z)的联合概率分布函数：

公式四：

公式五：

公式六：

公式七：

公式八：Δω_ij＝ε(<x_iz_j>_data-<x_iz_j>_model)

4.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法，其特征在于：所述RBM目标优化函数中加入一个正则项h(z)，将目标函数调整如下：

公式九：

其中λ为正则项的加权系数；

公式十：

是每个单词针对K个特征平均激活概率的期望值，单词z_j对特征x_k响应概率的期望值可标记为p_jk∈(0,1)，整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素pj·代表了单词z_j,1≤j≤J对K个输入特征向量响应的期望值，列向量p·_k则代表了输入特征x_k在整个视觉词典上的分布，因此为了对整个RBM网络进行有监督地微调，定义交叉熵损失函数h(z)如下：

公式十一：

公式十二：

公式十三：

公式十四：

公式十五：

5.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法，其特征在于：所述利用特征分组与特征值最优化方法对度量空间进行学习，具体为：

(2)在相似样本约束对的距离小于一定阈值的条件下，将传统的求解SDP问题转化为特征值最优化问题；