CN107358200B

CN107358200B - 一种基于稀疏学习的多摄像机非重叠视域行人匹配方法

Info

Publication number: CN107358200B
Application number: CN201710568659.0A
Authority: CN
Inventors: 王洪元; 张文文; 万建武; 孙金玉
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2020-09-18
Anticipated expiration: 2037-07-13
Also published as: CN107358200A

Abstract

本发明公开了一种基于稀疏学习的多摄像机非重叠视域行人匹配方法，具体包括以下步骤：步骤1，从数据集中提取行人目标特征作为行人的原始特征；步骤2，根据原始特征，利用稀疏学习提取行人目标的高层语义特征；步骤3，将高层语义特征映射到公共隐空间；步骤4，建立稀疏表示模型，并稀疏表示出样本特征；步骤5，利用步骤4处理好的样本特征进行行人匹配。本发明突破了传统的单摄像机视域限制，有效扩大了监控空间，消除了大范围监控存在的摄像头盲区，并将时间和空间上分离的目标在不同摄像机中进行匹配。本发明的方法对行人目标姿态变化、光照条件变化具有很强的鲁棒性。

Description

一种基于稀疏学习的多摄像机非重叠视域行人匹配方法

技术领域

本发明属于计算机视觉领域，具体涉及多视图学习领域，特别涉及一种基于稀疏学习的多摄像机非重叠视域行人匹配方法。

背景技术

随着人们对社会公共安全的日益关注以及视频采集技术和大规模数据存储技术的发展，视频监控技术日益受到人们的重视，在商场、公园、学校、医院等人群密集易发生公共安全事件的场所应用了大量的监控摄像头。这些大量的监控摄像头形成了一个巨大的监控网络，尽管提高了监控系统的可靠性，同时也给监控视频的管理和查看带来了巨大的困难，于是如何高效地将不同摄像机中相同目标进行匹配是非重叠视域监控的关键。

在非重叠视域监控系统中，由于监控视频中的拍摄场景存在着光照变化、目标图像分辨率低、拍摄视角变化、行人姿态各异及摄像头自身属性问题，导致同一行人在不同视角中拍出的行人图像差异很大，这为匹配目标行人带来了很大挑战。为了解决这些难点问题，学者们提出了基于行人特征表示的方法和基于度量学习的方法。其中，基于行人特征表示的方法，主要关注提取更具有鉴别性的行人图像特征，仅利用标准距离(如欧式距离和巴氏距离等)进行相似性度量。例如，文献“Farenzena M,Bazzani L,Perina A,et al.Personre-identification by symmetry-driven accumulation of local features.IEEETransactions on Computer Vision and Pattern Recognition,2010,23(3):2360-2367.”提出基于行人身体对称性的特征提取方法，将人划分为头、躯干、腿部三个部分，然后提取除头部以外的累积颜色特征和纹理特征对行人进行描述。文献“Cheng SC,CristaniM,Stoppa M,et al.Custom Pictorial Structures for Re-identification.InProceedings of the British Machine Vision Conference,2014,68:1-11.”将绘画结构应用于行人重识别，用类似身体外形的结构来表示行人，再提取行人颜色特征精确匹配。然而，在实际生活中，行人在经过非重叠的摄像头时，受到视角、光照等因素的影响，拍出的行人图像质量差，如果采用标准的距离度量方法，即等贡献考虑每一个特征，可能导致不同类样本间的度量距离小，而同类样本间度量距离大。为解决该问题，研究者们关注设计有效的距离度量函数，提出了基于度量学习的方法。代表性的工作有，文献“Weinberger KQ,SaulLK.Distance metric learning for large margin nearest neighborclassification.Journal of Machine Learning Research,2009,10(1):207–244.”提出最大近邻分类间隔算法(LMNN)，使得投影之后的相同类点向内部紧缩，不同类点向外扩张。文献“Li W,Wang XG.Locally aligned feature transforms across views.ComputerVision and Pattern Recognition,2013,9(4):3594–3601.”将图像对投影到共同的特征空间，再对投影之后的图像特征进行相似性距离度量。

最近，Le等人在文献“Le a,Kafai M,Yang SF,et al.Reference-based personre-identification.In Proceedings of the IEEE Conference on Advanced Video andSignal Based Surveillance,2013:244-249.”中认为，如果将不同视角下的行人图像视为该行人在不同摄像头视角下的多个描述，行人的匹配也可被认为是一种多视图学习问题。为此，他们提出基于典型相关分析的行人匹配算法。典型相关分析(CanonicalCorrelation Analysis,CCA)是一种经典的多视图学习方法，它利用互补原理，最大化不同视图数据之间的相关性，减少数据之间的不确定性，从而达到增强识别能力的目的，最终提高行人重识别的准确率。目前，CCA主要在多视图学习的特征融合方面有着广泛的应用，也常用于解决行人匹配的问题。

但是，CCA是一种线性模型，它只关注成对样本之间的相关性，而实际中存在大量特征非线性的情况，当仅用CCA这样的简单线性模型来学习这些非线性相关现象时，将不可避免地出现欠拟合现象。

因此，研究出一种能应对非线性特征问题、鲁棒性高的多摄像机非重叠视域目标匹配方法，对提高匹配准确率有着积极的影响。

发明内容

本发明的目的在于：从多视图学习角度考虑行人匹配问题时，克服简单线性模型CCA存在的以上问题，提供一种基于稀疏学习的多摄像机非重叠视域行人匹配方法。此方法对行人目标图像特征非线性、特征维数庞大具有很强的鲁棒性。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基于稀疏学习的多摄像机非重叠视域行人匹配方法，包括以下步骤：

步骤1，从数据集中提取行人目标特征作为行人的原始特征；

步骤2，根据原始特征，利用稀疏学习提取行人目标的高层语义特征；

步骤3，将高层语义特征映射到公共隐空间；

步骤4，建立稀疏表示模型，并稀疏表示出样本特征；

步骤5，利用步骤4处理好的样本特征进行行人匹配。

本发明的方法突破了传统的单摄像机视域限制，克服了现有方法往往只抽取行人图像低层特征，因此在面临多视角数据的处理时，忽视了多视角数据本身蕴含的内在关联属性，从而无法对多视角数据实现有效处理的不足。利用本发明的方法有效扩大了监控空间，消除了大范围监控存在的摄像头盲区，并将时间和空间上分离的目标在不同摄像机中进行匹配。同时，本发明方法对行人目标姿态变化、环境光照变化具有很强的鲁棒性。

附图说明

图1是本发明基于稀疏学习的多摄像机非重叠视域行人匹配方法的流程图；

图2是本发明方法在VIPeR数据集下取不同参数值的结果比较图，(a)改变λ的取值；(b)改变μ的取值；

图3是本发明方法在CUHK01数据集下取不同参数值的结果比较图，(a)改变λ的取值；(b)改变μ的取值；

图4是本发明实施例中行人匹配过程示意图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

图1给出了本发明基于稀疏学习的多摄像机非重叠视域行人匹配方法的流程图：从公共数据集中提取RGB、HSV、YCbCr、Lab、YIQ和Gabor6种特征作为行人图像的原始特征，再提取行人的高层语义特征，随后将高层语义特征投影到公共的隐空间，使得特征之间可比较，让两视角特征能够自动反映出行人样本之间的隐含关系；然后建立稀疏模型提出目标函数，重复迭代计算，直到目标函数值趋于稳定收敛，表示得到一定意义下的最好字典矩阵，用它将样本特征稀疏表示出来；最后进行行人匹配，即，正确地从行人图像库中找出与目标行人相对应的行人。其具体步骤如下：

步骤1、提取行人目标特征；

提取好的行人特征对于行人的匹配至关重要，本发明将每张行人图像平均分成18个水平条块，分别提取每个水平条块的RGB、HSV、YCbCr、Lab、YIQ和Gabor6种特征，前5个提取的是图像的颜色空间特征，即直方图特征；Gabor特征是一种纹理特征,根据不同波长、方向、带宽等分别取16组不同的Gabor滤波器.每个水平条块的每种特征空间的每个通道分为16维直方图统计特征，RGB和HSV特征有3个通道，YCbCr、Lab和YIQ特征有2个通道,Gabor特征有16个通道，于是，每个水平条块的特征为448维。因此，每张行人图像在特征空间中被表示为(3+3+2+2+2+16)×16×18＝8064维特征向量，再将所有特征组合成一个列向量来代表一个行人图像作为实验的原始特征。

步骤2、提取行人目标的高层语义特征；

稀疏学习被广泛应用于人脸识别和行人匹配领域，也是信号处理领域的热点之一。稀疏学习通过尽可能少的训练样本找到对应测试样本的稀疏表示，这样的一个突出优点是计算速度更快。更重要的是，稀疏学习能够提取带语义信息的高层特征，有利于接下来的分类、识别和检索。

本发明提出的基于稀疏学习的行人匹配方法通过将行人样本特征稀疏表示出来，使行人样本在该模型下的稀疏字典只存在少量的非零元素，使得特征:(1)拥有更强大表达能力，(2)拥有识别和约束能力。

本发明通过提取样本带语义信息的高层特征，克服现有方法往往只抽取行人图像低层特征，因此在面临多视角数据的处理时，忽视了多视角数据本身蕴含的内在关联属性，从而无法对多视角数据实现有效处理的不足。利用的表达式如下：

其中，

分别是样本X和Y的稀疏表示，X和Y对应的稀疏字典为

和

t是小于样本数N的稀疏系数。表达式中λ为平衡参数，λ所在项为稀疏项，λ值越大，稀疏约束越大。

步骤3、将高层语义特征映射到公共隐空间；

实际情况中，提取出的高层特征并不在同一空间中，无法直接比较样本两个视角特征之间的相关性。本发明通过隐空间映射，将显著的行人特征进行线性重构，即，将特征旋转到同一个空间中，使得特征之间可比较，让两视角特征能够自动反映出行人样本之间的隐含关系，从而提高行人重识别的匹配率。具体过程是：将一个样本两个视角的稀疏表示V_X和V_Y通过公式(2)得到

再利用矫正矩阵R对这两种特征稀疏表示进行矫正。

步骤4、建立稀疏表示模型；

结合上面两个方面，基于稀疏学习的行人重识别(SLR)算法的目标函数表达式如下：

其中，μ为平衡参数。

公式(3)非凸，无法直接求出变量V_X、V_Y、U_X、U_Y、R的值。但，如果固定其他变量，则公式(3)对于剩余的一个变量则是凸函数。为此，本发明采用交替迭代方法进行求解：

第一步：先随机生成5个变量(V_X、V_Y、U_X、U_Y、R)的初始值。

第二步：为更新公式(1)中V_X，先固定V_Y、U_X、U_Y、R四个参数的值，即公式(3)中样本Y的两项均为已知项，得到公式(4)：

第三步：将公式(4)改写成公式(5)，结合Liu等人在文献“Liu J,Ye J.EfficientEuclidean projections in linear time.In Proceedings of the InternationalConference on Machine Learning,2009:657-664.”提出的稀疏学习SLEP软件包(ASparse Learning Package)，利用该SLEP软件包来更新V_X：

第四步：同理，为更新V_Y的值，固定其余4个参数的值，得到公式(6)：

第五步：将公式(6)改写成公式(7)，用SLEP软件包来更新V_Y：

第六步：利用公式(8)和(9)更新U_X、U_Y：

第七步：利用公式(2)更新R的值；

第八步：利用每一次迭代计算出的U_X、V_X、U_Y、V_Y和R的值带入公式(3)计算目标函数。每一次的迭代计算，都得到公式(3)中的目标函数值，重复多次迭代，直到目标函数值趋于稳定收敛，表示得到一定意义下的最好字典矩阵，用它能将样本特征稀疏表示出来。

步骤5、利用处理好的特征进行行人匹配。

行人匹配就是正确地从gallery集中找出与probe集中相对应的那个行人。假设B摄像头中样本

为probe集，摄像头A中样本

为gallery集，dp和dg分别是probe集和gallery集中样本特征的维数，M为样本数。

利用步骤3中样本集X和Y的稀疏字典U_X和U_Y分别计算出gallery集和probe集的稀疏表示V_g和V_p。V_g的具体求解公式如下(求V_p的表达式与公式(9)类似)：

公式(10)所示的最优化问题的解，就是M个gallery集行人中与probe集中目标行人最为相似的第i个行人。其中，矫正矩阵R由表1第3步迭代计算得到。

实验中，本发明选择N个人作为测试集，剩下的用来训练。每个测试集中包含一个probe集和一个gallery集。为了让实验结果更具有说服性，整个实验过程进行10次，然后取平均值作为最终结果。本发明根据经验设置参数的值，例如在VIPeR数据集上实验时，取λ＝0.04、μ＝0.5。在CUHK01数据集上实验时，取λ＝0.05、μ＝0.4。

为了检验参数λ和μ的取值对本发明方法性能的影响程度，设置几组不同取值的λ和μ在两个数据集上分别进行测试，结果如图2和图3所示：

VIPeR数据集:从图2(a)可知，当μ＝0.5不变时，λ值从0.02增加到1，性能逐渐由小幅提升转为大幅下降，在λ＝0.04时性能最好，λ＝0.1时性能最差；图2(b)中，当λ＝0.04不变时，μ值从0.1增加到1，性能由小幅提升转为小幅下降，当μ＝0.5时达到最大值。因此，在VIPeR数据集上，取λ＝0.04、μ＝0.5。

CUHK01数据集:从图3(a)可知，当μ＝0.4不变时，λ值从0.01增加到0.1，性能由提升转为下降，在λ＝0.05时性能最好；图3(b)中，当λ＝0.05不变时，μ值从0.2增加到1，在μ＝0.4时匹配率最高，当μ值继续增大时，匹配率开始减小。因此，在CUHK01数据集上，取λ＝0.05、μ＝0.4。

图4给出了本实施例中行人匹配过程示意图，通过计算目标行人跟行人图像库中每一个行人之间的距离来找出第k个行人使得其距离与目标行人最短，即匹配成功，否则，匹配失败。例如图4中，在行人图像库中与目标行人相匹配的是第7个行人，即k＝7。

本发明的方法可以很好地完成多摄像机非重叠视域行人匹配工作，对于行人姿态变化及光照变化都具有比较好的鲁棒性。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。