CN108875572A

CN108875572A - 基于背景抑制的行人重识别方法

Info

Publication number: CN108875572A
Application number: CN201810448477.4A
Authority: CN
Inventors: 邹见效; 李方方; 周雪; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-11-23
Anticipated expiration: 2038-05-11
Also published as: CN108875572B

Abstract

本发明公开了一种基于背景抑制的行人重识别方法，获取若干图像样并提取特征向量，提取方法为：对图像分块进行特征向量提取，同时提取分块的HOG直方图特征向量，获取基于HOG域的随机蕨特征，采用随机蕨特征进行背景判断，根据背景判断结果将图像分块的特征向量连接得到图像的特征向量；对待识别图像分块进行特征向量提取，将图像分块的特征向量连接得到图像的特征向量；计算待识别图像的特征向量和每张图像样本的特征向量的相似度，得到识别结果。本发明通过采用基于HOG域的随机蕨特征进行背景判断，对图像中的背景特征进行抑制，减少背景因素的干扰，从而提高行人重识别的准确率。

Description

基于背景抑制的行人重识别方法

技术领域

本发明属于计算机视觉技术领域，更为具体地讲，涉及一种基于背景抑制的行人重识别方法。

背景技术

随着社会的飞速发展和科学的日益进步，视频监控系统出现在了越来越多的场合。这些监控系统的广泛应用在带来很多便利的同时也带来了一定的问题。因为现在的监控系统大部分是由人工负责看管的，比较枯燥，不能及时做出反应。为了解决这个问题，进一步发挥摄像头的监控作用，需要各种各样的智能监控系统，运用计算机视觉，机器学习，图像处理等知识，自动提取有用的关键信息，快速地精确定位到异常发生之处，并及时做出相应的处理。

行人重识别是智能监控系统的一个重要领域，在图像搜索、刑侦等方面有重要的应用。目前行人重识别主要存在以下几个方面的挑战：一是现在的监控摄像机的图像分辨率大部分都很低，这使得一些很成熟的技术比如人脸识别无法应用。而且不同的摄像机有不同的参数配置，即使相同的摄像机由于拍摄角度的不同，拍摄效果也会有所不同。二是由于外界环境不同所引起的光照变化，亮度变化，角度不变化，有时候还存在部分遮挡以及噪声干扰。三是由于人是非刚体，姿态经常会发生变化。而且外貌穿着等也经常发生变化，穿同一件衣服的不同人往往比穿不同衣服的同一人更相似。

行人重识别主要包含两个过程：特征提取和距离测度的学习。针对以上的挑战，研究学者对这两个部分进行了大量的研究。在特征提取过程中，一般提取不随视角、姿态变化而变化，并具有一定的抗噪声能力的特征，比如颜色，纹理，语义属性等，同时这些特征具有一定的区分能力。在进行距离测度学习时，一般在马氏距离的基础上，学习一个投影矩阵，在这个投影空间中，同一个行人之间的距离比较小，不同行人之间的距离比较大，从而能够将不同的行人正确区分开来。但是由于一般待识别图像中存在较多背景，会对图像特征造成干扰，导致识别准确率不佳。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于背景抑制的行人重识别方法，采用基于HOG域的随机蕨特征进行背景判断，从而在图像特征向量中实现背景抑制，提高行人重识别的准确率。

为实现上述发明目的，本发明基于背景抑制的行人重识别方法，包括以下步骤：

S1：获取若干标记有摄像头编码的图像样本构成图像样本库，将每张图像样本归一化至预设尺寸，并按照拍摄摄像头进行分组得到图像样本组；

S2：分别对每张图像样本提取特征向量，具体方法为：

S2.1：对图像样本进行分块，以每个分块为单位进行特征提取，记分块数量为N，第n个分块的特征向量记为P_n，n＝1，2，…，N；

S2.2：将每个分块划分为Q个细胞单元，获取每个细胞单元的HOG特征向量g_nq，q＝1，2，…，Q，记细胞单元的HOG特征向量的维数为K；将Q个HOG特征向量g_nq连接得到一个向量，作为分块的HOG特征向量H_n，记HOG特征向量H_n中的元素为h_n(d)，其中d＝1，2，…，D，D＝K×Q；预设M对元素序号θ_m＝(b_m1，b_m2)，m＝1，2，…，M，得到M个二进制特征f(n；b_m1，b_m2)＝I(h_n(b_m1)＞h_n(b_m2))，然后得到第n个分块的基于HOG域的随机蕨特征f(n；θ)＝[f(n；θ₁)，…，f(n；θ_M)]，将f(n；θ)转化成十进制数值F_n；

S2.3：采用随机蕨特征进行背景判断，具体方法为：

S2.3.1：令图像分块序号n＝1；

S2.3.2：对于图像样本库每个图像样本组的图像样本，根据十进制数值F_n对这些图像样本的第n个图像分块进行聚类，记所获取的分类数量为R，第r个分类中的图像分块数量为C_r，r＝1，2，…，R；

S2.3.3：令分类序号r＝1；

S2.3.4：判断第r个分类的图像分块数量X_r是否大于预设阈值X_min，如果不是，进入步骤S2.3.5，否则进入步骤S2.3.6；

S2.3.5：判定第r个分类的图像分块均为前景，进入步骤S2.3.7；

S2.3.6：计算第r个分类经加权处理后的样本数量C_r＇：

其中，exp表示指数函数，x_middle表示图像样本的中心横坐标，x表示第n个图像分块中心点的横坐标，σ表示方差；

如果C_r＇_＞V，则判断第r个分类中的图像分块为背景，否则为前景；

S2.3.7：判断是否r＜R，如果是，进入步骤S2.3.8，否则进入步骤S2.3.9；

S2.3.8：令r＝r+1，返回步骤S2.3.4；

S2.3.9：判断是否n＜N，如果是，进入步骤S2.3.10，否则背景判断结束；

S2.3.10：令n＝n+1，返回步骤S2.3.2；

S2.4：对于图像样本库中的每张图像样本，依次对每个图像分块进行判断，如果第n个图像分块为背景，则修改对应的特征向量P_n为0向量，否则不作任何操作；然后将N个图像分块的特征向量连接得到整个图像样本的特征向量；

S3：将待识别图像归一化至预设尺寸后划分为N个分块，以每个分块为单位进行特征提取，然后将N个分块的特征向量连接得到待识别图像的特征向量；

S4：计算待识别图像的特征向量和每张图像样本的特征向量的相似度，得到识别结果。

本发明基于背景抑制的行人重识别方法，获取若干图像样并提取特征向量，提取方法为：对图像分块进行特征向量提取，同时提取分块的HOG直方图特征向量，获取基于HOG域的随机蕨特征，采用随机蕨特征进行背景判断，根据背景判断结果将图像分块的特征向量连接得到图像的特征向量；对待识别图像分块进行特征向量提取，将图像分块的特征向量连接得到图像的特征向量；计算待识别图像的特征向量和每张图像样本的特征向量的相似度，得到识别结果。

本发明通过采用基于HOG域的随机蕨特征进行背景判断，对图像中的背景特征进行抑制，减少背景因素的干扰，从而提高行人重识别的准确率。

附图说明

图1是本发明基于背景抑制的行人重识别方法的具体实施方式流程图；

图2是本发明中特征向量提取的流程图；

图3是本实施例中的图像分块示例图；

图4是本实施例中基于HOG域的随机蕨特征提取的示例图；

图5是本发明中基于随机蕨特征进行背景判断的流程图；

图6是图像分块聚类示例图；

图7是背景判断的示例图；

图8是本实施例中本发明与对比方法的实验结果对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图l是本发明基于背景抑制的行人重识别方法的具体实施方式流程图。如图1所示，本发明基于背景抑制的行人重识别方法的具体步骤包括：

S101：获取图像样本：

获取若干标记有摄像头编码的图像样本构成图像样本库，将每张图像样本归一化至预设尺寸，并按照拍摄摄像头进行分组得到图像样本组。

S102：提取图像样本的特征向量：

接下来分别对每张图像样本提取特征向量。为了使特征向量更好地反映行人的特点，本发明中采用了背景抑制技术。图2是本发明中特征向量提取的流程图。如图2所示，本发明中特征向量提取的具体方法如下：

S201：图像分块提取特征：

对图像样本进行分块，以每个分块为单位进行特征提取，记分块数量为N，第n个分块的特征向量记为P_n，n＝1，2，…，N。

为了更好地捕捉待识别图像的细节，分块的大小不宜过大。本实施例中将大小为48*128的图像分割成8*8的图像小块，水平方向和竖直方向的步长分别为4，即小块之间存在重叠区域。图3是本实施例中的图像分块示例图。

对每个分块所提取的特征类型可以根据需要进行选择。颜色特征能够描述行人的外貌特征，而且比较简单，以实验证明在行人重识别中使用颜色特征会取得比较好的效果。颜色直方图对旋转和平移具有不变性，但是颜色直方图不能很好地捕获图像的局部特征，需要与其他特征相结合。SIFT(Scale Invariant Feature Transform)特征属于局部特征，对视角变化，仿射变换以及噪声的干扰都能保持不变，与颜色直方图相结合能够取得很好的效果。因此本实施例中选用颜色特征和SIFT特征结合得到特征向量。

就颜色特征而言，传统的RGB模式可分辨的色差是非线性的，不是很好的颜色描述系统。国际照明委员会(CIE)于1976年公布的一种色彩模式——LAB模式。LAB模式是一种无关设备而是基于生理特征的颜色模型，用数字的方法定义了人眼的视觉感受，比较自然，因此本实施例中采用LAB颜色特征。LAB模式中的L是亮度通道，代表像素亮度，其取值范围在[0，100]之间。A和B是表示颜色的通道，取值范围都是在[-128，127]之间。A正端表示红色，负端表示绿色；B正端表示黄色，负端表示蓝色。

首先提取每个分块的颜色直方图特征向量p_n1，由于本实施例采用LAB模式作为颜色特征，因此先将图像转换成LAB模式，然后提取得到每个分块的LAB颜色直方图特征向量p_n1。由于RGB模式不能直接转换为LAB颜色空间，首先需要转化成XYZ空间，再将XYZ空间转化成LAB空间。本实施例中，将亮度L(0～100)划分成5个子空间，每个子空间包含20度。将颜色A(-128，127)和B(-128，127)分别划分成8个子空间，每个子空间包含32度，则LAB模式整体包含320(5*8*8)个子空间，最后统计落入每个子空间的像素数量作为直方图纵坐标，从而得到颜色直方图特征。

然后提取每个分块的SIFT直方图特征向量p_n2。本实施例中SIFT直方图特征向量提取的具体过程为：将每个图像小块划分成4*4个大小为2*2的细胞单元，在每个细胞单元中将梯度方向(-180度～180度))划分成8个区间，每个子区间依次增加45度，统计落在每个子空间中的像素个数，作为直方图的纵坐标，可见整体包含了128(4*4*8)个子空间。

将每个分块的颜色直方图特征向量p_n1和SIFT直方图特征向量p_n2连接得到一个向量，作为分块的特征向量P_n，即P_n＝(p_n1，p_n2)。

S202：提取图像分块基于HOG域的随机蕨特征：

随机蕨(Random Ferns)算法是一种分类算法，是随机森林算法的改进，又称为半朴素贝叶斯分类器，训练的过程是从样本特征到样本类别的映射。随机蕨特征指随机蕨算法通过随机化的方式在特征点的邻域图像块中获得二值特征集合，然后转化成十进制，可以有效地描述物体变化的外观特征。

在随机蕨中，在图像窗口中随机选取两个像素点u₁和u₂，对这两个点进行像素值的二进制比较，可以得到特征f，其表达式如下：

f(x；u₁，u₂)＝I(x(u₁)＞x(u₂))

其中，I(a)是一个二元函数，当a为真时，I(a)为1，否则为0；x(u₁)是u₁处的像素值；x(u₂)是u₂处的像素值。

本发明中采用图像分块的HOG(Histogram of Oriented Gradient，方向梯度直方图)特征代替灰度值，获取每个分块基于HOG域的随机蕨特征，其具体方法如下：

将每个分块划分为Q个细胞单元，获取每个细胞单元的HOG特征向量g_nq，q＝1，2，…，Q，记细胞单元的HOG特征向量的维数为K。将Q个HOG特征向量g_nq连接得到一个向量，作为分块的HOG特征向量H_n，即H_n＝(g_n1，g_n2，…，g_nQ)，记HOG特征向量H_n中的元素为h_n(d)，其中d＝1，2，…，D，D表示H_n的维数，D＝K×Q。预设M对元素序号θ_m＝(b_m1，b_m2)，m＝1，2，…，M，一般来说元素序号对是随机获取的。然后得到M个二进制特征f(n；b_m1，b_m2)：

f(n；b_m1，b_m2)＝I(h_n(b_m1)＞h_n(b_m2))

显然，当h_n(b_m1)＞h_n(b_m2)为真时，I(h_n(b_m1)＞h_n(b_m2))＝1，否则I(h_n(b_m1)＞h_n(b_m2))＝0。

像基于灰度的随机蕨特征一样，本发明整合M个局部的二进制特征为一个二进制特征以此表示图像的外观特征，则第n个分块的基于HOG域的随机蕨特征可以表示为：

f(n；θ)＝[f(n；θ₁)，…，f(n；θ_M)]

可见，每一个基于HOG域的随机蕨特征是一个M维的二进制编码向量，将该二进制向量编码f(n；θ)转化成十进制数值F_n，显然F_n的取值会落在区间[0，2^M-1]中。

图4是本实施例中基于HOG域的随机蕨特征提取的示例图。如图4所示，本实施例中将每个分块划分成4个大小为4*4的细胞单元，在每个细胞单元内计算像素的梯度方向，将方向区间(0度～360度)划分成9个子空间，每个子空间包含40度，即整体包含36(4*9)个子空间，统计落在每个子空间中的像素个数作为直方图的纵坐标，从而得到细胞单元的HOG特征向量。为了进一步抑制光照的影响，将图像分块HOG特征向量H_n进行归一化处理，令每个元素为原元素值(即像素个数)占总像素数量的比例。本实施例中设置3对元素序号θ₁＝(b₁，b₁₁)、θ₂＝(b₈，b₁₆)、θ₃＝(b₁₃，b₄)，3个二进制特征分别为f(S；θ₁)＝0、f(S；θ₂)＝1、f(S；θ₃)＝1，因此分块S基于HOG域的随机蕨特征f(S，θ)＝(011)₂＝3。

S203：基于随机蕨特征进行背景判断：

根据步骤S202可知，在得到基于HOG域的随机蕨特征后，每个图像小块的可以用一个十进制数值F_n进行表示。接下来采用聚类的方式对同一个摄像头下的同一位置的图像小块进行聚类，筛选出背景小块并进行抑制消除。具体的判断思想如下：对于来自同一个摄像头中的所有图片，这些图片之间往往会含有相似的背景，并且这些背景一般会在边缘部分出现多次，即图像背景分块出现的频率比较高，而行人之间相似的概率会比较低，并且行人一般不会出现在边缘部分。因此，在进行聚类时，若某一类样本个数高于一定的阈值时，表示这种画面出现的频率比较高，再结合距离进行判断，使用高斯函数进行权重的划分。如果出现的频率比较高，并且与权重的乘积大于一定的阈值，从而判断此类样本的图像分块属于背景，否则此类样本中的图像分块属于前景。对于背景小块将特征值设置为0，从而实现对背景的抑制。

图5是本发明中基于随机蕨特征进行背景判断的流程图。如图5所示，本发明中基于随机蕨特征进行背景判断的具体方法包括以下步骤：

S501：令图像分块序号n＝1。

S502：第n个图像分块聚类：

对于图像样本库每个图像样本组的图像样本，根据十进制数值F_n对这些图像样本的第n个图像分块进行聚类，记所获取的分类数量为R，第r个分类中的图像分块数量为C_r，r＝1，2，…，R。本实施例中采用K-means聚类，假设图片个数为Z，将聚类个数设定为Z/2。

S503：令分类序号r＝1。

S504：判断第r个分类的图像分块数量X_r是否大于预设阈值X_min，如果不是，进入步骤S505，否则进入步骤S506。本实施例中设置X_min＝10。

S505：判定第r个分类的图像分块均为前景，进入步骤S507。

S506：判断第r个分类中的图像分块是否为背景：

因为背景一般出现在边缘区域，主要受水平方向的距离影响，因此本发明用高斯方程对不同的图像分块的背景判定阈值进行赋权重，距离中心点越近权重越小，距离越远权重越接近1，从而避免将前景误认为背景。因此本发明中需要分别针对不同位置的图像分块设置一个权重，利用该权重对各个分类中的样本数量进行加权处理，得到加权处理后的样本数量。第r个分类经加权处理后的样本数量C_r＇的计算公式如下：

其中，exp表示指数函数，x_middle表示图像样本的中心横坐标，x表示第n个图像分块中心点的横坐标，σ表示方差，本实施例取值为1。指数部分的计算即为本发明所设置的权重。

如果C_r＇＞V，V为预设的阈值，则判断第r个分类中的图像分块为背景，否则为前景，进入步骤S507。

S507：判断是否r＜R，如果是，进入步骤S508，否则进入步骤S509。

S508：令r＝r+1，返回步骤S504。

S509：判断是否n＜N，如果是，进入步骤S510，否则背景判断结束。

S510：令n＝n+1，返回步骤S502。

S204：获取图像特征向量：

对于当前图像样本组中的每张图像样本，依次对每个图像分块进行判断，如果第n个图像分块为背景，则修改对应的特征向量P_n为0向量，否则不作任何操作。然后将N个图像分块的特征向量连接得到整个图像样本的特征向量P^*，即P^*＝(P₁，P₂，…，P_N)。

图6是图像分块聚类示例图。如图6所示，第一行的图(a)和图(b)是viper数据集中A摄像头中第一个图像分块的部分聚类示意图，这两类中的样本个数都远远超过10，都属于背景图片。图6中选取了两类中的部分图片，第二行的图(c)和图(d)是图(a)和图(b)中图像分块所对应的原图像，可以看出本文方法的有效性。

图7是背景判断结果的示例图。如图7所示，黑色部分为背景小块，设置为0，前景部分不改变。本发明通过对基于随机蕨特征进行背景判断，可以在最终特征向量对背景进行抑制，降低背景对识别效果的影响。

S103：提取待识别图像的特征向量：

将待识别图像归一化至预设尺寸后划分为N个分块，以每个分块为单位进行特征提取，然后将N个分块的特征向量连接得到待识别图像的特征向量。

S104：行人重识别：

计算待识别图像的特征向量和每张图像样本的特征向量的相似度，得到人脸识别结果。

由于本发明中特征向量的维度较高，因此在计算特征向量相似度的时候最好进行降维。本实施例中使用XQDA(Cross-view Quadratic Discriminant Analysis)进行距离度量，其原理参见S.Liao，Y.Hu，X.Zhu，and S.Z.Li，“Person re-identification by localmaximal occurrence representation and metric learning，”in Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition，2015，pp.2197-2206。使用XQDA学习一个具有判别能力的低纬度的子空间，使得类外方差比较大，类内方差比较小。对得到的结果使用CMC(Cumulative Match Characteristic)曲线进行描述。CMC-m表示对查找集中的每一个图像，在候选集中根据相似性从高到低进行排序，其中前m个中含有正确匹配的概率。

为了更好地说明本发明的技术效果，在viper数据集上进行了对比试验。对比方法为未经过基于HOG域的随机蕨特征进行背景抑制、直接将经过各图像分块的特征向量进行连接得到的图像特征进行识别的方法。图8是本实施例中本发明与对比方法的识别准确率对比图。如图8所示，实线本发明的识别准确率结果，虚线表示对比方法的识别准确率的结果。从实验结果图中可以看出，使用本发明的方法使行人重识别准确度得到了一定程度的提升，证明了本发明的有效性。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于背景抑制的行人重识别方法，其特征在于，包括以下步骤：

S2：分别对每张图像样本提取特征向量，具体方法为：

S2.1：对图像样本进行分块，以每个分块为单位进行特征提取，记分块数量为N，第n个分块的特征向量记为P_n，n＝1,2,…,N；

S2.2：将每个分块划分为Q个细胞单元，获取每个细胞单元的HOG特征向量g_nq，q＝1,2,…,Q，记细胞单元的HOG特征向量的维数为K；将M个HOG特征向量g_nq连接得到一个向量，作为分块的HOG特征向量H_n，记HOG特征向量H_n中的元素为h_n(d)，其中d＝1,2,…,D，D＝K×Q；预设M对元素序号θ_m＝(b_m1,b_m2)，m＝1,2,…,M，得到M个二进制特征f(n；b_m1,b_m2)＝I(h_n(b_m1)＞h_n(b_m2))，然后得到第n个分块的基于HOG域的随机蕨特征f(n；θ)＝[f(n；θ₁),…,f(n；θ_M)]，将f(n；θ)转化成十进制数值F_n；

S2.3：采用随机蕨特征进行背景判断，具体方法为：

S2.3.1：令图像分块序号n＝1；

S2.3.2：对于图像样本库每个图像样本组的图像样本，根据十进制数值F_n对这些图像样本的第n个图像分块进行聚类，记所获取的分类数量为R，第r个分类中的图像分块数量为C_r，r＝1,2,…,R；

S2.3.3：令分类序号r＝1；

S2.3.5：判定第r个分类的图像分块均为前景，进入步骤S2.3.6，进入步骤S2.3.7；

S2.3.6：计算第r个分类经加权处理后的样本数量C_r′：

如果C_r′＞V，则判断第r个分类中的图像分块为背景，，否则为前背景；

S2.3.8：令r＝r+1，返回步骤S2.3.4；

S2.3.10：令n＝n+1，返回步骤S2.3.2；

2.根据权利要求1所述的行人重识别方法，其特征在于，所述步骤S2.1中图像的特征向量的提取方法为：提取每个分块的颜色直方图特征向量p_n1和SIFT直方图特征向量p_n2，将每个分块的颜色直方图特征向量p_n1和SIFT直方图特征向量p_n2连接得到一个向量，作为分块的特征向量P_n。

3.根据权利要求1所述的行人重识别方法，其特征在于，所述颜色直方图特征向量采用LAB颜色直方图特征向量。