CN108509925B

CN108509925B - 一种基于视觉词袋模型的行人重识别方法

Info

Publication number: CN108509925B
Application number: CN201810307805.9A
Authority: CN
Inventors: 张云洲; 刘一秀; 李瑞龙; 王松; 史维东; 孙立波; 刘双伟
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2020-04-14
Anticipated expiration: 2038-04-08
Also published as: CN108509925A

Abstract

本发明公开了一种基于视觉词袋模型的行人重识别方法，方法包括：101、提取每张图像的局部区域的行人特征；102、获取每一个行人特征的字典和稀疏表示向量；103、依据所有行人特征的所述字典、稀疏表示向量，构建每张图像的视觉词袋模型；104、采用每张图像的视觉词袋模型，获取该图像的视觉词袋直方图；105、将任意两张图像的每一个行人特征的稀疏表示向量和视觉词袋模型进行匹配，获取匹配结果，所述任意两张图像中的一张图像为一个摄像机中的图像，另一张图像为另一个摄像机中的图像。上述方法能够解决Office文档在转换过程中文档格式跑版的问题。上述方法能够提高行人重识别的准确率，减少运算量。

Description

一种基于视觉词袋模型的行人重识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于视觉词袋模型的行人重识别方法。

背景技术

行人重识别(Person Re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。其主要任务是给定一个监控行人图像，检索跨设备下的该行人图像。这种算法在智能安防刑侦工作及图像检索等场景中具有很高的应用价值。由于图像拍摄时间、地点不同，同时考虑到光线、角度、姿态的差异性，外加大规模分布式部署的监控系统网络的拓展所带来的行人图像数据库数据量的增大，如何提高行人图像的重识别率以及检索效率仍旧面临很大挑战。以行人数据集规模的过大的问题为例。一方面，随着数据量的变大，摄像机数量的增多，行人身份数据的标注愈发的困难，对算法鲁棒性的要求也越来越高。另一方面，随着数据量的增大，算法运行时间也会变长，这就对算法的效率提出了较高的要求。

因此，在大规模数据集下如何提高行人重识别率，且使得运行时间合适，算法效率高成为当前需要解决的问题。

发明内容

针对现有技术中的问题，本发明提供一种基于视觉词袋模型的行人重识别方法，本发明的方法能够提高行人重识别的准确率，减少运算量。

第一方面，本发明提供一种基于视觉词袋模型的行人重识别方法，包括：

101、提取每张图像的局部区域的行人特征；

102、获取每一个行人特征的字典和稀疏表示向量；

103、依据所有行人特征的所述字典、稀疏表示向量，构建每张图像的视觉词袋模型；

104、采用每张图像的视觉词袋模型，获取该图像的视觉词袋直方图；

105、将任意两张图像的每一个行人特征的稀疏表示向量和视觉词袋模型进行匹配，获取匹配结果，所述任意两张图像中的一张图像为一个摄像机中的图像，另一张图像为另一个摄像机中的图像。

可选地，所述步骤101包括：

采用SIFT特征提取算法和/或LOMO特征提取算法提取每张图像的局部区域的视觉特征描述子。

可选地，所述步骤102包括：

针对每张图像的所有视觉特征描述子，采用跨视角字典学习算法对视觉特征描述子进行处理，获取每一个视觉特征描述子的字典和稀疏表示向量。

可选地，所述步骤103包括：

利用K均值聚类算法，将字典中的特征向量进行聚类，得到了一组相关性小于预设阈值的特征向量；

基于聚类后的特征向量构成视觉词袋模型。

可选地，所述步骤105包括：

利用余弦距离和/或XQDA度量学习算法对图像中提取的特征描述子进行距离的度量；

余弦距离定义如下：

其中，X_i、Y_i为两张图像的特征向量在第i个维度的值，n为自然数；

在第一次的度量里，选取局部SIFT特征所构建的视觉词袋直方图；把所有图像按相似度排序，取前N％的图像再次进行度量；

前N％的图像的局部LOMO特征，利用XQDA算法进行度量；

XQDA算法利用少量样本学习得到投影子空间矩阵W；

投影子矩阵W公式如下：

利用投影子空间矩阵将特征投影到低维子空间，利用KISSME算法得到马氏距离度量矩阵，并采用马氏距离的算法对前N％的图像的距离度量，并再次按相似度排序，得到与输入行人最相似的图像；

XQDA距离度量公式如下：

其中，x和z表示特征向量，W为度量矩阵，∑_I与∑_E分别表示类内与类间特征协方差矩阵，T为转置的运算符号。

可选地，所述步骤102包括：

跨视角字典学习公式：

X₍₁₎＝D₍₁₎P₍₁₎X₍₁₎

X₍₂₎＝D₍₂₎P₍₂₎X₍₂₎

D₍₁₎和D₍₂₎表示不同视角下对应的字典模型，P₍₁₎和P₍₂₎对应不同的投影矩阵；X₍₁₎、X₍₂₎为两张图像的特征向量；

在特征提取之后，获得局部SIFT特征与局部LOMO特征，将局部SIFT特征在某一摄像机视角下的特征表达定义为X_(1,1)，对应的字典与投影矩阵为D_(1,1)与P_(1,1)；

则LOMO特征在该视角下的特征表达定义为X_(1,2)，对应的字典与投影矩阵为D_(1,2)与P_(2,1)；X_(2,1)，D_(2,1)，P_(2,1)，X_(2,2)，D_(2,2)，P_(2,2)分别为在另一个视角下对应的变量；

获取跨视图字典模型的目标函数：

s.t.||d_1l(:,i)||≤1,||d_2l(:,i)||≤1,i＝1,...,m,l＝1,2

通过最小化这个目标函数，得到各视角下的字典模型矩阵以及稀疏表示向量构成的投影矩阵。

可选地，所述步骤103具体包括：

1031、首先将字典模型矩阵的特征向量取出来作为数据，设置聚类个数k随机选取k个聚类中心，求所有数据点与聚类中心的距离；

采用下述公式定义数据点之间的距离：

j＝1,……,K；

d_ij为数据点i与聚类中心j之间的距离，μ_j为聚类中心的坐标；

1032、将数据按照距离质心的远近分到各个簇中；

1033、将各个簇中的数据求平均值，作为新的质心，重复上一步中的将数据按照距离质心的远近分到各个簇中的步骤，直到所有的聚类中心位置不再改变；

把特征向量分成k类，每一类的向量类间相关度小于预设阈值。

可选地，采用LOMO特征提取算法提取每张图像的局部区域的视觉特征描述子，包括：

采用Retinex对每张图像进行预处理；

采用滑窗扫描每一张预处理后的图像，采用该图像中被水平滑窗选中的局部区域的HSV颜色直方图以及SILTP算子作为局部区域的特征。

取同一水平位置的所有局部区域的特征的同一维度的值中的最大值作为该水平位置的特征的对应维度的值，获得若干个水平区域的特征描述子。

本发明具有的有益效果如下：

本发明的方法充分考虑了大规模行人数据集对行人重识别速度的影响，在保证精度的情况下，提高了算法的运算速度，避免了数据集过大对识别算法的影响，有效提高了重识别过程的运算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的算法流程图；

图2为本发明实施例的SIFT特征提取结果图像；

图3为本发明实施例的LOMO特征提取结果图像；

图4为本发明实施例的跨视角字典学习示意图；

图5为本发明实施例的K均值聚类示意图；

图6为本发明实施例的视觉词袋模型直方图效果图；

图7为本发明实施例的距离度量与重排序示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其它情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

当前，大规模数据集下行人重识别的关键问题在于如何选择特征提取算法使提取出的特征可区分性更高，独立性更强，不变性更高，数量更少。

为此，本发明实施例针对以往行人重识别算法在处理大规模行人数据集上的不足，本发明提供了基于视觉词袋模型的行人重识别算法，利用行人图像数据以及人工特征提取算法得到视觉词袋模型，通过视觉词袋模型以及度量学习算法检索跨摄像机下的该行人图像。这种算法不仅提高了行人重识别的准确率，同时也减少了运算量，有效地提高了算法的运算速度。

本实施例的方法核心方案包括：利用SIFT以及LOMO特征提取算法提取图像特征并进行字典学习，得到字典以及每个特征的稀疏表示向量。然后对字典向量进行聚类，得到视觉词袋模型。之后，根据每幅图对应的稀疏表示向量以及视觉词袋模型的直方图以此作为特征进行匹配。最后，采用余弦距离进行度量学习以及重排序获取跨设备下同一行人的图像，提高了准确率。

实施例一

具体地，基于视觉词袋模型的行人重识别算法，包括如下步骤：

步骤一：利用SIFT特征提取算法以及LOMO特征提取算法提取行人图像的局部区域的特征，描述如下：

SIFT特征提取算法可以分为以下几个部分：

首先，构建尺度空间。

高斯卷积核是实现尺度变换的唯一线性和，一幅二维图像的尺寸空间定义为：

L(x,y,σ)＝G(x,y,σ)*I(x,y) (1)

其中G(x,y,σ)是尺度可变高斯函数。(x,y)是空间坐标。σ大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率)，反之，对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点，提出了高斯差分尺度空间(DoG scale-space)。利用不同尺度的高斯差分核与图像卷积生成：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,kσ))*I(x,y) (2)

其次，通过高斯拉普拉斯算子(LoG)近似高斯差分算子(DoG)找到关键点。

这里需要将每一个采样点与它所有的相邻点作比较，看其是否比它的图像域和尺度域的相邻点大或者小。

然后，通过拟合三维二次函数以精确确定关键点的位置与尺度(达到亚像素精度)，同时去除低对比度的关键点和不稳定的边缘响应点(因为高斯差分算子会产生较强的边缘响应)，以增强匹配稳定性、提高抗噪声能力，在这里使用近似Harris角点检测器。

接下来，给特征点赋值一个128维的方向参数。这里，需要给每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

以上公式为(x,y)处梯度的模值与方向公式。其中L所用尺度为每个关键点各自所在的尺度。

最后，需要根据以上求得的梯度计算关键点描述子。

在这一步中先是利用高斯函数得到局部区域的加权模板，之后通过加权梯度模板以及上一部计算出的梯度得到一个梯度方向直方图。利用该直方图作为局部区域的特征描述子。

LOMO特征提取算法可以分为以下几个部分：

首先，考虑到光照变化与摄像机不同位置的影响，同一行人在不同摄像机上拍摄的图像在光照以及颜色上都有较大的差距，因此我们采用Retinex对图像进行预处理。

之后，用滑窗扫描全图，采用图像中被水平滑窗选中的局部区域的HSV颜色直方图以及SILTP算子作为局部区域的特征。

然后，取同一水平位置的所有局部区域的特征的同一维度的值中的最大值作为该水平位置的特征的对应维度的值。这样就可以获得若干个水平区域的特征描述子。

最终，可以获得一系列的图像的特征描述子，其中，每幅图像都对应若干特征描述子。

步骤二：利用字典学习的算法将特征向量转化为字典以及每个特征的稀疏表示向量。

字典学习也可简单称之为稀疏编码。从矩阵分解的角度，字典学习是把数据集看成一个矩阵，每行对应一个样本，每列对应于一个特征，可以通过特征选取去除与当前学习任务无关的列，这样学习器的训练仅需要在较小的矩阵上进行，从而提高了运算速度。

由于现存的字典学习算法在视觉识别场合尤其是跨摄像机视角下很难发挥作用，因此，本算法采用跨视角字典学习算法对视觉特征进行处理。该算法将字典学习设置为双摄像机视角的模式，将提取到的SIFT特征向量以及LOMO特征向量利用跨视角字典学习的算法得到各视角下的字典以及稀疏表示向量。

步骤三：利用K均值聚类算法，将字典中的特征向量进行聚类。

聚类是一种无监督算法。K均值聚类算法是聚类算法中具有代表性的一个例子，可以将字典中的特征向量进行聚类，进一步简化特征的表达方式。K均值聚类算法的描述如下：

首先，设置聚类个数k。之后，从数据中随机选取K个数据作为初始的聚类中心，之后采用合适的距离度量算法度量个样本点与聚类中心之间的距离。再根据样本点到不同聚类中心的距离的远近将其分到与其距离最近的数据中心的簇下。

将样本点全部分类完毕之后，在求各簇样本点的均值，以此作为新的聚类中心。如此反复，直到聚类中心的位置不再改变为止。

步骤四：构建视觉词袋模型并利用视觉词袋模型得到每幅图的视觉词袋直方图。

上一步中算法利用K均值聚类对字典中的特征向量进行聚类，得到了一组相关性较低的特征向量，算法利用这组向量构成视觉词袋模型。之后，结合字典的索引以及每幅图对应的局部特征向量，将每幅图表示为视觉词袋模型下的一幅直方图。

步骤五：利用余弦距离以及XQDA等度量学习算法对特征进行度量，并利用重排序的算法提高了匹配的准确率。

由于同一个人在不同视角下的图片往往存在很大的差异。同时，不同人在不同视角下的结果也可能相似，一次距离度量得到的结果往往并不准确。因此，本算法采用重排序的算法，对不同特征基于不同的度量算法进行距离度量得到更准确的结果。

实施例二

本实施方式的算法，软件环境为系统，仿真环境为，处理器为，流程如图1所示：

步骤一：将图像分成若干个重叠的局部区域，每个局部区域被分成更小的像素块以获取其局部梯度信息，利用这些梯度信息的到局部区域的SIFT特征。示意图像与其提取结果见图2。

之后，采用图像中局部区域的HSV颜色直方图以及SILTP算子作为局部区域的特征。然后，取同一水平位置的所有局部区域的特征的同一维度的值中的最大值作为该水平位置的特征的对应维度的值。提取过程见图3。这样就可以获得若干个水平区域的LOMO特征描述子。

步骤二：将提取到的SIFT特征向量以及LOMO特征向量利用跨视图字典学习的算法得到各视角下的字典模型矩阵以及投影矩阵。

跨视图字典学习公式如下所示：

这里D₍₁₎和D₍₂₎表示不同视角下对应的字典模型，P₍₁₎和P₍₂₎对应不同的投影矩阵X₍₁₎和X₍₂₎为稀疏矩阵。

在特征提取之后，获得了两种特征：局部SIFT特征与局部LOMO特征，将局部SIFT特征在某一摄像机视角下的特征表达定义为X_(1,1)，其对应的字典与投影矩阵为D_(1,1)与P_(1,1)。则LOMO特征在该视角下的特征表达定义为X_(1,2)，其对应的字典与投影矩阵为D_(1,2)与P_(2,1)。同理，X_(2,1)，D_(2,1)，P_(2,1)，X_(2,2)，D_(2,2)，P_(2,2)，为在另一个视角下对应的变量。具体运算过程见图4.

这样就可以得到跨视图字典模型的目标函数：

s.t.||d_1l(:,i)||≤1,||d_2l(:,i)||≤1,i＝1,...,m,l＝1,2 (5)

通过最小化这个目标函数，就可以得到各视角下的字典模型矩阵以及投影矩阵。

步骤三，将上一步的得到的字典中的特征向量进行聚类，算法如下：

首先将字典模型的特征向量取出来作为数据。之后，设置聚类个数k随机选取k个聚类中心，求所有数据点与聚类中心的距离。这里采用如下方式定义数据点之间的距离：

这里采用如下方式定义数据点之间的距离：

d_ij为数据点i与聚类中心j之间的距离，μ_j为聚类中心的坐标。将数据集中的数据按照距离质心的远近分到各个簇中。之后，将各个簇中的数据求平均值，作为新的质心，重复上一步，直到所有的聚类中心位置不再改变。这样，就可以把特征向量分成k类，每一类的向量类间相关度较低。K均值聚类算法示意图如图5所示(这里K＝6)。

步骤四：构建视觉词袋模型并把每幅图片映射为一幅视觉词袋直方图。在上一部队特征向量进行聚类之后，算法将提取到的特征分出了类别。之后选取所有相关性较低的特征组成一个集合，将这个集合作为视觉词袋模型。根据每张行人图片中对应的该类特征数，将图片表示成视觉词袋直方图。过程如图6所示。

步骤五：利用余弦距离以及XQDA等度量学习算法对特征进行度量。具体做法是

首先，采用余弦距离对图像对应特征的距离进行度量。余弦距离定义如下：

其中，X_i、Y_i为两张图像的特征向量在第i个维度的值。在第一次的度量里，本算法选取的是行人图片的局部SIFT特征所构建的视觉词袋直方图。之后，把行人图片按相似度排序，取前10％的图片再次进行度量。这里，取这些图片的局部LOMO特征，利用XQDA算法进行度量。

XQDA算法利用少量样本学习得到投影子空间矩阵W。投影子矩阵W公式如下：

之后利用投影子空间矩阵将特征投影到低维子空间，利用KISSME算法得到马氏距离度量矩阵，之后采用马氏距离的算法对前10％的行人图片的距离度量，并再次按相似度排序，得到与输入行人最相似的图像。

XQDA距离度量公式如下：

其中，x和z表示特征向量，W为度量矩阵，∑_I与∑_E分别表示类内与类间特征协方差矩阵。

重排序具体过程见图7。

综上所述，本发明基于视觉词袋模型的行人重识别算法，采用行人图像以及人工特征提取算法，结合跨视图字典学习得到视觉词袋模型，通过视觉词袋模型以及度量学习算法检索跨摄像机下的该行人图像。这种算法不仅提高了行人重识别的准确率，同时也减少了运算量，有效地提高了算法的运算速度。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于视觉词袋模型的行人重识别方法，其特征在于，包括：

步骤101、提取每张图像的局部区域的行人特征；

步骤102、获取每一个行人特征的字典和稀疏表示向量；

步骤103、依据所有行人特征的所述字典、稀疏表示向量，构建每张图像的视觉词袋模型；

步骤104、采用每张图像的视觉词袋模型，获取该图像的视觉词袋直方图；

步骤105、将任意两张图像的每一个行人特征的稀疏表示向量和视觉词袋模型进行匹配，获取匹配结果，所述任意两张图像中的一张图像为一个摄像机中的图像，另一张图像为另一个摄像机中的图像；

所述步骤101包括：采用SIFT特征提取算法和/或LOMO特征提取算法提取每张图像的局部区域的视觉特征描述子；

所述步骤102包括：针对每张图像的所有视觉特征描述子，采用跨视角字典学习算法对视觉特征描述子进行处理，获取每一个视觉特征描述子的字典和稀疏表示向量；

所述步骤103包括：利用K均值聚类算法，将字典中的特征向量进行聚类，得到了一组相关性小于预设阈值的特征向量；基于聚类后的特征向量构成视觉词袋模型；

所述步骤105包括：

余弦距离定义如下：

在第一次的度量里，选取局部SIFT特征所构建的视觉词袋直方图；把所有图像按相似度排序，取前10％的图像再次进行度量；

前10％的图像的局部LOMO特征，利用XQDA算法进行度量；

XQDA算法利用少量样本学习得到投影子空间矩阵W；

投影子空间矩阵W公式如下：

利用投影子空间矩阵将特征投影到低维子空间，利用KISSME算法得到马氏距离度量矩阵，并采用马氏距离的算法对前10％的图像的距离度量，并再次按相似度排序，得到与输入行人最相似的图像；

XQDA距离度量公式如下：

2.根据权利要求1所述的方法，其特征在于，所述步骤102包括：

跨视角字典学习公式：

X₍₁₎＝D₍₁₎P₍₁₎X₍₁₎

X₍₂₎＝D₍₂₎P₍₂₎X₍₂₎

在特征提取之后，获得局部SIFT特征与局部LOMO特征，将局部SIFT特征在某一摄像机视角下的特征表达定义为X_(1,1)，对应的字典与投影矩阵为D_(1，1)与P_(1,1)；

则LOMO特征在该视角下的特征表达定义为X_(1,2)，对应的字典与投影矩阵为D_(1，2)与P_(2,1)；X_(2,1)，D_(2,1)，P_(2,1)，X_(2,2)，D_(2，2)，P_(2，2)分别为在另一个视角下对应的变量；

获取跨视图字典模型的目标函数：

s.t.||d_1l(:,i)||≤1,||d_2l(:,i)||≤1,i＝1,...,m,l＝1,2

3.根据权利要求1所述的方法，其特征在于，所述步骤103具体包括：

采用下述公式定义数据点之间的距离：

1032、将数据按照距离质心的远近分到各个簇中；

4.根据权利要求1所述的方法，其特征在于，采用LOMO特征提取算法提取每张图像的局部区域的视觉特征描述子，包括：

采用Retinex对每张图像进行预处理；

采用滑窗扫描每一张预处理后的图像，采用该图像中被水平滑窗选中的局部区域的HSV颜色直方图以及SILTP算子作为局部区域的特征；