CN103336971B

CN103336971B - 基于多特征融合与增量学习的多摄像机间的目标匹配方法

Info

Publication number: CN103336971B
Application number: CN201310284015.0A
Authority: CN
Inventors: 王慧燕; 郑佳
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2016-08-10
Anticipated expiration: 2033-07-08
Also published as: CN103336971A

Abstract

本发明公开了一种基于多特征融合与增量学习的多摄像机间的目标匹配方法。本发明中的目标的特征模型是指提取目标的SIFT特征，将该特征量化到已创建好的分层词汇树上，形成分层词汇树直方图特征，提取颜色直方图特征，根据两种直方图特征得到初步融合特征，对融合特征实施核PCA降维，提取出非线性融合特征。目标的分类识别是将多目标非线性融合特征送入多类SVM分类器中进行分类识别。目标模型的在线更新是通过对多类SVM分类器增量学习完成的，当摄像机视野域内出现新目标以及目标的外观形态发生较大变化时，目标模型通过增量SVM学习不断被更新。本发明融合了目标的词汇树直方图特征和颜色直方图特征，显著提高了目标的识别率。

Description

基于多特征融合与增量学习的多摄像机间的目标匹配方法

技术领域

本发明属于计算机视觉中的智能视频监控领域，适用于无重叠域多摄像机视频监控的基于多特征融合和增量学习的目标匹配方法。

背景技术

在大型的视频监控场所（如机场、地铁站、广场等），对于无重叠域的多摄像机环境下的目标持续跟踪，多摄像机间的目标匹配是一个关键步骤。此处目标匹配是指多个目标从一个摄像机视野域内进入另一个摄像机视野域时，系统为该多个目标自动分配对应目标标签的过程。传统多摄像机间的目标匹配方法有基于特征的目标匹配和基于跟踪轨迹的目标匹配，然而无重叠域的视频监控环境下，摄像机间是相对独立的，无需费时复杂的摄像机标定，但是彼此间的空间关系、时间关系以及时间差都是未知的，因此传统的基于跟踪轨迹的起点和终点目标匹配的方法已不再适用。在这种情况下，基于特征的匹配是一种可行的选择。基于特征的匹配是多摄像机目标匹配的一种经典方法。目前提取的目标特征主要有颜色直方图特征、方向梯度直方图特征、SIFT特征等。传统的颜色直方图特征容易受光照变化以及摄像机本身的光学特性的影响，对多类目标的识别能力不强。虽然SIFT特征对图像目标的变形和光照变化具有了较强的适应性，定位精度也比较高，但是当SIFT特征直接用于目标匹配时，从每一帧视频图像中提取的目标SIFT特征点个数比较多，有的多达上千个特征点，而每一个特征点又是一个128维的特征向量，这样当SIFT特征用于分类识别时，会造成匹配速度比较慢，实时性不高。一般来说，目标的特征提取后，目标匹配可以采用基于相似度测量的方法完成匹配，例如传统的欧几里德距离和马哈拉诺比斯距离等相似度测量方法。可是为了能够识别新的目标以及适应目标的形态变化，我们需要学习和更新目标的特征模型。因此，使用分类器的方法并进行增量学习是一种更好的目标匹配方法。增量学习是一种典型的在线机器学习方法，无论新样本何时出现，增量学习都会根据从新样本中学习到的新信息来调整模型。与传统的分类技术相比较，增量学习分类技术具有显著地优越性：首先由于其无须保存历史数据，从而减少存储空间的占用，再次，由于其在新的训练中可以充分利用学习的历史结果，使得学习具有延续性，并且很大程度上减少了后续的训练时间。

发明内容

本发明针对现有技术的不足，提供了一种基于多特征融合与增量学习的多摄像机间的目标匹配方法。

本发明方法的具体步骤是：

步骤（1）构建分层词汇树直方图特征：为了得到目标的分层词汇树特征，首先需要建立一个分层词汇树，然后将目标的SIFT特征量化到词汇树上形成词汇树特征，具体步骤为：

（a）首先对训练图像特征进行K均值聚类，从而将特征集划分成K个分支，然后对每一个分支递归地执行K均值聚类从而得到下一层K个更细的分支，通过层层递归直到最大的层数L，最终创建成一个词汇树；整个词汇树的节点数M，即视觉单词数为：

（1）

其中i表示词汇树的第i层。

（b）当词汇树创建好后，由于不同的树节点对于整个被量化的特征集而言有不同的重要性，为每一个节点分配一个权重

（2）

其中N是模型中图像的个数，是至少有一个图像的描述算子特征矢量经过节点i的图像个数。

（c）为了获得每一个目标图像的词汇树直方图，128维的SIFT特征矢量将使用词汇树中的视觉词汇来量化；当一个目标图像的SIFT特征被提取后，它们只需从上而下在每一层逐个与K个候选的聚类中心做比较，从而选择距离最近的聚类中心；对于一个被给定的目标O，在t时刻它的词汇树直方图特征被表示为：

（3）

其中M是整个词汇树中的视觉单词个数，即节点个数，由公式（1）计算出来；为加权的单词直方图；

（4）

其中是路径节点i的SIFT描述算子特征矢量的个数，由公式(2)计算得到。

步骤（2）构建颜色直方图特征：由于 HSV空间更加接近于人们对颜色的主观认识，在目标图像的HSV空间上提取目标的颜色直方图特征；对于被给定的目标O，它在t时刻的HSV颜色直方图特征可以表示为：

（5）

其中表示HSV每一级别的值；

步骤（3）特征融合：首先使用简单连续特征融合策略将词汇树直方图特征与颜色直方图特征结合；然后使用核PCA算法从融合的特征集中提取出非线性特征，从而将融合的特征集降到一定的维数；具体步骤为：

（a）对于一个被给定的目标O，它在t时刻利用连续特征融合策略获得的融合特征向量表示为：

（6）

（b）将特征向量映射到一个高维的特征空间，然后在上实施PCA算法，从而获得最终的非线性特征；在特征映射到高维空间过程中，使用了高斯核函数。

步骤（4）分类识别：将最终目标视频帧的融合非线性特征送入多类SVM中进行训练学习，当目标从一个摄像机视野域内进入另外一个摄像机视野域时，利用多类SVM对目标进行分类识别，并标注对应的目标标签，以供交接摄像机对各目标进行准确的跟踪。

步骤（5）目标模型在线更新：当摄像机视野域内出现新目标以及目标的外观形态发生较大变化时，目标模型通过增量SVM学习被更新；该增量SVM的基本思想是将之前视频帧的所有目标训练样本在保持KKT条件下，扰动新的训练样本；该增量SVM学习方法首先参与修改SVM核函数，然后增量更正之前的结果直到KKT条件满足新的核函数的设置；每一次增量的扰动，将会造成至少一个样本的类别改变，因此当新的样本和增量前的样本都满足KKT条件时，所有的训练样本最终会被分成三个类别，即间隔支持向量，错误支持向量和保留向量；当模型更新后，使用新的目标特征模型，返回步骤（4），利用更新后的特征模型进行分类识别。

本发明的有益效果：该发明由于融合了目标的词汇树直方图特征和颜色直方图特征，显著提高了目标的识别率。该词汇树直方图特征由于是由目标的SIFT特征构建而成，对目标的尺度变化和旋转能够保持不变性，对场景的光照变化具有较强的适应性。该发明对简单连续融合后的特征进行了核PCA降维，有效降低了融合后的特征维数，避免了维数灾难，缩短了目标的识别时间，并且提取出了融合特征中的非线性特征从而消除了因降维而造成的识别率下降。该发明还通过引入增量学习思想对目标特征表示模型实施了在线更新，较好地解决了无重叠域多摄像机视频跟踪中因出现新目标以及原有目标的外观形态发生变化时而造成的匹配失败问题，提高了目标的识别率，满足目标匹配系统的实时性。

具体实施方式

本发明方法包括目标特征的表示和目标模型的在线更新及目标识别三个部分。我们提出的目标匹配方法是将目标的分层词汇树直方图特征，颜色直方图特征与核PCA算法相结合构建一个目标特征表示模型，我们将此模型称之为CVMFH（competitive majorfeature histogram fusion representation），然后使用该融合特征作为多类SVM分类器的输入特征，进行目标的分类识别。同时我们将增量学习引入视频监控领域，在分类器中融入增量学习思想，构建增量SVM分类器，使得在目标分类识别过程中能够不断的对目标的模型进行在线更新。具体步骤如下：

（a）首先对训练图像特征进行K均值聚类，从而将特征集划分成K个分支，然后对每一个分支递归地执行K均值聚类从而得到下一层K个更细的分支，通过层层递归直到最大的层数L，最终创建成一个词汇树。整个词汇树的节点数M，即视觉单词数为：

（1）

（b）当词汇树创建好后，由于不同的树节点对于整个被量化的特征集而言有不同的重要性，我们为每一个节点分配一个权重

（2）

（c）为了获得每一个目标图像的词汇树直方图，128维的SIFT特征矢量将使用词汇树中的视觉词汇来量化。当一个目标图像的SIFT特征被提取后，它们只需从上而下在每一层逐个与K个候选的聚类中心做比较，从而选择距离最近的聚类中心。对于一个被给定的目标O，在t时刻它的词汇树直方图特征被表示为：

（3）

其中M是整个词汇树中的视觉单词个数，即节点个数，由公式（1）计算出来。为加权的单词直方图。

（4）

步骤（2）构建颜色直方图特征：由于 HSV空间更加接近于人们对颜色的主观认识，我们在目标图像的HSV空间上提取目标的颜色直方图特征。对于被给定的目标O，它在t时刻的HSV颜色直方图特征可以表示为：

（5）

其中表示HSV每一级别的值。

步骤（3）特征融合：首先使用简单连续特征融合策略将词汇树直方图特征与颜色直方图特征结合。然后使用核PCA算法从融合的特征集中提取出非线性特征，从而将融合的特征集降到一定的维数。具体步骤为：

（6）

（b）将特征向量映射到一个高维的特征空间，然后在上实施PCA算法，从而获得最终的非线性特征。在特征映射到高维空间过程中，本发明使用了被广泛使用的高斯核函数。

步骤（5）目标模型在线更新：当摄像机视野域内出现新目标以及目标的外观形态发生较大变化时，目标模型通过增量SVM学习被更新。该增量SVM的基本思想是将之前视频帧的所有目标训练样本在保持KKT条件下，扰动新的训练样本。该方法首先参与修改核函数，然后增量更正之前的结果直到KKT条件满足新的SVM核函数的设置。每一次增量的扰动，将会造成至少一个样本的类别改变，因此当新的样本和增量前的样本都满足KKT条件时，所有的训练样本最终会被分成三个类别，即间隔支持向量，错误支持向量和保留向量。当模型更新后，使用新的目标特征模型，返回步骤（4），利用更新后的特征模型进行分类识别。

Claims

1.基于多特征融合与增量学习的多摄像机间的目标匹配方法，其特征在于该方法包括以下步骤：

步骤(1)构建分层词汇树直方图特征：为了得到目标的分层词汇树特征，首先需要建立一个分层词汇树，然后将目标的SIFT特征量化到词汇树上形成词汇树特征，具体步骤为：

(a)首先对训练图像特征进行K均值聚类，从而将特征集划分成K个分支，然后对每一个分支递归地执行K均值聚类从而得到下一层K个更细的分支，通过层层递归直到最大的层数L，最终创建成一个词汇树；整个词汇树的节点数M，即视觉单词数为：

M = Σ_{v = 1}^{L} K^{v} = \frac{K^{L + 1} - 1}{K - 1} - 1 - - - (1)

其中v表示词汇树的第v层；

(b)当词汇树创建好后，由于不同的树节点对于整个被量化的特征集而言有不同的重要性，为每一个节点分配一个权重W_i

W_{i} = \ln \frac{N}{N_{i}} - - - (2)

其中N是模型中图像的个数，N_i是至少有一个图像的描述算子特征矢量经过节点i的图像个数；

(c)为了获得每一个目标图像的词汇树直方图，128维的SIFT特征矢量将使用词汇树中的视觉词汇来量化；当一个目标图像的SIFT特征被提取后，它们只需从上而下在每一层逐个与K个候选的聚类中心做比较，从而选择距离最近的聚类中心；对于一个被给定的目标O，在t时刻它的词汇树直方图特征V_t ^o被表示为：

V_t ^o＝{x₁,x₂,x₃...x_i},i∈1,...M (3)

其中M是整个词汇树中的视觉单词个数，即节点个数，由公式(1)计算出来；x_i为加权的单词直方图；

x_i＝n_iW_i (4)

其中n_i是路径节点i的SIFT描述算子特征矢量的个数，W_i由公式(2)计算得到；

步骤(2)构建颜色直方图特征：由于HSV空间更加接近于人们对颜色的主观认识，在目标图像的HSV空间上提取目标的颜色直方图特征；对于被给定的目标O，它在t时刻的HSV颜色直方图特征表示为：

C_{t}^{o} = {y_{1,} y_{2, ...} y_{j, ...} y_{256}} - - - (5)

其中y_j表示HSV每一级别的值；

步骤(3)特征融合：首先使用简单连续特征融合策略将词汇树直方图特征与颜色直方图特征结合；然后使用核PCA算法从融合的特征集中提取出非线性特征，从而将融合的特征集降低维数；具体步骤为：

(a)对于一个被给定的目标O，它在t时刻利用连续特征融合策略获得的融合特征向量F_t ^o表示为：

F_{t}^{o} = (V_{t}^{o}, C_{t}^{o}) - - - (6)

(b)将特征向量F_t ^o映射到一个高维的特征空间K(F_t ^o)，然后在K(F_t ^o)上实施PCA算法，从而获得最终的非线性特征在特征映射到高维空间过程中，使用了高斯核函数；

步骤(4)分类识别：将最终目标视频帧的融合非线性特征送入多类SVM中进行训练学习，当目标从一个摄像机视野域内进入另外一个摄像机视野域时，利用多类SVM对目标进行分类识别，并标注对应的目标标签，以供交接摄像机对各目标进行准确的跟踪；

步骤(5)目标模型在线更新：当摄像机视野域内出现新目标以及目标的外观形态发生较大变化时，目标模型通过增量SVM学习被更新；该增量SVM的基本思想是将之前视频帧的所有目标训练样本在保持KKT条件下，扰动新的训练样本；该增量SVM学习方法首先参与修改SVM的核函数，然后增量更正之前的结果直到KKT条件满足新的核函数的设置；每一次增量的扰动，将会造成至少一个样本的类别改变，因此当新的样本和增量前的样本都满足KKT条件时，所有的训练样本最终会被分成三个类别，即间隔支持向量，错误支持向量和保留向量；当模型更新后，使用新的目标特征模型，返回步骤(4)，利用更新后的特征模型进行分类识别。