CN102609732B

CN102609732B - 基于泛化视觉词典图的物体识别方法

Info

Publication number: CN102609732B
Application number: CN 201210021813
Authority: CN
Inventors: 黄凯奇; 谭铁牛; 黄永祯; 王冲
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-01-31
Filing date: 2012-01-31
Publication date: 2013-09-25
Anticipated expiration: 2032-01-31
Also published as: CN102609732A

Abstract

本发明公开了一种基于泛化视觉词典图编码的目标识别方法，包括以下步骤：对已经标好类别的目标图像进行特征提取，对提取的特征在视觉词典图上进行泛化编码，对编码结果进行训练并建模；对未知类别的图像进行特征提取，将提取的特征在视觉词典图上进行泛化编码，将编码结果输入到训练得到的模型，获得图像中目标的类别。该方法采用基于泛化视觉词典图的编码技术来提高分类精度，可用于智能视觉监控系统，使得监控系统能真正理解场景；可用于多媒体数字内容分析中的目标分析，判断目标的类别；可用于分析顾客对特定产品或者特定娱乐项目喜好。

Description

基于泛化视觉词典图的物体识别方法

技术领域

本发明涉及模式识别领域，特别涉及一种基于泛化视觉词典图的物体识别方法。

背景技术

近年来，在物体识别领域中，关于目标特征表达的一个非常重要方法就是采用视觉词典来编码图像特征。这一类方法被统称为“基于视觉词典的物体识别方法”。这类方法在当前几乎所有的物体分类数据库和竞赛中都取得了最好的成绩，是当前物体识别研究中占有统治地位的方法。

在基于视觉词典的物体识别方法中，研究得最多的部分就是目标特征编码技术。自从2009年开始，短短的两年时间里，已经有十余种编码技术被公开发表在国际主流会议和期刊上。归纳起来，这些编码方法包括：1)基于硬投票的编码方法；2)基于软投票的编码方法。硬投票编码只在每个局部特征的最近单词上有响应，而软投票编码可以在每个局部特征的最近的多个单词上有响应。

以上这些编码方法只考虑了特征和词典的关系来表征局部特征。实际上视觉词典中的每个单词并不是独立的，而与其他单词有着密切的联系，这种视觉词典中的单词关系构成视觉词典图。结合上述两种编码方法，利用视觉词典图可以更好的表征局部特征。而现有的视觉词典图技术仅仅适用于硬编码方法，使得视觉词典图技术在应用上受到了很大的限制。

发明内容

为了解决现有技术存在的问题，本发明提供一种基于泛化视觉词典图的物体识别方法。

本发明提出一种基于泛化视觉词典图的物体识别方法，其特征在于，该方法包括以下步骤：

步骤1，采集多个训练图像，对多个训练图像分别进行局部采样并在得到的局部采样块上提取尺度不变特征变换SIFT特征，得到训练图像的SIFT特征集合；

步骤2，对得到的SIFT特征集合进行聚类生成多个聚类中心，以聚类中心为视觉单词组成视觉词典；

步骤3，根据视觉词典中视觉单词之间的关系构建视觉词典图；

步骤4，用视觉词典图对提取出来的SIFT特征进行泛化编码，得到一个维度为视觉词典图大小的泛化编码结果向量；

步骤5，对泛化编码结果向量进行最大聚集操作，生成视觉词典图响应，即训练图像的最终特征表达；

步骤6，将所有训练图像的最终特征表达送入分类器进行训练，生成训练模型；

步骤7，输入待识别图像，根据步骤1提取待识别图像的SIFT特征；

步骤8，使用步骤3得到的视觉词典图对提取出的SIFT特征进行泛化编码；

步骤9，对步骤8得到的泛化编码结果进行最大聚集操作生成视觉词典图响应；

步骤10，将步骤9得到的视觉词典图响应送入步骤6生成的训练模型进行测试，从而得到待识别图像中目标类别的识别结果。

根据本发明的方法，图像目标在复杂的情况下，仍然可以鲁棒地达到识别的目的。在智能视觉监控系统中，能够利用本发明帮助监控系统识别场景中目标的类别，使得监控系统能真正理解场景中正在发生什么，而且可以根据不同的目标类别采取不同的安全级别控制。本发明还能够对多媒体数字内容分析中的目标进行分析，判断目标的类别。

附图说明

图1是基于泛化视觉词典图的物体识别方法的流程图。

图2是SIFT特征示意图。

图3是根据本发明的视觉词典图示意图。

图4是泛化视觉词典图编码示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为基于泛化视觉词典图的物体识别方法的流程图，如图1所示，本发明所提出的基于泛化视觉词典图的物体识别方法包括以下步骤：

步骤1，采集多个训练图像，对多个训练图像分别进行局部采样并在得到的局部采样块上提取尺度不变特征变换(Scale Invariant FeatureTransform，SIFT)特征，得到训练图像的SIFT特征集合；

所述步骤1中提取尺度不变特征变化(SIFT)特征进一步包括以下步骤：

步骤1.1，对于一训练图像，以多个关键点为中心找到该训练图像的多个局部采样块；

关键点可以任选图像中的多个点，本发明中，关键点取为对每一行像素进行4采样得到的采样点；局部采样块可为小于训练图像尺寸的任意尺寸，本发明中取为16(4×4)。

步骤1.2，对每个局部采样块进行梯度滤波，得到梯度响应图；本发明中所使用的梯度滤波函数为：其中，σ为高斯平滑系数，(x，y)为采样点坐标。

步骤1.3，根据梯度响应图统计每个局部采样块内各像素点的梯度方向和幅度，即在各局部采样块内统计各方向梯度的信息，得到该训练图像的SIFT特征；

SIFT特征表示形式如图2所示，图2左图表示某个采样点的各个子区域的梯度方向，右图表示在每个4×4的局部采样块进行8个梯度方向的幅值统计。

本发明设定取8个梯度方向，取16个(4×4)局部采样块，最终构成128(8×16)维的特征向量。

步骤1.4，重复步骤1.1-1.3，得到所有训练图像的SIFT特征，组成SIFT特征集合。

传统的视觉词典生成主要是通过聚类。聚类，顾名思义就是把相似的数据聚在一起，使得数据类内尽可能相似，类间尽可能不相似。本发明对提取到的128维SIFT特征向量进行聚类，即在128维的特征空间中进行聚类。最常用的聚类算法是K均值算法(K-means)，聚类后形成了多个子空间区域，每个区域的中心就是区域中所有数据点的均值，称为聚类中心，也被称为视觉单词。

K均值聚类算法的基本过程如下所描述：首先从n个数据样本点中任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到新的聚类中心与老的聚类中心之间的差异收敛为止。

把每个视觉单词视为顶点，而两个视觉单词的连接视为一条边，由此形成的图称为视觉词典图。特别的，对于某个视觉单词，本发明只考虑其与附近几个视觉单词之间的连接，根据本发明所生成的视觉词典图示意图如图3所示。

步骤4，用视觉词典图对每个提取出来的SIFT特征进行泛化编码，得到一个维度为视觉词典图大小的泛化编码结果向量，此向量表示为

其中的字母含义将在下文给出。

所述泛化编码方法示意图如图4所示。

本发明采用如下的泛化准则来表征每个SIFT特征，即对SIFT特征进行泛化编码：

r_iq＝r_i×Ψ[g(x，c_i，c_iq)]

(1)

其中，i＝1，...，M，q＝1，...，Q_i

在公式(1)和图4中，x代表一个SIFT特征；c_i(i＝1，...，M)集合代表视觉词典，M为视觉词典中视觉单词的个数，c_i代表视觉词典中的一个视觉单词；c_iq(q＝1，...，Q_i)是与视觉单词c_i相关联的视觉单词，Q_i是相关联的视觉单词的个数；r_i是x在c_i上的编码响应，而r_iq是x在c_iq上的编码响应，此处的响应反映了两元素经过编码之后的关系，响应值决定于所采用的编码策略，当前广泛采用的三种编码策略可以分为基于距离的编码，基于重构的编码和基于显著度的编码。例如，当采用基于距离的编码时，对于某个SIFT特征，与它距离最近的视觉单词赋予响应1，而其余视觉单词响应均为0；g(·)是度量函数，度量的是两个物理量的相似度，例如在式(1)中，本发明采用的物理量是两个向量之间的角度，度量函数为

其中，<·>表示两个向量的内积，|·|表示向量的模；Ψ(·)是任意形式的函数，在本发明中，可以是最小值函数argmin或指数函数exp。此外，图4中的实线代表每对视觉单词之间的关系，而虚线所夹的区域代表每对视觉单词关系的作用区域。

SIFT特征的泛化编码可分为单词投票编码和单词关系投票编码两种方式，即图4中的层1和层2。而每种编码方式又可进一步分为硬投票和软投票方式，也就是说，存在以下四种编码方式：(1)单词硬投票；(2)单词软投票；(3)单词关系硬投票；(4)单词关系软投票，这四种编码方式均为上文提出的泛化模型的特例。

下面分别对这四种编码方式进行说明：

1.单词硬投票

当Ψ[g(x，c_i，c_iq)]＝1，Q_i＝1，M＝1时，公式(1)转换为如下的单词硬投票编码方法：

r_iq＝r_i

(2)

s.t.i＝1，q＝1

2.单词软投票

当Ψ[g(x，c_i，c_iq)]＝1，Q_i＝1，1＜K≤M时，公式(1)转换为如下的单词软投票编码方法：

r_iq＝r_i

(3)

s.t.i＝1，..，K，q＝1

3.单词关系硬投票

当Ψ＝argmin，g＝θ(xc_i，c_iqc_i)，1＜K≤M时，公式(1)转换为如下的单词关系硬投票编码方法：

r_iq＝r_i

s.t.q＝argminθ(xc_i，c_iqc_i) (4)

i＝1，...，K，q＝1，...，Q_i

θ ({xc}_{i}, c_{iq} c_{i}) = \arccos \frac{< {xc}_{i}, c_{iq} c_{i} >}{| {xc}_{i} | \cdot | c_{iq} c_{i} |} - - - (5)

其中，xc_i和c_iqc_i分别是x和c_iq到c_i的向量，而θ(xc_i，c_iqc_i)是这两个向量之间的角度。

4.单词关系软投票

当Ψ＝exp[-β_SR×θ(xc_i，c_iqc_i)²]，g＝θ(xc_i，c_iqcⁱ)，1＜K≤M时，公式(1)转换为如下的单词关系软投票编码方法。该方法在图4中给出实例示意。

r_iq＝r_i×exp[-β_SR×θ(xc_i，c_iqc_i)²]

i＝1，...，K，q＝1，...，Q_i (6)

其中，β_SR是类高斯函数的平滑系数。

上述单词投票和单词关系投票编码方式可以结合来使用，即从单词硬投票和单词软投票中选择的一种编码方式，与从单词关系硬投票和单词关系软投票中选择的一种编码方式结合起来对SIFT特征进行层次化的泛化编码，正如图4所示，图4中，本发明考虑SIFT特征x₁最近的两个单词c₁和c₂。先对SIFT特征x₁进行单词软投票编码得到c₁上的响应r₁和c₂上的响应r₂，再对编码结果r₁和r₂进行单词关系软投票编码得到c₁→c₂上的响应r₁₂，c₁ →c₃上的响应r₁₃以及c₂→c₁上的响应r₂₁，c₂→c₃上的响应r₂₁。由于不考虑c₃，故r₃₁和r₃₂均为0。于是，x₁的最终表达为P₁＝{r₁₂，r₁₃，r₂₁，r₂₃，0，0}。

这种基于词典图的泛化编码具有如下优点：

1.泛化的词典图编码从单词关系的角度出发，可以方便的嵌入到各种硬投票和软投票方法中。

2.非常容易实现。在计算投票值的过程中不存在任何优化问题，度量函数也可以采用任何形式。在本发明中，采用公式(7)的形式。

3.计算量非常小。算法速度很快，可以实时的与各种编码方法相结合。步骤5，对泛化编码结果进行最大聚集(pooling)操作，生成视觉词典图响应，即每幅训练图像的最终特征表达。

每幅训练图像最终特征表达的获得可以分为两个过程：

首先，使用SIFT特征在视觉词典图上的泛化编码结果对每个SIFT特征进行描述，比如，图4中的SIFT特征x₁可以描述为P₁＝{r₁₂，r₁₃，r₂₁，r₂₃，0，0}。

然后，再对这些描述进行最大聚集操作形成最终的图像特征表达。在最大聚集操作过程中，取每个单词关系上所有SIFT特征响应的最大值，得到一个维度为视觉词典图大小的向量F＝max(|P₁|，|P₂|，...，|P_N|)，其中|·|代表对向量的每个元素取绝对值，F即作为每张图像的最终特征表达。

步骤6，将所有训练图像的最终特征表达送入分类器进行训练，生成训练模型，SVM分类器型的数学表达为f(w)＝sgn{(w·x)+b}；其中，f(w)是关于训练模型w的函数，sgn是0，1符号函数，x是训练样本特征，b是偏置项，其取值由f(w)的优化过程得到；w是训练得到的模型，也通过优化上式得到，它是一个长度与F相等的向量，其意义为：若某一维的权重大，则这一维具有很强的区分能力。在识别新来的样本时，将w与F作内积操作，若值大于零则认为是某一类样本，若小于零则不是此类样本。

在本发明中，采用线型SVM分类器来得到训练模型。

应用场景

基于泛化词典图编码的物体训练和识别方法主要包含训练和识别两个过程，为了详细说明该发明的具体实施方式，以某一个监控场景中的车辆检测系统为例进行说明。这个系统可以判断监控场景中是否含有车辆。

首先要收集大量车辆图像(3000张)和非车辆图像(3000张)，这些图像用于训练车辆识别模型。训练步骤S1如下：

步骤S11：对3000张车辆图像(正样本)和3000张非车辆图像(负样本)进行SIFT特征提取，生成6000组SIFT特征。以平均每组含有2000个SIFT特征来计算，总共提取到12000000(2000×6000)个SIFT特征。

步骤S12：对12000000个SIFT特征进行聚类操作，生成1个包含2000个视觉单词的视觉词典。

步骤S13：根据2000个视觉单词的关系构建视觉词典图。

步骤S14：采用2000个视觉单词构成的视觉词典图来编码所有的12000000个SIFT特征，生成特征响应，即视觉词典图响应。所采用的编码方法为泛化词典图编码(参见公式(1))。

步骤S15：在步骤S14中，一对单词关系可能多次参与特征编码，每次编码操作都会在该单词关系上产生一个响应，所以一对单词关系上可能会有多个响应。本步骤采用MAX pooling，即对于每对单词关系上的多个响应，只保留其最大响应。如果该对单词关系没有任何响应，则该对单词关系的响应值为零。由此，生成视觉词典图响应，即每对单词关系最终都得到一个响应值。

步骤S16：将视觉词典图响应送入支持向量机(SVM)分类器进行训练，生成一个SVM模型。

在识别阶段，将摄像头信号通过采集卡接入计算机来采集测试图片，具体识别步骤如下：

步骤S21：输入一张测试图像，对其进行SIFT特征提取操作，生成1组SIFT特征，含有2000个SIFT特征。

步骤S22：用训练过程中生成的视觉词典图来编码所有的2000个SIFT特征。所采用的编码方法为泛化词典图编码，参见公式(1)，生成特征响应。

步骤S23：在步骤S22中，一对单词关系可能多次参与特征编码，每次编码操作都会在该对单词关系上产生一个响应，所以一对单词关系上可能会有多个响应。本步骤采用MAX pooling，即对于每一对单词关系上的多个响应，只保留其最大响应。如果该对单词关系没有任何响应，则该对单词关系的响应值为零。由此，将生成视觉词典图响应，即每一对单词关系最终都得到一个响应值。

步骤S24：将视觉词典图响应送入训练过程中生成的支持向量机(SVM)分类器模型进行测试，判断测试图像类别，即该图片中含有车辆还是不含有车辆。

综上，本发明提出了一种有效的基于泛化词典图编码的物体训练和识别方案。本发明易于实现、性能稳定，能够提高智能监控系统对监控场景的理解能力，是下一代智能监控系统里的关键技术。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于泛化视觉词典图的物体识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤1中提取尺度不变特征变化SIFT特征进一步包括以下步骤：

步骤1.2，对每个局部采样块进行梯度滤波，得到梯度响应图；

3.根据权利要求2所述的方法，其特征在于，所述关键点取为对所述训练图像每一行像素进行4采样得到的采样点。

4.根据权利要求2所述的方法，其特征在于，所述步骤1.2中使用的梯度滤波函数为：

其中，σ为高斯平滑系数，(x，y)为采样点坐标。

5.根据权利要求1所述的方法，其特征在于，所述步骤2中使用K均值算法对得到的SIFT特征集合进行聚类。

6.根据权利要求1所述的方法，其特征在于，构建所述视觉词典图时，把每个视觉单词视为顶点，把两个视觉单词的连接视为一条边。

7.根据权利要求1所述的方法，其特征在于，所述步骤4中，使用下式对SIFT特征进行泛化编码：

r_iq＝r_i×Ψ[g(x，c_i，c_iq)]，

其中，x代表一个SIFT特征；c_i(i＝1，...，M)集合代表视觉词典，M为视觉词典中视觉单词的个数，c_i代表视觉词典中的一个视觉单词；c_iq(q＝1，...，Q_i)是与视觉单词c_i相关联的视觉单词，Q_i是相关联的视觉单词的个数；r_i是x在c_i上的编码响应，而r_iq是x在c_iq上的编码响应，所述响应反映了两元素经过编码之后的关系；g(·)是度量函数；Ψ(·)是任意形式的函数。

8.根据权利要求7所述的方法，其特征在于，所述泛化编码分为单词投票编码和单词关系投票编码两种方式。

9.根据权利要求8所述的方法，其特征在于，所述泛化编码进一步为层次化的泛化编码：

首先，进行单词投票编码，所述单词投票编码包括单词硬投票编码和单词软投票编码；

然后，基于单词投票编码结果再进行单词关系投票编码，所述单词关系投票编码包括单词关系硬投票和单词关系软投票。

10.根据权利要求9所述的方法，其特征在于，所述单词硬投票编码为：r_iq＝r_i，其中，i＝1，q＝1；

所述单词软投票为：r_iq＝r_i，其中，i＝1，...，K，q＝1，1＜K≤M；

所述单词关系硬投票为：

\{\begin{matrix} r_{iq} = r_{i} \\ s . t . q = \arg \min θ ({xc}_{i}, c_{iq}, c_{i}) \end{matrix}\},

其中，i＝1，...，K，q＝1，...，Q_i，1＜K≤M，xc_i和c_iqc_i分别是x和c_iq到c_i的向量，θ(xc_i，c_iqc_i)是这两个向量之间的角度；

所述单词关系软投票为：r_iq＝r_i×exp[-β_SR×θ(xc_i，c_iqc_i)²]，其中，i＝1，...，K，q＝1，...，Q_i，1＜K≤M，β_SR是类高斯函数的平滑系数。

11.根据权利要求1所述的方法，其特征在于，所述步骤5进一步包括以下步骤：

步骤5.1，使用SIFT特征在视觉词典图上的泛化编码结果对每个SIFT特征进行描述；

步骤5.2，取视觉词典图中每个单词关系上所有SIFT特征响应的最大值，组成一个维度为视觉词典图大小的向量，作为训练图像的最终特征表达。

12.根据权利要求1所述的方法，其特征在于，所述步骤6中的分类器为线型SVM分类器。

13.根据权利要求1所述的方法，其特征在于，所述步骤6中的分类器为：f(w)＝sgn{(w·x)+b}，其中，sgn是0，1符号函数，x是训练样本，b是偏置项，w是训练得到的模型。