CN102509110B

CN102509110B - 基于成对约束的在线词典再加权对图像进行分类的方法

Info

Publication number: CN102509110B
Application number: CN201110325938.7A
Authority: CN
Inventors: 谭铁牛; 黄凯奇; 任伟强; 赵鑫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-10-24
Filing date: 2011-10-24
Publication date: 2014-04-23
Anticipated expiration: 2031-10-24
Also published as: CN102509110A

Abstract

本发明公开了一种基于成对约束的在线词典再加权对图像进行分类的方法，包括：对所有训练集图像进行底层特征提取，构建初始视觉词典；采用稀疏编码对提取的底层特征进行特征变换，得到编码后的特征；对编码后的特征进行最大值汇聚，得到一个用向量表达的特征，以利用分类器进行分类；以及利用成对约束对所述用向量表达的特征进行在线词典再加权，并送入分类器进行训练和分类。本发明利用成对约束，可以有效地编码成对图像之间的关系，基于保守-激进训练策略提出的在线学习算法，大大减少了训练时间，并可以实现增量更新，尤其适用于海量数据集。

Description

基于成对约束的在线词典再加权对图像进行分类的方法

技术领域

本发明涉及计算机视觉中图像分类技术领域，特别涉及一种基于词包模型和在线学习的目标分类的方法。

背景技术

随着计算机运算能力的飞速提升，计算机视觉、人工智能、机器感知等领域也迅猛发展。图像分类作为计算机视觉中一个基本问题之一，也得到了长足的发展。图像分类就是利用计算机对图像进行智能分析，进而判断图像所属的类别。

随着互联网技术、计算机技术的发展，图像分类已经在众多领域中得到了广泛的应用。基于内容的图像检索可以对图像进行基于图像内容的检索，快速获得与检索图像在表观上相似的图像，这是基于文本的图像检索技术无法比拟的。智能视频监控技术在很多机场、博览会、居民小区等公共场所以及国防军事领域发挥了重要的作用，一般的视频监控算法在使用背景建模方法获取到前景目标后，都会使用目标分类方法对目标进行粗分类，然后根据不同目标类别，接下来进行进一步的跟踪、行为分析、行为报警。遥感图像处理中也大量使用图像分类技术，判断地面物体类别，可以有效地帮助专业人员进行快速的分析与处理。目前在计算机、手持设备上大量应用的手写识别，也是图像分类与图像识别技术的典型成功应用。

尽管图像分类技术在很多领域得到了广泛应用，目前还是有很多困难有待解决。当前已有的应用，绝大多数是工作在受限场景下的，对背景、天气、光照、姿态等有较强限制。而在真实场景下，目标的背景、光照、姿态、尺度、视角等，都有可能发生变化，如何在如此大变化下，依然能够对目标做出准确的分类，仍旧是图像分类的一个最重要的难题。科学工作者在这个问题上进行了大量的研究，致力于寻找具有不变性的特征描述子，最著名的有尺度不变特征转换(Scale-invariant feature transform，SIFT)、SURF、HOG(Histogram of Oriented Gradients)等。SIFT特征就是一种对尺度变化不敏感的特征，对旋转也有一定的不变性；也有科研工作者致力于分类器的设计，提出更加鲁棒的分类器，最常见的如支持向量机(supportvector machine，SVM)、Boosting等；还有人从生理学、心理学等领域的理论出发，尝试通过认识人的识别机理，进而应用计算机技术模拟这一过程，实现真正的人工智能。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的是提供一种基于成对约束的在线词典再加权对图像进行分类的方法，以准确、快速地在大尺度数据上对图像进行在线分类。

(二)技术方案

为了达到上述目的，本发明提供了一种基于成对约束的在线词典再加权对图像进行分类的方法，包括：

对所有训练集图像进行底层特征提取，构建初始视觉词典；

采用稀疏编码对提取的底层特征进行特征变换，得到编码后的特征；

对编码后的特征进行最大值汇聚，得到一个用向量表达的特征；以及

利用成对约束对所述用向量表达的特征进行在线词典再加权，并送入分类器进行训练和分类。

(三)有益效果

本发明提供的基于成对约束的在线词典再加权对图像进行分类的方法，与目前国内外发表的最新的方法相比具有几个明显优点：

1)、本发明提供的基于成对约束的在线词典再加权对图像进行分类的方法，基于成对约束实现词典再加权，可以有效编码图像之间的关系，减少类内差别和背景变化的影响。

2)、本发明提供的基于成对约束的在线词典再加权对图像进行分类的方法，再加权向量通过一种在线学习算法迭代学习得到，可以实现增量更新。

3)、本发明提供的基于成对约束的在线词典再加权对图像进行分类的方法，在线学习算法有解析解，在计算时间复杂度和内存消耗上都大大低于一般批量训练算法，非常适合大规模数据上的应用。

附图说明

图1是依照本发明实施例基于成对约束的在线词典再加权对图像进行分类的方法流程图；

图2是依照本发明实施例成对约束的示意图；

图3是依照本发明实施例将最大值汇聚看作一种弱加权过程的示意图；

图4是依照本发明实施例对两张图片之间相似度进行计算的示意图；

图5是依照本发明实施例显示再加权对图片之间相似度影响的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的思想要点是：1)图像分类中常用的汇聚操作可以看作是一种弱加权，本发明通过机器学习得到更强的加权；2)本发明利用成对约束实现词典再加权，可以有效编码图像之间的关系，减少类内差别和背景变化的影响；3)批量训练在计算时间和内存消耗上都代价很高，本发明提出了一种在线学习算法，可以用非常小的代价得到同样甚至更好的结果；4)本发明通过拉格朗日乘子法得到了解析解，使得计算复杂度进一步减少。

如图1所示，图1左边是依照本发明实施例基于成对约束的在线词典再加权对图像进行分类的方法流程图。图1右边部分阐述了该方法的出发点和目的，其中方块形状和三角形状分别代表不同类别的样本点，实线和虚线分别代表了cannot-link和must-link关系。在原始样本空间中，不同类数据点分布有重叠，经过再加权后，同类别的数据点倾向于集中到一起。该方法包括以下步骤：

S1、对所有训练集图像进行底层特征提取，构建初始视觉词典。

特征提取是模式识别和计算机视觉算法中的重要部分。图像描述子一般分为全局描述子和局部描述子，常见的包括SIFT、SURF、HOG、PHOG、颜色描述子、形状上下文等。本实施例中采用密集提取的SIFT特征作为底层特征。对每张图像，X＝{x₁，x₂，...，x_N}∈R^D×N表示从图像中密集提取的N个D维SIFT特征。从所有训练集图像密集提取SIFT特征，并从提取到的所有SIFT特征中随机选择部分SIFT特征，使用K-means聚类算法得到M个聚类中心，作为初始的视觉词典，记为C＝{c₁，c₂，...，c_M}∈R^D×M，其中c_i代表第i个视觉单词，维度为D。

S2、采用稀疏编码对步骤S1中提取到的底层特征进行特征变换，得到编码后的特征。

对底层进行特征变换，先编码到特征空间再进行后续处理已经成为图像分类框架中的标准过程。最常用的是硬投票编码，即对图像的每个局部特征x_i，寻找与其最近的单词，等价为求解下面问题：

\arg \min Σ_{i = 1}^{N} | | x_{i} - {Cb}_{i} | | - - - (1)

s . t . {| | b_{i} | |}_{0} = 1, Σ_{j = 1}^{M} b_{ij} = 1

其中b_i是局部特征x_i再视觉词典C上面的响应。

为了使变换后的特征具有更强的空间局部性、方向性和鲁棒性，本实施例采用了稀疏编码进行特征变换，归结为求解下面最优化问题：

\arg \min Σ_{i = 1}^{N} | | x_{i} - {Cb}_{i} | | + λ | | b_{i} | | - - - (2)

s . t . Σ_{j = 1}^{M} b_{ij} = 1

稀疏编码已经在信号处理、图像处理、计算机视觉、机器学习等领域得到了广泛的研究和发展，大量的生理学、心理学实验结果也证实了稀疏性对于人类视觉处理的重要作用。

S3、对编码后的特征进行最大值汇聚，得到一个用向量表达的特征，以利用分类器进行分类。

在对底层特征进行编码之后，需要对编码后的特征进行汇聚得到一个用向量表达的特征，以利用分类器进行分类。对于硬投票而言，最直观的是用统计直方图，统计每个单词出现的频率。最大值汇聚则是一个更有效的算法，并且在生理学实验上找到了一定的依据。基本思想就是，对于每个单词，每个局部特征都在该单词上有一个响应，取最大的响应作为该单词的响应，忽略其他响应。最大值汇聚可以有效地对图像进行表达，压制噪声的影响，更重要的是可以获得一定的不变性。

S4、利用成对约束对所述用向量表达的特征进行在线词典再加权，并送入分类器进行训练和分类。

为进一步改善基于词包模型的图像分类系统的性能，本实施例提出一种词典再加权算法，以克服其他现有算法的一些缺点。下面将详细介绍再加权的思想、实现以及优化求解过程。

定义I＝{I₁，I₂，...，I_n}代表n张图片，y＝{y₁，y₂，...，y_n}为对应的标记。每张图片I_i分别经过稀疏编码和最大值汇聚，得到一个表达向量p_i。

本实施例利用成对约束来进行词典再加权，成对约束是编码图像之间关系的一种很自然的表达方式。如图2中所示，同类别图像之间使用must-link，不同类别图像之间使用cannot-link。p_i的每个元素可以看作是对应单词的权重。我们使用两幅图对应的特征向量的相交核作为两幅图之间的相似度，用下面公式计算：

d_i，j＝min(p_i，p_j) (3)

d_{i, j} = Σ_{m = 1}^{M} d_{i, j} (m) - - - (4)

其中d_i，j(m)是向量d_i，j的第m维元素。

图4给出了依照本发明实施例对两张图片之间相似度进行计算的示意图，从图中可以直观的看出相似度的计算。

图3中给出了依照本发明实施例将最大值汇聚看作一种弱加权过程的示意图，从图中可以看出，最大值汇聚实际上可以看作是一种弱加权操作，从更一般的角度来说，再加权后图片间相似度定义为：

d_{i, j}^{w} = w^{T} d_{i, j} - - - (5)

其中w是权值向量。

进一步，成对约束可以这样构造：

d_{i, j}^{w} > d_{i, k}^{w}, y_{i} = y_{j}, y_{i} &NotEqual; y_{k}, &ForAll; i, j, k - - - (6)

从上面公式可以看出，再加权后同类图片之间的相似度倾向大于异类图片之间的相似度，这无疑将减少类内差异和背景变换的影响。图5给出了依照本发明实施例显示再加权对图片之间相似度影响的示意图，可以看出，再加权后，同类图片之间的相似度倾向于增大，而异类之间的相似度则倾向于减小。尽管使用成对约束有上列优点，计算成对约束有非常高的计算复杂度和存储需求。本实施例提出了一种在线学习算法来解决这个问题。

定义三元组

{I_{i}, I_{j}, I_{k} | &ForAll; i, j, k, y_{i} = y_{j}, y_{i} &NotEqual; y_{k}},

成对约束可扩展成

d_{i, j, k}^{w} > 1, y_{i} = y_{j}, y_{i} &NotEqual; y_{k}, &ForAll; i, j, k - - - (7)

其中

d_{i, j, k}^{w} = d_{i, j}^{k} - d_{i, k}^{w}

上面公式意味着我们期望达到边界至少为1，损失函数使用下面形式：

l (d_{i, j, k}^{w}) = \max (0,1 - d_{i, j, k}^{w}) - - - (8)

对于批量学习过程，即使是非常小的数据库，在所有三元组上面最小化上述损失函数都有非常高的复杂度。本实施例采用一种保守-激进训练策略迭代更新权值向量。

具体说来，在每次迭代过程中，新的权值向量通过求解下列优化问题得到：

w^{t} = \arg \min_{w &Element; R^{M}} \frac{1}{2} {| | w - w^{t - 1} | |}_{2}^{2} + Cξ - - - (9)

s . t . l (d_{i, j, k}^{w}) \leq ξ, ξ &GreaterEqual; 0, &ForAll; i, j, k

该迭代过程在损失函数大时“激进”更新权值向量，再损失函数小时“保守”更新权值向量，因而称为保守-激进过程。保守和激进之间的权衡是由参数C来控制的。

利用拉格朗日乘子法，本实施例给出了权值向量更新问题的解析解。

拉格朗日目标函数为

L (w, τ_{1}, τ_{2}, ξ) = \frac{1}{2} {| | w - w^{t - 1} | |}_{2}^{2} + Cξ + τ_{1} (1 - w^{T} d_{i, j, k} - ξ) - τ_{2} ξ - - - (10)

其中τ₁≥0，τ₂≥0是拉格朗日乘数。关于w对拉格朗日目标函数(10)求偏导数

\frac{&PartialD; L (w, τ_{1}, τ_{2}, ξ)}{&PartialD; w} = w - w^{t - 1} - τ_{1} d_{i, j, k} = 0 - - - (11)

对上面公式整理可以得到下面的权值向量更新公式

w＝w^t-1+τ₁d_i，j，k (12)

关于ξ对拉格朗日目标函数求偏导数

\frac{&PartialD; L (w, τ_{1}, τ_{2}, ξ)}{&PartialD; ξ} = C - τ_{1} - τ_{2} = 0 - - - (13)

将公式(11)和(12)分别代入拉格朗日目标函数(10)，得到下面关于τ₁的拉格朗日函数

L (τ_{1}) = - \frac{1}{2} τ_{1}^{2} {| | d_{i, j, k} | |}^{2} + τ_{1} (1 - {(w^{t - 1})}^{T} d_{i, j, k}) - - - (14)

对(14)式关于τ₁求导数，并令其为零，得到

τ_{1} = \frac{1 - {(w^{t - 1})}^{T} d_{i, j, k}}{{| | d_{i, j, k} | |}^{2}} - - - (15)

由于τ₁≤C，τ₂≥0，综合(15)式，得到下式

τ_{1} = \min (C, \frac{1 - {(w^{t - 1})}^{T} d_{i, j, k}}{{| | d_{i, j, k} | |}^{2}}) - - - (16)

使用(12)、(16)式给出的解析解迭代更新权值向量，理论和实验表明在计算时间复杂度和内存需求上，均大大小于常规批量学习算法。

为了更好地说明本实施例的具体实施方式，下面按以下步骤对本发明进一步详细阐述：

步骤S1：特征提取。对图像在一个密集的网格上提取SIFT特征。

步骤S2：稀疏编码。对局部SIFT描述子进行k-means聚类，得到一个视觉字典，并用该视觉字典对局部SIFT描述子进行稀疏编码。

步骤S3：最大值汇聚。对一个区域内稀疏编码后的特征进行最大值汇聚。

步骤S4：词典再加权。对训练集中任意一个三元组

使用(12)和(16)迭代求解权值向量。利用权值向量对步骤S3得到的特征进行再加权，送入分类器进行训练和分类。

总之，本发明提出了一种新的基于成对约束的视觉词典再加权算法，并使用在线学习方法进行求解，实验表明该发明与主流图像分类算法相比具有计算复杂度低、内存消耗少、快速、准确等优点，适合大尺度数据下的图像分类应用。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，包括：

对所有训练集图像进行底层特征提取，构建初始视觉词典；

利用成对约束对所述用向量表达的特征进行在线词典再加权，并送入分类器进行训练和分类；

其中，所述利用成对约束对所述用向量表达的特征进行在线词典再加权，包括：

定义I={I₁，I₂，...，I_n}代表n张图片，y={y₁，y₂，...，y_n}为对应的标记，每张图片I_i分别经过稀疏编码和最大值汇聚，得到一个表达向量p_i；

利用成对约束来进行在线词典再加权，成对约束是编码图像之间关系的一种很自然的表达方式，同类别图像之间使用must-link，不同类别图像之间使用cannot-link；p_i的每个元素是对应单词的权重；使用两幅图对应的特征向量的相交核作为两幅图之间的相似度，用下面公式计算：

d_i，j=min(p_i，p_j)

d_{i, j} = Σ_{m = 1}^{M} d_{i, j} (m)

其中d_i，j(m)是向量d_i，j的第m维元素，p_i，p_j分别是由图片I_i，I_j在最大值汇聚后得到特征向量；

再加权后图片间相似度定义为：

d_{i, j}^{w} = w^{T} d_{i, j}

其中w是权值向量；

进一步，成对约束能够这样构造：

d_{i, j}^{w} > d_{i, k}^{w}, y_{i} = y_{j}, y_{i} &NotEqual; y_{k}, &ForAll; i, j, k

其中

d_{i, j}^{w} = w^{T} d_{i, j},

这里

d_{i, j} = Σ_{m = 1}^{M} d_{i, j} (m),

d_i，j(m)是d_i，j的第m维元素，w是权值向量。

2.根据权利1所述的基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，所述对所有训练集图像进行底层特征提取，构建初始视觉词典，包括：

采用密集提取的尺度不变特征转换SIFT特征作为底层特征，对于每张图像X={x₁，x₂，…，x_N}∈R^D×N表示N个从图像中密集提取的D维SIFT特征；从所有训练集图像中密集提取SIFT特征，并从提取到的所有SIFT特征中随机选择部分SIFT特征，使用K-means聚类算法得到M个聚类中心，作为初始的视觉词典，记为C={c₁，c₂，…，c_M}∈R^D×M，其中c_j代表第i个视觉单词，维度为D。

3.根据权利1所述的基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，所述采用稀疏编码对提取的底层特征进行特征变换，是通过求解以下公式的最优化问题实现的：

\arg \min Σ_{i = 1}^{N} | | x_{i} - {cb}_{i} | | + λ {| | b_{i} | |}_{1}

s . t . Σ_{j = 1}^{M} b_{ij} = 1

其中，X_j是一个D维SIFT特征，C是由M个聚类中心构成的视觉字典，b_i是局部特征x_i在视觉词典C上面的响应，b_ij是b_i的第j维元素，λ是惩罚系数。

4.根据权利1所述的基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，所述对编码后的特征进行最大值汇聚，得到一个用向量表达的特征，包括：

对于编码后的特征中的每个单词，每个局部特征都在该单词上有一个响应，取最大的响应作为该单词的响应，忽略其他响应，并将该单词的响应作为一个用向量表达的特征。

5.根据权利1所述的基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，所述利用成对约束对所述用向量表达的特征进行在线词典再加权的步骤中，所述成对约束的计算采用在线学习方法求解基于成对约束的再加权向量，该方法包括：

采用3张图片组成一个三元组

{I_{i}, I_{j}, I_{k} | &ForAll; i, j, k, y_{i} = y_{j}, y_{i} &NotEqual; y_{k}},

成对约束可扩展成

d_{i, j, k}^{w} > 1, y_{i} = y_{i}, y_{i} &NotEqual; y_{k}, &ForAll; i, j, k

其中，

d_{i, j, k}^{w} = d_{i, j}^{w} - d_{i, k}^{w}

上面公式意味着期望达到边界至少为1，损失函数使用下面形式：

l (d_{i, j, k}^{w}) = \max (0,1 - d_{i, j, k}^{w})

对于批量学习过程，即使是非常小的数据库，在所有三元组上面最小化上述损失函数都有非常高的复杂度，所以采用保守-激进训练策略迭代更新权值向量。

6.根据权利5所述的基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，所述采用保守-激进训练策略迭代更新权值向量，是在每次迭代过程中使用三元组按下面公式更新权值向量：

w^{t} = \underset{w &Element; R^{M}}{\arg \min} \frac{1}{2} {| | w - w^{t - 1} | |}_{2}^{2} + Cξ

s . t . l (d_{i, j, k}^{w}) \leq ξ, ξ &GreaterEqual; 0, &ForAll; i, j, k

其中t是迭代次数，ξ是松弛变量，用来控制模型复杂度，防止更新过拟合；该迭代过程在损失函数大时“激进”更新权值向量，在损失函数小时“保守”更新权值向量，因而称为保守-激进过程，其中保守和激进之间的权衡是由参数C来控制的；并且，在该迭代过程中权值向量w更新采用拉格朗日乘子法实现。

7.根据权利6所述的基于成对约束的在线词典再加权对图像进行分类的方法，其特征在于，所述在该迭代过程中权值向量w更新采用拉格朗日乘子法实现，具体包括：

拉格朗日目标函数为

L (w, τ_{1}, τ_{2}, ξ) = \frac{1}{2} {| | w - w^{t - 1} | |}_{2}^{2} + Cξ + τ_{1} (1 - w^{T} d_{i, j, k} - ξ) - τ_{2} ξ - - - (10)

其中τ₁≥0，τ₂≥0是拉格朗日乘数，t是迭代次数，τ是拉格朗日乘子，ξ是松弛变量，用来控制模型复杂度，用来防止更新过拟合；关于w对拉格朗日目标函数(10)求偏导数

\frac{&PartialD; L (w, τ_{1}, τ_{2} ξ)}{&PartialD; w} = w - w^{t - 1} - τ_{1} d_{i, j, k} = 0 - - - (11)

对上面公式整理可以得到下面的权值向量更新公式

w＝W^t-1+τ₁d_i,j,k (12)

关于ξ对拉格朗日目标函数求偏导数

\frac{&PartialD; L (w, τ_{1}, τ_{2}, ξ)}{&PartialD; ξ} = C - τ_{1} - τ_{2} = 0 - - - (13)

L (τ_{1}) = - \frac{1}{2} τ_{1}^{2} {| | d_{i, j, k} | |}^{2} + τ_{1} (1 - {(w^{t - 1})}^{T} d_{i, j, k}) - - - (14)

对(14)式关于τ₁求导数，并令其为零，得到

τ_{1} = \frac{1 - {(w^{t - 1})}^{T} d_{i, j, k}}{{| | d_{i, j, k} | |}^{2}} - - - (15)

由于τ₁≤C，τ₂≥0，综合(15)式，得到下式

τ_{1} = \min (C, \frac{1 - {(w^{t - 1})}^{T} d_{i, j, k}}{{| | d_{i, j, k} | |}^{2}}) - - - (16)

使用公式(12)、(16)给出的解析解迭代更新权值向量。