CN105335500A

CN105335500A - 协变局部特征聚集的图像特征表示法

Info

Publication number: CN105335500A
Application number: CN201510710221.2A
Authority: CN
Inventors: 赵万磊; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2015-10-28
Filing date: 2015-10-28
Publication date: 2016-02-17
Anticipated expiration: 2035-10-28
Also published as: CN105335500B

Abstract

协变局部特征聚集的图像特征表示法，涉及计算机视觉与多媒体信息检索。提取图像局部特征；离线训练一个小的视觉词汇集合；将每幅图的局部特征用简化的费舍尔核方法进行聚集；聚集时，同时考虑每个局部特征的主方向信息,将主方向分为8个量化区间，根据量化后的主方向值，聚集到不同的费舍尔子向量，8个子向量拼接为一个长向量，作为图像的特征表示；将8个费舍尔子向量重组得一系列8维的子向量。对每个子向量进行一维离散余弦变换，变换到该特征的频率域；再对频率域的特征重组，得不同频段的8个子向量，对每个子向量做主成分分析，再对降维后的8个子向量重组得一系列8维的子向量；在子向量上定义相似度度量，以计算图像两两间的相似度。

Description

协变局部特征聚集的图像特征表示法

技术领域

本发明涉及计算机视觉与多媒体信息检索，具体是涉及协变局部特征聚集的图像特征表示法。

背景技术

随着Web2.0的引入以及各种便携式移动多媒体设备，如智能手机、iPad、数码照相机等的普及，互联网上有着数以千亿的多媒体资源。这些多媒体资源，主要以图像和视频的形式存在。据2014年的统计，每分钟就有超过3300幅照片上传到全球最大的照片分享网站Flickr上。Flickr所维护的照片总数已经超过了70亿张。在国内最大的视频分享网站YouKu，其视频总数在2010年已经达到4500万个，日均上传6万个。注意到以上照片和视频分享网站的数据规模仍以较快速度增长。面对互联网海量多媒体数据，如何对其进行有效的组织、管理允许用户以便捷的方式检索及浏览成为一个亟待解决的问题。

目前，对于基于内容的图像检索的解决方法主要有两种思路。一种是基于词袋模型，另一种是基于费舍尔核的方法(即把局部特征全局化)。前者的优点是便于加入各种对检索结果的优化方案，例如加入各种视觉和几何验证，缺点是所需存储空间较大。计算复杂度与数据集所衍生的局部特征总数呈线性关系。这通常比图像库大小本身大三个数量级。当图像库达到百亿级时，计算的时间和空间代价都非常大。

基于费舍尔核的方法将局部特征聚集为一个高维向量。其具体方法是总体上可以分为两个步骤。首先从图像提取局部特征，图像被表示为一个局部特征集；接着把一个输入局部特征量化到一个视觉词汇并进行累集。在第二步中，累集操作只针对局部特征同其对映的词汇之间的差值。最终，对一幅图，得到一个长德向量表示。这个向量被称为局部累集特征向量。注意到，这里需要一个视觉词汇。通常使用的视觉词汇从几十个到几百个，远小于采用视觉词汇量化方法时使用的视觉词汇数目。该方法的优点是可以很大程度上压缩图像局部特征。当同主成分分析方法结合时，这个长向量可以大幅降维，同时保持较高的可区分性。当进一步与积量化的最近邻检索算法结合时，该表示方法可以有效降低内存消耗。

发明内容

本发明的目的在于提供一种协变局部特征聚集的图像特征表示法。

本发明包括以下步骤：

1)提取图像的局部特征，采用描述子进行描述，一幅图像被表示为一系列描述子的集合χ，同时获得每个局部特征的主方向θ；

2)用一个独立的图像集，提取并收集其局部特征，从而生成一个由描述子组成的矩阵；采用K平均聚类算法，获得K个聚类中心，K一般设为32至64之间的一个整数值，K个聚类中心作为视觉词汇集C＝{c_1...K}；

3)采用如下公式(1)对一幅图的每个局部特征进行简化的费舍尔聚集：

其中，q(x)在C中找到最近邻c_i,b＝B(θ)；c_i为视觉词汇集C＝{c_1...K}中离局部特征x(x∈χ)最近的视觉词汇；函数B(θ)对图像局部特征x的主方向θ进行量化，主方向量化为8个量化区段，公式(1)将一个图像的一系列描述子转化为一个长的向量Y表示，根据主方向的量化值，长向量又分为多个子向量，由于使用8个量化区段，因此有8个子向量，即Y＝{P¹,P²,...,P⁸}；

4)将获得的8个费舍尔子向量重组，获得一系列8维的子向量；

在步骤4)中，所述将获得的8个费舍尔子向量重组，获得一系列8维的子向量的具体做法可为：

把8个子向量每个对映维度放到一起，按量化主方向值一次排列，获得一系列8维子向量，如果把Y看作一个8行的矩阵，这个重组操作相当于对Y进行转置操作；

对得到的每个8维子向量逆排(逆序操作如公式(2)所示)后进行1维离散余弦变换(II型离散余弦变换)。给定重组后得到的一个子向量Q，逆序操作如下：

Q = [q_{1}, q_{2}, q_{3}, ..., q_{7}, q_{8}] &DoubleRightArrow; \overset{&OverBar;}{Q} = [q_{8}, q_{7}, q_{6}, ..., q_{2}, q_{1}] - - - (2)

5)再对这一系列8维子向量组成的向量进行重组，把所有8维子向量对映维放到一起，依次排列，获得8个子向量；如果把离散余弦变换得到一系列8维子向量看作一个有8列的矩阵，这个重组操作相当于对矩阵进行转置；然后，对重组后得到的每个子向量做主成分分析，以降低整个特征的维度；

6)再对降维之后的8个子向量进行重组；

在步骤6)中，所述对降维之后的8个子向量进行重组的具体做法可为：把8个子向量每个对映维度放到一起，按量化主方向值一次排列，获得一系列8维子向量；

7)在由一系列8维子向量拼合成的向量上定义距离度量，以衡量图像两两之间的相似度。距离度量如公式(3)：

S (U, V) = Σ_{i = 1}^{d} < u^{i}, v^{i} > - - - (3)

其中，||uⁱ||₂＝||vⁱ||₂＝1，d是子向量的个数，U和V分别为两幅图像经步骤A至F获得的向量表示，uⁱ和vⁱ是它们的各自的子向量；这里假设它们分别由d个子向量组成；子向量uⁱ和vⁱ进行内积运算。

在大规模图像检索的情况下，公式(3)定义的距离度量需要高效的最近邻查找算法做支撑。注意到，公式(2)的距离度量是d个距离之和。这里每个距离度量可以分别进行。本发明提出可以对每个子向量单独进行索引，d个最近邻查找可以并行进行。

本发明将提出一种基于费舍尔核方法的图像表示方案，并将这种表示方法应用到基于内容的大规模图像检索上。该表示方法首先将图像局部特征的主方向信息作为特征累集时的一个量化参数，将属于不同主方向的局部特征累集到不同子向量上。之后将该特征用一维离散余弦变换转换到其频率域。在频率域进行主成分分析和距离度量。本发明所设计的图像表示方法具有很好区分力和可伸缩性。

附图说明

图1为协变局部特征聚集表示与当前主流方法在图像检索测试集上的结果对比。原图像集大小为1492幅图。为测试本发明方法的可伸缩性，测试逐渐添加候选集至1百万幅图。

具体实施方式

本发明实施例包括以下步骤：

4)将获得的8个费舍尔子向量重组，获得一系列8维的子向量，具体做法为：

Q = [q_{1}, q_{2}, q_{3}, ..., q_{7}, q_{8}] &DoubleRightArrow; \overset{&OverBar;}{Q} = [q_{8}, q_{7}, q_{6}, ..., q_{2}, q_{1}] - - - (2)

6)再对降维之后的8个子向量进行重组，具体做法为：把8个子向量每个对映维度放到一起，按量化主方向值一次排列，获得一系列8维子向量；

S (U, V) = Σ_{i = 1}^{d} < u^{i}, v^{i} > - - - (3)

测试采用了国际通用的Holidays数据集合，外加100万候选集测试方法的可伸缩性。图像检索评价标准采用平均准确率。本发明方法不同配置下的结果标记为：本发明的方法1和本发明的方法2。其中，本发明的方法1采用了黑森检测子提取局部特征，并且在检索时采用了积量化作为最近邻检索结构。本发明方法2采用了密集采样提取局部特征，并且在检索时采用了积量化作为最近邻检索结构。

从图1可以看到，对于本发明方法1和发明方法2，当测试数据增加至10万幅图以上，其平均准确率超过现有所有主流方法。并且准确率下降的趋势很缓慢，从而显示出很高的可伸缩性。

表1给出本发明所提出的方法在1百万级图库上进行图像检索的平均时间耗费及内存耗费。测试在一台配置有2.4G赫兹英特尔至强中央处理器和64G内存的工作站上进行。测试过程采用单线程。

表1

方法	方法1	方法2	方法3	方法4	本发明方法1	本发明方法2
							时间(s)	0.992	0.992	1.867	1.06	1.029	1.029
内存耗费(字节数/图)	67	67	18228	8885	256	256
							平均准确率(％)	30.4	41.9	54.1	33.8	55.2	66.3

从表1可以看出，本发明方法1和本发明方法2在准确率上均高于目前主流方法。并且在内存耗费和检索时间的消耗上远低于方法3和方法4，而与方法1和方法2接近。因此，本发明方法1和本发明方法2在检索平均准确率和时间、内存耗费之间获得了一个更好的折衷。

方法1对应的方法为FlorentPerronnin等人提出的方法(FlorentPerronnin,Y.Liu,J.Sanchez,andH.Poirier:Large-scaleimageretrievalwithcompressedFishervectors,CVPR,pp.3384-3391,June2010.)

方法2对应的方法为HerveJegou等人提出的方法(HerveJegou,MatthijsDouze,CordeliaSchmidandPatrickPerez:Aggregatinglocaldescriptorsintoacompactimagerepresentation,CVPR,pp.3304-3311,Jun.,2010.)

方法3对应的方法为HerveJegou等人提出的方法(HerveJegou,MatthijsDouze,CordeliaSchmid:Hammingembeddingandweakgeometricconsistencyforlargescaleimagesearch,ECCV,pp.304-317,2008.)

方法4对应的方法为J.Sivic和A.Zisserman提出的方法(VideoGoogle:ATextRetrievalApproachtoObjectMatchinginVideos,ICCV,pp.1470-1477,Oct.2003.)

本发明提供一种图像特征表示方法及定义在该表示方法上的距离度量方式，包括步骤：A.提取图像局部特征，其中包括每个局部特征的描述子和每个局部特征的主方向；B.离线训练一个小的视觉词汇集合(通常包含32至128个词汇)；C.将每幅图的局部特征用简化的费舍尔核方法进行聚集。聚集时，同时考虑每个局部特征的主方向信息(0～2π),将主方向分为8个量化区间，根据量化后的主方向值，聚集到不同的费舍尔子向量，8个子向量拼接为一个长向量，作为图像的特征表示；D.将获得的8个费舍尔子向量重组，获得一系列8维的子向量。对每个子向量进行一维离散余弦变换，变换到该特征的频率域；E.再对频率域的特征进行重组，得到不同频段的8个子向量，对每个子向量做主成分分析，以降低整个特征的维度；F.再对降维之后的8个子向量进行重组，得到一系列8维的子向量；G.在子向量上定义相似度度量，以计算图像两两之间的相似度；H.对于大规模图像检索的情形，提出对每个子向量分别索引，整个图像检索可以并行进行。

Claims

1.协变局部特征聚集的图像特征表示法，其特征在于包括以下步骤：

4)将获得的8个费舍尔子向量重组，获得一系列8维的子向量；

5)再对所述一系列8维的子向量组成的向量进行重组，把所有8维的子向量对映维放到一起，依次排列，获得8个子向量；如果把离散余弦变换得到一系列8维的子向量看作一个有8列的矩阵，这个重组操作相当于对矩阵进行转置；然后，对重组后得到的每个子向量做主成分分析，以降低整个特征的维度；

6)再对降维之后的8个子向量进行重组；

7)在由一系列8维的子向量拼合成的向量上定义距离度量，以衡量图像两两之间的相似度；距离度量如以下公式(3)：

S (U, V) = Σ_{i = 1}^{d} < u^{i}, v^{i} > - - - (3)

2.如权利要求1所述协变局部特征聚集的图像特征表示法，其特征在于在步骤4)中，所述将获得的8个费舍尔子向量重组，获得一系列8维的子向量的具体做法为：

把8个子向量每个对映维度放到一起，按量化主方向值一次排列，获得一系列8维的子向量，如果把Y看作一个8行的矩阵，这个重组操作相当于对Y进行转置操作；

对得到的每个8维的子向量逆排后进行1维离散余弦变换即II型离散余弦变换，给定重组后得到的一个子向量Q，逆序操作如下公式(2)：

Q = [q_{1}, q_{2}, q_{3}, ..., q_{7}, q_{8}] &DoubleRightArrow; \overset{&OverBar;}{Q} = [q_{8}, q_{7}, q_{6}, ..., q_{2}, q_{1}] - - - (2) .

3.如权利要求1所述协变局部特征聚集的图像特征表示法，其特征在于在步骤6)中，所述对降维之后的8个子向量进行重组的具体做法为：把8个子向量每个对映维度放到一起，按量化主方向值一次排列，获得一系列8维子向量；

在大规模图像检索的情况下，权利要求1所述公式(3)定义的距离度量需要高效的最近邻查找算法做支撑；权利要求2所述公式(2)的距离度量是d个距离之和，这里每个距离度量可以分别进行；可以对每个子向量单独进行索引，d个最近邻查找可以并行进行。