CN106611016B

CN106611016B - 一种基于可分解词包模型的图像检索方法

Info

Publication number: CN106611016B
Application number: CN201510708176.7A
Authority: CN
Inventors: 姜帆; 胡海苗; 郑锦; 李波
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2019-04-05
Anticipated expiration: 2035-10-27
Also published as: CN106611016A

Abstract

本申请提出了一种基于可分解词包模型的图像检索方法，所述方法包括以下四个部分：第一、对图像提取多种特征，并且单独为每种特征建立索引；第二、针对上述特征中的索引，利用词包模型组织每种特征数据，并对特征数据进行聚类，以聚类中心作为词包模型中的词条；第三、为多特征检索建立线性判别函数，通过预检索过程以最小均方差准则学习特征的显著性权重，并作为线性判别函数中的系数；第四、在检索过程中，每种特征均独立地给出候选集。最终的检索结果利用每种特征的显著性权重，以线性判别函数对多特征对检索结果进行聚合。该方法能获得较高检索准确率，并且适用于实际的大规模图像检索应用。

Description

一种基于可分解词包模型的图像检索方法

技术领域

本申请涉及一种图像检索方法，尤其涉及一种基于可分解词包模型的图像检索方法，属于计算机视觉和模式识别领域。

背景技术

随着多媒体技术的发展，数字图像因其直观形象的表现形式，在互联网、卫星系统、信息管理以及各类监控系统中得到广泛应用。在数字图像大规模应用的背景下，其数量在急剧增长。因此，面对这样一个巨大的、实时扩展、时刻变化的图像数据库，如何有效地组织和管理，并且在浩如烟海的图像数据库中找到所需图像，成为相关领域的研究热点。

针对基于本文检索的传统图像检索效率低下且无法在图像内容层面上对图像进行检索的局限性，基于内容的图像检索(CBIR,Content-based Image Retrieval)应运而生。CBIR首先选择合适的特征来表示图像，并对已有图像建立特征数据库。在对图像进行查询的时候，提取待查询图像的相应特征，然后与数据库中的图像特征进行比对，返回特征数据上相似的图像作为候选图像。

特征索引是加速CBIR过程的重要技术手段。在检索的过程中，待检索图像先与索引项进行比对，过滤掉大部分不相似的图像，然后再对索引项下的图像逐一匹配，从而得到候选图像。词包模型(BoW,Bag of Words)是基于内容的图像检索中广泛应用的特征索引方法。BoW来源于文本检索，在计算机视觉中，BoW将图像看作是一篇文档(Document)，而其特征则是文档中的单词(Word)。BoW通过聚类等手段将在度量空间上距离相近的特征归入同一个词条，将所有的词条组成词典(Codebook)，所有的图像均由词条来表示。词包模型以词汇树(Vocabulary Tree)的形式组织所有单词，以词条作为索引项用于检索，或者以词频统计直方图对文档进行编码，然后以倒排的方式建立索引。

针对大规模图像数据，除了数据量在动态变化之外，图像的类型也随着数据量的增长而增加。传统的词包模型针对的一类图像适用的单种特征无法应对动态图像的复杂性。因此多特征的图像检索在提升检索准确率方面是至关重要的。

针对此问题，许多研究者从如下两个方面进行解决：基于特征级融合的检索，即在建立索引之前对多种特征进行有效的融合，使得融合成的新特征能够包含多种特征的信息，从而提升检索准确率；基于决策级融合的检索，首先在全库中筛选出多个候选集，然后通过某种准则对候选目标进行检索聚合，从而给出符合条件的检索结果。

在大规模多特征数据的应用背景下，现有的检索方法存在以下两个方面不足：

(1)基于多特征融合的方法容易受特征间的相互影响干扰

针对多特征数据，特征的融合必然带来多特征之间的相互影响。简单的特征融合难以保证这种影响能够有利于提高检索准确率。一方面，当显著的特征与不显著的特征融合在一起，可能造成检索准确率的下降(如图2所示)；另一方面，面向不同信息类型的特征，由于数据形式大相庭径，简单融合可能引发其中某些特征所携带信息的埋没(如图3所示)。根据图2、图3中对比较两种特征单独检索与经过简单拼接的融合后的检索结果可知，简单地融合多个特征并不能保证最终的检索准确率高于原有的单个特征。

针对以上问题，虽然前人在特征融合技术上已有较为成熟的研究，融合的特征也常被用在CBIR系统中建立索引，然而特征融合需要大量的先验知识作为背景。在大规模图像数据上，先验知识较少，不利于进行多特征的融合。使用固定的融合特征，则会随着图像数据集的改变而无法确定特征的有效性。其他基于决策融合的方法，也存在一定的局限性。例如，基于统计排序的方法没有考虑特征本身的检索效果，仅以简单的中位数作为最终的检索结果。

(2)传统的词包模型不能适应特征类型的变化

随着图像数据量的不断增长，原有的图像数据库可能需要引入新的图像类型，从而需要新的特征来对库中图像建立高效的索引。例如，在各类监控系统中，运动的目标作为感兴趣目标而需要被检索。在卡口的监控下，行人、车辆甚至船只均是常出现的运动目标，而对这些不同类型的目标，需要不同的特征组合进行检索。随着监控需求的变化，检索的侧重点也不尽相同，因此需要对特征数据有动态的选择。然而传统的词包模型则无法应对特征种类变化的需求。

发明内容

本申请提出了一种基于可分解词包模型的图像检索方法。该方法对图像提取多种特征，并通过聚类为每一种特征建立一个词包索引。该方法对多特征检索建立线性判别式，并通过预检索过程学习每种特征的显著性权重作为其系数。在检索过程中，每个特征的词包索引将独立地返回候选集，然后利用线性判别式对所有候选集中的目标进行加权评分，将检索结果聚合成一个有序的候选集，最后根据需要返回得分最高的若干目标作为最终的检索结果。

为实现上述目的，本申请采用下述技术方案。

基于可分解词包模型的图像检索方法，其特征在于包括如下步骤：

(1)对建库图像提取多种特征，并且单独为每种特征建立索引；

(2)针对上述特征对应的索引，利用词包模型组织每种特征数据，对所述特征数据进行聚类，以聚类中心作为词包模型中的词条，原始图像以词包模型中的相应词条进行表示，从而所述词条与原始图像之间构成倒排关系；

(3)为多特征检索建立线性判别函数，通过预检索过程以最小均方差准则学习特征的显著性权重，并作为所述线性判别函数中的系数，以衡量每种特征对最终检索结果的影响程度；

(4)在检索过程中，对待检索图像提取相应的多种特征，针对每种特征独立地给出候选集，利用每种特征的显著性权重，以所述线性判别函数对多种特征的候选集进行检索聚合。

如上所述的基于可分解词包模型的图像检索方法，其特征在于所述步骤(1)中为了保证多种特征之间的索引在组织结构上互不干扰，采用同样的索引方法，依次对每种特征进行索引，使得不同特征之间在特征组织结构上没有横向关联。值得注意的是，方法采用的具体多特征类型并不是本专利所需关心的内容，基于可分解词包模型的图像检索方法的重点在于，在已有的多种特征中如何提高检索准确率。

如上所述的基于可分解词包模型的图像检索方法，其特征在于所述步骤(3)中，学习得到每种特征对建库图像的显著性，对现有数据进行预检索，首先对数据库进行随机抽样得到训练数据集，然后对样本在每种特征上进行检索，最后对预检索的结果进行回归拟合，拟合后的系数则为每种特征的显著性权重。

如上所述的基于可分解词包模型的图像检索方法，其特征在于所述步骤(4)中，为了根据特征的不同显著性进行检索聚合，根据步骤(3)中所学习得到的显著性权重，利用下列公式计算候选图像的最后得分：

其中对于N种特征，y_i表示第i张图像的决策级融合得分，x_ij表示第i张在第j种特征上与待检索图像的欧氏距离，β_j表示第j种特征通过步骤(3)学习所得的显著性权重，β₀为判别式(1)的偏置系数。

至此，本申请提出了一种基于可分解词包模型的图像检索方法，该方法与当前主流方法相比可以较好地提高检索准确率，并且适用于实际的大规模图像检索应用中。

附图说明

下面结合附图和具体实施方式对本申请作进一步的说明。

图1本申请的框架图

图2显著特征与不显著特征融合造成的检索准确率下降

图3由于数据形式的不同造成的特征显著性埋没

图4基于检索聚合的多特征索引结构示意图

图5本申请所述方法在ZuBuD数据集上的实验结果

图6本申请所述方法在CAVIAR4REID数据集上的实验结果

具体实施方式

下面结合附图和具体实施方式对本申请作进一步的详细说明。本申请提出了一种基于可分解词包模型的图像检索方法，方法流程如图1所示，包括以下四个部分：第一、对图像提取多种特征，并且单独为每种特征建立索引；第二、针对上述特征中的索引，利用词包模型组织每种特征数据，并对特征数据进行聚类，以聚类中心作为词包模型中的词条；第三、为多特征检索建立线性判别函数，通过预检索过程以最小均方差准则学习特征的显著性权重，并作为线性判别函数中的系数；第四、在检索过程中，每种特征均独立地给出候选集。最终的检索结果利用每种特征的显著性权重，以线性判别函数对多特征对检索结果进行聚合。

本方法尤其适用于大规模图像应用背景下的图像检索工作。下面展开具体说明，图1展示了根据本申请的一个实施例的流程图，包括：

首先按照需要对图像提取多种特征，例如，颜色直方图、LBP、HoG等，从而使得更多信息被提取出来，以备后续进行决策融合。然后，每一种特征将被独立地使用词包模型建立特征到图像的倒排索引。其中，建立某一种特征的倒排索引的过程如下：

(1)针对上述多种特征中的一种，向所有图像提取该特征；

(2)通过KMeans聚类提取出的特征，并返回若干聚类中心；

(3)此时，上述聚类中心即为词包模型的词条，也即该特征的索引，且每一个聚类中心都不重复地包含了数据库中的图像。

针对每一种特征都重复上述(1)-(3)步操作，即可使得每一种特征各自生成一个互不干扰的特征索引。在针对每一种特征的检索过程中，首先从待检索图像上提取相应特征，然后将该特征与特征索引进行一一比较，返回与待检索图像特征欧式距离最小的索引项所关联的图像作为候选集。

由于不同特征在显著性与数据形式上存在差异，简单地融合多特征数据所带来的数据相互影响不能保证有利于提高检索效率。同时针对大规模图像数据，单一的索引无法满足多变的检索需求。因此通过分解多特征数据，使得不同的特征以其原始形式独立存在，避免了不同特征之间的相互干扰，如图4所示。

由于对多特征进行了分解，因此会得到多个检索的候选集，检索聚合即是在这些候选目标中进行再筛选，从而给出合适的检索结果。考虑到不同特征存在不同的显著性，为了提升显著特征在选择最终检索结果时发挥的作用，同时降低非显著特征的干扰，本申请所述方法，从每个特征本身对数据的检索准确率作为特征显著性的度量，量化特征的显著性作为权重，给候选目标进行评分，从而对不同候选集中的候选目标进行再排序，给出最终检索结果。

具体的做法是，在建立多特征分解索引后，对库中的目标进行预检索，从返回的检索结果中收集候选目标与检索目标在各个特征上的欧氏距离，形成训练数据如(1)所示。根据最小均方差回归，以线性判别式(2)对特征距离进行训练，从而获得对各个特征距离的权重系数。在正式的检索时，根据训练后的判别式为候选目标打分，从而获得最终的检索结果。

其中X是训练数据集，Y是目标结果集，其中y_i表示第i张图像的决策级融合得分，x_ij表示第i张图在第j种特征上与待检索图像的欧氏距离，M是训练样本数量，N是特征种类个数。

其中y_i，x_ij的含义同(1)，β_j表示第j种特征通过步骤(3)学习所得的显著性权重，β₀为判别式(2)的偏置系数，β＝{β₀,β₁,…,β_N}。

为了减少运算量，本申请所属方法先对原始数据集进行简单抽样，再进行预检索。同时为了得到均衡的样本，正样本、负样本的数量应大致保持相同。预检索的过程如下：

(1)向全库图像进行简单随机抽样，获得n个抽样样本；

(2)对每个抽样样本在每种特征上分别进行20近邻检索，合并每种特征上得到的候选图片，计算每一张候选图片各个特征与样本图像相应特征之间的欧式距离；记第j个特征上候选图像与样本图像的欧氏距离为x_ij，那么对于第i张图像(1≤i≤n)，则有向量x_i＝[1x_i1···x_iM]为训练样本；

(3)若当前候选图片与样本图像是源于一个目标，那么记相应的y_i值为0，否则为1。

(4)统计当前样本图像检索结果中正样本(y_i＝0的样本)数量，从负样本(y_i＝1的样本)中随机抽取相同数量的样本，与正样本一同纳入训练数据集X以及目标结果集Y；

(5)重复(2)(3)(4)直到所有抽样样本均被检索；

至此，预检索的过程完成。

为了学习得到每种特征的权重，在预检索过程之后，将对训练数据集X以及目标结果集Y进行最小均方差回归。考虑到X、Y的表达式(1)以及相应的线性判别式(2)，那么关于X、Y的关系表达式为：

Y＝Xβ (3)

其中β＝{β₀,β₁,…,β_N}^T为回归参数，由每个特征的权重{β₁,…,β_N}以及偏置β₀组成。

令为β的估计，那么最小均方差回归以下式进行：

在实际检索的过程中，对于每张待检索图像通过与预检索过程(2)相同的步骤，获得其x_i，然后代入计算其得分。最后将按从小到大排序，值越小认为其得分越高。得分最高的前n项，就是待检索图像的n近邻检索结果。

将本申请的基于可分解词包模型的图像检索方法与基于PCA的特征融合方法(PCA)、中位数投票法(MidRank)、均权投票法(Borda)、基于词频统计的加权投票(TF-IDF)、LRFF融合法(LRFF)以及用词包模型结合SVM的方法(BoW+SVM)这六种多特征图像检索方法进行对比。对比过程中，逐步增加多特征数量，并以多特征中检索准确率最高的特征的检索结果作为基线(BSF，Best Single Feature)。实验在ZuBuD和CAVIAR4REID两个分别表示建筑和行人的图像数据库上进行，实验结果分别如图5和图6所示。其中实验使用的特征及其编号为：1.CEDD,2.LBP,3.Color Layout,4.PHOG,5.Color Histogram,6.FCTH,7.GaborTexture。

对比以上六种多特征图像检索方法，本申请所提方法能够显著提高在多特征背景下的检索准确率。尤其在CAVIAR4REID数据集上，对于使用普通等权投票的模型检索准确率提高了13.57％；对于其他六种方法，准确率提高了5.42％。实验结果表明与当前其他算法相比，基于可分解词包模型的图像检索方法可以有效提高识别准确率。

以上公开的仅为本申请的具体实施例。根据本申请提供的技术思想，本领域的技术人员能思及的变化，都应落入本申请的保护范围内。

Claims

1.基于可分解词包模型的图像检索方法，其特征在于包括如下步骤：

(4)在检索过程中，对待检索图像提取相应的多种特征，针对每种特征独立地给出候选集，利用每种特征的显著性权重，以所述线性判别函数对多种特征的候选集进行检索聚合，

其中：

所述步骤(1)中采用同样的索引方法，依次对每种特征进行索引，使得不同特征之间在特征组织结构上没有横向关联，

所述步骤(3)中，学习得到每种特征对建库图像的显著性，对现有数据进行预检索，首先对数据库进行随机抽样得到训练数据集，然后对样本在每种特征上进行检索，最后对预检索的结果进行回归拟合，拟合后的系数则为每种特征的显著性权重，

所述步骤(4)中，为了根据特征的不同显著性进行检索聚合，根据步骤(3)中所学习得到的显著性权重，利用下列公式计算候选图像的最后得分，

其中对于N种特征，y_i表示第i张图像的检索聚合得分，x_ij表示第i张在第j种特征上与待检索图像的欧氏距离，β_j表示第j种特征通过步骤(3)学习得到的显著性权重，β₀为判别式(1)的偏置系数。