CN103810299B

CN103810299B - 基于多特征融合的图像检索方法

Info

Publication number: CN103810299B
Application number: CN201410085211.XA
Authority: CN
Inventors: 邓成; 王嘉龙; 杨延华; 李洁; 彭海燕; 高新波
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2017-02-15
Anticipated expiration: 2034-03-10
Also published as: CN103810299A

Abstract

本发明公开了一种基于图像多特征融合的图像检索方法，主要用于解决现有技术检索图像准确率低的问题。其实现步骤为：（1）提取待检索图像集合中所有图像的三种视觉特征和语义属性特征；（2）计算待检索图像集合中所有图像间邻接距离矩阵；（3）对查询图像在每一种特征通道进行粗检索；（4）根据每一种特征通道的粗检索结果，分析粗检索结果中图像的语义属性特征，选定参考图像；（5）根据选定的参考图像，计算每一种特征融合模板矩阵；（6）根据得到的融合模板矩阵，得到融合后的距离测度矩阵；（7）根据得到的距离测度矩阵，返回给用户检索的结果。本发明明显提高了最终图像检索的准确率，可用于图像检索。

Description

基于多特征融合的图像检索方法

技术领域

本发明属于信息检索技术领域，具体的说是一种针对基于图像多特征融合的图像检索方法，可用于互联网图像检索领域。

背景技术

当前互联网背景下，诸如Google、Image Search、必应等大多数的商业网络图像搜索引擎都是采用基于文本的检索技术，主要是利用诸如标题、图像周围描述文本等标注文字，与查询文本做相似性匹配，利用这种相似性对检索的图像进行检索。然而，由于文本和图像内容之间存在语义鸿沟，单单基于文本检索的技术常常达不到好的效果。另外，由于图像标注存在多义噪音数据，由图像元数据分析得出的图像标签的正确性往往也无法保证。

为了提高现存基于文本技术的图像搜索引擎的准确率，近些年来，改善图像检索结果准确率的图像检索技术得到了越来越多的关注。现存的很多图像检索技术大多利用单一类型的图像视觉特征，比如全局特征或是局部特征，通过某些标注样本来度量图像的视觉相似性。这些标注样本可以通过有监督的方法或无监督的方法获得，比如说通过伪相关反馈或者由用户指定来获得。这些标注样本在某些情况下常常被称为查询图像。然而图像间的相似性往往是多角度的，比如说图像间相似的颜色、纹理，彼此出现了相似的物体，反映了相近的视觉语义概念等等。不同的图像视觉特征反映了图像间不同角度的相似性，很多情况下，不同的视觉特征彼此间可以起到互相弥补的作用。这样，通过融合不同的图像视觉特征，就可以根据查询图像特点，综合的描述数据库中待检索的每副图像，从而从图像不同的角度提高在线彼此相似性的测量。

现今检索的大多数方法主要是利用多特征学习，采用前期融合或者后期融合的策略。所谓前期融合是指直接利用多种图像视觉特征获得总的图像间相似性测度，而后期融合是指对多种特征所得的检索结果进行融合。尽管现今基于多特征融合的图像检索方法可以在一定程度上改善图像检索排序结果的准确率，但是本质的问题依然存在。不同的检索情况对应不同的视觉特征重要性，直接以固定系数做多特征融合往往难以取得令人满意的图像检索结果。

发明内容

为了解决上述问题，本发明提供了一种基于多特征融合的图像检索方法，以提高图像的检测准确性。

本发明首先从图像的语义属性特征出发，分析每一种特征通道检索结果中共现的语义属性模式，进而根据分析出的共现语义属性模式，选择若干参考图像，进而根据选择的参考图像动态地学习计算出每一种特征通道的模板权重矩阵，从而通过特征融合更好地编码每一幅待检索图像和需要检索的图像之间的相似性距离，达到提高图像检索精度的目的。其实现步骤包括如下：

1.一种基于多特征融合的图像检索方法，包括如下步骤：

（1）提取图像特征：

（1a）对待检索图像集合中的所有图像提取8192维视觉词袋词频BoW特征；

（1b）对待检索图像集合中的所有图像提取960维GIST特征；

（1c）对待检索图像集合中的所有图像提取512维HSV颜色直方图特征；

（1d）通过离线训练学习，针对2659种基本语义标签，分别训练2659种语义标签的分类器，对待检索图像集合中的每幅图像，分别用这2659种分类器做预测，并将对应每一种分类器得到的预测分数连成向量，作为该图像的语义属性特征。

（2）根据步骤(1a)、（1b）、（1c）得到的三种图像特征，用欧式距离公式分别计算待检索图像集合中所有图像两两之间的相似性距离，分别得到步骤(1a)对应图像特征通道的邻接距离矩阵H₁'、步骤(1b)对应图像特征通道的邻接距离矩阵H'₂、步骤(1c)对应图像特征通道的邻接距离矩阵H'₃，每个矩阵中的每个元素值代表对应图像两两之间用对应特征计算得到的相似性距离；

（3）对图像进行粗检索，并选择参考图像：

（3a）根据步骤(1a)、（1b）、（1c）得到的图像特征，用欧式距离公式分别计算用户指定的查询图像和待检索图像集合中每幅图像之间在每一种特征通道上的相似性距离，构成对应三种特征通道的三组检索相似性距离向量；

（3b）利用上述三种特征通道的三组检索相似性距离向量分别对步骤（2a）得到的图像邻接距离矩阵H₁'、H'₂、H'₃进行扩展，即将对应特征通道的检索相似性距离向量添加到对应矩阵的第一行和第一列，得到分别对应所述三种特征通道的扩展后图像邻接矩阵H₁、H₂、H₃；

（3b）按照待检索图像集合中每幅待检索图像和用户给出的查询图像，将每一种特征通道的相似性距离从小到大分别排序，得到分别对应所述三种特征通道的粗检索排序列表l₁、l₂、l₃；

（3c）根据步骤（3b）得到的粗检索排序列表l₁、l₂、l₃，选取每一个列表的前k副图像构成目标集合，对于目标集合中的每幅图像按步骤(1d)所述的语义属性特征，将小于0的维度置0，大于0的维度置1，得到目标集合中每幅图像量化后的特征向量，并将所有量化后的特征向量做平均，得到对应的语义属性共现模式向量S；

（3d）利用欧氏距离公式，计算数据库中每幅待检索图像语义属性特征与上所述语义属性共现模式向量S的相似性距离，选取相似性距离最小的10幅图像作为参考图像；

（4）计算特征融合模板权重矩阵：

（4a）定义每一特征通道的检索结构关系函数：

其中，A表示参考图像的个数，表示第i幅参考图像的第m种特征表示，表示第j幅参考图像的第m种特征表示，表示用户指定的查询图像的第m种特征表示，表示第m种特征通道对应的融合模板矩阵w^m第i行第j列元素的值，||||₂代表矩阵的2-范数；

（4b）定义每一特征通道之间的检索结构关系函数：

其中，N表示数据库中待检索图像的个数，表示第i幅参考图像的第m种特征表示，表示第i幅参考图像的第m'种特征表示，表示第k幅参考图像的第m种特征表示，表示第k幅参考图像的第m'种特征表示，表示第m种特征通道对应的融合模板矩阵wm第i行第k列元素的值，表示第m'种特征通道对应的融合模板矩阵w^m'第i行第k列元素的值，||||₂代表矩阵的2-范数；

（4c）优化如下目标函数，得到每一图像特征的融合模板矩阵{w^m},m=1...3：

其中，λ和γ分别是给定的常数，||||₁代表矩阵的1-范数；

（5）图像精检索：

（5a）根据步骤（3a）得到的图像邻接距离矩阵H₁、H₂、H₃及步骤（4c）得到的每一种图像特征的融合模板矩阵{w^m}，计算融合后的图像邻接矩阵H：

其中，w^m表示第m种特征通道对应的融合模板矩阵，代表矩阵的模板点乘运算；

（5b）根据融合后的图像邻接矩阵H，按照其第一行的值从小到大排列，将得到排列结果的前k幅图像作为检索结果返回给用户。

本发明具有以下优点：

1）本发明结合图像的语义内容信息，根据每一种视觉特征通道的检索结果计算语义属性共现模式向量，从而自适应地得到参考图像，有效提高了参考图像选择的准确度。

2）本发明通过构建每一特征通道的检索结构关系函数和每一特征通道之间的检索结构关系函数，自适应地计算出每一种图像特征对应的融合模板权重矩阵，更准确地编码了图像之间的相似度距离，从而有效提高了最终检索的准确度。

附图说明

图1是本发明的实现流程图。

具体实施方案

以下结合附图对本发明的技术内容及效果做进一步详述：

参照图1，本发明提取图像特征、图像粗检索及参考图像选择、特征融合模板矩阵计算和图像精检索四部分，具体步骤如下：

一、提取图像特征

步骤1：对待检索图像集合中的每幅图像，分别提取其8192维的BoW视觉词袋词频特征、960维的GIST频域场景描述特征和512维的HSV颜色直方图特征。

步骤2：计算待检索图像的语义属性特征

2.1）人为定义2659种基本语义标签，例如街道、人物等，通过离线训练学习，针对每一种基本语义标签，分别训练对应2659种语义标签的分类器；

2.2）对待检索图像集合中的每幅图像，分别用上一步得到的2659种分类器做预测，并将对应每一种分类器得到的预测分数连成向量，作为该图像的语义属性特征。

二.图像粗检索及参考图像选择

步骤3：计算图像间邻接距离矩阵。

3.1)根据步骤1得到的三种图像特征，用欧式距离公式分别计算待检索图像集合中所有图像两两之间的相似性距离，分别得到对应图像BoW视觉词袋词频特征通道的邻接距离矩阵H₁'、GIST频域场景描述特征通道的邻接距离矩阵H'₂和HSV颜色直方图特征通道的邻接距离矩阵H'₃，每个矩阵中的每个元素值代表对应图像两两之间用对应特征计算得到的相似性距离。

步骤4：图像粗检索

4.1）根据步骤1得到的三种图像特征，用欧式距离公式分别计算用户指定的查询图像和待检索图像集合中每幅图像之间在每一种特征通道上的相似性距离，构成对应三种特征通道的三组检索相似性距离向量；

4.2）利用上述三种特征通道的三组检索相似性距离向量分别对步骤4.1）得到的图像邻接距离矩阵H₁'、H'₂、H'₃进行扩展，即将对应特征通道的检索相似性距离向量添加到对应矩阵的第一行和第一列，得到分别对应所述三种特征通道的扩展后的图像邻接矩阵H₁、H₂、H₃；

4.3）按照待检索图像集合中每幅待检索图像和用户给出的查询图像，将每一种特征通道的相似性距离从小到大分别排序，得到分别对应所述三种特征通道的粗检索排序列表l₁、l₂、l₃。

步骤5：选择参考图像。

5.1）根据步骤4.3）得到的粗检索排序列表l₁、l₂、l₃，选取每一个列表的前k副图像构成目标集合，对于目标集合中的每幅图像按步骤2所述的语义属性特征，将小于0的维度置0，大于0的维度置1，得到目标集合中每幅图像量化后的特征向量，并将所有量化后的特征向量做平均，得到对应的语义属性共现模式向量S；

5.2）利用欧氏距离公式，计算待检索图像集合中每幅待检索图像语义属性特征与上述语义属性共现模式向量S的相似性距离，选取相似性距离最小的10幅图像作为参考图像。

三、计算特征融合模板矩阵

步骤6：定义每一特征通道的检索结构关系函数：

其中，A表示参考图像的个数，表示第i幅参考图像的第m种特征表示，表示第j幅参考图像的第m种特征表示，表示用户指定的查询图像的第m种特征表示，表示第m种特征通道对应的融合模板矩阵w^m第i行第j列元素的值，||||₂代表矩阵的2-范数。

步骤7：定义每一特征通道之间的检索结构关系函数：

其中，A表示参考图像的个数，N表示数据库中待检索图像的个数，表示第i幅参考图像的第m种特征表示，表示第i幅参考图像的第m'种特征表示，表示第k幅参考图像的第m种特征表示，表示第k幅参考图像的第m'种特征表示，表示第m种特征通道对应的融合模板矩阵w^m第i行第k列元素的值，表示第m‘种特征通道对应的融合模板矩阵w^m'第i行第k列元素的值，||||₂代表矩阵的2-范数。

步骤8：结合步骤6和步骤7定义的两种检索结构关系函数，定义目标函数

其中，λ和γ分别是给定的常数，本发明中参数选择λ=0.1，γ=0.005，M代表选取图像特征种类的个数，本发明中M=3，||||₁代表矩阵的1-范数。

步骤9：优化步骤8定义的目标函数，得到每一图像特征的融合模板矩阵{w^m},m=1...3。

9.1）定义平滑函数H(w^m)=Q(w^m)+λR(w^m)，其梯度函数表示为

9.2）定义三种特征通道的融合模板权重矩阵分别为w¹、w²、w³，按列将每一特征通道对应的待求融合模板矩阵连接起来，表示为：w=[w¹|w²|w³]，其中，|表示矩阵列之间的分隔符；

9.3）定义迭代次数变量为t，将w第t次迭代的结果表示为wt，设初始t=0；定义两个中间变量，即第一中间变量θ和第二中间变量矩阵v，其第t次迭代的结果分别表示为θ_t和v_t；分别抽取第二中间变量矩阵v_t的第m+t×N到m+(t+1)×N-1列，构成对应子矩阵，m=1...3，N代表数据库中所有待检索图像的数目；令初始θ₀=1，v₀=w₀=I_N×N，I表示N×N的单位矩阵；

9.4）计算步骤9.1）所述的梯度函数在第t次迭代变量v_t对应子矩阵上的值

9.5）按列将上一步骤得到的矩阵连接起来，得到全局梯度函数矩阵：

其中，|表示矩阵列之间的分隔符；

9.6）根据上一步骤得到的全局梯度函数矩阵，计算第三中间变量L：

其中，λ_max代表矩阵最大的特征值；

9.7）利用经典梯度最速下降法求解以下目标函数，得到融合模板矩阵w第t+1次迭代的结果w_t+1:

其中，||||₂代表矩阵的2-范数，||||₁代表矩阵的1-范数，γ是给定的常数；

9.8）计算w^t与w^t+1的差值，若w^t与w^t+1的差值小于0.001，则停止迭代，得到最优的特征融合模板矩阵w，抽取w的第m+t×N到m+(t+1)×N-1列，构成子矩阵，得到每一种特征通道对应的融合矩阵{w^m}，m=1,2,3，否则，执行步骤9.9）；

9.9）利用上一步得到的融合模板矩阵w在第t+1次迭代的结果w_t+1，计算第一中间变量θ和第二中间变量矩阵v在第t+1次迭代的值：

9.10）令迭代次数变量t=t+1，返回步骤9.4）继续迭代。

四、图像精检索：

步骤10：根据前面步骤得到的图像邻接矩阵H₁、H₂、H₃及每一特征通道的融合模板矩阵w^m，计算融合后的图像邻接矩阵H：

其中，代表矩阵的模板点乘运算。

步骤11：根据融合后的图像邻接矩阵H，按照其第一行的值从小到大排列，将得到排列结果的前k幅图像作为检索结果返回给用户。

本发明的优点可通过以下仿真实验进一步说明。

本发明在Intral Holiday、Oxford5k、Paris三个公用图像检索数据库上进行实验，并依据客观评估平均查全率MAP作为检索结果准确率的指标：

其中，AP_k代表检索排序结果中前k位置处的准确率，precision(i)是得到排序列表中前i副图像中正确图像所占的比例。recall(i)是到检索结果的前i副图像中正确图像占检索结果中所有正确图像个数的比例。

MAP代表所有检索结果AP_k的平均值，MAP值越高，说明图像检索排序结果中正确图像的个数越多，同时排名越靠前，检索排序的结果越好。

实验分别采用本发明方法和现有的视觉随机游走和伪相关性反馈两种图像检索方法分别在三个数据库上做50次检索，总共用到的检索查询图像有150张，对每一组的检索结果，计算其检索结果中前200副图像的平均查全率MAP，得到在所述三个数据库上检索结果的MAP结果。

表1不同数据库检索平均查准率比较

数据集	Holiday	Oxford5k	Paris
				本方法	0.847	0.843	0.687
视觉随机游走	0.825	0.814	0.654
				伪相关性反馈	0.758	0.508	0.639

从表1可以看出，本发明方法对图像检索排序的结果优于现有方法，其原因如下：

综上，本发明提高了最终图像检索结果的准确率。

Claims

1.一种基于多特征融合的图像检索方法，包括如下步骤：

(1)提取图像特征：

(1a)对待检索图像集合中的所有图像提取8192维视觉词袋词频BoW特征；

(1b)对待检索图像集合中的所有图像提取960维GIST特征；

(1c)对待检索图像集合中的所有图像提取512维HSV颜色直方图特征；

(1d)通过离线训练学习，针对2659种基本语义标签，分别训练2659种语义标签的分类器，对待检索图像集合中的每幅图像，分别用这2659种分类器做预测，并将对应每一种分类器得到的预测分数连成向量，作为该图像的语义属性特征；

(2)根据步骤(1a)、(1b)、(1c)得到的三种图像特征，用欧式距离公式分别计算待检索图像集合中所有图像两两之间的相似性距离，分别得到步骤(1a)对应图像特征通道的邻接距离矩阵H₁'、步骤(1b)对应图像特征通道的邻接距离矩阵H'₂、步骤(1c)对应图像特征通道的邻接距离矩阵H'₃，每个矩阵中的每个元素值代表对应图像两两之间用对应特征计算得到的相似性距离；

(3)对图像进行粗检索，并选择参考图像：

(3a)根据步骤(1a)、(1b)、(1c)得到的图像特征，用欧式距离公式分别计算用户指定的查询图像和待检索图像集合中每幅图像之间在每一种特征通道上的相似性距离，构成对应三种特征通道的三组检索相似性距离向量；

(3b)利用上述三种特征通道的三组检索相似性距离向量分别对步骤(2a)得到的图像邻接距离矩阵H₁'、H'₂、H'₃进行扩展，即将对应特征通道的检索相似性距离向量添加到对应矩阵的第一行和第一列，得到分别对应所述三种特征通道的扩展后图像邻接距离矩阵H₁、H₂、H₃；

(3d)按照待检索图像集合中每幅待检索图像和用户给出的查询图像，将每一种特征通道的相似性距离从小到大分别排序，得到分别对应所述三种特征通道的粗检索排序列表l₁、l₂、l₃；

(3c)根据步骤(3b)得到的粗检索排序列表l₁、l₂、l₃，选取每一个列表的前k副图像构成目标集合，对于目标集合中的每幅图像按步骤(1d)所述的语义属性特征，将小于0的维度置0，大于0的维度置1，得到目标集合中每幅图像量化后的特征向量，并将所有量化后的特征向量做平均，得到对应的语义属性共现模式向量S；

(3d)利用欧氏距离公式，计算数据库中每幅待检索图像语义属性特征与上所述语义属性共现模式向量S的相似性距离，选取相似性距离最小的10幅图像作为参考图像；

(4)计算特征融合模板权重矩阵：

(4a)定义每一特征通道的检索结构关系函数：

Q (w^{m}) = Σ_{i = 1}^{A} \frac{1}{2} (| | {\tilde{x}}_{i}^{m} - Σ_{j &NotEqual; i}^{A} w_{i j}^{m} {\tilde{x}}_{j}^{m} | |_{2}^{2} + | | x_{q}^{m} - w_{1 i}^{m} {\tilde{x}}_{i}^{m} | |_{2}^{2}),

其中，A表示参考图像的个数，表示第i幅参考图像的第m种特征表示，表示第j幅参考图像的第m种特征表示，表示用户指定的查询图像的第m种特征表示，表示第m种特征通道对应的融合模板矩阵w^m第i行第j列元素的值，|| ||₂代表矩阵的2-范数；

(4b)定义每一特征通道之间的检索结构关系函数：

R (w^{m}) = Σ_{m^{'} = 1}^{3} Σ_{i = 1}^{A} Σ_{k = 1}^{N - A} \frac{1}{2} (| | {\tilde{x}}_{i}^{m} - w_{i k}^{m} x_{k}^{m} | |_{2}^{2} - | | {\tilde{x}}_{i}^{m^{'}} - w_{i k}^{m^{'}} x_{k}^{m^{'}} | |_{2}^{2}),

其中，N表示数据库中待检索图像的个数，表示第i幅参考图像的第m种特征表示，表示第i幅参考图像的第m'种特征表示，表示第k幅参考图像的第m种特征表示，表示第k幅参考图像的第m'种特征表示，表示第m种特征通道对应的融合模板矩阵w^m第i行第k列元素的值，表示第m'种特征通道对应的融合模板矩阵w^m'第i行第k列元素的值，|| ||₂代表矩阵的2-范数；

(4c)优化如下目标函数，得到每一图像特征的融合模板矩阵{w^m},m＝1...3：

\begin{matrix} J = \min_{w} Σ_{m = 1}^{M} Q (w^{m}) + λ Σ_{m^{'} &NotEqual; m}^{M} R (w^{m}) + γ Σ_{m = 1}^{M} | | w^{m} | |_{1} \\ s . t . Σ_{j} w_{i j} = 1, w_{i j} &GreaterEqual; 0 \end{matrix},

其中，λ和γ分别是给定的常数，|| ||₁代表矩阵的1-范数；

(5)图像精检索：

(5a)根据步骤(3b)得到的扩展后图像邻接距离矩阵H₁、H₂、H₃及步骤(4c)得到的每一种图像特征的融合模板矩阵{w^m}，计算融合后的图像邻接矩阵H：

H = Σ_{m} w^{m} &CircleTimes; H_{m}, m = 1...3,

(5b)根据融合后的图像邻接矩阵H，按照其第一行的值从小到大排列，将得到排列结果的前k幅图像作为检索结果返回给用户。

2.根据权利要求1所述的基于多特征融合的图像检索方法，其中所述步骤(4c)中优化目标函数，按如下步骤进行：

(4c1)定义平滑函数H(w^m)＝Q(w^m)+λR(w^m)，其梯度函数表示为▽H(w^m)；

(4c2)定义三种特征通道的融合模板权重矩阵分别为w¹、w²、w³，按列将每一特征通道对应的待求融合模板矩阵连接起来，表示为：w＝[w¹|w²|w³]，其中，|表示矩阵列之间的分隔符；

(4c3)定义迭代次数变量为t，w第t次迭代的结果表示为w_t，设初始t＝0，定义两个中间变量，即第一中间变量θ和第二中间变量矩阵v，其第t次迭代的结果分别表示为θ_t和v_t；分别抽取第二中间变量矩阵v_t的第m+t×N到m+(t+1)×N-1列，构成对应子矩阵m＝1...3，N代表数据库中所有待检索图像的数目；令初始θ₀＝1，v₀＝w₀＝I_N×N，I表示N×N的单位矩阵；

(4c4)计算步骤(4c1)所述的梯度函数在第t次迭代变量v_t对应子矩阵上的值

(4c5)按列将上一步骤得到的矩阵连接起来，得到全局梯度函数矩阵：

&dtri; H (v_{t}) = [&dtri; H (v_{t}^{1}) | &dtri; H (v_{t}^{2}) | &dtri; H (v_{t}^{3})],

其中，|表示矩阵列之间的分隔符；

(4c6)根据上一步骤得到的全局梯度函数矩阵▽H(v_t)，计算第三中间变量L：

L＝λ_max(▽H(v_t))，

其中，λ_max代表▽H(v_t)矩阵最大的特征值；

(4c7)利用经典梯度最速下降法求解以下目标函数，得到融合模板矩阵w第t+1次迭代的结果w_t+1:

w_{t + 1} = \underset{w}{\arg \min} \frac{1}{2} | | w - (v_{t} - \frac{1}{L} &dtri; H (v_{t}) | |_{2} + \frac{γ}{L} | | w | |_{1},

其中，|| ||₂代表矩阵的2-范数，|| ||₁代表矩阵的1-范数，γ是给定的常数；

(4c8)计算w^t与w^t+1的差值，若w^t与w^t+1的差值小于0.001，则停止迭代，得到最优的特征融合模板矩阵w，否则执行步骤(4c9)；

(4c9)利用上一步得到的融合模板矩阵w在第t+1次迭代的结果w_t+1中，计算第一中间变量θ和第二中间变量矩阵v在第t+1次迭代的值：

θ_{t + 1} = \frac{2}{t + 3},

v_{t + 1} = w_{t + 1} + \frac{1 - θ_{t}}{θ_{t}} θ (w_{t + 1} - w_{t}),

(4c10)令迭代次数变量t＝t+1，返回步骤(4c4)继续迭代。