CN103390063B

CN103390063B - 一种基于蚁群算法和概率超图的相关反馈图像检索方法

Info

Publication number: CN103390063B
Application number: CN201310328671.6A
Authority: CN
Inventors: 杨育彬; 潘玲燕
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2016-08-10
Anticipated expiration: 2033-07-31
Also published as: CN103390063A

Abstract

本发明公开了基于蚁群算法和概率超图的相关反馈图像检索方法，包括训练和检索两个阶段；所述训练阶段包括如下步骤：提取图像底层特征；字典学习；图像库图像高层表示；所述检索阶段包括以下步骤：提取示例图像的底层特征；示例图像高层表示；构造亲和力矩阵；初始化或更新信息素矩阵：对图像库中每一示例图像的检索结果，标注正相关图像和负相关图像，进一步计算语义信息素矩阵；计算亲和力增强概率：利用蚁群算法增强亲和力矩阵；构建超图；返回此轮检索结果，检索结束，或更新信息素矩阵开始下一轮检索。本发明为图像检索引入了高效、准确的图像检索技术，具有较高的使用价值。

Description

一种基于蚁群算法和概率超图的相关反馈图像检索方法

技术领域

本发明属于图像检索领域，特别是一种面向高复杂度、高精度的图像检索方法。

背景技术

在科技日益发展的今天，随着多媒体技术的迅猛普及和发展，图像获取设备性能不断完善，以图像为代表的新一代信息资源已成为与材料、能源具有同等重要位置的战略能源。由于图像具有信息量大、内容丰富、表现力强等特点，对海量规模图像的有效组织、分析、检索和管理，成为众多实际应用领域的核心问题。

传统的图像检索，大量方法都基于图像的底层特征，如提取颜色、形状、纹理等特征，然后借助相似度度量方法实现相似图像的匹配。更好的选择是提取图像的SIFT特征，进行图像检索，该方法具有很好的稳定性。但图像信息包含的不仅仅是像素，更重要的是还包含人类视觉的主观感受，而这些方法大都停留在围绕图像底层特征进行描述和学习，相对于人类能够理解和运用的丰富多彩的图像高层语义，仍然存在较大差距，也就是所谓的“语义鸿沟”问题。相关反馈技术的出现，为缓解“语义鸿沟”问题提供了重要手段，但实际存在的基于相关反馈的图像检索系统中，大部分都利用反馈信息对底层特征进行更新，或通过建立图像与人工标注的语义词之间建立语义网络。前者仍然简单地使用底层特征，而后者采用文本作为语义，但随着图像数据规模的迅猛增长，想通过人工标注的方式得到所有语义线索和信息是不可能的。因此，此发明旨在改进已有图像检索方法，引入基于蚁群算法的相关反馈机制，建立图像与图像之间语义。同时，有效利用图像数据的结构化信息，也成为提高性能的重要方法，如建立图像树形结构、结构图像的属性信息、借助简单图模型等。但这些方法都只是简单得利用文本信息，或者只考虑图像对之间的结构，尚未对图像数据的高层结构信息进行挖掘，因此，本发明在引入蚁群算法的基础上，进一步利用概率超图构建图像的高层结构，并形式化地实现图像检索，从而提高图像检索的查全率和查准率。

发明内容

发明目的：本发明为了解决现有技术中的问题，提出了一种基于蚁群算法和概率超图的相关反馈图像检索方法，从而提升了现有图像检索方法的查全率和查准率。

发明内容：本发明公开了基于蚁群算法和概率超图的相关反馈图像检索方法，包括训练和检索两个阶段；

所述训练阶段包含以下步骤：

步骤1，提取图像底层特征：对图像库中的每一幅图像，采用密集采样方法，通过对图像进行网格划分，提取SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征，作为图像底层特征。

步骤2，字典学习：从所有图像的所有底层特征中，随机抽取部分的底层特征，利用码书模型学习字典；

步骤3，图像库图像高层表示：利用学习得到的字典，对每一底层特征进行编码，并对图像库中的每一幅图像的编码结果，进行汇合得到一个D维的直方图，即为图像库图像高层表示(图像重构特征)。

所述检索阶段包含以下步骤：

步骤4，提取示例图像的底层特征：对示例图像采用密集采样方法，通过对图像进行网格划分，提取SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征。

步骤5，示例图像高层表示：利用训练阶段学习得到的字典，将示例图像表示成一个D维的直方图，即为示例图像高层表示。

步骤6，构造亲和力矩阵：利用图像库中图像的高层表示，以及示例图像高层表示，计算所有图像对之间的相似度，并使用一个亲和力矩阵存储结果，表示亲和力矩阵的元素值为实数，V表示所有图像，|V|表示所有图像的数量；

步骤7，初始化或更新语义信息素矩阵：如果当前是第一轮检索，则初始化语义信息素矩阵为零矩阵，否则，对给定的示例图像，根据上一轮的检索结果，标注正相关图像和负相关图像，并更新语义信息素矩阵，表征图像之间的语义相似度；

步骤8，计算亲和力增强概率：根据原始亲和力矩阵和语义信息素矩阵，利用蚁群算法，计算两幅图像之间亲和力被增强的概率，并更新相应亲和力矩阵；

步骤9，构造超图：对图像库所有图像进行以下处理：计算与每幅图像亲和力最大的k幅近邻图像，共同组成一条超边；所有图像处理完后，即实现了构建超图；然后基于超图计算示例图像与图像库图像的相似度；

步骤10，返回此轮检索结果：对示例图像与图像库图像的相似度进行由大到小排序，得到此轮检索结果，如果反馈达到round轮，则检索结束，输出此轮检索结果，否则利用当前检索结果作为反馈信息，返回步骤7开始下一轮检索，round的取值范围为自然数。

步骤1提取图像底层特征包括：

对图像库中的每一幅图像，采用密集采样的方法，每隔gridSpacing个像素的步长，对图像进行栅格划分，每个小栅格为patchSize×patchSize像素的采样点。然后从每个采样点中提取一个128维的SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征，从而每一幅图像将表示成若干个SIFT特征的集合。其中gridSpacing取值范围为非负整数，patchSize的取值范围为正整数。

步骤2学习字典包括：借助码书模型实现。码书模型的一项关键技术，就是利用底层特征学习字典。因此，需要从所有底层特征中，随机抽取nsmp个底层特征，用于学习字典。具体的随机抽样有不同的策略，如利用图像库中图像总数和抽取底层特征数量nsmp，计算平均每幅图像需要贡献特征数量，再从每一幅图像中随机抽取与贡献特征数量相同的底层特征，从而得到nsmp个底层特征。然后，进一步利用k-means聚类方法，对随机抽样得到的特征进行聚类，学习得到的M个聚类中心，即为字典其中nsmp取正整数，表示U中每个元素均为实数，d和M取正整数。

步骤3图像库图像高层表示包括：

首先对图像库中每一图像的每一个底层特征，根据步骤2学习得到的字典U，利用下式求解步骤1提取的底层特征x_i的编码：

c_{i j} = \frac{\exp (- {rd}_{i j}^{2})}{Σ_{k = 1}^{M} \exp (- {rd}_{i k}^{2})}

若表示特征x_i的编码结果，表示字典U中所有M个单词与特征x_i之间的欧式距离。则式子中c_ij∈c_i表示特征x_i在单词上的系数，而d_ij∈d_i特征x_i与单词的欧式距离，r用于控制特征与字典之间的距离对编码的相对重要性，取值范围为正整数。式中的分母实现对求得的系数c_i进行归一化。

由于一副图像包含多个SIFT特征，因此该处理将使得每一幅图像具有多个编码。为了使每一幅图像具有唯一表示，将同一幅图像的多个高层表示进行汇合，得到最后的图像高层表示。为了有效结合图像的空间信息，采用三层空间金字塔，实现多层特征融合。首先将图像空间分为三层：level 0、level 1、level 2。level 0不分块，表示整张图像的信息，level 1按图像平面空间均分为N₁块，level 2按图像平面空间均分为N₂个纵向的块，共有(1+N₁+N₂)块；对每一个分块k中包含的SIFT特征的编码，均采用最大汇合技术，得到高层表示。最后将所有分块的高层表示向量串接成整个图像的高层表示，假设获得的码书含M个视觉单词，M取正整数，N₁和N₂取非负整数，则图像的高层特征维度为(1+N₁+N₂)×M。特别地，第i幅图像的高层特征表示为一个(1+N₁+N₂)×M维的直方图H_i。

步骤4提取示例图像的底层特征包括：

对示例图像采用密集采样的方法，每隔gridSpacing个像素的步长，对图像进行栅格划分，每个小栅格为patchSize×patchSize像素的采样点。然后从每个采样点中提取一个128维的SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征，从而示例图像被表示成若干个SIFT特征的集合。其中gridSpacing取值范围为非负整数，patchSize的取值范围为正整数。

步骤5示例图像高层表示包括：

对示例图像的每一个底层特征，根据步骤2学习得到的字典U，利用与步骤3同样的方法，实现步骤4提取的底层特征x_i的编码，该示例图像的高层特征表示为一个(1+N₁+N₂)×M维的直方图，其中N₁、N₂分别是三层空间金字塔level1和level2的分块数。

步骤6构造亲和力矩阵包括：

根据步骤3的图像库图像高层表示，和步骤5的示例图像高层表示，通过直方图相交方法，计算任意两幅图像之间的相似度，如下式：

s_{i j} = Σ_{l = 0}^{L} z^{l} Σ_{k = 1}^{D^{l}} m i n (H_{i} (k), H_{j} (k))

其中s_ij表示第i幅图像与第j幅图像之间的相似度，Hi(k)和H_j(k)分别表示两个直方图的第k个元素，L表示空间金字塔的层数，z^l∈(0,1]和D^l分别表示第l层金字塔的权重参数和维度，L取正整数，不大于3，D^l取值范围为正整数。

求得图像之间的相似度后，对结果进行归一化，存储于亲和力矩阵中，其中V表示图像库图像与当前示例图像的集合，|V|表示图像库图像与当前示例图像的总数，第i幅图像记为v_i，第j幅图像记为v_j。任意a_ij∈A表示V中任意图像v_i和图像v_j之间的亲和力。

步骤7初始化或更新语义信息素矩阵包括：

根据步骤3的图像库图像高层表示和步骤5的示例图像高层表示，步骤6建立了图像之间的联系，步骤7根据检索结果与示例图像是否相关的反馈信息，记录任意两幅图像之间的语义相关性。基于蚁群算法的相关反馈机制，在图像检索中，相关图像之间应该具有更强的联系，正相关图像作为返回结果的概率应该更大，因此本算法建立图像和图像之间的语义关系网络，并定义一个语义信息素矩阵。

令t表示当前反馈轮次。如果当前是第一轮检索，由于检索开始时没有反馈信息，则t＝0，同时初始化任意两幅图像v_i与v_j之间的相关性为0，即否则，先对上一轮的检索结果进行反馈，从上一轮检索结果的前threshold幅图像中，随机选取nPos幅作为正相关图像，从上一轮检索结果的后threshold幅图像中，随机选取nNeg幅作为负相关图像，并对语义信息素矩阵进行更新：

τ_{i j}^{t + 1} = \{\begin{matrix} (1 - ρ) τ_{i j}^{t} + 1 / | P_{i} |, & \begin{matrix} i f & v_{j} &Element; P_{i} \end{matrix} \\ 0, & o t h e r w i s e \end{matrix}

其中ρ∈(0,1]表示信息素蒸发速率，P_i表示与图像v_i正相关的图像集合，threshold，nPos，nNeg取值范围均为正整数，且threshold取值不大于图像库图像总数的10％，nPos和nNeg取值可以相同，也可以不同，但均要求小于threshold。上式的信息素更新包括两个主要过程：1)信息素蒸发。在语义信息素积累之前，部分信息素将以速率ρ蒸发，因此表示挥发后剩余的信息素。2)信息素积累。具体地，统计本轮与示例图像正相关的图像数，并取其倒数作为本轮分泌的信息素。

步骤8利用蚁群算法计算亲和力增强概率包括：

根据步骤6构造的原始亲和力矩阵存储的是图像特征之间的相似度，因此将其作为启发信息，同时根据步骤7的语义信息素矩阵，利用蚁群算法计算出图像v_i与v_j之间亲和力被增强的概率：

p_{i j} = \frac{{[τ_{i j}]}^{α} {[a_{i j}]}^{β}}{Σ_{v_{l} &Element; P_{i}} {[τ_{i l}]}^{α} {[a_{i l}]}^{β}}

其中α和β两个参数，分别用于控制语义信息素和启发式信息在计算中的作用，理论上取值可以是任意实数，但一般取值范围均为[0,1]；τ_ij表示图像v_i与v_j之间的语义信息素浓度，a_ij表示所有图像库图像和示例图像中任意图像v_i与v_j之间的亲和力，P_i表示与图像v_i正相关的图像集合，v_l∈P_i表示图像v_l属于P_i。当α＝0时，上式只依赖于启发式信息，即图像特征之间的关系；相反，当β＝0时，没有考虑启发式信息带来的任何偏移，只有语义信息素增量因子起作用。最后，根据亲和力增强概率，更新原始亲和力矩阵：并将更新后的亲和力矩阵记作其中表示顶点v_i和v_j之间亲和力被增强的权重，因此可以认为，它们之间的亲和力以p_ij的概率增强了为了保持一致的数量级，对更新后的亲和力，进一步通过归一化处理，得到增强的亲和力矩阵

在这里，权重至关重要，如果值太小，如则图像之间的亲和力根本没有更新，因为值太小，而在计算时被忽略；相反，当权值太大，如则被更新后的亲和力矩阵只有稀疏的几个值特别大，导致归一化后的矩阵大部分元素均为0，使得检索结果特别好，其实是一种过拟合的现象。为了避免这种现象，本发明用一种简单的方法来确定权重值。首先，假设所有顶点被增强的权重都相同，且初始定义为：

并添加一项约束防止权重值不稳定，其中是一个上界，取值为0.5，是原始亲和力矩阵A的平均。事实上，b值表现了初始定义的权重偏离的距离。如果该约束条件不满足，则以0.1的比例减小权重值，这样得到的权重具有很好的鲁棒性。

步骤9利用新的亲和力矩阵构造超图，并返回检索结果，包含以下步骤：

步骤91，构建超边集合E。传统的简单图，一般通过连接两个顶点建立点对点的关系，并给连接边赋以一定权值，只能表征某两个点之间的关系，但无法表示更多顶点的共同属性。而超图能够表现顶点之间的高层结构，为相互关联的多个顶点建立超边，表示这些顶点共同属于该超边，同样给超边赋以一定权重。在图像检索中，每一幅图像作为一个顶点，通过超图构建图像之间的高层结构信息。设图像库与示例图像的集合为V，超边集合为E，且每一条超边e∈E具有一个正值权重ω(e)，则超图可以表示为G(V,E,ω)。

根据步骤8增强的亲和力矩阵以每一个顶点(图像)v_i为中心点，计算k个与其亲和力最强的顶点，由此得到共k+1个顶点，共同组成一条超边e_i。由此可见，一条超边e由顶点的子集构成，因此∪_e∈E＝V。

步骤92，构造发生率矩阵。根据某顶点是否属于某一超边，以及步骤8增强的亲和力矩阵构造发生率矩阵每一个元素h(v_i,e_j)∈H表示顶点v_i属于e_j的概率。得到发生率矩阵后，可以进一步计算每条超边的权重ω(e)，每个顶点的度d(v)，以及每条超边的度为δ(e)。

步骤93，基于超图计算图像匹配相似度。基于超图的图像检索可以看作一个排序问题，其目标是最小化归一化式Ω(f)与正则项||f-y||之和：

其中f表示需要学习的匹配相似度，y表示初始标签，对于某次检索，如果某顶点v是正相关图像，则其初始标签值为(nPos为步骤7中总的正相关图像数)，如果是负相关图像，则其初始标签值为(nNeg为步骤7中总的负相关图像数)。nPos和nNeg均为正整数，所以y取值为[-1,1]，μ表示正则化参数，用于权衡归一式与正则项之间的重要性，取值范围为正整数。最后计算得到示例图像与图像库图像的相似度

步骤10返回此轮图像检索结果包括：

根据步骤9优化的结果，对其进行由大到小排序，得到的也是图像库中图像与示例图像的相似度排序结果，排序结果即为此轮图像检索结果。如果反馈达到round轮，则检索结束，对当前返回的结果，统计检索准确率，并输出此轮图像检索结果；否则进入下一轮检索，将当前检索结果作为反馈信息，返回到步骤7，如此迭代直到检索结束，其中round取值范围为自然数。

本发明是为提升已有图像检索方法的检索查全率和查准率。本发明具有以下特征：1)引入基于蚁群算法的相关反馈机制，建立图像与图像之间的语义关系，并定义了图像之间的语义信息素，通过每一轮反馈，更新语义信息素矩阵；2)设计一种利用蚁群算法计算亲和力增强概率的方法，该方法结合图像特征和图像语义关系，图像特征作为启发式信息，图像语义关系作为信息素，然后根据计算得到的亲和力增强概率，对原始亲和力矩阵进行增强，重构得到一个基于图像特征和高层语义的亲和力矩阵；3)同时，利用超图挖掘图像的高层结构信息，综合考虑多幅图像之间的共同特征，通过形式化的式子实现图像检索，可以得到较高的准确率。

有益效果：本发明能够充分结合图像特征和图像语义关系，利用用户每次检索反馈信息，在一定程度上提升了图像检索查全率和查准率，因此具有较高的使用价值。

附图说明

图1为本发明流程图。

图2为获得图像库图像高层表示流程图。

图3为一种典型的三层空间金字塔示意图。

图4为构造超图，求解检索结果流程图。

具体实施方式：

如图1所示，本发明公开了一种基于蚁群算法和概率超图的相关反馈图像检索方法，包括训练和检索两个阶段；

所述训练阶段包含以下步骤：

步骤1，提取图像底层特征：对图像库中的每一幅图像，采用密集采样方法，通过对图像进行网格划分，提取SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征。

步骤3，图像库图像高层表示：利用学习得到的字典，对每一底层特征进行编码，并对图像库中的每一幅图像的编码结果，进行汇合得到一个D维的直方图，即为最后的图像高层表示(图像重构特征)。

所述检索阶段包含以下步骤：

步骤6，构造亲和力矩阵：利用步骤3中得到的图像库图像高层表示，以及示例图像高层表示，计算所有图像对之间的相似度，并使用一个亲和力矩阵存储结果；表示亲和力矩阵的元素值为实数，V表示所有图像，|V|表示所有图像的数量；

步骤1表示提取图像底层特征。首先对图像数据集中的每一幅图像，采用密集采样方法，每隔gridSpacing个像素的步长，对图像进行栅格划分，每个小栅格为patchSize像素×patchSize像素的采样点。然后从每个采样点中提取一个128维的SIFT(Scale InvariantFeature Transform,尺度不变性的特征变换)特征，从而每一幅图像将表示成若干SIFT特征的集合，如表示第i幅图像的特征，选取SIFT特征是因为它具有对图像旋转、尺度缩放、亮度变化保持不变性，能实现快速、准确匹配等特点。其中gridSpacing取值范围为非负整数，patchSize的取值范围为正整数。

步骤2表示学习字典。从图像库包含的所有图像的底层特征中，随机抽取nsmp个特征，用于学习字典。具体的随机抽样有不同的策略，如利用数据集中图像总数和需要抽样得到的特征总数，计算平均每幅图像贡献特征数量，再从每一幅图像中随机抽取该数量的特征，从而得到nsmp个底层特征；再如，若事先已知图像的类别，则可以从每一类图像中抽取ntrain幅图像，作为训练图像库，利用训练图像库的所有特征学习字典。第一种策略不需要知道图像的分类，且对每一幅图像抽取的特征比较均衡，一般采用这种策略；而第二种策略一般用于图像分类任务的字典学习模型中。然后，进一步利用k-means聚类方法，对随机抽样得到的特征进行聚类，学习得到的M个聚类中心，即为字典其中nsmp，ntrain取正整数，M取正整数。

步骤3图像库图像高层表示。首先对每一图像的每一个底层特征，根据步骤2学习得到字典U，利用下式求解步骤1提取的底层特征x_i的编码：

c_{i j} = \frac{\exp (- {rd}_{i j}^{2})}{Σ_{k = 1}^{M} \exp (- {rd}_{i k}^{2})}

若表示特征x_i的编码结果，表示字典U中所有MM个单词与特征x_i之间的欧式距离。则式子中c_ij∈c_i表示特征x_i在单词上的系数，而d_ij∈d_i特征x_i与单词的欧式距离，r用于控制特征与字典之间的距离对编码的相对重要性。式中的分母实现对求得的系数c_i进行归一化。

由于一副图像包含多个SIFT特征，因此该处理将使得每一幅图像具有多个编码。为了使每一幅图像具有唯一表示，将同一幅图像的多个高层表示进行汇合，得到最后的图像高层语义表示。为了有效结合图像的空间信息，采用三层空间金字塔，实现多层特征融合。首先将图像空间分为三层：level 0、level 1、level 2，如图3为一种典型的三层空间金字塔示意图，但本专利采用一种其它类似的分割策略。level 0不分块，表示整张图像的信息，level 1按图像平面空间横轴与纵轴方向均分为4块，level 2按图像的横轴平均分成3个纵向的块，共有8块；对每一个分块k中包含的SIFT特征的编码，均采用最大汇合技术_，得到高层表示，具体地，计算其中表示第i幅图像的第k分块的高层表示，而则表示该分块包含了SIFT特征且其编码结果为i_ni表示第i幅图像总共包含的特征数。最后将所有分块的高层表示向量串接成整个图像的高层表示，假设获得的码书含M个视觉单词，M取正整数，则图像的高层特征维度为8×M。特别地，第i幅图像的高层特征表示为一个8×M维的直方图H_i。步骤1到步骤3共同组成图像表示过程，图像表示主要利用码书模型实现，包括提取图像底层特征、学习字典、高层表示等过程。给定一个图像库，对每幅图像输出相应的高层表示，或者称为图像重构特征。如图2所示。

步骤4提取示例图像的底层特征。对示例图像采用密集采样的方法，每隔gridSpacing个像素的步长，对图像进行栅格划分，每个小栅格为patchSize×patchSize像素的采样点。然后从每个采样点中提取一个128维的SIFT(Scale Invariant FeatureTransform,尺度不变性的特征变换)特征，从而示例图像被表示成若干个SIFT特征的集合，如选取SIFT特征是因为它具有对图像旋转、尺度缩放、亮度变化保持不变性，能实现快速、准确匹配等特点。其中gridSpacing取值范围为非负整数，patchSize的取值范围为正整数。

步骤5示例图像高层表示。对示例图像的每一个底层特征，根据步骤2学习得到的字典U，利用与步骤3同样的方法，实现步骤4提取的底层特征x_i的编码：

c_{i j} = \frac{\exp (- {rd}_{i j}^{2})}{Σ_{k = 1}^{M} \exp (- {rd}_{i k}^{2})}

若表示特征x_i的编码结果，表示字典U中所有M M个单词与特征x_i之间的欧式距离。则式子中c_ij∈c_i表示特征x_i在单词上的系数，而d_ij∈d_i特征x_i与单词的欧式距离，r用于控制特征与字典之间的距离对编码的相对重要性。式中的分母实现对求得的系数c_i进行归一化。

为了有效结合图像的空间信息，采用三层空间金字塔，实现多层特征融合。首先将图像空间分为三层：level 0、level 1、level 2，本专利的分割策略为：level 0不分块，表示整张图像的信息，level 1按图像平面空间横轴与纵轴方向均分为4块，level 2按图像的横轴平均分成3个纵向的块，共有8块；对每一个分块k中包含的SIFT特征的编码，均采用最大汇合技术，得到高层表示。最后将所有分块的高层表示向量串接成整个图像的高层表示，假设获得的码书含M个视觉单词，M取正整数，则图像的高层特征维度为8×M。因此示例图像的高层特征表示为一个8×M维的直方图。

步骤6构造亲和力矩阵。得到图像库图像高层表示和示例图像高层表示后，通过直方图相交方法，计算任意两幅图像之间的相似度，如下式：

s_{i j} = Σ_{l = 0}^{L} z^{l} Σ_{k = 1}^{D^{l}} m i n (H_{i} (k), H_{j} (k))

其中s_ij表示第i幅图像与第j幅图像之间的相似度，H_i(k)和H_j(k)分别表示两个直方图的第k个元素，L表示空间金字塔的层数，z^l∈(0,1]和D^l分别表示第l层金字塔的权重参数和维度，L取正整数，不大于3，D^l取值范围为正整数。

求得图像之间的相似度后，对结果进行归一化，存储于亲和力矩阵中，其中|V|表示图像库中包含的图像总数，约定第i幅图像记为v_i。任意a_ij表示图像v_i和图像v_j之间的亲和力。

步骤7初始化或更新语义信息素矩阵步骤3和5得到图像高层特征表示，步骤6的亲和力矩阵建立了图像特征之间的联系，步骤7根据检索结果与示例图像是否相关的反馈信息，记录任意两幅图像之间的语义相关性。该步骤模拟蚂蚁觅食过程。基于蚁群算法的相关反馈机制，在图像检索中，相关图像之间应该具有更强的联系，正相关图像作为返回结果的概率应该更大，因此本算法建立图像和图像之间的语义关系网络，并定义一个语义信息素矩阵。

τ_{i j}^{t + 1} = \{\begin{matrix} (1 - ρ) τ_{i j}^{t} + 1 / | P_{i} |, & \begin{matrix} i f & v_{j} &Element; P_{i} \end{matrix} \\ 0, & o t h e r w i s e . \end{matrix}

步骤8利用蚁群算法计算亲和力增强概率。根据步骤6构造的原始亲和力矩阵存储的是图像特征之间的相似度，因此将其作为启发信息，同时根据步骤7的语义信息素矩阵，利用蚁群算法计算出图像v_i与v_j之间亲和力被增强的概率：

p_{i j} = \frac{{[τ_{i j}]}^{α} {[a_{i j}]}^{β}}{Σ_{v_{l} &Element; P_{i}} {[τ_{i l}]}^{α} {[a_{i l}]}^{β}}

其中α和β两个参数，分别用于控制语义信息素和启发式信息在计算中的作用，理论上取值可以是任意实数，但一般取值范围均为[0,1]；τ_ij表示图像v_i与v_j之间的语义信息素浓度，a_ij表示所有图像中任意图像v_i与v_j之间的亲和力，P_i表示与图像v_i正相关的图像集合，v_l∈P_i表示图像v_l属于P_i。。当α＝0时，上式只依赖于启发式信息，即图像特征之间的关系；相反，当β＝0时，没有考虑启发式信息带来的任何偏移，只有语义信息素增量因子起作用。最后，根据亲和力增强概率，更新原始亲和力矩阵：并将更新后的亲和力矩阵记作其中表示顶点v_i和v_j之间亲和力被增强的权重，因此可以认为，它们之间的亲和力以p_ij的概率增强了为了保持一致的数量级，对更新后的亲和力，进一步通过归一化处理，得到增强的亲和力矩阵

并添加一项约束防止权重值不稳定，其中是一个上界，取值为0.5，是原始亲和力矩阵A的的平均。事实上，b值表现了初始定义的权重偏离的距离。如果该约束条件不满足，则以0.1的比例减小权重值，这样得到的权重具有很好的鲁棒性。

步骤9利用新的亲和力矩阵构造超图，并返回检索结果，如图4所示。步骤91，构建超边集合E。超图能够表现顶点之间的高层结构，为相互关联的多个顶点建立超边，表示这些顶点共同属于该超边，同样给超边赋以一定权重。在图像检索中，每一幅图像作为一个顶点，通过超图构建图像之间的高层结构信息。设图像库加示例图像为V，超边集合为E，且每一条超边e∈E具有一个正值权重ω(e)，则超图可以表示为G(V,E,ω)。根据步骤8以一定概率增强后的亲和力矩阵以每一个顶点(图像)v_i为中心点，计算k个与其亲和力最强的顶点，由此得到共k+1个顶点，共同组成一条超边e_i。由此可见，一条超边e由顶点的子集构成，因此∪_e∈E＝V。

步骤92，构建发生率矩阵。根据某顶点是否属于某一超边，以及步骤8增强的亲和力矩阵通过下式构造发生率矩阵

h (v_{i}, e_{j}) = \{\begin{matrix} a_{i j}, & \begin{matrix} i f & v_{i} &Element; e_{j} \end{matrix} \\ 0, & o t h e r w i s e \end{matrix}

其中每一个元素h(v_i,e_j)表示顶点v_i属于e_j的概率。得到发生率矩阵后，可以进一步计算每条超边的权重所以如果一条超边内的顶点之间具有很紧密的关系，比如对于图像来说，超边内的图像互相的都很相似，则该超边的权重也会较大。此外，根据发生率矩阵H和权重ω(e)，还需定义每个顶点的度为d(v)＝∑_e∈Eω(e)h(v,e)，以及每条超边的度为δ(e)＝∑_v∈eh(v,e)。步骤93，基于超图计算图像匹配相似度。基于超图的图像检索可以看作一个排序问题，其目标是最小化归一化式Ω(f)与正则项||f-y||之和：

其中f表示需要学习的匹配相似度，y表示初始标签，对于某次检索，如果某顶点v是正相关图像，则其初始标签值为(nPos为步骤7中总的正相关图像数)，如果是负相关图像，则其初始标签值为(nNeg为步骤7中总的负相关图像数)。nPos和nNeg均为正整数，所以y取值为[-1,1]，μ表示正则化参数，用于权衡归一式与正则项之间的重要性，取值范围为正整数。最后计算得到示例图像与图像库图像的相似度。

步骤10返回此轮图像检索结果。根据步骤9优化的结果f，对其进行由大到小排序，得到的也是图像库中图像与示例图像的相似度排序结果，排序结果即为此轮图像检索结果。如果反馈达到round轮，则检索结束，对当前返回的结果，以0.1为间隔，统计召回率(召回率＝当前正确的图像数/数据集中所有正确图像数)从0到1条件下的检索准确率(准确率＝当前正确的图像数/当前返回的所有图像数)，并输出此轮图像检索结果；否则进入下一轮检索，将当前检索结果作为反馈信息，返回到步骤7，如此迭代直到检索结束，其中round取值范围为自然数，可由用户自行设定。

实施例：

本实施例包括以下部分：

1.提取图像底层特征

首先对图像数据集中的每一幅图像，采用密集采样方法，每隔6个像素的步长，对图像进行栅格划分，每个小栅格为16×16像素的采样点。由于这种采样策略，使得小栅格之间存在互相重合(over-lapping)区域，图像的同一个像素用于多个特征的提取，因此从图像提取的特征非常密集。对图像划分后，再从每个采样点中提取一个128维的SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征，从而每一幅图像将表示成若干SIFT特征的集合，如表示第i幅图像的特征包含n_i个特征。SIFT是一种用不同尺度(标准差)的高斯函数对图像进行平滑，然后比较平滑后图像的差别，差别大的像素就是特征明显的点。它具有对图像尺度缩放、旋转、平移、光照变化保持不变性，而且利用密集采样得到的大量特征，即使对于一些有部分遮挡的图像也具有鲁棒性，在图像领域应用非常广泛，具体可参见文献D.Lowe,Object recognition from local scale-invariant features[C]//in:Proceedings of the IEEEInternational Conference on Computer Vision(ICCV’99)。由于每次提取特征，都是对图像中以某一像素为中心的领域区域进行操作，因此具体描述时，也可以叫做图像局部特征。

2.学习字典

从图像库包含的所有图像的局部特征中，随机抽取20万个特征，用于学习字典。首先需要确定随机抽样的策略，在本实施例中利用数据集中图像总数nimg和需要抽样得到的特征总数20万，计算平均每幅图像贡献特征数量( 表示取不大于a的最大整数)，再从每一幅图像中随机抽取该数量的特征，从而得到的局部特征；然后，进一步利用k-means聚类方法，对随机抽样得到的特征进行聚类，学习得到的M个聚类中心，即为字典每一个聚类中心作为字典中的一个元素，叫做视觉单词。字典也可以称为码书，相应的视觉单词称为码字。在本实施例中，取M＝1024，因为是对图像局部特征进行聚类，因此单词的维度与特征的维度应该相同，d＝128。其中nimg取正整数，M取正整数。

3.图像库高层特征表示

首先对图像库中每一图像的每一个底层特征，根据学习得到的字典U，利用下式求解局部特征x_i的软编码(soft-assignment)：

c_{i j} = \frac{\exp (- {rd}_{i j}^{2})}{Σ_{k = 1}^{M} \exp (- {rd}_{i k}^{2})}

若表示特征x_i的编码结果，表示字典U中所有1024个单词与特征x_i之间的欧式距离。则式子中c_ij∈c_i表示特征x_i在单词上的系数，而d_ij∈d_i且d_ij＝||x_i-u_j||₂，表示x_i与单词的欧式距离，r用于控制特征与字典之间的距离对编码的相对重要性，本实施例中取r＝30。式中的分母实现对求得的系数c_i进行归一化。

软编码方法是利用码书模型进行图像表示的一种有效方法。编码的过程，是将图像局部特征映射到字典的过程，或者说，利用字典重构图象局部特征的过程，因为可以通过字典和编码结果来重构特征：且由于在编码过程中，选择合适的单词用于进行表示是关键，当存在多个实际可行的候选单词时，选择哪一个具有不确定性，这也称为视觉单词不确定性(visual word uncertainty)，软编码方法就是利用这种不确定进行编码的方法，用于图像表示具有较好的效果，具体参见文献J.Gemert et al.Visualword ambiguity[C]//IEEE Trans.Pattern Anal.Mach.Intell.32(7)(2010)。

由于一副图像包含多个SIFT特征，因此上述处理的结果将使得每一幅图像具有多个编码。为了使每一幅图像具有唯一表示，将同一幅图像的多个高层表示进行汇合，得到最后的图像高层表示。为了有效结合图像的空间信息，采用三层空间金字塔，实现多层特征融合。首先将图像空间分为三层：level 0、level 1、level 2，并采用1×1，2×2，1×3的分块策略。也就是说，level 0不分块，表示整张图像的信息，level 1按图像平面空间横轴与纵轴方向均分为4块，level 2按图像的横轴平均分成3个纵向的块，共有8块；对每一个分块k中包含的SIFT特征的编码，均采用最大汇合技术，得到高层表示，具体地，计算其中表示第i幅图像的第k分块的高层表示，而则表示该分块包含了SIFT特征且其编码结果为i_ni表示第i幅图像总共包含的特征数。最后将所有分块的高层表示向量串接成整个图像的高层表示，已知获得的码书含1024个视觉单词，则图像的高层特征维度为8×1024＝8192。特别地，第i幅图像的高层特征表示为一个8192维的直方图H_i。

提取图像底层特征、学习字典、图像高层表示共同完成了图像表示过程，输入任意一幅图像，将得到一个8192维的直方图特征，也即图像重构特征。

4.提取示例图像的底层特征

对于任意输入的示例图像，首先采用密集采样方法，每隔6个像素的步长，对图像进行栅格划分，每个小栅格为16×16像素的采样点。由于这种采样策略，使得小栅格之间存在互相重合(over-lapping)区域，图像的同一个像素用于多个特征的提取，因此从图像提取的特征非常密集。对图像划分后，再从每个采样点中提取一个128维的SIFT(Scale Invariant Feature Transform,尺度不变性的特征变换)特征，从而每一幅图像将表示成若干SIFT特征的集合。由于每次提取特征，都是对图像中以某一像素为中心的领域区域进行操作，因此具体描述时，也可以叫做图像局部特征。

5.示例图像高层表示

首先对示例图像的每一个底层特征，根据学习得到的字典U，利用下式求解局部特征x_i的软编码(soft-assignment)：

c_{i j} = \frac{\exp (- {rd}_{i j}^{2})}{Σ_{k = 1}^{M} \exp (- {rd}_{i k}^{2})}

为了有效结合图像的空间信息，采用三层空间金字塔，实现多层特征融合。首先将图像空间分为三层：level 0、level 1、level 2，并采用1×1，2×2，1×3的分块策略。也就是说，level 0不分块，表示整张图像的信息，level 1按图像平面空间横轴与纵轴方向均分为4块，level 2按图像的横轴平均分成3个纵向的块，共有8块；对每一个分块k中包含的SIFT特征的编码，均采用最大汇合技术，得到高层表示，最后将所有分块的高层表示向量串接成整个图像的高层表示，已知获得的码书含1024个视觉单词，则图像的高层特征维度为8×1024＝8192。特别地，示例图像的高层特征表示为一个8192维的直方图。

6.构造亲和力矩阵

根据上述实现的图像高层表示，通过相似度度量方法，如欧式距离、曼哈顿距离、切比雪夫距离等，可以计算任意两幅图像之间的相似度。假设x＝(x₁,x₂,…,x_n)和y＝(y₁,y₂,…,y_n)分别为两个n维向量，则各个距离度量方式如下：

1)欧式距离：

2)曼哈顿距离：

3)切比雪夫距离：

上述公式均是衡量向量之间的差异，要转换为相似度，必须先对距离进行归一化，然后用1-d(x,y)求得相似度。由于本实施例的图像表示是直方图特征，因此采用直方图相交方法比较合理，该方法表现了直方图向量之间的公共部分，直接反映了图像之间的相似性，计算如下式：

s_{i j} = Σ_{l = 0}^{L} z^{l} Σ_{k = 1}^{D^{l}} m i n (H_{i} (k), H_{j} (k))

其中s_ij表示第i幅图像与第j幅图像之间的相似度，H_i(k)和H_j(k)分别表示两个直方图的第k个元素，L表示空间金字塔的层数，z^l和D^l分别表示第l层金字塔的权重参数和维度。值得注意的是，在三层空间金字塔结构中，L＝3，对l＝0,1,2均满足且D⁰＝1024，D¹＝4×1024，D²＝3×1024。因为对于第0层来说，整幅图像为一个分块，每个分块的图像表示为1024维，所以D⁰＝1024；而第二层有4个分块，将每个分块的图像表示串接起来，就有D¹＝4×1024维，第三层也是同样的道理。

求得图像之间的相似度后，为了计算量级的一致性，还必须对结果进行归一化：

a_i＝exp(s_i-max(s_i))

s_i为第i幅图像与所有图像的相似度组成的向量，max(s_i)表示与第i幅图像相似度最大的值，所以总是满足s_i-max(s_i)≤0，从而a_i∈(0,1]。将归一化后的结果存储于亲和力矩阵中，其中|V|表示图像库中包含的图像总数，约定第i幅图像记为v_i。任意a_ij∈A表示图像v_i和图像v_j之间的亲和力。

7.初始化或更新语义信息素矩阵

给定图像高层特征表示，并建立了图像特征之间的联系后，进一步根据检索结果与示例图像是否相关的反馈信息，记录任意两幅图像之间的语义相关性。该过程模拟蚂蚁觅食过程。蚂蚁觅食通过释放一种信息素来保存路径信息，蚂蚁移动时会根据各条路径的信息素浓度来选择，同时撒播信息素，以吸引更多的蚂蚁选择当前路径觅食。同时，所有信息素会以一定速率蒸发。当某条路径上不断地有蚂蚁经过，会不断地积累信息素，信息素浓度越大，蚂蚁下次选择该路径的概率也越大，使得短路径信息素浓度越来越大，长路径信息素渐渐挥发，这样就形成了一个良性的正相关反馈。同样地，当有多个食物源的时候，蚂蚁总能找到距离巢穴最近的某个食物源，因此食物源和巢穴之间的关系强度可以通过信息素的浓度来表现。利用这种反馈机制，在图像检索中，相关图像之间应该具有更强的联系，正相关图像作为返回结果的概率应该更大，因此本算法建立图像和图像之间的语义关系网络，并定义一个语义信息素矩阵。

令t表示当前反馈轮次。如果当前是第一轮检索，由于检索开始时没有反馈信息，则t＝0，同时初始化任意两幅图像v_i与v_j之间的语义相关性为0，即否则，先对上一轮的检索结果进行反馈，从上一轮检索结果的前50幅图像中，随机选取5幅作为正相关图像，从上一轮检索结果的后50幅图像中，随机选取5幅作为负相关图像，其它图像不做反馈，然后对语义信息素矩阵进行更新：

τ_{i j}^{t + 1} = \{\begin{matrix} (1 - ρ) τ_{i j}^{t} + 1 / | P_{i} |, & \begin{matrix} i f & v_{j} &Element; P_{i} \end{matrix} \\ 0, & o t h e r w i s e . \end{matrix}

其中ρ∈(0,1]表示信息素蒸发速率，P_i表示与图像v_i正相关的图像集合。上式的信息素更新包括两个主要过程：1)信息素蒸发。在语义信息素积累之前，部分信息素将以速率ρ蒸发，因此表示挥发后剩余的信息素。2)信息素积累。具体地，统计本轮与示例图像正相关的图像数，并取其倒数作为本轮分泌的信息素。在本实施例中，取ρ＝0.1，可以避免信息素蒸发太快，也不会导致某两幅图像之间的语义信息素马上就变得很浓。

8.利用蚁群算法计算亲和力增强概率

原始亲和力矩阵存储的是图像特征之间的相似度，因此将其作为启发信息，同时根据语义信息素矩阵，利用蚁群算法计算出图像v_i与v_j之间亲和力被增强的概率：

p_{i j} = \frac{{[τ_{i j}]}^{α} {[a_{i j}]}^{β}}{Σ_{v_{l} &Element; P_{i}} {[τ_{i l}]}^{α} {[a_{i l}]}^{β}}

其中α和β两个参数，分别用于控制语义信息素和启发式信息在计算中的作用。当α＝0时，上式只依赖于启发式信息，即图像特征之间的关系；相反，当β＝0时，没有考虑启发式信息带来的任何偏移，只有语义信息素增量因子起作用。α和β两个参数取值范围均为[0,1]，取值越大，相应因子影响就越大；这两种极端情况都会导致检索效果有偏差，为了同时考虑启发式信息和语义信息素，本实施例取α＝β＝1作为标准。上式分母用于归一化_，因此得到的p_ij始终在[0,1]区间内，且故满足概率的性质。最后，根据亲和力增强概率，更新原始亲和力矩阵：并将更新后的亲和力矩阵记作其中表示顶点v_i和v_j之间亲和力被增强的权重，因此可以认为，它们之间的亲和力以p_ij的概率增强了为了保持一致的数量级，对更新后的亲和力，进一步通过归一化处理，写成向量形式为其中为第i幅图像与所有图像的亲和力向量(指更新后的亲和力)，表示与第i幅图像亲和力最大的值，所以总是满足从而由此得到增强的亲和力矩阵

并添加一项约束防止权重值不稳定，其中是一个上界，取值为0.5，是原始亲和力矩阵A的的平均。事实上，b值表现了初始定义的权重偏离的距离。如果该约束条件不满足，则以0.1的比例减小权重值，即这样得到的权重具有很好的鲁棒性。

9.构建超边集合E

传统的简单图，一般通过连接两个顶点建立点对点的关系，并给连接边赋以一定权值，只能表征某两个点之间的关系，但无法表示更多顶点的共同属性。而超图能够表现顶点之间的高层结构，为相互关联的多个顶点建立超边，表示这些顶点共同属于该超边，同样给超边赋以一定权重。例如，对一些文章和作者信息进行挖掘，很直观的方法是，将文章视为顶点，如果两篇文章有相同的作者，则在两个顶点之间加一条边，并赋予一个权值，表示这两篇文章有多少个共同作者。这样的图便是一个简单图，每条边只连接两个点，想法非常自然，但是却无法挖掘同一个作者是否写了三篇甚至更多的文章。针对该问题，超图可以为同一作者写的所有文章建立一条超边，从而挖掘更高层的信息。在图像检索中，每一幅图像作为一个顶点，通过超图构建图像之间的高层结构信息。设图像库为V，超边集合为E，且每一条超边e∈E具有一个正值权重ω(e)，则超图可以表示为G(V,E,ω)。给定以一定概率增强后的亲和力矩阵以每一个顶点(图像)v_i为中心点，计算5个与其亲和力最强的顶点，由此得到6个顶点，共同组成一条超边e_i。由此可见，一条超边e由顶点的子集构成，因此∪_e∈E＝V。

10.构造发生率矩阵

根据某顶点是否属于某一超边，以及增强的亲和力矩阵通过下式构造发生率矩阵

h (v_{i}, e_{j}) = \{\begin{matrix} a_{i j}, & \begin{matrix} i f & v_{i} &Element; e_{j} \end{matrix} \\ 0, & o t h e r w i s e \end{matrix}

其中每一个元素h(v_i,e_j)表示顶点v_i属于e_j的概率_。得到发生率矩阵后，可以进一步计算每个顶点的权重所以如果一条超边内的顶点之间具有很紧密的关系，比如对于图像来说，超边内的图像互相的都很相似，则该超边的权重也会较大。此外，根据发生率矩阵H和权重ω(e)，还需定义每个顶点的度为d(v)＝∑_e∈Eω(e)h(v,e)，以及每条超边的度为δ(e)＝∑_v∈eh(v,e)。在下文中分别用D_v,D_e和W表示顶点度的对角矩阵、超边度的对角矩阵、超边权重的对角矩阵。

11.基于超图计算图像匹配相似度

基于超图的图像检索可以看作一个排序问题，解决该排序问题有两种方法，第一种是将超图结构分解为简单图，第二种定义一个超图Laplacian(拉普拉斯)算子，一个典型的算子是归一化Laplacian算子，具体参见文献D.Zhou,Learning with hypergraphs:Clustering,classification,and embedding[C]//In NIPS’06。然后定义一个相应的损失函数：

Ω (f) = \frac{1}{2} \underset{e &Element; E}{Σ} \underset{u, v &Element; e}{Σ} \frac{w (e) h (u, e) h (v, e)}{δ (e)} {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2}

其中f表示需要学习的匹配相似度，通过最小化损失函数，可使共同属于多条超边的两个顶点，得到相似的标签。可以进一步推导，得：

\begin{matrix} Ω (f) = \frac{1}{2} \underset{e &Element; E}{Σ} \underset{u, v &Element; e}{Σ} \frac{w (e) h (u, e) h (v, e)}{δ (e)} {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2} \\ = \underset{e &Element; E}{Σ} \underset{u, v &Element; e}{Σ} \frac{w (e) h (u, e) h (v, e)}{δ (e)} (\frac{f^{2} (u)}{\sqrt{d (u)}} - \frac{f (u) f (v)}{\sqrt{d (u) d (v)}}) \\ = \underset{u &Element; V}{Σ} f^{2} (u) \underset{e &Element; E}{Σ} \frac{w (e) h (u, e)}{d (u)} \underset{v &Element; V}{Σ} \frac{h (v, e)}{δ (e)} - \underset{e &Element; E}{Σ} \underset{u, v &Element; e}{Σ} \frac{f (u) h (u, e) w (e) h (v, e) f (v)}{\sqrt{d (u) d (v)} δ (e)} \end{matrix}

由于d(u)＝∑_e∈Eω(e)h(u,e)，所以又由于δ(e)＝∑_v∈eh(v,e)，所以于是有：

\begin{matrix} Ω (f) = \underset{u &Element; V}{Σ} f^{2} (u) - \underset{e &Element; E}{Σ} \underset{u, v &Element; e}{Σ} \frac{f (u) h (u, e) w (e) h (v, e) f (v)}{\sqrt{d (u) d (v)} δ (e)} \\ = f^{T} (I - Θ) f \end{matrix}

其中

为了利用反馈信息，定义一个初始标签向量y，对于某次检索，如果某顶点v是正相关图像，则其初始标签值为(nPos为步骤7中总的正相关图像数)，如果是负相关图像，则其初始标签值为(nNeg为步骤7中总的负相关图像数)，其它图像的初始标签值为0，nPos和nNeg均为正整数，所以y取值为[-1,1]。为了使初始标签与学习得到的标签相符，需要最小化一个正则项：

| | f - y | |^{2} = \underset{u &Element; V}{Σ} {(f (u) - y (u))}^{2}

最后基于超图的图像检索问题，被转化为最小化归一化式Ω(f)与正则项||f-y||之和：

其中μ表示正则化参数，用于权衡归一式与正则项之间的重要性，取值为9。

优化上式，只需要对f的导数为0，首先令Φ(f)＝Ω(f)+μ||f-y||²，于是：

\frac{\partial Φ (f)}{\partial f} = 2 f^{T} (I - Θ) + 2 μ {(f - y)}^{T} = 0

解得f＝(1-γ)(I-γΘ)^-1y，其中

12.返回此轮检索结果

得到优化的结果f，对其进行由大到小排序，得到的也是图像库中图像与示例图像的相似度排序结果，排序结果即为此轮图像检索结果。如果反馈达到2轮，则检索结束，对当前返回的结果，以0.1为间隔，统计召回率(召回率＝当前正确的图像数/数据集中所有正确图像数)从0到1条件下的检索准确率(准确率＝当前正确的图像数/当前返回的所有图像数)，并输出此轮图像检索结果；否则进入下一轮检索，将当前检索结果作为反馈信息，返回到更新语义信息素矩阵，继续迭代直到检索结束。

本发明提供了一种基于蚁群算法和概率超图的相关反馈图像检索方法，该方法的关键技术包括基于蚁群算法的亲和力矩阵更新、基于概率超图的检索，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于蚁群算法和概率超图的相关反馈图像检索方法，其特征在于，包括训练和检索两个阶段；

所述训练阶段包含以下步骤：

步骤1，提取图像底层特征：对图像库中的每一幅图像，提取SIFT特征，作为图像底层特征；

步骤3，图像库图像高层表示：利用学习得到的字典，对每一个底层特征进行编码，并对图像库中的每一幅图像的编码结果，进行汇合得到一个D维的直方图，即为图像库图像高层表示；

所述检索阶段包含以下步骤：

步骤4，提取示例图像的底层特征：提取示例图像的SIFT特征；

步骤5，示例图像高层表示：利用训练阶段学习得到的字典，将示例图像表示成一个D维的直方图，即为示例图像的高层表示；

步骤6，构造亲和力矩阵：利用步骤3中得到的图像库图像高层表示，以及示例图像高层表示，计算所有图像对之间的相似度，并使用一个亲和力矩阵存储结果，表示亲和力矩阵的元素值为实数，V表示所有图像，|V|表示所有图像的数量；

步骤10，返回此轮检索结果：对示例图像与图像库图像的相似度进行由大到小排序，得到此轮检索结果，如果反馈达到round轮，则检索结束，输出此轮检索结果，否则利用当前检索结果作为反馈信息，返回步骤7开始下一轮检索，round的取值范围为自然数；

步骤1和步骤4提取图像的底层特征，对每一幅图像，采用密集采样方法，每隔gridSpacing个像素的步长，从patchSize×patchSize像素大小的局部窗口中提取SIFT特征，其中gridSpacing取值范围为非负整数，patchSize的取值范围为正整数；

步骤2进行字典学习包括：从所有底层特征中，随机抽取nsmp个底层特征，用于学习字典，利用图像库中图像总数和抽取底层特征数量nsmp，计算平均每幅图像贡献特征数量，再从每一幅图像中随机抽取与贡献特征数量相同的底层特征，从而得到nsmp个底层特征，然后，进一步利用k-means聚类方法，对得到的底层特征进行聚类，学习得到的M个聚类中心，即为字典，其中nsmp取正整数，M取正整数；

步骤3和步骤5利用学习得到的字典，对图像进行高层表示：将同一幅图像的所有高层表示进行汇合，得到最后的图像高层表示，第i幅图像v_i的高层表示为一个D维的直方图H_i，D取正整数；

步骤6利用图像库中图像的高层表示，以及示例图像高层表示，通过直方图相交方法，计算任意两幅图像之间的相似度，并存储于亲和力矩阵表示亲和力矩阵的元素值为实数，V表示所有图像，|V|表示所有图像的数量；

步骤7初始化或更新语义信息素矩阵语义信息素矩阵用于记录任意两幅图像之间的语义相关性，如果当前是第一轮检索，则t＝0，t表示当前反馈轮次，同时初始化任意两幅图像v_i与v_j之间的相关性为0，即否则，先对上一轮的检索结果进行反馈，从上一轮检索结果的前threshold幅图像中，随机选取nPos幅作为正相关图像，从上一轮检索结果的后threshold幅图像中，随机选取nNeg幅作为负相关图像，并对语义信息素矩阵进行更新：

τ_{i j}^{t + 1} = \{\begin{matrix} (1 - ρ) τ_{i j}^{t} + 1 / | P_{i} |, & \begin{matrix} i f & v_{j} &Element; P_{i} \end{matrix} \\ 0, & o t h e r w i s e \end{matrix},

其中ρ∈(0,1]表示信息素挥发速率，P_i表示与图像v_i正相关的图像集合，threshold、nPos、nNeg取值范围均为正整数，且threshold取值不大于图像库图像总数的10％，nPos和nNeg取值小于threshold。

2.根据权利要求1所述的一种基于蚁群算法和概率超图的相关反馈图像检索方法，其特征在于，步骤8利用蚁群算法计算亲和力增强概率，将图像视觉特征之间的距离作为启发信息，同时利用语义信息素矩阵，共同计算出图像v_i与v_j之间亲和力被增强的概率p_ij：

p_{i j} = \frac{{[τ_{i j}]}^{α} {[a_{i j}]}^{β}}{Σ_{v_{l} &Element; P_{i}} {[τ_{i l}]}^{α} {[a_{i l}]}^{β}},

其中α和β两个参数，取值范围均为[0,1]；τ_ij表示图像v_i与v_j之间的语义信息素浓度，a_ij表示图像库图像和示例图像中任意图像v_i与v_j之间的亲和力，P_i表示与图像v_i正相关的图像集合，v_l∈P_i表示图像v_l属于P_i，最后根据亲和力增强概率，更新原始亲和力矩阵，并进一步归一化处理得到增强的亲和力矩阵。

3.根据权利要求1所述的一种基于蚁群算法和概率超图的相关反馈图像检索方法，其特征在于，步骤9利用增强的亲和力矩阵构造超图，并返回检索结果，包含以下步骤：

步骤91，构建超边集合E，利用增强的亲和力矩阵，每个图像作为一个顶点，计算每一个顶点v_i的k个近邻，由此得到共k+1个顶点组成一条超边e_i；

步骤92，构造发生率矩阵，根据一个顶点是否属于一个超边，构造发生率矩阵其中每一个元素h(v_i,e_j)表示顶点v_i属于e_j的概率，得到发生率矩阵后，进一步计算每个顶点的度d(v)，每一条超边的度δ(e)和权重ω(e)；

步骤93，基于超图计算图像匹配相似度，最小化归一化式Ω(f)与正则项||f-y||之和：

其中

f表示需要学习的匹配相似度，y表示初始标签，如果某顶点v是正相关图像，则其初始标签值为如果是负相关图像，则其初始标签值为y取值为[-1,1]，μ表示正则化参数，取值范围为正整数，最后计算得到示例图像与图像库图像的相似度。

4.根据权利要求1所述的一种基于蚁群算法和概率超图的相关反馈图像检索方法，其特征在于，步骤10利用步骤9计算得到的示例图像与图像库图像的相似度，进行由大至小排序，排序结果即为此轮图像检索结果；如果反馈达到round轮，则检索结束，对当前返回的结果，统计检索准确率，并输出此轮图像检索结果；否则进入下一轮检索，将当前检索结果作为反馈信息，返回到步骤7，如此迭代直到round轮检索结束。