CN109255043A

CN109255043A - 基于场景理解的图像检索方法

Info

Publication number: CN109255043A
Application number: CN201811076163.2A
Authority: CN
Inventors: 马琳; 贾爽; 秦丹阳
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-01-22
Anticipated expiration: 2038-09-14
Also published as: CN109255043B

Abstract

基于场景理解的图像检索方法，本发明涉及基于场景理解的图像检索方法。本发明的目的是为了解决现有图像检索算法查准率较低以及由于遍历的图像检索方式导致的时间消耗大，从而无法满足视觉室内定位需求的问题。过程为：一、采用二维隐马尔科夫模型计算图像中特征描述块的特征向量与状态集合之间的联合概率；二、对一中的图像进行场景分类，建立离线数据库；三、根据相似度从大到小的顺序对场景进行相似度排序；四、对排序为1的场景中的图像构造关系图，并计算排序为1的场景中的每幅图像的评分，将排序为1的场景中的所有图像的评分从高到低进行排名；五、得到最佳匹配候选图像。本发明用于图像检索与视觉室内定位技术领域。

Description

基于场景理解的图像检索方法

技术领域

本发明涉及图像检索与视觉室内定位技术领域，具体涉及视觉室内定位系统中基于场景理解的图像检索方法。

背景技术

近年来，基于内容的图像检索(Content Based Image Retrieval,CBIR)是逐渐兴起的一项新技术。CBIR在数据时代具有许多的应用意义，从模式识别、计算机视觉、图像理解、人工智能等方面都有涉及，是一个极具挑战的研究方向。作为计算机视觉领域的研究热点，场景理解技术受到了广泛的关注与研究。根据图像的多层次语义表达，视觉场景理解主要可分为场景的局部理解和全局理解两个方面。局部场景理解侧重于分析和描述场景中局部目标的类别和其所处的位置，即目标的识别与定位。在一幅图像中，如何发掘出图像场景中存在的局部特征，例如，门窗、桌椅、海报和宣传标示栏等局部目标并获得它们在场景中所处的具体位置描述便是局部场景理解的主要任务；全局场景理解则侧重于场景内容的整体分析，即场景感知与分类。室内场景中，不同环境区分度较大，通过数据库图像的场景理解，可以归纳出不同场景中图像内容的语义特点。图像场景理解是指通过机器学习使计算机能够自动检测与识别图像中所包含的特定场景。

针对场景理解问题，目前较为流行的分类方法有Bag of Features、LDA、pLSA等。但是，现有的大多数图像检索方法查准率较低以及由于遍历的图像检索方式导致的时间消耗大，并不能达到视觉室内定位所需的高准确率的要求。

发明内容

本发明的目的是为了解决现有图像检索方法查准率较低以及由于遍历的图像检索方式导致的时间消耗大，从而无法满足视觉室内定位需求的问题，而提出基于场景理解的图像检索方法。

基于场景理解的图像检索方法具体过程为：

步骤一、利用超像素分割对图像进行特征描述块提取，并采用颜色特征和小波矩特征对特征描述块进行描述，同时采用二维隐马尔科夫模型计算特征描述块的特征向量与状态集合之间的联合概率；

步骤二、采用K-means聚类算法对步骤一中的图像进行场景分类，建立离线数据库；

步骤三、计算查询图像与步骤二得到的场景之间的相似度，根据相似度从大到小的顺序对场景进行相似度排序；

步骤四、对排序为1的场景中的每幅图像进行关系图构建，构造关系图G后，计算排序为1的场景中的每幅图像的评分，将排序为1的场景中的每幅图像的评分通过关系图G传递给邻近的图像；

在得到排序为1的场景中的所有图像的评分后，将排序为1的场景中的所有图像的评分从高到低进行排名；

步骤五、将排名前30的图像中的一幅图像与查询图像进行单应性的匹配，得到最佳匹配候选图像；

所述ζ＝1,2,...,30。

本发明的有益效果为：

本发明离线阶段，根据位置感知应用的需求以及检索算法的效率和稳定性，对室内图像进行特征提取，并建立不同尺度下的特征描述块。通过二维多尺度隐马尔科夫模型，对特征描述块建立多尺度统计模型，并根据此模型捕获同一类别中图像的特征关系和特征描述块的空间关系，然后采用K-means聚类算法对图像进行场景分类，建立离线数据库。

本发明在线阶段，首先采用欧氏距离计算查询图像与不同场景之间的相似关系，根据此相似关系，对场景进行相似度排序。对排序靠前的场景，查询图像属于该场景的可能性较大。因此，本发明将排序为1的场景中的图像进行逐一匹配，即计算图像之间的相似度。最后，通过基于单应性的图像匹配算法得到最佳匹配图像。

本发明使用基于二维多尺度隐马尔科夫模型的图像提取算法，其可以对特征描述块建立多尺度统计模型，并根据此模型捕获同一类别中图像的特征关系和特征描述块的空间关系，从而准确反映出图像与场景之间的所属关系程度，避免了遍历的图像检索方式，解决时间消耗大的问题。然后，本发明采用流形排序方法进行图像间的相似度计算，该方法解决了余弦距离等方法难以真实地反映图像之间的相似程度的问题，进而提高图像检索的查准率。

在本发明提出的基于场景理解的图像检索算法(Scene Understanding basedImage Retrieval,SUIR)中，首先对数据库图像进行特征提取。同时，当用户需要对查询图像进行检索时，同样要对查询图像进行特征提取。通过查询图像与不同场景之间的相似度计算，可以实现基于场景理解的图像检索，然后将相似度较高的场景中的图像进行流形排序，最后通过基于单应性的匹配算法给出最佳匹配图像。通过这样的检索方式，有效避免了以往图像检索过程中的遍历检索方式，保证了匹配可能性较大的图像被优先检索，从而有效降低了图像检索过程的时间开销。

相比现有图像检索算法，本发明高效的图像检索过程使得图像检索的查准率提高了20％以上。

附图说明

图1为本发明技术路线框图；

图2为本发明与其他图像检索算法查准率对比效果图；

图3为本发明与其他图像检索算法图像检索的时间开销对比效果图。

具体实施方法：

具体实施方式一：结合图1说明本实施方式，本实施方式的基于场景理解的图像检索方法具体过程为：

离线阶段：

步骤一、不同尺度下的特征描述块提取类似于超像素的特征提取，即选择一个正方形的像素块作为特征描述块，并针对这个特征描述块进行特征提取。本发明利用超像素分割对图像进行特征描述块提取，并采用颜色特征(一个维度)和小波矩特征(一个维度)对特征描述块进行描述，同时采用二维隐马尔科夫模型计算特征描述块的特征向量与状态集合之间的联合概率；

线上阶段：

步骤四、在完成图像场景匹配之后，需对场景内图像进行逐一匹配，即图像之间的相似度计算：

对排序为1的场景中的每幅图像进行关系图构建，构造关系图G后，计算排序为1的场景中的每幅图像的评分，将排序为1的场景中的每幅图像的评分通过关系图G传递给邻近的图像；

所述ζ＝1,2,...,30。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中不同尺度下的特征描述块提取类似于超像素的特征提取，即选择一个正方形的像素块作为特征描述块，并针对这个特征描述块进行特征提取。本发明利用超像素分割对图像进行特征描述块提取，并采用颜色特征(一个维度)和小波矩特征(一个维度)对特征描述块进行描述，同时采用二维隐马尔科夫模型计算特征描述块的特征向量与状态集合之间的联合概率；具体过程为：

假设二维多尺度隐马尔科夫模型中有M个转移状态，特征描述块(i,j)的状态定义为s_i,j，特征描述块(i,j)的特征向量定义为u_i,j；

当(i'<i，j'＝j)或(i'＝i，j'<j)时，有(i',j')<(i,j)，此时认为特征描述块(i',j')状态在特征描述块(i,j)状态之前；

其中，

M为二维多尺度隐马尔科夫模型中转移状态的个数；i为一幅图像中特征描述块的位置的横坐标，j为一幅图像中特征描述块的位置的纵坐标；i'为特征描述块(i,j)前一状态的特征描述块的位置的横坐标，j'为特征描述块(i,j)前一状态的特征描述块的位置的纵坐标；

同一尺度下，图像中不同特征描述块状态转移的时间概率为：

P(s_i,j|c)＝a_q,n,v (1)

其中，

c＝{s_i',j',u_i',j':(i',j')<(i,j)}，q＝s_i-1,j，n＝s_i,j-1，v＝s_i,j；

其中，

P(·)为同一尺度下，图像中不同特征描述块状态转移的时间概率；c为s_i,j前一时刻的状态；s_i',j'为特征描述块(i',j')的状态；u_i',j'为特征描述块(i',j')的特征向量；q、n和v分别表示不同时刻特征描述块的状态值；a_q,n,v为同一尺度下，图像中不同特征描述块状态转移的时间概率值；s_i,j-1为特征描述块(i,j-1)的状态；s_i-1,j为特征描述块(i-1,j)的状态；

另外需要明确的是，特征描述块的特征向量的转移过程服从高斯分布。当特征描述块的状态给定时，其特征向量之间的关系是独立的，其协方差矩阵∑_s·和均值向量μ_s随高斯分布中状态s的改变而改变。

特征向量的状态聚合与无监督的特征聚类相类似。但是，在状态聚合过程中，状态的特征向量可以直接通过对模型的估计而获得，并不需要对数据进行有监督的训练。在此过程中，特征向量在给定的分布关系中是相互独立的。在二维隐马尔科夫模型中，通过隐马尔科夫链状模型建立起来的底层特征向量是统计独立的。

不同尺度下，对于二维多尺度隐马尔科夫模型，定义二维多尺度隐马尔科夫模型中的尺度集合R＝{1,…,r,…,R}；

16≤R≤64；

其中，

r为尺度集合R中的一个尺度；R为尺度集合R中的最大尺度；

当r＝R时，取得最佳尺度；

定义在尺度r时，特征描述块指数为：

N^(r)＝{(i,j):0≤i≤w/2^R-r,0≤j＜z/2^R-r} (2)

其中，

N^(r)为尺度r下的特征描述块指数；w为颜色特征描述块的数量；z为小波特征描述块的数量；w、z取值为正整数；

通过特征描述块指数，在不同尺度下对特征描述块(i,j)的特征向量进行描述，即r∈R，(i,j)∈N^(r)；

其中，

为尺度r下，特征描述块(i,j)的特征向量；

为了得到不同尺度上的统计独立特性，建立跨尺度的一阶隐马尔科夫模型。对于某特征向量，如果其父级尺度是确定的，那么它对于其他层级的尺度是统计独立的。因此，

不同尺度下，图像中不同特征描述块状态转移的时间概率为：

其中，

为尺度r下，特征描述块(i,j)的状态；N⁽¹⁾为尺度1下的特征描述块指数；为尺度r-1下，特征描述块(a,b)的状态；(a,b)为特征描述块；N^(r-1)为尺度r-1下的特征描述块指数；P{·}为不同尺度下，图像中不同特征描述块状态转移的时间概率；表示上一尺度下的特征描述块的状态；

当特征向量状态不能通过观测得到时，那么特征向量状态的组合需要在模型估计时进行考虑。

通过以下公式计算出特征描述块的特征向量与状态集合之间的联合概率：

其中，

为尺度1下，特征描述块(i,j)的状态；为尺度2下，特征描述块(i,j)的状态；为尺度R下，特征描述块(i,j)的状态；为尺度1下，特征描述块(i,j)的特征向量；为尺度2下，特征描述块(i,j)的特征向量；为尺度R下，特征描述块(i,j)的特征向量；N⁽²⁾为尺度2下的特征描述块指数；N^(R)为尺度R下的特征描述块指数；N^(R-1)为尺度R-1下的特征描述块指数；为尺度1下，特征描述块(a,b)的状态；为尺度R-1下，特征描述块(a,b)的状态；

在最小尺度(r＝1)时，特征向量可以用单尺度的二维隐马尔科夫模型表示。在其他尺度(r>1)下，特征向量的状态转移满足高斯分布。在不同的尺度下，高斯分布的参数有所不同。二维隐马尔科夫模型不仅可以描述同一尺度下的特征向量的统计相关性，还可以对不同尺度下的特征向量转移关系进行描述。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤二中采用K-means聚类算法对步骤一中的图像进行场景分类，建立离线数据库；具体过程为：

(1)随机选取步骤一中图像中的k个特征描述块作为步骤一中图像中除k个特征描述块外的所有特征描述块的初始聚类质心；

k取值为正整数；

(2)计算步骤一中图像中所有特征描述块中除k个特征描述块外的每个特征描述块应该属于的类；对于每一个类，重新计算该类的质心；具体过程为：

质心即为对属于同一个类的样本中心点的猜测，采用欧式距离分别计算步骤一中图像中所有特征描述块中除k个特征描述块外的每个特征描述块到k个初始聚类质心的距离，然后选取距离最近的质心作为该特征描述块应该属于的类，得到每个特征描述块所属的类；

对于每一个类，重新计算每一个类的质心：

对每一个类中包含的特征描述块坐标求平均，得到每一个类的质心；

(3)重复迭代步骤(2)直到每一个类的质心不变或者变化很小或达到最大迭代次数；

(4)经过步骤(1)-(3)形成k个簇，即将特征描述块分成k类，亦即将步骤一中所有图像分成k类；

k个特征描述块对应k个簇，个数不变，步骤一中图像中所有特征描述块分成k类，亦即将步骤一中所有图像分成k类，其中这k个特征描述块分别为k类的质心；

场景分类完成，得到场景分类结果，不同的类代表不同的场景，建立离线数据库；

可见，通过K-means聚类算法可以将数据库中的图像分成不同类别的场景，并建立离线数据库。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述步骤三中计算查询图像与步骤二得到的场景之间的相似度，根据相似度从大到小的顺序对场景进行相似度排序；具体过程为：

在得到场景分类结果后，计算出每个场景图像集合对应质心的特征向量值；在具体的视觉图像检索过程中，需要对图像之间的特征相似度进行计算；

在输入查询图像之后，计算出查询图像中的特征描述块对应质心的特征向量值；

通过欧氏距离计算查询图像与步骤二得到的场景之间的相似度：

其中，

Λ为查询图像集合对应质心的特征向量值，Γ为步骤二得到的某一场景图像集合对应质心的特征向量值，μ为查询图像与步骤二得到的场景之间的相似度，d(Λ,Γ)为查询图像集合对应质心的特征向量与步骤二得到的某一场景图像集合对应质心的特征向量值在空间上的距离，Λ_λ为查询图像集合对应质心的特征向量的第λ维，Γ_λ为步骤二得到的某一场景图像集合对应质心的特征向量的第λ维，λ为特征向量Λ和Γ的第λ维，Ω为特征向量Λ和Γ的维度；根据相似度从大到小的顺序对场景进行相似度排序。

对排序靠前的场景，查询图像属于该场景的可能性较大。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述计算出查询图像中的特征描述块对应质心的特征向量值；具体过程为：

利用超像素分割对查询图像进行特征描述块提取，并采用颜色特征(一个维度)和小波矩特征(一个维度)对特征描述块进行描述，同时采用二维隐马尔科夫模型计算特征描述块的特征向量与状态集合之间的联合概率；

采用K-means聚类算法对查询图像中的特征描述块进行聚类，计算出每个查询图像中特征描述块对应质心的特征向量值。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述步骤四中在完成图像场景匹配之后，需对场景内图像进行逐一匹配，即图像之间的相似度计算。

具体过程为：

对排序为1的场景中的每幅图像进行关系图构建，具体过程为：

假定场景中的图像由构成，t为排序为1的场景中图像的数目，以场景中的t幅图像为节点，采用KNN的方法构建图像关系图G＝(V,E)，

其中，

V为集合Φ，E的权重表示为相似度矩阵W＝[w_xy]_t×t，相似度矩阵W的定义是十分重要的，在图像检索算法中，本发明采用下式计算图像和图像在空间上的距离即:

其中，

为场景中第1幅图像，为场景中第2幅图像，为场景中第x幅图像，为场景中第t幅图像，x＝1，2，…，t；为场景中第y幅图像，y＝1，2，…，t；x≠y；G为图像关系图，等价于即为一个图像关系集合；E为图G中的边，即图像之间的关系；W为相似度矩阵，即为边E的权重；为图像和图像在空间上的距离；和分别为图像和特征描述块的特征向量，Q是每幅图像中特征描述块的个数，N表示特征空间的维度，σ是给定参数，为一个固定值；l为特征空间的第l维；p为每幅图像中特征描述块的第p个；w_xy为图像与图像之间的相似度；

图像与图像之间的相似度w_xy为：

在这里，省略系数1/(2σ)，因为它对相似度矩阵W的影响在归一化步骤中将被抵消，并不会影响最终排名结果。

采用KNN的方法计算图像的K近邻点，并连接图像的K近邻点作为关系图G的边，为了防止自相似性，设w_xx＝0，根据S＝D^-1/2WD^-1/2规一化相似度矩阵W；

其中D为对角阵，w_xx为图像和图像之间的相似度；S为相似度矩阵W归一化后的结果；

构造关系图G后，计算排序为1的场景中的每幅图像的评分；具体过程为：

设为排序为1的场景中的图像，x＝1，2，…，t，初始化t×1的矩阵T；

设置阈值τ，当查询图像与排序为1的场景中的图像的相似度大于等于阈值τ，则T中的元素T_x设置为1，否则为0；

在m+1时刻，计算排序为1的场景中的图像的评分为

f^m+1＝αSf^m+(1-α)T (8)

其中，

f^m为m时刻，排序为1的场景中的图像的评分；f^m+1为m+1时刻，排序为1的场景中的图像的评分；α为参数并且满足α∈(0,1)，它定义了在排序评分传递过程中，某幅图像所获得的排序评分的来源；T表示查询图像与排序为1的场景中的图像的相关性；αSf^m表示排序为1的场景中的图像从邻近图像所获得的评分，(1-α)T表示排序为1的场景中的图像从查询图像所获得的评分；

直至f收敛。

定理1：序列{f^m}最终将收敛到如下闭合解：

f^*＝(1-α)(I-αS)^-1T (9)

其中I为单位矩阵。

证明：我们用f^*代替迭代公式中的f^m和f^m+1可得：

f^*＝αSf^*+(1-α)T (10)

进一步可以变换为：

(I-αS)f^*＝(1-α)T (11)

进一步可以得到：

f^*＝(1-α)(I-αS)^-1T (12)

由此可知序列{f^m}收敛于f^*＝(1-α)(I-αS)^-1T。因此，设f^*为最后得到的收敛的结果，向量f^*中的元素对应图像的排序评分。

对于步骤四中公式(8)的详细计算过程如下：(需要说明的是，在下列等式中使用的数据均为举例说明使用公式(8)所设，并非实验所得真实数据)

在开始时刻，f¹＝αSf⁰+(1-α)T＝0.3×0×0.6+0.7×1＝0.7

在下一时刻，

……

在m+1时刻，f^m+1＝αSf^m+(1-α)T。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述对角阵D中元素满足

d_xx为对角阵D中的元素，y为排序为1的场景中的第y幅图像，t为排序为1的场景中图像的数目。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是：所述阈值τ＝0.7。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是：所述步骤五中将排名前30的图像中的一幅图像与查询图像进行单应性的匹配，得到最佳匹配候选图像；

所述ζ＝1,2,...,30；

具体过程为：

步骤五一、计算查询图像和排名前30的图像中的一幅图像的匹配特征描述块的特征向量具体过程为：

通过下式计算查询图像中特征描述块和排名前30的图像中的一幅图像中特征描述块之间的相似程度d(β_p,ε_p)为：

其中，

β_p为查询图像中的一个特征描述块，ε_p为排名前30的图像中的一幅图像中的一个的特征描述块，表示特征描述块β_p的特征向量，表示特征描述块ε_p的特征向量，两幅图像间的特征描述块越相似，其特征描述块的向量就相似，即d(β_p,ε_p)便会越小。

因此，计算最小距离d_min和第二小距离d′_min之间的比值e，将该比值称作距离比；

最小距离即相似度最大；

设置距离比阈值e₀，用它描述了两个特征描述块之间相似程度的阈值，当比值e小于阈值e₀时，认为该对特征描述块(查询图像中特征描述块和排名前30的图像中的一幅中特征描述块)是初步匹配的，具体的公式表达下式所示：

当比值e大于等于阈值e₀时，则认为该对特征描述块(查询图像中特征描述块和排名前30的图像中的一幅图像中特征描述块)不匹配；

虽然能够初步确定两幅图像之间的匹配关系，但其中仍然会存在少量误匹配块。因此，接下来用RANSAC算法挑选出4对匹配特征描述块。

步骤五二、使用RANSAC算法从初步匹配的特征描述块对中挑选出4对匹配特征描述块

所述4对匹配特征描述块为查询图像和排名前30的图像中的一幅中的某4对；

步骤五三、计算4对匹配特征描述块的单应矩阵H；

单应矩阵H

视觉定位系统中，两幅图像中一系列共面的点构成的集合通过一个单应矩阵进行联系。因此，单应矩阵描述了某一平面和另一个平面之间的一一投影映射关系。具体来说，在相机拍摄的场景中，若图像的某些特征点都落在同一平面(譬如墙面、地面，平面海报等)，那么通过单应矩阵可以确定这些特征点在上述两幅图像之间的变换关系，进而确定图像中其他位置点的对应关系。

具体计算过程：因为单应矩阵H的自由度为8，因此随机选取离线数据库图像1和图像2中的4对匹配点，通过求解8个方程来初步计算单应矩阵H。

步骤五四、通过单应矩阵H对图像中除步骤五二中4对匹配特征描述块外的特征描述块变换位置，得到变换后的候选图像匹配特征描述块；

步骤五五、计算变换后的候选图像匹配特征描述块与查询图像匹配特征描述块的相似性，如果相似性完全匹配(100％匹配)的特征描述块的数量达到80％(如果80％以上的变换后的候选图像匹配特征描述块与查询图像匹配特征描述块的相似性都达到完全匹配(100％匹配)。则认为候选图像与查询图像是匹配的)，则此候选图像就是最佳匹配图像否则，选择下一幅候选图像继续进行确认，直至30幅的图像都确认完毕。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是：所述距离比阈值0.6≤e₀≤0.8。

其它步骤及参数与具体实施方式一至九之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例具体是按照以下步骤制备的：

利用本发明进行仿真，同时对比其他图像检索算法；

图2为基于场景理解的图像检索算法与其他图像检索算法查准率对比仿真结果图，实验中用到的图像数据集是自己建立的实验室室内场景，即为哈尔滨工业大学科学园2A栋12楼走廊，共500幅图像。为了验证本发明提出基于场景理解的图像检索算法的性能，在实验过程中将其与其他的图像检索算法相比较，分别是由G.D.Ivan等人提出的基于邻域匹配的图像检索算法(Neighborhood Matching based Image Retrieval algorithm,NMIR)和B.Chaudhuri等人提出的基于区域分割和无监督图论的图像检索算法(RegionSegmentation and Unsupervised Graph-theoretic based Image Retrievalalgorithm,RSUGIR)；

如图2所示，本发明提出的基于场景理解的图像检索算法的查准率明显高于其他图像检索算法。这是因为本文提出的图像检索算法不仅在离线阶段对室内图像进行了场景分类，并提出了基于二维多尺度隐马尔科夫模型的图像特征提取算法，从而更加准确地反映出图像与场景之间的所属关系程度。在线阶段还将流形排序和基于单应性的图像匹配算法相结合，不仅降低了图像检索所消耗的时间还使得查准率提高了大约20％。

图3为本发明与其他图像检索算法的平均检索时间对比仿真结果图；

如图3所示，SUIR图像检索所消耗的时间明显低于NMIR和RSUGIR，这是因为SUIR有效避免了以往图像检索过程中的遍历检索方式，保证了匹配可能性较大的图像被优先检索，从而使得图像检索过程的时间开销降低了10％左右。

附录：发明中字母含义

Claims

1.基于场景理解的图像检索方法，其特征在于：所述方法具体过程为：

所述ζ＝1,2,...,30。

2.根据权利要求1所述基于场景理解的图像检索方法，其特征在于：所述步骤一中利用超像素分割对图像进行特征描述块提取，并采用颜色特征和小波矩特征对特征描述块进行描述，同时采用二维隐马尔科夫模型计算特征描述块的特征向量与状态集合之间的联合概率；具体过程为：

其中，

P(s_i,j|c)＝a_q,n,v (1)

其中，

c＝{s_i',j',u_i',j':(i',j')<(i,j)}，q＝s_i-1,j，n＝s_i,j-1，v＝s_i,j；

其中，

16≤R≤64；

其中，

r为尺度集合R中的一个尺度；R为尺度集合R中的最大尺度；

当r＝R时，取得最佳尺度；

定义在尺度r时，特征描述块指数为：

N^(r)＝{(i,j):0≤i≤w/2^R-r,0≤j＜z/2^R-r} (2)

其中，

为尺度r下，特征描述块(i,j)的特征向量；

因此，不同尺度下，图像中不同特征描述块状态转移的时间概率为：

其中，

为尺度1下，特征描述块(i,j)的状态；为尺度2下，特征描述块(i,j)的状态；为尺度R下，特征描述块(i,j)的状态；为尺度1下，特征描述块(i,j)的特征向量；为尺度2下，特征描述块(i,j)的特征向量；为尺度R下，特征描述块(i,j)的特征向量；N⁽²⁾为尺度2下的特征描述块指数；N^(R)为尺度R下的特征描述块指数；N^(R-1)为尺度R-1下的特征描述块指数；为尺度1下，特征描述块(a,b)的状态；为尺度R-1下，特征描述块(a,b)的状态。

3.根据权利要求2所述基于场景理解的图像检索方法，其特征在于：所述步骤二中采用K-means聚类算法对步骤一中的图像进行场景分类，建立离线数据库；具体过程为：

k取值为正整数；

采用欧式距离分别计算步骤一中图像中所有特征描述块中除k个特征描述块外的每个特征描述块到k个初始聚类质心的距离，然后选取距离最近的质心作为该特征描述块应该属于的类，得到每个特征描述块所属的类；

对于每一个类，重新计算每一个类的质心：

(3)重复迭代步骤(2)直到每一个类的质心不变或达到最大迭代次数；

场景分类完成，得到场景分类结果，不同的类代表不同的场景，建立离线数据库。

4.根据权利要求3所述基于场景理解的图像检索方法，其特征在于：所述步骤三中计算查询图像与步骤二得到的场景之间的相似度，根据相似度从大到小的顺序对场景进行相似度排序；具体过程为：

在得到场景分类结果后，计算出每个场景图像集合对应质心的特征向量值；

计算出查询图像中的特征描述块对应质心的特征向量值；

其中，

Λ为查询图像集合对应质心的特征向量值，Γ为步骤二得到的某一场景图像集合对应质心的特征向量值，μ为查询图像与步骤二得到的场景之间的相似度，d(Λ,Γ)为查询图像集合对应质心的特征向量与步骤二得到的某一场景图像集合对应质心的特征向量值在空间上的距离，Λ_λ为查询图像集合对应质心的特征向量的第λ维，Γ_λ为步骤二得到的某一场景图像集合对应质心的特征向量的第λ维，λ为特征向量Λ和Γ的第λ维，Ω为特征向量Λ和Γ的维度；

根据相似度从大到小的顺序对场景进行相似度排序。

5.根据权利要求4所述基于场景理解的图像检索方法，其特征在于：所述计算出查询图像中的特征描述块对应质心的特征向量值；具体过程为：

利用超像素分割对查询图像进行特征描述块提取，并采用颜色特征和小波矩特征对特征描述块进行描述，同时采用二维隐马尔科夫模型计算特征描述块的特征向量与状态集合之间的联合概率；

6.根据权利要求5所述基于场景理解的图像检索方法，其特征在于：所述步骤四中对排序为1的场景中的每幅图像进行关系图构建，构造关系图G后，计算排序为1的场景中的每幅图像的评分，将排序为1的场景中的每幅图像的评分通过关系图G传递给邻近的图像；

具体过程为：

其中，

G为图像关系图；E为图G中的边；V为集合Φ；E的权重表示为相似度矩阵W＝[w_xy]_t×t；

采用下式计算图像和图像在空间上的距离即:

其中，

为场景中第1幅图像，为场景中第2幅图像，为场景中第x幅图像，为场景中第t幅图像，x＝1，2，…，t；为场景中第y幅图像，y＝1，2，…，t；x≠y；为图像和图像在空间上的距离；和分别为图像和特征描述块的特征向量，Q是每幅图像中特征描述块的个数，N表示特征空间的维度，σ是参数；l为特征空间的第l维；p为每幅图像中特征描述块的第p个；w_xy为图像与图像之间的相似度；

图像与图像之间的相似度w_xy为：

采用KNN的方法计算图像的K近邻点，并连接图像的K近邻点作为关系图G的边，设w_xx＝0，根据S＝D^-1/2WD^-1/2规一化相似度矩阵W；

其中，

D为对角阵，w_xx为图像和图像之间的相似度；S为相似度矩阵W归一化后的结果；

在m+1时刻，计算排序为1的场景中的图像的评分为

f^m+1＝αSf^m+(1-α)^T (8)

其中，

f^m为m时刻，排序为1的场景中的图像的评分；f^m+1为m+1时刻，排序为1的场景中的图像的评分；α为参数并且满足α∈(0,1)；T表示查询图像与排序为1的场景中的图像的相关性；αSf^m表示排序为1的场景中的图像从邻近图像所获得的评分，(1-α)T表示排序为1的场景中的图像从查询图像所获得的评分；

直至f收敛。

7.根据权利要求6所述基于场景理解的图像检索方法，其特征在于：所述对角阵D中元素满足

8.根据权利要求7所述基于场景理解的图像检索方法，其特征在于：所述阈值τ＝0.7。

9.根据权利要求8所述基于场景理解的图像检索方法，其特征在于：所述步骤五中将排名前30的图像中的一幅图像与查询图像进行单应性的匹配，得到最佳匹配候选图像；

所述ζ＝1,2,...,30；

具体过程为：

步骤五一、计算查询图像和排名前30的图像中的一幅图像的匹配特征描述块的特征向量

具体过程为：

其中，

β_p为查询图像中的一个特征描述块，ε_p为排名前30的图像中的一幅图像中的一个的特征描述块，表示特征描述块β_p的特征向量，表示特征描述块ε_p的特征向量；

计算最小距离d_min和第二小距离d′_min之间的比值e，将该比值称作距离比；

最小距离即相似度最大；

设置距离比阈值e₀，当比值e小于阈值e₀时，认为该对特征描述块是初步匹配的，具体的公式表达下式所示：

当比值e大于等于阈值e₀时，则认为该对特征描述块不匹配；

步骤五三、计算4对匹配特征描述块的单应矩阵H；

步骤五五、计算变换后的候选图像匹配特征描述块与查询图像匹配特征描述块的相似性，如果相似性完全匹配的特征描述块的数量达到80％，则此候选图像就是最佳匹配图像否则，选择下一幅候选图像继续进行确认，直至30幅的图像都确认完毕。

10.根据权利要求9所述基于场景理解的图像检索方法，其特征在于：所述距离比阈值0.6≤e₀≤0.8。