CN103020111B

CN103020111B - 基于词汇树层次语义模型的图像检索方法

Info

Publication number: CN103020111B
Application number: CN201210422998.5A
Authority: CN
Inventors: 吴健; 崔志明; 张月辉; 李承超
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2012-10-29
Filing date: 2012-10-29
Publication date: 2015-06-17
Anticipated expiration: 2032-10-29
Also published as: CN103020111A

Abstract

本发明公开了一种图像检索方法，基于词汇树层次语义模型实现。首先提取图像包含颜色信息的SIFT特征来构造图像库的特征词汇树，生成描述图像视觉信息的视觉词汇。并在此基础上利用Bayesian决策理论实现视觉词汇到语义主题信息的映射，进而构造了一个层次语义模型，并在此模型基础上完成了基于内容的语义图像检索算法。通过检索过程中用户的相关反馈，不仅可以加入正反馈图像扩展图像查询库，同时能够修正高层语义映射。实验结果表明，本发明的检索方法性能稳定，并且随着反馈次数的增加，检索效果明显提升。

Description

基于词汇树层次语义模型的图像检索方法

技术领域

本发明涉及一种图像检索的方法，具体涉及一种基于内容的图像检索方法，尤其是一种考虑图像所包含的图像高层语义信息，并加入用户对图像内容理解和检索结果反馈的方法。

背景技术

随着因特网和多媒体技术的迅速发展，从20世纪90年代初至今，基于内容的图像检索(CBIR)得到了广泛的研究。

现有图像检索技术中，由于其使用图像纹理、颜色和形状等低层特征作为索引来对图像进行检索，而图像低层特征表达出的信息与用户对这些特征图像理解的含义存在不一致性，即语义鸿沟，所以检索效果往往不能满足用户的需求。

如果检索过程中能够考虑图像所包含的图像高层语义信息，加入用户对图像内容的理解，则会是一种更贴近用户理解的图像检索。然而，目前语义检索中语义映射关系大多是通过人工标注建立，对于待检索图像中的语义信息难以获得较好的映射，并且，建立的映射关系不能随着用户检索的反馈信息自动进行修正，从而影响检索效果的提升。

发明内容

本发明的发明目的是提供一种基于词汇树层次语义模型的图像检索方法，利用词汇树将图像特征与人工标注的语义特征进行关联，以实现检索过程中的自动语义映射；并实现高层语义映射的自动修正，以获得更好的检索效果，更贴近检索用户的需求。

为达到上述发明目的，本发明采用的技术方案是：一种图像检索方法，提供用于检索的图像库和待检索的图片，包括下列步骤：

(1)提取图像库中所有图片的SIFT特征，得到特征集合；

(2)构建词汇树，方法是：设定聚类个数K，树的深度P，对步骤(1)获得的特征集合进行分层聚类，第一层获得K个聚类，作为词汇树的K个子节点，计算出每个子节点的中心向量；对每个子节点分别进行聚类，每一子节点生成K个下一层的子节点，并计算出每个子节点的中心向量；不断重复直到树的深度达到预设值P，获得SIFT词汇树；其中，K取5～10的整数，P取3～6的整数；

(3)将图像库中的图片与词汇树进行关联：词汇树的叶节点个数为M=K×P，每个叶节点具有中心向量C_m，其中，m为1～M的整数，将每个叶节点称为一个视觉词汇单词W_m，图像库中的总图片数为N，其中每个图片称为一个文档F_i，i是1～N的整数，则文档F_i和视觉词汇单词W_m的相关度为Weight(i,m)=NUM_im×idf_m，式中，NUMi_m表示视觉词汇单词W_m在图片文档F_i中出现的次数，N_m表示视觉词汇单词W_m一共包含的图片文档数目；计算每个图片与词汇树的每个叶节度的相关度，完成图片与词汇树的关联；

(4)设定图像库的语义主题信息集，先采用人工标注的方法将图像库中的图片分类至语义主题信息集中的各语义主题信息；再利用Bayesian统计决策理论实现视觉词汇层到语义信息层的映射，映射方法为，每个视觉词汇单词和语义主题信息间的映射概率为：

P (q_{n}, y_{m}) = \frac{Σ_{i = 1}^{M} [G (y_{m}, y_{i}, δ) \cdot f (y_{i})]}{Σ_{i = 1}^{M} G (y_{m}, y_{i}, δ)},

式中，q_n表示当前语义主题信息，y_m表示当前视觉词汇单词的中心向量，y_i表示第i个视觉词汇单词的中心向量，f(y_i)是第i个视觉词汇单词对应语义主题信息节点q_n的图片数目与总的图像库中图片数目N的比值，G(y_m,y_i,δ)是Gaussian核函数，δ是平滑参数；上述公式的获得过程推论如下：式中，f_Y(q_i,y)是视觉词汇单词节点的中心向量y相对于主题信息节点q_i的条件概率密度,f_Y(y)是中心向量y的视觉词汇单词上出现包含语义主题信息节点q_i的图片数目与总的图像库中数目的比值，P(q_i,y)为视觉词汇单词M_y映射到语义主题信息q_i的后验概率，P(q_i)为语义主题信息的先验概率值，其中是语义主题信息q_i包含的图片数，N是图像库中的总图片数；其中，G(y_m,y_i,δ)是Gaussian核函数，y_i是语义主题信息q_i对应的每一个视觉词汇的中心向量，y_m为当前视觉词汇的中心向量，δ是平滑参数；得后验概率公式。

(5)提取待查询图片的SIFT特征，得到具有n个特征点的特征向量T={t₁,t₂......t_n}；

(6)将待查询图片的SIFT特征量化到SIFT词汇树的m个视觉词汇单词上，形成一个m维的特征向量V={v₁,v₂......v_m}，方法为：

将待查询图片提取到的SIFT特征点向量对词汇树逐层的节点进行欧氏距离计算，找到每层上最相近的节点作为匹配节点；对提取到的n个特征点进行匹配操作，对于每一个视觉词汇单词节点，累计待查询图片中特征点与该节点的匹配次数NUM_m，利用生成词汇树时产生的视觉词汇单词节点的值idf_m，计算出待查询图片与视觉词汇单词节点的相关程度w_m，最终形成一个m维的特征向量V={v₁,v₂......v_m}；

(7)利用在视觉词汇层上量化后的特征向量V={v₁,v₂......v_m}，与图像库中所有图片在视觉词汇层上量化结果进行欧氏距离计算，和每张图片V'={v₁',v₂'......v_n'}得到一个匹配值Wt₁：

{Wt}_{1} = \sqrt{(v_{1} - {v_{1}}^{'}) \times (v_{1} - {v_{1}}^{'}) + (v_{2} - {v_{2}}^{'}) \times (v_{2} - {v_{2}}^{'}) + . . . . . . + (v_{n} - {v_{n}}^{'}) \times (v_{n} - {v_{n}}^{'})};

(8)根据步骤(6)中计算得到的NUM_m，利用所建立的主题信息语义映射的Bayesian模型，计算得到主题语义信息集合对应的概率值集合q={q₁,q₂......q_n}，式中，n是主题语义信息的个数，q_n为待查询图片属于该主题语义信息的概率；

(9)对于步骤(8)中生成的集合q={q₁,q₂......q_n}，和图像库中每张图片的语义特征q'={q₁',q₂'......q_n'}进行欧氏距离的计算，得到匹配值记为Wt₂：

{Wt}_{2} = \sqrt{(q_{1} - {q_{1}}^{'}) \times (q_{1} - {q_{1}}^{'}) + (q_{2} - {q_{2}}^{'}) \times (q_{2} - {q_{2}}^{'}) + . . . . . . + (q_{n} - {q_{n}}^{'}) \times (q_{n} - {q_{n}}^{'})};

(10)待查询图片与图像库中的每张图片的相似度定义为Weight=g×Wt₁+Wt₂，式中，g表示调整Wt₁与Wt₂数量级的参数，g的取值范围是8～12；Weight的值载小，待查询图片与该图片越近似，检索结果排位越前，由此实现图像的检索。

进一步的技术方案，根据用户搜索结果的反馈信息修正语义映射并扩展图像库，方法为：

①根据用户的查询图片返回查询结果，用户根据返回结果标记满意的结果为正反馈记录I⁺，其余为负反馈记录I^-；

②将用户的查询图片加入到词汇树中，其量化到的每一个视觉词汇单词节点，都加入该图片的记录，并且更新idf值。

③根据步骤(4)的语义映射公式在视觉词汇层到主题语义信息层映射的过程中，对于正反馈图像分布的每一个视觉词汇单词节点，其视觉词汇单词y上出现包含语义主题信息节点q_i的图片数目占总图像库中数目的比值P(q_i)都增加一个正比例因子U⁺，而对于负反馈图像分布的每一个视觉词汇单词节点，其P(q_i)都加上一个负比例因子U^-。

优选的技术方案，步骤(2)中，聚类的方法采用K-means聚类法，聚类个数K取6，树的深度P取4。步骤(10)中，g的取值为10。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1、本发明引入了词汇树模型，和现有方法中直接使用低层特征和语义主题映射相比，有更好的检索效果。

2、本发明同时使用低层特征和语义主题映射进行检索，通过设定权重实现图像的检索，检索结果更为有效。

3、本发明通过进一步设置反馈过程，利用用户提供的正反馈图像和负反馈图像，不仅可以自动扩展含有高层语义信息的查询图像库，而且使得建立的基于词汇树层次语义模型通过修正视觉词汇到主题信息的映射关系，使图像的语义信息提取更加准确，随着用户查询次数的增加，视觉词汇到主题信息的映射会越加完善，检索效果更加精确。

附图说明

图1是实施例中构建SIFT词汇树的示意图。

图2是实施例中作为待检索图片的汽车样例图。

图3是汽车图片作为检索例，图片库中80张图片第一次检索结果图。

图4是一次用户反馈后，图片库中80张图片的检索结果图。

图5是图片库中10类图片，随着用户反馈次数的增加，检索效果的变化情况图。

图6是整个技术方案流程图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例：一种基于词汇树层次语义模型的图像检索方法。首先提取图像包含颜色信息的SIFT特征来构造图像库的特征词汇树，生成描述图像视觉信息的视觉词汇。并在此基础上利用Bayesian决策理论实现视觉词汇到语义主题信息的映射，进而构造了一个层次语义模型，并在此模型基础上完成了基于内容的语义图像检索算法。通过检索过程中用户的相关反馈，不仅可以加入正反馈图像扩展图像查询库，同时能够修正高层语义映射。实验结果表明，基于该模型的图像检索算法性能稳定，并且随着反馈次数的增加，检索效果明显提升。

整个方法过程按如下步骤处理：

(1)首先对图像库构建视觉词汇树,并将图片量化到词汇树；

(1.1)首先提取图像库中所有图片的SIFT特征，得到一个特征集合Feature={feature_i}，然后对特征集合Feature={feature_i}进行分层聚类，此处我们采用K-Means聚类方法，因为它有比较好的伸缩性，聚类速度相对较快。聚类结果生成K个子节点(本例中K取6)，计算出每个子节点的中心向量C_i，同样地，对新生成的每个子节点再进行K-Means聚类，以生成下一层的子节点，不断重复直到树的深度达到预设值P(本例中P=4)。这样最终会构造出一个完整的SIFT词汇树，过程如图1所示。

(1.2)通过构造词汇树，就生成了1296个聚类簇集（选取最后一层簇集），且每个聚类簇集都有一个中心向量C_m，把生成的聚类簇集称作视觉词汇单词，图像库中的每幅图片称为一个文档，通过计算每个文档和词汇单词的相关程度使图像量化到这1296个聚类簇集中，即生成一个1296维的向量。假设F_i表示每个图片文档，W_m表示每个词汇单词，Weight(i,m)表示文档和词汇单词的相关度。所有每个文档就可以量化到M个视觉词汇单词中，在计算Weight(i,m)时，NUMi_m表示单词W_m在图片文档F_i中出现的次数。N_m表示词汇单词W_m一共包含的图片文档数目，最终图片文档F_i和视觉词汇单词W_m的相关度为Weight(i,m)=NUMi_m×idf_m。

(2)视觉词汇层到语义信息层的映射

Bayesian理论主要是在获得先验类属概率的前提下，通过对后验概率函数的计算进行分类，计算公式：将其应用到本方法中，可以实现从视觉词汇层到语义信息层的映射。其中，f_Y(q_i,y)是视觉词汇单词节点的中心向量y相对于主题信息节点q_i的条件概率密度,f(y)是中心向量y的视觉词汇单词上出现包含语义主题信息节点q_i的图片数目与总的图像库中数目的比值，P(q_i,y)为视觉词汇单词M_y映射到语义主题信息q_i的后验概率，P(q_i)为语义主题信息的先验概率值，其中是语义主题信息q_i包含的图片数，N是图像库中的总图片数；其中，G(y,y_i,δ)是Gaussian核函数，y_i是语义主题信息q_i对应的每一个视觉词汇的中心向量，y为当前视觉词汇的中心向量，δ是平滑参数；得后验概率公式为：这样利用Bayesian统计决策理论实现了视觉词汇层到语义信息层的映射,从而实现了图像的高层语义信息提取，并且在此基础上可以进行语义图像检索。

(3)对待查询图片提取包含颜色信息的SIFT特征，得到具有n(各图片有不同特征点数不同)个特征点的特征向量T={t₁,t₂......t_n}；

(4)将查询图片的SIFT特征量化到SIFT词汇树的1296个视觉词汇单词上，形成一个1296维的特征向量V={v₁,v₂,…,v₁₂₉₆}，具体方法为：

对查询图片提取到的SIFT特征点向量对词汇树逐层的节点进行欧氏距离计算，找到每层上最相近的节点作为匹配节点。对提取到的n个特征点进行相同操作，最终对于每一个视觉词汇单词节点，累计查询图片中特征点与该节点的匹配次数NUM_m。利用生成词汇树时产生的视觉词汇单词节点的值idf_m，就可以计算出查询图片与视觉词汇单词节点的相关程度w_m。最终形成一个m维的特征向量V={v₁,v₂......v_m}。

(5)利用在视觉词汇层上量化后的特征向量V={v₁,v₂......v_m}，对图像库中所有图片在视觉词汇层上量化结果进行欧式距离计算，这样就会和每张图片V'={v₁',v₂'......v_n'}得到一个匹配值Wt₁。

{Wt}_{1} = \sqrt{(v_{1} - {v_{1}}^{'}) \times (v_{1} - {v_{1}}^{'}) + (v_{2} - {v_{2}}^{'}) \times (v_{2} - {v_{2}}^{'}) + . . . . . . + (v_{n} - {v_{n}}^{'}) \times (v_{n} - {v_{n}}^{'})}

(6)根据(4)步骤中计算得到的NUM_m，利用所建立的主题信息语义映射的Bayesian模型，按照式计算得到主题语义信息集合对应的概率值集合q={q₁,q₂......q_n}。

(7)对于步骤(6)中生成的集合q={q₁,q₂......q_n}。图像库中图片如果包含主题信息Q_i，和图像库中每张图片的语义特征q'={q₁',q₂'......q_n'}进行欧氏距离的计算，得到匹配值记为Wt₂。

{Wt}_{2} = \sqrt{(q_{1} - {q_{1}}^{'}) \times (q_{1} - {q_{1}}^{'}) + (q_{2} - {q_{2}}^{'}) \times (q_{2} - {q_{2}}^{'}) + . . . . . . + (q_{n} - {q_{n}}^{'}) \times (q_{n} - {q_{n}}^{'})}

(8)最终图像库中的图片IMG_j和查询图片的相似度定义为Weight=g×Wt₁+Wt₂，该值越小，在检索结果中越靠前。

(9)相关反馈

在上述基于词汇树的语义模型下进行图像检索时，视觉词汇层到主题语义信息层的映射对检索效果有很重要的影响。所以在检索过程中，可以根据用户搜索结果的反馈信息修正语义映射使其更加完善，并且可以加入正反馈图像来扩展图像库，因此避免了人工标注图像语义信息来增加查询图像库的困难。

具体过程为：

①根据用户的查询图片返回查询结果，用户根据返回结果标记满意的结果为正反馈记录I⁺，其余为负反馈记录I^-。

③根据语义映射公式在视觉词汇层到主题语义信息层映射的过程中，对于正反馈图像分布的每一个视觉词汇单词节点，其视觉词汇单词y上出现包含语义主题信息节点q_i的图片数目占总图像库中数目的比值f(y_i)都增加一个正比例因子U⁺，而对于负反馈图像分布的每一个视觉词汇单词节点，其f(y_i)都加上一个负比例因子U^-。其中，U⁺=0.1，U^-=-0.1。

这样在反馈过程中，通过用户提供正反馈图像和负反馈图像，不仅可以自动扩展含有高层语义信息的查询图像库，而且使得建立的基于词汇树层次语义模型通过修正视觉词汇到主题信息的映射关系，使图像的语义信息提取更加准确，随着用户查询次数的增加，视觉词汇到主题信息的映射会越加完善，检索效果更加精确。

图片库分10类，每类图片有100幅相同语义的图像，所以我们在检索过程中统计前80幅图像的查询结果。以附图2(汽车)所示图片为用户检索图片例作进一步说明，分别按如下步骤处理：

[1]首先构建图片库的词汇树，得到1296个簇集，即1296个视觉词汇，记录每个结点的idf_m(1≤m≤1296)值的数据。

[2]利用上述的Bayesian统计学习模型将1296个视觉单词映射到汽车主题，计算相对应的概率值。

[3]提取汽车图片包含颜色信息的SIFT特征，得到具有27(对于本张汽车图片特征点数为27)个特征点的特征向量Y={y₁,y₂,…,y₂₇}。

[4]将汽车图片的SIFT特征量化到SIFT词汇树的1296个视觉词汇单词上，形成一个1296维的特征向量V={v₁,v₂,…,v₁₂₉₆}。具体处理过程为：

[4.1]对汽车图片提取到的SIFT特征点向量对词汇树逐层的节点进行欧氏距离计算，找到每层上最相近的节点作为匹配节点。对提取到的n（n=27）个特征点进行相同操作，最终对于每一个视觉词汇单词节点，累计查询图片中特征点与该节点的匹配次数NUM_m。

[4.2]利用生成词汇树时产生的视觉词汇单词节点的值idf_m，就可以计算出查询图片与视觉词汇单词节点的相关程度v_i(1≤i≤m)，最终形成一个m维的特征向量V={v₁,v₂......v_m}。

[5]利用在视觉词汇层上量化后的特征向量V={v₁,v₂......v_m}，对图像库中所有图片在视觉词汇层上量化结果进行匹配，这样就会和每张图片得到一个匹配值Wt₁。

[6]根据[4]步骤中计算得到的NUM_m，利用所建立的主题信息语义映射的Bayesian模型，按照公式计算得到主题语义信息集合对应的概率值集合q={q₁,q₂......q_n}(1≤n≤10)。本例中10类图片中各类主题语义信息集合对应的概率值如下：

q	q₁野人	q₂海滩	q₃高楼	q₄汽车	q₅恐龙
						71.823296	34.826923	69.850754	84.297997	18.006845
q	q₆大象	q₇鲜花	q₈野马	q₉雪山	q₁₀美食
						34.693035	9.772268	34.730274	35.102665	60.221863

[7]对于步骤[6]中生成的集合q={q₁,q₂......q_n}。图像库中图片如果包含主题信息Q_i，则该图片和查询图片的语义相关度就等于主题信息Q_i在q={q₁,q₂......q_n}中的概率值，记为Wt₂。

[8]计算图像库中的1000张图片IMG_j和查询图片的相似度Weight，在本例实际处理时，Weight=10×Wt₁+Wt₂。

Weight值越小，则图片显示位置越靠前，附图3中给出了前80张图片的检索结果图。

[9]相关反馈

根据附图3中80张图片的检索结果，选择第2张图片为正反馈图像，第31（或32）张图片为负反馈图像，进行反馈查询。

修改视觉词汇单词到汽车主题语义信息的映射概率值。

反馈查询结果见附图4，从附图4中可以看出，负反馈图像位置后移，整个检索效果更优，可进一步反馈以得到更好的检索结果。

附图5给出了在每个语义类别中，随着用户反馈次数的增加，检索效果的变化情况。其表明在基于词汇树层次语义模型的图像检索系统中，用户的相关反馈对于检索结果提升有很好的作用。并且随着用户反馈次数的增加，检索出来的相关图像会越多，效果越好。

Claims

1.一种基于词汇树层次语义模型的图像检索方法，提供用于检索的图像库和待检索的图片，其特征在于，包括下列步骤：

(1)提取图像库中所有图片的SIFT特征，得到特征集合；

(3)将图像库中的图片与词汇树进行关联：词汇树的叶节点个数为M=K×P，每个叶节点具有中心向量C_m，其中，m为1～M的整数，将每个叶节点称为一个视觉词汇单词W _m，图像库中的总图片数为N，其中每个图片称为一个文档F_i，i是1～N的整数，则文档F_i和视觉词汇单词W _m的相关度为，式中，表示视觉词汇单词W_m在图片文档F_i中出现的次数，，N _m表示视觉词汇单词W _m一共包含的图片文档数目；计算每个图片与词汇树的每个叶节点的相关度，完成图片与词汇树的关联；

，式中，q_n表示当前语义主题信息，y_m表示当前视觉词汇单词的中心向量，y_i表示第i个视觉词汇单词的中心向量，f(y_i)是第i个视觉词汇单词对应语义主题信息节点q_n的图片数目与总的图像库中图片数目N的比值，是Gaussian核函数，δ是平滑参数；

(5)提取待查询图片的SIFT特征，得到具有n个特征点的特征向量；

(6)将待查询图片的SIFT特征量化到SIFT词汇树的m个视觉词汇单词上，形成一个m维的特征向量，方法为：

将待查询图片提取到的SIFT特征点向量对词汇树逐层的节点进行欧氏距离计算，找到每层上最相近的节点作为匹配节点；对提取到的n个特征点进行匹配操作，对于每一个视觉词汇单词节点，累计待查询图片中特征点与该节点的匹配次数，利用生成词汇树时产生的视觉词汇单词节点的值，计算出待查询图片与视觉词汇单词节点的相关程度，最终形成一个m维的特征向量，其中

(7)利用在视觉词汇层上量化后的特征向量，与图像库中所有图片在视觉词汇层上量化结果进行欧氏距离计算，和每张图片得到一个匹配值：

；

(8)根据步骤(6)中计算得到的，利用所建立的主题信息语义映射的Bayesian模型，计算得到主题语义信息集合对应的概率值集合，式中，n是主题语义信息的个数，q_n为待查询图片属于该主题语义信息的概率；

(9)对于步骤(8)中生成的集合，和图像库中每张图片的语义特征进行欧氏距离的计算，得到匹配值记为：

；

(10)待查询图片与图像库中的每张图片的相似度定义为Weight=g×Wt₁+Wt₂，式中，g的取值范围是8～12，Weight的值越小，待查询图片与该图片越近似，检索结果排位越前，由此实现图像的检索。

2.根据权利要求1所述的图像检索方法，其特征在于：根据用户搜索结果的反馈信息修正语义映射并扩展图像库，方法为：

①根据用户的查询图片返回查询结果，用户根据返回结果标记满意的结果为正反馈记录I⁺，其余为负反馈记录I^?；

②将用户的查询图片加入到词汇树中，其量化到的每一个视觉词汇单词节点，都加入该图片的记录，并且更新idf值；

③根据步骤(4)的语义映射公式在视觉词汇层到主题语义信息层映射的过程中，对于正反馈图像分布的每一个视觉词汇单词节点，其视觉词汇单词y上出现包含语义主题信息节点q_i的图片数目占总图像库中数目的比值P(q_i)都增加一个正比例因子U⁺，而对于负反馈图像分布的每一个视觉词汇单词节点，其P(q_i)都加上一个负比例因子U^?，其中，U⁺=0.1，U^?=-0.1。

3. 根据权利要求1所述的图像检索方法，其特征在于：步骤(2)中，聚类的方法采用K-means聚类法，聚类个数K取6，树的深度P取4。

4. 根据权利要求1所述的图像检索方法，其特征在于：步骤(10)中，g的取值为10。