CN105718555A

CN105718555A - 一种基于层次化语义描述的图像检索方法

Info

Publication number: CN105718555A
Application number: CN201610035896.6A
Authority: CN
Inventors: 邹焕新; 孙浩; 周石琳; 计科峰; 雷琳; 李智勇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2016-06-29

Abstract

本发明提出一种基于层次化语义描述的图像检索方法。技术方案包括下述步骤：利用具有场景类别标记的图像集合，得到场景类别分类器；利用具有视觉属性标记的图像集合，得到视觉属性分类器；利用场景类别分类器和视觉属性分类器，对查询数据库中的每一幅图像进行分类，得到所述每一幅图像的场景类别描述和视觉属性描述；利用场景类别分类器和视觉属性分类器，对输入的查询图像，得到其场景类别描述和视觉属性描述；在查询数据库中，筛选出与查询图像的场景类别描述具有相同场景类别描述的图像形成候选图像集合，在候选图像集合查找与查询图像的视觉属性描述相似的图像作为检索结果。本发明采用场景类别和视觉属性相结合的层次化语义描述方法，检索结果语义相似度高，检索速度快。

Description

一种基于层次化语义描述的图像检索方法

技术领域

本发明涉及图像检索技术领域，更具体地说，涉及一种基于层次化语义描述的图像检索方法。

背景技术

在社交媒体时代由于网络空间共享图像的爆炸式增长以及网络、移动客户端对各种多媒体应用的需求，从大规模图像数据库中快速准确地检索用户关心的图像面临很大挑战。

现有图像检索方法存在两方面的问题：一方面，需要计算查询图像与查询数据库中每一幅图像的特征相似性，搜索范围大；另一方面，由于图像内容的底层特征和高层语义之间存在语义鸿沟问题(即底层特征和高层语义之间缺乏对应性)，检索返回图像与查询图像间的特征相似性高但语义相似性差，不能贴合用户的检索意图。

发明内容

本发明要解决的技术问题是缩小现有图像检索方法的搜索范围、提高检索返回图像与查询图像间的语义相似性，提出一种基于层次化语义描述的图像检索方法。

本发明的技术方案是：一种基于层次化语义描述的图像检索方法，具体包括下述步骤：

利用具有场景类别标记的图像集合，得到场景类别分类器；利用具有视觉属性标记的图像集合，得到视觉属性分类器；

利用场景类别分类器和视觉属性分类器，对查询数据库中的每一幅图像进行分类，得到所述每一幅图像的场景类别描述和视觉属性描述；

利用场景类别分类器和视觉属性分类器，对输入的查询图像，得到其场景类别描述和视觉属性描述；

在查询数据库中，筛选出与查询图像的场景类别描述具有相同场景类别描述的图像形成候选图像集合，在候选图像集合查找与查询图像的视觉属性描述相似的图像作为检索结果。

特别地：

利用具有场景类别标记的图像集合，对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，采用支持向量机训练得到场景类别分类器；

利用具有视觉属性标记的图像集合，对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，采用支持向量机训练得到视觉属性分类器；

对查询数据库中的每一幅图像，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，同时利用场景类别分类器和视觉属性分类器对图像进行分类，得到图像的场景类别描述和视觉属性描述；

对输入的查询图像，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，同时利用场景类别分类器和视觉属性分类器对查询图像进行分类，得到查询图像的场景类别描述和视觉属性描述；利用查询图像的场景类别描述在查询数据库中筛选具有相同场景类别描述的图像形成候选图像集合，计算候选图像集合中每一幅图像与查询图像的视觉属性描述相似度，并按照相似度从高到低对候选图像集合中的图像进行排序，得到最终检索结果。

本发明的有益效果是：

(1)检索结果语义相似度高。传统的基于内容的图像检索方法由于仅仅利用了底层特征，因此检索结果与查询图像的特征相似性大，语义相似性差，不能满足用户检索需求，本发明采用场景类别和视觉属性相结合的层次化语义描述方法，检索结果语义相似度高。

(2)检索速度快。本发明方法，缩小了搜索范围，从而减少了检索时间。

附图说明

图1基于层次化语义描述的图像检索流程图；

图2基于层次化语义描述的图像检索实例图。

具体实施方式

下面结合附图对本发明提供的基于层次化语义描述的图像检索方法进行详细说明。

图1为基于层次化语义描述的图像检索流程图。首先分别利用具有场景类别标记图像集合和具有视觉属性标记图像集合，进行特征提取后，训练场景类别分类器和视觉属性分类器(如图1(a))；对于查询数据库中的每一幅图像，进行特征提取后，利用图1(a)训练得到的场景类别分类器和视觉属性分类器生成数据库图像的场景类别描述和视觉属性描述；输入查询图像，进行特征提取后，利用图1(a)训练得到的场景类别分类器和视觉属性分类器生成查询图像的场景类别描述和视觉属性描述，利用查询图像场景类别描述在查询数据库中筛选具有相同场景类别描述的图像构成候选图像集合，然后计算查询图像视觉属性描述与候选图像集合视觉属性描述的相似度，最后按照视觉属性描述相似度从高到低的顺序返回检索结果(如图1(b))。

下面结合实例对本发明进行详细说明。

图2为基于层次化语义描述的图像检索实例图。在图2中，每一行的三幅图像由左至右分别表示输入的查询图像、利用本发明检索返回的第一幅结果图、利用特征描述检索返回结果。图2(a)为最左边的一列，由上至下表示四幅输入的查询图像，图2(b)为利用本发明方法在数据库中检索返回结果，图2(c)为利用特征描述检索返回结果。具体实施步骤为：

第一步：利用场景类别标准数据集SUNDatabase(其中包括例如客厅、厨房、卧室、机场和海滩等908种场景类别的131072幅图像)，提取梯度直方图特征(梯度直方图特征参数为：图像分解为8像素×8像素的单元格，在每个单元格内统计0°-180°的梯度方向直方图，然后采用2单元格×2单元格块进行归一化，为每个单元格生成一个描述符(或特征向量)，最后串联所有单元格描述符生成图像的梯度直方图特征)、局部二进制模式特征(局部二进制模式特征参数为：逐像素定义3像素×3像素的空间邻域，以中心像素的灰度值为阈值，将邻域中的8个像素进行二值化处理，然后乘以相应的权值，得到该像素的局部二进制模式码值，全图统计后生成图像的局部二进制模式特征描述符)和颜色直方图特征(颜色直方图特征参数为：在红、绿、蓝三个通道内分别统计0-255范围内的灰度直方图，最后串联形成图像的颜色直方图特征)，串联三类特征后，采用一对多分类策略，逐场景的以每种场景类别的标记图像为正样本，其他场景类别的标记图像为负样本，采用线性支持向量机训练得到场景类别分类器。

第二步：利用视觉属性标准数据集SUNAttributeDatabase(其中包括例如上课、读书、骑车、有云彩等102种视觉属性的14340幅图像)，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征(特征提取参数设置与第一步相同)，串联三类特征后，采用一对多分类策略，逐视觉属性的以每种视觉属性的标记图像为正样本，其他视觉属性的标记图像为负样本，采用线性支持向量机训练得到视觉属性分类器。

第三步：对查询数据库(本实例中采用ImageNetDatabase的子集，包括420种场景类别的78000幅图像，其中包括例如室内场景的图像12000幅，运动场场景的图像4500幅等)中的每一幅图像，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征(特征提取参数设置与第一步相同)，串联三类特征后，同时利用第一步得到的场景类别分类器和第二步得到的视觉属性分类器对图像进行分类，得到该图像的场景类别描述(表示为908维的二进制向量，1表示属于对应类别，0表示不属于对应类别)和视觉属性描述(表示为102维的实值向量，分量取值在0～1间)。比如图2(a)第一幅查询图像的场景类别描述为908维的二进制向量，其第1维至第10维的分量是(1,1,1,1,0,0,0,0,0,0)表示(是户外，是山地，是草地，是农田，不是河流，不是商场，不是室内，不是餐厅，不是办公室，不是旅馆)；第一幅查询图像的视觉属性描述为102维的实值向量，其第1维至第5维的分量是(0.01,0.25,0.07,0.04,0.005)表示(滑雪的概率0.01，野营的概率是0.25，骑车的概率0.07，读书的概率0.04，购物的概率0.005)。

第四步：对输入的查询图像(图2(a)，即左边一列)，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征(特征提取参数设置与第一步相同)，串联三类特征后，同时利用第一步得到的场景类别分类器和第二步得到的视觉属性分类器对图像进行分类，得到查询图像的场景类别描述(表示为908维的二进制向量，1表示属于对应类别，0表示不属于对应类别)和视觉属性描述(表示为102维的实值向量，分量取值在0～1间)。利用查询图像的场景类别描述在数据库中查找具有相同场景类别描述的图像形成候选图像集合，计算候选图像集合中每一幅图像与查询图像的视觉属性描述相似度(相似度的计算采用向量的相关系数等均可)，并按照相似度从高到低对候选图像集合中的图像进行排序，返回检索结果(图2(b)为视觉属性描述相似度最高的候选图像，即中间列)。图2(c)是右边一列，为采用串联三类特征后的特征向量直接计算特征向量相关系数，返回的与查询图像特征相似度最高的候选图像。对比图2(b)和图2(c)可以看到，本发明方法检索结果的语义相似度更高。

Claims

1.一种基于层次化语义描述的图像检索方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于层次化语义描述的图像检索方法，其特征在于，

利用具有场景类别标记的图像集合，对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，采用支持向量机训练得到场景类别分类器。

3.根据权利要求2所述的基于层次化语义描述的图像检索方法，其特征在于，利用具有视觉属性标记的图像集合，对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，采用支持向量机训练得到视觉属性分类器。

4.根据权利要求3所述的基于层次化语义描述的图像检索方法，其特征在于，对查询数据库中的每一幅图像，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，同时利用场景类别分类器和视觉属性分类器对图像进行分类，得到图像的场景类别描述和视觉属性描述。

5.根据权利要求4所述的基于层次化语义描述的图像检索方法，其特征在于，对输入的查询图像，提取梯度直方图特征、局部二进制模式特征和颜色直方图特征，同时利用场景类别分类器和视觉属性分类器对查询图像进行分类，得到查询图像的场景类别描述和视觉属性描述；利用查询图像的场景类别描述在查询数据库中筛选具有相同场景类别描述的图像形成候选图像集合，计算候选图像集合中每一幅图像与查询图像的视觉属性描述相似度，并按照相似度从高到低对候选图像集合中的图像进行排序，得到检索结果。