CN105718555A - 一种基于层次化语义描述的图像检索方法 - Google Patents
一种基于层次化语义描述的图像检索方法 Download PDFInfo
- Publication number
- CN105718555A CN105718555A CN201610035896.6A CN201610035896A CN105718555A CN 105718555 A CN105718555 A CN 105718555A CN 201610035896 A CN201610035896 A CN 201610035896A CN 105718555 A CN105718555 A CN 105718555A
- Authority
- CN
- China
- Prior art keywords
- image
- scene type
- perceptual property
- grader
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于层次化语义描述的图像检索方法。技术方案包括下述步骤:利用具有场景类别标记的图像集合,得到场景类别分类器;利用具有视觉属性标记的图像集合,得到视觉属性分类器;利用场景类别分类器和视觉属性分类器,对查询数据库中的每一幅图像进行分类,得到所述每一幅图像的场景类别描述和视觉属性描述;利用场景类别分类器和视觉属性分类器,对输入的查询图像,得到其场景类别描述和视觉属性描述;在查询数据库中,筛选出与查询图像的场景类别描述具有相同场景类别描述的图像形成候选图像集合,在候选图像集合查找与查询图像的视觉属性描述相似的图像作为检索结果。本发明采用场景类别和视觉属性相结合的层次化语义描述方法,检索结果语义相似度高,检索速度快。
Description
技术领域
本发明涉及图像检索技术领域,更具体地说,涉及一种基于层次化语义描述的图像检索方法。
背景技术
在社交媒体时代由于网络空间共享图像的爆炸式增长以及网络、移动客户端对各种多媒体应用的需求,从大规模图像数据库中快速准确地检索用户关心的图像面临很大挑战。
现有图像检索方法存在两方面的问题:一方面,需要计算查询图像与查询数据库中每一幅图像的特征相似性,搜索范围大;另一方面,由于图像内容的底层特征和高层语义之间存在语义鸿沟问题(即底层特征和高层语义之间缺乏对应性),检索返回图像与查询图像间的特征相似性高但语义相似性差,不能贴合用户的检索意图。
发明内容
本发明要解决的技术问题是缩小现有图像检索方法的搜索范围、提高检索返回图像与查询图像间的语义相似性,提出一种基于层次化语义描述的图像检索方法。
本发明的技术方案是:一种基于层次化语义描述的图像检索方法,具体包括下述步骤:
利用具有场景类别标记的图像集合,得到场景类别分类器;利用具有视觉属性标记的图像集合,得到视觉属性分类器;
利用场景类别分类器和视觉属性分类器,对查询数据库中的每一幅图像进行分类,得到所述每一幅图像的场景类别描述和视觉属性描述;
利用场景类别分类器和视觉属性分类器,对输入的查询图像,得到其场景类别描述和视觉属性描述;
在查询数据库中,筛选出与查询图像的场景类别描述具有相同场景类别描述的图像形成候选图像集合,在候选图像集合查找与查询图像的视觉属性描述相似的图像作为检索结果。
特别地:
利用具有场景类别标记的图像集合,对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,采用支持向量机训练得到场景类别分类器;
利用具有视觉属性标记的图像集合,对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,采用支持向量机训练得到视觉属性分类器;
对查询数据库中的每一幅图像,提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,同时利用场景类别分类器和视觉属性分类器对图像进行分类,得到图像的场景类别描述和视觉属性描述;
对输入的查询图像,提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,同时利用场景类别分类器和视觉属性分类器对查询图像进行分类,得到查询图像的场景类别描述和视觉属性描述;利用查询图像的场景类别描述在查询数据库中筛选具有相同场景类别描述的图像形成候选图像集合,计算候选图像集合中每一幅图像与查询图像的视觉属性描述相似度,并按照相似度从高到低对候选图像集合中的图像进行排序,得到最终检索结果。
本发明的有益效果是:
(1)检索结果语义相似度高。传统的基于内容的图像检索方法由于仅仅利用了底层特征,因此检索结果与查询图像的特征相似性大,语义相似性差,不能满足用户检索需求,本发明采用场景类别和视觉属性相结合的层次化语义描述方法,检索结果语义相似度高。
(2)检索速度快。本发明方法,缩小了搜索范围,从而减少了检索时间。
附图说明
图1基于层次化语义描述的图像检索流程图;
图2基于层次化语义描述的图像检索实例图。
具体实施方式
下面结合附图对本发明提供的基于层次化语义描述的图像检索方法进行详细说明。
图1为基于层次化语义描述的图像检索流程图。首先分别利用具有场景类别标记图像集合和具有视觉属性标记图像集合,进行特征提取后,训练场景类别分类器和视觉属性分类器(如图1(a));对于查询数据库中的每一幅图像,进行特征提取后,利用图1(a)训练得到的场景类别分类器和视觉属性分类器生成数据库图像的场景类别描述和视觉属性描述;输入查询图像,进行特征提取后,利用图1(a)训练得到的场景类别分类器和视觉属性分类器生成查询图像的场景类别描述和视觉属性描述,利用查询图像场景类别描述在查询数据库中筛选具有相同场景类别描述的图像构成候选图像集合,然后计算查询图像视觉属性描述与候选图像集合视觉属性描述的相似度,最后按照视觉属性描述相似度从高到低的顺序返回检索结果(如图1(b))。
下面结合实例对本发明进行详细说明。
图2为基于层次化语义描述的图像检索实例图。在图2中,每一行的三幅图像由左至右分别表示输入的查询图像、利用本发明检索返回的第一幅结果图、利用特征描述检索返回结果。图2(a)为最左边的一列,由上至下表示四幅输入的查询图像,图2(b)为利用本发明方法在数据库中检索返回结果,图2(c)为利用特征描述检索返回结果。具体实施步骤为:
第一步:利用场景类别标准数据集SUNDatabase(其中包括例如客厅、厨房、卧室、机场和海滩等908种场景类别的131072幅图像),提取梯度直方图特征(梯度直方图特征参数为:图像分解为8像素×8像素的单元格,在每个单元格内统计0°-180°的梯度方向直方图,然后采用2单元格×2单元格块进行归一化,为每个单元格生成一个描述符(或特征向量),最后串联所有单元格描述符生成图像的梯度直方图特征)、局部二进制模式特征(局部二进制模式特征参数为:逐像素定义3像素×3像素的空间邻域,以中心像素的灰度值为阈值,将邻域中的8个像素进行二值化处理,然后乘以相应的权值,得到该像素的局部二进制模式码值,全图统计后生成图像的局部二进制模式特征描述符)和颜色直方图特征(颜色直方图特征参数为:在红、绿、蓝三个通道内分别统计0-255范围内的灰度直方图,最后串联形成图像的颜色直方图特征),串联三类特征后,采用一对多分类策略,逐场景的以每种场景类别的标记图像为正样本,其他场景类别的标记图像为负样本,采用线性支持向量机训练得到场景类别分类器。
第二步:利用视觉属性标准数据集SUNAttributeDatabase(其中包括例如上课、读书、骑车、有云彩等102种视觉属性的14340幅图像),提取梯度直方图特征、局部二进制模式特征和颜色直方图特征(特征提取参数设置与第一步相同),串联三类特征后,采用一对多分类策略,逐视觉属性的以每种视觉属性的标记图像为正样本,其他视觉属性的标记图像为负样本,采用线性支持向量机训练得到视觉属性分类器。
第三步:对查询数据库(本实例中采用ImageNetDatabase的子集,包括420种场景类别的78000幅图像,其中包括例如室内场景的图像12000幅,运动场场景的图像4500幅等)中的每一幅图像,提取梯度直方图特征、局部二进制模式特征和颜色直方图特征(特征提取参数设置与第一步相同),串联三类特征后,同时利用第一步得到的场景类别分类器和第二步得到的视觉属性分类器对图像进行分类,得到该图像的场景类别描述(表示为908维的二进制向量,1表示属于对应类别,0表示不属于对应类别)和视觉属性描述(表示为102维的实值向量,分量取值在0~1间)。比如图2(a)第一幅查询图像的场景类别描述为908维的二进制向量,其第1维至第10维的分量是(1,1,1,1,0,0,0,0,0,0)表示(是户外,是山地,是草地,是农田,不是河流,不是商场,不是室内,不是餐厅,不是办公室,不是旅馆);第一幅查询图像的视觉属性描述为102维的实值向量,其第1维至第5维的分量是(0.01,0.25,0.07,0.04,0.005)表示(滑雪的概率0.01,野营的概率是0.25,骑车的概率0.07,读书的概率0.04,购物的概率0.005)。
第四步:对输入的查询图像(图2(a),即左边一列),提取梯度直方图特征、局部二进制模式特征和颜色直方图特征(特征提取参数设置与第一步相同),串联三类特征后,同时利用第一步得到的场景类别分类器和第二步得到的视觉属性分类器对图像进行分类,得到查询图像的场景类别描述(表示为908维的二进制向量,1表示属于对应类别,0表示不属于对应类别)和视觉属性描述(表示为102维的实值向量,分量取值在0~1间)。利用查询图像的场景类别描述在数据库中查找具有相同场景类别描述的图像形成候选图像集合,计算候选图像集合中每一幅图像与查询图像的视觉属性描述相似度(相似度的计算采用向量的相关系数等均可),并按照相似度从高到低对候选图像集合中的图像进行排序,返回检索结果(图2(b)为视觉属性描述相似度最高的候选图像,即中间列)。图2(c)是右边一列,为采用串联三类特征后的特征向量直接计算特征向量相关系数,返回的与查询图像特征相似度最高的候选图像。对比图2(b)和图2(c)可以看到,本发明方法检索结果的语义相似度更高。
Claims (5)
1.一种基于层次化语义描述的图像检索方法,其特征在于,包括下述步骤:
利用具有场景类别标记的图像集合,得到场景类别分类器;利用具有视觉属性标记的图像集合,得到视觉属性分类器;
利用场景类别分类器和视觉属性分类器,对查询数据库中的每一幅图像进行分类,得到所述每一幅图像的场景类别描述和视觉属性描述;
利用场景类别分类器和视觉属性分类器,对输入的查询图像,得到其场景类别描述和视觉属性描述;
在查询数据库中,筛选出与查询图像的场景类别描述具有相同场景类别描述的图像形成候选图像集合,在候选图像集合查找与查询图像的视觉属性描述相似的图像作为检索结果。
2.根据权利要求1所述的基于层次化语义描述的图像检索方法,其特征在于,
利用具有场景类别标记的图像集合,对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,采用支持向量机训练得到场景类别分类器。
3.根据权利要求2所述的基于层次化语义描述的图像检索方法,其特征在于,利用具有视觉属性标记的图像集合,对图像集合中的每一幅图像提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,采用支持向量机训练得到视觉属性分类器。
4.根据权利要求3所述的基于层次化语义描述的图像检索方法,其特征在于,对查询数据库中的每一幅图像,提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,同时利用场景类别分类器和视觉属性分类器对图像进行分类,得到图像的场景类别描述和视觉属性描述。
5.根据权利要求4所述的基于层次化语义描述的图像检索方法,其特征在于,对输入的查询图像,提取梯度直方图特征、局部二进制模式特征和颜色直方图特征,同时利用场景类别分类器和视觉属性分类器对查询图像进行分类,得到查询图像的场景类别描述和视觉属性描述;利用查询图像的场景类别描述在查询数据库中筛选具有相同场景类别描述的图像形成候选图像集合,计算候选图像集合中每一幅图像与查询图像的视觉属性描述相似度,并按照相似度从高到低对候选图像集合中的图像进行排序,得到检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610035896.6A CN105718555A (zh) | 2016-01-19 | 2016-01-19 | 一种基于层次化语义描述的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610035896.6A CN105718555A (zh) | 2016-01-19 | 2016-01-19 | 一种基于层次化语义描述的图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105718555A true CN105718555A (zh) | 2016-06-29 |
Family
ID=56147412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610035896.6A Pending CN105718555A (zh) | 2016-01-19 | 2016-01-19 | 一种基于层次化语义描述的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718555A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203296A (zh) * | 2016-06-30 | 2016-12-07 | 北京小白世纪网络科技有限公司 | 一种属性辅助的视频动作识别方法 |
CN106203490A (zh) * | 2016-06-30 | 2016-12-07 | 江苏大学 | 一种安卓平台下基于属性学习和交互反馈的图像在线识别、检索方法 |
CN106980696A (zh) * | 2017-04-06 | 2017-07-25 | 腾讯科技(深圳)有限公司 | 一种照片文件的分类方法及装置 |
CN108228686A (zh) * | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
CN108399361A (zh) * | 2018-01-23 | 2018-08-14 | 南京邮电大学 | 一种基于卷积神经网络cnn和语义分割的行人检测方法 |
CN109189986A (zh) * | 2018-08-29 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 信息推荐方法、装置、电子设备和可读存储介质 |
WO2020007168A1 (zh) * | 2018-07-05 | 2020-01-09 | 腾讯科技(深圳)有限公司 | 图片集描述生成方法、装置、计算机设备和存储介质 |
CN111291803A (zh) * | 2020-01-21 | 2020-06-16 | 中国科学技术大学 | 一种图像分级粒度迁移方法、系统、设备和介质 |
CN111814658A (zh) * | 2020-07-07 | 2020-10-23 | 西安电子科技大学 | 基于语义的场景语义结构图检索方法 |
CN112840336A (zh) * | 2018-10-18 | 2021-05-25 | 甲骨文国际公司 | 用于对内容项推荐进行排名的技术 |
CN115146103A (zh) * | 2022-09-01 | 2022-10-04 | 太平金融科技服务(上海)有限公司深圳分公司 | 图像检索方法、装置、计算机设备、存储介质和程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207966A (zh) * | 2011-06-01 | 2011-10-05 | 华南理工大学 | 基于对象标签的视频内容快速检索方法 |
US8503792B2 (en) * | 2010-12-17 | 2013-08-06 | Sony Corporation | Patch description and modeling for image subscene recognition |
CN103810299A (zh) * | 2014-03-10 | 2014-05-21 | 西安电子科技大学 | 基于多特征融合的图像检索方法 |
CN105046280A (zh) * | 2015-08-10 | 2015-11-11 | 北京小豹科技有限公司 | 一种衣柜智能管理装置及方法 |
-
2016
- 2016-01-19 CN CN201610035896.6A patent/CN105718555A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8503792B2 (en) * | 2010-12-17 | 2013-08-06 | Sony Corporation | Patch description and modeling for image subscene recognition |
CN102207966A (zh) * | 2011-06-01 | 2011-10-05 | 华南理工大学 | 基于对象标签的视频内容快速检索方法 |
CN103810299A (zh) * | 2014-03-10 | 2014-05-21 | 西安电子科技大学 | 基于多特征融合的图像检索方法 |
CN105046280A (zh) * | 2015-08-10 | 2015-11-11 | 北京小豹科技有限公司 | 一种衣柜智能管理装置及方法 |
Non-Patent Citations (1)
Title |
---|
刘帅 等: ""基于语义属性的遥感图像检索"", 《第三届高分辨率对地观测学术年会》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203490A (zh) * | 2016-06-30 | 2016-12-07 | 江苏大学 | 一种安卓平台下基于属性学习和交互反馈的图像在线识别、检索方法 |
CN106203296B (zh) * | 2016-06-30 | 2019-05-07 | 北京小白世纪网络科技有限公司 | 一种属性辅助的视频动作识别方法 |
CN106203296A (zh) * | 2016-06-30 | 2016-12-07 | 北京小白世纪网络科技有限公司 | 一种属性辅助的视频动作识别方法 |
CN106980696A (zh) * | 2017-04-06 | 2017-07-25 | 腾讯科技(深圳)有限公司 | 一种照片文件的分类方法及装置 |
CN108228686A (zh) * | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
CN108228686B (zh) * | 2017-06-15 | 2021-03-23 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
CN108399361A (zh) * | 2018-01-23 | 2018-08-14 | 南京邮电大学 | 一种基于卷积神经网络cnn和语义分割的行人检测方法 |
WO2020007168A1 (zh) * | 2018-07-05 | 2020-01-09 | 腾讯科技(深圳)有限公司 | 图片集描述生成方法、装置、计算机设备和存储介质 |
US11954591B2 (en) | 2018-07-05 | 2024-04-09 | Tencent Technology (Shenzhen) Company Limited | Picture set description generation method and apparatus, and computer device and storage medium |
CN109189986A (zh) * | 2018-08-29 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 信息推荐方法、装置、电子设备和可读存储介质 |
CN112840336A (zh) * | 2018-10-18 | 2021-05-25 | 甲骨文国际公司 | 用于对内容项推荐进行排名的技术 |
CN111291803A (zh) * | 2020-01-21 | 2020-06-16 | 中国科学技术大学 | 一种图像分级粒度迁移方法、系统、设备和介质 |
CN111291803B (zh) * | 2020-01-21 | 2022-07-29 | 中国科学技术大学 | 一种图像分级粒度迁移方法、系统、设备和介质 |
CN111814658B (zh) * | 2020-07-07 | 2024-02-09 | 西安电子科技大学 | 基于语义的场景语义结构图检索方法 |
CN111814658A (zh) * | 2020-07-07 | 2020-10-23 | 西安电子科技大学 | 基于语义的场景语义结构图检索方法 |
CN115146103A (zh) * | 2022-09-01 | 2022-10-04 | 太平金融科技服务(上海)有限公司深圳分公司 | 图像检索方法、装置、计算机设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718555A (zh) | 一种基于层次化语义描述的图像检索方法 | |
Workman et al. | On the location dependence of convolutional neural network features | |
Laaksonen et al. | PicSOM–content-based image retrieval with self-organizing maps | |
CN102207966B (zh) | 基于对象标签的视频内容快速检索方法 | |
CN103714181B (zh) | 一种层级化的特定人物检索方法 | |
CN101853295B (zh) | 一种图像检索方法 | |
CN107908685A (zh) | 基于迁移学习的多视角商品图像检索与识别方法 | |
CN106250423B (zh) | 基于部分参数共享的深度卷积神经网络跨域服装检索方法 | |
CN104486585B (zh) | 一种基于gis的城市海量监控视频管理方法及系统 | |
CN109947987A (zh) | 一种交叉协同过滤推荐方法 | |
Yang et al. | Content-based image retrieval using local visual attention feature | |
Pradhan et al. | Multi-level colored directional motif histograms for content-based image retrieval | |
CN108363771A (zh) | 一种面向公安侦查应用的图像检索方法 | |
CN106778789B (zh) | 一种多视点图像中的快速目标提取方法 | |
CN105374010A (zh) | 全景图像的生成方法 | |
Mustaffa et al. | Content-based image retrieval based on color-spatial features | |
CN104199950A (zh) | 一种基于图像相似度快速匹配的学术论文搜索方法 | |
Konstantinidis et al. | A center-surround histogram for content-based image retrieval | |
Li et al. | Human interaction recognition fusing multiple features of depth sequences | |
Peng et al. | A hierarchical model to learn object proposals and its applications | |
Yang et al. | Semantic categorization of digital home photo using photographic region templates | |
Tang et al. | Person re-identification based on multi-scale global feature and weight-driven part feature | |
Mary et al. | Content based image retrieval using colour, multi-dimensional texture and edge orientation | |
Shamsujjoha et al. | Semantic modelling of unshaped object: An efficient approach in content based image retrieval | |
Aradhya et al. | DeepFlower: Archival and Retrieval of Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160629 |
|
WD01 | Invention patent application deemed withdrawn after publication |