CN105975643B - 一种基于文本索引的实时图像检索方法 - Google Patents

一种基于文本索引的实时图像检索方法 Download PDF

Info

Publication number
CN105975643B
CN105975643B CN201610584562.4A CN201610584562A CN105975643B CN 105975643 B CN105975643 B CN 105975643B CN 201610584562 A CN201610584562 A CN 201610584562A CN 105975643 B CN105975643 B CN 105975643B
Authority
CN
China
Prior art keywords
picture
image
dictionary
feature
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610584562.4A
Other languages
English (en)
Other versions
CN105975643A (zh
Inventor
潘铭星
冯向文
孙健
杨佩星
赵金辉
付俊国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Weiqing Shikong Information Technology Co Ltd
Original Assignee
Nanjing Weiqing Shikong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Weiqing Shikong Information Technology Co Ltd filed Critical Nanjing Weiqing Shikong Information Technology Co Ltd
Priority to CN201610584562.4A priority Critical patent/CN105975643B/zh
Publication of CN105975643A publication Critical patent/CN105975643A/zh
Application granted granted Critical
Publication of CN105975643B publication Critical patent/CN105975643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于文本索引的实时图像检索方法,步骤包括:构建字典树并获得各个特征向量vq组成图像查询库、提取输入图像的图像特征点并生成特征描述子、将输入图像的特征描述子序列化为用特征字典表示的特征向量vd、计算图库中的特征向量与输入图像序列化后的特征向量间的相似度sim(vq,vd)以及验证检索出来的M张图片并检索结果等步骤。该图像检索方法将图像特征换成文本向量,特征检索变成文本检索的方法,使得检索速度能达到实时,同时在识别结果上做了更深层次的验证,使得方法更具鲁棒性。

Description

一种基于文本索引的实时图像检索方法
技术领域
本发明涉及一种图像检索方法,尤其是一种基于文本索引的实时图像检索方法。
背景技术
随着计算机视觉及搜索引擎的快速发展,图像检索技术在各行业得到了越来越多的重视。特别是现在深度学习的出现,使得图像检索方面的研究再次成为了热点。
传统的图像检索方法主要有模板匹配以及特征匹配等方法,但是该类算法会随着数据量的增大,计算量以及内存会越来越大,没法做到大数据的图像检索,而且随着图库的增加,其检索时间也会随之边长,当数据量到一定程度时,该类算法没法做到实时,极大的限制了其使用的范围。之后BOW提出将图像特征变为单词向量的方法,极大的减少了内存的开销和检索时间。但是传统的方法采用SIFT,SURF等特征去提取特征点,使得算法在构建视觉词库时花的时间会比较长。当今非常流行的deep learning的提出,使得图像检索可以达到一个很高的识别率,但是由于deep learning需求大量的数据,而且训练时间很长,内存需求很大等限制,使得其不能用于很多场合。
发明内容
本发明要解决的技术问题是传统的图像检索方法采用sift、surf等描述子提取图像特征,使得其生成字典树的时间比较长,在某些快速应用场合不适用。
为了解决上述技术问题,本发明提供了一种基于文本索引的实时图像检索方法,包括如下步骤:
步骤1,构建字典树,具体步骤为:
步骤1.1,用FAST角点算法分层提取图库中每一张图像的多尺度仿射不变特征点,并根据不变特征点的分布筛选部分特征点生成特征描述子数据库D;
步骤1.2,用聚类算法分层训练特征描述子,当层数l=1时,将特征描述子数据库D分为K个子类,即D11,D12,…,D1K,再用同样的方法训练l=2,…,L层的特征描述子,最终生成L层且每层有Kl个节点的字典树;
步骤1.3将字典树最外层的节点作为特征字典,共KL个特征字典,再统计每一个特征字典在图库中出现的次数,并根据出现的次数计算出每一个特征字典的权值ti,再生成图库中每一张图像的特征向量vq,并由各个特征向量vq组成图像查询库;
步骤2,对于输入图像,采用FAST角点算法分层提取输入图像的图像特征点,并根据特征点的分布筛选部分特征点生成输入图像的特征描述子;
步骤3,根据生成的字典树将输入图像的特征描述子序列化为特征字典表示,再根据序列化后的特征字典的权值生成输入图像的特征向量vd
步骤4,计算图像查询库中的各个特征向量vq与输入图像序列化后的特征向量vd之间的相似度sim(vq,vd),并返回相似度超过相似阈值的M张图片,其中,T表示矩阵的转置;
步骤5,分别验证返回的M张图片与输入图像是否为同一张,若完全相同,则输出该张检索出来的图片为检索结果。
采用将图像特征换成文本向量,特征检索变成文本检索的方法,使得检索速度能达到实时;采用基于FAST多尺度提取,再结合尺度及其角度信息生成描述子,极大的缩短了时间,同时也缩短了描述子的长度;在识别结果上做了更深层次的验证,使得方法更具鲁棒性。
作为本发明的进一步限定方案,步骤1.3中,nid表示第i个特征字典在特征描述子数据库D中的出现的次数,nd表示特征描述子数据库D中特征字典的数量,N表示图库中图像的数量,Ni表示图库中出现第i个特征字典的次数。
本发明的有益效果在于:(1)采用将图像特征换成文本向量,特征检索变成文本检索的方法,使得检索速度能达到实时;(2)采用基于FAST多尺度提取,再结合尺度及其角度信息生成描述子,极大的缩短了时间,同时也缩短了描述子的长度;(3)在识别结果上做了更深层次的验证,使得方法更具鲁棒性。
附图说明
图1为本发明的方法流程图。
具体实施方式
如图1所示,本发明的基于文本索引的实时图像检索方法,包括如下步骤:
步骤1,构建字典树,具体步骤为:
步骤1.1,用FAST角点算法分层提取图库中每一张图像的多尺度仿射不变特征点,并根据不变特征点的分布筛选部分特征点生成特征描述子数据库D;
步骤1.2,用聚类算法分层训练特征描述子,当层数l=1时,将特征描述子数据库D分为K个子类,即D11,D12,…,D1K,再用同样的方法训练l=2,…,L层的特征描述子,最终生成L层且每层有Kl个节点的字典树,本实施例中,L=3,K=10;
步骤1.3将字典树最外层的节点作为特征字典,共KL个特征字典,再统计每一个特征字典在图库中出现的次数,并根据出现的次数计算出每一个特征字典的权值ti,再生成图库中每一张图像的特征向量vq,并由各个特征向量vq组成图像查询库,其中nid表示第i个特征字典在特征描述子数据库D中的出现的次数,nd表示特征描述子数据库D中特征字典的数量,N表示图库中图像的数量,Ni表示图库中出现第i个特征字典的次数;
步骤2,对于输入图像,采用FAST角点算法分层提取输入图像的图像特征点,并根据特征点的分布筛选部分特征点生成输入图像的特征描述子;
步骤3,根据生成的字典树将输入图像的特征描述子序列化为特征字典表示,再根据序列化后的特征字典的权值生成输入图像的特征向量vd
步骤4,计算图像查询库中的各个特征向量vq与输入图像序列化后的特征向量vd之间的相似度sim(vq,vd),并返回相似度超过相似阈值的M张图片,其中,T表示矩阵的转置;
步骤5,分别验证返回的M张图片与输入图像是否为同一张,若完全相同,则输出该张检索出来的图片为检索结果。
本发明与传统的图像检索方法相比优势在于:采用将图像特征换成文本向量,特征检索变成文本检索的方法,使得检索速度能达到实时;采用基于FAST多尺度提取,再结合尺度及其角度信息生成描述子,极大的缩短了时间,同时也缩短了描述子的长度;在识别结果上做了更深层次的验证,使得方法更具鲁棒性。本发明的图像检索方法不论是图库的创建时间、占用的内存以及检索准确率均远远优于现有算法。
本发明的基于文本索引的实时图像检索方法在进行实验验证时,硬件环境设置为:win8、vs2010DEBUG模式下、i7处理器以及8G内存;建图部分:找了100张图像,640*480,不变特征点的数量为200~500,每幅图像所用时间少于200ms,一般在18000~20000ms之间,生成7234K的文件;检索部分:检测特征点并生成特征描述子,20ms内,检索速度10ms内,验证10ms内。

Claims (1)

1.一种基于文本索引的实时图像检索方法,其特征在于,包括如下步骤:
步骤1,构建字典树,具体步骤为:
步骤1.1,用FAST角点算法分层提取图库中每一张图像的多尺度仿射不变特征点,并根据不变特征点的分布筛选部分特征点生成特征描述子数据库D;
步骤1.2,用聚类算法分层训练特征描述子,当层数l=1时,将特征描述子数据库D分为K个子类,即D11,D12,…,D1K,再用同样的方法训练l=2,…,L层的特征描述子,最终生成L层且每层有Kl个节点的字典树;
步骤1.3将字典树最外层的节点作为特征字典,共KL个特征字典,再统计每一个特征字典在图库中出现的次数,并根据出现的次数计算出每一个特征字典的权值ti,再生成图库中每一张图像的特征向量vq,并由各个特征向量vq组成图像查询库;其中, nid表示第i个特征字典在特征描述子数据库D中的出现的次数,nd表示特征描述子数据库D中特征字典的数量,N表示图库中图像的数量,Ni表示图库中出现第i个特征字典的次数;
步骤2,对于输入图像,采用FAST角点算法分层提取输入图像的图像特征点,并根据特征点的分布筛选部分特征点生成输入图像的特征描述子;
步骤3,根据生成的字典树将输入图像的特征描述子序列化为特征字典表示,再根据序列化后的特征字典的权值生成输入图像的特征向量vd
步骤4,计算图像查询库中的各个特征向量vq与输入图像序列化后的特征向量vd之间的相似度sim(vq,vd),并返回相似度超过相似阈值的M张图片,其中, T表示矩阵的转置;
步骤5,分别验证返回的M张图片与输入图像是否为同一张,若完全相同,则输出该张检索出来的图片为检索结果。
CN201610584562.4A 2016-07-22 2016-07-22 一种基于文本索引的实时图像检索方法 Active CN105975643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610584562.4A CN105975643B (zh) 2016-07-22 2016-07-22 一种基于文本索引的实时图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610584562.4A CN105975643B (zh) 2016-07-22 2016-07-22 一种基于文本索引的实时图像检索方法

Publications (2)

Publication Number Publication Date
CN105975643A CN105975643A (zh) 2016-09-28
CN105975643B true CN105975643B (zh) 2019-08-16

Family

ID=56953221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610584562.4A Active CN105975643B (zh) 2016-07-22 2016-07-22 一种基于文本索引的实时图像检索方法

Country Status (1)

Country Link
CN (1) CN105975643B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI753034B (zh) * 2017-03-31 2022-01-21 香港商阿里巴巴集團服務有限公司 特徵向量的產生、搜索方法、裝置及電子設備
CN108875828B (zh) * 2018-06-19 2022-01-28 太原学院 一种相似图像的快速匹配方法和系统
CN109992690B (zh) * 2019-03-11 2021-04-13 中国华戎科技集团有限公司 一种图像检索方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592129A (zh) * 2012-01-02 2012-07-18 西安电子科技大学 基于场景驱动的智能手机图像特征点选取方法
CN103207879A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
CN103235955A (zh) * 2013-05-03 2013-08-07 中国传媒大学 一种图像检索中视觉单词的提取方法
CN103902704A (zh) * 2014-03-31 2014-07-02 华中科技大学 面向大规模图像视觉特征的多维倒排索引与快速检索算法
CN104239398A (zh) * 2014-07-02 2014-12-24 中国科学院计算技术研究所 一种基于密集子图的视觉词典生成方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592129A (zh) * 2012-01-02 2012-07-18 西安电子科技大学 基于场景驱动的智能手机图像特征点选取方法
CN103207879A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
CN103235955A (zh) * 2013-05-03 2013-08-07 中国传媒大学 一种图像检索中视觉单词的提取方法
CN103902704A (zh) * 2014-03-31 2014-07-02 华中科技大学 面向大规模图像视觉特征的多维倒排索引与快速检索算法
CN104239398A (zh) * 2014-07-02 2014-12-24 中国科学院计算技术研究所 一种基于密集子图的视觉词典生成方法及其系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于FAST 角点和仿射改进的随机蕨丛的单目视觉实时匹配算法;罗元 等;《机器人》;20140531;第36卷(第3期);271-278
基于多尺度FAST-9 的图像快速匹配算法;郭莉莎 等;《计算机工程》;20120630;第38卷(第12期);第208页摘要,第208-210页第2-4部分
基于视觉单词树的快速图像检索;梁柱;《西南师范大学学报(自然科学版)》;20100630;第35卷(第3期);第235页摘要,第235-237页第1-3部分

Also Published As

Publication number Publication date
CN105975643A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
Melekhov et al. Siamese network features for image matching
Zheng et al. Coupled binary embedding for large-scale image retrieval
CN106126581B (zh) 基于深度学习的手绘草图图像检索方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
EP2808827A1 (en) System and method for OCR output verification
JP2016134175A (ja) ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
Gao et al. The labeled multiple canonical correlation analysis for information fusion
CN105718940B (zh) 基于多组间因子分析的零样本图像分类方法
Liu et al. Uniting keypoints: Local visual information fusion for large-scale image search
US9569698B2 (en) Method of classifying a multimodal object
Niu et al. Spatial-DiscLDA for visual recognition
Natarajan et al. BBN VISER TRECVID 2013 Multimedia Event Detection and Multimedia Event Recounting Systems.
CN111460961A (zh) 一种基于cdvs的相似图聚类的静态视频摘要方法
Gao et al. Democratic diffusion aggregation for image retrieval
CN105975643B (zh) 一种基于文本索引的实时图像检索方法
Wang et al. Separable vocabulary and feature fusion for image retrieval based on sparse representation
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN112182275A (zh) 一种基于多维度特征融合的商标近似检索系统和方法
Olaode et al. Unsupervised image classification by probabilistic latent semantic analysis for the annotation of images
CN105678349B (zh) 一种视觉词汇的上下文描述子生成方法
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
Lin et al. Region-based context enhanced network for robust multiple face alignment
CN108090117B (zh) 一种图像检索方法及装置,电子设备
Zhang et al. Towards optimal VLAD for human action recognition from still images
Farhangi et al. Informative visual words construction to improve bag of words image representation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant