CN106339486A - 一种基于大规模词汇树的增量学习的图像检索方法 - Google Patents
一种基于大规模词汇树的增量学习的图像检索方法 Download PDFInfo
- Publication number
- CN106339486A CN106339486A CN201610783432.3A CN201610783432A CN106339486A CN 106339486 A CN106339486 A CN 106339486A CN 201610783432 A CN201610783432 A CN 201610783432A CN 106339486 A CN106339486 A CN 106339486A
- Authority
- CN
- China
- Prior art keywords
- image
- incremental learning
- vector
- words tree
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于大规模词汇树的增量学习的图像检索方法,利用已经生成好的包含百万图像的大规模训练图片的词汇树作为词典,从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来进行描述,完成新增图片的增量学习,使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量,对两者的叶节点信息矢量进行比对,找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那幅图像,作为检索结果返回;检索结果的正确率较高,具有良好的鲁棒性,可以满足实时的数据库增量的图像检索任务。
Description
技术领域
本发明属于图像检索技术领域,尤其涉及一种基于大规模词汇树的增量学习的图像检索方法。
背景技术
近年来,随着移动互联网的快速发展和移动终端向大众化的普及,人们可以随心所欲的拍摄并分享自己的图片。通过对图片的检索识别,可以分析用户行为,为各行各业提供数据支撑。如:理解客户、满足客户服务需求,优化机器和设备性能,改善安全和执法,改善城市交通,金融交易等。因此图像的检索识别技术具有极其重要的应用价值。因此快速有效地管理和检索有价值的信息迅速成为人们的迫切需求,随之基于内容的图像检索(Content-Based Image Retrieval,简称CBIR)技术应运而生,并且逐步成为了目前非常热门而又富有挑战性的课题之一。传统的基于内容的图像检索技术是一种近似匹配的技术,融合了图像处理,图像理解和数据库等技术,通过计算机对图像进行底层特征提取,包括颜色,特征角点,纹理,边缘或者其他的统计特征,然后对提取的特征进行索引,降维的处理,图像的特征向量一般都是高维的向量,为了让基于内容的图像检索系统能够真正的适合大型的数据库,减少检索花费的时间,往往将降维技术和多维索引技术相结合。目前由于计算机发展水平所限,使得CBIR系统还无法真正的支持基于语义的图像检索,为了提高匹配的效率,在建立索引的过程中需要花费大量的时间来对特征向量进行训练,以达到快速检索的效果。基于词汇树的图像检索技术是一种行之有效的方式,可以在百万张图片里面迅速找到检索的结果,但其缺陷是训练时间太长,百万张图片的训练时间长达数十个小时,对于想要在原有的数据库模型里新增加图片数据且保持一个较高的检索正确率来说,将新增加到数据库中的图片与原有的数据库中的图片一起训练时间代价太高,因此提出一种解决方案,利用已有的训练好的包含百万张图片的大规模树型索引结构作为词典,从树型结构中快速提取数据来表示新增加的图片,完成增量学习的目的。
发明内容
本发明的目的在于提供一种基于大规模词汇树的增量学习的图像检索方法,使得能够用现有的基于词汇树的图像检索技术完成对新增图片数据快速学习的过程,从而满足实时图像检索系统的要求。
本发明是这样实现的,一种基于大规模词汇树的增量学习的图像检索方法,所述基于大规模词汇树的增量学习的图像检索方法利用已经生成好的包含百万图像的大规模训练图片的词汇树作为词典,从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来进行描述,完成新增图片的增量学习,使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量,对两者的叶节点信息矢量进行比对,找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那副图像,作为检索结果返回。可将本发明应用到需要快速建立数据库的自建图像检索和识别系统中。
进一步,所述词汇树的节点数M的计算公式如下,其中L=6,K=10:
进一步,为构建好的词汇树的每一个节点加入词频向量权值ωi;
nid为视觉词汇在图像d中出现的次数,nd表示图像d的词汇总数,N表示数据库图像总数,Ni表示经过此节点的图像的描述子的个数,nid/nd表示词汇在图像d的出现频率—词频TF。
进一步,对新增加到数据库的R张图片进行SIFT特征的提取,提取h个特征点,每一张图片特征点用X表示为:
X1=(X1,X2,X3…Xh)T;
X2=(X1,X2,X3…Xh)T;
…
XR=(X1,X2,X3…Xh)T;
对新增加到数据库中的图像和数据库中原有的图像按照图像的权值词频向量夹角的余弦值进行计算;数据库原有的一幅图像的权值词频向量为:
XP=(P1,P2,P3,…Ph)T;
两幅图像之间的相似度计算为:
S(P,R)表示新增加到数据库中的一张图片R和数据库原有的一张图片P的相似度,M为词汇树节点的总数,根据计算出来的S(P,R),从词汇树中找到有用的结点信息。
进一步,使用向量V来表示新增加到库里的每一张图片:
V1=(Vid1,Vid2,Vid3,…Vidh)T
V2=(Vid1,Vid2,Vid3,…Vidh)T
V3=(Vid1,Vid2,Vid3,…Vidh)T
…
VR=(Xid1,Xid2,Xid3…Xidh)T。
本发明的另一目的在于提供一种应用所述基于大规模词汇树的增量学习的图像检索方法的移动终端搜索引擎。
本发明提供的基于大规模词汇树的增量学习的图像检索方法,利用已经生成好的包含百万图像的大规模训练图片的词汇树作为“词典”,从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来对其进行描述,完成新增图片的增量学习,使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量,对两者的叶节点信息矢量进行比对,找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那副图像,作为检索结果返回,使用一万张图片作为新增的图片数据,加入到一百万张图片的数据集中,为保证较高的检索正确率,将数据库重新训练,花费63个小时,检索的正确率在89%左右,而使用本发明的方法,用已经训练好的词汇树结构去表达新的图片,需要30分钟,检索的正确率也能保持在89%左右,本发明能够使得新增数据库的训练时间大大缩短,而且能够保持较高的检索正确率,能够满足一定的实用性,可以应用于在线的实时更新数据库,该方法保留了原始词汇树检索抗旋转尺度缩放的特性,具有良好的鲁棒性,达到了较高的检索正确率。
附图说明
图1是本发明实施例提供的基于大规模词汇树的增量学习的图像检索方法流程图。
图2是本发明实施例提供的实施例1的流程图。
图3是本发明实施例提供的增量学习流程图。
图4是本发明实施例所用大规模图片样例图。
图5是本发明实施例新增加到数据库中所用图片样例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例的基于大规模词汇树的增量学习的图像检索方法包括以下步骤:
S101:对大规模图片数据库提取SIFT特征描述子,进行训练,生成一棵大规模的词汇树;
S102:将要增加的图片集也进行SIFT特征描述子的提取,SIFT特征描述子依次与词汇树的每一层的子节点进行欧氏距离的计算,找到最小距离的点,直到最后一层,每一个SIFT特征描述子都会找到一个与其最近的叶节点;
S103:将叶节点看作矢量来表达新增图片库,每一张新增图片对应一组矢量。查询图片也进行一个此类的操作,得到一组矢量,将查询图片的矢量与新增图片库的矢量进行对比,从新增图片的矢量中找到重合度最高的,则其表达的图片即是图像检索的结果。
下面结合具体实施例对本发明的应用原理作进一步的描述。
实施例1:
步骤1,提取大规模图像库中所有图片的SIFT特征,大规模图像库的容量定义为100万,,使用的大规模图片数据库为MIR-FLICKER-1M,图4为所选大规模图像库的样例图,每张图片提取200个SIFT特征点,得到描述子集合;
步骤2,构建一棵L层K个分支的树型数据结构。对这些SIFT特征描述子进行K-means聚类,将聚类中心作为视觉词汇放入词汇树的节点中。词汇树的节点数M的计算公式如下,其中L=6,K=10:
大规模的词汇树的节点数约等于两百万。
步骤3,为构建好的词汇树的每一个节点加入词频向量权值ωi;
nid为视觉词汇在图像d中出现的次数,nd表示图像d的词汇总数,N表示数据库图像总数,Ni表示经过此节点的图像的描述子的个数,nid/nd表示词汇在图像d的出现频率—词频TF。将大规模图像库中提取的每个特征向量与每层节点内的聚类中心进行点积计算。点积计算结果越大,则说明两个向量越接近,在最接近的节点下的L个分支继续进行同样的点积计算,直到词汇树的叶节点。
步骤4,对新增加到数据库的一万张图片进行SIFT特征的提取,这里新增加的图片为一万本图书封面的图片,图5为新增加到数据库中的样例图,共提取10000*200个特征点,每一张图片特征点用XR表示为:
XR=(X1,X2,X3…X200)T;
对新增加到数据库中的图像和数据库中原有的大规模图像库中的图片按照图像的权值词频向量夹角的余弦值进行计算。假设数据库原有的一幅图像的权值词频向量为:
XP=(P1,P2,P3,…P200)T;
两幅图像之间的相似度计算可以为:
S(P,R)表示新增加到数据库中的一张图片R和数据库原有的一张图片P的相似度,M为词汇树节点的总数,此实施例中M约为200万。
步骤5,新增加到数据库中的图像的每一个特征描述子在经过相似度计算之后,最终都会找到一个叶节点内的视觉词汇与其最相似,每一张图片提取200个特征描述子,那么就会有200个叶节点被找到,将这些叶节点在词汇树中的标号取出,组成一个200维的向量用来表示新增加到数据库中的图片。从而完成数据库的增量学习如图3所示。使用向量V来表示新增加到库里的每一张图片。
V1=(Vid1,Vid2,Vid3,…Vid200)T
V2=(Vid1,Vid2,Vid3,…Vid200)T
V3=(Vid1,Vid2,Vid3,…Vid200)T
…
V10000=(Xid1,Xid2,Xid3…Xid200)T
步骤6,待查询的图片按照步骤4,步骤5操作,也会得到一个向量VQ:
VQ=(Vid1,Vid2,Vid3,…Vid200)T,
步骤7,将向量VQ和V1至VR作对比,从V1至V10000中找到与VQ相同id最多的那个向量表示的图片作为图像检索的结果返回。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于大规模词汇树的增量学习的图像检索方法,其特征在于,所述基于大规模词汇树的增量学习的图像检索方法利用已经生成好的包含百万图像的大规模训练图片的词汇树作为词典,从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来进行描述,完成新增图片的增量学习,使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量,对两者的叶节点信息矢量进行比对,找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那副图像,作为检索结果返回。
2.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法,其特征在于,所述词汇树的节点数M的计算公式如下,其中L=6,K=10:
3.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法,其特征在于,为构建好的词汇树的每一个节点加入词频向量权值ωi;
nid为视觉词汇在图像d中出现的次数,nd表示图像d的词汇总数,N表示数据库图像总数,Ni表示经过此节点的图像的描述子的个数,nid/nd表示词汇在图像d的出现频率-词频TF。
4.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法,其特征在于,对新增加到数据库的R张图片进行SIFT特征的提取,提取h个特征点,每一张图片特征点用X表示为:
X1=(X1,X2,X3...Xh)T;
X2=(X1,X2,X3...Xh)T;
...
XR=(X1,X2,X3...Xh)T;
对新增加到数据库中的图像和数据库中原有的图像按照图像的权值词频向量夹角的余弦值进行计算;数据库原有的一幅图像的权值词频向量为:
XP=(P1,P2,P3,...Ph)T;
两幅图像之间的相似度计算为:
M为词汇树节点的总数。
5.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法,其特征在于,使用向量V来表示新增加到库里的每一张图片:
V1=(Vid1,Vid2,Vid3,...Vidh)T
V2=(Vid1,Vid2,Vid3,...Vidh)T
V3=(Vid1,Vid2,Vid3,...Vidh)T
...
VR=(Xid1,Xid2,Xid3...Xidh)T。
6.一种应用权利要求1-5任意一项所述基于大规模词汇树的增量学习的图像检索方法的移动终端。
7.一种应用权利要求1-5任意一项所述基于大规模词汇树的增量学习的图像检索方法的搜索引擎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610783432.3A CN106339486A (zh) | 2016-08-30 | 2016-08-30 | 一种基于大规模词汇树的增量学习的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610783432.3A CN106339486A (zh) | 2016-08-30 | 2016-08-30 | 一种基于大规模词汇树的增量学习的图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106339486A true CN106339486A (zh) | 2017-01-18 |
Family
ID=57823658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610783432.3A Pending CN106339486A (zh) | 2016-08-30 | 2016-08-30 | 一种基于大规模词汇树的增量学习的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339486A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874445A (zh) * | 2017-02-10 | 2017-06-20 | 深圳前海大造科技有限公司 | 基于词汇树检索与相似度验证的云端图像识别方法 |
CN109241327A (zh) * | 2017-07-03 | 2019-01-18 | 北大方正集团有限公司 | 图像检索方法及装置 |
CN110263198A (zh) * | 2019-06-27 | 2019-09-20 | 安徽淘云科技有限公司 | 一种检索方法及装置 |
CN110458175A (zh) * | 2019-07-08 | 2019-11-15 | 中国地质大学(武汉) | 一种基于词汇树检索的无人机影像匹配对选择方法及系统 |
CN110704575A (zh) * | 2019-09-21 | 2020-01-17 | 天津大学 | 一种动态自适应二元层次词汇树图像检索方法 |
CN111368126A (zh) * | 2017-02-13 | 2020-07-03 | 哈尔滨理工大学 | 一种面向图像检索的生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945289A (zh) * | 2012-11-30 | 2013-02-27 | 苏州搜客信息技术有限公司 | 基于cgci-sift局部特征的图像检索方法 |
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
CN104063701A (zh) * | 2014-07-14 | 2014-09-24 | 电子科技大学 | 基于surf词汇树和模板匹配的快速电视台台标识别系统及其实现方法 |
-
2016
- 2016-08-30 CN CN201610783432.3A patent/CN106339486A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
CN102945289A (zh) * | 2012-11-30 | 2013-02-27 | 苏州搜客信息技术有限公司 | 基于cgci-sift局部特征的图像检索方法 |
CN104063701A (zh) * | 2014-07-14 | 2014-09-24 | 电子科技大学 | 基于surf词汇树和模板匹配的快速电视台台标识别系统及其实现方法 |
Non-Patent Citations (1)
Title |
---|
陈琪: "基于SIFT特征和距离度量学习的图像检索方法", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874445A (zh) * | 2017-02-10 | 2017-06-20 | 深圳前海大造科技有限公司 | 基于词汇树检索与相似度验证的云端图像识别方法 |
CN111368126A (zh) * | 2017-02-13 | 2020-07-03 | 哈尔滨理工大学 | 一种面向图像检索的生成方法 |
CN111368126B (zh) * | 2017-02-13 | 2022-06-07 | 哈尔滨理工大学 | 一种面向图像检索的生成方法 |
CN109241327A (zh) * | 2017-07-03 | 2019-01-18 | 北大方正集团有限公司 | 图像检索方法及装置 |
CN110263198A (zh) * | 2019-06-27 | 2019-09-20 | 安徽淘云科技有限公司 | 一种检索方法及装置 |
CN110458175A (zh) * | 2019-07-08 | 2019-11-15 | 中国地质大学(武汉) | 一种基于词汇树检索的无人机影像匹配对选择方法及系统 |
CN110704575A (zh) * | 2019-09-21 | 2020-01-17 | 天津大学 | 一种动态自适应二元层次词汇树图像检索方法 |
CN110704575B (zh) * | 2019-09-21 | 2021-12-07 | 天津大学 | 一种动态自适应二元层次词汇树图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339486A (zh) | 一种基于大规模词汇树的增量学习的图像检索方法 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
Hidasi et al. | Parallel recurrent neural network architectures for feature-rich session-based recommendations | |
CN103885937B (zh) | 基于核心词相似度判断企业中文名称重复的方法 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN102982153B (zh) | 一种信息检索方法及其装置 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Patil et al. | Automatic text categorization: Marathi documents | |
CN105787767A (zh) | 一种广告点击率预估模型获取方法与系统 | |
CN104751354B (zh) | 一种广告人群筛选方法 | |
CN110674407A (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN106951551B (zh) | 联合gist特征的多重索引图像检索方法 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
WO2008106668A1 (en) | User query mining for advertising matching | |
CN109033132B (zh) | 利用知识图谱计算文本和主体相关度的方法以及装置 | |
CN106599194A (zh) | 标签确定方法及装置 | |
CN102663447A (zh) | 基于判别相关分析的跨媒体检索方法 | |
CN106407381A (zh) | 一种基于人工智能的推送信息的方法和装置 | |
CN104317946A (zh) | 一种基于多张关键图的图像内容检索方法 | |
CN106529492A (zh) | 面向网络查询基于多图融合视频主题分类与描述方法 | |
CN117093739A (zh) | 图像生成以及图文对齐方法、装置、终端设备及存储介质 | |
CN106204103A (zh) | 一种移动广告平台寻找相似用户的方法 | |
Palash et al. | Bangla image caption generation through cnn-transformer based encoder-decoder network | |
CN104572915A (zh) | 一种基于内容环境增强的用户事件相关度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170118 |