CN110297931B - 一种图像检索方法 - Google Patents

一种图像检索方法 Download PDF

Info

Publication number
CN110297931B
CN110297931B CN201910445995.5A CN201910445995A CN110297931B CN 110297931 B CN110297931 B CN 110297931B CN 201910445995 A CN201910445995 A CN 201910445995A CN 110297931 B CN110297931 B CN 110297931B
Authority
CN
China
Prior art keywords
image
region
salient
semantic
salient region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910445995.5A
Other languages
English (en)
Other versions
CN110297931A (zh
Inventor
范建平
元莉伟
王娟
王小鹏
侯勇
赵万青
管子玉
彭进业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Publication of CN110297931A publication Critical patent/CN110297931A/zh
Application granted granted Critical
Publication of CN110297931B publication Critical patent/CN110297931B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种图像检索方法,包括以下步骤:步骤1,输入N个图像,取N个图像中任一图像作为图像n,提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对应的哈希码,N个图像的所有哈希码构成图像检索数据库;步骤3,用户输入待检索图像,待检索图像包括一个特定显著性区域,将该特定显著性区域输入图像检索数据库中进行检索。本发明避免了与检索目标无关的噪声信息的干扰,从而更准确地刻画检索目标的图像特征,得到使用户更为满意的检索结果。

Description

一种图像检索方法
技术领域
本发明属于图像检索技术领域,具体涉及一种图像检索方法。
背景技术
近年来,许多基于有监督的深度学习方法已被提出,并广泛用于图像检索领域,这些与深度学习相结合的图像检索方法可以较为准确地捕捉图像隐藏的语义信息,从而提升检索精度。但是他们面临着以下两个问题:(1)训练出泛化能力强且检索精度高的深度网络模型需要人工标注大量的数据,耗时耗力。(2)人工标注的数据通常会受到研究领域问题的限制,只包含粗粒度的概念,不能很好地描述图像细粒度的语义信息。
随着互联网和社交媒体的快速发展,越来越多的互联网用户在网上分享他们的图像并对其进行标注,形成了大量附加网络标签的图像数据,这些社会化的网络标签属于“大众分类”,是一种无结构的分类数据。“大众分类”允许用户自由地输入关键词来标注图像,是大众用户群体智慧的结晶,与由少数专家制定的、有着严谨结构的传统分类法相比,“大众分类”的标签数据有以下优点:(1)这些网络标签可以在一定程度上反映图像的语义信息,我们可以获得丰富的数据用于深度模型训练,无需人工标注,省时省力。(2)网络标签数据描述了图像更丰富、更细粒度的语义信息。
图2显示的是Flickr数据集中一些由网络用户提供的标签(网络标签)和人工标注的标签(人工标签)。如:“person”、“vehicle”、“elk”和“sign”是人工标注的标签,描述的是图像粗粒度的语义信息;而用户提供的网络标签,如“demonstration”、“military”、“wildlife”和“graffiti”,描述的是图像细粒度的语义信息,可用于更好地训练深度网络。
然而,由于网络标签的标注过程不受约束,因此容易受到噪声、模糊性和不完整性的影响。如图2网络标签中“iraq”、“published”、“rockies”和“britain”等与对应图像并无视觉联系,不能直接用于监督网络模型训练,需要先过滤噪声标签。
针对图像噪声标签的过滤问题,常用的标签过滤方法是把标签过滤问题转换为按照标签和图像视觉内容的相关度对标签进行排序的问题,其核心思想是:在视觉内容上相近的图像其带有的标签在语义上也相似。如“X.Li,C.G.Snoek and M.Worring.Learningsocial tag relevance by neighbor voting.IEEE Transactions on Multimedia,11(7):1310-1322,2009”提出了一种容易理解的方法,首先找到m个在视觉内容上与给定图片I相似的图片,接着遍历计算图像I的每个标签在m个图像的标签里出现的次数,最后依据每个标签出现次数的多少对其进行排序。“Corbiere C,Ben-Younes H,Ramé A,etal.Leveraging weakly annotated data for fashion image retrieval and labelprediction[C]//Computer Vision Workshop(ICCVW),2017IEEE InternationalConference on.IEEE,2017:2268-2274.”从词汇表中抽出一个单词,然后随机选择一个词袋中包含这个单词的图像,根据图像来预测这个单词,从而过滤噪声标签。
虽然上述相关工作也使用视觉特征作为参考过滤网络标签,但大多数方法是将整个图像视图作为参考。然而,由于某一标签往往对应图像的某一区域,而不是整个图像,单纯地将多个标签对应整个图像很难准确提取图像的语义信息,进而无法准确过滤噪声标签。针对上述问题,我们提出了一种基于图像显著性区域的标签提取方法,首先提取图像的显著性区域,然后提取每个显著性区域的对应标签,从而有效地过滤与检索目标无关的噪声标签,准确提取图像的语义信息。
此外,传统的图像检索方式是基于整张图像提取的哈希码进行检索,一张图像只对应一个哈希编码,考虑了与检索目标无关的图像信息,导致提取的哈希编码失去了对检索目标的强表征能力,使得检索结果不能满足用户的预期效果。
发明内容
针对现有技术中存在的不足,本发明的目的在于,提供一种图像检索方法,解决现有技术无法避免与检索目标无关的噪声信息的干扰问题。
为了解决上述技术问题,本申请采用如下技术方案予以实现:
一种图像检索方法,包括以下步骤:
步骤1,输入N个图像,取N个图像中任一图像作为图像n,n=1,2...,N,提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;
步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对应的哈希码,即可得到N个图像中每个图像的多个哈希码,所述N个图像的所有哈希码构成图像检索数据库,包括:
步骤2.1,构建预训练网络模型的输入三元组;所述输入三元组包括:显著性区域i、显著性区域j和显著性区域k,所述显著性区域i的语义标签与显著性区域j的语义标签相同,显著性区域k的语义标签与显著性区域i的语义标签不相同,其中i,j,k=1,2,...,I,且i≠j≠k;
步骤2.2,将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练,得到预训练网络模型的输出向量;再将预训练网络模型的输出向量进行哈希化,得到哈希码,所述哈希码构成图像检索数据库;
步骤3,用户输入待检索图像,所述待检索图像包括一个特定显著性区域,将该特定显著性区域输入图像检索数据库中进行检索。
进一步地,所述步骤1中提取图像n中的I个显著性区域,提取每个显著性区域的语义标签,包括:
步骤1.1,过滤图像n中的噪声图像标签;
步骤1.2,提取图像n的I个显著性区域,对每个显著性区域进行聚类,得到多个相似显著性区域子集;
步骤1.3,所述图像n包括T个用户标记的图像标签,将每个用户标记的图像标签转换为语义特征向量,对T个语义特征向量进行聚类,得到K个聚类中心,计算每个语义特征向量到每个聚类中心的距离,若语义特征向量t距离第a个聚类中心的距离最小,则把语义特征向量t映射成第a个位置是1,其余位置为0的K维one_hot标签向量,即可将每个语义特征向量映射成一个K维one_hot标签向量,最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量,其中t=1,2,...,T;a=1,2,...,K;
步骤1.4,通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,即得到每个显著性区域的语义标签。
进一步地,所述步骤1.2中对每个显著性区域进行聚类,得到多个相似显著性区域子集,包括:
步骤1.2.1,提取每个显著性区域的特征向量;
步骤1.2.2,通过每个显著性区域的特征向量,对I个显著性区域进行聚类,包括:
步骤1.2.2.1,从I个显著性区域中任选一个显著性区域作为当前显著性区域,分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向量的欧式距离;
步骤1.2.2.2,重复步骤1.2.2.1,得到欧式距离矩阵;
步骤1.2.2.3,将欧式距离矩阵转换为相似度矩阵,并对相似度矩阵进行聚类运算,得到多个相似显著性区域子集。
进一步地,所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,包括:
步骤1.4.1,设图像n包括M个相似显著性区域子集,其中Lm为第m个相似显著性区域子集所包括的S个K维one_hot标签向量集合,
Figure GDA0002161227770000051
Figure GDA0002161227770000052
为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量,通过公式二得到第m个相似显著性区域子集的向量索引index,将index所表示的one_hot标签向量作为这些显著性区域的标签,即得到第m个相似显著性区域子集的语义标签;
Figure GDA0002161227770000053
其中,M为相似显著性区域子集的数量,
Figure GDA0002161227770000054
为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量。
本发明与现有技术相比,有益的技术效果是:
1、本发明通过提取图像显著区域的对应标签,极大地削弱了噪声、语义模糊、与检索目标无关标签对图像相似性判断的影响;
2、本发明基于图像显著区域提取的哈希码进行检索,一张图像的每个显著区域生成各自的哈希编码,避免了与检索目标无关的噪声信息的干扰,从而更准确地刻画检索目标的图像特征,得到使用户更为满意的检索结果。
附图说明
图1为本发明方法的流程图;
图2为网络标签与人工标签示意图;
图3为网络标签过滤前后的效果;
图4为标签向量累加结果直方图;
图5为显著性区域的三元组;
图6为检索流程图。
图7为NTESR和RSE的实验对比图。
图8为基于弱监督的主流图像检索方法与NTESR方法采用不同长度哈希码的precision结果。
图9为基于有监督的主流图像检索方法与NTESR方法采用不同长度哈希码的precision结果。
以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例1:
本实施例给出一种图像检索方法,如图1所示,包括以下步骤:
步骤1,输入N个图像,取N个图像中任一图像作为图像n,n=1,2...,N,提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;
所述步骤1中提取图像n中的I个显著性区域,提取每个显著性区域的语义标签,包括:
步骤1.1,过滤图像n中的噪声图像标签;本发明利用内聚性和分散性原理来过滤与图像n视觉内容无关的噪声标签,如图3所示。本实施例可采用“Sun A,Bhowmick SS.Quantifying tag representativeness of visual content of social images[C]//Proceedings of the 18th ACM international conference on Multimedia.ACM,2010:471-480.”文献中方法来过滤噪声标签。
步骤1.2,提取图像n的I个显著性区域,对每个显著性区域进行聚类,得到多个相似显著性区域子集;
本实施例采用BING技术来提取图像的显著性区域。
所述步骤1.2中对每个显著性区域进行聚类,得到多个相似显著性区域子集,包括:
步骤1.2.1,提取每个显著性区域的特征向量;本实施例采用GIST算法来提取每个显著性区域的特征向量,在本实施例中一个显著性区域可提取出一个512维的特征向量;
步骤1.2.2,通过每个显著性区域的特征向量,对I个显著性区域进行聚类,包括:
步骤1.2.2.1,从I个显著性区域中任选一个显著性区域作为当前显著性区域,分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向量的欧式距离;
步骤1.2.2.2,重复步骤1.2.2.1,得到欧式距离矩阵;
步骤1.2.2.3,将欧式距离矩阵转换为相似度矩阵,并对相似度矩阵进行聚类运算,得到多个相似显著性区域子集。
这样,每个聚类子集所包含的显著性区域在视觉内容上具有相似性,从而得到相似显著性区域子集;具体地,本实施例采用近邻传播聚类算法(AP聚类)对相似度矩阵进行聚类运算。
步骤1.3,所述图像n包括T个用户标记的图像标签,将每个用户标记的图像标签转换为语义特征向量,对T个语义特征向量进行聚类,得到K个聚类中心,计算每个语义特征向量到每个聚类中心的距离,若语义特征向量t距离第a个聚类中心的距离最小,则把语义特征向量t映射成第a个位置是1,其余位置为0的K维one_hot标签向量,即可将每个语义特征向量映射成一个K维one_hot标签向量,最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量,其中t=1,2,...,T;a=1,2,...,K;
本实施例利用Word2vec工具将用户标记的图像标签转换为语义特征向量,每个图像标签可转换为一个语义特征向量;然后,利用K-means算法对多个语义特征向量进行聚类,得到K个聚类中心,即可得到K个语义特征向量集合。
本实施例中将K个语义特征向量集合映射成K维one_hot标签向量,具体包括:
步骤1.3.1,从K个语义特征向量中任选一个语义特征向量作为当前语义特征向量,分别计算当前语义特征向量与K个聚类中心的距离,若该当前语义特征向量与第m个聚类中心的距离最近,则把该当前语义特征向量映射为第m个位置为1,其余位置为0的K维one_hot向量,其中m=1,2…,K;
步骤1.3.2,重复步骤1.3.1,直至K个语义特征向量均映射成K维one_hot标签向量。
步骤1.4,通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,即得到每个显著性区域的语义标签。由于一个相似显著性区域子集中的每个显著性区域属于一个类,具有相同的语义标签,故得到每个相似显著性区域子集的语义标签,即可得到每个显著性区域的语义标签。
所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,包括:
步骤1.4.1,设图像n包括M个相似显著性区域子集,其中Lm为第m个相似显著性区域子集所包括的S个K维one_hot标签向量集合,
Figure GDA0002161227770000091
Figure GDA0002161227770000092
为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量,通过公式二得到第m个相似显著性区域子集的向量索引index,将index所表示的one_hot标签向量作为这些显著性区域的标签,即得到第m个相似显著性区域子集的语义标签;
如图4所示。
Figure GDA0002161227770000093
其中,M为相似显著性区域子集的数量,
Figure GDA0002161227770000101
为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量。
步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对应的哈希码,即可得到N个图像中每个图像的多个哈希码,所述N个图像的所有哈希码构成图像检索数据库;
所构建的预训练网络模型包括5个串联的卷积块、第一全连接层fc6、第二全连接层fc7、第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3,所述5个串联的卷积块的输出与第一全连接层fc6相连接,第一全连接层fc6的输出与第二全连接层fc7相连接,第二全连接层fc7与第一全连接层网络Dense_1相连接,第一全连接层网络Dense_1与第二全连接层网络Dense_2相连接,第二全连接层网络Dense_2与第三全连接层网络Dense_3相连接;其中,第一全连接层网络Dense_1包括1024个神经元,第二全连接层网络Dense_2包括512个神经元,第三全连接层网络Dense_3包括64个神经元;该预训练网络模型将去掉最后一个全连接层的VGG16典型网络作为顶层网络,并在底部拼接3个全连接层网络,分别为第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3。为防止网络过拟合,本发明将自定义的第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3的每层参数都加了L2正则化约束,同时在第一全连接层网络Dense_1和第二全连接层网络Dense_2之间以及第二全连接层网络Dense_2和第三全连接层网络Dense_3之间加了dropout(失活概率参数为0.5),并对第三全连接层网络Dense_3的输出加了L1正则化约束,使得输出特征稀疏化以利于之后对其进行哈希化。
包括:
步骤2.1,构建预训练网络模型的输入三元组,如图5;所述输入三元组包括:显著性区域i、显著性区域j和显著性区域k,所述显著性区域i的语义标签与显著性区域j的语义标签相同,显著性区域k的语义标签与显著性区域i的语义标签不相同,其中i,j,k=1,2,...,I,且i≠j≠k;如图7为提取的输入三元组,即图像中的三个显著性区域。
步骤2.2,将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练,得到预训练网络模型的输出向量;再将预训练网络模型的输出向量进行哈希化,得到哈希码,所述哈希码构成图像检索数据库;
所述将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练,包括:
步骤2.2.1冻结预训练网络模型中5个串联的卷积块、第一全连接层fc6和第二全连接层fc7的初始参数,通过公式一更新第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3的参数,最终得到预训练网络模型的输出向量;
Lweak=∑max(0,λ-(dist(i,k)-dist(i,j))) 公式一
其中,i、j、k分别表示显著性区域i、显著性区域j和显著性区域k的语义标签;λ为预设距离,λ>0,本实施中λ取6;dist()表示欧氏距离;Lweak表示汉明距离;
步骤2.2.2,将预训练网络模型的输出向量进行哈希化,使得输出向量中为0或1值,得到哈希码,所述哈希码构成图像检索数据库;
步骤3,用户输入待检索图像,所述待检索图像包括一个特定显著性区域,将该特定显著性区域输入图像检索数据库中进行检索。
本实施例中对于用户输入的待检索图像,首先提取该待检索图像的显著性区域,将所提取的显著性区域输入深度网络来学习其特征,获取输出的64维特征向量并对其进行哈希化,从而得到查询图像的显著性区域对应的哈希编码,然后分别计算此哈希编码与图像检索数据库中显著性区域的哈希编码间的汉明距离,将汉明距离最小的前a个哈希码所对应的图像作为最终返回的检索结果,如图7所示。
实验验证:
1、为了验证本发明(NTESR)的有效性,在实验中将步骤1.2到步骤1.4中提取显著性区域对应标签的模块去除,用整张图像及其所有的用户标记标签作为深度网络的输入来训练神经网络,没有提取图像每个显著性区域所对应的标签,而是单纯的将多个标签对应整个图像,在此将该方法称为RSE,如图7为本发明(NTESR)与RSE在基于弱监督与有监督的两种不同检索方式的实验结果对比图。
从实验结果可以看出,无论是基于若监督的图像检索方式还是基于有监督的图像检索方式,本发明(NTESR)的方法都明显优于RSE,本发明可以改善precision@500的实验结果,这是由于某一标签往往对应图像的某一区域,而不是整个图像,单纯地将多个标签对应整个图像很难准确提取图像的语义信息,因此当把整张图像及其所有标签作为深度网络的输入时,深度网络提取的特征中包含了与检索目标无关的背景信息,降低了深度网络所提取的图像深层特征对检索目标的表征能力,从而导致检索精度较低,证明了本发明提取显著区域对应标签模块的有效性。
2、为了验证本文检索方法的性能,我们使用相同的评测方法,同当前主流的图像检索方法进行了对比,包括基于弱监督的主流图像检索方法:SH,USPLH,SpH,ITQ,SaH;以及基于有监督的主流图像检索方法:KSH、MLH、BRE、MLH-CNN、BRE-CNN。如图8为基于弱监督的主流图像检索方与本发明(NTESR)方法采用不同长度哈希码的precision结果,图9为基于有监督的主流图像检索方法与本发明(NTESR)方法采用不同长度哈希码的precision结果。从图8和图9可以看出NTESR方法明显优于目前主流的图像检索方法,这是因为网络标签可以从细粒度层面更加充分地来描述图像的语义信息,而且本发明通过提取显著区域及其对应标签为深度网络提供更高质量的训练数据,从而使深度网络准确提取图像特征。此外本发明的检索过程是基于显著区域而不是整张图像,避免了与检索目标无关的噪声信息的干扰。

Claims (3)

1.一种图像检索方法,其特征在于,包括以下步骤:
步骤1,输入N个图像,取N个图像中任一图像作为图像n,n=1,2...,N,提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;
步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对应的哈希码,即可得到N个图像中每个图像的多个哈希码,所述N个图像的所有哈希码构成图像检索数据库,包括:
步骤2.1,构建预训练网络模型的输入三元组;所述输入三元组包括:显著性区域i、显著性区域j和显著性区域k,所述显著性区域i的语义标签与显著性区域j的语义标签相同,显著性区域k的语义标签与显著性区域i的语义标签不相同,其中i,j,k=1,2,...,I,且i≠j≠k;
步骤2.2,将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练,得到预训练网络模型的输出向量;再将预训练网络模型的输出向量进行哈希化,得到哈希码,所述哈希码构成图像检索数据库;
步骤3,用户输入待检索图像,所述待检索图像包括一个特定显著性区域,将该特定显著性区域输入图像检索数据库中进行检索;
所述步骤1中提取图像n中的I个显著性区域,提取每个显著性区域的语义标签,包括:
步骤1.1,过滤图像n中的噪声图像标签;
步骤1.2,提取图像n的I个显著性区域,对每个显著性区域进行聚类,得到多个相似显著性区域子集;
步骤1.3,所述图像n包括T个用户标记的图像标签,将每个用户标记的图像标签转换为语义特征向量,对T个语义特征向量进行聚类,得到K个聚类中心,计算每个语义特征向量到每个聚类中心的距离,若语义特征向量t距离第a个聚类中心的距离最小,则把语义特征向量t映射成第a个位置是1,其余位置为0的K维one_hot标签向量,即可将每个语义特征向量映射成一个K维one_hot标签向量,最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量,其中t=1,2,...,T;a=1,2,...,K;
步骤1.4,通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,即得到每个显著性区域的语义标签。
2.如权利要求1所述的图像检索方法,其特征在于,所述步骤1.2中对每个显著性区域进行聚类,得到多个相似显著性区域子集,包括:
步骤1.2.1,提取每个显著性区域的特征向量;
步骤1.2.2,通过每个显著性区域的特征向量,对I个显著性区域进行聚类,包括:
步骤1.2.2.1,从I个显著性区域中任选一个显著性区域作为当前显著性区域,分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向量的欧式距离;
步骤1.2.2.2,重复步骤1.2.2.1,得到欧式距离矩阵;
步骤1.2.2.3,将欧式距离矩阵转换为相似度矩阵,并对相似度矩阵进行聚类运算,得到多个相似显著性区域子集。
3.如权利要求1所述的图像检索方法,其特征在于,所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,包括:
步骤1.4.1,设图像n包括M个相似显著性区域子集,其中Lm为第m个相似显著性区域子集所包括的S个K维one_hot标签向量集合,
Figure FDA0003036982860000031
Figure FDA0003036982860000032
为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量,通过公式二得到第m个相似显著性区域子集的向量索引index,将index所表示的one_hot标签向量作为这些显著性区域的标签,即得到第m个相似显著性区域子集的语义标签;
Figure FDA0003036982860000033
其中,M为相似显著性区域子集的数量,
Figure FDA0003036982860000034
为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量。
CN201910445995.5A 2019-04-23 2019-05-27 一种图像检索方法 Expired - Fee Related CN110297931B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910328230 2019-04-23
CN2019103282303 2019-04-23

Publications (2)

Publication Number Publication Date
CN110297931A CN110297931A (zh) 2019-10-01
CN110297931B true CN110297931B (zh) 2021-12-03

Family

ID=68027223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910445995.5A Expired - Fee Related CN110297931B (zh) 2019-04-23 2019-05-27 一种图像检索方法

Country Status (1)

Country Link
CN (1) CN110297931B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765292A (zh) * 2019-10-24 2020-02-07 重庆紫光华山智安科技有限公司 图像检索方法、训练方法及相关装置
CN112000827A (zh) * 2020-08-27 2020-11-27 广州搜料亿网络科技有限公司 一种基于深度学习的五金图像检索方法及系统
US11507616B2 (en) 2020-09-03 2022-11-22 General Electric Company Inspection systems and methods including image retrieval module
US11727052B2 (en) 2020-09-03 2023-08-15 General Electric Company Inspection systems and methods including image retrieval module
CN112115292A (zh) * 2020-09-25 2020-12-22 海尔优家智能科技(北京)有限公司 图片搜索方法及装置、存储介质、电子装置
CN113032612B (zh) * 2021-03-12 2023-04-11 西北大学 一种多目标图像检索模型的构建方法及检索方法和装置
CN112905828B (zh) * 2021-03-18 2023-06-16 西北大学 一种结合显著特征的图像检索器、数据库及检索方法
CN113282781B (zh) * 2021-05-18 2022-06-28 稿定(厦门)科技有限公司 图像检索方法及装置
CN113515661B (zh) * 2021-07-16 2022-03-11 广西师范大学 一种基于过滤深度卷积特征的图像检索方法
CN115168637B (zh) * 2022-06-17 2023-03-17 杭州晶彩数字科技有限公司 一种图片添加标签方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021207A (zh) * 2014-06-18 2014-09-03 厦门美图之家科技有限公司 一种基于图像的食物信息提供方法
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN106682092A (zh) * 2016-11-29 2017-05-17 深圳市华尊科技股份有限公司 一种目标检索方法及终端
CN106980641A (zh) * 2017-02-09 2017-07-25 上海交通大学 基于卷积神经网络的无监督哈希快速图片检索系统及方法
CN107239565A (zh) * 2017-06-14 2017-10-10 电子科技大学 一种基于显著性区域的图像检索方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN109271546A (zh) * 2018-07-25 2019-01-25 西北大学 图像检索特征提取模型建立、数据库建立及检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10120879B2 (en) * 2013-11-29 2018-11-06 Canon Kabushiki Kaisha Scalable attribute-driven image retrieval and re-ranking

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021207A (zh) * 2014-06-18 2014-09-03 厦门美图之家科技有限公司 一种基于图像的食物信息提供方法
CN106682092A (zh) * 2016-11-29 2017-05-17 深圳市华尊科技股份有限公司 一种目标检索方法及终端
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN106980641A (zh) * 2017-02-09 2017-07-25 上海交通大学 基于卷积神经网络的无监督哈希快速图片检索系统及方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法
CN107239565A (zh) * 2017-06-14 2017-10-10 电子科技大学 一种基于显著性区域的图像检索方法
CN109271546A (zh) * 2018-07-25 2019-01-25 西北大学 图像检索特征提取模型建立、数据库建立及检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Image Location Estimation by Salient Region Matching;Qian Xueming 等;《IEEE transactions on image processing : a publication of the IEEE Signal Processing Society》;20151130;第24卷(第11期);4348-4358 *
基于图像显著区域特征和深度学习的图像检索研究;涂丛欢;《中国优秀硕士学位论文全文数据库信息科技辑》;20190315(第03期);I138-897 *
基于场景语义的图像检索新方法;彭进业 等;《系统工程与电子技术》;20100515;第32卷(第5期);1060-1064 *
基于并行卷积神经网络的人脸关键点定位方法研究;杨海燕 等;《计算机应用研究》;20150420;第32卷(第8期);2517-2519 *
基于深度学习与特征融合的图像检索方法;聂一亮;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第12期);I138-1601 *

Also Published As

Publication number Publication date
CN110297931A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110297931B (zh) 一种图像检索方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
US20170011279A1 (en) Latent embeddings for word images and their semantics
CN106126581A (zh) 基于深度学习的手绘草图图像检索方法
CN111460201B (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
Bai et al. Data-dependent hashing based on p-stable distribution
US11803971B2 (en) Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes
Mohan et al. Environment selection and hierarchical place recognition
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
Maddumala A Weight Based Feature Extraction Model on Multifaceted Multimedia Bigdata Using Convolutional Neural Network.
de Ves et al. Modeling user preferences in content-based image retrieval: A novel attempt to bridge the semantic gap
Tian et al. Deep incremental hashing for semantic image retrieval with concept drift
Prasomphan Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image.
CN116935329B (zh) 一种类级别对比学习的弱监督文本行人检索方法及系统
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Lu et al. Image categorization via robust pLSA
CN116363460A (zh) 基于主题模型的高分辨率遥感样本标注方法
Shi et al. W-tree indexing for fast visual word generation
CN110135253A (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
Liao et al. Bow image retrieval method based on SSD target detection
Liu et al. Exploiting web images for fine-grained visual recognition by eliminating noisy samples and utilizing hard ones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211203

CF01 Termination of patent right due to non-payment of annual fee