CN110297931A - 一种图像检索方法 - Google Patents
一种图像检索方法 Download PDFInfo
- Publication number
- CN110297931A CN110297931A CN201910445995.5A CN201910445995A CN110297931A CN 110297931 A CN110297931 A CN 110297931A CN 201910445995 A CN201910445995 A CN 201910445995A CN 110297931 A CN110297931 A CN 110297931A
- Authority
- CN
- China
- Prior art keywords
- image
- salient region
- label
- semantic
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种图像检索方法,包括以下步骤:步骤1,输入N个图像,取N个图像中任一图像作为图像n,提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对应的哈希码,N个图像的所有哈希码构成图像检索数据库;步骤3,用户输入待检索图像,待检索图像包括一个特定显著性区域,将该特定显著性区域输入图像检索数据库中进行检索。本发明避免了与检索目标无关的噪声信息的干扰,从而更准确地刻画检索目标的图像特征,得到使用户更为满意的检索结果。
Description
技术领域
本发明属于图像检索技术领域,具体涉及一种图像检索方法。
背景技术
近年来,许多基于有监督的深度学习方法已被提出,并广泛用于图像检 索领域,这些与深度学习相结合的图像检索方法可以较为准确地捕捉图像隐 藏的语义信息,从而提升检索精度。但是他们面临着以下两个问题:(1)训 练出泛化能力强且检索精度高的深度网络模型需要人工标注大量的数据,耗 时耗力。(2)人工标注的数据通常会受到研究领域问题的限制,只包含粗粒 度的概念,不能很好地描述图像细粒度的语义信息。
随着互联网和社交媒体的快速发展,越来越多的互联网用户在网上分享 他们的图像并对其进行标注,形成了大量附加网络标签的图像数据,这些社 会化的网络标签属于“大众分类”,是一种无结构的分类数据。“大众分类” 允许用户自由地输入关键词来标注图像,是大众用户群体智慧的结晶,与由 少数专家制定的、有着严谨结构的传统分类法相比,“大众分类”的标签数据 有以下优点:(1)这些网络标签可以在一定程度上反映图像的语义信息,我 们可以获得丰富的数据用于深度模型训练,无需人工标注,省时省力。(2) 网络标签数据描述了图像更丰富、更细粒度的语义信息。
图2显示的是Flickr数据集中一些由网络用户提供的标签(网络标签) 和人工标注的标签(人工标签)。如:“person”、“vehicle”、“elk”和“sign”是人 工标注的标签,描述的是图像粗粒度的语义信息;而用户提供的网络标签, 如“demonstration”、“military”、“wildlife”和“graffiti”,描述的是图像细粒度的 语义信息,可用于更好地训练深度网络。
然而,由于网络标签的标注过程不受约束,因此容易受到噪声、模糊性 和不完整性的影响。如图2网络标签中“iraq”、“published”、“rockies”和“britain” 等与对应图像并无视觉联系,不能直接用于监督网络模型训练,需要先过滤 噪声标签。
针对图像噪声标签的过滤问题,常用的标签过滤方法是把标签过滤问题 转换为按照标签和图像视觉内容的相关度对标签进行排序的问题,其核心思 想是:在视觉内容上相近的图像其带有的标签在语义上也相似。如“X. Li,C.G.Snoek andM.Worring.Learning social tag relevance by neighbor voting. IEEE Transactionson Multimedia,11(7):1310-1322,2009”提出了一种容易理解 的方法,首先找到m个在视觉内容上与给定图片I相似的图片,接着遍历计 算图像I的每个标签在m个图像的标签里出现的次数,最后依据每个标签出 现次数的多少对其进行排序。“Corbiere C,Ben-YounesH,RaméA,et al. Leveraging weakly annotated data for fashion image retrievaland label prediction[C]//Computer Vision Workshop(ICCVW),2017IEEEInternational Conference on.IEEE,2017:2268-2274.”从词汇表中抽出一个单词,然后随机选 择一个词袋中包含这个单词的图像,根据图像来预测这个单词,从而过滤噪 声标签。
虽然上述相关工作也使用视觉特征作为参考过滤网络标签,但大多数方 法是将整个图像视图作为参考。然而,由于某一标签往往对应图像的某一区 域,而不是整个图像,单纯地将多个标签对应整个图像很难准确提取图像的 语义信息,进而无法准确过滤噪声标签。针对上述问题,我们提出了一种基 于图像显著性区域的标签提取方法,首先提取图像的显著性区域,然后提取 每个显著性区域的对应标签,从而有效地过滤与检索目标无关的噪声标签, 准确提取图像的语义信息。
此外,传统的图像检索方式是基于整张图像提取的哈希码进行检索,一 张图像只对应一个哈希编码,考虑了与检索目标无关的图像信息,导致提取 的哈希编码失去了对检索目标的强表征能力,使得检索结果不能满足用户的 预期效果。
发明内容
针对现有技术中存在的不足,本发明的目的在于,提供一种图像检索方 法,解决现有技术无法避免与检索目标无关的噪声信息的干扰问题。
为了解决上述技术问题,本申请采用如下技术方案予以实现:
一种图像检索方法,包括以下步骤:
步骤1,输入N个图像,取N个图像中任一图像作为图像n,n=1,2...,N, 提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;
步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网 络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对 应的哈希码,即可得到N个图像中每个图像的多个哈希码,所述N个图像 的所有哈希码构成图像检索数据库,包括:
步骤2.1,构建预训练网络模型的输入三元组;所述输入三元组包括:显 著性区域i、显著性区域j和显著性区域k,所述显著性区域i的语义标签与 显著性区域j的语义标签相同,显著性区域k的语义标签与显著性区域i的语 义标签不相同,其中i,j,k=1,2,...,I,且i≠j≠k;
步骤2.2,将所构建的输入三元组输入所构建预训练网络模型中对预训练 网络模型进行训练,得到预训练网络模型的输出向量;再将预训练网络模型 的输出向量进行哈希化,得到哈希码,所述哈希码构成图像检索数据库;
步骤3,用户输入待检索图像,所述待检索图像包括一个特定显著性区域, 将该特定显著性区域输入图像检索数据库中进行检索。
进一步地,所述步骤1中提取图像n中的I个显著性区域,提取每个显著 性区域的语义标签,包括:
步骤1.1,过滤图像n中的噪声图像标签;
步骤1.2,提取图像n的I个显著性区域,对每个显著性区域进行聚类, 得到多个相似显著性区域子集;
步骤1.3,所述图像n包括T个用户标记的图像标签,将每个用户标记的 图像标签转换为语义特征向量,对T个语义特征向量进行聚类,得到K个聚 类中心,计算每个语义特征向量到每个聚类中心的距离,若语义特征向量t 距离第a个聚类中心的距离最小,则把语义特征向量t映射成第a个位置是 1,其余位置为0的K维one_hot标签向量,即可将每个语义特征向量映射 成一个K维one_hot标签向量,最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量,其中t=1,2,...,T;a=1,2,...,K;
步骤1.4,通过每个相似显著性区域子集所包括的多个K维one_hot标签 向量,得到每个相似显著性区域子集的语义标签,即得到每个显著性区域的 语义标签。
进一步地,所述步骤1.2中对每个显著性区域进行聚类,得到多个相似显 著性区域子集,包括:
步骤1.2.1,提取每个显著性区域的特征向量;
步骤1.2.2,通过每个显著性区域的特征向量,对I个显著性区域进行聚 类,包括:
步骤1.2.2.1,从I个显著性区域中任选一个显著性区域作为当前显著性区 域,分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向 量的欧式距离;
步骤1.2.2.2,重复步骤1.2.2.1,得到欧式距离矩阵;
步骤1.2.2.3,将欧式距离矩阵转换为相似度矩阵,并对相似度矩阵进行 聚类运算,得到多个相似显著性区域子集。
进一步地,所述步骤1.4中通过每个相似显著性区域子集所包括的多个K 维one_hot标签向量,得到每个相似显著性区域子集的语义标签,包括:
步骤1.4.1,设图像n包括M个相似显著性区域子集,其中Lm为第m个相 似显著性区域子集所包括的S个K维one_hot标签向量集合, 为第m个相似显著性区域子集所包括的第s个K维 one_hot标签向量,通过公式二得到第m个相似显著性区域子集的向量索引 index,将index所表示的one_hot标签向量作为这些显著性区域的标签,即得 到第m个相似显著性区域子集的语义标签;
其中,M为相似显著性区域子集的数量,为第m个相似显著性区域子 集所包括的第s个K维one_hot标签向量。
本发明与现有技术相比,有益的技术效果是:
1、本发明通过提取图像显著区域的对应标签,极大地削弱了噪声、语义 模糊、与检索目标无关标签对图像相似性判断的影响;
2、本发明基于图像显著区域提取的哈希码进行检索,一张图像的每个显 著区域生成各自的哈希编码,避免了与检索目标无关的噪声信息的干扰,从 而更准确地刻画检索目标的图像特征,得到使用户更为满意的检索结果。
附图说明
图1为本发明方法的流程图;
图2为网络标签与人工标签示意图;
图3为网络标签过滤前后的效果;
图4为标签向量累加结果直方图;
图5为显著性区域的三元组;
图6为检索流程图。
图7为NTESR和RSE的实验对比图。
图8为基于弱监督的主流图像检索方法与NTESR方法采用不同长度哈希
码的precision结果。
图9为基于有监督的主流图像检索方法与NTESR方法采用不同长度哈希
码的precision结果。
以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具 体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范 围。
实施例1:
本实施例给出一种图像检索方法,如图1所示,包括以下步骤:
步骤1,输入N个图像,取N个图像中任一图像作为图像n,n=1,2...,N, 提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;
所述步骤1中提取图像n中的I个显著性区域,提取每个显著性区域的语 义标签,包括:
步骤1.1,过滤图像n中的噪声图像标签;本发明利用内聚性和分散性原 理来过滤与图像n视觉内容无关的噪声标签,如图3所示。本实施例可采用 “Sun A,Bhowmick SS.Quantifying tag representativeness of visual content of social images[C]//Proceedings of the 18th ACM international conference on Multimedia.ACM,2010:471-480.”文献中方法来过滤噪声标签。
步骤1.2,提取图像n的I个显著性区域,对每个显著性区域进行聚类, 得到多个相似显著性区域子集;
本实施例采用BING技术来提取图像的显著性区域。
所述步骤1.2中对每个显著性区域进行聚类,得到多个相似显著性区域子 集,包括:
步骤1.2.1,提取每个显著性区域的特征向量;本实施例采用GIST算法 来提取每个显著性区域的特征向量,在本实施例中一个显著性区域可提取出 一个512维的特征向量;
步骤1.2.2,通过每个显著性区域的特征向量,对I个显著性区域进行聚 类,包括:
步骤1.2.2.1,从I个显著性区域中任选一个显著性区域作为当前显著性区 域,分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向 量的欧式距离;
步骤1.2.2.2,重复步骤1.2.2.1,得到欧式距离矩阵;
步骤1.2.2.3,将欧式距离矩阵转换为相似度矩阵,并对相似度矩阵进行 聚类运算,得到多个相似显著性区域子集。
这样,每个聚类子集所包含的显著性区域在视觉内容上具有相似性,从 而得到相似显著性区域子集;具体地,本实施例采用近邻传播聚类算法(AP 聚类)对相似度矩阵进行聚类运算。
步骤1.3,所述图像n包括T个用户标记的图像标签,将每个用户标记的 图像标签转换为语义特征向量,对T个语义特征向量进行聚类,得到K个聚 类中心,计算每个语义特征向量到每个聚类中心的距离,若语义特征向量t 距离第a个聚类中心的距离最小,则把语义特征向量t映射成第a个位置是 1,其余位置为0的K维one_hot标签向量,即可将每个语义特征向量映射 成一个K维one_hot标签向量,最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量,其中t=1,2,...,T;a=1,2,...,K;
本实施例利用Word2vec工具将用户标记的图像标签转换为语义特征向 量,每个图像标签可转换为一个语义特征向量;然后,利用K-means算法对 多个语义特征向量进行聚类,得到K个聚类中心,即可得到K个语义特征 向量集合。
本实施例中将K个语义特征向量集合映射成K维one_hot标签向量,具 体包括:
步骤1.3.1,从K个语义特征向量中任选一个语义特征向量作为当前语义 特征向量,分别计算当前语义特征向量与K个聚类中心的距离,若该当前语 义特征向量与第m个聚类中心的距离最近,则把该当前语义特征向量映射为 第m个位置为1,其余位置为0的K维one_hot向量,其中m=1,2…,K;
步骤1.3.2,重复步骤1.3.1,直至K个语义特征向量均映射成K维one_hot 标签向量。
步骤1.4,通过每个相似显著性区域子集所包括的多个K维one_hot标签 向量,得到每个相似显著性区域子集的语义标签,即得到每个显著性区域的 语义标签。由于一个相似显著性区域子集中的每个显著性区域属于一个类, 具有相同的语义标签,故得到每个相似显著性区域子集的语义标签,即可得 到每个显著性区域的语义标签。
所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot 标签向量,得到每个相似显著性区域子集的语义标签,包括:
步骤1.4.1,设图像n包括M个相似显著性区域子集,其中Lm为第m个相 似显著性区域子集所包括的S个K维one_hot标签向量集合, 为第m个相似显著性区域子集所包括的第s个K维 one_hot标签向量,通过公式二得到第m个相似显著性区域子集的向量索引 index,将index所表示的one_hot标签向量作为这些显著性区域的标签,即得 到第m个相似显著性区域子集的语义标签;
如图4所示。
其中,M为相似显著性区域子集的数量,为第m个相似显著性区域子 集所包括的第s个K维one_hot标签向量。
步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网 络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对 应的哈希码,即可得到N个图像中每个图像的多个哈希码,所述N个图像 的所有哈希码构成图像检索数据库;
所构建的预训练网络模型包括5个串联的卷积块、第一全连接层fc6、第 二全连接层fc7、第一全连接层网络Dense_1、第二全连接层网络Dense_2 和第三全连接层网络Dense_3,所述5个串联的卷积块的输出与第一全连接 层fc6相连接,第一全连接层fc6的输出与第二全连接层fc7相连接,第二全 连接层fc7与第一全连接层网络Dense_1相连接,第一全连接层网络Dense_1 与第二全连接层网络Dense_2相连接,第二全连接层网络Dense_2与第三全 连接层网络Dense_3相连接;其中,第一全连接层网络Dense_1包括1024 个神经元,第二全连接层网络Dense_2包括512个神经元,第三全连接层网 络Dense_3包括64个神经元;该预训练网络模型将去掉最后一个全连接层 的VGG16典型网络作为顶层网络,并在底部拼接3个全连接层网络,分别 为第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层 网络Dense_3。为防止网络过拟合,本发明将自定义的第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3的每层 参数都加了L2正则化约束,同时在第一全连接层网络Dense_1和第二全连 接层网络Dense_2之间以及第二全连接层网络Dense_2和第三全连接层网络 Dense_3之间加了dropout(失活概率参数为0.5),并对第三全连接层网络 Dense_3的输出加了L1正则化约束,使得输出特征稀疏化以利于之后对其进 行哈希化。
包括:
步骤2.1,构建预训练网络模型的输入三元组,如图5;所述输入三元组 包括:显著性区域i、显著性区域j和显著性区域k,所述显著性区域i的语 义标签与显著性区域j的语义标签相同,显著性区域k的语义标签与显著性 区域i的语义标签不相同,其中i,j,k=1,2,...,I,且i≠j≠k;如图7为提取的输 入三元组,即图像中的三个显著性区域。
步骤2.2,将所构建的输入三元组输入所构建预训练网络模型中对预训练 网络模型进行训练,得到预训练网络模型的输出向量;再将预训练网络模型 的输出向量进行哈希化,得到哈希码,所述哈希码构成图像检索数据库;
所述将所构建的输入三元组输入所构建预训练网络模型中对预训练网络 模型进行训练,包括:
步骤2.2.1冻结预训练网络模型中5个串联的卷积块、第一全连接层fc6 和第二全连接层fc7的初始参数,通过公式一更新第一全连接层网络 Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3的参数, 最终得到预训练网络模型的输出向量;
Lweak=∑max(0,λ-(dist(i,k)-dist(i,j))) 公式一
其中,i、j、k分别表示显著性区域i、显著性区域j和显著性区域k的 语义标签;λ为预设距离,λ>0,本实施中λ取6;dist()表示欧氏距离;Lweak表示汉明距离;
步骤2.2.2,将预训练网络模型的输出向量进行哈希化,使得输出向量中 为0或1值,得到哈希码,所述哈希码构成图像检索数据库;
步骤3,用户输入待检索图像,所述待检索图像包括一个特定显著性区域, 将该特定显著性区域输入图像检索数据库中进行检索。
本实施例中对于用户输入的待检索图像,首先提取该待检索图像的显著 性区域,将所提取的显著性区域输入深度网络来学习其特征,获取输出的64 维特征向量并对其进行哈希化,从而得到查询图像的显著性区域对应的哈希 编码,然后分别计算此哈希编码与图像检索数据库中显著性区域的哈希编码 间的汉明距离,将汉明距离最小的前a个哈希码所对应的图像作为最终返回 的检索结果,如图7所示。
实验验证:
1、为了验证本发明(NTESR)的有效性,在实验中将步骤1.2到步骤1.4 中提取显著性区域对应标签的模块去除,用整张图像及其所有的用户标记标 签作为深度网络的输入来训练神经网络,没有提取图像每个显著性区域所对 应的标签,而是单纯的将多个标签对应整个图像,在此将该方法称为RSE, 如图7为本发明(NTESR)与RSE在基于弱监督与有监督的两种不同检索方 式的实验结果对比图。
从实验结果可以看出,无论是基于若监督的图像检索方式还是基于有监 督的图像检索方式,本发明(NTESR)的方法都明显优于RSE,本发明可以 改善precision@500的实验结果,这是由于某一标签往往对应图像的某一区 域,而不是整个图像,单纯地将多个标签对应整个图像很难准确提取图像的 语义信息,因此当把整张图像及其所有标签作为深度网络的输入时,深度网 络提取的特征中包含了与检索目标无关的背景信息,降低了深度网络所提取 的图像深层特征对检索目标的表征能力,从而导致检索精度较低,证明了本发明提取显著区域对应标签模块的有效性。
2、为了验证本文检索方法的性能,我们使用相同的评测方法,同当前 主流的图像检索方法进行了对比,包括基于弱监督的主流图像检索方法: SH,USPLH,SpH,ITQ,SaH;以及基于有监督的主流图像检索方法:KSH、 MLH、BRE、MLH-CNN、BRE-CNN。如图8为基于弱监督的主流图像 检索方与本发明(NTESR)方法采用不同长度哈希码的precision结果,图9 为基于有监督的主流图像检索方法与本发明(NTESR)方法采用不同长度 哈希码的precision结果。从图8和图9可以看出NTESR方法明显优于目前 主流的图像检索方法,这是因为网络标签可以从细粒度层面更加充分地来描 述图像的语义信息,而且本发明通过提取显著区域及其对应标签为深度网络 提供更高质量的训练数据,从而使深度网络准确提取图像特征。此外本发明 的检索过程是基于显著区域而不是整张图像,避免了与检索目标无关的噪声 信息的干扰。
Claims (4)
1.一种图像检索方法,其特征在于,包括以下步骤:
步骤1,输入N个图像,取N个图像中任一图像作为图像n,n=1,2...,N,提取图像n中的I个显著性区域,提取每个显著性区域的语义标签;
步骤2,将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中,对预训练网络模型进行训练,得到图像n中每个显著性区域所对应的哈希码,即可得到N个图像中每个图像的多个哈希码,所述N个图像的所有哈希码构成图像检索数据库,包括:
步骤2.1,构建预训练网络模型的输入三元组;所述输入三元组包括:显著性区域i、显著性区域j和显著性区域k,所述显著性区域i的语义标签与显著性区域j的语义标签相同,显著性区域k的语义标签与显著性区域i的语义标签不相同,其中i,j,k=1,2,...,I,且i≠j≠k;
步骤2.2,将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练,得到预训练网络模型的输出向量;再将预训练网络模型的输出向量进行哈希化,得到哈希码,所述哈希码构成图像检索数据库;
步骤3,用户输入待检索图像,所述待检索图像包括一个特定显著性区域,将该特定显著性区域输入图像检索数据库中进行检索。
2.如权利要求1所述的图像检索方法,其特征在于,所述步骤1中提取图像n中的I个显著性区域,提取每个显著性区域的语义标签,包括:
步骤1.1,过滤图像n中的噪声图像标签;
步骤1.2,提取图像n的I个显著性区域,对每个显著性区域进行聚类,得到多个相似显著性区域子集;
步骤1.3,所述图像n包括T个用户标记的图像标签,将每个用户标记的图像标签转换为语义特征向量,对T个语义特征向量进行聚类,得到K个聚类中心,计算每个语义特征向量到每个聚类中心的距离,若语义特征向量t距离第a个聚类中心的距离最小,则把语义特征向量t映射成第a个位置是1,其余位置为0的K维one_hot标签向量,即可将每个语义特征向量映射成一个K维one_hot标签向量,最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量,其中t=1,2,...,T;a=1,2,...,K;
步骤1.4,通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,即得到每个显著性区域的语义标签。
3.如权利要求2所述的图像检索方法,其特征在于,所述步骤1.2中对每个显著性区域进行聚类,得到多个相似显著性区域子集,包括:
步骤1.2.1,提取每个显著性区域的特征向量;
步骤1.2.2,通过每个显著性区域的特征向量,对I个显著性区域进行聚类,包括:
步骤1.2.2.1,从I个显著性区域中任选一个显著性区域作为当前显著性区域,分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向量的欧式距离;
步骤1.2.2.2,重复步骤1.2.2.1,得到欧式距离矩阵;
步骤1.2.2.3,将欧式距离矩阵转换为相似度矩阵,并对相似度矩阵进行聚类运算,得到多个相似显著性区域子集。
4.如权利要求2所述的图像检索方法,其特征在于,所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot标签向量,得到每个相似显著性区域子集的语义标签,包括:
步骤1.4.1,设图像n包括M个相似显著性区域子集,其中Lm为第m个相似显著性区域子集所包括的S个K维one_hot标签向量集合, 为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量,通过公式二得到第m个相似显著性区域子集的向量索引index,将index所表示的one_hot标签向量作为这些显著性区域的标签,即得到第m个相似显著性区域子集的语义标签;
其中,M为相似显著性区域子集的数量,为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019103282303 | 2019-04-23 | ||
CN201910328230 | 2019-04-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110297931A true CN110297931A (zh) | 2019-10-01 |
CN110297931B CN110297931B (zh) | 2021-12-03 |
Family
ID=68027223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910445995.5A Expired - Fee Related CN110297931B (zh) | 2019-04-23 | 2019-05-27 | 一种图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110297931B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765292A (zh) * | 2019-10-24 | 2020-02-07 | 重庆紫光华山智安科技有限公司 | 图像检索方法、训练方法及相关装置 |
CN112000827A (zh) * | 2020-08-27 | 2020-11-27 | 广州搜料亿网络科技有限公司 | 一种基于深度学习的五金图像检索方法及系统 |
CN112115292A (zh) * | 2020-09-25 | 2020-12-22 | 海尔优家智能科技(北京)有限公司 | 图片搜索方法及装置、存储介质、电子装置 |
CN112905828A (zh) * | 2021-03-18 | 2021-06-04 | 西北大学 | 一种结合显著特征的图像检索器、数据库及检索方法 |
CN113032612A (zh) * | 2021-03-12 | 2021-06-25 | 西北大学 | 一种多目标图像检索模型的构建方法及检索方法和装置 |
CN113282781A (zh) * | 2021-05-18 | 2021-08-20 | 稿定(厦门)科技有限公司 | 图像检索方法及装置 |
CN113515661A (zh) * | 2021-07-16 | 2021-10-19 | 广西师范大学 | 一种基于过滤深度卷积特征的图像检索方法 |
CN115168637A (zh) * | 2022-06-17 | 2022-10-11 | 杭州晶彩数字科技有限公司 | 一种图片添加标签方法、系统及存储介质 |
US11507616B2 (en) | 2020-09-03 | 2022-11-22 | General Electric Company | Inspection systems and methods including image retrieval module |
US11727052B2 (en) | 2020-09-03 | 2023-08-15 | General Electric Company | Inspection systems and methods including image retrieval module |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021207A (zh) * | 2014-06-18 | 2014-09-03 | 厦门美图之家科技有限公司 | 一种基于图像的食物信息提供方法 |
US20150154229A1 (en) * | 2013-11-29 | 2015-06-04 | Canon Kabushiki Kaisha | Scalable attribute-driven image retrieval and re-ranking |
CN106682092A (zh) * | 2016-11-29 | 2017-05-17 | 深圳市华尊科技股份有限公司 | 一种目标检索方法及终端 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN106980641A (zh) * | 2017-02-09 | 2017-07-25 | 上海交通大学 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
CN107239565A (zh) * | 2017-06-14 | 2017-10-10 | 电子科技大学 | 一种基于显著性区域的图像检索方法 |
CN107346327A (zh) * | 2017-04-18 | 2017-11-14 | 电子科技大学 | 基于监督转移的零样本哈希图片检索方法 |
CN109271546A (zh) * | 2018-07-25 | 2019-01-25 | 西北大学 | 图像检索特征提取模型建立、数据库建立及检索方法 |
-
2019
- 2019-05-27 CN CN201910445995.5A patent/CN110297931B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154229A1 (en) * | 2013-11-29 | 2015-06-04 | Canon Kabushiki Kaisha | Scalable attribute-driven image retrieval and re-ranking |
CN104021207A (zh) * | 2014-06-18 | 2014-09-03 | 厦门美图之家科技有限公司 | 一种基于图像的食物信息提供方法 |
CN106682092A (zh) * | 2016-11-29 | 2017-05-17 | 深圳市华尊科技股份有限公司 | 一种目标检索方法及终端 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN106980641A (zh) * | 2017-02-09 | 2017-07-25 | 上海交通大学 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
CN107346327A (zh) * | 2017-04-18 | 2017-11-14 | 电子科技大学 | 基于监督转移的零样本哈希图片检索方法 |
CN107239565A (zh) * | 2017-06-14 | 2017-10-10 | 电子科技大学 | 一种基于显著性区域的图像检索方法 |
CN109271546A (zh) * | 2018-07-25 | 2019-01-25 | 西北大学 | 图像检索特征提取模型建立、数据库建立及检索方法 |
Non-Patent Citations (5)
Title |
---|
QIAN XUEMING 等: "Image Location Estimation by Salient Region Matching", 《IEEE TRANSACTIONS ON IMAGE PROCESSING : A PUBLICATION OF THE IEEE SIGNAL PROCESSING SOCIETY》 * |
彭进业 等: "基于场景语义的图像检索新方法", 《系统工程与电子技术》 * |
杨海燕 等: "基于并行卷积神经网络的人脸关键点定位方法研究", 《计算机应用研究》 * |
涂丛欢: "基于图像显著区域特征和深度学习的图像检索研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
聂一亮: "基于深度学习与特征融合的图像检索方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765292A (zh) * | 2019-10-24 | 2020-02-07 | 重庆紫光华山智安科技有限公司 | 图像检索方法、训练方法及相关装置 |
CN112000827A (zh) * | 2020-08-27 | 2020-11-27 | 广州搜料亿网络科技有限公司 | 一种基于深度学习的五金图像检索方法及系统 |
US11507616B2 (en) | 2020-09-03 | 2022-11-22 | General Electric Company | Inspection systems and methods including image retrieval module |
US11727052B2 (en) | 2020-09-03 | 2023-08-15 | General Electric Company | Inspection systems and methods including image retrieval module |
CN112115292A (zh) * | 2020-09-25 | 2020-12-22 | 海尔优家智能科技(北京)有限公司 | 图片搜索方法及装置、存储介质、电子装置 |
CN113032612A (zh) * | 2021-03-12 | 2021-06-25 | 西北大学 | 一种多目标图像检索模型的构建方法及检索方法和装置 |
CN112905828A (zh) * | 2021-03-18 | 2021-06-04 | 西北大学 | 一种结合显著特征的图像检索器、数据库及检索方法 |
CN112905828B (zh) * | 2021-03-18 | 2023-06-16 | 西北大学 | 一种结合显著特征的图像检索器、数据库及检索方法 |
CN113282781A (zh) * | 2021-05-18 | 2021-08-20 | 稿定(厦门)科技有限公司 | 图像检索方法及装置 |
CN113515661A (zh) * | 2021-07-16 | 2021-10-19 | 广西师范大学 | 一种基于过滤深度卷积特征的图像检索方法 |
CN113515661B (zh) * | 2021-07-16 | 2022-03-11 | 广西师范大学 | 一种基于过滤深度卷积特征的图像检索方法 |
CN115168637A (zh) * | 2022-06-17 | 2022-10-11 | 杭州晶彩数字科技有限公司 | 一种图片添加标签方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110297931B (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110297931A (zh) | 一种图像检索方法 | |
Yao et al. | Towards automatic construction of diverse, high-quality image datasets | |
CN106599181B (zh) | 一种基于主题模型的新闻热点检测方法 | |
Li et al. | Learning social tag relevance by neighbor voting | |
CN103258000B (zh) | 对网页中高频关键词进行聚类的方法及装置 | |
Wu et al. | Dynamic graph convolutional network for multi-video summarization | |
CN103226948B (zh) | 一种基于声学事件的音频场景识别方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN103984738A (zh) | 一种基于搜索匹配的角色标注方法 | |
CN103473307B (zh) | 跨媒体稀疏哈希索引方法 | |
CN107862089B (zh) | 一种基于感知数据的标签提取方法 | |
Papadopoulos et al. | Image clustering through community detection on hybrid image similarity graphs | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN105849720A (zh) | 视觉语义复合网络以及用于形成该网络的方法 | |
CN105893573B (zh) | 一种基于地点的多模态媒体数据主题提取模型 | |
CN110569405A (zh) | 一种基于bert的政务公文本体概念抽取方法 | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Huang et al. | A multi-modal clustering method for web videos | |
Wu et al. | MvsGCN: A novel graph convolutional network for multi-video summarization | |
CN110647645A (zh) | 一种基于通用扰动的攻击图像检索方法 | |
Jiang et al. | Research progress and challenges on application-driven adversarial examples: A survey | |
Li et al. | Social context-aware person search in videos via multi-modal cues | |
CN114661902A (zh) | 基于多特征融合的文献库冷启动作者同名消歧方法及设备 | |
Zhang et al. | Short text classification by detecting information path |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211203 |