CN110297931A

CN110297931A - 一种图像检索方法

Info

Publication number: CN110297931A
Application number: CN201910445995.5A
Authority: CN
Inventors: 范建平; 元莉伟; 王娟; 王小鹏; 侯勇; 赵万青; 管子玉; 彭进业
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-04-23
Filing date: 2019-05-27
Publication date: 2019-10-01
Anticipated expiration: 2039-05-27
Also published as: CN110297931B

Abstract

本发明提供了一种图像检索方法，包括以下步骤：步骤1，输入N个图像，取N个图像中任一图像作为图像n，提取图像n中的I个显著性区域，提取每个显著性区域的语义标签；步骤2，将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中，对预训练网络模型进行训练，得到图像n中每个显著性区域所对应的哈希码，N个图像的所有哈希码构成图像检索数据库；步骤3，用户输入待检索图像，待检索图像包括一个特定显著性区域，将该特定显著性区域输入图像检索数据库中进行检索。本发明避免了与检索目标无关的噪声信息的干扰，从而更准确地刻画检索目标的图像特征，得到使用户更为满意的检索结果。

Description

一种图像检索方法

技术领域

本发明属于图像检索技术领域，具体涉及一种图像检索方法。

背景技术

近年来，许多基于有监督的深度学习方法已被提出，并广泛用于图像检索领域，这些与深度学习相结合的图像检索方法可以较为准确地捕捉图像隐藏的语义信息，从而提升检索精度。但是他们面临着以下两个问题：(1)训练出泛化能力强且检索精度高的深度网络模型需要人工标注大量的数据，耗时耗力。(2)人工标注的数据通常会受到研究领域问题的限制，只包含粗粒度的概念，不能很好地描述图像细粒度的语义信息。

随着互联网和社交媒体的快速发展，越来越多的互联网用户在网上分享他们的图像并对其进行标注，形成了大量附加网络标签的图像数据，这些社会化的网络标签属于“大众分类”，是一种无结构的分类数据。“大众分类” 允许用户自由地输入关键词来标注图像，是大众用户群体智慧的结晶，与由少数专家制定的、有着严谨结构的传统分类法相比，“大众分类”的标签数据有以下优点：(1)这些网络标签可以在一定程度上反映图像的语义信息，我们可以获得丰富的数据用于深度模型训练，无需人工标注，省时省力。(2) 网络标签数据描述了图像更丰富、更细粒度的语义信息。

图2显示的是Flickr数据集中一些由网络用户提供的标签(网络标签) 和人工标注的标签(人工标签)。如：“person”、“vehicle”、“elk”和“sign”是人工标注的标签，描述的是图像粗粒度的语义信息；而用户提供的网络标签，如“demonstration”、“military”、“wildlife”和“graffiti”，描述的是图像细粒度的语义信息，可用于更好地训练深度网络。

然而，由于网络标签的标注过程不受约束，因此容易受到噪声、模糊性和不完整性的影响。如图2网络标签中“iraq”、“published”、“rockies”和“britain” 等与对应图像并无视觉联系，不能直接用于监督网络模型训练，需要先过滤噪声标签。

针对图像噪声标签的过滤问题，常用的标签过滤方法是把标签过滤问题转换为按照标签和图像视觉内容的相关度对标签进行排序的问题，其核心思想是：在视觉内容上相近的图像其带有的标签在语义上也相似。如“X. Li,C.G.Snoek andM.Worring.Learning social tag relevance by neighbor voting. IEEE Transactionson Multimedia,11(7):1310-1322,2009”提出了一种容易理解的方法，首先找到m个在视觉内容上与给定图片I相似的图片，接着遍历计算图像I的每个标签在m个图像的标签里出现的次数，最后依据每个标签出现次数的多少对其进行排序。“Corbiere C,Ben-YounesH,RaméA,et al. Leveraging weakly annotated data for fashion image retrievaland label prediction[C]//Computer Vision Workshop(ICCVW),2017IEEEInternational Conference on.IEEE,2017:2268-2274.”从词汇表中抽出一个单词，然后随机选择一个词袋中包含这个单词的图像，根据图像来预测这个单词，从而过滤噪声标签。

虽然上述相关工作也使用视觉特征作为参考过滤网络标签，但大多数方法是将整个图像视图作为参考。然而，由于某一标签往往对应图像的某一区域，而不是整个图像，单纯地将多个标签对应整个图像很难准确提取图像的语义信息，进而无法准确过滤噪声标签。针对上述问题，我们提出了一种基于图像显著性区域的标签提取方法，首先提取图像的显著性区域，然后提取每个显著性区域的对应标签，从而有效地过滤与检索目标无关的噪声标签，准确提取图像的语义信息。

此外，传统的图像检索方式是基于整张图像提取的哈希码进行检索，一张图像只对应一个哈希编码，考虑了与检索目标无关的图像信息，导致提取的哈希编码失去了对检索目标的强表征能力，使得检索结果不能满足用户的预期效果。

发明内容

针对现有技术中存在的不足，本发明的目的在于，提供一种图像检索方法，解决现有技术无法避免与检索目标无关的噪声信息的干扰问题。

为了解决上述技术问题，本申请采用如下技术方案予以实现：

一种图像检索方法，包括以下步骤：

步骤1，输入N个图像，取N个图像中任一图像作为图像n，n＝1,2...,N，提取图像n中的I个显著性区域，提取每个显著性区域的语义标签；

步骤2，将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中，对预训练网络模型进行训练，得到图像n中每个显著性区域所对应的哈希码，即可得到N个图像中每个图像的多个哈希码，所述N个图像的所有哈希码构成图像检索数据库，包括：

步骤2.1，构建预训练网络模型的输入三元组；所述输入三元组包括：显著性区域i、显著性区域j和显著性区域k，所述显著性区域i的语义标签与显著性区域j的语义标签相同，显著性区域k的语义标签与显著性区域i的语义标签不相同，其中i,j,k＝1,2,...,I，且i≠j≠k；

步骤2.2，将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练，得到预训练网络模型的输出向量；再将预训练网络模型的输出向量进行哈希化，得到哈希码，所述哈希码构成图像检索数据库；

步骤3，用户输入待检索图像，所述待检索图像包括一个特定显著性区域，将该特定显著性区域输入图像检索数据库中进行检索。

进一步地，所述步骤1中提取图像n中的I个显著性区域，提取每个显著性区域的语义标签，包括：

步骤1.1，过滤图像n中的噪声图像标签；

步骤1.2，提取图像n的I个显著性区域，对每个显著性区域进行聚类，得到多个相似显著性区域子集；

步骤1.3，所述图像n包括T个用户标记的图像标签，将每个用户标记的图像标签转换为语义特征向量，对T个语义特征向量进行聚类，得到K个聚类中心，计算每个语义特征向量到每个聚类中心的距离，若语义特征向量t 距离第a个聚类中心的距离最小，则把语义特征向量t映射成第a个位置是 1，其余位置为0的K维one_hot标签向量，即可将每个语义特征向量映射成一个K维one_hot标签向量，最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量，其中t＝1,2,...,T；a＝1,2,...,K；

步骤1.4，通过每个相似显著性区域子集所包括的多个K维one_hot标签向量，得到每个相似显著性区域子集的语义标签，即得到每个显著性区域的语义标签。

进一步地，所述步骤1.2中对每个显著性区域进行聚类，得到多个相似显著性区域子集，包括：

步骤1.2.1，提取每个显著性区域的特征向量；

步骤1.2.2，通过每个显著性区域的特征向量，对I个显著性区域进行聚类，包括：

步骤1.2.2.1，从I个显著性区域中任选一个显著性区域作为当前显著性区域，分别计算当前显著性区域的特征向量与其余I-1个显著性区域的特征向量的欧式距离；

步骤1.2.2.2，重复步骤1.2.2.1，得到欧式距离矩阵；

步骤1.2.2.3，将欧式距离矩阵转换为相似度矩阵，并对相似度矩阵进行聚类运算，得到多个相似显著性区域子集。

进一步地，所述步骤1.4中通过每个相似显著性区域子集所包括的多个K 维one_hot标签向量，得到每个相似显著性区域子集的语义标签，包括：

步骤1.4.1，设图像n包括M个相似显著性区域子集，其中L_m为第m个相似显著性区域子集所包括的S个K维one_hot标签向量集合，为第m个相似显著性区域子集所包括的第s个K维 one_hot标签向量，通过公式二得到第m个相似显著性区域子集的向量索引 index，将index所表示的one_hot标签向量作为这些显著性区域的标签，即得到第m个相似显著性区域子集的语义标签；

其中，M为相似显著性区域子集的数量，为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量。

本发明与现有技术相比，有益的技术效果是：

1、本发明通过提取图像显著区域的对应标签，极大地削弱了噪声、语义模糊、与检索目标无关标签对图像相似性判断的影响；

2、本发明基于图像显著区域提取的哈希码进行检索，一张图像的每个显著区域生成各自的哈希编码，避免了与检索目标无关的噪声信息的干扰，从而更准确地刻画检索目标的图像特征，得到使用户更为满意的检索结果。

附图说明

图1为本发明方法的流程图；

图2为网络标签与人工标签示意图；

图3为网络标签过滤前后的效果；

图4为标签向量累加结果直方图；

图5为显著性区域的三元组；

图6为检索流程图。

图7为NTESR和RSE的实验对比图。

图8为基于弱监督的主流图像检索方法与NTESR方法采用不同长度哈希

码的precision结果。

图9为基于有监督的主流图像检索方法与NTESR方法采用不同长度哈希

码的precision结果。

以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1：

本实施例给出一种图像检索方法，如图1所示，包括以下步骤：

所述步骤1中提取图像n中的I个显著性区域，提取每个显著性区域的语义标签，包括：

步骤1.1，过滤图像n中的噪声图像标签；本发明利用内聚性和分散性原理来过滤与图像n视觉内容无关的噪声标签，如图3所示。本实施例可采用 “Sun A,Bhowmick SS.Quantifying tag representativeness of visual content of social images[C]//Proceedings of the 18th ACM international conference on Multimedia.ACM,2010:471-480.”文献中方法来过滤噪声标签。

本实施例采用BING技术来提取图像的显著性区域。

所述步骤1.2中对每个显著性区域进行聚类，得到多个相似显著性区域子集，包括：

步骤1.2.1，提取每个显著性区域的特征向量；本实施例采用GIST算法来提取每个显著性区域的特征向量，在本实施例中一个显著性区域可提取出一个512维的特征向量；

步骤1.2.2.2，重复步骤1.2.2.1，得到欧式距离矩阵；

这样，每个聚类子集所包含的显著性区域在视觉内容上具有相似性，从而得到相似显著性区域子集；具体地，本实施例采用近邻传播聚类算法(AP 聚类)对相似度矩阵进行聚类运算。

本实施例利用Word2vec工具将用户标记的图像标签转换为语义特征向量，每个图像标签可转换为一个语义特征向量；然后，利用K-means算法对多个语义特征向量进行聚类，得到K个聚类中心，即可得到K个语义特征向量集合。

本实施例中将K个语义特征向量集合映射成K维one_hot标签向量，具体包括：

步骤1.3.1，从K个语义特征向量中任选一个语义特征向量作为当前语义特征向量，分别计算当前语义特征向量与K个聚类中心的距离，若该当前语义特征向量与第m个聚类中心的距离最近，则把该当前语义特征向量映射为第m个位置为1，其余位置为0的K维one_hot向量，其中m＝1,2…，K；

步骤1.3.2，重复步骤1.3.1，直至K个语义特征向量均映射成K维one_hot 标签向量。

步骤1.4，通过每个相似显著性区域子集所包括的多个K维one_hot标签向量，得到每个相似显著性区域子集的语义标签，即得到每个显著性区域的语义标签。由于一个相似显著性区域子集中的每个显著性区域属于一个类，具有相同的语义标签，故得到每个相似显著性区域子集的语义标签，即可得到每个显著性区域的语义标签。

所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot 标签向量，得到每个相似显著性区域子集的语义标签，包括：

如图4所示。

步骤2，将图像n中每个显著性区域及其语义标签输入所构建的预训练网络模型中，对预训练网络模型进行训练，得到图像n中每个显著性区域所对应的哈希码，即可得到N个图像中每个图像的多个哈希码，所述N个图像的所有哈希码构成图像检索数据库；

所构建的预训练网络模型包括5个串联的卷积块、第一全连接层fc6、第二全连接层fc7、第一全连接层网络Dense_1、第二全连接层网络Dense_2 和第三全连接层网络Dense_3，所述5个串联的卷积块的输出与第一全连接层fc6相连接，第一全连接层fc6的输出与第二全连接层fc7相连接，第二全连接层fc7与第一全连接层网络Dense_1相连接，第一全连接层网络Dense_1 与第二全连接层网络Dense_2相连接，第二全连接层网络Dense_2与第三全连接层网络Dense_3相连接；其中，第一全连接层网络Dense_1包括1024 个神经元，第二全连接层网络Dense_2包括512个神经元，第三全连接层网络Dense_3包括64个神经元；该预训练网络模型将去掉最后一个全连接层的VGG16典型网络作为顶层网络，并在底部拼接3个全连接层网络，分别为第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3。为防止网络过拟合，本发明将自定义的第一全连接层网络Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3的每层参数都加了L2正则化约束，同时在第一全连接层网络Dense_1和第二全连接层网络Dense_2之间以及第二全连接层网络Dense_2和第三全连接层网络 Dense_3之间加了dropout(失活概率参数为0.5)，并对第三全连接层网络 Dense_3的输出加了L1正则化约束，使得输出特征稀疏化以利于之后对其进行哈希化。

包括：

步骤2.1，构建预训练网络模型的输入三元组，如图5；所述输入三元组包括：显著性区域i、显著性区域j和显著性区域k，所述显著性区域i的语义标签与显著性区域j的语义标签相同，显著性区域k的语义标签与显著性区域i的语义标签不相同，其中i,j,k＝1,2,...,I，且i≠j≠k；如图7为提取的输入三元组，即图像中的三个显著性区域。

所述将所构建的输入三元组输入所构建预训练网络模型中对预训练网络模型进行训练，包括：

步骤2.2.1冻结预训练网络模型中5个串联的卷积块、第一全连接层fc6 和第二全连接层fc7的初始参数，通过公式一更新第一全连接层网络 Dense_1、第二全连接层网络Dense_2和第三全连接层网络Dense_3的参数，最终得到预训练网络模型的输出向量；

L_weak＝∑max(0,λ-(dist(i,k)-dist(i,j))) 公式一

其中，i、j、k分别表示显著性区域i、显著性区域j和显著性区域k的语义标签；λ为预设距离，λ>0，本实施中λ取6；dist()表示欧氏距离；L_weak表示汉明距离；

步骤2.2.2，将预训练网络模型的输出向量进行哈希化，使得输出向量中为0或1值，得到哈希码，所述哈希码构成图像检索数据库；

本实施例中对于用户输入的待检索图像，首先提取该待检索图像的显著性区域，将所提取的显著性区域输入深度网络来学习其特征，获取输出的64 维特征向量并对其进行哈希化，从而得到查询图像的显著性区域对应的哈希编码，然后分别计算此哈希编码与图像检索数据库中显著性区域的哈希编码间的汉明距离，将汉明距离最小的前a个哈希码所对应的图像作为最终返回的检索结果，如图7所示。

实验验证：

1、为了验证本发明(NTESR)的有效性，在实验中将步骤1.2到步骤1.4 中提取显著性区域对应标签的模块去除，用整张图像及其所有的用户标记标签作为深度网络的输入来训练神经网络，没有提取图像每个显著性区域所对应的标签，而是单纯的将多个标签对应整个图像，在此将该方法称为RSE，如图7为本发明(NTESR)与RSE在基于弱监督与有监督的两种不同检索方式的实验结果对比图。

从实验结果可以看出，无论是基于若监督的图像检索方式还是基于有监督的图像检索方式，本发明(NTESR)的方法都明显优于RSE，本发明可以改善precision@500的实验结果，这是由于某一标签往往对应图像的某一区域，而不是整个图像，单纯地将多个标签对应整个图像很难准确提取图像的语义信息，因此当把整张图像及其所有标签作为深度网络的输入时，深度网络提取的特征中包含了与检索目标无关的背景信息，降低了深度网络所提取的图像深层特征对检索目标的表征能力，从而导致检索精度较低，证明了本发明提取显著区域对应标签模块的有效性。

2、为了验证本文检索方法的性能，我们使用相同的评测方法，同当前主流的图像检索方法进行了对比，包括基于弱监督的主流图像检索方法： SH，USPLH，SpH，ITQ，SaH；以及基于有监督的主流图像检索方法：KSH、 MLH、BRE、MLH-CNN、BRE-CNN。如图8为基于弱监督的主流图像检索方与本发明(NTESR)方法采用不同长度哈希码的precision结果，图9 为基于有监督的主流图像检索方法与本发明(NTESR)方法采用不同长度哈希码的precision结果。从图8和图9可以看出NTESR方法明显优于目前主流的图像检索方法，这是因为网络标签可以从细粒度层面更加充分地来描述图像的语义信息，而且本发明通过提取显著区域及其对应标签为深度网络提供更高质量的训练数据，从而使深度网络准确提取图像特征。此外本发明的检索过程是基于显著区域而不是整张图像，避免了与检索目标无关的噪声信息的干扰。

Claims

1.一种图像检索方法，其特征在于，包括以下步骤：

2.如权利要求1所述的图像检索方法，其特征在于，所述步骤1中提取图像n中的I个显著性区域，提取每个显著性区域的语义标签，包括：

步骤1.1，过滤图像n中的噪声图像标签；

步骤1.3，所述图像n包括T个用户标记的图像标签，将每个用户标记的图像标签转换为语义特征向量，对T个语义特征向量进行聚类，得到K个聚类中心，计算每个语义特征向量到每个聚类中心的距离，若语义特征向量t距离第a个聚类中心的距离最小，则把语义特征向量t映射成第a个位置是1，其余位置为0的K维one_hot标签向量，即可将每个语义特征向量映射成一个K维one_hot标签向量，最终所述图像n中每个相似显著性区域子集包括多个K维one_hot标签向量，其中t＝1,2,...,T；a＝1,2,...,K；

3.如权利要求2所述的图像检索方法，其特征在于，所述步骤1.2中对每个显著性区域进行聚类，得到多个相似显著性区域子集，包括：

步骤1.2.1，提取每个显著性区域的特征向量；

步骤1.2.2.2，重复步骤1.2.2.1，得到欧式距离矩阵；

4.如权利要求2所述的图像检索方法，其特征在于，所述步骤1.4中通过每个相似显著性区域子集所包括的多个K维one_hot标签向量，得到每个相似显著性区域子集的语义标签，包括：

步骤1.4.1，设图像n包括M个相似显著性区域子集，其中L_m为第m个相似显著性区域子集所包括的S个K维one_hot标签向量集合，为第m个相似显著性区域子集所包括的第s个K维one_hot标签向量，通过公式二得到第m个相似显著性区域子集的向量索引index，将index所表示的one_hot标签向量作为这些显著性区域的标签，即得到第m个相似显著性区域子集的语义标签；