CN113377988A

CN113377988A - 一种基于深度散列与多特征融合的增量图像检索方法

Info

Publication number: CN113377988A
Application number: CN202110552350.9A
Authority: CN
Inventors: 廖开阳; 范冰; 郑元林; 章明珠; 黄港; 姚祎
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-09-10

Abstract

本发明公开了一种基于深度散列与多特征融合的增量图像检索方法，具体为：首先，将CIFAR‑10数据集和NUS‑WIDE数据集按比例划分出查询集图像、原始数据集和增量数据集；使用卷积神经网络VGG‑16将查询图像的每一层特征图像输出；将提取的特征图像从高维图像到低维逐层做双线性插值处理,并且将双线性插值处理过的特征图像逐层上采样得到融合的特征图像；将特征图像输入到五个普通卷积层，输出得到特征图像；之后学习新图像的散列码的同时保持旧图像散列码不变，通过保留训练点之间的相似性来学习查询集的深度散列函数。本发明实现了大规模中出现新的类别图像时不用再次训练模型，从而提高检索效率，节约时间成本。

Description

一种基于深度散列与多特征融合的增量图像检索方法

技术领域

本发明属于图像处理方法技术领域，具体涉及一种基于深度散列与多特征融合的增量图像检索方法。

背景技术

图像检索是一种视觉搜索任务，即是将给定的一张查询图像在一个非常大的图像数据库中进行检索，进而得到在该数据库中所有与查询图像具有相同实例对象的图像。图像检索技术目前已在多个领域有广泛应用，例如在网络上进行反向传播搜索或者组织个人照片收集。然而，随着计算机和人工智能等相关技术的高速发展及5G通信时代的迅速推进，包括图像和视频在内的多媒体数据量每天都呈指数增长，而最新的图像检索模型并不总是及时可用，一旦出现新的概念，就必须对检索模型进行更新，从而导致模型训练的时间成本大大增加。因此，提出一种能够直接提取新图像的特征信息同时不用再次训练旧图像的增量图像检索方法是图像检索技术领域急需解决的问题。

在ILSVRC-2012比赛中，Krizheysky等人设计了一种深度卷积神经网络模型AlexNet，该模型将图像分类错误率从26.2％降到15.3％，远远领先于其他算法(Krizhevsky A,SutskeverI,Hinton G E.ImageNet classification with deepconvolutional neural networks[C]//International Conference on NeuralInformation Processing Systems.Lake Tahoe, Nevada,USA:NIPS Press.2012:1106-1114.)。这使得CNN(卷积神经网络)在视觉图像领域得到极大的重视，使其一跃成为图像检索基础模型的首选。随后Babenko等人利用大型卷积神经网络的顶层的激活作为图像检索的描述符(Babenko A,Slesarev A,Chigorin A,et al. Neural codes for imageretrieval[C]//European conference on computer vision.Switzerland,Zurich:Springer Press,2014:584-599.)。该方法通过对相似数据上的模型进行重新训练，然后提取神经代码作为描述符，进一步提升了检索结果。曹等人提出了HashNet深度体系结构，通过延续方法生成散列码，它学习非平滑的二进制激活，使用延续方法从不平衡的相似性数据生成二进制散列码(CAO Zhangjie,Long Mingsheng,Wang Jianmin,etal.Hashnet:Deep learning to hash by continuation[C]//Proceedings of the IEEEinternational conference on computer vision.Venice,Italy:IEEE Press,2017:5608-5617.)。白等人提出了一个深度渐进式哈希(DPH)模型，通过利用逐步扩展的显著区域生成一系列二进制码(BAI Jiale,NI B,WANG M,et al.Deep progressive hashing forimage retrieval[J].IEEE Transactions on Multimedia,2019,21(12):3178-3193.)。王等人提出了一种深度位置感知哈希(DPAH)模型，它限制了数据样本与类中心之间的距离，以提高图像检索中二进制散列码的识别能力(WANG Ruikui,Wang Ruiping,QiaoShishi,et al.Deep Position-Aware Hashing for Semantic Continuous Image Retrieval[C]//IEEE Winter Conference on Applications of Computer Vision.Snowmass,CO,USA:IEEE Press, 2020:2493-2502.)。

近年来，基于深度学习的方法已经在图像检索方面取得了巨大的进步，但在对于大量新图像的出现时导致的模型更新训练时间长，检索模型的适应性差等问题还没有完全解决，当新的图像出现时，如何不用再次训练模型就能实现模型的更新是目前图像检索领域的重要课题。

发明内容

本发明的目的是提供一种基于深度散列与多特征融合的增量图像检索方法，解决了现有图像检索中新类别图像出现时重新训练模型困难、耗时长的问题。

本发明所采用的技术方案是，一种基于深度散列与多特征融合的增量图像检索方法，具体包括以下步骤：

步骤1、将CIFAR-10数据集和NUS-WIDE数据集按比例划分出查询集图像、原始数据集和增量数据集；

步骤2、使用卷积神经网络VGG-16将查询图像的每一层特征图像输出；

步骤3、将提取的特征图像从高维图像到低维逐层做双线性插值处理，以匹配上一层特征图像的尺寸大小,并且将双线性插值处理过的特征图像逐层上采样得到融合的特征图像；

步骤4、将步骤3的特征图像输入到五个普通卷积层 Conv6-Conv10，尺寸大小都为7×7，维度分别为64，192，384，256 和256维，输出得到特征图像F；

步骤5、经过步骤3和步骤4，将VGG-16改进后得到新的模型，即为IDFH模型，将步骤4中输出的特征像图F进行散列函数学习，使用IDFH模型构造散列函数，使特征图像F的最后一个全连接层的长度输出为k，即是二进制散列码的长度；

步骤6、使用增量损失函数保持查询点和数据库点之间的相似性。

本发明的特点还在于，

步骤1中，在CIFAR-10数据集中随机选取1000张图像作为查询集图像，每个类100张图像，其余的作为数据集图像；同样的在 NUS-WIDE数据集中随机选择2100张图像作为查询集图像，每个概念相关的有100张图像，其余的作为数据集图像，形成r张图像的查询集；然后将数据集图像分为原始数据集和增量数据集两个部分；其中CIFAR-10数据集图像的原始数据集和增量数据集的类别比例为 7/3，NUS-WIDE数据集的原始数据集和增量数据集的类别比例为 18/3。

步骤2中，具体为：在查询集图像

中随机选取一张作为查询图像d_i输入到基础卷积神经网络VGG-16中，并输入到基础卷积神经网络VGG-16中，基础网络VGG-16的每一个大卷积层，即 conv1-2，conv2-2，conv3-3，conv4-3和conv5-3分别提取到的特征图命名为第一层特征图像f₁，第二层特征图像f₂，第三层特征图像f₃，第四层特征图像f₄，第五层特征图像f₅，相邻的最大特征图之间相差步幅为2的空间分辨率，输出的特征图像的大小依次为224×224、 112×112、56×56、28×28和7×7。

步骤3中，将步骤2中输出的第五层特征图像f₅采用双线性插值扩大长宽为原来的两倍，然后与上采样后得到的第四层特征图像f₄融合，得到特征图像F₄；再将特征图像F₄采用双线性插值扩大长宽为原来的两倍，然后再与f₃进行融合得到特征图像F₃；将特征图像 F₃采用双线性插值扩大长宽为原来的两倍，然后再与f₂进行融合得到特征图像F₂；将特征图像F₂采用双线性插值扩大长宽为原来的两倍，然后再与f₁进行融合得到特征图像F₁。

步骤5中，深度散列函数的公式如式(2)所示：

式中，b_Si表示有r张图像的查询图像数据集

中的散列码， sign()是符号函数，f(·)表示最后一个全连接层的输出。

步骤6中，具体为：在步骤5之后，将原始数据集图像和增量数据集图像的索引分别表示为α＝{1，2，3，…，p}和 β＝{1+p,2+p,3+p,…p+q}，将原始数据集和增量数据集采样的查询图像的索引分别表示为

和

然后设计了一个增量损失函数使得现有的原始图像的散列码去训练查询图像的散列码，同时直接优化增量图像的散列码增量损失函数中使用成对的标签L去减少或扩大相似或不相似对的二进制码之间的汉明距离，同时采用L2范数损失来最小化二进制编码对的内部乘积与相似性之间的差异，并将步骤5中学习到的散列函数整合到损失函数中，从而保持-1和1在所有查询图像中的数量近似相等从而使得每一位散列码达到平衡，具体如式(3)所示；

式中，B’表示有q张图像的增量图像数据集

学习到的散列码，并且

是b_i的转置，λ和μ是超参数； a_j是增量图像数据集中的第i张图像；b_j是增量图像数据集中的每一张图像的散列码；当G_ij＝+1表明a_i和d_j在语义上是相似的，相反的当 G_ij＝-1则是不相似的，tanh(·)是连续松弛方法。

本发明的有益效果是：

本发明一种基于深度散列与多特征融合的增量图像检索方法，该方法对VGG16输出的多个特征图像使用双线性插值处理，再融合到上层特征层，使得特征获得更加完整和丰富的语义信息；在网络高层增加五个小卷积层对特征进一步卷积，从而提高特征性能以及模型泛化能力；此外，该方法直接使用学习新图像的散列码的同时保持旧图像散列码不变，通过保留训练点之间的相似性来学习查询集的深度散列函数。本发明实现了大规模中出现新的类别图像时不用再次训练模型，从而提高检索效率，节约时间成本。

附图说明

图1是本发明一种基于深度散列与多特征融合的增量图像检索方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度散列与多特征融合的增量图像检索方法，如图1所示，具体包括以下步骤：

CIFAR-10包括10个类中的60000幅彩色图像。NUS-WIDE包含 21个最常见的概念相关图像，其中每个概念图像都至少与5000张图像关联，共有195834张图像。在CIFAR-10数据集中随机选取1000 张图像作为查询集图像，每个类100张图像，其余的作为数据集图像；同样的在NUS-WIDE数据集中随机选择2100张图像作为查询集图像，每个概念相关的有100张图像，其余的作为数据集图像，形成r张图像的查询集；然后将数据集图像分为原始数据集和增量数据集两个部分。其中CIFAR-10数据集图像的原始数据集和增量数据集的类别比例为7/3，NUS-WIDE数据集的原始数据集和增量数据集的类别比例为18/3，原始数据集中的图像最多与18个概念相关，而增量数据集中的图像与其余3个概念的至少一个概念相关。

具体为：在r张图像的查询集

中随机选取一张作为查询图像d_i输入到基础卷积神经网络VGG-16中，并输入到基础卷积神经网络VGG-16中，基础网络VGG-16的每一个大卷积层，即conv1-2， conv2-2，conv3-3，conv4-3和conv5-3分别提取到的特征图命名为第一层特征图像f₁，第二层特征图像f₂，第三层特征图像f₃，第四层特征图像f₄，第五层特征图像f₅，相邻的最大特征图之间相差步幅为 2的空间分辨率，输出的特征图像的大小依次为224×224、112×112、 56×56、28×28和7×7；

将步骤2中输出的第五层特征图像f₅采用双线性插值扩大长宽为原来的两倍，然后与上采样后得到的第四层特征图像f₄融合，得到特征图像F₄；再将特征图像F₄采用双线性插值扩大长宽为原来的两倍，然后再与f₃进行融合得到特征图像F₃；将特征图像F₃采用双线性插值扩大长宽为原来的两倍，然后再与f₂进行融合得到特征图像F₂；将特征图像F₂采用双线性插值扩大长宽为原来的两倍，然后再与f₁进行融合得到特征图像F₁；其具体计算公式如式(1)所示；

F_n＝cat(f_n,2×upsamplef_n+1)(n＝1,2,3,4)(1)；

式中，cat表示特征融合，f_n表示第n层卷积输出的特征图，F_n表示融合后的第n特征图，2×upsample表示2倍上采样。

步骤4、将融合后的特征图像F₁中输入五个卷积层进一步卷积增强特征性能，再使用三个全连接层整合；

将步骤3的特征图像F₁输入到五个普通卷积层Conv6-Conv10，尺寸大小都为7×7，维度分别为64，192，384，256和256维从而增加特征性能，输出得到特征图像F；

步骤5、首先直接使用深度散列方法对增量数据库图像映射得到散列码B_i。经过步骤3和步骤4将VGG-16改进后得到新的模型，将新的模型命名为IDFH模型，将步骤4中输出的特征像图F进行散列函数学习，使用IDFH模型构造散列函数，使特征图像F的最后一个全连接层的长度输出为k，即是二进制散列码的长度，深度散列函数的公式如式(2)所示：

式中，b_Si表示有r张图像的查询图像数据集

中的散列码且

θ表示IDFH模型中的参数(批处理数，学习速率，初始学习率)，sign()是符号函数，f(·)表示最后一个全连接层的输出。

IDFH模型具体包括的五个大卷积层conv1(conv1-1,conv1-2)，长和宽为224×224，通道数为64，conv2(conv2-1,conv2-2)，长和宽为112×112，通道数为128，conv3(conv3-1,conv3-2,conv3-3)，长和宽为56×56，通道数为256，conv4(conv4-1,conv4-2,conv4-3)，长和宽为28×28，通道数为512，conv5(conv5-1,conv5-2,conv5-3)，长和宽为14×14，通道数为512，以及五个普通卷积层Conv6-Conv10，尺寸大小都为7×7，通道数分别为64，192，384，256和256。

具体为：在步骤5之后，将原始数据集图像和增量数据集图像的索引分别表示为α＝{1,2,3,…,p}和β＝{1+p,2+p,3+p,…p+q}，将原始数据集和增量数据集采样的查询图像的索引分别表示为

和

然后设计了一个增量损失函数使得现有的原始图像的散列码去训练查询图像的散列码，同时直接优化增量图像的散列码增量损失函数中使用成对的标签L去减少或扩大相似或不相似对的二进制码之间的汉明距离，同时采用L2范数损失来最小化二进制编码对的内部乘积与相似性之间的差异，并将步骤4中学习到的散列函数整合到损失函数中，从而保持-1和1在所有查询图像中的数量近似相等，从而使得每一位散列码达到平衡，具体如式(3)所示；

式中，B’表示有q张图像的增量图像数据集

学习到的散列码，并且

是b_i的转置，λ和μ是超参数； G∈{-1,+1}^(p+q)×r表示训练期间成对监督的散列码，a_j是增量图像数据集中的第i张图像；b_j是增量图像数据集中的第j张图像的散列码；当G_ij＝+1表明a_i和d_j在语义上是相似的，相反的当G_ij＝-1则是不相似的，tanh(·)是连续松弛方法。

利用上述步骤完成模型的更新以后，查询图像在包含增量数据集的两个数据集CIFAR-10和NUS-WIDE中检索，返回出前5000张图片，并计算平均精度值(mAP)，得到的结果以及与其它方法的比较如表1所示；

式中，TP表示正确的图片数量，FP表示不正确的图片数量。

表1两个数据集上的性能(mAP)对比

从表1中可以看出在CIFAR-10数据集上的12bits、24bits、32bits 和48bits散列性能比之前的算法性能都要好，在散列码长度为12bits、 24bits、32bits、48bits时能达到0.8523、0.8700、0.8866、0.8842，比 DSAH的mAP值分别高0.1123、0.084、0.0856、0.0642。在NUS-WIDE 数据集上时散列码长度为12bits、24bits、32bits时能达到0.8015、 0.8354、0.8570，比DPSH的mAP值分别高0.074、0.0105、0.0219。本文模型在NUS-WIDE上的结果比CIFAR-10要差一些，是因为该数据集的图像类别距离没有完全明确划分，以及数据集较大导致训练比较困难。但总的来说当本发明中的方法模型与表中其它算法相比较时，在两个相同数据集上的性能表现得最好。

本发明一种基于深度散列与多特征融合的增量图像检索方法，对卷积神经网络输出的特征层进行至下而上的二倍上采样到上一层特征，使得融合后的特征具有更好的低层位置信息和高层语义信息，从而更好的描述图像；使用改进后的卷积神经网络直接学习新图像的散列码同时保持旧图像散列码不变，通过增量损失函数保持查询训练点和增量训练点之间的一致性。能提高检索精度，缩短大规模图像数据集模型训练时间和改善模型适应性，实现了快速、高效、准确的目的。

Claims

1.一种基于深度散列与多特征融合的增量图像检索方法，其特征在于，具体包括以下步骤：

步骤4、将步骤3的特征图像输入到五个普通卷积层Conv6-Conv10，尺寸大小都为7×7，维度分别为64，192，384，256和256维，输出得到特征图像F；

2.根据权利要求1所述的一种基于深度散列与多特征融合的增量图像检索方法，其特征在于，所述步骤1中，在CIFAR-10数据集中随机选取1000张图像作为查询集图像，每个类100张图像，其余的作为数据集图像；同样的在NUS-WIDE数据集中随机选择2100张图像作为查询集图像，每个概念相关的有100张图像，其余的作为数据集图像，形成r张图像的查询集；然后将数据集图像分为原始数据集和增量数据集两个部分；其中CIFAR-10数据集图像的原始数据集和增量数据集的类别比例为7/3，NUS-WIDE数据集的原始数据集和增量数据集的类别比例为18/3。

3.根据权利要求1所述的一种基于深度散列与多特征融合的增量图像检索方法，其特征在于，所述步骤2中，具体为：在查询集图像

中随机选取一张作为查询图像d_i输入到基础卷积神经网络VGG-16中，并输入到基础卷积神经网络VGG-16中，基础网络VGG-16的每一个大卷积层，即conv1-2，conv2-2，conv3-3，conv4-3和conv5-3分别提取到的特征图命名为第一层特征图像f₁，第二层特征图像f₂，第三层特征图像f₃，第四层特征图像f₄，第五层特征图像f₅，相邻的最大特征图之间相差步幅为2的空间分辨率，输出的特征图像的大小依次为224×224、112×112、56×56、28×28和7×7。

4.根据权利要求3所述的一种基于深度散列与多特征融合的增量图像检索方法，其特征在于，所述步骤3中，将步骤2中输出的第五层特征图像f₅采用双线性插值扩大长宽为原来的两倍，然后与上采样后得到的第四层特征图像f₄融合，得到特征图像F₄；再将特征图像F₄采用双线性插值扩大长宽为原来的两倍，然后再与f₃进行融合得到特征图像F₃；将特征图像F₃采用双线性插值扩大长宽为原来的两倍，然后再与f₂进行融合得到特征图像F₂；将特征图像F₂采用双线性插值扩大长宽为原来的两倍，然后再与f₁进行融合得到特征图像F₁。

5.根据权利要求4所述的一种基于深度散列与多特征融合的增量图像检索方法，其特征在于，所述步骤5中，深度散列函数的公式如式(2)所示：

式中，b_Si表示有r张图像的查询图像数据集

中的散列码，sign()是符号函数，f(·)表示最后一个全连接层的输出。

6.根据权利要求4所述的一种基于深度散列与多特征融合的增量图像检索方法，其特征在于，所述步骤6中，具体为：在步骤5之后，将原始数据集图像和增量数据集图像的索引分别表示为α＝{1,2,3,…,p}和β＝{1+p,2+p,3+p,…p+q}，将原始数据集和增量数据集采样的查询图像的索引分别表示为

和

式中，B’表示有q张图像的增量图像数据集

学习到的散列码，并且

是b_i的转置，λ和μ是超参数；a_j是增量图像数据集中的第i张图像；b_j是增量图像数据集中的第j张图像的散列码；当G_ij＝+1表明a_i和d_j在语义上是相似的，相反的当G_ij＝-1则是不相似的，tanh(·)是连续松弛方法。