CN110795591A - 一种基于离散梯度反向传播的图像检索方法 - Google Patents
一种基于离散梯度反向传播的图像检索方法 Download PDFInfo
- Publication number
- CN110795591A CN110795591A CN201910974197.1A CN201910974197A CN110795591A CN 110795591 A CN110795591 A CN 110795591A CN 201910974197 A CN201910974197 A CN 201910974197A CN 110795591 A CN110795591 A CN 110795591A
- Authority
- CN
- China
- Prior art keywords
- function
- layer
- convolutional
- images
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于离散梯度反向传播的图像检索方法,该方法解决了深度特征学习和二进制哈希编码端到端框架中存在的病态梯度问题。针对深度网络非凸优化中存在的病态梯度问题,利用离散梯度反向传播对非光滑激活的深度网络进行梯度估计,将其转化为一个可以反向传播训练的深度神经网络。通过在训练过程中引入离散变量的梯度估计量,使优化过程中准确学习二进制哈希码成为可能。
Description
技术领域
本发明涉及图像处理算法技术领域,更具体地,涉及一种基于离散梯度反向传播的图像检索方法。
背景技术
近年来,每天都有成千上万的图片上传到互联网上,这使得根据不同用户的要求寻找相关图片变得极其困难。例如,基于内容的图像检索是检索与给定查询图像相似的图像,其中“相似”可以指视觉上相似或语义上相似。假设数据库中的图像和查询图像都用实值特征表示,查找相关图像的最简单方法是根据数据库图像到查询的距离对它们进行排序。与传统的索引方法并行的一个优势解决方案是哈希方法,它将对象的高维特征映射到汉明空间中,生成一个低维的哈希码来表示一个对象,并为相似的数据项生成相似的哈希码。
许多哈希方法已经被提出,通过对紧凑的哈希码进行汉明排序来实现高效的近似最近邻(ANN)搜索。深度学习哈希方法表明,利用深度神经网络可以更有效地对特征表示和哈希编码进行端到端的学习,这些深度学习哈希方法在许多基准测试中显示了最先进的性能。要使深度学习真正实现端到端哈希,有两个关键挑战。首先,将本质上连续的深度表示转换为精确的二进制哈希码,需要使用符号函数h=sgn(z)作为激活函数,然而,对于所有非零输入,符号函数的梯度为零,这使得标准的反向传播不可行的。这就是病态梯度问题,它是利用反向传播训练深度神经网络的关键难点。因此许多深度学习哈希方法的做法是,它们首先学习图像连续的深度表示,然后利用构造好的哈希函数将图像特征映射为哈希码。即把图像特征提取和哈希码的构造过程分为完全独立的两个过程,使得检索准确率低。
发明内容
本发明提供一种基于离散梯度反向传播的图像检索方法,该算法可解决深度特征学习和二进制哈希编码端到端框架中存在的病态梯度问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于离散梯度反向传播的图像检索方法,包括以下步骤:
S1:将图像数据的语义相似度矩阵S;
S2:构建卷积神经网络架构,卷积神经网络架构包含卷积子网络、全连接层、阈值化层、损失层,卷积子网络中的每个卷积层后都加一个最大池化层;
S3:利用训练样本集对神经网络进行训练,在训练过程中,用梯度估计量估计神经网络中量化过程中不可求导的梯度值;
S4:在测试过程中,从测试样本集选择一张查询图像xv,通过深度神经网络得到其对应的编码bv;使用公式dvi=<bv,bi>计算查询样本到训练集的第i个样本的汉明距离,先对计算得到的汉明距离按照从小到大的顺序进行排序,最后,将距离最小的前K个图像特征对应的图像作为检索结果返回。
进一步地,所述步骤S1的具体过程是:
将图像数据集中的部分图像作为训练样本集,剩下的图像作为测试样本集,根据训练样本集和测试样本集中图像的标签信息,构建出图像间的语义相似度矩阵S。
进一步地,所述步骤S2的具体过程是:
S21:卷积子网络的网络结构共有4个卷积层,分别表示为“Conv1-Conv3”;第一个卷积层Conv1用92个大小为5×5×3的卷积核对大小为32×32×3的输入图像以1像素为步长进行过滤;再经过线性修正单元的激活、最大池化得到输出特征;第二个卷积层Conv2以第一个卷积层Conv1的输出作为输入,Conv2用92个大小为5×5×92的卷积核对输入进行过滤;在经过线性修正单元、最大池化之后,得到输出特征;第三个卷积层Conv3使用了64个大小3×3×92的卷积核,再经过线性修正单元的激活、最大池化得到输出特征;
S22:全连接层有三层,分别表示为“Fc4-Fc6”;全连接层Fc4的神经元个数为384,使用的线性修正单元函数作为激活函数;Fc4的神经元个数为192,并且用线性修正单元函数作为Fc4层的激活函数,Fc5的神经元个数为64,并且用sigmoid函数作为Fc5层的激活函数,得到64位实值特征;
S24:构建相似性保持损失函数,即保证同一标签的图像的哈希码的距离小,不同标签的图像的哈希码的距离大,对于每一对二进制哈希码bi,bj,它们的汉明距离distH(·,·)与内积<·,·>之间存在良好的关系: (m为生成的哈希码的位数)给定N副训练图像的成对相似度标签S={sij},对于哈希码B=[b1,…,bn]的最大似然估计为:
其中p(sij|bi,bj)是给定哈希码bi和bj的相似性标签sij的条件概率,定义为成对logistic函数:
其中
令则L为损失函数。
进一步地,所述步骤S23中,对特征ui进行量化的具体过程是;
进一步地,所述步骤S3的具体过程是:
首先计算损失函数L对bi的导数如下:
关于离散随机变量hi对ui的导数,考虑当z≠ui时,在ui附近存在一个邻域,使得hi的输出不变,即导数为0,因此不能通过反向传播进行训练,通过估计期望损失的导数来解决这个问题,而不是计算单个试验结果的导数,因为在任何给定的试验中,只能看到给定z时的损失值,不知道在另一种随机变量z下损失会是多少,因此只能估计这个导数,在这里采用ST估计量的做法,即用恒等函数的导数替代得到:
通过反向传播算法更新神经网络中的参数θ。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明利用哈希函数对图像特征进行降维编码,可以有效降低图像特征的维度,从而减少存储需求;利用深度网络同时学习图像的深度特征表示和哈希编码,考虑将连续值量化为二进制编码所引起的量化误差,将二进制编码过程加入深度网络的训练中,同时引入了梯度估计量使得离散变量的反向传播过程得以在训练过程中进行,在优化过程中准确地学习图像的二进制码,解决了深度特征学习和二进制哈希编码端到端框架中存在的离散优化梯度问题;
2、本发明在学习哈希函数过程中分利用的图像特征的类别信息,因此编码能够较好地区分不同类别的图像特征,对图像特征的语义检索有益。同时将不同图像之间相似性度量的损失加入到深度神经网络的损失层,增强了哈希码的表达能力,进一步提高图像检索的准确率。
附图说明
图1为本发明流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为了对本发明的技术方案做进一步的详细说明,接下来以cifar-10数据集为例对于本发明方法进行进一步的说明。CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。共有50000个训练图像和10000个测试图像。进行图像检索时,按照以下步骤进行:
步骤1.将cifar-10数据集的50000个训练图像作为训练样本集,记为10000个测试图像作为测试样本集,根据训练样本集和测试样本集中图像的标签信息,构建出图像间的语义相似度矩阵S,S的构建方式为
步骤2.构建卷积神经网络架构,卷积神经网络架构包含卷积子网络、全连接层、阈值化层、损失层;
步骤2.1.卷积子网络的网络结构共有4个卷积层,分别表示为“Conv1-Conv3”。第一个卷积层Conv1用92个大小为5×5×3的卷积核对大小为32×32×3的输入图像以1像素为步长进行过滤;再经过线性修正单元(ReLU)的激活、最大池化(MAX-pooling)得到输出特征;第二个卷积层Conv2以第一个卷积层Conv1的输出作为输入,Conv2用92个大小为5×5×92的卷积核对输入进行过滤。同样地,在经过ReLU、MAX-pooling之后,得到输出特征。第三个卷积层Conv3使用了64个大小3×3×92的卷积核,再经过线性修正单元(ReLU)的激活、最大池化(MAX-pooling)得到输出特征;
步骤2.2.全连接层有三层,分别表示为“Fc4-Fc6。全连接层Fc4的神经元个数为384,使用的RELU函数作为激活函数。Fc4的神经元个数为192,并且用ReLU函数作为Fc4层的激活函数,Fc5的神经元个数为64,并且用sigmoid函数作为Fc5层的激活函数,得到64位实值特征;
步骤2.3.第i个训练图像xi在经过步骤2.1和步骤2.2后可得到深度特征表示其中θ表示卷积子网络和全连接层的参数集合。再对特征ui进行量化,具体过程为:令其中,I是关于ui和z~U[0,1]的指示函数,指示函数的定义为:即再通过一个线性函数bi=2hi-1,将xi的二进制码bi的取值范围转换成{-1,1},即对应的量化函数为
步骤2.4.构建相似性保持损失函数,即保证同一标签的图像的哈希码的距离小,不同标签的图像的哈希码的距离大。对于每一对二进制哈希码bi,bj,它们的汉明距离distH(·,·)与内积<·,·>之间存在良好的关系: (m为生成的哈希码的位数)给定N副训练图像的成对相似度标签S={sij},对于哈希码B=[b1,…,bn]的最大似然估计为:
其中p(sij|bi,bj)是给定哈希码bi和bj的相似性标签sij的条件概率,定义为成对logistic函数:
其中
步骤3.利用训练样本集对神经网络进行训练,在训练过程中,用梯度估计量估计神经网络量化过程中不可求导的梯度值,具体过程如下:
首先可以计算损失函数L对bi的导数如下:
关于离散随机变量hi对ui的导数,考虑当z≠ui时,在ui附近存在一个邻域,使得hi的输出不变,即导数为0,因此不能通过反向传播进行训练。通过估计期望损失的导数来解决这个问题,而不是计算单个试验结果的导数。因为在任何给定的试验中,只能看到给定z时的损失值,不知道在另一种随机变量z下损失会是多少,因此只能估计这个导数。在这里采用ST估计量(straight through estimator)的做法,即用恒等函数的导数替代可得:
因此可以通过反向传播算法更新神经网络中的参数θ
步骤4.在测试过程中,从测试样本集选择一张查询图像xv。首先,通过深度神经网络得到其对应的编码bv;使用公式dvi=<bv,bi>计算查询样本到训练集的第i(i=1,2,...,50000)个样本的汉明距离。先对计算得到的汉明距离dv1,dv2,…,dv50000按照从小到大的顺序进行排序,最后,将距离最小的前K个图像特征对应的图像作为检索结果返回。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于离散梯度反向传播的图像检索方法,其特征在于,包括以下步骤:
S1:将图像数据的语义相似度矩阵S;
S2:构建卷积神经网络架构,卷积神经网络架构包含卷积子网络、全连接层、阈值化层、损失层,卷积子网络中的每个卷积层后都加一个最大池化层;
S3:利用训练样本集对神经网络进行训练,在训练过程中,用梯度估计量估计神经网络中量化过程中不可求导的梯度值;
S4:在测试过程中,从测试样本集选择一张查询图像xv,通过深度神经网络得到其对应的编码bv;使用公式dvi=<bv,bi>计算查询样本到训练集的第i个样本的汉明距离,先对计算得到的汉明距离按照从小到大的顺序进行排序,最后,将距离最小的前K个图像特征对应的图像作为检索结果返回。
2.根据权利要求1所述的基于离散梯度反向传播的图像检索方法,其特征在于,所述步骤S1的具体过程是:
将图像数据集中的部分图像作为训练样本集,剩下的图像作为测试样本集,根据训练样本集和测试样本集中图像的标签信息,构建出图像间的语义相似度矩阵S。
3.根据权利要求2所述的基于离散梯度反向传播的图像检索方法,其特征在于,所述步骤S2的具体过程是:
S21:卷积子网络的网络结构共有4个卷积层,分别表示为“Conv1-Conv3”;第一个卷积层Conv1用92个大小为5×5×3的卷积核对大小为32×32×3的输入图像以1像素为步长进行过滤;再经过线性修正单元的激活、最大池化得到输出特征;第二个卷积层Conv2以第一个卷积层Conv1的输出作为输入,Conv2用92个大小为5×5×92的卷积核对输入进行过滤;在经过线性修正单元、最大池化之后,得到输出特征;第三个卷积层Conv3使用了64个大小3×3×92的卷积核,再经过线性修正单元的激活、最大池化得到输出特征;
S22:全连接层有三层,分别表示为“Fc4-Fc6”;全连接层Fc4的神经元个数为384,使用的线性修正单元函数作为激活函数;Fc4的神经元个数为192,并且用线性修正单元函数作为Fc4层的激活函数,Fc5的神经元个数为64,并且用sigmoid函数作为Fc5层的激活函数,得到64位实值特征;
S24:构建相似性保持损失函数,即保证同一标签的图像的哈希码的距离小,不同标签的图像的哈希码的距离大,对于每一对二进制哈希码bi,bj,它们的汉明距离distH(·,·)与内积<·,·>之间存在良好的关系: (m为生成的哈希码的位数)给定N副训练图像的成对相似度标签S={sij},对于哈希码B=[b1,...,bn]的最大似然估计为:
其中p(sij|bi,bj)是给定哈希码bi和bj的相似性标签sij的条件概率,定义为成对logistic函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910974197.1A CN110795591B (zh) | 2019-10-14 | 2019-10-14 | 一种基于离散梯度反向传播的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910974197.1A CN110795591B (zh) | 2019-10-14 | 2019-10-14 | 一种基于离散梯度反向传播的图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795591A true CN110795591A (zh) | 2020-02-14 |
CN110795591B CN110795591B (zh) | 2022-07-22 |
Family
ID=69440260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910974197.1A Active CN110795591B (zh) | 2019-10-14 | 2019-10-14 | 一种基于离散梯度反向传播的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795591B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326390A (zh) * | 2021-08-03 | 2021-08-31 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220373A (zh) * | 2017-06-19 | 2017-09-29 | 太原理工大学 | 一种基于医学征象和卷积神经网络的肺结节ct图像哈希检索方法 |
US20180150891A1 (en) * | 2016-11-28 | 2018-05-31 | International Business Machines Corporation | Touch and Pressure-Based Apparel Image Searching |
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
CN109241313A (zh) * | 2018-08-14 | 2019-01-18 | 大连大学 | 一种基于高阶深度哈希学习的图像检索方法 |
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN110188227A (zh) * | 2019-05-05 | 2019-08-30 | 华南理工大学 | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 |
-
2019
- 2019-10-14 CN CN201910974197.1A patent/CN110795591B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
US20180150891A1 (en) * | 2016-11-28 | 2018-05-31 | International Business Machines Corporation | Touch and Pressure-Based Apparel Image Searching |
CN107220373A (zh) * | 2017-06-19 | 2017-09-29 | 太原理工大学 | 一种基于医学征象和卷积神经网络的肺结节ct图像哈希检索方法 |
CN109241313A (zh) * | 2018-08-14 | 2019-01-18 | 大连大学 | 一种基于高阶深度哈希学习的图像检索方法 |
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN110188227A (zh) * | 2019-05-05 | 2019-08-30 | 华南理工大学 | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 |
Non-Patent Citations (1)
Title |
---|
彭天强等: "基于深度卷积神经网络和二进制哈希学习的图像检索方法", 《电子与信息学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326390A (zh) * | 2021-08-03 | 2021-08-31 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
CN113326390B (zh) * | 2021-08-03 | 2021-11-02 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110795591B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improved deep hashing with soft pairwise similarity for multi-label image retrieval | |
CN106649715B (zh) | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 | |
CN112119411A (zh) | 用于统合不同数据模态的统计模型的系统和方法 | |
CN109858390A (zh) | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 | |
Huang et al. | Cost-effective vehicle type recognition in surveillance images with deep active learning and web data | |
CN109063113B (zh) | 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN111832637B (zh) | 基于交替方向乘子法admm的分布式深度学习分类方法 | |
Qiang et al. | Deep semantic similarity adversarial hashing for cross-modal retrieval | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN116758397A (zh) | 基于深度学习的单模态诱导的多模态预训练方法及系统 | |
CN110795591B (zh) | 一种基于离散梯度反向传播的图像检索方法 | |
Chen et al. | Multiple-instance ranking based deep hashing for multi-label image retrieval | |
CN116955650A (zh) | 基于小样本知识图谱补全的信息检索优化方法及其系统 | |
CN111241326B (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
WO2022162427A1 (en) | Annotation-efficient image anomaly detection | |
CN111506832A (zh) | 一种基于块矩阵补全的异构对象补全方法 | |
WO2012077818A1 (ja) | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム | |
CN116431788A (zh) | 面向跨模态数据的语义检索方法 | |
CN116796038A (zh) | 遥感数据检索方法、装置、边缘处理设备及存储介质 | |
CN116383422A (zh) | 一种基于锚点的无监督跨模态哈希检索方法 | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |