CN109885709B - 一种基于自编码预降维的图像检索方法、装置和存储介质 - Google Patents

一种基于自编码预降维的图像检索方法、装置和存储介质 Download PDF

Info

Publication number
CN109885709B
CN109885709B CN201910018426.2A CN201910018426A CN109885709B CN 109885709 B CN109885709 B CN 109885709B CN 201910018426 A CN201910018426 A CN 201910018426A CN 109885709 B CN109885709 B CN 109885709B
Authority
CN
China
Prior art keywords
self
image
coding
hidden layer
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910018426.2A
Other languages
English (en)
Other versions
CN109885709A (zh
Inventor
应自炉
甄俊杰
陈俊娟
甘俊英
龙祥
黄尚安
赵毅鸿
宣晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN201910018426.2A priority Critical patent/CN109885709B/zh
Publication of CN109885709A publication Critical patent/CN109885709A/zh
Application granted granted Critical
Publication of CN109885709B publication Critical patent/CN109885709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于自编码预降维的图像检索方法、装置和存储介质,使用预训练的特征提取网络提取原始图像的图像特征,在对图像特征进行迭代量化之前发送至自编码网络中,通过自编码网络的二次学习实现对图像特征的预降维提取关键特征,将关键特征通过迭代量化转换成二进制哈希编码,再根据二进制哈希编码与参考图的二进制编码之间的汉明距离输出图像检索结果。通过自编码网络实现了预降维,减少了迭代量化的输入维度,避免了迭代量化时特征信息的损失,同时由于迭代量化的输入维度较少,减少了计算所耗费的时间,从而实现了检索准确率和检索效率的大幅提高。

Description

一种基于自编码预降维的图像检索方法、装置和存储介质
技术领域
本发明涉及图像识别领域,特别是一种基于自编码预降维的图像检索方法、装置和存储介质。
背景技术
目前,随着图像识别技术的发展,基于内容的图像检索是其中一种能从海量数据库中检索出图像的方法,由于这种检索方法无需人工对图像进行注释,具有较高的智能化,在诸如军事、建筑设计和人脸识别系统中得到广泛的应用。传统的方法主要通过计算机提取图像底层的视觉特征进行识别,但是这些底层视觉特征大多数是全局特征,当涉及到更为复杂的检索需求时需要提取更深层次的图像特征,但是常见的深层次特征例如LBP和HOG不能将像素级信息与人类所感知的语义信息相关联,即存在语义鸿沟的问题。
为了解决这个问题,现有技术中通常采用卷积神经网络提取特征,这种方案虽然能解决语义鸿沟的问题,但是卷积神经网络所提取的特征通常维度较高,直接用于图像检索容易导致在图像对特征进行量化编码时损失较多特征信息,影响图像检索的准确性。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于自编码预降维的图像检索方法、装置和存储介质,在实际应用中对图像特征进行预降维,筛选出关键特征进行迭代量化,确保图像检索的准确性。
本发明解决其问题所采用的技术方案是:
第一方面,本发明提供了一种基于自编码预降维的图像检索方法,包括以下步骤:
获取输入的原始图像,将原始图像发送至特征提取网络中提取出图像特征;
将图像特征输入至自编码网络中进行训练,所述自编码网络依次包括输入层、隐藏层和输出层,所述隐藏层的数量为3;
当所述图像特征完成自编码网络中的训练后,将自编码网络的第二层隐藏层的输出特征设置为关键特征;
通过迭代量化将关键特征转换成特征哈希编码,计算特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,得出图像检索结果。
进一步,所述特征提取网络为VGG16网络,所述VGG16网络中包括Rulu激活函数和Dropput策略。
进一步,所述VGG16网络的训练数据库为ImageNet图像数据库。
进一步,所述自编码网络的激活函数为sigmoid函数;所述自编码网络为反向传播训练的神经网络。
进一步,所述图像特征的维度为4096维,所述关键特征的维度为1024维。
进一步,所述得出图像检索结果包括:获取计算所得特征哈希编码与所有参考图的哈希编码的汉明距离,按照汉明距离从小到大依次输出图像检索结果。
第二方面,本发明提供了一种基于自编码预降维的图像检索装置,包括以下装置:
图像特征获取单元,用于获取输入的原始图像,将原始图像发送至特征提取网络中提取出图像特征;
自编码训练单元,用于将图像特征输入至自编码网络中进行训练;
关键特征获取单元,用于当所述图像特征完成自编码网络中的训练后,将自编码网络的第二层隐藏层的输出特征设置为关键特征;
图像检索单元,用于通过迭代量化将关键特征转换成特征哈希编码,计算特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,得出图像检索结果。
进一步,所述图像检索单元还包括:
检索结果输出单元,用于获取计算所得特征哈希编码与所有参考图的哈希编码的汉明距离,按照汉明距离从小到大依次输出图像检索结果。
第三方面,本发明提供了一种基于自编码预降维的图像检索设备,包括至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器;存储器存储有可被至少一个控制处理器执行的指令,指令被至少一个控制处理器执行,以使至少一个控制处理器能够执行如上所述的基于自编码预降维的图像检索方法。
第四方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如上所述的基于自编码预降维的图像检索方法。
第五方面,本发明还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使计算机执行如上所述的基于自编码预降维的图像检索方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下有益效果:本发明采用了一种基于自编码预降维的图像检索方法、装置和存储介质,使用预训练的特征提取网络提取原始图像的图像特征,在对图像特征进行迭代量化之前发送至自编码网络中,通过自编码网络的二次学习实现对图像特征的预降维提取关键特征,将关键特征输入通过迭代量化转换成二进制哈希编码,再根据二进制哈希编码与参考图的二进制编码之间的汉明距离输出图像检索结果。对比起现有技术直接使用卷积网络输出特征的方案,本发明的方法通过自编码网络实现了预降维,减少了迭代量化的输入维度,避免了迭代量化时特征信息的损失,同时由于迭代量化的输入维度较少,减少了计算所耗费的时间,从而实现了检索准确率和检索效率的大幅提高。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明实施例一提供的一种基于自编码预降维的图像检索方法的流程图;
图2是本发明实施例一提供的一种基于自编码预降维的图像检索方法的自编码网络结构示意图;
图3是本发明实施例一提供的一种基于自编码预降维的图像检索方法的完整步骤图;
图4是本发明实施例二提供的一种基于自编码预降维的图像检索装置的装置示意图;
图5是本发明实施例三提供的一种基于自编码预降维的图像检索设备的结构示意图。
具体实施方式
目前,随着图像识别技术的发展,基于内容的图像检索是其中一种能从海量数据库中检索出图像的方法,从查询图像的特征出发,通过特征匹配,从图像库中匹配到与之相似图像的技术。对图像进行特征提取后,对特征进行量化编码,最后通过计算编码之间的相似度,按相似度从大到小返回数据库中对应的相似图像。由于这种检索方法无需人工对图像进行注释,具有较高的智能化,在诸如军事、建筑设计和人脸识别系统中得到广泛的应用。传统的方法主要通过计算机提取图像底层的视觉特征进行识别,但是这些底层视觉特征大多数是全局特征,当涉及到更为复杂的检索需求时通常采用一些更深层次的图像特征,力图获得具有判别性的图像特征,如LBP和HOG等特征。LBP特征是比较简单有效的纹理运算符,它对相邻的像素点进行比较,并使用二进制表示比较结果。LBP特征虽然对灰度变化具有一定的鲁棒性,但对图片方向敏感,容易丢失纹理信息。HOG特征将图像分成小的单元(cell),即一些连通区域,然后采集单元中像素点的边缘直方图或梯度,构成特征描述符。因为采用梯度描述图像特征,HOG特征对噪声过于敏感,而且HOG特征难以处理物体形变、被遮挡等问题。其他基于底层视觉的特征均有类似缺陷,即不能将像素级信息与人类所感知语义信息相关联,即存在语义鸿沟的问题。
为了解决这个问题,现有技术中通常采用卷积神经网络提取特征,这种方案虽然能解决语义鸿沟的问题,但是卷积神经网络所提取的特征通常维度较高,直接用于图像检索容易导致在图像对特征进行量化编码时损失较多特征信息,影响图像检索的准确性。
基于此,本发明采用了一种基于自编码预降维的图像检索方法、装置和存储介质,使用预训练的特征提取网络提取原始图像的图像特征,在对图像特征进行迭代量化之前发送至自编码网络中,通过自编码网络的二次学习实现对图像特征的预降维提取关键特征,将关键特征通过迭代量化转换成二进制哈希编码,再根据二进制哈希编码与参考图的二进制编码之间的汉明距离输出图像检索结果。对比起现有技术直接使用卷积网络输出特征的方案,本发明的方法通过自编码网络实现了预降维,减少了迭代量化的输入维度,避免了迭代量化时特征信息的损失,同时由于迭代量化的输入维度较少,减少了计算所耗费的时间,从而实现了检索准确率和检索效率的大幅提高。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
参照图1和图2,本发明的实施例一提供了一种基于自编码预降维的图像检索方法,包括以下步骤:
步骤S1,获取输入的原始图像,将原始图像发送至特征提取网络中提取出图像特征;
步骤S2,将图像特征输入至自编码网络中进行训练,所述自编码网络依次包括输入层、隐藏层和输出层,所述隐藏层的数量为3;
步骤S3,当所述图像特征完成自编码网络中的训练后,将自编码网络的第二层隐藏层的输出特征设置为关键特征;
步骤S4,通过迭代量化将关键特征转换成特征哈希编码,计算特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,得出图像检索结果。
其中,在本实施例中,所述输入的原始图像可以是任意大小的图形,本实施例中优选224×224像素的RGB图像。
其中,在本实施例中,可以直接将输出的图形特征进行迭代量化计算,也可以通过自编码网络进行预降维。本实施例中引入了自编码网络进行预降维,迭代量化的编码方法虽然能对存在大量冗余的高维特征数据进行降维,能够最大限度保留数据方差大的方向上的信息,但是根本上还是简单的对数据进行投影。本实施例中所优选的由输入层、输出层和三个隐藏层组成的自编码网络对特征提取网络学习到的特征进行二次学习,目的是通过非线性学习,获得特征数据中的关键特征信息,对数据进行初步的降维,再在获得的关键特征信息基础上使用迭代量化方法得到指定长度的特征哈希编码用于图像检索。
其中,如图2所示,自编码网络依次包括输入层、第一隐藏层、第二隐藏层、第三隐藏层和输出层。本实施例中采用VGG16网络作为特征提取网络,当输入224×224的原始图像后,所提取的图像特征为4096维。所述图像特征进入到自编码网络后,第一隐藏层进行首次降维,输出特征维度为2048维,第二隐藏层输出1024维,第三隐藏层用于解码,因此经过第三隐藏层之后维度为2048维,输出层用于数据重构,输出为4096维,因此第二隐藏层的输出维度为最低,为了保证降维后数据的稀疏性,以至于后续进行迭代量化时不会造成过多的信息损耗。
其中,在本实施例中,自编码网络学习完成优选采用目标函数进行验证,所述目标函数为loss函数,其表达式为:L(X;W)=||Wh3-X||2+λ∑2|h2|;其中,W为预先设定的权重参数,h3为第三隐藏层的输出,h2为第二隐藏层的输出,λ为预选设定的参数,当检测到loss函数的数据与输出层的数据相等时,判断为自编码网络学习完成,读取当前第二隐藏层的输出作为关键特征。
其中,在本实施例中,为了让不同数据的哈希编码互相垂直,每一比特之间的方差达到最大化,满足以下公式:
L(P)=∑kvar(hk(x))=∑kvar(sgn(xpk)),
Figure BDA0001938465120000091
其中B为哈希编码向量组成的矩阵,x为原数据,P为投影矩阵,pk为P的向量,BTB表示符合正交矩阵的条件。通过正交矩阵的条件限制哈希超平面互相垂直,相当于对编码互相垂直的约束进行放宽。
其中,在本实施例中,为了对降维后的数据进行二进制哈希编码,可以用以下目标函数对哈希编码与PGA降维同时进行描述,其中R是旋转矩阵,B是哈希编码矩阵,满足
Figure BDA0001938465120000092
s.t.WTW=I。
优选地,在本实施例中,迭代量化通过最小化目标函数实现,首先固定R,对B进行更新,显然B=sgn(XWR);第二步:固定B,对R进行更新公式,等价于求解正交普克拉提斯问题。首先对BTXW求SVD分解得到BTXW=VΛUT,再求得R=UVT;该算法基于量化误差最小化,并通过循环迭代使得生成的二进制保证了原本相近的数据点的哈希编码的相似性,能够提高检索准确度。
进一步,在本发明的另一个实施例中,所述特征提取网络为VGG16网络,所述VGG16网络中包括Rulu激活函数和Dropput策略。
其中,在本实施例中,特征提取网络可以是任意CNN网络,本实施例中优选VGG16网络。VGG16网络深度为16层,由输入RGB图像,卷积层(CONV),池化层(MAX-POOL),全连接层(FC)和Softmax层组成。其中,VGG-16网络包含13个卷积层与3个全连接层。将224×224的原始图像输入所述VGG16网网络后,卷积层采用了3×3卷积核,不仅能较好地提取图像的细小特征,而且对图像的边缘、轮廓等特征有较强识别能力;该网络对2个或3个卷积层进行对堆叠成为卷积块(Convolutional Block),通过使用堆叠的3×3卷积核进行卷积,可以获得与5×5或7×7卷积核相同的感受野,并且因为进行了较多次的卷积运算得使网络模型获得较好的非线性;卷积核的滑动步长为1,并在卷积后对输出矩阵的边界进行填充保证每一层特征图的大小不变;在每个卷积块后使用大小为2×2、步长为2的池化窗口特征图进行下采样,在保证平移不变性的同时输出维数;在最后一个池化层后由三个全连接层组成,通道个数分别是4096、4096和1000,大小均为1×1;最后是可对1000个标签进行分类输出的SoftMax分类器。
其中,本实施例中优选采用了Dropput策略来防止网络的过拟合现象,在训练过程中按照一定概率将神经网络单元忽略,使得在随机梯度下降过程中,相当于在训练不同的网络,因此能够实现减少过拟合,提高网络泛化性能。
进一步,在本发明的另一个实施例中,所述VGG16网络的训练数据库为ImageNet图像数据库。
其中,在本实施例中,VGG16网络可以通过任意形式的方式训练所得,本实施例优选采用ImageNet图像数据库,和原始图像共同输入至VGG16网络中。所述ImageNet图像数据库具有1000类、120万张图片,巨大的数据规模有助于普适模型的训练,因此对于ImageNet数据集外的图片进行分类也表现出了很好的泛化性能。网络训练采用批量梯度下降法进行学习,超参数设置如下:输入图像数量为256,动量为0.9,权重衰减系数为0.0005,全连接层dropout比例为0.5,初始学习率为0.01。
进一步,在本发明的另一个实施例中,所述自编码网络的激活函数为sigmoid函数;所述自编码网络为反向传播训练的神经网络。
其中,在本实施例中,优选采用反向传播训练的神经网络,通过对输出层的输出和loss函数的对比来判断是否完成训练,能够确保输出的数据具有讲好的稀疏性,同时不会损失图像特征,有利于后续的迭代量化。
进一步,在本发明的另一个实施例中,所述图像特征的维度为4096维,所述关键特征的维度为1024维。
其中,优选地,本实施例提取将图像输入到训练后的VGG-16网络得到的第二个全连接层4096维输出作为该图像特征。
进一步,在本发明的另一个实施例中,所述得出图像检索结果包括:获取计算所得特征哈希编码与所有参考图的哈希编码的汉明距离,按照汉明距离从小到大依次输出图像检索结果。
其中,在本实施例中,对于待检索图像,对其特征进行哈希编码后,计算该哈希编码a与库中不同图像的哈希编码bj之间的汉明距离,即两个编码之间对应位上码元取值不同的位数,用D(a,bj)表示,
Figure BDA0001938465120000121
表示同或,公式如下:
Figure BDA0001938465120000122
按照汉明距离由小到大排序,依次返回图像检索结果,最先返回的为检索出最匹配的结果。
参考图3,另外,本发明的另一个实施例还提供了一种基于自编码预降维的图像检索方法,包括以下步骤:
步骤S100,获取输入的224×224的原始RGB图像,将原始RGB图像发送至VGG16网络中,提取出4096维的图像特征;
步骤S200,将4096维的图像特征输入至自编码网络中,依次通过输入层,第一隐藏层,第二隐藏层的训练,再通过第三隐藏层和输出层恢复重构输入数据;
步骤S300,当检测到自编码网络中loss函数的数据与输出层重的输入构数据相等时,判断为自编码网络学习完成,将此时第二隐藏层的输出特征设置为关键特征;
步骤S400,将所述关键特征进行迭代量化,转换成二进制的特征哈希编码;
步骤S500,计算出特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,根据汉明距离的从小到大输出为图像检索结果。
其中,本实施例的使用预训练的VGG16网络提取原始图像的图像特征,在对图像特征进行迭代量化之前发送至自编码网络中,通过自编码网络的二次学习实现对图像特征的预降维提取关键特征,将关键特征通过迭代量化转换成二进制哈希编码,再根据二进制哈希编码与参考图的二进制编码之间的汉明距离输出图像检索结果。对比起现有技术直接使用卷积网络输出特征的方案,本发明的方法通过自编码网络实现了预降维,减少了迭代量化的输入维度,避免了迭代量化时特征信息的损失,同时由于迭代量化的输入维度较少,减少了计算所耗费的时间,从而实现了检索准确率和检索效率的大幅提高。
参照图4,本发明实施例还提供了一种基于自编码预降维的图像检索装置,在该基于自编码预降维的图像检索装置1000中,包括但不限于:图像特征获取单元1100、自编码训练单元1200、关键特征获取单元1300和图像检索单元1400。
其中,图像特征获取单元1100用于获取输入的原始图像,将原始图像发送至特征提取网络中提取出图像特征;
自编码训练单元1200用于将图像特征输入至自编码网络中进行训练;
关键特征获取单元1300用于当所述图像特征完成自编码网络中的训练后,将自编码网络的第二层隐藏层的输出特征设置为关键特征;
图像检索单元1400用于通过迭代量化将关键特征转换成特征哈希编码,计算特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,得出图像检索结果。
进一步,在本发明的另一个实施例中,所述图像检索单元1400还包括但不限于检索结果输出单元1410:
其中,检索结果输出单元1410用于获取计算所得特征哈希编码与所有参考图的哈希编码的汉明距离,按照汉明距离从小到大依次输出图像检索结果。
需要说明的是,由于本实施例中的基于自编码预降维的图像检索装置与上述的基于自编码预降维的图像检索方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本装置实施例,此处不再详述。
参照图5,本发明实施例还提供了一种基于自编码预降维的图像检索设备,该基于自编码预降维的图像检索设备6000可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。
具体地,该基于自编码预降维的图像检索设备6000包括:一个或多个控制处理器6001和存储器6002,图5中以一个控制处理器6001为例。
控制处理器6001和存储器6002可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器6002作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的基于自编码预降维的图像检索设备对应的程序指令/模块,例如,图4中所示的图像特征获取单元1100和自编码训练单元1200。控制处理器6001通过运行存储在存储器6002中的非暂态软件程序、指令以及模块,从而执行基于自编码预降维的图像检索装置1000的各种功能应用以及数据处理,即实现上述方法实施例的基于自编码预降维的图像检索方法。
存储器6002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于自编码预降维的图像检索装置1000的使用所创建的数据等。此外,存储器6002可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器6002可选包括相对于控制处理器6001远程设置的存储器,这些远程存储器可以通过网络连接至该基于自编码预降维的图像检索设备6000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器6002中,当被所述一个或者多个控制处理器6001执行时,执行上述方法实施例中的基于自编码预降维的图像检索方法,例如,执行以上描述的图1中的方法步骤S1至S4,实现图4中的单元1100-1400的功能。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被图5中的一个控制处理器6001执行,可使得上述一个或多个控制处理器6001执行上述方法实施例中的基于自编码预降维的图像检索方法,例如,执行以上描述的图1中的方法步骤S1至S4,实现图4中的单元1100-1400的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于自编码预降维的图像检索方法,其特征在于,包括以下步骤:
获取输入的原始图像,将原始图像发送至特征提取网络中提取出图像特征,其中,所述图像特征的维度为4096维;
将图像特征输入至自编码网络中进行训练,所述自编码网络依次包括输入层、隐藏层和输出层,所述隐藏层包括第一隐藏层、第二隐藏层和第三隐藏层,所述第一隐藏层用于首次降维,输出特征维度为2048维,所述第二隐藏层的输出特征为1024维,所述第三隐藏层用于解码,其中,自编码网络学习完成优选采用目标函数进行验证,所述目标函数为loss函数,其表达式为:L(X;W)=||Wh3-X||2+λ∑2|h2|;其中,W为预先设定的权重参数,h3为所述第三隐藏层的输出,h2为所述第二隐藏层的输出,λ为预选设定的参数,当检测到loss函数的数据与输出层的数据相等时,判断为自编码网络学习完成,读取当前第二隐藏层的输出作为关键特征;
当所述图像特征完成自编码网络中的训练后,将所述第二隐藏层的输出特征设置为关键特征,所述关键特征的维度为1024维,其中,所述关键特征每一比特之间的方差满足以下公式:L(P)=∑kvar(hk(x))=∑kvar(sgn(xpk)),
Figure FDA0003888183470000011
其中L(P)为方差,B为哈希编码向量组成的矩阵,x为原数据,P为投影矩阵,pk为P的向量,BTB表示符合正交矩阵的条件;
通过迭代量化将关键特征转换成特征哈希编码,计算特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,按照汉明距离由小到大排序,依次返回图像检索结果,其中,所述特征哈希编码通过以下目标函数进行降维:
Figure FDA0003888183470000021
s.t.WTW=I,其中,R是旋转矩阵,B是哈希编码向量组成的矩阵,降维过程包括:固定R对B进行更新,使得B=sgn(XWR);固定B,对BTXW求SVD分解得到BTXW=VAUT,得到R=UVT;汉明距离计算公式为
Figure FDA0003888183470000022
其中,a[i]为特征哈希编码,bj[i]为所述数据库的参考图的哈希编码,a[i]和bj[i]为两个编码之间对应位上码元取值不同的位数,
Figure FDA0003888183470000023
表示同或。
2.根据权利要求1所述的一种基于自编码预降维的图像检索方法,其特征在于:所述特征提取网络为VGG16网络,所述VGG16网络中包括Rulu激活函数和Dropput策略。
3.根据权利要求2所述的一种基于自编码预降维的图像检索方法,其特征在于:所述VGG16网络的训练数据库为ImageNet图像数据库。
4.根据权利要求1所述的一种基于自编码预降维的图像检索方法,其特征在于:所述自编码网络的激活函数为sigmoid函数;所述自编码网络为反向传播训练的神经网络。
5.一种基于自编码预降维的图像检索装置,其特征在于,包括以下装置:
图像特征获取单元,用于获取输入的原始图像,将原始图像发送至特征提取网络中提取出图像特征,其中,所述图像特征的维度为4096维;
自编码训练单元,用于将图像特征输入至自编码网络中进行训练,所述自编码网络依次包括输入层、隐藏层和输出层,所述隐藏层包括第一隐藏层、第二隐藏层和第三隐藏层,所述第一隐藏层用于首次降维,输出特征维度为2048维,所述第二隐藏层的输出特征为1024维,所述第三隐藏层用于解码,其中,自编码网络学习完成优选采用目标函数进行验证,所述目标函数为loss函数,其表达式为:L(X;W)=||Wh3-X||2+λ∑2|h2|;其中,W为预先设定的权重参数,h3为所述第三隐藏层的输出,h2为所述第二隐藏层的输出,λ为预选设定的参数,当检测到loss函数的数据与输出层的数据相等时,判断为自编码网络学习完成,读取当前第二隐藏层的输出作为关键特征;关键特征获取单元,用于当所述图像特征完成自编码网络中的训练后,将自编码网络的第二层隐藏层的输出特征设置为关键特征,将所述第二层隐藏层的输出特征设置为关键特征,所述关键特征的维度为1024维,其中,所述关键特征每一比特之间的方差满足以下公式:L(P)=∑kvar(hk(x))=∑kvar(sgn(xpk)),
Figure FDA0003888183470000031
其中L(P)为方差,B为哈希编码向量组成的矩阵,x为原数据,P为投影矩阵,pk为P的向量,BTB表示符合正交矩阵的条件;
图像检索单元,用于通过迭代量化将关键特征转换成特征哈希编码,计算特征哈希编码与数据库中保存的所有参考图的哈希编码的汉明距离,按照汉明距离由小到大排序,依次返回图像检索结果,其中,所述特征哈希编码通过以下目标函数进行降维:
Figure FDA0003888183470000041
Figure FDA0003888183470000042
s.t.WTW=I,其中,R是旋转矩阵,B是哈希编码矩阵,降维过程包括:固定R对B进行更新,使得B=sgn(XWR);固定B,对BTXW求SVD分解得到BTXW=VAUT,得到R=UVT;汉明距离计算公式为
Figure FDA0003888183470000043
其中,a为特征哈希编码,bj为所述数据库的参考图的哈希编码,a和bj为两个编码之间对应位上码元取值不同的位数,
Figure FDA0003888183470000044
表示同或。
6.根据权利要求5所述的一种基于自编码预降维的图像检索装置,其特征在于,所述图像检索单元还包括:
检索结果输出单元,用于获取计算所得特征哈希编码与所有参考图的哈希编码的汉明距离,按照汉明距离从小到大依次输出图像检索结果。
7.一种基于自编码预降维的图像检索设备,其特征在于:包括至少一个控制处理器和用于与所述至少一个控制处理器所通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1-4任一项所述的一种基于自编码预降维的图像检索方法。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-4任一项所述的一种基于自编码预降维的图像检索方法。
CN201910018426.2A 2019-01-08 2019-01-08 一种基于自编码预降维的图像检索方法、装置和存储介质 Active CN109885709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910018426.2A CN109885709B (zh) 2019-01-08 2019-01-08 一种基于自编码预降维的图像检索方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910018426.2A CN109885709B (zh) 2019-01-08 2019-01-08 一种基于自编码预降维的图像检索方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109885709A CN109885709A (zh) 2019-06-14
CN109885709B true CN109885709B (zh) 2022-12-23

Family

ID=66925689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910018426.2A Active CN109885709B (zh) 2019-01-08 2019-01-08 一种基于自编码预降维的图像检索方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109885709B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427222A (zh) * 2019-06-24 2019-11-08 北京达佳互联信息技术有限公司 数据加载方法、装置、电子设备及存储介质
US11461594B2 (en) 2020-03-23 2022-10-04 Raytheon Company Transform disentangling auto-encoder and related methods
CN111914469A (zh) * 2020-06-16 2020-11-10 广东电网有限责任公司 一种考虑敷设方式的中压电缆导体温度计算方法
CN111754480B (zh) * 2020-06-22 2024-04-16 上海华力微电子有限公司 晶背缺陷图检索及预警方法、存储介质及计算机设备
CN114063164A (zh) * 2020-08-05 2022-02-18 中国石油天然气股份有限公司 基于U-net++卷积神经网络的初至波拾取方法及装置
CN112464014B (zh) * 2020-12-09 2022-03-25 广东工业大学 一种基于图卷积的无监督哈希工业布匹纹理图片检索方法
CN113255237B (zh) * 2021-07-07 2021-12-10 杭州珞珈数据科技有限公司 一种基于自动化建模引擎的服装的检索模型及其方法
CN113592003B (zh) * 2021-08-04 2023-12-26 智道网联科技(北京)有限公司 一种图片传输方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统
CN109086437A (zh) * 2018-08-15 2018-12-25 重庆大学 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统
CN109086437A (zh) * 2018-08-15 2018-12-25 重庆大学 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep learing of binary hash codes for fast image retrieval;Kevin Lin等;《Proceedings of the IEEE conference on computer vision and pattern recognition(CVPR) workshops》;20151231;27-35 *
Reducing the dimensionality of data with neural networks;G.E. HiNTON 等;《Science》;20060728;第313卷(第5786期);504-507 *
一种稀疏降噪自编码神经网络研究;张成刚等;《内蒙古民族大学学报(自然科学版)》;20160115(第01期);27-31、99 *

Also Published As

Publication number Publication date
CN109885709A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109885709B (zh) 一种基于自编码预降维的图像检索方法、装置和存储介质
Li et al. A novel CNN based security guaranteed image watermarking generation scenario for smart city applications
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN111950649B (zh) 基于注意力机制与胶囊网络的低照度图像分类方法
US11430255B2 (en) Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
KR101777601B1 (ko) 초서체 또는 흘림체로 작성된 문자의 판별 방법 및 시스템
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN112164002A (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN111079514A (zh) 一种基于clbp和卷积神经网络的人脸识别方法
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN113821667A (zh) 基于人工智能的图像处理方法、装置及电子设备
CN113592041B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113869234A (zh) 人脸表情识别方法、装置、设备及存储介质
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
CN114299304A (zh) 一种图像处理方法及相关设备
CN116884067A (zh) 一种基于改进的隐式语义数据增强的微表情识别方法
Benuwa et al. Deep locality‐sensitive discriminative dictionary learning for semantic video analysis
CN112801153B (zh) 一种嵌入lbp特征的图的半监督图像分类方法及系统
CN115457638A (zh) 模型训练方法、数据检索方法、装置、设备及存储介质
CN114973098A (zh) 一种基于深度学习的短视频去重方法
Ohbuchi et al. Ranking on semantic manifold for shape-based 3d model retrieval
CN112597925A (zh) 手写字迹的识别/提取、擦除方法及擦除系统、电子设备
CN111160398A (zh) 一种基于示例级和标签级关联的缺失标签多标签分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant