CN112364193A - 面向图像检索的融合多层特征深度神经网络模型方法 - Google Patents

面向图像检索的融合多层特征深度神经网络模型方法 Download PDF

Info

Publication number
CN112364193A
CN112364193A CN202011285825.4A CN202011285825A CN112364193A CN 112364193 A CN112364193 A CN 112364193A CN 202011285825 A CN202011285825 A CN 202011285825A CN 112364193 A CN112364193 A CN 112364193A
Authority
CN
China
Prior art keywords
image
model
image retrieval
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011285825.4A
Other languages
English (en)
Inventor
臧笛
严诣青
陈隽
李洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202011285825.4A priority Critical patent/CN112364193A/zh
Publication of CN112364193A publication Critical patent/CN112364193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

面向图像检索的融合多层特征深度神经网络模型方法。首次提出了一种更加密集连接的融合多层特征深度神经网络,并基于此网络提出了图像检索方法,通过将多层特征进行了融合,并引入了视觉注意力机制,增加了压缩奖惩模块(squeeze‑and‑excitation(SE)block),将部分层的特征更加充分地利用,使得模型的训练速度更快,并且能对图像特征进行多维度的提取,更加深入地挖掘图片中蕴含的信息,从而提高对图像检索的准确性和鲁棒性。

Description

面向图像检索的融合多层特征深度神经网络模型方法
技术领域
本发明涉及融合多层特征深度神经网络在图像检索的应用。
背景技术
图像检索的实质是基于图像的特征检索出图像库中具有相似特征的其他图像。通过对大量训练集图像的特征学习,获取图像蕴含的信息,建立图像检索的数据库,通过目标图像与数据库内所有图像提取的特征进行比较,找到特征最为相似的若干张图片。
根据描述图像内容方式的不同,图像检索方法主要分为两类:基于文本的图像检索和基于内容的图像检索。
基于文本的图像检索方法是利用文本描述的方式描述图像特征,以人工标注方式或图像识别技术进行半自动标注方式为每幅图像形成描述该图像内容的关键词,如图像名称、尺寸、作者、年代等,图像检索时通过关键词查找特定类目下的图像。这种图像检索方式易于实现,且在标注时由人工介入,查准率相对较高,在中小规模图像检索应用上仍有使用。但基于文本描述的方式缺陷非常明显,首先该方式需要人工介入进行标注,只适用于小规模图像数据,对于大规模的海量图像数据难以完成,需要消耗大量人力物力,其次每次图像入库时均需要人工干预,无法自行学习图像特征,并且部分图像较难用关键词进行描述,再次人工标注过程会受到标注者认知水平、言语使用以及主观判断等因素的影响,会造成相同图像不同关键词的情况。后来,基于内容的图像检索方法逐步建立起来,并得到飞速发展。
基于内容的图像检索方法是以图像语义为特征从图像数据库中检索出具有相似特征的其他图像。该方法首先需要通过特征提取方法提取图像的特征并将其建立图像检索特征数据库,图像检索时用相同特征提取方法提取目标图像的特征,并在相似性度量准则下计算目标图像特征到数据库中各个特征的相似性大小,最后按照相似性大小进行排序得到与目标图像最为相似的若干张图片。一些机器学习方法也被提出来用于图像特征提取,如哈尔特征(Haar-like features)、局部二值模式(LBP)、方向梯度直方图(HOG),这些机器学习方法在图像特征提取方面一定程度上取得了较好的效果,但是它们都属于浅型模型,在有限的样本和计算单元的条件下,对复杂函数的表达能力,泛化能力等都存在局限性。近年来,深度学习快速发展,一些深度学习方法,如卷积神经网络(CNN)、残差网络(ResNet),用于图像特征提取获得了较好的表现,相比机器学习模型,深度学习模型具有更强大的特征学习和特征表达能力,提取的特征包含更多图像信息,更为准确。在基于内容的图像检索方法中图像内容的表大和相似性度量由计算机自动处理,克服了采用文本进行图像检索所遇到的缺陷,减轻大量人力物力的消耗,大大提高检索效率。
然而,现有的深度学习方法虽然在图像检索上取得了一定进展,但仍然有部分问题未得到很好的解决。有些模型随着网络模型深度的增加会产生梯度消失的问题,严重影响模型的扩展性,现有的深度学习模型DenseNet减轻了梯度消失问题,同时由于模型参数数量较大,会有训练速度较慢的问题,并且模型特征提取的精度也有待提高。
发明内容
本发明目的在于克服现有技术的不足,公开一种基于融合多层特征深度神经网络模型的基于内容的图片检索方法。针对如何提高对图像特征提取与检索的准确性,本发明提出了一种融合多层特征的深度神经网络,并基于此网络提出了图像特征提取与检索方法。
方法原理:
通过构建融合多层特征的深度神经网络,同时引入视觉的注意力机制,对图像蕴含的信息进行多维度的深入挖掘,从而提取图像中更多特征,并根据提取的特征建立图像检索的数据库。对于需要进行图像检索的图片,通过网络模型同样提取特征,计算该特征与数据库中的特征的距离,该距离大小即为图像之间的相似度高低,最终得到图像检索的结果。
需要保护的技术方案为:
一种面向图像检索的融合多层特征深度神经网络模型方法,具体方法包括如下步骤:
(1)将具有类别信息的图片分为训练集和测试集,对融合多层特征的深度网络进行训练,依据图片分类结果判定模型准确性;
在DenseNet模型的基础上融合多层Dense block特征,并引入压缩奖惩模块(squeeze-and-excitation block,SE block)。通过学习图像经过多个Dense block后输出的多尺度特征图,对图像信息进行多维度挖掘,从而提取图像更多特征信息。将模型用于图像分类,将分类结果作为判定模型特征提取效果优劣的标准,对模型进行训练。
(2)通过反向传播算法对深度网络进行分类任务的训练优化;
首先定义损失函数来描述模型的图像分类精度,然后通过反向传播算法计算损失函数对每一个参数的梯度,再根据梯度和学习率使用优化算法找到合适的权重和偏置值,使得损失函数最小化,从而得到更准确的分类结果,即模型特征提取更为准确。
(3)使用训练好的深度网络进行图片特征提取,通过对特征进行编码并聚合以及数据库索引,实现图像检索;
首先将数据集中的图片输入步骤(2)训练好的模型,输出分类层前一层的特征图作为特征提取的结果,将提取的特征保存到文件中形成图像检索数据库。将需要进行图像检索的图片输入模型,得到该图片的特征图。对目标图片的特征图与数据库中所有特征图进行欧式距离的计算,对数据库中的图片根据欧式距离从小到大进行排序,则排名前k个的图片即图像检索的top k。
附图说明
图1图像检索的融合多层特征深度神经网络方法的系统流程图。
图2图像检索的融合多层特征深度神经网络模型结构图。
图3Dense block结构图。
图4压缩奖惩模块(squeeze-and-excitation(SE)block)结构图。
图5PatternNet遥感数据集图像实例。
图6桌子数据集图像实例。
图7模型使用PatternNet遥感数据集训练验证集accuracy折线图。
图8模型使用PatternNet遥感数据集训练验证集loss折线图。
图9模型使用桌子数据集训练验证集accuracy折线图。
图10模型使用桌子数据集训练验证集loss折线图。
图11PatternNet数据集图像检索top10结果实例。
图12椅子数据集图像检索top10结果实例。
具体实施方式
本发明具体实施过程如图1所示,包括如下3个方面:
①将具有类别信息的图片按一定比例分为训练集和测试集对融合多层特征的深度网络进行训练,依据图片分类结果判定模型准确性;
②通过反向传播算法对网络进行分类任务的训练优化;
③使用训练好的深度网络进行图片特征提取,通过对特征进行编码并聚合以及数据库索引,实现图像检索;
各个步骤详述如下:
一、将具有类别信息的图片分为训练集和测试集对融合多层特征的深度网络进行训练,依据图片分类结果判定模型准确性。
图2展示了融合多层特征的深度神经网络模型结构,在DenseNet的基础上进行了改进,融合了多层Dense block的输出,并在其中增加了压缩奖惩网络模块(squeeze-and-excitation(SE)block)。
在深度学习网络中,随着网络深度的加深,梯度消失问题会更加显著。DenseNet能够有效减轻梯度消失问题。DenseNet的核心是Dense block。图3是一个五层Dense block的模块结构。在Dense block中每一层的输入来自前面所有层的输出。第l层的输出如下所示:
ol=Hl([o0,o1,…,ol-1])#(1)
其中,[o0,o1,…,ol-1]表示将0至l-1层输出的特征图进行通道合并后的结果,Hl表示第l层的卷积操作,ol为第l层的输出。通道合并操作是特征图在通道这一维度进行相加,合并后特征图大小不变,通道数为多个特征图通道数的总和。这种模块结构使得特征和梯度的传递更加有效,网络更加容易训练。
在此基础上,我们融合多层Dense block输出的特征。将每个网络中四个Denseblock模块输出的特征图进行通道合并操作,将合并后的结果再经过批标准化层(BN层)和平均池化层(global average pooling层),得到最终分类结果。相较于仅学习最后一个Dense block输出的特征,通过融合多层特征,可以学习每个Dense block输出的尺度不同的图片特征,能够提升模型的准确性,同时更大程度缓解梯度下降问题。
除此之外,我们还在模型中加入了压缩奖惩网络模块(squeeze-and-excitation(SE)block)。图4为压缩奖惩网络模块结构。压缩奖惩网络模块是一个计算单元,核心是网络根据loss学习特征权重,使得有效的特征图权重大,无效或效果小的特征图权重小,训练模型以达到更好的结果。该模块建立在卷积操作的基础上,将输入
Figure BDA0002782285180000051
映射为特征映射
Figure BDA0002782285180000052
其中X表示输入的三维矩阵,H′、W′、C′分别表示输入的高度、宽度和通道数,U表示映射后输出的三维矩阵,H、W、C分别表示输出的高度、宽度和通道数。我们使用V=[v1,v2,…,vC]表示滤波核的集合,其中vc为第c个滤波器的参数,输出为U=[i1,i2,…,uC]。则输出的计算公式为:
Figure BDA0002782285180000053
其中*表示卷积操作,
Figure BDA0002782285180000054
表示第s个通道中第c个滤波器的参数,X=[x1,x2,…,xC'],xs,s∈[1,C′]表示第s个通道中的输入,并且输出
Figure BDA0002782285180000055
uc表示第c个滤波器中的输出,是一个二维矩阵,H、W分别表示输出的高度和宽度,与上文中U的高度和宽度相同。
Figure BDA0002782285180000056
是一个二维空间核,表示作用于X对应的通道的vc的单个通道。为了简化符号,省略了偏置项。
该模块主要包含压缩(squeeze)和奖惩(excitation)两部分。
(1)压缩:全局信息嵌入
为了解决通道依赖的利用问题,首先考虑输出特征中每个通道的信号。每个学习到的过滤器都对局部感受野进行操作,因此变换输出U的每个单元都不能利用该区域以外的上下文信息。
为了缓解这一问题,压缩部分通过使用全局平均池来生成基于通道的统计信息,将全局空间信息压缩到一个通道描述符中。形式上,统计量
Figure BDA0002782285180000057
通过U的空间维数H×W进行收缩得到,是一个一维矩阵,C表示通道数。因此z的第c个元素计算为:
Figure BDA0002782285180000061
其中Fsq(uc)表示对uc进行压缩操作,uc(i,j)为公式(2)中第c个滤波器的矩阵中高度为i∈[1,H]宽度为j∈[1,W]的输出元素,其中H、W与上文中U的高度和宽度相同。U的输出可以看作是局部描述符的集合,公式(3)的压缩操作是通过全局平均池来计算这些描述符的统计量,用这些统计量来表达整个图像。
(2)奖惩:自适应调整
为了利用在上一步压缩操作中聚集的信息,接下来进行第二个操作奖惩,其目的是完全捕获通道上的依赖关系。为了实现该目标,奖惩操作的函数必须灵活,有能力学习通道之间的非线性交互,同时必须学会非互斥的关系。因此,选择使用一个简单的门机制,并使用sigmoid激活:
s=Fex(z,W)=σ(W2δ(W1z))#(4)
其中Fex(z,W)表示对统计量z通过矩阵W进行奖惩操作,其中W由W1和W2两部分组成,σ为sigmoid激活函数,δ为ReLU函数,
Figure BDA0002782285180000062
表示一个二维矩阵,大小为
Figure BDA0002782285180000063
Figure BDA0002782285180000064
表示一个二维矩阵,大小为
Figure BDA0002782285180000065
为了限制模型复杂度和辅助泛化,模块通过在非线性周围形成两个全连接层的瓶颈来参数化门机制,即一个参数为W1的降维层,降维比例为r,一个ReLU,和一个参数为W2的升维层。该模块最终输出是通过重新调节带有激活变换输出U得到:
Figure BDA0002782285180000066
其中
Figure BDA0002782285180000067
为奖惩模块最终输出,并且Fscale(uc,tc)表示标量tc与特征映射
Figure BDA0002782285180000068
之间的对应通道的乘积。奖惩作为适应特定输入描述符的通道权重。压缩奖惩模块本质上引入了以输入为条件的动态特性,有助于提高特征辨别力。
二、通过反向传播算法对网络进行分类任务的训练优化。
为了对模型特征提取的效果进行评判,我们首先将模型分类结果作为评判标准。我们需要用训练样本对模型参数进行训练,还需要定义损失函数(loss)来度量模型的精度,损失函数越小,代表模型的分类结果与真实值的偏差越小,即模型特征提取的结果越精确。训练的目的是通过优化算法找到合适的权重和偏置,使得损失函数的值最小化。由于图像分类属于回归任务,因此在反向传播过程中,选择交叉熵损失函数(categorical_crossentropy)作为损失函数,其定义由公式(6)给出,并且选择RMS优化器对其进行优化。
Figure BDA0002782285180000071
其中yi为每张图片真实类别向量中属于第i类的值(若图像属于第i类,则yi=1,否则yi=0),pi为模型分类结果中样本i预测为正的概率,N表示总类别数量。
本发明所使用的图片数据共有两个。一个为PatternNet常用于遥感图像检索的大规模高分辨率遥感数据集,另一个为我们自行收集的关于不同类型的桌子的小型数据集。PatternNet数据集中的图像是从Google Earth图像或通过Google Map API收集的美国的一些城市的图像。PatternNet数据集中总共有30400张图像,共有38个类,每类有800张大小为256×256像素的图像。图5显示了该数据集中部分类别的部分示例图像。桌子数据集是我们从网络销售平台、网络搜索平台等网站中搜集得到的,该数据集中共有907张图片,共有10类,每类有90张左右像素大小不固定的桌子图像。图6显示了部分桌子类别的部分示例图像。
将图像数据集中训练集输入改进后的模型,通过反向传播算法计算损失函数对模型中每层的参数的梯度,使用优化器更新每一个参数实现对模型的优化训练。本发明采用python 3.5.2,以及深度学习框架keras 2.1.6和tensorflow 1.9.0作为实验平台,并采用显卡NVIDIA GeForce GTX 1080 GPU进行训练加速。完成网络模型的训练后,最后将测试的图片数据集输入到图2中的融合多层特征的深度神经网络得到分类的结果,通过分类结果判断模型特征提取效果。
图7和图8是使用PatternNet遥感数据集训练原始DenseNet模型和融合多层特征的DenseNet深度网络模型的结果;图
7和图8中颜色较淡的曲线分别表示原始模型训练中验证集准确率和loss的变化曲线,颜色较深的曲线分别表示改进后模型训练中loss和准确率的变化曲线。
图9和图10分别是使用自制桌子数据集训练原始模型和融合多层特征的深度网络模型的结果,与之前相同,图9和图10中颜色较淡的曲线分别表示原始模型训练中验证集loss和准确率的变化曲线,颜色较深的曲线分别表示改进后模型训练中loss和准确率的变化曲线。从图中可以看出,使用多个数据集进行训练,本发明模型的loss收敛速度均快于原始模型loss收件速度,准确率提升速度也较快,同时,模型准确率较原始模型有一定的提升,说明模型对于图像特征提取结果比原始模型更为精确。
三、使用训练好的深度网络进行图片特征提取,通过对特征进行编码并聚合以及数据库索引,实现图像检索。
使用步骤二中训练好的模型进行特征提取,输入图片后输出为模型最后一层前全局平均池化层(global average pooling)输出的特征图,该特征图即输入图片的提取的特征。将图像路径、提取的特征以及该图像的类别保存在index_file中,形成图像数据库,之后进行图像检索即在该图像数据库中查找与目标图像相似的图像。
给定需要进行图像检索的图像,利用欧式距离找出与目标图像相似的图像。通过步骤二训练好的模型对给定的图像进行同样的特征提取操作,得到特征图。将该特征图与index_file存储的每一张特征图计算两者之间的欧式距离。由于特征图均是大小相同的二维向量,首先将特征图转化为一维向量,然后通过欧式距离计算两个一维向量的距离,将该距离作为评判两张图像相似的标准,欧式距离小则与目标图像更相似。欧式距离的计算公式为:
Figure BDA0002782285180000081
其中R=[r1,r2,…,rn]为目标图像特征图转换成的一维向量,R'=[r1′,r2′,…,rn′]为index_file中存储的图像特征图转换成的一维向量,n为转换后一维向量中元素个数。
将index_file中所有存储的共m张图像特征图与目标图像特征图的欧式距离D=[d1,d2,…,dm]计算完成后,按照D从小到大进行排序。前k个特征图对应的图像即为图像检索出的结果,与目标图像最为相似的k个图像。
我们将多张图像进行图像检索操作,根据这些图像的检索结果中topk中与目标图像类别相同的图像平均占比判定图像检索的结果的准确性。图像检索准确率的公式为:
Figure BDA0002782285180000082
其中acci表示第i张图像的图像检索前k个结果中类别与目标图像相同的占比,n为图像检索测试集的总图像数量。
表1是使用PatternNet遥感数据集分别基于原始DenseNet模型和改进后的融合多层特征的深度网络模型进行图像检索的结果,由于该数据集图像检索的准确率较高,选取top k时若k值较小无法体现模型之间的差别,所以选择k=100作为实验结果比较的条件。图11是使用PatternNet遥感数据集图像检索top 100的部分结果,图中只展示了检索结果的前十张,该图像在原始模型和改进后的模型中检索准确率均为1.0,并且检索结果前十张图像完全一致。
表2是使用自制桌子数据集分别基于原始模型和改进后的融合多层特征的深度网络模型进行图像检索的结果,与遥感数据集相比,该数据集规模较小,类别较少且每类图片数量较少,通过训练测试发现使用该数据集图像检索的结果总体不如PatternNet遥感数据集准确率高,所以我们选择数值较小的k值(k=3,5,7)进行对比。从两张表中可以看出,使用多个数据集进行图像检索,本发明模型的检索结果准确率均高于原始模型的结果,在自制数据集中随着k值增大,改进后的模型准确率也提升较多,说明使用发明模型进行图像检索结果比原始模型更为准确。图12是使用桌子数据集图像检索top 10的部分结果,对于目标图像进行图像检索的结果中原始模型的准确率为0.3,共有3张图像与目标图像为同一类,而发明模型的准确率为0.6,共有6张图像与目标图像为同一类。
表1
Top K 原始网络模型acc(%) 融合多层特征网络模型acc(%)
100 0.942361004 0.951960303
表2
Top K 原始网络模型acc(%) 融合多层特征网络模型acc(%)
3 0.641975309 0.645679012
5 0.543703704 0.555555556
10 0.455925926 0.471851852
创新点
一种融合多层特征的深度神经网络,更深入挖掘图像中蕴含的信息,提升了图像特征提取的准确性,并且,基于此网络提出了图像检索模型方法,提高了运用模型提取的特征的图像检索的准确性,同时提升了模型的可靠性和鲁棒性。针对图像特征提取结果准确性不高与图像检索结果不理想的问题,本发明将深度神经网络的多层特征融合起来,对传统深度神经网络做了进一步拓展,同时在模型中引入视觉注意力机制,实现了对图像特征提取准确性的提高。在本发明中,首先通过建立深度神经网络模型对图片蕴含信息进行多维度的深入挖掘,从图片中充分挖掘提取更多特征,根据图像特征建立关于图像检索的特征数据库,通过计算目标图片与数据库中特征的欧式距离获取图片之间的相似度,实现对目标图片的图像检索。实验结果表明,运用本发明模型进行图像特征提取与图像检索取得了良好的效果,准确性有了一定的提高,且在不同规模的数据集上也具有良好的泛化性,本发明方法的实现能有效服务于网络相关图片检索、相关商品推荐等工作,对新闻媒体、大众娱乐和家庭生活等各个方面都具有一定的意义。

Claims (1)

1.一种面向图像检索的融合多层特征深度神经网络模型方法,特征是,具体方法包括如下步骤:
(1)将具有类别信息的图片分为训练集和测试集,对融合多层特征的深度网络进行训练,依据图片分类结果判定模型准确性;
在DenseNet模型的基础上融合多层Dense block特征,并引入压缩奖惩模块;通过学习图像经过多个Dense block后输出的多尺度特征图,对图像信息进行多维度挖掘,从而提取图像更多特征信息;将模型用于图像分类,将分类结果作为判定模型特征提取效果优劣的标准,对模型进行训练;
(2)通过反向传播算法对深度网络进行分类任务的训练优化;
首先定义损失函数来描述模型的图像分类精度,然后通过反向传播算法计算损失函数对每一个参数的梯度,再根据梯度和学习率使用优化算法找到合适的权重和偏置值,使得损失函数最小化,从而得到更准确的分类结果,即模型特征提取更为准确;
(3)使用训练好的深度网络进行图片特征提取,通过对特征进行编码并聚合以及数据库索引,实现图像检索;
首先将数据集中的图片输入步骤(2)训练好的模型,输出分类层前一层的特征图作为特征提取的结果,将提取的特征保存到文件中形成图像检索数据库;将需要进行图像检索的图片输入模型,得到该图片的特征图;对目标图片的特征图与数据库中所有特征图进行欧式距离的计算,对数据库中的图片根据欧式距离从小到大进行排序,则排名前k个的图片即图像检索的top k。
CN202011285825.4A 2020-11-17 2020-11-17 面向图像检索的融合多层特征深度神经网络模型方法 Pending CN112364193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285825.4A CN112364193A (zh) 2020-11-17 2020-11-17 面向图像检索的融合多层特征深度神经网络模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285825.4A CN112364193A (zh) 2020-11-17 2020-11-17 面向图像检索的融合多层特征深度神经网络模型方法

Publications (1)

Publication Number Publication Date
CN112364193A true CN112364193A (zh) 2021-02-12

Family

ID=74515062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285825.4A Pending CN112364193A (zh) 2020-11-17 2020-11-17 面向图像检索的融合多层特征深度神经网络模型方法

Country Status (1)

Country Link
CN (1) CN112364193A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140657A (zh) * 2021-08-30 2022-03-04 浙江理工大学 一种基于多特征融合的图像检索方法
CN115242931A (zh) * 2022-09-16 2022-10-25 江苏司笠泰信息科技有限公司 一种erp管理系统的数据存储方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437096A (zh) * 2017-07-28 2017-12-05 北京大学 基于参数高效的深度残差网络模型的图像分类方法
CN110222218A (zh) * 2019-04-18 2019-09-10 杭州电子科技大学 基于多尺度NetVLAD和深度哈希的图像检索方法
CN110866140A (zh) * 2019-11-26 2020-03-06 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN111582029A (zh) * 2020-04-02 2020-08-25 天津大学 一种基于密集连接与注意力机制的交通标志识别方法
CN111582442A (zh) * 2020-04-17 2020-08-25 中国科学院微电子研究所 一种基于优化深度神经网络模型的图像识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437096A (zh) * 2017-07-28 2017-12-05 北京大学 基于参数高效的深度残差网络模型的图像分类方法
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN110222218A (zh) * 2019-04-18 2019-09-10 杭州电子科技大学 基于多尺度NetVLAD和深度哈希的图像检索方法
CN110866140A (zh) * 2019-11-26 2020-03-06 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111582029A (zh) * 2020-04-02 2020-08-25 天津大学 一种基于密集连接与注意力机制的交通标志识别方法
CN111582442A (zh) * 2020-04-17 2020-08-25 中国科学院微电子研究所 一种基于优化深度神经网络模型的图像识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何凯等: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 《天津大学学报(自然科学与工程技术版)》 *
陈龙杰等: "基于多注意力多尺度特征融合的图像描述生成算法", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140657A (zh) * 2021-08-30 2022-03-04 浙江理工大学 一种基于多特征融合的图像检索方法
CN114140657B (zh) * 2021-08-30 2024-09-10 浙江理工大学 一种基于多特征融合的图像检索方法
CN115242931A (zh) * 2022-09-16 2022-10-25 江苏司笠泰信息科技有限公司 一种erp管理系统的数据存储方法
CN115242931B (zh) * 2022-09-16 2022-12-16 江苏司笠泰信息科技有限公司 一种erp管理系统的数据存储方法

Similar Documents

Publication Publication Date Title
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Hassannejad et al. Food image recognition using very deep convolutional networks
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
US11288324B2 (en) Chart question answering
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN108921198A (zh) 基于深度学习的商品图像分类方法、服务器及系统
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
AU2017101803A4 (en) Deep learning based image classification of dangerous goods of gun type
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114332889A (zh) 文本图像的文本框排序方法和文本图像的文本框排序装置
CN112364193A (zh) 面向图像检索的融合多层特征深度神经网络模型方法
CN108229505A (zh) 基于fisher多级字典学习的图像分类方法
CN118279320A (zh) 基于自动提示学习的目标实例分割模型建立方法及其应用
CN115292538A (zh) 一种基于深度学习的地图线要素提取方法
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
CN117011577A (zh) 图像分类方法、装置、计算机设备和存储介质
CN107909091A (zh) 一种基于稀疏低秩回归模型的图像记忆度预测方法
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212