CN112364193A

CN112364193A - 面向图像检索的融合多层特征深度神经网络模型方法

Info

Publication number: CN112364193A
Application number: CN202011285825.4A
Authority: CN
Inventors: 臧笛; 严诣青; 陈隽; 李洋
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-12

Abstract

面向图像检索的融合多层特征深度神经网络模型方法。首次提出了一种更加密集连接的融合多层特征深度神经网络，并基于此网络提出了图像检索方法，通过将多层特征进行了融合，并引入了视觉注意力机制，增加了压缩奖惩模块(squeeze‑and‑excitation(SE)block)，将部分层的特征更加充分地利用，使得模型的训练速度更快，并且能对图像特征进行多维度的提取，更加深入地挖掘图片中蕴含的信息，从而提高对图像检索的准确性和鲁棒性。

Description

面向图像检索的融合多层特征深度神经网络模型方法

技术领域

本发明涉及融合多层特征深度神经网络在图像检索的应用。

背景技术

图像检索的实质是基于图像的特征检索出图像库中具有相似特征的其他图像。通过对大量训练集图像的特征学习，获取图像蕴含的信息，建立图像检索的数据库，通过目标图像与数据库内所有图像提取的特征进行比较，找到特征最为相似的若干张图片。

根据描述图像内容方式的不同，图像检索方法主要分为两类：基于文本的图像检索和基于内容的图像检索。

基于文本的图像检索方法是利用文本描述的方式描述图像特征，以人工标注方式或图像识别技术进行半自动标注方式为每幅图像形成描述该图像内容的关键词，如图像名称、尺寸、作者、年代等，图像检索时通过关键词查找特定类目下的图像。这种图像检索方式易于实现，且在标注时由人工介入，查准率相对较高，在中小规模图像检索应用上仍有使用。但基于文本描述的方式缺陷非常明显，首先该方式需要人工介入进行标注，只适用于小规模图像数据，对于大规模的海量图像数据难以完成，需要消耗大量人力物力，其次每次图像入库时均需要人工干预，无法自行学习图像特征，并且部分图像较难用关键词进行描述，再次人工标注过程会受到标注者认知水平、言语使用以及主观判断等因素的影响，会造成相同图像不同关键词的情况。后来，基于内容的图像检索方法逐步建立起来，并得到飞速发展。

基于内容的图像检索方法是以图像语义为特征从图像数据库中检索出具有相似特征的其他图像。该方法首先需要通过特征提取方法提取图像的特征并将其建立图像检索特征数据库，图像检索时用相同特征提取方法提取目标图像的特征，并在相似性度量准则下计算目标图像特征到数据库中各个特征的相似性大小，最后按照相似性大小进行排序得到与目标图像最为相似的若干张图片。一些机器学习方法也被提出来用于图像特征提取，如哈尔特征(Haar-like features)、局部二值模式(LBP)、方向梯度直方图(HOG)，这些机器学习方法在图像特征提取方面一定程度上取得了较好的效果，但是它们都属于浅型模型，在有限的样本和计算单元的条件下，对复杂函数的表达能力，泛化能力等都存在局限性。近年来，深度学习快速发展，一些深度学习方法，如卷积神经网络(CNN)、残差网络(ResNet)，用于图像特征提取获得了较好的表现，相比机器学习模型，深度学习模型具有更强大的特征学习和特征表达能力，提取的特征包含更多图像信息，更为准确。在基于内容的图像检索方法中图像内容的表大和相似性度量由计算机自动处理，克服了采用文本进行图像检索所遇到的缺陷，减轻大量人力物力的消耗，大大提高检索效率。

然而，现有的深度学习方法虽然在图像检索上取得了一定进展，但仍然有部分问题未得到很好的解决。有些模型随着网络模型深度的增加会产生梯度消失的问题，严重影响模型的扩展性，现有的深度学习模型DenseNet减轻了梯度消失问题，同时由于模型参数数量较大，会有训练速度较慢的问题，并且模型特征提取的精度也有待提高。

发明内容

本发明目的在于克服现有技术的不足，公开一种基于融合多层特征深度神经网络模型的基于内容的图片检索方法。针对如何提高对图像特征提取与检索的准确性，本发明提出了一种融合多层特征的深度神经网络，并基于此网络提出了图像特征提取与检索方法。

方法原理：

通过构建融合多层特征的深度神经网络，同时引入视觉的注意力机制，对图像蕴含的信息进行多维度的深入挖掘，从而提取图像中更多特征，并根据提取的特征建立图像检索的数据库。对于需要进行图像检索的图片，通过网络模型同样提取特征，计算该特征与数据库中的特征的距离，该距离大小即为图像之间的相似度高低，最终得到图像检索的结果。

需要保护的技术方案为：

一种面向图像检索的融合多层特征深度神经网络模型方法，具体方法包括如下步骤：

(1)将具有类别信息的图片分为训练集和测试集，对融合多层特征的深度网络进行训练，依据图片分类结果判定模型准确性；

在DenseNet模型的基础上融合多层Dense block特征，并引入压缩奖惩模块(squeeze-and-excitation block,SE block)。通过学习图像经过多个Dense block后输出的多尺度特征图，对图像信息进行多维度挖掘，从而提取图像更多特征信息。将模型用于图像分类，将分类结果作为判定模型特征提取效果优劣的标准，对模型进行训练。

(2)通过反向传播算法对深度网络进行分类任务的训练优化；

首先定义损失函数来描述模型的图像分类精度，然后通过反向传播算法计算损失函数对每一个参数的梯度，再根据梯度和学习率使用优化算法找到合适的权重和偏置值，使得损失函数最小化，从而得到更准确的分类结果，即模型特征提取更为准确。

(3)使用训练好的深度网络进行图片特征提取，通过对特征进行编码并聚合以及数据库索引，实现图像检索；

首先将数据集中的图片输入步骤(2)训练好的模型，输出分类层前一层的特征图作为特征提取的结果，将提取的特征保存到文件中形成图像检索数据库。将需要进行图像检索的图片输入模型，得到该图片的特征图。对目标图片的特征图与数据库中所有特征图进行欧式距离的计算，对数据库中的图片根据欧式距离从小到大进行排序，则排名前k个的图片即图像检索的top k。

附图说明

图1图像检索的融合多层特征深度神经网络方法的系统流程图。

图2图像检索的融合多层特征深度神经网络模型结构图。

图3Dense block结构图。

图4压缩奖惩模块(squeeze-and-excitation(SE)block)结构图。

图5PatternNet遥感数据集图像实例。

图6桌子数据集图像实例。

图7模型使用PatternNet遥感数据集训练验证集accuracy折线图。

图8模型使用PatternNet遥感数据集训练验证集loss折线图。

图9模型使用桌子数据集训练验证集accuracy折线图。

图10模型使用桌子数据集训练验证集loss折线图。

图11PatternNet数据集图像检索top10结果实例。

图12椅子数据集图像检索top10结果实例。

具体实施方式

本发明具体实施过程如图1所示，包括如下3个方面：

①将具有类别信息的图片按一定比例分为训练集和测试集对融合多层特征的深度网络进行训练，依据图片分类结果判定模型准确性；

②通过反向传播算法对网络进行分类任务的训练优化；

③使用训练好的深度网络进行图片特征提取，通过对特征进行编码并聚合以及数据库索引，实现图像检索；

各个步骤详述如下：

一、将具有类别信息的图片分为训练集和测试集对融合多层特征的深度网络进行训练，依据图片分类结果判定模型准确性。

图2展示了融合多层特征的深度神经网络模型结构，在DenseNet的基础上进行了改进，融合了多层Dense block的输出，并在其中增加了压缩奖惩网络模块(squeeze-and-excitation(SE)block)。

在深度学习网络中，随着网络深度的加深，梯度消失问题会更加显著。DenseNet能够有效减轻梯度消失问题。DenseNet的核心是Dense block。图3是一个五层Dense block的模块结构。在Dense block中每一层的输入来自前面所有层的输出。第l层的输出如下所示：

o_l＝H_l([o₀,o₁,…,o_l-1])#(1)

其中，[o₀,o₁,…,o_l-1]表示将0至l-1层输出的特征图进行通道合并后的结果，H_l表示第l层的卷积操作，o_l为第l层的输出。通道合并操作是特征图在通道这一维度进行相加，合并后特征图大小不变，通道数为多个特征图通道数的总和。这种模块结构使得特征和梯度的传递更加有效，网络更加容易训练。

在此基础上，我们融合多层Dense block输出的特征。将每个网络中四个Denseblock模块输出的特征图进行通道合并操作，将合并后的结果再经过批标准化层(BN层)和平均池化层(global average pooling层)，得到最终分类结果。相较于仅学习最后一个Dense block输出的特征，通过融合多层特征，可以学习每个Dense block输出的尺度不同的图片特征，能够提升模型的准确性，同时更大程度缓解梯度下降问题。

除此之外，我们还在模型中加入了压缩奖惩网络模块(squeeze-and-excitation(SE)block)。图4为压缩奖惩网络模块结构。压缩奖惩网络模块是一个计算单元，核心是网络根据loss学习特征权重，使得有效的特征图权重大，无效或效果小的特征图权重小，训练模型以达到更好的结果。该模块建立在卷积操作的基础上，将输入

映射为特征映射

其中X表示输入的三维矩阵，H′、W′、C′分别表示输入的高度、宽度和通道数，U表示映射后输出的三维矩阵，H、W、C分别表示输出的高度、宽度和通道数。我们使用V＝[v₁,v₂,…,v_C]表示滤波核的集合，其中v_c为第c个滤波器的参数，输出为U＝[i₁,i₂,…,u_C]。则输出的计算公式为：

其中*表示卷积操作，

表示第s个通道中第c个滤波器的参数，X＝[x¹,x²,…,x^C']，x^s,s∈[1,C′]表示第s个通道中的输入，并且输出

u_c表示第c个滤波器中的输出，是一个二维矩阵，H、W分别表示输出的高度和宽度,与上文中U的高度和宽度相同。

是一个二维空间核，表示作用于X对应的通道的v_c的单个通道。为了简化符号，省略了偏置项。

该模块主要包含压缩(squeeze)和奖惩(excitation)两部分。

(1)压缩：全局信息嵌入

为了解决通道依赖的利用问题，首先考虑输出特征中每个通道的信号。每个学习到的过滤器都对局部感受野进行操作，因此变换输出U的每个单元都不能利用该区域以外的上下文信息。

为了缓解这一问题，压缩部分通过使用全局平均池来生成基于通道的统计信息，将全局空间信息压缩到一个通道描述符中。形式上，统计量

通过U的空间维数H×W进行收缩得到，是一个一维矩阵，C表示通道数。因此z的第c个元素计算为：

其中F_sq(u_c)表示对u_c进行压缩操作，u_c(i,j)为公式(2)中第c个滤波器的矩阵中高度为i∈[1,H]宽度为j∈[1,W]的输出元素,其中H、W与上文中U的高度和宽度相同。U的输出可以看作是局部描述符的集合，公式(3)的压缩操作是通过全局平均池来计算这些描述符的统计量，用这些统计量来表达整个图像。

(2)奖惩：自适应调整

为了利用在上一步压缩操作中聚集的信息，接下来进行第二个操作奖惩，其目的是完全捕获通道上的依赖关系。为了实现该目标，奖惩操作的函数必须灵活，有能力学习通道之间的非线性交互，同时必须学会非互斥的关系。因此，选择使用一个简单的门机制，并使用sigmoid激活：

s＝F_ex(z,W)＝σ(W₂δ(W₁z))#(4)

其中F_ex(z,W)表示对统计量z通过矩阵W进行奖惩操作，其中W由W₁和W₂两部分组成，σ为sigmoid激活函数，δ为ReLU函数，

表示一个二维矩阵，大小为

表示一个二维矩阵，大小为

为了限制模型复杂度和辅助泛化，模块通过在非线性周围形成两个全连接层的瓶颈来参数化门机制，即一个参数为W₁的降维层，降维比例为r,一个ReLU，和一个参数为W₂的升维层。该模块最终输出是通过重新调节带有激活变换输出U得到：

其中

为奖惩模块最终输出，并且F_scale(u_c,tc)表示标量t_c与特征映射

之间的对应通道的乘积。奖惩作为适应特定输入描述符的通道权重。压缩奖惩模块本质上引入了以输入为条件的动态特性，有助于提高特征辨别力。

二、通过反向传播算法对网络进行分类任务的训练优化。

为了对模型特征提取的效果进行评判，我们首先将模型分类结果作为评判标准。我们需要用训练样本对模型参数进行训练，还需要定义损失函数(loss)来度量模型的精度，损失函数越小，代表模型的分类结果与真实值的偏差越小，即模型特征提取的结果越精确。训练的目的是通过优化算法找到合适的权重和偏置，使得损失函数的值最小化。由于图像分类属于回归任务，因此在反向传播过程中，选择交叉熵损失函数(categorical_crossentropy)作为损失函数，其定义由公式(6)给出，并且选择RMS优化器对其进行优化。

其中y_i为每张图片真实类别向量中属于第i类的值(若图像属于第i类，则y_i＝1，否则y_i＝0)，p_i为模型分类结果中样本i预测为正的概率，N表示总类别数量。

本发明所使用的图片数据共有两个。一个为PatternNet常用于遥感图像检索的大规模高分辨率遥感数据集，另一个为我们自行收集的关于不同类型的桌子的小型数据集。PatternNet数据集中的图像是从Google Earth图像或通过Google Map API收集的美国的一些城市的图像。PatternNet数据集中总共有30400张图像，共有38个类，每类有800张大小为256×256像素的图像。图5显示了该数据集中部分类别的部分示例图像。桌子数据集是我们从网络销售平台、网络搜索平台等网站中搜集得到的，该数据集中共有907张图片，共有10类，每类有90张左右像素大小不固定的桌子图像。图6显示了部分桌子类别的部分示例图像。

将图像数据集中训练集输入改进后的模型，通过反向传播算法计算损失函数对模型中每层的参数的梯度，使用优化器更新每一个参数实现对模型的优化训练。本发明采用python 3.5.2，以及深度学习框架keras 2.1.6和tensorflow 1.9.0作为实验平台，并采用显卡NVIDIA GeForce GTX 1080 GPU进行训练加速。完成网络模型的训练后，最后将测试的图片数据集输入到图2中的融合多层特征的深度神经网络得到分类的结果，通过分类结果判断模型特征提取效果。

图7和图8是使用PatternNet遥感数据集训练原始DenseNet模型和融合多层特征的DenseNet深度网络模型的结果；图

7和图8中颜色较淡的曲线分别表示原始模型训练中验证集准确率和loss的变化曲线，颜色较深的曲线分别表示改进后模型训练中loss和准确率的变化曲线。

图9和图10分别是使用自制桌子数据集训练原始模型和融合多层特征的深度网络模型的结果，与之前相同，图9和图10中颜色较淡的曲线分别表示原始模型训练中验证集loss和准确率的变化曲线，颜色较深的曲线分别表示改进后模型训练中loss和准确率的变化曲线。从图中可以看出，使用多个数据集进行训练，本发明模型的loss收敛速度均快于原始模型loss收件速度，准确率提升速度也较快，同时，模型准确率较原始模型有一定的提升，说明模型对于图像特征提取结果比原始模型更为精确。

三、使用训练好的深度网络进行图片特征提取，通过对特征进行编码并聚合以及数据库索引，实现图像检索。

使用步骤二中训练好的模型进行特征提取，输入图片后输出为模型最后一层前全局平均池化层(global average pooling)输出的特征图，该特征图即输入图片的提取的特征。将图像路径、提取的特征以及该图像的类别保存在index_file中，形成图像数据库，之后进行图像检索即在该图像数据库中查找与目标图像相似的图像。

给定需要进行图像检索的图像，利用欧式距离找出与目标图像相似的图像。通过步骤二训练好的模型对给定的图像进行同样的特征提取操作，得到特征图。将该特征图与index_file存储的每一张特征图计算两者之间的欧式距离。由于特征图均是大小相同的二维向量，首先将特征图转化为一维向量，然后通过欧式距离计算两个一维向量的距离，将该距离作为评判两张图像相似的标准，欧式距离小则与目标图像更相似。欧式距离的计算公式为：

其中R＝[r₁,r₂,…,r_n]为目标图像特征图转换成的一维向量，R'＝[r₁′,r₂′,…,r_n′]为index_file中存储的图像特征图转换成的一维向量，n为转换后一维向量中元素个数。

将index_file中所有存储的共m张图像特征图与目标图像特征图的欧式距离D＝[d₁,d₂,…,d_m]计算完成后，按照D从小到大进行排序。前k个特征图对应的图像即为图像检索出的结果，与目标图像最为相似的k个图像。

我们将多张图像进行图像检索操作，根据这些图像的检索结果中topk中与目标图像类别相同的图像平均占比判定图像检索的结果的准确性。图像检索准确率的公式为：

其中acc_i表示第i张图像的图像检索前k个结果中类别与目标图像相同的占比，n为图像检索测试集的总图像数量。

表1是使用PatternNet遥感数据集分别基于原始DenseNet模型和改进后的融合多层特征的深度网络模型进行图像检索的结果，由于该数据集图像检索的准确率较高，选取top k时若k值较小无法体现模型之间的差别，所以选择k＝100作为实验结果比较的条件。图11是使用PatternNet遥感数据集图像检索top 100的部分结果，图中只展示了检索结果的前十张，该图像在原始模型和改进后的模型中检索准确率均为1.0，并且检索结果前十张图像完全一致。

表2是使用自制桌子数据集分别基于原始模型和改进后的融合多层特征的深度网络模型进行图像检索的结果，与遥感数据集相比，该数据集规模较小，类别较少且每类图片数量较少，通过训练测试发现使用该数据集图像检索的结果总体不如PatternNet遥感数据集准确率高，所以我们选择数值较小的k值(k＝3，5，7)进行对比。从两张表中可以看出，使用多个数据集进行图像检索，本发明模型的检索结果准确率均高于原始模型的结果，在自制数据集中随着k值增大，改进后的模型准确率也提升较多，说明使用发明模型进行图像检索结果比原始模型更为准确。图12是使用桌子数据集图像检索top 10的部分结果，对于目标图像进行图像检索的结果中原始模型的准确率为0.3，共有3张图像与目标图像为同一类，而发明模型的准确率为0.6，共有6张图像与目标图像为同一类。

表1

Top K	原始网络模型acc(％)	融合多层特征网络模型acc(％)
			100	0.942361004	0.951960303

表2

Top K	原始网络模型acc(％)	融合多层特征网络模型acc(％)
			3	0.641975309	0.645679012
5	0.543703704	0.555555556
			10	0.455925926	0.471851852

创新点

一种融合多层特征的深度神经网络，更深入挖掘图像中蕴含的信息，提升了图像特征提取的准确性，并且，基于此网络提出了图像检索模型方法，提高了运用模型提取的特征的图像检索的准确性，同时提升了模型的可靠性和鲁棒性。针对图像特征提取结果准确性不高与图像检索结果不理想的问题，本发明将深度神经网络的多层特征融合起来，对传统深度神经网络做了进一步拓展，同时在模型中引入视觉注意力机制，实现了对图像特征提取准确性的提高。在本发明中，首先通过建立深度神经网络模型对图片蕴含信息进行多维度的深入挖掘，从图片中充分挖掘提取更多特征，根据图像特征建立关于图像检索的特征数据库，通过计算目标图片与数据库中特征的欧式距离获取图片之间的相似度，实现对目标图片的图像检索。实验结果表明，运用本发明模型进行图像特征提取与图像检索取得了良好的效果，准确性有了一定的提高，且在不同规模的数据集上也具有良好的泛化性，本发明方法的实现能有效服务于网络相关图片检索、相关商品推荐等工作，对新闻媒体、大众娱乐和家庭生活等各个方面都具有一定的意义。

Claims

1.一种面向图像检索的融合多层特征深度神经网络模型方法，特征是，具体方法包括如下步骤：

在DenseNet模型的基础上融合多层Dense block特征，并引入压缩奖惩模块；通过学习图像经过多个Dense block后输出的多尺度特征图，对图像信息进行多维度挖掘，从而提取图像更多特征信息；将模型用于图像分类，将分类结果作为判定模型特征提取效果优劣的标准，对模型进行训练；

(2)通过反向传播算法对深度网络进行分类任务的训练优化；

首先定义损失函数来描述模型的图像分类精度，然后通过反向传播算法计算损失函数对每一个参数的梯度，再根据梯度和学习率使用优化算法找到合适的权重和偏置值，使得损失函数最小化，从而得到更准确的分类结果，即模型特征提取更为准确；

首先将数据集中的图片输入步骤(2)训练好的模型，输出分类层前一层的特征图作为特征提取的结果，将提取的特征保存到文件中形成图像检索数据库；将需要进行图像检索的图片输入模型，得到该图片的特征图；对目标图片的特征图与数据库中所有特征图进行欧式距离的计算，对数据库中的图片根据欧式距离从小到大进行排序，则排名前k个的图片即图像检索的top k。