CN113159185A

CN113159185A - 一种基于嵌套网络模型的相似图像检索方法及系统

Info

Publication number: CN113159185A
Application number: CN202110441171.8A
Authority: CN
Inventors: 倪翠; 王朋; 朱元汀
Original assignee: Shandong Jiaotong University
Current assignee: Shandong Jiaotong University
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23

Abstract

本发明一种基于嵌套网络模型的相似图像检索方法，包括：将经过稠密卷积网络的第一稠密层后得到的待检索图像的特征信息，以矩阵形式输入到嵌入的网络模型SENet中；将待检测图像的特征信息压缩为全局特征向量，设置各通道特征的权重系数向量，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量；获取待检索图像的最终特征向量；将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像，本发明还提出了一种基于嵌套网络模型的相似图像检索系统，不仅能够有效地降低计算量，缩短图像检索时间，而且还能进一步提高检索图像的准确率。

Description

一种基于嵌套网络模型的相似图像检索方法及系统

技术领域

本发明涉及图像检索处理领域，尤其是涉及基于嵌套网络模型的相似图像检索方法及系统置。

背景技术

相似图像检索(Similar Image Researching technology)是计算机视觉中一个重要的图像处理方向，其主要过程是提取待检索图像和已有图像集的内容特征并对两部分图像特征进行向量化处理，通过相似度度量，比较两部分的特征向量，从而在已有图像集中能够自动搜索获取到与待检索图像相似度较高的图像集。

目前已有的相似图像检索方法包括：基于内容的检索方法，基于颜色特征的检索方法，基于纹理特征的检索方法，哈希差值检测方法，以及基于深度学习的检索方法。近些年来，深度学习技术在图像分类、目标识别、图像检索等领域的研究取得了显著的成果，尤其是基于CNN(卷积神经网络)的图像特征提取为图像检索提供了有效的描述对象。

图像差值哈希(Difference Hash，简称Dhash)算法，具体地，提取图像哈希矩阵，通过比较哈希值，得到相似图像集结果，其提取哈希值的过程示意图可以参见图1。深度学习中的VGGNet神经网络,其主要步骤为：将已有图片库中的所以图像转化成224*224*3的RGB图像，进行去均值处理。经过如图2所示的VGGNet网络结构，最终得到所有图像的特征向量并存储于数据库中。对于待检索图像，抽取同样的特征向量，计算其与数据库中各个向量的余弦距离，作为相似度值，进而通过参数设置，自动搜索出与之相似的图像集。传统的卷积神经网络若有k层，则有k个连接，而稠密卷积网络(Dense Convolutional Network，简称DenseNet)则与之不同，若其有k层，DenseNet有k(k+1)/2个连接。这种网络模型，鼓励特征复用，即下层网络能够直接利用上层网络的特征结果，加强了图像特征的传递。图3为现有技术中DenseNet网络结构示意图。

然而，目前的相似图像检索方法中，对图像的特征信息划分不细，从而容易降低检索结果的准确率，而且运算效率较低。

发明内容

本发明为了解决现有技术中存在的问题，创新提出了一种基于嵌套网络模型的相似图像检索方法及系统，有效解决由于现有相似图像检索方法造成运算效率低且准确率不高的问题，有效了图像检索的准确率。

本发明第一方面提供了一种基于嵌套网络模型的相似图像检索方法，包括：

将经过稠密卷积网络的第一稠密层后得到的待检索图像的特征信息，以矩阵形式输入到嵌入的网络模型SENet中；

将待检测图像的特征信息压缩为全局特征向量，其中，全局特征向量为1×1×C，C为待检索图像通道数；

对压缩后的全局特征向量设置各通道特征的权重系数向量，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量；

将得到的加权特征向量分别经过网络模型SENet后的若干网络层，获取待检索图像的最终特征向量；

将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像。

可选地，将待检测图像的特征信息压缩为全局特征向量中是通过嵌套网络模型中的池化层实现的，池化层中的压缩函数具体是：

其中，C表示通道数，Z_C为压缩后输出的全局特征向量，F_C(i,j)为待检索图像的全局特征信息，W和H分别为池化层的宽度和高度，i和j为代表池化层宽度和池化层高度的变量。

可选地，对压缩后的全局特征向量设置各通道特征的权重系数向量，具体是通过嵌套网络模型中的第一全连接层、第一激活层、第二全连接层、第二激活层实现的，第一全连接层、第一激活层、第二全连接层、第二激活层具体公式是：

U＝F_e(g(Z_C,W))＝F_e(W₂ReLU(W₁Z_C))

其中，W₁为第一全连接层的维度，W₂为第二全连接层的维度，Z_C为压缩后输出的全局特征向量，U为对压缩后的全局特征向量设置权重系数的权重系数向量，F_e为激活函数，具体形式为：

其中，x为全局特征向量Z_C中的特征值。

进一步地，第一全连接层的维度W₁具体表达式为：

第二全连接层的维度W₂具体表达式为：

其中，C为待检索图像通道数，r为维度参数。

可选地，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量具体是：将权重系数向量U与压缩后的全局特征向量Z_C相乘的结果为待检索图像的加权全局特征向量F_scale(U,Z_C)。

可选地，加权特征向量分别经过网络模型SENet后的若干网络层依次包括：第二稠密层、第三稠密层、第四稠密层。

可选地，经过训练的图像集的最终特征向量集具体是：将待训练的图像集中的待检索图像依次经过训练，得到待训练的图像集的最终特征向量集。

进一步地，将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像具体是：

将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集通过余弦相似度指标计算，获取待检索图像与经过训练的图像集中图像之间的相似度；

将经过训练的图像集中大于预设余弦相似度阈值的图像集，进行排序操作，按照相似度由高到低的顺序进行依次输出。

进一步地，余弦相似度指标函数形式如下：

式中s为余弦相似度，A_n、B_n分别表示A、B两个特征向量在维度n上的特征值，A为待检索图像的最终特征向量，B为经过训练的图像集的最终特征向量集的某一最终特征向量，N表示特征向量的总维度。

本发明第二方面提供了一种基于嵌套网络模型的相似图像检索系统，包括：

输入模块，将经过稠密卷积网络的第一稠密层后得到的待检索图像的特征信息，以矩阵形式输入到嵌入的网络模型SENet中；

压缩模块，将待检测图像的特征信息压缩为全局特征向量，其中，全局特征向量为1×1×C，C为待检索图像通道数；

设置模块，对压缩后的全局特征向量设置各通道特征的权重系数向量，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量；

获取模块，将得到的加权特征向量分别经过网络模型SENet后的若干网络层，获取待检索图像的最终特征向量；

检索获取模块，将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像。

本发明采用的技术方案包括以下技术效果：

1、本发明技术方案提供的基于嵌套网络模型的相似图像检索方法及系统，通过在原有的Densnet网络中嵌入SENet网络模型(Squeeze-and-ExcitationNetworks，简称SENet，为压缩和激发网络)，对待检测图像和已知图像集数据实现嵌套网络训练，在原有整体信息的基础上进一步优化，设置各通道特征的权重系数，抑制无效特征信息，不仅能够有效地降低计算量，缩短图像检索时间，而且还能进一步提高检索图像的准确率。

2、本实施例对嵌入的网络模型SENet中的池化层、第一全连接层、第一激活层、第二全连接层、第二激活层分别进行设置，使得权重系数向量与第一全连接层的维度、第二全连接层的维度相关联，通过第一全连接层的维度、第二全连接层的维度的取值，能够避免提取有效特征信息过程中的过拟合现象。

应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见的，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中传统图像差值哈希检索算法示意图；

图2为现有技术中VGG网络结构示意图；

图3为现有技术中DenseNet模型网络结构示意图；

图4为本发明技术方案实施例一的方法流程示意图；

图5为本发明方案中实施例一中改进的嵌入的网络模型(SENet)结构示意图；

图6为本发明方案中实施例一中嵌套网络模型(SENet+DenseNet)地结构示意图；

图7为本发明方案中实施例二的系统结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例一

如图4所示，本发明提供了一种基于嵌套网络模型的相似图像检索方法，包括：

S1，将经过稠密卷积网络的第一稠密层后得到的待检索图像的特征信息，以矩阵形式输入到嵌入的网络模型SENet中；

S2，将待检测图像的特征信息压缩为全局特征向量，其中，全局特征向量为1×1×C，C为待检索图像通道数；

S3，对压缩后的全局特征向量设置各通道特征的权重系数向量，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量；

S4，将得到的加权特征向量分别经过网络模型SENet后的若干网络层，获取待检索图像的最终特征向量；

S5，将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像。

其中，在步骤S1-S2中，稠密卷积网络的第一稠密层即为DenseBlock1，将待检测图像的特征信息压缩为全局特征向量中是通过嵌入的网络模型SENet中的池化层实现的，池化层中的压缩函数具体是：

其中，C表示通道数，Z_C为压缩后输出的全局特征向量，F_C(i,j)为待检索图像的全局特征信息，W和H分别为池化层的宽度和高度，i和j为代表池化层宽度和池化层高度的变量，即在池化层不同宽度(i从1到W)以及不同高度(j从1到H)的情况下的压缩后输出的全局特征向量Z_C。

具体地，如图5所示，嵌入的网络模型SENet中包括池化层(即压缩部分，squeeze)，池化层pooling1为全局池化(globalpooling)。池化层pooling1采用全局池化操作，卷积核大小为56*56。

具体地，DenseNet网络(稠密卷积网络)通过密集连接，能够使数据的特征信息和模型梯度在网络层中更好地传递。DenseNet网络根据网络层数的不同可分为DenseNet121、DenseNet169、DenseNet201和DenseNet161。该网络结构一开始先进行一个大尺度卷积，再接一个池化层，然后进入连续几个子模块Dense Block(稠密层)，最后接上一个池化层和全连接层。由于层数的增加，DenseNet169、DenseNet201和DenseNet161的计算量和检索时间大于DenseNet121。因此，本实施例中稠密卷积网络(DenseNet)可以采用已有的网络层数为121层的DenseNet121网络模型，包含4个稠密层(DenseBlock)，其结构示意图如3所示，以便能够有效降低计算量，缩短图像检索时间，且保证检索图像的准确率。其中，本实施例中第一稠密层采用6个大小为1*1的卷积核和6个大小为3*3的卷积核。

在步骤S3中，如图5所示，嵌入的网络模型SENet还包括第一全连接层、第一激活层、第二全连接层、第二激活层，第一全连接层、第一激活层、第二全连接层、第二激活层共同组成激发部分(Excitation)；第一全连接层、第一激活层、第二全连接层、第二激活层共同实现对压缩后的全局特征向量设置各通道特征的权重系数向量，激发部分(第一全连接层、第一激活层、第二全连接层、第二激活层)具体公式是：

U＝F_e(g(Z_C,W))＝F_e(W₂ReLU(W₁Z_C))

其中，x为全局特征向量Z_C中的特征值。Z_C是一个列向量，x表示该列向量中的所有特征值。

进一步地，第一全连接层的维度W₁具体表达式为：

第二全连接层的维度W₂具体表达式为：

其中，C为待检索图像的通道数，r为维度参数。

具体地，第一全连接层FC1为降维层，第二全连接层FC2为升维层，在第一全连接层FC1的降维运算过程中，采用ReLU函数进行激活，然后在第二全连接层FC2再进行升维，恢复原始的维度。

F_e为激活函数，表示权重系数设置过程，即加权过程，学习各个通道之间的非线性关系，即各通道特征信息，这里采用Sigmoid形式的注意力机制，为了缓解过拟合现象，本实施例中降维参数r的取值为4，即r＝4。通过第一全连接层的维度、第二全连接层的维度的取值，能够避免提取有效特征信息过程中的过拟合现象。

根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量具体是：将权重系数向量U与压缩后的全局特征向量Z_C相乘的结果为待检索图像的加权全局特征向量F_scale(U,Z_C)，用数学公式表示：F_scale(U,Z_C)＝U×Z_C，scale表示乘法操作。

在步骤S4中，如图6所示，加权特征向量分别经过SENet后的若干网络层依次包括：第二稠密层(DenseBlock2)、第三稠密层(DenseBlock3)、第四稠密层(DenseBlock4)，进一步获取待检索图像的有效特征信息，最终，获取待检索图像的最终特征向量x′。本实施例中的第二稠密层(DenseBlock2)、第三稠密层(DenseBlock3)、第四稠密层(DenseBlock4)所在的稠密卷积网络(DenseNet)均可以采用已有的网络层数为121层的DenseNet121网络模型

其中，池化层pooling2_1至2_4均为平均池化(averagepooling)，池化层pooling2_1至2_4的卷积核的大小均为2×2。

第二稠密层采用12个大小为1*1的卷积核和12个大小为3*3的卷积核，第三稠密层采用24个大小为1*1的卷积核和24个大小为3*3的卷积核，所第四稠密层采用16个大小为1*1的卷积核和16个大小为3*3的卷积核。

在步骤S5中，经过训练的图像集的最终特征向量集具体是：将待训练的图像集中的待检索图像依次经过训练(即循环执行步骤S1-S4)，得到待训练的图像集的最终特征向量集Y_m(m＝1,2,3…)。

将待检索图像的最终特征向量x′与经过训练的图像集的最终特征向量集Y_m进行一一匹配，获取高于预设相似阈值的图像具体是：

将待检索图像的最终特征向量x′与经过训练的图像集的最终特征向量集Y_m通过余弦相似度(Cosine similarity)指标计算，获取待检索图像与经过训练的图像集中图像之间的相似度；

具体地，余弦相似度指标函数形式如下：

式中s为余弦相似度，A_n、B_n分别表示A、B两个特征向量在维度n上的特征值，A为待检索图像的最终特征向量，B为经过训练的图像集的最终特征向量集Y_m的某一最终特征向量(即经过训练的图像集的最终特征向量集Y_m中的第m个最终特征向量)，N表示特征向量的总维度。x′与Y_m中某一最终特征向量间的余弦相似度值越大，则表明待检索图像与图像集中某一已有图像更为相似。

进一步地，预设余弦相似度阈值可以根据实际情况灵活选择，如果对检索的效率要求高的话，可以适当增大预设余弦相似度阈值；如果对检索的准确性要求高的话，可以适当降低预设余弦相似度阈值；本发明技术方案在此不做限制。

本发明技术方案提供的基于嵌套网络模型的相似图像检索方法，通过在原有的Densnet网络中嵌入SENet网络，对待检测图像和已知图像集数据实现嵌套网络训练，在原有整体信息的基础上进一步优化，设置各通道特征的权重系数，抑制无效特征信息，不仅能够有效地降低计算量，缩短图像检索时间，而且还能进一步提高检索图像的准确率。

本实施例中对嵌入的网络模型SENet中的池化层、第一全连接层、第一激活层、第二全连接层、第二激活层分别进行设置，使得权重系数向量与第一全连接层的维度、第二全连接层的维度相关联，通过第一全连接层的维度、第二全连接层的维度的取值，能够避免提取有效特征信息过程中的过拟合现象。

实施例二

如图7所示，本发明技术方案还提供了一种基于嵌套网络模型的相似图像检索系统，包括：

输入模块101，将经过稠密卷积网络的第一稠密层后得到的待检索图像的特征信息，以矩阵形式输入到嵌入的网络模型SENet中；

压缩模块102，将待检测图像的特征信息压缩为全局特征向量，其中，全局特征向量为1×1×C，C为待检索图像通道数；

设置模块103，对压缩后的全局特征向量设置各通道特征的权重系数向量，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量；

获取模块104，将得到的加权特征向量分别经过网络模型SENet后的若干网络层，获取待检索图像的最终特征向量；

检索获取模块105，将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像。

本发明技术方案提供的基于嵌套网络模型的相似图像检索系统，通过在原有的Densnet网络中嵌入SENet网络，对待检测图像和已知图像集数据实现嵌套网络训练，在原有整体信息的基础上进一步优化，设置各通道特征的权重系数，抑制无效特征信息，不仅能够有效地降低计算量，缩短图像检索时间，而且还能进一步提高检索图像的准确率。

本实施例对嵌入的网络模型SENet中的池化层、第一全连接层、第一激活层、第二全连接层、第二激活层分别进行设置，使得权重系数向量与第一全连接层的维度、第二全连接层的维度相关联，通过第一全连接层的维度、第二全连接层的维度的取值，能够避免提取有效特征信息过程中的过拟合现象。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于嵌套网络模型的相似图像检索方法，其特征是，包括：

2.根据权利要求1所述的基于嵌套网络模型的相似图像检索方法，其特征是，将待检测图像的特征信息压缩为全局特征向量中是通过嵌套网络模型中的池化层实现的，池化层中的压缩函数具体是：

3.根据权利要求1所述基于嵌套网络模型的相似图像检索方法，其特征是，对压缩后的全局特征向量设置各通道特征的权重系数向量，具体是通过嵌套网络模型中的第一全连接层、第一激活层、第二全连接层、第二激活层实现的，第一全连接层、第一激活层、第二全连接层、第二激活层具体公式是：

U＝F_e(g(Z_C,W))＝F_e(W₂ReLU(W₁Z_C))

其中，x为全局特征向量Z_c中的特征值。

4.根据权利要求3所述基于嵌套网络模型的相似图像检索方法，其特征是，第一全连接层的维度W₁具体表达式为：

第二全连接层的维度W₂具体表达式为：

其中，C为待检索图像通道数，r为维度参数。

5.根据权利要求3所述基于嵌套网络模型的相似图像检索方法，其特征是，根据权重系数向量与压缩后的全局特征向量，得到待检索图像的加权全局特征向量具体是：将权重系数向量U与压缩后的全局特征向量Z_C相乘的结果为待检索图像的加权全局特征向量F_scale(U,Z_C)。

6.根据权利要求1所述基于嵌套网络模型的相似图像检索方法，其特征是，加权特征向量分别经过网络模型SENet后的若干网络层依次包括：第二稠密层、第三稠密层、第四稠密层。

7.根据权利要求1所述基于嵌套网络模型的相似图像检索方法，其特征是，经过训练的图像集的最终特征向量集具体是：将待训练的图像集中的待检索图像依次经过训练，得到待训练的图像集的最终特征向量集。

8.根据权利要求7所述基于嵌套网络模型的相似图像检索方法，其特征是，将待检索图像的最终特征向量与经过训练的图像集的最终特征向量集进行一一匹配，获取高于预设相似阈值的图像具体是：

9.根据权利要求8所述基于嵌套网络模型的相似图像检索方法，其特征是，余弦相似度指标函数形式如下：

10.一种基于嵌套网络模型的相似图像检索系统，其特征是，包括：