CN115344734A

CN115344734A - 图像检索方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN115344734A
Application number: CN202210783792.9A
Authority: CN
Inventors: 陈壹华; 张青露
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-11-15

Abstract

本发明涉及一种图像检索方法：获取待检索图像；将所述待检索图像输入特征提取模型进行特征提取，得到待检索图像特征，其中，所述特征提取模型包括第一提取模块、第二提取模块和后处理模块，所述第一提取模块用于提取所述待检索图像的激活张量；所述第二提取模块用于根据所述激活张量提取所述待检索图像的共生特征矩阵，所述共生特征矩阵包括所述待检索图像每一像素点对应的特征共生张量；所述后处理模块用于将所述激活张量和所述特征共生张量进行融合处理，得到所述待检索图像特征；将所述待检索图像特征与多个候选图像的图像特征进行相似性度量，根据相似性度量值得到检索结果图像。能够提高检索精度。

Description

图像检索方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及图像检索技术领域，尤其是涉及一种图像检索方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息时代的发展，互联网已经成为人们生活中不可或缺的一部分，每天通过社交网络、电子商务系统等互联网产品传输的图像数据量也在飞速增长。如何从庞大的图像数据库中检索到人们所需要的图像已经成为了研究热点，并且成为了计算机视觉中一个长期的研究课题。不断发展的图像检索技术为医学、搜索引擎、电子商务等众多领域提供了非常大的便利。

现有技术的基于内容的图像检索(Content Based Image Retrieval，CBIR)方法，首先提取查询库中所有图像的特征用于构建图像特征库，然后用相同的特征提取方法提取所检索图像的图像特征，并依据相似性度量准则将该图像特征与图像特征库进行相似性计算，最后按照相似性从大到小的顺序返回检索结果的图像。其中，为了提取更高精度的图像特征，可通过深度卷积神经网络进行特征提取，但是提取精度高的深度卷积神经网络的体量大，计算复杂度高，对处理设备的算力要求高，且检索速度慢。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种图像检索方法，对算力要求低，能够提高图像检索速度，且检索精度高。

本发明是通过以下技术方案实现的：一种图像检索方法，包括步骤：

获取待检索图像；

将所述待检索图像输入特征提取模型进行特征提取，得到待检索图像特征，其中，所述特征提取模型包括第一提取模块、第二提取模块和后处理模块，所述第一提取模块用于提取所述待检索图像的激活张量；所述第二提取模块用于根据所述激活张量提取所述待检索图像的共生特征矩阵，所述共生特征矩阵包括所述待检索图像每一像素点对应的特征共生张量；所述后处理模块用于将所述激活张量和所述共生特征矩阵进行融合处理，得到所述待检索图像特征；

将所述待检索图像特征与多个候选图像的图像特征进行相似性度量，根据相似性度量值得到检索结果图像。

相对于现有技术，本发明提供一种图像检索方法通过融合图像的激活张量和共生特征矩阵，获得高质量的图像特征，能够准确识别图像中的主体，从而能够提高检索精度。

进一步地，所述第一提取模块用于通过MobileNetV3网络模型提取所述待检索图像的激活张量，所述MobileNetV3网络模型的网络结构依次包括第一conv2d卷积层、bneck卷积层、第二conv2d卷积层、池化层和第三conv2d卷积层，其中所述第一conv2d卷积层、bneck卷积层和第三conv2d卷积层用于提取特征，所述第三conv2d卷积层输出所述待检索图像的激活张量，所述池化层用于进行特征降维。

进一步地，将所述待检索图像特征与多个候选图像的图像特征进行相似性度量，包括步骤：

将所述待检索图像特征通过哈希映射，得到待检索哈希码；

将所述待检索哈希码与多个所述候选图像的哈希码进行相似性度量，所述相似性度量为汉明距离或余弦相似度。

进一步地，通过无监督哈希学习进行所述哈希映射的训练，包括步骤：将多个无标注的训练样本输入所述特征提取模型，得到多个训练样本特征；将所述训练样本根据所述训练样本特征的特征值大小进行排序，对排列在前半部分的训练样本的哈希码赋值为1，对排列在后半部分的训练样本的哈希码赋值为-1。

进一步地，通过损失函数D_KL进行所述哈希映射的训练，所述损失函数D_KL的表达式为：

其中，n为所述训练样本的数量，x_i为第i个训练样本，p(x_i)为第i个训练样本的真实值，q(x_i)为第i个训练样本的预测值。

进一步地，根据相似性度量值得到检索结果图像，包括步骤：根据相似性度量值对所述候选图像进行排序，确定相似性度量值最高的N个所述候选图像为检索结果图像；

或包括步骤：对相似性度量值大于一预设值的所述候选图像根据相似性度量值进行排序，确定相似性度量值最高的N个所述候选图像为检索结果图像。

基于同一发明构思，本发明还提供一种图像检索装置，包括：

获取模块，用于获取待检索图像；

特征提取模块，用于将所述待检索图像输入特征提取模型进行特征提取，得到待检索图像特征，其中，所述特征提取模型包括第一提取模块、第二提取模块和后处理模块，所述第一提取模块用于提取所述待检索图像的激活张量；所述第二提取模块用于根据所述激活张量提取所述待检索图像的共生特征矩阵，所述共生特征矩阵包括所述待检索图像每一像素点对应的特征共生张量；所述后处理模块用于将所述激活张量和所述共生特征矩阵进行融合处理，得到所述待检索图像特征；

相似性度量模块，用于将所述待检索图像特征与多个候选图像的图像特征进行相似性度量，根据相似性度量值得到检索结果图像。

基于同一发明构思，本发明还提供一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现上述方法的步骤。

基于同一发明构思，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现上述方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为实施例的图像检索方法的一示例性应用环境示意图；

图2为实施例的图像检索方法的流程示意图；

图3为实施例的图像检索装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其为本实施例的图像检索方法的一示例性应用环境示意图，包括用户终端11和服务器12，用户终端11可以是任何具有上网功能的智能终端，例如，可以具体为计算机、手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、电子书阅读器、多媒体播放器等，服务器12可以是计算机，还可以是专用服务器。其中，用户终端11可以通过无线局域网接入路由器，并通过路由器访问公网上的服务器12。用户终端11可以运行图像检索软件的客户端，用户通过用户终端11在图像检索软件客户端中输入需要检索的图像，用户终端11将所输入的待检索图像上传至服务器12，服务器12根据该待检索图像通过本实施例的图像检索方法进行处理，将处理得到的检索结果图像返回至用户终端11。

本发明通过。具体通过以下实施例进行说明。

请参阅图2，其为本实施例的图像检索方法的流程示意图。该方法包括步骤S21-S24：

S21：获取待检索图像；

S22：将待检索图像输入特征提取模型进行特征提取，得到待检索图像特征；

S23：将待检索图像特征与多个候选图像的图像特征进行相似性度量，根据相似性度量值得到检索结果图像。

在步骤S21中，待检索图像可以是任意需要进行检索的图像。在具体实施中，可以通过有线或无线的方式从摄像设备、移动终端等设备的存储单元中获取。

在步骤S22中，特征提取模型包括第一提取模块、第二提取模块和后处理模块。其中，第一提取模块用于提取待检索图像的激活张量，在具体实施中，第一提取模块可以是卷积神经网络，卷积神经网络包括输入层、卷积层、池化层、全连接层、输出层，其中卷积层用于提取输入层的特征，主要组成部分是卷积核；池化层用于对高维特征进行降维，在保证特征不丢失的前提下，筛选具有代表性的特征，降低网络的计算复杂度，防止过拟合；全连接层用于将输入的特征图映射成一维特征向量，将卷积层的特征进行信息融合，将局部特征编码成全局语义特征，第一提取模块提取的激活张量通过卷积神经网络的卷积层输出。在本实施例中，第一提取模块优选为MobileNetV3网络模型，如表1所示，MobileNetV3网络模型的网络结构依次包括第一conv2d卷积层、15个bneck卷积层、第二conv2d卷积层、池化层、第三conv2d卷积层和第四conv2d卷积层，其中，第一conv2d卷积层、15个bneck卷积层、第二conv2d卷积层、第三conv2d卷积层和第四conv2d卷积层用于提取特征，池化层用于进行特征降维，SE表示是否经过SE通道注意力机制处理，HS表示HardSwish激活函数，RE表示RELU激活函数。在一可选实施例中，可忽略第四conv2d卷积层，以MobileNetV3网络模型的第三conv2d卷积层输出的激活张量为第一提取模块所提取的待检索图像的激活张量。

表1

第二提取模块用于根据第一提取模块提取的激活张量提取待检索图像的每一像素点对应的特征共生张量，每一像素点对应的特征共生张量构成共生特征矩阵。在具体实施中，可通过Co-occurrence fliter与第一提取模块提取的激活张量进行卷积得到待检索图像每一像素点对应的特征共生张量。

后处理模块用于将第一提取模块提取的激活张量和第二提取模块提取的特征共生张量进行融合处理，得到待检索图像的待检索图像特征。更具体地，融合处理依次包括池化操作、第一标准化操作、降维操作和第二标准化操作，其中，降维操作可采用PCA降维操作。

在步骤S23中，候选图像可以是任意图像，在具体实施中，候选图像可以存储于本地数据库中，或云端数据库中。候选图像的图像特征可以通过步骤S22中的特征提取模型进行提取。

将待检索图像特征与多个候选图像的图像特征进行相似性度量时，可以通过最近邻查找(NN)或近似最近邻查找(ANN)进行候选图像的查询，其中最近邻查找通过对全部候选图像的图像特征向量数据进行遍历，可采用穷尽查找法、暴力匹配算法等。近似最近邻查找通过缩小检索空间提高查找效率。

对待检索图像特征和候选图像的图像特征进行相似性度量值的计算时，可通过欧几里得距离、曼哈顿距离、汉明距离、余弦相似度和Jaccard系数中的一种或多种组合进行计算。

在对特征提取模型进行训练时，可采用公开的数据集，如CUB-200-2011鸟类数据集、Stanford Dogs Dataset狗类数据集、Stanford Cars汽车数据集、Category FlowerDataset花朵数据集、FGVC-Aircraft Benchmark飞机数据集等。本实施例选用CUB-200-2011鸟类数据集作为模型的训练集和验证集；选用Stanford Dogs Dataset狗类数据集作为模型的测试集。

为了提高训练、验证和测试数据集的数据质量，以提高模型的预测和泛化能力，本实施例还对用于模型训练的数据集进行数据处理，具体包括数据清理、数据集成、数据规约和数据变换，其中数据清理通过填补缺失值、光滑噪声数据、平滑或删除离群点，并解决数据的不一致性来“清理”数据；数据集成将多个数据源中的数据结合在一起、存放在一个一致的数据存储，如数据仓库中，这些数据源可能包括多个数据库、数据方或一般文件；数据规约获取数据集的归纳表示，可采用维度规约、维度变换这两种策略；数据变换包括对数据进行规范化、离散化、稀疏化处理。

在一具体实施例中，通过迁移学习对特征提取模型进行训练，具体为，首先通过训练集对MobileNetV3网络模型进行预训练，再通过Convnet冻结已预训练的MobileNetV3网络模型中除全连接层外的所有网络权重，最后的全连接层用一个具有随机权重的替换层来替换，并且仅训练该层，具体可选用SVM作为替换层。

用于特征提取模型训练的损失函数可以是交叉熵损失函数(Cross-entropy lossfunction)、感知损失(perceptron loss)函数、平方损失函数以及指数损失函数(exponential loss)等其中的一种或多种的组合。此外，为了提高训练速度，本实施例通过小批量梯度下降方法对特征提取模型进行优化，具体为，将训练集分为若干个训练子集，将每一训练子集输入特征提取模型，得到迭代参数，第j个迭代参数θ′_j的表达式为：

其中，θ_j为第j个调整参数，α为学习率，h_θ()为回归方程，

为图像特征的第i行的第j个特征值，y⁽ⁱ⁾为第i行特征值x⁽ⁱ⁾对应的目标值，m为目标值y⁽ⁱ⁾的个数。

在步骤S23中，将待检索图像特征与多个候选图像的图像特征进行相似性度量时，进一步包括步骤：

S231：将待检索图像特征通过哈希映射，得到待检索哈希码；

具体可采用深度哈希方法对步骤S22得到的待检索图像特征进行哈希映射，得到对应的待检索哈希码。在哈希映射中，哈希函数需要满足以下两个条件：

其中，x、y为输入哈希函数的两个不同的特征，d(x，y)为x和y之间的距离，预设的第一距离阈值d₁小于预设的第二距离阈值d₂，h(x)为特征x的哈希变换，h(y)为特征y的哈希变换，p1、p2为预设概率阈值。

在训练中，可通过均方误差损失函数对哈希映射进行参数调整。

在一优选实施例中，为了提高大规模图像检索的检索速度和效率，可采用无监督哈希学习进行哈希映射的训练。无监督哈希学习使用无标注的训练集进行训练，将训练集中的图像数据转换为紧凑的二值编码。在无监督哈希学习的训练中，将训练集的训练样本输入特征提取模型，得到多个训练样本特征；将训练样本根据训练样本特征的特征值大小进行排序，对排列在前半部分的训练样本的哈希码赋值为1，对排列在后半部分的训练样本的哈希码赋值为-1，得到双半分布的哈希码。在具体实施中，将训练样本根据训练样本特征的特征值大小进行排序时，可按训练样本特征的特征值大小从大到小排序，也可按训练样本特征的特征值从小到大排序。

进一步，为了提高哈希码的位独立性和鲁棒性，在哈希映射的训练中采用损失函数D_KL，损失函数的表达式为：

其中，n为训练集中的训练样本数，x_i为训练集中的第i个训练样本，p(x_i)为训练集中第i个训练样本的真实值，q(x_i)为训练集中第i个训练样本的预测值。

S232：将待检索哈希码与多个候选图像的哈希码进行相似性度量。

候选图像的哈希码是对候选图像的图像特征进行哈希映射得到的，可以采用深度哈希方法获得候选图像的哈希码。

计算待检索哈希码与多个候选图像的哈希码的汉明距离或余弦相似度，作为相似性度量值，其中，汉明距离是两个相同长度的二值编码对应位置上不同数字的个数，对两个编码串进行异或运算，统计运算结果为1的个数，即为汉明距离的值。余弦相似度是用特征向量空间当中两个向量夹角的余弦值来度量两个向量之间的相似性，余弦相似度的计算公式为：

其中，x为待检索哈希码，y为候选图像的哈希码。

在训练中，可通过交叉熵损失函数对相似性度量值的计算进行参数调整。

在步骤S23中，根据相似性度量值得到检索结果图像，可以是根据相似性度量值对候选图像进行排序，确定相似性度量值最高的N个候选图像为检索结果图像；也可以是对相似性度量值大于一预设值的候选图像根据相似性度量值进行排序，确定相似性度量值最高的N个候选图像为检索结果图像。

相对于现有技术，本发明的图像检索方法通过融合图像的激活张量和特征共生张量，获得高质量的图像特征，能够准确识别图像中的主体，从而能够提高检索精度。此外，基于mobilenet v3的特征提取模型，能够减小模型参数量，从而提高检索速度。

基于同一发明构思，本发明还提供一种图像检索装置。请参阅图3，其为本实施例的图像检索装置的结构示意图，该图像检索装置包括获取模块31、特征提取模块32和相似性度量模块33，其中，获取模块31用于获取待检索图像；特征提取模块32用于将待检索图像输入特征提取模型进行特征提取，得到待检索图像特征；相似性度量模块33用于将待检索图像特征与多个候选图像的图像特征进行相似性度量，根据相似性度量值得到检索结果图像。

相似性度量模块33进一步包括哈希映射子模块331和相似性度量子模块332，哈希映射子模块331用于将待检索图像特征通过哈希映射，得到待检索哈希码；相似性度量子模块332用于将待检索哈希码与多个候选图像的哈希码进行相似性度量。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关细节之处请参见方法实施例的说明。

基于同一发明构思，本发明还提供一种电子设备，所述电子设备可以是服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该电子设备包括一个或多个处理器和存储器，其中处理器用于执行程序实现方法实施例的图像检索方法；存储器用于存储可由所述处理器执行的计算机程序。该电子设备还可包括显示屏，显示屏用于显示处理器得到的检索结果图像。

基于同一发明构思，本发明还提供一种计算机可读存储介质，与前述图像检索方法的实施例相对应，所述计算机可读存储介质其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所记载的图像检索方法的步骤。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种图像检索方法，其特征在于，包括步骤：

获取待检索图像；

2.根据权利要求1所述的方法，其特征在于：所述第一提取模块用于通过MobileNetV3网络模型提取所述待检索图像的激活张量，所述MobileNetV3网络模型的网络结构依次包括第一conv2d卷积层、bneck卷积层、第二conv2d卷积层、池化层和第三conv2d卷积层，其中所述第一conv2d卷积层、bneck卷积层和第三conv2d卷积层用于提取特征，所述第三conv2d卷积层输出所述待检索图像的激活张量，所述池化层用于进行特征降维。

3.根据权利要求1所述的方法，其特征在于，将所述待检索图像特征与多个候选图像的图像特征进行相似性度量，包括步骤：

将所述待检索图像特征通过哈希映射，得到待检索哈希码；

4.根据权利要求3所述的方法，其特征在于，通过无监督哈希学习进行所述哈希映射的训练，包括步骤：将多个无标注的训练样本输入所述特征提取模型，得到多个训练样本特征；将所述训练样本根据所述训练样本特征的特征值大小进行排序，对排列在前半部分的训练样本的哈希码赋值为1，对排列在后半部分的训练样本的哈希码赋值为-1。

5.根据权利要求4所述的方法，其特征在于，通过损失函数D_KL进行所述哈希映射的训练，所述损失函数D_KL的表达式为：

6.根据权利要求1所述的方法，其特征在于，根据相似性度量值得到检索结果图像，包括步骤：根据相似性度量值对所述候选图像进行排序，确定相似性度量值最高的N个所述候选图像为检索结果图像；

7.一种图像检索装置，其特征在于，包括：

获取模块，用于获取待检索图像；

8.根据权利要求7所述的装置，其特征在于：所述第一提取模块用于通过MobileNetV3网络模型提取所述待检索图像的激活张量，所述MobileNetV3网络模型的网络结构依次包括第一conv2d卷积层、bneck卷积层、第二conv2d卷积层、池化层和第三conv2d卷积层，其中所述第一conv2d卷积层、bneck卷积层和第三conv2d卷积层用于提取特征，所述第三conv2d卷积层输出所述待检索图像的激活张量，所述池化层用于进行特征降维。

9.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-6中任一项所述方法的步骤。