CN110532417B

CN110532417B - 基于深度哈希的图像检索方法、装置及终端设备

Info

Publication number: CN110532417B
Application number: CN201910824308.0A
Authority: CN
Inventors: 李晓云; 冯春雨; 黎彤亮; 王怀瑞; 黄世中
Original assignee: Institute Of Applied Mathematics Hebei Academy Of Sciences
Current assignee: Institute Of Applied Mathematics Hebei Academy Of Sciences
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2022-03-29
Anticipated expiration: 2039-09-02
Also published as: CN110532417A

Abstract

本发明适用于图像检索技术领域，提供了一种基于深度哈希的图像检索方法、装置及终端设备，包括：先对原始图像数据集进行预处理并分类，在利用深度卷积神经网络训练获得深度卷积神经网络模型后，根据交叉熵损失模型以及语义相似度矩阵对获得的深度卷积神经网络模型进行参数更新，利用更新后的深度卷积神经网络模型，获得测试集中每张图像的哈希码与训练集中每张图像的哈希码；根据获得的哈希码，计算测试集与训练集图像之间的汉明距离，并根据汉明距离的排序结果获得图像检索结果。本发明中引入语义相似度矩阵对深度卷积神经网络模型进行参数更新，可以从更多的角度反映图像之间的相似度，获得更加准确的图像检索结果。

Description

基于深度哈希的图像检索方法、装置及终端设备

技术领域

本发明属于图像检索技术领域，尤其涉及一种基于深度哈希的图像检索方法、装置及终端设备。

背景技术

随着大数据时代的到来，互联网图像资源迅猛增长，如何对大规模图像资源进行快速有效的检索以满足用户需求成为亟待解决的问题。由于哈希技术将原始图像保持相似性地映射为二进制哈希码，而二进制哈希码在汉明距离计算上具有高效性和存储空间上的优势，所以哈希码可以提高大规模图像检索的效率。

基于内容的图像检索通过提取图像视觉底层特征来实现图像的内容表达，与这些底层特征相比，深度卷积神经网络能够获得图像的内在特征，利用深度卷积神经网络提取的特征在目标检测、图像分类和图像分割等方面都表现出了良好的性能。

由于深度卷积神经网络在特征学习上的优越性以及哈希技术在检索中计算速度上和存储空间上的优越性，近年来出现了深度卷积神经网络与哈希技术相结合的方法。基于深度卷积神经网络与哈希技术的图像检索方法，目前主要分为两大类，一类是无监督的深度哈希学习，一类是有监督的深度哈希学习，其中有监督的深度哈希学习可以有效利用图像之间的语义相似度，因此受到广泛研究，然而目前的有监督的深度哈希学习方法，在利用图像标签信息计算图像之间的相似度时不能完全反映图像之间的相似程度，仅仅标定为相似与不相似，比如两个图像的标签类型中只要有一类是相同的，就设定其相似程度为1，如果两幅图像的标签类型没有任何相同的类，则设定相似程度为0，这种图像之间的相似度的计算方法不能真实的反映出两幅图像之间的语义相似度，监督信息中更无法考虑语义相似度矩阵引起的量化误差，从而影响了图像检索的准确度。

发明内容

有鉴于此，本发明实施例提供了一种基于深度哈希的图像检索方法、装置及终端设备，以解决现有技术中大规模图像检索准确率不高的问题。

本发明实施例的第一方面提供了一种基于深度哈希的图像检索方法，包括：

对获取的原始图像数据集进行预处理，获得训练集和测试集；

根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型；

根据交叉熵损失模型以及语义相似度矩阵对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型；

根据所述测试集、所述训练集以及所述更新后的深度卷积神经网络模型，获得测试集中每张图像的哈希码与训练集中每张图像的哈希码；

根据所述测试集中每张图像的哈希码与所述训练集中每张图像的哈希码，计算测试集中任一图像与训练集中任一图像之间的汉明距离，并根据计算出的所有的汉明距离获得图像检索结果。

可选的，所述对获取的原始图像数据集进行预处理，获得训练集和测试集，包括：

获取原始图像数据集；

对所述原始图像数据集中的单标签图像数据集进行标签信息细化，获得多标签信息；

对标签信息细化后的原始图像数据集进行分类，获得训练集和测试集。

可选的，所述根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型，包括：

构建深度卷积神经网络层级结构；

对构建的所述深度卷积神经网络层级结构中的参数进行初始化，获得初始化后的深度卷积神经网络；

将所述训练集中的图像初始化，获得初始化后的训练集图像；

将所述初始化后的训练集图像输入到所述初始化后的深度卷积神经网络中进行训练，获得训练后的深度卷积神经网络模型。

可选的，所述训练集中包括训练集图像及训练集图像对应的标签信息；

所述根据交叉熵损失模型以及语义相似度矩阵，对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型包括：

根据所述训练集中包括的训练集图像对应的标签信息，计算所述训练集中任意两个训练集图像之间的图像相似度，并根据所述图像相似度构建第一语义相似度矩阵；

根据所述图像相似度、所述第一语义相似度矩阵以及所述深度卷积神经网络模型中的参数，采用预设交叉熵模型构建交叉熵损失函数；

将所述训练集中包括的任意两个训练集图像及所述任意两个训练集图像对应的标签信息输入所述深度卷积神经网络模型获得对应的两个连续输出值，根据所述两个连续输出值计算第二语义相似度矩阵；

根据所述第一语义相似度矩阵以及所述第二语义相似度矩阵，计算获得构建语义相似度矩阵引起的第一量化误差；

对获得的所有连续输出值进行二值化处理，获得二值化处理过程中引起的第二量化误差；

根据所述第一量化误差和所述第二量化误差计算量化误差总值；

根据所述量化误差总值以及预设权重因子对所述交叉熵损失函数进行处理，获得目标损失函数；

根据所述目标损失函数，采用随机梯度下降方法来更新所述深度卷积神经网络模型中的参数，获得更新后的深度卷积神经网络模型。

可选的，所述第一语义相似度矩阵为：

其中，s_ij为图像m_i与图像m_j之间的图像相似度，l_i为图像m_i对应的标签，l_j为图像m_j对应的标签，i和j均为图像m的标号，S为根据所述图像相似度s_ij构建的第一语义相似度矩阵，N为第一语义相似度矩阵中的图像数。

可选的，所述交叉熵损失函数为：

其中，L₀为交叉熵损失函数，a_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后计算得到的第二语义相似度，Ω_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后获得对应的两个连续输出值u_i与u_j的内积，α是限制内积大小的超参数，σ(·)为sigmoid函数，W为所述深度卷积神经网络模型中特征学习层最后一层全连接层与哈希输出层间的权重矩阵集合，

为输入图像m_i通过所述深度卷积神经网络模型的特征学习层后输出的图像特征，θ为特征学习层所有参数的集合，v为哈希输出层的偏置向量。

可选的，所述量化误差总值为：

其中，Q为量化误差总值，Q₁为第一量化误差，Q₂为第二量化误差，β为第一预设权重因子，η为第二预设权重因子，b_i为所述深度卷积神经网络模型的哈希码输出层输出的哈希码。

本发明实施例的第二方面提供了一种基于深度哈希的图像检索装置，包括：

预处理模块，用于对获取的原始图像数据集进行预处理，获得训练集和测试集；

训练模块，用于根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型；

参数更新模块，用于根据交叉熵损失模型以及语义相似度矩阵对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型；

哈希码获取模块，用于根据所述测试集、所述训练集以及所述更新后的深度卷积神经网络模型，获得测试集中每张图像的哈希码与训练集中每张图像的哈希码；

检索模块，用于根据所述测试集中每张图像的哈希码与所述训练集中每张图像的哈希码，计算测试集中任一图像与训练集中任一图像之间的汉明距离，并根据计算出的所有的汉明距离获得图像检索结果。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述基于深度哈希的图像检索方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述基于深度哈希的图像检索方法的步骤。

本发明实施例在对训练的深度卷积神经网络模型进行参数更新时，不仅考虑交叉熵模型构建的交叉熵损失函数，还考虑了语义相似度矩阵对深度卷积神经网络模型参数更新的作用，引入语义相似度矩阵能够从更多的角度反映输入神经卷积神经网络模型的图像对之间的相似程度，可以更加有效的利用图像的标签信息代表的语义，将待检索的图像输入参数更新后的深度卷积神经网络模型，可以检索得到与待检索图像之间相似程度更高的图像，将检索得到的图像作为图像检索结果的输出，进一步提高了图像检索的检索准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度哈希的图像检索方法的流程示意图；

图2是本发明实施例提供的获得训练集和测试集的流程示意图；

图3是本发明实施例提供的获得深度卷积神经网络模型的流程示意图；

图4是本发明实施例提供的对获得的深度卷积神经网络模型进行参数更新的流程示意图；

图5是本发明实施例提供的一种基于深度哈希的图像检索装置的结构框图；

图6是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

步骤S101，对获取的原始图像数据集进行预处理，获得训练集和测试集。

可选的，参见图2，对获取的原始图像数据集进行预处理，获得训练集和测试集，包括：

步骤S201，获取原始图像数据集。

其中，原始图像数据集可以为适用于深度学习图像检测的任何图像数据集，例如内容为手写数据0到9，由10个类别组成，每个样本图像的宽高为28×28的(Mixed NationalInstitute of Standards and Technology，MNIST)数据集，也可以为计算机视觉领域广泛应用的ImageNet数据集，或者也可以为CIFAR-10数据集，本发明实施例对获取的原始图像数据集不做限定。

步骤S202，对原始图像数据集中的单标签图像数据集进行标签信息细化，获得多标签信息。

其中，步骤S201中获取的原始图像数据集可能为单标签图像数据集也可能为多标签图像数据集，当原始图像数据集中包含有单标签图像数据集时，单标签图像数据集中图像对应的标签信息也只有一种类型，那么在后续根据原始图像数据集中的标签信息计算图像之间的相似度时，由于两幅图像的标签信息只有一种类型，当两幅图像标签信息为相同的类时设定两幅图像相似且相似程度为1，当两幅图像标签信息为不同的类时，设定两幅图像不相似且相似程度为0，这样的得到的两幅图像之间的相似程度未有效利用图像的标签信息，不能完全反应两幅图像之间的相似程度。

本发明实施例中，原始图像数据集中包含有单标签图像数据集时对单标签图像数据集中的标签信息进行细化，使一幅图像对应的标签信息不只有一种类型，将单标签图像数据集转换为多标签图像数据集。

可选的，根据单标签图像数据集中标签信息的标签类型所属的大类对所述标签信息进一步标注，获得细化后单标签图像数据集转换为的多标签图像数据集。例如，当获取的原始图像数据集为CITAR-10数据集时，原始图像数据集中图像对应的标签信息分为10种标签类型，分别为“airplane”、“automobile”、“bird”、“cat”、“deer”、“dog”、“frog”、“horse”、“ship”、“truck”，很明显，这10个类别还可以分为两种大的标签类型“animals”和“vehicle”，对属于“animals”或“vehicle”的子标签类型，我们可以分别增加一列标签来表示子标签类型所属的父标签类型，在实际中可以用不同的阿拉伯数字代表不同的标签类型，在对原始图像数据集的标签信息增加父标签类型后，也就是对单标签图像数据集的标签信息进行细化以后，在计算两幅图像之间的相似度时，尽管两幅图像所述的子标签类型可能不同，但两幅图像还可能属于同一个父标签类型，这样在计算两幅图像的相似程度时，可以进一步利用对应图像的标签信息，获得更为精确的两幅图像之间的相似度。

步骤S203，对标签信息细化后的原始图像数据集进行分类，获得训练集和测试集。

在利用原始图像数据集训练深度卷积神经网络之前，一般都要将原始图像数据集分为训练集和测试集，训练集包括训练集图像及训练集图像对应的标签信息，测试集包括测试集图像及测试集图像对应的标签信息，利用训练集对深度卷积神经网络进行训练，获得训练好的深度卷积神经网络模型，利用训练好的深度卷积神经网络模型对测试集中的图像进行图像检索，获得图像检索准确率较高的检索图像检索结果。

步骤S102，根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型。

可选的，参见图3，所述根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型，包括：

步骤S301，构建深度卷积神经网络层级结构。

可选的，深度卷积神经网络层级架构可以包括特征学习层和哈希码输出层，特征学习层可以包括输入层以及多个卷积层、池化层和全连接层，哈希码输出层可以包括全连接层和阈值化层，其中，特征学习层用于学习图像特征，可以由AlexNet、VGG、ResNet等网络的子网络组成，哈希码输出层用于学习哈希函数的构建并得到输入图像的哈希码。

步骤S302，对构建的深度卷积神经网络层级结构中的参数进行初始化，获得初始化后的深度卷积神经网络。

可选的，可以采用均值为0，标准差为0.01的高斯分布来对构建的深度卷积神经网络层级结构中的参数进行初始化，获得初始化后的深度卷积神经网络。

步骤S303，将训练集中的图像初始化，获得初始化后的训练集图像。

根据步骤S301中构建深度卷积神经网络层级结构中的特征学习层时选取的网络类型，相应的对待输入初始化后的深度卷积神经网络中的训练集中的训练集图像以及训练集图像对应的标签信息进行初始化。

可选的，可以调整待输入初始化后的深度卷积神经网络中的训练集中的训练集图像的大小或者对训练集中训练集图像进行归一化处理等适应性操作。

步骤S304，将初始化后的训练集图像输入到初始化后的深度卷积神经网络中进行训练，获得训练后的深度卷积神经网络模型。

步骤S103，根据交叉熵损失模型以及语义相似度矩阵对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型。

可选的，参见图4，根据交叉熵损失模型以及语义相似度矩阵，对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型包括：

步骤S401，根据训练集中包括的训练集图像对应的标签信息，计算训练集中任意两个训练集图像之间的图像相似度，并根据图像相似度构建第一语义相似度矩阵。

可选的，第一语义相似度矩阵计算如下：

图像相似度s_ij为利用图像m_i与m_j的标签信息获得的，代表了图像m_i与m_j的标签信息表达的相似度，所以由图像相似度s_ij组成的矩阵S为第一语义相似度矩阵，其中l_i,l_j∈{0,1}^k，k是图像m_i或图像m_j所属图像数据集的标签信息包含的所有标签类型的个数，0代表图像m_i或图像m_j不属于对应的标签类型，1表示图像m_i或图像m_j属于对应的标签类型。

示例性的，假设l_i＝[0 1 1 0 0 1]，l_j＝[1 0 1 0 0 1]，则

可以看出，采用此种计算方法计算多标签图像数据集中两幅图像之间的图像相似度，合理有效的利用了多标签图像数据集中的标签类型信息，相比传统的相似度计算方法能够更多的反映两幅图像之间的相似程度，计算所得的图像相似度也不再局限于0和1，能够得到更加精确的图像相似度，进而提高图像检索的准确率。

步骤S402，根据图像相似度、第一语义相似度矩阵以及深度卷积神经网络模型中的参数，采用预设交叉熵模型构建交叉熵损失函数。

可选的，采用预设交叉熵模型构建的交叉熵损失函数为：

其中，L₀为交叉熵损失函数，训练集中任意两个图像m_i与m_j输入所述深度卷积神经网络模型后，通过特征学习层得到图像特征

与图像特征

θ代表特征学习层所有参数的集合，任意两个图像m_i与m_j的图像特征

与

经过哈希码输出层的全连接层后，假设需要生成哈希码的长度为q，则将任意两个图像m_i与m_j对应的图像特征分别映射为两个q维向量，获得对应的两个连续输出值u_i与u_j，这两个连续输出值代表了任意两个图像m_i与m_j的哈希码连续输出值，Ω_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后获得对应的两个连续输出值u_i与u_j的内积，可以看作是u_i与u_j之间的汉明距离，α是限制内积大小的超参数，用来抑制梯度消失，σ(·)为sigmoid函数，a_ij＝σ(Ω_ij)即对该内积求sigmoid函数，可以看作是任意两个图像m_i与m_j的哈希码连续输出值之间的相似度，即第二语义相似度，而s_ij为图像m_i与图像m_j的通过标签信息计算得到的相似度，交叉熵损失函数即表示使任意两个图像m_i与m_j输入所述深度卷积神经网络模型后输出的两个哈希码连续输出值之间的相似度尽可能接近图像m_i与图像m_j的通过标签信息计算得到的相似度。

其中，W为所述深度卷积神经网络模型中特征学习层最后一层全连接层与哈希输出层间的权重矩阵集合，W∈R^p×q，p代表特征学习层最后一层全连接层神经元的个数，q代表需要生成哈希码的长度，R代表全体实数，v为哈希输出层的偏置向量，v∈R^q×1。

步骤S403，将训练集中包括的任意两个训练集图像及任意两个训练集图像对应的标签信息输入深度卷积神经网络模型获得对应的两个连续输出值，根据两个连续输出值计算第二语义相似度矩阵。

示例性的，将训练集中任意两个图像m_i与m_j输入所述深度卷积神经网络模型后，通过特征学习层得到图像特征

与图像特征

经过哈希码输出层的全连接层后，获得对应的两个连续输出值u_i与u_j，根据两个连续输出值u_i与u_j计算得到Ω_ij，对Ω_ij求sigmoid函数，获得任意两个图像m_i与m_j的哈希码连续输出值之间的相似度a_ij，由a_ij构建包含训练集中所有训练集图像的第二语义相似度矩阵。

步骤S404，根据第一语义相似度矩阵以及第二语义相似度矩阵，计算获得构建语义相似度矩阵引起的第一量化误差。

可选的，第一量化误差可以由下式计算得到：

其中，Q₁为第一量化误差，β为第一预设权重因子，σ(Ω_ij)即a_ij为第二语义相似度，A＝{a_iji,j＝1,2,...N}为第二语义相似度a_ij构成的第二语义相似度矩阵，根据第一语义相似度矩阵以及第二语义相似度矩阵，利用其中的任一个元素s_ij与a_ij之差的平方求和后乘以第一预设权值因子β，获得构建语义相似度矩阵引起的第一量化误差Q₁。

步骤S405，对获得的所有连续输出值进行二值化处理，获得二值化处理过程中引起的第二量化误差。

其中，任意两个图像m_i与m_j输入所述深度卷积神经网络模型后，经过哈希码输出层的全连接层后，获得对应的两个连续输出值u_i与u_j，两个连续输出值u_i与u_j再经过哈希码输出层的阈值化层进行量化，得到二进制哈希码b_i。

示例性的，b_i＝sign(u_i)，b_i∈{-1,1}^c，其中sign(·)为符号函数，其功能是取某个数的符号，即当u_i>0时，b_i取1，当u_i<0时，b_i取0，也就是完成得到二进制哈希码的功能。

对输入所述深度卷积神经网络模型中的任意一个训练集图像m_i，都能够得到一个连续输出值u_i，计算u_i量化为b_i过程中的误差，即第二量化误差Q₂。

可选的，第二量化误差Q₂可以由下式计算得到：

其中，η为第二预设权重因子。

步骤S406，根据第一量化误差和第二量化误差计算量化误差总值。

量化误差总值Q为第一量化误差Q₁和第二量化误差Q₂之和，考虑构建语义相似度矩阵引起的第一量化误差Q₁和连续输出值二值化引起的第二量化误差，在后续构建目标损失函数时，可以进一步提高图像检索的准确率。

步骤S407，根据量化误差总值以及预设权重因子对交叉熵损失函数进行处理，获得目标损失函数。

可选的，目标损失函数为：

其中，C为目标损失函数，L₁为对交叉熵损失函数L₀赋予预设权重因子

后的结果，这里预设权重因子

表示预设权重因子与限制内积大小的超参数α有关，基于交叉熵损失函数和量化误差总值获得目标损失函数，考虑了语义相似度矩阵引起的量化误差以及连续输出值进行二值化引起的量化误差，可以进一步提高图像的检索准确率。

步骤S408，根据目标损失函数，采用随机梯度下降方法来更新所述深度卷积神经网络模型中的参数，获得更新后的深度卷积神经网络模型。

反向传播算法(Backpropagation algorithm，BP)是一种监督学习算法，是目前用来训练人工神经网络最常用且最有效的算法，BP算法的主要思想为：

(1)将训练集图像数据输入到人工神经网络的输入层，经过隐藏层处理后，最后到达输出层并输出结果，这是人工神经网络的前向传播过程。

(2)由于人工神经网络的输出结果与实际结果有误差，则计算人工神经网络的输出值也就是估计值与样本实际值之间的误差，并将该误差从人工神经网络的输出层向隐藏层反向传播，直至传播到输入层。

(3)在反向传播过程中，根据误差调整各种参数的值，不断迭代上述过程，直至人工神经网络的输出结果收敛。

梯度下降方法的原理为：目标损失函数关于参数的梯度将是目标损失函数上升最快的方向，由于我们想要使目标损失函数最小，因此只需要将参数沿着梯度相反的方向前进一个步长，将参数替换为参数减去参数的梯度，就可以实现目标损失函数的不断减小直至收敛。

可选的，本发明实施例中，利用目标损失函数C，可以计算出以下参数的梯度：

然后根据链式法则可以计算出

式中，符号⊙表示是矩阵的Hadamard积，通过BP算法，将采用随机梯度下降方法获得的各个参数的梯度从深度卷积神经网络模型的哈希码输出层逐层传递到深度卷积神经网络模型的上一层结构中，来更新深度卷积神经网络模型中的参数，使得采用训练集对深度卷积神经网络训练后的深度卷积神经网络模型的目标损失函数最小，即让参数更新后的深度卷积神经网络模型的输出值更接近于真实值。

步骤S104，根据所述测试集、所述训练集以及所述更新后的深度卷积神经网络模型，获得测试集中每张图像的哈希码与训练集中每张图像的哈希码。

可选的，根据更新后的深度卷积神经网络模型，将训练集和测试集中的每张图像作为输入，得到训练集中每张图像的哈希码与测试集中每张图像的哈希码。

步骤S105，根据所述测试集中每张图像的哈希码与所述训练集中每张图像的哈希码，计算测试集中任一图像与训练集中任一图像之间的汉明距离，并根据计算出的所有的汉明距离获得图像检索结果。

根据步骤S104获得的训练集中每张图像的哈希码与测试集中每张图像的哈希码，计算测试集中任一图像与训练集中任一图像之间的汉明距离，将计算出的所有汉明距离按从小到大的顺序进行排序，按顺序输出对应的原始图像，即获得测试集中任一图像的检索结果。

上述基于深度哈希的图像检索方法，通过对原始图像数据集进行预处理，除了将原始图像数据集分类获得训练集和测试集外，还可以在分类前对原始图像数据集中只包含一类标签类型信息的单标签图像数据集的标签信息进行细化，获得多标签信息，将单标签图像数据集转换为多标签图像数据集，从而使图像数据集中的标签类型信息可以进一步被利用，在此基础上，引入语义相似度矩阵与传统的损失函数相结合，更新深度卷积网络模型的参数，利用更新后的深度卷积网络模型对输入的测试集进行检索，进一步提高了图像检索的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的基于深度哈希的图像检索方法，图5示出了本发明实施例提供的基于深度哈希的图像检索装置的结构框图，如图5所示，该装置可以包括：预处理模块51、训练模块52、参数更新模块53、哈希码获取模块54和检索模块55。

预处理模块51，用于对获取的原始图像数据集进行预处理，获得训练集和测试集；

训练模块52，用于根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型；

参数更新模块53，用于根据交叉熵损失模型以及语义相似度矩阵对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型；

哈希码获取模块54，用于根据所述测试集、所述训练集以及所述更新后的深度卷积神经网络模型，获得测试集中每张图像的哈希码与训练集中每张图像的哈希码；

检索模块55，用于根据所述测试集中每张图像的哈希码与所述训练集中每张图像的哈希码，计算测试集中任一图像与训练集中任一图像之间的汉明距离，并根据计算出的所有的汉明距离获得图像检索结果。

可选的，所述预处理模块51可以用于获取原始图像数据集；对所述原始图像数据集中的单标签图像数据集进行标签信息细化，获得多标签信息；对标签信息细化后的原始图像数据集进行分类，获得训练集和测试集。

可选的，所述训练模块52可以用于构建深度卷积神经网络层级结构；对构建的所述深度卷积神经网络层级结构中的参数进行初始化，获得初始化后的深度卷积神经网络；将所述训练集中的图像初始化，获得初始化后的训练集图像；将所述初始化后的训练集图像输入到所述初始化后的深度卷积神经网络中进行训练，获得训练后的深度卷积神经网络模型。

可选的，所述训练集中包括训练集图像及训练集图像对应的标签信息，所述参数更新模块53用于根据所述训练集中包括的训练集图像对应的标签信息，计算所述训练集中任意两个训练集图像之间的图像相似度，并根据所述图像相似度构建第一语义相似度矩阵；根据所述图像相似度、所述第一语义相似度矩阵以及所述深度卷积神经网络模型中的参数，采用预设交叉熵模型构建交叉熵损失函数；将所述训练集中包括的任意两个训练集图像及所述任意两个训练集图像对应的标签信息输入所述深度卷积神经网络模型获得对应的两个连续输出值，根据所述两个连续输出值计算第二语义相似度矩阵；根据所述第一语义相似度矩阵以及所述第二语义相似度矩阵，计算获得构建语义相似度矩阵引起的第一量化误差；对获得的所有连续输出值进行二值化处理，获得二值化处理过程中引起的第二量化误差；根据所述第一量化误差和所述第二量化误差计算量化误差总值；根据所述量化误差总值以及预设权重因子对所述交叉熵损失函数进行处理，获得目标损失函数；根据所述目标损失函数，采用随机梯度下降方法来更新所述深度卷积神经网络模型中的参数，获得更新后的深度卷积神经网络模型。

可选的，所述参数更新模块53根据所述训练集中包括的训练集图像对应的标签信息，计算所述训练集中任意两个训练集图像之间的图像相似度，并根据所述图像相似度构建第一语义相似度矩阵时，可以根据

获得第一语义相似度矩阵，其中，s_ij为图像m_i与图像m_j之间的图像相似度，l_i为图像m_i对应的标签，l_j为图像m_j对应的标签，i和j均为图像m的标号，S为根据所述图像相似度s_ij构建的第一语义相似度矩阵，N为第一语义相似度矩阵中的图像数。

可选的，所述参数更新模块53采用预设交叉熵模型构建交叉熵损失函数时，可以根据

构建交叉熵损失函数，其中，其中，L₀为交叉熵损失函数，a_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后计算得到的第二语义相似度，Ω_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后获得对应的两个连续输出值u_i与u_j的内积，α是限制内积大小的超参数，σ(·)为sigmoid函数，W为所述深度卷积神经网络模型中特征学习层最后一层全连接层与哈希输出层间的权重矩阵集合，

可选的，所述参数更新模块53根据所述第一量化误差和所述第二量化误差计算量化误差总值时，可以根据

获得第一量化误差、第二量化误差以及量化误差总值，其中其中，Q为量化误差总值，Q₁为第一量化误差，Q₂为第二量化误差，β为第一预设权重因子，η为第二预设权重因子，b_i为所述深度卷积神经网络模型的哈希码输出层输出的哈希码。

上述基于深度哈希的图像检索装置，通过对获取的原始图像数据集进行预处理，可以对原始图像数据集中包含有的单标签图像数据集的标签信息进行细化，将标签类型只有一类的单标签图像数据集转换为标签类型为多类的多标签图像数据集，进一步地，在训练用于图像检索的深度卷积神经网络模型时，可以更加合理有效的利用图像数据集的标签信息，构建语义相似度矩阵，利用语义相似度矩阵与传统的损失函数结合，更新深度卷积网络模型的参数，利用更新后的深度卷积网络模型对输入的测试集进行检索，进一步提高了图像检索的准确率。

图6是本发明一实施例提供的终端设备的示意图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如一种基于深度哈希的图像检索方法的程序。所述处理器60执行所述计算机程序62时实现上述各个基于深度哈希的图像检索方法实施例中的步骤，例如图1所示的步骤S101至S105，或者图2所示的步骤S201至S203，或者图3所示的步骤S301至S304，或者图4所示的步骤S401至S408。所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示模块51至55的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述基于深度哈希的图像检索的装置或者终端设备6中的执行过程。例如，所述计算机程序62可以被分割成预处理模块、训练模块、参数更新模块、哈希码获取模块以及检索模块，各模块具体功能如图5所示，在此不再一一赘述。

所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度哈希的图像检索方法，其特征在于，包括：

所述训练集中包括训练集图像及训练集图像对应的标签信息；

所述根据交叉熵损失模型以及语义相似度矩阵，对获得的所述深度卷积神经网络模型进行参数更新，获得更新后的深度卷积神经网络模型，包括：

根据所述目标损失函数，采用随机梯度下降方法更新所述深度卷积神经网络模型中的参数，获得更新后的深度卷积神经网络模型；

2.如权利要求1所述的基于深度哈希的图像检索方法，其特征在于，所述对获取的原始图像数据集进行预处理，获得训练集和测试集，包括：

获取原始图像数据集；

3.如权利要求1所述的基于深度哈希的图像检索方法，其特征在于，所述根据所述训练集对构建的深度卷积神经网络进行训练，获得深度卷积神经网络模型，包括：

构建深度卷积神经网络层级结构；

4.如权利要求1所述的基于深度哈希的图像检索方法，其特征在于，所述第一语义相似度矩阵为：

5.如权利要求1所述的基于深度哈希的图像检索方法，其特征在于，所述交叉熵损失函数为：

其中，L₀为交叉熵损失函数，s_ij为图像m_i与图像m_j之间的图像相似度，S为根据所述图像相似度s_ij构建的第一语义相似度矩阵，a_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后计算得到的第二语义相似度，Ω_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后获得对应的两个连续输出值u_i与u_j的内积，α是限制内积大小的超参数，σ(·)为sigmoid函数，W为所述深度卷积神经网络模型中特征学习层最后一层全连接层与哈希输出层间的权重矩阵集合，

6.如权利要求1所述的基于深度哈希的图像检索方法，其特征在于，所述量化误差总值为：

其中，Q为量化误差总值，Q₁为第一量化误差，Q₂为第二量化误差，β为第一预设权重因子，s_ij为图像m_i与图像m_j之间的图像相似度，S为根据所述图像相似度s_ij构建的第一语义相似度矩阵，σ(·)为sigmoid函数，Ω_ij为任意两个图像m_i与m_j输入所述深度卷积神经网络模型后获得对应的两个连续输出值u_i与u_j的内积，η为第二预设权重因子，b_i为所述深度卷积神经网络模型的哈希码输出层输出的哈希码。

7.一种基于深度哈希的图像检索装置，其特征在于，包括：

其中，所述训练集中包括训练集图像及训练集图像对应的标签信息；

所述参数更新模块，用于根据所述训练集中包括的训练集图像对应的标签信息，计算所述训练集中任意两个训练集图像之间的图像相似度，并根据所述图像相似度构建第一语义相似度矩阵；

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于深度哈希的图像检索方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于深度哈希的图像检索方法的步骤。