CN109933682B

CN109933682B - 一种基于语义与内容信息结合的图像哈希检索方法及系统

Info

Publication number: CN109933682B
Application number: CN201910027718.2A
Authority: CN
Inventors: 乔宇; 徐宽
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2022-01-04
Anticipated expiration: 2039-01-11
Also published as: CN109933682A

Abstract

本发明提供了一种基于语义与内容信息结合的图像哈希检索方法及系统，包括：对输入图像提取语义特征；通过基于语义标签的分类器对提取的语义特征进行评价，得到语义哈希编码；通过自动编码器对提取的语义特征进行重建，得到内容哈希编码；将语义哈希编码和内容哈希编码进行拼合，得到最终用于图像检索的哈希编码。本发明同时采用图像内容与图像语义信息进行编码生成，从而使得由生成编码所得的检索结果既与查询图像具有语义相似性，也能在内容上与查询图像保证尽可能的相似性，因而本发明可以更好地完成基于图像内容的检索任务。

Description

一种基于语义与内容信息结合的图像哈希检索方法及系统

技术领域

本发明涉及图像检索领域，具体地，涉及一种基于语义与内容信息结合的图像哈希检索方法及系统。

背景技术

图像检索是计算机视觉领域中的一个重要环节，互联网的图片数据库呈指数趋势膨胀，若不能对这些海量的数据进行准确且高效的检索，就无法对其进行充分利用。图像检索的任务就是从给定一张查询图像，从数据库中返回与之最相似的样本。原始的遍历式检索算法对给定的查询图像，遍历数据库中所有的样本，依次计算其相似度并排序，从而得出与查询样本最接近的结果。但由于这种方法无法在大规模数据库上部署，渐渐被主流所淘汰。之后的算法专注于k-近邻检索，即不再寻找与查询图像最相似的样本，而是返回与查询图像相似的一组样本集。这一任务是最近邻搜索任务的一个子集，但在大多数场景下两者的效果近似相同。

哈希算法是k-近邻图像检索算法中的一类重要方法，因为其极高的检索效率和空间利用率而广为关注。哈希检索的基本原理是将图像编码成一列二值化编码，并使得相似的图像具有相似的哈希编码，从而将在图像空间中进行k-近邻查找任务转移到汉明空间(Hamming Space)中，在大大提高检索的效率的同时，也极高地提升了空间利用率。哈希方法的一大关键任务在于寻找一系列哈希函数

H(x)＝[h₁(x)，h₂(x)，...，h_K(x)]，

其中每一个哈希函数

将输入图像信息x编码为一个二值变量，同时最后所得到的哈希码可以反映图像的相似度信息，即

p(H(x_i)＝＝H(x_j))＝sim(x_i，x_j)，

编码的保相似性是评价哈希函数质量的一个重要指标，只有当哈希函数能够准确表征图像内容时，原本数据集中样本之间的相似性结构经过哈希映射后才能较为完整地嵌入到汉明空间中，从而在汉明空间中的k-近邻查找结果也能对应到原始输入空间中去。大多数哈希算法围绕的核心问题，也是如何寻找一套合理的哈希函数，经过其映射得到的编码可以尽可能准确地反映图像之间的相似性。

早期的哈希算法多是无监督哈希，即哈希函数的训练仅仅依靠无监督信息，也就是图像的像素信息。无监督哈希虽然效率较高，但最大的问题在于其得到的编码最多只能反映图像之间外形上的相似，而无法挖掘图像中蕴含的语义信息。因此，现在，主流的算法大多采用有监督的方式，通过语义编码，来指导哈希函数的训练，从而让外表不同，但属于同一语义列别的图像其生成的编码也保持相似。

尽管有监督哈希取得了显著的效果，之后与卷积神经网络的结合更是大大提升了其对语义信息的表征能力，从而大大提升了对语义标签的检索能力，如中国发明专利CN108932314A，但另外的问题随之而生。随着这种语义检索能力的提升，检索算法开始有向普通分类任务发展的趋势。造成这一现象的原因在于，所有监督哈希算法中，损失函数的定义方式都将具有同一语义标签的图像看作“完全相同”的图像，即，只有当同一类别的图像生成的编码完全相同时，才能让损失函数取得极小值。监督算法对语义信息的过度偏好，使得算法一旦充分收敛，得到的哈希函数会抹除属于同一语义标签下不同图像的内容差异，即同一类别的图像编码完全相同。此时，哈希算法编码的对象实质上从样本转移到了语义标签上，只是在编码前需要对图像的标签进行判断，因而，算法从图像检索任务退化为图像分类任务上，所得的编码方案尽管从标签检索准确度上看是优秀的，但其实编码无法完全反应被编码图像的内容，因而也无法准确的对与查询图像内容相似的图像进行检索。

需要指出的是，这种过拟合现象并非完全是输入标签包含信息不完全导致的。领域内主流观点认为，由于目前的大多数数据集为单标签或多标签，基于这些语义标签生成的图像相似度图模型中也只有“相似”“不相似”两个离散值可取。但事实上，无论相似度的取值有多少个，只要没有一个精确的连续值作为度量，那么基于这些离散相似度定义的监督算法如果充分收敛，最终得到的编码方案一定是针对每一个语义标签进行编码，而无法反应图像内容；另一方面，连续的相似度监督信息在大多数的检索任务中是难以获取的，而直接以图像对的逐像素欧几里得距离计算的连续量属于无监督信息，不仅会受到像素点中噪声的影响，同时也无法反应图像相似度的信息。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于语义与内容信息结合的图像哈希检索方法及系统。

根据本发明提供的

一种基于语义与内容信息结合的图像哈希检索方法，其特征在于，包括：

特征提取步骤：对输入图像提取语义特征；

有监督哈希步骤：通过基于语义标签的分类器对提取的语义特征进行评价，得到语义哈希编码；

无监督哈希步骤：通过自动编码器对提取的语义特征进行重建，得到内容哈希编码；

编码拼合步骤：将语义哈希编码和内容哈希编码进行拼合，得到最终用于图像检索的哈希编码。

较佳的，所述特征提取步骤通过一个具有5个卷积层和2个全连接层的神经网络对输入图像提取语义特征。

较佳的，所述有监督哈希步骤通过单类别语义标签，对得到的语义特征进行优化，同时通过二值化中间层产生语义哈希编码。

较佳的，所述无监督哈希步骤通过自动编码器对提取的语义特征进行重建，同时通过二值化中间层产生内容哈希编码。

较佳的，所述自动编码器为具有单隐藏层的自动编码器。

根据本发明提供的一种基于语义与内容信息结合的图像哈希检索系统，包括：

特征提取模块：对输入图像提取语义特征；

有监督哈希模块：通过基于语义标签的分类器对提取的语义特征进行评价，得到语义哈希编码；

无监督哈希模块：通过自动编码器对提取的语义特征进行重建，得到内容哈希编码；

编码拼合模块：将语义哈希编码和内容哈希编码进行拼合，得到最终用于图像检索的哈希编码。

较佳的，所述特征提取模块通过一个具有5个卷积层和2个全连接层的神经网络对输入图像提取语义特征。

较佳的，所述有监督哈希模块通过单类别语义标签，对得到的语义特征进行优化，同时通过二值化中间层产生语义哈希编码。

较佳的，所述无监督哈希模块通过自动编码器对提取的语义特征进行重建，同时通过二值化中间层产生内容哈希编码。

较佳的，所述自动编码器为具有单隐藏层的自动编码器。

与现有技术相比，本发明具有如下的有益效果：

本发明同时采用图像内容与图像语义信息进行编码生成，从而使得由生成编码所得的检索结果既与查询图像具有语义相似性，也能在内容上与查询图像保证尽可能的相似性，因而本发明可以更好地完成基于图像内容的检索任务。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程图；

图2为本发明的结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供的一种基于语义与内容信息结合的图像哈希检索方法，其特征在于，包括：

特征提取步骤：对输入图像提取语义特征。具体的，通过一个具有5个卷积层和2个全连接层的神经网络对输入图像提取语义特征。

有监督哈希步骤：通过基于语义标签的分类器对提取的语义特征进行评价，得到语义哈希编码。具体的，通过单类别语义标签，对得到的语义特征进行优化，同时通过二值化中间层产生语义哈希编码。

无监督哈希步骤：通过自动编码器对提取的语义特征进行重建，得到内容哈希编码。具体的，通过具有单隐藏层的自动编码器对提取的语义特征进行重建，同时通过二值化中间层产生内容哈希编码。

有监督哈希步骤本质上为经典的CNN模型Alexnet去掉最后一层全连接层，即包含有五个卷积层与两个全连接层。模型的权重采用迁移学习进行初始化，即，将Alexnet在ImageNet数据集上进行分类任务的预训练，将收敛后的模型参数用于初始化该特征提取模块的参数。

有监督哈希步骤，具有两个全连接层，第一层为隐变量编码层，其神经元个数与所需的语义编码长度K_s相同，该层的输出经过二值化后即为所需的语义哈希码。该层的激活度函数为tanh(·)，在引入非线性的同时，可以确保将激活度的值域控制在[-1.+1]；第二层为类概率输出层，通过

计算损失值，其中y_i与

分别为类标签向量与预测的类概率向量，W为模型的参数，L为Cross Entropy损失函数，λ为正则化系数，用于在模型精度和复杂度之间进行权衡。得到损失值后，通过反向传播算法对各个层的参数基于梯度下降进行调整。由于特征提取模块中的参数已经预先经过训练，因而在有监督哈希的训练中，将特征提取模块参数的学习率缩小十倍，以使其在训练中保持较小的变化幅度。通过这样的有监督哈希训练，模型能够产生可以用于分类的哈希编码，即图像的语义信息被嵌入哈希码中。由于隐含层的激活度为连续值，在二值化后会有信息损失，为减小这一损失，在损失函数中添加额外的正则项

其中，

为长度为K_s的全1向量，

为预测的类概率矩阵。该项倾向于将隐藏层的激活度推向{-1，+1}，从而让隐含层的输出在训练过程中接受二值化，减少最后编码时的信息损失。

同时，为了进一步提高所得哈希码的质量，引入第三个正则项

该项倾向于让隐含层中取值为+1和-1的单元数近似相同，因而可以让每一位被激活的概率相近，从而实现哈希码取值的平衡。

特征提取模块对输入图像所提取的特征会送入该模块进行。

最终的损失函数定义为

其中，α，β，γ为权重系数，用于平衡三种损失函数在最终损失函数中所占的比重。

无监督哈希步骤，包括一个具有单隐藏层的自动编码器，对于特征提取模块得到的特征，试图通过一个具有K_u个神经元的隐藏层对其进行重建。其损失函数定义为

其中，

与

分别为输入特征与通过隐藏层重建的特征。W_u为中间隐藏层的权值参数，λ_u为正则化系数，用于权衡模型精度与复杂度。经过特征提取模块得到的特征送入该自编码器进行压缩重建。模型收敛后，自编码器隐藏层的输出经过二值化后即为所需的基于图像内容的哈希码。

编码拼合步骤，经过两种哈希算法生成的不同哈希编码在该模块中进行整合。即对长度为K_s的语义编码和长度为K_u的内容编码，系统最终输出的哈希编码为

其中前K_s位为基于图像语义信息的哈希编码，后K_u位为基于图像内容信息的哈希编码，总编码长度为K＝K_s+K_u位。

对于训练环节，先用训练数据集对特征提取模块与有监督训练模块进行训练，当模型收敛之后，将训练集通过特征提取模块提取的特征送入无监督训练模块进行自编码器训练。训练收敛后，将两部分算法生成的哈希编码送入编码拼合模块进行拼合，得到最终的哈希编码。

在检索阶段，将检索集与数据库中所有样本依次通过本检索系统，产生哈希编码，之后，检索集的编码与数据库集合的编码进行逐位匹配，计算出各个样本对之间的汉明距离，对于每一个查询样本，依照汉明距离对样本库中的样本进行降序排序，取前K个样本，即为该哈希算法针对该样本的检索结果。

在上述一种基于语义与内容信息结合的图像哈希检索方法的基础上，本发明还提供一种基于语义与内容信息结合的图像哈希检索系统，包括：

特征提取模块：对输入图像提取语义特征；

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于语义与内容信息结合的图像哈希检索方法，其特征在于，包括：

特征提取步骤：对输入图像提取语义特征；

编码拼合步骤：将语义哈希编码和内容哈希编码进行拼合，得到最终用于图像检索的哈希编码；

所述有监督哈希步骤通过单类别语义标签，对得到的语义特征进行优化，同时通过二值化中间层产生语义哈希编码；

所述无监督哈希步骤通过自动编码器对提取的语义特征进行重建，同时通过二值化中间层产生内容哈希编码；

所述特征提取步骤通过一个具有5个卷积层和2个全连接层的神经网络对输入图像提取语义特征；

所述自动编码器为具有单隐藏层的自动编码器；

有监督哈希步骤为CNN模型Alexnet去掉最后一层全连接层，具有两个全连接层，第一层为隐变量编码层，神经元个数与所需的语义编码长度K_s相同，该层的输出经过二值化后即为所需的语义哈希码；该层的激活度函数为tanh(·)，在引入非线性的同时，将激活度的值域控制在[-1.+1]；第二层为类概率输出层，通过

计算损失值，其中y_i与

分别为类标签向量与预测的类概率向量，W为模型的参数，L为Cross Entropy损失函数，λ为正则化系数，用于在模型精度和复杂度之间进行权衡；得到损失值后，通过反向传播算法对各个层的参数基于梯度下降进行调整；由于隐含层的激活度为连续值，在二值化后会有信息损失，为减小这一损失，在损失函数中添加额外的正则项

其中，

为长度为K_s的全1向量，

为预测的类概率矩阵，该项倾向于将隐藏层的激活度推向{-1,+1}，从而让隐含层的输出在训练过程中接受二值化，减少最后编码时的信息损失；

该项倾向于让隐含层中取值为+1和-1的单元数近似相同，因而让每一位被激活的概率相近，从而实现哈希码取值的平衡；

最终的损失函数定义为

其中，α，β，γ为权重系数，用于平衡三种损失函数在最终损失函数中所占的比重；

无监督哈希步骤包括一个具有单隐藏层的自动编码器，对于得到的特征，试图通过一个具有K_u个神经元的隐藏层对其进行重建，其损失函数定义为

其中，

与

分别为输入特征与通过隐藏层重建的特征，W_u为中间隐藏层的权值参数，λ_u为正则化系数，用于权衡模型精度与复杂度，经过特征提取得到的特征送入该自动编码器进行压缩重建；模型收敛后，隐藏层的输出经过二值化后即为所需的基于图像内容的哈希码；

编码拼合步骤经过两种哈希算法生成的不同哈希编码进行整合，对长度为K_s的语义编码和长度为K_u的内容编码，最终输出的哈希编码为

2.一种基于语义与内容信息结合的图像哈希检索系统，其特征在于，包括：

特征提取模块：对输入图像提取语义特征；

编码拼合模块：将语义哈希编码和内容哈希编码进行拼合，得到最终用于图像检索的哈希编码；

所述有监督哈希模块通过单类别语义标签，对得到的语义特征进行优化，同时通过二值化中间层产生语义哈希编码；

所述无监督哈希模块通过具有单隐藏层的自动编码器对提取的语义特征进行重建，同时通过二值化中间层产生内容哈希编码；

所述特征提取模块通过一个具有5个卷积层和2个全连接层的神经网络对输入图像提取语义特征；

所述自动编码器为具有单隐藏层的自动编码器；

有监督哈希模块为CNN模型Alexnet去掉最后一层全连接层，具有两个全连接层，第一层为隐变量编码层，神经元个数与所需的语义编码长度K_s相同，该层的输出经过二值化后即为所需的语义哈希码；该层的激活度函数为tanh(·)，在引入非线性的同时，将激活度的值域控制在[-1.+1]；第二层为类概率输出层，通过