CN112800260B

CN112800260B - 基于深度哈希能量模型的多标签图像检索方法和装置

Info

Publication number: CN112800260B
Application number: CN202110381057.0A
Authority: CN
Inventors: 周修庄; 黄鹏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-08-20
Anticipated expiration: 2041-04-09
Also published as: CN112800260A

Abstract

本申请提出了一种基于深度哈希能量模型的多标签图像检索方法及装置，涉及图像检索技术领域。其中，该方法包括：获取查询图像，通过能量模型预训练完成的模型文件获取所述查询图像的哈希编码，所述能量模型包括基于噪声对比估计NCE的EBM分类损失模型，和通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型；遵循汉明空间检索的评估方法，包括剪枝和扫描。上述方案中EBM分类损失模型用以预测多标签图像的分类信息，哈希量化MSE损失模型用以帮助深度网络模型学习到更好的哈希编码，由此，基于EBM分类损失模型和哈希量化MSE损失模型建立联合学习模型充分利用深度哈希和能量模型两者的优势，有效提升了模型的图像检索准确性。

Description

基于深度哈希能量模型的多标签图像检索方法和装置

技术领域

本发明属于图像检索技术领域，具体涉及一种基于深度哈希能量模型的多标签图像检索方法及装置。

背景技术

近年来，随着多媒体技术及计算机互联网的普及与发展，摄影设备日趋便捷化、平民化，图像数据以惊人的规模飞速增长。如何在海量图像中寻找到目标图像，已经成为计算机视觉领域一大研究热点。

用户提交检索要求，图像数据库返回满足要求的图像，这一过程被称为图像检索。如何满足多样的检索条件，继而快速而准确地提供检索结果，是图像检索领域的研究目标。图像检索的应用范围极为广泛，遍及人们生产、生活的各个领域，如智慧城市、公共安全、智能识图等，已经成为人们在视觉信息管理方面不可或缺的技术。自然界中的图像往往比较复杂，不只含有一个对象，单个标签不足以描述图像所蕴含的完整的语义信息。因此，多标签的检索问题更贴近现实情境，也更具有普适性，单标签问题可视作多标签问题的一个特殊情况。

对图像检索的研究始于20世纪70年代，最早的研究方向是基于文本的图像检索(Text-Based Image Retrieval, TBIR)，该技术要求检索前对图像进行关键字标注，将其作为图像的特征，然后将描述目标图像所用的关键字与图像库中的标注信息进行匹配，返回检索结果。在标注无误的情况下，TBIR技术能获得较好的检索结果，当前世界上规模最大的两个搜索引擎百度和谷歌至今仍提供基于文本的图像检索功能。不难看出，这种方法的主观性强，同时人力和时间成本较高，难以完全描述图像丰富的视觉内容。

20世纪90年代，随着图像数据的爆炸增长，同时考虑到TBIR技术未利用图像的底层视觉特征，有学者提出基于内容的图像检索(Content-Based Image Retrieval, CBIR)，从而将图像检索带向一个新的研究层面。它通过设计算法提取图像的颜色、纹理、形状等视觉特征，为图像提供了较为客观的解释，系统再从图像数据库中检索出特征与之相似的图像，在一定程度上提高了图像检索的效率和精度。但人类认知基于图像的高层语义，这种方法对于高层语义的检索表现较差。

2012年，AlexNet网络结构模型在ImageNet上的图像分类挑战赛中获得冠军，一举奠定了深度学习在计算机视觉领域中的地位，此后VGG、GoogLeNet、ResNet等网络模型被相继提出。研究实验表明，利用卷积神经网络(Convolutional Neural Network, CNN)不仅能够更好地提取图像的底层特征，而且具有学习中高层图像特征的能力，可以突破“语义鸿沟”的障碍。性能优秀的CNN一般由多个卷积层拼接而成，总参数数量成千上万，尽管它被广泛运用于图像的特征提取，但面临存储消耗大、运算速度慢等缺点。

针对基于深度学习的图像检索算法在存储和计算两方面的缺陷，哈希算法被认为是一种有效的解决方案。它的目标是实现原始的高维特征到低维特征（即固定长度的二进制哈希码）的压缩，且试图做到不降低原始特征的表达能力。利用低维的二值码进行数据检索，避免了“维数灾难”的问题，既减小了存储空间消耗，也提高了检索效率。传统方法有局部敏感哈希(Locality-Sensitive Hashing, LSH)、谱哈希(Spectral Hashing, SH)、迭代量化(Iterative Quantization, ITQ)、半监督哈希算法(Semi-supervised Hashing,SSH)、监督离散哈希(Supervised Discrete Hashing, SDH)等。而如何将哈希算法恰如其分地运用在基于深度学习的图像检索中，仍是当下一项具有挑战性、也极富意义的任务。

近年来，基于能量的模型(Energy-Based Models, EBMs)在计算机视觉领域越来越受欢迎，它们通常被用于生成图像建模。虽然学者们已经探索了各种不同的生成建模技术，但将EBMs用于图像检索的问题还没有得到充分的研究。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于深度哈希能量模型的多标签图像检索方法。

本申请的第二个目的在于提出一种计算机设备。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种基于深度哈希能量模型的多标签图像检索方法，包括：

获取查询图像，通过能量模型预训练完成的模型文件获取所述查询图像的哈希编码；

其中，所述能量模型包括基于噪声对比估计NCE的EBM分类损失模型，和通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型；

遵循汉明空间检索的评估方法，所述遵循汉明空间检索的评估方法包括剪枝和扫描；

其中，所述剪枝是根据所述查询图像的哈希编码，搜索所述模型文件的哈希表中与汉明半径不大于2的关联图像；

所述扫描是将所述关联图像按连续编码的汉明距离，从小到大进行排序，并对排序后的关联图像进行展示。

进一步地，在本申请的一个实施例中，所述噪声对比估计NCE的EBM分类损失模型公式为：

其中，L_EBM为EBM分类损失，n为图像样本数量，i为图像序号，m为噪声样本序号，M为来自P_N(y|y_i)的噪声样本数量，f_θ(x_i,y^(i,0))为x_i与y^(i,0)经过能量模型输出的能量值，y^(i,0)定义为y_i，x_i为第i个图像数据，y_i为第i个图像的真实标签信息，y^(i,m)为针对第i个图像第m个噪声样本生成的标签信息P_N(y^(i,0)|y_i)在y_i的条件下y^(i,0)的概率分布，f_θ(x_i,y^(i,m))为x_i与y^(i,m)经过能量模型输出的能量值。

进一步地，在本申请的一个实施例中，所述通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型的公式为：

其中，L_MSE为哈希量化MSE损失，h(x_i)为卷积神经网络输出的深度特征，n为图像样本数量，i为图像序号，x_i为第i个图像数据，sgn(h(x_i))为返回h(x_i)的正负值（如果数字大于0，则sgn返回1，数字等于0，则返回0，数字小于0，则返回-1）。

进一步地，在本申请的一个实施例中，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型的公式为：

其中，arg min_θ为当L取最小值时相关参数的取值，θ为目标函数相关参数，λ_EBM和λ_MSE均为超参数。

进一步地，在本申请的一个实施例中，所述能量模型为通过样本集学习数据与标签之间的联合概率密度生成所述能量模型；

根据所述的联合概率密度获取条件概率密度，所述条件概率密度的公式为：

其中，x为样本集图像数据，y为标签，p(x,y)为联合概率密度，p(y|x)为条件概率密度，p(x)为样本集图像数据的概率密度，

所述能量模型的公式为：

其中，Z为配分函数，用以将概率值归一化，Z=∫e^f(x,y)dy；e^f(x,y)视为联合概率密度p(x,y)，f(x,y)为能量函数。

进一步地，在本申请的一个实施例中，通过深度神经网络DNN对所述能量函数进行拟合，所述能量模型的公式转化为：

其中，p(y|x，θ)为带参数的条件概率密度，θ为深度神经网络相关参数，e^f _θ ^(x,y)为联合概率密度p(x,y)，∫e^f _θ ^(x,y)dy为配分函数，

通过噪声对比估计NCE对关于所述θ的参数模型进行估计；

所述噪声对比估计NCE从标签噪声分布中生成噪声样本，并区分所述噪声样本和输入的观测数据示例，所述标签噪声分布通过高斯模型的混合式来表示，即：标签噪声分布的表达式为：

其中，P_N(y|y_i)为标签噪声分布，N为正态分布的数学符号，y为生成的多标签信息，y_i为第i个图像的真实标签信息，K为高斯模型的个数，N(y;y_i,σ_k ²I)为生成标签的正态分布，σ_k ²为第k个方差，I为单位矩阵，σ_k ²I为第k个方差矩阵。

进一步地，在本申请的一个实施例中，所述能量模型包括基于所述噪声对比估计NCE的EBM分类损失模型，和通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型。

为达上述目的，本申请第二方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的基于深度哈希能量模型的多标签图像检索方法。

为达上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度哈希能量模型的多标签图像检索方法。

本发明包括：获取查询图像，通过能量模型预训练完成的模型文件获取所述查询图像的哈希编码，所述能量模型包括基于噪声对比估计NCE的EBM分类损失模型，和通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型；遵循汉明空间检索的评估方法，包括剪枝和扫描。上述方案中EBM分类损失模型用以预测多标签图像的分类信息，哈希量化MSE损失模型用以帮助深度网络模型学习到更好的哈希编码，由此，基于EBM分类损失模型和哈希量化MSE损失模型建立联合学习模型充分利用深度哈希和能量模型两者的优势，有效提升了模型的图像检索准确性。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于深度哈希能量模型的多标签图像检索方法的流程示意图;

图2为本发明EBM分类损失和哈希量化MSE损失联合优化模型训练示意图;

图3为本发明基于深度哈希能量模型的多标签图像检索测试阶段示意图;

图4为本发明的实施案例流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于深度哈希能量模型的多标签图像检索方法和装置。

附图1为本申请实施例一所提供的一种基于深度哈希能量模型的多标签图像检索方法的流程示意图。

如附图1所示，上述基于深度哈希能量模型的多标签图像检索方法包括以下步骤：

步骤101，在线检索时，输入查询图像，系统加载训练好的模型文件，获取查询图像的哈希编码。

步骤102，遵循汉明空间检索的标准评估方法，该方法由两个步骤组成：1）剪枝：对于查询图像的哈希编码，搜索哈希表中与之汉明半径为2以内（即汉明距离≤2）的图像，因为这时只需要O(1)的时间复杂度即可找到所有近邻；2）扫描：对前一步返回的图像按连续编码的汉明距离，从小到大进行排序和展示。

进一步地，在本申请实施例中，所述能量模型通过样本集学习数据与标签之间的联合概率密度生成；

所述能量模型的公式为：

其中，Z为配分函数，用以将概率值归一化，Z=∫e^f(x,y)dy；e^f(x,y)视为联合概率密度p(x,y)，f(x,y)为能量函数。基于能量的模型在机器学习领域有着广泛的应用历史，上述公式为该领域的一般表达式。

由上述可知，本发明选取AlexNet作为网络模型，将其最后一层全连接层的输出维度改为哈希编码的位数；并在其后接入一个哈希预测网络(Hash Predict Network, HPN)，其由4个全连接层组成，将DNN提取出的深度特征与标签信息联合建模，输出能量值。

进一步地，在本申请实施例中，所述能量模型的公式通过深度神经网络DNN对所述能量函数进行拟合之后转化为：

其中，p(y|x，θ)为带参数的条件概率密度，θ为深度神经网络相关参数，e^f _θ ^(x,y)为联合概率密度p(x,y)，∫e^f _θ ^(x,y)dy为配分函数。

具体而言，本申请实施例中的深度神经网络正是通过利用大量参数θ，几乎可以拟合所有的函数曲线，使得可以通过大量样本去拟合出最优的能量函数。上述公式所学习的是数据x和标签y之间的联合概率分布，因此两者都是输入。能量函数的输出值越大，则代表数据x和y的概率分布越近。

所述噪声对比估计NCE目的是解决上述公式中存在参数θ的不定积分项导致公式不可导的问题，从标签噪声分布中生成噪声样本，并学习区分所述噪声样本和输入的观测数据示例，所述标签噪声分布通过高斯模型的混合式来表示，即：标签噪声分布的表达式为：

进一步地，在本申请的一个实施例中，所述能量模型包括基于所述噪声对比估计NCE的EBM分类损失模型，和通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型，如附图2所示为联合学习模型。

进一步地，在本申请的一个实施例中，所述噪声对比估计NCE的EBM分类损失模型的公式为：

其中，L_EBM为EBM分类损失，n为图像样本数量，i为图像序号，m为噪声样本序号，M为来自P_N(y|y_i)的噪声样本数量，f_θ(x_i,y^(i,0))为x_i与y^(i,0)经过能量模型输出的能量值，y^(i,0)定义为y_i，x_i为第i个图像数据，y_i为第i个图像的真实标签信息，y^(i,m)为针对第i个图像第m个噪声样本生成的标签信息，P_N(y^(i,0)|y_i)在y_i的条件下y^(i,0)的概率分布，f_θ(x_i,y^(i,m))为x_i与y^(i,m)经过能量模型输出的能量值。

EBM分类损失可以帮助模型学习到预测多标签图像的分类信息能力。

模型训练优化过程结合均方误差哈希量化MSE损失，可以学到更好的哈希编码，哈希量化MSE损失保证深度神经网络学习到的哈希值接近1或者-1.

进一步地，在本申请的一个实施例中，所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型的公式为：

其中，arg min_θ为当L取最小值时相关参数的取值，θ为目标函数相关参数，λ_EBM和λ_MSE均为超参数，用以平衡两个不同的损失函数，以提升模型性能。

为了实现上述实施例，本申请实施例还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的方法。

通过上述实施例，即可实现几个较佳的基于深度哈希能量模型的多标签图像检索方法的实施方案，图3为用户查找时的流程，图4为该方式实现的具体流程图。如图4所示，本发明分为离线训练和在线检索两部分，离线训练包括如下步骤：

获取多标签图像数据训练集；

对数据进行预处理；

基于AlexNet的深度哈希能量模型进行训练，并生成模型文件；

对多标签图像数据库进行哈希编码之后存入哈希表。

在线检索包括如下步骤：

在线检索时，所加载的模型文件和查询的哈希表是通过离线训练生成的。通过图4可以清晰的看出本发明的完整流程。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度哈希能量模型的多标签图像检索方法，其特征在于，包括以下步骤：

获取查询图像，通过能量模型预训练完成的深度神经网络的模型文件获取所述查询图像的哈希编码；

2.如权利要求1所述的方法，其特征在于，基于所述噪声对比估计NCE的EBM分类损失模型的公式为：

3.如权利要求2所述的方法，其特征在于，所述通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型的公式为：

其中，L_MSE为哈希量化MSE损失，h(x_i)为卷积神经网络输出的深度特征，n为图像样本数量，i为图像序号，x_i为第i个图像数据，sgn(h(x_i))为返回h(x_i)的正负值，如果数字大于0，则sgn返回1，数字等于0，则返回0，数字小于0，则返回-1。

4.如权利要求3所述的方法，其特征在于，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型的公式为：

5.如权利要求1所述的方法，其特征在于，所述能量模型为通过样本集学习数据与标签之间的联合概率密度生成所述能量模型；

所述能量模型的公式为：

6.如权利要求5所述的方法，其特征在于，通过深度神经网络DNN对所述能量函数进行拟合，所述能量模型的公式转化为：

通过噪声对比估计NCE对关于所述θ的参数模型进行估计；

所述噪声对比估计NCE从标签噪声分布中生成噪声样本，并区分所述噪声样本和训练时输入的图像，所述标签噪声分布通过高斯模型的混合式来表示，即：标签噪声分布的表达式为：

7.如权利要求6所述的方法，其特征在于，所述能量模型包括基于所述噪声对比估计NCE的EBM分类损失模型，和通过均方误差MSE对所述能量模型进行模型优化的哈希量化MSE损失模型，基于所述的EBM分类损失模型和所述的哈希量化MSE损失模型建立联合学习模型。

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的方法。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。