CN117493603A

CN117493603A - 一种用于图像检索的多通道图像哈希方法及系统

Info

Publication number: CN117493603A
Application number: CN202311607458.9A
Authority: CN
Inventors: 艾列富; 蒋常玉; 陈春生; 朱正南
Original assignee: Anqing Mayor's Triangle Future Industry Research Institute; Anqing Normal University
Current assignee: Anqing Mayor's Triangle Future Industry Research Institute; Anqing Normal University
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-02

Abstract

本发明公开了一种用于图像检索的多通道图像哈希方法及系统，所述方法包括：S1、使用深度神经网络提取已有的图像数据集的多通道图像特征，构建特征三元组；S2、将所述特征三元组和所述多通道图像特征输入决策网络，得到所述多通道图像特征映射的哈希编码；S3、基于策略优化函数，使用所述哈希编码计算与所述待检索图像之间的相似度，得到与所述待检索图像相似的图像。本发明将多通道图像特征与哈希编码之间的映射关系作为“动作”，将哈希编码的质量作为“奖励”的标准，构建损失函数，从更具关联性的信息中学习更精准的哈希函数。

Description

一种用于图像检索的多通道图像哈希方法及系统

技术领域

本发明涉及图像检索技术领域，具体涉及一种用于图像检索的多通道图像哈希方法及系统。

背景技术

随着互联网技术的发展，以图像为代表的多媒体数据以指数级增长，图像内容的丰富性和数量的海量级，使得直接计算机中对图像内容进行处理成为难题。针对该问题，图像哈希方法作为一种有效的解决手段，将图像转换为二进制编码，在保留图像特征信息的基础上大幅减少了数据的复杂度，可以有效降低图像存储代价以及在图像检索过程中计算图像之间相似度的计算成本。在检索过程中，所有图像都被转换成二进制哈希编码。通过计算查询图像和图像库中图像之间的海明距离，得到图像检索结果。传统的哈希方法使用人工制作的特征，因其表示能力的局限性，导致哈希编码也缺乏精度，限制了整体方法的性能。受深度网络在许多计算机视觉任务上最近取得成功的启发，人们提出了深度图像哈希，以利用深度神经网络提高图像视觉特征的表示能力，从而加强哈希编码质量。

现有的深度哈希方法，如深度哈希网络(Deep Supervised Hashing,DSH)就取得了很好的效果。然而，这些方法仅仅考虑学习完整的深度哈希模型，忽略了哈希函数学习过程中每步映射之间的相关。

近几年，深度学习在很多领域都取得了重大突破。例如，深度学习在围棋等策略游戏中实现了完美模拟人类的表现。标准的强化学习模型包括环境模型与智能体模型，通过智能体从环境中获取相关信息，并选择动作以最大化总体“奖励”收益总和，获得正确的行为决策。正因如此，哈希函数学习中也存在决策优化的过程，该过程可以很好的被建模至强化学习中。但是，在学习的过程中，经典的强化学习无法根据信息的重要程度区分学习的偏好。

发明内容

为了解决以上技术问题，本发明提供了一种用于图像检索的多通道图像哈希方法，所述方法包括：

S1、使用深度神经网络提取已有的图像数据集的多通道图像特征，构建特征三元组；

S2、将所述特征三元组和所述多通道图像特征输入决策网络，得到所述多通道图像特征映射的哈希编码；

S3、基于策略优化函数，设计三元组损失函数，使得三元组中输入图像和正样本之间哈希编码相似度最大化，输入图像和负样本之间哈希编码相似度最小化。

可选的，所述S1中，所述构建特征三元组的过程包括；

SA1、对所述图像数据集X和对应标签集Y进行随机采样，得到随机采样图像x；

SA2、在和x具有同样标签的子数据集中进行随机采样，得到随机采样图像x⁺，将所述x⁺记为正样本；

SA3、在和x不同标签的子数据集中进行随机采样，得到随机采样图像x^-，将所述x^-记为负样本；

SA4、将所述x、x⁺、x^-记为一组三元组，重复所述SA1-SA3，直至获取t组三元组；

使用深度神经网络的卷积层对所述多通道图像特征和所述三元组构建特征三元组，并记为初始状态。

可选的，所述S2中，所述决策网络包括自注意力机制、卷积长短期记忆网络和决策层；

所述自注意力机制基于多通道图像特征获取聚焦重要信息的多通道图像特征；

将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络，得到各层状态的通道特征；

将所述各层状态的通道特征输入决策层，得到动作的概率值。

可选的，所述聚焦重要信息的多通道图像特征的获取过程包括：

对于第一个通道特征，将从深度神经网络输出的特征作为自注意力机制的输入，得到本层通道上的聚焦信息对应的特征；

对于第二个及以上的通道特征，将上一层通道的长短期记忆网络输出特征与深度神经网络输出的特征相减得到的差异信息作为自注意力机制的输入，得到本次通道上的聚焦信息对应的特征。

可选的，所述各层状态的通道特征的获取过程包括：

将所述聚焦重要信息的多通道图像特征输入卷积长短期记忆网络，初始化历史信息，所述卷积长短期记忆网络包括遗忘单元、输入单元、状态更新单元和输出单元；

SC1、遗忘单元确定需要保留的历史信息；

SC2、状态更新单元基于所述需要保留的历史信息进行状态更新；

SC3、输入单元筛选状态更新后的通道特征；

SC4、输出层基于所述通道特征输出本层的状态和历史信息；

SC5、将所述本层的状态和历史信息与原始输入特征之间的差异信息作为下层的输入，重复所述SC1-SC4，得到各层状态的通道特征。

可选的，所述动作的概率值的获取过程包括：

将所述各层状态的通道特征在各通道上转化为一维向量；

通过全连接层与sigmoid激活函数将一维的状态向量转换为动作的概率值，所述动作为通道特征的映射值。

本发明还包括一种用于图像检索的多通道图像哈希系统，所述系统包括特征三元组构建模块、决策网络模块和策略优化模块；

所述特征三元组构建模块用于使用深度神经网络提取已有的图像数据集的多通道图像特征，构建特征三元组；

所述决策网络模块用于将所述特征三元组和所述多通道图像特征输入决策网络，得到所述多通道图像特征映射的哈希编码；

所述策略优化模块用于设计三元组损失函数，使得三元组中输入图像和正样本之间哈希编码相似度最大化，输入图像和负样本之间哈希编码相似度最小化。

可选的，所述特征三元组构建模块包括三元组构建子模块和特征提取子模块；

所述三元组构建子模块用于根据已有的图像数据集构建三元组；

所述特征提取子模块用于对所述三元组提取多通道图像特征，得到特征三元组。

可选的，所述决策网络模块包括自注意力机制子模块、卷积长短期记忆网络子模块和决策层子模块；

所述自注意力机制子模块用于基于多通道图像特征获取聚焦重要信息的多通道图像特征；

将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络子模块，得到各层状态的通道特征；

将所述各层状态的通道特征输入决策层子模块，得到动作的概率值。

与现有技术相比，本发明的有益效果为：

本发明通过自注意力机制和卷积长短期记忆网络将图像哈希过程转换为训练模型中学习行为决策的过程，并可以在学习过程中自主选择关键历史信息。具体的做法为，将多通道图像特征与哈希编码之间的映射关系作为“动作”，将哈希编码的质量作为“奖励”的标准，构建损失函数，从更具关联性的信息中学习更精准的哈希函数。通过自注意力机制和卷积长短期记忆网络纠正多通道特征在哈希映射过程中的决策错误，从而解决传统哈希方法忽视模型内部关联信息的问题，提高图像内容的表示精度，进而提高图像检索精度。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种用于图像检索的多通道图像哈希方法的方法步骤图；

图2为本发明实施例的特征提取模块示意图；

图3为本发明实施例的决策网络示意图；

图4为本发明实施例的策略优化函数示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

一种用于图像检索的多通道图像哈希方法，如图1所示，图像将转换成哈希编码并用于计算图像之间的相似度。根据哈希编码之间的海明距离返回跟查询图像相似的图像结果。该方法分为模型学习和在线检索两个部分。其中，模型训练模块主要用于学习特征提取模块、决策网络模块以及优化策略各个模块的参数，旨在更精准的用二进制哈希码作为图像描述符，在保持海明距离在检索速度快优势的条件下，提升精度；在线检索模块主要基于已学习完成的参数，对查询图像计算哈希编码并根据海明距离返回检索结果。所述方法包括：首先，在特征提取模块中，从用于训练的图像数据集中构建图像的三元组并用深度神经网络提取多通道特征；然后，在决策网络模块中，用自注意力机制和卷积长短期记忆网络将特征三元组映射为概率值向量；最后，利用顺序学习策略优化函数更新两个模块的权重参数。

先给定图像训练集X和对应的标签集Y；

然后，根据标签信息采样三元组，标签相同图像互为正样本，标签不同的图像为负样本；其中，一组三元组由一张图像、一张图像的正样本和图像的负样本组成；

最后，去除深度神经网络最后的全连接层，使用卷积层的多通道特征图构建每组图像的特征三元组，记为初始“状态”

具体的，S1中，所述构建特征三元组的过程包括；

SA1、对图像数据集X和对应标签集Y进行随机采样，得到随机采样图像x；

SA2、在和x具有同样标签的子数据集中进行随机采样，得到随机采样图像x⁺，将x⁺记为正样本；

SA3、在和x不同标签的子数据集中进行随机采样，得到随机采样图像x^-，将x^-记为负样本；

SA4、将x、x⁺、x^-记为一组三元组，重复SA1-SA3，直至获取t组三元组；

给定图像数据集X＝{x₁,x₂,x₃,…,x_n}和对应标签Y＝{y₁,y₂,y₃,…y_m}，以t次采样为例：

步骤F1：从数据集中随机采样图片x_t，对应标签为y_i；

步骤F2：从数据集中随机采样出了图片x_t外标签为y_i的图片记为正样本反之随机采样标签不同的图片记为负样本/>

步骤F3：分别使用深度神经网络提取三组特征构成三元组作为“状态”，其中u_t,/>表示深度神经网络提取后的多通道特征；

步骤F4：每步采样过程重复步骤F1、F2和F3直到训练数据充份。

得到多通道图像特征图的过程包括：

步骤B1：设置深度神经网络的输出层为最后一层卷积层，该层输出图像的多通道特征图；

步骤B2：将三元组作为输入，通过网络提取特征，得到多通道特征的三元组，学习三元组特征的三个网络参数共享。

S2中，决策网络包括自注意力机制、卷积长短期记忆网络和决策层；

自注意力机制基于多通道图像特征获历史信息与原始特征之间的差异信息作为自注意力机制的输入，获取聚焦重要信息的多通道图像特征；

将聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络，得到各层状态的通道特征；

将各层状态的通道特征输入决策层，得到动作的概率值。

聚焦重要信息的多通道图像特征的获取过程包括：

各层状态的通道特征的获取过程包括：

将聚焦重要信息的多通道图像特征输入卷积长短期记忆网络，初始化历史信息，卷积长短期记忆网络包括遗忘单元、输入单元、状态更新单元和输出单元；

SC1、遗忘单元确定需要保留的历史信息；

SC2、状态更新单元基于需要保留的历史信息进行状态更新；

SC3、输入单元筛选状态更新后的通道特征；

SC4、输出层基于通道特征输出本层的状态和历史信息；

SC5、将本层的状态和历史信息与原始输入特征之间的差异信息作为下层的输入，重复所述SC1-SC4，得到各层状态的通道特征。

动作的概率值的获取过程包括：

将各层状态的通道特征在各通道上转化为一维向量；

通过全连接层与所述sigmoid激活函数将一维的状态向量转换为动作的概率值，动作为通道特征的映射值。

具体包括：每循环阶段结构相同，

以其中一阶段为例：

步骤D1：将卷积长短期记忆网络对应层输出状态的各通道特征转换为一维向量；

步骤D2：初始化全连接层权重参数；

步骤D3：使用全连接层和Sigmoid函数将输入转换为“动作”概率值，所有层的概率向量组成特征整体的近似表示。

它将状态三元组T映射到成概率向量，具体过程如下：

步骤G1：通过自注意力机制和卷积长短期记忆网络层将三元组T转换为第一阶段状态向量c_i，并存储权重历史信息；

步骤G2：将初始状态向量作为决策层的输入，映射成概率向量π_i，用公式表示为：

π_i＝sigmoid(w_ric_i+b_ri)

其中，c_i指的是第i阶段卷积长短期记忆网络的输出，w_ri,b_ri分别指的是对应的权重和偏置值；

步骤G3：将前一阶段网络的输出和历史信息与原始输入特征的差异信息作为第二阶段的输入以更新状态，用步骤G2中的公式计算概率向量；

步骤G4：重复上述步骤G3至循环结束，串联所有概率向量得到总的近似表示向量π。

所述顺序学习策略优化函数包括三元损失函数，具体包括：

顺序计算特征三元组在决策网络中卷积长短期记忆网络层每阶段输出之间的局部损失，提高哈希编码质量，计算三元组哈希编码之间的全局损失，将两种损失分别赋予权重求和作为模型总体损失进行反向传播。

顺序学习策略设计一种三元损失函数，公式表示为：

其中，z指常数；

并计算两种损失控制概率向量的学习，分别为局部损失和全局损失。

局部损失控制每步映射中的概率向量的质量，用公式表示为：

其中，π_i,表示第i阶段三元组对应的概率向量；

全局损失函数控制最终概率向量的质量，用公式表示为：

其中，π,π⁺,π^-表示三元组对应的总体近似表示，并通过符号函数sgn转换为二进制编码：

为保证整体方法的顺序学习，设置总体损失为两种损失之和，用公式表示为：

其中，θ为范围在(0,1)之间的控制系数。

在模型学习完成后，基于已学习的模型参数，对所有图像计算其对应的哈希编码并存储在计算机中。在检索过程中，当输入一副图像时，首先计算其图像描述符对应的哈希编码；然后通过计算该哈希编码同所有图像的哈希编码之间的海明距离，返回距离较近的图像作为检索结果。

实施例二

一种用于图像检索的多通道图像哈希系统，所述系统包括特征三元组构建模块、决策网络模块和策略优化模块；

特征三元组构建模块包括三元组构建子模块和特征提取子模块；

所述特征三元组构建模块具体流程如图2所示，给定图像数据集X＝{x₁,x₂,x₃,…,x_n}和对应标签Y＝{y₁,y₂,y₃,…y_m}，以t次采样为例：

步骤F1：从数据集中随机采样图片x_t，对应标签为y_i；

决策网络模块由自注意力机制、卷积长短期记忆网络层和决策层组成，自注意力机制将对输入特征或历史信息与原始特征之间的差异信息选择聚焦重要性息，卷积长短期记忆网络层将对“状态”进行更新，而决策层将“状态”进一步映射为“动作”概率。

所述聚焦重要信息的多通道图像特征的获取过程包括：

决策层由特定层数的全连接层与sigmoid激活函数组成；

首先，将卷积长短期记忆网络中每一次循环输出的特征在各通道上转化为一维向量；

然后，通过全连接层与激活函数将每个通道上的一维的“状态”向量转换为“动作”的概率值；

最后，串联每一次循环的“动作”概率值，利用符号函数转换为二进制哈希编码。

图3展示了决策层的详细结构，它将状态三元组T映射到成概率向量，具体过程如下：

通过自注意力机制和卷积长短期记忆网络层将三元组T转换为第一阶段状态向量c_i，并存储权重历史信息；

将初始状态向量作为决策层的输入，映射成概率向量π_i，用公式表示为：

π_i＝sigmoid(w_ric_i+b_ri)

将前一阶段网络的输出和历史信息与原始输入特征的差异信息作为第二阶段的输入以更新状态，用步骤G2中的公式计算概率向量；

重复上述步骤G3至循环结束，串联所有概率向量得到总的近似表示向量π。

决策网络模块包括自注意力机制子模块、卷积长短期记忆网络子模块和决策层子模块；

(3)顺序学习策略

如图4所示，顺序学习策略设计一种三元损失函数，公式表示为：

其中，z指常数；

其中，π_i,表示第i阶段三元组对应的概率向量；

全局损失函数控制最终概率向量的质量，用公式表示为：

其中，θ为范围在(0,1)之间的控制系数。

三元损失函数结构为：

三元组局部动作之间的损失计算与全局损失计算；

设置三元组每步“动作”之间的损失计算，确保每步之间的关联，从而提高哈希编码的质量；

设置三元组总体哈希编码之间的损失计算，提高总体近似表示的精度。

本发明由由图像特征提取模块和决策网络模块两个关键组成，包括：在图像库中使用深度神经网络提取多通道图像特征；利用自注意力机制和卷积长短期记忆网络构建决策网络，网络将提取后的各通道特征映射为二进制编码作为图像描述符。该过程使用三元损失函数作为网络学习目标，将图像与正负样本之间损失值作为“奖励”的依据，优化模型，获取累计最高“奖励”，并最终得到误差最小的哈希编码。本发明结合深度学习，将图片到哈希编码的映射建模为一个可端到端学习的顺序决策过程，利用了多通道的特征信息，有效提升了用哈希编码表示图像内容的精度，进而可提高图像检索精度。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种用于图像检索的多通道图像哈希方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用于图像检索的多通道图像哈希方法，其特征在于，所述S1中，所述构建特征三元组的过程包括；

3.根据权利要求2所述的用于图像检索的多通道图像哈希方法，其特征在于，所述S2中，所述决策网络包括自注意力机制、卷积长短期记忆网络和决策层；

4.根据权利要求3所述的用于图像检索的多通道图像哈希方法，其特征在于，所述聚焦重要信息的多通道图像特征的获取过程包括：

5.根据权利要求3所述的用于图像检索的多通道图像哈希方法，其特征在于，所述各层状态的通道特征的获取过程包括：

SC1、遗忘单元确定需要保留的历史信息；

SC3、输入单元筛选状态更新后的通道特征；

SC4、输出层基于所述通道特征输出本层的状态和历史信息；

6.根据权利要求5所述的用于图像检索的多通道图像哈希方法，其特征在于，所述动作的概率值的获取过程包括：

将所述各层状态的通道特征在各通道上转化为一维向量；

7.一种用于图像检索的多通道图像哈希系统，所述系统用于实现权利要求1-6任一项所述的多通道图像哈希方法，其特征在于，所述系统包括特征三元组构建模块、决策网络模块和策略优化模块；

8.根据权利要求7所述的用于图像检索的多通道图像哈希系统，其特征在于，所述特征三元组构建模块包括三元组构建子模块和特征提取子模块；

9.根据权利要求7所述的用于图像检索的多通道图像哈希系统，其特征在于，所述决策网络模块包括自注意力机制子模块、卷积长短期记忆网络子模块和决策层子模块；