CN117493603A - 一种用于图像检索的多通道图像哈希方法及系统 - Google Patents
一种用于图像检索的多通道图像哈希方法及系统 Download PDFInfo
- Publication number
- CN117493603A CN117493603A CN202311607458.9A CN202311607458A CN117493603A CN 117493603 A CN117493603 A CN 117493603A CN 202311607458 A CN202311607458 A CN 202311607458A CN 117493603 A CN117493603 A CN 117493603A
- Authority
- CN
- China
- Prior art keywords
- image
- channel
- layer
- feature
- triplet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于图像检索的多通道图像哈希方法及系统,所述方法包括:S1、使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;S2、将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;S3、基于策略优化函数,使用所述哈希编码计算与所述待检索图像之间的相似度,得到与所述待检索图像相似的图像。本发明将多通道图像特征与哈希编码之间的映射关系作为“动作”,将哈希编码的质量作为“奖励”的标准,构建损失函数,从更具关联性的信息中学习更精准的哈希函数。
Description
技术领域
本发明涉及图像检索技术领域,具体涉及一种用于图像检索的多通道图像哈希方法及系统。
背景技术
随着互联网技术的发展,以图像为代表的多媒体数据以指数级增长,图像内容的丰富性和数量的海量级,使得直接计算机中对图像内容进行处理成为难题。针对该问题,图像哈希方法作为一种有效的解决手段,将图像转换为二进制编码,在保留图像特征信息的基础上大幅减少了数据的复杂度,可以有效降低图像存储代价以及在图像检索过程中计算图像之间相似度的计算成本。在检索过程中,所有图像都被转换成二进制哈希编码。通过计算查询图像和图像库中图像之间的海明距离,得到图像检索结果。传统的哈希方法使用人工制作的特征,因其表示能力的局限性,导致哈希编码也缺乏精度,限制了整体方法的性能。受深度网络在许多计算机视觉任务上最近取得成功的启发,人们提出了深度图像哈希,以利用深度神经网络提高图像视觉特征的表示能力,从而加强哈希编码质量。
现有的深度哈希方法,如深度哈希网络(Deep Supervised Hashing,DSH)就取得了很好的效果。然而,这些方法仅仅考虑学习完整的深度哈希模型,忽略了哈希函数学习过程中每步映射之间的相关。
近几年,深度学习在很多领域都取得了重大突破。例如,深度学习在围棋等策略游戏中实现了完美模拟人类的表现。标准的强化学习模型包括环境模型与智能体模型,通过智能体从环境中获取相关信息,并选择动作以最大化总体“奖励”收益总和,获得正确的行为决策。正因如此,哈希函数学习中也存在决策优化的过程,该过程可以很好的被建模至强化学习中。但是,在学习的过程中,经典的强化学习无法根据信息的重要程度区分学习的偏好。
发明内容
为了解决以上技术问题,本发明提供了一种用于图像检索的多通道图像哈希方法,所述方法包括:
S1、使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;
S2、将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;
S3、基于策略优化函数,设计三元组损失函数,使得三元组中输入图像和正样本之间哈希编码相似度最大化,输入图像和负样本之间哈希编码相似度最小化。
可选的,所述S1中,所述构建特征三元组的过程包括;
SA1、对所述图像数据集X和对应标签集Y进行随机采样,得到随机采样图像x;
SA2、在和x具有同样标签的子数据集中进行随机采样,得到随机采样图像x+,将所述x+记为正样本;
SA3、在和x不同标签的子数据集中进行随机采样,得到随机采样图像x-,将所述x-记为负样本;
SA4、将所述x、x+、x-记为一组三元组,重复所述SA1-SA3,直至获取t组三元组;
使用深度神经网络的卷积层对所述多通道图像特征和所述三元组构建特征三元组,并记为初始状态。
可选的,所述S2中,所述决策网络包括自注意力机制、卷积长短期记忆网络和决策层;
所述自注意力机制基于多通道图像特征获取聚焦重要信息的多通道图像特征;
将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络,得到各层状态的通道特征;
将所述各层状态的通道特征输入决策层,得到动作的概率值。
可选的,所述聚焦重要信息的多通道图像特征的获取过程包括:
对于第一个通道特征,将从深度神经网络输出的特征作为自注意力机制的输入,得到本层通道上的聚焦信息对应的特征;
对于第二个及以上的通道特征,将上一层通道的长短期记忆网络输出特征与深度神经网络输出的特征相减得到的差异信息作为自注意力机制的输入,得到本次通道上的聚焦信息对应的特征。
可选的,所述各层状态的通道特征的获取过程包括:
将所述聚焦重要信息的多通道图像特征输入卷积长短期记忆网络,初始化历史信息,所述卷积长短期记忆网络包括遗忘单元、输入单元、状态更新单元和输出单元;
SC1、遗忘单元确定需要保留的历史信息;
SC2、状态更新单元基于所述需要保留的历史信息进行状态更新;
SC3、输入单元筛选状态更新后的通道特征;
SC4、输出层基于所述通道特征输出本层的状态和历史信息;
SC5、将所述本层的状态和历史信息与原始输入特征之间的差异信息作为下层的输入,重复所述SC1-SC4,得到各层状态的通道特征。
可选的,所述动作的概率值的获取过程包括:
将所述各层状态的通道特征在各通道上转化为一维向量;
通过全连接层与sigmoid激活函数将一维的状态向量转换为动作的概率值,所述动作为通道特征的映射值。
本发明还包括一种用于图像检索的多通道图像哈希系统,所述系统包括特征三元组构建模块、决策网络模块和策略优化模块;
所述特征三元组构建模块用于使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;
所述决策网络模块用于将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;
所述策略优化模块用于设计三元组损失函数,使得三元组中输入图像和正样本之间哈希编码相似度最大化,输入图像和负样本之间哈希编码相似度最小化。
可选的,所述特征三元组构建模块包括三元组构建子模块和特征提取子模块;
所述三元组构建子模块用于根据已有的图像数据集构建三元组;
所述特征提取子模块用于对所述三元组提取多通道图像特征,得到特征三元组。
可选的,所述决策网络模块包括自注意力机制子模块、卷积长短期记忆网络子模块和决策层子模块;
所述自注意力机制子模块用于基于多通道图像特征获取聚焦重要信息的多通道图像特征;
将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络子模块,得到各层状态的通道特征;
将所述各层状态的通道特征输入决策层子模块,得到动作的概率值。
与现有技术相比,本发明的有益效果为:
本发明通过自注意力机制和卷积长短期记忆网络将图像哈希过程转换为训练模型中学习行为决策的过程,并可以在学习过程中自主选择关键历史信息。具体的做法为,将多通道图像特征与哈希编码之间的映射关系作为“动作”,将哈希编码的质量作为“奖励”的标准,构建损失函数,从更具关联性的信息中学习更精准的哈希函数。通过自注意力机制和卷积长短期记忆网络纠正多通道特征在哈希映射过程中的决策错误,从而解决传统哈希方法忽视模型内部关联信息的问题,提高图像内容的表示精度,进而提高图像检索精度。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种用于图像检索的多通道图像哈希方法的方法步骤图;
图2为本发明实施例的特征提取模块示意图;
图3为本发明实施例的决策网络示意图;
图4为本发明实施例的策略优化函数示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
一种用于图像检索的多通道图像哈希方法,如图1所示,图像将转换成哈希编码并用于计算图像之间的相似度。根据哈希编码之间的海明距离返回跟查询图像相似的图像结果。该方法分为模型学习和在线检索两个部分。其中,模型训练模块主要用于学习特征提取模块、决策网络模块以及优化策略各个模块的参数,旨在更精准的用二进制哈希码作为图像描述符,在保持海明距离在检索速度快优势的条件下,提升精度;在线检索模块主要基于已学习完成的参数,对查询图像计算哈希编码并根据海明距离返回检索结果。所述方法包括:首先,在特征提取模块中,从用于训练的图像数据集中构建图像的三元组并用深度神经网络提取多通道特征;然后,在决策网络模块中,用自注意力机制和卷积长短期记忆网络将特征三元组映射为概率值向量;最后,利用顺序学习策略优化函数更新两个模块的权重参数。
S1、使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;
先给定图像训练集X和对应的标签集Y;
然后,根据标签信息采样三元组,标签相同图像互为正样本,标签不同的图像为负样本;其中,一组三元组由一张图像、一张图像的正样本和图像的负样本组成;
最后,去除深度神经网络最后的全连接层,使用卷积层的多通道特征图构建每组图像的特征三元组,记为初始“状态”
具体的,S1中,所述构建特征三元组的过程包括;
SA1、对图像数据集X和对应标签集Y进行随机采样,得到随机采样图像x;
SA2、在和x具有同样标签的子数据集中进行随机采样,得到随机采样图像x+,将x+记为正样本;
SA3、在和x不同标签的子数据集中进行随机采样,得到随机采样图像x-,将x-记为负样本;
SA4、将x、x+、x-记为一组三元组,重复SA1-SA3,直至获取t组三元组;
使用深度神经网络的卷积层对所述多通道图像特征和所述三元组构建特征三元组,并记为初始状态。
给定图像数据集X={x1,x2,x3,…,xn}和对应标签Y={y1,y2,y3,…ym},以t次采样为例:
步骤F1:从数据集中随机采样图片xt,对应标签为yi;
步骤F2:从数据集中随机采样出了图片xt外标签为yi的图片记为正样本反之随机采样标签不同的图片记为负样本/>
步骤F3:分别使用深度神经网络提取三组特征构成三元组作为“状态”,其中ut,/>表示深度神经网络提取后的多通道特征;
步骤F4:每步采样过程重复步骤F1、F2和F3直到训练数据充份。
得到多通道图像特征图的过程包括:
步骤B1:设置深度神经网络的输出层为最后一层卷积层,该层输出图像的多通道特征图;
步骤B2:将三元组作为输入,通过网络提取特征,得到多通道特征的三元组,学习三元组特征的三个网络参数共享。
S2、将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;
S2中,决策网络包括自注意力机制、卷积长短期记忆网络和决策层;
自注意力机制基于多通道图像特征获历史信息与原始特征之间的差异信息作为自注意力机制的输入,获取聚焦重要信息的多通道图像特征;
将聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络,得到各层状态的通道特征;
将各层状态的通道特征输入决策层,得到动作的概率值。
聚焦重要信息的多通道图像特征的获取过程包括:
对于第一个通道特征,将从深度神经网络输出的特征作为自注意力机制的输入,得到本层通道上的聚焦信息对应的特征;
对于第二个及以上的通道特征,将上一层通道的长短期记忆网络输出特征与深度神经网络输出的特征相减得到的差异信息作为自注意力机制的输入,得到本次通道上的聚焦信息对应的特征。
各层状态的通道特征的获取过程包括:
将聚焦重要信息的多通道图像特征输入卷积长短期记忆网络,初始化历史信息,卷积长短期记忆网络包括遗忘单元、输入单元、状态更新单元和输出单元;
SC1、遗忘单元确定需要保留的历史信息;
SC2、状态更新单元基于需要保留的历史信息进行状态更新;
SC3、输入单元筛选状态更新后的通道特征;
SC4、输出层基于通道特征输出本层的状态和历史信息;
SC5、将本层的状态和历史信息与原始输入特征之间的差异信息作为下层的输入,重复所述SC1-SC4,得到各层状态的通道特征。
动作的概率值的获取过程包括:
将各层状态的通道特征在各通道上转化为一维向量;
通过全连接层与所述sigmoid激活函数将一维的状态向量转换为动作的概率值,动作为通道特征的映射值。
具体包括:每循环阶段结构相同,
以其中一阶段为例:
步骤D1:将卷积长短期记忆网络对应层输出状态的各通道特征转换为一维向量;
步骤D2:初始化全连接层权重参数;
步骤D3:使用全连接层和Sigmoid函数将输入转换为“动作”概率值,所有层的概率向量组成特征整体的近似表示。
它将状态三元组T映射到成概率向量,具体过程如下:
步骤G1:通过自注意力机制和卷积长短期记忆网络层将三元组T转换为第一阶段状态向量ci,并存储权重历史信息;
步骤G2:将初始状态向量作为决策层的输入,映射成概率向量πi,用公式表示为:
πi=sigmoid(wrici+bri)
其中,ci指的是第i阶段卷积长短期记忆网络的输出,wri,bri分别指的是对应的权重和偏置值;
步骤G3:将前一阶段网络的输出和历史信息与原始输入特征的差异信息作为第二阶段的输入以更新状态,用步骤G2中的公式计算概率向量;
步骤G4:重复上述步骤G3至循环结束,串联所有概率向量得到总的近似表示向量π。
S3、基于策略优化函数,设计三元组损失函数,使得三元组中输入图像和正样本之间哈希编码相似度最大化,输入图像和负样本之间哈希编码相似度最小化。
所述顺序学习策略优化函数包括三元损失函数,具体包括:
顺序计算特征三元组在决策网络中卷积长短期记忆网络层每阶段输出之间的局部损失,提高哈希编码质量,计算三元组哈希编码之间的全局损失,将两种损失分别赋予权重求和作为模型总体损失进行反向传播。
顺序学习策略设计一种三元损失函数,公式表示为:
其中,z指常数;
并计算两种损失控制概率向量的学习,分别为局部损失和全局损失。
局部损失控制每步映射中的概率向量的质量,用公式表示为:
其中,πi,表示第i阶段三元组对应的概率向量;
全局损失函数控制最终概率向量的质量,用公式表示为:
其中,π,π+,π-表示三元组对应的总体近似表示,并通过符号函数sgn转换为二进制编码:
为保证整体方法的顺序学习,设置总体损失为两种损失之和,用公式表示为:
其中,θ为范围在(0,1)之间的控制系数。
在模型学习完成后,基于已学习的模型参数,对所有图像计算其对应的哈希编码并存储在计算机中。在检索过程中,当输入一副图像时,首先计算其图像描述符对应的哈希编码;然后通过计算该哈希编码同所有图像的哈希编码之间的海明距离,返回距离较近的图像作为检索结果。
实施例二
一种用于图像检索的多通道图像哈希系统,所述系统包括特征三元组构建模块、决策网络模块和策略优化模块;
所述特征三元组构建模块用于使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;
特征三元组构建模块包括三元组构建子模块和特征提取子模块;
所述三元组构建子模块用于根据已有的图像数据集构建三元组;
所述特征提取子模块用于对所述三元组提取多通道图像特征,得到特征三元组。
所述特征三元组构建模块具体流程如图2所示,给定图像数据集X={x1,x2,x3,…,xn}和对应标签Y={y1,y2,y3,…ym},以t次采样为例:
步骤F1:从数据集中随机采样图片xt,对应标签为yi;
步骤F2:从数据集中随机采样出了图片xt外标签为yi的图片记为正样本反之随机采样标签不同的图片记为负样本/>
步骤F3:分别使用深度神经网络提取三组特征构成三元组作为“状态”,其中ut,/>表示深度神经网络提取后的多通道特征;
步骤F4:每步采样过程重复步骤F1、F2和F3直到训练数据充份。
所述决策网络模块用于将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;
决策网络模块由自注意力机制、卷积长短期记忆网络层和决策层组成,自注意力机制将对输入特征或历史信息与原始特征之间的差异信息选择聚焦重要性息,卷积长短期记忆网络层将对“状态”进行更新,而决策层将“状态”进一步映射为“动作”概率。
所述聚焦重要信息的多通道图像特征的获取过程包括:
对于第一个通道特征,将从深度神经网络输出的特征作为自注意力机制的输入,得到本层通道上的聚焦信息对应的特征;
对于第二个及以上的通道特征,将上一层通道的长短期记忆网络输出特征与深度神经网络输出的特征相减得到的差异信息作为自注意力机制的输入,得到本次通道上的聚焦信息对应的特征。
决策层由特定层数的全连接层与sigmoid激活函数组成;
首先,将卷积长短期记忆网络中每一次循环输出的特征在各通道上转化为一维向量;
然后,通过全连接层与激活函数将每个通道上的一维的“状态”向量转换为“动作”的概率值;
最后,串联每一次循环的“动作”概率值,利用符号函数转换为二进制哈希编码。
图3展示了决策层的详细结构,它将状态三元组T映射到成概率向量,具体过程如下:
通过自注意力机制和卷积长短期记忆网络层将三元组T转换为第一阶段状态向量ci,并存储权重历史信息;
将初始状态向量作为决策层的输入,映射成概率向量πi,用公式表示为:
πi=sigmoid(wrici+bri)
其中,ci指的是第i阶段卷积长短期记忆网络的输出,wri,bri分别指的是对应的权重和偏置值;
将前一阶段网络的输出和历史信息与原始输入特征的差异信息作为第二阶段的输入以更新状态,用步骤G2中的公式计算概率向量;
重复上述步骤G3至循环结束,串联所有概率向量得到总的近似表示向量π。
所述策略优化模块用于设计三元组损失函数,使得三元组中输入图像和正样本之间哈希编码相似度最大化,输入图像和负样本之间哈希编码相似度最小化。
决策网络模块包括自注意力机制子模块、卷积长短期记忆网络子模块和决策层子模块;
所述自注意力机制子模块用于基于多通道图像特征获取聚焦重要信息的多通道图像特征;
将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络子模块,得到各层状态的通道特征;
将所述各层状态的通道特征输入决策层子模块,得到动作的概率值。
(3)顺序学习策略
如图4所示,顺序学习策略设计一种三元损失函数,公式表示为:
其中,z指常数;
并计算两种损失控制概率向量的学习,分别为局部损失和全局损失。
局部损失控制每步映射中的概率向量的质量,用公式表示为:
其中,πi,表示第i阶段三元组对应的概率向量;
全局损失函数控制最终概率向量的质量,用公式表示为:
其中,π,π+,π-表示三元组对应的总体近似表示,并通过符号函数sgn转换为二进制编码:
为保证整体方法的顺序学习,设置总体损失为两种损失之和,用公式表示为:
其中,θ为范围在(0,1)之间的控制系数。
顺序计算特征三元组在决策网络中卷积长短期记忆网络层每阶段输出之间的局部损失,提高哈希编码质量,计算三元组哈希编码之间的全局损失,将两种损失分别赋予权重求和作为模型总体损失进行反向传播。
三元损失函数结构为:
三元组局部动作之间的损失计算与全局损失计算;
设置三元组每步“动作”之间的损失计算,确保每步之间的关联,从而提高哈希编码的质量;
设置三元组总体哈希编码之间的损失计算,提高总体近似表示的精度。
在模型学习完成后,基于已学习的模型参数,对所有图像计算其对应的哈希编码并存储在计算机中。在检索过程中,当输入一副图像时,首先计算其图像描述符对应的哈希编码;然后通过计算该哈希编码同所有图像的哈希编码之间的海明距离,返回距离较近的图像作为检索结果。
本发明由由图像特征提取模块和决策网络模块两个关键组成,包括:在图像库中使用深度神经网络提取多通道图像特征;利用自注意力机制和卷积长短期记忆网络构建决策网络,网络将提取后的各通道特征映射为二进制编码作为图像描述符。该过程使用三元损失函数作为网络学习目标,将图像与正负样本之间损失值作为“奖励”的依据,优化模型,获取累计最高“奖励”,并最终得到误差最小的哈希编码。本发明结合深度学习,将图片到哈希编码的映射建模为一个可端到端学习的顺序决策过程,利用了多通道的特征信息,有效提升了用哈希编码表示图像内容的精度,进而可提高图像检索精度。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (9)
1.一种用于图像检索的多通道图像哈希方法,其特征在于,所述方法包括:
S1、使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;
S2、将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;
S3、基于策略优化函数,设计三元组损失函数,使得三元组中输入图像和正样本之间哈希编码相似度最大化,输入图像和负样本之间哈希编码相似度最小化。
2.根据权利要求1所述的用于图像检索的多通道图像哈希方法,其特征在于,所述S1中,所述构建特征三元组的过程包括;
SA1、对所述图像数据集X和对应标签集Y进行随机采样,得到随机采样图像x;
SA2、在和x具有同样标签的子数据集中进行随机采样,得到随机采样图像x+,将所述x+记为正样本;
SA3、在和x不同标签的子数据集中进行随机采样,得到随机采样图像x-,将所述x-记为负样本;
SA4、将所述x、x+、x-记为一组三元组,重复所述SA1-SA3,直至获取t组三元组;
使用深度神经网络的卷积层对所述多通道图像特征和所述三元组构建特征三元组,并记为初始状态。
3.根据权利要求2所述的用于图像检索的多通道图像哈希方法,其特征在于,所述S2中,所述决策网络包括自注意力机制、卷积长短期记忆网络和决策层;
所述自注意力机制基于多通道图像特征获取聚焦重要信息的多通道图像特征;
将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络,得到各层状态的通道特征;
将所述各层状态的通道特征输入决策层,得到动作的概率值。
4.根据权利要求3所述的用于图像检索的多通道图像哈希方法,其特征在于,所述聚焦重要信息的多通道图像特征的获取过程包括:
对于第一个通道特征,将从深度神经网络输出的特征作为自注意力机制的输入,得到本层通道上的聚焦信息对应的特征;
对于第二个及以上的通道特征,将上一层通道的长短期记忆网络输出特征与深度神经网络输出的特征相减得到的差异信息作为自注意力机制的输入,得到本次通道上的聚焦信息对应的特征。
5.根据权利要求3所述的用于图像检索的多通道图像哈希方法,其特征在于,所述各层状态的通道特征的获取过程包括:
将所述聚焦重要信息的多通道图像特征输入卷积长短期记忆网络,初始化历史信息,所述卷积长短期记忆网络包括遗忘单元、输入单元、状态更新单元和输出单元;
SC1、遗忘单元确定需要保留的历史信息;
SC2、状态更新单元基于所述需要保留的历史信息进行状态更新;
SC3、输入单元筛选状态更新后的通道特征;
SC4、输出层基于所述通道特征输出本层的状态和历史信息;
SC5、将所述本层的状态和历史信息与原始输入特征之间的差异信息作为下层的输入,重复所述SC1-SC4,得到各层状态的通道特征。
6.根据权利要求5所述的用于图像检索的多通道图像哈希方法,其特征在于,所述动作的概率值的获取过程包括:
将所述各层状态的通道特征在各通道上转化为一维向量;
通过全连接层与sigmoid激活函数将一维的状态向量转换为动作的概率值,所述动作为通道特征的映射值。
7.一种用于图像检索的多通道图像哈希系统,所述系统用于实现权利要求1-6任一项所述的多通道图像哈希方法,其特征在于,所述系统包括特征三元组构建模块、决策网络模块和策略优化模块;
所述特征三元组构建模块用于使用深度神经网络提取已有的图像数据集的多通道图像特征,构建特征三元组;
所述决策网络模块用于将所述特征三元组和所述多通道图像特征输入决策网络,得到所述多通道图像特征映射的哈希编码;
所述策略优化模块用于设计三元组损失函数,使得三元组中输入图像和正样本之间哈希编码相似度最大化,输入图像和负样本之间哈希编码相似度最小化。
8.根据权利要求7所述的用于图像检索的多通道图像哈希系统,其特征在于,所述特征三元组构建模块包括三元组构建子模块和特征提取子模块;
所述三元组构建子模块用于根据已有的图像数据集构建三元组;
所述特征提取子模块用于对所述三元组提取多通道图像特征,得到特征三元组。
9.根据权利要求7所述的用于图像检索的多通道图像哈希系统,其特征在于,所述决策网络模块包括自注意力机制子模块、卷积长短期记忆网络子模块和决策层子模块;
所述自注意力机制子模块用于基于多通道图像特征获取聚焦重要信息的多通道图像特征;
将所述聚焦重要信息的多通道图像特征输入所述卷积长短期记忆网络子模块,得到各层状态的通道特征;
将所述各层状态的通道特征输入决策层子模块,得到动作的概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311607458.9A CN117493603A (zh) | 2023-11-29 | 2023-11-29 | 一种用于图像检索的多通道图像哈希方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311607458.9A CN117493603A (zh) | 2023-11-29 | 2023-11-29 | 一种用于图像检索的多通道图像哈希方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117493603A true CN117493603A (zh) | 2024-02-02 |
Family
ID=89676403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311607458.9A Pending CN117493603A (zh) | 2023-11-29 | 2023-11-29 | 一种用于图像检索的多通道图像哈希方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493603A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649688A (zh) * | 2016-12-16 | 2017-05-10 | 深圳市华尊科技股份有限公司 | 一种图像检索方法及终端 |
CN110321957A (zh) * | 2019-07-05 | 2019-10-11 | 重庆大学 | 融合三元组损失和生成对抗网络的多标签图像检索方法 |
CN110347853A (zh) * | 2019-07-09 | 2019-10-18 | 成都澳海川科技有限公司 | 一种基于循环神经网络的图像哈希码生成方法 |
CN111666442A (zh) * | 2020-06-02 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种图像检索方法、装置及计算机设备 |
CN113177141A (zh) * | 2021-05-24 | 2021-07-27 | 北湾科技(武汉)有限公司 | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 |
CN114090813A (zh) * | 2021-09-13 | 2022-02-25 | 武汉理工大学 | 基于多通道特征融合的变分自编码器平衡哈希遥感图像检索方法 |
CN116343284A (zh) * | 2022-12-19 | 2023-06-27 | 四川农业大学 | 基于注意力机制的多特征户外环境情绪识别方法 |
-
2023
- 2023-11-29 CN CN202311607458.9A patent/CN117493603A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649688A (zh) * | 2016-12-16 | 2017-05-10 | 深圳市华尊科技股份有限公司 | 一种图像检索方法及终端 |
CN110321957A (zh) * | 2019-07-05 | 2019-10-11 | 重庆大学 | 融合三元组损失和生成对抗网络的多标签图像检索方法 |
CN110347853A (zh) * | 2019-07-09 | 2019-10-18 | 成都澳海川科技有限公司 | 一种基于循环神经网络的图像哈希码生成方法 |
CN111666442A (zh) * | 2020-06-02 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种图像检索方法、装置及计算机设备 |
CN113177141A (zh) * | 2021-05-24 | 2021-07-27 | 北湾科技(武汉)有限公司 | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 |
CN114090813A (zh) * | 2021-09-13 | 2022-02-25 | 武汉理工大学 | 基于多通道特征融合的变分自编码器平衡哈希遥感图像检索方法 |
CN116343284A (zh) * | 2022-12-19 | 2023-06-27 | 四川农业大学 | 基于注意力机制的多特征户外环境情绪识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN112445876A (zh) | 融合结构、属性和关系信息的实体对齐方法和系统 | |
CN116049459A (zh) | 跨模态互检索的方法、装置、服务器及存储介质 | |
CN114780777B (zh) | 基于语义增强的跨模态检索方法及装置、存储介质和终端 | |
CN111090765B (zh) | 一种基于缺失多模态哈希的社交图像检索方法及系统 | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN116136870A (zh) | 基于增强实体表示的智能社交对话方法、对话系统 | |
CN114168773A (zh) | 一种基于伪标签和重排序的半监督草图图像检索方法 | |
CN108647295B (zh) | 一种基于深度协同哈希的图片标注方法 | |
CN114860973A (zh) | 一种面向小样本场景的深度图像检索方法 | |
CN114821218A (zh) | 基于改进的通道注意力机制的目标检测模型搜索方法 | |
CN114328943A (zh) | 基于知识图谱的问题回答方法、装置、设备及存储介质 | |
CN115658927B (zh) | 一种面向时序知识图谱的无监督实体对齐方法及装置 | |
CN116681078A (zh) | 一种基于强化学习的关键词生成方法 | |
CN117493603A (zh) | 一种用于图像检索的多通道图像哈希方法及系统 | |
CN114694185A (zh) | 一种跨模态目标重识别方法、装置、设备及介质 | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
CN113836903A (zh) | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 | |
CN111737591A (zh) | 一种基于异质重边信息网络翻译模型的产品推荐方法 | |
CN111259860A (zh) | 基于数据自驱动的多阶特征动态融合手语翻译方法 | |
CN114936296B (zh) | 超大规模知识图谱存储的索引方法、系统及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |