CN115587207A - 一种基于分类标签的深度哈希检索方法 - Google Patents

一种基于分类标签的深度哈希检索方法 Download PDF

Info

Publication number
CN115587207A
CN115587207A CN202211093673.7A CN202211093673A CN115587207A CN 115587207 A CN115587207 A CN 115587207A CN 202211093673 A CN202211093673 A CN 202211093673A CN 115587207 A CN115587207 A CN 115587207A
Authority
CN
China
Prior art keywords
hash
network
classification
deep
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211093673.7A
Other languages
English (en)
Inventor
刘萍萍
刘泽同
单雪
周求湛
王一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211093673.7A priority Critical patent/CN115587207A/zh
Publication of CN115587207A publication Critical patent/CN115587207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分类标签的深度哈希检索方法。首先,利用深度卷积神经网络对训练图像数据库中的图像进行特征提取,在主网络后构建深度哈希网络学习类哈希码,在深度哈希网络后构建分类器学习分类特征。其次,使用类哈希码和分类特征分别计算度量学习损失和分类损失,并使用类哈希码和哈希码计算量化损失。最后,在测试阶段将分类标签二值化与哈希码拼接,得到的基于分类标签的哈希码用于检索。本发明提出的方法同时利用了分类信息和相似度信息,能达到良好的检索精度。

Description

一种基于分类标签的深度哈希检索方法
技术领域
本发明属于图像检索技术领域,涉及一种基于分类标签的深度哈希检索方法。
背景技术
深度哈希检索的一般流程是使用深度哈希网络对高维特征进行处理得到低维度实值特征,随后通过量化操作得到二值哈希码,其中可以通过度量学习、量化损失等方法来增强网络学习能力,进而提升哈希检索效果。
然而,这样基于图像对相似性度量的图像检索方法得到的哈希码只能保存图像在原始空间中的分布信息、图像本身的视觉内容信息以及从数据库中返回给定的查询图像的检索结果,它不能进一步满足图像分析和处理的需要,对于当前的图像检索方法,对于给定的查询图像在返回相似的图像集的同时是不能得到它们的语义标签信息的。
通过融合图像对之间的相似性信息和每个图像的语义信息可以产生更有鉴别性的特征表示,能够获得更好的检索和分类结果。此外还可以通过分析相似图像集的语义标签信息来粗略地预测一个未知数据库的类别分布。可见,基于分类标签的深度哈希检索方法具有广泛的应用前景。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于分类标签的深度哈希检索方法。该方法的核心思想是融合图像对之间的相似性信息和每个图像的语义信息,综合使用分类损失和度量学习损失函数来训练网络参数,使得生成的特征的相似度损失和分类标签损失都更小,使用能够同时保持语义标签信息和图像视觉内容信息的哈希码结构完成测试图像集在汉明空间的快速检索。
本发明通过如下技术方案实现:
一种基于分类标签的深度哈希检索方法,包括如下步骤:
步骤1:使用预训练的卷积神经网络提取训练图像数据库中图像的高维特征;
步骤2:将步骤1提取的图像的高维特征输入深度哈希网络计算得到低维类哈希码;
步骤3:将步骤2得到的低维类哈希码输入分类器得到分类特征;
步骤4:使用步骤2得到的低维特征和步骤3得到的语义特征计算损失函数值;
步骤5:通过反向传播和共享权重对卷积神经网络和深度哈希网络的参数进行调整,得到网络的最终参数;
步骤6:对于测试阶段,将查询图像和测试图像集输入最终得到的网络,将得到的标签编码后与计算得到的哈希码进行拼接,计算汉明距离进行排序,得到与查询图像相关的图像列表。相较于现有技术,本发明具有以下优点:
1.提出了一种新的深度哈希网络结构,可以在一个统一的框架下实现对大规模遥感图像的快速检索和精确的分类。与现有的基于深度哈希网络的方法不同,本发明通过融合图像对之间的相似性信息和每个图像的语义信息可以产生更有鉴别性的特征表示,从而获得更好的检索和分类结果。
2.综合使用分类损失和度量学习损失函数来训练网络参数,使得生成的特征的相似度损失和分类标签损失都更小,同时生成的用于保持视觉信息内容的哈希码和保持语义标签信息的哈希码都能更具有代表性。
3.同时利用能够保持语义标签信息和能够保持图像视觉内容信息的哈希码结构完成测试图像集在汉明空间的快速检索。
附图说明
图1是本发明训练阶段的网络结构及流程
图2是本发明测试阶段的网络结构及流程
图3是本发明分类方法的嵌入空间示意图
图4是本发明度量学习方法的嵌入空间示意图
图5是本发明基于类别标签的哈希码的生成过程
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明。图1和图2展示了网络的总体结构和流程。
本发明提出的基于分类标签的深度哈希检索方法包括以下步骤:
步骤1:使用预训练的卷积神经网络提取训练图像数据库中图像的高维特征。
本发明使用在ImageNet数据集上预训练的Inception网络提取图像的高维特征,对于网络的N张输入图像集{x1,…,xN},通过非线性变换ri=f(xi;ω)计算得到高维深度特征{r1,…,rN},其中ω代表Inception网络的参数值,它随着网络的训练逐渐优化到最适应当前数据集的值。
步骤2:将步骤1提取的图像的高维特征输入深度哈希网络计算得到低维类哈希码。
使用一个全连接层构造的深度哈希网络进行特征降维操作得到低维类哈希码特征
Figure BDA0003838014440000031
Figure BDA0003838014440000032
其中
Figure BDA0003838014440000033
代表深度哈希网络的参数,它随着整个网络的训练逐渐优化。
步骤3:将步骤2得到的低维类哈希码输入分类器得到分类特征。
该分类器由一个带有softmax函数的全连接层构成,用于计算图像的类别概率,它的计算公式为pi=softmax(ui;ε),其中ε是全连接分类层的参数,它随网络参数的优化而优化。
步骤4:使用步骤2得到的低维特征和步骤3得到的语义特征计算损失函数值。
综合使用了利用了图像之间的相似性信息的度量损失和利用了图像语义标签信息的分类损失,两种方法在特征空间的区别如图3和图4。
在分类层后计算了分类交叉熵损失以降低预测类别标签与实际标签之间的损失。计算公式如下:
Figure BDA0003838014440000034
其中pi是当前图片xi经过分类器后得到的属于每个类别的概率,pi∈TC,<·>代表内积操作,N为输入图像的数量。通过优化损失L1,网络可以为每张图片学习到更准确得分类概率向量,从而得到更具代表性的语义标签信息。
但分类损失仅能监控单张图片的分类准确性,它不能控制图像对之间的相似度分布,即不能很好的区分开不同类别哈希码,因此引入了度量损失。
为了分散开不同类别样本同时拉近相同类别样本,相似性度量损失函数计算训练批中所有样本的损失,计算公式为:
Figure BDA0003838014440000035
P+代表当前数据对应的正代理集,
Figure BDA0003838014440000036
代表与代理同类的样本集,
Figure BDA0003838014440000037
代表与代理异类的样本集,αp和αn分别用于调节正负样本的优化方向,使正负样本朝着最优的方向优化,δp是正样本对之间的阈值,规定正样本之间的相似度应高于该阈值,δn是负样本对之间的阈值,规定负样本之间的相似度应低于该阈值,δp和δn控制着样本间的离散程度,
Figure BDA0003838014440000038
代表样本特征ui与正代理特征up之间的余弦相似性,
Figure BDA0003838014440000041
代表样本特征ui与负代理特征un之间的余弦相似性。
损失函数主要用于学习代表性特征,而类哈希码在量化成哈希码的过程中会丢失一些信息此外,离散值的存在使得导数计算很困难。因此,在量化之前使用类哈希特征来计算相似度,其计算公式为:
Figure BDA0003838014440000042
其中,K表示哈希码的长度。
Figure BDA0003838014440000043
Figure BDA0003838014440000044
分别代表哈希码量化之前的浮点特征
Figure BDA0003838014440000045
和代理p2。同时为了降低类哈希码与二值化哈希码之间的损失,引入了量化损失,其计算公式为:
Figure BDA0003838014440000046
Figure BDA0003838014440000047
是第i个类哈希码,
Figure BDA0003838014440000048
是第i个哈希码,是由公式hK=sgn(dK)来量化类哈希码得到的,其中sgn(·)是符号函数,它返回一个变量的正负符号,对于正数值为1,对于负数值为-1。N为训练批大小。
Figure BDA0003838014440000049
表示l2范数向量,以减少类哈希码与哈希码之间的距离。
L2=Lp-loss+Lb-loss
损失函数的最终形式为:
L3=ηL1+(1-η)L2
其中η∈[0,1]是用于均衡标签信息和相似度信息的参数。具体来说,当η=1时,损失函数仅利用每张图片的标签信息;当η=0时,损失函数仅利用每张图片的相似度信息。
步骤5:通过反向传播和共享权重对卷积神经网络和深度哈希网络的参数进行调整,得到网络的最终参数。
本步骤中使用著名的反向传播算法对深度哈希网络的全局参数进行调整,使用AdamW优化器,初始学习率设置为0.0001,训练批样本随机选择,并将大小设置为90,参数η的值如表1所示,最终设为0.2。
表1:不同超参数η在UCMD数据集上的对比结果
Figure BDA00038380144400000410
Figure BDA0003838014440000051
步骤6:对于测试阶段,将查询图像和测试图像集输入最终得到的网络,将得到的标签编码后与计算得到的哈希码进行拼接,计算汉明距离进行排序,得到与查询图像相关的图像列表。哈希码的生成方式如图5所示,测试阶段在生成长度为C的预测概率分布向量pi后,利用ci=argmax(pi)的方式获得当前图片的预测标签ci,对预测标签ci进行二进制表示得到标签二值码,其长度为
Figure BDA0003838014440000055
保存图像本身视觉内容的哈希码是哈希网络后通过bi=sgn(ui)的方式获得的,假设K为最终获得的哈希码的长度,bi的长度为
Figure BDA0003838014440000056
最终的基于分类的哈希码由
Figure BDA0003838014440000052
生成,其中
Figure BDA0003838014440000053
代表向量拼接操作。该哈希码的一部分用于保存标签信息,另一部分用于保存图像本身内容信息。
测试图像集生成的哈希码与查询图像生成的哈希码计算汉明距离并进行排序,即可得到与查询图像相关的图像列表。
本方法的实验结果如表2和表3所示。
表2:本发明在UCMD数据集上的检索精度
Figure BDA0003838014440000054
表3:本发明在AID数据集上的检索精度
Figure BDA0003838014440000061
在UCMD数据集上哈希码长度为16、32、48、64比特时,检索精度分别为98.97、99.34、99.54、99.60。
在AID数据集上哈希码长度为16、32、48、64比特时,检索精度分别为94.75、98.08、98.93、99.02。
检索精度较其它方法均有不同程度的提高。
且本方法可以得到输入图像的语义标签结果,在实现检索任务的同时可以完成分类任务。
以上所述具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,本领域技术人员应该理解的是,以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (5)

1.一种基于分类标签的深度哈希检索方法,其特征在于所述图像检索方法包括如下步骤:
步骤1:使用预训练的卷积神经网络提取训练图像数据库中图像的高维特征;
步骤2:将步骤1提取的图像的高维特征输入深度哈希网络计算得到低维类哈希码;
步骤3:将步骤2得到的低维类哈希码输入分类器得到分类特征;
步骤4:使用步骤2得到的低维特征和步骤3得到的语义特征计算损失函数值;
步骤5:通过反向传播和共享权重对卷积神经网络和深度哈希网络的参数进行调整,得到网络的最终参数;
步骤6:对于测试阶段,将查询图像和测试图像集输入最终得到的网络,将得到的标签编码后与计算得到的哈希码进行拼接,计算汉明距离进行排序,得到与查询图像相关的图像列表。
2.根据权利要求1所述的一种基于分类标签的深度哈希检索方法,其特征在于通过预训练网络提取高维特征后,所述方法还包括:
在预训练网络后构建深度哈希网络进行特征降维操作提取相似度信息,获取类哈希码,得到低维特征;
在深度哈希网络后构建分类网络提取语义信息,得到分类特征。
3.根据权利要求2所述的一种基于分类标签的深度哈希检索方法,其特征在于获得所述的语义特征和低维特征后,同时运用这两种特征计算损失函数。
4.根据权利要求3所述的一种基于分类标签的深度哈希检索方法,其特征在于损失函数定义为:
Figure FDA0003838014430000011
pi是当前图片xi经过分类器后得到的属于每个类别的概率,pi∈TC,<·>代表内积操作,N为输入图像的数量;
L2=Lp-loss+Lb-loss
其中:
Figure FDA0003838014430000012
P+代表当前数据对应的正代理集,
Figure FDA0003838014430000013
代表与代理同类的样本集,
Figure FDA0003838014430000014
代表与代理异类的样本集,αp和αn分别用于调节正负样本的优化方向,使正负样本朝着最优的方向优化,δp是正样本对之间的阈值,规定正样本之间的相似度应高于该阈值,δn是负样本对之间的阈值,规定负样本之间的相似度应低于该阈值,δp和δn控制着样本间的离散程度,
Figure FDA0003838014430000021
代表样本特征ui与正代理特征up之间的余弦相似性,
Figure FDA0003838014430000022
代表样本特征ui与负代理特征un之间的余弦相似性;
Figure FDA0003838014430000023
Figure FDA0003838014430000024
是第i个类哈希码,
Figure FDA0003838014430000025
是第i个哈希码,是由公式hK=sgn(dK)来量化类哈希码得到的,其中sgn(·)是符号函数,它返回一个变量的正负符号,对于正数值为1,对于负数值为-1;N为训练批大小;
Figure FDA0003838014430000026
表示l2范数向量,以减少类哈希码与哈希码之间的距离;
最终的损失函数为:
L3=ηL1+(1-η)L2
5.根据权利要求1所述的一种基于分类标签的深度哈希检索方法,其特征在于所述的步骤6中,在测试阶段得到图像列表的方法如下:
步骤5.1:使用深度哈希网络对高维深度特征进行计算得到低维类哈希码特征
Figure FDA0003838014430000027
步骤5.2:通过公式bi=sgn(ui)计算得到基于相似度生成的视觉内容哈希码;
步骤5.3:利用ci=argmax(pi)的方式获得当前图片的预测标签ci,对预测标签ci进行二进制表示得到标签二值码,拼接得到基于分类的哈希码;
步骤5.4:计算查询图像和测试图像集的基于分类的哈希码的汉明距离得到排序序列。
CN202211093673.7A 2022-09-08 2022-09-08 一种基于分类标签的深度哈希检索方法 Pending CN115587207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211093673.7A CN115587207A (zh) 2022-09-08 2022-09-08 一种基于分类标签的深度哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211093673.7A CN115587207A (zh) 2022-09-08 2022-09-08 一种基于分类标签的深度哈希检索方法

Publications (1)

Publication Number Publication Date
CN115587207A true CN115587207A (zh) 2023-01-10

Family

ID=84771625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211093673.7A Pending CN115587207A (zh) 2022-09-08 2022-09-08 一种基于分类标签的深度哈希检索方法

Country Status (1)

Country Link
CN (1) CN115587207A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070277A (zh) * 2023-03-07 2023-05-05 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116994073A (zh) * 2023-09-27 2023-11-03 江西师范大学 一种自适应正负样本生成的图对比学习方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070277A (zh) * 2023-03-07 2023-05-05 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116070277B (zh) * 2023-03-07 2023-08-29 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116955675B (zh) * 2023-09-21 2023-12-12 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116994073A (zh) * 2023-09-27 2023-11-03 江西师范大学 一种自适应正负样本生成的图对比学习方法和装置
CN116994073B (zh) * 2023-09-27 2024-01-26 江西师范大学 一种自适应正负样本生成的图对比学习方法和装置

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111694924B (zh) 一种事件抽取方法和系统
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN109657061B (zh) 一种针对海量多词短文本的集成分类方法
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN114579739B (zh) 文本数据流的话题检测与追踪方法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114860973A (zh) 一种面向小样本场景的深度图像检索方法
CN116385946B (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN117592563A (zh) 一种领域知识增强的电力大模型训调方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN116227486A (zh) 一种基于检索和对比学习的情感分析方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination