CN110795590B - 基于直推式零样本哈希的多标签图像检索方法及设备 - Google Patents

基于直推式零样本哈希的多标签图像检索方法及设备 Download PDF

Info

Publication number
CN110795590B
CN110795590B CN201910943151.3A CN201910943151A CN110795590B CN 110795590 B CN110795590 B CN 110795590B CN 201910943151 A CN201910943151 A CN 201910943151A CN 110795590 B CN110795590 B CN 110795590B
Authority
CN
China
Prior art keywords
hash
image
layer
convolution
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910943151.3A
Other languages
English (en)
Other versions
CN110795590A (zh
Inventor
邹勤
曹玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910943151.3A priority Critical patent/CN110795590B/zh
Publication of CN110795590A publication Critical patent/CN110795590A/zh
Application granted granted Critical
Publication of CN110795590B publication Critical patent/CN110795590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于多标签图像检索的直推式零样本哈希方法及设备。本方法利用带有标注的源域数据和不带标注的目标域数据进行零样本训练,结合深度卷积神经网络学习利用源域学习视觉特征与语义嵌入之间的关系,利用目标域缓解域偏移的问题,构建了一种端到端的深度学习模型,对没有认为标注信息的图像进行检索,输出与检索图像类似的多幅图像,有效的提高了无标注多标签图像的检索效率。

Description

基于直推式零样本哈希的多标签图像检索方法及设备
技术领域
本发明涉及人工智能和图像检索领域,具体涉及一种基于直推式零样本哈希的多标签图像检索方法及设备。
背景技术
哈希算法能在保持数据相似性的同时将高维数据转换为紧凑的二进制代码,具有计算效率高、存储成本低的优点,在大规模图像检索中被广泛应用。现有的哈希算法大致可以分为有监督的和无监督的两类。有监督的哈希算法将人为标注的信息(如语义标签和相似性)融入到学习过程中以寻找最优的哈希函数,而无监督的哈希算法通常利用未标记的数据的内在流形结构来学习哈希函数。
近年来受深度神经网络在计算机视觉应用领域取得显著成就的启发,许多哈希算法转向使用深度神经网络进行哈希学习。这些深度哈希算法大大提高了哈希检索的性能。但是随着数据的大规模增加,现在很多图像可能包含以前没有定义的概念。比如每年都会有不同外观的商业机器人投放市场,包含这些新产品的图片与之前带有预定义标签的图片相比是“不可见的”。由于手工标注的成本很高,这些包含新物体的图片大多缺少真实标签,所以用这些图片进行有监督的哈希检索存在巨大的挑战。
零样本学习的出现一定程度上缓解了这一问题,但是现有的零样本学习算法大多是针对单标签图像的,运用的是一对一的视觉语义表示对。在复杂的实际场景中,一个图像通常包含多个对象,具有更为复杂的语义关系。如何表示多标签图像复杂的视觉语义关系以及如何缓解从源域中学习到的哈希函数不完全适应目标域产生的域偏移问题常常难以解决。
针对上述问题,本发明提出了一种新的基于直推式零样本哈希的多标签图像检索方法。本发明致力于用带标记的源数据学习视觉图像与语义嵌入之间的关系,利用目标域的未标记数据缓解域偏移问题,研究和探索出一种准确率更好的图像检索算法。
发明内容
本发明提出的方法,输入是一幅待检索的图像,输出为与输入图像包含相同类别物体的多幅图像。本发明使用源域和目标域图像共同训练网络,缓解域偏移问题,使用视觉-语义一致性排序将源域和目标域联系起来提高检索准确率。
本发明所设计的一种基于直推式零样本哈希的多标签图像检索方法,包含以下步骤:
步骤S1,构建已经标注的源域图像数据集以及标签集和未标注的目标域图像集,源域图像数据集和目标域图像数据集中的图像不含有相同类的物体;
步骤S2,构建深度学习网络模型,该模型包括特征提取网络,哈希学习网络和视觉-语义一致性学习网络;
步骤S3,利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练,源域图像数据集用于学习视觉图像和语义嵌入之间的关系,产生视觉语义损失;目标域图像数据集用于缓解域偏移,通过视觉-语义一致性学习网络得到预测标签作为监督信息产生哈希损失,两种损失共同反向传播更新网络;
步骤S4,利用S3训练好的哈希学习网络实现待检索图像的哈希检索。
进一步地,所述步骤S1具体为:
步骤S1-1,选取M个带有标注信息的图像形成源域数据集,每个图像里含有一个或多个物体类别;
步骤S1-2,对源域数据集中的M个图像中包含的类别进行分析,统计类别的总个数n,得到长度为n的标签,每一位代表一个类别,含有该类别图像时该位值为1,否则为0;
步骤S1-3,选择N个不含有标注信息的图像形成目标域数据集,这N个图像均不包含S1-2中所述的n个类别,即目标域和源域图像中包含的物体类别不重叠。
进一步地,所述步骤S2具体为:
深度学习网络为一个端到端网络,特征提取网络为全卷积网络,包含卷积层和池化层;哈希学习网络为全连接网络,包含全连接层;视觉-语义一致性学习网络为全连接网络,包括全连接层。
更进一步地,所述步骤S2中特征提取网络包含7层,第1层为输入层,由N幅图像构成,图像尺寸统一缩放为256×256,第2层为卷积池化层,卷积使用64个大小为5×5的卷积核,步长为2,池化尺寸为3×3,步长为2;第3层为卷积池化层,卷积使用64个大小为5×5的卷积核,步长为1,池化尺寸为3×3,步长为2;第4层为卷积池化层,卷积使用128个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第5层为卷积池化层,卷积使用128个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第6层为卷积池化层,卷积使用256个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第7层卷积池化层,卷积使用256个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第7层所得结果的特征图维度为4×4×256,将其展开得到4096维的特征向量。
更进一步地,本发明中采用聚焦损失+量化损失+相似度损失作为模型的损失函数,其定义为:
Lloss=Lrank+Lp+Lq
具体地,
Figure BDA0002223475300000031
其中
Figure BDA0002223475300000032
Figure BDA0002223475300000033
分别代表与第i个实体相关和不相关的两个数据集,
Figure BDA0002223475300000034
代表指示符,
Figure BDA0002223475300000035
表示第i个实体与第j个标签相关,
Figure BDA0002223475300000036
表示第i个实体与第j个标签不相关,wi是一个正则化参数,Oip代表在嵌入空间中第i个图像的视觉实例与第p个语义概念的关联度得分;
Figure BDA0002223475300000037
其中,
Figure BDA00022234753000000313
表示所有图像哈希码的集合,S={sij}表示图像的相似性矩阵;
Figure BDA0002223475300000038
其中
Figure BDA0002223475300000039
代表哈希层输出的概率分布,
Figure BDA00022234753000000310
代表标签指示符,
Figure BDA00022234753000000311
表示哈希层的输出量化为0,
Figure BDA00022234753000000312
表示哈希层的输出量化为1。
进一步地,所述步骤S3具体为:
步骤S3-1,将S1中的源域数据集数据输入深度学习网络得到预测标签,将预测标签与源域标注集进行损失反向传播更新网络参数;
步骤S3-2,从S1中的目标域数据集中选取一部分作为训练集数据输入深度学习网络,进行实例-类别一致性排序,选取排序分数最高的作为预测标签;
步骤S3-3,预测标签作为监督信息进行哈希检索,将目标域训练集数据输入哈希学习网络得到哈希码,将哈希码相似度和预测标签相似度进行对比产生的哈希损失反向传播更新网络参数;
进一步地,所述步骤S4具体为:
将待检索图像和S1中的目标域数据集(未用于训练部分)输入特征提取网络和哈希学习网络得到各自的哈希码,根据相似图像哈希码也相似的原则进行哈希检索,挑选出与待检索图像最相近的图像;
基于同样的发明构思,本发明第二方面提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
基于同样的发明构思,本发明第三方面提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
本发明的优点:
1、不同于当下零样本图像检索大多是针对单标签图像,本发明目前是第一项研究多标签图像的零样本哈希检索工作。针对多标签图像检索中的域偏移问题,提出了一种基于直推式的零样本哈希方法,在训练阶段同时使用有标记的源数据和未标记的目标数据,源数据用于学习视觉图像和语义嵌入之间的关系,目标数据用于研究已知标签和未知标签之间的联系以缓解域偏移程度。
2、本发明提出了一种基于实例-概念一致性的可视化语义映射排序算法。相对于直接学习多标签图像的语义表达,本发明通过研究实例和类别之间的内在联系,将已知类和未知类的标签联系起来。基于这种联系,用具有较高的排序相关分数的类别作为预测的目标数据标签。这种算法克服了直接学习语义表达的困难性,能够提高零样本多标签图像哈希检索算法的准确性;在特征提取的时候,采用全卷积网络,使得检索速度更快。
3、本发明提出了一种聚焦量化损失减小离散二进制码与哈希网络连续输出之间的差异。由于大量简单样本的梯度积累对训练没有帮助,聚焦量化损失通过减少简单样本的权重来促进训练过程。这种损失设计可以使哈希检索算法更加高效和快速。
附图说明
图1是本发明实施例的深度学习神经网络总体架构图。
图2是本发明的系统流程图。
具体实施方式
传统的零样本哈希检索的方法主要是针对但标签图像,由于现实情况下一幅图像中往往包含多个类别的物体,传统的零样本哈希检索方法的效果并不好。本发明提出一种基于直推式零样本哈希的多标签图像检索方法,本方法将带有标注的源域数据和不带标注的目标域数据都用于训练,结合深度学习网络学习利用源域学习视觉特征与语义嵌入之间的关系,利用目标域缓解域偏移的问题,从而实现更为准确的多标签图像检索。
本发明提供的方法设计了一种新型的深度学习网络模型,其总体结构参见图1。其具体实施例包含以下步骤:
步骤S1,构建已经标注的源域图像数据集以及标签集和未标注的目标域图像集;
具体实施过程说明如下:
步骤S1-1,选取M个带有标注信息的图像形成源域数据集,每个图像里含有一个或多个物体;
步骤S1-2,对源域数据集中的M个图像中包含的类别进行分析,统计类别的总个数n,得到长度为n的标签,每一位代表一个类别,含有该类别图像该位的值为1,否则为0;
步骤S1-3,选择N个不含有标注信息的图像形成目标域数据集,这N个图像均不包含S1-2中所述的n个类别,及目标域和源域图像中包含的物体类别不重叠。
优选地,选取含有18个类别标签的NUS-WIDE数据集和含有17个类别标签的VOC2012数据集,其中一个作为源域数据集,一个作为目标域数据集。
步骤S2,构建深度学习网络模型,该模型包括特征提取网络,哈希学习网络和视觉-语义一致性学习网络;特征提取网络为全卷积网络,包含卷积层和池化层;哈希学习网络为全连接网络,包括全连接层;视觉-语义一致性学习网络为全连接网络,包括全连接层;
具体步骤为:
S2-1,将N幅图像依次输入特征提取网络,输出N个特征向量;
S2-2,将上一步得到的N个特征向量输入哈希学习网络,输出为N个定长的哈希码;
S2-3,将上一步得到的N个哈希码输入视觉-语义一致性学习网络,输出为视觉特征与语义词向量之间的关联度得分。
进一步的,所述步骤S2中特征提取网络包含7层,第1层为输入层,由N幅图像构成,图像尺寸统一缩放为256×256,第2层为卷积池化层,卷积使用64个大小为5×5的卷积核,步长为2,池化尺寸为3×3,步长为2;第3层为卷积池化层,卷积使用64个大小为5×5的卷积核,步长为1,池化尺寸为3×3,步长为2;第4层为卷积池化层,卷积使用128个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第5层为卷积池化层,卷积使用128个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第6层为卷积池化层,卷积使用256个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第7层卷积池化层,卷积使用256个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第7层所得结果的特征图维度为4×4×256,将其展开得到4096维的特征向量。
优选地,池化层采用最大值池化法;
进一步地,所述步骤S2中哈希学习网络包含1层全连接层,将特征提取网络输出的特征向量与j个神经元连接,生成长度为j的哈希码;
进一步地,所述步骤S2中视觉-语义学习网络包含1层全连接层,将哈希学习网络输出的j个向量值与d个神经元连接,生成长度为d的视觉-语义一致性得分;
进一步地,采用聚焦损失+量化损失+相似度损失作为模型的损失函数,其定义为:
Lloss=Lrank+Lp+Lq
具体地,
Figure BDA0002223475300000061
其中
Figure BDA0002223475300000062
Figure BDA0002223475300000063
分别代表与第i个实体相关和不相关的两个数据集,
Figure BDA0002223475300000064
代表指示符,
Figure BDA0002223475300000065
表示第i个实体与第j个标签相关,
Figure BDA0002223475300000066
表示第i个实体与第j个标签不相关,wi是一个正则化参数,Oip代表在嵌入空间中第i个图像的视觉实例与第p个语义概念的关联度得分。
Figure BDA0002223475300000067
其中,
Figure BDA00022234753000000613
表示所有图像哈希码的集合,S={sij}表示图像的相似性矩阵。
Figure BDA0002223475300000068
其中
Figure BDA0002223475300000069
代表哈希层输出的概率分布,
Figure BDA00022234753000000610
代表标签指示符,
Figure BDA00022234753000000611
表示哈希层的输出量化为0,
Figure BDA00022234753000000612
表示哈希层的输出量化为1。
步骤S3,利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练,源域图像数据集用于学习视觉图像和语义嵌入之间的关系,产生视觉语义损失;目标域图像数据集用于缓解域偏移,通过视觉-语义一致性学习网络得到预测标签作为监督信息产生哈希损失,两种损失共同反向传播更新网络;
具体的步骤为:
S3-1,从源域数据集中划分出P幅图像为训练图像,从目标域数据集中划分出Q幅图像为训练图像集,K幅图像为测试图像集,其余N-Q-K幅图像作为查询图像集;
S3-2,将源域训练集的P幅图像及其标签依次输入特征提取网络,输出P个特征向量;
S3-3,将上一步得到的P个特征向量输入哈希学习网络,输出为P个定长的哈希码;
S3-4,将上一步得到的P个哈希码输入视觉-语义一致性学习网络,得到视觉特征与语义词向量之间的关联度得分,得到源域数据图像的预测标签;
S3-5,对比上一步得到的预测标签与源域数据的真实标签之间的相似度,产生计算视觉-语义一致性损失并据此优化训练模型;
S3-6,将目标域训练集的Q幅图像输入特征提取网络,输出Q个特征向量;
S3-7,将上一步的Q个特征向量输入哈希学习网络,输出为Q个定长的哈希码;
S3-8,将上一步得到的Q个哈希码输入视觉-语义一致性学习网络,输出为Q个目标域图像的预测标签;
S3-9,将源域训练集的P幅图像和目标域的Q幅图像一起输入特征提取网络,输出P+Q个特征向量;
S3-10,将上一步得到的P+Q个特征向量和源域P幅图像的真实标签以及S2-6中得到的目标域Q幅图像的预测标签输入哈希学习网络进行哈希检索,输出为哈希损失并据此优化训练模型;
S3-11,将目标域训练集的Q幅图像输入特征提取网络,输出Q个特征向量;
S3-12,将上一步的Q个特征向量输入哈希学习网络,输出为Q个定长的哈希码;
S3-13,将上一步得到的Q个哈希码输入视觉-语义一致性学习网络,输出为更新后的Q个目标域图像的预测标签;
步骤S4,利用S3训练好的哈希学习网络实现待检索图像的哈希检索;
利用步骤S3训练好的深度学习模型,将目标域测试数据集中的1幅图像和目标域查询数据集中的N-Q-K幅图像分别输入特征提取网络,得到1个特征向量和N-Q-K个特征向量,将这1个和N-Q-K特征向量分别输入哈希学习网络,得到1个和N-Q-K个定长的哈希码,根据哈希码进行图像检索,输出为与输入的1幅目标域测试数据集图像相似的i幅图像。
基于同样的发明构思,本发明第二方面提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。
基于同样的发明构思,本发明第三方面提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法。
本发明的优点:
1.不同于当下零样本图像检索大多是针对单标签图像,本发明目前是第一个研究多标签图像的零样本哈希检索工作。针对多标签图像检索中的域偏移问题,提出了一种基于直推式的零样本哈希方法,在训练阶段同时使用有标记的源数据和未标记的目标数据,源数据用于学习视觉图像和语义嵌入之间的关系,目标数据用于研究已知标签和未知标签之间的联系以缓解域偏移程度。
2.本发明提出了一种基于实例-概念一致性的可视化语义映射排序算法。相对于直接学习多标签图像的语义表达,本发明通过研究实例和类别之间的内在联系,将已知类和未知类的标签联系起来。基于这种联系,用具有较高的排序相关分数的类别作为预测的目标数据标签。这种算法克服了直接学习语义表达的困难性,能够提高零样本多标签图像哈希检索算法的准确性;在特征提取的时候,采用全卷积网络,使得检索速度更快。
3.本发明提出了一种聚焦量化损失减小离散二进制码与哈希网络连续输出之间的差异。由于大量简单样本的梯度积累对训练没有帮助,聚焦量化损失通过减少简单样本的权重来促进训练过程。这种损失设计可以使哈希检索算法更加高效和快速。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (9)

1.一种基于直推式零样本哈希的多标签图像检索方法,包含以下步骤:
步骤S1,构建已经标注的源域图像数据集以及标签集和未标注的目标域图像集,源域图像数据集和目标域图像数据集中的图像不含有相同类的物体;
步骤S2,构建深度学习网络模型,该模型包括特征提取网络,哈希学习网络和视觉-语义一致性学习网络;
步骤S3,利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练,源域图像数据集用于学习视觉图像和语义嵌入之间的关系,产生视觉语义损失;目标域图像数据集用于缓解域偏移,通过视觉-语义一致性学习网络得到预测标签作为监督信息产生哈希损失,两种损失共同反向传播更新网络,具体如下:
步骤S3-1,将S1中的源域数据集数据输入深度学习网络得到预测标签,将预测标签与源域标注集进行损失反向传播更新网络参数;
步骤S3-2,从S1中的目标域数据集中选取一部分作为训练集数据输入深度学习网络,进行实例-类别一致性排序,选取排序分数最高的作为预测标签;
步骤S3-3,预测标签作为监督信息进行哈希检索,将目标域训练集数据输入哈希学习网络得到哈希码,将哈希码相似度和预测标签相似度进行对比产生的哈希损失反向传播更新网络参数;
步骤S4,利用S3训练好的哈希学习网络实现待检索图像的哈希检索。
2.根据权利要求1所述的用于多标签图像检索的直推式零样本哈希方法,其特征在于:所述步骤S1具体为:
步骤S1-1,选取M个带有标注信息的图像形成源域数据集,每个图像里含有一个或多个物体类别;
步骤S1-2,对源域数据集中的M个图像中包含的类别进行分析,统计类别的总个数n,得到长度为n的标签,每一位代表一个类别,含有该类别图像时该位值为1,否则为0;
步骤S1-3,选择N个不含有标注信息的图像形成目标域数据集,这N个图像均不包含S1-2中所述的n个类别,即目标域和源域图像中包含的物体类别不重叠。
3.根据权利要求1所述的用于多标签图像检索的直推式零样本哈希方法,其特征在于:所述构建深度学习网络为一个端到端网络;所述特征提取网络为全卷积网络,包含卷积层和池化层;所述哈希学习网络为全连接网络,包含全连接层。
4.根据权利要求3所述的用于多标签图像检索的直推式零样本哈希方法,其特征在于:所述步骤S2中特征提取网络包含7层,第1层为输入层,由N幅图像构成,图像尺寸统一缩放为256×256,第2层为卷积池化层,卷积使用64个大小为5×5的卷积核,步长为2,池化尺寸为3×3,步长为2;第3层为卷积池化层,卷积使用64个大小为5×5的卷积核,步长为1,池化尺寸为3×3,步长为2;第4层为卷积池化层,卷积使用128个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第5层为卷积池化层,卷积使用128个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第6层为卷积池化层,卷积使用256个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第7层卷积池化层,卷积使用256个大小为3×3的卷积核,步长为1,池化尺寸为3×3,步长为2;第7层所得结果的特征图维度为4×4×256,将其展开得到4096维的特征向量。
5.根据权利要求3所述的用于多标签图像检索的直推式零样本哈希方法,其特征在于:采用聚焦损失+量化损失+相似度损失作为模型的损失函数,其定义为:
Lloss=Lrank+Lp+Lq
具体地,
Figure FDA0004097204210000021
其中
Figure FDA0004097204210000022
Figure FDA0004097204210000023
分别代表与第i个实体相关和不相关的两个数据集,
Figure FDA0004097204210000024
代表指示符,
Figure FDA0004097204210000025
表示第i个实体与第j个标签相关,
Figure FDA0004097204210000026
表示第i个实体与第j个标签不相关,wi是一个正则化参数,Oip代表在嵌入空间中第i个图像的视觉实例与第p个语义概念的关联度得分;
Figure FDA0004097204210000027
其中,
Figure FDA00040972042100000213
表示所有图像哈希码的集合,S={sij}表示图像的相似性矩阵;
Figure FDA0004097204210000028
其中
Figure FDA0004097204210000029
代表哈希层输出的概率分布,
Figure FDA00040972042100000210
代表标签指示符,
Figure FDA00040972042100000211
表示哈希层的输出量化为0,
Figure FDA00040972042100000212
表示哈希层的输出量化为1。
6.根据权利要求1所述的用于多标签图像检索的直推式零样本哈希方法,其特征在于:所述视觉-语义一致性学习网络为全连接网络,包括全连接层。
7.根据权利要求1所述的基于直推式零样本哈希的多标签图像检索方法,其特征在于:
所述步骤S4具体为:
将待检索图像和S1中未用于训练部分的目标域数据集输入特征提取网络和哈希学习网络得到各自的哈希码,根据相似图像哈希码也相似的原则进行哈希检索,挑选出与待检索图像最相近的图像。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201910943151.3A 2019-09-30 2019-09-30 基于直推式零样本哈希的多标签图像检索方法及设备 Active CN110795590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910943151.3A CN110795590B (zh) 2019-09-30 2019-09-30 基于直推式零样本哈希的多标签图像检索方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910943151.3A CN110795590B (zh) 2019-09-30 2019-09-30 基于直推式零样本哈希的多标签图像检索方法及设备

Publications (2)

Publication Number Publication Date
CN110795590A CN110795590A (zh) 2020-02-14
CN110795590B true CN110795590B (zh) 2023-04-18

Family

ID=69438683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910943151.3A Active CN110795590B (zh) 2019-09-30 2019-09-30 基于直推式零样本哈希的多标签图像检索方法及设备

Country Status (1)

Country Link
CN (1) CN110795590B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460200B (zh) * 2020-03-04 2023-07-04 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN111613299A (zh) * 2020-06-15 2020-09-01 山东搜搜中医信息科技有限公司 中医数据的多标签分析技术
CN111967467B (zh) * 2020-07-24 2022-10-04 北京航空航天大学 图像目标检测方法、装置、电子设备和计算机可读介质
CN112199532B (zh) * 2020-09-01 2022-10-14 中国科学院信息工程研究所 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112364195B (zh) * 2020-10-22 2022-09-30 天津大学 一种基于属性引导对抗哈希网络的零样本图像检索方法
CN113342950B (zh) * 2021-06-04 2023-04-21 北京信息科技大学 基于语义联合的答案选取方法及系统
CN113807420B (zh) * 2021-09-06 2024-03-19 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN116244483B (zh) * 2023-05-12 2023-07-28 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统
CN117874277B (zh) * 2024-03-11 2024-05-10 山东省计算中心(国家超级计算济南中心) 一种基于无监督域自适应哈希的图像检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125685A1 (en) * 2016-12-30 2018-07-05 Hrl Laboratories, Llc Zero-shot learning using multi-scale manifold alignment
CN109063113A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN109472284A (zh) * 2018-09-18 2019-03-15 浙江大学 一种基于无偏嵌入零样本学习的电芯缺陷分类方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125685A1 (en) * 2016-12-30 2018-07-05 Hrl Laboratories, Llc Zero-shot learning using multi-scale manifold alignment
CN109997152A (zh) * 2016-12-30 2019-07-09 赫尔实验室有限公司 利用多尺度流形对准的零样本学习
CN109063113A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN109472284A (zh) * 2018-09-18 2019-03-15 浙江大学 一种基于无偏嵌入零样本学习的电芯缺陷分类方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Y. GUO等.SitNet: Discrete similarity transfer network for zero-shot hashing.《Proc. 26th Int. Joint Conf. Artif. Intell.》.2017,全文. *
冀中 ; 孙涛 ; 于云龙 ; .一种基于直推判别字典学习的零样本分类方法.软件学报.2017,(第11期),全文. *
龙传书.基于视觉属性的图像类别分析.《中国优秀硕士学位论文全文数据库 信息科技辑》.2018,(第undefined期),全文. *

Also Published As

Publication number Publication date
CN110795590A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110795590B (zh) 基于直推式零样本哈希的多标签图像检索方法及设备
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110222140B (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和系统
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
CN112015868A (zh) 基于知识图谱补全的问答方法
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN113688878B (zh) 一种基于记忆力机制和图神经网络的小样本图像分类方法
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN111461175A (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN115357747A (zh) 一种基于序数哈希的图像检索方法及系统
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Li et al. Multimodal fusion with co-attention mechanism
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
CN116521887A (zh) 一种基于深度学习的知识图谱复杂问答系统及方法
Zhang et al. Improved image retrieval algorithm of GoogLeNet neural network
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant