CN113204522A - 基于结合生成对抗网络的哈希算法的大规模数据检索方法 - Google Patents

基于结合生成对抗网络的哈希算法的大规模数据检索方法 Download PDF

Info

Publication number
CN113204522A
CN113204522A CN202110756991.6A CN202110756991A CN113204522A CN 113204522 A CN113204522 A CN 113204522A CN 202110756991 A CN202110756991 A CN 202110756991A CN 113204522 A CN113204522 A CN 113204522A
Authority
CN
China
Prior art keywords
similarity
image
hash
loss
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110756991.6A
Other languages
English (en)
Other versions
CN113204522B (zh
Inventor
曹媛
吴翔宇
桂杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110756991.6A priority Critical patent/CN113204522B/zh
Publication of CN113204522A publication Critical patent/CN113204522A/zh
Application granted granted Critical
Publication of CN113204522B publication Critical patent/CN113204522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种基于结合生成对抗网络的哈希算法的大规模数据检索方法。本发明主要由两个主要部分组成:有条件的WGAN,它将训练图像和成对相似度作为输入,并共同学习生成器和判别器:生成器接受随机噪声和编码相似度信息的嵌入向量的连接作为输入,以合成接近真实的图像;判别器试图使用对抗性损失来区分真实和合成图像;哈希编码器,在贝叶斯学习框架下为所有图像生成紧凑的二进制哈希代码:该框架通过余弦交叉熵损失共同保存真实图像和合成图像的相似性信息,并通过余弦量化损失控制量化误差。经验证,本发明所提出的双块框架具有优越的检索性能。

Description

基于结合生成对抗网络的哈希算法的大规模数据检索方法
技术领域
本发明属于深度学习技术领域,具体涉及一种结合生成对抗网络的基于哈希算法的大规模数据检索方法。
背景技术
近似近邻(ANN)搜索在机器学习和信息检索等相关应用中发挥着基础作用。由于其存储成本低、检索速度快,哈希算法最近引起了ANN研究界的广泛关注。哈希的目的是将数据点从原始空间映射到二进制代码的汉明空间,其中原始空间和汉明空间之间的相似性得以保留。通过使用二进制哈希码来表示原始数据,可以极大地降低存储成本。此外,通过使用哈希码构建索引,可以实现搜索的恒定或亚线性时间复杂性。因此,哈希算法在大规模数据集的ANN搜索中变得越来越流行。
哈希由于其存储和搜索效率,经常被用于近似近邻搜索中。考虑到传统的哈希学习方法的瓶颈,基于深度的哈希学习最近在研究者中获得了相当的欢迎。虽然这类方法通过利用深度神经网络的端到端训练过程来生成紧凑的二进制代码,显示了有希望的性能增益,但组件之间的内在联系使得显著优化架构是不可行的。受噪声干扰和训练数据不完整的相似性标签的影响,正常的深度模型在表示学习阶段甚至带有明显的偏差。
现有的哈希方法可以分为独立于数据的方法和依赖数据的方法。在独立于数据的方法中,哈希函数通常是随机生成的,与任何训练数据无关。有代表性的独立于数据的方法包括位置敏感哈希(LSH)和它的变体。数据依赖型方法试图从一些训练数据中学习哈希函数,这也被称为学习哈希(L2H)方法。与独立于数据的方法相比,L2H方法可以在较短的哈希代码中达到相当或更好的精度。因此,在实际应用中,L2H方法已经比独立于数据的方法越来越受欢迎。其中依赖于数据的方法包括无监督的和有监督的哈希。无监督哈希方法通过对未标记的数据进行训练来学习将数据编码为二进制代码的哈希函数。有监督的哈希方法进一步探索有监督的信息(例如成对的相似性或相关性反馈),以生成紧凑的哈希代码。最近,深度学习哈希方法通过融合深度学习的力量在图像检索数据集上产生了突破性的结果。特别是,DHN是第一个联合保留配对相似性和控制量化误差的端到端框架。HashNet通过平衡训练数据中的正负对来交换精度与召回率,并通过延续技术来降低量化误差,从而改进了DHN,在几个基准数据集上获得了最先进的性能。
在CNN带来了超越DNN方法的巨大性能提升之后,GAN的到来成为了包括计算机视觉、模式识别等领域的另一个重要里程碑。生成对抗网络(GANs)是一种强大的模型,可以在不需要监督信息的情况下以最小化的博弈机制生成图像。目前最先进的用于图像合成的无监督生成模型包括深度卷积GANs(DCGANs)和Wasserstein GANs(WGANs)。最近,一个更强大的生成模型家族通过对监督信息(如类标签或文本描述)的进一步调节,将图像与GANs合成。辅助分类器GAN(AC-GAN)是最先进的解决方案,通过将监督信息送入生成器并增加损失函数来说明判别器中的监督信息。
现有的监督生成模型只纳入了点状监督信息,如类标签或文本描述。然而,在许多实际的检索应用中,只有成对的相似性信息来训练哈希模型。Deep Semantic Hashing是第一个探索GANs用于图像合成的哈希方法,但它只能纳入点状侧信息(类标签),这在在线图像检索应用中往往是不可用的。
发明内容
本发明的目的是提供一种结合生成对抗网络的基于哈希算法的大规模数据检索方法,以弥补现有技术的不足。
基于深度学习的哈希方法表明,使用深度神经网络可以更有效地进行特征表示和哈希编码的端到端学习,它可以自然地编码任何非线性哈希函数。这些深度学习到哈希方法在许多基准上表现出最先进的性能。特别是,事实证明,共同学习保全相似性的表征和控制将连续表征二进制化为二进制代码的量化误差至关重要。然而,这些深度学习到哈希方法的一个关键缺点是,它们需要首先学习连续的深度表征,在分离的符号阈值后步骤中将其二进制化为哈希编码。通过连续松弛,即用连续优化解决哈希码的离散优化,所有这些方法本质上解决了一个明显偏离哈希目标的优化问题,因为它们在优化过程中不能准确地学习二进制哈希码。因此,现有的深度哈希方法可能无法生成紧凑的二进制哈希码来进行有效的相似性检索。
通过整合生成对抗网络(GAN),本发明提出了一种新型的深度学习哈希架构(GDPSH),用于从原始图像的扩展集中生成紧凑的哈希代码;本发明从真实图像和大规模合成图像中学习紧凑的二进制哈希代码。本发明包括一个专门设计的GAN,能够纳入成对的相似性信息,以及一个用真实和合成图像训练的深度哈希网络,以生成几乎无损的哈希代码;这里提出了明确的损失函数,包括余弦交叉熵损失和余弦量化损失,用于相似性保护的学习和量化误差控制。
在图像检索应用中,假设得到了
Figure 2834DEST_PATH_IMAGE001
个训练点
Figure 326500DEST_PATH_IMAGE002
,其中一些对点
Figure 371816DEST_PATH_IMAGE003
Figure 422817DEST_PATH_IMAGE004
被赋予了成对的相似性标签
Figure 768348DEST_PATH_IMAGE005
。也可以通过手动构建一些数据集的类标签来获得这些成对的标签。如果
Figure 997335DEST_PATH_IMAGE003
Figure 795527DEST_PATH_IMAGE004
是相似的
Figure 661938DEST_PATH_IMAGE006
,而如果
Figure 861975DEST_PATH_IMAGE003
Figure 261864DEST_PATH_IMAGE004
是不相似的那么
Figure 547352DEST_PATH_IMAGE007
。深度学习哈希的目标是学习从输入空间到汉明空间
Figure 940156DEST_PATH_IMAGE008
的非线性哈希函数
Figure 994699DEST_PATH_IMAGE009
,使用深度神经网络,将每个点编码为紧凑的
Figure 831068DEST_PATH_IMAGE010
-位哈希代码
Figure 603852DEST_PATH_IMAGE011
,这样,给定的对之间的相似性信息
Figure 534768DEST_PATH_IMAGE012
可以在紧凑的哈希代码中保留下来。在有监督的哈希中,相似性对
Figure 709397DEST_PATH_IMAGE013
可以从数据点的语义标签或在线搜索系统中点击数据的相关性反馈中构建。
为达到上述目的,本发明采取的具体技术方案为:
一种基于结合生成对抗网络的哈希算法的大规模数据检索方法,该方法包括以下步骤:
S1:收集图片数据,并进行预处理,得到特征一;
S2:根据对抗网络(GANs)对所述特征一进行处理;将上述获得的特征一并输入到对抗生成网络的生成器当中生成人工合成的图片;将该图片放入生成对抗网络的判别器当中,并用构造的交叉熵损失(cross-entropy loss)以及和真正图片的对抗损失(adversarial loss)来辅助训练,不断更新生成器以及判别器的网络参数,直到能够生成符合目标的人工合成图片;
S3:将S2中人工合成图片集和原始图片集相结合的融合数据集输入至卷积神经网络一,根据提出的目标损失函数来计算相似度矩阵;
S4:将所述融合数据集,以及所述相似度矩阵,输入至卷积神经网络二,根据提出的余弦交叉熵损失和量化损失来训练网络参数,最后得到效果满意的哈希编码,同样得到训练好的哈希架构(GDPSH);
S5:待测数据集输入至S4训练好的哈希架构(GDPSH)进行处理,最后输出检索结果。
进一步的,所述S1中的预处理为:首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来,得到特征一。
进一步的,所述S2中的生成对抗网络(GANs)中:
通过相似性嵌入的方法降低了点状监督信息
Figure 310143DEST_PATH_IMAGE014
的高维度,将与每个图像相关的相似性信息
Figure 445589DEST_PATH_IMAGE014
嵌入到一个低维向量;每个生成的点除了随机噪声
Figure 55562DEST_PATH_IMAGE015
之外,还有一个相应的嵌入向量
Figure 209332DEST_PATH_IMAGE016
;生成器同时使用嵌入向量和随机噪声来生成每个图像,如
Figure 512137DEST_PATH_IMAGE017
;鉴别器给出两个概率分布:一个是合成与真实的
Figure 869300DEST_PATH_IMAGE018
Figure 282964DEST_PATH_IMAGE019
,用于二元分类;另一个是所有图像对中相似与不相似的
Figure 291240DEST_PATH_IMAGE020
Figure 499368DEST_PATH_IMAGE021
,用于配对分类;GAN的训练判别器的总损失为:
Figure 343827DEST_PATH_IMAGE023
其中C单独表示和判别器D共享前面网络层的概率网络,公式4第一行和第二行表示对抗损失,第三行和第四行是概率
Figure 561182DEST_PATH_IMAGE020
和成对相似度
Figure 689544DEST_PATH_IMAGE005
之间的交叉熵损失。
进一步的,所述S3中:
所述相似度矩阵的提取,以全面了解数据点的关系,然后在设计损失函数时帮助二进制代码生成方案顺利进行;定义一个相似性矩阵
Figure 68572DEST_PATH_IMAGE024
,如下是目标损失函数:
Figure 400328DEST_PATH_IMAGE026
其中
Figure 155794DEST_PATH_IMAGE027
Figure 873083DEST_PATH_IMAGE024
的第
Figure 688593DEST_PATH_IMAGE028
Figure 507644DEST_PATH_IMAGE029
列;当
Figure 66801DEST_PATH_IMAGE030
时,表示图像
Figure 904176DEST_PATH_IMAGE003
与图像
Figure 625008DEST_PATH_IMAGE004
相似;当
Figure 790410DEST_PATH_IMAGE030
时,表示图像
Figure 763045DEST_PATH_IMAGE003
与图像
Figure 595872DEST_PATH_IMAGE004
不相似;当
Figure 612238DEST_PATH_IMAGE031
时,表示图像
Figure 530515DEST_PATH_IMAGE003
与图像
Figure 572421DEST_PATH_IMAGE004
之间的相似度是模糊的;定义的
Figure 728596DEST_PATH_IMAGE024
可能是一个不对称的矩阵,为了确保对称性,进一步更新为
Figure 181443DEST_PATH_IMAGE024
,规则是:如果
Figure 462382DEST_PATH_IMAGE030
Figure 167033DEST_PATH_IMAGE032
,那么
Figure 833507DEST_PATH_IMAGE033
;如果
Figure 332621DEST_PATH_IMAGE034
Figure 835278DEST_PATH_IMAGE035
,那么
Figure 343620DEST_PATH_IMAGE036
;否则
Figure 864600DEST_PATH_IMAGE037
对于相似性模糊的图像对,即
Figure 269036DEST_PATH_IMAGE034
,进一步通过其特征的余弦相似度来定义它们的相似性;然后,得到最终的相似性矩阵
Figure 258989DEST_PATH_IMAGE012
,能够被表述为如下:
Figure 39863DEST_PATH_IMAGE039
因此,两幅图像之间的相似度可以分为三种类型:完全相似的
Figure 680929DEST_PATH_IMAGE040
,完全不相似的
Figure 521846DEST_PATH_IMAGE041
,以及部分相似的
Figure 999095DEST_PATH_IMAGE042
进一步的,所述S4中,构建了一个哈希编码器网络
Figure 583660DEST_PATH_IMAGE043
,它在贝叶斯框架下为合成图像和真实图像生成紧凑的哈希代码;哈希编码器F由三个部分组成:(1)深度卷积神经网络(CNN),用于为每个输入图像
Figure 79232DEST_PATH_IMAGE044
学习深度紧凑的代码
Figure 91051DEST_PATH_IMAGE045
,其中
Figure 790016DEST_PATH_IMAGE044
可以是具有相似性信息的真实图像x或由具有相似性信息的PC-WGAN生成的合成图像
Figure 178272DEST_PATH_IMAGE046
;(2)余弦交叉熵损失用于相似性保存的哈希学习;(3)余弦量化损失用于控制量化误差。
更进一步的,得到学习紧凑哈希码的哈希编码器
Figure 528351DEST_PATH_IMAGE047
的优化问题如下:
Figure 711071DEST_PATH_IMAGE049
其中
Figure 162912DEST_PATH_IMAGE050
是平衡公式16第一行和第二行的余弦交叉熵损失和平衡公式16第三行的余弦量化损失之间权重的参数。
本发明的优点和技术效果:
本发明提出的基于深度学习的哈希架构,用合成的图像指导矩阵生成和代码学习,它利用机器解释高层语义理解到图像中。GDPSH的架构,它由两个主要部分组成:(1) 有条件的WGAN,它将训练图像和成对相似度作为输入,并共同学习生成器
Figure 89279DEST_PATH_IMAGE051
和判别器
Figure 903652DEST_PATH_IMAGE052
:生成器接受随机噪声u和编码相似度信息的嵌入向量的连接作为输入,以合成接近真实的图像;判别器
Figure 647486DEST_PATH_IMAGE053
试图使用对抗性损失来区分真实和合成图像;(2) 哈希编码器
Figure 586623DEST_PATH_IMAGE047
,在贝叶斯学习框架下为所有图像生成紧凑的二进制哈希代码
Figure 51102DEST_PATH_IMAGE054
:该框架通过余弦交叉熵损失共同保存真实图像和合成图像的相似性信息,并通过余弦量化损失控制量化误差。
经验证,本发明提供的检索方法不仅仅性能远优于非深度学习的哈希方法,而且始终优于其他两种常用的深度学习方法,这充分证明了本发明所提出的双块框架的优越的检索性能。
附图说明
图1为本发明的整体流程框图。
图2 为实施例2中NUSWIDE数据集的精度-召回曲线对比图。
图3为实施例2中CIFAR-10数据集上的精度-召回曲线对比图。
图4为实施例2中 MS-COCO数据集上的精度-召回曲线对比图。
具体实施方式
以下通过具体实施例进一步解释和说明本发明。
实施例1:
本实施例提出的基于深度学习的哈希架构,用合成的图像指导矩阵生成和代码学习,它利用机器解释高层语义理解到图像中。图1显示了GDPSH的架构,它由两个主要部分组成。(1) 有条件的WGAN,它将训练图像和成对相似度作为输入,并共同学习生成器
Figure 985560DEST_PATH_IMAGE051
和判别器
Figure 912014DEST_PATH_IMAGE052
:生成器接受随机噪声u和编码相似度信息的嵌入向量的连接作为输入,以合成接近真实的图像;判别器
Figure 197502DEST_PATH_IMAGE053
试图使用对抗性损失来区分真实和合成图像。(2) 哈希编码器
Figure 341038DEST_PATH_IMAGE047
,在贝叶斯学习框架下为所有图像生成紧凑的二进制哈希代码
Figure 395582DEST_PATH_IMAGE054
:该框架通过余弦交叉熵损失共同保存真实图像和合成图像的相似性信息,并通过余弦量化损失控制量化误差。
一种基于结合生成对抗网络的哈希算法的大规模数据检索方法,包括如下步骤:
步骤1:首先从原始数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来。
步骤2:将上述获得的特征一并输入到对抗生成网络的生成器当中(如图1中的Generator)生成人工合成的图片。
步骤3:将生成的图片放入生成对抗网络的判别器当中(如图1中的Discriminator)并用构造的交叉熵损失(cross-entropy loss)以及和真正图片的对抗损失(adversarial loss)来辅助训练,不断更新生成器以及判别器的网络参数,直到能够生成符合目标的人工合成图片。
步骤4:将输出的图片集和原始数据集结合起来经过卷积神经网络1,根据11提出的目标损失函数来计算一个相似度矩阵。
步骤5:将之前提到的融合之后的数据集,以及步骤4得到的相似度矩阵,放入一个另外的独立的卷积神经网络2,根据16提出的余弦交叉熵损失和量化损失来训练网络参数,最后得到效果满意的哈希编码。
具体的:
所述步骤1中的预处理为:首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来,得到特征一。
所述步骤2中的生成对抗网络(GANs)中:
生成对抗网络(GANs)的训练策略定义了两个相互竞争的网络之间的最小值博弈:一个是生成器网络,它捕捉真实图像的基本数据分布,用于合成图像;另一个是判别器网络
Figure 481219DEST_PATH_IMAGE055
,它将真实图像与合成图像区分开来;具体来说,生成器
Figure 988423DEST_PATH_IMAGE056
接受随机噪声
Figure 935651DEST_PATH_IMAGE057
作为输入,该噪声是从一些简单的噪声分布(如均匀分布或球形高斯分布)中采样的,并合成一个假图像
Figure 844701DEST_PATH_IMAGE058
;鉴别器
Figure 835660DEST_PATH_IMAGE055
接受真实图像
Figure 95740DEST_PATH_IMAGE059
或合成图像
Figure 581079DEST_PATH_IMAGE060
作为输入,必须通过最小化概率
Figure 610215DEST_PATH_IMAGE061
Figure 772075DEST_PATH_IMAGE062
的分类误差来区分它们;Gulrajani等人提出的GAN的训练通过Wasserstein距离训练判别器,该距离到处都是连续的,几乎到处都是可微的,并提出用可微的Lipschitz约束与梯度惩罚:
Figure 519451DEST_PATH_IMAGE064
其中
Figure 808481DEST_PATH_IMAGE065
是惩罚系数,通常设定为
Figure 692123DEST_PATH_IMAGE066
,x是数据库点,
Figure 900251DEST_PATH_IMAGE067
是真实数据分布,
Figure 993977DEST_PATH_IMAGE068
是由
Figure 945753DEST_PATH_IMAGE069
隐含定义的生成器分布,也就是
Figure 824847DEST_PATH_IMAGE070
表示生成的图片,
Figure 203876DEST_PATH_IMAGE071
隐含定义为在从真实数据分布
Figure 784899DEST_PATH_IMAGE067
和生成器分布
Figure 540365DEST_PATH_IMAGE068
采样的点对之间沿直线均匀采样;在最小化游戏中,生成器被训练成将合成图像分类为真实图像的最大概率,这相当于最小化了:
Figure DEST_PATH_IMAGE072
其中
Figure 805124DEST_PATH_IMAGE073
是从某个简单的噪声分布
Figure 479688DEST_PATH_IMAGE074
中采样的随机噪声。生成器的目标是用近乎真实的合成图像来最大限度地欺骗鉴别器。这样改进GAN能够稳定和高效地训练各种GAN架构,几乎没有超参数调整。
提出了一个新的WGAN的扩展,以从具有成对监督信息
Figure 423374DEST_PATH_IMAGE075
的数据中学习。首先,通过相似性嵌入的方法降低了点状监督信息
Figure 592318DEST_PATH_IMAGE014
的高维度,将与每个图像相关的相似性信息
Figure 305059DEST_PATH_IMAGE014
嵌入到一个低维向量
Figure 416103DEST_PATH_IMAGE076
。相似性嵌入可以通过最小化以下的重构损失来实现。先来看一个以往GAN里面的重构损失函数:
Figure 847085DEST_PATH_IMAGE077
其中
Figure DEST_PATH_IMAGE078
是相似性嵌入损失,施加非负约束是为了使潜伏嵌入与先验监督信息一致,先验监督信息是以非负相似性标签
Figure 85299DEST_PATH_IMAGE079
的形式给出的。由于
Figure 652547DEST_PATH_IMAGE080
,每个嵌入向量
Figure 934492DEST_PATH_IMAGE081
可以用
Figure 852770DEST_PATH_IMAGE082
维近似表示每个点
Figure 363517DEST_PATH_IMAGE003
的相似性信息,这是低维度的,可以作为GAN的输入。
每个生成的点除了随机噪声
Figure 50850DEST_PATH_IMAGE083
之外,还有一个相应的嵌入向量
Figure 503697DEST_PATH_IMAGE084
。生成器同时使用嵌入向量和随机噪声来生成每个图像,如
Figure 643691DEST_PATH_IMAGE017
。鉴别器应该给出两个概率分布:一个是合成与真实的
Figure 223708DEST_PATH_IMAGE018
Figure 155761DEST_PATH_IMAGE019
,用于二元分类;另一个是所有图像对中相似与不相似的
Figure 654875DEST_PATH_IMAGE020
Figure 16587DEST_PATH_IMAGE021
,用于配对分类。具体来说,判别器网络(除了最后一层)在
Figure 134715DEST_PATH_IMAGE053
Figure 921275DEST_PATH_IMAGE085
之间共享。用
Figure 591290DEST_PATH_IMAGE086
Figure 581243DEST_PATH_IMAGE087
表示网络
Figure 362117DEST_PATH_IMAGE085
的最后一层激活,用于成对分类,那么
Figure 3183DEST_PATH_IMAGE089
。PC-WGAN的训练判别器的总损失为:
Figure 844100DEST_PATH_IMAGE090
其中C单独表示和判别器D共享前面网络层的概率网络,公式4第三行和第四行是概率
Figure 321349DEST_PATH_IMAGE020
和成对相似度
Figure 905914DEST_PATH_IMAGE005
之间的交叉熵损失。在最小化游戏中,生成器被训练成最大化合成是真实的以及相似是不相似的概率,或者相反,这相当于最小化了:
Figure 401486DEST_PATH_IMAGE092
注意
Figure 413305DEST_PATH_IMAGE017
。生成器的目标是用从相似性嵌入和随机噪声产生的合成图像最大限度地愚弄判别器。在应用中,含有相似性信息的训练数据的大小明显小于完整的无标签数据的大小。使PC-WGAN能够从有标签的数据和无标签的数据中学习,通过对每个无标签的图像
Figure 112270DEST_PATH_IMAGE093
进一步使用零嵌入向量
Figure 500526DEST_PATH_IMAGE094
来合成高质量的图像。生成器分布
Figure 850605DEST_PATH_IMAGE068
变为
Figure 33325DEST_PATH_IMAGE095
,而
Figure 485166DEST_PATH_IMAGE067
变为监督和无监督的真实图像的分布。虽然
Figure 411534DEST_PATH_IMAGE068
Figure 616119DEST_PATH_IMAGE067
都因无标签数据而改变,但公式3和4中的PC-WGAN目标仍然没有改变。
所述步骤3中相似度矩阵生成 cnn1
结合原始数据集,首先提取一个整体特征(即相似度矩阵),以全面了解数据点的关系,然后在设计损失函数时帮助二进制代码生成方案顺利进行。因此,在这一部分,首先从每个图像
Figure 235319DEST_PATH_IMAGE096
中选择
Figure 767932DEST_PATH_IMAGE097
个最近的邻居
Figure 107777DEST_PATH_IMAGE098
,这是基于它们的余弦相似度。余弦相似度
Figure 307814DEST_PATH_IMAGE099
的表述如下:
Figure 234268DEST_PATH_IMAGE101
其中
Figure 254177DEST_PATH_IMAGE102
是图像
Figure 663293DEST_PATH_IMAGE103
的特征,由预先训练的CNN(如Alexnet)提取。
Figure 717836DEST_PATH_IMAGE104
表示一个向量的长度。
然后,利用近邻图上的随机行走来测量数据点之间的流形相似度。近邻图是无定向的加权图,它是以
Figure 537894DEST_PATH_IMAGE105
个图像
Figure 45098DEST_PATH_IMAGE106
为节点构建的,可以用稀疏的对称邻接矩阵
Figure 992326DEST_PATH_IMAGE107
表示,其表述如下。
Figure 901376DEST_PATH_IMAGE109
K中的
Figure 157914DEST_PATH_IMAGE110
表示相似度。此外,
Figure 152415DEST_PATH_IMAGE010
的对角线元素为零。通过最近的邻接图,对于每个节点
Figure 903333DEST_PATH_IMAGE003
,随机行走遵循迭代。所以条件概率函数
Figure 932469DEST_PATH_IMAGE111
如下:
Figure 359908DEST_PATH_IMAGE113
其中
Figure 107284DEST_PATH_IMAGE114
是一个超参数;
Figure 396314DEST_PATH_IMAGE115
Figure 279957DEST_PATH_IMAGE116
其中
Figure 612718DEST_PATH_IMAGE117
是一个元素为
Figure 581811DEST_PATH_IMAGE117
的向量;
Figure 674532DEST_PATH_IMAGE118
是一个任意向量;
Figure 412681DEST_PATH_IMAGE119
是一个单热向量,只有
Figure 181922DEST_PATH_IMAGE119
的第i个元素等于
Figure 638311DEST_PATH_IMAGE117
,其他都等于
Figure 269144DEST_PATH_IMAGE120
。序列
Figure 127379DEST_PATH_IMAGE121
可以收敛到解
Figure 67522DEST_PATH_IMAGE122
,那么如下:
Figure 745628DEST_PATH_IMAGE124
Figure 180151DEST_PATH_IMAGE025
其中
Figure 627313DEST_PATH_IMAGE125
是一个身份矩阵。然后,用
Figure 738357DEST_PATH_IMAGE126
,表示
Figure 169339DEST_PATH_IMAGE122
的第
Figure 141974DEST_PATH_IMAGE029
个元素,表示图像
Figure 709222DEST_PATH_IMAGE003
和图像
Figure 991167DEST_PATH_IMAGE004
之间的流形相似度。最后,对于每个图像
Figure 643865DEST_PATH_IMAGE003
,按流形相似度从大到小对其他点进行排序,
Figure 420192DEST_PATH_IMAGE127
是前o个数据点的集合。
然后,通过构建的
Figure 107525DEST_PATH_IMAGE128
,可以重建
Figure 560372DEST_PATH_IMAGE129
,将
Figure 700366DEST_PATH_IMAGE130
个最近的邻居分成两组:一组的数据点与图像
Figure 14804DEST_PATH_IMAGE003
相似,另一组的数据点与图像
Figure 556644DEST_PATH_IMAGE003
不相似。具体来说,对于
Figure 180392DEST_PATH_IMAGE131
中的每个数据点,如果它也属于
Figure 807682DEST_PATH_IMAGE127
,那么它与
Figure 925811DEST_PATH_IMAGE003
相似,否则,它与
Figure 853316DEST_PATH_IMAGE003
不相似;对于不在
Figure 647965DEST_PATH_IMAGE131
中的其他数据点,它们与图像
Figure 231393DEST_PATH_IMAGE003
的相似性是模糊的。因此,可以定义一个相似性矩阵
Figure 153213DEST_PATH_IMAGE024
,如下:
Figure DEST_PATH_IMAGE132
其中
Figure 325437DEST_PATH_IMAGE027
Figure 166354DEST_PATH_IMAGE024
的第
Figure 378024DEST_PATH_IMAGE028
Figure 962589DEST_PATH_IMAGE029
列。当
Figure 458161DEST_PATH_IMAGE030
时,表示图像
Figure 469980DEST_PATH_IMAGE003
与图像
Figure 434525DEST_PATH_IMAGE004
相似;当
Figure 557201DEST_PATH_IMAGE030
时,表示图像
Figure 172859DEST_PATH_IMAGE003
与图像
Figure 355579DEST_PATH_IMAGE004
不相似;当
Figure 541841DEST_PATH_IMAGE031
时,表示图像
Figure 468209DEST_PATH_IMAGE003
与图像
Figure 938373DEST_PATH_IMAGE004
之间的相似度是模糊的。定义的
Figure 291994DEST_PATH_IMAGE024
可能是一个不对称的矩阵,那么为了确保对称性,进一步更新为
Figure 965552DEST_PATH_IMAGE024
,规则是:如果
Figure 430031DEST_PATH_IMAGE030
Figure 630068DEST_PATH_IMAGE032
,那么
Figure 290943DEST_PATH_IMAGE033
;如果
Figure 576431DEST_PATH_IMAGE034
Figure 985547DEST_PATH_IMAGE035
,那么
Figure 40091DEST_PATH_IMAGE036
;否则
Figure 860148DEST_PATH_IMAGE037
此外,丰富的语义信息包含在由预训练的CNN提取的特征中。这意味着可以从图像的特征中挖掘出一些语义相似性信息。因此,对于相似性模糊的图像对,即
Figure 632932DEST_PATH_IMAGE034
,进一步通过其特征的余弦相似度来定义它们的相似性。然后,可以得到最终的相似性矩阵
Figure 580159DEST_PATH_IMAGE012
,它可以被表述为如下:
Figure 489209DEST_PATH_IMAGE134
因此,两幅图像之间的相似度可以分为三种类型:完全相似的
Figure 745747DEST_PATH_IMAGE040
,完全不相似的
Figure 740248DEST_PATH_IMAGE041
,以及部分相似的
Figure 225587DEST_PATH_IMAGE042
所述步骤4中哈希学习框架:
以高质量的合成图像与上面得到的相似性矩阵为例,它们可以用来提升深度学习的性能,在相似性标签不足的图像上进行哈希。因此,构建了一个哈希编码器网络
Figure 989144DEST_PATH_IMAGE043
,它在贝叶斯框架下为合成图像和真实图像生成紧凑的哈希代码。哈希编码器f由三个部分组成。(1)一个深度卷积网络(CNN),用于为每个输入图像
Figure 416583DEST_PATH_IMAGE044
学习深度紧凑的代码
Figure 898380DEST_PATH_IMAGE045
,其中
Figure 187410DEST_PATH_IMAGE044
可以是具有相似性信息的真实图像x或由具有相似性信息的PC-WGAN生成的合成图像
Figure 71052DEST_PATH_IMAGE046
;(2)一个余弦交叉熵损失用于相似性保存的哈希学习;(3)一个余弦量化损失用于控制量化误差。
给定训练数据
Figure 669393DEST_PATH_IMAGE135
和合成图像
Figure 638486DEST_PATH_IMAGE136
,可以将训练数据扩展为
Figure 731207DEST_PATH_IMAGE137
,将相似性标签扩展为
Figure 469356DEST_PATH_IMAGE138
进行深度哈希。给定
Figure 238597DEST_PATH_IMAGE139
Figure 694986DEST_PATH_IMAGE137
的哈希码
Figure DEST_PATH_IMAGE140
的对数最大后验(MAP)估计为
Figure 856977DEST_PATH_IMAGE142
其中N是训练数据量,M是人工生成数据量,
Figure 839846DEST_PATH_IMAGE143
是加权似然函数,
Figure 389776DEST_PATH_IMAGE110
是每个训练对
Figure DEST_PATH_IMAGE144
的权重,通过根据错误分类的重要性对训练对进行加权,解决数据不平衡问题(Dmochowski, Sajda, and Parra 2010)。由于
Figure 739986DEST_PATH_IMAGE139
中的每个相似性标签只能是
Figure 423777DEST_PATH_IMAGE006
Figure 136518DEST_PATH_IMAGE007
,为了说明相似对和不相似对之间的数据不平衡,提出
Figure 998295DEST_PATH_IMAGE146
其中
Figure 898118DEST_PATH_IMAGE147
是相似对的集合,
Figure 995387DEST_PATH_IMAGE148
是不相似对的集合。对于每个配对,
Figure 952847DEST_PATH_IMAGE149
是给定一对哈希代码
Figure 110159DEST_PATH_IMAGE119
Figure DEST_PATH_IMAGE150
的相似性标签
Figure 169382DEST_PATH_IMAGE005
的条件概率,它可以自然地定义为配对逻辑函数。条件概率
Figure 194976DEST_PATH_IMAGE111
如下:
Figure 882309DEST_PATH_IMAGE152
其中
Figure 85888DEST_PATH_IMAGE153
是自适应的sigmoid函数。与逻辑回归类似,可以看到Hamming距离
Figure 225883DEST_PATH_IMAGE154
越小,余弦相似度
Figure 789588DEST_PATH_IMAGE155
以及条件概率
Figure 331428DEST_PATH_IMAGE156
就越大,这意味着图像对
Figure 971488DEST_PATH_IMAGE157
Figure 723412DEST_PATH_IMAGE158
应该被分类为相似。否则,条件概率
Figure 966174DEST_PATH_IMAGE159
就越大,意味着图像对
Figure 237887DEST_PATH_IMAGE157
Figure 907903DEST_PATH_IMAGE158
应该被归类为非相似。因此,方程(14)是逻辑回归分类器在成对分类情况下的合理扩展,对于二元相似度标签
Figure 147123DEST_PATH_IMAGE160
来说是最优的。
由于公式12的二元约束
Figure 193576DEST_PATH_IMAGE161
的离散优化非常具有挑战性,为了便于优化,对二元约束采用了连续松弛
Figure 319795DEST_PATH_IMAGE162
,这也是大多数哈希方法采用的方法。为了控制连续松弛的量化误差
Figure 816505DEST_PATH_IMAGE163
,缩小汉明距离和余弦距离之间的差距,以学习高质量的哈希码,提出了一个新的双模高斯先验
Figure 683966DEST_PATH_IMAGE119
,即公式16:
Figure 143898DEST_PATH_IMAGE164
其中
Figure 514836DEST_PATH_IMAGE165
是双模高斯分布的多样性参数,
Figure 385709DEST_PATH_IMAGE166
是具有规范
Figure 474888DEST_PATH_IMAGE167
的1的向量。
通过将方程14和15纳入方程12中的MAP估计,得到学习紧凑哈希码的哈希编码器
Figure 472931DEST_PATH_IMAGE047
的优化问题如下:
Figure 698376DEST_PATH_IMAGE168
其中
Figure 271309DEST_PATH_IMAGE050
是平衡公式16第一行和第二行的余弦交叉熵损失和第三行的余弦量化损失之间权重的参数。
实施例2:检索结果测试
本实施例在三个广泛使用的基准数据集上评估了所提出的哈希方法,包括CIFAR-10、NUS-WIDE和MS-COCO,这些数据集经常用于物体检测应用。NUS-WIDE是一个网络图像数据集,包括269648张图像和来自Flickr的相关标签。它有5018个独特的标签和81个地面真实的概念。在本发明中,随机抽取5000张图片作为查询点,其余的图片作为数据库,并从数据库中随机抽取10000张图片作为训练点。CIFAR-10是一个包含60,000张图片的10类数据集。随机选择每类100张图片作为查询集,每类500张图片作为训练集,其余的图片作为数据库。MS-COCO是一个最近在图像识别、分割和字幕领域被广泛使用的图像数据集。它包含82,783张训练图像和40,504张验证图像,其中每张图像都由80个语义概念中的某些概念来标注。随机抽取5,000张图片作为查询点,其余的作为数据库,并从数据库中随机抽取10,000张图片进行训练。
对比方法:
本实施例选用对八种最先进的监督哈希方法进行了广泛的实验,包括监督浅层哈希方法ITQ-CCA、SDH,以及监督深层哈希方法CNNH和DNNH。此外,在给出结论之前,深入研究了模型的设置细节,并展示了性能结果。
实验设置:
通过使用广泛认可的评估协议,用于哈希函数学习和地面真实评估的相似性测量是通过利用图像标签构建的:如果两幅图像至少共享一个标签,则认为它们相似,
Figure 582204DEST_PATH_IMAGE169
,否则认为不相似,
Figure 383938DEST_PATH_IMAGE170
对于传统的哈希方法,使用4096维的特征作为图像特征。对于深度哈希方法,使用原始图像作为输入,并采用VGG16作为骨干架构。遵循并采用四层ResNet架构作为本发明方法中的判别器和生成器,这被证明可以生成64×64像素的高质量图像。采用AlexNet作为哈希编码器,对所有层进行微调,但最后一层是从预训练的AlexNet中复制的。由于最后一层是从头开始训练的,将其学习率设定为低层的10倍。使用0.9动量的小批量随机梯度下降法(SGD)作为求解器,并用
Figure 729469DEST_PATH_IMAGE171
Figure 219442DEST_PATH_IMAGE172
的乘法步长为
Figure 17634DEST_PATH_IMAGE173
交叉验证学习率。将图像的小批量大小固定为256,权重衰减参数为0.0005。对手工制作的特征输入
Figure 623059DEST_PATH_IMAGE174
的维度进行交叉验证,观察到将这个超参数固定为32,就足以达到令人满意的结果。同时,鉴于
Figure 823096DEST_PATH_IMAGE174
的维度足够大,例如32,GDPSH对不同的维度不敏感。通过对训练数据进行交叉验证来选择所有比较方法的参数。
评估标准:
实验主要以两个标准评价指标进行评估。平均精度(MAP),精度-召回曲线(PR)。对于那些基于汉明排名的标准,它根据数据点与查询的汉明距离进行排名;对于为了与已公布的结果直接比较,所有方法都使用相同的训练集和测试集。遵循HashNet和DHN,对NUS-WIDE数据集采用MAP@5000,对MSCOCO数据集采用MAP@5000,而对CIFAR-10数据集采用MAP@54000。
表1显示了GDPSH和所有基线方法在MS-COCO、NUSWIDE和CIFAR-10上的结果,哈希代码数量从16到64不等。图2、图3和图4分别展示了在精度-召回曲线(PR)和精度曲线方面的检索性能,与不同的顶级返回样本数(P@N)有关。
表1 在三个图像数据集上,不同位数的汉明排序的平均均值精度(MAP)
Figure 472252DEST_PATH_IMAGE176
首先展示了本发明和所有基线方法在三个数据集上的不同哈希码长度的MAP值,作为全局评估。然后,在哈希码长度为32的情况下画出精度-召回和P@N曲线作为更全面的比较。为了研究哈希码长度的影响,本发明在哈希码长度为[16,32,48,64]的情况下对所提方法进行了评估,并在MAP评估中展示了结果。
从不同数据集看,本发明在检索时间上基本优于其他基于深度的哈希方法,明显优于传统哈希算法,在训练时间上和其他深度哈希方法相似。实验表明,本发明优于现有的图像检索模型,并能无缝生成高质量的二进制哈希代码。本发明能够通过最小优化机制中的反向传播进行端到端的训练。大量的实验表明,所提出的模型可以生成高质量的二进制哈希代码,并在三个数据集(NUS-WIDE、CIFAR-10和MS-COCO)上产生先进的多媒体检索性能(如图2、3和4所示)。

Claims (6)

1.一种基于结合生成对抗网络的哈希算法的大规模数据检索方法,其特征在于,该方法包括以下步骤:
S1:收集图片数据,并进行预处理,得到特征一;
S2:根据生成对抗网络对所述特征一进行处理;将上述获得的特征一并输入到对抗生成网络的生成器当中生成人工合成的图片;将该图片放入生成对抗网络的判别器当中,并用构造的交叉熵损失以及和真正图片的对抗损失来辅助训练,不断更新生成器以及判别器的网络参数,直到能够生成符合目标的人工合成图片;
S3:将S2中人工合成图片集和原始图片集相结合的融合数据集输入至卷积神经网络一,根据提出的目标损失函数来计算相似度矩阵;
S4:将所述融合数据集,以及所述相似度矩阵,输入至卷积神经网络二,根据提出的余弦交叉熵损失和量化损失来训练网络参数,最后得到效果满意的哈希编码,同样得到训练好的哈希架构GDPSH;
S5:待测数据集输入至S4训练好的哈希架构GDPSH进行处理,最后输出检索结果。
2.如权利要求1所述的大规模数据检索方法,其特征在于,所述S1中的预处理为:首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来,得到特征一。
3.如权利要求1所述的大规模数据检索方法,其特征在于,所述S2中的生成对抗网络中:
通过相似性嵌入的方法降低了点状监督信息
Figure 312198DEST_PATH_IMAGE002
的高维度,将与每个图像相关的相似性信息
Figure 236161DEST_PATH_IMAGE002
嵌入到一个低维向量
Figure DEST_PATH_IMAGE003
; 每个生成的点除了随机噪声
Figure 884180DEST_PATH_IMAGE004
之外,还有一个相应的嵌入向量
Figure DEST_PATH_IMAGE005
;生成器同时使用嵌入向量和随机噪声来生成每个图像,如
Figure 173079DEST_PATH_IMAGE006
;鉴别器给出两个概率分布:一个是合成与真实的
Figure DEST_PATH_IMAGE007
Figure 273759DEST_PATH_IMAGE008
,用于二元分类;另一个是所有图像对中相似与不相似的
Figure DEST_PATH_IMAGE009
Figure 407937DEST_PATH_IMAGE010
,用于配对分类; GAN的训练判别器的总损失为:
Figure 989091DEST_PATH_IMAGE012
其中C单独表示和判别器D共享前面网络层的概率网络,公式4第一行和第二行表示对抗损失,第三行和第四行是概率
Figure DEST_PATH_IMAGE013
和成对相似度
Figure 307946DEST_PATH_IMAGE014
之间的交叉熵损失。
4.如权利要求1所述的大规模数据检索方法,其特征在于,所述S3中:所述相似度矩阵的提取,以全面了解数据点的关系,然后在设计损失函数时帮助二进制代码生成方案顺利进行;定义一个相似性矩阵
Figure 708971DEST_PATH_IMAGE016
,如下是目标损失函数:
Figure 443578DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
Figure 879239DEST_PATH_IMAGE016
的第
Figure 182044DEST_PATH_IMAGE020
Figure 398262DEST_PATH_IMAGE021
列;当
Figure 936559DEST_PATH_IMAGE022
时,表示图像
Figure 820202DEST_PATH_IMAGE023
与图像
Figure 169274DEST_PATH_IMAGE024
相似;当
Figure 872788DEST_PATH_IMAGE025
时,表示图像
Figure 949198DEST_PATH_IMAGE023
与图像
Figure 952926DEST_PATH_IMAGE024
不相似;当
Figure 472900DEST_PATH_IMAGE026
时,表示图像
Figure 929289DEST_PATH_IMAGE023
与图像
Figure 419176DEST_PATH_IMAGE024
之间的相似度是模糊的;定义的
Figure 136465DEST_PATH_IMAGE016
可能是一个不对称的矩阵,为了确保对称性,进一步更新为
Figure 951975DEST_PATH_IMAGE016
,规则是:如果
Figure 36605DEST_PATH_IMAGE025
Figure 720396DEST_PATH_IMAGE027
,那么
Figure 433137DEST_PATH_IMAGE028
;如果
Figure 29335DEST_PATH_IMAGE029
Figure 194737DEST_PATH_IMAGE030
,那么
Figure 292006DEST_PATH_IMAGE031
;否则
Figure 249467DEST_PATH_IMAGE032
对于相似性模糊的图像对,即
Figure 875620DEST_PATH_IMAGE033
,进一步通过其特征的余弦相似度来定义它们的相似性;然后,得到最终的相似性矩阵
Figure 669264DEST_PATH_IMAGE035
,能够被表述为如下:
Figure 570224DEST_PATH_IMAGE037
因此,两幅图像之间的相似度可以分为三种类型:完全相似的
Figure 116611DEST_PATH_IMAGE038
,完全不相似的
Figure 179245DEST_PATH_IMAGE039
,以及部分相似的
Figure 319240DEST_PATH_IMAGE040
5.如权利要求1所述的大规模数据检索方法,其特征在于,所述S4中,构建了一个哈希编码器网络
Figure 899257DEST_PATH_IMAGE042
,它在贝叶斯框架下为合成图像和真实图像生成紧凑的哈希代码;哈希编码器F由三个部分组成:(1)深度卷积神经网络(CNN),用于为每个输入图像
Figure DEST_PATH_IMAGE043
学习深度紧凑的代码
Figure 108607DEST_PATH_IMAGE044
,其中
Figure 607722DEST_PATH_IMAGE043
可以是具有相似性信息的真实图像x或由具有相似性信息的PC-WGAN生成的合成图像
Figure 844799DEST_PATH_IMAGE046
;(2)余弦交叉熵损失用于相似性保存的哈希学习;(3)余弦量化损失用于控制量化误差。
6.如权利要求5所述的大规模数据检索方法,其特征在于,得到学习紧凑哈希码的哈希编码器
Figure 87562DEST_PATH_IMAGE048
的优化问题如下:
Figure 608542DEST_PATH_IMAGE050
其中
Figure 12978DEST_PATH_IMAGE052
是平衡公式16第一行和第二行的余弦交叉熵损失和第三行的余弦量化损失之间权重的参数。
CN202110756991.6A 2021-07-05 2021-07-05 基于结合生成对抗网络的哈希算法的大规模数据检索方法 Active CN113204522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110756991.6A CN113204522B (zh) 2021-07-05 2021-07-05 基于结合生成对抗网络的哈希算法的大规模数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110756991.6A CN113204522B (zh) 2021-07-05 2021-07-05 基于结合生成对抗网络的哈希算法的大规模数据检索方法

Publications (2)

Publication Number Publication Date
CN113204522A true CN113204522A (zh) 2021-08-03
CN113204522B CN113204522B (zh) 2021-09-24

Family

ID=77022762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110756991.6A Active CN113204522B (zh) 2021-07-05 2021-07-05 基于结合生成对抗网络的哈希算法的大规模数据检索方法

Country Status (1)

Country Link
CN (1) CN113204522B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357211A (zh) * 2021-12-24 2022-04-15 武汉理工大学 基于自适应分布均衡特征的对比学习哈希图像检索方法
CN114612988A (zh) * 2022-03-18 2022-06-10 齐鲁工业大学 基于改进的双向生成对抗网络的图像感知哈希方法及系统
CN118035424A (zh) * 2024-04-11 2024-05-14 四川大学 一种代码搜索方法、装置、电子设备及存储介质
CN118093911A (zh) * 2024-03-01 2024-05-28 南通大学 用于医学图像检索目标攻击的模糊Transformer哈希方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
US20190236614A1 (en) * 2018-01-29 2019-08-01 Accenture Global Solutions Limited Artificial intelligence counterfeit detection
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN111127385A (zh) * 2019-06-06 2020-05-08 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN112488231A (zh) * 2020-12-11 2021-03-12 北京工业大学 一种具有平衡相似性的余弦度量监督深度哈希算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190236614A1 (en) * 2018-01-29 2019-08-01 Accenture Global Solutions Limited Artificial intelligence counterfeit detection
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN111127385A (zh) * 2019-06-06 2020-05-08 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN112488231A (zh) * 2020-12-11 2021-03-12 北京工业大学 一种具有平衡相似性的余弦度量监督深度哈希算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUE C: "HashGAN: Deep Learning to Hash with Pair Conditional Wasserstein GAN", 《IEEE/CVF CONFERENCE ON COMPUTER VISION&PATTERN RECOGNITION》 *
彭晏飞: "基于哈希算法及生成对抗网络的图像检索", 《激光与光电子学进展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357211A (zh) * 2021-12-24 2022-04-15 武汉理工大学 基于自适应分布均衡特征的对比学习哈希图像检索方法
CN114357211B (zh) * 2021-12-24 2024-07-23 武汉理工大学 基于自适应分布均衡特征的对比学习哈希图像检索方法
CN114612988A (zh) * 2022-03-18 2022-06-10 齐鲁工业大学 基于改进的双向生成对抗网络的图像感知哈希方法及系统
CN118093911A (zh) * 2024-03-01 2024-05-28 南通大学 用于医学图像检索目标攻击的模糊Transformer哈希方法
CN118035424A (zh) * 2024-04-11 2024-05-14 四川大学 一种代码搜索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113204522B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN113204522B (zh) 基于结合生成对抗网络的哈希算法的大规模数据检索方法
Zhang et al. SSDH: Semi-supervised deep hashing for large scale image retrieval
Wang et al. RSNet: The search for remote sensing deep neural networks in recognition tasks
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN112417306B (zh) 基于知识图谱的推荐算法性能优化的方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Meng et al. A Fast Recognition Algorithm of Online Social Network Images Based on Deep Learning.
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN111460200B (zh) 基于多任务深度学习的图像检索方法、模型及其构建方法
CN110516098A (zh) 基于卷积神经网络及二进制编码特征的图像标注方法
Zeng et al. Pyramid hybrid pooling quantization for efficient fine-grained image retrieval
CN116738047A (zh) 一种基于多层聚合增强对比学习的会话推荐方法
Prabhakar et al. Performance analysis of hybrid deep learning models with attention mechanism positioning and focal loss for text classification
Zhao et al. Domain adaptation with feature and label adversarial networks
El Abyad et al. Deep Video Hashing Using 3DCNN with BERT.
CN117056609A (zh) 一种基于多层聚合增强对比学习的会话推荐方法
Siddiqua et al. Semantics-enhanced supervised deep autoencoder for depth image-based 3D model retrieval
Bao et al. HTRM: a hybrid neural network algorithm based on tag-aware
Zhang et al. Pairwise teacher-student network for semi-supervised hashing
Zhang et al. Towards one-size-fits-many: multi-context attention network for diversity of entity resolution tasks
Kumar et al. Analysis and fast feature selection technique for real-time face detection materials using modified region optimized convolutional neural network
Chen et al. Semi-supervised convolutional neural networks with label propagation for image classification
Zhu et al. Central similarity multi-view hashing for multimedia retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant