CN112948601A - 一种基于受控语义嵌入的跨模态哈希检索方法 - Google Patents

一种基于受控语义嵌入的跨模态哈希检索方法 Download PDF

Info

Publication number
CN112948601A
CN112948601A CN202110140102.3A CN202110140102A CN112948601A CN 112948601 A CN112948601 A CN 112948601A CN 202110140102 A CN202110140102 A CN 202110140102A CN 112948601 A CN112948601 A CN 112948601A
Authority
CN
China
Prior art keywords
semantic
network
kth
modal
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110140102.3A
Other languages
English (en)
Other versions
CN112948601B (zh
Inventor
孟敏
杨榕
武继刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110140102.3A priority Critical patent/CN112948601B/zh
Publication of CN112948601A publication Critical patent/CN112948601A/zh
Application granted granted Critical
Publication of CN112948601B publication Critical patent/CN112948601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,涉及跨模态信息检索的技术领域,解决了现有跨模态哈希检索方法无法实现公共子空间的语义解耦合的问题,首先确定带标签的多模态数据库;训练标签网络;对数据库中的每一种模态训练一个受控语义嵌入网络;根据数据库所有样本对应的标签,通过标签网络映射成语义向量,通过量化方法成二进制编码;查询阶段根据带标签的查询样本对应模态的受控语义嵌入网络映射成语义向量,计算查询样本的语义向量和数据库所有样本的二进制编码的非对称量化距离,按照从大到小排序返回检索结果;本发明能以可解释的方式学习具有受控语义结构的高度分离的公共语义向量,提高跨模态检索精度。

Description

一种基于受控语义嵌入的跨模态哈希检索方法
技术领域
本发明涉及跨模态信息检索的技术领域,更具体地,涉及一种基于受控语义嵌入的跨模态哈希检索方法。
背景技术
随着互联网时代的到来,越来越多人将自己的多媒体数据(如,图片、文本、视频、音频等)上传到网络上的数据库中进行存储,简单的将多媒体数据存储起来并不能产生经济效益,使得人们对跨不同模态数据的高效索引和检索产生了强烈的需求(如,听歌识曲、拍照搜货、截图搜电影等)。跨模态检索的定义是在不同的模态之间能够根据语义相似性进行检索的方式,可以解决上述问题。然而,跨模态检索本质上是一种排序问题:根据根据给定的查询样本,数据库中所有样本按照和查询样本的语义相似性进行排序,按照从大到小返回检索结果。在庞大的数据库中执行排序在效率上是不能被接受的,所以,为了解决多媒体数据在爆炸式增长的同时高效检索的问题,哈希作为跨模态检索的一个有希望的解决方案被应用。哈希指的是将数据库映射成二进制编码,利用哈希码的高效和低存储,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,实现高效检索。
建立跨模态检索的一个常见假设是一些信息在不同的模式之间共享。因此,跨模态获取丰富而有用的信息至关重要。然而,现有的监督方法都存在一个共同的缺陷,即没有合理地利用实例的语义信息,都是简单直接地将不同模态的特征表示映射到公共子空间中,在公共子空间中学习到的公共子空间表示高度纠缠。不同模式下的实例在其特征表示和分布上具有内在的异质性,这是发现跨模态关联的主要瓶颈。若未学习可解释的表示方法,现有的方法就无法弥合不同模态之间的差距。此外,现有的哈希方法在不考虑表示的可量化性的情况下,无法将量化误差最小化以生成高质量的二进制码。因此,提高潜在表示的可解释性和可量化性,以获得更准确的语义关联,生成更具区分性的哈希码具有重要意义。
当前,研究人员已经提出一些深度的有监督跨模态哈希检索方法,例如2019年,在计算机顶级会议Proceedings of the 27th{ACM}International Conference onMultimedia上的一篇文章《Separated Variational Hashing Networks for Cross-ModalRetrieval》中使用了条件变分自编码生成网络结合标签自监督语义网络,在一定程度上提高了检索精度,但由于该方法是标签自监督语义网络预先学习到语义空间特征表示的哈希码,然后使用变分子编码生成网络将其他模态的信息独立地映射到语义空间,该方法并没有对映射到语义空间的信息进行控制(例如图片模态蕴含的信息要比文本模态更多,不加以控制的映射到语义空间会使得其特征表示和分布上具有内在的异质性,丢失检索精度),因此,检索精度仍有待提高。
发明内容
为解决现有跨模态哈希检索方法无法实现公共子空间的语义解耦合的问题,导致检索精度低的后果,本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,能够以可解释的方式学习具有受控语义结构的高度分离的表示,提高跨模态检索精度。
为了达到上述技术效果,本发明的技术方案如下:
一种基于受控语义嵌入的跨模态哈希检索方法,至少包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;
S2.训练一个标签网络
Figure BDA0002928385970000021
Figure BDA0002928385970000022
表示标签网络的网络参数;
S3.令k=1;
S4.训练第k种模态的受控语义嵌入网络;
S5.判断k是否小于K,若是,令k的值增加1,返回执行步骤S4;否则,执行步骤S6;
S6.根据多模态数据库所有样本对应的标签,通过标签网络
Figure BDA0002928385970000023
映射成语义向量f,再通过量化方法成二进制编码B;
S7.执行查询阶段,跨模态哈希检索多模态数据库:对于不带标签的查询样本,确认查询样本所属的模态种类
Figure BDA0002928385970000024
Figure BDA0002928385970000025
通过第
Figure BDA0002928385970000026
种模态的受控语义嵌入网络映射成语义向量f,采用非对称量化距离作为相似性度量,计算查询样本的语义向量f和数据库所有样本的二进制编码B的非对称量化距离,按照从大到小排序返回检索结果。
优选地,所述K种模态包括图片模态、文本模态及视频模态。
优选地,步骤S1所述多模态数据库中第k种模态的所有样本表示为:
Figure BDA0002928385970000031
其中,VK表示多模态数据库中第k种模态的所有样本;
Figure BDA0002928385970000032
表示第k种模态的第i个样本;
第k种模态的所有样本对应的标签为:
Figure BDA0002928385970000033
其中,
Figure BDA0002928385970000034
表示第k种模态的第i个样本匹配的标签;Nk表示第k种模态的所有样本总数;多模态数据库中所有出现过的标签为
Figure BDA0002928385970000035
数据库中所有出现过的标签总数为:
Figure BDA0002928385970000036
优选地,步骤S2所述训练的标签网络
Figure BDA0002928385970000037
的目标函数为
Figure BDA0002928385970000038
表达式为:
Figure BDA0002928385970000039
其中,li、li均表示标签,当标签li和标签lj至少有一个类别相同时,Sij=1,否则,Sij=0;p(Sij|fi,fj)表示似然函数,表达式为:
Figure BDA00029283859700000310
其中,
Figure BDA00029283859700000311
是sigmoid函数;
Figure BDA00029283859700000312
表示语义向量fi与语义向量fj的内积;采用小批量随机梯度下降法训练,最小化
Figure BDA00029283859700000313
更新标签网络的网络参数
Figure BDA00029283859700000314
直至
Figure BDA00029283859700000315
收敛。
优选地,步骤S4所述训练的第k种模态的受控语义嵌入网络包括:
第k种模态的鉴别器
Figure BDA00029283859700000316
第k种鉴别器的网络参数为
Figure BDA00029283859700000317
给定第k种模态的样本vk后,输出语义向量f;
第k种模态的编码器
Figure BDA00029283859700000318
第k种模态的编码器的网络参数为
Figure BDA00029283859700000319
给定第k种模态的样本vk后,输出隐变量z;
第k种模态的解码器
Figure BDA0002928385970000041
第k种模态的解码器的网络参数为
Figure BDA0002928385970000042
给定隐变量z和语义向量f后,输出第k种模态的样本vk
其中,第k种模态的编码器
Figure BDA0002928385970000043
和第k种模态的解码器
Figure BDA0002928385970000044
组成第k种模态的条件变分自编码生成网络。
优选地,步骤S4所述训练第k种模态的受控语义嵌入网络的步骤包括:
S41.确定第k种模态的鉴别器
Figure BDA0002928385970000045
的目标函数表达式:
Figure BDA0002928385970000046
Figure BDA0002928385970000047
Figure BDA0002928385970000048
其中,p(vk,f)表示随机采样第k种模态的样本vk和样本匹配的标签lk经过标签网络
Figure BDA0002928385970000049
输出的语义向量f;p(z)表示从标准正态分布中随机采样隐变量z;p(f)表示随机采样标签网络输出的语义向量f;λu为第一预置可调参数;
Figure BDA00029283859700000410
表示目标函数
Figure BDA00029283859700000411
优化的目标是网络参数
Figure BDA00029283859700000412
Figure BDA00029283859700000413
符号表示数学期望;
S42.确定第k种模态的编码器
Figure BDA00029283859700000414
和第k种模态的解码器
Figure BDA00029283859700000415
的目标函数
Figure BDA00029283859700000416
表达式为:
Figure BDA00029283859700000417
Figure BDA00029283859700000418
Figure BDA00029283859700000419
Figure BDA00029283859700000420
Figure BDA00029283859700000421
其中,λc为第二预置可调参数;λreg为第三预置可调参数;λz为第四预置可调参数,需要根据具体情况做出调整;
Figure BDA0002928385970000051
表示第k种模态的编码器
Figure BDA0002928385970000052
的输出与标准正态分布p(z)之间的KL散度。
S43.采用小批量随机梯度下降法不断交替更新步骤S41和步骤S42,最小化
Figure BDA0002928385970000053
Figure BDA0002928385970000054
更新第k种模态的的受控语义嵌入网络的网络参数
Figure BDA0002928385970000055
直至
Figure BDA0002928385970000056
Figure BDA0002928385970000057
收敛。
优选地,步骤S6所述的量化方法的目标函数表示为
Figure BDA0002928385970000058
表达式为:
Figure BDA0002928385970000059
其中,s.t.表示约束条件;
Figure BDA00029283859700000519
表示字典矩阵;
Figure BDA00029283859700000520
表示二进制编码;N是数据库样本总数,M和D同时决定了字典的大小和二进制编码的长度,‖Bmi0=1表示约束向量Bmi的0范数等于1,Bmi∈{0,1}D表示约束向量Bmi为二进制。
在此,数据库中的样本因为有其对应的标签,所以数据库中第i个样本的语义向量fi可由标签网络
Figure BDA00029283859700000510
产生,然后通过目标函数表达式
Figure BDA00029283859700000511
将数据库所有N个样本量化成二进制编码;目标函数表达式
Figure BDA00029283859700000512
的作用是将语义向量分解成一个很小的字典矩阵和一个二进制编码,节约大量存储空间,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,二进制编码结合字典矩阵可以复原语义向量,实现高效检索。
优选地,M×D越小,压缩性能越好,同时误差变大。
优选地,量化方法的目标函数能使用迭代条件模式算法(ICM/iteratedconditional mode)求解。
优选地,步骤S7所述的非对称量化距离表示为AQD,表达式为:
Figure BDA00029283859700000513
其中,
Figure BDA00029283859700000514
表示第
Figure BDA00029283859700000515
种模态的查询样本;vi表示数据库的第i个样本;fq表示查询样本
Figure BDA00029283859700000516
通过第
Figure BDA00029283859700000517
种模态的受控语义嵌入网络中的第
Figure BDA00029283859700000518
种模态的鉴别器
Figure BDA0002928385970000061
输出的语义向量;
Figure BDA0002928385970000062
符号表示向量的内积。因为现实中查询样本不含有标签信息的,不能通过标签网络
Figure BDA0002928385970000063
生成语义向量进行检索,此时AQD可以解决该问题;AQD公式中
Figure BDA0002928385970000064
中总共只会产生M×D种结果,可以预先计算并存储在一个的M×D查找表中加速检索速度。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,引入了受控语义嵌入网络,合理地利用了不同模态的语义信息,不再简单直接地将不同模态的特征表示映射到公共语义空间中,而是通过构造鉴别器和编码器,分离样本中和检索相关的语义向量和和检索无关的特征,构造解码器确保以可解释的方式学习具有受控语义结构的高度分离的语义向量,使得公共语义空间中学习到的公共语义向量解耦合,提高潜在表示的可解释性和可量化性,以获得更准确的语义关联,生成更具区分性的哈希码,缓解模态之间的语义鸿沟带来的检索精度损失。
附图说明
图1表示本发明实施例中提出的基于受控语义嵌入的跨模态哈希检索方法的流程示意图;
图2表示本发明实施例中提出的基于受控语义嵌入的跨模态哈希检索方法的整体网络结构图;
图3表示传统无受控语义嵌入的多模态检索算法在MS-COCO2014数据集上的top5检索结果示意图;
图4表示利用本发明提出的方法在MS-COCO2014数据集上的top5检索结果示意图;
图5为本发明(CSE)与现有跨模态哈希方法(SVHNs)在MS-COCO2014数据集下的准确率(precision)-召回率(recall)的实验结果对比图,其中I2T表示图片(Image)检索文本(Text),T2I表示文本检索图片,16Bits表示将数据库量化成16位二进制编码长度;
图6为本发明(CSE)与现有跨模态哈希方法(SVHNs)在MS-COCO2014数据集下的准确率(precision)-样本数(N)的实验结果对比图,其中I2T表示图片(Image)检索文本(Text),T2I表示文本检索图片,16Bits表示将数据库量化成16位二进制编码长度。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
如图1所示的基于受控语义嵌入的跨模态哈希检索方法的流程示意图,参见图1,所述方法包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;在本实施例中,采用的多模态数据库为MS-COCO 2014;给定的MS-COCO 2014多媒体数据库含有2种模态:85000个图片样本,85000个文本样本,所有样本都有其对应的标签;标签总共含有80个类别;按照深度学习的训练方法,划分训练集(80000个图片样本和80000个文本样本)和测试集(5000个图片样本,5000个文本样本),训练集视作需要进行跨模态哈希检索的带标签的多模态数据库,测试集视作查询样本;第1种模态为图片,第2种模态为文本,多模态数据库中第k种模态的所有样本表示为:
Figure BDA0002928385970000071
其中,VK表示多模态数据库中第k种模态的所有样本;
Figure BDA0002928385970000072
表示第k种模态的第i个样本;
第k种模态的所有样本对应的标签为:
Figure BDA0002928385970000073
其中,
Figure BDA0002928385970000074
表示第k种模态的第i个样本匹配的标签;Nk表示第k种模态的所有样本总数;在本实施例中,N1=80000,N2=80000;多模态数据库中所有出现过的标签为
Figure BDA0002928385970000075
数据库中所有出现过的标签总数为:
Figure BDA0002928385970000081
S2.训练一个标签网络
Figure BDA0002928385970000082
Figure BDA0002928385970000083
表示标签网络的网络参数;标签网络的作用是给定标签l后,输出语义向量f;在本实施例中,标签网络
Figure BDA0002928385970000084
的具体结构构成如表1所示:
表1
Figure BDA0002928385970000085
训练的标签网络
Figure BDA0002928385970000086
的目标函数为
Figure BDA0002928385970000087
表达式为:
Figure BDA0002928385970000088
其中,li、li均表示标签,当标签li和标签lj至少有一个类别相同时,Sij=1,否则,Sij=0;p(Sij|fi,fj)表示似然函数,表达式为:
Figure BDA0002928385970000089
其中,
Figure BDA00029283859700000810
是sigmoid函数;
Figure BDA00029283859700000811
表示语义向量fi与语义向量fj的内积;采用小批量随机梯度下降法训练,最小化
Figure BDA00029283859700000812
更新标签网络的网络参数
Figure BDA00029283859700000813
直至
Figure BDA00029283859700000814
收敛。
S3.令k=1;
S4.训练第k种模态的受控语义嵌入网络;训练的第k种模态的受控语义嵌入网络包括:
第k种模态的鉴别器
Figure BDA0002928385970000091
第k种模态的鉴别器的网络参数为
Figure BDA0002928385970000092
第k种模态的鉴别器的作用是给定第k种模态的样本vk后,输出语义向量f;第k种模态的鉴别器
Figure BDA0002928385970000093
的作用是分离第k种模态样本中和检索相关的语义向量(例如,为了检索猫狗,图片中的猫狗属于和检索相关的语义向量);
第k种模态的编码器
Figure BDA0002928385970000094
第k种模态的编码器的网络参数为
Figure BDA0002928385970000095
第k种模态的编码器的作用是给定第k种模态的样本vk后,输出隐变量z;第k种模态的编码器
Figure BDA0002928385970000096
的作用是分离第k种模态样本中和检索无关的特征(例如,为了检索猫狗,图片中的背景属于和检索无关的特征);
第k种模态的解码器
Figure BDA0002928385970000097
第k种模态的解码器的网络参数为
Figure BDA0002928385970000098
第k种模态的解码器的作用是给定隐变量z和语义向量f后,输出第k种模态的样本vk;第k种模态的解码器
Figure BDA0002928385970000099
的作用是给定检索相关的语义向量和检索无关的特征能够生成和真实样本足够相似的样本(给定猫的特征,和背景的特征,k能够生成一张猫的图片),确保以可解释的方式学习具有受控语义结构的高度分离的语义向量;
其中,第k种模态的编码器
Figure BDA00029283859700000910
和第k种模态的解码器
Figure BDA00029283859700000911
组成第k种模态的条件变分自编码生成网络;
在本实施例中,第k=1种模态的鉴别器
Figure BDA00029283859700000912
具体构成如表2所示。
Figure BDA00029283859700000913
表2
第k=1种模态的编码器
Figure BDA0002928385970000101
具体构成如表3所示。
表3
Figure BDA0002928385970000102
第k=1种模态的解码器
Figure BDA0002928385970000103
具体构成如表4所示:
表4
Figure BDA0002928385970000104
训练第k种模态的受控语义嵌入网络的步骤包括:
S41.确定第k种模态的鉴别器
Figure BDA0002928385970000105
的目标函数表达式:
Figure BDA0002928385970000106
Figure BDA0002928385970000107
Figure BDA0002928385970000108
其中,p(vk,f)表示随机采样第k种模态的样本vk和样本匹配的标签lk经过标签网络
Figure BDA0002928385970000109
输出的语义向量f;p(z)表示从标准正态分布中随机采样隐变量z;p(f)表示随机采样标签网络输出的语义向量f;λu为第一预置可调参数;
Figure BDA0002928385970000111
表示目标函数
Figure BDA0002928385970000112
优化的目标是网络参数
Figure BDA0002928385970000113
Figure BDA0002928385970000114
符号表示数学期望;
S42.确定第k种模态的编码器
Figure BDA0002928385970000115
和第k种模态的解码器
Figure BDA0002928385970000116
的目标函数
Figure BDA0002928385970000117
表达式为:
Figure BDA0002928385970000118
Figure BDA0002928385970000119
Figure BDA00029283859700001110
Figure BDA00029283859700001111
Figure BDA00029283859700001112
其中,λc为第二预置可调参数;λreg为第三预置可调参数;λz为第四预置可调参数,需要根据具体情况做出调整;
Figure BDA00029283859700001113
表示第k种模态的编码器
Figure BDA00029283859700001114
的输出与标准正态分布p(z)之间的KL散度。
S43.采用小批量随机梯度下降法不断交替更新步骤S41和步骤S42,最小化
Figure BDA00029283859700001115
Figure BDA00029283859700001116
更新第k种模态的的受控语义嵌入网络的网络参数
Figure BDA00029283859700001117
直至
Figure BDA00029283859700001118
Figure BDA00029283859700001119
收敛。
S5.判断k是否小于K,若是,令k的值增加1,返回执行步骤S4;否则,执行步骤S6;
S6.根据多模态数据库所有样本对应的标签,通过标签网络
Figure BDA00029283859700001120
映射成语义向量f,再通过量化方法成二进制编码B;
步骤S6所述的量化方法的目标函数表示为
Figure BDA00029283859700001121
表达式为:
Figure BDA00029283859700001122
其中,s.t.表示约束条件;
Figure BDA00029283859700001216
表示字典矩阵;
Figure BDA00029283859700001217
表示二进制编码;N是数据库样本总数,M和D同时决定了字典的大小和二进制编码的长度,‖Bmi0=1表示约束向量Bmi的0范数等于1,Bmi∈{0,1}D表示约束向量Bmi为二进制。在本实施例中,设置D=256,M=2;,M×D越小,压缩性能越好,同时误差变大,量化方法的目标函数使用迭代条件模式算法(ICM/iterated conditional mode)求解。数据库中的样本因为有其对应的标签,所以数据库中第i个样本的语义向量fi可由标签网络
Figure BDA0002928385970000121
产生,然后通过目标函数表达式
Figure BDA0002928385970000122
将数据库所有N个样本量化成二进制编码;目标函数表达式
Figure BDA0002928385970000123
的作用是将语义向量分解成一个很小的字典矩阵和一个二进制编码,节约大量存储空间,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,二进制编码结合字典矩阵可以复原语义向量,实现高效检索。
S7.执行查询阶段,跨模态哈希检索多模态数据库:对于不带标签的查询样本,确认查询样本所属的模态种类
Figure BDA0002928385970000124
通过第
Figure BDA0002928385970000125
种模态的受控语义嵌入网络映射成语义向量f,采用非对称量化距离作为相似性度量,计算查询样本的语义向量f和数据库所有样本的二进制编码B的非对称量化距离,按照从大到小排序返回检索结果。
所述的非对称量化距离表示为AQD,表达式为:
Figure BDA0002928385970000126
其中,
Figure BDA0002928385970000127
表示第
Figure BDA0002928385970000128
种模态的查询样本;vi表示数据库的第i个样本;fq表示查询样本
Figure BDA0002928385970000129
通过第
Figure BDA00029283859700001210
种模态的受控语义嵌入网络中的第
Figure BDA00029283859700001211
种模态的鉴别器
Figure BDA00029283859700001212
输出的语义向量;
Figure BDA00029283859700001213
符号表示向量的内积。因为现实中查询样本不含有标签信息的,不能通过标签网络
Figure BDA00029283859700001214
生成语义向量进行检索,此时AQD可以解决该问题;AQD公式中
Figure BDA00029283859700001215
中总共只会产生M×D种结果,可以预先计算并存储在一个的M×D查找表中加速检索速度。
在本实施例中,实验平台可选择kaggle.com网站的notebook的GPU或TPU核心。图3表示传统无受控语义嵌入的多模态检索算法在MS-COCO2014数据集上的top5检索结果;在此所述的传统无受控语义嵌入的多模态检索算法为Separated Variational HashingNetworks for Cross-Modal Retrieval(SVHNs)多模态检索算法,图4表示利用本发明提出的基于受控语义嵌入的跨模态哈希检索方法在MS-COCO2014数据集上的top5检索结果;对于数据库中样本的编码,两者均使用16位的二进制编码长度;大拇指符号个数表示检索样本和查询样本标签相同的个数,通过图3与图4检索结果对比可以看到,使用本发明提出的基于受控语义嵌入的跨模态哈希检索方法检索效果明显比SVHNs多模态检索算法的效果好,比如对于对第二个查询样本,SVHNs识别出了图像中的橙色,所以返回了和橙色相关的文本,但是却没有返回和猫相关的文本。
图5为本实施例中MS-COCO2014数据库下编码长度取16位的准确率(precision)-召回率(recall)曲线图,纵轴表示准确率,横轴表示召回率。图中可见,本发明结果曲线与坐标轴所围的面积比在此所述的传统无受控语义嵌入的多模态检索算法(SVHNs)大,表示在编码长度取16位时,本发明的跨模态检索性能(图片检索文本I2T,文本检索图片T2I)更好。
图6为本实施例中MS-COCO2014数据库下编码长度取16位的准确率(precision)-样本数(N)曲线图,纵轴表示准确率,横轴表示召回率。图中可见,本发明结果曲线与坐标轴所围的面积比在此所述的传统无受控语义嵌入的多模态检索算法(SVHNs)大,表示在编码长度取16位时,本发明的跨模态检索性能(图片检索文本I2T,文本检索图片T2I)更好。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于受控语义嵌入的跨模态哈希检索方法,其特征在于,至少包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;
S2.训练一个标签网络
Figure FDA0002928385960000011
Figure FDA0002928385960000012
表示标签网络的网络参数;
S3.令k=1;
S4.训练第k种模态的受控语义嵌入网络;
S5.判断k是否小于K,若是,令k的值增加1,返回执行步骤S4;否则,执行步骤S6;
S6.根据多模态数据库所有样本对应的标签,通过标签网络
Figure FDA0002928385960000013
映射成语义向量f,再通过量化方法成二进制编码B;
S7.执行查询阶段,跨模态哈希检索多模态数据库:对于不带标签的查询样本,确认查询样本所属的模态种类
Figure FDA0002928385960000014
Figure FDA0002928385960000015
通过第
Figure FDA0002928385960000016
种模态的受控语义嵌入网络映射成语义向量f,采用非对称量化距离作为相似性度量,计算查询样本的语义向量f和数据库所有样本的二进制编码B的非对称量化距离,按照从大到小排序返回检索结果。
2.根据权利要求1所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,所述K种模态包括图片模态、文本模态及视频模态。
3.根据权利要求1所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S1所述多模态数据库中第k种模态的所有样本表示为:
Figure FDA0002928385960000017
其中,VK表示多模态数据库中第k种模态的所有样本;
Figure FDA0002928385960000018
表示第k种模态的第i个样本;
第k种模态的所有样本对应的标签为:
Figure FDA0002928385960000019
其中,
Figure FDA00029283859600000110
表示第k种模态的第i个样本匹配的标签;Nk表示第k种模态的所有样本总数;多模态数据库中所有出现过的标签为
Figure FDA00029283859600000111
数据库中所有出现过的标签总数为:
Figure FDA0002928385960000021
4.根据权利要求3所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S2所述训练的标签网络
Figure FDA0002928385960000022
的目标函数为
Figure FDA0002928385960000023
表达式为:
Figure FDA0002928385960000024
其中,li、li均表示标签,当标签li和标签lj至少有一个类别相同时,Sij=1,否则,Sij=0;p(Sij|fi,fj)表示似然函数,表达式为:
Figure FDA0002928385960000025
其中,
Figure FDA0002928385960000026
是sigmoid函数;
Figure FDA0002928385960000027
表示语义向量fi与语义向量fj的内积;采用小批量随机梯度下降法训练,最小化
Figure FDA0002928385960000028
更新标签网络的网络参数
Figure FDA00029283859600000219
直至
Figure FDA0002928385960000029
收敛。
5.根据权利要求4所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S4所述训练的第k种模态的受控语义嵌入网络包括:
第k种模态的鉴别器
Figure FDA00029283859600000210
第k种模态的鉴别器的网络参数为
Figure FDA00029283859600000211
给定第k种模态的样本vk后,输出语义向量f;
第k种模态的编码器
Figure FDA00029283859600000212
第k种模态的编码器的网络参数为
Figure FDA00029283859600000213
给定第k种模态的样本vk后,输出隐变量z;
第k种模态的解码器
Figure FDA00029283859600000214
第k种模态的解码器的网络参数为
Figure FDA00029283859600000215
给定隐变量z和语义向量f后,输出第k种模态的样本vk
其中,第k种模态的编码器
Figure FDA00029283859600000216
和第k种模态的解码器
Figure FDA00029283859600000217
组成第k种模态的条件变分自编码生成网络。
6.根据权利要求5所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S4所述训练第k种模态的受控语义嵌入网络的步骤包括:
S41.确定第k种模态的鉴别器
Figure FDA00029283859600000218
的目标函数表达式:
Figure FDA0002928385960000031
Figure FDA0002928385960000032
Figure FDA0002928385960000033
其中,p(vk,f)表示随机采样第k种模态的样本vk和样本匹配的标签lk经过标签网络
Figure FDA0002928385960000034
输出的语义向量f;p(z)表示从标准正态分布中随机采样隐变量z;p(f)表示随机采样标签网络输出的语义向量f;λu为第一预置可调参数;
Figure FDA0002928385960000035
表示目标函数
Figure FDA0002928385960000036
优化的目标是网络参数
Figure FDA0002928385960000037
Figure FDA0002928385960000038
符号表示数学期望;
S42.确定第k种模态的编码器
Figure FDA0002928385960000039
和第k种模态的解码器
Figure FDA00029283859600000310
的目标函数
Figure FDA00029283859600000311
表达式为:
Figure FDA00029283859600000312
Figure FDA00029283859600000313
Figure FDA00029283859600000314
Figure FDA00029283859600000315
Figure FDA00029283859600000316
其中,λc为第二预置可调参数;λreg为第三预置可调参数;λz为第四预置可调参数,需要根据具体情况做出调整;
Figure FDA00029283859600000317
表示第k种模态的编码器
Figure FDA00029283859600000318
的输出与标准正态分布p(z)之间的KL散度。
S43.采用小批量随机梯度下降法不断交替更新步骤S41和步骤S42,最小化
Figure FDA00029283859600000319
Figure FDA00029283859600000320
更新第k种模态的的受控语义嵌入网络的网络参数
Figure FDA00029283859600000321
直至
Figure FDA00029283859600000322
Figure FDA00029283859600000323
收敛。
7.根据权利要求6所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S6所述的量化方法的目标函数表示为
Figure FDA00029283859600000412
表达式为:
Figure FDA0002928385960000041
s.t.||Bmi||0=1,Bmi∈{0,1}D,i={1,…,N},m={1,…,M}.
其中,s.t.表示约束条件;
C=[C1,…,CD],Cm=[Cm1,…,CmD],
Figure FDA0002928385960000042
表示字典矩阵;
B=[B1,...,BM],Bi=[B1i,…,BMi],‖Bmi0=1,Bmi∈{0,1}D,
Figure FDA0002928385960000043
表示二进制编码;N是数据库样本总数,M和D同时决定了字典的大小和二进制编码的长度,‖Bmi0=1表示约束向量Bmi的0范数等于1,Bmi∈{0,1}D表示约束向量Bmi为二进制。
8.根据权利要求7所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,M×D越小,压缩性能越好,同时误差变大。
9.根据权利要求8所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,量化方法的目标函数能使用迭代条件模式算法求解。
10.根据权利要求9所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S7所述的非对称量化距离表示为AQD,表达式为:
Figure FDA0002928385960000044
其中,
Figure FDA0002928385960000045
表示第
Figure FDA0002928385960000046
种模态的查询样本;vi表示数据库的第i个样本;fq表示查询样本
Figure FDA0002928385960000047
通过第
Figure FDA0002928385960000048
种模态的受控语义嵌入网络中的第
Figure FDA0002928385960000049
种模态的鉴别器
Figure FDA00029283859600000410
输出的语义向量;
Figure FDA00029283859600000411
符号表示向量的内积。
CN202110140102.3A 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法 Active CN112948601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110140102.3A CN112948601B (zh) 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110140102.3A CN112948601B (zh) 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN112948601A true CN112948601A (zh) 2021-06-11
CN112948601B CN112948601B (zh) 2023-05-30

Family

ID=76241182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110140102.3A Active CN112948601B (zh) 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN112948601B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036373A (zh) * 2021-11-05 2022-02-11 北京百度网讯科技有限公司 搜索方法及装置、电子设备和存储介质
CN115048491A (zh) * 2022-06-18 2022-09-13 哈尔滨工业大学 在异构语义空间中基于假设检验的软件跨模态检索方法
CN115309927A (zh) * 2022-10-09 2022-11-08 中国海洋大学 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN115544024A (zh) * 2022-11-09 2022-12-30 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN118069920A (zh) * 2024-04-19 2024-05-24 湖北华中电力科技开发有限责任公司 一种面向海量多网络协议终端设备接入的数据采集系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIN MENG等: "Asymmetric Supervised Consistent and Specific Hashing for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON IMAGE PRECOSSING》 *
刘昊鑫;吴小俊;庾骏;: "联合哈希特征和分类器学习的跨模态检索算法", 模式识别与人工智能 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036373A (zh) * 2021-11-05 2022-02-11 北京百度网讯科技有限公司 搜索方法及装置、电子设备和存储介质
CN114036373B (zh) * 2021-11-05 2023-09-29 北京百度网讯科技有限公司 搜索方法及装置、电子设备和存储介质
CN115048491A (zh) * 2022-06-18 2022-09-13 哈尔滨工业大学 在异构语义空间中基于假设检验的软件跨模态检索方法
CN115048491B (zh) * 2022-06-18 2024-09-06 哈尔滨工业大学 在异构语义空间中基于假设检验的软件跨模态检索方法
CN115309927A (zh) * 2022-10-09 2022-11-08 中国海洋大学 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN115309927B (zh) * 2022-10-09 2023-02-03 中国海洋大学 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN115544024A (zh) * 2022-11-09 2022-12-30 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN115544024B (zh) * 2022-11-09 2023-03-24 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置
CN118069920A (zh) * 2024-04-19 2024-05-24 湖北华中电力科技开发有限责任公司 一种面向海量多网络协议终端设备接入的数据采集系统
CN118069920B (zh) * 2024-04-19 2024-07-09 湖北华中电力科技开发有限责任公司 一种面向海量多网络协议终端设备接入的数据采集系统

Also Published As

Publication number Publication date
CN112948601B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN112948601A (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN108984642B (zh) 一种基于哈希编码的印花织物图像检索方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN112417381B (zh) 应用于图像版权保护的快速定位侵权图像的方法及装置
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN110941958B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN111026887B (zh) 一种跨媒体检索的方法及系统
CN118171149B (zh) 标签分类方法、装置、设备、存储介质和计算机程序产品
CN112347284A (zh) 一种组合商标图像检索方法
CN112100413A (zh) 一种跨模态的哈希检索方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN114896434A (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN117171393A (zh) 一种面向多模态检索的自适应半配对询问哈希方法
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN113010690B (zh) 一种基于文本信息增强实体嵌入的方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant