CN112948601B - 一种基于受控语义嵌入的跨模态哈希检索方法 - Google Patents

一种基于受控语义嵌入的跨模态哈希检索方法 Download PDF

Info

Publication number
CN112948601B
CN112948601B CN202110140102.3A CN202110140102A CN112948601B CN 112948601 B CN112948601 B CN 112948601B CN 202110140102 A CN202110140102 A CN 202110140102A CN 112948601 B CN112948601 B CN 112948601B
Authority
CN
China
Prior art keywords
modality
semantic
kth
network
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110140102.3A
Other languages
English (en)
Other versions
CN112948601A (zh
Inventor
孟敏
杨榕
武继刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110140102.3A priority Critical patent/CN112948601B/zh
Publication of CN112948601A publication Critical patent/CN112948601A/zh
Application granted granted Critical
Publication of CN112948601B publication Critical patent/CN112948601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,涉及跨模态信息检索的技术领域,解决了现有跨模态哈希检索方法无法实现公共子空间的语义解耦合的问题,首先确定带标签的多模态数据库;训练标签网络;对数据库中的每一种模态训练一个受控语义嵌入网络;根据数据库所有样本对应的标签,通过标签网络映射成语义向量,通过量化方法成二进制编码;查询阶段根据带标签的查询样本对应模态的受控语义嵌入网络映射成语义向量,计算查询样本的语义向量和数据库所有样本的二进制编码的非对称量化距离,按照从大到小排序返回检索结果;本发明能以可解释的方式学习具有受控语义结构的高度分离的公共语义向量,提高跨模态检索精度。

Description

一种基于受控语义嵌入的跨模态哈希检索方法
技术领域
本发明涉及跨模态信息检索的技术领域,更具体地,涉及一种基于受控语义嵌入的跨模态哈希检索方法。
背景技术
随着互联网时代的到来,越来越多人将自己的多媒体数据(如,图片、文本、视频、音频等)上传到网络上的数据库中进行存储,简单的将多媒体数据存储起来并不能产生经济效益,使得人们对跨不同模态数据的高效索引和检索产生了强烈的需求(如,听歌识曲、拍照搜货、截图搜电影等)。跨模态检索的定义是在不同的模态之间能够根据语义相似性进行检索的方式,可以解决上述问题。然而,跨模态检索本质上是一种排序问题:根据根据给定的查询样本,数据库中所有样本按照和查询样本的语义相似性进行排序,按照从大到小返回检索结果。在庞大的数据库中执行排序在效率上是不能被接受的,所以,为了解决多媒体数据在爆炸式增长的同时高效检索的问题,哈希作为跨模态检索的一个有希望的解决方案被应用。哈希指的是将数据库映射成二进制编码,利用哈希码的高效和低存储,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,实现高效检索。
建立跨模态检索的一个常见假设是一些信息在不同的模式之间共享。因此,跨模态获取丰富而有用的信息至关重要。然而,现有的监督方法都存在一个共同的缺陷,即没有合理地利用实例的语义信息,都是简单直接地将不同模态的特征表示映射到公共子空间中,在公共子空间中学习到的公共子空间表示高度纠缠。不同模式下的实例在其特征表示和分布上具有内在的异质性,这是发现跨模态关联的主要瓶颈。若未学习可解释的表示方法,现有的方法就无法弥合不同模态之间的差距。此外,现有的哈希方法在不考虑表示的可量化性的情况下,无法将量化误差最小化以生成高质量的二进制码。因此,提高潜在表示的可解释性和可量化性,以获得更准确的语义关联,生成更具区分性的哈希码具有重要意义。
当前,研究人员已经提出一些深度的有监督跨模态哈希检索方法,例如2019年,在计算机顶级会议Proceedings of the 27th{ACM}International Conference onMultimedia上的一篇文章《Separated Variational Hashing Networks for Cross-ModalRetrieval》中使用了条件变分自编码生成网络结合标签自监督语义网络,在一定程度上提高了检索精度,但由于该方法是标签自监督语义网络预先学习到语义空间特征表示的哈希码,然后使用变分子编码生成网络将其他模态的信息独立地映射到语义空间,该方法并没有对映射到语义空间的信息进行控制(例如图片模态蕴含的信息要比文本模态更多,不加以控制的映射到语义空间会使得其特征表示和分布上具有内在的异质性,丢失检索精度),因此,检索精度仍有待提高。
发明内容
为解决现有跨模态哈希检索方法无法实现公共子空间的语义解耦合的问题,导致检索精度低的后果,本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,能够以可解释的方式学习具有受控语义结构的高度分离的表示,提高跨模态检索精度。
为了达到上述技术效果,本发明的技术方案如下:
一种基于受控语义嵌入的跨模态哈希检索方法,至少包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;
S2.训练一个标签网络
Figure GDA0004195006340000021
表示标签网络的网络参数;
S3.令k=1;
S4.训练第k种模态的受控语义嵌入网络;
S5.判断k是否小于K,若是,令k的值增加1,返回执行步骤S4;否则,执行步骤S6;
S6.根据多模态数据库所有样本对应的标签,通过标签网络
Figure GDA0004195006340000022
映射成语义向量f,再通过量化方法成二进制编码B;
S7.执行查询阶段,跨模态哈希检索多模态数据库:对于不带标签的查询样本,确认查询样本所属的模态种类
Figure GDA0004195006340000023
通过第/>
Figure GDA0004195006340000024
种模态的受控语义嵌入网络映射成语义向量f,采用非对称量化距离作为相似性度量,计算查询样本的语义向量f和数据库所有样本的二进制编码B的非对称量化距离,按照从大到小排序返回检索结果。
优选地,所述K种模态包括图片模态、文本模态及视频模态。
优选地,步骤S1所述多模态数据库中第k种模态的所有样本表示为:
Figure GDA0004195006340000031
其中,VK表示多模态数据库中第k种模态的所有样本;
Figure GDA0004195006340000032
表示第k种模态的第i个样本;
第k种模态的所有样本对应的标签为:
Figure GDA0004195006340000033
其中,
Figure GDA0004195006340000034
表示第k种模态的第i个样本匹配的标签;Nk表示第k种模态的所有样本总数;多模态数据库中所有出现过的标签为/>
Figure GDA0004195006340000035
数据库中所有出现过的标签总数为:
Figure GDA0004195006340000036
优选地,步骤S2所述训练的标签网络
Figure GDA0004195006340000037
的目标函数为/>
Figure GDA0004195006340000038
表达式为:
Figure GDA0004195006340000039
其中,li、li均表示标签,当标签li和标签lj至少有一个类别相同时,Sij=1,否则,Sij=0;p(Sij|fi,fj)表示似然函数,表达式为:
Figure GDA00041950063400000310
其中,
Figure GDA00041950063400000311
是sigmoid函数;/>
Figure GDA00041950063400000312
表示语义向量fi与语义向量fj的内积;采用小批量随机梯度下降法训练,最小化/>
Figure GDA00041950063400000313
更新标签网络的网络参数/>
Figure GDA00041950063400000314
直至/>
Figure GDA00041950063400000315
收敛。
优选地,步骤S4所述训练的第k种模态的受控语义嵌入网络包括:
第k种模态的鉴别器
Figure GDA00041950063400000316
第k种鉴别器的网络参数为/>
Figure GDA00041950063400000317
给定第k种模态的样本vk后,输出语义向量f;
第k种模态的编码器
Figure GDA00041950063400000318
第k种模态的编码器的网络参数为/>
Figure GDA00041950063400000319
给定第k种模态的样本vk后,输出隐变量z;
第k种模态的解码器
Figure GDA0004195006340000041
第k种模态的解码器的网络参数为/>
Figure GDA0004195006340000042
给定隐变量z和语义向量f后,输出第k种模态的样本vk
其中,第k种模态的编码器
Figure GDA0004195006340000043
和第k种模态的解码器/>
Figure GDA0004195006340000044
组成第k种模态的条件变分自编码生成网络。
优选地,步骤S4所述训练第k种模态的受控语义嵌入网络的步骤包括:
S41.确定第k种模态的鉴别器
Figure GDA0004195006340000045
的目标函数表达式:
Figure GDA0004195006340000046
Figure GDA0004195006340000047
Figure GDA0004195006340000048
其中,p(vk,f)表示随机采样第k种模态的样本vk和样本匹配的标签lk经过标签网络
Figure GDA0004195006340000049
输出的语义向量f;p(z)表示从标准正态分布中随机采样隐变量z;p(f)表示随机采样标签网络输出的语义向量f;λu为第一预置可调参数;/>
Figure GDA00041950063400000410
表示目标函数/>
Figure GDA00041950063400000411
优化的目标是网络参数/>
Figure GDA00041950063400000412
符号表示数学期望;
S42.确定第k种模态的编码器
Figure GDA00041950063400000413
和第k种模态的解码器
Figure GDA00041950063400000414
的目标函数/>
Figure GDA00041950063400000415
表达式为:
Figure GDA00041950063400000416
Figure GDA00041950063400000417
/>
Figure GDA00041950063400000418
Figure GDA00041950063400000419
Figure GDA00041950063400000420
其中,λc为第二预置可调参数;λreg为第三预置可调参数;λz为第四预置可调参数,需要根据具体情况做出调整;
Figure GDA0004195006340000051
表示第k种模态的编码器
Figure GDA0004195006340000052
的输出与标准正态分布p(z)之间的KL散度。
S43.采用小批量随机梯度下降法不断交替更新步骤S41和步骤S42,最小化
Figure GDA0004195006340000053
Figure GDA0004195006340000054
更新第k种模态的的受控语义嵌入网络的网络参数/>
Figure GDA0004195006340000055
直至/>
Figure GDA0004195006340000056
和/>
Figure GDA0004195006340000057
收敛。
优选地,步骤S6所述的量化方法的目标函数表示为
Figure GDA0004195006340000058
表达式为:
Figure GDA0004195006340000059
s.t.||Bmi||0=1,Bmi∈{0,1}D,i={1,...,N},m={1,...,M}.
其中,s.t.表示约束条件;
C=[C1,...,CD],Cm=[Cm1,...,CmD],
Figure GDA00041950063400000510
表示字典矩阵;
B=[B1,...,BM],Bi=[B1i,...,BMi],||Bmi||0=1,Bmi∈{0,1}D,
Figure GDA00041950063400000511
表示二进制编码;N是数据库样本总数,M和D同时决定了字典的大小和二进制编码的长度,||Bmi||0=1表示约束向量Bmi的0范数等于1,Bmi∈{0,1}D表示约束向量Bmi为二进制。
在此,数据库中的样本因为有其对应的标签,所以数据库中第i个样本的语义向量fi可由标签网络
Figure GDA00041950063400000512
产生,然后通过目标函数表达式/>
Figure GDA00041950063400000513
将数据库所有N个样本量化成二进制编码;目标函数表达式/>
Figure GDA00041950063400000514
的作用是将语义向量分解成一个很小的字典矩阵和一个二进制编码,节约大量存储空间,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,二进制编码结合字典矩阵可以复原语义向量,实现高效检索。
优选地,M×D越小,压缩性能越好,同时误差变大。
优选地,量化方法的目标函数能使用迭代条件模式算法(ICM/iteratedconditional mode)求解。
优选地,步骤S7所述的非对称量化距离表示为AQD,表达式为:
Figure GDA00041950063400000515
其中,
Figure GDA00041950063400000516
表示第/>
Figure GDA00041950063400000517
种模态的查询样本;vi表示数据库的第i个样本;fq表示查询样本
Figure GDA00041950063400000518
通过第/>
Figure GDA00041950063400000519
种模态的受控语义嵌入网络中的第/>
Figure GDA00041950063400000520
种模态的鉴别器/>
Figure GDA0004195006340000061
输出的语义向量;/>
Figure GDA0004195006340000062
符号表示向量的内积。因为现实中查询样本不含有标签信息的,不能通过标签网络/>
Figure GDA0004195006340000063
生成语义向量进行检索,此时AQD可以解决该问题;AQD公式中
Figure GDA0004195006340000064
中总共只会产生M×D种结果,可以预先计算并存储在一个的M×D查找表中加速检索速度。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于受控语义嵌入的跨模态哈希检索方法,引入了受控语义嵌入网络,合理地利用了不同模态的语义信息,不再简单直接地将不同模态的特征表示映射到公共语义空间中,而是通过构造鉴别器和编码器,分离样本中和检索相关的语义向量和和检索无关的特征,构造解码器确保以可解释的方式学习具有受控语义结构的高度分离的语义向量,使得公共语义空间中学习到的公共语义向量解耦合,提高潜在表示的可解释性和可量化性,以获得更准确的语义关联,生成更具区分性的哈希码,缓解模态之间的语义鸿沟带来的检索精度损失。
附图说明
图1表示本发明实施例中提出的基于受控语义嵌入的跨模态哈希检索方法的流程示意图;
图2表示本发明实施例中提出的基于受控语义嵌入的跨模态哈希检索方法的整体网络结构图;
图3为本发明(CSE)与现有跨模态哈希方法(SVHNs)在MS-COCO2014数据集下的准确率(precision)-召回率(recall)的实验结果对比图,其中I2T表示图片(Image)检索文本(Text),T2I表示文本检索图片,16Bits表示将数据库量化成16位二进制编码长度;
图4为本发明(CSE)与现有跨模态哈希方法(SVHNs)在MS-COCO2014数据集下的准确率(precision)-样本数(N)的实验结果对比图,其中I2T表示图片(Image)检索文本(Text),T2I表示文本检索图片,16Bits表示将数据库量化成16位二进制编码长度。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
如图1所示的基于受控语义嵌入的跨模态哈希检索方法的流程示意图,参见图1,所述方法包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;在本实施例中,采用的多模态数据库为MS-COCO 2014;给定的MS-COCO 2014多媒体数据库含有2种模态:85000个图片样本,85000个文本样本,所有样本都有其对应的标签;标签总共含有80个类别;按照深度学习的训练方法,划分训练集(80000个图片样本和80000个文本样本)和测试集(5000个图片样本,5000个文本样本),训练集视作需要进行跨模态哈希检索的带标签的多模态数据库,测试集视作查询样本;第1种模态为图片,第2种模态为文本,多模态数据库中第k种模态的所有样本表示为:
Figure GDA0004195006340000071
其中,VK表示多模态数据库中第k种模态的所有样本;
Figure GDA0004195006340000072
表示第k种模态的第i个样本;
第k种模态的所有样本对应的标签为:
Figure GDA0004195006340000073
其中,
Figure GDA0004195006340000074
表示第k种模态的第i个样本匹配的标签;Nk表示第k种模态的所有样本总数;在本实施例中,N1=80000,N2=80000;多模态数据库中所有出现过的标签为
Figure GDA0004195006340000075
数据库中所有出现过的标签总数为:
Figure GDA0004195006340000076
为160000种。
S2.训练一个标签网络
Figure GDA0004195006340000077
表示标签网络的网络参数;标签网络的作用是给定标签l后,输出语义向量f;在本实施例中,标签网络/>
Figure GDA0004195006340000078
的具体结构构成如表1所示:
表1
Figure GDA0004195006340000081
训练的标签网络
Figure GDA0004195006340000082
的目标函数为/>
Figure GDA0004195006340000083
表达式为:/>
Figure GDA0004195006340000084
其中,li、li均表示标签,当标签li和标签lj至少有一个类别相同时,Sij=1,否则,Sij=0;p(Sij|fi,fj)表示似然函数,表达式为:
Figure GDA0004195006340000085
其中,
Figure GDA0004195006340000086
是sigmoid函数;/>
Figure GDA0004195006340000087
表示语义向量fi与语义向量fj的内积;采用小批量随机梯度下降法训练,最小化/>
Figure GDA0004195006340000088
更新标签网络的网络参数θRl,直至/>
Figure GDA0004195006340000089
收敛。
S3.令k=1;
S4.训练第k种模态的受控语义嵌入网络;训练的第k种模态的受控语义嵌入网络包括:
第k种模态的鉴别器
Figure GDA00041950063400000810
第k种模态的鉴别器的网络参数为/>
Figure GDA00041950063400000811
第k种模态的鉴别器的作用是给定第k种模态的样本vk后,输出语义向量f;第k种模态的鉴别器
Figure GDA00041950063400000812
的作用是分离第k种模态样本中和检索相关的语义向量(例如,为了检索猫狗,图片中的猫狗属于和检索相关的语义向量);
第k种模态的编码器
Figure GDA0004195006340000091
第k种模态的编码器的网络参数为/>
Figure GDA0004195006340000092
第k种模态的编码器的作用是给定第k种模态的样本vk后,输出隐变量z;第k种模态的编码器
Figure GDA0004195006340000093
的作用是分离第k种模态样本中和检索无关的特征(例如,为了检索猫狗,图片中的背景属于和检索无关的特征);
第k种模态的解码器
Figure GDA0004195006340000094
第k种模态的解码器的网络参数为/>
Figure GDA0004195006340000095
第k种模态的解码器的作用是给定隐变量z和语义向量f后,输出第k种模态的样本vk;第k种模态的解码器/>
Figure GDA0004195006340000096
的作用是给定检索相关的语义向量和检索无关的特征能够生成和真实样本足够相似的样本(给定猫的特征,和背景的特征,k能够生成一张猫的图片),确保以可解释的方式学习具有受控语义结构的高度分离的语义向量;
其中,第k种模态的编码器
Figure GDA0004195006340000097
和第k种模态的解码器/>
Figure GDA0004195006340000098
组成第k种模态的条件变分自编码生成网络;
在本实施例中,第k=1种模态的鉴别器
Figure GDA0004195006340000099
具体构成如表2所示。/>
Figure GDA00041950063400000910
表2
第k=1种模态的编码器
Figure GDA00041950063400000911
具体构成如表3所示。
表3
Figure GDA00041950063400000912
Figure GDA0004195006340000101
第k=1种模态的解码器
Figure GDA0004195006340000102
具体构成如表4所示:
表4
Figure GDA0004195006340000103
/>
训练第k种模态的受控语义嵌入网络的步骤包括:
S41.确定第k种模态的鉴别器
Figure GDA0004195006340000104
的目标函数表达式:
Figure GDA0004195006340000105
Figure GDA0004195006340000106
Figure GDA0004195006340000107
其中,p(vk,f)表示随机采样第k种模态的样本vk和样本匹配的标签lk经过标签网络
Figure GDA0004195006340000108
输出的语义向量f;p(z)表示从标准正态分布中随机采样隐变量z;p(f)表示随机采样标签网络输出的语义向量f;λu为第一预置可调参数;/>
Figure GDA0004195006340000109
表示目标函数/>
Figure GDA00041950063400001010
优化的目标是网络参数/>
Figure GDA00041950063400001011
符号表示数学期望;
S42.确定第k种模态的编码器
Figure GDA00041950063400001012
和第k种模态的解码器
Figure GDA0004195006340000111
的目标函数/>
Figure GDA0004195006340000112
表达式为:
Figure GDA0004195006340000113
Figure GDA0004195006340000114
Figure GDA0004195006340000115
Figure GDA0004195006340000116
Figure GDA0004195006340000117
其中,λc为第二预置可调参数;λreg为第三预置可调参数;λz为第四预置可调参数,需要根据具体情况做出调整;
Figure GDA0004195006340000118
表示第k种模态的编码器
Figure GDA0004195006340000119
的输出与标准正态分布p(z)之间的KL散度。
S43.采用小批量随机梯度下降法不断交替更新步骤S41和步骤S42,最小化
Figure GDA00041950063400001110
Figure GDA00041950063400001111
更新第k种模态的的受控语义嵌入网络的网络参数/>
Figure GDA00041950063400001112
直至/>
Figure GDA00041950063400001113
和/>
Figure GDA00041950063400001114
收敛。
S5.判断k是否小于K,若是,令k的值增加1,返回执行步骤S4;否则,执行步骤S6;
S6.根据多模态数据库所有样本对应的标签,通过标签网络
Figure GDA00041950063400001115
映射成语义向量f,再通过量化方法成二进制编码B;
步骤S6所述的量化方法的目标函数表示为
Figure GDA00041950063400001116
表达式为:/>
Figure GDA00041950063400001117
s.t.||Bmi||0=1,Bmi∈{0,1}D,i={1,...,N},m={1,...,M}.
其中,s.t.表示约束条件;
C=[C1,...,CD],Cm=[Cm1,...,CmD],
Figure GDA00041950063400001118
表示字典矩阵;
B=[B1,...,BM],Bi=[B1i,...,BMi],||Bmi||0=1,Bmi∈{0,1}D,
Figure GDA00041950063400001119
表示二进制编码;N是数据库样本总数,M和D同时决定了字典的大小和二进制编码的长度,||Bmi||0=1表示约束向量Bmi的0范数等于1,Bmi∈{0,1}D表示约束向量Bmi为二进制。在本实施例中,设置D=256,M=2;,M×D越小,压缩性能越好,同时误差变大,量化方法的目标函数使用迭代条件模式算法(ICM/iterated conditional mode)求解。数据库中的样本因为有其对应的标签,所以数据库中第i个样本的语义向量fi可由标签网络/>
Figure GDA0004195006340000121
产生,然后通过目标函数表达式/>
Figure GDA0004195006340000122
将数据库所有N个样本量化成二进制编码;目标函数表达式/>
Figure GDA0004195006340000123
的作用是将语义向量分解成一个很小的字典矩阵和一个二进制编码,节约大量存储空间,使得整个数据库中的样本可以二进制编码的索引形式加载到内存之中,二进制编码结合字典矩阵可以复原语义向量,实现高效检索。
S7.执行查询阶段,跨模态哈希检索多模态数据库:对于不带标签的查询样本,确认查询样本所属的模态种类
Figure GDA00041950063400001214
通过第/>
Figure GDA00041950063400001215
种模态的受控语义嵌入网络映射成语义向量f,采用非对称量化距离作为相似性度量,计算查询样本的语义向量f和数据库所有样本的二进制编码B的非对称量化距离,按照从大到小排序返回检索结果。
所述的非对称量化距离表示为AQD,表达式为:
Figure GDA0004195006340000124
其中,
Figure GDA0004195006340000125
表示第/>
Figure GDA0004195006340000126
种模态的查询样本;vi表示数据库的第i个样本;fq表示查询样本
Figure GDA0004195006340000127
通过第/>
Figure GDA0004195006340000128
种模态的受控语义嵌入网络中的第/>
Figure GDA0004195006340000129
种模态的鉴别器/>
Figure GDA00041950063400001210
输出的语义向量;/>
Figure GDA00041950063400001211
符号表示向量的内积。因为现实中查询样本不含有标签信息的,不能通过标签网络/>
Figure GDA00041950063400001212
生成语义向量进行检索,此时AQD可以解决该问题;AQD公式中
Figure GDA00041950063400001213
中总共只会产生M×D种结果,可以预先计算并存储在一个的M×D查找表中加速检索速度。
在本实施例中,实验平台可选择kaggle.com网站的notebook的GPU或TPU核心。对于数据库中样本的编码,两者均使用16位的二进制编码长度;大拇指符号个数表示检索样本和查询样本标签相同的个数,使用本发明提出的基于受控语义嵌入的跨模态哈希检索方法检索效果明显比SVHNs多模态检索算法的效果好,比如对于对第二个查询样本,SVHNs识别出了图像中的橙色,所以返回了和橙色相关的文本,但是却没有返回和猫相关的文本。
图3为本实施例中MS-COCO2014数据库下编码长度取16位的准确率(precision)-召回率(recall)曲线图,纵轴表示准确率,横轴表示召回率。图中可见,本发明结果曲线与坐标轴所围的面积比在此所述的传统无受控语义嵌入的多模态检索算法(SVHNs)大,表示在编码长度取16位时,本发明的跨模态检索性能(图片检索文本I2T,文本检索图片T2I)更好。
图4为本实施例中MS-COCO2014数据库下编码长度取16位的准确率(precision)-样本数(N)曲线图,纵轴表示准确率,横轴表示召回率。图中可见,本发明结果曲线与坐标轴所围的面积比在此所述的传统无受控语义嵌入的多模态检索算法(SVHNs)大,表示在编码长度取16位时,本发明的跨模态检索性能(图片检索文本I2T,文本检索图片T2I)更好。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于受控语义嵌入的跨模态哈希检索方法,其特征在于,至少包括:
S1.确定待跨模态哈希检索的带标签的多模态数据库,多模态数据库包括K种模态,表示为1,…,k,…,K,其中,k表示第k种模态的种类序次;
S2.训练一个标签网络
Figure QLYQS_1
Figure QLYQS_2
表示标签网络的网络参数;
步骤S2所述训练的标签网络
Figure QLYQS_3
的目标函数为/>
Figure QLYQS_4
表达式为:
Figure QLYQS_5
其中,N表示数据库中所有出现过的标签总数,li、lj均表示标签,当标签li和标签lj至少有一个类别相同时,Sij=1,否则,Sij=0;p(Sij|fi,fj)表示似然函数,表达式为:
Figure QLYQS_6
其中,
Figure QLYQS_7
是sigmoid函数;/>
Figure QLYQS_8
表示语义向量fi与语义向量fj的内积;采用小批量随机梯度下降法训练,最小化/>
Figure QLYQS_9
更新标签网络的网络参数/>
Figure QLYQS_10
直至
Figure QLYQS_11
收敛;
S3.令k=1;
S4.训练第k种模态的受控语义嵌入网络;
步骤S4所述训练的第k种模态的受控语义嵌入网络包括:
第k种模态的鉴别器
Figure QLYQS_12
第k种模态的鉴别器的网络参数为/>
Figure QLYQS_13
给定第k种模态的样本vk后,输出语义向量f;
第k种模态的编码器
Figure QLYQS_14
第k种模态的编码器的网络参数为/>
Figure QLYQS_15
给定第k种模态的样本vk后,输出隐变量z;
第k种模态的解码器
Figure QLYQS_16
第k种模态的解码器的网络参数为/>
Figure QLYQS_17
给定隐变量z和语义向量f后,输出第k种模态的样本vk
其中,第k种模态的编码器
Figure QLYQS_18
和第k种模态的解码器/>
Figure QLYQS_19
组成第k种模态的条件变分自编码生成网络;
训练第k种模态的受控语义嵌入网络的步骤包括:
S41.确定第k种模态的鉴别器
Figure QLYQS_20
的目标函数表达式:
Figure QLYQS_21
Figure QLYQS_22
/>
Figure QLYQS_23
其中,p(vk,f)表示随机采样第k种模态的样本vk和样本匹配的标签lk经过标签网络
Figure QLYQS_24
输出的语义向量f;p(z)表示从标准正态分布中随机采样隐变量z;p(f)表示随机采样标签网络输出的语义向量f;λu为第一预置可调参数;/>
Figure QLYQS_25
表示目标函数/>
Figure QLYQS_26
优化的目标是网络参数/>
Figure QLYQS_27
Figure QLYQS_28
符号表示数学期望;
S42.确定第k种模态的编码器
Figure QLYQS_29
和第k种模态的解码器/>
Figure QLYQS_30
的目标函数/>
Figure QLYQS_31
表达式为:
Figure QLYQS_32
Figure QLYQS_33
Figure QLYQS_34
Figure QLYQS_35
Figure QLYQS_36
其中,λc为第二预置可调参数;λreg为第三预置可调参数;λz为第四预置可调参数,需要根据具体情况做出调整;
Figure QLYQS_37
表示第k种模态的编码器/>
Figure QLYQS_38
的输出与标准正态分布p(z)之间的KL散度;
S43.采用小批量随机梯度下降法不断交替更新步骤S41和步骤S42,最小化
Figure QLYQS_39
Figure QLYQS_40
更新第k种模态的受控语义嵌入网络的网络参数/>
Figure QLYQS_41
直至/>
Figure QLYQS_42
和/>
Figure QLYQS_43
收敛;
S5.判断k是否小于K,若是,令k的值增加1,返回执行步骤S4;否则,执行步骤S6;
S6.根据多模态数据库所有样本对应的标签,通过标签网络
Figure QLYQS_44
映射成语义向量f,再通过量化方法成二进制编码B;
步骤S6所述的量化方法的目标函数表示为
Figure QLYQS_45
表达式为:
Figure QLYQS_46
s.t.||Bmi||0=1,Bmi∈{0,1}D,i={1,...,N},m={1,...,M}.
其中,s.t.表示约束条件;
C=[C1,...,CD],Cm=[Cm1,...,CmD],
Figure QLYQS_47
表示字典矩阵;
B=[B1,...,BM],Bi=[B1i,...,BMi],||Bmi||0=1,Bmi∈{0,1}D,
Figure QLYQS_48
表示二进制编码;M和D同时决定了字典的大小和二进制编码的长度,||Bmi||0=1表示约束向量Bmi的0范数等于1,Bmi∈{0,1}D表示约束向量Bmi为二进制;
S7.执行查询阶段,跨模态哈希检索多模态数据库:对于不带标签的查询样本,确认查询样本所属的模态种类
Figure QLYQS_49
通过第/>
Figure QLYQS_50
种模态的受控语义嵌入网络映射成语义向量f,采用非对称量化距离作为相似性度量,计算查询样本的语义向量f和数据库所有样本的二进制编码B的非对称量化距离,按照从大到小排序返回检索结果。
2.根据权利要求1所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,所述K种模态包括图片模态、文本模态及视频模态。
3.根据权利要求1所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S1所述多模态数据库中第k种模态的所有样本表示为:
Figure QLYQS_51
其中,VK表示多模态数据库中第k种模态的所有样本;
Figure QLYQS_52
表示第k种模态的第i个样本;
第k种模态的所有样本对应的标签为:
Figure QLYQS_53
其中,
Figure QLYQS_54
表示第k种模态的第i个样本匹配的标签;Nk表示第k种模态的所有样本总数;多模态数据库中所有出现过的标签为/>
Figure QLYQS_55
数据库中所有出现过的标签总数为:
Figure QLYQS_56
4.根据权利要求1所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,M×D越小,压缩性能越好,同时误差变大。
5.根据权利要求4所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,量化方法的目标函数能使用迭代条件模式算法求解。
6.根据权利要求5所述的基于受控语义嵌入的跨模态哈希检索方法,其特征在于,步骤S7所述的非对称量化距离表示为AQD,表达式为:
Figure QLYQS_57
其中,
Figure QLYQS_58
表示第/>
Figure QLYQS_59
种模态的查询样本;vi表示数据库的第i个样本;fq表示查询样本/>
Figure QLYQS_60
通过第/>
Figure QLYQS_61
种模态的受控语义嵌入网络中的第/>
Figure QLYQS_62
种模态的鉴别器/>
Figure QLYQS_63
输出的语义向量;/>
Figure QLYQS_64
符号表示向量的内积。/>
CN202110140102.3A 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法 Active CN112948601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110140102.3A CN112948601B (zh) 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110140102.3A CN112948601B (zh) 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN112948601A CN112948601A (zh) 2021-06-11
CN112948601B true CN112948601B (zh) 2023-05-30

Family

ID=76241182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110140102.3A Active CN112948601B (zh) 2021-02-02 2021-02-02 一种基于受控语义嵌入的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN112948601B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036373B (zh) * 2021-11-05 2023-09-29 北京百度网讯科技有限公司 搜索方法及装置、电子设备和存储介质
CN115309927B (zh) * 2022-10-09 2023-02-03 中国海洋大学 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN115544024B (zh) * 2022-11-09 2023-03-24 北京声迅电子股份有限公司 一种基于公共语义字段的数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Asymmetric Supervised Consistent and Specific Hashing for Cross-Modal Retrieval;Min Meng等;《IEEE Transactions on Image Precossing》;986-1000 *
联合哈希特征和分类器学习的跨模态检索算法;刘昊鑫;吴小俊;庾骏;;模式识别与人工智能(第02期);69-74 *

Also Published As

Publication number Publication date
CN112948601A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
WO2020244437A1 (zh) 图像处理方法、装置及计算机设备
US20200311467A1 (en) Generating multi modal image representation for an image
US20230039496A1 (en) Question-and-answer processing method, electronic device and computer readable medium
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
Watanabe et al. A new pattern representation scheme using data compression
CN113742471B (zh) 一种普法问答系统的向量检索式对话方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN116662582B (zh) 基于自然语言的特定领域业务知识检索方法及检索装置
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN114911958B (zh) 一种基于语义偏好的快速图像检索方法
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN115885274A (zh) 跨模态检索方法、跨模态检索模型的训练方法及相关设备
CN115617956A (zh) 一种基于多模态注意力图谱的专利检索方法及系统
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113010690B (zh) 一种基于文本信息增强实体嵌入的方法
CN115687625B (zh) 文本分类方法、装置、设备及介质
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN115309929A (zh) 一种非线性语义保持跨模态哈希检索方法及系统
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
CN114329181A (zh) 一种题目推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant