CN109766455B - 一种有鉴别的全相似性保留哈希跨模态检索方法 - Google Patents
一种有鉴别的全相似性保留哈希跨模态检索方法 Download PDFInfo
- Publication number
- CN109766455B CN109766455B CN201811358982.6A CN201811358982A CN109766455B CN 109766455 B CN109766455 B CN 109766455B CN 201811358982 A CN201811358982 A CN 201811358982A CN 109766455 B CN109766455 B CN 109766455B
- Authority
- CN
- China
- Prior art keywords
- hash
- text
- image
- similarity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明属于模式识别技术领域,涉及考虑保持模态间及模态内数据相似性的同时,保持数据特征向量间的鉴别力度,具体为一种有鉴别的全相似性保留哈希跨模态检索方法。
背景技术
近几十年来,互联网多媒体数据的爆炸性增长,使得跨媒体数据检索需求增长,并且促进了复杂多模态检索技术的发展。
处于现在这个信息的时代,多媒体数据往往来自不同的互联网多媒体平台以及不同的数据资源。这些数据经常共同出现且被用来描述同一物体和事件,因此跨模态检索在实际应用中已经成为必要。为了消除不同模态特征之间的多样性,现有很多研究把关注点放在对潜在子空间的学习上,具体研究的关键点是如何通过学习得到一个共同的语义子空间,能够使得不同模态之间的异构性得到消除,从而使得这些特征在这个学习得到的子空间中能被直接相互匹配;但是这些研究由于忽视了特征维度的可伸缩性,在解决大规模数据的多模态检索时这些方法受到了限制;即传统的跨模态检索方法大都只考虑保留模态内数据的相似性,而忽略了模态间数据相似性的保留,并且在保留相似性的同时破坏了数据之间本身的鉴别力。
发明内容
本发明的主要目的在于针对现有技术中对跨模检索无法保留模态间数据相似性以及会破坏模态间数据之间本身鉴别力的问题,提供一种有鉴别的全相似性保留哈希跨模态检索方法,本发明假设有两种模态的训练数据V={v1,...,vn}和T={t1,...,tn},它们分别是同一对象的两种表示模态,这里的n指代训练样本的个数,具体技术方案如下:
一种有鉴别的全相似性保留哈希跨模态检索方法,所述方法包括步骤:
S1、由图像文本对组成样本构成数据集,并将所述数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;
S2、提取所述训练集中具有双模态的数据,基于所述数据构造有鉴别的全相似性保留哈希的目标函数:
,其中,T为文本特征矩阵,PT为文本特征矩阵对应的文本特征投影矩阵,V为图像特征矩阵,PV为图像特征矩阵对应的图像特征投影矩阵,Y为标签矩阵,W为线性分类器,S为语义特征矩阵,L为保留相似性的图拉普拉斯矩阵,γ,μT,μV,λ均为折衷参数;
S3、设定一阈值,采用迭代法求解所述目标函数,判断每一迭代过程中所述目标函数的解,若所述解小于或等于所述阈值,则停止迭代,并更新PV,PT,S和W;
S4、基于所述目标函数的迭代解采用公式H=sign(S)计算训练集哈希码;
S5、利用所述更新得到的PV和PT对所述训练集进行投影变换,将投影变换后得到的矩阵作为图像文本语义特征矩阵,使用公式H=sign(S)计算测试集哈希码;
S7、升序排列和并根据排列结果查询到所述文本和图像在模态中对应的索引,并按照相关度排名后取前r个作为检索结果,并基于所述模态双模态数据的标签信息对r个所述检索结果进行mAP值计算,完成图像文本对的跨模态检索。
进一步的,步骤S3中,所述目标函数采用迭代法求解具体包括步骤:
S31、随机初始化PV,PT,S,W确定哈希码长度k;
S35、更新PV,PT,S,W。
进一步的,所述折衷参数λ的取值范围为[10-5,1]。
进一步的,所述折衷参数γ的取值范围为[0,2]。
进一步的,所述折衷参数μT和μV的取值范围均为[1,200]。
进一步的,所述方法还包括通过公式和公式计算平均的平均精度指标评估,其中,qi是一条检索输入,N是检索条目输入总数;T是检索集中所有相关实体的个数,Pq(r)是按照相关度排名后的前r个检索实体的精度;ξ(r)是一个指标函数,当第r个被检索到的实体与检索内容标签一致则ξ(r)的值为1,否则为0。
本发明的有鉴别的全相似性保留哈希跨模态检索方法,首先采集文本-图片作为数据集,并将数据集分为训练集和测试集;然后提取训练集中具有双模态的数据构造有鉴别的全相似性保留哈希的目标函数,并采用迭代法求解目标函数,将得到的目标函数解与一设定阈值比较,同时通过指定公式计算哈希码;接着获取图像文本语义特征矩阵,并再次计算哈希码;随后计算测试集中每个图像哈希码与训练集中每个文本哈希码之间的距离以及测试集中每个文本哈希码与训练集中所有图像哈希码之间的距离;最后对两种距离进行升序排序,并对其中指定数量的检索结果进行精度计算,完成文本-图像的跨模态检索;与现有技术相比,本发明的有益效果为:本发明在基于哈希的跨模态检索中,充分利用了数据特征模态内及模态内相似性约束条件,将其与线性分类框架融合学习,使得同一样本的文本-图像数据在经过投影变换到汉明空间中的语义特征矩阵保持了原始数据之间的鉴别力的同时,也保留了数据间的相似性;从而使得检索精度有所提高;同时由于哈希技术的应用减少了跨模态检索在时间和空间存储上的消耗,有利于检索速度的提升。
附图说明
图1为本发明实施例中所述有鉴别的全相似性保留哈希跨模态检索方法流程图示意。
图2为本发明实施例中所述目标函数的迭代求解流程框图示意。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参阅图1,在本发明实施例中,提供了一种有鉴别的全相似性保留哈希跨模态检索方法,所述方法包括步骤:
S1、由图像文本对组成样本构成数据集,并将数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;具体的,本发明的方法通过在MATLAB上对每一样本中的文本和图像进行规整和均一化处理。
S2、提取训练集中具有双模态的数据,基于数据构造有鉴别的全相似性保留哈希的目标函数:
其中,T为文本特征矩阵,PT为文本特征矩阵对应的文本特征投影矩阵,V为图像特征矩阵,PV为图像特征矩阵对应的图像特征投影矩阵,Y为标签矩阵,W为线性分类器,S为语义特征矩阵,L为保留相似性的图拉普拉斯矩阵,γ,μT,μV,λ均为折衷参数;
具体的,首先通过两种线性变换映射原始图像和文本特征到潜在语义空间SV=PVV和ST=PTT;然后,基于相同对象不同模态的数据具有相同语义表示的假设,本发明通过最小化以下函数来求解两个线性变化矩阵:
随后,原始多模态数据特征可以区分分类,为了通过本发明的方法能够更加清晰地区分不同类别的二值代码,本发明希望得到的二值代码是能够反映这一特性的代表性特征;但是,如果二值代码有足够的鉴别力的话,那么它就能够通过它们的原始标签被分类;因此假设给定第i个目标的标签向量yi,然后可用一个线性分类器W∈Rk×c来预测二值代码的标签向量,即Y=WTS;其中,本发明的方法用最小化函数来求解;
,其中,gij=sij v+sij t+cij;将得到的全相似性项重新规整得到:
最后得到规整后的目标函数为:
S3、设定一阈值,采用迭代法求解目标函数,判断每一迭代过程中目标函数的解,若解小于或等于所述阈值,则停止迭代,并更新PV,PT,S和W;
具体的,使用迭代法求解目标函数的具体过程为:
先随机初始化PV,PT,S,W确定哈希码长度k;然后固定S,W,并令得求解得:并固定PV,PT,S令得求解得:W=(SST+λI)-1SYT;同时,固定PV,PT,W令得整理得:AS+SB+E=0,其中,A=2(WWT+(μV+μT)I),B=L+LT,E=-2(WT+μVPVV+μTPTT);最后,更新PV,PT,S,W;为希尔维斯特方程,本发明方法采用MATLAB的李雅普诺夫函数对其进行求解,当然,本发明并未对此进行限制和固定,可根据实际情况进行选择合适的求解方式。
S4、基于目标函数的迭代解采用公式H=sign(S)计算训练数据哈希码。
S5、利用更新得到的PV和PT对测试集进行投影变换,将投影变换后得到的矩阵作为图像文本语义特征矩阵,并再次使用公式H=sign(S)计算测试数据哈希码。
S6、计算测试集中每个图像哈希码与训练集中所有文本哈希码之间的汉明距离D1,以及测试集每个文本哈希码与训练集中所有图像哈希码之间的汉明距离D2。
S7、升序排列D1和D2,并根据排列结果查询到文本和图像在模态中对应的索引,并按照相关度排名后取前r个作为检索结果,并基于双模态数据的标签信息对r个检索结果进行精度计算,完成图像文本对的跨模态检索。
本发明的方法包括通过公式和公式计算平均的平均精度(mean Average Precision,mAP)指标评估,其中,qi是一条检索输入,N是检索条目输入总数;T是检索集中所有相关实体的个数,Pq(r)是按照相关度排名后的前r个检索实体的精度;ξ(r)是一个指标函数,当第r个被检索到的实体与检索内容标签一致则ξ(r)的值为1,否则为0。
本发明利用在包含十个语义分类的Wiki数据集和NUS-WIDE数据集中挑选的文本和图像数据来完成具体的操作,具体的,随机抽取Wiki数据集中的2173个数据对作为训练集,将剩余的693个数据对作为测试集;从NUS-WIDE数据集中挑选包含186577张前十类的图片作为实验数据;其中,对于所挑选的数据集,本发明实施例中随机地挑选5000张图像文本对作为训练集,然后在剩余数据中再随机挑选1866图像文本对作为测试集。
参阅表一和表二,本发明的方法将有鉴别的全相似性保留哈希跨模态检索方法和其他五个对比算法对比在不同哈希码长度下都具有较好的mAP值;由此说明本发明通过有鉴别的全相似性保留哈希跨模态检索方法能够挖掘到更多的鉴别信息来提升跨模态检索性能,可通过利用益于标签信息保留跨模态数据之间的相似性,通过线性分类器来提高哈希码的鉴别力;同时,本发明在哈希码比较短的16位时,本发明通过有鉴别的全相似性保留哈希跨模态检索方法相较于采用SMFH算法可取得更好的mAP值,说明本发明的方法可从实质上改善跨模态检索的效果,提升检索精度。
表一.Wiki数据集上的mAP值
表二.NUS-WIDE数据集上mAP值
本发明的有鉴别的全相似性保留哈希跨模态检索方法,首先采集文本-图片作为数据集,并将数据集分为训练集和测试集;然后提取训练集中具有双模态的数据构造有鉴别的全相似性保留哈希的目标函数,并采用迭代法求解目标函数,将得到的目标函数解与一设定阈值比较,同时通过指定公式计算哈希码;接着获取图像文本语义特征矩阵,并再次计算哈希码;随后计算测试集中每个图像哈希码与训练集中每个文本哈希码之间的距离以及测试集中每个文本哈希码与训练集中所有图像哈希码之间的距离;最后对两种距离进行升序排序,并对其中指定数量的检索结果进行精度计算,完成文本-图像的跨模态检索;与现有技术相比,本发明的有益效果为:本发明在基于哈希的跨模态检索中,充分利用了数据特征模态内及模态内相似性约束条件,将其与线性分类框架融合学习,使得同一样本的文本-图像数据在经过投影变换到汉明空间中的语义特征矩阵保持了原始数据之间的鉴别力的同时,也保留了数据间的相似性;从而使得检索精度有所提高;同时由于哈希技术的应用减少了跨模态检索在时间和空间存储上的消耗,有利于检索速度的提升。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。
Claims (5)
1.一种有鉴别的全相似性保留哈希跨模态检索方法,其特征在于,所述方法包括步骤:
S1、由图像文本对组成样本构成数据集,并将所述数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;
S2、提取所述训练集中具有双模态的数据,基于所述数据构造有鉴别的全相似性保留哈希的目标函数:
,其中,T为文本特征矩阵,PT为文本特征矩阵对应的文本特征投影矩阵,V为图像特征矩阵,PV为图像特征矩阵对应的图像特征投影矩阵,Y为标签矩阵,W为线性分类器,S为语义特征矩阵,L为保留相似性的图拉普拉斯矩阵,γ,μT,μV,λ均为折衷参数;
S3、设定一阈值,采用迭代法求解所述目标函数,判断每一迭代过程中所述目标函数的解,若所述解小于或等于所述阈值,则停止迭代,并更新PV,PT,S和W;
所述目标函数采用迭代法求解具体包括步骤:
S31、随机初始化PV,PT,S,W确定哈希码长度k;
S35、更新PV,PT,S,W;
S4、基于所述目标函数的迭代解采用公式H=sign(S)计算训练集哈希码;
S5、利用所述更新得到的PV和PT对所述训练集进行投影变换,将投影变换后得到的矩阵作为图像文本语义特征矩阵,使用公式H=sign(S)计算测试集哈希码;
2.根据权利要求1所述的有鉴别的全相似性保留哈希跨模态检索方法,其特征在于,所述折衷参数λ的取值范围为[10-5,1]。
3.根据权利要求1所述的有鉴别的全相似性保留哈希跨模态检索方法,其特征在于,所述折衷参数γ的取值范围为[0,2]。
4.根据权利要求1所述的有鉴别的全相似性保留哈希跨模态检索方法,其特征在于,所述折衷参数μT和μV的取值范围均为[1,200]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358982.6A CN109766455B (zh) | 2018-11-15 | 2018-11-15 | 一种有鉴别的全相似性保留哈希跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358982.6A CN109766455B (zh) | 2018-11-15 | 2018-11-15 | 一种有鉴别的全相似性保留哈希跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109766455A CN109766455A (zh) | 2019-05-17 |
CN109766455B true CN109766455B (zh) | 2021-09-24 |
Family
ID=66449119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811358982.6A Active CN109766455B (zh) | 2018-11-15 | 2018-11-15 | 一种有鉴别的全相似性保留哈希跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766455B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444325B (zh) * | 2020-03-30 | 2023-06-20 | 湖南工业大学 | 一种位置编码单次随机置换哈希度量文档相似度的方法 |
CN112199520B (zh) * | 2020-09-19 | 2022-07-22 | 复旦大学 | 基于细粒度相似性矩阵的跨模态哈希检索算法 |
CN112988976A (zh) * | 2021-04-21 | 2021-06-18 | 百度在线网络技术(北京)有限公司 | 搜索方法、搜索装置、电子设备、存储介质和程序产品 |
CN113326390B (zh) * | 2021-08-03 | 2021-11-02 | 中国海洋大学 | 基于深度特征一致哈希算法的图像检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
CN107256271A (zh) * | 2017-06-27 | 2017-10-17 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107402993A (zh) * | 2017-07-17 | 2017-11-28 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
CN107729513A (zh) * | 2017-10-25 | 2018-02-23 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN108595688A (zh) * | 2018-05-08 | 2018-09-28 | 鲁东大学 | 基于在线学习的潜在语义跨媒体哈希检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8463053B1 (en) * | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
-
2018
- 2018-11-15 CN CN201811358982.6A patent/CN109766455B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
CN107256271A (zh) * | 2017-06-27 | 2017-10-17 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107402993A (zh) * | 2017-07-17 | 2017-11-28 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
CN107729513A (zh) * | 2017-10-25 | 2018-02-23 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN108595688A (zh) * | 2018-05-08 | 2018-09-28 | 鲁东大学 | 基于在线学习的潜在语义跨媒体哈希检索方法 |
Non-Patent Citations (1)
Title |
---|
基于潜在语义的双层图像-文本多模态检索语义网络;董永亮等;《计算机工程》;20160731;第42卷(第7期);299-303、309 * |
Also Published As
Publication number | Publication date |
---|---|
CN109766455A (zh) | 2019-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Unsupervised semantic-preserving adversarial hashing for image search | |
CN109766455B (zh) | 一种有鉴别的全相似性保留哈希跨模态检索方法 | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
Li et al. | Weakly supervised deep matrix factorization for social image understanding | |
Shen et al. | Multiview discrete hashing for scalable multimedia search | |
CN110059198B (zh) | 一种基于相似性保持的跨模态数据的离散哈希检索方法 | |
Li et al. | Unsupervised streaming feature selection in social media | |
Bachrach et al. | Speeding up the xbox recommender system using a euclidean transformation for inner-product spaces | |
Wu et al. | Semi-supervised nonlinear hashing using bootstrap sequential projection learning | |
Zhu et al. | Sparse hashing for fast multimedia search | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
US11972329B2 (en) | Method and system for similarity-based multi-label learning | |
US20080281764A1 (en) | Machine Learning System | |
Pedronette et al. | Exploiting pairwise recommendation and clustering strategies for image re-ranking | |
Zhang et al. | Social image tagging using graph-based reinforcement on multi-type interrelated objects | |
WO2013129580A1 (ja) | 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム | |
CN101710334A (zh) | 基于图像哈希的大规模图像库检索方法 | |
Ayache et al. | Evaluation of active learning strategies for video indexing | |
Cheng et al. | Semi-supervised multi-graph hashing for scalable similarity search | |
Ji et al. | Relevance preserving projection and ranking for web image search reranking | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
Cao et al. | Learning to match images in large-scale collections | |
Zhu et al. | Topic hypergraph hashing for mobile image retrieval | |
de Ves et al. | Modeling user preferences in content-based image retrieval: A novel attempt to bridge the semantic gap | |
Li et al. | Deep learning for approximate nearest neighbour search: A survey and future directions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |