CN116975318B - 一种基于互关联挖掘的半配对图文检索方法 - Google Patents

一种基于互关联挖掘的半配对图文检索方法 Download PDF

Info

Publication number
CN116975318B
CN116975318B CN202310975399.4A CN202310975399A CN116975318B CN 116975318 B CN116975318 B CN 116975318B CN 202310975399 A CN202310975399 A CN 202310975399A CN 116975318 B CN116975318 B CN 116975318B
Authority
CN
China
Prior art keywords
text
image
pairing
pseudo
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310975399.4A
Other languages
English (en)
Other versions
CN116975318A (zh
Inventor
胡鹏
陆铮
秦阳
彭德中
彭玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310975399.4A priority Critical patent/CN116975318B/zh
Publication of CN116975318A publication Critical patent/CN116975318A/zh
Application granted granted Critical
Publication of CN116975318B publication Critical patent/CN116975318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互关联挖掘的半配对图文检索方法,本发明解决现有图文检索方法对于大规模图文数据的依赖,通过挖掘大量不配对图文数据间潜在的关联信息丰富了跨模态学习,提高了图文检索模型在受限环境下的性能,进而提升其应用能力。

Description

一种基于互关联挖掘的半配对图文检索方法
技术领域
本发明属于跨模态检索领域,具体涉及一种基于互关联挖掘的半配对图文检索方法。
背景技术
图文检索旨在给定一个图像或者文本查询样本来检索另一模态数据中最相关的样本。其核心在于度量图文样本间相似度作为检索证据。现有图文检索可分为两类,一类是全局水平方法,这类方法通过将图像和文本样本编码成全局特征,并将其映射到一个公共子空间进行视觉嵌入学习,其余弦相似度或者欧氏距离直接可被认为是视觉语义相似度。另一类是局部水平方法,这类方法旨在挖掘图文样本间细粒度的关系,例如单词与图像中的对象,区域之间的局部关系,进而推理出视觉文本相关性。然而,在实际场景下或者数据受限场景下,大规模高质量的图文数据集收集成本较高,这限制了现有方法的应用潜力。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于互关联挖掘的半配对图文检索方法解决了现有图文检索方法对于大规模图文数据依赖的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于互关联挖掘的半配对图文检索方法,包括以下步骤:
S1、获取配对图文集与不配对图文数据集,得到半配对图文检索训练数据集,构建基于图像和文本的深度神经网络编码器并初始化其网络参数;
S2、从半配对图文检索训练数据集中采样小批次数据,根据图像和文本的深度神经网络编码器得到小批次数据的全局特征,根据全局特征计算视觉语义相似度;
S3、根据视觉语义相似度计算第一半配对学习损失,并根据第一半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
S4、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到初步收敛的基于图像和文本的深度神经网络编码器,并进入S5,若否,则返回S2;
S5、通过初步收敛的基于图像和文本的深度神经网络编码器得到不配对图文数据集中的伪配对样本;
S6、根据伪配对样本计算第二半配对学习损失,并根据第二半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
S7、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到最优的基于图像和文本的深度神经网络编码器,并进入S8,若否,则返回S5;
S8、通过最优的基于图像和文本的深度神经网络编码器,计算图像的查询样本与所有检索样本间的视觉语义相似度,进而获得检索结果,完成图文检索。
进一步地:所述S1中,所述配对图文集与不配对图文数据集均包括若干组图文对,其中,任一组图文对设置有一幅图像与一个文本。
进一步地:所述S1中,基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器,图像编码器用于得到图像的全局特征,文本编码器用于得到文本的全局特征。
进一步地:所述S2中,计算一组图文对中图像I与文本T的视觉语义相似度S(I,T)的表达式具体为:
式中,f(·)为图像编码器,g(·)为文本编码器,f(I)为图像I的全局特征,g(T)为文本T的全局特征,图像I和文本T均属于小批次数据,f(I)T表示转置的图像I的全局特征。
进一步地:所述S3中,计算第一半配对学习损失Linter(Ik,Tk,1)的表达式具体为:
式中,[*]+为铰链三元组通式,其原理为:[x]+≡max(x,0),max(·)表示最大值通式,α为边际参数,V为视图数目,为图像Ik的第i个视图,Tk (j)为文本Tk的第j个视图,/>为最难负样本的图像的第i个视图,/>为最难负样本的文本的第j个视图,S′(*,*)为操作定位通式,其原理具体为:若S′(I1,T1)中图像I1和文本T1属于配对图文集中的一组图文对,则S′(I1,T1)=S(I1,T1),否则S′(I1,T1)=βS(I1,T1),β∈(0,1],β为放缩参数。
进一步地:所述S5中,得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法;
其中,所述挖掘伪配对文本法具体为:根据不配对图文数据集中的图像通过视觉语义相似度计算得到伪配对文本;
所述挖掘伪配对图像法具体为:根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像。
进一步地:得到所述伪配对文本T′n的表达式具体为:
式中,argmax(*)为用于计算目标函数的最小值的函数,Du为不配对图文数据集,S(In,Tm)为图像In与文本Tm的视觉语义相似度,图像In属于不配对图文数据集;
得到伪配对图像I′n的表达式具体为:
式中,S(Im,Tn)为图像Im与文本Tn的视觉语义相似度,文本Tn属于不配对图文数据集。
上述进一步方案的有益效果为:通过利用视觉语义相似度来寻找最相似的跨模态样本组成伪配对图文对,这将给跨模态学习提供更多潜在的视觉语义关联,进而提升性能。
进一步地:所述S6中,计算第二半配对学习损失Loverall的表达式具体为:
式中,yi为配对的标签,用于表示是否图文配对,若图像Ik和文本Tk属于配对图文,则yi取值为1,若图像Ik和文本Tk不属于配对图文,则yi取值为0,Linter(Ik,Tk,0)为不配对数据的视觉语义挖掘损失,K为小批次数据大小,(Ik,Tk)为第i对图文对;
其中,计算不配对数据的视觉语义挖掘损失Linter(Ik,Tk,0)的表达式具体为:
Linter(Ik,Tk,0)=La(Ik)+Lb(Tk)
式中,La(Ik)为第一挖掘损失,Lb(Tk)为第二挖掘损失;
计算第一挖掘损失La(Ik)的表达式具体为:
式中,α为边际参数,γ为相似度阈值,γ用于过滤潜在的噪声图文对,V为视图数目,且V=2,为选择函数,若/>则/>为1,否则为0,/>为图像Ik的第j个视图/>与图像Ik的伪配对文本T′k的视觉语义相似度,/>为图像Ik的第j个视图/>与其最难负样本的文本/>的视觉语义相似度,/>为图像Ik的伪配对文本T′k与其最难负样本的图像/>的第j个视图/>的视觉语义相似度;
计算第二挖掘损失Lb(Tk)的表达式具体为:
式中,为文本Tk的第j个视图/>与文本Tk的伪配对图像I′k的视觉语义相似度,/>为文本Tk的第j个视图/>与其最难负样本的图像/>的视觉语义相似度,/>为文本Tk的伪配对图像I′k与其最难负样本的文本/>的第j个视图/>的视觉语义相似度。
上述进一步方案的有益效果为:通过利用配对数据训练的初步收敛的基于图像和文本的深度神经网络编码器来逐步从未配对数据中挖掘潜在可用的伪配对数据来进一步丰富视觉语义信息,这将从大规模未配对的图文数据集上进行跨模态学习提供可能。
进一步地:所述S7中,得到优化后的基于图像和文本的深度神经网络编码器的网络参数的表达式具体为:
式中,Θ为编码器的参数,AdamOptimizer为反向梯度优化器。
进一步地:所述S8具体为:
获取图像的查询样本,通过最优的基于图像和文本的深度神经网络编码器计算图像的查询样本与所有检索样本之间的视觉语义相似度,根据相似度进行升序排序,将排名第一的检索样本作为最相关的检索结果,设置排名阈值,将排名序号小于排名阈值的检索样本作为候选检索项,完成图文检索。
本发明的有益效果为:本发明提供的一种基于互关联挖掘的半配对图文检索方法解决现有图文检索方法对于大规模图文数据的依赖,通过挖掘大量不配对图文数据间潜在的关联信息丰富了跨模态学习,提高了图文检索模型在受限环境下的性能,进而提升其应用能力。
附图说明
图1为本发明一种基于互关联挖掘的半配对图文检索方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于互关联挖掘的半配对图文检索方法,包括以下步骤:
S1、获取配对图文集与不配对图文数据集,得到半配对图文检索训练数据集,构建基于图像和文本的深度神经网络编码器并初始化其网络参数;
S2、从半配对图文检索训练数据集中采样小批次数据,根据图像和文本的深度神经网络编码器得到小批次数据的全局特征,根据全局特征计算视觉语义相似度;
S3、根据视觉语义相似度计算第一半配对学习损失,并根据第一半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
S4、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到初步收敛的基于图像和文本的深度神经网络编码器,并进入S5,若否,则返回S2;
S5、通过初步收敛的基于图像和文本的深度神经网络编码器得到不配对图文数据集中的伪配对样本;
S6、根据伪配对样本计算第二半配对学习损失,并根据第二半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
S7、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到最优的基于图像和文本的深度神经网络编码器,并进入S8,若否,则返回S5;
S8、通过最优的基于图像和文本的深度神经网络编码器,计算图像的查询样本与所有检索样本间的视觉语义相似度,进而获得检索结果,完成图文检索。
所述S1中,所述配对图文集与不配对图文数据集均包括若干组图文对,其中,任一组图文对设置有一幅图像与一个文本。
所述S1中,所述配对图文集与不配对图文数据集均包括若干组图文对,其中,任一组图文对设置有一幅图像与一个文本。
所述S1中,基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器,图像编码器用于得到图像的全局特征,文本编码器用于得到文本的全局特征。
所述S2中,计算一组图文对中图像I与文本T的视觉语义相似度S(I,T)的表达式具体为:
式中,f(·)为图像编码器,g(·)为文本编码器,f(I)为图像I的全局特征,g(T)为文本T的全局特征,图像I和文本T均属于小批次数据,f(I)T表示转置的图像I的全局特征。
所述S3中,计算第一半配对学习损失Linter(Ik,Tk,1)的表达式具体为:
式中,[*]+为铰链三元组通式,其原理为:[x]+≡max(x,0),max(·)表示最大值通式,α为边际参数,V为视图数目,为图像Ik的第i个视图,/>为文本Tk的第j个视图,/>为最难负样本的图像的第i个视图,/>为最难负样本的文本的第j个视图,S′(*,*)为操作定位通式,其原理具体为:若S′(I1,T1)中图像I1和文本T1属于配对图文集中的一组图文对,则S′(I1,T1)=S(I1,T1),否则S′(I1,T1)=βS(I1,T1),β∈(0,1],β为放缩参数。
本发明通过利用配对数据训练的初步收敛模型来逐步从未配对数据中挖掘潜在可用的伪配对数据来进一步丰富视觉语义信息,这将从大规模未配对的图文数据集上进行跨模态学习提供可能。
所述S5中,得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法;
其中,所述挖掘伪配对文本法具体为:根据不配对图文数据集中的图像通过视觉语义相似度计算得到伪配对文本;
所述挖掘伪配对图像法具体为:根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像。
得到所述伪配对文本T′n的表达式具体为:
式中,argmax(*)为用于计算目标函数的最小值的函数,Du为不配对图文数据集,S(In,Tm)为图像In与文本Tm的视觉语义相似度,图像In属于不配对图文数据集;
得到伪配对图像I′n的表达式具体为:
式中,S(Im,Tn)为图像Im与文本Tn的视觉语义相似度,文本Tn属于不配对图文数据集。
在本实施例中,本发明通过利用视觉语义相似度来寻找最相似的跨模态样本组成伪配对图文对,这将给跨模态学习提供更多潜在的视觉语义关联,进而提升性能。
所述S6中,计算第二半配对学习损失Loverall的表达式具体为:
式中,yi为配对的标签,用于表示是否图文配对,若图像Ik和文本Tk属于配对图文,则yi取值为1,若图像Ik和文本Tk不属于配对图文,则yi取值为0,Linter(Ik,Tk,0)为不配对数据的视觉语义挖掘损失,K为小批次数据大小,(Ik,Tk)为第i对图文对;
其中,计算不配对数据的视觉语义挖掘损失Linter(Ik,Tk,0)的表达式具体为:
Linter(Ik,Tk,0)=La(Ik)+Lb(Tk)
式中,La(Ik)为第一挖掘损失,Lb(Tk)为第二挖掘损失;
计算第一挖掘损失La(Ik)的表达式具体为:
式中,α为边际参数,γ为相似度阈值,γ用于过滤潜在的噪声图文对,V为视图数目,且V=2,为选择函数,若/>则/>为1,否则为0,/>为图像Ik的第j个视图/>与图像Ik的伪配对文本T′k的视觉语义相似度,/>为图像Ik的第j个视图/>与其最难负样本的文本/>的视觉语义相似度,/>为图像Ik的伪配对文本T′k与其最难负样本的图像/>的第j个视图/>的视觉语义相似度;
计算第二挖掘损失Lb(Tk)的表达式具体为:
式中,为文本Tk的第j个视图/>与文本Tk的伪配对图像I′k的视觉语义相似度,/>为文本Tk的第j个视图/>与其最难负样本的图像/>的视觉语义相似度,/>为文本Tk的伪配对图像I′k与其最难负样本的文本/>的第j个视图/>的视觉语义相似度。
所述S7中,得到优化后的基于图像和文本的深度神经网络编码器的网络参数的表达式具体为:
式中,Θ为编码器的参数,AdamOptimizer为反向梯度优化器。
所述S8具体为:
获取图像的查询样本,通过最优的基于图像和文本的深度神经网络编码器计算图像的查询样本与所有检索样本之间的视觉语义相似度,根据相似度进行升序排序,将排名第一的检索样本作为最相关的检索结果,设置排名阈值,将排名序号小于排名阈值的检索样本作为候选检索项,完成图文检索。
本发明的有益效果为:本发明提供的一种基于互关联挖掘的半配对图文检索方法解决现有图文检索方法对于大规模图文数据的依赖,通过挖掘大量不配对图文数据间潜在的关联信息丰富了跨模态学习,提高了图文检索模型在受限环境下的性能,进而提升其应用能力。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (3)

1.一种基于互关联挖掘的半配对图文检索方法,其特征在于,包括以下步骤:
S1、获取配对图文集与不配对图文数据集,得到半配对图文检索训练数据集,构建基于图像和文本的深度神经网络编码器并初始化其网络参数;
S2、从半配对图文检索训练数据集中采样小批次数据,根据图像和文本的深度神经网络编码器得到小批次数据的全局特征,根据全局特征计算视觉语义相似度;
S3、根据视觉语义相似度计算第一半配对学习损失,并根据第一半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
S4、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到初步收敛的基于图像和文本的深度神经网络编码器,并进入S5,若否,则返回S2;
S5、通过初步收敛的基于图像和文本的深度神经网络编码器得到不配对图文数据集中的伪配对样本;
S6、根据伪配对样本计算第二半配对学习损失,并根据第二半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
S7、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到最优的基于图像和文本的深度神经网络编码器,并进入S8,若否,则返回S5;
S8、通过最优的基于图像和文本的深度神经网络编码器,计算图像的查询样本与所有检索样本间的视觉语义相似度,进而获得检索结果,完成图文检索;
所述S1中,所述配对图文集与不配对图文数据集均包括若干组图文对,其中,任一组图文对设置有一幅图像与一个文本;
所述S1中,基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器,图像编码器用于得到图像的全局特征,文本编码器用于得到文本的全局特征;
所述S2中,计算一组图文对中图像I与文本T的视觉语义相似度S(I,T)的表达式具体为:
式中,f(·)为图像编码器,g(·)为文本编码器,f(I)为图像I的全局特征,g(T)为文本T的全局特征,图像I和文本T均属于小批次数据,f(I)T表示转置的图像I的全局特征;
所述S3中,计算第一半配对学习损失Linter(Ik,Tk,1)的表达式具体为:
式中,[*]+为铰链三元组通式,其原理为:[x]+≡max(x,0),max(·)表示最大值通式,α为边际参数,V为视图数目,为图像Ik的第i个视图,/>为文本Tk的第j个视图,/>为最难负样本的图像的第i个视图,/>为最难负样本的文本的第j个视图,S'(*,*)为操作定位通式,其原理具体为:若S'(I1,T1)中图像I1和文本T1属于配对图文集中的一组图文对,则S'(I1,T1)=S(I1,T1),否则S'(I1,T1)=βS(I1,T1),β∈(0,1],β为放缩参数;
所述S5中,得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法;
其中,所述挖掘伪配对文本法具体为:根据不配对图文数据集中的图像通过视觉语义相似度计算得到伪配对文本;
所述挖掘伪配对图像法具体为:根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像;
得到所述伪配对文本T′n的表达式具体为:
式中,argmax(*)为用于计算目标函数的最小值的函数,Du为不配对图文数据集,S(In,Tm)为图像In与文本Tm的视觉语义相似度,图像In属于不配对图文数据集;
得到伪配对图像I′n的表达式具体为:
式中,S(Im,Tn)为图像Im与文本Tn的视觉语义相似度,文本Tn属于不配对图文数据集;
所述S6中,计算第二半配对学习损失Loverall的表达式具体为:
式中,yi为配对的标签,用于表示是否图文配对,若图像Ik和文本Tk属于配对图文,则yi取值为1,若图像Ik和文本Tk不属于配对图文,则yi取值为0,Linter(Ik,Tk,0)为不配对数据的视觉语义挖掘损失,K为小批次数据大小,(Ik,Tk)为第i对图文对;
其中,计算不配对数据的视觉语义挖掘损失Linter(Ik,Tk,0)的表达式具体为:
Linter(Ik,Tk,0)=La(Ik)+Lb(Tk)
式中,La(Ik)为第一挖掘损失,Lb(Tk)为第二挖掘损失;
计算第一挖掘损失La(Ik)的表达式具体为:
式中,α为边际参数,γ为相似度阈值,γ用于过滤潜在的噪声图文对,V为视图数目,且V=2,为选择函数,若/>则/>为1,否则为0,/>为图像Ik的第j个视图/>与图像Ik的伪配对文本T′k的视觉语义相似度,/>为图像Ik的第j个视图/>与其最难负样本的文本/>的视觉语义相似度,/>为图像Ik的伪配对文本T′k与其最难负样本的图像/>的第j个视图/>的视觉语义相似度;
计算第二挖掘损失Lb(Tk)的表达式具体为:
式中,为文本Tk的第j个视图/>与文本Tk的伪配对图像I′k的视觉语义相似度,/>为文本Tk的第j个视图/>与其最难负样本的图像/>的视觉语义相似度,为文本Tk的伪配对图像I′k与其最难负样本的文本/>的第j个视图/>的视觉语义相似度。
2.根据权利要求1所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S7中,得到优化后的基于图像和文本的深度神经网络编码器的网络参数的表达式具体为:
式中,Θ为编码器的参数,AdamOptimzer为反向梯度优化器。
3.根据权利要求1所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S8具体为:
获取图像的查询样本,通过最优的基于图像和文本的深度神经网络编码器计算图像的查询样本与所有检索样本之间的视觉语义相似度,根据相似度进行升序排序,将排名第一的检索样本作为最相关的检索结果,设置排名阈值,将排名序号小于排名阈值的检索样本作为候选检索项,完成图文检索。
CN202310975399.4A 2023-08-03 2023-08-03 一种基于互关联挖掘的半配对图文检索方法 Active CN116975318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310975399.4A CN116975318B (zh) 2023-08-03 2023-08-03 一种基于互关联挖掘的半配对图文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310975399.4A CN116975318B (zh) 2023-08-03 2023-08-03 一种基于互关联挖掘的半配对图文检索方法

Publications (2)

Publication Number Publication Date
CN116975318A CN116975318A (zh) 2023-10-31
CN116975318B true CN116975318B (zh) 2024-01-23

Family

ID=88471208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310975399.4A Active CN116975318B (zh) 2023-08-03 2023-08-03 一种基于互关联挖掘的半配对图文检索方法

Country Status (1)

Country Link
CN (1) CN116975318B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
WO2019226691A1 (en) * 2018-05-22 2019-11-28 Magic Leap, Inc. Transmodal input fusion for a wearable system
CN114329109A (zh) * 2022-03-15 2022-04-12 山东建筑大学 基于弱监督哈希学习的多模态检索方法及系统
CN114461836A (zh) * 2022-02-10 2022-05-10 中南大学 一种用于图像-文本的跨模态检索方法
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019226691A1 (en) * 2018-05-22 2019-11-28 Magic Leap, Inc. Transmodal input fusion for a wearable system
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN114461836A (zh) * 2022-02-10 2022-05-10 中南大学 一种用于图像-文本的跨模态检索方法
CN114329109A (zh) * 2022-03-15 2022-04-12 山东建筑大学 基于弱监督哈希学习的多模态检索方法及系统
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Cross-Domain Visual Matching via Generalized Similarity Measure and Feature Learning;Lin, L 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;第39卷(第6期);1089-1102 *
Robust Multi-View Clustering With Incomplete Information;Yang, MX;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;第45卷(第1期);1055-1069 *
基于典型相关分析和距离度量学习的零样本学习;冀中;谢于中;庞彦伟;;天津大学学报(自然科学与工程技术版)(第08期);813-820 *
基于语义关联挖掘的数字图书馆跨媒体检索方法研究;明均仁;何超;;图书情报工作(第07期);101-105 *

Also Published As

Publication number Publication date
CN116975318A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110297931B (zh) 一种图像检索方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN110309503A (zh) 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
CN113486667A (zh) 一种基于实体类型信息的医疗实体关系联合抽取方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN113609305B (zh) 基于bert的影视作品地域知识图谱构建方法及系统
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113434782B (zh) 基于联合嵌入学习模型的跨社交网络用户身份识别方法
CN113449111B (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
CN116128024A (zh) 多视角对比自监督属性网络异常点检测方法
CN116521913A (zh) 一种基于原型对比学习的草图三维模型检索方法
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN113902764A (zh) 基于语义的图像-文本的跨模态检索方法
CN115761408A (zh) 一种基于知识蒸馏的联邦域适应方法及系统
CN116383422A (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN116935329B (zh) 一种类级别对比学习的弱监督文本行人检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant