CN114817596A - 融合语义相似性嵌入和度量学习的跨模态图文检索方法 - Google Patents

融合语义相似性嵌入和度量学习的跨模态图文检索方法 Download PDF

Info

Publication number
CN114817596A
CN114817596A CN202210390000.1A CN202210390000A CN114817596A CN 114817596 A CN114817596 A CN 114817596A CN 202210390000 A CN202210390000 A CN 202210390000A CN 114817596 A CN114817596 A CN 114817596A
Authority
CN
China
Prior art keywords
text
image
cross
similarity
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210390000.1A
Other languages
English (en)
Inventor
曾焕强
阮海涛
朱建清
曹九稳
侯军辉
王勇涛
施一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202210390000.1A priority Critical patent/CN114817596A/zh
Publication of CN114817596A publication Critical patent/CN114817596A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,具体包括:首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习。同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型。通过实验表明,本发明能够有效解决跨模态图文检索中精确度不高的问题。

Description

融合语义相似性嵌入和度量学习的跨模态图文检索方法
技术领域
本发明涉及计算机视觉和模式识别领域,特别是指融合语义相似性嵌入和度量学习的跨模态图文检索方法。
背景技术
随着多模态数据的爆炸式增长,如何有效挖掘海量数据背后丰富的有价值信息成为研究热点。跨模态检索旨在于在不同模态的数据间(图像、文本、语音、视频等)进行检索,如图像检索文本、文本检索音频、音频检索视频等等,具有非常重要的研究价值。其应用场景也非常广泛,例如视频网站的精彩片段检索、个性化语义短视频检索、智能搜索系统等。
然而不同模态的数据间往往呈现底层特征异构而高层语义相关的强异构特性。例如老虎这一语义,在图像特征的表示上有SIFT、LBP等,但是文本特征的表示是字典向量等,可以看出从特征的描述上同一语义在不同模态数据的表达类型完全不同。因此,跨模态检索的研究十分具有挑战性。
在跨模态图文检索中大多数方法采用固定的预先定义好的的距离度量(如欧氏距离或余弦距离)去优化特征嵌入学习或者针对固定特征维度学习传统的线性度量(如马氏距离),这种方法虽然简单易实施,但是此类方法将相似性计算限制在固定维度且无法对不等长维度的特征对的相似性进行有效度量,具有局限性。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
本发明采用如下技术方案:
融合语义相似性嵌入和度量学习的跨模态图文检索方法,步骤如下:
输入图像文本对
Figure BDA0003596437930000011
其中xi是输入图像数据,xj是输入的文本数据,其中n表示图像文本对数;
根据图像特征提取网络
Figure BDA0003596437930000012
提取图像的深度特征表征向量
Figure BDA0003596437930000013
根据文本特征提取网络gφ提取文本的特征表征向量gφ(xj),其中
Figure BDA0003596437930000021
图像特征提取网络中的参数代表,φ表示文本特征提取网络中的参数代表;
在图像特征提取网络和文本特征提取网络末端分别引入线性分类层,将图像深度特征表征向量
Figure BDA0003596437930000022
和文本的特征表征向量gφ(xj)映射到标签空间得到预测图像特征向量
Figure BDA0003596437930000023
预测文本特征向量txtp=P(gφ(xj));
将图像深度特征表征向量
Figure BDA0003596437930000024
和文本的特征表征向量gφ(xj)进行拼接得到拼接向量
Figure BDA0003596437930000025
其中C(·,·)表示在深度上对特征进行拼接;
将拼接向量
Figure BDA0003596437930000026
输入相似性度量网络RΨ中得到相似性分数矩阵
Figure BDA0003596437930000027
其中nimage、ntext分别表示图像和文本样本集总数;
最后将图像深度特征表征向量
Figure BDA0003596437930000028
文本的特征表征向量gφ(xj)、预测特征向量
Figure BDA0003596437930000029
预测文本特征向量txtp=P(gφ(xj))和相似性分数矩阵Si,j在单模态表征空间、跨模态公共表征空间和相似性度量学习空间中进行训练学习,得到最后的检索网络模型。
具体地,所述的图像数据xi是图像的原始像素特征,文本数据xj是通过Word2Vec自然语言模型抽取的特征矢量。
具体地,所述的图像特征提取网络
Figure BDA00035964379300000210
包括:Vgg19网络和若干层全连接神经网络组成,其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到,全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c;其中隐藏层采用RELU激活函数,c为数据集的总类别数;
所述的文本特征提取网络包括:TextCNN网络和若干层全连接层组成,其中全连接层隐含层单元数分别为300、1024、1024、256和c,其中隐含层采用RELU激活函数,c为数据集的总类别数。
具体地,所述的相似性度度量网络由三层全连接神经网络构成,其中每一层隐藏神经元个数分别为512、1024、1,所有层都采用RELU激活函数,最后一层输出层采用Sigmoid函数得到相似性分数矩阵Si,j
具体地,其所述的单模态表征空间的标签域监督损失L1,定义为:
Figure BDA0003596437930000031
其中L=[y1,y2,...,yn],L表示标签向量,||||F表示Frobenius范数。
具体地,其所述的跨模态公共表征空间的损失L2,定义为:
Figure BDA0003596437930000032
其中||||F表示Frobenius范数。
具体地,其所述的度量学习空间的损失L3为:
Figure BDA0003596437930000033
这里令相似性得分回归逼近真实的样本对之间的语义一致性,1表示图像文本样本对之间的相似性矩阵,其元素{0,1}如果两个输入样本对属于同一类则为1,不是同一类则为0;
最终得目标函数为:L=L1+λL2+L3,其中λ=0.1。
具体地,所述训练采用ADAM优化器,设置学习率为10-4,迭代训练500次,得到最终的检索网络模型。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
(2)本发明提供了一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,该方法着重于充分嵌入学习和非线性度量函数学习有效性,充分利用语义信息的相似性和深度卷积神经网络的非线性逼近特性更高的保留了跨模态数据之间的相似性,进一步提高了跨模态检索的精度。
附图说明
图1为本发明融合语义相似性嵌入和度量学习的跨模态图文检索方法的框架示意图;
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
参见图1所示,本发明一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,步骤如下:
1)设计图像特征提取网络和文本特征提取网络接收图像文本对
Figure BDA0003596437930000041
其中xi是输入图像数据,xj是输入的文本数据,其中n表示图像文本对数,每个图像文本对都有一个与之对应的标签向量
Figure BDA0003596437930000042
c是数据集中的类别数,且定义若第i个实例属于第j类,则yji=1,否则yji=0;
(2)分别用图像特征提取网络
Figure BDA0003596437930000043
和文本特征提取网络gφ提取图像的深度特征表征向量
Figure BDA0003596437930000044
和文本的特征表征向量gφ(xj),其中
Figure BDA0003596437930000045
φ表示需要学习图像和文本子网络的网络参数;
(3)在图像网络和文本网络末端分别引入线性分类层将图像和文本表征向量
Figure BDA0003596437930000046
gφ(xj)映射到标签空间得到预测特征向量
Figure BDA0003596437930000047
txtp=P(gφ(xj));
(4)将
Figure BDA0003596437930000048
和gφ(xj)进行融合
Figure BDA0003596437930000049
其中C(·,·)表示在深度上对特征进行拼接;
(5)将拼接之后的特征
Figure BDA00035964379300000410
送入相似性度量网络RΨ中得到相似性分数矩阵
Figure BDA00035964379300000411
i∈{1,nimage},j∈{1,ntext},其中nimage、ntext分别表示图像和文本样本集总数;
(6)最后将
Figure BDA00035964379300000412
gφ(xj)、
Figure BDA00035964379300000413
txtp=P(gφ(xj))和Si,j在单模态表征空间,跨模态公共表征空间和相似性度量学习空间中进行训练学习,得到最后的网络模型算法。
进一步的,步骤1)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的xi是图像的原始像素特征,xj是通过Word2Vec自然语言模型抽取的特征矢量,且Word2Vec模型在Google News上进行预训练。
进一步的,步骤2)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的图像特征提取网络Vgg19网络和若干层全连接神经网络组成,其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到,全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c。其中所有层都采用RELU激活函数,c为数据集的总类别数;所述的文本特征提取网络为TextCNN网络和若干层全连接层组成,其中全连接层隐含层单元数分别为300、1024、1024、256和c,其中所有层都采用RELU激活函数,c为数据集的总类别数。
进一步的,步骤3)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的相似性度度量网络由三层全连接神经网络构成,其中每一层隐藏神经元个数为512、1024、1,所有层都采用RELU激活函数,最后一层输出层采用Sigmoid得到相似性得分Si,j
进一步的,步骤4)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的单模态标签域监督损失L1,其定义为:
Figure BDA0003596437930000051
其中L=[y1,y2,...,yn],L表示标签向量,||||F表示Frobenius范数。
进一步的,步骤5)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的跨模态公共表征空间损失L2,其定义为:
Figure BDA0003596437930000052
其中||||F表示Frobenius范数。
进一步的,步骤6)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的相似性度量学习空间损失L3为:
Figure BDA0003596437930000053
这里令相似性得分回归逼近真实的样本对之间的语义一致性,1表示图像文本样本对之间的相似性矩阵,其元素{0,1}如果两个输入样本对属于同一类则为1,不是同一类则为0。
进一步的,步骤7)中,所述的最终得目标函数为:L=L1+λL2+L3,其中λ=0.1。
进一步的,步骤8)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的训练过程采用ADAM优化器,设置学习率为10-4,并迭代训练500次,得到最终的检索模型。
本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
本发明提供了一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,该方法着重于充分嵌入学习和非线性度量函数学习有效性,充分利用语义信息的相似性和深度卷积神经网络的非线性逼近特性更高的保留了跨模态数据之间的相似性,进一步提高了跨模态检索的精度。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (8)

1.融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,步骤如下:
输入图像文本对
Figure FDA0003596437920000011
其中xi是输入图像数据,xj是输入的文本数据,其中n表示图像文本对数;
根据图像特征提取网络
Figure FDA0003596437920000012
提取图像的深度特征表征向量
Figure FDA0003596437920000013
根据文本特征提取网络gφ提取文本的特征表征向量gφ(xj),其中
Figure FDA0003596437920000014
图像特征提取网络中的参数代表,φ表示文本特征提取网络中的参数代表;
在图像特征提取网络和文本特征提取网络末端分别引入线性分类层,将图像深度特征表征向量
Figure FDA0003596437920000015
和文本的特征表征向量gφ(xj)映射到标签空间得到预测图像特征向量
Figure FDA0003596437920000016
预测文本特征向量txtp=P(gφ(xj));
将图像深度特征表征向量
Figure FDA0003596437920000017
和文本的特征表征向量gφ(xj)进行拼接得到拼接向量
Figure FDA0003596437920000018
其中C(·,·)表示在深度上对特征进行拼接;
将拼接向量
Figure FDA0003596437920000019
输入相似性度量网络RΨ中得到相似性分数矩阵
Figure FDA00035964379200000110
其中nimage、ntext分别表示图像和文本样本集总数;
最后将图像深度特征表征向量
Figure FDA00035964379200000111
文本的特征表征向量gφ(xj)、预测特征向量
Figure FDA00035964379200000112
预测文本特征向量txtp=P(gφ(xj))和相似性分数矩阵Si,j在单模态表征空间、跨模态公共表征空间和相似性度量学习空间中进行训练学习,得到最后的检索网络模型。
2.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的图像数据xi是图像的原始像素特征,文本数据xj是通过Word2Vec自然语言模型抽取的特征矢量。
3.根据权利要求1所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的图像特征提取网络
Figure FDA00035964379200000113
包括:Vgg19网络和若干层全连接神经网络组成,其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到,全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c;其中隐藏层采用RELU激活函数,c为数据集的总类别数;
所述的文本特征提取网络包括:TextCNN网络和若干层全连接层组成,其中全连接层隐含层单元数分别为300、1024、1024、256和c,其中隐含层采用RELU激活函数,c为数据集的总类别数。
4.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的相似性度度量网络由三层全连接神经网络构成,其中每一层隐藏神经元个数分别为512、1024、1,所有层都采用RELU激活函数,最后一层输出层采用Sigmoid函数得到相似性分数矩阵Si,j
5.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的单模态表征空间的标签域监督损失L1,定义为:
Figure FDA0003596437920000021
其中L=[y1,y2,...,yn],L表示标签向量,|| ||F表示Frobenius范数。
6.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的跨模态公共表征空间的损失L2,定义为:
Figure FDA0003596437920000022
其中|| ||F表示Frobenius范数。
7.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的度量学习空间的损失L3为:
Figure FDA0003596437920000023
这里令相似性得分回归逼近真实的样本对之间的语义一致性,1表示图像文本样本对之间的相似性矩阵,其元素{0,1}如果两个输入样本对属于同一类则为1,不是同一类则为0;
最终得目标函数为:L=L1+λL2+L3,其中λ=0.1。
8.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述训练采用ADAM优化器,设置学习率为10-4,迭代训练500次,得到最终的检索网络模型。
CN202210390000.1A 2022-04-14 2022-04-14 融合语义相似性嵌入和度量学习的跨模态图文检索方法 Withdrawn CN114817596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210390000.1A CN114817596A (zh) 2022-04-14 2022-04-14 融合语义相似性嵌入和度量学习的跨模态图文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210390000.1A CN114817596A (zh) 2022-04-14 2022-04-14 融合语义相似性嵌入和度量学习的跨模态图文检索方法

Publications (1)

Publication Number Publication Date
CN114817596A true CN114817596A (zh) 2022-07-29

Family

ID=82536710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210390000.1A Withdrawn CN114817596A (zh) 2022-04-14 2022-04-14 融合语义相似性嵌入和度量学习的跨模态图文检索方法

Country Status (1)

Country Link
CN (1) CN114817596A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
CN116431849A (zh) * 2023-04-07 2023-07-14 四川大学 一种基于证据学习的鲁棒图文检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431849A (zh) * 2023-04-07 2023-07-14 四川大学 一种基于证据学习的鲁棒图文检索方法
CN116431849B (zh) * 2023-04-07 2024-01-02 四川大学 一种基于证据学习的鲁棒图文检索方法
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法

Similar Documents

Publication Publication Date Title
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
Lopez et al. Deep Learning applied to NLP
CN106649715B (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN107818084B (zh) 一种融合点评配图的情感分析方法
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
CN110210468B (zh) 一种基于卷积神经网络特征融合迁移的文字识别方法
CN114817596A (zh) 融合语义相似性嵌入和度量学习的跨模态图文检索方法
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN114882521B (zh) 基于多分支网络的无监督行人重识别方法及装置
Yu et al. Research on automatic music recommendation algorithm based on facial micro-expression recognition
CN114817673A (zh) 一种基于模态关系学习的跨模态检索方法
Yan et al. Biomedical literature classification with a CNNs-based hybrid learning network
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN118113855B (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与系统
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN115982467A (zh) 一种去偏化用户多兴趣推荐方法、装置及存储介质
CN116956128A (zh) 一种基于超图的多模态多标签分类方法及系统
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220729

WW01 Invention patent application withdrawn after publication