CN115391578A - 一种跨模态图文检索模型训练方法及系统 - Google Patents

一种跨模态图文检索模型训练方法及系统 Download PDF

Info

Publication number
CN115391578A
CN115391578A CN202210925063.2A CN202210925063A CN115391578A CN 115391578 A CN115391578 A CN 115391578A CN 202210925063 A CN202210925063 A CN 202210925063A CN 115391578 A CN115391578 A CN 115391578A
Authority
CN
China
Prior art keywords
sample
samples
text
image
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210925063.2A
Other languages
English (en)
Other versions
CN115391578B (zh
Inventor
孙茳
王树徽
赵毅晖
魏浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiantu Technology Co ltd
Original Assignee
Beijing Qiantu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiantu Technology Co ltd filed Critical Beijing Qiantu Technology Co ltd
Priority to CN202210925063.2A priority Critical patent/CN115391578B/zh
Publication of CN115391578A publication Critical patent/CN115391578A/zh
Application granted granted Critical
Publication of CN115391578B publication Critical patent/CN115391578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于跨模态图文检索模型的样本生成方法,用于对跨模态图文检索模型的训练集进行处理,其中,所述训练集中包括多个由图像样本和文本样本组成的图像‑文本样本对,相互匹配的图像样本和文本样本互为正样本,相互不匹配的图像样本和文本样本互为负样本,所述方法以训练集中的每个样本为锚点样本,从训练集中获取该锚点样本的正样本和负样本,并将获取的正样本和负样本与锚点样本组成原始三元组,对原始三元组执行如下步骤:S1、根据原始三元组中正样本和负样本的特征,获得其各自对应的激活特征和剩余特征;S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本,并用该增强负样本替换原始三元组中的负样本以生成增强三元组。

Description

一种跨模态图文检索模型训练方法及系统
技术领域
本发明涉及多媒体领域,具体来说,涉及多媒体领域中的图文检索技术,更具体地说,涉及一种基于跨模态图文检索模型训练方法及系统。
背景技术
基于机器学习的模型检索是一种常见的检索技术,检索又分为单模态检索和跨模态检索。其中,单模态检索是指在同一模态中的检索,例如以文搜文和以图搜图,在给定查询文本的情况下可以通过检索模型搜索到与之匹配的文本,同理,在给定查询图像的情况下可以通过检索模型搜索到与之匹配的图像。跨模态检索具有代表性的是图文检索,由于飞速增长的多模态数据(文字、语音、图像和视频)对检索系统有了更高的要求,以文搜文和以图搜图的单模态检索已不能满足用户的需求,因此图文检索的研究具有重要的应用价值和研究意义。图文检索是多媒体领域常用的技术,图文检索的目标是衡量图像和文本的视觉语义相似性,是多模态领域一个基础的研究方向。例如,给定一个查询图像,图文检索系统能够检索到相关内容的文本,或者给定一个查询文本,图文检索模型能够检索到相关内容的图像。
众所周知,想要图文检索模型在实际生产中得到广泛使用,必须实现有效的模型训练。训练过程中的样本质量是目前模型训练的主要瓶颈之一,通常样本的质量可以从样本难度和样本多样性两个方面定义。样本难度是指对比学习中负样本在隐式对比空间中与锚点样本的相似程度(例如,如果一个样本是负样本,且其与用于查询的样本的相似度又很大,那么这个样本就是难负样本),负样本的难度越大,它在训练中能提供的信息越多。为了提高训练中负样本的难度,很多研究中使用了难负样本挖掘的策略,从小批次内选取与锚点样本最相似的负样本作为难负样本参与训练。但是,由于训练过程中,小批次的样本数量限制,从小批次中选择的难负样本质量并不好。样本多样性是指训练中正负样本的多样性,通常可以通过数据增广来实现。然而,现阶段还没有方法来协同地提高样本难度和多样性。因此,对于一个跨模态图文检索系统,如何提高样本难度和多样性,在训练过程中充分利用训练数据的信息训练性能更好的跨模态图文检索模型,是一个亟待解决的问题。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种能够提供样本难度和样本多样性的样本生成方法及基于此的模型训练方法。
根据本发明的第一方面,提供一种用于跨模态图文检索模型的样本生成方法,用于对跨模态图文检索模型的训练集进行处理,其中,所述训练集中包括多个由图像样本和文本样本组成的图像-文本样本对,相互匹配的图像样本和文本样本互为正样本,相互不匹配的图像样本和文本样本互为负样本,所述方法以训练集中的每个样本为锚点样本,从训练集中获取该锚点样本的正样本和负样本,并将获取的正样本和负样本与锚点样本组成原始三元组,对原始三元组执行如下步骤:S1、根据原始三元组中正样本和负样本的特征,获得其各自对应的激活特征和剩余特征;S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本,并用该增强负样本替换原始三元组中的负样本以生成增强三元组。
优选的,所述方法还包括:S3、以正样本的剩余特征生成挑战正样本、以负样本的剩余特征生成挑战负样本,并用挑战正样本和挑战负样本替换原始三元组中的正样本和负样本以生成挑战三元组。
在本发明的一些实施例中,所述方法包括:从训练集中获取锚点样本的正样本和最难负样本,并将获取的正样本和最难负样本与锚点样本组成原始三元组。其中,所述锚点样本的最难负样本是训练集中与该锚点样本的余弦相似度最高的负样本。
优选的,在步骤S1中:当锚点样本为文本样本时,采用预训练的图像特征提取网络分别提取其对应正样本和负样本的文本特征,并分别根据正样本和负样本的文本特征获得各自对应的激活特征和剩余特征;当锚点样本为图像样本时,采用预训练的文本特征提取网络分别提取其对应正样本和负样本的激活特征和剩余特征。优选的,所述预训练的图像特征提取网络为Faster R-CNN。优选的,所述预训练的文本特征提取网络为BERT。
在本发明的一些实施例中,通过计算样本特征的梯度,将梯度模长大于预设阈值的特征划分为激活特征,将梯度模长小于或等于预设阈值的特征为剩余特征。
根据本发明的第二方面,提供一种跨模态图文检索模型训练方法,所述方法包括:T1、获取原始数据集,所述原始数据集中包括多个由图像样本和文本样本组成的图像-文本样本对;T2、将数据集按照预设批次的大小划分为多个批次,依次以一个批次的图像-文本样本对为训练集对跨模态图文检索模型进行多轮迭代训练直至收敛,其中,每轮训练时,采用如本发明第一方面所述的方法对训练集中的样本进行处理,以所有样本对应的增强三元组和/或挑战三元组组成的集合训练跨模态图文检索模型。
优选的,所述预设的批次大小为128,且每次从原始数据集中随机采样128个图像-文本样本对获得一个批次的图像-文本样本对。
优选的,所述三元组损失为:
ltotal=lSE+LSC
其中,LSE表示增强三元组对应的三元组损失,LSC表示挑战三元组对应的三元组损失;
Figure BDA0003779066520000031
其中,D表示原始数据集,(x,t)表示原始数据集中的图像-文本样本对,tsyn表示图像样本x对应的增强负样本,xsyn表示文本样本t对应的增强负样本。
Figure BDA0003779066520000032
其中,D表示原始数据集,(x,t)表示原始数据集中的图像-文本样本对,t′pos表示图像样本x对应的挑战正样本,t′neg表示图像样本x对应的挑战负样本,x′pos表示文本样本t对应的挑战正样本,x′neg表示文本样本t对应的挑战负样本。
根据本发明的第三方面,提供一种跨模态图文检索系统,所述系统包括采用如本发明第二方面所述的方法进行训练获得的跨模态图文检索模型。
与现有技术相比,本发明的优点在于:本发明中的训练方法不需要额外的训练参数,适用于已有的跨模态图文检索模型,可以将本发明的训练方法应用在已有的图文检索模型中帮助其获得更好的检索性能。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为现有技术下的图文检索系统基本原理示意图;
图2为图像目标检测的原理示意图;
图3为根据本发明实施例的图文检索模型原理示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如背景技术所述的,现有技术下的跨模态图文检索模型的训练瓶颈主要在于样本质量,样本质量又涉及到样本难度和样本多样性两个方向,对于此,本发明提出一种同时通过自我增强的策略来解决样本难度不足、以及通过自我挑战的策略来解决样本多样性不足的方案。
为了更好的理解本发明,首先介绍一下现有技术下跨模态图文检索模型的训练过程。图文检索模型的基本结构如图1所示,现有技术下,采用给定数据集(用D表示)对图文检索模型进行训练,其中,给定数据集
Figure BDA0003779066520000041
Figure BDA0003779066520000042
中包括相互匹配的图像样本(xi∈X,X是检索用图像数据集)和文本样本(ti∈T,T是检索用文本数据集)。训练过程中,对于每张图像,使用图像特征提取网络(图像特征提取网络一般采用目标检测网络,例如预训练的目标检测网络Faster R-CNN、Fast R-CNN、R-CNN等)提取一系列关注区域的特征
Figure BDA0003779066520000043
对于每个文本,采用预训练的文本特征提取网络(例如BERT、RoBERT等)提取文本特征。如图2所示,对于一张图像,目标检测网络首先找到常见的物体、属性等图像块(在图中用方框框出),图像中意义不大的区域被忽略,其中
Figure BDA0003779066520000044
是该图像中第n个区域的特征,
Figure BDA0003779066520000045
是该图像所有关注区域的特征集合,通常情况下,每个图像均有36个关注区域即N=36;对于每个文本,被编码为一串单词的嵌入
Figure BDA0003779066520000046
其中ψm是第m个单词的嵌入,M是该文本中的单词总数。图像的区域特征和文本的单词嵌入分别被聚合函数fv(·)和ft(·)聚合得到图像和文本对应的整体特征向量(图1中分别对应图像特征和文本特征)
Figure BDA0003779066520000051
Figure BDA0003779066520000052
最后,对图像和文本进行相似度度量(可以用余弦距离、欧几里得距离等进行度量)。根据本发明的一个实施例,采用余弦距离进行计算,其中,图像和文本的相似度可使用余弦相似度表示为:
Figure BDA0003779066520000053
跨模态图文检索任务通常使用度量学习的方法进行训练,简单的说就是以正样本的相似度越大负样本的相似度越小为优化目标进行训练,最常用的损失函数为三元组损失,即以三元组为基本单位的输入对模型进行训练:
Figure BDA0003779066520000054
其中,γ是一个超参数,并且[a]+≡max(0,a),表示一个取参数a与0之间的较大值的函数,后续实施例中涉及的[a]+形式的函数也是同样的函数,将不再赘述。(x,t)是一个图像文本的正样本对,
Figure BDA0003779066520000055
Figure BDA0003779066520000056
均是负样本对,通常
Figure BDA0003779066520000057
Figure BDA0003779066520000058
是在小批次中采样得到,对应的三元组为
Figure BDA0003779066520000059
Figure BDA00037790665200000510
其中
Figure BDA00037790665200000511
表示以图像样本为锚点样本,获取其对应的正样本文本和负样本文本组成的三元组,同理,
Figure BDA00037790665200000512
表示以文本样本为锚点样本,获取其对应的正样本图像和负样本图像组成的三元组。在跨模态图文检索中,相互匹配的图像样本和文本样本互相为正样本,与图像样本不匹配的文本样本为图像的负样本,与文本样本不匹配的图像样本为文本的负样本。现有技术下,三元组中的负样本是在每个批次中采样得到的。其中,需要说明的是,由于数据集规模很大,在训练过程中无法一次性的将所有数据输入到模型中进行训练,因此,在模型训练过程中多采用分批次训练的方式。每一个批次的数据均是从原始数据集中按照批的规模随机采样获得的,一个批次的数据训练完模型后就丢弃,再次从原始数据集中进行采样进行下一次的训练。在图文检索模型训练过程中,三元组的负样本从批次对应的数据中进行采样,在一个批次中,针对每一个匹配的图像-文本样本对,其相互为正样本,批次中剩余的文本样本为该图像样本的负样本,同理,批次中剩余的图像样本为该文本的负样本。由于批次是小批次,无法保证样本难度和样本多样性,即使是在批次中采样相对最难的负样本(即在每个批次中,采样锚点样本对应的负样本中与锚点样本最相似的负样本),也不能保证该负样本是好的难负样本。此外,现有技术下训练过程中,没有考虑样本多样性问题,使得训练出来的图文检索模型效果不好,无法突破瓶颈。
针对现有技术下的问题,本发明提出一种在训练过程中,针对每一个批次采用生成样本的方式来解决难负样本质量不佳、样本多样性不足的问题。发明人在研究中发现,模型对输入特征的关注程度可以由反转的梯度大小反应。例如,以文本检索图片为例(即锚点样本为文本样本),当损失函数使用三元组损失时,文本样本对应的正负样本的梯度分别为:
Figure BDA0003779066520000061
Figure BDA0003779066520000062
其中,grad表示求梯度的函数即对特征向量求梯度,φn表示正样本的特征向量,grad(φn,fv)表示正样本的梯度,
Figure BDA0003779066520000063
表示负样本的特征向量,
Figure BDA0003779066520000064
表示负样本的梯度,
Figure BDA0003779066520000065
表示求梯度的符号,L是损失函数,Lt→i表示以文本样本t为锚点样本的第i个特征的损失。
使用一个预先设置好的阈值∈,根据梯度模长(根据前面的实施例可知每个特征的梯度是一个向量,梯度的模长就是梯度向量的模长,求向量的模式是本领域技术人员已知的技术,本发明不做赘述)的大小,可以按照如下方式将一个图像样本的多个特征分为激活特征A和剩余特征R:
Figure BDA0003779066520000066
Figure BDA0003779066520000067
梯度模长大于阈值,说明模型很关注这个特征,那么就是激活特征;相反,如果小于阈值,说明模型倾向于忽略这个特征,那么就是剩余特征。
对于一个以文本样本为锚点样本的三元组,可以获得该文本样本对应的正样本的激活特征Apos和剩余特征Rpos、负样本对应的激活特征Aneg和剩余特征Rneg;同理,以图像样本为锚点样本的三元组中正样本和负样本分别对应的激活特征和剩余特征,此处不再展开赘述。
为了提高训练过程中负样本的难度,本发明提出采用自我增强的策略生成难负样本。具体来说,样本中被模型关注的特征(激活特征)近似决定了样本是正样本和负样本,本发明的自我增强策略是将负样本中的激活特征与正样本中的剩余特征组合以生成新的样本,基于该自我增强策略以文本样本为锚点样本获得的生成样本为:
xsyn=Rpos∪Aneg
其中,Rpos表示以文本样本为锚点样本的正样本的剩余特征,Aneg表示以文本样本为锚点样本的负样本对应的激活特征,xsyn表以文本样本为锚点样本的增强负样本。
同理,可得以图像样本为锚点样本并基于自我增强策略获得的生成样本,以tsyn表示:
tsyn=R‘pos∪A‘neg
其中,R‘pos表示以图像样本为锚点样本的正样本的剩余特征,A‘neg表示以图像样本为锚点样本的负样本对应的激活特征。
由于生成的样本中包含负样本的激活特征,所以仍可被认为是一个负样本,同时,该生成样本中包含了正样本的剩余特征,使得该生成样本和原本采样的负样本相比,整体特征与锚点样本更加相近,也就是说生成样本比原来的负样本更难。为了方便描述,本实施例中将基于自我增强策略获得的生成样本称为增强负样本,并将增强负样本替换其对应原始负样本所在的三元组以获得新的三元组用于训练模型,并采用三元组损失作为优化目标:
Figure BDA0003779066520000071
另外,由于检索模型在训练过程中往往会专注于主导的一些特征,最终陷入局部极小值,这会导致模型在推理阶段只关注少量显著的语义关联信息,而忽视其他隐含的关联。为了避免这个问题,让模型捕获更多样的语义关联信息可以避免陷入局部最小值,提高模型性能,根据本发明的一个实施例,提出自我挑战的策略,即将正负样本中的激活特征丢弃,以剩余特征生成样本。基于上述自我挑战策略以文本样本为锚点样本获得的生成样本为:
x′pos=Rpos
x′neg=Rneg
其中,x′pos表示以文本样本为锚点样本时基于正样本的剩余特征生成的样本,Rpos表示以文本样本为锚点样本时正样本的剩余特征,x′neg表示以文本样本为锚点样本时基于负样本的剩余特征生成的样本,Rneg表示以文本样本为锚点样本时负样本的剩余特征。
同理,基于自我挑战策略可得到以图像样本为锚点样本的生成样本,分别以tpos和t′neg表示:
tpos=R‘pos
t′neg=R‘neg
其中,tpos表示以图像样本为锚点样本时基于正样本的剩余特征生成的样本,R‘pos表示以图像样本为锚点样本时正样本的剩余特征,t′neg表示以图像样本为锚点样本时基于负样本的剩余特征生成的样本,R‘neg表示以图像样本为锚点样本时负样本的剩余特征。
自我挑战策略丢弃正负样本中的激活特征获得新的生成样本,为了方便描述,本实施例中将基于自我挑战策略获得的生成样本分别称为挑战正样本和挑战负样本,并用挑战正样本和挑战负样本替换对应原始正、负样本所在的三元组以获得新的三元组用于训练模型。通过丢弃正负样本中的激活特征,模型被迫挖掘除了主导特征以外的其他特征,从而发现之前被忽略的关联信息。通过自我挑战,训练得到的模型依赖更加全面的关联来计算相似度,从而得到更加准确、鲁棒的检索结果。与自我增强策略一样,自我挑战策略也使用三元组损失的形式作为优化目标:
Figure BDA0003779066520000081
在图文检索模型整体训练过程中,使用自适应估计(Adam)进行优化,总的损失函数为:
ltotal=lSE+LSC
综上所述,如图3所示,本发明的基于自我增强和自我挑战策略生成样本的方式训练图文检索模型的方案可总结为针对每一个批次的数据,采用如下方式对图文检索模型进行训练:
以当前批次中的每个文本样本或图像文本为锚点样本,并将该锚点样本与其对应的正样本以及当前批次中的最难负样本组成该锚点样本对应的原始三元组:
基于梯度指导的特征选择,分别获取每个三元组中正样本和负样本的激活特征和剩余特征,基于自我增强的策略,将正样本的剩余特征和负样本的激活特征组合以生成增强负样本并用该增强负样本替换当前锚点样本对应的原始三元组中的负样本组成当前锚点样本对应的增强三元组;以及基于自我挑战的策略,正样本的剩余特征组成挑战正样本、负样本的剩余特征组成挑战负样本,并用挑战正样本、挑战负样本替换当前锚点样本对应的原始三元组中的正样本和负样本组成当前锚点样本对应的挑战三元组;
以所有样本对应的增强三元组和挑战三元组组成的集合训练跨模态图文检索模型,并采用三元组损失更新模型参数。本发明中的训练方法不需要额外的训练参数,适用于已有的跨模态图文检索模型,可以将本发明的训练方法应用在已有的图文检索模型中帮助其获得更好的检索性能。
为了验证本发明的效果,发明人在MSCOCO dataset数据集和Flickr30K dataset数据集上,将本发明的方法生成的样本应用于现有的图文检索系统VSE++、VSRN、VSE∞的训练中,并将得到的检索模型与这些系统未应用本发明方法之前的性能进行对比,采用RSUM指标来衡量性能,其中RSUM是R@K(top-k召回率)的总和,验结果如表1所示:
表1
Figure BDA0003779066520000091
从表1可以看出,应用了本发明之后的图文检索模型,性能明显获得提升。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

1.一种用于跨模态图文检索模型的样本生成方法,用于对跨模态图文检索模型的训练集进行处理,其中,所述训练集中包括多个由图像样本和文本样本组成的图像-文本样本对,相互匹配的图像样本和文本样本互为正样本,相互不匹配的图像样本和文本样本互为负样本,其特征在于,所述方法以训练集中的每个样本为锚点样本,从训练集中获取该锚点样本的正样本和负样本,并将获取的正样本和负样本与锚点样本组成原始三元组,对原始三元组执行如下步骤:
S1、根据原始三元组中正样本和负样本的特征,获得其各自对应的激活特征和剩余特征;
S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本,并用该增强负样本替换原始三元组中的负样本以生成增强三元组。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
S3、以正样本的剩余特征生成挑战正样本、以负样本的剩余特征生成挑战负样本,并用挑战正样本和挑战负样本替换原始三元组中的正样本和负样本以生成挑战三元组。
3.根据权利要求1所述的方法,其特征在于,所述方法包括:从训练集中获取锚点样本的正样本和最难负样本,并将获取的正样本和最难负样本与锚点样本组成原始三元组。
4.根据权利要求3所述的方法,其特征在于,所述锚点样本的最难负样本是训练集中与该锚点样本的余弦相似度最高的负样本。
5.根据权利要求1所述的方法,其特征在于,在步骤S1中:
当锚点样本为文本样本时,采用预训练的图像特征提取网络分别提取其对应正样本和负样本的文本特征,并分别根据正样本和负样本的文本特征获得各自对应的激活特征和剩余特征;
当锚点样本为图像样本时,采用预训练的文本特征提取网络分别提取其对应正样本和负样本的激活特征和剩余特征。
6.根据权利要求5所述的方法,其特征在于,所述预训练的图像特征提取网络为FasterR-CNN。
7.根据权利要求5所述的方法,其特征在于,所述预训练的文本特征提取网络为BERT。
8.根据权利要求1所述的方法,其特征在于:
通过计算样本特征的梯度,将梯度模长大于预设阈值的特征划分为激活特征,将梯度模长小于或等于预设阈值的特征为剩余特征。
9.一种跨模态图文检索模型训练方法,其特征在于,所述方法包括:
T1、获取原始数据集,所述原始数据集中包括多个由图像样本和文本样本组成的图像-文本样本对;
T2、将数据集按照预设批次的大小划分为多个批次,依次以一个批次的图像-文本样本对为训练集对跨模态图文检索模型进行多轮迭代训练直至收敛,其中,每轮训练时,采用如权利要求1-8任一所述的方法对训练集中的样本进行处理,以所有样本对应的增强三元组和/或挑战三元组组成的集合训练跨模态图文检索模型。
10.根据权利要求9所述的方法,其特征在于,所述预设的批次大小为128,且每次从原始数据集中随机采样128个图像-文本样本对获得一个批次的图像-文本样本对。
11.根据权利要求9所述的方法,其特征在于,所述三元组损失为:
Ltotal=LSE+LSC
其中,LSE表示增强三元组对应的三元组损失,LSC表示挑战三元组对应的三元组损失;
Figure FDA0003779066510000021
其中,D表示原始数据集,(x,t)表示原始数据集中的图像-文本样本对,tsyn表示图像样本x对应的增强负样本,xsyn表示文本样本t对应的增强负样本。
Figure FDA0003779066510000022
其中,D表示原始数据集,(x,t)表示原始数据集中的图像-文本样本对,t′pos表示图像样本x对应的挑战正样本,t′neg表示图像样本x对应的挑战负样本,x′pos表示文本样本t对应的挑战正样本,x′neg表示文本样本t对应的挑战负样本。
12.一种跨模态图文检索系统,其特征在于,所述系统包括采用如权利要求9-11任一项所述的方法进行训练获得的跨模态图文检索模型。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1-8、9-11任一所述方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-8、9-11中任一项所述方法的步骤。
CN202210925063.2A 2022-08-03 2022-08-03 一种跨模态图文检索模型训练方法及系统 Active CN115391578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210925063.2A CN115391578B (zh) 2022-08-03 2022-08-03 一种跨模态图文检索模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210925063.2A CN115391578B (zh) 2022-08-03 2022-08-03 一种跨模态图文检索模型训练方法及系统

Publications (2)

Publication Number Publication Date
CN115391578A true CN115391578A (zh) 2022-11-25
CN115391578B CN115391578B (zh) 2024-10-15

Family

ID=84118305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210925063.2A Active CN115391578B (zh) 2022-08-03 2022-08-03 一种跨模态图文检索模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN115391578B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN116167434A (zh) * 2023-04-24 2023-05-26 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置
CN116629387A (zh) * 2023-07-24 2023-08-22 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US20210012061A1 (en) * 2019-07-12 2021-01-14 Nec Laboratories America, Inc. Supervised cross-modal retrieval for time-series and text using multimodal triplet loss
WO2022041940A1 (en) * 2020-08-31 2022-03-03 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Cross-modal retrieval method, training method for cross-modal retrieval model, and related device
CN114461836A (zh) * 2022-02-10 2022-05-10 中南大学 一种用于图像-文本的跨模态检索方法
CN114841243A (zh) * 2022-04-02 2022-08-02 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US20210012061A1 (en) * 2019-07-12 2021-01-14 Nec Laboratories America, Inc. Supervised cross-modal retrieval for time-series and text using multimodal triplet loss
WO2022041940A1 (en) * 2020-08-31 2022-03-03 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Cross-modal retrieval method, training method for cross-modal retrieval model, and related device
CN114461836A (zh) * 2022-02-10 2022-05-10 中南大学 一种用于图像-文本的跨模态检索方法
CN114841243A (zh) * 2022-04-02 2022-08-02 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN116167434A (zh) * 2023-04-24 2023-05-26 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置
CN116629387A (zh) * 2023-07-24 2023-08-22 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN116629387B (zh) * 2023-07-24 2023-10-27 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统

Also Published As

Publication number Publication date
CN115391578B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN115391578A (zh) 一种跨模态图文检索模型训练方法及系统
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
US12111866B2 (en) Term weight generation method, apparatus, device and medium
CN110321537B (zh) 一种文案生成方法和装置
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN110956037B (zh) 多媒体内容重复判断方法及装置
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111898379B (zh) 槽填充模型训练方法、电子设备及存储介质
US11281714B2 (en) Image retrieval
CN113342968A (zh) 文本摘要提取方法及装置
CN116795947A (zh) 文档推荐方法、装置、电子设备及计算机可读存储介质
CN110727769A (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN114973229A (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
CN111611450A (zh) 跨媒介数据融合方法、装置及存储介质
CN111062199A (zh) 一种不良信息识别方法及装置
CN115098794A (zh) 一种舆论制造群体识别方法、装置、设备及存储介质
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN113742525A (zh) 自监督视频哈希学习方法、系统、电子设备及存储介质
CN115065841B (zh) 基于多层次内容感知边界检测的视频处理方法及存储介质
CN117076747A (zh) 基于机器人的数据抓取方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant