CN116226688B - 数据处理、图文检索、图像分类方法及相关设备 - Google Patents

数据处理、图文检索、图像分类方法及相关设备 Download PDF

Info

Publication number
CN116226688B
CN116226688B CN202310523094.XA CN202310523094A CN116226688B CN 116226688 B CN116226688 B CN 116226688B CN 202310523094 A CN202310523094 A CN 202310523094A CN 116226688 B CN116226688 B CN 116226688B
Authority
CN
China
Prior art keywords
text
image
feature
sample
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310523094.XA
Other languages
English (en)
Other versions
CN116226688A (zh
Inventor
陈意浩
齐宪标
王佳楠
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202310523094.XA priority Critical patent/CN116226688B/zh
Publication of CN116226688A publication Critical patent/CN116226688A/zh
Application granted granted Critical
Publication of CN116226688B publication Critical patent/CN116226688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了数据处理、图文检索、图像分类方法及相关设备,其包括:各第一计算节点分别获取训练样本集中每个样本图像‑文本对的样本图像特征和样本文本特征;样本图像特征为样本图像通过待训练图文匹配模型的图像编码器得到,样本文本特征为样本文本通过待训练图文匹配模型的文本编码器得到;各第一计算节点选择一样本图像特征作为选定图像特征,确定选定图像特征与每个样本文本特征的特征相似度,使第二计算节点确定训练样本集对应的梯度信息,并基于梯度信息调整待训练图文匹配模型的模型参数,得到已训练的图文匹配模型,实现了在计算设备的计算资源有限的情况下,对图文匹配模型的大规模训练,提高了图文匹配模型的训练速度和性能。

Description

数据处理、图文检索、图像分类方法及相关设备
技术领域
本发明涉及人工智能技术领域,尤其涉及数据处理、图文检索、图像分类方法及相关设备。
背景技术
随着人工智能的快速发展,通过海量的图像-文本对进行视觉语言表征学习得到的图文匹配模型,因其在零样本分类、文本-图像检索等领域的巨大潜力而备受关注。
在现有技术中,为了保证图像匹配模型的精确度,往往需要大规模地训练数据进行模型训练,才能获得足够多的对比损失来保证学到一个更好的特征表示。可见,为了得到高精度的图像匹配模型,需要高性能、高存储空间的计算设备来支撑。例如,在训练数据的批处理大小为65536时,使用Float32,需要耗费约16GB的内存。但是,目前的计算设备的存储空间、计算能力有限,从而影响图像匹配模型的精度。
基于此,如何在计算设备性能有限的情况下,提高图像匹配模型的性能成为亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种数据处理、图文检索、图像分类方法及相关设备,旨在解决现有技术中计算设备的计算能力和存储空间有限,影响图文匹配模型的图文匹配性能的问题。
为了实现上述目的,本发明提供了一种数据处理方法,所述数据处理方法基于预设的分布式系统,所述分布式系统包括若干计算节点;所述数据处理方法包括:
各第一计算节点分别获取训练样本集中每个样本图像-文本对的样本图像特征和样本文本特征;
其中,所述样本图像特征为待训练图文匹配模型的图像编码器对所述样本图像-文本对的样本图像进行特征提取得到,所述样本文本特征为待训练图文匹配模型的文本编码器对所述样本图像-文本对的样本文本进行特征提取得到;
各所述第一计算节点选择一个样本图像特征作为选定图像特征,确定所述选定图像特征与每个所述样本文本特征的特征相似度,以使预设的第二计算节点确定所述训练样本集对应的梯度信息,并基于所述梯度信息调整所述待训练图文匹配模型的模型参数,得到已训练的图文匹配模型;
其中,各第一计算节点的所述选定图像特征互不相同,且各所述选定图像特征组成所述训练样本集对应所有所述样本图像特征。
可选地,所述确定所述选定图像特征与每个所述样本文本特征的特征相似度之后,所述方法还包括:
所述第一计算节点根据所述选定图像特征与每个所述样本文本特征的所述特征相似度,确定所述选定图像特征对应的选定图像的第一对比损失函数;以及
所述第一计算节点根据选定文本特征与每个所述样本图像特征的特征相似度,确定所述选定文本特征对应的选定文本的第二对比损失函数;
其中,所述选定文本特征为与所述选定图像特征匹配的所述样本文本特征;
第三计算节点获取各所述第一计算节点的第二对比损失函数,并根据所述第二对比损失函数确定各所述选定文本的第三对比损失函数;
所述第二计算节点根据所述第一对比损失函数、所述第二对比损失函数以及所述第三对比损失函数,确定所述训练样本集对应的梯度信息,并基于所述梯度信息调整所述待训练图文匹配模型的模型参数,得到已训练的图文匹配模型。
可选地,所述第一计算节点根据选定文本特征与每个所述样本图像特征的特征相似度,确定所述选定文本特征对应的选定文本的第二对比损失函数之前,所述方法还包括:
所述第一计算节点根据所述选定文本特征,从其他所述第一计算节点中获取所述选定文本特征与所述样本图像特征的特征相似度,以使所述第一计算节点得到所述选定文本特征与每个所述样本图像特征的特征相似度。
可选地,所述第三计算节点获取各所述第一计算节点的第二对比损失函数,并根据所述第二对比损失函数确定各所述选定文本的第三对比损失函数,具体包括:
各所述第一计算节点将各所述选定文本的第二对比损失函数同步至所述第三计算节点;
各所述第三计算节点根据所述各所述选定文本的第二对比损失函数,确定非选定文本的对比损失函数,作为所述选定文本的第三对比损失函数;
其中,所述非选定文本为所述训练样本集合中除所述选定文本外的其他所述样本文本。
可选地,所述第二计算节点根据所述第一对比损失函数、所述第二对比损失函数以及所述第三对比损失函数,确定所述训练样本集对应的梯度信息,具体包括:
各所述第一计算节点将所述第一对比损失函数和所述第二对比损失函数同步至所述第二计算节点;以及
所述第三计算节点将所述第三对比损失函数同步至所述第二计算节点;
所述第二计算节点根据获取的各第一对比损失函数,确定所述训练样本集对应的图像-文本对比损失函数;以及根据各第一对比损失函数,确定所述训练样本集对应的文本-图像对比损失函数;
所述第二计算节点将所述图像-文本对比损失函数的梯度信息作为第一梯度信息、所述文本-图像对比损失函数的梯度信息作为第二梯度信息、以及训练样本集对应的反例文本-图像对比损失函数的梯度信息作为第三梯度信息;
其中,所述反例文本-图像对比损失函数为根据各所述选定文本的所述第三对比损失函数计算得到;
所述第二计算节点将所述第一梯度信息和所述第二梯度信息以及所述第三梯度信息的和值,作为所述训练样本集对应的梯度信息。
可选地,所述分布式系统还包括主控节点,所述方法还包括:
主控节点获取所述训练样本集中的训练样本数量,并基于所述训练样本数量为所述训练样本集分配若干所述第一计算节点。
为了实现上述目的,本发明还提供了一种图文检索方法,其包括:
将待检索文本输入图文匹配模型的文本编码器,以获取所述文本编码器所输出的所述待检索文本的文本特征;
其中,所述图文匹配模型为通过如上任意一项所述的数据处理方法得到的;
基于所述待检索文本的文本特征和预设图像库中各图像的图像特征,计算所述待检索文本与所述预设图像库中每个所述图像的相似度;
其中,所述预设图像库中各所述图像的图像特征为采用所述图文匹配模型的图像编码器获得;
基于相应的所述相似度,从所述预设图像库中确定与所述待检索文本匹配的至少一个图像。
为了实现上述目的,本发明还提供了一种图像分类方法,其包括:
将待分类图像输入图文匹配模型的图像编码器,以获取所述图像编码器输出的所述待分类图像的图像特征;
其中,所述图文匹配模型为通过如上任意一项所述的数据处理方法得到的;
基于所述待分类图像的图像特征和预设文本库中各文本的文本特征,计算所述待分类图像与所述预设文本库中每个所述文本的相似度;
其中,所述预设文本库中各所述文本的文本特征为采用所述图文匹配模型的文本编码器获得;
基于相应的相似度,确定所述预设文本库中确定与所述待分类图像匹配的至少一个文本,作为所述待分类图像的图像标签。
为了实现上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述的图数据处理方法中的步骤,或者如上所述的图文检索方法中的步骤,亦或者如上所述的图像分类方法中的步骤。
为了实现上述目的,本发明还提供了一种终端,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的数据处理方法中的步骤,或者如上所述的图文检索方法中的步骤,亦或者如上所述的图像分类方法中的步骤。
本发明通过将训练样本集中的每个样本图像-文本对的样本图像特征和样本文本特征同步至各第一计算节点,每个第一计算节点仅计算其对应的选定图像特征与每个样本文本特征的特征相似度。基于各第一计算节点计算得到的特征相似度,第二计算节点确定该训练样本集对应的梯度信息,并根据该梯度信息调整待训练图文匹配模型的模型参数,以得到已训练的图文匹配模型。通过上述方法,每个计算节点仅需为原本1/N的计算量,可以实现大规模训练数据的模型训练,即在计算设备的计算能力和存储空间有限的情况下,也可以实现大规模训练数据对图文匹配模型的训练并且可以提高模型的训练速度,以提高训练得到的图文匹配模型的准确度,提高图文检索、零样本图像分类的准确度。
附图说明
图1为现有的CLIP的模型训练的流程示意图;
图2为本发明实施例提供数据处理方法的流程图;
图3为本发明实施例提供的计算第1个样本图像的第一对比损失函数的示意图;
图4为本发明实施例提供的步骤S205的流程图;
图5为本发明实施例提供的计算第1个样本文本的第一对比损失函数的示意图;
图6为本发明实施例提供的步骤S403的流程图;
图7为本发明实施例提供的计算第1个样本文本的第二对比损失函数的示意图;
图8为本发明实施例提供的步骤S404的流程图;
图9为本发明实施例提供的图文检索方法的流程图;
图10为本发明实施例提供的图像分类方法的流程图;
图11为本发明实施例提供的终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图文匹配模型在零样本图像分类、图文检索等方法方面有着巨大潜力,例如图像文本多模态模型(Contrastive Language–Image Pre-training,CLIP)、大规模图像和噪声文本嵌入模型(A Large-scale Image and Noisy-text embedding,ALIGN)、视觉模型(Florence)、对比字幕是图像-文本基础模型(Contrastive Captioners are Image-TextFoundation Models,CoCa)等,其需要利用从网络收集的数亿甚至数十亿的图像-文本对来学习语义丰富、语言一致的视觉表示。其中,CLIP训练过程中的对比学习的目标是将图像-文本对输入到两个编码器学习图像和文本之间的对齐。也就是说,它鼓励成对的图像和文本(称为正样本)相似,同时强制未成对的图像和文本(称为负样本)不相似。如图1所示,CLIP的训练过程如图1所示,需要计算个相似度。
因此,为了保证图文匹配模型的性能需要大规模地训练数据进行模型训练。而目前计算设备的计算能力、存储空间有限,从而限制了训练数据的批处理大小。例如,当批处理大小为65536时,使用Float32数据,该批处理中所有图像-文本对的相似矩阵将花费约16GB,并且主干网络也需要消耗相当一部分GPU内存。
基于此,如何在计算设备的计算能力、存储空间有限的情况下,提高图文匹配模型的图文匹配性能成为亟需解决的技术问题。
首先,本发明提供了一种数据处理方法,如图2所示,该数据处理方法至少可以包括以下步骤:
S201,主控节点获取训练样本集的训练样本数量,并基于训练样本数量为该训练样本集分配若干第一计算节点。
在本发明实施例中,可以预先设置分布式系统,该分布式系统中可以包括主控节点、以及若干计算节点。上述分布式系统中的主控节点和计算节点都可以是GPU,可以理解的是上述主控节点和计算节点也可以是CPU在本发明实施例中不做具体限定。
具体地,针对当前批次用于模型训练的训练样本集,主控节点可以先确定该训练样本集中的训练样本数量,并根据该训练样本集的训练样本数量以及各计算节点的计算能力,为该训练样本集分配N个计算节点作为预设的第一计算节点。
例如,当前批次的训练样本集中具有10000个训练样本,根据分布式系统中计算节点的计算能力,可以为其分配100个计算节点作为第一计算节点。
可以理解的是,可以将用于模型训练的每个批次的训练数据作为一个训练样本集。上述计算节点的计算能力可以是指计算节点的算力。
S202,主控节点通过待训练图文匹配模型,获取训练样本集中每个样本图像-文本对的样本图像特征和样本文本特征。
其中,上述待训练图文匹配模型可以由图像编码器和文本编码器组成,图像编码器用于对图像进行特征提取,文本编码器用于对文本进行特征提取。
训练样本集由多个训练样本组成,每个训练样本即为一个样本图像-样本文本对。其中,每个样本图像-文本对由两个对齐的样本图像、样本文本组成。
上述样本图像特征为待训练图文匹配模型的图像编码器对样本图像进行特征提取得到的;样本文本特征为待训练图文匹配模型的文本编码器对样本文本进行特征提取得到的。
具体地,对样本图像进行特征提取时,将样本图像输入待训练图像模型的图像编码器,从而获得该样本图像的样本图像特征。
其中,样本图像特征表示,/>为第/>个训练样本的样本图像的图像特征。可以将该训练样本集的每个训练样本的样本图像特征组成一个集合,该样本图像特征集合/>表示为/>或者/>,其中,/>表示非/>的其他所有的样本图像特征,/>表示该训练样本集中训练样本的数量,/>的特征维度为(B,D),其中,B为训练样本集的训练样本数量,D为图像特征大小。
在本发明实施例中,对样本文本进行特征提取时,将样本文本输入待训练图文匹配模型的文本编码器中,从而获得该样本文本的样本文本特征。其中,样本文本特征可以表示为,/>为第/>个训练样本的样本文本的图像特征。可以将该训练样本集每个训练样本的样本文本特征组成一个集合,该样本文本特征集合/>表示为/>或者/>,其中,/>表示非/>的其他所有样本文本特征。在本发明实施例中,/>的特征维度也为(B,D),其中,B为训练样本集的训练样本数量,D为图像特征大小。
由于每个样本图像-文本对包含具有图文匹配关系的样本图像和样本文本,对应的每个样本图像-文本对所对应的样本图像特征和样本文本特征也是一对一匹配的,具有相同的图文匹配关系:
其中,上述用于表示样本图像特征/>与文本图像特征/>是一对一匹配的;上述/>用于表示样本图像特征/>与文本图像特征/>是一对一匹配的;上述用于表示样本图像特征/>与文本图像特征/>是一对一匹配的;上述/>用于表示样本图像特征/>与文本图像特征/>是一对一匹配的。
需要说明的是,待训练图文匹配模型可以存储在分布式系统的主控节点中,也可以存储在分布式系统的其他计算节点中,亦可以存储在分布式系统外的其他设备中,在本发明实施例中不做具体限定。
可以理解的是,在待训练图文匹配模型未存储在分布式系统的主控节点时,主控节点可以从其他设备中获取通过待训练图文匹配模型得到的样本图像特征和样本文本特征。
S203,主控节点将每个样本图像-文本对的样本图像特征和样本文本特征以及样本图像-文本对的图文匹配关系,同步至各第一计算节点。
具体地,主控节点在获取到每个样本图像-文本对的样本图像特征和样本文本特征之后,将样本图像特征和样本文本特征以及样本图像-文本对的图文匹配关系,通过allreduce操作,同步至各第一计算节点,以使各第一计算节点可以得到该训练样本集每个训练样本的样本图像特征和样本文本特征。
S204,各第一计算节点选择一个样本图像特征作为选定图像特征,并计算该选定图像特征与每个样本文本特征的特征相似度。
其中,各第一计算节点的选定图像特征互不相同,且各选定图像特征组成各训练样本集对应的所有样本图像特征。
也就是说,训练样本集中每个样本图像特征作为对应第一计算节点的选定图像特征。并且,可以将该选定图像特征对应的样本图像记为选定图像。
例如,第一计算节点A1选择训练样本集中第一个样本图像-文本对的样本图像特征,作为选定图像特征,则计算/>与训练样本集中每个样本文本特征/>的特征相似度。
在本发明实施例中,每个第一计算节点计算选定图像特征与每个样本文本特征的特征相似度,这里所说的特征相似度可以是指余弦相似度。如图3所示,第一计算节点GPU1的选定图像特征为,则计算/>与每个样本文本特征(/>)的特征相似度,分别为:/>
S205,基于各第一计算节点的特征相似度,第二计算节点确定该训练样本集对应的梯度信息。
具体地,第一计算节点可以根据对应的特征相似度,确定每个选定图像特征对应的选定图像的对比损失函数,再将选定图像特征的对比损失函数同步至第二计算节点;第二计算节点根据各选定图像特征的对比损失函数,确定该训练样本集对应的对比损失函数;然后,第二计算节点再根据训练样本集对应的对比损失函数,确定对应的梯度信息。
其中,训练样本集对应的对比损失函数为各选定图像特征的对比损失函数的平均值。
其中,第个选定图像的对比损失函数/>为:
其中,,/>表示第/>个选定图像的样本图像特征(即上述选定图像特征),/>表示第/>个选定图像匹配的样本文本的样本文本特征,/>表示样本文本特征集合,/>表示/>中第/>个样本文本的样本文本特征,/>为超参数。
训练样本集对应的对比损失函数为:
其中,,/>表示第/>个选定图像的样本图像特征(即上述选定图像特征),/>表示第/>个选定图像匹配的样本文本的样本文本特征,/>表示/>中第/>个样本文本的样本文本特征,/>为超参数。
此外在本申请实施例中,第二计算节点可以是第一计算节点中的任一个,也可以是分布式系统中的其他计算节点,在本发明实施例中不做具体限定。
S206,第二计算节点基于梯度信息调整待训练图文匹配模型的模型参数,以得到已训练的图文匹配模型。
具体地,第二计算节点可以根据梯度信息,调整待训练图文匹配模型中图像编码器和文本编码器的参数,以得到已训练的图文匹配模型。
进一步地,第二计算节点可以确定调整后的待训练图文匹配模型是否满足预设条件,在满足预设条件的情况下,该调整后的待训练图文匹配模型即可为已训练的图文匹配模型;在未满足预设条件的情况下,可以按照上述步骤S201-步骤S206提供的数据处理方法,选择下一训练样本集继续对待训练图文匹配模型进行训练,直至该待训练图文匹配模型满足预设条件,从而得到已训练的图文匹配模型。
上述预设条件可以是对比损失函数小于预设阈值或训练次数大于预设次数,在本发明实施例中不做具体限定。
通过上述本发明实施例提供的数据处理方法,每个第一计算节点计算选定图像特征与每个样本文本特征的特征相似度,基于特征相似度第二计算节点可以得到对应的梯度信息,并根据梯度信息对待训练图文匹配模型的模型参数进行调整,以得到已训练的图文匹配模型,在模型训练过程中每个第一计算设备仅需要计算1/N的相似度矩阵,计算量可以从计算量从O(B^2)降低到O(B2N),同时也达到将对比损失的内存成本降到原来1/N。
也就是说,通过上述方案,在计算设备存储空间、计算能力有限的情况下,完成了大规模训练数据对图文匹配模型的训练,提高了模型的训练速度,提高了在零样本图像分类、图文检索等方面的准确度。
进一步地,如图4所示,步骤S205还可以通过至少以下步骤实现:
S401,第一计算节点根据选定图像特征与每个选定文本特征的特征相似度,确定选定图像特征对应的选定图像的对比损失函数,作为第一对比损失函数。
在本发明实施例中,可以将每个选定图像的对比损失函数,作为第一对比损失函数。
其中,第个选定图像的对比损失函数为:
S402,第一计算节点将与选定图像特征匹配的样本文本特征,作为选定文本特征,并根据选定文本特征与每个样本图像特征的特征相似度,确定选定文本特征对应的选定文本的对比损失函数,作为第二对比损失函数。
其中,第个选定文本的对比损失函数为:
其中,,/>表示第/>个选定文本的样本文本特征(即上述选定文本特征),/>表示第/>个选定文本匹配的样本图像的样本图像特征,/>表示样本文本特征集合,/>表示/>中第/>个样本文本的样本文本特征,/>为超参数。
由上述可知,每个样本图像-文本对都具有对应的图文匹配关系,那么根据该图文匹配关系,即可确定与选定图像特征匹配的样本文本特征。在本发明实施例中,将与选定图像特征匹配的样本文本特征作为选定文本特征,该选定文本特征对应的样本文本即为选定为本。
在本发明的一些实施例中,各第一计算节点可以直接计算选定文本特征与每个样本图像特征的特征相似度,如图5所示。
此外,由上述实施例可知,每个第一计算节点都已计算过选定图像特征和每个样本文本特征的特征相似度。因此,在本发明的一些实施例中,第一计算节点根据选定文本特征,可以从其他第一计算节点中获取该选定文本特征与样本图像特征的特征相似度,以使该第一计算节点得到选定文本特征与每个样本图像特征的特征相似度。
也就是说,第一计算节点在确定选定文本特征后,可以从其他第一计算节点中获取该选定文本特征与样本图像特征的特征相似度,从而得到该选定文本特征与每个样本图像特征的特征相似度,避免各第一计算节点间重复计算特征相似度,进一步节约了计算节点的计算资源,提高了模型训练速度。
S403,第三计算节点根据各选定文本的第二对比损失函数,确定各选定文本的第三对比损失函数。
其中,选定文本的第三对比损失函数为根据该选定文本对应的非选定文本的对比损失函数得到。这里所说的非选定文本为该训练样本集中除选定文本外的其他样本文本。
在本发明实施例中,分布式系统中的主控节点可以为该训练样本集分配一计算节点,作为第三计算节点。
如图6所述,步骤S403至少可以通过以下步骤实现:
S601,各第一计算节点将各选定文本的第二对比损失函数同步至第三计算节点。
本发明实施例中,第一计算节点可以在确定选定文本特征对应的选定文本的第二对比损失函数之后,将选定文本的第二对比损失函数同步至第三计算节点。
S602,第三计算节点根据该选定文本对应的各非选定文本的第二对比损失函数,确定该选定文本的第三对比损失函数。
如图7所示,若选定文本为,则非选定文本/>为/>
具体地,选定文本的第三对比损失函数为该选定文本对应的各非选定文本的第二对比损失函数的平均值。
以选定文本为第1个样本文本为例,其选定文本特征为,则其对应的各非选定文本特征为/>,该选定文本的第三对比损失函数为其对应的各非选定文本的第二对比损失函数的平均值,即:
其中,为选定文本特征,/>为/>的选定文本的非选定文本特征,,/>表示样本文本特征集合,/>表示/>中第/>个样本文本的样本文本特征,/>为超参数。
S404,第二计算节点根据第一对比损失函数、第二对比损失函数、以及第三对比损失函数,确定训练样本集对应的梯度信息。
具体地,如图8所示,步骤S404至少可以通过以下步骤实现:
S801,各第一计算节点将第一对比损失函数和第二对比损失函数同步至第二计算节点。
S802,第三计算节点将训练样本集对应的反例文本-图像对比损失函数同步至第二计算节点。
第三计算节点可以根据各选定文本的第三对比损失函数,计算得到该训练样本集对应的反例文本-图像对比损失函数。
具体地,第三计算节点将各选定文本的第三对比损失函数的平均值作为该训练样本集对应的反例文本-图像对比损失函数。
可以理解的是,上述先执行步骤S801,再执行步骤S802;或者先执行步骤S802,再执行步骤S801;亦或者二者同时执行,在本发明实施例中不做具体限定。
S803,第二计算节点根据各第一对比损失函数,确定训练样本集的图像-文本对比损失函数;以及根据各第二对比损失函数,确定训练样本集的文本-图像对比损失函数。
其中,训练样本集的图像-文本对比损失函数即为:
其中,表示第/>个选定图像的对比损失函数,/>为训练样本集中样本图像-文本对的数量。
训练样本集的文本-图像对比损失函数即为:
其中表示第/>个选定文本的对比损失函数,/>为训练样本集中样本图像-文本对的数量。
S804,第二计算节点将图像-文本对比损失函数的梯度信息作为第一梯度信息、将文本-图像对比损失函数的梯度信息作为第二梯度信息、以及将训练样本集对应的反例文本-图像对比损失函数的梯度信息作为第三梯度信息。
S805,第二计算节点将第一梯度信息、第二梯度信息和第三梯度信息的和值,作为训练样本集对应的梯度信息。
具体地,训练样本集对应的梯度信息为:
其中,为图像-文本对比损失函数的梯度信息即第一梯度信息;为文本-图像对比损失函数的梯度信息即第二梯度信息;/>为反例文本-图像对比损失函数的梯度信息即第三梯度信息。
S405,第二计算节点基于训练样本集对应的梯度信息,调整待训练图文匹配模型的模型参数,以得到已训练的图文匹配模型。
如图3、5所示上述第一梯度信息和第二梯度信息是由和/>两项对比损失函数反向传播得到,如图7所示,第三梯度信息由/>反向传播得到。在本发明实施例中,可以将第一梯度信息和第二梯度信息作为intra-GPU梯度,将第三梯度信息作为inter-GPU梯度。
在本发明实施例中,将第一梯度信息和第二梯度信息以及第三梯度信息的和值,作为该训练样本集对应的梯度信息,进一步模型训练过程中所需的计算资源和存储空间。
本发明还提供了一种图文检索方法,如图9所示,该图文检索方法至少可以包括以下步骤:
S901,将待检索文本输入图文匹配模型的文本编码器,以获取所述文本编码器所输出的待检索文本的文本特征。
其中,图文匹配模型为通过上述提供的数据处理方法得到的。该图文匹配模型包括文本编码器和图像编码器。
S902,基于待检索文本的文本特征和预设图像库中各图像的图像特征,计算待检索文本与预设图像库中每个所述图像的相似度。
其中,预设图像库中的各图像的图像特征为采用图文匹配模型的图像编码器获得的。
其中,所述待检索文本与预设图像库中每个所述图像的相似度可以为:待检索文本的文本特征与每个图像的图像特征的特征相似度。
S903,基于相应的相似度,从预设图像库中确定与待检索文本匹配的至少一个图像。
例如,可以预先设置第一预设阈值,将相似度大于第一预设阈值的图像,作为与待检索文本对应的图像。
通过上述实施例提供的图文检索方法,可以进一步提高图文检索的准确性。
本发明还提供了一种图像分类方法,如图10所示,该图像分类方法至少可以包括以下步骤:
S1001,将待分类图像输入图文匹配模型的图像编码器,以获取图像编码器输出的待分类图像的图像特征。
其中,图文匹配模型为通过上述提供的数据处理方法得到的。该图文匹配模型包括文本编码器和图像编码器。
S1002,基于待分类图像的图像特征和预设文本库中各文本的文本特征,计算待分类图像与预设文本库中每个文本的相似度。
其中,预设文本库中的各文本的文本特征为采用图文匹配模型的文本编码器获得的。
其中,所述待分类图像与预设文本库中每个文本的相似度可以为:待分类图像的图像特征与每个文本的文本特征的特征相似度。
S1003,基于相应的相似度,确定预设文本库中确定与待分配图像匹配的至少一个文本,作为的待分类图像的图像标签。
例如,可以预先设置第二预设阈值,将相似度大于第二预设阈值的文本,作为与待分类图像对应的图像标签。
通过上述实施例提供的图像分类方法,可以实现图像的零样本分类,并且具有较高的分类准确性。
基于上述数据处理方法、图文检索方法以及图像分类方法,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的数据处理方法中的步骤,或者图文检索方法中的步骤,亦或者图像分类方法中的步骤。
基于上述数据处理方法、图文检索方法以及图像分类方法,本发明还提供了一种终端,如图11所示,其包括至少一个处理器(processor)30;显示屏31;以及存储器(memory)32,还可以包括通信接口(Communications Interface)33和总线34。其中,处理器30、显示屏31、存储器32和通信接口33可以通过总线34完成相互间的通信。显示屏31设置为显示初始设置模式中预设的用户引导界面。通信接口33可以传输信息。处理器30可以调用存储器32中的逻辑指令,以执行上述实施例所述的数据处理方法,或者图文检索方法,亦或者图像分类方法。
此外,上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器32作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器32中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器32可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对终端和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的终端和介质与方法是一一对应的,因此,终端和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述终端和介质的有益技术效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可读存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种数据处理方法,其特征在于,所述数据处理方法基于预设的分布式系统,所述分布式系统包括若干计算节点;所述数据处理方法包括:
各第一计算节点分别获取训练样本集中每个样本图像-文本对的样本图像特征和样本文本特征;
其中,所述样本图像特征为待训练图文匹配模型的图像编码器对所述样本图像-文本对的样本图像进行特征提取得到,所述样本文本特征为所述待训练图文匹配模型的文本编码器对所述样本图像-文本对的样本文本进行特征提取得到;
各所述第一计算节点选择一个所述样本图像特征作为选定图像特征,确定所述选定图像特征与每个所述样本文本特征的特征相似度,以使预设的第二计算节点确定所述训练样本集对应的梯度信息,并基于所述梯度信息调整所述待训练图文匹配模型的模型参数,得到已训练的图文匹配模型;
所述确定所述选定图像特征与每个所述样本文本特征的特征相似度之后,所述方法还包括:
所述第一计算节点根据所述选定图像特征与每个所述样本文本特征的所述特征相似度,确定所述选定图像特征对应的选定图像的第一对比损失函数;以及所述第一计算节点根据选定文本特征与每个所述样本图像特征的特征相似度,确定所述选定文本特征对应的选定文本的第二对比损失函数;
所述第一计算节点根据选定文本特征与每个所述样本图像特征的特征相似度,确定所述选定文本特征对应的选定文本的第二对比损失函数之前,所述方法还包括:
所述第一计算节点根据所述选定文本特征,从其他所述第一计算节点中获取所述选定文本特征与所述样本图像特征的特征相似度,以使所述第一计算节点得到所述选定文本特征与每个所述样本图像特征的特征相似度;
其中,所述选定文本特征为与所述选定图像特征匹配的所述样本文本特征;
第三计算节点获取各所述第一计算节点的第二对比损失函数,并根据所述第二对比损失函数确定各所述选定文本的第三对比损失函数;
所述第三计算节点获取各所述第一计算节点的第二对比损失函数,并根据所述第二对比损失函数确定各所述选定文本的第三对比损失函数,具体包括:
各所述第一计算节点将各所述选定文本的第二对比损失函数同步至所述第三计算节点;
各所述第三计算节点根据所述各所述选定文本的第二对比损失函数,确定非选定文本的对比损失函数,作为所述选定文本的第三对比损失函数;
其中,所述非选定文本为所述训练样本集合中除所述选定文本外的其他所述样本文本;
所述第二计算节点根据所述第一对比损失函数、所述第二对比损失函数以及所述第三对比损失函数,确定所述训练样本集对应的梯度信息,并基于所述梯度信息调整所述待训练图文匹配模型的模型参数,得到已训练的图文匹配模型;
所述第二计算节点根据所述第一对比损失函数、所述第二对比损失函数以及所述第三对比损失函数,确定所述训练样本集对应的梯度信息,具体包括:
各所述第一计算节点将所述第一对比损失函数和所述第二对比损失函数同步至所述第二计算节点;以及所述第三计算节点将所述第三对比损失函数同步至所述第二计算节点;
所述第二计算节点根据获取的各第一对比损失函数,确定所述训练样本集对应的图像-文本对比损失函数;以及根据各第二对比损失函数,确定所述训练样本集对应的文本-图像对比损失函数;
所述第二计算节点将所述图像-文本对比损失函数的梯度信息作为第一梯度信息、所述文本-图像对比损失函数的梯度信息作为第二梯度信息、以及训练样本集对应的反例文本-图像对比损失函数的梯度信息作为第三梯度信息;
其中,所述反例文本-图像对比损失函数为根据各所述选定文本的所述第三对比损失函数计算得到;
所述第二计算节点将所述第一梯度信息和所述第二梯度信息以及所述第三梯度信息的和值,作为所述训练样本集对应的梯度信息。
2.根据权利要求1所述的数据处理方法,其特征在于,所述分布式系统还包括:主控节点,所述方法还包括:
主控节点获取所述训练样本集中的训练样本数量,并基于所述训练样本数量为所述训练样本集分配若干所述第一计算节点。
3.一种图文检索方法,其特征在于,所述方法包括:
将待检索文本输入图文匹配模型的文本编码器,以获取所述文本编码器所输出的所述待检索文本的文本特征;
其中,所述图文匹配模型为通过如权利要求1-2中任意一项所述的数据处理方法得到的;
基于所述待检索文本的文本特征和预设图像库中各图像的图像特征,计算所述待检索文本与所述预设图像库中每个所述图像的相似度;
其中,所述预设图像库中各所述图像的图像特征为采用所述图文匹配模型的图像编码器获得;
基于相应的所述相似度,从所述预设图像库中确定与所述待检索文本匹配的至少一个图像。
4.一种图像分类方法,其特征在于,所述方法包括:
将待分类图像输入图文匹配模型的图像编码器,以获取所述图像编码器输出的所述待分类图像的图像特征;
其中,所述图文匹配模型为通过如权利要求1-2中任意一项所述的数据处理方法得到的;
基于所述待分类图像的图像特征和预设文本库中各文本的文本特征,计算所述待分类图像与所述预设文本库中每个所述文本的相似度;
其中,所述预设文本库中各所述文本的文本特征为采用所述图文匹配模型的文本编码器获得;
基于相应的相似度,确定所述预设文本库中确定与所述待分类图像匹配的至少一个文本,作为所述待分类图像的图像标签。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-2任意一项所述的数据处理方法中的步骤,或者如权利要求3所述的图文检索方法中的步骤,亦或者如权利要求4所述的图像分类方法中的步骤。
6.一种终端,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1-2任意一项所述的数据处理方法中的步骤,或者如权利要求3所述的图文检索方法中的步骤,亦或者如权利要求4所述的图像分类方法中的步骤。
CN202310523094.XA 2023-05-10 2023-05-10 数据处理、图文检索、图像分类方法及相关设备 Active CN116226688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310523094.XA CN116226688B (zh) 2023-05-10 2023-05-10 数据处理、图文检索、图像分类方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310523094.XA CN116226688B (zh) 2023-05-10 2023-05-10 数据处理、图文检索、图像分类方法及相关设备

Publications (2)

Publication Number Publication Date
CN116226688A CN116226688A (zh) 2023-06-06
CN116226688B true CN116226688B (zh) 2023-10-31

Family

ID=86570118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310523094.XA Active CN116226688B (zh) 2023-05-10 2023-05-10 数据处理、图文检索、图像分类方法及相关设备

Country Status (1)

Country Link
CN (1) CN116226688B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701637B (zh) * 2023-06-29 2024-03-08 中南大学 一种基于clip的零样本文本分类方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003758A (zh) * 2021-12-30 2022-02-01 航天宏康智能科技(北京)有限公司 图像检索模型的训练方法和装置以及检索方法和装置
CN114549874A (zh) * 2022-03-02 2022-05-27 北京百度网讯科技有限公司 多目标图文匹配模型的训练方法、图文检索方法及装置
CN114782719A (zh) * 2022-04-26 2022-07-22 北京百度网讯科技有限公司 一种特征提取模型的训练方法、对象检索方法以及装置
CN115512005A (zh) * 2022-08-22 2022-12-23 华为技术有限公司 一种数据处理方法及其装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049310B2 (en) * 2016-08-30 2018-08-14 International Business Machines Corporation Image text analysis for identifying hidden text
US11157730B2 (en) * 2019-06-24 2021-10-26 Scinapsis Analytics Inc. Determining experiments represented by images in documents
CN111709533B (zh) * 2020-08-19 2021-03-30 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003758A (zh) * 2021-12-30 2022-02-01 航天宏康智能科技(北京)有限公司 图像检索模型的训练方法和装置以及检索方法和装置
CN114549874A (zh) * 2022-03-02 2022-05-27 北京百度网讯科技有限公司 多目标图文匹配模型的训练方法、图文检索方法及装置
CN114782719A (zh) * 2022-04-26 2022-07-22 北京百度网讯科技有限公司 一种特征提取模型的训练方法、对象检索方法以及装置
CN115512005A (zh) * 2022-08-22 2022-12-23 华为技术有限公司 一种数据处理方法及其装置

Also Published As

Publication number Publication date
CN116226688A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN105183720B (zh) 基于rnn模型的机器翻译方法和装置
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN108460396A (zh) 负采样方法和装置
CN112819686B (zh) 基于人工智能的图像风格处理方法、装置及电子设备
EP3542319A1 (en) Training neural networks using a clustering loss
CN116226688B (zh) 数据处理、图文检索、图像分类方法及相关设备
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN114741581A (zh) 一种图像分类方法、装置、计算机设备及介质
CN111738010B (zh) 用于生成语义匹配模型的方法和装置
CN103177105A (zh) 一种图像检索方法及装置
CN113657411A (zh) 神经网络模型的训练方法、图像特征提取方法及相关装置
CN111400524B (zh) 一种基于ai的可变尺度地质图文本矢量化方法及系统
JP2022541832A (ja) 画像を検索するための方法及び装置
CN111488450A (zh) 一种用于生成关键词库的方法、装置和电子设备
CN114816719B (zh) 多任务模型的训练方法及装置
CN110209895A (zh) 向量检索方法、装置和设备
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN108710607B (zh) 文本改写方法及装置
CN112287640A (zh) 一种基于中文字符结构的序列标注方法
CN113516735A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN111930976B (zh) 演示文稿生成方法、装置、设备及存储介质
Lu et al. Complementary pseudolabel based on global-and-channel information for unsupervised person reidentification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant