CN113947700A - 模型确定方法、装置、电子设备和存储器 - Google Patents

模型确定方法、装置、电子设备和存储器 Download PDF

Info

Publication number
CN113947700A
CN113947700A CN202111212317.8A CN202111212317A CN113947700A CN 113947700 A CN113947700 A CN 113947700A CN 202111212317 A CN202111212317 A CN 202111212317A CN 113947700 A CN113947700 A CN 113947700A
Authority
CN
China
Prior art keywords
image
text
queue
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111212317.8A
Other languages
English (en)
Inventor
王龙超
孙逸鹏
姚锟
韩钧宇
刘经拓
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111212317.8A priority Critical patent/CN113947700A/zh
Publication of CN113947700A publication Critical patent/CN113947700A/zh
Priority to EP22181294.4A priority patent/EP4167137A1/en
Priority to US17/887,690 priority patent/US20230124389A1/en
Priority to JP2022166953A priority patent/JP2023060846A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种模型确定方法、装置、电子设备和存储器,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习领域,可应用于图像处理、图像识别等场景。具体实现方案为:获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述;将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列;对第一队列和第二队列进行训练,得到第一目标模型;将第一目标模型确定为第二目标模型的初始化模型,解决了初始化模型训练的效率低的技术问题。

Description

模型确定方法、装置、电子设备和存储器
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉和深度学习领域,可应用于图像处理、图像识别等场景,具体涉及一种模型确定方法、装置、电子设备和存储器。
背景技术
目前,在图文预训练中,通常采用对比损失(loss)来训练得到初始化模型,但是这需要采用大量的计算资源来训练模型,并且需要消耗大量的时间,使得初始化模型的训练指标不高。
发明内容
本公开提供了一种模型确定方法、装置、电子设备和存储器。
根据本公开的一方面,提供了一种模型确定方法。该方法可以包括:获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述;将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列;对第一队列和第二队列进行训练,得到第一目标模型;将第一目标模型确定为第二目标模型的初始化模型。
根据本公开的一方面,还提供了另一种模型确定方法。该方法可以包括:向服务器发送模型训练请求,其中,模型训练请求包括图像样本和文本样本,文本样本中的文本用于对图像样本中的目标图像进行文字描述;接收服务器响应模型训练请求而发送的初始化模型,其中,初始化模型为服务器将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,对第一队列和第二队列进行训练得到。
根据本公开的一方面,提供了一种图像处理方法。该方法可以包括:获取待处理图像;将待处理图像输入至第二目标模型中,其中,第二目标模型为由本公开实施例的模型确定方法获得;获取第二目标模型的处理结果。
根据本公开的另一方面,还提供了一种模型确定装置。该装置可以包括:第一获取单元,用于获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述;存储单元,用于将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列;训练单元,用于对第一队列和第二队列进行训练,得到第一目标模型;确定单元,用于将第一目标模型确定为第二目标模型的初始化模型。
根据本公开的另一方面,还提供了另一种模型确定装置。该装置可以包括:发送单元,用于向服务器发送模型训练请求,其中,模型训练请求包括图像样本和文本样本,文本样本中的文本用于对图像样本中的目标图像进行文字描述;接收单元,用于接收服务器响应模型训练请求而发送的初始化模型,其中,初始化模型为服务器将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,对第一队列和所述第二队列进行训练得到。
根据本公开的另一方面,还提供了另一种图像处理装置。该装置可以包括:第二获取单元,用于获取待处理图像;输入单元,用于将待处理图像输入至第二目标模型中,其中,第二目标模型为由本公开实施例的模型确定方法获得;第三获取单元,用于获取第二目标模型的处理结果。
根据本公开的另一方面,还提供了一种电子设备。该电子设备可以包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的模型确定方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例的模型确定方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A是根据本公开实施例的一种模型确定方法的流程图;
图1B是根据本公开实施例的另一种模型确定的方法的流程图;
图1C是根据本公开实施例的一种图像处理方法的流程图;
图2是根据本公开实施例的一种基于队列技术的图文预训练系统的示意图;
图3是根据本公开实施例的一种Deit模型结构的示意图;
图4A是根据本公开实施例的一种队列模块的示意图;
图4B是根据本公开实施例的一种图像特征和文本特征进行匹配的示意图;
图5A是根据本公开实施例的一种模型确定装置的示意图;
图5B是根据本公开实施例的另一种模型确定装置的示意图;
图5C是根据本公开实施例的一种图像处理装置的示意图;
图6是根据本公开实施例的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1A是根据本公开实施例的一种模型确定方法的流程图。如图1A所示,该方法可以包括以下步骤:
步骤S102,获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述。
在本公开上述步骤102提供的技术方案中,文本(text)样本中的文本(文本数据)用于对图像(image)样本中的目标图像(图像数据)进行文字描述。
该实施例的模型确定方法为针对图文预训练的模型确定方法。图文预训练需要大量的数据,该实施例可以获取图像样本和文本样本以作为训练样本,该文本样本与图像样本是相对应的,其中,文本样本中可以包括大量文本,图像样本可以包括大量图像,该图像可以包括图片,每个文本可以用于对图像样本中大量图像的目标图像进行文字描述,也即,文本样本中的每个文本与图像样本中的目标图像是一一对应的,该文本样本中的每个文本和对应的目标图像也可以称为图像文本对。
可选地,该实施例可以通过互联网爬虫来爬取上述图像样本和文本样本。
可选地,该实施例的上述图像样本和文本样本可以无需人工标注和清洗,以节约人工成本。
步骤S104,将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列。
在本公开上述步骤104提供的技术方案中,获取图像样本和文本样本之后,将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,其中,第一队列和第二队列可以统称为图文双队列。
由于图文预训练中的对比loss非常依赖其挖掘信息负对的能力,为了从每个最小批(minibatch)中收集到足够的信息负对,该实施例设置了双队列模块,其中包括第一队列和第二队列。该实施例可以先获取图像样本的图像特征,可以将图像样本输入至图像编码器(Image Encoder),通过该图像编码器从图像样本中提取出第一图像特征,比如,该图像特征可以为I1、I2……IN,进而将其存储至第一队列中,也即,该实施例的第一队列为图像特征的队列。可选地,该实施例的第一队列存储的图像特征的数量是有限的,当第一队列不足以存储新的图像特征时,可以在第一队列中删除最早存储的图像特征,以腾出空间来存储新的图像特征,从而通过第一队列实现了记录和更新图像特征的目的,以提高初始化模型的训练速度和模型指标(训练指标),该模型指标为用于表示初始化模型的训练效果的指标。
可选地,该实施例的上述图像编码器可以使用数据高效图像(Deit)模型进行第一图像特征的提取,也即,Deit将变形模型(Transformer)从自然语言处理(NaturalLanguage Processing,简称为NLP)中应用到了计算机视觉(Comouter Vision,简称为CV)。
该实施例还可以获取文本样本的文本特征,可以是将文本样本输入至文本编码器(Text Encoder),通过该文本编码器从文本样本中提取出文本特征,该文本特征可以为T1、T2……TN,进而将其存储至第二队列中,也即,该实施例的第二队列为文本特征的队列。可选地,该实施例的第二队列存储的文本特征的数量是有限的,当第二队列不足以存储新的文本特征时,可以在第二队列中删除最早存储的文本特征,以腾出空间来存储新的文本特征,从而通过第二队列实现了记录和更新文本特征的目的,以提高初始化模型的训练速度和模型指标。
可选地,该实施例的上述文本编码器可以使用RoBERTa模型进行文本特征的提取,其中,RoBERTa模型是在语言表示模型(BERT)的基础上进行的升级,包括在模型的具体细节层面,改进了优化函数;在训练策略层面,改用了动态掩码的方式来训练模型,证明了下一语句预测模型(Next Sentence Prediction,简称为NSP)训练策略的不足,采用了更大的批尺寸(batch size);另外,在数据层面,一方面使用了更大的数据集,另一方面是使用字节编码对(Byte-Pair Encoding,简称为BPE)来处理文本数据。
步骤S106,对第一队列和第二队列进行训练,得到第一目标模型。
在本公开上述步骤106提供的技术方案中,在将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列之后,对第一队列和第二队列进行训练,得到第一目标模型。
在该实施例中,可以对第一队列和第二队列进行训练,可选地,对第一队列、图像样本中的当前批次的图像特征、第二队列、文本样本中的当前批次的文本特征通过对比学习模型进行对比学习训练,来等效增大批尺寸(batchsize),从而在节约计算资源的同时,也可以提高初始化模型的模型指标。其中,当前批次是指当前对图像样本中的图像特征进行批量训练的一个批次。
步骤S108,将第一目标模型确定为第二目标模型的初始化模型。
在本公开上述步骤108提供的技术方案中,在对第一队列和第二队列进行训练,得到第一目标模型之后,可以将第一目标模型确定为第二目标模型的初始化模型。
在该实施例中,将第一目标模型确定为第二目标模型的初始化模型,该初始化模型用于训练得到第二目标模型,该第二目标模型可以是图像检检测模型、图像分割模型、图像分类模型等。
需要说明的是,该实施例的上述第二目标模型为图像检测模型、图像分割模型、图像分类模型仅为本公开实施例的一种举例,并不代表本公开实施例的第二目标模型仅为图像检测模型、图像分割模型、图像分类模型,任何可以通过对初始化模型进行训练所得到的模型都在该实施例的范围之内,此处不再一一举例说明。
通过本申请上述步骤S102至步骤S108,获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述;将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列;对第一队列和第二队列进行训练,得到第一目标模型;将第一目标模型确定为第二目标模型的初始化模型。也就是说,该实施例的预训练采用了双队列分别保存图像特征和文本特征,并将其用于初始化模型的训练,可以大量节约计算资源,解决了初始化模型训练的效率低的技术问题,达到了提高初始化模型训练的效率的技术效果。
下面对该实施例的上述方法进行进一步介绍。
作为一种可选的实施方式,步骤S106,对第一队列和第二队列进行训练,得到第一目标模型包括:基于第一队列和第二队列确定负样本;对负样本进行训练,得到第一目标模型。
在该实施例中,在实现对第一队列和第二队列进行训练,得到第一目标模型时,可以基于第一队列和第二队列获取负样本,进而对负样本进行训练,可以使其参与损失计算,从而得到第一目标模型,大量节约了计算资源,进而提高初始化模型的训练速度和训练指标,其中,该训练指标为用于表示初始化模型的训练效果的指标。
作为一种可选的实施方式,负样本包括第一负样本和第二负样本,其中,基于第一队列和第二队列确定负样本包括:基于第一队列和文本特征确定第一负样本;基于第二队列和图像特征确定第二负样本。
在该实施例中,在将图像样本中的图像特征存储至第一队列之后,可以基于第一队列和文本特征确定第一负样本,可以是将第一队列和文本样本中的目标批(batch)样本中文本特征组成第一负样本,上述负样本包括该第一负样本。可选地,在将文本样本中的文本特征存储至第二队列中,可以是将第二队列和图像样本中目标批样本中图像特征组成第二负样本,上述负样本包括第二负样本,该第二负样本和第一负样本参与loss计算。由于负样本的数量非常影响初始化模型的训练效果,从而通过上述方法大大增加负样本的数目,可以提高初始化模型的训练速度和模型指标。
作为一种可选的实施方式,基于第一队列和文本特征确定第一负样本包括:基于第一队列和文本样本中当前批次样本的文本特征确定第一负样本。
在该实施例中,在实现基于第一队列和文本特征确定第一负样本时,可以是获取文本样本中当前批次样本的文本特征,也即,获取当前batch中的文本特征,然后将第一队列和当前批次样本的文本特征组成第一负样本,以增加负样本的数目。
作为一种可选的实施方式,基于第二队列和图像特征确定第二负样本包括:基于第二队列和图像样本中当前批次样本的图像特征确定第二负样本。
在该实施例中,在实现基于第二队列和图像特征确定第二负样本时,可以是获取文本样本中当前批次样本的文本特征,也即,获取当前batch中的图像特征,然后将第二队列和当前批次样本的图像特征组成第二负样本,以增加负样本的数目。
作为一种可选的实施方式,对负样本进行训练,得到第一目标模型包括:对负样本中多个图像特征和多个文本特征进行匹配,得到多个匹配结果和多个未匹配结果,其中,匹配结果包括互相匹配成功的图像特征和文本特征,未匹配结果包括互相匹配失败的图像特征和文本特征;基于多个匹配结果和多个未匹配结果确定模型参数;基于模型参数确定第一目标模型。
在该实施例中,在实现对负样本进行训练,得到第一目标模型时,可以是分别对负样本中多个图像特征和多个文本特征进行匹配,比如,该图像特征可以为I1、I2……IN,文本特征可以为T1、T2……TN,分别对上述I1、I2……IN以及T1、T2……TN进行匹配,得到多个匹配结果和多个未匹配结果,匹配结果可以包括互相匹配成功的图像特征和文本特征,比如,I1·T1、I2·T2……IN·TN,而未匹配结果可以包括互相匹配失败的图像特征和文本特征,比如,I1·T2、I1·T3……I1·TN、I2·T1、I2·T3……I2·TN等。
在确定出上述多个匹配结果和多个未匹配结果之后,可以基于多个匹配结果和多个未匹配结果确定模型参数。可选地,该实施例使用损失函数(InfoNCE loss)利用多个匹配结果和多个未匹配结果来进行实现,比如,通过下述公式进行实现:
Figure BDA0003309333400000081
其中,xi用于表示网络输出结果属于第i类别的概率,xj用于表示网络输出结果属于第j类别的概率,可选地,在该实施例中,上述exp(xi)可以用于表示多个图像特征和多个文本特征进行匹配的匹配结果,而∑j exp(xj)可以用于表示多个图像特征和多个文本特征之间的不匹配结果。
因而,该实施例在加入第一队列和第二队列之后,相当于增加infoNCEloss的负样本,从而可以大量节约计算资源。
在确定模型参数之后,该实施例可以通过该模型参数来生成第一目标模型。
可选地,该实施例的上述对比学习模型可以主要使用InfoNCE loss,来生成第一目标模型。
作为一种可选的实施方式,图像样本包括图像噪声数据和/或文本样本包括文本噪声数据。
在该实施例中,图文预训练需要大量数据,获取图像样本和文本样本是容许一定的噪声数据的,图像样本可以包括图像噪声数据,文本样本可以包括第二文本噪声数据,也即,该实施例可以不用对图像样本中的图像噪声数据和文本样本中的文本噪声数据进行特别处理,以节约人工成本。
作为一种可选的实施方式,图像样本为未标注图像样本和/或文本样本为未标注文本样本。
在该实施例中,可以采用大量无标注的文本样本和图像样本作为训练样本,无需人工标注和清洗,以节约人工成本,进而将大量无标注的文本样本通过文本编码器提取出文本特征,将其存储至第二队列,将大量无标注的图像样本通过图像编码器提取出图像特征,将其存储至第一队列,以对第一队列和第二队列进行训练,得到初始化模型。
图1B是根据本公开实施例的另一种模型确定的方法的流程图。如图1B所示,该方法可以包括以下步骤:
步骤S1002,向服务器发送模型训练请求,其中,模型训练请求包括图像样本和文本样本,文本样本中的文本用于对图像样本中的目标图像进行文字描述。
在本公开上述步骤1002提供的技术方案中,为了能够训练得到一个出来精度较高的初始化模型,需要采用大量的图像样本和文本样本进行训练,整个训练过程的数据量和运算量较大。为了减少用户设备(比如,智能手机、平板电脑、笔记本电脑、掌上电脑、个人计算机等)的资源消耗,可以由服务进行模型的训练,用户设备中仅部署训练好的模型即可,以方便用户使用。
在该实施例中,上述模型训练请求可以根据用户的模型使用需求生成,该模型训练请求中包括需要处理的图像样本和文本样本,还可以包括预期达到的处理结果等。
可选地,在该实施例中,可以在用户设备上提供一个图形用户界面,用户在图形用户界面的输入区域内输入模型训练请求,从而用户设备可以通过网络将模型训练请求发送至服务器。为了更加有针对性,服务器可以针对用户的类型,给用户提供不同的模型训练方案,由用户在输入区域内进行选择,从而用户设备可以根据用户的旋转结果生成模型训练请求,并通过网络发送给服务器。
步骤S1004,接收服务器响应模型训练请求而发送的初始化模型,其中,初始化模型为服务器将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,对第一队列和第二队列进行训练得到。
在本公开上述步骤1004提供的技术方案中,服务器响应模型训练请求,可以是服务器先获取图像样本的图像特征,可以将图像样本输入至图像编码器,通过该图像编码器从图像样本中提取出第一图像特征,进而将其存储至第一队列中。可选地,当第一队列不足以存储新的图像特征时,服务器可以在第一队列中删除最早存储的图像特征,以腾出空间来存储新的图像特征,从而通过第一队列实现了记录和更新图像特征的目的,以提高初始化模型的训练速度和模型指标。
该实施例的服务器还可以获取文本样本的文本特征,服务器可以是将文本样本输入至文本编码器,通过该文本编码器从文本样本中提取出文本特征,进而将其存储至第二队列中。可选地,当第二队列不足以存储新的文本特征时,服务器可以在第二队列中删除最早存储的文本特征,以腾出空间来存储新的文本特征,从而通过第二队列实现了记录和更新文本特征的目的,以提高初始化模型的训练速度和模型指标。
在服务器将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列之后,服务器可以对第一队列和第二队列进行训练,可以是对第一队列、图像样本中的当前批次的图像特征、第二队列、文本样本中的当前批次的文本特征通过对比学习模型进行对比学习训练,来等效增大批尺寸(batchsize),从而得到初始化模型,这样在节约计算资源的同时,也可以提高初始化模型的模型指标。
进一步地,为了大幅度减少用户设备的运算负担,可以直接将训练好的初始化模型部署在服务器中,用户设备通过特定接口连接服务器,通过网络向服务器发送模型获取请求,用户设备通过网络获取服务器响应模型获取请求而发送的初始化模型,将其作为第二目标模型的初始化模型,实现了模型预训练目的。
图1C是根据本公开实施例的一种图像处理方法的流程图。如图1C所示,该方法可以包括以下步骤:
步骤S10002,获取待处理图像。
在本公开上述步骤10002提供的技术方案中,待处理图像可以为需要待进行图像处理的图像,比如,为需待进行图像检测、图像分割、图像分类、图像识别等处理的图像,该处理类型可以根据图像应用场景来进行灵活确定,比如,根据道路场景、教育场景、植被生长预测场景、天气预测场景等来灵活确定,此处对其不做具体限制。
可选地,该实施例可以通过图像采集设备来采集待处理图像,比如,通过在一定空间部署的摄像头来采集待处理图像。
步骤S10004,将待处理图像输入至第二目标模型中,其中,第二目标模型为由本公开实施例的模型确定方法获得。
在本公开上述步骤10004提供的技术方案中,可以将采集到的待处理图像输入至第二目标模型中,可选地,该实施例的第二目标模型通过对初始化模型进行训练得到,而该初始化模型可以为将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,对第一队列和第二队列进行训练得到,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述,比如,该初始化模型可以为循环神经网络模型,此处不做具体限制。
可选地,在该实施例中,在实现对初始化模型进行训练,得到第二目标模型时,可以是预先采集大量的样本数据,该样本数据可以包括大量的图像样本,可以对其进行标注,得到多个标签,该标签可以为与图像检测、图像分割、图像分类、图像识别等图像处理相关的标签。然后通过样本数据和对应的标签对初始化模型进行训练,得到第二目标模型。
可选地,该实施例在样本数据中,可以是通过卷积神经网络对每个样本数据提取特征,来得到包括多个特征的特征向量,比如,该特征向量包括与上述标签相关的特征,通过特征向量和对应的标签对初始化模型进行训练,可以得到目标参数,该目标参数可以是模型的优化参数,可以通过该目标参数和初始化模型来确定第二目标模型。
可选地,该实施例可以按照分布一致性算法、去噪等算法对样本数据进行预处理,再从预处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用于训练初始化模型的特征。可选地,该实施例还可以进一步通过优化算法、假设函数、损失函数、决策边界、收敛速度、迭代策略等对特征进行进一步处理,通过处理后的特征对初始化模型进行训练,得到第二目标模型。
可选地,该实施例在第二目标模型之后,还可以对第二目标模型进行交叉验证、评估目标、过拟合、欠拟合等评价,从而确定最终的第二目标模型,以通过第二目标模型实现对输入图像的图像检测、图像分割、图像分类、图像识别等处理。
步骤S10006,获取第二目标模型的处理结果。
在本公开上述步骤10006提供的技术方案中,第二目标模型可以对待处理图像进行处理,比如,对第二目标模型进行图像检测、图像分割、图像分类、图像识别等处理,得到处理结果,该处理结果可以包括图像检测结果、图像分割结果、图像分类结果、图像识别结果等,进行对其进行输出,比如,通过图形用户界面显示图像检测结果、图像分割结果、图像分类结果、图像识别结果等,以对其进行进一步分析。
在该实施例中,预训练采用基于队列技术的图文预训练优化,保存图像和文本特征,并用于infonceloss的计算。在加入图文双队列以后,相当于增加infoNCEloss的负样本,也即,双队列技术等效增大batchsize,从而可以大量节约计算资源,并且可以提供初始化模型的模型指标,解决了初始化模型训练的效率低的技术问题,达到了提高初始化模型训练的效率的技术效果。
下面结合优选的实施方式对本公开实施例的上述技术方案进行进一步地举例说明。
在相关技术中,图文预训练需要大量的图文样本和大量的计算资源。图文预训练可以采用对比loss进行训练,其中,负样本的数量非常影响模型的效果,因而,batchsize越大,则模型的效果越好。但是,batchsize增大,则意味着需要更大的显存。并且相关技术中的图文预训练需要大量的GPU等计算资源,训练时间很长,预训练模型指标较低,需要优化方案以持续提升模型指标。
另外,相关技术中的图文预训练采用的大量的计算资源训练模型,如大量的图像处理器(TPU)、分布式等,而且相关技术的预训练需要消耗大量的时间,训练过程也非常漫长,模型的指标有待提高。
针对以上问题,该实施例采样双队列技术等效增大batchsize,在节约训练资源的同时也可以提高模型指标。下面对该实施例的上述方法进行进一步介绍。
图2是根据本公开实施例的一种基于队列技术的图文预训练系统的示意图。如图2所示,搜集大量的图像样本和文本样本(Noisy Product Image-Text Data),其中,图像样本包括图片,文本样本包括与图片对应的文本数据。该实施例的图文预训练需要大量数据,并且可以容许一定的噪声。该实施例可以采用大量无标注的文本样本和图像样本作为训练样本,无需人工标注和清洗,将图像样本输入至文本编码器,以提取出图像样本的图像特征,将图像特征存储至图像特征队列,将对应的文本样本输入至图像编码器,以提取出文本样本的文本特征,将文本特征存储至文本特征队列,进而对图像特征队列、当前batch中的图像特征、文本特征队列、当前batch中的文本特征通过对比学习模型进行对比学习,从而得到初始化模型。
在该实施例中,上述文本编码器模块使用RoBERTa模型进行文本特征的提取,RoBERTa模型是在BERT模型的基础上进行的升级。图像编码器使用Deit模型进行图像特征提取,如图3所示,其中,图3是根据本公开实施例的一种Deit模型结构的示意图,通过输入数据类别令牌(class token)、块令牌(patch tokens)、蒸馏令牌(distinguish token),经过自注意力机制(self attention)和全连接网络(FFN)的处理,所得到的输出结果可以用于得到图像特征。该实施例的Deit将transformer从NLP中应用到了计算机视觉。
在该实施例中,图文预训练中的对比loss非常依赖其挖掘信息负对的能力,为了从每个minibatch中收集到足够的信息负对,本公开增加了两个队列,分别用于存储图像特征和文字特征。整个训练过程中,实例的embedding实际上以一个相对缓慢的速度进行变化。基于这种现象,本公开提出了一个跨批处理内存模块来记录和更新最近的小批处理的深层特性,从而可以跨小批处理挖掘信息实例,提高训练速度和模型指标。其中,最近的小批处理指的是队列的长度是一定的,如果当前存储的特征量达到队列的长度时,则队列中最早存储的特征就会被丢掉,以存储新的特征。
图4A是根据本公开实施例的一种队列模块的示意图。如图4A所示,该实施例的队列模块包含图像特征队列和文本特征队列,其中,图像特征队列用于存储经编码器(Encoder)处理后得到的图像样本的特征,其中可以包括负图像样本(Negative Images)的特征和当前批次的图像(Image)样本的图像特征,文本特征队列用于存储经由编码器处理得到的文本样本的特征,其中可以包括负文本样本(Texts Images)的特征和当前批次中的文本(Text)样本的图像特征。可选地,图形特征队列和当前batch中的文本特征组成负样本,文本特征队列和当前batch中的图像特征组成负样本,这两部分负样本参与loss计算,如此可以大大增加负样本数目,进而提高了初始化模型的训练速度和训练指标。
该实施例的对比学习模块可以主要使用InfoNCE loss,其计算公式如下:
Figure BDA0003309333400000141
其中,xi用于表示网络输出结果属于第i类别的概率,xj用于表示网络输出结果属于第j类别的概率,上述exp(xi)可以用于表示图像特征和文本特征相匹配的匹配结果,而∑j exp(xj)可以用于表示图像特征和文本特征匹配失败的匹配结果。如图4B所示。其中,图4B是根据本公开实施例的一种图像特征和文本特征进行匹配的示意图。如图4所示,通过图像编码器对输入的图像样本提取出图像特征I1、I2……IN,通过文本编码器对输入的文本样本提取出文本特征T1、T2……TN,对图像特征I1、I2……IN和T1、T2……TN分别进行互相匹配,得到匹配结果,其中,对角线上的匹配结果为文本特征和图像特征匹配成功的结果,而除对角线之外的匹配结果,为文本特征和图像特征匹配失败的匹配结果。
该实施例的InfoNCE loss结合上面的队列模块,等效增加了负样本的数量,可以提高初始化模型的训练指标。
该实施例的预训练采用了基于队列技术的图文预训练优化方法,利用双队列分别保存图像样本的图像特征和文本样本的文本特征,并将其用于infonceNCEloss的计算。需要说明的是,该实施例在加入图文双队列以后,相当于增加了infoNCEloss的负样本,从而可以大量节约计算资源,并且可以提高初始化模型的模型指标。
本公开实施例还提供了一种用于执行图1A所示实施例的模型确定方法的模型确定装置。
图5A是根据本公开实施例的一种模型确定装置的示意图。如图5A所示,该模型确定装置50可以包括:第一获取单元51、存储单元52、训练单元53和确定单元54。
第一获取单元51,用于获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述。
存储单元52,用于将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列。
训练单元53,用于对第一队列和第二队列进行训练,得到第一目标模型。
确定单元54,用于将第一目标模型确定为第二目标模型的初始化模型。
可选地,训练单元包括:确定模块,用于基于第一队列和第二队列确定负样本;训练模块,用于对负样本进行训练,得到第一目标模型。
可选地,负样本包括第一负样本和第二负样本,其中,确定模块包括:第一确定子模块,用于基于第一队列和文本特征确定第一负样本;第二确定子模块,用于基于第二队列和图像特征确定第二负样本。
可选地,第一确定子模块用于通过以下步骤来基于第一队列和文本特征确定第一负样本:基于第一队列和文本样本中当前批次样本的文本特征确定第一负样本。
可选地,第二确定子模块用于通过以下步骤来基于第二队列和图像特征确定第二负样本:基于第二队列和图像样本中当前批次样本的图像特征确定第二负样本。
可选地,训练模块包括:匹配子模块,用于对负样本中多个图像特征和多个文本特征进行匹配,得到多个匹配结果和多个未匹配结果,其中,匹配结果包括互相匹配成功的图像特征和文本特征,未匹配结果包括互相匹配失败的图像特征和文本特征;第三确定子模块,用于基于多个匹配结果和多个未匹配结果确定模型参数;第四确定子模块,用于基于模型参数确定第一目标模型。
可选地,图像样本包括图像噪声数据和/或文本样本包括文本噪声数据。
可选地,图像样本为未标注图像样本和/或文本样本为未标注文本样本。
本公开实施例还提供了一种用于执行图1B所示实施例的模型确定方法的模型确定装置。
图5B是根据本公开实施例的另一种模型确定装置的示意图。如图5B所示,该模型确定装置500可以包括:发送单元502和接收单元504。
发送单元502,用于向服务器发送模型训练请求,其中,所述模型训练请求包括图像样本和文本样本,所述文本样本中的文本用于对所述图像样本中的目标图像进行文字描述。
接收单元504,用于接收所述服务器响应所述模型训练请求而发送的初始化模型,其中,所述初始化模型为所述服务器将所述图像样本中的图像特征存储至第一队列,且将所述文本样本中的文本特征存储至第二队列,对所述第一队列和所述第二队列进行训练得到。
本公开实施例还提供了一种用于执行图1C所示实施例的图像处理方法的图像处理装置。
图5C是根据本公开实施例的一种图像处理装置的示意图。如图5C所示,该图像处理装置5000可以包括:第二获取单元5001、输入单元5002和第三获取单元5003。
第二获取单元5001,用于获取待处理图像。
输入单元5002,用于将待处理图像输入至第二目标模型中,其中,第二目标模型为由本公开实施例的模型确定方法获得。
第三获取单元5003,用于获取第二目标模型的处理结果。
在该实施例中,预训练采用了双队列分别保存图像特征和文本特征,并将其用于初始化模型的训练,可以大量节约计算资源,解决了初始化模型训练的效率低的技术问题,达到了提高初始化模型训练的效率的技术效果。
需要说明的是,上述各个单元和模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述单元和模块均位于同一处理器中;或者,上述各个单元和模块以任意组合的形式分别位于不同的处理器中。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备。该电子设备可以包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的模型确定方法。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例的模型确定方法。
可选地,在本实施例中,上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述;
S2,将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列;
S3,对第一队列和第二队列进行训练,得到第一目标模型;
S4,将第一目标模型确定为第二目标模型的初始化模型。
可选地,在本实施例中,上述非易失性存储介质还可以被设置为存储用于执行以下步骤的计算机程序:
S1,向服务器发送模型训练请求,其中,模型训练请求包括图像样本和文本样本,文本样本中的文本用于对图像样本中的目标图像进行文字描述;
S2,接收服务器响应模型训练请求而发送的初始化模型,其中,初始化模型为服务器将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,对第一队列和第二队列进行训练得到。
可选地,在本实施例中,上述非易失性存储介质还可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待处理图像;
S2,将待处理图像输入至第二目标模型中,其中,第二目标模型为由本公开实施例的模型确定方法获得;
S3,获取第二目标模型的处理结果。
可选地,在本实施例中,上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现以下步骤:
S1,获取图像样本和文本样本,其中,文本样本中的文本用于对图像样本中的目标图像进行文字描述;
S2,将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列;
S3,对第一队列和第二队列进行训练,得到第一目标模型;
S4,将第一目标模型确定为第二目标模型的初始化模型。
可选地,上述计算机程序在被处理器执行时还可以实现以下步骤:
S1,向服务器发送模型训练请求,其中,模型训练请求包括图像样本和文本样本,文本样本中的文本用于对图像样本中的目标图像进行文字描述;
S2,接收服务器响应模型训练请求而发送的初始化模型,其中,初始化模型为服务器将图像样本中的图像特征存储至第一队列,且将文本样本中的文本特征存储至第二队列,对第一队列和第二队列进行训练得到。
可选地,上述计算机程序在被处理器执行时还可以实现以下步骤:
S1,获取待处理图像;
S2,将待处理图像输入至第二目标模型中,其中,第二目标模型为由本公开实施例的模型确定方法获得;
S3,获取第二目标模型的处理结果。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
该实施例的用于实施本公开的模型确定方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程模型确定装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
图6是根据本公开实施例的一种电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如模型确定方法。例如,在一些实施例中,模型确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的模型确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程模型确定装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种模型的确定方法,包括:
获取图像样本和文本样本,其中,所述文本样本中的文本用于对所述图像样本中的目标图像进行文字描述;
将所述图像样本中的图像特征存储至第一队列,且将所述文本样本中的文本特征存储至第二队列;
对所述第一队列和所述第二队列进行训练,得到第一目标模型;
将所述第一目标模型确定为第二目标模型的初始化模型。
2.根据权利要求1所述的方法,其中,对所述第一队列和所述第二队列进行训练,得到第一目标模型包括:
基于所述第一队列和所述第二队列确定负样本;
对所述负样本进行训练,得到所述第一目标模型。
3.根据权利要求2所述的方法,所述负样本包括第一负样本和第二负样本,其中,基于所述第一队列和所述第二队列确定负样本包括:
基于所述第一队列和所述文本特征确定所述第一负样本;
基于所述第二队列和所述图像特征确定所述第二负样本。
4.根据权利要求3所述的方法,其中,基于所述第一队列和所述文本特征确定所述第一负样本包括:
基于所述第一队列和所述文本样本中当前批次样本的所述文本特征确定所述第一负样本。
5.根据权利要求3所述的方法,其中,基于所述第二队列和所述图像特征确定所述第二负样本包括:
基于所述第二队列和所述图像样本中当前批次样本的所述图像特征确定所述第二负样本。
6.根据权利要求2所述的方法,其中,对所述负样本进行训练,得到所述第一目标模型包括:
对所述负样本中多个所述图像特征和多个所述文本特征进行匹配,得到多个匹配结果和多个未匹配结果,其中,所述匹配结果包括互相匹配成功的所述图像特征和所述文本特征,所述未匹配结果包括互相匹配失败的所述图像特征和所述文本特征;
基于多个所述匹配结果和多个所述未匹配结果确定模型参数;
基于所述模型参数确定所述第一目标模型。
7.根据权利要求1至6中任意一项所述的方法,其中,所述图像样本包括图像噪声数据和/或所述文本样本包括文本噪声数据。
8.根据权利要求1至6中任意一项所述的方法,其中,所述图像样本为未标注图像样本和/或所述文本样本为未标注文本样本。
9.一种图像处理方法,包括:
获取待处理图像;
将所述待处理图像输入至第二目标模型中,其中,所述第二目标模型为由权利要求1-8中任意一项所述的模型确定方法获得;
获取所述第二目标模型的处理结果。
10.一种模型确定装置,包括:
第一获取单元,用于获取图像样本和文本样本,其中,所述文本样本中的文本用于对所述图像样本中的目标图像进行文字描述;
存储单元,用于将所述图像样本中的图像特征存储至第一队列,且将所述文本样本中的文本特征存储至第二队列;
训练单元,用于对所述第一队列和所述第二队列进行训练,得到第一目标模型;
确定单元,用于将所述第一目标模型确定为第二目标模型的初始化模型。
11.根据权利要求10所述的装置,其中,所述训练单元包括:
确定模块,用于基于所述第一队列和所述第二队列确定负样本;
训练模块,用于对所述负样本进行训练,得到所述第一目标模型。
12.根据权利要求11所述的装置,所述负样本包括第一负样本和第二负样本,其中,确定模块包括:
第一确定子模块,用于基于所述第一队列和所述文本特征确定所述第一负样本;
第二确定子模块,用于基于所述第二队列和所述图像特征确定所述第二负样本。
13.根据权利要求12所述的装置,其中,所述第一确定子模块用于通过以下步骤来基于所述第一队列和所述文本特征确定所述第一负样本:
基于所述第一队列和所述文本样本中当前批次样本的所述文本特征确定所述第一负样本。
14.根据权利要求12所述的装置,其中,第二确定子模块用于通过以下步骤来基于所述第二队列和所述图像特征确定所述第二负样本:
基于所述第二队列和所述图像样本中当前批次样本的所述图像特征确定所述第二负样本。
15.根据权利要求11所述的装置,其中,所述训练模块包括:
匹配子模块,用于对所述负样本中多个所述图像特征和多个所述文本特征进行匹配,得到多个匹配结果和多个未匹配结果,其中,所述匹配结果包括互相匹配成功的所述图像特征和所述文本特征,所述未匹配结果包括互相匹配失败的所述图像特征和所述文本特征;
第三确定子模块,用于基于多个所述匹配结果和多个所述未匹配结果确定模型参数;
第四确定子模块,用于基于所述模型参数确定所述第一目标模型。
16.一种图像处理装置,包括:
第二获取单元,用于获取待处理图像;
输入单元,用于将所述待处理图像输入至第二目标模型中,其中,所述第二目标模型为由权利要求1-8中任意一项所述的模型确定方法获得;
第三获取单元,用于获取所述第二目标模型的处理结果。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
CN202111212317.8A 2021-10-18 2021-10-18 模型确定方法、装置、电子设备和存储器 Pending CN113947700A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111212317.8A CN113947700A (zh) 2021-10-18 2021-10-18 模型确定方法、装置、电子设备和存储器
EP22181294.4A EP4167137A1 (en) 2021-10-18 2022-06-27 Model determination method and apparatus, electronic device and memory
US17/887,690 US20230124389A1 (en) 2021-10-18 2022-08-15 Model Determination Method and Electronic Device
JP2022166953A JP2023060846A (ja) 2021-10-18 2022-10-18 モデル決定方法、装置、電子機器及びメモリ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111212317.8A CN113947700A (zh) 2021-10-18 2021-10-18 模型确定方法、装置、电子设备和存储器

Publications (1)

Publication Number Publication Date
CN113947700A true CN113947700A (zh) 2022-01-18

Family

ID=79331477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111212317.8A Pending CN113947700A (zh) 2021-10-18 2021-10-18 模型确定方法、装置、电子设备和存储器

Country Status (4)

Country Link
US (1) US20230124389A1 (zh)
EP (1) EP4167137A1 (zh)
JP (1) JP2023060846A (zh)
CN (1) CN113947700A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543075A (zh) * 2023-03-31 2023-08-04 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132790B (zh) * 2023-10-23 2024-02-02 南方医科大学南方医院 基于人工智能的消化道肿瘤诊断辅助系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200019807A1 (en) * 2017-09-12 2020-01-16 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN112650867A (zh) * 2020-12-25 2021-04-13 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113283551A (zh) * 2021-07-22 2021-08-20 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN113378833A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113435529A (zh) * 2021-07-06 2021-09-24 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
WO2021204017A1 (zh) * 2020-11-20 2021-10-14 平安科技(深圳)有限公司 文本意图识别方法、装置以及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11604822B2 (en) * 2019-05-30 2023-03-14 Adobe Inc. Multi-modal differential search with real-time focus adaptation
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200019807A1 (en) * 2017-09-12 2020-01-16 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
WO2021204017A1 (zh) * 2020-11-20 2021-10-14 平安科技(深圳)有限公司 文本意图识别方法、装置以及相关设备
CN112650867A (zh) * 2020-12-25 2021-04-13 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
CN113378833A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113435529A (zh) * 2021-07-06 2021-09-24 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113283551A (zh) * 2021-07-22 2021-08-20 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI LI: "UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning", ARXIV, pages 1 - 16 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543075A (zh) * 2023-03-31 2023-08-04 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质
CN116543075B (zh) * 2023-03-31 2024-02-13 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20230124389A1 (en) 2023-04-20
JP2023060846A (ja) 2023-04-28
EP4167137A1 (en) 2023-04-19

Similar Documents

Publication Publication Date Title
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN113947700A (zh) 模型确定方法、装置、电子设备和存储器
CN114187459A (zh) 目标检测模型的训练方法、装置、电子设备以及存储介质
CN115358392A (zh) 深度学习网络的训练方法、文本检测方法及装置
CN113688887A (zh) 图像识别模型的训练与图像识别方法、装置
CN114495102A (zh) 文本识别方法、文本识别网络的训练方法及装置
CN115620081A (zh) 一种目标检测模型的训练方法及目标检测方法、装置
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
CN113191261B (zh) 图像类别的识别方法、装置和电子设备
CN114090601A (zh) 一种数据筛选方法、装置、设备以及存储介质
CN113657248A (zh) 人脸识别模型的训练方法、装置及计算机程序产品
CN113052063A (zh) 置信度阈值选择方法、装置、设备以及存储介质
CN115273148B (zh) 行人重识别模型训练方法、装置、电子设备及存储介质
CN116935368A (zh) 深度学习模型训练方法、文本行检测方法、装置及设备
CN113947195A (zh) 模型确定方法、装置、电子设备和存储器
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN115631502A (zh) 文字识别方法、装置、模型训练方法、电子设备及介质
CN115909376A (zh) 文本识别方法、文本识别模型训练方法、装置及存储介质
CN115457329A (zh) 图像分类模型的训练方法、图像分类方法和装置
CN114612651A (zh) Roi检测模型训练方法、检测方法、装置、设备和介质
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN114463734A (zh) 文字识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination