CN114998670A - 多模态信息预训练方法及系统 - Google Patents

多模态信息预训练方法及系统 Download PDF

Info

Publication number
CN114998670A
CN114998670A CN202210391286.5A CN202210391286A CN114998670A CN 114998670 A CN114998670 A CN 114998670A CN 202210391286 A CN202210391286 A CN 202210391286A CN 114998670 A CN114998670 A CN 114998670A
Authority
CN
China
Prior art keywords
text
image
loss value
hidden vector
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210391286.5A
Other languages
English (en)
Other versions
CN114998670B (zh
Inventor
陈斌
侯孝振
张元�
陈子和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Research Institute of Harbin Institute of Technology
Original Assignee
Chongqing Research Institute of Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Research Institute of Harbin Institute of Technology filed Critical Chongqing Research Institute of Harbin Institute of Technology
Priority to CN202210391286.5A priority Critical patent/CN114998670B/zh
Publication of CN114998670A publication Critical patent/CN114998670A/zh
Application granted granted Critical
Publication of CN114998670B publication Critical patent/CN114998670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的多模态信息预训练方法及系统,涉及人工智能技术领域,通过构建第一多模态信息,基于MOCO对比学习模型,随机选择第一图像集合中的一个或多个图像进行几何变换,得到第二图像集合,基于MOCO对比学习模型,随机选择第一文本集合中的一个或多个文本进行语法结构变换,得到第二文本集合,分别对第二图像集合中的各个图像进行编码,生成对应的第一高维隐向量集合,根据目标损失值,对第一多模态信息进行预训练,在有限负样本下,使得网络模型能够接触更多的负样本,增大类间距离,有利于细粒度地检索图文,极大地节省了时间,能够达到更好的预训练效果。

Description

多模态信息预训练方法及系统
技术领域
本发明涉及人工智能技术领域,具体涉及一种多模态信息预训练方法及系统。
背景技术
第一多模态信息预训练技术是近期多模态领域的新兴课题之一,目的是让模型能在大规模弱标注的视觉(如图像、视频)和文本对上进行预训练,以得到一个更好的多模态特征表示,从而提升各种第一多模态信息下游任务模型的性能。
传统的多模态信息预训练方法通过收集大量包括图像和文本的数据集,利用简单地对比学习方法训练双塔结构第一多模态信息预训练模型。该方法主要是使用大规模的数据将图像和文本特征转换到同一维度空间中,进而减少不同模态之间的鸿沟。具体而言,将图像内的文本经过文本编码器编码成相应的第一隐向量,将相应数量的图片通过图像编码器编码成相应的第二隐向量,之后将第一隐向量和第二隐向量归一化后再进行点积,得到相似度矩阵,监督信号处于矩阵对角线的位置,设为1,其余位置的信号设为0,最后通过交叉熵损失值来进行训练。该方案存在的缺点是:作为双塔结构,仅仅是拉近了视觉模态与文本模态之间的距离,即视觉端和文本端分别训练一个网络,并没有考虑到多模态融合后的结果,对于一些特定的任务,如视觉问答VQA或者是第一多模态信息完形填空很难去完成,另外训练的负样本数量仍然是受限于batch_size的大小,使得网络模型训练受限。
考虑到目前的预训练过程非常昂贵,往往需要大量的GPU资源。在传统的多模态信息预训练方法基础上,引入了最新的MOCO框架,在GPU资源有限的情况下,该跨模态算法可以中包含更多的负样本。通过MOCO框架分别维护视觉负样本序列和文本负样本序列,通过InfoNCE损失值,使得网络模型得以训练。该方案存在的缺陷是:由于视觉侧输入首先要经过目标检测的预处理,这使得整个过程是非端到端的,训练过程复杂,推理速度也会大幅下降。另外,预训练目标检测模型的好坏直接决定了后续多模态任务的质量,而在实际场景中很难拥有一个广泛的目标检测预训练模型。
发明内容
为了克服现有第一多模态信息预训练方案中存在无法做到端到端、训练推理耗时长、训练过程需要大量GPU资源的缺陷,提出了一种基于自监督学习的端到端的多模态预训练方法的不足,本发明实施例提出了多模态信息预训练方法及系统。
为了实现上述目的,本发明实施例采用以下技术方案:
第一方面,本发明实施例提供的多模态信息预训练方法包括以下步骤:
构建第一多模态信息,其中,所述第一多模态信息包括多组由图像及文本组成的图文信息对,其中,各组图文信息对中的各个图像组成第一图像集合,各组图文信息对中的各个文本组成第一文本集合;
基于MOCO对比学习模型,从所述第一图像集合中随机选择一个或多个图像进行几何变换,将经过几何变换后的一个或多个图像写入所述第一图像集合,得到第二图像集合;
基于MOCO对比学习模型,从所述第一文本集合中随机选择一个或多个文本进行语法结构变换,将经过语法结构变换后的一个或多个文本写入所述第一文本集合,得到第二文本集合;
分别对所述第二图像集合中的各个图像进行编码,生成对应的第一高维隐向量集合;
分别对所述第二文本集合中的各个文本进行编码,生成对应的第二高维隐向量集合;
根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值;
根据所述目标损失值,对所述第一多模态信息进行预训练。
作为第一方面一个优选的实施方式,从所述第一图像集合中随机选择一个或多个图像进行几何变换包括:
从所述第一图像集合中随机选择一个或多个图像执行颜色变化、仿射变换及擦除中的一种或多种操作。
作为第一方面一个优选的实施方式,从所述第一文本集合中随机选择一个或多个文本进行语法结构变换包括:
从所述第一文本集合中随机选择一个或多个文本进行回译。
作为第一方面一个优选的实施方式,根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值包括:
依次将所述第一高维隐向量集合及所述第二高维隐向量集合输入预先训练过的交叉注意力模型,对所述第一高维隐向量集合及所述第二高维隐向量集合进行跨模态融合,得到第二多模态信息;
根据所述第二多模态信息中各个图像的特征及各个文本的类别,分别计算所述第一图像集合对应的第一损失值及所述第一文本集合对应的第二损失值;
根据所述第一损失值及所述第二损失值,确定所述第一多模态信息的目标损失值。
作为第一方面一个优选的实施方式,所述第一损失值的计算公式为:
Figure BDA0003595668450000041
所述第二损失值的计算公式为:
Figure BDA0003595668450000042
其中,
Figure BDA0003595668450000043
为在一个batch_size内第j个图像I经过图像编码器得到的隐向量,
Figure BDA0003595668450000044
为第j个图像所对应的文本T经过编码得到的隐向量,queueT为第二高维隐向量集合中负样本文本的类别,
Figure BDA0003595668450000045
为一个batch_size内第j个文本T经过编码得到的隐向量,
Figure BDA0003595668450000046
为第j个文本所对应的图像I经过编码得到的隐向量,queueI为第一高维隐向量集合中负样本的图像特征,r为温度系数。
作为第一方面一个优选的实施方式,所述预先训练过的交叉注意力模型的训练过程包括:
分别判断所述第一多模态信息中的各个文本是否准确描述对应的图像,生成对应的多个判断结果;
分别将多个所述判断结果输入交叉注意力模型对所述交叉注意力模型进行训练。
作为第一方面一个优选的实施方式,所述预先训练过的交叉注意力模型的训练过程还包括:
从所述第二图像集合中随机选择设定数量的图像进行掩码操作;
分别对掩码后的各个图像进行编码,预测编码后各个图像的特征;
将各个所述图像的特征分别输入交叉注意力模型对所述交叉注意力模型进行训练。
作为第一方面一个优选的实施方式,所述预先训练过的交叉注意力模型的训练过程还包括:
从所述第二文本集合中随机选择设定数量的文本进行掩码操作;
分别对掩码后的各个文本进行编码,预测编码后各个文本的类别;
将各个所述文本的类别分别输入交叉注意力模型对所述交叉注意力模型进行训练。
作为第一方面一个优选的实施方式,根据所述第一损失值及所述第二损失值,确定所述第一多模态信息的目标损失值包括:
将所述第一损失值与所述第二损失值的和作为所述第一多模态信息的目标损失值。
第二方面,本发明实施例提供了一种多模态信息预训练系统,该系统包括:
构建模块,被配置为构建第一多模态信息,其中,所述第一多模态信息包括多组由图像及文本组成的图文信息对,其中,各组图文信息对中的各个图像组成第一图像集合,各组图文信息对中的各个文本组成第一文本集合;
选择模块,被配置为基于MOCO对比学习模型,随机选择所述第一图像中的一个或多个图像进行几何变换,将经过几何变换后的一个或多个图像写入所述第一图像集合,得到第二图像集合;
所述选择模块,还被配置为基于MOCO对比学习模型,随机选择所述第一文本集合中的一个或多个文本进行语法结构变换,将经过语法结构变换后的一个或多个文本写入所述第一文本集合,得到第二文本集合;
编码模块,被配置为分别对所述第二图像集合中的各个图像进行编码,生成第一高维隐向量集合;
所述编码模块,还被配置分别对所述第二文本集合中的各个文本进行编码,生成第二高维隐向量集合;
确定模块,被配置为根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值;
预训练模块,被配置为根据所述目标损失值,对所述第一多模态信息进行预训练。
本发明实施例提供的多模态信息预训练方法及系统具有以下有益效果:
(1)引入MoCo对比学习模型,在负样本有限的情况下,使得网络模型能够接触更多的负样本,增大类间距离,有利于细粒度地检索图文,另外,由于整个架构都是端到端的,所以不需要额外的预处理,极大地节省了时间,增强了易用性及适用性;
(2)得益于跨模态特征融合,使得不仅可以输出单模信息,也可以输出多模信息,这对于一些下游任务十分有利比如视觉问答、视觉对话等都有一定的帮助;
(3)提出了图像掩码预训练任务,结合图文匹配预训练任务以及文本掩码预训练任务,能够达到更好的预训练效果,一定程度上完善了多模下的预训练范式。
附图说明
图1为本发明实施例提供的多模态信息预训练方法流程示意图;
图2为本发明实施例提供的多模态信息预训练系统结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
本发明实施例提供的多模态信息预训练方法包括以下步骤:
S101,构建第一多模态信息,其中,所述第一多模态信息包括多组由图像及文本组成的图文信息对,其中,各组图文信息对中的各个图像组成第一图像集合,各组图文信息对中的各个文本组成第一文本集合。
具体地,在图文信息对<image,text>中,文本text是图像image的描述,它们之间一一对应。对于batch_size数量的图文信息对<image,text>,对于其中任意一个图像都有一个与之匹配的文本,剩下的batch_size-1个文本可以视为该图像的负样本。
S102,基于MOCO对比学习模型,从所述第一图像集合中随机选择一个或多个图像进行几何变换,将经过几何变换后的一个或多个图像写入所述第一图像集合,得到第二图像集合。
可选地,该过程具体包括:
从第一图像集合中随机选择一个或多个图像执行颜色变化、仿射变换及擦除中的一种或多种操作。
S103,基于MOCO对比学习模型,从所述第一文本集合中随机选择一个或多个文本进行语法结构变换,将经过语法结构变换后的一个或多个文本写入所述第一文本集合,得到第二文本集合。
可选地,该过程具体包括:
从第一文本集合中随机选择一个或多个文本进行回译。
具体地,为了使图像及文本都能够更加细粒度地对齐,本发明实施例采用回译技术从第一文本集合中随机选择文本进行扩充。简单地讲,对于文本textA,首选用翻译器将其翻译成另一种语言textB,之后,再用翻译器将textB翻译回原语言textA1,此时,文本textA1与文本textA的语义相同,但在句式及语法上会存在少许差别。比如,将中文“两个人在水上划船”翻译成英文“There are two people boating on the water”,然后将该英文回译成中文,得到“水上有两个人在划船”。
特别地,作为对第一文本集合中的文本进行编码的前置操作,需要对第一文本集合中的各个文本进行分词操作。分词操作的目的是为了生成文本对应词的ID序列。由于每个批次的ID序列的长度不一样,需要设定文本中对应词的个数n。如果该个数大于n,则丢弃多余的词,如果该个数小于n,则在相应的ID序列进行填充0做补齐操作。
具体地,本发明实施例提供的MoCo对比学习模型包括图像编码器、图像动量编码器、文本编码器、文本动量编码器,其中,图像编码器、图像动量编码器、文本编码器、文本动量编码器遵循MoCo对比学习模型自监督的训练策略,目的是解耦batch_size大小与负样本数量之间的关系,使用更广泛的负样本增大类间距离,有利于细粒度地图文检索。
S104,分别对所述第二图像集合中的各个图像进行编码,生成对应的第一高维隐向量集合。
其中,编码的目的是为了便于后续输入MoCo对比学习模型以及跨模态融合。具体地,采用Vsion Transformer模型。为了得到分块隐藏层隐向量Patch Embedding,VsionTransformer模型具有对图像分块处理的功能,具体过程如下:
首先,对图像进行卷积即Conv2d(Img),得到映射隐向量projimg,卷积核大小为Conv2d(in_channels,emb_size,kernel_size=patch_size,stride=patch_size),之后初始化CLS向量,CLS向量主要用于公平地融合其他位置的隐向量,CLS向量∈R(emb_size),然后合并CLS向量及映射隐向量编码projimg,得到新的映射隐向量projimg∈Rbatch _size×(1+patch_size)×emb_size。初始化位置向量position embbeding,大小为(1+patch_size2,emb_size)。以Segment标记Token所属模态,将三者相加,即对于第i个图像,
Figure BDA0003595668450000091
Figure BDA0003595668450000101
之后将Patch Embedding送入到Transformer Encoder中,提取CLS向量经过Transformer Encoder编码后得到的隐向量hcls,用于后续输入MoCo对比学习模型,最后将第一高维隐向量集合[hcls,h1,...,hn]输入交叉注意力模型Cross Attention Model中学习多模态融合。其中,h1…hn分别第1至n个图像对应的高维隐向量。
具体地,Con2d为深度学习框架pytorch中的卷积函数,in_channels代表输入特征图的通道数量,emb_size为输出特征图的通道数量,emb_size可以理解为hiddenembedding size,即transformer中隐藏层隐向量的大小,可以设置为768。kernel_size为卷积核大小,可以设置为16,patch_size为图像大小(在Vsion Transformer中滑动一个窗口的大小称为patch),stride为卷积核滑动步长,可以设置成与kernel_size相同的大小。CLS向量是token的开始标志符,通常放在一个隐向量的头部,代表该隐向量的起始位置,由于其没有其他语义信息,通常CLS向量的输出可以作为输出结果。Concat()函数为拼接函数,Concat(a,b)代表将向量a与向量b拼接在一起。Position embbeding代表位置向量,Segment Token为语义编码。i是大于等于0且小于256的整数,代表各个图像的编号。
S105,分别对所述第二文本集合中的各个文本进行编码,生成对应的第二高维隐向量集合。
具体地,将预先分好词的文本输入Transformer的Embedding层中将索引映射成词的隐向量projtext,然后初始化CLS向量,将CLS向量与隐向量projtext拼接在一起,得到新的隐向量projtext,之后初始化得到PositiontextEmbedding以及隐向量SegmenttextEmbedding,将三者相加,即对于第i个词对应的高维隐向量
Figure BDA0003595668450000111
Figure BDA0003595668450000112
将Word Embedding输入Transformer Encoder中,提取CLS向量的隐向量hcls用于输入MoCo对比学习模型。
S106,根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值。
可选地,该过程具体包括:
依次将所述第一高维隐向量集合及所述第二高维隐向量集合输入训练后的交叉注意力模型,对所述第一高维隐向量集合及所述第二高维隐向量集合进行跨模态融合,得到第二多模态信息。
具体地,交叉注意力模型的第一多模态信息融合过程如下:
将输入的图像及文本分别进行线性映射,生成Query、key及value三种向量,其中:
输入的隐向量的维度为(b,n,d),通过线性映射后得到的向量的维度为(b,n,3d),其中,b代表图像大小batch_size,n代表文本序列长度大小token_size,d代表通过编码器提取的隐向量的维度dim。对Query向量及key向量做矩阵相乘并且归一化,得到自注意力矩阵,然后与value向量做矩阵相乘,得到结果;
对Query、key及value三种向量融合后得到的隐向量做FFN运算,以增加的融合后的隐向量的非线性特征表征能力。
具体地,FFN运算对应的函数表达式为:
FFN(x)=x+norm(GELU((xw1+b1)w2+b2)),其中,x为隐向量,norm()为归一化函数,GELU()为激活函数,w1、w2为权重,b1、b2为偏置值,FFN运算可以看做两个全连接层加一个残差操作。
根据所述第二多模态信息中各个图像的特征及各个文本的类别,分别计算所述第一图像集合对应的第一损失值及所述第一文本集合对应的第二损失值。
可选地,第一损失值的计算公式为:
Figure BDA0003595668450000121
第二损失值的计算公式为:
Figure BDA0003595668450000122
其中,
Figure BDA0003595668450000123
为在一个batch_size内第j个图像I经过图像编码器得到的隐向量,
Figure BDA0003595668450000124
为第j个图像所对应的文本T经过编码得到的隐向量,queueT为第二高维隐向量集合中负样本文本的类别,
Figure BDA0003595668450000125
为一个batch_size内第j个文本T经过编码得到的隐向量,
Figure BDA0003595668450000126
为第j个文本所对应的图像I经过编码得到的隐向量,queueI为第一高维隐向量集合中负样本的图像特征,r为温度系数,范围为从0到正无穷,根据经验设定,主要是用于控制损失值对困难负样本关注程度,当它趋近于0时,损失值会给只更加关注于更大困难的负样本(给予更大的梯度权重),当它趋近于正无穷时,损失函数会对所有负样本一视同仁。
根据所述第一损失值及所述第二损失值,确定所述第一多模态信息的目标损失值。
可选地,将所述第一损失值与所述第二损失值的和作为所述第一多模态信息的目标损失值。
可选地,所述预先训练过的交叉注意力模型的训练过程包括:
分别判断所述第一多模态信息中的各个文本是否准确描述所述第二图像集合中对应的图像,生成对应的多个判断结果。
具体地,图文匹配作为预训练任务,用于验证文本是否描述图像准确,可以认为是一个二分类任务,要么匹配,要么不匹配。将第一多模态信息连接全连接层执行二分类任务即可完成图文匹配,得到多个判断结果。
分别将多个所述判断结果输入交叉注意力模型对所述交叉注意力模型进行训练。
可选地,所述预先训练过的交叉注意力模型的训练过程还包括:
从所述第二图像集合中随机选择设定数量的图像进行掩码操作;
分别对掩码后的各个图像进行编码,预测编码后各个图像的特征;
将各个所述图像的特征分别输入交叉注意力模型对所述交叉注意力模型进行训练。
具体地,在输入图像的时候随机选取一定数量的图像,使用特殊标识对选取的图像做掩码处理(用0填充),将经过图像编码器Image Encoder以及交叉注意力模型CrossAttention model输出的向量连接MLP层做回归任务,预测被掩码的图像的特征。
可选地,所述预先训练过的交叉注意力模型的训练过程还包括:
从所述第二文本集合中随机选择设定数量的文本进行掩码操作;
分别对掩码后的各个文本进行编码,预测编码后各个文本的类别;
将各个所述文本的类别分别输入交叉注意力模型对所述交叉注意力模型进行训练。
具体地,首选从第二文本集合中随机选取15%的词作为待掩码文本,然后从被掩码的词中随机选取80%的词,使用特殊标识对选取的词做掩码处理,另外20%的词使用随机词的替换,最后将经过文本编码器Text Encoder以及交叉注意力模型Cross Attentionmodel输出的向量连接MLP层做交叉熵分类任务,预测被掩码的词的特征。
具体地,通过上述训练过程使得交叉注意融合模型Cross Attention model得以训练,用于下游任务,使得交叉注意力模型Cross Attention model成为端到端的图文预训练框架。
S107,根据该目标损失值,对该第一多模态信息进行预训练。
实施例2
如图2所示,本发明实施例提供的多模态信息预训练系统包括:
构建模块,被配置为构建第一多模态信息,其中,所述第一多模态信息包括第一图像集合及对应的第一文本集合,其中,所述第一图像集合中的各个图像与所述第一文本集合中的各个文本为一个对应关系;
选择模块,被配置为基于MOCO对比学习模型,随机选择所述第一图像中的一个或多个图像进行几何变换,将经过几何变换后的各个图像与所述第一图像集合的各个图像进行组合,得到第二图像集合;
所述选择模块,还被配置为基于MOCO对比学习模型,随机选择所述第一文本集合中的一个或多个文本进行语法结构变换,将经过语法结构变换后的各个文本与所述第一文本集合中的各个文本进行组合,得到第二文本集合;
编码模块,被配置为分别对所述第二图像集合中的各个图像进行编码,生成第一高维隐向量集合;
所述编码模块,还被配置分别对所述第二文本集合中的各个文本进行编码,生成第二高维隐向量集合;
确定模块,被配置为根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值;
预训练模块,被配置为根据所述目标损失值,对所述第一多模态信息进行预训练。
实施例3
图3是本发明一示例性实施例提供的电子设备的结构。如图3所示,该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图3图示了根据本发明公开实施例的电子设备的框图。如图3所示,电子设备包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有渗透数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的被公开的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置403还可以包括例如键盘、鼠标等等。
该输出装置404可以向外部输出各种信息。该输出设备404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备中与本发明公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
实施例4
除了上述方法和设备以外,本发明公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明公开各种实施例的渗透数据标注、封装及获取方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明公开各种实施例的渗透数据标注、封装及获取方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本发明公开的基本原理,但是,需要指出的是,在本发明公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明公开为必须采用上述具体的细节来实现。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本发明公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明公开的方法的机器可读指令。因而,本发明公开还覆盖存储用于执行根据本发明公开的方法的程序的记录介质。
还需要指出的是,在本发明公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明公开的范围。因此,本发明公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种多模态信息预训练方法,其特征在于,包括:
构建第一多模态信息,其中,所述第一多模态信息包括多组由图像及文本组成的图文信息对,其中,各组图文信息对中的各个图像组成第一图像集合,各组图文信息对中的各个文本组成第一文本集合;
基于MOCO对比学习模型,从所述第一图像集合中随机选择一个或多个图像进行几何变换,将经过几何变换后的一个或多个图像写入所述第一图像集合,得到第二图像集合;
基于MOCO对比学习模型,从所述第一文本集合中随机选择一个或多个文本进行语法结构变换,将经过语法结构变换后的一个或多个文本写入所述第一文本集合,得到第二文本集合;
分别对所述第二图像集合中的各个图像进行编码,生成对应的第一高维隐向量集合;
分别对所述第二文本集合中的各个文本进行编码,生成对应的第二高维隐向量集合;
根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值;
根据所述目标损失值,对所述第一多模态信息进行预训练。
2.根据权利要求1所述的多模态信息预训练方法,其特征在于,从所述第一图像集合中随机选择一个或多个图像进行几何变换包括:
从所述第一图像集合中随机选择一个或多个图像执行颜色变化、仿射变换及擦除中的一种或多种操作。
3.根据权利要求1所述的多模态信息预训练方法,其特征在于,从所述第一文本集合中随机选择一个或多个文本进行语法结构变换包括:
从所述第一文本集合中随机选择一个或多个文本进行回译。
4.根据权利要求1所述的多模态信息预训练方法,其特征在于,根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值包括:
依次将所述第一高维隐向量集合及所述第二高维隐向量集合输入预先训练过的交叉注意力模型,对所述第一高维隐向量集合及所述第二高维隐向量集合进行跨模态融合,得到第二多模态信息;
根据所述第二多模态信息中各个图像的特征及各个文本的类别,分别计算所述第一图像集合对应的第一损失值及所述第一文本集合对应的第二损失值;
根据所述第一损失值及所述第二损失值,确定所述第一多模态信息的目标损失值。
5.根据权利要求4所述的多模态信息预训练方法,其特征在于:
所述第一损失值的计算公式为:
Figure FDA0003595668440000021
所述第二损失值的计算公式为:
Figure FDA0003595668440000022
其中,
Figure FDA0003595668440000023
为在一个batch_size内第j个图像I经过图像编码器得到的隐向量,
Figure FDA0003595668440000031
为第j个图像所对应的文本T经过编码得到的隐向量,queueT为第二高维隐向量集合中负样本文本的类别,
Figure FDA0003595668440000032
为一个batch_size内第j个文本T经过编码得到的隐向量,
Figure FDA0003595668440000033
为第j个文本所对应的图像I经过编码得到的隐向量,queueI为第一高维隐向量集合中负样本的图像特征,r为温度系数。
6.根据权利要求4所述的多模态信息预训练方法,其特征在于,所述预先训练过的交叉注意力模型的训练过程包括:
分别判断所述第一多模态信息中的各个文本是否准确描述对应的图像,生成对应的多个判断结果;
分别将多个所述判断结果输入交叉注意力模型对所述交叉注意力模型进行训练。
7.根据权利要求6所述的多模态信息预训练方法,其特征在于,所述预先训练过的交叉注意力模型的训练过程还包括:
从所述第二图像集合中随机选择设定数量的图像进行掩码操作;
分别对掩码后的各个图像进行编码,预测编码后各个图像的特征;
将各个所述图像的特征分别输入交叉注意力模型对所述交叉注意力模型进行训练。
8.根据权利要求7所述的多模态信息预训练方法,其特征在于,所述预先训练过的交叉注意力模型的训练过程还包括:
从所述第二文本集合中随机选择设定数量的文本进行掩码操作;
分别对掩码后的各个文本进行编码,预测编码后各个文本的类别;
将各个所述文本的类别分别输入交叉注意力模型对所述交叉注意力模型进行训练。
9.根据权利要求8所述的多模态信息预训练方法,其特征在于,根据所述第一损失值及所述第二损失值,确定所述第一多模态信息的目标损失值包括:
将所述第一损失值与所述第二损失值的和作为所述第一多模态信息的目标损失值。
10.一种多模态信息预训练系统,其特征在于,包括:
构建模块,被配置为构建第一多模态信息,其中,所述第一多模态信息包括多组由图像及文本组成的图文信息对,其中,各组图文信息对中的各个图像组成第一图像集合,各组图文信息对中的各个文本组成第一文本集合;
选择模块,被配置为基于MOCO对比学习模型,随机选择所述第一图像中的一个或多个图像进行几何变换,将经过几何变换后的一个或多个图像写入所述第一图像集合,得到第二图像集合;
所述选择模块,还被配置为基于MOCO对比学习模型,随机选择所述第一文本集合中的一个或多个文本进行语法结构变换,将经过语法结构变换后的一个或多个文本写入所述第一文本集合,得到第二文本集合;
编码模块,被配置为分别对所述第二图像集合中的各个图像进行编码,生成第一高维隐向量集合;
所述编码模块,还被配置分别对所述第二文本集合中的各个文本进行编码,生成第二高维隐向量集合;
确定模块,被配置为根据所述第一高维隐向量集合及所述第二高维隐向量集合,确定所述第一多模态信息的目标损失值;
预训练模块,被配置为根据所述目标损失值,对所述第一多模态信息进行预训练。
CN202210391286.5A 2022-04-14 2022-04-14 多模态信息预训练方法及系统 Active CN114998670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210391286.5A CN114998670B (zh) 2022-04-14 2022-04-14 多模态信息预训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210391286.5A CN114998670B (zh) 2022-04-14 2022-04-14 多模态信息预训练方法及系统

Publications (2)

Publication Number Publication Date
CN114998670A true CN114998670A (zh) 2022-09-02
CN114998670B CN114998670B (zh) 2024-05-28

Family

ID=83024180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210391286.5A Active CN114998670B (zh) 2022-04-14 2022-04-14 多模态信息预训练方法及系统

Country Status (1)

Country Link
CN (1) CN114998670B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794803A (zh) * 2023-01-30 2023-03-14 北京至臻云智能科技有限公司 一种基于大数据ai技术的工程审计问题监测方法与系统
CN115937615A (zh) * 2023-02-20 2023-04-07 智者四海(北京)技术有限公司 基于多模态预训练模型的主题标签分类方法与装置
CN116469111A (zh) * 2023-06-08 2023-07-21 江西师范大学 一种文字生成模型训练方法及目标文字生成方法
CN116721221A (zh) * 2023-08-08 2023-09-08 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3062700A1 (en) * 2017-05-25 2018-11-29 J. W. Pepper & Son, Inc. Sheet music search and discovery system
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN114238690A (zh) * 2021-12-08 2022-03-25 腾讯科技(深圳)有限公司 视频分类的方法、装置及存储介质
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3062700A1 (en) * 2017-05-25 2018-11-29 J. W. Pepper & Son, Inc. Sheet music search and discovery system
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114238690A (zh) * 2021-12-08 2022-03-25 腾讯科技(深圳)有限公司 视频分类的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李志义;黄子风;许晓绵;: "基于表示学习的跨模态检索模型与特征抽取研究综述", 情报学报, no. 04, 24 April 2018 (2018-04-24) *
李潇;闵华松;林云汉;: "一种用于CBR推理机的案例学习算法研究", 计算机应用研究, no. 12, 12 December 2017 (2017-12-12) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794803A (zh) * 2023-01-30 2023-03-14 北京至臻云智能科技有限公司 一种基于大数据ai技术的工程审计问题监测方法与系统
CN115794803B (zh) * 2023-01-30 2023-05-09 北京至臻云智能科技有限公司 一种基于大数据ai技术的工程审计问题监测方法与系统
CN115937615A (zh) * 2023-02-20 2023-04-07 智者四海(北京)技术有限公司 基于多模态预训练模型的主题标签分类方法与装置
CN116469111A (zh) * 2023-06-08 2023-07-21 江西师范大学 一种文字生成模型训练方法及目标文字生成方法
CN116469111B (zh) * 2023-06-08 2023-09-15 江西师范大学 一种文字生成模型训练方法及目标文字生成方法
CN116721221A (zh) * 2023-08-08 2023-09-08 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN116721221B (zh) * 2023-08-08 2024-01-12 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Also Published As

Publication number Publication date
CN114998670B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN114998670B (zh) 多模态信息预训练方法及系统
CN110532558B (zh) 一种基于句子结构深层解析的多意图识别方法及系统
CN110888966A (zh) 自然语言问答
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN110209832B (zh) 上下位关系的判别方法、系统和计算机设备
CN114676234A (zh) 一种模型训练方法及相关设备
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN112101044A (zh) 一种意图识别方法、装置及电子设备
CN113837233A (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
CN116186236A (zh) 一种基于单模态和多模态联合训练的情感分析方法及系统
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
Wu et al. Joint intent detection model for task-oriented human-computer dialogue system using asynchronous training
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN117688168A (zh) 一种摘要生成的方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant