CN115861995A - 一种视觉问答方法、装置及电子设备和存储介质 - Google Patents

一种视觉问答方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN115861995A
CN115861995A CN202310078902.6A CN202310078902A CN115861995A CN 115861995 A CN115861995 A CN 115861995A CN 202310078902 A CN202310078902 A CN 202310078902A CN 115861995 A CN115861995 A CN 115861995A
Authority
CN
China
Prior art keywords
text
image
training
modal
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310078902.6A
Other languages
English (en)
Other versions
CN115861995B (zh
Inventor
郭振华
金良
范宝余
徐聪
闫瑞栋
刘璐
姜金哲
尹云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Mass Institute Of Information Technology
Original Assignee
Shandong Mass Institute Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Mass Institute Of Information Technology filed Critical Shandong Mass Institute Of Information Technology
Priority to CN202310078902.6A priority Critical patent/CN115861995B/zh
Publication of CN115861995A publication Critical patent/CN115861995A/zh
Application granted granted Critical
Publication of CN115861995B publication Critical patent/CN115861995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种视觉问答方法、装置及电子设备和存储介质,涉及视觉问答技术领域,该方法包括:对训练样本中的描述文本进行重写,生成正样本和负样本;利用对象属性检测模型和BERT模型提取正、负样本的多模态的图文模态信息;对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;检索训练样本中的图像的相似图像,提取相似图像的多模态的图像特征信息作为图像模态信息;检索训练样本中的描述文本的相似文本,提取相似文本的文本特征信息作为文本模态信息;基于正、负样本的图文模态信息、图像模态信息和文本模态信息训练视觉问答模型,以执行视觉问答任务,提高了视觉问答模型的性能。

Description

一种视觉问答方法、装置及电子设备和存储介质
技术领域
本申请涉及视觉问答技术领域,更具体地说,涉及一种视觉问答方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
人类认识世界是多维的,如用眼睛去观察,是双耳去聆听,用触觉与嗅觉去感知等,大脑基于这些信息分析、理解并认识世界。人工智能核心目标是赋予计算机以智能,让机器像人一样去认识世界。通常的视觉语言模型在基于BERT(Bidirectional EncoderRepresentation from Transformers,一个预训练的语言表征模型)的语言模型处理语言文本中添加视觉特征相关信息,经由Transformer将不同模态映射到同一语义空间中,然后基于语义空间中信息进一步处理。当前视觉特征绝大多数选择骨干网络为ResNet-101C4(采用101层的深度残差网络)的Faster-RCNN(Fast Region-based ConvolutionalNetwork,快速的基于区域的卷积神经网络)模型,并基于VG(Visual Genome)数据集进行训练,然而数据集与目标检测模型本身局限性,影响到最终多模态相关任务性能。VG数据虽具有丰富的对象标记以及属性标签,但针对视觉语言任务来讲,仍无法满足数据丰富性与多样性。
以Faster-RCNN为例,首先骨干网络提取整幅图像特征,接着生成大概20万个初始框,通过NMS(非极大值抑制(Non-Maximum Suppression)等策略过滤后产生候选框,随后基于RoI pooling(感兴趣区域池化,Region of interest pooling)等技术进一步确定目标的位置与对应类别,另外算法需要手动设置anchors(锚)、NMS等参数,由此可见并非是端到端的训练。DETR(DEtection Transformer)是将NLP(Natural Language Processing,自然语言处理)中的transformer技术引入到目标检测中,将目标检测认为是集合的预测,是第一个真正意义上端到端训练,首先ResNet骨干网络提取整幅图像特征,随后特征图并加入位置信息,送入到transformer中,最后FFN(feed forward network)输出检测结果。由于transformer在处理过程中,会推理当前位置与整幅图像关系,处理的复杂度正比于特征图尺寸,因此导致收敛速度慢和小目标检测差,针对此问题,Deformable-DETR(基于稀疏空间采样的注意力机制)提出了新的解决方案,用multi-scale deformable attention替换transformer attention,将之前关注整幅图缩减到参考点周围点,大大降低了计算复杂度,加快了收敛速度,同时提高了检测性能,尤其是针对小目标的检测。
目前现有的预训练模型在NLP单模态领域表现都比较好,而将其利用迁移学习到多模态领域时,表现就差强人意。在多模态领域中,UNIMO应运而生,在训练时使用大量文本语料和图像集,以及采用跨模态对比学习策略,大大提升了视觉和文本理解能力,因此能够有效的同时进行单模态与多模态的内容理解和生成任务。UNIMO虽能够有效的同时适配单模态与多模态的内容理解和生成任务,但仍采用基于Faster-RCNN模型预提取视觉特征和基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)特征的图像检索,一定程度上影响了模型的性能。
因此,如何提高视觉问答模型的性能是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种视觉问答方法、装置及一种电子设备和一种计算机可读存储介质,提高了视觉问答模型的性能。
为实现上述目的,本申请提供了一种视觉问答方法,包括:
获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;
检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
利用训练完成的视觉问答模型执行视觉问答任务。
其中,所述获取训练样本集,包括:
获取VG数据集,利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,将扩展后的数据集作为训练样本集。
其中,所述利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,包括:
剔除所述OpenImagesV6数据集中的负样本得到第一中间数据集,在所述第一中间数据集中确定样本数量大于第一阈值的第一目标类别,将所述第一中间数据集中第一目标类别的样本收集至第二中间数据集;
在所述Object365数据集中确定样本数量大于第二阈值的第二目标类别,将所述Object365数据集中第二目标类别的样本收集至第三中间数据集;
基于所述COCO数据集中的样本数量和所述第三中间数据集中的样本数量计算第一比例,基于所述VG数据集中的样本数量和所述第三中间数据集中的样本数量计算第二比例;
按照第一预设比例在所述第二中间数据集中、按照第二预设比例在所述第三中间数据集中、按照所述第一比例在所述COCO数据集中、按照所述第二比例在所述VG数据集中选择样本组成扩展后的数据集。
其中,所述基于所述COCO数据集中的样本数量和所述第三中间数据集中的样本数量计算第一比例,基于所述VG数据集中的样本数量和所述第三中间数据集中的样本数量计算第二比例,包括:
计算所述第三中间数据集中的样本数量与所述COCO数据集中的样本数量之间的第一比值,将所述第一比值的两倍作为第一比例;
计算所述第三中间数据集中的样本数量与所述VG数据集中的样本数量之间的第二比值,将所述第二比值的两倍作为第二比例。
其中,对所述训练样本中的描述文本进行重写,生成正样本和负样本,包括:
对所述训练样本中的描述文本进行句子级别的重写,以生成第一目标文本,基于所述训练样本中的图像和所述第一目标文本生成正样本;
对所述训练样本中的描述文本进行词组级别和单词级别的重写,以生成第二目标文本,基于所述训练样本中的图像和所述第二目标文本生成正样本和负样本。
其中,对所述训练样本中的描述文本进行句子级别的重写,以生成第一目标文本,包括:
确定所述训练样本中的描述文本的目标语言,将所述描述文本翻译为其他语言的中间文本,并基于所述目标语言对所述中间文本进行回译,以生成第一目标文本;
和/或,利用图像描述技术生成所述训练样本中的图像对应的第一目标文本。
其中,所述利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息,包括:
利用对象属性检测模型提取所述正样本中图像的多模态的第一图像特征信息,利用BERT模型提取所述正样本中文本的第一文本特征信息,并基于所述第一图像特征信息和所述第一文本特征信息生成所述正样本的图文模态信息;
利用对象属性检测模型提取所述负样本中图像的多模态的第二图像特征信息,利用BERT模型提取所述负样本中文本的第二文本特征信息,并基于所述第二图像特征信息和所述第二文本特征信息生成所述负样本的图文模态信息。
其中,还包括:
确定第一骨干网络,构建单尺度可变形注意力模块,并在所述单尺度可变形注意力模块的基础上添加多尺度,以构建多尺度可变形注意力模块;
基于所述多尺度可变形注意力模块分别构建所述骨干网络中的RFN-Encode模块和transformer Encode模块,并将所述transformer Encode模块作为header模块;
基于训练样本集训练所述第一骨干网络,以生成目标检测模型;
基于所述VG数据集训练所述目标检测模型,以生成所述对象属性检测模型。
其中,所述检索所述训练样本中的图像的相似图像,包括:
利用图像检索模型检索所述训练样本中的图像的相似图像;其中,所述图像检索模型为ICS多标签检索模型;
相应的,所述方法还包括:
确定第二骨干网络,将所述训练样本编码为哈希码,并确定哈希中心;
基于所述哈希码与所述哈希中心之间的距离交替优所述第二骨干网络的多个模型参数,以生成所述图像检索模型。
其中,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型,包括:
基于所述正样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正样本图像与文本之间的第一跨模态距离;
基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正负样本图像与文本之间的第二跨模态距离;
基于所述第一跨模态距离和所述第二跨模态距离计算跨模态对比学习的损失值,并基于所述损失值更新所述视觉问答模型的模型参数,得到训练完成的视觉问答模型。
其中,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型之后,还包括:
在所述训练样本中确定待掩藏的目标内容;其中,所述目标内容包括图像中的目标区域、描述文本中的目标单词、描述文本中的目标单词的一部分中任一项或任几项的组合;
将所述训练样本中的目标内容进行掩藏,生成视觉语言学习训练样本,并将所述目标内容作为所述视觉语言学习训练样本对应的标签;
基于所述视觉语言学习训练样本和对应的标签训练所述视觉问答模型,得到训练完成的视觉问答模型。
其中,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型之后,还包括:
按照预设比例替换所述训练样本集中训练样本中的图像或描述文本;
将替换后的训练样本集输入所述视觉问答模型,以利用所述视觉问答模型预测替换后的训练样本集中的训练样本包含的图像和描述文本是否匹配,并基于预测结果训练所述视觉问答模型,得到训练完成的视觉问答模型。
为实现上述目的,本申请提供了一种视觉问答装置,包括:
获取模块,用于获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
重写模块,用于对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
第一提取模块,用于利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
第二提取模块,用于检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;
第三提取模块,用于检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
第一训练模块,用于基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
执行模块,用于利用训练完成的视觉问答模型执行视觉问答任务。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述视觉问答方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述视觉问答方法的步骤。
通过以上方案可知,本申请提供的一种视觉问答方法,包括:获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;利用训练完成的视觉问答模型执行视觉问答任务。
本申请基于训练样本集训练双阶段Deformable DETR模型,随后引入到跨模态对比学习中,通过跨模态的对比学习提升视觉模型学习能力,解决了现有技术中Faster-RCNN模型视觉特征不够丰富、跨模态学习能力差的问题。由此可见,本申请提供的视觉问答方法,提高了视觉问答模型的性能。本申请还公开了一种视觉问答装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种视觉问答方法的流程图;
图2为根据一示例性实施例示出的另一种视觉问答方法的流程图;
图3为根据一示例性实施例示出的一种基于two-stage Deformable-DETR对象属性检测模型的结构图;
图4为根据一示例性实施例示出的一种跨模态对比学习示例图;
图5为根据一示例性实施例示出的一种视觉语言学习的示例图;
图6为根据一示例性实施例示出的一种视觉问答装置的结构图;
图7为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例公开了一种视觉问答方法,提高了视觉问答模型的性能。
参见图1,根据一示例性实施例示出的一种视觉问答方法的流程图,如图1所示,包括:
S101:获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
本实施例中的训练样本集可以具体为VG数据集,训练样本集包括多个训练样本,训练样本包括图像和对应的描述文本。当然,还可以利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,将扩展后的数据集作为训练样本集。
S102:对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
具体的,对所述训练样本中的描述文本进行句子级别的重写,以生成第一目标文本,基于所述训练样本中的图像和所述第一目标文本生成正样本;对所述训练样本中的描述文本进行词组级别和单词级别的重写,以生成第二目标文本,基于所述训练样本中的图像和所述第二目标文本生成正样本和负样本。
在具体实施中,将原始的描述文本进行句子级别、词组级别以及单词级别重写。对于句子级别的重写,作为一种可行的实施方式,确定所述训练样本中的描述文本的目标语言,将所述描述文本翻译为其他语言的中间文本,并基于所述目标语言对所述中间文本进行回译,以生成第一目标文本。采用回译的方式,将原始的描述文本先翻译成其他语言,随后再翻译回原语言,由于不同语言语法结构不同,造成回译前后句子有稍微差别,但回译前后句子都是对原始图像的描述,增加了样本多样性。作为另一种可行的实施方式,利用图像描述技术生成所述训练样本中的图像对应的第一目标文本。采用Image caption(图像描述)方法,根据输入图像自动生成对应的描述性文字,并选取与原始文字相似度大的作为原始图像描述。对于词组级别和单词级别的重写。基于图像描述的文本构造场景图,然后利用词汇表非近义词随机替换场景图中对象、属性以及关系节点,这样生成的句子虽接近,但并非对原始图像描述,增加了负样本难识别程度。
S103:利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
具体的,利用对象属性检测模型提取所述正样本中图像的多模态的第一图像特征信息,利用BERT模型提取所述正样本中文本的第一文本特征信息,并基于所述第一图像特征信息和所述第一文本特征信息生成所述正样本的图文模态信息;利用对象属性检测模型提取所述负样本中图像的多模态的第二图像特征信息,利用BERT模型提取所述负样本中文本的第二文本特征信息,并基于所述第二图像特征信息和所述第二文本特征信息生成所述负样本的图文模态信息。
双阶段Deformable DETR模型的训练过程为:确定第一骨干网络,构建单尺度可变形注意力模块,并在所述单尺度可变形注意力模块的基础上添加多尺度,以构建多尺度可变形注意力模块;基于所述多尺度可变形注意力模块分别构建所述骨干网络中的RFN-Encode模块和transformer Encode模块,并将所述transformer Encode模块作为header模块;基于训练样本集训练所述第一骨干网络,以生成目标检测模型;基于所述VG数据集训练所述目标检测模型,以生成所述对象属性检测模型。
目前视觉语言模型仍采用基于Faster-RCNN结构的对象属性检测模型,由于算法本身的缺点导致最终的表现性能一般,此处在基于Deformable-DETR基础上,提出新多尺度可变形注意力模块,并随后引入two-stage机制以及多Header机制,进一步提高模型的检测性能。首先,挑选骨干网络。目前对象属性检测模型采用的骨干网络为ResNet-101 C4和ResNeXt-152 C4,经试验发现后者比前者拥有更强表征能力,因此为了进一步提升模型表征能力,采用基于ResNeXt-152+DCN的骨干网络。其次,构建多尺度可变形注意力模块。大量事实证明,多尺度信息可提高目标检测性能,但高层特征由低层特征卷积而来,会出现平滑现象,影响检测性能,因此在构建多尺度模块时,高层特征选择少量的key,低层特征选择更多的key,来提升特征质量。在Transformer注意力机制中引入可变形注意力模块,使其仅关注周围少量key而降低计算复杂度和空间复杂度。
构建多尺度可变形注意力模块的过程具体为:首先,构建单尺度可变形注意力模块。令输入特征图为
Figure SMS_1
,特征点与参考点分别为Zq、rq,其中q为对应的索引,通过以下方式计算可变形的注意力特征:
Figure SMS_3
其中,
Figure SMS_7
和/>
Figure SMS_9
为可学习的权重,/>
Figure SMS_4
,注意力权重/>
Figure SMS_6
,/>
Figure SMS_8
表示第h个head中第k个样本对应的权重,h为attention head的索引,k为已选择keys的索引,K表示所有已选择key的数目,/>
Figure SMS_10
表示第h个head中第k个样本的偏移量,
Figure SMS_2
为浮点数,则/>
Figure SMS_5
通常为非整数,此位置对应的值可通过双线性插值方法根据周围点获取。
其次,构建多尺度可变形注意力模块。根据目标检测模型有效使用多尺度特征图可以提升精度经验,在基于单尺度可变形注意力模块基础上添加多尺度,公式如下:
Figure SMS_11
其中,
Figure SMS_13
和/>
Figure SMS_17
为可学习的权重,/>
Figure SMS_20
,注意力权重/>
Figure SMS_14
,/>
Figure SMS_16
表示第h个head中第l层特征第k个样本对应的权重,/>
Figure SMS_19
为任何关于l递减函数,且输出为整数,/>
Figure SMS_22
,/>
Figure SMS_12
为输入多尺度特征图,/>
Figure SMS_15
,h为attention head索引,l表示输入特征的level,k表示已选择keys的索引,K表示所有已选择key的数目,/>
Figure SMS_18
表示第h个head中第l层特征第k个样本的偏移量,/>
Figure SMS_21
表示对第l层特征重新归一化之后的坐标。
然后,基于多尺度可变形注意力模块分别搭建RPN(Region Proposal Network)-Encoder模块和transformer Encoder模块。搭建PRN-Encoder模块:为了能够提升检测精度,采用目标检测两步法机制,在多尺度特征图添加分支RPN-Encoder,预提取候选框。RPN-Encoder中head数目可以设置为8,key可以设置为3。搭建transformer Encoder模块:此处额可以设置head数目为8,key可以设置为4,并可以统一多尺度特征的通道数为256。
进一步的,构建header模块。将Transformer Decoder模块作为header模块,此模块初始时接受RPN-Encoder模块输出的object queries和Transformer Encoder模块输出特征图编码,后期为了提升检测精确度,用Transformer Decoder模块输出替代RPN-Encoder模块输出。
基于扩展后的数据集,调整相关参数,训练two-stage Deformable-DETR目标检测模型。基于VG数据集,训练基于two-stage Deformable-DETR对象属性检测模型。通过目标检测模型可得到图像中目标检测结果,即图像有什么并且在什么位置,这对于视觉语言模型要理解图像内容还远远不够,因此需要在two-stage Deformable DETR基础上添加属性分支。具体操作步骤如下:
在decoder尾部添加类别数目为524类的属性分支,此分支与FFN和lineprojection并列,其中FFN分支预测bounding box位置,line projection分支预测分类结果,属性分支预测目标的属性。
在原有loss基础上添加属性Loss,即:
Figure SMS_24
;其中,
Figure SMS_29
为分类loss,/>
Figure SMS_32
为第i个样本的预测置信度,ci为第i个样本的标签,/>
Figure SMS_26
为box loss,/>
Figure SMS_27
为第i个样本的预测位置,bi为第i个样本的真实位置,/>
Figure SMS_30
为属性loss,/>
Figure SMS_33
为第i个样本第j个属性的预测置信度,ci,j为第i个样本第j个属性的标签,N为样本数量,M为属性数量,需要搜索的参数/>
Figure SMS_23
,/>
Figure SMS_28
表示在/>
Figure SMS_31
上真实值/>
Figure SMS_34
与预测值/>
Figure SMS_25
之间的matching cost。
最后,调整训练相关超参数,基于VG数据集微调对象属性模型。
根据已训练two-stage Deformable-DETR对象属性检测模型,预提取image-text类型中视觉特征,其中image-text类型中包含以下四个多模态数据:COCO、Visual Genome、Conceptual Caption(CC)、SBU captions。
正样本与不匹配的负样本,随后分别通过对象属性模型获取图像特征信息和BERT模型获取文本特征信息,经由Transformer得到图文模态信息,正样本视觉部分与文本部分输出分别为
Figure SMS_35
,/>
Figure SMS_36
,负样本视觉部分与文本部分分别输出为/>
Figure SMS_37
,/>
Figure SMS_38
S104:检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;
具体的,利用图像检索模型检索所述训练样本中的图像的相似图像;其中,所述图像检索模型为ICS(instance-weighted Central Similarity)多标签检索模型。原始的图像经过图像检索模块,得到关于原始图像正样本图像,随后经过对象属性模型获取图像特征信息,而文本信息用pad填充,使得与图文模态输入长度相同,经由Transformer得到图像模态信息为
Figure SMS_39
图像检索模型的训练过程包括:确定第二骨干网络,将所述训练样本编码为哈希码,并确定哈希中心;基于所述哈希码与所述哈希中心之间的距离交替优所述第二骨干网络的多个模型参数,以生成所述图像检索模型。
在一般的跨模态对比学习任务中,为了更充分使用单模态视觉特征信息而加入TF-IDF图像检索技术,此种技术完全基于Faster-RCNN模型输出检测框,检测框质量直接影响图像检索技术,为解决此问题,通过引入ICS多标签图像检索技术提高检索质量。令X为一组训练集,
Figure SMS_40
,其中D表示输入的维度,M表示标签数目,yi代表第i个样本对应的标签,基于训练集学习非线性哈希函数:/>
Figure SMS_41
,即将数据x编码成K-bit哈希码,/>
Figure SMS_42
表示模型参数,变换后hamming空间仍保留源空间相似性,令/>
Figure SMS_43
为多标签图像检索哈希中心,每个二进制编码bi由两部分组成:哈希中心/>
Figure SMS_44
以及对应权重/>
Figure SMS_45
ICS算法在训练过程中不仅学习到非线性哈希函数,同时也学习到图像中实例对应权重,具体操作步骤如下:
生成哈希中心:定义Hadamard矩阵行向量为哈希中心,其中Hadamard矩阵满足独立性和平衡性,并且行向量与列向量正交。利用Sylvester算法生成的Hadamard矩阵:
Figure SMS_46
;/>
Figure SMS_47
;其中/>
Figure SMS_48
为Kronecker积。/>
构建实例权重中心相似性:为了度量哈希码bi与哈希中心
Figure SMS_51
的相似性di,采用BCE(binary cross centers),即:/>
Figure SMS_52
由于实例在图像中比例不一样,因此在原始度量中添加权重,即/>
Figure SMS_55
,公式如下:
Figure SMS_49
;通过一系列推导,最终的优化函数为:/>
Figure SMS_54
;其中/>
Figure SMS_56
为0.05,其他量为:/>
Figure SMS_57
Figure SMS_50
;/>
Figure SMS_53
交替优化:为了在模型训练过程中同时学习权重w,采用以下两个步骤交替优化:固定模型参数
Figure SMS_58
,通过/>
Figure SMS_59
计算哈希中心/>
Figure SMS_60
与Hamming距离/>
Figure SMS_61
,然后利用梯度下降法去优化/>
Figure SMS_62
。固定权重w,通过反向传播更新模型参数/>
Figure SMS_63
基于以上策略,在经步骤1预处理之后的数据集上,选取骨干网络 ResNeXt-152,调整相关参数,采用Adam优化器训练基于ICS多标签检索模型。
为了能在跨模态学习中更多的融入图像模态信息,根据原始输入图像去检索相关图像,并选择相似图像。根据已训练ICS多标签图像检索模型,预提取image-text类型与image collections类型的64位哈希码,其中image-text类型为上述步骤提到的四个多模态数据,image collections类型为OpenImages与COCO未标记无文本描述的数据。
S105:检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
为了能在跨模态学习中更多的融入语料信息,根据原始文本去检索相关文本,并选择相似文本。可以采用NLP中判断两个句子相似性,从语料库中选择与原始图像描述相近的句子,作为训练时正样本文本集。
原始图文信息经过文本检索模块得到原文本相近文本,经由BERT模型提取文本特征信息,此处图像特征信息填充为0,并使得与图文模态输入长度相同,经由Transformer得到文本模态信息为
Figure SMS_64
。/>
S106:基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
具体的,基于所述正样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正样本图像与文本之间的第一跨模态距离;基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正负样本图像与文本之间的第二跨模态距离;基于所述第一跨模态距离和所述第二跨模态距离计算跨模态对比学习的损失值,并基于所述损失值更新所述视觉问答模型的模型参数,得到训练完成的视觉问答模型。
正样本图像与文本之间的第一跨模态距离的计算如下:
Figure SMS_65
;正负样本图像与文本之间的第二跨模态距离的计算如下:
Figure SMS_66
;则跨模态对比学习Loss计算如下:/>
Figure SMS_67
,EV,T代表数学期望,也即跨模态对比学习Loss为/>
Figure SMS_68
的数学期望。
S107:利用训练完成的视觉问答模型执行视觉问答任务。
在具体实施中,基于上述对比学习的预训练模型基础上,增加下游任务对应的head,利用下游任务数据、调整相关训练参数,完成下游任务finetuning。
本申请实施例基于训练样本集训练双阶段Deformable DETR模型,随后引入到跨模态对比学习中,通过跨模态的对比学习提升视觉模型学习能力,解决了现有技术中Faster-RCNN模型视觉特征不够丰富、跨模态学习能力差的问题。由此可见,本申请实施例提供的视觉问答方法,提高了视觉问答模型的性能。
本申请实施例公开了一种视觉问答方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,根据一示例性实施例示出的另一种视觉问答方法的流程图,如图2所示,包括:
S201:获取VG数据集,利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,将扩展后的数据集作为训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
具体的,剔除所述OpenImagesV6数据集中的负样本得到第一中间数据集,在所述第一中间数据集中确定样本数量大于第一阈值的第一目标类别,将所述第一中间数据集中第一目标类别的样本收集至第二中间数据集;在所述Object365数据集中确定样本数量大于第二阈值的第二目标类别,将所述Object365数据集中第二目标类别的样本收集至第三中间数据集;基于所述COCO数据集中的样本数量和所述第三中间数据集中的样本数量计算第一比例,基于所述VG数据集中的样本数量和所述第三中间数据集中的样本数量计算第二比例;按照第一预设比例在所述第二中间数据集中、按照第二预设比例在所述第三中间数据集中、按照所述第一比例在所述COCO数据集中、按照所述第二比例在所述VG数据集中选择样本组成扩展后的数据集。
为了提升对象属性检测模型性能,利用已公开的 COCO、OpenImagesV6、Objects365数据集对原有的VG数据集进行丰富,而这些数据皆存在极度不平衡问题以及数据间类别重叠等问题,不能简单将4个数据集合并成一个数据集,因此,基于均匀分布策略去选择每个数据集以及对应类别数目。
为了提升数据长尾分布中尾部类别视觉特征,采用基于类别为原则方式,分别从OpenImagesV6和Object365两个数据集采集样本集A和B,具体方式如下:
OpenImagesV6大约具有900万张图像的数据集,这些图像通过类别、目标检测、 视觉分割、视觉关系以及局部叙述方式进行标注,此数据集采用基于类别方式去选样本。剔除样本集负样本,此样本集中样本大多数存在机器标注且置信度偏低,以及人工校验后将错误样本置信度设为0的样本。选择每个类别中样本数目大于第一阈值的类别,此处第一阈值可以设置为500,遍历所有类别,将符合要求的类别收集并记为A。
Object365大约具有63万张图像,覆盖365个类别,高达1000万框数,此数据集为目标检测数据集。遍历整个数据集,统计每个类别数目。遍历所有类别,选择每个类别数据大于第二阈值的类别,收集符合要求的类别并记为B,此处第二阈值可以设置为500。
基于均匀分布策略以及各数据集存在样本重叠问题,将4种数据集按照如下方式组织成一个新数据集:选择1倍的OpenImagesV6(1xA);选择2倍的Objects365(2xB);基于B样本数目,依次选择COCO和VG数据集,比例分别为a和b,计算第三中间数据集中的样本数量与COCO数据集中的样本数量之间的第一比值,将第一比值的两倍作为第一比例;计算第三中间数据集中的样本数量与VG数据集中的样本数量之间的第二比值,将第二比值的两倍作为第二比例。计算方式为[2xB/(数据集数目) ],若大于10,归一化到[1,10]之间。
统一合并之后的数据集,即基于VG数据集,将其他三个数据集中具有相同类别合并到VG同类别中,不同类别作为新类添加到VG中。为了降低因类别中样本数目极不平衡影响模型性能,将样本数目小于thr_num(设置为50)的类剔除,过滤之后数据集类别数目记为cls_nums。
S202:对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
S203:利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
S204:利用图像检索模型检索所述训练样本中的图像的相似图像;其中,所述图像检索模型为ICS多标签检索模型;
S205:检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
S206:基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
S207:利用训练完成的视觉问答模型执行视觉问答任务。
在上述实施例的基础上,可以通过对图像区域和句子中单词随机mask以及随机替换图像-文本对的匹配任务来完成视觉语言任务的预训练。
作为一种可行的实施方式,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型之后,还包括:在所述训练样本中确定待掩藏的目标内容;其中,所述目标内容包括图像中的目标区域、描述文本中的目标单词、描述文本中的目标单词的一部分中任一项或任几项的组合;将所述训练样本中的目标内容进行掩藏,生成视觉语言学习训练样本,并将所述目标内容作为所述视觉语言学习训练样本对应的标签;基于所述视觉语言学习训练样本和对应的标签训练所述视觉问答模型,得到训练完成的视觉问答模型。
Masked language modeling(MLM):遮挡文本预测,针对输入的图像-文本对,随机mask文本中一些位置单词,随后基于剩余的文本和图像去预测mask部分单词。MaskedRegion modeling(MRM):遮挡图像区域预测,针对输入的图像-文本对,随机mask图像目标检测结果中区域,随后基于图像其他区域检测结果和文本去预测mask区域中内容。Maskedsubword modeling(MSM):遮挡单词中部分字母预测,MLM中mask是整个单词,此处mask单词中一部分,如chinese音节划分为[“chi”,“##nese”],训练时mask第一部分或第二部分,基于剩余文本、图像、以及mask掉单字去预测被mask掉内容。根据预测结果和被mask掉内容训练视觉问答模型,实现视觉语言任务的预训练。
作为另一种可行的实施方式,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型之后,还包括:按照预设比例替换所述训练样本集中训练样本中的图像或描述文本;将替换后的训练样本集输入所述视觉问答模型,以利用所述视觉问答模型预测替换后的训练样本集中的训练样本包含的图像和描述文本是否匹配,并基于预测结果训练所述视觉问答模型,得到训练完成的视觉问答模型。Image-Text matching(ITM):图文匹配预测,可以以0.5概率随机替换文本对应的图像或图像对应的文本,然后预测输入的图像-文本是不是存在对应关系。根据预测结果训练视觉问答模型,实现视觉语言任务的预训练。
下面介绍本申请提供的一种应用实施例,具体包括以下步骤:
步骤一:利用公开目标检测数据集丰富VG数据集。
视觉语言任务中通常需要提取视觉信息,而这些特征提取通常依赖于基于常见数据集预训练好的Faster-RCNN模型,这些数据本身更关注有形状对象(如汽车、猫),缺少无固定形状对象(如蓝天、白云),而缺少的这些信息通常对于描述整幅图像至关重要。另外,训练数据本身存在长尾分布,这更使得视觉语言模型捉襟见肘。为了解决此问题,按照类别从数据集中挑选,并按照均匀分布策略平衡每个数据集以及每种类别对应的样本数。
步骤二:训练对象属性检测模型。
根据预处理数据,训练基于two-stage Deformable-DETR对象属性检测模型,如图3所示。目前视觉语言任务使用骨干网络为 ResNet-101 C4的Faster-RCNN模型提取视觉特征,而VinVL在此基础上将骨干网络替换为ResNeXt-152C4,并将数据集从原始的VG扩充到四个数据集,使得模型的视觉表征能力更加丰富,但仍采用Faster-RCNN结构,训练过程中需处理前景与背景平衡问题、anchor、NMS等,这些处理势必会影响到最终的性能,DETR基于transformer本身的特性解决了Faster-RCNN需要手动设置参数的问题,但由于transformer本身缺点,导致训练时间过长、小目标表现差等缺点,Deformable-DETR在DETR基础上,引入multi-scale deformable attention模块,完美的解决了DETR存在的问题。具体的实施方式如下:
(1)建two-stage Deformable-DETR目标检测模型:
A、挑选ResNeXt-152+DCN的骨干网络:
B、构建多尺度可变形注意力模块;
C、基于多尺度可变形注意力模块分别搭建RPN-Encoder模块和transformerEncoder模块;
D、构建header模块。将Transformer Decoder模块作为header模块,此模块初始时接受RPN-Encoder模块输出的object queries和Transformer Encoder模块输出特征图编码,后期为了提升检测精确度,用Transformer Decoder模块输出替代RPN-Encoder模块输出。
(2)基于生成的数据,调整相关参数,训练two-stage Deformable-DETR目标检测模型;
(3)基于VG数据集,训练基于two-stage Deformable-DETR对象属性检测模型:
A、在decoder尾部添加类别数目为524类的属性分支,此分支与FFN和lineprojection并列,其中FFN分支预测bounding box位置,line projection分支预测分类结果,属性分支预测目标的属性。
B、在原有loss基础上添加属性Loss,即:
Figure SMS_71
;其中,
Figure SMS_75
为分类loss,/>
Figure SMS_78
为第i个样本的预测置信度,ci为第i个样本的标签,
Figure SMS_72
为box loss,/>
Figure SMS_73
为第i个样本的预测位置,bi为第i个样本的真实位置,/>
Figure SMS_76
为属性loss,/>
Figure SMS_79
为第i个样本第j个属性的预测置信度,ci,j为第i个样本第j个属性的标签,N为样本数量,M为属性数量,需要搜索的参数
Figure SMS_69
,/>
Figure SMS_74
表示在/>
Figure SMS_77
上真实值/>
Figure SMS_80
与预测值/>
Figure SMS_70
之间的matching cost。C、调整训练相关超参数,基于VG数据集微调对象属性模型。
步骤三:训练基于ICS的多标签图像检索模型。
一般在跨模态对比学习任务中,为了更多吸收单模态信息,加入了基于TF-IDF图像检索技术,即在输入图像中,利用Faster-RCNN模型输出100个检测结果,根据检测结果对应的类别组建TF-IDF特征,然后基于余弦距离筛选图像。此种图像检索技术过分依赖于检测结果以及每张图像强输出100个目标,将影响图像检索的质量,而ICS多标签图像检索模型,完全不依赖于检测框,并且根据目标关系赋予不同权重,大大提高检索质量。
步骤四:训练基于跨模态对比学习多模态模型。
将步骤二对象属性检测模型和步骤三ICS多标签图像检索模型引入到跨模态对比学习中,提升视觉特征与文本特征所隐含信息的关联,随后经过视觉语言学习预训练,进一步增加隐空间的聚集,提升了预训练模型性能,最后基于预训练模型,针对不同的下游任务做微调。
预训练采用跨模态对比学习与带有四个预训练任务的视觉语言学习联合方式,提升多个模态信息在隐空间的聚合能力,从而提升预训练模型的性能,图4为跨模态对比学习示例图,跨模态对比学习可以将来自图片的视觉特征和来自预料特征所隐含的信息联系起来,有效的使得两者信息在隐空间中聚集。具体步骤如下:
(1)分别设置文本重写模块、图像检索模块、文本检索模块;
(2)基于上述三个模块设置,进行跨模态对比学习。
图5为视觉语言学习的示例图,视觉语言学习过对图像区域和句子中单词随机mask以及随机替换图像-文本对的匹配任务来完成视觉语言任务的预训练,具体包括:
(1)Image-Text matching(ITM):图文匹配预测,以0.5概率随机替换文本对应的图像或图像对应的文本,然后预测输入的图像-文本是不是存在对应关系。
(2)Masked language modeling(MLM):遮挡文本预测,针对输入的图像-文本对,随机mask文本中一些位置单词,随后基于剩余的文本和图像去预测mask部分单词。
(3)Masked Region modeling(MRM):遮挡图像区域预测,针对输入的图像-文本对,随机mask图像目标检测结果中区域,随后基于图像其他区域检测结果和文本去预测mask区域中内容。
(4)Masked subword modeling(MSM):遮挡单词中部分字母预测,中mask是整个单词,此处mask单词中一部分,如chinese音节划分为[“chi”,“##nese”],训练时mask第一部分或第二部分,基于剩余文本、图像、以及mask掉单字去预测被mask掉内容。
基于公开目标检测数据集采用均匀分布策略提升原始VG数据集丰富性,先后训练基于Deformable-DETR的对象检测模型和基于ICS多标签检索模型,随后将其引入到跨模态对比学习和视觉语言学习中,通过跨模态对比学习可将视觉特征与预料特征所隐含信息关联,而后通过视觉语言学习使得两者在隐空间更加聚集,从而提升了模型的学习能力。
可见,本申请相比于多模态任务单纯利用VG数据集,提高了数据集丰富性。相比于多模态任务采用Faster-RCNN结构的对象属性检测模型,提高了视觉特征的表征能力。相比于跨模态对比任务中采用TF-IDF图像检索技术,提升了图像检索质量。相比于一般的视觉语言多模态模型,提升了多个模态之间的学习能力。
下面对本申请实施例提供的一种视觉问答装置进行介绍,下文描述的一种视觉问答装置与上文描述的一种视觉问答方法可以相互参照。
参见图6,根据一示例性实施例示出的一种视觉问答装置的结构图,如图6所示,包括:
获取模块601,用于获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
重写模块602,用于对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
第一提取模块603,用于利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
第二提取模块604,用于检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;
第三提取模块605,用于检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
第一训练模块606,用于基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
执行模块607,用于利用训练完成的视觉问答模型执行视觉问答任务。
本申请实施例基于训练样本集训练双阶段Deformable DETR模型,随后引入到跨模态对比学习中,通过跨模态的对比学习提升视觉模型学习能力,解决了现有技术中Faster-RCNN模型视觉特征不够丰富、跨模态学习能力差的问题。由此可见,本申请实施例提供的视觉问答装置,提高了视觉问答模型的性能。
在上述实施例的基础上,作为一种优选实施方法,所述获取模块601具体用于:获取VG数据集,利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,将扩展后的数据集作为训练样本集。
在上述实施例的基础上,作为一种优选实施方法,所述获取模块601包括:
获取单元,用于获取VG数据集;
第一收集单元,用于剔除所述OpenImagesV6数据集中的负样本得到第一中间数据集,在所述第一中间数据集中确定样本数量大于第一阈值的第一目标类别,将所述第一中间数据集中第一目标类别的样本收集至第二中间数据集;
第二收集单元,用于在所述Object365数据集中确定样本数量大于第二阈值的第二目标类别,将所述Object365数据集中第二目标类别的样本收集至第三中间数据集;
计算单元,用于基于所述COCO数据集中的样本数量和所述第三中间数据集中的样本数量计算第一比例,基于所述VG数据集中的样本数量和所述第三中间数据集中的样本数量计算第二比例;
选择单元,用于按照第一预设比例在所述第二中间数据集中、按照第二预设比例在所述第三中间数据集中、按照所述第一比例在所述COCO数据集中、按照所述第二比例在所述VG数据集中选择样本组成扩展后的数据集。
在上述实施例的基础上,作为一种优选实施方法,所述计算单元具体用于:计算所述第三中间数据集中的样本数量与所述COCO数据集中的样本数量之间的第一比值,将所述第一比值的两倍作为第一比例;计算所述第三中间数据集中的样本数量与所述VG数据集中的样本数量之间的第二比值,将所述第二比值的两倍作为第二比例。
在上述实施例的基础上,作为一种优选实施方法,所述重写模块602包括:
第一重写单元,用于对所述训练样本中的描述文本进行句子级别的重写,以生成第一目标文本,基于所述训练样本中的图像和所述第一目标文本生成正样本;
第二重写单元,用于对所述训练样本中的描述文本进行词组级别和单词级别的重写,以生成第二目标文本,基于所述训练样本中的图像和所述第二目标文本生成正样本和负样本。
在上述实施例的基础上,作为一种优选实施方法,所述第一重写单元具体用于:确定所述训练样本中的描述文本的目标语言,将所述描述文本翻译为其他语言的中间文本,并基于所述目标语言对所述中间文本进行回译,以生成第一目标文本;和/或,利用图像描述技术生成所述训练样本中的图像对应的第一目标文本。
在上述实施例的基础上,作为一种优选实施方法,所述第一提取模块603具体用于:利用对象属性检测模型提取所述正样本中图像的多模态的第一图像特征信息,利用BERT模型提取所述正样本中文本的第一文本特征信息,并基于所述第一图像特征信息和所述第一文本特征信息生成所述正样本的图文模态信息;利用对象属性检测模型提取所述负样本中图像的多模态的第二图像特征信息,利用BERT模型提取所述负样本中文本的第二文本特征信息,并基于所述第二图像特征信息和所述第二文本特征信息生成所述负样本的图文模态信息。
在上述实施例的基础上,作为一种优选实施方法,还包括:
第二训练模块,用于确定第一骨干网络,构建单尺度可变形注意力模块,并在所述单尺度可变形注意力模块的基础上添加多尺度,以构建多尺度可变形注意力模块;基于所述多尺度可变形注意力模块分别构建所述骨干网络中的RFN-Encode模块和transformerEncode模块,并将所述transformer Encode模块作为header模块;基于训练样本集训练所述第一骨干网络,以生成目标检测模型;基于所述VG数据集训练所述目标检测模型,以生成所述对象属性检测模型。
在上述实施例的基础上,作为一种优选实施方法,所述第二提取模块604具体用于:利用图像检索模型检索所述训练样本中的图像的相似图像;其中,所述图像检索模型为ICS多标签检索模型;提取所述相似图像的多模态的图像特征信息作为图像模态信息;
相应的,所述装置还包括:
第三训练模块,用于确定第二骨干网络,将所述训练样本编码为哈希码,并确定哈希中心;基于所述哈希码与所述哈希中心之间的距离交替优所述第二骨干网络的多个模型参数,以生成所述图像检索模型。
在上述实施例的基础上,作为一种优选实施方法,所述第一训练模块606具体用于:基于所述正样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正样本图像与文本之间的第一跨模态距离;基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正负样本图像与文本之间的第二跨模态距离;基于所述第一跨模态距离和所述第二跨模态距离计算跨模态对比学习的损失值,并基于所述损失值更新所述视觉问答模型的模型参数,得到训练完成的视觉问答模型。
在上述实施例的基础上,作为一种优选实施方法,还包括:
第四训练模块,用于在所述训练样本中确定待掩藏的目标内容;其中,所述目标内容包括图像中的目标区域、描述文本中的目标单词、描述文本中的目标单词的一部分中任一项或任几项的组合;将所述训练样本中的目标内容进行掩藏,生成视觉语言学习训练样本,并将所述目标内容作为所述视觉语言学习训练样本对应的标签;基于所述视觉语言学习训练样本和对应的标签训练所述视觉问答模型,得到训练完成的视觉问答模型。
在上述实施例的基础上,作为一种优选实施方法,还包括:
第五训练模块,用于按照预设比例替换所述训练样本集中训练样本中的图像或描述文本;将替换后的训练样本集输入所述视觉问答模型,以利用所述视觉问答模型预测替换后的训练样本集中的训练样本包含的图像和描述文本是否匹配,并基于预测结果训练所述视觉问答模型,得到训练完成的视觉问答模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图7为根据一示例性实施例示出的一种电子设备的结构图,如图7所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的视觉问答方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种视觉问答方法,其特征在于,包括:
获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;
检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
利用训练完成的视觉问答模型执行视觉问答任务。
2.根据权利要求1所述视觉问答方法,其特征在于,所述获取训练样本集,包括:
获取VG数据集,利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,将扩展后的数据集作为训练样本集。
3.根据权利要求2所述视觉问答方法,其特征在于,所述利用COCO数据集、OpenImagesV6数据集和Object365数据集对所述VG数据集进行扩展,包括:
剔除所述OpenImagesV6数据集中的负样本得到第一中间数据集,在所述第一中间数据集中确定样本数量大于第一阈值的第一目标类别,将所述第一中间数据集中第一目标类别的样本收集至第二中间数据集;
在所述Object365数据集中确定样本数量大于第二阈值的第二目标类别,将所述Object365数据集中第二目标类别的样本收集至第三中间数据集;
基于所述COCO数据集中的样本数量和所述第三中间数据集中的样本数量计算第一比例,基于所述VG数据集中的样本数量和所述第三中间数据集中的样本数量计算第二比例;
按照第一预设比例在所述第二中间数据集中、按照第二预设比例在所述第三中间数据集中、按照所述第一比例在所述COCO数据集中、按照所述第二比例在所述VG数据集中选择样本组成扩展后的数据集。
4.根据权利要求3所述视觉问答方法,其特征在于,所述基于所述COCO数据集中的样本数量和所述第三中间数据集中的样本数量计算第一比例,基于所述VG数据集中的样本数量和所述第三中间数据集中的样本数量计算第二比例,包括:
计算所述第三中间数据集中的样本数量与所述COCO数据集中的样本数量之间的第一比值,将所述第一比值的两倍作为第一比例;
计算所述第三中间数据集中的样本数量与所述VG数据集中的样本数量之间的第二比值,将所述第二比值的两倍作为第二比例。
5.根据权利要求1所述视觉问答方法,其特征在于,对所述训练样本中的描述文本进行重写,生成正样本和负样本,包括:
对所述训练样本中的描述文本进行句子级别的重写,以生成第一目标文本,基于所述训练样本中的图像和所述第一目标文本生成正样本;
对所述训练样本中的描述文本进行词组级别和单词级别的重写,以生成第二目标文本,基于所述训练样本中的图像和所述第二目标文本生成正样本和负样本。
6.根据权利要求5所述视觉问答方法,其特征在于,对所述训练样本中的描述文本进行句子级别的重写,以生成第一目标文本,包括:
确定所述训练样本中的描述文本的目标语言,将所述描述文本翻译为其他语言的中间文本,并基于所述目标语言对所述中间文本进行回译,以生成第一目标文本;
和/或,利用图像描述技术生成所述训练样本中的图像对应的第一目标文本。
7.根据权利要求1所述视觉问答方法,其特征在于,所述利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息,包括:
利用对象属性检测模型提取所述正样本中图像的多模态的第一图像特征信息,利用BERT模型提取所述正样本中文本的第一文本特征信息,并基于所述第一图像特征信息和所述第一文本特征信息生成所述正样本的图文模态信息;
利用对象属性检测模型提取所述负样本中图像的多模态的第二图像特征信息,利用BERT模型提取所述负样本中文本的第二文本特征信息,并基于所述第二图像特征信息和所述第二文本特征信息生成所述负样本的图文模态信息。
8.根据权利要求2所述视觉问答方法,其特征在于,还包括:
确定第一骨干网络,构建单尺度可变形注意力模块,并在所述单尺度可变形注意力模块的基础上添加多尺度,以构建多尺度可变形注意力模块;
基于所述多尺度可变形注意力模块分别构建所述骨干网络中的RFN-Encode模块和transformer Encode模块,并将所述transformer Encode模块作为header模块;
基于训练样本集训练所述第一骨干网络,以生成目标检测模型;
基于所述VG数据集训练所述目标检测模型,以生成所述对象属性检测模型。
9.根据权利要求1所述视觉问答方法,其特征在于,所述检索所述训练样本中的图像的相似图像,包括:
利用图像检索模型检索所述训练样本中的图像的相似图像;其中,所述图像检索模型为ICS多标签检索模型;
相应的,所述方法还包括:
确定第二骨干网络,将所述训练样本编码为哈希码,并确定哈希中心;
基于所述哈希码与所述哈希中心之间的距离交替优所述第二骨干网络的多个模型参数,以生成所述图像检索模型。
10.根据权利要求1所述视觉问答方法,其特征在于,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型,包括:
基于所述正样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正样本图像与文本之间的第一跨模态距离;
基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息计算正负样本图像与文本之间的第二跨模态距离;
基于所述第一跨模态距离和所述第二跨模态距离计算跨模态对比学习的损失值,并基于所述损失值更新所述视觉问答模型的模型参数,得到训练完成的视觉问答模型。
11.根据权利要求1所述视觉问答方法,其特征在于,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型之后,还包括:
在所述训练样本中确定待掩藏的目标内容;其中,所述目标内容包括图像中的目标区域、描述文本中的目标单词、描述文本中的目标单词的一部分中任一项或任几项的组合;
将所述训练样本中的目标内容进行掩藏,生成视觉语言学习训练样本,并将所述目标内容作为所述视觉语言学习训练样本对应的标签;
基于所述视觉语言学习训练样本和对应的标签训练所述视觉问答模型,得到训练完成的视觉问答模型。
12.根据权利要求11所述视觉问答方法,其特征在于,所述基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型之后,还包括:
按照预设比例替换所述训练样本集中训练样本中的图像或描述文本;
将替换后的训练样本集输入所述视觉问答模型,以利用所述视觉问答模型预测替换后的训练样本集中的训练样本包含的图像和描述文本是否匹配,并基于预测结果训练所述视觉问答模型,得到训练完成的视觉问答模型。
13.一种视觉问答装置,其特征在于,包括:
获取模块,用于获取训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本包括图像和对应的描述文本;
重写模块,用于对所述训练样本中的描述文本进行重写,生成正样本和负样本;其中,所述正样本中图像与文本匹配,所述负样本中图像与文本不匹配;
第一提取模块,用于利用对象属性检测模型和BERT模型提取所述正样本的多模态的图文模态信息和所述负样本的多模态的图文模态信息;其中,所述对象属性检测模型为基于多尺度可变形注意力模块搭建的双阶段Deformable DETR模型;
第二提取模块,用于检索所述训练样本中的图像的相似图像,提取所述相似图像的多模态的图像特征信息作为图像模态信息;
第三提取模块,用于检索所述训练样本中的描述文本的相似文本,提取所述相似文本的文本特征信息作为文本模态信息;
第一训练模块,用于基于所述正样本的图文模态信息、所述负样本的图文模态信息、所述图像模态信息和所述文本模态信息训练视觉问答模型;
执行模块,用于利用训练完成的视觉问答模型执行视觉问答任务。
14.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至12任一项所述视觉问答方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述视觉问答方法的步骤。
CN202310078902.6A 2023-02-08 2023-02-08 一种视觉问答方法、装置及电子设备和存储介质 Active CN115861995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310078902.6A CN115861995B (zh) 2023-02-08 2023-02-08 一种视觉问答方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310078902.6A CN115861995B (zh) 2023-02-08 2023-02-08 一种视觉问答方法、装置及电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115861995A true CN115861995A (zh) 2023-03-28
CN115861995B CN115861995B (zh) 2023-05-23

Family

ID=85657726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310078902.6A Active CN115861995B (zh) 2023-02-08 2023-02-08 一种视觉问答方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115861995B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226353A (zh) * 2023-03-29 2023-06-06 北京百度网讯科技有限公司 图文检索模型的训练方法、图文检索方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114841243A (zh) * 2022-04-02 2022-08-02 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
EP4053751A1 (en) * 2021-03-05 2022-09-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training cross-modal retrieval model, device and storage medium
CN115129848A (zh) * 2022-09-02 2022-09-30 苏州浪潮智能科技有限公司 一种视觉问答任务的处理方法、装置、设备和介质
WO2022250745A1 (en) * 2021-05-26 2022-12-01 Salesforce.Com, Inc. Systems and methods for vision-and-language representation learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
EP4053751A1 (en) * 2021-03-05 2022-09-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training cross-modal retrieval model, device and storage medium
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
WO2022250745A1 (en) * 2021-05-26 2022-12-01 Salesforce.Com, Inc. Systems and methods for vision-and-language representation learning
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114841243A (zh) * 2022-04-02 2022-08-02 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN115129848A (zh) * 2022-09-02 2022-09-30 苏州浪潮智能科技有限公司 一种视觉问答任务的处理方法、装置、设备和介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHIHUI ZHANG等: "A cross-modal crowd counting method combining CNN and cross-modal transformer", IMAGE AND VISION COMPUTING *
田;郭智;黄宇;黄廷磊;付琨;: "一种基于多模态主题模型的图像自动标注方法", 国外电子测量技术 *
邓一姣;张凤荔;陈学勤;艾擎;余苏?;: "面向跨模态检索的协同注意力网络模型", 计算机科学 *
陈莹;陈湟康;: "基于多模态生成对抗网络和三元组损失的说话人识别", 电子与信息学报 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226353A (zh) * 2023-03-29 2023-06-06 北京百度网讯科技有限公司 图文检索模型的训练方法、图文检索方法、装置及设备

Also Published As

Publication number Publication date
CN115861995B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
WO2022007823A1 (zh) 一种文本数据处理方法及装置
JP7193252B2 (ja) 画像の領域のキャプション付加
JP2021166046A (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
CN111984766B (zh) 缺失语义补全方法及装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
CN111783457B (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
CN111598183A (zh) 一种多特征融合图像描述方法
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115221846A (zh) 一种数据处理方法及相关设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114186063A (zh) 跨域文本情绪分类模型的训练方法和分类方法
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
US20230065965A1 (en) Text processing method and apparatus
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN112380845B (zh) 句子噪声设计方法、设备及计算机存储介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
US20240029463A1 (en) Apparatus and method for internet-based validation of task completion
WO2021129410A1 (zh) 文本处理方法及装置
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant