CN112488292A - 一种面向通用多模态学习的神经框架搜索方法 - Google Patents

一种面向通用多模态学习的神经框架搜索方法 Download PDF

Info

Publication number
CN112488292A
CN112488292A CN202011300717.XA CN202011300717A CN112488292A CN 112488292 A CN112488292 A CN 112488292A CN 202011300717 A CN202011300717 A CN 202011300717A CN 112488292 A CN112488292 A CN 112488292A
Authority
CN
China
Prior art keywords
sub
network
net
layer
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011300717.XA
Other languages
English (en)
Other versions
CN112488292B (zh
Inventor
余宙
俞俊
崔雨豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011300717.XA priority Critical patent/CN112488292B/zh
Publication of CN112488292A publication Critical patent/CN112488292A/zh
Application granted granted Critical
Publication of CN112488292B publication Critical patent/CN112488292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向通用多模态学习的神经框架搜索方法。本发明包括以下步骤:1、对图像和文本数据进行数据预处理,提取特征。2、初始化编码器‑解码器结构冗余网络和对应的架构参数。3、从架构参数分布中采样出子结构,并计算结果。4、模型搜索,热启动和交替更新保证搜索结构的稳定性。5、模型训练,将搜索出的最优子网络重新训练,得到最优网络模型。本发明提出一种针对图像文本多模态建模的神经框架搜索的方法,特别是针对不同的任务搜索到了更优的子网络,降低了网络的参数量计算量,充分利用各模态的深层次特征,提高了扩模态特征的表达能力,并且在三个多模态任务中获得了领先的效果。

Description

一种面向通用多模态学习的神经框架搜索方法
技术领域
本发明提出一种面向通用多模态学习的神经框架搜索方法MMNasNet。
背景技术
视觉问答(Visual Question Answering)是一项多模态领域的新兴任务,该任务旨在根据提供的图像,对某个给定的关于图像的问题进行回答。具体来讲是输入一副图像和一个问题,通过模型后回答出这个问题所对应的答案。例如,图像内容为一条街道,街道上有各种颜色的房子,停了不同类型的车,还有很多数,行走的行人。当给出一个具体问题时,例如“走在斑马线上的穿黑衣服的行人左边的汽车是什么颜色的?”,模型需要识别到图中的物体还有物体的不同属性然后进行推理得到答案。视觉定位(Visual Grounding)任务旨在根据提供的物体描述,找出图像中相应的物体。例如,图像内容为两个人,左边的人穿着黑夹克,右边的人戴着红色帽子。当给出一个物体描述时,例如“穿黑夹克右边的人的帽子”,模型需要定位到右边的人的那一顶红色帽子上。图文匹配(Image-Text Matching)有两个子任务,分别是图像-文本匹配和文本-图像匹配,其目标是给定一段文本和一定数量的图片或者给定一副图片和一定数量的文本,需要对图片和文本的相关度进行打分并根据分数进行排序,找出前n副最相关的图像。
为了得到上述三个任务更准确的预测,机器需要理解给定图像和文本,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比纯文本检索或者阅读理解任务,多模态任务需要从和文本相比不同模态的和不同形式的图像中获得关键信息来得到答案,那么如何更高效更轻量化的融合多模态信息就是解决问题的关键。
神经框架搜索(Neural Architecture Search,NAS)是自动机器学习(AutoMachine Learning,Auto ML)的一个重要的分支。模型的结构设计一直是深度学习性能的关键因素,手工设计模型结构需要大量经验和人工试错并且模型的性能和效率都得不到保障。神经框架搜索旨在针对不同任务自动搜索出性能效率较为平衡的网络结构,在学术界工业界都是备受关注的课题,而神经框架搜索方法优异的特性也是解决上述三个任务的保证。和普通的单模态神经框架搜索任务相比,多模态神经框架搜索任务是至今无人涉及的领域,如何保证搜索到的结构是图像-文本两个模态间的最优子结构是解决多模态的框架搜索任务关键所在。
深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。单一模态的丰富研究支撑起跨模态的研究,使得跨模态任务逐渐成为一个主流研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。图像作为近几年来一直发展的研究媒体,瓶颈渐现,而结合了自然语言形成的图像-文本的跨模态研究方向成为学术界工业界的热门研究点,但近年来跨模态领域的模型参数量冗余、计算效率低下、手工设计费时费力,这使得多模态的神经框架搜索任务成为值得深入探索的研究领域。
在实际应用方面,多模态神经框架搜索算法具有广泛的应用场景。现有工业界多模态任务各式各样,如多模态检索、推荐,文章自动配图等,但不同的任务几乎都有一套不同的架构,一方面导致了手工设计的成本过高,另一方面也导致算法迁移的难度较大,所以自动的构建网络架构具有十分良好的研究前景及重要的研究意义。
综上所述,多模态神经框架搜索是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的多模态神经框架搜索系统。
针对框架来说,现有多模态框架类型很多,如基于双线性池化的,还有基于编码器解码器结构的,且不同的框架所使用的子操作也是各不相同。针对任务来说,自然语言的描述一般来自不同的标注者,具有较高的自由度,不具备统一固定的句子结构。同时,自然场景下的图像载体主题多样,内容复杂富于变化,物体框与框间可能具有较高的相似性和冗余度,而这使得所需要的架构需要,也使得架构搜索方法面临巨大的挑战。具体而言,主要存在如下两方面的难点:
(1)如何统一现有的基本结构,设计出冗余网络,保证设计的冗余网络可以覆盖现有较好的结构:前人手工设计的网络具有诸多可取之处,在设计基本结构的时候需要尽可能的覆盖前人手工设计的结构,在之基础上进行搜索改进,一来可以保证公平的对比,二来可以保证搜索出的结构稳定可靠。
(2)如何从冗余网络中搜索到最优子网络,保证性能的同时高效:设计出了基本结构后就需要构造出能覆盖基本结构衍生出各种可能的冗余网络。而最终的结构需要从冗余网络中进行搜索得到,而搜索算法则是关键所在,更优的子结构能保证算法的效率和性能。
发明内容
本发明提供了一种面向通用多模态学习的神经框架搜索方法。本发明主要包含两点:一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索算法。
本发明解决其技术问题所采用的的技术方案包括如下步骤:
步骤(1)、数据预处理,对图像和文本数据提取特征
首先对图像V进行预处理和特征提取:
对图像V进行亮度归一化并进行比例缩放得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框
Figure BDA0002786805780000031
和相应的图像特征
Figure BDA0002786805780000032
其次提取文本数据的特征:
对于给定的单词数量为m的句子
Figure BDA0002786805780000041
通过用GloVe初始化的WordEmbedding层句子的单词级表示
Figure BDA0002786805780000042
再通过单层单向LSTM得到文本特征
Figure BDA0002786805780000043
si表示每个单词的表征。
步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数:
定义子操作多头关系注意力模块MHRA(x,y,z,r)。
定义子操作自注意力机制SA(x)=MHRA(x,x,x,0)。
定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0)。
定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r)。
定义子操作前馈网络FFN(x)。
定义编码器层数e,解码器层数为d,初始化每一层的冗余结构:其结构如图1所示,其中每层编码器的冗余结构aenc,每层解码器的冗余结构adec。从而得到编码器Aenc和解码器Adec
最后初始化每个子操作所对应的架构参数Anet
步骤(3)、从架构参数分布中采样子结构,并计算结果。
首先通过多项式分布对架构参数Anet进行采样得到子结构编码器A′enc和子结构解码器A′dec。将文本特征Fs通过子结构编码器A′enc得到F′s,将图像特征Fv和变换后到文本特征F′s输入到子结构解码器A′dec后得到F′v
如图2所示,其中视觉问答和图文匹配任务将F′s和F′v分别经过注意力消融模块Areduce得到F″s和F″v,然后加和后得到分类向量C。训练阶段视觉问答任务通过交叉熵损失(Cross-entropy Loss)函数进行梯度求导反传,图文匹配任务通过匹配损失(Match Loss)函数进行梯度反传。
视觉定位任务将F′s经过注意力消融模块Areduce得到F″s,F′v不变,然后将F″s和F′v加和后得到分类矩阵
Figure BDA0002786805780000051
视觉定位任务拆解为两个子任务,子任务一是找出对应的物体,子任务二是回归物体的框坐标让框更准。训练阶段第一个子任务对应的是排序损失(Rank Loss),对所有物体排序;第二个子任务用的是回归损失(Regression Loss),将所对应物体的框进行回归。在测试阶段,通过排序(rank)选到分数最高的物体框后再经过回归(regression)得到最后的框。
步骤(4)、模型搜索
模型搜索分为两个阶段:1.热启动阶段2.交替训练搜索阶段。
热启动阶段:首先随机初始化模型参数Wnet和架构参数Anet后,开始根据架构参数Anet随机在冗余编码器Aenc和冗余解码器Adec采样子结构并进行梯度反传,这时只更新模型参数Wnet,这样保证了多模态框架搜索的稳定性。
交替训练阶段:先更新k步模型参数Wnet然后再更新1步架构参数Anet,不断优化,直至整个网络模型收敛。
步骤(5)、模型训练
架构参数Anet收敛了后根据分布选择最大概率子网络作为最终搜索到的网络。重新随机初始化子网络模型参数W′net,然后在三个任务的完整数据集上重新训练子网络模型参数W′net,不断优化,直至整个网络模型收敛。
步骤(1)具体实现如下:
1-1.对图像V进行亮度归一化并且比例缩放到最小边Pmin像素,最长边裁剪到Pmax像素,得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框
Figure BDA0002786805780000052
B∈Rn×4,相应的特征
Figure BDA0002786805780000053
最后Fv=WiF,
Figure BDA0002786805780000054
Figure BDA0002786805780000055
dfeat为特征的表示维度,dm为模型隐含层向量维度。
1-2.对于给定的单词数量为m的句子
Figure BDA0002786805780000061
通过用GloVe初始化的WordEmbedding层句子的单词级表示
Figure BDA0002786805780000062
再通过单层单向LSTM得到文本特征
Figure BDA0002786805780000063
Figure BDA0002786805780000064
si表示每个单词的表征,
Figure BDA0002786805780000065
dglove为GloVe特征的表示维度。
步骤(2)构建冗余网络,具体实现如下:
2-1.定义子操作多头关系注意力模块MHRA(x,y,z,r)。输入
Figure BDA0002786805780000066
Figure BDA0002786805780000067
其中
Figure BDA0002786805780000068
head为:
Figure BDA0002786805780000069
其中
Figure BDA00027868057800000610
headj为第j个head,Nhead为注意力头的数量,函数A为:
Figure BDA00027868057800000611
2-2.定义子操作自注意力机制SA(x)=MHRA(x,x,x,0)。
定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0)。
定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r)。
定义子操作前馈网络
Figure BDA00027868057800000612
其中
Figure BDA00027868057800000613
2-3.定义编码器层数e,解码器层数为d,初始化每一层的冗余结构如图1所示,其中每层编码器的冗余结构:
aenc(x)={SA(x),FFN(x)}
每层解码器的冗余结构:
adec(x,y)={SA(x),RSA(x),GA(x,y),FFN(x)}。
从而得到编码器Aenc(x):
Figure BDA0002786805780000071
和解码器Adec(x,y):
Figure BDA0002786805780000072
初始化每个子操作所对应的架构参数:
Figure BDA0002786805780000073
其中,
Figure BDA0002786805780000074
代表了第i层的SA(x)子操作所对应的架构参数,
Figure BDA0002786805780000075
代表了第i层的RSA(x)子操作所对应的架构参数,GA(x,y)代表了第i层的ga子操作所对应的架构参数,
Figure BDA0002786805780000076
代表了第i层的FFN(x)子操作所对应的架构参数。
步骤(3)从架构参数分布中采样子结构,并计算结果:
3-1.通过多项式分布(Multinomial Distribution)对架构参数Anet在每一层上进行采样,每一层选取一个子操作组成子结构编码器A′enc和子结构解码器Adec
3-2.将文本特征Fs通过子结构编码器A′enc得到
Figure BDA0002786805780000077
将图像特征Fv和变换后到文本特征F′s输入到子结构解码器A′dec后得到
Figure BDA0002786805780000078
F′s=A′enc(Fs)
F′v=A′dec(Fv,F′s)
3-3.视觉问答任务:
将F′s和F′v分别经过注意力消融模块Areduce得到
Figure BDA0002786805780000079
Figure BDA00027868057800000710
具体如下:
F″s=Areduce(F′s),F″v=Areduce(F′v)
Figure BDA0002786805780000081
Figure BDA0002786805780000082
其中,
Figure BDA0002786805780000083
nseq为输入的序列长度。
然后将F″s和F″v加和后经过线性变换和层归一化(Layer Normalization)模块Aln得到分类向量
Figure BDA0002786805780000084
Nans为答案的类别数量。
Figure BDA0002786805780000085
其中
Figure BDA0002786805780000086
训练阶段视觉问答任务通过交叉熵损失(Cross-entropy Loss)函数进行梯度求导反传。
3-4.图文匹配任务:
将F′s和F′v分别经过注意力消融模块Areduce得到
Figure BDA0002786805780000087
Figure BDA0002786805780000088
然后将F″s和F″v加和后经过线性变换和层归一化(Layer Normalization)模块Aln到分数Score∈R。
Figure BDA0002786805780000089
其中
Figure BDA00027868057800000810
训练阶段图文匹配任务通过匹配损失(Match Loss)函数Lmatch函数进行梯度反传,匹配损失为:
Lmatch(V,V′,S,S′)
=2log(Wnet(V,S))+log(1-Wnet(V,S′))
+log(1-Wnet(V′,S))
其中V,S分别为匹配的图像和文本,V′,S′分别是不匹配的图像和文本。Wnet指代模型参数。
3-5.视觉定位任务:
视觉定位任务将F′s经过注意力消融模块Areduce得到F″s,F′v不变,然后将和F″sF′v加和后得到隐含层矩阵
Figure BDA0002786805780000091
Figure BDA0002786805780000092
视觉定位任务拆解为两个子任务,一是找出对应的物体,二是回归物体的框坐标让框更准。通过线性变换得到排序分布Crank∈Rn
Figure BDA0002786805780000093
通过线性变换得到框的回归参数Creg∈Rn×4
Figure BDA0002786805780000094
训练阶段第一个子任务对应的是排序损失(Rank Loss),其具体使用的是KL散度损失(KL-Divergence Loss),对所有物体排序;第二个子任务用的是回归损失(RegressionLoss)使用平滑L1损失(SmoothL1 Loss),将所对应物体的框进行回归。在测试阶段,通过排序(Rank)选到分数最高的物体框后再经过回归(Regression)得到最后的框。
步骤(4)模型搜索分为两个阶段:1.热启动阶段2.交替训练搜索阶段,具体如下:
4-1.热启动阶段:
首先随机初始化模型参数Wnet和架构参数Anet后,开始根据架构参数Anet随机在冗余编码器Aenc和冗余解码器Adec采样子结构并进行梯度反传,每次采样出的子网络对应的模型参数W′net,这时只更新模型参数W′net,这样保证了多模态框架搜索的稳定性。
4-2.交替训练搜索阶段:
4-2-1.连续更新k步,得到随机采样出的子网络模型参数W′net。4-2-2.再更新1步,只更新架构参数Anet
4-2-3.不断重复步骤4-2-1和4-2-2,进行优化,直至整个网络模型收敛。
步骤(5)、模型训练,具体如下:
架构参数Anet收敛了后,根据分布选择最大概率子网络Asubnet作为最终搜索到的网络。
Figure BDA0002786805780000101
重新随机初始化子网络模型Asubnet,然后在三个任务(视觉问答任务、图文匹配任务和视觉定位任务)的完整数据集上重新训练子网络模型Asubnet,不断优化,直至整个网络模型收敛。
本发明有益效果如下:
本发明提出一种面向通用多模态学习的神经框架搜索方法MMNasNet,首次在多模态领域中用自动搜索到的框架取代手工设计的框架。搜索使得模型架构联系更加紧密,冗余参数大幅降低,并且能有效的提升视觉问答、视觉定位和图文匹配的准确率,同时也验证了本发明的通用性,可在其他多模态任务中使用。
本发明参数量小,效果显著,有利于更高效的分布式训练,有利于部署于内存受限的特定硬件。
核心方法为提出针对编码器解码器结构利用冗余网络搜索出子图的方法,用来解决多模态表征的有效融合和参数量的缩减,并在视觉问答,视觉定位,图文检索这三个跨模态深度学习任务中验证该模型的优越性。本方法首次提出在多模态领域用神经框架搜索方法对各个模态的特征进行建模,不仅得到了针对不同任务的性能更优的架构和更低的参数量,同时能更直观的分析出不同任务需要什么模块进行建模,加强了黑盒模型的可解释性。在MMNasNet模型表现优异的前提下,本发明进一步地提出了搜索更多子操作可以提升性能的结论并加入基于物体问位置的自注意力模块来验证结论,该模块将不同物体之间的两两位置关系进行建模指导注意力映射表的构建。实验中将自注意力机制、关系的自注意力机制、协同自注意力机制、前馈网络机制作为子操作,完成了基于这些操作对三种多模态学习任务的架构搜索,进而得到了更好的实验结果并降低了参数量,这证明了该方法的高效性和通用性,可在更多其他多模态任务中充分发挥价值。
附图说明
图1:搜索空间和子操作。
图2:三种多模态任务的分类层。
图3:三种多模态任务通过MMNasNet配合不同的任务头,分别搜索出最优的架构。
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1和2所示,本发明提供本发明提出一种面向通用多模态学习的神经框架搜索方法MMNasNet。本发明首先对图像和文本数据进行数据预处理,提取特征。然后初始化编码器-解码器结构冗余网络和对应的架构参数。其次从架构参数分布中采样出子结构,并计算结果。再然后模型搜索,热启动和交替更新保证搜索结构的稳定性。最后进行模型训练,将搜索出的最优子网络重新训练,得到最优网络模型。本发明提出一种针对图像文本多模态建模的神经框架搜索的方法,特别是针对不同的任务搜索到了更优的子网络,降低了网络的参数量计算量,充分利用各模态的深层次特征,提高了扩模态特征的表达能力,并且在三个多模态任务中获得了领先的效果。
本发明具体实现步骤如下:
步骤(1)所述的数据预处理及对图像和文本进行特征抽取,具体如下:
1-1.对图像V进行亮度归一化并且按比例缩放到最小边600像素,最长边裁剪到1000像素,得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框
Figure BDA0002786805780000111
Figure BDA0002786805780000112
B∈Rn×4,相应的特征
Figure BDA0002786805780000113
F∈Rn×2048最后Fv=WiF,Wi∈R2048×512,Fv∈Rn×512。n为根据0.2阈值动态选择[10,100]个框,不足100用0补齐100个框。
1-2.对于给定的单词数量为m的句子
Figure BDA0002786805780000114
通过用GloVe初始化的WordEmbedding层句子的单词级表示
Figure BDA0002786805780000121
T′∈Rm×300,再通过单层单向LSTM得到每个单词的表征
Figure BDA0002786805780000122
Fs∈Rm×512,GloVe特征的表示维度为300维。m为14。
步骤(2)构建冗余网络,具体如下:
2-1.定义子操作多头关系注意力模块MHRA(x,y,z,r)。输入x,y,z∈R{14,100}×512,r∈R{100×100}×64
2-2.定义子操作自注意力机制SA(x)=MHRA(x,x,x,0)。
定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0)。
定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r)。
定义子操作前馈网络FFX(x)=Wf1Dropout(max(Wf0x,0)),其中Wf0∈R512×2048,Wf1∈R2048×512
2-3.定义编码器层数12,解码器层数为18,初始化每一层的冗余结构。
步骤(3)采样子结构,并计算结果:
3-1.通过多项式分布(Multinomial Distribution)对架构参数Anet在每一层上进行采样,每一层选取一个子操作组成子结构编码器A′enc和子结构解码器A′dec。子结构编码器共12个子操作,子结构解码器共18个子操作。
3-2.将文本特征Fs通过子结构编码器A′enc得到F′s∈R14×512,将图像特征Fv和变换后到文本特征F′s输入到子结构解码器A′dec后得到F′v∈R100×512。。
3-3.视觉问答任务:将F′s和F′v,分别经过注意力消融模块Areduce得到F″s∈R512,F″v∈R512,然后将F″s和F″v加和后经过线性变换和层归一化(Layer Normalization)得到分类向量C∈R3129。3129为答案的类别数量,通过筛选出出现频率高于8个的答案。训练阶段视觉问答任务通过交叉熵损失(Cross-entropy Loss)函数进行梯度求导反传。
3-4.图文匹配任务:将F′s和F′v,分别经过注意力消融模块Areduce得到F″s∈R512,F″v∈R512,然后将F″s和F″v加和后经过线性变换和层归一化(Layer Normalization)Aln得到分数Score∈R,训练阶段图文匹配任务通过匹配损失(Match Loss)函数进行梯度反传。
3-5.视觉定位任务将F′s经过注意力消融模块Areduce得到F″s、F′v不变,加和后得到隐含层矩阵Cvgd∈R100×1024。视觉定位任务拆解为两个子任务,一是找出对应的物体,二是回归物体的框坐标让框更准。通过线性变换得到Rank分布Crank∈R100,通过线性变换得到框的回归参数Creg∈R100×4。训练阶段第一个子任务对应的是排序损失(Rank Loss)使用KL散度损失(KL-Divergence Loss),对所有物体排序;第二个子任务用的是回归损失(RegressionLoss)使用平滑L1损失(SmoothL1 Loss),将所对应物体的框进行回归。在测试阶段,通过排序(Rank)选到分数最高的物体框后再经过回归(Regression)得到最后的框。
步骤(4)模型搜索分为两个阶段:1.热启动阶段2.交替训练搜索阶段,具体如下:
4-1.热启动阶段首先随机初始化模型参数Wnet和架构参数Anet后,开始根据架构参数Anet随机在冗余编码器Aenc和冗余解码器Adec采样子结构并进行梯度反传,每次采样出的子网络对应的模型参数W′net,这时只更新模型参数W′net,这样保证了多模态框架搜索的稳定性。
4-2.交替训练搜索阶段:
4-2-1.连续更新k步,得到随机采样出的子网络模型参数W′net
4-2-2.再更新1步,只更新架构参数Anet
4-2-3.不断重复步骤4-2-1和4-2-2,进行优化,直至整个网络模型收敛。
步骤(5)、模型训练,具体如下:
架构参数Anet收敛了后,可以根据分布选择最大概率子网络Asubnet作为最终搜索到的网络。即每一层选择架构参数最大的子操作作为当前层的操作,Asubnet共12层编码器和18层解码器。
重新随机初始化子网络模型Asubnet,然后在三个任务的完整数据集上重新训练子网络模型Asubnet,不断优化,直至整个网络模型收敛。

Claims (6)

1.一种面向通用多模态学习的神经框架搜索方法,其特征在于包含两点:一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索方法;具体包括如下步骤:
步骤(1)、数据预处理,对图像和文本数据提取特征
步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数;
步骤(3)、从架构参数分布中采样子结构,并计算结果;
步骤(4)、模型搜索,分为两个阶段:1.热启动阶段2.交替训练搜索阶段;
步骤(5)、模型训练,不断优化,直至整个网络模型收敛。
2.根据权利要求1所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(1)具体实现如下:
1-1.对图像V进行预处理和特征提取:
对图像V进行亮度归一化并且比例缩放到最小边Pmin像素,最长边裁剪到Pmax像素,得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框
Figure FDA0002786805770000011
Figure FDA0002786805770000012
相应的特征
Figure FDA0002786805770000013
最后
Figure FDA0002786805770000014
Figure FDA0002786805770000015
dfeat为特征的表示维度,dm为模型隐含层向量维度;
1-2.提取文本数据的特征:
对于给定的单词数量为m的句子
Figure FDA0002786805770000016
通过用GloVe初始化的Word Embedding层句子的单词级表示
Figure FDA0002786805770000017
Figure FDA0002786805770000018
再通过单层单向LSTM得到文本特征
Figure FDA0002786805770000019
si表示每个单词的表征,
Figure FDA00027868057700000110
dglove为GloVe特征的表示维度。
3.根据权利要求2所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(2)具体实现如下:
2-1.定义子操作多头关系注意力模块MHRA(x,y,z,r);输入x,y,
Figure FDA0002786805770000021
Figure FDA0002786805770000022
其中
Figure FDA0002786805770000023
head为:
Figure FDA0002786805770000024
其中
Figure FDA0002786805770000025
headj为第j个head,Nhead为注意力头的数量,函数A为:
Figure FDA0002786805770000026
2-2.定义子操作自注意力机制SA(x)=MHRA(x,x,x,0);
定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0);
定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r);
定义子操作前馈网络FFN(x)=Wf1Dropout(max(Wf0x,0)),其中
Figure FDA0002786805770000027
2-3.定义编码器层数e,解码器层数为d,初始化每一层的冗余结构,其中每层编码器的冗余结构:
aenc(x)={SA(x),FFN(x)}
每层解码器的冗余结构:
adec(x,y)={SA(x),RSA(x),GA(x,y),FFN(x)};
从而得到编码器Aenc(x):
Figure FDA0002786805770000028
和解码器Adec(x,y):
Figure FDA0002786805770000029
初始化每个子操作所对应的架构参数:
Figure FDA0002786805770000031
其中,
Figure FDA0002786805770000032
代表了第i层的SA(x)子操作所对应的架构参数,
Figure FDA0002786805770000033
代表了第i层的RSA(x)子操作所对应的架构参数,GA(x,y)代表了第i层的ga子操作所对应的架构参数,
Figure FDA0002786805770000034
代表了第i层的FFN(x)子操作所对应的架构参数。
4.根据权利要求3所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(3)具体实现如下:
3-1.通过多项式分布对架构参数Anet在每一层上进行采样,每一层选取一个子操作组成子结构编码器A′enc和子结构解码器A′dec
3-2.将文本特征Fs通过子结构编码器A′enc得到
Figure FDA0002786805770000035
将图像特征Fv和变换后到文本特征F′s输入到子结构解码器A′dec后得到
Figure FDA0002786805770000036
F′s=A′enc(Fs)
F′v=A′dec(Fv,F′s)
3-3.视觉问答任务:
将F′s和F′v分别经过注意力消融模块Areduce得到
Figure FDA0002786805770000037
Figure FDA0002786805770000038
具体如下:
F″s=Areduce(F′s),F″v=Areduce(F′v)
Figure FDA0002786805770000039
Figure FDA00027868057700000310
其中,
Figure FDA00027868057700000311
nseq为输入的序列长度;
然后将F″s和F″v加和后经过线性变换和层归一化模块Aln得到分类向量
Figure FDA00027868057700000312
Nans为答案的类别数量;
Figure FDA00027868057700000313
其中
Figure FDA0002786805770000041
训练阶段视觉问答任务通过交叉熵损失函数进行梯度求导反传;
3-4.图文匹配任务:
将F′s和F′v分别经过注意力消融模块Areduce得到
Figure FDA0002786805770000042
Figure FDA0002786805770000043
然后将F″s和F″v加和后经过线性变换和层归一化模块Aln到分数Score∈R:
Figure FDA0002786805770000044
其中
Figure FDA0002786805770000045
训练阶段图文匹配任务通过匹配损失函数Lmatch函数进行梯度反传,匹配损失为:
Lmatch(V,V′,S,S′)
=2log(Wnet(V,S))+log(1-Wnet(V,S′))+log(1-Wnet(V′,S))
其中V,S分别为匹配的图像和文本,V′,S′分别是不匹配的图像和文本;Wnet指代模型参数;
3-5.视觉定位任务:
视觉定位任务将F′s经过注意力消融模块Areduce得到F″s,F′v不变,然后将和F″sF′v加和后得到隐含层矩阵
Figure FDA0002786805770000046
Figure FDA0002786805770000047
视觉定位任务拆解为两个子任务,一是找出对应的物体,二是回归物体的框坐标让框更准;通过线性变换得到排序分布Crank∈Rn
Figure FDA0002786805770000048
通过线性变换得到框的回归参数Creg∈Rn×4
Figure FDA0002786805770000049
训练阶段第一个子任务对应的是排序损失,其具体使用的是KL散度损失,对所有物体排序;第二个子任务用的是回归损失使用平滑L1损失,将所对应物体的框进行回归;在测试阶段,通过排序选到分数最高的物体框后再经过回归得到最后的框。
5.根据权利要求2所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(4)具体实现如下:
4-1.热启动阶段:
首先随机初始化模型参数Wnet和架构参数Anet后,开始根据架构参数Anet随机在冗余编码器Aenc和冗余解码器Adec采样子结构并进行梯度反传,每次采样出的子网络对应的模型参数W′net,这时只更新模型参数W′net,这样保证了多模态框架搜索的稳定性;
4-2.交替训练搜索阶段:
4-2-1.连续更新k步,得到随机采样出的子网络模型参数W′net
4-2-2.再更新1步,只更新架构参数Anet
4-2-3.不断重复步骤4-2-1和4-2-2,进行优化,直至整个网络模型收敛。
6.根据权利要求5所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(5)具体实现如下:
架构参数Anet收敛了后,根据分布选择最大概率子网络Asubnet作为最终搜索到的网络;
Figure FDA0002786805770000051
重新随机初始化子网络模型Asubnet,然后在视觉问答任务、图文匹配任务和视觉定位任务这三个任务的完整数据集上重新训练子网络模型Asubnet,不断优化,直至整个网络模型收敛。
CN202011300717.XA 2020-11-19 2020-11-19 一种面向通用多模态学习的神经框架搜索方法 Active CN112488292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011300717.XA CN112488292B (zh) 2020-11-19 2020-11-19 一种面向通用多模态学习的神经框架搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011300717.XA CN112488292B (zh) 2020-11-19 2020-11-19 一种面向通用多模态学习的神经框架搜索方法

Publications (2)

Publication Number Publication Date
CN112488292A true CN112488292A (zh) 2021-03-12
CN112488292B CN112488292B (zh) 2024-02-02

Family

ID=74931800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011300717.XA Active CN112488292B (zh) 2020-11-19 2020-11-19 一种面向通用多模态学习的神经框架搜索方法

Country Status (1)

Country Link
CN (1) CN112488292B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282721A (zh) * 2021-04-28 2021-08-20 南京大学 基于网络结构搜索的视觉问答方法
CN113554021A (zh) * 2021-06-07 2021-10-26 傲雄在线(重庆)科技有限公司 一种智能化印章识别方法
CN114005009A (zh) * 2021-09-30 2022-02-01 苏州浪潮智能科技有限公司 一种基于RS loss的目标检测模型的训练方法及装置
WO2023174064A1 (zh) * 2022-03-14 2023-09-21 华为技术有限公司 自动搜索方法、自动搜索的性能预测模型训练方法及装置
CN117992800A (zh) * 2024-03-29 2024-05-07 浪潮电子信息产业股份有限公司 图文数据匹配检测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041206A (ja) * 2015-08-21 2017-02-23 日本電信電話株式会社 学習装置、探索装置、方法、及びプログラム
CN111414968A (zh) * 2020-03-26 2020-07-14 西南交通大学 一种基于卷积神经网络特征图的多模态遥感影像匹配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041206A (ja) * 2015-08-21 2017-02-23 日本電信電話株式会社 学習装置、探索装置、方法、及びプログラム
CN111414968A (zh) * 2020-03-26 2020-07-14 西南交通大学 一种基于卷积神经网络特征图的多模态遥感影像匹配方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282721A (zh) * 2021-04-28 2021-08-20 南京大学 基于网络结构搜索的视觉问答方法
CN113282721B (zh) * 2021-04-28 2023-07-21 南京大学 基于网络结构搜索的视觉问答方法
CN113554021A (zh) * 2021-06-07 2021-10-26 傲雄在线(重庆)科技有限公司 一种智能化印章识别方法
CN113554021B (zh) * 2021-06-07 2023-12-15 重庆傲雄在线信息技术有限公司 一种智能化印章识别方法
CN114005009A (zh) * 2021-09-30 2022-02-01 苏州浪潮智能科技有限公司 一种基于RS loss的目标检测模型的训练方法及装置
CN114005009B (zh) * 2021-09-30 2023-11-14 苏州浪潮智能科技有限公司 一种基于RS loss的目标检测模型的训练方法及装置
WO2023174064A1 (zh) * 2022-03-14 2023-09-21 华为技术有限公司 自动搜索方法、自动搜索的性能预测模型训练方法及装置
CN117992800A (zh) * 2024-03-29 2024-05-07 浪潮电子信息产业股份有限公司 图文数据匹配检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112488292B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN112488292B (zh) 一种面向通用多模态学习的神经框架搜索方法
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110717017B (zh) 一种处理语料的方法
CN110288665B (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN111177376B (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN110781306B (zh) 一种英文文本的方面层情感分类方法及系统
CN113157965B (zh) 音频可视化模型训练及音频可视化方法、装置及设备
CN101187990A (zh) 一种会话机器人系统
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114372173A (zh) 一种基于Transformer架构的自然语言目标跟踪方法
Chauhan et al. All-in-one: A deep attentive multi-task learning framework for humour, sarcasm, offensive, motivation, and sentiment on memes
CN113609922B (zh) 基于模态匹配的连续手语语句识别方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索系统
CN116028604A (zh) 一种基于知识增强图卷积网络的答案选择方法及系统
Wu et al. Hierarchical memory decoder for visual narrating
CN114969269A (zh) 基于实体识别和关系抽取的虚假新闻检测方法及系统
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN113590983A (zh) 描述文本生成方法和装置、文本处理模型的训练方法
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN116244464A (zh) 一种基于多模态数据融合的手绘图像实时检索方法
Wei et al. Stack-vs: Stacked visual-semantic attention for image caption generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant