CN113282721A - 基于网络结构搜索的视觉问答方法 - Google Patents
基于网络结构搜索的视觉问答方法 Download PDFInfo
- Publication number
- CN113282721A CN113282721A CN202110464526.5A CN202110464526A CN113282721A CN 113282721 A CN113282721 A CN 113282721A CN 202110464526 A CN202110464526 A CN 202110464526A CN 113282721 A CN113282721 A CN 113282721A
- Authority
- CN
- China
- Prior art keywords
- search
- network structure
- network
- weight
- operator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000000007 visual effect Effects 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 230000004927 fusion Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于网络结构搜索的视觉问答方法,包括如下步骤:采用第一人工神经网络模型对原始图片进行特征提取;采用第二人工神经网络模型对文本信息进行特征提取;待搜索的网络结构框架为编码‑解码器框架,定义三种搜索算子供框架网络搜索,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;使用基于梯度交替优化策略搜索网络结构的架构权重和算子的操作权重;使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。本申请的有益之处在于提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。
Description
技术领域
本申请涉及视觉问答领域,具体而言,涉及一种基于网络结构搜索的视觉问答系统方法。
背景技术
随着深度学习的发展,视觉问答得到广泛应用,然而传统视觉问答系统仍存在一定缺陷,传统视觉问答系统中的多模态特征融合部分是专家设计的非常有技巧的网络结构,可通过网络结构搜索技术自动设计网络结构,才能够在充分大的空间中找到最优的网络结构。
具体而言,近几年,随着人工智能的快速发展并取得重要成功,视觉问答(VisualQuestion Answering,VQA)作为计算机视觉和自然语言处理的交叉领域,引起人们的广泛关注。VQA任务广泛存在于现实生活中,人类能够轻易理解图像中的各种“信息”,比如图像中事物的位置信息,事物间的逻辑信息等,再根据文本问题信息,综合图像和已知知识库的信息,做出回答并将其转化为文本输出。实现VQA任务,能够对社会提供诸多便利。让计算机能够实现“看图说话”,在图像描述、图像检索、辅助驾驶等领域被广泛应用;特别的,对于残障人士,采用VQA系统代替人眼,可以帮助其更好地理解周围事物,使盲人导航更加准确、易交互。
如何高效准确地融合视觉和文本特征是VQA中的核心部分,特征融合指的是不同种类数据向量化后融合,能够保留多种数据特征。当前主流的VQA中的特征融合一般基于双线性池化方法,双线性池化存在融合后特征维度过高的问题,针对以上问题,一系列方法被提出,其中多模紧致双线性池化和多模低秩双线性池化,前者利用Random Maclaurin和Tensor Sketch两个方法来进行降维,后者利用Hadamard积低秩的线性映射来实现双线性池化的计算,都大大降低了运算。网络结构搜索(Nerural Architecture Search,NAS)是近几年大热的深度学习分支。当前网络都是专家的人工设计,这些深度学习网络设计有明显“先验”痕迹,如图像分类领域的RCNN系列网络,从RCNN网络至Fast-RCNN网络,至Faster-RCNN网络,再至Mask-RCNN网络,每一次升级综合前面的网络的“先验”的设计优点,再加以改进,但是随着网络结构越来越复杂,人工设计网络试错成本越来越高。
发明内容
为了解决现有技术的不足之处,本申请提供了一种基于网络结构搜索的视觉问答系统方法包括如下步骤:
采用第一人工神经网络模型对原始图片进行特征提取;
采用第二人工神经网络模型对文本信息进行特征提取;
采用Encoder-Decoder框架作为搜索网络的主体框架,设计三种基于注意力的待搜索算子,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;
采用基于梯度的交替优化策略搜索网络的架构权重和算子的操作权重;
使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。
进一步地,所述第一人工神经网络模型为faster-RCNN。
进一步地,所述第二人工神经网络模型为BERT。
进一步地,所述搜索网络结构是一个Encoder-Decoder网络结构,网络结构的节点个数分别为M,N。
进一步地,所述搜索算子包括第一搜索算子、第二搜索算子和第三搜索算子,其中,所述第一搜索算子是自注意力算子;所述第二搜索算子输入为引导-注意力算子;所述第三搜索算子为一个前项反馈网络算子。
进一步地,所述搜索网络结构可视为一个有向无环图,节点相当于所述搜索网络结构中的特征图,边相当于所述搜索网络结构中的操作。
进一步地,所述搜索网络结构中的特征图经过三种搜索算子处理,每种搜索算子会通过处理上一个特征图得到新的特征图,再对新的特征图进行加权求和得到最终的特征图。
进一步地,所述搜索网络中算子上的具体操作的权重称为操作权重,搜索网络中特征图间选择操作的权重称为架构权重;采样基于梯度的交替优化策略,在训练集上更新操作权重,在验证集上更新架构权重,优化架构权重时,对操作权重进行了固定。
进一步地,所述基于网络结构搜索的视觉问答系统方法包括如下步骤:
所述搜索网络按照softmax函数输出多分类的词向量,选择概率最大的词向量作为最终结果输出;对于搜索的最优网络结构,选择节点之间权重最大的边即为实际操作,可得到完整的网络结构本申请的有益之处在于:提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的基于网络结构搜索的视觉问答方法的流程图;
图2是根据本申请一种实施例的基于网络结构搜索的视觉问答方法的模型框架图;
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参照图1和图2所示,本申请主要包括如下步骤:
数据集中图片信息为P,问题信息为Q,答案信息为A;
步骤1,提取图片的视觉特征Xp。
对于步骤1,可以基于现阶段常用的非常好的特征提取器来提取图片的特征信息,比如说faster-RCNN网络,利用它们进行预训练,可以快速提取出准确的图片的特征信息,Xp=CNN(P);结果可设定是一个2048维向量。
对于步骤2,提取数据集中的问题文本特征Xq,答案的文本特征为Ya。
对于文本信息的特征提取,利用现在最先进的BERT(Bidirectional EncoderRepresentation from Transformers),基于转换器的双向表征。可提取出文本信息Xq=BERT(Q),训练时Ya=BERT(A);结果是一个512维的向量。
详细地,对于步骤3,首先,搜索的网络是一个Encoder-Decoder网络结构,如何构建这个网络结构,这里面都会使用我们定义的三种搜索算子,记做cell1,2,3。
定义Encoder-Decoder的节点个数分别为M,N。定义三种搜索算子,记做cell1,2,3。这里应用了自然语言处理(NLP)中常用的注意力机制。注意力机制是类似于人类理解事物时,找到文本中的关键词或图片中的关键事物,核心目标是从众多信息中选择出对当前任务更关键的信息。
注意力机制可以将Query和一组Key-Value对映射输出,其中Query,Key,Value都是输出向量。输出值是对应的加权和,其中分配给每个Value的权重由Query与相应的Key的兼容函数计算。
由于一张图片或者一句话过大,为了让模型考虑到多个注意力机制。简称多头注意力机制。三种算子都使用了注意力机制。注意力机制用在Encoder-Decoder Attention层,Query来自先前的解码器,Key和Value来自Encoder的输出。
定义cell1是自注意力(self-attention)算子。由字面意思可知,self-attention中的Query,Key,Value都是来自Encoder的前一层输出,Encoder中当前层的每个位置都能来自前面层的任意位置。
对于cell1的输入X,最早一层是文本特征Xq或视觉特征Xp。
定义cell2是引导-注意力(guided-attention)算子,这个是融合视觉文本Xp和文本特征Xq。
定义cell3是一个前项反馈网络(feed-forward-network)算子,这个是Encoder-Decoder包含的一个全连接前馈网络,分别应用于每个位置,其中包括两个线性变换,Relu作为激活函数,输入是视觉文本Xp或文本特征Xq。
cell1和cell3仅用于Encoder阶段,三种cell都用于Decoder阶段。
步骤4,定义三种cell,为了满足基于梯度的搜索策略,需要对三种cell进行连续化操作。最终的搜索结果是一个有向无环图,图的边表示选择的操作,也就是网络中选择的cell。简单的,记所有的操作(边,cell)的都在一个大的候选集中产生。
步骤5,定义这个有向无环图的节点。本发明中节点相当于一个特征图,边相当待选择的算子(cell)。除去首节点,每个节点的特征图只能由先前节点的特征图经过先前节点到现节点的边上的操作构成。利用Darts的思想,连续松弛化。简而言之,操作集的每个操作都会处理每个节点的特征图,之后,再对所有操作得到的结果加权求和。两个节点之间边的权重称作架构权重,边里面的算子本身的网络权重称作操作权重。
对于步骤6,主体思想是在训练集上更新操作权重,在验证集上更新架构权重。
网络主体搜索框架,首先确定目标,我们要得到两部分权重,网络架构的权重α和架构内算子模型的权重β。将训练数据集分割为两者互不相交的训练集Dx和验证集Dy。算法主要是两个阶段,epoch分别是Ti和Tj。
令和分别是训练损失和验证损失,设网络中的操作权重为β,在Dx上使最小的为β*,此时该Dx上的α也是最适合架构权重,但是我们最终求的是验证集Dy上的β*和α*。具体到网络搜索时,首先搜索的网络要先在训练集上收敛,即而最优的操作权重本身必然是和架构对应的,架构变化,对应的操作权重也会跟着变化。所以这就是一个两级优化,这里采用Darts作者提出的(二阶或一阶)近似方法,本发明采用一阶近似,在更新架构权重时,直接就可以把假设最优权重β*就是当前权重β,就是固定操作权重即可。
由于数据集很大,网络结构搜索时不可能使用全部的数据集,所以采用了多次采样取部分数据进行搜索。一阶段为热启动阶段,一共为Ti轮,然后在Dx随机取一部分数据,更新模型的权重,得到β*结束,小于某一值或者训练超过最大轮数可提前终止。热启动阶段是为了防止架构权重α过于单一,先多次采样防止搜索的架构陷入局部最优。
二阶段是平衡网络架构的权重α和架构内算子模型的操作权重β。这是一个两层循环,内循环为在Dx随机取一部分数据,更新模型的权重β,小于某一值或者训练超过最大轮数提前终止,多次重复以上操作。外循环是在经过一次完整的内循环后,在Dy数据取部分数据,冻结模型的权重β,随机采样α后,在Dy的数据集上更新α的参数。
如何获得最后完整的离散结构,就是指的每个节点之间边cell的具体操作是什么,两个节点之间边权重最大的那个选择作为操作输出即可。
步骤7,在视觉问答系统中,对于每个问题提供多个答案的数据集,我们将其表述为一个多标签分类问题,使用二进制交叉熵作为loss来训练,如果是单标签的答案,我们使用softmax交叉熵来代替即可。选择概率最大的词向量作为答案输出。
作为更具体实施方式,本申请的方法包括:
步骤1,如何得到视觉特征Xp,我们基于faster-RCNN来提取图片的视觉特征。
faster-RCNN主要有以下几个步骤:
101:原始图片的特征提取,我们基于残差网络(ResNet101)来提取,基于imageNet数据集预训练的ResNet101模型来进行特征提取。以448*448的彩色图片作为输入,利用卷积神经网络来生成多个图像特征图,残差网络主要有这几点优势:简化学习过程,增强梯度传播,提高网络泛化能力等。
102:第二阶段的区域建议网络(RPN),RPN网络预先设定几种尺寸和纵横比,网络的输入是ResNet的输出的特征图,RPN在输入的特征图进行滑动,会生成很多个预测框,利用交并比(IOU)和非极大值抑制算法(NMS)对检测框的去重。
103:ROI池化和固定边长输出。本发明最后池化的边框大小为14*14。
总而言之,由图片P根据预训练的模型,利用faster-RCNN网络最终得到Xp=CNN(P);
步骤2,对于文本信息的特征提取,利用现在最先进的BERT(BidirectionalEncoder Representation from Transformers),基于转换器的双向表征。可提取出文本信息Xq=BERT(Q),训练时Ya=BERT(A),结果是一个512维的向量。
步骤3,首先,搜索的网络是一个Encoder-Decoder网络结构,这里面都会使用我们定义的三种搜索算子,记做cell1,2,3。
定义三种搜索算子,记做cell1,2,3。这里应用了自然语言处理(NLP)中常用的注意力机制。
注意力机制是类似于人类理解事物时,找到文本的关键词或图片中的关键事物,核心目标是从众多信息中选择出对当前任务更关键的信息。Attention机制可以将Query和一组Key-Value对映射输出,其中Query,Key,Value都是输出向量。输出值是对应的加权和,其中分配给每个Value的权重游Query与相应的Key的兼容函数计算,公式如下:
包含维度为dk的Query和Key以及维度为dv的Value,首先计算Query和各个Key的对应点积,然后将每个点积除以最后使用softmax函数来获得Key的权重。具体实现时,Query,Value,Key可以使用组合矩阵Q,V,K来实现,加速并行计算。
由于一张图片或者一句话过大,为了让模型考虑到多个注意力机制,可以使用“多头”注意力机制:
三种算子都使用了注意力机制。注意力机制用在Encoder-Decoder Attention层,Query来自先前的解码器,Key和Value来自Encoder的输出。
定义cell1是自注意力(self-attention)算子,self-attention中的Query,Key,Value值来自相同位置,都是来自Encoder的前一层输出,Encoder中当前层的每个位置都能来自前面层的任意位置。
cell1的输入X,最早一层是文本特征Xq和视觉特征Xp,输出:
Z=cell1(X)=MH(X,X,X) (3)
定义cell2是引导-注意力(guided-attention),这个是融合视觉文本Xp和文本特征Xq,输出:
Z=cell2(Xp,Xq)=MH(Xq,Xp,Xp) (4)
定义cell3是一个前项反馈网络(feed-forward-network),这个是Encoder-Decoder包含的一个全连接前馈网络,分别应用于每个位置,其中包括两个线性变换,Relu作为激活函数,输入是视觉文本Xp和文本特征Xq,输出:
Z=cell3(X)=max(0,xW1+b1)W2+b2 (5)
cell1和cell3仅用于Encoder阶段,三种cell都用于Decoder阶段。
步骤4,定义好三种cell,为了满足基于梯度的搜索策略,需要对三种cell进行连续化操作。最终的搜索结果是一个有向无环图,图的边表示选择的操作,也就是网络中选择的cell。简单的,记所有的操作(边,cell)的都在一个大的候选集M中产生。边m(i,j)即是第i个和第i个节点代表操作m。
步骤5,定义这个有向无环图的节点。本发明中节点相当于一个特征图,边相当待选择的算子(cell)。记x(i)是第i个节点的特征图,出去首节点,每个节点的特征图只能由先前节点的特征图经过先前节点到现节点的边上的操作构成,所有,显而易见:
利用Darts的思想,连续松弛化。简而言之,操作集的每个操作都会处理每个节点的特征图,之后,再对所有操作得到的结果加权求和,公式如下:
为了保证输出的大致稳定,我们需要对(7)式进行softmax操作。
两个节点之间边的权重称作架构权重,边里面的算子本身的网络权重称作操作权重。
对于步骤6,主体思想是在训练集上更新操作权重,在验证集上更新架构权重。
网络主体搜索框架,首先确定目标,我们要得到两部分权重,网络架构的权重α和架构内算子模型的权重β。将训练数据集分割为两者互不相交的训练集Dx和验证集Dy。算法主要是两个阶段,epoch分别是Ti和Tj。
令和分别是训练损失和验证损失,设网络中的操作权重为β,在Dx上使最小的为β*,此时该Dx上的α也是最适合架构权重,但是我们最终求的是验证集Dy上的β*和α*。具体到网络搜索时,首先搜索的网络要先在训练集上收敛,即而最优的操作权重本身必然是和架构对应的,架构变化,对应的操作权重也会跟着变化。所以这就是一个两级优化,采用数学公式表达则为:
根据6式的定义,每次在更新架构权重的时候理应重新训练操作权重,但是这是不可接受的,太耗时了。参考Darts的思想,这时操作权重β*是不会变的。这里采用Darts作者提出的(二阶或一阶)近似方法,本发明采用一阶近似,在更新架构权重时,直接就可以把假设最优权重β*就是当前权重β,就是固定操作权重即可。
由于数据集很大,网络结构搜索时不可能使用全部的数据集,所以采用了多次采样取部分数据进行搜索。一阶段为热启动阶段,一共为Ti轮,然后在Dx随机取一部分数据,更新模型的权重,得到β*结束,小于某一值或者训练超过最大轮数可提前终止。热启动阶段是为了防止架构权重α过于单一,先多次采样防止搜索的架构陷入局部最优。
二阶段是平衡网络架构的权重α和架构内算子模型的操作权重β。这是一个两层循环,内循环为在Dx随机取一部分数据,更新模型的权重β,小于某一值或者训练超过最大轮数提前终止,多次重复以上操作。外循环是在经过一次完整的内循环后,在Dy数据取部分数据,冻结模型的权重β,随机采样α后,在Dy的数据集上更新α的参数。
步骤7,在视觉问答系统中,对于每个问题提供多个答案,我们将其表述为一个多标签分类问题,使用二进制交叉熵作为loss来训练,如果是单标签的答案,我们使用softmax交叉熵来代替即可。选择概率最大的词向量作为答案输出。
作为本申请的一个具体实施方案的伪码方案:
输入:训练数据集分割成互不相交的训练集Dx和验证集Dy,网络搜索空间,三种搜索算子,特征提取器的预训练模型权重,热启动轮数Ti和平衡网络架构轮数Tj,损失值阈值μ,某次网络训练轮数K
输出:最优的特征融合网络,具体指最优模型权重β*和架构权重α*
1.初始化三种搜索算子;自注意力算子cell1,交融注意力算子cell2,前项反馈网络cell3
2.初始化搜索空间;Encoder框架节点数M,Decoder框架节点数N
3.通过预训练的Faster-RCNN模型提取图像特征Xp
4.通过预训练的BERT模型提取问题文本特征Xq和Ya
5.节点间的操作是三种cell,cell权重为模型权重β
6.选择何种节点操作的权重为架构权重α,所有节点可选择的操作连续化后加权求和
7.for t=1to Tido//热启动阶段
8.在训练集采样Dx数据
12.end for
13.end for
14.热启动后得到多组对应的模型权重和架构权重
15.for t=1to Tjdo//平衡架构阶段
16.在训练集采样Dx数据
20.end for
21.令β=β*//固定模型权重,在验证集Dy学习最优的架构权重α*
22.在验证集上采样Dy数据
26.end for
27.end for
取两个节点边(cell)权重最大操作作为输出,即为完整的离散结构。
本文因为采用了基于梯度交替更新策略的网络结构搜索方法,来自动设计视觉问答系统中的多模态特征融合网络,所以起到了能够在更大的空间中搜索出更优的网络的效果,克服了原有因人工设计网络而不能达到最优效果的问题。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于网络结构搜索的视觉问答方法,其特征在于:
所述基于网络结构搜索的视觉问答系统方法包括如下步骤:
采用第一人工神经网络模型对原始图片进行特征提取;
采用第二人工神经网络模型对文本信息进行特征提取;
采用Encoder-Decoder框架作为搜索网络的主体框架,设计三种基于注意力的待搜索算子,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;
采用基于梯度的交替优化策略搜索网络的架构权重和算子的操作权重;
使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。
2.根据权利要求1所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述第一人工神经网络模型为faster-RCNN。
3.根据权利要求1所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述第二人工神经网络模型为BERT。
4.根据权利要求1所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述搜索网络结构是一个Encoder-Decoder网络结构,网络结构的节点个数分别为M,N。
5.根据权利要求1所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述搜索算子包括第一搜索算子、第二搜索算子和第三搜索算子,其中,所述第一搜索算子是自注意力算子;所述第二搜索算子输入为引导注意力算子;所述第三搜索算子为一个前项反馈网络算子。
6.根据权利要求1所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述搜索网络结构可视为一个有向无环图,节点相当于所述搜索网络结构中的特征图,边相当于所述搜索网络结构中的操作。
7.根据权利要求6所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述搜索网络结构中的特征图经过三种搜索算子处理,每种搜索算子会通过处理上一个特征图得到新的特征图,再对新的特征图进行加权求和得到最终的特征图。
8.根据权利要求7所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述搜索网络中算子上的具体操作的权重称为操作权重,搜索网络中特征图间选择操作的权重称为架构权重;采样基于梯度的交替优化策略,在训练集上更新操作权重,在验证集上更新架构权重,优化架构权重时,对操作权重进行了固定。
9.根据权利要求1所述的基于网络结构搜索的视觉问答方法,其特征在于:
所述基于网络结构搜索的视觉问答系统方法包括如下步骤:
所述搜索网络按照softmax函数输出多分类的词向量,选择概率最大的词向量作为最终结果输出;对于搜索的最优网络结构,选择节点之间权重最大的边即为实际操作,可得到完整的网络结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464526.5A CN113282721B (zh) | 2021-04-28 | 2021-04-28 | 基于网络结构搜索的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464526.5A CN113282721B (zh) | 2021-04-28 | 2021-04-28 | 基于网络结构搜索的视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282721A true CN113282721A (zh) | 2021-08-20 |
CN113282721B CN113282721B (zh) | 2023-07-21 |
Family
ID=77277557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110464526.5A Active CN113282721B (zh) | 2021-04-28 | 2021-04-28 | 基于网络结构搜索的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282721B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN113792617A (zh) * | 2021-08-26 | 2021-12-14 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN113918679A (zh) * | 2021-09-22 | 2022-01-11 | 三一汽车制造有限公司 | 一种知识问答方法、装置及工程机械 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111381673A (zh) * | 2018-12-28 | 2020-07-07 | 哈曼国际工业有限公司 | 双向车载虚拟个人助理 |
EP3690744A1 (en) * | 2019-01-31 | 2020-08-05 | StradVision, Inc. | Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same |
CN111507150A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 利用基于深度神经网络的多重图像块组合识别人脸的方法 |
CN112434462A (zh) * | 2020-10-21 | 2021-03-02 | 华为技术有限公司 | 一种模型的获取方法及设备 |
CN112488292A (zh) * | 2020-11-19 | 2021-03-12 | 杭州电子科技大学 | 一种面向通用多模态学习的神经框架搜索方法 |
-
2021
- 2021-04-28 CN CN202110464526.5A patent/CN113282721B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111381673A (zh) * | 2018-12-28 | 2020-07-07 | 哈曼国际工业有限公司 | 双向车载虚拟个人助理 |
EP3690744A1 (en) * | 2019-01-31 | 2020-08-05 | StradVision, Inc. | Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same |
CN111507150A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 利用基于深度神经网络的多重图像块组合识别人脸的方法 |
CN112434462A (zh) * | 2020-10-21 | 2021-03-02 | 华为技术有限公司 | 一种模型的获取方法及设备 |
CN112488292A (zh) * | 2020-11-19 | 2021-03-12 | 杭州电子科技大学 | 一种面向通用多模态学习的神经框架搜索方法 |
Non-Patent Citations (1)
Title |
---|
周思桐: "基于多重注意力机制和特征融合算法的视觉问答系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 1399 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
WO2023024412A1 (zh) * | 2021-08-25 | 2023-03-02 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN113656570B (zh) * | 2021-08-25 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN113792617A (zh) * | 2021-08-26 | 2021-12-14 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN113792617B (zh) * | 2021-08-26 | 2023-04-18 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN113918679A (zh) * | 2021-09-22 | 2022-01-11 | 三一汽车制造有限公司 | 一种知识问答方法、装置及工程机械 |
Also Published As
Publication number | Publication date |
---|---|
CN113282721B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN111737474B (zh) | 业务模型的训练和确定文本分类类别的方法及装置 | |
CN110334354B (zh) | 一种中文关系抽取方法 | |
CN113282721B (zh) | 基于网络结构搜索的视觉问答方法 | |
CN111159454A (zh) | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 | |
CN109308353B (zh) | 词嵌入模型的训练方法及装置 | |
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN106844442A (zh) | 基于fcn特征提取的多模态循环神经网络图像描述方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
WO2019168189A1 (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN112699216A (zh) | 端到端的语言模型预训练方法、系统、设备及存储介质 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
KR20180137168A (ko) | 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN110472062A (zh) | 识别命名实体的方法及装置 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN111339256A (zh) | 用于文本处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |