CN113282721A

CN113282721A - 基于网络结构搜索的视觉问答方法

Info

Publication number: CN113282721A
Application number: CN202110464526.5A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 乔康; 管聪; 秦熔均; 袁雷; 张云天; 胡毅奇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-20
Anticipated expiration: 2041-04-28
Also published as: CN113282721B

Abstract

本申请提供了一种基于网络结构搜索的视觉问答方法，包括如下步骤：采用第一人工神经网络模型对原始图片进行特征提取；采用第二人工神经网络模型对文本信息进行特征提取；待搜索的网络结构框架为编码‑解码器框架，定义三种搜索算子供框架网络搜索，所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征；使用基于梯度交替优化策略搜索网络结构的架构权重和算子的操作权重；使搜索网络按照多分类的方法输出候选词向量，并选择概率最大的词向量作为答案输出。本申请的有益之处在于提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。

Description

基于网络结构搜索的视觉问答方法

技术领域

本申请涉及视觉问答领域，具体而言，涉及一种基于网络结构搜索的视觉问答系统方法。

背景技术

随着深度学习的发展，视觉问答得到广泛应用，然而传统视觉问答系统仍存在一定缺陷，传统视觉问答系统中的多模态特征融合部分是专家设计的非常有技巧的网络结构，可通过网络结构搜索技术自动设计网络结构，才能够在充分大的空间中找到最优的网络结构。

具体而言，近几年，随着人工智能的快速发展并取得重要成功，视觉问答(VisualQuestion Answering，VQA)作为计算机视觉和自然语言处理的交叉领域，引起人们的广泛关注。VQA任务广泛存在于现实生活中，人类能够轻易理解图像中的各种“信息”，比如图像中事物的位置信息，事物间的逻辑信息等，再根据文本问题信息，综合图像和已知知识库的信息，做出回答并将其转化为文本输出。实现VQA任务，能够对社会提供诸多便利。让计算机能够实现“看图说话”，在图像描述、图像检索、辅助驾驶等领域被广泛应用；特别的，对于残障人士，采用VQA系统代替人眼，可以帮助其更好地理解周围事物，使盲人导航更加准确、易交互。

如何高效准确地融合视觉和文本特征是VQA中的核心部分，特征融合指的是不同种类数据向量化后融合，能够保留多种数据特征。当前主流的VQA中的特征融合一般基于双线性池化方法，双线性池化存在融合后特征维度过高的问题，针对以上问题，一系列方法被提出，其中多模紧致双线性池化和多模低秩双线性池化，前者利用Random Maclaurin和Tensor Sketch两个方法来进行降维，后者利用Hadamard积低秩的线性映射来实现双线性池化的计算，都大大降低了运算。网络结构搜索(Nerural Architecture Search，NAS)是近几年大热的深度学习分支。当前网络都是专家的人工设计，这些深度学习网络设计有明显“先验”痕迹，如图像分类领域的RCNN系列网络，从RCNN网络至Fast-RCNN网络，至Faster-RCNN网络，再至Mask-RCNN网络，每一次升级综合前面的网络的“先验”的设计优点，再加以改进，但是随着网络结构越来越复杂，人工设计网络试错成本越来越高。

发明内容

为了解决现有技术的不足之处，本申请提供了一种基于网络结构搜索的视觉问答系统方法包括如下步骤：

采用第一人工神经网络模型对原始图片进行特征提取；

采用第二人工神经网络模型对文本信息进行特征提取；

采用Encoder-Decoder框架作为搜索网络的主体框架，设计三种基于注意力的待搜索算子，所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征；

采用基于梯度的交替优化策略搜索网络的架构权重和算子的操作权重；

使搜索网络按照多分类的方法输出候选词向量，并选择概率最大的词向量作为答案输出。

进一步地，所述第一人工神经网络模型为faster-RCNN。

进一步地，所述第二人工神经网络模型为BERT。

进一步地，所述搜索网络结构是一个Encoder-Decoder网络结构，网络结构的节点个数分别为M，N。

进一步地，所述搜索算子包括第一搜索算子、第二搜索算子和第三搜索算子，其中，所述第一搜索算子是自注意力算子；所述第二搜索算子输入为引导-注意力算子；所述第三搜索算子为一个前项反馈网络算子。

进一步地，所述搜索网络结构可视为一个有向无环图，节点相当于所述搜索网络结构中的特征图，边相当于所述搜索网络结构中的操作。

进一步地，所述搜索网络结构中的特征图经过三种搜索算子处理，每种搜索算子会通过处理上一个特征图得到新的特征图，再对新的特征图进行加权求和得到最终的特征图。

进一步地，所述搜索网络中算子上的具体操作的权重称为操作权重，搜索网络中特征图间选择操作的权重称为架构权重；采样基于梯度的交替优化策略，在训练集上更新操作权重，在验证集上更新架构权重，优化架构权重时，对操作权重进行了固定。

进一步地，所述基于网络结构搜索的视觉问答系统方法包括如下步骤：

所述搜索网络按照softmax函数输出多分类的词向量，选择概率最大的词向量作为最终结果输出；对于搜索的最优网络结构，选择节点之间权重最大的边即为实际操作，可得到完整的网络结构本申请的有益之处在于：提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的基于网络结构搜索的视觉问答方法的流程图；

图2是根据本申请一种实施例的基于网络结构搜索的视觉问答方法的模型框架图；

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1和图2所示，本申请主要包括如下步骤：

数据集中图片信息为P，问题信息为Q，答案信息为A；

步骤1，提取图片的视觉特征X_p。

对于步骤1，可以基于现阶段常用的非常好的特征提取器来提取图片的特征信息，比如说faster-RCNN网络，利用它们进行预训练，可以快速提取出准确的图片的特征信息，X_p＝CNN(P)；结果可设定是一个2048维向量。

对于步骤2，提取数据集中的问题文本特征X_q，答案的文本特征为Y_a。

对于文本信息的特征提取，利用现在最先进的BERT(Bidirectional EncoderRepresentation from Transformers)，基于转换器的双向表征。可提取出文本信息X_q＝BERT(Q)，训练时Y_a＝BERT(A)；结果是一个512维的向量。

详细地，对于步骤3，首先，搜索的网络是一个Encoder-Decoder网络结构，如何构建这个网络结构，这里面都会使用我们定义的三种搜索算子，记做cell1，2，3。

定义Encoder-Decoder的节点个数分别为M，N。定义三种搜索算子，记做cell1，2，3。这里应用了自然语言处理(NLP)中常用的注意力机制。注意力机制是类似于人类理解事物时，找到文本中的关键词或图片中的关键事物，核心目标是从众多信息中选择出对当前任务更关键的信息。

注意力机制可以将Query和一组Key-Value对映射输出，其中Query，Key，Value都是输出向量。输出值是对应的加权和，其中分配给每个Value的权重由Query与相应的Key的兼容函数计算。

由于一张图片或者一句话过大，为了让模型考虑到多个注意力机制。简称多头注意力机制。三种算子都使用了注意力机制。注意力机制用在Encoder-Decoder Attention层，Query来自先前的解码器，Key和Value来自Encoder的输出。

定义cell1是自注意力(self-attention)算子。由字面意思可知，self-attention中的Query，Key，Value都是来自Encoder的前一层输出，Encoder中当前层的每个位置都能来自前面层的任意位置。

对于cell1的输入X，最早一层是文本特征Xq或视觉特征Xp。

定义cell2是引导-注意力(guided-attention)算子，这个是融合视觉文本Xp和文本特征Xq。

定义cell3是一个前项反馈网络(feed-forward-network)算子，这个是Encoder-Decoder包含的一个全连接前馈网络，分别应用于每个位置，其中包括两个线性变换，Relu作为激活函数，输入是视觉文本Xp或文本特征Xq。

cell1和cell3仅用于Encoder阶段，三种cell都用于Decoder阶段。

步骤4，定义三种cell，为了满足基于梯度的搜索策略，需要对三种cell进行连续化操作。最终的搜索结果是一个有向无环图，图的边表示选择的操作，也就是网络中选择的cell。简单的，记所有的操作(边，cell)的都在一个大的候选集中产生。

步骤5，定义这个有向无环图的节点。本发明中节点相当于一个特征图，边相当待选择的算子(cell)。除去首节点，每个节点的特征图只能由先前节点的特征图经过先前节点到现节点的边上的操作构成。利用Darts的思想，连续松弛化。简而言之，操作集的每个操作都会处理每个节点的特征图，之后，再对所有操作得到的结果加权求和。两个节点之间边的权重称作架构权重，边里面的算子本身的网络权重称作操作权重。

对于步骤6，主体思想是在训练集上更新操作权重，在验证集上更新架构权重。

网络主体搜索框架，首先确定目标，我们要得到两部分权重，网络架构的权重α和架构内算子模型的权重β。将训练数据集分割为两者互不相交的训练集D_x和验证集D_y。算法主要是两个阶段，epoch分别是T_i和Tj_。

令

和

分别是训练损失和验证损失，设网络中的操作权重为β，在D_x上使

最小的为β^*，此时该D_x上的α也是最适合架构权重，但是我们最终求的是验证集D_y上的β^*和α^*。具体到网络搜索时，首先搜索的网络要先在训练集上收敛，即

而最优的操作权重本身必然是和架构对应的，架构变化，对应的操作权重也会跟着变化。所以这就是一个两级优化，这里采用Darts作者提出的(二阶或一阶)近似方法，本发明采用一阶近似，在更新架构权重时，直接就可以把假设最优权重β^*就是当前权重β，就是固定操作权重即可。

由于数据集很大，网络结构搜索时不可能使用全部的数据集，所以采用了多次采样取部分数据进行搜索。一阶段为热启动阶段，一共为T_i轮，然后在D_x随机取一部分数据，更新模型的权重，得到β^*结束，

小于某一值或者训练超过最大轮数可提前终止。热启动阶段是为了防止架构权重α过于单一，先多次采样防止搜索的架构陷入局部最优。

二阶段是平衡网络架构的权重α和架构内算子模型的操作权重β。这是一个两层循环，内循环为在D_x随机取一部分数据，更新模型的权重β，

小于某一值或者训练超过最大轮数提前终止，多次重复以上操作。外循环是在经过一次完整的内循环后，在D_y数据取部分数据，冻结模型的权重β，随机采样α后，在D_y的数据集上更新α的参数。

如何获得最后完整的离散结构，就是指的每个节点之间边cell的具体操作是什么，两个节点之间边权重最大的那个选择作为操作输出即可。

步骤7，在视觉问答系统中，对于每个问题提供多个答案的数据集，我们将其表述为一个多标签分类问题，使用二进制交叉熵作为loss来训练，如果是单标签的答案，我们使用softmax交叉熵来代替即可。选择概率最大的词向量作为答案输出。

作为更具体实施方式，本申请的方法包括：

步骤1，如何得到视觉特征X_p，我们基于faster-RCNN来提取图片的视觉特征。

faster-RCNN主要有以下几个步骤：

101：原始图片的特征提取，我们基于残差网络(ResNet101)来提取，基于imageNet数据集预训练的ResNet101模型来进行特征提取。以448*448的彩色图片作为输入，利用卷积神经网络来生成多个图像特征图，残差网络主要有这几点优势：简化学习过程，增强梯度传播，提高网络泛化能力等。

102：第二阶段的区域建议网络(RPN)，RPN网络预先设定几种尺寸和纵横比，网络的输入是ResNet的输出的特征图，RPN在输入的特征图进行滑动，会生成很多个预测框，利用交并比(IOU)和非极大值抑制算法(NMS)对检测框的去重。

103：ROI池化和固定边长输出。本发明最后池化的边框大小为14*14。

总而言之，由图片P根据预训练的模型，利用faster-RCNN网络最终得到Xp＝CNN(P)；

步骤2，对于文本信息的特征提取，利用现在最先进的BERT(BidirectionalEncoder Representation from Transformers)，基于转换器的双向表征。可提取出文本信息Xq＝BERT(Q)，训练时Ya＝BERT(A)，结果是一个512维的向量。

步骤3，首先，搜索的网络是一个Encoder-Decoder网络结构，这里面都会使用我们定义的三种搜索算子，记做cell1，2，3。

定义三种搜索算子，记做cell1，2，3。这里应用了自然语言处理(NLP)中常用的注意力机制。

注意力机制是类似于人类理解事物时，找到文本的关键词或图片中的关键事物，核心目标是从众多信息中选择出对当前任务更关键的信息。Attention机制可以将Query和一组Key-Value对映射输出，其中Query，Key，Value都是输出向量。输出值是对应的加权和，其中分配给每个Value的权重游Query与相应的Key的兼容函数计算，公式如下：

包含维度为d_k的Query和Key以及维度为d_v的Value，首先计算Query和各个Key的对应点积，然后将每个点积除以

最后使用softmax函数来获得Key的权重。具体实现时，Query，Value，Key可以使用组合矩阵Q，V，K来实现，加速并行计算。

由于一张图片或者一句话过大，为了让模型考虑到多个注意力机制，可以使用“多头”注意力机制：

其中参数矩阵为

三种算子都使用了注意力机制。注意力机制用在Encoder-Decoder Attention层，Query来自先前的解码器，Key和Value来自Encoder的输出。

定义cell1是自注意力(self-attention)算子，self-attention中的Query，Key，Value值来自相同位置，都是来自Encoder的前一层输出，Encoder中当前层的每个位置都能来自前面层的任意位置。

cell1的输入X，最早一层是文本特征Xq和视觉特征Xp，输出：

Z＝cell₁(X)＝MH(X，X，X) (3)

定义cell2是引导-注意力(guided-attention)，这个是融合视觉文本Xp和文本特征Xq，输出：

Z＝cell₂(X_p，X_q)＝MH(X_q，X_p，X_p) (4)

定义cell3是一个前项反馈网络(feed-forward-network)，这个是Encoder-Decoder包含的一个全连接前馈网络，分别应用于每个位置，其中包括两个线性变换，Relu作为激活函数，输入是视觉文本Xp和文本特征Xq，输出：

Z＝cell₃(X)＝max(0，xW₁+b₁)W₂+b₂ (5)

cell1和cell3仅用于Encoder阶段，三种cell都用于Decoder阶段。

步骤4，定义好三种cell，为了满足基于梯度的搜索策略，需要对三种cell进行连续化操作。最终的搜索结果是一个有向无环图，图的边表示选择的操作，也就是网络中选择的cell。简单的，记所有的操作(边，cell)的都在一个大的候选集M中产生。边m^(i，j)即是第i个和第i个节点代表操作m。

步骤5，定义这个有向无环图的节点。本发明中节点相当于一个特征图，边相当待选择的算子(cell)。记x(i)是第i个节点的特征图，出去首节点，每个节点的特征图只能由先前节点的特征图经过先前节点到现节点的边上的操作构成，所有，显而易见：

设

的意义是第i个特征图到第j个特征图之间的操作m^(i，j)的权重。

利用Darts的思想，连续松弛化。简而言之，操作集的每个操作都会处理每个节点的特征图，之后，再对所有操作得到的结果加权求和，公式如下：

为了保证输出的大致稳定，我们需要对(7)式进行softmax操作。

两个节点之间边的权重称作架构权重，边里面的算子本身的网络权重称作操作权重。

网络主体搜索框架，首先确定目标，我们要得到两部分权重，网络架构的权重α和架构内算子模型的权重β。将训练数据集分割为两者互不相交的训练集D_x和验证集D_y。算法主要是两个阶段，epoch分别是T_i和T_j。

令

和

而最优的操作权重本身必然是和架构对应的，架构变化，对应的操作权重也会跟着变化。所以这就是一个两级优化，采用数学公式表达则为：

根据6式的定义，每次在更新架构权重的时候理应重新训练操作权重，但是这是不可接受的，太耗时了。参考Darts的思想，这时操作权重β^*是不会变的。这里采用Darts作者提出的(二阶或一阶)近似方法，本发明采用一阶近似，在更新架构权重时，直接就可以把假设最优权重β^*就是当前权重β，就是固定操作权重即可。

如何获得最后完整的离散结构，就是指的每个节点之间边cell的具体操作是什么，仅需

即两个节点之间边权重最大的那个选择作为操作输出即可。

步骤7，在视觉问答系统中，对于每个问题提供多个答案，我们将其表述为一个多标签分类问题，使用二进制交叉熵作为loss来训练，如果是单标签的答案，我们使用softmax交叉熵来代替即可。选择概率最大的词向量作为答案输出。

作为本申请的一个具体实施方案的伪码方案：

输入：训练数据集分割成互不相交的训练集D_x和验证集D_y，网络搜索空间，三种搜索算子，特征提取器的预训练模型权重，热启动轮数T_i和平衡网络架构轮数T_j，损失值阈值μ，某次网络训练轮数K

输出：最优的特征融合网络，具体指最优模型权重β^*和架构权重α^*

1.初始化三种搜索算子；自注意力算子cell₁，交融注意力算子cell₂，前项反馈网络cell₃

2.初始化搜索空间；Encoder框架节点数M，Decoder框架节点数N

3.通过预训练的Faster-RCNN模型提取图像特征X_p

4.通过预训练的BERT模型提取问题文本特征X_q和Y_a

5.节点间的操作是三种cell，cell权重为模型权重β

6.选择何种节点操作的权重为架构权重α，所有节点可选择的操作连续化后加权求和

7.for t＝1to T_ido//热启动阶段

8.在训练集采样D_x数据

9.训练损失

10.while

大于μand训练轮数小于K

11.

//在D_x上使

最小的为β^*，此时D_x上的α也是最优的

12.end for

13.end for

14.热启动后得到多组对应的模型权重和架构权重

15.for t＝1to T_jdo//平衡架构阶段

16.在训练集采样D_x数据

17.训练损失

18.while

大于μand训练轮数小于K

19.

//在D_x上使

最小的为β^*，此时D_x上的α也是最优的

20.end for

21.令β＝β^*//固定模型权重，在验证集D_y学习最优的架构权重α^*

22.在验证集上采样D_y数据

23.验证损失

24.while

大于μand训练轮数小于K

25.

26.end for

27.end for

取两个节点边(cell)权重最大操作作为输出，即为完整的离散结构。

本文因为采用了基于梯度交替更新策略的网络结构搜索方法，来自动设计视觉问答系统中的多模态特征融合网络，所以起到了能够在更大的空间中搜索出更优的网络的效果，克服了原有因人工设计网络而不能达到最优效果的问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于网络结构搜索的视觉问答方法，其特征在于：

所述基于网络结构搜索的视觉问答系统方法包括如下步骤：

采用第一人工神经网络模型对原始图片进行特征提取；

采用第二人工神经网络模型对文本信息进行特征提取；

2.根据权利要求1所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述第一人工神经网络模型为faster-RCNN。

3.根据权利要求1所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述第二人工神经网络模型为BERT。

4.根据权利要求1所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述搜索网络结构是一个Encoder-Decoder网络结构，网络结构的节点个数分别为M，N。

5.根据权利要求1所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述搜索算子包括第一搜索算子、第二搜索算子和第三搜索算子，其中，所述第一搜索算子是自注意力算子；所述第二搜索算子输入为引导注意力算子；所述第三搜索算子为一个前项反馈网络算子。

6.根据权利要求1所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述搜索网络结构可视为一个有向无环图，节点相当于所述搜索网络结构中的特征图，边相当于所述搜索网络结构中的操作。

7.根据权利要求6所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述搜索网络结构中的特征图经过三种搜索算子处理，每种搜索算子会通过处理上一个特征图得到新的特征图，再对新的特征图进行加权求和得到最终的特征图。

8.根据权利要求7所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述搜索网络中算子上的具体操作的权重称为操作权重，搜索网络中特征图间选择操作的权重称为架构权重；采样基于梯度的交替优化策略，在训练集上更新操作权重，在验证集上更新架构权重，优化架构权重时，对操作权重进行了固定。

9.根据权利要求1所述的基于网络结构搜索的视觉问答方法，其特征在于：

所述基于网络结构搜索的视觉问答系统方法包括如下步骤：

所述搜索网络按照softmax函数输出多分类的词向量，选择概率最大的词向量作为最终结果输出；对于搜索的最优网络结构，选择节点之间权重最大的边即为实际操作，可得到完整的网络结构。