CN113516182A

CN113516182A - 视觉问答模型训练、视觉问答方法和装置

Info

Publication number: CN113516182A
Application number: CN202110753076.1A
Authority: CN
Inventors: 吕福年; 王国良; 蒋扬
Original assignee: Wensi Haihui Yuanhui Technology Dalian Co ltd
Current assignee: Wensi Haihui Yuanhui Technology Dalian Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-19
Anticipated expiration: 2041-07-02
Also published as: CN113516182B

Abstract

本申请涉及一种视觉问答模型训练、视觉问答方法和装置。所述方法包括：获取用于训练视觉问答模型的图片样本和问题样本；对所述图片样本进行特征提取，得到图片样本特征，以及对所述问题样本进行特征提取，得到问题样本特征；确定所述图片样本特征与所述问题样本特征之间的关系隐变量；所述关系隐变量用于表征所述图片样本和所述问题样本是否相关；根据所述关系隐变量、所述图片样本特征和所述问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型；所述目标视觉问答模型用于进行视觉问答。采用本方法能够在回答模糊问题时仍然给出准确率较高的答案。

Description

视觉问答模型训练、视觉问答方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视觉问答模型训练、视觉问答方法、装置、计算机设备和存储介质。

背景技术

视觉问答(Visual Question Answer，VQA)即针对给定的图片及其相关的用自然语言描述的问题，生成问题的答案。

目前的视觉问答是通过视觉问答模型对图片和问题进行识别来实现的。在构建视觉问答模型时，通常基于神经网络从若干个训练样本中提取图片特征和问题特征，并将图片特征和问题特征进行融合，针对融合后的特征进行训练。当进行视觉问答时，将图片和问题输入训练好的视觉问答模型，通过视觉问答模型从若干候选答案中筛选出正确答案。

然而，上述视觉问答模型通常只能处理语言描述清楚的问题，对于一些诸如“上述问题如何解决”的模糊问题，生成的答案准确率较低。

因此，目前的视觉问答模型存在生成的答案准确率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高答案准确率的视觉问答模型训练、视觉问答方法、装置、计算机设备和存储介质。

一种视觉问答模型训练方法，所述方法包括：

获取用于训练视觉问答模型的图片样本和问题样本；

对所述图片样本进行特征提取，得到图片样本特征，以及对所述问题样本进行特征提取，得到问题样本特征；

确定所述图片样本特征与所述问题样本特征之间的关系隐变量；所述关系隐变量用于表征所述图片样本和所述问题样本是否相关；

根据所述关系隐变量、所述图片样本特征和所述问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型；所述目标视觉问答模型用于进行视觉问答。

在其中一个实施例中，所述确定所述图片样本特征与所述问题样本特征之间的关系隐变量，包括：

根据所述图片样本特征生成图片样本节点，以及根据所述问题样本特征生成问题样本节点；

根据所述图片样本节点和所述问题样本节点生成关系图；所述关系图包括多个节点和多条节点关系边；所述节点包括所述图片样本节点和所述问题样本节点；所述节点关系边用于记录所述节点之间的关系；

将所述关系图输入至注意力引导图卷积网络模型，得到关系矩阵；

根据所述关系矩阵，得到所述图片样本特征和所述问题样本特征之间的关系隐变量。

在其中一个实施例中，所述根据所述关系矩阵，得到所述图片样本特征和所述问题样本特征之间的关系隐变量，包括：

根据所述关系矩阵，得到所述问题样本对于所述图片样本的第一权重和所述图片样本对于所述问题样本的第二权重；所述第一权重用于表征所述问题样本对于所述图片样本的注意力程度，所述第二权重用于表征所述图片样本对于所述问题样本的注意力程度；

根据所述第一权重更新所述图片样本特征，得到更新后图片样本特征，以及根据所述第二权重更新所述问题样本特征，得到更新后问题样本特征；

对所述更新后图片样本特征和所述更新后问题样本特征进行拼接，得到第一拼接向量；

对所述第一拼接向量进行二分类，得到所述关系隐变量。

在其中一个实施例中，所述根据所述关系隐变量、所述图片样本特征和所述问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型，包括：

对所述关系隐变量、所述更新后图片样本特征和所述更新后问题样本特征进行拼接，得到第二拼接向量；

基于所述第二拼接向量对视觉问答模型进行训练，得到所述目标视觉问答模型。

在其中一个实施例中，所述基于所述第二拼接向量对视觉问答模型进行训练，得到所述目标视觉问答模型，包括：

将所述第二拼接向量输入至所述视觉问答模型，得到预测答案；

根据所述预测答案、所述图片样本和所述问题样本，得到所述视觉问答模型的第一损失值；

根据所述预测答案和预设的样本标签，得到所述视觉问答模型的第二损失值；

通过对所述第一损失值和所述第二损失值求和，得到视觉问答损失值；

若所述视觉问答损失值不超过预设阈值，则根据所述视觉问答模型得到所述目标视觉问答模型。

在其中一个实施例中，所述对所述图片样本进行特征提取，得到图片样本特征，包括：

将所述图片样本输入至区域卷积神经网络模型，得到至少一个图片样本特征；每一个所述图片样本特征对应于所述图片样本上的一个区域。

在其中一个实施例中，所述对所述问题样本进行特征提取，得到问题样本特征，包括：

将所述问题样本输入至基于转换器的双向编码表征模型，得到所述问题样本特征。

一种视觉问答方法，所述方法包括：

获取待识别图片和待回答问题；

对所述待识别图片进行特征提取，得到待识别图片特征，以及对所述待回答问题进行特征提取，得到待回答问题特征；

确定所述待识别图片特征与所述待回答问题特征之间的关系隐变量；

将所述关系隐变量、所述待识别图片特征和所述待回答问题特征输入至目标视觉问答模型，得到问题的答案。

一种视觉问答模型训练装置，所述装置包括：

样本获取模块，用于获取用于训练视觉问答模型的图片样本和问题样本；

样本特征提取模块，用于对所述图片样本进行特征提取，得到图片样本特征，以及对所述问题样本进行特征提取，得到问题样本特征；

样本隐变量确定模块，用于确定所述图片样本特征与所述问题样本特征之间的关系隐变量；

模型训练模块，用于根据所述关系隐变量、所述图片样本特征和所述问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型；所述目标视觉问答模型用于进行视觉问答。

一种视觉问答装置，所述装置包括：

获取模块，用于获取待识别图片和待回答问题；

特征提取模块，用于对所述待识别图片进行特征提取，得到待识别图片特征，以及对所述待回答问题进行特征提取，得到待回答问题特征；

隐变量确定模块，用于确定所述待识别图片特征与所述待回答问题特征之间的关系隐变量；

识别模块，用于将所述关系隐变量、所述待识别图片特征和所述待回答问题特征输入至目标视觉问答模型，得到问题的答案。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取用于训练视觉问答模型的图片样本和问题样本；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取用于训练视觉问答模型的图片样本和问题样本；

上述视觉问答模型训练、视觉问答方法、装置、计算机设备和存储介质，通过获取用于训练视觉问答模型的图片样本和问题样本，对图片样本进行特征提取得到图片样本特征，对问题样本进行特征提取得到问题样本特征，可以分别用图片样本特征和问题样本特征来描述图片样本和问题样本，确定图片样本特征与问题样本特征之间的关系隐变量，可以用关系隐变量来表征图片样本和问题样本是否相关，根据关系隐变量、图片样本特征和问题样本特征对视觉问答模型进行训练，得到目标视觉问答模型，由于在模型训练过程中除了考虑图片特征和问题特征对模型训练的影响，还考虑到了关系隐变量对模型训练的影响，即图片和问题是否相关对模型训练的影响，能够在回答模糊问题时仍然给出准确率较高的答案。

附图说明

图1为一个实施例中视觉问答模型训练方法的流程示意图；

图2为一个实施例中图片特征提取的示意图；

图3为一个实施例中问题特征提取的示意图；

图4为一个实施例中注意力引导图卷积网络的示意图；

图5为一个实施例中注意力引导图卷积网络密集连接层的示意图；

图6为一个实施例中利用关系隐变量进行模型训练的示意图；

图7为一个实施例中视觉问答方法的流程示意图；

图8为一个实施例中视觉问答模型训练装置的结构框图；

图9为一个实施例中视觉问答装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视觉问答模型训练方法和视觉问答方法，可以应用于终端或服务器。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图1所示，提供了一种视觉问答模型训练方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S110，获取用于训练视觉问答模型的图片样本和问题样本。

具体实现中，可以向终端输入多幅图片，作为图片样本，并相应地为每幅图片配置用自然语言描述的问题，作为问题样本，图片样本和问题样本可以用于进行视觉问答模型训练，其中，可以选取最常见的问题作为问题样本，并将相应的回答作为样本标签。还可以收集客户在遇到问题时所输入的截图及相应的问题描述，作为图片样本和问题样本。

步骤S120，对图片样本进行特征提取，得到图片样本特征，以及对问题样本进行特征提取，得到问题样本特征。

具体实现中，可以通过将每一个图片样本输入至区域卷积神经网络(RegionConvolutional Neural Networks，RCNN)来进行图片样本的特征提取，区域卷积神经网络输出图片样本特征，还可以通过将每一个问题样本输入至基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)模型来进行问题样本的特征提取，基于转换器的双向编码表征模型输出问题样本特征。

图2提供了一个图片特征提取的示意图，根据图2，可以将一个图片样本输入至RCNN，经过RCNN的深度残差网络和区域生成网络(Region Proposal Network，RPN)进行处理，输出图片样本不同区域的特征信息。

其中，每一个区域对应一个特征图(Feature Map)，每一个特征图可以作为一个图片样本特征。

其中，RCNN可以为Fast RCNN(快速的区域卷积神经网络)或Faster RCNN(更快速的区域卷积神经网络)，深度残差网络可以为ResNet-50、ResNet-101或ResNet-152。

例如，可以将图片样本输入至Faster-RCNN，经过Faster-RCNN的ResNet-101和RPN进行处理，输出不同候选区域的特征信息，每一个候选区域对应一个特征图，其中，RPN可以生成若干区域，可以从若干区域中选择部分区域作为候选区域，例如，可以根据区域包含目标的概率大小，来选择候选区域。

图3提供了一个问题特征提取的示意图，根据图3，可以将问题样本输入至BERT模型，对问题样本进行编码，经过多个转换器层层进行特征处理，输出问题样本对应的特征信息，作为问题样本特征。

步骤S130，确定图片样本特征与问题样本特征之间的关系隐变量；关系隐变量用于表征图片样本和问题样本是否相关。

具体实现中，图片样本特征和问题样本特征可以为相同维度的向量，图片样本特征作为图片样本节点，问题样本特征可作为问题样本节点，然后在图片样本节点和问题样本节点间设置初始的连接边，以代表节点间的关系，将由图片样本节点和问题样本节点及其连接边构成的图作为节点关系图，并将该节点关系图输入至注意力引导图卷积网络(Attention Guided Graph Convolutional Networks，AGGCN)，得到注意力矩阵，注意力矩阵中的各个元素可以用于表征问题对图片、或图片对问题的注意力程度。

具体的，用

表示一图像样本的第i(i＝1，……，I)个图片样本特征，I为一图像样本包含的特征图总数，用h_q表示问题样本特征，可以根据下式更新图片样本特征和问题样本特征：

其中，h_v′为更新后的图片样本特征，α_i为问题特征对第i个特征图的注意力程度，h_q′为更新后的问题样本特征，α_j为图片对问题特征的注意力程度。由注意力矩阵A可以得到A＝[α₁ … α_k-1]，其中，α₁为问题特征对第1个特征图的注意力程度，α_k为问题特征对第k个特征图的注意力程度，且α_j＝∑α_i。

针对每一图片样本，在得到更新后的图片样本特征和更新后的问题样本特征后，可以对二者进行拼接，得到联合表达为：

h_conv＝[h_q′；h_v′]。

将h_conv输入二分类函数可得到关系隐变量，关系隐变量可用于表征图片样本和问题样本是否相关。示例性的，可将sigmoid函数作为二分类函数，将h_conv输入该sigmoid函数，若得到sigmoid函数输出的结果为0，则表示图片样本和问题样本不相关，若得到sigmoid函数输出的结果为1，则表示图片样本和问题样本相关。

对于前述节点关系图，图4提供了一个注意力引导图卷积网络的示意图，根据图4，可以将每一个图片样本特征作为一个图片样本节点，将问题样本特征作为问题样本节点，图片样本节点和问题样本节点具有相同的特征维度，在图片样本节点和问题样本节点间设置初始的连接边组成一个节点关系图，节点关系图中的连接边表示其所连接的节点间的关系，在图4中为了简化，省略了节点自连接的边。AGGCN模型由M个相同的块构成，每一个块将节点的特征作为输入，包括若干个图片样本节点和一个问题样本节点，通过将节点特征输入至M个块，可以使AGGCN学习到更多的图片与问题之间的交互信息，例如，图片中的哪些区域与问题具有更强的关系，每一个块的输出都是图片与问题相互学习后的特征信息，得到的注意力矩阵可以从数值上反映出图片中各区域之间，以及各区域与问题之间的相关程度。

其中，AGGCN模型的每一个块可以由如下三部分组成：

(1)注意引导层(Attention Guided Layer)：通过使用多头注意力机制，根据下式计算得到N个注意力矩阵：

N个注意力矩阵中的每一个注意力矩阵为节点关系图的邻接矩阵，使AGGCN模型能够联合处理来自不同表示子空间的信息。该N个注意力矩阵中，A^t为对应第t个头的基于注意力的邻接矩阵，W_i ^Q和W_i ^K为对应的参数矩阵，该参数矩阵表示节点关系图中各图片样本节点和问题样本节点间的连接边的权重，可表征各节点之间关系强弱程度的度量，Q和K都等于AGGCN模型的第r-1层的集合表示h(r-1)，d和V为注意引导层参数。

(2)密集连接层(Densely Connected GCN，DCGCN)：可以捕捉图中的结构化信息，密集连接可以使得能够训练更深的模型，捕捉局部和非局部信息，学习到一个更好的图表述。具体的，对于注意引导层提供的N个注意力矩阵，相应使用N个DGGCN模型进行处理，每个注意力矩阵输入至一个DGGCN模型中获得N个DGGCN模型的输出结果，DGGCN模型的详细结构信息如图5所示，该图5所示的DGGCN模型的密集连接层的层数为3层。

(3)线性组合层(Linear Combination Layer)：该层用于集成来自前述N个不同的密集连接层(DCGCN)的输出结果。该线性组合层的输出可用下式定义：

其中，h_outj是第j个密集连接层(DCGCN)的输出结果，h_comb为图卷积网络(AGGCN)最后输出的特征矩阵作为最终的注意力矩阵。

步骤S140，根据关系隐变量、图片样本特征和问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型；目标视觉问答模型用于进行视觉问答。

具体实现中，用latent表示关系隐变量，可以将关系隐变量与更新后图片样本特征和更新后问题样本特征进行拼接，得到：

h＝[latent；h_conv]，

将h作为视觉问答模型的输入，并将输出与预设的样本标签，即预设的问题的答案相比对，根据比对结果调整视觉问答模型参数，通过多次调整参数，可以得到最终的目标视觉问答模型。

对于视觉问答模型的训练，示例性的，图6提供了一个利用关系隐变量进行模型训练的示意图，根据图6，视觉问答模型可以主要由softmax函数组成，用Net_2表示，可以在Net_2之前设计一个隐变量计算模块，主要由sigmoid函数组成，用Net_1表示。对问题样本特征和图片样本特征进行拼接，得到h_conv，作为Net_1的输入，通过sigmoid函数可以输出关系隐变量l，将关系隐变量l与h_conv进行拼接，得到h＝[latent；h_conv]作为Net_2的输入，其后连接softmax层，对问题样本的答案进行预测。

视觉问答模型的损失函数可以为：

其中，i表示图片样本和问题样本索引，N表示图片样本和问题样本的个数，I_i和Q_i分别表示第i个图片样本和第i个问题样本，A_i表示视觉问答模型预测的第i个答案。

通过Net_1可以得到隐变量l，为了提高回答模糊问题的准确率，可以在训练样本中设置一些诸如对给定图片提出“上述问题如何解决？”问题的样本，对于这类样本，可以将重点放在图片上，因此可以将训练样本划分为两类，一类是问题与图片互补或者共同描述同一个问题，图片与问题具有很强的关系，另一类是问题与图片关系不大，重点在图片上。在训练样本的处理上，可以以概率p将图片匹配模糊问题，并在其之后增加一个逻辑层(logistic layer)，得到一个隐变量，该隐变量表达了图片与问题之间的相关性。考虑隐变量的视觉问答模型损失函数可以为：

其中，y_i为样本标签值，p_i为答案预测值，具体实现中，可对样本标签进行编码得到对应的样本标签值，答案预测值为视觉问答模型直接输出的数值结果，该答案预测值可按相应的编码方式转化为对应的答案。

因此，视觉问答模型总的损失函数可以为：

loss＝loss₁+loss₂。

上述视觉问答模型训练方法，通过获取用于训练视觉问答模型的图片样本和问题样本，对图片样本进行特征提取得到图片样本特征，对问题样本进行特征提取得到问题样本特征，可以分别用图片样本特征和问题样本特征来描述图片样本和问题样本，确定图片样本特征与问题样本特征之间的关系隐变量，可以用关系隐变量来表征图片样本和问题样本是否相关，根据关系隐变量、图片样本特征和问题样本特征对视觉问答模型进行训练，得到目标视觉问答模型，由于在模型训练过程中除了考虑图片特征和问题特征对模型训练的影响，还考虑到了关系隐变量对模型训练的影响，即图片和问题是否相关对模型训练的影响，能够在回答模糊问题时仍然给出准确率较高的答案。

在一个实施例中，上述步骤S130，可以具体包括：

步骤S131，根据图片样本特征生成图片样本节点，以及根据问题样本特征生成问题样本节点；

步骤S132，根据图片样本节点和问题样本节点生成关系图；关系图包括多个节点和多条节点关系边；节点包括图片样本节点和问题样本节点；节点关系边用于记录节点之间的关系；

步骤S133，将关系图输入至注意力引导图卷积网络模型，得到关系矩阵；

步骤S134，根据关系矩阵，得到图片样本特征和问题样本特征之间的关系隐变量。

具体实现中，图片样本特征和问题样本特征可以为相同维度的向量，可以根据图片样本特征对应的空间点坐标得到图片样本节点，根据问题样本特征对应的空间点坐标得到问题样本节点，将图片样本节点和问题样本节点组成关系图，关系图可以由若干图片样本节点和若干问题样本节点组成，当节点之间存在关系时，通过节点关系边相连，节点也可以自连接。可以将关系图输入至AGGCN模型，并将输出的注意力矩阵作为关系矩阵，关系矩阵中的各个元素可以用于表征问题对图片或者图片对问题的注意力程度。根据下式更新图片样本特征和问题样本特征

h_q′＝α_jh_q，

其中，

表示第i(i＝1，…，I)个原始图片样本特征，其中I为特征图个数，h_q表示原始问题样本特征，α_i为问题特征对特征图的注意力程度，α_j为特征图对问题特征的注意力程度，h_v′为更新后图片样本特征，h_q′为更新后问题样本特征。

对更新后图片样本特征和更新后问题样本特征进行拼接，得到h_conv＝[h_q′；h_v′]。将h_conv输入二分类函数，可以得到图片样本特征和问题样本特征之间的关系隐变量。

本实施例中，通过根据图片样本特征生成图片样本节点以及根据问题样本特征生成问题样本节点，根据图片样本节点和问题样本节点生成关系图，可以构建图片样本和问题样本之间的关系，将关系图输入至注意力引导图卷积网络模型得到关系矩阵，可以对图片样本与问题样本之间的注意力程度进行表征，根据关系矩阵得到图片样本特征和问题样本特征之间的关系隐变量，可以用关系隐变量来表征图片样本对问题样本的注意力程度，以及问题样本对图片样本的注意力程度，便于在处理模糊问题时引入图片样本和问题样本之间的关系。

在一个实施例中，上述步骤S134，可以具体包括：根据关系矩阵，得到问题样本对于图片样本的第一权重和图片样本对于问题样本的第二权重；第一权重用于表征问题样本对于图片样本的注意力程度，第二权重用于表征图片样本对于问题样本的注意力程度；根据第一权重更新图片样本特征，得到更新后图片样本特征，以及根据第二权重更新问题样本特征，得到更新后问题样本特征；对更新后图片样本特征和更新后问题样本特征进行拼接，得到第一拼接向量；对第一拼接向量进行二分类，得到关系隐变量。

具体实现中，在获取到关系矩阵后，可以根据关系矩阵A＝[α₁ … α_k-1]得到问题样本对于图片样本的第一权重α_i(i＝1，…，k-1)，以及图片样本对于问题样本的第二权重α_j＝∑α_i，其中，α_i可以表征问题特征对于特征图的注意力程度，α_j可以表征特征图对于问题特征的注意力程度。

利用α_i来更新图片样本特征，得到更新后图片样本特征，具体公式可以为

利用α_j来更新问题样本特征，得到更新后问题样本特征，具体公式可以为

h_q′＝α_jh_q。

对h_v′和h_q′进行拼接，可以得到第一拼接向量

h_conv＝[h_q′；h_v′]。

将h_conv输入二分类函数，得到关系隐变量，例如，可以将h_conv输入sigmoid函数，若得到0，则表示图片样本和问题样本不相关，若得到1，则表示图片样本和问题样本相关。

本实施例中，通过根据关系矩阵得到问题样本对于图片样本的第一权重和图片样本对于问题样本的第二权重，可以用第一权重和第二权重来表征问题样本对图片样本或图片样本对问题样本的注意力程度，根据第一权重更新图片样本特征得到更新后图片样本特征，根据第二权重更新问题样本特征得到更新后问题样本特征，可以使更新后的图片样本特征和问题样本特征中包含图片与问题之间的关系，对更新后图片样本特征和更新后问题样本特征进行拼接得到第一拼接向量，对第一拼接向量进行二分类得到关系隐变量，可以通过关系隐变量来表征图片样本与问题样本之间是否相关，便于在处理模糊问题时引入图片样本和问题样本之间的关系。

在一个实施例中，上述步骤S140，可以具体包括：

步骤S141，对关系隐变量、更新后图片样本特征和更新后问题样本特征进行拼接，得到第二拼接向量；

步骤S142，基于第二拼接向量对视觉问答模型进行训练，得到目标视觉问答模型。

具体实现中，在得到关系隐变量后，可以将关系隐变量与更新后图片样本特征和更新后问题样本特征进行拼接，得到第二拼接向量，具体公式可以为

h＝[latent；h_conv]，

h_conv＝[h_q′；h_v′]，

其中，latent表示关系隐变量，h_q′表示更新后问题样本特征，h_v′标识更新后图片样本特征，h表示第二拼接向量。

将第二拼接向量h输入至视觉问答模型进行训练，视觉问题模型可以输出预测的答案，将其与预设的样本标签，即预设的答案相比对，根据比对结果调整视觉问答模型参数，通过多次调整参数，可以得到最终的目标视觉问答模型。

本实施例中，通过对关系隐变量、更新后图片样本特征和更新后问题样本特征进行拼接得到第二拼接向量，可以使第二拼接向量中包含图片样本和问题样本之间的关系，基于第二拼接向量对视觉问答模型进行训练得到目标视觉问答模型，可以使目标视觉问题模型根据图片样本和问题样本之间的关系训练得到，在回答模糊问题时仍然能够给出准确率较高的答案。

在一个实施例中，上述步骤S142，可以具体包括：将第二拼接向量输入至视觉问答模型，得到预测答案；根据预测答案、图片样本和问题样本，得到视觉问答模型的第一损失值；根据预测答案和预设的样本标签，得到视觉问答模型的第二损失值；通过对第一损失值和第二损失值求和，得到视觉问答损失值；若视觉问答损失值不超过预设阈值，则根据视觉问答模型得到目标视觉问答模型。

其中，样本标签可以为预先根据输入的，与图片样本和问题样本相对应的答案。

具体实现中，在进行模型训练时，可以将第二拼接向量h输入至视觉问答模型，视觉问答模型可以输出预测的答案，根据预测答案得到视觉问答模型的第一损失值，具体公式可以为

其中，i表示图片样本和问题样本索引，N表示图片样本和问题样本个数，I_i和Q_i分别表示第i个图片样本和第i个问题样本，A_i表示视觉问答模型预测的第i个答案。

还可以根据关系隐变量得到第二损失值，具体公式可以为

其中，y_i为样本标签值，p_i为答案预测值。

视觉问答模型总的损失函数可以为

loss＝loss₁+loss₂。

loss即为视觉问答损失值，将loss与预设阈值相比较，若loss超过预设阈值，则根据loss来调整视觉问答模型参数，否则，若loss不超过预设阈值，则无需调整参数，可以将当前的视觉问答模型作为目标视觉问答模型。

本实施例中，通过将第二拼接向量输入至视觉问答模型得到预测答案，根据预测答案、图片样本和问题样本得到视觉问答模型的第一损失值，根据预测答案和预设的样本标签得到视觉问答模型的第二损失值，通过对第一损失值和第二损失值求和得到视觉问答损失值，可以使视觉问答模型的损失值中同时包含训练样本和样本之间关系的影响，提高模型训练的准确性，若视觉问答损失值不超过预设阈值，则根据视觉问答模型得到目标视觉问答模型，可以根据损失值来快速判断模型训练是否收敛，提高模型训练的效率。

在一个实施例中，上述步骤S120，可以具体包括：将图片样本输入至区域卷积神经网络模型，得到至少一个图片样本特征；每一个图片样本特征对应于图片样本上的一个区域。

具体实现中，可以通过将每一个图片样本输入至RCNN来进行图片样本的特征提取，RCNN可以输出至少一个图片样本特征，每一个图片样本特征为图片样本上一个区域的特征。

本实施例中，通过将图片样本输入至区域卷积神经网络模型得到至少一个图片样本特征，可以高效提取图片样本特征，提高视觉问答模型训练的效率。

在一个实施例中，上述步骤S120，可以具体包括：将问题样本输入至基于转换器的双向编码表征模型，得到问题样本特征。

具体实现中，可以通过将每一个问题样本输入至BERT来进行问题样本的特征提取，BERT可以输出问题样本特征。

例如，可以将问题样本输入至BERT模型，对问题样本进行编码，经过多个转换器层层进行特征处理，输出问题样本对应的特征信息，作为问题样本特征。

本实施例中，通过将问题样本输入至基于转换器的双向编码表征模型得到问题样本特征，可以高效提取问题样本特征，提高视觉问答模型训练的效率。

在一个实施例中，如图7所示，提供了一种视觉问答方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S710，获取待识别图片和待回答问题；

步骤S720，对待识别图片进行特征提取，得到待识别图片特征，以及对待回答问题进行特征提取，得到待回答问题特征；

步骤S730，确定待识别图片特征与待回答问题特征之间的关系隐变量；

步骤S740，将关系隐变量、待识别图片特征和待回答问题特征输入至目标视觉问答模型，得到问题的答案。

具体实现中，当客户遇到问题时，可以向终端输入截图和相应的问题描述，其中截图可以为待识别图片，问题描述可以为待回答问题。将待识别图片输入至RCNN网络进行特征提取，得到待识别图片特征，将待回答问题输入至BERT模型进行特征提取，得到待回答问题特征。待识别图片特征和待回答问题特征可以为相同维度的向量，根据待识别图片特征对应的空间点坐标得到待识别图片节点，根据待回答问题特征对应的空间点坐标得到待回答问题节点，将待识别图片节点和待回答问题节点组成关系图，输入至AGGCN网络，得到注意力矩阵，根据注意力矩阵可以得到待识别图片特征与待回答问题特征之间的关系隐变量，通过对关系隐变量、待识别图片特征和待回答问题特征进行拼接，输入至训练好的目标视觉问答模型，通过目标视觉问答模型对拼接后的关系隐变量、待识别图片特征和待回答问题特征进行分类，可以根据分类结果得到问题的答案。

由于视觉问答方法的具体处理过程在前述实施例中已有详细说明，在此不再赘述。

上述视觉问答方法，通过获取待识别图片和待回答问题，对待识别图片进行特征提取得到待识别图片特征，对待回答问题进行特征提取得到待回答问题特征，可以分别用待识别图片特征和待回答问题特征来描述待识别图片和待回答问题，确定待识别图片特征与待回答问题特征之间的关系隐变量，可以用关系隐变量来表征待识别图片和待回答问题是否相关，将关系隐变量、待识别图片特征和待回答问题特征输入至目标视觉问答模型，得到问题的答案，由于在模型识别过程中除了考虑图片特征和问题特征对识别结果的影响，还考虑到了图片和问题是否相关对识别结果的影响，能够在回答模糊问题时仍然给出准确率较高的答案。

而且，通过使用BERT对问题进行embedding(嵌入)，使用Faster-RCNN提取出图片不同候选区域的object Embedding(目标嵌入)信息，为了得到问题与图片不同目标之间的关系信息，使用AGGCN网络，将问题的embedding与图片的object embedding作为图的节点，通过多头注意力机制计算出不同节点之间的关系矩阵，并将其作为每一个图的邻接矩阵，通过DCGCN学习到这些节点之间的交互信息，最终得到每个节点的特征信息，并根据数据集的特点，设计多任务学习方式，使用辅助任务进一步提高特征提取的质量，从而提高主任务即VQA的准确率。实验表明，采用本申请的技术方案，平均回答准度可以由20.65％提高到30.33％。

应该理解的是，虽然图1和图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种视觉问答模型训练装置800，包括：样本获取模块810、样本特征提取模块820、样本隐变量确定模块830和模型训练模块840，其中：

样本获取模块810，用于获取用于训练视觉问答模型的图片样本和问题样本；

样本特征提取模块820，用于对所述图片样本进行特征提取，得到图片样本特征，以及对所述问题样本进行特征提取，得到问题样本特征；

样本隐变量确定模块830，用于确定所述图片样本特征与所述问题样本特征之间的关系隐变量；

模型训练模块840，用于根据所述关系隐变量、所述图片样本特征和所述问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型；所述目标视觉问答模型用于进行视觉问答。

在一个实施例中，上述样本隐变量确定模块830，可以具体包括：

样本节点生成模块，用于根据所述图片样本特征生成图片样本节点，以及根据所述问题样本特征生成问题样本节点；

关系图生成模块，用于根据所述图片样本节点和所述问题样本节点生成关系图；所述关系图包括多个节点和多条节点关系边；所述节点包括所述图片样本节点和所述问题样本节点；所述节点关系边用于记录所述节点之间的关系；

关系矩阵模块，用于将所述关系图输入至注意力引导图卷积网络模型，得到关系矩阵；

关系隐变量模块，用于根据所述关系矩阵，得到所述图片样本特征和所述问题样本特征之间的关系隐变量。

在一个实施例中，上述关系隐变量模块，还用于根据所述关系矩阵，得到所述问题样本对于所述图片样本的第一权重和所述图片样本对于所述问题样本的第二权重；所述第一权重用于表征所述问题样本对于所述图片样本的注意力程度，所述第二权重用于表征所述图片样本对于所述问题样本的注意力程度；根据所述第一权重更新所述图片样本特征，得到更新后图片样本特征，以及根据所述第二权重更新所述问题样本特征，得到更新后问题样本特征；对所述更新后图片样本特征和所述更新后问题样本特征进行拼接，得到第一拼接向量；对所述第一拼接向量进行二分类，得到所述关系隐变量。

在一个实施例中，上述样模型训练模块840，可以具体包括：

拼接模块，用于对所述关系隐变量、所述更新后图片样本特征和所述更新后问题样本特征进行拼接，得到第二拼接向量；

拼接后训练模块，用于基于所述第二拼接向量对视觉问答模型进行训练，得到所述目标视觉问答模型。

在一个实施例中，上述拼接后训练模块，还用于将所述第二拼接向量输入至所述视觉问答模型，得到预测答案；根据所述预测答案、所述图片样本和所述问题样本，得到所述视觉问答模型的第一损失值；根据所述预测答案和预设的样本标签，得到所述视觉问答模型的第二损失值；通过对所述第一损失值和所述第二损失值求和，得到视觉问答损失值；若所述视觉问答损失值不超过预设阈值，则根据所述视觉问答模型得到所述目标视觉问答模型。

在一个实施例中，上述样本特征提取模块820，还用于将所述图片样本输入至区域卷积神经网络模型，得到至少一个图片样本特征；每一个所述图片样本特征对应于所述图片样本上的一个区域。

在一个实施例中，上述样本特征提取模块820，还用于将所述问题样本输入至基于转换器的双向编码表征模型，得到所述问题样本特征。

在一个实施例中，如图9所示，提供了一种视觉问答装置900，包括：获取模块910、特征提取模块920、隐变量确定模块930和识别模块940，其中：

获取模块910，用于获取待识别图片和待回答问题；

特征提取模块920，用于对所述待识别图片进行特征提取，得到待识别图片特征，以及对所述待回答问题进行特征提取，得到待回答问题特征；

隐变量确定模块930，用于确定所述待识别图片特征与所述待回答问题特征之间的关系隐变量；

识别模块940，用于将所述关系隐变量、所述待识别图片特征和所述待回答问题特征输入至目标视觉问答模型，得到问题的答案。

关于视觉问答模型训练、视觉问答装置的具体限定可以参见上文中对于视觉问答模型训练、视觉问答方法的限定，在此不再赘述。上述视觉问答模型训练、视觉问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视觉问答模型训练、视觉问答方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种视觉问答模型训练、视觉问答方法的步骤。此处一种视觉问答模型训练、视觉问答方法的步骤可以是上述各个实施例的一种视觉问答模型训练、视觉问答方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种视觉问答模型训练、视觉问答方法的步骤。此处一种视觉问答模型训练、视觉问答方法的步骤可以是上述各个实施例的一种视觉问答模型训练、视觉问答方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视觉问答模型训练方法，其特征在于，所述方法包括：

获取用于训练视觉问答模型的图片样本和问题样本；

2.根据权利要求1所述的方法，其特征在于，所述确定所述图片样本特征与所述问题样本特征之间的关系隐变量，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述关系矩阵，得到所述图片样本特征和所述问题样本特征之间的关系隐变量，包括：

对所述第一拼接向量进行二分类，得到所述关系隐变量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述关系隐变量、所述图片样本特征和所述问题样本特征，对视觉问答模型进行训练，得到目标视觉问答模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二拼接向量对视觉问答模型进行训练，得到所述目标视觉问答模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述图片样本进行特征提取，得到图片样本特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述问题样本进行特征提取，得到问题样本特征，包括：

8.一种视觉问答方法，其特征在于，所述方法包括：

获取待识别图片和待回答问题；

9.一种视觉问答模型训练装置，其特征在于，所述装置包括：

10.一种视觉问答装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图片和待回答问题；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。