CN110348535A

CN110348535A - 一种视觉问答模型训练方法及装置

Info

Publication number: CN110348535A
Application number: CN201910647573.6A
Authority: CN
Inventors: 李长亮; 詹华年; 丁洪利; 唐剑波
Original assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-18
Anticipated expiration: 2039-07-17
Also published as: CN110348535B

Abstract

本申请提供一种视觉问答模型训练方法及装置，涉及计算机技术领域。其中，一种视觉问答模型训练方法，包括：获取训练样本和样本标签；提取样本图像特征信息和样本问题特征信息；将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量；将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至所述视觉问答模型中通过所述视觉问答模型得到预测答案；基于所述真实答案和所述预测答案确定损失函数的损失值；通过所述损失函数的损失值对所述视觉问答模型进行更新。

Description

一种视觉问答模型训练方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种视觉问答模型训练方法及装置，计算设备及计算机可读存储介质。

背景技术

视觉问答(Visual Question Answering，VQA)是一种涉及计算机视觉和自然语言处理的综合性任务，一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。

目前，现有的视觉问答模型训练方法一般先通过一个预训练好的深度卷积神经网络模型(CNN)抽取出要回答的图像特征，将问题转化为若干词向量，然后将图像特征和转化为词向量的问题词一起输入至长短期记忆网络(LSTM)中，利用LSTM网络产生答案，并不断进行迭代训练，直至产生结束符为止。此种模型的训练过程是结合图像特征的LSTM网络的训练以及词向量的生成器的训练。

但是，现有的视觉问答模型训练方法对图像特征及问题特征的提取及处理过于单一，没有考虑图像区域间的空间语义上下文信息，且目前视觉问答VQA的问题数据集有限，模型普遍为过拟合状态，影响得到的答案与真实答案之间的语义上下文相近程度。

发明内容

有鉴于此，本申请实施例提供了一种视觉问答模型训练方法及装置，计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种视觉问答模型训练方法，包括：

获取训练样本和样本标签，所述训练样本包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案；

对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息；

将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量；

将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至视觉问答模型中通过所述视觉问答模型得到预测答案；

基于所述真实答案和所述预测答案确定损失函数的损失值；

通过所述损失函数的损失值对所述视觉问答模型进行更新。

进一步地，所述对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息，包括：

提取所述样本图像中的特征，并将提取到的样本图像特征池化处理达到目标维度，得到所述样本图像特征信息；

对所述样本问题进行编码，并提取编码后的所述样本问题中的特征，得到所述样本问题特征信息。

进一步地，所述将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量，包括：

将所述样本图像特征信息转换为样本图像特征矩阵，将所述样本问题特征信息转换为样本问题特征矩阵；

基于所述样本图像特征矩阵和所述样本问题特征矩阵，得到交叉特征矩阵；

基于所述交叉特征矩阵，分别为所述样本图像特征矩阵中的所述样本图像信息和所述样本问题特征中的所述样本问题信息配置权重，得到所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量。

进一步地，所述基于所述样本图像特征矩阵和所述样本问题特征矩阵，得到交叉特征矩阵，包括：

将所述样本图像特征矩阵和所述样本问题特征矩阵相乘，并进行归一化处理，得到交叉特征矩阵。

进一步地，所述基于所述真实答案和所述预测答案确定损失函数的损失值，包括：

计算所述真实答案与所述预测答案之间的相似度；

根据所述真实答案与所述预测答案之间的相似度，为所述预测答案配置相似权重值，并将所述相似权重值作为损失函数的损失值。

进一步地，所述通过所述损失函数的损失值对所述视觉问答模型进行更新，包括：

根据所述损失函数的损失值对所述样本标签进行二分类，并根据二分类的结果迭代训练并更新所述视觉问答模型。

判断所述损失函数的损失值是否大于预设期望值；

若所述损失函数的损失值大于预设期望值，则调整所述视觉问答模型的参数，更新所述视觉问答模型，并继续迭代训练；

若所述损失函数的损失值小于或等于预设期望值，则结束训练。

一种视觉问答方法，包括：

获取待识别图像和待回答问题；

对所述待识别图像和所述待回答问题分别进行特征提取，得到待识别图像特征信息和待回答问题特征信息；

将所述待识别图像特征信息和所述待回答问题特征信息进行特征交叉处理，得到携带有待回答问题信息的待识别图像特征向量和携带有待识别图像信息的待回答问题特征向量；

将所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量输入至预训练的视觉问答模型中进行处理，得到问题的答案。

进一步地，将所述待识别图像特征信息转换为待识别图像特征矩阵，将所述待回答问题特征信息转换为待回答问题特征矩阵；

基于所述待识别图像特征矩阵和所述待回答问题特征矩阵，得到交叉特征矩阵；

基于所述交叉特征矩阵，分别为所述待识别图像特征矩阵中的所述待识别图像信息和所述待回答问题特征中的所述待回答问题信息配置权重，得到所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量。

进一步地，所述视觉问答模型包括：融合部件、计算部件和池化部件；

在所述融合部件中，将所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量输入并进行线性融合；

在所述计算部件中，计算每个所述携带有待回答问题信息的待识别图像特征向量和每个所述携带有待识别图像信息的待回答问题向量之间的关系值；

在所述池化部件中，提取关系值最大的相对应的携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题向量，并进行池化降维，得到问题的答案。

一种视觉问答模型训练装置，包括：

获取模块，被配置为获取训练样本和样本标签，所述训练样本包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案；

样本特征提取模块，被配置为对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息；

样本第一处理模块，被配置为将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量；

样本第二处理模块，被配置为将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至视觉问答模型中通过所述视觉问答模型得到预测答案；

确定模块，被配置为基于所述真实答案和所述预测答案确定损失函数的损失值；

更新模块，被配置为通过所述损失函数的损失值对所述视觉问答模型进行更新。

可选地，所述样本特征提取模块，进一步地被配置为：

可选地，所述样本第一处理模块，进一步地被配置为：

可选地，所述确定模块，进一步地被配置为：

计算所述真实答案与所述预测答案之间的相似度；

可选地，所述更新模块，进一步地被配置为：

判断所述损失函数的损失值是否大于预设期望值；

一种视觉问答装置，包括：

获取模块，被配置为获取待识别图像和待回答问题；

特征提取模块，被配置为对所述待识别图像和所述待回答问题分别进行特征提取，得到待识别图像特征信息和待回答问题特征信息；

第一处理模块，被配置为将所述待识别图像特征信息和所述待回答问题特征信息进行特征交叉处理，得到携带有待回答问题信息的待识别图像特征向量和携带有待识别图像信息的待回答问题特征向量；

第二处理模块，被配置为将所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量输入至预训练的视觉问答模型中进行处理，得到问题的答案。

可选地，所述第一处理模块，进一步地被配置为：

将所述待识别图像特征信息转换为待识别图像特征矩阵，将所述待回答问题特征信息转换为待回答问题特征矩阵；

可选地，所述视觉问答模型包括：融合部件、计算部件和池化部件；

一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现上述视觉问答模型训练方法和视觉问答方法的步骤。

一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述视觉问答模型训练方法和视觉问答方法的步骤。

本申请提供的一种视觉问答模型训练方法、装置、计算设备及存储介质，具有如下所述的优点：

本申请提供的视觉问答模型训练方法，在提取到样本图像特征信息和样本问题特征信息之后，将样本图像特征信息和样本问题特征信息进行特征交叉处理，即对样本图像特征信息和样本问题特征信息进行了多模态融合，增加了样本图像特征信息和样本问题特征信息的丰富度，视觉问答模型更加快速高效的完成训练。

附图说明

图1是本申请一实施例所述的计算设备的结构示意图；

图2是本申请一实施例所述的一种视觉问答模型训练方法的流程示意图；

图3是本申请一实施例所述的得到交叉特征矩阵的流程示意图；

图4是本申请一实施例所述的样本图像示意图；

图5是本申请一实施例所述的一种视觉问答方法的流程示意图；

图6是本申请一实施例所述的一种视觉问答模型训练装置的结构示意图；

图7是本申请一实施例所述的一种视觉问答装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

多尺度特征：数据输入到卷积神经网络中，不同层的输出具有不同尺度信息，包含更多细节信息的底层特征和包含更多抽象语义信息的高层特征。

词嵌入：将一个单词转换成固定长度的向量表示，自然语言处理中一个重要的概念。

多模态融合：将来自不同模态的特征进行组合得到包含多种模态的特征，如将图像特征和文本特征的融合过程。

在本申请中，提供了一种视觉问答模型训练方法、装置、计算设备及存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

其中，数据库150保存的数据可以是在视觉问答模型训练过程中或视觉问答过程中产生的各种数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。

如图2所示，图2示出了本申请一实施例的视觉问答模型训练方法的流程示意图，包括下述步骤S210～步骤S260。

步骤S210：获取训练样本和样本标签，所述训练样本包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案。

其中，样本是对观察或研究的一部分个体的统称，训练样本可以包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案。所述样本图像是包括一定特征信息的用于模型训练的图像，所述样本图像可以是jpg、png等各种格式，本申请对此不做限制。所述样本问题可以是与所述样本图像具有一定关联性的疑问句，所述真实答案可以是与所述样本图像及所述样本问题相对应的答案。所述样本问题和所述真实答案的格式可以是文字格式、音频格式等各种格式，所述样本问题和所述真实答案可以是各种语言的文字或音频，如中文、英文、俄文等，本申请对此不做限制。获取训练样本和样本标签的方式可以是通过文字输入获取、通过语音输入获取等各种方式，本申请对此不做限制。

步骤S220：对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息。

在本申请一实施例中，样本图像的特征提取，是使用计算机提取图像中的信息，其结果是把图像上的点分为不同的子集。通过对样本对象的特征提取得到的样本图像特征信息可以包括颜色特征、纹理特征、形状特征和空间关系特征等，本申请对此不做限制。

例如，假设样本图像中包括“一个桌面是菱形的桌子，且桌子上放着一颗红色的苹果”，则提取到的样本图像特征信息可以是颜色特征“苹果是红色的”、形状特征“桌面是菱形的”或空间关系特征“苹果在桌子上”等等。

在本申请一实施例中，对样本问题进行特征提取，样本问题的特征提取属于文字提取，可以通过提取样本问题的疑问句中的关键词或关键字，并将提取到的关键词或关键字进行组合，得到样本问题特征信息。

例如，假设样本问题的疑问句为“苹果是什么颜色的？”经过提取关键词得到该样本问题的特征信息包括“苹果的颜色”。

实际应用中，可以提取所述样本图像中的特征，并将提取到的样本图像特征池化处理达到目标维度，得到所述样本图像特征信息；可以对所述样本问题进行编码，并提取编码后的所述样本问题中的特征，得到所述样本问题特征信息。

在本申请一实施例中，可以通过卷积神经网络模型对所述样本图像进行多尺度特征的提取，如预训练的目标物体检测Faster-RCNN模型等，并通过池化处理使样本图像特征信息达到目标维度，其中，池化处理可以包括多种，如最大池化、对齐池化等，目标维度可以根据具体需求确定，本申请对此不做限制。

例如，假设将获取到的样本图像输入至预训练的Faster-RCNN模型中进行特征提取，其中，预训练的Faster-RCNN模型包括若干个特征提取模块，通过若干个所述特征提取模块分别对所述样本图像进行特征提取，得到若干个特征信息，并通过最大池化使每个特征信息均达到目标维度，得到所述样本图像特征信息。

在本申请一实施例中，可以通过编码等各种方式将样本问题的句子转化为向量，以方便后续的特征提取，且可以通过各种编码工具对样本问题的句子进行编码，如skip-thought模型等，本申请对此不做限制。将样本问题的句子进行编码后，可以通过门循环单元(Gated Recurrent Unit，GRU)、问题自注力模块等对编码后的样本问题进行特征提取，得到所述样本问题特征信息。

以问题自注力模块为例，假设将编码后的问题特征输入至问题自注力模块中，在第二维度上将输入的问题特征拆分成两个特征矩阵，其中，取任意一个特征矩阵并对其进行归一化处理，得到权重矩阵，将所述权重矩阵与另一未进行处理的矩阵相乘即得到经过问题自注力模块处理后的样本问题特征信息。

步骤S230：将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量。

实际应用中，可以将所述样本图像特征信息转换为样本图像特征矩阵，将所述样本问题特征信息转换为样本问题特征矩阵。

基于所述样本图像特征矩阵和所述样本问题特征矩阵，得到交叉特征矩阵。

进一步地，将所述样本图像特征矩阵和所述样本问题特征矩阵相乘，并进行归一化处理，得到交叉特征矩阵。

具体地，假设所述样本图像特征矩阵A为a×b的矩阵，其中包括a行b列，每行分别包括a₁₁～a_1b、a₂₁～a_2b……a_a1～a_ab，每列分别包括a₁₁～a_b1、a₁₂～a_b2……a_1b～a_ab所述样本问题特征矩阵B为c×d的矩阵，其中包括c行d列，每行分别包括c₁₁～c_1d、c₂₁～c_2d……c_c1～c_cd，每列分别包括c₁₁～c_d1、c₁₂～c_d2……c_1d～c_cd，其中b＝c，则将上述样本图像特征矩阵A与样本问题特征矩阵B相乘，即得到a×d的矩阵P，其中包括a行d列，每行分别包括p₁₁～p_1d、p₂₁～p_2d……p_a1～p_ad，每列分别包括p₁₁～p_a1、p₁₂～p_1a……p_1d～p_ad，其中，p₁₁、p_1d、p_ad等均可以看做一个特征元素，特征元素可以表示为p_ad＝a_a1×c_1d+a_a2×c_2d+……+a_ab×c_dd，并将该a×d的矩阵进行归一化处理，分别为p₁₁、p₂₁、p₃₁、p₄₁等每一个特征元素均配置一个权重参数t₁₁、t₂₁、t₃₁、t₄₁……，且矩阵P中每一个特征元素的权重参数之和等于1，即t₁₁+t₂₁+t₃₁+t₄₁+……+t_ad＝1即得到交叉特征矩阵T。

基于交叉特征矩阵T中的特征元素及每一个特征元素对应的权重参数，并对交叉特征矩阵T中每一行的权重参数进行求和得到每一行的权重值，将每一行的权重值与样本图像特征矩阵A相乘，即得到更新后的图像特征矩阵A₁，将所述更新后的图像特征A₁转换为向量表示，即得到携带有样本问题信息的样本图像特征向量。

基于交叉特征矩阵T中的特征元素及每一个特征元素对应的权重参数，并对交叉特征矩阵T中每一列的权重参数进行求和得到每一行的权重值，将每一列的权重值与样本图像特征矩阵B相乘，即得到更新后的图像特征矩阵B₁，将所述更新后的图像特征B₁转换为向量表示，即得到携带有样本图像信息的样本问题特征向量。

下面结合具体的例子对交叉特征矩阵做出具体的说明。

如图3所示，假设样本图像特征矩阵X为5×4的矩阵，其中包括5行4列，分别为x₁₁、x₁₂、x₁₃……x₅₄，样本问题特征矩阵Y为4×3的矩阵，其中包括4行3列，分别为y₁₁、y₁₂、y₁₃……y₄₃。将样本图像特征矩阵X与样本问题特征矩阵Y相乘，即得到5×3的矩阵Z，其中包括5行3列，分别为特征元素z₁₁、z₁₂、z₁₃……z₅₃，对矩阵Z进行全局归一化处理，为每一个特征元素配置权重参数，假设经过全局归一化处理后矩阵Z中特征元素z₁₁～z₅₃的权重参数t如表1所示。

表1

特征元素	权重参数t	特征元素	权重参数t	特征元素	权重参数t
						z<sub>11</sub>	0.05	z<sub>12</sub>	0.08	z<sub>13</sub>	0.05
z<sub>21</sub>	0.08	z<sub>22</sub>	0.02	z<sub>23</sub>	0.05
						z<sub>31</sub>	0.11	z<sub>32</sub>	0.06	z<sub>33</sub>	0.09
z<sub>41</sub>	0.03	z<sub>42</sub>	0.06	z<sub>43</sub>	0.07
						z<sub>51</sub>	0.07	z<sub>52</sub>	0.10	z<sub>53</sub>	0.08

其中，特征元素z₁₁～z₅₃的权重参数之和为1。

对交叉特征矩阵中每一行的所有特征元素的权重参数及每一列的所有特征元素的权重参数求和，分别得到行方向的权重值m₁～m₅，列方向的权重值n₁～n₃，m₁＝0.05+0.08+0.05＝0.18，m₂＝0.08+0.02+0.05＝0.15，m₃＝0.11+0.06+0.09＝0.26，m₄＝0.03+0.06+0.07＝0.16，m₅＝0.07+0.10+0.08＝0.25，n₁＝0.05+0.08+0.11+0.03+0.07＝0.34，n₂＝0.08+0.02+0.06+0.06+0.10＝0.32，n₃＝0.05+0.05+0.09+0.07+0.08＝0.34。

将m₁～m₅与样本图像特征矩阵X相乘，即得到更新后的样本图像特征矩阵X₁，将更新后的样本图像特征矩阵转换为向量表示，即得到携带有样本问题信息的样本图像特征向量。

将n₁～n₃与样本问题特征矩阵Y相乘，即得到更新后的样本问题特征矩阵Y₁，将更新后的样本问题特征矩阵转换为向量表示，即得到携带有样本图像信息的样本问题特征向量。

步骤S240：将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至视觉问答模型中通过所述视觉问答模型得到预测答案。

在实际应用中，所述视觉问答模型可以包括：融合部件、计算部件和池化部件。

在所述融合部件中，将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入并进行双线性融合。

在所述计算部件中，计算每个所述携带有样本问题信息的样本图像特征向量和每个所述携带有样本图像信息的样本问题向量之间的关系值。

在所述池化部件中，提取关系值最大的相对应的携带有样本问题信息的样本图像特征向量和所述携带样本图像信息的样本问题向量，并进行池化降维，得到预测答案。

具体地，可以将每一个特征向量(包括携带有样本问题信息的样本图像特征向量和携带有样本图像特征信息的样本问题特征向量)看作一个节点，假设共有K个特征向量，即共有K个节点，则所述K个节点之间存在K*(K-1)/2条边，通过线性融合计算得到各边的权重值，假设当前节点为i，则通过计算节点i与除其本身之外的其他每个节点之间的距离得到节点i与其他节点之间的关系值，距离越大，关系值越小，距离越小，关系值越大。通过计算后提取与每个节点关系值最大的节点，即提取与每个特征向量相关性最大的特征向量，并与原特征向量相加，即得到一个新的特征向量。将得到的若干新的特征向量进行最大池化降维到一个特征，即得到预测答案。

步骤S250：基于所述真实答案和所述预测答案确定损失函数的损失值。

实际应用中，可以计算所述真实答案与所述预测答案之间的相似度；根据所述真实答案与所述预测答案之间的相似度，为所述预测答案配置相似权重值，并将所述相似权重值作为损失函数的损失值。

损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。损失函数的损失值可以表示预测答案与真实答案之间的相近程度。

具体地，可以通过欧氏距离法、曼哈顿距离法等各种方法计算所述真实答案与所述预测答案之间的相似度，本申请对此不做限制。

以欧式距离法为例，将所述真实答案与所述预测答案通过词嵌入等方式分别转换为对应的真实答案表征向量和预测答案表征向量，计算所述真实答案表征向量和所述预测答案表征向量之间的欧式距离，得到预测答案与真实答案之间的语义相近程度，并根据所述预测答案与所述真实答案之间的语义相近程度，为所述预测答案配置相似权重值，得到损失函数的损失值。其中，语义相似度越高，相似权重值越大，损失值越小，反之成立。

步骤S260：通过所述损失函数的损失值对所述视觉问答模型进行更新。

可选地，可以根据所述损失函数的损失值对所述样本标签进行二分类，并根据二分类的结果迭代训练并更新所述视觉问答模型。

具体地，将所述损失函数的损失值输入到预训练的二分类模型中，根据所述损失函数的损失值大小对样本标签进行二分类，将所述样本标签归为需要继续迭代更新的一类或是结束训练的一类，根据二分类的结果迭代训练并更新所述视觉问答模型。

可选地，可以判断所述损失函数的损失值是否大于预设期望值；若所述损失函数的损失值大于预设期望值，则调整所述视觉问答模型的参数，更新所述视觉问答模型，并继续迭代训练；若所述损失函数的损失值小于或等于预设期望值，则结束训练。

具体地，损失函数的损失值可以表示预测答案与真实答案之间的语义相近程度，预设的期望值可以划分出预测答案与真实答案之间语义相近程度的最优范围，在损失函数的损失值大于预设的期望值的情况下，预测答案与真实答案之间的语义相近程度较低，需要继续进行迭代训练，在损失函数的损失值小于或等于预设期望值的情况下，预测答案与真实答案之间的语义相近程度已达到高度相近，可以结束训练。

下面结合具体的例子对上述实施例进行进一步地说明。

例如，假设获取到的训练样本中的样本图像如图4所示，其中，圆形表示玫瑰花、正方形表示百合花、三角形表示紫罗兰，该样本图像中包括“一个插了九枝玫瑰花、两枝百合花的花瓶，且花瓶旁边放有一枝紫罗兰”，获取到的训练样本中的样本问题为“花瓶中共有几枝花？”，样本标签的真实答案为“花瓶中有十一枝花”。

对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息包括“九枝玫瑰花”“两枝百合花”“一枝紫罗兰”“花瓶中有十一枝花”“花瓶外有一枝花”等，得到的样本问题特征信息包括“花的数量”“花瓶中花的数量”等。

将所述样本图像特征信息和所述样本问题特征信息分别转换为样本图像特征矩阵和样本问题特征矩阵，假设样本图像特征矩阵以“行”的形式呈现，则所述样本图像特征矩阵为5×2的矩阵，假设样本问题特征矩阵为2×2的矩阵，将所述样本图像特征矩阵和所述样本问题特征矩阵相乘，得到5×2的二维矩阵，将每一行和每一列之间的交点看作一个特征元素，将所述二维矩阵进行归一化处理，即为每一个特征元素均配置一个权重参数，且所有权重参数的和为1，得到交叉特征矩阵,如表2所示。

表2

其中，每一列代表一条样本图像特征信息，每一行代表一条样本问题特征信息，A₁～A₅、B₁～B₅可以表示经过归一化处理后为每一个交点配置的权重参数，可以是小数、分数等，且A₁+A₂+A₃+A₄+A₅+B₁+B₂+B₃+B₄+B₅＝1。

基于所述交叉特征矩阵，分别为所述样本图像特征矩阵中的所述样本图像特征信息和所述样本问题特征中的所述样本问题特征信息配置权重，将每一列上的所有特征元素的权重参数相加，即得到对应的样本图像特征信息的权重，将每一行上的特征元素的权重参数相加，即得到对应的样本问题特征信息的权重。例如，样本图像特征信息“九枝玫瑰花”的权重为A₁+B₁，样本问题特征信息“花的数量”的权重为A₁+A₂+A₃+A₄+A₅，其他样本图像特征信息及样本问题特征信息的权重计算方法相类似，在此不再赘述，样本图像特征信息加为其配置的权重即得到携带有样本问题信息的样本图像特征向量，样本问题特征信息加为其配置的权重即得到携带有样本图像信息的样本问题特征向量。

将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至视觉问答模型中，经过融合部件对携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量进行线性融合，将每一个特征向量均看作一个节点，以携带有样本图像特征信息的样本问题特征向量“(花瓶中花的数量，B₆)”为例，分别计算此特征向量与其他所有特征向量之间的关系值，提取与其关系值最大的特征向量，并将原特征向量与计算得到的关系值最大的特征向量相加作为此特征向量的输出。假设经过计算得到样本问题特征向量“(花瓶中花的数量，B₆)”与样本图像特征向量“(花瓶中有十一枝花，C₄)”的关系值最大，将“(花瓶中花的数量，B₆)”“(花瓶中有十一枝花，C₄)”相加得到新的特征向量“(花瓶中有十一枝花，B₆+C₄)”。将得到的若干新的特征向量进行最大池化降维到一个特征，即得到预测答案。

计算所述真实答案与所述预测答案之间的相似度，以预测答案为“花瓶中有九枝花”为例，通过欧式距离法计算预测答案“花瓶中有九枝花”与真实答案“花瓶中有十一枝花”之间的语义相近程度，假设得到预测答案与真实答案之间的语义相近程度为0.7，即预测答案与真实答案之间的相似度为0.7，那么损失函数的损失值即为0.3。

判断所述损失函数的损失值是否大于预设期望值，以预设的损失函数的期望值为0.1，假设预测答案“花瓶中有九枝花”的损失函数的损失值为0.3，大于0.1，继续进行迭代训练，假设预测答案“花瓶中有十一枝花”的损失函数的损失值为0.01，小于0.1，结束训练。

本申请一实施例所述的视觉问答模型训练方法，对样本图像进行多尺度特征提取，可以有效增加提取到的图像特征信息的丰富度。

本申请一实施例所述的视觉问答模型训练方法，在提取样本图像特征信息和样本问题特征信息后，将样本图像特征信息和样本问题特征信息进行特征交叉处理，即多模态融合，使样本图像特征信息和样本问题特征信息互相融合，有助于进一步地提取与样本问题相关的样本图像特征信息及与样本图像相关的样本问题特征信息，有效增加视觉模型训练的效率，有效增加预测答案与真实答案之间的语义相近程度。

本申请一实施例所述的视觉问答模型训练方法，其中基于所述真实答案和所述预测答案确定损失函数的损失值，可以视为一个加权平滑的过程，可以有效减轻模型的过拟合程度。

如图5所示，一种视觉问答方法，包括步骤S510～步骤S540。

步骤S510：获取待识别图像和待回答问题。

具体可参考上述视觉问答模型训练方法，此处不再赘述。

步骤S520：对所述待识别图像和所述待回答问题分别进行特征提取，得到待识别图像特征信息和待回答问题特征信息。

进一步地，提取所述待识别图像中的特征，并将提取到的待识别图像特征池化处理达到目标维度，得到所述待识别图像特征信息；对所述待回答问题进行编码，并提取编码后的所述待回答问题中的特征，得到所述待回答问题特征信息。

具体可参考上述视觉问答模型训练方法，此处不再赘述。

步骤S530：将所述待识别图像特征信息和所述待回答问题特征信息进行特征交叉处理，得到携带有待回答问题信息的待识别图像特征向量和携带有待识别图像信息的待回答问题特征向量。

进一步地，将所述待识别图像特征信息转换为待识别图像特征矩阵，将所述待回答问题特征信息转换为待回答问题特征矩阵；基于所述待识别图像特征矩阵和所述待回答问题特征矩阵，得到交叉特征矩阵；基于所述交叉特征矩阵，分别为所述待识别图像特征矩阵中的所述待识别图像信息和所述待回答问题特征中的所述待回答问题信息配置权重，得到所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量。

具体可参考上述视觉问答模型训练方法，此处不再赘述。

步骤S540：将所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量输入至所述预训练的视觉问答模型中进行处理，得到问题的答案。

进一步地，所述视觉问答模型包括：融合部件、计算部件和池化部件。

在所述融合部件中，将所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量输入并进行线性融合。

在所述计算部件中，计算每个所述携带有待回答问题信息的待识别图像特征向量和每个所述携带有待识别图像信息的待回答问题向量之间的关系值。

具体可参考上述视觉问答模型训练方法，此处不再赘述。

本申请一实施例所述的视觉问答方法，将样本图像特征信息和样本问题特征信息进行特征交叉处理后再输入到视觉问答模型中得到答案，得到的问题答案准确性更高且适用范围更加广泛。

如图6所示，一种视觉问答模型训练装置，包括：

获取模块610，被配置为获取训练样本和样本标签，所述训练样本包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案。

样本特征提取模块620，被配置为对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息。

样本第一处理模块630，被配置为将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量。

样本第二处理模块640，被配置为将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至视觉问答模型中通过所述视觉问答模型得到预测答案。

确定模块650，被配置为基于所述真实答案和所述预测答案确定损失函数的损失值。

更新模块660，被配置为通过所述损失函数的损失值对所述视觉问答模型进行更新。

可选地，所述样本特征提取模块620，进一步地被配置为：

提取所述样本图像中的特征，并将提取到的样本图像特征池化处理达到目标维度，得到所述样本图像特征信息。

可选地，所述样本第一处理模块630，进一步地被配置为：

将所述样本图像特征信息转换为样本图像特征矩阵，将所述样本问题特征信息转换为样本问题特征矩阵。

可选地，所述样本第一处理模块630，进一步地被配置为：

可选地，所述确定模块650，进一步地被配置为：

计算所述真实答案与所述预测答案之间的相似度。

可选地，所述更新模块660，进一步地被配置为：

判断所述损失函数的损失值是否大于预设期望值。

若所述损失函数的损失值大于预设期望值，则调整所述视觉问答模型的参数，更新所述视觉问答模型，并继续迭代训练。

本申请一实施例所述的一种视觉问答模型训练装置，可以有效提高视觉问答模型训练的效率及预测答案与预测答案之间的语义相近程度。

如图7所示，一种视觉问答装置，包括：

获取模块710，被配置为获取待识别图像和待回答问题。

特征提取模块720，被配置为对所述待识别图像和所述待回答问题分别进行特征提取，得到待识别图像特征信息和待回答问题特征信息。

第一处理模块730，被配置为将所述待识别图像特征信息和所述待回答问题特征信息进行特征交叉处理，得到携带有待回答问题信息的待识别图像特征向量和携带有待识别图像信息的待回答问题特征向量。

第二处理模块740，被配置为将所述携带有待回答问题信息的待识别图像特征向量和所述携带有待识别图像信息的待回答问题特征向量输入至预训练的视觉问答模型中进行处理，得到问题的答案。

可选地，所述第一处理模块730，进一步地被配置为：

将所述待识别图像特征信息转换为待识别图像特征矩阵，将所述待回答问题特征信息转换为待回答问题特征矩阵。

基于所述待识别图像特征矩阵和所述待回答问题特征矩阵，得到交叉特征矩阵。

可选地，所述视觉问答模型包括：融合部件、计算部件和池化部件。

本申请一实施例所述的一种视觉问答装置，基于待识别图像和待回答问题得到的问题答案准确性更高且适用范围更加广泛。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

获取训练样本和样本标签，所述训练样本包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案。

对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息。

将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量。

将所述携带有样本问题信息的样本图像特征向量和所述携带有样本图像信息的样本问题特征向量输入至所述视觉问答模型中通过视觉问答模型得到预测答案。

基于所述真实答案和所述预测答案确定损失函数的损失值。

通过所述损失函数的损失值对所述视觉问答模型进行更新。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上述视觉问答模型训练方法及视觉问答方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述任意方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视觉问答模型训练方法及视觉问答方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视觉问答模型训练方法，其特征在于，包括：

基于所述真实答案和所述预测答案确定损失函数的损失值；

通过所述损失函数的损失值对所述视觉问答模型进行更新。

2.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述对所述样本图像和所述样本问题分别进行特征提取，得到样本图像特征信息和样本问题特征信息，包括：

3.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述将所述样本图像特征信息和所述样本问题特征信息进行特征交叉处理，得到携带有样本问题信息的样本图像特征向量和携带有样本图像信息的样本问题特征向量，包括：

4.根据权利要求3所述的视觉问答模型训练方法，其特征在于，所述基于所述样本图像特征矩阵和所述样本问题特征矩阵，得到交叉特征矩阵，包括：

5.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述基于所述真实答案和所述预测答案确定损失函数的损失值，包括：

计算所述真实答案与所述预测答案之间的相似度；

6.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述通过所述损失函数的损失值对所述视觉问答模型进行更新，包括：

7.根据权利要求1所述的视觉问答模型训练方法，其特征在于，所述通过所述损失函数的损失值对所述视觉问答模型进行更新，包括：

判断所述损失函数的损失值是否大于预设期望值；

8.一种视觉问答方法，其特征在于，包括：

获取待识别图像和待回答问题；

9.根据权利要求8所述的视觉问答方法，其特征在于，所述将所述待识别图像特征信息和所述待回答问题特征信息进行特征交叉处理，得到携带有待回答问题信息的待识别图像特征向量和携带有待识别图像信息的待回答问题特征向量，包括：

10.根据权利要求8所述的视觉问答方法，其特征在于，所述视觉问答模型包括：融合部件、计算部件和池化部件；

11.一种视觉问答模型训练装置，其特征在于，包括：

样本获取模块，被配置为获取训练样本和样本标签，所述训练样本包括样本图像和样本问题，所述样本标签包括与所述样本图像和所述样本问题对应的真实答案；

12.根据权利要求11所述的视觉问答模型训练装置，其特征在于，所述样本特征提取模块，进一步地被配置为：

13.根据权利要求11所述的视觉问答模型训练装置，其特征在于，所述样本第一处理模块，进一步地被配置为：

14.根据权利要求13所述的视觉问答模型训练装置，其特征在于，所述样本第一处理模块，进一步地被配置为：

15.根据权利要求11所述的视觉问答模型训练装置，其特征在于，所述确定模块，进一步地被配置为：

计算所述真实答案与所述预测答案之间的相似度；

16.根据权利要求11所述的视觉问答模型训练装置，其特征在于，所述更新模块，进一步地被配置为：

17.根据权利要求11所述的视觉问答模型训练装置，其特征在于，所述更新模块，进一步地被配置为：

判断所述损失函数的损失值是否大于预设期望值；

18.一种视觉问答装置，其特征在于，包括：

获取模块，被配置为获取待识别图像和待回答问题；

19.根据权利要求18所述的视觉问答装置，其特征在于，所述第一处理模块，进一步地被配置为：

20.根据权利要求18所述的视觉问答装置，其特征在于，所述视觉问答模型包括：融合部件、计算部件和池化部件；

21.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1～7或者8～10任意一项所述方法的步骤。

22.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1～7或者8～10任意一项所述方法的步骤。