CN113656570A

CN113656570A - 基于深度学习模型的视觉问答方法及装置、介质、设备

Info

Publication number: CN113656570A
Application number: CN202110980645.6A
Authority: CN
Inventors: 谯轶轩; 陈浩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-16
Anticipated expiration: 2041-08-25
Also published as: WO2023024412A1; CN113656570B

Abstract

本发明提供了一种基于深度学习模型的视觉问答方法及装置、介质、设备，其中，该方法包括：利用预训练语言模型T5构架建立视觉问答模型；其中，视觉问答模型包括编码器子模型和解码器子模型；获取图像数据和问题数据，输入至视觉问答模型，利用视觉问答模型中的编码器子模型在预设分类类别中匹配得到问题数据对应的分类式第一答案；利用视觉问答模型中的解码器子模型结合常见字词表得到生成式第二答案；计算第一答案和第二答案对应的预测概率，以选取第一答案和/或第二答案作为目标答案并输出。通过本发明，视觉问答的最终答案既可以是常见类别匹配的也可以是自动生成的，根据预测概率的高低选取输出答案，提高了结果准确率。

Description

基于深度学习模型的视觉问答方法及装置、介质、设备

技术领域

本发明涉及人工智能领域，特别是一种基于深度学习模型的视觉问答方法及装置、介质、设备。

背景技术

视觉问答(Visual Question Answering，VQA)是一个需要同时理解文本和视觉的热门领域。需要计算机算法构建的模型有一定的推理能力，相比传统计算机视觉任务有更高的要求。视觉问答是一个能够回答关于图像的自然语言问题的系统，一直深受前沿技术研究和领域工程的追捧。

目前主流视觉问答模型主要采用判别式模型，即分类模型，通过采用深度学习领域常见的分类模型对答案的类别进行预测，有以下几点缺陷：类别是预先定义好的，模型能给出的答案无法超过给定的类别，从而影响了最终结果的准确性，但这一类错误是由于模型的设计所造成的，模型或许已经学习到了所需信息，只不过最终的类别对其进行了限制；预先定义的类别数量是巨大的，至少大于常见的3K个类别，有些大型互联网公司设置的类别甚至会超过几十万，如此大规模的类别容易造成对常见类别模型的学习较为充分，非常见类别很少被模型学习，导致对其预测不准确，且严重影响了模型的训练效率以及后期业务上线的部署难度。

发明内容

鉴于上述问题，本发明提出了一种基于深度学习模型的视觉问答方法及装置、介质、设备。本发明提供的视觉问答方法除了具备能从常见类别预测的能力，也可以自己生成所需要的答案，且模型可以根据分数高低有选择的决定最终答案是常见类别匹配的还是自动生成的，实现了自动化的生成式视觉问答、提高了视觉问答结果准确率。

依据本发明第一方面，提供了一种基于深度学习模型的视觉问答方法，包括：

利用预训练语言模型T5构架建立视觉问答模型；其中，所述视觉问答模型包括编码器子模型和解码器子模型；

获取图像数据和问题数据；将所述图像数据和所述问题数据输入至所述视觉问答模型，利用所述视觉问答模型中的所述编码器子模型在预设分类类别中匹配得到所述问题数据对应的分类式第一答案；

利用所述视觉问答模型中的所述解码器子模型结合常见字词表得到所述问题数据对应的生成式第二答案；

分别计算所述第一答案和所述第二答案对应的预测概率，以选取所述第一答案和/或所述第二答案作为所述问题数据对应的目标答案并输出。

可选地，所述利用所述视觉问答模型中的所述编码器子模型在预设分类类别中匹配得到所述问题数据对应的分类式第一答案，包括：

将所述图像数据输入至基于深度学习的目标检测Faster R-CNN模型，抽取所述图像对应的图像特征和图像特征类别，并将所述图像特征和所述图像特征类别转换为具有第一向量维度的图像特征向量和具有第二向量维度的图像特征类别向量；

对所述问题数据进行文本分词处理，得到文本元素，利用预设的词向量模型将所述文本元素转换为具有第二向量维度的文本元素向量；

将所述图像特征向量、所述文本元素向量和所述图像特征类别向量输入至所述编码器子模型，利用所述编码子模型器拼接所述图像特征向量、所述文本元素向量和所述图像特征类别向量，得到向量矩阵；

选取所述向量矩阵中最后一层的最后一个目标向量，通过所述编码器子模型的全连接层将所述目标向量转换为目标维度，通过softmax操作得到预设分类类别中每个类别的预测概率，选取所述预测概率最大的类别作为所述分类式第一答案；其中，所述目标维度为预设的分类类别数，选用大于1的自然数。

可选地，所述利用所述视觉问答模型中的所述解码器子模型结合常见字词表得到所述问题数据对应的生成式第二答案，包括：

将所述编码器子模型中的所述目标向量输入至训练后的解码器子模型，并结合常见字词表生成所述目标向量对应的输出答案，作为所述生成式第二答案；

其中，所述编码器子模型为基于深度学习的神经网络pytorch框架预先利用随机梯度下降算法进行训练的模型。

可选地，所述分别计算所述第一答案和所述第二答案对应的预测概率，以选取所述第一答案和/或所述第二答案作为所述问题数据对应的目标答案并输出，包括：

利用softmax函数分别计算所述第一答案对应的第一预测概率和所述第二答案对应的第二预测概率；

比较所述第一预测概率和所述第二预测概率的大小，若所述第一预测概率大于所述第二预测概率，则将所述第一答案作为目标答案并输出；若所述第一预测概率小于所述第二预测概率，则将所述第二答案作为目标答案并输出；若所述第一预测概率等于所述第二预测概率，则将所述第一答案和所述第二答案作为目标答案并同时输出；或，

计算所述第一预测概率和所述第二预测概率的差值，若所述差值大于等于预设值，则比较所述第一预测概率和所述第二预测概率大小，选取所述预测概率更大的预测答案作为目标答案并输出；若所述差值小于预设值，则将所述第一答案和所述第二答案作为目标答案，并同时输出所述第一答案及对应的第一预测概率和所述第二答案及对应的第二预测概率；或，将所述第一答案作为目标答案并输出；或，将所述第二答案作为目标答案并输出。

可选地，所述利用所述编码子模型器拼接所述图像特征向量、所述文本元素向量和所述图像特征类别向量，包括：

分别通过所述编码器子模型中的全连接层将所述具有第一向量维度的图像特征向量和所述具有第二向量维度的文本元素向量、图像特征类别向量转换为具有相同的第三向量维度的图像特征向量、文本元素向量和图像特征类别向量；

将具有第三向量维度的所述图像特征类别向量、所述图像特征向量和所述文本元素向量按照预设的拼接顺序进行拼接，其中，具有所述第三向量维度的所述图像特征类别向量和所述图像特征向量按照拼接顺序相互对应。

可选地，所述对所述问题数据进行文本分词处理，得到文本元素，包括：

判断所述问题数据为英文或中文；

若所述问题数据为英文，利用空格进行文本分词，得到英文类型的文本元素；

若所述问题数据为中文，利用分词模型进行文本分词，句首添加第一标记表示开始，句末添加第二标记表示结束，得到中文类型的文本元素。

可选地，所述方法还包括：

利用随机梯度下降算法对所述解码器子模型进行训练，具体包括：

计算所述视觉问答模型的交叉熵损失，利用随机梯度下降算法最小化所述交叉熵损失；其中，所述所述视觉问答模型的交叉熵损失为所述编码器子模型的交叉熵函数和所述解码器子模型的交叉熵损失的和，计算公式为：

L＝L₁+L₂

其中，L为所述视觉问答模型的交叉熵损失，L₁为所述编码器子模型的交叉熵函数，L₂为所述解码器子模型的交叉熵损失；K为样本数，M_i为第i个样本的预测概率向量，Y_i为第i个样本对应的one-hot编码，l表示向量的第l维；N为输出答案的字符数，M_ij为第个i样本的输出答案对应的第j个字符的预测概率向量，Y_ij为第个M_ij样本的输出答案对应的第j个字符对应的one-hot编码，l表示向量的第l维。

依据本发明第二方面，提出了一种基于深度学习模型的视觉问答装置，包括：

视觉问答模型建立模块，用于利用预训练语言模型T5构架建立视觉问答模型；其中，所述视觉问答模型包括编码器子模型和解码器子模型；

第一答案匹配模块，用于获取图像数据和问题数据，将所述图像数据和所述问题数据输入至所述视觉问答模型，利用所述视觉问答模型中的所述编码器子模型在预设分类类别中匹配得到所述问题数据对应的分类式第一答案；

第二答案生成模块，用于利用所述视觉问答模型中的所述解码器子模型结合常见字词表得到所述问题数据对应的生成式第二答案；

目标答案输出模块，用于分别计算所述第一答案和所述第二答案对应的预测概率，以选取所述第一答案和/或所述第二答案作为所述问题数据对应的目标答案。

依据本发明第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一项所述的基于深度学习模型的视觉问答方法的步骤。

依据本发明第四方面，提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面任一项所述的基于深度学习模型的视觉问答方法的步骤。

本发明提供的一种基于深度学习模型的视觉问答方法及装置、介质、设备，通过利用T5模型构架建立包括编码器子模型和解码器子模型的视觉问答模型，接收输入的图像数据和问题数据，基于预设分类类别利用编码器子模型根据图像数据和问题数据在预设分类类别中匹配得到分类式第一答案，基于常见字词表利用解码器子模型根据图像数据和问题数据自动输出生成式第二答案，选取第一答案和/或第二答案作为视觉问答模型的目标答案。本发明提供的视觉问答方法既可以通过分类类别预测，也可以自动生成答案，根据预测概率高低对两种预测方法进行评估，能够适应实际需求输出最终答案，实现了自动化、灵活化的生成式视觉问答，大大提高了视觉问答的结果准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一实施例提供的基于深度学习模型的视觉问答方法的流程示意图；

图2示出了本发明一实施例提供的编码器子模型的预测流程示意图；

图3示出了本发明一实施例提供的向量拼接的简要示意图；

图4示出了本发明一实施例提供的基于深度学习模型的视觉问答装置的结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于深度学习模型的视觉问答方法，如图1所示，该方法至少可以包括以下步骤S101～S104。

步骤S101，利用预训练语言模型T5构架建立视觉问答模型。

其中，视觉问答模型包括编码器子模型和解码器子模型，用于根据输入的图像数据和问题数据生成目标答案。

本发明实施例中选用的预训练模型构架为Google提出的基于深度学习网络技术的T5(Transfer Text-to-Text Transformer)模型，基于基础的Transformer(深度自注意力网络)架构进行构建，是一个序列到序列(sequence-to-sequence)的模型，包含编码器(encoder)子模型和解码器(decoder)子模型两个模块。其中，编码器子模型和解码器子模型使用包含在T5模型中的Multi-layer transformer(多层深度自注意力网络)进行构建。

其中，T5模型为整个神经语言程序学(Neuro-Linguistic Programming，NLP)的预训练模型领域提供了一个通用框架，将所有的NLP任务都转换成Text-to-Text形式，也就可以用同样的模型，同样的损失函数，同样的训练过程，同样的解码过程来完成所有NLP任务。用于本发明涉及的视觉问答过程中，基于T5模型构架建立的视觉问答模型包括编码器子模型和解码器子模型，编码器子模型和解码器子模型分别对应根据预设分类类别生成答案和根据常见字词表自动生成视觉问答答案。通过两种不同方法生成两种不同的视觉问答结果，可以根据实际需要选取视觉问答结果作为最终输出答案。

步骤S102，获取图像数据和问题数据，将图像数据和问题数据输入至视觉问答模型，利用视觉问答模型中的编码器子模型在预设分类类别中匹配得到问题数据对应的分类式第一答案。

视觉问答是一种对视觉图像的自然语言问答，通过视觉理解连接着图像和语言，在理解图像的基础上，根据具体的问题做出回答。本发明中获取的图像数据和问题数据为待处理视觉问答中的图片数据及对应的问题数据。

本发明中构建的编码器子模型是一种基于Multi-layer transformer(多层深度自注意力网络)架构的模型，可以在预设分类类别中匹配得到问题数据对应的分类式第一答案；其中，第一答案为预设分类类别中所包含的答案。

进一步地，利用视觉问答模型中的编码器子模型在预设分类类别中匹配得到问题数据对应的分类式第一答案，可以包括以下步骤S102-1～S102-4。

步骤S102-1：将图像数据输入至基于深度学习的目标检测Faster R-CNN模型，抽取图像对应的图像特征和图像特征类别，并将图像特征和图像特征类别转换为具有第一向量维度的图像特征向量和具有第二向量维度的图像特征类别向量。

Faster R-CNN模型是一种基于深度信息的目标检测模型。对于输入的图片，通过开源的Faster R-CNN模型可以对每张图片抽取相应的图像特征和图像特征类别，例如，一张图像中包含一只猫和一只狗，这张图像可以抽取猫和狗的图像两个不同的图像特征，以及“猫”和“狗”两个不同的图像特征类别，Faster R-CNN模型还可以输出将图像特征对应的图像特征向量，维度为2048维；图像特征类别对应的图像特征类别向量，维度为300维。

步骤S102-2：对问题数据进行文本分词处理，得到文本元素，利用预设的词向量模型将文本元素转换为具有第二向量维度的文本元素向量。

可选地，对问题进行文本分词处理，得到文本元素，具体可以先判断问题数据为英文或中文；若问题数据为英文，利用空格进行文本分词，得到英文类型的文本元素；若问题数据为中文，利用分词模型进行文本分词，句首添加第一标记表示开始，句末添加第二标记表示结束，得到中文类型的文本元素。

在本发明实施例中，当问题数据为中文时，利用jieba分词模型对文本进行分词处理，jieba分词模型是一种可以将句子最精确地切开，把句子中所有的可以成词的词语都扫描出来，以适应文本分析的分词方法。还可以通过在句首添加的第一标记可以为通用的[CLS]标记，在句尾添加的第二标记可以为通用的[SEP]标记以对中文文本进行分句。在对问题数据进行文本处理之后，每个分词及添加元素都可以作为文本元素。GloVe词向量是一种基于语言模型例如神经网络语言模型捕捉词语的语法和语义信息，将词文本使用词向量进行表示的方法。本发明中，可以通过预先训练好的GloVe词向量模型将上述分词后的每个文本元素转换为300维的文本元素向量。

步骤S102-3：将图像特征向量、文本元素向量和图像特征类别向量输入至编码器子模型，利用编码子模型器拼接图像特征向量、文本元素向量和图像特征类别向量，得到向量矩阵。

可选地，利用编码子模型器按照向量维度拼接图像特征向量、文本元素向量和图像特征类别向量，具体可以通过以下方法：分别通过编码器子模型中的全连接层将具有第一向量维度的图像特征向量和具有第二向量维度的文本元素向量、图像特征类别向量转换为具有相同的第三向量维度的图像特征向量、文本元素向量和图像特征类别向量；将具有第三向量维度的图像特征类别向量、图像特征向量和文本元素向量按照预设的拼接顺序进行拼接，其中，具有第三向量维度的图像特征类别向量和图像特征向量按照拼接顺序相互对应。

本发明实施例中的编码器子模型采用Multi-layer transformer(多层深度自注意力网络)模型架构，通过全连接层将图像特征向量、文本元素向量、图像特征类别向量转化为相同维度，例如，文本元素向量和图像特征类别向量为300维，图像特征向量为2048维，通过全连接层将图像特征向量、文本元素向量、图像特征类别向量转化为相同的1024维度，以便于后续拼接。其中将特征类别标签拼接到1.1拼接成的文本向量后。如图2所示，对于向量的拼接，可以按照文本元素向量、图片特征类别向量和图片特征向量的顺序来进行。例如，第1-4位的为问题文本对应的向量，5-11位为图片特征类别向量，12-18对应图片特征向量，图片特征类别向量和图片特征向量一一对应，即第5位的图片特征类别对应第12位的图片特征向量,第6位的图片特征类别对应第13位的图片特征向量等。

步骤S102-4：选取向量矩阵中最后一层的最后一个目标向量，通过编码器子模型的全连接层将目标向量转换为目标维度，通过softmax操作得到预设分类类别中每个类别的预测概率，选取预测概率最大的类别作为分类式第一答案；其中，目标维度为预设的分类类别数，选用大于1的自然数。

本发明实施例中的分类类别数可以根据实际情况进行自定义。例如，设置分类类别数为3000。选取向量矩阵中量最具特征权重的最后一层的最后一个目标向量，将目标向量转化为目标维度3000维，通过softmax操作将预设的分类类别进行数学归一化处理，将分类类别映射为0-1之间的实数且和为1，并对3000个分类类别进行概率预测，和也刚好为1。其中，预测概率最大的类别对应的交叉商损失最小，则为编码器输出的第一答案。通过利用编码器子模型对视觉问答进行预测，匹配预测概率尽可能大的预测答案作为第一答案，提高了的视觉问答的结果准确率。

步骤S103，利用视觉问答模型中的解码器子模型结合常见字词表得到问题数据对应的生成式第二答案。

本发明中构建的解码器子模型与编码器子模型相同，是一种基于Multi-layertransformer(多层深度自注意力网络)架构的模型，利用常见字词表根据输入的图像数据和问题数据自动生成第二答案，其中，第二答案可以为根据常见字词表组合构造的多种类别。

其中，编码器子模型为基于深度学习的神经网络pytorch框架预先利用随机梯度下降算法进行训练的模型。

本发明实施例中，可以通过pytorch框架利用随机梯度下降算法对解码器子模型进行训练，pytorch构架可以理解为一种深度学习编程语言，随机梯度下降算法是(SGD)在神经网络模型训练中，是一种很常见的优化算法。这种算法是基于梯度下降算法产生的，可以作为一种参数更新的策略，能够更好更快的对解码器子模型进行参数更新，生成达到所需的性能要求的模型。

可选地，利用随机梯度下降算法对解码器子模型进行训练具体可以包括：

计算视觉问答模型的交叉熵损失，利用随机梯度下降算法最小化交叉熵损失；其中，视觉问答模型的交叉熵损失为编码器子模型的交叉熵函数和解码器子模型的交叉熵损失的和，计算公式为：

L＝L₁+L₂

其中，L为视觉问答模型的交叉熵损失，L₁为编码器子模型的交叉熵函数，L₂为解码器子模型的交叉熵损失；

其中，K为样本数，M_i为第i个样本的预测概率向量，Y_i为第i个样本对应的one-hot编码，l表示向量的第l维；

其中，K为样本数，N为输出答案的字符数，M_ij为第个i样本的输出答案对应的第j个字符的预测概率向量，Y_ij为第个M_ij样本的输出答案对应的第j个字符对应的one-hot编码，l表示向量的第l维。

本发明中，通过融合编码器的分类类别损失和解码器顿时作为视觉问答模型的损失函数，当损失函数值最小时，则得到参数最优化的解码器子模型。

进一步地，将编码器子模型中的目标向量输入至训练后的解码器子模型，并结合常见字词表生成目标向量对应的输出答案，作为第二答案。

利用解码器子模型接收编码器子模型中的目标向量，根据输出答案的输出答案的字符数分轮次进行模型预测，直得到最终答案。以最终答案包含三个字符的模型预测为例，过程如图3所示：

第一轮，输入目标向量h，通过模型预测得到h对应位置输出的第一个字符y1；

第二轮，模型输入[h,y1],通过模型预测得到y1对应位置输出的第二个字符y2；

第三轮，模型输入[h,y1,y2],通过模型预测得到y2对应位置输出的第三个字符y3；

第四轮，模型输入[h,y1,y2,y3],通过模型预测得到y3对应位置的输出“结束”字符；

一旦模型输出“结束”字符，则终止模型预测，得到的[y1,y2,y3]作为输出结果，作为第二答案。例如，最终答案为“加菲猫”，第一轮h对应位置输出的第一个字符为“加”，第二轮模型输入[h,加]，y1对应位置输出的第二个字符为“菲”；第三轮模型输入[h,加，菲]，y2对应位置输出的第三个字符为“猫”；第四轮模型输入[h,加，菲，猫]，y3对应位置的输出“结束”字符。得到[加菲猫]为最终输出的第二答案。

其中，目标向量h为向量矩阵中量最具特征权重的最后一层的最后一个向量，解码器子模型利用常见字作为词表，常见字大约有8K个左右，通过多轮次预测，可以构造出无穷多的类别，自动生成答案，不局限于预设的分类类别。本发明实施例提出的视觉问答模型可以自动生成所需类别，克服了匹配有限的分类类别的局限性，进一步提高了视觉问答的结果准确率。

步骤S104：分别计算第一答案和第二答案对应的预测概率，以选取第一答案和/或第二答案作为问题数据对应的目标答案并输出。

具体的，可以利用softmax函数分别计算第一答案对应的第一预测概率和第二答案对应的第二预测概率。

softmax算法一般用于多分类场景，可以把神经元的输出映射到(0-1)之间的实数，并且归一化保证和为1，从而使得多分类的预测概率之和也刚好为1。使得经过softmax后的输出为每个类别的预测概率，并且各个预测概率的和为1。softmax的计算过程为某个元素的指数与所有元素指数和的比值。

可选地，选取第一答案和/或第二答案作为问题数据对应的目标答案并输出，具体可以通过以下步骤：

比较第一预测概率和第二预测概率大小，若第一预测概率大于第二预测概率，则将第一答案作为目标答案并输出；若第一预测概率小于第二预测概率，则将第二答案作为目标答案并输出；若第一预测概率等于第二预测概率，则将第一答案和第二答案作为目标答案并同时输出；或，

计算第一预测概率和第二预测概率的差值，若差值大于等于预设值，则比较第一预测概率和第二预测概率大小，选取预测概率更大的预测答案作为目标答案并输出；若差值小于预设值，则将第一答案和第二答案作为目标答案，并同时输出第一答案及对应的第一预测概率和第二答案及对应的第二预测概率，也可以直接输出第一答案或第二答案作为目标答案并输出。

本发明实施例中最终生成的预测答案包括根据分类类别模型匹配的分类式第一答案和根据生成式模型自动输出的生成式第二答案，预测概率越大，预测答案越接近真实值，因此，可以将预测概率更大的预测答案作为最终的目标答案并输出展示。当两者预测概率相同时，可以同时输出第一答案和第二答案供参考选择。也可以设置预设差值，若两者预测概率差值大于等于预测差值，说明预测概率大的预测答案更具有接近真实值的说服力，若两者预测差值小于预测差值，说明两个预测答案的预测概率差别不大，可以根据输出其中任一或同时输出两者作为最终的目标答案供参考选择。

本发明实施例提供的基于深度学习模型的视觉问答方法，通过利用T5模型构架建立包括编码器子模型和解码器子模型的视觉问答模型，接收输入的图像数据和问题数据，基于预设分类类别利用编码器子模型根据图像数据和问题数据在预设分类类别中匹配得到分类式第一答案，基于常见字词表利用解码器子模型根据图像数据和问题数据自动输出生成式第二答案，选取第一答案和/或第二答案作为视觉问答模型的目标答案。本发明提供的视觉问答方法既可以通过分类类别预测，也可以自动生成答案，无需设置大规模的分类类别数量也可以完成视觉问答，一定程度上消除了由于分类类别数过大造成的非常见类别预测不准确的影响，还可以根据预测概率高低对两种预测方法进行评估，能够适应实际需求输出最终答案，实现了自动化、灵活化的生成式视觉问答，突破传统模型给出答案无法超出预设分类类别的影响，进一步提高了最终结果的准确性。

进一步地，作为图1的具体实现，本发明实施例提供了一种基于深度学习模型的视觉问答装置，如图4所示，该装置可以包括：视觉问答模型建立模块410、第一答案匹配模块420、第二答案生成模块430和目标答案输出模块440。

视觉问答模型建立模块410，可以用于利用预训练语言模型T5构架建立视觉问答模型；其中，视觉问答模型包括编码器子模型和解码器子模型。

第一答案匹配模块420，可以用于获取图像数据和问题数据，将图像数据和问题数据输入至视觉问答模型，利用视觉问答模型中的编码器子模型在预设分类类别中匹配得到问题数据对应的分类式第一答案。

第二答案生成模块430，可以用于利用视觉问答模型中的解码器子模型结合常见字词表得到问题数据对应的生成式第二答案。

目标答案输出模块440，可以用于分别计算第一答案和第二答案对应的预测概率，以选取第一答案和/或第二答案作为问题数据对应的目标答案并输出。

可选地，第一答案匹配模块420，还可以用于将图像数据输入至基于深度学习的目标检测Faster R-CNN模型，抽取图像对应的图像特征和图像特征类别，并将图像特征和图像特征类别转换为具有第一向量维度的图像特征向量和具有第二向量维度的图像特征类别向量；

对问题数据进行文本分词处理，得到文本元素，利用预设的词向量模型将文本元素转换为具有第二向量维度的文本元素向量；

将图像特征向量、文本元素向量和图像特征类别向量输入至编码器子模型，利用编码子模型器拼接图像特征向量、文本元素向量和图像特征类别向量，得到向量矩阵；

选取向量矩阵中最后一层的最后一个目标向量，通过编码器子模型的全连接层将目标向量转换为目标维度，通过softmax操作得到预设分类类别中每个类别的预测概率，选取预测概率最大的类别作为分类式第一答案；其中，目标维度为预设的分类类别数，选用大于1的自然数。

可选地，第二答案生成模块430，还可以用于将编码器子模型中的目标向量输入至训练后的解码器子模型，并结合常见字词表生成目标向量对应的输出答案，作为第二答案；

其中，解码器子模型为基于深度学习的神经网络pytorch框架预先利用随机梯度下降算法对进行训练的模型。

可选地，目标答案输出模块440，还可以用于利用softmax函数分别计算第一答案对应的第一预测概率和第二答案对应的第二预测概率；

比较第一预测概率和第二预测概率的大小，若第一预测概率大于第二预测概率，则将第一答案作为目标答案并输出；若第一预测概率小于第二预测概率，则将第二答案作为目标答案并输出；若第一预测概率等于第二预测概率，则将第一答案和第二答案作为目标答案并同时输出；或，

计算第一预测概率和第二预测概率的差值，若差值大于等于预设值，则比较第一预测概率和第二预测概率大小，选取预测概率更大的预测答案作为目标答案并输出；若差值小于预设值，则将第一答案和第二答案作为目标答案，并同时输出第一答案及对应的第一预测概率和第二答案及对应的第二预测概率；或，将第一答案作为目标答案并输出；或，将第二答案作为目标答案并输出。

可选地，第一答案匹配模块420，还可以用于分别通过编码器子模型中的全连接层将具有第一向量维度的图像特征向量和具有第二向量维度的文本元素向量、图像特征类别向量转换为具有相同的第三向量维度的图像特征向量、文本元素向量和图像特征类别向量；

将具有第三向量维度的图像特征类别向量、图像特征向量和文本元素向量按照预设的拼接顺序进行拼接，其中，具有第三向量维度的图像特征类别向量和图像特征向量按照拼接顺序相互对应。

可选地，第一答案匹配模块420，还可以用于判断问题数据为英文或中文；

若问题数据为英文，利用空格进行文本分词，得到英文类型的文本元素；

若问题数据为中文，利用分词模型进行文本分词，句首添加第一标记表示开始，句末添加第二标记表示结束，得到中文类型的文本元素。

可选地，第二答案生成模块430，还可以用于利用随机梯度下降算法对解码器子模型进行训练，具体包括：计算视觉问答模型的交叉熵损失，利用随机梯度下降算法最小化交叉熵损失；其中，视觉问答模型的交叉熵损失为编码器子模型的交叉熵函数和解码器子模型的交叉熵损失的和，计算公式为：

L＝L₁+L₂

其中，L为视觉问答模型的交叉熵损失，L₁为编码器子模型的交叉熵函数，L₂为解码器子模型的交叉熵损失；K为样本数，M_i为第i个样本的预测概率向量，Y_i为第i个样本对应的one-hot编码，l表示向量的第l维；N为输出答案的字符数，M_ij为第个i样本的输出答案对应的第j个字符的预测概率向量，Y_ij为第个M_ij样本的输出答案对应的第j个字符对应的one-hot编码，l表示向量的第l维。

需要说明的是，本发明实施例提供的一种基于深度学习模型的视觉问答装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例的基于深度学习模型的视觉问答方法的步骤。

基于上述如图1所示方法和如图4所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备可以包括通信总线、处理器、存储器和通信接口，还可以包括、输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例的基于深度学习模型的视觉问答方法的步骤。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种基于深度学习模型的视觉问答方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述视觉问答模型中的所述编码器子模型在预设分类类别中匹配得到所述问题数据对应的分类式第一答案，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述视觉问答模型中的所述解码器子模型结合常见字词表得到所述问题数据对应的生成式第二答案，包括：

将所述编码器子模型中的所述目标向量输入至解码器子模型，并结合常见字词表生成所述目标向量对应的输出答案，作为所述生成式第二答案；

其中，所述解码器子模型为基于深度学习的神经网络pytorch框架预先利用随机梯度下降算法进行训练的模型。

4.根据权利要求1所述的方法，其特征在于，所述分别计算所述第一答案和所述第二答案对应的预测概率，以选取所述第一答案和/或所述第二答案作为所述问题数据对应的目标答案并输出，包括：

5.根据权利要求2所述的方法，其特征在于，所述利用所述编码子模型器拼接所述图像特征向量、所述文本元素向量和所述图像特征类别向量，包括：

6.根据权利要求2所述的方法，其特征在于，所述对所述问题数据进行文本分词处理，得到文本元素，包括：

判断所述问题数据为英文或中文；

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

L＝L₁+L₂

8.一种基于深度学习模型的视觉问答装置，其特征在于，包括：

目标答案输出模块，用于分别计算所述第一答案和所述第二答案对应的预测概率，以选取所述第一答案和/或所述第二答案作为所述问题数据对应的目标答案并输出。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于深度学习模型的视觉问答方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于深度学习模型的视觉问答方法的步骤。