CN109902166A

CN109902166A - 视觉问答模型、电子设备及存储介质

Info

Publication number: CN109902166A
Application number: CN201910185125.9A
Authority: CN
Inventors: 黄剑辉; 乔敏; 黄苹苹; 朱勇; 吕雅娟; 李盈
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-06-18
Also published as: KR102403108B1; KR20200110154A; EP3709207A1; JP2020149685A; US20200293921A1

Abstract

本发明实施例公开了一种视觉问答模型、电子设备及存储介质，其中，所述视觉问答模型包括图像编码器和文本编码器；其中，所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理，以提取所述问题文本的语义表征向量；所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。本发明实施例通过使用池化方式处理文本向量，确保在视觉问答模型预测准确率损失不大的前提下，有效的提升了模型训练效率，更有益于工程上的使用。

Description

视觉问答模型、电子设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种视觉问答模型、电子设备及存储介质。

背景技术

视觉问答系统(Visual Question Answering以下简称VQA)是多模态融合的一种典型应用，例如，对于给定一张图，图中有一个穿红色衣服的击球手，如果提出相关的问题“what color shirt is the batter wearing？”，VQA模型需要结合图像信息和文本问题信息预测答案为“red”。这一过程主要涉及对图像和文本进行语义特征抽取，以及对抽取到的图像和文本两个模态的特征进行融合，因此VQA相关的模型的编码部分主要由文本编码器和图像编码器组成。

然而，由于需要同时涉及图像和文本编码器，VQA模型往往含有大量的需要训练的参数，这使得模型训练时间相当长。所以，如何在模型准确率损失不大的前提上，从工程上来精简模型，提高模型的训练效率成为目前亟需解决的技术问题。

发明内容

本发明实施例提供了一种视觉问答模型、电子设备及存储介质，以达到在视觉问答模型准确率损失不大的前提下，从工程上来精简模型，提高视觉问答模型的训练效率的目的。

第一方面，本发明实施例提供了一种视觉问答模型，包括图像编码器和文本编码器；

其中，所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理，以提取所述问题文本的语义表征向量；

所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。包括：

第二方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器运行如本发明任一实施例所述的视觉问答模型。

第三方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时运行如本发明任一实施例所述的视觉问答模型。

本发明实施例提供的一种视觉问答模型、电子设备及存储介质，在视觉问答模型中，通过利用池化处理方式对文本向量进行编码，达到精简视觉问答模型的目的，而且通过池化处理这种简单的编码方式，减少了视觉问答模型中需要进行训练的参数的数量，有效的提升了视觉问答模型训练效率，更有益于工程上的使用。

附图说明

图1是本发明实施例一提供的一种视觉问答模型的结构示意图；

图2是本发明实施例二提供的另一种视觉问答模型的结构示意图；

图3是本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种视觉问答模型，本实施例通过精简视觉问答模型以提升视觉问答模型训练效率，该模型可以在电子设备上运行，例如由计算机终端或服务器运行。

如图1所示，本发明实施例中提供的视觉问答模型可以包括：

文本编码器，用于通过对输入的问题文本的词向量序列做池化处理，以提取所述问题文本的语义表征向量。

其中，在对问题文本进行编码前，需要对问题文本进行预处理，示例性的，通过word2vec模型或glove模型对问题文本进行处理，得到该问题文本对应的词向量序列。而对问题文本进行编码，只需将该问题文本对应的词向量序列输入文本编码器，由文本编码器对问题文本的词向量序列做池化处理，即可提取问题文本的语义表征向量。在此需要说明的是，现有技术中通过LSTM(Long Short-Term Memory，长短期记忆网络)模型或Bi-LSTM(Bi-directional Long Short-Term Memory，双向LSTM)模型作为文本编码器。而本申请利用池化处理代替了LSTM模型或Bi-LSTM模型作为文本编码器，精简了视觉问答模型。

本实施例中，所述池化处理为最大化池化(maxPooling)处理，且所述最大化池化处理用如下公式表示：

f(w1,w2,……,wk)＝max([w1,w2,……,wk],dim＝1)

其中，f表示最大化池化处理函数；k为所述问题文本中所包含的词向量数目；wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量，i为[1,k]中的自然数；max([w1,w2,……,wk],dim＝1)表示词向量w1,w2,……,wk中，每个词向量对应维度取最大，其中，dim＝1是指维度，即表示对于给定的二维矩阵，按行取值。

示例性的，一个问题文本的词向量序列为通过上述公式对该词向量序列进行最大化池化处理后得到因此，即为该问题文本的语义表征向量。由此，通过最大化池化处理减少了视觉问答模型中需要进行训练的参数的数量，进而可提升视觉问答模型的训练效率。

此外，本发明实施例的视觉问答模型中的图像编码器，用于结合语义表征向量提取给定图像的图像特征。

由于图像中均包含背景和丰富的内容，因此为了确保机器更加关注与问题相关的图像内容进而提升问题回答的准确性，可采用视觉注意力机制(图1中的Attention)，通过Attention机制，图像编码器可通过结合文本编码器获得的问题文本对应的语义表征向量，锁定与该语义表征向量最相关的图像内容，并提取该图像内容的图像特征，得到图像特征向量，其中，图像编码器可采用卷积神经网络模型，例如Faster RCNN模型。

进一步的，如图1所示，该视觉问答模型还包括特征融合器(fusion)，用于对不同模态的特征进行融合，本实施例中，特征融合器用于将图像编码器输出的图像特征向量和文本编码器输出的语义表征向量进行融合，示例性的，可通过将图像特征向量和语义表征向量进行点乘运算的方式进行融合。

该视觉问答模型还包括分类器，所述分类器通过softmax函数(也称作归一化指数函数)对上述特征融合器输出的向量进行数值处理，得到不同答案之间的相对概率，并将相对概率最大值对应的答案输出。

针对上述视觉问答模型，在一种具体的实施方式中，以斯坦福人工智能实验室发布的数据集合Visual Genome作为训练样本数据和验证数据，且训练样本数据和验证数据可按2:1的比例随机划分，对该视觉问答模型进行训练与验证。该数据集合具体的数据统计如表1所示，每张图片含有一定数量的问题，并由人工标注给定答案。

表1

名称	数量
		图片数	108077
问题数	1445322

利用上述数据对本实施例提供的视觉问答模型进行训练和验证，具体的，可以在P40集群上运行该视觉问答模型，其中P40集群环境配置、模型基本参数如表2所示。而为了进行比较，同时对现有技术中以LSTM或Bi-LSTM作为文本编码器的视觉问答模型进行训练和验证，结果见表3。

由表3列出的验证结果可知，本发明实施例采用最大化池化处理作为文本编码器的视觉问答模型，相比于现有的采用LSTM或Bi-LSTM作为文本编码器的视觉问答模型，预测准确率损失仅仅0.5％左右，但缩短模型运行时间最大缩短了3小时，使得训练效率大幅提升。

表2

表3

文本编码器	运行时间	预测精度
			LSTM	7.5h	41.39％
Bi-LSTM	8.2h	41.36％
			maxPooling	5.2h	40.84％

本发明实施例中，视觉问答模型中通过利用池化处理方式对文本向量进行编码，达到精简视觉问答模型的目的，而且通过池化处理这种简单的编码方式，实现了在视觉问答模型预测准确率损失不大的前提下，有效的提升了视觉问答模型训练效率，更有益于工程上的使用。

实施例二

图2是本实施例提供的另一种视觉问答模型的结构示意图。如图2所示，视觉问答模型包括：

其中，所述池化处理为平均化池化处理，所述平均化池化处理(avgPooling)可用如下公式表示：

其中，p表示平均化池化处理函数；k为所述问题文本中所包含的词向量数目；wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量，i为[1,k]中的自然数；wi表示词向量w1,w2,……,wk中，每个词向量对应维度的数值之和。

示例性的，一个问题文本的词向量序列为通过上述公式对该词向量序列进行平均化池化处理后得到因此，即为该问题文本的语义表征向量。由此，通过平均化池化处理减少了视觉问答模型中需要进行训练的参数的数量，进而可提升视觉问答模型的训练效率。

进一步的，视觉问答模型还包括特征融合器和分类器，关于所述特征融合器和分类器详见上述实施例，在此不再赘述。

针对本实施例的视觉问答模型，通过上述实施例中的Visual Genome数据集合在上述实施例所述的P40集群上进行训练和验证，同时对现有技术中以LSTM或Bi-LSTM作为文本编码器的视觉问答模型进行训练验证，结果见表4。

表4

文本编码器	运行时间	预测精度
			LSTM	7.5h	41.39％
Bi-LSTM	8.2h	41.36％
			avgPooling	5.8h	40.96％

由表4可知，本发明实施例采用平均化池化处理作为文本编码器的视觉问答模型，相比于现有的采用LSTM或Bi-LSTM作为文本编码器的视觉问答模型，预测准确率损失0.4％左右，但缩短模型运行时间最大缩短了2.4小时，提升了训练效率。

本发明实施例中，视觉问答模型中通过利用平均化池化处理方式对文本向量进行编码，达到精简视觉问答模型的目的，而且通过平均化池化处理这种简单的编码方式，实现了在视觉问答模型预测准确率损失不大的前提下，有效的提升了视觉问答模型训练效率，更有益于工程上的使用。

实施例三

图3为本发明实施例三提供的电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理器16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如运行本发明实施提供的视觉问答模型，该视觉问答模型包括：

图像编码器和文本编码器；

所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。

实施例四

本发明实施例四中提供一种包含计算机可读的存储介质，存储本发明实施例提供的视觉问答模型，并由计算机处理器运行，其中，所述视觉问答模型包括：

图像编码器和文本编码器；

当然，本发明实施例中所提供的一种计算机可读存储介质还可以执行本发明任意实施例中所提供的视觉问答模型。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视觉问答模型，其特征在于，所述视觉问答模型包括图像编码器和文本编码器；

2.根据权利要求1所述的模型，其特征在于，所述文本编码器具体用于：

通过对输入的问题文本的词向量序列做最大化池化处理，或平均化池化处理，以提取所述问题文本的语义表征向量。

3.根据权利要求2所述的模型，其特征在于，所述最大化池化处理用如下公式表示：

f(w1,w2,……,wk)＝max([w1,w2,……,wk],dim＝1)

其中，f表示最大化池化处理函数；k为所述问题文本中所包含的词向量数目；wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量，i为[1,k]中的自然数；max([w1,w2,……,wk],dim＝1)表示词向量w1,w2,……,wk中，每个词向量对应维度取最大值。

4.根据权利要求2所述的模型，其特征在于，所述平均化池化处理用如下公式表示：

其中，p表示平均化池化处理函数；k为所述问题文本中所包含的词向量数目；wi为利用预先训练的词向量模型对所述问题文本进行处理并得到的第i个词向量，i为[1,k]中的自然数；表示词向量w1,w2,……,wk中，每个词向量对应维度的数值之和。

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器运行如权利要求1-4中任一所述的视觉问答模型。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时运行如权利要求1-4中任一所述的视觉问答模型。