CN111814843A

CN111814843A - 视觉问答系统中图像特征模块端到端训练方法及应用

Info

Publication number: CN111814843A
Application number: CN202010563278.5A
Authority: CN
Inventors: 王瀚漓; 龙宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-03-23
Filing date: 2020-06-19
Publication date: 2020-10-23
Anticipated expiration: 2040-06-19
Also published as: CN111814843B

Abstract

本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用，所述训练方法包括：获取视觉问答模型的初始模型参数；获取训练图像和对应的训练文本序列；对所述训练图像进行图像特征抽取，并对所述训练文本序列进行文本特征提取；对所述图像特征和文本特征进行特征融合，生成融合特征，基于所述融合特征生成输出答案；基于所述输出答案与所述训练图像的初始答案计算答案误差；在所述视觉问答模型的其他部分优化方法不变的前提下，基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比，本发明具有效果显著、实现简单等优点。

Description

视觉问答系统中图像特征模块端到端训练方法及应用

技术领域

本发明涉及一种模型训练方法，尤其是涉及一种视觉问答系统中图像特征模块端到端训练方法及应用。

背景技术

随着移动设备的大量普及和人民需求的日渐提升，呈现给每个人的各类视觉数据均呈现爆炸式增长，人们对于可解答疑惑的视觉问答系统的需求不断攀升。视觉问答系统旨在根据人们的需求描述帮助完成对视觉信息的解读，涉及到问题的理解、物体的检索、定位和推理。相较于其他的跨模任务如视觉描述，视觉问答任务的发展仍然受限于无限的搜索空间与不完备的训练数据的矛盾、数据特征抽取不明确、统计推理与实际推理的矛盾和推理难度与数据量大小的矛盾等。

视觉问答任务中，图像特征抽取的不明确又加大了数据量大小的矛盾，从而加大了推理难度，因此图像特征的抽取是目前需要面对的一个重要问题。现有方法通常仅通过使用更强大的图像特征抽取模型，如从ResNet转为Faster-RCNN，模型复杂，实现难度提高。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种提高准确率、实现简单的视觉问答系统中图像特征模块端到端训练方法及应用。

本发明的目的可以通过以下技术方案来实现：

一种视觉问答系统中图像特征模块端到端训练方法，所述视觉问答系统基于视觉问答模型实现，所述视觉问答模型包括图像特征模块、时序神经网络、融合推理模块和答案生成模块，所述训练方法包括：

获取视觉问答模型的初始模型参数；

获取训练图像和对应的训练文本序列；

对所述训练图像进行图像特征抽取，并对所述训练文本序列进行文本特征提取；

对所述图像特征和文本特征进行特征融合，生成融合特征，基于所述融合特征生成输出答案；

基于所述输出答案与所述训练图像的初始答案计算答案误差；

在所述视觉问答模型的其他部分优化方法不变的前提下，基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。

进一步地，所述获取视觉问答模型的初始模型参数中，以预训练过的卷积神经网络模型作为图像特征模块，视觉问答模型的其他部分进行uniform随机初始化或读取预存储的模型参数。

进一步地，所述图像特征抽取中，以最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征。

进一步地，所述时序神经网络包括循环神经网络模组，所述训练文本序列逐步输入所述循环神经网络模组中，以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。

进一步地，所述特征融合具体为：

对所述图像特征和文本特征分别通过全连接层进行特征转换，生成两个同尺寸的隐层特征，对两个隐层特征进行点乘获得融合特征。

进一步地，所述特征融合具体为：

对所述图像特征和文本特征分别通过全连接层进行特征转换，生成两个不同尺寸的隐层特征，通过复制扩展将两个隐层特征的尺寸调整至相同，将调整后的两个隐层特征进行点乘生成融合隐层特征，以一个全连接层对所述融合隐层特征进行特征转换，并通过另一个全连接层生成注意力特征，将所述注意力特征与图像特征进行点乘融合生成最终的融合特征。

进一步地，所述答案生成模块包括用于进行特征转换的全连接层和进行分类的softmax层。

进一步地，所述参数调整过程中，以二阶动量优化方法对整体的视觉问答模型进行优化设定代数后，更改图像特征模块的优化方法为一阶优化方法，同时降低图像特征模块的学习率实现模型协同稳定收敛。

进一步地，所述图像特征模块的学习率降低为其他部分学习率的1/10。

本发明还提供一种视觉问答系统，该视觉问答系统所采用的视觉问答模型基于上述方法训练获得。

与现有技术相比，本发明具有如下有益效果：

1)本发明通过将图像特征模块融入整体模型的训练过程，达成图像特征的针对性抽取，使得图像特征模块可以更加明确的提供领域所需的图像特征，进而提升模型的效果，提升分类准确率等评价效果；

2)本发明实现简单，通过在训练阶段改变图像特征抽取模块的优化方法使得此模块具备鲁棒性，操作极为简单方法，具备极强的可操作性。

具体实施方式

下面结合具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种视觉问答系统中图像特征模块端到端训练方法，可用于推动图像特征模块在实际应用环境数据上的进一步收敛。所述视觉问答系统基于视觉问答模型实现，所述视觉问答模型包括图像特征模块、时序神经网络、融合推理模块和答案生成模块。本训练方法通过以下步骤实现。

(1)模型初始化步骤。

获取视觉问答模型的初始模型参数，以预训练过的卷积神经网络模型作为图像特征模块，视觉问答模型的其他部分进行uniform随机初始化或读取预存储的模型参数。

本实施例中，采用ResNet50作为模型的图像特征模块，并采用已经在Imagenet数据集上预训练过的ResNet50模型参数进行初始化。

(2)训练数据获取步骤，包括训练图像和对应的训练文本序列的获取。

(3)特征提取步骤。将训练文本序列送入时序神经网络提取文本特征，将训练图像送入图像特征模块抽取相应的图像特征。时序神经网络包括循环神经网络模组，所述训练文本序列逐步输入所述循环神经网络模组中，以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。所述图像特征抽取中，以最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征。

文本特征提取具体为：

每次送入模型的数据均为batch大小的跨模数据对{V,Q,A}，仅以单个跨模数据对为例，其中的Q为对应的文本语言信息，可表示为单词序列{word₁,word₂,…,word_T}，其中T的最大长度为14，超出此长度的单词将会被舍弃。单词序列Q会首先被全部送入查询表模组(Lookup Table)中，通过映射将原本的one-hot字典型向量，形如{0,…,0,1,0,…,0}，转换为相应的单词嵌套特征序列{word_vector₁,word_vector₂,…,word_vector_T}，其中word_vector_t为维度1×300的向量，随后此将句子对应的单词嵌套特征序列按照时间步先后顺序，逐步送入一个特定的循环神经网络模组中，本实施例中使用Gate Recurrent Unit(GRU)，此循环神经网络中的每一步均包含隐层状态hidden_state和后续输出output两种向量。在本实施例中，将会分别使用最后时间步的隐层特征和所有时间的隐层特征的融合特征两种特征作为基准来验证效果，其中hidden_state_t为在时间步t时刻的隐层特征，为维度1×1024的向量。若是采用最后时间步的隐层特征作为输出特征，则最后的输出ques_representation为hidden_state_t，即输出为1×1024的向量。若是采用所有时间步的隐层特征的融合特征作为输出特征，则所有时间步的隐层特征即{hidden_state₁,hidden_state₂,…,hidden_state_T}将被同时输入一个自注意力模组中，此模组采用双头的自注意力模式，即将所有时间步的隐层特征同时通过同一个卷积层成为维度T×512的向量，再同时通过同一个卷积层成为维度T×2的向量，随后将此向量拆分为两个维度为T的向量，作为两个注意力头分别通同所有时间步的隐层特征进行点乘加和成为维度1×1024的向量，再将两个注意力头的输出结果进行最后的维度拼接，拼接后的输出ques_representation通常表示为Self-Attention₂(hidden_state₁,hidden_state₂,…,hidden_state_T)，即输出为1×2048的向量。输出特征ques_representation作为文本语言的特征在后续步骤中使用。

图像特征抽取具体为：

本实施例中，根据基准模型的不同分别使用不同的图像尺寸大小，因此首先需要根据基准模型需求将原始图像缩放至224×224或448×448两种尺寸，随后根据基准模型的需求，或者将某一种尺寸的图像送入在Imagenet上预训练过的resnet152模型中，抽取最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征，则图像特征image_representation为维度是1024×14×14或者1×2048的向量，输出特征image_representation作为图像的特征送入后续步骤中。

(4)融合推理步骤。融合推理模块对所述图像特征和文本特征进行特征融合，生成融合特征。

根据各基准模型的不同，将对两种特征进行多种形式的融合，如：

41)将两种特征进行简单的转换融合，即分别通过全连接层进行特征转换，成为隐层特征，均为维度是1×2048的向量。随后将两个同尺寸的隐层特征进行点乘完成特征的融合，进而生成相应的融合特征fusion_representation，为维度是1×2048的向量。输出特征fusion_representation作为融合推理的特征在后续步骤中使用。

42)将两种特征通过注意力机制模型进行融合，首先将两种特征分别通过全连接层进行特征转换，成为隐层特征，分别为维度是K×2048(K可能为36、196)和1×2048的向量。随后将文本语言的隐层特征复制扩展至同图像特征同样的尺寸大小，即K×2048，再将两个隐层特征进行点乘生成融合隐层特征，特征维度为K×2048，随后通过一个全连接层进行特征转换，特征维度转换为K×512，，再经过一个全连接层进行特征转换生成注意力特征，特征维度转换为K×1。随后将此注意力特征与图像特征进行点乘融合生成最终的融合特征fusion_representation，为维度是1×2048的向量。输出特征fusion_representation作为融合推理的特征在后续步骤中使用。

(5)答案生成步骤。融合推理模块输出的融合特征送入一个全连接层进行特征转换，并根据基准数据集的不同生成维度为1×C的答案特征向量，其中C为基准数据集的答案个数，所生成的答案特征后接softmax层，所对应的最大分类类别为所产生的答案。

(6)优化步骤。在训练阶段针对模型的不同模块采用不同的训练方法，基于所述输出答案与所述训练图像的初始答案计算答案误差，以二阶动量优化方法(如Adam等)对整体的视觉问答模型进行优化设定代数后，在所述视觉问答模型的其他部分优化方法不变的前提下，更改图像特征模块的优化方法为一阶优化方法(如SGDM等)，同时降低图像特征模块的学习率实现模型协同稳定收敛。本实施例中，图像特征模块的学习率降低为其他部分学习率的1/10。

在COCO-QA数据集上的指标结果如表1所示，不难发现，本发明所提方法在各类模型上均胜于原方法。

表1 COCO-QA据集上分类准确率指标的比较

在VQA2.0数据集下的指标结果如表2所示，在各类基准模型上使用数据扩充增强策略均取得了不使用更好的效果。

表2 VQA2.0数据集上分类准确率指标的比较

实验可以证实，在多种公开数据集上，本发明提出的一种用于实现视觉问答系统的图像特征模块端到端训练方法，效果显著、实现简单，将该训练方法应用于目前已知的视觉问答系统中，本方法具有较强的实施可行性和应用前景。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种视觉问答系统中图像特征模块端到端训练方法，所述视觉问答系统基于视觉问答模型实现，所述视觉问答模型包括图像特征模块、时序神经网络、融合推理模块和答案生成模块，其特征在于，所述训练方法包括：

获取视觉问答模型的初始模型参数；

获取训练图像和对应的训练文本序列；

2.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述获取视觉问答模型的初始模型参数中，以预训练过的卷积神经网络模型作为图像特征模块，视觉问答模型的其他部分进行uniform随机初始化或读取预存储的模型参数。

3.根据权利要求2所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述图像特征抽取中，以最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征。

4.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述时序神经网络包括循环神经网络模组，所述训练文本序列逐步输入所述循环神经网络模组中，以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。

5.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述特征融合具体为：

6.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述特征融合具体为：

7.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述答案生成模块包括用于进行特征转换的全连接层和进行分类的softmax层。

8.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述参数调整过程中，以二阶动量优化方法对整体的视觉问答模型进行优化设定代数后，更改图像特征模块的优化方法为一阶优化方法，同时降低图像特征模块的学习率实现模型协同稳定收敛。

9.根据权利要求8所述的视觉问答系统中图像特征模块端到端训练方法，其特征在于，所述图像特征模块的学习率降低为其他部分学习率的1/10。

10.一种视觉问答系统，其特征在于，该视觉问答系统所采用的视觉问答模型基于如权利要求1-9所述方法训练获得。