CN111814843A - 视觉问答系统中图像特征模块端到端训练方法及应用 - Google Patents

视觉问答系统中图像特征模块端到端训练方法及应用 Download PDF

Info

Publication number
CN111814843A
CN111814843A CN202010563278.5A CN202010563278A CN111814843A CN 111814843 A CN111814843 A CN 111814843A CN 202010563278 A CN202010563278 A CN 202010563278A CN 111814843 A CN111814843 A CN 111814843A
Authority
CN
China
Prior art keywords
feature
features
image
training
visual question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010563278.5A
Other languages
English (en)
Other versions
CN111814843B (zh
Inventor
王瀚漓
龙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Publication of CN111814843A publication Critical patent/CN111814843A/zh
Application granted granted Critical
Publication of CN111814843B publication Critical patent/CN111814843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。

Description

视觉问答系统中图像特征模块端到端训练方法及应用
技术领域
本发明涉及一种模型训练方法,尤其是涉及一种视觉问答系统中图像特征模块端到端训练方法及应用。
背景技术
随着移动设备的大量普及和人民需求的日渐提升,呈现给每个人的各类视觉数据均呈现爆炸式增长,人们对于可解答疑惑的视觉问答系统的需求不断攀升。视觉问答系统旨在根据人们的需求描述帮助完成对视觉信息的解读,涉及到问题的理解、物体的检索、定位和推理。相较于其他的跨模任务如视觉描述,视觉问答任务的发展仍然受限于无限的搜索空间与不完备的训练数据的矛盾、数据特征抽取不明确、统计推理与实际推理的矛盾和推理难度与数据量大小的矛盾等。
视觉问答任务中,图像特征抽取的不明确又加大了数据量大小的矛盾,从而加大了推理难度,因此图像特征的抽取是目前需要面对的一个重要问题。现有方法通常仅通过使用更强大的图像特征抽取模型,如从ResNet转为Faster-RCNN,模型复杂,实现难度提高。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种提高准确率、实现简单的视觉问答系统中图像特征模块端到端训练方法及应用。
本发明的目的可以通过以下技术方案来实现:
一种视觉问答系统中图像特征模块端到端训练方法,所述视觉问答系统基于视觉问答模型实现,所述视觉问答模型包括图像特征模块、时序神经网络、融合推理模块和答案生成模块,所述训练方法包括:
获取视觉问答模型的初始模型参数;
获取训练图像和对应的训练文本序列;
对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;
对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;
基于所述输出答案与所述训练图像的初始答案计算答案误差;
在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。
进一步地,所述获取视觉问答模型的初始模型参数中,以预训练过的卷积神经网络模型作为图像特征模块,视觉问答模型的其他部分进行uniform随机初始化或读取预存储的模型参数。
进一步地,所述图像特征抽取中,以最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征。
进一步地,所述时序神经网络包括循环神经网络模组,所述训练文本序列逐步输入所述循环神经网络模组中,以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。
进一步地,所述特征融合具体为:
对所述图像特征和文本特征分别通过全连接层进行特征转换,生成两个同尺寸的隐层特征,对两个隐层特征进行点乘获得融合特征。
进一步地,所述特征融合具体为:
对所述图像特征和文本特征分别通过全连接层进行特征转换,生成两个不同尺寸的隐层特征,通过复制扩展将两个隐层特征的尺寸调整至相同,将调整后的两个隐层特征进行点乘生成融合隐层特征,以一个全连接层对所述融合隐层特征进行特征转换,并通过另一个全连接层生成注意力特征,将所述注意力特征与图像特征进行点乘融合生成最终的融合特征。
进一步地,所述答案生成模块包括用于进行特征转换的全连接层和进行分类的softmax层。
进一步地,所述参数调整过程中,以二阶动量优化方法对整体的视觉问答模型进行优化设定代数后,更改图像特征模块的优化方法为一阶优化方法,同时降低图像特征模块的学习率实现模型协同稳定收敛。
进一步地,所述图像特征模块的学习率降低为其他部分学习率的1/10。
本发明还提供一种视觉问答系统,该视觉问答系统所采用的视觉问答模型基于上述方法训练获得。
与现有技术相比,本发明具有如下有益效果:
1)本发明通过将图像特征模块融入整体模型的训练过程,达成图像特征的针对性抽取,使得图像特征模块可以更加明确的提供领域所需的图像特征,进而提升模型的效果,提升分类准确率等评价效果;
2)本发明实现简单,通过在训练阶段改变图像特征抽取模块的优化方法使得此模块具备鲁棒性,操作极为简单方法,具备极强的可操作性。
具体实施方式
下面结合具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种视觉问答系统中图像特征模块端到端训练方法,可用于推动图像特征模块在实际应用环境数据上的进一步收敛。所述视觉问答系统基于视觉问答模型实现,所述视觉问答模型包括图像特征模块、时序神经网络、融合推理模块和答案生成模块。本训练方法通过以下步骤实现。
(1)模型初始化步骤。
获取视觉问答模型的初始模型参数,以预训练过的卷积神经网络模型作为图像特征模块,视觉问答模型的其他部分进行uniform随机初始化或读取预存储的模型参数。
本实施例中,采用ResNet50作为模型的图像特征模块,并采用已经在Imagenet数据集上预训练过的ResNet50模型参数进行初始化。
(2)训练数据获取步骤,包括训练图像和对应的训练文本序列的获取。
(3)特征提取步骤。将训练文本序列送入时序神经网络提取文本特征,将训练图像送入图像特征模块抽取相应的图像特征。时序神经网络包括循环神经网络模组,所述训练文本序列逐步输入所述循环神经网络模组中,以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。所述图像特征抽取中,以最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征。
文本特征提取具体为:
每次送入模型的数据均为batch大小的跨模数据对{V,Q,A},仅以单个跨模数据对为例,其中的Q为对应的文本语言信息,可表示为单词序列{word1,word2,…,wordT},其中T的最大长度为14,超出此长度的单词将会被舍弃。单词序列Q会首先被全部送入查询表模组(Lookup Table)中,通过映射将原本的one-hot字典型向量,形如{0,…,0,1,0,…,0},转换为相应的单词嵌套特征序列{word_vector1,word_vector2,…,word_vectorT},其中word_vectort为维度1×300的向量,随后此将句子对应的单词嵌套特征序列按照时间步先后顺序,逐步送入一个特定的循环神经网络模组中,本实施例中使用Gate Recurrent Unit(GRU),此循环神经网络中的每一步均包含隐层状态hidden_state和后续输出output两种向量。在本实施例中,将会分别使用最后时间步的隐层特征和所有时间的隐层特征的融合特征两种特征作为基准来验证效果,其中hidden_statet为在时间步t时刻的隐层特征,为维度1×1024的向量。若是采用最后时间步的隐层特征作为输出特征,则最后的输出ques_representation为hidden_statet,即输出为1×1024的向量。若是采用所有时间步的隐层特征的融合特征作为输出特征,则所有时间步的隐层特征即{hidden_state1,hidden_state2,…,hidden_stateT}将被同时输入一个自注意力模组中,此模组采用双头的自注意力模式,即将所有时间步的隐层特征同时通过同一个卷积层成为维度T×512的向量,再同时通过同一个卷积层成为维度T×2的向量,随后将此向量拆分为两个维度为T的向量,作为两个注意力头分别通同所有时间步的隐层特征进行点乘加和成为维度1×1024的向量,再将两个注意力头的输出结果进行最后的维度拼接,拼接后的输出ques_representation通常表示为Self-Attention2(hidden_state1,hidden_state2,…,hidden_stateT),即输出为1×2048的向量。输出特征ques_representation作为文本语言的特征在后续步骤中使用。
图像特征抽取具体为:
本实施例中,根据基准模型的不同分别使用不同的图像尺寸大小,因此首先需要根据基准模型需求将原始图像缩放至224×224或448×448两种尺寸,随后根据基准模型的需求,或者将某一种尺寸的图像送入在Imagenet上预训练过的resnet152模型中,抽取最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征,则图像特征image_representation为维度是1024×14×14或者1×2048的向量,输出特征image_representation作为图像的特征送入后续步骤中。
(4)融合推理步骤。融合推理模块对所述图像特征和文本特征进行特征融合,生成融合特征。
根据各基准模型的不同,将对两种特征进行多种形式的融合,如:
41)将两种特征进行简单的转换融合,即分别通过全连接层进行特征转换,成为隐层特征,均为维度是1×2048的向量。随后将两个同尺寸的隐层特征进行点乘完成特征的融合,进而生成相应的融合特征fusion_representation,为维度是1×2048的向量。输出特征fusion_representation作为融合推理的特征在后续步骤中使用。
42)将两种特征通过注意力机制模型进行融合,首先将两种特征分别通过全连接层进行特征转换,成为隐层特征,分别为维度是K×2048(K可能为36、196)和1×2048的向量。随后将文本语言的隐层特征复制扩展至同图像特征同样的尺寸大小,即K×2048,再将两个隐层特征进行点乘生成融合隐层特征,特征维度为K×2048,随后通过一个全连接层进行特征转换,特征维度转换为K×512,,再经过一个全连接层进行特征转换生成注意力特征,特征维度转换为K×1。随后将此注意力特征与图像特征进行点乘融合生成最终的融合特征fusion_representation,为维度是1×2048的向量。输出特征fusion_representation作为融合推理的特征在后续步骤中使用。
(5)答案生成步骤。融合推理模块输出的融合特征送入一个全连接层进行特征转换,并根据基准数据集的不同生成维度为1×C的答案特征向量,其中C为基准数据集的答案个数,所生成的答案特征后接softmax层,所对应的最大分类类别为所产生的答案。
(6)优化步骤。在训练阶段针对模型的不同模块采用不同的训练方法,基于所述输出答案与所述训练图像的初始答案计算答案误差,以二阶动量优化方法(如Adam等)对整体的视觉问答模型进行优化设定代数后,在所述视觉问答模型的其他部分优化方法不变的前提下,更改图像特征模块的优化方法为一阶优化方法(如SGDM等),同时降低图像特征模块的学习率实现模型协同稳定收敛。本实施例中,图像特征模块的学习率降低为其他部分学习率的1/10。
在COCO-QA数据集上的指标结果如表1所示,不难发现,本发明所提方法在各类模型上均胜于原方法。
表1 COCO-QA据集上分类准确率指标的比较
Figure BDA0002546924130000051
Figure BDA0002546924130000061
在VQA2.0数据集下的指标结果如表2所示,在各类基准模型上使用数据扩充增强策略均取得了不使用更好的效果。
表2 VQA2.0数据集上分类准确率指标的比较
Figure BDA0002546924130000062
实验可以证实,在多种公开数据集上,本发明提出的一种用于实现视觉问答系统的图像特征模块端到端训练方法,效果显著、实现简单,将该训练方法应用于目前已知的视觉问答系统中,本方法具有较强的实施可行性和应用前景。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (10)

1.一种视觉问答系统中图像特征模块端到端训练方法,所述视觉问答系统基于视觉问答模型实现,所述视觉问答模型包括图像特征模块、时序神经网络、融合推理模块和答案生成模块,其特征在于,所述训练方法包括:
获取视觉问答模型的初始模型参数;
获取训练图像和对应的训练文本序列;
对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;
对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;
基于所述输出答案与所述训练图像的初始答案计算答案误差;
在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。
2.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述获取视觉问答模型的初始模型参数中,以预训练过的卷积神经网络模型作为图像特征模块,视觉问答模型的其他部分进行uniform随机初始化或读取预存储的模型参数。
3.根据权利要求2所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述图像特征抽取中,以最后一个卷积层的特征或者倒数第二个全连接层的特征作为图像特征。
4.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述时序神经网络包括循环神经网络模组,所述训练文本序列逐步输入所述循环神经网络模组中,以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。
5.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述特征融合具体为:
对所述图像特征和文本特征分别通过全连接层进行特征转换,生成两个同尺寸的隐层特征,对两个隐层特征进行点乘获得融合特征。
6.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述特征融合具体为:
对所述图像特征和文本特征分别通过全连接层进行特征转换,生成两个不同尺寸的隐层特征,通过复制扩展将两个隐层特征的尺寸调整至相同,将调整后的两个隐层特征进行点乘生成融合隐层特征,以一个全连接层对所述融合隐层特征进行特征转换,并通过另一个全连接层生成注意力特征,将所述注意力特征与图像特征进行点乘融合生成最终的融合特征。
7.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述答案生成模块包括用于进行特征转换的全连接层和进行分类的softmax层。
8.根据权利要求1所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述参数调整过程中,以二阶动量优化方法对整体的视觉问答模型进行优化设定代数后,更改图像特征模块的优化方法为一阶优化方法,同时降低图像特征模块的学习率实现模型协同稳定收敛。
9.根据权利要求8所述的视觉问答系统中图像特征模块端到端训练方法,其特征在于,所述图像特征模块的学习率降低为其他部分学习率的1/10。
10.一种视觉问答系统,其特征在于,该视觉问答系统所采用的视觉问答模型基于如权利要求1-9所述方法训练获得。
CN202010563278.5A 2020-03-23 2020-06-19 视觉问答系统中图像特征模块端到端训练方法及应用 Active CN111814843B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010209991 2020-03-23
CN202010209991X 2020-03-23

Publications (2)

Publication Number Publication Date
CN111814843A true CN111814843A (zh) 2020-10-23
CN111814843B CN111814843B (zh) 2024-02-27

Family

ID=72845263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010563278.5A Active CN111814843B (zh) 2020-03-23 2020-06-19 视觉问答系统中图像特征模块端到端训练方法及应用

Country Status (1)

Country Link
CN (1) CN111814843B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076433A (zh) * 2021-04-26 2021-07-06 支付宝(杭州)信息技术有限公司 具有多模态信息的检索对象的检索方法和装置
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
WO2022134578A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 答案序列的确定方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342895A1 (en) * 2015-05-21 2016-11-24 Baidu Usa Llc Multilingual image question answering
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110825903A (zh) * 2019-10-12 2020-02-21 江南大学 一种改进哈希融合机制的视觉问答方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342895A1 (en) * 2015-05-21 2016-11-24 Baidu Usa Llc Multilingual image question answering
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110825903A (zh) * 2019-10-12 2020-02-21 江南大学 一种改进哈希融合机制的视觉问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
俞俊;汪亮;余宙;: "视觉问答技术研究", 计算机研究与发展, no. 09 *
秦淑婧;杨关;: "增强视觉特征的视觉问答任务研究", 中原工学院学报, no. 01 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134578A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 答案序列的确定方法及装置
CN113076433A (zh) * 2021-04-26 2021-07-06 支付宝(杭州)信息技术有限公司 具有多模态信息的检索对象的检索方法和装置
CN113076433B (zh) * 2021-04-26 2022-05-17 支付宝(杭州)信息技术有限公司 具有多模态信息的检索对象的检索方法和装置
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113177115B (zh) * 2021-06-30 2021-10-26 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备

Also Published As

Publication number Publication date
CN111814843B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111814843B (zh) 视觉问答系统中图像特征模块端到端训练方法及应用
DeVries et al. Dataset augmentation in feature space
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN111581395B (zh) 一种基于深度学习的模型融合三元组表示学习系统及方法
CN107391609B (zh) 一种双向多模态递归网络的图像描述方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN110298043B (zh) 一种车辆命名实体识别方法及系统
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN112733768A (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113282721B (zh) 基于网络结构搜索的视觉问答方法
CN112036276A (zh) 一种人工智能视频问答方法
CN113283336A (zh) 一种文本识别方法与系统
CN116383401A (zh) 一种融合文本描述与图卷积机制的知识图谱补全方法
CN115457183A (zh) 序列化草图生成与重建模型训练方法、重建方法及装置
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN114896371A (zh) 一种自然语言处理模型的训练方法和装置
CN115186072A (zh) 一种基于双过程认知理论的知识图谱视觉问答方法
CN112215130A (zh) 一种基于2.5d/3d混合卷积模型的人体行为识别方法
CN113010712B (zh) 一种基于多图融合的视觉问答方法
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
Beltr et al. Semantic text recognition via visual question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant