CN110717024B - 基于图像视觉到文本转换的视觉问答问题解决方法 - Google Patents
基于图像视觉到文本转换的视觉问答问题解决方法 Download PDFInfo
- Publication number
- CN110717024B CN110717024B CN201910950092.2A CN201910950092A CN110717024B CN 110717024 B CN110717024 B CN 110717024B CN 201910950092 A CN201910950092 A CN 201910950092A CN 110717024 B CN110717024 B CN 110717024B
- Authority
- CN
- China
- Prior art keywords
- image
- visual
- features
- question
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本发明公开了一种基于图像视觉到文本转换的视觉问答问题解决方法。本发明一种基于图像视觉到文本转换的视觉问答问题解决方法,包括:步骤1)获取一副图像,提取CNN特征;步骤2)构建和学习图像密集字幕深度网络;步骤3)构建属性网络;步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;步骤6)执行问题为导向的Doc2Vec特征提取;步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类,并最终获取给定问题的答案。本发明的有益效果:基于密集字幕方法,本发明将VQA问题转化为文本问答问题。
Description
技术领域
本发明涉及一种解决视觉问答(Visual Question Answering,VQA)问题的图像视觉到文本转换方法,该方法针对VQA问题中的开放性问答任务提出,是该任务的一种新颖的解决方案,属于计算机视觉和自然语言处理的交叉领域。
背景技术
近年来,作为视觉理解的研究方向,VQA受到越来越多的关注,且备受挑战。VQA实现了视觉图像的自然语言“问答”,是一种视觉理解和语言处理的联合问题。VQA与图像标注和文本问答任务有关,但比两者都复杂。
VQA模型需要基于对图像的理解以自由形式回答开放式问题。通常,VQA模型分别提取视觉图像和文本问题的特征,然后将它们组合起来进行多模态融合,最后学习分类器输出答案。目前,往往通过卷积神经网络(Convolutional Neural Networks,CNN)和递归神经网络(Recurrent Neural Networks,RNN)的组合来实现图像和问题的特征提取。多模态融合方法包括元素乘积法,多模紧致双线性法,多模态分解双线性池化方法,注意力机制法,基于知识库增强方法等。
传统技术存在以下技术问题:
与图像标注类似,某些算法依赖于将CNN特征传递给RNN语言模型。但是,VQA问题比图像标注更具挑战性,因为要回答一个文本问题,往往需要图像中并不存在的信息,例如常识性知识。因此,VQA问题严格来讲已经超过了人工智能的范畴,它需要超出单个子域的多模态知识。
发明内容
本发明要解决的技术问题是提供一种基于图像视觉到文本转换的视觉问答问题解决方法,通过图像视觉特征到文本的转换,跨越视觉图像与文本问题之间的“语义鸿沟”,以此解决VQA问题中的技术难题。
为实现上述目的,本发明采用的技术方案为:
一种基于图像视觉到文本转换的视觉问答问题解决方法,该方法包括视觉特征提取、知识库增强特征提取、问题为导向的矢量特征提取、特征融合和分类。除了使用一个用于图像表示的密集字幕网络,该方法将知识库增强方案和问题导向的doc2vec方法联合起来以回答给出的文本问题。图像密集字幕网络为每个视觉图像生成具有自然语言的密集描述,而新颖的问题导向的doc2vec方法旨在将自然语言文本转换为矢量特征。特别地,一种基于属性网络的知识库增强方案,用于提供外部知识。获取矢量特征后,融合图像视觉特征学习分类器以给出答案。
具体包括以下步骤:
步骤1)获取一副图像,提取CNN特征;
步骤2)构建和学习图像密集字幕深度网络;
步骤3)构建属性网络;
步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;
步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;
步骤6)执行问题为导向的Doc2Vec特征提取;
步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类,并最终获取给定问题的答案。
在另外的一个实施例中,所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括:
步骤21)提取图像的CNN特征;
步骤22)上述特征输入到局部化层,获取区域特征;
步骤23)区域特征输入到全链接识别网络,输出区域编码特征;
步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory,LSTM),输出密集图像描述。
在另外的一个实施例中所述局部化层提出感兴趣区域并返回有关区域的重要信息,包括区域坐标、区域分数和区域特征。
在另外的一个实施例中,所述步骤3)中的属性网络构建方法具体包括:
步骤31)给定训练集,对每一副图像应用密集字幕深度网络提取图像描述;
步骤32)集合相同图像类别内的所有图像标注为一个文本;
步骤33)重复步骤32),遍历训练集中包含的所有图像子类;
步骤34)对同一文本中的成对属性词,计算词激活力和亲和力;
步骤35)以属性词为网络节点,以亲和力为边缘权重构建属性网络。
在另外的一个实施例中,所述步骤6)中的问题为导向的Doc2Vec方法具体包括:
步骤61)添加图像标注获取的每一个图像描述句子为段矢量表示中段矩阵的一列;
步骤62)添加图像描述中每一个属性词,作为词矩阵中的一列;
步骤63)添加文本问题中的每一个词,作为词矩阵中的一列;
步骤64)学习段向量(paragraph vector)表示模型。
在另外的一个实施例中,融合知识库增强特征、Doc2Vec特征和视觉特征后送入Softmax层实现分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
1、基于密集字幕方法,本发明将VQA问题转化为文本问答问题。我们的Img2Doc方案成功地将VQA问题从“图像vs文本”级别转化为“文本vs文本”级别,即所有文本问答算法都可以用于VQA,有效地减少了视觉图像与自然语言之间的语义鸿沟。
2、本发明采用基于属性网络的知识库增强方案。作为以前研究的重要发现,属性和外部知识可以有效地提高图像字幕和VQA的性能。因此,受到我们之前对语义概念网络构建的研究的启发,本文提出了一种基于属性网络的知识库增强方案,可以成功地提高VQA算法性能。
3、本发明提出了问题导向的doc2vec方法,将自然语言文本转换为矢量特征。在获得视觉图像的自然语言描述之后,我们需要将文本描述转换为矢量特征。本发明提出了一种新的问题导向的doc2vec方法用于VQA问题,与以前的某些方法不同,它是针对VQA任务特定的,适用于可变长度的文本。
附图说明
图1是本发明基于图像视觉到文本转换的视觉问答问题解决方法中的VQA模型框架图。
图2是本发明基于图像视觉到文本转换的视觉问答问题解决方法中的语义概念网络构建流程图。
图3是本发明基于图像视觉到文本转换的视觉问答问题解决方法中的语义概念网络构建流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
一种基于图像视觉到文本转换的视觉问答问题解决方法,如图1所示,整个模型包括视觉特征提取、密集字幕深度网络、属性网络、问题为导向的Doc2Vec、图像和文本特征融合及分类器。视觉特征提取旨在提取图像的深度视觉特征,密集字幕深度网络实现图像密集字幕的生成,属性网络挖掘属性词的共现模式以增强语义表达,问题为导向的Doc2Vec获取低维矢量特征,最后融合图像视觉特征、属性特征和低维矢量特征,将融合特征输入分类器以解决视觉问答问题。
基于上述VQA模型,本发明提出的VQA模型的实现方法包括以下步骤:
1)获取一副图像,提取CNN特征;
2)构建和学习图像密集字幕深度网络;
3)构建属性网络;
我们根据词激活力(Word Activation Forces,WAF)构建属性网络N=(V,E,W),其中V表示节点集,E表示边集,每个边缘由WAF计算的权重W表示。
给定训练图像集,提取密集字幕,并与每个图像的问答对集合为一个文本,我们可以如下计算WAF值:
其中,fa和fa*表示密集字幕中属性词a和a*的频率,fa,a*为共生频率,da,a*表示词a对词a*前向距离的平均值。
4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;
5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;
6)执行问题为导向的Doc2Vec特征提取;
7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类,并最终获取给定问题的答案;
如图2所示为本发明的密集字幕深度网络构建流程图,其流程为:
1)提取给定图像的CNN特征;
2)输入到局部化层,获取区域特征;该局部化层提出感兴趣区域并返回有关区域的重要信息,包括区域坐标,区域分数和区域特征。
3)用全链接的识别网络处理区域特征,获取区域编码特征;
4)将区域编码特征送入LSTM语言模型,获取图像密集字幕描述。
如图3所示为本发明问题为导向的Doc2Vec特征提取示意图,主要方法如下:
1)给定训练段落p1,p2,......,pN和词w1,w2,......,wN,模型目标是最大化平均对数概率,定义如下:
2)使用多分类器Softmax预测,则有:
其中,yj是每个输出词j的非标准化对数概率,定义为
y=β+Θλ(wn-k,...,wn+k;[D W]),
其中,β,Θ是Softmax的参数,λ是从D和W中提取的段向量和单词向量连接或平均得到。W中包含上下文词和文本问题中的词。
3)根据以上公式和方法,学习得到问题为导向的Doc2Vec特征。
本发明基于图像视觉到文本的转换以解决VQA问题,其可以合理地理解视觉图像和文本问题中的属性关系。该发明首先通过一个密集字幕网络提取图像的文本描述,然后结合以问题为导向的Doc2Vec与属性网络,成功的将视觉图像特征转换为文本矢量特征,最后应用Softmax给出文本问题答案。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (8)
1.一种基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,包括:
步骤1)获取一副图像,提取CNN特征;
步骤2)构建和学习图像密集字幕深度网络;
步骤3)构建属性网络;
步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;
步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;
步骤6)执行问题为导向的Doc2Vec特征提取;
步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类,并最终获取给定问题的答案;
所述步骤3)中的属性网络构建方法具体包括:
步骤31) 给定训练集,对每一副图像应用密集字幕深度网络提取图像描述;
步骤32)集合相同图像类别内的所有图像标注为一个文本;
步骤33)重复步骤32),遍历训练集中包含的所有图像子类;
步骤34)对同一文本中的成对属性词,计算词激活力和亲和力;
步骤35)以属性词为网络节点,以亲和力为边缘权重构建属性网络。
2.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括:
步骤21) 提取图像的CNN特征;
步骤22)上述特征输入到局部化层,获取区域特征;
步骤23)区域特征输入到全链接识别网络,输出区域编码特征;
步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory,LSTM),输出密集图像描述。
3.如权利要求2所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述局部化层提出感兴趣区域并返回有关区域的重要信息,包括区域坐标、区域分数和区域特征。
4.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述步骤6)中的问题为导向的Doc2Vec方法具体包括:
步骤61)添加图像标注获取的每一个图像描述句子为段矢量表示中段矩阵的一列;
步骤62)添加图像描述中每一个属性词,作为词矩阵中的一列;
步骤63)添加文本问题中的每一个词,作为词矩阵中的一列;
步骤64)学习段向量(paragraph vector)表示模型。
5.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,融合知识库增强特征、Doc2Vec特征和视觉特征后送入Softmax层实现分类。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910950092.2A CN110717024B (zh) | 2019-10-08 | 2019-10-08 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910950092.2A CN110717024B (zh) | 2019-10-08 | 2019-10-08 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717024A CN110717024A (zh) | 2020-01-21 |
CN110717024B true CN110717024B (zh) | 2022-05-17 |
Family
ID=69212186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910950092.2A Active CN110717024B (zh) | 2019-10-08 | 2019-10-08 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717024B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611367B (zh) * | 2020-05-21 | 2023-04-28 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
CN111767379B (zh) * | 2020-06-29 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像问答方法、装置、设备以及存储介质 |
CN111782840B (zh) * | 2020-06-30 | 2023-08-22 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111860653A (zh) * | 2020-07-22 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种视觉问答方法、装置及电子设备和存储介质 |
CN112559698B (zh) * | 2020-11-02 | 2022-12-09 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN113392253B (zh) * | 2021-06-28 | 2023-09-29 | 北京百度网讯科技有限公司 | 视觉问答模型训练及视觉问答方法、装置、设备及介质 |
CN113360699B (zh) * | 2021-06-30 | 2023-09-26 | 北京百度网讯科技有限公司 | 模型训练方法和装置、图像问答方法和装置 |
CN116431793B (zh) * | 2023-06-14 | 2023-08-22 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
CN109740012A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
CN109829049A (zh) * | 2019-01-28 | 2019-05-31 | 杭州一知智能科技有限公司 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
CN110163299A (zh) * | 2019-05-31 | 2019-08-23 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
-
2019
- 2019-10-08 CN CN201910950092.2A patent/CN110717024B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
CN109740012A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
CN109829049A (zh) * | 2019-01-28 | 2019-05-31 | 杭州一知智能科技有限公司 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
CN110163299A (zh) * | 2019-05-31 | 2019-08-23 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
Non-Patent Citations (3)
Title |
---|
Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources;Qi Wu 等;《IEEE Conference on Computer and Pattern Recognition(CVPR)》;20161231;第4622-4630页 * |
Justin Johnson∗等.DenseCap: Fully Convolutional Localization Networks for Dense Captioning.《2016 IEEE Conference on Computer Vision and Pattern Recognition》.2016,4565-4574. * |
Semantic Concept Network and DeepWalk-based Visual Question Answering;QUN LI 等;《ACM Trans. Multimedia Comput. Commun》;20190730;第15卷(第2期);第49:1-49:19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110717024A (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717024B (zh) | 基于图像视觉到文本转换的视觉问答问题解决方法 | |
CN107563498B (zh) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 | |
CN109902298B (zh) | 一种自适应学习系统中领域知识建模及知识水平估测方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
Jing et al. | Recognizing american sign language manual signs from rgb-d videos | |
De Coster et al. | Machine translation from signed to spoken languages: State of the art and challenges | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
EP4116859A3 (en) | Document processing method and apparatus and medium | |
Koishybay et al. | Continuous sign language recognition with iterative spatiotemporal fine-tuning | |
Merkx et al. | Learning semantic sentence representations from visually grounded language without lexical knowledge | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
Wang et al. | Combine early and late fusion together: A hybrid fusion framework for image-text matching | |
CN111597795A (zh) | 一种远监督关系抽取方法、装置、设备及存储介质 | |
Pu et al. | Adaptive feature abstraction for translating video to language | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
Toshevska et al. | Exploration into deep learning text generation architectures for dense image captioning | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
Kumar et al. | A Comparative Analysis of Techniques and Algorithms for Recognising Sign Language | |
Javaid et al. | Manual and non-manual sign language recognition framework using hybrid deep learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |