CN110717024B

CN110717024B - 基于图像视觉到文本转换的视觉问答问题解决方法

Info

Publication number: CN110717024B
Application number: CN201910950092.2A
Authority: CN
Inventors: 李群; 李华康; 孔令军; 张坤; 胡伏原
Original assignee: Suzhou Paiweisi Information Technology Co ltd
Current assignee: Suzhou Paiweisi Information Technology Co ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2022-05-17
Anticipated expiration: 2039-10-08
Also published as: CN110717024A

Abstract

本发明公开了一种基于图像视觉到文本转换的视觉问答问题解决方法。本发明一种基于图像视觉到文本转换的视觉问答问题解决方法，包括：步骤1)获取一副图像，提取CNN特征；步骤2)构建和学习图像密集字幕深度网络；步骤3)构建属性网络；步骤4)执行深度游走，对每一个获取的图像标题提取知识库增强特征；步骤5)对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；步骤6)执行问题为导向的Doc2Vec特征提取；步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类，并最终获取给定问题的答案。本发明的有益效果：基于密集字幕方法，本发明将VQA问题转化为文本问答问题。

Description

基于图像视觉到文本转换的视觉问答问题解决方法

技术领域

本发明涉及一种解决视觉问答(Visual Question Answering，VQA)问题的图像视觉到文本转换方法，该方法针对VQA问题中的开放性问答任务提出，是该任务的一种新颖的解决方案，属于计算机视觉和自然语言处理的交叉领域。

背景技术

近年来，作为视觉理解的研究方向，VQA受到越来越多的关注，且备受挑战。VQA实现了视觉图像的自然语言“问答”，是一种视觉理解和语言处理的联合问题。VQA与图像标注和文本问答任务有关，但比两者都复杂。

VQA模型需要基于对图像的理解以自由形式回答开放式问题。通常，VQA模型分别提取视觉图像和文本问题的特征，然后将它们组合起来进行多模态融合，最后学习分类器输出答案。目前，往往通过卷积神经网络(Convolutional Neural Networks，CNN)和递归神经网络(Recurrent Neural Networks，RNN)的组合来实现图像和问题的特征提取。多模态融合方法包括元素乘积法，多模紧致双线性法，多模态分解双线性池化方法，注意力机制法，基于知识库增强方法等。

传统技术存在以下技术问题：

与图像标注类似，某些算法依赖于将CNN特征传递给RNN语言模型。但是，VQA问题比图像标注更具挑战性，因为要回答一个文本问题，往往需要图像中并不存在的信息，例如常识性知识。因此，VQA问题严格来讲已经超过了人工智能的范畴，它需要超出单个子域的多模态知识。

发明内容

本发明要解决的技术问题是提供一种基于图像视觉到文本转换的视觉问答问题解决方法，通过图像视觉特征到文本的转换，跨越视觉图像与文本问题之间的“语义鸿沟”，以此解决VQA问题中的技术难题。

为实现上述目的，本发明采用的技术方案为：

一种基于图像视觉到文本转换的视觉问答问题解决方法，该方法包括视觉特征提取、知识库增强特征提取、问题为导向的矢量特征提取、特征融合和分类。除了使用一个用于图像表示的密集字幕网络，该方法将知识库增强方案和问题导向的doc2vec方法联合起来以回答给出的文本问题。图像密集字幕网络为每个视觉图像生成具有自然语言的密集描述，而新颖的问题导向的doc2vec方法旨在将自然语言文本转换为矢量特征。特别地，一种基于属性网络的知识库增强方案，用于提供外部知识。获取矢量特征后，融合图像视觉特征学习分类器以给出答案。

具体包括以下步骤：

步骤1)获取一副图像，提取CNN特征；

步骤2)构建和学习图像密集字幕深度网络；

步骤3)构建属性网络；

步骤4)执行深度游走，对每一个获取的图像标题提取知识库增强特征；

步骤5)对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；

步骤6)执行问题为导向的Doc2Vec特征提取；

步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类，并最终获取给定问题的答案。

在另外的一个实施例中，所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括：

步骤21)提取图像的CNN特征；

步骤22)上述特征输入到局部化层，获取区域特征；

步骤23)区域特征输入到全链接识别网络，输出区域编码特征；

步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory，LSTM)，输出密集图像描述。

在另外的一个实施例中所述局部化层提出感兴趣区域并返回有关区域的重要信息，包括区域坐标、区域分数和区域特征。

在另外的一个实施例中，所述步骤3)中的属性网络构建方法具体包括：

步骤31)给定训练集，对每一副图像应用密集字幕深度网络提取图像描述；

步骤32)集合相同图像类别内的所有图像标注为一个文本；

步骤33)重复步骤32)，遍历训练集中包含的所有图像子类；

步骤34)对同一文本中的成对属性词，计算词激活力和亲和力；

步骤35)以属性词为网络节点，以亲和力为边缘权重构建属性网络。

在另外的一个实施例中，所述步骤6)中的问题为导向的Doc2Vec方法具体包括：

步骤61)添加图像标注获取的每一个图像描述句子为段矢量表示中段矩阵的一列；

步骤62)添加图像描述中每一个属性词，作为词矩阵中的一列；

步骤63)添加文本问题中的每一个词，作为词矩阵中的一列；

步骤64)学习段向量(paragraph vector)表示模型。

在另外的一个实施例中，融合知识库增强特征、Doc2Vec特征和视觉特征后送入Softmax层实现分类。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

1、基于密集字幕方法，本发明将VQA问题转化为文本问答问题。我们的Img2Doc方案成功地将VQA问题从“图像vs文本”级别转化为“文本vs文本”级别，即所有文本问答算法都可以用于VQA，有效地减少了视觉图像与自然语言之间的语义鸿沟。

2、本发明采用基于属性网络的知识库增强方案。作为以前研究的重要发现，属性和外部知识可以有效地提高图像字幕和VQA的性能。因此，受到我们之前对语义概念网络构建的研究的启发，本文提出了一种基于属性网络的知识库增强方案，可以成功地提高VQA算法性能。

3、本发明提出了问题导向的doc2vec方法，将自然语言文本转换为矢量特征。在获得视觉图像的自然语言描述之后，我们需要将文本描述转换为矢量特征。本发明提出了一种新的问题导向的doc2vec方法用于VQA问题，与以前的某些方法不同，它是针对VQA任务特定的，适用于可变长度的文本。

附图说明

图1是本发明基于图像视觉到文本转换的视觉问答问题解决方法中的VQA模型框架图。

图2是本发明基于图像视觉到文本转换的视觉问答问题解决方法中的语义概念网络构建流程图。

图3是本发明基于图像视觉到文本转换的视觉问答问题解决方法中的语义概念网络构建流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

一种基于图像视觉到文本转换的视觉问答问题解决方法，如图1所示，整个模型包括视觉特征提取、密集字幕深度网络、属性网络、问题为导向的Doc2Vec、图像和文本特征融合及分类器。视觉特征提取旨在提取图像的深度视觉特征，密集字幕深度网络实现图像密集字幕的生成，属性网络挖掘属性词的共现模式以增强语义表达，问题为导向的Doc2Vec获取低维矢量特征，最后融合图像视觉特征、属性特征和低维矢量特征，将融合特征输入分类器以解决视觉问答问题。

基于上述VQA模型，本发明提出的VQA模型的实现方法包括以下步骤：

1)获取一副图像，提取CNN特征；

2)构建和学习图像密集字幕深度网络；

3)构建属性网络；

我们根据词激活力(Word Activation Forces,WAF)构建属性网络N＝(V,E,W)，其中V表示节点集，E表示边集，每个边缘由WAF计算的权重W表示。

给定训练图像集，提取密集字幕，并与每个图像的问答对集合为一个文本，我们可以如下计算WAF值：

其中，f_a和f_a*表示密集字幕中属性词a和a_*的频率，f_a,a*为共生频率，d_a,a*表示词a对词a_*前向距离的平均值。

4)执行深度游走，对每一个获取的图像标题提取知识库增强特征；

5)对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；

6)执行问题为导向的Doc2Vec特征提取；

7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类，并最终获取给定问题的答案；

如图2所示为本发明的密集字幕深度网络构建流程图，其流程为：

1)提取给定图像的CNN特征；

2)输入到局部化层，获取区域特征；该局部化层提出感兴趣区域并返回有关区域的重要信息，包括区域坐标，区域分数和区域特征。

3)用全链接的识别网络处理区域特征，获取区域编码特征；

4)将区域编码特征送入LSTM语言模型，获取图像密集字幕描述。

如图3所示为本发明问题为导向的Doc2Vec特征提取示意图，主要方法如下：

1)给定训练段落p₁，p₂，......，p_N和词w₁，w₂，......，w_N，模型目标是最大化平均对数概率，定义如下:

2)使用多分类器Softmax预测，则有：

其中，y_j是每个输出词j的非标准化对数概率，定义为

y＝β+Θλ(w_n-k,...,w_n+k；[D W]),

其中，β,Θ是Softmax的参数，λ是从D和W中提取的段向量和单词向量连接或平均得到。W中包含上下文词和文本问题中的词。

3)根据以上公式和方法，学习得到问题为导向的Doc2Vec特征。

本发明基于图像视觉到文本的转换以解决VQA问题，其可以合理地理解视觉图像和文本问题中的属性关系。该发明首先通过一个密集字幕网络提取图像的文本描述，然后结合以问题为导向的Doc2Vec与属性网络，成功的将视觉图像特征转换为文本矢量特征，最后应用Softmax给出文本问题答案。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，包括：

步骤1）获取一副图像，提取CNN特征；

步骤2）构建和学习图像密集字幕深度网络；

步骤3）构建属性网络；

步骤4）执行深度游走，对每一个获取的图像标题提取知识库增强特征；

步骤5）对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；

步骤6）执行问题为导向的Doc2Vec特征提取；

步骤7）融合知识库增强特征、Doc2Vec特征和视觉特征后分类，并最终获取给定问题的答案；

所述步骤3）中的属性网络构建方法具体包括：

步骤31) 给定训练集，对每一副图像应用密集字幕深度网络提取图像描述；

步骤32）集合相同图像类别内的所有图像标注为一个文本；

步骤33）重复步骤32），遍历训练集中包含的所有图像子类；

步骤34）对同一文本中的成对属性词，计算词激活力和亲和力；

步骤35）以属性词为网络节点，以亲和力为边缘权重构建属性网络。

2.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，所述步骤2）中的图像密集字幕深度网络构建和学习方法具体包括：

步骤21) 提取图像的CNN特征；

步骤22）上述特征输入到局部化层，获取区域特征；

步骤23）区域特征输入到全链接识别网络，输出区域编码特征；

步骤24）区域编码特征输入到长短时记忆网络（Long-Short-Term-Memory，LSTM），输出密集图像描述。

3.如权利要求2所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，所述局部化层提出感兴趣区域并返回有关区域的重要信息，包括区域坐标、区域分数和区域特征。

4.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，所述步骤6）中的问题为导向的Doc2Vec方法具体包括：

步骤62）添加图像描述中每一个属性词，作为词矩阵中的一列；

步骤63）添加文本问题中的每一个词，作为词矩阵中的一列；

步骤64）学习段向量（paragraph vector）表示模型。

5.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，融合知识库增强特征、Doc2Vec特征和视觉特征后送入Softmax层实现分类。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到5任一项所述的方法。