CN110659398A

CN110659398A - 一种基于数学图表类数据集的视觉问答方法

Info

Publication number: CN110659398A
Application number: CN201910626792.6A
Authority: CN
Inventors: 张迪雅; 周尔强; 杨航; 银正强; 曹黛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2020-01-07

Abstract

本发明涉及视觉问答技术领域，公开了一种基于数学图表类数据集的视觉问答方法，针对现有的五类数学图表类视觉问答问题，现提出如下方案，其包括以下步骤：S1,基于Faster‑RCNN模型的目标检测；该模型用于识别属于某些类的对象实例，并通过边界框确定对象在图像中的位置；S2，基于目标检测结果的对象特征编码；S3，问题‑答案对预处理；S4，文本问题特征抽取；S5，基于关系推理模块的视觉智能问答，S1中，基于Faster‑RCNN模型的目标检测包括两个阶段检测对象。本发明提出一个结合了目标检测和推理模块的解决方案，用于解决五类数学图表类视觉问答问题，提高了准确率。

Description

一种基于数学图表类数据集的视觉问答方法

技术领域

本发明涉及视觉问答技术领域，尤其涉及一种基于数学图表类数据集的视觉问答方法。

背景技术

视觉问答是一个新颖的问题领域，视觉问答系统需要处理任务提供的图像和自然语言输入，结合推理过程得到准确的自然语言答案。

目前大多数视觉问答系统基于镜像真实场景的数据集进行实现，但是基于数学图表类数据集的视觉问答研究很少；Revanth Reddy提出的模型目前无法解决线图问题。

发明内容

本发明提出的一种基于数学图表类数据集的视觉问答方法,解决了现有的五类数学图表类视觉问答问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于数学图表类数据集的视觉问答方法，包括以下步骤：

S1,基于Faster-RCNN模型的目标检测，基于Faster-RCNN模型的目标检测包括两个阶段检测对象：区域候选网络提出目标的区域候选框，在最后的共享卷积层的卷积特征图输出上滑动一个小网络，每个滑动窗口同时预测k个区域建议，并对交并比大于一定阈值的候选框进行非极大值抑制，选择得分最高的候选框最为第二阶段的输入，在感兴趣区域池化层，提取区域候选框的特征图批量属于到一个卷积层，最终输出每个对象标签上的softmax分布以及对象边界框信息；

S2，基于目标检测结果的对象特征编码；

S3，问题-答案对预处理；

S4，文本问题特征抽取；

S5，基于关系推理模块的视觉智能问答。

优选的，所述步骤S1中，采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN模型进行目标检测。

优选的，所述S2中，所述对象特征编码的具体步骤可为：解码检测到图像上的一组N个对象：

优选的，所述S3中，所述问题-答案对预处理的具体步骤可为：无论是训练集合适测试集，每个输入的实例都是一个文本问题和一个图像，首先需要对文本问题进行分词处理，通过空格符号将单词分开，预先在FigureQA的问题数据集上进行预训练生成问题词汇字典，通过该词汇表得到文本问题的有效编码，单词由大小为32的嵌入表示，

q＝[q₁，...q_T]

其中qt是问题中第t个单词得嵌入向量表示。

优选的，所述S5中，所述文本问题特征抽取的具体步骤可为：

使用递归神经网络对问题特征进行抽取，递归网络的处理单位为 LSTM单位；最终获得问题内容的表征fq，该特征表示为：

h_q＝LSTM(q_t)，t∈{1，2，...T}

优选的，所述步骤S5使用RN复合函数进行问答，RN复合函数为：

其中，f()和g()都是多层感知机，其中g()的作用是推断两个对象相关的方式，输出可以称之为关系。

优选的，采用Bow、GRU、CNN中任一种替换LSTM。

本发明的有益效果是：通过目标检测模块Faster-RCNN，解析获取图像对象的位置信息以及属性信息作为图像特征和问题特征关联输入到通用推理模块，通过提取图像中和问题相关的区域有效信息以实现更深入的图像理解帮助后续答案推理，从而提高了准确率。本发明提出一个结合了目标检测和推理模块的解决方案，用于解决五类数学图表类视觉问答问题，提高了准确率。

附图说明

图1为FigureQA数据集中的图表类型示意图。

图2为本发明提出的VQA模型概述示意图。

图3为本发明提出的柱状图场景解析示意图。

图4为线图目标检测结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-4，一种基于数学图表类数据集的视觉问答方法，包括以下步骤：

S2，基于目标检测结果的对象特征编码；

S3，问题-答案对预处理；

S4，文本问题特征抽取；

S5，基于关系推理模块的视觉智能问答。

步骤S1中，采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN 模型进行目标检测。

S2中，对象特征编码的具体步骤可为：解码检测到图像上的一组N个对象：

S3中，问题-答案对预处理的具体步骤可为：无论是训练集合适测试集，每个输入的实例都是一个文本问题和一个图像，首先需要对文本问题进行分词处理，通过空格符号将单词分开。我们预先在 FigureQA的问题数据集上进行预训练生成问题词汇字典，通过该词汇表我们可以得到文本问题的有效编码，单词由大小为32的嵌入表示，

q＝[q₁，...q_T]

其中qt是问题中第t个单词得嵌入向量表示。

S5中，文本问题特征抽取的具体步骤可为：

h_q＝LSTM(q_t)，t∈{1，2，...T}

其中，T表示为递归网络对每个问题处理的最大步数。

S5中，基于关系推理模块的视觉智能问答的具体步骤可为：关系推理网络的设计理念是让神经网络具备推理关系的能力，换句话说，计算关系的能力被纳入到关系推理架构中，而不需要学习，就像建立空间，平移不变属性的能力被内置到CNN一样，循环神经网络能够学习顺序依赖关系的能力。RN最简单的形式是一个复合函数：

其中输入的是一组对象(\begin{equation}\mathrm{O}＝\left\{o 1,02,\dots,o_{n}\right\},o_{i}\in\mathbb{R}^{m}\end{equatio n})，Latex表达式，需要转换成数学表达式：

对本任务而言，f()和g()都是多层感知机，其中g()的作用是推断两个对象相关的方式，输出可以称之为关系。

本实施例中，图表泛指在屏幕中显示的，可直观展示统计信息属性(时间性、数量性等)，对知识挖掘和信息直观生动感受起关键作用的图形结构，是一种很好的将对象属性数据直观、形象地"可视化" 的手段，图表的类型很多种，而视觉问答图数据集FigureQA图表有 5种类型见图1。

目前FigureQA数据集的准确率还达不到人类水平，测试集准确率为72.54％，而人类在该数据集的准确率达到了93.29％，为此本发明采用基于Faster-RCNN+LSTM+RN的显著区域视觉推理模型，任务求解过程见图2，首先通过目标检测模块Faster-RCNN，解析获取图像对象的位置信息以及属性信息作为图像特征和问题特征关联输入到通用推理模块，通过提取图像中和问题相关的区域有效信息以实现更深入的图像理解帮助后续答案推理，从而提高了准确率，准确率达到 86％。

本实施例中，其中对于柱状图和饼图，期望解析得到不同对象的相对大小以及颜色特征，具体如图3；而线图由于其自身特征，如果采用和上述两种图同样的方式，我们很难通过目标检测结果解析得到有效的图像信息。所以线图中同一条线由多个目标检测框得到，具体如图4，因此我们在解析线图时，先对目标检测结果进行分类，具有相同标签的检测框代表属于同一对象，此时我们得到不同对象的一系列目标检测框，本方案采用框的中心点线图的关键点，这步操作将目标检测框映射到线图的关键点。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于数学图表类数据集的视觉问答方法，包括以下步骤：

S1，基于Faster-RCNN模型的目标检测，基于Faster-RCNN模型的目标检测包括两个阶段检测对象：区域候选网络提出目标的区域候选框，在最后的共享卷积层的卷积特征图输出上滑动一个小网络，每个滑动窗口同时预测k个区域建议，并对交并比大于一定阈值的候选框进行非极大值抑制，选择得分最高的候选框最为第二阶段的输入，在感兴趣区域池化层，提取区域候选框的特征图批量属于到一个卷积层，最终输出每个对象标签上的softmax分布以及对象边界框信息；

S2，基于目标检测结果的对象特征编码；

S3，问题-答案对预处理；

S4，文本问题特征抽取；

S5，基于关系推理模块的视觉智能问答。

2.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法，其特征在于，所述步骤S1中，采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN模型进行目标检测。

3.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法，其特征在于，所述S2中，所述对象特征编码的具体步骤可为：解码检测到图像上的一组N个对象：

4.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法，其特征在于，所述S3中，所述问题-答案对预处理的具体步骤可为：无论是训练集合适测试集，每个输入的实例都是一个文本问题和一个图像，首先需要对文本问题进行分词处理，通过空格符号将单词分开，预先在FigureQA的问题数据集上进行预训练生成问题词汇字典，通过该词汇表得到文本问题的有效编码，单词由大小为32的嵌入表示，

q＝[q₁，...q_T]

其中qt是问题中第t个单词得嵌入向量表示。

5.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法，其特征在于，所述S5中，所述文本问题特征抽取的具体步骤可为：

使用递归神经网络对问题特征进行抽取，递归网络的处理单位为LSTM单位；最终获得问题内容的表征fq，该特征表示为：

h_q＝LSTM(q_t)，t∈{1，2，...T}。

6.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法，其特征在于，所述步骤S5使用RN复合函数进行问答，RN复合函数为：

7.根据权利要求5所述的一种基于数学图表类数据集的视觉问答方法，其特征在于，采用Bow、GRU、CNN中任一种替换LSTM。