CN110659398A - 一种基于数学图表类数据集的视觉问答方法 - Google Patents

一种基于数学图表类数据集的视觉问答方法 Download PDF

Info

Publication number
CN110659398A
CN110659398A CN201910626792.6A CN201910626792A CN110659398A CN 110659398 A CN110659398 A CN 110659398A CN 201910626792 A CN201910626792 A CN 201910626792A CN 110659398 A CN110659398 A CN 110659398A
Authority
CN
China
Prior art keywords
question
visual
answering
data set
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910626792.6A
Other languages
English (en)
Inventor
张迪雅
周尔强
杨航
银正强
曹黛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910626792.6A priority Critical patent/CN110659398A/zh
Publication of CN110659398A publication Critical patent/CN110659398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视觉问答技术领域,公开了一种基于数学图表类数据集的视觉问答方法,针对现有的五类数学图表类视觉问答问题,现提出如下方案,其包括以下步骤:S1,基于Faster‑RCNN模型的目标检测;该模型用于识别属于某些类的对象实例,并通过边界框确定对象在图像中的位置;S2,基于目标检测结果的对象特征编码;S3,问题‑答案对预处理;S4,文本问题特征抽取;S5,基于关系推理模块的视觉智能问答,S1中,基于Faster‑RCNN模型的目标检测包括两个阶段检测对象。本发明提出一个结合了目标检测和推理模块的解决方案,用于解决五类数学图表类视觉问答问题,提高了准确率。

Description

一种基于数学图表类数据集的视觉问答方法
技术领域
本发明涉及视觉问答技术领域,尤其涉及一种基于数学图表类数据集的视觉问答方法。
背景技术
视觉问答是一个新颖的问题领域,视觉问答系统需要处理任务提供的图像和自然语言输入,结合推理过程得到准确的自然语言答案。
目前大多数视觉问答系统基于镜像真实场景的数据集进行实现,但是基于数学图表类数据集的视觉问答研究很少;Revanth Reddy提出的模型目前无法解决线图问题。
发明内容
本发明提出的一种基于数学图表类数据集的视觉问答方法,解决了现有的五类数学图表类视觉问答问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于数学图表类数据集的视觉问答方法,包括以下步骤:
S1,基于Faster-RCNN模型的目标检测,基于Faster-RCNN模型的目标检测包括两个阶段检测对象:区域候选网络提出目标的区域候选框,在最后的共享卷积层的卷积特征图输出上滑动一个小网络,每个滑动窗口同时预测k个区域建议,并对交并比大于一定阈值的候选框进行非极大值抑制,选择得分最高的候选框最为第二阶段的输入,在感兴趣区域池化层,提取区域候选框的特征图批量属于到一个卷积层,最终输出每个对象标签上的softmax分布以及对象边界框信息;
S2,基于目标检测结果的对象特征编码;
S3,问题-答案对预处理;
S4,文本问题特征抽取;
S5,基于关系推理模块的视觉智能问答。
优选的,所述步骤S1中,采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN模型进行目标检测。
优选的,所述S2中,所述对象特征编码的具体步骤可为:解码检测到图像上的一组N个对象:
Figure BDA0002127373160000021
优选的,所述S3中,所述问题-答案对预处理的具体步骤可为:无论是训练集合适测试集,每个输入的实例都是一个文本问题和一个图像,首先需要对文本问题进行分词处理,通过空格符号将单词分开,预先在FigureQA的问题数据集上进行预训练生成问题词汇字典,通过该词汇表得到文本问题的有效编码,单词由大小为32的嵌入表示,
q=[q1,...qT]
其中qt是问题中第t个单词得嵌入向量表示。
优选的,所述S5中,所述文本问题特征抽取的具体步骤可为:
使用递归神经网络对问题特征进行抽取,递归网络的处理单位为 LSTM单位;最终获得问题内容的表征fq,该特征表示为:
hq=LSTM(qt),t∈{1,2,...T}
优选的,所述步骤S5使用RN复合函数进行问答,RN复合函数为:
Figure BDA0002127373160000031
其中,f()和g()都是多层感知机,其中g()的作用是推断两个对象相关的方式,输出可以称之为关系。
优选的,采用Bow、GRU、CNN中任一种替换LSTM。
本发明的有益效果是:通过目标检测模块Faster-RCNN,解析获取图像对象的位置信息以及属性信息作为图像特征和问题特征关联输入到通用推理模块,通过提取图像中和问题相关的区域有效信息以实现更深入的图像理解帮助后续答案推理,从而提高了准确率。本发明提出一个结合了目标检测和推理模块的解决方案,用于解决五类数学图表类视觉问答问题,提高了准确率。
附图说明
图1为FigureQA数据集中的图表类型示意图。
图2为本发明提出的VQA模型概述示意图。
图3为本发明提出的柱状图场景解析示意图。
图4为线图目标检测结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-4,一种基于数学图表类数据集的视觉问答方法,包括以下步骤:
S1,基于Faster-RCNN模型的目标检测,基于Faster-RCNN模型的目标检测包括两个阶段检测对象:区域候选网络提出目标的区域候选框,在最后的共享卷积层的卷积特征图输出上滑动一个小网络,每个滑动窗口同时预测k个区域建议,并对交并比大于一定阈值的候选框进行非极大值抑制,选择得分最高的候选框最为第二阶段的输入,在感兴趣区域池化层,提取区域候选框的特征图批量属于到一个卷积层,最终输出每个对象标签上的softmax分布以及对象边界框信息;
S2,基于目标检测结果的对象特征编码;
S3,问题-答案对预处理;
S4,文本问题特征抽取;
S5,基于关系推理模块的视觉智能问答。
步骤S1中,采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN 模型进行目标检测。
S2中,对象特征编码的具体步骤可为:解码检测到图像上的一组N个对象:
Figure BDA0002127373160000041
S3中,问题-答案对预处理的具体步骤可为:无论是训练集合适测试集,每个输入的实例都是一个文本问题和一个图像,首先需要对文本问题进行分词处理,通过空格符号将单词分开。我们预先在 FigureQA的问题数据集上进行预训练生成问题词汇字典,通过该词汇表我们可以得到文本问题的有效编码,单词由大小为32的嵌入表示,
q=[q1,...qT]
其中qt是问题中第t个单词得嵌入向量表示。
S5中,文本问题特征抽取的具体步骤可为:
使用递归神经网络对问题特征进行抽取,递归网络的处理单位为 LSTM单位;最终获得问题内容的表征fq,该特征表示为:
hq=LSTM(qt),t∈{1,2,...T}
其中,T表示为递归网络对每个问题处理的最大步数。
S5中,基于关系推理模块的视觉智能问答的具体步骤可为:关系推理网络的设计理念是让神经网络具备推理关系的能力,换句话说,计算关系的能力被纳入到关系推理架构中,而不需要学习,就像建立空间,平移不变属性的能力被内置到CNN一样,循环神经网络能够学习顺序依赖关系的能力。RN最简单的形式是一个复合函数:
Figure BDA0002127373160000051
其中输入的是一组对象(\begin{equation}\mathrm{O}=\left\{o 1,02,\dots,o_{n}\right\},o_{i}\in\mathbb{R}^{m}\end{equatio n}),Latex表达式,需要转换成数学表达式:
Figure BDA0002127373160000052
对本任务而言,f()和g()都是多层感知机,其中g()的作用是推断两个对象相关的方式,输出可以称之为关系。
本实施例中,图表泛指在屏幕中显示的,可直观展示统计信息属性(时间性、数量性等),对知识挖掘和信息直观生动感受起关键作用的图形结构,是一种很好的将对象属性数据直观、形象地"可视化" 的手段,图表的类型很多种,而视觉问答图数据集FigureQA图表有 5种类型见图1。
目前FigureQA数据集的准确率还达不到人类水平,测试集准确率为72.54%,而人类在该数据集的准确率达到了93.29%,为此本发明采用基于Faster-RCNN+LSTM+RN的显著区域视觉推理模型,任务求解过程见图2,首先通过目标检测模块Faster-RCNN,解析获取图像对象的位置信息以及属性信息作为图像特征和问题特征关联输入到通用推理模块,通过提取图像中和问题相关的区域有效信息以实现更深入的图像理解帮助后续答案推理,从而提高了准确率,准确率达到 86%。
本实施例中,其中对于柱状图和饼图,期望解析得到不同对象的相对大小以及颜色特征,具体如图3;而线图由于其自身特征,如果采用和上述两种图同样的方式,我们很难通过目标检测结果解析得到有效的图像信息。所以线图中同一条线由多个目标检测框得到,具体如图4,因此我们在解析线图时,先对目标检测结果进行分类,具有相同标签的检测框代表属于同一对象,此时我们得到不同对象的一系列目标检测框,本方案采用框的中心点线图的关键点,这步操作将目标检测框映射到线图的关键点。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于数学图表类数据集的视觉问答方法,包括以下步骤:
S1,基于Faster-RCNN模型的目标检测,基于Faster-RCNN模型的目标检测包括两个阶段检测对象:区域候选网络提出目标的区域候选框,在最后的共享卷积层的卷积特征图输出上滑动一个小网络,每个滑动窗口同时预测k个区域建议,并对交并比大于一定阈值的候选框进行非极大值抑制,选择得分最高的候选框最为第二阶段的输入,在感兴趣区域池化层,提取区域候选框的特征图批量属于到一个卷积层,最终输出每个对象标签上的softmax分布以及对象边界框信息;
S2,基于目标检测结果的对象特征编码;
S3,问题-答案对预处理;
S4,文本问题特征抽取;
S5,基于关系推理模块的视觉智能问答。
2.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述步骤S1中,采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN模型进行目标检测。
3.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述S2中,所述对象特征编码的具体步骤可为:解码检测到图像上的一组N个对象:
Figure FDA0002127373150000011
4.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述S3中,所述问题-答案对预处理的具体步骤可为:无论是训练集合适测试集,每个输入的实例都是一个文本问题和一个图像,首先需要对文本问题进行分词处理,通过空格符号将单词分开,预先在FigureQA的问题数据集上进行预训练生成问题词汇字典,通过该词汇表得到文本问题的有效编码,单词由大小为32的嵌入表示,
q=[q1,...qT]
其中qt是问题中第t个单词得嵌入向量表示。
5.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述S5中,所述文本问题特征抽取的具体步骤可为:
使用递归神经网络对问题特征进行抽取,递归网络的处理单位为LSTM单位;最终获得问题内容的表征fq,该特征表示为:
hq=LSTM(qt),t∈{1,2,...T}。
6.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述步骤S5使用RN复合函数进行问答,RN复合函数为:
Figure FDA0002127373150000021
其中,f()和g()都是多层感知机,其中g()的作用是推断两个对象相关的方式,输出可以称之为关系。
7.根据权利要求5所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,采用Bow、GRU、CNN中任一种替换LSTM。
CN201910626792.6A 2019-07-11 2019-07-11 一种基于数学图表类数据集的视觉问答方法 Pending CN110659398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910626792.6A CN110659398A (zh) 2019-07-11 2019-07-11 一种基于数学图表类数据集的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626792.6A CN110659398A (zh) 2019-07-11 2019-07-11 一种基于数学图表类数据集的视觉问答方法

Publications (1)

Publication Number Publication Date
CN110659398A true CN110659398A (zh) 2020-01-07

Family

ID=69030954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626792.6A Pending CN110659398A (zh) 2019-07-11 2019-07-11 一种基于数学图表类数据集的视觉问答方法

Country Status (1)

Country Link
CN (1) CN110659398A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860653A (zh) * 2020-07-22 2020-10-30 苏州浪潮智能科技有限公司 一种视觉问答方法、装置及电子设备和存储介质
CN112100358A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于匹配算法的视觉问答方法及系统
CN112765580A (zh) * 2021-01-22 2021-05-07 电子科技大学 一种在线考试试题保护与防抵赖方法及系统
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADAM SANTORO 等: "A simple neural network module for relational reasoning", 《COMPUTER SCIENCE》 *
大奥特曼打小怪兽: "第三十一节,目标检测算法之 Faster R-CNN算法详解", 《HTTPS://WWW.CNBLOGS.COM/ZYLY/P/9247863.HTML》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860653A (zh) * 2020-07-22 2020-10-30 苏州浪潮智能科技有限公司 一种视觉问答方法、装置及电子设备和存储介质
CN112100358A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于匹配算法的视觉问答方法及系统
CN112765580A (zh) * 2021-01-22 2021-05-07 电子科技大学 一种在线考试试题保护与防抵赖方法及系统
CN112765580B (zh) * 2021-01-22 2022-09-13 电子科技大学 一种在线考试试题保护与防抵赖方法及系统
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113283248B (zh) * 2021-04-29 2022-06-21 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN108416377B (zh) 柱状图中的信息提取方法及装置
US11842487B2 (en) Detection model training method and apparatus, computer device and storage medium
CN110659398A (zh) 一种基于数学图表类数据集的视觉问答方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
KR20200098379A (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN111950638A (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
CN109145871B (zh) 心理行为识别方法、装置与存储介质
CN111368788A (zh) 图像识别模型的训练方法、装置及电子设备
CN113255915B (zh) 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN108345833A (zh) 数学公式的识别方法及系统和计算机设备
CN113657168A (zh) 基于卷积神经网络的学生学习情绪的识别方法
Azizah et al. Tajweed-YOLO: Object Detection Method for Tajweed by Applying HSV Color Model Augmentation on Mushaf Images
JP7293658B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111291754A (zh) 一种文本级联检测方法、装置及存储介质
CN116612478A (zh) 一种脱机手写汉字的评分方法、装置及存储介质
KR20210001817A (ko) 한자인식시스템 및 이를 이용한 한자인식방법
CN113362088A (zh) 一种基于crnn的电信行业智能客服图像识别的方法及其系统
CN113420760A (zh) 一种基于分割和形变lstm的手写体蒙古文检测和识别方法
CN113255666A (zh) 一种基于计算机视觉的个性化答疑系统与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200107