CN110659398A - 一种基于数学图表类数据集的视觉问答方法 - Google Patents
一种基于数学图表类数据集的视觉问答方法 Download PDFInfo
- Publication number
- CN110659398A CN110659398A CN201910626792.6A CN201910626792A CN110659398A CN 110659398 A CN110659398 A CN 110659398A CN 201910626792 A CN201910626792 A CN 201910626792A CN 110659398 A CN110659398 A CN 110659398A
- Authority
- CN
- China
- Prior art keywords
- question
- visual
- answering
- data set
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及视觉问答技术领域,公开了一种基于数学图表类数据集的视觉问答方法,针对现有的五类数学图表类视觉问答问题,现提出如下方案,其包括以下步骤:S1,基于Faster‑RCNN模型的目标检测;该模型用于识别属于某些类的对象实例,并通过边界框确定对象在图像中的位置;S2,基于目标检测结果的对象特征编码;S3,问题‑答案对预处理;S4,文本问题特征抽取;S5,基于关系推理模块的视觉智能问答,S1中,基于Faster‑RCNN模型的目标检测包括两个阶段检测对象。本发明提出一个结合了目标检测和推理模块的解决方案,用于解决五类数学图表类视觉问答问题,提高了准确率。
Description
技术领域
本发明涉及视觉问答技术领域,尤其涉及一种基于数学图表类数据集的视觉问答方法。
背景技术
视觉问答是一个新颖的问题领域,视觉问答系统需要处理任务提供的图像和自然语言输入,结合推理过程得到准确的自然语言答案。
目前大多数视觉问答系统基于镜像真实场景的数据集进行实现,但是基于数学图表类数据集的视觉问答研究很少;Revanth Reddy提出的模型目前无法解决线图问题。
发明内容
本发明提出的一种基于数学图表类数据集的视觉问答方法,解决了现有的五类数学图表类视觉问答问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于数学图表类数据集的视觉问答方法,包括以下步骤:
S1,基于Faster-RCNN模型的目标检测,基于Faster-RCNN模型的目标检测包括两个阶段检测对象:区域候选网络提出目标的区域候选框,在最后的共享卷积层的卷积特征图输出上滑动一个小网络,每个滑动窗口同时预测k个区域建议,并对交并比大于一定阈值的候选框进行非极大值抑制,选择得分最高的候选框最为第二阶段的输入,在感兴趣区域池化层,提取区域候选框的特征图批量属于到一个卷积层,最终输出每个对象标签上的softmax分布以及对象边界框信息;
S2,基于目标检测结果的对象特征编码;
S3,问题-答案对预处理;
S4,文本问题特征抽取;
S5,基于关系推理模块的视觉智能问答。
优选的,所述步骤S1中,采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN模型进行目标检测。
优选的,所述S2中,所述对象特征编码的具体步骤可为:解码检测到图像上的一组N个对象:
优选的,所述S3中,所述问题-答案对预处理的具体步骤可为:无论是训练集合适测试集,每个输入的实例都是一个文本问题和一个图像,首先需要对文本问题进行分词处理,通过空格符号将单词分开,预先在FigureQA的问题数据集上进行预训练生成问题词汇字典,通过该词汇表得到文本问题的有效编码,单词由大小为32的嵌入表示,
q=[q1,...qT]
其中qt是问题中第t个单词得嵌入向量表示。
优选的,所述S5中,所述文本问题特征抽取的具体步骤可为:
使用递归神经网络对问题特征进行抽取,递归网络的处理单位为 LSTM单位;最终获得问题内容的表征fq,该特征表示为:
hq=LSTM(qt),t∈{1,2,...T}
优选的,所述步骤S5使用RN复合函数进行问答,RN复合函数为:
其中,f()和g()都是多层感知机,其中g()的作用是推断两个对象相关的方式,输出可以称之为关系。
优选的,采用Bow、GRU、CNN中任一种替换LSTM。
本发明的有益效果是:通过目标检测模块Faster-RCNN,解析获取图像对象的位置信息以及属性信息作为图像特征和问题特征关联输入到通用推理模块,通过提取图像中和问题相关的区域有效信息以实现更深入的图像理解帮助后续答案推理,从而提高了准确率。本发明提出一个结合了目标检测和推理模块的解决方案,用于解决五类数学图表类视觉问答问题,提高了准确率。
附图说明
图1为FigureQA数据集中的图表类型示意图。
图2为本发明提出的VQA模型概述示意图。
图3为本发明提出的柱状图场景解析示意图。
图4为线图目标检测结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-4,一种基于数学图表类数据集的视觉问答方法,包括以下步骤:
S1,基于Faster-RCNN模型的目标检测,基于Faster-RCNN模型的目标检测包括两个阶段检测对象:区域候选网络提出目标的区域候选框,在最后的共享卷积层的卷积特征图输出上滑动一个小网络,每个滑动窗口同时预测k个区域建议,并对交并比大于一定阈值的候选框进行非极大值抑制,选择得分最高的候选框最为第二阶段的输入,在感兴趣区域池化层,提取区域候选框的特征图批量属于到一个卷积层,最终输出每个对象标签上的softmax分布以及对象边界框信息;
S2,基于目标检测结果的对象特征编码;
S3,问题-答案对预处理;
S4,文本问题特征抽取;
S5,基于关系推理模块的视觉智能问答。
步骤S1中,采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN 模型进行目标检测。
S2中,对象特征编码的具体步骤可为:解码检测到图像上的一组N个对象:
S3中,问题-答案对预处理的具体步骤可为:无论是训练集合适测试集,每个输入的实例都是一个文本问题和一个图像,首先需要对文本问题进行分词处理,通过空格符号将单词分开。我们预先在 FigureQA的问题数据集上进行预训练生成问题词汇字典,通过该词汇表我们可以得到文本问题的有效编码,单词由大小为32的嵌入表示,
q=[q1,...qT]
其中qt是问题中第t个单词得嵌入向量表示。
S5中,文本问题特征抽取的具体步骤可为:
使用递归神经网络对问题特征进行抽取,递归网络的处理单位为 LSTM单位;最终获得问题内容的表征fq,该特征表示为:
hq=LSTM(qt),t∈{1,2,...T}
其中,T表示为递归网络对每个问题处理的最大步数。
S5中,基于关系推理模块的视觉智能问答的具体步骤可为:关系推理网络的设计理念是让神经网络具备推理关系的能力,换句话说,计算关系的能力被纳入到关系推理架构中,而不需要学习,就像建立空间,平移不变属性的能力被内置到CNN一样,循环神经网络能够学习顺序依赖关系的能力。RN最简单的形式是一个复合函数:
其中输入的是一组对象(\begin{equation}\mathrm{O}=\left\{o 1,02,\dots,o_{n}\right\},o_{i}\in\mathbb{R}^{m}\end{equatio n}),Latex表达式,需要转换成数学表达式:对本任务而言,f()和g()都是多层感知机,其中g()的作用是推断两个对象相关的方式,输出可以称之为关系。
本实施例中,图表泛指在屏幕中显示的,可直观展示统计信息属性(时间性、数量性等),对知识挖掘和信息直观生动感受起关键作用的图形结构,是一种很好的将对象属性数据直观、形象地"可视化" 的手段,图表的类型很多种,而视觉问答图数据集FigureQA图表有 5种类型见图1。
目前FigureQA数据集的准确率还达不到人类水平,测试集准确率为72.54%,而人类在该数据集的准确率达到了93.29%,为此本发明采用基于Faster-RCNN+LSTM+RN的显著区域视觉推理模型,任务求解过程见图2,首先通过目标检测模块Faster-RCNN,解析获取图像对象的位置信息以及属性信息作为图像特征和问题特征关联输入到通用推理模块,通过提取图像中和问题相关的区域有效信息以实现更深入的图像理解帮助后续答案推理,从而提高了准确率,准确率达到 86%。
本实施例中,其中对于柱状图和饼图,期望解析得到不同对象的相对大小以及颜色特征,具体如图3;而线图由于其自身特征,如果采用和上述两种图同样的方式,我们很难通过目标检测结果解析得到有效的图像信息。所以线图中同一条线由多个目标检测框得到,具体如图4,因此我们在解析线图时,先对目标检测结果进行分类,具有相同标签的检测框代表属于同一对象,此时我们得到不同对象的一系列目标检测框,本方案采用框的中心点线图的关键点,这步操作将目标检测框映射到线图的关键点。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于数学图表类数据集的视觉问答方法,包括以下步骤:
S1,基于Faster-RCNN模型的目标检测,基于Faster-RCNN模型的目标检测包括两个阶段检测对象:区域候选网络提出目标的区域候选框,在最后的共享卷积层的卷积特征图输出上滑动一个小网络,每个滑动窗口同时预测k个区域建议,并对交并比大于一定阈值的候选框进行非极大值抑制,选择得分最高的候选框最为第二阶段的输入,在感兴趣区域池化层,提取区域候选框的特征图批量属于到一个卷积层,最终输出每个对象标签上的softmax分布以及对象边界框信息;
S2,基于目标检测结果的对象特征编码;
S3,问题-答案对预处理;
S4,文本问题特征抽取;
S5,基于关系推理模块的视觉智能问答。
2.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述步骤S1中,采用Yolo模型或者Mask-RCNN模型代替Faster-RCNN模型进行目标检测。
4.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述S3中,所述问题-答案对预处理的具体步骤可为:无论是训练集合适测试集,每个输入的实例都是一个文本问题和一个图像,首先需要对文本问题进行分词处理,通过空格符号将单词分开,预先在FigureQA的问题数据集上进行预训练生成问题词汇字典,通过该词汇表得到文本问题的有效编码,单词由大小为32的嵌入表示,
q=[q1,...qT]
其中qt是问题中第t个单词得嵌入向量表示。
5.根据权利要求1所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,所述S5中,所述文本问题特征抽取的具体步骤可为:
使用递归神经网络对问题特征进行抽取,递归网络的处理单位为LSTM单位;最终获得问题内容的表征fq,该特征表示为:
hq=LSTM(qt),t∈{1,2,...T}。
7.根据权利要求5所述的一种基于数学图表类数据集的视觉问答方法,其特征在于,采用Bow、GRU、CNN中任一种替换LSTM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626792.6A CN110659398A (zh) | 2019-07-11 | 2019-07-11 | 一种基于数学图表类数据集的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626792.6A CN110659398A (zh) | 2019-07-11 | 2019-07-11 | 一种基于数学图表类数据集的视觉问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110659398A true CN110659398A (zh) | 2020-01-07 |
Family
ID=69030954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626792.6A Pending CN110659398A (zh) | 2019-07-11 | 2019-07-11 | 一种基于数学图表类数据集的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110659398A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860653A (zh) * | 2020-07-22 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种视觉问答方法、装置及电子设备和存储介质 |
CN112100358A (zh) * | 2020-09-27 | 2020-12-18 | 四川长虹电器股份有限公司 | 一种基于匹配算法的视觉问答方法及系统 |
CN112765580A (zh) * | 2021-01-22 | 2021-05-07 | 电子科技大学 | 一种在线考试试题保护与防抵赖方法及系统 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
-
2019
- 2019-07-11 CN CN201910626792.6A patent/CN110659398A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
Non-Patent Citations (2)
Title |
---|
ADAM SANTORO 等: "A simple neural network module for relational reasoning", 《COMPUTER SCIENCE》 * |
大奥特曼打小怪兽: "第三十一节,目标检测算法之 Faster R-CNN算法详解", 《HTTPS://WWW.CNBLOGS.COM/ZYLY/P/9247863.HTML》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860653A (zh) * | 2020-07-22 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种视觉问答方法、装置及电子设备和存储介质 |
CN112100358A (zh) * | 2020-09-27 | 2020-12-18 | 四川长虹电器股份有限公司 | 一种基于匹配算法的视觉问答方法及系统 |
CN112765580A (zh) * | 2021-01-22 | 2021-05-07 | 电子科技大学 | 一种在线考试试题保护与防抵赖方法及系统 |
CN112765580B (zh) * | 2021-01-22 | 2022-09-13 | 电子科技大学 | 一种在线考试试题保护与防抵赖方法及系统 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113283248B (zh) * | 2021-04-29 | 2022-06-21 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
US11842487B2 (en) | Detection model training method and apparatus, computer device and storage medium | |
CN108416377B (zh) | 柱状图中的信息提取方法及装置 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN110659398A (zh) | 一种基于数学图表类数据集的视觉问答方法 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
KR20200098379A (ko) | 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 | |
CN109145871B (zh) | 心理行为识别方法、装置与存储介质 | |
CN111368788A (zh) | 图像识别模型的训练方法、装置及电子设备 | |
CN111950638A (zh) | 基于模型蒸馏的图像分类方法、装置和电子设备 | |
CN110851641B (zh) | 跨模态检索方法、装置和可读存储介质 | |
CN111626297A (zh) | 文字书写质量评价方法、装置、电子设备和记录介质 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN108345833A (zh) | 数学公式的识别方法及系统和计算机设备 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN113657168A (zh) | 基于卷积神经网络的学生学习情绪的识别方法 | |
CN116612478A (zh) | 一种脱机手写汉字的评分方法、装置及存储介质 | |
Abdulhamied et al. | Real-time recognition of American sign language using long-short term memory neural network and hand detection | |
JP7293658B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111291754A (zh) | 一种文本级联检测方法、装置及存储介质 | |
CN116630992A (zh) | 一种字帖网格文字智能匹配方法及系统 | |
KR20210001817A (ko) | 한자인식시스템 및 이를 이용한 한자인식방법 | |
CN113362088A (zh) | 一种基于crnn的电信行业智能客服图像识别的方法及其系统 | |
CN113420760A (zh) | 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200107 |