CN113723328A - 一种图表文档面板分析理解方法 - Google Patents

一种图表文档面板分析理解方法 Download PDF

Info

Publication number
CN113723328A
CN113723328A CN202111038235.6A CN202111038235A CN113723328A CN 113723328 A CN113723328 A CN 113723328A CN 202111038235 A CN202111038235 A CN 202111038235A CN 113723328 A CN113723328 A CN 113723328A
Authority
CN
China
Prior art keywords
legend
chart
scale
chart document
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111038235.6A
Other languages
English (en)
Other versions
CN113723328B (zh
Inventor
张河锁
金连文
马伟洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111038235.6A priority Critical patent/CN113723328B/zh
Publication of CN113723328A publication Critical patent/CN113723328A/zh
Application granted granted Critical
Publication of CN113723328B publication Critical patent/CN113723328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种图表文档面板分析理解方法,包括:采集初始图表文档,对初始图表文档进行分析,获得图表分析数据集;构建关键点分割模型,基于图表分析数据集和关键点分割模型获得刻度点的位置坐标;构建多目标检测模型,基于多目标检测模型进行图例位置检测,获得图例位置;基于矩形拓展的刻度点与刻度值匹配规则和最大交并比的图例与标签匹配规则对刻度点的位置坐标和图例位置进行分析,获得图表文档面板的分析结果。本发明提出的方法高效精准地解决了图表文档的面板理解问题,对实现机器对图表文档的自动化数据提取和内容理解具有重要的积极作用。

Description

一种图表文档面板分析理解方法
技术领域
本发明涉及图像精确定位和元素匹配技术领域,特别是涉及一种图表文档面板分析理解方法。
背景技术
图表作为一种包含丰富语义信息的特殊类型文档,可以以一种更加直观的格式展示数据,通常用来总结实验结果或结论。普通文档的分析与识别(DAR)任务已经被研究了几十年,但图表文档分析与识别(CHART-DAR)仍然是一个亟需解决的问题。因为图表有其自身的特点,比如多样性、格式不确定性和语义性,使得CHART-DAR任务与其他文档分析任务有很大的不同和难点。图表文档的分析理解涉及多个子任务,其中一个基本和重要的问题就是如何对图表的基本物理结构进行理解,包括对图表中的图例、坐标轴等的分析理解。
现有的一些有关图表文献的方法,主要把这个问题建模为问题-答案模型,但在某些情况下,我们想从图表中获取的信息是不确定的,问题-答案模型不能满足我们的需求。一个更常见的任务是图表重建,也即是从图表中提取数据。但由于图表的类型众多,每种类型的差异巨大,同时不同人制作的图表的格式又有一定的自由性,所以目前缺少一种针对通用图表文档的分析方法。近年来,随着深度神经网络的发展,开始有相关基于深度学习的方法关注到图表文档分析问题,但现有的工作倾向于解决任何特定类型的图表的问题,如散点图、条形图或饼状图,而且所提出的方法不适用于一些比较复杂的图表。一般地,图表分析问题由于其复杂性,会划分为若干个子任务,对图表面板的分析也成为一个很重要的基本任务。
因此,亟需一种图表文档面板分析理解方法,对图表文档的面板进行分析理解,以达到对图表基本面板结构掌握的目的,有利于下游任务对图表内容的语义化理解。
发明内容
本发明的目的是提供一种图表文档面板分析理解方法,以解决上述现有技术存在的问题,使机器能够自动化理解图表文档的面板物理结构。
为实现上述目的,本发明提供了如下方案:本发明提供一种图表文档面板分析理解方法,包括如下内容:
采集初始图表文档,对所述初始图表文档进行分析,获得图表分析数据集;
构建关键点分割模型,基于所述图表分析数据集和所述关键点分割模型获得刻度点的位置坐标;
构建多目标检测模型,基于所述多目标检测模型进行图例位置检测,获得图例位置;
基于矩形拓展的刻度点与刻度值匹配规则和最大交并比的图例与标签匹配规则对所述刻度点的位置坐标和所述图例位置进行分析,获得图表文档面板的分析结果。
优选地,基于所述图表分析数据集和所述关键点分割模型获得刻度点的位置坐标还包括,以所述图表分析数据集标注的刻度点的坐标位置为中心,通过高斯核生成高斯热图,基于所述高斯热图的关键点分割模型定位图表坐标轴上的刻度点。
优选地,基于所述高斯热图的关键点分割模型定位图表坐标轴上的刻度点包括,将所述高斯热图作为所述关键点分割模型的监督信息,基于全卷积分割网络,获得概率值预测图;基于所述高斯热图,计算交叉熵损失,获得高斯预测热图;根据所述高斯预测热图和概率阈值,通过所述概率值预测图,获得所述刻度点的位置坐标。
优选地,所述多目标检测模型基于图例、图例-标签对、主体绘图区域构建;
基于所述多目标检测模型进行图例位置检测包括通过采用基于三层检验头的检测模型,同时对所述图例、图例-标签对、主体绘图区域的位置进行检测,获得所述图例位置。
优选地,所述基于矩形拓展的刻度点与刻度值匹配规则用于通过所述主体区域的位置检测滤除无关文本位置,将所述刻度点的位置坐标与所述文本位置进行匹配,获得刻度值文本。
优选地,所述最大交并比的图例与标签匹配规则用于对所述图例与图例-标签对进行匹配;和对所述图例-标签对与所有文本进行匹配,获得对应的图例标签文本;基于所述图例标签文本获得所述图例与所述图例-标签文本的匹配关系。
优选地,获得所述图表文档面板的分析结果包括获得图表的主体绘图区域位置、图例的位置及其对应的图例标签、坐标刻度点的位置及其对应的刻度值。
本发明公开了以下技术效果:
本发明使用的检测模型可同时对图例与图例-标签对进行检测,通过可学习的模型定位模型-标签对的位置,利用该中间结果方便了后续的匹配操作。
本发明提出的基于矩形拓展的刻度点与刻度值匹配规则,设定的不同的矩形宽高比兼顾了X轴和Y轴的刻度点,同时结合图表主体区域检测结果,可以帮助滤除了一部分无关的文本,剩下的文本为候选刻度值文本参与匹配。
本发明通过采用最大交并比的匹配方法来间接地匹配图例与标签,灵活地使用模型输出作为中间结果来辅助匹配,避免了手动设计规则来匹配。基于最大交并比的匹配规则,由于更加关注目标形状重叠的程度,而非距离,可以更灵活地适应图例与图例-标签对的尺度变化。
本发明解决了多种类型、样式复杂的图表文档的通用面板分析理解的问题,可以简单、系统地分析图表文档的面板结构,方法在不同子任务中巧妙地结合了检测和分割模型的优点,并提出了高效的匹配方法,取得了精准的面板分析性能。方法对进一步实现机器对于图表文档的重建与自动化理解具有重要的作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的图表文档面板分析理解方法的流程图;
图2是本发明实施例的使用的数据集的多样性实例示意图;
图3是本发明实施例的刻度点分割模型使用的高斯热图实例示意图;
图4是本发明实施例的坐标轴分析结果实例示意图;
图5是本发明实施例的图例分析结果实例示意图;
图6是本发明实施例的最终结果实例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种图表文档面板分析理解方法,首先,对使用到的公开图表分析数据集进行相关的数据分析,主要为图例的宽、高、宽高比分布情况的分析,为后续模型参数的选定提供指导。发明的方法的开发过程中,主要用到了ICDAR Synth2019、Adobe Synth2020与UB PMC2020共三个数据集,数据集的样本数目如表1所示,数据集中多样性的图表图片实例如图2所示。
表1
Figure BDA0003248157170000051
关键点分割模型:首先以数据集中标注的刻度点的坐标位置为中心,选取合适大小的高斯核来生成高斯热图,作为分割模型的监督信息,生成的高斯热图的如图3所示。接下来,通过输入640x640大小的输入图片到全卷积分割网络中,得到各像素的概率值预测图,根据前面从标注得到的高斯热图,计算交叉熵损失进行模型的训练。最终得到的热图则反应了刻度点位置的分布信息,再选取合适的概率阈值,从概率图中定位到刻度点的坐标位置。
图例、图例-标签对、主体绘图区域多目标检测模型:图表图片中,图例往往是一个很小的目标,并且要求有比较高的检测准确度。所以本发明使用了一种具有三个具有逐增的IoU阈值的检测头的检测网络,并通过调整Anchor的大小和密度来适应图例的小尺度特性,显著地提升了检测网络对图例小目标的召回率和准确度。同时,为了方便后续图例与文本的匹配,并定位图表主体的绘图区域,检测模型对图例-标签对和主体绘图区域这两个目标同时也作了检测(三个类别用同一个检测网络实现)。
基于矩形拓展的刻度点与刻度值匹配规则:根据关键点分割模型得到刻度点的位置坐标,然后需要把刻度点与刻度值进行匹配。匹配时需要适应多个不同方向的坐标轴上的刻度点,同时也要适应候选文本可能存在位置的不确定性。本发明为解决这个问题,设计了如下表伪代码所示的算法:
Figure BDA0003248157170000061
7.遍历集合result中的结果,移除多余的匹配结果
表2
Figure BDA0003248157170000071
进一步地,通过实验比较了本发明提出的匹配规则与常用的基于最近欧式距离的匹配规则,以及通过主体区域检测来滤除部分候选文本对匹配结果的影响,如表2所示。可以看出,本发明提出的基于矩形拓展加主体区域滤除的匹配规则对匹配精度的提升是显著的,最终得到的效果图如附图4所示。
基于最大交并比的图例与标签匹配规则:检测到图例位置之后,需要将其与对应的图例标签文本对应起来。与候选文本的匹配过程中,候选文本出现的位置具有较大的不确定性,同时图例的样式大小也不确定。解决这个问题通过使用检测网络输出的图例-标签对的位置来辅助匹配,同时充分利用最大交并比对目标形状不会过分敏感的特性。本发明为解决这个问题,设计了如下表伪代码所示的算法:
Figure BDA0003248157170000072
Figure BDA0003248157170000081
进一步地,通过实验比较了本发明提出的匹配规则与常用的基于欧式距离和基于包含关系的的匹配规则对结果的影响。从表3可以看出,本发明使用的匹配规则由于交并比更好地适应目标形状变换的特性,有更好的匹配效果。本实施例图例分析的最终效果图如附图5所示。
表3
Figure BDA0003248157170000082
最终,将坐标轴分析、图例分析与图表主体绘图区域定位结合起来,得到的最后的图表文档面板分析结果如附图6所示。
本发明针对通用图表文档面板分析问题研究的相对空白以及存在方法的不足之处,系统性地提出一种图表文档的面板分析理解新方法,主要包括提出了基于矩形拓展的刻度点与刻度值文本匹配规则,并通过检测模型对主体绘图区域位置的定位,滤除一部分多余文本,进一步提升了效果;也提出了同时检测图例-标签文本对来辅助图例与标签文本匹配的新思路,并结合提出的最大交并比匹配规则,实现了更好的匹配效果,方法具有系统化、泛化性强和效果好的优点。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种图表文档面板分析理解方法,其特征在于,包括如下步骤:
采集初始图表文档,对所述初始图表文档进行分析,获得图表分析数据集;
构建关键点分割模型,基于所述图表分析数据集和所述关键点分割模型获得刻度点的位置坐标;
构建多目标检测模型,基于所述多目标检测模型进行图例位置检测,获得图例位置;
基于矩形拓展的刻度点与刻度值匹配规则和最大交并比的图例与标签匹配规则对所述刻度点的位置坐标和所述图例位置进行分析,获得图表文档面板的分析结果。
2.根据权利要求1所述的图表文档面板分析理解方法,其特征在于,
基于所述图表分析数据集和所述关键点分割模型获得刻度点的位置坐标还包括,以所述图表分析数据集标注的刻度点的坐标位置为中心,通过高斯核生成高斯热图,基于所述高斯热图的关键点分割模型定位图表坐标轴上的刻度点。
3.根据权利要求2所述的图表文档面板分析理解方法,其特征在于,
基于所述高斯热图的关键点分割模型定位图表坐标轴上的刻度点包括,将所述高斯热图作为所述关键点分割模型的监督信息,基于全卷积分割网络,获得概率值预测图;基于所述高斯热图,计算交叉熵损失,获得高斯预测热图;根据所述高斯预测热图和概率阈值,通过所述概率值预测图,获得所述刻度点的位置坐标。
4.根据权利要求1所述的图表文档面板分析理解方法,其特征在于,
所述多目标检测模型基于图例、图例-标签对、主体绘图区域构建;
基于所述多目标检测模型进行图例位置检测包括通过采用基于三层检验头的检测模型,同时对所述图例、图例-标签对、主体绘图区域的位置进行检测,获得所述图例位置。
5.根据权利要求4所述的图表文档面板分析理解方法,其特征在于,
所述基于矩形拓展的刻度点与刻度值匹配规则用于通过所述主体区域的位置检测滤除无关文本位置,将所述刻度点的位置坐标与所述文本位置进行匹配,获得刻度值文本。
6.根据权利要求4所述的图表文档面板分析理解方法,其特征在于,
所述最大交并比的图例与标签匹配规则用于对所述图例与图例-标签对进行匹配;和对所述图例-标签对与所有文本进行匹配,获得对应的图例标签文本;基于所述图例标签文本获得所述图例与所述图例-标签文本的匹配关系。
7.根据权利要求4所述的图表文档面板分析理解方法,其特征在于,
获得所述图表文档面板的分析结果包括获得图表的主体绘图区域位置、图例的位置及其对应的图例标签、坐标刻度点的位置及其对应的刻度值。
CN202111038235.6A 2021-09-06 2021-09-06 一种图表文档面板分析理解方法 Active CN113723328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111038235.6A CN113723328B (zh) 2021-09-06 2021-09-06 一种图表文档面板分析理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111038235.6A CN113723328B (zh) 2021-09-06 2021-09-06 一种图表文档面板分析理解方法

Publications (2)

Publication Number Publication Date
CN113723328A true CN113723328A (zh) 2021-11-30
CN113723328B CN113723328B (zh) 2023-11-03

Family

ID=78681932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111038235.6A Active CN113723328B (zh) 2021-09-06 2021-09-06 一种图表文档面板分析理解方法

Country Status (1)

Country Link
CN (1) CN113723328B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850249A (zh) * 2021-12-01 2021-12-28 深圳市迪博企业风险管理技术有限公司 一种图表信息格式化提取方法
CN115331013A (zh) * 2022-10-17 2022-11-11 杭州恒生聚源信息技术有限公司 折线图的数据提取方法及处理设备
CN115620322A (zh) * 2022-12-20 2023-01-17 华南理工大学 一种基于关键点检测的全线表表格结构识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110909732A (zh) * 2019-10-14 2020-03-24 杭州电子科技大学上虞科学与工程研究院有限公司 一种图中数据的自动提取方法
CN113095267A (zh) * 2021-04-22 2021-07-09 上海携宁计算机科技股份有限公司 统计图的数据提取方法、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110909732A (zh) * 2019-10-14 2020-03-24 杭州电子科技大学上虞科学与工程研究院有限公司 一种图中数据的自动提取方法
CN113095267A (zh) * 2021-04-22 2021-07-09 上海携宁计算机科技股份有限公司 统计图的数据提取方法、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850249A (zh) * 2021-12-01 2021-12-28 深圳市迪博企业风险管理技术有限公司 一种图表信息格式化提取方法
CN115331013A (zh) * 2022-10-17 2022-11-11 杭州恒生聚源信息技术有限公司 折线图的数据提取方法及处理设备
CN115331013B (zh) * 2022-10-17 2023-02-24 杭州恒生聚源信息技术有限公司 折线图的数据提取方法及处理设备
CN115620322A (zh) * 2022-12-20 2023-01-17 华南理工大学 一种基于关键点检测的全线表表格结构识别方法
CN115620322B (zh) * 2022-12-20 2023-04-07 华南理工大学 一种基于关键点检测的全线表表格结构识别方法

Also Published As

Publication number Publication date
CN113723328B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN113723328A (zh) 一种图表文档面板分析理解方法
Schreiber et al. Deepdesrt: Deep learning for detection and structure recognition of tables in document images
Harouni et al. Online Persian/Arabic script classification without contextual information
CN111259210B (zh) 用于从管道和仪表图中自动化提取信息的系统和方法
CN110050277A (zh) 用于将手写文本转换成数字墨水的方法和系统
CN109766885B (zh) 一种文字检测方法、装置、电子设备及存储介质
Long et al. Parsing table structures in the wild
CN112597773B (zh) 文档结构化方法、系统、终端及介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN102663454A (zh) 一种字符书写规范度评测的方法和装置
CN112651323B (zh) 一种基于文本行检测的中文手写体识别方法及系统
CN109389050B (zh) 一种流程图连接关系识别方法
CN111027456A (zh) 基于图像识别的机械水表读数识别方法
Kasar et al. Table information extraction and structure recognition using query patterns
CN113705286A (zh) 一种表格检测与识别方法和介质
CN105335689A (zh) 字符识别方法和装置
Reza et al. Table localization and segmentation using GAN and CNN
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
Bajić et al. Review of chart image detection and classification
Schäfer et al. Sketch2process: End-to-end bpmn sketch recognition based on neural networks
JP2010198308A (ja) 文字認識プログラム、文字認識方法および文字認識装置
CN110751152B (zh) 检测任意形状文本的方法
Li et al. Detection of overlapped quadrangles in plane geometric figures
CN115995092A (zh) 图纸文字信息提取方法、装置、设备
Bains et al. Dynamic features based stroke recognition system for signboard images of Gurmukhi text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant