CN111143544A - 一种基于神经网络的柱形图信息提取方法及装置 - Google Patents

一种基于神经网络的柱形图信息提取方法及装置 Download PDF

Info

Publication number
CN111143544A
CN111143544A CN201911338681.1A CN201911338681A CN111143544A CN 111143544 A CN111143544 A CN 111143544A CN 201911338681 A CN201911338681 A CN 201911338681A CN 111143544 A CN111143544 A CN 111143544A
Authority
CN
China
Prior art keywords
histogram
text information
vector
neural network
cylindrical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911338681.1A
Other languages
English (en)
Other versions
CN111143544B (zh
Inventor
周芳芳
陈文江
赵颖
赵勇
彭燕妮
马小龙
吴青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201911338681.1A priority Critical patent/CN111143544B/zh
Publication of CN111143544A publication Critical patent/CN111143544A/zh
Application granted granted Critical
Publication of CN111143544B publication Critical patent/CN111143544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质,包括文本信息提取步骤/模块、数值信息提取步骤/模块和信息恢复步骤/模块。文本信息提取步骤/模块先使用目标检测模型对文本信息同时地进行定位和分类,然后通过光学字符识别器对文本信息进行字符识别,得到文本信息提取结果。数值信息提取步骤/模块通过编码器‑解码器架构来提取归一化的柱形值,并通过注意力模型来提高提取精确度。信息恢复步骤/模块先使用RANSAC回归对文本提取模块的结果进行错误过滤,然后恢复数值提取模块的归一化柱形值。本发明可以高效且精确地提取柱形图中的信息。

Description

一种基于神经网络的柱形图信息提取方法及装置
技术领域
本发明属于计算机信息处理技术领域,涉及到一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质。
背景技术
柱形图是一种使用广泛的图表,常用于直观地表达各类信息。柱形图所包括的信息可分为两大类,分别是文本信息和数值信息。文本信息包括六种类型,分别是图表标题、图例、x轴标题、y轴标题、x轴标签和y轴标签,它们常以字符串的形式直接出现在图表中。数值信息是指柱形图中各个柱形的值;在竖直柱形图中,它们常通过柱形的高度来表示;在水平柱形图中,它们一般通过柱形的宽度来表示。在大多数情况下,我们仅能获得柱形图的图像,而缺乏其所蕴含的原始信息。从柱形图图像中提取出来的信息在多个领域有广泛应用,如图表重新设计、深入分析和图表检索等。虽然我们人类能轻易地从柱形图中获取其中的文本信息和数值信息,计算机则不善于这类涉及“智能”的处理。因此,研发高效且精确的柱形图信息提取方法具有重要意义。
现有的图表信息提取技术大多使用传统的数字图像处理方法,涉及多个处理步骤和一些固定的提取规则,在时间和准确率上还有较大的提升空间。神经网络作为人工智能的一个分支,近年来获得了长足的发展,在多个涉及图像的领域表现出优越的性能。根据柱形图信息提取技术的现状和神经网络的发展情况,有必要设计一种基于神经网络的柱形图信息提取方法。
发明内容
针对现有技术的不足,本发明提供一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质,可以高效且精确地提取柱形图中的信息。
本发明所提供的技术方案为:
一种基于神经网络的柱形图信息提取方法,包括以下步骤:
步骤1、文本信息提取:包括目标检测模型和光学字符识别器,用于提取柱形图中所有文本信息;
步骤2、数值信息提取:包括编码器、解码器和注意力模型,以循环的方式提取柱形图中所有柱形值;
步骤3、信息恢复:对步骤1和步骤2的结果作后处理,并产生最终的提取结果。
进一步地,所述步骤1具体包括以下步骤:
步骤1.1、把待提取信息的柱形图输入到目标检测模型中;
步骤1.2、目标检测模型输出柱形图中检测到的所有文本信息的边界框坐标以及分类:D={d1,d2,d3,…},其中di={txi,tyi,twi,thi,ci}描述检测到的单个文本信息,txi和tyi分别为该文本信息边界框中心的横坐标和纵坐标,twi和thi分别为边界框的宽和高,ci为该文本信息的类别(分类包括图表标题、图例、x轴标题、y轴标题、x轴标签和y轴标签);
步骤1.3、通过边界框坐标{txi,tyi,twi,thi},从原柱形图中裁剪出所有包含文本信息的子图:I={i1,i2,i3,…},其中ii代表一个剪裁出来的子图;
步骤1.4、把所有子图I={i1,i2,i3,…}分别输入到光学字符识别器中,得到所有子图的识别结果:S={s1,s2,s3,…},其中si为子图ii的识别结果,即从子图ii中识别出来的字符串。
进一步地,所述步骤1.4中,每个子图ii的识别过程如下,首先子图ii分别顺时针旋转0度、顺时针旋转90度和逆时针旋转90度,得到3个旋转后的子图{ii1,ii2,ii3};然后这3个子图分别输入到Tesseract光学字符识别器中,得到3个识别结果:{{si1,pi1},{si2,pi2},{si3,pi3}},其中sii为从子图iii中识别出来的字符串,pii为子图iii的识别置信度;最后将从识别置信度最高的子图iii中识别出来的字符串sii作为子图ii的识别结果si
进一步地,所述步骤2具体包括以下步骤:
步骤2.1、令循环轮数t=1,柱形向量b0置为(1,1,1),隐状态h0置为零向量;
步骤2.2、把柱形图输入到编码器中,编码器提取柱形图的特征并输出对应的特征向量F=(f1,f2,…,fG)T,fi为一个行向量;
步骤2.3、特征向量F与隐状态ht-1一起输入到注意力模型中,注意力模型输出当前循环t的注意力向量At=(at1,at2,…,atG),ati为实数;
步骤2.4、将特征向量F与注意力向量At合并,得到注意力-特征向量
Figure BDA0002331662760000022
合并方法为
Figure BDA0002331662760000021
步骤2.5、将注意力-特征向量
Figure BDA0002331662760000023
和柱形向量bt-1进行拼接,拼接后的向量输入到解码器中,解码器输出柱形向量bt和隐状态ht,其中柱形向量bt={ltx,lty,lth},ltx和lty分别为相应的柱形中心的横坐标和纵坐标,lth为归一化柱形值(即lth的值位于0到1之间);
步骤2.6、令循环轮数t=t+1,循环步骤2.3到步骤2.5,直到解码器输出的柱形向量bt={0,0,0},结束循环;记当前循环轮数t=n,循环过程中提取出的柱形向量b1,b2,…,bn-1即为柱形图中提取出的所有柱形向量,其中的l1h,l2h,…,l(n-1)h即为柱形图中提取出的所有归一化柱形值。
进一步地,所述编码器包括依次连接的Xception、reshape层和全连接层;输入柱形图图片依次经过这3个部分,最终得到特征向量F。
进一步地,所述注意力模型为包含两步操作的神经网络;第一步操作先分别把特征向量F和隐状态ht-1输入到各自对应的全连接层,得到两个大小一样的矩阵,然后把这两个矩阵相加;第二个操作是把相加后得到的矩阵输入到以softmax作为激活函数的全连接层,输出结果为注意力向量At
进一步地,所述解码器包括一个LSTM循环神经网络和一个全连接层;LSTM循环神经网络把
Figure BDA0002331662760000031
和bt-1拼接后的向量及隐状态ht-1作为输入,输出隐状态ht;ht经过全连接层,得到柱形向量bt
进一步地,所述步骤1中提取的文本信息的类别包括y轴标签;
所述步骤3具体包括以下步骤:
以柱形图中带有数值标签的轴为y轴;即当柱形图为竖直柱形图时,以竖直轴(纵轴)为y轴;当柱形图为水平柱形图时,以水平轴(横轴)为y轴;
所述步骤1中提取的文本信息的类别包括x轴标签和y轴标签,其中y轴标签即数值标签;
所述步骤3具体包括以下步骤:
步骤3.1:对步骤1得到的y轴标签类文本信息进行过滤,过滤方法为:
方法1:使用RANSAC回归对文本信息提取模块输出的y轴标签类文本信息边界框中心的横坐标和纵坐标{txi,tyi}进行回归分析,过滤掉异常的边界框及其对应的子图的识别结果;
方法2:使用RANSAC回归对光学字符识别器输出的y轴标签识别结果,即包含y轴标签类文本信息的子图的识别结果si进行回归分析,过滤掉异常的y轴标签识别结果及其对应的边界框;
保留既通过方法1的过滤也通过方法2的过滤的y轴标签类文本信息(包括y轴标签类文本信息的边界框和其对应的子图的识别结果);
步骤3.2、判断柱形图的方向,即柱形图为水平柱形图还是竖直柱形图,判断标准为var(tx1,tx2,tx3,…)>var(ty1,ty2,ty3,…),其中txi和tyi为保留下来的y轴标签类文本信息边界框中心的横坐标和纵坐标,var(·)为方差;若不等式成立,柱形图为水平柱形图,否则为竖直柱形图;
步骤3.3、随机选取两个保留下来的y轴标签识别结果si和sj,先将它们分别按语义转换成数值s′i和s′j,然后计算一个映射值;当柱形图为竖直柱形图时,映射值为abs(s′i-s′j)/abs(tyi-tyj);当柱形图为水平柱形图时,映射值为abs(s′i-s′j)/abs(txi-txj),其中abs(·)为绝对值;
步骤3.4、重复步骤3.3K次,并取K次映射值的平均值作为最终的映射值M;
步骤3.5、基于归一化柱形值lth和映射值M,通过如下方法恢复原始柱形值:若柱形图为竖直柱形图,则原始柱形值为lth×H×M;若柱形图为水平柱形图,则原始柱形值为lth×W×M;其中H和W分别为柱形图的高和宽;
步骤3.6、把恢复得到的所有原始柱形值、除去y轴标签识别结果后的识别结果S={s1,s2,s3,…}以及各文本信息的类别{c1,c2,c3,…}合并在一起,由此得到最终的提取结果,其中所有原始柱形值按照相应的柱形中心的坐标大小进行排序,所有x轴标签识别结果按照相应的边界框中心的坐标大小进行排序,排序方法为:当柱形图为竖直柱形图时,按横坐标大小进行排序;当柱形图为水平柱形图时,按纵坐标大小进行排序;若存在图例类文本信息,则同样将所有图例识别结果按照相应的边界框中心的坐标大小进行排序,排序方法为:统计所有图例类文本信息边界框中心的横坐标方差和纵坐标方差,若横坐标方差大,则按横坐标大小进行排序,否则按纵坐标大小进行排序;排序过程即配对过程,排序完成后即完成了原始柱形值与x轴标签识别结果的配对,以及原始柱形值与图例的配对。
本发明还提供一种基于神经网络的柱形图信息提取装置,包括以下模块:
文本信息提取模块:包括目标检测模型和光学字符识别器,用于提取柱形图中所有文本信息;
数值信息提取模块:包括编码器、解码器和注意力模型,以循环的方式提取柱形图中所有柱形值;
信息恢复模块:对文本信息提取模块和数值信息提取模块的结果作后处理,并产生最终的提取结果。
所述装置采用上述的基于神经网络的柱形图信息提取方法提取柱形图中的信息。
本发明还提供一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~7中任一项所述的基于神经网络的柱形图信息提取方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的基于神经网络的柱形图信息提取方法。
有益效果:
本发明提供了一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质,包括文本信息提取步骤/模块、数值信息提取步骤/模块和信息恢复步骤/模块。文本信息提取步骤负责提取柱形图中所有的文本信息,包括图标题、图例、x轴标题、y轴标题、x轴标签和y轴标签;数值信息提取模块负责提取柱形图中各个柱形值;信息恢复模块负责对前两个模块的结果作后处理,并产生最终提取结果。文本信息提取步骤/模块先使用目标检测模型对文本信息同时地进行定位和分类,减少了文本信息提取的耗时,然后通过光学字符识别器对文本信息进行字符识别,得到文本信息提取结果。数值信息提取步骤/模块广泛地使用神经网络,通过编码器-解码器架构来提取柱形值,并通过注意力模型来提高提取精确度;数值信息提取模块以循环的方式工作,在每轮循环中,编码器负责提取柱形图的特征向量,注意力模型负责产生具有引导效果的注意力向量,解码器则负责解释特征向量和注意力向量,并输出归一化柱形值,数值信息提取步骤/模块提升了数值信息提取的性能和健壮性。信息恢复步骤/模块先使用RANSAC回归对文本提取模块的结果进行错误过滤,然后恢复数值提取模块的归一化柱形值,RANSAC回归分析的使用,使得整个提取方法具有较好容错性。本发明使用神经网络作为柱形图信息提取的工具,实现柱形图信息的自动化提取,具有较好的效果,可以高效且精确地提取柱形图中的信息。本发明实现的柱形图信息提取技术,可应用于图表重新设计、深入分析和图表检索等领域,推动这些领域的发展;同时该提取技术是一种自动化技术,能整合到其他大型系统中,共同构建完整解决方案。
附图说明
图1是本发明整体概览图;
图2是文本信息提取模块的概览图;
图3是数值信息提取模块的概览图;
图4是信息恢复模块的概览图;
图5是本发明实施例应用在一个柱形图上的提取效果;
图6是本发明应用在多种柱形图上的提取效果;图6(a)~图6(f)分别是本发明应用在6种不同柱形图上的提取效果。
具体实施方式
为使本发明的目的、设计思路和优点更加清楚,以下结合具体实例,并参照附图,对本发明作进一步详细说明。
实施例1:
本实施例提供了一种基于神经网络的柱形图信息提取方法,如图1所示,包括以下步骤:
步骤1、文本信息提取:包括目标检测模型和Tesseract光学字符识别器,用于提取柱形图中所有文本信息;
步骤2、数值信息提取:包括编码器、解码器和注意力模型,以循环的方式提取柱形图中所有柱形值;
步骤3、信息恢复:对步骤1和步骤2的结果作后处理,并产生最终的提取结果。
实施例2:
本实施例在实施例1的基础上,如图2所示,所述步骤1具体包括以下步骤:
步骤1.1、把待提取信息的柱形图输入到目标检测模型中;
步骤1.2、目标检测模型输出柱形图中检测到的所有文本信息的边界框坐标以及分类:D={d1,d2,d3,…},其中di={txi,tyi,twi,thi,ci}描述检测到的单个文本信息,txi和tyi分别为该文本信息边界框中心的横坐标和纵坐标,twi和thi分别为边界框的宽和高,ci为该文本信息的类别(分类包括图表标题、x轴标题、y轴标题、x轴标签和y轴标签,还可以包括图例);本实施例中,D={d1,d2,d3,…,d15},其中包括1个图表标题,0个图例,1个x轴标题,1个y轴标题,3个x轴标签和9个y轴标签;
步骤1.3、通过边界框坐标{txi,tyi,twi,thi},从原柱形图中裁剪出所有包含文本信息的子图:I={i1,i2,i3,…},其中ii代表一个剪裁出来的子图;本实施例中,I={i1,i2,i3,…,i15};
步骤1.4、把所有子图I={i1,i2,i3,…}分别输入到Tesseract光学字符识别器中,得到所有子图的识别结果:S={s1,s2,s3,…},其中si为子图ii的识别结果,即从子图ii中识别出来的字符串。
进一步地,所述步骤1.4中,每个子图ii的识别过程如下,首先子图ii分别顺时针旋转0度、顺时针旋转90度和逆时针旋转90度,得到3个旋转后的子图{ii1,ii2,ii3};然后这3个子图分别输入到Tesseract光学字符识别器中,得到3个识别结果:{{si1,pi1},{si2,pi2},{si3,pi3}},其中sii为从子图iii中识别出来的字符串,pii为子图iii的识别置信度;最后将从识别置信度最高的子图iii中识别出来的字符串sii作为子图ii的识别结果si;本实施例中,S={s1,s2,s3,…,s15}。
实施例3:
本实施例在实施例1的基础上,所述目标检测模型为Faster-RCNN;Faster-RCNN为两阶段目标检测模型,包括特征提取器(feature extractor)、区域推荐网络(regionproposal network)、分类器(classifier)和回归器(regressor)。
实施例4:
本实施例在实施例1的基础上,如图3所示,所述步骤2具体包括以下步骤:
步骤2.1、令循环轮数t=1,柱形向量b0置为(1,1,1),隐状态h0置为(0,0,0,…,0,0),h0∈R512(512维的行向量),即置h0为零向量;
步骤2.2、把待提取信息的柱形图输入到编码器中,编码器负责提取柱形图的特征并输出对应的特征向量F=(f1,f2,…,f100)T,fi∈R256(256维的行向量);
步骤2.3、特征向量F与隐状态ht-1一起输入到注意力模型中,其中隐状态ht-1∈R512(512维的行向量),注意力模型输出当前循环t的注意力向量At=(at1,at2,…,at100),ati∈R;
步骤2.4、将特征向量F与注意力向量At合并,得到注意力-特征向量
Figure BDA0002331662760000072
合并方法为
Figure BDA0002331662760000071
步骤2.5、将注意力-特征向量
Figure BDA0002331662760000073
和柱形向量bt-1进行拼接(即将256维的注意力-特征向量
Figure BDA0002331662760000074
和3维的柱形向量bt-1拼接成一个259维的向量),拼接后的向量输入到解码器中,解码器输出柱形向量bt和隐状态ht(即解码器在t轮循环(当前循环)中输出的柱形向量和隐状态),其中柱形向量bt=(ltx,lty,lth),ltx和lty为柱形中心的横坐标和纵坐标,lth为归一化柱形值,对于竖直柱形图,lth等于柱形的高度除以图片的高度;对于水平柱形图,对于等于柱形的宽度除以图片的宽度,lth的值位于0到1之间;
步骤2.6、令循环轮数t=t+1,循环步骤2.3到步骤2.5,直到解码器输出的柱形向量bt=(0,0,0),此特殊柱形向量表示柱形图中所有柱形向量(数值信息)已提取完毕,结束循环;记当前循环轮数t=n,循环过程中提取出的柱形向量b1,b2,…,bn-1即为柱形图中提取出的所有柱形向量,其中的l1h,l2h,…,l(n-1)h即为柱形图中提取出的所有归一化柱形值。本实施例中n=4。
实施例5:
本实施例在实施例4的基础上,所述编码器包括依次连接的Xception、reshape层和全连接层(fully connected层);将柱形图缩放成299×299的尺寸,然后输入到Xception中;Xception是一个126层的卷积神经网络,reshape层把Xception输出的10×10×2048的三维特征向量重新编排成100×2048的二维特征向量,全连接层把reshape层的输出通过非线性变换(使用ReLU激活函数)转化成100×256的二维特征向量;全连接层仅对输入特征向量的最后一维作运算。
实施例6:
本实施例在实施例4的基础上,所述注意力模型为包含两步操作的神经网络;第一步操作先分别把特征向量F和隐状态ht-1输入到各自对应的全连接层(fully connected层),得到两个大小均为100×512的矩阵,然后把这两个矩阵相加;第二个操作是把相加后得到的矩阵输入到以softmax作为激活函数的全连接层,输出结果为注意力向量At
实施例7:
本实施例在实施例4的基础上,所述解码器包括一个LSTM循环神经网络和一个全连接层(fully connected层);LSTM循环神经网络包括512个神经元,即其产生的隐状态的维度为512;LSTM循环神经网络把
Figure BDA0002331662760000081
和bt-1拼接后的向量及隐状态ht-1作为输入,输出隐状态ht;ht经过全连接层,得到柱形向量bt
上述实施例中ht、F、fi、At的维度、柱形图缩放尺寸、reshape层和全连接层输出的特征向量大小均为经验值,可以根据需要设置为其它值。Xception也是根据经验选择,同样可以根据需要选择其他卷积神经网络结构。
实施例8:
本实施例在实施例2的基础上,以柱形图中带有数值标签的轴为y轴;即当柱形图为竖直柱形图时,以竖直轴(纵轴)为y轴;当柱形图为水平柱形图时,以水平轴(横轴)为y轴;
所述步骤1中提取的文本信息的类别包括x轴标签和y轴标签,其中y轴标签即数值标签;
如图4所示,所述步骤3主要使用RANSAC回归、方差计算,对步骤1和步骤2的结果作后处理,并产生最终的提取结果,具体包括以下步骤:
步骤3.1:对步骤1得到的y轴标签类文本信息进行过滤,过滤方法为:
方法1:使用RANSAC回归对文本信息提取模块输出的y轴标签类文本信息边界框中心的横坐标和纵坐标{txi,tyi}进行回归分析,过滤掉异常的边界框及其对应的子图的识别结果;
方法2:使用RANSAC回归对Tesseract光学字符识别器输出的y轴标签识别结果,即包含y轴标签类文本信息的子图的识别结果si进行回归分析,过滤掉异常的y轴标签识别结果及其对应的边界框;
保留既通过方法1的过滤也通过方法2的过滤的y轴标签类文本信息(包括y轴标签类文本信息的边界框和其对应的子图的识别结果);
步骤3.2、判断柱形图的方向,即柱形图为水平柱形图还是竖直柱形图,判断标准为var(tx1,tx2,tx3,…)>var(ty1,ty2,ty3,…),其中txi和tyi为y轴标签类文本信息边界框中心的横坐标和纵坐标,var(·)为方差;若不等式成立,柱形图为水平柱形图,否则为竖直柱形图;本实施中的不等式不成立,则为竖直柱形图;
步骤3.3、随机选取两个保留下来的y轴标签识别结果si和sj,先将它们分别按语义转换成数值s′i和s′j,然后计算一个映射值;当柱形图为竖直柱形图时,映射值为abs(s′i-s′j)/abs(tyi-tyj);当柱形图为水平柱形图时,映射值为abs(s′i-s′j)/abs(txi-txj),其中abs(·)为绝对值;
步骤3.4、重复步骤3.3K次,并取K次映射值的平均值作为最终的映射值M;本实施例中设置K=5;
步骤3.5、通过如下方法恢复原始柱形值:若柱形图为竖直柱形图,则原始柱形值为lth×H×M;若柱形图为水平柱形图,则原始柱形值为lth×W×M;其中H和W分别为柱形图的高和宽;
步骤3.6、把恢复得到的所有原始柱形值、除去y轴标签识别结果后的识别结果S={s1,s2,s3,…}(本实施例中为S={s1,s2,s3,…,s6})以及各文本信息的类别{c1,c2,c3,…}合并在一起,由此得到最终的提取结果,其中所有原始柱形值按照相应的柱形中心的坐标大小进行排序,所有x轴标签识别结果按照相应的边界框中心的坐标大小进行排序,排序方法为:当柱形图为竖直柱形图时,按横坐标大小进行排序;当柱形图为水平柱形图时,按纵坐标大小进行排序;若存在图例类文本信息,则同样将所有图例识别结果按照相应的边界框中心的坐标大小进行排序,排序方法为:统计所有图例类文本信息边界框中心的横坐标方差和纵坐标方差,若横坐标方差大,则按横坐标大小进行排序,否则按纵坐标大小进行排序;排序过程即配对过程,排序完成后即完成了原始柱形值与x轴标签识别结果的配对,以及原始柱形值与图例的配对。如图5所示,本实施例中柱形图为竖直柱形图,原始柱形值与x轴标签识别结果分别按相应的柱形中心和边界框中心的横坐标大小进行配对和排序;图5的“data”字段为原始柱形值的类别,即数据。
实施例9:
本实施例提供一种基于神经网络的柱形图信息提取装置,包括以下模块:
文本信息提取模块:包括目标检测模型和Tesseract光学字符识别器,用于提取柱形图中所有文本信息,包括图表标题、图例、x轴标题、y轴标题、x轴标签和y轴标签;
数值信息提取模块:包括编码器、解码器和注意力模型,以循环的方式提取柱形图中所有柱形值;
信息恢复模块:主要使用RANSAC回归、方差计算,对文本信息提取模块和数值信息提取模块的结果作后处理,并产生最终的提取结果。
所述装置采用上述任一实施例中所述的基于神经网络的柱形图信息提取方法提取柱形图中的信息。
实施例10:
本实施例提供一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一实施例中所述的基于神经网络的柱形图信息提取方法。
实施例11:
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中所述的基于神经网络的柱形图信息提取方法。
为进一步验证本发明的效果,采用上述实施例中的技术方案对多种不同柱形图进行提取,结果如图6所示。从提取结果可以看出,本发明能较好地把实例柱形图的信息提取出来。

Claims (10)

1.一种基于神经网络的柱形图信息提取方法,其特征在于,包括以下步骤:
步骤1、文本信息提取:包括目标检测模型和光学字符识别器,用于提取柱形图中所有文本信息;
步骤2、数值信息提取:包括编码器、解码器和注意力模型,以循环的方式提取柱形图中所有柱形值;
步骤3、信息恢复:对步骤1和步骤2的结果作后处理,并产生最终的提取结果。
2.根据权利要求1所述的基于神经网络的柱形图信息提取方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1、把待提取信息的柱形图输入到目标检测模型中;
步骤1.2、目标检测模型输出柱形图中检测到的所有文本信息的边界框坐标以及分类:D={d1,d2,d3,...},其中di={txi,tyi,twi,thi,ci}描述检测到的单个文本信息,txi和tyi分别为该文本信息边界框中心的横坐标和纵坐标,twi和thi分别为边界框的宽和高,ci为该文本信息的类别;
步骤1.3、通过边界框坐标{txi,tyi,twi,thi},从原柱形图中裁剪出所有包含文本信息的子图:I={i1,i2,i3,...},其中ii代表一个剪裁出来的子图;
步骤1.4、把所有子图I={i1,i2,i3,...}分别输入到光学字符识别器中,得到所有子图的识别结果:S={s1,s2,s3,...},其中si为子图ii的识别结果,即从子图ii中识别出来的字符串。
3.根据权利要求1所述的基于神经网络的柱形图信息提取方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1、令循环轮数t=1,柱形向量b0置为(1,1,1),隐状态h0置为零向量;
步骤2.2、把柱形图输入到编码器中,编码器提取柱形图的特征并输出对应的特征向量F=(f1,f2,...,fG)T,fi为一个行向量;
步骤2.3、特征向量F与隐状态ht-1一起输入到注意力模型中,注意力模型输出当前循环t的注意力向量At=(at1,at2,...,atG),ati为实数;
步骤2.4、将特征向量F与注意力向量At合并,得到注意力-特征向量
Figure FDA0002331662750000011
合并方法为
Figure FDA0002331662750000012
步骤2.5、将注意力-特征向量
Figure FDA0002331662750000013
和柱形向量bt-1进行拼接,拼接后的向量输入到解码器中,解码器输出柱形向量bt和隐状态ht,其中柱形向量bt={ltx,lty,lth},ltx和lty分别为相应柱形中心的横坐标和纵坐标,lth为归一化柱形值;
步骤2.6、令循环轮数t=t+1,循环步骤2.3到步骤2.5,直到解码器输出的柱形向量bt={0,0,0},结束循环;记当前循环轮数t=n,循环过程中提取出的柱形向量b1,b2,...,bn-1即为柱形图中提取出的所有柱形向量,其中的l1h,l2h,...,l(n-1)h即为柱形图中提取出的所有归一化柱形值。
4.根据权利要求3所述的基于神经网络的柱形图信息提取方法,其特征在于,所述编码器包括依次连接的Xception、reshape层和全连接层。
5.根据权利要求3所述的基于神经网络的柱形图信息提取方法,其特征在于,所述注意力模型为包含两步操作的神经网络;第一步操作先分别把特征向量F和隐状态ht-1输入到各自对应的全连接层,得到两个大小一样的矩阵,然后把这两个矩阵相加;第二个操作是把相加后得到的矩阵输入到以softmax作为激活函数的全连接层,输出结果为注意力向量At
6.根据权利要求3所述的基于神经网络的柱形图信息提取方法,其特征在于,所述解码器包括一个LSTM循环神经网络和一个全连接层;LSTM循环神经网络把
Figure FDA0002331662750000021
和bt-1拼接后的向量及隐状态ht-1作为输入,输出隐状态ht;ht经过全连接层,得到柱形向量bt
7.根据权利要求2所述的基于神经网络的柱形图信息提取方法,其特征在于,以柱形图中带有数值标签的轴为y轴;即当柱形图为竖直柱形图时,以竖直轴为y轴;当柱形图为水平柱形图时,以水平轴为y轴;
所述步骤1中提取的文本信息的类别包括x轴标签和y轴标签,其中y轴标签即数值标签;
所述步骤3具体包括以下步骤:
步骤3.1:对步骤1得到的y轴标签类文本信息进行过滤,过滤方法为:
方法1:使用RANSAC回归对文本信息提取模块输出的y轴标签类文本信息边界框中心的横坐标和纵坐标{txi,tyi}进行回归分析,过滤掉异常的边界框及其对应的子图的识别结果;
方法2:使用RANSAC回归对光学字符识别器输出的y轴标签识别结果,即包含y轴标签类文本信息的子图的识别结果si进行回归分析,过滤掉异常的y轴标签识别结果及其对应的边界框;
保留既通过方法1的过滤也通过方法2的过滤的y轴标签类文本信息;
步骤3.2、判断柱形图的方向,即柱形图为水平柱形图还是竖直柱形图,判断标准为var(tx1,tx2,tx3,...)>var(ty1,ty2,ty3,...),其中txi和tyi为保留下来的y轴标签类文本信息边界框中心的横坐标和纵坐标,var(·)为方差;若不等式成立,柱形图为水平柱形图,否则为竖直柱形图;
步骤3.3、随机选取两个保留下来的y轴标签识别结果si和sj,先将它们分别按语义转换成数值s′i和s′j,然后计算一个映射值;当柱形图为竖直柱形图时,映射值为abs(s′i-s′j)/abs(tyi-tyj);当柱形图为水平柱形图时,映射值为abs(s′i-s′j)/abs(txi-txj),其中abs(·)为绝对值;
步骤3.4、重复步骤3.3K次,并取K次映射值的平均值作为最终的映射值M;
步骤3.5、基于归一化柱形值lth和映射值M,通过如下方法恢复原始柱形值:若柱形图为竖直柱形图,则原始柱形值为lth×H×M;若柱形图为水平柱形图,则原始柱形值为lth×W×M;其中H和W分别为柱形图的高和宽;
步骤3.6、把恢复得到的所有原始柱形值、除去y轴标签识别结果后的识别结果S={s1,s2,s3,...}以及各文本信息的类别{c1,c2,c3,...}合并在一起,由此得到最终的提取结果,其中所有原始柱形值按照相应的柱形中心的坐标大小进行排序,所有x轴标签识别结果按照相应的边界框中心的坐标大小进行排序,排序方法为:当柱形图为竖直柱形图时,按横坐标大小进行排序;当柱形图为水平柱形图时,按纵坐标大小进行排序;若存在图例类文本信息,则同样将所有图例识别结果按照相应的边界框中心的坐标大小进行排序,排序方法为:统计所有图例类文本信息边界框中心的横坐标方差和纵坐标方差,若横坐标方差大,则按横坐标大小进行排序,否则按纵坐标大小进行排序。
8.一种基于神经网络的柱形图信息提取装置,包括以下模块:
文本信息提取模块:包括目标检测模型和光学字符识别器,用于提取柱形图中所有文本信息;
数值信息提取模块:包括编码器、解码器和注意力模型,以循环的方式提取柱形图中所有柱形值;
信息恢复模块:对文本信息提取模块和数值信息提取模块的结果作后处理,并产生最终的提取结果。
9.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~7中任一项所述的基于神经网络的柱形图信息提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的基于神经网络的柱形图信息提取方法。
CN201911338681.1A 2019-12-23 2019-12-23 一种基于神经网络的柱形图信息提取方法及装置 Active CN111143544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911338681.1A CN111143544B (zh) 2019-12-23 2019-12-23 一种基于神经网络的柱形图信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911338681.1A CN111143544B (zh) 2019-12-23 2019-12-23 一种基于神经网络的柱形图信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN111143544A true CN111143544A (zh) 2020-05-12
CN111143544B CN111143544B (zh) 2023-06-16

Family

ID=70519501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911338681.1A Active CN111143544B (zh) 2019-12-23 2019-12-23 一种基于神经网络的柱形图信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN111143544B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101237A (zh) * 2020-09-17 2020-12-18 新华智云科技有限公司 一种柱状图数据提取和转化方法
US12056946B2 (en) 2021-08-12 2024-08-06 Toyota Research Institute, Inc. Method and system to align quantitative and qualitative statistical information in documents

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134404A (ja) * 1995-09-05 1997-05-20 Fuji Xerox Co Ltd 棒グラフ認識装置
US20180211108A1 (en) * 2017-01-25 2018-07-26 Think-Cell Software Gmbh Chart analysis method and system
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN109101628A (zh) * 2018-08-14 2018-12-28 中南大学 一种量化评价msv的边级视觉混杂程度指标计算方法
CN109840278A (zh) * 2019-01-28 2019-06-04 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN110443235A (zh) * 2019-07-01 2019-11-12 佛山科学技术学院 一种智能纸质试卷总分识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134404A (ja) * 1995-09-05 1997-05-20 Fuji Xerox Co Ltd 棒グラフ認識装置
US20180211108A1 (en) * 2017-01-25 2018-07-26 Think-Cell Software Gmbh Chart analysis method and system
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN109101628A (zh) * 2018-08-14 2018-12-28 中南大学 一种量化评价msv的边级视觉混杂程度指标计算方法
CN109840278A (zh) * 2019-01-28 2019-06-04 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN110443235A (zh) * 2019-07-01 2019-11-12 佛山科学技术学院 一种智能纸质试卷总分识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵燕林;孟令涛;许晓宏;何贞铭;张佳华;: "基于ArcEngine地质柱状图的自动矢量制图方法研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101237A (zh) * 2020-09-17 2020-12-18 新华智云科技有限公司 一种柱状图数据提取和转化方法
US12056946B2 (en) 2021-08-12 2024-08-06 Toyota Research Institute, Inc. Method and system to align quantitative and qualitative statistical information in documents

Also Published As

Publication number Publication date
CN111143544B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
Thakkar et al. Part-based graph convolutional network for action recognition
Fu et al. Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition
Kaur et al. Tools, techniques, datasets and application areas for object detection in an image: a review
Ahmad et al. Object detection through modified YOLO neural network
Ranjan et al. Deep learning for understanding faces: Machines may be just as good, or better, than humans
Novotny et al. Semi-convolutional operators for instance segmentation
Demirel et al. Zero-shot object detection by hybrid region embedding
Dong et al. Ppr-net: point-wise pose regression network for instance segmentation and 6d pose estimation in bin-picking scenarios
Hara et al. Designing deep convolutional neural networks for continuous object orientation estimation
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
Diba et al. Deepcamp: Deep convolutional action & attribute mid-level patterns
Zeng et al. An automatic 3D expression recognition framework based on sparse representation of conformal images
Li et al. Fisheyedet: A self-study and contour-based object detector in fisheye images
CN111967429A (zh) 一种基于主动学习的行人重识别模型训练方法及装置
Rabbani et al. Hand drawn optical circuit recognition
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
Tian et al. Video object detection for tractability with deep learning method
Guo et al. DALaneNet: A dual attention instance segmentation network for real-time lane detection
Quiros et al. A genetic algorithm and artificial neural network-based approach for the machine vision of plate segmentation and character recognition
Karambakhsh et al. SparseVoxNet: 3-D object recognition with sparsely aggregation of 3-D dense blocks
CN111143544B (zh) 一种基于神经网络的柱形图信息提取方法及装置
CN114626476A (zh) 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置
Yuan et al. Learning discriminated and correlated patches for multi-view object detection using sparse coding
Chen et al. Vehicle type classification based on convolutional neural network
Mursalin et al. Deep learning for 3D ear detection: A complete pipeline from data generation to segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant