CN111143544A

CN111143544A - 一种基于神经网络的柱形图信息提取方法及装置

Info

Publication number: CN111143544A
Application number: CN201911338681.1A
Authority: CN
Inventors: 周芳芳; 陈文江; 赵颖; 赵勇; 彭燕妮; 马小龙; 吴青
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-12
Anticipated expiration: 2039-12-23
Also published as: CN111143544B

Abstract

本发明提供了一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质，包括文本信息提取步骤/模块、数值信息提取步骤/模块和信息恢复步骤/模块。文本信息提取步骤/模块先使用目标检测模型对文本信息同时地进行定位和分类，然后通过光学字符识别器对文本信息进行字符识别，得到文本信息提取结果。数值信息提取步骤/模块通过编码器‑解码器架构来提取归一化的柱形值，并通过注意力模型来提高提取精确度。信息恢复步骤/模块先使用RANSAC回归对文本提取模块的结果进行错误过滤，然后恢复数值提取模块的归一化柱形值。本发明可以高效且精确地提取柱形图中的信息。

Description

一种基于神经网络的柱形图信息提取方法及装置

技术领域

本发明属于计算机信息处理技术领域，涉及到一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质。

背景技术

柱形图是一种使用广泛的图表，常用于直观地表达各类信息。柱形图所包括的信息可分为两大类，分别是文本信息和数值信息。文本信息包括六种类型，分别是图表标题、图例、x轴标题、y轴标题、x轴标签和y轴标签，它们常以字符串的形式直接出现在图表中。数值信息是指柱形图中各个柱形的值；在竖直柱形图中，它们常通过柱形的高度来表示；在水平柱形图中，它们一般通过柱形的宽度来表示。在大多数情况下，我们仅能获得柱形图的图像，而缺乏其所蕴含的原始信息。从柱形图图像中提取出来的信息在多个领域有广泛应用，如图表重新设计、深入分析和图表检索等。虽然我们人类能轻易地从柱形图中获取其中的文本信息和数值信息，计算机则不善于这类涉及“智能”的处理。因此，研发高效且精确的柱形图信息提取方法具有重要意义。

现有的图表信息提取技术大多使用传统的数字图像处理方法，涉及多个处理步骤和一些固定的提取规则，在时间和准确率上还有较大的提升空间。神经网络作为人工智能的一个分支，近年来获得了长足的发展，在多个涉及图像的领域表现出优越的性能。根据柱形图信息提取技术的现状和神经网络的发展情况，有必要设计一种基于神经网络的柱形图信息提取方法。

发明内容

针对现有技术的不足，本发明提供一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质，可以高效且精确地提取柱形图中的信息。

本发明所提供的技术方案为：

一种基于神经网络的柱形图信息提取方法，包括以下步骤：

步骤1、文本信息提取：包括目标检测模型和光学字符识别器，用于提取柱形图中所有文本信息；

步骤2、数值信息提取：包括编码器、解码器和注意力模型，以循环的方式提取柱形图中所有柱形值；

步骤3、信息恢复：对步骤1和步骤2的结果作后处理，并产生最终的提取结果。

进一步地，所述步骤1具体包括以下步骤：

步骤1.1、把待提取信息的柱形图输入到目标检测模型中；

步骤1.2、目标检测模型输出柱形图中检测到的所有文本信息的边界框坐标以及分类：D＝{d₁,d₂,d₃,…}，其中d_i＝{t_xi,t_yi,t_wi,t_hi,c_i}描述检测到的单个文本信息，t_xi和t_yi分别为该文本信息边界框中心的横坐标和纵坐标，t_wi和t_hi分别为边界框的宽和高，c_i为该文本信息的类别(分类包括图表标题、图例、x轴标题、y轴标题、x轴标签和y轴标签)；

步骤1.3、通过边界框坐标{t_xi,t_yi,t_wi,t_hi}，从原柱形图中裁剪出所有包含文本信息的子图：I＝{i₁,i₂,i₃,…}，其中i_i代表一个剪裁出来的子图；

步骤1.4、把所有子图I＝{i₁,i₂,i₃,…}分别输入到光学字符识别器中，得到所有子图的识别结果：S＝{s₁,s₂,s₃,…}，其中s_i为子图i_i的识别结果，即从子图i_i中识别出来的字符串。

进一步地，所述步骤1.4中，每个子图i_i的识别过程如下，首先子图i_i分别顺时针旋转0度、顺时针旋转90度和逆时针旋转90度，得到3个旋转后的子图{i_i1,i_i2,i_i3}；然后这3个子图分别输入到Tesseract光学字符识别器中，得到3个识别结果：{{s_i1,p_i1},{s_i2,p_i2},{s_i3,p_i3}}，其中s_ii为从子图i_ii中识别出来的字符串，p_ii为子图i_ii的识别置信度；最后将从识别置信度最高的子图i_ii中识别出来的字符串s_ii作为子图i_i的识别结果s_i。

进一步地，所述步骤2具体包括以下步骤：

步骤2.1、令循环轮数t＝1，柱形向量b₀置为(1,1,1)，隐状态h₀置为零向量；

步骤2.2、把柱形图输入到编码器中，编码器提取柱形图的特征并输出对应的特征向量F＝(f₁,f₂,…,f_G)^T,f_i为一个行向量；

步骤2.3、特征向量F与隐状态h_t-1一起输入到注意力模型中，注意力模型输出当前循环t的注意力向量A_t＝(a_t1,a_t2,…,a_tG),a_ti为实数；

步骤2.4、将特征向量F与注意力向量A_t合并，得到注意力-特征向量

合并方法为

步骤2.5、将注意力-特征向量

和柱形向量b_t-1进行拼接，拼接后的向量输入到解码器中，解码器输出柱形向量b_t和隐状态h_t，其中柱形向量b_t＝{l_tx,l_ty,l_th}，l_tx和l_ty分别为相应的柱形中心的横坐标和纵坐标，l_th为归一化柱形值(即l_th的值位于0到1之间)；

步骤2.6、令循环轮数t＝t+1，循环步骤2.3到步骤2.5，直到解码器输出的柱形向量b_t＝{0,0,0}，结束循环；记当前循环轮数t＝n，循环过程中提取出的柱形向量b₁,b₂,…,b_n-1即为柱形图中提取出的所有柱形向量，其中的l_1h,l_2h,…,l_(n-1)h即为柱形图中提取出的所有归一化柱形值。

进一步地，所述编码器包括依次连接的Xception、reshape层和全连接层；输入柱形图图片依次经过这3个部分，最终得到特征向量F。

进一步地，所述注意力模型为包含两步操作的神经网络；第一步操作先分别把特征向量F和隐状态h_t-1输入到各自对应的全连接层，得到两个大小一样的矩阵，然后把这两个矩阵相加；第二个操作是把相加后得到的矩阵输入到以softmax作为激活函数的全连接层，输出结果为注意力向量A_t。

进一步地，所述解码器包括一个LSTM循环神经网络和一个全连接层；LSTM循环神经网络把

和b_t-1拼接后的向量及隐状态h_t-1作为输入，输出隐状态h_t；h_t经过全连接层，得到柱形向量b_t。

进一步地，所述步骤1中提取的文本信息的类别包括y轴标签；

所述步骤3具体包括以下步骤：

以柱形图中带有数值标签的轴为y轴；即当柱形图为竖直柱形图时，以竖直轴(纵轴)为y轴；当柱形图为水平柱形图时，以水平轴(横轴)为y轴；

所述步骤1中提取的文本信息的类别包括x轴标签和y轴标签，其中y轴标签即数值标签；

所述步骤3具体包括以下步骤：

步骤3.1：对步骤1得到的y轴标签类文本信息进行过滤，过滤方法为：

方法1：使用RANSAC回归对文本信息提取模块输出的y轴标签类文本信息边界框中心的横坐标和纵坐标{t_xi,t_yi}进行回归分析，过滤掉异常的边界框及其对应的子图的识别结果；

方法2：使用RANSAC回归对光学字符识别器输出的y轴标签识别结果，即包含y轴标签类文本信息的子图的识别结果s_i进行回归分析，过滤掉异常的y轴标签识别结果及其对应的边界框；

保留既通过方法1的过滤也通过方法2的过滤的y轴标签类文本信息(包括y轴标签类文本信息的边界框和其对应的子图的识别结果)；

步骤3.2、判断柱形图的方向，即柱形图为水平柱形图还是竖直柱形图，判断标准为var(t_x1,t_x2,t_x3,…)>var(t_y1,t_y2,t_y3,…)，其中t_xi和t_yi为保留下来的y轴标签类文本信息边界框中心的横坐标和纵坐标，var(·)为方差；若不等式成立，柱形图为水平柱形图，否则为竖直柱形图；

步骤3.3、随机选取两个保留下来的y轴标签识别结果s_i和s_j，先将它们分别按语义转换成数值s′_i和s′_j，然后计算一个映射值；当柱形图为竖直柱形图时，映射值为abs(s′_i-s′_j)/abs(t_yi-t_yj)；当柱形图为水平柱形图时，映射值为abs(s′_i-s′_j)/abs(t_xi-t_xj)，其中abs(·)为绝对值；

步骤3.4、重复步骤3.3K次，并取K次映射值的平均值作为最终的映射值M；

步骤3.5、基于归一化柱形值l_th和映射值M，通过如下方法恢复原始柱形值：若柱形图为竖直柱形图，则原始柱形值为l_th×H×M；若柱形图为水平柱形图，则原始柱形值为l_th×W×M；其中H和W分别为柱形图的高和宽；

步骤3.6、把恢复得到的所有原始柱形值、除去y轴标签识别结果后的识别结果S＝{s₁,s₂,s₃,…}以及各文本信息的类别{c₁,c₂,c₃,…}合并在一起，由此得到最终的提取结果，其中所有原始柱形值按照相应的柱形中心的坐标大小进行排序，所有x轴标签识别结果按照相应的边界框中心的坐标大小进行排序，排序方法为：当柱形图为竖直柱形图时，按横坐标大小进行排序；当柱形图为水平柱形图时，按纵坐标大小进行排序；若存在图例类文本信息，则同样将所有图例识别结果按照相应的边界框中心的坐标大小进行排序，排序方法为：统计所有图例类文本信息边界框中心的横坐标方差和纵坐标方差，若横坐标方差大，则按横坐标大小进行排序，否则按纵坐标大小进行排序；排序过程即配对过程，排序完成后即完成了原始柱形值与x轴标签识别结果的配对，以及原始柱形值与图例的配对。

本发明还提供一种基于神经网络的柱形图信息提取装置，包括以下模块：

文本信息提取模块：包括目标检测模型和光学字符识别器，用于提取柱形图中所有文本信息；

数值信息提取模块：包括编码器、解码器和注意力模型，以循环的方式提取柱形图中所有柱形值；

信息恢复模块：对文本信息提取模块和数值信息提取模块的结果作后处理，并产生最终的提取结果。

所述装置采用上述的基于神经网络的柱形图信息提取方法提取柱形图中的信息。

本发明还提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现权利要求1～7中任一项所述的基于神经网络的柱形图信息提取方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～7中任一项所述的基于神经网络的柱形图信息提取方法。

有益效果：

本发明提供了一种基于神经网络的柱形图信息提取方法、装置、电子设备及计算机可读存储介质，包括文本信息提取步骤/模块、数值信息提取步骤/模块和信息恢复步骤/模块。文本信息提取步骤负责提取柱形图中所有的文本信息，包括图标题、图例、x轴标题、y轴标题、x轴标签和y轴标签；数值信息提取模块负责提取柱形图中各个柱形值；信息恢复模块负责对前两个模块的结果作后处理，并产生最终提取结果。文本信息提取步骤/模块先使用目标检测模型对文本信息同时地进行定位和分类，减少了文本信息提取的耗时，然后通过光学字符识别器对文本信息进行字符识别，得到文本信息提取结果。数值信息提取步骤/模块广泛地使用神经网络，通过编码器-解码器架构来提取柱形值，并通过注意力模型来提高提取精确度；数值信息提取模块以循环的方式工作，在每轮循环中，编码器负责提取柱形图的特征向量，注意力模型负责产生具有引导效果的注意力向量，解码器则负责解释特征向量和注意力向量，并输出归一化柱形值，数值信息提取步骤/模块提升了数值信息提取的性能和健壮性。信息恢复步骤/模块先使用RANSAC回归对文本提取模块的结果进行错误过滤，然后恢复数值提取模块的归一化柱形值，RANSAC回归分析的使用，使得整个提取方法具有较好容错性。本发明使用神经网络作为柱形图信息提取的工具，实现柱形图信息的自动化提取，具有较好的效果，可以高效且精确地提取柱形图中的信息。本发明实现的柱形图信息提取技术，可应用于图表重新设计、深入分析和图表检索等领域，推动这些领域的发展；同时该提取技术是一种自动化技术，能整合到其他大型系统中，共同构建完整解决方案。

附图说明

图1是本发明整体概览图；

图2是文本信息提取模块的概览图；

图3是数值信息提取模块的概览图；

图4是信息恢复模块的概览图；

图5是本发明实施例应用在一个柱形图上的提取效果；

图6是本发明应用在多种柱形图上的提取效果；图6(a)～图6(f)分别是本发明应用在6种不同柱形图上的提取效果。

具体实施方式

为使本发明的目的、设计思路和优点更加清楚，以下结合具体实例，并参照附图，对本发明作进一步详细说明。

实施例1：

本实施例提供了一种基于神经网络的柱形图信息提取方法，如图1所示，包括以下步骤：

步骤1、文本信息提取：包括目标检测模型和Tesseract光学字符识别器，用于提取柱形图中所有文本信息；

实施例2：

本实施例在实施例1的基础上，如图2所示，所述步骤1具体包括以下步骤：

步骤1.1、把待提取信息的柱形图输入到目标检测模型中；

步骤1.2、目标检测模型输出柱形图中检测到的所有文本信息的边界框坐标以及分类：D＝{d₁,d₂,d₃,…}，其中d_i＝{t_xi,t_yi,t_wi,t_hi,c_i}描述检测到的单个文本信息，t_xi和t_yi分别为该文本信息边界框中心的横坐标和纵坐标，t_wi和t_hi分别为边界框的宽和高，c_i为该文本信息的类别(分类包括图表标题、x轴标题、y轴标题、x轴标签和y轴标签，还可以包括图例)；本实施例中，D＝{d₁,d₂,d₃,…,d₁₅}，其中包括1个图表标题，0个图例，1个x轴标题，1个y轴标题，3个x轴标签和9个y轴标签；

步骤1.3、通过边界框坐标{t_xi,t_yi,t_wi,t_hi}，从原柱形图中裁剪出所有包含文本信息的子图：I＝{i₁,i₂,i₃,…}，其中i_i代表一个剪裁出来的子图；本实施例中，I＝{i₁,i₂,i₃,…,i₁₅}；

步骤1.4、把所有子图I＝{i₁,i₂,i₃,…}分别输入到Tesseract光学字符识别器中，得到所有子图的识别结果：S＝{s₁,s₂,s₃,…}，其中s_i为子图i_i的识别结果，即从子图i_i中识别出来的字符串。

进一步地，所述步骤1.4中，每个子图i_i的识别过程如下，首先子图i_i分别顺时针旋转0度、顺时针旋转90度和逆时针旋转90度，得到3个旋转后的子图{i_i1,i_i2,i_i3}；然后这3个子图分别输入到Tesseract光学字符识别器中，得到3个识别结果：{{s_i1,p_i1},{s_i2,p_i2},{s_i3,p_i3}}，其中s_ii为从子图i_ii中识别出来的字符串，p_ii为子图i_ii的识别置信度；最后将从识别置信度最高的子图i_ii中识别出来的字符串s_ii作为子图i_i的识别结果s_i；本实施例中，S＝{s₁,s₂,s₃,…,s₁₅}。

实施例3：

本实施例在实施例1的基础上，所述目标检测模型为Faster-RCNN；Faster-RCNN为两阶段目标检测模型，包括特征提取器(feature extractor)、区域推荐网络(regionproposal network)、分类器(classifier)和回归器(regressor)。

实施例4：

本实施例在实施例1的基础上，如图3所示，所述步骤2具体包括以下步骤：

步骤2.1、令循环轮数t＝1，柱形向量b₀置为(1,1,1)，隐状态h₀置为(0,0,0,…,0,0),h₀∈R⁵¹²(512维的行向量)，即置h₀为零向量；

步骤2.2、把待提取信息的柱形图输入到编码器中，编码器负责提取柱形图的特征并输出对应的特征向量F＝(f₁,f₂,…,f₁₀₀)^T,f_i∈R²⁵⁶(256维的行向量)；

步骤2.3、特征向量F与隐状态h_t-1一起输入到注意力模型中，其中隐状态h_t-1∈R⁵¹²(512维的行向量)，注意力模型输出当前循环t的注意力向量A_t＝(a_t1,a_t2,…,a_t100),a_ti∈R；

合并方法为

步骤2.5、将注意力-特征向量

和柱形向量b_t-1进行拼接(即将256维的注意力-特征向量

和3维的柱形向量b_t-1拼接成一个259维的向量)，拼接后的向量输入到解码器中，解码器输出柱形向量b_t和隐状态h_t(即解码器在t轮循环(当前循环)中输出的柱形向量和隐状态)，其中柱形向量b_t＝(l_tx,l_ty,l_th)，l_tx和l_ty为柱形中心的横坐标和纵坐标，l_th为归一化柱形值，对于竖直柱形图，l_th等于柱形的高度除以图片的高度；对于水平柱形图，对于等于柱形的宽度除以图片的宽度，l_th的值位于0到1之间；

步骤2.6、令循环轮数t＝t+1，循环步骤2.3到步骤2.5，直到解码器输出的柱形向量b_t＝(0,0,0)，此特殊柱形向量表示柱形图中所有柱形向量(数值信息)已提取完毕，结束循环；记当前循环轮数t＝n，循环过程中提取出的柱形向量b₁,b₂,…,b_n-1即为柱形图中提取出的所有柱形向量，其中的l_1h,l_2h,…,l_(n-1)h即为柱形图中提取出的所有归一化柱形值。本实施例中n＝4。

实施例5：

本实施例在实施例4的基础上，所述编码器包括依次连接的Xception、reshape层和全连接层(fully connected层)；将柱形图缩放成299×299的尺寸，然后输入到Xception中；Xception是一个126层的卷积神经网络，reshape层把Xception输出的10×10×2048的三维特征向量重新编排成100×2048的二维特征向量，全连接层把reshape层的输出通过非线性变换(使用ReLU激活函数)转化成100×256的二维特征向量；全连接层仅对输入特征向量的最后一维作运算。

实施例6：

本实施例在实施例4的基础上，所述注意力模型为包含两步操作的神经网络；第一步操作先分别把特征向量F和隐状态h_t-1输入到各自对应的全连接层(fully connected层)，得到两个大小均为100×512的矩阵，然后把这两个矩阵相加；第二个操作是把相加后得到的矩阵输入到以softmax作为激活函数的全连接层，输出结果为注意力向量A_t。

实施例7：

本实施例在实施例4的基础上，所述解码器包括一个LSTM循环神经网络和一个全连接层(fully connected层)；LSTM循环神经网络包括512个神经元，即其产生的隐状态的维度为512；LSTM循环神经网络把

上述实施例中h_t、F、f_i、A_t的维度、柱形图缩放尺寸、reshape层和全连接层输出的特征向量大小均为经验值，可以根据需要设置为其它值。Xception也是根据经验选择，同样可以根据需要选择其他卷积神经网络结构。

实施例8：

本实施例在实施例2的基础上，以柱形图中带有数值标签的轴为y轴；即当柱形图为竖直柱形图时，以竖直轴(纵轴)为y轴；当柱形图为水平柱形图时，以水平轴(横轴)为y轴；

如图4所示，所述步骤3主要使用RANSAC回归、方差计算，对步骤1和步骤2的结果作后处理，并产生最终的提取结果，具体包括以下步骤：

方法2：使用RANSAC回归对Tesseract光学字符识别器输出的y轴标签识别结果，即包含y轴标签类文本信息的子图的识别结果s_i进行回归分析，过滤掉异常的y轴标签识别结果及其对应的边界框；

步骤3.2、判断柱形图的方向，即柱形图为水平柱形图还是竖直柱形图，判断标准为var(t_x1,t_x2,t_x3,…)>var(t_y1,t_y2,t_y3,…)，其中t_xi和t_yi为y轴标签类文本信息边界框中心的横坐标和纵坐标，var(·)为方差；若不等式成立，柱形图为水平柱形图，否则为竖直柱形图；本实施中的不等式不成立，则为竖直柱形图；

步骤3.4、重复步骤3.3K次，并取K次映射值的平均值作为最终的映射值M；本实施例中设置K＝5；

步骤3.5、通过如下方法恢复原始柱形值：若柱形图为竖直柱形图，则原始柱形值为l_th×H×M；若柱形图为水平柱形图，则原始柱形值为l_th×W×M；其中H和W分别为柱形图的高和宽；

步骤3.6、把恢复得到的所有原始柱形值、除去y轴标签识别结果后的识别结果S＝{s₁,s₂,s₃,…}(本实施例中为S＝{s₁,s₂,s₃,…,s₆})以及各文本信息的类别{c₁,c₂,c₃,…}合并在一起，由此得到最终的提取结果，其中所有原始柱形值按照相应的柱形中心的坐标大小进行排序，所有x轴标签识别结果按照相应的边界框中心的坐标大小进行排序，排序方法为：当柱形图为竖直柱形图时，按横坐标大小进行排序；当柱形图为水平柱形图时，按纵坐标大小进行排序；若存在图例类文本信息，则同样将所有图例识别结果按照相应的边界框中心的坐标大小进行排序，排序方法为：统计所有图例类文本信息边界框中心的横坐标方差和纵坐标方差，若横坐标方差大，则按横坐标大小进行排序，否则按纵坐标大小进行排序；排序过程即配对过程，排序完成后即完成了原始柱形值与x轴标签识别结果的配对，以及原始柱形值与图例的配对。如图5所示，本实施例中柱形图为竖直柱形图，原始柱形值与x轴标签识别结果分别按相应的柱形中心和边界框中心的横坐标大小进行配对和排序；图5的“data”字段为原始柱形值的类别，即数据。

实施例9：

本实施例提供一种基于神经网络的柱形图信息提取装置，包括以下模块：

文本信息提取模块：包括目标检测模型和Tesseract光学字符识别器，用于提取柱形图中所有文本信息，包括图表标题、图例、x轴标题、y轴标题、x轴标签和y轴标签；

信息恢复模块：主要使用RANSAC回归、方差计算，对文本信息提取模块和数值信息提取模块的结果作后处理，并产生最终的提取结果。

所述装置采用上述任一实施例中所述的基于神经网络的柱形图信息提取方法提取柱形图中的信息。

实施例10：

本实施例提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一实施例中所述的基于神经网络的柱形图信息提取方法。

实施例11：

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例中所述的基于神经网络的柱形图信息提取方法。

为进一步验证本发明的效果，采用上述实施例中的技术方案对多种不同柱形图进行提取，结果如图6所示。从提取结果可以看出，本发明能较好地把实例柱形图的信息提取出来。

Claims

1.一种基于神经网络的柱形图信息提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于神经网络的柱形图信息提取方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1.1、把待提取信息的柱形图输入到目标检测模型中；

步骤1.2、目标检测模型输出柱形图中检测到的所有文本信息的边界框坐标以及分类：D＝{d₁，d₂，d₃，...}，其中d_i＝{t_xi，t_yi，t_wi，t_hi，c_i}描述检测到的单个文本信息，t_xi和t_yi分别为该文本信息边界框中心的横坐标和纵坐标，t_wi和t_hi分别为边界框的宽和高，c_i为该文本信息的类别；

步骤1.3、通过边界框坐标{t_xi，t_yi，t_wi，t_hi}，从原柱形图中裁剪出所有包含文本信息的子图：I＝{i₁，i₂，i₃，...}，其中i_i代表一个剪裁出来的子图；

步骤1.4、把所有子图I＝{i₁，i₂，i₃，...}分别输入到光学字符识别器中，得到所有子图的识别结果：S＝{s₁，s₂，s₃，...}，其中s_i为子图i_i的识别结果，即从子图i_i中识别出来的字符串。

3.根据权利要求1所述的基于神经网络的柱形图信息提取方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.1、令循环轮数t＝1，柱形向量b₀置为(1，1，1)，隐状态h₀置为零向量；

步骤2.2、把柱形图输入到编码器中，编码器提取柱形图的特征并输出对应的特征向量F＝(f₁，f₂，...，f_G)^T，f_i为一个行向量；

步骤2.3、特征向量F与隐状态h_t-1一起输入到注意力模型中，注意力模型输出当前循环t的注意力向量A_t＝(a_t1，a_t2，...，a_tG)，a_ti为实数；

合并方法为

步骤2.5、将注意力-特征向量

和柱形向量b_t-1进行拼接，拼接后的向量输入到解码器中，解码器输出柱形向量b_t和隐状态h_t，其中柱形向量b_t＝{l_tx，l_ty，l_th}，l_tx和l_ty分别为相应柱形中心的横坐标和纵坐标，l_th为归一化柱形值；

步骤2.6、令循环轮数t＝t+1，循环步骤2.3到步骤2.5，直到解码器输出的柱形向量b_t＝{0，0，0}，结束循环；记当前循环轮数t＝n，循环过程中提取出的柱形向量b₁，b₂，...，b_n-1即为柱形图中提取出的所有柱形向量，其中的l_1h，l_2h，...，l_(n-1)h即为柱形图中提取出的所有归一化柱形值。

4.根据权利要求3所述的基于神经网络的柱形图信息提取方法，其特征在于，所述编码器包括依次连接的Xception、reshape层和全连接层。

5.根据权利要求3所述的基于神经网络的柱形图信息提取方法，其特征在于，所述注意力模型为包含两步操作的神经网络；第一步操作先分别把特征向量F和隐状态h_t-1输入到各自对应的全连接层，得到两个大小一样的矩阵，然后把这两个矩阵相加；第二个操作是把相加后得到的矩阵输入到以softmax作为激活函数的全连接层，输出结果为注意力向量A_t。

6.根据权利要求3所述的基于神经网络的柱形图信息提取方法，其特征在于，所述解码器包括一个LSTM循环神经网络和一个全连接层；LSTM循环神经网络把

7.根据权利要求2所述的基于神经网络的柱形图信息提取方法，其特征在于，以柱形图中带有数值标签的轴为y轴；即当柱形图为竖直柱形图时，以竖直轴为y轴；当柱形图为水平柱形图时，以水平轴为y轴；

所述步骤3具体包括以下步骤：

方法1：使用RANSAC回归对文本信息提取模块输出的y轴标签类文本信息边界框中心的横坐标和纵坐标{t_xi，t_yi}进行回归分析，过滤掉异常的边界框及其对应的子图的识别结果；

保留既通过方法1的过滤也通过方法2的过滤的y轴标签类文本信息；

步骤3.2、判断柱形图的方向，即柱形图为水平柱形图还是竖直柱形图，判断标准为var(t_x1，t_x2，t_x3，...)＞var(t_y1，t_y2，t_y3，...)，其中t_xi和t_yi为保留下来的y轴标签类文本信息边界框中心的横坐标和纵坐标，var(·)为方差；若不等式成立，柱形图为水平柱形图，否则为竖直柱形图；

步骤3.6、把恢复得到的所有原始柱形值、除去y轴标签识别结果后的识别结果S＝{s₁，s₂，s₃，...}以及各文本信息的类别{c₁，c₂，c₃，...}合并在一起，由此得到最终的提取结果，其中所有原始柱形值按照相应的柱形中心的坐标大小进行排序，所有x轴标签识别结果按照相应的边界框中心的坐标大小进行排序，排序方法为：当柱形图为竖直柱形图时，按横坐标大小进行排序；当柱形图为水平柱形图时，按纵坐标大小进行排序；若存在图例类文本信息，则同样将所有图例识别结果按照相应的边界框中心的坐标大小进行排序，排序方法为：统计所有图例类文本信息边界框中心的横坐标方差和纵坐标方差，若横坐标方差大，则按横坐标大小进行排序，否则按纵坐标大小进行排序。

8.一种基于神经网络的柱形图信息提取装置，包括以下模块：

9.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现权利要求1～7中任一项所述的基于神经网络的柱形图信息提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～7中任一项所述的基于神经网络的柱形图信息提取方法。