CN108416377A

CN108416377A - 柱状图中的信息提取方法及装置

Info

Publication number: CN108416377A
Application number: CN201810162747.5A
Authority: CN
Inventors: 余宙; 杨永智; 靳松
Original assignee: A Bozzi De (beijing) Science And Technology Co Ltd
Current assignee: A Bozzi De (beijing) Science And Technology Co Ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-08-17
Anticipated expiration: 2038-02-26
Also published as: US10789504B2; CN108416377B; US20190266435A1

Abstract

本发明涉及一种柱状图中的信息提取方法及装置，所述方法包括步骤：采用基于Faster R‑CNN模型的目标检测法，检测出待处理柱状图中的各个元素；对检测出的文本元素框进行文字识别，以提取出对应的文字信息；将检测出的所有元素和文字信息转换为结构化数据。本发明方法及装置通过深度学习的方式，利用Faster R‑CNN模型进行目标检测，检测出柱状图中的各个元素，为柱状图的信息提取提供了一套既简单又有效的解决方案。

Description

柱状图中的信息提取方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种柱状图中的信息提取方法及装置。

背景技术

柱状图属于图表中的一种类型，主要由柱子、文字、图例、坐标轴组成。在图像处理中，对图像中的柱状图案常利用矩形检测进行定位。传统矩形检测方法是：提取图像中不同形状图案的轮廓，挑选符合矩形特征的轮廓。提取轮廓之前通常是先分割图像中的图案。矩形图案一般是满足一定的宽高比、占空比、面积、4个角点、4条直线边缘。对提取的轮廓按照上述特征进行判断，从而实现对矩形的检测。在柱状图中，对于矩形的判断来说，干扰比较多，比如柱状一般和坐标轴连接，也会嵌入文字等，对于矩形形状的检测是个难点。要想准确提取矩形，就要对柱状周围的文字以及横坐标进行过滤，这通常是比较复杂的。而且柱状图的形式多样，设计的去干扰算法很难适应所有图像。

发明内容

本发明的目的在于改善现有技术中所存在的柱状图中的例如柱状等信息提取困难的不足，提供一种柱状图中的信息提取方法及装置。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一方面，本发明实施例中提供了一种柱状图中的信息提取方法，包括以下步骤：

输入待处理的柱状图；

采用基于FasterR-CNN模型的目标检测法，检测出待处理柱状图中的各个元素；

对检测出的文本元素框进行文字识别，以提取出对应的文字信息；

将检测出的所有元素和文字信息转换为结构化数据。

其中，所述FasterR-CNN模型通过以下方式训练得到：

步骤1，随机初始化FasterR-CNN模型中的学习参数；

步骤2，将一批训练样本输入FasterR-CNN模型中，得到当前模型参数下训练样本中第i个元素框的预测的分类概率p_i及预测的包围盒坐标向量t_i；

步骤3，采用如下公式对步骤2中的输出结果进行损失计算，并求取一批训练样本中所有元素框的平均损失式中，L({p_i},{t_i})为第i个元素框的损失，N_cls为mini-batch的值，N_reganchor位置的数量，λ为权重，为目标与非目标的对数损失，为回归损失函数；

步骤4，求解最小化并更新Faster R-CNN模型中所有的学习参数；

步骤5，循环执行步骤2～步骤4，直至设定的迭代次数。

另一方面，本发明实施例提供了一种柱状图中的信息提取装置，包括：

输入模块，用于输入待处理的柱状图；

元素检测模块，用于基于Faster R-CNN模型的目标检测法，检测出待处理柱状图中的各个元素；

文本识别模块，用于对检测出的文本元素框进行文字识别，以提取出对应的文字信息；

结构化模块，用于将检测出的所有元素和文字信息转换为结构化数据。

再一方面，本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质，所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。

再一方面，本发明实施例同时提供了一种电子设备，包括：存储器，存储程序指令；处理器，与所述存储器相连接，执行存储器中的程序指令，实现本发明实施例中所述方法中的步骤。

与现有技术相比，本发明的有益效果：本发明方法及装置通过深度学习的方式，利用Faster R-CNN模型进行目标检测，可以检测出柱状图中的各个元素，并且可以适应各种复杂程度的柱状图，为柱状图的信息提取提供了一套既简单又有效的解决方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明较佳实施例中所述柱状图中的信息提取方法的流程图。

图2为实施例中Faster R-CNN模型的训练流程图。

图3为实施例中所述一种原始的垂直柱状图。

图4为图3经过元素检测后的状态图。

图5为实施例中另一种类型的柱状图。

图6为实施例中另一种类型的柱状图。

图7为从图3中所示柱状图中提取的信息重构的柱状图。

图8a、图8b分别为降噪前后的示意图。

图9为实施例中所述柱状图中的信息提取装置的功能模块图。

图10为实施例中提供的一种电子设备的结构示意框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例提供的柱状图中的信息提取方法，包括以下步骤：

B，接收待处理的柱状图，采用基于Faster R-CNN模型的目标检测法，检测出待处理柱状图中的各个元素，即，将待处理柱状图输入预先训练好的Faster R-CNN模型，即可输出获知柱状图中各个元素对应的元素类别及在柱状图中的位置，所述元素包括柱状、坐标轴、文本、图例。如图3-4所示，图3为原始柱状图，图4为经过Faster R-CNN模型检测后的状态图，经过Faster R-CNN模型检测后提取到所有元素的外包矩形，可称之为元素框。

FasterR-CNN模型主要用于检测自然场景中的目标，如车辆，人，动物等。但是发明人在研究中发现，将该模型应用在柱状图的元素检测，可以得到很好的检测效果，元素类型的判断以及位置回归都非常准确。训练FasterR-CNN模型的样本包括训练集和测试集，测试集来源于人工标注，在图像中标记出柱状、坐标轴、文本、图例，坐标轴可以细分水平坐标轴和竖直坐标轴。请参阅图2，本实施例中，训练FasterR-CNN模型的过程如下：

步骤1，随机初始化FasterR-CNN模型中的学习参数；

步骤2，将一批(对应后面的mini-batch)训练样本输入FasterR-CNN模型中，得到当前模型参数下训练样本中第i个元素框的预测的分类概率p_i及预测的包围盒坐标向量t_i；

步骤3，采用如下公式对步骤2中的输出结果进行损失计算，并求取一批训练样本中所有元素框的平均损失式中，L({p_i},{t_i})为第i个元素框的损失，N_cls为mini-batch的值，一般为256，N_reganchor位置的数量，一般约等于2400，λ为权重，一般设定为10，这样cls和reg项差不多是等权重的，为目标(即元素框)与非目标的对数损失，如果Pi为正，实际标签概率Pi*就是1，如果Pi为负，Pi*就是0，为回归损失函数，其中R是定义的鲁棒的损失函数(smooth L1)，ti是一个向量，表示预测的包围盒的4个参数化坐标，ti*是实际包围盒的坐标向量。

步骤4，求解最小化并更新Faster R-CNN模型中所有的学习参数。

本步骤中，可以采用BP算法最小化BP算法是神经网络中参数更新的标准方法，进行参数更新的时候，采用梯度下降法，即要找到最优解loss对应的权重参数W的方法。具体步骤是：对损失函数中每个参数W求导数，找到每个参数的负梯度方向dW，然后进行一小步更新，即权重更新为W＝W+learning_rate*dW，其中learning_rate为学习率或理解成更新步长，例如设置为0.001。迭代此步骤。求导时由于是复合函数求导(多层神经网络)，因此，需要采用微积分中的链式法则，链式法则在神经网络中的体现就是反向传播(BP)，是神经网络中的专用术语。dW从最后一层依次向前计算。

步骤5，循环执行步骤2～步骤4，直至设定的迭代次数。迭代次数可以根据经验设定，例如10万次，但是设定的迭代次数至少需要保障在步骤4中最小化L不再变化。

通过深度学习的方式，利用Faster R-CNN模型进行目标检测，可以检测出柱状图中的各个元素，并且可以适应各种复杂程度的柱状图。

C，采用OCR识别算法对检测出的文本元素框进行文字识别，得到各个文本元素框对应的文字信息。即通过Attention-ocr模型，识别出各个文本元素框中的文字信息，例如图4中y轴左侧对应的数据0,50000等，又如图4中的图例文字“主营业务收入(万元)”等。OCR识别为成熟的现有技术，故此处对此不做细述。可以理解地，也可以采用其他方式是把文本元框中的文字信息。

D，将检测出的所有元素及文字信息转换为结构化数据。

本步骤中，在具体实施时，可以包括如下步骤：

D1，对柱状按照图例进行分组；

D2，进行版面分析，得到每个文本的标签；

D3，对柱状进行数据映射和类别绑定，最终得到结构化的数据。

在更为具体的方案中，步骤D1中，对柱状按照图例进行分组，具体可以是：在LAB空间下，分别计算各个图例的LAB数值和各个柱状的LAB数值；针对于每一个柱状，将该柱状的LAB数值与每个图例的LAB数值进行欧式距离计算，与该柱状距离最小的图例即为该柱状对应的图例。

LAB数值是针对于单个像素而言的，所述将该柱状的LAB数值与每个图例的LAB数值进行欧式距离计算，可以有多种实施方式，例如作为一种可靠性高且运算简单的实施方式，可以先求取整个柱状中所有元素的LAB均值及图例中所有元素的LAB均值，以此两个LAB均值进行欧式距离计算，颜色越相近，欧式距离值越小，因此与该柱状距离最小的图例即可判定为该柱状对应的图例。例如图5所示柱状图中，所有颜色最深的柱状为一组，对应于“其他”的图例，所有颜色最浅的柱状为一组，对应于“总面积”的图例。再例如图6所示的堆叠型的柱状图中，其原理是一样的，最下层(实际柱状图中不同柱状以不同颜色表示，但基于非彩色的说明书附图，为了便于表示，此处用矩形框将各个柱状进行区分)的柱状为一组，对应‘220以下’的图例，最上层的柱状为一组，对应‘320以上’的图例。

作为其他实施方式，也可以将柱状中的每个像素的LAB数值与每个图例中的每个像素的LAB数值进行欧式距离计算，再求取柱状中所有像素的欧式距离平均值。这样的实施方式也有足够高的可靠性，但是运算量大，设备要求高。

LAB色彩空间是一种CIE指定的一种测定颜色的国际标准，这套颜色模型与其他颜色模型的不同之处在于，它是一种与显示设备本身无关的颜色模型，是一种基于人眼感官的色彩模型(即通过两种颜色的LAB计算出来的色差与人眼主管感受相同)。LAB空间的L代表的是亮度，A代表的是从红色到绿色的范围，B是黄色到蓝色的范围。

经过目标检测后的柱状图在RGB颜色空间，因此，需要将该柱状图由RGB颜色空间转换到LAB颜色空间。RGB颜色空间不能直接转换为LAB颜色空间，需要借助XYZ颜色空间，把RGB颜色空间转换到XYZ颜色空间，之后再把XYZ颜色空间转换到LAB颜色空间。RGB颜色空间与XYZ颜色空间、XYZ颜色空间与LAB颜色空间分别有如下关系，根据这些关系即可实现将折线图由RGB颜色空间转换到LAB颜色空间。

L^*＝116f(Y/Y_n)-16，A^*＝500[f(X/X_n)-f(Y/Y_n)]，

柱状图中，文本也有多个类别，例如标题、单位、X轴文字、Y轴文字、图例文字、其他说明性文字，不是所有的柱状图都有这些类别的文字，例如可能没有标题，可能没有单位，可以没有其他说明性文字。柱状图中的各种文字具有一定的规则性，例如图例文字在图例的右侧且图例元素框的右边缘与图例文字元素框的左边缘距离最近，在y轴左侧并且右对齐的文字就是y轴文字，在x轴下方并且上对齐的就是x轴文字，在所有文字中排除图例文字、x轴文字、y轴文字后，在剩下的文字中，如果有宽高比比较大且在图像上部分并居中就判断为标题文字。如果文字中含有单位关键字且在y轴附近则判断为单位文字，剩下的就是其他说明性文字。因此可以根据这些规则对各个文本元素框打上相应的标签。

即上述步骤D2中，进行版面分析，得到每个文本的标签，可以采用如下方式实现：将与图例距离最近的文本确定为图例文字；将位于y轴左侧并且右对齐的文本确定为y轴文字，将位于x轴下方并且上对齐的文本确定为x轴文字；将宽高比大于设定阈值且位于图像上部分并居中的文本确定为标题文字；将文字中含有单位关键字的文本确定为单位文字，如果还有其他文字，则确定为其他说明性文字。通过上述方式对文本打标签，可以保障文字类型确定的准确性，且实施方式简单。

对柱状进行数据映射，是指将柱状与数据进行匹配，找出柱状表示的数据。柱状图中存在两种坐标系，一种是图像坐标系，该坐标系以像素为单位，另一种是数据坐标系，两种坐标系是线性关系。通过前面提到的元素提取，可以确定各个元素框的位置，取元素框的中心点作为锚点，OCR则可以得到文本的内容，这两者可以拟合出一个线性模型，使得柱状中的每一个位置都能得到一个对应的数据。因此，作为一种实施方式，上述步骤步骤D3中，对柱状进行数据映射，具体可以是：针对于y轴(针对垂直柱状图，y轴上的文本表示数据，x轴上的文本表示柱状的类别)或x轴(针对水平柱状图，x轴上的文本表示数据，y轴上的文本表示柱状的类别)对应的每一个数据文本元素框，以文本元素框的中心点作为锚点，通过锚点计算每个文本元素框在图像中的位置，并以文本元素框中的数据及文本元素框在图像中的位置进行线性拟合，得到线性关系式；针对于每一个柱状，根据其上边缘和下边缘确定其在图像中的位置，根据柱状在图像中的位置及上述线性关系式，确定该柱状所对应的数据，实现数据映射。

此处以垂直柱状图为例，如下图4所示，每个柱状的数据需要从y轴上的数字经过映射得到，在这张图中先计算柱状的上边缘和下边缘在图像中的位置，比如上边缘在第200行，下边缘在第300行。y轴左边有7个文字框，表示y轴的刻度，通过锚点计算每个框在图像的位置，比如‘300000’在第50行，‘250000’在100行，‘200000’在150行，‘150000’在200行，‘100000’在250行，‘50000’在300行，‘0’在350行，那么“300000、250000、200000、150000、100000、50000、0”和“50、100、150、200、250、300、350”这两组数就存在线性关系，拟合这个线性关系后，已知柱状边缘在图像中的行数就可以计算其所对应的数值了。例如，请参阅图7，得到图4中第一个柱状对应的数据为71130.882，第二个柱状对应的数据为74638.032。

作为一种可实施方式的举例，在上述步骤D3中，对柱状进行类别绑定，具体可以是：针对于x轴或y轴对应的每一个类别文本元素框，以文本元素框的中心点作为锚点，在一定范围内移动文本元素框，每次移动计算文本元素框与对应的每组柱状的距离，将最小的距离位置作为该文本元素框的放置位置，实现柱状类别绑定。

例如图5所示柱状图中，三组柱状要与x轴下方的文字匹配。柱状和文本都以元素框的中心点的x值为锚点，在一定范围(一个柱状周期范围，如图3中的一个柱状周期范围包括柱状的宽度及相邻柱状之间的距离，又如图5中一个柱状周期范围包括3个柱状的总宽度及相邻柱状之间的距离)内，以像素为单位，移动x轴下方的文本元素框，每移动一个像素计算文本元素框与每组柱状元素框的锚点距离，当移动到3个柱状的正下方时，对于柱状是最佳的文本匹配位置。由于每个文本都是对应到3个柱状的正下方，所以在移动时可以整体移动x轴下方的文本元素框，只需要进行一次确定即可确定x轴下方的所有文本元素框的位置，操作方式更简单，绑定速度更快。

经过上述步骤B-D，已经获得了柱状图中的所有信息，将这些结构化的数据进行可视化显示，即可重新构建柱状图。HIGHCHARTS是方便快捷的HTML5交互性图表库，能够很简单便捷的在web网站或是web应用程序添加有交互性的图表。例如可以将结构化数据用HIGHCHARTS进行可视化，即可得到如图7所示的新的柱状图。使用HIGHCHARTS绘制图，需要输入每组柱状对应的图例颜色和图例文字，每组柱状与y轴映射的数据，每组柱状与x轴对应的文本。

一般地，待处理的柱状图是JPEG格式图像，该类型图像是经过JPEG压缩后得到的，压缩过程中会产生噪声。为了便于元素检测，进一步提高步骤B中元素检测的准确性，在另一实施方案中，在步骤B之前，上述方法还包括步骤A，将待处理柱状图进行降噪处理，此时步骤B中则是对经过降噪处理后的待处理柱状图进行目标检测。

上述降噪处理过程可以是：将待处理柱状图输入预先训练的全卷积网络模型，输出得到去除噪声且分辨率提高的图像。

所述全卷积网络模型的结构包括输入层、卷积层、激活层、残差模块、BN层和亚像素层。该全卷积网络模型可以通过以下步骤训练得到：

a，随机初始化全卷积网络模型的参数。

b，随机选取Batchsize张样本图片，并在每张样本图片上随机截取W*H尺寸的图像，作为本次迭代目标图像样本。

c，将目标图像样本中的每个像素归一化到-1～1之间。

d，将目标图像样本进行双线性插值的2倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，尺寸为

e，将步骤d得到的一批JPEG图像作为输入，传入到经步骤a初始化的全卷积网络模型中，得到输出图像，尺寸为W*H。

f，计算本次迭代当前均方误差损失loss：其中target为样本图片高清PNG图像的目标值，output为对应的低分辨率JPEG图像输入到网络模型中得到的输出值。

训练所学的样本以样本对的形式给出。目标生成的高清PNG图像可以通过矢量PDF按照指定的高分辨率(例如分辨率为1600*1200)进行绘制，在生成高分辨率无损图像的同时，将其降低一倍分辨率，并按照随机JPEG压缩率生成对应的低分辨率JPEG图像，就构成了训练模型的样本对。

g，利用BP算法更新当前全卷积网络模型的参数；

循环执行步骤b～g，直至预先设定的迭代次数。

待处理的JPEG图像经过上述过程训练得到的全卷积网络模型处理后，不仅可以去除JPEG噪声，还可以提升图像分辨率，得到更高质量的图像，更有利于元素检测。如图8a、图8b所示，图8a为原始图像，图8b经过降噪后的图像，此处仅截取了图5中的图例“其他”来进行展示。

基于与上述方法相同的发明构思，本申请实施例还提供了一种柱状图中的信息提取装置。如图9所示，柱状图中的信息提取装置包括预处理模块41、元素检测模块42、文本识别模块43、结构化模块44和柱状图重构模块45。

其中，预处理模块41用于将待处理柱状图进行降噪处理，得到降噪处理后的待处理柱状图以供元素检测模块使用。

其中，元素检测模块42用于基于FasterR-CNN模型的目标检测法，检测出待处理柱状图中的各个元素，所述元素包括柱状、坐标轴、文本、图例。

其中，文本识别模块43，用于采用OCR识别算法对检测出的文本元素框进行文字识别，得到各个文本元素框对应的文字信息。

其中，结构化模块44用于将检测出的所有元素及文字信息转换为结构化数据。

其中，所述结构化模块44包括：分组子模块，用于对柱状按照图例进行分组；标签子模块，用于进行版面分析，得到每个文本的标签；映射子模块，用于对柱状进行数据映射和类别绑定，最终得到结构化的数据。

其中，所述分组子模块具体用于，在LAB空间下，分别计算各个图例的LAB数值和各个柱状的LAB数值；针对于每一个柱状，将该柱状的LAB数值与每个图例的LAB数值进行欧式距离计算，与该柱状距离最小的图例即为该柱状对应的图例。

所述标签子模块具体用于，将与图例距离最近的文本确定为图例文字；将位于y轴左侧并且右对齐的文本确定为y轴文字，将位于x轴下方并且上对齐的文本确定为x轴文字；将宽高比大于设定阈值且位于图像上部分并居中的文本确定为标题文字；将文字中含有单位关键字的文本确定为单位文字。

所述映射子模块具体用于，针对于y轴或x轴对应的每一个数据文本元素框，以文本元素框的中心点作为锚点，通过锚点计算每个文本元素框在图像中的位置，并以文本元素框中的数据及文本元素框在图像中的位置进行线性拟合，得到线性关系式；针对于每一个柱状，根据其上边缘和下边缘确定其在图像中的位置，根据柱状在图像中的位置及上述线性关系式，确定该柱状所对应的数据，实现数据映射；针对于x轴或y轴对应的每一个类别文本元素框，以文本元素框的中心点作为锚点，在一定范围内移动文本元素框，每次移动计算文本元素框与对应的每组柱状的距离，将最小的距离位置作为该文本元素框的放置位置，实现柱状类别绑定。

其中，柱状图重构模块45，用于将得到的结构化数据进行可视化显示，重构柱状图。

本柱状图中的信息提取装置的实施例中未涉及之处，请参见前述柱状图中的信息提取方法实施例中的相应描述。

如图10所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、图表重绘、通信或其他功能。

如图10所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图10中显示的所有部件。此外，电子设备还可以包括图10中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的图表数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供样本图像或待处理的柱状图像。显示单元54用于显示经过元素检测后的柱状图，或者是从柱状图中提取的信息，或者是重构的柱状图，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行本发明方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种柱状图中的信息提取方法，其特征在于，包括以下步骤：

输入待处理的柱状图；

将检测出的所有元素和文字信息转换为结构化数据。

2.根据权利要求1所述的方法，其特征在于，所述元素包括柱状、坐标轴、文本、图例。

3.根据权利要求1所述的方法，其特征在于，所述FasterR-CNN模型通过以下方式训练得到：

步骤1，随机初始化FasterR-CNN模型中的学习参数；

步骤4，求解最小化并更新Faster R-CNN模型中所有的学习参数；

步骤5，循环执行步骤2～步骤4，直至设定的迭代次数。

4.根据权利要求3所述的方法，其特征在于，在步骤4中，利用BP算法来求解最小化

5.根据权利要求1所述的方法，其特征在于，采用OCR识别算法对检测出的文本元素框进行文字识别，以得到各个文本元素框对应的文字信息。

6.根据权利要求1所述的方法，其特征在于，所述将检测出的所有元素和文字信息转换为结构化数据的步骤包括以下步骤：

D1，对柱状按照图例进行分组；

D2，进行版面分析，得到每个文本的标签；

7.根据权利要求6所述的方法，其特征在于，所述步骤D1中，对柱状按照图例进行分组，具体为：

在LAB空间下，分别计算各个图例的LAB数值和各个柱状的LAB数值；

针对于每一个柱状，将该柱状的LAB数值与每个图例的LAB数值进行欧式距离计算，与该柱状距离最小的图例即为该柱状对应的图例。

8.根据权利要求6所述的方法，其特征在于，所述步骤D2中，进行版面分析，得到每个文本的标签，具体为：

将与图例距离最近的文本确定为图例文字；

将位于y轴左侧并且右对齐的文本确定为y轴文字，将位于x轴下方并且上对齐的文本确定为x轴文字；

将宽高比大于设定阈值且位于图像上部分并居中的文本确定为标题文字；

将文字中含有单位关键字的文本确定为单位文字。

9.根据权利要求6所述的方法，其特征在于，所述步骤D3中，对柱状进行数据映射，具体为：

针对于y轴或x轴对应的每一个数据文本元素框，以文本元素框的中心点作为锚点，通过锚点计算每个文本元素框在图像中的位置，并以文本元素框中的数据及文本元素框在图像中的位置进行线性拟合，得到线性关系式；

针对于每一个柱状，根据其上边缘和下边缘确定其在图像中的位置，根据柱状在图像中的位置及上述线性关系式，确定该柱状所对应的数据，实现数据映射。

10.根据权利要求6所述的方法，其特征在于，所述步骤D3中，对柱状进行类别绑定，具体为：

针对于x轴或y轴对应的每一个类别文本元素框，以文本元素框的中心点作为锚点，在一个柱状周期范围内移动文本元素框，每次移动计算文本元素框与对应的每组柱状的距离，将最小的距离位置作为该文本元素框的放置位置，实现柱状类别绑定。

11.根据权利要求1所述的方法，其特征在于，还包括一预处理步骤，用于在对待处理柱状图进行元素检测之前，对输入的待处理柱状图进行降噪处理。

12.根据权利要求11所述的方法，其特征在于，所述降噪处理包括：将待处理柱状图输入预先训练的全卷积网络模型，输出得到去除噪声且分辨率提高的图像。

13.根据权利要求1所述的方法，其特征在于，还包括一柱状图重构步骤，用于将得到的所述结构化数据进行可视化显示，重构所述柱状图。

14.根据权利要求13所述的方法，其特征在于，利用HIGHCHARTS对所述结构化数据进行可视化，从而重构柱状图。

15.一种柱状图中的信息提取装置，其特征在于，包括：

输入模块，用于输入待处理的柱状图；

元素检测模块，用于基于FasterR-CNN模型的目标检测法，检测出待处理柱状图中的各个元素；

16.根据权利要求15所述的装置，其特征在于，所述元素包括柱状、坐标轴、文本、图例。

17.根据权利要求15所述的装置，其中，所述FasterR-CNN模型通过以下方式训练得到：

步骤1，随机初始化FasterR-CNN模型中的学习参数；

步骤4，求解最小化并更新Faster R-CNN模型中所有的学习参数；

步骤5，循环执行步骤2～步骤4，直至设定的迭代次数。

18.根据权利要求15所述的装置，其特征在于，所述文本识别模块采用OCR识别算法对检测出的文本元素框进行文字识别，得到各个文本元素框对应的文字信息。

19.根据权利要求15所述的装置，其特征在于，所述结构化模块包括：

分组子模块，用于对柱状按照图例进行分组；

标签子模块，用于进行版面分析，得到每个文本的标签；

映射子模块，用于对柱状进行数据映射和类别绑定，最终得到结构化的数据。

20.根据权利要求15所述的装置，其特征在于，还包括预处理模块，用于对输入的待处理柱状图进行降噪处理，得到降噪处理后的待处理柱状图以供元素检测模块使用。

21.根据权利要求15所述的装置，其特征在于，还包括柱状图重构模块，用于将得到的所述结构化数据进行可视化显示，重构所述柱状图。

22.一种包括计算机可读指令的计算机可读存储介质，其特征在于，所述计算机可读指令在被执行时使处理器执行权利要求1-14任一所述方法中的操作。

23.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求1-14任一所述方法中的步骤。