CN113095267B

CN113095267B - 统计图的数据提取方法、电子设备和存储介质

Info

Publication number: CN113095267B
Application number: CN202110434064.2A
Authority: CN
Inventors: 王小凤; 张浩波
Original assignee: Shanghai Jining Computer Technology Co ltd
Current assignee: Shanghai Jining Computer Technology Co ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-09-27
Anticipated expiration: 2041-04-22
Also published as: CN113095267A

Abstract

本发明实施例涉及信息处理领域，公开了一种统计图的数据提取方法、电子设备和存储介质，包括：利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离，获取若干图层并确定每个图层对应的统计图类型，其中，图层为仅含有统计图形的二值图像；获取图层中的统计图形的关键点位置信息；利用预设的筛选条件，确定目标图像中的坐标轴和刻度信息；利用预设的标签筛选条件，从目标图像利用模型识别出的文本信息中确定坐标轴标签；根据关键点位置信息、坐标轴、刻度信息和坐标轴标签确定每个统计图形表示的统计数据并生成结构数据。通过本发明的方案能够实现对统计图数据的准确、完整、有效和快速提取。

Description

统计图的数据提取方法、电子设备和存储介质

技术领域

本发明实施例涉及信息处理领域，特别涉及一种统计图的数据提取方法、电子设备和存储介质。

背景技术

统计图能够直观地展现出统计数据，但用户也存在对统计图中的数据等信息进行提取的需求，从而在后续进行数据整合等处理。但是，在统计图不能编辑的情况下，如可携带文档格式(Portable Document Format，PDF)文件中的统计图、网页中下载的含统计图的图片等，统计图中的数据不能直接被导出，此时，就需要对统计图进一步进行处理。目前，常用的提取方法通常从以下两个方面进行考虑：一是利用多种模型从不同方面对统计图进行处理，分别提取出统计图中的统计数据、尺度、注释等信息；二是将文件转化为可缩放的矢量图形(Scalable Vector Graphics，SVG)格式后，基于SVG格式的文件设置多种提取规则进行数据提取。

然而，模型和规则都具有各自的优缺点，上述两种方法仅使用模型或者仅使用规则，非常单一，不能充分利用和结合模型各自的优点，从而不能最大程度地保证提取数据的速度和准确性。尤其是，利用模型进行提取时，提取结果的精度取决于模型的精度，而模型容易受到干扰信息的影响导致结果不准确，并且为了保证模型的精度，相应地需要使用大量的语料数据来训练模型，而语料数据需要人工标注特征，也就是说需要浪费大量的人力资源来保证模型具有一定的精度；而与可移植网络图形格式(Portable Network GraphicFormat，PNG)等格式的统计图相比，SVG格式的统计图清晰度更低且不能准确地描述字符的位置，即转化为SVG格式会降低统计图的精度，从而降低提取数据的精度，特别地，SVG格式下的统计图并且实际中存在大量的统计图来源于PDF文件，当统计图以图片的格式，如PNG图片，存在于PDF文件中时，在转换成SVG格式后统计图在文件中以超链接的形式存在，可识别性差，若SVG格式的文件中不能被识别，更无法进行数据提取。

发明内容

本发明实施方式的目的在于提供一种统计图的数据提取方法、电子设备和存储介质，在不需要格式转换的情况下，准确、快速地提取出统计图中的统计数据，并同时提取能够辅助理解统计数据的其他信息，使得提取的信息更加完整、有效。

为解决上述技术问题，本发明的实施例提供了一种统计图的数据提取方法，包括：利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离，获取若干图层并确定每个所述图层对应的所述统计图类型，其中，所述图层为仅含有统计图形的二值图像；获取所述图层中的所述统计图形的关键点位置信息；利用预设的筛选条件，确定所述目标图像中的坐标轴、刻度信息；利用预设的标签筛选条件，从所述目标图像利用模型识别出的文本信息中确定坐标轴标签；根据所述关键点位置信息、所述坐标轴、所述刻度信息和所述坐标轴标签确定每个所述统计图形表示的统计数据并生成结构数据。

本发明的实施例还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上所述的统计图的数据提取方法。

本发明的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现以上所述的统计图的数据提取方法。

本发明实施例提供的统计图的数据提取方法，利用语义分割模型按照统计图类型对目标图像进行图层分离，得到若干个仅含有统计图形的二值图像作为图层，不同统计类型对应一个独立的图层，且二值图像表示的图层仅含有该统计类型的统计图形，使得在最大程度上减少了图层中的干扰因素，进而使得获取的统计图形的关键点位置信息受到的干扰小、准确性高，并且在图层分离的过程中，语义分割模型处理能够高效、准确地得到各个图层，充分利用了语义分割模型的优点。然后利用预设的筛选条件确定坐标轴和刻度信息，针对性和适用性更强，保证了获取坐标轴和刻度信息的准确性和精度，最后在确定坐标轴标签之后，根据坐标轴标签、刻度信息、坐标轴和关键点位置信息得到统计数据并生成结构数据，充分利用了统计图中的各种信息，通过综合分析获取统计数据并生成结构数据，有利于快速、准确地提取数据。此外，模型和规则共同参与数据的提取过程，充分利用两者的优点，提升处理效率和准确性，且不需要转换为SVG格式，进一步加快了处理速度。

另外，本发明实施例提供的统计图的数据提取方法，所述统计图类型为柱形图，所述统计图形为矩形，所述关键点位置信息为所述矩形的对角点位置信息，所述获取所述图层中的所述统计图形的关键点位置信息，包括：检测所述图层中的所述矩形是否完整；若存在至少一个所述矩形不完整，对不完整的所述矩形进行补全；检测所述图层中的所述矩形是否相连；若存在若干个所述矩形相连，对相连的所述矩形进行分割；获取所述图层中每个所述矩形的所述对角点位置信息。由于关键点位置信息能够直接确定统计图形的位置和几何信息，且统计图形的几何信息是统计数据的直观表达，因此，关键点的位置信息的准确性直接决定了提取统计数据的准确性，上述步骤通过对柱形图所在图层的矩形进行检测并进行相应的操作，即补全和/或分割，保证了柱形图中统计图形的独立性和完整性，避免在获取关键点位置信息时由于统计图形不完整和不独立导致的关键信息缺失或错误的情况，使得利用关键点位置信息计算的统计数据更加准确可靠，进一步提高了本发明的精度和准确度。

另外，本发明实施例提供的统计图的数据提取方法，所述确定所述目标图像中的坐标轴，包括：将所述目标图像中唯一满足预设第一长度条件的水平线段作为所述横坐标轴，或者，当所述统计图包含柱形图时，根据所述柱形图中矩形的位置确定所述横坐标轴；若所述统计图存在纵坐标轴，将所述目标图像中唯一或唯二满足预设第二长度条件的竖直线作为所述纵坐标轴，或者，利用所述统计图形的位置确定所述纵坐标轴。本发明充分考虑了目标图像中包含的统计图的实际情况，通过为各种不同的应用场景针对性地提供了确定坐标轴的方法，使得不同情况下仍然在最大程度上保证了坐标轴的正确性，使得后续根据坐标轴进行的一系列操作精度得到提高，最终提高提取数据的精度。且提出的不止一种获取确定横、纵坐标轴的方法，能够适用于在不同场景下对统计图进行数据提取，更加灵活实用。

另外，本发明实施例提供的统计图的数据提取方法，所述刻度信息包括第一刻度和第二刻度，所述确定所述目标图像的刻度信息，包括：从所述目标图像中确定初始刻度并记录每相邻两个所述初始刻度之间的距离作为第一间距；根据所述第一间距将等距的所述初始刻度分为一组，获取若干刻度分组；将所述刻度分组中所述初始刻度数量最多的一组中的所述初始刻度作为所述第一刻度，将相邻两个所述第一刻度之间的距离作为第二间距；根据所述第一间距和所述第二间距从其余所述初始刻度中确定所述第二刻度。本发明通过相应的规则在最大程度上提高标签的准确性，并在筛选出第一刻度后，根据第一刻度彼此间的距离继续获取第二刻度，使得由第一刻度和第二刻度组成的刻度信息尽可能的多，从而使得最终获取到的刻度信息尽可能多，提高了根据刻度信息确定可靠性、精度和准确度，最终使得根据刻度信息得到的统计数据更加准确。

另外，本发明实施例提供的统计图的数据提取方法，所述刻度信息包括指导线，所述从所述目标图像中筛选出初始刻度，包括：识别所述目标图像中的水平线；将所述水平线作为所述初始刻度。获取的指导线有利于后续对确定的纵轴标签进行检验，尤其是不存在纵坐标轴、纵坐标轴无刻度点或不能确定纵坐标轴上的刻度点的情况下，仍然能够对纵轴标签进行检验，充分使用统计图中的各种信息，从而增强根据各种信息提取出的统计数据的可靠性和准确度。

另外，本发明实施例提供的统计图的数据提取方法，所述刻度信息包括刻度点，所述从所述目标图像中确定初始刻度，包括：对所述目标图像进行二值化并将所述目标图像中的统计图形填充为背景色；识别所述目标图像中长度在预设阈值内且与所述坐标轴垂直的线段作为所述初始刻度。通过背景色填充统计图形和二值化有利于排除图像中的干扰，不仅减少了可能的刻度点的数量，进而减少后续处理的工作量，而且减少干扰的影响，提高了确定的刻度点的准确性，使得利用刻度点检验标签的结果更加准确，从而提高标签的准确性，最终能够提高根据标签得到的统计数据的精度。

另外，本发明实施例提供的统计图的数据提取方法，所述坐标轴标签包括横轴标签，利用预设的标签筛选条件，从所述目标图像利用模型识别出的文本信息中确定所述横轴标签，包括：将所述坐标轴中的横坐标轴作为参考标识；确定位于所述参考标识下方的所述文本信息作为第一文本信息；将处于同一水平直线上的所述第一文本信息分为一组，获取若干个第一文本分组；将包含所述第一文本信息数量最多的所述第一文本分组作为所述第二文本分组；将垂直方向上距离所述参考标识最近或第二接近的所述第一文本分组作为第三文本分组；若所述第二文本分组属于所述第三文本分组，将所述第二文本分组中的所述第一文本信息作为初始横轴标签；若所述第二文本分组不属于所述第三文本分组，将所述参考标识更改为所述统计图形，重新确定所述初始横轴标签；根据所述刻度信息对所述初始横轴标签进行筛选，确定所述横轴标签。充分结合实际情况有针对性地提出确定标签的方法，提高了横轴标签的准确性，且在确定初始横轴标签之后，还对标签进行筛选，有利于提高横轴标签的准确性，进而提高根据横轴标签及其他信息生成的结构数据的准确性。

另外，本发明实施例提供的统计图的数据提取方法，所述坐标轴标签包括纵轴标签，利用预设的标签筛选条件从所述目标图像利用模型识别出的文本信息中确定所述纵轴标签，包括：将所述统计图两侧数据等差且彼此对齐的一组或两组文本信息作为所述初始纵轴标签，或者，当确定出的所述坐标轴包括纵坐标轴时，将所述纵坐标轴外侧的数据等差且彼此对齐的一组或两组所述文本信息作为所述初始纵轴标签；将在竖直方向上的中点和对应的所述刻度信息位于同一水平线上的所述初始纵轴标签作为所述纵轴标签。充分考虑纵轴标签的特性，适应性地提出通过数据等差和对其的文本中筛选纵轴标签，缩小了筛选范围，减小了后续处理工作量，且在确定了初始纵轴标签之后，还对纵轴标签进行检验，有利于提高纵轴标签的准确性，进而提高根据纵轴标签确定的统计数据的准确性。

另外，本发明实施例提供的统计图的数据提取方法，所述根据所述关键点位置信息、所述坐标轴、所述刻度信息和所述坐标轴标签确定每个所述统计图形表示的统计数据并生成结构数据，包括：从所述目标图像中确定图例信息；根据所述图例信息确定所述坐标轴标签与所述统计图形的对应关系；根据所述刻度信息和所述坐标轴标签确定单个像素点所代表的数据值；根据所述关键点位置信息、所述坐标轴、所述对应关系和所述单个像素点所代表的数据值得到所述统计数据并生成所述结构数据。获取图例信息，使得后续能够利用图例信息确定纵轴标签和统计图形对应关系，进而准确计算出统计图形中单个像素点对应的实际数据，得到统计图形对应的准确的统计数据。

另外，本发明实施例提供的统计图的数据提取方法，所述图例信息包括图例颜色和图例文本，所述从所述目标图像中确定所述统计图的图例信息，包括：根据所述目标图像中所述统计图形的颜色，在所述统计图形的上方和下方区域查找图例颜色标注块；确定所述图例颜色标注块的左侧或右侧相邻的文本信息为图例文本；所述根据所述图例信息确定所述坐标轴标签与所述统计图形的对应关系，包括：检测所述图例文本是否存在携带用于确定对应的所述坐标轴标签的指示信息；若所述图例文本携带所述指示信息，根据所述指示信息确定所述对应关系；若所述图例文本未携带所述指示信息，根据所述图例文本的位置和/或所述图例文字的含义确定所述对应关系。在利用统计图形的颜色查找图例信息，得到更为明确的查找依据，提高了查找图例信息的速度和准确度进而通过图例信息的准确性，避免根据图例信息确定统计图形和纵轴标签对应关系出现偏差或错误，进而保证得到的统计数据的准确性的同时，还充分考虑各种情况，针对性地进行相应的操作，从而最大程度保证对应关系的准确性，还能提高确定对应关系的效率。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的一实施例提供的统计图的数据提取方法的流程图；

图2是图1所示的实施例提供的统计图的数据提取方法中涉及的图层的示意图一；

图3是图1所示的实施例提供的统计图的数据提取方法中涉及的图层的示意图二；

图4是图1所示的实施例提供的统计图的数据提取方法中涉及的提取结果示意图；

图5是本发明的另一实施例提供的统计图的数据提取方法的流程图；

图6是图5所示的实施例提供的统计图的数据提取方法中涉及的水平直线示意图；

图7是图5所示的实施例提供的统计图的数据提取方法中涉及的指导线筛选结果示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

下面将结合图1对本实施例的统计图的数据提取方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

步骤101，利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离，获取若干图层并确定每个图层对应的统计图类型。

本实施例中，目标图像可以是从可携带文档格式(Portable Document Format，PDF)文件中截取的含有统计图的图片，还可以是从网页中下载并保存的含有统计图的图片等。目标图像中的统计图可以是柱形图、折线图、多个柱形图叠加或者柱形图叠加折线图等，本实施例不对统计图进行具体限制。图层为仅含有一种统计图形的二值图像，其中，统计图形是指统计图中用于直观表示统计数据的图案，如折线图的统计图形为折线、柱形图的统计图形为矩形等，二值图像可以为单色图像、黑白图像等，例如，图层可以为如图2所示的图像。

具体地说，在获取目标图像之后，识别目标图像中统计图的统计图形，并将属于同一统计类型的统计图案分离到同一个二值图像中，形成若干仅含有统计图形的图层并确定该图层中统计图形对应的统计图类型。

更具体地说，训练用于提取图像中的柱形图、折线图等类型的统计图的语义分割模型，然后利用训练好的语义分割模型识别统计图中统计图形所在区域并分离得到图层，同时保存每个图层对应的统计图类型。

步骤102，获取图层中的统计图形的关键点位置信息。

本实施例中，不同统计图类型对应的图层由于其实际包含的统计图形不同，因此，不同图层中关键点位置信息表示方法不同，如柱形图中关键点位置信息为矩形的对角点等，相应地，确定关键点位置信息的操作也不同。具体的，确定关键点位置信息可能存在以下情况：

一是，图层对应的统计图类型为柱形图，统计图形为矩形，关键点为矩形的对角点，如左上和右下角点。

此时，为了获取准确的关键点位置信息，可以先对图层进行轮廓检测，然后对得到的每个轮廓进行矩形近似并获取矩形近似后每个矩形的对角点信息，其中，矩形近似是将检测到的轮廓统一表示成矩形，例如，图2所示从左至右第4个矩形被切分为上下两个轮廓，以上方轮廓的左上点和右下点为矩形的左上角点和右下角点构造出一个矩形。

在一个例子中，由于目标图像中的统计图同时包括柱形图和折线图，折线覆盖了部分矩形的区域，图层分离后存在部分统计图形不完整的情况，例如图2所示从左至右第4个矩形的上下两个轮廓实际是彼此独立的，经过矩形近似的操作后，将会识别出两个矩形，进而得到两组对角点位置，且两组对角点的横坐标对应相同，最后产生错误。因此，在得到关键点位置信息之前，还需要检测图层中的矩形是否完整。具体地，在将图层中所有独立的轮廓近似为矩形后，判断近似后的矩形是否存在横坐标对应相同的矩形，即两近似后的矩形的左上和右下角点的横坐标是否对应相等或近似相等，若存在，即认为存在不完整的矩形。若存在至少一个所述矩形不完整，对不完整的所述矩形进行补全。具体地，在检测到两横坐标对应相同的矩形后，将这两个矩形进行合并，具体是取两个矩形的左上角坐标中纵坐标更小的那个纵坐标，右下角更高的那个纵坐标。

在另一个例子中，由于目标图像中的统计图存在多个单一的柱形图合并且这些矩形图相连设置，分离后的图层中存在矩形相连的情况，如图3所示，而相连的多个矩形只检测出一组对角点信息，最终导致遗漏关键点位置。因此，在得到关键点位置信息之前，还需要检测图层中的矩形是否相连。具体的，判断检测到的轮廓是否存在两条以上的竖直线，若是，即认为存在相连的矩形。若存在若干个矩形相连，对相连的矩形进行分割。具体地，将检测到最多竖直线的轮廓作为目标，获取沿目标除最外侧的两条竖直线之外的其他竖直线的间距，根据该间距对每个轮廓进行切割，如绘制一条和背景色颜色相同的直线以分隔开不同区域，或者获取目标中相邻竖直线之间的距离，以这个距离作为间隔在不同的轮廓中依次沿竖直方向多次进行切割，以使切割后相应图形的宽度等于这个间隔。

需要说明的是，提取数据的准确度和精度并不受矩形宽度的影响，故本实施例不要求切割的精度，即不要求切割矩形时切割线之间的距离的精度。

还需要说明的是，由于关键点位置信息能够直接对统计图形进行定位，而统计图形正反映了统计数据，因此，关键点的位置信息的准确性直接决定了提取统计数据的准确性，上述步骤通过对柱形图所在图层的矩形进行检测并进行相应的操作，补全和/或分割，保证了柱形图中统计图形的独立性和完整性，避免在获取关键点位置信息时由于统计图形不完整和不独立导致的关键信息缺失或错误的情况，使得利用关键点位置信息计算的统计数据更加准确可靠，进一步提高了本发明的精度。

一是，图层对应的统计图类型为折线图，统计图形为线段，关键点为线段的端点。

此时，为了获取准确的关键点位置信息，可以通过直线检测，确定图层中所有的线段，然后获取线段的端点位置信息。

需要说明的是，得到的图层可能只有一个，也可能包含多个。当只存在一个图层时，根据实际的统计图类型从上述两种情况中确定相应的步骤；当存在多个图层时，既包含柱形图对应的图层，又含有折线图对应的图层，则需要同时包含上述两种情况。

还需要说明的是，本实施例中位置信息可以是坐标，其中，坐标所在的坐标系以图层的左上点为原点，竖直向下为纵坐标轴正向，水平向右为横坐标轴正方向，以一个像素点的尺寸为坐标轴的单位尺度。在其他实施例中，坐标系还可以采用其他建立方式。

步骤103，利用预设的筛选条件，确定目标图像中的坐标轴和刻度信息。

本实施例中，步骤103确定的坐标轴至少包括横坐标轴，刻度信息为用于说明坐标轴上尺度的信息，如刻度点。

步骤104，利用预设的坐标轴标签筛选条件，从目标图像利用模型识别出的文本信息中确定坐标轴标签。

本实施例中，坐标轴标签包括横轴标签和纵轴标签，横轴标签是指统计图中用于标注横坐标轴某个尺度表示的含义等信息的字符，如2018年，类似的，纵轴标签是指统计图中用于标注纵坐标轴某个尺度表示的含义等信息的字符，一般为数字。以下对确定横轴标签和纵轴标签进行说明：

确定横轴标签具体包括：首先将坐标轴中的横坐标轴作为参考标识，然后确定位于参考标识下方的文本信息作为第一文本信息，其中，文本信息是利用光学字符识别(Optical Character Recognition，OCR)工具等从目标图像中提取出的文本，接着将处于同一水平直线上的第一文本信息分为一组，获取若干个第一文本分组，再然后将包含第一文本信息数量最多的第一文本分组作为第二文本分组，同时将垂直方向上距离参考标识最近或第二接近的第一文本分组作为第三文本分组，若第二文本分组属于第三文本分组，将第二文本分组中的第一文本信息作为初始横轴标签，若第二文本分组不属于第三文本分组，将参考标识更改为统计图形，返回以上确定位于参考标识下方的文本信息作为第一文本信息的步骤，以参考标识为统计图形重新确定一次初始横轴标签，最后，在得到初始横轴标签之后，根据刻度信息对初始横轴标签进一步筛选，确定横轴标签。充分结合实际情况有针对性地提出确定标签的方法，提高了横轴标签的准确性，且在确定初始横轴标签之后，还对标签进行检验，有利于提高横轴标签的准确性，进而提高根据横轴标签及其他信息生成的结构数据的准确性。

更具体地说，根据刻度信息对初始横轴标签进一步筛选是根据相邻的两个刻度信息和对应的初始横轴标签在水平方向上的中点位于同一竖直线上，来检测初始横轴标签是否正确，只有通过检测的初始纵轴标签作为纵轴标签。

需要说明的是，第一文本信息的数量不是文字符号的数量，而是将位于同一个文本框中的文字符号整体构成的文本数量记作一个。

确定纵轴标签具体包括：将统计图两侧数据等差且彼此对齐的一组或两组文本信息作为初始纵轴标签，或者，当坐标轴包括纵坐标轴时，将纵坐标轴的外侧的数据等差且彼此对齐的一组或两组文本信息作为初始纵轴标签；若刻度信息和所述初始纵轴标签在竖直方向上的中点位于同一水平线上，将初始纵轴标签作为纵轴标签。充分考虑纵轴标签的特性，适应性地提出通过数据等差和对其的文本中筛选纵轴标签，缩小了筛选范围，减小了后续处理工作量，且在确定了初始纵轴标签之后，还对纵轴标签进行检验，有利于提高纵轴标签的准确性，进而提高根据纵轴标签确定的统计数据的准确性。

更具体地说，当步骤103确定出的坐标轴包括纵坐标轴时，若步骤103中只确定出一条纵坐标轴，将纵坐标轴左侧的数据等差且对齐方式一致的文本作为初始纵轴标签，若步骤103中确定出两条纵坐标轴，将位于目标图像左侧的纵坐标轴作为左纵坐标轴并将位于目标图像右侧的纵坐标轴作为右纵坐标轴，将左纵坐标轴左侧的数据等差且对齐方式一致的文本作为左纵坐标轴的初始纵轴标签，将右纵坐标轴右侧的数据等差且对齐方式一致的文本作为右纵坐标轴的初始纵轴标签。然后利用指导线和/或刻度点的对称轴和对应的初始纵轴标签的对称轴是否重合来检测初始纵轴标签是否正确，只有通过检测才将初始纵轴标签作为纵轴标签。

需要说明的是，纵轴标签应该满足左侧最多一组，右侧最多一组，如果找到多组，即出现错误，视为没有找到。

还需要说明的是，本实施例中，在确定坐标轴标签(包括横轴标签和纵轴标签)的过程中，一旦确定了初始的标签，利用刻度信息进一步确定是为了从其中提出不满足条件的标签，进而筛选出更加准确的标签。在其他实施例中，还可以在筛选不成功时直接使用初始的标签或者将不对应在一条竖直或水平线上的标签剔除。

步骤105，根据关键点位置信息、坐标轴、刻度信息和坐标轴标签确定每个统计图形表示的统计数据并生成结构数据。

具体地说，从目标图像中确定图例信息，然后根据图例信息确定坐标轴标签与统计图形的对应关系，接着根据刻度信息和坐标轴标签确定单个像素点所代表的数据值，最后根据关键点位置信息、坐标轴、对应关系和单个像素点所代表的数据值得到统计数据并生成结构数据，其中，图例信息包括图例颜色和图例文本，结构数据可以是如图4所示的统计表。例如，根据相邻两个刻度信息之间的距离或者纵轴标签和纵轴标签中心之间的距离，计算出单位位置信息对应的实际数据，如一个像素点对应100万元，然后根据关键点位置信息和单位位置信息对应的实际数据计算出统计图形对应的统计数据，如根据关键点位置信息计算出某个矩形位于横坐标轴下方且长度为8个像素点，已经确定柱形图所在图层中一个像素点对应100万元，则其对应的统计数据为-8*100＝-800万元；某个折线端点位于横坐标轴的上方，且到横坐标轴的垂直距离为7个像素点，折线图所在图层中已经确定一个像素点对应占比5％，则其对应的统计数据为7*5％＝35％。

在一个例子中，为了进一步提高提取到的统计数据的准确，还可以综合考虑执行步骤105得到的统计数据和利用模型识别得到的数据。其中，识别得到的数据是指通过文字识别模型从目标图像中在统计图形附近提取的且水平方向中点和统计图形对齐的数据文本，如与柱形图中相应的矩形在水平方向上的中点对齐、和折线图中线段端点对齐。接着检测提取得到的数据和执行步骤105得到的统计数据之间的误差，若误差在一定范围内，则认为识别到的数据是正确的，以识别到的数据作为最终的统计数据，否则，将执行步骤105得到的数据作为最终的统计数据。

需要说明的是，在执行步骤105进行计算的过程中依赖于关键点位置信息和单个像素点所代表的数据值，而关键点位置信息和单个像素点所代表的数据值在获取的过程中不可避免地会存在微小误差，因此执行步骤105所得到的数据的精度只能是接近100％。利用文字识别模型从目标图像中识别数据，由于其识别的是目标图像中存在的数据项，因此在模型识别正确的情况下得到的数据的精度是可以达到100％的。但在实际应用过程中，并非每个目标图像都在统计图形中都标有数据项，此时无法利用模型识别数据，且在利用模型识别数据的过程中也容易受其他文本的干扰识别错误，无法将目标图像中的每一个数据项均准确识别。同时在模型识别不正确的情况下得到的数据会存在很大的误差。本申请综合考虑执行步骤105得到的统计数据和利用模型识别得到的数据，通过设置的多个规则检验利用模型识别得到的数据的准确性，只有在保证模型识别的数据是准确的情况下才将利用模型识别得到的数据作为最终数据，在模型识别错误或无法用模型识别数据的情况下将执行步骤105所得到的数据作为最终数据，从而使得最终获取到的统计数据整体的准确度和精确度进一步提高。

还需要说明的是，在生成结构数据的过程中，结构数据除了含有统计数据外，还包含横轴标签和图例文本等对统计数据进行说明的信息，为了得到准确的统计数据，当统计图类型包含柱形图时，判断柱形图中矩形在竖直方向上的中点是否和相应的横轴标签中点是否在竖直方向上对齐，当统计图类型包含折线图时，判断折线图中线段的端点是否和相应的横轴标签中点是否在竖直方向上对齐，实现对坐标轴标签的进一步检验。

在一个例子中，从目标图像中确定统计图的图例信息具体包括：根据目标图像中统计图形的颜色，在统计图形的上方和下方区域查找图例颜色标注块，然后确定图例颜色标注块的左侧或右侧相邻的文本信息为图例文本。更具体地说，首先提取同一统计图类型下的统计图形的颜色，在误差范围内将相同或相近的颜色划分为一组，并提取每个颜色分组中的最终颜色表示，如将颜色分组中的每个颜色的颜色数值进行平均并将平均值作为最终颜色表示等，然后在目标图像的上方或下方查找与最终颜色表示相近的颜色所在的图里颜色标注块。考虑到图例文本可能位于图例颜色标注块的左侧，也可能位于右侧，因此，在图例颜色标注块的附近查找文本，若每个图例颜色标注块的左侧较近范围内都存在文本，则确定图例颜色标注块的左侧的文本信息为图例文本，若每个图例颜色标注块的右侧较近范围内都存在文本，则确定图例颜色标注块的右侧的文本信息为图例文本。

在一个例子中，根据图例信息确定坐标轴标签与统计图形的对应关系，包括：检测图例文本是否存在携带用于确定对应的坐标轴标签的指示信息，若图例文本携带指示信息，根据指示信息确定对应关系，若图例文本未携带指示信息，根据图例文本的位置和/或图例文字的含义确定对应关系。更具体地说，指示信息包括左右轴文本信息和单位信息等，当图例信息包含左右轴文本信息，如图例文本“募资总额(右轴)”中的“右轴”，说明该图例对应右轴的标签信息，然后还根据图例颜色确定了该图例对应于折线图图层，将这些信息分为一组；当图例信息包含单位时，如图例文本“全球销售额(亿美元)”中的“亿美元”，在原图上识别文本寻找单位信息，在靠近左轴的位置得到单位文本信息，说明该图例对应于左轴标签信息，根据图例颜色，确定该图例对应于柱状图图层，将这些信息分为一组。充分考虑各种情况，针对性地进行相应的操作，从而最大程度保证对应关系的准确性，还能提高确定对应关系的效率。

还需要说明的是，若目标图像中包含折线图，而折线图中的某些线段在步骤102中未被准确识别出来，此时还可以利用柱形图或横轴标签来辅助来确定，若目标图像中还包含柱形图，还可以认为折线图折线点位于每个柱子的竖直方向上的对称轴上。若上述情况均不成立，还可以取与横轴标签文本中点(横轴方向)横坐标相同的点作为折点。

如图5所示，本发明的一个实施例涉及一种统计图的数据提取方法，该方法与图1所示实施例的区别在于，对一些步骤进一步进行了细化，包括：

步骤501，利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离，获取若干图层并确定每个图层对应的统计图类型。

本实施例中的步骤501和前述实施例中的步骤101大致相同，此处就不一一赘述了。

步骤502，获取图层中的统计图形的关键点位置信息。

本实施例中的步骤502和前述实施例中的步骤102大致相同，此处就不一一赘述了。

步骤503，利用预设的筛选条件，从目标图像中确定统计图的坐标轴和刻度信息。

确定坐标轴包括以下两种情况：

一是确定横坐标轴。具体地说，将目标图像中唯一满足预设长度条件的水平线作为横坐标轴，或者，当统计图包含柱形图时，根据柱形图中矩形的位置确定横坐标轴。

更具体地说，对目标图像进行水平直线检测，然后利用第一预设长度条件，如长度大于图片长度的0.7倍等，进行筛选，若筛选出来的水平直线有且仅有一条，则认为该水平直线为横坐标轴，若筛选出来的水平直线不止一条，检测目标图像中的统计图是否包含柱形图，若包含，根据柱形图中的任一矩形必有一边和横坐标轴重合的特点，存在一条水平直线与每个柱形图中的矩形的一边重合，该水平直线即为横坐标轴所在的水平线；或者，当统计图包含柱形图时，直接根据柱形图中矩形的位置确定横坐标轴根据柱形图中矩形的位置确定横坐标轴。

一是确定纵坐标轴。具体地说，将目标图像中唯一或唯二满足预设第二长度条件的竖直线作为纵坐标轴，或者，利用统计图形的位置确定纵坐标轴。

更具体地说，对目标图像进行竖直直线检测，然后利用预设的长度条件进行筛选，特别地，统计图的纵坐标轴可能仅有一条，也可能在统计图案两侧各有一条，因此，若筛选出来的竖直线有且仅有一条或者有且仅有分布在统计图像两侧的两条，则认为该竖直线为纵坐标轴；或者，在统计图像的两侧查找纵坐标轴。上述确定坐标轴的过程充分考虑了目标图像中包含的统计图的各种情况，并提出了不止一种获确定横、纵坐标轴的方法，能够适用于在不同场景下对统计图进行数据提取，更加灵活实用。

需要说明的是，统计图不一定存在纵坐标轴，因此，执行确定纵坐标轴的方法不一定能够识别出纵坐标轴。但是，在目标图像中不存在纵坐标轴时，一般会设置指导线，以直观显示统计图像代表的统计数据。

刻度信息包括第一刻度和第二刻度，确定刻度信息的步骤具体包括：从目标图像中确定初始刻度并记录每相邻两个初始刻度之间的距离作为第一间距；根据第一间距将等距的初始刻度分为一组，获取若干刻度分组；确定刻度分组中初始刻度数量最多的一组中的初始刻度为第一刻度并将相邻两个初始刻度之间的距离作为第二间距；根据第一间距和第二间距确定第二刻度。将第一刻度和第二刻度作为最终的刻度信息。其中，从目标图像中确定初始刻度存在以下两种情况：

一是刻度信息为刻度点。更具体地说，对目标图像进行二值化并将目标图像中的统计图形填充为背景色，然后识别目标图像中长度在预设阈值内且与坐标轴垂直的线段作为初始刻度。

一是刻度信息为指导线。更具体地说，识别目标图像中的水平线；将水平线作为初始刻度。

需要说明的是，根据第一间距和第二间距确定第二刻度，包括：从刻度信息任意一侧向外获取最邻近的初始刻度作为待处理刻度；根据第一间距获取待处理刻度和刻度信息的距离作为第三间距；根据第三间距判断待处理刻度是否存在第二刻度，并确定对应的第二刻度。其中，根据第三间距判断待处理刻度中是否存在目标刻度，并确定对应的第二刻度，包括：若第三间距近似是第二间距的N倍，判断存在第二刻度，在刻度信息外侧添加N个距离为(第三间距/N)的等距的第二刻度；若第三间距近似不是是第二间距的N倍，判断不存在第二刻度，将和该待处理刻度最邻近的下一初始刻度作为待处理刻度，N为正整数。

也就是说，从刻度信息的任意一侧获取距离最近的一个初始刻度作为待处理刻度，获取待处理刻度和刻度信息之间的距离作为第三间距；若第三间距近似为第二间距的N倍，在待处理刻度和刻度信息(第一刻度和第二刻度)之间，添加N-1条以(第三间距/N)为距离的等距的刻度线并将新增刻度和待处理刻度作为第二刻度；第三间距不能近似为第二间距的N倍，将和该待处理刻度最邻近的下一初始刻度作为待处理刻度，重新判断当前待处理刻度是否为第二刻度，直至本侧的最后一条初始刻度。在查找完本侧所有的初始刻度后，转向另一侧查找，直至另一侧也查找完所有的初始刻度。

例如，以指导线的确定为例进行说明，如图6中所示，目标图像中存在的水平直线在左侧从上至下依次以1-9对直线编号，在直线检测的同时在右侧标注相邻两直线间的像素点数量作为距离，其中，线7未能被识别出来，以虚线表示，此时，线6和线8就互为相邻直线，其间距为12.1。由于距离数值3.1和3.2之间的绝对值在误差范围内，可认为3.1和3.2是近似相等的，即线1、线2、线3是等距分布的；同理可得线3、线4、线5、线6是等距分布的。由于线3-6是等距分布数量最多的直线，确认线3、线4、线5、线6为第一刻度且间距平均值6.05为第二间距。然后以线3为基础，向上查找，此时线3为待处理刻度，由于线2和线3之间的距离为3.2，不是第二间距的整数倍，因此，线2不满足条件，将线1作为待处理刻度继续查找，根据线2和线3之间的距离为3.2、线2和线1之间的距离为3.1可知线1和线3的间距，即第三间距为6.3，近似第二间距的一倍，因此线1满足条件，能够作为第二刻度保留，向上不存在其他初始刻度，不再向上寻找，转为向下寻找。此时，以线6为基础，依次向下查找，此时线8作为待处理刻度，线6和线8之间的间距为12.1，约等于第二间距的2倍，此时，认为线8为指导线、且线6和线8之间必定还存在未被识别出的指导线，因此，将线8作为第二刻度保留并在线6和线8的中间补上一条水平直线也作为第二刻度，即未被识别出的线7，其中，补上的线7到线6和线8的距离均为线6和线8间距的1/2；继续向下查找，同理可以判断线9不满足条件，为干扰直线，最终确定的出如图7所示的指导线。获取的指导线有利于后续对确定的纵轴标签进行检验，尤其是不存在纵坐标轴、纵坐标轴无刻度点或不能确定纵坐标轴上的刻度点的情况下，仍然能够对纵轴标签进行检验，充分使用统计图中的各种信息，从而增强根据各种信息提取出的统计数据的可靠性和准确度。

需要说明的是，目标图像中统计图存在多种可能：含有横坐标轴和指导线、含有横纵坐标轴和指导线、含有横纵坐标轴和刻度线等，本实施例中执行确定各种信息的步骤，获取能够得到的信息并利用这些信息提取数据。在其他实施例中，步骤503根据具体情况，相应地确定的坐标轴和刻度信息，如统计图含有横坐标轴和指导线时，只执行确定坐标轴和指导线的步骤。

还需要说明的是，在同时具有纵坐标轴和指导线的情况下，确定指导线和刻度点之后，指导线和刻度点还能够彼此之间进行检验，以确定得到的指导线和刻度点是否正确。

步骤504，利用预设的坐标轴标签筛选条件，从目标图像利用模型识别出的文本信息中确定坐标轴标签。

本实施例中的步骤504和前述实施例中的步骤104大致相同，此处就不一一赘述了。

步骤505，根据关键点位置信息、坐标轴、刻度信息和坐标轴标签确定每个统计图形表示的统计数据并生成结构数据。

本发明的实施例还提供了一种电子设备，如图8所示，包括：

至少一个处理器801；以及，

与所述至少一个处理器801通信连接的存储器802；其中，

所述存储器802存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器801执行，以使所述至少一个处理器801能够执行以上实施例所述的统计图的数据提取方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明的实施例还提供了一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种统计图的数据提取方法，其特征在于，包括：

利用语义分割模型对含有统计图的目标图像按照统计图类型进行图层分离，获取若干图层并确定每个所述图层对应的所述统计图类型，其中，所述图层为仅含有统计图形的二值图像；

获取所述图层中的所述统计图形的关键点位置信息；

利用预设的筛选条件，确定所述目标图像中的坐标轴和刻度信息；

利用预设的标签筛选条件，从所述目标图像利用模型识别出的文本信息中确定坐标轴标签；

根据所述关键点位置信息、所述坐标轴、所述刻度信息和所述坐标轴标签确定每个所述统计图形表示的统计数据并生成结构数据；

其中，所述坐标轴标签包括横轴标签，所述利用预设的标签筛选条件，从所述目标图像利用模型识别出的文本信息中确定坐标轴标签，包括：

将所述坐标轴中的横坐标轴作为参考标识；

确定位于所述参考标识下方的所述文本信息作为第一文本信息；

将处于同一水平直线上的所述第一文本信息分为一组，获取若干个第一文本分组；

将包含所述第一文本信息数量最多的所述第一文本分组作为第二文本分组；

将垂直方向上距离所述参考标识最近或第二接近的所述第一文本分组作为第三文本分组；

若所述第二文本分组属于所述第三文本分组，将所述第二文本分组中的所述第一文本信息作为初始横轴标签；

若所述第二文本分组不属于所述第三文本分组，将所述参考标识更改为所述统计图形，重新确定所述初始横轴标签；

根据所述刻度信息对所述初始横轴标签进行筛选，确定所述横轴标签。

2.根据权利要求1所述的方法，其特征在于，所述统计图类型为柱形图，所述统计图形为矩形，所述关键点位置信息为所述矩形的对角点位置信息，所述获取所述图层中的所述统计图形的关键点位置信息，包括：

检测所述图层中的所述矩形是否完整；

若存在至少一个所述矩形不完整，对不完整的所述矩形进行补全；

检测所述图层中的所述矩形是否相连；

若存在若干个所述矩形相连，对相连的所述矩形进行分割；

获取所述图层中每个所述矩形的所述对角点位置信息。

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像中的坐标轴，包括：

将所述目标图像中唯一满足预设第一长度条件的水平线段作为所述横坐标轴，或者，当所述统计图包含柱形图时，根据所述柱形图中矩形的位置确定所述横坐标轴；

若所述统计图存在纵坐标轴，将所述目标图像中唯一或唯二满足预设第二长度条件的竖直线作为所述纵坐标轴，或者，利用所述统计图形的位置确定所述纵坐标轴。

4.根据权利要求1所述的方法，其特征在于，所述刻度信息包括第一刻度和第二刻度，所述确定所述目标图像的刻度信息，包括：

从所述目标图像中确定初始刻度并记录每相邻两个所述初始刻度之间的距离作为第一间距；

根据所述第一间距将等距的所述初始刻度分为一组，获取若干刻度分组；

将所述刻度分组中所述初始刻度数量最多的一组中的所述初始刻度作为所述第一刻度，将相邻两个所述第一刻度之间的距离作为第二间距；

根据所述第一间距和所述第二间距确定所述第二刻度。

5.根据权利要求4所述的方法，其特征在于，所述刻度信息为指导线，所述从所述目标图像中确定初始刻度，包括：

识别所述目标图像中的水平线；

将所述水平线作为所述初始刻度。

6.根据权利要求4所述的方法，其特征在于，所述刻度信息为刻度点，所述从所述目标图像中确定初始刻度，包括：

对所述目标图像进行二值化并将所述目标图像中的所述统计图形填充为背景色；

识别所述目标图像中长度在预设阈值内且与所述坐标轴垂直的线段作为所述初始刻度。

7.根据权利要求1所述的方法，其特征在于，所述坐标轴标签包括纵轴标签，所述利用预设的标签筛选条件，从所述目标图像利用模型识别出的文本信息中确定坐标轴标签，包括：

将所述统计图两侧数据等差且彼此对齐的一组或两组所述文本信息作为初始纵轴标签，或者，当确定出的所述坐标轴包括纵坐标轴时，将所述纵坐标轴外侧的数据等差且彼此对齐的一组或两组所述文本信息作为所述初始纵轴标签；

将在竖直方向上的中点和对应的所述刻度信息位于同一水平线上的所述初始纵轴标签作为所述纵轴标签。

8.根据权利要求1所述的方法，其特征在于，所述根据所述关键点位置信息、所述坐标轴、所述刻度信息和所述坐标轴标签确定每个所述统计图形表示的统计数据并生成结构数据，包括：

从所述目标图像中确定图例信息；

根据所述图例信息确定所述坐标轴标签与所述统计图形的对应关系；

根据所述刻度信息和所述坐标轴标签确定单个像素点所代表的数据值；

根据所述关键点位置信息、所述坐标轴、所述对应关系和所述单个像素点所代表的数据值得到所述统计数据并生成所述结构数据。

9.根据权利要求8所述的方法，其特征在于，所述图例信息包括图例颜色和图例文本，

所述从所述目标图像中确定图例信息，包括：

根据所述目标图像中所述统计图形的颜色，在所述统计图形的上方和下方区域查找图例颜色标注块；

确定所述图例颜色标注块的左侧或右侧相邻的所述文本信息为图例文本；

所述根据所述图例信息确定所述坐标轴标签与所述统计图形的对应关系，包括：

检测所述图例文本是否存在携带用于确定对应的所述坐标轴标签的指示信息；

若所述图例文本携带所述指示信息，根据所述指示信息确定所述对应关系；

若所述图例文本未携带所述指示信息，根据所述图例文本的位置和/或所述图例文本的含义确定所述对应关系。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至9中任意一项所述的统计图的数据提取方法。

11.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的统计图的数据提取方法。