CN110569774A

CN110569774A - 基于图像处理与模式识别的折线图图像自动数字化方法

Info

Publication number: CN110569774A
Application number: CN201910815122.9A
Authority: CN
Inventors: 韩波; 柳庭瑜
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-13
Anticipated expiration: 2039-08-30
Also published as: CN110569774B

Abstract

本发明公开了一种基于图像处理与模式识别的折线图图像自动数字化方法，用于对折线图图像中彩色的折线进行自动识别，包括通过图像处理方式在折线统计图图像标记文本区域，识别文本区域中的数字；对所得识别结果进行过滤，得到正确的文本区域坐标值；计算坐标原点在图片坐标系中的坐标与对应数值；基于彩色通道数据过滤折线；计算折线点对应坐标，得出折线统计图图像的数字化结果。本发明综合采用图像处理和模式识别方法实现了折线图自动从图像转换为坐标数值的全自动技术方案，解决了从折线图图像中提取数据时进行手工标注、计算导致的低效率、低精度问题，大大提升了数据提取的效率和精度。

Description

基于图像处理与模式识别的折线图图像自动数字化方法

技术领域

本发明属于图像模式识别领域，涉及一种彩色线条的折线统计图图像的数字化方法，具体涉及一种基于图像处理与模式识别的折线图图像自动数字化方法。

背景技术

折线统计图是描绘统计事项总体指标动态、研究对象间依存关系以及各部分分配情况的统计图。然而，从各种新闻、报告、书籍等数据源获得的统计图一般已转换为图像形式，这给基于图像中的数据进行保存和后续分析带来了困难。因此，从折线统计图图像中提取数据是科研、产业界一个常见需求。但目前大多数情况下采用的是人眼观察、手工计算的方式进行数据提取，它比较费时、费力。如果有一种方法能自动从折线统计图图像中提取出数据，将大幅减少人力操作时间、提高数据精度。

当前人工智能尤其是深度神经网络技术在OCR(光学字符识别)模式识别领域取得了突破性进展，其技术原理是：利用海量标记的样本数据对深度神经网络进行训练，让神经网络自动优化从训练数据到识别目标的映射分布，从而建立深度神经网络模型，当一个新测试数据到来的时候，可以让这个模型负责计算从测试数据到识别目标的映射，从而达到准确识别印刷体文字和数字的效果。

因此，本发明拟综合利用数字图像处理技术和基于人工智能的数字光学字符识别技术，实现折线统计图图像的全自动数字化。

但是，类似于人工从折线统计图图像中提取数据的过程，自动从折线统计图图像中提取数据面临两个重要的问题：一是如何从线条中采样。在人工执行的一般过程中，往往采样极值点，这样就会造成曲线统计图的精度丢失，而如果采样频率过高又需要花费大量的时间和人工，因此存在着一定现实困难；二是确定坐标轴单位长度增量，这在人工执行的过程中需要测量与计算，精度较低。

关于数字化折线统计图，已有的最新国内外解决方案仍然还依赖一定的人工标点。比如一款名为GetData的软件提供了一种解决方案，但还是需要用户手工标定横轴、纵轴，标定单位长度，手工打点采样，才可以获得折线统计图的的数据。其存在使用不方便，精确度较低等局限性，其只是使用计算机完成了简单的数字计算过程，尚未提出具有实质进步的自动化技术方案。

发明内容

为了解决人工或现有解决方案从折线统计图图像中提取数据时的低效、低精度问题，本发明提供一种基于图像处理与模式识别的折线图图像自动数字化方法。

本发明所采用的技术方案是一种基于图像处理与模式识别的折线图图像自动数字化方法，用于对折线图图像中彩色的折线进行自动识别，包括以下步骤：

步骤1，在折线统计图图像标记文本区域；

步骤2，识别文本区域中的数字；

步骤3，对步骤2所得识别结果进行过滤，得到正确的坐标值；

步骤4，计算坐标原点在图片中的坐标与对应数值；

步骤5，基于彩色通道数据过滤折线；

步骤6，计算折线点对应坐标，得出折线统计图图像的数字化结果。

而且，步骤1的实现包括使用Sobel算子进行边缘检测，进行图像二值化，然后通过膨胀操作使图像中的高亮区域逐渐增长，通过腐蚀操作去除部分噪音，再次膨胀使得文本区域的面积扩大，之后再将面积较小的区域过滤，获得文本区域。

而且，步骤2的实现方式为，使用开源工具tesseract-OCR对文本区域逐个进行识别，识别结果中保存的属性包括识别文本text、识别确信度confidence和文本框rect，其中文本框rect是一个保存矩形的数据结构，包括位置和长宽信息；然后使用正则表达式过滤识别结果。

而且，步骤3的实现包括以下子步骤，

步骤3.1，将步骤2中识别出的坐标值根据位置信息，对比分类为横轴、纵轴与无效区域，将属于横轴、纵轴的识别结果在两个列表中分别保存；

步骤3.2，计算折线图横轴任意两个文本区域的识别所得数字之差的绝对值，作为相应数字差值；计算折线图纵轴任意两个文本区域的识别所得数字之差的绝对值，作为相应数字差值；

步骤3.3，计算折线图横轴任意两个文本区域在图片坐标系中的横坐标差值的绝对值，作为相应距离差值，计算折线图纵轴任意两个文本区域在图片坐标系中的纵坐标差值的绝对值，作为相应距离差值；

步骤3.4，对于折线图横轴的任意两个文本区域，根据相应数字差值和距离差值，计算比值r＝数字差值/距离差值，使用一个列表存储所有比值；对于折线图纵轴的任意两个文本区域，根据相应数字差值和距离差值，计算比值r＝数字差值/距离差值，使用一个列表存储所有比值；

步骤3.5，针对横轴和纵轴分别过滤正确的文本区域，过滤方式为，从所有比值中，计算任意两个比值之间的差值，如果差值小于设定的阈值t，则认为两个比值对应的至多四个文本区域识别结果是正确的。

而且，步骤4的实现方式如下，

设已知单位像素横坐标增量xRate，单位像素纵坐标增量yRate，原点在图片坐标系中的坐标(x₀，y₀)，

横轴上任一识别结果正确的文本区域，其在图片坐标系中坐标(x₁，y₁)，其识别数值为A；

纵轴上任一识别结果正确的文本区域，其在图片坐标系中坐标(x₂，y₂)，其识别数值为B；

则原点在折线图中的坐标(x’，y’)如下，

x’＝A-(x₁-x₀)×xRate

y’＝B-(y₀-y₂)×yRate。

而且，步骤6的实现方式如下，

设已知单位像素横坐标增量xRate，单位像素纵坐标增量yRate，原点在图片坐标系中的坐标(x₀，y₀)，原点在折线图中的坐标(x₁，y₁)，折线中的某一个点的图片坐标系中的坐标(x，y)，

则折线中这个点对应的统计图中的坐标(x’，y’)为

x’＝x₁+(x-x₀)×xRate

y’＝y₁+(y₀-y)×yRate

基于指定采样率，对折线全部像素点进行采样，得出折线统计图图像的数字化结果。

而且，指定采样率与像素一致时，对折线全部像素点进行采样。

而且，步骤5的实现方式如下，

由于彩色图片包括RGB三个通道的数据，每个通道都有与原图相同的像素个数与位置，常用背景线条和文本颜色在三个通道中的数值是相同的，对于彩色折线线条，将任意两个通道的矩阵相减后取绝对值得到只有彩色线条的图像，实现线条的过滤。

而且，在实现线条过滤后进行线条的细化，包括选取线条的最上面像素作为每列的细化结果。

本发明的优点主要有：

(1)本发明创造性地提出了一种全自动从折线统计图图像中抽取数据的方法，为折线统计图的数字化提供了一个新的技术路线，解决了折线统计图数字化只能采用手工计算的问题。

(2)对比业界已有解决方案提高了效率和准确率——GetData中需要手工描点，这就会造成精确度下降及采样率较低的问题。在本发明提出的技术方案中，采样率最高可以与线条像素数目相同，精确度将会大幅度提升。

(3)系统实现时，可分为图像处理、数值运算、OCR识别等部分，各组件间耦合度较低，OCR识别部分可以更换，可以实现对不同类型横纵坐标值的折线统计图图像的数字化，因此适用图像范围更为广泛。比如某折线统计图横轴数据格式为**年**月**日，则可通过更换OCR模块的方式来实现。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例中识别文本区域的流程图；

图3为本发明实施例中过滤识别数字的流程图；

图4为本发明实施例中示例折线图；

图5为本发明实施例中步骤1中示例折线图经处理后暴露的文本区域示意图；

图6为本发明实施例中步骤1后自动标记文本区域的示例折线图；

图7为本发明实施例中步骤5后过滤的折线图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明公开了一种综合图像处理和模式识别技术的折线统计图图像自动数字化方案。它首先使用高通滤波、腐蚀、膨胀处理输入图像，标出统计图数字区域；然后对数字区域进行OCR识别，并将识别结果分类为横坐标与纵坐标；计算得出图像每个像素对应的横纵坐标增量；识别图像原点坐标及对应数值；使用滤波技术过滤出折线统计图线条像素；最后结合坐标原点及对应像素横纵坐标增量得出线条上每个像素对应的值。完成折线统计图图像的自动数字化识别。

总流程图请见图1，示例折线图请见图4，本发明实施例提供了一种基于图像处理和模式识别技术的折线统计图图像自动数字化方法，包括以下步骤：

步骤1：标记文本区域

流程请见图2，效果请见图5、图6，步骤1的具体实现包括以下子步骤：

步骤1.1：使用Sobel算子进行边缘检测：

Sobel算子是一个离散的一阶差分算子，用来计算图像亮度函数的一阶梯度之近似值。在图像的任何一点使用此算子，将会产生该点对应的梯度矢量或是其法矢量，一阶梯度计算可以暴露图片中变化较为明显的部分。文本区域作为图片中较直观的部分使用这个操作可以更加明显的显现出来。

在边缘检测中，常用的Sobel算子有两个，一个是检测水平边缘；另一个是检测垂直边缘。在数学上即对应x、y方向的梯度。该算子包含两组3x3的矩阵，分别为横向及纵向，将之与图像作平面卷积，即可分别得出横向及纵向的亮度差分近似值。因为在折线统计图中常常有背景网格线而折线往往不是垂直或平行的，所以实施例在Sobel算子中设置对x、y方向分别求梯度，可以去除水平、垂直干扰。

步骤1.2：图像二值化

使用图像分割中的最大类间差法OTSU算法来选择自适应阈值进行图像二值化。

步骤1.3：膨胀

膨胀是求局部最大值的操作，即计算核覆盖区域的像素点最大值，并把这个最大值赋值给参考点指定的像素。这样就会使图像中的高亮区域逐渐增长。实施例膨胀核设置为30*9的矩形。该操作通过核与图形卷积设置实现。

步骤1.4：腐蚀

腐蚀是求局部最小值的操作，即计算核覆盖区域的像素点最小值，并把这个最小值赋值给参考点指定的像素。这样就会使图像中的高亮区域逐渐缩小。实施例腐蚀核设置为24*4的矩形。经过一次膨胀与腐蚀达到去除部分噪音的功能。该操作也通过核与图形卷积设置实现。

步骤1.5：再次膨胀

这次膨胀的目的是使得文本区域的面积扩大，之后再将面积较小的区域过滤即可获得文本区域，结果请见图5。具体实施时，可采用预设的面积阈值过滤较小的区域。然后使用线条框出文本区域，供后续步骤识别。结果请见图6。具体实施时，为了明确区别文本区域，可以采用彩色线条，例如绿色线条框出文本区域。

步骤2：识别文本区域数字

步骤2.1：OCR识别

具体实施时，OCR识别可利用现有技术或工具。使用开源工具tesseract-OCR对文本区域逐个进行识别。识别结果使用一定数据结构保存，其属性包括识别文本text，识别确信度confidence，文本框rect，其中文本框rect是一个保存矩形的数据结构，包括位置，长宽等信息，可用作后续操作。

Tesseract-OCR是一款开源的使用机器学习的光学字符识别库，其支持超过100种语言，在数字化折线统计图时，可以方便地将语言识别模块改变，实现对不同语言统计图的支持。

步骤2.2：使用正则表达式过滤识别结果

识别模块存在着一些错误的识别结果，比如0识别为o等，实施例使用正则表达式对识别结果进行初步的过滤。

步骤3：过滤坐标值

由于图片中的文本可能不仅限于折线图横轴、纵轴上的坐标值，并且坐标值的识别结果也往往存在着错误。所以需要过滤识别结果，得出正确的坐标值。过滤横轴/纵轴正确的坐标时，实施例的流程如图3：

步骤3.1：将坐标值分类为横轴、纵轴与无效区域

步骤2中识别出的数值可以分为折线图横轴坐标值、折线图纵轴坐标值、无效值。rect数据结构中保存着位置信息，折线图横轴的文本框在图片坐标系(图片左上角点为原点，右侧为x轴正方向，下侧为y轴正方向)中y值相同，折线图纵轴的文本框在图片坐标系中x值相同。按此位置比对原则将步骤2中所有识别结果分为横轴类和纵轴类，不属于这两类的为无效区域，舍弃。将属于横轴、纵轴的识别结果在两个列表中分别保存。

步骤3.2：计算识别数字的数字差值

分别计算折线图横轴/纵轴任意两个文本区域的识别所得数字之差的绝对值，作为数字差值。

步骤3.3：计算位置的距离差值

分别计算横轴/纵轴任意两个文本区域在图片坐标系中的横/纵坐标差值的绝对值作为距离差值。即，对于横轴坐标区域，计算两个文本区域间图片坐标系中横坐标x差值的绝对值，对于纵轴坐标区域，计算两个文本区域间坐标y差值的绝对值。

步骤3.4：根据步骤3.2所得数字差值和步骤3.3所得距离差值，分别计算横轴/纵轴任意两个文本区域的比值r：

对于横轴/纵轴的任意两个文本区域，根据相应数字差值和距离差值，计算比值r＝数字差值/距离差值。对于横轴和纵轴，各使用一个列表存储这些比值。

步骤3.5针对横轴和纵轴分别过滤正确的文本区域：

从众多比值中，计算任意两个比值之间的差值，如果差值小于设定的阈值t，则认为两个比值对应的至多四个文本区域识别结果是正确的。按此过滤正确的文本区域。因为识别正确的文本，单位距离对应的折线图横、纵轴增量应该是相同的。实施例坐标轴的文本区域越多，计算出的结果可信度将更高。如果正确识别出数字的文本区域不够多，假如步骤3.5中横轴或纵轴运算后，发现两个比值之间的差值没有小于阈值t的，则输出识别依据不充分，程序结束。

理论上，正确识别结果两个比值之间的差值应当为0，但是在计算机中运算存在精度问题，具体实施时，阈值t可采用经验值，设定为较小的数。

步骤4：标记原点

这个步骤需要完成原点的位置标记和原点的数值计算。

位置标记使用步骤3中过滤出的横轴、纵轴数值的文本框rect属性中的位置信息实现。横轴、纵轴的交点就是原点。实施例使用横轴文本区域的纵坐标和纵轴文本区域的横坐标减去一个偏移量作为原点坐标。

数值计算的原因是有些统计图的原点数值不是从0开始的，需要使用步骤3中过滤出的正确的文本区域的数值及其坐标计算单位像素折线图横、纵坐标增量。再以任意一个识别结果正确的文本区域为基点结合单位像素折线图横、纵坐标增量，通过以下计算方法得出原点在折线图中的坐标。具体计算步骤如下：

设已知以下参数，

单位像素横坐标增量xRate

单位像素纵坐标增量yRate

原点在图片坐标系中的坐标(x₀，y₀)

横轴上任一识别结果正确的文本区域，其在图片坐标系中坐标(x₁，y₁)，

其识别数值为A

纵轴上任一识别结果正确的文本区域，其在图片坐标系中坐标(x₂，y₂)，

其识别数值为B

则原点在折线图中的坐标(x’，y’)

x’＝A-(x₁-x₀)×xRate

y’＝B-(y₀-y₂)×yRate

步骤5：过滤折线

实施例需要得出折线在图像中的位置，再结合前面步骤的计算结果得出折线上每一个像素在折线统计图中对应的坐标。

由于大部分折线统计图折线采用彩色表示。实施例以蓝色线条为例描述提取线条方法。彩色图片在计算机中存储有RGB三个通道的数据，每个通道都有与原图相同的像素个数与位置，对于真彩色图片，每个像素在每个通道中采用8bit位保存，分别代表这个像素对应颜色的强度。对于蓝色线条，其像素在蓝色通道中数值较大，而在他的相对的颜色红色通道中数值较小。常用背景线条和文本颜色(如黑色)在三个通道中的数值是相同的。所以将蓝色通道的矩阵和红色通道相减就可以得到只有蓝色线条的图片，这样就实现了线条的过滤。结果请见图7。其他颜色的线条同样可以采用不同通道相减的方法进行过滤。理论上彩色线条三个通道都是不同的，采用任意两个通道相减然后取绝对值都可以得出线条的图像。

由于线条在图片中的显示不是单像素的，所以在实现了线条过滤后还需要进行线条的细化，实施例选取线条的最上面像素作为每列的细化结果。

步骤6：计算折线点坐标，得出折线统计图图像的数字化结果

计算折线点坐标需要结合前序步骤计算出来：原点图像中坐标和统计图中坐标、单位像素的折线图横坐标、纵坐标增量、折线点的图像坐标。

具体计算步骤如下：

设已知以下参数，

单位像素横坐标增量xRate

单位像素纵坐标增量yRate

原点在图片坐标系中的坐标(x₀，y₀)

原点在折线图中的坐标(x₁，y₁)

折线中的某一个点的图片坐标系中的坐标(x，y)

则折线中这个点对应的统计图中的坐标(x’，y’)为

x’＝x₁+(x-x₀)×xRate

y’＝y₁+(y₀-y)×yRate

具体实施时，用户可以指定采样率，默认采用最高采样率，即采样率与像素一致，对折线全部像素点进行采样。得出折线统计图图像的数字化结果。

具体实施时，可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：用于对折线图图像中彩色的折线进行自动识别，包括以下步骤：

步骤1，通过图像处理方式在折线统计图图像标记文本区域；

步骤2，识别文本区域中的数字；

步骤3，对步骤2所得识别结果进行过滤，得到正确的文本区域坐标值；

步骤4，基于步骤3所得结果计算坐标原点在图片坐标系中的坐标与对应数值；

步骤5，基于彩色通道数据过滤折线；

2.根据权利要求1所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：步骤1的实现包括使用Sobel算子进行边缘检测，进行图像二值化，然后通过膨胀操作使图像中的高亮区域逐渐增长，通过腐蚀操作去除部分噪音，再次膨胀使得文本区域的面积扩大，之后再将面积较小的区域过滤，获得文本区域。

3.根据权利要求1所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：步骤2的实现方式为，使用开源工具tesseract-OCR对文本区域逐个进行识别，识别结果中保存的属性包括识别文本text、识别确信度confidence和文本框rect，其中文本框rect是一个保存矩形的数据结构，包括位置和长宽信息；然后使用正则表达式过滤识别结果。

4.根据权利要求1所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：步骤3的实现包括以下子步骤，

5.根据权利要求1所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：步骤4的实现方式如下，

使用步骤3中过滤出的正确的文本区域的数值及坐标计算单位像素横坐标增量xRate，单位像素纵坐标增量yRate，设原点在图片坐标系中的坐标为(x₀，y₀)，

则原点在折线图中的坐标(x’，y’)如下，

x’＝A-(x₁-x₀)×xRate

y’＝B-(y₀-y₂)×yRate。

6.根据权利要求5所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：步骤6的实现方式如下，

则折线中这个点对应的统计图中的坐标(x’，y’)为

x’＝x₁+(x-x₀)×xRate

y’＝y₁+(y₀-y)×yRate

7.根据权利要求6所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：指定采样率与像素一致时，对折线全部像素点进行采样。

8.根据权利要求1或2或3或4或5或6或7所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：步骤5的实现方式如下，

9.根据权利要求8所述基于图像处理与模式识别的折线图图像自动数字化方法，其特征在于：在实现线条过滤后进行线条的细化，包括选取线条的最上面像素作为每列的细化结果。