CN105574486A

CN105574486A - 一种图像表格文字切分方法

Info

Publication number: CN105574486A
Application number: CN201510834283.4A
Authority: CN
Inventors: 陈炳章; 何宏靖; 刘世林; 吴雨浓
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-05-11

Abstract

本发明涉及图像识别领域，特别涉及一种图像表格文字切分方法；本方法首先检测出待识别图像表格中的单元格，将每个单元格中的信息内容整体切分出来，再对每个单元格中的文字信息利用投影法进行切分出来；为图像表格文字识别提供了可靠快速的切分基础。在本发明方法中，巧妙利用图片识别的小角度倾斜的特点，利用单元格四角顶点坐标值所确定面积最小的矩形区域，将单元格的边框线去除，计算方法简单，保证了单元格文字内容的切分准确率。总之，本发明方法，解决了图像文字识别领域中一直难以克服的图像表格切分困难的问题，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

Description

一种图像表格文字切分方法

技术领域

本发明涉及图像识别领域，特别涉及一种图像表格文字切分方法。

背景技术

图像识别技术是目前智能识别技术领域中非常重要的发展方向，图像识别的发展经历了三个阶段：文字识别、数字图像处理与识别、物体识别；其中在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，这是因为图像文字往往比单纯图像包含更加重要的可利用信息，而且图像文字识别技术所应用的领域也很重要。文字识别一般是识别文字、字母、数字和符号，从印刷文字识别到手写文字识别，应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有三种识别方法：统计模式识别、结构模式识别、模糊模式识别。

随着图像文字的深入发展，越来越多种类的图像文字资料，被纳入图像文字识别的范畴中，其中表格作为文字数据记录汇总最精简表达方式，或者数据统计、结果分析中最常用的表达格式，是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性，比如对一个企业年度业绩报表，可能包含企业年度业绩中最重要的统计数据和分析结果，这些信息的重要性和概括性是其他任何材料所比拟不了的，目前的网络信息中充斥着各种表格资料，但是很多表格都是以图片的形式提供，比如各种扫描档案文件、PDF文件，自动识别这些图像表格资料，将图片类型的表格内容还原成数字资料是将这些资料进行快速处理和分析的基础。

但是，由于表格资料本身的表格结构特征，使得表格图像文字的识别比一般的普通图像文字资料更加困难。现有文字识别技术在对图像中文字识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影找到两个文字之间的分界线，根据分界线将文字切分开来。由于表格的框线的存在，直接使用传统的投影法所实现的文字切分和识别就不太现实。同时由于表格本身结构的复杂多变，复杂多变的轮廓框线使得投影法难以实现将表格文字信息的切分。面对大量的图像表格数据的快速分析需要，亟待一种快速，准确，完整的图像表格文字切分方法。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种图像表格文字切分方法，能够快速准确的将图像表格中的文字信息切分出来。本发明首先检测出待识别图像表格中的单元格，提取出单元格的轮廓点集，根据单元格的轮廓点集，构造出包含单元格轮廓点集的面积最小的矩形区域，提取出该矩形区域的四角顶点坐标，根据该四角顶点坐标将对应单元格中的文字信息切分提取出来，在单元格内容整体切分出来的基础上，通过侧向投影实现单元格中的行切分，再通过垂直投影实现每一行的单个文字切分。通过本发明方法实现的图像表格文字切分，单元格切分准确，切分效率高；克服了一直以来图像表格文字识别中切分困难的问题。

为了实现上述发明目的，本发明提供以下技术方案，

一种图像表格文字切分方法，包含以下实现过程：

将待处理图片进行二值化处理，检测出所述图像表格中的单元格，依次将各单元格中的内容作为一个整体切分出来，形成对应的子图片；

再使用投影法将子图片中的文字信息切分出来。

具体的，本图像表格文字切分方法采用以下实现步骤：

(1)将待处理图像表格进行二值化处理，使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓；将检测出的单元格轮廓的点集提取出来放置在对应的点类中(如：用Vector1，Vector2，Vector3......来表示)；findcontours函数能够根据表格框线轮廓的特点将单元格的轮廓检测出来，并将检测出的单元格轮廓点集提取出来，检测效率高。

(2)对所述步骤(1)提取出的单元格轮廓点集，调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域；并提取出该旋转矩形区域的四角顶点坐标点；

(3)根据四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片；

(4)采用投影法将所述子图片中的文字信息依次切分出来。

进一步的，所述步骤(3)中根据minAreaRect函数提取出的旋转矩形区域的四角顶点坐标，计算出表格单元文字信息切分点，比如提取出的四角顶点坐标分别是：左下角顶点的坐标为(x1，y1)，右下角顶点的坐标为(x2，y2)，右上角顶点的坐标为(x3，y3)，左上角顶点的坐标为(x4，y4)；在四角顶点坐标的基础上，比较x1、x4的大小，选取其中的较大值Max(x1，x4)，比较x2、x3的大小，选取其中的较小值Min(x2，x3)，比较y1、y2的大小，选取其中的较大值Max(y1，y2)，比较y3、y4的大小，选取其中的较小值Min(y3，y4)，根据X＝Max(x1，x4)，X＝Min(x2，x3)，Y＝Max(y1，y2)，Y＝Min(y3，y4)；将这四条直线所围成的矩形区域将单元格中的文字信息作为整体切分出来，形成对应子图片。实际应用中图像表格在进行识别时，不带任何倾斜角度的情况极其少见，即使经过初步的矫正，仍然可能带有小角度的倾斜，此外利用minAreaRect函数提取出的旋转矩形区域也有可能具有小角度的倾斜，本发明利用这种图像表格识别的特点，通过上述单元格内容切分方法，在进行单元格文字信息切分过程中，巧妙的将单元格子图片的边框线去除了，为后续步骤的单元格文字信息切分创造了有利的条件。

进一步的，所述步骤(4)中，根据横向投影和纵向投影坐标确定每个文字的坐标位置，根据坐标位置可以依次把单个文字切分出来，子图片中切分出来的文字可以按照原有的顺序进行识别，保证了子图片中文字识别的顺序和逻辑准确性。

进一步的，所述步骤(4)中对切分出来的单元格文字图像进行侧向投影，计算出一行的非0像素的个数，并将该值放到projection_y类中。每一行非0像素的计算方法为：i是行数，j是列数，pix(i，j)是对应像素值，n+1是总的列数。

进一步的，所述步骤(4)中对projection_y类中的元素进行遍历，变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int>top中；如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；top.size()＝bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来，对应的两个坐标值也就是该行所有文字的上下两个y坐标。

进一步的，对于切分出来的每一行的文字图像进行垂直投影，计算出一列的非0像素的个数，并将该值放到projection_x类中。每一列非0像素的计算方法为：j是列数，i是行数，pix(i，j)是对应像素值，m+1是总的行数。

进一步的，对projection_x类中的元素进行遍历，变量k遍历范围为从1开始到projection_x.size()-1结束。如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector<int>left中；如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector<int>right中；遍历完后left.size()应该等于right.size()。类left和right中的元素值就是单文字可选用切分位置。

经过上述投影过程，根据横向投影和纵向投影坐标就可以确定每个文字的坐标位置。根据坐标位置可以把单个文字切分出来，根据切分出的子图片顺序位置，进行对应的文字识别，可以保证图像表格中每个单元表格中识别出的文字顺序的准确，识别出的文字逻辑还原准确率高。

与现有技术相比，本发明的有益效果：本发明提供一种图像表格文字切分方法，本方法首先检测出待识别图像表格中的单元格，将每个单元格中的信息内容整体切分出来形成对应子图片，对每个单元格中的文字信息利用投影法进行切分出来，克服了表格复杂结构和框线影响造成文字信息识别切分困难的难题。本发明首先利用openCV图像处理工具中的findcontours函数检测出待识别图像表格中的单元格，提取出单元格的轮廓点集，根据单元格的轮廓点集，调用minAreaRect函数构造出包含单元格轮廓点集的面积最小的矩形区域，提取出该矩形区域的四角顶点坐标，根据该四角顶点坐标将对应单元格中的文字信息切分提取出来。在进行单元格子图片切分时，本发明利用图像文字识别的本身带有小角度倾斜的特点，选取旋转矩形区域的四角顶点坐标值对应直线所围成的面积最小的矩形区域将单元格中的文字信息内容切分出来，巧妙的去除了单元格中的边框线，为单元格内容中文字切分扫除了障碍，最终本发明在将单元格内容整体切分出来的基础上，通过侧向投影实现单元格中的行切分，再通过垂直投影实现每一行的单个文字切分。通过本发明方法实现的图像表格文字切分，单元格切分准确，切分效率高；解决了图像文字识别领域中一直难以克服的图像表格识别切分困难的问题，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

附图说明：

图1为本图像表格文字切分方法的流程示意图。

图2为本图像表格文字切分方法中的优选实施过程流程示意图。

图3为本发明单元格子图片切分时构建的旋转矩形区域在图片识别中的坐标位置示例图。

图4为图3中的单元格子图片切范围示意图。

图5为经过图4的切分确定的切分范围所切分出的单元格子图片的示意图。

图6为实施例1中的待识别图像表格示意图。

图7为实施例中经过findcontours函数检测出待识别图像表格中的单元格示意图。

图8为实施例1中待识别图片其中一个单元格的文字切分示意图。

图9为图8所示的单元格表框确定的坐标切分出对应单元格子图片示意图。

图10为图9所示的子图片中的文字信息经过投影法进行的行列切分所切分出来的文字次子图片示意图。

需要说明的是，本发明所有附图均为示意性的，不代表实际的尺寸和比例。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种图像表格文字切分方法。

一种图像表格文字切分方法，能够快速准确的将图像表格中的文字信息切分出来。本发明首先检测出待识别图像表格中的单元格，提取出单元格的轮廓点集，根据单元格的轮廓点集，构造出包含单元格轮廓点集的面积最小的矩形区域，提取出该矩形区域的四角顶点坐标，根据该四角顶点坐标将对应单元格中的文字信息切分提取出来，在将单元格内容整体切分出来的基础上，通过侧向投影实现单元格中的行切分，再通过垂直投影实现每一行的单个文字切分。通过本发明方法实现的图像表格文字切分，单元格切分准确，切分效率高；克服了一直以来图像表格文字识别中切分困难的问题。

为了实现上述发明目的，本发明提供以下技术方案，

一种图像表格文字切分方法，包含如图1所示的实现过程：

再使用投影法将子图片中的文字信息切分出来。

具体的，本图像表格文字切分方法采用如图2所示的实现步骤：

(2)对所述步骤(1)提取出的单元格轮廓点集，调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域；并提取出该旋转矩形区域的四角顶点坐标点；minAreaRect函数是openCV图像处理工具中的API函数之一，对单元格轮廓点集调用minAreaRect函数可以很方便的构造出能够包含这些点的面积最小的旋转矩形，计算效率高。

(4)采用投影法将所述子图片中的文字信息依次切分出来。

进一步的，所述步骤(1)中将各个单元格的轮廓点集组成的类(Vector1，Vector2，Vector3......)，放入一个大类：contours中，这样的处理便于在后续步骤中，根据需要调用其中的元素进行相应的计算。

进一步的，所述步骤(2)中遍历contours中的元素，调用minAreaRect函数，这样的便利操作方式可以保证，对contours中的每个元素进行操作，也就是说，对待识别图像表格中的各个单元格轮廓进行相应的操作，确保计算结果的完整性。

进一步的，所述步骤(2)中将minAreaRect函数构建的各旋转矩形区域放置在对应的RotatedRect类中。

进一步的，所述步骤(2)中遍历RotatedRect中的元素，提取每个元素对应旋转矩形区域的四角顶点坐标，遍历的方法可以保证所有的旋转矩形区域都可以被计算到，避免遗漏，保证数据的完整性。

进一步的，所述步骤(3)中根据minAreaRect函数提取出的旋转矩形区域的四角顶点坐标，计算出表格单元文字信息切分点，如图3所示比如提取出的四角顶点坐标分别是：左下角顶点的坐标为(x1，y1)，右下角顶点的坐标为(x2，y2)，右上角顶点的坐标为(x3，y3)，左上角顶点的坐标为(x4，y4)；在四角顶点坐标的基础上，比较x1、x4的大小，选取其中的较大值Max(x1，x4)，比较x2、x3的大小，选取其中的较小值Min(x2，x3)，比较y1、y2的大小，选取其中的较大值Max(y1，y2)，比较y3、y4的大小，选取其中的较小值Min(y3，y4)，如图4所示，根据X＝Max(x1，x4)，X＝Min(x2，x3)，Y＝Max(y1，y2)，Y＝Min(y3，y4)；将这四条直线所围成的矩形区域将单元格中的文字信息作为整体切分出来，形成如图5所示的对应子图片。实际应用中图像表格在进行识别时，不带任何倾斜角度的情况极其少见，即使经过初步的矫正，仍然可能带有小角度的倾斜，此外利用minAreaRect函数提取出的旋转矩形区域也有可能具有小角度的倾斜，本发明利用这种图像表格识别的特点，通过上述单元格内容切分方法，在进行单元格文字信息切分过程中，巧妙的将单元格子图片的边框线去除了，为后续步骤的单元格文字信息切分创造了有利的条件。

实施例1

以下通过举例具体说明本发明图像表格文字切分方法的实现过程，本实施例中经过二值化处理后的待识别图片如图6所示，对图一所示的待识别图片，通过openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓，所检测出的单元格轮廓如图7所示；将图7中检测出的单元格轮廓点集，放入对应的类中，并将这些轮廓点集类，放入一个大类contours中；遍历contours中的元素，对contours中的每个元素调用minAreaRect函数提取出的旋转矩形区域，放入对应的RotatedRect类中；遍历RotatedRect类中的元素，提取对应旋转矩形区域的四角顶点坐标，并根据选取旋转矩形区域的四角顶点坐标值对应直线所围成的面积最小的矩形区域将单元格中的文字信息内容切分出来，巧妙的去除了单元格中的边框线(本发明附图为了说明子图片的切分过程中的边框去除效果，夸大了图片和单元格的选择角度，不代表实际的倾斜角度，实际上经过倾斜校正的图片的倾斜角度可能比较小(比如说2°-5°))。经过上述过程将如图6所示的的图像表格中的单元格子图片切分出来。

当将单元格子图片切分出来以后，对子图片先经过侧向投影将子图片中的文字行切分出来，在行切分的基础上通过垂直投影切分出每一行文字信息中的各个字符，进而完成图像表格文字的所有切分，本实施例以其中一个单元格说明上述过程：图8为待识别图像表格中切分出的一个单元格，图9为经过四角顶点坐标确定的对应直线所围成的面积最小的矩形区域将单元格边框去除自后切分出的对应子图片，图10为图9所示的单元格子图片所包含的文字信息切分结果示意图。可以看出经过本发明的图像表格文字切分方法，可以将图像表格中的文字信息，以单元格为单位有序完整的切分出来，为图像表格文字的准确识别创造了准确的文字切分基础。

本实施例其他过程与具体实施方式相同，在此不再赘述。

Claims

1.一种图像表格文字切分方法，其特征在于：

将待处理图片进行二值化处理，检测出所述图像表格中的单元格；

依次将各单元格中的内容作为一个整体切分出来，形成对应的子图片；

再使用投影法将子图片中的文字信息切分出来。

2.如权利要求1所述的方法，其特征在于：包含以下实现步骤：

(1)使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓；并将检测出的单元格的轮廓点集提取出来放入对应的类中；

(2)对所述步骤(1)提取出的单元格轮廓点集对应的类，调用minAreaRect函数，构建出包含单元格轮廓点集的面积最小的旋转矩形区域；并提取出该旋转矩形区域的四角顶点坐标点；

(3)根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片；

(4)采用投影法将所述子图片中的文字信息依次切分出来。

3.如权利要求2所述的方法，其特征在于：所述步骤(1)中将各个单元格的轮廓点集组成的类，放入一个大类：contours中。

4.如权利要求3所述的方法，其特征在于：所述步骤(2)中遍历contours中的元素，调用minAreaRect函数。

5.如权利要求4所述的方法，其特征在于：所述步骤(2)中将minAreaRect函数构建的各旋转矩形区域放置在对应的RotatedRect类中。

6.如权利要求5所述的方法，其特征在于：所述步骤(2)中遍历RotatedRect类中的元素，提取每个元素对应旋转矩形区域的四角顶点坐标。

7.如权利要求1至6之一所述的方法，其特征在于：所述步骤(3)中，提取出的四角顶点坐标分别是：左下角顶点的坐标为(x1，y1)，右下角顶点的坐标为(x2，y2)，右上角顶点的坐标为(x3，y3)，左上角顶点的坐标为(x4，y4)；在四角顶点坐标的基础上，比较x1、x4的大小；选取其中的较大值Max(x1，x4)，比较x2、x3的大小，选取其中的较小值Min(x2，x3)，比较y1、y2的大小，选取其中的较大值Max(y1，y2)，比较y3、y4的大小，选取其中的较小值Min(y3，y4)，根据X＝Max(x1，x4)，X＝Min(x2，x3)，Y＝Max(y1，y2)，Y＝Min(y3，y4)四条直线所围成的矩形区域将对应单元格中的文字信息作为整体切分出来，形成对应子图片。

8.如权利要求7所述的方法，其特征在于：所述步骤(4)中，根据横向投影和纵向投影坐标确定每个文字的坐标位置，根据坐标位置依次把单个文字切分出来。

9.如权利要求8所述的方法，其特征在于：所述步骤(4)中，中对切分出来的子图片进行侧向投影，通过公式：计算出一行的非0像素的个数，并将该值放到projection_y类中，其中i是行数，j是列数，pix(i，j)是对应像素值，n+1是总的列数。

10.如权利要求9所述的方法，其特征在于：所述步骤(4)中对projection_y类中的元素进行遍历；如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int>top中；

如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；

基于类top和bottom中的元素值将单元格中的文字行向切分出来。

11.如权利要求8所述的方法，其特征在于：对于切分出来的每一行的文字图像进行垂直投影，采用公式：计算出一列的非0像素的个数，并将该值放到projection_x类中，其中j是列数，i是行数，pix(i，j)是对应像素值，m+1是总的行数。

12.如权利要求11所述的方法，其特征在于：对projection_x类中的元素进行遍历；如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector<int>left中；

如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector<int>right中；

类left和right中的元素值就是单文字的切分位置。