CN105426856A

CN105426856A - 一种图像表格文字识别方法

Info

Publication number: CN105426856A
Application number: CN201510830314.9A
Authority: CN
Inventors: 陈炳章; 何宏靖; 刘世林; 吴雨浓
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-03-23

Abstract

本发明涉及图像识别领域，特别涉及一种图像表格文字识别方法；本方法首先检测出待识别图像表格中的单元格，将每个单元格中的信息内容整体切分出来，再将每个单元格中的文字信息利用投影法进行切分出来；在图像表格文字切分的基础上，将切分出来的文字块输入到经过训练的神经网络中，使用神经网络自动识别出图像表格中的文字信息；计算逻辑清晰，切分和识别效率高，解决了图像文字识别领域中一直难以克服的图像表格文字识别困难的问题，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

Description

一种图像表格文字识别方法

技术领域

本发明涉及图像识别领域，特别涉及一种图像表格文字识别方法。

背景技术

图像识别技术是目前智能识别技术领域中非常重要的发展方向，图像识别的发展经历了三个阶段：文字识别、数字图像处理与识别、物体识别；其中在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，这是因为图像文字往往比单纯图像包含更加重要的可利用信息，而且图像文字识别技术所应用的领域也很重要。文字识别一般是识别文字、字母、数字和符号，从印刷文字识别到手写文字识别，应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有三种识别方法：统计模式识别、结构模式识别、模糊模式识别。

随着图像文字的深入发展，越来越多种类的图像文字资料，被纳入图像文字识别的范畴中，其中表格作为文字数据记录汇总最精简表达方式，或者数据统计、结果分析中最常用的表达格式，是各种数据分析工具中基础工具，在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性，比如对一个企业年度业绩报表，可能包含企业年度业绩中最重要的统计数据和分析结果，这些信息的重要性和概括性是其他任何材料所比拟不了的，目前的网络信息中充斥着各种表格资料，但是很多表格都是以图片的形式提供，比如各种扫描档案文件、PDF文件，自动识别这些图像表格资料，将图片类型的表格内容还原成数字资料是将这些资料进行快速处理和分析的基础。

但是，由于表格资料本身的表格结构特征，使得表格图像文字的识别比一般的普通图像文字资料困难很多。面对大量的图像表格数据的快速分析需要，亟待一种快速，准确的图像表格文字识别方法。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种图像表格文字识别方法，能够快速准确的将图像表格中的文字信息识别出来。本发明首先将图像表格中的文字信息提取和切分出来，在文字信息切分的基础上对切分出的文字块进行识别，从而完成了图像表格文字的识别过程。其中在进行图像表格文字切分时首先检测出待识别图像表格中的单元格，提取出单元格的轮廓点集，根据单元格的轮廓点集，构造出包含单元格轮廓点集的面积最小的矩形区域，提取出该矩形区域的四角顶点坐标，根据该四角顶点坐标将对应单元格中的文字信息切分提取出来，在单元格内容整体切分出来的基础上，通过侧向投影实现单元格中的行切分，再通过垂直投影实现每一行的单个文字切分；在文字切分的基础上使用神经网络对切分出的文字进行识别，识别过程快速准确。通过本发明方法实现的图像表格文字识别，在克服表格文字切分困难的基础上实现文字识别，对图像表格文字的识别效率高，快速，准确，很好的解决了图像表格文字识别的难题。

为了实现上述发明目的，本发明提供以下技术方案，一种图像表格文字识别方法，包含以下实现过程：

将待处理图像表格进行二值化处理，检测出所述图像表格中的单元格，依次将各单元格中的内容作为一个整体切分出来，形成对应的子图片；

使用投影法将子图片中的文字信息切分出来；

将子图片中切分出的文字块信息输入到训练好的神经网络中，将文字块中的文字信息识别出来。

具体的，本图像表格文字识别方法采用以下实现步骤：

(1)将待处理图像表格进行二值化处理，使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓；

(2)对所述步骤(1)提取出的单元格轮廓点集，调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域，提取出该旋转矩形区域的四角顶点坐标点；根据四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片；

(3)采用投影法将所述子图片中的文字信息依次切分出来；

(4)将子图片中切分出的文字块信息输入到训练好的神经网络中，实现文字信息的识别。

进一步的，所述步骤(3)中对切分出来的单元格文字图像进行侧向投影，计算出一行的非0像素的个数，并将该值放到projection_y类中。每一行非0像素的计算方法为：i是行数，j是列数，pix(i，j)是对应像素值，n是最后一列的列坐标。

进一步的，所述步骤(3)中对projection_y类中的元素进行遍历，变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int>top中；如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；top.size()＝bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来，对应的两个坐标值也就是该行所有文字的上下两个y坐标。

进一步的，对于切分出来的每一行的文字图像进行垂直投影，计算出一列的非0像素的个数，并将该值放到projection_x类中。每一列非0像素的计算方法为：j是列数，i是行数，pix(i，j)是对应像素值，m是最后一行的行坐标。

进一步的，对projection_x类中的元素进行遍历，变量k遍历范围为从1开始到projection_x.size()-1结束。如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector<int>left中；如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector<int>right中；遍历完后left.size()应该等于right.size()。类left和right中的元素值就是单文字可选用切分位置。

经过上述投影过程，根据横向投影和纵向投影坐标就可以确定每个文字的坐标位置，根据这些切分位置就可以将单元格中的文字信息切分成各个文字块。将上述文字块依次输入经过训练的神经网络中，通过神经网络完成文字的识别。

进一步的，所述步骤(4)中，根据横向投影和纵向投影坐标确定每个文字的坐标位置，根据坐标位置可以依次把单个文字块切分出来，将子图片中切分出来的文字块按照原有的顺序输入神经网络中进行识别，保证了子图片中文字识别的顺序和逻辑准确性。

与现有技术相比，本发明的有益效果：本发明提供一种图像表格文字识别方法，本方法首先检测出待识别图像表格中的单元格，将每个单元格中的信息内容整体切分出来形成对应子图片，对每个单元格中的文字信息利用投影法进行切分出来，克服了表格复杂结构和框线影响造成文字信息识别切分困难的难题；并且在将子图片上的文字块切分出来的基础上，将文字块输入经过训练的神经网络中，通过神经网络的自动学习，输入正确的文字识别结果。本发明中单元格的识别和单元格文字内容信息的切分基于openCV图像处理工具中的API函数来实现，检测和识别效率高，在单元格切分的基础上使用投影法将单元格中的文字块切分出来，投影法对文字切分点的判断方式简单，判断效率较高；在上述文字切分的基础使用神经网络对切分出的文字信息进行自动识别，识别速度快，识别效率高。总之，本发明方法解决了图像文字识别领域中一直难以克服的图像表格识别困难的问题，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

附图说明：

图1为本图像表格文字识别方法的流程示意图。

图2为本图像表格文字识别方法中的实施步骤示意图。

图3为实施例中的经过二值化处理的待识别图片示意图。

图4为对图3所示的待识别图片调用findcontours函数，提取出的单元格轮廓示意图。

图5为切分出来的其中一个单元格示意图。

图6经过去除边框切分出单元格文字内容的示意图。

图7为对图6中的单元格文字内容进行侧向投影进行行切分示意图。

图8为对经过行切分的文字内容进行垂直投影将单个文字块切分出来的示意图。

图9为对经过行切分的文字内容进行垂直投影将单个文字块切分出来的示意图。

图10为经投影法切分出的文字块示意图。

图11为经过神经网络对输入文字块的识别结果示意图。

需要说明的是，本发明所有附图均为示意性的，不代表实际的尺寸和比例。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种图像表格文字识别方法，能够快速准确的将图像表格中的文字信息识别出来。本发明首先将图像表格中的文字信息提取和切分出来，在文字信息切分的基础上对切分出的文字块进行识别，从而完成了图像表格文字的识别过程。其中在进行图像表格文字切分时首先检测出待识别图像表格中的单元格，提取出单元格的轮廓点集，根据单元格的轮廓点集，构造出包含单元格轮廓点集的面积最小的矩形区域，提取出该矩形区域的四角顶点坐标，根据该四角顶点坐标将对应单元格中的文字信息切分提取出来，在单元格内容整体切分出来的基础上，通过侧向投影实现单元格中的行切分，再通过垂直投影实现每一行的单个文字切分；在文字切分的基础上使用神经网络对切分出的文字进行识别，识别过程快速准确。通过本发明方法实现的图像表格文字识别，在克服表格文字切分困难的基础上实现文字识别，对图像表格文字的识别效率高，快速，准确，很好的解决了图像表格文字识别的难题。

将待处理图片进行二值化处理，检测出所述图像表格中的单元格，依次将各单元格中的内容作为一个整体切分出来，形成对应的子图片；

使用投影法将子图片中的文字信息切分出来；

具体的，本图像表格文字识别方法采用以下实现步骤：

(1)将待处理图像表格进行二值化处理，使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓；将检测出的单元格轮廓的点集提取出来放置在对应的点类中(如：用Vector1，Vector2，Vector3......来表示)；openCV图像处理工具包含各种图像识别和处理函数，其中findcontours函数能够根据表格框线轮廓的特点将单元格的轮廓检测出来，并将检测出的单元格轮廓点集提取出来。本发明使用findcontours函数的轮廓检测函数来检测图像表格文字中的单元格，单元格检测准确快速。

(2)对所述步骤(1)提取出的单元格轮廓点集，调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域，提取出该旋转矩形区域的四角顶点坐标点；根据四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片；openCV图像处理工具中的minAreaRect函数可以在坐标点集的基础上快速构造出一个能够包含这些点的面积最小的旋转矩形区域，通过旋转矩形区域的构建实现了单元格的定位，确定出单元格的覆盖范围，在四角坐标的基础上，确定子图片的切分位置，在进行子图片切分时将单元格的表格框线去除掉，避免表格框线的存在影响识别的结果；具体的做法为，对单元格进行切分时，将按照四角顶点的坐标位置向单元格内部的方向相应的移动几个像素点位置所确定的区域，来确定单元格内部文字的切分范围，这样切分范围避开了单元格表格边框线的影响。

(3)采用投影法将所述子图片中的文字信息依次切分出来，投影法是最简单快速的图像文字定位切分方法，在子图片不含有表格边框线的情况下，使用投影法不会受到表格边框线的影响，操作简单，计算量小。

(4)将子图片中切分出的文字块信息输入到训练好的神经网络中，实现文字信息的识别。神经网络广泛的应用于语音和图像识别中，在对经过切分的文字图片的识别的应用比较成熟；本发明使用神经网络来将切分好的文字的内容识别出来，识别快速准确。可在较短的时间内完成大量图像表格文字的准确识别，满足了快速增长的表格图像识别和处理的需要，为相关的信息挖掘，信息深度分析的应用，提供了一条快速便捷的途径。

进一步的，所述步骤(1)中将各个单元格的轮廓点集组成的类(Vector1，Vector2，Vector3......)，放入一个大类：contours中，这样的处理便于在后续步骤中，根据需要调用其中的元素进行相应的计算。

进一步的，所述步骤(2)中遍历contours中的元素，调用minAreaRect函数，这样的便利操作方式可以保证，对contours中的每个元素进行操作，也就是说，对待识别图像表格中的各个单元格轮廓进行相应的操作，确保计算结果的完整性。

进一步的，所述步骤(2)中将minAreaRect函数构建的各旋转矩形区域放置在对应的RotatedRect类中。

进一步的，所述步骤(2)中遍历RotatedRect中的元素，提取每个元素对应旋转矩形区域的四角顶点坐标，遍历的方法可以保证所有的旋转矩形区域都可以被计算到，避免遗漏，保证数据的完整性。

进一步的，所述步骤(4)中，根据横向投影和纵向投影坐标确定每个文字的坐标位置，根据坐标位置可以依次把单个文字切分出来，子图片中切分出来的文字可以按照原有的顺序进行识别，保证了子图片中文字识别的顺序和逻辑准确性。

进一步的，所述步骤(4)中对切分出来的单元格文字图像进行侧向投影，计算出一行的非0像素的个数，并将该值放到projection_y类中。每一行非0像素的计算方法为：i是行数，j是列数，pix(i，j)是对应像素值，n是最后一列的列坐标。

进一步的，所述步骤(4)中对projection_y类中的元素进行遍历，变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int>top中；如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；top.size()＝bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来，对应的两个坐标值也就是该行所有文字的上下两个y坐标。

进一步的，对于切分出来的每一行的文字图像进行垂直投影，计算出一列的非0像素的个数，并将该值放到projection_x类中。每一列非0像素的计算方法为：j是列数，i是行数，pix(i，j)是对应像素值，m为最后一行的行坐标。

神经网络目前在语音和图像识别中的应用十分的广泛，对切分好的文字的图片的识别技术已经相对成熟，神经网络有类似于人脑神经系统的训练和学习过程，能够学习样本的特征、模式和规律，当根据识别需要构建好神经网络后，根据识别的复杂程度准备一定数量训练样本输入到神经网络中，训练神经网络，在将这些训练样本输入到神经网络之前，需要对这训练样本进行人工标注，神经网络具有自适应的误差调整能力，能够根据误差反向传播等调节方式，不断缩小学习结果和标注结果之间的差异，最后逐步趋近于稳定正确的识别方向，当神经网络训练完成之后将一定数量的测试样本(开发样本)输入到神经网络中，测试神经网络的输入结果的正确率，当正确率达到设定的阈值时，可认为神经网络的训练已经完成，当神经网络训练好以后，将切分好的文字块图片输入到神经网络中，完成图片的识别过程。

进一步的，在图像表格的识别中一般包含的字符种类比较复杂，有汉字、字母、数字、也有标点符号。为了满足图像表格文字识别的需要，本发明所采用的神经网络在进行训练时，需要准备的样本集中应当相应的包含这些字符集，使用包含待识别图像文字中字符的训练样本来训练神经网络，对训练样本进行人工标注，保证经训练的神经网络的准确性。

实施例

以下通过举例具体说明本发明图像表格文字识别方法的实现过程，本实施例中经过二值化处理后的待识别图片如图3所示，对图一所示的待识别图片，通过openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓，所检测出的单元格轮廓如图4所示；将图4中检测出的单元格轮廓点集，放入对应的类中，并将这些轮廓点集类，放入一个大类contours中；遍历contours中的元素，对contours中的每个元素调用minAreaRect函数，提取出旋转矩形区域并放入到RotatedRect类中；遍历RotatedRect类中的元素，提取对应旋转矩形区域的四角顶点坐标，并根据选取旋转矩形区域的四角顶点坐标值对应直线所围成的面积最小的矩形区域将单元格中的文字信息内容切分出来，当将单元格子图片切分出来以后，对子图片先经过侧向投影将子图片中的文字行切分出来(如图5所示)，在行切分的基础上通过垂直投影(如图6，图7所示)切分出每一行文字信息中的各个字符，进而完成图像表格文字的所有切分，本实施例以其中一个单元格说明上述过程：图8为待识别图像表格中切分出的一个单元格，图9为经过四角顶点坐标确定的对应直线所围成的面积最小的矩形区域将单元格边框去除自后切分出的对应子图片，图10为图9所示的单元格子图片所包含的文字信息切分结果示意图。将如图10所示的切分好的文字块输入到经过训练的神经网络中，通过神经网络的快速自动地对文字块的内容进行识别，并将识别结果返回，识别结果如图11所示。本实施例其他过程与具体实施方式相同，在此不再赘述。

Claims

1.一种图像表格文字识别方法，其特征在于：

将待处理图像表格进行二值化处理，检测出所述图像表格中的单元格，将各单元格中的内容分别切分出来，形成对应的子图片；

使用投影法将子图片中的文字信息切分出来；

2.如权利要求1所述的方法，其特征在于：包含以下实现步骤：

(1)使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓；并将检测出的单元格的轮廓点集提取出来放入对应的类中；

(2)对所述步骤(1)提取出的单元格轮廓点集对应的类，调用minAreaRect函数，构建出包含单元格轮廓点集的面积最小的旋转矩形区域；并提取出该旋转矩形区域的四角顶点坐标点；根据四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片；

(3)采用投影法将所述子图片中的文字信息依次切分出来；

3.如权利要求2所述的方法，其特征在于：所述步骤(1)中将各个单元格的轮廓点集组成的类，放入一个大类：contours中。

4.如权利要求3所述的方法，其特征在于：所述步骤(2)中遍历contours中的元素，调用minAreaRect函数。

5.如权利要求4所述的方法，其特征在于：所述步骤(2)中将minAreaRect函数构建的各旋转矩形区域放置在对应的RotatedRect类中。

6.如权利要求5所述的方法，其特征在于：所述步骤(2)中遍历RotatedRect类中的元素，提取每个元素对应旋转矩形区域的四角顶点坐标；根据所述四角顶点坐标，确定单元格内容切分范围，将单元格中的内容切分出来，形成对应的子图片。

7.如权利要1至6之一所述的方法，其特征在于：所述步骤(3)中，根据横向投影和垂直投影坐标确定每个文字的坐标位置，根据坐标位置依次把单个文字切分出来，其中横向投影的实现过程如下：

中对切分出来的子图片进行侧向投影，通过公式：计算出一行的非0像素的个数，并将该值放到projection_y类中，其中i是行数，j是列数，pix(i，j)是对应像素值，n是最后一列的列坐标；

所述步骤(3)中对projection_y类中的元素进行遍历；

如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector＜int＞top中；

如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector＜int＞bottom中；

基于类top和bottom中的元素值将单元格中的文字行向切分出来。

8.如权利要求7所述的方法，其特征在于：对于切分出来的每一行的文字图像进行垂直投影，采用公式：计算出一列的非0像素的个数，并将该值放到projection_x类中，其中j是列数，i是行数，pix(i，j)是对应像素值，m为最后一行的行坐标；

对projection_x类中的元素进行遍历；如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector＜int＞left中；

如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector＜int＞right中；

类left和right中的元素值就是单文字的切分位置。

9.如权利要求8所述的方法，其特征在于：对神经网络进行训练的样本集包括：汉字集、数字集、字母集和标点符号集。

10.如权利要求9所述的方法，其特征在于：所述训练样本经过人工标注后训练神经网络。