CN110363095A

CN110363095A - 一种针对表格字体的识别方法

Info

Publication number: CN110363095A
Application number: CN201910536393.0A
Authority: CN
Inventors: 王国华; 叶镇亮; 郑永森; 刘财兴; 古万荣
Original assignee: South China Agricultural University
Current assignee: Tongluo Technology Co ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-10-22
Anticipated expiration: 2039-06-20
Also published as: CN110363095B

Abstract

本发明公开的一种针对表格字体的识别方法，包括以下步骤：获取表格图像，对表格图像进行预处理，包括：图像灰度化、图像去噪、图像倾斜校正；然后进行表格提取，提取表格横线、提取表格竖线、合并表格线段，去除不合格的表格线，得到完整表格；对完整表格进行定位截取，获取表格内容在完整表格中的定位；对定位截取内容进行表格内容提取，获取表格内容；使用识别技术对表格内容进行识别，得到初步识别结果，并分别训练对应的语言库，使用对应的语言库对初步识别结果进行选举，得到最终识别结果；本发明能够对多种格式的表格进行准确定位提取表格线和表格结构，能避免虚线和细线的对表格提取的干扰，能同时对印刷体和手写体进行准确识别。

Description

一种针对表格字体的识别方法

技术领域

本发明涉及字体识别的研究领域，特别涉及一种针对表格字体的识别方法。

背景技术

在国际上，许多知名的研究机构对表格识别技术有不错的研究成果，如纽约州立大学在其布法罗分校设立的文档分析识别中心，华盛顿大学有名的智能系统实验室以及肯考迪亚大学广为人知的模式识别与机器智能研究中心等(张远.印刷体文档表格识别技术研究[D].湖南大学,2018.)。在国内，目前人们研究较多的表格文档识别主要是带有一定格式的特定文档识别，如快递单识别研究、邮政编码自动识别研究、银行金融票据识别研究、交通标志牌以及汽车车牌识别研究等有特定格式的表格文档识别技术己经有了突破性发展，但是对复杂表格识别研究就相对缓慢(郭佳.基于图像的表格识别算法与自动录入系统[D].北京邮电大学,2018.)，相关理论还不够完善，成型的使用系统也较少。比较常见的表格识别，常见的有Abbyy(张秀常.中英文混合识别的利器——ABBYY FineReader[J].中国教育信息化,2012(18):64-65.),solid等软件，主要是针对特定的表格格式，如邮政编码识别，或者只针对规则表格的印刷体识别，而对于表格线属于虚线，断线，细线的时候提取效果十分差，没有一款针对所有不规则，规则的表格结构识别，以及同时包括印刷体，手写体等表格都普遍使用的识别系统，而且识别准确率都不高，错误率过大，导致人工干预的成本增加。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种针对表格字体的识别方法，主要解决的是针对所有不规则和规则图表的表格结构提取，以及包括印刷体和手写体识别，以及使用多语言选举提高识别准确率。

本发明的目的通过以下的技术方案实现：

一种针对表格字体的识别方法，包括以下步骤：

S1、获取表格图像，对表格图像进行预处理，所述预处理包括：图像灰度化、图像去噪、图像倾斜校正；

S2、对预处理后的表格图像进行表格提取，提取表格横线、提取表格竖线、合并表格线段，去除不合格的表格线，得到完整表格；

S3、对完整表格进行定位截取，获取表格内容在完整表格中的定位；

S4、对定位截取内容进行表格内容提取，获取表格内容；

S5、使用识别技术对表格内容进行识别，得到初步识别结果，并分别训练对应的语言库，使用对应的语言库对初步识别结果进行选举，得到最终识别结果。

进一步地，所述预处理具体为：

使用平均值法进行图像灰度化，得到灰度化图像；

使用中值滤波器进行图像去噪；

图像倾斜校正具体为：使用傅里叶倾斜变换得到图像的频域图，对频域图进行霍夫变换直线检测，得到频域图中直线的倾斜角度，进行图像延扩得到延扩图像并填充背景色；使用warpAffine函数对延扩图像进行旋转，得到倾斜校正图像。

进一步地，所述表格提取具体为：

通过膨胀腐蚀，将表格框线和文字分离，从而对表格进行提取；将已经灰度化的图像进行二值化处理：对表格图像做反操作，将白色背景变成黑色，黑色字体变成白色，采用自适应阈值化函数adaptiveThreshol将所有像素点根据周围邻近局域的像素点灰度值自适应加权，转成二值化图片binaryImage；再对所有的图像元素进行膨胀处理；得到能提取信息的图像；

对表格横线和竖线进行提取：

提取图像所有横线，取横线一个合适的子集长方体，对图像进行腐蚀，用子集长方体对图像剩下的像素集合进行膨胀，得到图像的横线，再使用一个竖线子集长方体作为膨胀对象，对横线进行膨胀，得到饱满的横线；

提取图像所有竖线，取竖线一个合适的子集长方体，对图像进行腐蚀，用子集长方体对图像剩下的像素集合进行膨胀，得到图像的竖线，再使用一个横线子集长方体作为膨胀对象，对竖线进行膨胀，得到饱满的竖线；

根据饱满的横线和饱满的竖线，得到完整表格。

进一步地，所述完整表格，还需要对表格的亢余线段进行消除，具体如下：设最小表格长宽为表总长宽的0.005，将距离小于最小表格长宽的表格线合为一条，去掉长度小于最小表格长的线段，再对筛选出来的表格线段进行遍历，并将表格的线段长度按垂直线段和水平线段，分别取各自长度的中位数，将其他线段长度归一化，得到统一表格。

进一步地，所述对完整表格进行定位截取，具体为：对水平线段按照Y轴坐标进行排序，得到一个从上到下的水平线段集合；对垂直线段按照X轴坐标由小到大进行排序，得到一个从左到右的垂直线段集合；分别对水平线段集合和垂直线段集合进行遍历，根据两条相邻水平线段和两条相邻垂直线段得到一个表格的四边，进而得到该表格的四个顶点坐标，依据表格的四个顶点坐标，对表格进行定位截取。

进一步地，所述对定位截取内容进行表格内容提取，具体为：将原来图片减去表格的所有线段，获得没有表格边框的内容；对于文字与表格线段相交的，对提取出来的表格内容做膨胀处理，获得完整字体。

进一步地，所述识别技术为OCR识别技术。

进一步地，所述分别训练对应的语言库，所述训练采用Tesseract-OCR工具进行训练，对于制作训练的样本，使用jTessBoxEditor训练工具生成；具体为：将需要训练的样本图像分成2n+1组，分别训练对应的语言库，使用识别技术随机选择2k+1个语言库进行识别，对识别结果进行统计，数量最多的识别结果选举为本次识别的最终识别结果；如果数量最多的试卷结果不止一个，则添加对应的语言库进行识别，再进行选举，直到训练的语言库都识别完。

进一步地，所述语言库包括：英文语言库、中文语言库、数字语言库。

本发明与现有技术相比，具有如下优点和有益效果：

本发明采用表格线预处理增强和去冗，主要应对表格线虚线，不明显，断线，杂线的情况，增加对表格线宽度的增强和归一化，以及对多余表格线的合并；根据交点做提取表格，对不规则表格做兼容，适应表格内表格合并的情况，提取出表格的位置信息；能够对多种格式的表格进行准确定位提取表格线和表格结构，能避免虚线和细线的对表格提取的干扰，能同时对印刷体和手写体进行准确识别，即选举识别，可以同时用于印刷体和手写体同时存在的表格识别，以及使用多语言训练库对识别结果进行选举，提高识别的准确率。

附图说明

图1为本发明所述一种针对表格字体的识别方法的方法流程图；

图2为本发明所述实施例中表格提取流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种针对表格字体的识别方法，如图1所示，包括以下步骤：

获取表格图像，对表格图像进行预处理，所述预处理包括：图像灰度化、图像去噪、图像倾斜校正；图像的灰度化和去噪是很有必要的一个预处理步骤，RGB转灰度值可以减少后期图像处理倾斜校正和膨胀腐蚀以及直线检测的需要处理的数据量。灰度化后图表信息更加突出，去除噪点可以减少边缘检测和直线检测的错误识别，表格图像灰度化和去噪主要使用了平均值法和中值滤波器去噪；图像倾斜校正具体如下：使用傅里叶倾斜变换得到图片的频域图，再对频域图进行霍夫变换直线检测，得到频域图中直线的倾斜角度，先用填充背景为黑色或者白色进行图像延扩得到延扩的图像，黑色和白色都可以，不过这里为了明显看出图像的倾斜校正更明显，使用黑色。使用warpAffine函数对延扩的图像进行旋转一定的倾斜角度，图像的倾斜校正将有助于表格的线的正确提取。

对预处理后的表格图像进行表格提取，提取表格横线、提取表格竖线、合并表格线段，去除不合格的表格线，得到完整表格；表格的提取主要是通过膨胀腐蚀来将横的和竖的表格线和文字分离，从而使提取出表格，对表格里面的内容进行截取。具体如下：

表格的线段提取需要做膨胀腐蚀运算，如图2所示，所以需要先将已经灰度化的图像进行二值化处理，首先对图像做反操作，将白色的背景变成黑色，黑色的字体变成白色，然后采用自适应阈值化函数adaptiveThreshol将所有像素点根据周围邻近局域的像素点的灰度值自适应加权，转成二值化图片binaryImage。

由于实验表格图像的表格线和字体较为纤细，且明显的断断续续，所以需要先对总体图像的元素做一个膨胀处理，增强元素的宽度，把要提取的元素凸显出来。

通过以上步骤得到要提取信息的图像，下面就能分别对表格的横线和竖线进行提取，前面讲述了膨胀运算和腐蚀运算的作用和原理，这两个运算结合在一起用可以把一些特定的结构体元素提取出来，主要方法是用同一个结构体先腐蚀再膨胀，这个也叫开运算，用结构元素B对X做一个开运算：

开运算主要作用是去除一些孤立的像素点，毛刺和小桥，原来的要保留的元素的位置和大小不会变化。将需要的元素提取出来后，也能再用膨胀运算把元素变得饱满。

提取表格横线：

提取图像的所有横线，只需要用横线的一个合适的子集水平线段长方体，先对图像进行腐蚀，去除不符合横线特征的所有像素，再用这个子集长方体对图像剩下的像素集合进行膨胀，这样就能恢复图像中的横线，而其他特征元素包括竖线和文字则因为在腐蚀这一步骤全部消除，所以无法得到恢复，这样就得到我们需要的横线，当然有可能在开运算中造成横线的不连续，这样需要再使用一个较小的竖线子集长方体作为膨胀对象，恢复横线的不连续，也将横线变得更加饱满。

提取表格竖线

提取图像的所有竖线，同理，只需要用竖线的一个合适的子集水平线段长方体，先对图像进行腐蚀，去除不符合竖线特征的所有像素，再用这个子集长方体对图像剩下的像素集合进行膨胀，这样就能恢复图像中的竖线，而其他特征元素包括横线线和文字则因为在腐蚀这一步骤全部消除，所以无法得到恢复，这样我们就得到需要的竖线，当然有可能在开运算中造成竖线的不连续，这样需要再使用一个较小的横线线子集水平线段长方体作为膨胀对象，恢复竖线的不连续，也将竖线变得更加饱满。

合并表格线段

将上面两步得到的横线和竖线两个图像做一个或运算，就得到一个完整的表格，这样就将表格的边框和表格里的内容分离了出来，能分别对这两部分做相应的识别和处理。得到合并后的表格只是第一步，接下来需要对表格的冗余线段进行消除，避免识别到不是真正的表格，首先需要把靠的太近的表格线合为一条，然后去掉太短的线段，避免得到非表格线段的噪点线段，然后再对筛选出来的表格线段进行遍历，将表格的线段长度按垂直线段和水平线段，分别取到各自长度的中位数，将其他线段的长度归一化，这样便于提取统一的表格。

对完整表格进行定位截取，获取表格内容在完整表格中的定位；具体为：提取到了表格的所有线段，但是却无法得到每个表格的位置，这样提取出来的表格内容文字识别后得到的结果也是没法写到Excel表相应的位置，需要定位每个表格在表中位置，即需要对水平线段和垂直线段做一个排序，就能按照从上到下，从左到右的顺序截取每个表格的内容，首先对水平线段按照y坐标进行排序，得到一个从上到下的水平线段集合，同样对垂直线段按照x坐标由小到大进行排序，得到一个从左到右的垂直线段集合，然后分别遍历两个线段的集合，根据两条相邻的水平线段和两条相邻的垂直线段得到一个表格的四条边，得到这个表格的四个顶点的坐标，进而对表格里面的内容进行截取。截取表格内容要使用表格内容提取得到的图像，根据thresh[v1_x:v1_x,h1_y:h2_y]对表格截取图片。

对定位截取内容进行表格内容提取，获取表格内容；具体为：得到表格的所有线段后，对表格内容做一个提取，只需要将原来的图片减去表格的所有线段后，就能得到没有表格边框的内容，这样就能在识别文字的时候减少表格边框的影响。由于表格的线段的提取中有一些文字与表格边框线段相交，所以会导致文字出现断开不完整的现象，还需要对提取出来的表格文字内容部分做一个膨胀运算，将表格文字的断开处连接起来，以便于减少文字字体不完整对识别正确率的影响，

使用识别技术对表格内容进行识别，得到初步识别结果，并分别训练对应的语言库，分别为英文语言库、中文语言库、数字语言库，使用对应的语言库对初步识别结果进行选举，得到最终识别结果。具体如下：使用OCR识别技术进行识别，这里所用的软件引擎Tesseract-OCR是一款开源OCR引擎，由HP实验室在1985年开发，后期交由Google公司维护的，已作为开源项目发布在Google Project，其最新版本3.0已经支持中文OCR，并提供了一个命令行工具。

选择它做文字识别软件引擎，主要是因为表格图像中的文字只有英文，中文和数字，而这三种这个软件都是支持这几种语言的。还能使用jTessboxEditor这个样本训练工具，结合Tesseract-OCR这个引擎，训练需要识别的字符，比如手写的数字，这样可以提高相对应的识别准确率。

将要训练的样本图片按照相同的字符分成2n+1组，再分别训练对应的语言库，编号为(1～2n+1),调用tesseract-ocr进行识别，从k＝1开始，随机选择2k+1个语言库进行识别，对识别结果进行统计，数量最多的识别结果就被选举为此次识别的最终识别结果，如果数量最多的识别结果不只一个，那么便增加对应的语言库进行识别，再进行选举，直到训练的语言库的用光，则报错无法识别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种针对表格字体的识别方法，其特征在于，包括以下步骤：

S4、对定位截取内容进行表格内容提取，获取表格内容；

2.根据权利要求1所述的一种针对表格字体的识别方法，其特征在于，所述预处理具体为：

使用平均值法进行图像灰度化，得到灰度化图像；

使用中值滤波器进行图像去噪；

3.根据权利要求1所述的一种针对表格字体的识别方法，其特征在于，所述表格提取具体为：

对表格横线和竖线进行提取：

根据饱满的横线和饱满的竖线，得到完整表格。

4.根据权利要求3所述的一种针对表格字体的识别方法，其特征在于，所述完整表格，还需要对表格的亢余线段进行消除，具体如下：设最小表格长宽为表总长宽的0.005，将距离小于最小表格长宽的表格线合为一条，去掉长度小于最小表格长的线段，再对筛选出来的表格线段进行遍历，并将表格的线段长度按垂直线段和水平线段，分别取各自长度的中位数，将其他线段长度归一化，得到统一表格。

5.根据权利要求1所述的一种针对表格字体的识别方法，其特征在于，所述对完整表格进行定位截取，具体为：对水平线段按照Y轴坐标进行排序，得到一个从上到下的水平线段集合；对垂直线段按照X轴坐标由小到大进行排序，得到一个从左到右的垂直线段集合；分别对水平线段集合和垂直线段集合进行遍历，根据两条相邻水平线段和两条相邻垂直线段得到一个表格的四边，进而得到该表格的四个顶点坐标，依据表格的四个顶点坐标，对表格进行定位截取。

6.根据权利要求1所述的一种针对表格字体的识别方法，其特征在于，所述对定位截取内容进行表格内容提取，具体为：将原来图片减去表格的所有线段，获得没有表格边框的内容；对于文字与表格线段相交的，对提取出来的表格内容做膨胀处理，获得完整字体。

7.根据权利要求1所述的一种针对表格字体的识别方法，其特征在于，所述识别技术为OCR识别技术。

8.根据权利要求1所述的一种针对表格字体的识别方法，其特征在于，所述分别训练对应的语言库，具体为：将需要训练的样本图像分成2n+1组，分别训练对应的语言库，得到语言库特征文件，使用识别技术随机选择2k+1个语言库进行识别，对识别结果进行统计，数量最多的识别结果选举为本次识别的最终识别结果；如果数量最多的试卷结果不止一个，则添加对应的语言库进行识别，再进行选举，直到训练的语言库都识别完。

9.根据权利要求8所述的一种针对表格字体的识别方法，其特征在于，所述语言库包括：英文语言库、中文语言库、数字语言库。

10.根据权利要求8所述的一种针对表格字体的识别方法，其特征在于，所述训练采用Tesseract-OCR工具进行训练，对于制作训练的样本，使用jTessBoxEditor训练工具生成。