CN104484643B

CN104484643B - 一种手写表格的智能识别方法及系统

Info

Publication number: CN104484643B
Application number: CN201410586463.0A
Authority: CN
Inventors: 董兰芳; 谢永祥
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2018-05-29
Anticipated expiration: 2034-10-27
Also published as: CN104484643A

Abstract

本发明公开了一种手写表格的智能识别方法及系统，其中，该方法包括：对拍摄到的手写表格图片进行预处理后，依次进行差分处理及霍夫hough变换，获得角度校正后的手写表格图片；对所述角度校正后的手写表格图片进行分割，获得包含手写部分的若干个矩形区域；基于特征或分类器对所述若干个矩形区域中内容进行分析与识别。通过采用本发明公开的方法及系统，能够快速且准确的对手写表格进行识别。

Description

一种手写表格的智能识别方法及系统

技术领域

本发明涉及智能图像分析技术领域，尤其涉及一种手写表格的智能识别方法及系统。

背景技术

表格是文档中常用的数据资料载体，目前，在商业、社会调查等各种场合都有大量的应用。但是表格结果统计分析又往往是一件工作量巨大的工作，其中在传统的评测表格的统计中，常需要人去手工去完成，极大地浪费了人力、物力。

目前存在的表格识别系统可分为两类：

不受限表格识别：识别前没有表格的先验结构信息，主要是通过对图片进行表格结构分析，得到表格的结构后再进行字符提取并识别。其算法复杂，且识别效果受图象质量影响很明显，检测错误率较高。

受限表格识别：识别前已拥有表格的结构信息,用户可利用这些信息来帮助分析和识别，这种结构已知的表格被称为受限表格。受限表格识别可以极大提高计算机识别表格的准确率和速度，但识别的表格格式固定，通常只有几种，想增加表格格式比较困难。

综上所述，现有技术能够准确识别的表格类型较少，且存在准确率较低、速度较慢的问题。

发明内容

本发明的目的是提供一种手写表格的智能识别方法及系统，能够快速且准确的对手写表格进行识别。

本发明的目的是通过以下技术方案实现的：

(与权利要求书对应)。

由上述本发明提供的技术方案可以看出，通过校正手写表格图片，并提取出表格图片中的手写区域，即可实现快速且准确的识别，该方法有较强的实用性，对表格设计、印刷和图片采集的要求不高，且适用于多种手写评测表格，鲁棒性较强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例一提供的一种手写表格的智能识别方法的流程图；

图2为本发明实施例一提供的一种拍摄的手写表格图片的示意图；

图3为本发明实施例一提供的一种校正后的手写表格图片的示意图；

图4为本发明实施例一提供的一种提取出的完整手写表格图片区域的示意图；

图5为本发明实施例一提供的一种提取出的手写表格图片中一个矩形区域的示意图；

图6为本发明实施例二提供的一种手写表格的智能识别系统的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例一

图1为本发明实施例一提供的一种手写表格的智能识别方法的流程图。如图1所示，该方法主要包括如下步骤：

步骤11、对拍摄到的手写表格图片进行预处理后，依次进行差分处理及霍夫hough变换，获得角度校正后的手写表格图片。

在实际工作中，由于在图片采集过程中，会存在拍摄角度、抖动等因素，会对图像造成一定程度的失真。

示例性的，图2为拍摄的手写表格图片，可通过本步骤对其进行校正处理；具体的：

首先，对所述手写表格图片灰度化后，使用最大类间差法得到全局阈值，并进行二值化后，得到图片F1；

其次，对所述图片F1进行竖直方向的差分，获得差分处理后的图片F2：

F2(i,j)＝|F1(i+1,j)-F1(i,j)|；

其中，i，j分别表示像素所在的行和列。

经过差分处理后，可以将图像中的横线很好的保存下来，将竖线去除，并将图片中文字部分的影响程度极大地降低。

再利用hough变换对差分处理后的图片F2进行直线检测，获得图片F2中最长的N条直线的倾斜角度，并求得其平均值a；例如，N为3时，最长的3条直线的倾斜角度分别为a1，a2，a3，则其平均值a＝(a1+a2+a3)/3。

最后，利用双线性差值的方法对所述图片F1进行反方向旋转a度，得到如图3所示的角度校正后的手写表格图片。

步骤12、对所述角度校正后的手写表格图片进行分割，获得包含手写部分的若干个矩形区域。

对于倾斜校正后的图片，我们需要对其中的表格填写部分进行两次提取过程，第一次是对表格整体的提取，第二次是对表格中手写部分的提取；具体的：

1)对角度校正后的手写表格图片进行多次竖直方向的差分处理，获得差分处理后的图片G1，这样可以极大程度的保存横线部分，并去除掉竖线以及文字的干扰；再对所述图片G1进行水平方向的投影，获得数组P1；分别从数组P1的开始处和结尾处往中间搜索，找到第一个大于width/2的极大值，并作为表格整体的上下边界，标记其位置为y0与y1；其中，width表示图片G1的宽度；

2)对角度校正后的手写表格图片进行水平方向的差分处理，获得差分处理后的图片G2，这样可以极大程度的保存竖线部分，并去除掉横线以及文字的干扰；再对所述图片G2进行竖直方向的投影，获得数组P2；分别从数组P2的开始处和结尾处往中间搜索，找到第一个大于height/2的极大值，并作为表格整体的左右边界，标记其位置为x0与x1；其中，height表示图片G2的高度；

3)利用获得的位置x0、x1、y0与y1分割所述图片G1，获得完整的手写表格图片G3(如图4所示)；

4)根据先验知识(可以预先获得，并在该步骤时直接调用)，获得所述手写表格图片中需要人手工填写部分的行数L与列数C；对所述图片G3进行水平方向投影，获得数组P3，从后处往前查找，依次找出前L+1个值大于width/4的极大值并记录入数组Q1中；对所述图片G3进行竖直方向投影，获得数组P4，从后处往前查找，依次找出前C+1个值大于height/4的极大值并记录入数组Q2中；其中，所述数组Q1与数组Q2包含表格手写部分的所有直线位置，共L+1条和C+1条直线；对于手写部分的第i行与第j列，其矩形的四个点坐标为(Q1[i-1]，Q2[j-1])；(Q1[i-1]，Q2[j])；(Q1[i]，Q2[j-1])；(Q1[i+1]，Q2[j+1])；

5)对于手写部分的矩形分布，在四个坐标的基础上往里缩进n个像素点距离，依次提取出L×C个矩形区域G_ij(如图5所示)。

步骤13、基于特征或分类器对所述若干个矩形区域中内容进行分析与识别。

本发明实施例中，对于手写符号，则通过分析符号的特征进行识别；

对于手写的文字内容，则利用SVM(支持向量机)分类器进行识别。

其中，所述利用支持向量机SVM分类器进行识别包括：

对每一矩形区域G_ij进行滤波处理，提取出包含手写区域的最小矩形图片M0；若该图片M0的区域小于阈值，则判定该矩形区域G_ij中未填写内容；

否则，将图片M0归一化成像素为50×50的标准图片M，并对该图片M进行网格特征及笔画特征提取；对于网格特征，将该图片M分为25个10×10的格子，统计每个格子中的黑色像素的个数形成前25维特征；对于笔画特征，在该图片M中横、竖与斜的方向上画出8条扫描线，计算每条线上的经过的黑色线段的数量作为后8维特征；

将根据训练样本所得到的网格特征和笔画特征放入SVM训练器内，根据填写内容的种类来训练(例如，图4中填写内容为两类)，若填写内容只有两类情况，则直接来训练；若有k类情况，k>2，则每次取两种类别的样本作为正、负样本进行训练，共得到(k-1)×k/2个分类器；进行识别时，对每种类别设定一个计数器初始化为0，一次使用(k-1)×k/2个分类器进行识别，在分类器输出的类别对应的计数器加1，最后找出k个计数器中的最大值，其对应的类别即为最终识别结果。

示例性的，采用上述方法对图4进行识别后，进行排序，识别的结果如表1所示：

1	好
		2	较好
3	一般
		4	好
5	较好
		6	好
7	较好
		8	一般

9	差
		10	较好
11	好

表1识别结果

本发明提出的方法，实现了对于一般手写评测表格的分析识别。相比于现有技术而言，其优势在于：

1)本发明检测直线角度的方法，可以校正绝大多数出现的倾斜情况，有利于提高后续分割、识别的准确率；

2)利用投影的方法来寻找表格线位置，其运算简单，有利于提高分析的速度；

3)只需要用户提供横、竖行数2个参数即可完成对表格的分割，对于用户来说，操作比较简单，易于掌握；

4)结合简单的符号的特征，识别快速；

5)利用SVM分类器来识别空格内手写内容，该方法所需样本少，对于复杂的符号,识别效果好且运算速度快。

由此可知，本发明的方法有较强的实用性，对表格设计、印刷和图片采集的要求不高，且适用于多种手写评测表格，鲁棒性强。

实施例二

图6为本发明实施例一提供的一种手写表格的智能识别系统的示意图。如图6所示，该系统主要包括：

校正模块61，用于对拍摄到的手写表格图片进行预处理后，依次进行差分处理及霍夫hough变换，获得角度校正后的手写表格图片；

矩形区域提取模块62，用于对所述角度校正后的手写表格图片进行分割，获得包含手写部分的若干个矩形区域；

识别模块63，用于基于特征或分类器对所述若干个矩形区域中内容进行分析与识别。

进一步的，所述角度校正模块61可以包括：

二值化模块611，用于对所述手写表格图片灰度化后，使用最大类间差法得到全局阈值，并进行二值化后，得到图片F1；

差分处理模块612，用于对所述图片F1进行竖直方向的差分，获得差分处理后的图片F2：

F2(i,j)＝|F1(i+1,j)-F1(i,j)|；

倾斜角平均值计算模块613，用于利用hough变换对差分处理后的图片F2进行直线检测，获得图片F2中最长的N条直线的倾斜角度，并求得其平均值a；

角度校正模块614，用于利用双线性差值的方法对所述图片F1进行反方向旋转a度，得到角度校正后的手写表格图片。

进一步的，所述矩形区域提取模块62可以包括：

上下边界确定模块621，用于对角度校正后的手写表格图片进行多次竖直方向的差分处理，获得差分处理后的图片G1；对所述图片G1进行水平方向的投影，获得数组P1；分别从数组P1的开始处和结尾处往中间搜索，找到第一个大于width/2的极大值，并作为表格整体的上下边界，标记其位置为y0与y1；其中，width表示图片G1的宽度；

左右边界确定模块622，用于对角度校正后的手写表格图片进行水平方向的差分处理，获得差分处理后的图片G2；对所述图片G2进行竖直方向的投影，获得数组P2；分别从数组P2的开始处和结尾处往中间搜索，找到第一个大于height/2的极大值，并作为表格整体的左右边界，标记其位置为x0与x1；其中，height表示图片G2的高度；

手写表格图片获取模块623，用于利用获得的位置x0、x1、y0与y1分割所述图片G1，获得完整的手写表格图片G3；

直线位置获取模块624，用于根据先验知识，获得所述手写表格图片中需要人手工填写部分的行数L与列数C；对所述图片G3进行水平方向投影，获得数组P3，从后处往前查找，依次找出前L+1个值大于width/4的极大值并记录入数组Q1中；对所述图片G3进行竖直方向投影，获得数组P4，从后处往前查找，依次找出前C+1个值大于height/4的极大值并记录入数组Q2中；其中，所述数组Q1与数组Q2包含表格手写部分的所有直线位置，共L+1条和C+1条直线；对于手写部分的第i行与第j列，其矩形的四个点坐标为(Q1[i-1]，Q2[j-1])；(Q1[i-1]，Q2[j])；(Q1[i]，Q2[j-1])；(Q1[i+1]，Q2[j+1])；

手写部分的矩形区域提取模块625，用于对于手写部分的矩形分布，在四个坐标的基础上往里缩进n个像素点距离，依次提取出L×C个矩形区域G_ij。

进一步的，所述识别模块63可以包括：

手写符号识别模块631，用于对于手写符号，则通过分析符号的特征进行识别；

手写文字内容识别模块632，对于手写的文字内容，则利用支持向量机SVM分类器进行识别。

进一步的，所述手写文字内容识别模块，还用于对每一矩形区域G_ij进行滤波处理，提取出包含手写区域的最小矩形图片M0；若该图片M0的区域小于阈值，则判定该矩形区域G_ij中未填写内容；

需要说明的是，上述装置中包含的各个功能模块所实现的功能的具体实现方式在前面的各个实施例中已经有详细描述，故在这里不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，为验证本发明的方案，进行了测试实验，测试实验的环境及测试数据如下：

CPU(中央处理器)：Intel Core(TM)2Quad CPU Q9400@2.66GHz 2.67GHz

内存：2.00GB

操作系统：Win7

编程软件：Matlab2008

测试数据：600*700大小表格样本

首先，对测试数据进行处理，其中通过对每一张表格进行多个角度的旋转生成多个样本，增加样本的多样性，且使用了多种符号用于填写表格的内容。经过对多张样本的测试，本发明的方案可以对正常拍摄出现的表格倾斜情况进行很好的校正，对于表格结构也可以很完美的分割，对于表格内填写的内容也具有很高的识别率。本发明方案的运算量较小，因此分析的时间消耗也很少。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种手写表格的智能识别方法，其特征在于，该方法包括：

对拍摄到的手写表格图片进行预处理后，依次进行差分处理及霍夫hough变换，获得角度校正后的手写表格图片；

对所述角度校正后的手写表格图片进行分割，获得包含手写部分的若干个矩形区域；

基于特征或分类器对所述若干个矩形区域中内容进行分析与识别；

其中，对所述角度校正后的手写表格图片进行分割，获得包含手写部分的若干个矩形区域包括：

对角度校正后的手写表格图片进行多次竖直方向的差分处理，获得差分处理后的图片G1；对所述图片G1进行水平方向的投影，获得数组P1；分别从数组P1的开始处和结尾处往中间搜索，找到第一个大于width/2的极大值，并作为表格整体的上下边界，标记其位置为y0与y1；其中，width表示图片G1的宽度；

对角度校正后的手写表格图片进行水平方向的差分处理，获得差分处理后的图片G2；对所述图片G2进行竖直方向的投影，获得数组P2；分别从数组P2的开始处和结尾处往中间搜索，找到第一个大于height/2的极大值，并作为表格整体的左右边界，标记其位置为x0与x1；其中，height表示图片G2的高度；

利用获得的位置x0、x1、y0与y1分割所述图片G1，获得完整的手写表格图片G3；

根据先验知识，获得所述手写表格图片中需要人手工填写部分的行数L与列数C；对所述图片G3进行水平方向投影，获得数组P3，从后处往前查找，依次找出前L+1个值大于width/4的极大值并记录入数组Q1中；对所述图片G3进行竖直方向投影，获得数组P4，从后处往前查找，依次找出前C+1个值大于height/4的极大值并记录入数组Q2中；其中，所述数组Q1与数组Q2包含表格手写部分的所有直线位置，共L+1条和C+1条直线；对于手写部分的第i行与第j列，其矩形的四个点坐标为(Q1[i-1]，Q2[j-1])；(Q1[i-1]，Q2[j])；(Q1[i]，Q2[j-1])；(Q1[i+1]，Q2[j+1])；

对于手写部分的矩形分布，在四个坐标的基础上往里缩进n个像素点距离，依次提取出L×C个矩形区域G_ij。

2.根据权利要求1所述的方法，其特征在于，所述对拍摄到的手写表格图片进行预处理后，依次进行差分处理及霍夫hough变换，获得角度校正后的手写表格图片包括：

对所述手写表格图片灰度化后，使用最大类间差法得到全局阈值，并进行二值化后，得到图片F1；

对所述图片F1进行竖直方向的差分，获得差分处理后的图片F2：

F2(i,j)＝|F1(i+1,j)-F1(i,j)|；

利用hough变换对差分处理后的图片F2进行直线检测，获得图片F2中最长的N条直线的倾斜角度，并求得其平均值a；

利用双线性差值的方法对所述图片F1进行反方向旋转a度，得到角度校正后的手写表格图片。

3.根据权利要求1所述的方法，其特征在于，所述基于特征或分类器对所述若干个矩形区域中内容进行分析与识别包括：

对于手写符号，则通过分析符号的特征进行识别；

对于手写的文字内容，则利用支持向量机SVM分类器进行识别。

4.根据权利要求3所述的方法，其特征在于，所述利用支持向量机SVM分类器进行识别包括：

将根据训练样本所得到的网格特征和笔画特征放入SVM训练器内，根据填写内容的种类来训练，若填写内容只有两类情况，则直接来训练；若有k类情况，k>2，则每次取两种类别的样本作为正、负样本进行训练，共得到(k-1)×k/2个分类器；进行识别时，对每种类别设定一个计数器初始化为0，一次使用(k-1)×k/2个分类器进行识别，在分类器输出的类别对应的计数器加1，最后找出k个计数器中的最大值，其对应的类别即为最终识别结果。

5.一种手写表格的智能识别系统，其特征在于，该系统包括：

校正模块，用于对拍摄到的手写表格图片进行预处理后，依次进行差分处理及霍夫hough变换，获得角度校正后的手写表格图片；

矩形区域提取模块，用于对所述角度校正后的手写表格图片进行分割，获得包含手写部分的若干个矩形区域；

识别模块，用于基于特征或分类器对所述若干个矩形区域中内容进行分析与识别；

其中，所述矩形区域提取模块包括：

上下边界确定模块，用于对角度校正后的手写表格图片进行多次竖直方向的差分处理，获得差分处理后的图片G1；对所述图片G1进行水平方向的投影，获得数组P1；分别从数组P1的开始处和结尾处往中间搜索，找到第一个大于width/2的极大值，并作为表格整体的上下边界，标记其位置为y0与y1；其中，width表示图片G1的宽度；

左右边界确定模块，用于对角度校正后的手写表格图片进行水平方向的差分处理，获得差分处理后的图片G2；对所述图片G2进行竖直方向的投影，获得数组P2；分别从数组P2的开始处和结尾处往中间搜索，找到第一个大于height/2的极大值，并作为表格整体的左右边界，标记其位置为x0与x1；其中，height表示图片G2的高度；

手写表格图片获取模块，用于利用获得的位置x0、x1、y0与y1分割所述图片G1，获得完整的手写表格图片G3；

直线位置获取模块，用于根据先验知识，获得所述手写表格图片中需要人手工填写部分的行数L与列数C；对所述图片G3进行水平方向投影，获得数组P3，从后处往前查找，依次找出前L+1个值大于width/4的极大值并记录入数组Q1中；对所述图片G3进行竖直方向投影，获得数组P4，从后处往前查找，依次找出前C+1个值大于height/4的极大值并记录入数组Q2中；其中，所述数组Q1与数组Q2包含表格手写部分的所有直线位置，共L+1条和C+1条直线；对于手写部分的第i行与第j列，其矩形的四个点坐标为(Q1[i-1]，Q2[j-1])；(Q1[i-1]，Q2[j])；(Q1[i]，Q2[j-1])；(Q1[i+1]，Q2[j+1])；

手写部分的矩形区域提取模块，用于对于手写部分的矩形分布，在四个坐标的基础上往里缩进n个像素点距离，依次提取出L×C个矩形区域G_ij。

6.根据权利要求5所述的系统，其特征在于，所述校正模块包括：

二值化模块，用于对所述手写表格图片灰度化后，使用最大类间差法得到全局阈值，并进行二值化后，得到图片F1；

差分处理模块，用于对所述图片F1进行竖直方向的差分，获得差分处理后的图片F2：

F2(i,j)＝|F1(i+1,j)-F1(i,j)|；

倾斜角平均值计算模块，用于利用hough变换对差分处理后的图片F2进行直线检测，获得图片F2中最长的N条直线的倾斜角度，并求得其平均值a；

角度校正模块，用于利用双线性差值的方法对所述图片F1进行反方向旋转a度，得到角度校正后的手写表格图片。

7.根据权利要求5所述的系统，其特征在于，所述识别模块包括：

手写符号识别模块，用于对于手写符号，则通过分析符号的特征进行识别；

手写文字内容识别模块，对于手写的文字内容，则利用支持向量机SVM分类器进行识别。

8.根据权利要求7所述的系统，其特征在于，

所述手写文字内容识别模块，还用于对每一矩形区域G_ij进行滤波处理，提取出包含手写区域的最小矩形图片M0；若该图片M0的区域小于阈值，则判定该矩形区域G_ij中未填写内容；