通用表格识别方法
技术领域
本发明涉及一种识别方法,尤其是涉及一种在各类调查、测评、统计、选举工作中用于识别各种填涂表格的方法。
背景技术
随着社会的信息化和经济社会的不断发展,人们面临着越来越多的填涂表格的处理,特别是在各类调查、测评、统计、选举工作中,传统的人工对各种填涂表格的处理方法在时效性和准确性方面已经不能满足现实的需要。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种通用表格识别方法,利用扫描仪和计算机,能快速、准确地对各种填涂表格进行识别,并将识别结果保存在计算机中,供用户随时、方便地作进一步的统计分析和处理。
本发明解决其技术问题所采用的技术方案是:一种通用表格识别方法,包括以下步骤:
第一步,用扫描仪将各种样表扫描成图像文件存储在计算机硬盘中;
第二步,制作表格模式文件:装载计算机硬盘上存储的样表图像文件,制作各种类型的表格模式,并以mod格式保存表格模式文件:
首先装载计算机硬盘上存储的样表图像文件,并将图像在界面上显示出来;
图像装载完成后,通过软件使计算机自动生成与装载图像文件数量一致的页面树形列表,使得点击树形列表的每一个页面项即可以显示该页面的图像信息;然后采用如下步骤制作各页面的表格模式:
第一个步骤是指定定位块,具体方法是使用框选工具在表格图像中框选任意的文字,选定以后通过软件将被框选的图像内容剪切、显示出来,并提示用户录入该表格的类型标示名称;
第二个步骤是指定该表格需要识别的区域,运用标记块自动搜索技术,自动搜索样表中指定区域内所有的标记块,获取每一个标记块的关键信息,并与基准定位点坐标通过坐标换算得到每一目标标记块的相对坐标,以上这些信息都作为模式信息存入表格模式文件中;
表格模式制作完成以后,通过软件使计算机自动生成对应的、用于记录表格识别结果的Excel文档;
第三步,用扫描仪将填涂完成后的每一份统计用表扫描成图像文件存储在计算机硬盘中;
第四步,表格识别及识别结果保存:
首先需要装载第二步制作的表格模式文件和该模式文件对应的Excel文档,然后通过识别向导从计算机磁盘文件中选择需要进行识别的表格图像文件列表,对列表中的每一份待识别表格图像文件进行识别处理,并将识别结果以字符串形式输入Excel文档表格中。
在第二步所述的装载样表图像文件时,可以通过在每一个样表上设置区别于其他样表的、表示其表格类型的任意字母或文字,来实现一次装载多幅样表图像文件。
在第四步所述的对每一份待识别表格图像文件进行识别的步骤如下:
(1)首先使用表格模式中的所有表格标志块模板对待识别图像进行模板匹配与识别,根据匹配和识别结果判断表格图像的类型以及正反倒顺的方向信息,若表格图像的方向不是标准方向时,则需运用旋转算法将表格图像调整到标准方向;
(2)然后识别和计算该表格图像中的表格标志块在图像坐标系中的绝对坐标,将该坐标作为基准定位点坐标,并与该表格类型模式中的每一个目标识别区域的相对坐标进行坐标换算,以得到该图像中所有目标识别区域在图像坐标系中的绝对坐标;
(3)按照顺序对每一个目标识别区域进行图像识别,判断其填涂情况,并根据填涂情况生成字符串;
(4)将生成的字符串存入Excel文件对应的表格页面中。
当统计用表是全黑白时,则运用标记块智能识别技术,在模式制作过程中,自动获取标记块的边框及内部的符号信息,并在识别过程中将目标图像中的边框及内部符号信息进行消除操作,只保留用户的填涂信息;在此基础上再进行标记块是否填涂的判断。
与现有技术相比,本发明的积极效果是:集实用性和灵活性于一体,大大简化人们的文档处理手段,提高表格分析的效率,具有非常广阔的应用前景,具体表现在:
1、最方便的表格制作:根据输入表格图像迅速确定阅读范围,模板制作方便,纸张适应范围广。
2、最精确的信息提取:快速捕捉待处理图像中的标记(Mark)信息块,并以字符串的形式给出精确的识别结果。
3、最灵活的功能扩展:根据用户需要灵活设置表格样式,实现任意规则的表格数据提取和统计分析。
4、最简单的运行维护:只需一名操作人员即可完成整套系统的所有操作。
5、适用范围广,能应用于各类调查、测评、统计和选举工作。
6、表格设计灵活,制作方便,设计好后用普通打印机打印出黑白表格即可正式使用,用户只需在相应的选项上进行简单填涂,系统即可有效识别。
7、支持票种标志设置,轻松区别各类选票。用户可根据实际需要设计多种选票,并最终生成一个模板文件。识别时调用该模板文件,即可通过不同的票种标志,得出不同选票的结果。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明方法的流程图;
图2是填涂后的统计用表示意图;
图3是测评结果示例。
具体实施方式
一种通用表格识别方法,如图1所示,包括如下步骤:
第一步,用扫描仪将各种样表扫描成图像文件存储在计算机硬盘中;
第二步,制作表格模式文件:装载计算机硬盘上存储的样表图像文件,制作各种类型的表格模式,并以mod格式保存表格模式文件。
首先装载计算机硬盘上存储的样表图像文件,并将图像在界面上显示出来。在装载图像文件时可以一次装载多幅样表图像,前提条件是每一个样表上都有区别于其他样表的、表示其表格类型的任意字母或文字。
图像装载完成后,通过软件使计算机自动生成与装载图像文件数量一致的页面树形列表,点击该树形列表的每一个页面项即可以显示该页面的图像信息。然后就可以制作该页面的表格模式了。
现有技术中,通常的表格模式制作需要采集3个方面的信息:
1.表格的类型信息:若要实现在同一次识别过程中同时混合识别多种表格,则必须提取表格的类型信息用以在识别过程中区分不同的表格类型。通常的表格模式制作方法需要在不同的表格中加入特殊的符号信息(字符、图形组合、条码),以此来区分不同的表格。
2.表格正反倒顺标志信息:由于在实际表格识别的过程中,一般情况下要保证所有表格图像的正反倒顺方向一致是比较困难的,因此需要识别系统能够自动识别表格图像的方向信息。这也就需要表格模式中提供表格正反倒顺的标志信息以便在识别过程中能够自动识别。通常的表格模式制作方法需要在表格中加入多个特殊符号用于表格方向的判别。
3.表格目标识别区域坐标:在正式填涂用表的制作过程以及表格图像采集过程中存在一定的差异性(打印、印刷、扫描仪走纸系统存在差异),使得每一张表格图像中需要识别的目标区域在表格图像坐标中的绝对位置存在一定的差异,而目标区域相对于表格图像中某一点的相对坐标通常情况下是不会改变的,因此通常不会直接使用目标区域绝对坐标作为识别过程中的定位依据,一般是通过在表格中选择一个基准定位点,然后记录表格中所有目标区域相对于该基准点的坐标。在识别过程中首先搜索基准定位点,然后再通过各目标区域的相对坐标换算出目标区域在实际表格图像中的绝对坐标,从而实现精确定位。通常的表格模板制作方法一般是首先指定某一位置上特殊的符号作为基准定位点,并通过手工描边的方式记录该定位点的具体坐标;然后再通过描边的方式勾画出每一个目标识别区域的位置;最后通过坐标换算计算出每一个目标识别区域相对于基准定位点的相对坐标,并记录到表格模板文件中。
综上所述,现有技术中,一般的表格模式制作方法有以下两个特点:
1.需要在表格上设置多个特殊符号以用于分别实现对表格类型的判定、表格正反倒顺方向判定、基准定位点的设置和判定,这就对表格的设计提出了一定的要求,无法实现对任意表格的识别。
2.需要操作人员以手工描边的形式采集每一个基准定位点和目标识别区域的坐标信息,当表格中目标识别区域较多的时候这种做法会极大地增加操作人员的工作量和模板采集出错的概率,效率十分低下。
本发明针对这两个问题进行了改进,本发明当中的表格模式制作分为两个步骤:
第一个步骤是指定定位块,具体方法是使用框选工具在表格图像中框选任意的文字,选定以后通过软件将被框选的图像内容剪切、显示出来,并提示用户录入该表格的类型标示名称。该步骤完成以后即会同时完成三方面信息的收集:表格类型信息、表格正反倒顺标志信息、表格的基准定位点。在这个步骤中本发明运用了自由模板提取与识别技术,将各种样表当中的任意区别于其他样表的字符、图形等元素作为表格标志提取并保存下来,作为对该表格类型的判别依据,以供表格识别过程中对被识别的表格图像进行模式识别与匹配,并判断该被识别的表格属于哪一类表格;同时该标志在表格中所处的位置也作为表格正反倒顺标志信息保存到表格模板中;该标志的中心点坐标作为表格基准定位点保存到表格模板中。
表格模式制作的第二个步骤是指定该表格需要识别的区域,在这一步骤中本发明运用标记(Mark)块自动搜索技术,自动搜索样表中指定区域内所有的标记块,获取每一个标记块的绝对坐标、大小等关键信息,并与基准定位点坐标通过坐标换算得到每一目标标记块的相对坐标,以上这些信息都作为模式信息存入表格模式文件中。标记块自动搜索技术的引入大大简化了模式制作的操作过程,使用者不需要指定定位信息,也不需要勾画每一个Mark块,只需要在界面中指定需要搜索Mark块的区域即可以获取该区域中所有Mark块的模式信息。
表格模式制作完成以后,通过软件使计算机自动生成对应的、用于记录表格识别结果的Excel文档。在初始状态下该Excel文档仅包括用于存储表格模式中每一个表格结果信息的页面。用户可以在该文档中添加用于计算、统计的页面,并设置相应的公式或宏,以便在识别过程中可以实时计算和统计表格结果。
第三步,用扫描仪将填涂完成后的每一份统计用表扫描成图像文件存储在计算机硬盘中;
表格的填涂方式如图2所示。表格填写简单,只需涂黑相应选项,系统即可精确识别,并以字符串的形式给出结果。
第四步,表格识别及识别结果保存
首先需要装载第二步制作的表格模式文件和该模式文件对应的Excel文档,然后通过识别向导从计算机磁盘文件中选择需要进行识别的表格图像文件列表,对列表中的每一份待识别表格图像文件进行识别处理,并将识别结果以字符串形式输入Excel文档表格中。
对每一张表格图像的识别步骤如下:
1.首先使用表格模式中的所有表格标志块模板对待识别图像进行模板匹配与识别,根据匹配和识别结果判断该表格图像的类型以及正反倒顺的方向信息,若该图像的方向不是标准的方向,则还需要运用旋转算法将图像调整到标准方向。
2.然后识别和计算该表格图像中的表格标志块在图像坐标系中的绝对坐标,将该坐标作为基准定位点坐标,并与该表格类型模式中的每一个目标识别区域的相对坐标进行坐标换算,以得到该图像中所有目标识别区域在图像坐标系中的绝对坐标。
3.按照顺序对每一个目标识别区域进行图像识别,判断其填涂情况,并根据填涂情况生成01字符串(其中0表示该目标识别区域未填涂,1表示该目标识别区域已填涂),如在图2所示表格中,填涂项为D,则输出结果为“0001”;填涂项为C,则输出为“0010”,填涂项为B,则输出结果为“0100”;填涂项为A,则输出为“1000”。若未填涂,则输出为“0000”。通常情况下对于这种Mark块的识别都是通过对污染率的计算来实现的,而一般的表格其目标识别区域(Mark块)都有边框,甚至边框内还有相应的选择性说明等字符,边框和字符形成图像以后会对识别造成较大的干扰,通常的做法是使用彩色的选票,将Mark块边框及内部的字符设置为彩色(多为红色或绿色),然后通过单色扫描仪在图像采集过程中将彩色滤掉,只保留黑色和白色信息。从而消除Mark块边框和其内部字符对识别的影响。但是这种传统方法又给用户的使用提出了要求,即必须使用彩色表格,不能使用黑白表格。为了表格打印的方便性(可以直接使用黑白打印机),本发明允许使用全黑白的统计用表,当统计用表是全黑白的情况下,由于每一个被识别的标记块的边框和内部的符号标识都将对标记块是否填涂的判别产生直接的影响。为了最大限度地消除这些影响,本发明运用标记块智能识别技术,在模式制作过程中,自动获取了标记块的边框及内部的符号信息,并在识别过程中将目标图像中的边框及内部符号信息进行消除操作,只保留用户的填涂信息。在此基础上再进行该标记块是否填涂的判断。这样就最大限度地消除了Mark块边框及内部符号信息对识别的影响。
4.将生成的01字符串存入Excel文件对应的表格页面中。
将表格识别模块输入的识别结果直接保存在Excel文档表格中,供用户进行进一步统计分析或进行二次开发:用户既可以提前在Excel文档中设置计算统计公式,当表格识别结果输入Excel文档后即实时完成自动计算和统计,并输出最终用户报表;同时用户也可以直接将保存的识别结果的Excel文件作为数据源进行二次开发,以便对表格识别结果进行计算和统计。
图3即是经过EXCEL表格对识别结果进行统计分析后,最终的测评结果示例。