光学扫描表单识别及更正方法
本发明涉及一种光学扫描表单识别及更正方法,更精确地说,为一种高效能的人工校正表单字元栏位内被拒认字元的方法。
许多商业及政府单位均需处理手写资料的表单,有许多方法可以将该资料收取、处理并予以储存。举例来说,可利用图像扫描装置及光学字元辩识技术抽取出表单上的印刷或手写资料。表单图像本身可以经由照相产生微缩单片或微缩影片,或利用光学扫描而产生图象储存于硬盘或其它电子储存媒体。图象扫描装置与光学字元辩识(OCR)技术均为习知技术。一个已知的改良型OCR装置已在08/489,945号专利中公开。
图1一个OCR系统50的方块图,可为本发明采用。系统50包括纸张输送系统51。纸张输送系统51将表单沿着箭头方向通过光学扫描器(“OCR扫描器”)52。一个OCR扫描器的较佳实施例52利用激光照射该表单,并利用例如电荷耦合元件CCD的储存元件产生该表单的二维图象。此扫描器可产生每个像素非逻辑“1)即逻辑“0”的二维图象。一种OCR扫描器52的型号为TDC2610W,由公司Terminal Data Corp.所制造。
扫描器52可与处理器54(例如,一个一般用途的电脑或是一个特殊用途的硬件处理单元)连接。处理器的硬件单元可以是光学处理单元或电子处理单元),例如电阻求和网络“Resister Summing Network”及数字逻辑线路。该处理器可包括一微处理器56、一个屏幕或监视器58、一个键盘或其它输入装置60。处理器54可包括一个存储装置62储存扫描后的文件图象。该存储装置可为硬件、随机存储器RAM或其它存储装置。
欲辩识的表单先用图象扫描器52阅读。表单内的信息可由栏位提供(例如,“姓名”栏、“地址”栏等)。在扫描表单前,处理器54已先“学习”过手写地址被预期会出现在一特殊表单的特殊位置(例如美国专利申请案号08/489,945)图象的信息经处理器54处理,在处理过程中,表单图象及字元识别信息可在屏幕58上显示。
一个字元辩识系统往往无法保证识别无误,特别是在识别手写字元时,识别错误无法完全避免。因此,人工更正(由操作人员执行)势在必行。某些典型的字元识别系统往往拒认了草或不合法的字元。当拒认与误认字元大幅增加后,对资料更正率来说,自动系统比一般人工登录系统更为重要。因此,一个光学字元识别系统最好能提供一套有效的更正无法识别字元的方法。
被识别的表单可分为以下三类:
1、完全正确:表单内每个字元都可识别且每个栏位均通过后处理检查,例如字典检查(识别栏位是否符合字典中的字)、文法检查(识别栏位是否符合预设的文法)等。识别后不需任何人工更正,即使有任何错误也是因系统隐藏的错误造成而无法更正(例如:字元识别错误却同样通过后处理检查)。一个实用系统隐藏的错误必须低于人工登录系统造成的错误。
2、屏幕更正:表单识别后需经人工屏幕更正。当某些字元被拒认或栏位内的字元均可识别但未通过完整性检查,则表单必须经人工更正。
3、整张拒认:当表单内太多字元无法识别(例如,由于扫描品质太差、表单错误或书写笔迹了草)整张表单即被拒认,此时所有表单上的字元均须由人工输入。
光学扫描系统OCR装置通常包括一个可在电脑屏幕上显示被拒认文件,并允许操作员输入正确资料的屏幕编辑功能。一般说来,当有拒认字元发生时,整张表单或整张表单的一部分(或一块)图象会显示在屏幕上,以便操作人员在输入资料时不用再参考原始表单。这种作法在处理较小量的文件时是可行的。然而,当有大量的文件,例如数百万的字元需要数十个资料输入人员输入时,这种作法效率甚低,因为无论拒认字元多寡,整张表单都会被显示在屏幕上。因此,即使只有一个拒认字元发生,整张表单图象仍会显示在屏幕上,如此造成减缓OCR处理速度。
光学字元识别系统存在某些相关的问题。例如,美国专利5,251,273号(Betts等)提出一个数据处理系统及方法,依序更正扫描识别表单后产生的错误。此参考例所提出的装置中包含三个识别资料更正处理器,即(1)人工智慧处理器(2)资料库检错处理器(3)人工验登与更正处理器。一种机器产生的资料结构记录识别结果及更正历史,并将其陆续传递至每个处理器。当人工智慧与数据库错误更正处理器处理完成后,工作站屏幕上会显示栏位图象供人工更正。
美国专利5,305,396号(Betts)提出一数据处理系统与方法,可针对不同客户表单选择字元识别流程以及识别资料更正流程。此参考例提出在识别前输入一表单模版,该模版内含根据客户需求而设的系统操作参数,在大量识别前系统须先阅读该表单模版。
美国专利5,235,654号(Anderson等)提出一进步的资料拾取数据处理系统,处理扫描后的表单图象。其内容为一个可以产生新表单做自动处理的系统。
美国专利5,153,927号(Yamanari)提出一字元阅读系统与方法,该专利提出一个字元阅读系统,该系统允许使用者准备一个使用者特殊处理程序,系统不需知道该处理程序的规格。该专利提出两个处理区段,即标准处理区段以及使用者自订处理区段。该使用者自订处理区段允使用者任意设定其希望检查的拦位,而不影响标准处理区段。
美国专利5,233,627号(Yamanari等)提出一个附有特殊更正功能的文字识别器,该专利揭露一种字元阅读装置,可避免在屏幕显示包含拒认字元的图象时,遮到原始的表单图象。
美国专利5,123,062号(Sangu等)提出一个整张扫描文件图象的屏幕显示布置方式,并显示识别过程中得到的识别结果。
本发明的主要目的在于提供一种有效的光学扫描表单识别方法。
本发明的另一目的在于提供一种具有容易了解屏幕布置方式的光学扫描表单识别方法。
本发明的目之三在于提供一种只在屏幕显示表单被拒绝接受部分的屏幕表单识别方法。
本发明的目的之四在于提供一种可同时编辑许多扫描文件的屏幕表单识别方法。
为达到本上述目的,本发明采取以下措施:
本发明的一个较佳实施例提出一个光学扫描表单识别流程,其中包括高效能且仅在有需要时才实施的人工更正。该流程依工作的复杂度依序执行,在此较佳实施例中,先做字元更正,再做拦位更正,最后更正整张表单。在更正字元时,通常先将自不同表单中得到的字元收集集中,再同时显示在屏幕上。
当文件扫描识别后,会被区分为完全正确、屏幕更正,或拒绝接受。完全正确的文件被储存;拒绝接受的文件需逐张更正;来自同一张或不同张表单的被拒认字元(包括英文、数字、日本字、汉字等)经集中后显示的电脑屏幕上供更正用。在较佳实施例中,这些字元依大小或图像密度排列,并对齐一固定中心线或中心点。经过安排及对齐后这些被集中的字元看来更清晰不致混淆。
当字元更正完毕后,进行拦位整体性检查,例如,检查邮递区号是否与地址彼此正确匹配,或是利用数学公式检查数字栏位。若栏位未通过整体性检查,整栏资料将显示的屏幕上供操作员输入正确的文字串,之后再执行整体性检查。如果仍未能通过,该拦位的属性信息将被醒目地显示,或与相关栏位同时显示。
当表单中所有的栏位均校正后,正确的数据储存于数据库中。如果表单不能通过字元更正或栏位更正流程,整张表单将被拒绝接受并显示在屏幕上供人工更正,之后如果该表单仍未能完全更正正确,该表单将被拒绝接受。
结合附图及实施例对本发明的特征详细说明如下:
附图说明:
图1为光学扫描装置的电路方块图。
图2为本发明的编辑流程图。
图3为本发明中字元更正屏幕显示方法的流程图。
图4为字元更正时的一个屏幕显示布置示意图。
图5为字元更正屏幕显示范例。
图6为拒认字元依大小重排并对齐的屏幕显示范例。
图7为本发明中栏位更正方法的流程图。
图8为栏位更正时的一个屏幕显示布置示意图。
图9为栏位更正屏幕显示范例。
图10为相关栏位及误认可能位置的栏位更正屏幕显示范例。
如图2所示,其为本发明中较佳的屏幕更正方法流程100。待扫描表单置于送纸系统51并通过光学扫描器52,扫描图象被送至处理器54(步骤102),表单经识别后被转换成中间档(待更正的表单图象及资料的合并档案)并被分类为“完全正确”(自动识别),“屏幕更正”或“拒绝接受”表单(步骤104)。如果表单中每个字元均可识别(无拒认字元)且每个栏位都通过整体性检查(将于以下详述),则表单被归类为“完全正确”,该正确表单不须任何处理即可储存于数据库(步骤122)。
包括拒认字元或栏位的表单被归类为“屏幕更正”。本发明所涵盖的字元定义甚广,包括例如数字、英文、日本字、汉字等。如果字元被拒认,它们会被送到人工更正处理进行字元更正(步骤108);此时(1)需人工更正,但无拒认字元的表单,以及(2)经字元更正处理过的表单,进行整体性检查(步骤110),如果表单未通过检查,则执行栏位更正(步骤114),如果表单内每个栏位都通过整体性检查,则表单数据即可储存于数据库(步骤122)。
栏位更正后的表单再予整体性检查(步骤116),未通过检查者(例如,因书写质量太差,笔迹歪斜或太轻以致OCR装置无法正确处理)继续执行表单人工更正(步骤118),此时表单上所有的资料均由人工重新键入。
如果整张表单经更正后可接受(亦即操作员可更正所有的错误),表单图象即存入数据库(步骤122),否则,整张表单拒绝接受(步骤124)。储存于数据库中的表单数据及图象以后可以搜寻、排序或做其它用途。
字元更正:为了执行字元更正,监视器58将无法识别的字元显示的屏幕上。显示的字元可来自不同的表单(例如,批次扫描的表单(见图2,步骤106、108)如此将可允许同时更正许多表单。更正员可使用键盘60更正无法识别或错误的字元。
当既定数量(一批)的表单扫描识别后,无法识别的字元图象将会储存在储存器62中。通常图象会伴随标示储存,例如文件及地址的标示。根据特定文件、特定地址的拒认字元地址即可找出,拒认字元会显示在监视器58上。
当识别过程结束后,无法识别的字元需由人工更正。本发明的较佳实施例可在屏幕58上显示一列无法识别的字元。为了降低质量不佳字元的影响,本发明(1)依对齐原则安排字元;(2)根据字形大小,如由小到大由大到小,重排字元顺序;(3)依笔迹深浅,如由深至浅,或由浅到深排列字元;(4)将数字与英文字元分别显示。其中第四项作法可避免诸如数字“0”与英文字母“O”及“D”的混淆。
如图3所示,其为较佳实施的字元更正屏幕显示方法200的流程图。首先针对表单图象(步骤202),为避免混淆,数字图象与英文字母图象分开处理(步骤203),若所有字元都可识别(步骤204),则处理下一张表单(步骤206)。如果有无法识别的字元(步骤204),则其图象会被搜集储存在存储器62内,此外一些指示信息,例如批次序号、表单编号及字元位置等,也一并储存。当所搜集的拒认字元图象数目与可在一个更正屏幕上显示的字元数目相同时(步骤210),即开始整理字元图象。例如,欲将字元以相同大小显示时(步骤212),可将字元图象正规化并根据图象密度(深度)安排字元位置。首先,将字元图象按其宽度及高度近似(步骤214),此目的可用任何常见的图象正规化方法达到。然后根据传统方式计算图象密度(例如计算单位面积内的黑点数)(步骤216),再依顺序重排图象(步骤218)。如果不根据字形大小显示拒认字元图象(步骤212),也可根据字形大小顺序重排图象(步骤220)。由发明人所做的实验显示操作员根据图象密度或大小重排后的字元都更易判断。
当根据字元图象密度或高度重排后,再将其对齐。首先在待显示字元上寻找中心点做为基准中心点(步骤222),然后,决定基准线(步骤224)。例如,可用垂直或水平线对齐字元中心,或用水平线对齐字无底线,之后,再显示在监视器58上(步骤226)。更正人员可利用输入装置60,如键盘或鼠标器,输入正确字元。上述程序可针对不同类的字元重复执行(例如当英文字母完毕后,对数字重复执行)。
如图4所示,其为字元更正的一个描述屏幕显示布置250。监视器58其屏幕安排250区分为上半显示区252、下半显示区254,以及档案标示区256。252以及254显示区分别再区分为两段,一为图象区258、260,一为字元区262、264。图象区258、260显示拒认字元图象字元区262、264,其包括一块显示识别及更正结果的区域供更正人员操作。档案标示区256显示字元图象相关信息,例如批次号码。
图5为字元更正屏幕显示范例250′,其中上半部显示区域252′包括图象显示区256′及字元显示区262′,下半部显示区域254′亦包括一图象显示区258′及字元显示区262′。档案标示行264′则标示柜认字元来自的档案。游标266′亦被显示出。每一拒认字元被框格268′包围,框格下的线170′则指示输入正确字元之处。
图6显示同一字元更正屏幕250″,其中显示的拒认字元是由小到大并对齐字框下缘而排列(图5中字元是根据字元几何中心而排列)。对大部分旁观者而言,图6中的字元显示方式较图5的方式更易于了解。当字元更正后,因有档案标示使更正结果很容易与原档案合并。
在较佳实施例中,字元更正依下述方式执行。首先,一批表单由扫描器52读取。所谓一批,指固定数目的表单,例如500张。如此,程序中设定参数Files PerBatch=500,并产生下述批次号码:
批次号码 |
档案号码 |
0 |
00001-00,500 |
1 |
00501-01,000 |
*** |
*** |
10 |
05,001-05,500 |
*** |
*** |
19 |
09,501-10,000 |
更正人员先输入批次号码-Batch No.’各批次中的所有拒认字元依上述方式显示。更正人员视察拒认字元后,利用输入工具如键盘或鼠标器60输入正确字元。一较佳实施的按键定义如下:
资料 |
按键 |
一般英文字母 |
键盘上的字母键 |
一般数字 |
键盘上的数字键 |
跳页 |
按″Enter″或″;″ |
无法识别字元 |
用Space Bar删除 |
无法识别的字,或在一个更正位置包含两个以上的字元以致无法更正,可用Space杆删除这些字元。含有无法识别字元的栏位将无法通过栏位处理,此时整个栏位(而非单一字元)应被更正。
栏位更正:当表单字元更正完成后,此时验证栏位内容的整体性看栏位内容是否“合理”。栏位更正对象包括(1)没有拒认字元,但至少有一个栏位未能通过栏位整体性检查的表单;(2)含可更正的拒认字元,但仍未能通过栏位整体性检查的表单(见图2,步骤110、114),或(3)含有误认字元(例如,2个字元被视做一个字元)。一般常用的整体性检查,包括字辞后处理及栏位检查字辞后处理,比较栏位输入内容与储存在例如存储器62内的已有数据。举例来说,辞库可包括一地理区域内许多城市、乡镇、道路名称分段、门牌号码等。经辨认后产生的辞与原先储存的辞比较以决定识别的正确性。例如可利用城镇、都市名称及对应的邮递区号的信息,检查栏位是否识别正确。
栏位检查功能可检查出一个栏位内或数个栏位间所有字元的值域,以及是否满足一已定义的关系。举例来说,如果预期栏位C的内容是栏位A与B内数字的差值(即C=A-B),栏位检查功能可利用例如微处理器56计算栏位A识别出的数字与栏位B识别出的数字的差值,看是否与栏位C所识别出的数字相等。若不相等,则A、B、C三栏的识别结果必有不正确者。由于错误可能发生在一个或多个栏位内,因此三个栏位都被拒认而需做栏位更正。
为避免更正人员混淆,更正时一次仅在屏幕上显示一个栏位或一组相关栏位的资料,如下所述,当栏位更正后,再执行一次栏位整体性检查。
图7为本发明的较佳实施的栏位更正方法300的流程图。扫描图象经由例如处理器54进行字辞后处理或栏位检查(步骤302)。该栏位不用再做栏位更正,而进行下一个栏位的处理(步骤318)。如果栏位未通过整体性检查(步骤304),需进行栏位更正,栏位将被显示在监视器58上(步骤306)。如果该栏位是第一次更正,(步骤308),更正人员使用输入装置60,如键盘或鼠标器更正栏位(步骤316),经更正后的文字串再经整体性检查(步骤318)。
如果该栏位并非第一次更正(步骤308),则此时需视其为独立栏位或与其余栏位相关(步骤310),亦即该栏位错误是否肇因于其他栏位的错误?若答案是肯定的,则它属于相关栏位,若答案是否定的,则它属于独立栏位。举例来说,如果该栏位为两数字的差值(例如A-B=C),则差值的错误可能来自相减两数本身的错误或相减结果的错误。如果该栏位为相关栏位,则该栏位会与其余栏位同时显示在屏幕上(步骤314),错误位置亦会显示的屏幕上。举例来说,如果输入是:
则错误可能发生在第三列左起第三行的位置。错误可能发生在任何一个栏位,很可能第一个数字或最后一个数字输入错误。可能是输入错误的字元会利用例如改变字元位置背景颜色的方式来标示出。
当只有一个错误发生时,利用十进位制的“进位”与“借位”演算可很容易地指出错处。附录A为较佳实施例的虚拟程序码,其中方程序A-B=C中的字元错处被标示出且背景以红色显示。
前述相关栏位的更正亦一并指出。如此更正人员可判断错误是由更正错误造成,是由更正后反使相关栏位错误而造成。如果该栏位为独立栏位,则栏位名称被标出(步骤312)。
当栏位显示后不论其为单独显示或与其余栏位同时显示,更正人员输入更正字串(步骤316)。此时再检查栏位整体性(步骤318)。如果未通过,须再更正一次(步骤308-318)。如果通过了(步骤318),则再检查是否整张表单中每个栏位都通过字辞后处理或栏位检查(步骤320)。如果并非所有的栏位都通过,则继续处理下一栏位(步骤322)。如果都通过了,则该表单栏位检查即结束。如果并非所有批次表单都经过栏位检查,则开始下一张表单的栏位检查(步骤326)。如果该批次中每一张表单都已经栏位检查(步骤324),则栏位检查程序全部执行完毕。
图8为栏位更正过程中的一个屏幕显示布置350的示意图。在本发明较佳实施例中,监视器58可显示如图8所示的屏幕布置350。屏幕350内含显示区域352,档案指示区域354,以及相关栏位显示区域356。显示区域352,再分割为两块,一块为图象区域358,一块为字元区域360。图象区域358显示拒认栏位图象。字元区域360包括一块空域供显示待更正字元串。档案标示区域354显示栏位信息,例如拒认栏位的数目。相关栏位显示区域356显示未通过整体性检查的相关栏位(例如不正确的数字输入或邮递区号)。更正人员可标示出栏位中可能错处的位置。在较佳实施例中可能的错误位置会用不同的背景或文字颜色标示。
图9为显示独立的拒认栏位的更正屏幕显示350′(亦即该栏位与其他栏位无关)。显示区域352′包含一图象显示区域358′及一字元显示区域360′。档案指示行354′指出拒认字元串出自某个档案的某个栏位。游标362′亦显示在屏幕上。拒认栏位图象包含在框架364’内。框架下有数行366’可输入字元串。
图10为显示与其余栏位相关的拒认栏位的更正屏幕显示350”的示意图。相关栏位显示区域356″显示相关栏位并标示错误可能发生处。图象显示区域358″一次显示一个可能错误的栏位。栏位标头368″提示更正人员某个拒认栏位正被显示(例如,此处为“A”栏)。
在一较佳实施例中,栏位更正流程如下:有错误的栏位显示在监视器58上。更正人员使用如键盘、鼠标器等输入装置60输入正确字串。当栏位更正完后,更正人员要求更正下一个栏位。如果更正后的栏位仍未通过整体性检查,系统将通知更正人员屏幕不会进行到下一个栏位。该通知可能是“哗”一声、一个屏幕信息,或其余指示。游标将回到栏位的第一个字元。如果同时有数个栏位拒认,游标会回到第一个栏位的第一个字元处。
下表为较佳实施例对按键的定义:
资料 |
按键 |
无法识别字元串 |
在整个栏位中输入″9″(例如:9999999…) |
不合理的字元串 |
Escape键 |
多余的字元 |
用Space键删除 |
其中,无法识别的字元串意指更正人员无法清楚阅读致无法更正的图象。这些栏位可输入许多9以取代。不合理的字元串意指更正人员可清楚阅读但并不符合该栏位语法的图象。例如,应为英文字母的字元串中发现数字字元。
综上所述,本发明具有如下效果:
本发明中更正人员首先执行工作量最小的工作,即更正一张或多张文件中的拒认字元。亦即先视察、更正个别的字元而非栏位或整张表单。此外,更正字元后可增加栏位与表单通过整体性检查的可能性。如此,人工更正过程会因同时处理数张表单,可提高效率。
将拒认字元依大小或图象密度的顺序重排后再显示,可使更正人员更清晰易读,如此可提高效率及正确性。栏位更正可判断栏位错误是否与其余栏位相关。此时相关栏位都会显示在屏幕上。
本发明方法经数位资料输入操作员测试过。数批500张表单(每张表单大约有35个字)由操作人员利用先前技艺的方法及本发明方示执行更正。利用先前技艺的方法,资料输入操作员处理一批资料约需65分钟,利用本发明方法只需约18分钟。如此本发明方法的速度较先前技术提高约2.6倍。