针对上述问题,本发明的目的为提供一种名片自动识别方法与系统,其可自动识别名片上所记载的资料,并可将其分类储存,以克服名片资料输入上的不便。
为达上述目的,本发明提供的名片自动识别方法,包括一影像输入程序、一版面影像分割程序、一字符识别程序以及一资料分类程序模块。影像输入程序取得名片的版面影像,版面影像分割程序将版面影像分割成多个区块影像,并判别版面影像所属的样板类型,字符识别程序将各区块影像识别为对应的文字资料,资料分类程序则分析文字资料以便分类储存。
本发明亦提供一种名片自动识别系统,包括一影像输入装置、一处理单元以及一储存装置。影像输入装置读取名片的版面影像,储存装置储存版面影像,处理单元则执行一将版面影像分割成多个区块影像的版面影像分割程序,一将各区块影像识别为对应的文字资料的字符识别程序,与一分析文字资料的资料分类程序。
另一种依本发明的名片自动识别系统包括一影像输入装置、一版面影像分割装置、一字符识别装置以及一储存装置。影像输入装置读取一名片一版面影像,储存装置储存版面影像,版面影像分割装置将该版面影像分割成多个区块影像,并判别该版面影像所属的样板类型,字符识别装置则将各区块影像识别为对应的文字资料。
依本发明的名片自动辨识方法与系统,使用者可更为便利地将名片上的资料输入至各种电子装置中,因此解决了传统名片资料输入不便问题。
以下将参照相关附图,说明依本发明较佳实施例的名片自动辨识方法与系统。其中相同的元件与步骤将以相同的参照符号表示。
图1为本发明较佳实施例的名片自动识别方法的流程图;
图2显示了储存名片原始影像资料的像素矩阵的示意图。
图3为显示本发明的发明人对名片版面的配置统计结果的示意图。
图4为显示依本发明较佳实施例的名片自动识别方法中,版面影像分割程序的流程图。
图5(A)为显示一对像素矩阵进行横向投影的例子的示意图。
图5(B)为显示一对像素矩阵进行纵向投影的例子的示意图。
图6为显示依本发明较佳实施例的名片自动识别方法中,对识别后的文字资料进行资料分类程序的结果的示意图。
图7为显示依本发明较佳实施例的名片识别系统的架构的示意图。
请参照图1,本发明较佳实施例的名片自动辨识方法1先对名片进行影像输入程序11,以取得名片的版面影像,再进行版面影像分割程序12,以将名片的版面影像分割成几个区块影像。接着,进行字符识别程序13,将各个区块影像识别为文字资料。然后,进行资料分类程序14,对字符辨识程序I3所得的文字资料加以分析,以便分类储存。以下将对名片自动识别方法1中的各程序进行详细说明。
在影像输入程序11中,先取得一名片的原始影像资料,并将原始影像资料如图2所示,以二级灰阶格式的像素矩阵的形式储存。在图2中,(xm,yn)表示影像中各像素的座标位置,Pmn(xm,yn)则表示该像素的有或无。
接着进行版面影像分割程序12,将名片的版面影像先分割为多个区块影像,以便进行后续的字符识别程序13与资料分类程序14。
关于名片的版面配置,本发明的发明人在分析过500张不同的名片后发现,相对于普通文章的版面,名片的版面配置有其与众不同的特征。首先,名片上面的各种资料多半会互相以较多的空白来分隔,因此,可以将名片的版面配置分成不同的区块,如单位名称区块、姓名区块、职称区块或地址区块等。再者,各区块的配置具有规律性。例如,姓名区块常与职称区块放在一起,地址区块多半位于名片的下半部,单位区块则多半位于名片的上半部。此外,名片为了美观,还可能印有其它装饰性的要素,例如单位的商标或分隔用的水平线等。
基于上述名片的版面配置特征,本发明的发明人运用统计学原理,对一般的名片进行分析之后,将名片上的版面配置分为如图3所示的七种不同的样板。
欲判别名片的版面配置是属于此七种样板中的哪一种,可由下面述的三个条件来判断:第一为判断名片的版面影像是否为可横向分割,并找出横向分割之后,版面影像所分割成的横向的区块数目,如样板TI、T2、T3与T4为可横向分割为三个区块,T5与T6则可横向分割为两个区块;第二为判断第一区块,亦即在图3所示的各样板中最上方的区块,是否为可纵向分割,如样板T1的第一区块为不可纵向分割,样板T3的第一区块则为可纵向分割;第三则为判断距离第一区块最远的区块,亦即在图3所示的各样板中最下方的区块,是否为可纵向分割,如样板T1中距离第一区块最远的区块为可纵向分割,样板T3中距离第一区块最远的区块则为不可纵向分割。
请参照图4,图4为依上述判断条件对像素矩阵进行影像分割的流程图。首先进行第一步骤121,其是对像素矩阵中的资料进行横向投影。有关横向投影的说明请参照图5(A)。在图5(A)中。若像素矩阵第n列中存在任何像素,则该列的投影结果即为非望白,反之若像素矩阵第n列中未存在有任何像素,则该列的投影结果即为空白。
在第一步骤121结束后,若在横向投影的结果中发现一空白区域,亦即,在投影结果中发现一大于某一预定值的相邻列均无像素存在(例如图5(A)中,连续五列均无像素存在),则视为找到第一区块,否则将名片版面配置的样板视为T7,并离开版面影像分割程序12。换言之,若在横向投影的结果中发现一空白区域,则像素矩阵至少可以横向分割为两个区域,此时,便将可分离出来的第一个区块,视为该第一区块。
接着进行第二步骤122,对第一区块以外的区域进行横向投影。投影结果若发现另一空白区域,则视为找到第二区块与第三区块,且版面配置的样板可能为T1、T2、T3或T4。若无法找到另一空白区域,则视为仅找到第四区块,且版面配置的样板可能为T5或T6。
若版面配置的样板可能为T1、T2、T3或T4,则进行第三步骤123,对第三区块进行纵向投影。有关纵向投影的说明请参照图5(B)。在图5(B)中,与前述横向投影相似地,若第三区块所对应的像素矩阵的第m行中存在有任何像素,则该行的投影结果即为非空白,反之若像素矩阵第m行中未存在有任何像素,则该行的投影结果即为空白。
在第三步骤123结束后,若在纵向投影的结果中发现一空白区域,亦即,在投影结果中发现一大于某一预定值的相邻列均无像素存在,则第三区块可纵向分割,且版面配置的样板可能为T1或T4。若无法找到一空白区域,则第三区块无法分割,且版面配置的样板可能为T2或T3。
若第三区块为可纵向分割,则进行第四步骤124;若第三区块为不可纵向分割,则进行第五步骤125。第四步骤124与第五步骤125均为对第一区块进行纵向投影,以判别第一区块是否可进一步纵向分割。在第四步骤124中若第一区块为可纵向分割,则版面配置的样板为T4,若第一区块为不可纵向分割,则版面配置的样板为T1。而在第五步骤125中,若第一区块为可纵向分割,则版面配置的样板为T3,若第一区块为不可纵向分割,则版面配置的样板为T2。
若版面配置的样板可能为5S或T6,则进行第六步骤126,对第四区块进行纵向投影,以判别第四区块是否可进一步纵向分割。若纵向投影的结果显示第二区块为不可纵向分割,则将名片版面配置的样板视为T7,并离开版面影像分割程序12。若为可纵向分割,则进行第七步骤127,对第一区块进行纵向投影以判别第一区块是否为可纵向分割。若第一区块为可纵向分割,则版面配置的样板为T6,若第一区块为不可纵向分割,则版面配置的样板为T5。
上述版面影像分割程序12完成之后,即进行字符识别程序13。由于名片中可能会包含中文、英文、数字、标点甚至日文等多种文字及符号,所以,字符识别程序13可采用一种多语种混合识别程序。例如,可采用几何特特(字符与笔画之间、各部分以及笔画与部分之间稳定的相对关系)和拓朴特征(笔画之间的特征点,如端点、折点、两笔画相接而成的歧点、以及两笔画相交而成的交点等)等来进行识别,这些特征在进行多语种混合办识时均具有稳定性与重要性。
资料分类程序14对识别后的文字资料进行分析,以便管理或查询名片的程序。请参照图6,依照识别的结果,可依名片的版面所属的样板种类,得到将名片上的资料区分为个人资料、通讯资料与其它资料等,并将各种资料分类储存。例如,将姓名、公司名称或职称等视为个人资料,将电话、地址、电子邮件或传真号码等视为通讯资料,公司的统一编号则可归类于其它资料中。如此,使用者可更为便利地记录与整理名片上的资料。
请参照图7,依本发明较佳实施例的名片自动识别系统2包括影像输入装置21、模拟/数字信号转换器22、数字信号处理器23、处理单元24以及储存装置25。其中,影像输入装置21可采用一CCD或CMOS影像感测器以读取名片的影像并产生模拟影像信号。模拟/数字信号转换器22将影像输入装置21所获得的模拟影像信号转换为数字影像信号。数字信号处理器23则对数字影像信号进行滤波处理。
处理单元24可为CISC处理器、RISC处理器或任何可执行前述名片自动识别方法1中各程序的处理器,例如一般PC中的CPU。储存装置25则储存前述名片自动识别方法1中各程序的对应程序码以及影像资料等,并可视需要使用如硬盘驱动器、RAM或ROM等常用的存储装置。
需注意的是,亦可将前述名片自动识别方法1中的各程序,直接内建于处理单元24中,即,处理单元24中的指令集可直接包合执行前述名片自动识别方法1中的各程序的指令集。如此,储存装置25中即不需储存前述名片自动识别方法1中的各程序。
名片识别的后所得到的名片资料可直接储存于储存装置25中,亦可输出至其它电子装置或储存装置中。例如,可视实际需要,将名片识别之后所得到的名片资料传送至PDA或个人电脑中,并依一预定的格式分类储存,以利使用者管理。又,若配合一般的手机使用时,可选择仅将姓名及电话号码储存于手机中,以简化使用者输入名片上资料的手续。
当然,依本发明的名片自动识别系统亦可以其它方法实施,而不脱离本发明的精神与范围。例如,可使用ASIC构成执行前述的版面影像分割程序与字符识别程序的特定硬件,亦即,针对前述的版面影像分割程序与字符识别程序,在名片自动识别系统中加入特定的版面影像分割装置与字符识别装置来执行。如此,由于直接以硬件执行的速度,将比由处理单元来执行软件的速度快,所以加入特定硬件后,名片识别的效率将较高。
此外,本发明亦可配合电脑可读取的记录媒体实施。亦即,将前述的名片自动识别方法各个程序记录于电脑可读取的记录媒体上后,电脑将可藉由读取该记录媒体上的各个程序来进行前述的名片自动识别方法。如此,使本发明的名片自动识别方法将具有更大的使用弹性以及产业上可利用性。
以上所述仅为本发明的较佳实施例,故其仅为举例性,而非用以限制本发明的专利保护范围。任何不脱离本发明的精神与范围,而对本发明所进行的等效修改或变更,均应包含于所附的权利要求书的范围内。