CN1174338C - 字符识别方法 - Google Patents
字符识别方法 Download PDFInfo
- Publication number
- CN1174338C CN1174338C CNB011252243A CN01125224A CN1174338C CN 1174338 C CN1174338 C CN 1174338C CN B011252243 A CNB011252243 A CN B011252243A CN 01125224 A CN01125224 A CN 01125224A CN 1174338 C CN1174338 C CN 1174338C
- Authority
- CN
- China
- Prior art keywords
- character
- line segment
- recognition
- image
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种字符识别方法以及记录介质,以识别在包含预印信息的文档内输入的字符。本发明的目的在于,在不使用预印信息知识或灰度级差值的情况下,识别与预印信息接触或叠加在预印信息上的字符。将其中存在要识别字符的区域内的图像分割为独立线段,其中通过读取所述预印信息以及输入字符获得该图像。通过改变众多已分割线段的组合,创建识别图像。通过对所创建的识别图像进行字符识别,存储具有可靠性的识别结果。以及通过在连续改变所述线段的组合时,对所有组合进行字符识别,输出具有最高可靠性的识别结果。
Description
技术领域
本发明涉及字符识别方法、程序以及记录介质。
近几年来,广泛使用字符识别技术将书写或印刷在纸张上的字符,输入到计算机中。为了指示诸如文档之类的纸张上的字符的输入位置,在纸张正面印刷引导字符或标尺线(以下称为预印信息),从而允许在大部分情况下在引导字符或标尺线附近输入字符。
在此类情况中,由于存在预印信息,所以正确识别输入字符就变得比较困难。因此需要改进。
背景技术
图28表示书写在预印信息上的字符示例。如该图所示,在本示例中,预印表示货币量的单位千万、百万、十万、万、千、百、十和个,以及表示用于书写与货币单位相对应的字符(数字)的框架的标尺线,从而用户能够在纸张上输入手写字符(数字)。
以下说明用于识别在包含预印信息的纸张上书写的字符的常规方法。通过使用与预印信息有关的已知信息,从包含预印信息的读取信息中删除预印信息,以仅仅留下需要识别的输入字符信息。此时,通过使用已知信息,如存在预印字符或标尺线的区域中的位置信息,以及预印信息的种类,可以删除预印字符或标尺线。在能够以灰度级图像方式读取文件的情况中,存在一种字符识别方法,其中如果预印信息和识别字符之间存在灰度级差值,则使用灰度级差值来抽取仅仅需要识别的字符,以实现字符识别。
对于上述常规方法,删除预印信息的方法具有以下问题,即,如果没有有关预印信息的知识,则不能正确地执行字符识别。同时,即使可以利用另一种方法抽取预印信息,在某些情况中也可能出现抽取错误,或者,当识别字符中残留有标尺线或预印信息时,字符识别结果可能是错误的。
另外,当由于系统限制而不能以灰度级图像方式获得文档时,或者预印信息和识别字符之间的灰度级没有什么差别时,存在以下问题,即不能根据灰度级信息抽取识别字符。
发明内容
本发明的第一目的在于解决上述问题,并提供字符识别方法、程序和记录介质,其中无需使用预印信息的知识或灰度级差值,也能识别与预印信息接触或叠加在预印信息上的字符。
如图29所示,我们根据本发明提出了一种能够实现第一目的的、新的字符识别方法,但是此字符识别方法可能引起错误识别。
图29表示某些错误识别实例。根据实现第一目的的字符识别方法,对于在图28所示的预印信息上书写的字符而言,将图29之(a)、(b)、(c)中左侧所示的图像,识别为右侧所示的图像,并作为识别结果。更确切地说,如图29的(a)所示,当在预印信息上书写沿纵向方向具有一条线段的数字“7”时,由于“7”的纵向线段部分,识别结果可能是错误的,如将“7”识别为“1”。同时,如图29的(b)所示,当在预印信息上书写数字“8”时,可能将组成“8”的两个圆圈中的一个圆圈错误识别为“0”。同样,对于要识别的原始字符,可能将某个字符错误识别为与该字符的部分模式接近的另一个字符。同时,如图29的(c)所示,当在预印信息上书写数字“0”时,由于与“0”交叉的线段,可能将“0”错误识别为“6”(或“8”)。
本发明的第二目的在于通过防止实现第一目的的方法可能出现错误识别,提供正确的识别结果。
实现第一目的的本发明的第一基础发明是一种字符识别方法,用于识别在包含预印信息的文档中输入的字符,该方法包括以下步骤:将其中存在要识别的字符的区域内的图像分割为各个线段,其中通过读取所述预印信息以及输入字符获得该图像;创建已分割的诸线段的所有组合的识别图像;通过对创建的识别图像进行字符识别,存储具有可靠性的识别结果;以及通过在连续改变所述线段的组合时,对所有组合进行字符识别,输出在诸识别图像的识别可靠性值中具有最高可靠性值的识别结果。
与实现第一目的的第一基础发明有关的另一发明是一个字符识别程序。该程序包含以下步骤。
将其中存在要识别字符的区域内的图像分割为独立线段,其中通过读取在包含预印信息的文档内输入的字符获得该图像;通过改变众多已分割线段的组合,创建识别图像;通过对所述创建的识别图像进行字符识别,存储具有可靠性的识别结果;以及通过在连续改变所述线段的组合时,对所有组合进行字符识别,输出具有最高可靠性的识别结果。
与第一基础发明有关的另一发明是一种存储字符识别程序的计算机可读介质。该程序包含以下功能。
将其中存在要识别字符的区域内的图像分割为独立线段,其中通过读取在包含预印信息的文档内输入的字符获得该图像;通过改变众多已分割线段的组合,创建识别图像;通过对所述创建的识别图像进行字符识别,存储具有可靠性的识别结果;以及通过在连续改变所述线段的组合时,对所有组合进行字符识别,输出具有最高可靠性的识别结果。
实现第二目的的本发明的第二基础发明是一种字符识别方法,其中该方法除包括第一基础发明之外,还包括以下功能。
该功能为,当所述字符识别结果是一个登记为具有高可能性的其他字符模式的错误识别的字符时,如果在改变所述线段组合的同时,在字符识别过程中获得所述其他字符的任一识别候选字符,则利用所述其他字符交换所述字符识别结果。
与第二基础发明有关的另一发明是一个字符识别程序。该程序包括以下功能。
将其中存在要识别字符的区域内的图像分割为独立线段,其中通过读取在包含预印信息的文档内输入的字符获得该图像;通过改变众多已分割线段的组合,创建识别图像;通过对所述创建的识别图像进行字符识别,存储具有可靠性的识别结果;以及通过在连续改变所述线段的组合时,对所有组合进行字符识别,输出具有最高可靠性的识别结果,其中当所述字符识别结果是一个登记为具有高可能性的其他字符模式的错误识别的字符时,如果在字符识别过程中获得所述其他字符的任一识别候选字符,则利用所述其他字符交换所述字符识别结果。
与第二基础发明有关的另一发明是一种程序的计算机可读介质。该程序包含以下功能。
将其中存在要识别字符的区域内的图像分割为独立线段,其中通过读取在包含预印信息的文档内输入的字符获得该图像;通过改变众多已分割线段的组合,创建识别图像;通过对所述创建的识别图像进行字符识别,存储具有可靠性的识别结果;以及通过在连续改变所述线段的组合时,对所有组合进行字符识别,输出具有最高可靠性的识别结果,其中当所述字符识别结果是一个登记为具有高可能性的其他字符模式的错误识别的字符时,如果在字符识别过程中获得所述其他字符的任一识别候选字符,则利用所述其他字符交换所述字符识别结果。
通过参考以下详细公开以及附图,将更加明确地理解本发明的目的、优点以及特征。
附图说明
图1为表示本发明之第一总配置的框图;
图2为表示本发明之第二总配置的框图;
图3为一框图,表示在其中实施本发明的信息处理装置的配置;
图4表示读取结果的示例;
图5是分割为线段的流程图;
图6表示创建线段图像的具体示例;
图7表示位于端点和交叉点的象素的示例;
图8是一个流程图,表示在交叉点的细化图像分割的处理流程;
图9是一个流程图,表示细化线段扩展的处理流程;
图10是一个流程图,表示第一线段组合字符识别的处理流程;
图11是一个流程图,表示第二线段组合字符识别的处理流程;
图12是一个流程图,表示线段连通性检查的处理流程(第一部分);
图13是一个流程图,表示线段连通性检查的处理流程(第二部分);
图14表示用于记录所连线段号码的线段的数据结构;
图15表示由于线段图像的连通性而降低识别数的示例;
图16说明利用小线宽删除部分图像;
图17表示利用小线宽删除预印信息的具体示例;
图18表示预先知道字符输入区域的示例;
图19表示具有两种线段端点类型以及线段长度的线段的数据结构;
图20表示第五线段组合字符识别方法的具体示例;
图21是一个流程图,表示考虑到由线段组合组成的图形的大小的字符识别处理流程;
图22为识别结果交换的示例1的流程图;
图23表示用于交换示例1中的字符识别结果的参考表;
图24为识别结果交换的示例2的流程图;
图25表示用于交换示例2中的字符识别结果的参考表;
图26为识别结果交换的示例3的流程图;
图27为识别结果交换的示例4的流程图;
图28表示书写在预印信息上的字符示例;以及
图29表示几种错误识别实例。
具体实施方式
图1为表示本发明之第一总配置。在该图中,参考号数10表示图像获取部件,11表示识别区域指示部件,12表示识别区域线段分割部件,120表示细化部件,121表示端点和交叉点抽取部件,122表示线段分割部件,123表示线宽扩展部件,13表示线段组合字符识别部件,2表示存储器,2a表示原始图像,2b表示指定的区域图像,以及2c表示分割的线段图像。
首先,图像获取部件10扫描在包含预印信息(以及标尺线)的纸张上书写的字符,然后将原始图像2a存储到存储器2中。接着,识别区域指示部件11指示纸张上所有区域中的一个字符输入区域。通过预先指示该区域,或通过参考布局分析结果,指示字符输入区域。依据指示,剪切包含特定识别字符的字符输入区域以及与该字符接触或叠加在其上的预印信息,由此在存储器2中得到指定的区域图像2b。接着,识别区域线段分割部件12利用部件120到123分割该线段。亦即,利用细化部件120,将指定区域内的各线段细化为组成该图像的线段,利用端点和交叉点抽取部件121抽取端点和交叉点,并且通过进一步使用端点和抽取的交叉点,利用线段分割部件122,将连续的细线段分割(或分解)为单独的端点到端点、端点到交叉点和交叉点到交叉点的线段。另外,线宽扩展部件123将各分割线段的线宽,扩展为原始图像2a的线段的线宽,并在存储器2中存储其结果,作为分割的线段图像2c。接着,线段组合识别部件13,对分割的线段图像2c的线段组合进行字符识别。此时,为分割(或分解)线段的组合或线段的处理提供各种方法(1)到(6)。
(1)一种用于识别与预印信息接触或叠加在预印信息上的字符的方法,包括将包含该字符的区域内的组成部分分解为线段,在改变分解线段的组合时识别字符,以及采用所有组合中具有最高可靠性的字符识别结果,由此识别与诸如标尺线或引导字符之类的预印信息接触或叠加在预印信息上的字符。
(2)在上述(1)中,仅当所有组合线段相连时,才进行字符识别。
(3)在上述(1)中,在预先删除其线宽较窄的线段后,执行字符识别。
(4)在上述(1)中,当用于输入识别字符的输入区域已知,或者可以根据布局结果分析抽取输入区域时,通过以必须将输入区域内包含的线段包括在线段组合内的方式组合线段,执行字符识别。
(5)在上述(1)中,当线段的一端为端点,并且该线段较短时,通过从组合线段的候选线段中排除该线段,执行字符识别。
(6)在上述(1)中,仅当通过线段组合创建的图形的大小在预定范围内时,才执行字符识别。
图2表示实现第二目的的本发明的第二总配置。在该图中,参考号数10到13,2,识别区域线段分割部件12的120到123,以及存储器2的2a到2c表示与图1所示部件相同的部件,因此,不再说明。参考号数14表示作为第二总配置特征的识别结果交换部件,并且在存储器2中,2d表示候选字符可靠性,而2e表示用于交换字符识别结果的参考表。
以图1所示方式的相同方式,识别区域指示部件11指示区域,识别区域线段分割部件12通过使用部件120到123,分割该区域内的线段,线段组合字符识别部件13比较各识别候选项的字符模式,以在改变线段的组合时,计算可靠性(相似性)。这样,将各识别候选字符以及可靠性2d,存储到存储器2中,从而输出具有最高可靠性的识别结果。
另一方面,在存储器2中,用于交换字符识别结果的参考表2e,包含预先登记为具有高可能性的错误识别的字符(以下称为被交换的对象字符),即字符识别结果为任意其他字符模式。
通过从线段组合字符识别部件13中接收识别结果,识别结果交换部件14根据以下(1)到(4)之一交换识别结果。
(1)识别结果交换部件14区分以识别结果接收的字符,是否对应于存储器2中参考表2e的任意被交换的对象字符,假如这样的话,则当通过引用存储器中的参考表2e得到任意其他识别候选项(交换对象字符)时,利用交换对象字符交换被交换的对象字符。因此,可以避免错误识别,并且可以提高字符识别精度。
(2)仅当交换识别字符(其他识别候选字符)的字符识别的可靠性,大于等于通过参考候选字符可靠性2d得到的预定值时,识别结果交换部件14才交换字符识别结果。因此,当识别结果对应于所登记的任一被交换的对象字符时,在任何时候都不交换识别结果,从而能够利用较高的可靠性,交换识别结果。
(3)仅当组成交换对象字符的识别候选项的线段,包含构成被交换的对象字符的识别结果时,识别结果交换部件14才交换字符识别结果。因此,当由于某些字符的部分模式而得到错误字符识别结果时,可以替换为正确字符,从而导致较高的可靠性。
(4)仅当交换对象字符的字符识别结果的可靠性大于等于预定值,并且组成该交换对象字符的识别候选项,包含构成被交换的对象字符的识别结果的任意线段时,识别结果交换部件14才交换字符识别结果。亦即,通过联合(2)和(3),可以进一步提高交换字符识别结果的准确性。
在本发明的第一和第二总配置中,通过使用计算机可读记录介质中存储的程序,可以实现图1和图2中所示的功能,特别是识别区域指示部件11、识别区域线段分割部件12、线段组合字符识别部件13以及识别结果交换部件14的功能。
图3表示在其中实施本发明的信息处理装置(计算机)的配置。在该图中,参考号数20表示CPU,21表示用于存储数据或程序的存储器,22表示硬盘,23表示键盘,24表示显示器,25表示用于扫描在纸张上印刷或书写的字符或模式的扫描仪,26表示CDROM部件,27表示软盘,以及28表示通信设备。
首先,作为图1和图2所示图像获取部件10的功能,扫描仪25扫描诸如文档之类的需要进行字符识别的纸张上的字符,并将扫描结果存储到存储器21中。因此,图4表示扫描结果的示例,但是本例与图28的内容相同。接着,作为图1和图2的识别区域指示部件11的相应功能,准备可能用于输入该字符的区域作为布局信息,或者根据布局分析结果得到用于输入该字符的区域,并且向图1和图2的识别区域线段分割部件12传递其直角坐标,作为用于分割成线段的区域。在图4的示例中,指定从字符输入区域的左边开始的第五区域。
通过使用其上具有上述处理功能的存储器21上的程序,实现本发明。利用CDROM部件26或软件部件27,将该程序存储到CDROM或软盘上,或者经由通信设备28,从诸如远程终端设备之类的设备中下载到存储器中。
借助图1和图2的识别区域线段分割部件12的相应功能,以直角坐标信息为基础,执行将该区域内的组成部分(包括预印信息)分割为线段的过程。以下参照图5说明其细节。
图5为线段分割的流程图。以下将通过参照图6所示的线段图像创建的特定示例,以及图7所示的端点和交叉点象素的示例,连通图4所示的指定区域的示例,说明以上线段分割。图8表示线段分割部件中端点和交叉点分割的处理流程,将与以下解释一起说明该处理流程。
首先,细化该区域内的线段(图5中的S1)。在图6的示例中,A表示该区域内的原始图像,其中利用文档上预印的表示输入框架的字符“千”和标尺,输入手写字符“5”。通过细化此区域内的图像,得到图6中B所示的细化图像。接着,从本细化图像中抽取端点和交叉点(图5中的S2),然后在端点和交叉点分割细化图像(图5中的S3)。图7表示位于端点和交叉点和象素示例。图7A为端点示例,其中当正在注意的象素为黑象素时,在围绕该注意象素周围的8个象素中,仅有一个黑象素。图7B为交叉点的示例,其中当正在注意的象素为黑象素时,在围绕该注意象素周围的8个象素中,有3个或更多个黑象素。
接着,在图5所示流程中的步骤S3,在交叉点分割细化图像。在图6的相应示例中,如C所示,通过分割处理,将细化图像分割为11个细线段(1)到(11)。
参照图8,以下说明在交叉点的细化图像分割的处理流程。首先,确定是否检查了所有端点和交叉点(图8中的S1)。如果未检查所有端点和交叉点,则取出一个端点或交叉点(图8中的S2)。接着,确定围绕该注意象素周围的8个象素(图7所示9象素中除中心象素之外的8个象素)中,是否有未搜索象素(图8中的S3)。如果有未搜索象素,则搜索(检测)一个未搜索象素(图8中的S4)。将经过搜索的象素存储在存储器中(未示出)(图8中的S5)。接着,确定经过搜索的象素是否为交叉点或端点(图8中的S6)。通过区分围绕注意象素的象素(黑象素)对应于端点模式(图7A所示的模式示例),还是对应于交叉点模式(图7B所示的模式示例),进行确定。如果确定为端点或交叉点,则登记包含该点的线段(图8中的S7)。然后,该过程返回到S3,其中当围绕该注意象素周围的8个象素中有未搜索象素时,该过程转移到步骤S4,同时,当没有未搜索象素时,该过程返回到步骤S1,在S1中进一步检查端点和交叉点。
在图5的流程中,在下一步骤S4中执行细线段扩展。在图6的相应示例中,利用细线段扩展,将各细线段的线宽扩展为原始图像的线宽,如D中(1)到(11)所示。
图9为细线段扩展的处理流程。首先,说明整个处理流程的要点。细线段是在早期构造的线段图像。接着,注意该线段图像的各象素,如果注意象素为边缘象素(即,注意象素为黑象素,并且围绕该注意象素周围的8个象素中,有一个白象素),并且在原始图像上的相应位置,在8个围绕象素中有一个黑象素,则将该黑象素扩展到细线段的相应位置。对所有线段,重复以上步骤顺序,该处理为第一阶段处理。当第一阶段处理结束后,存储已经扩展的象素,以避免在下一阶段的处理中进行处理。接着,当注意象素为在第一阶段扩展的线段图像的边缘象素时,如果在原始图像相应位置邻近的8个象素中,有一个黑象素,则将该黑象素扩展到线段图像的相应位置。重复以上步骤顺序,直至要添加的黑象素用尽,从而创建具有完整线宽的线段图像。
在处理流程的详细说明中,首先确定是否已经扩展了原始图像上的所有黑象素(图9中的S1)。如果未扩展所有黑象素,则将i设置为1,其中i为线段数(图9中的步骤S2)。接着,检查i是否超过线段数(图9中的S3)。如果未超过,则取出第i个线段图像(图9中的S4)。然后,将该线段图像复制到缓冲器中(图9中的S5),并取出该线段图像的一个象素(图9中的S6)。这里,确定该象素是否为黑象素,并且围绕该象素的8个象素中是否有白象素(图9中的S7)。如果没有白象素,则该过程转移到如下所述的步骤S11,同时,如果有白象素,则确定原始图像的相应位置的8个围绕象素中,是否有一个黑象素,并且仍未扩展(图9中的S8)。如果不满足步骤S8的条件,则该过程转移到步骤S11,同时,如果满足条件,则将该黑象素添加到与原始图像上的黑象素的位置相同的缓冲器的位置(图9中的S9)。存储扩展象素(图9中的S10)。接着,确定是否处理了该线段的所有象素(图9中的S11)。若已处理,则将该象素从缓冲器中复制到线段图像上(图9中的S13),然后该过程返回到步骤S1。重复上述步骤顺序,直至扩展了原始图像上的所有黑象素。
线段图像的创建方法并不限于上述方法,只要将原始图像分割为任意形式的最小单位的线段信息即可。例如,可以采用以预定区域为单位分割连接的黑象素区域的方法。
接着,在改变线段图像的组合时,在线段组合字符识别部件(图1和图2中的13)中,执行字符识别处理。这里,创建由线段图像组成的识别图像,并进行字符识别,其中利用线段的组合合并成线段图像。存储备识别候选项的字符识别结果以及其可靠性,在所有识别结果中选择具有最高可靠性的字符,作为最终的识别结果。这里,可以根据有关字典距离的差值,或者字符识别处理输出的确实性,抑或似然,确定可靠性。
图10为第一线段组合字符识别方法的处理流程。首先,确定是否处理了所有组合(图10中的S1)。如果未处理所有组合,则改变线段的组合(图10中的S2),创建识别图像(图10中的S3),然后进行字符识别(图10中的S4)。接着,确定该字符识别结果的可靠性是否大于以前识别结果的可靠性(图10中的S5)。若不然,该过程返回到步骤S1。如果该可靠性大于以前识别结果的可靠性,则存储该识别结果(图10中的S6),然后该过程返回到步骤S1。当在步骤S1中确定处理了所有组合时,输出具有最高可靠性的字符识别结果(图10中的S7)。
在第一线段组合字符识别方法中,如果抽取了n条线段,则线段的可能组合数约为2n,并且必须进行以上次数的字符识别处理。因此,需要减少组合数,以降低识别次数,为此提供以下多种方法。可以单独或组合使用以下方法。
第二线段组合字符识别方法
第二线段组合字符识别方法考虑线段的连通性。作为其原则,在各线段的字符识别之前,该方法检查作为组合选择的所有线段是否是可连接的,仅当这些线段是可连接线段时,才执行字符识别,由此采用具有最高可靠性的字符识别结果,如图6中的D所示。
图11为第二线段组合字符识别方法的处理流程。图11的步骤S1和S2与图10的步骤S1和S2相同,其区别在于,在图11中,当在步骤S2中改变线段的组合时,在步骤S3中检查该组合是否具有连通性。以下说明的图12和图13的处理流程表示上述检查的细节。如果在此检查中确定不具备连通性,则该过程返回到步骤S1,同时,如果确定具备连通性,则根据图10中步骤S3之后的相同步骤,创建识别图像(图11中的S4),进行字符识别(图11中的S5),确定该字符识别结果的可靠性是否大于以前识别结果的可靠性(图11中的S6),并且当该可靠性大于以前识别结果的可靠性时,存储该字符识别结果(图11中的S7)。
图12和13为检查线段连通性的处理流程(第一部分)和(第二部分)。
首先,关闭所有线段的连通性标志(图12中的S1)。接着,从组合中选择一条线段(图12中的S2)。然后,打开处理结束标志(图12中的S3)。确定是否处理了所有剩余线段(图12中的S4),其中如果未处理所有剩余线段,则选择一条剩余线段(图12中的S5)。接着,确定所选择的两条线段是否是可连接的(图12中的S6)。如果不可连接,则该过程转移到步骤S4。另一方面,如果是可连接的,则打开两条线段的连接标志(图12中的S7),关闭处理结束标志(图12中的S8),并且该过程返回到步骤S4。当连接标志为on时,意味着该线段与其他线段相连,否则,意味着该线段与其他线段不相连。同时,如果处理结束标志为on,则该过程从图13中的步骤S9,转到将在下面解释的步骤S10,否则,该过程转到步骤S13。
如果在步骤S4中确定处理了所有剩余线段,则该过程转移到步骤S9,以确定处理结束标志是否为on(图13中的S9)。如果在步骤S9中处理结束标志为on,则进一步确定所有线段的连接标志是否为on(图13中的S10)。如果所有线段的连接标志为on,则打开连通性标志(图13中的S11),或者如果不是on(即,off),则关闭连通性标志(图13中的S12)。如果在步骤S9中处理结束标志不是on,则打开处理结束标志(图13中的S13)。接着,确定是否还有连通标志为off的线段(图13中的S14)。如果没有此类线段,则该过程返回到步骤S9,以确定处理结束标志是on还是off。如果处理结束标志为on,则该过程转到步骤S10,否则,转到步骤S13。如果在步骤S14中还有连通标志为off的线段,则选择一条连通标志为off的线段(图13中的S15)。此线段称为线段1。接着,确定是否处理了连通标志为on的所有线段(图13中的S16),其中,如果处理了连通标志为on的所有线段,则该过程返回到步骤S9,否则,选择一条连通标志为on的线段(图13中的S17)。此线段称为线段2。然后,确定线段1和线段2是否是可连接的(图13中的S18),其中,如果它们是不可连接的,则该过程返回到步骤S16,如果它们是可连接的,则打开线段1的连通标志(图13中的S19),关闭处理结束标志(图13中的S20),然后该过程返回到步骤S9。
图14表示用于记录所连线段号码的线段的数据结构。在该图中,参考号数30表示线段数据,31表示象素坐标的列表,32表示所连线段号码的列表。线段数据30由项目30a到30e组成。项目30a为线段号码,30b为象素号码,30c为象素坐标列表的指针,30d为所连线段的号码,30e为所连线段号码列表的指针。利用以上数据结构,设置各线段号码的象素号码(m1,m2等),通过使用指针30c,可以访问组成该线段的所有象素的象素坐标列表31,利用指针30e,可以访问包含所连线段之号码(k1,k2等)的所连线段号码列表32,以及所连线段号码。
图15表示利用线段图像的连通性降低识别数的示例。亦即,对于原始图像(a),如果如(b)所示选择的线段的组合不具备连通性,则不执行字符识别处理,同时,如果如(c)所示选择的线段的组合具备连通性,则执行字符识别处理。由此,可以将字符识别次数减少线段不可连接的次数。连通性的确认方法包括:在创建细化线段时,存储在分割为细化线段的点(交叉点)连接的其他线段的号码。在组合线段并进行字符识别之前,可以根据以上存储的信息,确认作为组合选择的线段是否相连,并且仅当相连时,才执行字符识别,从而能够降低字符识别处理的次数。
第三线段组合字符识别方法
第三线段组合字符识别方法依靠以下条件,即假设部分或全部预印信息的线宽小于识别(手写)字符的线宽,作为原则,从原始图像中删除具有较小线宽的线段,作为应用本发明之字符识别方法的预处理。
删除方法包括沿水平和垂直方向扫描该图像,以计算黑象素的游程(宽度)分布,并且删除具有较小游程的部分,由此可以删除细线段部分的预印信息。因此,在应用此方法时,可以降低线段的数目,从而减少用于识别的线段组合的数目,并且能够缩短计算时间。
图16为利用小线宽删除部分图像的图像删除的示意图,其中表示沿垂直方向的示例。
图16A表示作为预印信息以明体印刷的图像符号“+”(表示日文字符中的数字10)的示例,图16B表示沿垂直方向扫描该图像时的游程分布,其中用十六进制数字“1”、“2”、“a”和“9”表示沿垂直方向扫描时,位于各位置的黑象素的长度。在本例中,符号“+”沿横向方向的线宽等于一个象素的长度,由此得知此线段为细线段。删除沿垂直方向为一个象素线宽的横向线段,从而生成图像(c)。
图17表示利用细线宽删除预印信息的具体示例。图17A表示某个识别对象区域中的原始图像,或者图6中A所示的在文档中输入的具有字符“5”的图像,其中包含作为预印信息的具有细线宽的部分字符“千”。图17B表示从原始图像(a)中删除细线段后的图像,由此可以减少线段组合的数目。除此方法之外,还可以使用利用较小线宽删除线段的方法,其方法是,以相对于线段方向计算正确分割后的线段之线宽的方式,得到线宽。
第四线段组合字符识别方法
利用此方法,当预先或作为布局分析的结果而知道书写识别字符的区域时,在确定线段的组合过程中,必须包含该区域中包含的线段。因此,可以减少线段组合的数目,并且可以降低字符识别的次数。
图18表示预先知道字符输入区域的示例。在该图中,对于字符识别,其线段组合必须包含虚线所示字符输入区域内的线段,并且改变该区域之外的线段的组合。
第五线段组合字符识别方法
第五线段组合字符识别方法为,在用于识别的线段组合中,不包括在一端具有端点的短线段。在一端具有端点的短线段占据适当字符中的一个小区域,即使不包括该短线段,字符识别结果也不会受到多大影响。因此,如果在组合候选项中不包括在一端具有端点的短线段,则可以减少线段组合的数目,最终降低字符识别次数。
利用以上第四线段组合字符识别方法,如果线段数据包含两个端点的类型(从端点到三个交叉点或四个交叉点的线段,从端点到端点的线段),以及线段的长度,则可以简化处理。
图19表示具有两种线段端点类型以及线段长度的线段的数据结构。数据结构40包括:与附加到各线段的线段号码相对应,象素的号码40a(m1,m2等),象素坐标列表的指针40b(a1,a2等),线段端点类型1的类型40c(线段的一个端点类型),线段端点类型2的类型40d(线段的其他端点的类型),以及线段的长度40e,并利用指针40b确定坐标列表41。坐标列表41包含与各坐标号码相对应的坐标,与组成具有该线段号码的线段的象素号码相等的条目的号码。同时,线段端点类型1和2可以为端点,三点交叉点等等。
图20表示第五线段组合字符识别方法的具体示例。本例具有图20中A所示的原始图像,其中在作为预印信息的明体字符“千”上用手写下“1”。该图中的B表示输入字符。将此字符分解为线段,例如删除“1”的顶端的线段,以及在一端具有端点的短线段,结果得到C所示的线段。对该线段进行字符识别。
第六线段组合字符识别方法
第六线段组合字符识别方法包括:预先检查利用线段组合创建的图形的大小,仅当所创建的图形的大小在预定范围内时,才执行字符识别,在线段的组合中,利用具有最高可靠性的字符识别结果。如果可以猜测输入字符大小的上限或下限,或上下限,则该方法能够降低字符识别的次数。这样,图形的大小可以为:限制线段组合所创建的图形的矩形的区域,或图形的高度。
图21为考虑到由线段组合组成的图形的大小的字符识别处理流程。首先,确定是否处理了所有组合(图21中的S1)。如果未处理所有组合,则改变线段的组合(图21中的S2)。接着,确定由线段组合组成的图形的大小是否在预定范围内(图21中的S3)。如果不在预定范围内,则该过程返回到步骤S1,如果在预定范围内,则创建识别图像(图21中的S4),并进行字符识别(图21中的S5)。然后,确定该字符识别结果的可靠性是否大于以前识别结果的可靠性(图21中的S6)。如果该可靠性大于以前识别结果的可靠性,则存储该字符识别结果(图21中的S7),否则,该过程返回到步骤S1。在处理了所有组合后,输出具有最高可靠性的字符识别结果(图21中的S8)。
例如,当指定图18所示的文档为用于输入字符的字符输入区域时,输入字符的大小范围是预定的,并且如果某个线段组合的大小超出此范围,则不执行字符识别处理,由此降低字符识别次数。
以下参照与以上所述方法(1)到(4)相对应的附图,说明在本发明之第二总配置(图2)中提供的识别结果交换部件14中,执行的识别结果交换的处理。
这里,在与图2的线段组合字符识别部件13相对应的处理流程(图9和10)中,在改变线段的组合时进行字符识别,计算作为候选字符的各识别结果的可靠性(相似性),输出具有最高可靠性的候选字符,作为最佳字符识别结果。这样,除具有最高可靠性的识别候选字符之外,在存储器(图3中的21)中,顺序存储通过组合线段在字符识别过程中得到的、识别候选项中具有较高可靠性的预定数目的识别候选项。
图22为识别结果交换的示例1的流程图。图23为示例1中字符识别结果交换的参考表。图22的示例1的流程图,对应于参照图2说明的(1)中的字符识别结果的交换方法。
首先,确定所接收的字符识别结果,是否登记为参考表(图23)中的被交换的对象字符(图22中的S1)。如果没有登记为被交换的对象字符,则无需交换就结束该过程,同时,如果已经登记,则确定除作为与参考表中的被交换的对象字符相对应的交换对象字符的识别结果字符之外,是否还有识别候选项(存储在存储器中)(图22中的S2)。如果没有识别候选项,则无需交换就结束该过程,同时,如果有识别候选项,则利用识别候选字符(即,仅次于该识别结果的具有较高可靠性的候选项),交换识别结果字符(图22中的S3)。如果在步骤S2中,被交换的对象字符有许多识别候选项,则利用具有最高可靠性的字符,交换该识别结果字符。
图24为识别结果交换的示例2的流程图。图25为实施方式2中的字符识别结果交换的参考表。当利用交换对象字符进行交换时,实施方式2的参考表,设置与具有可靠性的被交换的对象字符相对应的交换对象字符。图24的实施方式2的流程图,对应于参照图2说明的(2)中的字符识别结果的交换方法。
首先,以图22以及上述所述方式,确定字符识别结果是否登记为参考表(图25)中的被交换的对象字符(图24中的S1)。如果没有登记为被交换的对象字符,则无需任何交换就结束该过程,同时,如果已经登记,则确定除作为与参考表中的被交换的对象字符相对应的交换对象字符的识别结果字符之外,是否还有下一个较低可靠性的识别候选项,并且交换对象字符(在识别操作过程中,存储在存储器中)的可靠性,是否大于等于为参考表中的交换对象字符设置的预定值(图25)(图24中的S2)。如果大于等于预定值,则利用交换对象字符,交换被交换的对象字符(图24中的S3),同时,如果没有识别候选项,或者可靠性低于预定值,则即使有候选项,也结束该过程。
通过使用字符识别过程输出的特征向量的距离值,实现图25的参考表中设置的“可靠性”,但是,必须根据字符识别处理系统或要交换的字符,将其调整为适当值。如图25的参考表所示,通过预先学习,可以设置用于交换的可靠性的值。可以将条件规定为:交换对象字符的识别可靠性以及被交换的对象字符的可靠性差值。
图26为识别结果交换的示例3的流程图。
识别结果交换的示例3的流程图,对应于以上参照图2说明的(3)中的字符识别结果的交换方法。在图22以及上述所述的示例1的方法中,当字符识别结果为参考表中登记的被交换的对象字符,并且在字符识别过程中,将与参考表中登记的交换对象字符一致的字符,识别为候选项时,交换字符识别结果。然而在示例3中,如图26中的步骤S2所示,在交换时,确定组成交换对象字符的线段中,是否包含构成被交换的对象字符的线段,如果包括,则交换字符识别结果(图26中的S3)。
例如,在图29A的示例中,由于被交换的对象字符(见图23和25)的参考表中登记了“1”,所以输出“1”作为字符识别结果,对于交换对象字符“4”、“7”和“9”中的任一字符,检查是否还有识别候选项。当构成候选字符的线段中包含构成“1”的线段时,如果有识别候选项,则交换识别结果。因此,当利用部分字符模式得到错误字符识别结果时,可以利用正确的字符替换识别结果,从而可以提高字符识别的可靠性。
如图29中的(c)所示,假设由于横线与“0”交叉,所以字符识别结果为“6”。这样,如果存在“0”作为识别候选项,则得到形成“6”的图形的凸出部分的线段,并抽取对突出部分的形成有影响的线段。考虑到“0”是一个被交换的对象字符,而“6”是一个交换对象字符,如果形成“0”的识别候选项的线段中包含这些线段,则交换识别结果。另外,考虑到“0”是一个被交换的对象字符,而“8”是一个交换对象字符,当具有“0”的图像与横向标尺线交叉时,输出“8”作为识别结果,可以按照与上述方式相同的方式,交换该识别结果。
图27为识别结果交换的示例4的流程图。
识别结果交换的示例4的流程图,对应于以上参照图2说明的(4)中的字符识别结果的交换方法。示例4为实施方式2(图24)和实施方式3(图26)的组合。亦即,确定该字符识别结果,是否为参考表上的登记的被交换的对象字符(图27中的S1)。如果已登记,则确定是否在字符识别过程中,将与参考表中登记的交换对象字符一致的字符,识别为候选项,与字符识别交换的字符的可靠性是否大于预定值(见图5中的参考表),以及构成交换对象字符的线段是否包含构成被交换的对象字符的线段(图27中的S2)。如果满足所有上述条件,则交换字符识别结果(图27中的S3)。
利用示例4,可以进一步提高交换字符识别结果的修改可靠性。
可以利用图3所示的信息处理装置(计算机),实现图8到13、图21和22、图24、图26和27中所示的流程,以及操作说明中描述的功能,其中其存储器、ROM、或诸如软盘之类的记录介质中存储有程序,或者通过通信设备,从外部下载到存储器中。
根据详细说明书,本发明的许多特征和优势是显而易见的,因此,附属权利要求书意在覆盖本发明之实质和范围内的、本发明的所有此类特征和优势。另外,由于熟练技术人员容易想到许多修改和改变,所以我们并不希望将本发明限制在本文说明的精确构造和操作内,因此,本发明包含该发明范围内的所有适当修改和等价物。
Claims (11)
1.一种字符识别方法,用于识别在包含预印信息的文档中输入的字符,该方法包括以下步骤:
将其中存在要识别的字符的区域内的图像分割为各个线段,
其中通过读取所述预印信息以及输入字符获得该图像;
创建已分割的诸线段的所有组合的识别图像;
通过对创建的识别图像进行字符识别,存储具有可靠性的识别结果;以及
通过在连续改变所述线段的组合时对所有组合进行字符识别,输出在诸识别图像的识别可靠性值中具有最高可靠性值的识别结果。
2.根据权利要求1的字符识别方法,其中分割为所述线段还包括以下步骤:
细化所述识别区域中的图像内的所有线段;
从所述线段中抽取一个端点和一个交叉点;
将所述细化图像分割为从所述端点到所述交叉点、从所述端点到所述端点、或从所述交叉点到所述交叉点的线段,
其中通过参考所述输入原始图像,将各所述线段扩展为原始线宽。
3.根据权利要求1的字符识别方法,其中当改变所述多个已分割线段的组合时,检查所述组合中是否具备连通性,其中如果不具备连通性,则不识别所述组合,仅当具备连通性时,才创建所述组合的识别图像,以进行字符识别。
4.根据权利要求1的字符识别方法,还包括以下步骤:预先从所述识别区域中的图像内包含的线段中,删除具有小线宽的线段。
5.根据权利要求1的字符识别方法,在所述字符识别结果是作为误识别应交换的其他字符的可能性高的字符而被预先登记的字符的时候,如果在改变所述线段组合的时候,在字符识别过程中获得所述其他字符的任一识别候选字符,则利用所述其他字符交换所述字符识别结果。
6.根据权利要求5的字符识别方法,其中当对应于已交换对象字符的其他字符的可靠性已经登记并且仅当所述其他字符的字符识别的可靠性大于等于预置的固定值时,才交换所述字符识别结果。
7.根据权利要求5的字符识别方法,其中仅当构成所述其他字符的字符识别候选的线段包含所述字符识别结果的任意线段时,才交换所述字符识别结果。
8.根据权利要求5的字符识别方法,其中当对应于已交换对象字符的其他字符的可靠性已经登记并且仅当所述其他字符的字符识别的可靠性大于等于预置的固定值,并且构成所述其他字符的字符识别候选的线段包含所述字符识别结果的任意线段时,才交换所述字符识别结果。
9.根据权利要求1的字符识别方法,其中在用于在识别区域中的图像内输入待识别的字符的区域是预定的情况中,当改变多个被分割的线段的组合时,必须包括用于输入字符的区域内的线段。
10.根据权利要求1的字符识别方法,其中当将识别区域内的图像分割为各个线段时,在其组合中不包括在一端具有端点且具有短长度的线段的情况下,实现线段的组合。
11.根据权利要求1的字符识别方法,其中仅当多个已分割线段的组合创建的图形的大小在预定范围内时,才执行字符识别,并且,如果该大小超出预定范围,则省略字符识别。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP334296/2000 | 2000-11-01 | ||
JP2000334296 | 2000-11-01 | ||
JP140140/2001 | 2001-05-10 | ||
JP2001140140A JP4704601B2 (ja) | 2000-11-01 | 2001-05-10 | 文字認識方法,プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1351312A CN1351312A (zh) | 2002-05-29 |
CN1174338C true CN1174338C (zh) | 2004-11-03 |
Family
ID=26603259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011252243A Expired - Fee Related CN1174338C (zh) | 2000-11-01 | 2001-08-31 | 字符识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6947596B2 (zh) |
JP (1) | JP4704601B2 (zh) |
CN (1) | CN1174338C (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7221796B2 (en) * | 2002-03-08 | 2007-05-22 | Nec Corporation | Character input device, character input method and character input program |
JP4467519B2 (ja) * | 2003-06-02 | 2010-05-26 | シャープ株式会社 | 携帯情報端末 |
US8873890B2 (en) * | 2004-04-02 | 2014-10-28 | K-Nfb Reading Technology, Inc. | Image resizing for optical character recognition in portable reading machine |
FR2880709B1 (fr) * | 2005-01-11 | 2014-04-25 | Vision Objects | Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants |
US20070253615A1 (en) * | 2006-04-26 | 2007-11-01 | Yuan-Hsiang Chang | Method and system for banknote recognition |
US7548677B2 (en) * | 2006-10-12 | 2009-06-16 | Microsoft Corporation | Interactive display using planar radiation guide |
JP4835459B2 (ja) * | 2007-02-16 | 2011-12-14 | 富士通株式会社 | 表認識プログラム、表認識方法および表認識装置 |
JP4906685B2 (ja) * | 2007-11-14 | 2012-03-28 | キヤノン株式会社 | 撮像装置、その制御方法及びプログラム |
JP2010217996A (ja) * | 2009-03-13 | 2010-09-30 | Omron Corp | 文字認識装置、文字認識プログラム、および文字認識方法 |
TWI478074B (zh) * | 2010-12-01 | 2015-03-21 | Inst Information Industry | 文字辨識方法、裝置以及儲存其之電腦可讀取紀錄媒體 |
JP5991323B2 (ja) * | 2011-09-16 | 2016-09-14 | 日本電気株式会社 | 画像処理装置、画像処理方法、および画像処理プログラム |
KR102103277B1 (ko) * | 2013-04-12 | 2020-04-22 | 삼성전자주식회사 | 이미지를 관리하는 방법 및 그 전자 장치 |
JP6127676B2 (ja) * | 2013-04-12 | 2017-05-17 | オムロン株式会社 | 画像認識装置、画像認識プログラム、記録媒体、および画像認識方法 |
JP6255929B2 (ja) * | 2013-11-15 | 2018-01-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理装置の制御方法、およびプログラム |
CN105224939B (zh) * | 2014-05-29 | 2021-01-01 | 小米科技有限责任公司 | 数字区域的识别方法和识别装置、移动终端 |
JP6471796B2 (ja) * | 2017-12-07 | 2019-02-20 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理装置の制御方法、およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0229886A (ja) * | 1988-07-20 | 1990-01-31 | Ricoh Co Ltd | 特徴量抽出方法 |
JPH05189617A (ja) * | 1991-04-15 | 1993-07-30 | Microsoft Corp | 手書き文字認識に於けるアークのセグメント化の方法と装置 |
JP3105967B2 (ja) * | 1991-11-14 | 2000-11-06 | キヤノン株式会社 | 文字認識方法及び装置 |
US5577135A (en) * | 1994-03-01 | 1996-11-19 | Apple Computer, Inc. | Handwriting signal processing front-end for handwriting recognizers |
US6041137A (en) * | 1995-08-25 | 2000-03-21 | Microsoft Corporation | Radical definition and dictionary creation for a handwriting recognition system |
US7221795B2 (en) * | 2000-06-02 | 2007-05-22 | Japan Science And Technology Corporation | Document processing method, recording medium having recorded thereon document processing program, document processing program, document processing apparatus, and character-input document |
-
2001
- 2001-05-10 JP JP2001140140A patent/JP4704601B2/ja not_active Expired - Fee Related
- 2001-08-10 US US09/925,319 patent/US6947596B2/en not_active Expired - Fee Related
- 2001-08-31 CN CNB011252243A patent/CN1174338C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20020051574A1 (en) | 2002-05-02 |
US6947596B2 (en) | 2005-09-20 |
JP4704601B2 (ja) | 2011-06-15 |
JP2002203207A (ja) | 2002-07-19 |
CN1351312A (zh) | 2002-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1174338C (zh) | 字符识别方法 | |
US8781229B2 (en) | System and method for localizing data fields on structured and semi-structured forms | |
JP6286866B2 (ja) | 画像処理装置および画像処理方法 | |
CN1258894A (zh) | 用于识别字符的装置和方法 | |
CN1215432C (zh) | 帐票识别方法 | |
CN1269069C (zh) | 字符识别装置及方法 | |
CN1226696C (zh) | 用于检索草体手写注释的方法 | |
CN1752992A (zh) | 文字识别装置、文字识别方法及文字识别程序 | |
CN1655147A (zh) | 用于搜索数字墨水查询的设备和方法 | |
US20050216828A1 (en) | Patent annotator | |
JPH07141463A (ja) | 2値画像内の機械印刷された金額の検出方法 | |
WO2007117334A2 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
CN101060579A (zh) | 显示控制装置、图像处理装置、显示控制方法 | |
CN1141666C (zh) | 利用标准笔划识别输入字符的在线字符识别系统 | |
US20140006917A1 (en) | System and method for forms recognition by synthesizing corrected localization of data fields | |
CN1955981A (zh) | 字符识别装置、字符识别方法、以及字符数据 | |
US8145997B2 (en) | Method for simultaneously performing a plurality of handwritten searches | |
US9665786B2 (en) | Confirming automatically recognized handwritten answers | |
JP4756447B2 (ja) | 教材処理装置、教材処理方法および教材処理プログラム | |
JP7039882B2 (ja) | 画像解析装置及び画像解析プログラム | |
CN1484165A (zh) | 文件信息的输入设备,输入方法,输入程序以及记录介质 | |
CN1896997A (zh) | 字符串检索装置及使计算机执行字符串检索方法的程序 | |
US7853194B2 (en) | Material processing apparatus, material processing method and material processing program | |
US9158968B2 (en) | Apparatus for extracting changed part of image, apparatus for displaying changed part of image, and computer readable medium | |
CN1056933C (zh) | 中文错别字自动订正方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20041103 Termination date: 20170831 |