CN101546379A - 计算机可读记录介质、字符识别设备和字符识别方法 - Google Patents
计算机可读记录介质、字符识别设备和字符识别方法 Download PDFInfo
- Publication number
- CN101546379A CN101546379A CNA2009101294641A CN200910129464A CN101546379A CN 101546379 A CN101546379 A CN 101546379A CN A2009101294641 A CNA2009101294641 A CN A2009101294641A CN 200910129464 A CN200910129464 A CN 200910129464A CN 101546379 A CN101546379 A CN 101546379A
- Authority
- CN
- China
- Prior art keywords
- character
- information
- types
- pattern
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
一种字符识别方法和设备,包括:基于输入字符图像的信息和与字符类型的结构相关的信息提取字符图案;以及将所提取的字符图案与对应于所述字符图案的字符类型进行比较以计算相似性,其中所述字符类型表示要在识别出所述输入字符图像之后输出的字符。所述方法和设备包括:输出通过所述计算获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果。
Description
相关申请的交叉引用
本申请基于2008年3月28日提出的在先日本专利申请第2008-088339号以及2008年8月28日提出的在先日本专利申请第2008-220424号并且要求上述在先申请的优先权。本文通过引用结合上述在先申请的全部内容。
技术领域
本文讨论的实施方式涉及字符识别。
背景技术
通常,当通过扫描仪等来实现字符识别时,在彩色文档图像中使用低分辨度图像(例如,“150至200dpi”)以减小容量和获得较高的扫描速度。日益需要一种以高精度进行识别的、支持在此类低分辨率彩色图像以及如黑白图像和灰度图像等的低分辨率图像中的各种字符图案的技术。
识别低分辨率图像的技术有如下技术:对彩色图像或灰度图像进行二值化以提取由黑白二元图案所表示的字符图案,并使用所提取的字符图案和特征字典来计算所提取的字符图案与存储在所述特征字典中的字符的标准图案之间的相似性,由此识别对应于输入图像的字符。
此外,在对彩色图像或灰度图像进行二值化时,使用用于提取比背景暗的部分作为笔划(例如,垂直段和水平段)的方法,例如“背景鉴别Niblack二值化”和“无对比二值化”。这些方法用于在对退化的灰度图像进行二值化时输出比背景图像(白色)暗的部分(黑色)。图23示出通过这些二值化方法输出的字符图案的实施例。如图23中所示,由于细段和段的密集等等,所述字符图案具有难以与背景图像进行区分的部分,导致出现字符的破坏和模糊。因此,基于这些二值化方法的字符识别的识别准确度较低。
发明内容
根据本发明的一个方面,一种字符识别方法和设备包括:基于输入字符图像的信息和与字符类型的结构相关的信息提取字符图案,在对输入字符图像进行识别的过程中,将所提取的字符图案与表示要在识别出所述输入字符图像之后输出的字符的字符类型进行比较。所述字符识别方法和设备包括:将所提取的字符图案与对应于所述字符图案的字符类型进行比较以计算相似性;以及,输出通过所述计算获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果。
在下文的描述中将部分地陈述本发明的进一步的方面和/或优点,并且从所述描述中,本发明的进一步的方面和/或优点将变得明显,或者通过实施本发明可获知本发明的进一步的方面和/或优点。通过权利要求中特别指出的元件和组合可实现并获得本发明的目的和优点。应理解,前述一般描述和下列详细描述均为例示性和说明性的,并非用于限制如权利要求所要求的本发明的范围。
附图说明
从以下结合附图对实施方式的描述中,这些和/或其他方面和优点将变得更明显且更加易于理解。在所述附图中:
图1示出根据一实施方式的字符识别设备的概要和特征;
图2示出根据一实施方式的字符识别设备的配置;
图3示出存储在字符结构字典存储部件中的信息的实施例;
图4示出存储在字符识别字典存储部件中的信息的实施例;
图5为用于说明由根据一实施方式的字符识别设备执行的字符识别处理的流程图;
图6为用于详细说明根据一实施方式的字符图案提取处理的流程图;
图7说明根据一实施方式的字符图像中的区域信息获取处理;
图8说明根据一实施方式的使用S形函数对边界值信息进行的平滑处理;
图9说明根据一实施方式的黑色区域估算值的获取;
图10示出根据一实施方式的字符识别设备的概要;
图11示出根据一实施方式的字符识别设备的配置;
图12示出存储在字符结构字典存储部件中的信息的实施例;
图13说明字符类型“口”的位置信息;
图14说明字符类型“井”的位置信息;
图15为用于说明由根据一实施方式的字符识别设备执行的字符识别处理的流程图;
图16示出根据一实施方式的字符识别设备的概要;
图17示出根据一实施方式的字符识别设备的配置;
图18示出存储在包含字符(inclusion character)存储部件中的信息的实施例;
图19示出包含字符中的有向图(digraph)的图像;
图20为用于说明由根据一实施方式的字符识别设备执行的字符识别处理的流程图;
图21为用于示出使用相似性计算和/或估算值计算和包含字符输出实现的字符识别处理流程的流程图;
图22示出用于执行字符识别程序的示例性计算机;
图23示出根据现有技术的通过二值化而输出的字符图案的实施例;以及
图24示出其中在输入图像为“王”的情况下相似性变高的字符类型。
具体实施方式
现在将详细描述附图中示出了其实施例的实施方式,在整个实施方式中,类似的附图标记表示类似的元件。下文将通过参考附图对所述实施方式进行描述以说明本发明。
下文中,将参照附图详细描述根据本发明的字符识别设备的实施方式。在下列实施方式中,相继描述根据本发明的字符识别设备的概要和特征、所述字符识别设备的配置和字符识别处理的流程。最后将描述所述实施方式的效果。
首先,将使用图1来描述根据一实施方式的字符识别设备的概要和特征。图1示出根据一实施方式的字符识别设备的概要和特征。
该字符识别设备识别从预定设备或预定介质等输入的字符图像并输出对应于所述字符图像的字符。所述输入字符图像包括,例如,彩色图像、黑白图像、退化的灰度图像,且/或可应用任何其它类型的图像。
在上述配置中,所述概要示出的字符识别设备是用于识别输入字符图像和输出识别结果。具体地,所述字符识别设备的特征主要在于其可实现高准确度字符识别。下文描述输入字符图像为退化的灰度图像的情况。
所述字符识别设备包括字符结构字典存储部件,其用于存储与字符类型的结构相关的信息,所述字符类型各自表示在对输入字符图像进行识别之后要输出的与各个字符类型相关联的字符。此外,所述字符识别设备包括字符识别字典存储部件,其用于存储与各个字符类型相关联的字符图案,所述字符图案在对输入字符图像进行识别的过程中被与字符类型进行比较。
在此状况下,字符识别设备基于输入字符图像的信息和与存储在字符结构字典存储部件中的字符类型的结构相关的信息来提取字符图案,以将所述字符图案存储在字符识别字典存储部件中(参看图1(1))。
具体地,字符识别设备通过使用垂直笔划个数“2”和水平笔划个数“6”从输入的退化的灰度图像,例如“早”中提取垂直笔划和水平笔划,其中,垂直笔划个数“2”和水平笔划个数“6”是与存储在字符结构字典存储部件中的字符类型“言”的结构相关的信息。接着,所述字符识别设备将所提取的垂直和水平笔划彼此组合并提取输入的退化的灰度图像“早”的字符图案。随后,该字符识别设备将所提取的字符图案存储在与字符类型“言”关联的字符识别字典存储部件中。
此外,字符识别设备通过使用垂直笔划个数“3”和水平笔划个数“2”从输入的退化的灰度图像,例如,“早”中提取垂直笔划和水平笔划,其中垂直笔划个数“3”和水平笔划个数“2”是与存储在字符结构字典存储部件中的字符类型“中”的结构相关的信息。然后,字符识别设备将所提取的垂直和水平笔划彼此组合并提取输入的退化的灰度图像“早”的字符图案。随后,字符识别设备将所提取的字符图案存储在与字符类型“中”关联的字符识别字典存储部件中。
此外,字符识别设备通过使用垂直笔划个数“3”和水平笔划个数“4”从输入的退化的灰度图像“早”中提取垂直笔划和水平笔划,其中垂直笔划个数“3”和水平笔划个数“4”是与存储在字符结构字典存储部件中的字符类型“早”的结构相关的信息。随后,字符识别设备将所提取的垂直和水平笔划彼此组合并提取输入的退化的灰度图像“早”的字符图案。随后,字符识别设备将所提取的字符图案存储在与字符类型“早”关联的字符识别字典存储部件中。
若将字符图案提取应用于存储在字符结构字典存储部件中的所有字符类型,则需要大量的处理时间。因此,通过使用已知的技术可将与从输入字符图像所提取的字符图案对应的字符类型的个数限制至某一范围。即,字符识别设备将常规使用的字符识别处理应用于输入字符图像,将从字符识别处理所获得的候选结果确定为字符类型,并通过使用所述字符类型的结构信息来提取字符图案。
接着,字符识别设备将存储在字符识别字典存储部件中的字符图案和与所述字符图案对应的各个字符类型进行比较以计算相似性。接着,字符识别设备输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果(参看图1(2))。
字符识别设备将存储在字符识别字典存储部件中的退化的灰度图像,例如,“早”的字符图案和与所述字符图案对应的字符类型“言”进行比较以计算相似性。此外,字符识别设备将存储在字符识别字典存储部件中的退化的灰度图像“早”的字符图案和与所述字符图案对应的字符类型“中”进行比较以计算相似性。此外,字符识别设备将存储在字符识别字典存储部件中的退化的灰度图像“早”的字符图案和与所述字符图案对应的字符类型“早”进行比较以计算相似性。
接着,字符识别设备输出通过上述计算所获得的具有最大相似性的字符类型“早”,作为输入的退化的灰度图像“早”的识别结果。作为输入字符图像的识别结果,可输出作为已被计算相似性的候选字符类型的字符代码,例如字符“言”和“中”,以及所计算出的相似性的信息等。
字符识别设备将所述字符图案提取处理和相似性计算处理重复地应用于输入字符图像,其中应用的次数对应于将要比较和分类的字符类型的个数。然后,字符识别设备输出在针对要比较和分类的所有字符类型所计算的相似性中具有最大相似性的字符类型,作为所述输入字符图像的识别结果。
因此,当根据一实施方式的字符识别设备识别输入字符图像并输出识别结果时,其可通过使用要针对所述输入字符图像进行比较和分类的字符类型的结构信息来提取字符图案,并要在所提取的字符图案和与所述字符图案对应的字符类型之间具有最大相似性的字符类型输出,作为输入字符图像的识别结果,由此可实现高准确度字符识别。
即,由于字符识别设备在识别输入字符图像以及输出识别结果时使用各种字符类型的结构信息来提取字符图案,因此,与尤其在复杂字符的情况下将出现字符破坏和模糊的现有技术相比,其可实现高准确度字符识别而不会引起破坏、模糊等,即使是对于复杂字符。因此,所述字符识别设备可输出作为对输入字符图像应用背景鉴别的结果。
换句话说,即使在具有破坏或模糊的垂直或水平段的输入字符图像被作为背景鉴别的结果而输出的情况下,作为字符类型的结构信息的垂直和水平段的个数是已知的,因此,字符识别设备始终使用所述段的个数输出字符识别结果。因此,所述字符识别设备可实现高准确度字符识别,而即使在识别复杂字符的情况下也不会导致字符的破坏和模糊。
其次,将使用图2来描述根据一实施方式的字符识别设备的配置。图2示出根据一实施方式的字符识别设备的配置。
如图2中所示,字符识别设备10包括存储部件20和控制部件30。字符识别设备10可识别从连接到字符识别设备10的扫描仪、介质等输入的字符图像并输出所述字符图像的字符。
存储部件20存储由控制部件30所执行的各种处理所需的数据和来自控制部件30的各种处理结果,并且特别地,包括与本发明紧密相关的字符结构字典存储部件21和字符识别字典存储部件22。
字符结构字典存储部件21存储关于与各个字符类型关联的字符类型的结构的信息,所述字符类型各自表示要在对输入字符图像进行识别之后输出的字符。例如,如图3中所示,字符结构字典存储部件21存储与字符类型“早”的包括若干垂直笔划(例如“3”)和若干水平笔划(例如“4”)的结构相关的信息,所述信息与表示要在识别出所述输入字符图像“早”之后输出的字符的字符类型“早”关联。图3示出存储在字符结构字典存储部件21中的信息的实施例。
字符识别字典存储部件22存储与相关字符类型关联的字符图案,所述字符图案用于在对输入字符图像的识别过程中与字符类型进行比较。例如,如图4中所示,字符识别字典存储部件22存储与字符类型“早”关联的字符图案,所述字符图案用于在对输入字符图像“早”的识别过程中与字符类型“早”进行比较。图4示出存储在字符识别字典存储部件22中的信息的实施例。
控制部件30包括内存储器,其用于存储控制程序、规定各种处理的过程等的程序以及所需的数据。具体地,控制部件30包括与本发明紧密相关的字符图案提取部件31和相似性计算部件32,并通过使用这些部件来执行各种处理。
字符图案提取部件31基于输入字符图像的信息和与存储在字符结构字典存储部件21中的字符类型的结构相关的信息提取字符图案,并将所提取的字符图案存储在字符识别字典存储部件22中。
具体地,例如,字符图案提取部件31通过使用垂直笔划个数“3”和水平笔划个数“4”从输入字符图像“早”提取垂直笔划和水平笔划,其中垂直笔划个数“3”和水平笔划个数“4”是与存储在字符结构字典存储部件21中的字符类型“早”的结构相关的信息。
字符图案提取部件31将所提取的垂直和水平笔划彼此组合并提取输入字符图像“早”的字符图案。随后,字符图案提取部件31将所提取的字符图案存储在与所述字符类型“早”关联的字符识别字典存储部件22中。
字符图案提取部件31将所述字符图案提取处理应用于要关于输入字符图像“早”进行比较和分类的字符类型,例如,“言”和“中”。因此,字符图案提取部件31提取多个字符图案以便将所提取的字符图案存储在字符识别字典存储部件22中。
相似性计算部件32将通过字符图案提取部件31存储在字符识别字典存储部件22中的字符图案与对应于所述字符图案的相应字符类型进行比较,以计算相似性。接着,相似性计算部件32输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果。
在使用上述实施例进行具体描述时,相似性计算部件32将通过字符图案提取部件31存储在字符识别字典存储部件22中的字符图像“早”的字符图案与对应于所述字符图案的字符类型“早”进行比较,以计算相似性。此外,相似性计算部件32将通过字符图案提取部件31存储在字符识别字典存储部件22中的字符图案,例如“言”和“中”,与例如“言”和“中”等的字符图案的字符类型进行比较以计算相应的相似性。
接着,相似性计算部件32输出通过上述计算所获得的具有最大相似性的字符类型“早”,作为所述输入字符图像“早”的识别结果。作为输入字符图像的识别结果,可输出作为已被计算相似性的候选字符类型的字符(例如“言”和“中”等)的字符代码以及包括所计算出的相似性的信息。
接下来,使用图5来描述例如通过根据一实施方式的字符识别设备10所执行的字符识别处理。图5为用于说明由根据一实施方式的字符识别设备10所执行的字符识别处理的流程图。
如图5中所示,当从预定设备、预定介质等输入字符图像时(操作S11中为“是”),字符识别设备10基于输入字符图像的信息和与所存储的字符类型的结构相关的信息提取字符图案。所述字符类型结构信息可被存储在字符结构字典存储部件21中。所提取的字符图案被存储在字符识别字典存储部件22中(操作S12)。尽管讨论了从预定介质或设备输入字符图像,但是本发明并非局限于从任何特定的源进行输入。
例如,当从扫描仪、介质(CD-R)等输入字符图像时,字符识别设备10通过使用垂直笔划个数“3”和水平笔划个数“4”从输入的退化的灰度图像,例如“早”中提取垂直笔划和水平笔划,其中垂直笔划个数“3”和水平笔划个数“4”是与存储在字符结构字典存储部件21中的字符类型“早”的结构相关的信息。
接着,字符识别设备10将所提取的垂直笔划和水平笔划彼此组合并提取输入的退化的灰度图像“早”的字符图案。随后,字符识别设备10将所提取的字符图案存储在与字符类型“早”关联的字符识别字典存储部件22中。
接着,字符识别设备10将存储在字符识别字典存储部件22中的字符图案与对应于所述字符图案的相应字符类型进行比较以计算相似性。接着,字符识别设备10输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果(操作S13)。
例如,字符识别设备10将存储在字符识别字典存储部件22中的退化的灰度图像“早”的字符图案与对应于所述字符图案的字符类型“早”进行比较以计算相似性。接着,字符识别设备10输出通过所述计算而获得的具有最大相似性的字符类型“早”,作为输入的退化的灰度图像“早”的识别结果。
作为输入的退化的灰度图像“早”的识别结果,除了字符类型“早”之外,还可输出作为已被计算相似性的候选字符类型的字符(例如,“言”和“中”)的字符代码或包括所计算出的相似性的信息。
接下来,将使用图6来详细描述根据一实施方式的字符图案提取处理。图6为用于详细说明根据一实施方式的字符图案提取处理的流程图。下文所描述的字符图案提取处理对应于图5中所示的操作S12中的处理。
如图6中所示,当输入字符图像(操作S21中为“是”)时,字符识别设备10对图像信息进行数字转换。具体地,将输入字符图像转换成白色区域范围和黑色区域范围(操作S22)。
具体地,当从扫描仪、介质(CD-R)等输入字符图像时,字符识别设备10将输入字符图像转换成灰度图像,其中输入图像中的白色区域范围为“0”而黑色区域范围为“255”。随后,如图7中所示,字符识别设备10将边缘过滤器应用于输入字符图像的信息(原始图像信息)以计算字符图像中的边界值,并将所计算出的边界值的信息确定为所述字符图像的数字信息。图7说明根据一实施方式的字符图像中的区域信息获取处理。
由于所计算出的边界值信息为强烈保持图像退化的影响的数字信息,因此字符识别设备10通过使用图8所示出的S形函数对所述数字信息进行平滑,从而使弱的边界值信息变得尽可能地强或使强的边界值信息被减弱到特定值。图8说明根据一实施方式的使用S形函数对边界值信息进行的平滑处理。
字符识别设备10基于通过对输入字符图像进行数字转换所获得的信息和与存储在字符结构字典存储部件21中的字符类型的垂直和水平段的个数相关的信息,通过动态编程来检测所述输入字符图像的段(操作S23),并提取字符图案以便将所提取的字符图案存储在字符识别字典存储部件22中(操作S24)。
在使用上述实施例进行具体描述时,基于通过对所述输入字符图像进行数字转换而获得的信息和与存储在字符结构字典存储部件21中的字符类型的垂直和水平段的个数相关的信息,字符识别设备10通过使用下列公式(1)中所描述的动态编程的计算公式来检测输入字符图像中的字符笔划。通过使用公式(1)计算最大估算值来检测字符图像中的字符笔划。
(1)
通过使用下列公式(2)中所描述的边界信息的各单元的平均值的计算公式来计算公式(1)中所描述的X坐标范围(xs,xe)和Y坐标范围(ys,ye)内的白色区域估算值(例如,“Wx(Y0)”):
(2)
同白色区域估算值一样,基于各单元的平均值来计算公式(1)中所示的黑色区域估算值(例如,“Bx(Y1)”)。如图9中所示,黑色区域估算值中的黑色区域的边界值被分类成三个区域:“黑加区域”、“一致区域(白色区域)”和“黑减区域”。因此,如下列公式(3)中所示,通过黑加区域内的估算值“Bu”、黑减区域内的估算值“Bd”和一致区域(白色区域)内的估算值“Wc”的总和来计算黑色区域估算值。图9说明根据一实施方式的黑色区域估算值的获取。
(3)
即,字符识别设备10通过使用公式(2)从公式(1)中的“Y0”至“YN”计算白色区域估算值,并通过使用公式(3)从“Y0”至“YN”计算黑色区域估算值,从而计算最大估算值,由此字符识别设备10检测输入字符图像中的字符笔划。此后,字符识别设备10将检测到的字符笔划彼此组合以提取字符图案,并将所提取的字符图案存储在字符识别字典存储部件22中。
如上所述,根据一实施方式,当字符识别设备10识别输入字符图像并输出识别结果时,其可通过使用要关于输入字符图像被比较和分类的字符类型的结构的信息来提取字符图案,并计算所提取的字符图案与对应于所述字符图案的字符类型之间的相应的相似性。接着,字符识别设备10可输出通过所述计算而获得的具有最大相似性的字符类型,作为输入字符图像的识别结果,由此可实现高准确度的字符识别。
例如,当字符识别设备10识别输入字符图像并输出识别结果时,其通过使用垂直笔划个数“3”和水平笔划个数“4”从输入字符图像“早”提取垂直笔划和水平笔划,其中所述垂直笔划个数“3”和水平笔划个数“4”是与字符类型“早”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“早”的字符图案。随后,字符识别设备10将所提取的字符图像“早”的字符图案与对应于所述字符图案的字符类型“早”进行比较以计算相似性。此后,字符识别设备10输出通过所述计算而获得的具有最大相似性的字符类型“早”,作为所述输入字符图像“早”的识别结果。因此,字符识别设备10可实现高准确度的字符识别。
在上述实施方式中,在提取字符图案时,通过动态编程来计算白色区域范围的估算值和黑色区域范围的估算值,并输出具有最大估算值的字符类型;然而,本发明并非局限于此。字符图案的提取可以是使得通过动态编程来计算白色区域范围的估算值和黑色区域范围的估算值,并且取决于所述段的长度来增加黑色区域估算值,由此输出具有最大估算值的字符类型。
因此,在一实施方式中,使用公式(4)至(6)来描述通过根据一实施方式的字符识别设备10所执行的字符图案提取处理。在根据一实施方式的字符识别设备10中,将不重复对与上述实施方式中相同的各个元件和一些功能的描述。将对不同于上述实施方式的使用两级动态编程的字符图案提取处理进行特别地描述。
普遍知道,与人工图1像相比,在自然图像中,例如在通过扫描仪、数字照相机等获得的退化的灰度图像中,由于采集分辨率、拍摄条件等而使得灰度值很难是常量值。在获得此状态下的边界值和使用公式(3)来计算黑色区域估算值时,由于所述灰度级,输入字符图像中的区域(其中的段实际上应较长且连续)只能在较短的连续区域内获得高的估算,因此,尽可能长的连续区域应获得高的估算。因此,在计算估算值时,为了对所述长的连续区域进行高地估算,如下列公式(4)中所述来计算增加的分量“B1(X)”:
(4)
B1(X)=1.0+((xe-xs)*0.1)
在由字符识别设备10对黑色区域估算值的计算中,由于图9所示的一致区域(白色区域)的颜色不是白色,因此使用所述一致区域的灰度级向黑色区域估算值增加点,并如下列公式(5)中所述从输入字符图像的灰度级计算估算值“Bs(X,Y)”:
(5)
Bs(X,Y)=ShadeAve(X,Y)-ShadeAve(XAll,YAll)
使用公式(4)和(5),字符识别设备10通过计算区域(X,Y)内的最终黑色区域估算值“B(X,Y)”(如下列公式(6)中所述)来计算黑色区域估算值。此外,字符识别设备10提取具有最大计算估算值的段作为字符图案,并输出在所提取的字符图案与对应于所述字符图案的字符类型之间具有最大相似性的字符类型,作为所述输入字符图像的识别结果。所述相似性包括距离值(字符图案与字符类型之间的距离向量)以及鉴别函数值等,用于测量通过黑白字符识别而获得的字符的相似性。
(6)
B(X,Y)=Wc+(Bu+Bd+Bs)*B1
如上述,当根据一实施方式的字符识别设备10识别输入字符图像并输出识别结果时,其可基于将输入字符图像数字转换成白色区域范围和黑色区域范围而获得的信息以及与字符类型的垂直和水平段的个数相关的信息,通过动态编程来检测所述输入字符图像的段,根据所述段的长度来提取要被增加黑色区域的字符图案,并计算所提取的字符图案与对应于所述字符图案的字符类型之间的距离值。接着,字符识别设备10可输出通过所述计算而获得的具有最近距离值的字符类型或为其距离值已被计算的候选字符类型的字符的信息,作为输入字符图像的识别结果,由此可稳定地实现更高准确度的字符识别。
即,当字符识别设备10识别输入字符图像并输出识别结果时,字符识别设备10通过使用所述增加的分量来计算用于所述字符类型的垂直和水平段的最终黑色估算值,以便对所述长的连续区域进行高的估算,由此可稳定地实现更高准确度的字符识别,其中,所述黑色估算值要关于输入字符图像被比较和分类。
在上述实施方式中,基于输入图像的垂直和水平段的个数以及所述段的长度来计算相似性;然而,本发明并非局限于此。还可基于输入图像的垂直和水平段的位置信息来计算相似性。
因此,在下文所描述的实施方式中,基于输入图像的垂直和水平段的位置信息来计算相似性。图10至15用于所述描述。
首先,将使用图10来描述根据一实施方式的字符识别设备10的概要。图10示出根据一实施方式的字符识别设备10的概要。在下列情况下,输入字符图像“口”。
在字符识别设备10中,将与字符类型的结构相关的信息存储在与字符类型关联的结构字典存储部件中,所述字符类型各自表示在识别输入字符图像之后输出的字符。接着,字符识别设备10基于所述输入字符图像的信息和与存储在结构字典存储部件中的字符类型的结构相关的信息提取字符图案,在对输入字符图像的识别过程中,所提取的字符图案被与字符类型进行比较(参看图10(1))。
具体地,字符识别设备10通过使用垂直笔划个数,例如“2”和水平笔划的个数例如“2”从输入字符图像,例如“口”中提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件中的字符类型“口”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
此外,字符识别设备10通过使用垂直笔划个数,例如“2”和水平笔划个数,例如“2”从输入字符图像,例如“口”中提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件中的字符类型,例如“井”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
若所述字符图案是提取自存储在字符结构字典存储部件中的所有字符类型,则需要大量的处理时间,因此,使用现有技术将对应于从输入字符图像所提取的字符图案的字符类型的个数限定至某一范围。即,字符识别设备10将常规使用的字符识别处理应用于输入字符图像,将从字符识别处理所获得的候选结果确定为字符类型,并通过使用所述字符类型的结构信息提取字符图案。
接着,字符识别设备10将所提取的字符图案与存储在结构字典存储部件中的各个字符类型进行比较以计算相似性。接着,字符识别设备10输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果(参看图10(2))。
在使用上述实施例进行具体描述时,字符识别设备10将所提取的字符图像“口”的字符图案的垂直笔划从左到右依次确定为“T1”和“T2”,并将水平笔划从上到下依次确定为“Y1”和“Y2”。接着,字符识别设备10确定“T1”和“Y1”的位置信息(接触信息)为“T1×Y1,0%,0%”。“T1×Y1,0%,0%”表示垂直笔划“T1”和水平笔划“Y1”在距垂直笔划“T1”的上端的长度比为“0%”且距水平笔划“Y1”的左端的长度比为“0%”的位置处彼此接触。
同样,字符识别设备10将“T2”和“Y1”的位置信息确定为“T2×Y1,0%,100%”,将“T1”和“Y2”的位置信息确定为“T1×Y2,100%,0%”,以及将“T2”和“Y2”的位置信息确定为“T2×Y2,100%,100%”。
随后,字符识别设备10将所提取的字符图案的位置信息与存储在字符结构字典存储部件中的各个字符类型(例如,“口”和“井”)的位置信息进行比较以计算估算值(相似性)。
例如,在计算估算值时,计算字符图案和字符类型的位置信息的值,或从所述位置信息计算两点之间的欧氏距离。当所计算出的值小于预定阈值时,确定所述估算值匹配“真”(距离接近),而当所计算出的值不小于预定阈值时,确定所述估算值不匹配“假”。接着,字符识别设备10将所有的估算项中被确定为匹配“真”的估算项的个数计算为估算值。
此后,字符识别设备10输出通过上述计算所获得的具有最大估算值的字符类型“口”,作为所述输入字符图像“口”的识别结果。可输出为其估算值已被计算的候选字符类型的字符类型以及包括所述字符类型的字符代码和所计算出的估算值的信息,或者可输出具有较高估算值的最上的几个字符类型,作为输入字符图像的识别结果。
即,字符识别设备10可基于对应于输入字符图像的字符类型的垂直笔划和水平笔划提取字符图案,并输出例如所提取的字符图案的位置信息的具有最大估算值的字符类型和所述字符类型或候选字符类型,由此可实现更高准确度的字符识别,同时减小处理负荷。
接下来,使用图11来描述根据一实施方式的字符识别设备10的配置。图11示出了根据一实施方式的字符识别设备10的配置。
如图11中所示,字符识别设备10包括存储部件20和控制部件30。字符识别设备10识别从连接到字符识别设备10的扫描仪、介质等输入的字符图像,并输出作为字符图像识别结果的字符。
存储部件20存储控制部件30所执行的各种处理所需的数据以及来自控制部件30的各种处理结果,并且特别地包括字符结构字典存储部件21。
字符结构字典存储部件21存储关于与字符类型关联的字符类型的结构的信息,所述字符类型各自表示要在识别输入字符图像之后输出的字符。具体地,如图12中所示,字符结构字典存储部件21存储与所述字符类型关联的、表示要在识别输入字符图像之后输出的字符的字符类型的垂直笔划个数和侧ID(笔划ID)、水平笔划个数和侧ID以及位置信息。
例如,如图12中所示,字符结构字典存储部件21存储与字符类型“口”关联的字符类型“口”的垂直笔划个数“2”和侧ID“T1”和“T2”、水平笔划个数“2”和侧ID“Y1”和“Y2”、位置信息“T1×Y1,0%,0%”等。图12示出了存储在字符结构字典存储部件21中的信息的实施例。
如图13中所示,例如,存储在字符结构字典存储部件21中的字符类型“口”的位置信息为A“T1×Y1,0%,0%”、B“T2×Y1,0%,100%”、C“T1×Y2,100%,0%”和D“T2×Y2,100%,100%”。“T1×Y1,0%,0%”表示垂直笔划“T1”和水平笔划“Y1”在距垂直笔划“T1”的上端的长度比为“0%”且距水平笔划“Y1”的左端的长度比为“0%”的位置处彼此接触。图13示出了字符类型“口”的位置信息。
此外,例如,如图12中所示,字符结构字典存储部件21存储与字符类型“井”关联的字符类型“井”的垂直笔划个数“2”和侧ID“T1”和“T2”、水平笔划个数“2”和侧ID“Y1”和“Y2”以及位置信息“T1×Y1,30%,30%”等。
存储在字符结构字典存储部件21中的字符类型“井”的位置信息为例如,如图14中所示,P“T1×Y1,30%,30%”、Q“T2×Y1,30%,70%”、R“T1×Y2,70%,30%”以及S“T2×Y2,70%,70%”。“T1×Y1,30%,30%”表示垂直笔划“T1”和水平笔划“Y1”在距垂直笔划“T1”的上端的长度比为“30%”且距水平笔划“Y1”的左端的长度比为“30%”的位置处彼此相交。图14示出了字符类型“井”的位置信息。
控制部件30包括内存储器,其用于存储控制程序、规定各种处理的过程的程序等以及所需的数据。具体地,控制部件30包括字符图案提取部件31和估算值计算部件33,并通过使用这些部件执行各种处理。
字符图案提取部件31基于所述输入字符图像的信息和与存储在字符结构字典存储部件21中的字符类型的结构相关的信息提取字符图案。具体地,例如,字符图案提取部件31通过使用垂直笔划个数“2”和水平笔划个数“2”从输入字符图像“口”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件21中的字符类型“口”的结构相关的信息。
接着,字符图案提取部件31将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。字符图案提取部件31将所述字符图案提取处理应用于存储在字符结构字典存储部件21中的所有字符类型或应用于有限个数的字符类型,其中所述个数限制在一定范围。
估算值计算部件33将通过字符图案提取部件31提取的字符图案与存储在字符结构字典存储部件21中的相应字符类型进行比较以计算相似性。接着,估算值计算部件33输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果。
在使用上述实施例进行具体描述时,估算值计算部件33将字符图像“口”的所提取的字符图案的垂直笔划从左到右依次确定为“T1”和“T2”,并将水平笔划从上到下依次确定为“Y1”和“Y2”。接着,估算值计算部件33将“T1”和“Y1”的位置信息确定为“T1×Y1,0%,0%”。“T1×Y1,0%,0%”表示垂直笔划“T1”和水平笔划“Y1”在距垂直笔划“T1”的上端的长度比为“0%”且距水平笔划“Y1”的左端的长度比为“0%”的位置处彼此接触。
同样,估算值计算部件33确定“T2”和“Y1”的位置信息为“T2×Y1,0%,100%”,“T1”和“Y2”的位置信息为“T1×Y2,100%,0%”,且“T2”和“Y2”的位置信息为“T2×Y2,100%,100%”。
随后,估算值计算部件33将所提取的字符图案的位置信息与存储在字符结构字典存储部件21中的各个字符类型(例如,“口”和“井”)的位置信息进行比较以计算估算值。在计算估算值时,例如,计算所述字符图案和字符类型的位置信息的值,或从所述位置信息计算两点之间的欧氏距离。当所计算出的值小于预定阈值时,将所述估算值确定为匹配“真”(距离接近);而当所计算出的值不小于预定阈值时,将所述估算值确定为不匹配“假”。
详细地,当存储在字符结构字典存储部件21中的所提取的字符图案和字符类型的垂直和水平笔划“T1”和“Y1”的位置信息“0%,0%”的每个值小于预定值时,将所述估算值确定为匹配“真”。当这些值中的每一个均不小于预定阈值时,将所述估算值确定为不匹配“假”。例如,当所提取的字符图案的位置信息为“T1×Y1,20%,50%”且所比较的字符类型的位置信息为“T1×Y1,23%,49%”时,则所述估算值被输出为匹配“真”。
估算值计算部件33从所有条件“Cn”的个数和被确定为匹配“真”的估算值的个数“K”计算“估算值=K÷Cn”,并输出通过所述计算而获得的具有最大估算值的字符类型“口”,作为所述输入字符图像“口”的识别结果。可输出为其估算值已被计算的候选字符类型的字符类型以及包括所述字符类型的字符代码和所计算出的估算值的信息,或者可输出具有较高估算值的最上的几个字符类型,作为输入字符图像的识别结果。
接下来,使用图15来描述通过根据第三实施方式的字符识别设备10所执行的字符识别处理。图15为用于说明由根据一实施方式的字符识别设备10所执行的字符识别处理的流程图。
如图15中所示,当从预定设备、预定介质等输入字符图像时(操作S31中为“是”),字符识别设备10基于所述输入字符图像的信息和与存储在字符结构字典存储部件21中的字符类型的结构相关的信息提取字符图案(操作S32)。
例如,当从扫描仪、介质(CD-R,等)等输入字符图像“口”时,字符识别设备10通过使用垂直笔划个数“2”和水平笔划个数“2”从输入字符图像“口”提取垂直笔划和水平笔划,其中,所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件21中的字符类型“口”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
进一步,在提取字符类型“口”的字符图案之后,字符识别设备10通过使用垂直笔划个数“2”和水平笔划个数“2”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件21中的字符类型“井”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
随后,字符识别设备10将所提取的字符图案与存储在字符结构字典存储部件21中的各个字符类型进行比较以计算相似性。接着,字符识别设备10输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果(操作S33)。
例如,字符识别设备10确定字符图像“口”的所提取的字符图案的垂直笔划从左到右依次为“T1”和“T2”,且水平笔划从上到下依次为“Y1”和“Y2”。接着,字符识别设备10确定“T1”和“Y1”的位置信息为“T1×Y1,0%,0%”。同样,字符识别设备10确定“T2”和“Y1”的位置信息为“T2×Y1,0%,100%”,“T1”和“Y2”的位置信息为“T1×Y2,100%,0%”,而“T2”和“Y2”的位置信息为“T2×Y2,100%,100%”。
接着,字符识别设备10将所提取的字符图案的位置信息与存储在字符结构字典存储部件21中的各个字符类型(例如,“口”和“井”)的位置信息进行比较以计算估算值。当存储在字符结构字典存储部件21中的所提取的字符图案和字符类型的垂直和水平笔划“T1”和“Y1”的位置信息“0%,0%”的各个值小于预定值时,字符识别设备10确定估算值为匹配“真”,而当所述值不小于预定值时,字符识别设备10确定估算值为不匹配“假”。
字符识别设备10从所有条件“Cn”的个数和被确定为匹配“真”的估算值的个数“K”计算“估算值=K÷Cn”,并输出通过所述计算而获得的具有最大估算值的字符类型“口”,作为所述输入字符图像“口”的识别结果。可输出为估算值已被计算出的候选字符类型的字符类型以及包括所述字符类型的字符代码和所计算出的估算值的信息,或者可输出具有更高的估算值的最上的几个字符类型,作为输入字符图像的识别结果。
根据一实施方式的字符识别设备10基于输入字符图像的垂直和水平段的位置信息计算估算值(相似性),且可输出通过所述计算而获得的具有最大估算值的字符类型,或候选字符类型,由此可实现更高准确度的字符识别,同时减小处理负荷。
在上述实施方式中,基于输入图像的垂直和水平段的个数提取字符图案,并计算和输出所提取的字符图案与对应于所述字符图案的字符类型之间的相似性或估算值;当然,本发明并非局限于此。可基于输入图像的垂直和水平段的个数提取字符图案,且在所提取的字符图案和对应于所述字符图案的字符类型中,可输出呈包含关系的更高的字符类型。
因此,在一实施方式中,基于输入图像的垂直和水平段的个数提取字符图案,且在所提取的字符图案和对应于所述字符图案的字符类型中,可输出呈包含关系的更高的字符类型。图16至20用于所述描述。
首先,使用图16来描述根据一实施方式的字符识别设备10的概要。图16示出根据一实施方式的字符识别设备10的概要。在下列情形中,输入字符图像“口”。
字符识别设备10将与字符类型的结构相关的信息存储在与字符类型关联的结构字典存储部件中,所述字符类型的每一个表示要在识别出输入字符图像之后输出的字符。此外,在字符识别设备10中,将包含字符信息存储在包含字符存储部件中。对于所有的字符类型,包含字符信息表示第一预定字符类型包括作为其一部分的第二预定字符类型。
字符识别设备10基于所述输入字符图像的信息和与存储在结构字典存储部件中的字符类型的结构相关的信息提取字符图案,在对输入字符图像的识别过程中,所提取的字符图案被与字符类型进行比较(参看图16(1))。
具体地,字符识别设备10通过使用垂直笔划个数“2”和水平笔划个数“2”从输入字符图像“口”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件中的字符类型“口”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
此外,字符识别设备10通过使用垂直笔划个数“2”和水平笔划个数“2”从输入字符图像“口”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件中的字符类型“井”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
若所述字符图案是提取自存储在字符结构字典存储部件中的所有字符类型,则需要大量的处理时间,因此,使用现有技术将对应于从输入字符图像所提取的字符图案的字符类型的个数限定至一定范围。即,字符识别设备10将常规使用的字符识别处理应用于输入字符图像,将从所述字符识别处理所获得的候选结果确定为字符类型,并通过使用所述字符类型的结构信息提取字符图案。
接着,字符识别设备10输出作为对应于所提取的字符图案且存储在包含字符存储部件中的最上的字符类型或为候选字符类型的字符的信息,作为所述输入字符图像的识别结果(参看图16(2))。
在使用上述实施例进行具体描述时,字符识别设备10输出为对应于所提取的字符图案的字符类型且存储在包含字符存储部件中的最上的字符类型“口”(例如,“口”、“一”和“二”)或例如为候选字符类型的字符类型“一”和“二”的信息,作为所述输入字符图像“口”的识别结果。
这里,包含字符表示包括例如,字符类型“王”的结构信息(笔划)的字符。字符类型“王”包括,例如“一”、“二”、“三”和“工”的结构信息,由此“一”、“二”、“三”和“工”为“王”的包含字符。
即,字符识别设备10可基于对应于输入字符图像的字符类型的垂直笔划和水平笔划提取字符图案,并且从对应于所提取的字符图案的字符类型中,可输出呈包含关系的最上的字符类型或候选字符类型,由此可实现更高准确度的字符识别,同时减小处理负荷。
换句话说,即使对于例如“王”等具有多个包含字符的字符类型,字符识别设备10仍可输出作为包含字符中最上的包含字符的字符类型,作为输入字符图像的识别结果,由此可实现更高准确度的字符识别。
接下来,使用图17来描述根据一实施方式的字符识别设备10的配置。图17示出根据第四实施方式的字符识别设备10的配置。
如图17中所示,字符识别设备10包括存储部件20和控制部件30。字符识别设备10识别从连接到字符识别设备10的扫描仪、介质等输入的字符图像,并输出作为字符图像的识别结果的字符。
存储部件20存储控制部件30所执行的各种处理所需的数据和控制部件30所执行的各种处理的结果,且特别地包括字符结构字典存储部件21和包含字符存储部件23。
字符结构字典存储部件21存储关于与各个字符类型关联的字符类型的结构的信息,所述字符类型各自表示要在识别出输入字符图像之后输出的字符。例如,字符结构字典存储部件21存储与包括字符类型“口”的垂直笔划个数“2”和水平笔划个数“2”的结构相关的信息,其中所述字符类型“口”与表示要在识别出输入字符图像“口”之后输出的字符的字符类型“口”关联。
此外,例如字符结构字典存储部件21存储与包括字符类型“井”的垂直笔划个数“2”和水平笔划个数“2”的结构相关的信息,其中所述字符类型“井”与表示要在识别出输入字符图像“口”之后输出的字符的字符类型“井”关联。
包含字符存储部件23存储包含字符信息,对于所有的字符类型,所述包含字符信息指示第一预定字符类型包含第二预定字符类型作为其一部分。具体地,如图18中所示,包含字符存储部件23存储与表示所有字符类型的标识符的“ID”关联的“字符类型”和“指示符”。“指示符”表示字符类型的ID,其中所述字符类型包括作为包含字符的字符类型。
例如,如图18中所示,包含字符存储部件23存储与表示所有字符类型的标识符的ID“1”关联的字符类型“一”和指示符“2,7,...”。指示符“2”是指字符类型“二”。图18示出存储在包含字符存储部件23中的信息的实施例。
如图19中所示,存储在包含字符存储部件23中的信息示出预定字符类型“一”与包括作为包含字符的“一”的字符类型“二”或“十”之间的关系。即,字符类型“王”包括例如“一”、“二”、“三”和“十”等包含字符。图19示出包含字符中的有向图(digraph)的图像。
控制部件30包括内存储器,其用于存储控制程序、规定各种处理等的过程的程序以及所需的数据。具体地,控制部件30包括字符图案提取部件31和包含字符输出部件34,并通过使用这些部件执行各种处理。
字符图案提取部件31基于所述输入字符图像的信息和与存储在字符结构字典存储部件21中的字符类型的结构相关的信息提取字符图案。具体地说,例如,字符图案提取部件31通过使用垂直笔划个数“2”和水平笔划个数“2”从存储在字符结构字典存储部件21中的输入字符图像“口”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件21中的字符类型“口”的结构相关的信息。
接着,字符图案提取部件31将所提取的垂直和水平笔划彼此组合,并提取所述输入字符图像“口”的字符图案。字符图案提取部件31将所述字符图案提取处理应用于存储在字符结构字典存储部件21中的所有字符类型或应用于个数限于一定范围的一些字符类型。
包含字符输出部件34输出为对应于所提取的字符图案的且存储在包含字符存储部件23中的最上的字符类型或为候选字符类型的字符的信息,作为输入字符图像的识别结果。
在使用上述实施例进行具体描述时,包含字符输出部件34输出对应于字符图案提取部件31所提取的且存储在包含字符存储部件23中的字符图案的字符类型(例如,“口”、“一”和“二”)的最上的字符类型“口”或例如“一”和“二”等的为候选字符类型的字符类型的信息,作为所述输入字符图像“口”的识别结果。
例如,当从输入图像“王”提取字符图案,且因此对应于输入图像“王”的字符类型为“一”、“二”、“三”、“十”、“工”和“王”时,包含字符输出部件34通过使用包含字符存储部件23获取所述字符类型的每个包含字符。接着,包含字符输出部件34输出为所述字符类型的最上的包含字符的字符类型“王”,作为识别结果。
即,如图24的实施例所示,关于字符类型“三”和“王”,作为识别结果,它们与输入图像“王”的相似性高到一定程度,字符类型“三”为字符类型“王”的包含字符。因此,包含字符输出部件34将作为最上包含字符的字符类型“王”输出为识别结果。图24示出在输入字符图像“王”时相似性较高的字符类型。
接下来,使用图20来描述通过根据第四实施方式的字符识别设备10所执行的字符识别处理。图20为用于说明由根据第四实施方式的字符识别设备10所执行的字符识别处理的流程图。
如图20中所示,当输入字符图像(操作S41中的“是”)时,字符识别设备10基于输入字符图像的信息和与存储在字符结构字典存储部件21中的字符类型的结构相关的信息来提取字符图案(操作S42)。
例如,当从扫描仪、介质(CD-R,等)等输入字符图像“口”时,字符识别设备10通过使用垂直笔划个数“2”和水平笔划个数“2”从输入字符图像“口”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件21中的字符类型“口”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
在提取字符类型“口”的字符图案之后,字符识别设备10通过使用垂直笔划个数,例如“2”和水平笔划个数,例如“2”来提取垂直笔划和水平笔划,其中所述垂直笔划个数和水平笔划个数是与存储在字符结构字典存储部件21中的字符类型例如“井”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
接着,字符识别设备10输出为对应于所提取的字符图案且存储在包含字符存储部件23中的最上字符类型或为候选字符类型的字符的信息,作为输入字符图像的识别结果(操作S43)。
例如,字符识别设备10将与由字符图案提取部件所提取的字符图案对应且存储在包含字符存储部件23中的字符类型(例如,“口”、“一”和“二”)中的最上字符类型“口”或为候选字符类型的例如“一”和“二”等的字符类型的信息,作为所述输入字符图像“口”的识别结果。
根据一实施方式的字符识别设备10可基于对应于输入字符图像的字符类型的垂直和水平笔划提取字符图案,并输出作为对应于所提取的字符图案的字符类型的包含关系中的最上字符类型,或候选字符类型,由此可实现更高准确度的字符识别。
尽管已描述了本发明的实施方式,但是本发明可应用于上述实施方式以外的各种不同的实施方式。因此,下文将描述具有不同字符类型的结构信息的实施方式、使用二值化参数的实施方式、使用相似性计算和包含字符输出的实施方式、以及字符识别设备的配置和程序。
(1)字符类型的结构信息
在上述实施方式中,通过使用垂直和水平段(笔划)的个数作为字符类型的结构信息来提取输入字符图像的字符图案;然而,本发明并非局限于此。也可通过使用对角线笔划、闭合回路的个数等作为字符类型的结构信息来提取输入字符图像的字符图案。例如,在字符识别设备10中,将具有对角线笔划的“文”、包括闭合回路的“章”等的结构信息存储在用于存储字符类型的结构信息的字符结构字典存储部件21中。然后,字符识别设备10通过使用存储在字符结构字典存储部件21中的结构信息来提取例如“文”和“章”等的输入字符图像的字符图案。字符识别设备10不仅可提取日本汉字的字符图案,而且可提取具有所述字符类型的结构信息的任何字符,例如,平假名、罗马字体或任何其它类型的字母的字符图案。
(2)使用二值化参数
在上述实施方式中,通过使用动态编程来提取字符图案;然而,本发明并非局限于此。可在改变二值化参数的同时提取字符图案。例如,在由二值化参数执行的字符图案提取中,当二值化参数小时,所提取的字符图案模糊,而当二值化参数大时会破坏所提取的字符图案或者会产生噪声。字符识别设备10通过使用字符类型的段的个数来提取段,同时改变二值化参数,由此字符识别设备10可通过始终使用段的个数来提取字符图案。
(3)使用相似性计算和包含字符输出
在上述实施方式中,使用相似性计算、估算值计算和包含字符输出中的任一种来执行字符识别处理;然而,本发明并非局限于此。可使用相似性计算和/或估算值计算以及包含字符输出来执行字符识别处理。
下文使用图21来描述使用相似性计算和/或估算值计算以及包含字符输出的字符识别处理的流程。图21为用于描绘使用相似性计算和/或估算值计算以及包含字符输出的字符识别处理的流程图。
如图21中所示,当输入字符图像(操作S51中为“是”)时,字符识别设备10基于输入字符图像的信息和与存储在字符结构字典存储部件21中的字符类型的结构相关的信息提取字符图案(操作S52)。
例如,当从扫描仪、介质(CD-R,等)等输入字符图像“口”时,字符识别设备10通过使用垂直笔划个数“2”和水平笔划个数“2”从输入字符图像“口”提取垂直笔划和水平笔划,其中所述垂直笔划个数“2”和水平笔划个数“2”是与存储在字符结构字典存储部件21中的字符类型“口”的结构相关的信息。接着,字符识别设备10将所提取的垂直和水平笔划彼此组合,并提取输入字符图像“口”的字符图案。
接着,字符识别设备10将所提取的字符图案与对应于所述字符图案的相应的字符类型进行比较以计算相似性。接着,字符识别设备10输出通过所述计算而获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为输入字符图像的识别结果(操作S53)。
例如,字符识别设备10计算如在上述实施方式中所使用的相似性或如在一实施方式中所使用的估算值,并输出为候选字符识别结果的最上的几个字符类型。通过使用相似性和估算值,可使用通过将所计算出的估算值增加到所计算出的相似性而获得的值来输出候选字符识别结果。
随后,字符识别设备10输出为存储在包含字符存储部件23中的最上输出字符类型的字符类型或为候选字符类型的字符的信息,作为输入字符图像的识别结果(操作S54)。
例如,字符识别设备10输出存储在包含字符存储部件23中的输出字符类型(例如,“口”、“一”和“二”)中的最上字符类型“口”,或例如“一”和“二”等的为候选字符类型的字符类型的信息,作为所述输入字符图像“口”的识别结果。
即,字符识别设备10可输出在所提取的字符图案与对应于所述字符图案的字符类型之间具有更高相似性和/或估算值的候选字符类型中的包含字符关系中的最上字符类型,或输出候选字符类型中的最上的几个字符类型,由此可实现更高准确度的字符识别。
此外,除非另有说明,可按需改变上文所描述的或附图中所描述的处理过程、控制过程、特定名称以及包括各种数据和参数的信息(例如,存储在如图2所示的字符结构字典存储部件21中的字符类型的结构信息)。
此外,所描述的设备的各个元件在功能上是概念性的,并非必须如附图中所示的那样进行物理配置。换句话说,各个设备的特定分配和集成形态并非局限于附图中的描述,而是可根据不同的负荷、使用状态等,通过在功能上或物理上对它们进行分配和集成从而对各个元件的整体或部分进行配置。例如,可将字符图像接收部件31分配到用于接收输入字符图像的字符图像接收部分和用于提取所接收到的字符图像的字符图案的字符图案提取部件中,或者可将相似性计算部件32分配到用于计算所提取的字符图案与对应于所述字符图案的字符类型之间的相似性的相似性计算部件以及用于输出通过计算获得的具有最大相似性的字符类型的识别结果输出部件中。此外,可通过CPU和由该CPU所分析和执行的程序来实现在相应设备中所执行的相应处理功能中的全部和一部分,或者可被实现为有线逻辑硬件。
在上述实施方式中,通过硬件逻辑来实现各种处理;然而,本发明并非局限于此,而是可通过计算机来执行上文所提供的程序,由此可实现各种处理。因此,下文使用图22来描述一种用于执行字符识别程序的计算机的实施例,所述计算机具有与上述实施方式中所描述的字符识别设备10相似的功能。图22示出用于执行字符识别程序的计算机。
如图22中所示,作为字符识别设备的计算机110通过总线180等与HDD 130、CPU 140、ROM 150和RAM 160相连。
上述实施方式中示出用于实现类似于字符识别设备10的功能的字符识别程序,即,字符图案提取程序150a和相似性计算程序150b预先存储在ROM 150中,如图22中所示。可对程序150a和150b进行适当地集成或分配,如同对图2中所示的字符识别设备10的各个元件进行的一样。
通过CPU 140从ROM 150中进行读取,程序150a和150b用作字符图案提取处理140a和相似性计算处理140b。处理140a和140b分别对应于图2所示的字符图案提取部件31和相似性计算部件32。
CPU 140基于记录在RAM 160中的字符结构字典数据160a和字符识别字典数据160b执行字符识别程序。
从一开始(一直),程序150a和150b就不必存储在ROM 150中,而是例如,每个程序可存储于:“便携式物理介质”中,例如,计算机110可读取的软磁盘(FD)、CD-ROM、DVD盘、磁光盘和IC卡;“固定物理介质”中,例如位于计算机110内部或外部的HDD;或通过公用通信线路、Internet、LAN、WAN等与计算机110连接的“另一计算机(或服务器)”;由此,计算机110可从这些介质读出程序150a和150b并执行所述程序。
尽管已描绘和示出一些实施方式,但是应当理解,本领域的技术人员可在不脱离本发明的原则和精神的情况下进行修改,本发明的范围由权利要求及其等同内容进行限定。本文所陈述的所有实施例和条件性语言均用于教示的目的以帮助读者理解本发明以及本发明人所贡献的用以推动现有技术的概念,应理解其并非限于这些具体描述的实施例和条件,而且所述实施例在说明书中的组织也不涉及对本发明的优劣性的表示。尽管已详细描述了所述实施方式,但是应理解,在不脱离本发明的精神和范围的情况下可设计出各种变化、替换和变更。
Claims (12)
1.一种计算机可读记录介质,其上记录有使计算机执行处理的字符识别程序,所述处理包括:
基于输入字符图像的信息和与字符类型的结构相关的信息提取字符图案,所述字符类型表示要在识别所述输入字符图像之后输出且与所述字符图案进行比较的字符;
计算所提取的字符图案和与所述字符图案相应的所述字符类型之间的相似性;以及
输出具有最大相似性的字符类型和作为已被计算相似性的候选字符类型的字符的信息中的至少一种,作为所述输入字符图像的识别结果。
2.如权利要求1所述的其上记录有字符识别程序的计算机可读记录介质,其中:
所述提取基于所述输入字符图像的信息和与存储在结构字典存储器中的字符类型的结构相关的信息来提取所述字符图案,并将所述字符图案与所述字符类型关联地存储在识别字典存储器中;且
所述计算计算存储在所述识别字典存储器中的所提取的字符图案和与所述字符图案相应的字符类型之间的相似性。
3.如权利要求2所述的其上记录有字符识别程序的计算机可读记录介质,其中:所述提取基于所述输入字符图像的信息和与存储在所述结构字典存储器中的字符类型的垂直和水平段的个数相关的信息来提取所述字符图案。
4.如权利要求2所述的其上记录有字符识别程序的计算机可读记录介质,其中:
所述提取基于通过将所述输入字符图像数字地转换成白色区域范围和黑色区域范围而获得的信息和与存储在所述结构字典存储器中的字符类型的垂直和水平段的个数相关的信息来提取所述字符图案,其中通过动态编程来检测所述输入字符图像的段。
5.如权利要求2所述的其上记录有字符识别程序的计算机可读记录介质,其中:
所述提取基于通过将所述输入字符图像数字地转换成白色区域范围和黑色区域范围而获得的信息以及与存储在所述结构字典存储器中的字符类型的垂直和水平段的个数相关的信息提取所述字符图案,其中通过动态编程来检测所述输入字符图像的段以及取决于所述段的长度来增加黑色区域;
所述计算计算存储在所述识别字典存储器中的字符图案和与所述字符图案相应的字符类型之间的距离值,作为所述相似性;以及
所述输出输出通过所述计算而获得的具有最近距离值的字符类型和作为已被计算距离值的候选字符类型的字符的信息中的至少一种。
6.如权利要求1所述的其上记录有字符识别程序的计算机可读记录介质,其中:
所述提取基于所述输入字符图像的信息和与存储在结构字典存储器中的字符类型的结构相关的信息提取所述字符图案;且
所述计算计算所提取的字符图案与存储在结构字典存储器中的字符类型之间的相似性。
7.如权利要求6所述的其上记录有字符识别程序的计算机可读记录介质,其中:
所述提取基于所述输入字符图像的信息和与存储在结构字典存储器中的字符类型的垂直和水平段相关的信息来提取所述字符图案;以及
所述计算计算与所提取的字符图案的位置相关的信息和与存储在结构字典存储器中的字符类型的各段的位置相关的信息之间的相似性。
8.如权利要求1所述的其上记录有字符识别程序的计算机可读记录介质,其中:
所述提取基于所述输入字符图像的信息和与存储在结构字典存储器中的所述字符类型的结构相关的信息提取所述字符图案;且
所述输出提供基于包含字符信息而是所输出的字符类型中最上的字符类型和作为所述候选字符类型的字符的信息中的至少一种作为所述输入字符图像的识别结果,其中对于所有的字符类型,所述包含字符信息表明第一预定字符类型包括存储在包含字符存储器中的第二预定字符类型作为其一部分。
9.如权利要求8所述的其上记录有字符识别程序的计算机可读记录介质,其中:所述提取基于所述输入字符图像的信息和与存储在所述结构字典存储器中的字符类型的垂直和水平段的个数相关的信息来提取所述字符图案。
10.一种字符识别设备,包括:
字符图案提取装置,用于基于输入字符图像的信息和与字符类型的结构相关的信息提取字符图案,所述字符类型表示要在识别所述输入字符图像之后输出的字符;和
相似性计算装置,用于将通过所述字符图案提取装置提取的字符图案和与所述字符图案相应的字符类型彼此进行比较以计算相似性;和
输出装置,用于输出通过所述计算获得的具有最大相似性的字符类型或作为已被计算相似性的候选字符类型的字符的信息,作为所述输入字符图像的识别结果。
11.一种字符识别方法,包括:
基于输入字符图像的信息和与字符类型的结构相关的信息提取字符图案,所述字符类型表示要在识别所述输入字符图像之后输出的字符;
将所提取的字符图案与对应于所述字符图案的字符类型进行比较以计算相似性;以及
输出具有最大相似性的字符类型和作为已被计算相似性的候选字符类型的字符的信息中的至少一种,作为所述输入字符图像的识别结果。
12.一种字符识别方法,包括
提取输入图像的信息;以及
比较多个字符类型中的各个字符相对于所述输入图像的字符图案的相似性,并将与所述输入图像具有最大相似性的字符类型提供为识别结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008088339 | 2008-03-28 | ||
JP2008088339 | 2008-03-28 | ||
JP2008220424 | 2008-08-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101546379A true CN101546379A (zh) | 2009-09-30 |
Family
ID=41193507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009101294641A Pending CN101546379A (zh) | 2008-03-28 | 2009-03-20 | 计算机可读记录介质、字符识别设备和字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101546379A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104428790A (zh) * | 2012-07-19 | 2015-03-18 | 高通股份有限公司 | 经由用于梵文光学字符辨识的基于前缀树的解码来处置字的复杂变体的方法 |
CN110178139A (zh) * | 2016-11-14 | 2019-08-27 | 柯达阿拉里斯股份有限公司 | 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法 |
CN110414496A (zh) * | 2018-04-26 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 相似字识别方法、装置、计算机设备及存储介质 |
CN113449639A (zh) * | 2021-06-29 | 2021-09-28 | 深圳市海亿达科技股份有限公司 | 一种物联网网关对仪表的无接触数据采集方法 |
-
2009
- 2009-03-20 CN CNA2009101294641A patent/CN101546379A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104428790A (zh) * | 2012-07-19 | 2015-03-18 | 高通股份有限公司 | 经由用于梵文光学字符辨识的基于前缀树的解码来处置字的复杂变体的方法 |
CN110178139A (zh) * | 2016-11-14 | 2019-08-27 | 柯达阿拉里斯股份有限公司 | 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法 |
CN110414496A (zh) * | 2018-04-26 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 相似字识别方法、装置、计算机设备及存储介质 |
CN110414496B (zh) * | 2018-04-26 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 相似字识别方法、装置、计算机设备及存储介质 |
CN113449639A (zh) * | 2021-06-29 | 2021-09-28 | 深圳市海亿达科技股份有限公司 | 一种物联网网关对仪表的无接触数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pal et al. | Performance of an off-line signature verification method based on texture features on a large indic-script signature dataset | |
Shin et al. | Support vector machine-based text detection in digital video | |
US9665768B2 (en) | Process of handwriting recognition and related apparatus | |
Pinto et al. | Music score binarization based on domain knowledge | |
CN109685065B (zh) | 试卷内容自动分类的版面分析方法、系统 | |
CN102087710A (zh) | 学习设备和方法、识别设备和方法、以及程序 | |
CN107392221B (zh) | 分类模型的训练方法、分类ocr识别结果的方法及装置 | |
US10380456B2 (en) | Classification dictionary learning system, classification dictionary learning method and recording medium | |
US20240013563A1 (en) | System and method to extract information from unstructured image documents | |
Rebelo et al. | Staff line detection and removal in the grayscale domain | |
Shitole et al. | Recognition of handwritten Devanagari characters using linear discriminant analysis | |
Zohrevand et al. | Line segmentation in Persian handwritten documents based on a novel projection histogram method | |
CN101546379A (zh) | 计算机可读记录介质、字符识别设备和字符识别方法 | |
Cüceloğlu et al. | Detecting handwritten signatures in scanned documents | |
Verma et al. | Removal of obstacles in Devanagari script for efficient optical character recognition | |
KR20200068073A (ko) | 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법 | |
Mohammed et al. | Isolated Arabic handwritten words recognition using EHD and HOG methods | |
Ali et al. | Different handwritten character recognition methods: a review | |
Rajput et al. | Zone based handwritten Kannada character recognition using crack code and SVM | |
Seuret et al. | Pixel level handwritten and printed content discrimination in scanned documents | |
JP2009259190A (ja) | 文字認識プログラムおよび文字認識装置 | |
Mishchenko et al. | Model-Based Recognition and Extraction of Information from Chart Images. | |
Sahota et al. | An empirical enhancement using scale invariant feature transform in text extraction from images | |
Bhowmik et al. | OCR performance prediction using a bag of allographs and support vector regression | |
Mehta et al. | A review of handwritten character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090930 |