CN1622122A - 字符识别方法、装置和存储介质 - Google Patents
字符识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN1622122A CN1622122A CN 200310118685 CN200310118685A CN1622122A CN 1622122 A CN1622122 A CN 1622122A CN 200310118685 CN200310118685 CN 200310118685 CN 200310118685 A CN200310118685 A CN 200310118685A CN 1622122 A CN1622122 A CN 1622122A
- Authority
- CN
- China
- Prior art keywords
- recognition result
- character
- sorter
- result
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及字符识别方法、装置和存储介质。其中,将两个不同的分类器集成起来,第二分类器使用第一分类器的中间分类结果,从而提高识别率。也可以使用强噪声过滤器。比较强降噪之前和之后的识别率,以获得较好的结果作为最终结果,从而使高质量和低质量的字符图像的识别率都提高。
Description
技术领域
本发明总体上涉及字符的识别,具体来说,涉及用于识别字符图像的方法、装置和存储介质。
背景技术
OCR是识别手写字符或者扫描字符的公知技术。
如图1所示,为了进行文档图像102的字符识别,进行一个块分割步骤104,以将包含所有字符的最小区域从整个二值文档图像102中分离出来。换句话说,块分割步骤104是要去除文档图像102的页边空白。所得到的文本块106通常是矩形区域,由行分割步骤108进一步处理,从而提取出行图像110形式的每一个字符行。然后对每一个行图像110进行一个字符分割步骤112,提取出对应于要识别的每一个字符的字符图像114。
最后一个步骤是基于字符图像114的单字符识别步骤116。识别结果118输出到例如文本处理应用程序等。
单字符识别步骤116是OCR的核心。在现有技术中,有许多识别单字符的方法。一般而言,单字符识别是图像识别的特例。单字符识别的基本原理是将要识别的字符图像与一个字典中的所有标准字符图像或者说模板进行比较,与要识别的字符图像足够相似的标准字符图像就被视为要识别的字符图像所应代表的正确字符。这个比较和识别过程也称为“分类”。一个不同的字符是一个类,字符识别引擎就是一个分类器。识别多个字符图像的过程就是将这些字符归入分别由一个标准字符码代表的不同类的过程。
当比较两个图像时,或者说当对要识别的字符图像进行分类时,我们实际上是比较它们的代表性特征。也就是,将所有标准字符图像的特征抽取出来存储在一个字典中。然后,当识别一个字符图像时,首先抽取其相应的特征,然后将抽取的特征与字典中存储的特征进行比较。在字符识别领域,通常有两种识别方法,即结构模式识别和统计识别。在目前,统计识别是主流。理论上讲,统计特征可以是任何特征,只要它能够很好地区分不同的字符。在实践中,通常使用字符图像的投影直方图、外围特征、笔划密度特征、特征点以及其它一些特征。另一种特征是笔划轮廓方向(stoke contourdirection),这公开在EP0652532以及Improvement of handwrittenJapanese character recognition using weighted direction codehistogram,Pattern Recognition,Vol.30,No.8,pp.1329-1337,1997中。使用不同的特征,字符识别引擎的分类器会不同。
要识别的字符图像和模板(标准字符图像)之间的相似度用置信度或者距离值表征。置信度越高,距离值越小,要识别的字符图像是相应的标准字符图像的概率越高(即候选标准字符图像正确的概率越高)。换句话说,在分类时,根据相对距离值或者相对置信度选择或者排除候选字符。同样存在不同的距离计算器或者计算方法,比如L距离或者欧氏距离。
同样,分类器可以采用任何统计特征和任何距离计算器或者置信度计算器。例如,某个分类器可以采用笔划密度特征和欧氏距离。
为了加速识别过程,分类器通常包括多个分类级。在较低分类级,只进行粗分类以降低计算量,从而提高速度。例如,在汉字识别中, GB2312字符集包括7070个字符,也就是候选字(一个字符图像落入该集合的概率接近100%)。通过初步分类,候选字减少到约500个。在粗分类后,候选字减少到大约100个(在传统的引擎中,所述概率通常约为97%)。在最后的详细识别后,具有最小距离值的候选字,例如8-10个候选字,将被输出作为最终结果,其中具有最小距离值的候选字为识别结果。当然,所述概率进一步降低了。例如,第一候选字正确的概率仅为86%。
如果字典更大,也就是说,如果字符集更大,可以有比上述更多的分类级;如果字符集小一些,例如在英文字符识别中,分类级可以比上述少。
当识别扫描的文档图像时,如果图像质量高,目前的OCR产品的识别结果还令人满意。但是,如果图像中有许多噪声,例如由于原件质量差造成的噪声,由于错误的行分割、字符分割和单字符识别,OCR识别率急剧降低。如何保持OCR引擎的鲁棒性(稳定性,robustness)是OCR研发中的重要课题。
为了提高识别率,提出了互补特征抽取方法和多分类器集成,例如“Xiaofan Lin et al.,Adaptive Confidence Transform BasedClassifier Combination For Chinese Character Recognition,http://ocrserv.ee.tsinghua.edu.cn/~lxf/prl.pdf”。通常,采用互补特征抽取方法的不同分类器的组合可以提高识别率。但是,如果在字符图像中有许多噪声,字符不能被正确识别。
此外,在传统的多分类器集成中,每一个分类器通常处理字符集中的所有候选字。例如,在英文OCR中,有大约100个候选字符;在日文OCR或者汉字OCR中,有大约5000到6000个候选字。显然,由于巨大的计算量,这种集成会降低识别速度。为了减少处理时间,还提出了基于置信度的加速方法。在该方法中,如果第一分类器的结果的置信度令人满意,则将其结果直接输出;否则用第二分类器对字符图像进行再次识别;等等。显然,由于避免了任何字符图像都由每一个分类器进行处理,该方法显著减少了处理时间。但是,在识别率不受影响甚至有所提高的前提下,处理时间仍需缩减。
在另一种传统的多分类器集成中,一个分类器使用另一个分类器的最终结果(通常是8到10个候选字),从而减少计算量,以便加速处理。这种集成方式也有缺点。如上所述,在所述另一个分类器的详细识别步骤之后,各候选字中包括正确候选字的概率已经显著降低了。因此,有这样的情况:正确的候选字早已被排除了。因此,这种集成提高识别率的效果有限。
还提出了对字符图像进行预处理来调整字符图像的矩形边框,例如林晓帆等人的“基于置信度分析和多信息融合的高性能手写数字识别”(http://ocrserv.ee.tsinghua.edu.cn/~lxf/numeral.doc)。一个字符被识别两次,分别有降噪和无降噪。比较两次识别的置信度,以表明哪个矩形框是正确的。降噪方法包括获取字符图像的水平投影直方图和垂直投影直方图,切掉图像中对应于直方图的低的部分的部分。该方法用于调整字符图像的矩形框,不能减少字符图像中的噪声。
此外,在“Lawrence O’Gorman and Rangachar Kasturi,Document Image Analysis,IEEE Computer Society Press,1998,p13”中,描述了一种用“文本噪声过滤器”,例如kFill过滤器,增强文档图像的方法。该方法基于这样的事实:高质量的文档图像的OCR的识别率更高。我们可以增强多噪声图像的质量,将其恢复为高质量图像,从而提高识别率。例如,可以减少字符图像中的噪声,或者平滑字符笔划的边缘。Kfill过滤器专为文本图像设计,用于减少椒盐噪声同时保持可读性。
也有其它的一些公知的降噪技术,比如中值滤波器和改进的平滑方法。中值滤波器是一个3×3滤波器。当滤波器中心的像素为黑,并且如果围绕它的黑像素少于4个,则该像素被擦除。当滤波器的中心为白像素,并且环绕它的黑像素多于5个,则将该像素转为黑色。当笔划只有一个像素宽时,该方法就不适合。也就是说,该方法会使笔划断裂。改进的平滑方法也使用3×3滤波器,但滤波规则细致一些,以避免损坏笔划。
这些降噪方法有其局限性。“强”的降噪(比如中值滤波器)会损坏字符笔划,但是“弱”的降噪方法(比如改进的平滑方法或者kFill滤波器)不能去除大于2个像素的噪声。降噪中的困难在于我们无法判断一个像素是否是噪声。换句话说,已知的降噪方法可以处理具有少量噪声的文档图像,但处理具有许多噪声的文档图像时效果不好。
发明内容
因此,本发明的一个目的是提高OCR的识别率,尤其是识别多噪声图像时的识别率,以便正确识别具有许多噪声的文档图像中的单个字符。
因此,本发明的一个方面是以一种新颖的方式实现多分类器集成,以获得更好的识别结果。
具体来说,提供了一种字符识别方法,其可以用在含有多于一个字符的打印图像的整个OCR过程的单字符识别步骤116(见图1)中,该方法包括:使用第一分类器对字符图像分类,得到第一识别结果,并将中间分类结果存储起来;使用第二分类器基于所述存储的中间分类结果对所述字符图像分类,得到第二识别结果;合并所述第一和第二识别结果,得到第三识别结果作为最终识别结果。
为了加速上述过程,可以采用一种加速策略。也就是,如果第一识别结果可以接受,则将其输出作为最终识别结果。
为了进一步提高多噪声文档图像的识别率,在一个变型中,发明人还提出了分类器和噪声过滤器的新颖的集成方式。具体来说,与上述处理同时,对字符图像进行强降噪,得到增强的字符图像,并用如上所述的第一分类器和/或第二分类器对增强的字符图像进行分类,产生第五识别结果,然后将第三识别结果与第五识别结果进行比较,将较好者输出作为最终识别结果。
同样,为了加速上述过程,可以采用加速策略。即,如果第三识别结果可以接受,则将其输出作为最终识别结果。仅当第三识别结果不可接受时,才进行所述降噪。同样,在降噪后的第二轮分类中,如果第一分类器的结果令人满意,则第二分类器和比较步骤也不一定需要。
本发明的另一方面提供了另一种新颖的方式来将降噪与多分类器集成结合起来以得到更好的识别结果。
具体地,提供了一种字符识别方法,其包括:使用第一分类器对字符图像分类,得到第一识别结果;将该图像进行降噪处理,然后用第一分类器对得到的图像进行分类,得到第二识别结果;比较第一识别结果和第二识别结果从而获得第一较好结果;用第二分类器重复上述步骤,分别得到第三识别结果、第四识别结果和第二较好结果;合并第一和第二较好结果,输出所得到的第五识别结果作为最终识别结果。
同样,为了加速所述过程,可以采用加速策略。即,如果第一识别结果、第三识别结果、第一较好结果、第二较好结果中的任何一个可以接受,则将其输出作为最终识别结果。
为了实现上述字符识别方法,本发明人提供了新颖的字符识别装置,具体地:
一种字符识别装置,包括:第一分类器,用来用第一分类方法对字符图像分类,产生第一识别结果;第二分类器,用来用第二分类方法对字符图像分类,得到第二识别结果;第一存储器,用于存储第一分类器的中间分类结果和第一识别结果;合并装置,用于合并第一识别结果和第二识别结果,生成第三识别结果;以及输出装置,用于输出第三识别结果。
作为变型,字符识别装置还可以包括第一判断装置,用于判断第一识别结果是否可以接受从而可以输出,并且,如果第一识别结果不可接受,则指令第二分类器对字符图像进行分类。
作为另一个变型,上述字符识别装置还可以包括:强噪声过滤器,用于对字符图像降噪;第二存储器,用于存储在由所述强噪声过滤器进行降噪之前和之后的两个所述第三识别结果;以及比较器,用于比较所述两个第三识别结果,并控制所述输出装置输出较好的结果。
另一种字符识别装置包括:第一分类器,用来使用第一分类方法对字符图像分类,得到第一识别结果;第二分类器,用来使用第二分类方法对字符图像进行分类,得到第三识别结果;强噪声过滤器,用来对字符图像降噪,产生增强的字符图像,增强的字符图像由第一分类器和第二分类器进行分类,分别产生第二和第四识别结果;第一存储器,用于存储第一分类器的第一和第二识别结果;第二存储器,用于存储第二分类器的第三和第四识别结果;比较器,用于比较所述第一和第二识别结果,得到第一较好结果,并用于比较所述第三和第四识别结果,得到第二较好结果;合并装置,用于合并所述第一较好结果和所述第二较好结果,得到第五识别结果;输出装置,用于输出所述第五识别结果。
本发明还提供了存储介质,其中存储有实现任何上述字符识别方法的程序代码。
附图说明
本发明的其它目的、特征和优点将在阅读下文对优选实施例的详细说明后变得更为清楚。附图作为说明书的一部分用于图解本发明的实施例,并和说明书一起用于解释本发明的原理。在附图中:
图1是现有技术中的OCR方法的流程图;
图2是其中可以实现本发明的信息处理系统的框图;
图3是本发明的字符识别方法的第一实施例的流程图;
图4是图示可以用在本发明中的新分类器的性能的直方图;
图5是图3所示第一实施例的一个变型的流程图;
图6图示了可以用在本发明中的新颖的降噪方法所使用的模板;
图7是图6所示降噪方法的性能的直方图;
图8是图6所示降噪方法的性能的另一个直方图;
图9是根据图5所示的变型、采用图4的分类器和图6的降噪方法的字符识别方法的性能的直方图;
图10是根据本发明的字符识别方法的第二实施例的流程图;
图11是根据本发明的字符识别装置的第一实施例的框图;
图12是图11所示实施例的一个变型的框图;
图13是本发明的字符识别装置的第二实施例的框图。
具体实施方式
下面结合附图描述本发明的优选实施例。
计算机系统举例
本发明的方法可以在任何信息处理设备中实现。所述信息处理设备例如是个人计算机(PC)、笔记本电脑、嵌入任何自动化设备例如邮件分拣装置中的单片机(SCM),等等。对于本领域普通技术人员,很容易通过软件、硬件和/或固件实现本发明的方法。尤其应注意到,对于本领域普通技术人员显而易见的是,为了执行本方法的某些步骤或者步骤的组合,可能需要使用输入输出设备、存储设备以及微处理器比如CPU等。在下面对本发明的方法的说明中不见得提到这些设备,但实际上使用了这些设备。
作为上述信息处理设备,图2的框图示出了一个计算机系统的举例,在其中可以实现本发明的方法和设备。应注意的是,示于图2的计算机系统只是用于说明,并非要限制本发明的范围。
从硬件的角度来讲,计算机201包括一个CPU206、一个硬盘(HD)205、一个RAM207、一个ROM208和输入输出设备212。输入输出设备可以包括输入装置比如键盘、触控板、跟踪球和鼠标等,输出装置比如打印机和监视器,以及输入输出装置比如软盘驱动器、光盘驱动器和通信端口。
从软件的角度讲,所述计算机主要包括操作系统(OS)209、输入输出驱动程序211和各种应用程序。作为操作系统,可以使用市场上可购买的任何操作系统,比如Windows(Windows是微软公司拥有的商标)系列以及基于Linux的操作系统。输入输出驱动程序分别用于驱动所述输入输出设备。所述应用程序可以是任何应用程序,比如文本处理程序210、图像处理程序等,其中包括可以用在本发明中的或者可以利用本发明的已有程序以及专为本发明编制的、可调用所述已有程序或者被所述已有程序调用的应用程序。
这样,在本发明中,可以由操作系统、应用程序和输入输出驱动程序在所述计算机的硬件中执行本发明的方法。
另外,计算机201还可以连接到一个图像源比如扫描仪204,以获取要识别的图像。利用本发明的OCR所获得的结果可以被输出到应用设备203,该应用设备根据所述结果执行适当的操作。所述应用设备可以是任何自动控制系统,比如邮件分拣设备。所述应用设备也可以是在所述计算机201内部实现的、用于进一步处理所述图像的另一个应用程序(和硬件的结合)。例如,它可以是文本处理程序,比如Microsoft Word(Microsoft是微软公司拥有的商标),用于编辑识别的文本。
字符识别方法
(第一实施例)
图3示出了本发明的字符识别方法的第一实施例。
首先,使用第一单字符识别引擎(下称“第一分类器”,或者“e1”)来对二值字符图像302分类。具体地,在特征抽取304之后,可以有多级分类。这里,作为例子,e1包括三级分类:初步分类306、粗分类308和详细识别312。请注意,这里描述的单字符识别只是一个例子。本领域普通技术人员知道存在多种字符识别引擎。具体来说,一个字符识别引擎可以包括多于三级或者少于三级的分类。
第一分类器e1可以使用如前所述的任何已有的特征抽取技术。例如,它可以利用如前所述的笔划轮廓方向特征,这种特征擅长区分类似的字符,但是对噪声敏感。
在粗分类步骤308中,生成多个候选字,数量一般在100左右(或者其它任何数量)。中间的粗分类结果,也就是关于候选字的信息310,包括候选字的距离值(或者置信度,在下文,距离值等同于置信度),被存储在某处,以便后续步骤在必要时使用。注意,如本部分开头所述,字符识别引擎不一定由三级构成。因此,所存储的识别结果不一定是中间粗分类结果,而可以是任何中间分类结果。
在详细识别312(如果存在多于三级的分类,则是最后分类级)之后,获得8-10个(或者任何其它数量)的候选字(第一识别结果)。然后进行第一判断步骤314,确定这些候选字是否可以接受。如果可以,则将它们直接输出;若否,则需要使用第二分类器(下称“e2”)进行更多的步骤。通过这样的策略,可以缩短处理时间。但是,如果没有必要加速处理,则可以取消第一判断步骤314,流程直接前进到使用e2的后续处理。
判断标准如下式所示:
d1/d2<TH1?
其中d1是具有最小距离值的候选字的距离值,d2是具有第二小的距离值的候选字的距离值,TH1是预定的第一阈值,范围为0.3-0.5。TH1的优选值为0.4。
在第一判断步骤314的“否”分支之后,或者如果没有判断步骤的话,用第二分类器e2再次对字符图像进行分类。这样的再次分类包括使用e2进行特征抽取的步骤316和详细识别步骤318。详细识别步骤318基于所述存储的关于粗分类308产生的候选字及其距离值的信息310。
然后,在合并步骤320中,e1详细识别312的结果(第一识别结果)和e2详细识别318的结果(第二识别结果)利用下述公式合并:
Di=di/dmin(min!=i)+ddi/ddmin(min!=i)(i=1,2,...,n)
其中Di是第i个候选字的合并距离值,dmin是第一分类器e1在e1详细识别步骤312产生的n个候选字的距离值{d1,d2,......,dn}中的最小距离值,dmin是第二分类器e2在e2详细识别步骤318产生的n个候选字的距离值{dd1,dd2,......ddn}中的最小距离值。
根据合并结果(第三识别结果),具有最小Di值的候选字在输出步骤322中输出,作为最终识别结果。
本发明的一个关键是e2分类使用e1的中间分类(这里是粗分类)产生的候选字。如果使用详细识别后的最终的8-10个候选字进行合并,则双分类器集成的改进效果不会很大,因为如前所述,或许某些正确的候选字已经被排除在所述8-10个候选字之外了。但是,如果我们使用整个字符集,则由于候选字太多,识别速度会降低。
(使用“黑像素分布”特征的分类器)
如上所述,本发明人提出了一种新颖的多分类器集成方式。在所述集成中,分类器可以是任何已有的分类器,只要所述两个分类器是互补的(即两个分类器在某种程度上是相互独立的)。二者的互补性越强,则所述集成越有效。例如,e1可以采用笔划轮廓方向特征,e2可以采用外围特征。
本发明人还提出了一种新的分类器,尤其适合用作e2。该新的分类器利用所谓的“黑像素分布”特征。
下面详细描述黑像素分布特征的抽取。首先,把字符图像归一化为n×n像素,其中n为正整数。然后将归一化图像划分为m×m个小区,每个小区的宽度和高度分别为n/m像素,其中m是正整数。计数每个小区中每个黑象素的8-邻域中的黑像素数并对其求和。每个小区的所述和数就是特征矢量的一维。这样就可以获得m×m维的特征矢量(m×m个小区)。作为例子,n可以是64,m可以是8。
然后将归一化的字符图像上移n/2m(例如4)行,并将上面的n/2m行移到底部,从而获得另一组m×m维。另外,将归一化字符图像上移n/2m行,将上面的n/2m行移到底部,同时左移n/2m列,将左边的n/2m列移到右边,从而获得另一个m×m维。再,将归一化字符图像左移n/2m列,并将左边的n/2m列移到右边,从而获得又一个m×m维。显然,与上述操作对称的操作也是可以的。也就是说,归一化字符图像可以上移或者下移,左移或者右移。
这样就获得了4×m×m(即,例如256)维的特征矢量,可以用作所述“黑像素分布”特征。通过FDA,所述256维可以转化为64维。FDA(Fisher Discrimination Analysis,菲舍尔判别分析)也称为菲舍尔线性判别(Fisher LinearDiscrimination),是一种降低维数提供有效维数的方法。关于FDA的详细信息可以从Accuracyimprovement of handwritten character recognition by GL VQ,TsuyoshiFukumoto et al.,Faculty of Engineering,Mie University,1515Kamihama,Tsu 513-8507,Japan获得。
黑像素分布特征也可以用另一种方法获得而不需要上述获得另外三个分别为m×m维的特征矢量的移动步骤。在这种情况下,上述整数m的值可以选得比上述例子(为8)大一些,例如16。换句话说,作为例子,归一化的64×64的图像可以直接分为16×16个小区,每个小区为4×4像素。然后,类似于上例,从每一个小区可以获得一维,一共256维。该维数也可以用FDA缩减到合适的维数。
在所提出的分类器中,小噪声和字符笔划之间的特征值差是很大的。这意味着该分类器对噪声的鲁棒性好(抗噪声性能好)。
尽管各特征抽取方法可以独立使用,但其尤其适合于在多分类器集成中用作第二分类器,只是基于第一分类器的中间分类进行详细识别。图4示出了V6引擎的汉字识别结果,以及利用V6的粗分类结果的本发明引擎的汉字识别结果。可以看到,本发明的引擎比传统的特征抽取方法具有更好的抗噪声能力。(V6是本发明人开发的传统的引擎)
通过试验,发明人发现FDA之后的最佳维数为150。但是,考虑到字典的大小和识别速度,该维数可以更低,例如在本发明中选择64维的特征矢量。在其它情况下,如果字典可以更大,信息处理设备的处理能力得到提高,则可以采用更大的维数。
(第一实施例的一个变型)
为了进一步改进该方法的抗噪声能力,一种强降噪方法可以集成到该方法中。
图5示出了第一实施例的一种变型。注意在图5中,与图3相同的步骤省略了。在该变型中,合并步骤320的第三识别结果(候选字及其距离值504)存储在某处以供后续步骤使用。然后,在第二判断步骤502,判断这些候选字是否可以接受。若是,则将其直接在输出步骤322输出;若否,则需要在强降噪506后进行新一轮的分类。通过这样的策略,可以缩短处理时间。但是,如果没有必要加速该过程,则可以取消第二判断步骤502,流程可以直接前进到后续的处理。
该比较表示为下式:
d1/d2<TH2 ?
其中d1是具有最小距离值的候选字的距离值,d2是具有第二最小距离值的候选字的距离值,TH2是预定的第二阈值,在0.8-0.9的范围内,优选为0.85。
在第二判断步骤502的“否”分支之后,或者当没有判断步骤时,对字符图像进行强降噪步骤506。然后在一个重复步骤508中,对于增强后的字符图像重复前述步骤,生成与所述第一识别结果对应的第四识别结果,以及与所述第三识别结果对应的第五识别结果。
类似地,为了加速处理过程,在第二轮分类中,可以执行一个对应于第一判断步骤314的步骤,如果d1/d2<TH1,则将第四识别结果作为最终结果直接输出。同样,可以执行一个对应于第二判断步骤的步骤,如果d1/d2<TH2,则将第五识别结果作为最终结果直接输出。但是,如果没有必要加速处理过程,所述两个步骤(如图5中从重复步骤508的方框引出的虚线箭头509所示)可以取消,流程直接前进到后续的处理。然后,在比较步骤510,比较第三识别结果和第五识别结果的d1*d1/d2值。在输出步骤322将较好的结果输出,作为最终识别结果。
请注意,这里的降噪必须是较强的降噪,例如使用中值滤波器。原因如下。
弱降噪可以保证图像的质量不受损害。但是如果有太多的噪声,弱降噪的效果不好。图7示出了在传统的识别方法(降噪加上V6分类)中使用的各种噪声过滤器的性能。当不使用噪声过滤器或者使用弱噪声过滤器(例如改进的平滑方法或者kFill过滤器)时,识别率随着图象质量的降低而急剧降低。这表明,弱降噪不能提高多噪声图像的质量。在这种情况下,即使采用本变型,改进也非常有限,如图8所示,其中示出了用在本发明的识别方法(比较无降噪的第一V6分类和有降噪的第二V6分类)中的各种噪声过滤器的性能。
相反,当使用较强的过滤器(比如中值滤波器或者本发明人提出的在下面将要说明的新降噪方法),则低质量图像的识别率要好得多,但是高质量图像的识别率较低,如图7所示。但是,根据本发明,通过比较无降噪的第一次识别和有强降噪的第二次识别的识别结果,高质量和低质量图像都可以高识别率地识别,如图8所示。
(降噪方法)
在本发明的字符识别方法的上述实施例以及其它实施例中,降噪步骤可以采用任何已有的“强”降噪方法,比如背景技术部分所述的中值滤波器。
为了进一步提高本发明的性能,发明人提出了一种强降噪方法。首先,将字符图像归一化为n×n像素,其中n为正整数,然后,如图6所示,用3×3模板进行十字腐蚀(cross erosion)。在图6中,“1”表示黑像素,“0”表示白像素。该方法是非常强的降噪方法。它可以去除许多噪声,但同时能够去除较细的字符笔划。如图7所示,强降噪(包括中值滤波器和本发明的新降噪方法)提高了低质量图像的识别率,但是高质量图像的识别率急剧降低。这里,作为例子,所述n值可以是64。
但是,当用在本发明中时,通过比较降噪前后的结果,高质量图像可以在降噪之前得到正确识别,多噪声图像可以在强降噪之后得到正确识别,因此总体识别率提高了,如图8所示。
同样,如第一实施例所述,也可以采用本发明人提出的新分类器。最好是将新分类器和新降噪方法都结合到本变型中。
发明人使用不同质量的文档图像对上述优选实施例进行了评测,评测结果如图9所示。在该直方图中,示出了使用和不使用本实施例的字符识别程序的识别结果,以进行比较。在该评测中,发明人使用了含84840个汉字的打印文档图像、含42748个汉字的高质量文档图像、含39161个汉字的中等质量文档图像、含52941个汉字的低质量文档图像。
从直方图可以看出,当文档图像为中等质量或者低质量时,使用本实施例的OCR的识别结果比传统的OCR好得多。打印的和高质量的文档图像的识别率也有稍许提高。
(第二实施例)
图10示出了本发明的第二实施例。
首先,在使用第一分类器(下称e1)的识别步骤1004中,识别要识别的二值字符图像1002,得到并存储第一识别结果(候选字及其距离值)1008。这里,使用e1识别的步骤与图3所示的相应步骤几乎完全相同,区别在于在本实施例中,在后续步骤中不需要使用中间粗分类结果。
然后进行比较步骤1006,看第一识别结果是否可以接受。若是,则直接输出;若否,则需要进行进一步的步骤。通过这样的策略,可以缩短处理时间。但是,如果不必要加速处理过程,则可以取消第一判断步骤1006,流程直接前进到后续的处理。
该比较表示为下式:
d1/d2<TH1?
其中d1是具有最小距离值的候选字的距离值,d2是具有第二小的距离值的候选字的距离值,TH1是预定的第一阈值,范围为0.3-0.5。TH1的优选值为0.4。
在第一判断步骤1006的“否”分支之后,或者如果没有判断步骤的话, 则对字符图像进行强降噪步骤1010。然后在第二识别步骤1014中,用e1重新识别增强的字符图像1012,得到第二识别结果。
然后,在比较步骤1016,比较第一识别结果和第二识别结果的d1*d1/d2值,得到第一较好结果(候选字及其距离值)1022,并存储起来,以便稍后提供给第二判断步骤1018,或者需要的话提供给其它后续步骤。在第二判断步骤1018中,进行判断,看第一较好结果是否可以接受。若是,则在输出步骤1026直接输出;若否,则需要利用第二分类器(下称e2)进行新一轮的分类。通过这样的策略,可以缩短处理时间。但是,如果没有必要加速处理过程,则可以取消第二判断步骤1018,流程直接前进到后续处理。
该比较表示为下式:
d1/d2<TH2?
其中d1是具有最小距离值的候选字的距离值,d2是具有第二小的距离值的候选字的距离值,TH2是预定的第二阈值,范围为0.3-0.5。TH2的优选值为0.4。
在第二判断步骤1018的“否”分支之后,或者如果没有判断步骤的话,则对字符图像进行第二轮分类1020,得到对应于第一识别结果的第三识别结果,对应于第二识别结果的第四识别结果,以及对应于第一较好结果的第二较好结果。除了分类器不同之外,第二轮分类与使用e1的第一轮分类完全相同,因此在此省略其详细说明。
类似地,为了加速处理,在使用e2的第二轮分类中,可以执行与第一判断步骤1006相应的步骤,如果d1/d2<TH1,则将第三识别结果作为最终结果直接输出,如果d1/d2<TH2,则将第二较好结果最为最终结果直接输出。但是,如果没有必要加速处理过程,则可以取消所述两个步骤(如图10中从重复步骤1020的方框引出的虚线箭头1023所示),流程直接前进到后续的处理。然后,在合并步骤1024,将第一较好结果1022与第二较好结果合并。合并使用下述公式:
Di=di/dmin(min!=i)+ddi/ddmin(min!=i)(i=1,2,...,n)
其中dmin是第一较好结果中的n个候选字的距离值{d1,d2,......,dn}中的最小距离值,dmin是第二较好结果中的n个候选字的距离值{dd1,dd2,......ddn}中的最小距离值。
最终结果在输出步骤1026输出。
字符识别装置
本发明还提供一种字符识别装置,下面对其进行详细说明。与前述方法类似,构成本发明的字符识别装置的任何部件可以是前述任何信息处理设备的部件或者部件的组合,或者安装或结合在前述任何信息处理设备中的软件和/或硬件和/或固件的组合。对于本领域普通技术人员,很容易实现本发明的设备的所述部件。同样,对于本领域普通技术人员显而易见的是,每个所述部件的运行都涉及输入输出设备、存储设备、微处理器比如CPU等的使用。下文对本发明的装置的说明不一定提及这些设备,但实际上使用了这些设备。例如,要识别的原始图像和每一个中间处理结果必然临时地或者永久地存储在某处,直到完成识别。作为前述信息处理设备的一个具体实例,前文已经描述过一个计算机系统,其描述在此不再赘述。
(第一实施例)
图11所示为本发明的装置的第一实施例,其能实现本发明的方法的上述第一实施例。
示于图11的字符识别装置包括:用第一分类方法对字符图像分类的第一分类器1102,其产生的第一识别结果存储在第一存储器1104中;用第二分类方法对字符图像分类的第二分类器1106,其产生的第二识别结果将被送往合并装置1108;所述第一存储装置1103用于存储第一分类器1102的中间粗分类结果和第一识别结果;所述合并装置1108用于合并存储在所述第一存储器1104中的第一识别结果和来自第二分类器1106的第二识别结果,得到第三识别结果;以及输出装置1112,用于输出第三识别结果。
所述第一分类器1102和第二分类器1106可以是任何分类器,比如本发明的背景技术部分所提到的分类器,或者将来提出的任何新分类器,比如上述使用黑像素分布特征的分类器。
该字符识别装置还可以包括第一判断装置1110,用来判断存储在第一存储装置1104中的第一识别结果是否可以接受从而可以输出。如果第一识别结果可以接受,则第一判断装置1110控制第一存储器1103和输出装置1112输出第一识别结果作为最终结果;如果第一识别结果不可接受,则第一判断装置1110指令第二分类器1106对字符图像分类。
(第一实施例的一个变型)
与字符识别方法的第一实施例的上述变型相应,如图12所示,上述字符识别装置还可以包括:强噪声过滤器1216,用来对字符图像降噪,增强的字符图像被输出到第一分类器1102和第二分类器1106;第二存储器1214,用于存储强噪声过滤器1216进行降噪之前的第三识别结果以及由强噪声过滤器1216进行降噪之后的另一个第三识别结果;以及比较器1210,用于比较所述两个第三识别结果,控制输出装置1112输出其中的较好者。
所述强噪声过滤器1216可以是任何强噪声过滤器,比如中值滤波器或者改进的平滑方法,或者将来提出的新的强降噪过滤器,比如上面所提出的降噪方法。
另外,所述字符识别装置或者其比较器1210可以包括第一判断装置(图中未示出)。在所述强噪声过滤器1216进行降噪之前,第一判断装置判断存储在第一存储器1104中的第一识别结果是否可以接受从而可以输出。如果第一识别结果可以接受,则第一判断装置1110控制第一存储器1104和输出装置1112输出第一识别结果作为最终结果;如果第一识别结果不可接受,则第一判断装置1110指令第二分类器1106对所述字符图像进行分类。
所述字符识别装置或者其比较器1210可以包括一个第二判断装置(图中未示出),判断从合并装置1108输出的存储在第二存储器1214中的第三识别结果是否可以接受。若可以接受,则第二判断装置控制所述第二存储器1214和输出装置1112输出所述第三识别结果作为最终结果;如果第三识别结果不可接受,则第二判断装置指令强噪声过滤器1216对字符图像进行降噪,然后第一分类器1102和第二分类器1106对降噪后的字符图像进行新一轮的识别。在所述新一轮识别中,第一判断装置和第二判断装置要进行类似的判断:如果相应的识别结果可以接受,可将其直接输出作为最终结果。
(第二实施例)
图13示出了本发明的字符识别装置的第二实施例,其对应于上述字符识别方法的第二实施例。
如图13所示,第二实施例与上述第一实施例的变型相比具有类似的部件,但是部件之间的连接关系不同。
具体地,本实施例的字符识别装置包括:第一分类器1302,用来用第一分类方法对字符图像分类,产生第一识别结果存储在第一存储器1304中;第二分类器1306,用来用第二分类方法对字符图像分类,产生第三识别结果存储在第二存储器1308中;强噪声过滤器1310,用来对字符图像降噪,将增强的字符图像提供给第一分类器1302和第二分类器,进而分别产生第二识别结果和第四识别结果;所述第一存储器1304用于存储第一分类器1302在强噪声过滤器1310降噪前后的第一和第二识别结果;所述第二存储器用于存储第二分类器1306在强噪声过滤器1310降噪前后的第三和第四识别结果;比较器1312,用于比较所述第一和第二识别结果得到第一较好结果,并用于比较所述第三和第四识别结果得到第二较好结果;合并装置1314,用于合并所述第一较好结果和第二较好结果,得到第五识别结果;以及输出装置1316,用于输出第五识别结果作为最终结果。
类似地,所述第一分类器1302和第二分类器1306可以是任何分类器,比如本发明的背景技术部分所提到的分类器,或者将来提出的任何新分类器,比如上述使用黑像素分布特征的分类器。
同样,所述强噪声过滤器1310可以是任何强噪声过滤器,比如中值滤波器或者改进的平滑方法,或者将来提出的新的强降噪过滤器,比如上面所提出的降噪方法。
为了加速处理过程,所述字符识别装置或者其比较器1312可以包括第一判断装置(图中未示出)。在强噪声过滤器1310的降噪之前,第一判断装置判断存储在第一存储器1304中的第一识别结果是否可以接受从而可以输出。如果第一识别结果可以接受,则第一判断装置控制第一存储器1304和输出装置1316输出第一识别结果作为最终结果;如果第一识别结果不可接受,则第一判断装置指令强噪声过滤器1310对字符图像进行降噪,然后第一分类器1302再次识别增强后的字符图像,得到第二识别结果。比较器1312比较第一识别结果和第二识别结果,得到第一较好结果。
类似地,字符识别装置或者其比较器1312可以包括一个第二判断装置(图中未示出),其基于第一较好结果进行判断。如果该结果可以接受,则通过输出装置1316作为最终结果输出;否则将其存储起来,第二判断装置指令第二分类器1306对字符图像再次分类。
相应地,还可以提供第三判断装置和第四判断装置(分别对应于上述第一判断装置和第二判断装置),用于分别判断第三识别结果和第二较好结果是否可以接受。若是,则将其输出作为最终结果;否则进行后续的步骤。
存储介质
本发明的所述目的还可以通过在如上所述的可以与所述图像源和后续处理设备通信的任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备、图像源和后续处理设备为公知的通用设备。因此,本发明的所述目的也可以仅仅通过提供实现所述字符识别方法的程序代码来实现。也就是说,存储有实现所述字符识别方法的程序代码的存储介质构成本发明。
对于本领域技术人员来说,可以轻易地用任何程序语言编程实现所述字符识别方法。因此,在此省略了对所述程序代码的详细描述。
显然,所述存储介质可以是本领域技术人员已知的,或者将来所开发出来的任何类型的存储介质,因此也没有必要在此对各种存储介质一一列举。
尽管结合具体步骤和结构描述了本发明,但是本发明不局限于这里所描述的细节。本申请应当覆盖所有不偏离本发明的精神和范围的变化、修改和变型。例如,关于如上所述的字符识别装置,各种组件可以独立实现,或者其中某些组件可以集成在一起,例如,各种存储器包括用于存储字符图像的存储器可以在物理上是一个存储器,比较器和各判断装置既可以独立地实现又可以集成地实现。任何组件的功能还可以分布到多于一个的组件中。
Claims (35)
1.一种字符识别方法,包括下列步骤:
使用第一分类器对字符图像进行分类,得到第一识别结果,并将中间分类结果存储起来;
基于所述存储的中间分类结果,用第二分类器对字符图像进行分类,得到第二识别结果;
合并第一和第二识别结果得到第三识别结果作为最终识别结果。
2.根据权利要求1所述的字符识别方法,其特征在于所述第二分类器使用黑像素分布特征,黑像素分布特征是通过下述步骤抽取的:
将字符图像归一化为n×n像素,其中n为正整数;
将归一化的图像分为m×m个小区,其中m为正整数,每个小区的宽度和高度分别为n/m像素;
在每一个小区中,计数每一个黑像素的8-邻域中的黑像素的数量并求和,每个小区的所述和数是特征矢量的一维,从而得到m×m维的特征矢量,该特征矢量用作所述黑像素分布特征。
3.根据权利要求2所述的字符识别方法,其特征在于,在对所述归一化字符图像分别进行下述移动后分别重复所述计数和求和步骤:
a)向上或者向下移动n/2m行,并将顶部或者底部的n/2m行分别移动到底部或者顶部;
b)向上或者向下移动n/2m行,并将顶部或者底部的n/2m行分别移动到底部或者顶部,同时向左或者向右移动n/2m行,并将左边或者右边的n/2m行分别移动到右边或者左边;
c)向左或者向右移动n/2m行,并将左边或者右边的n/2m行分别移动到右边或者左边;
得到另外3×m×m维,从而得到4×m×m维的特征矢量,用作所述黑像素分布特征。
4.根据权利要求2或3的字符识别方法,还包括将所获得的特征矢量的维数通过FDA转换为64-150维。
5.根据权利要求1到3之一所述的字符识别方法,在利用第一分类器的分类步骤之后,该方法还包括第一判断步骤,其中,如果所述第一识别结果可以接受,则将其输出作为最终识别结果。
6.根据权利要求5所述的字符识别方法,其特征在于,判断标准为d1/d2是否小于第一阈值,其中d1是第一识别结果中具有最小距离值的候选字的距离值,d2是第一识别结果中具有第二小的距离值的候选字的距离值,其中第一阈值的范围为0.3到0.5。
7.根据权利要求1到3之一所述的字符识别方法,其特征在于,在所述合并步骤中,利用下述公式合并所述第一识别结果和第二识别结果:
Di=di/dmin(min!=i)+ddi/ddmin(min!=i)(i=1,2,...,n)
其中Di是第i个候选字的合并距离值,dmin是第一识别结果中的候选字的距离值{d1,d2,......,dn}中的最小距离值,ddmin是第二识别结果中的候选字的距离值{dd1,dd2,......ddn}中的最小距离值。
8.一种字符识别方法,包括下列步骤:
利用第一分类器对字符图像进行分类,得到第一识别结果,并将中间分类结果存储起来;
基于所述存储的中间分类结果,利用第二分类器对字符图像分类,得到第二识别结果;
合并所述第一和第二识别结果,得到第三识别结果;
对字符图像进行强降噪,得到增强的字符图像,然后对增强的字符图像重复上述步骤,得到对应于第一识别结果的第四识别结果,以及对应于第三识别结果的第五识别结果;
比较所述第三识别结果和第五识别结果,将其中较好者输出作为最终识别结果。
9.根据权利要求8所述的字符识别方法,其特征在于所述强降噪包括:将字符图像归一化为n×n像素,其中n为正整数;然后用3×3模板对归一化的字符图像进行十字腐蚀。
10.根据权利要求8或9所述的字符识别方法,其特征在于所述第二分类器使用黑像素分布特征,黑像素分布特征是通过下述步骤抽取的:
将字符图像归一化为n×n像素,其中n为正整数;
将归一化的图像分为m×m个小区,其中m为正整数,每个小区的宽度和高度分别为n/m像素;
在每一个小区中,计数每一个黑像素的8-邻域中的黑像素的数量并求和,每个小区的所述和数是特征矢量的一维,从而得到m×m维的特征矢量,该特征矢量用作所述黑像素分布特征。
11.根据权利要求10所述的字符识别方法,还包括将所获得的特征矢量的维数通过FDA转换为64-150维。
12.根据权利要求10所述的字符识别方法,其特征在于,在对所述归一化字符图像分别进行下述移动后分别重复所述计数和求和步骤:
a)向上或者向下移动n/2m行,并将顶部或者底部的n/2m行分别移动到底部或者顶部;
b)向上或者向下移动n/2m行,并将顶部或者底部的n/2m行分别移动到底部或者顶部,同时向左或者向右移动n/2m行,并将左边或者右边的n/2m行分别移动到右边或者左边;
c)向左或者向右移动n/2m行,并将左边或者右边的n/2m行分别移动到右边或者左边;
得到另外3×m×m维,从而得到4×m×m维的特征矢量,用作所述黑像素分布特征。
13.根据权利要求12所述的字符识别方法,还包括将所获得的特征矢量的维数通过FDA转换为64-150维。
14.根据权利要求8或9所述的字符识别方法,其特征在于,在所述合并步骤中,利用下述公式合并所述第一识别结果和第二识别结果:
Di=di/dmin(min!=i)+ddi/ddmin(min!=i)(i=1,2,...,n)
其中Di是第i个候选字的合并距离值,dmin是第一识别结果中的候选字的距离值{d1,d2,......,dn}中的最小距离值,ddmin是第二识别结果中的候选字的距离值{dd1,dd2,......ddn}中的最小距离值。
15.根据权利要求8或9所述的字符识别方法,其特征在于还包括下述步骤中的至少一个:
在使用第一分类器的分类步骤之后的第一判断步骤,其中,如果第一识别结果可以接受,则将其输出作为最终识别结果;
在所述比较步骤之前的第二判断步骤,其中,如果第三识别结果可以接受,则将其输出作为最终识别结果;
在所述重复步骤中的第三判断步骤,其中,如果第四识别结果可以接受,则将其输出作为最终识别结果;
在所述重复步骤中的第四判断步骤,其中,如果第五识别结果可以接受,则将其输出作为最终识别结果;
16.根据权利要求15所述的字符识别方法,其特征在于,对于第一、第二、第三和第四判断步骤中的每一个,判断标准为d1/d2是否小于相应的阈值,其中d1是相应识别结果中具有最小距离值的候选字的距离值,d2是相应识别结果中具有第二小的距离值的候选字的距离值,其中用在第一和第三判断步骤中的阈值的范围为0.3到0.5,用在第二和第四判断步骤中的阈值的范围为0.8到0.9。
17.一种字符识别方法,包括下列步骤:
用第一分类器对字符图像分类,得到第一识别结果;
对该字符图像进行降噪处理,然后用第一分类器对得到的图像进行分类,得到第二识别结果;
比较第一识别结果和第二识别结果,得到第一较好结果;
用第二分类器重复上述步骤,得到分别与第一识别结果、第二识别结果和第一较好结果对应的第三识别结果、第四识别结果和第二较好结果;
合并第一和第二较好结果,输出得到的第五识别结果作为最终识别结果。
18.根据权利要求17所述的字符识别方法,其特征在于所述强降噪包括:将字符图像归一化为n×n像素,其中n为正整数;然后用3×3模板对归一化的字符图像进行十字腐蚀。
19.根据权利要求17或18所述的字符识别方法,其特征在于所述第二分类器使用黑像素分布特征,黑像素分布特征是通过下述步骤抽取的:
将字符图像归一化为n×n像素,其中n为正整数;
将归一化的图像分为m×m个小区,其中m为正整数,每个小区的宽度和高度分别为n/m像素;
在每一个小区中,计数每一个黑像素的8-邻域中的黑像素的数量并求和,每个小区的所述和数是特征矢量的一维,从而得到m×m维的特征矢量,该特征矢量用作所述黑像素分布特征。
20.根据权利要求19所述的字符识别方法,还包括将所获得的特征矢量的维数通过FDA转换为64-150维。
21.根据权利要求19所述的字符识别方法,其特征在于,在对所述归一化字符图像分别进行下述移动后分别重复所述计数和求和步骤:
a)向上或者向下移动n/2m行,并将顶部或者底部的n/2m行分别移动到底部或者顶部;
b)向上或者向下移动n/2m行,并将顶部或者底部的n/2m行分别移动到底部或者顶部,同时向左或者向右移动n/2m行,并将左边或者右边的n/2m行分别移动到右边或者左边;
c)向左或者向右移动n/2m行,并将左边或者右边的n/2m行分别移动到右边或者左边;
得到另外3×m×m维,从而得到4×m×m维的特征矢量,用作所述黑像素分布特征。
22.根据权利要求21所述的字符识别方法,还包括将所获得的特征矢量的维数通过FDA转换为64-150维。
23.根据权利要求17或18所述的字符识别方法,其特征在于还包括下述步骤中的至少一个:
在使用第一分类器的分类步骤之后的第一判断步骤,其中,如果第一识别结果可以接受,则将其输出作为最终识别结果;
在所述比较步骤之前的第二判断步骤,其中,如果第一较好结果可以接受,则将其输出作为最终识别结果;
在所述重复步骤中的第三判断步骤,其中,如果第三识别结果可以接受,则将其输出作为最终识别结果;
在所述重复步骤中的第四判断步骤,其中,如果第二较好结果可以接受,则将其输出作为最终识别结果;
24.根据权利要求23所述的字符识别方法,其特征在于,对于第一、第二、第三和第四判断步骤中的每一个,判断标准为d1/d2是否小于相应的阈值,其中d1是相应识别结果中具有最小距离值的候选字的距离值,d2是相应识别结果中具有第二小的距离值的候选字的距离值,其中用在每个判断步骤中的阈值的范围为0.3到0.5。
25.根据权利要求17或18所述的字符识别方法,其特征在于,在所述合并步骤中,利用下述公式合并所述第一较好结果和第二较好结果:
Di=di/dmin(min!=i)+ddi/ddmin(min!=i)(i=1,2,...,n)
其中Di是第i个候选字的合并距离值,dmin是第一较好结果中的候选字的距离值{d1,d2,......,dn}中的最小距离值,ddmin是第二较好结果中的候选字的距离值{dd1,dd2,......ddn}中的最小距离值。
26.一种字符识别装置,包括:
第一分类器,用来用第一分类方法对字符图像分类,产生第一识别结果;
第二分类器,用来用第二分类方法对字符图像分类,得到第二识别结果;
第一存储器,用于存储第一分类器的中间分类结果和第一识别结果;
合并装置,用于合并第一识别结果和第二识别结果,生成第三识别结果;以及
输出装置,用于输出第三识别结果。
27.如权利要求26所述的字符识别装置,还包括第一判断装置,用于判断第一识别结果是否可以接受从而可以直接输出,并且,如果第一识别结果不可接受,则指令第二分类器对字符图像进行分类。
28.如权利要求26所述的字符识别装置,还包括:
强噪声过滤器,用于对字符图像降噪;
第二存储器,用于存储在由所述强噪声过滤器进行降噪之前的第三识别结果,以及在由所述强噪声过滤器进行降噪之后的另一个第三识别结果;以及
比较器,用于比较所述两个第三识别结果,并控制所述输出装置输出较好的结果。
29.如权利要求28所述的字符识别装置,其特征在于所述强噪声过滤器为使用3×3模板进行十字腐蚀的噪声过滤器。
30.如权利要求28或29所述的字符识别装置,其特征在于,所述字符识别装置或者其比较器包括下述中的至少一个:
第一判断装置,用于判断在降噪之前的第一识别结果是否可以接受从而可以直接输出,如果不可接受,则指令第二分类器对字符图像进行分类;
第二判断装置,用于判断在降噪之前的第三识别结果是否可以接受从而可以直接输出,如果不可接受,则指令强噪声过滤器对字符图像降噪。
31.如权利要求30所述的字符识别装置,其特征在于,所述第一判断装置还配置为判断在降噪之后的第一识别结果是否可以接受从而可以直接输出,如果不可接受,则指令第二分类器对字符图像进行分类;第二判断装置还配置为判断在降噪之后的第三识别结果是否可以接受从而可以直接输出,如果不可接受,则指令比较器比较降噪前后的两个第三识别结果。
32.一种字符识别装置,包括:
第一分类器,用来使用第一分类方法对字符图像分类,得到第一识别结果;
第二分类器,用来使用第二分类方法对字符图像进行分类,得到第三识别结果;
强噪声过滤器,用来对字符图像降噪,产生增强的字符图像,增强的字符图像由第一分类器和第二分类器进行分类,分别产生第二和第四识别结果;
第一存储器,用于存储第一分类器的第一和第二识别结果;
第二存储器,用于存储第二分类器的第三和第四识别结果;
比较器,用于比较所述第一和第二识别结果,得到第一较好结果,并用于比较所述第三和第四识别结果,得到第二较好结果;
合并装置,用于合并所述第一较好结果和所述第二较好结果,得到第五识别结果;
输出装置,用于输出所述第五识别结果。
33.如权利要求32所述的字符识别装置,其特征在于所述强噪声过滤器为使用3×3模板进行十字腐蚀的噪声过滤器。
34.如权利要求32或33所述的字符识别装置,其特征在于,所述字符识别装置或者其比较器包括下述中的至少一个:
第一判断装置,用于判断第一识别结果是否可以接受从而可以直接输出,如果不可接受,则指令强噪声过滤器对字符图像进行降噪;
第二判断装置,用于判断第一较好结果是否可以接受从而可以直接输出,如果不可接受,则指令第二分类器对字符图像进行分类;
第三判断装置,用于判断第三识别结果是否可以接受从而可以直接输出,如果不可接受,则指令强噪声过滤器对字符图像进行降噪;
第四判断装置,用于判断第二较好结果是否可以接受从而可以直接输出,如果不可接受,则指令合并装置合并所述第一和第二较好结果。
35.存储有用于实现如权利要求1-25之一所述的方法的程序代码的存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2003101186851A CN1308889C (zh) | 2003-11-28 | 2003-11-28 | 字符识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2003101186851A CN1308889C (zh) | 2003-11-28 | 2003-11-28 | 字符识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1622122A true CN1622122A (zh) | 2005-06-01 |
CN1308889C CN1308889C (zh) | 2007-04-04 |
Family
ID=34761194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2003101186851A Expired - Fee Related CN1308889C (zh) | 2003-11-28 | 2003-11-28 | 字符识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1308889C (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978971A (zh) * | 2014-04-08 | 2015-10-14 | 安徽科大讯飞信息科技股份有限公司 | 一种口语评测方法及系统 |
CN107025452A (zh) * | 2016-01-29 | 2017-08-08 | 富士通株式会社 | 图像识别方法和图像识别设备 |
CN108345880A (zh) * | 2018-01-26 | 2018-07-31 | 金蝶软件(中国)有限公司 | 发票识别方法、装置、计算机设备和存储介质 |
CN108846367A (zh) * | 2018-06-25 | 2018-11-20 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN109753968A (zh) * | 2019-01-11 | 2019-05-14 | 北京字节跳动网络技术有限公司 | 字符识别模型的生成方法、装置、设备及介质 |
CN111340035A (zh) * | 2020-03-24 | 2020-06-26 | 山东浪潮通软信息科技有限公司 | 一种火车票识别方法、系统、设备以及介质 |
CN111652108A (zh) * | 2020-05-28 | 2020-09-11 | 中国人民解放军32802部队 | 抗干扰的信号识别方法、装置、计算机设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368827B (zh) * | 2017-04-01 | 2020-09-15 | 阿里巴巴集团控股有限公司 | 字符识别方法及装置、用户设备、服务器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3105967B2 (ja) * | 1991-11-14 | 2000-11-06 | キヤノン株式会社 | 文字認識方法及び装置 |
JPH07271899A (ja) * | 1994-03-31 | 1995-10-20 | Toshiba Corp | 文字認識装置 |
JP4674778B2 (ja) * | 2000-08-31 | 2011-04-20 | ヒューレット・パッカード・カンパニー | 文字認識システム |
-
2003
- 2003-11-28 CN CNB2003101186851A patent/CN1308889C/zh not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978971A (zh) * | 2014-04-08 | 2015-10-14 | 安徽科大讯飞信息科技股份有限公司 | 一种口语评测方法及系统 |
CN104978971B (zh) * | 2014-04-08 | 2019-04-05 | 科大讯飞股份有限公司 | 一种口语评测方法及系统 |
CN107025452A (zh) * | 2016-01-29 | 2017-08-08 | 富士通株式会社 | 图像识别方法和图像识别设备 |
CN108345880A (zh) * | 2018-01-26 | 2018-07-31 | 金蝶软件(中国)有限公司 | 发票识别方法、装置、计算机设备和存储介质 |
CN108846367A (zh) * | 2018-06-25 | 2018-11-20 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN109753968A (zh) * | 2019-01-11 | 2019-05-14 | 北京字节跳动网络技术有限公司 | 字符识别模型的生成方法、装置、设备及介质 |
CN111340035A (zh) * | 2020-03-24 | 2020-06-26 | 山东浪潮通软信息科技有限公司 | 一种火车票识别方法、系统、设备以及介质 |
CN111652108A (zh) * | 2020-05-28 | 2020-09-11 | 中国人民解放军32802部队 | 抗干扰的信号识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN1308889C (zh) | 2007-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1752992A (zh) | 文字识别装置、文字识别方法及文字识别程序 | |
CN1459761A (zh) | 基于Gabor滤波器组的字符识别技术 | |
CN100342399C (zh) | 提取用作面貌识别和重现的特征向量的方法和装置 | |
CN1828632A (zh) | 目标检测装置、学习装置、目标检测系统及目标检测方法 | |
CN1991865A (zh) | 从复杂背景文档图像提取文本的装置、方法、程序及介质 | |
CN1877598A (zh) | 手机中使用图像识别进行名片信息的采集与录入的方法 | |
CN1818927A (zh) | 指纹识别方法与系统 | |
CN1777915A (zh) | 脸图像候选区域检索方法、检索系统以及检索程序 | |
US8189917B2 (en) | Methods and systems for locating text in a digital image | |
CN1737824A (zh) | 建立劣化字典的方法和装置 | |
CN1607542A (zh) | 图像处理装置和图像处理方法 | |
Calvo-Zaragoza et al. | Pixel-wise binarization of musical documents with convolutional neural networks | |
Jamil et al. | Edge-based features for localization of artificial Urdu text in video images | |
CN1308889C (zh) | 字符识别方法和装置 | |
CN1519768A (zh) | 用于校正图像中的对象歪斜的方法和装置 | |
CN1310182C (zh) | 用于增强文档图像和字符识别的方法和装置 | |
CN1367460A (zh) | 字符串识别装置、字符串识别方法及其存储介质 | |
CN1195284C (zh) | 图像处理设备 | |
CN1916940A (zh) | 模板优化的字符识别方法和系统 | |
CN1041773C (zh) | 由字符图象直方图0-1图形表示识别字符的方法和装置 | |
CN1093290C (zh) | 利用部分特征空间上投影特征向量的模式识别装置和方法 | |
CN1862487A (zh) | 基于人脸认证的屏幕保护方法及装置 | |
Brisinello et al. | Optical Character Recognition on images with colorful background | |
CN1549192A (zh) | 手写字体的计算机识别与自动输入方法 | |
Zhao et al. | An effective binarization method for disturbed camera-captured document images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070404 Termination date: 20161128 |
|
CF01 | Termination of patent right due to non-payment of annual fee |