CN1324521C - 用于识别图象字符的预处理设备和方法 - Google Patents

用于识别图象字符的预处理设备和方法 Download PDF

Info

Publication number
CN1324521C
CN1324521C CNB2004100399535A CN200410039953A CN1324521C CN 1324521 C CN1324521 C CN 1324521C CN B2004100399535 A CNB2004100399535 A CN B2004100399535A CN 200410039953 A CN200410039953 A CN 200410039953A CN 1324521 C CN1324521 C CN 1324521C
Authority
CN
China
Prior art keywords
character
image
pixel
block
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100399535A
Other languages
English (en)
Other versions
CN1536526A (zh
Inventor
林采焕
金焕
徐正旭
金南哲
金钟俒
朴埈孝
辛基泽
张益熏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1536526A publication Critical patent/CN1536526A/zh
Application granted granted Critical
Publication of CN1324521C publication Critical patent/CN1324521C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

公开了一种用于识别图象中的字符的设备和方法。输入部件接收图象。模糊判定部件将所接收的图象分类成字符块和背景块,计算该字符块的平均能量比,以及将该平均能量比与预定阈值进行比较以便判定所接收的图象是否模糊。如果所接收的图象不模糊,图象二进制部件将所接收的图象分类成字符块和背景块,将该字符块中的像素与像素阈值进行比较,根据比较结果,将该字符块中的像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将该背景块中的像素二进制化为用于背景像素的该亮度值。字符识别部件识别该二进制化图象中的字符。

Description

用于识别图象字符的预处理设备和方法
技术领域
本发明通常涉及用于处理图象的设备和方法,特别地,涉及用于识别包括在图象中的字符的预处理设备和方法。
背景技术
通常,为识别图象字符,执行预处理操作。“预处理操作”是指在识别图象中的字符之前,处理图象的操作。图象预处理操作能包括确定输入图象是否适于字符识别、校正输入图象中的歪斜的目标、适当地校正输入图象的大小以及二进制化输入图象以便能识别输入图象中的字符。
首先,为预处理而接收的图象能是用照相机拍摄的图象。当在拍摄期间,散焦或不规则照明目标时,所拍摄的图象会变得模糊。识别这种模糊图象中的字符使得降低识别率。因此,最好在识别图象中的字符之前确定输入图象是否模糊。如果图象的分辨率太低以致不能识别其中的字符时,最好中断识别操作,然后请求重新输入图象。
第二,用于识别图象字符的设备通常识别包括在图象中的字符。因为用照相机拍摄图象,图象中的目标会歪斜。因此,为增加识别率,最好在执行识别操作之前校正歪斜的目标。
第三,用于识别图象字符的设备通常从图象识别字符。将图象分成字符区和背景区,以及在背景区中没有排列字符。例如,假定将经受字符识别的文档是名片,输入图象变为名片的图象。输入图象包括名片外的背景区。在这种情况下,可以通过在从图象去除背景区后,扩展图象的大小来提高字符识别性能。另外,通常,即使在名片的边缘中也不包括字符区。因此,可以通过在名片中搜索字符区的位置、根据搜索结果,去除除字符区外的区域,然后通过按去除区域的百分比来扩展字符区,提高识别性能。存储这种预处理过的图象有助于增加存储效率。
第四,通常在识别图象中的字符之前二进制化图象。然而,当在具有投射到其上的阴影的不规则照明情形下拍摄的整个图象上执行二进制时,不期望地恶化二进制性能。为提高二进制性能,最好将图象划分成具有预定大小的块,然后独立地二进制化所划分的图象块。
发明内容
因此,本发明的目的是提供用于识别图象字符的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,确定将经受字符识别的图象是否模糊的预处理设备和方法。
本发明的另一目的是提供用于通过在图象预处理设备中,将输入图象划分成字符块和背景块,并仅分析字符块来确定图象是否模糊的设备和方法。
本发明的另一目的是提供用于通过在图象预处理设备中,将输入图象划分成字符块和背景块以及分析字符块的能量比(energy ratio),确定图象是否模糊的设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,校正图象中的目标歪斜的预处理设备和方法。
本发明的另一目的是提供用于通过在图象预处理设备中,将图象划分成字符块和背景块以及计算所划分的字符块的歪斜来校正输入图象中的目标歪斜的设备和方法。
本发明的另一目的是提供用于通过在图象预处理设备中,将图象划分成字符块和背景块,将字符块制成带(strip),然后根据带的歪斜,计算目标的歪斜角来校正输入图象中的目标歪斜的设备和方法。
本发明的另一目的是提供用于通过在图象预处理设备中,在二进制化前划分字符块,通过扩展二进制字符区来创建候选带、在所生成的候选带中选择最长和最大的带,然后根据所选定的带的歪斜来计算歪斜角,校正输入图象中的歪斜的目标的设备和方法。
本发明的另一目的是提供用于通过在图象预处理设备中,在二进制化前划分字符块、二次抽样在水平方向中的二进制化字符块、通过扩展二进制化字符区来创建候选带、在创建的候选带中选择最长和最大的带,然后根据所选择的带的歪斜,计算歪斜角,校正输入图象中的歪斜的目标的设备和方法。
本发明的另一目的是提供用于从图象去除背景区以及在识别图象中的字符前,扩展字符区的预处理设备和方法。
本发明的另一目的是提供用于在图象预处理设备中,去除字符区外的区域,然后扩展字符区来搜索图象中的字符区的位置的设备和方法。
本发明的另一目的是提供用于将图象划分成字符块和背景块,然后在识别图象中的字符前,二进制化字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在图象预处理设备中,将图象划分成字符块和背景块,生长所划分的字符块以便在二进制前重新划分字符块的设备和方法。
本发明的另一目的是提供用于在图象预处理设备中,将图象划分成字符块和背景块,将所划分的字符块与它们的相邻块组合以便增强边缘分量,以及在二进制化图象前,将字符块与成组块分开的设备和方法。
本发明的另一目的是提供用于在图象预处理设备中,将图象划分成字符块和背景块、生长所划分的块以便重新划分字符块,将所划分的字符块与它们的相邻块组合以便增强边缘分量,以及在二进制图象前,将字符块与成组块分开的设备和方法。
本发明的另一目的是提供用于在图象预处理设备中,将图象划分成字符块和背景块、使用二次滤波器,增强字符块的边缘分量,然后二进制化字符块和背景块的像素的设备和方法。
本发明的另一目的是提供用于在图象预处理设备中,将图象划分成字符块和背景块,使用改进的二次滤波器,增强字符块的边缘分量,然后二进制化字符块和背景块的像素的设备和方法。
本发明的另一目的是提供用于确定将识别字符的图象是否模糊,如果图象不模糊,在识别图象中的字符之前,将图象划分成字符块和背景块,然后二进制化字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符之前,校正图象中的目标歪斜、将校正歪斜后的图象划分成字符块和背景块,然后二进制字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符之前,去除图象的背景区、扩展图象中的字符区、将具有扩展字符区的图象划分成字符块和背景块,然后二进制字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,确定图象是否模糊、以及如果图象不模糊,校正图象中的歪斜的目标、将校正歪斜后的图象划分成字符块和背景块,然后二进制化字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,确定图象是否模糊,以及如果图象不模糊、去除图象的背景区、扩展图象中的字符区、将具有扩展字符区的图象划分成字符块和背景块,然后二进制化字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,校正图象中的歪斜的目标、从校正歪斜后的图象去除背景区、扩展校正歪斜后的图象中的字符区、将具有扩展字符区的图象划分成字符块和背景块,然后二进制化字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,确定图象是否模糊,以及如果图象不模糊,校正图象中的歪斜的目标、从校正歪斜后的图象去除背景区、扩展校正歪斜后的图象中的字符区、将具有扩展字符区的图象划分成字符块和背景块,然后二进制字符块的图象的预处理设备和方法。
本发明的另一目的是提供用于在识别图象中的字符前,确定图象是否模糊,以及如果图象不模糊,校正图象中的歪斜的目标、从歪斜校正后的图象去除背景区、扩展校正歪斜后的图象的字符区、从具有扩展字符区的图象去除噪声、将减小噪声的图象划分成字符块和背景块,然后二进制化字符块的图象的预处理设备和方法。
根据本发明的第一方面,提供一种用于识别图象中的字符的设备,包括:用于接收该图象的输入部件;模糊判定部件,用于将所接收的图象分类成字符块和背景块,计算该字符块的平均能量比,以及将该平均能量比与预定阈值进行比较以便判定所接收的图象是否模糊;图象二进制部件,用于如果所接收的图象不模糊,将所接收的图象分类成字符块和背景块,将该字符块中的像素与像素阈值进行比较,根据比较结果,将该字符块中的像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制化图象中的字符。
根据本发明的第二方面,提供一种用于识别图象中的字符的设备,包括:用于接收该图象的输入部件;目标歪斜校正部件,用于在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标歪斜,确定对应于所测量的歪斜的歪斜角,以及使该图象旋转确定歪斜角以便校正该图象中歪斜的目标;图象二进制部件,用于将校正歪斜的图象分类成字符块和背景块,将该字符块中的像素与像素阈值进行比较,根据比较结果,将该像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制化图象中的字符。
根据本发明的第三方面,提供一种用于识别图象中的字符的设备,包括:用于接收该图象的输入部件;内容区(ROC)扩展部件,用于将所接收的图象分类为字符块和背景块,通过搜索该图象中的该字符块的位置,抽取字符区,以及使所抽取的字符区的图象扩展到所接收的图象的大小;图象二进制部件,用于将所ROC扩展的图象分类为字符块和背景块,将该字符块中的像素与像素阈值进行比较,根据该比较结果,将该像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制图象中的字符。
根据本发明的第四方面,提供一种用于识别图象中的字符的设备,包括:用于接收该图象的输入部件;模糊判定部件,用于将所接收的图象划分成字符块和背景块、计算该字符块的平均能量比,以及将该平均能量比与预定阈值进行比较以便确定所接收的图象是否模糊;目标歪斜校正部件,用于如果所接收的图象不模糊,在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使该图象旋转确定歪斜角以便校正该图象中的歪斜目标;图象二进制部件,用于将校正歪斜的图象分类成字符块和背景块,将该字符块中的像素与像素阈值比较,根据该比较结果,将该像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制图象中的字符。
根据本发明的第五方面,提供一种识别图象中的字符的设备,包括:用于接收该图象的输入部件;模糊判定部件,用于将所接收的图象分类成字符块和背景块,计算该字符块的平均能量比,以及将该平均能量比与预定阈值行比较以便判定所接收的图象是否模糊;内容区(ROC)扩展部件,用于如果所接收的图象不模糊,将所接收的图象分类成字符块和背景块,通过在该图象中搜索该字符块的位置,抽取字符区,以及将所抽取的字符区的图象扩展到所接收的图象的大小;图象二进制部件,用于将ROC扩展的图象分类成字符块和背景块,将该字符块中的像素与像素阈值比较,根据比较结果,使该像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制图象中的字符。
根据本发明的第六方面,提供一种用于识别图象中的字符的设备,包括:用于接收该图象的输入部件;目标歪斜校正部件,用于在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使该图象旋转所确定的歪斜角以便校正该图象中歪斜的目标;内容区(ROC)扩展部件,用于将校正歪斜后的图象分类成字符块和背景块,通过在该图象中搜索该字符块的位置,抽取字符区,以及将所抽取的字符区的图象扩展到所接收的图象的大小;图象二进制部件,用于将该ROC扩展的图象分类成字符块和背景块,将该字符块中的像素与像素阈值比较,根据该比较结果,将该像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制图象中的字符。
根据本发明的第七方面,提供一种用于识别图象中的字符的设备,包括:用于接收该图象的输入部件;模糊判定部件,用于将所接收的图象分类成字符块和背景块,计算该字符块的平均能量比,以及将该平均能量比与预定阈值比较以便判定所接收的图象是否模糊;目标歪斜校正部件,用于如果所接收的图象不模糊,在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使该图象旋转所确定的歪斜角以便校正该图象中歪斜的目标;内容区(ROC)扩展部件,用于将该校正歪斜的图象分类成字符块和背景块,通过在该图象中搜索该字符块的位置,抽取字符区,以及使所抽取的字符区的图象扩展到所接收的图象的大小;图象二进制部件,用于将该ROC扩展的图象分类成字符块和背景块,将该字符块中的像素与像素阈值比较,根据该比较结果,将该像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使该背景块中的像素二进制化为用于背景像素的该亮度值;以及字符识别部件,用于识别该二进制图象中的像素。
附图说明
从下述结合附图的详细描述,本发明的上述和其他目的、特征和优点将变得更显而易见,其中:
图1是示例说明根据本发明的第一实施例的图象预处理设备的结构的框图;
图2是示例说明根据本发明的第二实施例的图象预处理设备的结构的框图;
图3是示例说明根据本发明的第三实施例的图象预处理设备的结构的框图;
图4是示例说明根据本发明的第四实施例的图象预处理设备的结构的框图;
图5是示例说明根据本发明的第五实施例的图象预处理设备的结构的框图;
图6是示例说明根据本发明的第六实施例的图象预处理设备的结构的框图;
图7是示例说明根据本发明的第七实施例的图象预处理设备的结构的框图;
图8是示例说明根据本发明的实施例的模糊判定部件的详细结构的框图;
图9是示例说明根据本发明的实施例的图8的块划分部件的详细结构的框图;
图10A-10C是示例说明通过图9的能量计算部件,设置主离散余弦变换(DCT)系数的位置的方法的图;
图11是示例说明根据本发明的实施例的图8的平均字符块能量计算部件的详细结构的框图;
图12是示例说明主DCT系数的平均能量分布的图;
图13是示例说明根据本发明的实施例,通过模糊判定部件判定输入图象是否模糊的进程的流程图;
图14A至14E是示例说明在执行图13的进程的过程中产生的图象的图;
图15是示例说明根据本发明的实施例,目标歪斜校正部件的详细结构的例子的框图;
图16是示例说明根据本发明的实施例,目标歪斜校正部件的详细结构的另一例子的框图;
图17是根据本发明的实施例的图15和16中的二进制部件的详细结构的框图;
图18是示例说明根据本发明的实施例的图17中所示的块划分部件的详细结构的框图;
图19是示例说明用于根据本发明的实施例,由图15和16的歪斜角判定部件计算带的歪斜角的进程的图;
图20是示例说明根据本发明的实施例,由目标歪斜校正部件校正图象中歪斜的目标的进程的流程图;
图21A至21H是示例说明在图20的每个过程中产生的图象的图;
图22是示例说明根据本发明的实施例的内容区(ROC)扩展部件的详细结构的例子的框图;
图23是示例说明根据本发明的实施例的ROC扩展部件的详细结构的另一例子的框图;
图24是示例说明根据本发明的实施例的图22和23中所示的块划分部件的详细结构的框图;
图25是示例说明根据本发明的实施例,由ROC扩展部件扩展图象中的字符区的进程的流程图;
图26A至26H是示例说明在执行图25的进程的过程中产生的图象的图;
图27A是示例说明在降噪部件中处理过的相邻像素的图;
图27B是示例说明降噪部件中处理过的中心像素的方向的图;
图28A至28D是示例说明在各个方向中形成的像素组的图;
图28E和28F分别示例说明在不降噪的情况下,通过块自适应二进制(block adapitve binarization)(BAB)二进制化名片图象获得的合成图象以及通过BAB二进制化降低的图象获得的合成图象;
图29是示例说明根据本发明的第一实施例的图象二进制部件的详细结构的框图;
图30是示例说明根据本发明的第二实施例的图象二进制部件的详细结构的框图;
图31是示例说明根据本发明的第三实施例的图象二进制部件的详细结构的框图;
图32是示例说明根据本发明的第四实施例的图象二进制部件的详细结构的框图;
图33是示例说明根据本发明的实施例,图29至32的块划分部件的详细结构的框图;
图34是示例说明根据本发明的实施例,图29至32的边缘增强部件的详细结构的例子的框图;
图35是用于说明通过边缘增强部件,增强字符块的边缘的操作的图;
图36是示例说明根据本发明的实施例,图29至32的边缘增强部件的详细结构的另一例子的框图;
图37是示例说明根据本发明的实施例,使用二次滤波器,通过图象二进制部件,二进制图象的进程的流程图;
图38A至38I是示例说明执行图37的二进制进程的每个过程中产生的图象的图;
图39是示例说明根据本发明的实施例,用于使用改进的二次滤波器,通过图象二进制部件二进制图象的进程的流程图;
图40A至40G是示例说明在执行图39的二进制进程的每个处理中产生的图象的图;
图41A和41B是示例说明根据本发明的实施例,识别具有歪斜目标的图象中的字符的过程的流程图;
图42A至42C是示例说明根据本发明的实施例,识别在ROC扩展后以及没有ROC扩展的图象中的字符的过程的图;
图43A至43C是示例说明根据本发明的实施例,识别预处理后和没有预处理的正常图象中的字符的过程的图;
图44A至44C是示例说明根据本发明的实施例,识别预处理后和没有预处理的状况坏的图象中的字符的过程的图;
具体实施方式
在下述描述中,提供的具体细节诸如图象的大小以及字符和背景块的大小只是为了进行示例。对本领域的技术人员来说,在没有这些具体细节或通过修改这些细节,能很容易实现本发明。
在本发明的实施例中,假定输入图象具有640×480像素的大小。在此使用的术语“块”是指字符和背景块,以及在此假定每个块具有8×8像素大小。另外,术语“成组块”是指通过将二进制化的中心块与其8个相邻块组合产生的块,以及在此假定成组块具有24×24像素大小。
另外,术语“带”是指以规则间隔紧密排列的多个字符。在本发明的实施例中,通过计算由带形成的方向角,校正图象中歪斜的目标。此外,术语“区域外”是指除图象中的字符区外的区域,以及表示除图象中的所需区域外的区域。
现在将参考附图,详细地描述本发明的实施例。
图1是示例说明在用于识别图象字符的设备中,根据本发明的第一实施例的预处理设备的结构的框图。参考图1,输入部件10具有接收输入图象的功能。在这里,照相机、扫描仪、包括调制解调器和网络的通信接口以及计算机能充当输入部件10。在此假定输入图象由640(列)×480(行)像素组成。
图象模糊判定部件(在下文中,称为“模糊判定部件”)20将输入图象分成字符块和背景块。模糊判定部件20计算用于字符块的平均能量比,将平均能量比与预定阈值进行比较,以及根据比较结果,确定输入图象是否模糊。如果确定输入图象模糊,模糊判定部件20告知输入部件10输入图象模糊,请求重新输入图象。另一方面,如果输入图象不模糊,模糊判定部件20将不模糊输入图象传送到降噪部件30。
降噪部件30执行降低包括在从输入部件10输出的图象中的噪声的功能。
通常,当通过照相机拍摄图象时,产生噪声。噪声分量中的典型的噪声分量包括Gaussian噪声。为降低Gaussian噪声,能使用各种降噪滤波器。例如,然而,通过拍摄名片获得的图象在字符区的边缘具有大量信息。因此,如果对名片图象使用简单的降噪滤波器,会严重地损坏字符信息。因此,最好降噪部件30使用能降低图象噪声同时保存边缘处的信息的滤波器。在这里,假定降低部件30使用特殊的降噪滤波器,诸如定向Lee滤波器。降噪部件30是可选的。
图象二进制部件40将从输入部件10输出的图象或从降噪部件30输出的图象划分成具有预定大小的块,分析块中的像素,以及根据分析结果,将块分类成字符块和背景块。图象二进制部件40使用字符块的字符像素与它们的周围像素间的关系,增强字符块的边缘以及生成降噪像素,并计算用于二进制像素的阈值。对边缘增强和降噪来说,图象二进制部件40能使用二次滤波器(QF)或改进的二次滤波器(IQF)。图象二进制部件40将边缘增强的、降噪的字符块和背景块的像素与阈值进行比较,以及根据比较结果,将像素二进制化第一亮度值或第二亮度值。
字符识别部件50识别从图象二进制部件40输出的二进制图象中的字符。
图2是示例说明在用于识别图象字符的设备中,根据本发明的第二实施例的预处理设备的结构的框图。参考图2,早先描述的类型的输入部件10具有接收输入图象的功能。。
目标歪斜校正部件60将从输入部件10输出的图象划分成具有预定大小的块,将块分类成字符块和背景块,以及二进制化每个块中的像素。目标歪斜校正部件60在二进制字符块的区域上执行扩张以便产生相邻字符连接到另一个的候选带。目标歪斜校正部件60在候选带中选择具有预定长度或更长的候选带。目标歪斜校正部件60计算选定候选带的方向角,根据方向角来累计计算的方向角的计数值,选择具有最大计数值的方向角,以及将选定的方向角确定为图象中歪斜目标的歪斜角。
目标歪斜校正部件60接收从输入部件10输出的图象并使图象旋转确定歪斜角以便校正图象中歪斜的目标。目标歪斜校正部件60用特定像素填充由于歪斜校正而导致没有像素存在的图象的空区域以便产生具有与输入图象相同大小的图象。
早先描述的类型的降噪部件30执行降低包括在从目标歪斜校正部件60输出的图象中的噪声的功能。降噪部件30能插入输入部件30和目标歪斜校正部件60之间,或能省略。
图象二进制部件40将从目标歪斜校正部件60输出的图象或从降噪部件30输出的图象划分成具有预定大小的块,分析块中的像素,以及根据分析结果,将块分类成字符块和背景块。图象二进制部件40使用字符块的字符像素和它们的周围像素间的关系,增强字符块的边缘以及产生降噪像素,并计算用于二进制像素的阈值。对边缘增强和降噪来说,图象二进制部件40能使用QF或IQF。图象二进制部件40将边缘增强的、降噪字符块和背景块的像素与阈值进行比较,并根据比较结果,将像素二进制化为第一亮度值或第二亮度值。
字符识别部件50识别从图象二进制部件40输出的二进制图象中的字符。
图3是示例说明在用于识别图象字符的设备中,根据本发明的第三实施例的预处理设备的结构的框图。参考图3,早先描述的类型的输入部件10具有接收输入图象的功能。
内容区(ROC)扩展部件70将从输入部件10输出的图象划分成具有预定大小的块,分析包含在块中的像素,根据分析结果,将块分类成字符块和背景块,并二进制化字符块中的像素。ROC扩展部件70中值滤波二进制化图象以便从图象去除由于图象缘(image rim)或噪声而误分类的字符区。ROC扩展部件70水平和垂直扫描中值滤波的图象以便搜索字符区的位置。ROC扩展部件70抽取对应于所搜索的位置的字符区的图象。ROC扩展部件70将所抽取的字符区的图象扩展到输入图象的大小。
早先描述的类型的降噪部件30执行降低包括在从ROC扩展部件70输出的图象中的噪声的功能。能将降噪部件30插入输入部件10和ROC扩展部件70之间,或能省略。
图象二进制部件40将从ROC扩展部件70输出的图象或从降低部件30输出的图象划分成具有预定大小的块,分析块中的像素,以及根据分析结果,将该块分类成字符块和背景块。
字符识别部件50识别从图象二进制部件40输出的二进制化图象中的字符。
图4是示例说明在用于识别图象字符的设备中,根据本发明的第四实施例的预处理设备的结构的框图。参考图4,早先描述的类型的输入部件10具有接收输入图象的功能。
早先描述的类型的模糊判定部件20将输入图象分类成字符块和背景块。模糊判定部件20计算用于字符块的平均能量比,将平均能量比与预定阈值进行比较,并根据比较结果,确定输入图象是否模糊。如果确定输入图象模糊,模糊判定部件20告知输入部件10输入图象模糊,请求重新输入图象。另一方面,如果输入图象不模糊,模糊判定部件20将不模糊的输入图象传送到目标歪斜校正部件60。
早先描述的类型的目标歪斜校正部件60将从输入部件10输出的图象划分成具有预定大小的块,将这些块分类成字符块和背景块,以及二进制化每个块中的像素。目标歪斜校正部件60在二进制化字符块的区域上执行扩张以便产生候选带,在这些候选带中,相邻字符彼此连接。目标歪斜校正部件60在候选带中选择具有预定长度或更长的候选带。目标歪斜校正部件60计算选定候选带的方向角,根据这些角,累计计算的方向角的计数值,选择具有最大计数值的方向角,以及将选定的方向角确定为图象中歪斜目标的歪斜角。目标歪斜校正部件60接收从输入部件10输出的图象并使图象旋转确定歪斜角以便,校正图象中歪斜的目标。目标歪斜部件60用特定像素填充由于歪斜校正而导致的没有像素存在的图象的空区域,以便产生具有与输入大小相同的大小的图象。
降噪部件30执行降低包括在从目标歪斜校正部件60输出的图象中的噪声的功能。降噪部件30能插入模糊判定部件20和目标歪斜部件60之间,或能省略。
早先描述的类型的图象二进制部件40接收从目标歪斜校正部件60输出的图象或从降噪部件30输出的图象。
早先描述类型的字符识别部件50识别从图象二进制部件40输出的二进制化图象中的字符。
图5是示例说明在用于识别图象字符的设备中,根据本发明的第五实施例的预处理设备的结构的框图。参考图5,早先描述类型的输入部件10具有接收输入图象的功能。
早先描述类型的模糊判定部件20将输入图象分类成字符块和背景块。模糊判定部件20计算用于字符块的平均能量比,将平均能量比与预定阈值进行比较,以及根据比较结果,确定输入图象是否模糊。如果确定输入图象模糊,请求重新输入图象。另一方面,如果输入图象不模糊,模糊判定部件20将不模糊的输入图象传送到ROC扩展部件70。
早先描述类型的ROC扩展部件70将从输入部件10输出的图象划分成具有预定大小的块,以及分析包含在块中的像素,根据分析结果,将这些块分类成字符块和背景块,以及二进制化字符块中的像素。ROC扩展部件70中值滤波二进制化图象以便从图象去除由于图象缘或噪声而误分类的字符区。ROC扩展部件70水平和垂直扫描中值滤波的图象以便搜索字符区的位置。ROC扩展部件70抽取对应于所搜索的位置的字符区的图象。ROC扩展部件70将所抽取的字符区的图象扩展到输入图象的大小。
早先描述类型的降噪部件30执行降低包括在从ROC扩展部件70输出的图象中的噪声的功能。降噪部件30能插入模糊判定部件20和ROC扩展部件70之间,或能省略。
早先描述类型的图象二进制部件40将从ROC扩展部件70输出的图象或从降噪部件30输出的图象划分成具有预定大小的块,分析块中的像素,以及根据分析结果,将这些块分类成字符块和背景块。图象二进制部件40使用字符块的字符像素与它们的周围像素间的关系,增强字符块的边缘以及产生降噪像素,并计算用于二进制像素的阈值。对边缘增强和降噪来说,图象二进制部件40能使用二次滤波器或改进的二次滤波器。图象二进制部件40将边缘增强的、降噪的字符块和背景块的像素与阈值进行比较,并根据比较结果,将这些像素二进制化为第一亮度值或第二亮度值。
早先描述类型的字符识别部件50识别从图象二进制部件40输出的二进制图象中的字符。
图6是示例说明在用于识别图象字符的设备中,根据本发明的第六实施例的预处理设备的结构的框图。参考图6,早先描述类型的输入部件10具有接收输入图象的功能。
早先描述类型的目标歪斜校正部件60将从输入部件10输出的图象划分成具有预定大小的块,将这些块分类成字符块和背景块,以及二进制化每个块中的像素。目标歪斜校正部件60在二进制字符块的区域上执行扩张以便产生候选带,在候选带中,相邻字符彼此连接。目标歪斜校正部件60在候选带中选择具有预定长度或更长的候选带。目标歪斜校正部件60计算选定候选带的方向角,根据这些角,累计所计算的方向角的计数值,选择具有最大计数值的方向角,以及将选定的方向角确定为图象中歪斜目标的歪斜角。目标歪斜校正部件60接收从输入部件60输出的图象并使图象旋转确定的歪斜角以便校正图象中的目标歪斜。目标歪斜校正部件60用特定的像素填充由于歪斜校正而不存在像素的图象的空白区,以便产生具有与输入图象相同大小的图象。
早先描述类型的ROC扩展部件70将从目标歪斜校正部件60输出的图象划分成具有预定大小的块,分析包含在块中的像素,根据分析结果,将这些块分类成字符块和背景块,以及二进制化字符块中的像素。ROC扩展部件70中值滤波二进制化图象以便从图象去除由于图象缘或噪声而误分类的字符区。ROC扩展部件70水平和垂直扫描中值滤波图象以便搜索字符区的位置。ROC扩展部件70抽取对应于所搜索的位置的字符区的图象。ROC扩展部件70将所抽取的字符区的图象扩展到输入图象大小。
早先描述类型的降噪部件30执行降低包括在从ROC扩展部件70输出的图象中的噪声的功能。降噪部件30能插入目标歪斜校正部件60和ROC扩展部件70之间,或能省略。
早先描述类型的图象二进制部件40将从ROC扩展部件70输出的图象或从降噪部件30输出的图象划分成具有预定大小的块,分析块中的像素,以及根据分析结果,将这些块分类成字符块和背景块。图象二进制部件40使用字符块的像素与它们的周围像素间的关系,增强字符块的边缘并产生降噪像素,以及计算用于二进制像素的阈值。对边缘增强和降噪来说,图象二进制部件40能使用二次滤波器或改进的二次滤波器。图象二进制部件40将边缘增强的、降噪的字符块和背景块的像素和阈值进行比较,并根据比较结果,将这些像素二进制化为第一亮度值或第二亮度值。
早先描述类型的字符识别部件50识别从图象二进制部件40输出的二进制图象中的字符。
图7是示例说明在用于识别图象字符的设备中,根据本发明的第七实施例的预处理设备的结构的框图。参考图7,早先描述类型的输入部件10具有接收输入图象的功能。
早先描述类型的模糊判定部件20将输入图象分类成字符块和背景块。模糊判定部件20计算用于字符块的平均能量比,将平均能量比与预定阈值进行比较,以及根据比较结果,确定输入图象是否模糊。如果确定输入图象模糊,模糊判定部件20告知输入部件10输入图象模糊,请求重新输入图象。另一方面,如果输入图象不模糊,模糊判定部件20将不模糊的输入图象传送到目标歪斜校正部件60。
早先描述类型的目标歪斜校正部件60将从输入部件10输出的图象划分成具有预定大小的块,将这些块分类成字符块和背景块,以及二进制化每个块中的像素。目标歪斜校正部件60在二进制字符块的区域上执行扩张以便产生候选带,在这些候选带中,相邻字符彼此连接。目标歪斜校正部件60在候选带中选择具有预定长度或更长的候选带。目标歪斜校正部件60计算选定候选带的方向角,根据这些角,累计所计算的方向角的计数值,选择具有最大计数值的方向角,并将所选定的方向角确定为图象中歪斜目标的歪斜角。目标歪斜校正部件60接收从输入部件10输出的图象以及使图象旋转确定歪斜角以便校正图象中歪斜的目标。目标歪斜校正部件60用特定的像素填充由于歪斜校正而导致不存在像素的图象的空白区,以便产生具有与输入图象相同大小的图象。
早先描述类型的ROC扩展部件70将从目标歪斜校正部件60输出的图象划分成具有预定大小的块,分析包含在块中的像素,根据分析结果,将这些块分类成字符块和背景块,并二进制化字符块中的像素。ROC扩展部件70中值滤波二进制化图象以便从图象去除由于图象缘或噪声而误分类的字符区。ROC扩展部件70水平和垂直扫描中值滤波的图象以便搜索字符区的位置。ROC扩展部件70抽取对应于所搜索的位置的字符的图象。ROC扩展部件70将所抽取的字符区的图象扩展到输入图象的大小。
早先描述类型的降噪部件30执行降低包括在从ROC扩展部件70输出的图象中的噪声的功能。降噪部件30能插入模糊判定部件20和目标歪斜校正部件60之间,或目标歪斜校正部件60和ROC扩展部件70之间,或能省略。
早先描述类型的图象二进制部件40将从ROC扩展部件70输出的图象或从降噪部件30输出的图象划分成具有预定大小的块,分析块中的像素,以及根据分析结果,将这些块分类成字符块和背景块。图象二进制部件40使用字符块的字符像素与它们的周围像素间的关系,增强字符块的边缘并产生降噪像素,以及计算用于二进制像素的阈值。对边缘增强和降噪来说,图象二进制部件40能使用二次滤波器或改进的二次滤波器。图象二进制部件40将边缘增强的、降噪的字符块和背景块的像素和阈值进行比较,以及根据比较结果,将这些像素二进制化为第一亮度值或第二亮度值。
早先描述类型的字符识别部件50识别从图象二进制部件40输出的二进制图象中的字符。
至此,已经根据本发明的第一至第七实施例,描述了用于识别图象字符的系统的预处理设备。
第一实施例提供用于判定输入图象是否模糊,以及如果输入图象不模糊,二进制化图象中的像素以及将二进制值输出到字符识别设备的预处理设备。
第二实施例提供用于计算输入图象中的歪斜的目标、产生校正歪斜的图象、二进制化校正歪斜的图象中的像素,以及将二进制值输出到字符识别设备的预处理设备。
第三实施例提供用于从输入图象抽取字符区、从所抽取的字符区去除不期望的图象区、将所抽取的字符区扩展到输入图象的大小、二进制化扩展字符区中的像素,以及将二进制化值输出到字符识别设备的预处理设备。
第四实施例提供用于确定输入图象是否模糊,以及如果输入图象不模糊,计算图象中歪斜的目标,产生校正歪斜的图象,二进制校正歪斜的图象的像素以及将二进制值输出到字符识别设备的预处理设备。
第五实施例提供用于确定输入图象是否模糊,以及如果输入图象模糊,从图象抽取字符区,从所抽取的字符区去除不期望的图象区,将所抽取的字符区扩展到输入图象大小,二进制所扩展的字符区中的像素,以及将二进制值输出到字符识别设备的预处理设备。
第六实施例提供用于计算输入图象中歪斜的目标、产生校正歪斜的图象、从校正歪斜的图象抽取字符区、从所抽取的字符区去除不期望图象区,将所抽取的字符区扩展到输入图象大小,二进制扩展字符区中的像素,以及将二进制值输出到字符识别设备的预处理设备。
第七实施例提供用于确定输入图象是否模糊,以及如果输入图象模糊,计算图象中歪斜的目标,产生校正歪斜的图象,从校正歪斜的图象抽取字符区,从所抽取的字符区去除不期望图象区,将所抽取的字符区扩展到输入图象大小,二进制扩展字符区中的像素,以及将二进制值输出到字符识别设备的预处理设备。
在第一至第七实施例中,提供降噪部件30来改进预处理性能,并能省略它。尽管未示例说明,在没有图象二进制部件40的情况下,第一至第七实施例也能实现预处理设备。即,图象二进制部件40是可选的。
在根据第一至第七实施例的预处理设备中,模糊判定部件20、目标歪斜校正部件60、ROC扩展部件70、降噪部件30以及图象二进制部件40能实现如下。
在这里,图8至14E给出描述模糊判定部件20的结构。图15至21H给出了描述目标歪斜校正部件60的结构。图22至26H给出了描述ROC扩展部件70的结构。图27A至28D给出了描述降噪部件30的结构。图30至40G给出了描述图象二进制部件40的结构。
首先,在下文中,将参考图8,描述图1、4、5和7中所示的模糊判定部件20的详细结构。
图8是示例说明根据本发明的实施例的模糊判定部件20的详细结构的框图。参考图8,块分类部件110将从输入部件10接收的图象划分成具有预定大小的块,分析包含在块中的像素,以及根据分析结果,将这些块分类成字符块和背景块。块分类部件110将这些块分类成字符块和背景块以便仅使用包括字符的区域,确定图象是否模糊。在此假定每个块具有8×8像素大小。
平均字符块能量计算部件120计算从块分类部件110输出的字符块的平均能量比。平均字符块能量计算部件120计算字符块的平均能量比以便仅使用包括字符的区域,确定图象是否模糊。
模糊检测部件130将从平均字符块能量计算部件120输出的字符块的平均能量比与预定阈值TH进行比较,并根据比较结果,确定图象是否模糊。如果确定图象模糊,模糊检测部件130通过告知输入部件10所述的确定来请求重新输入图象。
图9是示例说明块分类部件110的详细结构的框图。块分类部件110将图象划分成具有预定大小的块,以及将这些块分类成字符块和背景块。块分类部件110分类这些块以便仅使用包括字符的区域,确定图象是否模糊。
参考图9,块划分部件111将图象划分成具有预定大小的块。如果图象具有640×480像素大小以及每个块具有8×8像素大小,块划分部件111将图象划分成4800块。
将从块划分部件111输出的块施加到离散余弦变换(DTC)转换部件113,在此使它们经受DTC(?DCT)转换。能量计算部件115计算DCT转换块中主DCT系数的绝对值之和。在这种情况下,用于字符块的DCT系数的能量分布值大于背景块。图10A是示例说明用于字符块和背景块的DCT系数的能量分布的比较的图。在图10A中,Y轴表示以对数刻度(log scale)的绝对值的平均和,以及X轴表示DCT系数的折线扫描顺序(zigzag scan order)。如图10A所示,用于字符块的DCT系数具有大于用于背景块的DCT系数的值。图10B是示例说明用于字符块的DCT系数的能量分布特性的图。在图10B中,Y轴表示以标准刻度的绝对值的平均和,以及X轴表示DCT系数的折线扫描顺序。如图10B所示,一些DCT系数在它们的绝对值的平均和中是很大的。因此,在本发明的一些实施例中,假定在块分类期间使用的主DCT系数是图10C所示的D1至D9。因此,在第k块中的主DCT系数的绝对值之和能用下述方程式计算。
S k = Σ i = 1 9 | D i k | . . . ( 1 )
在方程式(1)中,|Di k|表示第k块的第i个主DCT系数,以及Sk表示第k块中主DCT系数的绝对值之和。因此,在本发明的实施例中,计算主DCT系数D1至D9的绝对值之和。
能量计算部件115在所有块上执行方程式(1)的计算(以k=0,1,2,...,4799)。将各个块的能量值Sk(k=0,1,2,...,4799)施加到块阈值计算部件117。
块阈值计算部件117合计逐块计算的能量值Sk(k=0,1,2,...,4799),以及通过将用于所有块的合计能量值除以块的总数TBN,计算平均值<Sk>。通过下述方程式(2),计算平均值<Sk>。平均值<Sk>变为用于确定这些块是字符块还是背景块的阈值Cth。
&lang; S k &rang; = 1 TBN &Sigma; k = 1 TBN S k . . . ( 2 )
= Cth
在方程式(2)中,TBN表示块的总数。
块判定部件119顺序地接收从能量计算部件115输出的各个块的能量值(主DCT系数的绝对值之和),并通过将所接收的块能量值与阈值Cth进行比较,将这些块确定为字符块还是背景块。如下述方程式(3)所示,如果Sk≥Cth,块判定部件119将第k块判定为字符块,如果Sk<Cth,则将第k块分类成背景块。
如果Sk≥Cth那么CB
否则BB                    ........(3)
由块分类部件110分类的块的像素能具有0和255之间的灰度级。将从块分类部件110输出的字符块的图象输入到平均字符块能量计算部件120。平均字符块能量计算部件120计算每个所分类的字符块的能量比,然后使用所计算的能量比,计算整个图象中字符块的平均能量比。
图11是示例说明平均字符块能量计算部件120的详细结构的框图。参考图11,能量比计算部件120计算由块分类部件110分类的每个字符块中的DCT系数的能量比。对M×M字符块来说,能用下述方程式计算DCT系数的能量比。
R k = &Sigma; m &Sigma; n ( m , n ) &Element; &Omega; L | L m , n k | &Sigma; m &Sigma; n ( m , n ) &Element; &Omega; L | L m , n k | + &Sigma; m &Sigma; n ( m , n ) &Element; &Omega; H | H m , n k | . . . ( 4 )
其中, &Omega; L = { ( m , n ) | m , n = 0 , . . . , M - 1 , m + n = 1 , . . . , M 4 } ;
&Omega; H = { ( m , n ) | m , n = 0 , . . . , M - 1 , m + n = M 4 + 1 , . . . , 3 M 4 } ;
Lm,n k表示在第k块的(m,n)点中低频分量的DCT系数;以及
Hm,n k表示在第k块的(m,n)点中高频分量的DCT系数。
如上所述,在此假定每个块具有8×8像素大小(即,M=8)。为计算字符块的能量比,做实验来校验选择低频分量和高频分量的DCT系数的位置的适当性,以及计算用于计算每个字符块中的DCT能量比的DCT系数的位置。实验结果表示通过增加模糊级,字符块的平均能量比中的变化。根据实验结果,在用于计算每个字符块的DCT系数的能量比的DCT系数中,Lm,n对应于在m+1=1以及2的点处低频分量的DCT系数,以及Hm,n对应于在m+n=3,4,5以及6的点处高频分量的DCT系数。
用这种方式,能量比计算部件121使用上述方程式(4),计算用于每个字符块的DCT系数的能量比Rk。平均能量比计算部件123计算整个图象中DCT系数的平均能量比<Rk>。即,平均能量比计算部件123根据下述方程式(5),使用通过能量比计算部件121计算的能量比Rk,计算整个图象中DCT系数的平均能量比<Rk>。
&lang; R k &rang; = 1 TCN &Sigma; k = 1 TCN R k . . . ( 5 )
在方程式(5)中,TCN表示字符块的总数。
如果如上所述计算用于整个图象的平均能量比<Rk>,根据下述方程式(6),模糊检测部件130将平均能量比<Rk>与实验获得的阈值Bth进行比较来确定输入图象是否模糊。如果<Rk>≥Bth,模糊检测部件130确定输入图象模糊,然后请求输入部件10重新输入图象。另一方面,如果<Rk><Bth,模糊检测部件130确定输入图象不模糊,然后将输入图象施加到降噪部件30或图象二进制部件40上,用于字符识别。
如果<Rk>≥Bth那么模糊图象
否则,不模糊图象    .........(6)
在方程式(6)中,阈值Bth是基于是否能可视地识别图象的字符信息,以及图象的二进制性能而实验选择的。
图12是示例说明用于模糊图象和不模糊图象的方程式(5)的应用结果的图。在图12中,水平轴表示不同图象采样,以及垂直轴表示平均能量比<Rk>。从图12会注意到模糊图象和不模糊图象显示出不同的平均能量比<Rk>的分布。这证明了将方程式(5)应用于模糊判定是合理的。
图13是示例说明根据本发明的实施例,判定输入图象是否模糊的进程的流程图。图14A至14E是示例说明在执行图13的进程的过程中产生的图象的图。
参考图13,在步骤510接收图14A所示的输入图象。接收图象具有640×480像素大小。在步骤520,将图14A的图象划分成具有预定大小的块,如图14B所示。每个块具有8×8像素大小,以及所划分的块的数量为4800。此后,在步骤530,每个所划分的块是DCT转换过的。在步,根据方程式(),计算在DCT转换的块中主DCT系数的绝对值之和Sk(k=BN=0,1,...,4799),将计算结果提供为各个块的能量。在步骤,根据方程式(2),通过平均这些块的主DCT系数的绝对值之和,计算块阈值Cth(=<Sk>)。块阈值Cth是通过平均整个图象中块的主DCT系数的绝对值之和确定的值,并成为用于将这些块分类成字符块和背景块的块阈值。此后,在步骤560,顺序地接收用于这些块的主DCT系数的绝对值之和Sk,并根据方程式(3),与块阈值Cth进行比较。作为比较结果,如果值Sk大于或等于块阈值Cth,将相应的块分类成字符块,以及如果该值Sk小于块阈值Cth,将相应块分类成背景块。图14C示例说明所分类的字符块。在步骤570,根据方程式(4),计算用于分类成字符块的那些块的DCT系数的能量比Rk。在步骤580,通过合计字符块的DCT系数的能量比,以及根据方程式(5),平均该合计来计算整个图象中字符块的平均能量比<Rk>。在步骤590,根据方程式(6),将字符块的平均能量比<Rk>与用于模糊判定的阈值Bth进行比较。如果字符块的平均能量比<Rk>高于或等于阈值Bth,将输入图象确定为模糊图象,以及进程返回到步骤510。图14D示例说明确定为模糊图象的图象的例子。然而,如果字符块的平均能量比<Rk>低于阈值Bth,将输入图象确定为不模糊图象,以及进程进入步骤600,在该步骤,将判定结果报告到字符识别部件50。然后,字符识别部件50执行识别在从输入部件10接收的图象中的字符的操作。图14E示例说明通过模糊判定部件20,判定为可识别图象的图象的例子。
第二,在下文中,将参考图15描述图2、4、6和7所示的目标歪斜校正部件60的详细结构。
图15是根据本发明的实施的目标歪斜校正部件60的详细结构的例子的框图。参考图15,二进制部件210将从输入部件10接收的图象划分成具有预定大小的块,通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块,然后,二进制化每个块中的像素。二进制部件210将这些块分类成字符块和背景块以便二进制包括字符的区域,然后使用二进制结果,分类字符串。如上所述,在此假定每个块具有8×8像素大小。
候选带生成部件220在字符块的区域上执行扩张,然后生成相邻字符彼此连接的候选带。候选带生成部件220在二进制化字符块的区域上执行扩张,然后生成相邻字符彼此连接的候选带。另外,候选带生成部件220在字符块的区域上执行侵蚀以便防止在扩张过程中,上下相邻的候选带彼此连接。
带分类部件230在候选带中分类具有预定大小或以上的带。带分类部件230使用二进制候选带的实例,计算模糊点大小和/或偏心率,然后分类成具有预定大小或以上的带。这些带被用作用于计算包含在图象中、相对于图象的水平轴歪斜的目标的方向角的目标信号。即,带分类部件230执行使用以二进制字符彼此连接的形式的带,分类用于计算方向角的带的功能。
歪斜角判定部件240计算所分类的带的方向角,逐个角累计方向角的计数值,选择具有最大计数值的方向角,以及将该选定的方向角判定为图象中歪斜目标的歪斜角。歪斜角判定部件240计算字符串的方向角,逐个角累计方向角的计数值,以及将具有最大计数值的方向角判定为歪斜角。
歪斜校正部件250接收从输入部件10输出的输入图象信号,并使图象信号旋转通过歪斜角判定部件240判定的歪斜角以便校正输入图象中歪斜的目标。
图象校正部件260将图象信号插入校正歪斜后的图象的角中。如果歪斜校正部件250校正图象中歪斜的目标,由于旋转图象,导致产生没有像素的区域。图象校正部件260执行由歪斜校正导致的图象的空白区中填充特殊像素的功能。因为特殊像素与字符无关,歪斜校正部件250的输出不会影响识别图象中的字符的过程。
歪斜校正部件250或图象校正部件260的输出能被输出到ROC扩展部件70、降噪部件30或图象二进制部件40。
图16是示例说明根据本发明的实施例的目标歪斜校正部件60的详细结构的另一例子的框图。参考图16,二进制部件210将从输入部件10接收的图象划分成具有预定大小的块,通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块,然后二进制每个块中的像素。二进制部件210将这些块分类成字符块和背景块以便二进制包括字符的区域,然后使用二进制结果,分类字符串。如上所述,在此假定每个块具有8×8像素大小。
水平像素子采样部件270在二进制图象上执行水平子采样以便降低图象的水平像素。水平像素子采样部件270降低水平像素以便生成在水平方向中紧密组合的候选带的候选带。
候选带生成部件220在字符块的区域上执行扩张,然后生成连接相邻字符的候选带。候选带生成部件220在二进制字符块的区域上执行扩张,然后生成相邻字符相连的候选带。另外,候选带生成部件220在字符块的区域上执行侵蚀以便防止在扩张过程中,上下相邻的候选带彼此连接。
垂直像素子采样部件280在以水平像素的缩小比率转换成候选带的图象上执行垂直子采样,以便降低垂直像素。垂直像素子采样部件280将由于通过水平像素子采样部件270水平子采样改变的长宽比恢复成原始长宽比。即使在数量上增加水平像素,垂直像素子采样部件280也能执行同样的功能。
带分类部件230在垂直子采样的带中分类具有预定大小或以上的带。带分类部件230使用二进制候选带的力矩,计算模糊点大小和/或偏心率,然后分类成具有预定大小或以上的带。这些带被用作用于计算图象中、相对于图象的水平轴歪斜的目标的方向角的目标信号。即,带分类部件230执行使用以二进制字符彼此连接的形式的带,分类用于计算方向角的带的功能。
歪斜角判定部件240计算所分类的带的方向角,逐个角累计方向角的计数值,选择具有最大计数值的方向角,以及将选定的方向角判定为图象中歪斜目标的歪斜角。歪斜角判定部件240计算带的方向角,逐个角累计方向角的计数值,并判定具有最大计数值的方向角为歪斜角。
歪斜校正部件250接收从输入部件10输出的输入图象信号,并使图象信号旋转由歪斜角判定部件240判定的歪斜角以便校正输入图象中歪斜的目标。
图象校正部件260将图象信号插入校正歪斜后的图象的角中。如果歪斜校正部件250校正图象中歪斜的目标,由于旋转图象,产生没有像素的区域。图象校正部件260执行在由歪斜校正导致的图象的空区域中,填充特殊像素的功能。因为特殊像素与字符无关,歪斜校正部件250的输出不影响识别图象中的字符的过程。
歪斜校正部件250或图象校正部件260的输出能被输出到ROC扩展部件70、降噪部件30或图象二进制部件40。
现在将详细地描述图15和16所示的目标歪斜校正部件60的操作。为简化起见,在此将仅描述图16所示的目标歪斜校正部件60的操作。
输入图象具有N×M像素大小。在本发明的实施例中,假定输入图象具有640(N)×480(M)像素的大小。另外,输入图象能是彩色图象或不具有颜色信息的灰色图象。在本发明的实施例中,假定输入图象是灰色图象。
二进制部件210将输入图象划分成块,将这些块分类成字符块和背景块,以及二进制所分类的块图象。
图17是示例说明根据本发明的实施例的二进制部件210的详细结构的框图。二进制部件210将输入图象划分成具有预定大小的块,将这些块分类成字符块和背景块,以及将所分类的块图象的像素二进制化为字符像素和背景像素。二进制部件210将这些块分类成字符块和背景块,然后二进制化块图象像素以便通过在校正图象中的歪斜目标的过程中,检测字符串的方向角来检测图象中目标的歪斜角。
参考图17,块分类部件211将输入图象划分成具有预定大小的块,以及将所划分的块分类成字符块和背景块。块组合部件213将每个字符块与其相邻的8个块组合,以及像素阈值计算部件215由成组块生成阈值。像素判定部件217使用从像素阈值计算部件215输出的阈值,将从块分类部件211输出的背景块的像素共同转换成具有第二亮度值的背景像素。像素判定部件217基于阈值,将字符块的像素二进制化为具有第一亮度值的字符像素以及具有第二亮度值的背景像素。
图18是示例说明根据本发明的实施例,图17所示的块分类部件211的详细结构的框图。参考图18,块分类部件211能与模糊判定部件20的块分类部件110的结构相同。因此,图18的块分类部件211具有与图9的块分类部件110相同的结构。同样,块分类部件211在分类图象中的块的操作方面,也与块分类部件110相同。
因此,由于上面参照图9讨论了图18的元件,所以对于图18的详细讨论是不必要的。
由块分类部件211分类的字符块的像素能具有0和255间的灰度级。将从块分类部件211输出的字符块的图象输入到块组合部件213和像素判定部件217。
从块分类部件211输出的分类块被施加到块组合部件213。此时,二进制部件210将背景块共同转换成具有预定亮度值的背景像素以便分类图象的字符串。因此,假定二进制部件210不在背景块上执行块成组和阈值计算操作。
块组合部件213将从块分类部件211输出的每个字符块与其相邻的8个块组合,生成具有24×24像素大小的成组块。字符块具有8×8像素大小。如果仅使用具有这种大小的一个字符块确定用于将背景像素和字符像素区分开来的阈值以及基于所确定的阈值,执行二进制过程,当块的大小非常小时,二进制图象中块间的不连续会发生,以及阈值和相应字符块值间的差值非常大。因此,可以通过生成成组块来扩展将在其上执行二进制的区域来提高二进制可靠性。
像素阈值计算部件215计算用于将字符块的每个像素分类成字符或背景像素的像素阈值Pth。像素阈值计算部件215生成像素阈值Pth,以及像素阈值Pth用于将字符块的每个像素分类成字符或背景像素以及二进制字符或背景像素。使用选择具有两种像素间的最大类间方差的灰度值的Otsu的方法或Kapur的方法,能选择像素阈值Pth。假定使用Otsu方法,计算像素阈值Pth。使用Otsu方法计算像素阈值是基于下述方程式(7)。在“A Threshold Selection Method from Gray-LevelHistograms”,IEEE Trans.Systems,Man and Cybernetics,Vol.SMC-9,No.1,pp.62-66,Jan.1979中公开了由N.Otsu提出的方法,其内容在此引入以供参考。
Th 1 = arg max &sigma; B 2 ( T ) T
&sigma; B 2 ( T ) = P 1 ( &mu; 1 ( T ) - &mu; ) 2 + P 2 ( T ) ( &mu; 2 ( T ) - &mu; ) 2
= P 1 ( T ) P 2 ( T ) ( &mu; 1 ( T ) - &mu; 2 ( T ) ) 2 .........(7)
σB 2(T):类间方差
T:灰度值
μ:总像素的平均值
μi(T):由T定义的每个类的平均值
Pi(T):每个类的相对频率
像素判定部件217使用像素阈值Pth,将从块分类部件211输出的字符块像素二进制化为字符和背景像素,并将背景块像素共同转换成背景像素。换句话说,像素判定部件217将对应于所接收的字符块图象的像素阈值Pth与该字符块像素的值进行比较,如果该字符块像素的值等于或大于像素阈值Pth,则将图象像素分类成字符像素,以及如果该字符块像素的值小于像素阈值Pth,则将图象像素分类成背景像素。像素判定部件217根据分类结果,通过将字符像素转换成具有亮度值“α”的像素和将背景像素转换成具有亮度值“β”的像素来执行二进制操作。用于通过像素判定部件217,二进制字符块像素的方法定义如下:
在方程式(8)中,y(m,n)表示从块分类部件211输出的字符块的像素,Pth是像素阈值,以及yB(m,n)表示二进制字符埠的像素。
像素判定部件217接收从块分类部件211输出的背景块的像素,并将背景块像素共同转换成具有亮度值“β”的像素。
能将通过二进制部件210二进制的图象输入到候选带生成部件220或水平像素子采样部件270。在这里,假定二进制图象被输入到水平像素子采样部件270中。
水平像素子采样部件270以预定比率,在二进制图象上执行水平子采样。假定子采样比为2∶1,水平像素子采样部件270以2∶1的子采样比,在水平图象上执行水平子采样,以便降低二进制图象的水平像素的数量达1/2。降低水平像素以便允许候选带生成部件220以带的形式紧密地排列字符串。
候选带生成部件220接收从二进制部件210输出的二进制图象或接收从水平像素子采样部件270输出的水平子采样二进制图象。候选带生成部件220用所接收的图象中的字符制作带。候选带生成部件220通过由扩张部件和侵蚀部件构成的形态滤波器来实现。形态滤波器在字符区上执行扩张和侵蚀以便字符彼此靠近。扩张部件在二进制字符区上执行扩张,以便相邻字符彼此靠近,生成字符彼此靠近的字符串。在这里,所生成的字符串被称为“候选带”。侵蚀部件在所生成的候选带上执行侵蚀。通过扩张操作相连的相邻上下候选带能通过侵蚀操作分开。这种形态滤波器在由R.C.Gonzalez,R.Woods,et al.,2nd ed.,Prentice Hall,pp.519-560,2002,名为“Digital Image Processing”的文献中公开,其内容在此引入以供参考。
垂直像素子采样部件280以预定比率垂直子采样从候选带生成部件220输出的图象。在这里,假定子采样比为2∶1,与水平像素子采样部件270中相同。垂直像素子采样部件280能用于将由水平像素子采样缩小的图象的宽与长的比率转换成原始图象长宽比。垂直像素子采样部件280将图象垂直缩小1/2以便输出缩小的图象。在这里,水平像素扩展部件能用来代替水平像素子采样部件280,以便实现大小恢复到原始图象。
带分类部件230能接收从二进制部件210输出的二进制图象、从候选带生成部件220输出的图象或从垂直像素子采样部件280输出的图象。在这里,假定带分类部件230接收从垂直像素子采样部件280输出的图象。
带分类部件230标记用于由二进制图象生成的候选带的带号。具有标记带号的候选带用于计算方向角。带分类部件230分析具有标记带号的候选带,以及检测具有预定长度或以上以及具有长形的带。候选带分类方法基于力矩,使用模糊点大小和偏心率。下面的方程式(9)定义用于计算模糊点大小和偏心率的矩心力矩(centroid moment),在方程式(9)中,在p=0和q=0时计算模糊点大小。方程式(10)表示用于使用矩心力矩,计算偏心率的方法。在由Pitas,Prentice Hall,pp.326-331,1993、名为“Digital Image Processing Algorithms”的文献中公开了偏心率计算方法,其内容在此引入以供参考。
&mu; pq = &Sigma; x &Sigma; y ( x - x &OverBar; ) p ( y - y &OverBar; ) q .........(9)
x:目标的水平矩心
y:目标的垂直矩心
e = 4 &mu; 11 2 + ( &mu; 20 - &mu; 02 ) 2 ( &mu; 20 + &mu; 02 ) 2 . . . ( 10 )
在方程式(10)中,偏心率e表示候选带的长度。
模糊点大小μ(=μ00)以及通过方程式(9)和(10)计算的偏心率e分别与预定阈值μth和eth进行比较,以便将候选带选择为有效带。在这里,实验计算阈值μth和eth。在μ≥μth和/或e≥eth的情况下,将相应的候选带分类为有效带。然而,当模糊点大小μ和偏心率e的任何一个或两者均小于它们的阈值μth和eth时,不将候选带选择为有效带。在这种情况下,确定相应的候选带不适合于计算方向角,以便不将该带选择为有效带。在本发明的实施例中,满足条件μ≥μth和e≥eth的候选带被选择为有效带。在本发明的另外的实施例中,满足条件的任何一个的候选带也被确定为有效带。
将由带分类部件230分类的带输入到歪斜角判定部件240,以及歪斜角判定部件240计算用于每个所分类的带的方向角θ,以及累计所计算的方向角的计数值。具有最大计数值的方向角被确定为歪斜角。图19是示例说明用于通过根据本发明的实施例的歪斜角判定部件240,计算带的歪斜角的进程的图。在图19中,SP表示由带分类部件230分类的带,以及X轴和Y轴是表示带SP所处的位置的坐标轴。歪斜角判定部件240计算用于从带分类部件230输出的每个带的X轴和Y轴间的方向角θ,并累计所计算的方向角θ的计数值。用于带SP的方向角θ能计算如下:
&theta; = 1 2 arctan ( 2 &mu; 11 &mu; 20 - &mu; 02 ) . . . ( 11 )
在计算用于所有带的方向角θ后,歪斜角判定部件240分析方向角θ的累计计数值,并将具有最大计数值的方向角θ判定为歪斜角。即,歪斜角判定部件240将与最大带数的方向角θ判定为歪斜角。
如果判定歪斜角,歪斜校正部件250使从输入部件10输出的输入图象旋转由歪斜角判定部件240确定的歪斜角以便校正歪斜的图象信号。换句话说,如果确定歪斜角,在旋转矩阵的基础上,歪斜校正部件250使图象旋转。在这里,在旋转图象中,能使用逆映射旋转方法。在由B.Jahne,et al.,Academic Press,Vol.2,pp.94-95,1999、名为“Handbook of Computer Vision and Applications”的文献以及在L.G.Shapiro and G.C.Stockman,Prentice Hall,pp.415-418,2001,名为“Computer Vision”的文献中公开了逆映射旋转方法,这两篇文献的内容在此引入以供参考。
如果歪斜校正部件250旋转图象,在图象角处形成没有像素的空白区。空白区能影响下述字符识别过程。图象校正部件260执行在校正歪斜的图象的角处形成的空白区中填充特殊像素的功能。当在校正歪斜的图象的角处形成的空白区中填充像素时,图象校正部件260能用具有最接近于空白区的像素值的像素填充空白区。图象校正部件260也能共同地校正具有用于二进制值的亮度的空白区。
当从输入图象识别字符时,从输入图象抽取字符串带,根据带的歪斜,计算方向角,在所计算的方向角中,具有最大计数值的方向角被确定为歪斜角,以及使图象旋转确定的歪斜角。用这种方式,可以校正校正过歪斜的图象。另外,在歪斜校正期间,在图象角处形成的空白区用具有特殊亮度值的像素填充,有助于增加识别率。
现在,将参考图20和21A至21H,描述根据本发明的实施例,用于校正图象中的歪斜的目标的进程。
在步骤310接收图21A所示的图象。在步骤315,图21A所示的图象经受适配块二进制,创建如图21B所示的二进制图象。在二进制过程中,将所接收的图象划分成具有预定大小的块,以及将所划分的块分类成字符块和背景块。每个字符块与其相邻的8个块组合,产生成组块,以及由成组块产生用于将块的像素分类成字符像素和背景像素的像素阈值。此后,将所分类的字符块的像素与像素阈值进行比较以便将像素分类成字符像素和背景像素,以及将背景块的所有像素共同转换成背景像素。即,在步骤315,使图21A所示的输入图象的像素二进制化为图21B所示的字符像素和背景像素。
在步骤320,通过水平子采样,图21B的二进制图象被转换成图21C所示的图象。图21C示例说明通过在图21B所示的图象上执行2∶1子采样获得的合成图象,以及用于执行垂直像素子采样的理由是允许字符串在下述候选带产生过程中,以带的形式适当地排列。此后,在步骤325至330中,图21C所示的水平子采样的图象经受形态滤波、创建候选带。即,在步骤325,图21C所示的图象的二进制字符区经受扩张以便使相邻字符彼此连接,从而产生图21D所示的候选带。在步骤330,分开在扩张过程中相连的相邻上下候选带,如图21E。在执行形态滤波后,图21E的图象在步骤335经受2∶1垂直子采样以便恢复成图象的原始长宽比。图21F示例说明通过在形态滤波的二进制图象上执行2∶1垂直子采样确定的合成图象,以及用于执行垂直像素子采样的理由是由合成图象计算字符串的歪斜角。
在步骤340,标记在图21F的图象中的候选带,以及在步骤345,计算每个候选带的模糊点大小和偏心率,以及选择用于计算方向角的带。在步骤350,计算选定带的方向角,以及累计其计数值。当全部计算了选定带的方向角时,在步骤335,将在累计的方向角中,具有最大计数值的方向角判定为图象的歪斜角。
如果确定歪斜角,在步骤360使输入图象旋转该歪斜角以便校正歪斜的图象,如图21G所示。图21G校正歪斜的图象在其角处具有空白区,在这些空白区中,由于旋转图象而不存在像素。为校正空白区,在步骤365用最接近图象角的水平像素的值填充图象角,如图21H所示。此后,在步骤370,图21H的歪斜-校正像素的图象被输出到ROC扩展部件70、降噪部件30或图象二进制部件40。
第三,现在将参考图22,描述图3、5、6和7中所示的ROC扩展部件70的详细结构。
图22是示例说明根据本发明的实施例的ROC扩展部件70的详细结构的例子的框图。参考图22,ROC扩展部件70能从输入部件10或目标歪斜校正部件60接收输入图象。在此假定输入图象由640(列)×480(行)像素组成。
块分类部件410将从输入部件10接收的输入图象划分成具有预定大小的块,通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块,然后将所分类的字符块中的像素转换成具有指定值的像素。
中值滤波器420在从块分类部件410输出的图象上执行中值滤波以便去除由于来自图象边缘或噪声而错误分类的字符区。即,经受块分类之后的图象能包括通过边缘或噪声产生的孤立字符块。中值滤波器420在块分类过程中,具有去除由于噪声错误分类的字符块(孤立字符块)的功能。
位置搜索部件430水平和垂直扫描中值滤波的图象以及搜索字符区的位置。位置搜索部件430水平扫描中值滤波的图象以及搜索在最左字符块处的点x1以及在最右字符块处的点x2。另外,位置搜索部件430垂直地扫描中值滤波的图象,以及搜索在最上字符块处的点y1以及在最下字符块处的点y2。根据搜索结果,确定图象中字符区的位置。在这种情况下,字符区的左上和右下点是(x1,y1)和(x2,y2)。基于输入图象的长宽比,确定字符区的左上和右下点(x1,y1)和(x2,y2),以便当图象扩展部件450扩展图象时,防止图象矢真。
ROC抽取部件440抽取由位置搜索部件430搜索的字符区的图象。换句话说,ROC抽取部件440接收有关由位置搜索部件430搜索的字符区的左上和右下点(x1,y1)和(x2,y2)的信息,并从输入图象抽取位于字符区的左上和右下点(x1,y1)和(x2,y2)之间的图象。因此,从ROC抽取部件440输出的图象成为从输入图象去除背景区的字符区的图象。
图象扩展部件450将所抽取的字符区的图象扩展到输入图象的大小。图象扩展能通过内插来实现。在此假定图象扩展是通过双线性内插来实现的。在这里,通过内插操作实现图象扩展以便所抽取的字符区的大小能等于输入图象的大小。
将从图象扩展部件450输出的图象施加到降噪部件30或图象二进制部件40。
图23是示例说明根据本发明的实施例,ROC扩展部件70的详细结构的另一例子的框图。参考图23,ROC扩展部件从输入部件10或目标歪斜校正部件60接收输入图象。在此假定输入图象由640(列)×480(行)像素组成。
均值滤波器460在输入图象上执行均值滤波以便模糊输入图象。执行均值滤波以便在下述块分类过程中,通过模糊输入图象来降低字符区外背景区的影响。
块分类部件440将从均值滤波器460输出的图象划分成具有预定大小的块,分析包括在所划分的块中的像素,根据分析结果,将这些块分类成字符块和背景块,以及将字符块中的像素转换成具有特定值的像素。块分类部件410将这些块分类成字符块和背景块以便通过将字符块中的像素转换成具有指定值的像素来抽取字符区。在这里,假定每个块由8×8像素组成。
子采样部件470子采样从块分类部件410输出的图象以便降低图象像素的数量。子采样部件470降低图象像素的数量以便通过减少在下述中值滤波过程中,滤波器窗(filter window)来增加滤波速度。在本发明的实施例中,假定像素缩减比率为(2∶1)2。在这种情况下,子采样部件470在水平像素上执行2∶1子采样以及在垂直像素上执行2∶1子采样,以便图象中像素的数量降低到输入图象的1/4。
中值滤波器420在从子采样部件470输出的图象上执行中值滤波以便从输入图象去除错误分类的字符块。中值滤波器420在块分类过程中,执行去除由于噪声而错误分类为字符块的孤立字符块的功能。
内插部件480在从中值滤波器420输出的图象中的像素上执行内插以便扩展图象。在本发明的实施例中,假定内插比为(2∶1)2。在这种情况下,内插部件480在从中值滤波器420输出的图象的水平和垂直像素上执行2∶1内插以便使图象扩展4倍。执行内插听任以便将由于子采样过程降低的图象大小扩展到原始图象大小,从而搜索字符区的正确位置。
位置搜索部件430水平和垂直扫描中值滤波的图象以便搜索字符区的位置。位置搜索部件430水平扫描中值滤波的图象以便搜索在最左字符块处的点x1以及在最右字符块处的点x2。另外,位置搜索部件140垂直扫描中值滤波的图象以便搜索在最上字符块的点y1以及在最底字符块处的点y2。根据搜索结果,确定图象中字符块的位置。此时,字符区的左上和右下点是(x1,y1)和(x2,y2)。基于输入图象的长宽比,确定字符区的左上和右下点(x1,y1)和(x2,y2),以便当下述图象扩展部件450扩展图象时,能防止图象矢真。
ROC抽取部件440抽取通过位置搜索部件搜索的字符区的图象。ROC抽取部件440接收有关由位置搜索部件430搜索的字符区的左上和右下点(x1,y1)和(x2,y2)的信息,并从输出的输入图象抽取位于字符区的左上和右下点(x1,y1)和(x2,y2)之间的图象。因此,从ROC抽取部件440输出的图象变为从输入图象去除背景区的字符区的图象。
图象扩展部件450将所抽取的字符区的图象扩展到输入图象的大小。图象扩展能通过内插来实现。在此假定图象扩展是通过双线性内插来实现的。在这里,图象扩展通过内插操作实现以便所抽取的字符区的图象的大小能与输入图象相等。
将从图象抽取部件450输出的图象施加到降噪部件30或图象二进制部件40。
现在,将描述图23所示的ROC扩展设备的操作。与图22中所示的ROC扩展部件相比,图23的ROC扩展设备进一步包括在块分类部件410前的均值滤波器460、在中值滤波器420前的子采样部件470以及在中值滤波器420之后的内插部件480。图23中的ROC扩展部件70的其他部件在操作方面与图22中的ROC扩展部件相同。
在这里,将参考图23描述ROC扩展部件70的操作。
输入图象具有N×M像素大小。如上所述,在此假定图象具有640(N)×480(M)像素大小。输入图象能是彩色图象或没有颜色信息的灰度级图象。在本发明的实施例中,假定图象是灰度级图象。
接收输入图象的均值滤波器460在输入图象上执行均值滤波,产生模糊图象以便通过下述块分类部件410,图象的字符区外的背景区不影响字符区分类过程。这种均值滤波器在由R.C.Gonzalez,R.Woods,et al.,2nd ed.,Prentice Hall,pp.119-123,2002,名为“Digital ImageProcessing”的文献中公开过,其内容在此引入以供参考。
将均值滤波的图象施加到块分类部件410。块分类部件410将从均值滤波器460输出的图象划分成具有预定大小的块,分析包含在块中的像素,根据分析结果,将这些块分类成字符块和背景块,以及将所分类的字符块中的像素转换成具有指定值的像素。
图24是示例说明根据本发明的实施例,图22和23中所示的块分类部件410的详细结构的框图。块分类部件410能用与模糊判定部件20的块分类110相同的方式构成。因此,图24的块分类部件410与图9的块分类部件110不仅在结构方面而且在分类图象中的块的操作方面均相同。因此,由于上面参照图9讨论了图24的元件,所以对于图24的详细讨论是不必要的。
由块判定部件419分类的字符块中的像素能具有0和255间的灰度级。然后,块填充部件421将通过块判定部件419分类的字符块的像素转换成具有第一亮度值的像素,以及将背景块的像素转换成具有第二亮度值的像素。在本发明的实施例中,假定块填充部件421将字符块中的像素转换成白色像素,以及将背景块中的像素转换成黑色像素。因此,块填充部件421用白色像素填充图象的字符块以及用黑色像素填充图象的背景块。用这种方式,块分类部件410将这些块分类成字符块和背景块,然后,用具有不同亮度值的像素填充字符块和背景块,以便适当地显示字符区。
此后,子采样部件470子采样从块分类部件410输出的图象以便降低水平和垂直像素的数量。子采样部件470降低图象像素的数量以便通过中值滤波器420,在下述中值滤波过程中减少滤波器窗来增加滤波速度。在本发明的实施例中,假定子采样比为(2∶1)2。在这种情况下,从块分类部件410输出的图象的像素的数量降低到1/4。即,缩小的图象的大小为320×240像素。
然后,中值滤波器420在子采样部件470的输出图象上执行中值滤波以便从输入图象去除背景块和误分类字符块。中值滤波器420执行去除由于块分类过程中的噪声,错误分类为字符块的孤立块的功能。这种中值滤波器在由A.K.Jain,Prentice Hall,pp.246-249,名为“Fundamental of Digital Image Processing”的文献中公开过,其内容在此引入以供参考。
在中值滤波图象后,内插部件480在从中值滤波器420输出的图象的水平和垂直像素上执行内插,以便将图象扩展到输入图象的大小。在本发明的实施例中,假定内插比为(2∶1)2。执行内插操作以便将通过子采样过程缩小的图象的大小扩展到原始图象大小,从而搜索字符区的正确位置。
位置搜索部件430水平和垂直扫描中值滤波图象以便搜索字符区的位置。位置搜索部件430水平扫描中值滤波图象以便搜索在最左字符块处的点x1以及在最右字符块处的点x2,以及存储搜索结果。另外,位置搜索部件430垂直扫描中值滤波的图象以便搜索在最上字符块处的点y1以及在最下字符块处的点y2,并存储搜索结果。根据搜索结果,确定图象中字符区的左上和右下点(x1,y1)和(x2,y2)。基于输入图象的长宽比,确定字符区的左上和右下点(x1,y1)和(x2,y2),以便当下述ROC扩展部件70扩展图象时,防止图象矢真。在本发明的实施例中,由于输入图象的宽长比为4∶3(即640×480像素),确定字符区的左上和右下点(x1,y1)和(x2,y2)以便通过位置搜索部件430搜索的字符区的宽长比也变为4∶3。
ROC抽取部件440抽取通过位置搜索部件430搜索的字符区的图象。即,ROC抽取部件440接收有关由位置搜索部件430搜索的字符区的左上和右下点(x1,y1)和(x2,y2)的信息,并从输入部件10输出的输入图象抽取位于字符区的左上和右下点(x1,y1)和(x2,y2)间的图象。在字符区的左上和右下点(x1,y1)和(x2,y2)的基础上,ROC抽取部件440从图象将在水平方向中排列在点x1和点x2间的像素以及在垂直方向中,排列在点y1和点y2间的像素抽取为字符区像素。从ROC抽取部件440输出的图象变为从输入图象去除背景区的字符区的图象。
图象扩展部件450将所抽取的字符区的图象扩展为输入图象的大小。图象扩展能通过内插实现。在本发明的实施例中,假定通过定义如下的双线性内插来实现。
v(x,y)=(1-Δx)(1-Δy)u(m,n)+(1-Δx)Δyu(m,n+1)
         +Δx(1-Δy)u(m+1,n)+ΔxΔyu(m+1,n+1)    ........(12)
其中Δx=x-m
    Δy=y-n
在这里,通过内插操作实现图象扩展以便所抽取的字符区的图象的大小和长宽比能等于输入图象。在由W.H.Press,S.A.Teukolsky,etal.,2nd ed.,Cambridge,pp.123-125,1988,名为“Numerical Recipies inC”的文献中公开了双线性内插,其内容在此引入以供参考。
能将ROC扩展的图象施加到降噪部件30或图象二进制部件40。
图25是示例说明根据本发明的实施例,扩展图象中的字符区的进程的流程图。图26A至26H是示例说明在图25的进程中产生的图象的图。
现在将参考图25和26A至26H,描述用于根据本发明的实施例,扩展图象中的字符区的设备。在步骤510,接收图26A所示的输入图象。在这里,输入图象由640(列)×(480行)像素组成并能是不具有颜色信息的灰度级图象。在本发明的实施例中,假定图象是灰度级图象。此后,在步骤515,图26A的输入图象被均值滤波,产生图26B所示的模糊图象以便图象的字符区外的背景区不影响块分类过程。
此后,在步骤520,执行块分类,来将图26B的均值滤波的图象划分成具有预定大小的块,分析包括在所划分的块中的像素,根据分析结果,将这些块分类成字符块和背景块,以及将字符块中的像素转换成具有指定值的像素的过程。通过块分类,将图象分类成字符块和背景块,将字符块中的像素转换成白色像素,以及将背景块中的像素转换成黑色像素。即,根据将它们分类成字符块还是背景块,用白色或黑色像素填充图象中的块。在划分成字符块和背景块后,用相应块的像素值校正的图象如图26C所示。
如果在步骤520生成图26C所示的校正图象,在步骤525子采样图26C的图象,产生降低垂直和水平像素的数量的图26D的图象。执行子采样以便通过在下述中值滤波过程中,减少滤波器窗来增加滤波速度。图26D表示以子采样比(2∶1)2采样的图象。在执行子采样后,图26D的子采样图象在步骤530被中值滤波。执行中值滤波以便去除由于输入图象的边缘或噪声而误分类为字符块的孤立字符块。中值滤波图象如图26E所示。在通过中值滤波去除误分类字符块后,在步骤535内插图26E所示的中值滤波图象的水平和垂直像素以便将图象的大小扩展到输入图象大小,如图26F所示。
在步骤540,图26F所示的内插图象被水平和垂直扫描以便搜索字符区的位置。在位置搜索过程中,水平扫描中值滤波图象以便搜索在最左字符块处的点x1以及最右字符块的点x2。另外,垂直扫描中值滤波的图象以便搜索在最上字符块处的点y1和最下字符块处的点x2。此后,在步骤545,根据搜索结果,确定图象中字符区的左上和右下点(x1,y1)和(x2,y2)。基于输入图象的长宽比,确定字符区的左上和右下点(x1,y1)和(x2,y2),以便在下述ROC扩展过程中,扩展图象时,防止图象矢真。
在搜索字符区的位置后,在步骤550,从图26A的输入图象抽取存在于字符区的搜索位置中的图象。在ROC扩展过程中,从图26A的图象抽取位于字符区的左上和右下点(x1,y1)和(x2,y2)间的图象,输出图26G所示的抽取图象。如图26G所示的字符区的图象位于图象中的在水平方向点x1和点x2之间以及在垂直方向中点y1和点y2之间。字符区的图象变为从输入图象去除背景区的字符区的图象。
在抽取字符区的图象后,图象扩展部件450在步骤555将图26G所示的字符区的图象扩展成如图26H所示的输入图象大小。输入扩展能通过内插实现。在本发明的实施例中,图象扩展能通过双线性内插来实现。在步骤560,图26H的扩展图象被输出到字符识别部件50或存储以便用于其他目的。
第四,现在将描述图1至7所示的降噪部件30的操作。
通常,通过数字照相机拍摄的目标的图象包括噪声。典型的这种噪声是Gaussian噪声。为降低Gaussian噪声,使用各种类型的降噪滤波器。例如,然而,通过拍摄名片而获得的图象在字符区的边缘处具有大量信息。因此,如果简单的降低滤波器用于名片的图象,会严重地损坏字符信息。因此,要求用于降低图象噪声同时保存边缘处的信息的特殊的降噪滤波器。在本发明的实施例中,例如,使用定向Lee滤波器。定向Lee滤波器表示如下:
x ^ ( i , j ) = m x ( i , j ) + &sigma; x 2 ( i , j ) &sigma; x 2 ( i , j ) + &sigma; n 2 [ y ~ ( i , j ) - m x ( i , j ) ] . . . ( 13 )
其中,mx(i,j):用于像素点(i,j)的特殊的相邻区的本地信号的平均值
σx 2(i,j):用于像素点(i,j)中特殊的相邻区的本地信号的分布,
σx 2:从整个图象估算的噪声的分布
乘以用于主边缘的方向加权的像素的平均值,以及
降噪图象
在方程式(13)中,使用用于图象中特殊区域的本地信号的平均值和分布,自适应控制滤波器参数。根据方程式(13),在图象的背景区中,噪声分布大于如下的方程式(14)所示的本地信号的分布,以致降低输出图象变为本地平均值。在图象的边缘区中,本地信号的分布大于噪声分布,以便降噪输出图象变为乘以用于边缘的方向加权的像素的平均值。用这种方式,定向Lee滤波器降低边缘区处的噪声同时保存边缘处的信息。
IF &sigma; n 2 > > &sigma; x 2 , x ^ ( i , j ) = m x ( i , j ) = m y ( i , j )
IF &sigma; n 2 < < &sigma; x 2 , x ^ ( i , j ) = y ~ ( i , j ) .........(14)
在图象的边缘区中,为降低噪声同时保存边缘分量,如方程式(15)和图27B所示,计算将用于垂直于主边缘方向(90°、135°、0°、45°)的方向(0°、45°、90°、135°)的一维均值滤波器(one dimensionalmean filter)的输出yθ乘以用于各个边缘方向的方向加权wθ确定的值之和。
y ~ ( i , j ) = &Sigma; &theta; w &theta; y &theta; ( i , j ) . . . ( 15 )
y &theta; ( i , j ) = y 0 2 + 1 4 ( y n + y n + 4 ) , n = 1,2,3,4 . . . ( 16 )
方程式(16)表示基于图27A和27B,在垂直于边缘方向的方向(0°,45°,90°,135°)中执行一维均值滤波同时在3×3滤波器窗中将n从1改变到4的操作。
通过下述方程式(18),计算乘以用于垂直于边缘方向(90°,135°,0°,45°)的方向(0°,45°,90°,135°)的一维均值滤波器的输出的加权。对加权wθ,对边缘方向(90°,135°,0°,45°),按下述方程式(17)计算边缘度Dθ,同时在图28A至28D所示的3×3滤波器窗中,将n从1改变到4,然后通过方程式(18)规格化边缘方向的加权。在由N.C.Kim,IEE Electronic Letters 4th,Vol.23,no.12,pp.610-611,June 1987,名为“Adaptive Image Restoration Using Local Statistics and DirectionalGradient Information”的文献中给出了详细说明,其内容在此引入以供参考。
D &theta; = 1 3 | &Sigma; R &theta; 1 y i - &Sigma; R &theta; 2 y i | . . . ( 17 )
w &theta; = D &theta; &Sigma; &theta; D &theta; . . . ( 18 )
图28E和28F分别示例说明在不降噪的情况下,通过块自适应二进制(BAB),二进制名片图象获得的合成图象以及通过BAB二进制降噪图象获得的合成图象。
从图28E和28F可以看出在降噪后二进制的合成图象中减少小字母周围的点和大字母内的微小孔的数量,有助于提高字符识别速率。
第五,现在将描述根据本发明的第一至第七实施的图象二进制部件40的详细结构。
图29是示例说明根据本发明的第一实施例的图象二进制部件40的详细结构的框图。参考图29,输入图象能是从输入部件10、目标歪斜校正部件60、ROC扩展部件70或降噪部件30输出的图象。在此假定输入图象由640(列)×480(行)像素组成。
块分类部件610将输入图象划分成具有预定大小的块,以及通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块。块分类部件610将所划分的块分类成字符块和背景块以便有选择地仅在包括字符的区域上执行二进制。在此假定每个块具有8×8像素大小。
边缘增强部件620使用由块分类部件610分类的字符块中字符像素和它们的相邻像素间的关系,增强字符块的边缘,以及生成降低噪声分量的像素。另外,边缘增强部件620计算用于二进制像素的像素阈值。边缘增强部件620能使用二次滤波器或改进的二次滤波器。
二进制部件630将从边缘增强部件620输出的字符块的像素与像素阈值比较,以及根据比较结果,将字符像素和背景像素分别二进制化为第一亮度值和第二亮度值。另外,二进制部件630将从块分类部件610输出的背景像素的像素二进制化为第二亮度值。二进制部件630能包括用于在将其发送到字符识别部件50之前,压缩二进制图象的压缩器,以便提高存储效率。
字符识别部件50识别从二进制部件630输出的二进制图象中的字符。
图30是示例说明根据本发明的实施例的图象二进制部件40的详细结构的框图。参考图30,输入图象能是从输入部件10、目标歪斜校正部件60、ROC扩展部件70或降噪部件30输出的图象。在此假定输入图象由640(列)×480(行)像素组成。
块分类部件610将输入图象划分成具有预定大小的块,并通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块。块分类部件610将所划分的块分类成字符块和背景块以便仅在包括字符的区域上执行二进制。在此假定每个块具有8×8像素大小。
块生长部件640扩展通过块分类部件610分类的字符块。在块分类过程中,包含字符像素的块会由于字符像素间的背景的影响,被错误地分类为背景块。块生长部件640生长字符块以便扩展被误分类为背景块的字符块。
边缘增强部件620使用从块生长部件640输出的字符块中的字符像素与它们的相邻像素间的关系,增强字符块的边缘,并产生降低噪声分量的像素。另外,边缘增强部件620计算用于二进制像素的像素阈值。边缘增强部件620能包括二次滤波器和改进的二次滤波器。
二进制部件630将从边缘增强部件620输出的字符块的像素与像素阈值进行比较,并根据比较结果,将字符像素和背景像素分别二进制化为第一亮度值和第二亮度值。另外,二进制部件630将从块生长部件630输出的背景块的像素二进制化为第二亮度值。二进制部件630能包括用于在将其发送到字符识别部件50之前,压缩二进制图象的压缩器,以便提高存储效率。
字符识别部件50识别在从二进制部件630输出的二进制图象中的字符。
图31是示例说明根据本发明的第三实施例的图象二进制部件40的详细结构的框图。参考图31,输入图象能是从输入部件10、目标歪斜校正部件60、ROC扩展部件70、或降噪部件30输出的图象。在此假定输入图象由640(列)×480(行)像素组成。
块分类部件610将输入图象划分成具有预定大小的块,以及通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块。块分类部件610将所划分的块分类成字符块和背景块以便仅在包括字符的区域上有选择地执行二进制。在此假定每个块具有8×8像素大小。
块组合部件650将从块分类部件610输出的每个字符块与其相邻的8个块组合,生成成组块。如果仅使用一个字符块确定用于二进制过程的阈值,由于用于区分背景和字符像素的阈值和相邻块的阈值间的大的差值,在二进制图象中的块间会产生不连续。块组合部件650执行块成组以便在字符块上扩展字符块区和增加二进制可靠性。
边缘增强部件620使用从块组合部件650输出的成组字符块中字符像素和它们的相邻像素间的关系,增强字符块边缘,以及产生降低噪声分量的像素。另外,边缘增强部件620计算用于二进制像素的像素阈值。边缘增强部件620能包括二次滤波器和改进的二次滤波。
块分裂部件660从边缘增强部件620接收成组块,以及将字符块与成组块分开。换句话说,块分裂部件660执行仅将用于二进制的字符块与通过块组合部件650组合的块分开的功能。
二进制部件630将通过块分裂部件660分开的字符块的像素与像素阈值进行比较,并根据比较结果,将字符像素和背景像素分别二进制化为第一亮度值和第二亮度值。另外,二进制部件63将从块分类部件610输出的背景像素的像素二进制化为第二亮度值。二进制部件630能包括用于在将其发送到字符识别部件50之前,压缩二进制图象的压缩器,以便增加存储效率。
字符识别部件50识别在从二进制部件630输出的二进制图象中的字符。
图32是示例说明根据本发明的第四实施例,图象二进制部件40的详细结构的框图。参考图32,输入图象能是从输入部件10、目标歪斜校正部件60、ROC扩展部件70、或降噪部件30输出的图象。在此假定输入图象由640(列)×480(行)像素组成。
块分类部件610将输入图象划分成具有预定大小的块,以及通过分析包括在所划分的块中的像素,将所划分的块分类成字符块和背景块。块分类部件610将所划分的块分类成字符块和背景块以便有选择地仅在包括字符的区域上执行二进制。在此假定每个块具有8×8像素大小。
块生长部件640扩展通过块分类部件610分类的字符块。在块分类过程中,包含字符像素的块由于字符像素间背景的影响,会被误分类为背景块。块生长部件640生长字符块以便扩展被误分类为背景块的字符块。
块组合部件650将从块生长部件640输出的每个字符块与其相邻的8个块组合,生成成组块。如果仅使用8×8字符块,确定用于二进制过程的用于区分字符和背景像素的阈值,由于确定阈值和相邻块的阈值间的大的差值,在二进制图象的块间产生不连续。块成组650执行块成组以便在字符块上扩展字符块区并增加二进制可靠性。
边缘增强部件620使用在从块组合部件650输出的成组字符块中字符像素与它们的周围像素间的关系,增强字符块的边缘,并生成降低噪声分量的像素。另外,边缘增强部件620计算用于二进制像素的像素阈值。边缘增强部件620能使用二次滤波器或改进的二次滤波器。
块分裂部件660从边缘增强部件620接收成组块,以及将字符块与成组块分开。即,块分裂部件660执行仅将用于二进制的字符块与通过块组合部件650组合的块分开的功能。
二进制部件630将通过块分裂部件660分开的字符块的像素与像素阈值进行比较,并根据比较结果,将字符像素和背景像素分别二进制化为第一亮度值和第二亮度值。另外,二进制部件630将从块分类部件610输出的背景像素的像素二进制化为第二亮度值。二进制部件630能包括用于在将其发送到字符识别部件50之前,压缩二进制图象的压缩器,以便提高存储效率。
字符识别部件50识别从二进制部件630输出的二进制图象中的字符。
概括地,根据第一实施例的图象二进制部件40将输入图象分类成块,然后将所划分的块分类成字符块和背景块。在二进制过程中,图象二进制部件40将输入图象分类成字符块和背景块以便在字符块的像素上执行边缘增强和二进制操作以及将背景块中的像素固定到特定亮度值。
根据第二实施例的图象二进制部件40在边缘增强前,生长由块分类部件610分类的字符块以便在块分类过程中,防止字符块被包括在背景块中。在生长所分类的字符块后,如果字符像素包括在分类为背景块的块中,图象二进制部件40将该块校正为字符块。
根据第三实施例的图象二进制部件40在边缘增强前,将通过块分类部件610分类的字符块与它们的相邻块组合,增强成组块的边缘,将原始字符块与边缘增强的块分开,然后在所分开的字符块上执行二进制。用于在字符块上执行块成组的理由如下。由于字符块由非常少的像素组成,字符块与其相邻的块组合以便扩展其块区,从而增强成组块的边缘。
最后,根据第四实施例的图象二进制部件40包括块生长部件640和块组合部件650。在这里,根据第四实施例,参考图象二进制部件40,详细地描述本发明。另外,将假定在此使用的图象是名片图象。
输入图象能是彩色图象或不具有颜色信息的灰度级图象。在本发明的实施例中,假定图象是灰度级图象。通过块分类部件610,输入图象被划分成块,然后分类成字符块和背景块。
图33是示例说明根据本发明的实施例的块分类部件610的详细结构的框图。块分类部件610能用与模糊判定部件20的块分类部件110相同的方式构成。因此,图33的块分类部件610不仅在结构,而且在分类图象中的块的操作方面与图9的块分类部件110相同。因此,由于上面参照图9讨论了图33的元件,所以对于图33的详细讨论是不必要的。
通过分类部件610分类的字符块中的像素能具有0和255间的灰度级。能将从块分类部件610输出的字符块输入到边缘增强部件620、块生长部件640和块生长部件650。在这里,将假定字符块被输入到块生长部件640。
块生长部件640使所分类的字符块的区域生长。在块分类过程中,由于字符像素间的背景的影响,会将包含字符像素的块错误地分类成背景块。块生长部件640生长字符块以便通过扩展字符块,将包含字符像素的背景块改变成字符块。
块生长部件640能使用形态滤波器实现。形态滤波器通过称为闭合操作(closing operation)的、用于字符块的扩张操作后的侵蚀操作,生长字符块。闭合操作用来填充区域中的孔。首先,通过扩张操作,扩展字符块,将在字符块间孤立的背景块转换成字符块,以及通过根据闭合操作的侵蚀,恢复原始块大小。在由R.C.Gonzalez,R.Woods,etal.,2nd ed.,Prentice Hall,pp.519-560,2002,名为“Digital ImageProcessing”的文献中公开了形态滤波器,其内容在此引入以供参考。在块生长过程中,块生长部件640将包含字符像素的背景块改变成字符块。
从块生长部件640输出的字符块能被输入到块生长部件650或边缘增强部件620。在这里,将假定将字符块输入到块生长部件650。
块生长部件650将从块分类部件610或块生长部件640输出的每个字符块与其相邻的8个块组合,从而生成每个由24×24像素组成的成组块。字符块具有8×8像素大小。如果仅使用一个8×8字符块,确定用于二进制过程的用于区分字符和背景像素的阈值,由于确定的阈值和相邻块的像素间的大的差值,会在二进制图象的块间产生不连续。因此,块分组部件650产生成组块以便扩展将二进制的区域,从而增加二进制可靠性。
包含从块生长部件650输出的字符块的成组块被施加到边缘增强部件620。边缘增强部件620能接收从块分类部件610、块生长部件640或块组合部件650输出的块。在这里,从块分类部件610和块生长部件640输出的块是8×8像素块,而从块生长部件650输出的成组块是通过将二进制化的字符块与其相邻的8个字符块组合而生成的24×24像素块。
边缘增强部件620能使用二次滤波器(QF)或改进的二次滤波器(IQF)。如图34所示,二次滤波器规格化字符块,增强规格化字符块的边缘,去规格化(denormalize)边缘增强字符块以便在规格化前,转换亮度值范围内的字符块,以及由去规格化字符块生成用于二进制字符块的像素的阈值BTH。如图36所示,改进的二次滤波器规格化字符块,增强规格化字符块的边缘,规格化从字符块计算的阈值,以及生成用于二进制字符块中的像素的阈值BTHN
首先,将参考图34描述使用二次滤波器增强字符块的边缘的操作。
参考图34,第一阈值计算部件621计算用于将字符块的像素分类成字符像素和背景像素的第一阈值Th1。第一阈值计算部件621计算在下一过程中,用于区分字符和背景像素以及规格化两种区分的像素的第一阈值Th1。第一阈值Th1被选择为对应于两种区分像素间的最大类间方差的灰度值。使用Otsu方法和Kapur方法,计算第一阈值Th1。用于计算第一阈值Th1的Otsu方法是基于下述方程式(19)。由N.Otsu提出的方法在名为“A Threshold Selection Method fromGray-Level Histograms”,IEEE Trans.Systems,Man and Cybernetics,Vol.SMC-9,No.1,pp.62-66,Jan.1979的论文中公开,其内容在此引入以供参考。
Th 1 = arg max &sigma; B 2 ( T ) T
&sigma; B 2 ( T ) = P 1 ( &mu; 1 ( T ) - &mu; ) 2 + P 2 ( T ) ( &mu; 2 ( T ) - &mu; ) 2
= P 1 ( T ) P 2 ( T ) ( &mu; 1 ( T ) - &mu; 2 ( T ) ) 2 ........(19)
σB 2(T):类间方差
T:灰度值
μ:总像素的平均值
μi(T):由T定义的每个类的平均值
Pi(T):每个类的相对频率
平均计算部件623在第一阈值Th1的基础上,将字符块的像素分类成字符和背景像素,以及计算用于字符块的字符和背景像素的平均亮度值。在用于两个类的平均计算的过程中,根据下面的方程式(20),在第一阈值Th1的基础上,将字符块x(m,n)的像素分类成字符像素(CPs)和背景像素(BPs),然后根据下面的方程式(21),计算用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1
如果x(m,n)≥Th1那么CP
否则BP                .........(20)
在方程式(20)中,x(m,n)表示字符块,以及Th1表示用于将字符块的像素分类成字符和背景像素的阈值。
&mu; 0 = S c N c
&mu; 1 = S b N b .........(21)
在方程式(21)中,Sc表示用于字符像素的亮度值之和,Nc表示字符像素的数量,Sb表示用于背景像素的亮度值之和,以及Nb表示背景像素的数量。
规格化部件625使用来自平均值计算部件623的用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1,规格化字符块x(m,n)的像素,以便字符像素具有接近于“1”的值同时背景像素具有接近于“0”的值。规格化部件625根据下面的方程式(22),执行通过规格化字符块x(m,n)的像素,降低用于输入字符块像素的亮度值的动态范围的功能。
x N ( m , n ) = ( x ( m , n ) - &mu; 1 ) ( &mu; 0 - &mu; 1 ) . . . ( 22 )
在方程式(22)中,xN(m,n)表示规格化字符块,μ0表示用于字符像素的平均亮度值,以及μ1表示用于背景像素的平均亮度值。
在二次操作部件627中,使规格化字符块xN(m,n)经受二次操作,以便增强字符块的边缘以及降低它们的噪声分量。二次操作部件627使用规格化像素和它们的周围像素间的关系,执行增强边缘以及降低噪声分量的功能。图35表示通过二次操作部件627处理过的中心像素和它的周围像素。方程式(23)表示通过在字符像素上执行二次操作,增强边缘和降低噪声分量的二次操作部件627的特性。二次操作部件627在大的灰度级差的基础上,暗处理字符像素以及明处理背景像素,以便清楚地处理字符边缘以及同时去除它们的噪声分量。
y 0 = ( h 0 x 0 + h 1 &Sigma; i = 1 4 x 2 i - 1 + h 2 &Sigma; i = 1 4 x 2 i ) + ( h 3 x 0 2 + h 4 &Sigma; i = 1 4 x 2 i - 1 2 + h 5 &Sigma; i = 1 4 x 2 i 2 ) +
( h 6 &Sigma; i = 1 4 x 0 x 2 i - 1 + h 7 &Sigma; i = 1 4 x 0 x 2 i ) + ( h 8 &Sigma; i = 1 4 x 2 i - 1 x 2 i * - 1 + h 9 &Sigma; i = 1 4 x 2 i - 1 ( x 2 i + x 2 i * * ) ) ...(23)
其中i*=(i+1)mod 4,and i**=(i+3)mod 4。
二次操作部件627的输出被输入到去规格化部件629,以及去规格化部件629通过去规格化二次处理过的字符块yN(m,n),生成输出y(m,n)。去规格化部件629在规格化前,执行转换在亮度值范围内的规格化字符块的像素的功能。去规格化部件629根据下面的方程式(24),执行去规格化操作。
y(m,n)=yN(m,n)(μ01)+μ1          .........(24)
将从去规格化部件629输出的字符块y(m,n)施加到二进制部件630和第二阈值计算部件671。第二阈值计算部件671计算当二进制部件630将字符块的像素二进制化为字符像素和背景像素时使用的第二阈值Th2。第二阈值Th2对应于二进制部件630的阈值BTH。因为去规格化部件629将规格化字符块去规格化回具有其原始亮度的字符块,所以使用第二阈值计算部件671。使用Otsu方法或Kapur的方法,第二阈值计算部件671能计算阈值BTH(或第二阈值Th2)。当使用Otsu时,第二阈值计算部件671通过根据方程式(19),计算去规格化字符块的像素,计算阈值BTH。
图34所示的边缘增强部件620通过规格化所接收的字符块(或包含字符块的成组块)中的字符和背景像素,降低动态范围,在规格化像素上执行二次操作以便增强字符块(或包含字符块的成组块)的边缘,以及在像素的原始灰度级范围中,去规格化规格化字符块(或包含字符块的成组块)的规格化像素。由去规格化字符块的像素,边缘增强部件620计算用于二进制字符块的像素的阈值。
也可以使用图34的二次滤波器的改进的图36中所示的改进的二次滤波器,增强字符块(或包含字符块的成组块)的边缘。图36是示例说明使用改进的二次滤波器的边缘增强部件620的结构的框图。
参考图36,第一阈值计算部件621计算用于将字符块的像素划分成字符像素和背景像素。第一阈值计算部件621在操作方面与图34的第一阈值计算部件621相同。
平均计算部件623在第一阈值Th1的基础上,将字符块的像素分类成字符和背景像素,并计算用于字符块的字符和背景像素的平均亮度值。平均计算部件623在操作方面也与图34的平均计算部件623相同。
规格化部件625使用来自平均计算部件623的用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1,规格化字符块x(m,n)的像素以便字符像素具有接近于“1”的值而背景像素具有接近于“0”的值。规格化部件625在操作方面也与图34的规格化部件625相同。
二次操作部件627使用规格化像素和它们的周围像素间的关系,执行增强边缘和降低噪声分量的功能。图35表示通过二次操作部件627处理过的中心像素及其周围的像素。方程式(23)表示出通过在字符像素上执行二次操作,增强边缘和降低噪声分量的二次操作部件627的特性。二次操作部件627在操作方面也与图34的二次操作部件627相同。
无需去规格化地输出从二次操作部件627输出的规格化字符块(或包含字符像素的成组块)。因此,为生成在二进制字符块的像素中,由二进制部件630使用的阈值BTHN,改进的二次滤波器中的阈值规格化部件681通过规格化由第一阈值计算部件621计算的第一阈值Th1,生成第二阈值Th2。第二阈值Th2被二进制部件630用作用于二进制字符块像素的像素阈值BTHN
阈值规格化部件681使用等于规格化部件625的规格化方法的方法,规格化第一阈值Th1。阈值规格化部件681根据下面的方程式(25),规格化第一阈值Th1,以便产生第二阈值Th2(或阈值BTHN。)
Th 2 = ( Th 1 - &mu; 1 ) ( &mu; 0 - &mu; 1 ) . . . ( 25 )
在方程式(25)中,Th2表示用于通过二进制部件630,区分字符和背景像素的规格化阈值BTHN,μ0表示用于字符像素的亮度值,以及μ1表示用于背景像素的平均亮度值。
图36所示的边缘增强部件620通过规格化字符块(或包含字符块的成组块)中字符和背景像素,降低动态范围,并在规格化像素上执行二次操作以便增强字符块(或包含字符块的成组块)的边缘。由于从二次操作部件627输出的字符块(或包含该字符块的成组块)是规格化块,通过规格化第一阈值Th1,生成用于二进制字符块像素的阈值BTHN
如上所述,在根据本发明的第一至第四实施例的图象二进制部件40中,使用图34的二次滤波器或图36的改进的二次滤波器,能实现边缘增强部件620。使用改进的二次滤波器的边缘增强部件620执行增强边缘同时解决在二进制字符块(或包含该字符块的成组块)后,出现二进制图象的字符周围的黑块的缺陷。当使用改进的二次滤波器时,不执行用在二次滤波器中的去规格化操作。因此,当使用二次滤波器时,边缘增强部件620去规格化二次处理过的字符块(或包含该字符块的成组块),同时,由去规格化字符块(或包含该字符块的成组块)计算阈值BTH。然而,当使用改进的二次滤波器时,边缘增强部件620使用原样二次处理过的规格化字符块(或包含该字符块的成组块),并通过规格化第一阈值Th1,计算像素阈值BTHN
当从边缘增强部件620输出字符块时,将字符块施加到二进制部件630上,以及当从边缘增强部件620输出包含字符块的成组块时,将成组块施加到块分裂部件660。接收包含字符块的成组块的块分裂部件660将字符块与成组块分开。这是为了将通过块组合部件650,将字符块与其周围的块组合产生的成组块恢复成其原始块。即,块分裂部件660将8×8中心块与24×24成组块分开。
将从块分裂部件660或边缘增强部件620输出的字符块输入到二进制部件630。二进制部件630接收从边缘增强部件620输出的阈值以便二进制字符块中的像素。输入到二进制部件630的字符块是y(m,n)(对应于从图34的二次滤波器输出的字符块),或yN(m,n)(对应于从图36的改进的二次滤波器输出的字符块)。因此,阈值变为BTH或BTHN
二进制部件630通过使用阈值,将所接收的字符块分类成字符和背景像素,以及将所分类的字符和背景像素转换成两个不同的亮度值来执行二进制操作。换句话说,二进制部件630将对应于输入字符块的阈值与字符块像素的值进行比较,根据比较结果,如果字符块像素的值等于或大于阈值,则将这些像素分类为字符像素,以及如果字符块像素的值小于阈值,则将这些像素分类为背景像素。二进制部件630根据分类结果,通过将字符像素转换成亮度值“α”和将背景像素转换成亮度值“β”,执行二进制操作。用于二进制部件630二进制化字符块像素的方法定义如下
Figure C20041003995300901
在方程式(26)中,y(m,n)和BTH分别从二次滤波器输出的字符块和阈值,以及yN(m,n)和BTHN分别表示从改进的二次滤波器输出的字符块和阈值,以及yB(m,n)表示二进制字符块。
二进制部件630接收从块分类部件610或块生长部件640输出的背景块的像素,以及将背景块像素共同转换成亮度值“β”。
现在将描述使用图34的二次滤波器,增强字符块的边缘的操作。
首先,计算用于将字符块的像素划分成字符像素和背景像素的第一阈值Th1。第一阈值Th1用于在下一过程中区分字符和背景像素以及规格化两种区分的像素。根据方程式(19),第一阈值Th1被选择为对应于两种区分的像素间的最大类间方差的灰度值。
第二,在第一阈值Th1的基础上,将字符块的像素分类成字符和背景像素,以及计算用于字符块的字符和背景像素的平均亮度值。在用于两个类的平均计算的过程中,根据方程式(20),在第一阈值Th1的基础上,将字符块x(m,n)的像素分类成字符像素和背景像素,然后根据方程式(21),计算用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1
第三,使用来自平均计算部件623的用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1,规格化字符块x(m,n)的像素以便字符像素具有接近于“1”的值而背景像素具有接近于“0”的值。字符块规格化方法根据方程式(22)规格化字符块x(m,n)的像素。
第四,使规格化字符块xN(m,n)经受二次操作,以便增强字符块的边缘以及降低它们的噪声分量。在二次操作过程中,在大的灰度级差值的基础上,暗处理字符像素以及明处理背景像素,以便清楚地处理字符边缘同时去除它们的噪声分量。根据方程式(23),执行这种操作。
第五,通过去规格化二次处理过的字符块yN(m,n),生成输出y(m,n)。去规格化过程在规格化前执行转换亮度值范围中的规格化字符块的像素的功能。根据方程式(24),执行去规格化操作。
第六,使用在去规格化过程中产生的字符块y(m,n),计算第二阈值Th2。第二阈值Th2相应于用于将字符块的像素二进制化为字符像素和背景像素的像素阈值BTH。能使用Otsu方法或Kapur方法计算第二阈值Th2。当使用Otsu方法时,通过根据方程式(19),计算去规格化字符块的像素,确定第二阈值Th2(或像素阈值BTH)。
现在将描述使用图36的改进二次滤波器,增强字符块的边缘的操作。
第一,计算用于将字符块的像素分类成字符像素和背景像素的第一阈值Th1。第一阈值计算方法与图34的第一阈值计算方法相同。
第二,在第一阈值Th1的基础上,将字符块的像素分类成字符和背景像素,然后计算用于字符块的字符和背景像素的平均亮度值。平均亮度值计算方法与图34的平均亮度值计算方法相同。
第三,使用用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1,规格化字符块x(m,n)的像素以便字符像素具有接近于“1”的值而背景像素具有接近于“0”的值。规格化方法也与图34的规格化方法相同。
第四,通过使用规格化像素与它们的周围像素间的关系,执行二次操作,增强字符块的边缘以及降低字符块的噪声分量。二次操作方法也与图34的二次操作方法相同。
第五,通过规格化第一阈值Th1,计算第二阈值Th2。这是因为在没有去规格化二次处理过的字符块的情况下,将规格化字符块传送到二进制部件630。如果使用图36的改进的二次滤波器,通过根据方程式(25),规格化第一阈值Th1,计算第二阈值Th2(或阈值BTHN)。
如上所述,在本发明的实施例中,能使用图34的二次滤波器或图36的改进的二次滤波器来增强字符块的边缘。改进的二次滤波器执行增强边缘同时解决在使用二次滤波器二进制字符块后在二进制图象的字符周围出现黑块的缺陷。当使用改进的二次滤波器,不执行用在二次滤波器中的去规格化操作。因此,当使用二次滤波器时,去规格化二次处理过的字符块,同时,从去规格化字符块计算阈值BTH。然而,当使用改进的二次滤波器时,使用二次处理过的规格化字符块,以及通过规格化第一阈值Th1,计算阈值BTHN
图37是示例说明根据本发明的实施例,使用二次滤波器实现边缘增强部件620时,二进制方法的例子的流程图。图37表示根据第四实施例的二进制方法,其中使用二次滤波器。图38A至38I是示例说明当在图37的进程中执行二进制时产生的图象的图。
参考图37,在步骤711,输入部件10接收图38A所示的输入图象。在此假定,输入由640(列)×480(行)像素组成。在步骤713,块分类部件610将从输入部件10接收的图38A的输入图象划分成块,分析所划分的块,以及根据分析结果,将所划分的块分类成字符块和背景块。在这里,每个块具有8×8像素大小,然后通过块分类过程,分类成字符块和背景块,如图38B所示。在图38B中,灰色部分表示分类为字符块的区域,而黑色部分表示分类为背景块的区域。
在步骤715,块生长部件640扩展通过块分类部件610分类的字符块,如图38C所示。在块分类过程中,由于字符像素间的背景的影响,包含字符像素的块会被错误地分类为背景块。块生长部件640使字符块生长以便扩展错误地分类为背景块的字符块中的像素。此后,在步骤717,块生长部件640将图38C的生长字符块顺序地输出到块组合部件650。此时,输出到块组合部件650的图象对应于图38D所示的字符块。在步骤719,块组合部件650接收从块生长部件640输出的图38D的字符块,以及将每个字符块与其相邻的8个字符块组合,生成图38E的成组块。
图38E的成组块被输入到边缘增强部件620。在这里,边缘增强部件650由二次滤波器组成。在步骤721,二次滤波器计算用于将字符块的每个像素分类成字符或背景像素的第一阈值Th1。能使用方程式(19)计算第一阈值Th1。在步骤723,平均值计算部件623根据方程式(20)和(21),在第一阈值Th1的基础上,将字符块的像素分类成字符和背景像素,并计算用于字符块的字符和背景像素的平均亮度值。在步骤725,规格化部件625使用用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1,规格化字符块x(m,n)的像素以便字符像素具有接近于“1”的值而背景像素具有接近于“0”的值。规格化部件625根据方程式(22),规格化字符块x(m,n)的像素。
在步骤727,二次操作部件627在规格化字符块xN(m,n)上执行二次滤波以便增强字符块的边缘以及降低它们的噪声分量。二次操作部件627执行方程式(23)的计算。在步骤729,去规格化部件929去规格化二次处理过的字符块yN(m,n)并生成输出块y(m,n)。去规格化部件929根据方程式(24),在规格化前,在亮度值范围内,转换通过规格化部件625规格化的字符块的像素。从去规格化部件929输出的图象如图38F所示。在步骤731,第二阈值计算部件671产生用于将去规格化图象中的字符块的像素二进制化为字符像素和背景像素的第二阈值Th2。第二阈值Th2变为用于二进制的像素阈值BTH。
在步骤733,块分裂部件660接收从二次滤波器输出的图38F的边缘增强的成组块,并将图38G的字符块与成组块分开。即,块分裂部件660执行仅将位于成组块的中心的字符块与成组块分开的功能。在步骤735,二进制部件630将图38G的分开的字符块的像素与阈值BTH进行比较,并将这些像素二进制化为具有第一和第二亮度值的字符和背景像素,如图38H所示。从块分类部件610或块生长部件640输出的背景块的像素被二进制化为第二亮度值。
通过重复上述操作,二进制化字符块和背景块,以及如果在步骤737确定完成用于所有图象块的二进制化,二进制部件630在步骤739输出图381的二进制图象。此外,图39中的流程使用了与图37中的步骤相同的步骤。
图39是示例说明二进制方法的例子的流程图,其中根据本发明的实施例,使用改进的二次滤波器,实现边缘增强部件620。图40A至40G是示例说明当在图39的进程中执行二进制时产生的图象的图。
参考图39,在步骤711,输入部件10接收图40A所示的输入图象。在此假定图象由640(列)×480(行)像素组成。在步骤713,块分类部件610将从输入部件10接收的图40A的输入图象划分成块,分析所划分的块的像素,以及根据分析结果,将所划分的块分类成字符块和背景块。在这里,每个块具有8×8像素大小。图40A的输入图象被分类成字符块和背景块,如图40B所示。在图40B中,灰色部分表示分类为字符块的区域,而黑色部分表示分类为背景块的区域。
在步骤715,块生长部件640扩展通过块分类部件610分类的字符块,如图40C所示。在块分类过程中,由于字符像素间的背景的影响,会将包含字符像素的块错误地分类成背景块。块生长部件640使字符块生长以便扩展错误地分类为背景块的字符块中的像素。此后,在步骤717,块生长部件640将图40C的生长字符块顺序地输出到块组合部件650。此时,输出到块组合部件650的图象对应于图40D所示的字符块。在步骤719,块组合部件650接收从块生长部件640输出的图40D的字符块,以及将每个字符块与其相邻的8个块组合,生成图40E的成组块。
将图40E的成组块图象输入到边缘增强部件620。在这里,边缘增强部件620由改进的二次滤波器组成。在步骤721,改进的二次滤波器计算用于将字符块的每个像素分类成字符或背景像素的第一阈值Th1。使用方程式(19),能计算第一阈值Th1。在步骤723,平均值计算部件623在第一阈值Th1的基础上,将字符块的像素分类成字符和背景像素,并根据方程式(20)和方程式(21),计算用于字符块的字符和背景像素的平均亮度值。在步骤725,规格化部件625使用用于字符像素的平均亮度值μ0和用于背景像素的平均亮度值μ1,规格化字符块x(m,n)的像素,以便字符像素具有接近于“1”的值而背景像素具有接近于“0”的值。规格化部件625根据方程式(22),规格化字符块x(m,n)的像素。
在步骤727,二次操作部件627在规格化字符块xN(m,n)上执行改进的二次滤波以便增强字符块的边缘以及降低它们的噪声分量。二次操作部件627执行方程式(23)的计算。在步骤751,阈值规格化部件681使用等于规格化部件625的规格化方法的方法,规格化第一阈值Th1。阈值规格化部件681根据方程式(25),规格化第一阈值Th1以便生成第二阈值Th2(或像素阈值BTHN)。
在步骤733,块分裂部件660接收经受改进的二次滤波的成组块,以及将字符块与成组块分开。即,块分裂部件660执行仅将位于成组块的中心的字符块与成组块分开的功能。在步骤735,二进制部件630将通过块分裂部件660分开的字符块的像素与像素阈值BTHN比较,并将这些像素二进制化为具有第一和第二亮度值的字符和背景像素,如图40F所示。将从块分类部件610或块生长部件640输出的背景块的像素二进制化为第二亮度值。
通过重复上述操作,二进制化字符块和背景块,以及如果在步骤737确定完成用于图象的所有块的二进制化,二进制部件630在步骤729输出图40G的二进制图象。
如果在字符识别前,通过根据本发明的第一至第七实施例的预处理设备,预处理输入图象,能提高识别包括在图象中的字符的性能。现在描述,使用根据本发明的实施例的预处理设备,用于识别字符的实验的结果。在实验中,Nevicom Co.制造的Nexicam,用于HP IPAQpocket PC的数字摄像机用作输入部件10,以及ABBYY Co.制造的识别英语的FineReader 5.0 office试用版,和识别韩文和英语字符的HIART公司制造的的GN2000测试版用作字符识别部件50。
将在具有预处理设备的字符识别方法和没有预处理设备的字符识别方法间比较识别速率。识别速率定义如下
Figure C20041003995300971
在实验中,使用歪斜图象、标准图象和状况坏的图象。在这里,状况坏的图象能是有阴影的图象、不规则照明的图象或稍微模糊的图象。
实验#1
在第一实验中,识别歪斜图象中的字符。图41A示例说明歪斜约15°的输入图象,以及图41B示例说明在通过预处理设备校正歪斜图象的歪斜目标后识别的字符的图象。在这里,FineReader用作字符识别部件50,以及用于实验的图象能通过拍摄歪斜的英文名片获得。当歪斜目标的图41A的图象在歪斜校正后,经受识别字符时,字符识别部件50的识别速率变为96%。然而,当歪斜图象在没有歪斜校正的情况下,经受字符识别时,字符识别部件50的识别速率为0%。
实验#2
在第二实验中,在字符识别前,扩展图象中字符的区域(ROC)。图42A示例说明输入图象,图42B示例说明在没有ROC扩展的情况下识别的字符的图象,以及图42C示例说明在通过预处理设备扩展字符区(ROC)后识别的字符的图象。在这里,将GN2000用作字符识别部件50。当图42A的图象在ROC扩展后,经受字符识别时,识别速率变为55%,如图42C所示,而当在没有ROC扩展的情况下,使图象经受字符识别时,识别速率变为38%,如图42B所示。下表1表示在ROC扩展后字符识别方法以及没有ROC扩展的字符识别方法间的实验结果的比较。
表1
  没有ROC扩展   具有ROC扩展     软件
  图象1   89%(126/141)   92%(130/141)     FineReader
  图象2   75%(103/136)   85%(116/136)
  图象3   97%(162/166)   96%(160/166)
  图象4   38%(68/177)   55%(98/177)     GN2000
  图象5   52%(58/112)   78%(87/112)
实验#3
在第三实验中,识别标准图象中的字符。图43A示例说明输入图象,图43B示例说明在没有预处理的情况下,从图43A的输入图象识别的字符的图象,以及图43C示例说明在预处理后识别的字符的图象。在这里,将FineReader用作字符识别部件50。当图43A的图象在根据本发明的实施例的预处理器预处理后,经受字符识别,识别速率变为93%,如图43C所示,而当图象在没有预处理的情况下,经受字符识别时,识别速率变为82%,如图43B所示。表2表示在预处理后的字符识别方法和没有预处理的字符识别方法间的,有关从FineReader输入的标准图象的识别结果的比较。
表2
    没有预处理     具有预处理
    图象1     86%(291/337)     92%(321/337 )
    图象2     68%(130/189)     85%(167/189)
    图象3     82%(145/176)     96%(165/176)
    图象4     77%(126/163)     55%(154/163)
    图象5     87%(177/202)     78%(186/202)
实验#4
在第四实验中,识别状况坏的图象中的字符。图44A示例说明输入图象,图44B示例说明在没有预处理的情况下,从图44A的输入图象识别的字符的图象以及图44C示例说明在预处理后识别的字符的图象。在这里,FineReader用作字符识别部件50。当图44A的图象在通过根据本发明的实施例的预处理器预处理后,经受字符识别时,识别速率变为83%,如图44C所示,而图象在没有预处理的情况下经受字符识别时,识别速率变为63%,如图44B所示。下表3表示在预处理后的字符识别方法和没有预处理的字符识别方法间,有关FineReader输入的状况坏的图象的识别结果的比较,以及下表4表示在预处理后的字符识别方法和没有预处理的字符识别方法间,有关GN2000输入的状况坏的图象的识别结果的比较。
下表3
    没有预处理     有预处理
    图象1     38%(43/112)     90%(101/112)
    图象2     36%(88/238)     54%(130/238)
    图象3     63%(152/238)     83%(199/238)
    图象4     26%(60/229)     68%(157/229)
    图象5     31%(59/189)     61%(116/189)
下表4
    没有预处理     有预处理
    图象1     45%(63/137)     59%(82/137)
    图象2     51%(69/135)     61%(83/135)
    图象3     14%(12/84)     86%(73/84)
    图象4     21%(28/129)     42%(55/129)
    图象5     45%(37/81     70%(57/81)
第一,根据本发明的实施例,在识别图象中的字符前,在预处理过程中确定输入图象是否模糊,从而提高字符识别可靠性。另外,仅在字符块上执行有关输入图象模糊的判定,有助于简化模糊判定过程。
第二,在用于识别图象字符的预处理过程中,计算输入图象的目标的歪斜以便确定对应于该歪斜的歪斜角,然后通过歪斜校正部件使图象旋转以便校正歪斜目标,从而提高字符识别性能。另外,校正由于旋转图象而产生的图象的边缘处的像素以便校正由于旋转影响的图象。
第三,在用于识别图象字符的预处理过程中,搜索输入图象中字符区的位置,抽取搜索字符区的图象,以及将抽取的字符区的图象扩展成输入图象大小以便识别仅在字符区中的字符,从而提高字符识别性能。另外,将图象分类成字符区和背景区,以及去除误分类为字符区的区域以便提高用于字符识别的搜索性能。
第四,在用于识别图象字符的预处理过程中,将输入图象划分成块,将所划分的块分类成字符块和背景块,在二次处理后,仅将字符块二进制化为字符像素和背景像素,以及将背景块的像素共同二进制化为背景像素。因此,即使对有阴影的图象或不规则照明的图象,也能提高二进制可靠性。另外,生长在块分类过程中,误分类为背景块的字符块以便提高块分类的可靠性。另外,在二进制过程中,在二次处理前,使字符块与其8个相邻的块组合,然后在二进制前,使字符块与成组块分开,从而提高有关字符块的二进制可靠性。
如上所述,新预处理设备能在字符识别前,在图象上执行各种预处理操作,有助于增加字符识别速率。
尽管参考某些优选实施例示出和描述了本发明,本领域的技术人员将理解到在不背离由附加权利要求书限定的本发明的精神和范围的情况下,能在形式和细节方面做出各种改变。

Claims (76)

1.一种用于识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
模糊判定部件,用于将所接收的图象分类成字符块和背景块,计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值进行比较以便判定所接收的图象是否模糊;
图象二进制部件,用于如果所接收的图象不模糊,将所接收的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值进行比较,根据比较结果,将所述字符块中的像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别由所述图象二进制部件生成的二进制化图象中的字符。
2.如权利要求1所述的设备,其中,所述模糊判定部件包括:
块分类部件,用于将所接收的图象划分成块,以及将所划分的块分类成字符块和背景块;
平均字符块能量计算部件,用于计算通过所述块分类部件分类的所述字符块的平均能量比;以及
模糊检测部件,用于将所述平均能量比与预定阈值进行比较,以及根据所述比较结果,判定所述图象是否模糊。
3.如权利要求2所述的设备,其中,所述块分类部件包括:
块划分部件,用于将所接收的图象划分成具有预定大小的块;
离散余弦变换DCT转换部件,用于DCT转换从所述块划分部件输出的块;
能量计算部件,用于计算每个所述DCT转换的块中主DCT系数的绝对值之和,以及将所计算的和输出为相应块的能量值;
块阈值计算部件,用于合计从所述能量计算部件输出的块的能量值,通过将合计能量值除以块的总数,计算平均值,以及将所计算的平均值输出为块阈值;以及
块判定部件,用于顺序地接收从所述能量计算部件输出的块的能量值,将所接收的块的能量值与所述阈值进行比较,以及基于比较,将块分类成字符块或背景块。
4.如权利要求3所述的设备,其中,所述平均字符块能量计算部件包括:
能量比计算部件,用于计算每个字符块中DCT系数的能量比;以及
平均能量比计算部件,用于通过平均所述字符块的能量比,计算所述字符块的平均能量比。
5.如权利要求1所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所接收图象划分成块,以及将所划分的块分类成字符块和背景块;
边缘增强部件,用于使用所述字符块中相邻像素间的关系,增强通过所述块分类部件分类的字符块的边缘,并生成用于区分所述字符块中的字符像素和背景像素的像素阈值;以及
二进制部件,用于将从所述边缘增强部件输出的所述字符块中的像素与所述像素阈值进行比较,根据比较结果,将所述字符块中的像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块分类部件输出的所述背景块中的像素二进制化为所述第二亮度值。
6.如权利要求5所述的设备,其中,所述边缘增强部件包括:
第一阈值计算部件,用于计算用于将所述字符块中的像素分类成字符像素和背景像素的第一阈值;
平均值计算部件,用于在所述第一阈值的基础上,将所述字符块中的像素分类成字符像素和背景像素,以及计算用于所述字符块中所述字符像素和所述背景像素的平均亮度值;
规格化部件,用于使用从所述平均值计算部件输出的用于字符像素的平均亮度值和用于背景像素的平均亮度值,规格化所述字符块中的像素,以便所述字符像素具有接近“1”的值而背景像素具有接近“0”的值;
二次操作部件,用于在所规格化的字符块上执行二次操作以便增强所述字符块的边缘以及降低所述字符块的噪声;
去规格化部件,用于去规格化二次处理过的字符块的图象,以及将所去规格化的字符块输出到所述二进制部件;以及
第二阈值计算部件,用于计算用于将所去规格化的字符块中的像素分类成字符像素和背景像素的第二阈值,以及将所述第二阈值输出为用于所述二进制部件的阈值。
7.如权利要求5所述的设备,其中,所述块分类部件包括:
块划分部件,用于将所接收的图象划分成具有预定大小的块;
DCT转换部件,用于DCT转换从所述块划分部件输出的块;
能量计算部件,用于计算每个DCT转换的块中主DCT系数的绝对值之和,以及将所计算的和输出为相应块的能量值;
块阈值计算部件,用于合计从所述能量计算部件输出的块的能量值,通过将合计能量值除以块的总数,计算平均值,以及将所计算的平均值输出为块阈值;以及
块判定部件,用于顺序地接收从所述能量计算部件输出的块的能量值,将所接收的块的能量值与所述块阈值进行比较,以及根据比较结果,将块判定为字符块还是背景块。
8.如权利要求5所述的设备,其中,所述边缘增强部件包括:
第一阈值计算部件,用于计算用于将所述字符块中的像素分类成字符像素和背景像素的第一阈值;
平均值计算部件,用于在所述第一阈值的基础上,将所述字符块中的像素分类成字符像素和背景像素,以及计算用于所述字符块中所述字符像素和所述背景像素的平均亮度值;
规格化部件,用于使用从所述平均值计算部件输出的用于字符像素的平均亮度值和用于背景像素的平均亮度值,规格化所述字符块中的像素,以便所述字符像素具有接近“1”的值而背景像素具有接近“0”的值;
二次操作部件,用于在所规格化的字符块上执行二次操作以便增强所述字符块的边缘以及降低所述字符块的噪声;以及
阈值规格化部件,用于规格化所述第一阈值以便计算用于将所述像素分类成字符像素和背景像素的第二阈值,以及将所述第二阈值输出为用于二进制部件的阈值。
9.如权利要求1所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所接收图象划分成块,以及将所划分的块分类成字符块和背景块;
块生长部件,用于使所述字符块生长以便使包括字符像素、被误分类为背景块的块恢复成字符块;
边缘增强部件,用于使用所述字符块中相邻像素间的关系,增强从所述块生长部件输出的所述字符块的边缘,以及生成用于区分所述字符块中字符像素和背景像素的阈值;以及
二进制部件,用于将从所述边缘增强部件输出的所述字符块中的像素与所述像素阈值进行比较,根据所述字符块中的像素与像素阈值的比较结果,将所述字符块中的像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块生长部件输出的所述背景像素中的像素二进制化为所述第二亮度值。
10.如权利要求9所述的设备,其中,所述块生长部件包括:
扩张部件,用于扩张字符块以及使包含字符像素、被误分类为背景块的块转换成字符块;以及
闭合部件,用于侵蚀所扩张的字符块以便分开相连块。
11.如权利要求1所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所接收图象划分成块,以及将所划分的块分类成字符块和背景块;
块组合部件,用于使通过块分类部件分类的每个字符块与其相邻块组合以便产生成组块;
边缘增强部件,用于使用所述成组块中相邻像素间的关系,增强所述成组块的边缘,以及生成用于区分所述字符块中字符像素和背景像素的阈值;
块分裂部件,用于使所述字符块与从所述边缘增强部件输出的成组块分开;以及
二进制部件,用于将所分开的字符块中的像素与所述像素阈值进行比较,根据比较所述字符块中的像素与像素阈值的比较结果,将所述字符块中的像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块分类部件输出的背景块中的像素二进制化为所述第二亮度值。
12.如权利要求1所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所接收图象划分成块,以及将所划分的块分类成字符块和背景块;
块生长部件,用于使所述字符块生长以便使包括字符像素、被误分类为背景块的块恢复成字符块;
块组合部件,用于使从所述块生长部件输出的字符块与其相邻块组合以便生成成组块;
边缘增强部件,用于使用所述成组块中的相邻像素间的关系,增强所述成组块的边缘,以及产生用于区分所述字符块中字符像素和背景像素的阈值;
块分裂部件,用于使所述字符块与从所述边缘增强部件输出的成组块分开;以及
二进制部件,用于将在所分开的字符块中的像素与所述像素阈值进行比较,根据比较所述字符块中的像素与像素阈值的比较结果,将所述字符块中的像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及使从所述块生长部件输出的所述背景块中的像素二进制化为所述第二亮度值。
13.如权利要求1所述的设备,进一步包括降噪部件,用于降低所接收的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
14.如权利要求13所述的设备,其中,所述降噪部件包括定向Lee滤波器。
15.一种用于识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
目标歪斜校正部件,用于在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中歪斜的目标;
图象二进制部件,用于将校正歪斜的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值进行比较,根据比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别所述二进制化图象中的字符。
16.如权利要求15所述的设备,其中,所述目标歪斜校正部件包括:
二进制部件,用于将所述图象中的像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值;
候选带生成部件,用于通过在所述二进制图象的字符区上执行扩张,生成候选带;
带分类部件,用于将所述候选带中,具有预定大小值或者超过预定大小值的偏心率和模糊点大小的候选带分类为带;
歪斜角判定部件,用于计算所分类的带的方向角,以及将具有最大计数值的方向角判定为歪斜角;以及
歪斜校正部件,用于通过使所述图象旋转所述歪斜角,校正所述歪斜的图象。
17.如权利要求15所述的设备,进一步包括图象校正部件,用于在水平方向中,用接近于所述空白区的像素填充通过所述歪斜校正部件校正歪斜目标的所述图象角处的空白区。
18.如权利要求16所述的设备,其中,所述二进制部件包括:
块分类部件,用于将所述图象划分成具有预定大小的块,计算所划分的块的像素能量,以及根据所计算的像素能量,将所述块分类成字符块和背景块;
像素阈值计算部件,用于使用计算从所述块分类部件输出的所述字符块中字符像素和背景像素间的最大类间方差,计算亮度值的Otsu的方法,计算像素阈值;以及
二进制部件,用于将从所述块分类部件输出的所述字符块中的像素与所述像素阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值。
19.如权利要求18所述的设备,其中,所述块分类部件包括:
块划分部件,用于将所接收的图象划分成具有预定大小的块;
离散余弦变换DCT转换部件,用于DCT转换从所述块划分部件输出的块;
能量计算部件,用于计算每个DCT转换的块中主DCT系数的绝对值之和,以及将所计算的和输出为相应块的能量值;
块阈值计算部件,用于合计从所述能量计算部件输出的块的能量值,通过将合计能量值除以块的总数,计算平均值,以及将所计算的平均值输出为块阈值;以及
块判定部件,用于顺序地接收从所述能量计算部件输出的块的能量值,将所接收的块的能量值与所述阈值进行比较,以及根据比较结果,将块分类为字符块或背景块。
20.如权利要求18所述的设备,进一步包括内连在所述块分类部件和所述像素阈值计算部件之间的块组合部件,用于使由所述块分类部件分类的所述字符块与其相邻块组合以便产生成组块,以及将所述成组块输出到所述像素阈值计算部件。
21.如权利要求16所述的设备,其中,所述候选带生长部件包括:
扩张部件,用于扩张所述二进制化字符块的区域以及产生其中相邻字符被连接的候选带;以及
侵蚀部件,用于侵蚀所述候选带以便分开位于所扩张的候选带上和下的候选带。
22.如权利要求16所述的设备,其中,所述带分类部件基于所述候选带的力矩,通过计算模糊点大小和偏心率,计算候选带的长度,以及当所述偏心率和模糊点大小大于或等于它们的预定阈值时,将相应的候选带分类为有效带。
23.如权利要求16所述的设备,其中,所述歪斜角判定部件计算所分类的带的方向角,以及将具有最大计数值的方向角判定为歪斜角。
24.如权利要求15所述的设备,其中,所述目标歪斜校正部件包括:
二进制部件,用于将所述图象中的像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值;
水平像素子采样部件,用于以预定子采样速率,在所述二进制图象上执行水平子采样;
候选带生成部件,用于通过扩张所述二进制图象中的字符块,生成候选带;
垂直像素子采样部件,用于以预定子采样速率,在具有所述候选带的图象上执行垂直子采样;
带分类部件,用于将在垂直子采样的候选带中,具有预定值或更大的偏心率和模糊点大小的候选带分类为带;
歪斜角判定部件,用于计算所分类的带的方向角,累计所述方向角的计数值,以及将具有最大计数值的方向角判定为歪斜角;以及
歪斜校正部件,用于通过使所述图象旋转所述歪斜角,校正所述图象中的歪斜目标。
25.如权利要求24所述的设备,进一步包括图象校正部件,用于在水平方向中,用接近于所述空白区的像素填充通过所述歪斜校正部件校正歪斜目标的所述图象角处的空白区。
26.如权利要求15所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
边缘增强部件,用于使用所述字符块中相邻像素间的关系,增强通过所述块分类部件分类的字符块的边缘,并生成用于区分所述字符块中的字符像素和背景像素的像素阈值;以及
二进制部件,用于将从所述边缘增强部件输出的所述字符块中的像素与所述阈值进行比较,根据比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块分类部件输出的所述背景块中的像素二进制化为所述第二亮度值。
27.如权利要求26所述的设备,其中,所述边缘增强部件包括:
第一阈值计算部件,用于计算用于将所述字符块中的像素分类成字符像素和背景像素的第一阈值;
平均值计算部件,用于在所述第一阈值的基础上,将所述字符块中的像素分类成字符像素和背景像素,以及计算用于所述字符块中所述字符像素和所述背景像素的平均亮度值;
规格化部件,用于使用从所述平均值计算部件输出的用于字符像素的平均亮度值和用于背景像素的平均亮度值,规格化所述字符块中的像素,以便所述字符像素具有接近“1”的值而背景像素具有接近“0”的值;
二次操作部件,用于在所规格化的字符块上执行二次操作以便增强所述字符块的边缘以及降低所述字符块的噪声;
去规格化部件,用于去规格化二次处理过的字符块的图象,以及将所去规格化的字符块输出到所述二进制部件;以及
第二阈值计算部件,用于计算用于将所去规格化的字符块中的像素分类成字符像素和背景像素的第二阈值,以及将所述第二阈值输出为用于所述二进制部件的阈值。
28.如权利要求26所述的设备,其中,所述块分类部件包括:
块划分部件,用于将所接收的图象划分成具有预定大小的块;
DCT转换部件,用于DCT转换从所述块划分部件输出的块;
能量计算部件,用于计算每个DCT转换的块中主DCT系数的绝对值之和,以及将所计算的和输出为相应块的能量值;
块阈值计算部件,用于合计从所述能量计算部件输出的块的能量值,通过将合计能量值除以块的总数,计算平均值,以及将所计算的平均值输出为块阈值;以及
块判定部件,用于顺序地接收从所述能量计算部件输出的块的能量值,将所接收的块的能量值与所述阈值进行比较,以及根据比较结果,将块判定为字符块还是背景块。
29.如权利要求26所述的设备,其中,所述边缘增强部件包括:
第一阈值计算部件,用于计算用于将所述字符块中的像素分类成字符像素和背景像素的第一阈值;
平均值计算部件,用于在所述第一阈值的基础上,将所述字符块中的像素分类成字符像素和背景像素,以及计算用于所述字符块中所述字符像素和所述背景像素的平均亮度值;
规格化部件,用于使用从所述平均值计算部件输出的用于字符像素的平均亮度值和用于背景像素的平均亮度值,规格化所述字符块中的像素,以便所述字符像素具有接近“1”的值而背景像素具有接近“0”的值;
二次操作部件,用于在所规格化的字符块上执行二次操作以便增强所述字符块的边缘,以及降低所述字符块的噪声;以及
第二阈值计算部件,用于规格化所述第一阈值以便计算用于将所述像素分类成字符像素和背景像素的第二阈值,以及将所述第二阈值输出为用于二进制部件的阈值。
30.如权利要求15所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
块生长部件,用于使所述字符块生长以便使包括字符像素、被误分类为背景块的块恢复成字符块;
边缘增强部件,用于使用所述字符块中相邻像素间的关系,增强从所述块生长部件输出的所述字符块的边缘,以及生成用于区分所述字符块中字符像素和背景像素的阈值;以及
二进制部件,用于将从所述边缘增强部件输出的所述字符块中的像素与所述阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块生长部件输出的所述背景像素中的像素二进制化为所述第二亮度值。
31.如权利要求30所述的设备,其中,所述块生长部件包括:
扩张部件,用于扩张字符块以及使包含字符像素、被误分类为字符块的块转换成字符块;以及
闭合部件,用于侵蚀所扩张的字符块以便分开相连块。
32.如权利要求15述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
块组合部件,用于使通过块分类部件分类的每个字符块与其相邻块组合以便产生成组块;
边缘增强部件,用于使用所述成组块中相邻像素间的关系,增强所述成组块的边缘,以及生成用于区分所述字符块中字符像素和背景像素的阈值;
块分裂部件,用于使所述字符块与从所述边缘增强部件输出的成组块分开;以及
二进制部件,用于将所分开的字符块中的像素与所述阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块分类部件输出的背景像素中的像素二进制化为所述第二亮度值。
33.如权利要求15所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
块生长部件,用于使所述字符块生长以便使包括字符像素、被误分类为背景块的块恢复成字符块;
块组合部件,用于使从所述块生长部件输出的字符块与其相邻块组合以便生成成组块;
边缘增强部件,用于使用所述成组块中的相邻像素间的关系,增强所述成组块的边缘,以及产生用于区分所述字符块中字符像素和背景像素的阈值;
块分裂部件,用于使所述字符块与从所述边缘增强部件输出的成组块分开;以及
二进制部件,用于将在所分开的字符块中的像素与所述阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及使从所述块生长部件输出的所述背景像素中的像素二进制化为所述第二亮度值。
34.如权利要求15所述的设备,进一步包括降噪部件,用于降低所接收的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
35.如权利要求34所述的设备,其中,所述降噪部件包括定向Lee滤波器。
36.一种用于识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
内容区ROC扩展部件,用于将所接收的图象分类为字符块和背景块,通过搜索所述图象中的所述字符块的位置,抽取字符区,以及使所抽取的字符区的图象扩展到所接收的图象的大小;
图象二进制部件,用于将所ROC扩展的图象分类为字符块和背景块,将所述字符块中的像素与像素阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别所述二进制图象中的字符。
37.如权利要求36所述的设备,其中,所述ROC扩展部件包括:
块分类部件,用于将所述图象分类为字符块和背景块,以及将所述字符块转换成具有第一亮度值的像素以及将所述背景块转换成具有第二亮度值的像素;
位置搜索部件,用于通过水平和垂直扫描所述块划分的图象,搜索字符区的左、右、上和下位置,以及根据所述搜索结果,确定所述字符区的位置;
ROC抽取部件,用于从所接收的图象抽取所述字符区的预定位置中的图象;以及
图象扩展部件,用于使所述字符区的抽取图象扩展到所接收的图象的大小。
38.如权利要求37所述的设备,其中,所述块分类部件包括:
块划分部件,用于将所接收的图象划分成具有预定大小的块;
离散余弦变换DCT转换部件,用于DCT转换从所述块划分部件输出的块;
能量计算部件,用于计算每个所述DCT转换的块中主DCT系数的绝对值之和,以及将所计算的和输出为相应块的能量值;
块阈值计算部件,用于合计从所述能量计算部件输出的块的能量值,通过将合计能量值除以块的总数,计算平均值,以及将所计算的平均值输出为块阈值;以及
块判定部件,用于顺序地接收从所述能量计算部件输出的块的能量值,将所接收的块的能量值与所述阈值进行比较,以及根据比较结果,将块分类成字符块或背景块。
39.如权利要求37所述的设备,其中,所述位置搜索部件通过水平和垂直扫描所述块划分图象,搜索字符区的位置,以及根据搜索结果,确定所述字符区的位置,以便所述字符区具有所接收的图象的长宽比。
40.如权利要求37所述的设备,其中,所述图象扩展部件通过双线性内插,扩展所抽取的字符区的图象。
41.如权利要求36所述的设备,其中,所述ROC扩展部件包括:
块分类部件,用于将所述图象分类成字符块和背景块,以及将所述字符块转换成具有第一亮度值的像素和将所述背景块转换成具有第二亮度值的像素;
中值滤波器,用于中值滤波从所述块分类部件输出的图象以便去除被误分类为字符块的块;
位置搜索部件,用于通过水平和垂直扫描所述中值滤波的图象,搜索字符区的左、右、上和下位置,以及根据所述搜索结果,确定所述字符区的位置;
ROC抽取部件,用于从所接收的图象抽取所述字符区的预定位置中的图象;以及
图象扩展部件,用于将所抽取的字符区的图象扩展到所接收的图象的大小。
42.如权利要求41所述的设备,其中,所述中值滤波器将孤立字符块确定为误分类字符块。
43.如权利要求36所述的设备,其中,所述ROC扩展部件包括:
均值滤波器,用于均值滤波所接收的图象以便使所接收的图象模糊;
块分类部件,用于将所述均值滤波的图象分类成字符块和背景块,以及将所述字符块转换成具有第一亮度值的像素和将所述背景块转换成具有第二亮度值的像素;
中值滤波器,用于中值滤波从所述块分类部件输出的图象以便去除被误分类为字符块的块;
位置搜索部件,用于通过水平和垂直扫描所述中值滤波的图象,搜索字符区的左、右、上和下位置,以及根据所述搜索结果,确定所述字符区的位置;
ROC抽取部件,用于从所接收的图象抽取所述字符区的确定位置中的图象;以及
图象扩展部件,用于将所抽取的字符区的图象扩展到所接收的图象的大小。
44.如权利要求36所述的设备,其中,所述ROC扩展部件包括:
均值滤波器,用于均值滤波所接收的图象以便使所接收的图象模糊;
块分类部件,用于将均值滤波的图象分类成字符块和背景块,以及将所述字符块转换成具有第一亮度值的像素和将所述背景块转换成具有第二亮度值的像素;
子采样部件,用于子采样从所述块分类部件输出的图象中的像素以便降低像素数量;
中值滤波器,用于中值滤波子采样的图象以便去除误分类为字符块的块;
内插部件,用于在所述中值滤波的图象中内插像素以便使所述中值滤波的图象扩展到所接收的图象的大小;
位置搜索部件,用于通过水平和垂直扫描所述块分类的图象,搜索字符区的左、右、上和下位置,以及根据搜索结果,确定所述字符区的位置;
ROC抽取部件,用于从所接收的图象抽取所述字符区的确定位置中的图象;以及
图象扩展部件,用于使所抽取的字符区的图象扩展到所接收的图象的大小。
45.如权利要求36所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
边缘增强部件,用于使用所述字符块中相邻像素间的关系,增强通过所述块分类部件分类的字符块的边缘,并生成用于区分所述字符块中的字符像素和背景像素的像素阈值;以及
二进制部件,用于将从所述边缘增强部件输出的所述字符块中的像素与所述阈值进行比较,根据比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块分类部件输出的所述背景块中的像素二进制化为所述第二亮度值。
46.如权利要求45所述的设备,其中,所述边缘增强部件包括:
第一阈值计算部件,用于计算用于将所述字符块中的像素分类成字符像素和背景像素的第一阈值;
平均值计算部件,用于在所述第一阈值的基础上,将所述字符块中的像素分类成字符像素和背景像素,以及计算用于所述字符块中所述字符像素和所述背景像素的平均亮度值;
规格化部件,用于使用从所述平均值计算部件输出的用于字符像素的平均亮度值和用于背景像素的平均亮度值,规格化所述字符块中的像素,以便所述字符像素具有接近“1”的值而背景像素具有接近“0”的值;
二次操作部件,用于在所规格化的字符块上执行二次操作以便增强所述字符块的边缘以及降低所述字符块的噪声;
去规格化部件,用于去规格化二次处理过的字符块的图象,以及将所去规格化的字符块输出到所述二进制部件;以及
第二阈值计算部件,用于计算用于将所去规格化的字符块中的像素分类成字符像素和背景像素的第二阈值,以及将所述第二阈值输出为用于所述二进制部件的阈值。
47.如权利要求45所述的设备,其中,所述块分类部件包括:
块划分部件,用于将所接收的图象划分成具有预定大小的块;
DCT转换部件,用于DCT转换从所述块划分部件输出的块;
能量计算部件,用于计算每个DCT转换的块中主DCT系数的绝对值之和,以及将所计算的和输出为相应块的能量值;
块阈值计算部件,用于合计从所述能量计算部件输出的块的能量值,通过将合计能量值除以块的总数,计算平均值,以及将所计算的平均值输出为块阈值;以及
块判定部件,用于顺序地接收从所述能量计算部件输出的块的能量值,将所接收的块的能量值与所述阈值进行比较,以及根据比较结果,将块判定为字符块还是背景块。
48.如权利要求45所述的设备,其中,所述边缘增强部件包括:
第一阈值计算部件,用于计算用于将所述字符块中的像素分类成字符像素和背景像素的第一阈值;
平均值计算部件,用于在所述第一阈值的基础上,将所述字符块中的像素分类成字符像素和背景像素,以及计算用于所述字符块中所述字符像素和所述背景像素的平均亮度值;
规格化部件,用于使用从所述平均值计算部件输出的用于字符像素的平均亮度值和用于背景像素的平均亮度值,规格化所述字符块中的像素,以便所述字符像素具有接近“1”的值而背景像素具有接近“0”的值;
二次操作部件,用于在所规格化的字符块上执行二次操作以便增强所述字符块的边缘以及降低所述字符块的噪声;以及
第二阈值计算部件,用于规格化所述第一阈值以便计算用于将所述像素分类成字符像素和背景像素的第二阈值,以及将所述第二阈值输出为用于二进制部件的阈值。
49.如权利要求36所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
块生长部件,用于使所述字符块生长以便使包括字符像素、被误分类为背景块的块恢复成字符块;
边缘增强部件,用于使用所述字符块中相邻像素间的关系,增强从所述块生长部件输出的所述字符块的边缘,以及生成用于区分所述字符块中字符像素和背景像素的阈值;以及
二进制部件,用于将从所述边缘增强部件输出的所述字符块中的像素与所述阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块生长部件输出的所述背景像素中的像素二进制化为所述第二亮度值。
50.如权利要求49所述的设备,其中,所述块生长部件包括:
扩张部件,用于扩张字符块以及使包含字符像素、被误分类为字符块的块转换成字符块;以及
闭合部件,用于侵蚀所扩张的字符块以便分开相连块。
51.如权利要求36所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
块组合部件,用于使通过块分类部件分类的每个字符块与其相邻块组合以便产生成组块;
边缘增强部件,用于使用所述成组块中相邻像素间的关系,增强所述成组块的边缘,以及生成用于区分所述字符块中字符像素和背景像素的阈值;
块分裂部件,用于使所述字符块与从所述边缘增强部件输出的成组块分开;以及
二进制部件,用于将所分开的字符块中的像素与所述阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及将从所述块分类部件输出的背景像素中的像素二进制化为所述第二亮度值。
52.如权利要求36所述的设备,其中,所述图象二进制部件包括:
块分类部件,用于将所述图象划分成块,以及将所划分的块分类成字符块和背景块;
块生长部件,用于使所述字符块生长以便使包括字符像素、被误分类为背景块的块恢复成字符块;
块组合部件,用于使从所述块生长部件输出的字符块与其相邻块组合以便生成成组块;
边缘增强部件,用于使用所述成组块中的相邻像素间的关系,增强所述成组块的边缘,以及产生用于区分所述字符块中字符像素和背景像素的阈值;
块分裂部件,用于使所述字符块与从所述边缘增强部件输出的成组块分开;以及
二进制部件,用于将在所分开的字符块中的像素与所述阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的第一亮度值和用于背景像素的第二亮度值,以及使从所述块生长部件输出的所述背景像素中的像素二进制化为所述第二亮度值。
53.如权利要求36所述的设备,进一步包括降噪部件,用于降低所接收的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
54.如权利要求53所述的设备,其中,所述降噪部件包括定向Lee滤波器。
55.一种用于识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
模糊判定部件,用于将所接收的图象划分成字符块和背景块、计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值进行比较以便确定所接收的图象是否模糊;
目标歪斜校正部件,用于如果所接收的图象不模糊,在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中的歪斜目标;
图象二进制部件,用于将校正歪斜的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据比较所述字符块中的像素与像素阈值的比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别由所述图象二进制部件生成的二进制图象中的字符。
56.如权利要求55所述的设备,进一步包括降噪部件,用于降低所接收的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
57.一种识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
模糊判定部件,用于将所接收的图象分类成字符块和背景块,计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值进行比较以便判定所接收的图象是否模糊;
内容区ROC扩展部件,用于如果所接收的图象不模糊,将所接收的图象分类成字符块和背景块,通过在所述图象中搜索所述字符块的位置,抽取字符区,以及将所抽取的字符区的图象扩展到所接收的图象的大小;
图象二进制部件,用于将ROC扩展的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据比较结果,使所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别由所述图象二进制部件生成的二进制图象中的字符。
58.如权利要求57所述的设备,进一步包括降噪部件,用于降低ROC扩展的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
59.一种用于识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
目标歪斜校正部件,用于在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中歪斜的目标;
内容区ROC扩展部件,用于将校正歪斜后的图象分类成字符块和背景块,通过在所述图象中搜索所述字符块的位置,抽取字符区,以及将所抽取的字符区的图象扩展到所接收的图象的大小;
图象二进制部件,用于将所述ROC扩展的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据所述比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别所述二进制图象中的字符。
60.如权利要求59所述的设备,进一步包括降噪部件,用于降低ROC扩展的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
61.一种用于识别图象中的字符的设备,包括:
用于接收所述图象的输入部件;
模糊判定部件,用于将所接收的图象分类成字符块和背景块,计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值比较以便判定所接收的图象是否模糊;
目标歪斜校正部件,用于如果所接收的图象不模糊,在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中歪斜的目标;
内容区ROC扩展部件,用于将所述校正歪斜的图象分类成字符块和背景块,通过在所述校正歪斜的图象中搜索所述字符块的位置,抽取字符区,以及使所抽取的字符区的图象扩展到所接收的图象的大小;
图象二进制部件,用于将所述ROC扩展的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据比较所述字符块中的像素与像素阈值的比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
字符识别部件,用于识别由所述图象二进制部件生成的二进制图象中的像素。
62.如权利要求61所述的设备,进一步包括降噪部件,用于降低ROC扩展的图象的噪声并将降低噪声的图象输出到所述图象二进制部件。
63.一种识别图象中的字符的方法,包括步骤:
接收所述图象;
将所接收的图象分类成字符块和背景块,计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值进行比较以便判定所接收的图象是否模糊;
如果所接收的图象不模糊,将所接收的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值进行比较,根据比较结果,将所述字符块中的像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别由所述图象二进制部件生成的二进制化图象中的字符。
64.如权利要求63所述的方法,进一步包括降低所接收的图象的噪声,然后进入到所述图象二进制步骤。
65.一种用于识别图象中的字符的方法,包括步骤:
接收所述图象;
在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中歪斜的目标;
将校正歪斜的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值进行比较,根据比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别所述二进制化图象中的字符。
66.如权利要求65所述的方法,进一步包括降低所校正歪斜的图象的噪声,然后进入所述图象二进制步骤的步骤。
67.一种用于识别图象中的字符的方法,包括步骤:
接收所述图象;
将所接收的图象分类为字符块和背景块,通过搜索所述图象中的所述字符块的位置,抽取字符区,以及使所抽取的字符区的图象扩展到所接收的图象的大小;
将所内容区ROC扩展的图象分类为字符块和背景块,将所述字符块中的像素与像素阈值进行比较,根据所述比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别所述二进制图象中的字符。
68.如权利要求67所述的方法,进一步包括降低所述ROC扩展图象的噪声,然后进入所述图象二进制步骤的步骤。
69.一种用于识别图象中的字符的方法,包括步骤:
接收所述图象;
用于将所接收的图象划分成字符块和背景块、计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值进行比较以便确定所接收的图象是否模糊;
如果所接收的图象不模糊,在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中的歪斜目标;
将校正歪斜的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据所述字符块中的像素与像素阈值的比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别由所述图象二进制部件生成的二进制图象中的字符。
70.如权利要求69所述的方法,进一步包括降低所述歪斜校正图象的噪声,然后进入所述图象二进制步骤的步骤。
71.一种用于识别图象中的字符的方法,包括步骤:
接收所述图象;
将所接收的图象分类成字符块和背景块,计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值进行比较以便判定所接收的图象是否模糊;
如果所接收的图象不模糊,将所接收的图象分类成字符块和背景块,通过在所述图象中搜索所述字符块的位置,抽取字符区,以及将所抽取的字符区的图象扩展到所接收的图象的大小;
将内容区ROC扩展的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据比较结果,使所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别由所述图象二进制部件生成的二进制图象中的字符。
72.如权利要求71所述的方法,进一步包括降低所述ROC扩展图象的噪声,然后进入所述图象二进制步骤的步骤。
73.一种用于识别图象中的字符的方法,包括步骤:
接收所述图象;
在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中歪斜的目标;
将校正歪斜后的图象分类成字符块和背景块,通过在所述图象中搜索所述字符块的位置,抽取字符区,以及将所抽取的字符区的图象扩展到所接收的图象的大小;
将所述内容区ROC扩展的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据所述比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及将所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别所述二进制图象中的字符。
74.如权利要求73所述的方法,进一步包括降低所述ROC扩展图象的噪声,然后进入所述图象二进制步骤的步骤。
75.一种用于识别图象中的字符的方法,包括步骤:
接收所述图象;
将所接收的图象分类成字符块和背景块,计算所述字符块的平均能量比,以及将所述平均能量比与预定阈值比较以便判定所接收的图象是否模糊;
如果所接收的图象不模糊,在所接收的图象中,分类具有预定长度或更长的带,计算所分类的带的方向角以便测量目标的歪斜,确定对应于所测量的歪斜的歪斜角,以及使所述图象旋转所确定的歪斜角以便校正所述图象中歪斜的目标;
将所述校正歪斜的图象分类成字符块和背景块,通过在所述校正歪斜的图象中搜索所述字符块的位置,抽取字符区,以及使所抽取的字符区的图象扩展到所接收的图象的大小;
将所述内容区(ROC)扩展的图象分类成字符块和背景块,将所述字符块中的像素与像素阈值比较,根据所述比较结果,将所述像素二进制化为用于字符像素的亮度值和用于背景像素的亮度值,以及使所述背景块中的像素二进制化为用于背景像素的所述亮度值;以及
识别由所述图象二进制部件生成的二进制图象中的像素。
76.如权利要求75所述的方法,进一步包括降低所述ROC扩展图象的噪声,然后进入所述图象二进制步骤的步骤。
CNB2004100399535A 2003-03-15 2004-03-15 用于识别图象字符的预处理设备和方法 Expired - Fee Related CN1324521C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR16315/2003 2003-03-15
KR1020030016315A KR100977713B1 (ko) 2003-03-15 2003-03-15 영상신호의 글자 인식을 위한 전처리 장치 및 방법

Publications (2)

Publication Number Publication Date
CN1536526A CN1536526A (zh) 2004-10-13
CN1324521C true CN1324521C (zh) 2007-07-04

Family

ID=32985786

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100399535A Expired - Fee Related CN1324521C (zh) 2003-03-15 2004-03-15 用于识别图象字符的预处理设备和方法

Country Status (6)

Country Link
US (1) US7471830B2 (zh)
EP (1) EP1473658B1 (zh)
JP (1) JP2004280832A (zh)
KR (1) KR100977713B1 (zh)
CN (1) CN1324521C (zh)
DE (1) DE602004027325D1 (zh)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7156311B2 (en) * 2003-07-16 2007-01-02 Scanbuy, Inc. System and method for decoding and analyzing barcodes using a mobile device
US7242816B2 (en) * 2003-08-11 2007-07-10 Scanbuy, Inc. Group average filter algorithm for digital image processing
US7387250B2 (en) * 2003-12-04 2008-06-17 Scanbuy, Inc. System and method for on the spot purchasing by scanning barcodes from screens with a mobile device
ES2353017T3 (es) * 2003-12-04 2011-02-24 Scanbuy, Inc. Algoritmo basado en secciones para la mejora de imágenes.
US7296747B2 (en) * 2004-04-20 2007-11-20 Michael Rohs Visual code system for camera-equipped mobile devices and applications thereof
JP4574235B2 (ja) * 2004-06-04 2010-11-04 キヤノン株式会社 画像処理装置、及びその制御方法、プログラム
US7309015B2 (en) * 2004-07-14 2007-12-18 Scanbuy, Inc. Mobile device gateway providing access to instant information
US20060045346A1 (en) * 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
KR20060050729A (ko) * 2004-08-31 2006-05-19 엘지전자 주식회사 카메라로 촬영된 문서 영상 처리 방법과 장치
US20060100527A1 (en) * 2004-10-26 2006-05-11 Giovanni Gregori Speckle noise removal in optical coherence tomography
JP4805590B2 (ja) * 2005-03-14 2011-11-02 株式会社リコー 画像処理装置および画像処理プログラム
US8422546B2 (en) * 2005-05-25 2013-04-16 Microsoft Corporation Adaptive video encoding using a perceptual model
JP4484806B2 (ja) * 2005-11-30 2010-06-16 キヤノン株式会社 記録システム、記録方法、ホスト装置、プログラム、及び、コンピュータ可読媒体
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8016187B2 (en) 2006-02-21 2011-09-13 Scanbury, Inc. Mobile payment system using barcode capture
US7974340B2 (en) 2006-04-07 2011-07-05 Microsoft Corporation Adaptive B-picture quantization control
US8503536B2 (en) 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US7995649B2 (en) 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8059721B2 (en) 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US8130828B2 (en) 2006-04-07 2012-03-06 Microsoft Corporation Adjusting quantization to preserve non-zero AC coefficients
US8150163B2 (en) 2006-04-12 2012-04-03 Scanbuy, Inc. System and method for recovering image detail from multiple image frames in real-time
US8711925B2 (en) 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
JP4135752B2 (ja) * 2006-06-12 2008-08-20 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US7840071B2 (en) * 2006-12-12 2010-11-23 Seiko Epson Corporation Method and apparatus for identifying regions of different content in an image
US8238424B2 (en) 2007-02-09 2012-08-07 Microsoft Corporation Complexity-based adaptive preprocessing for multiple-pass video compression
KR100845662B1 (ko) * 2007-02-23 2008-07-10 한국정보통신대학교 산학협력단 비디오 자막영역 추출방법 및 장치
US8498335B2 (en) 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US8243797B2 (en) 2007-03-30 2012-08-14 Microsoft Corporation Regions of interest for quality adjustments
US8442337B2 (en) 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
KR100902491B1 (ko) * 2007-04-27 2009-06-10 금오공과대학교 산학협력단 숫자 영상 처리 시스템 및 그 방법
US8331438B2 (en) 2007-06-05 2012-12-11 Microsoft Corporation Adaptive selection of picture-level quantization parameters for predicted video pictures
KR100886611B1 (ko) * 2007-08-14 2009-03-05 한국전자통신연구원 영상에서 점진적 화소 확장에 의한 선분 추출 방법 및 장치
TW200928999A (en) * 2007-12-28 2009-07-01 Altek Corp Automatic validation method of business card imaging angle
US8300975B2 (en) * 2008-01-30 2012-10-30 Siemens Corporation Piecewise smooth Mumford-Shah on an arbitrary graph
US8189933B2 (en) 2008-03-31 2012-05-29 Microsoft Corporation Classifying and controlling encoding quality for textured, dark smooth and smooth video content
JP2009296039A (ja) * 2008-06-02 2009-12-17 Canon Inc 画像処理装置、画像処理方法ならびにそのプログラムおよび記憶媒体
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
KR101015663B1 (ko) * 2008-06-24 2011-02-22 삼성전자주식회사 문자인식장치에서의 문자인식방법 및 그 장치
US8150191B2 (en) * 2008-10-14 2012-04-03 Interra Systems Inc. Method and system for calculating blur artifacts in videos using user perception threshold
CN101727583B (zh) * 2008-10-22 2013-03-20 富士通株式会社 用于文档图像的自适应二值化方法和设备
US8442348B2 (en) * 2008-11-06 2013-05-14 Seiko Epson Corporation Image noise reduction for digital images using Gaussian blurring
TW201025152A (en) * 2008-12-31 2010-07-01 Icp Electronics Inc Method for fast locating pattern
JP4762321B2 (ja) * 2009-02-24 2011-08-31 株式会社東芝 画像認識装置、画像認識方法
CN101887520B (zh) * 2009-05-12 2013-04-17 华为终端有限公司 一种图像中的文字定位方法和装置
TWI407776B (zh) * 2009-06-30 2013-09-01 Silicon Integrated Sys Corp 影像產生裝置、靜態文字偵測裝置及相關方法
KR101058726B1 (ko) 2009-11-11 2011-08-22 삼성전자주식회사 조명 성분을 제거하기 위한 이미지 보정 장치 및 방법
CN102147922A (zh) * 2011-05-05 2011-08-10 河南工业大学 灰度图像二维Otsu折线阈值分割法
US9158455B2 (en) * 2011-07-12 2015-10-13 Apple Inc. Multifunctional environment for image cropping
CN102890780B (zh) * 2011-07-19 2015-07-22 富士通株式会社 图像处理装置和方法
JP2013029904A (ja) * 2011-07-27 2013-02-07 Sony Corp 画像処理装置および画像処理方法
US8731244B2 (en) * 2011-07-28 2014-05-20 Xerox Corporation Systems and methods for improving image recognition
JP5857567B2 (ja) * 2011-09-15 2016-02-10 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
KR101907414B1 (ko) * 2011-12-13 2018-10-15 삼성전자주식회사 촬영 이미지 기반의 문자 인식 장치 및 방법
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
TWI475213B (zh) * 2012-06-06 2015-03-01 Genereach Biotechnology Corp 螢光檢測方法
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
CN103594060B (zh) * 2012-08-14 2016-12-07 通嘉科技股份有限公司 具有可调式相位延迟与回授电压的电路及其相关的方法
US20140079319A1 (en) * 2012-09-20 2014-03-20 Htc Corporation Methods for enhancing images and apparatuses using the same
KR20140102038A (ko) * 2013-02-13 2014-08-21 삼성전자주식회사 영상 정합 장치 및 영상 정합 방법
KR101400928B1 (ko) 2013-08-06 2014-06-27 동국대학교 산학협력단 히스토그램을 이용한 고속 유사도 측정 방법 및 장치
CN104680165A (zh) * 2013-11-27 2015-06-03 富士通株式会社 从场景图像中自动提取路牌图像的方法和装置
KR102208893B1 (ko) * 2013-12-30 2021-01-28 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 채널 맵 관리 방법
CN103886554B (zh) * 2014-03-12 2016-08-31 哈尔滨工业大学(威海) 自动识别系统中的代码定位方法
KR101595719B1 (ko) * 2014-03-13 2016-02-19 (주)에이텍티앤 신분증인식기의 영상 전처리장치
JP6429072B2 (ja) * 2014-11-13 2018-11-28 セイコーエプソン株式会社 搬送装置及び記録装置
KR101717441B1 (ko) * 2015-06-12 2017-03-17 숭실대학교산학협력단 문자영상 내의 개인정보 보호장치 및 방법
JP6599672B2 (ja) * 2015-07-17 2019-10-30 日本電産サンキョー株式会社 文字切り出し装置、文字認識装置、および文字切り出し方法
US10628736B2 (en) * 2015-09-24 2020-04-21 Huron Technologies International Inc. Systems and methods for barcode annotations for digital images
US10051253B1 (en) 2015-12-18 2018-08-14 Snap Inc. Binarization of a video stream
WO2017187699A1 (ja) * 2016-04-28 2017-11-02 京セラドキュメントソリューションズ株式会社 データ送信システム及びデータ送信方法
JP6805552B2 (ja) * 2016-05-26 2020-12-23 コニカミノルタ株式会社 情報処理装置及びプログラム
JP2018029289A (ja) * 2016-08-18 2018-02-22 ブラザー工業株式会社 画像処理装置および画像処理方法
US11042772B2 (en) 2018-03-29 2021-06-22 Huron Technologies International Inc. Methods of generating an encoded representation of an image and systems of operating thereof
JP2020067959A (ja) * 2018-10-26 2020-04-30 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
EP3877948A4 (en) 2018-11-05 2022-11-23 Huron Technologies International Inc. MEDICAL IMAGE MANAGEMENT SYSTEMS AND METHODS
KR102260620B1 (ko) * 2019-01-31 2021-06-07 충북대학교 산학협력단 도트 그리드를 이용한 이미지 캘리브레이션 시스템 및 이를 이용한 캘리브레이션 방법, 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
CN111080554B (zh) * 2019-12-20 2023-08-04 成都极米科技股份有限公司 一种投影内容中字幕区域增强方法、装置及可读存储介质
CN111583193B (zh) * 2020-04-21 2021-04-23 广州番禺职业技术学院 基于几何轮廓模板匹配的开心果骨架提取装置及其算法
WO2022094732A1 (en) 2020-11-24 2022-05-12 Huron Technologies International Inc. Systems and methods for generating encoded representations for multiple magnifications of image data
CN112488964B (zh) * 2020-12-18 2024-04-16 深圳市镜玩科技有限公司 针对滑动列表的图像处理方法、相关装置、设备及介质
CN114463222B (zh) * 2022-02-21 2022-11-11 广州联合丽拓生物科技有限公司 一种皮内或皮下注射微型针头端的自动定位组装方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02135586A (ja) * 1988-11-16 1990-05-24 Nec Corp 光学式文字読取装置
JPH0581476A (ja) * 1991-09-18 1993-04-02 Nec Corp 文字認識装置
JPH05205104A (ja) * 1992-01-27 1993-08-13 Nec Corp 掠れ文字結合方式
JPH08221512A (ja) * 1995-02-10 1996-08-30 Canon Inc 画像処理装置及びその方法
JP2000348138A (ja) * 1999-06-02 2000-12-15 Pfu Ltd かすれ補正装置、かすれ補正方法および記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04320160A (ja) * 1991-04-19 1992-11-10 Matsushita Electric Ind Co Ltd 画像信号圧縮伸長装置および領域識別処理装置
JPH05210761A (ja) * 1992-01-30 1993-08-20 Omron Corp 文字認識装置
JPH06348902A (ja) * 1993-06-11 1994-12-22 Oki Electric Ind Co Ltd 文字認識装置
JPH07152865A (ja) * 1993-11-30 1995-06-16 Canon Inc 情報認識装置及びその方法
JPH10233693A (ja) * 1996-12-16 1998-09-02 Canon Inc 画像処理方法及び装置並びに記憶媒体
US5949916A (en) * 1997-06-23 1999-09-07 Samsung Electronics Co., Ltd. Modified automatic regressive filter and filtering method therefor
KR100264331B1 (ko) * 1998-05-26 2000-08-16 윤종용 원고 비틀림 보정 장치 및 방법
JP3479601B2 (ja) 1998-08-19 2003-12-15 日本電信電話株式会社 景観画像中文字読み取り方法及び実施装置ならびにその方法を記録した記録媒体
US6266442B1 (en) * 1998-10-23 2001-07-24 Facet Technology Corp. Method and apparatus for identifying objects depicted in a videostream
JP4392907B2 (ja) * 1999-07-30 2010-01-06 株式会社東芝 文字切出し方法
US7181082B2 (en) * 2002-12-18 2007-02-20 Sharp Laboratories Of America, Inc. Blur detection system
KR100943595B1 (ko) * 2003-01-30 2010-02-24 삼성전자주식회사 영상신호의 블러링 판단장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02135586A (ja) * 1988-11-16 1990-05-24 Nec Corp 光学式文字読取装置
JPH0581476A (ja) * 1991-09-18 1993-04-02 Nec Corp 文字認識装置
JPH05205104A (ja) * 1992-01-27 1993-08-13 Nec Corp 掠れ文字結合方式
JPH08221512A (ja) * 1995-02-10 1996-08-30 Canon Inc 画像処理装置及びその方法
JP2000348138A (ja) * 1999-06-02 2000-12-15 Pfu Ltd かすれ補正装置、かすれ補正方法および記録媒体

Also Published As

Publication number Publication date
EP1473658A3 (en) 2007-07-11
US7471830B2 (en) 2008-12-30
CN1536526A (zh) 2004-10-13
EP1473658A2 (en) 2004-11-03
DE602004027325D1 (de) 2010-07-08
EP1473658B1 (en) 2010-05-26
KR100977713B1 (ko) 2010-08-24
JP2004280832A (ja) 2004-10-07
US20040240737A1 (en) 2004-12-02
KR20040081682A (ko) 2004-09-22

Similar Documents

Publication Publication Date Title
CN1324521C (zh) 用于识别图象字符的预处理设备和方法
CN1136516C (zh) 图案抽取装置和方法
CN1269068C (zh) 标题抽取设备及标题抽取方法
CN1254769C (zh) 图像处理方法和装置
CN1213592C (zh) 采用自适应二值化的图象处理方法和设备
CN1156791C (zh) 模式识别设备与方法
CN1505431A (zh) 用于从图象屏识别字符图象的装置和方法
CN1324873C (zh) 边界检测方法、图像处理设备和复印机
CN100347723C (zh) 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法
CN1158854C (zh) 图像处理装置和图像处理方法
CN1178460C (zh) 图象编码方法和图象编码装置
CN1741035A (zh) 印刷体阿拉伯字符集文本切分方法
CN1415103A (zh) 多分辨率标签定位器
CN1207896C (zh) 图象数据的压缩和恢复方法
CN1649384A (zh) 图像处理设备、图像处理程序、及存储介质
CN1225484A (zh) 地址识别设备和方法
CN1406056A (zh) 自动灰度等级补正装置、方法和记录媒体
CN1178461C (zh) 图像编码装置、图像译码装置、传真装置
CN1266643C (zh) 基于阿拉伯字符集的印刷体字符识别方法
CN1304617A (zh) 插值处理装置及记录插值处理程序的记录媒体
CN1684515A (zh) 信息处理设备和方法,记录介质和程序
CN1930868A (zh) 印刷媒体的品质调整系统、检查用水印媒体输出装置、水印品质检查装置、已调整水印媒体输出装置、印刷媒体的品质调整方法以及检查用水印媒体
CN1787599A (zh) 在存储器空间要求的控制下压缩多值图像
CN1612132A (zh) 视线诱导度算出系统、程序及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070704

Termination date: 20210315

CF01 Termination of patent right due to non-payment of annual fee