CN1310183C - 二进制化文字图像的方法 - Google Patents

二进制化文字图像的方法 Download PDF

Info

Publication number
CN1310183C
CN1310183C CNB031463118A CN03146311A CN1310183C CN 1310183 C CN1310183 C CN 1310183C CN B031463118 A CNB031463118 A CN B031463118A CN 03146311 A CN03146311 A CN 03146311A CN 1310183 C CN1310183 C CN 1310183C
Authority
CN
China
Prior art keywords
binarization
binary
character
pixel
gray
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB031463118A
Other languages
English (en)
Other versions
CN1567357A (zh
Inventor
罗希平
李俊
镇立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CNB031463118A priority Critical patent/CN1310183C/zh
Publication of CN1567357A publication Critical patent/CN1567357A/zh
Application granted granted Critical
Publication of CN1310183C publication Critical patent/CN1310183C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

作为光学字符识别(OCR)系统的一部分的一种二进制化灰度文本图像(105)的方法。在灰度图像(105)上进行第一二进制化步骤(S1),来生成第一二进制图像输出(110)。然后,在第一二进制图像输出(110)上进行布局分析步骤(S2),以在第一二进制图像输出(110)上辨别框住个体文本字符(210)的边界,来生成二进制字符区域(205)。在灰度文本图像(105)的二进制字符区域(205)上,进行第二二进制化步骤(S3),来生成第二二进制图像输出(115)。然后,第二二进制图像输出(115)被输入到OCR机器(120)中,完成字符识别过程。

Description

二进制化文字图像的方法
技术领域
本发明涉及光学字符识别(OCR),即把图像数据中的文本字符图像转化成字符代码数据,更具体地说,涉及作为OCR过程的一部分,把图像数据中的灰度文本和背景像素二进制化。
背景技术
OCR可以被定义成把文本图像数据转化为文字处理软件可读的字符代码形式(如ASCII码)的过程。在原始的文本图像数据中,文本字符与其它类型的图像数据(如图片或者线条)一样,是由各个象素组成的。在转化成为字符编码形式之后,不再有文本字符的原始图像。这样,为了把图像转化成为特定字符编码,OCR过程要求每个字符的图像质量都要相当高。很多OCR过程把字符定义成互相连接的点或者象素的独立的集合。如果文本图像质量较低,比如单个字符模糊,或者弄脏了相邻的字符,OCR过程可能无法把字符区分出来对应到它们各自的编码,文本将无法被文字处理软件辨识。
多种原因都可能造成文字图像的质量比较低。例如,由复印机、传真机、打印机和数码相机生成的文本图像,经常由于高背景噪声、低空间分辨率、或者照明变化而导致质量低。这样的图像通常是单色的,或者是灰度图像,其中为每个个体像素分配一个灰度或者亮度等级,范围从全黑到全白。
一种常见的灰度格式是八比特灰度图像。在这种格式中,赋值为0的像素是全黑的,赋值为255的像素是全白的。中等灰色的像素则被赋予0和255中间的某个值,比如110。
OCR初步处理过程通常需要把灰度文本图像二进制化,这样,图像中的每个像素或者被当作文本字符的一部分,或者被当作页面背景的一部分。例如,如果一个特定的像素要形成文本字符的一部分,则给它赋低亮度值零(0)来代表黑色。不是个体文本字符的一部分,而是背景页面一部分的其他像素,则赋予高亮度值壹(1)。
当二进制化一幅低质量灰度文本图像时,OCR的二进制化过程可能会产生错误像素。错误像素就是:或者,比如作为文本符号前景的图像,应当取低亮度,如值零(0),但是却在图像中被当作背景的一部分而取了高亮度,如值壹(1);或者相反。
OCR初步二进制化过程通常通过设定阈值值来决定什么灰度像素值应当被当作文本,以及什么应当被当作背景。例如,取值低于阈值的灰度像素都被赋予二进制值零(0),取值高于阈值的灰度像素都被赋予二进制值壹(1)。
上述技术的一个问题在于,经常由于低信躁比(SNR)或者文本和背景像素之间的低对比度而导致低质量的灰度图像。因此,在应当被二进制化为背景的灰度像素值和应当被二进制化为文本前景的灰度像素值之间,可能只有一个非常小的差别。例如,一页文本的8比特灰度图像可能包括一些值为50的像素,它们很可能应当被二进制化为背景;以及值为45的相邻像素,它们应当被二进制化为文本前景。五个点的差别表示灰色的深浅仅仅发生了很小的改变。此外,当生成原始的灰度图像时,文本页面的照明不同,可能导致同一文本页面的另一个区域包括值为45而应当被二进制化为背景的像素,它的相邻像素值为40,应当被二进制化为文本前景。换言之,同样的灰度值可能在页面的一个区域代表背景,而在同样页面的另一个区域代表文本前景。
因此,已经开发出这样的技术,它能适应性地计算设定的阈值,使其根据页面上被二进制化的区域而发生改变。可以任意规定这些区域,比如通过在页面上应用栅格图案;或者,也可以根据迭代二进制分析来求出页面上文本行或者文本块的位置,从而确定区域。在迭代二进制分析过程中,使用了采用改进阈值的第二二进制化过程,来清除实际文本字符边缘附近的错误像素。这样,在最终的OCR处理步骤中,二进制化的文本字符输出更有可能被准确地识别。
通常,如果被分析的文本区域与页面上单个文本字符所在区域的范围很一致,迭代二进制化过程会产生更好的OCR结果。再次二进制化个体字符使得OCR机器更有可能正确地识别字符。现有的识别文本块或者任意确定栅格的技术框起字符组或者个体字符片断。因此,需要改进的迭代二进制化方法,更准确地框起可能包括被错误二进制化的像素的个体字符区域。
发明内容
在本发明的方法中,作为光学字符识别(OCR)系统的一部分,在灰度图像上进行第一二进制化步骤,来生成第一二进制图像输出。然后,在第一二进制图像输出上进行布局分析步骤,来识别第一二进制图像输出上框起个体文本字符的边界,以生成二进制字符区域。接下去,在灰度文本图像的二进制字符区域上进行第二二进制化步骤,来生成第二二进制图像输出,其中该第二二进制化步骤计算局部化阈值,以补偿灰度图象中局部化的信噪比和局部化的亮度差别。然后,第二二进制图像输出被输入到OCR机器中,来完成文字识别过程。
附图说明
通过下面对照附图的详细说明,本发明的其它方面会更加清晰。附图中,
图1是一个一般化的流程图,说明本发明的一个实施例;
图2示是根据本发明的一个实施例的布局分析步骤的结果,并示出了由框起个体文本字符的矩形框所确定的二进制化字符区域;
图3A是可能出现在文本字符边缘的被错误二进制化的像素的例子,这种错误二进制化的像素可能是由于非理想条件而引起的,例如在生成灰度文本图像时原始文件不均匀的照明;
图3B示出了附图3A中被正确辨识的字符,包括根据本发明的一个实施例,由框住的体文本字符的矩形框所确定的二进制字符区域;
图4是一个栅格,说明了根据本发明的一个实施例,待估计并二进制化的目标像素周围被编号的相邻像素。
具体实施方式
参照附图,其中,相同参考字符表示相同或者相应的元素。图1是一个一般化的流程图,说明了本发明的一个实施例。灰度文本图像105在一第一二进制化步骤(S1)中被二进制化,以生成一第一二进制文本图像110。接着,在第一二进制文本图像110上进行布局分析步骤(S2)。在图2中,给出了布局分析步骤(S2)的结果的例子,它包括二进制字符区域205,该区域是由框起从第一二进制图像110中辨识出来的个体文本字符210的矩形框所确定的。再次参见图1,二进制字符区域205的坐标被提供给一第二二进制化步骤(S3),从而用来辨别原始灰度图像105的什么区域要被二进制化。第二二进制化步骤(S3)在原始灰度文本图像105上进行。然而,在第二二进制化步骤(S3)中,只有二进制字符区域205被二进制化。接着,第二二进制化步骤生成第二二进制文本图像115,输入到OCR机器120中,来完成文字识别过程。
在本发明的一个实施例中,灰度文本图像105可能从各种类型的设备中获得,比如数字复印机、传真机、打印机,或者数码相机。如本领域的技术人员所知,第一二进制化步骤(S1)通常利用一个或多个标准阈值技术,来二进制化整个灰度文本图像105。第一二进制化步骤(S1)的输出是第一二进制图像110,它可能包括一些错误。
如图3A所示,原始文件在生成灰度文本图像105时不均匀的照明等非理想化的条件,可能导致一些被错误二进制化的像素305出现在第一二进制图像110中。由于低信噪比(SNR),以及用来在灰度文本图像105中区分背景像素和文本像素的阈值技术,错误二进制化的像素305经常出现在个体文本字符210的边缘附近。不幸的是,正是在个体文本字符210的边缘附近,错误二进制化的像素305造成了OCR机器120在试图准确识别文本字符210过程中的绝大部分问题。例如,在图3A中,在字母“c”和“e”之间的错误二进制化的像素可能导致OCR机器120错误地把这两个字母当作一个字母“W”。类似地,图3A中字母“c”里面的两个错误二进制化的像素305可能导致OCR机器120错误地把字母“c”当成字母“o”。
本发明的布局分析步骤(S2)有助于更正出现在文本字符210边缘的被错误二进制化的像素305。它通过辨识由框住单个文本字符210的矩形框所确定的二进制字符区域205来完成这项任务。如本领域的技术人员所知,可以通过标准文本配准和分段技术,比如垂直和水平直方图整形法,来辨识区域205。通常,布局分析步骤(S2)涉及几个操作,包括判断倾斜、将图片与文本分离,以及将辨认出的文本划分成栏、行、词和字。文本的划分通过一个通常称为分段的过程来完成,这个过程在G.Nagy的thefrontiers of OCR,Proceedings of the IEEE,80(7):1093-1100,1992年7月中进行了描述。
布局分析步骤(S2)也可包括使用后处理技术,例如消除噪声,以在识别特定的二进制字符区域205之前,提高第一二进制图像110的质量。
在第二二进制化步骤(S3)中,在布局分析步骤(S2)中辨别出来的二进制字符区域205的位置被传送到原始灰度图像105。之后,第二二进制化步骤(S3)仅需要对原始灰度图像105中的字符区域205进行再次二进制化,而并不需要再次二进制化整个灰度图像105。因此,由于需要二进制化的像素少了,第二二进制化步骤(S3)的二进制化速度通常要比第一二进制化步骤(S1)的速度快。
第二二进制化步骤(S3)能够比第一二进制化步骤(S1)更加准确地辨识出像素是文本还是背景像素,因为可以计算局部化的阈值,来补偿灰度图像105中局部化的信噪比和局部化的亮度差别。例如,可以计算出或者预置两个局部化的阈值t1和t2,其中t1小于t2。例如,如果一个二进制字符区域205(通常称为一块瓦片)的大小是宽为三列、高为四行,那么就形成了一个12像素的阵列AP。根据这个像素阵列AP,考虑一种情况,其中每个像素的灰度值如下:
最上一行从左至右:200,150,150;
第二行从左至右:200,150,150;
第三行从左至右:200,150,150;
最下面一行从左至右:220,220,220。
根据像素阵列AP,像素阵列AP的所有像素的灰度值的平均值计算如下:
Mean = Σ i = 1 12 x i / 12
= ( 200 + 150 + 150 + 200 + 150 + 150 + 200 + 150 + 150 + 220 + 220 + 220 ) / 12
= 180
其中,xi是像素的灰度值。
同时,瓦片内所有像素的灰度值的方差可以如下计算:
Var = Σ i = 1 12 ( x i - mean ) 2 12
= ( 200 - 180 ) 2 + … … + ( 220 - 180 ) 2 12
= 31
这样,我们可以设t1=Mean-Var*B;其中B是一个参数,其值通过实验确定,且已经发现的一个B的适当取值为0.2。因此,取最接近的整数值,那么:
t1=Mean-Var*0.2=174
t2=Mean=180
然后,这两个阈值t1和t2就可以用于一个或多个二进制字符区域205。如果字符区域205之内的像素灰度值大于t2,该像素可被赋二进制值壹(1),来表示它是一个背景像素。如果字符区域205之内的像素灰度值小于t1,该像素可被赋二进制值零(0),来表示它是一个前景像素。否则,如果像素的灰度值在t1和t2之间,那么该像素被认为是低信噪比像素,可能代表背景或者文本像素,这时会使用一个特别的像素识别算法。
图4是根据本发明方法的一个栅格,说明了围绕着有待估计并二进制化的目标像素405的有编号的相邻像素410。可被用在本发明中的像素识别算法的一个例子(与上面描述的12像素阵列AP相似)是一种求出在四个方向上围绕着目标像素405的相邻像素410的灰度值的算法。计算像素410在四个方向i(i=0,1,2,3)中的每一个上面的灰度值的均值。然后,从四个灰度值均值之中确定最大灰度值均值iMax,以及最小灰度值均值iMin。如果目标像素405的灰度值更接近iMax而不是iMin,那么目标像素405会被赋值壹(1),代表背景像素。反之,如果目标像素405的灰度值更接近iMin而不是iMax,那么目标像素405会被赋值零(0),代表文本像素。
根据特殊系统的需要,在本发明的范围内也可以使用其它类型的特殊像素识别算法。例如,可以求出位于围绕着目标像素405并以之为中心的矩形的边缘上的相邻像素的灰度值,来确定目标像素应当作为背景还是前景文本。
如图3B所示,本发明的方法被用来从第一二进制化步骤(S1)中有效地清除被错误二进制化的像素305,以对文本字符210进行更加精确的再现。再次参照图3A,在两个字母“c”和“e”之间被错误二进制化的像素305可能导致布局分析步骤(S2)认为两个字母被包围在一个矩形二进制文本区域205中。然而,在第二二进制化步骤(S3)中执行的特殊像素识别算法可以正确地识别出在两个字母“c”和“e”之间的错误二进制化像素是背景的一部分,并重新为其赋值壹(1)。当第二二进制图像115被提交给OCR机器120时,OCR机器能够正确地把这两个字母分到两个独立的二进制区域205中,如附图3B所示,并且接下去识别两个独立字母“c”和“e”。
本发明的方法提出了通过使用局部化的第二二进制化步骤(S3)来二进制化文本图像,可能仅需要对灰度图像105中特定的二进制字符区域205进行再次二进制化。第二二进制化步骤(S3)可以更加准确地辨识出像素是文本还是背景像素,因为可以计算局部化的阈值值,来补偿在灰度图像105中的局部化的信噪比和局部化的亮度差别。因此,得到的第二二进制图像115比只通过一次二进制化步骤而产生的二进制图像包含更少的错误二进制化像素305。更少的错误二进制化像素305意味着最终的OCR过程会更加准确地识别原始文本中的字符和单词。应当理解的是,上述说明旨在举例说明,而不是加以限制。尽管已经参考附图通过优选实施例对本发明进行了充分地阐述,但是应当注意,对本领域的技术人员来说,显而易见可以有无数的改变和修正。这些改变和修正应当被认为是包括在所附权利要求所限定的本发明的范围之内的。

Claims (4)

1.在光学字符识别系统中,一种二进制化灰度文本图像的方法包括以下步骤:
在灰度图像上进行第一二进制化步骤,以生成第一二进制图像输出;
在所述第一二进制图像输出上进行布局分析步骤,其在所述第一二进制图像输出中辨识框住个体文本字符的矩形框,来生成二进制字符区域;
在所述灰度图像的所述二进制字符区域上进行第二二进制化步骤,来生成第二二进制图像输出,其中,所述第二二进制化步骤计算两个局部化阈值,其中局部化阈值用于补偿所述灰度图象中局部化的信噪比和局部化的亮度差别;
把所述第二二进制图像输出输入到光学字符识别机器中。
2.根据权利要求1的方法,其中所述的进行第二二进制化的步骤,仅仅对所述第一二进制图像输出上所述的框起所述个体文本字符的二进制字符区域进行再次二进制化,而不对所述灰度图像的其它区域进行再次二进制化。
3.根据权利要求1的方法,其中所述的计算局部化阈值以补偿所述灰度图像中局部化的信噪比和局部化的亮度差别的步骤包括使用特殊的像素识别算法,其在多个方向上求出围绕着目标像素的相邻像素的灰度值。
4.根据权利要求3的方法,其中所述的特殊像素识别算法在四个方向上求出围绕着目标像素的相邻像素的灰度值。
CNB031463118A 2003-07-08 2003-07-08 二进制化文字图像的方法 Expired - Lifetime CN1310183C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB031463118A CN1310183C (zh) 2003-07-08 2003-07-08 二进制化文字图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031463118A CN1310183C (zh) 2003-07-08 2003-07-08 二进制化文字图像的方法

Publications (2)

Publication Number Publication Date
CN1567357A CN1567357A (zh) 2005-01-19
CN1310183C true CN1310183C (zh) 2007-04-11

Family

ID=34471662

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031463118A Expired - Lifetime CN1310183C (zh) 2003-07-08 2003-07-08 二进制化文字图像的方法

Country Status (1)

Country Link
CN (1) CN1310183C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7492974B2 (en) * 2005-08-18 2009-02-17 International Business Machines Corporation Gray scale image cleaning system and method
CN100440250C (zh) * 2007-03-09 2008-12-03 清华大学 印刷体蒙古文字符识别方法
CN110363117B (zh) * 2019-06-28 2023-07-28 深圳数位大数据科技有限公司 一种对加密后的随机编码字符文件进行解析的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438265B1 (en) * 1998-05-28 2002-08-20 International Business Machines Corp. Method of binarization in an optical character recognition system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438265B1 (en) * 1998-05-28 2002-08-20 International Business Machines Corp. Method of binarization in an optical character recognition system

Also Published As

Publication number Publication date
CN1567357A (zh) 2005-01-19

Similar Documents

Publication Publication Date Title
US5546474A (en) Detection of photo regions in digital images
US7346211B2 (en) Image type classification using color discreteness features
KR101403876B1 (ko) 차량 번호판 인식 방법과 그 장치
US6985628B2 (en) Image type classification using edge features
WO2019162970A1 (en) A system for real-time automated segmentation and recognition of vehicle's license plates characters from vehicle's image and a method thereof.
CN1568479A (zh) 用于辨别图像不同区域的方法和装置
CN113888536B (zh) 一种基于计算机视觉的印刷品重影检测方法及系统
CN1720550A (zh) 从分割图像中去除伪边缘的方法和设备
CN1755707A (zh) 一种倾斜图像自动校正方法
CN110324617B (zh) 图像处理方法及装置
US7145694B2 (en) Image processing apparatus and method
CN107545259A (zh) 一种基于大津法的二维码重构方法
CN112215781B (zh) 一种改进的局部二值化方法
CN1310183C (zh) 二进制化文字图像的方法
CN1296865C (zh) 单色文字增强方法
KR100295360B1 (ko) 쉐이딩알고리즘을이용한영상처리방법
CN1519769A (zh) 用于扩展在图象中的字符区域的设备及方法
CN111914847B (zh) 一种基于模板匹配的ocr识别方法及其系统
KR101707625B1 (ko) 영상데이터를 이용한 패턴정보 추출방법
JPH09305707A (ja) 画像抽出方式
CN117423098A (zh) 一种车牌识别字符分割精确定位新方法
KR100683360B1 (ko) 영상 이진화 방법
KR100246440B1 (ko) 셔틀스캐닝기반화상시스템의국부이치화방법.
KR100537829B1 (ko) 스캔 영상의 상역 분리 방법
JPS63131281A (ja) ナンバ−プレ−ト自動認識装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110110

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS, USA TO: ILLINOIS STATE, USA

TR01 Transfer of patent right

Effective date of registration: 20110110

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160304

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term

Granted publication date: 20070411

CX01 Expiry of patent term