CN103530625A

CN103530625A - 一种基于数字图像处理的光学字符识别方法

Info

Publication number: CN103530625A
Application number: CN201310517718.3A
Authority: CN
Inventors: 龙晓春; 杨爱民
Original assignee: Beijing Jinher Software Co Ltd
Current assignee: Beijing Jinher Software Co Ltd
Priority date: 2013-10-28
Filing date: 2013-10-28
Publication date: 2014-01-22

Abstract

本发明公开了一种基于数字图像处理的光学字符识别方法，包括以下步骤：步骤一、对原始彩色数字图像进行灰度化处理，得到灰度图像；步骤二、对所述灰度图像进行二值化处理，得到二值化图像；步骤三、判断所述二值化图像的大小是否超出图像大小阈值，如果是，则对所述二值化图像的大小进行调整，得到待识别图像，否则将二值化图像作为待识别图像；步骤四、对所述待识别图像进行光学字符识别，得到所述待识别图像中的文本信息。本发明对原始彩色数字图像进行分析处理，但并未影响原始彩色数字图像本身的质量，大大提高了OCR识别的识别速度和识别率。

Description

一种基于数字图像处理的光学字符识别方法

技术领域

本发明涉及一种光学字符识别方法，尤其涉及一种基于数字图像处理的光学字符识别方法。

背景技术

数字图像是生产生活各领域视觉信息的主要媒介，OCR技术是从数字图像的一个重要应用方面。OCR(Optical Character Recognition，光学字符识别)技术是通过检测图像像素灰度值、分析像素点分布构成的形状计算得出计算机识别的字符的过程，节省人力且避免手工输入带来的疏漏，更准确真实的还原图像中的文字信息。近些年，信息自动化、办公自动化以及硬件设备的发展给OCR技术的进步带来了机会和挑战。

影响OCR技术发展的因素很多，而数字图像本身的质量问题则是其中主要的原因。衡量OCR技术的标准主要包括：字符识别率、拒识率、识别速度等。数字图像形成过程中的光照及噪音等因素影响、扫描仪或照相机等电子设备本身(图像分辨率、图像大小等)的性能因素以及图像制作人技术的能力，可能造成图像曝光过度、曝光不足、分辨率过低、图像过大或过小、图像文字不完整等问题。因此，造成图像OCR识别速度慢、识别率低。

发明内容

针对上述技术问题，本发明提供一种基于数字图像处理的光学字符识别方法，本方法在OCR识别之前，先对原始彩色数字图像进行分析、加工和处理，大大提高了图像OCR的识别速度和识别率。

本发明提供的技术方案为：

一种基于数字图像处理的光学字符识别方法，包括以下步骤：

步骤一、对原始彩色数字图像进行灰度化处理，得到灰度图像；

步骤二、对所述灰度图像进行二值化处理，得到二值化图像；

步骤三、判断所述二值化图像的大小是否超出图像大小范围，如果是，则对所述二值化图像的大小进行调整，得到待识别图像，否则将二值化图像作为待识别图像；

步骤四、对所述待识别图像进行光学字符识别，得到所述待识别图像中的文本信息。

优选的是，所述的基于数字图像处理的光学字符识别方法中，所述步骤一中，对原始彩色数字图像进行灰度化处理，得到灰度图像，具体通过以下过程实现：

逐个处理所述原始彩色数字图像中所有的像素点，从而得到灰度图像，其中，对于所述原始彩色数字图像中的任一个像素点，先计算该像素点的灰度值Gray(i，j)，再将灰度值Gray(i，j)赋予该像素点的R分量、G分量和B分量，灰度值的计算公式为：Gray(i，j)=0.299×R(i，j)+0.587×G(i，j)+0.114×B(i，j)，其中，R(i，j)、G(i，j)和B(i，j)分别代表所述原始彩色数字图像中一个像素点(i，j)的R分量值、G分量值和B分量值，(i，j)代表一个像素点在所述原始彩色数字图像中的坐标。

优选的是，所述的基于数字图像处理的光学字符识别方法中，所述步骤二中，对所述灰度图像进行二值化处理，得到二值化图像，具体通过以下过程实现：

利用OTSU算法获取所述灰度图像的二值化阈值，逐个比较所述灰度图像中的所有的像素点的灰度值与二值化阈值，如一个像素点的灰度值大于二值化阈值，则为该像素点赋值255，否则为该像素点赋值0。

优选的是，所述的基于数字图像处理的光学字符识别方法中，所述步骤三中，对所述二值化图像的大小进行调整，得到待识别图像，具体通过以下过程实现：

依据所述原始彩色数字图像的高宽比例，等比例缩小所述二值化图像，从而得到待识别图像。

优选的是，所述的基于数字图像处理的光学字符识别方法中，所述步骤四中，对所述待识别图像进行光学字符识别，得到所述待识别图像中的文本信息，具体通过以下过程实现：

先判断所述待识别图像中字符语言类别，根据所判断出的字符语言类别，利用微软MODI进行光学字符识别，得到待识别图像中的文本信息。

优选的是，所述的基于数字图像处理的光学字符识别方法中，所述步骤四之后，还包括步骤五：

对所述文本信息进行处理，使所述文本信息保持原始彩色数字图像的版面样式。

本发明所述的光学字符识别方法首先对原始彩色数字图像依次进行灰度化、二值化以及图像大小的调整，之后再对得到的待识别图像进行光学字符识别，从待识别图像中获取文本信息。本发明对原始彩色数字图像进行分析处理，但并未影响原始彩色数字图像本身的质量，大大提高了OCR识别的识别速度和识别率。

附图说明

图1为本发明所述的基于数字图像处理的光学字符识别方法的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供一种基于数字图像处理的光学字符识别方法，包括以下步骤：

本发明主要可以分为两个部分：处理原始彩色数字图像(步骤一至步骤三)以及OCR识别(步骤四)。具体来说：

(1)处理原始彩色数字图像步骤：

原始彩色数字图像的各像素点可由三个字节表示，其数值分别对应着R、G、B三个分量，其中任何一个分量值与其他分量值不同均表现为彩色图像，通过计算将彩色图像三个分量值修改为相同值，就可以得到与之对应的灰度图像。本发明采用准确度最高的灰度化算法：Gray(i，j)=0.299×R(i，j)+0.587×G(i，j)+0.114×B(i，j)来处理输入原始图像，得到新的灰度图像。

即步骤一中，对原始彩色数字图像进行灰度化处理，得到灰度图像，具体通过以下过程实现：逐个处理所述原始彩色数字图像中所有的像素点，从而得到灰度图像，其中，对于所述原始彩色数字图像中的任一个像素点，先计算该像素点的灰度值Gray(i，j)，再将灰度值Gray(i，j)赋予该像素点的R分量、G分量和B分量，灰度值的计算公式为：Gray(i，j)=0.299×R(i，j)+0.587×G(i，j)+0.114×B(i，j)，其中，R(i，j)、G(i，j)和B(i，j)分别代表所述原始彩色数字图像中一个像素点(i，j)的R分量值、G分量值和B分量值，(i，j)代表一个像素点在所述原始彩色数字图像中的坐标。

确定二值化阈值是二值化处理中最首要最关键的部分，本发明使用OTSU算法自动获取灰度图像的二值化阈值。OTSU算法是首先设定一个值，从而将灰度图像分为背景与目标两个类别，计算两类的方差数，在类内最小方差数而类间最大方差数对应的值即为灰度图像的最优阈值。

灰度图像二值化处理过程中，二值化是指以阈值为标志，将灰度图像的各像素点二值化处理，最终使图像呈现黑白两色(颜色值表示为：0或255)，使图像轮廓对比更清晰，线条更明显，从而字符形状更突出，达到更好的OCR识别效果。

具体来说，所述步骤二中，对所述灰度图像进行二值化处理，得到二值化图像，具体通过以下过程实现：利用OTSU算法获取所述灰度图像的二值化阈值，逐个比较所述灰度图像中的所有的像素点的灰度值与二值化阈值，如一个像素点的灰度值大于二值化阈值，则为该像素点赋值255，否则为该像素点赋值0。

原始彩色数字图像以字节表示大小，而原始彩色数字图像过大会影响OCR识别速度以及识别率。因此，在所述步骤三中，判断所述二值化图像的大小是否超出图像大小范围，如果是，则保持原始彩色数字图像高宽比例，等比例缩小二值化图像，从而得到大小适度的待识别图像，否则将二值化图像作为待识别图像。在一个优选的实施方式中，所述图像大小范围即像素(Height高与Width宽)控制在(100*100至2000*2000)范围内。此范围值大小为最适合MODI技术识别区域，对识别图像大小判定做等比例缩小或放大得到大小合适的图像。

(2)OCR识别步骤：

在一种实施方式中，所述步骤四中，对所述待识别图像进行光学字符识别，得到所述待识别图像中的文本信息，具体通过以下过程实现：先判断所述待识别图像中字符语言类别，根据所判断出的字符语言类别，利用微软MODI进行光学字符识别，得到待识别图像中的文本信息。

具体来说，针对上述字符语言类别参数判定，所输入的原始彩色数字图像对象应包含字符语言类别参数，如中文、英文、日文等。针对不同来源的原始彩色数字图像，微软MODI的枚举类MiLANGUAGES提供了21类语言，能准确识别出不同语言文本信息。本发明还可以选择其他的OCR识别工具，都可以取得提高识别率和识别速度的效果。

之后由微软MODI进行OCR识别，使用MODI.Document实例的Create方法，取出文档实例的Images[0]赋值给MODI.Image实例，再用图像实例的OCR方法识别字符信息，获取图像对象的Layout实例并判定其字符数NumChars属性，若不为0，则取其Text属性即为OCR识别出的文本信息。

在更为优选的一种实施方式中，在所述步骤四之后还包括步骤五，还对所述文本信息进行处理，使所述文本信息保持原始彩色数字图像的版面样式。即上述OCR识别过程中，字符串返回，处理得到的Text文本信息，使其保持原始彩色数字图像的版面样式，即分段、换行等不能错乱。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于数字图像处理的光学字符识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于数字图像处理的光学字符识别方法，其特征在于，所述步骤一中，对原始彩色数字图像进行灰度化处理，得到灰度图像，具体通过以下过程实现：

3.如权利要求1所述的基于数字图像处理的光学字符识别方法，其特征在于，所述步骤二中，对所述灰度图像进行二值化处理，得到二值化图像，具体通过以下过程实现：

4.如权利要求1所述的基于数字图像处理的光学字符识别方法，其特征在于，所述步骤三中，对所述二值化图像的大小进行调整，得到待识别图像，具体通过以下过程实现：

依据所述原始彩色数字图像的高宽比例，等比例缩小或放大所述二值化图像，从而得到待识别图像。

5.如权利要求1至4中任一项所述的基于数字图像处理的光学字符识别方法，其特征在于，所述步骤四中，对所述待识别图像进行光学字符识别，得到所述待识别图像中的文本信息，具体通过以下过程实现：

6.如权利要求5所述的基于数字图像处理的光学字符识别方法，其特征在于，所述步骤四之后，还包括步骤五：