CN107609558A

CN107609558A - 文字图像处理方法及装置

Info

Publication number: CN107609558A
Application number: CN201710823748.5A
Authority: CN
Inventors: 奚智
Original assignee: Beijing Yuanxin Science and Technology Co Ltd
Current assignee: Beijing Yuanxin Science and Technology Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-01-19

Abstract

本申请公开了文字图像处理方法及装置，其中所述方法包括：将文字图像的灰度图像均匀划分为多个矩形网格部分；针对每一网格部分，计算直方图并对直方图进行均衡化处理；通过相邻网格部分直方图的插值对整个图像进行均衡化处理，得到均衡化的图像。本发明方法及装置能提高文字图像的质量，使容易更准确地得到图像中的文字的轮廓，有利于提高文字识别的准确率和速度。

Description

文字图像处理方法及装置

技术领域

本申请涉及印刷或书写字符识别领域，尤其涉及文字图像处理方法及装置。

背景技术

随着数码相机、摄像头、扫描仪等图像获取设备的广泛使用，图像中信息越来越引起人们的关注，图像渐渐成为信息交流的主体。光学字符识别(OCR)技术应运而生，通过这种技术，设备可以将图像中的文字信息识别出来。

在现有技术中，图像二值化(或寻找阈值)通常是OCR系统的第一步，它将灰度图像转换成分别表示文本和背景的二元形式，OCR的识别率主要基于二值图像的质量。然而，对于对比度差或复杂背景的文本图像来说，很难找到适当的阈值将文本与背景分开。虽然在过去多年已经提出了多种阈值选择方法，但其质量仍然限制了OCR的性能，无法进行自适应调节，导致现有的图像文字识别方法精度较低，无法满足实际应用的需求。

针对文字图像的边缘提取技术有基于数学形态学、基于变换域和基于梯度算子等的方法。其中基于梯度算子的方法，如Canny算子、Sobel算子，边缘提取较连贯，细节保留好，但受文字图像质量影响，提取的边缘常常包含伪边缘。

发明内容

为了克服现有技术中存在的不足，本发明要解决的技术问题是提供一种文字图像处理方法及装置，其能够提高文字图像的质量，进而提高文字识别的准确率和识别速度。

为解决上述技术问题，本发明的文字图像处理方法，包括：

将文字图像的灰度图像均匀划分为多个矩形网格部分；

针对每一网格部分，计算直方图并对直方图进行均衡化处理；

通过相邻网格部分直方图的插值对整个图像进行均衡化处理，得到均衡化的图像。

作为本发明所述方法的改进，针对每一网格部分，还进行下述处理：确定基于直方图的二值化阈值；根据直方图和二值化阈值，确定网格最大阈值和网格最小阈值；及所述方法还包括：结合相邻网格部分的网格最大阈值和网格最小阈值，通过插值得到每个像素所在点的像素最大阈值和像素最小阈值；判断均衡化的图像的每一像素的灰度值是否在相应的像素最大阈值和像素最小阈值之间，如果是则使灰度值等于255，如果否则使灰度值等于0，得到初步二值化图像；根据初步二值化图像的连通域在均衡化的图像上对应的像素进行边缘检测，得到标记文字轮廓连通域的二值化图像。

作为本发明所述方法的另一种改进，针对每一网格部分，还进行下述处理：

计算直方图的各像素的灰度值与确定的二值化阈值之间的绝对平均差；

响应于所述绝对平均差小于预定阈值，从邻近网格部分的二值化阈值插值得到该网格部分的计算的二值化阈值；

将计算的二值化阈值用于确定网格最大阈值和网格最小阈值。

作为本发明所述方法的又一种改进，所述方法还包括：对所述初步二值化图像进行边缘噪声清理和/或孤立点消除。

作为本发明所述方法的再一种改进，所述方法还包括：对标记文字轮廓连通域的二值化图像进行过滤和膨胀处理，得到文字区域；对均衡化的图像的文字区域进行二值化处理，得到二值化的文字图像；对所述文字图像进行噪声过滤；将所述文字图像分割成多个单个字符的图像。

作为本发明所述方法的另一种改进，所述方法还包括：对文字图像进行校正预处理和/或去噪声预处理。

为解决上述技术问题，本发明的文字图像处理装置，包括：

划分模块，用于将文字图像的灰度图像均匀划分为多个矩形网格部分；

网格处理模块，用于针对每一网格部分，计算直方图并对直方图进行均衡化处理；

整体均衡化模块，用于通过相邻网格部分直方图的插值对整个图像进行均衡化处理，得到均衡化的图像。

作为本发明所述装置的改进，所述网格处理模块还用于针对每一网格部分进行下述处理：确定基于直方图的二值化阈值；根据直方图和二值化阈值，确定网格最大阈值和网格最小阈值；所述装置还包括：像素阈值计算模块，用于结合相邻网格部分的网格最大阈值和网格最小阈值，通过插值得到每个像素所在点的像素最大阈值和像素最小阈值；初步二值化图像生成模块，用于判断均衡化的图像的每一像素的灰度值是否在相应的像素最大阈值和像素最小阈值之间，如果是则使灰度值等于255，如果否则使灰度值等于0，得到初步二值化图像；边缘检测模块，用于根据初步二值化图像的连通域在均衡化的图像上对应的像素进行边缘检测，得到标记文字轮廓连通域的二值化图像。

作为本发明所述装置的另一种改进，所述网格处理模块还用于针对每一网格部分进行下述处理：

作为本发明所述装置的又一种改进，所述装置还包括：膨胀模块，用于对标记文字轮廓连通域的二值化图像进行过滤和膨胀处理，得到文字区域；文字区域处理模块，用于对均衡化的图像的文字区域进行二值化处理，得到二值化的文字图像；过滤模块，用于对所述文字图像进行噪声过滤；分割模块，用于将所述文字图像分割成多个单个字符的图像。

为解决上述技术问题，本发明的有形计算机可读介质，包括用于执行本发明的文字图像处理方法的计算机程序代码。

为解决上述技术问题，本发明提供一种装置，包括至少一个处理器；及至少一个存储器，含有计算机程序代码，所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理器使得所述装置执行本发明的文字图像处理方法的至少部分步骤。

按照本发明，通过把灰度图像均匀划分成M行x N列等分矩形网格并对每一网格计算直方图及均衡化，可保持图像的局部特征，然后对整个图像进行均衡化，可得到对比度增强的均衡化的图像，实现了输入图像的动态自适应直方图均衡化处理。此外，通过得到基于直方图的二值化动态阈值，和高低两个像素动态阈值，通过高低两个像素阈值能够筛选出文字图像中的文字边缘区域，然后对边缘区域进行基于边缘的文字检测，实现文字区域的快速定位，从而可提高文字识别的准确率和速度。

结合附图阅读本发明实施方式的详细描述后，本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图。

图2为根据本发明方法的另一实施例的流程图。

图3为根据本发明装置的一实施例的结构示意图。

图4为根据本发明系统的另一实施例的结构示意图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

图1示出了根据本发明的文字图像处理方法的一实施例的流程图。

在本说明书中，术语“文字图像”是指包含或可能包含文字的图像。

在步骤S102，对获取的待识别文字图像进行预处理。例如根据需要对图像进行倾斜校正以校正图像。目前倾斜校正的算法比较成熟，这里可以采用基于Hough变换的方法，求解出图像的仿射矩阵，对图像进行仿射变换。另外，可使用高斯滤波去图像的噪声。

在步骤S104，将预处理后的图像转换为灰度图像，得到图像的亮度信息。目前彩色图像转灰度图像的算法比较成熟，这里可以用公式：亮度值(灰度)L＝0.30×R值+0.59×G值+0.11×B值进行转换。

在步骤S106，把灰度图像均匀划分成M行×N列等分矩形网格，以保持图像的局部特征。M和N为大于或等于2的整数。网格划分主要是为了保留文字图像的局部特征，网格太小计算量增大，细节更明显；网格太大计算量减少，细节更模糊(网格最大就是全局只要一个网格)。网格的划分可以根据其所包含的像素的个数来均匀划分(例如一个网格包含100个像素)；也可以根据文字图像的版面来划分，如果有大致的区域范围可以根据大致的区域范围来划分；也可以根据实验来得到一个最佳值。通常根据固定的尺寸来均匀划分网格。

在步骤S108，针对每一网格部分，计算直方图并对直方图进行均衡化或归一化处理，以增强图像的对比度。直方图反映图像像素分布的统计表。直方图均衡化是指把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布，将灰度进行映射，例如都均匀拉伸分布到0-255区间。例如，图像整体偏亮，灰度可能只是分布在128-255之间，均衡化就可以将128灰度映射到0，将图像灰度重新映射到0-255区间。

在步骤S110，结合各个局部的各网格部分的直方图，通过相邻网格部分直方图的插值对图像整体进行均衡化处理，得到均衡化的即对比度增强的图像A。每一局部可包括多个网格部分，如4×4个网格部分。由于原始图像分成M×N个部分，先前对每一部分都做直方图均衡，就有M×N个灰度映射表，原始图像的像素灰度根据相邻的部分的灰度映射表进行插值得到新的灰度值，从而得到对比度增强的图像A。插值算法比较成熟，一般有1)最近相邻插值法，其只取最近的值作为插值。优点是运算少(由于只比较距离的远近)、快。缺点是考虑的参考点少，没有考虑其他邻近的(采样)点，图像不连续。2)二次线性插值法，其考虑上下左右4个(采样)点，进行2次插值得到插值。优点是克服了1)的缺点，运算量稍大，算法稍复杂，缺点是损失了高频分量，图像一定程度会变模糊。3)两次立方插值法，其是2)的改进算法，采用16个采样点，采用3次多项式来进行插值，优点是计算精度高、图像质量损失少、效果最佳，缺点是计算量较大。在此可采用第2)种算法即二次线性插值法，这是因为其各方面比较均衡。根据实施环境，也可选择其它插值法。

图2示出了本发明方法的另一种实施方式，其还对灰度图像进行动态二值化阈值处理，以实现处理的自适应调节。该实施方式的方法除包括图1所示的步骤之外，还包括：

在步骤S108a，针对每一网格部分的直方图，基于直方图计算二值化阈值T。二值化是根据一个阈值T，大于T的为白，否则为黑，即一个前景和一个背景。目前，基于直方图的图像二值化算法很成熟，应用比较广，一般有13种算法，这里可以采用OTSU算法，可以取得很好的效果。对整个图像进行二值化分割，那么只有一个T。在本发明中，由于图像被划分为M×N个部分，则有M×N个二值化阈值T，T的值根据位置变化，从而能较好地自适应地将前景和背景分开，提高了前景和背景分离的准确性。

在步骤S108b，计算每一网格部分的直方图的各像素的灰度值L与确定的二值化阈值T之间的绝对平均差MD＝∑|L-T|/N。

在步骤S108c，将MD与预定阈值比较。如果MD偏小例如小于预定阈值，例如T＝128，而像素灰度只是在108～156分布，那么这部分灰度变化很小，这表明前景(一般是文字部分)和背景之间对比度比较小，灰度比较均匀，通过OTSU算法确定的阈值T的二值化效果比较差，不可能准确对这个部分进行二值分割，这部分出现文字的几率也比较小，则处理进行到步骤S108d。否则，如果MD较大，则处理进行到步骤S108e。

在步骤S108d，从邻近网格部分的二值化阈值T插值得到该网格部分的计算的二值化阈值作为后续使用的二值化阈值。

在步骤S108e，围绕二值化阈值T选取高低两个阈值Tmax和Tmin，Tmin<T<Tmax。当文字(前景)和背景对比明显时，直方图会显示灰度分布大部分集中在两处，即包含两个“山峰”，这类直方图称为双峰直方图。一般包含文字的区域，人眼可以识别的情况下(对比度通常还可以)，都符合双峰直方图。如果直方图符合双峰直方图的特征，则Tmax和Tmin可以取两侧的峰值作为阈值。灰度L在Tmin～Tmax之间的像素，位于前景(文字)到背景过渡的区域，即理论上文字的轮廓边缘部分。如果直方图不符合双峰直方图的特征，则可以简单根据二值化阈值T的两侧像素总数，按照一定比例求高低两个阈值。例如，比例可以取值0.5，高、低阈值到二值化阈值T之间的像素数分别占T两侧像素总数的一半。

在步骤S202，结合相邻网格部分的两个阈值Tmax和Tmin进行插值，例如以每个像素到相邻网格中心点的距离作为插值的参数，得到每个像素所在点的阈值PTmax和PTmin。PTmax和PTmin和像素的灰度没有关系，只和像素的位置有关系。

在步骤S204，判断均衡化的图像的每一像素的灰度值L是否在相应的PTmin至PTmax之间，如果是则该像素位于文字的边缘轮廓部分，使灰度值L等于255，如果否则使灰度值L等于0，从而得到基于文字轮廓部分的初步二值化图像B。

在步骤S206，对初步二值化图像B进行边缘噪声清理和孤立点消除。文字图像边缘部分噪声比较多，文字部分一般不会出现在该处，所以把边缘部分出现的或者与边缘相连接的部分过滤掉。孤立点是与其他部分不连接的点，其不足以构成文字。

在步骤S208，根据初步二值化图像B，对图像A可能是轮廓的部分即与二值化图像点p的灰度＝255对应位置的像素进行边缘检测。边缘就是图像局部强度的变化显著的部分，边缘检测就是检测局部变化的强度和幅度。经边缘检测算法计算后，滤掉强度弱的(噪声)，得到边缘。这些边缘就是文字轮廓部分，根据是否为边缘可以标记为文字轮廓的二值化图像。这里采用成熟的算法Canny检测算法，图像梯度计算采用4个方向的Sobel算子。边缘检测得到包括文字轮廓的所有轮廓信息，得到标记轮廓连通域的二值化图像C。

本发明通过对输入图像进行动态自适应直方图均衡化处理，得到了对比度增强的输入图像，并很好的保持输入图像的局部特征。此外，基于动态直方图，计算动态二值化阈值。根据该动态阈值初步确定前景(文字)到背景的过渡区域，即图像中包含文字轮廓边缘部分的区域。然后，在文字轮廓边缘所在区域进行边缘检测，可以得到准确的轮廓信息。换言之，通过对图像进行动态直方图均衡(图像增强)和动态二值化分割(得到Tmin,Tmax)，直接确定了图像的边缘部分的灰度分布(文字的边缘像素点的灰度的范围在【Tmin,Tmax】之间)，那么进行边缘检测时只要关注【Tmin,Tmax】之间的点就可以了，不需要对图像整体所有的像素进行检测了，从而提高了文字识别的准确率和识别速度。

根据本发明方法的又一种实施方式，对标记轮廓连通域的二值化图像C还可以进行下述进一步的处理。过滤掉孤立或较长的连通域；对标记轮廓连通域二值化图像进行膨胀处理得到文字区域。对图像A的文字区域的外接矩形区域进行二值化处理，得到二值化的文字图像。利用文字的几何特征对文字图像进行过滤分析，邻近图像A外边缘的连通分量可以认为是噪声除去；文字的长宽比会是在一定范围内，判断长宽比是否在阈值Rmin～Rmax之间，如果不在阈值Rmin～Rmax之间则是噪声除去。根据所在矩形区域的颜色信息对连通分量进行过滤分析。根据文字分割算法(可以采用投影法)将文字图像分割成单个字符图像。将字符图像交给文字识别引擎(OCR)进行文字识别得到文字信息。

图3示出了根据本发明的文字图像处理装置的一实施例的结构示意图。该实施例的装置包括：

划分模块302，用于将文字图像的灰度图像均匀划分为多个矩形网格部分；

网格处理模块304，用于针对每一网格部分，进行下述处理：

计算直方图并对直方图进行均衡化处理；

确定基于直方图的二值化阈值；

根据直方图和二值化阈值，确定网格最大阈值和网格最小阈值；

整体均衡化模块306，用于通过相邻网格部分直方图的插值对整个图像进行均衡化处理，得到均衡化的图像；

像素阈值计算模块308，用于结合相邻网格部分的网格最大阈值和网格最小阈值，通过插值得到每个像素所在点的像素最大阈值和像素最小阈值；

初步二值化图像生成模块310，用于判断均衡化的图像的每一像素的灰度值是否在相应的像素最大阈值和像素最小阈值之间，如果是则使灰度值等于255，如果否则使灰度值等于0，得到初步二值化图像；

边缘检测模块312，用于根据初步二值化图像的连通域在均衡化的图像上对应的像素进行边缘检测，得到标记文字轮廓连通域的二值化图像。

图4示出了本发明装置的另一种实施方式，除图3所示的模块之外，该实施方式的装置还包括：膨胀模块402，用于对标记文字轮廓连通域的二值化图像进行过滤和膨胀处理，得到文字区域；文字区域处理模块404，用于对均衡化的图像的文字区域进行二值化处理，得到二值化的文字图像；过滤模块406，用于对所述文字图像进行噪声过滤；分割模块408，用于将所述文字图像分割成多个单个字符的图像。

在此所述的多个不同实施例或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外，在某些情形下，只要适当，流程图中和/或流水处理描述的步骤顺序可修改，并不必须精确按照所描述的顺序执行。另外，本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或例如具有通用串行总线(USB)接口的其它装置，和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明作出各种变形和修改，这些变形或修改仍落入本发明的保护范围之内。

Claims

1.一种文字图像处理方法，其特征在于，所述方法包括：

将文字图像的灰度图像均匀划分为多个矩形网格部分；

2.根据权利要求1所述的方法，其特征在于，针对每一网格部分，还进行下述处理：

确定基于直方图的二值化阈值；

所述方法还包括：

结合相邻网格部分的网格最大阈值和网格最小阈值，通过插值得到每个像素所在点的像素最大阈值和像素最小阈值；

判断均衡化的图像的每一像素的灰度值是否在相应的像素最大阈值和像素最小阈值之间，如果是则使灰度值等于255，如果否则使灰度值等于0，得到初步二值化图像；

根据初步二值化图像的连通域在均衡化的图像上对应的像素进行边缘检测，得到标记文字轮廓连通域的二值化图像。

3.根据权利要求1所述的方法，其特征在于，针对每一网格部分，还进行下述处理：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述初步二值化图像进行边缘噪声清理和/或孤立点消除。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对标记文字轮廓连通域的二值化图像进行过滤和膨胀处理，得到文字区域；

对均衡化的图像的文字区域进行二值化处理，得到二值化的文字图像；

对所述文字图像进行噪声过滤；

将所述文字图像分割成多个单个字符的图像。

6.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

对文字图像进行校正预处理和/或去噪声预处理。

7.一种文字图像处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述网格处理模块还用于针对每一网格部分进行下述处理：

确定基于直方图的二值化阈值；

所述装置还包括：

像素阈值计算模块，用于结合相邻网格部分的网格最大阈值和网格最小阈值，通过插值得到每个像素所在点的像素最大阈值和像素最小阈值；

初步二值化图像生成模块，用于判断均衡化的图像的每一像素的灰度值是否在相应的像素最大阈值和像素最小阈值之间，如果是则使灰度值等于255，如果否则使灰度值等于0，得到初步二值化图像；

边缘检测模块，用于根据初步二值化图像的连通域在均衡化的图像上对应的像素进行边缘检测，得到标记文字轮廓连通域的二值化图像。

9.根据权利要求7所述的装置，其特征在于，所述网格处理模块还用于针对每一网格部分进行下述处理：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

膨胀模块，用于对标记文字轮廓连通域的二值化图像进行过滤和膨胀处理，得到文字区域；

文字区域处理模块，用于对均衡化的图像的文字区域进行二值化处理，得到二值化的文字图像；

过滤模块，用于对所述文字图像进行噪声过滤；

分割模块，用于将所述文字图像分割成多个单个字符的图像。