CN101697228A

CN101697228A - 一种文本图像处理方法

Info

Publication number: CN101697228A
Application number: CN200910110509A
Authority: CN
Inventors: 杨昊民; 邱光益
Original assignee: DONGGUAN BUBUGAO EDUCATION ELECTRONIC PRODUCT Co Ltd
Current assignee: DONGGUAN BUBUGAO EDUCATION ELECTRONIC PRODUCT Co Ltd
Priority date: 2009-10-15
Filing date: 2009-10-15
Publication date: 2010-04-21

Abstract

本发明涉及一种文本图像处理方法包括：基于最大互信息配准并拼接移动扫描的图像；使用阈值将图像分成对象和背景；基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。这种文本图像处理方法，采用二值化、倾斜校正、平滑去噪、文本行分离、规一化处理进行图像处理，有效抵消了移动扫描产生的图像倾斜、尺度变化等变形以及单帧图像中能存在多行文字的不利影响，满足了移动扫描后OCR文字识别的要求。

Description

一种文本图像处理方法

技术领域

本发明涉及图像处理，具体涉及一种文本图像处理方法。

背景技术

传统的光学字符识别(OCR)系统一般是通过静态扫描获得整幅文档的图像，并借助计算机强大的存储和处理能力对图像进行预处理和文本分离等操作，最后由识别程序完成对文字或字符的识别。而手持扫描设备是在内部集成小体积扫描传感器，决定了其扫描方式只能是移动扫描。所谓移动扫描，是指因为不能同时获得整幅文档的有效图像，只能由使用者通过手持的方式对文档从左至右逐行逐字进行扫描，得到的不是整幅图像，而是局部图像的帧序列。由于手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。因此，传统的OCR识别系统无法直接适用移动扫描。

发明内容

本发明需要解决的技术问题是，如何提供一种文本图像处理方法，能去除移动扫描的影响，使处理后的文本图像满足OCR识别需要。

本发明的技术问题这样解决：构建一种图像传感同步方法，包括以下步骤：

1.1)帧间配准与拼接：基于最大互信息配准并拼接移动扫描的图像；

1.2)二值化：使用阈值将图像分成对象和背景；

1.3)倾斜校正：基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。

按照本发明提供的图像传感同步方法，该方法还包括平滑去噪步骤：根据噪声与文本图像区别特征去除对象中与文本不相干的内容，用于去除扫描图像中原始噪声。

按照本发明提供的图像传感同步方法，所述平滑去噪步骤位于步骤1.2)～1.3)之间。

按照本发明提供的图像传感同步方法，所述平滑去噪步骤位于步骤1.3)之后。

按照本发明提供的图像传感同步方法，该方法还包括行切分步骤：结合所述倾斜角度识别行间距并切分文本行。

按照本发明提供的图像传感同步方法，所述行切分还包括根据连续非零像素段、连续零像素段相互交迭的规律等因素进行切分。

本发明提供的文本图像处理方法，采用二值化、倾斜校正、平滑去噪、文本行分离、规一化处理进行图像处理，有效抵消了移动扫描产生的图像倾斜、尺度变化等变形和单帧图像中能存在多行文字的不利影响，满足了移动扫描后OCR文字识别的要求。

附图说明

下面结合附图和具体实施例进一步对本发明进行详细说明。

图1是本发明具体实施例手持移动扫描设备的软件流程示意图。

具体实施方式

如图1所示，本发明具体实施例的手持扫描设备软件流程包括接触式图像传感器(CIS)输入数据、图像处理和OCR识别，其中图像处理可以细分为二值化、倾斜校正、平滑去噪、文本行分离、规一化处理等五个步骤，具体如下：

帧间配准与拼接：

根据摄像头接口(CIM)取得N×M个数据，每个中断取得的M个数据进行匹配，然后在根据N个中断拼接成一副扫描精度(DPI)是N×M的图像。把一幅图像看作是像素点的集合，图像配准就是寻求一个点集到另一个点集之间的映射的过程，即找出两幅图像中具有相同性质的点，并计算其对应的变换关系。这种变换可以是简单的刚体变换(即图像之间只存在旋转和平移)，也可以是较复杂的弹性变换(图像拉伸、缩放、扭曲变形等)。

基于统计的配准方法通常是指最大互信息MI(X，Y)的图像配准方法，MI(X，Y)＝H(X)+H(Y)-H(X，Y)

其中，X/Y代表参加配准的两幅图，H(X)/H(Y)是X/Y图的熵，H(X，Y)是X图和Y图的联合熵。

为了使得衡量参量对两图重叠的大小具有不变性，我们改用归一化互信息NMI：

NMI(X，Y)＝(H(X)+H(Y))/H(X，Y)。

最终，我们选择使得归一化互信息NMI为最大的配准偏移量。

上述各熵计算如下：

1假设两图都是W＊H大小的。把两图的灰度值分为K个区间，即将其灰度值从原来的[0，255]区间，量化为[0，K-1]区间。

2形成一个统计二维量N，其大小是K＊K的。初始化N[i，j]为0。

3对两图的重叠区域中的每个点，检查其量化灰度值，假设X图此点的量化灰度值为a，Y图对应点的量化灰度值为b，则让N[a，b]＝N[a，b]+1。如此，得到最终的N矩形的值。

4则计算各概率为

P_{XY} (i, j) = N (i, j) / \underset{i}{Σ} \underset{j}{Σ} N (i, j)

P_{X} (i) = \underset{j}{Σ} P_{XY} (i, j)

P_{Y} (j) = \underset{i}{Σ} P_{XY} (i, j)

5进而，根据传统信息论，可以得到上述需要的各熵的值，从而可计算出归一化互信息NMI。

该方法的突出优点是鲁棒性好、配准精度高、人工干预少。基于互信息的图像配准是用两幅图像的联合概率分布与完全独立时的概率分布的广义距离来估计互信息，并作为多模态图像配准的测度。当两幅图像达到最佳配准时，它们的对应象素的互信息应为最大。

倾斜检测与校正

在文字图像扫描输入的过程中，图像或多或少会出现某种程度的倾斜，这种倾斜不仅会给下一步文本行分离造成困难，也会影响最终的文字识别的正确率。所以，倾斜校正也是文字识别过程中必须要考虑的一个重要环节。通常情况下，应快速准确测量出扫描图像的倾斜角度，从而对图像进行旋转校正。

检测文本倾斜角的基本思路是，文本中任何水平方向和垂直方向的线条或者文字行的倾斜方向都与文本的倾斜方向保持一致，因此可以通过这些线条和文字行来估计文本的倾斜角度。

本机采用了基于文本行的文档倾斜校正方法：通常文本行是沿水平方向排列的，且相邻文本行之间的距离相对固定，因此检测页面图像的倾角不必对整个图像进行扫描计算，选择合适的文本子区域，其文本行的方向角对应于整个文档图像的倾斜角。具体采用Hough变换法和投影法检测文本图像的倾斜角，具体计算是：

在二维图像空间里，直线可表示为xcosθ+ysinθ＝ρ，

其中ρ和θ为参数，定义了一个从原点到该直线最近点的向量(ρ，θ)，显然这个向量与该直线垂直。

实现Hough变换对文本图像倾斜角检测的算法，详细描述如下。

1、在ρ，θ合适的最大值ρ_max，θ_max和最小值ρ_min，θ_min之间，建立一个离散的参数空间：(ρ，θ)，其中ρ＝{ρ_i|ρ_min≤ρ_i≤ρ_max，1≤i≤m}、θ＝{θ_j|θ_min≤θ_j≤θ_max，1≤j≤n}。

2、建立一个累加器矩阵A(ρ，θ)(大小为m×n)，并初始化每一个元素为k，k是0-100常量。

3、对图像中每一个目标像素(即二值化后图像中的前景)(x，y)，对每一个θ的取值θ_j(1≤j≤n)，都计算ρ_i＝xcosθ_j+ysinθ_j，相应累加器A(ρ_i，θ_j)＝A(ρ_i，θ_j)+1。

4、先求最后取max(A(θ_j))所对应的角度θ_Dmax，即为Hough变换算法检测的文字图像的倾斜角。

二值化：

图像的二值化处理就是把扫描图像分成对象和背景两个区域，求其阈值，去掉不必要的噪声和干扰。因此可以说，二值化的过程，就是阈值选取的过程。

阈值是把背景和前景区分开的标尺，其选取的原则是，要在尽可能保存文字信息的同时又尽可能地削除噪声的干扰。本机采用二维Otsu二值化法进行二值化处理CIS部分得到的数据，具体计算是：

设一幅图像的像素点数为N，它有L个灰度级(1，2，...，L-1)，灰度级为i的像素点数为n_i，且有

利用N对图像直方图进行归一化，可以得到灰度级为i的像素点的概率

假设阈值t将图像分成两类C₀和C₁(物体和背景)，即C₀和C₁分别对应具有灰度级{0，1，...，t}和{t+1，t+2，...，L-1}的像素，C₀和C₁发生的概率分别为

C0和C1类的均值分别为

其中

这样就有：

\{\begin{matrix} w_{0} u_{0} + w_{1} u_{1} = u_{T} \\ w_{0} + w_{1} = 1 \end{matrix},

两类的类间方差为：

σ_B ²＝w₀(u₀-u_T)²+w₁(u₁-u_T)²。

最佳阈值t′是指让类间方差σ_B ²取大值时所对应的t(1≤t＜L)，即：

t^{'} = \max (σ_{B}^{2}, 1 \leq t < L) .

平滑去噪：

经过倾斜校正后的文字图像会附加一定的噪声，这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛刺之类的与文本图中的文本不相干的内容，一般相对笔划而言较小，成点状。而所谓空洞指的是文字笔划中的小的像素缺失，一般被0像素(即黑像素)包围。应用的算法可以是邻域相关法、均值滤波法以及形态学的方法等。

邻域相关法。

邻域相关法是指根据当前像素点一定窗口内的邻域像素点的特性来判断该像素点是否为背景点。例如，选定3×3的辅助窗对图像进行扫描，对图像中各点进行如下处理：

(1)对于背景点，若其四邻域有三个点为笔划点，则将它设为笔划点。这一步主要目的是消除空洞。

(2)对于笔划点，则分三种情况讨论：若其四邻域点都是背景点，且对角线四个点有任意两个同一边的点(即同在该点的左边、右边，或同在该点的上方、下方)，则设该点为背景点，这一步的目的是消除独立的噪声点；如果该笔划点的八个邻边只有一个是目标像素，证明这一点是悬空点，必须清除；如果该点的四个方向中只有一个方向的三个像素全为目标点，而其他方向全是背景点，说明该点为凸点噪声，也必须清除。

均值滤波法。

均值滤波法的原理是采用如下式所示的平滑模板H对图像进行平滑处理。

0＜n≤1000

其作用是通过像素点与其邻域点的均值运算(通常为平均运算)来去除突然变化的点，从而达到消除一定噪声的目的。

形态学方法

形态学运算中，开启运算通过消除边缘的突起而使图像的边界得以平滑，而闭合运算则是通过先膨胀后腐蚀的处理方法来填充图像内部空隙并连接临近的物体。因此，通过一次开启和闭合运算，就可以消除二值图中的随机噪声。

行切分：

经扫描得到的文本图像中可能包含若干行文字，一般情况下，图像的中间部分质量比较好，而两端部分有可能形变比较大，不利于后续处理，因此要对图像进行行切分，称为行分离。

对二值图像的行切分过程可以描述为：对于纠偏后的二值图像，统计水平方向每行中的前景点数量，生成投影曲线。由于文本行与行之间存在明显的间距，得到的投影曲线必定是连续非零像素段、连续零像素段相互交迭，其中非零像素段表示文本行，零像素段表示行间距。找出靠近图像正中间的行并进行切分，切分出了我们感兴趣的行。

图像规格化处理：

在移动扫描的过程中，由于手的抖动，扫描得到的图像容易产生变形，导致连续两帧图像中文字的字体大小产生变化，从而使切分出来的文字行图像规格不一样(指图像产生了缩放)。为了便于下一步进行文字行图像的配准和拼接，可把图像规格化成相同大小。可用插值法对图像进行插值放大或缩小，以保证所有切分出的文本行图像高度一致，本机采用双线性插值把源图像变化为目标图像，具体是：设f(i，j)表示源图像(i，j)处的的像素值，则可用源图像中坐标为(i，j)、(i+1，j)、(i，j+1)、(i+1，j+1)的四个像素的值，计算目标像素点的值。先通过从目标图像坐标到源图像坐标的反向变换，得到目标图像中的某点，在源图像中的坐标为(i+u，j+v)，其中i、j均为非负整数，u、v为[0，1]区间的浮点数，则目标图像中此象素点的值，即取为f(i+u，j+v)，且f(i+u，j+v)＝(1-u)(1-v)f(i，j)+(1-u)vf(i，j+1)+u(1-v)f(i+1，j)+uvf(i+1，j+1)。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求范围所做的均等变化与修饰，皆应属本发明权利要求的涵盖范围。

Claims

1.一种图像传感同步方法，其特征在于，包括以下步骤：

1.1)基于最大互信息配准并拼接移动扫描的图像；

1.2)使用阈值将图像分成对象和背景；

1.3)基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。

2.根据权利要求1所述图像传感同步方法，其特征在于，该方法还包括平滑去噪步骤：根据噪声与文本图像区别特征去除对象中与文本不相干的内容。

3.根据权利要求1所述图像传感同步方法，其特征在于，所述平滑去噪步骤位于步骤1.2)～1.3)之间。

4.根据权利要求1所述图像传感同步方法，其特征在于，所述平滑去噪步骤位于步骤1.3)之后。

5.根据权利要求1所述图像传感同步方法，其特征在于，该方法还包括行切分步骤：结合所述倾斜角度识别行间距并切分文本行。

6.根据权利要求5所述图像传感同步方法，其特征在于，所述行切分包括根据连续非零像素段、连续零像素段相互交迭的规律进行切分。