CN104809436B

CN104809436B - 一种弯曲书面文字识别方法

Info

Publication number: CN104809436B
Application number: CN201510200517.XA
Authority: CN
Inventors: 肖夏; 田健飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2017-12-15
Anticipated expiration: 2035-04-23
Also published as: CN104809436A

Abstract

本发明涉及一种弯曲书面文字识别方法，包括：采集弯曲书面的曲面图像；对曲面图像进行预处理，获取各个文本行连通区域；求取各个文本行的基准线及基准线方程；检测弯曲书面所有基准线中，最长的直线部分；将图像顺时针旋转相应的角度，使图像展平的方向变为水平方向，并得到全新的基准线方程；图像展平；对经过上述操作展平的弯曲书面图像进行文字识别。本发明具有速度快，效果好的优点。

Description

一种弯曲书面文字识别方法

所属技术领域

本发明属于数字图像处理技术，涉及一种弯曲书面文字识别方法。

背景技术

随着现代科技的不断进步和发展，电子产品的大量普及，越来越多的人们选择在电子平台进行阅读和学习。但是大量的文档只有纸质版，这就需要将大量的纸质文档进行电子化并进行文字识别。由于数码相机的便携性、方便性，越来越多的人采用数码相机对文档进行图像采集，在对书面进行电子化的时候，一些文档由于厚度较大，不能完全的展平，因此采集的图像大多会出现类似于柱面中间凸、两边凹的现象。为了便于阅读和识别，后期处理需要将弯曲书面图像展平。现如今存在的曲面展平技术大多需要曲面多个角度的图像组合一起，求出图像的3D信息，然后进行展平，这种技术图像采集比较麻烦，因此如何更方便、更准确、更简单的进行弯曲书面矫正，为文字识别创造好的基础成为人们追求的目标。

发明内容

本发明的目的是提供一种速度快效果好的弯曲书面文字识别方法。本发明的技术方案如下：

一种弯曲书面文字识别方法，包括下列步骤：

1)采集弯曲书面的曲面图像；

2)对曲面图像进行预处理，获取各个文本行连通区域；

3)求取各个文本行的基准线及基准线方程f_n(x)，x∈(0，len)，n∈(1，N)，N为基准线数量，len曲面图像的宽度，f_n(x)表示基准线的纵坐标值，x表示基准线的横坐标值，下标n表示不同的基准线；

4)采用Hough变换检测弯曲书面所有基准线中，最长的直线部分，直线所在方向即为弯曲书面图像展平的方向；

5)求出Hough变换所得最长直线部分的角度，并将图像顺时针旋转相应的角度，使图像展平的方向变为水平方向，并且3)中得到的基准线方程也要进行相应的变换，得到全新的基准线方程F_n(x)；

6)求出每条基准线方程F_n(x)斜率为0时，其横坐标的值x₀，并求得其对应纵坐标的值F_n(x₀)，斜率为0时纵坐标的值，决定着其所在基准线展开后纵坐标的值。

7)曲面中最顶部一条基准线F₁(x)上面的区域只有一边存在基准线，对此区域每列像素竖直向下移动F₁(x)-F_n(x₀)像素距离，将此区域下边的基准线变为水平的；

8)曲面中最顶部一条基准线F₁(x)和最底部一条基准线F_N(x)中间区域两边都存在基准线，图像展平后两边基准线之间的距离F_n+1(x₀)-F_n(x₀)与图像展平前两边基准线之间的差值F_n+1(x)-F_n(x)不一定相等，所以对此区域每列像素进行竖直移动加缩放处理，采用双线性内插值算法进行缩放；

9)曲面中最底部一条基准线F_N(x)下面的区域只有一边存在基准线，对此区域每列像素竖直向下移动F_N(x)-F_N(x₀)像素距离，将此区域上边的基准线变为水平的；

10)对经过上述操作展平的弯曲书面图像进行文字识别。

作为优选实施方式，步骤2)采用如下的预处理方法：

a)根据图像的像素大小和经验值，删除二值图像中面积小于一个标点符号面积的对象，去除噪声的影响，得到经过预处理后的二值图像；

b)设定一个矩形，其长度根据两个字体中心之间的水平距离确定，宽度根据字体高度的1/2确定，利用此矩形对二值图像进行形态学的开闭运算，将每行文本连成同一连通区域。

c)根据文本行的高度预设一个高度阈值，根据文本行的长度预设一个长度阈值；

d)计算出每个连通区域的高度值和宽度值，将高度值大于高度阈值的连通区域去除，消除书面中高度较高的插图的影响；将长度值短于长度阈值的连通区域去除，消除书面中长度较短的文本行的影响；然后删除面积小于一个字体面积的对象，最终得到各个文本行连通区域；

步骤3)采用的方法为：根据得到的各个文本行连通区域的上边界和下边界，求出每组上边界和下边界对应横坐标的中值，对中值采用三阶函数进行曲线拟合，得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程f_n(x)＝a_nx²+b_nx²+c_nx+d_n，a_n，b_n，c_n，d_n为常数。

本发明采用矩形结构对图像进行形态学的开闭运算，求出的文本行连通区域上下边界能够跟文本行的上下边界紧密贴合，使其连通区域不受字体内部比重的影响，求出的中线具有更高的精度。本方法只采用几种形态学的开闭运算和三阶曲线拟合运算来定位基准线，运算简单，具有更高的速度，用此类基准线进行曲面书面展开后的图像具有更平的效果，从而为之后的文字识别打下良好基础。本发明的文字识别方法，在进行弯曲书面展平过程中只需单幅图像，不需要弯曲书面进行多次图像采集，展开过程简单、方便。

附图说明

图1初始图像

图2形态学开闭运算后的模糊图像

图3只含有较长文本行部分的模糊图像

图4中线定位结果的局部放大图像(文本行中白色线条表示中线)

图5基准线定位结果(文本行中黑色线条表示基准线)

图6基准线定位结果的局部放大图像(文本行中黑色线条表示基准线)

图7基准线图(粗白线部分为检测出的最长直线)

图8每条基准线斜率为0时的位置(基准线中o点的位置)

图9顶部区域展平

图10中部区域展平

图11底部区域展平

图12前后部分区域对比图，(a)、(c)、(e)为展平前的部分区域，(b)、(d)、(f)为对应的展平后区域。

图13本发明采用的基于基准线的弯曲书面展平流程图

具体实施方式

下面结合附图和实施例对本发明进行说明。本发明具体包括下列步骤：

1)采集弯曲书面的曲面图像，如图1所示。

2)对曲面图像进行灰度变换，并进行二值化。然后根据图像的像素大小和经验值，删除二值图像中面积小于一个标点符号面积的对象，去除噪声的影响，得到经过预处理后的二值图像。

3)设定一个矩形，其长度根据两个字体中心之间的水平距离确定，宽度根据字体高度的1/2确定，利用此矩形对图像进行形态学的开闭运算，将每行文本连成同一连通区域，如图2所示。

4)根据文本行的高度预设一个高度阈值，大小约为文本行高度的三倍；根据文本行的长度预设一个长度阈值，大小约为文本行最大长度的3/4；

5)计算出每个连通区域的高度值和宽度值，将高度值大于高度阈值的连通区域去除，消除书面中高度较高的插图的影响；将长度值短于长度阈值的连通区域去除，消除书面中长度较短的文本行的影响；然后删除面积小于一个字体面积的对象，最终得到剩下的文本行连通区域。如图3所示。

6)分别求5)中得到的各个文本行连通区域的上边界和下边界，然后求出每组上边界和下边界对应横坐标的中值，如图4所示。对中值采用三阶函数进行曲线拟合，得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程f_n(x)＝a_nx²+b_nx²+c_nx+d_n，x∈(0，len)，n∈(1，N)，N为基准线数量，len曲面图像的宽度，f_n(x)表示基准线的纵坐标值，x表示基准线的横坐标值，a_n，b_n，c_n，d_n为常数，下标n表示不同的基准线。基准线如图5所示。

7)采用Hough变换检测一张弯曲书面所有基准线中，最长的直线部分，直线所在方向即为弯曲书面图像展平的方向。如图7所示。

8)求出Hough变换所得最长直线部分的角度，并将图像顺时针旋转相应的角度，使图像展平的方向变为水平方向，并且6)中得到的基准线方程也要进行相应的变换，得到全新的基准线方程

F_n(x)＝A_nx²+B_nx²+C_nx。

9)求出每条基准线方程F_n(x)斜率为0时，其横坐标(列数)的值x₀，然后代入8)中得到的基准线方程F_n(x)中，求出其对应纵坐标(行数)的值F_n(x₀)。斜率为0时纵坐标的值，决定着其所在基准线展开后纵坐标(列数)的值。如图8所示。

10)曲面中最顶部一条基准线F₁(x)上面的区域只有一边存在基准线，对此区域每列像素竖直向下移动F₁(x)-F_n(x₀)像素距离，将此区域下边的基准线变为水平的。如图9所示。

11)曲面中最顶部一条基准线F₁(x)和最底部一条基准线F_N(x)中间区域两边都存在基准线，图像展平后两边基准线之间的距离F_n+1(x₀)-F_n(x₀)与图像展平前两边基准线之间的差值F_n+1(x)-F_n(x)不一定相等，所以对此区域每列像素进行竖直移动加缩放处理，采用双线性内插值算法进行缩放。如图10所示。

12)曲面中最底部一条基准线F_N(x)下面的区域只有一边存在基准线，对此区域每列像素竖直向下移动F_N(x)-F_N(x₀)像素距离，将此区域上边的基准线变为水平的。如图11所示。图12给出了几个局部的展开效果图。

13)展平后，再进行文字识别。文字识别的成熟算法很多，本发明不再对此展开说明。

本发明中线的定位只需要求出每个文本行连通区域的上下边界，再求出上下边界的中线即可，计算量小，同时利于硬件实现，具有实际应用的价值。

本发明的文字识别所采用的弯曲书面图像的方法，基于文本行中线确定的N条基准线，把弯曲书面图像由上到下分为N+1个区域，顶部区域和底部区域只有一边存在基准线，所以根据顶部和底部基准线方程分别求基准线变为直线后基准线上每点需要移动的距离(即为顶部和底部区域展平每列需要移动的距离)。中间区域展平时，两边都有基准线，需要求两边基准线方程横坐标相同时纵坐标的差值和展平后两边基准线纵坐标的差值，然后根据展平前后基准线差值的比值确定图像展平过程中的缩放比例，最终采用双线性内插值算法确定展平后每个像素点的值。

Claims

1.一种弯曲书面文字识别方法，包括下列步骤：

1)采集弯曲书面的曲面图像；

2)对曲面图像进行预处理，获取各个文本行连通区域；

3)求取各个文本行的基准线及基准线方程f_n(x)，x∈(0，len)，n∈[1,N]，N为基准线数量，len曲面图像的宽度，f_n(x)表示基准线的纵坐标值，x表示基准线的横坐标值，下标n表示不同的基准线；

5)求出Hough变换所得最长直线部分的角度，并将图像顺时针旋转相应的角度，使图像展平的方向变为水平方向，并且步骤3)中得到的基准线方程也要进行相应的变换，得到全新的基准线方程F_n(x)；

6)求出每条基准线方程F_n(x)斜率为0时，其横坐标的值x₀，并求得其对应纵坐标的值F_n(x₀)，斜率为0时纵坐标的值，决定着其所在基准线展开后纵坐标的值；

10)对经过上述操作展平的弯曲书面图像进行文字识别。

2.根据权利要求1所述的弯曲书面文字识别方法，其特征在于，步骤2)采用如下的预处理方法：

b)设定一个矩形，其长度根据两个字体中心之间的水平距离确定，宽度根据字体高度的1/2确定，利用此矩形对二值图像进行形态学的开闭运算，将每行文本连成同一连通区域；

d)计算出每个连通区域的高度值和宽度值，将高度值大于高度阈值的连通区域去除，消除书面中高度较高的插图的影响；将长度值短于长度阈值的连通区域去除，消除书面中长度较短的文本行的影响；然后删除面积小于一个字体面积的对象，最终得到各个文本行连通区域。

3.根据权利要求1或2所述的弯曲书面文字识别方法，其特征在于，步骤3)采用的方法为：根据得到的各个文本行连通区域的上边界和下边界，求出每组上边界和下边界对应横坐标的中值，对中值采用三阶函数进行曲线拟合，得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程f_n(x)＝a_nx³+b_nx²+c_nx+d_n，a_n，b_n，c_n，d_n为常数。