CN102622593A

CN102622593A - 一种文本识别方法及系统

Info

Publication number: CN102622593A
Application number: CN201210031016XA
Authority: CN
Inventors: 童立靖
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2012-02-10
Filing date: 2012-02-10
Publication date: 2012-08-01
Anticipated expiration: 2032-02-10
Also published as: CN102622593B

Abstract

本发明涉及一种文本识别方法和应用该方法的文本识别系统。该方法步骤包括：从变形页面的不同角度对该页面进行拍摄，得到该页面的两张图像；提取所述两张图像的文本线并进行拐点探测；根据所述拐点并通过区域限定和模板匹配的方法确定所述两张图像的匹配点；根据所述匹配点对所述两张图像进行整合，得到可识别的完整文本图像；通过图像文字识别软件对所述完整文本图像进行文本识别。该系统包括两个摄像装置、调位支架、信息显示装置和信息处理装置。本发明的方法和系统，将两幅从不同角度拍摄的同一文档的变形图像整合成一幅几乎无变形的文档图像，可以有效的解决文本图像扭曲识别问题。

Description

一种文本识别方法及系统

所属技术领域

本发明属于文本图像数字化识别技术领域，涉及一种对变形图像进行整合处理的文本识别方法，以及应用该方法的系统。

背景技术

目前，对文本文件进行数字化即进行文字图像识别的装置主要有三种，第一种是带有文字识别的台式扫描仪。但由于文本图像存在书脊处的扭曲，识别率较低；这种方法也容易毁坏文档且效率低，并且携带极不方便。第二种是高拍仪，对于拱起的书本页面，文字图像在书脊处也会发生扭曲变形。这种扭曲变形会影响OCR(光学字符识别)的识别效果，其识别率也较低。第三种是扫描笔，但由于是一行一行的对文字扫描，识别效率较低，且识别率受拖动笔的速度均匀性的影响较大。

对于文字图像的扭曲变形，主要的解决技术有两种，一种是通过对图像进行校正的方法，通过对图像的拉伸变形，尽可能恢复原来没有变形前的图像，但由于在扭曲处信息的丢失，效果不佳，另一种方法是采用激光点打到文档图像上，采用三维重建的方法，重新恢复原来文本的立体模型，并进而恢复平直文本图像，这种方法设备昂贵、结构复杂。

发明内容

本发明的目的在于解决现有技术中存在的问题，提出一种文本识别方法及系统，将从不同角度拍摄的同一文档的变形图像整合成一幅几乎无变形的文档图像，进而实现文本识别。

为了实现上述目的，本发明采用如下技术方案：

一种文本识别方法，其步骤包括：

1)从变形页面的不同角度对该页面进行拍摄，得到该页面的两张图像；

2)提取所述两张图像的文本线并进行拐点探测；

3)根据所述拐点并通过区域限定和模板匹配的方法确定所述两张图像的匹配点；

4)根据所述匹配点对所述两张图像进行整合，得到可识别的完整文本图像；

5)通过图像文字识别软件对所述完整文本图像进行文本识别。

一种文本识别系统，适用于上述方法，包括：

第一摄像装置；

第二摄像装置；

调位支架，包括一支柱和一连接该支柱的横杆；所述摄像装置安装在该横杆上；

信息显示装置，用于显示所述摄像装置拍摄的图像；以及

信息处理装置，分别与所述摄像装置和所述信息显示装置电性连接，用于对所述摄像装置拍摄的图像进行整合处理和文字识别。

本发明的文本识别方法和系统，将两幅从不同角度拍摄的同一文档的变形图像整合成一幅几乎无变形的文档图像，成本低，效率高，可以有效的解决文本图像扭曲识别问题；整合后的图像的OCR(光学字符识别)的识别率明显高于整合前的图像的识别率。

附图说明

图1为本发明实施例的文本识别系统的示意图。

图2为图1中横杆与支柱直接连接的示意图。

图3为图1中横杆与支柱间接连接的示意图。

图4为实施例中从不同角度拍摄的页面图像示意图。

图5为实施例中从不同角度拍摄的页面图像的基准特征线示意图。

图6为实施例中从不同角度拍摄的页面图像的待搜索区域示意图。

图中各组件的说明：

1.操作台；2.嵌入式主机；3.显示屏；4.第一摄像头；5.第二摄像头；6.支柱；

7.横杆；701.套环结构；702.中间杆；

8.连接件；801、802、803：螺杆；810.十字套筒结构；

9.鼠标；10.喇叭；11.电源线。

具体实施方式

下面通过实施例并结合附图，对本发明作详细的说明。

本发明一实施例的文本识别系统如图1所示，用于识别展开后书本页面上的文字或图像信息。该文本识别系统包括操作台1、嵌入式主机2(信息处理装置)、显示屏3(信息显示装置)、摄像头4、摄像头5、调位支架(包括支柱6、横杆7和连接件8)、鼠标9、喇叭10和电源线11。其中横杆7为弧形，安装在支柱6上，并可通过连接件8(后文将进一步说明该连接件)调节在支柱6上的高度。在横杆7上安置摄像头4和摄像头5，该两个摄像头能在横杆上滑动以调整拍摄角度。通过调节弧形横杆7在支柱6上的位置可以调节摄像头的拍摄高度。显示屏3用于显示摄像头拍摄到的图片信息，配合鼠标9以实现人机交互，如程序的启动、关闭等；；在其它实施例中也可应用触控屏幕来实现人机交互。该调位支架的支柱6设计成中空管状，将嵌入式主机2与摄像头的连接线放置于该中空的支柱内，以使结构紧凑、美观，并能对连接线起到保护作用。嵌入式主机2分别与两个摄像头和显示屏3电性相连，其内安装图像处理程序和文字识别软件，用于对该两个摄像头所拍摄到的图像数据进行数字图像处理并从中识别出正确和完整的页面文本信息；还可在嵌入式主机2内安装TTS语音转换软件，配合喇叭10可实现对识别出的文字进行语音朗读。

在上述实施例中，调位支架的横杆7为弧形杆，但本发明不限于此。在其它实施例中，该横杆也可为直杆，此时通过摄像头在该横杆上的滑动并配合摄像头的转动也可实现对拍摄角度的调整。

在上述实施例中，横杆7通过连接件8调节在支柱6上的高度，但也可以将横杆7通过螺丝等方式固定在支柱6上，本发明不限于此。当需要调节横杆7在支柱6上的高度时，可以将连接件8设计成不同的形式，例如图2和图3所示的结构，下面分别予以说明。

图2为横杆7与支柱6直接连接的俯视图：在横杆7上设计一与支柱6匹配的套环结构701，使支柱6穿过该套环；在该套环结构上设计一螺杆旋紧结构，通过螺杆801调节横杆7与支柱6结合的松紧度，实现调节横杆7在支柱6上的位置。图3为横杆7与支柱6以间接方式连接的俯视图。在横杆7中部增加一与其垂直的中间杆702，可与该横杆一体成形或通过螺纹等形式连接。另设计一十字套筒结构810，包含互相垂直的两个套筒，套筒内径分别与横杆7与支柱6的外径匹配，将横杆7与支柱6分别插入该两个套筒内，如图3a所示。图3b示意了图3a中十字套筒结构810的剖面图。在该两个套筒上分别设置螺杆旋紧结构，通过螺杆802将横杆7固定在支柱6上的不同高度，通过螺杆803可调节横杆7与支柱6的距离，即可实现横杆7相对于操作者的前后移动，以更好地调节摄像装置的拍摄位置和角度。

应用上述文本识别系统进行文本识别的方法，其步骤如下：

1)拍摄图像：将需要识别的文本页面放置在第一摄像装置和第二摄像装置的下方，如图1所示。通过调位支架调节第一摄像装置和第二摄像装置的位置，使得第一摄像装置和第二摄像装置能够从文本页面中变形或扭曲区域的两侧完整地拍摄到该文本页面，并在在显示屏上实时显示所拍摄的两张图像。

2)图像处理：通过鼠标和显示屏进行交互操作，利用嵌入式主机中的图像处理程序对第一摄像装置和第二摄像装置拍摄的图像的非变形区域进行整合，并在显示屏上显示处理后的效果图。下文将对该步骤做进一步的说明。

3)文字识别：通过嵌入式主机中的图像文字识别软件(OCR)，对处理后的图像进行识别处理，识别出页面上的文字。还可在嵌入式主机2内安装TTS语音转换软件，并配合喇叭4实现对识别出的文字进行语音朗读。

在上述方法中，重点是步骤2)的对变形图像的整合处理，下面具体说明其技术原理及实施过程。

书本展开后所形成的拱形会使得原先一个摄像头拍摄后的图像文本的某一侧产生很大的扭曲，使得其文字识别率大大下降。采用两个摄像头从页面的左右两个侧面对其进行拍摄后，所得的两张图像各有一侧是扭曲程度较小的部分：左边摄像头拍摄到的图像的左半部分是扭曲程度较小的文本，且易于识别；右边摄像头拍摄到的图像的右半部分也是扭曲程度较小的文本，同样易于识别。以书本右页的情况为例，软件处理时，选取右侧摄像头拍摄的图像作为基准图像，并在图像中根据文本线的拐点，确定基准特征线；然后在基准特征线上均匀选择若干基准特征点，并在左边摄像头拍摄的图像中，在基准特征线附近的一个限定区域寻找匹配点，然后对两幅图像中变形较小的图像区域进行整合。处理后的图像扭曲程度较小，文本图像的识别率会得到很大的提高。对于书本左页的情况，选取左侧摄像头拍摄的图像作为基准图像，其余处理类似。

步骤2)的核心是基于文本线拐点探测与区域限定的文本图像匹配方法，具体实施过程如下：

2-1)对拍摄的两张图像进行预处理

该预处理主要包括灰度化、二值化与去噪处理3个步骤。

灰度化是把彩色图像转变为灰度图像，是二值化的基础。灰度化所使用的公式为：

Gray＝0.299R+0.587G+0.114B (1)

其中：Gray为像素点的灰度值；R为像素点的红色分量值；G为像素点的绿色分量值；B为像素点的蓝色分量值。

二值化是依据像素点的灰度值，把图像中的像素点区分为前景与背景，前景是黑色，用0表示，背景为白色，用255表示。对坐标为(x，y)的图像数据进行二值化所使用的计算方法为：以(x，y)为中心，取一个n*n的局部窗口，计算下述公式：

T(x，y)＝m(x，y)-0.2*s(x，y) (2)

其中：T(x，y)为阈值；n为设定参数，缺省值为10，用户可据效果通过鼠标和显示屏进行修改；m(x，y)为窗口内像素点灰度值的均值；s(x，y)为窗口内像素点灰度值的均方差，若(x，y)点的灰度值大于T(x，y)，则置为255，否则置为0。

去噪处理是去除文本图像中一些孤立的噪点，所使用的方法为：对于文本图像中每个像素值为0的点，如果在其n*n的局部窗口内，像素值为0的像素点的个数小于局部窗口内像素点个数的20％，则判定该点为噪点，并修正其值为255。

2-2)文本线拐点探测

通常从不同角度拍摄的图像可以用图4进行表示。该图为书本右页的情况，其中，上半部分是摄像头从偏右角度(即右侧摄像头)拍摄到的图片简化效果图，作为基准图像；下半部分是从偏左角度拍摄到的图片简化效果图，作为待匹配图像；黑色线条轮廓代表文本图像中文本区域边界轮廓线；横线区是两幅图像各自的有效区域，空白区是两幅图像各自的扭曲区域即非有效区域，文本线出现拐点的位置是文本开始出现扭曲的位置，文本线拐点探测就是要探测出这个拐点位置。对于书本左页的情况，选取左侧摄像头拍摄的图像作为基准图像，右侧摄像头拍摄的图像作为待匹配图像。

文本线拐点探测分为膨胀处理、文本线提取与拐点搜索3个步骤。

膨胀处理的目的是将相邻的黑色像素进行连接，为后面提取二值图像文本中心线做准备，其方法为：对于文本图像中每个像素值为0的点，若坐标为(x，y)，则对坐标为(x-2n，y)、(x2n+1，y)、(x-2n+2，y)、......(x，y)、......(x+2n-2，y)、(x+2n-1，y)、(x+2n，y)的点的像素值均赋值为0。

文本线提取的目的是找出扭曲的轮廓线，为后面拐点的搜索做准备，其方法为：首先建立目标图像数据区，对整个目标图像数据区赋值为255。然后扫描膨胀处理后的图像数据区，对于每一列像素点，从上到下进行扫描，如遇像素点为0，记此时的纵坐标为y₁，在继续向下扫描，如遇像素点为255，记此时的纵坐标为y₂，则这列首行文本的文本线位置为(y₁+y₂)/2，在目标图像数据区中对此列的这一位置的图像像素点赋值为0，这样可以得到首行文本线。同理，可以得到文本图像中各行的文本线位置。

拐点搜索的目的是找到文本线扭曲的拐点位置，为求取基准特征线做准备，其方法为：对于拍摄的右页的基准图像(即右侧摄像头拍摄的图像，由于其非变形区域较大，所以选为基准图像)数据，对于其文本线图像数据区，从右向左进行扫描第一条文本线上的像素点，扫描的起点为第一条文本线右边界左移n个像素的文本线上的像素点，n为前面的局部窗口宽度。对于文本线上的某像素点，若其坐标为(x，y)，首先计算文本线上横坐标为x-n，x-n+1，x-n+2，......，(x，y)，......，x+n-2，x+n-1，x+n各点的平均纵坐标y₃，然后计算文本线上横坐标为x-3n，x-3n+1，x-3n+2，......，x-2n，......，x-n-2，x-n-1，x-n各点的平均纵坐标y₄，最后，如果y₃-y₄＞1，则点(x，y)为拐点位置，否则继续对文本线上横坐标为x-1的像素点进行探测。上述“x-3n”是经验参数，可根据计算结果的精度要求选择其它值，本发明不限于此。上述“y₃-y₄＞1”中的“1”值也是经验值，可根据计算结果的精度要求选择其它值，本发明不限于此。

对于拍摄的左页图像数据，对其基准图像(即左侧摄像头拍摄的图像，由于其非变形区域较大，所以选为基准图像)的文本线图像数据区，从左向右进行扫描第一条文本线上的像素点，依上述方法进行拐点探测。

2-3)基于区域限定的像素点匹配

在拐点位置所在的垂直线上选取若干点作为基准特征点，该垂直线，即横线区和空白区的交界处，便是扭曲区域和非扭曲区域的分割线，称为基准特征线，如图5所示。在图像匹配过程中，由于基准图像的基准特征线上的基准特征点所对应的在待匹配图像中的匹配点所在的位置应该在基准特征线位置某一邻域内。为了提高图像配准的效率，本发明采用区域限定的方法，即从待匹配图像的基准特征线位置的邻域区域中去寻找所给定基准图像的基准特征点的相应匹配点，如图6所示，其中交叉线区即为该邻域区域，作为待搜索区域。基于区域限定的像素点匹配分为特征点选取、区域限定、模板匹配三个步骤：

特征点选取的目的是在基准图像中找出3个待匹配点(本发明不限于此，即可以是其它数量的待匹配点，数量越多，精度越高)，为模板匹配做好准备，其方法为：在基准图像中，若拐点坐标为(x₅，y₅)，从上向下扫描文本线图像缓冲区中横坐标为x₅的像素点，得到最后一个像素值为0的像素点的坐标为(x₅，y₆)，则横坐标为x₅，纵坐标分别为离

与

最近的文本线上的点选为待匹配点，记其坐标分别为(x₅，y₇)、(x₅，y₈)与(x₅，y₉)。

区域限定的目的是限定在待匹配图像中，确定匹配特征点的搜索范围，以提高搜索效率，为模板匹配做好准备。其方法为：首先把基准灰度图像与待匹配灰度图像均进行高宽等比例缩小，缩小至大约400*500像素的大小，得到其缩小的比例系数为k，例如原图像的大小为2000*2500像素，可以用每4个邻近像素的平均灰度值作为一个缩小后图像的像素的像素值。然后计算缩小后图像拐点的横坐标为

特征点的位置为

与

设缩小后图像的宽度为w，则在待匹配图像中搜索的范围限定为横坐标为到

的图像区域数据。但该区域大小为优选值，本发明并不限于此，还可以根据待识别页面的扭曲程度对该限定区域的大小进行调整。

模板匹配的目的是在待匹配图像中找到与基准图像中特征点匹配的匹配点，为2幅图像中有效区域的整合做好准备。其方法为：在缩小后的基准灰度图像中，以特征点为中心，建立(2n+1)*(2n+1)的局部窗口，以其局部窗口中的像素灰度值作为模板T，即模板中各像素点的灰度值为T(x，y)；同样在待匹配图像中的限定匹配区域里，也以各像素点为中心建立(2n+1)*(2n+1)的局部窗口，以其局部窗口中的像素灰度值作为模板S，即模板中各像素点的灰度值为S(x，y)；以坐标为(i，j)的像素点为中心的模板S与模板T的相似度计算公式为：

R (i, j) = \frac{Σ_{x = 1}^{2 n + 1} Σ_{y = 1}^{2 n + 1} [s_{i, j} (x, y) * T (x, y)]}{\sqrt{Σ_{x = 1}^{2 n + 1} Σ_{y = 1}^{2 n + 1} {[s_{i, j} (x, y)]}^{2}} \sqrt{Σ_{x = 1}^{2 n + 1} Σ_{y = 1}^{2 n + 1} {T (x, y)]}^{2}}} - - - (3)

根据施瓦兹不等式可知0＜R(i，j)＜1，当模板S在待匹配图像中的限定匹配区域里移动一遍后所求得的最大R(i，j)处的(i，j)点就是本特征点的最佳匹配点。依次求得

与

的匹配点，记其坐标分别为

与

(\frac{1}{k} x_{12}, \frac{1}{k} y_{12}) .

2-4)区域整合

选定了基准特征点并找到了其相应的匹配点之后，便可以对两幅图像中扭曲较小的有效区域进行整合，从而产生左右两侧都是扭曲变形较小的文本图像，也就是将两幅图像有效部分结合起来形成可识别的完整文本图像。最后将这张完整文本图像经由主机的图像文字识别软件(OCR)进行识别处理，从而识别出页面上的文字，并进而可进行语音朗读。其步骤分为参数求解、数据整合和识别与朗读三个步骤。

基准图像中非有效区域的各像素点(x，y)与对应待匹配图像中有效区域中的像素点(x’，y’)存在一定的对应关系，即其坐标值x、y与x’、y’间存在一定的映射关系，参数求解的目的是求解这种映射关系的映射参数，为区域整合中的目标点坐标值的计算做好准备，其方法为：

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] + [\begin{matrix} a_{13} \\ a_{23} \end{matrix}] - - - (4)

其中

[\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix}]

与

[\begin{matrix} a_{13} \\ a_{23} \end{matrix}]

为实矩阵。根据前面在基准图像中给出的三个特征点的三对坐标值(x₅，y₇)、(x₅，y₈)与(x₅，y₉)，以及后来在待匹配图像中匹配的三个匹配点的三对坐标值(x₁₀，y₁₀)、(x₁₁，y₁₁)与(x₁₂，y₁₂)，代入上述方程，可求解出a₁₁、a₁₂、a₁₃、a₂₁、a₂₂与a₂₃六个参数。

数据整合的目的是使扭曲较小部分图像区域的图像数据整合在一起。其方法为：对于基准图像中的有效区域，各像素点的像素灰度值维持不变，对于非有效区域中各像素点的像素值依其本身坐标(x，y)，及上步求解的a₁₁、a₁₂、a₁₃、a₂₁、a₂₂与a₂₃六个参数，代入公式：

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] + [\begin{matrix} a_{13} \\ a_{23} \end{matrix}] - - - (5)

求解对应坐标(x’，y’)，并依在待匹配图像中坐标为(x’，y’)的像素点的灰度值进行赋值。

对上述整合后的数据，可通过OCR软件对其进行文字识别。如果用户需要，还可通过TTS软件对识别后的文本信息进行发音朗读。

上述实施例及附图仅用以说明本发明的技术原理，并不用以限制本发明。本领域的技术人员可以对本发明的技术方案做同等变化与修改，本发明的保护范围应以权利要求书的限定为准。

Claims

1.一种文本识别方法，其步骤包括：

2)提取所述两张图像的文本线并进行拐点探测；

2.如权利要求1所述的方法，其特征在于，对步骤1)所述两张图像进行预处理，包括灰度化、二值化和去噪处理。

3.如权利要求2所述的方法，其特征在于，提取所述文本线前对所述两张图像进行膨胀处理。

4.如权利要求1所述的方法，其特征在于，所述区域限定是将待匹配图像中搜索的范围限定为横坐标为

到

的图像区域数据，其中k为基准灰度图像与待匹配灰度图像等比例缩小的比例系数，

为缩小后图像拐点的横坐标，w为缩小后图像的宽度。

5.如权利要求1所述的方法，其特征在于，所述模板匹配的相似度计算公式为：

R (i, j) = \frac{Σ_{x = 1}^{2 n + 1} Σ_{y = 1}^{2 n + 1} [s_{i, j} (x, y) * T (x, y)]}{\sqrt{Σ_{x = 1}^{2 n + 1} Σ_{y = 1}^{2 n + 1} {[s_{i, j} (x, y)]}^{2}} \sqrt{Σ_{x = 1}^{2 n + 1} Σ_{y = 1}^{2 n + 1} {T (x, y)]}^{2}}}

其中，T为基准图像中局部窗口的像素灰度值模板，S为待匹配图像中局部窗口的像素灰度值模板。

6.如权利要求1所述的方法，其特征在于，步骤4)中对所述两张图像进行整合时，通过参数求解确定基准图像中非有效区域的各像素点与对应待匹配图像中有效区域的各像素点的映射关系。

7.一种应用如权利要求1-6任一项所述方法的文本识别系统，其包括：

第一摄像装置；

第二摄像装置；

信息显示装置，以及

8.如权利要求7所述的系统，其特征在于，所述横杆为弧形杆或直杆。

9.如权利要求7所述的系统，其特征在于：所述横杆在所述支柱上的高度可调，所述横杆与所述支柱之间的距离可调，所述摄像装置在所述横杆上的位置可调。

10.如权利要求7所述的系统，其特征在于，所述信息处理装置内安装TTS语音转换软件，实现对识别出的文字进行语音朗读。