CN103839058A

CN103839058A - 一种基于标准模版的文档图像的信息定位方法

Info

Publication number: CN103839058A
Application number: CN201210477308.6A
Authority: CN
Inventors: 胡希驰; 史培培; 杨镜
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2012-11-21
Filing date: 2012-11-21
Publication date: 2014-06-04

Abstract

本发明公开了一种基于标准模版的文档图像的信息定位方法，该方法首先将待处理图像进行二值化处理和连通域分析，得到一系列候选连通域，然后查找候选连通域中具有易识别特征的连通域群；根据所获取的具有易识别特征的连通域对待处理图像的灰度图像进倾斜校正和透视校正；最后根据易识别特征的连通域的位置定位校正后图像中的待识别信息位置。本发明所述的方法为直接利用图像的识别提供定位方法，采集过程简单，不需要专门的设备，也不需要设计专有的条码，该方法适用性更广。

Description

一种基于标准模版的文档图像的信息定位方法

技术领域

本发明图像处理领域，具体涉及一种基于标准模版的文档图像的信息定位方法。

背景技术

在文档图像处理中，有一类文档是一些具有特定模板的。比如各种证件、银行票据、快递运单、火车票等。对于此类文档图像的获取，可能会有扫描仪扫描的形式，也可能有相机、手机摄像头等移动、手持设备的拍摄。该类型的文档中，除了文字信息，往往还存在图像、表格，且排列方式比较多样（相比图书类文档）；文字的背景有时还有底纹干扰；除了印刷字体，还会存在手写字体。同时，在扫描仪获取的图像中，往往会出现文档的倾斜现象；在相机、手机摄像头等移动、手持设备的拍摄中，由于拍摄角度问题，文档图像会出现一定的形变。为了更好的进行信息提取，包括文字识别，以及信息内容属性，有必要准确的定位出各个信息的位置，并进行一定的校正。以上情况，导致直接定位需要提取的信息位置存在很大难度。

现有的技术在识别时有许多采用磁条、RFID（射频识别Radio FrequencyIDentification）的方式，使用这种方式进行识别需要专有设备。且必须现场识别。而采用图像的技术，可以集中采集与识别分开进行；且摄像头在当前的手机、平板电脑等移动设备上很普遍，可以大大降低采集成本，增加采集便利性。在使用图像进行信息识别、提取的技术中，有许多是利用二维码、条形码进行识别。这种方式，需要进行专门的编码设置，且信息不直观、影响版面美观。不像直接的对文字信息进行识别的方式更直观方便，且许多已有的文档中可能并不具有条形码、二维码。还有一类技术是识别各种表格图像的。这种图像一方面多为扫描仪获取，不存在透视现象；一方面，表格通过表格线的对齐较容易定位各个信息，但是对于没有表格线的情况则无能为力。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于标准模版的文档图像的信息定位方法，为直接利用图像的识别提供定位方法，提高文档图像定位的适用性。

为实现上述目的，本发明采用的技术方案如下：

一种基于标准模版的文档图像的信息定位方法，包括以下步骤：

（1）将待处理图像进行预处理；所述预处理包括对灰度图像进行二值化处理得到二值化图像，以及对二值化图像进行连通域分析得到候选连通域；

（2）查找候选连通域中具有易识别特征的连通域群；

（3）根据所获取的具有易识别特征的连通域对灰度图像进行校正；所述校正包括倾斜校正和透视校正；

（4）根据易识别特征的连通域的位置和待处理图像的标准模版定位校正后图像中的待识别信息位置；所述标准模版是指将根据实际图像获取的待处理图像进行归一化处理后的图像。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤（1）中，所述待处理图像为根据实际图像获取的文档图像，如果待处理图像为彩色图像，图像预处理还包括将彩色图像转化为灰度图像。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤（2）中，所述的具有易识别特征的连通域群是指连通域最小外接矩形位置规律排列且尺寸相同的多个连通域、或者具有特定结构和特定颜色的图形的多个连通域，或者借助OCR引擎识别关键字及其组合的连通域；位置规律排列是指连通域最小外接矩形的中心点位于同一水平线上，且连通域最小外接矩形的宽度和高度相等。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，在进行待处理图像的信息定位之前，首先获取待处理图像的标准模板，获取标准模板的具体方式为：

a．获取实际图像的实际宽、高和具有易识别特征的连通域的最小外接矩形的坐标，以及待识别信息的坐标；

b．根据实际图像获取能够被OCR识别的文档图像，确定文档图像的大小，计算图像的变换比例；所述文档图像的大小是指能够被OCR识别的文档图像的像素宽度或像素高度；图像的变换比例是指文档图像的像素宽度与实际图像的实际宽度的比值，或者是指文档图像的像素高度与实际图像的实际高度的比值；

c．根据图像变换比例，计算能够被OCR识别的文档图像的像素高度或像素宽度、具有易识别特征连通域的最小外接矩形的坐标，以及待识别信息的坐标，得到标准模版。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤（3）中，根据待处理图像的获取方式选取所要进行的校正方式，如果是扫描仪获取的图像，或者摄像头在正视角度下拍摄的图像使用倾斜校正；如果是摄像头大角度拍摄的图像，使用透视校正。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤（3）中，进行倾斜校正的具体方式为：

1）计算所有具有易识别特征的连通域的最小外接矩形中心点坐标；

2）将所有具有易识别特征的连通域的最小外接矩形中心点坐标作为hough变换的输入，根据hough变换算法计算灰度图像的倾斜角度；

3）按照倾斜角度将灰度图像转正。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤（3）中，进行透视校正的具体方式为：

①选择具有易识别特征的连通域中的任意四个连通域，计算四个连通域最小外接矩形的中心点坐标；所述四个连通域的最小外接矩形的中心点不位于同一条直线上；

②根据四个连通域最小外接矩形的中心点坐标和标准模板中对应的四个连通域最小外接矩形的中心点坐标，计算灰度图像的透视变换系数；

③根据透视变换系数，将有效区域内的灰度图像进行透视校正，得到校正后的灰度图像；所述有效区域是指包括有用信息的区域。

进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤②中，计算灰度图像的透视变换系数的具体方式为：

设所述四个连通域最小外接矩形的中心点坐标为（X,Y），标准模板中对应的四个连通域最小外接矩形的中心点坐标为(Xt,Yt)，根据如下透视变换公式计算得到透视变换系数a、b、c、d、e、f、g、h：

Xt = \frac{aX + bY + c}{gX + hY + 1}

Yt = \frac{dX + eY + f}{gX + hY + 1} .

再进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤③，根据透视变换系数进行透视校正的具体方式为：

设待处理图像的灰度图像中的任一像素点的坐标为（x,y），像素值为I，透视变换后该像素点的像素值为I，坐标为（x_t,y_t），则

x_{t} = \frac{ax + by + c}{gx + hy + 1}

y_{t} = \frac{dx + ey + f}{gx + hy + 1} .

更进一步，如上所述的一种基于标准模版的文档图像的信息定位方法，步骤（4）中，根据易识别特征的连通域的位置和待处理图像的标准模版定位校正后图像中的待识别信息位置的具体方式为：

根据具有易识别特征的连通域的最小外接矩形的中心点坐标信息定位待处理图像的原点，并根据所要识别的待处理图像的标准模版中的待识别信息相对标准模板原点的偏移量，定位校正后图像中的待识别信息位置。

本发明的有益效果在于：本发明为直接利用图像的识别提供定位方法，该方法信息采集过程简单，不需要专用，相对利用图像条形码、二维码的识别，具有信息直观、不影响版面排布的优点，且不需要编码设计，可处理已有无条码的文档等优点，相对于仅利用表格线的方式，适用性更广。

附图说明

图1为本发明一种基于标准模版的文档图像的信息定位方法的流程图；

图2为实施例中二值化处理后的图像；

图3为实施例中进行连通域分析后得到的候选连通域示意图；

图4为实施例中进行倾斜调整后再次进行连通域分析后得到连通域示意图；

图5为实施例中透视变换后的图像；

图6为实施例中透视变换后信息定位区域的示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

图1示出了本发明一种基于标准模版的文档图像的信息定位方法的流程图，该方法主要包括以下步骤：

步骤S11：将待处理图像进行预处理，得到候选连通域；

首先，将待处理图像进行预处理，本发明中的待处理图像指的是需要进行信息提取的具有特定模版的文档图像，例如通过扫描仪获取的证件或者票据的文档图像，也可以是通过相机或手机摄像头获得的文档图像。对待处理对象进行预处理包括对图像进行二值化处理得到二值化图像，以及对二值化图像进行连通域分析得到候选连通域，如果待处理图像为彩色图像，需要首先对待处理图像进行灰度化，得到灰度图像，再对灰度图像进行二值化处理及连通域分析。本实时方式中的二值化处理方法和连通域分析方法均采用现有的技术，例如OTSU（最大类间差法）的二值化方法，或者Sauvola二值化方法，连通域分析可以采用基于邻域搜索的连通域分析方法，通过联通与分析得到二值化图像的一系列候选连通域，标记候选连通域的最小外接矩形。

步骤S12：查找候选连通域中具有易识别特征的连通域群；

查找候选连通域中具有易识别特征的连通域群，具有易识别特征的连通域群是指满足下列条件之一的多个连通域：

1）连通域的最小外接矩形位置规律排列且尺寸相同；位置规律排列是指连通域最小外接矩形的中心点位于同一水平线上，且连通域最小外接矩形的宽度和高度相等。

2）特定结构和特定颜色的图形的多个连通域；对于具有特定模板的一些文档，例如身份证，这些文档图像中会有一些特定结构和特定颜色，例如身份证背面的国徽就是具有特定形状（类似圆形）和特定颜色（红色）的结构，那么这部分的具有特定结构和特定颜色的连通域也是具有易识别特征的连通域。

3）借助OCR引擎识别关键字及其组合的连通域。

步骤S13：根据所获取的具有易识别特征的连通域对灰度图像进行校正；

根据所获取的具有易识别特征的连通域对待处理图像的灰度图像进行校正，校正包括倾斜校正和透视校正两种。选取校正方式时，根据待处理图像的获取方式选取所要进行的校正方式，如果是扫描仪获取的图像，或者摄像头在正视角度下拍摄的图像可以仅使用倾斜校正；如果是摄像头大角度拍摄的图像，需要使用透视校正。进行倾斜校正的具体方式为：

3）按照倾斜角度将灰度图像转正。

进行透视校正的具体方式为：

②根据四个连通域最小外接矩形的中心点坐标和标准模板中对应的四个连通域最小外接矩形的中心点坐标，计算灰度图像的透视变换系数；计算灰度图像的透视变换系数的具体方式为：

Xt = \frac{aX + bY + c}{gX + hY + 1}

Yt = \frac{dX + eY + f}{gX + hY + 1} .

③根据透视变换系数，将有效区域内的灰度图像进行透视校正，得到校正后的灰度图像；所述有效区域是指包括有用信息的区域，由于文档拍摄时不一定占满整个图像，有小区域是指拍摄下来的文档图像中的信息。根据透视变换系数进行透视校正的具体方式为：

设待处理图像的灰度图像中的任一像素点的坐标为（x,y），像素值为I，透视变换后该像素点的像素值为I，坐标为（x_t.，y_t），则

x_{t} = \frac{ax + by + c}{gx + hy + 1}

y_{t} = \frac{dx + ey + f}{gx + hy + 1} .

由于上述步骤②中计算透视变换系数时，需要用到所选取的四个连通域在标准模板中对应的四个连通域最小外接矩形的中心点坐标，因此，本发明所述的方法在进行待处理图像的信息定位之前，需要首先获取待处理图像的标准模板，获取标准模板的具体方式为：

a．获取实际图像的实际宽、高和具有易识别特征连通域的最小外接矩形的坐标，以及待识别信息的坐标；

b．根据实际图像获取能够被OCR识别的文档图像，确定文档图像的大小，计算图像的变换比例；所述文档图像的大小是指文档图像的像素宽度或像素高度；图像的变换比例是指文档图像的像素宽度与实际图像的实际宽度的比值，或者是指文档图像的像素高度与实际图像的实际高度的比值；其中，能够被OCR识别的文档图像可以是能够通过OCR进行文档中文字清楚识别的最小图像，当然也可以是像素大于能够上述最小图像的图像；用户可以根据实际需要选取能够被OCR识别的文档图像，但前提是该文档图像的信息能够基本都被OCR识别出来；

c．根据图像变换比例，计算文档图像的像素高度或像素宽度、具有易识别特征连通域的最小外接矩形的坐标，以及待识别信息的坐标，得到标准模版。

本实施方式中的倾斜校正和透视校正都是对灰度图像进行处理的，虽然也可以使对二值图像进行处理，但是如果直接对二值图像旋转，准确率会下降。

步骤S14：根据易识别特征的连通域的位置定位校正后图像中的待识别信息位置；

根据易识别特征的连通域的位置和待处理图像的标准模版定位校正后图像中的待识别信息位置。标准模版是指将根据实际图像获取的待处理图像进行归一化处理后的图像。待识别信息包括待处理图像中除了具有易识别特征的连通域的文档信息之外其它不容易被识别的文档信息，例如，以身份证背面图像作为待处理图像时，该待处理图像中的“中华人民共和国”以及“居民身份证”这些文档信息对于不同的身份证图像来说都是一样的，其连通域是具有易识别特征的，而身份证的签发机关以及证件的有效期很可能是不同的，也是不易识别的，而这些不易识别的文档信息就属于待识别信息。

根据易识别特征的连通域的位置和待处理图像的标准模版定位校正后图像中的待识别信息位置的具体方式为：

据具有易识别特征的连通域的最小外接矩形的中心点坐标信息定位待处理图像的原点，并根据所要识别的待处理图像的标准模版中的待识别信息相对标准模板中原点的偏移量，定位校正后图像中的待识别信息位置。

下面结合具体的实施例对本发明的方法进行进一步的说明。

实施例

本实施例中以身份证背面图像作为待处理图像为例对本发明进行进一步的说明。需要说明的是，本实施例只是为了对本发明的方法进行进一步的举例说明，通过本发明的方法对本实施例中待识别信息即图6中的“签发机关”和“有限期限”部分的区域坐标进行标记定位，为了去除灰度的影响，附图中的图像均采用了简单示意图的方式，例如图2中的二值化图像，在对身份证进行背面图像拍摄或者采用扫描的方式得到的待处理图像中，除了图中所示出的文字内容外，还应有背景，本实施例在进行说明时，没有对背景部分的内容进行考虑。

通过手机拍摄获取身份证背面图像，得到待处理图像。获取待处理图像后，对待处理图像进行预处理，本实施例中首先将得到的身份证背面图像（彩色图像）进行灰度化，得到灰度图像，然后对灰度图像进行二值化处理，得到二值化图像。在进行图像二值化处理时，均可以采用常用二值化算法，例如OTSU（最大类间差法）的二值化方法，或者Sauvola二值化方法。本实施例中采用Sauvola二值化方法得到的二值化图像如图2所示。得到二值化图像后，在二值化图像中进行连通域分析，得到一系列候选连通域，如图3所示中的矩形框标记，之后计算所有连通域的最小外接矩形的中心点坐标，将所有连通域的中心点坐标作为hough变换的输入，利用hough算法计算得到图像的倾斜角度，本实施例中进行hough检测倾斜角度为逆时针2.2度，然后将灰度图像反方向旋转2.2度完成倾斜校正。在完成倾斜校正的灰度图基础上再次进行图像二值化处理与连通域分析，得到一系列候选连通域，如图4中的矩形标记为连通域的最小外接矩形。经过一次倾斜校正后，字符所代表的连通域基本位于水平。在所有的连通域查找具有易识别特征的连通域群，本实施例中搜索位于同一水平线上，宽度基本相等，高度也基本相等，中心点按周期排布的多个矩形，且这些矩形块依次送入OCR引擎，如果识别结果为“居”、“民”、“身”、“份”、“证”5个字，以及“中”“华”“人”“民”“共”“和”“国”7个字，则完成了易识别特征定位，得到了具有易识别特征的连通域群，即“居民身份证”五个字的连通域组成的连通域群，以及“中华人民共和国”7个字组成的连通域群，然后计算任意四个不在同一条直线上的具有易识别特征的连通域的最小外接矩形的中心点坐标P1(X1,Y1)，P2(X2,Y2)，P3(X3,Y3)，P4(X4,Y4)，再根据标准模版中对应的四个不在同一条直线上的具有易识别特征的连通域的最小外接矩形的中心点坐标Pt1(Xt1,Yt1)，Pt2(Xt2,Yt2)，Pt3(Xt3,Yt3)，Pt4(Xt4,Yt4)，带入透视变换公式，计算变换系数；

Xt = \frac{aX + bY + c}{gX + hY + 1}

Yt = \frac{dX + eY + f}{gX + hY + 1} .

其中，Xt表示标准模版中的具有易识别特征的连通域的最小外界矩形的中心点坐标的横坐标，Yt表示标准模版中的具有易识别特征的连通域的最小外界矩形的中心点坐标的纵坐标，X表示待识别图像中的具有易识别特征的连通域的最小外界矩形的中心点坐标的横坐标，Y表示待识别图像中的具有易识别特征的连通域的最小外界矩形的中心点坐标的纵坐标；

将上述坐标带入透视变换公式中，共8个未知数a、b、c、d、e、g、d、h，由4对点构成8个方程，可解得到变换系数a、b、c、d、e、g、d、h，计算出变化系数后，根据变换系数变换图像，设待处理图像中的任意像素点的坐标(x,y)，像素值为I，根据计算得到的变换系数a、b、c、d、e、g、d、h及上述变换公式，得到变换后的位置为(x_t,y_t)，变换后的该像素点的像素值不变，仍为I。采用这种方式遍历待处理图像中所有像素点，逐个计算，即可得到变换后的像素点的位置及像素值，本实施例变换后如图5所示。最后再根据标准模板中的待识别信息相对标准模板原点的偏移量，定位校正后图像中的待识别信息位置，本实施例中的待识别信息为“签发机关”和“有效期限”区域的内容，根据标准模版中“签发机关”和“有效期限”区域坐标相对标准模板中原点的偏移量，定位待处理图像中相应部分的位置信息，如图6所示。

以该实施例说明关于标准模板的制作方法：

1.获得一张二代身份证（实际图像）；

2.利用尺子测量身份证的宽、高、易识别特征的坐标、待识别信息的区域坐标。本例中身份证宽度为W1=855mm，高度为H1=540mm。

3.确定能被OCR较好识别的图像大小，如宽度为W2=1280（像素），高度为H2

4.按照宽度计算变换比例

R = \frac{W_{2}}{W_{1}}

5.按照变换比例，逐个计算出模板图像的像素高度、各个易识别特征坐标、待识别信息坐标，得到实际图像的标准模版。以高度为例

H₂=H₁*R。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于标准模版的文档图像的信息定位方法，包括以下步骤：

（2）查找候选连通域中具有易识别特征的连通域群；

（4）根据具有易识别特征的连通域的位置和待处理图像的标准模版定位校正后图像中的待识别信息位置；所述标准模版是指将根据实际图像获取的待处理图像进行归一化处理后的图像。

2.如权利要求1所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：步骤（1）中，所述待处理图像为根据实际图像获取的文档图像，如果待处理图像为彩色图像，图像预处理还包括将彩色图像转化为灰度图像。

3.如权利要求1所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：步骤（2）中，所述的具有易识别特征的连通域群是指连通域最小外接矩形位置规律排列且尺寸相同的多个连通域、或者具有特定结构和特定颜色的图形的多个连通域，或者借助OCR引擎识别关键字及其组合的连通域；位置规律排列是指连通域最小外接矩形的中心点位于同一水平线上，且连通域最小外接矩形的宽度和高度相等。

4.如权利要求1所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：在进行待处理图像的信息定位之前，首先获取待处理图像的标准模板，获取标准模板的具体方式为：

5.如权利要求1至4之一所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：步骤（3）中，根据待处理图像的获取方式选取所要进行的校正方式，如果是扫描仪获取的图像，或者摄像头在正视角度下拍摄的图像使用倾斜校正；如果是摄像头大角度拍摄的图像，使用透视校正。

6.如权利要求5所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：步骤（3）中，进行倾斜校正的具体方式为：

3）按照倾斜角度将灰度图像转正。

7.如权利要求5所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：步骤（3）中，进行透视校正的具体方式为：

8.如权利要求7所述的一种基于标准模版的文档图像的信息定位方法，其特征在于，步骤②中，计算灰度图像的透视变换系数的具体方式为：

Xt = \frac{aX + bY + c}{gX + hY + 1}

Yt = \frac{dX + eY + f}{gX + hY + 1} .

9.如权利要求8所述的一种基于标准模版的文档图像的信息定位方法，其特征在于，步骤③，根据透视变换系数进行透视校正的具体方式为：

x_{t} = \frac{ax + by + c}{gx + hy + 1}

y_{t} = \frac{dx + ey + f}{gx + hy + 1} .

10.如权利要求1至4之一所述的一种基于标准模版的文档图像的信息定位方法，其特征在于：步骤（4）中，根据易识别特征的连通域的位置和待处理图像的标准模版定位校正后图像中的待识别信息位置的具体方式为：