CN104008401A

CN104008401A - 一种图像文字识别的方法及装置

Info

Publication number: CN104008401A
Application number: CN201410191249.5A
Authority: CN
Inventors: 喻民; 姜建国; 李敏; 仇新梁; 刘坤颖; 刘超; 黄超; 王菲飞; 胡波; 赵双; 王冉晴
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-05-07
Filing date: 2014-05-07
Publication date: 2014-08-27
Anticipated expiration: 2034-05-07
Also published as: CN104008401B

Abstract

本发明涉及一种图像文字识别的方法及装置，包括将获取到的不同格式的文字图像进行图像解析生成格式统一的TIFF图像；对所述TIFF图像进行图像处理得到二值图像；对所述二值图像进行矢量转换，获取所述二值图像像素阵列对应的矢量数据；将所述矢量数据与预设的英文或汉字的矢量库进行模式匹配，获取匹配的文字结果。采用本发明提出的方法及装置，能够有效识别文档图像中的文字部分，方便图像文字文档的二次编辑和处理，实现对文档图像的识别速度快、效率高、准确率好、应用范围广的效果。

Description

一种图像文字识别的方法及装置

技术领域

本发明涉及模式识别与图像处理技术领域，尤其涉及一种图像文字识别的方法及装置。

背景技术

图像二值化是指一种图像处理技术，它将灰度图像转化为单色图像，以便进行进一步的分析和处理。文档图像的应用越来越广泛，我们处理的第一步往往就是将文档图像进行二值化，在此基础上获得文字图像，再进行文字识别工作。

随着计算机技术的迅速发展，以图像文件为主的多媒体文件成为信息交流的主体。日常生活中，利用扫描仪将文档图像扫描录入计算机，从而完成纸质文档自动录入的情形也越来越多，因为无论在速度方面还是在准确率方面，扫描录入的方式都比人工录入的方式更具有优势。

然而，扫描录入的图片，在文档处理方面存在不易二次编辑，文字质量下降等诸多不足，这些方面的不足制约了扫描录入文档的应用范围，本发明的提出正好弥补了这些不足。本发明能够对扫描录入的图像的文字部分进行识别，扩大扫描录入文档的应用范围，方便对扫描录入文档的二次编辑和处理。

发明内容

(一)要解决的技术问题

本发明所要解决的技术问题是：如何有效地识别文档图像中的文字部分。

(二)技术方案

为此目的，本发明提出了一种图像文字识别的方法，包括以下步骤：

S1：将获取到的不同格式的文字图像进行图像解析生成格式统一的TIFF图像；

S2：对所述TIFF图像进行图像处理得到二值图像；

S3：对所述二值图像进行矢量转换，获取所述二值图像像素阵列对应的矢量数据；

S4：将所述矢量数据与预设的英文或汉字的矢量库进行模式匹配，获取匹配的文字结果。

优选地，所述步骤S1具体包括：

S11：获取待识别图像；

S12：判断所述待识别图像是否为TIFF格式的图像；

S13：如果不是，则对所述图像进行图像解析。

优选地，所述步骤S2具体包括：

S21：判断所述TIFF图像是否为灰度图像，如果是则直接执行步骤S23；

S22：如果不是，则对所述TIFF图像进行灰度化处理，生成灰度图像；

S23：根据中值滤波法对所述灰度图像进行去噪处理；

S24：根据最大类间方差法将去噪后的灰度图像进行二值化处理生成二值图像。

优选地，所述步骤S22具体包括：

读取待识别图像中每个像素点的R、G、B分量值，其中R代表彩色图像中红色分量值，G代表彩色图像中绿色分量值，B代表彩色图像中蓝色分量值；

根据各分量值预设的权值利用加权平均值法计算每个像素点的灰度值，生成灰度图像。

优选地，所述步骤S23具体包括：

创建一个3×3像素的模板；

将所述模板在图像各个像素点上依次进行移动扫描；

计算处于所述模板中所有像素点的灰度值的中间值；

将当前模板中所有像素点的灰度值设置为所述中间值。

优选地，所述步骤S24具体包括：

根据最大类间方差法确定二值化处理的阈值T；

根据所述阈值T对所述去噪后的灰度图像进行二值化处理生成二值图像，所述二值图像的像素值如下：

p (i, j) = \{\begin{matrix} 1, p (i, j) &GreaterEqual; T \\ 0, p (i, j) < T \end{matrix}

其中，P(i,j)为去噪后的灰度图像的像素值，其取值范围为[0,m]；T为二值化处理的阈值，0<T<m。

优选地，所述步骤S3具体包括：

S31：统计所述二值图像中像素值为1的像素个数，从二值位图第0行0列开始从左至右自上而下扫描；

S32：当扫描到像素点(i,j)的值为1时，以所述像素点(i,j)为基准，向右扩展一列，向下扩展一行生成由四个像素点组成的像素单元U(i,j)；以所述像素单元U(i,j)为中心分别向左向右各扩展一列，向上向下各扩展一行，生成由十六个像素点组成的预消去像素矩阵T(i,j)，以所述U(i,j)为中心向左向右各扩展两列，向上向下各扩展两行生成由三十六个像素点组成的6×6矩阵后，除去组成所述U(i,j)的四个像素点，将剩下的像素点生成由十六个像素单元组成的待搜索像素单元集S(i,j)；

S33：以所述像素点(i,j)的坐标作为轮廓线起点坐标，根据预设的方向对所述待搜索像素单元集S(i,j)进行节搜索；

S34：判断节搜索中最后一个值为1的像素单元为中心向外扩展成的8×8像素矩阵中的64像素点是否包含轮廓线起点坐标，若包含则记录所述轮廓线起点坐标，若不包含则退出处理过程。

此外，本发明还提出了一种图像文字识别的装置，所述装置包括：

解析模块，用于将获取到的不同格式的文字图像进行图像解析生成格式统一的TIFF图像；

处理模块，用于对所述TIFF图像进行图像处理得到二值图像；

转换模块，用于对所述二值图像进行矢量转换，获取所述二值图像像素阵列对应的矢量数据；

匹配模块，用于将所述矢量数据与预设的英文或汉字的矢量库进行模式匹配，获取匹配的文字结果。

优选地，所述解析模块包括：

图像获取单元，用于获取待识别图像；

判断单元，用于判断所述待识别图像是否为TIFF格式的图像；

解析单元，用于当所述待识别图像不是TIFF格式的图像时，对所述图像进行图像解析。

优选地，所述处理模块包括：

判断单元，用于判断所述TIFF图像是否为灰度图像；

灰度处理单元，用于当所述TIFF图像不是灰度图像时，对所述TIFF图像进行灰度化处理，生成灰度图像；

去噪单元，用于根据中值滤波法对所述灰度图像进行去噪处理；

二值化单元，用于根据最大类间方差法将去噪后的灰度图像进行二值化处理。

(三)有益效果

采用本发明提出的一种图像文字识别的方法及装置，能够有效识别文档图像中的文字部分，方便图像文字文档的二次编辑和处理，实现对文档图像的识别速度快、效率高、准确率好、应用范围广的效果。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1是本发明一种图像文字识别的方法流程图；

图2是本发明实施例中进行图像解析生成格式统一的TIFF图像的流程图；

图3是本发明实施例中对TIFF图像进行图像处理得到二值图像的流程图；

图4是本发明一种图像文字识别的装置模块图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

本发明实施例提出了一种图像文字识别的方法，如图1所示，包括以下步骤：

S2：对所述TIFF图像进行图像处理得到二值图像；

S4：将所述矢量数据与预设的英文或汉字的矢量库进行模式匹配(相似性匹配)，获取匹配的文字结果。

矢量库包括英文或汉字，常用的矢量字库如宋体、仿宋体、楷体等。

其中，如图2所示，所述步骤S1进行图像解析生成格式统一的TIFF图像具体包括：

S11：获取待识别图像；

S12：判断所述待识别图像是否为TIFF格式的图像；

S13：如果不是，则对所述图像进行图像解析，可以解析的文件包括bmp、jpg、png、gif、tif、dib等格式，如果是则执行进行S14进行进一步处理，S14:判断解析后的图像是否为灰度图像

其中，进行图像解析后执行步骤S2对所述TIFF图像进行图像处理得到二值图像，如图3所示，具体包括：

S23：根据中值滤波法对所述灰度图像进行去噪处理，设f(x,y)表示数字图像的像素点在(x,y)处的灰度值，假设中值滤波器的滤波窗口为A，定义为：(x,y)∈A，利用该公式计算滤波之后每个点的灰度值。

其中，步骤S22具体包括：

根据各分量值预设的权值利用加权平均值法计算每个像素点的灰度值，生成灰度图像，具体包括：

读取彩色图像的每个像素点的R，G，B分量值，则灰度值可以利用如下公式计算，

Gray＝a_rR+a_gG+a_bB

考虑到人的视觉感观因素，调整式中R、G、B各分量在灰度化时对灰度值的贡献分别为a_r＝0.3008,a_g＝0.5859,a_b＝0.1133，上式即为，

Gray＝0.3008R+0.5859G+0.1133B

又因为计算机的整数运算比浮点运算更加高效，可以用下式等效替代上式，

Gray＝(R×30+G×59+B×11+50)/100

利用如上公式计算灰度图像中每个点的灰度值，将彩色图像转换为灰度图像。

其中，步骤S23具体包括：

创建一个3×3像素的模板；

将所述模板在图像各个像素点上依次进行移动扫描；将所述3×3大小的模板从上至下，从左至右在图像上进行移动，将这个模板移动在各个像素上，对每个像素使用该模板；

计算处于所述模板中所有像素点的灰度值的中间值；

将当前模板中所有像素点的灰度值设置为所述中间值，用当前模板中所有像素的灰度值的中间值取代当前像素的灰度值。

其中，步骤S24具体包括：

根据最大类间方差法确定二值化处理的阈值T；其中，确定阈值T进一步包括：把具有T以下的灰度值的像素和具有比T大的灰度值的像素分为两类，设为类1和类2，类1中的像素数量为W₁(T)，灰度值的均值为M₁(T)，方差为σ₁(T)，同样类2中的像素数为W₂(T)，灰度值的均值为M₂(T)，方差为σ₂(T)，全体像素的平均值为M_T；

计算类内方差，公式如下：

σ_w ²＝W₁(T)σ₁ ²(T)+W₂(T)σ₂ ²(T)

计算类间方差，公式如下：

σ_b ²＝W₁(T)(M₁(T)-M_T)²+W₂(T)(M₂(T)-M_T)²＝W₁(T)W₂(T)(M₁(T)-M₂(T))²

使σ_b ²/σ_w ²变得最大，即是使σ_b ²最大，求出最大的σ_b ²所对应的灰度值T即为所求的阈值。

假设给定的图像有L个灰度级，设阈值为T，把大于这个阈值的像素灰度值置为1，小于这个阈值的图像灰度值置为0，相当于用1表示前景色，而用0表示背景色；

p (i, j) = \{\begin{matrix} 1, p (i, j) &GreaterEqual; T \\ 0, p (i, j) < T \end{matrix}

其中，步骤S3具体包括：

S32：当扫描到像素点(i,j)的值V(i,j)＝1时(即该点为图像轮廓点)，以所述像素点(i,j)为基准，向右扩展一列向下扩展一行生成四个像素点组成的2×2矩阵，称为像素单元U(i,j)，以U(i,j)像素单元为中心分别向左向右各扩展一列，向上向下各扩展一行，生成十六个像素点组成的4×4矩阵，称为预消去像素矩阵T(i,j)，以U(i,j)为中心向左向右各扩展两列，向上向下各扩展两行生成三十六个像素点，组成6×6矩阵，除去组成U(i,j)的四个像素点，在剩下的像素点中任取四个像素点组成一个像素单元，生成的十六个像素单元统称为待搜索像素单元集S(i,j)，即

U(i,j)＝[(i,j),(i+1,j),(i,j+1),(i+1,j+1)]

T(i,j)＝[(i,j),(i+1,j),(i,j+1),(i+1,j+1),

(i-1,j-1),(i,j-1),(i+1,j-1),(i+2,j-1),

(i+2,j),(i+2,j+1),(i+2,j+2),(i+1,j+2),

(i,j+2),(i-1,j+2),(i-1,j+1),(i-1,j)]

S(i,j)＝{U(i+2,j),U(i+2,j+1),U(i+2,j+2),U(i+1,j+2),

U(i,j+2),U(i-1,j+2),U(i-2,j+2),U(i-2,j+1),

U(i-2,j),U(i-2,j-1),U(i-2,j-2),U(i-1,j-2),；

U(i,j-2),U(i+1,j-2),U(i+2,j-2),U(i+2,j-1)}

S33：以所述像素点(i,j)的坐标作为轮廓线起点坐标，根据预设的方向对所述待搜索像素单元集S(i,j)进行节搜索，具体包括：

按照A方向进行搜索，只作消去处理，不记录像素点坐标值，直到搜索的像素单元的值是1为止，这时记下A方向最后一次像素单元值为1时的基准像素点坐标；

以最后一次像素单元值为0的像素单元为起始搜索像素单元向B方向搜索，以上方法依次转到C方向搜索，D方向搜索，直到搜索完P方向；

判断P方向上最后一次像素单元值为0的像素单元为中心向外扩展出的节终止像素单元集W(i,j)的八个像素单元的值；

按照W(i,j)中所列像素单元判断，若找到值为0的像素单元，则继续从该值为0的像素单元开始按S(i,j)所列顺序从A方向一次扫描到P方向作相应处理，直到节终止像素单元集W(i,j)中每个像素单元的值都是1为止。(从位图第0行第0列开始扫描到节终止像素单元集中每个像素的单元的值都是0为止的搜索处理过程称为节。)

其中，预设的搜索方向(A方向，B方向……P方向)的确定进一步为：

令A方向搜索的第一个像素单元为Ua₁(i,j)，Ua₁(i,j)＝U(i+2^*1,j)第k个像素单元为Ua_k(i,j)，Ua_k(i,j)＝U(i+2^*k,j)，其中k＝1,2,3...,；

取U(i+2,j+1)，从U(i,j)到U(i+2^*1,j+1^*1)再到U(i+2^*2,j+1^*2)这样搜索像素单元的顺序称为B方向，则B方向搜索的递推公式可表示为Ub_k(i,j)＝U(i+2^*k,j+1^*k)，其中k＝1,2,3...,；

依次从S(i,j)中取出相应的像素单元，重复上述步骤，可以得到C方向，D方向，……P方向。

其中，消去处理为以像素单元的所述像素点(i,j)的坐标作为轮廓线起点坐标，置预消去像素矩阵T(i,j)中所有像素点的值为0，并相应减小像素值为1的计数。

节搜索完成之后，判断该节搜索中最后一个V(U(i,j))＝1的像素单元为中心向外扩展成的8×8像素矩阵中的64像素点是否包含轮廓线起点，若有则再记一次轮廓线起点坐标，若没有则不作任何处理；

若像素值为0的像素个数不为0，进行新一节的搜索处理，若为0，则退出处理过程。

此外，本发明实施例二还提出了一种图像文字识别的装置，如图4所示，所述装置包括：

解析模块1，用于将获取到的不同格式的文字图像进行图像解析生成格式统一的TIFF图像；

处理模块2，用于对所述TIFF图像进行图像处理得到二值图像；

转换模块3，用于对所述二值图像进行矢量转换，获取所述二值图像像素阵列对应的矢量数据；

匹配模块4，用于将所述矢量数据与预设的英文或汉字的矢量库进行模式匹配，获取匹配的文字结果。

其中，解析模块1包括：

图像获取单元，用于获取待识别图像；

判断单元，用于判断所述待识别图像是否为TIFF格式的图像；

其中，处理模块2包括：

判断单元，用于判断所述TIFF图像是否为灰度图像；

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种图像文字识别的方法，其特征在于，该方法包括以下步骤：

S2：对所述TIFF图像进行图像处理得到二值图像；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括：

S11：获取待识别图像；

S12：判断所述待识别图像是否为TIFF格式的图像；

S13：如果不是，则对所述图像进行图像解析。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

S23：根据中值滤波法对所述灰度图像进行去噪处理；

4.根据权利要求3所述的方法，其特征在于，所述步骤S22具体包括：

根据各分量值预设的权值，利用加权平均值法计算每个像素点的灰度值，生成灰度图像。

5.根据权利要求3所述的方法，其特征在于，所述步骤S23具体包括：

创建一个3×3像素的模板；

将所述模板在图像各个像素点上依次进行移动扫描；

计算处于所述模板中所有像素点的灰度值的中间值；

将当前模板中所有像素点的灰度值设置为所述中间值。

6.根据权利要求3所述的方法，其特征在于，所述步骤S24具体包括：

根据最大类间方差法确定二值化处理的阈值T；

p (i, j) = \{\begin{matrix} 1, p (i, j) &GreaterEqual; T \\ 0, p (i, j) < T \end{matrix}

7.根据权利要求1所述的方法，其特征在于，所述步骤S3具体包括：

8.一种图像文字识别的装置，其特征在于，包括：

处理模块，用于对所述TIFF图像进行图像处理得到二值图像；

9.根据权利要求8所述的装置，其特征在于，所述解析模块包括：

图像获取单元，用于获取待识别图像；

判断单元，用于判断所述待识别图像是否为TIFF格式的图像；

10.根据权利要求8所述的装置，其特征在于，所述处理模块包括：

判断单元，用于判断所述TIFF图像是否为灰度图像；