CN104200209B

CN104200209B - 一种图像文字检测方法

Info

Publication number: CN104200209B
Application number: CN201410439223.8A
Authority: CN
Inventors: 王康; 李峰岳
Original assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Current assignee: Xi'an Fenghuo Software Technology Co ltd
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2017-11-03
Anticipated expiration: 2034-08-29
Also published as: CN104200209A

Abstract

本发明涉及一种图像文字检测方法，基于全新步骤流程设计，适用面更广，并且检出率更高，不再受限于扫描件白底黑字或者黑底白字标准字体检测，可以在不同场景复杂的环境中，如照片，游行横幅，手写文字等各种场景下，将图片上的文字检测出来，且具有更高的工作效率。

Description

一种图像文字检测方法

技术领域

本发明涉及一种图像文字检测方法。

背景技术

在互联网社会，网络上存在大量的多媒体数据，图片数据在网络社会中铺天盖地，图片存在大量的视觉信息，可以将信息反映给观看人，而目前的数字图像照片编码形式全部是以红绿蓝像素组成，无法像计算机文本数据一样，轻易地直接读取字符串的形式来读取照片上的文字，当照片中有文字的时候，必须要使用人眼去辨识，因此，市面上有专门针对图片文字检测识别的产品(OCR,Optical Character Recognition)推出，如汉王，文通；虽然市面上已经推出了这些OCR产品，但是这些产品存在一定的不足，其仅可以对标准清晰白底黑字或者黑底白字排版的扫描图片进行检测和识别，而对自然场景中拍照捕获的文字，效果则很不理想。

发明内容

针对上述技术问题，本发明所要解决的技术问题是提供一种基于全新步骤流程设计，能够适用于更多扫描文件，精确获得文字信息的图像文字检测方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种图像文字检测方法，用于检测获取图片中的文字，包括如下步骤：

步骤A.将待检测图像按预设比例放大，再对待检测图像进行灰度处理，然后对经灰度处理后的待检测图像进行锐化处理；

步骤B.采用边缘提取算法提取待检测图像上的图像边缘特征，并获得图像边缘二值化图；

步骤C.针对图像边缘二值化图，采用基于边缘的区域提取算法提取图像边缘二值化图中的字符初级连通域；

步骤D.按预设筛选条件，针对各个字符初级连通域进行筛选，获得各个相互独立的字符候选连通域；

步骤E.采用层次聚类算法针对具有邻接关系的字符候选连通域进行聚类，获得文本初级候选区域集合；

步骤F.针对文本初级候选区域集合中的各个文本初级候选区域进行特征提取，并按预设文本筛选条件，针对文本候初级选区域集合进行筛选，排除非文本初级候选区域，获得文本候选区域集合；

步骤G.针对文本候选区域集合中各个文本候选区域进行特征提取，然后通过预先训练好的分类器对各个文本候选区域进行分类，排除掉伪文本候选区域，获得文本区域，即获得待检测图像中的文本区域。

作为本发明的一种优选技术方案：所述步骤A具体包括如下步骤：

步骤A01.通过高阶插值法对待检测图像按预设比例放大，再对待检测图像进行灰度处理；

步骤A02.通过高斯-拉普拉斯算子对经灰度处理后的待检测图像进行锐化处理。

作为本发明的一种优选技术方案：所述步骤A01中，通过三次多项式应用高阶插值法对待检测图像按预设比例放大。

作为本发明的一种优选技术方案：所述步骤B具体包括如下步骤：

步骤B01.采用高斯滤波器对待检测图像进行平滑滤波；

步骤B02.采用一阶偏导差分法计算获得待检测图像梯度的幅值，并进行非极大值抑制；

步骤B03.采用双阈值算法检测提取待检测图像中的图像边缘像素点，构成图像边缘特征，并对图像边缘特征进行锐化处理；

步骤B04.将待检测图像分为图像边缘区域和图像剩余区域，针对图像边缘区域和图像剩余区域，获得图像边缘二值化图。

作为本发明的一种优选技术方案：所述步骤C具体包括如下步骤：

步骤C01.针对图像边缘二值化图，由横向和纵向分别进行横向滤波和纵向滤波，获得图像边缘二值化图中各个像素点的横向梯度和纵向梯度；

步骤C02.遍历图像边缘二值化图中的各个像素点，根据像素点的横向梯度和纵向梯度，获得各个像素点的梯度方向；

步骤C03.初始化一个单通道图像作为基于边缘的区域提取算法的数据缓存图，且该单通道图像的尺寸与图像边缘二值化图的尺寸一致，该单通道图像中的各个像素点的像素值为无穷大；

步骤C04.遍历图像边缘二值化图中的各个图像边缘像素点，分别沿各个图像边缘像素点的梯度方向进行延伸，直至和另一个图像边缘像素点相连；针对上述经梯度方向延伸相连的各个图像边缘像素点，针对其中相连、且梯度方向相反的各组两个图像边缘像素点，分别获得该各组两个图像边缘像素点间连线的长度，并将该各组中两个图像边缘像素点按照其位于图像边缘二值化图中的位置，记录至基于边缘的区域提取算法的数据缓存图上，同时将该各组中两个图像边缘像素点间连线的长度记录至基于边缘的区域提取算法的数据缓存图上；

步骤C05.遍历记录在基于边缘的区域提取算法的数据缓存图上的各个图像边缘像素点，分别沿各个图像边缘像素点的梯度方向进行延伸，直至和另一个图像边缘像素点相连；并针对相连两个图像边缘像素点间连线经过的像素点的像素值进行中值稳定；

步骤C06.遍历记录在基于边缘的区域提取算法的数据缓存图上的各个图像边缘像素点，分别获得图像边缘像素点沿其梯度方向延伸至另一个图像边缘像素点间的长度，定义为图像边缘像素点的延伸长度，然后针对每一个图像边缘像素点，分别获得图像边缘像素点的延伸长度和与其相邻各个图像边缘像素点的延伸长度之间的比值，将比值<3.0对应的图像边缘像素点和与其相邻的图像边缘像素点划并为同一连通域内，获得图像边缘二值化图中的字符初级连通域。

作为本发明的一种优选技术方案：所述步骤D具体包括如下内容：根据所述各个字符初级连通域的最小外接矩形框的宽度、长度，各个字符初级连通域内像素点的个数，以及各个字符初级连通域的字符笔画宽度均值和字符笔画宽度方差，按照预设筛选条件，针对各个字符初级连通域进行筛选，获得各个相互独立的字符候选连通域；

其中，字符初级连通域的字符笔画宽度为基于边缘的区域提取算法的数据缓存图上该字符初级连通域宽度的均值；字符初级连通域字符笔画宽度方差为基于边缘的区域提取算法的数据缓存图上该字符初级连通域宽度的方差。

作为本发明的一种优选技术方案：所述步骤E具体包括如下步骤：

步骤E01.针对所述各个相互独立的字符候选连通域，建立一个无向图模型；

步骤E02.针对所述各个相互独立的字符候选连通域，分别获得彼此两个相互独立的字符候选连通域间的距离，将彼此间距离小于等于预设邻接阈值的两个相互独立的字符候选连通域定义为彼此具有邻接关系；

步骤E03.采用层次聚类算法针对具有邻接关系的字符候选连通域进行聚类，获得文本初级候选区域集合。

作为本发明的一种优选技术方案：所述步骤F具体包括如下步骤：

步骤F01.针对文本初级候选区域集合中的各个文本初级候选区域进行特征提取，构成特征向量；

步骤F02.针对文本初级候选区域集合中的各个文本初级候选区域，通过预先训练好的分类器进行分类，判断该文本初级候选区域是否为字符，并对分类结果进行统计，若该文本初级候选区域中经分类器判断为字符的文本初级候选区域数量大于1，则认为该文本初级候选区域为文本候选区域；否则认为该文本初级候选区域为非文本初级候选区域，进行排除，进而获得文本候选区域集合。

本发明所述一种图像文字检测方法采用以上技术方案与现有技术相比，具有以下技术效果：基于全新步骤流程设计，适用面更广，并且检出率更高，不再受限于扫描件白底黑字或者黑底白字标准字体检测，可以在不同场景复杂的环境中，如照片，游行横幅，手写文字等各种场景下，将图片上的文字检测出来，且具有更高的工作效率。

附图说明

图1是本发明设计图像文字检测方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明设计一种图像文字检测方法，用于检测获取图片中的文字，在实际应用过程中，包括如下步骤：

步骤A.将待检测图像按预设比例放大，再对待检测图像进行灰度处理，然后对经灰度处理后的待检测图像进行锐化处理，具体包括如下步骤：

步骤A01.通过三次多项式应用高阶插值法对待检测图像按预设比例放大，将图像DPI(Dots Per Inch)调整至300，用于增强低分辨率图像下的文字检测效果，再对待检测图像进行灰度处理；

其中，三次多项式高阶插值放大：在图像放大过程中，放大会对图像的细节产生模糊作用，会影响后面的处理效果，这里在图像的放大过程中采用三次多项式来逼近理论上最佳插值函数从而保证图像细节放大的同时不失真，所采用的三次多项式如下：

上式中，S为三次多项高阶插值函数，|x|是周围像素沿x方向与原点的距离，待求像素点(x,y)的灰度值由其周围的16个像素点的灰度值加权得到，计算公式如下：

f(x,y)＝f(i+u,j+v)＝A*B*C

其中：

(i,j)为待检测图像的原始图像中任意一个像素点的坐标，u和v分别表示待检测图像的原始图像在经比例放大过程中横坐标与纵坐标的偏移量，S为三次多项高阶插值函数，B为待检测图像的原始图像中(i,j)像素点周围16个像素点的灰度值所组成的矩阵，A和C为利用三次多项高阶插值函数求出的像素点灰度权重向量。

步骤A02.通过高斯-拉普拉斯算子对经灰度处理后的待检测图像进行锐化处理，在取得较好的锐化效果的同时，把噪音干扰降到最低，这里将高斯平滑算子和锐化拉普拉斯算子联合起来，对经放大处理后的待检测图像进行锐化处理；

步骤B.采用边缘提取算法提取待检测图像上的图像边缘特征，并获得图像边缘二值化图，具体包括如下步骤：

步骤B01.采用高斯滤波器对待检测图像进行平滑滤波；

步骤B04.将待检测图像分为图像边缘区域和图像剩余区域，针对图像边缘区域和图像剩余区域，获得图像边缘二值化图，其中，实际应用中，图像剩余区域用0表示非边缘，图像边缘区域用255表示；

步骤C.针对图像边缘二值化图，采用基于边缘的区域提取算法提取图像边缘二值化图中的字符初级连通域，可以采用如MSER(Maximal Stable External Region)，黑白图像二值化分割，彩色图像特定文字颜色阈值分割等等基于边缘的区域提取算法，诸如采用SWT(Stroke Width Transformation)算法提取图像边缘二值化图中的字符初级连通域，具体包括如下步骤：

步骤C01.针对图像边缘二值化图，使用Sobel算子，由横向和纵向分别进行横向滤波和纵向滤波，获得图像边缘二值化图中各个像素点的横向梯度和纵向梯度；

步骤C03.初始化一个单通道图像作为基于边缘的区域提取算法的数据缓存图，且该单通道图像的尺寸与图像边缘二值化图的尺寸一致，该单通道图像中的各个像素点的像素值为无穷大，实际应用中，SWT(Stroke Width Transformation)算法下，基于边缘的区域提取算法的数据缓存图作为SWT数据缓存图；

步骤C04.采用Canny法，遍历图像边缘二值化图中的各个图像边缘像素点，分别沿各个图像边缘像素点的梯度方向进行延伸，直至和另一个图像边缘像素点相连；针对上述经梯度方向延伸相连的各个图像边缘像素点，针对其中相连、且梯度方向相反的各组两个图像边缘像素点，分别获得该各组两个图像边缘像素点间连线的长度，并将该各组中两个图像边缘像素点按照其位于图像边缘二值化图中的位置，记录至基于边缘的区域提取算法的数据缓存图上，同时将该各组中两个图像边缘像素点间连线的长度记录至基于边缘的区域提取算法的数据缓存图上；

步骤C06.遍历记录在基于边缘的区域提取算法的数据缓存图上的各个图像边缘像素点，分别获得图像边缘像素点沿其梯度方向延伸至另一个图像边缘像素点间的长度，定义为图像边缘像素点的延伸长度，即该处的笔画宽度，然后针对每一个图像边缘像素点，分别获得图像边缘像素点的延伸长度和与其相邻各个图像边缘像素点的延伸长度之间的比值，将比值<3.0对应的图像边缘像素点和与其相邻的图像边缘像素点划并为同一连通域内，获得图像边缘二值化图中的字符初级连通域；

步骤D.根据所述各个字符初级连通域的最小外接矩形框的宽度ω、长度h，各个字符初级连通域内像素点的个数q，以及各个字符初级连通域的字符笔画宽度均值μ和字符笔画宽度方差σ，按照预设筛选条件，针对各个字符初级连通域进行筛选，获得各个相互独立的字符候选连通域；

其中，删除掉宽度差异比较大的字符初级连通域：即删除掉先验区间[0,1]之外的字符初级连通域；删除掉长宽比例异常的(特别长或者特别宽)字符初级连通域：即删除掉在先验区间[0.1,1]之外的字符初级连通域；删除掉区域像素占有率异常的字符初级连通域：即删除掉在先验区域[0.1,1]之外的字符初级连通域；

步骤E.采用层次聚类算法针对具有邻接关系的字符候选连通域进行聚类，获得文本初级候选区域集合，具体包括如下步骤：

步骤E01.针对所述各个相互独立的字符候选连通域，建立一个无向图模型G＝(V,E)，其中V是无向图顶点(检出的字符初级连通域)，E是无向图边集(相似度关系)；

步骤E02.针对所述各个相互独立的字符候选连通域，分别获得彼此两个相互独立的字符候选连通域间的距离d(u,v)＝∑_m∈Md_m(u,v)W_m，W为权重集合，将彼此间距离d(u,v)小于等于预设邻接阈值e的两个相互独立的字符候选连通域定义为彼此具有邻接关系，其中，u、v分别表示两个相互独立的字符候选连通域，M为字符候选连通域的特征集合，用于度量两个彼此两个相互独立的字符候选连通域的特征差异，特征集合包括空间位置差异、空间大小差异、区域颜色差异、和笔画宽度差异；

步骤E03.采用层次聚类算法针对具有邻接关系的字符候选连通域进行聚类，根据字符候选连通域相互之间的特征相似度，构成一个个文本初级候选区域，获得文本初级候选区域集合；

步骤F.针对文本初级候选区域集合中的各个文本初级候选区域进行特征提取，并按预设文本筛选条件，针对文本候初级选区域集合进行筛选，排除非文本初级候选区域，获得文本候选区域集合，具体包括如下步骤：

步骤F01.针对文本初级候选区域集合中的各个文本初级候选区域进行特征提取，构成特征向量，所提取的特征包括如下：

(1)字符笔画宽度；

(2)连通域平滑度，即连通区域边缘相邻像素亮度值差异的平均值；

(3)连通域外接矩形框长宽大小(图像坐标系内，长度为该区域最上像素和最下像素的距离差，宽度为该区域最左像素与最右像素的距离差)；

(4)字符笔画宽度分别和外接矩形框长宽大小的比例；

(5)连通域外接矩形框长宽比例；

(6)连通域主次轴长度；

(7)连通域主次轴比例；

(8)连通域的周长和面积；

(9)连通域的圆形度(紧致度)，即周长和面积的比例；

步骤F02.针对文本初级候选区域集合中的各个文本初级候选区域，通过预先训练好的Adaboost算法模型进行分类，判断该文本初级候选区域是否为字符，并对分类结果进行统计，若该文本初级候选区域中经分类器判断为字符的文本初级候选区域数量大于1，则认为该文本初级候选区域为文本候选区域；否则认为该文本初级候选区域为非文本初级候选区域，进行排除，进而获得文本候选区域集合；

步骤G.针对文本候选区域集合中各个文本候选区域进行特征提取，所提取特征如下所示：

(1)包含字符数目，即该文本集合内的字符区域数目；

(2)字符面积比例，即该区域内文字像素面积占总像素面积的比例；

(3)字符长宽方差，即文本区域内每个字符的长和宽的方差；

(4)字符圆形度方差，即文本区域内每个字符的圆形度的方差；

(5)字符笔画宽度方差，即文本区域内每个字符的字符笔画宽度方差；

(6)字符周长/面积方差，即文本区域内每个字符的周长/面积方差；

(7)字符主次轴长度方差，即文本区域内每个字符的主次轴长度方差；

(8)字符颜色方差，即文本区域内每个字符的在RGB红蓝绿三个色彩通道上均值的方差；

(9)文本横纵向灰度变化方差，即文本区域上下/左右的灰度变化方差；

然后通过预先训练好的Adaboost算法模型对各个文本候选区域进行分类，排除掉伪文本候选区域，获得文本区域，即获得待检测图像中的文本区域。

以上针对Adaboost算法模型的训练过程如下：

(1)收集大量的文字图片；

(2)使用上述方法提取出训练图片上的文本集合，并提取特征；

(3)手动给所有的区域打上标记，文本/非文本；

(4)使用所有打上标记的样本，使用已提取的文本特征，用分类器进行训练，使用模式识别的方法，让学习了样本之后的分类器，可以对样本特征进行分类。(使用GentleBoost分类器，其中弱子分类器为决策树，弱子分类器数量为200，最大深度为5，权重剪枝率为0.995)。

本发明设计一种图像文字检测方法，基于全新步骤流程设计，适用面更广，并且检出率更高，不再受限于扫描件白底黑字或者黑底白字标准字体检测，可以在不同场景复杂的环境中，如照片，游行横幅，手写文字等各种场景下，将图片上的文字检测出来，且具有更高的工作效率。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种图像文字检测方法，用于检测获取图片中的文字，其特征在于，包括如下步骤：

其中，步骤A包括如下步骤：

步骤A01.通过三次多项式应用高阶插值法对待检测图像按预设比例放大，再对待检测图像进行灰度处理；

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mn>2</mn> <mo>|</mo> <mi>x</mi> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mo>|</mo> <mi>x</mi> <msup> <mo>|</mo> <mn>3</mn> </msup> </mrow> </mtd> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo><</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>4</mn> <mo>-</mo> <mn>8</mn> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo>+</mo> <mn>5</mn> <mo>|</mo> <mi>x</mi> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>|</mo> <mi>x</mi> <msup> <mo>|</mo> <mn>3</mn> </msup> </mrow> </mtd> <mtd> <mrow> <mn>1</mn> <mo>&le;</mo> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo><</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo>&GreaterEqual;</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

f(x,y)＝f(i+u,j+v)＝A*B*C

其中：

(i,j)为待检测图像的原始图像中任意一个像素点的坐标，u和v分别表示待检测图像的原始图像在经比例放大过程中横坐标与纵坐标的偏移量，S为三次多项高阶插值函数，B为待检测图像的原始图像中(i,j)像素点周围16个像素点的灰度值所组成的矩阵，A和C为利用三次多项高阶插值函数求出的像素点灰度权重向量；

步骤A02.通过高斯-拉普拉斯算子对经灰度处理后的待检测图像进行锐化处理；

2.根据权利要求1所述一种图像文字检测方法，其特征在于，所述步骤B具体包括如下步骤：

步骤B01.采用高斯滤波器对待检测图像进行平滑滤波；

3.根据权利要求2所述一种图像文字检测方法，其特征在于，所述步骤C具体包括如下步骤：

4.根据权利要求3所述一种图像文字检测方法，其特征在于，所述步骤D具体包括如下内容：根据所述各个字符初级连通域的最小外接矩形框的宽度、长度，各个字符初级连通域内像素点的个数，以及各个字符初级连通域的字符笔画宽度均值和字符笔画宽度方差，按照预设筛选条件，针对各个字符初级连通域进行筛选，获得各个相互独立的字符候选连通域；

5.根据权利要求4所述一种图像文字检测方法，其特征在于，所述步骤E具体包括如下步骤：

6.根据权利要求5所述一种图像文字检测方法，其特征在于，所述步骤F具体包括如下步骤：