CN104978565B

CN104978565B - 一种普适性的图像文字提取方法

Info

Publication number: CN104978565B
Application number: CN201510236463.2A
Authority: CN
Inventors: 郑海舟
Original assignee: XIAMEN YIGE SOFTWARE TECHNOLOGY Co Ltd
Current assignee: XIAMEN YIGE SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2015-05-11
Filing date: 2015-05-11
Publication date: 2019-06-28
Anticipated expiration: 2035-05-11
Also published as: CN104978565A

Abstract

本发明公开了一种普适性的图像文字提取方法，其包括以下步骤：对图像进行颜色空间转化；对图像进行颜色降维；对降维后的图像进行颜色直方图统计；根据颜色直方图计算图像的颜色复杂度，并根据颜色复杂度对图像划定分类；根据图像的颜色复杂度类别对原图像进行二值化处理。本发明能够对文本图像的背景复杂度进行评估，进而自动选择对应的二值化算法，适合对不同背景复杂度的图像进行文字提取。

Description

一种普适性的图像文字提取方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种普适性的图像文字提取方法。

背景技术

文字识别这项技术已经有几十年的历史了，从早期的光学字符识别(OCR)到当下的移动设备采集的各种图像文字信息提取，这其中的算法与技术经过了革命性的改进与提高。计算机视觉与机器学习的快速发展给文字识别技术带来了新的力量，对于传统的印刷书籍、文献等扫描识别已经不是当下文字识别的主要任务，如何让计算机去理解互联网中的大量图片、视频才是新的需求。

经典的文字识别技术只针对通过扫描得到的背景简单、分辨率和对比度高的图像有理想的识别率。但是，现实生活中有很多带有文字的场景，比如互联网上用户上传的广告图片、网页截图，街道两边的广告牌，超市里的各种产品宣传广告等，想要获得这些处理种类复杂图片中的文字，传统的OCR技术并不能得到满意的识别效果。

现在互联网中的图片根据背景的复杂度大致可以分为两类：一类是背景简单，文字排列规则的文本屏幕截图；另一类是含有文字信息的颜色较丰富的广告和宣传图片。这两类图片分别对应着不同的图片文字二值化技术。对于第一类图片，因为图片的底色较为单一，所以可以选择单一阈值就可以得到很好的二值化效果；对于第二类图片，图片的颜色种类较多，单一阈值的二值化算法并不能提取所有文字区域，所以必须用基于颜色聚类的方法来进行多阈值二值化。但问题的关键是这两类二值化算法都不能适用于另一类情况，所以在实际应用中，在我们并不知道是哪类图像的前提下，没有有效的二值化解决方案。

发明内容

本发明的目的在于提供一种普适性的图像文字提取方法，其能够对图像中的背景复杂度进行评估，进而自动选择对应的二值化算法进行图像文字提取。

为实现上述目的，本发明采用以下技术方案：

一种普适性的图像文字提取方法，包括以下步骤：

S1、对图像进行颜色空间转化；

S2、对图像进行颜色降维；

S3、对降维后的图像进行颜色直方图统计；

S4、根据颜色直方图计算图像的颜色复杂度，并根据颜色复杂度对图像划定分类；

S5、根据图像的颜色复杂度类别对原图像进行二值化处理。

优选地，所述步骤S1包括以下分步骤：

S11、遍历图像中的每个像素点，将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量，其转换公式如下：

X＝0.412R+0.358G+0.180B

Y＝0.213R+0.715G+0.072B

Z＝0.019R+0.119G+0.950B

X＝X/(255×0.95)

Y＝Y/255

Z＝Z/(255×1.089)

S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量，

若Y＞0.008856，则:

fY＝Y^1/3

fX＝X^1/3

fZ＝Z^1/3

L＝116×fY-16

若Y＜0.008856，则:

fY＝7.787Y+16/116

fX＝7.787X+16/116

fZ＝7.787Z+16/116

L＝903.3Y

a和b的计算公式如下：

a＝500(fX-fY)+128

b＝200(fY-fZ)+128

S13、经过颜色空间转换后，原图像中的每个点的颜色用(L、a、b)矢量表示，其中L的取值范围为[0,100]，a和b的取值范围为[-128,127]。

优选地，所述步骤S2通过以下方法实现：

设图像坐标为(x₀,y₀)处的颜色矢量为(I_L0,I_a0,I_b0)，通过下式计算颜色矢量(I_L,I_a,I_b)：

遍历图像中的每个像素点，得到降维后的图像。

优选地，所述步骤S3包括以下分步骤：

S31、建立一个长度为512的数组H，用来统计每一种可能颜色出现的次数；

S32、遍历降维后的图像中的每个像素点，对于该像素点的Lab颜色矢量(L、a、b)，通过下式计算其在直方图中水平坐标的位置P：

P＝64L+8a+b

S33、对于降维后的图像中的每个像素点，根据其颜色计算得到其在直方图中对应位置后，将数组H中对应该序号的值加1；

S34、步骤S33完成后，得到一个512维的数组，数组中的元素值为0的，代表该种颜色没有在图像中出现过，将这些位置从直方图中删除，然后得到的数组即为最终求得的颜色直方图。

优选地，所述步骤S4包括以下分步骤：

S41、计算每种颜色像素点在图像中出现的比例，对于每种颜色，设其在图像中出现的频率大小为F，F通过下式计算得出：

其中，M、N分别为图像的宽和高，H(c)为该种颜色像素点的个数；

S42、对于所有颜色来说，图像的颜色分布的信息熵为：

利用求得的颜色分布的信息熵来表示图像的复杂程度，图像越复杂，信息熵越大，图像越简单，信息熵越小。

S43、计算阈值，对于一幅M×N的图像，可能出现最多的颜色种类为K＝min{M×N,512}种，所以它的信息熵的最大可能取值为：

S44、若E＞λ·E_max，则认定图像为复杂背景类别的图像，若E＜λ·E_max，则认定图像为简单背景类别的图像。

优选地，所述步骤S5通过以分步骤实现：

S51、对于简单背景类别的图像，采用单一的阈值进行二值化处理，进而进行文字提取；

S52、对于复杂背景类别的图像，先对图像颜色进行聚类，提取几种主要的颜色，再对每一种颜色计算一种阈值，从而相当于对图像进行多次二值化，进而在不同的二值化结果上分别查找文本区域，进行文字提取。

优选地，所述步骤S51通过以下步骤实现：

S511、将原图像由彩色图像转换为灰度图像；

S512、采用大津法计算图像的二值化阈值；

S513、遍历灰度图像，对图像中的所有像素点进行判断，若某个像素点的灰度值大于或等于二值化阈值，则认为该像素点为文本像素点，如果某个像素点的灰度值小于二值化阈值，则认为该像素点为背景像素点。

优选地，所述步骤S52通过以下步骤实现：

S521、根据步骤S41中求得的每种颜色在图像中出现的频率F，选取频率F超过0.2的颜色作为最初的聚类中心，记为：

C＝{C₁,C₂,…,C_k,…}

S522、建立聚类条件模型对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较，判断颜色c是否满足以下条件：

d(C_i,c)＜τ

若满足，则说明颜色c属于聚类中心C_i，否则则说明颜色c不属于聚类中心中的任何一种颜色，并将颜色c加入到聚类中心C中；

S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止，获得最终的聚类中心C；

S524、多阈值二值化，针对每个颜色聚类中心对图像进行二值化，对于颜色聚类中心C_i，其对应的二值化图像B_i为：

S525：对步骤S524中得到的多个二值化结果进行组合。

优选地，所述步骤S525通过以下步骤实现：

S5251、对每个二值化图像中的连通区域进行标记与查找，删除那些高或宽大于图像1/2的连通区域，剩下的区域进行保留。

S5252、对每个二值化图像中剩下的连通区域进行合并，得到最终的二值化结果。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明能够对图像中的背景复杂度进行评估，进而自动选择对应的二值化算法，适合对不同背景复杂度的图像进行文字提取。

附图说明

图1为本发明的工作流程示意图。

图2为一幅色彩丰富的图像原图。

图3示出了对图2降维后得到的结果。

图4示出了图像的颜色直方图结果。

图5示出了一幅色彩复杂的含有文本的图像。

图6示出了针对每个颜色聚类中心对图像进行二值化的结果。

图7示出了对多个二值化结果进行组合后的结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

请参阅图1，本发明公开了一种普适性的图像文字提取方法，其包括以下步骤：

S1、对图像进行颜色空间转化

颜色空间是一系列颜色的数学表现形式。三种最流行的颜色模型是RGB、YIQ(YUV或YCbCr)以及CMYK，但是这三种颜色和我们直觉概念上的色调，饱和度，亮度没有直接联系，而我们人眼区分颜色的种类往往是区分颜色之间色调、饱和度、亮度的差异。Lab颜色空间是基于人对颜色的感觉，它致力于感知均匀性，它的L分量密切匹配人类亮度感知，a和b分量进行颜色平衡。所以本实施例在分析图像颜色复杂度时，把图像由RGB颜色空间转换成Lab颜色空间。

步骤S1具体通过以下步骤实现：

X＝0.412R+0.358G+0.180B

Y＝0.213R+0.715G+0.072B

Z＝0.019R+0.119G+0.950B

X＝X/(255×0.95)

Y＝Y/255

Z＝Z/(255×1.089)

若Y＞0.008856，则:

fY＝Y^1/3

fX＝X^1/3

fZ＝Z^1/3

L＝116×fY-16

若Y＜0.008856，则:

fY＝7.787Y+16/116

fX＝7.787X+16/116

fZ＝7.787Z+16/116

L＝903.3Y

a和b的计算公式如下：

a＝500(fX-fY)+128

b＝200(fY-fZ)+128

S2、对图像进行颜色降维

由于一幅彩色图像中的每个像素点都是由L、a、b三通道组成的一个颜色矢量，这样一幅较大的图像中可能存在着100×255×255种颜色类型，这样的数量对于我们进行图像颜色分析是极困难的，所以我们需要对图像的颜色进行降维，在保证图像基本内容不变的前提下，希望用尽可能少的颜色来表达整幅图像。

由于分析图像颜色复杂度只需要粗略了解图像颜色组成，所以在本实施例中将原来每个通道的灰度降至8级灰度，这样整个图像出现的颜色种类最多为8×8×8(即512)种。

遍历图像中的每个像素点，得到降维后的图像。

为了更直观的理解，结合图2和图3所示，图2为一幅色彩丰富的图像原图，经步骤S2进行降维处理后，得到图3所示的结果。

S3、对降维后的图像进行颜色直方图统计

经过S2步骤后，图像中包含的颜色种类大大减少，这时，我们可以对图像中所有出现的颜色进行统计，计算一共出现了多少种颜色，以及每种颜色出现的频率。

步骤S3具体通过以下步骤实现：

S31、建立一个长度为512的数组H，用来统计每一种可能颜色出现的次数，若为0，则表示该类颜色没有出现过；

P＝64L+8a+b

S34、步骤S33完成后，得到一个512维的数组，数组中的元素值为0的，代表该种颜色没有在图像中出现过，将这些位置从直方图中删除，然后得到的数组即为最终求得的颜色直方图(如图4所示)。

S4、根据颜色直方图计算图像的颜色复杂度，并根据颜色复杂度对图像划定分类

从步骤S3得到的颜色直方图中可以分析到，越是复杂的图像，得到的直方图越分散而平均，越是简单的图像，得到的直方图越集中。我们根据颜色直方图计算其熵值，作为图像颜色复杂性的度量。

步骤S4具体通过以下步骤实现：

S42、对于所有颜色来说，图像的颜色分布的信息熵为：

S5、根据图像的颜色复杂度类别对原图像进行二值化处理。

步骤S5通过以步骤实现：

S51、对于简单背景类别的图像，采用单一的阈值进行二值化处理，进而进行文字提取。该步骤具体包括以下子步骤：

S511、将原图像由彩色图像转换为灰度图像；

S512、采用大津法计算图像的二值化阈值；

S52、对于复杂背景类别的图像，先对图像颜色进行聚类，提取几种主要的颜色，再对每一种颜色计算一种阈值，从而相当于对图像进行多次二值化，进而在不同的二值化结果上分别查找文本区域，进行文字提取。该步骤具体包括以下子步骤：

C＝{C₁,C₂,…,C_k,…}

S522、对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较，判断颜色c是否满足以下条件：

d(C_i,c)＜τ

其中，τ为二值化阈值，可根据实际情况具体设定。

S525：对步骤S524中得到的多个二值化结果进行组合。对每个二值化图像中的连通区域进行标记与查找，删除那些高或宽大于图像1/2的连通区域，剩下的区域进行保留；对每个二值化图像中剩下的连通区域进行合并，得到最终的二值化结果。

为了更直观的理解，结合图5、图6及图7所示，图5给出了一幅色彩复杂的含有文本的图像，其经过步骤S524处理后，得到了图6所示的多个二值化结果，该多个二值化结果经过步骤S525处理后，得到图7所示的最终二值化结果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种普适性的图像文字提取方法，其特征在于，包括以下步骤：

S1、对图像进行颜色空间转化；

S2、对图像进行颜色降维；

S3、对降维后的图像进行颜色直方图统计；

S5、根据图像的颜色复杂度类别对原图像进行二值化处理；

所述步骤S1包括以下分步骤：

X＝0.412R+0.358G+0.180B

Y＝0.213R+0.715G+0.072B

Z＝0.019R+0.119G+0.950B

X＝X/(255×0.95)

Y＝Y/255

Z＝Z/(255×1.089)

若Y＞0.008856，则:

fY＝Y^1/3

fX＝X^1/3

fZ＝Z^1/3

L＝116×fY-16

若Y＜0.008856，则:

fY＝7.787Y+16/116

fX＝7.787X+16/116

fZ＝7.787Z+16/116

L＝903.3Y

a和b的计算公式如下：

a＝500(fX-fY)+128

b＝200(fY-fZ)+128

2.如权利要求1所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S2通过以下方法实现：

遍历图像中的每个像素点，通过上面的公式，对像素点的颜色值进行计算，从而得到降维后的图像。

3.如权利要求2所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S3包括以下分步骤：

P＝64L+8a+b

S33、对于降维后的图像中的每个像素点，根据其颜色计算得到其在直方图中对应位置后，将数组H中对应序号的值加1；

4.如权利要求3所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S4包括以下分步骤：

其中，M、N分别为图像的宽和高，H(c)为该种颜色像素点的个数，即颜色直方图中颜色c对应的直方图的值；

S42、对于所有颜色来说，图像的颜色分布的信息熵为：

利用求得的颜色分布的信息熵来表示图像的复杂程度，图像越复杂，信息熵越大，图像越简单，信息熵越小；

5.如权利要求4所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S5通过以下分步骤实现：

6.如权利要求5所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S51通过以下步骤实现：

S511、将原图像由彩色图像转换为灰度图像；

S512、采用大津法计算图像的二值化阈值；

7.如权利要求5所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S52通过以下步骤实现：

C＝{C₁,C₂,…,C_k,…}

d(C_i,c)＜τ

其中，τ为二值化阈值；

S525：对步骤S524中得到的多个二值化结果进行组合。

8.如权利要求7所述的一种普适性的图像文字提取方法，其特征在于，所述步骤S525通过以下步骤实现：

S5251、对每个二值化图像中的连通区域进行标记与查找，删除那些高或宽大于图像1/2的连通区域，剩下的区域进行保留；