CN105205488A

CN105205488A - 基于Harris角点和笔画宽度的文字区域检测方法

Info

Publication number: CN105205488A
Application number: CN201510407779.3A
Authority: CN
Inventors: 蒋晓悦; 连洁; 冯晓毅; 李会方; 吴俊�; 谢红梅; 何贵青; 夏召强
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-12-30
Anticipated expiration: 2035-07-13
Also published as: CN105205488B

Abstract

本发明提供了一种基于Harris角点和笔画宽度的文字区域检测方法，该方法主要包括边缘增强的Harris角点检测，依据笔画宽度筛选候选区域以及基于文字颜色的区域膨胀三大部分，本发明通过对角点检测得到的文字区域后进行连通区域分析，去掉不符合文字行特征的响应区域，可显著提高角点检测图像中文字区域的准确率，较单一基于边缘特征的文字检测方法，可提高图像中的文字检测的召回率，较单一基于连通区域的文字检测方法，可获得更高的检测效率，本发明较单一的基于边缘特征和基于连通区域的文字检测方法都具有优势。

Description

基于Harris角点和笔画宽度的文字区域检测方法

技术领域

本发明涉及一种图像处理，尤其是文字区域检测方法。

背景技术

根据2012年的互联网统计数据，该年接入互联网的各类电子设备达到了170亿，仅每天上传到facebook的图像就达到了3亿张。面对互联网上海量的图像、视频资源，如何对它们做到正确、高效的理解成为当前多媒体信息技术研究的重点。与图像的颜色、灰度等低级信息相比，图像中的文字信息与图像内容紧密相关，是可以被人直接理解和利用的高级语义信息，因此对图像中的文字获取成为了理解图像、视频内容的重要线索。现有的复杂背景下文字检测的方法主要可以分为三大类，分别是基于边缘特征的方法、基于连通区域的方法和基于纹理的方法。基于边缘特征的算法思路简明，检测速度很快，但是检测后会出现大量的虚警区。基于连通区域检测文字的方法可以减少误判的几率，但是对整幅图像进行颜色连通区域分析，效率非常低，并且对于文字相较背景对比度过小或是两者颜色接近时，检测效果不理想。而基于纹理的文字检测方法当背景复杂时，稳定性较差，并且耗时较长。考虑到基于单一像素和连通区域两种检测方案的优缺点及适用范围，我们提出综合使用上述两种方法，保证我们的文字检测方法既有基于边缘特征算法的高效性，同时还有基于连通区域检测的准确性。

因此，本发明的目的是针对基于边缘特征提取到的文字虚警过多，以及基于连通区域检测文字效率低下，不利于对大量图像数据进行文字区域的快速准确定位的问题，提出一种新的基于边缘特征和联通区域特征的文字检测方法。本方法首先对整幅图像进行边缘特征提取，然后在边缘特征响应区域内进行连通区域检测，去除非文本区域，最后，在保留下的区域内，根据局部文字颜色一致的特征扩张原有区域得到完整的文字行，在提高检测准确率的同时显著提高检测效率。

发明内容

为了克服现有技术的不足，针对图像中的文字区域，我们利用文字区域丰富的边缘信息，尤其是中文文字具有丰富的角点信息，首先对整幅图像进行Harris角点检测。然后在角点响应区域内进行笔画宽度的计算，去除非文本区域，最后，在保留下的区域内，根据局部文字颜色一致的特征扩张原有区域得到完整的文字行，最终提高文字检测的准确性以及效率。

本发明解决其技术问题所采用的技术方案是基于Harris角点和笔画宽度的文字区域检测方法，该方法主要包括边缘增强的Harris角点检测，依据笔画宽度筛选候选区域以及基于文字颜色的区域膨胀三大部分，具体步骤如下：

步骤1：边缘增强的Harris角点检测

假设原灰度图像为I，

(1.1)用canny算子对原灰度图像I进行边缘检测得到边缘图像I_edge，之后按下式计算得到图像I'：

I'＝I+n_edge*I_edge(1)

其中n_edge为边缘图像I_edge的放大倍数，取值范围为80～120，然后代入下式：

I”(i,j)＝I'(i,j)/I'_MAX*256(2)

其中I'(i,j)为图像I'中点(i,j)处的像素值，I'_MAX为图像I'中所有像素点的最大值，式(2)可确保更新后的图像I”中各像素点的取值范围在[1，256]之间；

(1.2)利用Harris角点检测算法得到图像的角点响应：

首先通过卷积运算求取图像每一点的水平和垂直方向导数I_X、I_Y：

I_{X} = I^{''} &CircleTimes; [- 2, - 1, 0, 1, 2] - - - (3)

I_{Y} = I^{''} &CircleTimes; {[- 2, - 1, 0, 1, 2]}^{T} - - - (4)

然后采用高斯窗函数滤波器W_u,v对图像的方向导数进行滤波：

W_{u, v} = \exp [- \frac{1}{2} (u^{2} + v^{2}) / δ^{2}] - - - (5)

其中，u、v分别为滤波器模板的长和宽，δ为滤波器的平滑程度参数，本发明中，我们采用u＝7,v＝7,δ＝2的高斯滤波模板参数；

按照公式(6)为每一个点计算局部自相关矩阵：

M = (\begin{matrix} {I_{X}}^{2} &CircleTimes; W_{u, v} & (I_{X} * I_{Y}) &CircleTimes; W_{u, v} \\ (I_{X} * I_{Y}) &CircleTimes; W_{u, v} & {I_{Y}}^{2} &CircleTimes; W_{u, v} \end{matrix}) - - - (6)

其中I_X、I_Y分别为图像上一点的按照公式(3)、(4)计算出的水平和垂直方向导数，最后计算角点响应corness：

corness＝det(M)-K*trace(M)²(7)

其中，trace(M)为矩阵的迹，det(M)为矩阵M的行列式值，K为一个经验常数，取值范围为0.04～0.06，根据公式(7)计算出图像I”中各点的角点响应值后，对每一点(i,j)的角点响应值进行公式(8)和(9)的计算：

K1：{corness_i,j＞0.1*corness_max且corness_i,j为其八连通区域内的极大值}(9)

其中，pix_(i,j)为像素点(i,j)处的像素值，corness_i,j为由公式(7)计算出的像素点(i,j)处的角点响应值，corness_max为图像I”中各像素点根据公式(7)计算出的角点响应的最大值，K1为局部极值点的筛选条件；当点(i,j)的角点响应值corness_i,j大于图像I”中各像素点的角点响应值的最大值corness_max的0.1倍，且点(i,j)的角点响应值还是其所在八领域的角点响应值的极大值时，将点(i,j)的像素值置为1，否则为0，则最终像素值为1的像素点成为图像的角点；

为确保文字区域拥有较高的角点密度，进行角点聚类，将与角点的欧式距离小于3的点同样标记为角点；

(1.3)得到图像的角点响应后，我们按照公式(10)～(13)对图像进行行扫描以确定文字可能出现的水平候选区域，然后再按照公式(14)～(17)对候选区域进行列扫描以确定文字区域的准确位置；在行扫描中，兼顾计算效率，利用宽度与图像宽度一致，高度为图像I”中像素高度4倍的的矩形窗R_i，其中i为矩形窗的编号，i依次取1至X之间的全部整数且包含两个端点，其中X为I”的宽度除以4后的值取下整，则第i个矩形窗R_i的起始行为图像I”的第(4*(i-1)+1)行，遍历i的取值就做到了自上而下逐块检测图像I”，统计矩形窗R_i中角点响应为“1”的点的个数cnt_i，并与行检测阈值cnt*0.1比较，其中cnt为图像I”的角点总数，当相邻矩形窗内的角点数目满足：

K2：{cnt_i-1＜cnt*0.1，cnt_i＞cnt*0.1}(11)

其中K2为矩形窗包含文字区域上边界的判定条件，由于采用的是高度为图像I”中像素高度4倍的矩形窗进行图像扫描，因此，如果第i个矩形窗包含了文字区域的上边界，该矩形窗的起始行在图像I”中的行坐标为(4*(i-1)+1)，将第i个矩形窗的起始行定义为文字区域的上边界，得到文字区域的上边界坐标(4*(i-1)+1)；

(1.4)对图像I”中与R_i大小完全相同的矩形窗R_j采用和步骤(1.3)中相同的扫描方式进行扫描，即将j遍历区间[1，X]的全部整数，对每一个取值不同的j进行公式(12)，(13)的计算：

K3：{cnt_j＞cnt*0.1，cnt_j+1＜cnt*0.1}(13)

其中，公式K3为矩形窗包含文字区域下边界的判定条件，由于采用的图像扫描矩形窗高度为4，因此，如果第j个矩形窗包含了文字区域的下边界，那么该矩形窗的下边界在图像I”中的行坐标为(4*j)，将第j个矩形窗的下边界定义为文字区域的下边界，得到文字区域的下边界坐标(4*j)；

(1.5)确定了图像I”中文字所在的候选行区域之后，在候选行区域中通过列扫描进一步确定文字的列位置，具体步骤如下：

用宽度为图像I”中像素宽度的25倍，高度与由步骤(1.3)计算出的上边界和(1.4)计算出的下边界划定的文字候选行高度一致的矩形窗R_i'在文字候选行中逐块扫描，其中i’依次取1至Y之间的全部整数且包含两个端点，其中Y为图像I”的宽度除以25后取下整，则第i’个矩形窗R_i'的左边界在图像I”中的列坐标为(25*(i'-1)+1)，遍历i’的取值范围并且对每一个取值不同的i’进行公式(14)，(15)的计算：

K4：{cnt_i'-1＜cnt*0.01，cnt_i'＞cnt*0.01}(15)

公式K4为判断矩形窗R_i'是否包含文字区域左边界的条件，如果第i’个矩形窗包含了文字区域的左边界，则该矩形窗的左边界在图像I”中的列坐标为(25*(i'-1)+1)，将第i’个矩形窗的左边界定义为文字区域的左边界，得到文字区域的左边界(25*(i'-1)+1)；

(1.6)对图像I”中与R_i'大小完全相同的矩形窗R_j'采用和步骤(1.5)中相同的扫描方式进行扫描，即将j’遍历取值区间[1，Y]的全部整数，对每一个取值不同的j’进行公式(16)，(17)的计算：

K5：{cnt_j'＞cnt*0.01，cnt_j'+1＜cnt*0.01}(17)

公式K5为判定矩形窗是否包含文字区域右边界的条件，如果第j’个矩形窗包含了文字区域的右边界，由于采用的图像列扫描矩形窗宽度为图像I”中像素宽度的25倍，则该矩形窗的右边界在图像I”中的列坐标为(25*j')，将第j’个矩形窗的右边界定义为文字区域的右边界，得到文字区域的右边界(25*j')；

步骤2：依据笔画宽度筛选候选区域部分

(2.1)用同步骤1中角点检测算法得到候选文字区域；

(2.2)对满足角点响应的区域依次进行笔画宽度检测：

首先将图像I”中各像素点的笔画宽度值初始化为正无穷，之后逐一处理由步骤1得到的候选文字区域，恢复区域中文字的真实笔画宽度，即对任一角点响应区域H利用canny算子进行边缘检测，得到边缘点p的梯度方向d_p；如该边缘点p同时也是文字笔画的边缘，那么其梯度方向d_p与该处文字笔画方向的垂直方向的绝对误差小于π/6，然后沿着p+n*d_p，(n＝1,2,3...n＞0，初值为1)的方向寻找另一个边缘点q，计算q点的梯度方向d_q，如果d_q与d_p的方向满足条件d_q＝-d_p±(π/6)，则将[p,q]连线上的每一个像素点的笔画宽度值置设为如果没有符合d_q＝-d_p±(π/6)条件的q点，那么放弃该搜索方，并将n取值加1，更新搜索方向计算公式p+n*d_p，沿着新方向再次寻找符合d_q＝-d_p±(π/6)条件的q点，逐一增加n的取值，直到边缘点q找到或者搜索区域超出H的范围，如果由于方向计算公式p+n*d_p的更新，使得区域H内同一个像素点拥有多个不同的笔画宽度值，则选择不同笔画宽度值中的最小值作为该像素点的笔画宽度值；

当检测完区域H内所有的边缘点后，将计算结果中取值非无穷的点进行连通区域合并，得到多个连通区域wi，定义连通区域集合为W，有wi∈W，统计各连通区域wi内各像素点的笔画宽度值swt_ipix，用区域wi内各像素点的笔画宽度的众数代表该区域的笔画宽度值swt_wi，即

swt_wi＝mode(swt_ipix,ipix∈wi)(18)

当出现某一连通区域内各像素点的笔画宽度值均不同时，说明该连通区域为虚警，标注该区域的笔画宽度值为无穷；

求得角点响应区域H内各连通区域wi的笔画宽度值后，如果区域H是文字区域，那么它包含的各连通区域应该属于同一字符或者同一文字行，即各连通区域的笔画宽度swt_wi的方差应小于阈值T_swt，T_swt的取值范围为50～80，因此计算var(swt_wi,wi∈W)，仅当计算结果低于上限T_swt时保留该区域；

步骤3：基于文字颜色的区域膨胀部分

(3.1)用同步骤1，步骤2中文字检测算法得到候选文字区域；

(3.2)如角点响应发生在文字的内部，即检测到的区域会包含截断的文字，为了得到完整的文字，利用同一文字区域颜色一致的特性，在筛选后的文字区域内，逐区域进行膨胀运算，具体步骤如下：

由于文字边缘的颜色与背景颜色接近，因此选择提取靠近文字中心的像素点的颜色，即提取区域内属于角点响应但不属于canny边缘响应点的RGB值，对其使用K-means聚类算法聚为一类，聚类中心即该处文字的颜色，即R_H,G_H,B_H；之后检测该区域上边界的相邻行，不属于文字区域的一侧，对该行内各像素点依次进行下列计算：

K 6 : {| R_{p_{i}} - R_{H} | < T_{c o l o r}, | G_{p i} - G_{H} | < T_{c o l o r}, | B_{p_{i}} - B_{H} | < T_{c o l o r}} - - - (20)

其中p_i表示该行第i个像素点的取值，G_pi,分别表示该行第i个像素点对应原图像中相同位置点的红、绿、蓝三通道的分量值，H表示当前处理的文字区域，T_color为判断颜色是否相似的阈值，T_color的取值范围为20～25，当该行满足公式(21)时，将其合并入文字区域中：

pixnum_RGB/pixnum_line≥0.1(21)

{pixnum}_{R G B} = \underset{i &Element; l i n e}{Σ} cov e r (p_{i} | H) - - - (22)

其中，pixnum_line表示该行的总像素个数，pixnum_RGB表示该行中满足公式20的像素点个数，合并之后，对该文字区域的其余三个边界做相同的运算处理，即可得到图像中的文字区域。

本发明的有益效果是通过对角点检测得到的文字区域后进行连通区域分析，去掉不符合文字行特征的响应区域，可显著提高角点检测图像中文字区域的准确率，较单一基于边缘特征的文字检测方法，可提高图像中的文字检测的召回率，较单一基于连通区域的文字检测方法，可获得更高的检测效率，本发明较单一的基于边缘特征和基于连通区域的文字检测方法都具有优势。

附图说明

图1是本发明利用角点特征检测文字区域图例，其中(a)是原图像，(b)是角点响应图像，(c)角点检测的文字区域。

图2是本发明利用连通区域特征筛选候选文字区域图例，其中(a)角点检测结果图，(b)连通区域特征筛选后的图像。

图3是本发明基于文字颜色膨胀检测区域图例，其中(a)是角点检测结果，(b)笔画宽度特征筛选后的文字区域，(c)区域膨胀后的检测结果。

图4是本发明图像文字区域检测方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明将传统的基于角点检测的方法与图像边缘检测的方法结合，得到边缘加强后的灰度图像，更有利于文字区域的保留。图4为本发明图像文字区域检测方法流程图。

步骤1：边缘增强的Harris角点检测

假设原灰度图像为I，

I'＝I+n_edge*I_edge(1)

I”(i,j)＝I'(i,j)/I'_MAX*256(2)

本实施例中，利用公式(1)，取n_edge＝90，我们可以得到边缘增强后的灰度图像I'如下：

I'＝I+I_edge*90(23)

之后使用公式(2)归一化元素取值，得到边缘增强后的灰度图像；

(1.2)利用Harris角点检测算法得到图像的角点响应：

I_{X} = I^{''} &CircleTimes; [- 2, - 1, 0, 1, 2] - - - (3)

I_{Y} = I^{''} &CircleTimes; {[- 2, - 1, 0, 1, 2]}^{T} - - - (4)

W_{u, v} = \exp [- \frac{1}{2} (u^{2} + v^{2}) / δ^{2}] - - - (5)

按照公式(6)为每一个点计算局部自相关矩阵：

M = (\begin{matrix} {I_{X}}^{2} &CircleTimes; W_{u, v} & (I_{X} * I_{Y}) &CircleTimes; W_{u, v} \\ (I_{X} * I_{Y}) &CircleTimes; W_{u, v} & {I_{Y}}^{2} &CircleTimes; W_{u, v} \end{matrix}) - - - (6)

corness＝det(M)-K*trace(M)²(7)

利用公式(3)～(9)计算图像的角点响应，并统计图像的角点总数cnt。

K2：{cnt_i-1＜cnt*0.1，cnt_i＞cnt*0.1}(11)

(1.4)对图像I”用与R_i大小完全相同的矩形窗R_j采用和步骤(1.3)中相同的扫描方式进行扫描，即将j遍历区间[1，X]的全部整数，对每一个取值不同的j进行公式(12)，(13)的计算：

K3：{cnt_j＞cnt*0.1，cnt_j+1＜cnt*0.1}(13)

其中，公式K3为矩形窗包含文字区域下边界的判定条件，由于采用的图像扫描矩形窗高度为图像I”中像素高度的4倍，因此，如果第j个矩形窗包含了文字区域的下边界，那么该矩形窗的下边界在图像I”中的行坐标为(4*j)，将第j个矩形窗的下边界定义为文字区域的下边界，得到文字区域的下边界坐标(4*j)；

K4：{cnt_i'-1＜cnt*0.01，cnt_i'＞cnt*0.01}(15)

K5：{cnt_j'＞cnt*0.01，cnt_j'+1＜cnt*0.01}(17)

在角点响应图像中，我们利用宽度与图像宽度一致，高度为4的矩形窗，按行逐块检测图像中角点响应为“1”的点的个数，当相邻矩形窗内的角点数目满足公式(10)时，记录当前分界行坐标值，得到文字区域的上边界(4*(i-1)+1)。当相邻矩形窗内的角点数目满足公式(12)时，再次记录当前的分界行坐标，得到文字区域的下边界(4*j)。

之后以25列为单位，对候选行逐块扫描，当相邻矩形窗内的角点数目满足公式(14)时，记录当前分界的列坐标值，得到文字区域的左边界(25*(i'-1)+1)。当相邻矩形窗内的角点数目满足公式(16)时，记录当前分界的列坐标值，得到文字区域的右边界(25*j')。具体检测效果如图1所示：

图1(a)-(c)分别是待检测图像，角点检测结果及角点判断为文字的区域。可以看出，角点变化不仅会对文字区域做出响应，对边缘丰富的树叶同样会做出强烈的响应，因此检测结果出现了大量的虚警区。

步骤2：依据笔画宽度筛选候选区域部分

(2.1)用同步骤1中角点检测算法得到候选文字区域；

(2.2)对满足角点响应的区域依次进行笔画宽度检测：

首先将图像I”中各像素点的笔画宽度值初始化为正无穷，之后逐一处理由步骤1得到的候选文字区域，恢复区域中文字的真实笔画宽度。即对任一角点响应区域H利用canny算子进行边缘检测，得到边缘点p的梯度方向d_p；如该边缘点p同时也是文字笔画的边缘，那么其梯度方向d_p与该处文字笔画方向的垂直方向的绝对误差小于π/6，然后沿着p+n*d_p，(n＝1,2,3...n＞0，初值为1)的方向寻找另一个边缘点q，计算q点的梯度方向d_q，如果d_q与d_p的方向满足条件d_q＝-d_p±(π/6)，则将[p,q]连线上的每一个像素点的笔画宽度值置设为如果没有符合d_q＝-d_p±(π/6)条件的q点，那么放弃该搜索方，并将n取值加1，更新搜索方向计算公式p+n*d_p，沿着新方向再次寻找符合d_q＝-d_p±(π/6)条件的q点，逐一增加n的取值，直到边缘点q找到或者搜索区域超出H的范围，如果由于方向计算公式p+n*d_p的更新，使得区域H内同一个像素点拥有多个不同的笔画宽度值，则选择不同笔画宽度值中的最小值作为该像素点的笔画宽度值；

swt_wi＝mode(swt_ipix,ipix∈wi)(18)

在角点响应区域内，利用笔画宽度变换法计算各像素的笔画宽度值。统计各连通区域的笔画宽度值，用该区域内笔画宽度的众数代表该区域的笔画宽度值，得到连通区域的笔画宽度值swt_wi，计算一个角点响应区域内各连通区域的笔画宽度值，并取T_swt＝70，当满足：

var(swt_wi,wi∈W)＜70(24)

保留此区域，否则去除该区域。具体效果见图2：

图2(a),(b)分别为连通区域特征筛选前后的检测结果。可以看出，利用连通区域筛选后，大量的虚警区被去除，同时文字区域得到了很好地保留。

将步骤2中得到的结果，根据连通区域内文字颜色的一致性，扩张原检测到的文字区域，得到完整的文字行。

步骤3：基于文字颜色的区域膨胀部分

(3.1)用同步骤1，步骤2中文字检测算法得到候选文字区域；

由于文字边缘的颜色与背景颜色接近，因此选择提取靠近文字中心的像素点的颜色，即提取区域内属于角点响应但不属于canny边缘响应点的RGB值，对其使用K-means聚类算法聚为一类，聚类中心即该处文字的颜色，即R_H,G_H,B_H；之后检测该区域上边界的相邻行(不属于文字区域的一侧)，对该行内各像素点依次进行下列计算：

K 6 : {| R_{p_{i}} - R_{H} | < T_{c o l o r}, | G_{p i} - G_{H} | < T_{c o l o r}, | B_{p_{i}} - B_{H} | < T_{c o l o r}} - - - (20)

pixnum_RGB/pixnum_line≥0.1(21)

{pixnum}_{R G B} = \underset{i &Element; l i n e}{Σ} cov e r (p_{i} | H) - - - (22)

利用公式(19)～(22)，并取T_color＝22，检测该文字区域上边界的相邻行(不属于文字区域的一侧)，判断该行是否应该合并入文字区域。然后，利用公式(19)～(22)对该文字区域的下、左、右边界的相邻行(不属于文字区域的一侧)做相同的运算处理。基于文字颜色的区域膨胀处理后的结果如图3所示，其中图3(a)是角点检测结果，图3(b)是笔画宽度特征筛选后的文字区域，图3(c)是区域膨胀后的检测结果。

为了定量评价不同文字检测方法的性能，本发明从若干段不同类别的中文视频中提取了516张图像进行方法结果测试，视频种类包括广告、新闻、访谈等节目，文字类别包含电视台后期处理时添加的插入文字以及画面拍摄时随机出现的场景文字。图像的分辨率也不统一，用于验证方法的鲁棒性。我们采用比较不同方法对样本中文字区域检测的召回率recall、准确率precision、F参数和平均每张图像的检测时间T进行评价。其中，指标recall用来评价方法检测到的文字区域与图像中实际存在的文字区域的一致性，越大越好；指标precision用来评价方法检测图像中文字区域的准确度，反向反映检测结果出现虚警区的可能性，越大越好；F参数为综合考虑上述两个参数的指标，越大越好；指标T表示平均每张图像检测用时，单位为秒，越小越好。

表1几种文字区域检测方法的性能指标

Tab.1Performanceindicesofdifferenttextdetectionmethods

表1是几种文字区域检测方法的性能指标，其中粗体表示最优的指标值，下划线表示次优结果，观察表1的数据可以看出，相对于单一的基于边缘特征的文字区域检测方法(Harri和边缘增强的Harris)与单一的基于连通区域的文字区域检测方法(SWT)，本发明提出的方法即能够在检测的召回率上几乎达到四种算法中的最优，在检测的准确率上也达到了66.1％，对比当前的各种文字区域检测算法，属于较高的水平，并且其综合评价指标F参数达到了四种算法中的最优。虽然耗时相对边缘增强的角点检测算法及原始的角点检测算法增加了将近3s，但是对比笔画宽度检测算法，本方法将耗时降到了它的1/50，检测效率有了相当高的提升也基本满足检测实时性的要求。

表2几种文字区域检测方法的性能指标

Tab.2Performanceindicesofdifferenttextdetectionmethods

为了验证方法对其他语言的检测效果，我们在ICDAR2003数据集上测试了方法，该数据集中图像主要包含数字和英文字符，不包含中文字符，并且与文献YiChucai,Tian,YingLi.Textstringdetectionfromnaturalscenesbystructure-basedpartitionandgrouping.IEEETransactionsonImageProcessing.2011,20(9):2594-2605.中提供的多种文字检测算法进行了对比。表2是几种文字区域检测方法在ICDAR2003数据集上的性能指标(其中粗体表示最优的指标值,本发明方法的指标值以下划线标出)，虽然本发明对英文字符检测的召回率与准确率比对中文文字的检测效果有所降低，但是本方法结合了边缘增强后Harris算法的召回率优势以及基于笔画宽度检测算法的检测准确率优势，在文字检测召回率和准确率上依然有比较好的表现。

Claims

1.一种基于Harris角点和笔画宽度的文字区域检测方法，其特征在于包括下述步骤：

步骤1：边缘增强的Harris角点检测

假设原灰度图像为I，

I'＝I+n_edge*I_edge(1)

I”(i,j)＝I'(i,j)/I'_MAX*256(2)

(1.2)利用Harris角点检测算法得到图像的角点响应：

I_{X} = I^{''} &CircleTimes; [- 2, - 1, 0, 1, 2] - - - (3)

I_{Y} = I^{''} &CircleTimes; {[- 2, - 1, 0, 1, 2]}^{T} - - - (4)

W_{u, v} = \exp [- \frac{1}{2} (u^{2} + v^{2}) / δ^{2}] - - - (5)

按照公式(6)为每一个点计算局部自相关矩阵：

M = (\begin{matrix} {I_{X}}^{2} &CircleTimes; W_{u, v} & (I_{X} * I_{Y}) &CircleTimes; W_{u, v} \\ (I_{X} * I_{Y}) &CircleTimes; W_{u, v} & {I_{Y}}^{2} &CircleTimes; W_{u, v} \end{matrix}) - - - (6)

corness＝det(M)-K*trace(M)²(7)

K2：{cnt_i-1＜cnt*0.1，cnt_i＞cnt*0.1}(11)

K3：{cnt_j＞cnt*0.1，cnt_j+1＜cnt*0.1}(13)

K4：{cnt_i'-1＜cnt*0.01，cnt_i'＞cnt*0.01}(15)

K5：{cnt_j'＞cnt*0.01，cnt_j'+1＜cnt*0.01}(17)

步骤2：依据笔画宽度筛选候选区域部分

(2.1)用同步骤1中角点检测算法得到候选文字区域；

(2.2)对满足角点响应的区域依次进行笔画宽度检测：

swt_wi＝mode(swt_ipix,ipix∈wi)(18)

步骤3：基于文字颜色的区域膨胀部分

(3.1)用同步骤1，步骤2中文字检测算法得到候选文字区域；

K 6 : {| R_{p_{i}} - R_{H} | < T_{c o l o r}, | G_{p i} - G_{H} | < T_{c o l o r}, | B_{p_{i}} - B_{H} | < T_{c o l o r}} - - - (20)

pixnum_RGB/pixnum_line≥0.1(21)

{pixnum}_{R G B} = \underset{i &Element; l i n e}{Σ} cov e r (p_{i} | H) - - - (22)