CN109409356B

CN109409356B - 一种基于swt的多方向中文印刷体文字检测方法

Info

Publication number: CN109409356B
Application number: CN201810967087.8A
Authority: CN
Inventors: 张华熊; 周一枫; 胡洁; 林翔宇; 何利力; 王玉平
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Hangzhou Nanzhe Information Technology Co.,Ltd.
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2021-01-08
Anticipated expiration: 2038-08-23
Also published as: CN109409356A

Abstract

本发明提供了一种基于SWT的多方向中文印刷体文字检测方法，其首先通过二维离散傅里叶变换校正倾斜图像，然后通过水平投影直方图，快速提取首行文本区域，对于存在倾斜角度大的图像，提取文本前三行作为识别区域，避免了对整个文本的检测，提高了检测速度；同时本发明对提取完的文本行进行Canny边缘检测，最后基于改进的SWT算法，结合相关文本检测、过滤的启发式规则，检测图像是否是中文印刷体图像。由此可见，本发明通过基于改进的SWT算法，提取中文文本固有的笔画宽度特征，同时结合二维离散傅里叶变化以及设定的文本启发式规则，可以快速、准确的检测图像是否是中文印刷体图像，提高了OCR预处理阶段的文本识别检测效率。

Description

一种基于SWT的多方向中文印刷体文字检测方法

技术领域

本发明属于数字图像处理技术领域，具体涉及一种基于SWT的多方向中文印刷体文字检测方法。

背景技术

现阶段在纸质资料数字化，文本化的大背景下，传统的纸质资料由于占空间、不便保存、查找繁琐、易丢失等缺点正被数字化的资料所取代，然而传统的数字化大量采用的是扫描方式，以图像的形式进行各种资料的存档保存。在实际应用中如何快速从大量的数字化图像文件中找出中文印刷体文本图像文件进行OCR(Optical Character Recognition)识别是一个现实存在的实际需求。

图像文本的检测技术目前主要有以下五种：基于边缘的方法、基于连通域的方法、基于纹理的方法、基于深度学习的方法、基于上述混合的方法；其中由Boris Epshtein等人在标题为Detecting text in natural scenes with stroke width transform(ComputerVision and Pattern Recognition(CVPR),2010IEEE Conference on.IEEE,2010:2963～2970)一文中提出的笔画宽度变换算法(Stroke Width Transform，SWT)由于利用了文字特有的笔画宽度特征，因而在文本检测过程中被广泛使用。传统的SWT算法因为是以英文文字为研究对象，而中文相较英文而言，在字符笔画，结构上都更加复杂，因而在检测中文的效果上，SWT效果并不十分理想，在有倾斜的文本检测效果中，SWT算法由于一般以检测水平文本为目标，在倾斜本文的检测上，效果也较不理想。

Cong Yao等人在标题为Detecting texts of arbitrary orientations innatural images(Computer Vision and Pattern Recognition.IEEE,2012:1083～1090)一文中提出了一种检测自然场景下任意倾斜角度的文本，但该算法处理时间较长，不太适合在OCR预处理阶段使用。Huang W等人在标题为Text Localization in Natural ImagesUsing Stroke Feature Transform and Text Covariance Descriptors(IEEEInternational Conference on Computer Vision.IEEE,2014:1241～1248)一文中通过在SWT算法的基础上，引入图像像素的颜色区域信息来增强文本图像的检测效果，从论文中可以发现，Huang W等人的文本图像测试集主要以ICDAR2005、ICDAR2011这两个英文测试集为主，没有针对中文文本图像检测进行处理优化。Huizhong Chen等人在标题为Robust textdetection in natural images with edge-enhanced Maximally Stable ExtremalRegions Maximally Stable Extremal Regions(IEEE International Conference onImage Processing.IEEE,2011:2609～2612)一文中提出了利用全卷积网络(FCN)模型来检测文本；Zhi Tian等人在标题为Detecting Text inNatural Image with ConnectionistText Proposal Network(European Conference on Computer Vision.Springer,Cham,2016:56～72)一文中提出一种应用卷积模型VGG16结合双向长短时记忆网络(BLSTM)的方法，以检测文本图像，然而神经网络的训练，往往需要大量的训练数据，才能有比较好的训练效果，有时各种数据的获取难度也较大，故也不好利用在OCR预处理的检测算法中。

上述这些方法，基本上都是以检测整个文本图像为目的，同时主要以自然场景文本图像为检测目标，并没有专门针对中文文字，印刷体文本进行优化处理，因此在检测处理速度上，在对中文文本的检测正确率上，并不符合OCR预处理阶段对识别算法快速、准确的要求。

发明内容

鉴于上述，本发明提供了一种基于SWT的多方向中文印刷体文字检测方法，其通过二维离散傅里叶变换对倾斜图像在[-90,90]角度下进行倾斜校正，同时结合改进的SWT算法针对中文固有的文字特征，基于启发式过滤规则检测文字，相比采用单独的SWT算法或者MSER(最大稳定极值区域)算法在处理时间和准确率上有较大优势。

一种基于SWT的多方向中文印刷体文字检测方法，包括如下步骤：

(1)对待检测的图像依次进行灰度化以及缩放的预处理操作，

(2)对预处理后的图像进行倾斜校正；

(3)从经校正后的图像中提取文本行作为ROI(感兴趣区域)；

(4)对ROI进行canny边缘检测处理，提取文本行的文字边缘检测图；

(5)采用SWT算法对文字边缘检测图进行文本检测，得到包含文字笔画宽度信息的SWT图像；

(6)基于改进的SWT文本启发式规则对SWT图像中不符合中文文字特征的区域进行过滤，过滤后剩余保留下来的区域即为字符连通域；

(7)对满足相关聚类条件的字符连通域聚类成行，形成文本行连通域；

(8)基于启发式规则对文本行连通域进行检测，从而识别待检测的图像是否为中文印刷体图像。

进一步地，所述步骤(1)中对待检测的图像进行缩放，使其缩放至650×850大小。

进一步地，所述步骤(2)的具体实现过程为：首先，对图像进行二维离散傅里叶变换，得到图像对应的频率分布图；然后，对该频率分布图中左上、右上、左下、右下四个角频率分布块进行象限交换及平移操作，将图像频谱从原点移动到图像中心点，使得四个角频率分布块均集中在频率分布图的中心；最后，对频率分布图进行二值化，通过霍夫线检测技术画出分布图中的倾斜角度线，进而根据该倾斜角度线对原图像进行倾斜校正。

进一步地，所述步骤(3)的具体实现过程为：对校正后的图像进行水平投影处理得到图像的水平投影直方分布图，根据分布图当中文本行与空白行的间隔区间快速提取待检测处理的文本行作为ROI。

进一步地，若图像的倾斜角度在[-30°,30°]范围内，则提取图像中第一行文本作为ROI；若图像的倾斜角度超出[-30°,30°]范围，则提取图像中前三行文本作为ROI；即针对倾斜角度过大的场合，防止校正后出现文本行文字缺失的情况，保证了图像倾斜角度过大时，文字区域校正之后文字消失带来的干扰，同时也避免了对整个文本的检测，也加快了算法检测速度。

进一步地，所述步骤(5)采用SWT算法对文字边缘检测图进行文本检测过程中所涉及的笔画宽度检索方向角满足以下条件：

其中：SwtD_q为笔画宽度检索方向角。

进一步地，所述步骤(6)中改进的SWT文本启发式规则包含以下判别条件，满足该判别条件的区域即不符合中文文字特征；

其中：SwtVariance为区域内笔画宽度的方差，SwtMean为区域内笔画宽度的均值。

进一步地，所述步骤(8)中基于启发式规则对文本行连通域进行检测，即当以下两个条件同时满足的情况下，则判定待检测的图像为中文印刷体图像；

①

②s(h)≥10且s(w)≥30且

其中：S_text为文本行连通域中前景像素的面积，S_rect为整个文本行连通域的面积，s(h)和s(w)分别为文本行连通域的高和宽。

基于上述技术方案，本发明具有以下有益技术效果：

(1)本发明在图像文本检测多方向上，采用二维离散傅里叶变换对[-90,90]度的倾斜范围内的检测图像，进行倾斜校正，使图像文本检测具有较强的稳定性。

(2)本发明在图像检测感兴趣区域的选择上，利用水平投影直方图方法优先提取第一行文本作为检测对象，同时针对[-90,90]度的倾斜范围内的检测图像，提取的文本行可能存在校正后的文字缺失现象，增加了以文本前三行为检测区域，避免了对整个文本的检测，加快了算法的检测速度。

(3)本发明在图像文本检测过程中基于SWT的改进算法，该改进算法针对中文印刷体的固有特征，进行设计，提高了检测中文印刷体的准确性。

附图说明

图1为本发明中文印刷体图像检测方法的流程示意图。

图2(a)为水平印刷体图像。

图2(b)为倾斜印刷体图像。

图2(c)为图2(b)经倾斜校正后的图像。

图2(d)为从图2(c)中提取得到的文本行区域。

图2(e)为图2(d)经边缘检测得到的文字边缘检测图。

图2(f)为图2(e)经SWT算法文本检测得到的SWT图像。

图2(g)为图2(f)经启发式规则得到的文本行连通域。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

中文印刷体图像具有以下特点：(1)中文文本，中文是一种笔画多样，结构复杂的象形类文字，不同与结构简单的英文文字，中文复杂多变的笔画结构，常常增加了文本检测的难度；(2)文本区域明显，通过水平投影直方图，可以看出印刷体文本区域与空白区域，依次交替分布；(3)图像易倾斜，通过非固定式摄影设备如手机等拍摄图像，容易存在着倾斜角度，增加检测难度。

如图1所示，针对中文印刷体图像，本发明提出了一种基于SWT的多方向中文印刷体文字检测方法，包括以下步骤：

步骤一：对待处理图像进行预处理；首先进行灰度化，将灰度范围为1％～99％的像素点进行线性拉伸，灰度化计算公式如下：

f(i,j)＝0.3×R(i,j)+0.59×G(i,j)+0.11×B(i,j)

其中R、G、B为RGB颜色分量，f(i,j)为图像中一点灰度化后的颜色值。

然后对灰度化的图像进行缩放处理，对图像宽大于650像素且高>850像素的图像，缩放到650*850像素，如图2(a)和图2(b)所示，以加快图像检测速度。

步骤二：图像倾斜校正；对于图2(b)，通过二维离散傅里叶变换，移动傅里叶频谱至中心，然后通过二值化的频谱平移图，通过霍夫线检测计算出倾斜角度，从而校正图像。

二维离散傅里叶变换值计算公式如下：

其中：(u,v)为图像频率域坐标，(x,y)为图像空间域坐标，f(x,y)代表图像大小为M*N矩阵，F(u,v)表示f(x,y)的傅里叶变换，

对于一副图像，图像中灰度变化比较缓慢的区域可以用较低频率的正弦信号近似，而灰度变化较大的边缘地带则需要用高频的正弦信号近似，而图像大部分都是灰度变换缓慢的区域，只有一小部分是边缘，因此变换域的图像能量主要集中在低频部分(对应幅值较高)，只有一小部分能量集中在高频部分(对应幅值较低)。

傅里叶变换的平移性是指，将f(x,y)乘以一个指数项相当于将其二维离散傅里叶变换F(u,v)频域中心移动到新的位置。同样，将F(u,v)乘以一个指数项，就相当于将f(x,y)的空域中心移动到新的位置，该性质的计算公式为：

其中：(u,v)为图像频率域坐标，(x,y)为图像空间域坐标，(u₀,v₀)为新的频率域坐标，(x₀,y₀)为新的空间域坐标，M*N为图像大小，；

以上两式说明，当空域中f(x,y)产生移动时，在频域中只发生相移，而傅里叶变换的幅值不变，原因公式为：

对频谱从原点移频到图像中心以后，可以看出图像的频率分布是以中心为圆心，对称分布的；再经过二值化之后，就可以清晰的看出图像的倾斜角度线，再根据获得的倾斜角度，就可以校正倾斜的图像，如图2(c)所示，。

步骤三：提取检测文本行，对倾斜校正完的图像，采用大津阈值算法对图像进行二值化处理，该阈值算法可以由以下流程表示：

令{0,1,2,…,L-1}表示一副大小为M*N像素的数字图像中的L个不同的灰度级，n_i表示灰度级为i的像素数。图像中的像素总数为MN＝n₀+n₁+n₂+。。。+n_L-1。归一化的直方图具有分量

由此有：

3.1计算输入图像的归一化直方图，使用p_i(i＝0,1,2,…,L-1)表示该直方图的各个分量。

3.2计算背景与前景(文字区)的出现概率，计算方式如下：

其中：t为前景和背景的分割阈值，p_i为第i个直方图分量灰度级概率，B代表背景，p_B(t)为像素被分到背景像素的概率。

其中：t为前景和背景的分割阈值，L为图像中不同的灰度级，p_F(t)为像素被分到前景像素的概率。

3.3计算前景与背景区域的平均灰度值，计算公式如下：

其中：ω_B(t)为背景像素的平均灰度值。

其中：ω_F(t)为前景像素的平均灰度值。

3.4计算图像的全局灰度平局值，计算公式如下：

其中：ω₀为图像的全局灰度平局值。

3.5计算图像前景与背景两个区域的类间方差，计算公式如下：

σ²＝p_B(ω_B-ω₀)²+p_F(ω_F-ω₀)²

其中：σ²为图像前景与背景两个区域的类间方差。

3.6得到大津阈值t^*，即使得σ²(t)最大的t值，计算公式如下：

σ²(t^*)＝max(σ²(t))0≤t≤L-1

通过计算图像水平投影直方图，记录每行中黑色点的个数，然后水平投影按行在y轴上的投影显示，根据文本行与空白行的像素间隔区间，优先提取第一行文本作为处理对象，如图2(d)所示；为了过滤掉过细的明显不符合中文文本行的水平投影区间，取投影像素间隔差S_index>＝20像素的投影区间才作为有效的文本行区域，投影过滤计算公式如下：

S_index＝proEindex-proSindex＞＝20

其中：proEindex为水平投影图的文本行结束索引，proSindex为文本行开始索引。

同时为了保证对于倾斜角度过大的文本，图像校正之后首行文本消失，我们追加了正文头三行为检测感兴趣区域，保证了图像倾斜角度过大时，文本区域的文字消失给检测带来的干扰，同时也避免了对整个文本的检测，也加快了算法检测速度。

步骤四：改进的笔画宽度变换算法。对经过倾斜检测的图像，通过改进的笔画宽度变换算法SWT，检测中文印刷体图像，具体步骤如下：

4.1进行canny边缘检测，边缘检测提取过程为：首先对提取到的文本行，首先使用高斯滤波器，以平滑图像滤除噪声；一个二维的高斯滤波器公式如下：

其中：x,y是图像的坐标，σ是关联的概率分布的标准差。

然后，计算图像中每个像素点的梯度强度和方向，应用非极大值(Non-MaximumSuppression)抑制，以消除边缘检测带来的杂散响应；应用双阈值(Double-Threshold)检测来确定真实的和潜在的边缘；最后通过抑制孤立的弱边缘完成边缘检测，检测结果如图2(e)所示。

4.2计算边缘像素点的笔画宽度；计算每个边缘点m，若m位于笔画边缘，则d_m一定大致垂直于笔画方向，沿着射线r＝m+n*d_m(n>0)梯度查找与之对应的另一个边缘像素点n，那么d_m与d_n的方向是大致相反的(d_m＝-d_n±π/3)，此时会出现两种情况：

①m找不到对应的匹配的n或者d_m与d_n不满足大致反向的要求，那么该射线r废弃掉。

②如果找到满足要求的n，除非该点已经被指定了一个更小的笔画宽度属性值，否者在[m,n]这条路线上的每个像素点都会被指定笔画宽度属性值

(欧氏距离)，计算公式如下：

其中：(m_x,m_y)为m点的图像坐标，(n_x,m_y)为n点的图像坐标。

对于所有第一次扫描到的路径，求出路径上的中值，将所有这条路径上大于中值的点全部赋值为中值，至此像素笔画宽度值计算完毕，输出包含每个像素笔画宽度信息的SWT图像，如图2(f)所示。

4.3找到字符候选区域，主要有以下几个过滤原则：

①相邻两像素笔画宽度比不超过3.0。

②字符连通域笔画的方差与均值之比小于等于3.4，关系式如下：

其中：SwtVariance为字符连通域笔画宽度的方差，SwtMean为文本连通域笔画宽度的均值。

③对于字符候选区域长宽比要求在0.1到10之间，关系式如下：

0.1＜aspectRation＜10

其中：aspectRation为字符候选区域高宽比。

④一块字符区域的边界框包含不超过两块区域，关系式如下：

boundingBox＜2

其中：boundingbox为包含连通域部件个数。

⑤字符连通域高度在10到300之间，关系式如下：

10＜height＜300

其中：height为字符连通域高。

4.4字符成文本行；如果两个候选字符满足以下几个原则，则合并成文本行连通域，合并后的文本行连通域如图2(g)所示。

①两个候选字符的中值笔画宽度比不超过2.0。

②字符距离不超过3倍于较宽的字符宽度。

③两个字符高度比不超过2.0。

④两个字符颜色相近。

4.5文本检测；根据步骤4.4得到的文本行连通域，进行文本检测判断，两个判别关系式分别为：

((s(h)≥10且s(w)≥30)且

)

其中：S_text为前景像素数面积，S_rect为整体文本行连通域面积，s(h)、s(w)分别为文本行连通域的高与宽。

本发明通过上述的步骤流程实现了中文印刷体文本的快速，高效的检测，整体算法首先利用了二维离散傅里叶变换对文本印刷体倾斜角度检测的鲁棒性，进行印刷体文本图像的倾斜校正；然后通过对文本图像进行图像水平投影处理，通过计算图像水平投影直方图文本行与空白行的像素间隔区间，快速提取待识别的文本行；进而对文本行进行canny边缘检测，提取边缘图像，由欧氏距离公式得到符合条件像素点的笔画宽度，输出包含像素笔画宽度信息的SWT图，通过相应的过滤规则，得到符合中文特性的文本行，完成印刷体中文文本图像的检测。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于SWT的多方向中文印刷体文字检测方法，包括如下步骤：

(1)对待检测的图像依次进行灰度化以及缩放的预处理操作，

(2)对预处理后的图像进行倾斜校正，具体实现过程为：首先，对图像进行二维离散傅里叶变换，得到图像对应的频率分布图；然后，对该频率分布图中左上、右上、左下、右下四个角频率分布块进行象限交换及平移操作，将图像频谱从原点移动到图像中心点，使得四个角频率分布块均集中在频率分布图的中心；最后，对频率分布图进行二值化，通过霍夫线检测技术画出分布图中的倾斜角度线，进而根据该倾斜角度线对原图像进行倾斜校正；

(3)从经校正后的图像中提取文本行作为ROI，具体实现过程为：对校正后的图像进行水平投影处理得到图像的水平投影直方分布图，根据分布图当中文本行与空白行的间隔区间快速提取待检测处理的文本行作为ROI；若图像的倾斜角度在[-30°,30°]范围内，则提取图像中第一行文本作为ROI；若图像的倾斜角度超出[-30°,30°]范围，则提取图像中前三行文本作为ROI；

(5)采用SWT算法对文字边缘检测图进行文本检测，得到包含文字笔画宽度信息的SWT图像；文本检测过程中所涉及的笔画宽度检索方向角满足以下条件：

其中：SwtD_q为笔画宽度检索方向角；

改进的SWT文本启发式规则包含以下判别条件，满足该判别条件的区域即不符合中文文字特征；

其中：SwtVariance为区域内笔画宽度的方差，SwtMean为区域内笔画宽度的均值；

(8)基于启发式规则对文本行连通域进行检测，从而识别待检测的图像是否为中文印刷体图像，即当以下两个条件同时满足的情况下，则判定待检测的图像为中文印刷体图像；

①

②s(h)≥10且s(w)≥30且

2.根据权利要求1所述的多方向中文印刷体文字检测方法，其特征在于：所述步骤(1)中对待检测的图像进行缩放，使其缩放至650×850大小。