CN108573258B

CN108573258B - 一种快速的复杂背景图像中维语文字定位方法

Info

Publication number: CN108573258B
Application number: CN201810375055.9A
Authority: CN
Inventors: 谢洪涛; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2020-06-26
Anticipated expiration: 2038-04-24
Also published as: CN108573258A

Abstract

本发明公开了一种快速的复杂背景图像中维语文字定位方法，包括：基于检测模版从图像中检测笔划关键点；结合检测到的笔划关键点与洪泛算法提取图像中的文字组件；基于文字组件相似性进行组件聚类，实现文字行的构造；利用HOG+SVM系统构成的行分类器，对文字行进行HOG特征提取，以及文字行与非文字行的二分类。该方法可以提升复杂背景图像中维语文字定位的速度和精度。

Description

一种快速的复杂背景图像中维语文字定位方法

技术领域

本发明涉及复杂背景图像中文字定位领域，尤其涉及一种快速的复杂背景图像中维语文字定位方法。

背景技术

复杂背景图像中维语文字定位技术在图像内容分析、图像内容检索和维文OCR等领域具有广泛的应用前景。虽然近年来大量的学者投身于复杂背景图像中文字定位研究，但是他们的研究主要针对中文和英文。维文与中英文的差异性使得现有文字定位方法对维文不鲁棒，因此如何提高复杂背景图像中的维语文字定位的速度与精度是本方法的研究关键。此外由于图像中文字位置的灵活性，对候选的搜索过程十分耗时；由于图像中文字的多样性(如：字体、颜色和大小等)、图像背景的复杂性(如：树枝、栅栏和草地等)和图像质量的差异性(如：模糊、低分辨率和形变等)，使得文字与非文字的准确分类极具挑战。

现有的文字定位方法大致可以分为两大类：基于滑动窗口分类的方法和基于连接组件分析的方法。基于滑动窗口分类的方法通过在多尺度图像上滑动窗口来搜索文字候选。这种搜索方式非常详尽，所以往往能取得较高的召回率，但是其过程十分耗时。同时搜索过程中产生大量的候选，增加了后续候选分类的计算压力。基于连接组件分析的方法，一般先根据文字的固有特性(笔划、颜色和空间位置等)提取出候选组件，再使用图连接算法将提取出的文字组件连接成文字区域。这类方法比基于滑动窗口分类的方法快，但是组件提取和组件分类的过程依然十分耗时。

综合分析上述两种方法可知，在现有“候选产生-候选分类”的文字定位框架中，候选产生的数据量大同时候选分类产生大量额外的时间开销。此外当前没有有效的手工特征以区分文字与非文字候选，而深度学习到的特征框架又太大计算成本高。轻量级快速准确的复杂背景图像中维语文字定位技术依旧是一个研究难点，具有广泛的应用价值。

发明内容

本发明的目的是提供一种快速的复杂背景图像中维语文字定位方法，可以提升复杂背景图像中维语文字定位的速度和精度。

本发明的目的是通过以下技术方案实现的：

一种快速的复杂背景图像中维语文字定位方法，包括：

基于检测模版从图像中检测笔划关键点；

结合检测到的笔划关键点与洪泛算法提取图像中的文字组件；

基于文字组件相似性进行组件聚类，实现文字行的构造；

利用HOG+SVM系统构成的行分类器，对文字行进行HOG特征提取，以及文字行与非文字行的二分类。

由上述本发明提供的技术方案可以看出，执行笔划关键点检测、组件提取、基于相似性的组件聚类以及文字行分类，可以显著提升复杂背景图像中维语文字定位的速度和精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种快速的复杂背景图像中维语文字定位方法的流程图；

图2为本发明实施例提供的三种笔划关键点的示意图；

图3为本发明实施例提供的检测模版示意图；

图4为本发明实施例提供的笔划端点示意图；

图5为本发明实施例提供的笔划交叉点示意图；

图6为本发明实施例提供的笔划弯点示意图；

图7为本发明实施例提供的笔划关键点的检测过程示意图；

图8为本发明实施例提供的笔划交叉点的种子选择示意图；

图9为本发明实施例提供的水平分组算法图；

图10为本发明实施例提供的组件相似性聚类算法图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种快速的复杂背景图像中维语文字定位方法，如图1所示，其主要包括如下步骤：

步骤1、基于检测模版从图像中检测笔划关键点。

通过观察维语文字的笔划特征，可以发现三种笔划关键点，也即本发明实施例中，主要检测如下三种类型的笔划关键点：笔划端点(即，终点或起点)、笔划交叉点和笔划弯点。

本发明实施例所提出的笔划关键点是文字相关的，即这些笔划关键点大多附着于文字笔划上。基于这一观察提出了针对这三种笔划关键点的检测方案。图2给出了三种笔划关键点的示例，中心图像为给定的示例图像，左侧图像为示例图像中笔划交叉点，上方图像为中心图像中笔划弯点，右侧图像为示例图像中笔划端点(笔划终点)。

本发明实施例在检测笔划关键点时，首先，将输入的图像从彩色图转换为灰度图，然后，基于检测模版对灰度图中每一像素进行验证，从而检测出笔划关键点。

如图3所示，检测模版为一个7×7像素的方形模版，待检测像素p位于模版中心，待检测像素点p外围的8个像素所构成的方形区域为第一检测区域(图3中用竖线填充的区域)；第一检测区域外围的16个像素所构成的方形区域为第二检测区域(图3中用斜线填充的区域)；第二检测区域外围的24个像素所构成的方形区域为第三与第四检测区域，其中，第四检测区域为方形区域中4个顶点与4个边框中点所占的区域(图3中用横线填充的区域)，其余则为第三检测区域(图3中用交叉线填充的区域)。本发明实施例中，以第二检测区域作为基本检测区域，以它为参照，内侧区域即为第一检测区域，外侧区域即为第三与第四检测区域。位于检测区域的每个像素点x都会通过一个映射函数来判断其与待检测像素p的比较关系，映射函数定义为：

其中，t为设定的边缘阈值(例如，可以设为13)，I_p、I_x对应于待检测像素点p、像素点x的像素值；映射值0、1、2对应的表示待检测像素点p与像素点x亮度相似、待检测像素点p比像素点x亮、待检测像素点p比像素点x暗。

检测候选关键点，候选关键点满足的条件为：在第二检测区域中存在两段位置连续的像素点分别被映射为0和1，或者0和2；由此获得两个连续的像素点集P₀和P₁，或者P₀和P₂；并且，|P₀|＜8。

本发明实施例中，检测模版为图像检测子，类似FAST检测子。在我们的图像检测子，需要考虑4个检测区域的像素值情况。图像输入的尺寸不变，检测模版的检测过程可以看做是一个7×7的窗口在图像中滑动，每一次都是检测检测模版中心像素与检测模版中其他像素的关系。边界像素点可以检测，检测则补0；也可以不检测，影响不大。

同时为了保证关键点的笔划相关性，需要对像素点集P₀进行内部相似性规则和外部区分性规则的检测、内部相似性规则检测：检测像素点集P₀内外像素点与检测模版中心点(即位于检测模版中心的待检测像素)的相似性，以保证找到的笔划关键点不是一个孤立的点而是笔划的一部分；外部区分性规则检测：检测像素点集P₁或P₂内外像素点与检测模版中心的区分性，以保证笔划关键点与背景的区分性。其中的内像素点是指第一检测区域中的像素点，外像素点是指第三与第四检测区域中的像素点。

之后，根据|P₀|的大小判断笔划关键点的种类：

1)笔划端点的第一判定条件为：|P₀|＜5，满足条件后再进行笔划相关性判别。图4分别展示了3种典型的笔划端点判别模式，图4中的p₀表示像素点集P₀中的像素点。当笔划端点满足第一判别条件后，需对它进一步进行笔划相关性判别，图4中，像素点p₀也即通过前述步骤获得的像素点集P₀中的像素点，也即候选关键点；对于每个候选关键点取 3*3邻域；这些邻域会与检测模版中内侧区域及外侧区域产生一定的交集(简称结合交集区域)；结合交集区域内的候选关键点分布情况进行笔划相关性判别，剔除掉不符合要求的候选关键点。此外，对于笔画关键点而言，第一和第三检测区域中必须有映射值为0 的像素点，但是无需确定这个像素点的位置。

以图4(a)为例，首先检查第一检测区域的像素，其中必须包含至少1个像素的映射值为0；然后检查第三区域的像素，其中同样必须包含1个像素映射值为0的点；最后检查第四区域的像素，其中所有的像素映射值必须与第二检测区域内相应映射值相同。。

2)笔划交叉点的第一判定条件为：|P₀|＝5，满足条件后再进行笔划相关性判别。图5(a)(b)展示了两种典型的笔划交叉点，此时中心点位于直角顶点。其笔划相关性判定与笔划端点类似。但是笔划交叉点的第一判定条件并不一定能保证中心点位于直角顶点，如图5(c)，因此在对候选点进行第一判定条件时需要排除这类点。

3)笔划弯点第一判定条件为：5＜|P₀|＜8，满足条件后再进行笔划相关性判别。图6 展示了3种典型的笔划弯点。其笔划相关性判定过程大致与笔划端点一致，不同点在于满足笔划弯点的第一步判定条件后，还要满足在结合交集区域至少需要包含2个以上的连续相似像素。

通过上述方式检测出所有笔划关键点并区分种类；最后，对所有检测到的笔划关键点进行非极大值抑制：对于出现在3×3邻域范围内的笔划关键点做响应值比较，保留响应值最大的笔划关键点，去除邻域内的其他笔划关键点；响应值的计算公式为：

上式中，y表示像素集P₁或P₂中的像素点，I_y表示像素点y的像素值。

下面结合一个具体的示例来介绍笔划关键点的检测过程。

检测主要分为三个过程，依次为：检测候选关键点→根据|P₀|的大小判断为哪一类关键点的候选点→内外规则确认。

如图7(a)所示，首先，检测中心点p是否为候选点；通过计算获得如图7(b)所示的两个连续的像素点集P₀和P₁，或者P₀和P₂，因此，可以确认中心点p为候选点；由于像素点集P₀只有一个像素点，即|P₀|＜5，因此，使用笔划端点的内外规则确认；如图7 (c)，对这个候选关键点取3×3邻域；这些邻域会与检测模版中内侧区域及外侧区域产生结合交集区域；再检测结合交集区域中，第一检测区域的像素是否包含至少1个像素的映射值为0；第三区域的像素是否包含1个像素映射值为0的点。

步骤2、结合检测到的笔划关键点与洪泛算法提取图像中的文字组件。

本发明提出的文字组件提取方法基于对图像中文字的一个观察，即图像中的文字具有内部一致性和外部区分性(比如亮度，颜色)。因此，只要检测到文字的一个像素点即可通过标准的洪泛算法提取到文字组件。本发明提出的文字组件提取流程，分别为图像输入(a)、笔划关键点检测(b)、关键点洪泛(c)以及外接矩阵(d)表示。标准洪泛算法已经有大量的论述以及开源实现，本发明主要描述洪泛种子与相似判定阈值的选择方法，本发明实施例中，结合检测到的笔划关键点与洪泛算法提取图像中的文字组件时，通过检测到的笔划关键点选择洪泛种子，以及通过检测到的笔划关键点对洪泛相似判定阈值进行选择；主要如下：

1、洪泛种子的选择：对于笔划端点直接选择为洪泛种子。笔划交叉点和笔划弯点虽然笔划相关，但是有时并没有命中笔划，因此，对于笔划交叉点和笔划弯点进行反向洪泛，从而选出洪泛种子；图8展示了两种笔划交叉点的种子选择情况，图中的点A与点B均被选择为洪泛种子。

2、洪泛相似判定阈值的选择：

1)笔划关键点比背景亮，相似判定阈值θ₁为：

θ₁＝max(I_y)+1|y∈P₁；

2)笔划关键点比背景暗，相似判定阈值θ₁为：

θ₂＝min(I_y)-1|y∈P₂。

步骤3、基于文字组件相似性进行组件聚类，实现文字行的构造。

本发明实施例中，文字行的构造被看作为基于组件相似性的组件聚类算法。因为本发明主要处理水平排版的文字，因此文字行构造主要包含两个部分，分别是启发式规则去噪和组件相似性聚类。

1、在启发式规则去噪阶段，可以用一些规则去掉比较明显的非文字组件。比如尺寸过大过小或者长宽比过大过小的文字组件。本发明实施例中，仅选择满足如下条件的文字组件：

K≤w_c≤w_i/3和K≤h_c≤h_i/3；

其中，w_c、h_c分别表示文字组件的宽、高，w_i、h_i分别表示图像的宽、高，K为设定的尺寸阈值。示例性的，可以设置K＝10，即文字组件宽度小于10像素或大于图像宽度三分之一的组件为非文字组件，文字组件高度小于10像素或大于图像高度三分之一的组件亦为非文字组件。

同时文字组件的长宽比范围为0.2≤w_c/h_c≤5。

2、基于文字组件相似性对满足条件的文字组件进行组件聚类：首先位于同一水平线上的文字组件会被分为一组，然后对每组组件进行相似性聚类。

水平分组与组件相似性聚类算法分别如图9和图10所示。

步骤4、利用HOG+SVM系统构成的行分类器，对文字行进行HOG特征提取，以及文字行与非文字行的二分类。

本发明实施例中，本方法采用HOG+SVM系统构成行分类器，即首先提取候选行的HOG特征再使用SVM进行二分类(文字行/非文字行)。下面将对HOG+SVM的特征设计以及参数选择进行说明：

1、HOG特征提取方法：

HOG特征提取算法在OpenCV中也有高效实现。在实际使用时只需要指定HOG窗口(window)大小，块(block)大小，单元(cell)大小，块步长(block stride)以及方向梯度区间(nbins)。

HOG特征提取方法主要过程如下：

1)对文字行进行HOG特征提取时，假设包含文字行的图像大小为n×m，设定方向梯度区间，HOG的窗口大小为w×h单元以及HOG块的大小为s×s单元，其中，w,h≥s。

2)将图像大小调整为((n/w)×w)×((m/h)×h)，将边缘补零，且(n/w)的商向上取整，同时HOG单元的大小为(n/w)×(m/h)像素，块步长设为一个HOG单元。

3)将调整好的图像，以及参数输入OpenCV实现的HOG特征提取函数即可获得该图像中文字行的HOG特征。

2、用于行分类的HOG+SVM参数设置如下：

梯度尺度σ＝0，使用L2-Hys正则化方法，SVM的核宽度为γ＝3e-2(e为自然常数)，HOG块步长为1个HOG单元(cell)。HOG块大小为2*2cells，HOG窗口大小为2*5cells。 HOG单元(cell)的大小随组件大小变化，(组件宽/2)*(组件高/5)像素。

另一方面，为了说明本发明上述方案的效果，还在复杂背景维语图像数据集UICBI400和UICBI500上进行了对比实验，对比实验表明，本发明的维语定位性能明显优于目前在UICBI400数据集上最优的方法，明显提升复杂背景图像中维语文字定位的速度和精度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种快速的复杂背景图像中维语文字定位方法，其特征在于，包括：

基于检测模版从图像中检测笔划关键点；检测模版为一个7×7像素的方形模版，待检测像素p位于模版中心，待检测像素点p外围的8个像素所构成的方形区域为第一检测区域；第一检测区域外围的16个像素所构成的方形区域为第二检测区域；第二检测区域外围的24个像素所构成的方形区域为第三与第四检测区域，其中，第四检测区域为方形区域中4个顶点与4个边框中点所占的区域，其余则为第三检测区域；

基于文字组件相似性进行组件聚类，实现文字行的构造；

利用HOG+SVM系统构成的行分类器，对文字行进行HOG特征提取，以及文字行与非文字行的二分类；

其中，检测笔划关键点时，首先，将输入的图像从彩色图转换为灰度图，然后，基于检测模版对灰度图中每一像素进行验证，从而检测出笔划关键点；

位于检测区域的每个像素点x都会通过一个映射函数来判断其与待检测像素p的比较关系，映射函数定义为：

其中，t为设定的边缘阈值，I_p、I_x对应于待检测像素点p、像素点x的像素值；映射值0、1、2对应的表示待检测像素点p与像素点x亮度相似、待检测像素点p比像素点x亮、待检测像素点p比像素点x暗；

检测候选关键点，候选关键点满足的条件为：在第二检测区域中存在两段位置连续的像素点分别被映射为0和1，或者0和2；由此获得两个连续的像素点集P₀和P₁，或者P₀和P₂；并且，|P₀|＜8；

再根据|P₀|的大小判断笔划关键点的种类：

1)笔划端点的第一判定条件为：|P₀|＜5，满足条件后再进行笔划相关性判别；

2)笔划交叉点的第一判定条件为：|P₀|＝5，满足条件后再进行笔划相关性判别；

3)笔划弯点第一判定条件为：5＜|P₀|＜8，满足条件后再进行笔划相关性判别；

通过上述方式检测出所有笔划关键点并区分种类；

对所有检测到的笔划关键点进行非极大值抑制：对于出现在3×3邻域范围内的笔划关键点做响应值比较，保留响应值最大的笔划关键点，去除邻域内的其他笔划关键点；响应值的计算公式为：

2.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法，其特征在于，该方法还包括对像素点集P₀进行内部相似性规则和外部区分性规则的检测：

内部相似性规则检测：检测像素点集P₀内外像素点与位于检测模版中心的待检测像素点的相似性，以保证找到的笔划关键点不是一个孤立的点而是笔划的一部分；

外部区分性规则检测：检测像素点集P₁或P₂内外像素点与位于检测模版中心的待检测像素点的区分性，以保证笔划关键点与背景的区分性；

其中，像素点集P₀、P₁或P₂内像素点是指第一检测区域中的像素点，外像素点是指第三与第四检测区域中的像素点。

3.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法，其特征在于，结合检测到的笔划关键点与洪泛算法提取图像中的文字组件时，通过检测到的笔划关键点选择洪泛种子，以及通过检测到的笔划关键点对洪泛相似判定阈值进行选择；

洪泛种子的选择：对于笔划端点直接选择为洪泛种子；对于笔划交叉点和笔划弯点进行反向洪泛，从而选出洪泛种子；

洪泛相似判定阈值的选择：

1)笔划关键点比背景亮，相似判定阈值θ₁为：

θ₁＝max(I_y)+1|y∈P₁；

2)笔划关键点比背景暗，相似判定阈值θ₁为：

θ₂＝min(I_y)-1|y∈P₂。

4.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法，其特征在于，所述基于文字组件相似性进行组件聚类包括：启发式规则去噪和组件相似性聚类；

在启发式规则去噪阶段，仅选择满足如下条件的文字组件：

K≤w_c≤w_i/3和K≤h_c≤h_i/3；

其中，w_c、h_c分别表示文字组件的宽、高，w_i、h_i分别表示图像的宽、高，K为设定的尺寸阈值；

基于文字组件相似性对满足条件的文字组件进行组件聚类：首先位于同一水平线上的文字组件会被分为一组，然后对每组组件进行相似性聚类。

5.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法，其特征在于，对文字行进行HOG特征提取时，假设包含文字行的图像大小为n×m，设定方向梯度区间，HOG的窗口大小为w×h单元以及HOG块的大小为s×s单元，其中，w,h≥s；

然后，将图像大小调整为((n/w)×w)×((m/h)×h)，将边缘补零，且(n/w)的商向上取整，同时HOG单元的大小为(n/w)×(m/h)像素，块步长设为一个HOG单元；

最后，将调整好的图像，以及参数输入OpenCV实现的HOG特征提取函数即可获得该图像中文字行的HOG特征。