CN105404868A

CN105404868A - 一种基于交互平台的复杂背景中文本的快速检测方法

Info

Publication number: CN105404868A
Application number: CN201510801295.7A
Authority: CN
Inventors: 程洪; 王光甫; 杨路
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2016-03-16
Anticipated expiration: 2035-11-19
Also published as: CN105404868B

Abstract

本发明公开了一种基于交互平台的复杂背景中文本的快速检测方法，它包括以下步骤：S1：输入图像预处理；S2：文本候选区域快速定位：对步骤S1预处理后的图像作轮廓检测，并用矩形框将每个闭合区域框选出来，然后通过SIFT算法快速定位每个矩形框中的所有角点，将角点个数作为初步筛选条件进行初步筛选；S3：通过归一化算法首先将图像调整到统一的大小，再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心，并适当的修正角度；S4：文本/背景筛选：首先提取特征，经过训练后的分类器筛选后的候选区域为检测出的文本区域。本发明实现复杂背景中的文本检测，其解决的主要问题是如何在保持较高精度情况下快速定位图像中水平及带有旋转角度的文本。

Description

一种基于交互平台的复杂背景中文本的快速检测方法

技术领域

本发明涉及计算机视觉和人机交互领域，尤其涉及一种基于交互平台的复杂背景中文本的快速检测方法。

背景技术

复杂背景中的文本检测问题，在计算机视觉领域和人机交互领域都视为一个经典难题。原因有两点，首先这项技术有着广泛的应用。比如，可以利用这项技术让手机等智能设备为我们读书念报，或应用于无人车上让车辆自动识别路标路牌。其次，文本检测问题有时非常难解决的，因为文本检测不同于人脸、车辆、行人等一般的目标检测。文本的形状更加多变(往往出现不同程度的形变、模糊)，与背景更加相似，并且计算时间复杂度很高。

对于复杂背景的文本检测，目前主要有三种方法：1.基于纹理的文本检测方法。2.基于区域的文本检测方法。3.基于深度学习的方法。

基于纹理的文本检测方法，是把复杂背景中的文本视为一种特殊的纹理。通常采用滑动窗的方法进行纹理提取，再用Gabor滤波等对光线鲁棒对边缘信息敏感的滤波器进行图像预处理，最后用灰度直方图的方法统计图像中的像素分布情况进而确定滑动窗中是否有文本存在。其缺点是对背景较为复杂的图片处理效果不好，并且由于用到了滑动窗方法其计算效率是非常低的。

基于区域的文本检测方法，是人文复杂背景中的文本都是一种局部连通的特殊区域。其基本思想是利用连通区域提取算法将图像中的所有连通部分提取出来，然后用训练分类器或制定筛选规则将文本部分与背景部分进行区分，最后再将所得到的文本进行整合。其缺点在于过于依赖于连通区域的提取算法，但SWT或MSER这样的连通区域算法对低对比度图像的提取效果是非常不理想的，从而影响整体的检测率。

基于深度学习的方法，是最近最流行的方法之一。其主要思想是利用海量的数据及高性能的计算机训练一个多层的神经网络。这种方法为了提高训练效率一般要用GPU进行加速。其缺点在于，需要海量的标注数据十分耗时耗力，并且一般对水平的文本效果较好，但旋转的情况准确率不高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于交互平台的复杂背景中文本的快速检测方法，解决了文本定位速度过慢的问题，可以快速的将图片中文本定位，并有较强的鲁棒性。

本发明的目的是通过以下技术方案来实现的：一种基于交互平台的复杂背景中文本的快速检测方法，它包括以下步骤：

S1：输入图像预处理：对输入的图像进行预处理操作，增强文本边缘对比度；

S2：文本候选区域快速定位：对步骤S1预处理后的图像作轮廓检测，并用矩形框将每个闭合区域框选出来，然后通过SIFT算法快速定位每个矩形框中的所有角点，将角点个数作为初步筛选条件进行初步筛选；

S3：候选区域归一化：通过归一化算法首先将图像调整到统一的大小，再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心，并适当的修正角度；

S4：文本/背景筛选：首先离线的根据训练样本提取具有鲁棒性的特征，经过训练后的分类器筛选后的候选区域为检测出的文本区域。

所述的步骤S1包括以下子步骤：

S11：将输入的图像进行直方图均值化，使得原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围的均匀分布，公式如下：

S_{k} = Σ_{j = 0}^{k} \frac{n_{j}}{n}, k = 0, 1, 2, ..., L - 1;

式中，n为图像的像素总和，n_k是当前灰度级像素的个数，L是图像中可能出现的像素灰度级的总数；

S12：采用图像锐化算法对图像进行加强：采用Kirsch算子模板对图像上的每一个像素点进行卷积求导数，所述的Kirsch算子模板的数量N代表方向的数量，对图像上的N个特点边缘方向做出最大响应，运算中取最大值作为图像的边缘输出。

所述的步骤S2包括以下子步骤：

S21：对步骤S1预处理后的图像作轮廓检测，并用矩形框将每个闭合区域框选出来；

S22：通过SIFT算法快速定位每个矩形框中的所有角点；

S23：统计落在每个矩形框中的角点个数，公式如下：

{RN}_{k} = Σ_{x = 0}^{w} Σ_{y = 0}^{h} p (x, y) s (x, y);

式中，k代表第k个矩形框区域，w和h分别代表所述矩形框区域的宽和长，p(x,y)代表矩形框的二值图像，s(x,y)代表矩形框对应的SIFT角点图；

S24：用单位面积的角点个数作为初步筛选条件，公式如下：

{PRN}_{k} = \frac{{RN}_{k}}{w \times h};

当PRN_k的值大于某个值时，认为该区域含有文本。

所述的步骤S3包括以下子步骤：

S31：采用Moment算法求出原图像中内容的形心，公式如下：

m_pq＝Σ_xΣ_yx^py^qf(x,y)；

\{\begin{matrix} x_{c} = m_{10} / m_{00} \\ y_{c} = m_{01} / m_{00} \end{matrix};

式中，x和y分别代表图像中(x,y)像素的坐标，f(x,y)代表在(x,y)点的像素值；p和q代表阶数；m_pq代表Moment算子；x_c和y_c分别代表原矩形框内的内容形心的坐标值；

S32：计算矩形框中内容的倾斜角度θ，公式如下：

μ_pq＝Σ_xΣ_y(x-x_c)(y-y_c)f(x,y)；

tanθ＝μ₁₁/μ₀₂；

S33：经过前向映射后得到新图像，公式如下：

\{\begin{matrix} x^{'} = α (x - x_{c}) + x_{c}^{'} \\ y^{'} = β (y - y_{c}) + y_{c}^{'} \end{matrix};

式中，x'_c和y'_c分别代表归一化图长宽的一半，(x',y')代表改变大小后的图像的中心，α和β代表映射比例。

步骤S4中所述的特征包括方向梯度直方图特征、文本的起/终点与交叉点个数、几何特征、轮廓的梯度均值；所述的几何特征包括：矩形框面积、非0像素点个数、轮廓周长。

所述的方向梯度直方图特征的提取包括以下子步骤：

S51：将图像按照一定形式花费为多个图像块，每个图像块包含多个图像单元；

S52：计算图像单元中每个像素的梯度，公式如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y)；

G_y(x,y)＝H(x,y+1)-H(x,y-1)；

式中，H(x,y)表示在(x,y)点的像素值，G_x(x,y)和G_y(x,y)分别表示在这点上的x方向和y方向的梯度值；

S53：计算梯度幅值G(x,y)和梯度方向α(x,y)，公式如下：

G (x, y) = \sqrt[2]{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}};

α (x, y) = \tan^{- 1} \frac{G_{y} (x, y)}{G_{x} (x, y)};

S54：根据梯度幅值G(x,y)和梯度方向α(x,y)计算每一区域中落在每个方向中像素的个数，作为方向梯度直方图的提取的特征。

所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点个数的提取；其中，所述的文本的起/终点的提取为：在某像素点的邻域中只有一个非零点与其连通，则认为是起/终点；所述的交叉点个数的提取包括以下几种情况：

(1)当含有三个相邻像素时：如果与这个像素直接相连的像素中同时也与任意对角方向的像素相连，那么这个点不是交叉点；如果相邻的像素中彼此不想连通，那么这个像素点就是交叉点；

(2)当含有四个相邻像素时：如果相邻像素中，有任意两个像素在对角方向同时相连，那个这个点不是交叉点；否则，是交叉点；

(3)当含有五个或以上相邻像素时：都视为是交叉点。

所述的轮廓的梯度均值的提取包括以下子步骤：

S61：采用SOBEL算子进行计算，公式如下：

g_x(x,y)＝f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)-2f(x-1,y)-f(x-1,y+1)；

g_y(x,y)＝f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1)；

式中，f(x,y)表示在(x,y)点的像素值，g_x(x,y)和g_y(x,y)分别表示在这点上的x方向和y方向的梯度值；

S62：根据轮廓图对轮廓上的像素点梯度求平均值，得到的平均值作为轮廓的梯度均值提取的特征。

所述的步骤S4包括以下子步骤：

S41：离线的根据训练样本提取具有鲁棒性的特征；

S42：经过分类器筛选后的候选区域为检测出的文本区域；

S43：将备选区域进行整合后输出结果。

一种基于交互平台的复杂背景中文本的快速检测方法还包括一个分类器训练步骤S0，包括以下子步骤：

S01：将正负样本分类；

S02：提取特征；

S03：对分类器训练，训练后的分类器为步骤S4提供基础；所述的分类器为随机森林分类器。

本发明的有益效果是：本发明实现复杂背景中的文本检测，其解决的主要问题是如何在保持较高精度情况下快速定位图像中水平及带有旋转角度的文本。本发明旨在用快速的文本候选区域提取算法在图片中作文本出筛选，接着将筛选的区域进行归一化并进行一系列的几何滤波，然后提取具有旋转不变形的特征训练分类器对文本和背景进行区分，最终达到文本检测的效果。

本发明可以应用于交互系统中，协助人快速找到文本区域。与现有的文本检测系统相比的优点在于：1.文本定位迅速，计算复杂度简单。2.对硬件的要求不高，可以在嵌入式上运行。3.对光照造成的模糊和文字边缘的低对比度及拍摄角度的倾斜鲁棒。

附图说明

图1为本发明方法流程图；

图2为图片归一化效果图；

图3为kirsch算子模板示意图；

图4为文本的起/终点特征示意图；

图5为交叉点个数特征示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：如图1所示，一种基于交互平台的复杂背景中文本的快速检测方法，它包括以下步骤：

该步骤首先将摄像头采集的彩色图像转换成灰度图，因为图像在灰度空间对光照的相应不是十分明显。接着用两种图像处理方法对图像预处理：

所述的步骤S1包括以下子步骤：

S_{k} = Σ_{j = 0}^{k} \frac{n_{j}}{n}, k = 0, 1, 2, ..., L - 1;

通过这样的处理后可以增强大部分图像的局部对比度。但仍有部分图片的效果不够完美，所以采用另外一种处理方法进行加强，即图像锐化算法。

如图3所示，这种方法采用8个模板(M1～M8)，对图像上的每一个像素点进行卷积求导数，这8个模板代表8个方向，对图像上的8个特定边缘方向作出最大响应，运算(与3*3像素加权之和，就是对应位置相乘后求和)中取最大值作为图像的边缘输出。从而起到增强文本边缘对比度的作用。

该步骤首先对预处理后的图像作轮廓检测，并用矩形框将每个闭合区域框选出来。我们认为每个闭合区域都有可能含有文本，但其中也包含着大量的背景或噪声。然而文本大多是含有较多角点的，所以本发明利用效率远高于MSER或SWT算法的SIFT算法快速的定位图像中的所有角点。SIFT算法可以高效的检测出图像中的关键点，并且对旋转、尺度缩放、亮度变化都有极高的鲁棒性。

所述的步骤S2包括以下子步骤：

S22：通过SIFT算法快速定位每个矩形框中的所有角点；

S23：统计落在每个矩形框中的角点个数，公式如下：

{RN}_{k} = Σ_{x = 0}^{w} Σ_{y = 0}^{h} p (x, y) s (x, y);

由于面积较大的矩形框包含的极值点很多但可能这些极值点都产生在大量的背景噪声中，所以我们用单位面积的角点个数作为初步筛选条件。

S24：用单位面积的角点个数作为初步筛选条件，公式如下：

{PRN}_{k} = \frac{{RN}_{k}}{w \times h};

当PRN_k的值大于0.2时，认为该区域含有文本。

由于经过步骤二我们得到的文本备选区域大小各异，并且图片中的文字或非文字都极为不规整形状角度各异，所以我们通过归一化算法首先将图像调整到统一的大小，再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心，并适当的修正其角度。

所述的步骤S3包括以下子步骤：

S31：首先我们用Moment算法求出原图像中内容的形心；这里分别用到了一阶和二阶Moment公式如下：

m_pq＝Σ_xΣ_yx^py^qf(x,y)；

\{\begin{matrix} x_{c} = m_{10} / m_{00} \\ y_{c} = m_{01} / m_{00} \end{matrix};

S32：计算矩形框中内容的倾斜角度θ，公式如下：

μ_pq＝Σ_xΣ_y(x-x_c)(y-y_c)f(x,y)；

tanθ＝μ₁₁/μ₀₂；

S33：经过前向映射后得到新图像，公式如下：

\{\begin{matrix} x^{'} = α (x - x_{c}) + x_{c}^{'} \\ y^{'} = β (y - y_{c}) + y_{c}^{'} \end{matrix};

该步骤首先离线的根据训练样本提取具有鲁棒性的特征，然后进行分类器训练，本发明用的分类器是随机森林，该分类器处理数据较为高效，并且对高维特征的处理效果也十分显著。

首先方向梯度直方图特征，该特征又分为R-HOG和C-HOG两种，这两种的区别在于一个数以矩形将图像划分为多个图像块，而每个图像块又包含这多个图像单元。在计算过程中，首先计算图像单元中每个像素的梯度，然后计算梯度的方向，统计每一区域中落在每个方向中像素的个数。本系统中归一化的图像大小为24*24，我们以3*3个像素作为一个图像单元，再以2*2个图像单元作为一个图像块。并以6个像素作为步长滑动窗口计算梯度信息。在计算梯度方向时我们分为9个方向进行统计，于是我们可以得到9*4*4*4＝576维的HOG特征。相似的C-HOG特征是把图像分割成以定长为半径的圆进行统计，其计算方式与R-HOG特征相似。在本发明中，我们用的是R-HOG特征。

所述的方向梯度直方图特征的提取包括以下子步骤：

S52：计算图像单元中每个像素的梯度，公式如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y)；

G_y(x,y)＝H(x,y+1)-H(x,y-1)；

S53：计算梯度幅值G(x,y)和梯度方向α(x,y)，公式如下：

G (x, y) = \sqrt[2]{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}};

α (x, y) = \tan^{- 1} \frac{G_{y} (x, y)}{G_{x} (x, y)};

所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点个数的提取；其中，如图4所示，所述的文本的起/终点的提取为：在某像素点的邻域中只有一个非零点与其连通，则认为是起/终点；如图5所示，所述的交叉点个数的提取包括以下几种情况：

(3)当含有五个或以上相邻像素时：都视为是交叉点。

对于几何特征，用到了一下几种矩形框面积，非0像素点个数，轮廓周长。相对容易求取，却十分奏效。

而轮廓的梯度中值，不同于HOG特征的梯度求取方法，这里用到了Sobel算子进行计算。所述的轮廓的梯度均值的提取包括以下子步骤：

S61：采用SOBEL算子进行计算，公式如下：

g_x(x,y)＝f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)-2f(x-1,y)-f(x-1,y+1)；

g_y(x,y)＝f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1)；

所述的步骤S4包括以下子步骤：

S41：离线的根据训练样本提取具有鲁棒性的特征；

S42：经过分类器筛选后的候选区域为检测出的文本区域；

S43：将备选区域进行整合后输出结果。

S01：将正负样本分类；

S02：提取特征；

S03：对分类器训练，训练后的分类器为步骤S4提供基础；所述的分类器为随机森林分类器。由于特征维数较大，随机森林可以很好的防止过拟合现象的发生。明确较为高效，且具有很高的准确性。我们将随机森林的参数设置如下一共由100棵随机树组成，每棵树的最大高度设为30。

Claims

1.一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：它包括以下步骤：

2.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的步骤S1包括以下子步骤：

S_{k} = Σ_{j = 0}^{k} \frac{n_{j}}{n}, k = 0, 1, 2, ..., L - 1;

3.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的步骤S2包括以下子步骤：

S22：通过SIFT算法快速定位每个矩形框中的所有角点；

S23：统计落在每个矩形框中的角点个数，公式如下：

{RN}_{k} = Σ_{x = 0}^{w} Σ_{y = 0}^{h} p (x, y) s (x, y);

S24：用单位面积的角点个数作为初步筛选条件，公式如下：

{PRN}_{k} = \frac{{RN}_{k}}{w \times h};

当PRN_k的值大于某个值时，认为该区域含有文本。

4.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的步骤S3包括以下子步骤：

S31：采用Moment算法求出原图像中内容的形心，公式如下：

m_pq＝Σ_xΣ_yx^py^qf(x,y)；

\{\begin{matrix} x_{c} = m_{10} / m_{00} \\ y_{c} = m_{01} / m_{00} \end{matrix};

S32：计算矩形框中内容的倾斜角度θ，公式如下：

μ_pq＝Σ_xΣ_y(x-x_c)(y-y_c)f(x,y)；

tanθ＝μ₁₁/μ₀₂；

S33：经过前向映射后得到新图像，公式如下：

\{\begin{matrix} x^{'} = α (x - x_{c}) + x_{c}^{'} \\ y^{'} = β (y - y_{c}) + y_{c}^{'} \end{matrix};

5.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：

6.根据权利要求5所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的方向梯度直方图特征的提取包括以下子步骤：

S52：计算图像单元中每个像素的梯度，公式如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y)；

G_y(x,y)＝H(x,y+1)-H(x,y-1)；

S53：计算梯度幅值G(x,y)和梯度方向α(x,y)，公式如下：

G (x, y) = \sqrt[2]{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}};

α (x, y) = \tan^{- 1} \frac{G_{y} (x, y)}{G_{x} (x, y)};

7.根据权利要求5所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点个数的提取；其中，所述的文本的起/终点的提取为：在某像素点的邻域中只有一个非零点与其连通，则认为是起/终点；所述的交叉点个数的提取包括以下几种情况：

(3)当含有五个或以上相邻像素时：都视为是交叉点。

8.根据权利要求5所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的轮廓的梯度均值的提取包括以下子步骤：

S61：采用SOBEL算子进行计算，公式如下：

g_x(x,y)＝f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)-2f(x-1,y)-f(x-1,y+1)；

g_y(x,y)＝f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1)；

9.根据权利要求1或5或6或7或8所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：所述的步骤S4包括以下子步骤：

S41：离线的根据训练样本提取具有鲁棒性的特征；

S42：经过分类器筛选后的候选区域为检测出的文本区域；

S43：将备选区域进行整合后输出结果。

10.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法，其特征在于：还包括一个分类器训练步骤S0，包括以下子步骤：

S01：将正负样本分类；

S02：提取特征；