CN107066972A

CN107066972A - 基于多通道极值区域的自然场景文本检测方法

Info

Publication number: CN107066972A
Application number: CN201710249526.7A
Authority: CN
Inventors: 郑建彬; 喻捷; 詹恩奇; 汪阳
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2017-08-18
Anticipated expiration: 2037-04-17
Also published as: CN107066972B

Abstract

本发明涉及一种基于多通道极值区域的自然场景文本检测方法，它利用场景文本的特点结合机器学习的方法，采用多通道的极值区域检测提取候选文本区域，能够检测出更多候选文本，进而提升整体召回率，同时，采用启发式规则与机器学习相结合的方法，去除大量重复区域，运用经典的支持向量机构建单个字符文本和文本行的两个分类器模型，有效的滤除非文本区域，能够较好的提升准确率。本发明系统简单方便，通用性高，运用成熟的算法和特征并结合机器学习方法，能达到较好的检测效果。

Description

基于多通道极值区域的自然场景文本检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于多通道极值区域(ER)的自然场景文本检测方法。

背景技术

随着计算机技术、人工智能等先进技术的迅速发展，图像处理技术向更深层次发展，人们开始研究如何用计算机系统来模拟人类视觉系统，进而按照人类视觉认知过程来解析和理解外部世界。自然场景中不仅有大量的图形信息，还存在蕴含丰富内涵的文本信息，例如，街道名称、建筑物门牌号、公共汽车站牌、商店名称、公告板和广告牌上的文字等等。这些文本字符对场景视觉信息的表达具有重要价值，是描述和理解场景内容的关键线索。因此将场景图像中的文字抽取出来，有利于场景图像的内容分析、检索，可以广泛应用于，视频检索与分析、盲人导航、无人驾驶、智能交通等多个领域。

目前，已存在的自然场景文本检测方法大致可以分为四类：基于连通域的方法、基于边缘的方法、基于纹理的方法和复合方法，基于连通域分析的方法是假设同一区域的字符具有相似的颜色和亮度，并且与背景区域的颜色存在较大差异的基础上，从图像中提取连通区域，然后利用几何约束构造启发式规则进行连通域分析，将子区域合并得到最终的文本区域。基于边缘特征的方法是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测，首先采用某种边缘检测算子从原图像中检测出边缘，然后通过形态学方法将边缘连接成文本块，最后利用一些启发式规则进行筛选，得到最终的文本区域。基于纹理的方法把文本区域看作是一种可与背景区分开来的特殊的纹理，通常采用Gabor变换、小波变换和傅里叶变换等方法检测图像中文本区域的纹理特征。复合方法通常是多种方法结合在一起，取长补短，综合性能，构造出新的文本定位框架。

由于自然场景中文本的大小、格式、方向和对齐方式等变化多样，受字符对比度较低、背景复杂、低分辨率等条件的制约，使得图像中文本认知是一项极具挑战性的任务。由此可见，自然场景中文本检测技术具有非常重大的理论意义和实用价值。

发明内容

本发明的目的在于针对现有技术中自然场景文本的大小、字体、背景等诸多因素导致的检测难点，提供一种基于多通道极值区域的自然场景文本检测方法，该检测方法利用自然场景中的文本灰度基本稳定且与周围背景存在较大差异这一特点，通过多通道提取极值区域得到候选的文本区域，然后通过机器学习的方法过滤非文本区域，进而形成文本行并再次用机器学习方法进行验证达到检测的目的。

为解决上述技术问题，本发明公开的一种基于多通道极值区域的自然场景文本检测方法，其特征在于，它包括如下步骤：

步骤1：输入待检测RGB(红、绿、蓝三色)图像；

步骤2：将待检测RGB图像转换到HSI(色调、色饱和度和强度)颜色空间，分别提取HSI颜色空间中待检测图像的色调、饱和度和灰度，并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像；

步骤3：对步骤2中的6个单独通道图像分别进行极值区域检测，得到对应的多个初步候选文本区域；

步骤4：将图像数据集的训练集中的每张图片依次进行极值区域检测，对每张图片检测时，计算当前检测图片得到的极值区域的面积，将这些极值区域的面积与当前检测图片中的真实文本区域计算面积重叠率，若检测得到的极值区域的面积与当前检测图片中真实文本区域的面积重叠率大于面积重叠率阈值，则将这个极值区域归为正样本，否则，将这个极值区域归为负样本，然后对所有正负样本进行图像大小归一化处理；

步骤5：随机选取正样本A个，负样本2A个，对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征，并根据提取的梯度方向直方图和局部二值模式特征构建特征向量；

步骤6：将步骤5得到的特征向量构建成正负样本特征矩阵，并构建对应的标签集，将带有标签集的正负样本特征矩阵输入支持向量机(SVM，Support Vector Machine)进行训练，得到一个分类器模型；

步骤7：将步骤3得到不同通道的每个初步候选文本区域分别提取梯度方向直方图和局部二值模式特征，并将提取的梯度方向直方图和局部二值模式特征输入支持向量机进行预测，保留预测的文本区域，滤除预测的非文本区域；

步骤8：将不同通道经过支持向量机保留下来的文本区域综合，确定单个文本区，并去除重复的文本区域；

步骤9：对步骤8得到的单个文本区域进行聚合得到初始文本行，主要方法为提取相邻两个文本区域中文本的平均笔画宽度比R_sw，相邻两个文本区域的高度比R_h，相邻两个文本区域的质心纵坐标差C_y,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D，选取满足R_sw∈[1,2.5],R_h∈[0,2],I∈[0,30],D∈[0,1.4],C_y∈[0,30]的两两连通域将其聚集成链，最后形成一系列文本行，此时得到的初始文本行既包含真文本行也包含上述步骤滤除不完全的非文本区域而聚合的假的文本行，其中，R_sw、R_h和I无单位，C_y和D单位为像素；

步骤10：对步骤9得到的初始文本行提取梯度方向直方图和局部二值模式特征输入到步骤6训练得到的文本行分类器模型中，进一步滤除错误文本行。

本发明的有益效果：

本发明利用场景文本的特点结合机器学习的方法，采用多通道的极值区域检测提取候选文本区域，能够检测出更多候选文本，进而提升整体召回率，同时，采用启发式规则与机器学习相结合的方法，去除大量重复区域，运用经典的支持向量机构建单个字符文本和文本行的两个分类器模型，有效的滤除非文本区域，能够较好的提升准确率。本发明系统简单方便，通用性高，运用成熟的算法和特征并结合机器学习方法，能达到较好的检测效果。

附图说明

图1为本发明所述方法流程示意图；

图2为待检测图像；

图3为单字符正负样本示意图；

图4为局部二值模式特征提取示意图；

图5为多通道分别经过支持向量机滤除综合后的示意图；

图6为经过多通道去重后的示意图；

图7为初步形成的文本行示意图；

图8为文本行验证后的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

本发明的一种基于多通道极值区域的自然场景文本检测方法，如图1所示，它包括如下步骤：

步骤1：输入待检测RGB图像，如图2；

步骤2：将待检测RGB图像转换到HSI颜色空间，分别提取HSI颜色空间中待检测图像的色调(Hue)、饱和度(Sat)和灰度(gray)，并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像；

步骤4：构建正负样本集，将图像数据集的训练集中的每张图片依次进行极值区域检测，对每张图片检测时，计算当前检测图片得到的极值区域的面积，将这些极值区域的面积与当前检测图片中的真实文本区域计算面积重叠率，若检测得到的极值区域的面积与当前检测图片中真实文本区域的面积重叠率大于面积重叠率阈值，则将这个极值区域归为正样本，否则，将这个极值区域归为负样本，然后对所有正负样本进行图像大小归一化处理，如图3；

步骤5：随机选取正样本A个，负样本2A个，对每个正样本和负样本分别提取梯度方向直方图(Histogram of Oriented Gradient)和局部二值模式特征(Local BinaryPattern)，并根据提取的梯度方向直方图和局部二值模式特征构建特征向量；

步骤6：将步骤5得到的特征向量构建成正负样本特征矩阵，并构建对应的标签集，将带有标签集的正负样本特征矩阵输入支持向量机进行训练，得到一个分类器模型；

步骤7：将步骤3得到不同通道的每个初步候选文本区域分别提取梯度方向直方图和局部二值模式特征，并将提取的梯度方向直方图和局部二值模式特征输入支持向量机进行预测，保留预测为1的文本区域，滤除预测为0的非文本区域，如图5；

步骤8：将不同通道经过支持向量机保留下来的文本区域综合，确定单个文本区，并去除重复的文本区域；由于多个通道检测对于同一区域的检测结果大致一样，所以可用通过对比每个矩形区域左上和右下两个顶点的坐标，计算两矩形对应坐标差，将坐标差在[-4,4]内的矩形归为同一类，并计算同一类中每个矩形的面积，选取面积最大者以达到去除重复的目的，如图6；

步骤9：对步骤8得到的单个文本区域进行聚合得到初始文本行，主要方法为提取相邻两个文本区域中文本的平均笔画宽度比R_sw，相邻两个文本区域的高度比R_h，相邻两个文本区域的质心纵坐标差C_y,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D，选取满足R_sw∈[1,2.5],R_h∈[0,2],I∈[0,30],D∈[0,1.4],C_y∈[0,30的两两连通域将其聚集成链，最后形成一系列文本行，如图7，此时得到的初始文本行既包含真文本行也包含上述步骤滤除不完全的非文本区域而聚合的假的文本行，其中，R_sw、R_h和I无单位，C_y和D单位为像素；

步骤10：对步骤9得到的初始文本行提取梯度方向直方图和局部二值模式特征输入到步骤6训练得到的文本行分类器模型中，进一步滤除错误文本行，提升准确率，如图8。

计算上述步骤10得到的结果的准确率，召回率，f值的防守如下：

准确率和召回率是信息检索和数据分类中普遍使用的两个度量值，f值用于评价算法整体性能。准确率越高，说明得到的结果中真实的文本越多；召回率越高，说明漏掉的文本越少；f值综合评价算法性能，越高表示算法性能越好。利用这三个指标对算法进行评价，通过数据集提供的真实矩形和算法输出的区域最小外接矩形的匹配程度来计算，两矩形r1和r2的匹配程度m_p，定义为r1和r2重叠区域的面积除以同时包含r1、r2的最小外接矩形的面积，m_p∈[0，1]。单个矩形r与矩形集合R的最佳匹配m(r；R)定义为：

m(r；R)＝max{m_p(r；r′)|r′∈R}

设T为图片中真实文本区域外接矩形集合，E为算法输出文本区域外接矩形集合，|·|表示集合内元素的数量，则准确率(pre)、召回率(recall)及f值定义如下：

其中，为控制精确率和召回率的相关权重，本文为0.5。

计算出来的准确率为76％，召回率为78％，f值为77，表明了本发明的有效性。

上述技术方案中，所述相邻两个文本区域中文本的平均笔画宽度比R_sw，相邻两个文本区域的高度比R_h，相邻两个文本区域的质心纵坐标差C_y,相邻两个文本区域的灰度强度差I，相邻两个文本区域的水平间距D，计算公式如下：

相邻两个文本区域中文本的平均笔画宽度比R_sw：

其中，sw_i和sw_j分别表示连通域中相邻两个文本区域中文本的平均笔画宽度；

相邻两个文本区域的高度比R_h：

其中，h_i和h_j分别表示连通域中相邻两个文本区域的高度；

相邻两个文本区域的灰度强度差I：

I＝abs(I_i-I_j)

其中，I_i和I_j分别表示连通域中相邻两个文本区域的灰度强度，abs表示取绝对值；

相邻两个文本区域的质心纵坐标差C_y：

Cy＝abs(T_iy-T_jy)

其中，T_iy和T_jy分别表示连通域中相邻两个文本区域的质心坐标，abs表示取绝对值；

相邻两个文本区域的水平间距D：

其中，C_X和C_y分别表示连通域中相邻两个文本区域的X轴质心坐标差和Y轴质心坐标差，w_i和w_j分别表示连通域中相邻两个文本区域的宽度。

上述技术方案的步骤5中，随机选取正样本A个，负样本2A个，对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征，并根据提取的梯度方向直方图和局部二值模式特征构建特征向量的具体方法为:

步骤5.1：梯度方向直方图特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它通过计算和统计图像局部区域的梯度方向直方图来构成特征，计算过程如下：

步骤5.1.1：将待检测RGB图像灰度化；

步骤5.1.2：采用Gamma校正法对输入图像进行颜色空间的归一化，目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；

步骤5.1.3：计算待检测RGB图像每个像素的梯度(包括大小和方向)；主要是为了捕获轮廓信息，同时进一步弱化光照的干扰；

步骤5.1.4：将待检测RGB图像划分成多个8*8像素的图片单元(cell)；

步骤5.1.5：统计每个图片单元的梯度直方图，即可形成每个图片单元的描述(descriptor)；

步骤5.1.6：将每四个图片单元组成一个块(本文选取2*2个图片单元/块)，一个块内所有图片单元的特征描述串联起来便得到该块的方向梯度直方图特征描述；

步骤5.1.7：将待检测RGB图像内的所有块的方向梯度直方图特征描述串联起来就可以得到该图片的方向梯度直方图特征向量；

步骤5.2：局部二值模式特征是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性等显著的优点，计算过程如下：

步骤5.2.1：对待检测RGB图像中每个像素点的3x3邻域，以窗口中心像素为基准，将相邻的8个像素的灰度值与其进行比较，若周围像素灰度值大于中心像素灰度值，则该像素点的位置被标记为1，否则为0，从左上角开始按顺时针方向将8个标记值级联，得到8位二进制数，将二进制数转化为十进制作为中心像素点的局部二值模式值(LBP，Local BinaryPatterns)，如图4；

步骤5.2.2：统计步骤5.2.1中每个局部二值模式值出现的次数；得到局部二值模式直方图；

步骤5.2.3：对步骤5.2.2得到的局部二值模式直方图归一化得到特征向量，即该图像的局部二值模式纹理特征向量。

上述技术方案中，所述步骤5中随机选取正样本为2000个，负样本4000个。

上述技术方案中，所述步骤6中标签集为正样本为1，负样本为0。

上述技术方案中，所述步骤4中，对所有正负样本进行图像大小归一化处理将正负样本归一化为64x64像素大小，如图3。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于多通道极值区域的自然场景文本检测方法，其特征在于，它包括如下步骤：

步骤1：输入待检测RGB图像；

步骤2：将待检测RGB图像转换到HSI颜色空间，分别提取HSI颜色空间中待检测图像的色调、饱和度和灰度，并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像；

步骤9：对步骤8得到的单个文本区域进行聚合得到初始文本行，主要方法为提取相邻两个文本区域中文本的平均笔画宽度比R_sw，相邻两个文本区域的高度比R_h，相邻两个文本区域的质心纵坐标差C_y,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D，选取满足R_sw∈[1,2.5],R_h∈[0,2],I∈[0,30],D∈[0,1.4],Cy∈[0,30]的两两连通域将其聚集成链，最后形成一系列文本行，此时得到的初始文本行既包含真文本行也包含上述步骤滤除不完全的非文本区域而聚合的假的文本行，其中，R_sw、R_h和I无单位，C_y和D单位为像素；

2.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法，其特征在于：所述相邻两个文本区域中文本的平均笔画宽度比R_sw，相邻两个文本区域的高度比R_h，相邻两个文本区域的质心纵坐标差C_y,相邻两个文本区域的灰度强度差I，相邻两个文本区域的水平间距D，计算公式如下：

相邻两个文本区域中文本的平均笔画宽度比R_sw：

<mrow> <msub> <mi>R</mi> <mrow> <mi>s</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <msub> <mi>sw</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>}</mo> </mrow> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msub> <mi>sw</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>}</mo> </mrow> </mfrac> </mrow> 1

相邻两个文本区域的高度比R_h：

其中，h_i和h_j分别表示连通域中相邻两个文本区域的高度；

相邻两个文本区域的灰度强度差I：

I＝abs(I_i-I_j)

相邻两个文本区域的质心纵坐标差C_y：

Cy＝abs(T_iy-T_jy)

相邻两个文本区域的水平间距D：

3.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法，其特征在于：所述步骤5中，随机选取正样本A个，负样本2A个，对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征，并根据提取的梯度方向直方图和局部二值模式特征构建特征向量的具体方法为:

步骤5.1.1：将待检测RGB图像灰度化；

步骤5.1.2：采用Gamma校正法对输入图像进行颜色空间的归一化；

步骤5.1.3：计算待检测RGB图像每个像素的梯度；

步骤5.1.4：将待检测RGB图像划分成多个8*8像素的图片单元；

步骤5.1.5：统计每个图片单元的梯度直方图，即可形成每个图片单元的描述；

步骤5.1.6：将每四个图片单元组成一个块，一个块内所有图片单元的特征描述串联起来便得到该块的方向梯度直方图特征描述；

步骤5.2：局部二值模式特征是一种用来描述图像局部纹理特征的算子，计算过程如下：

步骤5.2.1：对待检测RGB图像中每个像素点的3x3邻域，以窗口中心像素为基准，将相邻的8个像素的灰度值与其进行比较，若周围像素灰度值大于中心像素灰度值，则该像素点的位置被标记为1，否则为0，从左上角开始按顺时针方向将8个标记值级联，得到8位二进制数，将二进制数转化为十进制作为中心像素点的局部二值模式值；

4.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法，其特征在于：所述步骤5中随机选取正样本为2000个，负样本4000个。

5.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法，其特征在于：所述步骤6中标签集为正样本为1，负样本为0。

6.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法，其特征在于：所述步骤4中，对所有正负样本进行图像大小归一化处理将正负样本归一化为64x64像素大小。