CN106326921B

CN106326921B - 文本检测方法

Info

Publication number: CN106326921B
Application number: CN201610685171.1A
Authority: CN
Inventors: 朱少岚
Original assignee: Ningbo Aoshi Zhihui Photoelectric Technology Co Ltd
Current assignee: Ningbo Aoshi Zhihui Photoelectric Technology Co Ltd
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2020-01-31
Anticipated expiration: 2036-08-18
Also published as: CN106326921A

Abstract

本公开的实施例关于文本检测方法，用于从输入图像中检测文本，包括检测最大稳定极值区域作为文字候选区，以第一训练集的训练集特征训练支持向量机作为文字分类器，使用文字分类器排除文字候选区中的非文字区，通过均值移位聚类将排除非文字区后的文字候选区合并为文本候选区，以第二训练集的训练集特征训练支持向量机作为文本分类器以及使用文本分类器排除文本候选区中的非文本区。本公开的实施例还关于文本检测装置。

Description

文本检测方法

技术领域

本公开属于计算机视觉和图像处理技术领域，尤其是关于文本检测方法和装置。

背景技术

随着移动摄像设备的功能越来越强大，使用移动摄像设备实现人机交互的研究吸引了越来越多的注意。图片中的文本检测与识别被认为是机器视觉领域中一个非常重要的问题，这是因为文本信息很容易被机器识别，并且这种识别具有广泛的应用领域。这些领域包括盲人辅助阅读系统，室内外环境信息检索系统、自动机器导航系统、标志检测与翻译、以及基于内容的网页图片搜索等。因此，自然场景中的文本检测具有极大的应用前景和实际意义。文本定位的方法可以分为基于连通域分析的方法和基于滑动窗口分类的方法。基于连通域分析的方法直接通过边沿检测或颜色聚类的方法分割文本候选子区域。对于非文本子区域，可通过分类器或先验知识进行移除。因为分割的候选区数量相对较少，所以基于连通域分析的方法计算代价较小，而且定位的文本子区域可以直接被用于识别。

L.Neumann在文献“L.Neumann and J.Matas,A Method for Text Localizationand Recognition in Real-world Images.Asian Conference on Computer Vision,pp.770-783,2010.”提出了一种基于最大稳定极值区进行文本检测的方法。这种方法首先通过检测最大稳定极值区的方式获得文字候选区，再通过训练一个文字/非文字分类器排除错检区域，然后形成文本区域，但是这种方法在复杂背景下文本检测的准确率和召回率偏低。在滑动窗口分类的方法中，使用可变尺度的窗口遍历整幅图片，然后通过分类器将窗口分为正负样本，即文字区和非文字区。这种方法的优势在于结构简单，适应性强；缺点是计算代价较高，尤其是在分类方法比较复杂，并且有大量的窗口需要被分类的情况下。而且实验结果对于文本排列方向较敏感。S.Hanif在文献“S.Hanif,L. Prevost,and P.Negri.ACascade Detector for Text Detection in Natural Scene Images.IEEE Conferenceon Pattern Recognition,pp.1-4,2008.”提出了使用梯度特征作为多尺度滑动窗口特征并结合Adaboost分类器提取文本区域的方法。

发明内容

本公开的一些实施例关于一种文本检测方法，其用于从输入图像中检测文本，该方法包括检测最大稳定极值区域作为文字候选区，以第一训练集的训练集特征训练支持向量机作为文字分类器，使用文字分类器排除文字候选区中的非文字区，通过均值移位聚类将排除非文字区后的文字候选区合并为文本候选区，以第二训练集的训练集特征训练支持向量机作为文本分类器以及使用文本分类器排除文本候选区中的非文本区。

在一些实施例中，第一训练集的正样本每个包括单个字符。

在一些实施例中，第二训练集的正样本每个包括单个字符串，字符串由多个字符组成。

在一些实施例中，字符是单个字母、汉字和数字中的至少一种。

在一些实施例中，检测最大稳定极值区域包括使用多个灰度阈值对图像进行二值化处理，以及将在预先确定的二值化阈值范围内保持形状稳定的区域检测为最大稳定极值区域。

在一些实施例中，第一训练集的训练集特征包括文字区域的宽高比和/或临近边缘像素梯度方向的平均差值。

在一些实施例中，将空间位置临近，尺度大小，方向一致的相似的文字候选区合并为文本候选区。

在一些实施例中，将文字候选区合并为文本候选区包括执行聚类过程，该聚类过程包括基于特征空间中随机选择的一个点和聚类带宽，通过均值移位得到聚类中心以及将以聚类中心为中心和以聚类带宽为半径的特征空间中的点归于一类。

在一些实施例中，第二训练集的训练集特征包括二值化的文本候选区的一部分中白色像素的数量、选定方向上白色像素转换到黑色像素的数量和选定方向上黑色像素转换到白色像素的数量中的至少之一。

本公开的一些实施例还关于一种文本检测装置，该装置包括摄像机、存储器和处理器，其中摄像机用于采集包括文本的输入图像，存储器用于存储输入图像和由处理器处理的数据，以及处理器用于检测输入图像的最大稳定极值区域作为文字候选区，以第一训练集的训练集特征训练支持向量机作为文字分类器，使用文字分类器排除文字候选区中的非文字区，通过均值移位聚类将排除非文字区后的文字候选区合并为文本候选区，以第二训练集的训练集特征训练支持向量机作为文本分类器以及使用文本分类器排除文本候选区中的非文本区。

本公开提出的基于最大稳定极值区的文本检测方法和装置有助于提高复杂背景下文本检测的准确率。由于在复杂的背景下，存在的众多干扰因素严重影响了文本检测的准确度，仅通过一次分类很难排除掉所有的错检区域，因此本公开提出了两层分类策略排除错检区域，充分挖掘了文本区域与非文本区域的差异，因此最终检测到的文本区域准确度更高。同时，本公开的实施例是基于最大稳定极值区进行文本候选区的检测，也确保了快速的检测速度。

附图说明

本公开提供了附图以便于所公开内容的进一步理解，附图构成本申请的一部分，但仅仅是用于图示出体现发明概念的一些发明的非限制性示例，而不是用于做出任何限制。

图1是根据本公开一些实施例的文本检测方法的流程图。

图2是根据本公开一些示范实施例的文字分类器训练集的示意图。

图3是根据本公开一些示范实施例的文本分类器训练集的示意图。

图4是根据本公开一些实施例的文本检测方法的检测结果图。

图5是根据本公开一些实施例的文本检测装置的框图。

具体实施方式

下文将使用本领域技术人员向本领域的其它技术人员传达他们工作的实质所通常使用的术语来描述本公开的发明概念。然而，这些发明概念可体现为许多不同的形式，因而不应视为限于本文中所述的实施例。提供这些实施例是为了使本公开内容更详尽和完整，并且向本领域的技术人员完整传达其包括的范围。也应注意这些实施例不相互排斥。来自一个实施例的组件、步骤或元素可假设成在另一实施例中可存在或使用。在不脱离本公开的实施例的范围的情况下，可以用多种多样的备选和/或等同实现方式替代所示出和描述的特定实施例。本申请旨在覆盖本文论述的实施例的任何修改或变型。

对于本领域的技术人员而言明显可以仅使用所描述的方面中的一些方面来实践备选实施例。本文出于说明的目的，在实施例中描述了特定的数字、材料和配置，然而，领域的技术人员在没有这些特定细节的情况下，也可以实践备选的实施例。在其它情况下，可能省略或简化了众所周知的特征，以便不使说明性的实施例难于理解。

此外，下文为有助于理解说明性的实施例，将各种操作依次描述为了多个离散的操作；然而，所描述的顺序不应当被认为是意味着这些操作必须依赖于该顺序执行。而是不必以所呈现的顺序来执行这些操作。

下文中的“在一些实施例中”，“在一个实施例中”等短语可以或可以不指相同的实施例。术语“包括”、“具有”和“包含”是同义的，除非上下文中以其它方式规定。短语“A和/或B”意味着(A)、(B)或(A 和B)。短语“A/B”意味着(A)、(B)或(A和B)，类似于短语“A 和/或B”。短语“A、B和C中的至少一个”意味着(A)、(B)、(C)、(A 和B)、(A和C)、(B和C)或(A、B和C)。短语“(A)B”意味着(B) 或(A和B)，即A是可选的。

图1是根据本公开一些实施例的文本检测方法的流程图。该方法包括检测最大稳定极值区域作为文字候选区，采用文字分类器排除非文字区，通过均值移位聚类算法将文字候选区合并为文本候选区已经采用文本分类器排除非文本区域。在最大稳定极值区检测中，首先输入待检测的输入图片，使用包括多个灰度阈值的一系列灰度阈值对图像进行二值化处理，在达到预先确定的比较宽的二值化阈值范围内保持形状稳定的区域就是最大稳定极值区。该预先确定的阈值范围根据应用的具体环境而可以自动和/或人工来选择。该评判标准例如可包括dA/dt，其中A为二值图像区域面积，t为二值化阈值。

接着训练文字分类器以对检测到的极值区所体现的文字候选区进行优化。训练文字分类器的目的是将极值区中的非文字区域排除掉。因此，在训练分类器之前，先要考虑文字区域与非文字区域的特征差别。本公开的实施例通过训练支持向量机作为文字分类器，提取训练集特征作为分类器的训练数据来训练支持向量机。训练集正样本图片的一些示例如图2所示，可选地，文字分类器训练集的正样本包括单个字符，该字符可以是汉字、字母和数字中的至少之一。首先，从文字候选区的宽度和高度比较，非文字区域宽度和高度会相差很大，细长的或扁平的区域不会是文字区域，因为文字区域的高度和宽度相差不大，即宽高比趋近于一个常值，且这个常值在数字1左右。文字也可以由笔画组成，同一个文字的笔画宽度几乎一样大，而非文字区域它的笔画宽度相差会很大。所以，可以通过笔画宽度的均值和方差来表示文字区域。区域边缘的平滑度也可以用来区别文字区域与非文字区域，对于文字来说，边缘相对平滑，而非文字区域边缘经常会有突变，边缘平滑度相对较低。区域平滑度的定义为临近边缘像素梯度方向的平均差值。宽高比和/或临近边缘像素梯度方向的平均差值仅为可以选择的训练集特征的示例。选定特征以后，即可训练支持向量机以得到文字分类器。

以文字分类器进行了优化的文字候选区接下来采用均值移位聚类算法合并为文本候选区。对于检测到的文字区域，通过聚类的方法将文字区域合并为文本区域，一般得到的文本区域是以词为单位，即文字区域中包括的符号的组合。可将空间位置临近，尺度大小，方向一致的相似的文字候选区聚为一类形成文本区。提取文字候选区的特征可以包括文字候选区的尺度和候选区的主方向。对于区域c，假设它的主轴长度为L(c)，次轴长度为l(c)，则文字候选区的尺度大小估计如下：

S(c)＝L(c)+l(c) (1)

在特征空间中，采用均值移位算法进行聚类，聚类过程可开始于随机选择特征空间一点x₀，选择聚类带宽即均值移位算法中的半径h，通过均值移位算法得到最终的聚类中心x，这样，在以x为中心，h为半径的特征空间中的点被聚为一类，从特征空间中移除这些点。对于特征空间中的剩余点，重复以上步骤，直到特征空间中没有点剩余。对于已经有的类别，进行合并过程，可以对于区域中心距离小于预先设定的阈值的区域进行合并。

得到上述的文本候选区之后，将采用新的训练集训练文本分类器以优化文本候选区。训练文本分类器所用的训练集的正样本图片例如如图3所示，该训练集中的正样本优选包括字符串，即多个上文所述的字符的组合。首先将合并生成的文本候选区进行二值化操作。二值化过程是把连通区域的平均颜色作为文本颜色，整个文本候选区的平均颜色作为背景颜色。通过比较每个像素点的颜色值与文本颜色和背景颜色值的距离(l₂范数)，得到二值图。如果像素点颜色值距离文本颜色值近，则该点处值为1，否则值为0。得到文本候选区二值图后，再进行文本特征的提取。接着把二值化后的文本候选区平均分为多个块。在一些实施例中，可以将二值化的文本候选区分为四个水平块和四个竖直块。对于其中每个块，可以提取白色像素的数量、选定方向上白色像素转换为黑色像素的数量和/或选定方向上黑色像素转换为白色像素的数量作为特征以用于训练支持向量机作为文本分类器。选定方向可以例如是水平方向、竖直方向或任何其他方向。训练后的文本分类器将用于文本候选区的优化以进一步去除文本区中的非文本区。

图5是根据本公开一些实施例的文本检测装置的框图。存储器 501用于存储摄像机505拍摄的输入图像和由处理器507处理的数据，并且可包括任何易失性存储器和非易失性存储器，其中易失性存储器包括静态和动态随机存储器RAM，以及非易失性存储器诸如但不限于一个或多个磁盘驱动器、磁带、光盘驱动器(包括CD和DVD)、内部存储装置、附连存储装置、闪存、非易失性随机存取存储器 NVRAM、备用电池供电的SDRAM(同步DRAM)和/或可通过网络接入的存储装置。处理器507可以包括复杂指令集计算机处理器 (CISC)、精简指令集计算机处理器(RISC)、x86指令集兼容的处理器、多核处理器、多核移动处理器、微处理器、微控制器和/或中央处理单元(CPU)等。处理器507用于执行如上文所述的文本检测方法步骤，其所执行的动作的实施例类似于上文所描述的方法步骤的实施例，因此在此仅示意性地进行描述，具体细节可参照上文与图1 的流程图相关联而描述的实施例。

本公开实施例的方法和装置在中央处理器为

i5-3470 3.2GHz CPU、内存为4G、OS为WINDOWS 7操作系统的运行环境中，运用MATLAB软件进行了测试实验，实验中使用的数据均来自 ICDAR2011。ICDAR2011数据集包含229张训练图片和255张测试图片。这些训练图片，无法直接拿来作为本公开的训练集，本公开实施例的算法要求训练文字/非文字分类器和文本/非文本分类器。因此，为了训练文字/非文字分类器，本公开的实施例从ICDAR2011训练集中手动裁剪了800个大小不一的文字区域以及1200个大小不一的非文字区域作为本公开文字候选区分类器的训练集。同时收集了835个文本区正样本，以及3000个文本区负样本作为本公开的文本/非文本分类器训练集。为了证明本公开实施例的有效性，还与与现有技术文献“L.Neumann and J.Matas.A Method for Text Localization andRecognition in Real-world Images.Asian Conference on Computer Vision,770-783,2010.”提出的方法进行了比较。对比结果参照图4和以下表格1，可知本公开实施例可准确识别文本区域并达到超过对比方法的效果。

方法	准确率	召回率	F指标
				本公开	70.28	62.56	66.42
对比方法	59	55	57

表格1

文本检测的主要评价指标主要有三个即准确率(Precision)，召回率(Recall)和F指标，其定义如下所示，其中Num_p表示检测到的正确的文本数量，Num_d指的是检测到的所有文本数量，Num_gt代表图片中真实的文本数量。

相对于对比方法，本公开的实施例可以显著提高检测的准确率，这主要得益于所使用的两轮分类策略。通过增加训练数据集，本公开的实验结果可以得到进一步的改善。综上，本公开的实施例经过文字分类器，文本分类器两次滤除错检区域，极大地提高了文本检测的准确度。

本文中的部分方法步骤和流程可能需要由计算机执行，从而以硬件、软件、固件及其任何组合的方式来实施，并且可以包括计算机可执行的指令。该计算机可执行的指令可以以计算机程序产品的形式存储在机器可读介质上或者以从远程服务器下载的方式进行提供，并由通用计算机、专用计算机和/或其他可编程数据处理装置的一个或多个处理器读取和执行以实现方法步骤和流程中指明的功能/动作。机器可读介质包括但不限于软盘、光盘、压缩盘、磁光盘、只读存储器 ROM、随机存取存储器RAM、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、存储卡、闪存和/或电、光、声以及其他形式的传播信号(例如载波、红外信号、数字信号等)。

另外需注意，本文中的术语“和/或”可表示“和”、“或”、“异或”、“一个”、“一些但不是全部”、“两者皆不”和/或“两者皆是”，但在此方面并无限制。本文虽然已经示出和描述了本公开的具体实施例，但对本领域技术人员显然可以在不脱离所附权利要求书范围的情况下进行众多改变、变化和修改。另外，在上述具体实施方式中，可看到各种特征在单个实施例中组合在一起以便简化公开内容。此公开方式不应解释为反映要求保护的实施方式需要比每个权利要求项明确所述的具有更多特征。相反，如权利要求所反映的一样，本公开的主题依赖的是比单个公开实施方式所有特征更少的特征。因此，权利要求书的每个权利要求项本身保持为单独的完整的实施例。综上，本领域技术人员将认识到在不脱离本公开的范围和精神的情况下，可在更广阔的各方面中进行改变和修改。所附权利要求书在其范围内涵盖了落入本公开真实范围和精神内的所有此类改变、变化和修改。

Claims

1.一种文本检测方法，用于从输入图像中检测文本，所述方法包括

检测最大稳定极值区域作为文字候选区；

以第一训练集的训练集特征训练支持向量机作为文字分类器；

使用所述文字分类器排除所述文字候选区中的非文字区；

通过均值移位聚类将排除非文字区后的所述文字候选区合并为文本候选区；

其中将空间位置临近，尺度大小，方向一致的相似的文字候选区合并为文本候选区；

以第二训练集的训练集特征训练支持向量机作为文本分类器；

其中所述第二训练集的训练集特征包括二值化的文本候选区的一部分中白色像素的数量、选定方向上白色像素转换到黑色像素的数量和选定方向上黑色像素转换到白色像素的数量中的至少之一；

以及使用所述文本分类器排除所述文本候选区中的非文本区。

2.权利要求1所述的方法，其中所述第一训练集的正样本每个包括单个字符。

3.权利要求2所述的方法，其中所述第二训练集的正样本每个包括单个字符串，所述字符串由多个所述字符组成。

4.权利要求2或3所述的方法，其中所述字符是单个字母、汉字和数字中的至少一种。

5.权利要求4所述的方法，其中检测最大稳定极值区域包括使用多个灰度阈值对图像进行二值化处理，以及将在预先确定的二值化阈值范围内保持形状稳定的区域检测为最大稳定极值区域。

6.权利要求4所述的方法，其中所述第一训练集的训练集特征包括文字区域的宽高比和/或临近边缘像素梯度方向的平均差值。

7.权利要求1所述的方法，其中将文字候选区合并为文本候选区包括执行聚类过程，该聚类过程包括：

基于特征空间中随机选择的一个点和聚类带宽，通过均值移位得到聚类中心以及将以所述聚类中心为中心和以所述聚类带宽为半径的所述特征空间中的点归于一类。