CN111382741A

CN111382741A - 一种自然场景图片中文本检测方法、系统及设备

Info

Publication number: CN111382741A
Application number: CN202010174445.7A
Authority: CN
Inventors: 谭北海; 罗林江; 余荣; 张浩川
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-07
Anticipated expiration: 2040-03-13
Also published as: CN111382741B

Abstract

本申请公开了一种自然场景图片中文本检测方法、系统及设备，包括：对待测图像进行预处理；对预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集；采用DBSCAN聚类算法对数据集进行聚类，生成不同类的数据集；采用Alpha Shape算法获取聚类后待测图像的感兴趣区域；检测感兴趣区域的内容，提取相应的文字信息。本申请不需要通过大量的数据样本训练得到的优化参数、搭建神经网络等操作用来进行自然场景图片中的文本检测，使得文本检测的运行速度更快，耗时更少，对硬件的配置要求也更低。

Description

一种自然场景图片中文本检测方法、系统及设备

技术领域

本申请涉及文字检测技术领域，尤其涉及一种自然场景图片中文本检测方法、系统及设备。

背景技术

自然场景图片是指由各种拍摄设备如照相机、手机等，没有特定限制条件下，直接对生活中真实存在的场景拍摄下来的图片。在自然场景图像中寻找文字区域是很有必要的，这些文字囊括了日常生活中许多有用且重要的信息，比如街道牌、交通指示牌等，对于辅助获取场景信息很有帮助。

现有技术中存在一些对自然场景图片进行文字检测的方法。例如，基于连通区域的文本检测技术，原理是利用文本信息区域中相同颜色、结构等特征来生成文本连通域，然后使用人工设计的规则或者分类器进行分类。该技术往往需要通过大量的训练样本来求得合适的分类器，进而检测出图像中的文本区域。

还有包括基于神经网络的文本检测技术，原理是利用神经网络对大量文本图像样本进行学习训练，通过不断地学习来修正神经网络各层的连接权重，提升准确性，从而得到这些文本中较为稳定的特征，进而检测并得到图像中的文本信息。该技术主要缺点是算法本身比较复杂，且搭建神经网络对硬件有一定的要求，同时需要大量的训练样本对神经网络进行训练。

发明内容

本申请提供了一种自然场景图片中文本检测方法、系统及设备，使得文本检测的运行速度更快，耗时更少，对硬件的配置要求也更低。

有鉴于此，本申请第一方面提供了一种自然场景图片中文本检测方法，所述方法包括：

对待测图像进行预处理；

对所述预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集；

采用DBSCAN聚类算法对所述数据集进行聚类，生成不同类的数据集；

采用Alpha Shape算法获取聚类后所述待测图像的感兴趣区域；

检测所述感兴趣区域的内容，提取相应的文字信息。

可选的，所述对待测图像进行预处理具体包括：

将所述待测图像装换成灰度图；

将所述灰度图进行二值化处理；

将二值化处理后的灰度图进行腐蚀和膨胀处理。

可选的，所述对所述预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集具体为：

获取所述预处理后的待测图像中每个像素点的像素值，以及像素值不为零的像素点的坐标，形成所述数据集。

可选的，所述采用DBSCAN聚类算法对所述数据集进行聚类，生成不同类的数据集具体包括：

选取所述数据集中未处理的像素点；

获取以所述像素点为圆心，以设定的距离为直径的圆内所有数值不为0的像素点个数；

若所述数值不为0的像素点的个数大于预设的阈值时，则将所述圆内的像素点归为一类。

可选的，所述采用Alpha Shape算法获取聚类后所述待测图像的感兴趣区域具体包括：

对所述数据集中的像素点按照坐标进行排序；

从所述像素点中的一点A出发，找到与A的距离小于预设的距离值的点B，以AB为起始边；

以B为原点，以所述预设的距离值为直径画圆，统计圆内的N个像素点得到BC_i向量，其中0<i<N；以AB向量为基准进行极坐标方向排序，即按照BC_i向量与AB向量的夹角大小进行排序；建立以BC_i为直径的圆，若圆内不存在除C_i外的C₀～C_N点，则以BC_i为新边；

以C_i为原点继续寻找新边，直到找不到新边或找到已经做过边的点为止。

本申请第二方面提供一种自然场景图片中文本检测系统，所述系统包括：

预处理模块，用于对待测图像进行预处理；

数据转换模块，用于对所述预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集；

聚类模块，用于采用DBSCAN聚类算法对所述数据集进行聚类，生成不同类的数据集；

区域获取模块，用于采用Alpha Shape算法获取聚类后所述待测图像的感兴趣区域；

文字提取模块，用于检测所述感兴趣区域的内容，提取相应的文字信息。

可选的，所述预处理模块包括：

灰度化模块，用于将所述待测图像装换成灰度图；

二值化模块，用于将所述灰度图进行二值化处理；

腐蚀膨胀模块，用于将二值化处理后的灰度图进行腐蚀和膨胀处理。

可选的，所述聚类模块包括：

像素点选取模块，用于选取所述数据集中未处理的像素点；

像素点个数获取模块，用于获取以所述像素点为圆心，以设定的距离为直径的圆内所有数值不为0的像素点个数；

归类模块，用于若所述数值不为0的像素点的个数大于预设的阈值时，则将所述圆内的像素点归为一类。

可选的，所述区域获取模块包括：

排序模块，用于对所述数据集中的像素点按照坐标进行排序；

起始边获取模块，用于从所述像素点中的一点A出发，找到与A的距离小于预设的距离值的点B，以AB为起始边；

新边获取模块，用于以B为原点，以所述预设的距离值为直径画圆，统计圆内的N个像素点得到BC_i向量，其中0<i<N；以AB向量为基准进行极坐标方向排序，即按照BC_i向量与AB向量的夹角大小进行排序；建立以BC_i为直径的圆，若圆内不存在除C_i外的C₀～C_N点，则以BC_i为新边；

循环模块，用于以C_i为原点继续寻找新边，直到找不到新边或找到已经做过边的点为止。

本申请第三方面提供一种自然场景图片中文本检测设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的一种自然场景图片中文本检测方法的步骤。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种自然场景图片中文本检测方法，对待测图像进行预处理；对预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集；采用DBSCAN聚类算法对数据集进行聚类，生成不同类的数据集；采用Alpha Shape算法获取聚类后待测图像的感兴趣区域；检测感兴趣区域的内容，提取相应的文字信息。

本申请中，通过将图片上的像素点转换为平面上的几何点数据集，通过DBSCAN聚类算法对数据集进行归类，可以得到图片中不同摆放形状的文本候选区域。同时，采用无监督的聚类算法进行文本检测，不需要通过大量的数据样本进行训练、神经网络的搭建与计算，大大提高了文本候选区域的获取速度，降低了硬件成本。

附图说明

图1为本申请一种自然场景图片中文本检测方法中的一个实施例流程图；

图2为本申请一种自然场景图片中文本检测系统的一个实施例系统架构图；

图3为本申请实施例中采用DBSCAN聚类算法的流程图；

图4为本申请实施例中将自然场景图片转换成的灰度图；

图5为本申请实施例中二值化后的示意图；

图6为本申请实施例中腐蚀处理后的示意图；

图7为本申请实施例中膨胀处理后的示意图；

图8为本申请实施例中经过DBSCAN聚类算法处理之后的示意图；

图9为本申请实施例中采用Alpha Shape算法处理的示意图；

图10为本申请实施例中经过DBSCAN聚类算法处理之后的部分聚类数据进行重新绘制成图像的示意图；

图11为本申请实施例中经过Alpha Shape算法处理后得到的感兴趣区域；

图12为本申请实施例中将感兴趣区域的文本从自然场景图片中检测并提取的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请本申请一种自然场景图片中文本检测方法中的一个实施例流程图，图1中包括：

101、对待测图像进行预处理。

需要说明的是，由于拍摄条件不同，所拍摄的自然场景图片容易受到环境、光照等外界因素的影响，会造成拍摄图像产生噪点，对后续的文本检测带来很大的干扰。因此，为了获得更好的检测效果，可以对采集的待测图像进行预处理，使得减少待测图像的噪声。

在一种具体的实施方式中，可以采用灰度化、二值化对图像进行预处理，同时使用腐蚀、膨胀进行噪声的过滤。

具体的，灰度化为将彩色图像转换为灰度图，转化为灰度图后会减少后续处理的计算量，并减小色彩图像对文本检测造成干扰，转化后的灰度图可以如图4所示。

二值化为将像素点的像素值与预设的阈值进行比较，如果某像素点的像素值大于预设的阈值，则设置该像素点的数值为最大像素值，否则为零。二值化的作用是可以分离图像中的背景与对象，其公式表示为：

式中，thresh表示阈值，src(x,y)表示原图上像素点(x,y)的像素值，maxValue表示最大的像素值，二值化后的示意图如图5所示。

腐蚀、膨胀为通过规定一个n×m的矩阵并设置其锚点，将该矩阵依次对原图进行扫描，将原图上像素点(x,y)的值替换为该矩阵中最小/最大的值。腐蚀操作可以去除噪点，而膨胀操作则扩大腐蚀过后的图像大小，图6为腐蚀处理后的示意图，图7为膨胀处理后的示意图。

102、对预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集。

需要说明的是，由于经过预处理后的图像显示只有黑和白色调，即其像素点的值只有0和最大的像素值，因此，可以将预处理后的图像转换成只包含像素值以及该像素值所在图像中的坐标的数据集

103、采用DBSCAN聚类算法对数据集进行聚类，生成不同类的数据集。

需要说明的是，DBSCAN聚类算法是基于密度的聚类算法，它将类别定义为密度相连的点的最大集合，能够把足够高密度的区域划为一类。其优点是可以在噪声的数据集中发现任意形状的类。

在一种具体的实施方式中，采用DBSCAN聚类算法对数据集进行聚类，生成不同类的数据集的过程为：选取数据集中未处理的像素点；获取以像素点为圆心，以设定的距离为直径的圆内所有数值不为0的像素点个数；若数值不为0的像素点的个数大于预设的阈值时，则将圆内的像素点归为一类。

具体的，可以设定像素点与像素点之间的距离ε，指定数据点个数MinPts。首先从数据集中取一个未处理过的像素点，计算以该像素点为圆心，距离ε为直径的圆内所包含的像素点的个数x，如果x的个数大于等于MinPts，则将所有的像素点保存为一类，并取其中的一个像素点继续执行上述操作，直到该类的所有点执行完毕，这样一个类便聚类完毕。根据以上方法重复计算，直到将图中的所有像素点都进行分类，其采用DBSCAN聚类算法的流程图如图3所示，本申请实施例中经过DBSCAN聚类算法处理之后的示意图如图8所示。

104、采用Alpha Shape算法获取聚类后待测图像的感兴趣区域。

需要说明的是，Alpha Shape算法是一种从二维点集重建平面形状的算法，可以从点集中重建一个合理的几何形状，即给出平面区域上的一系列散点，通过该算法可以求得边的连接方式。

在一种具体的实施方式中，可以采用Alpha Shape算法计算得到感兴趣区域的轮廓，其思路可以想象成将像素点想象成钉在平面上的钉子，将一个直径大于相邻两钉子距离的球沿着两两相邻的钉子滚动，每一次滚动，钉子都能卡在两相邻的钉子之间，直到钉子找不到可以卡住的钉子或者球滚到已经经过的钉子上。其采用Alpha Shape算法处理的示意图如图9所示，具体的，包括：

对数据集中的像素点A进行排序，求得x坐标最大/最小的点(如果x坐标相同，取y最大/最小的点)；从该像素点出发，设定一个直径R的值，首先找到与像素点A距离小于R的像素点B，将AB作为起始边；接下来以B为原点，找到除A外的与B之间距离小于R的C_i点0<i<N(N表示与B点距离小于R的点的个数)；以AB向量为基准进行极坐标方向排序，分别建立以BC_i为直径的圆，若圆内不存在除C_i外的C₀～C_N点，则以BC_i为新边，其找到新边的方法的目的是为了最外围的边；以Ci为原点继续寻找新边，直到找不到新边或找到已经做过边的像素点为止。

105、检测感兴趣区域的内容，提取相应的文字信息。

需要说明的是，可以根据获取到的感兴趣区域对待测的自然场景图片进行提取。具体的，例如图10为本申请实施例中经过DBSCAN聚类算法处理之后的部分聚类数据进行重新绘制成图像的示意图，将图10中的感兴趣区域采用Alpha Shape算法可以得到感兴趣区域的轮廓如图11所示，根据获取到的感兴趣区域，可直接对该区域的文本进行检测提取。图12为本申请中将感兴趣区域的文本从自然场景图片中检测并提取的示意图。

以上是本申请的方法的实施例，本申请还提供了一种自然场景图片中文本检测系统的实施例，如图2所示，包括：

预处理模块201，用于对待测图像进行预处理。

数据转换模块202，用于对预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集。

聚类模块203，用于采用DBSCAN聚类算法对数据集进行聚类，生成不同类的数据集。

区域获取模块204，用于采用Alpha Shape算法获取聚类后待测图像的感兴趣区域。

文字提取模块205，用于检测感兴趣区域的内容，提取相应的文字信息。

在一种实施方式中，预处理模块还包括：

灰度化模块，用于将待测图像装换成灰度图。

二值化模块，用于将灰度图进行二值化处理。

在一种实施方式中，聚类模块包括：

像素点选取模块，用于选取数据集中未处理的像素点。

像素点个数获取模块，用于获取以像素点为圆心，以设定的距离为直径的圆内所有数值不为0的像素点个数。

归类模块，用于若数值不为0的像素点的个数大于预设的阈值时，则将圆内的像素点归为一类。

在一种实施方式中，区域获取模块包括：

排序模块，用于对数据集中的像素点按照坐标进行排序。

起始边获取模块，用于从像素点中的一点A出发，找到与A的距离小于预设的距离值的点B，以AB为起始边。

新边获取模块，用于以B为原点，以预设的距离值为直径画圆，统计圆内的N个像素点得到BC_i向量，其中0<i<N；以AB向量为基准进行极坐标方向排序，即按照BC_i向量与AB向量的夹角大小进行排序；建立以BC_i为直径的圆，若圆内不存在除C_i外的C₀～C_N点，则以BC_i为新边。

本申请还提供了一种自然场景图片中文本检测设备的实施例，包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本申请一种自然场景图片中文本检测方法的实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种自然场景图片中文本检测方法，其特征在于，包括：

对待测图像进行预处理；

采用Alpha Shape算法获取聚类后所述待测图像的感兴趣区域；

检测所述感兴趣区域的内容，提取相应的文字信息。

2.根据权利要求1所述的自然场景图片中文本检测方法，其特征在于，所述对待测图像进行预处理具体包括：

将所述待测图像装换成灰度图；

将所述灰度图进行二值化处理；

将二值化处理后的灰度图进行腐蚀和膨胀处理。

3.根据权利要求1所述的自然场景图片中文本检测方法，其特征在于，所述对所述预处理后的待测图像进行数据转化，得到包含像素点数值及对应坐标的数据集具体为：

4.根据权利要求1所述的自然场景图片中文本检测方法，其特征在于，所述采用DBSCAN聚类算法对所述数据集进行聚类，生成不同类的数据集具体包括：

选取所述数据集中未处理的像素点；

5.根据权利要求1所述的自然场景图片中文本检测方法，其特征在于，所述采用AlphaShape算法获取聚类后所述待测图像的感兴趣区域具体包括：

对所述数据集中的像素点按照坐标进行排序；

以C_i为原点继续寻找新边，直到找不到新边或找到已经做过边的像素点为止。

6.一种自然场景图片中文本检测系统，其特征在于，包括：

预处理模块，用于对待测图像进行预处理；

7.根据权利要求6所述的自然场景图片中文本检测系统，其特征在于，所述预处理模块包括：

灰度化模块，用于将所述待测图像装换成灰度图；

二值化模块，用于将所述灰度图进行二值化处理；

8.根据权利要求6所述的自然场景图片中文本检测系统，其特征在于，所述聚类模块包括：

像素点选取模块，用于选取所述数据集中未处理的像素点；

9.根据权利要求6所述的自然场景图片中文本检测系统，其特征在于，所述区域获取模块包括：

10.一种自然场景图片中文本检测设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的自然场景图片中文本检测方法。