CN105930813A

CN105930813A - 一种在任意自然场景下检测行文本的方法

Info

Publication number: CN105930813A
Application number: CN201610268752.5A
Authority: CN
Inventors: 石柱国
Original assignee: Beijing Yisa Technology Co Ltd
Current assignee: ISSA Technology Co Ltd
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2016-09-07
Anticipated expiration: 2036-04-27
Also published as: CN105930813B

Abstract

本发明提供一种在任意自然场景下检测行文本的方法，包括：在待检测图像中，通过比较各像素点的像素值来找出像素值极值点，然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域；排除噪声区域；利用霍夫变换，基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线，并最终通过非极大值抑制的方法确定一条最佳斜率的直线，以该直线上对应的区域作为检测到的行文本。本发明的方法通过快速分析所有像素中所有的可能构成字符的区域，并利用霍夫变换找出所有可能的角度，不依赖字符边缘，对光照和清晰度的影响较小。

Description

一种在任意自然场景下检测行文本的方法

技术领域

本发明属于计算机图像处理领域，用于快速检测图像或视频中自然场景下的行文本。

背景技术

随着科学技术的发展，人们获取图像的手段日益多元化，数码相机、摄像头、扫描仪等等设备都称为了广泛应用的图像获取设备。获取的各种图像中包含很多有用的文本信息，如字幕、车牌字符、广告标语等，从视频或图像中直接获取这些文本信息将为人们的工作提供极大的便利，这个获取过程就是一种文本检测过程。现阶段，图像中的文本检测在包括图像或视频检索、网络过滤、智能交通、数字图书馆等多个领域具有广泛应用前景和需求，因此，准确地从图像或视频中检测定位出文本是数字图象处理中的一个重要研究内容。

光学字符识别技术(Optical Character Recongnition，OCR)从20世纪70年代兴起，发展到现在已经非常成熟，其针对高分辨率的文档识别具有跟高的准确率，因此得到了广泛的应用。但是，现有的OCR技术只针对扫描仪得到的高分辨率、规整的文档图像具有良好的识别能力，而对于嵌在背景图像中的文本则不能进行有效识别。因此，在自然场景中提取文本成为了图像处理领域需要解决的热点问题。现有技术中用于自然场景中文本检测和定位的方法有很多，例如，基于连通区域的文本定位算法、基于纹理的文本定位算法和基于边缘的文本定位算法等等。但这些方法各自都有局限性，比如，基于连通区域的文本定位算法主要适用于图像中文本颜色相同、文本在图像中占很大比例并且背景简单的情况，适应性差；基于纹理的文本定位算法在检测文本时需要先计算图像的纹理特征，而图像的纹理特征计算复杂度相对较高，而且在背景相对复杂的情况下，文本区域容易与背景区域产生粘连，使得文本定位不准确；而基于边缘的文本定位算法虽然速度快，但是当图像背景复杂时，检测结果虚警较多，对光照、清晰度影响较大，而且对于字符切割也比较困难。

鉴于上述背景，本发明的目的在于提供一种新的任意自然场景下检测文本的方法，能够不依赖于字符边缘，快速准确地检测出复杂背景下的文本，对光照和清晰度的影响较小。

发明内容

本发明的上述目的通过以下技术方案实现：

提供一种在任意自然场景下检测行文本的方法，包括：在待检测图像中，通过比较各像素点的像素值来找出像素值极值点，然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域；排除噪声区域；利用霍夫变换，基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线，并最终通过非极大值抑制的方法确定一条最佳斜率的直线，以该直线上对应的区域作为检测到的行文本。

本发明优选的方案中，所述的通过比较各像素点的像素值来找出像素值极值点的过程具体是：将每个像素点都与相邻的所有未被比较过的像素点逐一做比较，记录每次比较得到的高像素值的点；然后进一步在得到的所有高像素值中找到最高值并回溯拓展得到相应区域。

本发明进一步优选的方案中，所述的将每个像素点都与相邻的所有未被比较过的像素点逐一做比较，记录每次比较得到的高像素值的点的过程包括：将任意一个像素点作为当前点，将其和相邻的所有未访问过的像素点逐一比较像素值，只要出现像素值高于当前点的像素点，即将该点作为新的当前点继续与其相邻的所有未访问过的像素点逐一比较像素值，整个比较过程中记录每次比较得到的高像素值的点，同时将所有参与比较的像素点标记为已访问过；直到当前点周围没有未访问过的像素点时停止比较，并将最后的当前点记录下来。

本发明优选的方案中，所述的排除噪声区域是，根据经确定和修正的所有文本字符可能出现的区域的规格做一个过滤，把明显不符合字符大小的区域过滤掉。

本发明所述的方法，优选可以通过计算机程序完成以下步骤：

1.定义一个region，表示可能的文本字符；同时定义一个heap和一个stack，可存放region；再定义一个与图像大小相同的access map，其中所有点的对应值为0或1；初始化所有点对应值为0；

2.标记任意一个像素为当前点，将其access map对应值修改为1；

3.将一个空的region压入步骤1定义的stack；

4.根据步骤1定义的access map判断当前点周围有没有access map中对应值为0的点；根据判断结果做如下处理：

4.1有，则比较该点的像素值是否小于当前点像素值，将比较中参与过比较的点的access map中对应值改为1，并根据判定结果进一步做如下处理：

4.1.1不小于，则将该点记录在步骤1定义的heap中，然后将该点作为新的当前点重复步骤4；

或者，

4.1.2小于，则将当前点记录在步骤1定义的heap中，跳入步骤3；

或者，

4.2无，则将当前点记录在位于步骤3所述的stack顶部的region中，记录方法如下：

region记录一个矩形，x1,y1为左上角点值坐标，x2,y2为右下角点值坐标；

5.步骤4所述的记录完成后，判断步骤4得到的heap是否为空，并根据判断结果做如下处理：

5.1否(heap不为空)，则进一步对记录在heap中的像素点做如下处理：

5.1.1当前处理的像素点与上一个处理的像素点像素值不同，则将位于步骤4.2所述的stack顶端的region记录的矩形作为潜在的文本字符；

或者，

5.1.2当前处理的像素点与上一个处理的像素点像素值相同，则进一步根据判断当前处理的点像素值是否小于位于步骤4.2所述的stack顶部第二位置点的像素值，并根据判断结果做如下处理：

5.1.2.1是，则将步骤4.2所述的stack顶部两个region记录的矩形融合；

或者，

5.1.2.2否，则以当前处理的像素点为当前点重复步骤4；

每次在步骤4.2所述的region记录的矩形中添加一个新的像素时，根据添加的新像素更新坐标x1,y1,x2,y2的值；同时在region中设置一个area来记录实际添加的像素点数，有新的点被添加记录时，area值+1；

或者，

5.2是(heap为空)，则停止比较和记录过程；

6.将步骤5.1.1得到的所有可能的文本字符的矩形根据矩形的长宽，以及长宽比值，做一个过滤，把不符合字符大小的矩形过滤掉；

7.定一个point map，与图像大小相同，初始化值为0；

8.将步骤6过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7定义的point map上：

px＝rx+rw/2

py＝ry+ry/2

其中，(px,py)为文本字符矩形在point map上的坐标，将此坐标在point map上的值修改为255；即把每一个文本矩形的中心，映射在point map上；

9.用霍夫变换在point map上的点中寻找直线；

10.根据找到的直线的斜率，以及直线与x,y轴的截距，通过非极大值抑制的方法找到与预期斜率最吻合的直线；该直线上对应的文本字符矩形，即为检测到的行文本。

与现有技术相比，本发明的方法通过快速分析所有像素中所有的可能构成字符的区域，并利用霍夫变换找出所有可能的角度，不依赖字符边缘，对光照和清晰度的影响较小。

附图说明

图1是本发明实施例1所述的行文本检测方法的流程图。

具体实施方式

以下通过列举实施例的方式对本发明的技术方案做进一步的说明。

实施例1

一种检测图像中行文本的方法，如图1所示，可通过计算机程序进行以下步骤：

2.标记任意一个像素为当前点，将其access map对应值修改为1；

3.将一个空的region压入stack；

4.根据access map判断当前点周围有没有access map中对应值为0的点；根据判断结果做如下处理：

4.1.1不小于，则将该点记录在heap中，然后将该点作为新的当前点重复步骤4；

或者，

4.1.2小于，则将当前点记录在heap中，跳入步骤3；

或者，

4.2无，则将当前点记录在位于stack顶部的region中，记录方法如下：

5.步骤4所述的记录完成后，判断步骤4所述的heap是否为空，并根据判断结果做如下处理：

或者，

5.1.2当前处理的像素点与上一个处理的像素点像素值相同，则进一步根据判断当前处理的点像素值是否小于位于stack顶部第二位置点的像素值，并根据判断结果做如下处理：

5.1.2.1是，则将stack顶部两个region记录的矩形融合；

或者，

5.1.2.2否，则以当前处理的像素点为当前点重复步骤4；

5.2是(heap为空)，则停止比较和记录过程；

7.定一个point map，与图像大小相同，初始化值为0；

8.将步骤6过滤后剩余的所有可能为文本字符的矩形按照如下规则映射在步骤7定义的point map上：

px＝rx+rw/2

py＝ry+ry/2

9.用霍夫变换在步骤8映射后的point map上的点中寻找在一个水平范围的所有可能的直线；

Claims

1.一种在任意自然场景下检测行文本的方法，其特征在于：在待检测图像中，通过比较各像素点的像素值来找出像素值极值点，然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域；排除噪声区域；利用霍夫变换，基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线，并最终通过非极大值抑制的方法确定一条最佳斜率的直线，以该直线上对应的区域作为检测到的行文本。

2.权利要求1所述的方法，其特征在于：所述的通过比较各像素点的像素值来找出像素值极值点的过程具体是将每个像素点都与相邻的所有未被比较过的像素点逐一做比较，记录每次比较得到的高像素值的点；然后进一步在得到的所有高像素值中找到最高值并回溯拓展得到相应区域。

3.权利要求2所述的方法，其特征在于：所述的将每个像素点都与相邻的所有未被比较过的像素点逐一做比较，记录每次比较得到的高像素值的点的过程包括：将任意一个像素点作为当前点，将其和相邻的所有未访问过的像素点逐一比较像素值，只要出现像素值高于当前点的像素点，即将该点作为新的当前点继续与其相邻的所有未访问过的像素点逐一比较像素值，整个比较过程中记录每次比较得到的高像素值的点，同时将所有参与比较的像素点标记为已访问过；直到当前点周围没有未访问过的像素点时停止比较，并将最后的当前点记录下来。

4.权利要求1所述的方法，其特征在于：所述的排除噪声区域是，根据经确定和修正的所有文本字符可能出现的区域的规格做一个过滤，把明显不符合字符大小的区域过滤掉。

5.权利要求1所述的方法，其特征在于，通过计算机程序完成以下步骤：

1)定义一个region，表示可能的文本字符；同时定义一个heap和一个stack，可存放region；再定义一个与图像大小相同的access map，其中所有点的对应值为0或1；初始化所有点对应值为0；

2)标记任意一个像素为当前点，将其access map对应值修改为1；

3)将一个空的region压入步骤1)定义的stack；

4)根据更新后的access map判断当前点周围有没有access map中对应值为0的点；根据判断结果做如下处理：

4.1)有，则比较该点的像素值是否小于当前点像素值，将比较中参与过比较的点的access map中对应值改为1，并根据判定结果进一步做如下处理：

4.1.1)不小于，则将该点记录在步骤1)定义的heap中，然后将该点作为新的当前点重复步骤4)；

或者，

4.1.2)小于，则将当前点记录在步骤1)定义的heap中，跳入步骤3)；

或者，

4.2)无，则将当前点记录在位于步骤3)所述的stack顶部的region中，记录方法如下：region记录一个矩形，x1,y1为左上角点值坐标，x2,y2为右下角点值坐标；

5)步骤4)所述的记录完成后，判断步骤4)得到的heap是否为空，并根据判断结果做如下处理：

5.1)否(heap不为空)，则进一步对记录在heap中的像素点做如下处理：

5.1.1)当前处理的像素点与上一个处理的像素点像素值不同，则将位于步骤4.2)所述的stack顶端的region记录的矩形作为潜在的文本字符；

或者，

5.1.2)当前处理的像素点与上一个处理的像素点像素值相同，则进一步根据判断当前处理的点像素值是否小于位于步骤4.2)所述的stack顶部第二位置点的像素值，并根据判断结果做如下处理：

5.1.2.1)是，则将步骤4.2)所述的stack顶部两个region记录的矩形融合；

或者，

5.1.2.2)否，则以当前处理的像素点为当前点重复步骤4)；

每次在步骤4.2)所述的region记录的矩形中添加一个新的像素时，根据添加的新像素更新坐标x1,y1,x2,y2的值；同时在region中设置一个area来记录实际添加的像素点数，有新的点被添加记录时，area值+1；

或者，

5.2)是(heap为空)，则停止比较和记录过程；

6)将步骤5.1.1)得到的所有可能的文本字符的矩形根据矩形的长宽，以及长宽比值，做一个过滤，把不符合字符大小的矩形过滤掉；

7)定一个point map，与图像大小相同，初始化值为0；

8)将步骤6)过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7)定义的point map上：

px＝rx+rw/2

py＝ry+ry/2

9)用霍夫变换在point map上的点中寻找直线；

10)根据找到的直线的斜率，以及直线与x,y轴的截距，通过非极大值抑制的方法找到与预期斜率最吻合的直线；该直线上对应的文本字符矩形，即为检测到的行文本。