CN105930813A - 一种在任意自然场景下检测行文本的方法 - Google Patents

一种在任意自然场景下检测行文本的方法 Download PDF

Info

Publication number
CN105930813A
CN105930813A CN201610268752.5A CN201610268752A CN105930813A CN 105930813 A CN105930813 A CN 105930813A CN 201610268752 A CN201610268752 A CN 201610268752A CN 105930813 A CN105930813 A CN 105930813A
Authority
CN
China
Prior art keywords
pixel
point
value
region
rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610268752.5A
Other languages
English (en)
Other versions
CN105930813B (zh
Inventor
石柱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ISSA Technology Co Ltd
Original Assignee
Beijing Yisa Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yisa Technology Co Ltd filed Critical Beijing Yisa Technology Co Ltd
Priority to CN201610268752.5A priority Critical patent/CN105930813B/zh
Publication of CN105930813A publication Critical patent/CN105930813A/zh
Application granted granted Critical
Publication of CN105930813B publication Critical patent/CN105930813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提供一种在任意自然场景下检测行文本的方法,包括:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本。本发明的方法通过快速分析所有像素中所有的可能构成字符的区域,并利用霍夫变换找出所有可能的角度,不依赖字符边缘,对光照和清晰度的影响较小。

Description

一种在任意自然场景下检测行文本的方法
技术领域
本发明属于计算机图像处理领域,用于快速检测图像或视频中自然场景下的行文本。
背景技术
随着科学技术的发展,人们获取图像的手段日益多元化,数码相机、摄像头、扫描仪等等设备都称为了广泛应用的图像获取设备。获取的各种图像中包含很多有用的文本信息,如字幕、车牌字符、广告标语等,从视频或图像中直接获取这些文本信息将为人们的工作提供极大的便利,这个获取过程就是一种文本检测过程。现阶段,图像中的文本检测在包括图像或视频检索、网络过滤、智能交通、数字图书馆等多个领域具有广泛应用前景和需求,因此,准确地从图像或视频中检测定位出文本是数字图象处理中的一个重要研究内容。
光学字符识别技术(Optical Character Recongnition,OCR)从20世纪70年代兴起,发展到现在已经非常成熟,其针对高分辨率的文档识别具有跟高的准确率,因此得到了广泛的应用。但是,现有的OCR技术只针对扫描仪得到的高分辨率、规整的文档图像具有良好的识别能力,而对于嵌在背景图像中的文本则不能进行有效识别。因此,在自然场景中提取文本成为了图像处理领域需要解决的热点问题。现有技术中用于自然场景中文本检测和定位的方法有很多,例如,基于连通区域的文本定位算法、基于纹理的文本定位算法和基于边缘的文本定位算法等等。但这些方法各自都有局限性,比如,基于连通区域的文本定位算法主要适用于图像中文本颜色相同、文本在图像中占很大比例并且背景简单的情况,适应性差;基于纹理的文本定位算法在检测文本时需要先计算图像的纹理特征,而图像的纹理特征计算复杂度相对较高,而且在背景相对复杂的情况下,文本区域容易与背景区域产生粘连,使得文本定位不准确;而基于边缘的文本定位算法虽然速度快,但是当图像背景复杂时,检测结果虚警较多,对光照、清晰度影响较大,而且对于字符切割也比较困难。
鉴于上述背景,本发明的目的在于提供一种新的任意自然场景下检测文本的方法,能够不依赖于字符边缘,快速准确地检测出复杂背景下的文本,对光照和清晰度的影响较小。
发明内容
本发明的上述目的通过以下技术方案实现:
提供一种在任意自然场景下检测行文本的方法,包括:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本。
本发明优选的方案中,所述的通过比较各像素点的像素值来找出像素值极值点的过程具体是:将每个像素点都与相邻的所有未被比较过的像素点逐一做比较,记录每次比较得到的高像素值的点;然后进一步在得到的所有高像素值中找到最高值并回溯拓展得到相应区域。
本发明进一步优选的方案中,所述的将每个像素点都与相邻的所有未被比较过的像素点逐一做比较,记录每次比较得到的高像素值的点的过程包括:将任意一个像素点作为当前点,将其和相邻的所有未访问过的像素点逐一比较像素值,只要出现像素值高于当前点的像素点,即将该点作为新的当前点继续与其相邻的所有未访问过的像素点逐一比较像素值,整个比较过程中记录每次比较得到的高像素值的点,同时将所有参与比较的像素点标记为已访问过;直到当前点周围没有未访问过的像素点时停止比较,并将最后的当前点记录下来。
本发明优选的方案中,所述的排除噪声区域是,根据经确定和修正的所有文本字符可能出现的区域的规格做一个过滤,把明显不符合字符大小的区域过滤掉。
本发明所述的方法,优选可以通过计算机程序完成以下步骤:
1.定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;
2.标记任意一个像素为当前点,将其access map对应值修改为1;
3.将一个空的region压入步骤1定义的stack;
4.根据步骤1定义的access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:
4.1有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:
4.1.1不小于,则将该点记录在步骤1定义的heap中,然后将该点作为新的当前点重复步骤4;
或者,
4.1.2小于,则将当前点记录在步骤1定义的heap中,跳入步骤3;
或者,
4.2无,则将当前点记录在位于步骤3所述的stack顶部的region中,记录方法如下:
region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;
5.步骤4所述的记录完成后,判断步骤4得到的heap是否为空,并根据判断结果做如下处理:
5.1否(heap不为空),则进一步对记录在heap中的像素点做如下处理:
5.1.1当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2所述的stack顶端的region记录的矩形作为潜在的文本字符;
或者,
5.1.2当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于步骤4.2所述的stack顶部第二位置点的像素值,并根据判断结果做如下处理:
5.1.2.1是,则将步骤4.2所述的stack顶部两个region记录的矩形融合;
或者,
5.1.2.2否,则以当前处理的像素点为当前点重复步骤4;
每次在步骤4.2所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;
或者,
5.2是(heap为空),则停止比较和记录过程;
6.将步骤5.1.1得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;
7.定一个point map,与图像大小相同,初始化值为0;
8.将步骤6过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7定义的point map上:
px=rx+rw/2
py=ry+ry/2
其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;
9.用霍夫变换在point map上的点中寻找直线;
10.根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。
与现有技术相比,本发明的方法通过快速分析所有像素中所有的可能构成字符的区域,并利用霍夫变换找出所有可能的角度,不依赖字符边缘,对光照和清晰度的影响较小。
附图说明
图1是本发明实施例1所述的行文本检测方法的流程图。
具体实施方式
以下通过列举实施例的方式对本发明的技术方案做进一步的说明。
实施例1
一种检测图像中行文本的方法,如图1所示,可通过计算机程序进行以下步骤:
1.定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;
2.标记任意一个像素为当前点,将其access map对应值修改为1;
3.将一个空的region压入stack;
4.根据access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:
4.1有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:
4.1.1不小于,则将该点记录在heap中,然后将该点作为新的当前点重复步骤4;
或者,
4.1.2小于,则将当前点记录在heap中,跳入步骤3;
或者,
4.2无,则将当前点记录在位于stack顶部的region中,记录方法如下:
region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;
5.步骤4所述的记录完成后,判断步骤4所述的heap是否为空,并根据判断结果做如下处理:
5.1否(heap不为空),则进一步对记录在heap中的像素点做如下处理:
5.1.1当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2所述的stack顶端的region记录的矩形作为潜在的文本字符;
或者,
5.1.2当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于stack顶部第二位置点的像素值,并根据判断结果做如下处理:
5.1.2.1是,则将stack顶部两个region记录的矩形融合;
或者,
5.1.2.2否,则以当前处理的像素点为当前点重复步骤4;
每次在步骤4.2所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;
5.2是(heap为空),则停止比较和记录过程;
6.将步骤5.1.1得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;
7.定一个point map,与图像大小相同,初始化值为0;
8.将步骤6过滤后剩余的所有可能为文本字符的矩形按照如下规则映射在步骤7定义的point map上:
px=rx+rw/2
py=ry+ry/2
其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;
9.用霍夫变换在步骤8映射后的point map上的点中寻找在一个水平范围的所有可能的直线;
10.根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。

Claims (5)

1.一种在任意自然场景下检测行文本的方法,其特征在于:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本。
2.权利要求1所述的方法,其特征在于:所述的通过比较各像素点的像素值来找出像素值极值点的过程具体是将每个像素点都与相邻的所有未被比较过的像素点逐一做比较,记录每次比较得到的高像素值的点;然后进一步在得到的所有高像素值中找到最高值并回溯拓展得到相应区域。
3.权利要求2所述的方法,其特征在于:所述的将每个像素点都与相邻的所有未被比较过的像素点逐一做比较,记录每次比较得到的高像素值的点的过程包括:将任意一个像素点作为当前点,将其和相邻的所有未访问过的像素点逐一比较像素值,只要出现像素值高于当前点的像素点,即将该点作为新的当前点继续与其相邻的所有未访问过的像素点逐一比较像素值,整个比较过程中记录每次比较得到的高像素值的点,同时将所有参与比较的像素点标记为已访问过;直到当前点周围没有未访问过的像素点时停止比较,并将最后的当前点记录下来。
4.权利要求1所述的方法,其特征在于:所述的排除噪声区域是,根据经确定和修正的所有文本字符可能出现的区域的规格做一个过滤,把明显不符合字符大小的区域过滤掉。
5.权利要求1所述的方法,其特征在于,通过计算机程序完成以下步骤:
1)定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;
2)标记任意一个像素为当前点,将其access map对应值修改为1;
3)将一个空的region压入步骤1)定义的stack;
4)根据更新后的access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:
4.1)有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:
4.1.1)不小于,则将该点记录在步骤1)定义的heap中,然后将该点作为新的当前点重复步骤4);
或者,
4.1.2)小于,则将当前点记录在步骤1)定义的heap中,跳入步骤3);
或者,
4.2)无,则将当前点记录在位于步骤3)所述的stack顶部的region中,记录方法如下:region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;
5)步骤4)所述的记录完成后,判断步骤4)得到的heap是否为空,并根据判断结果做如下处理:
5.1)否(heap不为空),则进一步对记录在heap中的像素点做如下处理:
5.1.1)当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2)所述的stack顶端的region记录的矩形作为潜在的文本字符;
或者,
5.1.2)当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于步骤4.2)所述的stack顶部第二位置点的像素值,并根据判断结果做如下处理:
5.1.2.1)是,则将步骤4.2)所述的stack顶部两个region记录的矩形融合;
或者,
5.1.2.2)否,则以当前处理的像素点为当前点重复步骤4);
每次在步骤4.2)所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;
或者,
5.2)是(heap为空),则停止比较和记录过程;
6)将步骤5.1.1)得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;
7)定一个point map,与图像大小相同,初始化值为0;
8)将步骤6)过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7)定义的point map上:
px=rx+rw/2
py=ry+ry/2
其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;
9)用霍夫变换在point map上的点中寻找直线;
10)根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。
CN201610268752.5A 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法 Active CN105930813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610268752.5A CN105930813B (zh) 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610268752.5A CN105930813B (zh) 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法

Publications (2)

Publication Number Publication Date
CN105930813A true CN105930813A (zh) 2016-09-07
CN105930813B CN105930813B (zh) 2019-03-01

Family

ID=56836355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610268752.5A Active CN105930813B (zh) 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法

Country Status (1)

Country Link
CN (1) CN105930813B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047617A (zh) * 2019-12-18 2020-04-21 广东电科院能源技术有限责任公司 一种矩形识别优化方法、装置及设备
CN117082690A (zh) * 2023-10-17 2023-11-17 深圳市帝狼光电有限公司 一种智能台灯的控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593278A (zh) * 2008-05-27 2009-12-02 佳能株式会社 文档图像的语言判别方法和系统
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
US20160004928A1 (en) * 2013-02-27 2016-01-07 Longsand Limited Textual representation of an image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593278A (zh) * 2008-05-27 2009-12-02 佳能株式会社 文档图像的语言判别方法和系统
US20160004928A1 (en) * 2013-02-27 2016-01-07 Longsand Limited Textual representation of an image
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047617A (zh) * 2019-12-18 2020-04-21 广东电科院能源技术有限责任公司 一种矩形识别优化方法、装置及设备
CN117082690A (zh) * 2023-10-17 2023-11-17 深圳市帝狼光电有限公司 一种智能台灯的控制方法及系统
CN117082690B (zh) * 2023-10-17 2023-12-22 深圳市帝狼光电有限公司 一种智能台灯的控制方法及系统

Also Published As

Publication number Publication date
CN105930813B (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN107463918B (zh) 基于激光点云与影像数据融合的车道线提取方法
CN105913093B (zh) 一种用于文字识别处理的模板匹配方法
Luvizon et al. A video-based system for vehicle speed measurement in urban roadways
WO2016062159A1 (zh) 图像匹配方法及手机应用测试平台
WO2018014828A1 (zh) 识别二维码位置的方法及其系统
CN109886896A (zh) 一种蓝色车牌分割与矫正方法
CN103336961B (zh) 一种交互式的自然场景文本检测方法
CN102915433B (zh) 基于字符组合的车牌定位和识别方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN108475433A (zh) 用于大规模确定rgbd相机姿势的方法和系统
CN103679147A (zh) 手机型号的识别方法与装置
CN110232379A (zh) 一种车辆姿态检测方法及系统
US10586321B2 (en) Automatic detection, counting, and measurement of lumber boards using a handheld device
CN104850850A (zh) 一种结合形状和颜色的双目立体视觉图像特征提取方法
CN106951898B (zh) 一种车辆候选区域推荐方法及系统、电子设备
CN104766344B (zh) 基于运动边缘提取器的车辆检测方法
CN110245600B (zh) 自适应起始快速笔画宽度无人机道路检测方法
CN104463138A (zh) 基于视觉结构属性的文本定位方法及系统
CN104123554A (zh) 基于mmtd的sift图像特征提取方法
CN104182728A (zh) 一种基于模式识别的车标自动定位与识别方法
CN103914829B (zh) 一种含噪图像边缘检测方法
CN102930251A (zh) 两维收藏品数据收录与甄别的装置和方法
US11216905B2 (en) Automatic detection, counting, and measurement of lumber boards using a handheld device
CN106709952A (zh) 一种显示屏幕的自动标定方法
CN105930813A (zh) 一种在任意自然场景下检测行文本的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee after: Issa Technology Co.,Ltd.

Address before: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee before: Qingdao Issa Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee after: Qingdao Issa Technology Co.,Ltd.

Address before: 100015 second floor, Beijing link17 building, yard 6, Jingshun East Street, Chaoyang District, Beijing

Patentee before: BEIJING YISA TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address