CN109472221A - 一种基于笔画宽度变换的图像文本检测方法 - Google Patents
一种基于笔画宽度变换的图像文本检测方法 Download PDFInfo
- Publication number
- CN109472221A CN109472221A CN201811246080.3A CN201811246080A CN109472221A CN 109472221 A CN109472221 A CN 109472221A CN 201811246080 A CN201811246080 A CN 201811246080A CN 109472221 A CN109472221 A CN 109472221A
- Authority
- CN
- China
- Prior art keywords
- image
- stroke width
- point
- method based
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/37—Writer recognition; Reading and verifying signatures based only on signature signals such as velocity or pressure, e.g. dynamic signature recognition
- G06V40/382—Preprocessing; Feature extraction
- G06V40/388—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于笔画宽度变换的图像文本检测方法,包括4步骤:增加了图像细化处理,利用图像细化不能缩短图像骨架长度和不能把图像分解成多个部分的两个基本准则,缩短笔画宽度。采取了纵向隔点描扫方式;将遍历所有边缘点改成每隔一个边缘点遍历,缩短了纵向一半搜索量。采取了横向隔点描扫方式;在笔画搜寻阶段,改为每隔一个点进行搜索。增加了形态学校正操作;采用形态学中的图像膨胀或者闭运算的方法,将邻近分隔开来区域,通过膨胀操作变成同一个连通区域。在Canny边缘检测前,增加了图像细化步骤。在扫描方式上,则采用了横向和纵向隔点扫描,缩短扫描时间。同时,增加了形态学校正操作,提高算法的性能。
Description
技术领域
本发明属于计算机图像文本检测技术领域,特别涉及一种基于笔画宽度变换的图像文本检测方法。
背景技术
笔画宽度变换(Stroke Width Transform,SWT)算法由于充分利用了文字的笔画特征,可以有效地检测出图像中文字的笔画边缘信息。然而,该算法存在着明显的缺陷,即它的时间复杂度随着图像尺寸的增大而显著增长。一方面,该算法需要遍历图像中的每个边缘点。另一方面,算法在检测像素点时需要沿着梯度方向进行搜索,如果笔画宽度太宽也会显著增加算法的时间开销。为了改善SWT算法的时间复杂度,本文基于SWT算法提出了一种改进方法,包含了4种改进措施。实验结果验证了本文方法的有效性。
发明内容
本发明的目的是提供一种基于笔画宽度变换的图像文本检测方法,改进SWT算法流程,提高算法的性能。
采用的技术方案是:
一种基于笔画宽度变换的图像文本检测方法,包括下列4步骤:
1、增加了图像细化处理:利用图像细化不能缩短图像骨架长度和不能把图像分解成多个部分的两个基本准则,缩短笔画宽度,最大程度减少沿着梯度方向搜索对应点的时间。
2、还采取了纵向隔点描扫方式:将遍历所有边缘点改成每隔一个边缘点遍历,缩短了纵向一半搜索量。
3、还采取了横向隔点描扫方式:在笔画搜寻阶段,SWT算法通过对像素点梯度相反方向进行逐点搜索至另一个与之对应的点,改为每隔一个点进行搜索。
4、还增加了形态学校正操作:采用形态学中的图像膨胀或者闭运算的方法,将邻近分隔开来区域,通过膨胀操作变成同一个连通区域。
其优点在于:
基于SWT算法,做出改进。改进的SWT算法流程,如图3所示。在Canny边缘检测前,增加了图像细化步骤。在扫描方式上,则采用了横向和纵向隔点扫描,缩短扫描时间。同时,增加了形态学校正操作,提高算法的性能。
附图说明
图1为SWT算法流程图。
图2为笔画边缘点扫描特殊情况。
图3为改进的SWT算法流程图。
图4为图像细化处理。
图5为隔点取边缘点结果。
图6为SWT改进原理图。
图7为图像形态学校正结果。
图8为利用原算法的实验结果第一部分。
图9为利用原算法的实验结果第二部分。
图10为本算法定位结果第一过程。
图11为本算法定位结果第二过程。
图12为本算法定位结果第三过程。
具体实施方式
在图像中,文字笔画一般具有连续的区域。它的特点是笔画宽度相对固定而且边缘平行,这种特征为文字定位带来了极大便利。笔画宽度是指文字笔画平行边缘两点像素的距离。基于笔画宽度变换(Stroke Width Transform,SWT)是由Epthtein首先提出,被广泛应用于图像文本检测中。其核心思想是:首先,对图像进行边缘检测,提取出文字的边缘及其边缘梯度方向信息。然后,遍历图像中的每一个像素点M,根据该像素点M的梯度方向,查找与其梯度方向相反且角度大致相同的另一个像素点N,像素点M和N之间的距离就是文字笔画宽度。遍历图像中的每一个像素点做同样操作,标出所有文字笔画的宽度。最后,做连通域分析,定位出文字位置。基于SWT的图像文本检测算法流程,如图1所示。SWT算法步骤描述如下。
步骤1。利用边缘检测Canny算子对图像进行边缘检测,求得检测到的每个边缘的像素点M方向梯度值dM。
步骤2。如果M位于笔画的边缘,那么dM垂直于笔画方向,沿着射线R=M+N*dM(N>=0)梯度方向搜索与M相对应的另一个边缘像素点N。(1)如果找不到相对应的N,或者dM和dN不满足大致反向的条件,则丢弃射线R。(2)如果找到了相对应的N,则将在M和N之间的路径上的每个像素点的值改为M和N之间的距离值,即欧氏距离||M-N||,除非该点已经被指定了一个更小的笔画宽度属性值。
重复上述步骤2,计算出所有未被废弃的路径上的像素的笔画宽度值,直至算法结束。
以上过程将M和N路径像素标记为其欧氏距离,是为了与文字笔画建立联系。经过标记后,便于在后续的处理中使用连通域分析法提取文字区域,从而实现文字定位的目的。在上述过程中,默认图像是亮底暗字的正向文字。如果是暗底亮字的反向文字,那么在步骤2中就需要沿着dM的相反方向来查找N。所以,在实际计算过程中,需要重复以上过程两次,一次沿着dM方向,另一次则沿着dM反方向进行。
在上述算法中,还需要考虑特殊情况,如图2所示。其中,图2中(a)表示当边缘点从上向下扫描时会与从左向右扫描相交,此时存在相交点以哪个路径值填充的问题。图2中(b)是在笔画拐弯处,当边缘点从上向下扫描时会与从左向右扫描相交,由于左右路径和上下路径的欧氏距离不一样,此时存在选择哪个路径的问题。针对这两个问题,需要针对图像做二次扫描。在进行第二次扫描时候,对于所有第一次扫描到的路径,求得路径上的中值,并将所有这条路径上大于中值的像素点全部赋值为这个中值常数。
改进算法:
基于SWT算法,做出改进。改进的SWT算法流程,如图3所示。在Canny边缘检测前,增加了图像细化步骤。在扫描方式上,则采用了横向和纵向隔点扫描,缩短扫描时间。同时,增加了形态学校正操作,提高算法的性能。
本发明采取了以下4点改进措施:
(1)增加了图像细化处理。图像细化实际上是形态学图像处理过程,即是一个逐渐腐蚀的过程,利用图像细化不能缩短图像骨架长度和不能把图像分解成多个部分的两个基本准则,可以对图像进行细化处理,这样可以缩短笔画宽度,最大程度减少沿着梯度方向搜索对应点的时间,这里先声明一个概念,即本文以遍历像素点过程称为纵向搜索,以寻找梯度方向对应点的过程称为横向搜索。图像细化结果,如图4所示。(a)原图像,(b)二值化图像,(c)细化图像,(d)Canny边缘,从图4中可以看出,经过细化后,文字信息并未丢失,只是文字笔画变细。
(2)采取了纵向隔点描扫方式。将遍历所有边缘点改成每隔一个边缘点遍历,缩短了纵向一半搜索量,实验结果如图5所示。从图5中可以看到,(a)边缘图像,(b)隔点取边缘结果,这种跳跃式遍历边缘点基本不影响结果,说明丢弃相邻边缘点不影响图像质量和后续的文字定位结果。
(3)采取了横向隔点描扫方式。在笔画搜寻阶段,SWT算法通过对像素点梯度相反方向进行逐点搜索至另一个与之对应的点,改为每隔一个点进行搜索,这样的好处是可以缩短横向搜索一半搜索量。如图6所示,这是改进SWT算法原理图。
(4)增加了形态学校正操作。原因在于采取隔点遍历的措施确实可以大大缩短搜索时间,但是图像中的点都是相隔一个点进行遍历的,会留下很多空洞,这将导致后续连通域分析十分缓慢。如果不进行形态学校正,连通域个数呈数量级增长,这些空洞必将原来本是同一连通域区域分隔开来。通过实验发现,如果采用原来算法连通域只有几百个,如果采样隔点扫描,连通域增长至几万个,这将会直接导致定位阶段十分缓慢。所以需要将图像进行形态学校正,采用形态学中的图像膨胀或者闭运算的方法,将邻近分隔开来区域,通过膨胀操作变成同一个连通区域,经过校正后,连通域变回了几百个,与原来算法连通域个数相近。具体结果如图7所示:(a)取边缘图像,(b)闭运算。
实验结果与分析:
整个过程运行在12GRAM+双核酷睿I7-7500CPU的windows10操作系统,实验仿真是利用MATLAB 2016b平台进行的。
(1)实验结果:
如图8-9所示,(a)Canny边缘,(b)SWT变换,(c)侯选集,(d)定位结果,是利用原算法的实验结果,是本算法定位结果如图10-12所示,(a)原图,(b)Canny边缘,(d)SWT变换,d)候选集,(e)定位结果,表1则为使用本文算法与原算法SWT阶段和定位阶段时间比较。
(2)实验结果分析:
从图10-12中可以看出,本文改进SWT算法在变换时间上要优于原算法,定位耗时和原算法相当。相对于经典的SWT算法,改进的SWT算法由于采用了隔点扫描的方法,容易引起图像的局部失真和空洞存在,这会加大文字定位的难度,为此需要采用图像膨胀或者闭运算方法来分析连通域,填补这些空洞。
除了上述实验,本文还采用(1)横向搜索量减半、纵向搜索量不减半,(2)横向搜索量不减半、纵向搜索量减半实验,结果显示要比横向搜索量减半、纵向搜索量减半效果要明显好很多,这要是由于减少搜索量,则连通域会成倍增长,将本来连通区域变得不连通,形成了“空洞效应”。所以在合并分开的连通域是本文算法比较关键的一个环节,合并的好坏将直接影响后续的定位效果和效率。
表1本算法与原算法在SWT阶段和定位阶段比较。
Claims (4)
1.一种基于笔画宽度变换的图像文本检测方法,其特征在于包括下列步骤:增加了图像细化处理:利用图像细化不能缩短图像骨架长度和不能把图像分解成多个部分的两个基本准则,缩短笔画宽度,最大程度减少沿着梯度方向搜索对应点的时间。
2.根据权利要求1所述的一种基于笔画宽度变换的图像文本检测方法,其特征在于包括下列步骤:还采取了纵向隔点描扫方式:将遍历所有边缘点改成每隔一个边缘点遍历,缩短了纵向一半搜索量。
3.根据权利要求1所述的一种基于笔画宽度变换的图像文本检测方法,其特征在于包括下列步骤:还采取了横向隔点描扫方式:在笔画搜寻阶段,SWT算法通过对像素点梯度相反方向进行逐点搜索至另一个与之对应的点,改为每隔一个点进行搜索。
4.根据权利要求1所述的一种基于笔画宽度变换的图像文本检测方法,其特征在于包括下列步骤:还增加了形态学校正操作:采用形态学中的图像膨胀或者闭运算的方法,将邻近分隔开来区域,通过膨胀操作变成同一个连通区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811246080.3A CN109472221A (zh) | 2018-10-25 | 2018-10-25 | 一种基于笔画宽度变换的图像文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811246080.3A CN109472221A (zh) | 2018-10-25 | 2018-10-25 | 一种基于笔画宽度变换的图像文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109472221A true CN109472221A (zh) | 2019-03-15 |
Family
ID=65664429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811246080.3A Withdrawn CN109472221A (zh) | 2018-10-25 | 2018-10-25 | 一种基于笔画宽度变换的图像文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472221A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245600A (zh) * | 2019-06-11 | 2019-09-17 | 长安大学 | 自适应起始快速笔画宽度无人机道路检测方法 |
CN110889403A (zh) * | 2019-11-05 | 2020-03-17 | 浙江大华技术股份有限公司 | 文本检测方法以及相关装置 |
CN113298768A (zh) * | 2021-05-20 | 2021-08-24 | 山东大学 | 棉花检测分割计数方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920819A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 毛笔书法字检索方法 |
US20090285482A1 (en) * | 2008-05-19 | 2009-11-19 | Microsoft Corporation | Detecting text using stroke width based text detection |
CN103942797A (zh) * | 2014-04-24 | 2014-07-23 | 中国科学院信息工程研究所 | 基于直方图和超像素的场景图像文字检测方法及系统 |
CN104794479A (zh) * | 2014-01-20 | 2015-07-22 | 北京大学 | 基于局部笔画宽度变换的自然场景图片中文本检测方法 |
CN104899601A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学宁波信息技术研究院 | 一种手写维吾尔文单词识别方法 |
US20180005343A1 (en) * | 2016-07-01 | 2018-01-04 | Digimarc Corporation | Image-based pose determination |
CN107563380A (zh) * | 2017-09-08 | 2018-01-09 | 上海理工大学 | 一种基于mser和swt相结合的车辆车牌检测识别方法 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
-
2018
- 2018-10-25 CN CN201811246080.3A patent/CN109472221A/zh not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920819A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 毛笔书法字检索方法 |
US20090285482A1 (en) * | 2008-05-19 | 2009-11-19 | Microsoft Corporation | Detecting text using stroke width based text detection |
CN104794479A (zh) * | 2014-01-20 | 2015-07-22 | 北京大学 | 基于局部笔画宽度变换的自然场景图片中文本检测方法 |
CN103942797A (zh) * | 2014-04-24 | 2014-07-23 | 中国科学院信息工程研究所 | 基于直方图和超像素的场景图像文字检测方法及系统 |
CN104899601A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学宁波信息技术研究院 | 一种手写维吾尔文单词识别方法 |
US20180005343A1 (en) * | 2016-07-01 | 2018-01-04 | Digimarc Corporation | Image-based pose determination |
CN107563380A (zh) * | 2017-09-08 | 2018-01-09 | 上海理工大学 | 一种基于mser和swt相结合的车辆车牌检测识别方法 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
Non-Patent Citations (5)
Title |
---|
ARUNI ROY CHOWDHURY 等: "Scene Text Detection using Sparse Stroke Information and MLP", 《21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
MINH HIEU NGUYEN 等: "Stroke Width Based Skeletonization for Text Images", 《JOURNAL OF COMPUTING SCIENCE AND ENGINEERING》 * |
VIET CUONG DINH 等: "An Efficient Method for Text Detection in Video Based on Stroke Width Similarity", 《ACCV》 * |
姜文 等: "基于联合两种特征的手写体维文字符识别", 《计算机工程与应用》 * |
陈硕 等: "基于笔画角度变换和宽度特征的自然场景文本检测", 《计算机应用研究》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245600A (zh) * | 2019-06-11 | 2019-09-17 | 长安大学 | 自适应起始快速笔画宽度无人机道路检测方法 |
CN110889403A (zh) * | 2019-11-05 | 2020-03-17 | 浙江大华技术股份有限公司 | 文本检测方法以及相关装置 |
CN113298768A (zh) * | 2021-05-20 | 2021-08-24 | 山东大学 | 棉花检测分割计数方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472221A (zh) | 一种基于笔画宽度变换的图像文本检测方法 | |
Huang et al. | An improved parallel thinning algorithm. | |
US6347156B1 (en) | Device, method and storage medium for recognizing a document image | |
JP3950777B2 (ja) | 画像処理方法、画像処理装置および画像処理プログラム | |
KR101207127B1 (ko) | 문자 인식 전처리 방법 및 장치 | |
Das et al. | A fast algorithm for skew detection of document images using morphology | |
CN111079545A (zh) | 一种基于图像修复的三维目标检测方法和系统 | |
JPH03122773A (ja) | 画像形成装置 | |
US8355571B2 (en) | Apparatus and method for generating image for character region extraction | |
CN106384113A (zh) | 基于投影和模板匹配的单双行车牌字符分割方法 | |
CN101896920A (zh) | 基于移动扫描的图像处理方法及装置 | |
CN104239870A (zh) | 一种基于曲线弧分割的椭圆检测方法 | |
CN102831428B (zh) | 图像内快速响应矩阵码区域的提取方法 | |
CN106296969A (zh) | 纸币的识别方法和系统 | |
JP2018060389A (ja) | プログラム、情報記憶媒体及び文字分割装置 | |
CN109948621A (zh) | 一种基于图片验证码的图像处理与字符分割方法 | |
CN111145124A (zh) | 一种图像倾斜的校正方法及装置 | |
CN115578741A (zh) | 一种基于Mask R-cnn算法和类型分割的扫描文件版面分析方法 | |
CN110674802A (zh) | 一种改进的平行四边形候选框的文本检测方法 | |
Alaei et al. | A baseline dependent approach for Persian handwritten character segmentation | |
JP3378439B2 (ja) | 帳票画像作成装置 | |
CN111046727B (zh) | 视频特征提取方法及装置、电子设备及存储介质 | |
Li | Fast multi-level connected component labeling for large-scale images | |
CN111860332A (zh) | 基于多阈值级联检测器的双通道电力图零部件检测方法 | |
CN105427332B (zh) | 一种用于水平集图像分割的快速符号距离函数计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190315 |
|
WW01 | Invention patent application withdrawn after publication |