CN108960115A - 基于角点的多方向文本检测方法 - Google Patents

基于角点的多方向文本检测方法 Download PDF

Info

Publication number
CN108960115A
CN108960115A CN201810681879.9A CN201810681879A CN108960115A CN 108960115 A CN108960115 A CN 108960115A CN 201810681879 A CN201810681879 A CN 201810681879A CN 108960115 A CN108960115 A CN 108960115A
Authority
CN
China
Prior art keywords
diagonal line
point
candidate
angle point
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810681879.9A
Other languages
English (en)
Other versions
CN108960115B (zh
Inventor
马争
卢欣辰
解梅
陶帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810681879.9A priority Critical patent/CN108960115B/zh
Publication of CN108960115A publication Critical patent/CN108960115A/zh
Application granted granted Critical
Publication of CN108960115B publication Critical patent/CN108960115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Abstract

本发明公开了一种基于角点的多方向文本检测方法,其包括两个处理部分:首先通过检测角点来产生区域建议区域,这些区域用来估计文本区域可能出现的位置,由于不像其他算法那样产生的建议区域是水平矩形,本发明利用角点可以产生各个角度的建议区域,所以本发明的检测方法能够检测倾斜等各角度的文本,最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归,最终准确定位到文本区域。本发明用于自然场景下的文本检测,在检测性能和检测速度上都比现有的处理方式明显提升。

Description

基于角点的多方向文本检测方法
技术领域
本发明属于图像处理和模式识别领域,具体涉及用于自然场景下的文本检测技术。
背景技术
随着各种配备摄像机的手持设备的流行,自然场景下的文本检测有了新的发展。越来越多的人能够随时随地使用各种电子设备拍摄所看到的事物和场景,记录其中的信息,如道路指示牌、广告牌、商店的商标等。以往很多文本提取的方式均是针对某些特定环境进行并且给出一定的先验知识,如视频图像中的字幕提取,这些字幕文字往往有固定的排列方向,成行排列或者成列排列,文字尺寸是固定的或者变化范围非常小,出现的位置也通常为视频图像的底部或者两侧,而且同一字幕区域的文字颜色也往往都是一致的;又如车牌检测处理中,车牌的底色和字符颜色一般较为固定,车牌上字符的个数确定,这些先验知识都对文字的检测起到很好的帮助。
但是对于自然场景中的文字,由于没有一定的先验条件和给定的环境约束,使得文字定位任务难度远高于文档类图像。传统的自然场景下的文本检测大多是利用滑窗去定位文本,这会导致定位准确率相当不高,因此有必要提出一种不需要任何先验知识来定位自然场景下的文本信息的文本检测技术。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种自然场景下的基于角点的多方向文本检测方法,使得在没有用到任何先验知识的条件下也能完成对自然场景下的文本信息的定位。
本发明的基于角点的多方向文本检测方法,包括下列步骤:
其中候选角点的选取方式为:采用四个不同的卷积滤波器去计算任意像素点(x,y)属于第i个角点方位的概率并将概率大于预设概率阈值的像素点作为候选角点,得到的候选角点包括角点方位信息;
其中,角点方位包括4个角点方位,分别对应四边形文本框的四个顶点,其中第一、第三角点方位的梯度方向相反;第二、四角点方位的梯度方向相反的;
四个卷积滤波器对应4个角点方位,每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置,其中K表示对角线上的预设离散点数;L表示背景和非第i个角点方位的角点;
基于候选角点集确定对角线,并为每条对角线查找一个候选建议框:
基于候选角点集中的第一和第三角点方位的候选角点之间的线段,以及第二和第四角点方位的候选角点之间的线段得到对角线;
对任意最终的对角线基于其中心点旋转,得到旋转后的对角线并从候选角点集中查找与对角线共线的候选角点c,其中点c≠a,b,点a、b为对角线的两个对角点;
基于候选角点c到对角线的距离,在对角线上得到与点c梯度方向相反的点d,即点d到对角线的距离等于点c到对角线的距离;
基于点a、b、c和d得到对角线的候选建议框;
对候选建议框进行提出处理,获取待检测文本的建议框:
通过公式计算每个候选建议框包含文本的概率,再基于包含文本的概率进行冗余去除处理,得到待检测文本的建议框。
进一步的,在为每条对角线查找候选建议框时,仅对满足角度条件的对角线查找候选建议框;其中表示对角线的两个候选角点p和q的连接方向,θ(p,q)表示对角线相对于水平方向的角度,函数ceil(·)表示返回大于或者等于指定表达式的最小整数;Dp表示根据候选角点p的预测方向,即基于卷积滤波器输出的K+1个离散点和候选角点p的拟合直线的相对于水平方向的角度。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
不同于惯用的文本检测方案给出的建议区域为水平矩形,本发明利用角点可以产生各个角度的建议区域,所以本发明的检测方法能够检测倾斜等各角度的文本,最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归,最终准确定位到文本区域。本发明用于自然场景下的文本检测,在检测性能和检测速度上都比现有的处理方式明显提升。
附图说明
图1是本发明具体实施方式中,基于计算出来的角点p和q的实际连接方向示意图,其中图1的左栏为符合规则的连接方向,图1的右栏是付符合规则的连接方向;
图2是实施例的检测处理流程示意图,其中左一是输入图片,左二是四个类型的候选角点,箭头代表该类型角点所指向连接方向,右一是生成的一系列候选建议框,右二是最终检测出的文本区域效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明公开了一种基于角点的多方向文本检测方法,其包括两个处理部分:首先通过检测角点来产生区域建议区域,这些区域用来估计文本区域可能出现的位置,由于不像其他算法那样产生的建议区域是水平矩形,本发明利用角点可以产生各个角度的建议区域,所以本发明的检测方法能够检测倾斜等各角度的文本,最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归,最终准确定位到文本区域。
本发明的基于角点的多方向文本检测方法具体包括下列两部分:
一、查找角点。
寻找角点即预测待检测图像上的任意一个像素点(x,y)是否为预先定义好的文本框的角点。由于不能像水平四边形或者矩形一样去定义角点的相对位置(左上,左下,右上,右下),本申请定义4个不同的角点方位标识符去描述4个不同方位的角点,该四个角点方位对应四边形的四个顶点,例如定义i为角点方位标识符,其中i=1,2,3,4,角点方位1与角点方位3是梯度方向相反的一对角点;角点方位2与角点方位4是梯度方向相反的一对角点。
然后采用one-versus-rest(一对多)的策略,基于4个不同的卷积滤波器去计算待检测图像上的任意像素点是否为4个不同角点方位之一的概率。其中每个卷积滤波器对应一个角点方位,每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置,K表示对角线上的预设离散点数。例如当找到一个像素点p为其中一个角点(i=1)时,则要根据p的梯度方向寻找与其梯度方向相反的另一个角点q(i=3)。
为了实现上述对角点对的查找处理,本发明定义一个变量来表示已知一个角点时寻找另一个梯度方向相反的角点,即连接方向;定义θ(p,q)表示向量相对于水平方向的角度,p和q是通过计算得到的两个可以连接成一条对角线的候选角点,将θ(p,q)离散化为K个值,则可以得到的计算表达式:其中函数ceil(·)表示返回大于或者等于指定表达式的最小整数。
从而就可以将一个二分类问题转化成了一个多分类问题,即所分类别是两点的连接方向。所以,本发明通过角点检测器(四个并行的卷积滤波器所构成的神经网络模型)输出的K+1个预测矩阵(该预测矩阵用来判断当前像素点是否为所求角点),则每个像素点属于角点方位i的概率Pi(x,y)可以表示为:
其中,L表示背景和非第i个角点方位的角点。
本发明中的角点检测器为惯用的神经网络模型框架,其包括四个并行的卷积层,每个卷积层用于输出K+1个预测矩阵,再基于预设阈值得到当前像素点所述的角点方位。该角点检测器的训练采用常规的神经网络模型训练方式即可,训练样本为文本框图片,训练目标为:判断当前像素点是否为所求角点。
此外,为了抑制那些不符合的对角线,本发明通过制定如下规则进行抑制:
其中,Dp表示根据角点p预测的方向,表示根据计算出来的角点p和角点q的实际连接方向。如图1所示,其中虚线框的左上角点和右下角点代表候选点,长度较短箭头所指方向是根据左上角点预测的方向,即Dp;长度较长箭头即左上角点和右下角点连线是实际的连接方向,即
二、基于角点的查找结果,生成建议区域。
利用已提取得到的候选角点形成候选区域B,即候选建议框,再利用一个贝叶斯分类器去计算每个候选区域包含文本的概率P(B),其计算表达式为其中(xi,yi)表示建议区域B中的第i个角点。
故本发明的基于角点的多方向文本检测方法具体包括下列步骤:
步骤S1:对像素点进行候选角点选取,得到候选角点集,其后,候选角点的选取方式为:
通过概率矩阵选取概率大于预设阈值T的像素点作为候选角点,其中得到的候选角点包括角点方位信息;
步骤S2:将候选角点集中的第一和第三角点方位的候选角点连接成相应的对角线,并基于抑制规则去除那些不符合规则的对角线,即去除的对角线;
步骤S3:为步骤S2得到的每条对角线查找一个候选建议框:
对任意对角线其中,点a、b表示对角线的两个对角点;
基于对角线的中心点旋转,得到旋转后的对角线并从候选角点集中查找与对角线共线的候选角点c,其中点c≠a,b;
基于候选角点c到对角线的距离,在对角线上得到与点c梯度方向相反的点d,即点d到对角线的距离等于点c到对角线的距离;
基于点a、b、c和d得到对角线的候选建议框。
步骤S4:将候选角点集中的第二和第四角点方位的候选角点连接成相应的对角线,并去除的对角线后,再为每条每条对角线查找一个候选建议框,其中候选建议框的查找方式同步骤S3。
步骤S5:通过公式计算每个候选建议框包含文本的概率,即建议框的非空概率;再基于候选建议框的非空概率,采用NMS(Non MaximumSuppression,非极大值抑制)法去除冗余的候选建议框,得到待检测文本的建议框。
实施例
参见图2,首先输入待检测图像,如图2中的左一所示;
然后通过概率矩阵选取概率大于预设阈值T的像素点作为候选角点,并确定符合规则的候选角点的对角线,如图2中的左二所示;
接着,基于步骤S3、S4生成一系列的候选建议框,如图2中的右一所示;
最后,基于候选建议框的非空概率,采用NMS法去除冗余的候选建议框,得到最终检测出的文本区域,如图2中的右二所示。
将本发明提出的基于角点的多方向文本检测方法进行端到端的训练,训练出的检测模型可以检测自然场景下的多方向的文本,并且在3个公开数据集(ICDAR-2013,ICDAT-2015,COCO-Text)下进行测试,F-measure(检测准确率和召回率的加权调和平均)分别达到了0.876,0.845,0.591,并且本申请的文本检测方法相比于传统检测方法在速度上也有较大提升。故,本申请的文本检测方法的在检测性能和检测效率上都有所提升,更适用于自然场景下的文本检测需求。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.基于角点的多方向文本检测方法,其特征在于,包括下列步骤:
对像素点进行候选角点选取,得到候选角点集;
所述候选角点的选取方式为:采用四个不同的卷积滤波器去计算任意像素点(x,y)属于第i个角点方位的概率并将概率大于预设概率阈值的像素点作为候选角点,得到的候选角点包括角点方位信息;
其中,角点方位包括4个角点方位,分别对应四边形文本框的四个顶点,其中第一、第三角点方位的梯度方向相反;第二、四角点方位的梯度方向相反的;
四个卷积滤波器对应4个角点方位,每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置,其中K表示对角线上的预设离散点数;L表示背景和非第i个角点方位的角点;
基于候选角点集确定对角线,并为每条对角线查找一个候选建议框:
基于候选角点集中的第一和第三角点方位的候选角点之间的线段,以及第二和第四角点方位的候选角点之间的线段得到对角线;
对任意最终的对角线基于其中心点旋转,得到旋转后的对角线并从候选角点集中查找与对角线共线的候选角点c,其中点c≠a,b,点a、b为对角线的两个对角点;
基于候选角点c到对角线的距离,在对角线上得到与点c梯度方向相反的点d,所述点d到对角线的距离等于点c到对角线的距离;
基于点a、b、c和d得到对角线的候选建议框;
对候选建议框进行提出处理,获取待检测文本的建议框:
通过公式计算每个候选建议框包含文本的概率,再基于包含文本的概率进行冗余去除处理,得到待检测文本的建议框。
2.如权利要求1所述的方法,其特征在于,在为每条对角线查找候选建议框时,仅对满足角度条件的对角线查找候选建议框;
所述表示对角线的两个候选角点p和q的连接方向
θ(p,q)表示对角线相对于水平方向的角度,函数ceil(·)表示返回大于或者等于指定表达式的最小整数;Dp表示根据候选角点p的预测方向,即基于卷积滤波器输出的K+1个离散点和候选角点p的拟合直线的相对于水平方向的角度。
3.如权利要求1或2所述的方法,其特征在于,候选建议框的冗余去除处理的方式优选非极大值抑制。
CN201810681879.9A 2018-06-27 2018-06-27 基于角点的多方向文本检测方法 Active CN108960115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810681879.9A CN108960115B (zh) 2018-06-27 2018-06-27 基于角点的多方向文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810681879.9A CN108960115B (zh) 2018-06-27 2018-06-27 基于角点的多方向文本检测方法

Publications (2)

Publication Number Publication Date
CN108960115A true CN108960115A (zh) 2018-12-07
CN108960115B CN108960115B (zh) 2021-11-09

Family

ID=64487495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810681879.9A Active CN108960115B (zh) 2018-06-27 2018-06-27 基于角点的多方向文本检测方法

Country Status (1)

Country Link
CN (1) CN108960115B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110826561A (zh) * 2019-11-11 2020-02-21 上海眼控科技股份有限公司 车辆文本识别方法、装置和计算机设备
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111429450A (zh) * 2020-04-10 2020-07-17 展讯通信(上海)有限公司 角点检测的方法、系统、设备及存储介质
CN112434698A (zh) * 2020-11-23 2021-03-02 泰康保险集团股份有限公司 字符识别方法、装置、电子设备及存储介质
CN112990201A (zh) * 2021-05-06 2021-06-18 北京世纪好未来教育科技有限公司 文本框检测方法、装置、电子设备和计算机存储介质
CN110163193B (zh) * 2019-03-25 2021-08-06 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置
CN103699895A (zh) * 2013-12-12 2014-04-02 天津大学 一种视频中文字的检测与提取方法
US8810599B1 (en) * 2010-11-02 2014-08-19 Google Inc. Image recognition in an augmented reality application
US20140237356A1 (en) * 2013-01-21 2014-08-21 Keypoint Technologies (Uk) Limited Text input method and device
CN107688806A (zh) * 2017-08-21 2018-02-13 西北工业大学 一种基于仿射变换的自由场景文本检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置
US8810599B1 (en) * 2010-11-02 2014-08-19 Google Inc. Image recognition in an augmented reality application
US20140237356A1 (en) * 2013-01-21 2014-08-21 Keypoint Technologies (Uk) Limited Text input method and device
CN103699895A (zh) * 2013-12-12 2014-04-02 天津大学 一种视频中文字的检测与提取方法
CN107688806A (zh) * 2017-08-21 2018-02-13 西北工业大学 一种基于仿射变换的自由场景文本检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YINGYING JIANG等: "R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection", 《HTTPS://ARXIV.ORG/ABS/1706.09579》 *
李英 等: "一种图像中的文字区域检测新方法", 《西安电子科技大学学报》 *
杜振龙等: "基于多尺度Harris角点的图像文字检测", 《计算机工程与设计》 *
陈硕等: "基于笔画角度变换和宽度特征的自然场景文本检测", 《计算机应用研究》 *
马小勇等: "视频帧中提取文字区域的算法", 《计算机工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163193B (zh) * 2019-03-25 2021-08-06 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN109934229B (zh) * 2019-03-28 2021-08-03 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110826561A (zh) * 2019-11-11 2020-02-21 上海眼控科技股份有限公司 车辆文本识别方法、装置和计算机设备
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111429450A (zh) * 2020-04-10 2020-07-17 展讯通信(上海)有限公司 角点检测的方法、系统、设备及存储介质
CN111429450B (zh) * 2020-04-10 2022-08-16 展讯通信(上海)有限公司 角点检测的方法、系统、设备及存储介质
CN112434698A (zh) * 2020-11-23 2021-03-02 泰康保险集团股份有限公司 字符识别方法、装置、电子设备及存储介质
CN112990201A (zh) * 2021-05-06 2021-06-18 北京世纪好未来教育科技有限公司 文本框检测方法、装置、电子设备和计算机存储介质

Also Published As

Publication number Publication date
CN108960115B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN108960115A (zh) 基于角点的多方向文本检测方法
Li et al. Automatic pavement crack detection by multi-scale image fusion
CN105608456B (zh) 一种基于全卷积网络的多方向文本检测方法
CN103824070B (zh) 一种基于计算机视觉的快速行人检测方法
CN103530881B (zh) 适用于移动终端的户外增强现实无标志点跟踪注册方法
CN104123529B (zh) 人手检测方法及系统
CN103886325B (zh) 一种分块的循环矩阵视频跟踪方法
US20120328161A1 (en) Method and multi-scale attention system for spatiotemporal change determination and object detection
CN103778436B (zh) 一种基于图像处理的行人姿态检测方法
Guo et al. Nighttime vehicle lamp detection and tracking with adaptive mask training
CN106558072A (zh) 一种基于改进sift特征在遥感图像上配准的方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN111160291B (zh) 基于深度信息与cnn的人眼检测方法
CN105205486A (zh) 一种车标识别方法及装置
CN109960742A (zh) 局部信息的搜索方法及装置
CN104123554B (zh) 基于mmtd的sift图像特征提取方法
JP2002373332A (ja) 画像認識装置および画像認識方法
CN106447701A (zh) 用于图像相似性确定、对象检测和跟踪的方法和装置
CN106663322A (zh) 识别特征
CN105427333A (zh) 视频序列图像的实时配准方法、系统及拍摄终端
CN113111727A (zh) 一种基于特征对齐的遥感场景下旋转目标检测方法
CN106709938A (zh) 基于改进tld的多目标追踪方法
Liu et al. Extended faster R-CNN for long distance human detection: Finding pedestrians in UAV images
CN109389165A (zh) 基于巡检机器人的变压器油位计识别方法
Kieu et al. Ocr accuracy prediction method based on blur estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant