CN108960115B - 基于角点的多方向文本检测方法 - Google Patents
基于角点的多方向文本检测方法 Download PDFInfo
- Publication number
- CN108960115B CN108960115B CN201810681879.9A CN201810681879A CN108960115B CN 108960115 B CN108960115 B CN 108960115B CN 201810681879 A CN201810681879 A CN 201810681879A CN 108960115 B CN108960115 B CN 108960115B
- Authority
- CN
- China
- Prior art keywords
- point
- candidate
- points
- corner
- angular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于角点的多方向文本检测方法,其包括两个处理部分:首先通过检测角点来产生区域建议区域,这些区域用来估计文本区域可能出现的位置,由于不像其他算法那样产生的建议区域是水平矩形,本发明利用角点可以产生各个角度的建议区域,所以本发明的检测方法能够检测倾斜等各角度的文本,最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归,最终准确定位到文本区域。本发明用于自然场景下的文本检测,在检测性能和检测速度上都比现有的处理方式明显提升。
Description
技术领域
本发明属于图像处理和模式识别领域,具体涉及用于自然场景下的文本检测技术。
背景技术
随着各种配备摄像机的手持设备的流行,自然场景下的文本检测有了新的发展。越来越多的人能够随时随地使用各种电子设备拍摄所看到的事物和场景,记录其中的信息,如道路指示牌、广告牌、商店的商标等。以往很多文本提取的方式均是针对某些特定环境进行并且给出一定的先验知识,如视频图像中的字幕提取,这些字幕文字往往有固定的排列方向,成行排列或者成列排列,文字尺寸是固定的或者变化范围非常小,出现的位置也通常为视频图像的底部或者两侧,而且同一字幕区域的文字颜色也往往都是一致的;又如车牌检测处理中,车牌的底色和字符颜色一般较为固定,车牌上字符的个数确定,这些先验知识都对文字的检测起到很好的帮助。
但是对于自然场景中的文字,由于没有一定的先验条件和给定的环境约束,使得文字定位任务难度远高于文档类图像。传统的自然场景下的文本检测大多是利用滑窗去定位文本,这会导致定位准确率相当不高,因此有必要提出一种不需要任何先验知识来定位自然场景下的文本信息的文本检测技术。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种自然场景下的基于角点的多方向文本检测方法,使得在没有用到任何先验知识的条件下也能完成对自然场景下的文本信息的定位。
本发明的基于角点的多方向文本检测方法,包括下列步骤:
其中,角点方位包括4个角点方位,分别对应四边形文本框的四个顶点,其中第一、第三角点方位的梯度方向相反;第二、四角点方位的梯度方向相反的;
四个卷积滤波器对应4个角点方位,每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置,其中K表示对角线上的预设离散点数;L表示背景和非第i个角点方位的角点;
基于候选角点集确定对角线,并为每条对角线查找一个候选建议框:
基于候选角点集中的第一和第三角点方位的候选角点之间的线段,以及第二和第四角点方位的候选角点之间的线段得到对角线;
对候选建议框进行提出处理,获取待检测文本的建议框:
进一步的,在为每条对角线查找候选建议框时,仅对满足角度条件的对角线查找候选建议框;其中表示对角线的两个候选角点p和q的连接方向,θ(p,q)表示对角线相对于水平方向的角度,函数ceil(·)表示返回大于或者等于指定表达式的最小整数;Dp表示根据候选角点p的预测方向,即基于卷积滤波器输出的K+1个离散点和候选角点p的拟合直线的相对于水平方向的角度。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
不同于惯用的文本检测方案给出的建议区域为水平矩形,本发明利用角点可以产生各个角度的建议区域,所以本发明的检测方法能够检测倾斜等各角度的文本,最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归,最终准确定位到文本区域。本发明用于自然场景下的文本检测,在检测性能和检测速度上都比现有的处理方式明显提升。
附图说明
图1是本发明具体实施方式中,基于计算出来的角点p和q的实际连接方向示意图,其中图1的左栏为符合规则的连接方向,图1的右栏是付符合规则的连接方向;
图2是实施例的检测处理流程示意图,其中左一是输入图片,左二是四个类型的候选角点,箭头代表该类型角点所指向连接方向,右一是生成的一系列候选建议框,右二是最终检测出的文本区域效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明公开了一种基于角点的多方向文本检测方法,其包括两个处理部分:首先通过检测角点来产生区域建议区域,这些区域用来估计文本区域可能出现的位置,由于不像其他算法那样产生的建议区域是水平矩形,本发明利用角点可以产生各个角度的建议区域,所以本发明的检测方法能够检测倾斜等各角度的文本,最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归,最终准确定位到文本区域。
本发明的基于角点的多方向文本检测方法具体包括下列两部分:
一、查找角点。
寻找角点即预测待检测图像上的任意一个像素点(x,y)是否为预先定义好的文本框的角点。由于不能像水平四边形或者矩形一样去定义角点的相对位置(左上,左下,右上,右下),本申请定义4个不同的角点方位标识符去描述4个不同方位的角点,该四个角点方位对应四边形的四个顶点,例如定义i为角点方位标识符,其中i=1,2,3,4,角点方位1与角点方位3是梯度方向相反的一对角点;角点方位2与角点方位4是梯度方向相反的一对角点。
然后采用one-versus-rest(一对多)的策略,基于4个不同的卷积滤波器去计算待检测图像上的任意像素点是否为4个不同角点方位之一的概率。其中每个卷积滤波器对应一个角点方位,每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置,K表示对角线上的预设离散点数。例如当找到一个像素点p为其中一个角点(i=1)时,则要根据p的梯度方向寻找与其梯度方向相反的另一个角点q(i=3)。
为了实现上述对角点对的查找处理,本发明定义一个变量来表示已知一个角点时寻找另一个梯度方向相反的角点,即连接方向;定义θ(p,q)表示向量相对于水平方向的角度,p和q是通过计算得到的两个可以连接成一条对角线的候选角点,将θ(p,q)离散化为K个值,则可以得到的计算表达式:其中函数ceil(·)表示返回大于或者等于指定表达式的最小整数。
从而就可以将一个二分类问题转化成了一个多分类问题,即所分类别是两点的连接方向。所以,本发明通过角点检测器(四个并行的卷积滤波器所构成的神经网络模型)输出的K+1个预测矩阵(该预测矩阵用来判断当前像素点是否为所求角点),则每个像素点属于角点方位i的概率Pi(x,y)可以表示为:
其中,L表示背景和非第i个角点方位的角点。
本发明中的角点检测器为惯用的神经网络模型框架,其包括四个并行的卷积层,每个卷积层用于输出K+1个预测矩阵,再基于预设阈值得到当前像素点所述的角点方位。该角点检测器的训练采用常规的神经网络模型训练方式即可,训练样本为文本框图片,训练目标为:判断当前像素点是否为所求角点。
此外,为了抑制那些不符合的对角线,本发明通过制定如下规则进行抑制:
其中,Dp表示根据角点p预测的方向,表示根据计算出来的角点p和角点q的实际连接方向。如图1所示,其中虚线框的左上角点和右下角点代表候选点,长度较短箭头所指方向是根据左上角点预测的方向,即Dp;长度较长箭头即左上角点和右下角点连线是实际的连接方向,即
二、基于角点的查找结果,生成建议区域。
故本发明的基于角点的多方向文本检测方法具体包括下列步骤:
步骤S1:对像素点进行候选角点选取,得到候选角点集,其后,候选角点的选取方式为:
通过概率矩阵选取概率大于预设阈值T的像素点作为候选角点,其中得到的候选角点包括角点方位信息;
步骤S3:为步骤S2得到的每条对角线查找一个候选建议框:
步骤S5:通过公式计算每个候选建议框包含文本的概率,即建议框的非空概率;再基于候选建议框的非空概率,采用NMS(Non MaximumSuppression,非极大值抑制)法去除冗余的候选建议框,得到待检测文本的建议框。
实施例
参见图2,首先输入待检测图像,如图2中的左一所示;
然后通过概率矩阵选取概率大于预设阈值T的像素点作为候选角点,并确定符合规则的候选角点的对角线,如图2中的左二所示;
接着,基于步骤S3、S4生成一系列的候选建议框,如图2中的右一所示;
最后,基于候选建议框的非空概率,采用NMS法去除冗余的候选建议框,得到最终检测出的文本区域,如图2中的右二所示。
将本发明提出的基于角点的多方向文本检测方法进行端到端的训练,训练出的检测模型可以检测自然场景下的多方向的文本,并且在3个公开数据集(ICDAR-2013,ICDAT-2015,COCO-Text)下进行测试,F-measure(检测准确率和召回率的加权调和平均)分别达到了0.876,0.845,0.591,并且本申请的文本检测方法相比于传统检测方法在速度上也有较大提升。故,本申请的文本检测方法的在检测性能和检测效率上都有所提升,更适用于自然场景下的文本检测需求。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (3)
1.基于角点的多方向文本检测方法,其特征在于,包括下列步骤:
对像素点进行候选角点选取,得到候选角点集;
其中,角点方位包括4个角点方位,分别对应四边形文本框的四个顶点,其中第一、第三角点方位的梯度方向相反;第二、四角点方位的梯度方向相反的;
四个卷积滤波器对应4个角点方位,每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置,其中K表示对角线上的预设离散点数;L表示背景和非第i个角点方位的角点;
基于候选角点集确定对角线,并为每条对角线查找一个候选建议框:
基于候选角点集中的第一和第三角点方位的候选角点之间的线段,以及第二和第四角点方位的候选角点之间的线段得到对角线;
对候选建议框进行提出处理,获取待检测文本的建议框:
3.如权利要求1或2所述的方法,其特征在于,候选建议框的冗余去除处理的方式优选非极大值抑制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810681879.9A CN108960115B (zh) | 2018-06-27 | 2018-06-27 | 基于角点的多方向文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810681879.9A CN108960115B (zh) | 2018-06-27 | 2018-06-27 | 基于角点的多方向文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108960115A CN108960115A (zh) | 2018-12-07 |
CN108960115B true CN108960115B (zh) | 2021-11-09 |
Family
ID=64487495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810681879.9A Active CN108960115B (zh) | 2018-06-27 | 2018-06-27 | 基于角点的多方向文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108960115B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163193B (zh) * | 2019-03-25 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN109934229B (zh) * | 2019-03-28 | 2021-08-03 | 网易有道信息技术(北京)有限公司 | 图像处理方法、装置、介质和计算设备 |
CN110826561A (zh) * | 2019-11-11 | 2020-02-21 | 上海眼控科技股份有限公司 | 车辆文本识别方法、装置和计算机设备 |
CN111091123A (zh) * | 2019-12-02 | 2020-05-01 | 上海眼控科技股份有限公司 | 文本区域检测方法及设备 |
CN111429450B (zh) * | 2020-04-10 | 2022-08-16 | 展讯通信(上海)有限公司 | 角点检测的方法、系统、设备及存储介质 |
CN112434698A (zh) * | 2020-11-23 | 2021-03-02 | 泰康保险集团股份有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN112990201A (zh) * | 2021-05-06 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 文本框检测方法、装置、电子设备和计算机存储介质 |
CN114387605A (zh) * | 2022-01-12 | 2022-04-22 | 北京百度网讯科技有限公司 | 文本检测方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593277A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种复杂彩色图像中文本区域自动定位方法及装置 |
CN103699895A (zh) * | 2013-12-12 | 2014-04-02 | 天津大学 | 一种视频中文字的检测与提取方法 |
US8810599B1 (en) * | 2010-11-02 | 2014-08-19 | Google Inc. | Image recognition in an augmented reality application |
CN107688806A (zh) * | 2017-08-21 | 2018-02-13 | 西北工业大学 | 一种基于仿射变换的自由场景文本检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN2013CH00469A (zh) * | 2013-01-21 | 2015-07-31 | Keypoint Technologies India Pvt Ltd |
-
2018
- 2018-06-27 CN CN201810681879.9A patent/CN108960115B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593277A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种复杂彩色图像中文本区域自动定位方法及装置 |
US8810599B1 (en) * | 2010-11-02 | 2014-08-19 | Google Inc. | Image recognition in an augmented reality application |
CN103699895A (zh) * | 2013-12-12 | 2014-04-02 | 天津大学 | 一种视频中文字的检测与提取方法 |
CN107688806A (zh) * | 2017-08-21 | 2018-02-13 | 西北工业大学 | 一种基于仿射变换的自由场景文本检测方法 |
Non-Patent Citations (5)
Title |
---|
R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection;Yingying Jiang等;《https://arxiv.org/abs/1706.09579》;20170630;第1-8页 * |
一种图像中的文字区域检测新方法;李英 等;《西安电子科技大学学报》;20131220;第187-192页 * |
基于多尺度Harris角点的图像文字检测;杜振龙等;《计算机工程与设计》;20120916(第09期);第3522-3525+3661页 * |
基于笔画角度变换和宽度特征的自然场景文本检测;陈硕等;《计算机应用研究》;20180209(第04期);第1270-1274页 * |
视频帧中提取文字区域的算法;马小勇等;《计算机工程》;20030505(第09期);第155-157页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108960115A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960115B (zh) | 基于角点的多方向文本检测方法 | |
Tu et al. | RGB-T image saliency detection via collaborative graph learning | |
Ahmad | Deep image retrieval using artificial neural network interpolation and indexing based on similarity measurement | |
CN108334881B (zh) | 一种基于深度学习的车牌识别方法 | |
Wang et al. | RGB-D salient object detection via minimum barrier distance transform and saliency fusion | |
CN112036395B (zh) | 基于目标检测的文本分类识别方法及装置 | |
EP3101594A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN110287826B (zh) | 一种基于注意力机制的视频目标检测方法 | |
Liu et al. | Bipartite differential neural network for unsupervised image change detection | |
CN109785298B (zh) | 一种多角度物体检测方法和系统 | |
KR102190527B1 (ko) | 자동 영상 합성 장치 및 방법 | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN112967341B (zh) | 基于实景图像的室内视觉定位方法、系统、设备及存储介质 | |
CN109063549B (zh) | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 | |
Shi et al. | An image mosaic method based on convolutional neural network semantic features extraction | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN107944437B (zh) | 一种基于神经网络和积分图像的人脸定位方法 | |
CN111767854B (zh) | 一种结合场景文本语义信息的slam回环检测方法 | |
CN111709317B (zh) | 一种基于显著性模型下多尺度特征的行人重识别方法 | |
CN107609562A (zh) | 一种基于sift算法的尺度空间特征检测方法 | |
KR101833943B1 (ko) | 동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템 | |
Mi et al. | Research on a Fast Human‐Detection Algorithm for Unmanned Surveillance Area in Bulk Ports | |
CN111783834A (zh) | 一种基于联合图频谱特征分析的异源图像匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |