CN107346420A - 一种基于深度学习的自然场景下文字检测定位方法 - Google Patents
一种基于深度学习的自然场景下文字检测定位方法 Download PDFInfo
- Publication number
- CN107346420A CN107346420A CN201710463101.6A CN201710463101A CN107346420A CN 107346420 A CN107346420 A CN 107346420A CN 201710463101 A CN201710463101 A CN 201710463101A CN 107346420 A CN107346420 A CN 107346420A
- Authority
- CN
- China
- Prior art keywords
- detection
- network
- training
- picture
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 230000004807 localization Effects 0.000 title abstract 2
- 238000012549 training Methods 0.000 claims abstract description 76
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000005065 mining Methods 0.000 claims description 20
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 5
- 238000010998 test method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R‑CNN的RPN(多层卷积神经网络),根据文字的特征信息,改变RPN中的anchor大小以及回归方式,并加入RNN网络层对图片上下文信息进行分析,构造一个能够有效地检测出文字的文字检测网络。另外,本发明采用聚类方法,设定anchor的大小。特别地,本发明使用困难样本挖掘进行级联训练,能够减少对于文字的误检率。在测试方面,本发明采用级联测试的方法,最终,准确高效的实现文字的定位。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于深度学习的自然场景下文字检测定位方法,能够准确定位自然场景下的文字。
背景技术
文字作为人类信息传播的载体,其中蕴含着丰富语义信息。自然场景下,文字也无处不在,例如交通指示牌,商店的广告牌,海报等等,有人工痕迹的地方,基本都有文字存在。从自然场景识别出文字对很多领域都有辅助性的帮助。例如,在图片搜索方面,识别图片中的文字有利于我们更好地对图片分类匹配;在无人驾驶方面,从自然场景中识别出交通指示牌以及其他标志里的文字信息可以辅助驾驶。自然场景下的文字识别在人工智能高速发展的今天,是一个不可或缺的重要发展部分。图像中的文字识别(Text Spotting)一般分为两个步骤,首先文字检测定位出图像中文字的位置,然后对定位出来的文字采用识别技术得到文字的信息内容。其中,文字检测从图片背景中定位出准确文字区域,在整个文字识别流程中占有重要地位。
自然场景下的文字检测与传统的文字检测技术[1.Mori,Shunji,C.Y.Suen,andK.Yamamoto."Historical review of OCR research and development."Proceedings ofthe IEEE 80.7(1992):1029-1058][2.Smith,R."An Overview of the Tesseract OCREngine."International Conference on Document Analysis and Recognition IEEEComputer Society,2007:629-633]不同,传统文字检测主要处理的是文档图像,如扫描文件,PDF等等。这类文档图像文字自身与背景有很大的不同,背景相对单一简单,文字格式(字体、颜色等)相对统一。因此,这类任务可以比较容易的将文字从简单背景中提取出来,然后在分割出的文字上使用传统的文字识别技术便能得到文字内容。这部分技术现已相对成熟。但是,自然场景中的图像是与文档图像有很大区别的。首先,背景复杂很多,它不是文档图像的纯色背景,自然场景中的图像充满着各种对于文字的干扰,比如,电线,窗户等人工痕迹的存在使文字很难从背景中提取出。其次,自然场景中的文字的字体,颜色,布局等有很大的多变性,这增大了我们定位的困难。另外,自然场景中的光照等噪点的存在,又一次提高了检测的难度。因此,自然场景中的文字检测是一个极具挑战的任务。
总体来看,自然场景文字检测的方法可以归为三类。第一类是基于连通组件的文字检测方法[3.Epshtein,Boris,E.Ofek,and Y.Wexler."Detecting text in naturalscenes with stroke width transform."Computer Vision and PatternRecognitionIEEE,2010:2963-2970.][4.Yin,X.C.,et al."Robust Text Detection inNatural Scene Images."IEEE Transactions on Pattern Analysis&MachineIntelligence 36.5(2014):970-83.]。对于自然场景的文字,由于像素灰度值近似,颜色近似相同,笔画宽度相似,因此文字的相邻像素直接表现出连通性。如最大稳定极值区域(MSER),颜色聚类方法(Color Clustering)、笔画宽度变换(SWT)、笔画特征变换(SFT)等方法。第二类是基于纹理特征的文字检测方法[5.Zhang,Jing,and R.Kasturi."TextDetection Using Edge Gradient and Graph Spectrum."International Conference onPattern Recognition IEEE,2010:3979-3982.][6.Li,Xiaojun,et al."Fast andeffective text detection."IEEE International Conference on Image ProcessingIEEE,2008:969-972.]。文字较其他背景区域具有不同的纹理特征,利用文字独有的纹理特征输入训练好的分类器中,可将文字从背景中提取出来。该方法较好的应对复杂自然场景中的文字检测问题。第三类是基于连通组件与纹理特征的文字检测的混合方法[7.Pan,Y.F.,X.Hou,and C.L.Liu."A hybrid approach to detect and localize texts innatural scene images."IEEE Transactions on Image Processing 20.3(2011):800-813.][8.Gonzalez,A,et al."Text location in complex images."InternationalConference on Pattern Recognition 2012:617-620]。这类方法先提取连通区域得到文字候选区域,再对候选区域进行纹理特征的检测,定位出文字。
随着深度学习领域的高速发展,利用深度学习获取文字的纹理特征进行检测是成为近年来比较流行的方法。文字检测定位可以归纳到图像中的物体检测(文字/非文字)任务上,Faster R-CNN[9.Ren,S.,et al."Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks."IEEE Transactions on PatternAnalysis&Machine Intelligence PP.99(2015):1-1.]等方法都是现在深度学习在图像中应用得很广的物体检测方法。但是文字和普通的物体还是有很大区别的,因此,针对文字的特征,设计出合理高效的文字检测方法存在很大的挑战。
发明内容
针对上述问题,本发明的目的是提出一种基于深度学习的自然场景下文字检测定位方法。基于Faster R-CNN的RPN(region proposal network,属于多层卷积神经网络),根据文字的特征信息,改变RPN中的anchor大小以及回归方式,并加入RNN网络层对图片上下文信息进行分析,构造一个能够有效地检测出文字的文字检测网络。另外,本发明采用聚类方法,设定anchor的大小。特别地,本发明使用困难样本挖掘进行级联训练,能够减少对于文字的误检率。在测试方面,本发明采用级联测试的方法,最终,准确高效的实现文字的定位。
为达上述目的,本发明采用的技术方案是:
一种基于深度学习的自然场景下文字检测定位方法,包括以下步骤:
1)网络生成及训练:
1-1)基于RPN网络,对测试图片设置条状anchor及回归方法,并引入RNN网络层,构造一个文字检测网络;
1-2)通过聚类计算确定anchor的高度;
1-3)对文字检测网络进行级联训练;
2)文字定位检测:
2-1)将测试图片输入文字检测网络,获得条形框形式的检测结果,对该检测结果做非极大值抑制,并从中挑选预测可能性score大于一设定阈值的条形框;
2-2)对挑选的条形框进行合并,构造出一文字框。
进一步地,步骤1-1)包括使用RPN网络提取特征,并根据RPN网络的stride大小,把anchor的大小设为固定宽,高度不一的长条形状,只对anchor的竖直方向进行回归;并对训练图片的水平方向上的信息进行双向上下文分析。
进一步地,步骤1-1)还包括分割训练图片中文字的表示训练样本的标注信息的标注框为固定宽度的条状标注框。
进一步地,步骤1-2)包括:由K-means算法对训练样本的高度进行聚类,得到k个聚类中心点的值,将其设为k个anchor的高。
进一步地,步骤1-3)中在进行级联训练训练过程中改变随机挑选正负样本,引入困难样本挖掘,包括:
首先,用随机正负样本把文字检测网络训练至收敛之后,把训练样本输入网络进行测试,得到训练样本的检测结果D1;
其次,进行困难负例挖掘,找出容易误判的负样本,并固定住输入网络的部分负样本为这类困难负例,基于之前的文字检测网络继续训练至收敛,再次把训练样本输入网络测试,得到训练样本的检测结果D2;
最后,进行困难正例挖掘,找出容易误判的正样本,并把困难正例作为优先填充的正样本输入网络,进行训练至收敛。
进一步地,步骤2-2)中,对于挑选的条形框进行合并时,将两两之间满足配对条件的条形框进行拼接得到文字框;配对条件为:条形框之间水平间距小于32像素且竖直方向上的交集大于70%。
进一步地,步骤2)进行文字定位检测还包括:
2-3)对测试图片进行级联检测。
进一步地,步骤2-3)中进行级联检测,将测试图片crop或缩小后继续放入文字检测网络中输出结果。
进一步地,步骤2-3)中进行级联检测过程中,首先,通过文字检测网络得到图片检测结果并构造出文字框;其次,计算文字框的高度与图片的高的比例μ,若μ小于一第一阀值则判断文字为小文字,若μ大于一第二阀值则判断文字为大文字;
若图片仅存在小文字,则crop出原图片中含有文字的最小区域,作为新图片输入网络进行第二次检测,得到最终结果;
若图片中只存在大文字,则缩小图片,输入缩小后的图片至网络进行第二次检测,得到最终结果;
若图片中大文字及小文字均不存在,则不进行第二次检测,以第一次检测结果为最终结果。
进一步地,步骤2-3)中第一阈值及第二阀值通过对训练集进行聚类分析得到。
综上所述,本发明设计了一个基于深度学习的自然场景下文字定位检测的方法,具有高精度高召回率的结果。与现有的技术相比,本发明的优点在于:
1.基于Faster R-CNN的RPN网络进行改进,构造了一个文本检测网络。
2.采用聚类训练样本的方法设置anchor大小(高度),使anchor能够方便地迁移到不同训练数据集中,有利于网络训练。
3.采用困难样本挖掘进行级联训练,可以利用不多的训练样本,得到高精度的测试结果。
4.级联测试法,利用模型测试得到的图片的文字信息,处理图片,提高网络对于大文字和小文字的检测的效果。
附图说明
图1为本发明一实施例中基于自然场景生成文字检测网络的架构图。
图2为本发明一实施例中基于自然场景的文字检测网络级联训练流程图。
图3为本发明一实施例中基于自然场景的文字检测网络级联测试流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
本发明提出的基于深度学习的自然场景下文字检测定位方法中,文字检测网络主要由RPN进行改进得来的,主要包括两个阶段,即网络生成及训练阶段及文字定位检测阶段。
在网络生成及训练阶段,
首先,基于RPN网络,对测试图片设置条状anchor及回归方法,并引入RNN网络层,构造一个文字检测网络;
借鉴Connectionist Text Proposal Network(CTPN)[10.Tian,Zhi,etal.Detecting Text in Natural Image with Connectionist Text ProposalNetwork.Computer Vision–ECCV 2016.Springer International Publishing,2016]思想,把文字行看成由固定宽度的条状区域组成,网络结构如图1所示。
首先,使用RPN例如VGG16网络提取特征,并根据本网络的stride大小,把anchor的大小设为固定宽(与stride一样,16像素),高度不一的长条形状。然后,只对anchor框的竖直方向进行回归,设置网络中的回归方程smoothL1的参数为2个y轴方向上的坐标。因此,网络最后输出固定宽度的连续的条状proposals,也就是组成文字行的条状区域。其次,在VGG16网络的最后一层conv5_3层,后面中加入RNN层(BLSTM),对图片的水平方向上的信息进行双向上下文分析,使网络更加可信。此外,还可分割训练图片中文字的表示训练样本的标注信息的标注框(ground truth,又称真值框)为宽度16像素的条状标注框,以便进行训练。
与RPN类似,该网络的使用两个Loss Function,第一个Lcls为Softmax Loss进行二分类(文字/非文字),第二个Lreg为Smooth L1loss对框的竖直方向进行回归。Loss方程为公式(1)所示
其中,i是批量样本的下标,si是第i个anchor的可能性,这是文字的预测值;是标签,其中0表示不是文字,1表示是文字;j是用来竖直回归的的正样本数目,vj代表的是预测框的竖直方向坐标,是正样本的竖直方向的坐标;Ncls是参与Lcls计算的anchor个数,而Nreg是参与Lreg计算的anchor个数。
通过聚类计算确定anchor的高度;
引入聚类方法,利用k-means算法训练样本得到聚类中心点作为anchor的高度,使anchor的大小有利于网络训练收敛。并且对于不同的训练样本,可以生成不同的anchor高度,anchor的大小具有迁移使用性。
由K-means算法对训练样本的高度进行聚类,得到k个聚类中心点的值设为k个anchor的高。其中K-means使用平方欧氏距离(squared Euclidean distance)进行计算。
与CTPN类似,对于Smooth L1loss中的参数由原来的4个坐标改为2个竖直方向坐标。参数
其中,是一个条状标注框的中心点的纵坐标,h*是条形标注框的高。类似的,和ha是anchor的中心点纵坐标和anchor的高。cy,h是网络预测出框的中心点的纵坐标和高。
然后,对文字检测网络进行级联训练,在训练过程中改变随机挑选正负样本的方法,引入困难样本挖掘(Hard Example Mining),其包括困难负例挖掘(Hard NegativeMining)和困难正例挖掘(Hard Positive Mining)。
级联训练步骤如图2所示,描述如下:首先,用随机正负样本把文字检测网络训练至收敛之后,把训练样本输入网络进行测试,得到训练样本的检测结果D1;其次,进行困难负例挖掘,找出容易误判的负样本,并固定住输入网络的部分负样本(如20%)为这类困难负例,基于之前的文字检测网络继续训练至收敛,再次把训练样本输入网络测试,得到训练样本的检测结果D2;最后,进行困难正例挖掘,找出容易误判的正样本,并把困难正例作为优先填充的正样本输入网络,进行训练至收敛,得到最后的文字检测网络模型。
在文字定位检测阶段:
将测试图片输入文字检测网络,获得条形框形式的检测结果,对该检测结果做非极大值抑制(NMS),并从中挑选预测可能性score大于一设定阈值的条形框;测试图片输入之前,根据检测精度的需要调整图片大小,由于此为常规手段,在此不再赘述。
对挑选的条形框进行合并,构造出一文字框。对于网络输出的条形框,两两之间满足配对条件的条形框进行拼接得到文字框。配对条件是:条形框之间a)水平间距小于32像素;b)竖直方向上的交集大于70%。
2-3)对测试图片进行级联检测。
在级联检测中,或crop图片或缩小图片继续放入文字检测网络中输出结果。
级联检测如图3所示,描述如下:首先,文字检测网络得到图片检测结果并构造出文字框;其次,计算文字框的高度与图片的高的比例μ,然后:
若图片仅存在小文字,则crop出原图片中含有文字的最小区域,作为新图片输入网络进行第二次检测,得到最终结果。
若图片中只存在大文字,则缩小图片至原图的0.5-0.7倍,输入缩小后的图片至网络进行第二次检测,得到最终结果。
若是其他情况,则不进行第二次检测,第一次检测结果为最终结果。
判断文字大小的阈值是由网络训练集进行聚类分析得到。使用K-means算法,对训练集中文字标注框的高度与图片高的比例进行聚类分成3类,得到3个聚类中心点(α1,α2,α3)(α由小到大排列),认为μ<α1是小文字,μ>α3是大文字。
为了验证本发明的实际的技术效果,通过具体实验实现前述实施例描述的自然场景文字检测方法,其测试环境及实验结果为:
(1)测试环境:
系统环境:ubuntu14.04;
硬件环境:内存:64GB,GPU:K40,硬盘:1TB;
(2)实验数据:
训练数据:
SynthText(人工合成文字图片)80万张训练数据进行预训练1epoch。
自然场景图片1095张(其中299张ICDAR2013训练集,793张自己搜集标注)
测试数据:ICDAR2013(233张)
评估方法:Deteval评估法(或ICDAR2015在线评估)
(3)实验结果:
为说明本发明的效果,首先用相同的数据集分别采用四种方法训练模型,并用相同的级联测试方法进行评估:
1、直接用Faster R-CNN进行训练。
2、使用文本检测网络,没有K-means聚类分析训练数据集设置anchor高度,没有困难样本挖掘的级联训练。
3、使用文本检测网络,使用K-means聚类分析训练数据集设置anchor高度,没有困难样本挖掘的级联训练。
4、使用文本检测网络,使用K-means聚类分析训练数据集设置anchor高度,使用困难样本挖掘的级联训练。
其次,用相同的训练方法和不同的测试方法进行评估:
5、使用文本检测网络,使用K-means聚类分析训练数据集设置anchor高度,使用困难样本挖掘的级联训练,不使用级联测试。
参数设置:
1、在本实例中,设k=10,经过聚类分析,10个anchor高度设置分别为(21,36,53,72,93,122,167,226,342,495)像素,宽统一为16像素;
2、参考RPN,训练测试时,均保持图片比例,调整图片大小至短边600像素,长边不超过1000像素输入网络。
3、测试时,计算文字框的高度与图片的高的比例μ,经过聚类分析训练样本,若μ<0.0637,认为该文字为小文字,μ>0.4304认为该文字为大文字。
4、测试时,对于只存在大文字的图片,缩小至短边400像素,长边不超过800像素,保持原图比例。
5、测试时,非极大值抑制的阈值是0.3,预测可能性score的阈值是0.7。
测试结果如下表所示:
从表中可以清楚的看到,本发明所涉及到的文本检测网络比Faster R-CNN网络精度和召回率有很大提升,并且K-means聚类分析训练数据集设置anchor高度,级联训练,级联测试的方法在精度上比单纯的文本检测网络精度得到进一步提升。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于深度学习的自然场景下文字检测定位方法,包括以下步骤:
1)网络生成及训练:
1-1)基于RPN网络,对测试图片设置条状anchor及回归方法,并引入RNN网络层,构造一个文字检测网络;
1-2)通过聚类计算确定anchor的高度;
1-3)对文字检测网络进行级联训练;
2)文字定位检测:
2-1)将测试图片输入文字检测网络,获得条形框形式的检测结果,对该检测结果做非极大值抑制,并从中挑选预测可能性score大于一设定阈值的条形框;
2-2)对挑选的条形框进行合并,构造出一文字框。
2.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤1-1)包括使用RPN网络提取特征,并根据RPN网络的stride大小,把anchor的大小设为固定宽,高度不一的长条形状,只对anchor的竖直方向进行回归;并对训练图片的水平方向上的信息进行双向上下文分析。
3.如权利要求1或2所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤1-1)还包括分割训练图片中文字的表示训练样本的标注信息的标注框为固定宽度的条状标注框。
4.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤1-2)包括:由K-means算法对训练样本的高度进行聚类,得到k个聚类中心点的值,将其设为k个anchor的高。
5.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤1-3)中在进行级联训练训练过程中改变随机挑选正负样本,引入困难样本挖掘,包括:
首先,用随机正负样本把文字检测网络训练至收敛之后,把训练样本输入网络进行测试,得到训练样本的检测结果D1;
其次,进行困难负例挖掘,找出容易误判的负样本,并固定住输入网络的部分负样本为这类困难负例,基于之前的文字检测网络继续训练至收敛,再次把训练样本输入网络测试,得到训练样本的检测结果D2;
最后,进行困难正例挖掘,找出容易误判的正样本,并把困难正例作为优先填充的正样本输入网络,进行训练至收敛。
6.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤2-2)中,对于挑选的条形框进行合并时,将两两之间满足配对条件的条形框进行拼接得到文字框;配对条件为:条形框之间水平间距小于32像素且竖直方向上的交集大于70%。
7.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤2)进行文字定位检测还包括:
2-3)对测试图片进行级联检测。
8.如权利要求7所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤2-3)中进行级联检测,将测试图片crop或缩小后继续放入文字检测网络中输出结果。
9.如权利要求8所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤2-3)中进行级联检测过程中,首先,通过文字检测网络得到图片检测结果并构造出文字框;其次,计算文字框的高度与图片的高的比例μ,若μ小于一第一阀值则判断文字为小文字,若μ大于一第二阀值则判断文字为大文字;
若图片仅存在小文字,则crop出原图片中含有文字的最小区域,作为新图片输入网络进行第二次检测,得到最终结果;
若图片中只存在大文字,则缩小图片,输入缩小后的图片至网络进行第二次检测,得到最终结果;
若是其他情况,则不进行第二次检测,以第一次检测结果为最终结果。
10.如权利要求9所述的基于深度学习的自然场景下文字检测定位方法,其特征在于,步骤2-3)中第一阈值及第二阀值通过对训练集进行聚类分析得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710463101.6A CN107346420B (zh) | 2017-06-19 | 2017-06-19 | 一种基于深度学习的自然场景下文字检测定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710463101.6A CN107346420B (zh) | 2017-06-19 | 2017-06-19 | 一种基于深度学习的自然场景下文字检测定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107346420A true CN107346420A (zh) | 2017-11-14 |
CN107346420B CN107346420B (zh) | 2020-02-11 |
Family
ID=60254462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710463101.6A Expired - Fee Related CN107346420B (zh) | 2017-06-19 | 2017-06-19 | 一种基于深度学习的自然场景下文字检测定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107346420B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062547A (zh) * | 2017-12-13 | 2018-05-22 | 北京小米移动软件有限公司 | 文字检测方法及装置 |
CN108509885A (zh) * | 2018-03-26 | 2018-09-07 | 东南大学 | 一种高效的身份证照片筛选方法 |
CN108960229A (zh) * | 2018-04-23 | 2018-12-07 | 中国科学院信息工程研究所 | 一种面向多方向的文字检测方法和装置 |
CN109102844A (zh) * | 2018-08-24 | 2018-12-28 | 北京锐客科技有限公司 | 一种临床试验源数据自动校验方法 |
CN109117786A (zh) * | 2018-08-09 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的数据处理方法、装置及可读存储介质 |
CN109344824A (zh) * | 2018-09-21 | 2019-02-15 | 泰康保险集团股份有限公司 | 一种文本行区域检测方法、装置、介质和电子设备 |
CN109377474A (zh) * | 2018-09-17 | 2019-02-22 | 苏州大学 | 一种基于改进Faster R-CNN的黄斑定位方法 |
CN109670495A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种基于深度神经网络的长短文本检测的方法及系统 |
CN110135446A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 文本检测方法及计算机存储介质 |
CN110135346A (zh) * | 2019-05-16 | 2019-08-16 | 深圳市信联征信有限公司 | 基于深度学习的身份证自动识别方法及系统 |
CN110135426A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110211048A (zh) * | 2019-05-28 | 2019-09-06 | 湖北华中电力科技开发有限责任公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110399871A (zh) * | 2019-06-14 | 2019-11-01 | 华南理工大学 | 一种场景文本检测结果的评估方法 |
CN110598698A (zh) * | 2019-08-29 | 2019-12-20 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
CN110689010A (zh) * | 2019-09-27 | 2020-01-14 | 支付宝(杭州)信息技术有限公司 | 一种证件识别方法及装置 |
CN111046866A (zh) * | 2019-12-13 | 2020-04-21 | 哈尔滨工程大学 | 一种结合ctpn和svm的人民币冠字号区域检测方法 |
CN111414825A (zh) * | 2020-03-13 | 2020-07-14 | 玉林师范学院 | 一种安全帽佩戴检测方法 |
CN111461120A (zh) * | 2020-04-01 | 2020-07-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于区域的卷积神经网络物体表面缺陷检测方法 |
US11055557B2 (en) | 2018-04-05 | 2021-07-06 | Walmart Apollo, Llc | Automated extraction of product attributes from images |
CN113139539A (zh) * | 2021-03-16 | 2021-07-20 | 中国科学院信息工程研究所 | 渐近回归边界的任意形状场景文字检测方法及装置 |
CN113762237A (zh) * | 2021-04-26 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备及存储介质 |
CN113869311A (zh) * | 2021-09-28 | 2021-12-31 | 中通服创立信息科技有限责任公司 | 一种高识别率的光学字符识别方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210272013A1 (en) * | 2020-02-27 | 2021-09-02 | S&P Global | Concept modeling system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN105868689A (zh) * | 2016-02-16 | 2016-08-17 | 杭州景联文科技有限公司 | 一种基于级联卷积神经网络的人脸遮挡检测方法 |
CN106384112A (zh) * | 2016-09-08 | 2017-02-08 | 西安电子科技大学 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
-
2017
- 2017-06-19 CN CN201710463101.6A patent/CN107346420B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN105868689A (zh) * | 2016-02-16 | 2016-08-17 | 杭州景联文科技有限公司 | 一种基于级联卷积神经网络的人脸遮挡检测方法 |
CN106384112A (zh) * | 2016-09-08 | 2017-02-08 | 西安电子科技大学 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
Non-Patent Citations (5)
Title |
---|
ABHINAV SHRIVASTAVA 等: "Training Region-based Object Detectors with Online Hard Example Mining", 《ARXIV:1604.03540V1 [CS.CV]》 * |
JOSEPH REDMON 等: "YOLO9000:Better, Faster, Stronger", 《ARXIV:1612.08242V1 [CS.CV]》 * |
TONG HE 等: "Accurate Text Localization Convolutional Text Network in Natural Image with Cascaded Convolutional Text Network", 《ARXIV:1603.09423V1 [CS.CV]》 * |
ZHI TIAN 等: "Detecting Text in Natural Image with Connectionist Text Proposal Network", 《ARXIV:1609.03605V1 [CS.CV]》 * |
ZHUOYAO ZHONG 等: "DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images", 《ARXIV:1605.07314V1 [CS.CV]》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062547A (zh) * | 2017-12-13 | 2018-05-22 | 北京小米移动软件有限公司 | 文字检测方法及装置 |
CN108062547B (zh) * | 2017-12-13 | 2021-03-09 | 北京小米移动软件有限公司 | 文字检测方法及装置 |
CN110135446B (zh) * | 2018-02-09 | 2021-01-22 | 北京世纪好未来教育科技有限公司 | 文本检测方法及计算机存储介质 |
CN110135426A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110135446A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 文本检测方法及计算机存储介质 |
CN108509885A (zh) * | 2018-03-26 | 2018-09-07 | 东南大学 | 一种高效的身份证照片筛选方法 |
US11055557B2 (en) | 2018-04-05 | 2021-07-06 | Walmart Apollo, Llc | Automated extraction of product attributes from images |
CN108960229B (zh) * | 2018-04-23 | 2022-04-01 | 中国科学院信息工程研究所 | 一种面向多方向的文字检测方法和装置 |
CN108960229A (zh) * | 2018-04-23 | 2018-12-07 | 中国科学院信息工程研究所 | 一种面向多方向的文字检测方法和装置 |
CN109117786A (zh) * | 2018-08-09 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的数据处理方法、装置及可读存储介质 |
CN109117786B (zh) * | 2018-08-09 | 2021-11-30 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的数据处理方法、装置及可读存储介质 |
CN109102844B (zh) * | 2018-08-24 | 2022-02-15 | 北京锐客科技有限公司 | 一种临床试验源数据自动校验方法 |
CN109102844A (zh) * | 2018-08-24 | 2018-12-28 | 北京锐客科技有限公司 | 一种临床试验源数据自动校验方法 |
CN109377474A (zh) * | 2018-09-17 | 2019-02-22 | 苏州大学 | 一种基于改进Faster R-CNN的黄斑定位方法 |
CN109377474B (zh) * | 2018-09-17 | 2021-06-15 | 苏州大学 | 一种基于改进Faster R-CNN的黄斑定位方法 |
CN109344824B (zh) * | 2018-09-21 | 2022-06-10 | 泰康保险集团股份有限公司 | 一种文本行区域检测方法、装置、介质和电子设备 |
CN109344824A (zh) * | 2018-09-21 | 2019-02-15 | 泰康保险集团股份有限公司 | 一种文本行区域检测方法、装置、介质和电子设备 |
CN109670495A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种基于深度神经网络的长短文本检测的方法及系统 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110135346A (zh) * | 2019-05-16 | 2019-08-16 | 深圳市信联征信有限公司 | 基于深度学习的身份证自动识别方法及系统 |
CN110211048B (zh) * | 2019-05-28 | 2020-06-16 | 国家电网有限公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110211048A (zh) * | 2019-05-28 | 2019-09-06 | 湖北华中电力科技开发有限责任公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110399871A (zh) * | 2019-06-14 | 2019-11-01 | 华南理工大学 | 一种场景文本检测结果的评估方法 |
CN110598698A (zh) * | 2019-08-29 | 2019-12-20 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
CN110598698B (zh) * | 2019-08-29 | 2022-02-15 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
CN110689010A (zh) * | 2019-09-27 | 2020-01-14 | 支付宝(杭州)信息技术有限公司 | 一种证件识别方法及装置 |
CN110689010B (zh) * | 2019-09-27 | 2021-05-11 | 支付宝(杭州)信息技术有限公司 | 一种证件识别方法及装置 |
CN111046866B (zh) * | 2019-12-13 | 2023-04-18 | 哈尔滨工程大学 | 一种结合ctpn和svm的人民币冠字号区域检测方法 |
CN111046866A (zh) * | 2019-12-13 | 2020-04-21 | 哈尔滨工程大学 | 一种结合ctpn和svm的人民币冠字号区域检测方法 |
CN111414825A (zh) * | 2020-03-13 | 2020-07-14 | 玉林师范学院 | 一种安全帽佩戴检测方法 |
CN111414825B (zh) * | 2020-03-13 | 2023-09-08 | 玉林师范学院 | 一种安全帽佩戴检测方法 |
CN111461120A (zh) * | 2020-04-01 | 2020-07-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于区域的卷积神经网络物体表面缺陷检测方法 |
CN113139539A (zh) * | 2021-03-16 | 2021-07-20 | 中国科学院信息工程研究所 | 渐近回归边界的任意形状场景文字检测方法及装置 |
CN113762237A (zh) * | 2021-04-26 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备及存储介质 |
CN113762237B (zh) * | 2021-04-26 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备及存储介质 |
CN113869311A (zh) * | 2021-09-28 | 2021-12-31 | 中通服创立信息科技有限责任公司 | 一种高识别率的光学字符识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107346420B (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107346420B (zh) | 一种基于深度学习的自然场景下文字检测定位方法 | |
Liao et al. | Rotation-sensitive regression for oriented scene text detection | |
CN111860348A (zh) | 基于深度学习的弱监督电力图纸ocr识别方法 | |
Neumann et al. | Efficient scene text localization and recognition with local character refinement | |
CN104809481B (zh) | 一种基于自适应色彩聚类的自然场景文本检测方法 | |
Tang et al. | Scene text detection using superpixel-based stroke feature transform and deep learning based region classification | |
Zhong et al. | Improved localization accuracy by LocNet for Faster R-CNN based text detection in natural scene images | |
Zhang et al. | Text detection in natural scene images based on color prior guided MSER | |
CN107103326A (zh) | 基于超像素聚类的协同显著性检测方法 | |
Zheng et al. | A cascaded method for text detection in natural scene images | |
EP3734496A1 (en) | Image analysis method and apparatus, and electronic device and readable storage medium | |
CN106504255A (zh) | 一种基于多标签多示例学习的多目标图像联合分割方法 | |
CN108154151B (zh) | 一种快速多方向文本行检测方法 | |
Tian et al. | Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering | |
CN109635808B (zh) | 一种在自然场景图像中对中文关键词及上下文的提取方法 | |
Shivakumara et al. | New gradient-spatial-structural features for video script identification | |
CN107357834A (zh) | 一种基于视觉显著性融合的图像检索方法 | |
Lou et al. | Smoke root detection from video sequences based on multi-feature fusion | |
Seeri et al. | A novel approach for Kannada text extraction | |
Zhang et al. | A novel approach for binarization of overlay text | |
Fan et al. | A robust proposal generation method for text lines in natural scene images | |
CN116778241A (zh) | 一种基于多模态融合与度量学习的logo识别方法 | |
Kumar et al. | An efficient algorithm for text localization and extraction in complex video text images | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
Wang et al. | Text line detection from rectangle traffic panels of natural scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |