CN105005764A - 自然场景多方向文本检测方法 - Google Patents
自然场景多方向文本检测方法 Download PDFInfo
- Publication number
- CN105005764A CN105005764A CN201510369488.XA CN201510369488A CN105005764A CN 105005764 A CN105005764 A CN 105005764A CN 201510369488 A CN201510369488 A CN 201510369488A CN 105005764 A CN105005764 A CN 105005764A
- Authority
- CN
- China
- Prior art keywords
- text
- region
- line
- character
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 49
- 238000007637 random forest analysis Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 23
- 238000013138 pruning Methods 0.000 claims description 15
- 238000003066 decision tree Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 239000004615 ingredient Substances 0.000 abstract 1
- 238000013461 design Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000012141 concentrate Substances 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供自然场景多方向文本检测方法,具体步骤如下:步骤一、边界提升MSER区域提取;在原始MSER算法得到的稳定极值区域成分树上递归的对存在父亲-独子关系且面积变化ΔS不超过的第一阈值的两个区域,依据边界吻合度公式,对其中边界吻合度小的区域进行剔除;步骤二、字符分检树区域分拣;步骤三、字符多层融合形成文本行;对步骤二最终得到分拣出的字符区域集合进行多层融合,依次为膨胀融合层、自由生长层、双射生长层、竞争层,最终生成文本行。
Description
技术领域
本发明涉及模式识别、图像处理、人工智能相关技术,属于计算机视觉领域。
背景技术
自然场景中文本检测因受到语种、尺度、字体、光照、对比度、视角、方向、背景、残缺、模糊、断裂等诸多因素的干扰,检测精度无法达到较高水平。时至今日自然场景中的文本检测仍然没有得到很好的解决,当前的研究主要针对水平方向英文文本的检测,多方向混合语种的检测技术相对滞后,很多检测方法将字符为水平方向作为先验知识,因此在多方向上的文本检测效果不理想(如[1],[2],[5]),同样一些检测方法将语种限制在英文字符上,训练的参数化分类器仅记忆了英文字符的特征,因此在多语言库上的检测结果率较低(如[3],[5],[6])。当前的检测方法主要分为基于窗口和基于连通域两大类。
基于窗口的方法提取滑动窗口的纹理、变换域、边界梯度等特征设计分类器进行文字窗口和非文字窗口的识别(如[8]),也有学者直接将窗口图像作为输入设计深度神经网络进行识别。这类方法能够抓住文字图像高层特征,但计算代价过大,特征的设计非常困难。
基于连通域的方法依据图像边界、灰度、颜色等信息获得图像中的区域,然后提取区域的笔画宽度、长宽比、占位比、灰度、颜色、边界等特征设计分类器进行字符区域与非字符区域的识别(如[1],[3]),同样很多学者也将整个区域作为卷积神经网络的输入进行训练与识别。该类方法虽然计算速度得到很大提升,但存在误连接、干扰大、虚警高、不具鲁棒性等缺点。
检测后期需要完成字符区域的连接与文本行生成,字符的连接方法主要分为两大类,一类是基于启发规则的生长方法(如[2]),另一类是基于学习的聚合方法(如[1])。基于启发规则的生长方法通过人为设定生长的控制参数逐渐融合最终生成文本行。而基于学习的方法通过对训练数据集的学习确定字符聚合的控制参数。基于规则的方法对组合型文字或区域断裂较为敏感,而基于学习的方法则对训练集依赖性强,训练集外表现较差。
参考文献
[1]X.C.Yin,X.W.Yin,K.Z.Huang and H.W.Hao.自然场景鲁棒性文本检测[J].onIEEE Trans.PAMI,2013.pp.970–983.
[2]Weilin Huang,Zhe Lin,Jianchao Yang.基于笔画宽度与文本协方差描述的自然场景文本定位[J].Computer Vision(ICCV),on 2013 IEEE International Conference pp.1241-1248.
[3]Lei Sun,Qiang Huo,Wei Jia,Kai Chen.基于彩色对比度提升与神经网络的自然场景文本检测[J].Pattern Recognition(ICPR),2014 22nd International Conferenceon IEEE,2014,pp.2715–2720.
[4]Le Kang,Yi Li,Doermann D.自然场景多方向文本行检测[J].Computer Vision andPattern Recognition,2014 IEEE Conference on pp.4034–4041.
[5]Epshtein B.,Ofek E.,WexlerY.Detecting text in natural scenes with stroke widthtransform[J].Computer Vision and Pattern Recognition(CVPR),2010 IEEE Conferenceon,pp.2963-2970.
[6]Cong Yao,Xiang Bai,Wenyu Liu,Yi Ma,Zhuowen Tu.自然场景任意方向文本检测[J].inCVPR’12,2012,pp.1083–1090.
[7]Le Kang,Yi Li,Doermann D.自然场景鲁棒性多方向文本检测Images[J].ComputerVision and Pattern Recognition,2014 IEEE Conference on pp.4034–4041.
[8]Xiaoqing Liu,Samarabandu,J.基于多尺度边界的复杂图像文本提取[J].2006IEEE International Conference on pp.1721–1724
发明内容
本发明目的:本发明实现自然场景中多方向及混合语种的文本提取。为基于图像文字的应用如:图像检索、场景文字实时翻译、车牌检测、教学习题检索、快速笔记、文档快速数字化、产品相关信息获取、商店相关信息获取、流水线产品合格性检测等提供必要条件;首先使用提出的边界提升最大稳定极值区域(MSER)算法,获得相比原始MSER算法更少的区域。然后依据设计的含有多个分类器的字符分拣树对区域进行层层分拣,剔除绝大部分非字符区域。接着使用提出的多层融合的聚合算法逐层对候选字符进行融合生成文本行,最后使用随机森林分类器对文本行进行验证。
本发明的技术方案是:自然场景多方向文本检测方法,具体步骤如下:
步骤一、边界提升MSER区域提取;
在原始MSER算法得到的稳定极值区域成分树上递归的对存在父亲-独子关系且面积变化ΔS不超过的第一阈值的两个区域,依据边界吻合度公式,对其中边界吻合度小的区域进行剔除;所述边界吻合度公式为:
其中:N为区域边界点个数,R(xi,yi)为区域某边界点,E(x,y)为在原始MSER算法上采用Canny边缘检测算子之后得到的Canny边界点集,||·||表示向量的长度运算;
步骤二、字符分检树区域分拣;
经步骤一中边界提升MSER区域提取后的区域集合,首先经过决策树分类器将区域分为字符区域和非字符区域,非字符区域被直接剔除,字符区域依据边界面积比被分成两部分,其中边界面积比大于第二阈值的区域集合被送入第一随机森林分类器,边界面积比不大于第二阈值的区域集合被送入第二随机森林分类器,两个随机森林分类器识别出的非字符区域都将被剔除,而保留下来的区域经过剪枝分类器进行分类,最终得到分拣出的字符区域集合;
步骤三、字符多层融合形成文本行;
对步骤二最终得到分拣出的字符区域集合进行多层融合,依次为膨胀融合层、自由生长层、双射生长层、竞争层,最终生成文本行;
步骤四、文本行验证。
进一步的,步骤三中所述的膨胀融合层、自由生长层、双射生长层、竞争层,具体融合过程如下:
首先,膨胀融合层针对步骤二最终得到分拣出的字符区域中的残缺、破损和组合型字符进行补偿,对区域最小外接矩进行一定的膨胀后,判断区域与邻域外接矩的空间关系,如果重叠则认为两个区域能够融合;该膨胀过程以某区域为起始点,通过维护一个队列实现广度优先的搜索过程,直到融合过程无法进行,再以另一个未融合区域为起点进行同样的过程,直到所有区域都计算过或被融合;
自由生长层的算法通过遍历以根区域为起点的最大深度为4的邻域树,寻找所有可行的文本行生长核,为双射生长层提供方向更加可信的文本行生长核;
双射生长层是从文本行生长核出发,沿着文本行方向延展其外接矩形框,遍历当前文本行生长核的所有邻域,当延展的外接矩形框与邻域交叠并且面积达到一定的阈值或邻域中心位于文本行上下边界之间,则对邻域进行融合形成新的文本行,融合后判断外接矩形的变化,如果方向和尺寸变化过大则此次融合无效,递归的进行这个过程直到无法再融合邻域;
双射生长层对自由生长层得到的所有的文本行生长核进行生长,最终都生成了包含根区域的文本行,竞争层对每一个根区域对应的若干个文本行进行训练得到多个文本行随机森林分类器,取文本行在随机森林分类器中得分最高的一个作为每个根区域对应的最佳文本行;因为多个最佳文本行之间存在着重叠或嵌套,竞争层让包含相同区域的最佳文本行进行训练得到最佳文本行随机森林分类器,取最佳文本行在随机森林分类器中得分最高的一个,作为最终获得的最优的文本行。
进一步的,步骤四所述文本行验证,具体步骤如下:选取随机森林作为文本行验证的分类器,选取文本行内区域个数、文本行外接矩长宽比、区域RGB标准差、灰度标准差、轴方向标准差、间隔标准差、高度标准差、笔画宽度标准差10个特征,用生成的文本行数据集在随机森林分类器中进行训练最终得到验证后的文本行。
进一步的,步骤一中所述第一阈值为50%。
进一步的,步骤一中边界吻合度公式在求解过程中对区域进行开窗,然后进行距离变换在O(n)时间内完成边界吻合度的计算。
进一步的,步骤二中所述第二阈值为0.5。
进一步的,步骤二中所述剪枝分类器中判定保留父亲节点还是孩子节点的依据为:根据第一随机森林分类器和第二随机森林分类器得到的字符置信度得分与该区域1/RA值的加权和,保留两者中加权和较大者剔除较小者;其中:RA表示区域协方差椭圆长轴和短轴之比。
进一步的,步骤二中所述第一随机森林分类器的字符置信度得分阈值为0.28,第二随机森林分类器的字符置信度得分阈值为0.36。
本发明的有益效果:原始MSER算法以极值区域面积变化达到极小值的区域作为最大稳定极值区域,然而图像边界一般较为模糊,使得图像边界附近产生多个嵌套的稳定极值区域。Canny边缘检测算子采用非极大值抑制技术,有效的抑制了虚假边界,将其产生的边界叠加到区域中,可以发现Canny边界能辅助选择出最佳区域,从而剔除“虚假”的稳定区域。且提出的边界提升MSER算法获得的区域个数相比原始算法减少35%以上。设计的字符分拣树,经过分拣,约91%的非字符区域被剔除,同时字符区域流失率仅为2%。提出的多层融合聚合算法对组合型字符以及字符断裂、残缺有较强的适应性。最终使用随机森林分类器对文本行进行验证,在ICDAR2003和MSRA-TD500数据集上测试的综合性能分别为0.73和0.70。
第一随机森林分类器和第二随机森林分类器的不同之处在于第一随机森林分类器使用的训练数据集中区域的边界面积比都大于0.5,而第二随机森林分类器的训练数据集中区域的边界面积比都小于等于0.5。这样做的主要目的是对特征空间中字符所在空间做进一步的划分,这种分治策略使得划分后的空间范围缩小,空间内的可分性增强,分类器更易达到较优的分类效果。
附图说明
图1:多方向文本检测流程图;
图2(a):Canny边界与区域叠加图;
图2(b):边界提升MSER图;
图3:字符分拣树结构图(分类器1为决策树分类器,分类器2和3为随机森林分类器,分类器4为基于成分树的剪枝分类器);
图4基于成分树线性修剪和堆修剪的示意图;(a)为原始成分树、(b)为线性修剪后的成分树、(c)为堆修剪后的成分树;
图5:多层融合算法示意图;(a)为膨胀融合层处理效果图、(b)为自由生长层原理图、(c)为双射生长层效果图、(d)为竞争层效果图。
具体实施方式
下面结合附图表对本发明的原理作具体的说明:
1、边界提升MSER区域提取
原始MSER算法以极值区域面积变化达到极小值的区域作为最大稳定极值区域,然而图像边界一般较为模糊,使得图像边界附近产生多个嵌套的稳定极值区域。Canny边缘检测算子采用非极大值抑制技术,有效的抑制了虚假边界,将其产生的边界叠加到区域中,可以发现Canny边界能辅助选择出最佳区域,从而剔除“虚假”的稳定区域如图2(a)所示。
边界提升MSER算法,在原始MSER算法得到的稳定极值区域成分树上递归的对存在父亲-独子关系且面积变化ΔS不超过50%的两个区域,依据边界吻合度公式(1),对其中边界吻合度小的区域进行剔除。
其中N为区域边界点个数,R(xi,yi)为区域某边界点,E(x,y)为在原始MSER算法上采用Canny边缘检测算子之后的Canny边界点集,||·||表示向量的长度运算。实际的求解过程可以对区域进行开窗,然后进行距离变换在O(n)时间内完成边界吻合度的计算。所述对区域进行开窗是因为要计算区域边界点集到canny边界点集的距离,而canny边界点集整个图像都有,若区域边界上每个点都要计算和canny边界点集之间最近的距离,就比较耗时,而实际我们只需计算与区域附近的canny边界点集的距离即可,开窗就是只取出canny变换后图像中区域附近部分的图像(也就是取出区域附近的canny边界点集)。所述距离变换是指变换前图像上每个位置都是0或1,就是二值图像,变换后每个位置上的数值等于该位置与最近的0的距离。所述O(n)表示算法复杂度的上界,表示算法随输入的规模增大,最坏情况下耗时是线性增长的。
边界提升MSER算法提取的稳定极值区域如图2(b)所示,相比原始的MSER算法,不仅有效抑制了区域的嵌套重叠,而且在嵌套区域中保留了与人类视觉更为接近的稳定区域。与原始MSER算法相比提取区域个数约减少35%,具体性能见表1。
表1边界提升MSER算法性能表
2、字符分检树区域分拣
鉴于字符与非字符区域的复杂性,本发明设计了一棵字符分拣树对字符区域进行分拣,分检树的每个节点都表示一个区域集合。父子节点之间都包含着一个简单或复杂的分类器,其结构如图3所示。
区域集合首先经过分类器1(决策树分类器)将区域分为字符区域和非字符区域,非字符区域被直接剔除,字符区域依据边界面积比被分成两部分,其中边界面积比大于0.5的区域集合被送入分类器2(随机森林分类器),边界面积比不大于0.5的区域集合被送入分类器3(随机森林分类器),两个分类器识别出的非字符区域都将被剔除,而保留下来的区域将经过分类器4(剪枝分类器)进行分类,最终得到分拣出的字符区域集合。
1)决策树分类器
分类器1是包含一系列启发规则的决策树,区域集合在每个规则下不断的分裂成字符区域和非字符区域。与数据驱动的决策树不同,本发明构造决策树选择属性的优先顺序是人为设定的,并且每个节点的分割阈值是由实验获取。因此该决策树完全由人类先验知识决定,为了使得启发式规则尽可能适应多语种和样式的字符,分割阈值将偏向非字符区域。规则的定义与阈值的设定如表2所示。
表2启发规则与字符范围表
其中a,b分别表示区域协方差椭圆长轴和短轴,Sr表示区域位于协方差椭圆内的面积,Se表示区域协方差椭圆面积,E表示边界数,boxS表示区域最小外接矩形面积,S表示区域面积,Es表示区域未被2*2卷积模板覆盖的面积,R表示区域距离变换最大值。
2)随机森林分类器
分类器2和3都是随机森林分类器,两个分类器训练所需的区域集合都经过分类器1的过滤,从而有效的剔除较为明显的非字符区域,缩小待分类区域样本的空间范围,使分类器在特征空间的某超矩内集中搜索超分类面,达到更好的分类效果。分类器2和3的不同之处在于分类器2使用的训练数据集中区域的边界面积比都大于0.5,而分类器3的训练数据集中区域的边界面积比都小于等于0.5。这样做的主要目的是对特征空间中字符所在空间做进一步的划分,这种分治策略使得划分后的空间范围缩小,空间内的可分性增强,分类器更易达到较优的分类效果。
产生区域集合后,就需要进行特征的选取,特征的有效性将直接影响分类效果,然而遗憾的是目前还不存在能够反映字符本质的特征。同时考虑到字符的多方向问题,使得特征必须具有旋转不变性,为此从区域的颜色、形状、对比度、空间分布四个方面设计了22个旋转不变特征。具体特征如下:
◆颜色特征:选取区域在RGB与HSI颜色空间中六个通道的标准差形成区域颜色信息的描述。
◆形状特征:选取区域的长宽比、饱和度形成区域形状信息的描述。
◆空间分布特征:选取区域边界面积比、笔宽标准差与区域最小外接矩短边之比、笔宽面积比例向量(按区域中笔宽大于最大笔宽0.1,0.2…0.9倍的面积与总面积的百分比形成的向量)形成区域空间分布信息的描述。
◆对比度特征:选取区域窗内背景与区域在HSI三个通道上均值的差值形成对比度信息的描述。
完成特征的设计后,就可以从区域集合产生特征数据集,进而使用随机森林算法进行训练,训练的过程是从数据集中有放回的抽取与数据集个数相同的训练样本集。在生成决策树的过程中随机抽取特征集合中的部分特征组成特征子空间,并依据训练数据在特征子空间中生成决策树,因此克服了单棵决策树出现的过拟合现象,且不需要复杂的剪枝过程,对噪声和异常值的也有较好的容忍性。
表3 RF(随机森林分类器)得分阈值与分类准确度关系表
3)基于成分树的剪枝分类器
分类器4是基于成分树的剪枝分类器,包含基于成分树的线性修剪策略和堆修剪策略,修剪掉的区域被视为非字符区域进行剔除,保留的区域视为最终字符区域。分类器4对区域存在的嵌套问题进行解决,修剪过程如图4所示,具体的修剪算法流程可参考文献[1],不同之处在于判定保留父亲节点还是孩子节点的依据不再是区域的长宽比特征,而是由分类器2和3得到的字符置信度得分与该区域1/RA值的加权和,保留两者中加权和较大者剔除较小者。此处置信度得分就是投票得分,投票得分是由随机森林分类器产生的(分类器2和3都是随机森林分类器)。对于每个样本(也就是区域)都会产生一个投票得分,得分越大证明越可能是字符区域,那么判断大到什么时候才是字符就需要一个投票得分阈值Δ,通常取0.5,但是为了尽可能的保留字符区域,可以将这个阈值设置的低些,表3中每个分类器有2个得分是进行一个比较,比较不同阈值时的分类性能,从而指导阈值选取的更加合理。最终采用了分类器2阈值选取了0.28,分类器3阈值选取了0.36。
3、字符多层融合形成文本行
多层融合的聚合方法中,字符在不同层,依据不同的准则进行融合、生长、竞争最终生成文本行。多层融合的字符聚合算法主要由如下四层融合过程组成,如图5所示。
1)膨胀融合层
膨胀融合层针对区域残缺、破损和组合型字符进行补偿,对区域最小外接矩进行一定的膨胀后,判断区域与邻域外接矩的空间关系,如果重叠则认为两个区域可以融合。该膨胀过程以某区域为起始点,通过维护一个队列实现广度优先的搜索过程,直到融合过程无法进行,再以另一个未融合区域为起点进行同样的过程,直到所有区域都计算过或被融合,融合过程如图5(a)所示。其中图左侧为膨胀融合前的区域,一个单词或者文字由若干个不通区域组成;右侧为膨胀融合后的区域,相邻较近的区域融合成一个区域形成了完整的单词或汉字。
2)自由生长层
自由生长层用于解决融合初期文本行方向容易受到干扰的问题,算法通过遍历以根区域为起点的最大深度为4的邻域树,寻找所有可行的文本行核,为双射生长层提供方向更加可信的文本行生长核。具体做法是从某区域出发递归的连接邻域,当深度达到3后使用剪枝技术对不太可能的文本行核进行修剪,递归深度达到4后返回。算法原理如图5(b)所示。其中节点都表示膨胀融合层形成的一个区域,节点蕴含的文本行核由根节点到该节点路径上经过的所有节点区域连接组成,虚线空心节点表示该节点蕴含的文本行核被修剪,实线空心节点表示该节点蕴含的是一个包含根节点的可行文本行核。
3)双射生长层
自由生长层得到文本行生长核后,就需要在文本行方向上进行双向的生长,最终获得完整的文本行,这样可以有效减少搜索方向的盲目性提高搜索效率。具体做法是从文本行核出发,沿着文本行方向延展其外接矩形框,遍历当前文本行核的所有邻域,当延展的外接矩形框与邻域交叠并且面积达到一定的阈值或邻域中心位于文本行上下边界之间,则对邻域进行融合形成新的文本行,融合后判断外接矩形的变化,如果方向和尺寸变化过大(阈值分别为10度和1.2倍)则此次融合无效。递归的进行这个过程直到无法再融合邻域,双射生长原理如图5(c)所示。其中实线框为文本核外接矩形框,虚线框为文本行方向拓展后的矩形框。
4)竞争层
双射生长层对自由生长层得到的生长核进行生长,最终都生成了包含根区域的文本行,而通常一个区域仅属于一个文本行,因此需要从这些文本行中选出最佳的一个,本发明通过训练得到文本行随机森林分类器,取文本行在分类器中得分最高的一个。同样在得到以每个区域为根区域的最佳文本行后,这些最佳文本行也存在着重叠或嵌套,使用同样的方法,让包含相同区域的最佳文本行依据分类器上的得分进行竞争,最终获得最优的文本行如图5(d),基于随机森林的文本行分类器将在文本行验证中详细介绍。
4、文本行验证
多层融合的聚合算法将单独的区域连接生成文本行,但这些生成的文本行中也存在未被剔除的非字符区域生成的文本行,因此需要依据有效的特征对文本行进行验证。本发明选取随机森林作为文本行验证的分类器,选取文本行内区域个数、文本行外接矩长宽比、区域RGB标准差、灰度标准差、轴方向标准差、间隔标准差、高度标准差、笔画宽度标准差等10个特征,用生成的文本行数据集在RF中进行训练最终得到验证后的文本行。
表4 ICDAR2003数据集测试结果对比
ICDAR2003数据集是公开的水平方向英文文本数据集,其中包含两部分,一部分用于训练,一部分用于测试,每部分都有约200张图片,以及其中文字的文本行位置文档信息。表4是在数据集ICDAR2003上测试的结果,主要有三个公认的指标,表的内容是与其他的方法在这三个指标上的对比。由表4可知,采用本发明方法得到的测试结果的准确度和综合性能均最高。
表5 MSRA-TD500数据集测试结果对比
MSRA-TD500是公开的多方向中英文混合的数据集。其中包含两部分,一部分用于训练,一部分用于测试,每部分都有200张图片,以及其中文字的文本行位置文档信息。表5,是在该数据集上,本发明的方法,与当前较优的方法的对比。由表5可知,采用本发明方法得到的测试结果的准确度、召回率和综合性能均最高。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (8)
1.自然场景多方向文本检测方法,其特征在于:具体步骤如下:
步骤一、边界提升MSER区域提取;
在原始MSER算法得到的稳定极值区域成分树上递归的对存在父亲-独子关系且面积变化ΔS不超过的第一阈值的两个区域,依据边界吻合度公式,对其中边界吻合度小的区域进行剔除;所述边界吻合度公式为:
其中:N为区域边界点个数,R(xi,yi)为区域某边界点,E(x,y)为在原始MSER算法上采用Canny边缘检测算子之后得到的Canny边界点集,||·||表示向量的长度运算;
步骤二、字符分检树区域分拣;
经步骤一中边界提升MSER区域提取后的区域集合,首先经过决策树分类器将区域分为字符区域和非字符区域,非字符区域被直接剔除,字符区域依据边界面积比被分成两部分,其中边界面积比大于第二阈值的区域集合被送入第一随机森林分类器,边界面积比不大于第二阈值的区域集合被送入第二随机森林分类器,两个随机森林分类器识别出的非字符区域都将被剔除,而保留下来的区域经过剪枝分类器进行分类,最终得到分拣出的字符区域集合;
步骤三、字符多层融合形成文本行;
对步骤二最终得到分拣出的字符区域集合进行多层融合,依次为膨胀融合层、自由生长层、双射生长层、竞争层,最终生成文本行;
步骤四、文本行验证。
2.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤三中所述的膨胀融合层、自由生长层、双射生长层、竞争层,具体融合过程如下:
首先,膨胀融合层针对步骤二最终得到分拣出的字符区域中的残缺、破损和组合型字符进行补偿,对区域最小外接矩进行一定的膨胀后,判断区域与邻域外接矩的空间关系,如果重叠则认为两个区域能够融合;该膨胀过程以某区域为起始点,通过维护一个队列实现广度优先的搜索过程,直到融合过程无法进行,再以另一个未融合区域为起点进行同样的过程,直到所有区域都计算过或被融合;
自由生长层的算法通过遍历以根区域为起点的最大深度为4的邻域树,寻找所有可行的文本行生长核,为双射生长层提供方向更加可信的文本行生长核;
双射生长层是从文本行生长核出发,沿着文本行方向延展其外接矩形框,遍历当前文本行生长核的所有邻域,当延展的外接矩形框与邻域交叠并且面积达到一定的阈值或邻域中心位于文本行上下边界之间,则对邻域进行融合形成新的文本行,融合后判断外接矩形的变化,如果方向和尺寸变化过大则此次融合无效,递归的进行这个过程直到无法再融合邻域;
双射生长层对自由生长层得到的所有的文本行生长核进行生长,最终都生成了包含根区域的文本行,竞争层对每一个根区域对应的若干个文本行进行训练得到多个文本行随机森林分类器,取文本行在随机森林分类器中得分最高的一个作为每个根区域对应的最佳文本行;因为多个最佳文本行之间存在着重叠或嵌套,竞争层让包含相同区域的最佳文本行进行训练得到最佳文本行随机森林分类器,取最佳文本行在随机森林分类器中得分最高的一个,作为最终获得的最优的文本行。
3.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤四所述文本行验证,具体步骤如下:选取随机森林作为文本行验证的分类器,选取文本行内区域个数、文本行外接矩长宽比、区域RGB标准差、灰度标准差、轴方向标准差、间隔标准差、高度标准差、笔画宽度标准差10个特征,用生成的文本行数据集在随机森林分类器中进行训练最终得到验证后的文本行。
4.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤一中所述第一阈值为50%。
5.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤一中边界吻合度公式在求解过程中对区域进行开窗,然后进行距离变换在O(n)时间内完成边界吻合度的计算。
6.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤二中所述第二阈值为0.5。
7.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤二中所述剪枝分类器中判定保留父亲节点还是孩子节点的依据为:根据第一随机森林分类器和第二随机森林分类器得到的字符置信度得分与该区域1/RA值的加权和,保留两者中加权和较大者剔除较小者;其中:RA表示区域协方差椭圆长轴和短轴之比。
8.根据权利要求1所述的自然场景多方向文本检测方法,其特征在于:步骤二中所述第一随机森林分类器的字符置信度得分阈值为0.28,第二随机森林分类器的字符置信度得分阈值为0.36。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510369488.XA CN105005764B (zh) | 2015-06-29 | 2015-06-29 | 自然场景多方向文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510369488.XA CN105005764B (zh) | 2015-06-29 | 2015-06-29 | 自然场景多方向文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005764A true CN105005764A (zh) | 2015-10-28 |
CN105005764B CN105005764B (zh) | 2018-02-13 |
Family
ID=54378429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510369488.XA Expired - Fee Related CN105005764B (zh) | 2015-06-29 | 2015-06-29 | 自然场景多方向文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005764B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631426A (zh) * | 2015-12-29 | 2016-06-01 | 中国科学院深圳先进技术研究院 | 对图片进行文本检测的方法及装置 |
CN105825216A (zh) * | 2016-03-17 | 2016-08-03 | 中国科学院信息工程研究所 | 一种复杂背景图像中的文本定位方法 |
CN106886994A (zh) * | 2017-02-08 | 2017-06-23 | 青岛大学 | 一种基于深度相机的人流量智能检测装置和检测方法 |
CN107403199A (zh) * | 2017-08-07 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置 |
CN107784316A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种图像识别方法、装置、系统和计算设备 |
WO2018145470A1 (zh) * | 2017-02-13 | 2018-08-16 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN109840520A (zh) * | 2017-11-24 | 2019-06-04 | 中国移动通信集团广东有限公司 | 一种发票关键信息识别方法及系统 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110147786A (zh) * | 2019-04-11 | 2019-08-20 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110287951A (zh) * | 2019-06-21 | 2019-09-27 | 北京百度网讯科技有限公司 | 一种文字识别的方法及装置 |
CN111027560A (zh) * | 2019-11-07 | 2020-04-17 | 浙江大华技术股份有限公司 | 文本检测方法以及相关装置 |
CN111144373A (zh) * | 2019-12-31 | 2020-05-12 | 广州市昊链信息科技股份有限公司 | 一种信息识别方法、装置、计算机设备和存储介质 |
CN117894030A (zh) * | 2024-01-18 | 2024-04-16 | 广州宏途数字科技有限公司 | 一种校园智慧纸笔的文本识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077389A (zh) * | 2013-01-07 | 2013-05-01 | 华中科技大学 | 一种结合字符级分类和字符串级分类的文本检测和识别方法 |
CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
CN103942797A (zh) * | 2014-04-24 | 2014-07-23 | 中国科学院信息工程研究所 | 基于直方图和超像素的场景图像文字检测方法及系统 |
-
2015
- 2015-06-29 CN CN201510369488.XA patent/CN105005764B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
CN103077389A (zh) * | 2013-01-07 | 2013-05-01 | 华中科技大学 | 一种结合字符级分类和字符串级分类的文本检测和识别方法 |
CN103942797A (zh) * | 2014-04-24 | 2014-07-23 | 中国科学院信息工程研究所 | 基于直方图和超像素的场景图像文字检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
许肖等: "复杂背景下文本检测研究", 《计算机技术与发展》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631426B (zh) * | 2015-12-29 | 2019-05-07 | 中国科学院深圳先进技术研究院 | 对图片进行文本检测的方法及装置 |
CN105631426A (zh) * | 2015-12-29 | 2016-06-01 | 中国科学院深圳先进技术研究院 | 对图片进行文本检测的方法及装置 |
CN105825216A (zh) * | 2016-03-17 | 2016-08-03 | 中国科学院信息工程研究所 | 一种复杂背景图像中的文本定位方法 |
CN107784316A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种图像识别方法、装置、系统和计算设备 |
CN106886994A (zh) * | 2017-02-08 | 2017-06-23 | 青岛大学 | 一种基于深度相机的人流量智能检测装置和检测方法 |
WO2018145470A1 (zh) * | 2017-02-13 | 2018-08-16 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN107403199B (zh) * | 2017-08-07 | 2021-02-26 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置 |
CN107403199A (zh) * | 2017-08-07 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置 |
CN109840520A (zh) * | 2017-11-24 | 2019-06-04 | 中国移动通信集团广东有限公司 | 一种发票关键信息识别方法及系统 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110147786A (zh) * | 2019-04-11 | 2019-08-20 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110287951A (zh) * | 2019-06-21 | 2019-09-27 | 北京百度网讯科技有限公司 | 一种文字识别的方法及装置 |
CN110287951B (zh) * | 2019-06-21 | 2022-04-12 | 北京百度网讯科技有限公司 | 一种文字识别的方法及装置 |
CN111027560A (zh) * | 2019-11-07 | 2020-04-17 | 浙江大华技术股份有限公司 | 文本检测方法以及相关装置 |
CN111144373A (zh) * | 2019-12-31 | 2020-05-12 | 广州市昊链信息科技股份有限公司 | 一种信息识别方法、装置、计算机设备和存储介质 |
CN111144373B (zh) * | 2019-12-31 | 2020-12-04 | 广州市昊链信息科技股份有限公司 | 一种信息识别方法、装置、计算机设备和存储介质 |
CN117894030A (zh) * | 2024-01-18 | 2024-04-16 | 广州宏途数字科技有限公司 | 一种校园智慧纸笔的文本识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105005764B (zh) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105005764A (zh) | 自然场景多方向文本检测方法 | |
Qi et al. | Making better use of edges via perceptual grouping | |
CN102609686B (zh) | 一种行人检测方法 | |
CN102184419B (zh) | 基于敏感部位检测的色情图像识别方法 | |
CN109359684A (zh) | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 | |
CN102054178B (zh) | 一种基于局部语义概念的国画图像识别方法 | |
CN110598690B (zh) | 一种端到端光学字符检测识别方法与系统 | |
CN106778835A (zh) | 融合场景信息和深度特征的遥感图像机场目标识别方法 | |
CN106778757A (zh) | 基于文本显著性的场景文本检测方法 | |
CN110210362A (zh) | 一种基于卷积神经网络的交通标志检测方法 | |
CN108009509A (zh) | 车辆目标检测方法 | |
CN108960266A (zh) | 图像目标检测方法及装置 | |
CN104463138B (zh) | 基于视觉结构属性的文本定位方法及系统 | |
CN104504362A (zh) | 基于卷积神经网络的人脸检测方法 | |
Behrisch et al. | Magnostics: Image-based search of interesting matrix views for guided network exploration | |
Gu et al. | Learning to boost filamentary structure segmentation | |
CN110298376A (zh) | 一种基于改进b-cnn的银行票据图像分类方法 | |
CN104281572B (zh) | 一种基于互信息的目标匹配方法及其系统 | |
CN107092884A (zh) | 一种快速粗精级联行人检测方法 | |
CN113963222A (zh) | 一种基于多策略组合的高分辨率遥感影像变化检测方法 | |
CN103679192A (zh) | 基于协方差特征的图像场景类型判别方法 | |
CN107818299A (zh) | 基于融合hog特征和深度信念网络的人脸识别算法 | |
CN107038442A (zh) | 一种基于深度学习的车牌检测和整体识别方法 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN106874421A (zh) | 基于自适应矩形窗口的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 210093 Nanjing University Science Park, 22 Hankou Road, Gulou District, Nanjing City, Jiangsu Province Patentee after: SOUTHEAST University Address before: 211189 No. 2 Southeast University Road, Jiangning District, Nanjing, Jiangsu Patentee before: Southeast University |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180213 |