CN108229397A - 基于Faster R-CNN的图像中文本检测方法 - Google Patents
基于Faster R-CNN的图像中文本检测方法 Download PDFInfo
- Publication number
- CN108229397A CN108229397A CN201810007385.2A CN201810007385A CN108229397A CN 108229397 A CN108229397 A CN 108229397A CN 201810007385 A CN201810007385 A CN 201810007385A CN 108229397 A CN108229397 A CN 108229397A
- Authority
- CN
- China
- Prior art keywords
- text
- text box
- image
- cnn
- faster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000007637 random forest analysis Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 230000001537 neural Effects 0.000 claims description 8
- 239000012141 concentrate Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 230000000875 corresponding Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000008425 Protein Deficiency Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Abstract
本发明公开了一种基于Faster R‑CNN的图像中文本检测方法,首先获取多幅已经标注文本框的图像对Faster R‑CNN模型进行训练;当需要进行文本检测的图像时,采用训练后的Faster R‑CNN模型粗定位出图像中的文本框;然后通过颜色相似度算法对图像中粗定位的文本框进行扩展;再者将重叠的文本框进行合并;最后提取出上述处理得到的各文本框的HOG特征、LBP特征和CNN特征,并且输入到训练后的随机森林模型中,通过训练后的随机森林模型进行验证,根据验证结果获取到图像中最终的文本框;本发明方法可以克服复杂背景下文本定位效果不甚理想的问题,提高了文本定位的准确率和召回率。
Description
技术领域
本发明属于图像文本分析领域,特别涉及一种基于Faster R-CNN的图像中文本检测方法。
背景技术
自然场景图像就是我们所处的生活环境,场景图像中包含了各种各样的视觉信息如颜色、形状、纹理及结构等相对底层的感知内容,这些底层特征的信息构成了场景内容的主要成分。文本信息是视觉信息中一种相对高层的语义内容,对视觉内容的理解和获取至关重要。自然场景中存在着大量文本信息,这些信息可以为场景理解提供极有价值的帮助,因此,研究一种自动化的文本信息识别工具,自动从自然场景图像中识别出文本内容,对场景图像的检索、分析及场景理解均有重要意义。
自然场景文本定位是文本提取和识别的一个重要步骤。自然场景中的文本图像与传统文档图像相比具有明显不同,表现在文本图像的颜色、亮度、对比度不一致;文本所在的背景复杂多变;文本图像存在变形、残缺、模糊现象;图像中可能包括强烈的噪声干扰等。这些因素给自然场景图像中文本的精确定位带来了诸多挑战。目前而言,在文本定位中,一方面文本定位数据库样本有限,另一方面仅有部分对手写汉字的研究或者是特殊环境下的定位研究,因此提出一种可行的文本检测方法具有更大的挑战。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于FasterR-CNN的图像中文本检测方法,该方法可以克服复杂背景下文本定位效果不甚理想的问题,提高了文本定位的准确率和召回率。
本发明的目的通过下述技术方案实现:一种基于Faster R-CNN的图像中文本检测方法,步骤如下:
步骤S1,获取多幅已经标注文本框的图像构成训练样本集,通过训练样本集对Faster R-CNN模型进行训练得到训练后的Faster R-CNN模型;
步骤S2、在获取到需要进行文本检测的图像后,首先采用上述训练后的Faster R-CNN模型粗定位出图像中的文本框;
步骤S3、通过颜色相似度算法对图像中粗定位的文本框进行扩展;
步骤S4、针对步骤S3扩展后得到的文本框,将重叠的文本框进行合并;
步骤S5、提取步骤S4处理后得到的各文本框的HOG(方向梯度直方图)特征、LBP(局部二值模式)特征和CNN(卷积神经网络)特征,并且输入到训练后的随机森林模型中,通过训练后的随机森林模型对步骤S4处理后得到的各文本框进行验证,根据验证结果获取到图像中最终的文本框;
其中,随机森林模型的训练过程如下:随机分割自然场景文本图像,得到只含文字的图像以及只含背景的图像作为训练样本,提取各训练样本的HOG特征、LBP特征和CNN特征,并且将各训练样本的HOG特征、LBP特征和CNN特征作为随机森林模型的输入对随机森林模型进行训练,得到训练后的随机森林模型。
优选的,所述步骤S1中,在构建训练样本集时,当图像中文本区域倾斜角度小于一定值时,通过一个矩形框标注图像中的一个文本区域;当图像中文本区域倾斜角度大于等于一定值时,针对于文本区域中的每个字符分别通过矩形框进行标注。
优选的,所述步骤S1中,Faster R-CNN模型的基模型为ZF模型,在Faster R-CNN模型训练过程中,具体操作过程如下:当Faster R-CNN模型接收到训练样本集中图像的输入时,首先通过ZF模型的RPN卷积层直接生成候选文本框;针对于训练样本集中图像的每个标注的文本框,选择出与其重叠比例最大的候选文本框标,记为前景样本;然后,将剩下的候选文本框中与该图像中某个标注文本框重叠比例大于0.7的,也标记为前景样本;同时将与图像中任意一个标注的文本框的重叠比例都小于0.3的候选文本框标记为背景样本。
优选的,所述步骤S3中通过颜色相似度算法对图像中粗定位的每个文本框进行扩展,具体过程如下:
当文本框的宽度为W和高度为H时,在文本框两侧分别进行以下扩展:
步骤S31、以宽度L和高度H的区域进行扩展,进入步骤S32;
步骤S32、计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则返回步骤S31,否则,进入步骤S33;
步骤S33、以宽度L/2和高度H的区域继续进行扩展,并且计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则将扩展后的区域和文本框区域进行合并;否则,进入步骤S34;
步骤S34、以宽度L/4和高度H的区域继续进行扩展,并且计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则将扩展后的区域合并到文本框区域;否则,结束扩展,且舍弃上述获取到的扩展区域。
更进一步的,所述宽度L和高度H之间满足以下关系:
L=1.2×H。
更进一步的,扩展区域与文本框区域的颜色相似度值为:
其中:
其中IA为扩展区域,IB为文本框区域;PA为扩展区域中像素集合,PB为文本框区域中像素集合;
S为扩展区域和文本框区域的像素点进行一一匹配后得到的集合,其中表示的是针对于扩展区域中任意一像素点i,要在文本框区域中寻找与像素点i最接近的像素点j作为匹配点,j∈PB;NA为文本框区域中被扩展区域所有像素点所匹配的像素点总数;
Dij为扩展区域中像素点i和文本框区域中像素点j的像素差异值,Li、ai和bi分别为扩展区域在CIELAB色彩空间中像素点i的lab值;Lj、aj和bj分别为扩展区域在CIELAB色彩空间中像素点j的lab值。
更进一步的,在扩展区域和文本框区域的像素点进行匹配过程中:寻找匹配点时,从上次的匹配点周围呈圆形开始展开搜索,当得到Dij=0时,停止搜索。
优选的,所述步骤S4中,将重叠的文本框进行合并,其中重叠的文本框为满足文本笔画宽度条件以及满足空间距离条件的两个文本框;
所述满足的文本笔画宽度条件为:
其中W1、W2分别为两个文本框的宽度,H1、H2分别为两个文本框的高度,PW1、PW2分别为两个文本框中文本的笔画宽度;
所述满足的空间距离条件根据以下情况分为三种:
第一种:当(W1-H1)*(W2-H2)≤0时:
若即认为两个文本框均是水平位置关系,此时需要在水平方向上满足的空间距离条件为:
min(|R1-L2|,|R2-L1|)<K*min(H1,H2);
其中K为调节参数,R1、R2分别为两个文本框中文本的右边界横坐标,L1、L2分别为两个文本框中文本的左边界横坐标;
若即认为两个框都是竖直的,此时需要在竖直方向上满足的空间距离条件为:
min(|U1-D2|,|U2-D1|)<K*min(W1,W2);
其中U1、U2分别为两个文本框上边界纵坐标,D1、D2分别为两个文本框下边界纵坐标;
第二种:当W1-H1>0且W2-H2>0时,即认为两个框水平,此时需要满足的空间距离条件为:
min(|R1-L2|,|R2-L1|)<K*min(H1,H2);
第三种:当W1-H1<0且W2-H2<0时,即认为两个框竖直,此时需要满足的空间距离条件为:
min(|U1-D2|,|U2-D1|)<K*min(W1,W2)。
更进一步的,调节参数K取值为1.2。
优选的,所述步骤S5中,训练样本的获取过程如下:随机分割自然场景文本图像,得到只含文字的图像以及只含背景的图像,然后将每幅图像统一归一化为32×32大小后作为训练样本;
所述步骤S5中,训练样本和文本框的CNN特征通过卷积神经网络进行提取,该卷积神经网络包括第一卷积层、降采样层、第二卷积层和下采样层,其中第一卷积层的卷积核大小为5×5,降采样层的卷积核大小为2×2,第二卷积层的卷积核大小为5×5。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明一种基于Faster R-CNN的图像中文本检测方法,首先获取多幅已经标注文本框的图像对Faster R-CNN模型进行训练;在获取到需要进行文本检测的图像后,采用训练后的Faster R-CNN模型粗定位出图像中的文本框;然后通过颜色相似度算法对图像中粗定位的文本框进行扩展;再者将重叠的文本框进行合并;最后提取出上述处理得到的各文本框的HOG特征、LBP特征和CNN特征,并且输入到训练后的随机森林模型中,通过训练后的随机森林模型进行验证,根据验证结果获取到图像中最终的文本框;由上述可知,本发明首先通过Faster R-CNN模型对图像中的文本进行粗定位,然后基于颜色相似度进行文本扩展,进一步提高文本定位的准确率和召回率,最后改进了基于随机森林算法的文本验证模型,该模型将传统的图像LBP、HOG特征与CNN特征结合,使文本定位的准确率进一步提高。通过本发明方法能够快速定位出图像中的文本区域,有效地克服了目前方法中文本候选区域的召回率低、定位区域不准确等问题,提高了文本检测的准确率和召回率。
(2)本发明基于Faster R-CNN的图像中文本检测方法中,Faster R-CNN模型在训练过程中,通过ZF模型的RPN卷积层直接生成候选文本框,代替Fast R-CNN中进行区域提取的Selective Search方法,具有能够得到与最终文本框更为接近的候选文本框,进一步提高本发明方法文本检测的准确性。
(3)本发明基于Faster R-CNN的图像中文本检测方法中,在构建训练样本集时,当图像中文本区域倾斜角度小于一定值时,通过一个矩形框标注图像中的一个文本区域;当图像中文本区域倾斜角度大于等于一定值时,针对于文本区域中的每个字符分别通过矩形框进行人工标注。因此,本发明方法可以为文本标注出更加准确和合适的文本框,能够训练出更加适合文本检测的Faster R-CNN模型。
(4)本发明基于Faster R-CNN的图像中文本检测方法中,采用基于像素差值的颜色相似度算法和实际的应用情况对粗定位的文本框进行扩展,可以更加精确的寻找到粗定位过程中漏掉的文本区域,使得随机森林模型后续验证过程中能够更加准确且全面的验证出中图像中所有的文本框。
附图说明
图1是本发明方法的流程图。
图2a和图2b是本发明方法中人工标注图像中文本框示意图。
图3是本发明方法中ZF模型的RPN卷积层结构,
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明公开了一种基于Faster R-CNN的图像中文本检测方法,如图1所示,步骤如下:
步骤S1,获取多幅已经标注文本框的图像构成训练样本集,通过训练样本集对Faster R-CNN模型进行训练得到训练后的Faster R-CNN模型,其中Faster R-CNN模型在训练过程中,通过修改网络基学习率、最大迭代次数和权重衰减等参数来微调整个训练过程,使训练出来的Faster R-CNN模型具有较高的召回率;
本步骤中,在构建训练样本集时,获取的每幅图像的大小为600×1000,如图2a所示,当图像为标准且其中的文区域倾斜角度小余一定值时,通过一个矩形框人工标注图像中的一个文本区域;另外如图2b所示,当图像中文本区域倾斜角度大于等于一定值时,针对于一个文本区域中的每个字符均通过矩形框进行人工标注。上述人工标准的矩形框即为文本框,标注数据记录为矩形框左上角顶点的横纵坐标以及右下角顶点的横纵坐标。其中上述一定值可以为45度。
另外,本实施例中,Faster R-CNN模型中包括ZF模型,在Faster R-CNN模型训练过程中,具体操作过程如下:当Faster R-CNN模型接收到训练样本集中图像的输入时,首先通过ZF模型的RPN卷积层直接生成候选文本框;针对于训练样本集中图像的每个标注的文本框,选择出与其重叠比例最大的候选文本框标,记为前景样本;然后,将剩下的候选文本框中与该图像中某个标注文本框重叠比例大于0.7的,也标记为前景样本;同时将与图像中任意一个标注的文本框的重叠比例都小于0.3的候选文本框标记为背景样本;
本实施例中,ZF模型的RPN卷积层结构如图3所示,利用3×3的卷积核与输出特征图做卷积得到对应的特征向量,每个特征向量根据卷积核的中心位置产生9个anchor;ZF模型中,输出的40*60的feature map(特征图)可以产生20000(40*60*9)个anchor,即有20000个区域;后接两个全连接层用来分类和回归,根据这些区域的得分高低挑出前300个区域作为候选区域。
在本实施例中,Faster R-CNN模型训练时最小化两种代价函数,分别为分类误差和前景样本的位置偏差,
其中Loss_cls损失函数评估分类误差代价,Loss_bbox评估检测框定位偏差代价。上述Loss_cls损失函数中,真实分类u对应的判别误差代价为:
Loss_cls=-logpu;
其中pu为FasterR-CNN模型预测的候选文本框属于真实分类u(即前景或背景)的概率;
上述Loss_bbox比较真实分类对应的预测参数tu和真实平移缩放参数v的区别:
其中g为Smooth L1误差,表示为:
训练的损失函数为两者加权和,当分类为背景时不考虑定位代价,联合损失函数如下:
其中λ表示损失函数的权重因子,可人为确定。
步骤S2、在获取到需要进行文本检测的图像后,首先采用上述训练后的Faster R-CNN模型粗定位出图像中的文本框;
步骤S3、通过颜色相似度算法对图像中粗定位的文本框进行扩展;本步骤中通过颜色相似度算法对图像中粗定位的每个文本框进行扩展,具体过程如下:
当文本框的宽度为W和高度为H时,在文本框两侧分别进行以下扩展:
步骤S31、以宽度L和高度H的区域进行扩展,进入步骤S32;其中L=1.2×H。
步骤S32、计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则返回步骤S31,否则,进入步骤S33;
步骤S33、以宽度L/2和高度H的区域继续进行扩展,并且计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则将扩展后的区域和文本框区域进行合并;否则,进入步骤S34;
步骤S34、以宽度L/4和高度H的区域继续进行扩展,并且计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则将扩展后的区域合并到文本框区域;否则,结束扩展,且舍弃上述获取到的扩展区域。
在本实施例中,阈值T取0.5。
其中上述步骤中,扩展区域与文本框区域的颜色相似度值为:
其中
其中:
其中IA为扩展区域,IB为文本框区域;PA为扩展区域中像素集合,PB为文本框区域中像素集合;
S为扩展区域和文本框区域的像素点进行一一匹配后得到的集合,其中表示的是针对于扩展区域中任意一像素点i,要在文本框区域中寻找与像素点i最接近的像素点j作为匹配点,j∈PB;NA为文本框区域中被扩展区域所有像素点所匹配的像素点总数;
Dij为扩展区域中像素点i和文本框区域中像素点j的像素差异值,Li、ai和bi分别为扩展区域在CIELAB色彩空间中像素点i的lab值;Lj、aj和bj分别为扩展区域在CIELAB色彩空间中像素点j的lab值。
步骤S4、针对步骤S3扩展后得到的文本框,将重叠的文本框进行合并;其中重叠的文本框为满足文本笔画宽度条件以及满足空间距离条件的两个文本框;
满足的文本笔画宽度条件为:
其中W1、W2分别为两个文本框的宽度,H1、H2分别为两个文本框的高度,PW1、PW2分别为两个文本框中文本的笔画宽度;
满足的空间距离条件根据以下情况分为三种:
第一种:当(W1-H1)*(W2-H2)≤0时:
若即认为两个文本框均是水平位置关系,此时需要在水平方向上满足的空间距离条件为:
min(|R1-L2|,|R2-L1|)<K*min(H1,H2);
其中K为调节参数,在本实施例中K取值为1.2,R1、R2分别为两个文本框文本的右边界横坐标,L1、L2分别为两个文本框中文本的左边界横坐标;
若即认为两个框都是竖直的,此时需要在竖直方向上满足的空间距离条件为:
min(|U1-D2|,|U2-D1|)<K*min(W1,W2);
其中U1、U2分别为两个文本框上边界纵坐标,D1、D2分别为两个文本框下边界纵坐标;
第二种:当W1-H1>0且W2-H2>0时,即认为两个框水平,此时需要满足的空间距离条件为:
min(|R1-L2|,|R2-L1|)<K*min(H1,H2);
第三种:当W1-H1<0且W2-H2<0时,即认为两个框竖直,此时需要满足的空间距离条件为:
min(|U1-D2|,|U2-D1|)<K*min(W1,W2)。
步骤S5、提取步骤S4处理后得到的各文本框的HOG特征、LBP特征和CNN特征,并且输入到训练后的随机森林模型中,通过训练后的随机森林模型对步骤S4处理后得到的各文本框进行验证,根据验证结果获取到图像中最终的文本框;
其中,随机森林模型的训练过程如下:随机分割自然场景文本图像,得到只含文字的图像以及只含背景的图像,然后将每幅图像统一归一化为32×32大小后作为训练样本;提取各训练样本的HOG(方向梯度直方图)特征、LBP(局部二值模式)特征和CNN(卷积神经网络)特征,并且将各训练样本的HOG特征、LBP特征和CNN特征作为随机森林模型的输入对随机森林模型进行训练,得到训练后的随机森林模型。
在本步骤中,训练样本和文本框的CNN特征通过卷积神经网络进行提取,该卷积神经网络包括第一卷积层、降采样层、第二卷积层和下采样层,其中第一卷积层的卷积核大小为5×5,降采样层的卷积核大小为2×2,第二卷积层的卷积核大小为5×5。在该卷积神经网络中输入归一化后的32×32大小的样本,经过第一卷层积后输入到接降采样层,接着将接降采样层的输出结果作为第二卷积层的输入,最后将卷积结果进行下采样,得到CNN特征。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于Faster R-CNN的图像中文本检测方法,其特征在于,步骤如下:
步骤S1,获取多幅已经标注文本框的图像构成训练样本集,通过训练样本集对FasterR-CNN模型进行训练得到训练后的Faster R-CNN模型;
步骤S2、在获取到需要进行文本检测的图像后,首先采用上述训练后的Faster R-CNN模型粗定位出图像中的文本框;
步骤S3、通过颜色相似度算法对图像中粗定位的文本框进行扩展;
步骤S4、针对步骤S3扩展后得到的文本框,将重叠的文本框进行合并;
步骤S5、提取步骤S4处理后得到的各文本框的HOG特征、LBP特征和CNN特征,并且输入到训练后的随机森林模型中,通过训练后的随机森林模型对步骤S4处理后得到的各文本框进行验证,根据验证结果获取到图像中最终的文本框;
其中,随机森林模型的训练过程如下:随机分割自然场景文本图像,得到只含文字的图像以及只含背景的图像作为训练样本,提取各训练样本的HOG特征、LBP特征和CNN特征,并且将各训练样本的HOG特征、LBP特征和CNN特征作为随机森林模型的输入对随机森林模型进行训练,得到训练后的随机森林模型。
2.根据权利要求1所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,所述步骤S1中,在构建训练样本集时,当图像中文本区域倾斜角度小于一定值时,通过一个矩形框标注图像中的一个文本区域;当图像中文本区域倾斜角度大于等于一定值时,针对于文本区域中的每个字符分别通过矩形框进行标注。
3.根据权利要求1所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,所述步骤S1中,Faster R-CNN模型的基模型为ZF模型,在Faster R-CNN模型训练过程中,具体操作过程如下:当Faster R-CNN模型接收到训练样本集中图像的输入时,首先通过ZF模型的RPN卷积层直接生成候选文本框;针对于训练样本集中图像的每个标注的文本框,选择出与其重叠比例最大的候选文本框标,记为前景样本;然后,将剩下的候选文本框中与该图像中某个标注文本框重叠比例大于0.7的,也标记为前景样本;同时将与图像中任意一个标注的文本框的重叠比例都小于0.3的候选文本框标记为背景样本。
4.根据权利要求1所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,所述步骤S3中通过颜色相似度算法对图像中粗定位的每个文本框进行扩展,具体过程如下:
当文本框的宽度为W和高度为H时,在文本框两侧分别进行以下扩展:
步骤S31、以宽度L和高度H的区域进行扩展,进入步骤S32;
步骤S32、计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则返回步骤S31,否则,进入步骤S33;
步骤S33、以宽度L/2和高度H的区域继续进行扩展,并且计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则将扩展后的区域和文本框区域进行合并;否则,进入步骤S34;
步骤S34、以宽度L/4和高度H的区域继续进行扩展,并且计算扩展后的扩展区域与文本框区域的颜色相似度值,若计算得到的颜色相似度值大于等于阈值T,则将扩展后的区域合并到文本框区域;否则,结束扩展,且舍弃上述获取到的扩展区域。
5.根据权利要求4所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,所述宽度L和高度H之间满足以下关系:
L=1.2×H。
6.根据权利要求4所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,扩展区域与文本框区域的颜色相似度值为:
其中
其中:
其中IA为扩展区域,IB为文本框区域;PA为扩展区域中像素集合,PB为文本框区域中像素集合;
S为扩展区域和文本框区域的像素点进行一一匹配后得到的集合,其中表示的是针对于扩展区域中任意一像素点i,要在文本框区域中寻找与像素点i最接近的像素点j作为匹配点,j∈PB;NA为文本框区域中被扩展区域所有像素点所匹配的像素点总数;
Dij为扩展区域中像素点i和文本框区域中像素点j的像素差异值,Li、ai和bi分别为扩展区域在CIELAB色彩空间中像素点i的lab值;Lj、aj和bj分别为扩展区域在CIELAB色彩空间中像素点j的lab值。
7.根据权利要求6所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,在扩展区域和文本框区域的像素点进行匹配过程中:寻找匹配点时,从上次的匹配点周围呈圆形开始展开搜索,当得到Dij=0时,停止搜索。
8.根据权利要求1所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,所述步骤S4中,将重叠的文本框进行合并,其中重叠的文本框为满足文本笔画宽度条件以及满足空间距离条件的两个文本框;
所述满足的文本笔画宽度条件为:
其中W1、W2分别为两个文本框的宽度,H1、H2分别为两个文本框的高度,PW1、PW2分别为两个文本框中文本的笔画宽度;
所述满足的空间距离条件根据以下情况分为三种:
第一种:当(W1-H1)*(W2-H2)≤0时:
若即认为两个文本框均是水平位置关系,此时需要在水平方向上满足的空间距离条件为:
min(|R1-L2|,|R2-L1|)<K*min(H1,H2);
其中K为调节参数,R1、R2分别为两个文本框中文本的右边界横坐标,L1、L2分别为两个文本框中文本的左边界横坐标;
若即认为两个框都是竖直的,此时需要在竖直方向上满足的空间距离条件为:
min(|U1-D2|,|U2-D1|)<K*min(W1,W2);
其中U1、U2分别为两个文本框上边界纵坐标,D1、D2分别为两个文本框下边界纵坐标;
第二种:当W1-H1>0且W2-H2>0时,即认为两个框水平,此时需要满足的空间距离条件为:
min(|R1-L2|,|R2-L1|)<K*min(H1,H2);
第三种:当W1-H1<0且W2-H2<0时,即认为两个框竖直,此时需要满足的空间距离条件为:
min(|U1-D2|,|U2-D1|)<K*min(W1,W2)。
9.根据权利要求8所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,调节参数K取值为1.2。
10.根据权利要求1所述的基于Faster R-CNN的图像中文本检测方法,其特征在于,所述步骤S5中,训练样本的获取过程如下:随机分割自然场景文本图像,得到只含文字的图像以及只含背景的图像,然后将每幅图像统一归一化为32×32大小后作为训练样本;
所述步骤S5中,训练样本和文本框的CNN特征通过卷积神经网络进行提取,该卷积神经网络包括第一卷积层、降采样层、第二卷积层和下采样层,其中第一卷积层的卷积核大小为5×5,降采样层的卷积核大小为2×2,第二卷积层的卷积核大小为5×5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810007385.2A CN108229397B (zh) | 2018-01-04 | 2018-01-04 | 基于Faster R-CNN的图像中文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810007385.2A CN108229397B (zh) | 2018-01-04 | 2018-01-04 | 基于Faster R-CNN的图像中文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229397A true CN108229397A (zh) | 2018-06-29 |
CN108229397B CN108229397B (zh) | 2020-08-18 |
Family
ID=62642863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810007385.2A Active CN108229397B (zh) | 2018-01-04 | 2018-01-04 | 基于Faster R-CNN的图像中文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229397B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740760A (zh) * | 2018-12-25 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
CN109977949A (zh) * | 2019-03-20 | 2019-07-05 | 深圳市华付信息技术有限公司 | 边框微调的文本定位方法、装置、计算机设备及存储介质 |
CN109978044A (zh) * | 2019-03-20 | 2019-07-05 | 广州云测信息技术有限公司 | 训练数据生成方法和装置、以及模型的训练方法和装置 |
CN110211048A (zh) * | 2019-05-28 | 2019-09-06 | 湖北华中电力科技开发有限责任公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110232337A (zh) * | 2019-05-29 | 2019-09-13 | 中国科学院自动化研究所 | 基于全卷积神经网络的中文字符图像笔划提取方法、系统 |
CN110502655A (zh) * | 2019-07-31 | 2019-11-26 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN110533079A (zh) * | 2019-08-05 | 2019-12-03 | 贝壳技术有限公司 | 形成图像样本的方法、装置、介质以及电子设备 |
CN110929481A (zh) * | 2018-09-19 | 2020-03-27 | 珠海金山办公软件有限公司 | 一种文档编辑的方法、装置、计算机存储介质及终端 |
CN111259878A (zh) * | 2018-11-30 | 2020-06-09 | 中移(杭州)信息技术有限公司 | 一种检测文本的方法和设备 |
CN111612003A (zh) * | 2019-02-22 | 2020-09-01 | 北京京东尚科信息技术有限公司 | 一种提取图片中的文本的方法和装置 |
CN111832390A (zh) * | 2020-05-26 | 2020-10-27 | 西南大学 | 一种手写古文字检测方法 |
CN113033593A (zh) * | 2019-12-25 | 2021-06-25 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN113298079A (zh) * | 2021-06-28 | 2021-08-24 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
WO2021237517A1 (zh) * | 2020-05-27 | 2021-12-02 | 京东方科技集团股份有限公司 | 手写体识别方法、装置、电子设备及存储介质 |
CN113780260A (zh) * | 2021-07-27 | 2021-12-10 | 浙江大学 | 基于计算机视觉的无障碍文字智能检测方法 |
US11410446B2 (en) | 2019-11-22 | 2022-08-09 | Nielsen Consumer Llc | Methods, systems, apparatus and articles of manufacture for receipt decoding |
US11625930B2 (en) | 2021-06-30 | 2023-04-11 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture |
CN113780260B (zh) * | 2021-07-27 | 2023-09-19 | 浙江大学 | 基于计算机视觉的无障碍文字智能检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1411282A (zh) * | 2001-10-08 | 2003-04-16 | Lg电子株式会社 | 提取对象区域的方法 |
US9002106B2 (en) * | 2012-11-02 | 2015-04-07 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method, and storage medium |
CN104809481A (zh) * | 2015-05-21 | 2015-07-29 | 中南大学 | 一种基于自适应色彩聚类的自然场景文本检测的方法 |
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
-
2018
- 2018-01-04 CN CN201810007385.2A patent/CN108229397B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1411282A (zh) * | 2001-10-08 | 2003-04-16 | Lg电子株式会社 | 提取对象区域的方法 |
US9002106B2 (en) * | 2012-11-02 | 2015-04-07 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method, and storage medium |
CN104809481A (zh) * | 2015-05-21 | 2015-07-29 | 中南大学 | 一种基于自适应色彩聚类的自然场景文本检测的方法 |
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
Non-Patent Citations (3)
Title |
---|
SHAOQING REN等: "Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
YI-FENG PAN等: "《A Robust System to Detect and Localize Texts in Natural Scene Images》", 《THE EIGHTH IAPR WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS》 * |
薛向阳 等: "一种新的颜色相似度定义及其计算方法", 《计算机学报》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929481A (zh) * | 2018-09-19 | 2020-03-27 | 珠海金山办公软件有限公司 | 一种文档编辑的方法、装置、计算机存储介质及终端 |
CN111259878A (zh) * | 2018-11-30 | 2020-06-09 | 中移(杭州)信息技术有限公司 | 一种检测文本的方法和设备 |
CN109740760A (zh) * | 2018-12-25 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
CN111612003A (zh) * | 2019-02-22 | 2020-09-01 | 北京京东尚科信息技术有限公司 | 一种提取图片中的文本的方法和装置 |
CN109977949A (zh) * | 2019-03-20 | 2019-07-05 | 深圳市华付信息技术有限公司 | 边框微调的文本定位方法、装置、计算机设备及存储介质 |
CN109978044A (zh) * | 2019-03-20 | 2019-07-05 | 广州云测信息技术有限公司 | 训练数据生成方法和装置、以及模型的训练方法和装置 |
CN109978044B (zh) * | 2019-03-20 | 2021-03-19 | 广州云测信息技术有限公司 | 训练数据生成方法和装置、以及模型的训练方法和装置 |
CN110211048A (zh) * | 2019-05-28 | 2019-09-06 | 湖北华中电力科技开发有限责任公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110211048B (zh) * | 2019-05-28 | 2020-06-16 | 国家电网有限公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110232337A (zh) * | 2019-05-29 | 2019-09-13 | 中国科学院自动化研究所 | 基于全卷积神经网络的中文字符图像笔划提取方法、系统 |
CN110502655A (zh) * | 2019-07-31 | 2019-11-26 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN110502655B (zh) * | 2019-07-31 | 2022-04-01 | 武汉大学 | 一种嵌入场景文字信息的图像自然描述语句生成方法 |
CN110533079A (zh) * | 2019-08-05 | 2019-12-03 | 贝壳技术有限公司 | 形成图像样本的方法、装置、介质以及电子设备 |
CN110533079B (zh) * | 2019-08-05 | 2022-05-24 | 贝壳技术有限公司 | 形成图像样本的方法、装置、介质以及电子设备 |
US11410446B2 (en) | 2019-11-22 | 2022-08-09 | Nielsen Consumer Llc | Methods, systems, apparatus and articles of manufacture for receipt decoding |
CN113033593A (zh) * | 2019-12-25 | 2021-06-25 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN113033593B (zh) * | 2019-12-25 | 2023-09-01 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN111832390A (zh) * | 2020-05-26 | 2020-10-27 | 西南大学 | 一种手写古文字检测方法 |
WO2021237517A1 (zh) * | 2020-05-27 | 2021-12-02 | 京东方科技集团股份有限公司 | 手写体识别方法、装置、电子设备及存储介质 |
CN113298079A (zh) * | 2021-06-28 | 2021-08-24 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
US11625930B2 (en) | 2021-06-30 | 2023-04-11 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture |
CN113780260A (zh) * | 2021-07-27 | 2021-12-10 | 浙江大学 | 基于计算机视觉的无障碍文字智能检测方法 |
CN113780260B (zh) * | 2021-07-27 | 2023-09-19 | 浙江大学 | 基于计算机视觉的无障碍文字智能检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108229397B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229397A (zh) | 基于Faster R-CNN的图像中文本检测方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN105574550B (zh) | 一种车辆识别方法及装置 | |
CN109359559B (zh) | 一种基于动态遮挡样本的行人再识别方法 | |
CN101630363B (zh) | 复杂背景下彩色图像人脸的快速检测方法 | |
CN106778835A (zh) | 融合场景信息和深度特征的遥感图像机场目标识别方法 | |
CN101667245B (zh) | 基于支持向量新颖检测分类器级联的人脸检测方法 | |
CN105740892A (zh) | 一种高准确率的基于卷积神经网络的人体多部位识别方法 | |
CN106127204A (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN106096542B (zh) | 基于距离预测信息的图像视频场景识别方法 | |
CN107871101A (zh) | 一种人脸检测方法及装置 | |
CN105740910A (zh) | 一种车辆物件检测方法及装置 | |
CN108596329A (zh) | 基于端到端深度集成学习网络的三维模型分类方法 | |
CN106778852A (zh) | 一种修正误判的图像内容识别方法 | |
CN107437100A (zh) | 一种基于跨模态关联学习的图像位置预测方法 | |
CN103279936A (zh) | 基于画像的人脸伪照片自动合成及修正方法 | |
CN109558790B (zh) | 一种行人目标检测方法、装置及系统 | |
CN108776777A (zh) | 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法 | |
CN109740585A (zh) | 一种文本定位方法及装置 | |
CN107958219A (zh) | 基于多模型和多尺度特征的图像场景分类方法 | |
CN106650798B (zh) | 一种结合深度学习与稀疏表示的室内场景识别方法 | |
CN109360179A (zh) | 一种图像融合方法、装置及可读存储介质 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN110689000A (zh) | 一种基于生成复杂环境下车牌样本的车辆车牌识别方法 | |
Neuhausen et al. | Automatic window detection in facade images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |