CN111753828B - 一种基于深度卷积神经网络的自然场景水平文字检测方法 - Google Patents

一种基于深度卷积神经网络的自然场景水平文字检测方法 Download PDF

Info

Publication number
CN111753828B
CN111753828B CN202010426676.2A CN202010426676A CN111753828B CN 111753828 B CN111753828 B CN 111753828B CN 202010426676 A CN202010426676 A CN 202010426676A CN 111753828 B CN111753828 B CN 111753828B
Authority
CN
China
Prior art keywords
text
network
box
training
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010426676.2A
Other languages
English (en)
Other versions
CN111753828A (zh
Inventor
宋清洋
孙巍
郭志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010426676.2A priority Critical patent/CN111753828B/zh
Publication of CN111753828A publication Critical patent/CN111753828A/zh
Application granted granted Critical
Publication of CN111753828B publication Critical patent/CN111753828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于深度卷积神经网络的自然场景水平文字检测方法。该方法在TextBoxes网络模型的基础上进行深度优化,通过增加新的文本预测卷积组,扩展网络深度,使网络对于小数据集的特征学习更加充分,并且在一定的模型复杂度下,充分利用多个卷积层的特征信息进行融合学习。通过对具有不同感受野的卷积层对原始图片数据进行特征学习后,利用文本预测层回归文本框的位置并预测文本类别。该检测方法有效地解决了自然场景的背景复杂性以及小数据集特征不足等因素对文字检测造成的影响。通过在Caffe平台下进行实验验证,结果表明该模型能有效提高小数据集下的自然场景水平文字检测的召回率和综合评价指标。

Description

一种基于深度卷积神经网络的自然场景水平文字检测方法
技术领域
本发明属于图像处理技术领域,特别是用于自然场景文本检测的深度卷积神经网络新型应用技术。
背景技术
智能手机的大规模普及和互联网的快速发展带来了众多的新型产品和智能化服务,这引发了对实用视觉技术的巨大需求。文本是自然场景中最普遍的视觉对象之一,对于现实世界中的各种应用来说非常有价值,因此,自然场景文本检测和识别已经成为计算机视觉领域的研究热点之一。近年来,自然场景文字检测已经成为图像处理、计算机视觉以及自然语言处理等领域中的重要研究方向。
现有的基于边缘的文字检测方法首先利用边缘特性来计算文本候选区的能量。之后根据能量值的高低排除非文本信息。最后利用相邻文本候选区之间的空间关系、颜色信息、像素强度以及尺寸信息等将相似度较高的候选区连接在一起形成文本。该检测方法原理通俗易懂,计算速度也比较快并且易于实现,但是当背景复杂时,文字的边缘特征相对而言就会变得模糊,该种方法就不能得到广泛应用。因此传统的基于边缘的文字检测方法并不适用于自然场景文字检测。
现有的基于连通域的文字检测方法对图片的颜色特性或者区域极值等属性进行聚类,得到连通域,进而提取出文本候选区;然后再利用分类器去除非文本区域。该方法所得到的文本候选框数量比较少,因此在计算速度上较其他算法较快一些,并且对文字大小没有固定要求。但是在背景相对复杂的自然场景中,文本和非文本信息很难根据颜色等信息进行区分,因而很难得到较好的连通域。因此,基于连通域的文字检测方法也不适用于自然场景下的文字检测。
现有的基于纹理的文字检测方法一般将文字看作是一种特殊的纹理,利用纹理本身的特殊性进行文本检测。在文本纹理和背景纹理区分过程中,常用的纹理特征包括小波变换、滤波器响应、文本较强边界以及与非文本的较大对比度等。在该算法中,利用经典的边缘检测算子进行边缘检测;其次,计算图像中的不同行空间矩阵的方差,将方差值较大的视为文本候选区,方差值较小的视为背景区域;最后通过颜色强度、连通域内像素的相似性等信息对文本候选区进行筛选,进而去除背景区域。该方法虽然能很好地适应不同字体以及不同规格大小的文本检测,但是其耗时较长,而且计算复杂度也较高,不能满足实际需求。
由此可见,现有技术存在计算复杂度高、检测精度低、不适应与自然场景下背景复杂性的文字检查等技术问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种解决小数据集下的自然场景水平文字检测问题,克服自然场景下的背景复杂性以及其它外界因素对文字检测的不利影响的基于深度卷积神经网络的自然场景水平文字检测方法。本发明的技术方案如下:
一种基于深度卷积神经网络的自然场景水平文字检测方法,其包括以下步骤:
步骤1:获取数据集:首先获取符合小数据集特性的训练图片,并人为地添加不同程度的椒盐噪声,椒盐噪声是一种典型的数字图像噪声,之后对获得的数据集进行预处理,将获取的图片进行批量重命名和标注,并按PASCAL VOC数据格式制作数据集;
步骤2:数据预处理:在网络读取图片数据之前,对训练数据进行包括图片批量重命名、图片标注、数据集制作、数据集划分、数据转换等预处理;
步骤3:建立网络模型:以VGG-16网络模型为基础网络,将全连接层全改为卷积组,组成全卷积层的神经网络;
步骤4:训练网络:把制作好的数据集输入到步骤3的网络中进行训练;
步骤5:文本框预测:对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本;
步骤6:文本框筛选:通过文本框预测,得到若干文本区域候选框,采用非极大值抑制算法消除多个候选框中的冗余候选框,找到最佳文本框;
步骤7:网络微调:利用反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,反复进行直到达到最大迭代次数;
步骤8:生成检测结果:将图像输入到训练好的模型中进行检测,在文本检测层中输出检测结果。
进一步的,步骤1获取适应于小数据集自然场景的数据集,具体包括:所用的数据集共800张,其中229张是来源于ICDAR2013数据库,该库中的图片数据大部分是街景图片和路牌标识,图片明暗不一且字体多种多样,271张图片是从互联网上爬取的,包括建筑物标识图片和商店文本Logo,在200张图片中加入了不同程度的椒盐噪声,剩余100张图片是由原图做水平翻转得到。
进一步的,所述步骤2数据预处理步骤中,将图片尺寸resize到300×300,具体包括:
1.图片批量重命名:对所有图片样本通过编写脚本程序进行批量命名,命名规则为使用3位数字;
2.图片标注:采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定;
3.根据PASCAL VOC数据格式制作数据集;
4.数据集划分:将800张图片划分成3个数据集,分别为训练集、验证集和测试集,划分比例为训练集60%、证集20%、测试集20%;
5.数据格式转换:通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。
进一步的,所述步骤3建立网络模型具体包括:该网络由23个卷积层、23个激励层和5个池化层组成,是一个全卷积神经网络,本模型沿用VGG-16的前五个卷积组,并将最后的两个全连接层fc6、fc7均改为卷积组,并在其后新增添四个卷积组,在新增加的conv6到conv9中,每个卷积组都包含两个卷积层,并且在每个卷积层后都设置了一个激励层,基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3,填充值为1,池化层的池化窗口大小均为2×2,步长为2,经过池化层的下采样后,输出的长和宽均变为输入的一半,模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测,上述的预测层中采用1×5的卷积核,填充值Pad为2,步长为1。
进一步的,所述步骤4把制作好的数据集输入到步骤3的网络中进行训练,具体包括:
将归一化为300*300的图像输入网络模型中,网络输出为文本定位结果及文本分类的打分,训练基础网络模型。具体采用迭代次数为120000次,每次迭代网络读取的图片数目为32,网络每进行500次迭代便进行一次测试,每次测试读取一张测试图片。测试集中共160张图片,网络训练中每隔10次迭代就输出一次当前训练结果。
进一步的,所述步骤5对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本,具体包括:
1.采用SSD算法中的Default box机制,设定不同规格的默认框来代替传统的批量滑动窗口,在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框,分别为1、2、3、5、7、10;
2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习,进而得到72维的特征矩阵,其中48维用于回归文本边界框,24维对检测目标进行分类,根据类别得分情况判断预测到的边界框内容是否为文本。
进一步的,所述进行边框回归和分类的过程为:假设原始输入图片的尺寸大小为(wimg,himg),wimg、himg分别表示原始图片的宽和高。输入文本预测层的特征图的尺寸大小为(wmap,hmap),wmap、hmap分别表示特征图的宽和高。在特征图上坐标为(i,j)的位置上,设置默认文本框坐标db0=(x0,y0,w0,h0),其中(i,j)表示像素点的位置坐标,(i,j)表示特征图中每个神经元的位置坐标,(x0,y0)代表每个神经元上默认文本框的中心位置坐标,文本预测层预测默认框相对于真实文本框的偏移量,假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c),其中c为预测置信度,用于目标分类,预测到的文本框坐标为db=(x,y,w,h),其计算公式如下。
x=x0+w0Δx,y=y0+h0Δy,w=w0exp(Δw),h=h0exp(Δh)
采用公式(1)计算损失函数。
Figure BDA0002498964990000051
其中x表示和默认框相匹配的矩阵,对于第i个默认文本框和第j个真实文本框,当xij=1时表示两者匹配,反之则不匹配,c为预测置信度,l为网络模型预测的位置坐标,g为文本的真实位置坐标,S为默认文本框和真实文本框匹配的数目,β系数在目标检测问题中一般设置为1,检测目标分类Lconf(x,c)采用的是损失函数为Softmax,边界框回归Lloc(x,l,g)采用的是SmoothL1损失函数,网络训练学习的过程也就是边框回归损失和分类损失不断下降的过程。
进一步的,所述步骤6采用非极大值抑制算法消除多个候选框中的冗余候选框的具体实现步骤如下:
1.求得所有文本预测框的面积;
2.对所有文本预测框的分类得分进行排序,将得分最高的边框作为检测目标当前的文本检测框;
3.遍历剩余检测框,并计算其余文本预测框与得分最高边框的交并比(IoU)值,具体计算公式如下:
Figure BDA0002498964990000052
其中,D代表预测的目标框,G代表真实目标框。D∩G代表预测的目标框和真实目标框的重叠部分,D∪G则代表两者的并集。
根据计算所得的交并比,删除IoU大于某阈值的检测框;
4.在未处理的文本框中继续选择一个得分最高的检测框,重复步骤(2)~(4)。
本发明的优点及有益效果如下:
本发明巧妙地利用卷积神经网络对输入图片进行特征提取,解决了面向小数据集的自然场景水平文字检测。首先,针对小数据集中数据量匮乏、特征不足以及自然场景的背景复杂性等因素进行深入研究分析,明确了一定的网络深度对小数据集文本特征学习的必要性;其次,通过多次修改网络结构,增加不同的卷积层和卷积组,重新设置不同的文本预测层进行网络学习,并对多次实验结果进行对比分析;最后,综合分析网络模型对底层特征以及全局特征的学习充分性,找到最优的面向小数据集的自然场景水平文字检测方案。该方案有效地解决了小数据集下典型的特征欠缺对文字检测所造成的困扰,大大提高了小数据集中自然场景文字检测的召回率和综合评价指标,为以后的科学研究提供了一定地理论价值。
附图说明
图1是本发明提供优选实施例应用于小数据集中的水平文字模型结构。
图2是检测模型训练流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提供了一种基于深度卷积神经网络的小数据集自然场景水平文字检测方法,该方法包括以下步骤:
步骤1:准备数据集;
首先获取适应于小数据集自然场景的数据集。所用的数据集共800张,其中229张是来源于ICDAR2013数据库,该库中的图片数据大部分是街景图片和路牌标识,图片明暗不一且字体多种多样。271张图片是从互联网上爬取的,包括建筑物标识图片和商店文本Logo等。为了模拟实际环境中噪声较大的特点,本发明特意在另外200张图片中加入了不同程度的椒盐噪声。剩余100张图片是由原图做水平翻转得到。
步骤2:数据预处理;
在网络读取图片数据之前,对训练数据进行预处理。本发明将图片尺寸resize到300×300,并对其进行数据预处理,具体的数据处理步骤如下:
1.批量重命名。对所有图片样本通过编写脚本程序进行批量命名,命名规则为使用3位数字,如001.jpg。
2.图片标注。本发明采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定。
3.根据PASCAL VOC数据格式制作数据集。
4.数据集划分。将800张图片划分成3个数据集,分别为训练集、验证集和测试集。本发明数据集的划分比例为训练集60%、证集20%、测试集20%。
5.数据格式转换。本发明通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。
步骤3:建立网络模型;
本发明所采用的网络模型结构如图1所示。该网络由23个卷积层、23个激励层和5个池化层组成,是一个全卷积神经网络。本模型沿用VGG-16的前五个卷积组,并将最后的两个全连接层fc6、fc7均改为卷积组,并在其后新增添四个卷积组。在新增加的conv6到conv9中,每个卷积组都包含两个卷积层,并且在每个卷积层后都设置了一个激励层。在本发明所用的网络模型中,基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3,填充值为1。池化层的池化窗口大小均为2×2,步长为2。经过池化层的下采样后,输出的长和宽均变为输入的一半。该模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测,上述的预测层中采用1×5的卷积核,填充值Pad为2,步长为1。水平文字检测网络的具体参数设置如表1所示。
Figure BDA0002498964990000081
Figure BDA0002498964990000091
表1
本发明的网络模型中,用来做预测的conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层共同构成了文本预测层。
步骤4:训练网络;
把制作好的数据集输入到网络中进行训练,将归一化为300*300的图像输入网络模型中,网络输出为文本定位结果及文本分类的打分,训练基础网络模型。具体采用迭代次数为120000次,每次迭代网络读取的图片数目为32,网络每进行500次迭代便进行一次测试,每次测试读取一张测试图片。测试集中共160张图片,网络训练中每隔10次迭代就输出一次当前训练结果。
步骤5:文本框预测;
本发明利用不同阶段学习到的特征进行边框回归和文本分类。
1.采用SSD算法中的Default box机制,人为设定不同规格的默认框来代替传统的批量滑动窗口。在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框,分别为1、2、3、5、7、10。
2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习,进而得到72维的特征矩阵,其中48维用于回归文本边界框,24维对检测目标进行分类,根据类别得分情况判断预测到的边界框内容是否为文本。
假设原始输入图片的尺寸大小为(wimg,himg),wimg、himg分别表示原始图片的宽度和高度。输入文本预测层的特征图的尺寸大小为(wmap,hmap),wmap、hmap分别表示特征图的宽度和高度。在特征图上坐标为(i,j)的位置上,设置默认文本框坐标db0=(x0,y0,w0,h0),其中,(i,j)表示特征图中每个神经元的位置坐标,(x0,y0)代表每个神经元上默认文本框的中心位置坐标,(w0,h0)表示该默认框的宽和高的尺寸信息。文本预测层预测默认框相对于真实文本框的偏移量,假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c),其中c为预测置信度,用于目标分类。预测到的文本框坐标为db=(x,y,w,h),其计算公式如下。
x=x0+w0Δx,y=y0+h0Δy,w=w0exp(Δw),h=h0exp(Δh)
采用公式(1)计算损失函数。
Figure BDA0002498964990000101
其中x表示和默认框相匹配的矩阵,对于第i个默认文本框和第j个真实文本框,当xij=1时表示两者匹配,反之则不匹配。c为置信度,l为网络模型预测的位置坐标,g为文本的真实位置坐标。S为默认文本框和真实文本框匹配的数目,β系数在目标检测问题中一般设置为1。检测目标分类Lconf(x,c)采用的是损失函数为Softmax,边界框回归Lloc(x,l,g)采用的是
Figure BDA0002498964990000103
损失函数,网络训练学习的过程也就是边框回归损失和分类损失不断下降的过程。
步骤6:文本框筛选;
本设计方案采用NMS算法来抑制多余的文本框,在多个候选框中找到最佳文本框。NMS算法的具体实现步骤如下:
1.求得所有文本预测框的面积;
2.对所有文本预测框的分类得分进行排序,将得分最高的边框作为检测目标当前的文本检测框;
3.遍历剩余检测框,并计算其余文本预测框与得分最高边框的交并比(IoU)值,具体计算公式如下:
Figure BDA0002498964990000102
其中,D代表预测的目标框,G代表真实目标框。D∩G代表预测的目标框和真实目标框的重叠部分,D∪G则代表两者的并集。
根据计算所得的交并比,删除IoU大于某阈值的检测框;
4.在未处理的文本框中继续选择一个得分最高的检测框,重复步骤(2)~(4)。
步骤7:网络微调,具体包括以下几个步骤:
1.使用基础网络模型中训练效果比较好的预训练模型,用制作好的数据集训练学习新增网络部分的参数。
2.调整新增网络部分参数。设置学习率为0.001,步长设为40000,扰动设为0.1。反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,权重衰减系数为0.0005,动量值为0.9,求解器模式设为GPU。快照值设为500,表示每隔500次迭代对内存状态和模型参数进行一次存储,并写入到model文件夹。反复进行直到达到最大迭代次数,得到最终的深度神经网络模型。
具体训练流程如图2所示。
步骤8:生成检测结果;
该步骤中,在搭建Caffe实验平台进行四种不同网络下的性能测试,网络输出为文本的定位结果及文本分类的打分;
实验一:只应用TextBoxes网络进行实验;实验二:以单个卷积层的形式扩充卷积组的深度,增加卷积层conv6_3、conv7_3和conv8_3;实验三:在实验二的基础上增加卷积层conv6_4、conv7_4和conv8_4;实验四:以卷积组的形式在原网络结构中增加文本预测卷积组即conv9(conv9_1和conv9_2),并且将conv9_2作为文本预测层,即在该层进行边框回归和文本分类。
对比不同实验的精确率、召回率和综合评价指标,得到如下表所示的结果:
精确率 召回率 综合评价指标
实验一 0.8000 0.2857 0.4211
实验二 0.8200 0.3445 0.4852
实验三 0.8095 0.2857 0.4224
实验四 0.7923 0.6092 0.6888
对比结果表明,本发明的卷积神经网络模型在面向小数据集的自然场景文字检测问题上有较高的文本召回率和较强的模型鲁棒性。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,包括以下步骤:
步骤1:获取数据集:首先获取符合小数据集特性的训练图片,并人为地添加不同程度的椒盐噪声,椒盐噪声是一种典型的数字图像噪声,之后对获得的数据集进行预处理,将获取的图片进行批量重命名和标注,并按PASCAL VOC数据格式制作数据集;
步骤2:数据预处理:在网络读取图片数据之前,对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理;
步骤3:建立网络模型:以VGG-16网络模型为基础网络,将全连接层全改为卷积组,组成全卷积层的神经网络;
步骤4:训练网络:把制作好的数据集输入到步骤3的网络中进行训练;
步骤5:文本框预测:对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本;
步骤6:文本框筛选:通过文本框预测,得到若干文本区域候选框,采用非极大值抑制算法消除多个候选框中的冗余候选框,找到最佳文本框;
步骤7:网络微调:利用反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,反复进行直到达到最大迭代次数;
步骤8:生成检测结果:将图像输入到训练好的模型中进行检测,在文本检测层中输出检测结果;
所述步骤3建立网络模型具体包括:该网络由23个卷积层、23个激励层和5个池化层组成,是一个全卷积神经网络,本模型沿用VGG-16的前五个卷积组,并将最后的两个全连接层fc6、fc7均改为卷积组,并在其后新增添四个卷积组,在新增加的conv6到conv9中,每个卷积组都包含两个卷积层,并且在每个卷积层后都设置了一个激励层,基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3,填充值为1,池化层的池化窗口大小均为2×2,步长为2,经过池化层的下采样后,输出的长和宽均变为输入的一半,模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测,上述的预测层中采用1×5的卷积核,填充值Pad为2,步长为1;
所述步骤4把制作好的数据集输入到步骤3的网络中进行训练,具体包括:
将归一化为300*300的图像输入网络模型中,网络输出为文本定位结果及文本分类的打分,训练基础网络模型。具体采用迭代次数为120000次,每次迭代网络读取的图片数目为32,网络每进行500次迭代便进行一次测试,每次测试读取一张测试图片。测试集中共160张图片,网络训练中每隔10次迭代就输出一次当前训练结果;
所述步骤5对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本,具体包括:
1.采用SSD算法中的Default box机制,设定不同规格的默认框来代替传统的批量滑动窗口,在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框,分别为1、2、3、5、7、10;
2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习,进而得到72维的特征矩阵,其中48维用于回归文本边界框,24维对检测目标进行分类,根据类别得分情况判断预测到的边界框内容是否为文本;
所述进行边框回归和分类的过程为:假设原始输入图片的尺寸大小为(wimg,himg),wimg、himg分别表示原始图片的宽和高。输入文本预测层的特征图的尺寸大小为(wmap,hmap),wmap、hmap分别表示特征图的宽和高,在特征图上坐标为(i,j)的位置上,设置默认文本框坐标db0=(x0,y0,w0,h0),其中,(i,j)表示特征图中每神经元的位置坐标,(x0,y0)代表特征图中每神经元上默认框的中心位置坐标,(w0,h0)表示该默认框的宽和高的尺寸信息,文本预测层预测默认框相对于真实文本框的偏移量,假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c),其中c为预测置信度,用于目标分类,预测到的文本框坐标为db=(x,y,w,h),其计算公式如下。
x=x0+w0Δx,y=y0+h0Δy,w=w0exp(Δw),h=h0exp(Δh)
采用公式(1)计算损失函数。
Figure FDA0003852420720000031
其中x表示和默认框相匹配的矩阵,对于第i个默认文本框和第j个真实文本框,当xij=1时表示两者匹配,反之则不匹配,c为预测置信度,l为网络模型预测的位置坐标,g为文本的真实位置坐标,S为默认文本框和真实文本框匹配的数目,β系数在目标检测问题中一般设置为1,检测目标分类Lconf(x,c)采用的是损失函数为Softmax,边界框回归Lloc(x,l,g)采用的是
Figure FDA0003852420720000032
损失函数,网络训练学习的过程也就是边框回归损失和分类损失不断下降的过程。
2.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,步骤1获取适应于小数据集自然场景的数据集,具体包括:所用的数据集共800张,其中229张是来源于ICDAR2013数据库,该库中的图片数据大部分是街景图片和路牌标识,图片明暗不一且字体多种多样,271张图片是从互联网上爬取的,包括建筑物标识图片和商店文本Logo,在200张图片中加入了不同程度的椒盐噪声,剩余100张图片是由原图做水平翻转得到。
3.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤2数据预处理步骤中,将图片尺寸resize到300×300,具体包括:
1.批量重命名:对所有图片样本通过编写脚本程序进行批量命名,命名规则为使用3位数字;
2.图片标注:采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定;
3.根据PASCAL VOC数据格式制作数据集;
4.数据集划分:将800张图片划分成3个数据集,分别为训练集、验证集和测试集,划分比例为训练集60%、证集20%、测试集20%;
5.数据格式转换:通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。
4.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤6采用非极大值抑制算法消除多个候选框中的冗余候选框的具体实现步骤如下:
1.求得所有文本预测框的面积;
2.对所有文本预测框的分类得分进行排序,将得分最高的边框作为检测目标当前的文本检测框;
3.遍历剩余检测框,并计算其余文本预测框与得分最高边框的交并比(IoU)值,具体计算公式如下:
Figure FDA0003852420720000041
其中,D代表预测的目标框,G代表真实目标框,D∩G代表预测的目标框和真实目标框的重叠部分,D∪G则代表两者的并集;
根据计算所得的交并比,删除IoU大于某阈值的检测框;
4.在未处理的文本框中继续选择一个得分最高的检测框,重复步骤(2)~(4)。
CN202010426676.2A 2020-05-19 2020-05-19 一种基于深度卷积神经网络的自然场景水平文字检测方法 Active CN111753828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010426676.2A CN111753828B (zh) 2020-05-19 2020-05-19 一种基于深度卷积神经网络的自然场景水平文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010426676.2A CN111753828B (zh) 2020-05-19 2020-05-19 一种基于深度卷积神经网络的自然场景水平文字检测方法

Publications (2)

Publication Number Publication Date
CN111753828A CN111753828A (zh) 2020-10-09
CN111753828B true CN111753828B (zh) 2022-12-27

Family

ID=72673411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010426676.2A Active CN111753828B (zh) 2020-05-19 2020-05-19 一种基于深度卷积神经网络的自然场景水平文字检测方法

Country Status (1)

Country Link
CN (1) CN111753828B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348015B (zh) * 2020-11-09 2022-11-18 厦门市美亚柏科信息股份有限公司 一种基于级联神经网络的文字检测方法、装置及存储介质
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN113076900B (zh) * 2021-04-12 2022-06-14 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法
CN113033558B (zh) * 2021-04-19 2024-03-19 深圳市华汉伟业科技有限公司 一种用于自然场景的文本检测方法及装置、存储介质
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN113205511B (zh) * 2021-05-25 2023-09-29 中科芯集成电路有限公司 基于深层神经网络的电子元器件批量信息检测方法及系统
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN113989626B (zh) * 2021-12-27 2022-04-05 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法
CN114332868A (zh) * 2021-12-30 2022-04-12 电子科技大学 一种自然场景下的水平文本检测方法
CN114663868B (zh) * 2022-01-27 2024-09-10 西安交通大学 基于组合学习的视频平台logo检测方法及系统及设备
CN116050383B (zh) * 2023-03-29 2023-06-23 珠海金智维信息科技有限公司 一种理财产品销售环节飞单话术检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110766020A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向多语种自然场景文本检测与识别的系统及方法
CN110956171A (zh) * 2019-11-06 2020-04-03 广州供电局有限公司 铭牌自动识别方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110766020A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向多语种自然场景文本检测与识别的系统及方法
CN110956171A (zh) * 2019-11-06 2020-04-03 广州供电局有限公司 铭牌自动识别方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘战东.基于深度学习的场景文字检测.《中国博士学位论文全文数据库》.2020, *

Also Published As

Publication number Publication date
CN111753828A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN108154192B (zh) 基于多尺度卷积与特征融合的高分辨sar地物分类方法
CN108427924B (zh) 一种基于旋转敏感特征的文本回归检测方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN108399625B (zh) 一种基于深度卷积生成对抗网络的sar图像定向生成方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN111553837A (zh) 一种基于神经风格迁移的艺术文本图像生成方法
CN111612017A (zh) 一种基于信息增强的目标检测方法
CN107480620A (zh) 基于异构特征融合的遥感图像自动目标识别方法
CN112381030B (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN106096658B (zh) 基于无监督深度空间特征编码的航拍图像分类方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN109472733A (zh) 基于卷积神经网络的图像隐写分析方法
CN111401380A (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant