CN109086663B - 基于卷积神经网络的尺度自适应的自然场景文本检测方法 - Google Patents

基于卷积神经网络的尺度自适应的自然场景文本检测方法 Download PDF

Info

Publication number
CN109086663B
CN109086663B CN201810675506.0A CN201810675506A CN109086663B CN 109086663 B CN109086663 B CN 109086663B CN 201810675506 A CN201810675506 A CN 201810675506A CN 109086663 B CN109086663 B CN 109086663B
Authority
CN
China
Prior art keywords
scale
text
layer
prior
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810675506.0A
Other languages
English (en)
Other versions
CN109086663A (zh
Inventor
李豪杰
袁琪
张炳旺
王智慧
刘华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810675506.0A priority Critical patent/CN109086663B/zh
Publication of CN109086663A publication Critical patent/CN109086663A/zh
Application granted granted Critical
Publication of CN109086663B publication Critical patent/CN109086663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明属于计算机视觉技术领域,提供了一种基于卷积神经网络的尺度自适应的自然场景文本检测方法。该方法首先利用尺度回归层来学习场景图像中文本的尺度,然后根据文本的尺度对先验框以及感受野的尺寸进行动态调整。该方法设计的网络结构是端到端的,可直接定位出图像中文本框的位置。采用本发明能够实现鲁棒、准确且快速的文本定位,具有很高的实际应用价值。

Description

基于卷积神经网络的尺度自适应的自然场景文本检测方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于卷积神经网络的尺度自适应的自然场景文本检测方法。
背景技术
自然场景中的文本检测由于其在文档分析、场景理解、机器人导航、图像检索等众多实际应用中的广泛应用,在计算机视觉领域得到了越来越多的关注。与文档图像不同,场景图像的背景较为复杂且易遭受不可控环境因素的干扰。此外,自然场景中的图像还存在文字尺寸、布局和颜色的多变性,因此,自然场景中的文本检测仍然是一个开放且具有挑战性的问题。
近几年来,受到深度学习方法对于一般对象检测的巨大进步的启发,许多基于深度学习的方法在文本检测任务上取得了很好的效果。Max Jaderberg等人(“SpatialTransformer Networks”,In Advances in Neural Information Processing Systems28,2015,2017-2025.)提出了一个基于区域卷积神经网络(Region-Convolutional NeuralNetwork,R-CNN)的文本检测框架,首先使用生成器生成候选词的大概位置,然后采用CNN来改进单词边界框。Minghui Liao等人(“Textboxes:A fast text detector with a singledeep neural network,”in Proc.AAAI,2017,pp.4161–4167.)提出了一个端到端的网络:TextBoxes,通过联合预测文本是否存在以及多个尺度上与anchor坐标位置的偏移量,直接输出边界框。
一般来说,基于候选框的文本检测器在精确性和鲁棒性方面显著改善了单个场景词检测性能。但是,现有的工作都是依赖于固定大小的anchor和回归策略。固定大小的anchor在检测大小不一的文字时有两个主要的问题:首先需要提前设置不同尺度的大量的anchor来匹配文本形状,例如在TextBoxes中,6个尺度一共使用了1214个不同比例的anchor,这在计算上是十分低效的。其次,当对单一尺度(单个特征图)进行预测时,无论anchor的大小是多大,CNN的标准卷积(“ImageNet Classification with DeepConvolutional Neural Networks”,In Advances in Neural Information ProcessingSystems 25,Curran Associates,Inc.,1097–1105.)中,对应的感受野大小都是固定的,这样会导致对较小或较大的文字的漏检。
本发明受到以上算法的启发,针对项目需求,提出一种有效的基于卷积神经网络的尺度自适应的自然场景文本检测方法。
发明内容
本发明的目的:该发明提供了一种尺度自适应的文本检测方法。解决了目前方法的不足。通过学习目标的尺度,该方法可以自动地设置更贴合目标的先验框,并且不需要在网络的多个特征图上设置先验框,从而极大减小了计算量并提升了检测性能。
本发明的技术方案:
一种基于卷积神经网络的尺度自适应的自然场景文本检测方法,步骤如下:
学习尺度因子:学习图像中文本的尺度,设计尺度自适应的先验框以及与文本尺度相匹配的卷积来提高计算效率与检测精度;
在VGG-16基础网络中引入额外的尺度回归层来生成尺度因子图,然后在损失函数的预测框参数表示中引入尺度因子,并根据链式法则反向求导传回的梯度信息更新尺度回归层;
设计尺度自适应的先验框,设置少数具有不同纵横比的先验框作为初始框,然后根据学习得到的尺度因子图,将每个初始框与对应位置的尺度因子相乘,使得先验框随着文本的尺度被任意的放大或缩小;相比于尺寸固定的先验框,本发明设计的尺度自适应的先验框可以更好的匹配各个尺度的文本,提升检测精度。此外,尺度先验框的设计也大大降低了算法所需要的先验框的数量,从而极大地提升了计算效率。
尺度自适应感受野的获取和使用:设计与文本尺度相匹配的卷积AnchorConvolution,利用学习得到的尺度因子图对每个文本所对应的任意尺寸的矩形感受野进行调整,获取每个文本的特征,进一步提高检测精度。
具体步骤如下:
使用VGG16作为基网络,删除Conv4_3norm层后所有层;在Conv4_3norm层后添加尺度回归层,从尺度回归层得到单通道的尺度因子图;尺度因子图与Conv4_3norm层具有相同的高和宽;尺度因子图中每个像素点的值表示Conv4_3norm层中对应位置的尺度;
1)前向传播
首先,设置自适应的先验框;在Conv4_3norm层中的每个像素点设置6个不同高宽比的先验框,先验框的尺寸参数置为30;使用四元组(x0,y0,h0,w0)表示初始先验框,实际先验框(x′,y′,h′,w′)的计算公式为:
x′=x0,y′=y0
w′=w0×s,h′=h0×s
其中,x,y为中心点坐标,h与w分别表示高和宽,s为尺度图中对应位置的值;
然后,设置Anchor Convolution;假设初始卷积核大小为kh×kw,对应的感受野P为((kh-1)dhs+1,(kw-1)dws+1);dh与dw是dilation参数,s为对应位置的尺度;设I=P(hij,wij)为特征向量,用(ch,cw)表示P的中点,则:
hij=ch+idhs,wij=cw+jdws
其中,整数
Figure GDA0001765631900000031
整数
Figure GDA0001765631900000032
用I与卷积核做像素级的乘法;对于kh=1的情况,改变特征向量的选择公式为:
Figure GDA0001765631900000041
其中,α为权重参数;
2)反向传播
目标函数;对于每个先验框,从Conv4_3norm层分别获得其置信预测和偏置预测;置信损失使用softmax,偏置损失使用Smooth-L1,则多任务学习的目标函数为:
Figure GDA0001765631900000042
其中,indic为正负样本的指示器,N是匹配的正样本数量,config表示置信度,l表示预测的先验框,g为先验框的ground truth;
自适应先验框关于尺度的梯度,先验框l=(x,y,w,h)的计算公式为:
x=x′+w′Δx
y=y′+h′Δy
w=w′exp(Δw)
h=h′exp(Δh)
则(x,y,w,h)关于s的梯度为:
Figure GDA0001765631900000043
Anchor Convolution关于尺度的梯度,假设Oxy表示前向传播输出特征图的元素,则
Figure GDA0001765631900000044
其中,Φ表示卷积核,I为特征向量,b为偏置,下标为相应坐标;则在AnchorConvolution层,损失函数关于I,Φ和b的梯度分别为:
Figure GDA0001765631900000051
Figure GDA0001765631900000052
Figure GDA0001765631900000053
根据链式求导法则,最终关于尺度的梯度为:
Figure GDA0001765631900000054
根据上述设置,对网络进行端到端的训练,并用训练好的模型对新数据进行预测。
本发明的有益效果:该方法首先利用尺度回归层来学习场景图像中文本的尺度,然后根据文本的尺度对先验框以及感受野的尺寸进行动态调整。该方法设计的网络结构是端到端的,可直接定位出图像中文本框的位置。采用本发明能够实现鲁棒、准确且快速的文本定位,具有很高的实际应用价值。
附图说明
图1是本发明的设计原理图。
图2是Anchor Convolution的设计原理图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明基于Caffe框架搭建网络模型,端到端地直接预测出自然场景图像中文本的位置坐标。
Step 1:数据准备,对场景中的文本框进行标注:(x,y,w,h),其中x,y为文本框中心点的横坐标和纵坐标,w,h分别为文本框的宽和高。
Step 2:搭建深度网络结构,层次结构如图2所示。使用VGG16作为基网络,删除Conv4_3norm层后所有层。在Conv4_3norm层后添加尺度回归层,从尺度回归层得到单通道的尺度图。尺度图与Conv4_3norm层具有相同的高和宽。尺度图中每个像素点的值表示Conv4_3norm层中对应位置的尺度。
输入层:以场景图像I和对应的文本框标注作为输入,图像大小为300*300。
卷积层:3*3的卷积核提取特征,步长为1,填充为1。
池化层:采用最大池化的方式,2*2的卷积核,步长为2。
尺度回归层:1*5的卷积核提取特征,步长为1,填充分别为0和2。
分类层及框回归层:使用Anchor convolution提取特征。
损失层:最小化损失函数。
Step 3:基于公共平台Caffe进行网络训练。
学习率lr采用了“step”学习率策略:
Figure GDA0001765631900000061
其中,lr表示当前学习率,iter表示当前迭代次数,基本学习率lrbase设置为0.001,stepsize为20000,最大迭代次数为40000。学习率每迭代stepsize次变化一次。
Step 7:应用训练好的模型进行前向传播产生文本检测结果。

Claims (1)

1.一种基于卷积神经网络的尺度自适应的自然场景文本检测方法,其特征在于,步骤如下:
学习尺度因子:学习图像中文本的尺度,设计尺度自适应的先验框以及与文本尺度相匹配的卷积来提高计算效率与检测精度;
在VGG-16基础网络中引入额外的尺度回归层来生成尺度因子图,然后在损失函数的预测框参数表示中引入尺度因子,并根据链式法则反向求导传回的梯度信息更新尺度回归层;
设计尺度自适应的先验框,设置少数具有不同纵横比的先验框作为初始框,然后根据学习得到的尺度因子图,将每个初始框与对应位置的尺度因子相乘,使得先验框随着文本的尺度被任意的放大或缩小;
尺度自适应感受野的获取和使用:设计与文本尺度相匹配的卷积AnchorConvolution,利用学习得到的尺度因子图对每个文本所对应的任意尺寸的矩形感受野进行调整,获取每个文本的特征,进一步提高检测精度;
所述的基于卷积神经网络的尺度自适应的自然场景文本检测方法,具体步骤如下:
使用VGG16作为基网络,删除Conv4_3norm层后所有层;在Conv4_3norm层后添加尺度回归层,从尺度回归层得到单通道的尺度因子图;尺度因子图与Conv4_3norm层具有相同的高和宽;尺度因子图中每个像素点的值表示Conv4_3norm层中对应位置的尺度;
1)前向传播
首先,设置自适应的先验框;在Conv4_3norm层中的每个像素点设置6个不同高宽比的先验框,先验框的尺寸参数置为30;使用四元组(x0,y0,h0,w0)表示初始先验框,实际先验框(x′,y′,h′,w′)的计算公式为:
x′=x0,y′=y0
w′=w0×s,h′=h0×s
其中,x’,y’为中心点坐标,h与w分别表示高和宽,s为尺度图中对应位置的值;
然后,设置Anchor Convolution;假设初始卷积核大小为kh×kw,对应的感受野P为((kh-1)dhs+1,(kw-1)dws+1);dh与dw是dilation参数,s为尺度图中对应位置的值;设I=P(hij,wik)为特征向量,用(ch,cw)表示P的中点,则:
hij=ch+Idhs,wij=cw+jdws
其中,整数
Figure FDA0003241062520000021
整数
Figure FDA0003241062520000022
用I与卷积核做像素级的乘法;对于kh=1的情况,改变特征向量的选择公式为:
Figure FDA0003241062520000023
其中,α为权重参数;
2)反向传播
目标函数;对于每个先验框,从Conv4_3norm层分别获得其置信预测和偏置预测;置信损失使用softmax,偏置损失使用Smooth-L1,则多任务学习的目标函数为:
Figure FDA0003241062520000024
其中,indic为正负样本的指示器,N是匹配的正样本数量,config表示置信度,l表示预测的先验框,g为先验框的ground truth;
自适应先验框关于尺度的梯度,先验框l=(x,y,w,h)的计算公式为:
x=x′+w′Δx
y=y′+h′Δy
w=w′exp(Δw)
h=h′exp(Δh)
则(x,y,w,h)关于s的梯度为:
Figure FDA0003241062520000031
Anchor Convolution关于尺度的梯度,假设Oxy表示前向传播输出特征图的元素,则
Figure FDA0003241062520000032
其中,Φ表示卷积核,I为特征向量,b为偏置,下标为相应坐标;则在AnchorConvolution层,损失函数关于I,Φ和b的梯度分别为:
Figure FDA0003241062520000033
Figure FDA0003241062520000034
Figure FDA0003241062520000035
根据链式求导法则,最终关于尺度的梯度为:
Figure FDA0003241062520000036
根据上述设置,对网络进行端到端的训练,并用训练好的模型对新数据进行预测。
CN201810675506.0A 2018-06-27 2018-06-27 基于卷积神经网络的尺度自适应的自然场景文本检测方法 Active CN109086663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810675506.0A CN109086663B (zh) 2018-06-27 2018-06-27 基于卷积神经网络的尺度自适应的自然场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810675506.0A CN109086663B (zh) 2018-06-27 2018-06-27 基于卷积神经网络的尺度自适应的自然场景文本检测方法

Publications (2)

Publication Number Publication Date
CN109086663A CN109086663A (zh) 2018-12-25
CN109086663B true CN109086663B (zh) 2021-11-05

Family

ID=64839837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810675506.0A Active CN109086663B (zh) 2018-06-27 2018-06-27 基于卷积神经网络的尺度自适应的自然场景文本检测方法

Country Status (1)

Country Link
CN (1) CN109086663B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN110097114B (zh) * 2019-04-26 2021-06-29 新华三技术有限公司 一种应用于神经网络的先验框确定方法及装置
CN110533041B (zh) * 2019-09-05 2022-07-01 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN113361307A (zh) * 2020-03-06 2021-09-07 上海卓繁信息技术股份有限公司 一种人脸表情分类方法,装置及存储设备
CN111860175B (zh) * 2020-06-22 2021-10-29 中国科学院空天信息创新研究院 一种基于轻量化网络的无人机影像车辆检测方法及装置
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112926582B (zh) * 2021-03-30 2021-12-07 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016033710A1 (en) * 2014-09-05 2016-03-10 Xiaoou Tang Scene text detection system and method
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107610146A (zh) * 2017-09-29 2018-01-19 北京奇虎科技有限公司 图像场景分割方法、装置、计算设备及计算机存储介质
CN107644423A (zh) * 2017-09-29 2018-01-30 北京奇虎科技有限公司 基于场景分割的视频数据实时处理方法、装置及计算设备
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016033710A1 (en) * 2014-09-05 2016-03-10 Xiaoou Tang Scene text detection system and method
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107610146A (zh) * 2017-09-29 2018-01-19 北京奇虎科技有限公司 图像场景分割方法、装置、计算设备及计算机存储介质
CN107644423A (zh) * 2017-09-29 2018-01-30 北京奇虎科技有限公司 基于场景分割的视频数据实时处理方法、装置及计算设备
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Scale-adaptive Convolutions for Scene Parsing;Rui Zhang et al;《IEEE International Conference on Computer Vision》;20171225;第2050-2057页 *
TextBoxes: A Fast Text Detector with a Single Deep Neural Network;Minghui Liao et al;《arxiv》;20161121;第1-6页 *
适用于文字检测的候选框提取算法;朱盈盈等;《数据采集与处理》;20171130;第32卷(第6期);第1097一1106页 *

Also Published As

Publication number Publication date
CN109086663A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086663B (zh) 基于卷积神经网络的尺度自适应的自然场景文本检测方法
Zhang et al. Scale-adaptive convolutions for scene parsing
CN108764048B (zh) 人脸关键点检测方法及装置
CN109697435B (zh) 人流量监测方法、装置、存储介质及设备
CN108985250A (zh) 一种基于多任务网络的交通场景解析方法
CN112183414A (zh) 一种基于混合空洞卷积的弱监督遥感目标检测方法
CN110766041A (zh) 一种基于深度学习的害虫检测方法
US20220277541A1 (en) Method and apparatus of training object detection network and object detection method and apparatus
Chen et al. R-CNN-based satellite components detection in optical images
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN113537085A (zh) 基于两次迁移学习和数据增广的船舶目标检测方法
CN111177811A (zh) 一种应用于云平台的消防点位自动布图的方法
CN112966659B (zh) 一种基于深度学习的视频图像小目标检测方法
Lin et al. YOLO-DA: An efficient YOLO-based detector for remote sensing object detection
Kang et al. Yolo-6d+: single shot 6d pose estimation using privileged silhouette information
CN113468993A (zh) 一种基于深度学习的遥感图像目标检测方法
CN111368637A (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN111275748A (zh) 动态环境下基于激光雷达的点云配准方法
Gu et al. Attention grasping network: A real-time approach to generating grasp synthesis
Zhou et al. SURF feature detection method used in object tracking
Xu et al. Application and analysis of recurrent convolutional neural network in visual odometry
Chong et al. Parameter estimation via deep learning for camera localization
CN117058556B (zh) 基于自监督蒸馏的边缘引导sar图像舰船检测方法
Cao et al. A method based on faster RCNN network for object detection
CN116386089B (zh) 运动场景下人体姿态估计方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant