CN109086663A - 基于卷积神经网络的尺度自适应的自然场景文本检测方法 - Google Patents
基于卷积神经网络的尺度自适应的自然场景文本检测方法 Download PDFInfo
- Publication number
- CN109086663A CN109086663A CN201810675506.0A CN201810675506A CN109086663A CN 109086663 A CN109086663 A CN 109086663A CN 201810675506 A CN201810675506 A CN 201810675506A CN 109086663 A CN109086663 A CN 109086663A
- Authority
- CN
- China
- Prior art keywords
- scale
- text
- priori frame
- layers
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,提供了一种基于卷积神经网络的尺度自适应的自然场景文本检测方法。该方法首先利用尺度回归层来学习场景图像中文本的尺度,然后根据文本的尺度对先验框以及感受野的尺寸进行动态调整。该方法设计的网络结构是端到端的,可直接定位出图像中文本框的位置。采用本发明能够实现鲁棒、准确且快速的文本定位,具有很高的实际应用价值。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于卷积神经网络的尺度自适 应的自然场景文本检测方法。
背景技术
自然场景中的文本检测由于其在文档分析、场景理解、机器人导航、图像 检索等众多实际应用中的广泛应用,在计算机视觉领域得到了越来越多的关注。 与文档图像不同,场景图像的背景较为复杂且易遭受不可控环境因素的干扰。 此外,自然场景中的图像还存在文字尺寸、布局和颜色的多变性,因此,自然 场景中的文本检测仍然是一个开放且具有挑战性的问题。
近几年来,受到深度学习方法对于一般对象检测的巨大进步的启发,许多 基于深度学习的方法在文本检测任务上取得了很好的效果。Max Jaderberg等人 (“SpatialTransformer Networks”,In Advances in Neural Information Processing Systems28,2015,2017-2025.)提出了一个基于区域卷积神经网络 (Region-ConvolutionalNeural Network,R-CNN)的文本检测框架,首先使用生成 器生成候选词的大概位置,然后采用CNN来改进单词边界框。Minghui Liao等 人(“Textboxes:A fast text detectorwith a single deep neural network,”in Proc. AAAI,2017,pp.4161–4167.)提出了一个端到端的网络:TextBoxes,通过联合预 测文本是否存在以及多个尺度上与anchor坐标位置的偏移量,直接输出边界框。
一般来说,基于候选框的文本检测器在精确性和鲁棒性方面显著改善了单 个场景词检测性能。但是,现有的工作都是依赖于固定大小的anchor和回归策 略。固定大小的anchor在检测大小不一的文字时有两个主要的问题:首先需要 提前设置不同尺度的大量的anchor来匹配文本形状,例如在TextBoxes中,6个 尺度一共使用了1214个不同比例的anchor,这在计算上是十分低效的。其次, 当对单一尺度(单个特征图)进行预测时,无论anchor的大小是多大,CNN的 标准卷积(“ImageNet Classification with DeepConvolutional Neural Networks”, In Advances in Neural Information ProcessingSystems 25,Curran Associates,Inc., 1097–1105.)中,对应的感受野大小都是固定的,这样会导致对较小或较大的文 字的漏检。
本发明受到以上算法的启发,针对项目需求,提出一种有效的基于卷积神 经网络的尺度自适应的自然场景文本检测方法。
发明内容
本发明的目的:该发明提供了一种尺度自适应的文本检测方法。解决了目 前方法的不足。通过学习目标的尺度,该方法可以自动地设置更贴合目标的先 验框,并且不需要在网络的多个特征图上设置先验框,从而极大减小了计算量 并提升了检测性能。
本发明的技术方案:
一种基于卷积神经网络的尺度自适应的自然场景文本检测方法,步骤如下:
学习尺度因子:学习图像中文本的尺度,设计尺度自适应的先验框以及与 文本尺度相匹配的卷积来提高计算效率与检测精度;
在VGG-16基础网络中引入额外的尺度回归层来生成尺度因子图,然后在损 失函数的预测框参数表示中引入尺度因子,并根据链式法则反向求导传回的梯 度信息更新尺度回归层;
设计尺度自适应的先验框,设置少数具有不同纵横比的先验框作为初始框, 然后根据学习得到的尺度因子图,将每个初始框与对应位置的尺度因子相乘, 使得先验框随着文本的尺度被任意的放大或缩小;相比于尺寸固定的先验框, 本发明设计的尺度自适应的先验框可以更好的匹配各个尺度的文本,提升检测 精度。此外,尺度先验框的设计也大大降低了算法所需要的先验框的数量,从 而极大地提升了计算效率。
尺度自适应感受野的获取和使用:设计与文本尺度相匹配的卷积AnchorConvolution,利用学习得到的尺度因子图对每个文本所对应的任意尺寸的矩形 感受野进行调整,获取每个文本的特征,进一步提高检测精度。
具体步骤如下:
使用VGG16作为基网络,删除Conv4_3norm层后所有层;在Conv4_3norm层后 添加尺度回归层,从尺度回归层得到单通道的尺度因子图;尺度因子图与 Conv4_3norm层具有相同的高和宽;尺度因子图中每个像素点的值表示 Conv4_3norm层中对应位置的尺度;
1)前向传播
首先,设置自适应的先验框;在Conv4_3norm层中的每个像素点设置6个不 同高宽比的先验框,先验框的尺寸参数置为30;使用四元组(x0,y0,h0,w0)表示初始 先验框,实际先验框(x′,y′,h′,w′)的计算公式为:
x′=x0,y′=y0
w=w0×s,h=h0×s
其中,x,y为中心点坐标,h与w分别表示高和宽,s为尺度图中对应位置的 值;
然后,设置Anchor Convolution;假设初始卷积核大小为kh×kw,对应的 感受野P为((kh-1)dhs+1,(kw-1)dws+1dh与dw是dilation参数,s为对应位置的尺度; 设I=P(hij,wij)为特征向量,用(ch,cw)表示P的中点,则:
hij=Ch+idhs,wij=cw+jdws
其中,整数整数用I与卷积核做像素级的乘法;对于kh=1的情况,改变特征向量的选择公式为:
其中,α为权重参数;
2)反向传播
目标函数;对于每个先验框,从Conv4_3norm层分别获得其置信预测和偏置 预测;置信损失使用softmax,偏置损失使用Smooth-L1,则多任务学习的目标函 数为:
其中,indic为正负样本的指示器,N是匹配的正样本数量,config表示置信 度,l表示预测的先验框,g为先验框的ground truth;
自适应先验框关于尺度的梯度,先验框l=(x,y,w,h)的计算公式为:
x=x′+w'Δx
y=y'+h'Δy
w=w'exp(Δw)
h=h'exp(Δh)
则(x,y,w,h)关于s的梯度为:
Anchor Convolution关于尺度的梯度,假设Oxy表示前向传播输出特征图的 元素,则
其中,Φ表示卷积核,I为特征向量,b为偏置,下标为相应坐标;则在AnchorConvolution层,损失函数关于I,Φ和b的梯度分别为:
根据链式求导法则,最终关于尺度的梯度为:
根据上述设置,对网络进行端到端的训练,并用训练好的模型对新数据进 行预测。
本发明的有益效果:该方法首先利用尺度回归层来学习场景图像中文本的 尺度,然后根据文本的尺度对先验框以及感受野的尺寸进行动态调整。该方法 设计的网络结构是端到端的,可直接定位出图像中文本框的位置。采用本发明 能够实现鲁棒、准确且快速的文本定位,具有很高的实际应用价值。
附图说明
图1是本发明的设计原理图。
图2是Anchor Convolution的设计原理图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明基于Caffe框架搭建网络模型,端到端地直接预测出自然场景图像 中文本的位置坐标。
Step 1:数据准备,对场景中的文本框进行标注:(x,y,w,h),其中x,y 为文本框中心点的横坐标和纵坐标,w,h分别为文本框的宽和高。
Step 2:搭建深度网络结构,层次结构如图2所示。使用VGG16作为基网络, 删除Conv4_3norm层后所有层。在Conv4_3norm层后添加尺度回归层,从尺度回 归层得到单通道的尺度图。尺度图与Conv4_3norm层具有相同的高和宽。尺度图 中每个像素点的值表示Conv4_3norm层中对应位置的尺度。
输入层:以场景图像I和对应的文本框标注作为输入,图像大小为300*300。
卷积层:3*3的卷积核提取特征,步长为1,填充为1。
池化层:采用最大池化的方式,2*2的卷积核,步长为2。
尺度回归层:1*5的卷积核提取特征,步长为1,填充分别为0和2。
分类层及框回归层:使用Anchor convolution提取特征。
损失层:最小化损失函数。
Step 3:基于公共平台Caffe进行网络训练。
学习率lr采用了“step”学习率策略:
lr=lrbase×γ
其中,lr表示当前学习率,iter表示当前迭代次数,基本学习率lrbase设置为0.001,stepsize为20000,最大迭代次数为40000。学习率每迭代stepsize次变 化一次。
Step 7:应用训练好的模型进行前向传播产生文本检测结果。
Claims (2)
1.一种基于卷积神经网络的尺度自适应的自然场景文本检测方法,其特征在于,步骤如下:
学习尺度因子:学习图像中文本的尺度,设计尺度自适应的先验框以及与文本尺度相匹配的卷积来提高计算效率与检测精度;
在VGG-16基础网络中引入额外的尺度回归层来生成尺度因子图,然后在损失函数的预测框参数表示中引入尺度因子,并根据链式法则反向求导传回的梯度信息更新尺度回归层;
设计尺度自适应的先验框,设置少数具有不同纵横比的先验框作为初始框,然后根据学习得到的尺度因子图,将每个初始框与对应位置的尺度因子相乘,使得先验框随着文本的尺度被任意的放大或缩小;
尺度自适应感受野的获取和使用:设计与文本尺度相匹配的卷积AnchorConvolution,利用学习得到的尺度因子图对每个文本所对应的任意尺寸的矩形感受野进行调整,获取每个文本的特征,进一步提高检测精度。
2.根据权利要求1所述的基于卷积神经网络的尺度自适应的自然场景文本检测方法,其特征在于,
具体步骤如下:
使用VGG16作为基网络,删除Conv4_3norm层后所有层;在Conv4_3norm层后添加尺度回归层,从尺度回归层得到单通道的尺度因子图;尺度因子图与Conv4_3norm层具有相同的高和宽;尺度因子图中每个像素点的值表示Conv4_3norm层中对应位置的尺度;
1)前向传播
首先,设置自适应的先验框;在Conv4_3norm层中的每个像素点设置6个不同高宽比的先验框,先验框的尺寸参数置为30;使用四元组(x0,y0,h0w0)表示初始先验框,实际先验框(x′,y′,h′,w′)的计算公式为:
x′=x0,y′=y0
w′=w0×s,h′=h0×s
其中,x,y为中心点坐标,h与w分别表示高和宽,s为尺度图中对应位置的值;
然后,设置Anchor Convolution;假设初始卷积核大小为kh×kw,对应的感受野P为((kh-1)dhs+1(kw-1)dws+1);dh与dw是dilation参数,s为对应位置的尺度;设I=P(hij,wij)为特征向量,用(ch,cw)表示P的中点,则:
hij=ch+idhs,wij=cw+jdws
其中,整数整数用I与卷积核做像素级的乘法;对于kh=1的情况,改变特征向量的选择公式为:
其中,α为权重参数;
2)反向传播
目标函数;对于每个先验框,从Conv43norm层分别获得其置信预测和偏置预测;置信损失使用softmax,偏置损失使用Smooth-L1,则多任务学习的目标函数为:
其中,indic为正负样本的指示器,N是匹配的正样本数量,config表示置信度,l表示预测的先验框,g为先验框的ground truth;
自适应先验框关于尺度的梯度,先验框l=(x,y,w,h)的计算公式为:
x=x′+w′Δx
y=y′+h'Δy
w=w′exp(Δw)
h=h′exp(Δh)
则(x,y,w,h)关于s的梯度为:
Anchor Convolution关于尺度的梯度,假设Oxy表示前向传播输出特征图的元素,则
其中,Φ表示卷积核,I为特征向量,b为偏置,下标为相应坐标;则在AnchorConvolution层,损失函数关于I,Φ和b的梯度分别为:
根据链式求导法则,最终关于尺度的梯度为:
根据上述设置,对网络进行端到端的训练,并用训练好的模型对新数据进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810675506.0A CN109086663B (zh) | 2018-06-27 | 2018-06-27 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810675506.0A CN109086663B (zh) | 2018-06-27 | 2018-06-27 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086663A true CN109086663A (zh) | 2018-12-25 |
CN109086663B CN109086663B (zh) | 2021-11-05 |
Family
ID=64839837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810675506.0A Active CN109086663B (zh) | 2018-06-27 | 2018-06-27 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086663B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN110097114A (zh) * | 2019-04-26 | 2019-08-06 | 新华三技术有限公司 | 一种应用于神经网络的先验框确定方法及装置 |
CN110533041A (zh) * | 2019-09-05 | 2019-12-03 | 重庆邮电大学 | 基于回归的多尺度场景文本检测方法 |
CN111860175A (zh) * | 2020-06-22 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种基于轻量化网络的无人机影像车辆检测方法及装置 |
CN112446372A (zh) * | 2020-12-08 | 2021-03-05 | 电子科技大学 | 基于通道分组注意力机制的文本检测方法 |
CN112926582A (zh) * | 2021-03-30 | 2021-06-08 | 江南大学 | 一种基于自适应特征选择和尺度损失函数的文本检测方法 |
CN113361307A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种人脸表情分类方法,装置及存储设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033710A1 (en) * | 2014-09-05 | 2016-03-10 | Xiaoou Tang | Scene text detection system and method |
CN106897732A (zh) * | 2017-01-06 | 2017-06-27 | 华中科技大学 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
CN107610146A (zh) * | 2017-09-29 | 2018-01-19 | 北京奇虎科技有限公司 | 图像场景分割方法、装置、计算设备及计算机存储介质 |
CN107644423A (zh) * | 2017-09-29 | 2018-01-30 | 北京奇虎科技有限公司 | 基于场景分割的视频数据实时处理方法、装置及计算设备 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
-
2018
- 2018-06-27 CN CN201810675506.0A patent/CN109086663B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033710A1 (en) * | 2014-09-05 | 2016-03-10 | Xiaoou Tang | Scene text detection system and method |
CN106897732A (zh) * | 2017-01-06 | 2017-06-27 | 华中科技大学 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
CN107610146A (zh) * | 2017-09-29 | 2018-01-19 | 北京奇虎科技有限公司 | 图像场景分割方法、装置、计算设备及计算机存储介质 |
CN107644423A (zh) * | 2017-09-29 | 2018-01-30 | 北京奇虎科技有限公司 | 基于场景分割的视频数据实时处理方法、装置及计算设备 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
Non-Patent Citations (3)
Title |
---|
MINGHUI LIAO ET AL: "TextBoxes: A Fast Text Detector with a Single Deep Neural Network", 《ARXIV》 * |
RUI ZHANG ET AL: "Scale-adaptive Convolutions for Scene Parsing", 《IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
朱盈盈等: "适用于文字检测的候选框提取算法", 《数据采集与处理》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN110097114A (zh) * | 2019-04-26 | 2019-08-06 | 新华三技术有限公司 | 一种应用于神经网络的先验框确定方法及装置 |
CN110097114B (zh) * | 2019-04-26 | 2021-06-29 | 新华三技术有限公司 | 一种应用于神经网络的先验框确定方法及装置 |
CN110533041A (zh) * | 2019-09-05 | 2019-12-03 | 重庆邮电大学 | 基于回归的多尺度场景文本检测方法 |
CN110533041B (zh) * | 2019-09-05 | 2022-07-01 | 重庆邮电大学 | 基于回归的多尺度场景文本检测方法 |
CN113361307A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种人脸表情分类方法,装置及存储设备 |
CN111860175A (zh) * | 2020-06-22 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种基于轻量化网络的无人机影像车辆检测方法及装置 |
CN111860175B (zh) * | 2020-06-22 | 2021-10-29 | 中国科学院空天信息创新研究院 | 一种基于轻量化网络的无人机影像车辆检测方法及装置 |
CN112446372A (zh) * | 2020-12-08 | 2021-03-05 | 电子科技大学 | 基于通道分组注意力机制的文本检测方法 |
CN112926582A (zh) * | 2021-03-30 | 2021-06-08 | 江南大学 | 一种基于自适应特征选择和尺度损失函数的文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109086663B (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086663A (zh) | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 | |
Zhang et al. | Scale-adaptive convolutions for scene parsing | |
CN106683091B (zh) | 一种基于深度卷积神经网络的目标分类及姿态检测方法 | |
CN107092870B (zh) | 一种高分辨率影像语义信息提取方法 | |
CN109658445A (zh) | 网络训练方法、增量建图方法、定位方法、装置及设备 | |
CN109816725A (zh) | 一种基于深度学习的单目相机物体位姿估计方法及装置 | |
CN108985250A (zh) | 一种基于多任务网络的交通场景解析方法 | |
CN110163836A (zh) | 基于深度学习用于高空巡检下的挖掘机检测方法 | |
CN110246181A (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
CN104392228A (zh) | 基于条件随机场模型的无人机图像目标类检测方法 | |
CN110084304A (zh) | 一种基于合成数据集的目标检测方法 | |
CN109919059A (zh) | 基于深度网络层次化与多任务训练的显著性物体检测方法 | |
Chen et al. | R-CNN-based satellite components detection in optical images | |
CN112966659B (zh) | 一种基于深度学习的视频图像小目标检测方法 | |
CN106875403B (zh) | 一种用于空中加油的仿鹰眼视觉运动目标检测方法 | |
CN110349186A (zh) | 基于深度匹配的大位移运动光流计算方法 | |
CN109063549A (zh) | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 | |
CN110334584A (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN109785359A (zh) | 一种基于深度特征金字塔与跟踪损失的视频目标检测方法 | |
CN112268564B (zh) | 一种无人机降落空间位置和姿态端到端估计方法 | |
CN112669452B (zh) | 一种基于卷积神经网络多分支结构的物体定位方法 | |
CN113989631A (zh) | 一种基于卷积神经网络的红外图像目标检测网络压缩方法 | |
CN111368637A (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN114529949A (zh) | 一种基于深度学习的轻量级手势识别方法 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |