CN111553347B - 一种面向任意角度的场景文本检测方法 - Google Patents

一种面向任意角度的场景文本检测方法 Download PDF

Info

Publication number
CN111553347B
CN111553347B CN202010339741.8A CN202010339741A CN111553347B CN 111553347 B CN111553347 B CN 111553347B CN 202010339741 A CN202010339741 A CN 202010339741A CN 111553347 B CN111553347 B CN 111553347B
Authority
CN
China
Prior art keywords
text
training
region
angle
rotating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010339741.8A
Other languages
English (en)
Other versions
CN111553347A (zh
Inventor
杨海东
巴姗姗
黄坤山
彭文瑜
林玉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Original Assignee
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute, Foshan Guangdong University CNC Equipment Technology Development Co. Ltd filed Critical Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Priority to CN202010339741.8A priority Critical patent/CN111553347B/zh
Publication of CN111553347A publication Critical patent/CN111553347A/zh
Application granted granted Critical
Publication of CN111553347B publication Critical patent/CN111553347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向任意角度的场景文本检测方法,包括以下步骤,S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数等6个步骤,本发明克服了预测目标位置粗略、垂直方向的文字检测不准确等问题,提高了文本检测的准确性。

Description

一种面向任意角度的场景文本检测方法
技术领域
本发明涉及文本检测技术领域,尤其涉及一种面向任意角度的场景文本检测方法。
背景技术
文字是人类千百年来沉淀的成果,它所包含的信息常常精确且全面,对人类理解图像具有很大的帮助。当今时代,人们喜欢通过手机或摄像机拍摄的图片通过社交软件来分享并记录自己的生活及工作等,其中图片中的文本信息更能直观地呈现出所表达的内容,文本属于高层视觉元素,对于文本检测、定位、识别是图像理解中的重要组成部分。文本检测一般分为文档文本的图像检测算法和自然场景文本的检测算法,由于场景文本的背景取材不定,不像文档文本那样单一;场景文本的形状、大小、字体、颜色排列各异,不像文档文本整齐划一;另外拍照时可能出现抖动、遮挡、分辨率过低等。在这些情况下,文本信息大打折扣,再加上背景的复杂性,场景图像文本检测的难度可谓不言自明。现有技术存在的文本检测方法,例如首先运用分段网络生成文本预测图,再利用几何方法回归,但是在分段时通常很耗时,且文本垂直方向时可能预测不准;有的方法虽然提取的语义信息丰富,但目标位置比较粗略,小的文本目标容易被忽略,导致准确性较低。本发明提出一种方法,可实现任意角度的场景文本检测,同时提高检测速度和准确率。
发明内容
针对上述问题,本发明提出一种面向任意角度的场景文本检测方法,主要解决背景技术中的问题。
本发明提出一种面向任意角度的场景文本检测方法,包括以下步骤:
S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;
S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;
S3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;
S4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;
S5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;
S6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。
进一步改进在于,所述步骤S2还包括:
首先对训练图片进行缩放处理,然后经过卷积层和池化层进行特征提取,其中所有卷积层的卷积核大小都是3x3,步长是1,填充是1,这种设置使卷积后不改变特征图的大小;所有的池化层的池化核大小为2x2,步长为2,每经过一次池化,输出特征图的长宽都会变为原来的1/2,卷积神经网络最后一层输出的特征图的长宽均为原图的1/16。
进一步改进在于,所述步骤S2还包括:
将卷积神经网络的最后一层特征输入所述旋转区域提议网络,首先对输入特征使用一个n x n的窗口使每个滑动窗口都映射到一个低维特征,然后将低维特征输入到两个平行的卷积层中,一个是分类层,一个是回归层。
进一步改进在于,所述步骤S3还包括:
将文本区域的真实边界表示为具有5个元组(x,y,w,h,θ)的旋转边界框,每一个判定为文本区域的旋转边界框,输出7维预测向量(文本分类2维,旋转边界框坐标偏移量5维),坐标(x,y)表示边界框的几何中心,高度h为边界框的短边,宽度w为边界框的长边,方向θ为从x轴的正方向到与旋转的边界框的长边平行的方向的角度,由于场景文本检测读取方向及其相反方向不会影响检测到的区域,因此方向参数θ只覆盖一半的角度空间。假设旋转框的方向是θ,θ+kπ在区间[-π/4,3π/4)内,并且只有一个整数k,可以将θ+kπ更新为θ。
进一步改进在于,所述步骤S3还包括:
在训练过程中,首先添加方向参数以控制候选框方向,使用6个不同方向的输入,即-π/6,0,π/6,π/3,π/2,2π/3,它们在方向覆盖和计算效率之间进行权衡;其次,预置旋转默认框的宽高比设为1:2、1:5和1:8以覆盖广泛的文本行,为了不忽略小文本目标,尺度设为4、8、16和32,在滑动位置的特征图上的每一点将生成72个旋转默认框,每个滑动窗口位置分别产生用于分类层的360个输出和用于回归层的288个输出,因此为高度为H宽度为W特征图共生成H x W x 72个旋转默认框。
进一步改进在于,对旋转区域提议网络输入一张图像,会输出大量的旋转默认框,而旋转默认框中包含着大量的不平衡的正负样本,正负样本区域提取的划定准则为:
(1)将交并比IOU定义为真实边框和旋转默认框的重叠度;
(2)正样本情形:与真实边框的IOU>0.7,或与真实边框的0.3<IOU<0.7且角度夹角小于π/12;
(3)负样本情形:与真实边框的IOU<0.3,或与真实边框的IOU>0.7但与真实边框的角度夹角大于π/12;
(4)没有被归为上述两种情况的样本在训练过程中不被使用;
如果对所有的旋转默认框进行训练,则训练结果会偏向负样本,因为负样本多,因此训练时从默认框中随机采样出256个旋转默认框,正负样本比例保持在1:1,使训练更加稳定;如果一张图像中正样本不满128个的话,用负样本来做填充,将这256个旋转默认框作为样本计算损失函数。
进一步改进在于,对样本损失函数采用多重任务损失形式,直到损失函数收敛时训练完成,使用的损失函数定义为如下形式:
L(p,l,v*,v)=Lcls(p,l)+λ*l*Lreg(v*,v)
其中l=1代表前景,l=0代表背景,p是分类的概率,v*代表真实边框回归的目标元组,v代表文本标签的预测元组,两项之间的权衡由平衡参数λ控制,对于分类损失定义为:
Lcls(p,l)=-log(pl)
对于边界框的回归,背景区域被忽略,我们对文本区域采用smooth-L1损失,损失函数定义为:
Figure BDA0002468130230000051
Figure BDA0002468130230000052
进一步改进在于,在步骤2得到文本区域过程中还包括:
计算旋转候选框中两个矩形的交点和一个顶点,使用红色虚线将交叠区域划分为多个三角形,通过计算多个三角形的和,从而得到交叠区域的面积;并且,(1)保留IOU大于0.7中IOU最大的框;(2)如果所有候选框的IOU都介于0.3和0.7之间,保留与真实文本框有最小角度差的框(角度差应小于π/12)。
进一步改进在于,在所述步骤S4中,通过旋转池化操作得到固定大小的特征图的过程如下:
(1)将固定特征图的大小设置为Hr和Wr,对于高度h,宽度w的候选框,旋转后的候选区域可以划分为(h/Hr×w/Wr)个大小为Hr×Wr的子区域,每个子区域的方向与候选框相同;
(2)对每一个子区域的四个顶点进行仿射变换,得到子区域的边界;
(3)执行最大池化得到一个固定大小的特征图。
与现有技术相比,本发明的有益效果为:
1、本发明选用(x,y,w,h,θ)表示旋转框,比较容易计算两个旋转的角度差异。与传统的8点表示法相比,本方法更能很好回归带有旋转的目标检测情形,能够高效的计算经过旋转之后训练图片的真实边界。
2、本发明在预置旋转默认框时,设计了4、8、16和32的尺度及1:2、1:5和1:8的宽高比。覆盖了广泛的文本行,且克服了忽略小文本目标的可能性,提高了文本检测的准确性。
3、本发明创造性地提出了旋转池化操作,一方面是为了适应最后的全连接层的尺度问题,因为全连接层需要固定尺寸计算,否则维度不同,因此使用旋转池化将获得的多种维度的特征图固定到统一尺寸大小的特征图;另一方面是提升训练速度,只需要一次性通过卷积层获得特征图,然后通过映射就可以获得真实文本框与所产生的旋转默认框进行IOU值计算来确定正负样本,提升了不少的速度。
4、本发明采用带旋转角度的非最大值抑制方法,并提出了一种斜交矩形交叠面积的方法来计算倾斜相交的候选框的IOU,克服了传统的计算轴对齐候选框的IOU的计算方法。
5、本发明是基于旋转的检测框架,可用于检测任意角度方向的场景文本图像。
附图说明
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明一实施方式的整体流程示意图;
图2为本发明一实施方式的算法框架示意图;
图3为本发明一实施方式的预置旋转默认框方框示意图;
图4为本发明一实施方式的旋转候选框IOU计算示意图。
具体实施方式
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。
本发明公开了一种面向任意角度的场景文本检测方法,可以克服预测目标位置粗略、垂直方向的文字检测不准确等问题。首先获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;然后将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络输出文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;接着重新选取训练图片,以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;最后把训练集训练完成后,将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。
一种面向任意角度的场景文本检测方法,包括以下步骤:
S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;
S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;
S3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;
S4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;
S5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;
S6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。
作为本发明一优选实施方案,所述步骤S2还包括:
在步骤2中构建的卷积神经网络,处理的图像长宽比基本上符合5:3,因此首先对输入图像进行缩放处理,然后经过卷积层(13个)和池化层(4个)进行特征提取。其中所有卷积层的卷积核大小(kernel_size)都是3x3,步长(stride)是1,填充(pad)是1,这种设置使卷积后不改变特征图的大小;所有的池化层的池化核大小(kernel_size)为2x2,步长(stride)为2,这样每经过一次池化,输出特征图的长宽都会变为原来的1/2,卷积神经网络最后一层输出的特征图的长宽均为原图的1/16。
作为本发明一优选实施方案,所述步骤S2还包括:
在步骤2中构建的旋转区域提议网络,将卷积神经网络的最后一层特征输入该网络,首先对输入特征使用一个n x n的窗口使每个滑动窗口都映射到一个低维特征,然后将低维特征输入到两个平行的卷积层中,一个是分类层(文本区域是前景或背景),一个是回归层(文本区域位置)。为使输入图像上有效的接受域更大,我们使用的n=3,后面是两个1x1的平行卷积层。
作为本发明一优选实施方案,所述步骤S3还包括:
将文本区域的真实边界表示为具有5个元组(x,y,w,h,θ)的旋转边界框,每一个判定为文本区域的旋转边界框,输出7维预测向量(文本分类2维,旋转边界框坐标偏移量5维),坐标(x,y)表示边界框的几何中心,高度h为边界框的短边,宽度w为边界框的长边,方向θ为从x轴的正方向到与旋转的边界框的长边平行的方向的角度,由于场景文本检测读取方向及其相反方向不会影响检测到的区域,因此方向参数θ只覆盖一半的角度空间。假设旋转框的方向是θ,θ+kπ在区间[-π/4,3π/4)内,并且只有一个整数k,可以将θ+kπ更新为θ。
作为本发明一优选实施方案,所述步骤S3还包括:
在训练过程中,使用传统的尺度和宽高比参数的文本框不足以进行自然场景文本检测,因此我们使用旋转框,首先添加方向参数以控制候选框方向,使用6个不同方向的输入,即-π/6,0,π/6,π/3,π/2,2π/3,它们在方向覆盖和计算效率之间进行权衡;其次,由于文本区域通常具有特殊的形状,因此将预置旋转默认框的宽高比设为1:2、1:5和1:8以覆盖广泛的文本行,为了不忽略小文本目标,尺度设为4、8、16和32,如图3所示。在滑动位置的特征图上的每一点将生成72个旋转默认框(6个方向3个宽高比4个尺度),每个滑动窗口位置分别产生用于分类层的360个输出(即5x 72)和用于回归层的288个输出(即4x 72)。因此为高度为H宽度为W特征图共生成H x W x 72个旋转默认框。
作为本发明一优选实施方案,对旋转区域提议网络输入一张图像,会输出大量的旋转默认框,而旋转默认框中包含着大量的不平衡的正负样本,正负样本区域提取的划定准则为:
(1)将交并比IOU定义为真实边框和旋转默认框的重叠度;
(2)正样本情形:与真实边框的IOU>0.7,或与真实边框的0.3<IOU<0.7且角度夹角小于π/12;
(3)负样本情形:与真实边框的IOU<0.3,或与真实边框的IOU>0.7但与真实边框的角度夹角大于π/12;
(4)没有被归为上述两种情况的样本在训练过程中不被使用;
如果对所有的旋转默认框进行训练,则训练结果会偏向负样本,因为负样本多,因此训练时从默认框中随机采样出256个旋转默认框,正负样本比例保持在1:1,使训练更加稳定;如果一张图像中正样本不满128个的话,用负样本来做填充,将这256个旋转默认框作为样本计算损失函数。
作为本发明一优选实施方案,对样本损失函数采用多重任务损失形式,直到损失函数收敛时训练完成,使用的损失函数定义为如下形式:
L(p,l,v*,v)=Lcls(p,l)+λ*l*Lreg(v*,v)
其中l=1代表前景,l=0代表背景,p是分类的概率,v*代表真实边框回归的目标元组,v代表文本标签的预测元组,两项之间的权衡由平衡参数λ控制,对于分类损失定义为:
Lcls(p,l)=-log(pl)
对于边界框的回归,背景区域被忽略,我们对文本区域采用smooth-L1损失,损失函数定义为:
Figure BDA0002468130230000111
Figure BDA0002468130230000112
作为本发明一优选实施方案,在步骤2得到文本区域过程中还包括:
在步骤2得到文本区域过程中,由于旋转候选框可以在任何方向上生成,因此在轴对齐候选框上的IOU计算可能导致倾斜相交的候选框的IOU计算错误,并进一步破坏了候选框学习。因此设计了一种计算斜交矩形交叠面积的方法,方法示意图如图4所示,计算两个矩形的交点和一个顶点,使用红色虚线将交叠区域划分为多个三角形,通过计算多个三角形的和,从而得到交叠区域的面积。传统的非极大值抑制只考虑了IOU,对于斜交情况下的检测结果不适用,例如:角度差小于的旋转框与真实文本框的IOU的值为0.4,其小于0.7,然而它可以被注释为正样本。因此我们考虑了IOU与旋转角度,新的方法由两部组成:(1)保留IOU大于0.7中IOU最大的框;(2)如果所有候选框的IOU都介于0.3和0.7之间,保留与真实文本框有最小角度差的框(角度差应小于π/12)。
作为本发明一优选实施方案,在所述步骤S4中,通过旋转池化操作得到固定大小的特征图的过程如下:
(1)将固定特征图的大小设置为Hr和Wr,对于高度h,宽度w的候选框,旋转后的候选区域可以划分为(h/Hr×w/Wr)个大小为Hr×Wr的子区域,每个子区域的方向与候选框相同;
(2)对每一个子区域的四个顶点进行仿射变换,得到子区域的边界;
(3)执行最大池化得到一个固定大小的特征图。
图中,描述位置关系仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种面向任意角度的场景文本检测方法,其特征在于,包括以下步骤:
S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;
S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;
S3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;
所述步骤S3还包括:
将文本区域的真实边界表示为具有5个元组( x,,,h,)的旋转边界框,每一个判定为文本区域的旋转边界框,输出7维预测向量,坐标( ,y )表示边界框的几何中心,高度h为边界框的短边,宽度w为边界框的长边,方向θ为从x轴的正方向到与旋转的边界框的长边平行的方向的角度,由于场景文本检测读取方向及其相反方向不会影响检测到的区域,因此方向参数θ只覆盖一半的角度空间;
对旋转区域提议网络输入一张图像,会输出大量的旋转默认框,而旋转默认框中包含着大量的不平衡的正负样本,正负样本区域提取的划定准则为:
(1)将交并比IOU定义为真实边框和旋转默认框的重叠度;
(2)正样本情形:与真实边框的IOU>0.7,或与真实边框的0.3<IOU<0.7且角度夹角小于π/12;
(3)负样本情形:与真实边框的IOU<0.3,或与真实边框的IOU>0.7但与真实边框的角度夹角大于π/12;
(4)没有被归为上述两种情况的样本在训练过程中不被使用;
如果对所有的旋转默认框进行训练,则训练结果会偏向负样本,因为负样本多,因此训练时从默认框中随机采样出256个旋转默认框,正负样本比例保持在1∶1,使训练更加稳定;如果一张图像中正样本不满128个的话,用负样本来做填充,将这256个旋转默认框作为样本计算损失函数;
对样本损失函数采用多重任务损失形式,直到损失函数收敛时训练完成,使用的损失函数定义为如下形式:
L(p,l,v*,v)=Lcls(p,l)+λ*l*Lreg(v*,v)
其中l=1代表前景,l=0代表背景,p是分类的概率,v*代表真实边框回归的目标元组,v代表文本标签的预测元组,两项之间的权衡由平衡参数λ控制,对于分类损失定义为:
Lcls(p,l)=-log(pl)
对于边界框的回归,背景区域被忽略,我们对文本区域采用smooth-L1损失,损失函数定义为:
Figure FDA0004053563390000021
Figure FDA0004053563390000022
S4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;
S5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;
S6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。
2.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:
首先对训练图片进行缩放处理,然后经过卷积层和池化层进行特征提取,其中所有卷积层的卷积核大小都是3x3,步长是1,填充是1,这种设置使卷积后不改变特征图的大小;所有的池化层的池化核大小为2x2,步长为2,每经过一次池化,输出特征图的长宽都会变为原来的1/2,卷积神经网络最后一层输出的特征图的长宽均为原图的1/16。
3.根据权利要求2所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:
将卷积神经网络的最后一层特征输入所述旋转区域提议网络,首先对输入特征使用一个n x n的窗口使每个滑动窗口都映射到一个低维特征,然后将低维特征输入到两个平行的卷积层中,一个是分类层,一个是回归层。
4.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S3还包括:
在训练过程中,首先添加方向参数以控制候选框方向,使用6个不同方向的输入,即-π/6,0,π/6,π/3,π/2,2π/3,它们在方向覆盖和计算效率之间进行权衡;其次,预置旋转默认框的宽高比设为1:2、1:5和1:8以覆盖广泛的文本行,为了不忽略小文本目标,尺度设为4、8、16和32,在滑动位置的特征图上的每一点将生成72个旋转默认框,每个滑动窗口位置分别产生用于分类层的360个输出和用于回归层的288个输出,因此为高度为H宽度为W特征图共生成H x W x 72个旋转默认框。
5.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,在步骤2得到文本区域过程中还包括:
计算旋转候选框中两个矩形的交点和一个顶点,使用红色虚线将交叠区域划分为多个三角形,通过计算多个三角形的和,从而得到交叠区域的面积;并且,(1)保留IOU大于0.7中IOU最大的框;(2)如果所有候选框的IOU都介于0.3和0.7之间,保留与真实文本框有最小角度差的框。
6.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,在所述步骤S4中,通过旋转池化操作得到固定大小的特征图的过程如下:
(1)将固定特征图的大小设置为Hr和Wr,对于高度h,宽度w的候选框,旋转后的候选区域划分为(h/Hr×w/Wr)个大小为Hr×Wr的子区域,每个子区域的方向与候选框相同;
(2)对每一个子区域的四个顶点进行仿射变换,得到子区域的边界;
(3)执行最大池化得到一个固定大小的特征图。
CN202010339741.8A 2020-04-26 2020-04-26 一种面向任意角度的场景文本检测方法 Active CN111553347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010339741.8A CN111553347B (zh) 2020-04-26 2020-04-26 一种面向任意角度的场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010339741.8A CN111553347B (zh) 2020-04-26 2020-04-26 一种面向任意角度的场景文本检测方法

Publications (2)

Publication Number Publication Date
CN111553347A CN111553347A (zh) 2020-08-18
CN111553347B true CN111553347B (zh) 2023-04-18

Family

ID=72000474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010339741.8A Active CN111553347B (zh) 2020-04-26 2020-04-26 一种面向任意角度的场景文本检测方法

Country Status (1)

Country Link
CN (1) CN111553347B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101351B (zh) * 2020-09-07 2024-04-19 凌云光技术股份有限公司 一种基于投影的文本行旋转校正方法及装置
CN112163492B (zh) * 2020-09-21 2023-09-08 华南理工大学 一种长时跨场景优化的交通物体检测方法、系统及介质
CN112529095B (zh) * 2020-12-22 2023-04-07 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
CN112766266B (zh) * 2021-01-29 2021-12-10 云从科技集团股份有限公司 基于分阶段概率统计的文本方向矫正方法、系统及装置
CN112560857B (zh) * 2021-02-20 2021-06-08 鹏城实验室 文字区域边界检测方法、设备、存储介质及装置
CN112733822B (zh) * 2021-03-31 2021-07-27 上海旻浦科技有限公司 一种端到端文本检测和识别方法
CN113283418B (zh) * 2021-04-15 2024-04-09 南京大学 一种文本检测攻击方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001039487A1 (en) * 1999-11-24 2001-05-31 Gtx Corporation Method and apparatus for automatic cleaning and enhancing of scanned documents
CN109902680A (zh) * 2019-03-04 2019-06-18 四川长虹电器股份有限公司 基于卷积神经网络的图片旋转角度检测与校正方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001039487A1 (en) * 1999-11-24 2001-05-31 Gtx Corporation Method and apparatus for automatic cleaning and enhancing of scanned documents
CN109902680A (zh) * 2019-03-04 2019-06-18 四川长虹电器股份有限公司 基于卷积神经网络的图片旋转角度检测与校正方法

Also Published As

Publication number Publication date
CN111553347A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111553347B (zh) 一种面向任意角度的场景文本检测方法
CN110135424B (zh) 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
JP4738469B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
US20240177307A1 (en) Teeth segmentation using neural networks
CN111401266B (zh) 绘本角点定位的方法、设备、计算机设备和可读存储介质
CN112633277A (zh) 基于深度学习的航道船牌检测、定位及识别方法
Yang et al. A multi-task Faster R-CNN method for 3D vehicle detection based on a single image
US20110050685A1 (en) Image processing apparatus, image processing method, and program
CN113298169A (zh) 一种基于卷积神经网络的旋转目标检测方法及装置
EP4096569A1 (en) Teeth segmentation using neural networks
Han et al. CAD-based 3D objects recognition in monocular images for mobile augmented reality
US20240153138A1 (en) Methods, systems, and computer-readable storage mediums for positioning target object
CN114529925B (zh) 一种全线表表格结构识别方法
CN115457565A (zh) 一种ocr文字识别方法、电子设备及存储介质
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN114972763A (zh) 激光雷达点云分割方法、装置、设备及存储介质
CN113177503A (zh) 基于yolov5的任意朝向目标十二参数检测方法
CN115019181B (zh) 遥感图像旋转目标检测方法、电子设备及存储介质
CN114399781A (zh) 文档图像处理方法及装置、电子设备、存储介质
CN113269049A (zh) 一种用于检测手写汉字区域的方法
Shen et al. A progressive method for the collapse of river representation considering geographical characteristics
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
CN111526422B (zh) 一种视频帧中目标对象的拟合方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant