CN108427924B - 一种基于旋转敏感特征的文本回归检测方法 - Google Patents
一种基于旋转敏感特征的文本回归检测方法 Download PDFInfo
- Publication number
- CN108427924B CN108427924B CN201810195630.7A CN201810195630A CN108427924B CN 108427924 B CN108427924 B CN 108427924B CN 201810195630 A CN201810195630 A CN 201810195630A CN 108427924 B CN108427924 B CN 108427924B
- Authority
- CN
- China
- Prior art keywords
- ftr
- text
- bounding box
- regression
- rotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于旋转敏感特征的文本回归检测方法,通过方向响应卷积网络得到旋转敏感特征,用于包围盒的回归任务,得到包围盒的位置信息;然后,通过方向响应池化,将旋转敏感特征转化为旋转不变特征,用于包围盒的分类任务,得到包围盒是否属于文本的类别信息;最后,仅需简单后处理即可得到检测结果。该方法对于分类和回归区分设计的特征能适应自然场景图片里任意变化角度的文本,并且可以端到端训练,这种将分类和回归不共享特征的方法也可以应用到一般物体检测的框架中。本发明提出的检测方法相对于现有技术思路新颖,在准确度和通用性这些方面都取得了卓越的效果,有很强的实际应用价值。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于旋转敏感特征的文本回归检测方法。
背景技术
在计算机视觉领域中,读取自然图片中的文本是一个非常活跃的、具有挑战性的研究方向,很多现实生活中的应用都和它息息相关,例如车牌号码识别、交通指示牌识别、基于图片的地理定位、商品图像检索等。读取自然图片中的文本通常分为2个步骤:第一步是检测自然图片中的文字区域,第二步是对文字区域进行识别,获取文字内容。其中第一步文字检测是非常重要的环节,它直接影响着第二步的识别结果。
由于近年来一般物体检测技术已经取得了巨大的成功,一些研究人员将一般物体检测技术应用于自然场景文字检测中,使得自然场景文字检测取得了较大的进步。但是相对于一般物体检测,由于文字出现方向任意、长宽比变化范围大、尺度变化范围大、背景复杂,自然场景文字仍然具有较大的挑战性。
通常一般物体检测包含物体类别预测(即分类)和物体包围盒回归2个任务,这2个任务共享卷积神经网络提取到的旋转不变特征,最近的自然场景文字检测技术也采用了相同的框架。容易知道,旋转不变特征有助于提高分类任务的性能,但是不利于回归多方向的包围盒,因此在分类任务和包围盒回归任务中使用共享的旋转不变特征是冲突的。在物体长宽比变化不大时这一冲突点并不明显,但是对于长宽比变化范围较大的自然场景文字,尤其是多方向的细条形非拉丁文字行,使用旋转不变特征会影响回归多方向的包围盒。
发明内容
本发明的目的在于提供一种基于旋转敏感特征的文本回归检测方法,该检测方法使用旋转不变特征处理分类任务,使用旋转敏感特征处理多方向包围盒回归任务,准确率高可以嵌入到通用的多方向物体检测框架中,并且适合拉丁和非拉丁文本。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测问题,提供了一种基于旋转敏感特征的文本回归检测方法,包括下述步骤:
(1)训练基于旋转敏感特征的文本回归检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的四个顶点坐标,顶点为顺时针标注,其中文本包围盒为四边形,得到带标注的标准训练数据集;
(1.2)定义基于旋转敏感特征的文本回归检测网络模型,所述检测网络模型由特征提取模块、回归分支和分类分支组成,根据(1.1)带标注的标准训练数据集,计算训练标签,设计损失函数,利用反向传导方法训练该文本回归检测网络,得到文本回归检测网络模型;具体包括如下子步骤:
(1.2.1)构建基于旋转敏感特征的文本回归检测网络模型:所述检测网络模型如图2和图3所示,由特征提取模块、回归分支和分类分支组成;特征提取模块由方向响应卷积网络组成,它以VGG16为基本网络,将常规卷积滤波器变换为主动卷积滤波器(ARF),其中,传统的卷积(conv)变换为方向响应卷积(ORconv),包括13层(ORconv1_1,ORconv1_2,pool1,ORconv2_1,ORconv2_2,pool2,ORconv3_1,ORconv3_3,ORconv3_3,pool3,ORconv4_1,ORconv4_2,ORconv4_3),用于提取低层特征用于检测;后面为5个额外添加的卷积单元,包括10层(ORconv6,ORconv7,ORconv8_1,ORconv8_2,ORconv9_1,ORconv9_2,ORconv10_1,ORconv10_2,ORconv11_1,ORconv11_2),用于提取高层深度特征进行检测,其中ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2为6个待提取特征层;待提取特征层之后分别接入了回归分支模块和分类分支模块,其中回归分支包含感知块(InceptionBlock),它由m×m、m×n、n×m这三种尺度的卷积核组合而成,有利于适应多方向长文本的尺度和长宽比变化,三种卷积核输出的特征进行组合用于预测位置偏移量,其中m=3,对于待提取特征层ORconv4_3、ORconv6,n=9,对于待提取特征层ORconv8_2、ORconv9_2,n=7,对于待提取特征层ORconv10_2、ORconv11_2,n=5;分类分支模块包含池化层和感知块,感知块结构和回归分支相同,用于预测文本和非文本类别;
(1.2.2)根据特征图在原图上产生水平初始包围盒,计算训练标签,包括位置偏移量和类别:对于标准训练数据集Itr的第k张图片Itrk,将图片Itrk的宽度和高度分别缩放到预设宽度W和预设高度H;一般地,默认取值为384和384,对Itrk上任一标注的文本四边形包围盒Gq=(v1,v2,v3,v4),其中vi=(xi,yi)为四边形第i个顶点横、纵坐标,下标i=1,2,3,4,Gb=(b1,b2,b3,b4)为包围Gq的最小水平矩形;首先,根据设计的初始点算法(First-Point,简称FP),对标注包围盒Gq四个顶点的顺序进行矫正,对于Gq四个顶点中的每一个点,计算该点与矩形Gb四个顶点之间的欧氏距离,距离之和最小的顶点被确定为Gq的初始顶点v′1,依旧按照顺时针顺序形成新的四边形标注包围盒Gq=(v1′,v′2,v′3,v′4),公式如下:
其中,dE表示矩形顶点bi和四边形顶点v(i+j-2)%4+1之间的欧氏距离,j为下标,表示欧式距离之和最小对应的下标j,v′1表示新的初始顶点,v′2、v′3、v′4分别为新的第二顶点、第三顶点、第四顶点;以6个待提取特征图中的每张特征图上的每个像素对应到原图,产生许多初始包围盒,计算初始包围盒Q0相对于新的四边形标注包围盒Gq的位置偏移量和类别,当所有的标注包围盒Gq与初始包围盒Q0的Jaccard系数均小于0.5,那么,初始包围盒Q0被标记为负类非文本,类别标签c取值为0;否则,即至少存在一个标注包围盒Gq与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签c取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
其中,分别为初始包围盒Q0的第i个顶点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δxi、Δyi分别为Q0的第i个顶点相对于Gq的第i个顶点的横、纵坐标位置偏移量,gt=(Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4,c)构成最终的训练标签;
(1.2.3)以标准训练数据集Itr作为检测网络模型的输入,利用特征提取模块提取旋转敏感特征:对模型初始化网络权重和偏置,以标准训练数据集Itr作为步骤(1.2.1)中检测网络模型特征提取模块的输入,对于图片Itrk,方向响应网络的主动旋转滤波器(ARF)对Itrk进行方向响应卷积(ORconv)操作,主动旋转滤波器包含一个传统的卷积滤波器和由它每旋转θ角度得到的滤波器组合而成,这种旋转的卷积操作构成方向响应卷积,本发明中θ取值为45°,主动旋转滤波器由旋转0°、45°、90°、135°、180°、225°、270°、315°的8个卷积滤波器组成,第g层中间特征图每经过一次主动旋转滤波器卷积之后,生成旋转敏感特征图Ftrg=[Ftrg1,Ftrg2,Ftrg3,Ftrg4,Ftrg5,Ftrg6,Ftrg7,Ftrg8],记wl、hl分别为Ftrg的宽度和高度,则Ftrg上的任一坐标(xl,yl)对应上输入图片Itrk上以(xa,ya)为中心点坐标的网格Q0,(xa,ya)的计算公式如下:
在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产多种长宽比的水平初始包围盒Q0,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:
其中,Smin和Smax分别表示最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示第l层特征图对应的初始包围盒尺度;选取6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2的输出特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],作为用于后续回归分支和分类分支的旋转敏感特征;
(1.2.4)将旋转敏感特征输入分类分支,通过响应池化操作得到旋转不变特征,利用旋转不变特征预测初始包围盒的分类得分:对于图片Itrk经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],记第p个特征提取层输出的旋转敏感特征图为Ftrp,下标p=1,2,3,4,5,6,对Ftrp进行方向响应池化操作得到旋转不变特征Ftrp,pooling,公式如下:
其中N指的是方向通道数(即卷积滤波器个数,本发明中N为8),通过方向响应池化操作在Ftrp的方向通道维度上取最大值,消除了方向信息。在旋转不变特征图Ftrp,pooling,然后通过感知块进行卷积操作之后,得到分类得分图Ftrcls,Ftrcls上坐标(xl,yl)处的分类得分取值c,作为(xl,yl)对应到输入图像Itrk上以(xa,ya)为中心点的初始包围盒Q0被预测为正类文本的得分,c为取值在[0,1]之间的小数;
(1.2.5)将旋转敏感特征输入回归分支,利用旋转敏感特征预测初始包围盒的位置偏移量:对于图片Itrk经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],在旋转敏感特征图Ftrp上坐标(xl,yl)处,对应了输入图像Itrk上以(xa,ya)为中心点的初始包围盒Q0,对每个初始包围盒Q0,然后通过感知块进行卷积操作之后,得到回归图Ftrres,回归分支会输出由8个[0,1]之间的小数组成的预测回归偏移量作为Q0被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒Gq四个顶点横坐标、纵坐标的预测位置偏移量,与步骤(1.2.4)中的分类得分一起构成预测标签
(1.2.6)以训练标签gt为网络期望输出,以预测标签为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数:以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)和(1.2.5)中的预测标签为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由分类分支的分类损失函数和回归分支的回归损失函数共同组成,整体目标损失函数表达式如下:
其中L、Lcls、Lreg分别表示整体目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数。x为训练图片Itrk上初始包围盒和标注包围盒之间的匹配矩阵,当x=1时,说明初始包围盒初始包围盒和标注包围盒相交且匹配成功,当x=0时,说明它们之间不匹配;N为训练图片Itrk上初始包围盒与标注包围盒相交且匹配的数目(即x中1的个数);Lcls为预测的初始包围盒分类得分C和初始包围盒类别的softmax损失。Lreg为网络预测的正类包围盒位置偏移量和正类包围盒期望偏移量标签之间的平滑L1回归损失;α是回归损失的权重系数,实际中设置为0.2,便于网络模型快速收敛。
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化分类损失和回归损失组成的整体目标损失函数,实现最优网络模型。针对场景文字检测任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练3万次,得到初始的网络参数;然后在真实数据集上进行训练,微调网络参数。
(2)利用上述训练好的模型对待检测文本图片进行文字检测,包括如下子步骤:
(2.1)对待检测图片进行分类预测和回归预测:对于待检测数据集Itst里的第k张图片Itstk,将其输入到步骤(1.2)训练好的模型中,经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2得到6个旋转敏感特征图[Ftst1,Ftst2,Ftst3,Ftst4,Ftst5,Ftst6],记第p个特征提取层输出的旋转敏感特征图为Ftstp,下标p=1,2,3,4,5,6,在旋转敏感特征图Ftstp上(xl,yl)处,坐标对应了输入图像Itstk上以(xa,ya)为中心点的初始包围盒Q0,对每个初始包围盒Q0;对每个初始包围盒Q0,分类分支会输出由分类得分预测值c,作为初始包围盒Q0被预测为正类文本的得分;回归分支会输出由8个小数组成的预测回归偏移量作为Q0被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒Gq四个顶点横坐标、纵坐标的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置。
(2.2)对预测的文本包围盒进行非最大值抑制操作进行过滤,得到输出结果:在步骤(2.1)中,网络模型对旋转敏感特征图Ftstp上每个预测为正类文本的初始包围盒都会回归出四边形位置,同一张测试图片Itstk上6个旋转敏感特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对(2.1)预测到的的文本包围盒,当且仅当文本分类得分c≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作,得到最后保留的正类文本四边形包围盒。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)准确度高:该发明针对任务特性区分进行特征设计,创新性地提出使用旋转不变特征处理分类任务,使用旋转敏感特征处理多方向包围盒回归任务,能更精确地回归出多方向的长条形物体坐标,提高检测精度;
(2)通用性强:本发明中对自然场景文字区分进行分类与回归的检测算法,可以轻松地应用到通用的多方向物体检测框架中提高检测精度,适用范围广;
(3)鲁棒性强:本发明可以克服文本尺度和角度的变化,能同时检测拉丁文本和非拉丁文本。
附图说明
图1是本发明基于旋转敏感特征的文本回归检测方法的流程图,其中,实线箭头表示训练,虚线箭头表示测试;
图2是本发明提取旋转敏感特征的基础网络图;
图3是本发明旋转敏感特征用于分类分支模块和回归分支模块的输出组成示意图;
图4是本发明一实施例中利用训练好的基于旋转敏感特征的文本回归检测网络模型对待检测文本图像进行检测的可视化结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
VGG16:2014年ILSVRC的亚军是VGGNet,包含16个CONV/FC层,具有非常均匀的架构,从开始到结束只执行3x3卷积和2x2池化层,成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe开发框架下的即插即用,通常被现有的多数计算机视觉任务采用为网络模型的基本结构。
方向响应卷积网络(ORN):缺乏处理大图像旋转的能力限制了DCNN在许多视觉任务中的性能,如多方向目标检测、图像分类等,最直接提升性能的方法是基于旋转学习;方向响应卷积网络(ORN)是一种用于图像分类和方向估计的网络,基于旋转学习提出了主动旋转滤波器(ARF),它利用方向响应卷积(ORConv)生成特征图,其方向通道明确编码判别模式的位置和方向信息。与常规卷积滤波器相比,ARF具有定义方向结构的额外维度。在卷积的过程中,每个ARF旋转并产生特征图,可以从多个方向捕获感受野的响应。
感知块(Inception Block):它是由Google在GoogleNet中提出的一种组合卷积单元模块,利用不同大小的卷积核分别对特征图进行卷积操作后,再将特征组合在一起,一方面可以增加网络的宽度,另一方面可以改善感受野,增加网络对尺度变化的适应能力。
非最大值抑制(NMS):非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法,它按照设定的阈值,通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤,去掉冗余的检测框,得到最终的检测结果。
如图1所示,本发明基于旋转敏感特征的文本回归检测网络方法包括以下步骤:
(1)训练基于旋转敏感特征的文本回归检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的四个顶点坐标,顶点为顺时针标注,其中文本包围盒为四边形,得到带标注的标准训练数据集;
(1.2)定义基于旋转敏感特征的文本回归检测网络模型,所述检测网络模型由特征提取模块、回归分支和分类分支组成,根据(1.1)带标注的标准训练数据集,计算训练标签,设计损失函数,利用反向传导方法训练该文本回归检测网络,得到文本回归检测网络模型;具体包括如下子步骤:
(1.2.1)构建基于旋转敏感特征的文本回归检测网络模型:所述检测网络模型如图2和图3所示,由特征提取模块、回归分支和分类分支组成;特征提取模块由方向响应卷积网络组成,它以VGG16为基本网络,将常规卷积滤波器变换为主动卷积滤波器(ARF),其中,传统的卷积(conv)变换为方向响应卷积(ORconv),包括13层(ORconv1_1,ORconv1_2,pool1,ORconv2_1,ORconv2_2,pool2,ORconv3_1,ORconv3_3,ORconv3_3,pool3,ORconv4_1,ORconv4_2,ORconv4_3),用于提取低层特征用于检测;后面为5个额外添加的卷积单元,包括10层(ORconv6,ORconv7,ORconv8_1,ORconv8_2,ORconv9_1,ORconv9_2,ORconv10_1,ORconv10_2,ORconv11_1,ORconv11_2),用于提取高层深度特征进行检测,其中ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2为6个待提取特征层;待提取特征层之后分别接入了回归分支模块和分类分支模块,其中回归分支包含感知块(InceptionBlock),它由m×m、m×n、n×m这三种尺度的卷积核组合而成,有利于适应多方向长文本的尺度和长宽比变化,三种卷积核输出的特征进行组合用于预测位置偏移量,其中m=3,对于待提取特征层ORconv4_3、ORconv6,n=9,对于待提取特征层ORconv8_2、ORconv9_2,n=7,对于待提取特征层ORconv10_2、ORconv11_2,n=5;分类分支模块包含池化层和感知块,感知块结构和回归分支相同,用于预测文本和非文本类别;
(1.2.2)根据特征图在原图上产生水平初始包围盒,计算训练标签,包括位置偏移量和类别:对于标准训练数据集Itr的第k张图片Itrk,将图片Itrk的宽度和高度分别缩放到预设宽度W和预设高度H;一般地,默认取值为384和384,对Itrk上任一标注的文本四边形包围盒Gq=(v1,v2,v3,v4),其中vi=(xi,yi)为四边形第i个顶点横、纵坐标,下标i=1,2,3,4,Gb=(b1,b2,b3,b4)为包围Gq的最小水平矩形;首先,根据设计的初始点算法(First-Point,简称FP),对标注包围盒Gq四个顶点的顺序进行矫正,对于Gq四个顶点中的每一个点,计算该点与矩形Gb四个顶点之间的欧氏距离,距离之和最小的顶点被确定为Gq的初始顶点v′1,依旧按照顺时针顺序形成新的四边形标注包围盒Gq=(v′1,v′2,v′3,v′4),公式如下:
其中,dE表示矩形顶点bi和四边形顶点v(i+j-2)%4+1之间的欧氏距离,j为下标,表示欧式距离之和最小对应的下标j,v′1表示新的初始顶点,v′2、v′3、v′4分别为新的第二顶点、第三顶点、第四顶点;以6个待提取特征图中的每张特征图上的每个像素对应到原图,产生许多初始包围盒,计算初始包围盒Q0相对于新的四边形标注包围盒Gq的位置偏移量和类别,当所有的标注包围盒Gq与初始包围盒Q0的Jaccard系数均小于0.5,那么,初始包围盒Q0被标记为负类非文本,类别标签c取值为0;否则,即至少存在一个标注包围盒Gq与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签c取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
其中,分别为初始包围盒Q0的第i个顶点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δxi、Δyi分别为Q0的第i个顶点相对于Gq的第i个顶点的横、纵坐标位置偏移量,gt=(Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4,c)构成最终的训练标签;
(1.2.3)以标准训练数据集Itr作为检测网络模型的输入,利用特征提取模块提取旋转敏感特征:对模型初始化网络权重和偏置,以标准训练数据集Itr作为步骤(1.2.1)中检测网络模型特征提取模块的输入,对于图片Itrk,方向响应网络的主动旋转滤波器(ARF)对Itrk进行方向响应卷积(ORconv)操作,主动旋转滤波器包含一个传统的卷积滤波器和由它每旋转θ角度得到的滤波器组合而成,这种旋转的卷积操作构成方向响应卷积,本发明中θ取值为45°,主动旋转滤波器由旋转0°、45°、90°、135°、180°、225°、270°、315°的8个卷积滤波器组成,第g层中间特征图每经过一次主动旋转滤波器卷积之后,生成旋转敏感特征图Ftrg=[Ftrg1,Ftrg2,Ftrg3,Ftrg4,Ftrg5,Ftrg6,Ftrg7,Ftrg8],记wl、hl分别为Ftrg的宽度和高度,则Ftrg上的任一坐标(xl,yl)对应上输入图片Itrk上以(xa,ya)为中心点坐标的网格Q0,(xa,ya)的计算公式如下:
在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产多种长宽比的水平初始包围盒Q0,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:
其中,Smin和Smax分别表示最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示第l层特征图对应的初始包围盒尺度;选取6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2的输出特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],作为用于后续回归分支和分类分支的旋转敏感特征;
(1.2.4)将旋转敏感特征输入分类分支,通过响应池化操作得到旋转不变特征,利用旋转不变特征预测初始包围盒的分类得分:对于图片Itrk经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],记第p个特征提取层输出的旋转敏感特征图为Ftrp,下标p=1,2,3,4,5,6,对Ftrp进行方向响应池化操作得到旋转不变特征Ftrp,pooling,公式如下:
其中N指的是方向通道数(即卷积滤波器个数,本发明中N为8),通过方向响应池化操作在Ftrp的方向通道维度上取最大值,消除了方向信息。在旋转不变特征图Ftrp,pooling,然后通过感知块进行卷积操作之后,得到分类得分图Ftrcls,Ftrcls上坐标(xl,yl)处的分类得分取值c,作为(xl,yl)对应到输入图像Itrk上以(xa,ya)为中心点的初始包围盒Q0被预测为正类文本的得分,c为取值在[0,1]之间的小数;
(1.2.5)将旋转敏感特征输入回归分支,利用旋转敏感特征预测初始包围盒的位置偏移量:对于图片Itrk经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],在旋转敏感特征图Ftrp上坐标(xl,yl)处,对应了输入图像Itrk上以(xa,ya)为中心点的初始包围盒Q0,对每个初始包围盒Q0,然后通过感知块进行卷积操作之后,得到回归图Ftrres,回归分支会输出由8个[0,1]之间的小数组成的预测回归偏移量作为Q0被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒Gq四个顶点横坐标、纵坐标的预测位置偏移量,与步骤(1.2.4)中的分类得分一起构成预测标签
(1.2.6)以训练标签gt为网络期望输出,以预测标签为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数:以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)和(1.2.5)中的预测标签为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由分类分支的分类损失函数和回归分支的回归损失函数共同组成,整体目标损失函数表达式如下:
其中L、Lcls、Lreg分别表示整体目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数。x为训练图片Itrk上初始包围盒和标注包围盒之间的匹配矩阵,当x=1时,说明初始包围盒初始包围盒和标注包围盒相交且匹配成功,当x=0时,说明它们之间不匹配;N为训练图片Itrk上初始包围盒与标注包围盒相交且匹配的数目(即x中1的个数);Lcls为预测的初始包围盒分类得分C和初始包围盒类别的softmax损失。Lreg为网络预测的正类包围盒位置偏移量和正类包围盒期望偏移量标签之间的平滑L1回归损失;α是回归损失的权重系数,实际中设置为0.2,便于网络模型快速收敛。
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化分类损失和回归损失组成的整体目标损失函数,实现最优网络模型。针对场景文字检测任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练3万次,得到初始的网络参数;然后在真实数据集上进行训练,微调网络参数。
(2)利用上述训练好的模型对待检测文本图片进行文字检测,包括如下子步骤:
(2.1)对待检测图片进行分类预测和回归预测:对于待检测数据集Itst里的第k张图片Itstk,将其输入到步骤(1.2)训练好的模型中,经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2得到6个旋转敏感特征图[Ftst1,Ftst2,Ftst3,Ftst4,Ftst5,Ftst6],记第p个特征提取层输出的旋转敏感特征图为Ftstp,下标p=1,2,3,4,5,6,在旋转敏感特征图Ftstp上(xl,yl)处,坐标对应了输入图像Itstk上以(xa,ya)为中心点的初始包围盒Q0,对每个初始包围盒Q0;对每个初始包围盒Q0,分类分支会输出由分类得分预测值c,作为初始包围盒Q0被预测为正类文本的得分;回归分支会输出由8个小数组成的预测回归偏移量作为Q0被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒Gq四个顶点横坐标、纵坐标的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置。
(2.2)对预测的文本包围盒进行非最大值抑制操作进行过滤,得到输出结果:在步骤(2.1)中,网络模型对旋转敏感特征图Ftstp上每个预测为正类文本的初始包围盒都会回归出四边形位置,同一张测试图片Itstk上6个旋转敏感特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对(2.1)预测到的的文本包围盒,当且仅当文本分类得分c≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作,得到最后保留的正类文本四边形包围盒。图4为本发明中一实例最终检测到的包围盒结果图。
Claims (8)
1.一种基于旋转敏感特征的文本回归检测方法,其特征在于,所述方法包括下述步骤:
(1)训练基于旋转敏感特征的文本回归检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的四个顶点坐标,顶点为顺时针标注,其中文本包围盒为四边形,得到带标注的标准训练数据集;
(1.2)定义基于旋转敏感特征的文本回归检测网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该文本回归检测网络,得到文本回归检测网络模型;包括:
(1.2.1)构建基于旋转敏感特征的文本回归检测网络模型,所述检测网络模型由特征提取模块、回归分支和分类分支组成;具体地,特征提取模块由方向响应卷积网络组成,它以VGG16为基本网络,将常规卷积滤波器变换为主动卷积滤波器,其中,传统的卷积conv变换为方向响应卷积ORconv,包括13层:ORconv1_1、ORconv1_2、pool1、ORconv2_1、ORconv2_2、pool2、ORconv3_1、ORconv3_2,ORconv3_3、pool3、ORconv4_1、ORconv4_2、ORconv4_3,用于提取低层特征用于检测;后面为5个额外添加的卷积单元,包括10层:ORconv6、ORconv7、ORconv8_1、ORconv8_2、ORconv9_1、ORconv9_2、ORconv10_1、ORconv10_2、ORconv11_1、ORconv11_2,用于提取高层深度特征进行检测,其中ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2为6个待提取特征层;待提取特征层之后分别接入了回归分支模块和分类分支模块,其中回归分支包含感知块,它由m×m、m×n、n×m这三种尺度的卷积核组合而成,有利于适应多方向长文本的尺度和长宽比变化,三种卷积核输出的特征进行组合用于预测位置偏移量;分类分支模块包含池化层和感知块,感知块结构和回归分支相同,用于预测文本和非文本类别;
(1.2.2)根据特征图在原图上产生水平初始包围盒,计算训练标签,包括位置偏移量和类别;
(1.2.3)以带标注的标准训练数据集Itr作为检测网络模型的输入,利用特征提取模块提取旋转敏感特征;
(1.2.4)将旋转敏感特征输入分类分支,通过池化操作得到旋转不变特征,利用旋转不变特征预测初始包围盒的分类得分;
(1.2.5)将旋转敏感特征输入回归分支,利用旋转敏感特征预测初始包围盒的位置偏移量;
(2)利用上述训练好的模型对待检测文本图片进行文字检测,包括如下子步骤:
(2.1)对待检测图片进行分类预测和回归预测;
(2.2)对预测的文本包围盒进行非最大值抑制操作以实现过滤,得到输出结果。
2.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(1.2.2)具体为:
对于标准训练数据集Itr的第k张图片Itrk,将图片Itrk的宽度和高度分别缩放到预设宽度W和预设高度H;对Itrk上任一标注的文本四边形包围盒Gq=(v1,v2,v3,v4),其中vi=(xi,yi)为四边形第i个顶点横、纵坐标,下标i=1,2,3,4,Gb=(b1,b2,b3,b4)为包围Gq的最小水平矩形;首先对标注包围盒Gq四个顶点的顺序进行矫正,对于Gq四个顶点中的每一个点,计算该点与矩形Gb四个顶点之间的欧氏距离,距离之和最小的顶点被确定为Gq的初始顶点v′1,依旧按照顺时针顺序形成新的四边形标注包围盒Gq=(v′1,v′2,v′3,v′4),公式如下:
其中,dE表示矩形顶点bi和四边形顶点v(i+j-2)%4+1之间的欧氏距离,j为下标,表示欧式距离之和最小对应的下标j,v′1表示新的初始顶点,v′2、v′3、v′4分别为新的第二顶点、第三顶点、第四顶点;以6个待提取特征图中的每张特征图上的每个像素对应到原图,产生许多初始包围盒,计算初始包围盒Q0相对于新的四边形标注包围盒Gq的位置偏移量和类别,当所有的标注包围盒Gq与初始包围盒Q0的Jaccard系数均小于0.5,那么,初始包围盒Q0被标记为负类非文本,类别标签c取值为0;否则,即至少存在一个标注包围盒Gq与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签c取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
3.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(1.2.3)具体为:
对检测网络模型初始化网络权重和偏置,以标准训练数据集Itr作为步骤(1.2.1)中检测网络模型特征提取模块的输入,对于Itr的第k张图片Itrk,方向响应网络的主动旋转滤波器对Itrk进行方向响应卷积操作,主动旋转滤波器包含一个传统的卷积滤波器和由它每旋转θ角度得到的滤波器组合而成,这种旋转的卷积操作构成方向响应卷积,第g层中间特征图每经过一次主动旋转滤波器卷积之后,生成旋转敏感特征图Ftrg=[Ftrg1,Ftrg2,Ftrg3,Ftrg4,Ftrg5,Ftrg6,Ftrg7,Ftrg8],记wl、hl分别为Ftrg的宽度和高度,则Ftrg上的任一坐标(xl,yl)对应上输入图片Itrk上以(xa,ya)为中心点坐标的网格Q0,(xa,ya)的计算公式如下:
在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产生多种长宽比的水平初始包围盒Q0,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:
其中,Smin和Smax分别表示最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示第l层特征图对应的初始包围盒尺度;选取6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2的输出特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],作为用于后续回归分支和分类分支的旋转敏感特征。
4.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(1.2.4)具体为:
对于图片Itrk经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],记第p个特征提取层输出的旋转敏感特征图为Ftrp,下标p=1,2,3,4,5,6,对Ftrp进行方向响应池化操作得到旋转不变特征Ftrp,pooling,公式如下:
其中N指的是方向通道数,通过方向响应池化操作在Ftrp的方向通道维度上取最大值,消除了方向信息;在旋转不变特征图Ftrp,pooling通过感知块进行卷积操作之后,得到分类得分图Ftrcls,Ftrcls上坐标(xl,yl)处的分类得分取值c,作为(xl,yl)对应到输入图像Itrk上以(xa,ya)为中心点的初始包围盒Q0被预测为正类文本的得分,c为取值在[0,1]之间的小数。
5.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(1.2.5)具体为:
对于图片Itrk经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr1,Ftr2,Ftr3,Ftr4,Ftr5,Ftr6],在旋转敏感特征图Ftrp上坐标(xl,yl)处,对应了输入图像Itrk上以(xa,ya)为中心点的初始包围盒Q0,对每个初始包围盒Q0,然后通过感知块进行卷积操作之后,得到回归图Ftrres,回归分支会输出由8个[0,1]之间的小数组成的预测回归偏移量作为Q0被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒Gq四个顶点横坐标、纵坐标的预测位置偏移量,与步骤(1.2.4)中的分类得分构成预测标签
6.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(1.2.6)具体为:
以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)和(1.2.5)中的预测标签为网络预测输出,针对步骤(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由分类分支的分类损失函数和回归分支的回归损失函数共同组成,整体目标损失函数表达式如下:
其中L、Lcls、Lreg分别表示整体目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数,x为训练图片Itrk上初始包围盒和标注包围盒之间的匹配矩阵,当x=1时,说明初始包围盒和标注包围盒相交且匹配成功,当x=0时,说明它们之间不匹配;N为训练图片Itrk上初始包围盒与标注包围盒相交且匹配的数目;Lcls为预测的初始包围盒分类得分C和初始包围盒类别的softmax损失,Lreg为网络预测的正类包围盒位置偏移量和正类包围盒期望偏移量标签之间的平滑L1回归损失;α是回归损失的权重系数;根据设计的整体目标损失函数,利用反向传导方法对模型进行迭代训练,最小化分类损失和回归损失组成的整体目标损失函数,实现最优网络模型。
7.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(2.1)具体为:
对于待检测数据集Itst里的第k张图片Itstk,将其输入到步骤(1.2)训练好的模型中,经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2得到6个旋转敏感特征图[Ftst1,Ftst2,Ftst3,Ftst4,Ftst5,Ftst6],记第p个特征提取层输出的旋转敏感特征图为Ftstp,下标p=1,2,3,4,5,6,在旋转敏感特征图Ftstp上(xl,yl)处,坐标对应了输入图像Itstk上以(xa,ya)为中心点的初始包围盒Q0,对每个初始包围盒Q0,分类分支会输出分类得分预测值c,作为初始包围盒Q0被预测为正类文本的得分;回归分支会输出由8个小数组成的预测回归偏移量作为Q0被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒Gq四个顶点横坐标、纵坐标的位置偏移量,根据位置偏移量计算网络预测到的四边形文本包围盒位置。
8.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法,其特征在于,所述步骤(2.2)具体为:
在步骤(2.1)中,网络模型对旋转敏感特征图Ftstp上每个预测为正类文本的初始包围盒都会回归出四边形位置,同一张测试图片Itstk上6个旋转敏感特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对(2.1)预测到的文本包围盒,当且仅当文本分类得分c≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作,得到最后保留的正类文本四边形包围盒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195630.7A CN108427924B (zh) | 2018-03-09 | 2018-03-09 | 一种基于旋转敏感特征的文本回归检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195630.7A CN108427924B (zh) | 2018-03-09 | 2018-03-09 | 一种基于旋转敏感特征的文本回归检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108427924A CN108427924A (zh) | 2018-08-21 |
CN108427924B true CN108427924B (zh) | 2020-06-23 |
Family
ID=63158064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810195630.7A Active CN108427924B (zh) | 2018-03-09 | 2018-03-09 | 一种基于旋转敏感特征的文本回归检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427924B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460761A (zh) * | 2018-10-17 | 2019-03-12 | 福州大学 | 基于维度聚类和多尺度预测的银行卡卡号检测与识别方法 |
CN109829893B (zh) * | 2019-01-03 | 2021-05-25 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN109886286B (zh) * | 2019-01-03 | 2021-07-23 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及系统 |
CN110032997B (zh) * | 2019-01-07 | 2021-02-19 | 武汉大学 | 一种基于图像分割的自然场景文本定位方法 |
CN110046530B (zh) * | 2019-03-15 | 2022-03-25 | 中科微至智能制造科技江苏股份有限公司 | 一种基于多任务目标检测的条形码倾斜矫正方法 |
CN109948533B (zh) * | 2019-03-19 | 2021-02-09 | 讯飞智元信息科技有限公司 | 一种文本检测方法、装置、设备及可读存储介质 |
CN110033000B (zh) * | 2019-03-21 | 2021-05-18 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
CN110096964B (zh) * | 2019-04-08 | 2021-05-04 | 厦门美图之家科技有限公司 | 一种生成图像识别模型的方法 |
CN110163208B (zh) * | 2019-05-22 | 2021-06-29 | 长沙学院 | 一种基于深度学习的场景文字检测方法和系统 |
CN110135424B (zh) * | 2019-05-23 | 2021-06-11 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN110210400B (zh) * | 2019-06-03 | 2020-11-17 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110717427B (zh) * | 2019-09-27 | 2022-08-12 | 华中科技大学 | 一种基于顶点滑动的多方向物体检测方法 |
CN111444919B (zh) * | 2020-04-17 | 2023-07-04 | 南京大学 | 一种自然场景中的任意形状文本检测方法 |
CN111914909B (zh) * | 2020-07-15 | 2021-01-12 | 南京审计大学 | 基于空谱联合三方向卷积网络的高光谱变化检测方法 |
CN112115932B (zh) * | 2020-08-19 | 2023-11-14 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112669282B (zh) * | 2020-12-29 | 2023-02-14 | 燕山大学 | 一种基于深度神经网络的脊柱定位方法 |
CN113902971A (zh) * | 2021-09-13 | 2022-01-07 | 北京理工雷科电子信息技术有限公司 | 基于多尺度融合轻量化深度学习卷积网络的目标检测方法 |
CN113869314A (zh) * | 2021-10-13 | 2021-12-31 | 广东金赋科技股份有限公司 | 一种文本方向聚类矫正的图像信息提取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989330A (zh) * | 2015-02-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 一种图片检测方法及设备 |
CN105608456B (zh) * | 2015-12-22 | 2017-07-18 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
CN106897732B (zh) * | 2017-01-06 | 2019-10-08 | 华中科技大学 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
CN106980858B (zh) * | 2017-02-28 | 2020-08-18 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
-
2018
- 2018-03-09 CN CN201810195630.7A patent/CN108427924B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108427924A (zh) | 2018-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427924B (zh) | 一种基于旋转敏感特征的文本回归检测方法 | |
CN107977620B (zh) | 一种基于全卷积网络的多方向场景文本单次检测方法 | |
CN109829893B (zh) | 一种基于注意力机制的缺陷目标检测方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
Lu et al. | Gated and axis-concentrated localization network for remote sensing object detection | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
Shi et al. | An image mosaic method based on convolutional neural network semantic features extraction | |
CN111695522A (zh) | 一种平面内的旋转不变人脸检测方法、装置及存储介质 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN111753828A (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN104809731B (zh) | 一种基于梯度二值化的旋转尺度不变场景匹配方法 | |
CN110163271A (zh) | 一种基于球面投影网格和球面卷积的全景影像目标检测方法 | |
Zhang et al. | Road recognition from remote sensing imagery using incremental learning | |
Li et al. | Place recognition based on deep feature and adaptive weighting of similarity matrix | |
CN113901972A (zh) | 遥感图像建筑物的检测方法、装置、设备及存储介质 | |
CN105488541A (zh) | 增强现实系统中基于机器学习的自然特征点识别方法 | |
Han et al. | Research on remote sensing image target recognition based on deep convolution neural network | |
Zheng et al. | Feature enhancement for multi-scale object detection | |
Xu et al. | Hierarchical convolution fusion-based adaptive Siamese network for infrared target tracking | |
CN113436251B (zh) | 一种基于改进的yolo6d算法的位姿估计系统及方法 | |
Shi et al. | RAOD: refined oriented detector with augmented feature in remote sensing images object detection | |
Dalara et al. | Entity Recognition in Indian Sculpture using CLAHE and machine learning | |
CN111768436B (zh) | 一种基于Faster-RCNN改进的图像特征块配准方法 | |
Dadgostar et al. | Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |