CN107977620A - 一种基于全卷积网络的多方向场景文本单次检测方法 - Google Patents

一种基于全卷积网络的多方向场景文本单次检测方法 Download PDF

Info

Publication number
CN107977620A
CN107977620A CN201711225391.7A CN201711225391A CN107977620A CN 107977620 A CN107977620 A CN 107977620A CN 201711225391 A CN201711225391 A CN 201711225391A CN 107977620 A CN107977620 A CN 107977620A
Authority
CN
China
Prior art keywords
text
bounding box
ilq
predicted
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711225391.7A
Other languages
English (en)
Other versions
CN107977620B (zh
Inventor
白翔
廖明辉
石葆光
许永超
徐培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711225391.7A priority Critical patent/CN107977620B/zh
Publication of CN107977620A publication Critical patent/CN107977620A/zh
Application granted granted Critical
Publication of CN107977620B publication Critical patent/CN107977620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Abstract

本发明公开了一种基于全卷积网络的多方向场景文本单次检测方法,通过构建全卷积的单次检测网络模型,无须多步处理步骤、仅用单个网络就可以进行端到端训练,以多种尺度的特征提取层结合文本框预测层可以检测到不同尺寸、长宽比、分辨率的多方向自然场景文字,并且能以多边形包围盒贴合文字从而更少地引入背景干扰,最后仅需简单的非最大值抑制操作便可获得最终的文本检测结果。本发明提出的检测方法相对于现有技术结构简单有效,在准确度、检测速度和鲁棒性这些方面都取得了卓越的效果,有很强的实际应用价值。

Description

一种基于全卷积网络的多方向场景文本单次检测方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于全卷积网络的多方向场景文本单次检测方法。
背景技术
在自然场景中,场景文字是最常见的视觉物体之一,比如路牌、车牌、产品包装袋上的文字等。读取场景文字具有十分有用的应用价值,比如基于图片的地理定位、商品图像检索、交通监控系统等。由于背景变化大、前景文字方向任意、长宽比不定、光照条件不可控,读取自然场景中的文字仍然具有较大的挑战性。
传统的文本检测方法通常涉及多级处理步骤,比如:字符或单词候选框的产生、候选框的过滤、候选框的组合连接。这些方法需要费力地调整参数和设计人工规则,来使每个模块相连接之后效果均衡正常预测,这样同时也导致了速度的下降。另外,目前的多方向场景文字检测算法都是以水平或者倾斜的矩形包围盒来贴合文字,而自然场景里的文字通常存在透视、变形等,矩形包围盒会引入过多的背景干扰,不利于检测性能的提升。
因此需要设计一种无须多步处理步骤、仅用单个网络就可以进行端到端训练的多方向场景文本单次检测器,并且能以多边形来贴合文本,同时提升速度和精度。
发明内容
本发明的目的在于提供一种基于全卷积网络的多方向场景文本单次检测方法,该单次检测器结构简单有效,无须多级处理步骤,准确率高,速度快,且鲁棒性强,能克服复杂的图片背景,适应文本长宽比和角度的变化。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测问题,提供了一种基于全卷积网络的多方向场景文本单次检测方法,包括下述步骤:
(1)训练基于全卷积网络的多方向场景文本单次检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增,得到带标注的标准训练数据集:以单词级别标记原始训练数据集中所有文本图像的文本内容,标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标,得到带标注的标准训练数据集Itr;
(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型,所述单次检测网络模型由全卷积神经网络和卷积预测器组成,根据上述带标注的标准训练数据集计算得到四个顶点坐标相对于初始包围盒的几何偏移量和类别,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该单次检测网络,得到单次检测网络模型;具体包括如下子步骤:
(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测网络模型:该单次检测网络有29层,主要包括特征提取单元和卷积预测单元;具体地,特征提取单元包括两部分:前面一部分为来自VGG-16网络的4个卷积单元,包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3),用于提取低层特征用于检测;后面一部分为5个额外添加的卷积单元,包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2),用于提取更高层的深度特征进行检测;卷积预测单元包括:分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层,实质为3×5卷积核,用于预测几何偏移量和类别;
(1.2.2)根据多种尺度的特征图在原图上进行网格划分,产生多种尺度、多种长宽比的水平初始包围盒:对于训练数据集Itr的第i张图片Itri,将图片Itri的宽度和高度分别缩放到预设宽度W和预设高度H;一般地,默认取值为384和384,四边形标注包围盒集合为Qi=[Qi1,…,Qim],根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x,y,w,h),其中(x,y)为最小水平矩形包围盒的中心点坐标,w、h分别为它的宽度和高度;对于标注包围盒Qip,其中p为下标,p=[1,…,m],m表示该图片上标注包围盒的数目;
以Itri作为单次检测网络模型的输入,在记后6层特征待提取卷积层分别输出的特征图构成集合Ftri=[Ftri1,Ftri2,Ftri3,Ftri4,Ftri5,Ftri6],其中Ftril为后6层特征待提取卷积层中第l层的输出特征图,l=[1,…,6],wl、hl分别为该特征图的宽度和高度,它们的像素取值均为[38,19,10,5,3,1],等同于将输入图片Itri分别均匀划分成38×38、19×19、10×10、5×5、3×3、1×1的网格;特征图Ftril上的任一坐标(xl,yl)对应上输入图片Itri上以(xa,ya)为中心点坐标的网格Gila,(xa,ya)的计算公式如下:
整数ii∈[0,wl]
整数jj∈[0,hl]
在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产生第一部分多种长宽比的水平初始包围盒,此外,为了保证在竖直方向上密集覆盖,以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒,这两部分组成特征图Ftril对应的初始包围盒集合Dil=[Dil1,…,Diln],其中n表示初始包围盒的数目,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:
特殊地,当长宽比ar=1时,初始包围盒尺度
其中,Smin=0.2,Smax=0.9,分别表示在最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示特征图Ftril对应的初始包围盒尺度;
(1.2.3)计算所有初始包围盒的标签,包括几何偏移量和类别:对于Ftril对应的初始包围盒集合Dil,考虑Dil集合中的第q个初始包围盒Dilq,其中q为下标,q=[1,…,n],当初始包围盒Dilq与所有的标注包围盒Qip的Jaccard系数均小于0.5,,那么,初始包围盒Dilq被标记为负类,标签取值为0;否则,即至少存在一个标注包围盒Qip与Dilq的Jaccard系数不小于0.5,Dilq被标记为正类,标签取值为1,并相对于Jaccard系数最大的标注盒来计算几何偏移量;Qip用(x,y,w,h)和来表示,Dilq用(x0,y0,w0,h0)来表示,(x0,y0)为Dilq的中心点横、纵坐标,也是网格的中心或网格边界的中点,w0和h0分别为Dilq的宽度、高度,首先得到Dilq的四个顶点表达形式转换公式如下:
然后根据下列关系式和所有已知量,得到Dilq的偏移量标签 其中额外增加的标签(Δx,Δy,Δw,Δh)被用于多任务训练和预测,有利于提高精度。
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
n=1,2,3,4
其中,Δx、Δy分别为Dilq中心点相对于Qip中心点的横坐标和纵坐标偏移量,Δw、Δh分别为Dilq相对于Qip的宽度和高度的偏移量;分别为Dilq相对于Qip的四个顶点横坐标和纵坐标的偏移量,exp为指数运算;
(1.2.4)以带标注的标准训练数据集Itr作为多方向场景文本单次检测网络模型的输入,得到预测的输出:对模型初始化网络权重和偏置,先以公开的SynthText合成数据集为输入,按照预设的训练次数和第一学习率进行预训练迭代计算,例如进行6万次预训练迭代计算,学习率设置为10-4;之后以带标注的标准训练数据集Itr为输入,以预设的第二学习率进行微调训练,例如学习率设置为10-4,进行微调训练;对于后6个特征待提取卷积层,在第l层输出特征图Ftril上的坐标(xl,yl)处,(xlyl)对应到输入图像Itri上以(x0,y0)为中心点坐标、以Sl为尺寸、以ar为长宽比的初始包围盒Dilq,6个文本框预测层会输出由2个预测值组成的分类得分c=(c+,c-),c+、c-分别作为初始包围盒Dilq被预测为正类文本、负类非文本的得分,均为取值范围在[0,1]之间的小数;同时也输出由13个值组成的预测回归偏移量作为Dilq被预测为正类文本时相对于标注包围盒的几何偏移量,其中分别为预测为正类的初始包围盒Dilq中心点横坐标、纵坐标、宽度、高度的预测偏移量,分别为预测为正类的初始包围盒Dilq四个顶点横坐标、纵坐标的预测偏移量;
(1.2.5)设计目标损失函数,利用反向传播法进行模型训练:以步骤(1.2.3)中初始包围盒的类别和几何偏移量标签为标准输出,以步骤(1.2.4)中预测的初始包围盒分类得分和几何偏移量为预测输出,针对所述单次检测网络模型,设计标准输出和预测输出之间的目标损失函数,目标损失函数是分类损失和回归损失的加权和,表达式如下:
其中,L、Lconf、Lloc分别为目标损失总和、预测的初始包围盒分类的softmax损失、预测的正类包围盒几何偏移量和正类包围盒偏移量标签g之间的平滑L1回归损失;x为匹配矩阵,当xi′j′=1时,说明初始包围盒集合里的第i′个初始包围盒和输入图片Itri上第j′个标注包围盒相交且匹配,否则,当xi′j′=0时,说明它们之间不匹配;N为与Itri上的标注包围盒相交且匹配的初始包围盒总数目;α为回归损失的权重系数,实际中为了快速收敛设置为0.2;
利用反向传播法对模型进行迭代训练,最小化分类损失和回归损失组成的目标损失函数,实现最优模型;
(1.2.6)对带标注的标准训练数据集Itr进行在线扩增,并对在线负样本进行难例挖掘,进行多尺度训练:在(1.2.5)中,由于尺寸小的文本比尺寸较大的文本对应的正类初始包围盒数目少太多,小尺寸样本训练不足,通过随机裁剪和缩放的方法对图像上文本图像块进行数据扩增从而增加小尺寸样本,步骤包括:1)在图像Itri上随机选取图像块Ptri,与标注包围盒Qip包围的文本图像块计算相交系数C,公式如下:
其中,B为随机图像块Ptri的面积,G为标注包围盒Qip的面积,B∩G为随机图像块Ptri与标注包围盒Qip相交的面积;2)每个样本的相交阈值t从0、0.1、0.3、0.5、0.7和0.9中随机选取,当C<t,Ptri为包含文本信息过少的负类图像块,不参与扩增;当C≥t,Ptri为包含较多文本信息的正类图像块,对它进行裁剪并缩放至与输入图像Itri相同大小即384×384像素,进行步骤(1.2.5)中的训练;
同时,由于负类初始包围盒数目远远大于正类初始包围盒数目,正类样本训练不足,采用在线负样本难例挖掘策略来平衡正样本和负样本,在训练前阶段控制负样本与正样本之间的比例不超过3:1,后阶段比例不超过6:1;为了加强模型学习到小尺寸和模糊文字的能力,在步骤(1.2.5)中以输入图片缩放尺寸为384×384像素训练的模型效果达到稳定之后,再次将输入图片缩放到768×768像素,重复步骤(1.2.5)进行进一步的微调训练。
(2)利用上述训练好的多方向场景文本单次检测器模型对待检测文本图像进行文字检测,包括如下子步骤:
(2.1)对待检测文本图像进行单尺度快速文本检测:对于待检测文本图像Itst里的第i张图片Itsti,将其输入到步骤(1.2)训练好的模型中,像素缩放到预设宽度W和预设高度H(例如384×384像素),由6个不同的特征待提取卷积层和与之相连的文本框预测层可以检测出不同尺度的文本包围盒,输出的特征图为Ftsti=[Ftsti1,Ftsti2,Ftsti3,Ftsti4,Ftsti5,Ftsti6],其中特征图Ftstil为第l层特征待提取卷积层的输出特征图,在输出特征图Ftstil上的坐标(xl,yl)处,文本框预测层都会预测出(xl,yl)对应的初始包围盒Dilq被预测为正类文本、负类非文本的得分c=(c+,c-),同时也会预测出13个数字作为Dilq被预测为正类文本时的几何偏移量;
(2.2)对待检测文本图像进行多尺度精准文本检测:对于文字多尺度、文字多角度、多种分辨率的待检测文本图像Itst里的第i张图片Itsti,再次分别缩放到其他预设大小(例如384×768、768×384、1000×768、768×1000像素),依次输入到步骤(1.2)训练好的模型中进行多尺度测试,有利于捕捉到多尺度、多角度、多种长宽比、多种分辨率的文字,测试步骤重复(2.1),根据预测的几何偏移量,且已知Dilq的水平中心点表达形式(x0,x0,w0,h0)和四个顶点初始表达形式按照如下公式,计算预测的文本框四个顶点坐标
n=1,2,3,4
(2.3)对多尺度检测结果进行非最大值抑制,实现对检测文本框的过滤,得到最终输出:由于多边形的非最大值抑制按照传统算法计算时间明显高于水平矩形,因此设计两级过滤规则:1)对初步检测出的文本框按照正类分类得分c+进行过滤,当c+<0.5,该检测文本框会被筛选过滤掉,保留c+≥0.5的检测文本框;2)对保留的检测文本框按照Jaccard系数0.2进行非最大值抑制操作,得到最终保留的多边形检测文本框。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)结构简单有效:本发明方法与以往的区域提取、过滤、连接的多级方法相比,网络结构简单,无须多级处理步骤和人为设置过滤法则;
(2)准确度高:自然场景图片里的文字经常存在透视、变形等情况,本发明方法与以往大多数预测水平或倾斜矩形包围盒方法不同,预测的是文字包围盒四个顶点坐标,这种多边形包围盒可以不必引入多余的背景干扰,更贴合自然场景文字,同时设计的在线扩增方式和多尺度训练测试可以捕捉到不同尺寸的文字,准确度很高;
(3)鲁棒性强:本发明方法采用的是单个整体的卷积神经网络结构,没有中间步骤需要调整,所以不需要人工设置过滤规则和中间处理步骤,并且对多种尺度和分辨率的文字都有针对性的算法设计,这种单个卷积神经网络结构可以做到更少地依赖人工,实现其他数据的单次预测;
(4)效率高:本发明方法的多方向场景文本单次检测器是端到端进行训练的,每秒能够处理约11.6张大小为1024x1024图像,文本检测仅需通过在基于全卷积网络的单次检测器进行一次正向传播即可获得,计算时间消耗小。
附图说明
图1是本发明基于全卷积网络的多方向场景文本单次检测方法的流程图;
图2是本发明多方向场景文本单次检测器模型网络连接图;
图3是本发明特征图进行网格划分和产生初始包围盒的示意图;
图4是本发明随机裁剪进行数据扩增的示意图,其中图4(a)和图4(b)分别表示一个包围盒及其扩增数据,图4(c)和图4(d)分别表示另一个包围盒及其扩增数据;
图5是本发明一实施例中利用训练好的基于全卷积网络的对待检测文本图像进行文字检测输出包围盒的结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
VGG-16:VGG-16是2014年ILSVRC提出的一种成熟的卷积神经网络结构,包含16个卷积层和全连接层,架构均匀稳定,从开始到结束只执行3x3卷积和2x2池化层,成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe开发框架下的即插即用,通常被现有的多数计算机视觉任务采用为网络模型的基本结构。
SynthText合成数据集:Zisserman在CVPR 2016提出了一种用于生成文本合成图像的新方法,将文本和现有自然场景自然的融合在一起,使用深度学习和分割技术将文本与背景图像的几何结构对齐,并且遵守场景边界,并公开了他们自己合成的数据集SynthText以供其他学者等使用,数据集共包含80万合成的英文文本图片。
Jaccard系数:Jaccard系数用于比较有限样本集之间的相似性与差异性,在文本检测领域,Jaccard系数被默认为等同于IOU,即两个框的相交面积/合并面积,描述模型产生的预测文本框和原来标注文本框的交叠率,IOU越大,重叠度越高,检测越准确。
非最大值抑制:非最大值抑制(NMS)是一种在计算机视觉检测领域中被广泛应用的算法,它按照设定的阈值,通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤,去掉冗余的检测框,得到最终的检测结果。
如图1所示,本发明基于全卷积网络的多方向场景文本单次检测方法包括以下步骤:
(1)训练基于全卷积网络的多方向场景文本单次检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增,得到标准训练数据集:以单词级别标记训练数据集中所有文本图像的文本内容,标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标得到带标注的标准训练数据集Itr;
(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型,所述单次检测网络模型由全卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到四个顶点坐标相对于初始包围盒的几何偏移量和类别,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该单次检测网络,得到单次检测网络模型;具体包括如下子步骤:
(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测方法网络模型:该模型网络有29层,主要包括特征提取单元和卷积预测单元;具体地,特征提取单元包括两部分:前面一部分为来自VGG-16网络的4个卷积单元,包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3),用于提取低层特征用于检测;后面一部分为5个额外添加的卷积单元,包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2),用于提取更高层的深度特征进行检测;卷积预测单元包括:分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层,实质为3×5卷积核,用于预测几何偏移量和类别;网络结构如图2所示;
(1.2.2)根据多种尺度的特征图在原图上进行网格划分,产生多种尺度、多种长宽比的水平初始包围盒:对于训练数据集Itr的第i张图片Itri,将图片Itri的宽度和高度分别缩放到预设宽度W和预设高度H(默认取值为384和384);,四边形标注包围盒集合为Qi=[Qi1,…,Qim],根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x,y,w,h),其中(x,y)为最小水平矩形包围盒的中心点坐标,w、h分别为它的宽度和高度;对于标注包围盒Qip,其中p为下标,m表示该图片上标注包围盒的数目;
以Itri作为单次检测网络模型的输入,在记后6层特征待提取卷积层分别输出的特征图构成集合Ftri=[Ftri1,Ftri2,Ftri3,Ftri4,Ftri5,Ftri6],其中Ftril为后6层特征待提取卷积层中第l层输出的特征图,l=[1,…,6],wl、hl分别为该特征图的宽度和高度,它们的像素取值均为[38,19,10,5,3,1],等同于将输入图片Itri分别均匀划分成38×38、19×19、10×10、5×5、3×3、1×1的网格;特征图Ftril上的任一坐标(xl,yl)对应上输入图片Itri上以(xa,ya)为中心点坐标的网格Gila,(xa,ya)的计算公式如下:
整数ii∈[0,wl]
整数jj∈[0,hl]
在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产生第一部分多种长宽比的水平初始包围盒,此外,为了保证在竖直方向上密集覆盖,以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒,如图3所示意,这两部分组成特征图Ftril对应的初始包围盒集合Dil=[Dil1,…,Diln],其中n表示初始包围盒的数目,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:
特殊地,当长宽比ar=1时,初始包围盒尺度
其中,Smin=0.2,Smax=0.9,分别表示在最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示特征图Ftril对应的初始包围盒尺度;
(1.2.3)计算所有初始包围盒的标签,包括几何偏移量和类别:对于Ftril对应的初始包围盒集合Dil,考虑Dil集合中的第q个初始包围盒Dilq,其中q为下标,q=[1,…,n],当初始包围盒Dilq与所有的标注包围盒Qip的Jaccard系数均小于0.5,,那么,初始包围盒Dilq被标记为负类,标签取值为0;否则,即至少存在一个标注包围盒Qip与Dilq的Jaccard系数不小于0.5,Dilq被标记为正类,标签取值为1,并相对于Jaccard系数最大的标注盒来计算几何偏移量;Qip用(x,y,w,h)和来表示,Dilq用(x0,y0,w0,h0)来表示,(x0,y0)为Dilq的中心点横、纵坐标,也是网格的中心或网格边界的中点,w0和h0分别为Dilq的宽度、高度,首先得到Dilq的四个顶点表达形式转换公式如下:
然后根据下列关系式和所有已知量,得到Dilq的偏移量标签 其中额外增加的标签(Δx,Δy,Δw,Δh)被用于多任务训练和预测,有利于提高精度。
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
n=1,2,3,4
其中,Δx、Δy分别为Dilq中心点相对于Qip中心点的横坐标和纵坐标偏移量,Δw、Δh分别为Dilq相对于Qip的宽度和高度的偏移量;分别为Dilq相对于Qip的四个顶点横坐标和纵坐标的偏移量,exp为指数运算;
(1.2.4)以训练数据集Itr作为多方向场景文本单次检测网络模型的输入,得到预测的输出:对模型初始化网络权重和偏置,先以公开的SynthText合成数据集为输入,进行6万次预训练迭代计算,学习率设置为10-4;之后以训练数据集Itr为输入,学习率设置为10-4,进行微调训练;对于后6个特征待提取卷积层,在第l层输出特征图Ftril上的坐标(xl,yl)处,(xl,yl)对应到输入图像Itri上以(x0,y0)为中心点坐标、以Sl为尺寸、以ar为长宽比的初始包围盒Dilq,6个文本框预测层会输出由2个预测值组成的分类得分c=(c+,c-),c+、c-分别作为初始包围盒Dilq被预测为正类文本、负类非文本的得分,均为取值范围在[0,1]之间的小数;同时也输出由13个值组成的预测回归偏移量作为Dilq被预测为正类文本时相对于标注包围盒的几何偏移量,其中分别为预测为正类的初始包围盒Dilq中心点横坐标、纵坐标、宽度、高度的预测偏移量,分别为预测为正类的初始包围盒Dilq四个顶点横坐标、纵坐标的预测偏移量;
(1.2.5)设计目标损失函数,利用反向传播法进行模型训练:以步骤(1.2.3)中初始包围盒的类别和几何偏移量标签为标准输出,以步骤(1.2.4)中预测的初始包围盒分类得分和几何偏移量为预测输出,针对所述单次检测网络模型,设计标准输出和预测输出之间的目标损失函数,目标损失函数是分类损失和回归损失的加权和,表达式如下:
其中,L、Lconf、Lloc分别为目标损失总和、预测的初始包围盒分类的softmax损失、预测的正类包围盒几何偏移量和正类包围盒偏移量标签g之间的平滑L1回归损失;x为匹配矩阵,当xi′j′=1时,说明初始包围盒集合里的第i′个初始包围盒和输入图片Itri上第j′个标注包围盒相交且匹配,否则,当xi′j′=0时,说明它们之间不匹配;N为与Itri上的标注包围盒相交且匹配的初始包围盒总数目;α为回归损失的权重系数,实际中为了快速收敛设置为0.2;
利用反向传播法对模型进行迭代训练,最小化分类损失和回归损失组成的目标损失函数,实现最优模型;
(1.2.6)对训练数据集Itr进行在线扩增,并对在线负样本进行难例挖掘,进行多尺度训练:在(1.2.5)中,由于尺寸小的文本比尺寸较大的文本对应的正类初始包围盒数目少太多,小尺寸样本训练不足,通过随机裁剪和缩放的方法对图像上文本图像块进行数据扩增从而增加小尺寸样本,如图4所示,,其中图4(a)和图4(b)分别表示一个包围盒及其扩增数据,图4(c)和图4(d)分别表示另一个包围盒及其扩增数据。步骤包括:1)在图像Itri上随机选取图像块Ptri,与标注包围盒Qip包围的文本图像块计算相交系数C,公式如下:
其中,B为随机图像块Ptri的面积,G为标注包围盒Qip的面积,B∩G为随机图像块Ptri与标注包围盒Qip相交的面积;2)每个样本的相交阈值t从0、0.1、0.3、0.5、0.7和0.9中随机选取,当C<t,Ptri为包含文本信息过少的负类图像块,不参与扩增;当C≥t,Ptri为包含较多文本信息的正类图像块,对它进行裁剪并缩放至与输入图像Itri相同大小即384×384像素,进行步骤(1.2.5)中的训练;
同时,由于负类初始包围盒数目远远大于正类初始包围盒数目,正类样本训练不足,采用在线负样本难例挖掘策略来平衡正样本和负样本,在训练前阶段控制负样本与正样本之间的比例不超过3:1,后阶段比例不超过6:1;为了加强模型学习到小尺寸和模糊文字的能力,在步骤(1.2.5)中以输入图片缩放尺寸为384×384像素训练的模型效果达到稳定之后,再次将输入图片缩放到768×768像素,重复步骤(1.2.5)进行进一步的微调训练。
(2)利用上述训练好的多方向场景文本单次检测器模型对待检测文本图像进行文字检测,包括如下子步骤:
(2.1)对待检测文本图像进行单尺度快速文本检测:对于待检测文本图像Itst里的第i张图片Itsti,像素缩放到预设宽度W和预设高度H,将其输入到步骤(1.2)训练好的模型中,像素缩放到384×384像素,由6个不同的特征待提取卷积层和与之相连的文本框预测层可以检测出不同尺度的文本包围盒,输出的特征图为Ftsti=[Ftsti1,Ftsti2,Ftsti3,Ftsti4,Ftsti5,Ftsti6],其中特征图Ftstil为第l层特征待提取层卷积层的输出特征图,在输出特征图Ftstil上的坐标(xl,yl)处,文本框预测层都会预测出(xl,yl)对应的初始包围盒Dilq被预测为正类文本、负类非文本的得分c=(c+,c-),同时也会预测出13个数字作为Dilq被预测为正类文本时的几何偏移量;
(2.2)对待检测文本图像进行多尺度精准文本检测:对于文字多尺度、文字多角度、多种分辨率的待检测文本图像Itst里的第i张图片Itsti,再次分别缩放到384×768、768×384、1000×768、768×1000像素,依次输入到步骤(1.2)训练好的模型中进行多尺度测试,有利于捕捉到多尺度、多角度、多种长宽比、多种分辨率的文字,测试步骤重复(2.1),根据预测的几何偏移量,且已知Dilq的水平中心点表达形式(x0,y0,w0,h0)和四个顶点初始表达形式按照如下公式,计算预测的文本框四个顶点坐标
n=1,2,3,4
(2.3)对多尺度检测结果进行非最大值抑制,实现对检测文本框的过滤,得到最终输出:由于多边形的非最大值抑制按照传统算法计算时间明显高于水平矩形,因此设计两级过滤规则:1)对初步检测出的文本框按照正类分类得分c+进行过滤,当c+<0.5,该检测文本框会被筛选过滤掉,保留c+≥0.5的检测文本框;2)对保留的检测文本框按照Jaccard系数0.2进行非最大值抑制操作,得到最终保留的多边形检测文本框。如图5所示,为本发明实施例中利用训练好的基于全卷积网络的对待检测文本图像进行文字检测输出包围盒的结果图。

Claims (10)

1.一种基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述方法包括下述步骤:
(1)训练基于全卷积网络的多方向场景文本单次检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增,得到带标注的标准训练数据集:以单词级别标记原始训练数据集中所有文本图像的文本内容,标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标,得到带标注的标准训练数据集;
(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型,所述单次检测网络模型由全卷积神经网络和卷积预测器组成,根据上述带标注的标准训练数据集计算得到四个顶点坐标相对于初始包围盒的几何偏移量和类别,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该单次检测网络,得到单次检测网络模型;具体包括如下子步骤:
(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测网络模型;
(1.2.2)根据多种尺度的特征图在原图上进行网格划分,产生多种尺度、多种长宽比的水平初始包围盒;
(1.2.3)计算所有初始包围盒的标签,包括几何偏移量和类别;
(1.2.4)以带标注的标准训练数据集作为多方向场景文本单次检测网络模型的输入,得到预测的输出;
(1.2.5)设计目标损失函数,利用反向传播法进行模型训练;
(1.2.6)对带标注的标准训练数据集进行在线扩增,并对在线负样本进行难例挖掘,进行多尺度训练;
(2)利用上述训练好的多方向场景文本单次检测器模型对待检测文本图像进行文字检测,包括如下子步骤:
(2.1)对待检测文本图像进行单尺度快速文本检测;
(2.2)对待检测文本图像进行多尺度精准文本检测;
(2.3)对多尺度检测结果进行非最大值抑制,实现对检测文本框的过滤,得到最终输出。
2.根据权利要求1所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.1)具体为:
该单次检测网络有29层,包括特征提取单元和卷积预测单元;其中,特征提取单元包括两部分:前面一部分为来自VGG-16网络的4个卷积单元,包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3),用于提取低层特征用于检测;后面一部分为5个额外添加的卷积单元,包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2),用于提取更高层的深度特征进行检测;卷积预测单元包括:分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层,用于预测几何偏移量和类别。
3.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.2)具体为:
对于带标注的标准训练数据集Itr的第i张图片Itri,将图片Itri的宽度和高度分别缩放到预设宽度W和预设高度H,四边形标注包围盒集合为Qi=[Qi1,…,Qim],根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x,y,w,h),其中(x,y)为最小水平矩形包围盒的中心点坐标,w、h分别为它的宽度和高度;对于标注包围盒Qip,其中p为下标,p=[1,…,m],m表示该图片上标注包围盒的数目,;
以Itri作为单次检测网络模型的输入,记后6层特征待提取卷积层分别输出的特征图构成集合Ftri=[Ftri1,Ftri2,Ftri3,Ftri4,Ftri5,Ftri6],其中Ftril为后6层特征待提取卷积层中第l层输出的特征图,l=[1,…,6],wl、hl分别为该特征图的宽度和高度,它们的像素取值均为[38,19,10,5,3,1];特征图Ftril上的任一坐标(xl,yl)对应上输入图片Itri上以(xa,ya)为中心点坐标的网格Gila,(xa,ya)的计算公式如下:
整数ii∈[0,wl]
整数jj∈[0,hl]
在每个网格内,长宽比ar的取值范围为[1,2,3,5,1/2,1/3,1/5];以网格中心点为中心,按照ar所有可能的取值产生第一部分多种长宽比的水平初始包围盒,并以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒,这两部分组成特征图Ftril对应的初始包围盒集合Dil=[Dil1,…,Diln],其中n表示初始包围盒的数目,长宽比为ar的初始包围盒的宽度wil和高度hil满足下列公式:
<mrow> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>=</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>+</mo> <mfrac> <mrow> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow> <mn>5</mn> </mfrac> <mrow> <mo>(</mo> <mi>l</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <msqrt> <msub> <mi>a</mi> <mi>r</mi> </msub> </msqrt> <mo>,</mo> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>s</mi> <mi>l</mi> </msub> <msqrt> <msub> <mi>a</mi> <mi>r</mi> </msub> </msqrt> </mfrac> </mrow>
其中,Smin和Smax分别表示在最小的特征图和最大的特征图上的初始包围盒尺度,Sl表示特征图Ftril对应的初始包围盒尺度。
4.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.3)具体为:
对于Ftril对应的初始包围盒集合Dil,考虑Dil集合中的第q个初始包围盒Dilq,其中q为下标,q=[1,…,n],当初始包围盒Dilq与所有的标注包围盒Qip的Jaccard系数均小于0.5,那么,初始包围盒Dilq被标记为负类,标签取值为0;否则,即至少存在一个标注包围盒Qip与Dilq的Jaccard系数不小于0.5,Dilq被标记为正类,标签取值为1,并相对于Jaccard系数最大的标注盒来计算几何偏移量;Qip用(x,y,w,h)和来表示,Dilq用(x0,y0,w0,h0)来表示,(x0,y0)为Dilq的中心点横、纵坐标,也是网格的中心或网格边界的中点,w0和h0分别为Dilq的宽度、高度,首先得到Dilq的四个顶点表达形式转换公式如下:
<mrow> <msubsup> <mi>x</mi> <mn>01</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>-</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> <mo>,</mo> <msubsup> <mi>y</mi> <mn>01</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>-</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> </mrow>
<mrow> <msubsup> <mi>x</mi> <mn>02</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> <mo>,</mo> <msubsup> <mi>y</mi> <mn>02</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>-</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> </mrow>
<mrow> <msubsup> <mi>x</mi> <mn>03</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> <mo>,</mo> <msubsup> <mi>y</mi> <mn>03</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> </mrow>
<mrow> <msubsup> <mi>x</mi> <mn>04</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>x</mi> <mn>0</mn> </msub> <mo>-</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> <mo>,</mo> <msubsup> <mi>y</mi> <mn>04</mn> <mi>q</mi> </msubsup> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>+</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mo>/</mo> <mn>2</mn> </mrow>
然后根据下列关系式和所有已知量,得到Dilq的偏移量标签
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
<mrow> <msubsup> <mi>x</mi> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>x</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <msubsup> <mi>&amp;Delta;x</mi> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>
<mrow> <msubsup> <mi>y</mi> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>y</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <msubsup> <mi>&amp;Delta;y</mi> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>
n=1,2,3,4
其中,Δx、Δy分别为Dilq中心点相对于Qip中心点的横坐标和纵坐标偏移量,Δw、Δh分别为Dilq相对于Qip的宽度和高度的偏移量;分别为Dilq相对于Qip的四个顶点横坐标和纵坐标的偏移量,exp为指数运算。
5.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.4)具体为:
对模型初始化网络权重和偏置,先以公开的SynthText合成数据集为输入,按照预设的训练次数和第一学习率进行预训练迭代计算;之后以训练数据集Itr为输入,以预设的第二学习率进行微调训练;对于后6个特征待提取卷积层,在第l层输出特征图Ftril上的坐标(xl,yl)处,(xl,yl)对应到输入图像Itri上以(x0,y0)为中心点坐标、以Sl为尺寸、以ar为长宽比的初始包围盒Dilq,6个文本框预测层会输出由2个预测值组成的分类得分c=(c+,c-),c+、c-分别作为初始包围盒Dilq被预测为正类文本、负类非文本的得分,均为取值范围在[0,1]之间的小数;同时也输出由13个值组成的预测回归偏移量作为Dilq被预测为正类文本时相对于标注包围盒的几何偏移量,其中分别为预测为正类的初始包围盒Dilq中心点横坐标、纵坐标、宽度、高度的预测偏移量,分别为预测为正类的初始包围盒Dilq四个顶点横坐标、纵坐标的预测偏移量。
6.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.5)具体为:
以步骤(1.2.3)中初始包围盒的类别和几何偏移量标签为标准输出,以步骤(1.2.4)中预测的初始包围盒分类得分和几何偏移量为预测输出,针对所述单次检测网络模型,设计标准输出和预测输出之间的目标损失函数,目标损失函数是分类损失和回归损失的加权和,表达式如下:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>c</mi> <mo>,</mo> <mi>l</mi> <mo>,</mo> <mi>g</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>c</mi> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&amp;alpha;L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mover> <mi>g</mi> <mo>^</mo> </mover> <mo>,</mo> <mi>g</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,L、Lconf、Lloc分别为目标损失总和、预测的初始包围盒分类的softmax损失、预测的正类包围盒几何偏移量和正类包围盒偏移量标签g之间的平滑L1回归损失;x为匹配矩阵,当xi′j′=1时,说明初始包围盒集合里的第i′个初始包围盒和输入图片Itri上第j′个标注包围盒相交且匹配,否则,当xi′j′=0时,说明它们之间不匹配;N为与Itri上的标注包围盒相交且匹配的初始包围盒总数目;α为回归损失的权重系数;利用反向传播法对模型进行迭代训练,最小化分类损失和回归损失组成的目标损失函数,实现最优网络模型。
7.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(1.2.6)具体为:
通过随机裁剪和缩放的方法对图像上文本图像块进行数据扩增从而增加小尺寸样本,步骤包括:1)在图像Itri上随机选取图像块Ptri,与标注包围盒Qip包围的文本图像块计算相交系数C,公式如下:其中,B为随机图像块Ptri的面积,G为标注包围盒Qip的面积,B∩G为随机图像块Ptri与标注包围盒Qip相交的面积;2)每个样本的相交阈值t从0、0.1、0.3、0.5、0.7和0.9中随机选取,当C<t,Ptri为包含文本信息过少的负类图像块,不参与扩增;当C≥t,Ptri为包含较多文本信息的正类图像块,对它进行裁剪并缩放至与输入图像Itri相同大小,进行步骤(1.2.5)中的训练;
同时,由于负类初始包围盒数目远远大于正类初始包围盒数目,正类样本训练不足,采用在线负样本难例挖掘策略来平衡正样本和负样本,在训练前阶段控制负样本与正样本之间的比例不超过3:1,后阶段比例不超过6:1。
8.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(2.1)具体为:
对于待检测文本图像Itst里的第i张图片Itsti,将其输入到步骤(1.2)训练好的模型中,像素缩放到预设宽度W和预设高度H,由6个不同的特征待提取卷积层和与之相连的文本框预测层可以检测出不同尺度的文本包围盒,输出的特征图为Ftsti=[Ftsti1,Ftsti2,Ftsti3,Ftsti4,Ftsti5,Ftsti6],其中特征图Ftstil为第l层特征待提取卷积层的输出特征图,在输出特征图Ftstil上的坐标(xl,yl)处,文本框预测层都会预测出(xl,yl)对应的初始包围盒Dilq被预测为正类文本、负类非文本的得分c=(c+,c-),同时也会预测出13个数字作为Dilq被预测为正类文本时的几何偏移量。
9.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(2.2)具体为:
对于文字多尺度、文字多角度、多种分辨率的待检测文本图像Itst里的第i张图片Itsti,再次分别缩放到其他预设大小,依次输入到步骤(1.2)训练好的模型中进行多尺度测试,有利于捕捉到多尺度、多角度、多种长宽比、多种分辨率的文字,测试步骤重复(2.1),根据预测的几何偏移量,且已知Dilq的水平中心点表达形式(x0,y0,w0,h0)和四个顶点初始表达形式按照如下公式,计算预测的文本框四个顶点坐标
<mrow> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>x</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mi>&amp;Delta;</mi> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>
<mrow> <msubsup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>y</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mi>&amp;Delta;</mi> <msubsup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>
n=1,2,3,4。
10.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法,其特征在于,所述步骤(2.3)具体为:
设计两级过滤规则:1)对初步检测出的文本框按照正类分类得分c+进行过滤,当c+<0.5,该检测文本框会被筛选过滤掉,保留c+≥0.5的检测文本框;2)对保留的检测文本框按照Jaccard系数0.2进行非最大值抑制操作,得到最终保留的多边形检测文本框。
CN201711225391.7A 2017-11-29 2017-11-29 一种基于全卷积网络的多方向场景文本单次检测方法 Active CN107977620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711225391.7A CN107977620B (zh) 2017-11-29 2017-11-29 一种基于全卷积网络的多方向场景文本单次检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711225391.7A CN107977620B (zh) 2017-11-29 2017-11-29 一种基于全卷积网络的多方向场景文本单次检测方法

Publications (2)

Publication Number Publication Date
CN107977620A true CN107977620A (zh) 2018-05-01
CN107977620B CN107977620B (zh) 2020-05-19

Family

ID=62008492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711225391.7A Active CN107977620B (zh) 2017-11-29 2017-11-29 一种基于全卷积网络的多方向场景文本单次检测方法

Country Status (1)

Country Link
CN (1) CN107977620B (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734169A (zh) * 2018-05-21 2018-11-02 南京邮电大学 一种基于全卷积网络改进的场景文本提取方法
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN109086663A (zh) * 2018-06-27 2018-12-25 大连理工大学 基于卷积神经网络的尺度自适应的自然场景文本检测方法
CN109344822A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109583328A (zh) * 2018-11-13 2019-04-05 东南大学 一种嵌入稀疏连接的深度卷积神经网络字符识别方法
CN109670503A (zh) * 2018-12-19 2019-04-23 北京旷视科技有限公司 标识检测方法、装置和电子系统
CN109740542A (zh) * 2019-01-07 2019-05-10 福建博思软件股份有限公司 基于改进型east算法的文本检测方法
CN109886174A (zh) * 2019-02-13 2019-06-14 东北大学 一种仓库货架标识牌文字识别的自然场景文字识别方法
CN109948533A (zh) * 2019-03-19 2019-06-28 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109977997A (zh) * 2019-02-13 2019-07-05 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN110032997A (zh) * 2019-01-07 2019-07-19 武汉大学 一种基于图像分割的自然场景文本定位方法
CN110069997A (zh) * 2019-03-22 2019-07-30 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110147786A (zh) * 2019-04-11 2019-08-20 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110210400A (zh) * 2019-06-03 2019-09-06 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110276287A (zh) * 2019-06-17 2019-09-24 百度在线网络技术(北京)有限公司 车位检测方法、装置、计算机设备以及存储介质
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110427852A (zh) * 2019-07-24 2019-11-08 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110458164A (zh) * 2019-08-07 2019-11-15 深圳市商汤科技有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN110598698A (zh) * 2019-08-29 2019-12-20 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110766003A (zh) * 2019-10-18 2020-02-07 湖北工业大学 一种基于卷积神经网络的片段和链接的场景文字的检测方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN110852324A (zh) * 2019-08-23 2020-02-28 上海撬动网络科技有限公司 一种基于深度神经网络集装箱箱号检测方法
CN110874618A (zh) * 2020-01-19 2020-03-10 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112215226A (zh) * 2020-10-30 2021-01-12 桂林电子科技大学 一种基于改进east算法的栅格地质图文本检测方法
CN112825141A (zh) * 2019-11-21 2021-05-21 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
CN112836798A (zh) * 2021-01-29 2021-05-25 华中科技大学 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN113095319A (zh) * 2021-03-03 2021-07-09 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113420774A (zh) * 2021-03-24 2021-09-21 成都理工大学 一种用于不规则图形的目标检测技术
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN116347057A (zh) * 2023-05-29 2023-06-27 缤汇数字科技(南京)有限公司 一种App端实现动态模型AR实景展示方法
CN117373052A (zh) * 2023-12-05 2024-01-09 江西少科智能建造科技有限公司 一种cad图纸图框信息提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4204080B2 (ja) * 1996-05-10 2009-01-07 ヒューレット・パッカード・カンパニー テキスト強調印刷方法
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
WO2017186421A1 (en) * 2016-04-27 2017-11-02 Asml Holding N.V. Image processing convolution algorithm for defect detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4204080B2 (ja) * 1996-05-10 2009-01-07 ヒューレット・パッカード・カンパニー テキスト強調印刷方法
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
WO2017186421A1 (en) * 2016-04-27 2017-11-02 Asml Holding N.V. Image processing convolution algorithm for defect detection
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C.YI ET AL.: "Scene text recognition in mobile applications by character descriptor and structure configuration", 《IEEE TRANS》 *
MINGHUI LIAO ET AL.: "TextBoxes: A Fast Text Detector with a Single Deep Neural Network", 《ARXIV》 *

Cited By (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734169A (zh) * 2018-05-21 2018-11-02 南京邮电大学 一种基于全卷积网络改进的场景文本提取方法
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN109086663A (zh) * 2018-06-27 2018-12-25 大连理工大学 基于卷积神经网络的尺度自适应的自然场景文本检测方法
CN109086663B (zh) * 2018-06-27 2021-11-05 大连理工大学 基于卷积神经网络的尺度自适应的自然场景文本检测方法
CN109344822A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109344822B (zh) * 2018-09-03 2022-06-03 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109447078B (zh) * 2018-10-23 2020-11-06 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109583328A (zh) * 2018-11-13 2019-04-05 东南大学 一种嵌入稀疏连接的深度卷积神经网络字符识别方法
CN109670503A (zh) * 2018-12-19 2019-04-23 北京旷视科技有限公司 标识检测方法、装置和电子系统
CN109740542A (zh) * 2019-01-07 2019-05-10 福建博思软件股份有限公司 基于改进型east算法的文本检测方法
CN110032997A (zh) * 2019-01-07 2019-07-19 武汉大学 一种基于图像分割的自然场景文本定位方法
CN109740542B (zh) * 2019-01-07 2020-11-27 福建博思软件股份有限公司 基于改进型east算法的文本检测方法
CN109977997A (zh) * 2019-02-13 2019-07-05 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN109886174A (zh) * 2019-02-13 2019-06-14 东北大学 一种仓库货架标识牌文字识别的自然场景文字识别方法
CN109977997B (zh) * 2019-02-13 2021-02-02 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN109948533A (zh) * 2019-03-19 2019-06-28 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN110069997B (zh) * 2019-03-22 2021-07-20 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN110069997A (zh) * 2019-03-22 2019-07-30 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN110147786B (zh) * 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110147786A (zh) * 2019-04-11 2019-08-20 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
US11482023B2 (en) 2019-04-11 2022-10-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for detecting text regions in image, device, and medium
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110163208B (zh) * 2019-05-22 2021-06-29 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110135424B (zh) * 2019-05-23 2021-06-11 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110210400A (zh) * 2019-06-03 2019-09-06 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110276287A (zh) * 2019-06-17 2019-09-24 百度在线网络技术(北京)有限公司 车位检测方法、装置、计算机设备以及存储介质
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110309824B (zh) * 2019-07-02 2021-07-02 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110427852B (zh) * 2019-07-24 2022-04-15 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110427852A (zh) * 2019-07-24 2019-11-08 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110458164A (zh) * 2019-08-07 2019-11-15 深圳市商汤科技有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN110852324A (zh) * 2019-08-23 2020-02-28 上海撬动网络科技有限公司 一种基于深度神经网络集装箱箱号检测方法
CN110598698A (zh) * 2019-08-29 2019-12-20 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN110766003A (zh) * 2019-10-18 2020-02-07 湖北工业大学 一种基于卷积神经网络的片段和链接的场景文字的检测方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN110837835B (zh) * 2019-10-29 2022-11-08 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN112825141B (zh) * 2019-11-21 2023-02-17 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
US11928872B2 (en) 2019-11-21 2024-03-12 Shanghai Goldway Intelligent Transportation System Co., Ltd. Methods and apparatuses for recognizing text, recognition devices and storage media
CN112825141A (zh) * 2019-11-21 2021-05-21 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
CN110874618A (zh) * 2020-01-19 2020-03-10 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111753828B (zh) * 2020-05-19 2022-12-27 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112215226B (zh) * 2020-10-30 2022-06-07 桂林电子科技大学 一种基于改进east算法的栅格地质图文本检测方法
CN112215226A (zh) * 2020-10-30 2021-01-12 桂林电子科技大学 一种基于改进east算法的栅格地质图文本检测方法
CN112836798A (zh) * 2021-01-29 2021-05-25 华中科技大学 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN113095319B (zh) * 2021-03-03 2022-11-15 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113095319A (zh) * 2021-03-03 2021-07-09 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113420774A (zh) * 2021-03-24 2021-09-21 成都理工大学 一种用于不规则图形的目标检测技术
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114677691B (zh) * 2022-04-06 2023-10-03 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN116347057A (zh) * 2023-05-29 2023-06-27 缤汇数字科技(南京)有限公司 一种App端实现动态模型AR实景展示方法
CN116347057B (zh) * 2023-05-29 2023-07-25 缤汇数字科技(南京)有限公司 一种App端实现动态模型AR实景展示方法
CN117373052A (zh) * 2023-12-05 2024-01-09 江西少科智能建造科技有限公司 一种cad图纸图框信息提取方法及系统
CN117373052B (zh) * 2023-12-05 2024-02-23 江西少科智能建造科技有限公司 一种cad图纸图框信息提取方法及系统

Also Published As

Publication number Publication date
CN107977620B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN107977620B (zh) 一种基于全卷积网络的多方向场景文本单次检测方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN108427924B (zh) 一种基于旋转敏感特征的文本回归检测方法
CN109902677B (zh) 一种基于深度学习的车辆检测方法
Hu et al. Fast forest fire smoke detection using MVMNet
US20210342585A1 (en) Systems and methods for extracting and vectorizing features of satellite imagery
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN108399625B (zh) 一种基于深度卷积生成对抗网络的sar图像定向生成方法
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN111145174A (zh) 基于图像语义特征进行点云筛选的3d目标检测方法
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
CN104809731B (zh) 一种基于梯度二值化的旋转尺度不变场景匹配方法
US11853892B2 (en) Learning to segment via cut-and-paste
CN104134234A (zh) 一种全自动的基于单幅图像的三维场景构建方法
CN112633277A (zh) 基于深度学习的航道船牌检测、定位及识别方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN111753828A (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
WO2023193401A1 (zh) 点云检测模型训练方法、装置、电子设备及存储介质
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN110598703B (zh) 一种基于深度神经网络的ocr识别方法及装置
CN110751154A (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN112418165A (zh) 基于改进型级联神经网络的小尺寸目标检测方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant