CN109299274A - 一种基于全卷积神经网络的自然场景文本检测方法 - Google Patents

一种基于全卷积神经网络的自然场景文本检测方法 Download PDF

Info

Publication number
CN109299274A
CN109299274A CN201811319968.5A CN201811319968A CN109299274A CN 109299274 A CN109299274 A CN 109299274A CN 201811319968 A CN201811319968 A CN 201811319968A CN 109299274 A CN109299274 A CN 109299274A
Authority
CN
China
Prior art keywords
text
module
characteristic pattern
natural scene
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811319968.5A
Other languages
English (en)
Other versions
CN109299274B (zh
Inventor
汪洋
苏丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201811319968.5A priority Critical patent/CN109299274B/zh
Publication of CN109299274A publication Critical patent/CN109299274A/zh
Application granted granted Critical
Publication of CN109299274B publication Critical patent/CN109299274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于全卷积神经网络的自然场景文本检测方法,该方法使用CNN网络提取文本的特征表示,通过特征融合模块调整特征表示,同时融合特征图高层的语义特征和低层的位置信息,使得提取的特征具有更强的表示能力,并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程,处理流程简单,无需多步骤分级处理,最后通过简单的NMS操作得到最终的检测结果,其准确度高,鲁棒性强,对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测,具有优良的自然场景文本检测性能。

Description

一种基于全卷积神经网络的自然场景文本检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于全卷积神经网络的自然场景文本检测方法。
背景技术
自然场景文本通常携带了关于场景和图像内容的丰富语义信息,在图像的检索、标注、内容分析等许多应用领域具有十分重要的作用。相较于扫描文档中的文本而言,自然场景文本的字体、尺寸、方向、颜色等外观属性和图像背景、光照等因素更为复杂多变,同时自然场景图像采集时可能发生模糊、分辨率过低等情况,使得自然场景文本检测成为一件具有挑战性的任务。
传统的自然场景文本检测方法可分为两类,分别是基于连通组件的文本检测方法和基于滑动窗口的文本检测方法。基于连通组件的文本检测方法通常首先提取图像中的连通组件,接着使用特定文本特征、规则或分类器对连通组件进行过滤得到候选字符,最后将候选字符拼接成文本行作为最终的文本检测结果。该类方法的文本检测性能依赖于所提取的连通组件的质量和人工选择的特征,在处理复杂的场景图像时往往难以取得令人满意的结果。基于滑动窗口的文本检测方法首先在输入图像上进行滑动窗口扫描,提取每个滑动窗口中局部图像块的特定特征,基于这些特征使用分类器确定每个滑动窗口是否对应文本区域,最后将属于同一文本对象的文本区域组合起来得到最终的文本检测结果。该类方法的性能同样依赖于所选择的特征以及分类器的能力,并且滑动窗口可能只包含整体文本对象的一个局部区域或者包含不属于文本的图像背景区域,从而影响最终文本检测的精度,需要后续处理加以精化。此外,从一幅输入图像中提取的滑动窗口数量往往很多,对每个滑动窗口进行处理使得总的计算量较大。
近年来,随着深度神经网络例如卷积神经网络(Convolutional Neural Network,CNN)在各种计算机视觉任务中的广泛应用并且取得了不错的效果,基于深度神经网络的文本检测方法已经成为主流。在面对复杂场景中的文本检测任务时,相对于传统方法中人工设计的特征,该类方法能够自动从图像数据中学习并提取更加鲁棒和表示能力更强的特征,从而获得泛化能力更强的文本检测模型,并且模型的训练和预测是端到端的,不需要复杂处理流程的同时能够取得更好的文本检测效果。常见的基于深度神经网络的文本检测模型一般借鉴计算机视觉研究中提出的各类目标检测模型,例如Faster-RCNN,SSD等。这些模型一般包含多个卷积层和池化层,通过不断卷积及池化操作实现不同层次特征的提取,一方面提高了特征语义表达的能力,但另一方面也损失了精确的位置信息,一定程度上影响了文本对象的准确检测。
发明内容
传统的自然场景文本检测方法依赖于人工设计的特征并且采取多步骤的检测流程,很难获得针对复杂自然场景图像中令人满意的文本检测性能。当前主流的基于深度学习的文本检测模型一般通过多个卷积和池化操作提取不同抽象级别的文本特征表示,提高了特征的语义表达能力,但在降低特征图分辨率的同时损失了精确的位置信息,影响了最终的文本检测性能。为了解决上述问题,本发明提供了一种基于全卷积神经网络的自然场景文本检测方法。
本发明具体采用如下技术方案:
一种基于全卷积神经网络的自然场景文本检测方法,其特征在于包括以下步骤:
(1)训练基于全卷积神经网络的自然场景文本检测模型,包括以下子步骤:
(1.1)获取带有标注文本框的图像数据集作为训练数据集,其中标注框的表示形式为文本框的四个顶点坐标C={(xi,yi)},1≤i≤4,并按照顺时针方向排列。
(1.2)构建基于全卷积神经网络的自然场景文本检测模型,并设计损失函数,根据步骤(1.1)中带标注文本框的数据集生成训练标签,进而基于训练数据集及其训练标签利用反向传播(Back Propagation,BP)算法训练该文本检测模型,得到训练好的自然场景文本检测模型,包括以下子步骤:
(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型,具体由特征抽取模块、特征融合模块和文本预测模块组成;所述特征抽取模块用于逐级提取输入图像的特征图,所述特征融合模块用于对特征抽取模块逐级提取的特征图进行精细化调整并加以融合,所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测;
(1.2.2)根据训练数据集生成训练标签,包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q={(Δxi,Δyi)},1≤i≤4;
(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入,经过特征抽取模块和特征融合模块的处理,得到精细化调整并结合高层语义信息和低层位置信息的特征;
(1.2.4)将提取的特征输入到文本预测模块,计算得到文本框的文本类别得分和四个顶点坐标偏移量
(1.2.5)根据训练标签和文本检测模型的预测输出,基于所设计检测模型的目标损失函数,利用反向传播算法训练检测模型。
(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测,具体包括以下子步骤:
(2.1)将测试图像输入文本检测模型,从模型的文本预测模块的输出中得到候选文本框的类别得分和坐标偏移量回归结果;
(2.2)对预测得到的候选文本框进行非极大值抑制操作以去除部分冗余或无效的文本框,得到最终的文本检测结果。
本发明公开的一种基于全卷积神经网络的自然场景文本检测方法,该方法使用CNN网络提取文本的特征表示,通过特征融合模块调整特征表示,同时融合特征图高层的语义特征和低层的位置信息,使得提取的特征具有更强的表示能力,并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程,处理流程简单,无需多步骤分级处理,最后通过简单的非极大值抑制(Non-Maximum Suppression,NMS)操作得到最终的检测结果,其准确度高,鲁棒性强,对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测,具有优良的自然场景文本检测性能。
附图说明
图1.本发明基于深度全卷积网络的自然场景文本检测方法的流程图;
图2.本发明自然场景文本检测模型的网络结构图;
图3.本发明精细化模块(Refine Block)结构图;
图4.本发明实施例中使用自然场景文本检测模型对测试图像进行检测获得的文本框结果图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本发明中的术语进行解释和说明:
ResNet-50:ResNet是何凯明等人提出的用于目标检测的网络模型架构,根据所采用网络层数的不同命名为ResNet-34、ResNet-50、ResNet-152等。ResNet一般包含5个部分,其中第1个部分由采用7*7卷积核的卷积层组成,然后通过卷积核为3*3、步长为2的池化层,后4个部分每个由数量不等的卷积核为3*3的卷积层和一个池化层组成。ResNet具有强大的特征表示能力,常在不同计算机视觉任务中用作基础网络。
残差块(residual unit):残差块是ResNet中的一种基础模块,它采用残差学习的思想,将输入的特征图通过残差学习分支(由2个卷积操作和Relu(Rectified LinearUnit)函数组成)得到残差特征图,并将其和输入的特征图进行相加操作,得到最终的模块输出结果。
Inception模块:Inception模块是GoogLeNet中的一种组合多种卷积操作的模块,分别利用不同大小的卷积核对输入特征图进行卷积操作,同时进行最大池化操作,再将卷积结果和池化结果拼接在一起作为模块的输出。Inception模块可以增加网络的宽度,同时可以获取不同大小感受野的特征。
非极大值抑制(NMS):非极大值抑制操作通过排序、遍历和比较操作循环迭代实现对重叠检测框进行过滤,去除冗余的检测框以得到最终的检测结果,是一种广泛应用于计算机检测领域中的算法。
如图(1)所示,本发明中基于全卷积神经网络的自然场景文本检测方法包括以下步骤:
(1)训练基于全卷积神经网络的自然场景文本检测模型,包括以下子步骤:
(1.1)获取带有标注文本框的图像数据集作为训练数据集,其中标注框的表示形式为文本框的四个顶点坐标C={(xi,yi)},1≤i≤4,并按照顺时针方向排列。
(1.2)构建基于全卷积神经网络的自然场景文本检测模型,并设计损失函数,根据步骤(1.1)中带标注文本框的训练数据集生成训练标签,进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型,得到训练好的自然场景文本检测模型,包括以下子步骤:
(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型,如图(2)所示,该模型由特征抽取模块、特征融合模块和文本预测模块组成:特征抽取模块以ResNet-50为基本骨架网络,由5个部分组成,分别为conv1,conv2_x,conv3_x,conv4_x,conv5_x,用于逐级提取图像的高层语义特征,每个部分包含数量不等的卷积层和一个池化层,对于输入的图像,经过ResNet-50的每个部分处理后,其输出特征图的分辨率缩小2倍,其中“n×n,m,/2”表示卷积核大小为n*n,卷积核个数为m,输出特征图的分辨率缩小为输入特征图的1/2。特征融合模块将特征抽取模块中后4个部分(conv2_x,conv3_x,conv4_x,conv5_x)输出的特征图通过精细化调整模块(Refine Block)加以融合,共有4个Refine Block,分别记为RefineBlock-i,1≤i≤4。Refine Block-4的输入为ResNet-50第5个部分输出的特征图,经过Refine Block中多分辨率融合模块时直接通过该模块,其余Refine Block的输入为前一个Refine Block输出的低分辨率的特征图和ResNet-50当前部分输出的高分辨率的特征图,这里的高、低分辨率是相比较而言,ResNet-50后四个部分中的每一个提取的特征图的分辨率均比对应的前一个Refine Block输出的特征图的分辨率高。如图(3)所示,Refine Block的网络结构包含多个输入分支,对于每个分支输入的特征图,首先通过残差块(residualunit),应用2次Relu函数和卷积核为3*3的卷积操作(Conv)后,与输入的特征图相加(Sum),作为残差块的输出结果输入到多分辨率融合模块,用这样的方式对特征图进行调整,使其适应文本检测任务;接着多分辨率融合模块对每个输入特征图进行卷积核为3*3的卷积操作,并对低分辨率的特征图(来自前一个Refine Block)进行转置卷积(Deconv)得到和高分辨率的特征图(来自ResNet-50当前部分)同样分辨率的特征图,将其和卷积后的高分辨率特征图进行拼接(Concat)并通过卷积核为3*3的卷积层及Relu函数后输入到Inception模块中,得到Refine Block的输出特征图。其中Inception模块包含卷积核为1*1、3*3、5*5的卷积层和3*3的最大池化层,池化结果需要通过卷积核为1*1的卷积层,最后将卷积结果拼接,通过卷积核为3*3的卷积操作后,输出的特征图作为Refine Block的输出结果。文本检测模型对最后一个Refine Block的输出特征图进行卷积核为3*3的卷积操作,得到最终经过精细化调整并且融合了高层语义信息和低层位置信息的特征图,进而输入到文本预测模块。文本预测模块包含分类分支和回归分支,分别用于类别得分预测和坐标偏移量回归预测,其中分类分支对输入的特征图进行卷积核为1*1的卷积操作,得到1个特征图,表示预测的候选文本框的类别得分,回归分支对输入的特征图进行卷积核为1*1的卷积操作,得到8个特征图,分别表示预测的候选文本框的坐标偏移量。其中“n×n,m”表示卷积核大小为n*n,卷积核个数为m。
(1.2.2)根据训练数据集生成训练标签,包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q={(Δxi,Δyi)},1≤i≤4:对于训练数据集中的第i幅图像Ii,首先将图像Ii的分辨率缩放到预先指定的512*512像素尺寸,然后对于图像Ii中每个标注文本框Cj={x1,y1,x2,y2,x3,y3,x4,y4},其中每一个坐标分别对应于文本预测模块中的8个坐标偏移量回归特征图中的一个。假设(x0,y0)是特征图上某像素点的位置坐标,则对每一个位于标注文本框中的像素点,根据以下公式计算特征图上该像素点对应位置的取值Δxi=1,2,3,4,Δyi=1,2,3,4(不同下标分别对应一个坐标偏移量回归特征图):
Δx1=x1-x0,Δy1=y1-y0
Δx2=x2-x0,Δy2=y2-y0
Δx3=x3-x0,Δy3=y3-y0
Δx4=x4-x0,Δy4=y4-y0
Q=(Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4)被用作期望输出的坐标偏移量训练标签。
另一方面,将类别得分特征图上每个标注文本框Cj所在区域中的像素点置为1,其他像素点置为0,生成期望输出的对应标注文本框Cj的类别得分训练标签。
(1.2.3)将带标注文本框的训练数据集中图像作为待训练的文本检测模型的输入,通过特征抽取模块和特征融合模块,得到精细化调整并结合高层语义信息和低层位置信息的特征:首先初始化文本检测模型中的网络权重和偏置,然后将训练图像作为步骤(1.2.1)中文本检测模型特征抽取模块的输入,经过特征抽取模块的卷积和池化操作得到图像的高层语义特征,接着将其通过特征融合模块进行精细化调整并融合,经过4个RefineBlock以及1个卷积核为3*3的卷积层后,得到经过精细化调整并结合高层语义信息和低层位置信息的特征图。
(1.2.4)将提取的特征图输入到文本预测模块,计算得到文本框的文本类别得分和四个顶点坐标偏移量将步骤(1.2.3)中得到的训练图像的特征图输入到文本预测模块,经过1个1*1卷积层得到文本框的预测类别得分s,同时经过8个1*1卷积层得到文本框的8个坐标值的回归偏移量预测标签其中表示相对文本框四个顶点横坐标、纵坐标的回归偏移量预测值。
(1.2.5)根据训练标签和文本检测模型的预测输出,基于所设计检测模型的目标损失函数,利用反向传播算法训练检测模型:基于步骤(1.2.2)中计算得到的标注文本框的类别得分和顶点坐标偏移量的训练标签和步骤(1.2.4)中得到的文本框的类别得分和顶点坐标偏移量的预测标签,针对步骤(1.2.1)构建的文本检测模型,设计目标损失函数L计算公式如下,包括分类损失和回归损失两部分:
其中,L、Ls、Lg分别表示总损失函数、分类损失函数、回归损失函数。回归损失函数Lg通过顶点坐标偏移量的训练标签和预测标签之间的平滑L1损失函数计算。λ是平衡分类损失和回归损失之间的权重系数,实际中设置为20。
分类损失函数Ls计算公式如下:
其中,Yi分别表示类别的训练标签特征图和预测标签特征图上每个像素点的取值,N表示特征图中像素点的总数。
基于文本检测模型在每一训练图像数据上计算得到的损失值,以最小化总体目标损失函数为训练目标,使用反向传播算法对文本检测模型进行训练,最终得到最优的文本检测模型。其中,针对自然场景文本检测任务,设置初始学习率为0.0001,每迭代10000次学习率乘以0.94,并使用随机梯度下降法优化损失函数。当模型性能不再提升时停止训练过程,进而将其应用于自然场景文本检测。
(2)给定一幅测试图像,使用上述训练完成的自然场景文本检测模型对该图像中的自然场景文本进行检测,具体包括以下子步骤:
(2.1)将测试图像输入文本检测模型,从模型的文本预测模块的输出中得到候选文本框的类别得分和坐标偏移量回归结果:对于待检测图像I,将其输入到步骤(1.2)训练好的文本检测模型中,经过特征抽取模块、特征融合模块得到精细化调整并结合高层语义信息和低层位置信息的特征,进一步将其送入文本预测模块,分别从类别得分预测分支得到1个输出特征图、从坐标偏移量预测分支得到8个输出特征图,其中所有特征图中对应位置上的每个像素点的取值分别表示预测的候选文本框的类别得分及其相对于该像素点位置的坐标偏移量。
(2.2)对预测得到的候选文本框进行非极大值抑制操作,从而过滤去除部分冗余或无效的文本框,得到最终的文本检测结果:步骤(2.1)最后得到的所有特征图上对应位置的每个像素点组合起来表示一个候选文本框的类别得分和坐标偏移量。对于文本检测模型预测得到的所有候选文本框,去除类别得分c<0.5的候选文本框,然后对剩余的候选文本框进行非极大值抑制操作,得到最终的文本检测结果。图(4)为发明一实例最终检测到的文本框结果图,可见本发明提供的一种基于全卷积神经网络的自然场景文本检测方法具有优良的自然场景文本检测性能,能够对包含复杂背景的自然场景图像中多方向、多尺寸的文本对象进行很好地检测。
相比于现有的场景文本检测技术,上述检测方法具有以下优点:
1)精细化模块对卷积神经网络中的特征图进行调整,使得提取的特征具有更强的表达能力。
2)文本检测模型的网络结构中,对低分辨率的特征图进行转置卷积放大并与上一层的高分辨率特征图进行拼接,从而将卷积特征图的高层语义特征和低层位置信息有效结合起来,提高了文本检测模型的性能。
3)利用端到端的深度神经网络直接预测出候选文本对象,无需多步骤分级处理,最后通过简单的NMS操作得到最终的检测结果,其准确度高,鲁棒性强,对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测。

Claims (10)

1.一种基于全卷积神经网络的自然场景文本检测方法,其特征在于包括以下步骤:
(1)训练基于全卷积神经网络的自然场景文本检测模型,包括以下子步骤:
(1.1)获取带有标注文本框的图像数据集作为训练数据集,其中标注框的表示形式为文本框的四个顶点坐标C={(xi,yi)},1≤i≤4,并按照顺时针方向排列;
(1.2)构建基于全卷积神经网络的自然场景文本检测模型,并设计损失函数,根据步骤(1.1)中带标注文本框的训练数据集生成训练标签,进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型,得到训练好的自然场景文本检测模型,包括以下子步骤:
(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型,具体由特征抽取模块、特征融合模块和文本预测模块组成:所述特征抽取模块用于逐级提取输入图像的特征图,利用一系列卷积和池化操作得到图像的高层语义特征;所述特征融合模块用于对特征抽取模块提取的特征图进行精细化调整并对特征图高层的语义特征和低层的位置信息加以融合;所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测;
(1.2.2)根据训练数据集生成训练标签,包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q={(Δxi,Δyi)},1≤i≤4;
(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入,经过特征抽取模块和特征融合模块的处理,得到精细化调整并结合高层语义信息和低层位置信息的特征;
(1.2.4)将提取的特征输入到文本预测模块,计算得到文本框的文本类别得分和四个顶点坐标偏移量
(1.2.5)根据训练标签和文本检测模型的预测输出,基于所设计检测模型的目标损失函数,利用反向传播算法训练检测模型;
(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测,具体包括以下子步骤:
(2.1)将测试图像输入文本检测模型,从模型的文本预测模块的输出中得到候选文本框的文本类别得分和坐标偏移量回归结果;
(2.2)对预测得到的候选文本框进行非极大值抑制操作以去除部分冗余或无效的文本框,得到最终的文本检测结果。
2.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于所述特征抽取模块以ResNet-50为基本骨架网络,由5个部分组成,每个部分包含数量不等的卷积层和一个池化层,用于逐级提取输入图像的高层语义特征,输出从高到低4种不同分辨率的特征图。
3.如权利要求2所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于对于输入的图像,经过ResNet-50每个部分处理后,其输出特征图的分辨率缩小2倍。
4.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于特征融合模块主要由4个精细化调整模块串联组成,用于对特征抽取模块逐级提取输出的特征图进行调整并加以融合;特征抽取模块提取输出4种不同分辨率的特征图,按分辨率从低到高的顺序输入第四~第一个精细化调整模块,第一~第三个精细化调整模块的输入还包括前一个精细化调整模块输出的特征图。
5.如权利要求4所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于所述精细化调整模块由两个残差块、一个多分辨率融合模块和一个Inception模块组成;对于输入的特征图,首先通过残差块应用2次Relu函数和卷积核为3*3的卷积操作后,与输入的特征图相加,作为残差块的输出结果输入到多分辨率融合模块;接着多分辨率融合模块对输入的来自特征抽取模块的特征图进行卷积核为3*3的卷积操作,对输入的来自前一个精细化调整模块的特征图进行卷积核为3*3的卷积操作及转置卷积操作,从而使两部分操作得到的特征图具有相同的分辨率,然后将两部分操作得到的特征图进行拼接,并通过卷积核为3*3的卷积层及Relu函数后输入到Inception模块中。
6.如权利要求5所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于所述Inception模块包含卷积核为1*1、3*3、5*5的卷积层和3*3的最大池化层,池化结果进一步通过卷积核为1*1的卷积层,最后将所有卷积结果拼接,通过卷积核为3*3的卷积操作后,输出的特征图作为精细化调整模块的输出结果。
7.如权利要求4所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于特征融合模块对最后一个精细化调整模块的输出特征图进行卷积核为3*3的卷积操作,得到最终经过精细化调整并且融合了高层语义信息和低层位置信息的特征图,输入到文本预测模块。
8.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于文本预测模块包含分类分支和回归分支,分别用于文本类别得分预测和坐标偏移量回归预测;其中,分类分支对输入的特征图进行卷积核为1*1的卷积操作,得到1个特征图,表示预测的候选文本框的文本类别得分;回归分支对输入的特征图进行卷积核为1*1的卷积操作,得到8个特征图,分别表示预测的候选文本框的坐标偏移量。
9.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于损失函数L计算公式如下,包括分类损失和回归损失两部分:
其中,L、Ls、Lg分别表示总损失函数、分类损失函数、回归损失函数;
回归损失函数Lg通过顶点坐标偏移量的训练标签和预测标签之间的平滑L1损失函数计算;λ是平衡分类损失和回归损失之间的权重系数。
10.如权利要求9所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于分类损失函数Ls计算公式如下:
其中,Yi分别表示类别的训练标签特征图和预测标签特征图上每个像素点的取值,N表示特征图中像素点的总数。
CN201811319968.5A 2018-11-07 2018-11-07 一种基于全卷积神经网络的自然场景文本检测方法 Active CN109299274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811319968.5A CN109299274B (zh) 2018-11-07 2018-11-07 一种基于全卷积神经网络的自然场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811319968.5A CN109299274B (zh) 2018-11-07 2018-11-07 一种基于全卷积神经网络的自然场景文本检测方法

Publications (2)

Publication Number Publication Date
CN109299274A true CN109299274A (zh) 2019-02-01
CN109299274B CN109299274B (zh) 2021-12-17

Family

ID=65146644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811319968.5A Active CN109299274B (zh) 2018-11-07 2018-11-07 一种基于全卷积神经网络的自然场景文本检测方法

Country Status (1)

Country Link
CN (1) CN109299274B (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948533A (zh) * 2019-03-19 2019-06-28 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN110084297A (zh) * 2019-04-23 2019-08-02 东华大学 一种面向小样本的影像语义对齐结构
CN110110585A (zh) * 2019-03-15 2019-08-09 西安电子科技大学 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110222680A (zh) * 2019-05-19 2019-09-10 天津大学 一种城市生活垃圾物品外包装文本检测方法
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法
CN110276279A (zh) * 2019-06-06 2019-09-24 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110334709A (zh) * 2019-07-09 2019-10-15 西北工业大学 基于端到端多任务深度学习的车牌检测方法
CN110472002A (zh) * 2019-08-14 2019-11-19 腾讯科技(深圳)有限公司 一种文本相似度获取方法和装置
CN110533041A (zh) * 2019-09-05 2019-12-03 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110569738A (zh) * 2019-08-15 2019-12-13 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN110728310A (zh) * 2019-09-27 2020-01-24 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN110991149A (zh) * 2019-11-12 2020-04-10 广州爱学信息科技有限公司 一种多模态实体链接方法和实体链接系统
CN111062385A (zh) * 2019-11-18 2020-04-24 上海眼控科技股份有限公司 一种用于图像文本信息检测的网络模型构建方法与系统
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111242125A (zh) * 2020-01-14 2020-06-05 深圳大学 一种自然场景图像文本检测方法、存储介质及终端设备
CN111274985A (zh) * 2020-02-06 2020-06-12 咪咕文化科技有限公司 视频文本识别网络模型、视频文本识别装置与电子设备
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111553349A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN111881778A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 文本检测的方法、装置、设备和计算机可读介质
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN112016545A (zh) * 2020-08-11 2020-12-01 中国银联股份有限公司 一种包含文本的图像生成方法及装置
CN112101385A (zh) * 2020-09-21 2020-12-18 西南大学 一种弱监督文本检测方法
CN112765353A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN113052159A (zh) * 2021-04-14 2021-06-29 中国移动通信集团陕西有限公司 一种图像识别方法、装置、设备及计算机存储介质
CN113159021A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于上下文信息的文本检测方法
CN113255669A (zh) * 2021-06-28 2021-08-13 山东大学 任意形状自然场景文本检测方法及系统
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN113378787A (zh) * 2021-07-07 2021-09-10 山东建筑大学 一种基于多特征视觉的智能交通电子提示装置检测方法及系统
CN114025198A (zh) * 2021-11-08 2022-02-08 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质
EP3923185A3 (en) * 2021-03-03 2022-04-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Image classification method and apparatus, electronic device and storage medium
CN115019022A (zh) * 2022-05-30 2022-09-06 电子科技大学 一种基于双深度融合网络的轮廓检测方法
CN115063739A (zh) * 2022-06-10 2022-09-16 嘉洋智慧安全生产科技发展(北京)有限公司 异常行为的检测方法、装置、设备及计算机存储介质
CN116630755A (zh) * 2023-04-10 2023-08-22 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN107516110A (zh) * 2017-08-22 2017-12-26 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法
CN107545262A (zh) * 2017-07-31 2018-01-05 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
WO2018086513A1 (zh) * 2016-11-08 2018-05-17 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN108052937A (zh) * 2017-12-28 2018-05-18 百度在线网络技术(北京)有限公司 基于弱监督的字符检测器训练方法、装置、系统及介质
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108304835A (zh) * 2018-01-30 2018-07-20 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086513A1 (zh) * 2016-11-08 2018-05-17 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN107545262A (zh) * 2017-07-31 2018-01-05 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
CN107516110A (zh) * 2017-08-22 2017-12-26 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法
CN108052937A (zh) * 2017-12-28 2018-05-18 百度在线网络技术(北京)有限公司 基于弱监督的字符检测器训练方法、装置、系统及介质
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108304835A (zh) * 2018-01-30 2018-07-20 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOUBAO TANG 等: "Scene Text Detection Using Superpixel-Based Stroke Feature Transform and Deep Learning Based Region Classification", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
李翌昕: "文本检测算法的发展与挑战", 《信号处理》 *

Cited By (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110585A (zh) * 2019-03-15 2019-08-09 西安电子科技大学 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN109948533A (zh) * 2019-03-19 2019-06-28 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109948533B (zh) * 2019-03-19 2021-02-09 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN111783756B (zh) * 2019-04-03 2024-04-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110084297B (zh) * 2019-04-23 2023-09-15 东华大学 一种面向小样本的影像语义对齐系统
CN110084297A (zh) * 2019-04-23 2019-08-02 东华大学 一种面向小样本的影像语义对齐结构
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110222680A (zh) * 2019-05-19 2019-09-10 天津大学 一种城市生活垃圾物品外包装文本检测方法
CN110163208B (zh) * 2019-05-22 2021-06-29 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110135424B (zh) * 2019-05-23 2021-06-11 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110276279A (zh) * 2019-06-06 2019-09-24 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110276279B (zh) * 2019-06-06 2020-06-16 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法
CN110334709A (zh) * 2019-07-09 2019-10-15 西北工业大学 基于端到端多任务深度学习的车牌检测方法
CN110472002A (zh) * 2019-08-14 2019-11-19 腾讯科技(深圳)有限公司 一种文本相似度获取方法和装置
CN110569738B (zh) * 2019-08-15 2023-06-06 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110569738A (zh) * 2019-08-15 2019-12-13 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110533041B (zh) * 2019-09-05 2022-07-01 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110533041A (zh) * 2019-09-05 2019-12-03 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN110728310B (zh) * 2019-09-27 2023-09-01 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110728310A (zh) * 2019-09-27 2020-01-24 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110807422B (zh) * 2019-10-31 2023-05-23 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110991149A (zh) * 2019-11-12 2020-04-10 广州爱学信息科技有限公司 一种多模态实体链接方法和实体链接系统
CN111062385A (zh) * 2019-11-18 2020-04-24 上海眼控科技股份有限公司 一种用于图像文本信息检测的网络模型构建方法与系统
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN111079641B (zh) * 2019-12-13 2024-04-16 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111242125B (zh) * 2020-01-14 2023-05-02 深圳大学 一种自然场景图像文本检测方法、存储介质及终端设备
CN111242125A (zh) * 2020-01-14 2020-06-05 深圳大学 一种自然场景图像文本检测方法、存储介质及终端设备
CN111274985B (zh) * 2020-02-06 2024-03-26 咪咕文化科技有限公司 视频文本识别系统、视频文本识别装置与电子设备
CN111274985A (zh) * 2020-02-06 2020-06-12 咪咕文化科技有限公司 视频文本识别网络模型、视频文本识别装置与电子设备
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111553349A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法
CN111553349B (zh) * 2020-04-26 2023-04-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN111881778B (zh) * 2020-07-08 2023-12-05 泰康保险集团股份有限公司 文本检测的方法、装置、设备和计算机可读介质
CN111881778A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 文本检测的方法、装置、设备和计算机可读介质
CN112016545A (zh) * 2020-08-11 2020-12-01 中国银联股份有限公司 一种包含文本的图像生成方法及装置
CN112101385B (zh) * 2020-09-21 2022-06-10 西南大学 一种弱监督文本检测方法
CN112101385A (zh) * 2020-09-21 2020-12-18 西南大学 一种弱监督文本检测方法
CN112765353A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
EP3923185A3 (en) * 2021-03-03 2022-04-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Image classification method and apparatus, electronic device and storage medium
CN113159021A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于上下文信息的文本检测方法
CN113052159A (zh) * 2021-04-14 2021-06-29 中国移动通信集团陕西有限公司 一种图像识别方法、装置、设备及计算机存储介质
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN113255669A (zh) * 2021-06-28 2021-08-13 山东大学 任意形状自然场景文本检测方法及系统
CN113255669B (zh) * 2021-06-28 2021-10-01 山东大学 任意形状自然场景文本检测方法及系统
CN113378787B (zh) * 2021-07-07 2022-05-24 山东建筑大学 一种基于多特征视觉的智能交通电子提示装置检测方法及系统
CN113378787A (zh) * 2021-07-07 2021-09-10 山东建筑大学 一种基于多特征视觉的智能交通电子提示装置检测方法及系统
CN114025198A (zh) * 2021-11-08 2022-02-08 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质
CN115019022A (zh) * 2022-05-30 2022-09-06 电子科技大学 一种基于双深度融合网络的轮廓检测方法
CN115063739A (zh) * 2022-06-10 2022-09-16 嘉洋智慧安全生产科技发展(北京)有限公司 异常行为的检测方法、装置、设备及计算机存储介质
CN116630755A (zh) * 2023-04-10 2023-08-22 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质
CN116630755B (zh) * 2023-04-10 2024-04-02 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质

Also Published As

Publication number Publication date
CN109299274B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109299274A (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN110956185B (zh) 一种图像显著目标的检测方法
CN108875595A (zh) 一种基于深度学习和多层特征融合的驾驶场景目标检测方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN109584248A (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109800736A (zh) 一种基于遥感影像和深度学习的道路提取方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN109902622A (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110008950A (zh) 一种对形状鲁棒的自然场景中文本检测的方法
CN109829893A (zh) 一种基于注意力机制的缺陷目标检测方法
CN108549893A (zh) 一种任意形状的场景文本端到端识别方法
CN109711413A (zh) 基于深度学习的图像语义分割方法
CN107330453A (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
CN109583425A (zh) 一种基于深度学习的遥感图像船只集成识别方法
CN109934200A (zh) 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统
CN107609525A (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN113158768B (zh) 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法
CN109376576A (zh) 基于交替更新密集连通从零训练网络的目标检测方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN107644415A (zh) 一种文本图像质量评估方法及设备
CN110263845A (zh) 基于半监督对抗深度网络的sar图像变化检测方法
CN107203606A (zh) 基于卷积神经网络的自然场景下文本检测与识别方法
CN106372597B (zh) 基于自适应上下文信息的cnn交通检测方法
CN108564077A (zh) 一种基于深度学习对视频或图片中数字的检测和识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant