CN112966690A - 基于无锚框和提议框的场景文字检测方法 - Google Patents

基于无锚框和提议框的场景文字检测方法 Download PDF

Info

Publication number
CN112966690A
CN112966690A CN202110237052.0A CN202110237052A CN112966690A CN 112966690 A CN112966690 A CN 112966690A CN 202110237052 A CN202110237052 A CN 202110237052A CN 112966690 A CN112966690 A CN 112966690A
Authority
CN
China
Prior art keywords
convolution
character
scene
branch
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110237052.0A
Other languages
English (en)
Other versions
CN112966690B (zh
Inventor
黄燃东
王方圆
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110237052.0A priority Critical patent/CN112966690B/zh
Publication of CN112966690A publication Critical patent/CN112966690A/zh
Application granted granted Critical
Publication of CN112966690B publication Critical patent/CN112966690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。

Description

基于无锚框和提议框的场景文字检测方法
技术领域
本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法。
背景技术
场景文字检测是场景文字识别(OCR)领域中一个重要的子问题,通常是OCR技术的前置模块。众多基于掩码区域卷积神经网络(Mask R-CNN,Mask Region-basedConvolution Neural Network)的前沿场景文字检测方法将图像检测看作是一个实例分割问题,这类方法在弯曲文字数据集上的性能提升尤为明显。
然而,此类方法和其伴随的锚机制还存在如下缺点:(1)锚机制难以覆盖所有变换多样的文字;(2)锚机制密集放置锚框造成的类别不平衡问题;(3)锚框需要根据不同尺度和纵横比进行事先设计,不利于提升方法的泛化能力;(4)锚框的纵横比、尺度、位置坐标等超参数对文字检测器的性能具有重大影响,需要非常小心地进行调整;(5)矩形框的数量增多,Mask R-CNN矩形框特征提取操作的运行时间随之增加,且该操作破坏了方法的简洁性。
发明内容
为了解决现有技术中的上述问题,即现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题,本发明提供了一种基于无锚框和提议框的场景文字检测方法,通过构建一个无锚框且无提议框的场景文字检测模型(APFNet,Anchor andProposal Free Network)完成场景文字检测任务,APFNet有效克服了基于Mask R-CNN的文字检测方法的缺点,对弯曲文字和多方向文字的检测均取得了极具竞争力的性能,同时检测速度超过了多数主流的文字检测方法。
本发明的第一方面,提出了一种基于无锚框和提议框的场景文字检测方法,该方法包括:
步骤S10,构建场景文字检测模型;所述场景文字检测模型包括ResNet50主干网络、升采样和串联操作模块、无损失文字注意力机制模块以及检测输出模块;
步骤S20,通过所述ResNet50主干网络进行场景文字待检测区域的特征提取,获得ResNet50主干网络各层输出的卷积特征集;所述场景文字待检测区域为包含任意形状的文字区域的图像;
步骤S30,通过所述升采样和串联操作模块进行所述卷积特征集中各卷积特征的高层至低层的特征递归融合,获得卷积融合特征;
步骤S40,通过所述无损失文字注意力机制模块将所述卷积特征集中的最高层卷积特征嵌入所述卷积融合特征,获得LTAM卷积融合特征;
步骤S50,基于所述LTAM卷积融合特征,通过所述检测输出模块的分类图分支、矩形框分支和文字中心性分支分别获取场景文字待检测区域的文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图;
步骤S60,基于所述文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图进行冗余矩形框去除,将剩余矩形框投影到所述文字与背景分类图上,以分割区域内部最大面积轮廓的最小面积外接矩形的四个顶点作为多方向文字的检测输出结果或以分割区域内部最大面积轮廓的顶点作为弯曲文字的检测输出结果。
在一些优选的实施例中,所述升采样和串联操作模块包括一个2倍的升采样层、一个串联高层卷积特征和低层卷积特征的串联层、一个卷积核为1×1的卷积层和一个卷积和为3×3的卷积层。
在一些优选的实施例中,步骤S40包括:
步骤S41,通过所述无损失文字注意力机制模块的一个卷积核为1×1、通道数为64的卷积层进行所述卷积特征集中的最高层卷积特征的卷积;
步骤S42,通过所述无损失文字注意力机制模块的一个全局平均池化层进行卷积后的特征的全局平均池化;
步骤S43,将全局平均池化后的特征与所述卷积融合特征进行相乘操作,获得LTAM卷积融合特征。
在一些优选的实施例中,所述检测输出模块,其训练中的总损失为:
Ldet=LsgLg+Lcs
其中,Ldet代表检测输出模块的总损失,Ls代表检测输出模块的分类图分支的损失,Lg代表检测输出模块的矩形框分支的损失,Lcs代表检测输出模块的文字中心性分支的损失,λg代表衡量检测输出模块的矩形框分支与分类图分支、文字中心性分支的相对重要性的权重参数。
在一些优选的实施例中,所述检测输出模块的分类图分支的损失,其表示为:
Figure BDA0002960645940000031
其中,
Figure BDA0002960645940000032
表示预测的分类图,Y*∈{1,0}表示分类图的真值。
在一些优选的实施例中,所述检测输出模块的矩形框分支的损失,其表示为:
Figure BDA0002960645940000041
其中,
Figure BDA0002960645940000042
表示矩形框分支预测的四个距离,R*表示对应的距离真值,
Figure BDA0002960645940000043
表示
Figure BDA0002960645940000044
和R*交集矩形框的面积,
Figure BDA0002960645940000045
表示
Figure BDA0002960645940000046
和R*并集矩形框的面积。
在一些优选的实施例中,所述检测输出模块的文字中心性分支的损失,其表示为:
Figure BDA0002960645940000047
其中,
Figure BDA0002960645940000048
表示预测的文字中心性图,centerness*表示文字中心性图的真值。
在一些优选的实施例中,所述
Figure BDA0002960645940000049
和R*交集矩形框,其宽度w和高度h分别为:
Figure BDA00029606459400000410
Figure BDA00029606459400000411
其中,
Figure BDA00029606459400000412
Figure BDA00029606459400000413
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的预测距离,
Figure BDA00029606459400000414
Figure BDA00029606459400000415
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的距离真值,min代表求最小值操作。
在一些优选的实施例中,所述
Figure BDA00029606459400000416
和R*并集矩形框的面积,其表示为:
Figure BDA00029606459400000417
在一些优选的实施例中,所述文字中心性图的真值centerness*,其计算方法为:
Figure BDA00029606459400000418
其中,
Figure BDA0002960645940000051
Figure BDA0002960645940000052
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的预测距离,min代表求最小值操作,max代表求最大值操作。
本发明的有益效果:
(1)本发明基于无锚框和提议框的场景文字检测方法,首先利用卷积神经网络ResNet50提取图像卷积特征;然后利用升采样和串联操作等对卷积特征进行融合,并引入无损失文字注意力机制将卷积网络的高层卷积特征嵌入到卷积特征中,提升特征对文字与背景的判别能力;然后对融合后的LTAM卷积融合特征进行训练检测输出,具体包括分类图分支、矩形框分支和文字中心性分等三个分支;最后,经过后处理与测试,输出多方向文字检测边框和弯曲文字检测轮廓。相比与主流的Mask R-CNN系列方法,本发明方法完全抛弃了锚框和提议框,大幅简化了模型构建的复杂度,更显简洁灵活,测试实例表明本发明方法在相关公开数据集上均能取得极具竞争力的F1-score,检测速度显著优于Mask R-CNN系列方法。
(2)本发明基于无锚框和提议框的场景文字检测方法虽然主要针对场景文字识别领域的场景文字检测问题,但对于其他人脸等目标检测等相似领域亦具有借鉴意义,为相似领域的进一步深入研究提供了方向。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于无锚框和提议框的场景文字检测方法的流程示意图;
图2是本发明基于无锚框和提议框的场景文字检测方法一种实施例的一次卷积特征融合流程示意图;
图3是本发明基于无锚框和提议框的场景文字检测方法一种实施例的卷积特征融合与高层卷积特征无损失嵌入流程示意图;
图4是本发明基于无锚框和提议框的场景文字检测方法一种实施例的分类图分支的真值示意图;
图5是本发明基于无锚框和提议框的场景文字检测方法一种实施例的矩形框分支的真值示意图;
图6是本发明基于无锚框和提议框的场景文字检测方法一种实施例的第一种后处理方法示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于无锚框和提议框的场景文字检测方法,能够快速、准确的检测出场景文字中任意形状的文字区域。本发明的基本特征主要有以下几个方面:一是采用卷积神经网络ResNet50作为主干网络,提取图像卷积特征;二是利用升采样和串联操作等对卷积特征进行融合,并引入无损失文字注意力机制将卷积网络的高层卷积特征嵌入到卷积特征中,提升特征对文字与背景的判别能力;三是采用分类图作为图像中文字和背景的分类分支;四是采用矩形框分支回归文字的外接水平方向矩形;五是采用文字中心性分支度量文字内像素到文字边界的距离信息,描述文字实例的完整性;六是后处理,输出多方向文字检测边框和弯曲文字检测轮廓。测试实例表明,与当前主流先进方法相比,本发明方法在相关公开数据集上均能够取得极具竞争力的F1-score,检测速度显著优于Mask R-CNN系列方法。
本发明的一种基于无锚框和提议框的场景文字检测方法,该方法包括:
步骤S10,构建场景文字检测模型;所述场景文字检测模型包括ResNet50主干网络、升采样和串联操作模块、无损失文字注意力机制模块以及检测输出模块;
步骤S20,通过所述ResNet50主干网络进行场景文字待检测区域的特征提取,获得ResNet50主干网络各层输出的卷积特征集;所述场景文字待检测区域为包含任意形状的文字区域的图像;
步骤S30,通过所述升采样和串联操作模块进行所述卷积特征集中各卷积特征的高层至低层的特征递归融合,获得卷积融合特征;
步骤S40,通过所述无损失文字注意力机制模块将所述卷积特征集中的最高层卷积特征嵌入所述卷积融合特征,获得LTAM卷积融合特征;
步骤S50,基于所述LTAM卷积融合特征,通过所述检测输出模块的分类图分支、矩形框分支和文字中心性分支分别获取场景文字待检测区域的文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图;
步骤S60,基于所述文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图进行冗余矩形框去除,将剩余矩形框投影到所述文字与背景分类图上,以分割区域内部最大面积轮廓的最小面积外接矩形的四个顶点作为多方向文字的检测输出结果或以分割区域内部最大面积轮廓的顶点作为弯曲文字的检测输出结果。
为了更清晰地对本发明基于无锚框和提议框的场景文字检测方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于无锚框和提议框的场景文字检测方法,包括步骤S10-步骤S60,各步骤详细描述如下:
步骤S10,构建场景文字检测模型;所述场景文字检测模型包括ResNet50主干网络、升采样和串联操作模块、无损失文字注意力机制模块以及检测输出模块。
为保证提取丰富且强有力的卷积特征,本方法采用ResNet50作为主干网络,丢弃其中的全连接层,只保留卷积和池化操作。
由于网络低层特征包含更多的细节信息,其有利于检测尺度较小的文字;而具有更大接受域的网络高层特征有助于检测尺度更大的文字。为此,本发明采用升采样和串联模块从高层到低层特征以递归方式逐渐融合各层特征,然后引入无损失文字注意力机制(LTAM,Loss-free Text Attention Mechanism)模块将卷积网络的高层卷积特征携带的高层语义信息嵌入到融合后的特征中,能够进一步抑制假阳性结果并召回更多的文字,最终获得的LTAM卷积融合特征对于文字与背景具有更强的判别能力。
最后的检测输出模块对应三个分支,包括分类图分支、矩形框分支和文字中心性分支:分类图分支输出一个分类图,分类图实质上为一个二值分类问题,图中文字区域的像素被视为正样本,而背景区域的像素被看作负样本;矩形框分支采用中心像素回归的方式,以文字区域内部像素为参考点,该点到文字区域外接水平方向矩形的上、右、下、左边界的四个距离作为矩形框分支的四个真值;文字中心性分支预测一个文字中心性图。
步骤S20,通过所述ResNet50主干网络进行场景文字待检测区域的特征提取,获得ResNet50主干网络各层输出的卷积特征集;所述场景文字待检测区域为包含任意形状的文字区域的图像。
步骤S30,通过所述升采样和串联操作模块进行所述卷积特征集中各卷积特征的高层至低层的特征递归融合,获得卷积融合特征。
升采样和串联操作模块包括一个2倍的升采样层、一个串联高层卷积特征和低层卷积特征的串联层、一个卷积核为1×1的卷积层和一个卷积和为3×3的卷积层。
如图2所示,为本发明基于无锚框和提议框的场景文字检测方法一种实施例的一次卷积特征融合流程示意图,一次特征卷积融合包括通过一个2倍的升采样层将高层卷积特征的分辨率扩大2倍,然后将分辨率扩大后的高层卷积特征与低层卷积特征进行串联(Concate),将串联后的特征通过一个卷积核为1×1的卷积层和一个卷积和为3×3的卷积层进行卷积处理。最终ResNet50主干网络各层输出的卷积特征集中的各卷积特征以高层至低层的特征递归融合方式融合到一起获得卷积融合特征,这些卷积层中加入了批归一化层(Batch Normalization),以加速网络的训练,卷积特征融合过程最终输出的卷积融合特征分的辨率为输入图像的1/4。
步骤S40,通过所述无损失文字注意力机制模块将所述卷积特征集中的最高层卷积特征嵌入所述卷积融合特征,获得LTAM卷积融合特征。
步骤S41,通过所述无损失文字注意力机制模块的一个卷积核为1×1、通道数为64的卷积层进行所述卷积特征集中的最高层卷积特征的卷积;
步骤S42,通过所述无损失文字注意力机制模块的一个全局平均池化层进行卷积后的特征的全局平均池化;
步骤S43,将全局平均池化后的特征与所述卷积融合特征进行相乘操作,获得LTAM卷积融合特征。
如图3所示,为本发明基于无锚框和提议框的场景文字检测方法一种实施例的卷积特征融合与高层卷积特征无损失嵌入流程示意图,输入的场景文字待检测区域为512×512的图像,ResNet50主干网络首先对该图像进行卷积(Con1)、池化(Pool1)和残差(Res1)操作,获得128×128×64的一个低层卷积特征,一次进行3次残差(Res2、Res3、Res4)操作,分别获得64×64×256、32×32×512和16×16×2048的特征,分别记作第一卷积特征、第二卷积特征和高层卷积特征,卷积特征融合包括:对高层卷积特征进行一次2倍的升采样操作后,与第二卷积特征融合获得第一融合特征;将第一融合特征进行一次2倍的升采样操作后,与第一卷积特征融合获得第二融合特征;将第二融合特征进行一次2倍的升采样操作后,与低层卷积特征融合获得128×128×64的卷积融合特征,将该128×128×64的三维张量记为CMF;高层卷积特征无损失嵌入包括:通过一个卷积核为1×1、通道数为64的卷积层进行高层卷积特征(Pool5)的卷积操作,使该高层卷积特征的通道数降为64,,获得16×16×64的第三卷积特征(Pool6)此卷积操作的目的是使高层卷积特征(高层语义信息)的通道数与卷积融合特征的通道数一致,对第三卷积特征(Pool6)进行全局平均池化(GAP,GlobalAverage Pooling),将特征Pool6变成为1×1×64的张量Pool7,并将Pool7与128×128×64的卷积融合特征CMF进行融合,获得LTAM卷积融合特征,为128×128×64的张量。
通过高层特征和卷积特征的相乘操作,LTAM把高层特征的语义信息嵌入卷积融合特征中,增强了特征对文字和背景的判别能力,有助于召回文字并抑制背景。
步骤S50,基于所述LTAM卷积融合特征,通过所述检测输出模块的分类图分支、矩形框分支和文字中心性分支分别获取场景文字待检测区域的文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图。
检测输出模块对场景文字进行检测输出,包括分类图分支、矩形框分支和文字中心性分支,对应输出分支有各自的损失函数,网络训练之中整体的总损失函数为三个分支各自损失函数的加权求和,如式(1)所示:
Ldet=LsgLg+Lcs (1)
其中,Ldet代表检测输出模块的总损失,Ls代表检测输出模块的分类图分支的损失,Lg代表检测输出模块的矩形框分支的损失,Lcs代表检测输出模块的文字中心性分支的损失,λg代表衡量检测输出模块的矩形框分支与分类图分支、文字中心性分支的相对重要性的权重参数。
下面分别对检测输出模块的三个分支进行阐述。
(一)分类图分支及对应的损失函数
分类图分支输出一个分类图,分类图实质上为一个二值分类问题,图中文字区域的像素被视为正样本,而背景区域的像素被看作负样本。本发明一个实施例中,记输入图像的分辨率大小为H×W,那么分类图分支输出一个分辨率为(H/4)×(W/4)×1的分类图。该分类图表示降采样4倍的文字与背景二值分割图,由卷积融合特征经过一个卷积核为1×1,通道数为1的卷积层而产生。分类图每个像素值表示该像素分类为文字的概率,取值范围为[0,1],像素值越大,则表明该像素越有可能是文字。同时,每个像素值也表示相同位置对应的预测矩形框的置信度。
如图4所示,为本发明基于无锚框和提议框的场景文字检测方法一种实施例的分类图分支的真值示意图,文字区域内部的所有像素为正样本的真值,背景区域像素为负样本的真值,正样本的像素真值为1,负样本的像素真值为0。
分类图分支的损失为L1损失,L1损失如式(2)所示:
Figure BDA0002960645940000121
本发明为了清晰表示正负样本的损失,分类图分支的损失如式(3)所示:
Figure BDA0002960645940000122
其中,
Figure BDA0002960645940000123
表示预测的分类图,Y*∈{1,0}表示分类图的真值。
(二)矩形框分支及对应的损失函数
矩形框分支采用中心像素回归的方式,以文字区域内部像素为参考点,该点到文字区域外接水平方向矩形的上、右、下、左边界的四个距离作为矩形框分支的四个真值。
如图5所示,为本发明基于无锚框和提议框的场景文字检测方法一种实施例的矩形框分支的真值示意图,其中倾斜的多方向矩形框为文字边界真值,水平方向矩形框为文字区域的外接矩形框,上边界距离表示文字区域内部像素到外矩形上边界的直线距离,其他三个距离分别表示像素到外接矩形的右边界、下边界和左边界的直线距离。
对于输入分辨率大小为H×W的图像,矩形框分支输出一个(H/4)×(W/4)×4的三维张量,记作M,它的四个通道表示参考像素到其所属文字区域外接矩形边界的四个距离。假设offset(x,y,c)是M上(x,y,c)的像素值,其对应的参考像素坐标是(4x,4y)。如果参考像素位于图像中的文字区域内部,那该文字区域外接水平方向矩形的坐标如式(4)所示:
Figure BDA0002960645940000131
其中,c=0,1,2,3依次表示参考像素到文字区域外接水平方向矩形框的上、右、下、左边界的距离索引,(xmin,ymin)为矩形框左上角坐标,(xmax,ymax)表示矩形框右下角坐标。
本发明采用IOU损失计算矩形框分支的损失,该损失以预测框和真值框的IOU为标准优化回归分支,对各种尺度的文字具有尺度不变性,如式(5)所示:
Figure BDA0002960645940000132
其中,
Figure BDA0002960645940000133
表示矩形框分支预测的四个距离,R*表示对应的距离真值,
Figure BDA0002960645940000134
表示
Figure BDA0002960645940000135
和R*交集矩形框的面积,
Figure BDA0002960645940000136
表示
Figure BDA0002960645940000137
和R*并集矩形框的面积。
Figure BDA0002960645940000138
和R*交集矩形框
Figure BDA0002960645940000139
其宽度w和高度h分别如式(6)和式(7)所示:
Figure BDA00029606459400001310
Figure BDA00029606459400001311
其中,
Figure BDA00029606459400001312
Figure BDA00029606459400001313
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的预测距离,
Figure BDA00029606459400001314
Figure BDA00029606459400001315
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的距离真值,min代表求最小值操作。
Figure BDA00029606459400001316
和R*并集矩形框
Figure BDA00029606459400001317
的面积,其表示如式(8)所示:
Figure BDA00029606459400001318
(三)文字中心性分支及对应的损失
文字中心性分支预测一个文字中心性图,其真值如式(9)所示:
Figure BDA0002960645940000141
其中,
Figure BDA0002960645940000142
Figure BDA0002960645940000143
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的预测距离,min代表求最小值操作,max代表求最大值操作。centerness*的取值介于0和1之间。文字中心性分支计算中心性真值依据的矩形框如上述矩形框分支所述的矩形框,此处不再累述。
在网络结构中,文字中心性分支应用1×1卷积核于卷积融合特征输出一个分辨率为(H/4)×(W/4)×1的文字中心性图。该图每个像素的取值范围为[0,1]。如果一个像素存在于文字区域内部,对应于文字中心性图的像素值表示这个像素相对于文字中心像素的相对距离。如果该像素距离文字中心像素越近,则其对应于中心性图的像素值越大;如果该像素距离文字中心像素越远,则其对应于中心性图的像素值越小。由此可知,对于某个文字区域,文字中心像素的中心性最高,像素越远离中心,其中心性越低。因此,文字中心性图度量了文字区域的中心和边界信息来描述文字实例的完整性,能够协助分类图分割完整的文字区域,提升分类图的分类性能。因为相对于文字与背景的分类图分支,文字中心性分支度量了文字中心和边界的相对位置,提供了比分类图真值更强的语义监督信号,所以文字中心性分支能够召回困难文字和去除假阳性检测结果,增强了文字和背景之间的区分性。
文字中心性分支的损失为L1损失,如式(10)所示:
Figure BDA0002960645940000144
其中,
Figure BDA0002960645940000145
表示预测的文字中心性图,centerness*表示文字中心性图的真值。
步骤S60,基于所述文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图进行冗余矩形框去除,将剩余矩形框投影到所述文字与背景分类图上,以分割区域内部最大面积轮廓的最小面积外接矩形的四个顶点作为多方向文字的检测输出结果或以分割区域内部最大面积轮廓的顶点作为弯曲文字的检测输出结果。
在获得检测输出模块的检测结果后,分类图的每个像素值都对应一个水平方向矩形框的分类概率,本发明选用了不同的后处理方法进行冗余矩形框的去除:
(一)第一种后处理方法
如图6所示,本发明基于无锚框和提议框的场景文字检测方法一种实施例的第一种后处理方法示意图,该方法具体包括:
步骤S511,设置一个分类阈值threshold_cls,分类图像素值大于该阈值的像素对应的矩形框被保留,去掉分类概率过低的矩形框,其中,矩形框坐标按式(4)计算;
步骤S512,因为一个文字区域包含许多像素点,所以在去掉概率过低的矩形框以后,仍然存在许多像素点输出的矩形框表示同一个文字,所以需要对这些矩形框进行融合和非极大值抑制处理;本发明使用位置感知非极大值抑制进行剩余矩形框的融合和非极大值抑制;
步骤S513,将融合后的矩形框投影到分类图上,取出框内分割区域,并使用OpenCV的cv2.findContours函数找到分割区域的轮廓,一个分割区域内部可能存在多个轮廓,选取最大面积的轮廓,再使用OpenCV的cv2.minAreaRect函数找到该轮廓的最小面积外接矩形。将最小面积外接矩形的四个顶点作为多方向文字的检测输出。对于弯曲文字,直接以最大面积轮廓的顶点作为最终检测输出。
(二)第二种后处理方法
第二种方法在第一种方法的基础上加入了文字中心性分支。在测试阶段,将分类图的预测概率
Figure BDA0002960645940000161
与文字中心性图
Figure BDA0002960645940000162
相乘作为分类分数,再使用分类阈值threshold_cls去掉分类分数过低的矩形框。除此以外,第二种方法的其他步骤跟第一种方法相同。
为了全面准确地评估本发明所提出的方法的性能,本发明采用精度(Precision)、召回率(Recall)、F1得分(F1-Score)来评估场景文字检测的性能,用帧率(Frame PerSecond,FPS)来衡量方法的速度,并与本领域其他方法进行比较。上述精度、召回率、F1得分、帧率均为本领域通用技术指标计算方法,此处不再累述。
本发明评估使用的数据集为四个场景文字检测数据集,分别为ICDAR2015、MSRA-TD500、CASIA-10K和SCUT-CTW1500,均为本领域常用公开数据集。
本发明方法在各数据集上的性能如表1所示:
表1
数据集 召回率 精度 F1得分 帧率
ICDAR2015 0.833 0.886 0.859 9.400
MSRA-TD500 0.785 0.876 0.828 36.400
CASIA-10K 0.679 0.811 0.739 18.000
SCUT-CTW150 0.794 0.871 0.831 41.500
本领域基于Mask R-CNN的主流方法的性能表现如表2所示,没有相关报告的指标项“-”代替:
表2
Figure BDA0002960645940000171
从表1和表2对比可以看出,本发明方法能够快速准确地检出图像场景中的任意形状文字区域,测试实例表明,在ICDAR2015、MSRA-TD500、CASIA-10K多方向文字数据集和SCUT-CTW1500弯曲文字数据集上,本发明方法的F-score值分别达到了85.9%、82.8%、73.9%和83.1%,检测速度分别为9.4FPS、36.4FPS、18FPS和41.5FPS。与Mask R-CNN系列方法相比,本发明公开提出的无锚框且无提议框的方法在取得具有竞争力的结果的同时,能够大幅提升检测效率,尤其是在SCUT-CTW150数据集上,本发明方法取得了41.500的FPS。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于无锚框和提议框的场景文字检测系统,该系统包括以下模块:
模型构建模块,用于构建场景文字检测模型;所述场景文字检测模型包括ResNet50主干网络、升采样和串联操作模块、无损失文字注意力机制模块以及检测输出模块;
特征提取模块,用于通过所述ResNet50主干网络进行场景文字待检测区域的特征提取,获得ResNet50主干网络各层输出的卷积特征集;所述场景文字待检测区域为包含任意形状的文字区域的图像;
卷积融合模块,用于通过所述升采样和串联操作模块进行所述卷积特征集中各卷积特征的高层至低层的特征递归融合,获得卷积融合特征;
LTAM融合模块,用于通过所述无损失文字注意力机制模块将所述卷积特征集中的最高层卷积特征嵌入所述卷积融合特征,获得LTAM卷积融合特征;
检测模块,基于所述LTAM卷积融合特征,通过所述检测输出模块的分类图分支、矩形框分支和文字中心性分支分别获取场景文字待检测区域的文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图;
后处理模块,基于所述文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图进行冗余矩形框去除,将剩余矩形框投影到所述文字与背景分类图上,以分割区域内部最大面积轮廓的最小面积外接矩形的四个顶点作为多方向文字的检测输出结果或以分割区域内部最大面积轮廓的顶点作为弯曲文字的检测输出结果。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于无锚框和提议框的场景文字检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于无锚框和提议框的场景文字检测方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于无锚框和提议框的场景文字检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于无锚框和提议框的场景文字检测方法,其特征在于,该方法包括:
步骤S10,构建场景文字检测模型;所述场景文字检测模型包括ResNet50主干网络、升采样和串联操作模块、无损失文字注意力机制模块以及检测输出模块;
步骤S20,通过所述ResNet50主干网络进行场景文字待检测区域的特征提取,获得ResNet50主干网络各层输出的卷积特征集;所述场景文字待检测区域为包含任意形状的文字区域的图像;
步骤S30,通过所述升采样和串联操作模块进行所述卷积特征集中各卷积特征的高层至低层的特征递归融合,获得卷积融合特征;
步骤S40,通过所述无损失文字注意力机制模块将所述卷积特征集中的最高层卷积特征嵌入所述卷积融合特征,获得LTAM卷积融合特征;
步骤S50,基于所述LTAM卷积融合特征,通过所述检测输出模块的分类图分支、矩形框分支和文字中心性分支分别获取场景文字待检测区域的文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图;
步骤S60,基于所述文字与背景分类图、文字区域外接水平方向矩形框三维张量表示和文字中心性图进行冗余矩形框去除,将剩余矩形框投影到所述文字与背景分类图上,以分割区域内部最大面积轮廓的最小面积外接矩形的四个顶点作为多方向文字的检测输出结果或以分割区域内部最大面积轮廓的顶点作为弯曲文字的检测输出结果。
2.根据权利要求1所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述升采样和串联操作模块包括一个2倍的升采样层、一个串联高层卷积特征和低层卷积特征的串联层、一个卷积核为1×1的卷积层和一个卷积和为3×3的卷积层。
3.根据权利要求1所述的基于无锚框和提议框的场景文字检测方法,其特征在于,步骤S40包括:
步骤S41,通过所述无损失文字注意力机制模块的一个卷积核为1×1、通道数为64的卷积层进行所述卷积特征集中的最高层卷积特征的卷积;
步骤S42,通过所述无损失文字注意力机制模块的一个全局平均池化层进行卷积后的特征的全局平均池化;
步骤S43,将全局平均池化后的特征与所述卷积融合特征进行相乘操作,获得LTAM卷积融合特征。
4.根据权利要求1所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述检测输出模块,其训练中的总损失为:
Ldet=LsgLg+Lcs
其中,Ldet代表检测输出模块的总损失,Ls代表检测输出模块的分类图分支的损失,Lg代表检测输出模块的矩形框分支的损失,Lcs代表检测输出模块的文字中心性分支的损失,λg代表衡量检测输出模块的矩形框分支与分类图分支、文字中心性分支的相对重要性的权重参数。
5.根据权利要求4所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述检测输出模块的分类图分支的损失,其表示为:
Figure FDA0002960645930000021
其中,
Figure FDA0002960645930000022
表示预测的分类图,Y*∈{1,0}表示分类图的真值。
6.根据权利要求4所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述检测输出模块的矩形框分支的损失,其表示为:
Figure FDA0002960645930000031
其中,
Figure FDA0002960645930000032
表示矩形框分支预测的四个距离,R*表示对应的距离真值,
Figure FDA0002960645930000033
表示
Figure FDA0002960645930000034
和R*交集矩形框的面积,
Figure FDA0002960645930000035
表示
Figure FDA0002960645930000036
和R*并集矩形框的面积。
7.根据权利要求4所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述检测输出模块的文字中心性分支的损失,其表示为:
Figure FDA0002960645930000037
其中,
Figure FDA0002960645930000038
表示预测的文字中心性图,centerness*表示文字中心性图的真值。
8.根据权利要求6所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述
Figure FDA0002960645930000039
和R*交集矩形框,其宽度w和高度h分别为:
Figure FDA00029606459300000310
Figure FDA00029606459300000311
其中,
Figure FDA00029606459300000312
Figure FDA00029606459300000313
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的预测距离,
Figure FDA00029606459300000314
Figure FDA00029606459300000315
Figure FDA00029606459300000316
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的距离真值,min代表求最小值操作。
9.根据权利要求6所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述
Figure FDA00029606459300000317
和R*并集矩形框的面积,其表示为:
Figure FDA00029606459300000318
10.根据权利要求7所述的基于无锚框和提议框的场景文字检测方法,其特征在于,所述文字中心性图的真值centerness*,其计算方法为:
Figure FDA0002960645930000041
其中,
Figure FDA0002960645930000042
Figure FDA0002960645930000043
分别表示从参考像素到文字区域外接水平方向矩形框的上边界、右边界、下边界和左边界的预测距离,min代表求最小值操作,max代表求最大值操作。
CN202110237052.0A 2021-03-03 2021-03-03 基于无锚框和提议框的场景文字检测方法 Active CN112966690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110237052.0A CN112966690B (zh) 2021-03-03 2021-03-03 基于无锚框和提议框的场景文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110237052.0A CN112966690B (zh) 2021-03-03 2021-03-03 基于无锚框和提议框的场景文字检测方法

Publications (2)

Publication Number Publication Date
CN112966690A true CN112966690A (zh) 2021-06-15
CN112966690B CN112966690B (zh) 2023-01-13

Family

ID=76276623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110237052.0A Active CN112966690B (zh) 2021-03-03 2021-03-03 基于无锚框和提议框的场景文字检测方法

Country Status (1)

Country Link
CN (1) CN112966690B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762204A (zh) * 2021-09-17 2021-12-07 中国人民解放军国防科技大学 多方向遥感目标检测方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN111737478A (zh) * 2020-08-07 2020-10-02 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN112149620A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 基于无锚点的自然场景文字区域检测模型的构建方法
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111737478A (zh) * 2020-08-07 2020-10-02 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法
CN112149620A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 基于无锚点的自然场景文字区域检测模型的构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FENFEN SHENG 等: "A SINGLE-SHOT ORIENTED SCENE TEXT DETECTOR WITH LEARNABLE ANCHORS", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *
RANDONG HUANG 等: "Strong-Background Restrained Cross Entropy Loss for Scene Text Detection", 《IJCNN 2019.》 *
RANDONG HUANG 等: "Text Attention and Focal Negative Loss for Scene Text Detection", 《IJCNN 2019》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762204A (zh) * 2021-09-17 2021-12-07 中国人民解放军国防科技大学 多方向遥感目标检测方法、装置及计算机设备
CN113762204B (zh) * 2021-09-17 2023-05-12 中国人民解放军国防科技大学 多方向遥感目标检测方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112966690B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN110111345B (zh) 一种基于注意力网络的3d点云分割方法
CN110334709B (zh) 基于端到端多任务深度学习的车牌检测方法
CN114266794B (zh) 基于全卷积神经网络的病理切片图像癌症区域分割系统
CN112800964A (zh) 基于多模块融合的遥感影像目标检测方法及系统
CN111368769A (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN113989662A (zh) 一种基于自监督机制的遥感图像细粒度目标识别方法
CN111242925B (zh) 针对ct影像数据的目标检测方法、装置及电子设备
CN114049356B (zh) 一种结构表观裂缝检测方法、装置及系统
CN111797841A (zh) 一种基于深度残差网络的视觉显著性检测方法
CN112016569A (zh) 基于注意力机制的目标检测方法、网络、设备和存储介质
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN112966690B (zh) 基于无锚框和提议框的场景文字检测方法
CN114187520A (zh) 一种建筑物提取模型及其应用方法
CN114494870A (zh) 一种双时相遥感图像变化检测方法、模型构建方法和装置
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN113313094A (zh) 一种基于卷积神经网络的车载图像目标检测方法和系统
CN117152414A (zh) 一种基于尺度注意力辅助学习方法的目标检测方法及系统
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN117496477B (zh) 一种点云目标检测方法及装置
CN113723352A (zh) 一种文本检测方法、系统、存储介质及电子设备
CN113537253B (zh) 一种红外图像目标检测方法、装置、计算设备及存储介质
CN113554656B (zh) 基于图神经网络的光学遥感图像实例分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant