CN113516116B - 一种适用于复杂自然场景的文本检测方法、系统和介质 - Google Patents

一种适用于复杂自然场景的文本检测方法、系统和介质 Download PDF

Info

Publication number
CN113516116B
CN113516116B CN202110548133.2A CN202110548133A CN113516116B CN 113516116 B CN113516116 B CN 113516116B CN 202110548133 A CN202110548133 A CN 202110548133A CN 113516116 B CN113516116 B CN 113516116B
Authority
CN
China
Prior art keywords
text
network
attention
mask
text detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110548133.2A
Other languages
English (en)
Other versions
CN113516116A (zh
Inventor
孟月波
金丹
石德旺
刘光辉
徐胜军
韩九强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202110548133.2A priority Critical patent/CN113516116B/zh
Publication of CN113516116A publication Critical patent/CN113516116A/zh
Application granted granted Critical
Publication of CN113516116B publication Critical patent/CN113516116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种适用于复杂自然场景的文本检测方法、系统和介质,该方法在特征提取阶段构造共享核空洞卷积与注意力引导的特征金字塔网络KDA‑FPN,通过共享核空洞卷积深层次挖掘细粒度特征,减少参数量、降低模型复杂度;利用上下文注意模块与内容注意模块精确表达目标位置信息,促进多尺度特征融合,提高特征图质量;利用候选框生成网络RPN生成文本候选框区域,利用分类和回归网络对文本候选框区域进一步细分后由MASK分支的IOM最小边界框生成策略对细分文本区域候选框进行进一步精细化过滤,最终生成与目标文本区域大小、形状一致的Mask掩模,改善文本区域长宽比变化较大所带来的掩膜重叠问题,进而实现检测性能的提升。

Description

一种适用于复杂自然场景的文本检测方法、系统和介质
技术领域
本发明属于文本检测技术领域,具体属于一种适用于复杂自然场景的文本检测方法、系统和介质。
背景技术
图像中的文本信息可以传达丰富而准确的高层语义信息,具有高度的概括性和抽象的描述能力,是理解图像场景内容的重要线索。自然场景文本检测技术使用边界框精确捕捉与定位场景中的文本实例,在智能交通、基于内容的图像/视频检索以及可穿戴/便携式视觉系统等诸多领域具有重要的应用。
随着科技水平的不断进步,高分辨率图像越来越普及,逐渐成为文本检测的主要对象。该类图像特征尺度差异较大,想要获取其多尺度信息,需要有更丰富的感受野,否则在提取文本目标特征时,会造成细粒度特征难以捕获、多尺度特征不佳问题。同时,复杂场景中的文本实例具有极端长宽比特点,采用交并比(Intersection Over Union,IOU)策略衡量两个集合的重叠度时,因文本区域长宽比和大小的剧烈变化导致掩膜重叠的问题,检测性能大打折扣。
发明内容
为了解决现有技术中存在的问题,本发明提供一种适用于复杂自然场景的文本检测方法、系统和介质,解决高分辨率图像特征尺度差异较大造成的细粒度特征难以捕获、多尺度特征融合不佳问题,同时改善因文本长宽比变化较大特性导致的掩膜重叠现象,提升检测效果实现候选框精细筛选,从而提高检测精度。
为实现上述目的,本发明提供如下技术方案:一种适用于复杂自然场景的文本检测方法,具体步骤如下:
S1,构建训练数据集Tr及测试数据集Te
S2,构建并训练基于共享核空洞卷积与注意力引导的FPN文本检测网络,所述共享核空洞卷积与注意力引导的FPN文本检测网络依次包括特征提取网络、候选框生成网络、分类与回归网络和Mask分支,其中特征提取网络为共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN;
S3,使用训练完成的基于共享核空洞卷积与注意力引导的FPN文本检测网络对待检测复杂自然场景图像进行文本检测。
进一步的,步骤S2中:
1)构建共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN,以Resnet50为主干网络,Resnet50网络中的卷积块经共享核空洞卷积模块与注意力引导模块处理后,采用自底向上的前向传播方式,得到多尺度特征图;
2)候选框生成网络通过anchor锚框机制,经ROI Align操作对多尺度特征图上的文本区域进行识别,生成文本区域候选框;
3)通过分类与回归网络对文本候选框区域进行细分,得到细分文本区域候选框和背景区域并计算细分文本区域候选框的坐标置信度信息;
4)使用Mask分支中IOM后处理算法对分类与回归网络得到的细分文本区域候选框进行筛选,得到基于共享核空洞卷积与注意力引导的FPN文本检测网络;
5)将检测训练数据集Tr输入文本检测网络,使用多任务损失函数计算损失值对文本检测网络进行训练,得到训练完成的基于共享核空洞卷积与注意力引导的FPN文本检测网络。
进一步的,步骤S2中,共享核空洞卷积模块利用空洞卷积对Resnet50网络得到的特征F5感受野进行扩大,得到深层次细粒度特征;同时对F5进行上采样得到全局粗粒度信息描述特征,并将其与获取的细粒度特征一起送入1*1卷积层进行融合,得到输出特征F。
进一步的,步骤S2中,注意力引导模块包括上下文注意模块和内容注意模块,上下文注意模块用于强化输出特征F相关区域特征的语义关系,得到区域间特征语义关系的注意力表征E;所述内容注意模块用于强化Resnet50网络的卷积块和KDM模块的输出特征F之间的空间位置信息,得到区域间特征空间位置信息的注意力表征D,将区域间特征语义关系的注意力表征E、区域间特征空间位置信息的注意力表征D和输出特征F融合得到特征表达F'。
进一步的,步骤S2中,分类与回归网络采用Fast RCNN模型,包括分类分支和回归分支,分类分支通过全连接层输出置信度大小将候选框生成网络得到的文本区域候选框分为细分文本区域候选框与背景区域两类;回归分支将全连接层作为边界框回归器,获取所述细分文本区域候选框的坐标位置信息。
进一步的,步骤S2中,Mask分支采用IOM最小边界框生成策略对分类与回归网络处理后的N个细分文本区域候选框进行筛选;所述IOM最小边界框生成策略将同一文本区域预测的细分文本区域候选框按面积大小进行排列,以面积最大的细分文本区域候选框与相邻细分文本区域候选框之间区域的交集面积占较小细分文本区域候选框面积的比值作为细分文本区域候选框筛选指标。
进一步的,步骤S2中,所述多任务损失函数计包括RPN网络损失Lrpn,Fast RCNN模块损失Lrcnn和掩码损失Lmask
进一步的,步骤S1中,以单张逐行的方式对采集的复杂自然场景图像的文本区域进行标注,文本区域标注的形状为当前文本行的最小外接多边形,记录相应文本行的位置坐标,生成以图像名命名的txt文档,循环上述步骤构建数据集,基于标注文档所记录的坐标对应生成数据集练中每张图像的多张掩码图像,将图像及其对应的多张掩码图像进行增强、随机缩放、旋转后裁剪成固定尺寸,并执行归一化操作,将处理后的数据集按照2:1比例划分为检测训练数据集Tr和测试数据集Te
本发明还提供一种基于共享核空洞卷积与注意力引导的FPN文本检测系统,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现本发明所述的文本检测方法。
本发明还提供一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现本发明所述的文本检测方法。
与现有技术相比,本发明至少具有以下有益效果:
本发明提供一种适用于复杂自然场景的文本检测方法,在特征提取部分增加共享核空洞卷积模块和注意力引导模块,利用具有共享核的空洞卷积,扩大感受野,深挖感受野细粒度特征,获取多尺度特征;同时,减少参数量,提升计算效率。引入注意力引导模块,加强对特征间语义关系与空间位置信息的关注,得到更全面的特征表达,提升特征融合质量。
本发明的文本检测方法的文本后处理部分,在Mask分支中引入最小交集的候选框筛选策略(Intersection Over Minimum,IOM),将候选框中面积最大的框与相邻文本框之间区域的交集面积占较小框面积的比值作为候选框筛选评价指标,抑制采用交并比(Intersection Over Union,IOU)策略衡量两个集合的重叠度时,因文本区域长宽比和大小的剧烈变化导致掩膜重叠的问题,实现候选框精细筛选,从而提高检测精度。
附图说明
图1本发明文本检测网络整体结构;
图2本发明共享卷积核空洞卷积与注意力引导的特征金字塔KDA-FPN网络结构图;
图3本发明上下文注意模块CxAM示意图;
图4本发明内容注意模块CnAM示意图;
图5水平文本检测结果对比图,其中a为原始图像,b为Mask TextSpotter算法实验结果及其局部放大图,c为Mask TextSpotter算法mask结果图及其局部放大图,d为本发明方法实验结果及其局部放大图,e为本发明方法mask结果图及其局部放大图;
图6倾斜文本检测结果对比图,其中a为原始图像,b为Mask TextSpotter算法实验结果及其局部放大图,c为Mask TextSpotter算法mask结果图及其局部放大图,d为本发明方法实验结果及其局部放大图,e为本发明方法mask结果图及其局部放大图;
图7弯曲文本检测结果对比图,其中a为原始图像,b为Mask TextSpotter算法实验结果及其局部放大图,c为Mask TextSpotter算法mask结果图及其局部放大图,d为本发明方法实验结果及其局部放大图,e为本发明方法mask结果图及其局部放大图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供一种适用于复杂自然场景的文本检测方法,该方法在特征提取阶段,通过共享核空洞卷积深层次挖掘细粒度特征,减少参数量、降低模型复杂度;利用上下文注意模块与内容注意模块精确表达目标位置信息,促进多尺度特征融合,提高特征图质量。提出IOM后处理策略来改善文本区域长宽比变化较大所带来的掩膜重叠问题,进而实现检测性能的提升。
具体步骤如下:
1.构建复杂自然场景文本检测训练数据集Tr及测试数据集Te,具体步骤包括:
采集复杂自然场景图像,并对该图像进行重命名排序,利用LabelImg标注软件采用单张逐行的方式对图像内部的文本区域进行标注,记录相应文本行的位置坐标,生成以图像名命名的txt文档,循环上述步骤构建数据集,并将数据集按照2:1比例划分为检测训练数据集Tr和测试数据集Te,对检测训练集Tr中的图像进行预处理。
优选的,预处理包括:基于标注文档所记录的坐标对应生成检测训练集Tr中每张图像的多张掩码图像,将图像及其对应的多张掩码图像进行增强、随机缩放、旋转后裁剪成固定尺寸,并执行归一化操作。
优选的,文本区域标注的形状为当前文本行的最小外接多边形。
2.构造共享核空洞卷积与注意力引导的FPN文本检测网络的文本检测方法。
本发明提供的文本检测网络的整体结构如图1所示,依次包括以下4个部分:特征提取网络、候选框生成网络(Region Proposal Network,RPN)、分类与回归网络、Mask分支;
其中,1)特征提取网络为以Resnet50为主干网络构造的共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN(Kernel-sharing Dilated Convolutions andAttention-guided FPN,KDA-FPN)。Resnet50网络中的4个卷积块{F2,F3,F4,F5}经共享核空洞卷积与注意力引导处理后,采用自底向上的前向传播方式,得到多尺度特征图{P2、P3、P4、P5}。
2)候选框生成网络RPN通过anchor锚框机制,经ROI Align操作生成大量文本候选框区域,本发明anchor的大小设置为{32*32,64*64,128*128,256*256,512*512},长宽比为{0.5,1,2};候选框生成网络RPN可看作文本区域粗检测过程,经ROI Align后的文本候选框区域为文本类别,非候选框区域为背景类别。
3)分类与回归网络采用Fast RCNN模型,包括分类分支和回归分支,其中:
分类分支通过全连接层输出置信度大小,将候选框生成网络RPN得到的文本候选框区域进一步分为细分文本区域候选框与背景区域;
回归分支将全连接层作为边界框回归器,计算分类分支得到的细分文本区域候选框的坐标位置信息。
4)Mask分支用于像素级别的文本实例输出,其输入为Fast RCNN模型分类分支输出的细分文本区域候选框、回归分支得到的细分文本区域坐标位置信息,Mask分支采用非极大值抑制算法(Non-Maximum Suppression,NMS),利用本发明提出的IOM最小边界框生成策略对细分文本区域进行进一步精细化过滤,生成与目标文本区域大小、形状一致的Mask掩模。
3.共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN
特征金字塔网络FPN在文本检测任务中特征提取效果显著,但对高分辨率图像而言,其粗细粒度特征的尺度差异悬殊,使得模型捕获特征能力受到限制,造成部分细节信息缺失;同时,多尺度感受野间信息缺乏沟通,导致特征图质量欠佳。本发明提出一种结构如图2所示特征提取网络,具体为基于共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN,该网络包括共享核空洞卷积模块和注意力引导模块,通过共享核空洞卷积在减少文本检测网络参数量的同时改善特征金字塔网络FPN多层次特征捕获能力,同时通过注意力引导机制获得更强的语义和更准的定位信息,增强特征提取网络对多尺度特征图辨识能力。
其中,Resnet50网络的卷积块F5为共享核空洞卷积模块(Kernel-sharingDilated Convolution Module,KDM)的输入。
共享核空洞卷积模块KDM包括共享3*3卷积核的空洞卷积和1*1卷积层,通过共享3*3卷积核的空洞卷积扩大输入卷积块F5的感受野,利用共享机制加强各感受野间的联系,得到深层次细粒度特征,同时减少参数量,降低文本检测网络的复杂度;同时,对卷积块F5进行上采样,得到全局粗粒度信息描述特征,再将其与获取的细粒度特征一起送入1*1卷积层进行融合,得到KDM模块的输出特征F。图2中,⊕表示特征融合操作。
此时,输出特征F虽包含丰富的感受野信息,但由于冗余信息的存在,降低了检测精度,因此,本发明在共享核空洞卷积模块后引入注意力引导模块(Attention-guideModule,AM),注意力引导模块可以获得语义与文本位置信息之间的依赖关系,提升特征质量,进而提高检测精度。
AM模块如图2所示,由两部分组成:上下文注意模块(Context Attention Module,CxAM)和内容注意模块(Content Attention Module,CnAM)。其中,CxAM模块用于强化相关区域间特征的语义关系,使输出特征语义表达更加清晰;CnAM模块用于加强对空间位置信息的关注,弱化共享核空洞卷积对特征几何特性的影响,精确目标位置。将CxAM、CnAM与KDM模块的输出特征融合,得到更全面的特征表达F'。
最后,通过FPN策略,即采用自底向上的方式将F'执行上采样操作并逐级与卷积块{F5,F4,F3,F2}横向链接,生成多尺度特征{P5、P4、P3、P2}。
A.上下文注意模块CxAM
如图3所示,KDM模块的输出特征F为上下文注意模块CxAM的输入。通道数为C、高度为H、宽度为W的输出特征F经公式(1)、(2)和(3),获得通道数为C'的隐层子区域特征Q、K以及图像增强特征V,{Q,K}∈RC′×H×W,V∈RC×H×W
Q=Reshape[Conv1×1×C′(F)]T (1)
K=Reshape[Conv1×1×C′(F)] (2)
V=Conv1×1×C′(F) (3)
采用公式(4)计算Q和K的关系矩阵A,A∈RX×H×W,X=H×W。通过sigmoid激活函数和平均池化操作,得子区域特征相关性注意力矩阵A',A′∈R1×H×W。式中,
Figure BDA0003074287110000081
表示张量相乘。
Figure BDA0003074287110000082
最后,采用公式(5)获取区域间特征语义关系的注意力表征E,E∈RC×H×W。式中,⊙表示按元素相乘。
E=A′⊙V (5)
B.内容注意模块CnAM
Resnet50网络的卷积块F5、KDM模块的输出特征F为内容注意模块CnAM的输入。Resnet50网络中通道数为C”、高度为H、宽度为W的卷积块F5的特征图包含丰富空间位置信息。如图4所示,将卷积块F5特征图作为输入,经公式(6)和(7),获得通道数为C'的隐层子区域特征P、Z;通过公式(8)生成其关系矩阵S,{P,Z}∈RC′×H×W,S∈RX×H×W,X=H×W,S′∈R1 ×H×W。式中,
Figure BDA0003074287110000091
表示张量相乘。
P=Reshape[Conv1×1×C′(F5)]T (6)
Z=Reshape[Conv1×1×C′(F5)] (7)
Figure BDA0003074287110000092
之后,关系矩阵S经sigmoid激活函数和平均池化操作,得子区域特征相关性注意力矩阵,将其记作S'。最后,将子区域特征相关性注意力矩阵S'、KDM模块的输出特征F通过式(3)生成的图像增强特征V执行式(9),获取区域间特征空间位置信息的注意力表征D,D∈RC×H×W。式中,⊙表示按元素相乘。
D=S′⊙V (9)
4.IOM后处理算法
检测任务通常采用非极大值抑制算法NMS,通过计算边界框之间交集与并集的比值IOU过滤多余候选框,寻找最佳检测框,进而根据最佳检测框生成对应的文本Mask掩模。然而,文本数据具有长宽比变化剧烈特点,候选区域经IOU筛选后,预测的结果仍会出现掩膜重叠现象,影响检测效果。
本发明提出一种IOM(intersection over minimum)的后处理筛选策略,将同一文本区域预测的候选框按大小排列,将面积最大的候选框与相邻文本框之间区域的交集面积占较小候选框面积的比值作为候选框筛选指标,抑制检测结果的掩模重叠现象,实现候选框的精确过滤。具体步骤如下:
(1)经过Fast RCNN模型的分类分支处理后,预测得到N个细分文本区域候选框。
(2)分别计算N个细分文本区域候选框的面积,并按照面积大小将其排序,记作Si(i=1,2…,N),S1>S2>…>SN
(3)将当前面积最大细分文本区域候选框S1分别与其他细分文本区域候选框按照公式(10)计算评价阈值Tj,j=1,2…,N-1,将依据该阈值进行细分文本区域候选框筛选。
Figure BDA0003074287110000101
式中,分子部分描述两个对比细分文本区域候选框的交叠面积,评价阈值Tj反映对比细分文本区域候选框的交叠程度:
i.若Tj>0.5,说明细分文本区域候选框交叠程度占比较大,将S1+j移出细分文本区域候选框集合。为防止有效信息丢失,移除S1+j前需保留两部分的最小外接矩形;
ii.若Tj<0.5,说明细分文本区域候选框交叠程度占比较小,分别保留两个对比细分文本区域候选框S1与S1+j
(4)计算当前细分文本区域候选框个数,假设个数为N′,令N=N′,重复步骤(2)操作,直到Tj均小于0.5,得到与目标文本区域大小、形状一致的最终文本检测框。进而根据最终确定的文本检测框生成对应的文本Mask掩模。
5.损失函数
本发明采用如式(11)所示多任务损失函数,具体包括RPN网络损失Lrpn,Fast RCNN模块损失Lrcnn和掩码损失Lmask三部分。
L=Lrpn+Lrcnn+Lmask (11)
Lrpn和Lrcnn采用Faster RCNN中的损失定义形式,掩码损失Lmask采用交叉熵损失形式,计算如式(12)所示。
Figure BDA0003074287110000102
式中,M表示所有像素数目,xm和ym表示第m个像素的坐标位置(m=1,2,…,M),Sig表示sigmoid函数。
Lrpn、Lrcnn、Lmask分别是针对Anchor机制生成的锚框结果、候选区域生成网络结果以及Mask分支的输出结果来进行计算,并对共享核空洞卷积与注意力引导的FPN文本检测网络进行训练,得到该网络的最优权值参数,得到训练后的文本检测网络,使用测试数据集Te对训练好的文本检测网络进行验证。
6.文本预测,具体步骤包括:
将待检测的复杂自然场景图像输入共享核空洞卷积与注意力引导的FPN文本检测网络,输出带有IOM后处理得到的文本检测框的文本区域标记图、文本区域位置信息以及文本Mask掩模图,实现了复杂自然场景文本检测。
本发明还公开一种基于共享核空洞卷积与注意力引导的FPN文本检测系统,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现如本发明的文本检测方法,具体步骤如下:
第一步,采集复杂自然场景文本图像数据,构建复杂自然场景文本检测训练数据集Tr,用检测训练数据集Tr训练本发明提出的适用于复杂自然场景的文本检测方法;
第二步,构造共享核空洞卷积与注意力引导的FPN文本检测网络;
首先,以Resnet50为主干网络构造共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN,用于特征提取。Resnet50网络中的4个卷积块{F2,F3,F4,F5}经共享核空洞卷积模块与注意力引导模块处理后,采用自底向上的前向传播方式,得到多尺度特征图{P2、P3、P4、P5};
然后,在共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN后衔接候选框生成网络RPN,通过候选框生成网络RPN对多尺度特征图上的文本区域进行识别,在多尺度特征图上生成大量文本候选框区域,得到的文本候选框区域为文本类别,非候选框区域为背景类别;
最后,将文本候选框区域输入基于Fast RCNN模型的分类和回归网络、MASK分支。基于Fast RCNN模型的分类和回归网络包括分类分支和回归分支两部分,分类分支将文本候选框区域进一步细分得到,细分文本区域候选框与背景区域,回归分支计算分类分支得到的细分文本区域候选框的坐标位置信息。分类分支和回归分支输出结果送入Mask分支,采用非极大值抑制算法(Non-Maximum Suppression,NMS),利用本发明提出的IOM最小边界框生成策略对细分文本区域候选框进行进一步精细化过滤,生成与目标文本区域大小、形状一致的Mask掩模;
第三步,使用多任务损失函数计算损失值,对共享核空洞卷积与注意力引导的FPN文本检测网络进行训练,获得文本检测网络最优权值参数,得到训练后的共享核空洞卷积与注意力引导的FPN文本检测网络;
第四步,将复杂自然场景图像输入共享核空洞卷积与注意力引导的FPN文本检测网络进行文本检测。
通过存储在存储器上的计算机程序,并运行在处理器上,实现本发明的基于共享核空洞卷积和注意力引导的FPN文本检测方法,实现候选框精细筛选,从而提高检测精度。
本发明还提供一种计算机存储介质,该计算机存储介质包括至少一个指令,在指令被执行时实现上述步骤一至四的具体步骤。
通过执行包括至少含有一个指令的计算机存储介质,实现本发明的基于共享核空洞卷积和注意力引导的FPN文本检测方法,实现候选框精细筛选,从而提高检测精度。
实验及分析
准确度、召回率和F-score值是文本检测任务常采用的评价指标。准确度表示预测为正的样本中预测正确的数目;召回率表示正样本被预测正确的数目;F-score值是基于准确度和召回率的调和平均值。
水平文本实验及分析
实验样本为外景街拍的水平文本图像,一幅图像中存在多种尺寸和多种字体的文本区域。实验结果如图5所示,多算法性能结果对比如表1所示。
由图5a、5b、5c、5d中箭头指向处可见,本发明文本检测方法明显改善了水平文本检测任务中的掩膜重叠问题,且改进后的定位结果更加准确。由表1可知,本发明文本检测方法较Mask TextSpotter算法准确度提升了1.2,召回率提升了2.3,F-score值提升了1.8。表明本发明文本检测方法对复杂自然场景中的水平方向文本检测效果较好,优于近几年先进的文本检测算法。
表1水平文本算法性能对比
Figure BDA0003074287110000131
倾斜文本实验及分析
实验样本为商场里随拍的倾斜文本图像,一幅图像中存在大小差异较大的文本区域。实验结果如图6所示,多算法性能结果对比如表2所示。
从图6a、6b、6c、6d中箭头指向处可见,本发明文本检测方法明显抑制了水平和倾斜文本检测时掩膜重叠的现象,使定位结果更加准确。并且对于一些较小的文本区域,本发明文本检测方法表现优异。由表2可知,本发明文本检测方法较Mask TextSpotter算法准确度P提升了1.3,召回率提升了3,F-score值提升了2.2。表明本发明文本检测方法对复杂自然场景中的倾斜方向文本检测效果较好,优于近几年先进的文本检测算法。
表2倾斜文本算法性能对比
Figure BDA0003074287110000132
Figure BDA0003074287110000141
弯曲文本实验及分析
实验样本多采自现实生活场景和商业标识等,图像中存在水平、倾斜和弯曲三种文本区域。实验结果如图7所示,多算法性能结果对比如表3所示。
如图7a、7b、7c、7d中箭头处表明本发明文本检测方法对于任意形状文本检测的掩膜重叠问题有明显的改善,使定位更加精准。对于图中出现的漏检情况,分析其原因主要为:受训练数据的影响,有一些“文本”区域的标记带有背景,这样的训练数据在一定程度上影响训练过程。由表3可知,相较Mask TextSpotter算法,本发明文本检测方法准确度提升了0.6,召回率提升了2.3,F-score值提升了1.6。表明本发明文本检测方法对复杂自然场景中的水平方向、倾斜方向以及弯曲方向文本检测效果较好,具有一定的竞争力。
表3弯曲文本算法性能对比
Figure BDA0003074287110000142
上述实验结果证明:本发明的文本检测方法对于自然场景水平文本检测的精度和召回率分别为95.3和90.4;对于倾斜文本检测的精度和召回率分别为87.1和84.2;对于任意形状文本检测的精度和召回率分别为69.6和57.3,效果提升显著。
上述水平、倾斜以及弯曲文本实验结果表明,本发明的文本检测方法显著提高了文本检测性能。

Claims (7)

1.一种适用于复杂自然场景的文本检测方法,其特征在于,具体步骤如下:
S1,构建训练数据集
Figure 664868DEST_PATH_IMAGE002
及测试数据集
Figure 847587DEST_PATH_IMAGE004
S2,构建并训练基于共享核空洞卷积与注意力引导的FPN文本检测网络,所述共享核空洞卷积与注意力引导的FPN文本检测网络依次包括特征提取网络、候选框生成网络、分类与回归网络和Mask分支,其中特征提取网络为共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN;
S3,使用训练完成的基于共享核空洞卷积与注意力引导的FPN文本检测网络对待检测复杂自然场景图像进行文本检测;
步骤S2中,
1)构建共享核空洞卷积与注意力引导的特征金字塔网络KDA-FPN,以Resnet50为主干网络,Resnet50网络中的卷积块经共享核空洞卷积模块与注意力引导模块处理后,采用自底向上的前向传播方式,得到多尺度特征图;
2)候选框生成网络通过anchor锚框机制,经ROI Align操作对多尺度特征图上的文本区域进行识别,生成文本区域候选框;
3)通过分类与回归网络对文本候选框区域进行细分,得到细分文本区域候选框和背景区域并计算细分文本区域候选框的坐标置信度信息;
4)使用Mask分支中IOM后处理算法对分类与回归网络得到的细分文本区域候选框进行筛选,得到基于共享核空洞卷积与注意力引导的FPN文本检测网络;
5)将检测训练数据集
Figure 892904DEST_PATH_IMAGE002
输入文本检测网络,使用多任务损失函数计算损失值对文本检测网络进行训练,得到训练完成的基于共享核空洞卷积与注意力引导的FPN文本检测网络;
步骤S2中,共享核空洞卷积模块利用空洞卷积对Resnet50网络得到的卷积块F5感受野进行扩大,得到深层次细粒度特征;同时对卷积块F5进行上采样得到全局粗粒度信息描述特征,并将其与获取的深层次细粒度特征一起送入1*1卷积层进行融合,得到输出特征F
步骤S2中,注意力引导模块包括上下文注意模块和内容注意模块,上下文注意模块用于强化输出特征F相关区域特征的语义关系,得到区域间特征语义关系的注意力表征E;所述内容注意模块用于强化Resnet50网络的卷积块和KDM模块的输出特征F之间的空间位置信息,得到区域间特征空间位置信息的注意力表征D,将区域间特征语义关系的注意力表征E、区域间特征空间位置信息的注意力表征D和输出特征F融合得到特征表达F'
IOM后处理算法为IOM最小边界框生成策略,IOM最小边界框生成策略将同一文本区域预测的细分文本区域候选框按面积大小进行排列,以面积最大的细分文本区域候选框与相邻细分文本区域候选框之间区域的交集面积占较小细分文本区域候选框面积的比值作为细分文本区域候选框筛选指标
2.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,分类与回归网络采用Fast RCNN模型,包括分类分支和回归分支,分类分支通过全连接层输出置信度大小将候选框生成网络得到的文本区域候选框分为细分文本区域候选框与背景区域两类;回归分支将全连接层作为边界框回归器,获取所述细分文本区域候选框的坐标位置信息。
3.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,Mask分支采用IOM最小边界框生成策略对分类与回归网络处理后的N个细分文本区域候选框进行筛选。
4.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,所述多任务损失函数计包括RPN网络损失L rpn ,Fast RCNN模块损失L rcnn 和掩码损失L mask
5.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S1中,以单张逐行的方式对采集的复杂自然场景图像的文本区域进行标注,文本区域标注的形状为当前文本行的最小外接多边形,记录相应文本行的位置坐标,生成以图像名命名的txt文档,循环上述步骤构建数据集,基于标注文档所记录的坐标对应生成数据集练中每张图像的多张掩码图像,将图像及其对应的多张掩码图像进行增强、随机缩放、旋转后裁剪成固定尺寸,并执行归一化操作,将处理后的数据集按照2:1比例划分为检测训练数据集
Figure 553692DEST_PATH_IMAGE002
和测试数据集
Figure 633644DEST_PATH_IMAGE004
6.一种适用于复杂自然场景的文本检测方法系统,其特征在于,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现如权利要求1至5任一项权利要求所述的文本检测方法。
7.一种计算机存储介质,其特征在于,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现如权利要求1至5任一项所述的文本检测方法。
CN202110548133.2A 2021-05-19 2021-05-19 一种适用于复杂自然场景的文本检测方法、系统和介质 Active CN113516116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548133.2A CN113516116B (zh) 2021-05-19 2021-05-19 一种适用于复杂自然场景的文本检测方法、系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548133.2A CN113516116B (zh) 2021-05-19 2021-05-19 一种适用于复杂自然场景的文本检测方法、系统和介质

Publications (2)

Publication Number Publication Date
CN113516116A CN113516116A (zh) 2021-10-19
CN113516116B true CN113516116B (zh) 2022-11-22

Family

ID=78064561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548133.2A Active CN113516116B (zh) 2021-05-19 2021-05-19 一种适用于复杂自然场景的文本检测方法、系统和介质

Country Status (1)

Country Link
CN (1) CN113516116B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037826A (zh) * 2021-11-16 2022-02-11 平安普惠企业管理有限公司 基于多尺度增强特征的文本识别方法、装置、设备及介质
CN115546778B (zh) * 2022-10-22 2023-06-13 清华大学 一种基于多任务学习的场景文本检测方法及系统
CN116958981B (zh) * 2023-05-31 2024-04-30 广东南方网络信息科技有限公司 一种文字识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110852349A (zh) * 2019-10-21 2020-02-28 上海联影智能医疗科技有限公司 一种图像处理方法、检测方法、相关设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110852349A (zh) * 2019-10-21 2020-02-28 上海联影智能医疗科技有限公司 一种图像处理方法、检测方法、相关设备及存储介质
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Attention-guided Context Feature Pyramid Network for Object Detection;Junxu Cao等;《arXiv》;20200523;全文 *
Eunjeong Choi等.Deep Learning Based Defect Inspection Using the Intersection Over Minimum Between Search and Abnormal Regions.《International Journal of Precision Engineering and Manufacturing》.2020, *
See more than once: Kernel-sharing atrous convolution for semantic segmentation;Ye Huang等;《Neurocomputing》;20210310;全文 *
基于改进 Mask R-CNN 模型的电力场景目标检测方法;孔英会等;《科学技术与工程》;20201231;第20卷(第8期);全文 *

Also Published As

Publication number Publication date
CN113516116A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN113516116B (zh) 一种适用于复杂自然场景的文本检测方法、系统和介质
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN109284670B (zh) 一种基于多尺度注意力机制的行人检测方法及装置
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN114067107B (zh) 基于多粒度注意力的多尺度细粒度图像识别方法及系统
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其系统
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN111612008A (zh) 基于卷积网络的图像分割方法
CN112017192B (zh) 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN113673338A (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
Luo et al. SFA: small faces attention face detector
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
Zhou et al. Attention transfer network for nature image matting
CN113297959A (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN114882204A (zh) 船名自动识别方法
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN117173697A (zh) 细胞团分类识别方法、装置、电子设备及存储介质
CN110659724A (zh) 一种基于目标尺度范围的目标检测卷积神经网络构建方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
Castillo et al. Object detection in digital documents based on machine learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant