CN113516115A - 基于多维度融合的密集场景文本检测方法、设备、介质 - Google Patents

基于多维度融合的密集场景文本检测方法、设备、介质 Download PDF

Info

Publication number
CN113516115A
CN113516115A CN202110546741.XA CN202110546741A CN113516115A CN 113516115 A CN113516115 A CN 113516115A CN 202110546741 A CN202110546741 A CN 202110546741A CN 113516115 A CN113516115 A CN 113516115A
Authority
CN
China
Prior art keywords
text
dense
detection
fusion
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110546741.XA
Other languages
English (en)
Other versions
CN113516115B (zh
Inventor
孟月波
石德旺
金丹
刘光辉
徐胜军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202110546741.XA priority Critical patent/CN113516115B/zh
Publication of CN113516115A publication Critical patent/CN113516115A/zh
Application granted granted Critical
Publication of CN113516115B publication Critical patent/CN113516115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多维度融合的密集场景文本检测方法、设备、介质,包括以下步骤:采集密集场景文本图像数据,构建检测训练数据集Tr;以ResNet50组成的FPN金字塔结构为基本骨架构造密集场景文本检测网络,在ResNet50最大池化层后衔接文本增强模块,利用FPN提取不同分辨率的特征,采用通道融合策略自底向上建立高低维度特征信息链,得到多维度特征图F;计算多维度特征图F的损失,采用随机梯度下降法训练密集场景文本检测网络,将多维度特征图F重构至输入图像中,完成密集文本的检测;本发明的密集文本检测方法提高了密集文本检测网络对密集场景文字的检测性能,实现了更加准确的检测效果,推动了密集场景文本检测相关实际应用的落地。

Description

基于多维度融合的密集场景文本检测方法、设备、介质
技术领域
本发明属于自然场景文本检测技术领域,具体属于一种基于多维度融合的密集场景文本检测方法、设备、介质。
背景技术
文字的出现使文明的交流跨越了空间与时间,实现了人类对外界信息的视觉认知、抽象认识及整体把握的统一结合。在空前繁荣的信息化时代,如何高效自动化的进行文字信息处理以满足日益增长的物质与精神追求的迫切需求下,使得自然场景文本检测与识别技术,愈发受到计算机视觉领域研究者的关注。在信息检索系统中,识别图像中文字有助于其信息的快速定位;在无人汽车驾驶系统中,摄像机对交通指示牌的识别有助于避免交通事故的发生;在电子文档分析系统中,对文档内容的自动化理解有助于缓解人们的视觉疲劳;在盲人视觉辅助系统中,帮助盲人识别文本并通过语音播放极大的改善了盲人的生活质量。
目前,在神经网络优异的表征能力的推动下,场景文本检测在水平、倾斜等场景下取得了出色的成绩。但是,诸如商品外包装、药品盒等密集场景下的文本与一般文本不同,其具有有限空间内字段密度高、文本间距近、形态尺寸差异巨大的特点,这使得现有自然场景文本检测技术应用于密集场景检测效果不佳。因此,如何准确定位解析密集场景文本,是文本检测领域亟待解决的实际问题。
渐进式拓展网络(Shape Robust Text Detection with Progressive ScaleExpansion Network,PSENet)将文本视为一个内核,其通过内核扩展实现文本定位的方式为近间距文本检测提供了一个较好的解决途径。但是,渐进式拓展网络采用的多尺度空间金字塔结构忽略了不同特征维度间的联系,易造成密集场景大量存在的小文本的信息损失,密集小文本检测能力不足。同时,现有检测方法将不同维度特征直接拼接的特征融合方式削弱了高层语义信息与底层信息之间的关联性,导致语义信息描述能力较低,造成局部文本漏检。
发明内容
为了解决现有技术中存在的问题,本发明的目的是提供一种基于多维度融合的密集场景文本检测方法、设备、介质,提高密集场景文本检测网络对密集文本的关注能力,实现密集文本精准检测,对推动相关应用落地具有有益的理论研究意义及实际应用价值。
为实现上述目的,本发明提供如下技术方案:一种基于多维度融合的密集场景文本检测方法,具体步骤如下:
S1收集密集场景文本图像,标注所述文本图像的文本区域,构建密集文本检测训练数据集Tr和测试数据集Te,并对训练数据集Tr中的图像进行预处理;
S2以ResNet50组成的FPN金字塔结构为基本骨架构造密集场景文本检测网络,所述密集场景文本检测网络包括文本增强模块和通道融合策略,所述文本增强模块用于生成全局文本映射,所述通道融合策略用于自底向上建立高低维度特征信息链;
S3通过损失函数计算损失值,采用随机梯度下降法训练密集场景文本检测网络,获得训练好的密集场景文本检测模型;
S4将待检测密集场景文本图像输入密集文本检测模型中得到多维度特征图F,将多维度特征图F重构至所述输入图像中,实现密集文本的检测。
进一步的,步骤S2中,TEM模块由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成。
进一步的,步骤S2中,所述TEM模块中Softmax2d函数用于生成全局文本映射,所述全局文本映射以逐点相乘的方式编码生成增强文本特征T,所述全局文本映射用于描述图像中像素点在文本区域的概率。
进一步的,步骤S2中,所述FPN包括上采样阶段和下采样阶段,其中,下采样阶段对增强文本特征T进行密集文本特征提取,生成一组不同分辨率的特征图{R1,R2,R3,R4},该组特征图尺寸依次减半,维度依次加倍;上采样阶段对{R4,R3,R2,R1}进行初步融合,得到初步融合特征{P1,P2,P3,P4}。
进一步的,步骤S2中,所述通道融合策略自底向上依次对不同维度的信息进行信息遗忘、信息更新和信息输出操作,获取高低维度特征的链式信息表达,将各维度的输出特征进行维度拼接得到多维度特征图F。
进一步的,步骤S2中,所述通道融合策略由一组带有不同激活函数的卷积块组成,具体包括Sigmoid的3×3卷积、Tanh的3×3卷积、Relu的1×1卷积。
进一步的,步骤S1中,利用文本标注软件以单张逐行的方式对所述文本图像中的文本区域进行标注,得到密集文本检测训练数据集Tr和测试数据集Te,所述标注的形状为文本区域的最小外界多边形。
进一步的,步骤S1中,所述检测训练数据集Tr的预处理具体步骤为:记录检测训练数据集Tr中单张图片的文本区域对应的文字坐标,根据文字坐标生成掩码图像,对掩码图像进行旋转、缩放、裁剪和归一化得到预处理后的检测训练数据集,所述缩放采用多边形裁剪算法。
本发明还提供一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现一种基于多维度融合的密集场景文本检测方法。
本发明还提供一种计算机可读存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行一种基于多维度融合的密集场景文本检测方法。
与现有技术相比,本发明至少具有以下有益效果:
本发明提出一种基于多维度卷积融合的密集文本检测方法,网络主体采用FPN结构,通过设计文本增强模块,强化密集文本检测网络对文本信息的关注能力;同时提出了通道融合策略,采用自底向上方式建立高低维度特征信息链,生成语义更加丰富的特征图,减少信息损失;本发明的密集文本检测方法解决了密集文本特征提取困难,文本检测不全、多尺度特征融合不充分,造成语义信息的丢失的问题,提高了密集文本检测网络对密集场景文字的检测性能,实现了更加准确的检测效果,推动了密集场景文本检测相关实际应用的落地。
本发明中由反卷积层、多个不同卷积层、Softmax2d函数构成文本增强模块,从而引入了全局文本映射用来描述输入图像的文本区域概率,然后将全局文本映射编码到原始特征空间获取细粒度感知,增强文本区域信息,改善现有方法对密集小文本感知能力不足的问题,提高密集文本检测网络对密集文本的检测能力;
本发明中由一系列具有不同激活函数的卷积操作构成了通道融合策略,该通道融合策略采用自底向上方式依次对不同维度特征进行信息遗忘、信息更新和信息输出操作构建高低维度特征信息链,信息遗忘用以过滤信息链中的除无效信息和噪声,信息更新用以提取有效特征并对信息链进行更新,信息输出用以获取当前维度和当前维度之前的所有特征层的融合信息、增强网络非线性表达的强化特征,避免多尺度特征图由多次卷积操作造成的彼此间信息传递缺失的问题,提高本文语义表达能力,减少局部文本的漏检。
附图说明
图1为本发明实施流程图;
图2为本发明网络结构图;
图3为文本增强模块示意图;
图4为CFS策略示意图;
图5为PSENet检测方法的密集文本数据集DAST1500检测结果展示图;
图6为本发明检测方法的密集文本数据集DAST1500检测结果展示图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
如图1所示,本发明提供一种基于多维度卷积融合的密集文本检测方法,具体步骤如下:
1.构建密集文本检测训练数据集Tr及测试数据集Te,并对训练集Tr图像进行预处理。具体步骤包括:
采集密集场景文本图片,并对密集场景文本图片进行重命名排序,利用LabelImg标注软件采用单张逐行的方式对密集场景文本图片内部的文本区域进行标注,记录相应文本行的位置坐标,生成以图片名命名的txt文档,循环上述步骤构建密集文本数据集,并将密集文本数据集按照2:1比例划分为检测训练数据集Tr和测试数据集Te,对检测训练集Tr中的图像进行预处理。
优选的,预处理包括:基于标注文档所记录的坐标对应生成检测训练集Tr中每张图像的多张掩码图像,利用多边形裁剪算法对掩码图像进行多次缩放进行内核扩展;最后,将图像及其对应的多张掩码图像进行增强,随机缩放、旋转后裁剪成固定尺寸,并执行归一化操作。
优选的,文本区域标注的形状为当前文本行的最小外界多边形。
2.构造多维度卷积融合的密集场景文本检测网络,如图2所示,具体步骤包括:
该网络主要包含四个部分:①输入图像采用ResNet50的一次卷积、最大池化操作构造初始特征空间,ResNet50后衔接文本增强模块(TEM)用于捕获全局文本特征T,增强密集场景文本检测网络关注密集文本信息的能力;②采用骨架网络ResNet50构建FPN金字塔结构,提取增强文本特征T的多分辨率密集文本特征,并将不同分辨率的特征图进行初步特征融合;③设计了一种通道融合策略,采用自底向上的方式建立高低维度特征信息链,获取高低维度特征的链式信息表达,将各维度的输出特征进行维度拼接得到多维度特征图F;④后处理部分,采用文本内核扩展的方式完成文本检测。
3.文本增强模块(TEM)的执行,具体步骤包括:
如图2和图3所示,TEM模块由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成。首先,将预处理后的检测训练数据集Tr中高度为H、宽度为W的图像经7×7×64的卷积、3×3的池化的卷积池化层后,得到张量大小为
Figure BDA0003073787070000061
的初始特征空间;将初始特征空间送入TEM模块,依次经过反卷积层扩张、3×3卷积提取特征及1×1卷积降维后,经Softmax2d函数生成全局文本映射,用于描述图像中像素点在文本区域的概率,并将全局文本映射以逐点相乘的方式编码生成增强文本特征T;增强文本特征T进入密集文本检测网络中的特征金字塔FPN部分。
4.初步特征融合的执行,具体步骤包括:
采用ResNet50构建FPN金字塔结构,FPN包括下采样阶段和上采样融合阶段,下采样阶段对增强文本特征T进行密集文本特征提取,生成一组不同分辨率的特征图{R1,R2,R3,R4},该组特征图尺寸依次为输入图像尺寸的1/4,1/8,1/16,1/32,维度(深度)依次为256维,512维,1024维,2048维,即该组特征图尺寸依次减半且维度依次加倍;上采样融合阶段将{R4,R3,R2,R1}依次经过降维、双线性插值操作并与相邻高一尺寸特征图采用相加的方式进行初步融合,形成一组初步融合特征{P1,P2,P3,P4}。
5.通道融合策略(CFS)的执行,具体步骤包括:
如图2和图4所示,CFS策略由一组带有不同激活函数的卷积块组成,主要分为三个阶段,每阶段完成的功能一致,记为CFSi(i=3,2,1)。CFS策略执行时,输入Li和Hi,Li为第i阶段的低维特征映射,即为FPN获得的特征映射Pi,获取过程如公式(1)所示;Hi为此阶段信息链的高维特征映射,获取过程如公式(2)所示:
Li=Pi,i=3,2,1 (1)
Figure BDA0003073787070000062
借鉴长短时记忆网络(Long Short-Term Memory,LSTM)网络思想,将输入的Li和Hi依次通过X、Y、Z三个信息筛选步骤实现信息交互与融合,输出此阶段的强化特征Oi以及融合当前高低维度特征的信息链Ci,公式如下:
Figure BDA0003073787070000071
Figure BDA0003073787070000072
式中,
Figure BDA0003073787070000073
表示Relu激励函数,f1×1(·)表示卷积核为1×1的卷积层;
Figure BDA0003073787070000074
Figure BDA0003073787070000075
为第i阶段的信息遗忘函数、信息更新函数、信息输出函数,具体通过公式(5)、公式(6、公式(7)进行计算:
Figure BDA0003073787070000076
Figure BDA0003073787070000077
Figure BDA0003073787070000078
式中,σ、Γ分别表示Sigmoid和Tanh激励函数,f3×3(·)表示卷积核为3×3的卷积层,所有卷积之后均使用批归一化(Batch Normaliation,BN),⊙代表点乘,
Figure BDA0003073787070000079
代表逐元素相加。
通道融合策略利用步骤4获得的初步融合特征{P1,P2,P3,P4}经一系列带有不同激活函数的卷积操作建立多维度特征间链式信息关系,实现{P1,P2,P3,P4}特征信息的充分融合;
本发明中以P4作为高维特征H3输入,P3作为低维特征L3输入例执行CFS3阶段,步骤X利用信息遗忘函数中对低维度特征图P3执行一次Sigmoid的3×3卷积,然后将低维度特征图P3卷积后的输出与高维度特征图P4逐点相乘,利用低维特征信息对高维信息进行过滤,去除无效信息和噪声;步骤Y中利用信息更新函数将低维度特征图P3分别执行带有Sigmoid的3×3卷积、带有Tanh的3×3卷积操作,卷积后将二者点乘与步骤X的输出结果进行逐元素相加,提取有效特征并对信息链进行更新;步骤Z中利用信息输出函数将步骤Y的输出(即更新后的信息链)通过带Tanh的3×3卷积进行信息整合,整合后与经一个Sigmoid的3×3卷积处理后的低维度特征图P3相乘,得到本阶段的信息链输出C3,并通过执行具有Relu操作的1×1的卷积获得增强特征O3,增强密集场景文本检测网络的非线性表达能力;
优选的,信息链C3和增强特征O3中包含当前维度和当前维度之前的所有特征层的融合信息;相比原始特征映射P3和P4,包含更丰富的语义信息。
进一步的,将信息链C3输出作为下一阶段通道融合策略(CFS2)的高维输入,将特征图P2作为融合策略(CFS2)的低维输入,执行融合策略(CFS2)操作;
依次对{P1,P2,P3}分别执行X、Y、Z三个信息筛选步骤进行通道融合,直至信息链到达上采样阶段最低维度特征图P1为止。最后将记录的不同维度阶段下通道融合策略输出的增强特征O3、O2、O1以及初步融合特征P4进行维度拼接,生成语义表征更加丰富的多维度特征图F,用于文本预测;
6.损失计算,具体步骤包括:
利用第5步所聚合的多维度特征图F计算文本损失和内核缩放损失,采用随机梯度下降法对密集场景文本检测网络进行训练,获得密集场景文本检测网络最优权值参数,得到训练好的密集场景文本检测模型,使用测试数据集Te对训练好的文本检测网络进行验证。
7.文本检测,具体步骤包括:
将任意待检测图像输入密集场景文本检测网络得到多维度特征图F,采用文本内核扩展的方式将多维度特征图F的信息反馈至输入图像中,由核面积最小的区域作为预测起点,将内部像素点按上下左右4个方向进行发散,至核面积最大的区域作为预测终点,直到遇到最大核边界像素立即停止,完成密集文本的检测。
本发明的工作原理:
第1步,采集密集场景文本图像数据,构建密集文本检测训练数据集Tr用于训练本方法所设计的密集场景文本检测网络。
第2步,构造多维度卷积融合的密集场景文本检测网络。
2.2,提取ResNet50的一次卷积、最大池化操作结果构造初始特征空间;
2.2,TEM模块的执行,通过对初始特征空间执行指定的反卷积层、多个不同卷积层、Softmax2d函数操作生成全局文本映射,描述图像中像素点在文本区域的概率,并将全局文本映射以逐点相乘的方式编码生成增强文本特征T;
2.3,初步特征融合的执行,采用ResNet50构建FPN金字塔结构,提取增强文本特征T的多分辨率密集文本特征,并将不同分辨率的特征图进行初步特征融合,得到融合特征{P1,P2,P3,P4};
2.4,通道融合策略的执行,采用自底向上的方式依次对得到的多维度融合特征进行信息遗忘、信息更新和信息输出操作,获取高低维度特征的链式信息表达,最后将各维度的输出特征进行维度拼接得到多维度特征图F。
第3步,损失计算,计算多维度特征图F的文本损失和内核缩放损失,并采用随机梯度下降法训练神经网络,获得密集场景文本检测网络最优权值参数。
第4步,将测试数据集Te的图像输入密集文本检测模型得到多维度特征图F,通过文本内核扩展的方式将多维度特征图F重构至输入图像中,完成密集文本的检测。
本发明还提供一种计算机设备,该计算机设备可以是计算机,其包括通过总线连接的处理器、存储器,所述存储器中储存程序,并且该程序被配制成由处理器执行,程序包括用于执行上述基于多维度融合的密集场景文本检测方法。
上述计算机设备还可以是服务器或者是其他具有计算功能的终端设备。
本发明还提供一种计算机存储介质,其存储有经计算机程序,所述程序被处理器执行,处理器执行存储器存储的计算机程序时,实现上述基于多维度融合的密集场景文本检测方法。
图5和图6为不同方法在密集场景文本数据集DAST1500的检测结果展示。其中图5中(a)、(b)和(c)为密集场景下PSENet的文本检测结果,图6中(a)、(b)和(c)为密集场景下本发明的文本检测结果。如图中圆圈区域所示,可以看出PSENet对密集场景文本存在较为明显的检测不全现象,本发明方法密集文本检测能力更强,降低了文本的漏检。
将本发明方法在密集场景文本数据集DAST1500上与其他优秀文本检测算法的检测性能进行对比,结果如表1所示:
表1密集场景文本数据集DAST1500检测性能对比
方法 TEM CFS 准确率 召回率 F分数
EAST 69.2 55.8 61.8
SegLink 67.2 63.8 65.5
TextSnake 73.6 72.1 72.8
PSENet 78.8 76.2 77.4
本发明方法 79.2 77.8 78.5
本发明方法 79.3 78.1 78.7
本发明方法 81.7 81.9 81.8
从表1中可以看出,仅采用TEM模块,本发明方法可以将密集文本检测的准确性提升至79.2,召回率提升至77.8,F分数提升至78.5,证明了文本增强模块的良好作用;仅采用CFS策略,本发明方法可以将密集文本检测的准确性提升至79.3,召回率提升至78.1,F分数提升至78.7,证明了通道融合策略的有效性;TEM模块和CFS策略共同作用时,本发明方法的准确率、召回率和F分数分别达到81.7、81.9和81.8。相较其他先进的对比算法,检测效果处于领先地位,性能优异,证明了本发明方法的有效性。
将本发明方法在多方向文本数据集ICDAR2015、弯曲方向文本数据集CTW1500上与其他优秀文本检测算法的检测性能进行对比,对比结果如表2所示:
表2多方向文本数据集ICDAR2015、弯曲方向文本数据集CTW1500检测性能对比
Figure BDA0003073787070000101
Figure BDA0003073787070000111
从表2中可以看出,相较其他先进的对比算法,本发明方法的准确率、召回率和F分数均较高,说明本发明方法不仅可以提升密集文本的检测性能,且对其他类型本文检测也极为有效。

Claims (10)

1.一种基于多维度融合的密集场景文本检测方法,其特征在于,具体步骤如下:
S1收集密集场景文本图像,标注所述文本图像的文本区域,构建密集文本检测训练数据集Tr和测试数据集Te,并对训练数据集Tr中的图像进行预处理;
S2以ResNet50组成的FPN金字塔结构为基本骨架构造密集场景文本检测网络,所述密集场景文本检测网络包括文本增强模块和通道融合策略,所述文本增强模块用于生成全局文本映射,所述通道融合策略用于自底向上建立高低维度特征信息链;
S3通过损失函数计算损失值,采用随机梯度下降法训练密集场景文本检测网络,获得训练好的密集场景文本检测模型;
S4将待检测密集场景文本图像输入密集文本检测模型中得到多维度特征图F,将多维度特征图F重构至所述输入图像中,实现密集文本的检测。
2.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S2中,所述文本增强模块衔接在ResNet50最大池化层后,由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成。
3.根据权利要求2所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S2中,所述文本增强模块通过Softmax2d函数生成全局文本映射,所述全局文本映射以逐点相乘的方式编码生成增强文本特征T,所述全局文本映射用于描述图像中像素点在文本区域的概率。
4.根据权利要求3所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S2中,所述FPN包括上采样阶段和下采样阶段,其中,下采样阶段对增强文本特征T进行密集文本特征提取,生成一组不同分辨率的特征图{R1,R2,R3,R4},该组特征图尺寸依次减半,维度依次加倍;上采样阶段对{R4,R3,R2,R1}进行初步融合,得到初步融合特征{P1,P2,P3,P4}。
5.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S2中,所述通道融合策略自底向上依次对不同维度的信息进行信息遗忘、信息更新和信息输出操作,获取高低维度特征的链式信息表达,将各维度的输出特征进行维度拼接得到多维度特征图F。
6.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S2中,所述通道融合策略由一组带有不同激活函数的卷积块组成,具体包括Sigmoid的3×3卷积、Tanh的3×3卷积、Relu的1×1卷积。
7.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S1中,利用文本标注软件以单张逐行的方式对所述文本图像中的文本区域进行标注,得到密集文本检测训练数据集Tr和测试数据集Te,所述标注的形状为文本区域的最小外界多边形。
8.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S1中,所述检测训练数据集Tr的预处理具体步骤为:记录检测训练数据集Tr中单张图片的文本区域对应的文字坐标,根据文字坐标生成掩码图像,对掩码图像进行旋转、缩放、裁剪和归一化得到预处理后的检测训练数据集,所述缩放采用多边形裁剪算法。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-8中任一项所述的一种基于多维度融合的密集场景文本检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行如权利要求1-8中任一项所述的一种基于多维度融合的密集场景文本检测方法。
CN202110546741.XA 2021-05-19 2021-05-19 基于多维度融合的密集场景文本检测方法、设备、介质 Active CN113516115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110546741.XA CN113516115B (zh) 2021-05-19 2021-05-19 基于多维度融合的密集场景文本检测方法、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110546741.XA CN113516115B (zh) 2021-05-19 2021-05-19 基于多维度融合的密集场景文本检测方法、设备、介质

Publications (2)

Publication Number Publication Date
CN113516115A true CN113516115A (zh) 2021-10-19
CN113516115B CN113516115B (zh) 2022-11-22

Family

ID=78064706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110546741.XA Active CN113516115B (zh) 2021-05-19 2021-05-19 基于多维度融合的密集场景文本检测方法、设备、介质

Country Status (1)

Country Link
CN (1) CN113516115B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130204A1 (en) * 2017-10-31 2019-05-02 The University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
CN111275034A (zh) * 2020-01-19 2020-06-12 世纪龙信息网络有限责任公司 从图像中提取文本区域的方法、装置、设备和存储介质
CN111461114A (zh) * 2020-03-03 2020-07-28 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
AU2020104006A4 (en) * 2020-12-10 2021-02-18 Naval Aviation University Radar target recognition method based on feature pyramid lightweight convolutional neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130204A1 (en) * 2017-10-31 2019-05-02 The University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
CN111275034A (zh) * 2020-01-19 2020-06-12 世纪龙信息网络有限责任公司 从图像中提取文本区域的方法、装置、设备和存储介质
CN111461114A (zh) * 2020-03-03 2020-07-28 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
AU2020104006A4 (en) * 2020-12-10 2021-02-18 Naval Aviation University Radar target recognition method based on feature pyramid lightweight convolutional neural network

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI-YI PEI等: "Multi-Orientation Scene Text Detection with Multi-Information Fusion", 《2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
张宽等: "基于密集连接的FPN多尺度目标检测算法", 《计算机应用与软件》 *
陈淼妙等: "基于高分辨率卷积神经网络的场景文本检测模型", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN113516115B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
US11256960B2 (en) Panoptic segmentation
US10410353B2 (en) Multi-label semantic boundary detection system
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN107292256B (zh) 基于辅任务的深度卷积小波神经网络表情识别方法
Jiang et al. Cascaded subpatch networks for effective CNNs
CN113343778B (zh) 一种基于LaneSegNet的车道线检测方法及系统
CN113569865A (zh) 一种基于类别原型学习的单样本图像分割方法
CN114418030A (zh) 图像分类方法、图像分类模型的训练方法及装置
US20220237896A1 (en) Method for training a model to be used for processing images by generating feature maps
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
CN112329801A (zh) 一种卷积神经网络非局部信息构建方法
JP2015036939A (ja) 特徴抽出プログラム及び情報処理装置
CN116612288A (zh) 一种多尺度轻量级实时语义分割方法、系统
CN114612681A (zh) 基于gcn的多标签图像分类方法、模型构建方法及装置
CN116884067B (zh) 一种基于改进的隐式语义数据增强的微表情识别方法
CN113516115B (zh) 基于多维度融合的密集场景文本检测方法、设备、介质
CN112434731A (zh) 图像识别方法、装置及可读存储介质
CN117252890A (zh) 颈动脉斑块分割方法、装置、设备及介质
CN115457568B (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
CN116597071A (zh) 一种基于可学习的k临近点采样的缺陷点云数据重建方法
CN113688783B (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
CN112801153B (zh) 一种嵌入lbp特征的图的半监督图像分类方法及系统
CN112001479B (zh) 基于深度学习模型的处理方法、系统及电子设备
CN112001431B (zh) 一种基于梳状卷积的高效图像分类方法
CN114972851A (zh) 一种基于遥感影像的船只目标智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant