CN113516115A

CN113516115A - 基于多维度融合的密集场景文本检测方法、设备、介质

Info

Publication number: CN113516115A
Application number: CN202110546741.XA
Authority: CN
Inventors: 孟月波; 石德旺; 金丹; 刘光辉; 徐胜军
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-10-19
Anticipated expiration: 2041-05-19
Also published as: CN113516115B

Abstract

本发明公开了一种基于多维度融合的密集场景文本检测方法、设备、介质，包括以下步骤：采集密集场景文本图像数据，构建检测训练数据集T_r；以ResNet50组成的FPN金字塔结构为基本骨架构造密集场景文本检测网络，在ResNet50最大池化层后衔接文本增强模块，利用FPN提取不同分辨率的特征，采用通道融合策略自底向上建立高低维度特征信息链，得到多维度特征图F；计算多维度特征图F的损失，采用随机梯度下降法训练密集场景文本检测网络，将多维度特征图F重构至输入图像中，完成密集文本的检测；本发明的密集文本检测方法提高了密集文本检测网络对密集场景文字的检测性能，实现了更加准确的检测效果，推动了密集场景文本检测相关实际应用的落地。

Description

基于多维度融合的密集场景文本检测方法、设备、介质

技术领域

本发明属于自然场景文本检测技术领域，具体属于一种基于多维度融合的密集场景文本检测方法、设备、介质。

背景技术

文字的出现使文明的交流跨越了空间与时间，实现了人类对外界信息的视觉认知、抽象认识及整体把握的统一结合。在空前繁荣的信息化时代，如何高效自动化的进行文字信息处理以满足日益增长的物质与精神追求的迫切需求下，使得自然场景文本检测与识别技术，愈发受到计算机视觉领域研究者的关注。在信息检索系统中，识别图像中文字有助于其信息的快速定位；在无人汽车驾驶系统中，摄像机对交通指示牌的识别有助于避免交通事故的发生；在电子文档分析系统中，对文档内容的自动化理解有助于缓解人们的视觉疲劳；在盲人视觉辅助系统中，帮助盲人识别文本并通过语音播放极大的改善了盲人的生活质量。

目前，在神经网络优异的表征能力的推动下，场景文本检测在水平、倾斜等场景下取得了出色的成绩。但是，诸如商品外包装、药品盒等密集场景下的文本与一般文本不同，其具有有限空间内字段密度高、文本间距近、形态尺寸差异巨大的特点，这使得现有自然场景文本检测技术应用于密集场景检测效果不佳。因此，如何准确定位解析密集场景文本，是文本检测领域亟待解决的实际问题。

渐进式拓展网络(Shape Robust Text Detection with Progressive ScaleExpansion Network，PSENet)将文本视为一个内核，其通过内核扩展实现文本定位的方式为近间距文本检测提供了一个较好的解决途径。但是，渐进式拓展网络采用的多尺度空间金字塔结构忽略了不同特征维度间的联系，易造成密集场景大量存在的小文本的信息损失，密集小文本检测能力不足。同时，现有检测方法将不同维度特征直接拼接的特征融合方式削弱了高层语义信息与底层信息之间的关联性，导致语义信息描述能力较低，造成局部文本漏检。

发明内容

为了解决现有技术中存在的问题，本发明的目的是提供一种基于多维度融合的密集场景文本检测方法、设备、介质，提高密集场景文本检测网络对密集文本的关注能力，实现密集文本精准检测，对推动相关应用落地具有有益的理论研究意义及实际应用价值。

为实现上述目的，本发明提供如下技术方案：一种基于多维度融合的密集场景文本检测方法，具体步骤如下：

S1收集密集场景文本图像，标注所述文本图像的文本区域，构建密集文本检测训练数据集T_r和测试数据集T_e，并对训练数据集T_r中的图像进行预处理；

S2以ResNet50组成的FPN金字塔结构为基本骨架构造密集场景文本检测网络，所述密集场景文本检测网络包括文本增强模块和通道融合策略，所述文本增强模块用于生成全局文本映射，所述通道融合策略用于自底向上建立高低维度特征信息链；

S3通过损失函数计算损失值，采用随机梯度下降法训练密集场景文本检测网络，获得训练好的密集场景文本检测模型；

S4将待检测密集场景文本图像输入密集文本检测模型中得到多维度特征图F，将多维度特征图F重构至所述输入图像中，实现密集文本的检测。

进一步的，步骤S2中，TEM模块由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成。

进一步的，步骤S2中，所述TEM模块中Softmax2d函数用于生成全局文本映射，所述全局文本映射以逐点相乘的方式编码生成增强文本特征T，所述全局文本映射用于描述图像中像素点在文本区域的概率。

进一步的，步骤S2中，所述FPN包括上采样阶段和下采样阶段，其中，下采样阶段对增强文本特征T进行密集文本特征提取，生成一组不同分辨率的特征图{R₁，R₂，R₃，R₄}，该组特征图尺寸依次减半，维度依次加倍；上采样阶段对{R₄，R₃，R₂，R₁}进行初步融合，得到初步融合特征{P₁，P₂，P₃，P₄}。

进一步的，步骤S2中，所述通道融合策略自底向上依次对不同维度的信息进行信息遗忘、信息更新和信息输出操作，获取高低维度特征的链式信息表达，将各维度的输出特征进行维度拼接得到多维度特征图F。

进一步的，步骤S2中，所述通道融合策略由一组带有不同激活函数的卷积块组成，具体包括Sigmoid的3×3卷积、Tanh的3×3卷积、Relu的1×1卷积。

进一步的，步骤S1中，利用文本标注软件以单张逐行的方式对所述文本图像中的文本区域进行标注，得到密集文本检测训练数据集T_r和测试数据集T_e，所述标注的形状为文本区域的最小外界多边形。

进一步的，步骤S1中，所述检测训练数据集T_r的预处理具体步骤为：记录检测训练数据集T_r中单张图片的文本区域对应的文字坐标，根据文字坐标生成掩码图像，对掩码图像进行旋转、缩放、裁剪和归一化得到预处理后的检测训练数据集，所述缩放采用多边形裁剪算法。

本发明还提供一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现一种基于多维度融合的密集场景文本检测方法。

本发明还提供一种计算机可读存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行一种基于多维度融合的密集场景文本检测方法。

与现有技术相比，本发明至少具有以下有益效果：

本发明提出一种基于多维度卷积融合的密集文本检测方法，网络主体采用FPN结构，通过设计文本增强模块，强化密集文本检测网络对文本信息的关注能力；同时提出了通道融合策略，采用自底向上方式建立高低维度特征信息链，生成语义更加丰富的特征图，减少信息损失；本发明的密集文本检测方法解决了密集文本特征提取困难，文本检测不全、多尺度特征融合不充分，造成语义信息的丢失的问题，提高了密集文本检测网络对密集场景文字的检测性能，实现了更加准确的检测效果，推动了密集场景文本检测相关实际应用的落地。

本发明中由反卷积层、多个不同卷积层、Softmax2d函数构成文本增强模块，从而引入了全局文本映射用来描述输入图像的文本区域概率，然后将全局文本映射编码到原始特征空间获取细粒度感知，增强文本区域信息，改善现有方法对密集小文本感知能力不足的问题，提高密集文本检测网络对密集文本的检测能力；

本发明中由一系列具有不同激活函数的卷积操作构成了通道融合策略，该通道融合策略采用自底向上方式依次对不同维度特征进行信息遗忘、信息更新和信息输出操作构建高低维度特征信息链，信息遗忘用以过滤信息链中的除无效信息和噪声，信息更新用以提取有效特征并对信息链进行更新，信息输出用以获取当前维度和当前维度之前的所有特征层的融合信息、增强网络非线性表达的强化特征，避免多尺度特征图由多次卷积操作造成的彼此间信息传递缺失的问题，提高本文语义表达能力，减少局部文本的漏检。

附图说明

图1为本发明实施流程图；

图2为本发明网络结构图；

图3为文本增强模块示意图；

图4为CFS策略示意图；

图5为PSENet检测方法的密集文本数据集DAST1500检测结果展示图；

图6为本发明检测方法的密集文本数据集DAST1500检测结果展示图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的说明。

如图1所示，本发明提供一种基于多维度卷积融合的密集文本检测方法，具体步骤如下：

1.构建密集文本检测训练数据集T_r及测试数据集T_e，并对训练集T_r图像进行预处理。具体步骤包括：

采集密集场景文本图片，并对密集场景文本图片进行重命名排序，利用LabelImg标注软件采用单张逐行的方式对密集场景文本图片内部的文本区域进行标注，记录相应文本行的位置坐标，生成以图片名命名的txt文档，循环上述步骤构建密集文本数据集，并将密集文本数据集按照2：1比例划分为检测训练数据集T_r和测试数据集T_e，对检测训练集T_r中的图像进行预处理。

优选的，预处理包括：基于标注文档所记录的坐标对应生成检测训练集T_r中每张图像的多张掩码图像，利用多边形裁剪算法对掩码图像进行多次缩放进行内核扩展；最后，将图像及其对应的多张掩码图像进行增强，随机缩放、旋转后裁剪成固定尺寸，并执行归一化操作。

优选的，文本区域标注的形状为当前文本行的最小外界多边形。

2.构造多维度卷积融合的密集场景文本检测网络，如图2所示，具体步骤包括：

该网络主要包含四个部分：①输入图像采用ResNet50的一次卷积、最大池化操作构造初始特征空间，ResNet50后衔接文本增强模块(TEM)用于捕获全局文本特征T，增强密集场景文本检测网络关注密集文本信息的能力；②采用骨架网络ResNet50构建FPN金字塔结构，提取增强文本特征T的多分辨率密集文本特征，并将不同分辨率的特征图进行初步特征融合；③设计了一种通道融合策略，采用自底向上的方式建立高低维度特征信息链，获取高低维度特征的链式信息表达，将各维度的输出特征进行维度拼接得到多维度特征图F；④后处理部分，采用文本内核扩展的方式完成文本检测。

3.文本增强模块(TEM)的执行，具体步骤包括：

如图2和图3所示，TEM模块由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成。首先，将预处理后的检测训练数据集T_r中高度为H、宽度为W的图像经7×7×64的卷积、3×3的池化的卷积池化层后，得到张量大小为

的初始特征空间；将初始特征空间送入TEM模块，依次经过反卷积层扩张、3×3卷积提取特征及1×1卷积降维后，经Softmax2d函数生成全局文本映射，用于描述图像中像素点在文本区域的概率，并将全局文本映射以逐点相乘的方式编码生成增强文本特征T；增强文本特征T进入密集文本检测网络中的特征金字塔FPN部分。

4.初步特征融合的执行，具体步骤包括：

采用ResNet50构建FPN金字塔结构，FPN包括下采样阶段和上采样融合阶段，下采样阶段对增强文本特征T进行密集文本特征提取，生成一组不同分辨率的特征图{R₁，R₂，R₃，R₄}，该组特征图尺寸依次为输入图像尺寸的1/4，1/8，1/16，1/32，维度(深度)依次为256维，512维，1024维，2048维，即该组特征图尺寸依次减半且维度依次加倍；上采样融合阶段将{R₄，R₃，R₂，R₁}依次经过降维、双线性插值操作并与相邻高一尺寸特征图采用相加的方式进行初步融合，形成一组初步融合特征{P₁，P₂，P₃，P₄}。

5.通道融合策略(CFS)的执行，具体步骤包括：

如图2和图4所示，CFS策略由一组带有不同激活函数的卷积块组成，主要分为三个阶段，每阶段完成的功能一致，记为CFS_i(i＝3,2,1)。CFS策略执行时，输入L_i和H_i，L_i为第i阶段的低维特征映射，即为FPN获得的特征映射P_i，获取过程如公式(1)所示；H_i为此阶段信息链的高维特征映射，获取过程如公式(2)所示：

L_i＝P_i，i＝3,2,1 (1)

借鉴长短时记忆网络(Long Short-Term Memory，LSTM)网络思想，将输入的L_i和H_i依次通过X、Y、Z三个信息筛选步骤实现信息交互与融合，输出此阶段的强化特征O_i以及融合当前高低维度特征的信息链C_i，公式如下：

式中，

表示Relu激励函数，f_1×1(·)表示卷积核为1×1的卷积层；

和

为第i阶段的信息遗忘函数、信息更新函数、信息输出函数，具体通过公式(5)、公式(6、公式(7)进行计算：

式中，σ、Γ分别表示Sigmoid和Tanh激励函数，f_3×3(·)表示卷积核为3×3的卷积层，所有卷积之后均使用批归一化(Batch Normaliation,BN)，⊙代表点乘，

代表逐元素相加。

通道融合策略利用步骤4获得的初步融合特征{P₁，P₂，P₃，P₄}经一系列带有不同激活函数的卷积操作建立多维度特征间链式信息关系，实现{P₁，P₂，P₃，P₄}特征信息的充分融合；

本发明中以P₄作为高维特征H₃输入，P₃作为低维特征L₃输入例执行CFS₃阶段，步骤X利用信息遗忘函数中对低维度特征图P₃执行一次Sigmoid的3×3卷积，然后将低维度特征图P₃卷积后的输出与高维度特征图P₄逐点相乘，利用低维特征信息对高维信息进行过滤，去除无效信息和噪声；步骤Y中利用信息更新函数将低维度特征图P₃分别执行带有Sigmoid的3×3卷积、带有Tanh的3×3卷积操作，卷积后将二者点乘与步骤X的输出结果进行逐元素相加，提取有效特征并对信息链进行更新；步骤Z中利用信息输出函数将步骤Y的输出(即更新后的信息链)通过带Tanh的3×3卷积进行信息整合，整合后与经一个Sigmoid的3×3卷积处理后的低维度特征图P₃相乘，得到本阶段的信息链输出C₃，并通过执行具有Relu操作的1×1的卷积获得增强特征O₃，增强密集场景文本检测网络的非线性表达能力；

优选的，信息链C₃和增强特征O₃中包含当前维度和当前维度之前的所有特征层的融合信息；相比原始特征映射P₃和P₄，包含更丰富的语义信息。

进一步的，将信息链C₃输出作为下一阶段通道融合策略(CFS₂)的高维输入，将特征图P₂作为融合策略(CFS₂)的低维输入，执行融合策略(CFS₂)操作；

依次对{P₁，P₂，P₃}分别执行X、Y、Z三个信息筛选步骤进行通道融合，直至信息链到达上采样阶段最低维度特征图P₁为止。最后将记录的不同维度阶段下通道融合策略输出的增强特征O₃、O₂、O₁以及初步融合特征P₄进行维度拼接，生成语义表征更加丰富的多维度特征图F，用于文本预测；

6.损失计算，具体步骤包括：

利用第5步所聚合的多维度特征图F计算文本损失和内核缩放损失，采用随机梯度下降法对密集场景文本检测网络进行训练，获得密集场景文本检测网络最优权值参数，得到训练好的密集场景文本检测模型，使用测试数据集T_e对训练好的文本检测网络进行验证。

7.文本检测，具体步骤包括：

将任意待检测图像输入密集场景文本检测网络得到多维度特征图F，采用文本内核扩展的方式将多维度特征图F的信息反馈至输入图像中，由核面积最小的区域作为预测起点，将内部像素点按上下左右4个方向进行发散，至核面积最大的区域作为预测终点，直到遇到最大核边界像素立即停止，完成密集文本的检测。

本发明的工作原理：

第1步，采集密集场景文本图像数据，构建密集文本检测训练数据集T_r用于训练本方法所设计的密集场景文本检测网络。

第2步，构造多维度卷积融合的密集场景文本检测网络。

2.2，提取ResNet50的一次卷积、最大池化操作结果构造初始特征空间；

2.2，TEM模块的执行，通过对初始特征空间执行指定的反卷积层、多个不同卷积层、Softmax2d函数操作生成全局文本映射，描述图像中像素点在文本区域的概率，并将全局文本映射以逐点相乘的方式编码生成增强文本特征T；

2.3，初步特征融合的执行，采用ResNet50构建FPN金字塔结构，提取增强文本特征T的多分辨率密集文本特征，并将不同分辨率的特征图进行初步特征融合，得到融合特征{P₁，P₂，P₃，P₄}；

2.4，通道融合策略的执行，采用自底向上的方式依次对得到的多维度融合特征进行信息遗忘、信息更新和信息输出操作，获取高低维度特征的链式信息表达，最后将各维度的输出特征进行维度拼接得到多维度特征图F。

第3步，损失计算，计算多维度特征图F的文本损失和内核缩放损失，并采用随机梯度下降法训练神经网络，获得密集场景文本检测网络最优权值参数。

第4步，将测试数据集T_e的图像输入密集文本检测模型得到多维度特征图F，通过文本内核扩展的方式将多维度特征图F重构至输入图像中，完成密集文本的检测。

本发明还提供一种计算机设备，该计算机设备可以是计算机，其包括通过总线连接的处理器、存储器，所述存储器中储存程序，并且该程序被配制成由处理器执行，程序包括用于执行上述基于多维度融合的密集场景文本检测方法。

上述计算机设备还可以是服务器或者是其他具有计算功能的终端设备。

本发明还提供一种计算机存储介质，其存储有经计算机程序，所述程序被处理器执行，处理器执行存储器存储的计算机程序时，实现上述基于多维度融合的密集场景文本检测方法。

图5和图6为不同方法在密集场景文本数据集DAST1500的检测结果展示。其中图5中(a)、(b)和(c)为密集场景下PSENet的文本检测结果，图6中(a)、(b)和(c)为密集场景下本发明的文本检测结果。如图中圆圈区域所示，可以看出PSENet对密集场景文本存在较为明显的检测不全现象，本发明方法密集文本检测能力更强，降低了文本的漏检。

将本发明方法在密集场景文本数据集DAST1500上与其他优秀文本检测算法的检测性能进行对比，结果如表1所示：

表1密集场景文本数据集DAST1500检测性能对比

方法	TEM	CFS	准确率	召回率	F分数
						EAST			69.2	55.8	61.8
SegLink			67.2	63.8	65.5
						TextSnake			73.6	72.1	72.8
PSENet			78.8	76.2	77.4
						本发明方法	√		79.2	77.8	78.5
本发明方法		√	79.3	78.1	78.7
						本发明方法	√	√	81.7	81.9	81.8

从表1中可以看出，仅采用TEM模块，本发明方法可以将密集文本检测的准确性提升至79.2，召回率提升至77.8，F分数提升至78.5，证明了文本增强模块的良好作用；仅采用CFS策略，本发明方法可以将密集文本检测的准确性提升至79.3，召回率提升至78.1，F分数提升至78.7，证明了通道融合策略的有效性；TEM模块和CFS策略共同作用时，本发明方法的准确率、召回率和F分数分别达到81.7、81.9和81.8。相较其他先进的对比算法，检测效果处于领先地位，性能优异，证明了本发明方法的有效性。

将本发明方法在多方向文本数据集ICDAR2015、弯曲方向文本数据集CTW1500上与其他优秀文本检测算法的检测性能进行对比，对比结果如表2所示：

表2多方向文本数据集ICDAR2015、弯曲方向文本数据集CTW1500检测性能对比

从表2中可以看出，相较其他先进的对比算法，本发明方法的准确率、召回率和F分数均较高，说明本发明方法不仅可以提升密集文本的检测性能，且对其他类型本文检测也极为有效。

Claims

1.一种基于多维度融合的密集场景文本检测方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S2中，所述文本增强模块衔接在ResNet50最大池化层后，由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成。

3.根据权利要求2所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S2中，所述文本增强模块通过Softmax2d函数生成全局文本映射，所述全局文本映射以逐点相乘的方式编码生成增强文本特征T，所述全局文本映射用于描述图像中像素点在文本区域的概率。

4.根据权利要求3所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S2中，所述FPN包括上采样阶段和下采样阶段，其中，下采样阶段对增强文本特征T进行密集文本特征提取，生成一组不同分辨率的特征图{R₁，R₂，R₃，R₄}，该组特征图尺寸依次减半，维度依次加倍；上采样阶段对{R₄，R₃，R₂，R₁}进行初步融合，得到初步融合特征{P₁，P₂，P₃，P₄}。

5.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S2中，所述通道融合策略自底向上依次对不同维度的信息进行信息遗忘、信息更新和信息输出操作，获取高低维度特征的链式信息表达，将各维度的输出特征进行维度拼接得到多维度特征图F。

6.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S2中，所述通道融合策略由一组带有不同激活函数的卷积块组成，具体包括Sigmoid的3×3卷积、Tanh的3×3卷积、Relu的1×1卷积。

7.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S1中，利用文本标注软件以单张逐行的方式对所述文本图像中的文本区域进行标注，得到密集文本检测训练数据集T_r和测试数据集T_e，所述标注的形状为文本区域的最小外界多边形。

8.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法，其特征在于，步骤S1中，所述检测训练数据集T_r的预处理具体步骤为：记录检测训练数据集T_r中单张图片的文本区域对应的文字坐标，根据文字坐标生成掩码图像，对掩码图像进行旋转、缩放、裁剪和归一化得到预处理后的检测训练数据集，所述缩放采用多边形裁剪算法。

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-8中任一项所述的一种基于多维度融合的密集场景文本检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行如权利要求1-8中任一项所述的一种基于多维度融合的密集场景文本检测方法。