CN116486393A

CN116486393A - 一种基于图像分割的场景文本检测方法

Info

Publication number: CN116486393A
Application number: CN202310464879.4A
Authority: CN
Inventors: 路子恒; 任永坚; 周仁杰; 张纪林; 万健; 邓飞; 杨畅; 马强; 姚越
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-25

Abstract

本发明公开了一种基于图像分割的场景文本检测方法，属于计算机视觉领域。本发明首先获取包含文本的自然场景图像，对其进行预处理，并通过特征提取组件对预处理后的自然场景图像进行特征提取得到特征图。其次根据特征图，通过特征金字塔增强组件让特征图中不同尺寸的特征信息充分融合，得到深层特征。然后通过特征聚焦组件对来自特征金字塔增强组件的多个不同尺寸的特征图融合，并进行特征聚焦操作。最后通过文本框预测组件对特征聚焦组件输出的特征图进行预测，找出文本所在位置。本发明增大特征图感受视野和文本特征的表达能力，有效提高场景文本检测的精度。

Description

一种基于图像分割的场景文本检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于图像分割的场景文本检测方法。

背景技术

场景文本检测技术是目前计算机视觉领域最重要的研究方向之一，检测与识别任务中，一般先进行检测的工作，通过检测出图像中文本所在的位置，然后进行裁剪，再进行文本识别的工作，故场景文本检测结果的好坏直接影响了整个识别任务的最终效果。故对场景文本检测技术的检测效果进行优化是非常有必要的。基于图像分割的方法通过图像分割算法分割文本区域与非文本区域，然后对分割出的文本区域边缘进行检测以确定文本的边界，最后，对文本特征分析标注文本区域。

在基于深度学习的场景文本检测方法中，可微分二值化网络DBNet模型是近几年出现的经典模型之一，其结构简单，能高效完成文本检测任务，对场景文本检测领域有着极其重要影响。DBNet模型使用特征金字塔网络FPN进行不同尺度特征信息融合过程，FPN网络通过自底向上的卷积操作提取不同深度文本特征，然后通过自顶向下的上采样过程进行特征信息融合，接着把得到的特征图送入可微分二值化模块进行后处理操作。DBNet模型能高效处理检测任务，但模型结构依旧存在以下两点不足：

(1)FPN网络结构过于简单，其在特征信息融合过程中，自底向上的特征提取操作以及自顶向下深层向浅层的特征信息融合过程各只进行了一次，并且操作中只有上层文本特征向底层融合的过程，其对不同尺度特征信息的融合力度显然不够，这在面对较为复杂场景文本图像时难以让高层语义信息与低层文本信息得到充分融合。

(2)DBNet模型在特征信息融合完成后直接把所有不同尺度的特征图上采样后简单的级联为一个特征图。不同尺度的特征图具有不同的感知范围，描述不同的特征信息，其中无差别的上采样级联操作，不能让图像中的文本特征在特征图中得到充分体现。

发明内容

针对DBNet模型存在的两个问题，本发明提出一种基于图像分割的场景文本检测方法，构建文本检测模型FB-DB。FB-DB模型首先使用ResNet残差网络提取深层图像特征，再通过特征金字塔增强网络FPEM使不同尺度特征图中特征信息充分融合，增强金字塔特征图的特征表达能力，FPEM相较于FPN能使不同尺度文本特征信息融合更加充分，接着使用瓶颈注意力网络BAM对文本特征进行聚焦操作，此操作能使特征图中文本特征更加突出，最后使用可微分二值化模块DB进行二值化的操作，并且此分割网络可以自适应设置二值化的阈值，以简化后处理过程。本发明可以有效提高场景文本检测的精度，为后续的复杂场景文本检测算法研究以及工程应用提供新的思路。

本发明所采用的技术方案如下：

步骤1：获取包含文本的自然场景图像，对其进行预处理，统一自然场景图像尺寸。

步骤2：通过特征提取组件对预处理后的自然场景图像进行特征提取得到特征图F_r。

步骤3：根据特征图F_r，通过特征金字塔增强组件让特征图中不同尺寸的特征信息充分融合，得到若干个不同尺寸的更具表达能力的深层特征。

步骤4：通过特征聚焦组件对来自特征金字塔增强组件的多个不同尺寸的深层特征图进行融合，并进行特征聚焦操作得到特征图F_f，聚焦操作就是让特征图中的文本区域通过增加权重的方式更为突出地显示的操作。

步骤5：通过文本框预测组件对特征聚焦组件输出的得到特征图F_f进行预测，找出文本所在位置。

进一步的，步骤3具体如下：

所述特征金字塔增强组件包含多个级联的特征金字塔增强网络FPEM，FPEM是一个上下两阶段的U型结构，分别是放大尺度增强阶段和缩小尺度增强阶段，两个阶段分别对应FEPM结构的输入网络和输出网络，其中放大尺度增强阶段对特征图从小到大进行增强迭代增强，缩小尺度增强阶段与放大尺度增强阶段方向相反。

进一步的，步骤4具体如下：

所述特征聚焦操作包含特征融合过程和特征聚焦过程。其中特征融合过程采用特征融合网络FFM对特征图进行融合，融合后再通过瓶颈注意力网络BAM对特征图中的文本特征进行聚焦操作，特征聚焦把通道注意力机制与空间注意力机制结合使用，对特征图中文本特征增强，使特征图中文本特征有更强的表达能力。

本发明的有益效果：

本发明针对场景文本检测模型在对不同尺度特征图中特征信息融合时，融合不够充分，以及特征图中文本特征表征不够明显的问题，设计了一种基于图像分割的场景文本检测模型FB-DB。模型首先使用ResNet残差网络提取深层图像特征，其次使用可级联的特征金字塔增强组件对金字塔特征图进行增强，其可以使不同尺度特征信息充分融合，并能增大特征图感受视野。接着使用通道注意力机制与空间注意力机制级联的方式对特征图中的文本特征进行聚焦，以增强文本特征的表达能力。最后使用文本框预测组件，通过自适应设置二值化操作的阈值来提高场景文本检测的精度。本发明可以有效提高场景文本检测的精度，为后续的复杂场景文本检测算法研究以及工程应用提供新的思路。

附图说明

图1是本发明方法的流程图；

图2是本发明的模型整体框架图；

图3是本发明中特征金字塔增强网络FPEM结构图；

图4是本发明中特征融合网络FFM结构图；

图5是本发明中瓶颈注意力网络BAM结构图；

图6是本发明中标签生成过程图；

图7是本发明场景文本检测结果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方案作进一步详细描述。

如图1流程图和图2模型框架图所示，本发明包括以下步骤：

步骤1：获取包含文本的场景图像，对其进行预处理，统一文本图像尺寸。

步骤2：通过特征提取组件对场景图像进行特征提取得到特征图F_r。

步骤2具体为：

所述特征提取组件主干网络使用ResNet残差结构进行卷积操作，通过分别设置4、8、16和32的步长分别可得到原场景图像1/4、1/8、1/16和1/32大小的特征图像，再用1×1的卷积将四个缩放的特征图的维度都削减为C_i，卷积后得到了一个比较薄的特征金字塔图F_r，其包含4个尺寸不同，维度相同的特征图。

步骤3：根据特征图F_r，通过特征金字塔增强组件让不同尺寸的特征信息充分融合，使深层特征更具表达能力。

如图3和图4所示，特征金字塔增强组件包含多个级联的特征金字塔增强网络FPEM，通过上采样与下采样不断融合的过程，使特征信息融合更加充分。

FPEM是一个上下两阶段的U型结构，分别是放大尺度增强阶段和缩小尺度增强阶段，两个阶段分别对应FEPM结构的输入网络和输出网络，其中放大尺度增强阶段对特征图从小到大进行增强迭代增强，缩小尺度增强阶段与放大尺度增强阶段方向相反，从大到小进行增强迭代增强。

在特征金字塔增强组件中，第一层FPME结构的输入是特征提取组件的输出的特征金字塔结构F_r，之后的每一层输入为上一层的输出，每一个FPEM网络会生成一个特征金字塔结构，经过n个FPEM级联操作后，组件中包含n个特征金字塔结构F¹，F²，…，Fⁿ，每个金字塔结构含有四个尺寸不同，维度都为C_i的特征图，这n个特征金字塔作为特征聚焦组件的输入参与特征聚焦操作。

步骤4：通过特征聚焦组件对来自特征金字塔增强网络的多个不同尺寸的深层特征图融合并进行特征聚焦操作，得到特征图F_f，聚焦操作就是让特征图中的文本区域通过增加权重的方式更为突出地显示的操作。

所述特征聚焦操作包含特征融合过程和特征聚焦过程。其中特征融合过程采用特征融合网络FFM对特征图进行融合，融合后再通过瓶颈注意力网络BAM对特征图中的文本特征进行特征聚焦操作，特征聚焦过程把通道注意力机制与空间注意力机制结合使用，对特征图中文本特征增强，使特征图中文本特征有更强的表达能力。

FFM网络结构如图4所示，其先把F¹至Fⁿ中尺寸相同的特征图进行相加操作，使其组成为一个包含4个尺寸不相同的特征图F^q，然后再对各不同尺寸特征图进行上采样并级联为一个特征图F_t。

接着对F_t进行特征聚焦操作，使用瓶颈注意力网络BAM进行聚焦，BAM网络结构如图5所示，其包含两个不同路径的注意力网络，分别是通道注意力网络和空间注意力网络。BAM结构上部分路径为通道注意力网络，下半部分为空间注意力网络，特征图F_t分别输入这两个路径，通过两路径分别生成通道注意力权重M_c(F_t)和空间注意力权重M_s(F_t),其尺寸分别为C×1×1和1×H×W，接着把两尺寸都扩展为C×H×W并进行相加操作，然后通过Sigmoid激活函数得到BAM注意力权重M(F_t)，此权重与输入F_t相乘并组成一个残差结构作为总的特征图输出F_f，其计算过程下所示：

M(F_t)＝σ(M_c(F_t)+M_s(F_t)) (1)

其中σ为激活函数sigmoid操作符，指点乘。

对于通道注意力路径，其关注点在于特征图中各通道之间的关系，每个不同的通道分别包含不同的特征响应，其通过对不同通道训练权重，让对预测结果有用的通道权重增大，削弱无用通道权重。其具体操作为先对输入特征图F_t进行全局平均池化AvgPool操作，得到其通道向量F_c，其维度为输入特征图通道数C，高度和宽度都为1，此向量是特征图在通道尺度对全局信息的映射，为了训练各通道权重，在池化层后构建了一个多层感知器MLP，其包含两层全连接层，对特征向量进行压缩与扩展操作，其压缩系数为16，通过这两层全连接层，可使特征向量映射为各通道权重值。感知器后再使用批归一化层BN进行归一化操作，得到通道注意力权重M_c(F_t)。通道注意力权重计算过程如下所示：

M_c(F_t)＝BN(MLP(AvgPool(F_t))) (3)

对于空间注意力网络，其关注的是分布在特征图不同位置的特征，可以强调或抑制图像中不同位置的特征。在空间注意力网络中使用了膨胀卷积来扩大卷积范围，增大感受野。空间注意力网络先对输入特征图做1×1的普通卷积，进行降维操作，降维后维度为C/16，接着使用两个卷积核尺寸为3×3的膨胀卷积来提取图像上下文特征，以扩大感受范围，然后再使用1×1的卷积将特征图维度降为1，此时生成空间注意力权重M_s(F_t)，其尺寸为1×H×W，最后使用批标准化网络BN进行尺度调整。空间注意力权重计算过程如下所示：

其中指空间注意力网络中的第一个卷积核尺寸为1×1的普通卷积操作；和/>分别指两个卷积核尺寸为3×3的膨胀卷积操作；/>指最后一个卷积核尺寸为1×1的普通卷积。

步骤5：通过文本框预测组件对上层结构输出的特征图F_f进行预测，找出文本所在位置。

所述文本框预测组件对特征图F_f进行预测，得到文本所在位置。传统基于图像分割的算法在文本框预测阶段时，直接通过特征图预测得到一个概率图，再设置一个固定阈值，接着从概率图得到标准二值图，然后使用文本框生成算法得到预测结果。而对于可微分二值化模块DB，其操作方式为先通过特征图预测概率图P和自适应阈值图T，接着使用近似阶跃函数替代传统二值化过程，其二值化过程可微，以使此二值化过程能加入模型训练中，从而生成近似二值图B。

通过具有自适应阈值的可微二值化操作来提升模型区分文本区域与背景的能力，并且可以帮助分离密集型文本实例。

在训练时，对概率图、阈值图和近似二值图都使用监督，并且概率图与近似二值图使用相同的监督，对文本框预测组件中的自适应阈值图采用类似文本边界的监督。在模型推理时，直接从概率图或近似二值图中直接使用文本框计算公式生成结果。

将特征图F_f经过卷积网络输出概率图以及阈值图，结合概率图以及阈值图通过可微分二值化(DB)，得到近似二值图。

设定一个二值化阈值，将近似二值图二值化，得到二值图，然后通过二值图中连接区域得文本框。

将文本框与输入图像进行叠加，得到输出图像。

为了使二值化过程可微，在可微分二值化(DB)操作时,引入近似阶跃函数，通过近似阶跃函数实现可微分二值化操作，可微二值化计算如下所示：

其中，指近似二值映射图，T是通过特征图预测的自适应阈值图，i与j代表图中某点坐标，k是近似阶跃函数的放大因子取50。

特征提取组件、特征金字塔增强组件、特征聚焦组件和文本框预测组件构成文本检测模型FB-DB，FB-DB模型在文本框预测组件中需要对概率图、阈值图以及近似二值图进行监督，故需要对其生成对应监督的标签，其标签生成过程如图6所示。

每个文本图像的文本区域可以用多条线段表示，如下所示：

其中m代表文本区域的顶点数量，S指线段，k指第几条，采用Vatti裁剪(瓦蒂裁剪，常用的多边形裁剪算法)方法的对文本区域G进行缩小，缩小后区域为G_s，其作为概率图和近似二值图训练的标签，其收缩的偏移量D的计算过程如下所示：

其中，A，L分别为文本区域的面积和周长，r是收缩率，取0.4。

阈值图的标签与概率图标签生成方式类似，先对初始文本区域G进行扩展，其扩展的偏移量与收缩偏移量D的大小相同，扩展后区域为G_d，则文本区域的边界为收缩区域G_s与扩张区域G_d之间的部分，最后，通过计算当前要计算阈值的位置到初始文本区域G中最近距离生成阈值图的标签。

FB-DB文本检测模型在文本框预测组件中分别对概率图、近似二值图和阈值图进行了监督，并且在训练阶段进行联合优化，故模型的损失函数由这三部分组成。

模型中概率图和近似二值图使用相同的标签进行监督，其损失计算方式相同模型使用二值交叉熵(BCE)计算其损失。概率图和近似二值图损失的计算方法如下所示：

其中L_s，L_b分别代表概率图和近似二值图的损失，y_i代表样本i的标签，正样本为1，负样本为0,p_i指样本i预测为正样本的概率，E指采样集。

阈值图标签通过计算所在位置到文本区域G的距离生成，故阈值图损失为扩张后的区域G_d中的L1损失，既预测结果与标签之间的曼哈顿距离之和，其计算如下所示：

其中L_t为阈值图损失，K为扩张文本区域G_d中像素的聚合，i指K中某一像素，y^*与x^*分别指阈值图标签与阈值图预测结果。

FB-DB检测模型的总损失由概率图损失、近似二值图损失以及阈值图损失三部分组成，其计算如下所示：

L＝L_s+α×L_b+β×L_t (10)

其中L指模型总损失，α、β分别是近似二值图和阈值图损失的系数，分别为1和10。

生成文本框时先设定一个固定阈值，对近似二值图进行二值化得到二值图，接着通过二值图得到图中连接区域，由于近似二值图的监督是缩小后的文本区域，故此时生成的是文本区域需要进行放大操作，继续使用Vatti裁剪算法对生成的文本区域放大，其放大偏移量为D¹，其计算如下所示：

其中，A¹与L¹分别为扩张前文本区域的面积和周长，r¹为放大率，取1.5。扩大后的区域就是文本所在位置，接着通过文本框生成算法得到文本框并叠加到输入图像，以此作为模型输出。

在模型推理时，可直接使用概率图生成文本框，其原因是概率图与近似二值图使用相同的监督，在经过大量联合训练后，模型概率图和近似二值图已基本趋于一致，这样的操作可以减少模型推理时的时间损耗，加快模型推理速度。推理时的文本框生成过程与训练时相同，只需要直接从概率图进行以上二值化和文本区域扩大的操作。

本发明实验在ICDAR2015数据集和MSRA-TD500数据集进行。ICDAR2015数据集包含1500张图像，其中训练集包含1000张图像，测试集包含500张图像，其图像涵盖多种文本类型，大多由谷歌眼镜拍摄于商场、车站、超市等复杂环境，图像分辨率为720×1280，标签中在单词级别标注文本实例。MSRA-TD500数据集是一种多方向文本数据集，数据采集于街道、商场、门牌等场景，包含共500张图像，其中测试集300张，训练集200张，数据集包含中英文文本格式，最大特点是以行为单位进行文本标注，可以检测模型对长文本的检测能力，在训练中为MSRA-TD500的训练集添加HUST-TR400的400张图像以增大训练数据。实验结果如下表所示：

表1ICDAR2015数据集结果对比表

表2MSRA-TD500数据集结果对比表

实验评价指标Precision代表模型所有预测中预测正确文本框所占预测框个数的比例，Precision值越高，表示模型的所有预测中，正确的预测占比越高。Recall代表模型预测文本框正确的个数占所有给定的标注框的比例，其可以衡量模型找全文本框的能力。为了综合评估模型的精确率和召回率，引入F1对模型进行总的评价。通过实验结果可以看出，在ICDAR2015数据集上，FB-DB相较于其基准检测模型DBNet，F1值提升了0.7％。在MSRA-TD500数据集上，FB-DB相较于其基准模型DBNet在F1值上提升了2.6％。实验说明本发明相较于涉及的其他模型有更高的文本检测精度。使用本发明中涉及的场景文本检测方法，检测结果示意图如图7所示，可以看出本发明能精确检测图像中文本所在区域。

Claims

1.一种基于图像分割的场景文本检测方法，其特征在于，包括如下步骤：

步骤1：获取包含文本的自然场景图像，对其进行预处理；

步骤2：通过特征提取组件对预处理后的自然场景图像进行特征提取，得到特征图F_r；

步骤3：根据特征图F_r，通过特征金字塔增强组件让特征图中不同尺寸的特征信息进行融合，得到多个不同尺寸的深层特征图；

步骤4：通过特征聚焦组件对多个不同尺寸的深层特征图进行融合，并进行特征聚焦操作得到特征图F_f；

步骤5：通过文本框预测组件对特征图F_f进行预测，找出文本所在位置。

2.根据权利要求1所述的一种基于图像分割的场景文本检测方法，其特征在于，在步骤1中，所述预处理为：统一自然场景图像尺寸。

3.根据权利要求2所述的一种基于图像分割的场景文本检测方法，其特征在于，在步骤2中，所述特征提取组件由残差网络构成。

4.根据权利要求3所述的一种基于图像分割的场景文本检测方法，其特征在于，在步骤3中，所述特征金字塔增强组件包含若干个级联的特征金字塔增强网络FPEM；

所述FPEM是一个上下两阶段的U型结构，分别是放大尺度增强阶段和缩小尺度增强阶段，其中放大尺度增强阶段对特征图从小到大进行增强迭代增强，缩小尺度增强阶段与放大尺度增强阶段相反，从大到小进行增强迭代增强。

5.根据权利要求4所述的一种基于图像分割的场景文本检测方法，其特征在于，所述特征图进行融合的过程采用特征融合网络FFM完成；

所述特征聚焦操作采用通道注意力机制与空间注意力机制结合的网络完成。

6.根据权利要求5所述的一种基于图像分割的场景文本检测方法，其特征在于，步骤5具体过程如下：

5.1、将特征图F_f经过卷积网络输出概率图以及阈值图，结合概率图以及阈值图通过可微分二值化DB，得到近似二值图；

5.2、设定一个二值化阈值，将近似二值图二值化，得到二值图，然后通过二值图中连接区域得文本框；

5.3、将文本框与输入图像进行叠加，得到输出图像。

7.根据权利要求6所述的一种基于图像分割的场景文本检测方法，其特征在于，所述特征提取组件、特征金字塔增强组件、特征聚焦组件和文本框预测组件构成文本检测模型；

训练所述模型的总损失由概率图损失、近似二值图损失以及阈值图损失三部分组成，如下所示：

L＝L_s+α×L_b+β×L_t

其中L指文本检测模型总损失，α、β分别是近似二值图和阈值图损失的系数，L_s为概率图的损失；

所述概率图和近似二值图损失为二值交叉熵损失，阈值图损失为预测结果与标签之间的曼哈顿距离之和。

8.根据权利要求7所述的一种基于图像分割的场景文本检测方法，其特征在于，所述概率图、近似二值图以及阈值图计算损失使用的标签获取过程如下：

每个自然场景图像的文本区域用多条线段表示，如下所示：

其中m代表文本区域的顶点数量，S指线段，k指第几条，采用瓦蒂Vatti裁剪算法的对文本区域G进行缩小，缩小后区域为G_s，其作为概率图和近似二值图训练的标签，其收缩的偏移量D的计算过程如下所示：

其中，A，L分别为文本区域的面积和周长，r是收缩率；

阈值图的标签采用瓦蒂Vatti裁剪算法先对文本区域G进行扩展，其扩展的偏移量与收缩偏移量D的大小相同，扩展后区域为G_d，则文本区域的边界为收缩区域G_s与扩张区域G_d之间的部分，通过计算当前要计算阈值的位置到文本区域G中最近距离生成阈值图的标签。