CN115131778A

CN115131778A - 一种基于深度学习的场景文本检测方法

Info

Publication number: CN115131778A
Application number: CN202210671550.0A
Authority: CN
Inventors: 张立和; 高文浩
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-30

Abstract

本发明属于人工智能技术领域，提出了一种基于深度学习的场景文本检测方法。本发明首先构建了基础特征提取网络模块，然后构建了双权重引导的流对齐模块，将之与特征金字塔网络模块相结合，处理了文本检测中的多尺度变化问题；然后用双路分对称残差模块进行边缘特征强化，从而得到分割结果；最后由分割图生成文本框。本发明实现了快速轻量级的文本检测模型，不仅能够检测复杂场景下任意形状的文本目标，而且检测结果精准，检测的速度也有一定保障；具有极强的应用价值。

Description

一种基于深度学习的场景文本检测方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于深度学习的场景文本检测方法。

背景技术

近年来，深度学习技术不断发展，在文字检测领域的应用也越来越广泛，例如自动驾驶、场景理解和产品标识等。文本检测算法的核心任务是区分文本实例与背景区域。自然场景中的文字通常存在着很大的差异，比如在图片中可能会存在文字的大小、字体以及文字颜色的差异。这类图像中的文字比传统电子文档中的文字更为复杂，运用传统的文字检测方法进行检测准确率就比较低。目前由于深度学习技术的大量应用，很多学者就把眼光放在了对场景文本图像的检测上面。目前主要有两种基于深度学习的场景文本检测方法，一种是基于回归的文本检测方法，另一种是基于分割的文本检测方法。

“Faster R-CNN:Towards real-time object detection with region proposalnetworks”和“Ssd:Single shot multibox detector”中提及的基于回归的文本检测方法，其目的是对要检测的文本目标定位坐标进行回归。该方法将文本行视为一种检测目标，利用目标检测网络直接检测出文本行的坐标。基于回归的方法可以根据是否预设anchor分为间接回归与直接回归方法。基于回归的方法不能很好地处理倾斜文本和长文本。“TextSnake:A flexible representation for detecting text of arbitrary shapes”和“Textfield:Learning a deep direction field for irregular scene textdetection”中提出的基于分割的检测方法，其通过网络检测得到文本区域分割图，然后采用后处理得到文本框。由于目前文本数据集通常采用文本行形式标注，采用分割检测方法将导致训练时字符间的无关像素也被标注为字符，导致分割结果中出现相邻文本行粘连。因此，基于分割方法优点是其分割结果包含了文本的方向、位置、长度等信息，不需要额外考虑长文本、变形文本的特性，但其分割初始结果容易粘连。

发明内容

本发明要解决的技术问题是：弥补当前场景文本检测精度方面的不足，提出一种基于深度学习的场景文本检测方法，达到高精度高检测速率的目的。

本发明的技术方案：

一种基于深度学习的场景文本检测方法，包括步骤如下：

步骤1、构建特征提取网络；

特征提取网络包括基础特征提取网络模块、双权重引导的流对齐模块和特征金字塔网络模块；

基础特征提取网络模块以ResNet或MobileNet网络结构作为骨干，图像输入至不同网络层，分别提取图像尺寸的1/4、1/8、1/16、1/32输出特征，不同网络层对应的通道数依次为64、128、256、512；

双权重引导的流对齐模块输入分为F_low和F_high两部分，F_low表示当前基础特征提取网络层的输出特征，F_high表示上一级双权重引导的流对齐模块的输出特征；首先对F_high进行上采样，利用双线性插值，得到与F_low相同尺寸的特征图；将两个特征图进行通道级联，经过一次3×3卷积后，得到语义流场；同时对通道级联后的特征图依次进行3×3卷积、Relu激活函数和1×1卷积得到空间权重图；将得到的语义流场与F_high通过光流映射操作，该操作可以很好地解决使用双线性插值进行上采样时出现的对不齐问题，将对齐好的特征图再与空间权重图相乘，得到富含空间语义信息的高分辨率特征图；同时将F_high通过双权重引导的流对齐模块中的通道注意力机制模块后得到的通道权重图与F_low相乘，得到富含通道信息的高分辨率特征图；将富含空间语义信息的高分辨率特征图、富含通道信息的高分辨率特征图以及初始的F_low三者相加得到的特征图作为双权重引导的流对齐模块的输出；

将双权重引导的流对齐模块进行三次复用，特征金字塔网络模块用于融合双权重引导的流对齐模块的输出；首先，将基础特征提取网络模块输出的1/32尺寸特征图C5使用空洞空间卷积池化金字塔网络(ASPP)进行特征扩展得到1/32尺寸的特征图P5，将基础特征提取网络模块输出的1/16尺寸特征图C4与1/32尺寸的特征图P5输入至双权重引导的流对齐模块；然后将双权重引导的流对齐模块的输出特征与基础特征提取网络模块输出的1/16尺寸特征图C4相加得到1/16尺寸的特征图P4；重复上述步骤得到尺寸为1/8的特征图P3和尺寸为1/4的特征图P2；最后将1/32尺寸的特征图P5、1/16尺寸的特征图P4、1/8的特征图P3上采样至与尺寸为1/4的特征图P2相同的尺寸，再通过通道级联，最后得到原图尺寸1/4，通道数为256的特征图F1；

步骤2、将特征图F1输入到双路非对称残差模块进行边缘强化，得到特征图F2；边缘特征的强化离不开局部特征，局部上下文特征，全局上下文特征。

双路非对称残差模块包括特征金字塔卷积层、非对称卷积层和逐点卷积层；特征图F1输入至特征金字塔卷积层进行特征提取后，通道数减半输送至两个不同分路；两不同分路分别采用带膨胀率的3×1和1×3的深度卷积、卷积核为1×3和3×1的深度卷积，用于缓解分类和定位的矛盾以及促进信息间的聚合，在不降低特征图分辨率的前提下增大了感受域，从而捕获更多信息；两分路末端均通过卷积核为1×1的逐点卷积层恢复通道数量；两分路输出的特征图相加之后通过通道混洗以促进信息间的交流，最后与该模块的输入特征图相加以促进信息间的融合，获得特征图F2；

步骤3、由特征图F2预测得到概率图P和阈值图T；通过概率图P和阈值图T计算得到近似二值图B，计算公式如下：

其中：B_i,j为生成的近似二值图；P_i,j是概率图，T_i,j是阈值图；k为放大倍数；实验取值为50。

步骤4、生成文本框

首先设定一个固定阈值，将概率图转换为近似二值图；近似二值图由像素值为0和1的点组成，其中像素值为1的点属于文本区域，反之属于非文本区域；然后对近似二值图计算轮廓，遍历每个轮廓，去除小于所设定的文本框最小长度预测；对每个轮廓计算包围矩形，然后计算该矩形的预测分数，对矩形进行反向收缩操作，得到真实矩形大小；最后还原到原图尺寸。

本方法基于Pytorch框架实现，在实验时采用两块GPU显卡(Nvidia 1080Ti)进行训练和测试。采用随机梯度下降算法进行优化，训练批大小为16，初始学习率设为0.001，迭代训练2000epoch。采用的数据增强方法有：随机角度旋转、随机区域裁剪、随机翻转、所有的图片尺寸都调整到640×640。

本发明的有益效果：本发明充分利用了语义分割算法在前景区域和背景区域之间的强区分能力，通过双权重引导的流对齐模块与特征金字塔网络模块结合进行多尺度特征提取，提高了图像中多尺寸文本的检测能力。通过双路非对称残差模块进行边缘强化，使得预测到的概率图和阈值图更加准确，进而提高了整个文本检测算法的精度，具有极强的应用价值。

附图说明

图1为整个网络结构图，流对齐为双权重引导的流对齐模块；

图2为双权重引导的流对齐模块，⊙表示逐像素相乘；

图3为双路非对称残差模块。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

一种基于深度学习的场景文本检测方法，步骤如下：

(1)构建基础特征提取网络模块

基础特征提取网络采用ResNet18网络结构作为骨干，输入为3通道RGB图像，如图1所示，C2、C3、C4、C5分别代表ResNet18中的第4、6、9、13层特征，依次为输入图像尺寸的1/4、1/8、1/16、1/32，且对应的通道数依次为64、128、256、512。

(2)构建双权重引导的流对齐模块

如图2所示，该模块的输入为F_low和F_high两部分，F_low表示特征提前网络当前层的输出特征，F_high表示上一级流对齐模块的输出特征。首先对F_high进行上采样，利用双线性插值，得到与F_low相同尺寸的特征图，然后将两个特征图进行通道级联，再经过一次3×3卷积，预测出语义流场；同时对通道级联后的特征图依次进行3×3卷积，Relu函数激活，1×1卷积得到空间权重图；将得到的语义流场与F_high经过光流映射操作，再与空间权重图相乘，得到富含空间语义信息的高分辨率特征图；同时将F_high通过通道注意力机制模块(CAM)后得到的通道权重图与F_low相乘，得到富含通道信息的高分辨率特征图；将富含空间语义信息的高分辨率特征图、富含通道信息的高分辨率特征图以及初始的F_low三者相加得到的特征图作为双权重引导的流对齐模块的输出；

(3)构建特征金字塔网络模块

特征金字塔网络模块能够对双权重引导的流对齐模块的输出进行融合。如图1所示，特征金字塔网路中将双权重引导的流对齐模块进行了3次复用。首先，将基础特征提取网络模块输出的1/32尺寸特征图C5使用空洞空间卷积池化金字塔网络(ASPP)进行特征扩展，得到1/32尺寸特征图P5，将基础特征提取网络模块输出的1/16尺寸特征图C4与P5作为双权重引导的流对齐模块的输入，然后将双权重引导的流对齐模块输出与C4相加得到1/16尺寸的特征图P4；重复上述步骤得到尺寸为1/8的特征图P3和尺寸为1/4的特征图P2。最后将P5、P4、P3分别上采样至与P2相同的尺寸，再经过通道级联，最后得到原图尺寸1/4，通道数为256的特征图。

(4)构建双路非对称残差模块

构建非对称残差模块对通道级联后的特征图进行特征增强，起到边缘强化的作用。边缘特征的强化离不开局部特征，局部上下文特征，全局上下文特征。如图3所示，双路非对称残差模块开始使用特征金字塔卷积层对输入特征图进行特征提取，然后将其通道数减半送到两个不同的分路。上下两条分路能够有效缓解分类和定位的矛盾，同时非对称卷积能有效促进信息间的聚合。下分路采用卷积核为1×3和3×1的深度卷积，上分路采用带膨胀率的3×1和1×3的深度卷积，在不降低特征图分辨率的前提下增大了感受域，从而捕获更多信息。在两分路末端用卷积核为1×1的逐点卷积来恢复通道数量，两分路的特征图相加后用通道混洗以促进信息间的交流，最后与该模块的输入特征图相加以促进信息融合，形成一个残差结构。

(5)得到近似二值图

利用双路非对称残差模块得到的特征图预测得到概率图P和阈值图T，通过可微分二值化得到近似二值图，计算公式如下：

其中：

B_i,j为生成的近似二值图；

P_i,j是概率图，T_i,j是阈值图；

k为放大倍数，实验取值为50。

(6)生成文本框

首先设定一个固定阈值0.3，通过该固定阈值将概率图转换为近似二值图，近似二值图由像素值为0和1的点组成，其中像素值为1的点属于文本区域，反之属于非文本区域；然后对近似二值图计算轮廓，遍历每个轮廓，去除太小的预测，即初始设置一个文本框最小长度，若预测到的长度小于该长度，则直接舍去；对每个轮廓计算包围矩形，然后计算该矩形的预测分数，对矩形进行反向收缩操作，得到真实矩形大小；最后还原到原图尺寸。

(7)训练方法

Claims

1.一种基于深度学习的场景文本检测方法，其特征在于，包括步骤如下：

步骤1、构建特征提取网络；

双权重引导的流对齐模块输入分为F_low和F_high两部分，F_low表示当前基础特征提取网络层的输出特征，F_high表示上一级双权重引导的流对齐模块的输出特征；首先对F_high进行上采样，利用双线性插值，得到与F_low相同尺寸的特征图；将两个特征图进行通道级联，经过一次3×3卷积后，得到语义流场；同时对通道级联后的特征图依次进行3×3卷积、Relu激活函数和1×1卷积得到空间权重图；将得到的语义流场与F_high通过光流映射操作，用于解决使用双线性插值进行上采样时的对不齐问题，将对齐后的特征图再与空间权重图相乘，得到富含空间语义信息的高分辨率特征图；同时将F_high通过双权重引导的流对齐模块中的通道注意力机制模块后得到的通道权重图与F_low相乘，得到富含通道信息的高分辨率特征图；将富含空间语义信息的高分辨率特征图、富含通道信息的高分辨率特征图以及初始的F_low三者相加得到的特征图作为双权重引导的流对齐模块的输出；

将双权重引导的流对齐模块进行三次复用，特征金字塔网络模块用于融合双权重引导的流对齐模块的输出；首先，将基础特征提取网络模块输出的1/32尺寸特征图(C5)使用空洞空间卷积池化金字塔网络进行特征扩展得到1/32尺寸的特征图(P5)，将基础特征提取网络模块输出的1/16尺寸特征图(C4)与1/32尺寸的特征图(P5)输入至双权重引导的流对齐模块；然后将双权重引导的流对齐模块的输出特征与基础特征提取网络模块输出的1/16尺寸特征图(C4)相加得到1/16尺寸的特征图(P4)；重复上述步骤得到尺寸为1/8的特征图(P3)和尺寸为1/4的特征图(P2)；最后将1/32尺寸的特征图(P5)、1/16尺寸的特征图(P4)、1/8的特征图(P3)上采样至与尺寸为1/4的特征图(P2)相同的尺寸，再通过通道级联，最后得到原图尺寸1/4，通道数为256的特征图F1；

步骤2、将特征图F1输入到双路非对称残差模块进行边缘强化，得到特征图F2；

双路非对称残差模块包括特征金字塔卷积层、非对称卷积层和逐点卷积层；特征图F1输入至特征金字塔卷积层进行特征提取后，通道数减半输送至两个不同分路；两不同分路分别采用带膨胀率的3×1和1×3的深度卷积、卷积核为1×3和3×1的深度卷积，用于缓解分类和定位的矛盾以及促进信息间的聚合；两分路末端均通过卷积核为1×1的逐点卷积层恢复通道数量；两分路输出的特征图相加之后通过通道混洗以促进信息间的交流，最后与该模块的输入特征图相加以促进信息间的融合，获得特征图F2；

其中：B_i,j为生成的近似二值图；P_i,j是概率图，T_i,j是阈值图；k为放大倍数；

步骤4、生成文本框