CN114821558A

CN114821558A - 基于文本特征对齐的多方向文本检测方法

Info

Publication number: CN114821558A
Application number: CN202210229490.7A
Authority: CN
Inventors: 李宏亮; 董建伟; 盛一航; 任子奕; 黄俊强
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-29

Abstract

本发明提出了一种基于文本特征对齐的多方向文本检测方法，先对图像进行数据增广处理；再对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字塔形式的增强模块来获取多尺度特征中的低级和高级语义信息并输出，再使用特征融合模块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征，使用文本特征对齐模块对融合的特征进行加强得到增强特征；最后对增强特征分别进行文本分类与位置预测从而输出预测文本框。本发明能够高效、准确地提取文本特征，定位文本位置；具有快速的检测速度和较高的检测精度。

Description

基于文本特征对齐的多方向文本检测方法

技术领域

本发明涉及光学字符检测技术，特别涉及基于文本特征对齐的多方向文本检测技术。

背景技术

场景中的文本内容广泛用于文本检索，文字提取，辅助阅读等场景，已经成为计算机视觉领域最重要的研究方向之一。为了能更好地获取场景中的文本，已经有很多研究者正在尝试用不同的深度学习技术解决文本读取的关键问题。

文本读取主要分为两个关键步骤：文本检测和文本识别。文本检测是为了定位每个文本实例边界框的坐标位置；文本识别是为了将检测出来的文本转化成可读取的文本字符串序列。由于图像中的文本通常具有不同的长宽比和形状，这也为精确定位文本区域带来了巨大的挑战。

目前基于深度学习的文本检测算法主要分为两大类：基于区域建议的文本检测方法和基于图像分割的文本检测方法。这些文本检测方法先后经历了水平方向的文本检测、任意方向的文本检测以及现在比较热门的弯曲文本检测。通常情况下，基于区域建议的网络在水平方向和任意方向的文本检测性能较好，基于分割的文本检测算法能更好的处理弯曲文本检测问题。

基于区域建议的文本检测方法类似于一般的目标检测框架，通常采用回归文本框的方式来获得文本区域信息。该方法的主要问题在于，难以对任意基于图像分割的文本检测方法通常利用全卷积网络等分割网络结构进行像素级别的文本预测，预测每一个像素点是文本还是背景，根据分割结果来构建文本行。如果多个文本区域存在重叠，基于分割的方法难以精确分割不同的文本实例。

发明内容

本发明所要解决的技术问题是，针对现有技术无法精确检测具有极端纵横比和不同比例的文本实例，提出了一种基于文本特征对齐的多方向文本检测方法。

本发明为解决上述技术问题，所采用的技术方案是，基于文本特征对齐的多方向文本检测方法，包含以下步骤：

1)构建多种场景下不同比例的文本实例的数据集；

2)获取数据集中包含文本实例的文本图像，并对图像进行数据增广处理；

3)对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字塔形式的增强模块来获取多尺度特征中的低级和高级语义信息并输出，再使用特征融合模块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征，最后使用文本特征对齐模块对融合的特征进行加强得到增强特征；

4)对增强特征分别进行文本分类与位置预测从而输出预测文本框。

具体的，位置预测的具体方式为增强特征经边界框回归输出的多个预测文本框位置，再使用非极大值抑制处理多余的预测文本框从而输出最终的一个预测文本框位置。

特征金字塔形式的增强模块采用上采样增强和下采样增强两个阶段，上采样增强阶段采用设置的不同增强步长在输入的多尺度特征上通过双线性插值得到的特征图上进行迭代增强生成特征金字塔，下采样增强阶段采用设置的不同增强步长，以采样步长2对上采样增强生成的特征金字塔进行下采样生成增强模块的输出。

文本特征对齐模块生成增强特征的具体方式为：融合特征经过4个不同的卷积组合通道后输入对应的3x3可分离卷积DWConv，4个DWConv的输出直接拼接输入至自注意力机制，自注意力机制输出经1x 1的卷积后输出增强特征。

本发明提出了特征金字塔增强模块，可以弥补轻量级主干网络较小的感受野和较弱的特征表示能力。多个特征金字塔增强模块通过级联用于来补偿轻量级主干的深度，以更好地表达文本特征。提出了文本特征对齐模块，可以弥补卷积神经网络感受野有限的缺陷，由此来提高具有极端纵横比和不同尺度文本实例的文本检测的精度。

本发明有益效果是，能够高效、准确地提取文本特征，定位文本位置；具有快速的检测速度和较高的检测精度；适用于书籍上文本检测，电脑屏幕文字检测，手机屏幕文字检测，银行卡文字检测，招牌文字检测，身份证文字检测，自然场景文字检测等光学字符检测领域。

附图说明

图1为本发明实施流程图；

图2为本发明详细结构图；

图3为本发明中特征金字塔增强模块示意图；

图4为本发明中文本特征对齐模块示意图；

图5为本发明检测效果示意图。

具体实施方式

下面结合附图和实施例，对本发明做进一步详细说明

实施例

如图1所示，基于文本特征对齐的多方向文本检测方法，包括以下步骤：

步骤1，使用头戴式智能眼镜拍摄具有极端纵横比以及不同比例文本实例的文本图像，主要包含书本，报纸，手机，电脑屏幕等场景，图片大小640x480，图片数量7500张，训练集与验证集比例4：1；在进行数据集统计分析时，本发明构建的数据集文本长宽比集中在9-20，包含了极端纵横比的情况；常见自然场景中文本实例长宽比主要集中在3-9；

步骤2，获取数据集中包含文本实例的文本图像，并对图像进行旋转、透视变换、收缩、对比度变换等数据增广处理，进一步的，数据增广处理还包括文本实例扭曲、拉伸、模糊和添加噪声；

步骤3，实施例在TITAN X服务器上进行实现，输入图片大小为640x480，如图2所示，主干网络使用ResNet18对数据增广后的图像提取多尺度特征，将ResNet18网络中四个不同阶段特c2,c3,c4,c5，当输入图片的形状为(16,3,640,480),16为批处理大小，3为通道数，则c2的形状为(16,64,160,120),c3的形状为(16,128,80,60),c4的形状为(16,256,40,30),则c5的形状为(16,512,20,15),在主干网络的输出c2,c3,c4,c5后接1*1*128的conv，bn,relu操作得到Fr，Fr从左到右分别为F2,F3,F4,F5,形状依次为(16,128,160,120),(16,128,80,60),(16,128,40,30),(16,128,20,15)；特征金字塔形式的增强模块FPEM(FeaturePyramid Enhancement Modules)如图3所示，FPEM是一个U型模组，分为上采样增强和下采样增强两个阶段，上采样增强作用于输入的特征金字塔，它以步长32,16,8,4像素在特征图上迭代增强。在下采样增强阶段，输入的是由上采样增强生成的特征金字塔，增强的步长从4到32，同时，下采样增强输出的特征金字塔就是最终FPEM的输出。上采样过程中使用双线性插值来进行上采样，下采样过程中通过设置采样步长stride＝2来进行下采样。FPEM可以进行级联以补偿轻量级主干网络的深度。特征融合模块FFM(Feature fusion module)将多个FPEM输出的多尺度特征进行融合，相同尺度的特征进行相加求平均得到融合特征，然后使用1x1的卷积对特征图进行降维，连接成最终4*128通道的特征图。

步骤4，文本特征对齐模块TFAM(Text feature alignment module)对FFM融合的特征进行加强得到增强特征，以便于更好的检测极端长宽比和不同比例的文本实例。如图4所示，来自上一层的输入Previous Layer经过4个通道的卷积组合后输入对应的3x3可分离卷积DWConv，4个DWConv的输出直接拼接concate再经过自注意力机制后通过1*1的卷积降维后输出。使用1x3和3x1，1x5和5x1，1x7和7x1卷积组合是为了分别替代3x3,5x5,7x7的卷积，降低参数量，同时可以更好的学习不同比例文本的语义信息，使用可分离卷积DWConv包含空间可分离卷积和深度可分离卷积。添加自注意力机制，有利于更好的学习上下文信息，便于更加准确的定位极端纵横比的文本实例。最后基于经过1*1卷积输出的增强特征分别进行文本分类和文本边界框回归得到多个预测文本框，再使用非极大值抑制(NMS:Non-Maximum Suppression)处理多余的预测文本框输出一个最终的预测文本框。预测输出文本实例的边界框坐标T：

T＝(x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄)

其中，(x₁,y₁)，(x₂,y₂)，(x₃,y₃)，(x₄,y₄)从左到右按分别表示为左上角、右上角、右下角，左下角坐标。

实施例采用了和SSD(Single Shot MultiBox Detector)相同的损失函数，分类采用softmax交叉熵损失，回归采用smoothL1损失函数L。

其中，x是匹配矩阵，对于预测的第i个文本框和第j个基准gt(ground truth)，x_ij＝1，意味着重叠框之间匹配，x_ij＝0表示不匹配。c表示置信度，l表示预测的位置，g表示gt位置。N是与gt匹配的数量，α是比例系数，用来平衡位置损失L_loc和分类损失L_conf，加速收敛，实验过程中α设置为0.3收敛较快，效果较好。

本发明在CUDA10.0环境下的pytorch框架下进行试验，训练周期设置为1000，每次迭代的批量大小设置为8，在TITAN X双卡服务器上采用gpu进行训练，采用Adam(AdaptiveMoment Estimation)优化器对参数进行学习，其中初始学习率为0.001,权重衰减设置为0.0001.训练使用warmup策略训练5个周期，然后学习率采用指数衰减方式。训练数据集为具有极端长宽比和不同比例的文本实例的文本图像，本实例提出的文本特征对齐模块很好提高了检测性能，文本检测效果如图5，本发明的算法精度F1-Score为0.732。

Claims

1.基于文本特征对齐的多方向文本检测方法，其特征在于，包含以下步骤：

1)构建多种场景下不同比例的文本实例的数据集；

2.如权利要求1所述方法，其特征在于，位置预测的具体方式为增强特征经边界框回归输出的多个预测文本框位置，再使用非极大值抑制处理多余的预测文本框从而输出最终的一个预测文本框位置。

3.如权利要求1所述方法，其特征在于，主干网络采用ResNet18。

4.如权利要求1所述方法，其特征在于，数据增广处理包括对图像进行旋转、透视变换、收缩和对比度变换。

5.如权利要求4所述方法，其特征在于，数据增广处理还包括文本实例扭曲、拉伸、模糊以及噪声添加。

6.如权利要求1所述方法，其特征在于，特征金字塔形式的增强模块采用上采样增强和下采样增强两个阶段，上采样增强阶段采用设置的不同增强步长在输入的多尺度特征上通过双线性插值得到的特征图上进行迭代增强生成特征金字塔，下采样增强阶段采用设置的不同增强步长，以采样步长2对上采样增强生成的特征金字塔进行下采样生成增强模块的输出。

7.如权利要求1所述方法，其特征在于，文本特征对齐模块生成增强特征的具体方式为：融合特征经过4个不同的卷积组合通道后输入对应的3x3可分离卷积DWConv，4个DWConv的输出直接拼接输入至自注意力机制，自注意力机制输出经1x 1的卷积后输出增强特征。

8.如权利要求7所述方法，其特征在于，4个不同的卷积组合通道分别对应的1x1,3x3,5x5,7x7的卷积，其中，3x3,5x5,7x7的卷积使用1x3和3x1，1x5和5x1，1x7和7x1卷积组合实现。