CN114332868A

CN114332868A - 一种自然场景下的水平文本检测方法

Info

Publication number: CN114332868A
Application number: CN202111663029.4A
Authority: CN
Inventors: 阎波; 高一健; 李达; 唐亮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本发明公开了一种自然场景下的水平文本检测方法，涉及计算机视觉目标检测领域，包括：选择包含水平文本的自然场景图片构建数据集；建立由特征提取子模型和文本检测子模型构成的水平文本检测模型，并根据数据集，优化文本检测子模型；采用迁移学习，通过损失函数，训练水平文本检测模型；基于嵌入式操作系统的软件开发工具包，将训练完成的水平文本检测模型部署在手持终端设备上；检测自然场景图片的水平文本。本发明拥有极快的检测速度，相对于现有技术，针对性和适用性高，检测精度高，且本发明提供的方法步骤可通过程序部署在移动端设备上。

Description

一种自然场景下的水平文本检测方法

技术领域

本发明涉及计算机视觉目标检测领域，具体涉及一种自然场景下的水平文本检测方法。

背景技术

近年来，自然场景文本检测与识别技术成为智能信息处理的一个关键环节，其在日常生活的应用无处不在。机器人导航、自动驾驶、自动车牌识别、快递自助取件等技术都离不开文本检测与文本识别。然而，自然场景中文本检测任务一般较为复杂，一个场景中可能存在多种不同样式的文本，例如大小、字体、方向和颜色互不相同等。同时，文本背景纹理也多种多样，例如树木、人物、建筑物等，都会影响文本检测效果。

在场景文本检测领域，传统的光学字符识别(Optical Character Recognition，OCR)技术只能处理一些简单背景下的字符识别任务，且对文本背景、文本格式和拍摄角度等都有较高的要求。近年来，随着计算机算力的提高和深度学习技术的不断发展，出现了很多更精准和鲁棒的基于深度学习的目标检测技术。深度学习中的卷积神经网络对于提取图像中的特征具有优秀的效果，可以提取出图像的深层次特征信息，因此多被用于图像检测与识别领域。对于目标检测技术，当前主流的是基于区域建议和基于图像分割的技术。

YOLO是一种轻量级的目标检测框架，其将目标检测作为端到端的回归问题来求解，一般包含特征提取阶段、特征融合阶段和锚框回归阶段。后来又发展出了YOLOv2、YOLOv3、YOLOv3-tiny等版本，可以准确地识别出场景中的水平或近似水平的文本目标。它们在特征提取阶段采用了Darknet网络结构，并在检测阶段提出对提取到的特征图的每个点生成三个大小不同，中心点相同的先验锚框，然后对锚框的坐标进行回归，得到最终的目标检测框。

然而，类似YOLO的技术大多是通用的目标检测框架，在特征提取阶段的卷积核形状一般为n*n，适用于检测形状多样的目标，而对于细长型的文本行来说效果欠佳，针对性不高，易造成检测召回率低的问题。同时，它们生成的先验锚框通常为了检测不同形状的物体而形状差别较大，在回归生成文本框时精度一般较低，且在训练网络时对资源和时间的消耗更大。并且这些技术的复杂度通常很高，对于运行设备的资源要求和占用较多，不利于技术落地，也不适合在移动端设备上运行。

发明内容

针对现有技术中的上述不足，本发明提供的一种自然场景下的水平文本检测方法解决了现有目标检测方法对文本检测的针对性和适用性不高，检测精度和召回率低；以及现有目标检测方法的程序复杂度高，硬件资源消耗大，检测时间长，不利于的部署在移动端设备上的问题。

为了达到上述发明目的，本发明采用的技术方案为：

一种自然场景下的水平文本检测方法，包括以下步骤：

S1、选择包含水平文本的自然场景图片构建数据集；

S2、建立由特征提取子模型和文本检测子模型构成的水平文本检测模型，并根据数据集，优化文本检测子模型；

S3、根据数据集，采用迁移学习，通过损失函数，训练水平文本检测模型；

S4、基于嵌入式操作系统的软件开发工具包，将训练完成的水平文本检测模型部署在手持终端设备上；

S5、通过步骤S4的手持终端设备，检测自然场景图片的水平文本。

进一步地，所述特征提取子模型包括：第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元和第六处理单元；

所述第一处理单元包括5个卷积模块和4个最大池化层，其输入端作为特征提取子模型的输入端，其输出端分别与第二处理单元的输入端和第五处理单元的第一输入端连接；

所述第二处理单元包括3个卷积模块和2个最大池化层，其输出端分别与第三处理单元的输入端和第四处理单元的输入端连接；

所述第三处理单元包括2个卷积模块，其输出端作为特征提取子模型的第一输出端；

所述第四处理单元包括2个卷积模块和1个上采样层，其输出端与第五处理单元的第二输入端连接；

所述第五处理单元为特征融合层，其输出端与第六处理单元的输入端连接；

所述第六处理单元包括2个卷积模块，其输出端作为特征提取子模型的第二输出端。

进一步地，所述卷积模块均包括：卷积层、批量归一化层和激活函数层；

所述卷积层的输入端作为卷积模块的输入端，其输出端与批量归一化层的输入端连接；

所述批量归一化层的输出端与激活函数层的输入端连接；

所述激活函数层的输出端作为卷积模块的输出端，其激活函数为LeakReLU函数。

进一步地，所述第三处理单元和第六处理单元的所有卷积模块的卷积核尺寸均为3×1。

进一步地，所述文本检测子模型为YOLO LAYER检测层；其输入端与特征提取子模型的第一输出端和第二输出端连接；其包括K个先验锚框。

进一步地，所述步骤S2中根据数据集，优化文本检测子模型的方法包括以下步骤：

A1、提取数据集中每张图片的文本区域尺寸大小分别作为各个样本；

A2、任选择K个样本作为初始的K个聚类中心{a₁，a₂，…，a_K}；

A3、计算每个样本分别到K个聚类中心的欧式距离，并将每个样本分别纳入与其欧氏距离最小的聚类中心的类别；

A4、通过下式更新每个类别的聚类中心：

其中，a_k为第k个类别的聚类中心，s_k为第k个类别，x为归属于第k个类别的样本，k为闭区间[1，K]内的正整数；

A5、判断更新后每个类别的聚类中心是否改变，若是，则跳转至步骤A3，若否，则跳转至步骤A6；

A6、将K个聚类中心的数值作为K个先验锚框的尺寸。

进一步地，所述步骤S3包括以下分步骤：

S31、将COCO数据集上预训练的YOLOv3-tiny模型参数迁移至水平文本检测模型；

S32、根据数据集，通过损失函数，采用随机梯度下降方式训练水平文本检测模型。

进一步地，所述损失函数为：

Loss＝l_box+l_obj+l_class

其中，Loss为损失函数，l_box为先验锚框位置因素的检测误差，l_obj为置信度因素的检测误差，l_class为检测类别因素的检测误差；

其中，λ_box为先验锚框位置因素比重，S²为输入文本检测子模型的特征图大小，B为先验锚框大小，i为特征图单元坐标索引号，j为先验锚框单元坐标索引号，

为(i，j)处检测结果值，若(i，j)处有文本目标，则

值为0，若(i，j)处没有文本目标，则

值为1，(x_i，y_i，w_i，h_i)为(i，j)处预测得出的边界框位置信息，(x_i，y_i)为(i，j)处预测得出的边界框中心坐标，w_i为(i，j)处预测得出的边界框的宽，h_i和为(i，j)处预测得出的边界框的高，

为(i，j)处真值边界框位置信息，

为(i，j)处真值边界框中心坐标，

为(i，j)处真值边界框宽，h_i为(i，j)处真值边界框高；

其中，λ_noobj为预测得出的边界框中不存在对象的置信度权重，λ_obj为预测得出的边界框中存在对象的置信度权重，

为(i，j)处不存在文本目标的状态值，若(i，j)处没有文本目标，则

值为1，若(i，j)处有文本目标，则

值为0，c_i为特征图第i单元坐标处预测得出的边界框负责预测目标的置信度，

为真实情况下特征图第i单元坐标处预测得出的边界框是否应该负责预测目标的状态值，若真实情况下特征图第i单元坐标处预测得出的边界框应该负责预测目标，则

为1，若真实情况下特征图第i单元坐标处预测得出的边界框不应该负责预测目标，则

为0；

其中，λ_class为检测类别因素比重，c为类别标记，classes为水平文本检测所有可能的类别，p_i(c)为特征图第i单元坐标处为c类的预测概率，

为特征图第i单元坐标处为c类的真实概率，log(·)为对数函数；

λ_box、λ_obj和λ_noobj的和为1。

本发明的有益效果为：

1)本发明提出的水平文本检测模型是一种轻量和快速的自然场景水平文本检测模型，拥有极快的检测速度，相对于现有技术，针对性和适用性高，检测精度高，且本发明提供的方法步骤可通过程序部署在移动端设备上。

2)特征提取子模型采用了特征融合的网络结构，在提取图像深层次特征信息的同时，也保留了图像的细节纹理信息。

3)设计了基于K均值聚类的文本检测子模型优化方案，提高文本检测的针对性和适用性，使先验锚框的尺寸适用于水平文本检测。

4)采用迁移学习的训练方法，节省水平文本检测模型的训练时间；损失函数同时考虑了先验锚框位置因素的检测误差、置信度因素的检测误差和检测类别因素的检测误差，使训练结果相对于现有技术更加精确。

附图说明

图1为本发明实施例提供的一种自然场景下的水平文本检测方法的流程图；

图2为本发明实施例的数据集示例；

图3为本发明实施例的特征提取子模型结构及特征图处理过程示意图；

图4为本发明实施例的水平文本检测模型的训练过程参数曲线；

图5为本发明实施例在手持终端上部署训练完成的水平文本检测模型的软件架构图；

图6为本发明实施例在手持终端上部署训练完成的水平文本检测模型的程序流程图；

图7为本发明实施例在手持终端上部署训练完成的水平文本检测模型的软件UI界面图；

图8为本发明实施例在手持终端上部署训练完成的水平文本检测模型的软件运行界面图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种自然场景下的水平文本检测方法，包括以下步骤：

一种自然场景下的水平文本检测方法，包括以下步骤：

S1、选择包含水平文本的自然场景图片构建数据集。

本实施例中，挑选一些包含水平英文文本的清晰自然场景图片作为本发明的数据集，真值标注以单词为基本单位。

S11、加入ICDAR2013数据集，共包含462张只包含英文和数字的图片。

S12、从SVT数据集中选出一些像素较高的图像进行重新标注，用于网络训练。

S13、从ICDAR比赛2019年发布的多语种场景文本检测和识别的鲁棒性阅读挑战数据集MLT中挑选只包含英文且文本方向近似水平的图像进行重新标注，与S11、S12得到的数据集共同构成本发明的数据集。图2展示了本实施例数据集的示例。

S2、建立由特征提取子模型和文本检测子模型构成的水平文本检测模型，并根据数据集，优化文本检测子模型。

其中，特征提取子模型包括：第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元和第六处理单元；第一处理单元包括5个卷积模块和4个最大池化层，其输入端作为特征提取子模型的输入端，其输出端分别与第二处理单元的输入端和第五处理单元的第一输入端连接；第二处理单元包括3个卷积模块和2个最大池化层，其输出端分别与第三处理单元的输入端和第四处理单元的输入端连接；第三处理单元包括2个卷积模块，其输出端作为特征提取子模型的第一输出端；第四处理单元包括2个卷积模块和1个上采样层，其输出端与第五处理单元的第二输入端连接；第五处理单元为特征融合层，其输出端与第六处理单元的输入端连接；第六处理单元包括2个卷积模块，其输出端作为特征提取子模型的第二输出端。

卷积模块均采用了YOLOv3-tiny的DBL(conv+BanchNormalization+Leaky Rule)单元方案，包括：卷积层、批量归一化层和激活函数层；卷积层的输入端作为卷积模块的输入端，其输出端与批量归一化层的输入端连接；批量归一化层的输出端与激活函数层的输入端连接；激活函数层的输出端作为卷积模块的输出端，其激活函数为LeakReLU函数。

本实施例特征提取子模型结构以及关键尺寸如图3所示，其中，Conv为卷积模块，Pool为最大池化层，Unsample为上采样层，Concat为特征融合层，将第一输入端和第二输入端的两个特征图按通道拼接在一起，即将图3中特征提取子模型上下两个支路提取到的特征进行融合。本实施例在最后进行两次卷积后，得到了两个不同的特征图，尺寸分别为13×13×18和26×26×18。前者生成的先验锚框的感受野更大，适合用来检测大尺度文本，而后者生成的先验锚框感受野较小，适合用来检测小尺度文本。这样就可以对不同尺寸的文本进行检测。

在本实施例中，考虑到自然场景中的文本一般呈现细长型的特点，提出将特征提取网络中的两个支路中的最后两个卷积层的卷积核大小设计为3×1，从而更好地提取图像中水平方向的语义特征。同时，为了维持输出的特征图的大小不变，本实施例对特征图预处理时，在水平和垂直方向的padding操作不再是均匀填充1，而是改成了左右两边各填充1，上下方向不填充。这样保证了卷积和池化后得到的特征图与检测层的输入大小相同，不影响之后的操作。

文本检测子模型为YOLO LAYER检测层，其输入端与特征提取子模型的第一输出端和第二输出端连接；包括K个先验锚框。

步骤S2中根据数据集，优化文本检测子模型的方法包括以下步骤：

A1、提取数据集中每张图片的文本区域尺寸大小分别作为各个样本。

A2、任选择K个样本作为初始的K个聚类中心{a₁，a₂，…，a_K}。

A3、计算每个样本分别到K个聚类中心的欧式距离，并将每个样本分别纳入与其欧氏距离最小的聚类中心的类别。

A4、通过下式更新每个类别的聚类中心：

其中，a_k为第k个类别的聚类中心，s_k为第k个类别，x为归属于第k个类别的样本，k为闭区间[1，K]内的正整数。

A5、判断更新后每个类别的聚类中心是否改变，若是，则跳转至步骤A3，若否，则跳转至步骤A6。

A6、将K个聚类中心的数值作为K个先验锚框的尺寸。

本实施例3个先验锚框的优化结果如表1所示。

文本检测子模型在使用的过程中，遵循YOLO LAYER检测层的原理过程，首先，先验锚框在检测层(YOLO LAYER)进行位置、大小和类别的回归；再由非极大值抑制(Non-Maximum Suppression，NMS)算法剔除冗余的先验锚框，只留与真值的重叠比最高的一个作为最后的文本框。

表1先验锚框尺寸优化结果

S3、根据数据集，采用迁移学习，通过损失函数，训练水平文本检测模型。

步骤S3包括以下分步骤：

损失函数为：

Loss＝l_box+l_obj+l_class

为(i，j)处检测结果值，若(i，j)处有文本目标，则

值为0，若(i，j)处没有文本目标，则

为(i，j)处真值边界框位置信息，

为(i，j)处真值边界框中心坐标，

为(i，j)处真值边界框宽，h_i为(i，j)处真值边界框高；

值为1，若(i，j)处有文本目标，则

为0；

λ_box、λ_obj和λ_noobj的和为1。

本实施例中，水平文本检测模型训练用到的软硬件平台如表2所示。

训练时输入图像会先被规范化为统一大小416*416，每次训练输入64张图片，在每次卷积操作后都会进行一次批归一化操作，将每一个batch中的64张图像的输出谱归一化到均值为0，方差为1的分布上。权值的更新使用随机梯度下降的方式。

表2软硬件平台参数

CPU	Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz
		GPU	NVIDIA Corporation GP102[TITANXp]
内存	64GB
		操作系统	CentOS Linux release 7.6.1810Core
CUDA	CUDA Version9.0.176
		深度学习框架	Tensorflow2.3.1

水平文本检测模型训练参数的设置如表3所示。

表3水平文本检测模型训练参数

学习率	0.001
		步长	400000
Momentum	0.9
		学习迭代策略	Steps
权重衰减系数	0.0005

本实施例设置每迭代400000次学习率乘0.1；设定学习100个epoch自动停止训练，如图4(a)所示，此时的Loss已经不会有明显的下降，大概在2～3之间，纵坐标表示Loss值，横坐标表示step。随着Loss的下降，网络在训练集上的精度越来越高，如图4(b)所示；每训练经过一个epoch(即整个数据集训练一次)，算法会在验证集上验证准确率和召回率，防止网络过拟合，网络在验证集上的准确率和召回率的曲线如图4(c)、(d)所示。

S4、基于嵌入式操作系统的软件开发工具包，将训练完成的水平文本检测模型部署在手持终端设备上。

本实施例中，步骤S4将训练完成的水平文本检测模型部署在移动端Android设备上。基于Java语言开发，以App的形式在手机上运行，包括以下分步骤：

S41、搭建Android开发环境：下载JDK8.0(Java Development Kit 8.0)，安装集成开发环境Andriod Studio，安装Android SDK(Android Software Development Kit)。

S42、设计软件平台架构。如图5，软件平台可以分为5个部分，分别为主控模块、模型配置模块、数据读写模块、权重加载模块、UI界面。其中主控模块为app的入口，即onCreate函数，主控模块内实现软件的运行主逻辑，会调用模型配置模块、数据读取模块和权重加载模块，并将结果呈现在UI界面上。模型配置模块负责读取网络参数以及检测类别等、权重加载模块负责加载模型权重，数据读取模块负责读取和保存相册内的照片。

S43、实现主模块逻辑代码。实现主模块逻辑代码，通过继承MainActivity类重写onCreat方法，在这个方法内编写软件运行的主要逻辑代码。程序运行的主要流程如图6。

S44、通过配置activity_yolo.xml来UI界面，如图7所示，本发明在UI界面上配置了三个按钮，分别为extract、analysis和selectImg，点击selectImg来挑选测试图片，点击extract来读取模型参数和权重，点击analysis来运行detect函数，检测测试图片中文本，最后将检测结果展示在原图的下方。

S45、编写UI界面中每个按钮被点击的函数：extractClick、analysisClick、selectimgClick。

S46、添加JNI(Java Native Intereface)，这样就Java可以通过JNI接口调用C/C++的库。我们定义了三个native函数，分别为inityolo、testyolo、detectimg，用于编写模型配置模块、数据读写以及权重加载的代码。软件最终的运行界面如图8所示。

综上，本发明提出的水平文本检测模型是一种轻量和快速的自然场景水平文本检测模型，拥有极快的检测速度，相对于现有技术，针对性和适用性高，检测精度高，且本发明提供的方法步骤可通过程序部署在移动端设备上。

本发明的特征提取子模型采用了特征融合的网络结构，在提取图像深层次特征信息的同时，也保留了图像的细节纹理信息。

本发明设计了基于K均值聚类的文本检测子模型优化方案，提高文本检测的针对性和适用性，使先验锚框的尺寸适用于水平文本检测。

本发明采用迁移学习的训练方法，节省水平文本检测模型的训练时间；损失函数同时考虑了先验锚框位置因素的检测误差、置信度因素的检测误差和检测类别因素的检测误差，使训练结果相对于现有技术更加精确。

在本实施例中，本发明所提出的方法拥有极快的检测速度，在CPU上的运行速度达到了30fps。相较于其他使用卷积神经网络的文本检测模型，本发明通过定制卷积核的尺寸和先验锚框的纵横比达到了对文本检测更高的针对性和适用性。同时，本发明提出的轻量级网络模型对于资源消耗非常少，可以完整地部署在移动端设备上，并且本发明在Android设备上有着高达1.5fps的检测速度，可以满足用户随时随地拍下一张自然场景图片并检测识别其中的文本的需求。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。