CN114332868A - 一种自然场景下的水平文本检测方法 - Google Patents

一种自然场景下的水平文本检测方法 Download PDF

Info

Publication number
CN114332868A
CN114332868A CN202111663029.4A CN202111663029A CN114332868A CN 114332868 A CN114332868 A CN 114332868A CN 202111663029 A CN202111663029 A CN 202111663029A CN 114332868 A CN114332868 A CN 114332868A
Authority
CN
China
Prior art keywords
processing unit
text
detection
output end
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111663029.4A
Other languages
English (en)
Inventor
阎波
高一健
李达
唐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111663029.4A priority Critical patent/CN114332868A/zh
Publication of CN114332868A publication Critical patent/CN114332868A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种自然场景下的水平文本检测方法,涉及计算机视觉目标检测领域,包括:选择包含水平文本的自然场景图片构建数据集;建立由特征提取子模型和文本检测子模型构成的水平文本检测模型,并根据数据集,优化文本检测子模型;采用迁移学习,通过损失函数,训练水平文本检测模型;基于嵌入式操作系统的软件开发工具包,将训练完成的水平文本检测模型部署在手持终端设备上;检测自然场景图片的水平文本。本发明拥有极快的检测速度,相对于现有技术,针对性和适用性高,检测精度高,且本发明提供的方法步骤可通过程序部署在移动端设备上。

Description

一种自然场景下的水平文本检测方法
技术领域
本发明涉及计算机视觉目标检测领域,具体涉及一种自然场景下的水平文本检测方法。
背景技术
近年来,自然场景文本检测与识别技术成为智能信息处理的一个关键环节,其在日常生活的应用无处不在。机器人导航、自动驾驶、自动车牌识别、快递自助取件等技术都离不开文本检测与文本识别。然而,自然场景中文本检测任务一般较为复杂,一个场景中可能存在多种不同样式的文本,例如大小、字体、方向和颜色互不相同等。同时,文本背景纹理也多种多样,例如树木、人物、建筑物等,都会影响文本检测效果。
在场景文本检测领域,传统的光学字符识别(Optical Character Recognition,OCR)技术只能处理一些简单背景下的字符识别任务,且对文本背景、文本格式和拍摄角度等都有较高的要求。近年来,随着计算机算力的提高和深度学习技术的不断发展,出现了很多更精准和鲁棒的基于深度学习的目标检测技术。深度学习中的卷积神经网络对于提取图像中的特征具有优秀的效果,可以提取出图像的深层次特征信息,因此多被用于图像检测与识别领域。对于目标检测技术,当前主流的是基于区域建议和基于图像分割的技术。
YOLO是一种轻量级的目标检测框架,其将目标检测作为端到端的回归问题来求解,一般包含特征提取阶段、特征融合阶段和锚框回归阶段。后来又发展出了YOLOv2、YOLOv3、YOLOv3-tiny等版本,可以准确地识别出场景中的水平或近似水平的文本目标。它们在特征提取阶段采用了Darknet网络结构,并在检测阶段提出对提取到的特征图的每个点生成三个大小不同,中心点相同的先验锚框,然后对锚框的坐标进行回归,得到最终的目标检测框。
然而,类似YOLO的技术大多是通用的目标检测框架,在特征提取阶段的卷积核形状一般为n*n,适用于检测形状多样的目标,而对于细长型的文本行来说效果欠佳,针对性不高,易造成检测召回率低的问题。同时,它们生成的先验锚框通常为了检测不同形状的物体而形状差别较大,在回归生成文本框时精度一般较低,且在训练网络时对资源和时间的消耗更大。并且这些技术的复杂度通常很高,对于运行设备的资源要求和占用较多,不利于技术落地,也不适合在移动端设备上运行。
发明内容
针对现有技术中的上述不足,本发明提供的一种自然场景下的水平文本检测方法解决了现有目标检测方法对文本检测的针对性和适用性不高,检测精度和召回率低;以及现有目标检测方法的程序复杂度高,硬件资源消耗大,检测时间长,不利于的部署在移动端设备上的问题。
为了达到上述发明目的,本发明采用的技术方案为:
一种自然场景下的水平文本检测方法,包括以下步骤:
S1、选择包含水平文本的自然场景图片构建数据集;
S2、建立由特征提取子模型和文本检测子模型构成的水平文本检测模型,并根据数据集,优化文本检测子模型;
S3、根据数据集,采用迁移学习,通过损失函数,训练水平文本检测模型;
S4、基于嵌入式操作系统的软件开发工具包,将训练完成的水平文本检测模型部署在手持终端设备上;
S5、通过步骤S4的手持终端设备,检测自然场景图片的水平文本。
进一步地,所述特征提取子模型包括:第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元和第六处理单元;
所述第一处理单元包括5个卷积模块和4个最大池化层,其输入端作为特征提取子模型的输入端,其输出端分别与第二处理单元的输入端和第五处理单元的第一输入端连接;
所述第二处理单元包括3个卷积模块和2个最大池化层,其输出端分别与第三处理单元的输入端和第四处理单元的输入端连接;
所述第三处理单元包括2个卷积模块,其输出端作为特征提取子模型的第一输出端;
所述第四处理单元包括2个卷积模块和1个上采样层,其输出端与第五处理单元的第二输入端连接;
所述第五处理单元为特征融合层,其输出端与第六处理单元的输入端连接;
所述第六处理单元包括2个卷积模块,其输出端作为特征提取子模型的第二输出端。
进一步地,所述卷积模块均包括:卷积层、批量归一化层和激活函数层;
所述卷积层的输入端作为卷积模块的输入端,其输出端与批量归一化层的输入端连接;
所述批量归一化层的输出端与激活函数层的输入端连接;
所述激活函数层的输出端作为卷积模块的输出端,其激活函数为LeakReLU函数。
进一步地,所述第三处理单元和第六处理单元的所有卷积模块的卷积核尺寸均为3×1。
进一步地,所述文本检测子模型为YOLO LAYER检测层;其输入端与特征提取子模型的第一输出端和第二输出端连接;其包括K个先验锚框。
进一步地,所述步骤S2中根据数据集,优化文本检测子模型的方法包括以下步骤:
A1、提取数据集中每张图片的文本区域尺寸大小分别作为各个样本;
A2、任选择K个样本作为初始的K个聚类中心{a1,a2,…,aK};
A3、计算每个样本分别到K个聚类中心的欧式距离,并将每个样本分别纳入与其欧氏距离最小的聚类中心的类别;
A4、通过下式更新每个类别的聚类中心:
Figure BDA0003447759430000041
其中,ak为第k个类别的聚类中心,sk为第k个类别,x为归属于第k个类别的样本,k为闭区间[1,K]内的正整数;
A5、判断更新后每个类别的聚类中心是否改变,若是,则跳转至步骤A3,若否,则跳转至步骤A6;
A6、将K个聚类中心的数值作为K个先验锚框的尺寸。
进一步地,所述步骤S3包括以下分步骤:
S31、将COCO数据集上预训练的YOLOv3-tiny模型参数迁移至水平文本检测模型;
S32、根据数据集,通过损失函数,采用随机梯度下降方式训练水平文本检测模型。
进一步地,所述损失函数为:
Loss=lbox+lobj+lclass
其中,Loss为损失函数,lbox为先验锚框位置因素的检测误差,lobj为置信度因素的检测误差,lclass为检测类别因素的检测误差;
Figure BDA0003447759430000051
其中,λbox为先验锚框位置因素比重,S2为输入文本检测子模型的特征图大小,B为先验锚框大小,i为特征图单元坐标索引号,j为先验锚框单元坐标索引号,
Figure BDA0003447759430000052
为(i,j)处检测结果值,若(i,j)处有文本目标,则
Figure BDA0003447759430000053
值为0,若(i,j)处没有文本目标,则
Figure BDA0003447759430000054
值为1,(xi,yi,wi,hi)为(i,j)处预测得出的边界框位置信息,(xi,yi)为(i,j)处预测得出的边界框中心坐标,wi为(i,j)处预测得出的边界框的宽,hi和为(i,j)处预测得出的边界框的高,
Figure BDA0003447759430000055
为(i,j)处真值边界框位置信息,
Figure BDA0003447759430000056
为(i,j)处真值边界框中心坐标,
Figure BDA0003447759430000057
为(i,j)处真值边界框宽,hi为(i,j)处真值边界框高;
Figure BDA0003447759430000058
其中,λnoobj为预测得出的边界框中不存在对象的置信度权重,λobj为预测得出的边界框中存在对象的置信度权重,
Figure BDA0003447759430000059
为(i,j)处不存在文本目标的状态值,若(i,j)处没有文本目标,则
Figure BDA00034477594300000510
值为1,若(i,j)处有文本目标,则
Figure BDA00034477594300000511
值为0,ci为特征图第i单元坐标处预测得出的边界框负责预测目标的置信度,
Figure BDA00034477594300000512
为真实情况下特征图第i单元坐标处预测得出的边界框是否应该负责预测目标的状态值,若真实情况下特征图第i单元坐标处预测得出的边界框应该负责预测目标,则
Figure BDA00034477594300000513
为1,若真实情况下特征图第i单元坐标处预测得出的边界框不应该负责预测目标,则
Figure BDA00034477594300000514
为0;
Figure BDA00034477594300000515
其中,λclass为检测类别因素比重,c为类别标记,classes为水平文本检测所有可能的类别,pi(c)为特征图第i单元坐标处为c类的预测概率,
Figure BDA0003447759430000061
为特征图第i单元坐标处为c类的真实概率,log(·)为对数函数;
λbox、λobj和λnoobj的和为1。
本发明的有益效果为:
1)本发明提出的水平文本检测模型是一种轻量和快速的自然场景水平文本检测模型,拥有极快的检测速度,相对于现有技术,针对性和适用性高,检测精度高,且本发明提供的方法步骤可通过程序部署在移动端设备上。
2)特征提取子模型采用了特征融合的网络结构,在提取图像深层次特征信息的同时,也保留了图像的细节纹理信息。
3)设计了基于K均值聚类的文本检测子模型优化方案,提高文本检测的针对性和适用性,使先验锚框的尺寸适用于水平文本检测。
4)采用迁移学习的训练方法,节省水平文本检测模型的训练时间;损失函数同时考虑了先验锚框位置因素的检测误差、置信度因素的检测误差和检测类别因素的检测误差,使训练结果相对于现有技术更加精确。
附图说明
图1为本发明实施例提供的一种自然场景下的水平文本检测方法的流程图;
图2为本发明实施例的数据集示例;
图3为本发明实施例的特征提取子模型结构及特征图处理过程示意图;
图4为本发明实施例的水平文本检测模型的训练过程参数曲线;
图5为本发明实施例在手持终端上部署训练完成的水平文本检测模型的软件架构图;
图6为本发明实施例在手持终端上部署训练完成的水平文本检测模型的程序流程图;
图7为本发明实施例在手持终端上部署训练完成的水平文本检测模型的软件UI界面图;
图8为本发明实施例在手持终端上部署训练完成的水平文本检测模型的软件运行界面图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种自然场景下的水平文本检测方法,包括以下步骤:
一种自然场景下的水平文本检测方法,包括以下步骤:
S1、选择包含水平文本的自然场景图片构建数据集。
本实施例中,挑选一些包含水平英文文本的清晰自然场景图片作为本发明的数据集,真值标注以单词为基本单位。
S11、加入ICDAR2013数据集,共包含462张只包含英文和数字的图片。
S12、从SVT数据集中选出一些像素较高的图像进行重新标注,用于网络训练。
S13、从ICDAR比赛2019年发布的多语种场景文本检测和识别的鲁棒性阅读挑战数据集MLT中挑选只包含英文且文本方向近似水平的图像进行重新标注,与S11、S12得到的数据集共同构成本发明的数据集。图2展示了本实施例数据集的示例。
S2、建立由特征提取子模型和文本检测子模型构成的水平文本检测模型,并根据数据集,优化文本检测子模型。
其中,特征提取子模型包括:第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元和第六处理单元;第一处理单元包括5个卷积模块和4个最大池化层,其输入端作为特征提取子模型的输入端,其输出端分别与第二处理单元的输入端和第五处理单元的第一输入端连接;第二处理单元包括3个卷积模块和2个最大池化层,其输出端分别与第三处理单元的输入端和第四处理单元的输入端连接;第三处理单元包括2个卷积模块,其输出端作为特征提取子模型的第一输出端;第四处理单元包括2个卷积模块和1个上采样层,其输出端与第五处理单元的第二输入端连接;第五处理单元为特征融合层,其输出端与第六处理单元的输入端连接;第六处理单元包括2个卷积模块,其输出端作为特征提取子模型的第二输出端。
卷积模块均采用了YOLOv3-tiny的DBL(conv+BanchNormalization+Leaky Rule)单元方案,包括:卷积层、批量归一化层和激活函数层;卷积层的输入端作为卷积模块的输入端,其输出端与批量归一化层的输入端连接;批量归一化层的输出端与激活函数层的输入端连接;激活函数层的输出端作为卷积模块的输出端,其激活函数为LeakReLU函数。
本实施例特征提取子模型结构以及关键尺寸如图3所示,其中,Conv为卷积模块,Pool为最大池化层,Unsample为上采样层,Concat为特征融合层,将第一输入端和第二输入端的两个特征图按通道拼接在一起,即将图3中特征提取子模型上下两个支路提取到的特征进行融合。本实施例在最后进行两次卷积后,得到了两个不同的特征图,尺寸分别为13×13×18和26×26×18。前者生成的先验锚框的感受野更大,适合用来检测大尺度文本,而后者生成的先验锚框感受野较小,适合用来检测小尺度文本。这样就可以对不同尺寸的文本进行检测。
在本实施例中,考虑到自然场景中的文本一般呈现细长型的特点,提出将特征提取网络中的两个支路中的最后两个卷积层的卷积核大小设计为3×1,从而更好地提取图像中水平方向的语义特征。同时,为了维持输出的特征图的大小不变,本实施例对特征图预处理时,在水平和垂直方向的padding操作不再是均匀填充1,而是改成了左右两边各填充1,上下方向不填充。这样保证了卷积和池化后得到的特征图与检测层的输入大小相同,不影响之后的操作。
文本检测子模型为YOLO LAYER检测层,其输入端与特征提取子模型的第一输出端和第二输出端连接;包括K个先验锚框。
步骤S2中根据数据集,优化文本检测子模型的方法包括以下步骤:
A1、提取数据集中每张图片的文本区域尺寸大小分别作为各个样本。
A2、任选择K个样本作为初始的K个聚类中心{a1,a2,…,aK}。
A3、计算每个样本分别到K个聚类中心的欧式距离,并将每个样本分别纳入与其欧氏距离最小的聚类中心的类别。
A4、通过下式更新每个类别的聚类中心:
Figure BDA0003447759430000091
其中,ak为第k个类别的聚类中心,sk为第k个类别,x为归属于第k个类别的样本,k为闭区间[1,K]内的正整数。
A5、判断更新后每个类别的聚类中心是否改变,若是,则跳转至步骤A3,若否,则跳转至步骤A6。
A6、将K个聚类中心的数值作为K个先验锚框的尺寸。
本实施例3个先验锚框的优化结果如表1所示。
文本检测子模型在使用的过程中,遵循YOLO LAYER检测层的原理过程,首先,先验锚框在检测层(YOLO LAYER)进行位置、大小和类别的回归;再由非极大值抑制(Non-Maximum Suppression,NMS)算法剔除冗余的先验锚框,只留与真值的重叠比最高的一个作为最后的文本框。
表1先验锚框尺寸优化结果
Figure BDA0003447759430000101
S3、根据数据集,采用迁移学习,通过损失函数,训练水平文本检测模型。
步骤S3包括以下分步骤:
S31、将COCO数据集上预训练的YOLOv3-tiny模型参数迁移至水平文本检测模型;
S32、根据数据集,通过损失函数,采用随机梯度下降方式训练水平文本检测模型。
损失函数为:
Loss=lbox+lobj+lclass
其中,Loss为损失函数,lbox为先验锚框位置因素的检测误差,lobj为置信度因素的检测误差,lclass为检测类别因素的检测误差;
Figure BDA0003447759430000102
其中,λbox为先验锚框位置因素比重,S2为输入文本检测子模型的特征图大小,B为先验锚框大小,i为特征图单元坐标索引号,j为先验锚框单元坐标索引号,
Figure BDA0003447759430000111
为(i,j)处检测结果值,若(i,j)处有文本目标,则
Figure BDA0003447759430000112
值为0,若(i,j)处没有文本目标,则
Figure BDA0003447759430000113
值为1,(xi,yi,wi,hi)为(i,j)处预测得出的边界框位置信息,(xi,yi)为(i,j)处预测得出的边界框中心坐标,wi为(i,j)处预测得出的边界框的宽,hi和为(i,j)处预测得出的边界框的高,
Figure BDA0003447759430000114
为(i,j)处真值边界框位置信息,
Figure BDA0003447759430000115
为(i,j)处真值边界框中心坐标,
Figure BDA0003447759430000116
为(i,j)处真值边界框宽,hi为(i,j)处真值边界框高;
Figure BDA0003447759430000117
其中,λnoobj为预测得出的边界框中不存在对象的置信度权重,λobj为预测得出的边界框中存在对象的置信度权重,
Figure BDA0003447759430000118
为(i,j)处不存在文本目标的状态值,若(i,j)处没有文本目标,则
Figure BDA0003447759430000119
值为1,若(i,j)处有文本目标,则
Figure BDA00034477594300001110
值为0,ci为特征图第i单元坐标处预测得出的边界框负责预测目标的置信度,
Figure BDA00034477594300001111
为真实情况下特征图第i单元坐标处预测得出的边界框是否应该负责预测目标的状态值,若真实情况下特征图第i单元坐标处预测得出的边界框应该负责预测目标,则
Figure BDA00034477594300001112
为1,若真实情况下特征图第i单元坐标处预测得出的边界框不应该负责预测目标,则
Figure BDA00034477594300001113
为0;
Figure BDA00034477594300001114
其中,λclass为检测类别因素比重,c为类别标记,classes为水平文本检测所有可能的类别,pi(c)为特征图第i单元坐标处为c类的预测概率,
Figure BDA00034477594300001115
为特征图第i单元坐标处为c类的真实概率,log(·)为对数函数;
λbox、λobj和λnoobj的和为1。
本实施例中,水平文本检测模型训练用到的软硬件平台如表2所示。
训练时输入图像会先被规范化为统一大小416*416,每次训练输入64张图片,在每次卷积操作后都会进行一次批归一化操作,将每一个batch中的64张图像的输出谱归一化到均值为0,方差为1的分布上。权值的更新使用随机梯度下降的方式。
表2软硬件平台参数
CPU Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz
GPU NVIDIA Corporation GP102[TITANXp]
内存 64GB
操作系统 CentOS Linux release 7.6.1810Core
CUDA CUDA Version9.0.176
深度学习框架 Tensorflow2.3.1
水平文本检测模型训练参数的设置如表3所示。
表3水平文本检测模型训练参数
学习率 0.001
步长 400000
Momentum 0.9
学习迭代策略 Steps
权重衰减系数 0.0005
本实施例设置每迭代400000次学习率乘0.1;设定学习100个epoch自动停止训练,如图4(a)所示,此时的Loss已经不会有明显的下降,大概在2~3之间,纵坐标表示Loss值,横坐标表示step。随着Loss的下降,网络在训练集上的精度越来越高,如图4(b)所示;每训练经过一个epoch(即整个数据集训练一次),算法会在验证集上验证准确率和召回率,防止网络过拟合,网络在验证集上的准确率和召回率的曲线如图4(c)、(d)所示。
S4、基于嵌入式操作系统的软件开发工具包,将训练完成的水平文本检测模型部署在手持终端设备上。
本实施例中,步骤S4将训练完成的水平文本检测模型部署在移动端Android设备上。基于Java语言开发,以App的形式在手机上运行,包括以下分步骤:
S41、搭建Android开发环境:下载JDK8.0(Java Development Kit 8.0),安装集成开发环境Andriod Studio,安装Android SDK(Android Software Development Kit)。
S42、设计软件平台架构。如图5,软件平台可以分为5个部分,分别为主控模块、模型配置模块、数据读写模块、权重加载模块、UI界面。其中主控模块为app的入口,即onCreate函数,主控模块内实现软件的运行主逻辑,会调用模型配置模块、数据读取模块和权重加载模块,并将结果呈现在UI界面上。模型配置模块负责读取网络参数以及检测类别等、权重加载模块负责加载模型权重,数据读取模块负责读取和保存相册内的照片。
S43、实现主模块逻辑代码。实现主模块逻辑代码,通过继承MainActivity类重写onCreat方法,在这个方法内编写软件运行的主要逻辑代码。程序运行的主要流程如图6。
S44、通过配置activity_yolo.xml来UI界面,如图7所示,本发明在UI界面上配置了三个按钮,分别为extract、analysis和selectImg,点击selectImg来挑选测试图片,点击extract来读取模型参数和权重,点击analysis来运行detect函数,检测测试图片中文本,最后将检测结果展示在原图的下方。
S45、编写UI界面中每个按钮被点击的函数:extractClick、analysisClick、selectimgClick。
S46、添加JNI(Java Native Intereface),这样就Java可以通过JNI接口调用C/C++的库。我们定义了三个native函数,分别为inityolo、testyolo、detectimg,用于编写模型配置模块、数据读写以及权重加载的代码。软件最终的运行界面如图8所示。
S5、通过步骤S4的手持终端设备,检测自然场景图片的水平文本。
综上,本发明提出的水平文本检测模型是一种轻量和快速的自然场景水平文本检测模型,拥有极快的检测速度,相对于现有技术,针对性和适用性高,检测精度高,且本发明提供的方法步骤可通过程序部署在移动端设备上。
本发明的特征提取子模型采用了特征融合的网络结构,在提取图像深层次特征信息的同时,也保留了图像的细节纹理信息。
本发明设计了基于K均值聚类的文本检测子模型优化方案,提高文本检测的针对性和适用性,使先验锚框的尺寸适用于水平文本检测。
本发明采用迁移学习的训练方法,节省水平文本检测模型的训练时间;损失函数同时考虑了先验锚框位置因素的检测误差、置信度因素的检测误差和检测类别因素的检测误差,使训练结果相对于现有技术更加精确。
在本实施例中,本发明所提出的方法拥有极快的检测速度,在CPU上的运行速度达到了30fps。相较于其他使用卷积神经网络的文本检测模型,本发明通过定制卷积核的尺寸和先验锚框的纵横比达到了对文本检测更高的针对性和适用性。同时,本发明提出的轻量级网络模型对于资源消耗非常少,可以完整地部署在移动端设备上,并且本发明在Android设备上有着高达1.5fps的检测速度,可以满足用户随时随地拍下一张自然场景图片并检测识别其中的文本的需求。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种自然场景下的水平文本检测方法,其特征在于,包括以下步骤:
S1、选择包含水平文本的自然场景图片构建数据集;
S2、建立由特征提取子模型和文本检测子模型构成的水平文本检测模型,并根据数据集,优化文本检测子模型;
S3、根据数据集,采用迁移学习,通过损失函数,训练水平文本检测模型;
S4、基于嵌入式操作系统的软件开发工具包,将训练完成的水平文本检测模型部署在手持终端设备上;
S5、通过步骤S4的手持终端设备,检测自然场景图片的水平文本。
2.根据权利要求1所述的自然场景下的水平文本检测方法,其特征在于,所述特征提取子模型包括:第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元和第六处理单元;
所述第一处理单元包括5个卷积模块和4个最大池化层,其输入端作为特征提取子模型的输入端,其输出端分别与第二处理单元的输入端和第五处理单元的第一输入端连接;
所述第二处理单元包括3个卷积模块和2个最大池化层,其输出端分别与第三处理单元的输入端和第四处理单元的输入端连接;
所述第三处理单元包括2个卷积模块,其输出端作为特征提取子模型的第一输出端;
所述第四处理单元包括2个卷积模块和1个上采样层,其输出端与第五处理单元的第二输入端连接;
所述第五处理单元为特征融合层,其输出端与第六处理单元的输入端连接;
所述第六处理单元包括2个卷积模块,其输出端作为特征提取子模型的第二输出端。
3.根据权利要求2所述的自然场景下的水平文本检测方法,其特征在于,所述卷积模块均包括:卷积层、批量归一化层和激活函数层;
所述卷积层的输入端作为卷积模块的输入端,其输出端与批量归一化层的输入端连接;
所述批量归一化层的输出端与激活函数层的输入端连接;
所述激活函数层的输出端作为卷积模块的输出端,其激活函数为LeakReLU函数。
4.根据权利要求3所述的自然场景下的水平文本检测方法,其特征在于,所述第三处理单元和第六处理单元的所有卷积模块的卷积核尺寸均为3×1。
5.根据权利要求4所述的自然场景下的水平文本检测方法,其特征在于,所述文本检测子模型为YOLO LAYER检测层;其输入端与特征提取子模型的第一输出端和第二输出端连接;其包括K个先验锚框。
6.根据权利要求5所述的自然场景下的水平文本检测方法,其特征在于,所述步骤S2中根据数据集,优化文本检测子模型的方法包括以下步骤:
A1、提取数据集中每张图片的文本区域尺寸大小分别作为各个样本;
A2、任选择K个样本作为初始的K个聚类中心{a1,a2,…,aK};
A3、计算每个样本分别到K个聚类中心的欧式距离,并将每个样本分别纳入与其欧氏距离最小的聚类中心的类别;
A4、通过下式更新每个类别的聚类中心:
Figure FDA0003447759420000021
其中,ak为第k个类别的聚类中心,sk为第k个类别,x为归属于第k个类别的样本,k为闭区间[1,K]内的正整数;
A5、判断更新后每个类别的聚类中心是否改变,若是,则跳转至步骤A3,若否,则跳转至步骤A6;
A6、将K个聚类中心的数值作为K个先验锚框的尺寸。
7.根据权利要求6所述的自然场景下的水平文本检测方法,其特征在于,所述步骤S3包括以下分步骤:
S31、将COCO数据集上预训练的YOLOv3-tiny模型参数迁移至水平文本检测模型;
S32、根据数据集,通过损失函数,采用随机梯度下降方式训练水平文本检测模型。
8.根据权利要求7所述的自然场景下的水平文本检测方法,其特征在于,所述损失函数为:
Loss=lbox+lobj+lclass
其中,Loss为损失函数,lbox为先验锚框位置因素的检测误差,lobj为置信度因素的检测误差,lclass为检测类别因素的检测误差;
Figure FDA0003447759420000031
其中,λbox为先验锚框位置因素比重,S2为输入文本检测子模型的特征图大小,B为先验锚框大小,i为特征图单元坐标索引号,j为先验锚框单元坐标索引号,
Figure FDA0003447759420000032
为(i,j)处检测结果值,若(i,j)处有文本目标,则
Figure FDA0003447759420000033
值为0,若(i,j)处没有文本目标,则
Figure FDA0003447759420000034
值为1,(xi,yi,wi,hi)为(i,j)处预测得出的边界框位置信息,(xi,yi)为(i,j)处预测得出的边界框中心坐标,wi为(i,j)处预测得出的边界框的宽,hi和为(i,j)处预测得出的边界框的高,
Figure FDA0003447759420000035
为(i,j)处真值边界框位置信息,
Figure FDA0003447759420000036
为(i,j)处真值边界框中心坐标,
Figure FDA0003447759420000037
为(i,j)处真值边界框宽,hi为(i,j)处真值边界框高;
Figure FDA0003447759420000041
其中,λnoobj为预测得出的边界框中不存在对象的置信度权重,λobj为预测得出的边界框中存在对象的置信度权重,
Figure FDA0003447759420000042
为(i,j)处不存在文本目标的状态值,若(i,j)处没有文本目标,则
Figure FDA0003447759420000043
值为1,若(i,j)处有文本目标,则
Figure FDA0003447759420000044
值为0,ci为特征图第i单元坐标处预测得出的边界框负责预测目标的置信度,
Figure FDA0003447759420000045
为真实情况下特征图第i单元坐标处预测得出的边界框是否应该负责预测目标的状态值,若真实情况下特征图第i单元坐标处预测得出的边界框应该负责预测目标,则
Figure FDA0003447759420000046
为1,若真实情况下特征图第i单元坐标处预测得出的边界框不应该负责预测目标,则
Figure FDA0003447759420000047
为0;
Figure FDA0003447759420000048
其中,λclass为检测类别因素比重,c为类别标记,classes为水平文本检测所有可能的类别,pi(c)为特征图第i单元坐标处为c类的预测概率,
Figure FDA0003447759420000049
为特征图第i单元坐标处为c类的真实概率,log(·)为对数函数;
λbox、λobj和λnoobj的和为1。
CN202111663029.4A 2021-12-30 2021-12-30 一种自然场景下的水平文本检测方法 Pending CN114332868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111663029.4A CN114332868A (zh) 2021-12-30 2021-12-30 一种自然场景下的水平文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111663029.4A CN114332868A (zh) 2021-12-30 2021-12-30 一种自然场景下的水平文本检测方法

Publications (1)

Publication Number Publication Date
CN114332868A true CN114332868A (zh) 2022-04-12

Family

ID=81019985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111663029.4A Pending CN114332868A (zh) 2021-12-30 2021-12-30 一种自然场景下的水平文本检测方法

Country Status (1)

Country Link
CN (1) CN114332868A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111985474A (zh) * 2020-08-25 2020-11-24 浙江工业大学 一种金属表面弯曲文本定位及文本线拟合方法
CN113657390A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 文本检测模型的训练方法和检测文本方法、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111985474A (zh) * 2020-08-25 2020-11-24 浙江工业大学 一种金属表面弯曲文本定位及文本线拟合方法
CN113657390A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 文本检测模型的训练方法和检测文本方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林晓: "自然场景下的文本检测算法研究" *

Similar Documents

Publication Publication Date Title
Liao et al. Guidance and evaluation: Semantic-aware image inpainting for mixed scenes
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
US20200372648A1 (en) Image processing method and device, computer apparatus, and storage medium
AU2020319589B2 (en) Region proposal networks for automated bounding box detection and text segmentation
WO2021129181A1 (en) Portrait segmentation method, model training method and electronic device
US11676283B2 (en) Iteratively refining segmentation masks
US20220292684A1 (en) Generating refined segmentations masks via meticulous object segmentation
US11366968B2 (en) Region proposal networks for automated bounding box detection and text segmentation
CN111369430B (zh) 基于移动深度学习引擎的移动端人像智能背景替换方法
CN112529020A (zh) 基于神经网络的动物识别方法、系统、设备及存储介质
CN114596566B (zh) 文本识别方法及相关装置
CN111062964A (zh) 图像分割方法及相关装置
Zhu et al. Automatic detection of books based on Faster R-CNN
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
CN113989616A (zh) 一种目标检测方法、装置、设备和存储介质
CN113887325A (zh) 一种模型训练方法、表情识别方法以及装置
WO2022127333A1 (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN113177118A (zh) 文本分类模型、文本分类的方法以及装置
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN112801911A (zh) 一种去除自然图像中文字类噪声的方法及装置、存储介质
CN114332868A (zh) 一种自然场景下的水平文本检测方法
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN116129158A (zh) 一种输电线路铁塔小部件图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination