CN113516114B

CN113516114B - 一种自然场景文本检测方法、设备和介质

Info

Publication number: CN113516114B
Application number: CN202110546736.9A
Authority: CN
Inventors: 孟月波; 石德旺; 金丹; 刘光辉; 徐胜军
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2023-09-29
Anticipated expiration: 2041-05-19
Also published as: CN113516114A

Abstract

本发明公开一种高效精确的自然场景文本检测方法、设备和介质，包括构建自然场景文本检测训练数据集；基于VGG16前13层构成的U‑Net结构构造自然场景文本检测网络，得到文本预测特征图F；构造损失函数，计算预测特征图F的损失得到自然场景文本检测模型，其中损失函数包括文本区域损失函数，本发明通过真阳性文本和不同权重的假阳性文本、假阴性文本构建文本区域损失函数，利用文本区域损失函数平衡训练过程中的不同类型文本分布描述，强化自然场景中背景与文本的差异性，极大增强了自然场景文本检测网络对文本区域的感知能力，加快自然场景文本检测网络收敛，提升自然场景图像中的文本检测性能。

Description

一种自然场景文本检测方法、设备和介质

技术领域

本发明涉及自然场景文本检测方法技术领域，具体涉及一种自然场景文本检测方法、设备和介质。

背景技术

随着社会经济的高速发展与科技的不断进步，精神生活日益丰富的同时人们的工作节奏日益加快，高速运转的工作节奏使得人们每天需要处理大量的文本信息，消耗了大量精力。而高效的场景文本检测算法可通过图像解析、信息检索等手段提取文字信息，缓解人们在工作中处理文字信息的压力，来解放劳动力。

笔划宽度变换（Stroke Width Transform，SWT）算法利用Canny算子提取文字边缘，在垂直于边缘的方向探索像素，寻找另一条与之平行的边缘构成笔划横截面，通过连接多个横截面构成完整笔划，但因背景像素与文本像素的相似性使其在自然场景下效果不佳；CTPN借助Faster-RCNN架构上提出宽度固定的水平锚框，将VGG16串联LSTM的联合模型预测文本，水平锚框的设计有效解决了自然场景下水平文本的检测问题，但由于其锚框结构固定难以处理多方向文本；FCNNet利用全卷积网络(Fully Convolutional Network，FCN)从像素层面区分文本,采用FCN提取文本块，通过MSER从文本块中检测候选字符，实现多方向文本的检测，而繁琐的步骤使其检测过程往往比较耗时；EAST针对文本检测的复杂过程，采用U-Net架构的FCN与非最大抑制算法，通过预测像素到所属文本边界距离的方式实现文本检测，其框架简洁，具备较高的检测精度且可直接预测像素点到文本边框距离，具有极快的推理速度。

然而，EAST在ICDAR2015数据集及实际使用时，发现其会存在一定的文本漏检现象，通过对实验结果对比及网络参数分析，发现网络对不同类型的文本样本采用统一权重进行训练，导致不同类型文本的特征学习不充分，文本区域感知能力不足，使网络收敛速度慢，耗时长，部署落地较为困难。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种自然场景文本检测方法、设备和介质，利用文本区域损失函数实现自然场景文本检测网络对不同类型文本区域特征的充分学习，以充分描述自然场景文本区域，加快自然场景文本检测网络收敛，易于网络部署。

为实现上述目的，本发明提供如下技术方案：一种自然场景文本检测方法，具体包括以下步骤；

S1 采集自然场景文本图像，标注所述自然场景文本图像中的文本区域，构建自然场景文本数据集，所述自然场景文本数据集包括检测训练数据集和测试数据集/>，对训练数据集/>进行预处理得到预处理训练数据集/>；

S2 构建自然场景文本检测网络，所述自然场景文本检测网络包括编码阶段和解码阶段；

S3将预处理训练数据集输入自然场景文本检测网络，使用损失函数计算损失值以训练自然场景文本检测网络得到自然场景文本检测模型；

其中所述损失函数包括文本区域损失函数，所述文本区域损失函数由真阳性文本和不同权重的假阳性文本、假阴性文本构建得到，所述文本区域损失函数为：

其中，Y为真值标注区域，Y^*为文本预测区域，、/>及/>分别指假阳性文本、假阴性文本及真阳性文本，其中ɑ和β分别为控制假阳性文本和假阴性文本比重的参数；

S4将待检测自然场景文本图像输入自然场景文本检测模型，得到预测文本框，对预测文本框进行筛选，剔除冗余预测文本区域，实现自然场景文本检测。

进一步的，步骤S3中，所述文本区域损失函数中，假阳性文本的比重参数ɑ为0.7，假阴性文本的比重参数β为0.3。

进一步的，步骤S1中，对采集的自然场景文本图像进行重命名，采用LabelImg标注软件标注以单张逐行的方式对自然场景文本图像中的文本区域进行标注，标注的形状为当前文本的最小四边形，标注后的文件类型为以图像名命名的txt文档，记录对应文本区域的坐标，得到自然场景文本数据集。

进一步的，步骤S1中，所述预处理为：将检测训练数据集中每张图像按照标注文档中记录的文字坐标生成对应掩码，将图像及对应生成的掩码进行旋转、缩放、裁剪和归一化得到预处理训练数据集/>。

进一步的，步骤S2中，所述编码阶段为：以VGG16内部最大层化层为分界层，提取预处理训练数据集中每张图片不同分辨率的特征图构成特征图组，每个特征图组中特征图的尺寸依次减半，维度依次加倍。

进一步的，步骤S2中，所述解码阶段为：将不同分辨率的特征图按照分辨率由高到底依次进行反池化、与上一阶段特征相加、降维及纹理特征消除对不同分辨率的特征图进行融合，得到文本预测特征图F。

进一步的，步骤S3中，所述损失函数还包括文本位置损失函数和文本角度损失函数，所述文本位置损失函数为真值标注区域Y最小外接矩形与文本预测区域Y^*最小外接矩形的交并比；所述文本角度损失函数为，其中θ表示真值标注区域Y和水平轴的夹角，θ^*表示文本预测区域Y^*和水平轴夹角。

进一步的，步骤S3中，采用Adam优化算法对自然场景文本检测网络进行优化，得到自然场景文本检测模型。

本发明还提供一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的一种自然场景文本检测方法。

本发明还提供一种计算机可读存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行上述的一种自然场景文本检测方法。

与现有技术相比，本发明至少具有以下有益效果：

本发明公开一种自然场景文本检测方法，该方法利用基于VGG16前13层构成的U-Net结构构建自然场景文本检测网络，利用自然场景文本检测网络的编码和解码阶段生成文本预测特征图F；同时利用真阳性文本和不同权重的假阳性文本、假阴性文本构建文本区域损失函数，通过文本区域损失函数平衡训练过程中的不同类型文本分布描述，强化自然场景中背景与文本的差异性，极大增强了自然场景文本检测网络对文本区域的感知能力，加快自然场景文本检测网络收敛，提升自然场景图像中的文本检测性能，为自然场景文本检测算法在工业当中的实际部署落地提供有益尝试。

附图说明

图1为本发明自然场景文本检测模型匹配的流程图；

图2为EAST在ICDAR2015的结果展示，其中图（a）、（b）和（c）为不同自然场景下EAST的文本检测结果；

图3为自然场景文本检测模型在ICDAR2015的结果展示，其中图（a）、（b）和（c）为不同自然场景下自然场景文本检测模型的文本检测结果；

图4为本发明的自然场景文本检测模型与EAST的损失曲线。

具体实施方式

本发明提供一种自然场景文本检测方法，其流程图如图1所示：

1.构建自然场景文本检测训练数据集及测试数据集/>，并对训练集/>图像进行预处理。具体步骤包括：

采集自然场景文本图像，并对其图像名进行重命名排序，利用LabelImg标注软件标注自然场景文本图像内部文本区域，记录相应文本行位置坐标，其标注形状为当前文本行最小四边形，生成以图像名命名的txt文档，循环上述步骤得到自然场景文本数据集，并将自然场景文本数据集按照2：1比例划分为检测训练数据集和测试数据集/>，并对检测训练数据集/>的图像进行预处理得到预处理训练数据集/>。

预处理阶段，首先，将检测训练数据集中每张图像基于标注文档所记录的坐标，生成对应图像的掩码；然后，将图像及对应掩码进行随机缩放、旋转后裁剪成固定尺寸，并执行归一化操作。

2.构造自然场景文本检测网络。具体步骤包括：

自然场景文本检测网络的基础骨架为VGG16前13层构成的U-Net结构，包括编码阶段和解码阶段，其中编码阶段以VGG16内部最大层化层为分界，提取预处理训练数据集中同张图像不同分辨率的特征图，构成特征图组；解码阶段将每组特征图组根据分辨率由高到低的次序依次进行融合，完成整体自然场景文本检测网络的构建。

3.编解码阶段的执行，具体步骤包括：

将预处理训练数据集中的图像送入VGG16首先执行编码过程，生成一组不同分辨率的特征图，将特征图标记为{M₁，M₂，M₃，M₄}，该组特征图尺寸依次为输入图像尺寸的1/4，1/8，1/16，1/32，维度依次为64维，128维，256维，512维。

解码过程，将该特征图组按照分辨率从高到低的顺序进行融合，首先，将高维特征图进行上采样恢复至其上一层特征图大小；其次，将其与上一层特征图进行叠加；然后，对叠加后的特征图执行卷积降维；最后，通过/>卷积消除纹理特征，得到融合后的特征图，将融合后的特征图输出作为高维特征图，对高维特征图与其对应上一层特征图依次执行上述步骤进行进一步融合，直至融合到最低维度特征图，生成一个语义表征丰富的32维文本预测特征图F，作为文本预测。

4.损失函数的构建。具体步骤包括：

首先，构造文本区域损失函数，假定文本的真值标注区域为Y，文本预测区域为Y^*，文本区域损失函数为：

其中，、/>及/>分别指假阳性文本、假阴性文本及真阳性文本，其中ɑ和β分别为控制假阳性文本和假阴性文本比重的参数，ɑ和β的具体取值通过实验获得，此处设置为0.7和0.3；其中真值标注区域Y为预处理训练数据集/>进行人工标注得到的正确的文本区域。

其中，假阳性文本指非文本区域被预测成了文本区域；假阴性文本指文本区域被预测成了非文本区域；真阳性文本指文本区域被预测成了文本区域；上述三种文本是检测任务中存在的三种不同文本检测结果，且任意区域的文本检测结果一定会被划分为这三种文本。

在自然场景文本检测网络训练过程中，假阳性文本、假阴性文本及真阳性文本这三种文本区域对网络学习重要程度不同，本发明充分考虑这一点，通过构造文本区域损失函数平衡训练过程中的三种类型文本分布描述，强化自然场景文本检测网络对于不同类型文本区域差异的感知，实现自然场景文本检测网络对不同类型文本区域特征的学习能力，提高网络收敛速度，提升网络检测性能；

其次，构造文本位置损失函数，该损失用以描述文本预测结果、真值标注结果中文本像素点到文本框四条边距离的差异程度，采用真值标注区域Y最小外接矩形与预测特征图F中文本预测区域Y^*最小外接矩形的交并比表示；其中真值标注区域Y为预处理训练数据集进行人工标注得到的正确的文本区域。

最后，构造文本角度损失函数，该损失反映的是文本预测结果中文本框与水平轴夹角与真值标注结果中文本框与水平轴夹角的差异程度，假定文本框与水平轴之间的真实夹角为θ，预测文本框与水平轴之间的夹角为θ^*，文本角度损失函数为：

。

5.损失计算，具体步骤包括：

将预处理训练数据集送入自然场景文本检测网络得到文本预测特征图F，分别采用上述三种损失函数计算文本预测特征图F的文本区域损失、文本位置损失和本角度损失函数，得到文本预测特征图F的总损失，并采用Adam优化算法训练自然场景文本检测网络，得到自然场景文本检测模型，使用测试数据集/>对训练好的文本检测网络进行验证。

6.文本预测，具体步骤包括：

将处理后的待检测自然场景文本图像输入自然场景文本检测模型，实现待检测自然场景文本图像中文本区域的定位，根据文本区域内部像素点到文本框四条边距离生成文本框，采用NMS后处理对预测文本框进行筛选，剔除冗余预测文本区域，实现自然场景文本检测。

本发明的工作原理：

第一步，采集自然场景文本图像数据，构建自然场景文本检测训练数据集，用于训练本方法所设计的网络；

第二步，构造自然场景文本检测网络，其基础骨架为VGG16前13层构成的U-Net结构，编码阶段提取不同分辨率特征，解码阶段将其进行特征融合。

第三步，编解码阶段的执行，输入图像在编码阶段提取一组1/4、1/8、1/16及1/32分辨率下的图像，解码阶段，由高到低依次对其进行融合，生成一个语义丰富的文本预测特征图F。

第四步，损失函数的构造，构造文本区域损失函数、文本位置损失函数及构建文本角度损失函数。

第五步，损失计算，根据文本预测特征图F，计算文本区域损失、文本像素点到内部区域距离的损失及文本角度损失。

第六步，文本预测，采用NMS后处理，设定一定阈值对预测文本框进行筛选，剔除冗余预测文本区域，实现自然场景文本检测。

本发明还提供一种计算机设备，该计算机设备可以是计算机，其包括通过总线连接的处理器、存储器，所述存储器中储存程序，并且该程序被配制成由处理器执行，程序包括用于执行上述自然场景文本检测的方法。

上述计算机设备还可以是服务器或者是其他具有计算功能的终端设备。

本发明还提供一种计算机存储介质，其存储有经计算机程序，所述程序被处理器执行，处理器执行存储器存储的计算机程序时，实现上述自然场景文本检测的方法。

图2、图3不同模型在ICDAR2015的部分实验结果展示，其中图2中（a）、（b）和（c）为不同自然场景下EAST的文本检测结果，图3中（a）、（b）和（c）为不同自然场景下本发明方法文本检测结果。从图中可以看出，EAST漏检文本较多（图2中圈出的部分），本发明提出的自然场景文本检测方法，更倾向于文本区域的学习，能显著关注到更多的文本区域，文本检测性能更佳。

图4为本发明损失与EAST的损失曲线，图中虚线和实线分别代表EAST及本发明方法的损失曲线，由图可看出，相较于较优秀的EAST网络，本方法损失收敛速度快，损失下降更低，训练较为简单，证明本方法易于部署和落地。

表1 ICDAR2015数据集结果本发明与EAST算法的评估对比

表1列出了本发明在ICDAR2015上的准确率、召回率及F-score的评估结果，由表中数据可以看出，本发明在ICDAR2015上召回率达到了82.09，高于EAST在ICDAR2105的结果达9.34，具有较大幅值的提升，综合评估F-score达到81.89，与其他文本检测方法相比，也均处于领先地位，性能优越，证明了本发明方法的有效性。

Claims

1.一种自然场景文本检测方法，其特征在于，具体包括以下步骤；

其中，Y为真值标注区域，Y^*为文本预测区域，、/>及分别指假阳性文本、假阴性文本及真阳性文本，其中ɑ和β分别为控制假阳性文本和假阴性文本比重的参数；

S4将待检测自然场景文本图像输入自然场景文本检测模型，得到预测文本框，对预测文本框进行筛选，剔除冗余预测文本区域，实现自然场景文本检测；

步骤S2中，所述编码阶段为：以VGG16内部最大层化层为分界层，提取预处理训练数据集中每张图片不同分辨率的特征图构成特征图组，每个特征图组中特征图的尺寸依次减半，维度依次加倍；

步骤S2中，所述解码阶段为：将不同分辨率的特征图按照分辨率由高到底依次进行反池化、与上一阶段特征相加、降维及纹理特征消除对不同分辨率的特征图进行融合，得到文本预测特征图F；

步骤S3中，所述损失函数还包括文本位置损失函数和文本角度损失函数，所述文本位置损失函数为真值标注区域Y最小外接矩形与文本预测区域Y^*最小外接矩形的交并比；所述文本角度损失函数为，其中θ表示真值标注区域Y和水平轴的夹角，θ^*表示文本预测区域Y^*和水平轴夹角。

2.根据权利要求1所述的一种自然场景文本检测方法，其特征在于，步骤S3中，所述文本区域损失函数中，假阳性文本的比重参数ɑ为0.7，假阴性文本的比重参数β为0.3。

3.根据权利要求1所述的一种自然场景文本检测方法，其特征在于，步骤S1中，对采集的自然场景文本图像进行重命名，采用LabelImg标注软件标注以单张逐行的方式对自然场景文本图像中的文本区域进行标注，标注的形状为当前文本的最小四边形，标注后的文件类型为以图像名命名的txt文档，记录对应文本区域的坐标，得到自然场景文本数据集。

4.根据权利要求3所述的一种自然场景文本检测方法，其特征在于，步骤S1中，所述预处理为：将检测训练数据集中每张图像按照标注文档中记录的文字坐标生成对应掩码，将图像及对应生成的掩码进行旋转、缩放、裁剪和归一化得到预处理训练数据集/>。

5.根据权利要求1所述的一种自然场景文本检测方法，其特征在于，步骤S3中，采用Adam优化算法对自然场景文本检测网络进行优化，得到自然场景文本检测模型。

6.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-5中任一项所述的自然场景文本检测方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行如权利要求1-5中任一项所述的自然场景文本检测方法。