CN111753714B

CN111753714B - 基于字符分割的多方向自然场景文本检测方法

Info

Publication number: CN111753714B
Application number: CN202010579227.1A
Authority: CN
Inventors: 刘姝; 邹北骥; 杨文君; 姜灵子
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-09-01
Anticipated expiration: 2040-06-23
Also published as: CN111753714A

Abstract

本发明公开了一种基于字符分割的多方向自然场景文本检测方法，包括获取训练数据集并标定；建立基于字符分割的多方向自然场景文本检测初步模型；用标定的训练数据对基于字符分割的多方向自然场景文本检测初步模型进行训练得到基于字符分割的多方向自然场景文本检测模型；采用基于字符分割的多方向自然场景文本检测模型对自然场景的文本进行检测。本发明采用基于实例分割的方法分割文字字符实例，因此可以不必考虑文字的排列方向；同时，本方法结合了双向长短期记忆网络提取字符的上下文信息，预测字符之间的亲和度，从而可以更准确地将字符组合为文本行；因此，本发明方法可靠性高、实用性好且准确率较高。

Description

基于字符分割的多方向自然场景文本检测方法

技术领域

本发明属于图像处理领域，具体涉及一种基于字符分割的多方向自然场景文本检测方法。

背景技术

随着经济技术的发展，自然场景的文本检测也开始逐步应用于人们的生产和生活，在无人驾驶、文档管理、视觉辅助等领域发挥了巨大的作用。

然而，从自然场景图像中定位文字区域是一项具有挑战性的任务。场景中的文字常常表现出不同的尺度，完整性和紧密性等特征，并且通常以随机方向排列，如水平，垂直和倾斜等，导致常规算法在检测文字的同时还需要考虑其排列方向。

日趋流行的深度学习技术已经引入到自然场景多方向文本检测研究中，并且获得了较好的性能。这些方法大致可以分为以下三类：第一类是基于锚点框回归的方法，研究者们通过手工设计的多尺度锚点框以回归多方向排列的场景文字。此类方法能够有效地解决单词间隔较长以及图像对比度低的问题，缺点是大量的手工设计是不可避免的。第二类是基于实例分割的方法，即检测多方向的文字时，直接提取文字字符实例而不用考虑其排列方向，从而快速准确地提取图像中的文字。第三类是无法划分至前两类的其它方法，如笔划宽度转换算法、骨架提取算法、最大极值区域算法等，均取得了不错的文本检测性能。

目前，基于实例分割的方法由于无需考虑文字字符的排列方向，因此受到大多数研究者们的青睐。然而，基于实例分割的方法不能很好地区分不同的文字实例，即可能会将多个彼此非常接近的文字实例误认为同一个文字实例。

发明内容

本发明的目的在于提供一种能够解决多方向排列文字检测和文字实例误分问题，而且可靠性高、实用性好、准确率较高的基于字符分割的多方向自然场景文本检测方法。

本发明提供的这种解决多方向排列文字检测和文字实例误分的问题，包括如下步骤：

S1.获取训练数据集，并对训练数据集进行标定；

S2.建立基于字符分割的多方向自然场景文本检测初步模型；所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型；

S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练，从而得到基于字符分割的多方向自然场景文本检测模型；

S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型，对自然场景的文本进行检测。

步骤S1所述的获取训练数据集，并对训练数据集进行标定，具体为在公共数据集ICDAR2013与ICDAR2015上进行标定；标定字符和字符间的亲和度；在各字符中心的中点为字符间亲和度的中点，宽高分别为两字符宽高之和的一半。

步骤S2所述的基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型，具体为金字塔网络框架的第一阶段到第五阶段的卷积层均采用ResNet50网络，在每一个阶段均设置一个上采样操作；同时在金字塔网络后，再连接一个双向长短期记忆网络。

步骤S3所述的用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练，从而得到基于字符分割的多方向自然场景文本检测模型，具体为采用如下步骤进行训练并得到检测模型：

A.将训练数据中的原始图像分为RGB三个通道，并输入到金字塔网络框架中；

B.将原始图像输入到第一卷积层后得到第一卷积结果；将第一卷积结果输入到第二卷积层得到第二卷积结果；将第二卷积结果输入到第三卷积层得到第三卷积结果；将第三卷积结果输入到第四卷积层得到第四卷积结果；将第四卷积结果输入到第五卷积层得到第五卷积结果；

C.将第五卷积结果与第五卷积结果自身按位相加后，再进行一次上采样得到第五卷积图像；将第五卷积图像与第四卷积结果按位相加后，再进行一次上采样得到第四卷积图像；将第四卷积图像与第三卷积结果按位相加后，再进行一次上采样得到第三卷积图像；将第三卷积图像与第二卷积结果按位相加后，再进行一次上采样得到第二卷积图像；

D.将步骤C得到的第二卷积图像输入到全连接层中，经过实例平衡交叉熵损失函数后，得到文字字符实例预测概率图；

E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中，再经过连接损失函数后，得到字符间亲和度的特征图；

F.将步骤E得到的字符间亲和度的特征图和步骤D得到的文字字符实例预测概率图相加，得到文本行预测概率图；

G.将步骤F中得到的文本行预测概率图中，概率大于设定值的区域设定为文本行，并输出最终的预测结果，从而得到基于字符分割的多方向自然场景文本检测模型。

步骤D所述的实例平衡交叉熵损失函数，具体为采用如下算式作为实例平衡交叉熵损失函数：

L_class＝L_{cross-entropy}

式中L_{cross-entropy}为交叉熵损失。

步骤E所述的连接损失函数，具体为采用如下算式作为连接损失函数：

式中为标定的置信度；S_P为预测的置信度；R(c)表示标定的字符c所在的区域；P表示当前像素。

步骤S3所述的训练，具体为模型预训练时，初始学习率为3×10^-5，并且每2万次迭代学习率下降0.6×10^-5，批处理大小设置为128，所有的训练图片均归一化为768×768大小；模型在训练5万步后，再进行真实场景数据进行训练和微调。

本发明提供的这种基于字符分割的多方向自然场景文本检测方法，采用基于实例分割的方法分割文字字符实例，因此可以不必考虑文字的排列方向；同时，本方法结合了双向长短期记忆网络提取字符的上下文信息，预测字符之间的亲和度，从而可以更准确地将字符组合为文本行；因此，本发明方法可靠性高、实用性好且准确率较高。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明方法的字符间亲和度标定示意图。

图3为本发明方法的金字塔网络结构示意图。

图4为本发明方法的文本实例分割示意图。

图5为本发明方法的字符间亲和度预测示意图。

图6为本发明方法的文本实例分割模型在不同训练阶段的测试结果示意图。

图7为本发明方法的字符间亲和度预测模型在不同训练阶段的测试结果示意图。

图8为本发明方法在ICDAR2013与ICDAR2015数据集上的测试结果示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于字符分割的多方向自然场景文本检测方法，包括如下步骤：

S1.获取训练数据集，并对训练数据集进行标定；具体为在公共数据集ICDAR2013与ICDAR2015上进行标定；标定字符和字符间的亲和度；在各字符中心的中点为字符间亲和度的中点，宽高分别为两字符宽高之和的一半；

如图2所示，原标定图中矩形框中的区域为原标定字符区域，通过计算后，可以得到右边矩形填充区域为字符间亲和度区域；

S2.建立基于字符分割的多方向自然场景文本检测初步模型；所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型；具体为金字塔网络框架的第一阶段到第五阶段的卷积层均采用ResNet50网络，在每一个阶段均设置一个上采样操作；同时在金字塔网络后，再连接一个双向长短期记忆网络；模型结构如图3所示；

S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练，从而得到基于字符分割的多方向自然场景文本检测模型；具体为采用如下步骤进行训练并得到检测模型：

如图3所示：一幅h*w*3尺寸的彩色图输入到ResNet50网络中，经过第一卷积阶段后，图像变成了h/2*w/2*64大小；在第二卷积阶段后，图像变成了h/4*w/4*128大小；在第三卷积阶段后，图像变成了h/8*w/8*256大小；在第四卷积阶段后，图像变成了h/16*w/16*512大小；在第五卷积阶段后，图像变成了h/32*w/32*512大小；在第五卷积阶段后，将获得的特征图与自身进行按位相加操作，得到的融合特征图结果再进行一次上采样操作，图像变成了h/16*w/16*256大小；接下来再与第四卷积阶段后的特征图进行按位相加操作，得到的融合特征图结果再进行一次上采样操作，图像变成了h/8*w/8*128大小；接下来再与第三卷积阶段后的特征图进行按位相加操作，得到的融合特征图结果再进行一次上采样操作，图像变成了h/4*w/4*64大小；接下来再与第二卷积阶段后的特征图进行按位相加操作，得到的融合特征图结果再进行一次上采样操作，图像变成了h/2*w/2*32大小；

D.将步骤C得到的第二卷积图像输入到全连接层中，经过实例平衡交叉熵损失函数后，得到文字字符实例预测概率图；具体为采用如下算式作为实例平衡交叉熵损失函数：

L_class＝L_{cross-entropy}

式中L_{cross-entropy}为交叉熵损失；

如图4所示为本发明方法所采用的金字塔网络分割出的字符实例；

E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中，再经过连接损失函数后，得到字符间亲和度的特征图；具体为采用如下算式作为连接损失函数：

式中为标定的置信度；S_P为预测的置信度；R(c)表示标定的字符c所在的区域；P表示当前像素；

如图5所示为本发明方法所采用的双向长短期记忆网络预测的亲和度；

G.将步骤F中得到的文本行预测概率图中，概率大于设定值(优选为0.7)的区域设定为文本行，并输出最终的预测结果，从而得到基于字符分割的多方向自然场景文本检测模型；

同时，模型预训练时，初始学习率为3×10^-5，并且每2万次迭代学习率下降0.6×10^-5，批处理大小设置为128，所有的训练图片均归一化为768×768大小；模型在训练5万步后，再进行真实场景数据进行训练和微调；

模型预训练完成后，需在真实场景数据集上进行微调训练，如图6所示为文本实例分割在不同训练阶段的测试结果，图7为字符间亲和度预测在不同训练阶段的测试结果；其中Epoch 1、Epoch 10和Epoch 190分别表示训练模型使用训练集中的全部样本训练1次、10次和190次。

S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型，对自然场景的文本进行检测，如图8所示为训练模型在ICDAR2013与ICDAR2015两个公共数据集上进行测试的结果。

Claims

1.一种基于字符分割的多方向自然场景文本检测方法，包括如下步骤：

S1.获取训练数据集，并对训练数据集进行标定；

S2.建立基于字符分割的多方向自然场景文本检测初步模型；所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型；具体为金字塔网络框架的第一阶段到第五阶段的卷积层为ResNet50网络，在每一个阶段均设置一个上采样操作；同时在金字塔网络后，再连接一个双向长短期记忆网络；

G.将步骤F中得到的文本行预测概率图中，概率大于设定值的区域设定为文本行，并输出最终的预测结果，从而得到基于字符分割的多方向自然场景文本检测模型；

2.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法，其特征在于步骤S1所述的获取训练数据集，并对训练数据集进行标定，具体为在公共数据集ICDAR2013与ICDAR2015上进行标定；标定字符和字符间的亲和度；在各字符中心的中点为字符间亲和度的中点，宽高分别为两字符宽高之和的一半。

3.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法，其特征在于步骤D所述的实例平衡交叉熵损失函数，具体为采用如下算式作为实例平衡交叉熵损失函数：

L_class＝L_{cross-entropy}

式中L_{cross-entropy}为交叉熵损失。

4.根据权利要求3所述的基于字符分割的多方向自然场景文本检测方法，其特征在于步骤E所述的连接损失函数，具体为采用如下算式作为连接损失函数：

5.根据权利要求4所述的基于字符分割的多方向自然场景文本检测方法，其特征在于步骤S3所述的训练，具体为模型预训练时，初始学习率为3×10^-5，并且每2万次迭代学习率下降0.6×10^-5，批处理大小设置为128，所有的训练图片均归一化为768×768大小；模型在训练5万步后，再进行真实场景数据进行训练和微调。