CN113822041A

CN113822041A - 一种适用密集文本的深度神经网络自然场景文本检测方法

Info

Publication number: CN113822041A
Application number: CN202010559882.0A
Authority: CN
Inventors: 卿粼波; 牟森; 陈洪刚; 何小海; 王思怡
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2021-12-21
Anticipated expiration: 2040-06-18
Also published as: CN113822041B

Abstract

本发明公开了一种适用密集文本的深度神经网络自然场景文本检测方法。主要包括以下步骤：在特征提取层，构建空洞卷积模块；根据前一步骤得到的特征提取层，构建引入角点注意力机制的特征融合层；根据第一个步骤得到的特征提取层和第二个步骤得到的特征融合层，构建网络输出层，得到一种适用密集文本的文本检测深度神经网络模型；用训练数据集，设计引入类别权重因子和样本难度权重因子的损失函数来训练前一步骤构建的深度神经网络模型；自然场景图像输入到前一步骤训练好的深度神经网络模型得到图像中的文本检测图像。本发明在自然场景中密集文本的检测效果良好，是一种有效的自然场景密集文本检测方法。

Description

一种适用密集文本的深度神经网络自然场景文本检测方法

技术领域

本发明涉及文本检测技术，具体涉及一种适用密集文本的深度神经网络自然场景文本检测方法，属于自然场景文本检测领域。

背景技术

自然场景下的文本检测与识别被认为是在目标检测领域中最具有挑战性的难点之一，它在图像处理、无人驾驶、文档分析、自然语言处理等诸多机器视觉领域都存在大量的应用。其检测方法主要分为文本检测和文本识别两个部分。相较于通用物体的目标检测，复杂场景下的文本检测却存在诸多难点：(1)场景中的文本行颜色、字体、尺度多样化并且相关性较小。(2)背景多样化。在自然场景下，文本行的背景是任意的，还可能会受到结构相近的背景影响(如栅栏)。(3)文本行的形状和方向多样化。如水平、垂直、倾斜、弯曲等。(4)存在诸多艺术字、手写字、多种语言混合以及不同程度的扭曲。(5)恶劣的光照条件和不同程度的遮挡。

近年来，文本检测领域的深度学习策略主要有：(1)基于字符的文本检测。先检测单个字符及字符间的连接关系，然后根据字符间的连接关系确定最终的文本行。(2)基于文本框的坐标回归的文本检测。将文本检测任务转化为一连串小尺度文本框的检测，并且引入RNN提升文本检测效果，用边界优化提升文本框边界预测精准度。(3)基于语义分割后进行实例分割的方法。不从边界框回归检测文本，而是直接通过实例分割结果中提取文本位置。并且将像素点进行连接，得到文本框。使用像素分类进行语义分割，连接进行实例分割。4)文本框回归和语义分割的组合方法。首先由直接回归模块产生粗略的四边形表征的候选文本框；接着在提取的特征图上通过迭代修正得到完整的长文本行的四边形表征；最后通过结合文本行区域、文本行中心线及文本行边界偏移得到最终的文本行。

AdvancedEAST是一个两阶段的文本检测方法，分为全卷积网络(FCN)阶段和NMS(非极大值抑制)合并阶段。FCN可以直接生成文本区域，消除冗余过程及复杂的中间步骤。该方法即可以检测单词级别，又可以检测文本行级别，检测的形状可以为矩形或者任意形状的四边形。但是该方法对密集文本的检测结果较差。

发明内容

本发明要解决的技术问题是：提供一种适用密集文本的深度神经网络自然场景文本检测方法，以解决上述现有技术中存在的问题。

本发明提出的一种适用密集文本的深度神经网络自然场景文本检测方法，主要包括以下操作步骤：

(1)在特征提取层，构建空洞卷积模块；

(2)根据步骤(1)得到的特征提取层，构建引入角点注意力机制的特征融合层；

(3)根据步骤(1)得到的特征提取层和步骤(2)得到的特征融合层，构建网络输出层，得到一种适用密集文本的文本检测深度神经网络模型；

(4)利用训练数据集，设计引入类别权重因子和样本难度权重因子的损失函数来训练步骤(3)中构建的深度神经网络模型；

(5)将自然场景图像输入到步骤(4)中训练好的深度神经网络模型得到图像中的文本检测图像。

附图说明

图1是包含空洞卷积模块的特征提取层

图2是引入角点注意力机制的特征融合层

图3是本发明提出的深度神经网络模型

图4是AdvancedEAST方法对密集文本检测的效果图

图5是本发明对密集文本检测的效果图

具体实施方式

下面结合附图对本发明作进一步说明：

一种适用密集文本的深度神经网络自然场景文本检测方法，具体可以分为以下几个步骤：

(1)在特征提取层，构建空洞卷积模块；

具体地，如图1所示，在步骤(1)中构建的特征提取层，在resnet50网络的四个特征图输出之前，分别采用扩张率为18、12、6和3的3×3空洞卷积。

如图2所示，在步骤(2)构建的引入角点注意力机制的特征融合层，为了生成更加均匀的特征金字塔，通过双线性上采样逐层连接。然后将边界像素特征加入注意力模块，得到如下公式：

attention_i＝soft max(Dense(x_i,y_i-1))

其中，i表示当前时步，x_i为输入边界像素特征，y_i-1为输出的边界像素特征，attention_i表示i处的注意力权重，Dense(·)为一全连接操作，soft max(·)为一激活函数，c_i表示输出的带有注意力的上下文信息。

所述步骤(3)中，将步骤(1)中得到的特征提取层中每一层输出的特征图与步骤(2)中得到的特征融合层中角点注意力模块输出连接，同时构建网络输出层，得到如图3所示的一种适用密集文本的文本检测深度神经网络模型。

在一般的训练数据集中，负样本数量太大，导致损失函数输入参数的大部分都是负样本，而且多是容易分类的，因此会使得对密集文本的检测效果并不是很好。所述步骤(4)中，设计引入类别权重因子和样本难度权重因子的损失函数设计的引入类别权重因子α和样本难度权重因子

的损失函数，来缓解上述问题。具体公式如下：

其中，Y^*表示正确标注，

表示预测值，N表示样本数量，w为归属权重是,S表示一种非线性函数。α可以平衡正负样本。γ>0可以减少易分类样本的损失，使得模型更关注于困难的、错分的样本。

α表示所有训练图像中所有为1的像素点数量占总像素点数量的比例，由下式给出：

S采用收敛得更快并且对离群点、异常值不敏感，梯度变化相对更小的函数。公式如下：

得到总的损失函数为：

L＝λ_sL_s+λ_vL_v+λ_gL_g

其中，λ_s、λ_v和λ_g为损失权重，L_s、L_v和L_g为损失函数。

利用训练数据集，将步骤(4)中引入类别权重因子和样本难度权重因子的损失函数来训练步骤(3)中构建的深度神经网络模型。

所述步骤(5)中，自然场景图像输入到步骤(4)中训练好的深度神经网络模型得到图像中的文本检测图像。

本发明提出的一种适用密集文本的深度神经网络自然场景文本检测方法，利用边界像素的上下文信息，引入类别权重因子和样本难度权重因子的损失函数，有效改善了对自然场景图像中密集文本的检测效果。图4-5给出了AdvancedEAST方法以及本发明对自然场景中密集文本检测效果图。

同时，本发明使用准确率(Precision)、召回率(Recall)和加权调和平均值F-measured三个指标来评价本文算法在ReCTS数据集上的训练效果。并与AdvancedEAST方法进行对比，实验结果如表1所示。可以看出，本发明相比于AdvancedEAST方法在文本检测的各项指标上均有提升。其中召回率提升比较明显，这是因为本发明增大了图像中密集文本的检测能力。

表一

方法	Precision	Recall	F-measured
				AdvancedEAST	89.46	61.07	72.59
本发明	93.02	76.69	84.07

综上所述，相比于AdvancedEAST方法，本发明在自然场景中密集文本的检测效果，在主客观评价上都有明显的优势。因此，本发明是一种有效的自然场景密集文本检测方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种适用密集文本的深度神经网络自然场景文本检测方法，其特征在于包括以下步骤：

步骤一：在特征提取层，构建空洞卷积模块；

步骤二：根据步骤一得到的特征提取层，构建引入角点注意力机制的特征融合层；

步骤三：根据步骤一得到的特征提取层和步骤二得到的特征融合层，构建网络输出层，得到一种适用密集文本的文本检测深度神经网络模型；

步骤四：用训练数据集，设计损失函数组合来训练步骤三构建的深度神经网络模型；

步骤五：自然场景图像输入到步骤四训练好的深度神经网络模型得到图像中的文本检测图像。

2.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法，其特征在于步骤一中构建的特征提取层，在resnet50网络的四个特征图输出之前，分别采用扩张率为18，12，6和3的3×3空洞卷积。

3.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法，其特征在于步骤二中构建的引入角点注意力机制的特征融合层，将特征图的输入边像素界特征与输出的边界像素特征通过一个标准的一维全连接层连接起来，然后输出的带有注意力的上下文信息。

4.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法，其特征在于步骤三中提出的深度神经网络模型，该模型中为了提高其特征表达能力，通过卷积、双线性上采样操作和特征降维融合当前尺度和相邻尺度的特征图。

5.根据权利要求1所述的一种适用密集文本的深度神经网络自然场景文本检测方法，其特征在于步骤四中设计的损失函数组合，该损失函数组合使用收敛得更快并且对异常值、离群点不敏感，梯度的变化相对更小的函数，并且引入类别权重因子和样本难度权重因子，来处理样本类别不均衡的问题。