CN112070174A

CN112070174A - 一种基于深度学习的自然场景下文本检测方法

Info

Publication number: CN112070174A
Application number: CN202010955696.9A
Authority: CN
Inventors: 刘晋; 王恒阳
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-11

Abstract

本发明提供了一种基于深度学习的自然场景下的文本检测方法，属于计算机视觉领域。该文本检测方法具体由起始模块、字符区域识别网络与胶囊筛选分类网络组成。首先起始模块降低了网络的参数，且在同一层卷积层中放入不同尺寸的卷积核，从而增强了网络对不同尺度的字符特征的适应能力。然后使用字符区域识别网络检测出图片中单个字符，再利用胶囊分类网络来对检测出来的单字符进行筛选分类，用以判断检测到的是否为字符。最后通过一种基于多特征图融合与空洞卷积的字符拼接方法将单个字符拼接成文本行。与现有技术相比，本发明可以降低字符的方向、大小以及位置等因素对检测结果的影响，从而确保检测字符的正确率，进一步提高鲁棒性和准确性。

Description

一种基于深度学习的自然场景下文本检测方法

技术领域

本发明涉及图像处理技术领域，特别是一种基于深度学习的自然场景下文本检测方法。

背景技术

随着计算机技术与智能设备的不断发展与普及，出现了很多复杂场景下的图像数据，如街景广告图，手写体表单等，它们分布在互联网的各个角落，信息十分丰富而且极具价值。因此，使用计算机来处理日益增长的各种数字图像数据以及成已经为了一个无法避免的需求。如何从这些图像中抽取所需要的、有用的信息变得愈发重要，这也是计算机视觉领域的一大热门研究领域。

在这些数字图片中，文字信息是最直接的信息，理解自然场景图像中的文本信息对于人机交互、图像理解、自动驾驶等领域都有着很多现实的意义。但自然场景下的图片存在背景复杂、字体多样、文字种类未知、光照不均、大小尺寸不同等因素影响，文本检测与识别的难度大大增加。在过去近二十年里，有许许多多的和文本检测相关的技术被国内外的研究人员研发提出，并应用于图像和视频处理中。

目前存在的文本检测算法可以分文两类：一种是先检测出单个字符，再将其拼接成文本行的自底向上的文本检测算法；另一种是先找出文本区域，再框出文本行的自顶向下的文本检测算法，比如基于区域分割的方法和基于回归的方法。随着深度学习在目标检测领域取得了出色的检测效果，一些基于通用目标检测算法改进的文本检测方法应运而生。但现有许多基于深度学习的文本检测算法，在对于复杂背景图片进行文本检测时，会将文本作为一个目标物体进行检测，因为文本检测对象的纵横比(也叫长宽比，w/h)变化大，不像物体一样纵横比相对变化较小，另外，由于自然场景下的文本受大小、位置等因素的影响，都会给检测增加不少困难。

发明内容

本发明为了解决上述问题，提出了一种基于自底向上的文本检测算法的方法，该文本检测方法可以很好的提取不同尺度的文本特征，又因为方法中加入了胶囊网络，可以减少字符位置的影响，提高检测的鲁棒性和准确率。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的自然场景文本检测方法，具体包括以下步骤：

步骤1：采用标准数据集ICDAR2013，ICDAR2015，以及MSRA-TD500共M张图片作为文本图像数据集，其中M为5000到10000张；并将数据集总数M的70％共m1张图片作为训练集，M的20％共m2张图片作为验证集，M的10％共m3张图片作为测试集；

步骤2：对待检测的图像进行灰度化、归一化预处理；

步骤2.1：灰度化采用加权平均法，根据重要性及其它指标，将RGB图像的三个分量以不同的权值进行加权平均，公式如下：

Gray(i,j)＝0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)；

步骤2.2：图像归一化就是对图像最大最小值归一化的方法，公式如下：

其中x_i表示图像像素点值；

步骤3：构建特征提取网络，特征提取网络以VGG-16为基础，并且每一层卷积都融合了起始模块；起始模块将普通卷积网络中原有的5×5的大卷积核拆解成较小1×1和3×3的卷积核并串联；并将步骤2预处理后的图片送入特征提取网络；

步骤3.1：构建起始模块的损失函数：ReLU(x)＝max(0,x)；

步骤4：经过特征提取后，再利用字符区域识别网络CRAFT定位出图像中的单个字符；

步骤4.1：构建字符区域识别网络的目标Loss函数，如下：

其中，p表示区域在字符边界框内的像素，

表示生成标注的区域分数，

表示连接分数，S_r(p)和S_a(p)分别表示字符区域检测网络中预测出来的区域分数和连接分数；

步骤4.2：计算表p像素的置信分数S_c，与p点的置信度有关，其公式可以表示为：

其中，R(w)表示文本框区域。

步骤5：构建胶囊判别网络；将步骤4中定位到的单个字符送入胶囊判别网络进行判别是否为正确的字符；

步骤5.1：胶囊判别网络编码器第一层卷积层输入为28*28的图像，输出为一个维度20*20*256的张量，其中有256个步长为1的9*9*1的卷积核，使用ReLu分段线性激活函数；

步骤5.2：第二层输入维度20*20*256的张量，输出维度6*6*8*32的张量；

步骤5.3：第三层输入维度6*6*8*32的张量，输出为16*2的矩阵；

步骤5.4:构建胶囊的损失函数：

L_c＝T_cmax(0,m⁺-||v_c||)²+λ(1-T_c)max(0,||v_c||-m^-)²

步骤6：构建一种基于多特征图融合与空洞卷积的字符拼接方法，将步骤5中的单个字符拼接成文本行；

步骤6.1：首先构建基于BLSTM与RPN的字符连接信息特征图生成模块，接收步骤5中筛选出的单个字符，生成字符之间的连接信息特征图；整个RPN网络的loss函数为：

步骤6.2：构建基于空洞卷积的多特征图融合模块，将步骤6.1中的字符之间的连接信息特征图进行融合；将不同采样率的空洞卷积得到的特征图合并的公式为：

步骤6.3：构建文本行线性拼接模块，将单个字符拼接成文本行；拼接text line方法采用字符中心点连线思想的分段线性方法；分段线性方法的文本线表示为一组中心线

和一个高度值h，l_i＝(a_i,b_i,c_i)代表为a_ix+b_iy+c_i＝0的直线；用k＝min(n,11)个近邻坐标点估计中心线，其中n＝N为字符个数，高度h为

其中P为所有字符的顶点坐标，d(p,l_i)为p到直线l_i的距离。

进一步，在步骤3中，特征提取网络以VGG-16为基础，加入了起始模块，使用1×1卷积降维的思想来降低网络参数量，有效地将网络参数量由15M降低到3.7M。

进一步，在步骤3中，起始的核心思路是通过增加网络的宽度，增强网络对不同尺度的特征的适应能力，同时起始抛弃了传统卷积网络同一层卷积使用同样尺寸的卷积核的做法，它在同一层卷积层中放入不同尺寸的卷积核，大尺寸的卷积核卷到的数据区域更大，因此可以保留更多的空间信息，而小的卷积核则可以抽取更加细微的特征。

进一步，在步骤4中，CRAFT是一个针对于character级别即字符级检测的网络。它利用了分割的方法，但与普通的图像分割不同的是，CRAFT不是对整个图像的进行像素级分割(如Faster-Rcnn),它将一个字符视为一个检测目标对象，而不是一个word(所有的word都由character构成)。即不把文本框当做目标。故，它先检测单个字符(character regionscore)及字符间的连接关系(affinity score)，然后根据字符间的连接关系确定最终的文本行。

进一步，在步骤4中，CRAFT会产生一个字符区域得分和一个紧密得分，区域得分是用来定位图像中的单个字符，关联得分是用来分组每个字符成为一个单独实例。这样做的好处在于：使用小感受野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例。

进一步，在步骤5中，胶囊网络由两部分组成，编码器部分和解码器部分，其中前三层是编码器，后三层是解码器。

进一步，在步骤6中，通过一种基于多特征图融合与空洞卷积的字符拼接方法将单个字符拼接成文本行。具体来说，该字符拼接方法使用了基于BLSTM与RPN网络得到的矩形区域带有字符连接信息的特征图、使用图像膨胀的方法得到带有字符整体连接信息的特征图，并将其与字符区域特征图、字符区域检测网络第4个stages得到的特征图进行特征融合，然后送入并行空洞卷积网络中找出文本中心线区域，最后使用分段线方法对文本中心线区域的单个字符拼接成文本行。

上述说明仅是本发明技术方案的概述，与现有基于字符级别的文本检测技术相比，本发明技术方案的有益效果是：该文本检测方法可以很好的提取不同尺度的文本特征，可以降低字符的方向、大小以及位置等因素对检测结果的影响，从而确保检测到单个字符的正确率，进一步提高鲁棒性和准确性。

附图说明

图1为本发明的基于深度学习的自然场景下文本检测方法的流程示意图；

图2为本发明的基于深度学习的自然场景下文本检测方法的起始模块示意图；

图3为本发明的基于深度学习的自然场景下文本检测方法的字符区域识别网络(CRAFT)示意图；

图4为本发明的基于深度学习的自然场景下文本检测方法的胶囊网络编码器示意图；

图5为本发明的基于深度学习的自然场景下文本检测方法的胶囊网络解码器示意图；

图6为本发明的基于深度学习的自然场景下文本检测方法的字符拼接方法的总体流程示意图；

具体实施方式

下面通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1，为本发明优选一种基于深度学习的自然场景场景文本检测方法的实施例，该方法包括以下几步：

步骤2：对待检测的图像进行灰度化、归一化预处理；

Gray(i,j)＝0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)；

其中x_i表示图像像素点值；

步骤3：构建特征提取网络，并且每一层卷积都融合了起始模块；并将步骤2预处理后的图片送入特征提取网络；具体的：特征提取网络以VGG-16为基础，加入了起始模块，起始模块结构参阅图2。起始模块将普通卷积网络中原有的5×5的大卷积核拆解成较小1×1和3×3的卷积核并串联来降低网络参数量，有效地将网络参数量由15M降低到3.7M。它增加了网络的宽度，增强网络对不同尺度的特征的适应能力，同时起始抛弃了传统卷积网络同一层卷积使用同样尺寸的卷积核的做法，它在同一层卷积层中放入不同尺寸的卷积核，大尺寸的卷积核卷到的数据区域更大，因此可以保留更多的空间信息，而小的卷积核则可以抽取更加细微的特征。

步骤3.1：构建起始模块的损失函数：ReLU(x)＝max(0,x)；

步骤4：用融合了起始模块的字符区域识别网络CRAFT定位出图像中的单个字符，具体包括：CRAFT将一个字符视为一个检测目标对象，先检测单个字符(character regionscore)及字符间的连接关系(affinity score)，然后CRAFT会产生一个字符区域得分和一个紧密得分，区域得分是用来定位图像中的单个字符，关联得分是用来分组每个字符成为一个单独实例。从而检测到图片中字符的位置。

网络结构参考图3所示，第4个stage得到的大小为(h/16,w/16,512)的特征图与第五个stage得到的特征图经过上采样后拼接在一起，同理第3个stage得到的特征图与第4个stage得到特征特图经过上采样后融合在一起，第四层卷积层得到特征融合到第2个stage，将第二层卷积得到的大小为(h/4,w/4,128)的特征图与第三层卷积层得到经过上采样的特征图拼接在一起后再经过上卷积送入卷积网络中。

字符区域识别网络的目标Loss函数被如下：

其中，p表示区域在字符边界框内的像素，

表示生成标注的区域分数，

表示连接分数，S_r(p)和S_a(p)分别表示字符区域检测网络中预测出来的区域分数和连接分数，S_c表示的为p像素的置信分数，与p点的置信度有关，其公式可以表示为：

其中，R(w)表示文本框区域。

步骤5：将上述步骤中检测到的字符采用胶囊网络进行判别。胶囊网络编码器参考图4所示：

第一层卷积层的作用是用于检测输入图像中的基本特征，有256个步长为1大小为9×9×1的卷积核，其中激活函数使用的是ReLU分段线性激活函数。输入为字符区域识别网络得到的单字符图像再经过resize与灰度化得到的28×28×1的图像，而卷积层输出为一个维度20×20×256的特征向量。

第二层为初级胶囊层，输入为维度20×20×256的向量，输出为维度6×6×8×32的特征向量。初级胶囊层中包含了32个主胶囊，将接收卷积层检测到的基本特征组合生成特征的组合。这层的32个主胶囊本质上和卷积层很相似，每个胶囊将8个9×9×256的卷积核应用到第一层输出的20×20×256张量。

第三层为卷积胶囊层，输入维度6×6×8×32的张量，输出为16×2矩阵这一层包含2个结果胶囊，每个胶囊对应一个分类结果。输入的向量可看作为6×6×32的8维向量，在胶囊内部，每个输入向量通过8×16权重矩阵将8维输入空间映射到16维胶囊输出空间。

胶囊网络解码器参考图5所示：

胶囊网络解码器为三层全连接层，第一层全连接层输入为卷积胶囊层输出的16×2的张量，每个输出加权后传导至全连接层的每个神经元作为输入。每个神经元同时具备一个偏置项。16×2输入全部传导至这一层的512个神经元中的每个神经元。第二层全连接层输入为512维向量，输出为1024维向量。第三层全连接层输入为1024维向量，输出为784维向量，经过重整后重建28×28解码图像。

判别过程首先将字符区域识别网络生成的图片大小resize为28*28p，并进行灰度化处理。然后将图片送入胶囊中，根据胶囊的损失函数：

L_c＝T_cmax(0,m⁺-||v_c||)²+λ(1-T_c)max(0,||v_c||-m^-)²

具体为：前半部分为预测正确时的损失，后半部分为预测错误时的损失，其中Tc为正类时为1，否则为0，其中m⁺，m^-，λ取固定值0.9，0.1，0.5，表示预测正确标签概率大于0.9时，损失函数为0，当概率小于0.9时，损失函数不为0。

步骤6：本发明使用了基于BLSTM与RPN网络得到的矩形区域带有字符连接信息的特征图、使用图像膨胀的方法得到带有字符整体连接信息的特征图，并将其与字符区域特征图、字符区域检测网络第4个stages得到的特征图进行特征融合，如图6所示，然后送入3个3x3x64的卷积层，接着再送入步长分别为6，12，18，24的并行空洞卷积网络中找出文本中心线区域，最后使用分段线方法对文本中心线区域的单个字符拼接成文本行。

步骤6.1：首先本发明采用了两种方式生成带有字符连接信息的特征图：基于BLSTM的方法生成字符水平连接关系特征图与基于图像膨胀的方式生成字符整体连接关系特征图。

为了更好得获取字符水平连接关系，本发明借鉴了CTPN的思想，使用了BLSTM对特征图的水平文字上下文信息进行了学习，再利用区域生成网络(RPN，Region ProposalNet)生成文本区域候选框，使用非极大抑制(NMS)的方法，筛选出有效候选框(proposal)，最后对候选框矩形进行边框回归，生成矩形文本区域。得到矩形文本区域后，利用二维高斯透视变换生成带有字符水平连接关系的特征图。

区域生成网络(RPN，Region Proposal Network)主要是将经过了BLSTM与全连接层FC后的特征在输入图像上生成文本区域候选框，这个过程网络的输出包含了用于判断文本区和非文本区的分类任务和用于矩形候选框坐标点定位的回归任务。对于RPN网络中的卷积操作的感受野，通过设置Anchor机制的目标检测窗的多种尺寸和多种尺寸缩放比例来构造不同规格的目标检测窗。以中心像素为检测基点可以对应出不同规格的目标检测区域。将整张图像数据的所有目标检测区域构造出来，可以达到对于输入图像候选文本区域生成的任务要求。

其中分类任务是为了让提取的目标区域候选框的分类和回归更加接近与训练数据中的GT(Ground Truth)，所以分类任务采用了交叉熵的方式来定义损失函数，对于每个候选框的loss可以表示为：

其中，y表示该候选框是否为文本的标注真值，

表示分类网络得到结果。

对于整个输入图片中多个文本候选框，则的loss值为所有候选框loss的和，及可以表示为：

RPN中的候选框边框回归任务的目的是为了让候选框边框更加接近与训练数据中的GT。在RPN中，窗口一般使用一个思维向量(x，y，w，h)表示，其中x，y，w，h分别代表窗口中心点坐标，窗口的宽与高。从原始的候选框向GT边框变换的过程中，需要平移与放缩，其中平移量(t_x,t_y)与方缩量(t_w,t_h)可以用公式表示为：

其中，G表示GT标注的文本框位置信息，P为原始的候选框位置信息。

对于RPN中候选框边框回归任务的loss函数采用了SmoothL1的形式来定义：

由此可以定义整个RPN网络的loss函数为：

其中c_i表示RPN分类任务中神经网络判定的类别，

表示分类任务中GT所标注的目标类别，r_i表示RPN边框回归任务中神经网络输出的候选框坐标信息，

表示回归任务中GT所标注的目标区域坐标信息。

步骤6.2：构建基于空洞卷积的多特征图融合模块，将步骤6.1中的字符之间的连接信息特征图进行融合。本发明采用了多特征图融合的思想，采用了普通卷积层提取图像共享特征，然后分别利用一种多采样率并行的空洞卷积网络ASPP提取不同尺度的特征，最后将不同尺度特征图得到的区域分数累加到输出图中，其可以用公式表示为：

其中rate表示并行空洞卷积采样率，实验中dilation rate取6，12，18，24。

则ASPP将不同采样率的空洞卷积得到的特征图合并的公式可以表示为：

与CRAFT多特征融合模块不同的是，本发明中与字符区域特征图和第4个stages生成的特征图融合的不仅仅字符关系分数图，而且还加入了字符区域特征图经过膨胀处理后生成的带有字符连接信息的特征图，和经过BLSTM网络生成字符水平连接关系特征图。不像字符关系分数图只关注相邻两个字符的关系，膨胀处理后的字符信息特征图包含了整个文本行的关系信息，更有利于对整个文本行中字符关系的检测。此外，类似于CTPN算法在卷积层后加入了BLSTM来学习上下文信息的思想，生成水平区域框后又增加了字符的水平连接信息，这有利于后续的空洞卷积网络对字符水平连接信息的检测。

步骤6.3：构建文本行线性拼接模块，将单个字符拼接成文本行。

由于上文所述的带有字符连接信息特征图生成模块、基于空洞卷积的多特征图融合模块，只能检测出字符间的关系，即检测出文本行中心线区域，如果将存在关系的字符组直接使用覆盖矩形框框选出来，会造成框选的字符区域与测试集中的真值区域有较大的差别，为了让候选框更好的与真实值吻合提高准确率，本发明在关系检测方法后，对于每一个确认关系的字符组，使用了分段线性方法来对字符组进行拼接。

拼接text line方法采用字符中心点连线思想，一共包含了三个line方法(0-order line方法、1-order line方法、分段线性方法(piecewise linear model))，其中0-order方法为水平方向或者竖直方向的线性方法，1-oder方法表示任意角度有方向的line方法，分段线性方法(piecewise linear model)代表一个text line的受限的多边形。其中分段线性方法的text line表示为一组中心线

和一个高度值h，l_i＝(a_i,b_i,c_i)代表为a_ix+b_iy+c_i＝0的直线。对于0-order line方法和1-order line方法，用text line中全部的字符中心坐标估计出一条直线。对于piecewise linear model为每一个分别估计中心线。用k＝min(n,11)个近邻坐标点估计中心线，其中n＝N为字符个数。高度h为

其中P为所有字符的顶点坐标，d(p,l_i)为p到直线l_i的距离。方法M的选择为最小化：

M＝arg_{m∈{0,1,piece-wise}}h_m·C_m

其中，h_m为方法m的高度，越小说明拟合越好，C_m为方法m的复杂度惩罚，0-order、1-order和piecewise linear model分别对应为1、1.2、1.4。