CN111553351A

CN111553351A - 一种基于语义分割的场景任意形状的文本检测方法

Info

Publication number: CN111553351A
Application number: CN202010340620.5A
Authority: CN
Inventors: 杨海东; 罗哲; 黄坤山; 彭文瑜; 林玉山
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-18

Abstract

本发明公开一种基于语义分割的场景任意形状的文本检测方法，包括以下步骤：S1、构建任意形状的基于语义分割的场景文本检测网络模型；S2、根据整体目标损失函数，利用反向传播算法和随机梯度下降优化，最小化整体损失函数，对S1中设计的模型进行迭代训练；S3、利用逐步扩展尺度的方法，根据S2中训练的模型来进行场景文本检测识别，本发明针对自然场景下任意形状、紧密靠近的文本实例的文本检测问题，提出了一种基于语义分割，并创造性地利用多内核的逐步扩展尺度方法来检测文本，更精准地检测文本块位置。

Description

一种基于语义分割的场景任意形状的文本检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于语义分割的场景任意形状的文本检测方法。

背景技术

随着卷积神经网络的发展，场景文本检测已经取得了快速发展，目前在地理定位、实时翻译、盲人帮助等领域得到了不错的应用。但场景文本的检测不同于传统的光学字符识别(OCR)，由于多方向、弯曲甚至非文本行的文字布局，场景文本的检测更具有挑战性。目前，广泛应用的场景文本检测方法中主要存在两大困难：一方面，大多数现有方法采用四边形bounding box(边界框)，这种边界框无法准确定位具有任意形状的文本；另一方面，有很多场景文本行间彼此很相近，导致检测正确率不高，会把连着的文本行识别为一行。传统上，基于分割的方法可以很好的缓解第一个困难，但通常无法解决第二个困难。

发明内容

针对上述问题，本发明提出一种基于语义分割的场景任意形状的文本检测方法，主要解决背景技术中的问题。

本发明提出一种基于语义分割的场景任意形状的文本检测方法，包括以下步骤：

S1、构建任意形状的基于语义分割的场景文本检测网络模型；

S2、根据整体目标损失函数，利用反向传播算法和随机梯度下降优化，最小化整体损失函数，对S1中设计的模型进行迭代训练；

S3、利用逐步扩展尺度的方法，根据S2中训练的模型来进行场景文本检测识别。

进一步改进在于，所述步骤S1中场景文本检测网络模型的构建方法包括以下步骤：

S101、利用特征金字塔网络进行特征提取和多特征融合，特征金字塔网络是一个以残差深度卷积神经网络为基础，由一个自底向上连接、一个顶向下连接和一个横向连接的结构组成的网络；利用特征金字塔网络模型从输入数据集图片中提取并融合低层高分辨率特征和高层高语义信息特征：首先，将训练数据集图片输入特征金字塔网络自底向上网络结构中，即网络的前向过程。前向过程中，网络特征图经过某些层后会改变，而在经过其他一些层的时候不会改变，以网络中不改变特征图大小的卷积层单元定义为一个层级，即有层级{P₂,P₃,P₄,P₅}。接下来，利用自上而下连接进行上采样操作，利用横向连接将高层特征和低层特征进行融合，最后，再采用3*3卷积核对每个融合进行卷积，以消除上采样的混叠效应，最终得到{F₂,F₃,F₄,F₅}四个特征层。

S102、利用文本/非文本区域分割网络，实现像素级别文本区域识别，从而实现准确定位具有任意形状文本的检测要求，并将步骤S101中所得到的特征图经1*1卷积层-上采样-sigmoid层产生n个同一文本图像里但文本区域分割尺度各异的mask图S₁,S₂,…,S_n。

进一步改进在于，所述步骤S102具体包括：

为顺序获得不同尺度mask图，采用Vatti裁剪算法将原始多边形p_n缩小d_i个像素从而得到缩小的多边形p_i，其中每个缩放的p_i都被转换成0/1二进制的掩码作为分割标签真值G₁,G₂,…,G_n；若定义真值的缩放比例r_i为：

其中，m是最小的尺度比例，在(0,1]之间，比例值r₁,r₂,…,r_n由两个超参数n和m决定，它们从m线性增加到1。

则p_n和p_i之间的余量d_i可以计算为：

其中，Area(·)是计算多边形面积的函数，Perimeter(·)是计算多边形周长的函数。

进一步改进在于，所述步骤S2中的损失函数由L_c代表的完整文本实例损失S_n和L_s代表的缩放后文本实例损失S₁→S_n-1组成，λ用于平衡L_c和L_s：

L＝λL_c+(1-λ)L_s

计算loss时，采用dice系数损失函数：

其中S_i,x,y，G_i,x,y分别代表分割结果S_i和真值G_i的(x,y)位置处的像素值。

因此L_c和L_s的计算方式可如下表示为：

L_c＝1-D(S_n·M,G_n·M)

其中，为了对文本进行区分，设置正负样本比例值设为3:1，避免误检。

进一步改进在于，所述步骤S3中的逐步扩展尺度的方法是对步骤S102中得到的一系列mask图S₁,S₂,…,S_n在基于广度优先搜索算法下进行文本区域的像素级别定位，具体包括以下步骤：

S301、从S₁中找出所有的文本块连通区域，连通区域个数＝文本区域个数＝kernel；

S302、把kernel放到S₂中，并利用广度优先搜索的方法把每个kernel的大小扩展到和S₂一样；

S303、把扩展后的kernel放到S₃中，按照S₃的文本区域的样子进行扩展，扩展到和S₃一样，对于更多的S_i则以此类推，最后得到S_n中的每个像素属于哪个文本区域，进而把靠得很近的文本区域分开。

与现有技术相比，本发明的有益效果为：

1、任意形状文本检测准确度高：本发明针对自然场景下任意形状、紧密靠近的文本实例的文本检测问题，提出了一种基于语义分割，并创造性地利用多内核的逐步扩展尺度方法来检测文本，更精准地检测文本块位置。

2、任意形状文本检测速度快：本发明网络结构简单，在保证文本检测精度的同时，速度较快。

3、任意形状文本检测泛化能力强：本发明一个基于分割的场景文本检测模型，不仅可以准确定位并识别任意形状场景文本，如弯曲、旋转、多方向等等，还能精准检测识别紧密靠近文本实例。

4、鲁棒性强：本发明可以克服文本尺度和形状的变化，能同时检测水平、定向、弯曲、彼此接近的文本。

附图说明

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

图1为本发明一实施方式的整体流程示意图；

图2为本发明一实施方式的特征金字塔网络结构示意图；

图3为本发明一实施方式的用于生成多内核文本分割结果的标签生成示意图；

图4为本发明一实施方式的对多内核进行逐步扩展的流程示意图。

具体实施方式

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以是通过中间媒介间接连接，可以说两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。

S1、构建任意形状的基于语义分割的场景文本检测网络模型，本发明的文本检测模型网络结构主要包括：用于特征提取和多特征融合的基于残差网络的多特征金字塔结构网络、文本/非文本区域分割网络；

作为本发明一优选实施方案，所述步骤S1中场景文本检测网络模型的构建方法包括以下步骤：

S101、利用特征金字塔网络进行特征提取和多特征融合，参照图2，特征金字塔网络是一个以残差深度卷积神经网络为基础，由一个自底向上连接、一个顶向下连接和一个横向连接的结构组成的网络；利用特征金字塔网络模型从输入数据集图片中提取并融合低层高分辨率特征和高层高语义信息特征：首先，将训练数据集图片输入特征金字塔网络自底向上网络结构中，即网络的前向过程。前向过程中，网络特征图经过某些层后会改变，而在经过其他一些层的时候不会改变，以网络中不改变特征图大小的卷积层单元定义为一个层级，即有层级{P₂,P₃,P₄,P₅}。接下来，利用自上而下连接进行上采样操作，利用横向连接将高层特征和低层特征进行融合，最后，再采用3*3卷积核对每个融合进行卷积，以消除上采样的混叠效应，最终得到{F₂,F₃,F₄,F₅}四个特征层。

本实施中我们从残差的骨干网络中获得4个256通道的特征层{F₂,F₃,F₄,F₅}的，为进一步将语义特征从低级别升级到高级别，我们将对多层融合结果进行进一步处理，具体地，通过函数C(·)用4*256＝1024个通道融合该四个特征层，映射得到feature map F：

F＝C(F₂,F₃,F₄,F₅)＝F₂||Up_×2(F₃)||Up_×4(F₄)||Up_×8(F₅)

其中，“||”代表级联，Up_×2(·)、Up_×4(·)、Up_×8(·)分别代表上采样2、4、8倍。

具体地，相较于常用的边界框法定位文本区域，图像分割的方法可实现像素级识别，从而实现准确定位具有任意形状文本的检测要求。将S101步骤中所得到的特征图经1*1卷积层-上采样-sigmoid层产生n个同一文本图像里但多内核(即文本区域分割尺度各异)的mask图，例如S₁,S₂,…,S_n，S_i表示同一文本图像中不同尺度文字块内核的mask图，以便于有效分离靠的很近的文本区域。

作为本发明一优选实施方案，所述步骤S102具体包括：

对于S102所述生成n个文本区域分割尺度mask图S₁,S₂,…,S_n，这是需要有标签的图像来训练的，为了生成训练时不同尺度kernels所对应的真值(ground truth)，本发明中具体文本区域分割的标签生成流程如图。事实上，这些真值可以通过缩小原始文本实例简单且有效的生成，在图3(b)中描出来的多边形代表原始文本实例，它对应于最大的分割标签mask图(S_n,即图3(c)最右边)。

因此，为顺序获得不同尺度mask图，采用Vatti裁剪算法将原始多边形p_n缩小d_i个像素从而得到缩小的多边形p_i，其中每个缩放的p_i都被转换成0/1二进制的掩码作为分割标签真值G₁,G₂,…,G_n；若定义真值的缩放比例r_i为：

则p_n和p_i之间的余量d_i可以计算为：

作为本发明一优选实施方案，所述步骤S2中的损失函数由L_c代表的完整文本实例损失S_n和L_s代表的缩放后文本实例损失S₁→S_n-1组成，λ用于平衡L_c和L_s：

L＝λL_c+(1-λ)L_s

另外，在自然场景图像中，文本区域往往只占图片面积的一小部分，为缓解文本/非文本的像素分类任务中的类别不平衡问题，本发明进行了如下操作：

计算loss时，采用dice系数损失函数：

因此L_c和L_s的计算方式可如下表示为：

L_c＝1-D(S_n·M,G_n·M)

为了更好地对文本进行区分，避免误检，我们使用所有的正样本，但只选择一定数量的最难负样本，其中正负样本比例值设为3:1。负样本的难度由相应位置的交叉熵loss值表示：loss越大代表难度越高。

作为本发明一优选实施方案，所述步骤S3中的逐步扩展尺度的方法是对步骤S102中得到的一系列mask图S₁,S₂,…,S_n在基于广度优先搜索算法下进行文本区域的像素级别定位，且能把靠的很近的文本区域准确地分开(如图4所示)，我们有三个分割的结果S＝{S₁,S₂,S₃}，且mask图中有4个不同的连通域，具体包括以下步骤：

图中，描述位置关系仅用于示例性说明，不能理解为对本专利的限制；显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于语义分割的场景任意形状的文本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于语义分割的场景任意形状的文本检测方法，其特征在于，所述步骤S1中场景文本检测网络模型的构建方法包括以下步骤：

3.根据权利要求2所述的一种基于语义分割的场景任意形状的文本检测方法，其特征在于，所述步骤S102具体包括：

则p_n和p_i之间的余量d_i可以计算为：

4.根据权利要求1所述的一种基于语义分割的场景任意形状的文本检测方法，其特征在于，所述步骤S2中的损失函数由L_c代表的完整文本实例损失S_n和L_s代表的缩放后文本实例损失S₁→S_n-1组成，λ用于平衡L_c和L_s：

L＝λL_c+(1-λ)L_s

计算loss时，采用dice系数损失函数：

因此L_c和L_s的计算方式可如下表示为：

L_c＝1-D(S_n·M,G_n·M)

5.根据权利要求2所述的一种基于语义分割的场景任意形状的文本检测方法，其特征在于，所述步骤S3中的逐步扩展尺度的方法是对步骤S102中得到的一系列mask图S₁,S₂,…,S_n在基于广度优先搜索算法下进行文本区域的像素级别定位，具体包括以下步骤：