CN112215226B

CN112215226B - 一种基于改进east算法的栅格地质图文本检测方法

Info

Publication number: CN112215226B
Application number: CN202011184567.0A
Authority: CN
Inventors: 王茂发; 韩定良; 高光大; 王子民; 潘明华
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-06-07
Anticipated expiration: 2040-10-30
Also published as: CN112215226A

Abstract

本发明公开了一种基于改进EAST算法的栅格地质图文本检测方法，该方法采用多尺度对象分割算法进行图像背景和图像文本的分割，同时结合按比例尺方法切割训练样本，然后运用focal‑loss函数改进模型损失函数，最后采用难、易检测文本目标权重动态调整策略来改进文本目标漏检的问题。实验验证了该算法具有检测准确率较高、对不同的地质图像的适应力较强的优点。能够有效降低地质图像文本检测的漏检率，具有一定的工程应用价值。实验结果表明，对多比例尺栅格地质图像进行文本检测，采用改进后EAST算法准确率相对改进前提高了5.1%，可更加快速、准确的检索到相关地质图像文字。

Description

一种基于改进EAST算法的栅格地质图文本检测方法

技术领域

本发明涉及栅格地质图像的处理技术，具体是一种基于改进EAST算法的地质图像文本检测方法。

背景技术

我国历史上形成的百万档级海量栅格地质图像包括了大量的地理、地质信息，对矿床发现、石油勘探、储量估计、地理坐标定位等有着重大意义。栅格地质图像中的信息呈现形式以文本字符为主，因此栅格地质图像中的文本识别、定位研究就显得尤为重要。

随着深度学习技术的不断发展，地质领域存在的大量栅格图像数据亟待通过新技术来进行处理。面对历史上如此海量的地质图像，传统的人工处理方式已经满足不了检索需要。文本检测算法通过计算机自动框定出文本在地质图像中的范围，作为后续文本识别过程的先行条件，在地质图像的检索和信息提取中起着举足轻重的作用。

传统的文本检测方法和一些基于深度神经网络的文本定位方法，主要由若干阶段和组件构成，在训练时需要对多个步骤进行调优，耗费时间较多。所以这些方法的准确率和效率仍然不能达到工业级别的应用。

发明内容

针对现有文本检测算法对地质图像中的文本符号检测准确率不够高，不同比例尺的图像检测差异大，文本尺度多样化的问题，本发明提供了一种基于改进EAST算法的地质图像文本检测方法，该方法运用多尺度的方法进行图像背景和图像文本的分割，然后按不同比例尺切割图像训练样本，通过减少易提取样本的权重策略改进损失函数解决文本框漏检的问题，使得算法在地质图像上的检测效果更好。

实现本发明目的的技术方案是：

一种基于改进EAST算法的栅格地质图文本检测方法，包括：

(1)提取地质图像的文本区域一般采用将交叉部分视为矩形的简化计算方法；S1、S2、S3、S4；每次只需要计算S1-S4部分的面积，其计算可通过公式(1)-(4)得到；而最后总的文本区域S由上述提到的四个梯形S1、S2、S3、S4间相互交叠的部分组成，需对四个梯形面积进行加减法计算，得到的文本区域S的计算公式，如公式(5)所示：

S₁＝((x₃-x₀)*(y₃+y₀))/2 (1)

S₂＝((x₁-x₀)*(y₁+y₀))/2 (2)

S₃＝((x₂-x₁)*(y₂+y₁))/2 (3)

S₄＝((x₂-x₃)*(y₃+y₂))/2 (4)

S＝(S₂+S₃)-(S₁+S₄) (5)

而p_i(i＝1，2，3，4)代表矩形的四个顶点，x₀至x₃为四个顶点的横坐标，而y₀至y₃为四个顶点的纵坐标；

D(p_i，p_j)代表两个顶点之间的相对长度。首先让四边形的两条较长边沿文本方向向中心进行收缩，然后两条较短的边沿文本切线方向中心移动。预测框的每条边用D(p_i，p_{(i mod 4)+1})表示，两条较长边向文本区域中心收缩Nr_i的像素单位，两条较短边向文本区域中心收缩Nr_i(i mod 4)+1的像素单位。这里的N是一个超参数，针对不同比例尺的图像，根据地质图像的比例尺将N(0.0～1.0)设置为不同的值，可以优化检测结果；

(2)按比例尺切割训练样本，在训练过程中，采用多尺度的训练方法，对于比例尺为1∶N，大小为M*M的的地质图像，在训练阶段为每张图像设置的尺度为X*X*X，其中X＝[M/N]；每张图像选择对应比例尺的尺度组成多尺度图像训练集；

(3)引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度，公式如下：

FL(p_t)＝-(1-p_t)^γlog(p_t) (6)

这里的γ称作focusing parameter，γ＞＝0，而p_t则表示第t个样本预测为1这个类的概率。

利用动态调整权重的策略对文本区域损失L_g进行改进，使L_g中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致；对于一张比例尺为1∶N的地质图像，同一批次训练样本中的文本区域都包含相同的权重W_i，图像中的像素点i应该满足公式(7)：

其中S及S_i的定义如前文所述；当图像样本中S_i的数量增加时，损失的权值会受到抑制；当图像样本中S_i的数量减少时，尺度较小的文本区域权值会变大，尺度较大的文本区域权值会相应变小，权重会相对一致，改进后的L_g回归损失如公式(8)所示：

式中：y_hard为将文本框中面积大于或等于某个阈值的框设置为困难样本，

表示预测的几何形状，R^*是其相应的标注框。计算相交矩形的宽度和高度；

(4)在局部感知NMS的基础上，利用倾斜的NMS处理地质图像数据集中的倾斜文本，其步骤如下：

1)对网络输出的旋转矩形文本检测框按照得分进行降序排列，并存储到一个降序列表里；

2)依次遍历上述的降序列表，将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合；

3)根据判断相交点集合组成的凸多边形的面积，计算每两个文本检测框的IOU；对于大于阈值的文本框进行过滤，保留小于阈值的文本框；

4)得到最终的文本矩形检测框。

本发明的有益效果是：本发明采用多尺度对象分割算法进行图像背景和图像文本的分割，同时结合按比例尺方法切割训练样本，然后运用focal-loss函数改进模型损失函数，最后采用难、易检测文本目标权重动态调整策略来改进文本目标漏检的问题。实验验证了文中提出的算法具有检测准确率较高、对不同的地质图像的适应力较强的优点。能够有效降低地质图像文本检测的漏检率，具有一定的工程应用价值。实验结果表明，对多比例尺栅格地质图像进行文本检测，采用改进后EAST算法准确率相对改进前提高了5.1％，可更加快速、准确的检索到相关地质图像文字。

附图说明

图1为本发明实施例中EAST算法网络结构图；

图2为本发明实施例中重叠区域面积计算过程示意图；

图3为本发明实施例中背景文字相对分离示意图；

图4为本发明实施例中背景和文字交叉示意图；

图5为本发明实施例中Focal-loss与交叉熵损失函数对比示意图；

图6为本发明实施例中实际的复杂地质图像中文本检测效果对比示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的阐述。

实施例：

基于改进EAST算法的地质图像文本检测方法，包括：

1、EAST算法

EAST算法主要包含三个部分：EAST算法神经网络结构、基于平衡的交叉熵损失函数、局部感知非极大值抑制网络(NMS)。其中：

(1)EAST算法神经网络结构

EAST算法的神经网络结构如图1所示，由图1可知该网络结构分为特征提取器主干、特征合并分支和输出层三个部分。

特征提取器主干从ImageNet数据集上预训练的卷积网络中选取四组卷积层Conv1、Conv2、Conv3、Conv4。分别从中提取四个级别的特征图，表示为f₁、f₂、f₃、f₄。其图像大小分别为输入图像的1/32、1/16、1/8、1/4。

在特征合并分支中，逐层合并生成的四组特征图；

其中g_i是合并基础，h_i是合并的特征图，运算符[:；:]表示沿通道轴的合并。在每个合并阶段，来自最后一个阶段的特征图首先被输入到反池化层(unpool)中以使其大小加倍，然后与当前特征图合并。通过conv1×1的卷积层减少通道的数量并且减少计算量，接着是一个conv3×3的卷积层，它融合了局部信息产生这个合并阶段的输出。在最后一个合并阶段之后，使用conv3×3卷积核合并所有的特征图并将其输入到输出层。

输出层分为三个部分：置信度、文本区域和文本区域旋转角度、包含8个坐标的矩形文本区域。最终的输出结果是1x1的卷积提取特征。

(2)基于平衡的交叉熵损失函数

原算法的损失函数可以表示为：

L＝L_s+λ_gL_g (3)

其中,L_g表示分割图像背景和图像文本的分类损失，文本区域所在的部分表示1，非文本区域的背景部分表示0，即像素点的分类损失。L_g表示对应文本区域的像素点所组成的矩形框和矩形框角度的回归损失。λ_g表示两个损失之间的相关性。

为了简化训练过程，分类损失使用平衡的交叉熵，在原EAST算法中将λ_g设置为1，公式如下：

其中

表示置信度的预测值，Y^*表示置信度的真实值，参数β是正样本和负样本之间的平衡因子。其计算公式如下所示：

L_g几何图损失又分为两部分，一部分是IOU损失，一部分为旋转角度损失：

其中，

是文本区域旋转角度的预测值，而θ^*表示文本区域旋转角度的真实值。最后，总体文本框矩形的几何损失是AABB损失和角度损失的加权和，AABB表示从像素位置到文本矩形的上下左右4个边界的距离，公式如下：

L_g＝L_AABB+λ_θL_θ (8)

(3)部感知非极大值抑制网络(NMS)

非极大值抑制(Non-Maximum Suppression)，简称NMS，简单理解就是局部最大搜索，在目标识别、数据挖掘、目标跟踪等计算机领域有重要作用。在目标检测中，经过分类器识别后，会产生多个预测框，每个预测框都会有一个分数，但是绝大多数预测框会出现交叉或包含的情形，所以就需要通过NMS来获得邻域里得分最高的预测框，同时抑制分数低的预测框，得到最终结果。

局部感知基于邻近几个多边形是高度相关的假设，在标准NMS的基础上加了权重覆盖，就是将2个IOU(重叠区域面积比例)高于某个阈值的输出框，进行基于得分的合并。合并后的输出框的坐标数值介于两个合并的输入框之间，这样可以将所有回归出的框的坐标信息都利用起来，有助于减少位置误差，而标准的NMS是直接取分数最高的那个。

由于两个矩形文本框重叠的部分可以是任意多边形，计算重叠区域面积的难度较大。所以局部感知NMS一般采取简化的计算方式，将相交部分近似为一个矩形。如图2：图中S1-S4各部分代表一个梯形的面积，即S1、S2、S3、S4(图2中四个子图中紫色部分梯形面积)。每次只需要计算S1、S2、S3、S4部分的面积，其计算可通过公式(1)-(4)得到。而最后总的文本区域S(图2绿色部分面积)由上述提到的四个梯形S1、S2、S3、S4间相互交叠的部分组成，需对四个梯形面积进行加减法计算，得到的文本区域S的计算公式，如公式(5)所示：

S₁＝((x₃-x₀)*(y₃+y₀))/2 (1)

S₂＝((x₁-x₀)*(y₁+y₀))/2 (2)

S₃＝((x₂-x₁)*(y₂+y₁))/2 (3)

5₄＝((x₂-x₃)*(y₃+y₂))/2 (4)

S＝(S₂+S₃)-(S₁+S₄) (5)

而p_i(i＝1，2，3，4)代表矩形的四个顶点，x₀至x₃为四个顶点的横坐标，而y₀至y₃为四个顶点的纵坐标。

2.改进的EAST算法

基于地质图像本身的特点，本申请通过四个方面对EAST算法进行改进。分别是：基于可变尺度的图像分割优化、按比例尺切割训练样本、损失函数的优化以及增加倾斜的NMS对倾斜文本框检测的优化。其中：

(1)基于可变尺度的图像分割优化

地质图像具有范围大，比例尺多样，文本尺度不统一，干扰信息复杂等特点。尤其是对文本区域的检测，背景信息十分复杂，而图像中的文本分布和背景元素交叉的情况往往较多，文本特征提取较为困难，检测准确性不高。所以在进行图像分割时，必须要考虑到这些因素。现有技术中通过两种利用特征的方式：将图像转化为不同尺度，在各个尺度的图像上提取特征，在不同的特征上分别进行预测，该方法增加了时间复杂度；第二种方式是提取图像最后一层的特征进行预测，如SPP-Net，Faster R-CNN等；从多个网络层提取不同尺度特征图做预测，如SSD算法。

提取地质图像的文本区域，首先要对图像背景和图像文字的像素点做一个分类，实际上就是一个图像分割的过程，训练的时候，文字区域所在部分表示1，非文字的背景部分表示0，这样就能得到分类任务的groundTruth。

但是对于图4中的情况，当文本和背景的颜色无法区分开的时候，文本区域的检测并不准确。为了对边界像素点可以更好的分类，这个方法对图4中原有的检测框做了一点收缩，如图中黄色虚线框收缩成绿色文本框，这样边界像素点可以分类得更准确。

由于在检测过程中地质图像的标准框中会存在一些非目标信息，通过对边界像素点的缩进可以减少这些信息对目标区域的影响，提高网络检测的准确性，如公式(14)所示。对于四边形的每条边D(p_i，p_{(i mod 4)+1})，使其每个顶点分别缩进Nr_i和Nr_i(i mod 4)+1。这里的N是一个超参数，针对不同比例尺的图像，根据地质图像的比例尺将N(0.0～1.0)设置为不同的值,可以优化检测结果。

(2)按比例尺切割训练样本

实际的地质图像中地质文本受到不同比例尺的影响，不同尺度图像上的地质文本尺度差异较大。在训练过程中，原EAST算法使用固定尺寸的图像进行训练，因此对于不同比例尺的地质文字图像，该算法对文本区域的漏检情况比较多。本申请采取多尺度的训练方法，对于一张比例尺为1:N，大小为M*M的的地质图像，在训练阶段为每张图像设置的尺度为X*X*X,其中X＝[M/N]。然后每张图像选择对应比例尺的尺度组成多尺度图像训练集。实验证明多尺度训练能够提高算法对不同比例尺的地质图像文本检测的泛化能力。

(3)损失函数的改进

EAST算法使用交叉熵损失函数作为分类损失函数，但是该函数的收敛速度较慢，计算量大，训练过程耗时较多，交叉熵损失函数，公式如下：

因为是二分类，所以y的值是正1或负1，p的范围为0到1。当真实标签是1，也就是y＝1时，假如某个样本x预测为1这个类的概率p＝0.5，那么损失就是-log(0.5)，注意这个损失是大于等于0的。如果p＝0.8，那么损失就是-log(0.8)，所以p＝0.5的损失要大于p＝0.8的损失。

因此为了加快收敛速度，本申请引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度，公式如下：

FL(p_t)＝-(1-p_t)^γlog(p_t) (16)

这里的γ称作focusing parameter，γ＞＝0，而p_t则表示第t个样本预测为1这个类的概率。Focal-loss的收敛速度更快，效果优于交叉熵损失函数的效果。其本质上是不断学习，使文本检测区域的交并比越来越大。

图5为使用交叉熵损失函数和focal-loss损失函数在训练过程中的损失值曲线，从图中可以看出随着调制系数γ的增大，网络的收敛速度越快。当γ＝0时，函数就变为了交叉熵损失函数，其收敛速度较慢。

由于实际的地质图像中文字尺度变化较大。尺度不同的文本目标在回归损失中的权重不同，导致网络再文本检测中出现漏检的问题。因此，本申请利用动态调整权重的策略对文本区域损失L_g进行改进，使L_g中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致。对于一张比例尺为1:N的地质图像，同一批次训练样本中的文本区域都包含相同的权重W_i，图像中的像素点i应该满足公式(17)：

其中S及S_i表述均如前文所述。当图像样本中S_i的数量增加时，损失的权值会受到抑制；当图像样本中S_i的数量减少时，尺度较小的文本区域权值会变大，尺度较大的文本区域权值会相应变小，权重会相对一致，有利于文本目标的检测。改进后的L_g回归损失如公式(18)所示：

y_hard就是将文本框中面积大于或等于某个阈值的框设置为困难样本，这些样本训练起来较为困难，所以减少这些样本的权重对于文本检测定位效果有明显提升。

(4)倾斜NMS

由于使用的地质图像数据集中的海域部分包含有大量的倾斜文本，因此本申请在局部感知NMS的基础上增加了倾斜的NMS(Improved Non-Maximum Suppression)来处理这些倾斜文本，其基本步骤如下：

3)根据判断相交点集合组成的凸多边形的面积，计算没两个文本检测框的IOU(重叠区域面积比例)；对于大于阈值的文本框进行过滤，保留小于阈值的文本框；

4)得到最终的文本矩形检测框。

3.效果评估

本实施例中所用的地质图像数据集来自中国国家地质调查局的公开数据，语言为中文。为了提高算法对地质文本检测的泛化能力，本实施例使用阿里巴巴“图像和美”团队联合华南理工大学共同举办ICPR MTWI 2018挑战赛公开的基于网络图片的中英文数据集进行预训练。该数据集数据量充分，涵盖数十种字体，几个到几百像素字号，多种版式，较多干扰背景。其图像背景复杂性和地质图像较为类似。另外本实验采用了地质调查局的135张大型地质图像，按比例尺分割为4000多个训练样本构成文本检测数据集。并且根据实验要求使用红色文本框对地质图像区域中的中文编码进行标注，其中每张图像对应一个text标签文件，包含了所标注的文本区域的8个坐标点。

为了评估改进前后的算法对地质图像文本检测的有效性，实验使用准确率(Precision)，召回率(recall)、漏检率(1-recall)、得分值(F1-score)评价算法对文本检测的有效性。其中检出率等于召回率，具体定义公式如下所示：

其中，tp、fp、fn分别表示正确预测的文本区域的数量、错误预测的文本区域的数量和漏检的文本区域数量。

(1)算法改进前后检测效果对比

使用3000张按比例尺分割后的地质图像对EAST算法和结合图像分割优化，按比例尺切割训练样本和损失函数优化后的改进EAST算法进行训练，然后将训练好的模型在剩余的1000张地质图像测试集(包含4186个标注的文本区域)上进行测试。改进前后的算法效果对比如表1所示：

表1两种算法检测效果对比

从表1可以看出改进EAST算法在检测准确率上提高了4.3％，准确检测到文本框的概率提高了5.1％，f1-score值提高了4.9％。图6为实际的复杂地质图像中文本检测效果对比，图6(b)中可以看出改进的EAST算法能够准确检测出较多的地质图像文本区域，而图6(a)中的EAST算法漏检的文本区域较多。实验证明改进的EAST算法检测效果优于原EAST算法。

(2)不同优化方法文本检测效果对比

表2列出了使用不同优化方式对检测效果的影响，由于优化了图像分割方式，方法2比方法1的漏检率降低了4.1％。由于按比例尺切割训练样本增加了网络对不同尺度图像的适应性，方法3比方法1的漏检率降低了1.4％。方法5和方法1对比后发现，使用focal-loss损失函数替代交叉熵损失函数，优化损失函数后的方法漏检率降低了5.1％。

表2不同优化方法效果对比

Claims

1.一种基于改进EAST算法的栅格地质图文本检测方法，其特征是：包括：

S₁＝((x₃-x₀)*(y₃+y₀))/2 (1)

S₂＝((x₁-x₀)*(y₁+y₀))/2 (2)

S₃＝((x₂-x₁)*(y₂+y₁))/2 (3)

S₄＝((x₂-x₃)*(y₃+y₂))/2 (4)

S＝(S₂+S₃)-(S₁+S₄) (5)

对于四边形的每条边D(p_i，p_(imod4)+1)，使其每个顶点分别缩进Nr_i和Nr_i(i mod 4)+1，其中N是一个超参数，针对不同比例尺的图像，根据地质图像的比例尺将N(0.0～1.0)设置为不同的值，优化检测结果；

(2)按比例尺切割训练样本，在训练过程中，采用多尺度的训练方法，对于比例尺为1∶N，大小为M*M的地质图像，在训练阶段为每张图像设置的尺度为X*X*X，其中X＝[M/N]；每张图像选择对应比例尺的尺度组成多尺度图像训练集；

FL(p_t)＝-(1-p_t)^γlog(p_t) (6)

这里的γ称作focusing parameter，γ＞＝0，而p_t则表示第t个样本预测为1这个类的概率；

表示预测的几何形状，R^*是其相应的标注框；计算相交矩形的宽度和高度；

4)得到最终的文本矩形检测框。