CN112215226A - 一种基于改进east算法的栅格地质图文本检测方法 - Google Patents

一种基于改进east算法的栅格地质图文本检测方法 Download PDF

Info

Publication number
CN112215226A
CN112215226A CN202011184567.0A CN202011184567A CN112215226A CN 112215226 A CN112215226 A CN 112215226A CN 202011184567 A CN202011184567 A CN 202011184567A CN 112215226 A CN112215226 A CN 112215226A
Authority
CN
China
Prior art keywords
text
image
scale
geological
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011184567.0A
Other languages
English (en)
Other versions
CN112215226B (zh
Inventor
王茂发
韩定良
高光大
王子民
潘明华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202011184567.0A priority Critical patent/CN112215226B/zh
Publication of CN112215226A publication Critical patent/CN112215226A/zh
Application granted granted Critical
Publication of CN112215226B publication Critical patent/CN112215226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进EAST算法的栅格地质图文本检测方法,该方法采用多尺度对象分割算法进行图像背景和图像文本的分割,同时结合按比例尺方法切割训练样本,然后运用focal‑loss函数改进模型损失函数,最后采用难、易检测文本目标权重动态调整策略来改进文本目标漏检的问题。实验验证了该算法具有检测准确率较高、对不同的地质图像的适应力较强的优点。能够有效降低地质图像文本检测的漏检率,具有一定的工程应用价值。实验结果表明,对多比例尺栅格地质图像进行文本检测,采用改进后EAST算法准确率相对改进前提高了5.1%,可更加快速、准确的检索到相关地质图像文字。

Description

一种基于改进EAST算法的栅格地质图文本检测方法
技术领域
本发明涉及栅格地质图像的处理技术,具体是一种基于改进EAST算法的地质图像文本检测方法。
背景技术
我国历史上形成的百万档级海量栅格地质图像包括了大量的地理、地质信息,对矿床发现、石油勘探、储量估计、地理坐标定位等有着重大意义。栅格地质图像中的信息呈现形式以文本字符为主,因此栅格地质图像中的文本识别、定位研究就显得尤为重要。
随着深度学习技术的不断发展,地质领域存在的大量栅格图像数据亟待通过新技术来进行处理。面对历史上如此海量的地质图像,传统的人工处理方式已经满足不了检索需要。文本检测算法通过计算机自动框定出文本在地质图像中的范围,作为后续文本识别过程的先行条件,在地质图像的检索和信息提取中起着举足轻重的作用。
传统的文本检测方法和一些基于深度神经网络的文本定位方法,主要由若干阶段和组件构成,在训练时需要对多个步骤进行调优,耗费时间较多。所以这些方法的准确率和效率仍然不能达到工业级别的应用。
发明内容
针对现有文本检测算法对地质图像中的文本符号检测准确率不够高,不同比例尺的图像检测差异大,文本尺度多样化的问题,本发明提供了一种基于改进EAST算法的地质图像文本检测方法,该方法运用多尺度的方法进行图像背景和图像文本的分割,然后按不同比例尺切割图像训练样本,通过减少易提取样本的权重策略改进损失函数解决文本框漏检的问题,使得算法在地质图像上的检测效果更好。
实现本发明目的的技术方案是:
一种基于改进EAST算法的栅格地质图文本检测方法,包括:
(1)提取地质图像的文本区域,对图像背景和图像文字的像素点进行分割训练,公式如下:
Figure 100002_DEST_PATH_IMAGE002
(1)
对于四边形的每条边
Figure 100002_DEST_PATH_IMAGE004
,使其每个顶点分别缩进
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE008
,其中N是一个超参数,针对不同比例尺的图像,根据地质图像的比例尺将N(0.0~1.0)设置为不同的值,优化检测结果;
(2)按比例尺切割训练样本,在训练过程中,采用多尺度的训练方法,对于比例尺为1︰N,大小为M*M的的地质图像,在训练阶段为每张图像设置的尺度为X*X*X,其中X=[M/N];每张图像选择对应比例尺的尺度组成多尺度图像训练集;
(3)引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度,公式如下:
Figure 100002_DEST_PATH_IMAGE010
(2)
式中:
Figure 100002_DEST_PATH_IMAGE012
利用动态调整权重的策略对文本区域损失
Figure 100002_DEST_PATH_IMAGE014
进行改进,使
Figure 555126DEST_PATH_IMAGE014
中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致;对于一张比例尺为1:N的地质图像,同一批次训练样本中的文本区域都包含相同的权重
Figure 100002_DEST_PATH_IMAGE016
,图像中的像素点i应该满足公式(3):
Figure 100002_DEST_PATH_IMAGE018
(3)
其中
Figure 100002_DEST_PATH_IMAGE020
表示图像中总像素的个数,
Figure 100002_DEST_PATH_IMAGE022
表示文本区域中实际的文字像素的个数;当图像样本中
Figure 315010DEST_PATH_IMAGE022
的数量增加时,损失的权值会受到抑制;当图像样本中
Figure 891485DEST_PATH_IMAGE022
的数量减少时,尺度较小的文本区域权值会变大,尺度较大的文本区域权值会相应变小,权重会相对一致,改进后的
Figure 568585DEST_PATH_IMAGE014
回归损失如公式(4)所示:
Figure 100002_DEST_PATH_IMAGE024
(4)
式中:
Figure 100002_DEST_PATH_IMAGE026
为将文本框中面积大于或小于某个阈值的框设置为困难样本;
(4)在局部感知NMS的基础上,利用倾斜的NMS处理地质图像数据集中的倾斜文本,其步骤如下:
1)对网络输出的旋转矩形文本检测框按照得分进行降序排列,并存储到一个降序列表里;
2)依次遍历上述的降序列表,将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合;
3)根据判断相交点集合组成的凸多边形的面积,计算每两个文本检测框的IOU;对于大于阈值的文本框进行过滤,保留小于阈值的文本框;
4)得到最终的文本矩形检测框。
本发明的有益效果是:本发明采用多尺度对象分割算法进行图像背景和图像文本的分割,同时结合按比例尺方法切割训练样本,然后运用focal-loss函数改进模型损失函数,最后采用难、易检测文本目标权重动态调整策略来改进文本目标漏检的问题。实验验证了文中提出的算法具有检测准确率较高、对不同的地质图像的适应力较强的优点。能够有效降低地质图像文本检测的漏检率,具有一定的工程应用价值。实验结果表明,对多比例尺栅格地质图像进行文本检测,采用改进后EAST算法准确率相对改进前提高了5.1%,可更加快速、准确的检索到相关地质图像文字。
附图说明
图1为本发明实施例中EAST算法网络结构图;
图2为本发明实施例中重叠区域面积计算过程示意图;
图3为本发明实施例中背景文字相对分离示意图;
图4为本发明实施例中背景和文字交叉示意图;
图5为本发明实施例中Focal-loss与交叉熵损失函数对比示意图;
图6为本发明实施例中实际的复杂地质图像中文本检测效果对比示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的阐述。
实施例:
基于改进EAST算法的地质图像文本检测方法,包括:
1、EAST算法
EAST算法主要包含三个部分:EAST算法神经网络结构、基于平衡的交叉熵损失函数、局部感知非极大值抑制网络(NMS)。其中:
(1)EAST算法神经网络结构
EAST算法的神经网络结构如图1所示,由图1可知该网络结构分为特征提取器主干、特征合并分支和输出层三个部分。
特征提取器主干从ImageNet数据集上预训练的卷积网络中选取四组卷积层Conv1、Conv2、Conv3、Conv4。分别从中提取四个级别的特征图,表示为f 1 f 2 f 3 f 4 。其图像大小分别为输入图像的1/32、1/16、1/8、1/4。
在特征合并分支中,逐层合并生成的四组特征图;
Figure DEST_PATH_IMAGE028
(1)
Figure DEST_PATH_IMAGE030
(2)
其中
Figure DEST_PATH_IMAGE032
是合并基础,
Figure DEST_PATH_IMAGE034
是合并的特征图,运算符 [:;:] 表示沿通道轴的合并。在每个合并阶段,来自最后一个阶段的特征图首先被输入到反池化层(unpool)中以使其大小加倍,然后与当前特征图合并。通过conv1×1的卷积层减少通道的数量并且减少计算量,接着是一个conv3×3的卷积层,它融合了局部信息产生这个合并阶段的输出。在最后一个合并阶段之后,使用conv3×3卷积核合并所有的特征图并将其输入到输出层。
输出层分为三个部分:置信度、文本区域和文本区域旋转角度、包含8个坐标的矩形文本区域。最终的输出结果是1x1的卷积提取特征。
(2)基于平衡的交叉熵损失函数
原算法的损失函数可以表示为:
Figure DEST_PATH_IMAGE036
(3)
其中,
Figure DEST_PATH_IMAGE038
表示分割图像背景和图像文本的分类损失,文本区域所在的部分表示1,非文本区域的背景部分表示0,即像素点的分类损失。
Figure 22438DEST_PATH_IMAGE014
表示对应文本区域的像素点所组成的矩形框和矩形框角度的回归损失。
Figure DEST_PATH_IMAGE040
表示两个损失之间的相关性。
为了简化训练过程,分类损失使用平衡的交叉熵,在原EAST算法中将
Figure 376058DEST_PATH_IMAGE040
设置为1,公式如下:
Figure DEST_PATH_IMAGE042
(4)
其中
Figure DEST_PATH_IMAGE044
表示置信度的预测值,
Figure DEST_PATH_IMAGE046
表示置信度的真实值,参数
Figure DEST_PATH_IMAGE048
是正样本和负样本之间的平衡因子。其计算公式如下所示:
Figure DEST_PATH_IMAGE050
(5)
Figure 784037DEST_PATH_IMAGE014
几何图损失又分为两部分,一部分是IOU损失,一部分为旋转角度损失:
Figure DEST_PATH_IMAGE052
(6)
Figure DEST_PATH_IMAGE054
(7)
其中,
Figure DEST_PATH_IMAGE056
是文本区域旋转角度的预测值,而
Figure DEST_PATH_IMAGE058
表示文本区域旋转角度的真实值。最后,总体文本框矩形的几何损失是AABB损失和角度损失的加权和,AABB表示从像素位置到文本矩形的上下左右4个边界的距离,公式如下:
Figure DEST_PATH_IMAGE060
(8)
(3)部感知非极大值抑制网络(NMS)
非极大值抑制(Non-Maximum Suppression),简称NMS,简单理解就是局部最大搜索,在目标识别、数据挖掘、目标跟踪等计算机领域有重要作用。在目标检测中,经过分类器识别后,会产生多个预测框,每个预测框都会有一个分数,但是绝大多数预测框会出现交叉或包含的情形,所以就需要通过NMS来获得邻域里得分最高的预测框,同时抑制分数低的预测框,得到最终结果。
局部感知基于邻近几个多边形是高度相关的假设,在标准NMS的基础上加了权重覆盖,就是将2个IOU(重叠区域面积比例)高于某个阈值的输出框,进行基于得分的合并。合并后的输出框的坐标数值介于两个合并的输入框之间,这样可以将所有回归出的框的坐标信息都利用起来,有助于减少位置误差,而标准的NMS是直接取分数最高的那个。
由于两个矩形文本框重叠的部分可以是任意多边形,计算重叠区域面积的难度较大。所以局部感知NMS一般采取简化的计算方式,将相交部分近似为一个矩形。如图3所示,每计算一次相当于计算一次梯形的面积。最终重叠区域的计算方法如公式(14)所示:
Figure 380276DEST_PATH_IMAGE002
(9)
2.改进的EAST算法
基于地质图像本身的特点,本申请通过四个方面对EAST算法进行改进。分别是:基于可变尺度的图像分割优化、按比例尺切割训练样本、损失函数的优化以及增加倾斜的NMS对倾斜文本框检测的优化。其中:
(1)基于可变尺度的图像分割优化
地质图像具有范围大,比例尺多样,文本尺度不统一,干扰信息复杂等特点。尤其是对文本区域的检测,背景信息十分复杂,而图像中的文本分布和背景元素交叉的情况往往较多,文本特征提取较为困难,检测准确性不高。所以在进行图像分割时,必须要考虑到这些因素。现有技术中通过两种利用特征的方式:将图像转化为不同尺度,在各个尺度的图像上提取特征,在不同的特征上分别进行预测,该方法增加了时间复杂度;第二种方式是提取图像最后一层的特征进行预测,如SPP-Net,Faster R-CNN等;从多个网络层提取不同尺度特征图做预测,如SSD算法。
提取地质图像的文本区域,首先要对图像背景和图像文字的像素点做一个分类,实际上就是一个图像分割的过程,训练的时候,文字区域所在部分表示1,非文字的背景部分表示0,这样就能得到分类任务的groundTruth。
但是对于图(4)中的情况,当文本和背景的颜色无法区分开的时候,文本区域的检测并不准确。为了对边界像素点可以更好的分类,这个方法对图(4)中原有的检测框做了一点收缩,如图中黄色虚线框收缩成绿色文本框,这样边界像素点可以分类得更准确。
Figure DEST_PATH_IMAGE062
(10)
由于在检测过程中地质图像的标准框中会存在一些非目标信息,通过对边界像素点的缩进可以减少这些信息对目标区域的影响,提高网络检测的准确性,如公式(10)所示。对于四边形的每条边
Figure 580313DEST_PATH_IMAGE004
,使其每个顶点分别缩进
Figure 855568DEST_PATH_IMAGE006
Figure 344318DEST_PATH_IMAGE008
。这里的N是一个超参数,针对不同比例尺的图像,根据地质图像的比例尺将N(0.0~1.0)设置为不同的值,可以优化检测结果。
(2)按比例尺切割训练样本
实际的地质图像中地质文本受到不同比例尺的影响,不同尺度图像上的地质文本尺度差异较大。在训练过程中,原EAST算法使用固定尺寸的图像进行训练,因此对于不同比例尺的地质文字图像,该算法对文本区域的漏检情况比较多。本申请采取多尺度的训练方法,对于一张比例尺为1:N,大小为M*M的的地质图像,在训练阶段为每张图像设置的尺度为X*X*X,其中X=[M/N]。然后每张图像选择对应比例尺的尺度组成多尺度图像训练集。实验证明多尺度训练能够提高算法对不同比例尺的地质图像文本检测的泛化能力。
(3)损失函数的改进
EAST算法使用交叉熵损失函数作为分类损失函数,但是该函数的收敛速度较慢,计算量大,训练过程耗时较多,交叉熵损失函数,公式如下:
Figure DEST_PATH_IMAGE064
(11)
因为是二分类,所以
Figure DEST_PATH_IMAGE066
的值是正1或负1,p的范围为0到1。当真实标签是1,也就是y=1时,假如某个样本x预测为1这个类的概率p=0.5,那么损失就是
Figure DEST_PATH_IMAGE068
,注意这个损失是大于等于0的。如果p=0.8,那么损失就是
Figure DEST_PATH_IMAGE070
,所以p=0.5的损失要大于p=0.8的损失。
因此为了加快收敛速度,本申请引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度,公式如下:
Figure 674805DEST_PATH_IMAGE010
(12)
这里的
Figure DEST_PATH_IMAGE072
称作focusing parameter,
Figure 775354DEST_PATH_IMAGE012
。Focal-loss的收敛速度更快,效果优于交叉熵损失函数的效果。其本质上是不断学习,使文本检测区域的交并比越来越大。
图5为使用交叉熵损失函数和focal-loss损失函数在训练过程中的损失值曲线,从图中可以看出随着调制系数
Figure 939619DEST_PATH_IMAGE072
的增大,网络的收敛速度越快。当
Figure DEST_PATH_IMAGE074
时,函数就变为了交叉熵损失函数,其收敛速度较慢。
由于实际的地质图像中文字尺度变化较大。尺度不同的文本目标在回归损失中的权重不同,导致网络再文本检测中出现漏检的问题。因此,本申请利用动态调整权重的策略对文本区域损失
Figure 509141DEST_PATH_IMAGE014
进行改进,使
Figure 518685DEST_PATH_IMAGE014
中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致。对于一张比例尺为1:N的地质图像,同一批次训练样本中的文本区域都包含相同的权重
Figure 709626DEST_PATH_IMAGE016
,图像中的像素点i应该满足公式(13):
Figure 575951DEST_PATH_IMAGE018
(13)
其中
Figure 39294DEST_PATH_IMAGE020
表示图像中总像素的个数,
Figure 914846DEST_PATH_IMAGE022
表示文本区域中实际的文字像素的个数。当图像样本中
Figure 147244DEST_PATH_IMAGE022
的数量增加时,损失的权值会受到抑制;当图像样本中
Figure 715629DEST_PATH_IMAGE022
的数量减少时,尺度较小的文本区域权值会变大,尺度较大的文本区域权值会相应变小,权重会相对一致,有利于文本目标的检测。改进后的
Figure 446693DEST_PATH_IMAGE014
回归损失如公式(14)所示:
Figure 63619DEST_PATH_IMAGE024
(14)
Figure 947262DEST_PATH_IMAGE026
就是将文本框中面积大于或小于某个阈值的框设置为困难样本,这些样本训练起来较为困难,所以减少这些样本的权重对于文本检测定位效果有明显提升。
(4)倾斜NMS
由于使用的地质图像数据集中的海域部分包含有大量的倾斜文本,因此本申请在局部感知NMS的基础上增加了倾斜的NMS(Improved Non-Maximum Suppression)来处理这些倾斜文本,其基本步骤如下:
1)对网络输出的旋转矩形文本检测框按照得分进行降序排列,并存储到一个降序列表里;
2)依次遍历上述的降序列表,将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合;
3)根据判断相交点集合组成的凸多边形的面积,计算没两个文本检测框的IOU(重叠区域面积比例);对于大于阈值的文本框进行过滤,保留小于阈值的文本框;
4)得到最终的文本矩形检测框。
3.效果评估
本实施例中所用的地质图像数据集来自中国国家地质调查局的公开数据,语言为中文。为了提高算法对地质文本检测的泛化能力,本实施例使用阿里巴巴“图像和美”团队联合华南理工大学共同举办ICPR MTWI 2018 挑战赛公开的基于网络图片的中英文数据集进行预训练。该数据集数据量充分,涵盖数十种字体,几个到几百像素字号,多种版式,较多干扰背景。其图像背景复杂性和地质图像较为类似。另外本实验采用了地质调查局的135张大型地质图像,按比例尺分割为4000多个训练样本构成文本检测数据集。并且根据实验要求使用红色文本框对地质图像区域中的中文编码进行标注,其中每张图像对应一个text标签文件,包含了所标注的文本区域的8个坐标点。
为了评估改进前后的算法对地质图像文本检测的有效性,实验使用准确率(Precision),召回率(recall)、漏检率(1-recall)、得分值(F1-score)评价算法对文本检测的有效性。其中检出率等于召回率,具体定义公式如下所示:
Figure DEST_PATH_IMAGE076
(15)
其中,
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
分别表示正确预测的文本区域的数量、错误预测的文本区域的数量和漏检的文本区域数量。
(1)算法改进前后检测效果对比
使用3000张按比例尺分割后的地质图像对EAST算法和结合图像分割优化,按比例尺切割训练样本和损失函数优化后的改进EAST算法进行训练,然后将训练好的模型在剩余的1000张地质图像测试集(包含4186个标注的文本区域)上进行测试。改进前后的算法效果对比如表1所示:
表1 两种算法检测效果对比
方法 正确检测 错误检测 漏检 准确率 检出率 F1-score
EAST 2858 454 874 86.3 79.1 82.5
改进EAST 3185 323 678 90.8 84.2 87.4
从表1可以看出改进EAST算法在检测准确率上提高了4.3%,准确检测到文本框的概率提高了5.1%,f1-score值提高了4.9%。图6为实际的复杂地质图像中文本检测效果对比,图(b)中可以看出改进的EAST算法能够准确检测出较多的地质图像文本区域,而图(a)中的EAST算法漏检的文本区域较多。实验证明改进的EAST算法检测效果优于原EAST算法。
(2)不同优化方法文本检测效果对比
表2列出了使用不同优化方式对检测效果的影响,由于优化了图像分割方式,方法2比方法1的漏检率降低了4.1%。由于按比例尺切割训练样本增加了网络对不同尺度图像的适应性,方法3比方法1的漏检率降低了1.4%。方法5和方法1对比后发现,使用focal-loss损失函数替代交叉熵损失函数,优化损失函数后的方法漏检率降低了5.1%。
表2 不同优化方法效果对比
方法 图像分割优化 按比例尺切割样本 focal-loss损失函数 准确率 漏检率 F1-score
1 86.3 20.9 82.5
2 87.1 16.8 83.0
3 88.0 19.5 84.7
4 89.2 18.6 85.2
5 90.8 15.8 87.4

Claims (1)

1.一种基于改进EAST算法的栅格地质图文本检测方法,其特征是:包括:
(1)提取地质图像的文本区域,对图像背景和图像文字的像素点进行分割训练,公式如下:
Figure DEST_PATH_IMAGE002
(1)
对于四边形的每条边
Figure DEST_PATH_IMAGE004
,使其每个顶点分别缩进
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
,其中N是一个超参数,针对不同比例尺的图像,根据地质图像的比例尺将N(0.0~1.0)设置为不同的值,优化检测结果;
(2)按比例尺切割训练样本,在训练过程中,采用多尺度的训练方法,对于比例尺为1︰N,大小为M*M的的地质图像,在训练阶段为每张图像设置的尺度为X*X*X,其中X=[M/N];每张图像选择对应比例尺的尺度组成多尺度图像训练集;
(3)引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度,公式如下:
Figure DEST_PATH_IMAGE010
(2)
式中:
Figure DEST_PATH_IMAGE012
利用动态调整权重的策略对文本区域损失
Figure DEST_PATH_IMAGE014
进行改进,使
Figure 243524DEST_PATH_IMAGE014
中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致;对于一张比例尺为1:N的地质图像,同一批次训练样本中的文本区域都包含相同的权重
Figure DEST_PATH_IMAGE016
,图像中的像素点i应该满足公式(3):
Figure DEST_PATH_IMAGE018
(3)
其中
Figure DEST_PATH_IMAGE020
表示图像中总像素的个数,
Figure DEST_PATH_IMAGE022
表示文本区域中实际的文字像素的个数;当图像样本中
Figure 291245DEST_PATH_IMAGE022
的数量增加时,损失的权值会受到抑制;当图像样本中
Figure 977442DEST_PATH_IMAGE022
的数量减少时,尺度较小的文本区域权值会变大,尺度较大的文本区域权值会相应变小,权重会相对一致,改进后的
Figure 918853DEST_PATH_IMAGE014
回归损失如公式(4)所示:
Figure DEST_PATH_IMAGE024
(4)
式中:
Figure DEST_PATH_IMAGE026
为将文本框中面积大于或小于某个阈值的框设置为困难样本;
(4)在局部感知NMS的基础上,利用倾斜的NMS处理地质图像数据集中的倾斜文本,其步骤如下:
1)对网络输出的旋转矩形文本检测框按照得分进行降序排列,并存储到一个降序列表里;
2)依次遍历上述的降序列表,将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合;
3)根据判断相交点集合组成的凸多边形的面积,计算每两个文本检测框的IOU;对于大于阈值的文本框进行过滤,保留小于阈值的文本框;
4)得到最终的文本矩形检测框。
CN202011184567.0A 2020-10-30 2020-10-30 一种基于改进east算法的栅格地质图文本检测方法 Active CN112215226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011184567.0A CN112215226B (zh) 2020-10-30 2020-10-30 一种基于改进east算法的栅格地质图文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011184567.0A CN112215226B (zh) 2020-10-30 2020-10-30 一种基于改进east算法的栅格地质图文本检测方法

Publications (2)

Publication Number Publication Date
CN112215226A true CN112215226A (zh) 2021-01-12
CN112215226B CN112215226B (zh) 2022-06-07

Family

ID=74057591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011184567.0A Active CN112215226B (zh) 2020-10-30 2020-10-30 一种基于改进east算法的栅格地质图文本检测方法

Country Status (1)

Country Link
CN (1) CN112215226B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686218A (zh) * 2021-03-09 2021-04-20 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置、可读存储介质及设备
CN115063800A (zh) * 2022-08-16 2022-09-16 阿里巴巴(中国)有限公司 文本识别方法和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法

Non-Patent Citations (17)

* Cited by examiner, † Cited by third party
Title
XINYU ZHOU等: "EAST: An Efficient and Accurate Scene Text Detector", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
XINYU ZHOU等: "EAST: An Efficient and Accurate Scene Text Detector", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 31 December 2017 (2017-12-31), pages 1 - 5 *
刘春等: "一种改进的图像中的文本检测模型", 《微电子学与计算机》, no. 06, 5 June 2020 (2020-06-05), pages 83 - 88 *
孙婧婧等: "基于轻量级网络的自然场景下的文本检测", 《电子测量技术》, no. 08, 23 April 2020 (2020-04-23), pages 101 - 107 *
易尧华等: "自然场景文本检测关键技术及应用", 《数字印刷》, no. 04, 10 August 2020 (2020-08-10), pages 1 - 22 *
池凯等: "改进EAST算法的游戏场景文本检测", 《小型微型计算机系统》 *
池凯等: "改进EAST算法的游戏场景文本检测", 《小型微型计算机系统》, no. 10, 15 October 2020 (2020-10-15), pages 2089 - 2193 *
蒋丽婷: "基于改进EAST算法的舰船目标检测研究", 《信息技术》 *
蒋丽婷: "基于改进EAST算法的舰船目标检测研究", 《信息技术》, 31 December 2019 (2019-12-31), pages 1 - 6 *
赵文清等: "改进的非极大值抑制算法的目标检测", 《中国图象图形学报》 *
赵文清等: "改进的非极大值抑制算法的目标检测", 《中国图象图形学报》, no. 11, 16 November 2018 (2018-11-16), pages 1 - 4 *
邹海鹏等: "乳腺超声肿瘤动态噪声指数及分割算法", 《中国图象图形学报》 *
邹海鹏等: "乳腺超声肿瘤动态噪声指数及分割算法", 《中国图象图形学报》, no. 10, 16 October 2020 (2020-10-16), pages 1 - 4 *
郭闯等: "基于BLSTM网络的改进EAST文本检测算法", 《计算机技术与发展》 *
郭闯等: "基于BLSTM网络的改进EAST文本检测算法", 《计算机技术与发展》, no. 07, 10 July 2020 (2020-07-10), pages 1 - 3 *
龙言等: "基于分支ResNet-50的EAST场景文字检测算法", 《北京信息科技大学学报(自然科学版)》 *
龙言等: "基于分支ResNet-50的EAST场景文字检测算法", 《北京信息科技大学学报(自然科学版)》, no. 03, 15 June 2020 (2020-06-15), pages 1 - 3 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686218A (zh) * 2021-03-09 2021-04-20 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置、可读存储介质及设备
CN112686218B (zh) * 2021-03-09 2021-06-22 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置、可读存储介质及设备
CN115063800A (zh) * 2022-08-16 2022-09-16 阿里巴巴(中国)有限公司 文本识别方法和电子设备

Also Published As

Publication number Publication date
CN112215226B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN109977943B (zh) 一种基于yolo的图像目标识别方法、系统和存储介质
CN110580699A (zh) 基于改进Faster RCNN算法的病理图像细胞核检测方法
Sun et al. Faster R-CNN based table detection combining corner locating
CN110390251B (zh) 一种基于多神经网络模型融合处理的图像文字语义分割方法
CN107358258B (zh) 基于nsct双cnn通道和选择性注意机制的sar图像目标分类
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN112215226B (zh) 一种基于改进east算法的栅格地质图文本检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN110008900B (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
CN111583279A (zh) 一种基于pcba的超像素图像分割方法
CN111783523A (zh) 一种遥感影像旋转目标检测方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN110633727A (zh) 基于选择性搜索的深度神经网络舰船目标细粒度识别方法
CN113011528B (zh) 一种基于上下文和级联结构的遥感图像小目标检测方法
CN112580624B (zh) 基于边界预测的多方向文本区域检测方法和装置
Jubair et al. A simplified method for handwritten character recognition from document image
Wu et al. Vehicle detection in high-resolution images using superpixel segmentation and CNN iteration strategy
KR102285269B1 (ko) 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법
Chu et al. Text detection in manga by deep region proposal, classification, and regression
CN114463732A (zh) 一种基于知识蒸馏的场景文本检测方法及装置
Kaiyan et al. An apple grading method based on improved VGG16 network
Taghizadeh et al. Region proposal generation: A hierarchical merging similarity-based algorithm
CN112115977B (zh) 基于尺度不变性与特征融合的目标检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210112

Assignee: Guilin Qinghong Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980044782

Denomination of invention: A Text Detection Method for Raster Geological Maps Based on Improved EAST Algorithm

Granted publication date: 20220607

License type: Common License

Record date: 20231031