CN112215226B - 一种基于改进east算法的栅格地质图文本检测方法 - Google Patents
一种基于改进east算法的栅格地质图文本检测方法 Download PDFInfo
- Publication number
- CN112215226B CN112215226B CN202011184567.0A CN202011184567A CN112215226B CN 112215226 B CN112215226 B CN 112215226B CN 202011184567 A CN202011184567 A CN 202011184567A CN 112215226 B CN112215226 B CN 112215226B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- scale
- geological
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000003709 image segmentation Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 25
- 230000000694 effects Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013102 re-test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进EAST算法的栅格地质图文本检测方法,该方法采用多尺度对象分割算法进行图像背景和图像文本的分割,同时结合按比例尺方法切割训练样本,然后运用focal‑loss函数改进模型损失函数,最后采用难、易检测文本目标权重动态调整策略来改进文本目标漏检的问题。实验验证了该算法具有检测准确率较高、对不同的地质图像的适应力较强的优点。能够有效降低地质图像文本检测的漏检率,具有一定的工程应用价值。实验结果表明,对多比例尺栅格地质图像进行文本检测,采用改进后EAST算法准确率相对改进前提高了5.1%,可更加快速、准确的检索到相关地质图像文字。
Description
技术领域
本发明涉及栅格地质图像的处理技术,具体是一种基于改进EAST算法的地质图像文本检测方法。
背景技术
我国历史上形成的百万档级海量栅格地质图像包括了大量的地理、地质信息,对矿床发现、石油勘探、储量估计、地理坐标定位等有着重大意义。栅格地质图像中的信息呈现形式以文本字符为主,因此栅格地质图像中的文本识别、定位研究就显得尤为重要。
随着深度学习技术的不断发展,地质领域存在的大量栅格图像数据亟待通过新技术来进行处理。面对历史上如此海量的地质图像,传统的人工处理方式已经满足不了检索需要。文本检测算法通过计算机自动框定出文本在地质图像中的范围,作为后续文本识别过程的先行条件,在地质图像的检索和信息提取中起着举足轻重的作用。
传统的文本检测方法和一些基于深度神经网络的文本定位方法,主要由若干阶段和组件构成,在训练时需要对多个步骤进行调优,耗费时间较多。所以这些方法的准确率和效率仍然不能达到工业级别的应用。
发明内容
针对现有文本检测算法对地质图像中的文本符号检测准确率不够高,不同比例尺的图像检测差异大,文本尺度多样化的问题,本发明提供了一种基于改进EAST算法的地质图像文本检测方法,该方法运用多尺度的方法进行图像背景和图像文本的分割,然后按不同比例尺切割图像训练样本,通过减少易提取样本的权重策略改进损失函数解决文本框漏检的问题,使得算法在地质图像上的检测效果更好。
实现本发明目的的技术方案是:
一种基于改进EAST算法的栅格地质图文本检测方法,包括:
(1)提取地质图像的文本区域一般采用将交叉部分视为矩形的简化计算方法;S1、S2、S3、S4;每次只需要计算S1-S4部分的面积,其计算可通过公式(1)-(4)得到;而最后总的文本区域S由上述提到的四个梯形S1、S2、S3、S4间相互交叠的部分组成,需对四个梯形面积进行加减法计算,得到的文本区域S的计算公式,如公式(5)所示:
S1=((x3-x0)*(y3+y0))/2 (1)
S2=((x1-x0)*(y1+y0))/2 (2)
S3=((x2-x1)*(y2+y1))/2 (3)
S4=((x2-x3)*(y3+y2))/2 (4)
S=(S2+S3)-(S1+S4) (5)
而pi(i=1,2,3,4)代表矩形的四个顶点,x0至x3为四个顶点的横坐标,而y0至y3为四个顶点的纵坐标;
D(pi,pj)代表两个顶点之间的相对长度。首先让四边形的两条较长边沿文本方向向中心进行收缩,然后两条较短的边沿文本切线方向中心移动。预测框的每条边用D(pi,p(i mod 4)+1)表示,两条较长边向文本区域中心收缩Nri的像素单位,两条较短边向文本区域中心收缩Nri(i mod 4)+1的像素单位。这里的N是一个超参数,针对不同比例尺的图像,根据地质图像的比例尺将N(0.0~1.0)设置为不同的值,可以优化检测结果;
(2)按比例尺切割训练样本,在训练过程中,采用多尺度的训练方法,对于比例尺为1∶N,大小为M*M的的地质图像,在训练阶段为每张图像设置的尺度为X*X*X,其中X=[M/N];每张图像选择对应比例尺的尺度组成多尺度图像训练集;
(3)引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度,公式如下:
FL(pt)=-(1-pt)γlog(pt) (6)
这里的γ称作focusing parameter,γ>=0,而pt则表示第t个样本预测为1这个类的概率。
利用动态调整权重的策略对文本区域损失Lg进行改进,使Lg中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致;对于一张比例尺为1∶N的地质图像,同一批次训练样本中的文本区域都包含相同的权重Wi,图像中的像素点i应该满足公式(7):
其中S及Si的定义如前文所述;当图像样本中Si的数量增加时,损失的权值会受到抑制;当图像样本中Si的数量减少时,尺度较小的文本区域权值会变大,尺度较大的文本区域权值会相应变小,权重会相对一致,改进后的Lg回归损失如公式(8)所示:
(4)在局部感知NMS的基础上,利用倾斜的NMS处理地质图像数据集中的倾斜文本,其步骤如下:
1)对网络输出的旋转矩形文本检测框按照得分进行降序排列,并存储到一个降序列表里;
2)依次遍历上述的降序列表,将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合;
3)根据判断相交点集合组成的凸多边形的面积,计算每两个文本检测框的IOU;对于大于阈值的文本框进行过滤,保留小于阈值的文本框;
4)得到最终的文本矩形检测框。
本发明的有益效果是:本发明采用多尺度对象分割算法进行图像背景和图像文本的分割,同时结合按比例尺方法切割训练样本,然后运用focal-loss函数改进模型损失函数,最后采用难、易检测文本目标权重动态调整策略来改进文本目标漏检的问题。实验验证了文中提出的算法具有检测准确率较高、对不同的地质图像的适应力较强的优点。能够有效降低地质图像文本检测的漏检率,具有一定的工程应用价值。实验结果表明,对多比例尺栅格地质图像进行文本检测,采用改进后EAST算法准确率相对改进前提高了5.1%,可更加快速、准确的检索到相关地质图像文字。
附图说明
图1为本发明实施例中EAST算法网络结构图;
图2为本发明实施例中重叠区域面积计算过程示意图;
图3为本发明实施例中背景文字相对分离示意图;
图4为本发明实施例中背景和文字交叉示意图;
图5为本发明实施例中Focal-loss与交叉熵损失函数对比示意图;
图6为本发明实施例中实际的复杂地质图像中文本检测效果对比示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的阐述。
实施例:
基于改进EAST算法的地质图像文本检测方法,包括:
1、EAST算法
EAST算法主要包含三个部分:EAST算法神经网络结构、基于平衡的交叉熵损失函数、局部感知非极大值抑制网络(NMS)。其中:
(1)EAST算法神经网络结构
EAST算法的神经网络结构如图1所示,由图1可知该网络结构分为特征提取器主干、特征合并分支和输出层三个部分。
特征提取器主干从ImageNet数据集上预训练的卷积网络中选取四组卷积层Conv1、Conv2、Conv3、Conv4。分别从中提取四个级别的特征图,表示为f1、f2、f3、f4。其图像大小分别为输入图像的1/32、1/16、1/8、1/4。
在特征合并分支中,逐层合并生成的四组特征图;
其中gi是合并基础,hi是合并的特征图,运算符[:;:]表示沿通道轴的合并。在每个合并阶段,来自最后一个阶段的特征图首先被输入到反池化层(unpool)中以使其大小加倍,然后与当前特征图合并。通过conv1×1的卷积层减少通道的数量并且减少计算量,接着是一个conv3×3的卷积层,它融合了局部信息产生这个合并阶段的输出。在最后一个合并阶段之后,使用conv3×3卷积核合并所有的特征图并将其输入到输出层。
输出层分为三个部分:置信度、文本区域和文本区域旋转角度、包含8个坐标的矩形文本区域。最终的输出结果是1x1的卷积提取特征。
(2)基于平衡的交叉熵损失函数
原算法的损失函数可以表示为:
L=Ls+λgLg (3)
其中,Lg表示分割图像背景和图像文本的分类损失,文本区域所在的部分表示1,非文本区域的背景部分表示0,即像素点的分类损失。Lg表示对应文本区域的像素点所组成的矩形框和矩形框角度的回归损失。λg表示两个损失之间的相关性。
为了简化训练过程,分类损失使用平衡的交叉熵,在原EAST算法中将λg设置为1,公式如下:
Lg几何图损失又分为两部分,一部分是IOU损失,一部分为旋转角度损失:
其中,是文本区域旋转角度的预测值,而θ*表示文本区域旋转角度的真实值。最后,总体文本框矩形的几何损失是AABB损失和角度损失的加权和,AABB表示从像素位置到文本矩形的上下左右4个边界的距离,公式如下:
Lg=LAABB+λθLθ (8)
(3)部感知非极大值抑制网络(NMS)
非极大值抑制(Non-Maximum Suppression),简称NMS,简单理解就是局部最大搜索,在目标识别、数据挖掘、目标跟踪等计算机领域有重要作用。在目标检测中,经过分类器识别后,会产生多个预测框,每个预测框都会有一个分数,但是绝大多数预测框会出现交叉或包含的情形,所以就需要通过NMS来获得邻域里得分最高的预测框,同时抑制分数低的预测框,得到最终结果。
局部感知基于邻近几个多边形是高度相关的假设,在标准NMS的基础上加了权重覆盖,就是将2个IOU(重叠区域面积比例)高于某个阈值的输出框,进行基于得分的合并。合并后的输出框的坐标数值介于两个合并的输入框之间,这样可以将所有回归出的框的坐标信息都利用起来,有助于减少位置误差,而标准的NMS是直接取分数最高的那个。
由于两个矩形文本框重叠的部分可以是任意多边形,计算重叠区域面积的难度较大。所以局部感知NMS一般采取简化的计算方式,将相交部分近似为一个矩形。如图2:图中S1-S4各部分代表一个梯形的面积,即S1、S2、S3、S4(图2中四个子图中紫色部分梯形面积)。每次只需要计算S1、S2、S3、S4部分的面积,其计算可通过公式(1)-(4)得到。而最后总的文本区域S(图2绿色部分面积)由上述提到的四个梯形S1、S2、S3、S4间相互交叠的部分组成,需对四个梯形面积进行加减法计算,得到的文本区域S的计算公式,如公式(5)所示:
S1=((x3-x0)*(y3+y0))/2 (1)
S2=((x1-x0)*(y1+y0))/2 (2)
S3=((x2-x1)*(y2+y1))/2 (3)
54=((x2-x3)*(y3+y2))/2 (4)
S=(S2+S3)-(S1+S4) (5)
而pi(i=1,2,3,4)代表矩形的四个顶点,x0至x3为四个顶点的横坐标,而y0至y3为四个顶点的纵坐标。
2.改进的EAST算法
基于地质图像本身的特点,本申请通过四个方面对EAST算法进行改进。分别是:基于可变尺度的图像分割优化、按比例尺切割训练样本、损失函数的优化以及增加倾斜的NMS对倾斜文本框检测的优化。其中:
(1)基于可变尺度的图像分割优化
地质图像具有范围大,比例尺多样,文本尺度不统一,干扰信息复杂等特点。尤其是对文本区域的检测,背景信息十分复杂,而图像中的文本分布和背景元素交叉的情况往往较多,文本特征提取较为困难,检测准确性不高。所以在进行图像分割时,必须要考虑到这些因素。现有技术中通过两种利用特征的方式:将图像转化为不同尺度,在各个尺度的图像上提取特征,在不同的特征上分别进行预测,该方法增加了时间复杂度;第二种方式是提取图像最后一层的特征进行预测,如SPP-Net,Faster R-CNN等;从多个网络层提取不同尺度特征图做预测,如SSD算法。
提取地质图像的文本区域,首先要对图像背景和图像文字的像素点做一个分类,实际上就是一个图像分割的过程,训练的时候,文字区域所在部分表示1,非文字的背景部分表示0,这样就能得到分类任务的groundTruth。
但是对于图4中的情况,当文本和背景的颜色无法区分开的时候,文本区域的检测并不准确。为了对边界像素点可以更好的分类,这个方法对图4中原有的检测框做了一点收缩,如图中黄色虚线框收缩成绿色文本框,这样边界像素点可以分类得更准确。
由于在检测过程中地质图像的标准框中会存在一些非目标信息,通过对边界像素点的缩进可以减少这些信息对目标区域的影响,提高网络检测的准确性,如公式(14)所示。对于四边形的每条边D(pi,p(i mod 4)+1),使其每个顶点分别缩进Nri和Nri(i mod 4)+1。这里的N是一个超参数,针对不同比例尺的图像,根据地质图像的比例尺将N(0.0~1.0)设置为不同的值,可以优化检测结果。
(2)按比例尺切割训练样本
实际的地质图像中地质文本受到不同比例尺的影响,不同尺度图像上的地质文本尺度差异较大。在训练过程中,原EAST算法使用固定尺寸的图像进行训练,因此对于不同比例尺的地质文字图像,该算法对文本区域的漏检情况比较多。本申请采取多尺度的训练方法,对于一张比例尺为1:N,大小为M*M的的地质图像,在训练阶段为每张图像设置的尺度为X*X*X,其中X=[M/N]。然后每张图像选择对应比例尺的尺度组成多尺度图像训练集。实验证明多尺度训练能够提高算法对不同比例尺的地质图像文本检测的泛化能力。
(3)损失函数的改进
EAST算法使用交叉熵损失函数作为分类损失函数,但是该函数的收敛速度较慢,计算量大,训练过程耗时较多,交叉熵损失函数,公式如下:
因为是二分类,所以y的值是正1或负1,p的范围为0到1。当真实标签是1,也就是y=1时,假如某个样本x预测为1这个类的概率p=0.5,那么损失就是-log(0.5),注意这个损失是大于等于0的。如果p=0.8,那么损失就是-log(0.8),所以p=0.5的损失要大于p=0.8的损失。
因此为了加快收敛速度,本申请引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度,公式如下:
FL(pt)=-(1-pt)γlog(pt) (16)
这里的γ称作focusing parameter,γ>=0,而pt则表示第t个样本预测为1这个类的概率。Focal-loss的收敛速度更快,效果优于交叉熵损失函数的效果。其本质上是不断学习,使文本检测区域的交并比越来越大。
图5为使用交叉熵损失函数和focal-loss损失函数在训练过程中的损失值曲线,从图中可以看出随着调制系数γ的增大,网络的收敛速度越快。当γ=0时,函数就变为了交叉熵损失函数,其收敛速度较慢。
由于实际的地质图像中文字尺度变化较大。尺度不同的文本目标在回归损失中的权重不同,导致网络再文本检测中出现漏检的问题。因此,本申请利用动态调整权重的策略对文本区域损失Lg进行改进,使Lg中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致。对于一张比例尺为1:N的地质图像,同一批次训练样本中的文本区域都包含相同的权重Wi,图像中的像素点i应该满足公式(17):
其中S及Si表述均如前文所述。当图像样本中Si的数量增加时,损失的权值会受到抑制;当图像样本中Si的数量减少时,尺度较小的文本区域权值会变大,尺度较大的文本区域权值会相应变小,权重会相对一致,有利于文本目标的检测。改进后的Lg回归损失如公式(18)所示:
yhard就是将文本框中面积大于或等于某个阈值的框设置为困难样本,这些样本训练起来较为困难,所以减少这些样本的权重对于文本检测定位效果有明显提升。表示预测的几何形状,R*是其相应的标注框。计算相交矩形的宽度和高度;
(4)倾斜NMS
由于使用的地质图像数据集中的海域部分包含有大量的倾斜文本,因此本申请在局部感知NMS的基础上增加了倾斜的NMS(Improved Non-Maximum Suppression)来处理这些倾斜文本,其基本步骤如下:
1)对网络输出的旋转矩形文本检测框按照得分进行降序排列,并存储到一个降序列表里;
2)依次遍历上述的降序列表,将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合;
3)根据判断相交点集合组成的凸多边形的面积,计算没两个文本检测框的IOU(重叠区域面积比例);对于大于阈值的文本框进行过滤,保留小于阈值的文本框;
4)得到最终的文本矩形检测框。
3.效果评估
本实施例中所用的地质图像数据集来自中国国家地质调查局的公开数据,语言为中文。为了提高算法对地质文本检测的泛化能力,本实施例使用阿里巴巴“图像和美”团队联合华南理工大学共同举办ICPR MTWI 2018挑战赛公开的基于网络图片的中英文数据集进行预训练。该数据集数据量充分,涵盖数十种字体,几个到几百像素字号,多种版式,较多干扰背景。其图像背景复杂性和地质图像较为类似。另外本实验采用了地质调查局的135张大型地质图像,按比例尺分割为4000多个训练样本构成文本检测数据集。并且根据实验要求使用红色文本框对地质图像区域中的中文编码进行标注,其中每张图像对应一个text标签文件,包含了所标注的文本区域的8个坐标点。
为了评估改进前后的算法对地质图像文本检测的有效性,实验使用准确率(Precision),召回率(recall)、漏检率(1-recall)、得分值(F1-score)评价算法对文本检测的有效性。其中检出率等于召回率,具体定义公式如下所示:
其中,tp、fp、fn分别表示正确预测的文本区域的数量、错误预测的文本区域的数量和漏检的文本区域数量。
(1)算法改进前后检测效果对比
使用3000张按比例尺分割后的地质图像对EAST算法和结合图像分割优化,按比例尺切割训练样本和损失函数优化后的改进EAST算法进行训练,然后将训练好的模型在剩余的1000张地质图像测试集(包含4186个标注的文本区域)上进行测试。改进前后的算法效果对比如表1所示:
表1两种算法检测效果对比
从表1可以看出改进EAST算法在检测准确率上提高了4.3%,准确检测到文本框的概率提高了5.1%,f1-score值提高了4.9%。图6为实际的复杂地质图像中文本检测效果对比,图6(b)中可以看出改进的EAST算法能够准确检测出较多的地质图像文本区域,而图6(a)中的EAST算法漏检的文本区域较多。实验证明改进的EAST算法检测效果优于原EAST算法。
(2)不同优化方法文本检测效果对比
表2列出了使用不同优化方式对检测效果的影响,由于优化了图像分割方式,方法2比方法1的漏检率降低了4.1%。由于按比例尺切割训练样本增加了网络对不同尺度图像的适应性,方法3比方法1的漏检率降低了1.4%。方法5和方法1对比后发现,使用focal-loss损失函数替代交叉熵损失函数,优化损失函数后的方法漏检率降低了5.1%。
表2不同优化方法效果对比
Claims (1)
1.一种基于改进EAST算法的栅格地质图文本检测方法,其特征是:包括:
(1)提取地质图像的文本区域一般采用将交叉部分视为矩形的简化计算方法;S1、S2、S3、S4;每次只需要计算S1-S4部分的面积,其计算可通过公式(1)-(4)得到;而最后总的文本区域S由上述提到的四个梯形S1、S2、S3、S4间相互交叠的部分组成,需对四个梯形面积进行加减法计算,得到的文本区域S的计算公式,如公式(5)所示:
S1=((x3-x0)*(y3+y0))/2 (1)
S2=((x1-x0)*(y1+y0))/2 (2)
S3=((x2-x1)*(y2+y1))/2 (3)
S4=((x2-x3)*(y3+y2))/2 (4)
S=(S2+S3)-(S1+S4) (5)
而pi(i=1,2,3,4)代表矩形的四个顶点,x0至x3为四个顶点的横坐标,而y0至y3为四个顶点的纵坐标;
对于四边形的每条边D(pi,p(imod4)+1),使其每个顶点分别缩进Nri和Nri(i mod 4)+1,其中N是一个超参数,针对不同比例尺的图像,根据地质图像的比例尺将N(0.0~1.0)设置为不同的值,优化检测结果;
(2)按比例尺切割训练样本,在训练过程中,采用多尺度的训练方法,对于比例尺为1∶N,大小为M*M的地质图像,在训练阶段为每张图像设置的尺度为X*X*X,其中X=[M/N];每张图像选择对应比例尺的尺度组成多尺度图像训练集;
(3)引入Focal-loss损失函数作为分类损失函数用来表示图像分割预测值和真实值的相似度,公式如下:
FL(pt)=-(1-pt)γlog(pt) (6)
这里的γ称作focusing parameter,γ>=0,而pt则表示第t个样本预测为1这个类的概率;
利用动态调整权重的策略对文本区域损失Lg进行改进,使Lg中的权重对不同比例尺的地质图像中的各个尺度的文字保持一致;对于一张比例尺为1∶N的地质图像,同一批次训练样本中的文本区域都包含相同的权重Wi,图像中的像素点i应该满足公式(7):
其中S及Si的定义如前文所述;当图像样本中Si的数量增加时,损失的权值会受到抑制;当图像样本中Si的数量减少时,尺度较小的文本区域权值会变大,尺度较大的文本区域权值会相应变小,权重会相对一致,改进后的Lg回归损失如公式(8)所示:
(4)在局部感知NMS的基础上,利用倾斜的NMS处理地质图像数据集中的倾斜文本,其步骤如下:
1)对网络输出的旋转矩形文本检测框按照得分进行降序排列,并存储到一个降序列表里;
2)依次遍历上述的降序列表,将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合;
3)根据判断相交点集合组成的凸多边形的面积,计算每两个文本检测框的IOU;对于大于阈值的文本框进行过滤,保留小于阈值的文本框;
4)得到最终的文本矩形检测框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011184567.0A CN112215226B (zh) | 2020-10-30 | 2020-10-30 | 一种基于改进east算法的栅格地质图文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011184567.0A CN112215226B (zh) | 2020-10-30 | 2020-10-30 | 一种基于改进east算法的栅格地质图文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215226A CN112215226A (zh) | 2021-01-12 |
CN112215226B true CN112215226B (zh) | 2022-06-07 |
Family
ID=74057591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011184567.0A Active CN112215226B (zh) | 2020-10-30 | 2020-10-30 | 一种基于改进east算法的栅格地质图文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215226B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686218B (zh) * | 2021-03-09 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置、可读存储介质及设备 |
CN115063800B (zh) * | 2022-08-16 | 2022-11-29 | 阿里巴巴(中国)有限公司 | 文本识别方法和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
-
2020
- 2020-10-30 CN CN202011184567.0A patent/CN112215226B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
Non-Patent Citations (7)
Title |
---|
EAST: An Efficient and Accurate Scene Text Detector;Xinyu Zhou等;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171231;第1-5节 * |
乳腺超声肿瘤动态噪声指数及分割算法;邹海鹏等;《中国图象图形学报》;20201016(第10期);第1-4节 * |
基于BLSTM网络的改进EAST文本检测算法;郭闯等;《计算机技术与发展》;20200710(第07期);第1-3节 * |
基于分支ResNet-50的EAST场景文字检测算法;龙言等;《北京信息科技大学学报(自然科学版)》;20200615(第03期);第1-3节 * |
基于改进EAST算法的舰船目标检测研究;蒋丽婷;《信息技术》;20191231;第1-6节 * |
改进EAST算法的游戏场景文本检测;池凯等;《小型微型计算机系统》;20201015(第10期);第1-4节 * |
改进的非极大值抑制算法的目标检测;赵文清等;《中国图象图形学报》;20181116(第11期);第1-4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215226A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977943B (zh) | 一种基于yolo的图像目标识别方法、系统和存储介质 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN110580699A (zh) | 基于改进Faster RCNN算法的病理图像细胞核检测方法 | |
Sun et al. | Faster R-CNN based table detection combining corner locating | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN112215226B (zh) | 一种基于改进east算法的栅格地质图文本检测方法 | |
CN107038409B (zh) | 检测图像中所含文本的方法、装置和计算机可读记录介质 | |
CN112836639A (zh) | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 | |
RU2697649C1 (ru) | Способы и системы сегментации документа | |
CN105574063A (zh) | 基于视觉显著性的图像检索方法 | |
WO2021196896A1 (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
US7574036B2 (en) | Apparatus, program, and recording medium for learning data to form a self-organizing map comprised of reference vectors corresponding to features of an image and used for determining objects in an image | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
Fu et al. | Text detection for natural scene based on mobilenet V2 and U-net | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN112102241B (zh) | 一种单阶段遥感图像目标检测算法 | |
CN113011528A (zh) | 一种基于上下文和级联结构的遥感图像小目标检测方法 | |
CN109657577B (zh) | 一种基于熵和运动偏移量的动物检测方法 | |
Wu et al. | Vehicle detection in high-resolution images using superpixel segmentation and CNN iteration strategy | |
KR102285269B1 (ko) | 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법 | |
Chu et al. | Text detection in manga by deep region proposal, classification, and regression | |
CN111950545B (zh) | 一种基于MSDNet和空间划分的场景文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210112 Assignee: Guilin Qinghong Technology Co.,Ltd. Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY Contract record no.: X2023980044782 Denomination of invention: A Text Detection Method for Raster Geological Maps Based on Improved EAST Algorithm Granted publication date: 20220607 License type: Common License Record date: 20231031 |