CN111461114A - 一种基于分割的多尺度特征金字塔文本检测方法 - Google Patents

一种基于分割的多尺度特征金字塔文本检测方法 Download PDF

Info

Publication number
CN111461114A
CN111461114A CN202010138891.2A CN202010138891A CN111461114A CN 111461114 A CN111461114 A CN 111461114A CN 202010138891 A CN202010138891 A CN 202010138891A CN 111461114 A CN111461114 A CN 111461114A
Authority
CN
China
Prior art keywords
text
features
pyramid
feature
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010138891.2A
Other languages
English (en)
Other versions
CN111461114B (zh
Inventor
高学
韩思怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202010138891.2A priority Critical patent/CN111461114B/zh
Publication of CN111461114A publication Critical patent/CN111461114A/zh
Application granted granted Critical
Publication of CN111461114B publication Critical patent/CN111461114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分割的多尺度特征金字塔文本检测方法,包括获取数据;构建金字塔特征提取模型,从获取数据中提取特征;对输入数据进行采样,得到不同尺度的输入图像,然后分别输入金字塔特征提取模型,提取文本特征,再通过多尺度检测网络对不同尺度输入图像的文本特征进行融合,处理后得到特征图,并进行预测;对预测的结果进行处理,得到文本区域的轮廓边界线。本发明具有较强鲁棒性,可以直接应用于自然场景下任意形状的文本检测,实现较高准确率、召回率和F值。

Description

一种基于分割的多尺度特征金字塔文本检测方法
技术领域
本发明属于图像文本分析领域,特别涉及一种基于分割的多尺度特征金字塔文本检测方法。
背景技术
随着计算机视觉技术的发展,图像理解技术的应用越来越广泛。文本作为图像中重要的组成部分,蕴含了丰富的语义信息,是图像理解的关键,准确进行文本检测则是图像中提取关键信息的第一步。自然场景图像的文本检测由于背景的多样性,大小、方向的不确定性,面临着诸多挑战:(1)文本格式的多样性,以及文本行排列的多样性;(2)文本方向多样性(3)文本大小尺寸多样性(4)文本背景多样性。
目前利用深度学习进行文本框检测的方法主要有两种:
(1)利用基于anchor的目标检测框架(Faster R-CNN,SSD,YOLO等),将文本视为一种特殊的物体目标进行检测定位;
(2)基于像素分割的思想,使用全卷积网络模型(FCN),MaskR-CNN等,将文本检测任务转化为分割任务,通过预测像素得到检测结果。
其中,基于anchor的方法由于场景文本尺寸大小的多样性,不同于通用物体固定的长宽比,使得网络对于文本的尺寸不敏感,准确率较低;另外现有的基于anchor的文本检测大多是基于四边形或旋转矩形,针对任意形状的文本则不能进行很好的定位。基于像素分割的方法则容易受到感受野的限制,对小目标检测效果不好,并且对于一些比较接近的文本实例,不能很好地区分边界。
发明内容
为了克服现有技术在自然场景下文本检测方法的不足,本发明利用深度网络模型的特征学习能力和分类性能,结合像素分割的思想,提出一种基于分割的多尺度特征金字塔文本检测方法。
本发明目的通过以下技术方案实现:
一种基于分割的多尺度特征金字塔文本检测方法,包括如下:
获取数据;
构建金字塔特征提取模型,从获取数据中提取特征;
对输入数据进行采样,得到不同尺度的输入图像,然后分别输入金字塔特征提取模型,提取文本特征,再通过多尺度检测网络对不同尺度输入图像的文本特征进行融合,处理后得到特征图,并进行预测;
对预测的结果进行处理,得到文本区域的轮廓边界线。
所述数据为文本检测数据集。
所述构建金字塔特征提取模型,从获取数据中提取特征,具体为:
输入图像经过backbone的数层卷积操作提取特征,得到特征金字塔;
特征金字塔依次通过自顶向下和自底向上两条路径,将回向传递的高层语义信息和经过数层卷积操作被丢失的低层位置信息进行融合,对文本特征进行增强,得到这一阶段的最后特征。
所述特征金字塔依次通过自顶向下和自底向上两条路径,将回向传递的高层语义信息和经过数层卷积操作被丢失的低层位置信息进行融合,对文本特征进行增强,得到这一阶段的最后特征,具体为:
在自顶向下路径中,首先对高层级的特征进行上采样,再通过横向连接获取同级的特征信息,最后进行融合,融合后的特征依次经过一个3*3的卷积核以及一个1*1的卷积核,得到原图大小1/4,1/8,1/16,1/32的特征图。
在自底向上路径中,首先对同一层级的特征即自顶向下路径增强生成进行上采样扩张,然后与低层级的特征进行像素相加,更好地保留低层位置信息,融合后的特征先后通过一个步长为2的3*3卷积核和一个1*1卷积核,进行卷积操作,得到这一阶段的最后特征。
金字塔特征提取模型通过具有横向连接的自顶向下路径,将高层的强语义特征回向传递,利用高层语义信息对文本特征进行补充增强;再通过自底向上的通道,将backbone中由于经过数十层卷积操作丢失比较厉害的低层强定位特征直接向上传递,提供文本的位置信息特征。通过对不同层次的多级信息进行融合,使得文本像素与边缘之间建立较强的关系,增强整个特征层次,提高网络的定位性能。
所述将不同尺度的图像分别输入金字塔特征提取模型,提取文本特征,再通过多尺度检测网络对不同尺度输入图像的文本特征进行融合,处理后得到特征图,并进行预测,具体为:
对输入图像进行下采样,得到不同尺度的输入图像A1,A2
将不同尺度的输入图像A1,A2分别输入金字塔特征提取模型,提取到不同的特征FP1,FP2
对较小尺度输入图像得到的特征金字塔FP2中每一层级的特征分别进行上采样扩张,然后将特征金字塔FP1,FP2中同一层级的特征连接起来,作为特征金字塔FP中同一层级的输出特征,通过多尺度检测网络对不同尺度输入图像的特征进行融合,将融合的特征进行处理得到特征图,并进行预测。
所述将融合的特征进行处理得到特征图,并进行预测,具体为:
将特征金字塔FP中每一层级的特征分别进行上采样得到四层同样大小的特征图,然后将这四层特征图拼接起来,再通过一个3*3的卷积和1*1的卷积消除上采样的混叠效应并改变通道数,最后得到一个维度为10的特征图F,用来预测文本区域、文本中心核和x、y距离,其中文本区域保持文本实例的完整形状;文本中心核则是文本区域中面积较小的文本骨架,能够较为清晰地分离相近的文本实例;x、y距离指文本区域内的文本像素点分别在x、y方向上和文本中心核的距离。
所述对预测的结果进行处理,得到文本区域的轮廓边界线,具体为:
以文本中心核为聚类中心,文本区域中的文本像素点为初始的集合;
对于每一个文本像素点,通过对它在x、y方向上和文本中心核的距离进行判断,若小于阈值,则认为此文本像素点属于当前文本实例;反之,则不属于;
对于文本区域中的所有文本像素点,重复上一个步骤,最后得到属于当前文本实例的文本像素点集;
利用Alpha-Shape算法从文本像素点集中提取文本区域的轮廓边界线。
本发明中,网络训练损失函数定义为:
L=Lcls+αLker+βLreg
其中,α=0.5,β=0.25,Lcls和Lker分别是预测文本区域和文本中心核的分类损失;Lreg是预测x、y距离的回归损失。
所述文本区域和文本中心核的预测实际上是像素级文本/非文本的二分类任务,采用dice loss来监督文本区域和文本中心核的预测结果:
Figure BDA0002398312370000031
Figure BDA0002398312370000032
其中,Gcls、Pcls和Gker、Pker分别是文本区域和文本中心核的ground-truth和预测结果;
预测文本像素点分别在x、y方向上和文本中心核的距离是一个回归问题,采用Smooth L1损失函数进行计算:
Figure BDA0002398312370000041
其中,xk
Figure BDA0002398312370000042
和yk
Figure BDA0002398312370000043
分别是文本像素点在x、y方向上和文本中心核距离的ground-truth和预测结果。
本发明有益效果:
本发明使用多尺度特征金字塔网络提取多尺度文本特征并进行融合,使得网络具有更大的感受野,能够更好地检测图像中的文本区域,并对相近的文本实例进行准确分割,具有更强的鲁棒性。与传统基于anchor回归的文本框检测方法相比,本发明不需要根据anchor设置提前生成候选文本框,减少了计算开销;而且针对任意形状的文本有更好的检测性能,具有较高的准确率,召回率和F值。
附图说明
图1是本发明的整体结构示意图;
图2是本发明的金字塔特征提取模型的结构示意图;
图3(a)及图3(b)是本发明的金字塔特征提取模型两条路径的连接方式示意图;
图4是本发明中多尺度检测网络融合的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
一种基于分割的多尺度特征金字塔文本检测方法,网络整个框架如图1所示,主要包括如下步骤:
S1数据获取;本实施例采用ICDAR2015,CTW1500,RCTW17等被学术界广泛使用的公开文本检测数据集进行训练测试。其中ICDAR2015数据集包含训练数据1000张,测试数据500张;CTW1500数据集包含训练数据1000张,测试数据500张;RCTW17数据集包含训练数据8034张,测试数据4229张。
S2构建金字塔特征提取模型(PEFM),网络结构如图2所示,从获取数据中提取特征,具体包括如下步骤:
S2.1输入图像经过backbone的数层卷积操作提取特征,得到特征金字塔;
本实施例中backbone采用ResNet,网络层数在几十到一百多。输入图像经过逐层卷积操作提取特征,构造特征金字塔,其中深层特征主要反映物体类别等语义信息,低层特征主要反映边缘形状等位置信息。
S2.2特征金字塔通过自顶向下(Top-down)和自底向上(Bottom-up)两条路径,将回向传递的高层语义信息和经过数层卷积操作被丢失的低层位置信息进行融合,对文本特征进行增强;
在自顶向下(Top-down)路径中,如图3(a)所示,首先对高层级的特征进行上采样,再通过横向连接获取同级的特征信息,最后进行融合。经过融合的特征先经过一个3*3的卷积核,目的是消除上采样的混叠效应;再通过一个1*1的卷积核,对特征图进行降维,减少通道数。在这一阶段,每一层级的特征图大小分别是原图大小的1/4,1/8,1/16,1/32。
在自底向上(Bottom-up)路径中,如图3(b)所示,首先对同一层级的特征进行上采样扩张,然后与低层级的特征进行像素相加,更好地保留低层位置信息。融合后的特征先后通过一个步长为2(减小特征图尺寸)的3*3卷积核和一个1*1卷积核,进行卷积操作。这一阶段输出的特征金字塔即是金字塔特征提取模型(PFEM)的最终输出结果。
金字塔特征提取模型(PFEM)通过具有横向连接的自顶向下(Top-down)路径,将高层的强语义特征回向传递,利用高层语义信息对文本特征进行补充增强;再通过自底向上(Bottom-up)的通道,将backbone中由于经过数十层卷积操作丢失比较厉害的低层强定位特征直接向上传递,提供文本的位置信息特征。通过对不同层次的多级信息进行融合,使得文本像素与边缘之间建立较强的关系,增强整个特征层次,提高网络的定位性能。
具体的:高层级和同级都是相对融合标志(也就是图2示中的圆形加号)而言,例如第三级和第四级特征信息融合时,高层级就是从上边传递下来的第四级特征信息,同层级就是从左边传递过来的第三级特征信息,之所以称之为同层级,是因为这一步融合之后得到的特征信息也属于第三级。
本实施例中的融合就是指像素相加,自底向上路径中也有对特征信息进行融合,这里同层级的特征信息就是自顶向下路径中生成的,具体在图2中可以表示。
S2.3输出这一阶段最后的特征金字塔。
S3对输入数据进行采样,得到两张大小不同的图片,然后将两张大小不同的图片分别输入金字塔特征提取模型,提取文本特征,再通过多尺度检测网络对这两张图片的文本特征进行融合,处理后得到特征图,并进行预测;多尺度检测网络具体如图4所示,2X表示对特征进行2倍上采样,
Figure BDA0002398312370000061
代表concatenate拼接操作。
S3.1对输入图像A进行下采样,得到不同尺度的输入图像A1,A2,构建图像金字塔;
S3.2图像金字塔中不同尺度的图像A1,A2分别输入相同结构的网络模型(金字塔特征提取模型PFEM),因为输入图像大小的差异,以及网络自身的设计,会提取到不同的特征金字塔FP1,FP2
S3.3通过多尺度检测网络(MSDN)对上一步骤中生成的特征金字塔FP1,FP2进行融合,得到最终的特征金字塔FP;
具体为:首先对较小尺度输入图像得到的特征金字塔FP2中每一层级的特征分别进行上采样扩张,然后将特征金字塔FP1,FP2中同一层级的特征连接起来,作为特征金字塔FP中同一层级的输出特征。通过多尺度检测网络(MSDN)对不同尺度输入图像的特征进行融合,能够增大网络的感受野,更好地结合全局和局部信息,从而得到信息更加丰富的特征图。
S3.4特征金字塔FP通过上采样、连接等操作,得到特征图F,用来预测文本区域、文本中心核和x、y距离
具体为:将特征金字塔FP中每一层级的特征分别进行上采样得到四层同样大小的特征图,然后将这四层特征图拼接起来,再通过一个3*3的卷积和1*1的卷积消除上采样的混叠效应并改变通道数,最后得到一个维度为10的特征图F,用来预测文本区域、文本中心核和x、y距离。其中文本区域保持了文本实例的完整形状;文本中心核则是文本区域中面积较小的文本骨架,能够较为清晰地分离相近的文本实例;x、y距离指文本区域内的文本像素点分别在x、y方向上和文本中心核的距离。
在特征融合阶段,采用分离卷积(3*3卷积和1*1卷积),而不是常规卷积(k*k*channel)去处理特征,可以减少训练过程中的参数数量,以较小的计算开销扩大网络感受野,增强特征。
S4对预测的结果进行处理,得到文本区域的轮廓边界线,具体为:
S4.1以文本中心核为聚类中心,文本区域中的文本像素点为初始的集合;
S4.2对于每一个文本像素点,通过对它在x、y方向上和文本中心核的距离进行判断,若小于阈值,则认为此文本像素点属于当前文本实例;反之,则不属于;
S4.3对于文本区域中的所有文本像素点,重复步骤S4.2,最后得到属于当前文本实例的文本像素点集;
S4.4利用Alpha-Shape算法从一堆无序的点集中提取文本区域的轮廓边界线。
本检测方法的网络训练损失函数定义为:
L=Lcls+αLker+βLreg
其中,α=0.5,β=0.25。Lcls和Lker分别是预测文本区域和文本中心核的分类损失;Lreg是预测x、y距离的回归损失。
文本区域和文本中心核的预测实际上是像素级文本/非文本的二分类任务,采用dice loss来监督文本区域和文本中心核的预测结果:
Figure BDA0002398312370000071
Figure BDA0002398312370000072
其中,Gcls、Pcls和Gker、Pker分别是文本区域和文本中心核的ground-truth和预测结果。
预测文本像素点分别在x、y方向上和文本中心核的距离是一个回归问题,采用Smooth L1损失函数进行计算:
Figure BDA0002398312370000073
其中,xk
Figure BDA0002398312370000074
和yk
Figure BDA0002398312370000075
分别是文本像素点在x、y方向上和文本中心核距离的ground-truth和预测结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其它的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于分割的多尺度特征金字塔文本检测方法,其特征在于,包括如下:
获取数据;
构建金字塔特征提取模型,从获取数据中提取特征;
对输入数据进行采样,得到不同尺度的输入图像,然后分别输入金字塔特征提取模型,提取文本特征,再通过多尺度检测网络对不同尺度输入图像的文本特征进行融合,处理后得到特征图,并进行预测;
对预测的结果进行处理,得到文本区域的轮廓边界线。
2.根据权利要求1所述的多尺度特征金字塔文本检测方法,其特征在于,所述数据为文本检测数据集。
3.根据权利要求1所述的多尺度特征金字塔文本检测方法,其特征在于,所述构建金字塔特征提取模型,从获取数据中提取特征,具体为:
输入图像经过backbone的数层卷积操作提取特征,得到特征金字塔;
特征金字塔依次通过自顶向下和自底向上两条路径,将回向传递的高层语义信息和经过数层卷积操作被丢失的低层位置信息进行融合,对文本特征进行补充增强,得到这一阶段的最后特征。
4.根据权利要求3所述的多尺度特征金字塔文本检测方法,其特征在于,所述特征金字塔依次通过自顶向下和自底向上两条路径,将回向传递的高层语义信息和经过数层卷积操作被丢失的低层位置信息进行融合,对文本特征进行增强,得到这一阶段的最后特征,具体为:
在自顶向下路径中,首先对高层级的特征进行上采样,再通过横向连接获取同级的特征信息,最后进行融合,融合后的特征依次经过一个3*3的卷积核以及一个1*1的卷积核,得到原图大小1/4,1/8,1/16,1/32的特征图;
在自底向上路径中,首先对同一层级的特征即自顶向下路径增强生成进行上采样扩张,然后与低层级的特征进行像素相加,更好地保留低层位置信息,融合后的特征先后通过一个步长为2的3*3卷积核和一个1*1卷积核,进行卷积操作,得到这一阶段的最后特征。
5.根据权利要求1所述的多尺度特征金字塔文本检测方法,其特征在于,所述将不同尺度的图像分别输入金字塔特征提取模型,提取文本特征,再通过多尺度检测网络对不同尺度输入图像的文本特征进行融合,处理后得到特征图,并进行预测,具体为:
对输入图像进行下采样,得到不同尺度的输入图像A1,A2
将不同尺度的输入图像A1,A2分别输入金字塔特征提取模型,提取到不同的特征FP1,FP2
对较小尺度输入图像得到的特征金字塔FP2中每一层级的特征分别进行上采样扩张,然后将特征金字塔FP1,FP2中同一层级的特征连接起来,作为特征金字塔FP中同一层级的输出特征,通过多尺度检测网络对不同尺度输入图像的特征进行融合,将融合的特征进行处理得到特征图,并进行预测。
6.根据权利要求5所述的多尺度特征金字塔文本检测方法,其特征在于,所述将融合的特征进行处理得到特征图,并进行预测,具体为:
将特征金字塔FP中每一层级的特征分别进行上采样得到四层同样大小的特征图,然后将这四层特征图拼接起来,再通过一个3*3的卷积和1*1的卷积消除上采样的混叠效应并改变通道数,最后得到一个维度为10的特征图F,用来预测文本区域、文本中心核和x、y距离,其中文本区域保持文本实例的完整形状;文本中心核则是文本区域中面积较小的文本骨架,能够较为清晰地分离相近的文本实例;x、y距离指文本区域内的文本像素点分别在x、y方向上和文本中心核的距离。
7.根据权利要求1所述的多尺度特征金字塔文本检测方法,其特征在于,所述对预测的结果进行处理,得到文本区域的轮廓边界线,具体为:
以文本中心核为聚类中心,文本区域中的文本像素点为初始的集合;
对于每一个文本像素点,通过对它在x、y方向上和文本中心核的距离进行判断,若小于阈值,则认为此文本像素点属于当前文本实例;反之,则不属于;
对于文本区域中的所有文本像素点,重复上一个步骤,最后得到属于当前文本实例的文本像素点集;
利用Alpha-Shape算法从文本像素点集中提取文本区域的轮廓边界线。
8.根据权利要求1所述的多尺度特征金字塔文本检测方法,其特征在于,
网络训练损失函数定义为:
L=Lcls+αLker+βLreg
其中,α=0.5,β=0.25,Lcls和Lker分别是预测文本区域和文本中心核的分类损失;Lreg是预测x、y距离的回归损失。
9.根据权利要求8所述的多尺度特征金字塔文本检测方法,其特征在于,
文本区域和文本中心核的预测实际上是像素级文本/非文本的二分类任务,采用diceloss来监督文本区域和文本中心核的预测结果:
Figure FDA0002398312360000031
Figure FDA0002398312360000032
其中,Gcls、Pcls和Gker、Pker分别是文本区域和文本中心核的ground-truth和预测结果;
预测文本像素点分别在x、y方向上和文本中心核的距离是一个回归问题,采用SmoothL1损失函数进行计算:
Figure FDA0002398312360000033
其中,xk
Figure FDA0002398312360000034
和yk
Figure FDA0002398312360000035
分别是文本像素点在x、y方向上和文本中心核距离的ground-truth和预测结果。
CN202010138891.2A 2020-03-03 2020-03-03 一种基于分割的多尺度特征金字塔文本检测方法 Active CN111461114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010138891.2A CN111461114B (zh) 2020-03-03 2020-03-03 一种基于分割的多尺度特征金字塔文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010138891.2A CN111461114B (zh) 2020-03-03 2020-03-03 一种基于分割的多尺度特征金字塔文本检测方法

Publications (2)

Publication Number Publication Date
CN111461114A true CN111461114A (zh) 2020-07-28
CN111461114B CN111461114B (zh) 2023-05-02

Family

ID=71680008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010138891.2A Active CN111461114B (zh) 2020-03-03 2020-03-03 一种基于分割的多尺度特征金字塔文本检测方法

Country Status (1)

Country Link
CN (1) CN111461114B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814794A (zh) * 2020-09-15 2020-10-23 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及存储介质
CN111898570A (zh) * 2020-08-05 2020-11-06 盐城工学院 基于双向特征金字塔网络的图像中文本识别方法
CN112053358A (zh) * 2020-09-28 2020-12-08 腾讯科技(深圳)有限公司 图像中像素的实例类别确定方法、装置、设备及存储介质
CN112101165A (zh) * 2020-09-07 2020-12-18 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
CN112101386A (zh) * 2020-09-25 2020-12-18 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质
CN112164077A (zh) * 2020-09-25 2021-01-01 陕西师范大学 基于自下而上路径增强的细胞实例分割方法
CN112380899A (zh) * 2020-09-30 2021-02-19 深圳点猫科技有限公司 一种广告图像内的文本识别方法、装置及设备
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
CN112613561A (zh) * 2020-12-24 2021-04-06 哈尔滨理工大学 一种east算法优化方法
CN112861860A (zh) * 2021-03-11 2021-05-28 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN113011443A (zh) * 2021-04-23 2021-06-22 电子科技大学 一种基于关键点的目标检测的特征融合方法
CN113076944A (zh) * 2021-03-11 2021-07-06 国家电网有限公司 一种基于人工智能的单据检测识别方法
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113379712A (zh) * 2021-06-23 2021-09-10 西南交通大学 一种基于计算机视觉的钢桥螺栓病害检测方法及系统
CN113486890A (zh) * 2021-06-16 2021-10-08 湖北工业大学 基于注意力特征融合和空洞残差特征增强的文本检测方法
CN113516115A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 基于多维度融合的密集场景文本检测方法、设备、介质
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113657196A (zh) * 2021-07-27 2021-11-16 中国科学院自动化研究所 Sar图像目标检测方法、装置、电子设备和存储介质
CN113793371A (zh) * 2021-08-23 2021-12-14 北京航空航天大学杭州创新研究院 目标分割追踪方法、装置、电子设备和存储介质
CN114037826A (zh) * 2021-11-16 2022-02-11 平安普惠企业管理有限公司 基于多尺度增强特征的文本识别方法、装置、设备及介质
CN114821558A (zh) * 2022-03-10 2022-07-29 电子科技大学 基于文本特征对齐的多方向文本检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘业鹏;吴童桐;贾雪健;翟永杰;: "基于特征金字塔算法的输电线路多尺度目标检测方法" *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898570A (zh) * 2020-08-05 2020-11-06 盐城工学院 基于双向特征金字塔网络的图像中文本识别方法
CN112101165B (zh) * 2020-09-07 2022-07-15 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
CN112101165A (zh) * 2020-09-07 2020-12-18 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
CN111814794A (zh) * 2020-09-15 2020-10-23 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及存储介质
CN112101386A (zh) * 2020-09-25 2020-12-18 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质
CN112164077A (zh) * 2020-09-25 2021-01-01 陕西师范大学 基于自下而上路径增强的细胞实例分割方法
CN112101386B (zh) * 2020-09-25 2024-04-23 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质
CN112164077B (zh) * 2020-09-25 2023-12-29 陕西师范大学 基于自下而上路径增强的细胞实例分割方法
CN112053358A (zh) * 2020-09-28 2020-12-08 腾讯科技(深圳)有限公司 图像中像素的实例类别确定方法、装置、设备及存储介质
CN112380899A (zh) * 2020-09-30 2021-02-19 深圳点猫科技有限公司 一种广告图像内的文本识别方法、装置及设备
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
CN112613561A (zh) * 2020-12-24 2021-04-06 哈尔滨理工大学 一种east算法优化方法
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113159020B (zh) * 2021-03-10 2023-06-06 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113076944A (zh) * 2021-03-11 2021-07-06 国家电网有限公司 一种基于人工智能的单据检测识别方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN112861860A (zh) * 2021-03-11 2021-05-28 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN113011443A (zh) * 2021-04-23 2021-06-22 电子科技大学 一种基于关键点的目标检测的特征融合方法
CN113011443B (zh) * 2021-04-23 2022-06-03 电子科技大学 一种基于关键点的目标检测的特征融合方法
CN113516115B (zh) * 2021-05-19 2022-11-22 西安建筑科技大学 基于多维度融合的密集场景文本检测方法、设备、介质
CN113516115A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 基于多维度融合的密集场景文本检测方法、设备、介质
CN113486890A (zh) * 2021-06-16 2021-10-08 湖北工业大学 基于注意力特征融合和空洞残差特征增强的文本检测方法
CN113379712A (zh) * 2021-06-23 2021-09-10 西南交通大学 一种基于计算机视觉的钢桥螺栓病害检测方法及系统
CN113657196A (zh) * 2021-07-27 2021-11-16 中国科学院自动化研究所 Sar图像目标检测方法、装置、电子设备和存储介质
CN113657196B (zh) * 2021-07-27 2024-05-28 中国科学院自动化研究所 Sar图像目标检测方法、装置、电子设备和存储介质
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113591719B (zh) * 2021-08-02 2024-05-28 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113793371B (zh) * 2021-08-23 2023-10-24 北京航空航天大学杭州创新研究院 目标分割追踪方法、装置、电子设备和存储介质
CN113793371A (zh) * 2021-08-23 2021-12-14 北京航空航天大学杭州创新研究院 目标分割追踪方法、装置、电子设备和存储介质
CN114037826A (zh) * 2021-11-16 2022-02-11 平安普惠企业管理有限公司 基于多尺度增强特征的文本识别方法、装置、设备及介质
CN114821558A (zh) * 2022-03-10 2022-07-29 电子科技大学 基于文本特征对齐的多方向文本检测方法

Also Published As

Publication number Publication date
CN111461114B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN111461114B (zh) 一种基于分割的多尺度特征金字塔文本检测方法
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN110390251B (zh) 一种基于多神经网络模型融合处理的图像文字语义分割方法
Ji et al. An improved algorithm for small object detection based on YOLO v4 and multi-scale contextual information
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN109409288B (zh) 图像处理方法、装置、电子设备和存储介质
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN111062854A (zh) 检测水印的方法、装置、终端及存储介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN116309485A (zh) 一种改进UNet网络结构的路面裂缝检测方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN117372876A (zh) 一种多任务遥感影像道路损毁评估方法及系统
CN111898608A (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN111145314A (zh) 一种结合地名标注的扫描电子地图地名符号的提取方法
CN116486393A (zh) 一种基于图像分割的场景文本检测方法
CN113516114B (zh) 一种自然场景文本检测方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant