CN111931763A - 一种基于随机形态边缘几何建模的深度场景文本检测方法 - Google Patents

一种基于随机形态边缘几何建模的深度场景文本检测方法 Download PDF

Info

Publication number
CN111931763A
CN111931763A CN202010518387.5A CN202010518387A CN111931763A CN 111931763 A CN111931763 A CN 111931763A CN 202010518387 A CN202010518387 A CN 202010518387A CN 111931763 A CN111931763 A CN 111931763A
Authority
CN
China
Prior art keywords
text
edge
geometric
point
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010518387.5A
Other languages
English (en)
Other versions
CN111931763B (zh
Inventor
李玺
王芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010518387.5A priority Critical patent/CN111931763B/zh
Publication of CN111931763A publication Critical patent/CN111931763A/zh
Application granted granted Critical
Publication of CN111931763B publication Critical patent/CN111931763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于随机形态边缘几何建模的深度场景文本检测方法,其步骤为:S1、获取用于训练场景文本检测的图像数据集;S2、在极坐标系下对文本边缘进行采样和归一化,利用切比雪夫多项式拟合获得几何编码信息真值;S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合;S4、对候选文本的特征向量进行分类,预测实例级别的几何编码,在全监督下联合优化模型;S5、建立端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。本发明能对场景文本进行实例级别的边缘参数化表达和有效的参数学习,从而使模型更具准确性和鲁棒性。

Description

一种基于随机形态边缘几何建模的深度场景文本检测方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于随机形态边缘几何建模的深度场景文本检测方法。
背景技术
场景文本检测被定义为如下问题:在自然场景图像中发现多方向、多尺度、多语种、弯曲或不规则形态的文本区域位置。近年来,在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点:第一是如何用标准化的表征很好地建模多方向、多尺度、弯曲形状或不规则形状的文本目标边缘从而能够在统一的CNN框架中进行学习;第二是如何在网络中有效地学习这个标准化的表征从而能够准确输出检测结果。针对第一点,本发明认为随机形态场景文本的边缘建模关键在于准确地建模其空间几何特性,利用极坐标系下的边缘采样及切比雪夫多项式拟合来编码其空间结构,以产生准确、完整的边缘表达;针对第二点,本发明认为利用特征金字塔网络结构和全局融合特征图在不同尺度上进行多尺度预测,并且通过中心化训练策略提升训练效果,针对抽象化的编码信息,设计视觉内容相关的可导损失函数来进行有效学习。
由于统计建模的有效性,目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架,输入一幅图像,输出检测的文本区域。
发明内容
为解决上述问题,本发明的目的在于提供一种基于随机形态边缘几何建模的深度场景文本检测方法。在场景文本检测中,文本的方向、尺度、形状等几何特性多变,因此本发明基于卷积神经网络在边缘参数化表达层面上对文本目标进行几何特性的建模,并通过有效的训练策略来进行网络优化。另外,由于文本样本具有较大的长宽比和剧烈的尺度变化,我们对每个特征图进行全局融合行程全局特征来弥补感受野的不足。结合上述方面,本发明设计了一个统一的端到端深度学习框架对场景文本进行实例级别的边缘参数化表达和有效的参数学习,从而使模型更具准确性和鲁棒性。
为实现上述目的,本发明的技术方案为:
一种基于随机形态边缘几何建模的深度场景文本检测方法,包括以下步骤:
S1、获取用于训练场景文本检测的多组图像数据集,并定义算法目标;
S2、在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值;
S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合;
S4、对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型;
S5、使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;
S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。
基于上述方案,各步骤可以通过如下方式实现:
步骤S1中,对于所述的用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域
Figure BDA0002530982120000022
其中di为第i个文本区域多边形,K为I中的文本样本数量。
进一步的,步骤S2中,在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值,具体包括:
S21、在每个文本样本的中心点(x,y)处建立极坐标系,从极点出以2π/N为间隔向-π到π的角度空间发射N条与文本边缘相交的射线,取每条射线与文本边缘的最后一个交点的极坐标形成半径向量r=[r1,r2,…,rN]与角度向量θ=[θ12,…,θN],其中ri和θi分别为第i条射线与文本边缘的交点的半径和角度;
S22、将r和θ分别用最大相交半径s和π归一化后,利用切比雪夫多项式进行函数曲线拟合,拟合多项式表达式为:
Figure BDA0002530982120000021
其中:θ为角度自变量,Tk是第一类切比雪夫多项式,K度拟合参数 c=[c0,c1,…,cK]定义为文本目标的形状向量;通过最小二乘法求解形状向量:
Figure BDA0002530982120000031
其中:c′=[c′0,c′1,…,c′K]表示使
Figure BDA0002530982120000032
最小的K度拟合参数;
S23、以K度拟合参数c、半径归一化参数s及中心点坐标(x,y)构成文本目标的几何编码信息ge=[c,s,x,y]。
进一步的,步骤S3中,利用全卷积特征提取网络对图像进行特征学习与全局特征融合具体包括:
S31、利用特征金字塔网络提取每张图像在不同尺度上的深度特征;
S32、在每个尺度的深度特征图上利用全局融合模块从上到下、从下到上、从左到右、从右到左四个方向上进行特征传播,再经过一层卷积得到融合的全局特征图。
进一步的,步骤S4中,对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型,具体包括:
S41、使用一层卷积操作,对每个尺度特征图上每个像素点针对其对应的文本实例预测一个几何编码ge=[c,s,x,y]和一个分类分数o;
S42、对K度拟合参数c利用视觉内容相关的可导损失函数ContentLoss进行回归:
Figure BDA0002530982120000033
其中c*为K度拟合参数c对应的真值,
Figure BDA0002530982120000034
smoothL1(·)表示smoothL1损失函数;
S43、对s,x,y利用smooth L1损失函数进行回归;
S44、对o的预测时,利用softmax分类当前特征,判别属于文本类或非文本;
S45、训练过程中,根据每个样本点距离文本中心点的距离为每个样本点确定一个中心化权重,其中第i个样本点(xi,yi)的中心化权重为
Figure BDA0002530982120000035
Figure BDA0002530982120000036
并根据wi给每个样本点赋予被采样到一个mini-batch中的概率
Figure BDA0002530982120000037
其中M为一张训练图像当中所有正样本点的个数;然后每个样本点的训练权重将被重新分布,分布后第i个样本点的训练权重为
Figure BDA0002530982120000041
M′为一个mini-batch中的正样本点个数;训练的总损失函数为:
Figure BDA0002530982120000042
其中Lcls为softmax函数,Lreg为smoothL1函数,Nreg为正样本数量,Ncls为正负样本点数量总和,向量tj=[sj,xj,yj],
Figure BDA0002530982120000046
为第i个样本点的分类分数oi对应的真值,
Figure BDA0002530982120000043
为第j个样本点的K度拟合参数cj对应的真值,
Figure BDA0002530982120000044
为第j个样本点的向量tj对应的真值。
进一步的,步骤S5中,使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状,具体包括:
基于由S1~S4建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到特征图上每个样本点处的区域是否为文本区域,对于判定为文本区域的样本点通过回归得到几何编码信息ge=[c,s,x,y],再通过ge重建文本边缘:
r′i=s*fKi,c)
x′i=x+r′i*cosθi
y′i=y+r′i*sinθi
其中:r′i为当前样本点处重建后得到的边缘上第i个点的半径,(x′i,y′i)为预测得到的边缘上第i个点的坐标;文本边缘的精确位置和形状用点集
Figure BDA0002530982120000045
表示。
进一步的,步骤S6中,对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果具体包括:
对S5输出的多边形候选框集合进行非极大值抑制,得到文本检测的候选框以及每个候选框的分类分数,然后利用阈值法进行过滤,删除分类分数低于阈值的多边形,以去除冗余的重复检测,得到最终的检测结果。
本发明的基于随机形态边缘几何建模的深度场景文本检测方法,相比于现有的场景文本检测方法,具有以下有益效果:
首先,本发明的场景文本检测方法通过对文本目标的空间几何特性的边缘建模将复杂的随机形态文本边缘发现问题转化为了简单的利用卷积神经网络进行参数学习的问题,并通过在参数空间和形状空间之间的双向可导映射使得参数的可学习性更强。
其次,本发明提出了一个一阶段的基于回归的无锚点检测框架TextRay,并提出一种能够有效解决长文本带来的假阳性检测的中心权重训练策略,有效地提升了网络优化和场景文本检测的效果。
最后,本发明的场景文本检测方法作为一个轻量级一阶段的网络,能够将图像一次通过网络即输出检测结果,仅需要一个非极大值抑制的后处理步骤,其效果超过了很多基于分割的多阶段的方法。
本发明的基于端到端全卷积神经网络的场景文本检测方法,在场景理解、图像分割等场景中,具有良好的应用价值。例如,在场景分析任务中,场景中的文本包含大量帮助理解场景的信息,准确检测文本所在位置是利用场景文本信息的基础,本发明的场景文本检测方法能够快速准确地定位图像中的文本区域,为后续利用分析文本信息提供基础。
附图说明
图1为本发明的流程示意图;
图2为实施例中的原始图像;
图3为网络框架图;
图4为实施例中的联合学习框架对于自然场景图像中的随机形态文本检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于随机形态边缘几何建模的深度场景文本检测方法,包括以下步骤:
S1、获取用于训练场景文本检测的多组图像数据集,并定义算法目标。
在本实施例中,对于用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域
Figure BDA0002530982120000061
其中di为第i个文本区域多边形,K为I中的文本样本数量。
S2、在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值。
在本实施例中,该步骤具体实现方法包括:
S21、在每个文本样本的中心点(x,y)处建立极坐标系,从极点出以2π/N为间隔向-π到π的角度空间发射N条与文本边缘相交的射线,取每条射线与文本边缘的最后一个交点的极坐标形成半径向量r=[r1,r2,…,rN]与角度向量θ=[θ12,…,θN],其中ri和θi分别为第i条射线与文本边缘的交点的半径和角度;
S22、将r和θ分别用最大相交半径s和π归一化后,利用切比雪夫多项式进行函数曲线拟合,最大相交半径s即所有射线与文本边缘的交点的半径最大值。此处,拟合多项式表达式为:
Figure BDA0002530982120000062
其中:θ为角度自变量,Tk是第一类切比雪夫多项式,K度拟合参数 c=[c0,c1,…,cK]定义为文本目标的形状向量;通过最小二乘法求解形状向量:
Figure BDA0002530982120000063
其中:c′=[c′0,c′1,…,c′K]表示使
Figure BDA0002530982120000064
最小的K度拟合参数;
S23、以K度拟合参数c、半径归一化参数s及中心点坐标(x,y)构成文本目标的几何编码信息ge=[c,s,x,y]。
S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合。
在本实施例中,该步骤具体实现方法包括:
S31、利用特征金字塔网络提取每张图像在不同尺度上的深度特征;
S32、在每个尺度的深度特征图上利用全局融合模块从上到下、从下到上、从左到右、从右到左四个方向上进行特征传播,再经过一层卷积得到融合的全局特征图。
S4、对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型;
在本实施例中,该步骤具体实现方法包括:
S41、使用一层卷积操作,对每个尺度特征图上每个像素点针对其对应的文本实例预测一个几何编码ge=[c,s,x,y]和一个分类分数o;
S42、对K度拟合参数c利用视觉内容相关的可导损失函数ContentLoss进行回归:
Figure BDA0002530982120000071
其中c*为K度拟合参数c对应的真值,
Figure BDA0002530982120000072
smoothL1(·)表示smoothL1损失函数;
S43、对s,x,y利用smooth L1损失函数进行回归;
S44、对o的预测时,利用softmax分类当前特征,判别属于文本类或非文本;
S45、训练过程中,根据每个样本点距离文本中心点的距离为每个样本点确定一个中心化权重,其中第i个样本点(xi,yi)的中心化权重为
Figure BDA0002530982120000073
Figure BDA0002530982120000074
并根据wi给每个样本点赋予被采样到一个mini-batch中的概率
Figure BDA0002530982120000075
其中M为一张训练图像当中所有正样本点的个数;然后每个样本点的训练权重将被重新分布,分布后第i个样本点的训练权重为
Figure BDA0002530982120000076
M′为一个mini-batch中的正样本点个数;该权重适用于所有损失函数。因此,训练的总损失函数为:
Figure BDA0002530982120000077
其中Lcls为softmax函数,Lreg为smoothL1函数,Nreg为正样本数量,Ncls为正负样本点数量总和,向量tj=[sj,xj,yj],
Figure BDA0002530982120000078
为第i个样本点的分类分数oi对应的真值,
Figure BDA0002530982120000079
为第j个样本点的K度拟合参数cj对应的真值,
Figure BDA00025309821200000710
为第j个样本点的向量tj对应的真值。
S5、使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;
在本实施例中,该步骤具体实现方法包括:
基于由S1~S4建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到特征图上每个样本点处的区域是否为文本区域,对于判定为文本区域的样本点通过回归得到几何编码信息ge=[c,s,x,y],再通过ge重建文本边缘:
r′i=s*fKi,c)
x′i=x+r′i*cosθi
y′i=y+r′i*sinθi
其中:r′i为当前样本点处重建后得到的边缘上第i个点的半径,(x′i,y′i)为预测得到的边缘上第i个点的坐标;文本边缘的精确位置和形状用点集
Figure BDA0002530982120000081
表示。
S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。
在本实施例中,该步骤具体实现方法包括:
对S5中框架网络输出的多边形候选框集合进行非极大值抑制,得到文本检测的候选框以及每个候选框的分类分数,然后利用阈值法进行过滤,删除分类分数低于阈值的多边形,以去除冗余的重复检测,得到最终的检测结果。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在三个具有真值标注的数据集上实施,分别为:
SCUT-CTW1500数据集:该数据集包含1000张训练图像,500张测试图像。
TotalText数据集:该数据集包含1255张训练图像,300张测试图像。
ICDAR-ArT数据集:该数据集包含5603张训练图像,4563张测试图像。
本实施例在每个数据集上分别进行实验,数据集中图像举例如图2所示。
文本检测的主要流程如下:
1)通过特征金字塔结构网络提取图像的多尺度特征图;
2)利用全局融合模块对每个尺度特征图进行传播,得到全局特征图;
3)在每个尺度特征图上使用一层卷积操作,预测特征图上每个样本点的几何编码信息和分类分数;
4)联合优化文本分类和几何编码回归;
5)使用所述学习框架预测文本几何编码信息恢复文本的精确位置形状;
6)对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。整体网络框架如图3所示。
本实施例中,对模型输出进行非极大值抑制时,针对两种数据集设置的删除分类分数所用的最低阈值不同,SCUT-CTW1500所用的阈值为0.95,TotalText 所用的阈值为0.995。
为综合比较本方法的有效性,我们比较了其他较先进方法、本方法利用不同阶数的切比雪夫多项式、以及相同框架和实验条件下对文本边缘进行其他形式的几何建模的方法。
本实施例检测结果的准确率(precision)、召回率(recall)及F-measure见表1 表2所示。图中数据显示了本发明在precision,recall以及F-measure三个指标上的表现,与其他方法和相同框架下对文本进行其他形式的几何建模的方法相比,当选择合适阶数的切比雪夫多项式时,本方法在整体上有了进一步的提升。其中 F-measure表示准确度与回归之间的目标检索平衡度:
Figure BDA0002530982120000091
表1本实施例在SCUT-CTW1500数据集上各评价指标
Method Precision Recall F-measure
TextSnake[1] 67.90 85.30 75.60
LOMO[2] 89.20 69.60 78.40
CSE[3] 81.10 76.00 78.40
PSENet-4s[4] 82.09 77.84 79.90
Wang et al.[5] 80.10 80.20 80.10
SAST[6] 85.31 77.05 80.97
TextField[7] 83.00 79.80 81.40
TextRay 82.80 80.35 81.56
表2本实施例在TotalText数据集上各评价指标
Method Precision Recall F-measure
TextSnake[1] 82.70 74.50 78.40
Wang et al.[5] 80.90 76.20 78.50
PSENet-4s[4] 85.54 75.23 79.61
SAST[6] 83.77 76.86 80.17
CSE[3] 81.40 79.10 80.20
TextDragon[8] 85.60 75.70 80.30
TextField[7] 81.20 79.90 80.60
TextRay 83.49 77.88 80.59
表3本实施例在ICDAR-ArT/SCUT-CTW1500/TotalText数据集上各评价指标
Figure BDA0002530982120000101
其中表1、表2中TextRay为本发明方法,表3中为未经过预训练的对比实验,其中TextRay_cheby开头的实验为本方法利用不同阶数的切比雪夫多项式对比,TextRay_Cartesian为相同框架下直接使用数据集原始标注的笛卡尔坐标系下的顶点对文本进行边缘建模,TextRay_360r为相同框架下使用极坐标系下采样的 360个半径对文本进行边缘建模的方法。其余方法对应的参考文献如下:
[1]Shangbang Long,Jiaqiang Ruan,Wenjie Zhang,Xin He,Wenhao Wu,andCong Yao.2018.TextSnake:A Flexible Representation for Detecting Text ofArbitrary Shapes.In Computer Vision-ECCV 2018-15th European Conference.
[2]Chengquan Zhang,Borong Liang,Zuming Huang,Mengyi En,Junyu Han,Errui Ding,and Xinghao Ding.2019.Look More Than Once:An Accurate Detector forText of Arbitrary Shapes.In IEEE Conference on Computer Vision and PatternRecognition,CVPR.
[3]Zichuan Liu,Guosheng Lin,Sheng Yang,Fayao Liu,Weisi Lin,and WangLing Goh.2019.Towards Robust Curve Text Detection With Conditional SpatialExpansion.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR.
[4]Wenhai Wang,Enze Xie,Xiang Li,Wenbo Hou,Tong Lu,Gang Yu,andShuaiShao.2019.Shape Robust Text Detection With Progressive Scale ExpansionNetwork.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR.
[5]Xiaobing Wang,Yingying Jiang,Zhenbo Luo,Cheng-Lin Liu,HyunsooChoi, and Sungjin Kim.2019.Arbitrary Shape Scene Text Detection With AdaptiveText Region Representation.In IEEE Conference on Computer Vision and PatternRecognition,CVPR.
[6]Pengfei Wang,Chengquan Zhang,Fei Qi,Zuming Huang,Mengyi En,JunyuHan,Jingtuo Liu,Errui Ding,and Guangming Shi.2019.A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning.InProceedings of the 27th ACM International Conference on Multimedia,MM. ACM,1277–1285.
[7]Yongchao Xu,Yukang Wang,Wei Zhou,Yongpan Wang,Zhibo Yang,and XiangBai.2019.TextField:Learning a Deep Direction Field for Irregular Scene TextDetection.IEEE Trans.Image Processing 28,11(2019),5566–5579.
[8]Wei Feng,Wenhao He,Fei Yin,Xu-Yao Zhang,and Cheng-Lin Liu.2019.TextDragon:An End-to-End Framework for Arbitrary Shaped Text Spotting.In IEEEInternational Conference on Computer Vision,ICCV.
通过以上技术方案,本发明实施基于深度学习技术提供了一种基于随机形态边缘几何建模的深度场景文本检测方法。本发明可以在各种真实图像数据上建模场景文本的空间几何特性,预测几何编码,从而得到准确的检测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,包括以下步骤:
S1、获取用于训练场景文本检测的多组图像数据集,并定义算法目标;
S2、在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值;
S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合;
S4、对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型;
S5、使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;
S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。
2.如权利要求1所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S1中,对于所述的用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域
Figure FDA0002530982110000011
其中di为第i个文本区域多边形,K为I中的文本样本数量。
3.如权利要求2所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S2中,在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值,具体包括:
S21、在每个文本样本的中心点(x,y)处建立极坐标系,从极点出以2π/N为间隔向-π到π的角度空间发射N条与文本边缘相交的射线,取每条射线与文本边缘的最后一个交点的极坐标形成半径向量r=[r1,r2,…,rN]与角度向量θ=[θθ2,…,θN],其中ri和θi分别为第i条射线与文本边缘的交点的半径和角度;
S22、将r和θ分别用最大相交半径s和π归一化后,利用切比雪夫多项式进行函数曲线拟合,拟合多项式表达式为:
Figure FDA0002530982110000012
其中:θ为角度自变量,Tk是第一类切比雪夫多项式,K度拟合参数c=[c0,c1,…,cK]定义为文本目标的形状向量;通过最小二乘法求解形状向量:
Figure FDA0002530982110000021
其中:c′=[c′0,c′1,…,c′K]表示使
Figure FDA0002530982110000022
最小的K度拟合参数;
S23、以K度拟合参数c、半径归一化参数s及中心点坐标(x,y)构成文本目标的几何编码信息ge=[c,s,x,y]。
4.如权利要求3所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S3中,利用全卷积特征提取网络对图像进行特征学习与全局特征融合具体包括:
S31、利用特征金字塔网络提取每张图像在不同尺度上的深度特征;
S32、在每个尺度的深度特征图上利用全局融合模块从上到下、从下到上、从左到右、从右到左四个方向上进行特征传播,再经过一层卷积得到融合的全局特征图。
5.如权利要求4所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S4中,对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型,具体包括:
S41、使用一层卷积操作,对每个尺度特征图上每个像素点针对其对应的文本实例预测一个几何编码ge=[c,s,x,y]和一个分类分数o;
S42、对K度拟合参数c利用视觉内容相关的可导损失函数ContentLoss进行回归:
Figure FDA0002530982110000023
其中c*为K度拟合参数c对应的真值,
Figure FDA0002530982110000024
smoothL1(·)表示smooth L1损失函数;
S43、对s,x,y利用smooth L1损失函数进行回归;
S44、对o的预测时,利用softmax分类当前特征,判别属于文本类或非文本;
S45、训练过程中,根据每个样本点距离文本中心点的距离为每个样本点确定一个中心化权重,其中第i个样本点(xi,yi)的中心化权重为
Figure FDA0002530982110000031
Figure FDA0002530982110000032
并根据wi给每个样本点赋予被采样到一个mini-batch中的概率
Figure FDA0002530982110000033
其中M为一张训练图像当中所有正样本点的个数;然后每个样本点的训练权重将被重新分布,分布后第i个样本点的训练权重为
Figure FDA0002530982110000034
M′为一个mini-batch中的正样本点个数;训练的总损失函数为:
Figure FDA0002530982110000035
其中Lcls为softmax函数,Lreg为smoothL1函数,Nreg为正样本数量,Ncls为正负样本点数量总和,向量tj=[sj,xj,yj],
Figure FDA0002530982110000036
为第i个样本点的分类分数oi对应的真值,
Figure FDA0002530982110000037
为第j个样本点的K度拟合参数cj对应的真值,
Figure FDA0002530982110000038
为第j个样本点的向量tj对应的真值。
6.如权利要求5所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S5中,使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状,具体包括:
基于由S1~S4建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到特征图上每个样本点处的区域是否为文本区域,对于判定为文本区域的样本点通过回归得到几何编码信息ge=[c,s,x,y],再通过ge重建文本边缘:
r′i=s*fKi,c)
x′i=x+r′i*cosθi
y′i=y+r′i*sinθi
其中:r′i为当前样本点处重建后得到的边缘上第i个点的半径,(x′i,y′i)为预测得到的边缘上第i个点的坐标;文本边缘的精确位置和形状用点集
Figure FDA0002530982110000039
表示。
7.如权利要求6所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S6中,对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果具体包括:
对S5输出的多边形候选框集合进行非极大值抑制,得到文本检测的候选框以及每个候选框的分类分数,然后利用阈值法进行过滤,删除分类分数低于阈值的多边形,以去除冗余的重复检测,得到最终的检测结果。
CN202010518387.5A 2020-06-09 2020-06-09 一种基于随机形态边缘几何建模的深度场景文本检测方法 Active CN111931763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010518387.5A CN111931763B (zh) 2020-06-09 2020-06-09 一种基于随机形态边缘几何建模的深度场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010518387.5A CN111931763B (zh) 2020-06-09 2020-06-09 一种基于随机形态边缘几何建模的深度场景文本检测方法

Publications (2)

Publication Number Publication Date
CN111931763A true CN111931763A (zh) 2020-11-13
CN111931763B CN111931763B (zh) 2024-03-12

Family

ID=73317163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010518387.5A Active CN111931763B (zh) 2020-06-09 2020-06-09 一种基于随机形态边缘几何建模的深度场景文本检测方法

Country Status (1)

Country Link
CN (1) CN111931763B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381183A (zh) * 2021-01-12 2021-02-19 北京易真学思教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112446356A (zh) * 2020-12-15 2021-03-05 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法
CN114092701A (zh) * 2021-12-04 2022-02-25 特斯联科技集团有限公司 一种基于神经网络的符号智能识别方法
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110569738A (zh) * 2019-08-15 2019-12-13 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110569738A (zh) * 2019-08-15 2019-12-13 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446356A (zh) * 2020-12-15 2021-03-05 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法
CN112446356B (zh) * 2020-12-15 2024-05-24 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法
CN112381183A (zh) * 2021-01-12 2021-02-19 北京易真学思教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112381183B (zh) * 2021-01-12 2021-05-07 北京易真学思教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114092701A (zh) * 2021-12-04 2022-02-25 特斯联科技集团有限公司 一种基于神经网络的符号智能识别方法
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置

Also Published As

Publication number Publication date
CN111931763B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN108288088B (zh) 一种基于端到端全卷积神经网络的场景文本检测方法
CN111931763B (zh) 一种基于随机形态边缘几何建模的深度场景文本检测方法
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN111310861A (zh) 一种基于深度神经网络的车牌识别和定位方法
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN109711416B (zh) 目标识别方法、装置、计算机设备和存储介质
TW202207077A (zh) 一種文本區域的定位方法及裝置
CN109086811A (zh) 多标签图像分类方法、装置及电子设备
CN112149705A (zh) 分类模型的训练方法、系统、计算机设备及存储介质
CN112528845B (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111738319B (zh) 一种基于大规模样本的聚类结果评价方法及装置
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
CN111079825B (zh) 针对医学图像的细胞核自动检测方法
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
CN110097067B (zh) 一种基于层进式特征变换的弱监督细粒度图像分类方法
CN114595352A (zh) 一种图像识别方法、装置、电子设备及可读存储介质
Yang et al. An improved algorithm for the detection of fastening targets based on machine vision
Wang et al. NAS-ASDet: An adaptive design method for surface defect detection network using neural architecture search
CN117788472A (zh) 一种基于dbscan算法的飞机蒙皮表面铆钉腐蚀程度判断的方法
CN113436115A (zh) 一种基于深度无监督学习的图像阴影检测方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN117496399A (zh) 用于视频中运动目标检测的聚类方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant