CN111444919A - 一种自然场景中的任意形状文本检测方法 - Google Patents

一种自然场景中的任意形状文本检测方法 Download PDF

Info

Publication number
CN111444919A
CN111444919A CN202010305563.7A CN202010305563A CN111444919A CN 111444919 A CN111444919 A CN 111444919A CN 202010305563 A CN202010305563 A CN 202010305563A CN 111444919 A CN111444919 A CN 111444919A
Authority
CN
China
Prior art keywords
text
training
region
prediction
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010305563.7A
Other languages
English (en)
Other versions
CN111444919B (zh
Inventor
杨育彬
钱锡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010305563.7A priority Critical patent/CN111444919B/zh
Publication of CN111444919A publication Critical patent/CN111444919A/zh
Application granted granted Critical
Publication of CN111444919B publication Critical patent/CN111444919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种自然场景中的任意形状文本检测方法,包括如下步骤:步骤1,对文本图片数据集中的训练图片进行预处理;步骤2,搭建分割网络,利用所述网络完成对训练图片的特征提取、分割预测,得到文本区域和文本中心区域的预测;步骤3,利用一种随着训练过程渐进衰减的权重来控制损失函数的计算,对网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,通过后处理算法得到文本中心核的预测图,过滤部分错误预测区域,然后直接扩张预测文本中心核得到最终检测结果。

Description

一种自然场景中的任意形状文本检测方法
技术领域
本发明涉及深度学习技术领域,尤其涉及一种自然场景中的任意形状文本检测方法。
背景技术
近几年来,自然场景中的文本检测在视频理解,物流识别,自动驾驶等许多领域应用广泛。然而,由于前景的文本块与文本行在形状、颜色、字体、尺度和方向上的不同,且自然场景中背景复杂多变,自然场景下的文本检测依然有很大挑战。
目前,在针对任意形状文本,例如弯曲文本的检测任务中,有一类主流的处理方式是基于语义分割的方法,因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而,以往基于语义分割的方法往往对阈值选择十分敏感,即针对同一个数据集,人工设定的阈值变化会导致检测精度产生较大变化。在实际应用中,人们无法获取待检测数据的标签数据,采用对阈值敏感的检测方法,只能采取一个经验阈值,往往会导致检测效果与模型可达到的最佳性能有较大差距。因此,降低场景文本检测模型对阈值选择的敏感程度是非常有必要的。换言之,需要提高检测算法分离前景与背景的准确程度。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种自然场景中的任意形状文本检测方法,给定一张场景图片,本发明将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来,给出文本检测的结果。特别的,本发明对前景和背景的分类更精确,具体表现为对阈值选择不敏感且误检率低。该方法被简记为TIKD(Threshold Insensitive Kernel Detector)。
本发明方法包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建一个语义分割网络,利用语义分割网络完成对训练图片的特征提取、分割预测,得到文本区域和类似文本物体的中心区域的预测;
步骤3,利用一种随着训练过程渐进衰减的权重来控制损失函数的计算,对语义分割网络进行监督训练得到检测器模型;
步骤4,通过检测器模型对待检测图片进行检测;
步骤5,计算得到文本中心核的预测图,过滤部分错误预测区域,然后直接扩张预测文本中心区域得到最终检测结果。
本发明中,步骤1所述文本图片数据集为已有的公开的文本图片数据集,例如:ICDAR2019-MLT,ICDAR2015,MSRA-TD500,Total-Text,CTW1500等,或者为自行采集的场景文本图片数据集,所述文本图片数据集中通常包含有N张(一般为1000张以上)训练图片,每张训练图片中至少包含一个文本区域,并且有一个以四边形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,标注文件中的信息被称为标注。
本发明中,步骤1包括:对自然场景文本图片数据集中的训练图片进行如下数据增强:首先将训练图片按照某个比例放缩(一般比例取0.5),然后将训练图片概率随机水平翻转且在一定角度范围内(一般取正负10度)进行随机旋转,最后从训练图片上随机裁剪出固定大小(一般取640像素×640像素)的样例,作为最终的训练图片,训练图片中的文本区域被称为文本实例,每个文本实例的人工标注框被称为其对应的标注,约定模糊不清的文本被标注为‘###’。
本发明中,步骤2中,所述语义分割网络包括一个特征金字塔网络模块,一个特征融合模块和两个预测模块。
本发明中,步骤2包括以下步骤:
步骤2-1,所述特征金字塔网络模块的结构为:以50层的深度残差网络(参考文献:Identity mappings in deep residual networks.)作为特征提取器,最后三层卷积中的卷积替换为可变形卷积核(参考文献:Deformable convnets v2:More deformable,betterresults.),后接一个特征金字塔结构(参考文献:Feature pyramid networks for objectdetection.)构成。对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,利用特征融合模块将P2,P3,P4,P5进行融合,融合后的特种图F定义如下:
F=C(P2,P3,P4,P5)=Neck(P2)||Up×2(Neck(P3))||Up×4(Neck(P4))||Up×8(Neck(P5))
其中,符号||表示连接;Neck( )表示将特征图用降维模块降到128维,降维模块为Conv(1,1)-BN-ReLU层,其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层,BN表示批量归一化层,ReLU为线性整流函数;Up×n( )表示对特征图进行n倍的上采样,采样方式为最近邻采样(nearest)。
步骤2-3,特征图F进入两个预测模块Pred。两个Pred模块的结构相同但参数不共享。预测模块的结构为:BRConv(3,1)、BRTransposeConv(3,2)×2、Sigmoid。其中,BRConv(3,1)表示卷积核为3×3,步长为1的卷积层,BN批量归一化层和ReLU线性整流层;BRTransposeConv(3,2)×2表示两个连续的转置卷积组,其中每个转置卷积组由一个卷积核为3×3,步长为2的转置卷积,BN批量归一化层和ReLU线性整流函数组成。每个Pred模块输出一个与输入图大小相同的特征图,第一个预测模块的输出记为Tpred,表示文本区域的预测,第二个预测模块的输出记为Kpred,表示类似文本物体的中心区域的预测。
本发明中,步骤3包括如下步骤:
步骤3-1,根据训练图片中的文本实例对应的标签,对每张图片生成两个预测模块所需的两张标签,对每张图片生成监督标签的步骤如下:
步骤3-1-1,每个文本实例所对应标注的每个多边形pi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为T;
步骤3-1-2,将每个pi利用Vatti clipping算法(参考文献:Ageneric solutionto polygon clipping.)收缩di个像素点得到收缩后的多边形qi。每个收缩后的多边形qi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为K,di的计算公式为:
Figure BDA0002455669500000031
其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r表示收缩的比例;
步骤3-1-3,生成与T对应的边缘权重系数图ET:对T中每个文本实例的二进制掩码pti,利用Vatti clipping算法先收缩dti个像素点,得到的多边形记为ptsi,然后再扩张dti个像素点,得到的多边形记为ptdi,ptsi和ptdi之间的区域被记为gapti,gapti被视为pti的边缘区域;将边缘权重系数图ET初始化为一个与T同样大小的矩阵,全部填充为0,然后将gapti对应的区域填充为-1;dti的计算公式为:
Figure BDA0002455669500000041
其中r表示收缩的比例,maxt为设置的最大文本区域边界宽度;
步骤3-1-4,生成与K对应的边缘权重系数图EK:对K中每个文本实例中心区域的二进制掩码pki,利用Vatti clipping算法先收缩dki个像素点,得到的多边形记为pksi,然后再扩张dki个像素点,得到的多边形记为pkdi,pksi和pkdi之间的区域被记为gapki,gapki被视为pki的边缘区域;将边缘权重系数图EK初始化为一个与K同样大小的矩阵,全部填充为0,将gapki对应的区域填充为-1;dki的计算公式为:
Figure BDA0002455669500000042
其中r表示收缩的比例,maxk为设置的最大文本中心区域边界宽度;
步骤3-1-5,生成与T对应的训练掩膜(training mask)TM:将TM初始化为一个与T同样大小的矩阵,全部填充为1;将被标注为‘###’的文本实例在TM中对应的区域填充为0,对应文本实例标记为ignore,赋值为True;由于在训练中随机放缩图像,对短边低于阈值(一般取8个像素点)的文本实例,将其在训练掩膜TM中对应的区域填充为0,对应文本实例标记为ignore,赋值为True;其余文本实例标记为ignore,赋值为False;
步骤3-1-6,生成与K对应的训练掩膜(training mask)KM:将KM初始化为一个与K同样大小的矩阵,全部填充为0;将标记ignore等于False的文本实例在ET中对应的ptdi的区域填充为1;
步骤3-1-7,生成与文本实例大小相关的权重系数SM:初始化SM为一个和T相同大小的矩阵,全部填充为0;对每个文本实例在T中对应的区域pti,计算其关于面积大小的一个系数Wsizei,并将SM中对应pti的区域填充为Wsizei,Wsizei的计算公式为:
Figure BDA0002455669500000051
其中,Min和Max分别为人为设定的文本实例宽度的最小值和最大值,Min一般设置为20像素,Max一般设置为100像素,Minedge为近似计算的该文本实例宽度,计算公式为:
Figure BDA0002455669500000052
其中,L为所述文本实例的周长,A为所述文本实例的面积;
步骤3-2,设置语义分割网络的训练损失函数L为:
L=LT+λLK
其中,LT和LK分别表示完整的文本实例的损失和收缩后的文本中心区域的损失,参数λ用来平衡LT和LK,参数λ的取值范围为[0,1],采用交叉熵与dice系数的组合方式来计算损失函数L,并且引入随着训练过程逐渐衰减的权重系数,简记为衰减损失权重DLW(decayloss weight),损失函数具体计算如下:
步骤3-2-1,根据步骤3-1中得到的权重系数矩阵SM,ET,TM,EK,KM,计算出文本区域衰减损失权重TDLW和文本中心区域衰减损失权重KDLW,计算公式如下:
Figure BDA0002455669500000053
Figure BDA0002455669500000054
其中,λ是张量幂运算的底数,
Figure BDA0002455669500000055
表示逐元素间一一相乘,计算后得到两个与T同样大小的权重矩阵,ep为一个随着训练轮数增加不断变化的参数,计算公式如下:
Figure BDA0002455669500000056
其中current_epoch表示当前训练的轮数(每完整训练整个数据集为1轮),MAX_epoch表示训练时预先设定的最大训练轮数;
步骤3-2-2,LT计算公式为:LT=BCET+DiceT,文本区域的二值交叉熵损失BCET计算公式为:
Figure BDA0002455669500000061
其中,xi表示第i个像素点的预测值,yi表示第i个像素点的标签值,像素点取自集合Sl
Figure BDA0002455669500000062
表示逐元素间一一相乘,Sl为一个集合,其中元素按照正负样本比1:3的方式选择,正样本为T中所有文本实例包含的像素,数目记为positive,负样本为背景区域中损失最大的前neg个像素,neg计算公式为:
neg=min(negative,positive×3),
其中,negative表示背景像素的数目;文本区域的戴斯损失(Dice loss)DiceT计算公式为:
Figure BDA0002455669500000063
其中,“∩”表示两个张量相乘的运算;
步骤3-2-3,LK计算公式为:
LK=BCEK+DiceK
文本中心区域的二值交叉熵损失BCEK计算公式为:
Figure BDA0002455669500000064
其中,
Figure BDA0002455669500000065
表示逐元素间一一相乘,km为一个集合,集合km中的元素为KM中所有值为1的像素点对应的元素;
文本中心区域的戴斯损失(Dice loss)DiceK计算公式为:
Figure BDA0002455669500000066
其中,“∩”表示两个张量相乘的运算;
步骤3-3:利用步骤1中预处理过的图片以及步骤3-1中计算得到的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对语义分割网络进行监督训练,得到训练好的检测器模型。
本发明中,步骤4包括:用步骤3中训练好的检测器模型进行分割结果的预测,每张待检测图片能够得到两个分割结果掩码Kpred和Tpred,它们分别代表对物体中心区域的预测结果和文本区域的预测结果;
本发明中,步骤5包括:
步骤5-1,根据如下公式计算得到文本中心区域预测结果FKpred
Figure BDA0002455669500000072
其中,Pthresh表示对每个像素点的阈值,一般取值在0.3到0.5之间;
步骤5-2,计算FKpred中的所有连通分量,对每个连通分量Ci采用Vatti clipping算法分别扩张两次,第一次扩张di1个像素得到不含边缘区域的预测包围框1,记为Box1,第二次扩张di2个像素得到文本区域预测包围框2,记为Box2,dik计算公式为:
Figure BDA0002455669500000071
其中,r′表示扩张的比例,该比例根据收缩的比例相应得到,如收缩比例为0.5,扩张比例经验值近似取1.8,收缩比例为0.4,扩张比例经验值近似取2.0;
步骤5-3,计算Box1对应在Tpred中区域的平均分数作为预测文本实例的包围框分数,采用一个包围框阈值(需要比像素点阈值高,一般取值在0.7到0.9之间)滤除部分包围框分数低的预测区域;
步骤5-4,满足步骤5-3的Ci对应的Box2的集合即为最终检测结果。
有益效果:相比以往的文本检测方法,本发明的优势在于,在检测弯曲文本及长文本时,检测精度有明显提高,在实践使用中,本发明对阈值选择不敏感,使用默认阈值即可获得接近模型最佳精度的检测效果。另外地,本发明采用的模型简单,检测速度超过大多数以往方法,且本发明的关键技术由于只改变了损失函数的权重构成,可以方便地集成到其他基于语义分割方法的场景文本检测方法中。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明整体架构;
图2是本发明生成标签示意图;
图3为采用本发明方法的第一个例子的检测效果图;
图4为采用本发明方法的第二个例子的检测效果图;
图5为采用本发明方法的第三个例子的检测效果图;
图6为采用本发明方法的第四个例子的检测效果图;
图7为采用本发明方法的第五个例子的检测效果图;
具体实施方式
本发明为一种场景文本检测的方法,包括如下步骤:
步骤1,对已有的公开的文本图片数据集,例如:ICDAR2019-MLT,ICDAR2015,MSRA-TD500,Total-Text,CTW1500等,或者自行采集的场景文本图片数据集进行预处理,对训练图片进行数据增强:(1)将训练图片按照比例0.5到3.0之间随机放缩;(2)将训练图片以0.5的概率随机水平翻转且在[-10°,10°]范围内进行随机旋转(3))从训练图片上随机裁剪出大小为640×640的样例;(4)图片使用通道均值和标准差归一化。
步骤2,搭建TIKD(Threshold Insensitive Kernel Detector,阈值不敏感核检测器)的网络,TIKD网络结构如图1所示,包括一个特征金字塔网络模块,一个特征融合模块和两个预测模块,完成对图片的特征提取,特征融合以及分割预测得到文本区域分割预测图和物体中心区域分割预测图。具体包括如下步骤:
步骤2-1,建立一个特征金字塔网络模块,对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,特征融合模块将特征金字塔模块得到的四个特征图进行融合,融合函数F定义如下:
F=C(P2,P3,P4,P5)=Neck(P2)||Up×2(Neck(P3)||Up×4(Neck(P4)||Up×8(Neck(P5)
其中,符号||表示连接;Neck( )表示将特征图用降维模块降到128维,降维模块为Conv(1,1)-BN-ReLU层,其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层,BN表示批量归一化层,ReLU为线性整流函数;Up×n( )表示对特征图进行n倍的上采样,采样方式为最近邻采样(nearest)。
步骤2-3,特征图F进入两个预测分支模块Pred。两个Pred模块的结构相同但参数不共享。Pred模块的结构为,BRConv(3,1)-BRTransposeConv(3,2)×2-Sigmoid。其中,BRConv(3,1)表示卷积核为3×3,步长为1的卷积层,BN批量归一化层和ReLU线性整流层;BRTransposeConv(3,2)×2表示两个连续的转置卷积组,其中每个转置卷积组由一个卷积核为3×3,步长为2的转置卷积,BN批量归一化层和ReLU线性整流函数组成。每个Pred模块输出一个与输入图大小相同的特征图,第一个Pred模块的输出记为Tpred,第二个Pred模块的输出记为Kpred
步骤3,模型的训练,这一步骤是TIKD性能提升的关键,步骤3包括如下步骤:
步骤3-1,根据训练图片中的文本实例对应的标签,对每张图片生成两个预测分支模块所需的两张标签,如图2所示(图2中的白色线条用来对比位置,没有实际意义),对每张图片需要生成七个矩阵,生成监督标签的步骤分别如下:
a.原始文本实例所对应标签的每个多边形pi被转换为一个二进制掩码,得到的与原图大小相同的掩码图记为T;
b.将每个pi利用Vatti clipping算法收缩di个像素点得到收缩后的多边形qi。每个收缩后的多边形qi被转换为一个二进制掩码,得到的与原图大小相同的掩码图记为K,di的计算公式为:
Figure BDA0002455669500000091
其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r表示收缩的比例,在本实施例中取0.5;
c.生成与T对应的边缘权重系数图ET:对T中每个文本实例的二进制掩码pti,利用Vatti clipping算法先收缩dti个像素点得到的多边形记为ptsi,然后再扩张dti个像素点得到的多边形记为ptdi,ptsi和ptdi之间的区域被记为gapti,gapti被视为pti的边缘区域。首先将ET初始化为一个与T同样大小的矩阵,全部填充为0。然后将gapti对应的区域填充为-1。dti的计算公式为:
Figure BDA0002455669500000101
其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r表示收缩的比例,在本实施例中取0.9,maxt为文本区域边缘宽度的上界,在本实施例中取10个像素;
d.生成与K对应的边缘权重系数图EK:对K中每个文本实例中心区域的二进制掩码pki,利用Vatti clipping算法先收缩dki个像素点得到的多边形记为pksi,然后再扩张dki个像素点得到的多边形记为pkdi,pksi和pkdi之间的区域被记为gapki,gapki被视为pki的边缘区域。首先将EK初始化为一个与K同样大小的矩阵,全部填充为0。然后将gapki对应的区域填充为-1。dki的计算公式为:
Figure BDA0002455669500000102
其中,r表示收缩的比例,在本实施例中取0.9,maxk为边缘宽度的上界,在本实施例中取5个像素;
e.生成与T对应的训练掩膜(training mask)TM:首先将TM初始化为一个与T同样大小的矩阵,全部填充为1。然后将被标注为‘###’的文本实例在TM中对应的区域填充为0,对应文本实例标记为ignore赋值为True。另外,由于在训练中随机放缩图像,对短边小于8个像素点的文本实例,将其TM中对应的区域填充为0,对应文本实例标记为ignore赋值为True。其余文本实例标记ignore赋值为False;
f.生成与K对应的训练掩膜(training mask)KM:首先将KM初始化为一个与K同样大小的矩阵,全部填充为0。然后将标记ignore等于False的文本实例在ET中对应的ptdi的区域填充为1;
g.生成与文本实例大小相关的权重系数SM:首先初始化SM为一个和T相同大小的矩阵,全部填充为0。然后对每个文本实例在T中对应的区域pti,计算其关于面积大小的一个系数Wsizei,并将SM中对应pti的区域填充为Wsizei,Wsizei的计算公式为:
Figure BDA0002455669500000111
其中,在本实施例中,Min和Max分别被设置为20个像素和100个像素,Minedge为近似计算的文本实例宽度,计算公式为:
Figure BDA0002455669500000112
其中,L为该文本实例的周长,A为该文本实例的面积;
步骤3-2,将步骤3-1中生成的权重系数加入到传统的交叉熵损失函数和戴斯损失函数中,损失函数具体计算如下,总损失为:
L=LT+λLK,
其中,LT和LK分别表示完整的文本实例的损失和收缩后的文本中心区域的损失,参数λ用来平衡LT和LK,参数λ的取值范围为[0,1],在本实施例中取1。采用交叉熵与dice系数的组合方式来计算损失函数L,并且引入随着训练过程逐渐衰减的权重系数,简记为DLW(decay loss weight);
步骤3-2中,设置TIKD的训练损失函数L如下:
首先根据步骤3-1中得到的权重系数矩阵SM,ET,TM,EK,KM,计算出TDLW和KDLW,计算公式如下:
Figure BDA0002455669500000113
Figure BDA0002455669500000121
其中,λ是张量幂运算的底数,在本实施例中设置为4,
Figure BDA0002455669500000122
表示逐元素间一一相乘,计算后得到两个与T同样大小的权重矩阵,ep为一个随着训练轮数增加不断变化的参数,计算公式如下:
Figure BDA0002455669500000123
其中current_epoch表示当前训练的轮数,MAX_epoch表示训练时预先设定的最大训练轮数,在本实施例中设置为1200;
LT计算公式为:LT=BCET+DiceT,BCET计算公式为:
Figure BDA0002455669500000124
其中,xi表示第i个像素点的预测值,yi表示第i个像素点的标签值。
Figure BDA0002455669500000128
表示逐元素间一一相乘,Sl为一个集合,其中元素按照正负样本比1:3的方式选择,正样本为T中所有文本实例包含的像素,数目记为positive,负样本为背景区域中损失最大的前neg个像素,neg计算公式为:
neg=min(negative,positive×3),
其中,negative表示背景像素的数目;DiceT计算公式为:
Figure BDA0002455669500000125
其中,“∩”表示两个张量相乘的运算;
LK计算公式为:LK=BCEK+DiceK,BCEK计算公式为:
Figure BDA0002455669500000126
其中,“xi”表示某个像素点的预测值,“yi”表示某个像素点的标签值。
Figure BDA0002455669500000127
表示逐元素间一一相乘,km为一个集合,其元素为KM中所有值为1的像素点对应的元素;DiceT计算公式为:
Figure BDA0002455669500000131
其中,“∩”表示两个张量相乘的运算;
步骤3-3:利用步骤1中预处理过的图片以及步骤3-1中计算得到的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对TIKD网络进行监督训练,典型的训练参数配置如下图表1所示:
表1
Figure BDA0002455669500000132
步骤4包括:用步骤3中训练好的检测器模型进行分割结果的预测,每张待检测图片能够得到两个分割结果掩码Kpred和Tpred,它们分别代表对物体中心区域的预测结果和文本区域的预测结果;
步骤5包括:
步骤5-1,从步骤4中得到Kpred和Tpred,首先计算得到文本中心区域预测结果FKpred,计算公式如下:
Figure BDA0002455669500000133
其中,Pthresh表示对每个像素点的阈值,在本实施例中,将其依次设置为0.25,0.5,0.75来展示TIKD对阈值选择不敏感的特性;
步骤5-2,计算FKpred中的所有连通分量,对每个连通分量Ci采用Vatti clipping算法分别扩张两次,第一次扩张di1个像素得到Box1,第二次扩张di2个像素Box2,dik计算公式为:
Figure BDA0002455669500000141
其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r′表示扩张的比例,在本实施例中,对应步骤3中中心区域的收缩比例0.5,在k=1时,r′取1.4,在k=2时,r′取1.8;
步骤5-3,计算Box1对应在Tpred中区域的平均分数作为该预测文本实例的包围框分数,采用包围框阈值滤除部分包围框分数低的预测区域,在本实施例中,包围框阈值被依次设置为0.5,0.6,0.7,0.8来展示TIKD对阈值选择不敏感的特性,;
步骤5-4,满足步骤5-3的Ci对应的Box2的集合即为最终检测结果。
本实施例在标准弯曲文本图片数据集Total-Text(包含水平文本,倾斜文本和弯曲文本)上的检测效果如表2所示,本发明方法与主流方法TextSnake(人工智能顶级会议ECCV2018提出的方法)和PSENet(人工智能顶级会议CVPR2019提出的方法)作比较:
表2
方法 准确率 召回率 调和平均值 FPS(张/秒)
TextSnake 82.7% 74.5% 78.4% 1.1
PSENet 84.0% 78.0% 80.9% 3.9
本发明 88.9% 84.1% 86.4% 16.3
可以看到,本发明在准确率,召回率,调和均值以及检测速度方面都有很大的优势,有效地证明了本发明检测精度高的特性,且能检测任意形状文本。
本实施例在标准多语言场景文字数据集MSRA-TD500(包含长直文本,取自街景图片)上的检测效果如表3所示,本发明方法与主流方法TextSnake(人工智能顶级会议ECCV2018提出的方法)和CRAFT(人工智能顶级会议CVPR2019提出的方法)作比较:
表3
Figure BDA0002455669500000142
可以看到,本发明在准确率,召回率,调和均值以及检测速度方面都有很大的优势,有效地证明了本发明对待中英文场景文字检测精度高的特性,且能很好地检测长文本。
另外,本实施例给出本实施例在Total-Text数据集上取不同阈值的检测结果,见表4:
表4
像素阈值 包围框阈值 准确率 召回率 调和平均值
0.25 0.8 88.8% 81.7% 85.1%
0.5 0.8 88.9% 84.1% 86.4%
0.75 0.8 86.6% 84.2% 85.4%
0.5 0.6 86.3% 85.0% 85.6%
0.5 0.7 87.6% 84.7% 86.2%
0.25 0.5 86.1% 83.8% 84.9%
需要说明的是,像素阈值需要小于包围框阈值(否则后者将失去意义),可以看到,本发明在各种极端的阈值选择之下,综合性能(调和平均值)表现波动非常小,有效地证明了本发明对阈值选择不敏感的特性。
图3到图7给出了一些检测结果图例,可以看到,本发明对弯曲文本,面积大的文本以及密集的文本,中文与英文均有很好的检测效果。
本发明提供了一种自然场景中的任意形状文本检测方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (8)

1.一种自然场景中的任意形状文本检测方法,其特征在于,包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建一个语义分割网络,利用所述语义分割网络完成对训练图片的特征提取、分割预测,得到文本区域和类似文本物体的中心区域的预测;
步骤3,对语义分割网络进行监督训练得到检测器模型;
步骤4,通过检测器模型对待检测图片进行检测;
步骤5,计算得到文本中心核的预测图,过滤错误预测区域,得到最终检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:对文本图片数据集中的训练图片进行如下数据增强:首先将训练图片按照比例放缩,然后将训练图片概率随机水平翻转且在一定角度范围内进行随机旋转,最后从训练图片上随机裁剪出固定大小的样例,作为最终的训练图片,训练图片中的文本区域被称为文本实例,每个文本实例的人工标注框被称为其对应的标注,约定模糊不清的文本被标注为###。
3.根据权利要求2所述的方法,其特征在于,步骤2包括:
步骤2-1,搭建一个语义分割网络,所述语义分割网络包括一个特征金字塔网络模块,一个特征融合模块和两个预测模块;
所述特征金字塔网络模块的结构为:以50层的深度残差网络作为特征提取器,最后三层卷积中的卷积核替换为可变形卷积核,后接一个特征金字塔结构;利用特征金字塔网络模块对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,利用特征融合模块将P2,P3,P4,P5进行融合,融合后的特种图F定义如下:
F=C(P2,P3,P4,P5)=Neck(P2)||Up×2(Neck(P3)||Up×4(Neck(P4)||Up×8(Neck(P5)
其中,符号||表示连接;Neck()表示将特征图用降维模块降到128维,降维模块为Conv(1,1)-BN-ReLU层,其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层,BN表示批量归一化层,ReLU为线性整流函数;Up×n()表示对特征图进行n倍的上采样,采样方式为最近邻采样;
步骤2-3,特种图F进入两个预测模块,两个预测模块的结构相同但参数不共享,预测模块的结构为BRConv(3,1)、BRTransposeConv(3,2)×2、Sigmoid,其中,BRConv(3,1)表示卷积核为3×3,步长为1的卷积层,BN批量归一化层和ReLU线性整流层;BRTransposeConv(3,2)×2表示两个连续的转置卷积组,其中每个转置卷积组由一个卷积核为3×3,步长为2的转置卷积,BN批量归一化层和ReLU线性整流函数组成;每个预测模块输出一个与输入图大小相同的特征图,第一个预测模块的输出记为Tpred,表示文本区域的预测,第二个预测模块的输出记为Kpred,表示类似文本物体的中心区域的预测。
4.根据权利要求3所述的方法,其特征在于,步骤3包括:
步骤3-1,根据训练图片中的文本实例对应的标签,对每张图片生成两个预测模块所需的两张标签;
步骤3-2,设置语义分割网络的训练损失函数L为:
L=LT+λLK
其中,LT和LK分别表示完整的文本实例的损失和收缩后的文本中心区域的损失,参数λ用来平衡LT和LK,参数λ的取值范围为[0,1],采用交叉熵与dice系数的组合方式来计算损失函数L,并且引入随着训练过程逐渐衰减的权重系数,权重系数记为DLW;
步骤3-3:利用步骤1中预处理过的图片以及步骤3-1中计算得到的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对语义分割网络进行监督训练,得到训练好的检测器模型。
5.根据权利要求4所述的方法,其特征在于,步骤3-1包括如下步骤:
步骤3-1-1,每个文本实例所对应标注的每个多边形pi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为T;
步骤3-1-2,将每个多边形pi利用Vatti clipping算法收缩di个像素点得到收缩后的多边形qi,每个收缩后的多边形qi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为K,di的计算公式为:
Figure FDA0002455669490000021
其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r表示收缩的比例;
步骤3-1-3,生成与T对应的边缘权重系数图ET:对T中每个文本实例的二进制掩码pti,利用Vatti clipping算法先收缩dti个像素点,得到的多边形记为ptsi,然后再扩张dti个像素点,得到的多边形记为ptdi,ptsi和ptdi之间的区域被记为gapti,gapti被视为pti的边缘区域;将边缘权重系数图ET初始化为一个与T同样大小的矩阵,全部填充为0,然后将gapti对应的区域填充为-1;dti的计算公式为:
Figure FDA0002455669490000031
其中,maxt为设置的最大文本区域边界宽度;
步骤3-1-4,生成与K对应的边缘权重系数图EK:对K中每个文本实例中心区域的二进制掩码pki,利用Vatti clipping算法先收缩dki个像素点,得到的多边形记为pksi,然后再扩张dki个像素点,得到的多边形记为pkdi,pksi和pkdi之间的区域被记为gapki,gapki被视为pki的边缘区域;将边缘权重系数图EK初始化为一个与K同样大小的矩阵,全部填充为0,将gapki对应的区域填充为-1;dki的计算公式为:
Figure FDA0002455669490000032
其中,maxk为设置的最大文本中心区域边界宽度;
步骤3-1-5,生成与T对应的训练掩膜TM:将TM初始化为一个与T同样大小的矩阵,全部填充为1;将被标注为###的文本实例在TM中对应的区域填充为0,对应文本实例标记为ignore,赋值为True;由于在训练中随机放缩图像,对短边低于阈值的文本实例,将其在训练掩膜TM中对应的区域填充为0,对应文本实例标记为ignore,赋值为True;其余文本实例标记为ignore,赋值为False;
步骤3-1-6,生成与K对应的训练掩膜KM:将KM初始化为一个与K同样大小的矩阵,全部填充为0;将标记ignore等于False的文本实例在ET中对应的ptdi的区域填充为1;
步骤3-1-7,生成与文本实例大小相关的权重系数SM:初始化SM为一个和T相同大小的矩阵,全部填充为0;对每个文本实例在T中对应的区域pti,计算其关于面积大小的一个系数Wsizei,并将SM中对应pti的区域填充为Wsizei,Wsizei的计算公式为:
Figure FDA0002455669490000041
其中,Min和Max分别为设定的文本实例宽度的最小值和最大值,Minedge为近似计算的该文本实例宽度,计算公式为:
Figure FDA0002455669490000042
其中,L为所述文本实例的周长,A为所述文本实例的面积。
6.根据权利要求5所述的方法,其特征在于,步骤3-2中,所述损失函数L具体计算过程包括:
步骤3-2-1,根据步骤3-1中得到的权重系数矩阵SM,ET,TM,EK,KM,计算出文本区域衰减损失权重TDLW和文本中心区域衰减损失权重KDLW,计算公式如下:
Figure FDA0002455669490000043
Figure FDA0002455669490000044
其中,λ是张量幂运算的底数,
Figure FDA0002455669490000045
表示逐元素间一一相乘,计算后得到两个与T同样大小的权重矩阵,ep为一个随着训练轮数增加不断变化的参数,计算公式如下:
Figure FDA0002455669490000046
其中current_epoch表示当前训练的轮数,MAX_epoch表示训练时预先设定的最大训练轮数;
步骤3-2-2,LT计算公式为:LT=BCET+DiceT,文本区域的二值交叉熵损失BCET计算公式为:
Figure FDA0002455669490000051
其中,xi表示第i个像素点的预测值,yi表示第i个像素点的标签值,像素点取自集合Sl;Sl为一个集合,其中元素按照正负样本比1:3的方式选择,正样本为T中所有文本实例包含的像素,数目记为positive,负样本为背景区域中损失最大的前neg个像素,neg计算公式为:
neg=min(negative,positive×3),
其中,negative表示背景像素的数目;
文本区域的戴斯损失DiceT计算公式为:
Figure FDA0002455669490000052
其中,∩表示两个张量相乘的运算;
步骤3-2-3,LK计算公式为:
LK=BCEK+DiceK
文本中心区域的二值交叉熵损失BCEK计算公式为:
Figure FDA0002455669490000053
其中,km为一个集合,集合km中的元素为KM中所有值为1的像素点对应的元素;
文本中心区域的戴斯损失DiceK计算公式为:
Figure FDA0002455669490000054
7.根据权利要求6所述的方法,其特征在于,步骤4包括:用步骤3中训练好的检测器模型进行分割结果的预测,每张待检测图片能够得到两个分割结果掩码Kpred和Tpred,它们分别代表对物体中心区域的预测结果和文本区域的预测结果。
8.根据权利要求7所述的方法,其特征在于,步骤5包括:
步骤5-1,根据如下公式计算得到文本中心区域预测结果FKpred
Figure FDA0002455669490000061
其中,Pthresh表示对每个像素点的阈值;
步骤5-2,计算FKpred中的所有连通分量,对每个连通分量Ci采用Vatti clipping算法分别扩张两次,第一次扩张di1个像素得到不含边缘区域的预测包围框1,记为Box1,第二次扩张di2个像素得到文本区域的预测包围框2,记为Box2,dik计算公式为:
Figure FDA0002455669490000062
其中r′表示扩张的比例;
步骤5-3,计算Box1对应在Tpred中区域的平均分数作为预测文本实例的包围框分数,采用一个包围框阈值滤除部分包围框分数低的预测区域;
步骤5-4,满足步骤5-3的Ci对应的Box2的集合即为最终检测结果。
CN202010305563.7A 2020-04-17 2020-04-17 一种自然场景中的任意形状文本检测方法 Active CN111444919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010305563.7A CN111444919B (zh) 2020-04-17 2020-04-17 一种自然场景中的任意形状文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010305563.7A CN111444919B (zh) 2020-04-17 2020-04-17 一种自然场景中的任意形状文本检测方法

Publications (2)

Publication Number Publication Date
CN111444919A true CN111444919A (zh) 2020-07-24
CN111444919B CN111444919B (zh) 2023-07-04

Family

ID=71653236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010305563.7A Active CN111444919B (zh) 2020-04-17 2020-04-17 一种自然场景中的任意形状文本检测方法

Country Status (1)

Country Link
CN (1) CN111444919B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070082A (zh) * 2020-08-24 2020-12-11 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN112381183A (zh) * 2021-01-12 2021-02-19 北京易真学思教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112712078A (zh) * 2020-12-31 2021-04-27 上海智臻智能网络科技股份有限公司 文本检测的方法及装置
CN112861860A (zh) * 2021-03-11 2021-05-28 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN112926581A (zh) * 2021-03-29 2021-06-08 中国科学院合肥物质科学研究院 一种基于基于轮廓建模的文本检测方法
CN112926582A (zh) * 2021-03-30 2021-06-08 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN112949755A (zh) * 2021-03-29 2021-06-11 中国科学院合肥物质科学研究院 一种基于图像结构信息的ocr数据合成方法
CN112949574A (zh) * 2021-03-29 2021-06-11 中国科学院合肥物质科学研究院 一种基于深度学习的级联式文本关键字段检测方法
CN113516114A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 一种高效精确的自然场景文本检测方法、设备和介质
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113807351A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN114049625A (zh) * 2021-11-11 2022-02-15 西北工业大学 基于新型图像收缩方法的多方向文本检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108427924A (zh) * 2018-03-09 2018-08-21 华中科技大学 一种基于旋转敏感特征的文本回归检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110059539A (zh) * 2019-02-27 2019-07-26 天津大学 一种基于图像分割的自然场景文本位置检测方法
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108427924A (zh) * 2018-03-09 2018-08-21 华中科技大学 一种基于旋转敏感特征的文本回归检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN110059539A (zh) * 2019-02-27 2019-07-26 天津大学 一种基于图像分割的自然场景文本位置检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张楠: "《基于卷积神经网络的自然场景多方向文本检测算法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张楠: "《基于卷积神经网络的自然场景多方向文本检测算法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, 15 March 2020 (2020-03-15) *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070082A (zh) * 2020-08-24 2020-12-11 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN112070082B (zh) * 2020-08-24 2023-04-07 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN112712078A (zh) * 2020-12-31 2021-04-27 上海智臻智能网络科技股份有限公司 文本检测的方法及装置
CN112381183A (zh) * 2021-01-12 2021-02-19 北京易真学思教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112861860A (zh) * 2021-03-11 2021-05-28 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN112926581A (zh) * 2021-03-29 2021-06-08 中国科学院合肥物质科学研究院 一种基于基于轮廓建模的文本检测方法
CN112949755A (zh) * 2021-03-29 2021-06-11 中国科学院合肥物质科学研究院 一种基于图像结构信息的ocr数据合成方法
CN112949574A (zh) * 2021-03-29 2021-06-11 中国科学院合肥物质科学研究院 一种基于深度学习的级联式文本关键字段检测方法
CN112926581B (zh) * 2021-03-29 2022-11-08 中国科学院合肥物质科学研究院 一种基于轮廓建模的文本检测方法
CN112926582B (zh) * 2021-03-30 2021-12-07 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN112926582A (zh) * 2021-03-30 2021-06-08 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN113516114A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 一种高效精确的自然场景文本检测方法、设备和介质
CN113516114B (zh) * 2021-05-19 2023-09-29 西安建筑科技大学 一种自然场景文本检测方法、设备和介质
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113591719B (zh) * 2021-08-02 2024-05-28 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113807351A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113807351B (zh) * 2021-09-18 2024-01-16 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN114049625A (zh) * 2021-11-11 2022-02-15 西北工业大学 基于新型图像收缩方法的多方向文本检测方法
CN114049625B (zh) * 2021-11-11 2024-02-27 西北工业大学 基于新型图像收缩方法的多方向文本检测方法

Also Published As

Publication number Publication date
CN111444919B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111444919A (zh) 一种自然场景中的任意形状文本检测方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN110180186B (zh) 一种地形图转换方法及系统
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN109948533B (zh) 一种文本检测方法、装置、设备及可读存储介质
CN112651364B (zh) 图像处理方法、装置、电子设备及存储介质
CN112232351A (zh) 一种基于深度神经网络的车牌识别系统
CN112926565B (zh) 图片文本的识别方法、系统、设备和存储介质
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN111666937A (zh) 一种图像中的文本识别方法及系统
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
US20220262006A1 (en) Device for detecting an edge using segmentation information and method thereof
CN112926582B (zh) 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN111898608B (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN111079749B (zh) 一种带姿态校正的端到端商品价签文字识别方法和系统
CN113205502A (zh) 一种基于深度学习的绝缘子缺陷检测方法及其系统
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
CN111582275B (zh) 一种序列号识别方法及装置
CN115100410A (zh) 一种融合稀疏框架和空间注意力的实时实例分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant