CN110008950A - 一种对形状鲁棒的自然场景中文本检测的方法 - Google Patents

一种对形状鲁棒的自然场景中文本检测的方法 Download PDF

Info

Publication number
CN110008950A
CN110008950A CN201910189627.9A CN201910189627A CN110008950A CN 110008950 A CN110008950 A CN 110008950A CN 201910189627 A CN201910189627 A CN 201910189627A CN 110008950 A CN110008950 A CN 110008950A
Authority
CN
China
Prior art keywords
picture
text
mask
segmentation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910189627.9A
Other languages
English (en)
Inventor
路通
侯文博
王文海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910189627.9A priority Critical patent/CN110008950A/zh
Publication of CN110008950A publication Critical patent/CN110008950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对形状鲁棒的自然场景中文本检测的方法,包括如下步骤:步骤1,对文本数据集中的训练图片进行预处理;步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,使用尺度生长算法得到最终检测结果。

Description

一种对形状鲁棒的自然场景中文本检测的方法
技术领域
本发明涉及深度学习技术领域,尤其涉及一种对形状鲁棒的自然场景中文本检测的方法。
背景技术
近几年来,自然场景中的文本检测在场景理解,产品识别,自动驾驶和目标地理定位等许多领域都开始了广泛的应用。然而,由于前景的文本块和文本行与背景物体之间的尺度差异较大,并且文本在形状、颜色、字体、大小及方向的不同,自然场景的文本检测依然面临巨大挑战。
目前,卷积神经网络的迅速发展使得场景文本检测取得巨大进展。现有的文本检测方法大致可以分为两种类型:基于边界框回归的方法和基于物体分割的方法。基于边界框回归的方法可以以矩形或四边形的形式定位出方向固定的目标文本,但是这类方法不能准确定位形状不规则的文本实例,而自然场景中这种不规则文本实例非常常见。另外一类基于语义分割的方法在解决任意形状的文本检测问题时被提出来,因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而当两个文本实例相距非常近时这类方法无法将实例成功分离,因为连接区域会将两个实例合并成同一个文本实例。上述两个问题是场景文本检测领域内仍然存在的两个困难,为了提升场景文本检测的准确率和召回率,解决以上两个问题是非常有必要的。
发明内容
本发明针对现有方法和技术的不足,提出一种基于实例分割的新型场景文本检测方法,给定一张场景图片,本发明将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来,给出文本检测的结果。
本发明方法包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建PSENet(Progressive Scale Expansion Network)进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;
步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;
步骤4,对待检测图片进行检测;
步骤5,使用尺度生长算法得到最终检测结果。
本发明中,步骤1中所述文本数据集为已有的公共的文本图片数据集,例如:ICDAR2015、ICDAR 2017MLT、Total-Text或CTW1500等,或者临时采集场景中的文本图片数据集,所述文本图片数据集中通常包含有N张(一般为一千张以上)的训练图片,每张训练图片中有至少一个文本区域,并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
本发明中,步骤1包括:对文本数据集中的训练图片进行如下数据增强:首先将训练图片按照比例{0.5,1.0,2.0,3.0}随机放缩,然后将训练图片随机水平翻转且在[-10°,10°]范围内进行随机旋转,最后从训练图片上随机裁剪出大小为640×640的样例,作为最终的训练图片。
本发明中,步骤2中,所述PSENet进步式尺度生长网络包括一个FPN(FeaturePyramid Networks,特征金字塔网络)特征金字塔网络模块,一个特征融合模块和一个n支路预测模块,所述n支路预测模块包含n个预测支路模块。
本发明中,步骤2包括以下步骤:
步骤2-1,建立一个FPN特征金字塔网络模块,并使用该FPN特征金字塔网络模块按照论文“T.-Y.Lin,P.Dollár,R.Girshick,K.He,B.Hariharan,andS.Belongie.Featurepyramid networks for object detection.In CVPR,2017.”中的方法对步骤1得到的训练图片进行特征提取与特征图的上采样和融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5(此处换成任何字母abcd都可以表示,属于参考文献T.-Y.Lin,P.Dollár,R.Girshick,K.He,B.Hariharan,andS.Belongie.Feature pyramid networks for object detection.InCVPR,2017.中的特征提取和融合后即得到的特征图)分别代表FPN模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,特征融合模块包括两个子模块:特征融合函数和降维模块,使用特征融合模块中的特征融合函数C(·)对特征图(P2,P3,P4,P5)进行特征融合得到特征图F,融合函数C(·)定义如下:
F=C(P2,P3,P4,P5)=P2||Up×2(P3)||Up×4(P4)||Up×8(P5)
其中符号||表示连接,Up×2(·)、Up×4(·)和Up×8(·)分别代表2倍的上采样upsample、4倍的上采样upsample和8倍的上采样upsample:特征图经特征融合函数融合为特征图F后需进入降维模块降维到256维,降维模块为Conv(3,3)-BN-ReLU层,其中Conv(3,3)表示卷积核为3×3的卷积层,BN表示批量归一化层,ReLU为线性整流函数。
步骤2-3,特征图F进入n支路预测模块,经过n个Conv(1,1)-Up-Sigmoid层生成n个分割结果S1,S2,...,Sn,n取值为自然数,其中Conv(1,1)表示卷积核为1×1的卷积层,Up表示上采样层,Sigmoid为激活函数,Sn表示第n个分割结果,每个Si中包含对同一张图片中不同文本区域的分割结果,i取值为1~n。所述分割结果中的文本区域即为文本实例,记为kernels,每个kernels与原始尺寸的文本实例(即Sn中的kernels)拥有相同的中心点和形状,区别只是规格尺度不同。
本发明中,步骤3包括以下步骤:
步骤3-1,将训练图片中的文本实例对应的标签进行收缩处理成n个预测支路模块对应的n个训练图片的标签:利用Vatti clipping算法对原始文本实例所对应标签的多边形pn收缩di个像素点得到收缩后的多边形pi,每个收缩后的多边形pi被转换为一个训练图片的二进制掩码,把这些训练图片的掩码图分别定义为G1,G2,...,Gn,Gn表示第n个训练图片的掩码图,用ri表示放缩率,通过以下公式计算pn与pi之间的距离di
其中Area(·)为计算多边形面积的函数,Perimeter(·)为计算多边形周长的函数;
步骤3-2,设置PSENet进步式尺度生长网络的训练损失函数L为:
L=λLc+(1-λ)Ls
其中Lc和Ls分别表示完整的文本实例损失和收缩后的kernels的损失,参数λ用来平衡Lc和Ls,参数λ的范围在(0,1)区间内,采用dice系数来计算损失函数L;
步骤3-3:利用步骤1中预处理过后的文本数据集以及步骤3-1中收缩过后的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对PSENet进步式尺度生长网络进行监督训练。
本发明中,步骤3-1中,训练图片不同掩码图Gi的放缩率ri按如下公式计算:
其中m为最小的放缩率,其值在(0,1]区间内。从上述公式可知放缩率是由n和m两个超参数决定的,它们在m到1之间线性增长,PSENet进步式尺度生长网络的训练过程中可调整n和m的大小来寻找最适合该文本数据集的值,一般情况下建议n取值在[6,8]区间内,m取值在[0.4,0.6]区间内。
本发明中,步骤3-2中,按照下面的公式计算dice系数D(Si,Gi):
其中Si,x,y和Gi,x,y分别指第i个分割结果Si中像素点(x,y)的的像素值和第i个训练样本图Gi中像素点(x,y)的的像素值;
Lc针对文字和非文字区域,按照下面的公式计算参数Lc
Lc=1-D(Sn,Gn),
Ls为收缩后的文本实例的损失,它是围绕完整文本实例的原始区域的,忽略分割结果Sn中的非文字区域的像素点来避免冗余。通过以下公式计算Ls
其中,W是第n个分割结果Sn上屏蔽非文字区域像素点的掩码,Sn,x,y为第n个分割结果Sn中像素点(x,y)的像素值,Wx,y为W中像素点(x,y)的像素值。
本发明中,步骤4包括:用步骤3中训练好的检测器模型进行分割结果的预测,每张待检测图片能够得到一组n个分割结果掩码S1,S2,...,Sn,Sn表示第n个分割结果掩码,每个Si是所有文本实例在一个确定尺度下的分割掩码,i取值为1~n。
本发明中,步骤5包括以下步骤:
步骤5-1,从步骤4中得到的分割掩码Si中的kernels以不同的连通组件的形式存在,遍历每一个kernels,对每一个kernel进行以下操作:遍历其邻居像素点,若其邻居像素点属于分割掩码Si+1中的同一位置的kernel范围,则将其合并入该kernel;对于同一分割掩码Si中的不同kernels,在生长时,相邻kernels之间的邻居节点中发生冲突的地方,本发明按照“先来先服务”的规则将发生冲突的像素点融合进首先生长到该冲突位置的kernel。这样即完成了从分割掩码Si生长到Si+1的过程;
步骤5-2,从尺度最小S1开始重复步骤5-1直到尺度最大的Sn为止;
步骤5-3,输出步骤5-2生长过程最后的掩码即为最终检测结果。
与现有技术相比,本发明具有以下优点:
(1)本发明的文本检测方法是像素级别的,可以精确定位任意形状的文本实例;
(2)由于本发明提出的后处理算法是进步式的,可以将相距非常近的甚至是相连的文本实例成功分开;
(3)本发明的方法在精度和速度方面都有非常大的优势。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明整体架构;
图2为本发明的区域生长过程示意图;
图3为PSENet算法中标签生成示意图;
图4为本发明的检测效果图;
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明为一种场景文本检测的方法,包括以下步骤:
步骤1,对已有公共文本图片数据集,例如:ICDAR 2015、ICDAR 2017 MLT、Total-Text或CTW1500等,或自己采集场景图片数据集进行预处理,对训练图片进行数据增强:(1)图片按照比例{0.5,1.0,2.0,3.0}随机放缩;(2)图片随机水平翻转且在[-10°,10°]范围内进行随机旋转;(3)从图片上随机裁剪640×640的样例;(4)图片使用通道均值和标准差归一化。
步骤2,搭建PSENet(Progressive Scale Expansion Network,进步式尺度生长网络),PSENet网络结构如图1所示(图1中Progressive Scale Expansion表示步骤5中的尺度生长算法),包括一个FPN(Feature Pyramid Networks,特征金字塔网络)模块,一个特征融合模块和一个n支路预测模块,完成对图片的特征提取、特征融合以及分割预测得到多个预测尺度的分割结果。具体包括以下步骤:
步骤2-1,建立一个FPN网络模块,对步骤1得到的图片数据进行特征提取与图的上采样和融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表FPN模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,特征融合模块包括两个子模块:特征融合函数和降维模块,使用特征融合模块的融合函数C(·)对特征图(P2,P3,P4,P5)进行特征融合得到特征图F,融合函数C(·)定义如下:
F=C(P2,P3,P4,P5)=P2||Up×2(P3)||Up×4(P4)||Up×8(P5)
其中“||”表示连接,Up×2(·),Up×4(·),Up×8(·)分别代表2倍4倍和8倍的上采样(upsample);特征图经融合函数融合为特征图F后需进入降维子模块降维到256维,降维子模块为Conv(3,3)-BN-ReLU层,其中Conv(3,3)表示卷积核为3×3的卷积层,BN表示批量归一化层,ReLU为线性整流函数。
步骤2-3,F进入n支路预测模块,经过n个生成n个分割结果S1,S2,...,Sn,其中Conv(1,1)表示卷积核为1×1的卷积层,Up表示上采样层,Sigmoid为激活函数,每个Si中包含对同一张图片中不同文本实例的分割结果,该文本实例本发明称之为kernels,每个kernels与原始文本实例拥有相同的中心点和形状,区别只是规格尺度不同。
步骤3,模型的训练:首先将数据集的标签进行收缩处理以及损失函数L的设计,利用步骤1中预处理过后的公开文本数据集以及收缩过后的标签和损失函数L,对步骤2搭建的PSENet网络进行监督训练;包括以下步骤:
步骤3-1,标签处理,由于PSENet生成不同尺度的分割结果(S1,S2,...,Sn),因此在训练阶段需要相对应的不同尺度的训练图片标签(groundtruths),将场景图片中的文本实例对应的标签进行收缩处理成n个支路对应的n个训练图片标签,这些训练图片的标签可以通过对原始标签中kernels的简单收缩变换得到。利用Vatti clipping算法对原始多边形pn收缩di个像素点得到收缩后的多边形pi。然后每个收缩后的多边形pi被转换为一个样本实例分割标签的0/1二进制掩码。把这些样本实例及生成的掩码图分别定义为G1,G2,...,Gn。将放缩率用ri表示,pn与pi之间的距离di可以通过以下公式计算:
其中Area(·)为计算多边形面积的函数,Perimeter(·)为计算多边形周长的函数。训练样本不同掩码图Gi的放缩率ri按如下公式计算:
其中m为最小的放缩率,其值在(0,1]区间内。从上述公式可知放缩率是由n和m两个超参数决定的,它们在m到1之间线性增长,模型的训练过程中可调整n和m的大小来寻找最适合该数据集的值,一般情况下建议n取值在[6,8]区间内,m取值在[0.4,0.6]区间内。如图3所示,图3中,(a)中Pn为标签中原始的多边形,Pi为标签中收缩后的的多边形,d为向内收缩的像素个数,(b)是原始的文本实例,(c)是收缩后(即shrink和fill操作,表示收缩和填充)不同kernels的分割掩码;
步骤3-2,设置PSENet的训练损失函数L如下:
L=λLc+(1-λ)Ls
其中Lc和Ls分别表示完整的文本实例损失和收缩后的kernels的损失,参数λ用来平衡Lc和Ls。本发明采用dice系数来计算损失函数。Dice系数D(Si,Gi)按照下面的公式计算:
其中Si,x,y和Gi,x,y分别指分割结果Si和训练样本图Gi中的像素值(x,y)。Lc针对文字和非文字区域,Lc按照下面的公式计算:
Lc=1-D(Sn,Gn)
Ls为收缩后的文本实例的损失,它是围绕完整文本实例的原始区域的,忽略分割结果Sn中的非文字区域的像素点来避免冗余。因此Ls可以通过以下公式计算:
这里W是Sn上屏蔽非文字区域像素点的掩码,Si,x,y为Sn中像素点(x,y)的像素值,Wx,y为W中像素点(x,y)的像素值。
步骤3-3:利用步骤1中预处理过后的公开文本数据集以及步骤3-1中收缩过后的标签和步骤3-2中设计的损失函数L,使用随机梯度下降法对PSENet网络进行监督训练。典型的训练参数设置如下表1:
表1
步骤4,对待检测图片进行检测,用步骤3中训练好的模型进行分割结果的预测,每张场景图片可以得到一组n个分割结果掩码S1,S2,...,Sn,每个Si是所有文本实例在某个确定尺度下的分割掩码;
步骤5,对分割结果S1,S2,...,Sn实施尺度生长算法,包括以下步骤:
步骤5-1,基于宽度优先搜索算法,将步骤4中得到的Si中的不同kernels中的像素点开始不断迭代合并与之相邻的属于文字区域的像素点。对于生长过程中不同实例kernels之间发生冲突的地方,如图2所示,S1,S2,S3分别代表最小的三个不同尺度的分割结果,CC表示在训练图片中根据最小尺度分割结果找到联通组件,EX表示区域生长过程;如图2中的(g)所示,网格里第三行第二列的像素点,本发明方法的原则是按照“先来先服务”的规则将发生冲突的像素点融合进其中某一个kernel;
步骤5-2,从尺度最小S1开始重复步骤5-1直到尺度最大的Sn为止;
步骤5-3,输出步骤5-2生长过程最后的掩码即为最终检测结果。由图4a~图4c可以看出,对于图4a中的倾斜文本,图4b中的多语言倾斜文本和相距非常近的文本行,以及图4c中的弯曲形状文本都非常准确的给出检测定位,可知本发明的场景文本检测算法效果是非常好的。
本发明提供了一种对形状鲁棒的自然场景中文本检测的方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种对形状鲁棒的自然场景中文本检测的方法,其特征在于,包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;
步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;
步骤4,对待检测图片进行检测;
步骤5,使用尺度生长算法得到最终检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤1中所述文本图片数据集为已有的公共的文本图片数据集,或者临时采集场景中的文本图片数据集,所述文本图片数据集中包含有N张训练图片,每张训练图片中有至少一个文本区域,并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
3.根据权利要求2所述的方法,其特征在于,步骤1包括:对文本数据集中的训练图片进行如下数据增强:首先将训练图片按照比例{0.5,1.0,2.0,3.0}随机放缩,然后将训练图片随机水平翻转且在[-10°,10°]范围内进行随机旋转,最后从训练图片上随机裁剪出大小为640×640的样例,作为最终的训练图片。
4.根据权利要求3所述的方法,其特征在于,步骤2中,所述PSENet进步式尺度生长网络包括一个FPN特征金字塔网络模块,一个特征融合模块和一个n支路预测模块,所述n支路预测模块包含n个预测支路模块。
5.根据权利要求4所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,建立一个FPN特征金字塔网络模块,对步骤1得到的训练图片进行特征提取与特征图的上采样和融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表FPN模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,特征融合模块包括两个子模块:特征融合函数和降维模块,使用特征融合模块中的特征融合函数C(·)对特征图(P2,P3,P4,P5)进行特征融合得到特征图F,融合函数C(·)定义如下:
F=C(P2,P3,P4,P5)=P2||Up×2(P3)||Up×4(P4)||Up×8(P5)
其中符号||表示连接,Up×2(·)、Up×4(·)和Up×8(·)分别代表2倍的上采样upsample、4倍的上采样upsample和8倍的上采样upsample:特征图经特征融合函数融合为特征图F后需进入降维模块降维到256维,降维模块为Conv(3,3)-BN-ReLU层,其中Conv(3,3)表示卷积核为3×3的卷积层,BN表示批量归一化层,ReLU为线性整流函数;
步骤2-3,特征图F进入n支路预测模块,经过n个Conv(1,1)-Up-Sigmoid层生成n个分割结果S1,S2,...,Sn,其中Conv(1,1)表示卷积核为1×1的卷积层,Up表示上采样层,Sigmoid为激活函数,Sn表示第n个分割结果,每个Si中包含对同一张图片中不同文本区域的分割结果,i取值为1~n,所述分割结果中的文本区域即为文本实例,记为kernels。
6.根据权利要求5所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1,将训练图片中的文本实例对应的标签进行收缩处理成n个预测支路模块对应的n个训练图片的标签:利用Vatti clipping算法对原始文本实例所对应标签的多边形pn收缩di个像素点得到收缩后的多边形pi,每个收缩后的多边形pi被转换为一个训练图片的二进制掩码,把这些训练图片的掩码图分别定义为G1,G2,...,Gn,Gn表示第n个训练图片的掩码图,用ri表示放缩率,通过以下公式计算pn与pi之间的距离di
其中Area(·)为计算多边形面积的函数,Perimeter(·)为计算多边形周长的函数;
步骤3-2,设置PSENet进步式尺度生长网络的训练损失函数L为:
L=λLc+(1-λ)Ls
其中Lc和Ls分别表示完整的文本实例损失和收缩后的kernels的损失,参数λ用来平衡Lc和Ls,参数λ的范围在(0,1)区间内,采用dice系数来计算损失函数L;
步骤3-3:利用步骤1中预处理过后的文本数据集以及步骤3-1中收缩过后的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对PSENet进步式尺度生长网络进行监督训练。
7.根据权利要求6所述的方法,其特征在于,步骤3-1中,训练图片不同掩码图Gi的放缩率ri按如下公式计算:
其中m为最小的放缩率,其值在(0,1]区间内。
8.根据权利要求7所述的方法,其特征在于,步骤3-2中,按照下面的公式计算dice系数D(Si,Gi):
其中Si,x,y和Gi,x,y分别指第i个分割结果Si中像素点(x,y)的的像素值和第i个训练样本图Gi中像素点(x,y)的的像素值;
按照下面的公式计算参数Lc
Lc=1-D(Sn,Gn),
Ls为收缩后的标签对应的文本实例的损失,通过以下公式计算Ls
其中,W是第n个分割结果Sn上屏蔽非文字区域像素点的掩码,Sn,x,y为第n个分割结果Sn中像素点(x,y)的像素值,Wx,y为W中像素点(x,y)的像素值。
9.根据权利要求8所述的方法,其特征在于,步骤4包括:用步骤3中训练好的检测器模型进行分割结果的预测,每张待检测图片能够得到一组n个分割结果掩码S1,S2,...,Sn,Sn表示第n个分割结果掩码,每个Si是所有文本实例在一个确定尺度下的分割掩码,i取值为1~n。
10.根据权利要求9所述的方法,其特征在于,步骤5包括:
步骤5-1,从步骤4中得到的分割掩码Si中的kernels以不同的连通组件的形式存在,遍历每一个kernels,对每一个kernel进行以下操作:遍历其邻居像素点,若其邻居像素点属于分割掩码Si+1中的同一位置的kernel范围,则将其合并入该kernel;对于同一分割掩码Si中的不同kernels,在生长时,相邻kernels之间的邻居节点中发生冲突的地方,按照先来先服务的规则将发生冲突的像素点融合进首先生长到该冲突位置的kernel,这样即完成了从分割掩码Si生长到Si+1的过程;
步骤5-2,从尺度最小S1开始重复步骤5-1直到尺度最大的Sn为止;
步骤5-3,输出步骤5-2生长过程最后的掩码即为最终检测结果。
CN201910189627.9A 2019-03-13 2019-03-13 一种对形状鲁棒的自然场景中文本检测的方法 Pending CN110008950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910189627.9A CN110008950A (zh) 2019-03-13 2019-03-13 一种对形状鲁棒的自然场景中文本检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910189627.9A CN110008950A (zh) 2019-03-13 2019-03-13 一种对形状鲁棒的自然场景中文本检测的方法

Publications (1)

Publication Number Publication Date
CN110008950A true CN110008950A (zh) 2019-07-12

Family

ID=67166967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910189627.9A Pending CN110008950A (zh) 2019-03-13 2019-03-13 一种对形状鲁棒的自然场景中文本检测的方法

Country Status (1)

Country Link
CN (1) CN110008950A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427852A (zh) * 2019-07-24 2019-11-08 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110751154A (zh) * 2019-09-27 2020-02-04 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110796709A (zh) * 2019-10-29 2020-02-14 上海眼控科技股份有限公司 车架号尺寸获取方法、装置、计算机设备和存储介质
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备
CN111414905A (zh) * 2020-02-25 2020-07-14 泰康保险集团股份有限公司 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法
WO2021057722A1 (zh) * 2019-09-24 2021-04-01 安徽寒武纪信息科技有限公司 用多核处理器实现神经网络模型拆分方法及相关产品
CN112749704A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 文本区域的检测方法、装置和服务器
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN112861739A (zh) * 2021-02-10 2021-05-28 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN112926582A (zh) * 2021-03-30 2021-06-08 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN112926581A (zh) * 2021-03-29 2021-06-08 中国科学院合肥物质科学研究院 一种基于基于轮廓建模的文本检测方法
CN113033593A (zh) * 2019-12-25 2021-06-25 上海智臻智能网络科技股份有限公司 基于深度学习的文本检测训练方法及装置
CN113065411A (zh) * 2021-03-10 2021-07-02 国网河北省电力有限公司 基于中心点监督信息的文本检测方法
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113205049A (zh) * 2021-05-07 2021-08-03 开放智能机器(上海)有限公司 一种单据识别方法以及识别系统
CN113837168A (zh) * 2021-09-22 2021-12-24 易联众智鼎(厦门)科技有限公司 一种图像文本检测与ocr识别方法、装置及存储介质
CN114049625A (zh) * 2021-11-11 2022-02-15 西北工业大学 基于新型图像收缩方法的多方向文本检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100254567A1 (en) * 2008-12-31 2010-10-07 Bong Gyoune Kim Fingerprint Development in Image Based Spam Blocking
CN102663382A (zh) * 2012-04-25 2012-09-12 重庆邮电大学 基于子网格特征自适应加权的视频图像文字识别方法
US20130129216A1 (en) * 2011-11-21 2013-05-23 Nokia Corporation Text Detection Using Multi-Layer Connected Components With Histograms
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105005764A (zh) * 2015-06-29 2015-10-28 东南大学 自然场景多方向文本检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100254567A1 (en) * 2008-12-31 2010-10-07 Bong Gyoune Kim Fingerprint Development in Image Based Spam Blocking
US20130129216A1 (en) * 2011-11-21 2013-05-23 Nokia Corporation Text Detection Using Multi-Layer Connected Components With Histograms
CN103946866A (zh) * 2011-11-21 2014-07-23 诺基亚公司 与直方图一起使用多层连接分量的文本检测
CN102663382A (zh) * 2012-04-25 2012-09-12 重庆邮电大学 基于子网格特征自适应加权的视频图像文字识别方法
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105005764A (zh) * 2015-06-29 2015-10-28 东南大学 自然场景多方向文本检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANG LI,ETC: ""Shape Robust Text Detection with Progressive Scale Expansion Network"", 《ARXIV》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427852B (zh) * 2019-07-24 2022-04-15 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110427852A (zh) * 2019-07-24 2019-11-08 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
WO2021057722A1 (zh) * 2019-09-24 2021-04-01 安徽寒武纪信息科技有限公司 用多核处理器实现神经网络模型拆分方法及相关产品
CN110751154A (zh) * 2019-09-27 2020-02-04 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110751154B (zh) * 2019-09-27 2022-04-08 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110796709A (zh) * 2019-10-29 2020-02-14 上海眼控科技股份有限公司 车架号尺寸获取方法、装置、计算机设备和存储介质
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN112749704A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 文本区域的检测方法、装置和服务器
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备
CN113033593A (zh) * 2019-12-25 2021-06-25 上海智臻智能网络科技股份有限公司 基于深度学习的文本检测训练方法及装置
CN113033593B (zh) * 2019-12-25 2023-09-01 上海智臻智能网络科技股份有限公司 基于深度学习的文本检测训练方法及装置
CN111414905B (zh) * 2020-02-25 2023-08-18 泰康保险集团股份有限公司 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111414905A (zh) * 2020-02-25 2020-07-14 泰康保险集团股份有限公司 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111444919B (zh) * 2020-04-17 2023-07-04 南京大学 一种自然场景中的任意形状文本检测方法
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法
CN112183322B (zh) * 2020-09-27 2022-07-19 成都数之联科技股份有限公司 一种任意形状的文本检测和矫正方法
CN112861739B (zh) * 2021-02-10 2022-09-09 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN112861739A (zh) * 2021-02-10 2021-05-28 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113065411A (zh) * 2021-03-10 2021-07-02 国网河北省电力有限公司 基于中心点监督信息的文本检测方法
CN113159020B (zh) * 2021-03-10 2023-06-06 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN112926581B (zh) * 2021-03-29 2022-11-08 中国科学院合肥物质科学研究院 一种基于轮廓建模的文本检测方法
CN112926581A (zh) * 2021-03-29 2021-06-08 中国科学院合肥物质科学研究院 一种基于基于轮廓建模的文本检测方法
CN112926582B (zh) * 2021-03-30 2021-12-07 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN112926582A (zh) * 2021-03-30 2021-06-08 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN113205049A (zh) * 2021-05-07 2021-08-03 开放智能机器(上海)有限公司 一种单据识别方法以及识别系统
CN113837168A (zh) * 2021-09-22 2021-12-24 易联众智鼎(厦门)科技有限公司 一种图像文本检测与ocr识别方法、装置及存储介质
CN114049625A (zh) * 2021-11-11 2022-02-15 西北工业大学 基于新型图像收缩方法的多方向文本检测方法
CN114049625B (zh) * 2021-11-11 2024-02-27 西北工业大学 基于新型图像收缩方法的多方向文本检测方法

Similar Documents

Publication Publication Date Title
CN110008950A (zh) 一种对形状鲁棒的自然场景中文本检测的方法
CN108549893A (zh) 一种任意形状的场景文本端到端识别方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN111986099B (zh) 基于融合残差修正的卷积神经网络的耕地监测方法及系统
Qiao et al. Lgpma: Complicated table structure recognition with local and global pyramid mask alignment
CN109711295B (zh) 一种光学遥感图像近岸舰船检测方法
CN112434672B (zh) 一种基于改进YOLOv3的海上人体目标检测方法
CN111444919B (zh) 一种自然场景中的任意形状文本检测方法
CN110363134B (zh) 一种基于语义分割的人脸遮挡区定位方法
CN110276316A (zh) 一种基于深度学习的人体关键点检测方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN108921058A (zh) 基于深度学习的鱼类识别方法、介质、终端设备及装置
CN108564097A (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN108304835A (zh) 文字检测方法和装置
CN108427920A (zh) 一种基于深度学习的边海防目标检测方法
CN107609525A (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN110363201A (zh) 基于协同学习的弱监督语义分割方法及系统
CN111985316B (zh) 一种用于道路智能清扫的路面垃圾感知方法
WO2023083280A1 (zh) 一种场景文本识别方法和装置
CN109741331A (zh) 一种图像前景物体分割方法
CN110163208B (zh) 一种基于深度学习的场景文字检测方法和系统
CN110458165A (zh) 一种引入注意力机制的自然场景文本检测方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN107305630A (zh) 文本序列识别方法和装置
CN110443805A (zh) 一种基于像素密切度的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712

RJ01 Rejection of invention patent application after publication