CN112541491B - 基于图像字符区域感知的端到端文本检测及识别方法 - Google Patents
基于图像字符区域感知的端到端文本检测及识别方法 Download PDFInfo
- Publication number
- CN112541491B CN112541491B CN202011431114.3A CN202011431114A CN112541491B CN 112541491 B CN112541491 B CN 112541491B CN 202011431114 A CN202011431114 A CN 202011431114A CN 112541491 B CN112541491 B CN 112541491B
- Authority
- CN
- China
- Prior art keywords
- character
- text
- image
- box
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008447 perception Effects 0.000 title claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000002474 experimental method Methods 0.000 claims abstract description 7
- 238000002360 preparation method Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 238000003709 image segmentation Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000007797 corrosion Effects 0.000 claims description 3
- 238000005260 corrosion Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 101000901617 Notophthalmus viridescens Homeobox protein DLX-3 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于图像字符区域感知的端到端文本检测识别方法,步骤为:数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;将两种数据集中图像部分进行分割,找到图像中文本的位置;利用图像中文本的位置,得到每一个字符位置对应的特征;根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈。本发明可以检测任意形状的文本,识别多方向的文字,实现识别反馈的端到端文本检测和识别。
Description
技术领域
本发明涉及一种计算机视觉技术领域,具体为一种基于图像字符区域感知的端到端文本检测及识别方法。
背景技术
OCR是计算机视觉领域的经典问题,长久以来,一直受到学术界和工业界的持续关注。在工业界,Google、Microsoft、Amazon等大型互联网公司以及云从科技等人工智能创业公司,都在OCR技术上耕耘多年。
OCR(Optical Character Recognition,光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景。而自然场景中的OCR技术不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。
但相较于传统OCR,自然场景OCR中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。
自然图像文本识别一直被认为是两个连续但独立的问题:文字检测和文字识别。由于深度神经网络的成功,这两个人物都取得了很大的进展。文字识别的目标是从被抠出来的文本图片中识别出一连串字符。一般来说,文字识别被转换为一个序列标记问题通常由卷积神经网络特征的递归神经网络来解决。然而,通过这样两阶段的方法实现文本识别通常由很多限制。首先独立的学习这两个任务是一个次优的问题,因为这样很难完全利用文本本身的性质。比如说,联合的文字检测和识别可以提供丰富的上下文信息并且两个任务可以实现互补。其次两阶段的方法通常需要多个连续的步骤,这样使整个系统更复杂,并且使得识别结果很大程度上依赖于检测性能的好坏。
最近已经有一些方法尝试去开发一个统一的文字检测与识别框架(也叫端到端识别),但它们的模型非常的复杂,在文字检测阶段很难精确的识别出精确文本区域。通常会有很多的背景包含在扣除来的特征中。这样不可避免的限制了文字识别的性能,尤其对于多方向或者弯曲的文本。
发明内容
针对现有技术中自然图像文本识别在文字检测阶段很难精确的识别出精确文本区域等不足,本发明要解决的问题是提供一种可提升检测和识别的准确度的基于图像字符区域感知的端到端文本检测及识别方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于图像字符区域感知的端到端文本检测识别方法,包括以下步骤:
1)数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;
2)在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;
3)将两种数据集中图像部分进行分割,找到图像中文本的位置;
4)利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征;
5)根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率n表示每一个Text Box里面包含的字符的个数;
6)完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈。
步骤2)中两种数据集上进行特征提取和融合具体为:
步骤201)主干网络backbone使用VGG16-BN网络,分别输入两种数据集图像,通过backbone的逐层卷积,得到中间层特征,与原图相比步长分别为{4,8,16,32},得到原始图像二分之一大小的特征图;
步骤202)将步骤201)得到的特征图输入到空间注意力模块进行计算,计算公式见公式(1),空间注意力由最大池化、平均池化和n*n卷积操作组成,得到的空间注意力结果和特征图进行元素级相乘;
其中,σ表示sigmoid激活函数,Fnxn为3x3卷积层,表示通道连接操作,Pmax为最大池化,Pavg为平均池化,Asag(.)为空间注意力计算结果,Xi为第i层特征,最后经过注意力引导的特征/>可以计算如下:
其中表示元素级相乘,得到特征提取的最终特征图为F。
步骤3)将两种数据集中图像部分进行分割具体为:
301)利用步骤2)产生的特征图F进行图像分割,预测当前像素点的位置是文本的概率,生成两个通道的特征图,即表示每一个字符中心的预测的高斯热图region_score和表示几个字符之间的联系的关系图link_score;
302)根据热图region_score,进行膨胀操作和腐蚀操作后,使用分水岭算法得到每一个字符的包围框Char Box,利用link_score将各个Char Box进行归类,得到归类到一个单词或一行的包围框Text Box,对k+1个属于同一Text box的Char Box中心坐标(x0,y0),…,(xk,yk)利用插值公式(3)得到排列方式:
其中对多项式R求导,得到每一个位置字符Char Box的角度,根据得到的角度旋转Char Box,得到最终每个拥有实际角度的Char Box,其中x为多项式未知数,xi和xj为k个Char Box中心坐标的两个不同点的横坐标。
步骤4)中利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征具体为:
根据步骤3)得到的Char Box使用透视变换,得到每一个字符对应在步骤2)最终特征图F中的特征,处理过程如下:
tx=l*cosθ-t*sinθ-x (4)
ty=l*sinθ-t*cosθ-y (5)
wt=s*(l+r) (7)
其中M表示仿射变换矩阵,ht,wt表示仿射变换之后的特征图的高和宽,(x,y)表示特征图F里坐标,t,b,l,r分别表示到Char Box上,下,左,右边界的距离,θ表示角度,tx,ty表示原特征图中对应最终特征图F的坐标(x,y)偏移量;
根据上述变换参数,使用仿射变换得到最终的感兴趣区域ROI特征:
xs和ys表示原特征图中坐标x,y处的值,xt和yt为得到的目标特征图中坐标x,y处的值;经过透视变换得到规定高宽的单个字符特征Fchar,便于输入到卷积神经网络。
步骤5)字符特征包含卷积部分和全连接部分两大部分,其中卷积部分包含两个卷积、批标准化和RELU激活函数串联,全连接部分包含三个全连接。
步骤6)中完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈具体为:
601)生成region_score的标签图为每一个Text Box里面的Char Box生成对应的2维高斯热图,其中高斯热图的计算方式如下:
其中x表示在特征图F中的位置坐标,μ表示字符热图的中心坐标,这里δ为方差;为每一个Char Box位置都生成高斯热图,最终得到伪监督信息特征图
602)根据步骤5)的识别结果Pre生成每一个字符对应热图区域的置信度,置信度的值就是字符识别的概率,表示如下:
其中,P表示像素在Char Box区域中,ω表示当前像素在的具体的Char Box;
Pre值高的字符区域表示检测到的区域准确,进行激励,效果不好的将其进行抑制,对整个神经网络经过迭代,进行弱监督训练,提升识别效果;
603)生成关系图link_score的标签图给定一个数据集图像,每一个文本包围框Text Box都会用多个分段直线表示如下:
其中,n表示Text Box的顶点个数,ICDAR2015的n的值是4,CTW1500n的值是16;通过Vatti′clipping算法缩小原始Text Box得到以防止图像分割时相邻文本粘连到一起;缩小偏移量D利用周长H和原始Text Box面积A计算:
其中r表示收缩比例;
604)设定目标函数,用于神经网络的优化学习,目标函数包含检测损失和识别损失两部分,其中检测损失为
其中p表示图像中像素点
识别损失为:
其中N表示每张图里字符的个数,表示第i个字符的标签,pre(i)表示第i个字符的识别结果,最后目标函数:
L=Ldet+λrecogLrecog (16)
其中λrecog表示平衡系数,根据目标函数L优化神经网络,实现真正的端到端网络训练优化。
本发明具有以下有益效果及优点:
1.本发明基于图像字符区域感知的端到端文本检测及识别方法主要是基于图像分割的字符级的操作来实现文本检测和识别,由于是基于图像分割的字符检测,因此可以检测任意形状的文本;由于是基于字符级的识别,因此可以识别多方向的文字,可以实现识别反馈的端到端文本检测和识别。
2.通过实验证明,本发明检测和识别效果非常好,实际应用价值很高,在图像检索,场景理解和盲目导航等都有很好的应用。
附图说明
图1为本发明一种基于图像字符区域感知的端到端文本检测和识别技术的体系结构框图;
图2为本发明一种基于图像字符区域感知的端到端文本检测和识别技术的流程图;
图3为本发明特征提取进行特征融合主干网络;
图4为本发明实例样图;
图5为本发明检测阶段图像分割字符位置检测结果;
图6为本发明检测阶段图像分割字符关系检测结果;
图7为本发明检测阶段对分割得到的字符位置进插值曲线;
图8为本发明根据字符框生成的字符热图。
图9为本发明根据数据集标注框生成的等比例缩小的关系图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明提供一种基于图像字符区域感知的端到端文本检测识别方法采取所述的基于图像字符区域感知的端到端文本检测和识别,体系结构图如图1所示,方法流程图如图2所示,包括以下步骤:
1)数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;
2)在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;
3)将两种数据集中图像部分进行分割,找到图像中文本的位置;
4)利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征;
5)根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率n表示每一个Text Box里面包含的字符的个数;
6)完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈。
步骤1)准备数据,采用自然场景中带有文字的图像数据集。
本发明使用的数据集是自然场景数据集,有synthText80k,ICDAR2013,ICDAR2015,CTW1500。实验的这些数据集都有必须包含的内容有包含有文本的图像,文本包围框信息(Text Box),每个Text Box所包含的文本内容。由于本发明基于单字符的弱监督学习神经网络,除了这些内容还应该使用包含单字符包围框(Char Box)的数据集synthText80k,在synchText80k数据集上进行预训练。输入图像如图4,将其输入神经网络。
步骤2)中两种数据集上进行特征提取和融合具体为:
步骤201)主干网络backbone使用VGG16-BN网络,分别输入两种数据集图像,通过backbone的逐层卷积,得到中间层特征,与原图相比步长分别为{4,8,16,32},得到原始图像二分之一大小的特征图;具体为:
P2∈1x256x46x60=[[[[1.6800,0.2737,0.5205,...,0.0000,0.0000,0.0000],[1.2129,0.0000,0.0000,...,0.0000,0.0000,0.0000],[1.2427,0.0000,0.0000,...,0.0000,0.0000,0.0000],...,[3.0185,0.0000,0.0000,...,0.0000,0.0000,5.0243],[1.4935,0.0000,0.0000,...,0.0000,0.0000,4.7430],[2.9393,0.1087,2.0230,...,2.9494,1.3957,5.0275]]]]
得到的特征图P2融合了C2,C3,C4,C5特征图,获得了更加高层的语义(如图3所示)。
步骤202)将步骤201)得到的特征图输入到空间注意力模块进行计算,计算公式见公式(1),空间注意力由最大池化、平均池化和n*n(n=2,3,4,5)卷积操作组成,得到的空间注意力结果和特征图进行元素级相乘;
其中,σ表示sigmoid激活函数,Fnxn为3x3卷积层,表示通道连接操作,Pmax为最大池化,Pavg为平均池化,Asag(.)为空间注意力计算结果,Xi为第i层特征,最后经过注意力引导的特征/>可以计算如下:
其中表示元素级相乘,得到特征提取的最终特征图为F,如下:
F∈1x32x368x480=[[[[0.0876,0.2665,0.2232,...,0.7076,0.6252,0.6523],[0.2245,0.2678,0.1552,...,0.6825,0.6876,0.7189],[0.1838,0.2398,0.1265,...,0.7468,0.7768,0.8726],...,[0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000],[0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000],[0.3449,0.1219,0.4136,...,0.2670,0.3700,0.3997]]]]
步骤3)将两种数据集中图像部分进行分割具体为:
301)利用步骤2)产生的特征图F进行图像分割,预测当前像素点的位置是文本的概率,生成两个通道的特征图,即表示每一个字符中心的预测的高斯热图region_score(如图5所示)和表示几个字符之间的联系的关系图link_score(如图6所示);
302)根据热图region_score,进行膨胀操作和腐蚀操作后,使用分水岭算法得到每一个字符的包围框Char Box,利用link_score将各个Char Box进行归类,得到归类到一个单词或一行的包围框Text Box,对k+1个属于同一Text box的Char Box中心坐标(x0,y0),…,(xk,yk)利用插值公式(3)得到排列方式:
其中对多项式R求导,得到每一个位置字符Char Box的角度,根据得到的角度旋转Char Box,得到最终每个拥有实际角度的Char Box,其中其中x为多项式未知数,xi和xj为k个Char Box中心坐标的两个不同点的横坐标;
在步骤302)中找到每一个字符热图的中心,计算文本曲线,找到转换角度的字符包围框,字符区域热图中心坐标(无序)为:
X=[148.5,35.25000381,137.25001526,49,125,63.25,110,77.5,93.5]
Y=[15.5,20.75000191,26.75000763,30.5,34.5,37.25000381,40.5,41.5,42.5]
最终根据这些中心点插值成的曲线如图7所示(图片中的原点在图片的左上角)。
最终得到旋转Char Box:
box1=[[140 14],[149 7],[156 16],[147 23]]
box2=[[34 11],[44 23],[36 30],[26 18]]
box3=[[130 27],[136 19],[144 25],[137 33]]
box4=[[50 21],[57 33],[47 39],[40 27]]
box5=[[117 37],[122 26],[132 31],[127 42]]
box6=[[65 29],[70 41],[60 44],[56 33]]
box7=[[103 44],[106 33],[116 36],[113 47]]
box8=[[81 35],[83 45],[73 47],[71 37]]
box9=[[87 48],[88 35],[99 36],[98 49]]
步骤4)中利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征具体为:
根据步骤3)得到的Char Box使用透视变换,得到每一个字符对应在步骤2)最终特征图F中的特征,处理过程如下:
tx=l*cosθ-t*sinθ-x (4)
ty=l*sinθ-t*cosθ-y (5)
wt=s*(l+r) (7)
其中M表示仿射变换矩阵,ht,wt表示仿射变换之后的特征图的高和宽,(x,y)表示特征图F里坐标,t,b,l,r分别表示到Char Box上,下,左,右边界的距离,θ表示角度,tx,ty表示原特征图中对应最终特征图F的坐标(x,y)偏移量;
根据上述变换参数,使用仿射变换得到最终的感兴趣区域ROI特征:
其中xs和ys表示原特征图中坐标x,y处的值,xt和yt为得到的目标特征图中坐标x,y处的值;经过透视变换得到规定高宽的单个字符特征Fchar,便于输入到卷积神经网络。
本步骤根据步骤202)产生的最终特征图F和步骤302)产生的Char Box,利用透视变换获得每一个单个字符的特征Fchar,用于字符识别:
Fbox1=tensor([[[191.8000,191.1600,190.4600,...,190.4700,189.5000,190.3250],[191.0000,189.6900,189.2350,...,190.9800,190.4700,190.9800],[191.7600,188.4899,186.3750,...,192.2500,191.0200,190.7900],...,[19.3400,11.7650,10.1250,...,117.7500,145.1346,154.1009],[39.4403,29.1099,6.7650,...,192.8007,187.3349,229.0000],[80.6350,71.9997,29.2300,...,183.2105,150.2407,178.2554]]],device='cuda:0')
Fbox2=tensor([[[31.4137,28.9900,23.3925,...,193.3712,130.6633,43.8061],[34.0062,30.8938,25.5575,...,170.3587,151.2682,59.1805],[31.2875,27.5500,22.5000,...,174.7813,146.2561,63.1811],...,[9.4187,10.6938,13.9375,...,167.1253,206.2250,148.8807],[9.8425,10.6375,13.3025,...,128.8848,175.9711,131.1777],[9.9375,10.6075,14.0025,...,74.4146,152.7946,123.6669]]],device='cuda:0')
…
Fbox9=tensor([[[56.6602,48.6400,48.7000,...,159.7000,151.4201,142.6796],[53.6600,51.1800,50.2000,...,165.6000,160.9000,159.7000],[52.7000,50.7000,49.0000,...,170.0001,161.7000,157.4000],...,[95.7995,161.0995,114.5004,...,9.0000,10.0000,11.0000],[110.9799,146.0000,136.6000,...,9.2000,10.2000,11.1000],[130.3996,151.8802,174.1998,...,8.6000,9.1600,10.1200]]],device='cuda:0')。
步骤5)中字符特征包含卷积部分和全连接部分两大部分,其中卷积部分包含两个卷积、批标准化和RELU激活函数串联,全连接部分包含三个全连接。卷积神经网络识别得到的字符特征,产生分类结果:
Ppre={0.86,0.85,0.95,0.94,0.91,0.96,0.96,0.95,0.95}
步骤6)中完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈具体为:
601)生成region_score的标签图为每一个Text Box里面的Char Box生成对应的2维高斯热图,其中高斯热图的计算方式如下:
其中x表示在特征图F中的位置坐标,μ表示字符热图的中心坐标,这里δ为方差;为每一个Char Box位置都生成高斯热图,最终得到伪监督信息特征图Gr *(如图8所示)。
602)根据步骤5)的识别结果Pre生成每一个字符对应热图区域的置信度,置信度的值就是字符识别的概率,表示如下:
其中,P表示像素在Char Box区域中,ω表示当前像素在的具体的Char Box;
Pre值高的字符区域表示检测到的区域准确,进行激励,效果不好的将其进行抑制,对整个神经网络经过迭代,进行弱监督训练,提升识别效果;
本步骤能够正确识别并且识别准确率高的字符说明检测到的区域比较准确,所以这样设定能激励检测效果好的字符区域,抑制检测效果不好的,经过迭代多次这样弱监督训练,使网络效果越来越好。
603)生成关系图link_score的标签图给定一个数据集图像,每一个文本包围框Text Box都会用多个分段直线表示如下:
其中,n表示Text Box的顶点个数,ICDAR2015的n的值是4,CTW1500n的值是16;通过Vatti′clipping算法缩小原始Text Box得到以防止图像分割时相邻文本粘连到一起;数据集会提供文本级包围框的标注,对包围框进行等比例缩小;比例缩小后,监督图主要是在宽度上缩小,形状和标注信息保持不变。
缩小偏移量D利用周长H和原始Text Box面积A计算:
其中r表示收缩比例,最终得到关系特征图(如图9所示)。
604)设定目标函数,用于神经网络的优化学习,目标函数包含检测损失和识别损失两部分,其中检测损失为
其中p表示图像中像素点
识别损失为:
其中N表示每张图里字符的个数,表示第i个字符的标签,pre(i)表示第i个字符的识别结果,最后目标函数:
L=Ldet+λrecogLrecog (16)
其中λrecog表示平衡系数,根据目标函数L优化神经网络,实现真正的端到端网络训练优化。
最后按步骤6的端到端训练策略。检测效果不断提升,从而识别准确率也提升。
本发明方法主要是基于图像分割的字符级的操作来实现文本检测和识别。由于是基于图像分割的字符检测,因此可以检测任意形状的文本。由于是基于字符级的识别,因此可以识别多方向的文字,可以实现识别反馈的端到端文本检测和识别。实验证明,本发明检测和识别效果非常好,实际应用价值很高,在图像检索,场景理解和盲目导航等都有很好的应用。
Claims (5)
1.一种基于图像字符区域感知的端到端文本检测识别方法,其特征在于包括以下步骤:
1)数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;
2)在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;
3)将两种数据集中图像部分进行分割,找到图像中文本的位置;
4)利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征;
5)根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率n表示每一个Text Box里面包含的字符的个数,/>表示n乘以c的实数空间;
6)完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈;
步骤2)中两种数据集上进行特征提取和融合具体为:
步骤201)主干网络backbone使用VGG16-BN网络,分别输入两种数据集图像,通过backbone的逐层卷积,得到中间层特征,与原图相比步长分别为{4,8,16,32},得到原始图像二分之一大小的特征图;
步骤202)将步骤201)得到的特征图输入到空间注意力模块进行计算,计算公式见公式(1),空间注意力由最大池化、平均池化和n*n卷积操作组成,得到的空间注意力结果和特征图进行元素级相乘;
Asag(Xi)=σ(Fnxn(PmaxοPavg)) (1)
其中,σ表示sigmoid激活函数,Fnxn为3x3卷积层,ο表示通道连接操作,Pmax为最大池化,Pavg为平均池化,Asag(.)为空间注意力计算结果,Xi为第i层特征,最后经过注意力引导的特征可以计算如下:
其中表示元素级相乘,得到特征提取的最终特征图为F,/>为C×W×H的实数空间。
2.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤3)将两种数据集中图像部分进行分割具体为:
301)利用步骤2)产生的特征图F进行图像分割,预测当前像素点的位置是文本的概率,生成两个通道的特征图,即表示每一个字符中心的预测的高斯热图region_score和表示几个字符之间的联系的关系图link_score;
302)根据热图region_score,进行膨胀操作和腐蚀操作后,使用分水岭算法得到每一个字符的包围框Char Box,利用link_score将各个Char Box进行归类,得到归类到一个单词或一行的包围框Text Box,对k+1个属于同一Text box的Char Box中心坐标(x0,y0),Λ,(xk,yk)利用插值公式(3)得到排列方式:
其中对多项式R求导,得到每一个位置字符Char Box的角度,根据得到的角度旋转Char Box,得到最终每个拥有实际角度的Char Box,其中x为多项式未知数,xi和xj为k个Char Box中心坐标的两个不同点的横坐标。
3.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤4)中利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征具体为:
根据步骤3)得到的Char Box使用透视变换,得到每一个字符对应在步骤2)最终特征图F中的特征,处理过程如下:
tx=l*cosθ-t*sinθ-x (4)
ty=l*sinθ-t*cosθ-y (5)
wt=s*(l+r) (7)
其中M表示仿射变换矩阵,ht,wt表示仿射变换之后的特征图的高和宽,(x,y)表示特征图F里坐标,t,b,1,r分别表示到Char Box上,下,左,右边界的距离,θ表示角度,tx,ty表示原特征图中对应最终特征图F的坐标(x,y)偏移量;
根据上述仿射变换矩阵M中的变换参数,使用仿射变换得到最终的感兴趣区域ROI特征:
xs和ys表示原特征图中坐标x,y处的值,xt和yt为得到的目标特征图中坐标x,y处的值;经过透视变换得到规定高宽的单个字符特征Fchar,便于输入到卷积神经网络。
4.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤5)字符特征包含卷积部分和全连接部分两大部分,其中卷积部分包含两个卷积、批标准化和RELU激活函数串联,全连接部分包含三个全连接。
5.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤6)中完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈具体为:
601)生成region_score的标签图为每一个Text Box里面的Char Box生成对应的2维高斯热图,其中高斯热图的计算方式如下:
其中x表示在特征图F中的位置坐标,μ表示字符热图的中心坐标,这里δ为方差;为每一个Char Box位置都生成高斯热图,最终得到伪监督信息特征图Gr;
602)根据步骤5)的识别结果Pre生成每一个字符对应热图区域的置信度,置信度的值就是字符识别的概率,表示如下:
其中,P表示像素在Char Box区域中,ω表示当前像素在的具体的Char Box;
Pre值高的字符区域表示检测到的区域准确,进行激励;
603)生成关系图link_score的标签图给定一个数据集图像,每一个文本包围框Text Box都会用多个分段直线表示如下:
其中,n表示Text Box的顶点个数,ICDAR2015的n的值是4,CTW1500n的值是16;通过Vatti′clipping算法缩小原始Text Box得到以防止图像分割时相邻文本粘连到一起;缩小偏移量D利用周长H和原始Text Box面积A计算:
其中r表示收缩比例;
604)设定目标函数,用于神经网络的优化学习,目标函数包含检测损失和识别损失两部分,其中识别损失为:
其中N表示每张图里字符的个数,表示第i个字符的标签,pre(i)表示第i个字符的识别结果,最后目标函数:
L=Ldet+λrecogLrecog (16)
其中λrecog表示平衡系数,Ldet表示检测损失,Lrecog表示识别损失,根据目标函数L优化神经网络,实现真正的端到端网络训练优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011431114.3A CN112541491B (zh) | 2020-12-07 | 2020-12-07 | 基于图像字符区域感知的端到端文本检测及识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011431114.3A CN112541491B (zh) | 2020-12-07 | 2020-12-07 | 基于图像字符区域感知的端到端文本检测及识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541491A CN112541491A (zh) | 2021-03-23 |
CN112541491B true CN112541491B (zh) | 2024-02-02 |
Family
ID=75019709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011431114.3A Active CN112541491B (zh) | 2020-12-07 | 2020-12-07 | 基于图像字符区域感知的端到端文本检测及识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541491B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966691B (zh) * | 2021-04-14 | 2022-09-16 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN113676465B (zh) * | 2021-08-10 | 2024-02-27 | 杭州民润科技有限公司 | 一种面向工业企业网络的图像过滤方法、存储器和处理器 |
CN113837152B (zh) * | 2021-11-25 | 2022-04-15 | 之江实验室 | 一种表格图片文本智能检测方法及系统 |
CN114898375A (zh) * | 2022-05-20 | 2022-08-12 | 深信服科技股份有限公司 | 字符检测模型训练方法及组件,文本识别方法及组件 |
CN116385829B (zh) * | 2023-04-07 | 2024-02-06 | 北京百度网讯科技有限公司 | 姿态描述信息生成方法、模型的训练方法和装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2399746A1 (en) * | 2001-11-05 | 2003-05-05 | Mbt Holding Ag | High early-strength cementitious composition |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108615036A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110163208A (zh) * | 2019-05-22 | 2019-08-23 | 长沙学院 | 一种基于深度学习的场景文字检测方法和系统 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及系统 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111027443A (zh) * | 2019-12-04 | 2020-04-17 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
CN111160050A (zh) * | 2019-12-20 | 2020-05-15 | 沈阳雅译网络技术有限公司 | 一种基于上下文记忆网络的篇章级神经机器翻译方法 |
CN111382582A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种基于非自回归的神经机器翻译解码加速方法 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
AU2020101229A4 (en) * | 2020-07-02 | 2020-08-06 | South China University Of Technology | A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks |
CN111798480A (zh) * | 2020-07-23 | 2020-10-20 | 北京思图场景数据科技服务有限公司 | 基于单字符及文字间连接关系预测的文字检测方法及装置 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8457408B2 (en) * | 2006-09-01 | 2013-06-04 | Sensen Networks Pty Ltd | Method and system of identifying one or more features represented in a plurality of sensor acquired data sets |
-
2020
- 2020-12-07 CN CN202011431114.3A patent/CN112541491B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2399746A1 (en) * | 2001-11-05 | 2003-05-05 | Mbt Holding Ag | High early-strength cementitious composition |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108615036A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110163208A (zh) * | 2019-05-22 | 2019-08-23 | 长沙学院 | 一种基于深度学习的场景文字检测方法和系统 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及系统 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111027443A (zh) * | 2019-12-04 | 2020-04-17 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
CN111160050A (zh) * | 2019-12-20 | 2020-05-15 | 沈阳雅译网络技术有限公司 | 一种基于上下文记忆网络的篇章级神经机器翻译方法 |
CN111382582A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种基于非自回归的神经机器翻译解码加速方法 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
AU2020101229A4 (en) * | 2020-07-02 | 2020-08-06 | South China University Of Technology | A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
CN111798480A (zh) * | 2020-07-23 | 2020-10-20 | 北京思图场景数据科技服务有限公司 | 基于单字符及文字间连接关系预测的文字检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于语义分割技术的任意方向文字识别;王涛;江加和;;应用科技(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541491A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541491B (zh) | 基于图像字符区域感知的端到端文本检测及识别方法 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
Luo et al. | Moran: A multi-object rectified attention network for scene text recognition | |
Lee et al. | Simultaneous traffic sign detection and boundary estimation using convolutional neural network | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN110837835A (zh) | 一种基于边界点检测的场景文本端到端识别方法 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
Ma et al. | Weakly supervised instance segmentation of electrical equipment based on RGB-T automatic annotation | |
Jiang et al. | Multi-feature tracking via adaptive weights | |
CN113435319B (zh) | 一种联合多目标跟踪和行人角度识别的分类方法 | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
Zhao et al. | Real-time moving pedestrian detection using contour features | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
Cai et al. | IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild | |
Xiao et al. | Robust license plate detection and recognition with automatic rectification | |
Yang et al. | Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation | |
Ren et al. | Research on infrared small target segmentation algorithm based on improved mask R-CNN | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |