CN112541491B

CN112541491B - 基于图像字符区域感知的端到端文本检测及识别方法

Info

Publication number: CN112541491B
Application number: CN202011431114.3A
Authority: CN
Inventors: 杜权; 刘兴宇; 徐萍
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-02-02
Anticipated expiration: 2040-12-07
Also published as: CN112541491A

Abstract

本发明公开一种基于图像字符区域感知的端到端文本检测识别方法，步骤为：数据准备：在两种数据集上进行实验，一种是包含单个字符包围框标注的SynthText80k；另一种是真实场景数据集，包含ICDAR 2015，CTW1500；在上述两种数据集上进行特征提取和融合，得到语义更丰富特征；将两种数据集中图像部分进行分割，找到图像中文本的位置；利用图像中文本的位置，得到每一个字符位置对应的特征；根据字符特征进行卷积识别，对每一个特征识别分类后，得到识别概率完成神经网络端到端训练策略，实现神经网络弱监督学习的识别反馈。本发明可以检测任意形状的文本，识别多方向的文字，实现识别反馈的端到端文本检测和识别。

Description

基于图像字符区域感知的端到端文本检测及识别方法

技术领域

本发明涉及一种计算机视觉技术领域，具体为一种基于图像字符区域感知的端到端文本检测及识别方法。

背景技术

OCR是计算机视觉领域的经典问题，长久以来，一直受到学术界和工业界的持续关注。在工业界，Google、Microsoft、Amazon等大型互联网公司以及云从科技等人工智能创业公司，都在OCR技术上耕耘多年。

OCR(Optical Character Recognition，光学字符识别)是指对输入图像进行分析识别处理，获取图像中文字信息的过程，具有广泛的应用场景。而自然场景中的OCR技术不需要针对特殊场景进行定制，可以识别任意场景图片中的文字。

但相较于传统OCR，自然场景OCR中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。

自然图像文本识别一直被认为是两个连续但独立的问题：文字检测和文字识别。由于深度神经网络的成功，这两个人物都取得了很大的进展。文字识别的目标是从被抠出来的文本图片中识别出一连串字符。一般来说，文字识别被转换为一个序列标记问题通常由卷积神经网络特征的递归神经网络来解决。然而，通过这样两阶段的方法实现文本识别通常由很多限制。首先独立的学习这两个任务是一个次优的问题，因为这样很难完全利用文本本身的性质。比如说，联合的文字检测和识别可以提供丰富的上下文信息并且两个任务可以实现互补。其次两阶段的方法通常需要多个连续的步骤，这样使整个系统更复杂，并且使得识别结果很大程度上依赖于检测性能的好坏。

最近已经有一些方法尝试去开发一个统一的文字检测与识别框架(也叫端到端识别)，但它们的模型非常的复杂，在文字检测阶段很难精确的识别出精确文本区域。通常会有很多的背景包含在扣除来的特征中。这样不可避免的限制了文字识别的性能，尤其对于多方向或者弯曲的文本。

发明内容

针对现有技术中自然图像文本识别在文字检测阶段很难精确的识别出精确文本区域等不足，本发明要解决的问题是提供一种可提升检测和识别的准确度的基于图像字符区域感知的端到端文本检测及识别方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于图像字符区域感知的端到端文本检测识别方法，包括以下步骤：

1)数据准备：在两种数据集上进行实验，一种是包含单个字符包围框标注的SynthText80k；另一种是真实场景数据集，包含ICDAR 2015，CTW1500；

2)在上述两种数据集上进行特征提取和融合，得到语义更丰富特征；

3)将两种数据集中图像部分进行分割，找到图像中文本的位置；

4)利用步骤3)中图像中文本的位置，得到每一个字符位置对应的特征；

5)根据字符特征进行卷积识别，对每一个特征识别分类后，得到识别概率n表示每一个Text Box里面包含的字符的个数；

6)完成神经网络端到端训练策略，实现神经网络弱监督学习的识别反馈。

步骤2)中两种数据集上进行特征提取和融合具体为：

步骤201)主干网络backbone使用VGG16-BN网络，分别输入两种数据集图像，通过backbone的逐层卷积，得到中间层特征，与原图相比步长分别为{4，8，16，32}，得到原始图像二分之一大小的特征图；

步骤202)将步骤201)得到的特征图输入到空间注意力模块进行计算，计算公式见公式(1)，空间注意力由最大池化、平均池化和n*n卷积操作组成，得到的空间注意力结果和特征图进行元素级相乘；

其中，σ表示sigmoid激活函数，F_nxn为3x3卷积层，表示通道连接操作，P_max为最大池化，P_avg为平均池化，A_sag(.)为空间注意力计算结果，X_i为第i层特征，最后经过注意力引导的特征/>可以计算如下：

其中表示元素级相乘，得到特征提取的最终特征图为F。

步骤3)将两种数据集中图像部分进行分割具体为：

301)利用步骤2)产生的特征图F进行图像分割，预测当前像素点的位置是文本的概率，生成两个通道的特征图，即表示每一个字符中心的预测的高斯热图region_score和表示几个字符之间的联系的关系图link_score；

302)根据热图region_score，进行膨胀操作和腐蚀操作后，使用分水岭算法得到每一个字符的包围框Char Box，利用link_score将各个Char Box进行归类，得到归类到一个单词或一行的包围框Text Box，对k+1个属于同一Text box的Char Box中心坐标(x₀,y₀),…,(x_k,y_k)利用插值公式(3)得到排列方式：

其中对多项式R求导，得到每一个位置字符Char Box的角度，根据得到的角度旋转Char Box，得到最终每个拥有实际角度的Char Box，其中x为多项式未知数，x_i和x_j为k个Char Box中心坐标的两个不同点的横坐标。

步骤4)中利用步骤3)中图像中文本的位置，得到每一个字符位置对应的特征具体为：

根据步骤3)得到的Char Box使用透视变换，得到每一个字符对应在步骤2)最终特征图F中的特征,处理过程如下：

t_x＝l*cosθ-t*sinθ-x (4)

t_y＝l*sinθ-t*cosθ-y (5)

w_t＝s*(l+r) (7)

其中M表示仿射变换矩阵，h_t,w_t表示仿射变换之后的特征图的高和宽，(x，y)表示特征图F里坐标，t，b，l，r分别表示到Char Box上，下，左，右边界的距离，θ表示角度，t_x,t_y表示原特征图中对应最终特征图F的坐标(x，y)偏移量；

根据上述变换参数，使用仿射变换得到最终的感兴趣区域ROI特征：

x^s和y^s表示原特征图中坐标x，y处的值，x^t和y^t为得到的目标特征图中坐标x，y处的值；经过透视变换得到规定高宽的单个字符特征F_char，便于输入到卷积神经网络。

步骤5)字符特征包含卷积部分和全连接部分两大部分，其中卷积部分包含两个卷积、批标准化和RELU激活函数串联，全连接部分包含三个全连接。

步骤6)中完成神经网络端到端训练策略，实现神经网络弱监督学习的识别反馈具体为：

601)生成region_score的标签图为每一个Text Box里面的Char Box生成对应的2维高斯热图，其中高斯热图的计算方式如下：

其中x表示在特征图F中的位置坐标，μ表示字符热图的中心坐标，这里δ为方差；为每一个Char Box位置都生成高斯热图，最终得到伪监督信息特征图

602)根据步骤5)的识别结果P_re生成每一个字符对应热图区域的置信度，置信度的值就是字符识别的概率，表示如下：

其中，P表示像素在Char Box区域中，ω表示当前像素在的具体的Char Box；

P_re值高的字符区域表示检测到的区域准确，进行激励，效果不好的将其进行抑制，对整个神经网络经过迭代，进行弱监督训练，提升识别效果；

603)生成关系图link_score的标签图给定一个数据集图像，每一个文本包围框Text Box都会用多个分段直线表示如下：

其中，n表示Text Box的顶点个数，ICDAR2015的n的值是4，CTW1500n的值是16；通过Vatti′clipping算法缩小原始Text Box得到以防止图像分割时相邻文本粘连到一起；缩小偏移量D利用周长H和原始Text Box面积A计算：

其中r表示收缩比例；

604)设定目标函数，用于神经网络的优化学习，目标函数包含检测损失和识别损失两部分，其中检测损失为

其中p表示图像中像素点

识别损失为:

其中N表示每张图里字符的个数，表示第i个字符的标签，p_re(i)表示第i个字符的识别结果，最后目标函数：

L＝L_det+λ_recogL_recog (16)

其中λ_recog表示平衡系数，根据目标函数L优化神经网络，实现真正的端到端网络训练优化。

本发明具有以下有益效果及优点：

1.本发明基于图像字符区域感知的端到端文本检测及识别方法主要是基于图像分割的字符级的操作来实现文本检测和识别，由于是基于图像分割的字符检测，因此可以检测任意形状的文本；由于是基于字符级的识别，因此可以识别多方向的文字，可以实现识别反馈的端到端文本检测和识别。

2.通过实验证明，本发明检测和识别效果非常好，实际应用价值很高，在图像检索，场景理解和盲目导航等都有很好的应用。

附图说明

图1为本发明一种基于图像字符区域感知的端到端文本检测和识别技术的体系结构框图；

图2为本发明一种基于图像字符区域感知的端到端文本检测和识别技术的流程图；

图3为本发明特征提取进行特征融合主干网络；

图4为本发明实例样图；

图5为本发明检测阶段图像分割字符位置检测结果；

图6为本发明检测阶段图像分割字符关系检测结果；

图7为本发明检测阶段对分割得到的字符位置进插值曲线；

图8为本发明根据字符框生成的字符热图。

图9为本发明根据数据集标注框生成的等比例缩小的关系图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提供一种基于图像字符区域感知的端到端文本检测识别方法采取所述的基于图像字符区域感知的端到端文本检测和识别，体系结构图如图1所示，方法流程图如图2所示，包括以下步骤：

步骤1)准备数据，采用自然场景中带有文字的图像数据集。

本发明使用的数据集是自然场景数据集，有synthText80k，ICDAR2013，ICDAR2015，CTW1500。实验的这些数据集都有必须包含的内容有包含有文本的图像，文本包围框信息(Text Box)，每个Text Box所包含的文本内容。由于本发明基于单字符的弱监督学习神经网络，除了这些内容还应该使用包含单字符包围框(Char Box)的数据集synthText80k，在synchText80k数据集上进行预训练。输入图像如图4，将其输入神经网络。

步骤2)中两种数据集上进行特征提取和融合具体为：

步骤201)主干网络backbone使用VGG16-BN网络，分别输入两种数据集图像，通过backbone的逐层卷积，得到中间层特征，与原图相比步长分别为{4，8，16，32}，得到原始图像二分之一大小的特征图；具体为：

P2^{∈1x256x46x60}＝[[[[1.6800,0.2737,0.5205,...,0.0000,0.0000,0.0000],[1.2129,0.0000,0.0000,...,0.0000,0.0000,0.0000],[1.2427,0.0000,0.0000,...,0.0000,0.0000,0.0000],...,[3.0185,0.0000,0.0000,...,0.0000,0.0000,5.0243],[1.4935,0.0000,0.0000,...,0.0000,0.0000,4.7430],[2.9393,0.1087,2.0230,...,2.9494,1.3957,5.0275]]]]

得到的特征图P2融合了C2，C3，C4，C5特征图，获得了更加高层的语义(如图3所示)。

步骤202)将步骤201)得到的特征图输入到空间注意力模块进行计算，计算公式见公式(1)，空间注意力由最大池化、平均池化和n*n(n＝2,3,4,5)卷积操作组成,得到的空间注意力结果和特征图进行元素级相乘；

其中表示元素级相乘，得到特征提取的最终特征图为F，如下：

F^{∈1x32x368x480}＝[[[[0.0876,0.2665,0.2232,...,0.7076,0.6252,0.6523],[0.2245,0.2678,0.1552,...,0.6825,0.6876,0.7189],[0.1838,0.2398,0.1265,...,0.7468,0.7768,0.8726],...,[0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000],[0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000],[0.3449,0.1219,0.4136,...,0.2670,0.3700,0.3997]]]]

步骤3)将两种数据集中图像部分进行分割具体为：

301)利用步骤2)产生的特征图F进行图像分割，预测当前像素点的位置是文本的概率，生成两个通道的特征图，即表示每一个字符中心的预测的高斯热图region_score(如图5所示)和表示几个字符之间的联系的关系图link_score(如图6所示)；

其中对多项式R求导，得到每一个位置字符Char Box的角度，根据得到的角度旋转Char Box，得到最终每个拥有实际角度的Char Box，其中其中x为多项式未知数，x_i和x_j为k个Char Box中心坐标的两个不同点的横坐标；

在步骤302)中找到每一个字符热图的中心，计算文本曲线，找到转换角度的字符包围框，字符区域热图中心坐标(无序)为：

X＝[148.5，35.25000381，137.25001526，49，125,63.25，110，77.5，93.5]

Y＝[15.5,20.75000191,26.75000763,30.5,34.5,37.25000381,40.5,41.5,42.5]

最终根据这些中心点插值成的曲线如图7所示(图片中的原点在图片的左上角)。

最终得到旋转Char Box：

box1＝[[140 14],[149 7],[156 16],[147 23]]

box2＝[[34 11],[44 23],[36 30],[26 18]]

box3＝[[130 27],[136 19],[144 25],[137 33]]

box4＝[[50 21],[57 33],[47 39],[40 27]]

box5＝[[117 37],[122 26],[132 31],[127 42]]

box6＝[[65 29],[70 41],[60 44],[56 33]]

box7＝[[103 44],[106 33],[116 36],[113 47]]

box8＝[[81 35],[83 45],[73 47],[71 37]]

box9＝[[87 48],[88 35],[99 36],[98 49]]

t_x＝l*cosθ-t*sinθ-x (4)

t_y＝l*sinθ-t*cosθ-y (5)

w_t＝s*(l+r) (7)

其中x^s和y^s表示原特征图中坐标x，y处的值，x^t和y^t为得到的目标特征图中坐标x，y处的值；经过透视变换得到规定高宽的单个字符特征F_char，便于输入到卷积神经网络。

本步骤根据步骤202)产生的最终特征图F和步骤302)产生的Char Box，利用透视变换获得每一个单个字符的特征F_char，用于字符识别：

F_box1＝tensor([[[191.8000,191.1600,190.4600,...,190.4700,189.5000,190.3250],[191.0000,189.6900,189.2350,...,190.9800,190.4700,190.9800],[191.7600,188.4899,186.3750,...,192.2500,191.0200,190.7900],...,[19.3400,11.7650,10.1250,...,117.7500,145.1346,154.1009],[39.4403,29.1099,6.7650,...,192.8007,187.3349,229.0000],[80.6350,71.9997,29.2300,...,183.2105,150.2407,178.2554]]],device＝'cuda:0')

F_box2＝tensor([[[31.4137,28.9900,23.3925,...,193.3712,130.6633,43.8061],[34.0062,30.8938,25.5575,...,170.3587,151.2682,59.1805],[31.2875,27.5500,22.5000,...,174.7813,146.2561,63.1811],...,[9.4187,10.6938,13.9375,...,167.1253,206.2250,148.8807],[9.8425,10.6375,13.3025,...,128.8848,175.9711,131.1777],[9.9375,10.6075,14.0025,...,74.4146,152.7946,123.6669]]],device＝'cuda:0')

…

F_box9＝tensor([[[56.6602,48.6400,48.7000,...,159.7000,151.4201,142.6796],[53.6600,51.1800,50.2000,...,165.6000,160.9000,159.7000],[52.7000,50.7000,49.0000,...,170.0001,161.7000,157.4000],...,[95.7995,161.0995,114.5004,...,9.0000,10.0000,11.0000],[110.9799,146.0000,136.6000,...,9.2000,10.2000,11.1000],[130.3996,151.8802,174.1998,...,8.6000,9.1600,10.1200]]],device＝'cuda:0')。

步骤5)中字符特征包含卷积部分和全连接部分两大部分，其中卷积部分包含两个卷积、批标准化和RELU激活函数串联，全连接部分包含三个全连接。卷积神经网络识别得到的字符特征，产生分类结果：

P_pre＝{0.86,0.85,0.95,0.94,0.91,0.96,0.96,0.95,0.95}

其中x表示在特征图F中的位置坐标，μ表示字符热图的中心坐标，这里δ为方差；为每一个Char Box位置都生成高斯热图，最终得到伪监督信息特征图G_r ^*(如图8所示)。

本步骤能够正确识别并且识别准确率高的字符说明检测到的区域比较准确，所以这样设定能激励检测效果好的字符区域，抑制检测效果不好的，经过迭代多次这样弱监督训练，使网络效果越来越好。

其中，n表示Text Box的顶点个数，ICDAR2015的n的值是4，CTW1500n的值是16；通过Vatti′clipping算法缩小原始Text Box得到以防止图像分割时相邻文本粘连到一起；数据集会提供文本级包围框的标注，对包围框进行等比例缩小；比例缩小后，监督图主要是在宽度上缩小，形状和标注信息保持不变。

缩小偏移量D利用周长H和原始Text Box面积A计算：

其中r表示收缩比例，最终得到关系特征图(如图9所示)。

其中p表示图像中像素点

识别损失为:

L＝L_det+λ_recogL_recog (16)

最后按步骤6的端到端训练策略。检测效果不断提升，从而识别准确率也提升。

本发明方法主要是基于图像分割的字符级的操作来实现文本检测和识别。由于是基于图像分割的字符检测，因此可以检测任意形状的文本。由于是基于字符级的识别，因此可以识别多方向的文字，可以实现识别反馈的端到端文本检测和识别。实验证明，本发明检测和识别效果非常好，实际应用价值很高，在图像检索，场景理解和盲目导航等都有很好的应用。

Claims

1.一种基于图像字符区域感知的端到端文本检测识别方法，其特征在于包括以下步骤：

5)根据字符特征进行卷积识别，对每一个特征识别分类后，得到识别概率n表示每一个Text Box里面包含的字符的个数，/>表示n乘以c的实数空间；

6)完成神经网络端到端训练策略，实现神经网络弱监督学习的识别反馈；

步骤2)中两种数据集上进行特征提取和融合具体为：

A_sag(X_i)＝σ(F_nxn(P_maxοP_avg)) (1)

其中，σ表示sigmoid激活函数，F_nxn为3x3卷积层，ο表示通道连接操作，P_max为最大池化，Pavg为平均池化，Asag(.)为空间注意力计算结果，Xi为第i层特征，最后经过注意力引导的特征可以计算如下：

其中表示元素级相乘，得到特征提取的最终特征图为F，/>为C×W×H的实数空间。

2.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法，其特征在于：步骤3)将两种数据集中图像部分进行分割具体为：

302)根据热图region_score，进行膨胀操作和腐蚀操作后，使用分水岭算法得到每一个字符的包围框Char Box，利用link_score将各个Char Box进行归类，得到归类到一个单词或一行的包围框Text Box，对k+1个属于同一Text box的Char Box中心坐标(x₀,y₀),Λ,(xk,yk)利用插值公式(3)得到排列方式：

3.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法，其特征在于：步骤4)中利用步骤3)中图像中文本的位置，得到每一个字符位置对应的特征具体为：

t_x＝l*cosθ-t*sinθ-x (4)

t_y＝l*sinθ-t*cosθ-y (5)

w_t＝s*(l+r) (7)

其中M表示仿射变换矩阵，h_t,w_t表示仿射变换之后的特征图的高和宽，(x，y)表示特征图F里坐标，t，b，1，r分别表示到Char Box上，下，左，右边界的距离，θ表示角度，t_x,t_y表示原特征图中对应最终特征图F的坐标(x，y)偏移量；

根据上述仿射变换矩阵M中的变换参数，使用仿射变换得到最终的感兴趣区域ROI特征：

4.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法，其特征在于：步骤5)字符特征包含卷积部分和全连接部分两大部分，其中卷积部分包含两个卷积、批标准化和RELU激活函数串联，全连接部分包含三个全连接。

5.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法，其特征在于：步骤6)中完成神经网络端到端训练策略，实现神经网络弱监督学习的识别反馈具体为：

其中x表示在特征图F中的位置坐标，μ表示字符热图的中心坐标，这里δ为方差；为每一个Char Box位置都生成高斯热图，最终得到伪监督信息特征图G_r；

P_re值高的字符区域表示检测到的区域准确，进行激励；

其中r表示收缩比例；

604)设定目标函数，用于神经网络的优化学习，目标函数包含检测损失和识别损失两部分，其中识别损失为：

L＝L_det+λ_recogL_recog (16)

其中λ_recog表示平衡系数，L_det表示检测损失，L_recog表示识别损失，根据目标函数L优化神经网络，实现真正的端到端网络训练优化。