CN114155540B

CN114155540B - 基于深度学习的文字识别方法、装置、设备及存储介质

Info

Publication number: CN114155540B
Application number: CN202111354693.0A
Authority: CN
Inventors: 黄迪臻
Original assignee: Shenzhen Lianzhou International Technology Co Ltd
Current assignee: Shenzhen Lianzhou International Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2024-05-03
Anticipated expiration: 2041-11-16
Also published as: CN114155540A

Abstract

本发明公开了一种基于深度学习的文字识别方法、装置、终端设备及存储介质，所述文字识别方法包括：获取样本文字数据集并进行预处理；根据预处理后的文字图像生成文字位置和字符位置的训练标签；将训练标签输入文字识别模型进行训练，文字位置的类别预测后加入sigmoid层将输出概率归一化，字符位置的类别预测后加入softmax层将输出类别概率归一化，经过透视变换生成特征图，通过卷积层生成字符预测图，并对模型的损失函数进行优化，得到训练好的文字识别模型；将待识别文字图像输入到训练好的文字识别模型，输出字符预测图；根据字符预测图得到待识别文字图像的文字序列。本发明通过一个全卷积神经网络实现端到端的文字识别，过程简单、运算量小、准确度高。

Description

基于深度学习的文字识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的文字识别方法、装置、终端设备及存储介质。

背景技术

文字识别是以数字图像处理、模式识别、计算机视觉等技术为基础，利用光学技术和计算机技术把图像中存在的文字序列读取出来，并转换成一种计算机能够接受、人又可以理解的格式。文字识别广泛应用在生活中，其应用场景包括了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

传统的文字识别方法，其过程一般包括：图像预处理、文本区域定位、文本字符分割、文字识别、文本后处理等步骤，过程繁琐，且每一步的效果都会对后面步骤的效果造成影响；同时，传统方法在光照不均匀、图片模糊等情况下，需要一些复杂的预处理手段以保证文字识别效果，运算量较大。深度学习方法的文字识别过程仍然包括文本区域定位和文字识别的步骤，过程繁琐，且需要训练两个神经网络才能实现最终的识别效果，运算量较大。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于深度学习的文字识别方法、装置、终端设备及存储介质，通过一个全卷积神经网络实现端到端的文字识别，过程简单、运算量小、准确度高。

为了实现上述目的，本发明实施例提供了一种基于深度学习的文字识别方法，包括：

获取样本文字数据集，并对所述样本文字数据集中的每一个文字图像进行预处理；其中，所述样本文字数据集包括文字坐标、文字中各字符的坐标以及字符类别；

根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签；

将所述训练标签输入文字识别模型进行训练，使用卷积层提取图像特征，使用池化层或跨步卷积层进行降采样，文字位置的类别预测后加入sigmoid层将输出概率归一化，字符位置的类别预测后加入softmax层将输出类别概率归一化，经过透视变换生成特征图，将所述特征图通过卷积层生成字符预测图，并使用优化器对所述文字识别模型的损失函数进行优化，得到训练好的文字识别模型；

将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图；

根据所述字符预测图得到所述待识别文字图像的文字序列。

作为上述方案的改进，所述根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签，具体包括：

根据预处理后的文字图像生成文字位置的训练标签(t,dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)，其中，t表示类别标签，(dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)表示位置偏移标签；

根据预处理后的文字图像生成字符位置的训练标签(c0,c1,...,cn,dtx,dty,dbx,dby)，其中，c0,c1,...,cn表示类别标签，(dtx,dty,dbx,dby)表示位置偏移标签。

作为上述方案的改进，所述文字识别模型的损失函数包括文字类别损失、文字位置回归损失、字符类别损失和字符位置回归损失，其中：

文字类别损失为：

其中，y为文字位置的类别标签，p为文字位置的预测文字概率，w_p,w_np为对应的权重，可设置为固定值，Ω为设置的点集，包括所有正例点集和部分负例点集，N＝|Ω|为训练点集的数目；

文字位置回归损失为：

其中，Q＝{dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄}表示文字4个顶点的偏移标签，Q'＝{dx₁',dy₁',dx₂',dy₂',dx₃',dy₃',dx₄',dy₄'}表示对文字4个顶点的偏移的回归值，1(y(m,n)＝1)表示只对正例进行位置回归损失的计算；

字符类别损失为：

其中，y_k为字符类别k的标签，p_k表示预测为字符类别k的概率，K为字符类别总数目，w_k为设置的第k类的权重，Ω为设置的点集，包括所有字符类点集和部分非字符类点集，N＝|Ω|为训练点集的数目；

字符位置回归损失为：

其中，Q＝{dtx,dty,dbx,dby}表示字符左上和右下顶点的偏移标签，Q'＝{dtx',dty',dbx',dby'}表示对字符左上和右下顶点的偏移的回归值，1(y(m,n)≠0)表示不对负例进行位置回归损失的计算；

则所述文字识别模型的损失函数为L＝λ_pclsL_pcls+λ_plocL_ploc+λ_cclsL_ccls+λ_clocL_cloc。

作为上述方案的改进，所述正例点集表示文字标签为1的点的集合，所述负例点集表示文字标签为0的点的集合。

作为上述方案的改进，所述将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图，具体包括：

将待识别文字图像进行预处理后输入到训练好的文字识别模型，获得文字预测图；

根据所述文字预测图获取文字框的四个顶点坐标，并去除所述文字预测图中重叠的文字框，得到预测文字框；

根据所述预测文字框提取多个文字特征图，并对所述文字特征图进行透视变换生成特征图，将所述特征图通过卷积层生成字符预测图。

作为上述方案的改进，所述去除所述文字预测图中重叠的文字框，得到预测文字框，具体包括：

遍历所述文字预测图，判断当前预测为正的矩形框与上一个预测为正的矩形框的交并比是否大于第一阈值；

若是，则将两个矩形框进行加权融合，以预测概率为权重，融合各个顶点坐标，得到预测文字框。

作为上述方案的改进，所述根据所述字符预测图得到所述待识别文字图像的文字序列，具体包括：

判断所述字符预测图中每个字符的字符类别预测值是否大于第二阈值，若是，则置为候选字符；

去除所述文字字符预测图中的重叠字符框；

根据横向轴位置将所述候选字符拼接起来得到所述待识别文字图像的文字序列。

本发明实施例还提供了一种基于深度学习的文字识别装置，包括：

样本文字数据集获取模块，用于获取样本文字数据集，并对所述样本文字数据集中的每一个文字图像进行预处理；其中，所述样本文字数据集包括文字坐标、文字中各字符的坐标以及字符类别；

训练标签生成模块，用于根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签；

文字识别模型训练模块，用于将所述训练标签输入文字识别模型进行训练，使用卷积层提取图像特征，使用池化层或跨步卷积层进行降采样，文字位置的类别预测后加入sigmoid层将输出概率归一化，字符位置的类别预测后加入softmax层将输出类别概率归一化，经过透视变换生成特征图，将所述特征图通过卷积层生成字符预测图，并使用优化器对所述文字识别模型的损失函数进行优化，得到训练好的文字识别模型；

字符预测图输出模块，用于将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图；

文字序列输出模块，用于根据所述字符预测图得到所述待识别文字图像的文字序列。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的基于深度学习的文字识别方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的基于深度学习的文字识别方法。

相对于现有技术，本发明实施例提供的一种基于深度学习的文字识别方法、装置、终端设备及存储介质的有益效果在于：通过一个全卷积神经网络实现端到端的文字识别，过程简单、运算量小、准确度高。训练阶段文字的预测和字符的预测同时进行训练，能够结合更多的信息，从而获得更好的识别效果，使用位置回归而不是分割的方法，参数量更少。预测四个点坐标可以回归任意四边形，相比回归一个矩形，能更有效地应对文字倾斜的情况。使用透视变换作为文字检测和字符预测的连接桥梁，在训练阶段使用真实框位置来训练字符类别和位置，在测试阶段使用文字位置图推理得出的文字位置进行预测字符类别和位置。在多个分辨率的特征图上选取文字区域特征图进行拼接，结合了更多分辨率的图像特征，使得识别效果更好。

附图说明

图1是本发明提供的一种基于深度学习的文字识别方法的一个优选实施例的流程示意图；

图2是本发明提供的一种基于深度学习的文字识别方法的一个优选实施例中网络结构的示意图；

图3是本发明提供的一种基于深度学习的文字识别方法的一个优选实施例中识别过程的示意图；

图4是本发明提供的一种基于深度学习的文字识别装置的一个优选实施例的结构示意图；

图5是本发明提供的一种终端设备的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明提供的一种基于深度学习的文字识别方法的一个优选实施例的流程示意图。所述基于深度学习的文字识别方法，包括：

S1，获取样本文字数据集，并对所述样本文字数据集中的每一个文字图像进行预处理；其中，所述样本文字数据集包括文字坐标、文字中各字符的坐标以及字符类别；

S2，根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签；

S3，将所述训练标签输入文字识别模型进行训练，使用卷积层提取图像特征，使用池化层或跨步卷积层进行降采样，文字位置的类别预测后加入sigmoid层将输出概率归一化，字符位置的类别预测后加入softmax层将输出类别概率归一化，经过透视变换生成特征图，将所述特征图通过卷积层生成字符预测图，并使用优化器对所述文字识别模型的损失函数进行优化，得到训练好的文字识别模型；

S4，将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图；

S5，根据所述字符预测图得到所述待识别文字图像的文字序列。

具体的，本实施例首先获取样本文字数据集，该样本文字数据集包括文字的4个顶点坐标(x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄)、文字中各字符的左上顶点坐标和右下顶点坐标(x_lt,i,y_lt,i,x_rb,i,y_rb,i)以及字符类别c_i。并对样本文字数据集中的每一个文字图像进行预处理，预处理包括尺寸归一化和像素值标准化。

尺寸归一化具体包括：将样本文字数据集中的所有文字图像缩放到统一的尺寸；对缩放后的所述文字图像的文字坐标和文字中各字符的坐标进行缩放处理，如下：

x＝xS_w

y＝yS_h

其中，S_w、S_h分别为水平方向和竖直方向的缩放因子。

缩放图像过程中的图像插值方法包括：最近邻方法、双线性插值、双三次插值等。

像素值标准化：彩色图像有RGB三个通道，设像素值为v＝[v_r,v_g,v_b]，v_r∈[0,1]，v_b∈[0,1]，v_g∈[0,1]，各通道均值为μ＝[μ_r,μ_g,μ_b]，标准差为σ＝[σ_r,σ_g,σ_b]，则标准化公式为：

其中，各通道的均值和标准差可使用ImageNet数据库的常用值，各通道均值为[0.485,0.456,0.406]，各通道标准差为[0.229,0.224,0.225]。另外，也可使用其他数据集计算统计的均值和标准差。

根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，训练标签包括类别标签和位置偏移标签。将训练标签输入文字识别模型进行训练，请参阅图2，图2是本发明提供的一种基于深度学习的文字识别方法的一个优选实施例中网络结构的示意图。I为输入图像，C1、C2、C3、C4为经过卷积层和降采样提取的特征图，P1为文字置信度和位置回归热图，P2为文字字符类别置信度和位置回归热图，W表示透视变换，C5为P1获得的文字位置分别从C2、C3、C4提取的文字区域并经过透视变换矫正的结果，向下箭头和/2表示卷积层和2倍降采样层，向右箭头表示卷积层。使用卷积层提取图像特征，使用池化层或跨步卷积层进行降采样，P1文字位置的类别预测后加入sigmoid层将输出概率归一化，P2字符位置的类别预测后加入softmax层将输出类别概率归一化，经过透视变换生成特征图C5，将特征图C5通过卷积层生成字符预测图P2，并使用优化器对文字识别模型的损失函数进行优化，得到训练好的文字识别模型。将待识别文字图像进行预处理后输入到训练好的文字识别模型，由训练好的文字识别模型输出字符预测图；根据字符预测图得到待识别文字图像的文字序列。

本实施例通过一个全卷积神经网络实现端到端的文字识别，过程简单、运算量小、准确度高。训练阶段文字的预测和字符的预测同时进行训练，能够结合更多的信息，从而获得更好的识别效果，使用位置回归而不是分割的方法，参数量更少。预测四个点坐标可以回归任意四边形，相比回归一个矩形，能更有效地应对文字倾斜的情况。使用透视变换作为文字检测和字符预测的连接桥梁，在训练阶段使用真实框位置来训练字符类别和位置，在测试阶段使用文字位置图推理得出的文字位置进行预测字符类别和位置。在多个分辨率的特征图上选取文字区域特征图进行拼接，结合了更多分辨率的图像特征，使得识别效果更好。

在另一个优选实施例中，所述S2，根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签，具体包括：

S201，根据预处理后的文字图像生成文字位置的训练标签(t,dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)，其中，t表示类别标签，(dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)表示位置偏移标签；

S202，根据预处理后的文字图像生成字符位置的训练标签(c0,c1,...,cn,dtx,dty,dbx,dby)，其中，c0,c1,...,cn表示类别标签，(dtx,dty,dbx,dby)表示位置偏移标签。

具体的，P1用于预测和回归文字位置(1+8＝9通道)，P2用于预测和回归文字字符位置(c+1+4通道)。

对于P1的输出图，其尺寸为(w_P1,h_P1,9)，其中有9个通道，每个通道大小为(w_P1,h_P1)。对于P1输出图上的任一个点(m,n)，为1个9维向量，满足m∈[0,w_P1-1],n∈[0,h_P1-1]。其真实标签设为(t,dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)，计算步骤如下：

(1)对于点(m,n)，按照下式计算其在原图中的位置(m_I,n_I)：

其中，w_I、h_I表示输入图片I的宽、高，w_P1、h_P1表示输入图P1的宽、高，表示向下取整符号，输出的(m_I,n_I)满足m_I∈[0,w_I-1],n_I∈[0,h_I-1]。

(2)设置类别标签t。

判断(m_I,n_I)是否标注的文字框四边形内部，若是，则t＝1；否则，t＝0。

(3)设置位置偏移标签(dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)。

对于t＝0的位置偏移标签不参与训练过程，因此全部设为0；对于t＝1的位置偏移标签，根据下式计算：

dx_i＝(x_i-m_I)/w_I

dy_i＝(y_i-n_I)/h_I

其中，w_I、h_I表示输入图片I的宽、高，(m_I,n_I)表示转换到输入图片的坐标，(x_i,y_i)|_i∈[1,4]表示文字顶点。

对于P2的输出图，其尺寸为(w_P2,h_P2,c+1+4)，其中有(c+1+4)个通道，每个通道大小为(w_P2,h_P2)。对于P2输出图上的任一个点(m,n)，为1个(c+1+4)维向量，满足m∈[0,w_P2-1],n∈[0,h_P2-1]。其真实标签设为(c0,c1,...,cn,dtx,dty,dbx,dby)，计算步骤如下：

(1)计算透视变换矩阵。

根据标注的文字4个顶点{(x_i,y_i)|i＝1,2,3,4}和其对应的{(0,0),(w_P2-1,0),(w_P2-1,h_P2-1),(0,h_P2-1)}，计算得到透视变换矩阵T，满足：

p_P2＝Tp_I

其中，T为透视变换矩阵，p_I为{(x_i,y_i)|i＝1,2,3,4}的任一点，p_P2为点p_I对应到P2上的点。

(2)根据透视变换矩阵T，将标注的字符位置(x_lt,i,y_lt,i),(x_rb,i,y_rb,i)转化为在P2上的位置。

(3)设置类别标签t。字符共有c类，加上1个非字符类，共c+1类。

设步骤(2)中的第i个字符在P2上的左上顶点坐标、右下顶点坐标分别为(x_lt,i',y_lt,i'),(x_rb,i',y_rb,i')。若(m,n)满足下式，则该位置上的该字符类别设置为1，其余字符类别设置为0；否则，该位置上的非字符类设置为1，其余字符类别设置为0.

x_lt,i'<m+0.5<x_rb,i'

y_lt,i'<n+0.5<y_rb,i'

(4)设置位置偏移标签(dtx,dty,dbx,dby)。

对于字符类别为非字符类的位置偏移标签不参与训练过程，因此全部设为0；对于为字符类的位置偏移标签，根据下式计算：

dtx＝(m+0.5-tx)/w_P2

dty＝(n+0.5-ty)/h_P2

dbx＝(m+0.5-bx)/w_P2

dby＝(n+0.5-by)/h_P2

其中，(tx,ty),(bx,by)表示字符在P2上的左上顶点坐标和右下顶点坐标。

在又一个优选实施例中，所述文字识别模型的损失函数包括文字类别损失、文字位置回归损失、字符类别损失和字符位置回归损失，其中：

文字类别损失为：

文字位置回归损失为：

字符类别损失为：

字符位置回归损失为：

具体的，本实施例使用Adam优化器对文字识别模型的损失函数进行优化。文字识别模型的损失函数包括文字类别损失、文字位置回归损失、字符类别损失和字符位置回归损失，其中：

采用对数损失计算文字类别损失为：

采用L2损失计算文字位置回归损失为：

采用交叉熵损失计算字符类别损失为：

采用L2损失计算字符位置回归损失为：

在又一个优选实施例中，所述正例点集表示文字标签为1的点的集合，所述负例点集表示文字标签为0的点的集合。

具体的，在P1图上的每个点，可以认为是一个点会预测一个文字。而正例表示这个点的文字标签为1，负例表示这个点的文字标签为0。

在又一个优选实施例中，所述S4，将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图，具体包括：

S401，将待识别文字图像进行预处理后输入到训练好的文字识别模型，获得文字预测图；

S402，根据所述文字预测图获取文字框的四个顶点坐标，并去除所述文字预测图中重叠的文字框，得到预测文字框；

S403，根据所述预测文字框提取多个文字特征图，并对所述文字特征图进行透视变换生成特征图，将所述特征图通过卷积层生成字符预测图。

具体的，请参阅图3，图3是本发明提供的一种基于深度学习的文字识别方法的一个优选实施例中识别过程的示意图。以一种常用的文字识别场景车牌识别为例，I为经过预处理后的图片，C1、C2、C3、C4为卷积网络提取的特征图。P1为车牌类别和位置预测图，P1图的一个点可以预测一个车牌。经过局部感知NMS去除重叠车牌框。根据预测的车牌框位置在C2、C3、C4中提取车牌特征图，然后经过透视变换获得特征图C5。C5经过卷积层输出预测图P2，P2图的一个点可以预测一个字符，经过NMS算法去除重叠字符，然后根据横向轴位置将字符拼接起来形成车牌号码。

需要说明的是，在模型训练阶段，I为经过预处理后的图片，C1、C2、C3、C4为卷积网络提取的特征图。P1为车牌类别和位置预测图，P1图的一个点可以预测一个车牌。根据标注的车牌框位置在C2、C3、C4中提取车牌特征图，然后经过透视变换获得特征图C5。C5经过卷积层输出预测图P2，P2图的一个点可以预测一个字符。根据设置的损失函数和优化器进行网络参数训练。

在又一个优选实施例中，所述去除所述文字预测图中重叠的文字框，得到预测文字框，具体包括：

具体的，待识别文字图像进行预处理，包括尺寸归一化和像素值标准化后，输入到训练好的文字识别模型，获得文字预测图P1。根据文字预测图P1获取文字框的四个顶点坐标，对于P1的输出图，其尺寸为(w_P1,h_P1,9)，其中有9个通道，每个通道大小为(w_P1,h_P1)。对于P1输出图上的任一个点(m,n)，为1个9维向量，满足m∈[0,w_P1-1],n∈[0,h_P1-1]，其预测值为(t,dx₁,dy₁,dx₂,dy₂,dx₃,dy₃,dx₄,dy₄)。使用局部感知NMS算法去除重合的文字预测框。遍历文字预测图P1，若遇到预测为正的框M，判断当前的正框M与上一个正框N的交并比IOU值是否大于设置的阈值T1，若大于T1，则将M、N进行加权融合，以预测概率作为权重，融合各个顶点坐标。在全图范围进行标准的NMS，保留大于阈值的预测框，得到预测文字框。

在又一个优选实施例中，所述S5，根据所述字符预测图得到所述待识别文字图像的文字序列，具体包括：

S501，判断所述字符预测图中每个字符的字符类别预测值是否大于第二阈值，若是，则置为候选字符；

S502，去除所述文字字符预测图中的重叠字符框；

S503，根据横向轴位置将所述候选字符拼接起来得到所述待识别文字图像的文字序列。

具体的，将预测框的4个顶点变换到特征图C2、C3、C4上，进行透视变换获得特征图C5，然后C5通过卷积层得到字符预测图P2。在字符预测图P2上，若字符类别预测值大于第二阈值，则置为候选字符。然后用NMS进行重叠字符框的过滤，根据P2获得的字符预测框，按照横轴位置排序，获得文字序列。

本实施例以一种常用的文字识别场景车牌识别为例，圆圈W在训练阶段和测试阶段有所不同，在测试阶段表示利用P1获取的车牌位置，其在特征图C2、C3、C4上将车牌区域经过透视变换生成特征图C5，C5的宽、高分别为w_C5、h_C5；在训练阶段表示利用真实车牌位置(即样本车牌数据集中已经标注好的车牌位置)，其在特征图C2、C3、C4上将车牌区域经过透视变换生成特征图C5。本实施例网络结构中的卷积层可引入残差结构、深度可分离卷积、Inception结构等来提高效果，类别损失函数可使用Facal Loss，回归损失可使用L1损失、smooth L1损失等，优化器可使用Adam、SGD、Adadelta等。在对图像进行预处理之前可以使用数据增强来提高泛化能力，包括裁剪、旋转、平移、缩放、添加噪声、模糊、更改亮度、更改对比度等方法。本实施例在预测阶段时，可结合车牌先验信息提高精度。例如，获取车牌字符框后，根据字符框数量及位置可判断是普通车牌、新能源车牌、双行车牌等，接着在固定位置的字符框的可能类别就减少了，比如普通车牌第一个字符为省份，第二个字符为字母，后面的字符为数字或字母。

相应地，本发明还提供一种基于深度学习的文字识别装置，能够实现上述实施例中的基于深度学习的文字识别方法的所有流程。

请参阅图4，图4是本发明提供的一种基于深度学习的文字识别装置的一个优选实施例的结构示意图。所述基于深度学习的文字识别装置，包括：

样本文字数据集获取模块401，用于获取样本文字数据集，并对所述样本文字数据集中的每一个文字图像进行预处理；其中，所述样本文字数据集包括文字坐标、文字中各字符的坐标以及字符类别；

训练标签生成模块402，用于根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签；

文字识别模型训练模块403，用于将所述训练标签输入文字识别模型进行训练，使用卷积层提取图像特征，使用池化层或跨步卷积层进行降采样，文字位置的类别预测后加入sigmoid层将输出概率归一化，字符位置的类别预测后加入softmax层将输出类别概率归一化，经过透视变换生成特征图，将所述特征图通过卷积层生成字符预测图，并使用优化器对所述文字识别模型的损失函数进行优化，得到训练好的文字识别模型；

字符预测图输出模块404，用于将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图；

文字序列输出模块405，用于根据所述字符预测图得到所述待识别文字图像的文字序列。

优选地，所述训练标签生成模块402，具体用于：

优选地，所述文字识别模型的损失函数包括文字类别损失、文字位置回归损失、字符类别损失和字符位置回归损失，其中：

文字类别损失为：

文字位置回归损失为：

字符类别损失为：

字符位置回归损失为：

优选地，所述正例点集表示文字标签为1的点的集合，所述负例点集表示文字标签为0的点的集合。

优选地，所述字符预测图输出模块404，具体用于：

优选地，所述去除所述文字预测图中重叠的文字框，得到预测文字框，具体包括：

优选地，所述文字序列输出模块405，具体用于：

去除所述文字字符预测图中的重叠字符框；

在具体实施当中，本发明实施例提供的基于深度学习的文字识别装置的工作原理、控制流程及实现的技术效果，与上述实施例中的基于深度学习的文字识别方法对应相同，在此不再赘述。

请参阅图5，图5是本发明提供的一种终端设备的一个优选实施例的结构示意图。所述终端设备包括处理器501、存储器502以及存储在所述存储器502中且被配置为由所述处理器501执行的计算机程序，所述处理器501执行所述计算机程序时实现上述任一实施例所述的基于深度学习的文字识别方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、……)，所述一个或者多个模块/单元被存储在所述存储器502中，并由所述处理器501执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器501可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器501也可以是任何常规的处理器，所述处理器501是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器502主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器502可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器502也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图5的结构示意图仅仅是上述终端设备的示例，并不构成对上述终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一实施例所述的基于深度学习的文字识别方法。

本发明实施例提供了一种基于深度学习的文字识别方法、装置、终端设备及存储介质，通过一个全卷积神经网络实现端到端的文字识别，过程简单、运算量小、准确度高。训练阶段文字的预测和字符的预测同时进行训练，能够结合更多的信息，从而获得更好的识别效果，使用位置回归而不是分割的方法，参数量更少。预测四个点坐标可以回归任意四边形，相比回归一个矩形，能更有效地应对文字倾斜的情况。使用透视变换作为文字检测和字符预测的连接桥梁，在训练阶段使用真实框位置来训练字符类别和位置，在测试阶段使用文字位置图推理得出的文字位置进行预测字符类别和位置。在多个分辨率的特征图上选取文字区域特征图进行拼接，结合了更多分辨率的图像特征，使得识别效果更好

需说明的是，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的系统实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于深度学习的文字识别方法，其特征在于，包括：

根据所述字符预测图得到所述待识别文字图像的文字序列。

2.如权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述根据预处理后的文字图像生成文字位置的训练标签和字符位置的训练标签，所述训练标签包括类别标签和位置偏移标签，具体包括：

3.如权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述文字识别模型的损失函数包括文字类别损失、文字位置回归损失、字符类别损失和字符位置回归损失，其中：

文字类别损失为：

文字位置回归损失为：

字符类别损失为：

字符位置回归损失为：

4.如权利要求3所述的基于深度学习的文字识别方法，其特征在于，所述正例点集表示文字标签为1的点的集合，所述负例点集表示文字标签为0的点的集合。

5.如权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述将待识别文字图像进行预处理后输入到训练好的文字识别模型，由所述训练好的文字识别模型输出字符预测图，具体包括：

6.如权利要求5所述的基于深度学习的文字识别方法，其特征在于，所述去除所述文字预测图中重叠的文字框，得到预测文字框，具体包括：

7.如权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述根据所述字符预测图得到所述待识别文字图像的文字序列，具体包括：

去除所述文字字符预测图中的重叠字符框；

8.一种基于深度学习的文字识别装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于深度学习的文字识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于深度学习的文字识别方法。