CN108898138A

CN108898138A - 基于深度学习的场景文本识别方法

Info

Publication number: CN108898138A
Application number: CN201810541773.9A
Authority: CN
Inventors: 王林; 张晓锋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-27

Abstract

本发明公开了一种基于深度学习的场景文本识别方法，具体按照以下步骤实施：对需要进行场景文本识别的图像P进行处理，利用最大稳定极值区域算法MSER进行文本定位，得到候选文本区域S和该文本区域S的外接矩形G，并进行预处理，将经过预处理后的候选文本区域S输入到训练好的卷积深度置信网络模型中进行特征提取，得到特征矩阵A输入到一个线性的支持向量机中，对候选的文本区域S进行验证，进而过滤掉大量的非文本区域，得到文本区域S′，对其中的字符进行分类识别，然后得到最终的输出。解决了现有技术中存在的自然场景中的文本图像背景复杂、分辨率低和分布随意的问题。

Description

基于深度学习的场景文本识别方法

技术领域

本发明属于计算机视觉识别技术领域，尤其涉及一种基于深度学习的自然场景文本识别方法。

背景技术

计算机视觉是人工智能和图像处理领域的一个重要交叉学科。早期的计算机视觉任务的解决方法主要含有两个步骤，一个是手动设计特征，另一个是构建一个浅层学习系统。随着人工智能的发展，深度学习于2006年正式提出。深度学习起源于多层人工神经网络，目前已成功应用于计算机视觉、自然语言处理和智能搜索等领域。当前已有的深度学习网络包括卷积神经网络、深度置信网和卷积深度置信网络等。卷积深度置信网络因结合了深度置信网络在图像高阶特征方面具有的良好性能和卷积神经网络对图像的位移、缩放及其他旋转等变化具有很好的适应性，已广泛应用于图像分类、语音识别和人脸识别等领域。

文本识别技术在虚拟现实、人机交互、图像检索、无人驾驶、车牌识别、工业自动化等领域中有着广泛的应用。传统光字符检测技术(OCR)主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很高的识别水平。与文档文本识别不同，自然场景中的文本识别则面临着图像背景复杂、分辨率底下、字体多样以及分布随意等挑战，传统光学识别技术在此类情况下几乎无法被应用。

发明内容

本发明的目的是提供一种基于深度学习的场景文本识别方法，解决了现有技术中存在的自然场景中的文本图像背景复杂、分辨率低和分布随意的问题。

本发明所采用的技术方案是，一种基于深度学习的场景文本识别方法，具体按照以下步骤实施：

步骤1，对需要进行场景文本识别的图像P进行处理，利用最大稳定极值区域算法MSER进行文本定位，得到候选文本区域S和该文本区域S的外接矩形G，

步骤2，将步骤1处理得到的定位出的文本区域集合S进行预处理，

步骤3，对卷积深度置信网络进行训练，

步骤4，将经过步骤2预处理后的候选文本区域S输入到步骤3中得到的训练好的卷积深度置信网络模型中进行特征提取，从候选文本区域S中进行学习更多特征矩阵A，

步骤5，将步骤4中学习到的特征矩阵A输入到一个线性的支持向量机中，对候选的文本区域S进行验证，进而过滤掉大量的非文本区域，得到文本区域S′，

步骤6，对步骤5中得到文本区域S′中的字符进行分类识别，

步骤7，将步骤6.2中分类器输出的字符以及每个字符的出现的概率p，根据现有词典库、上下文、字符排布和每个字符最可能出现的概率p等信息对识别结果进行过滤和排序候选结果，得分最高的候选结果被作为最终的输出。

本发明的特点还在于，

所述的步骤1具体按照以下步骤实施：

步骤1.1，利用实验效果最好的Canny算子作为边缘增强的方法，经过边缘增强的最大稳定极值区域能分割因模糊而相连的字符像素和分离字符连通区域中的孔洞，即可得到边缘增强处理的候选文本MSER区域图像Q。

步骤1.2，对候选文本MSER区域图像Q，通过距离经过基于距离变换的改进笔画宽度变换法处理，可以得到各个候选文本MSER区域的笔画宽度映射图W。

步骤1.3，利用开操作和闭操作将笔画宽度映射图W中各个候选文本MSER区域进行组合成连通区域，然后得到候选文本区域集合S和候选文本区域的外接矩形集合G。

所述的步骤2具体按照以下步骤实施：

步骤2.1，进行文本区域的裁剪分割，对最大稳定极值区域MSER提取的文本区域S进行裁剪分割，过滤掉一些很长很细的MSER区域，并得到标准图像块集合I，

步骤2.2，利用开源标定软件LabelImg对步骤2.1.4中得到标准图像块集合I中的每个图像块的文本区域添加Ground truth矩形框标签。

所述的步骤2.1具体按照以下步骤实施：

步骤2.1.1，通过对文本区域集合S进行连通分析，将得到文本区域集合S中的所有外接矩形G中，外接矩形的高度a与宽度b之比大于10或者小于0.1的文本区域S去除，得到高度a与宽度b之比在0.1到10这个范围的外接矩形G′。

步骤2.1.2，根据先验知识对于任意两个符合长宽之比的外接矩形G_i′、G_j′的文本区域S_i、S_j进行分析的，文本区域S_i、S_j的外接矩形G_i′、G_j′相交的面积与外接矩形G_i′、G_j′相并的面积的比大于0.5时，则去掉文本区域S_i，得到文本区域S_j。

步骤2.1.3，外接矩形G′的宽度b′与高度a′之比大于1.5时，按照高度a′的长来重新划分宽度b′，得到宽度b′和高度a′比小于等于1.5的外接矩形G″，

步骤2.1.4，将外接矩形G″对应的文本区域，裁剪分割成多个像素值为28×28的图像块I，这些分割后的图像块I构成标准图像块集合I。

所述的步骤3中采用的卷积深度置信网络为两层的卷积深度置信网络，其模型输入层即可见层设置为28×28×3，第一隐含层中含有156个参数，第二隐含层中含有800个参数，池化层的尺寸大小均为2×2。使用sigmoid函数作为卷积深度置信网络的激活函数，利用Dropout技术对隐含层以50％的概率进行随机丢取。

所述的步骤3采用了对比散度算法对权重w与隐含层到可见层单元的共享偏置c进行更新，具体步骤如下所述：

步骤3.1，输入整理好的场景文本数据集的二维图像矩阵V₍₀₎，学习速率η，初始化第k个卷积核的权重w^k，第k个可见层到隐含层单元的偏置b_k，隐含层到可见层单元的共享偏置c的值分别为零，可见层单元v设置为训练数据集的样本值，其中k＝1，2，…，K。

步骤3.2，将输入数据赋值给可见层单元，对可见层输入二维图像矩阵V₍₀₎正向传播，根据公式(1)求出隐含层激活概率输入二维图矩阵V₍₀₎和隐含层H的激活概率对应节点乘积的矩阵便得到前向传播的概率，并采样得隐含层单元

其中，表示第k个隐含层中第i行第j个单元，v是可见层单元。

步骤3.3，此时步骤3.2中输出的为隐含层H的概率值，将它随机二值化为二值化变量。

步骤3.4，利用步骤3.3中二值化了的H的概率值按反向传播，并根据公式(2)求出的可见层的矩阵V的激活概率经采样得可见层单元V⁽¹⁾；

其中，v_st表示可见层中第s行第t个单元，h^k表示第k个隐含层单元，“*”表示卷积操作符。同理，根据公式(2)求出重构的隐含层激活概率

步骤3.5，每次迭代中，权重w^k的更新和偏置b_k，c的更新都是同时进行的，所以应该是同时收敛的。结合其对应的学习率η，根据公式(3)到(5)，更新权值和偏置：c

b_k＝b_k+η(V⁽⁰⁾-V⁽¹⁾) (4)

得到相应的权重和偏置，保持其权重不变。

步骤3.6，重复计算步骤3.2到3.6，直到达到最大迭代次数1500次时，便完成了卷积深度置信网络的训练。

所述的步骤5中的线性的支持向量机模型的函数为：

约束函数：

其中，N是样本数，R是支持向量机的输出可调参数向量的数，(x_i,y_i)是步骤4中学习到的特征矩阵A中的特征向量，线性核函数Z(x,x_i)＝x·x_i，ω为权向量，d为阈值。

所述的步骤6具体按照以下步骤实施：

步骤6.1，将步骤5中提取出来的文本区域S′输入到步骤3中训练好的卷积深度置信网络中进行特征提取，即把除字符之外的背景信息忽略只提取其中的字符信息，得到特征矩阵B，

步骤6.2，将步骤6.1中提出来的特征矩阵B输入到字符分类器Softmax中，得到的输出值l_θ为某一个字符被识别为第r类字符的概率p。该分类器Softmax模型的函数为：

其中，θ₁,θ₂,...,θ_r是模型的参数，α_z是步骤6.1中提出来的特征矩阵B中的特征向量，β_z是步骤6.1中提出来的特征的所属类的编号，r是表示字符的类别值，p(β_z＝r|α_z)是指特征向量α_z被识别为第r类字符的概率，所有的概率的和为1。对于特征向量α_z，选择其最大概率取值对应的类别的r值作为当前的字符分类结果，并且与字符的真实分类作比较，如果一致，则分类识别正确，否则识别错误。

本发明的有益效果是，本发明首先利用MSER算法对文本区域进行定位；接着对候选的文本MSER区域进行预处理，并将处理后的结果输入到CDBN检测网络结构中进行特征提取，再将提取到的特征作为SVM分类器的输入，对候选的MSER文本区域进行验证，进而过滤掉大量的不含文本的区域；其次用CDBN识别网络结构对提取出来的文本区域进行特征提取；然后将提取出来的特征作为字符分类识别器Softmax的输入，输出对应的字符或单词；最后根据现有词库、上下文以及字符排布的约束得出最优的最终识别结果。与现有技术相比，这种方法能够解决图像背景复杂、分辨率低和文本随意的问题，通过用最大值池化特征表示，能够使得高层特征描述对输入的微小变化具有良好的不变性，同时能够减少计算复杂度。为图像文本识别系统提供更多有效的区分性的特征以及建立文本描述与图像转换的纽带。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于深度学习的场景文本识别方法，如图1所示，具体按照以下步骤实施：

步骤1，对需要进行场景文本识别的图像P进行处理，利用最大稳定极值区域算法MSER(Maximally Stable Extremal Regions，MSERs)进行文本定位，得到候选文本区域S和该文本区域S的外接矩形G，具体步骤为：

步骤2，将步骤1处理得到的定位出的文本区域集合S进行预处理，具体步骤为，

步骤3，卷积深度置信网络的训练，

利用已经整理好的场景文本数据集作为训练样本集对卷积深度置信网络进行训练，

本发明采用的是一个两层的卷积深度置信网络，其模型输入层即可见层设置为28×28×3，第一隐含层中含有156个参数，第二隐含层中含有800个参数，池化层的尺寸大小均为2×2。使用sigmoid函数作为卷积深度置信网络的激活函数，利用Dropout技术对隐含层以50％的概率进行随机丢取。其他的训练模型参数如表1所示。

表1 卷积深度置信网络每一层训练参数

对卷积深度置信网络中进行训练，采用了对比散度算法对权重w与隐含层到可见层单元的共享偏置c进行更新，具体步骤如下所述：

步骤3.2，将输入数据赋值给可见层单元，对可见层输入二维图像矩阵V₍₀₎正向传播，根据公式(1)求出隐含层激活概率输入二维图像矩阵V₍₀₎和隐含层H的激活概率对应节点乘积的矩阵便得到前向传播的概率，并采样得隐含层单元

其中，表示第k个隐含层中第i行第j个单元，v是可见层单元。

步骤3.5，每次迭代中，权重w^k的更新和偏置b_k，c的更新都是同时进行的，所以应该是同时收敛的。结合其对应的学习率η，根据公式(3)到(5)，更新权值和偏置:

b_k＝b_k+η(V⁽⁰⁾-V⁽¹⁾) (4)

得到相应的权重和偏置，保持其权重不变。

步骤4，将经过步骤2预处理后的候选文本区域S输入到步骤3中得到的训练好的卷积深度置信网络模型中进行特征提取，从候选文本区域S中进行学习更多特征矩阵A。

步骤5，将步骤4中学习到的特征矩阵A输入到一个线性的支持向量机中，对候选的文本区域S进行验证，进而过滤掉大量的非文本区域，得到文本区域S′。该线性的支持向量机模型的函数为：

约束函数：

步骤6，对步骤5中得到文本区域S′中的字符进行分类识别，

步骤6.1，将步骤5中提取出来的文本区域S′输入到步骤3中训练好的卷积深度置信网络中进行特征提取，即把除字符之外的背景信息忽略只提取其中的字符信息，得到特征矩阵B

为了验证本文发明方法在自然场景图像中文本识别方法的有效性，本文选用CNN、MSER-CNN和DBN的方法与本文识别方法在ICDAR2011和SVT数据集上进行实验，通过比较识别准确率进而分析讨论本文发明方法相对于其他方法的优势，实验对比结果如表2所示。

表2 ICDAR 2011和SVT数据集上文本识别实验对比结果.

实验结果表明：本文方法相对与其他算法识别准确率有了提高，在ICDAR2011数据集上识别准确率比CNN的提高了将近8.05％，在SVT数据集上识别准确率比MSER-CNN提高了约0.27％。在ICDAR2011数据集上的识别准确率要比SVT数据集上高，效果较理想，主要是因为SVT数据集比ICDAR2011数据集中的图像背景复杂，分辨率低，光照不均匀以及更多的字体变化的情况，而且标注不完整，因此SVT数据集上的识别准确率不是很理想。

Claims

1.一种基于深度学习的场景文本识别方法，其特征在于，具体按照以下步骤实施：

步骤3，对卷积深度置信网络进行训练，

步骤6，对步骤5中得到文本区域S′中的字符进行分类识别，

2.根据权利要求1所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤1具体按照以下步骤实施：

步骤1.1，利用实验效果最好的Canny算子作为边缘增强的方法，经过边缘增强的最大稳定极值区域能分割因模糊而相连的字符像素和分离字符连通区域中的孔洞，即可得到边缘增强处理的候选文本MSER区域图像Q，

步骤1.2，对候选文本MSER区域图像Q，通过距离经过基于距离变换的改进笔画宽度变换法处理，可以得到各个候选文本MSER区域的笔画宽度映射图W，

3.根据权利要求1所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤2具体按照以下步骤实施：

4.根据权利要求3所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤2.1具体按照以下步骤实施：

步骤2.1.1，通过对文本区域集合S进行连通分析，将得到文本区域集合S中的所有外接矩形G中，外接矩形的高度a与宽度b之比大于10或者小于0.1的文本区域S去除，得到高度a与宽度b之比在0.1到10这个范围的外接矩形G′，

步骤2.1.2，根据先验知识对于任意两个符合长宽之比的外接矩形G_i′、G_j′的文本区域S_i、S_j进行分析的，文本区域S_i、S_j的外接矩形G_i′、G_j′相交的面积与外接矩形G_i′、G_j′相并的面积的比大于0.5时，则去掉文本区域S_i，得到文本区域S_j，

5.根据权利要求1所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤3中采用的卷积深度置信网络为两层的卷积深度置信网络，其模型输入层即可见层设置为28×28×3，第一隐含层中含有156个参数，第二隐含层中含有800个参数，池化层的尺寸大小均为2×2，使用sigmoid函数作为卷积深度置信网络的激活函数，利用Dropout技术对隐含层以50％的概率进行随机丢取。

6.根据权利要求1所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤3采用了对比散度算法对权重w与隐含层到可见层单元的共享偏置c进行更新，具体步骤如下所述：

步骤3.1，输入整理好的场景文本数据集的二维图像矩阵V₍₀₎，学习速率η，初始化第k个卷积核的权重w^k，第k个可见层到隐含层单元的偏置b_k，隐含层到可见层单元的共享偏置c的值分别为零，可见层单元v设置为训练数据集的样本值，其中k＝1，2，…，K，

其中，表示第k个隐含层中第i行第j个单元，v是可见层单元，

步骤3.3，此时步骤3.2中输出的为隐含层H的概率值，将它随机二值化为二值化变量，

其中，v_st表示可见层中第s行第t个单元，h^k表示第k个隐含层单元，“*”表示卷积操作符，同理，根据公式(2)求出重构的隐含层激活概率

步骤3.5，每次迭代中，权重w^k的更新和偏置b_k，c的更新都是同时进行的，所以应该是同时收敛的，结合其对应的学习率η，根据公式(3)到(5)，更新权值和偏置：c

b_k＝b_k+η(V⁽⁰⁾-V⁽¹⁾) (4)

得到相应的权重和偏置，保持其权重不变，

7.根据权利要求1所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤5中的线性的支持向量机模型的函数为：

约束函数：

8.根据权利要求1所述的基于深度学习的场景文本识别方法，其特征在于，所述的步骤6具体按照以下步骤实施：

步骤6.2，将步骤6.1中提出来的特征矩阵B输入到字符分类器Softmax中，得到的输出值l_θ为某一个字符被识别为第r类字符的概率p，该分类器Softmax模型的函数为：

其中，θ₁,θ₂,...,θ_r是模型的参数，α_z是步骤6.1中提出来的特征矩阵B中的特征向量，β_z是步骤6.1中提出来的特征的所属类的编号，r是表示字符的类别值，p(β_z＝r|α_z)是指特征向量α_z被识别为第r类字符的概率，所有的概率的和为1，对于特征向量α_z，选择其最大概率取值对应的类别的r值作为当前的字符分类结果，并且与字符的真实分类作比较，如果一致，则分类识别正确，否则识别错误。