CN108898138A - 基于深度学习的场景文本识别方法 - Google Patents
基于深度学习的场景文本识别方法 Download PDFInfo
- Publication number
- CN108898138A CN108898138A CN201810541773.9A CN201810541773A CN108898138A CN 108898138 A CN108898138 A CN 108898138A CN 201810541773 A CN201810541773 A CN 201810541773A CN 108898138 A CN108898138 A CN 108898138A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- text filed
- probability
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于深度学习的场景文本识别方法,具体按照以下步骤实施:对需要进行场景文本识别的图像P进行处理,利用最大稳定极值区域算法MSER进行文本定位,得到候选文本区域S和该文本区域S的外接矩形G,并进行预处理,将经过预处理后的候选文本区域S输入到训练好的卷积深度置信网络模型中进行特征提取,得到特征矩阵A输入到一个线性的支持向量机中,对候选的文本区域S进行验证,进而过滤掉大量的非文本区域,得到文本区域S′,对其中的字符进行分类识别,然后得到最终的输出。解决了现有技术中存在的自然场景中的文本图像背景复杂、分辨率低和分布随意的问题。
Description
技术领域
本发明属于计算机视觉识别技术领域,尤其涉及一种基于深度学习的自然场景文本识别方法。
背景技术
计算机视觉是人工智能和图像处理领域的一个重要交叉学科。早期的计算机视觉任务的解决方法主要含有两个步骤,一个是手动设计特征,另一个是构建一个浅层学习系统。随着人工智能的发展,深度学习于2006年正式提出。深度学习起源于多层人工神经网络,目前已成功应用于计算机视觉、自然语言处理和智能搜索等领域。当前已有的深度学习网络包括卷积神经网络、深度置信网和卷积深度置信网络等。卷积深度置信网络因结合了深度置信网络在图像高阶特征方面具有的良好性能和卷积神经网络对图像的位移、缩放及其他旋转等变化具有很好的适应性,已广泛应用于图像分类、语音识别和人脸识别等领域。
文本识别技术在虚拟现实、人机交互、图像检索、无人驾驶、车牌识别、工业自动化等领域中有着广泛的应用。传统光字符检测技术(OCR)主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。与文档文本识别不同,自然场景中的文本识别则面临着图像背景复杂、分辨率底下、字体多样以及分布随意等挑战,传统光学识别技术在此类情况下几乎无法被应用。
发明内容
本发明的目的是提供一种基于深度学习的场景文本识别方法,解决了现有技术中存在的自然场景中的文本图像背景复杂、分辨率低和分布随意的问题。
本发明所采用的技术方案是,一种基于深度学习的场景文本识别方法,具体按照以下步骤实施:
步骤1,对需要进行场景文本识别的图像P进行处理,利用最大稳定极值区域算法MSER进行文本定位,得到候选文本区域S和该文本区域S的外接矩形G,
步骤2,将步骤1处理得到的定位出的文本区域集合S进行预处理,
步骤3,对卷积深度置信网络进行训练,
步骤4,将经过步骤2预处理后的候选文本区域S输入到步骤3中得到的训练好的卷积深度置信网络模型中进行特征提取,从候选文本区域S中进行学习更多特征矩阵A,
步骤5,将步骤4中学习到的特征矩阵A输入到一个线性的支持向量机中,对候选的文本区域S进行验证,进而过滤掉大量的非文本区域,得到文本区域S′,
步骤6,对步骤5中得到文本区域S′中的字符进行分类识别,
步骤7,将步骤6.2中分类器输出的字符以及每个字符的出现的概率p,根据现有词典库、上下文、字符排布和每个字符最可能出现的概率p等信息对识别结果进行过滤和排序候选结果,得分最高的候选结果被作为最终的输出。
本发明的特点还在于,
所述的步骤1具体按照以下步骤实施:
步骤1.1,利用实验效果最好的Canny算子作为边缘增强的方法,经过边缘增强的最大稳定极值区域能分割因模糊而相连的字符像素和分离字符连通区域中的孔洞,即可得到边缘增强处理的候选文本MSER区域图像Q。
步骤1.2,对候选文本MSER区域图像Q,通过距离经过基于距离变换的改进笔画宽度变换法处理,可以得到各个候选文本MSER区域的笔画宽度映射图W。
步骤1.3,利用开操作和闭操作将笔画宽度映射图W中各个候选文本MSER区域进行组合成连通区域,然后得到候选文本区域集合S和候选文本区域的外接矩形集合G。
所述的步骤2具体按照以下步骤实施:
步骤2.1,进行文本区域的裁剪分割,对最大稳定极值区域MSER提取的文本区域S进行裁剪分割,过滤掉一些很长很细的MSER区域,并得到标准图像块集合I,
步骤2.2,利用开源标定软件LabelImg对步骤2.1.4中得到标准图像块集合I中的每个图像块的文本区域添加Ground truth矩形框标签。
所述的步骤2.1具体按照以下步骤实施:
步骤2.1.1,通过对文本区域集合S进行连通分析,将得到文本区域集合S中的所有外接矩形G中,外接矩形的高度a与宽度b之比大于10或者小于0.1的文本区域S去除,得到高度a与宽度b之比在0.1到10这个范围的外接矩形G′。
步骤2.1.2,根据先验知识对于任意两个符合长宽之比的外接矩形Gi′、Gj′的文本区域Si、Sj进行分析的,文本区域Si、Sj的外接矩形Gi′、Gj′相交的面积与外接矩形Gi′、Gj′相并的面积的比大于0.5时,则去掉文本区域Si,得到文本区域Sj。
步骤2.1.3,外接矩形G′的宽度b′与高度a′之比大于1.5时,按照高度a′的长来重新划分宽度b′,得到宽度b′和高度a′比小于等于1.5的外接矩形G″,
步骤2.1.4,将外接矩形G″对应的文本区域,裁剪分割成多个像素值为28×28的图像块I,这些分割后的图像块I构成标准图像块集合I。
所述的步骤3中采用的卷积深度置信网络为两层的卷积深度置信网络,其模型输入层即可见层设置为28×28×3,第一隐含层中含有156个参数,第二隐含层中含有800个参数,池化层的尺寸大小均为2×2。使用sigmoid函数作为卷积深度置信网络的激活函数,利用Dropout技术对隐含层以50%的概率进行随机丢取。
所述的步骤3采用了对比散度算法对权重w与隐含层到可见层单元的共享偏置c进行更新,具体步骤如下所述:
步骤3.1,输入整理好的场景文本数据集的二维图像矩阵V(0),学习速率η,初始化第k个卷积核的权重wk,第k个可见层到隐含层单元的偏置bk,隐含层到可见层单元的共享偏置c的值分别为零,可见层单元v设置为训练数据集的样本值,其中k=1,2,…,K。
步骤3.2,将输入数据赋值给可见层单元,对可见层输入二维图像矩阵V(0)正向传播,根据公式(1)求出隐含层激活概率输入二维图矩阵V(0)和隐含层H的激活概率对应节点乘积的矩阵便得到前向传播的概率,并采样得隐含层单元
其中,表示第k个隐含层中第i行第j个单元,v是可见层单元。
步骤3.3,此时步骤3.2中输出的为隐含层H的概率值,将它随机二值化为二值化变量。
步骤3.4,利用步骤3.3中二值化了的H的概率值按反向传播,并根据公式(2)求出的可见层的矩阵V的激活概率经采样得可见层单元V(1);
其中,vst表示可见层中第s行第t个单元,hk表示第k个隐含层单元,“*”表示卷积操作符。同理,根据公式(2)求出重构的隐含层激活概率
步骤3.5,每次迭代中,权重wk的更新和偏置bk,c的更新都是同时进行的,所以应该是同时收敛的。结合其对应的学习率η,根据公式(3)到(5),更新权值和偏置:c
bk=bk+η(V(0)-V(1)) (4)
得到相应的权重和偏置,保持其权重不变。
步骤3.6,重复计算步骤3.2到3.6,直到达到最大迭代次数1500次时,便完成了卷积深度置信网络的训练。
所述的步骤5中的线性的支持向量机模型的函数为:
约束函数:
其中,N是样本数,R是支持向量机的输出可调参数向量的数,(xi,yi)是步骤4中学习到的特征矩阵A中的特征向量,线性核函数Z(x,xi)=x·xi,ω为权向量,d为阈值。
所述的步骤6具体按照以下步骤实施:
步骤6.1,将步骤5中提取出来的文本区域S′输入到步骤3中训练好的卷积深度置信网络中进行特征提取,即把除字符之外的背景信息忽略只提取其中的字符信息,得到特征矩阵B,
步骤6.2,将步骤6.1中提出来的特征矩阵B输入到字符分类器Softmax中,得到的输出值lθ为某一个字符被识别为第r类字符的概率p。该分类器Softmax模型的函数为:
其中,θ1,θ2,...,θr是模型的参数,αz是步骤6.1中提出来的特征矩阵B中的特征向量,βz是步骤6.1中提出来的特征的所属类的编号,r是表示字符的类别值,p(βz=r|αz)是指特征向量αz被识别为第r类字符的概率,所有的概率的和为1。对于特征向量αz,选择其最大概率取值对应的类别的r值作为当前的字符分类结果,并且与字符的真实分类作比较,如果一致,则分类识别正确,否则识别错误。
本发明的有益效果是,本发明首先利用MSER算法对文本区域进行定位;接着对候选的文本MSER区域进行预处理,并将处理后的结果输入到CDBN检测网络结构中进行特征提取,再将提取到的特征作为SVM分类器的输入,对候选的MSER文本区域进行验证,进而过滤掉大量的不含文本的区域;其次用CDBN识别网络结构对提取出来的文本区域进行特征提取;然后将提取出来的特征作为字符分类识别器Softmax的输入,输出对应的字符或单词;最后根据现有词库、上下文以及字符排布的约束得出最优的最终识别结果。与现有技术相比,这种方法能够解决图像背景复杂、分辨率低和文本随意的问题,通过用最大值池化特征表示,能够使得高层特征描述对输入的微小变化具有良好的不变性,同时能够减少计算复杂度。为图像文本识别系统提供更多有效的区分性的特征以及建立文本描述与图像转换的纽带。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于深度学习的场景文本识别方法,如图1所示,具体按照以下步骤实施:
步骤1,对需要进行场景文本识别的图像P进行处理,利用最大稳定极值区域算法MSER(Maximally Stable Extremal Regions,MSERs)进行文本定位,得到候选文本区域S和该文本区域S的外接矩形G,具体步骤为:
步骤1.1,利用实验效果最好的Canny算子作为边缘增强的方法,经过边缘增强的最大稳定极值区域能分割因模糊而相连的字符像素和分离字符连通区域中的孔洞,即可得到边缘增强处理的候选文本MSER区域图像Q。
步骤1.2,对候选文本MSER区域图像Q,通过距离经过基于距离变换的改进笔画宽度变换法处理,可以得到各个候选文本MSER区域的笔画宽度映射图W。
步骤1.3,利用开操作和闭操作将笔画宽度映射图W中各个候选文本MSER区域进行组合成连通区域,然后得到候选文本区域集合S和候选文本区域的外接矩形集合G。
步骤2,将步骤1处理得到的定位出的文本区域集合S进行预处理,具体步骤为,
步骤2.1,进行文本区域的裁剪分割,对最大稳定极值区域MSER提取的文本区域S进行裁剪分割,过滤掉一些很长很细的MSER区域,并得到标准图像块集合I,
步骤2.1.1,通过对文本区域集合S进行连通分析,将得到文本区域集合S中的所有外接矩形G中,外接矩形的高度a与宽度b之比大于10或者小于0.1的文本区域S去除,得到高度a与宽度b之比在0.1到10这个范围的外接矩形G′。
步骤2.1.2,根据先验知识对于任意两个符合长宽之比的外接矩形Gi′、Gj′的文本区域Si、Sj进行分析的,文本区域Si、Sj的外接矩形Gi′、Gj′相交的面积与外接矩形Gi′、Gj′相并的面积的比大于0.5时,则去掉文本区域Si,得到文本区域Sj。
步骤2.1.3,外接矩形G′的宽度b′与高度a′之比大于1.5时,按照高度a′的长来重新划分宽度b′,得到宽度b′和高度a′比小于等于1.5的外接矩形G″,
步骤2.1.4,将外接矩形G″对应的文本区域,裁剪分割成多个像素值为28×28的图像块I,这些分割后的图像块I构成标准图像块集合I。
步骤2.2,利用开源标定软件LabelImg对步骤2.1.4中得到标准图像块集合I中的每个图像块的文本区域添加Ground truth矩形框标签。
步骤3,卷积深度置信网络的训练,
利用已经整理好的场景文本数据集作为训练样本集对卷积深度置信网络进行训练,
本发明采用的是一个两层的卷积深度置信网络,其模型输入层即可见层设置为28×28×3,第一隐含层中含有156个参数,第二隐含层中含有800个参数,池化层的尺寸大小均为2×2。使用sigmoid函数作为卷积深度置信网络的激活函数,利用Dropout技术对隐含层以50%的概率进行随机丢取。其他的训练模型参数如表1所示。
表1 卷积深度置信网络每一层训练参数
对卷积深度置信网络中进行训练,采用了对比散度算法对权重w与隐含层到可见层单元的共享偏置c进行更新,具体步骤如下所述:
步骤3.1,输入整理好的场景文本数据集的二维图像矩阵V(0),学习速率η,初始化第k个卷积核的权重wk,第k个可见层到隐含层单元的偏置bk,隐含层到可见层单元的共享偏置c的值分别为零,可见层单元v设置为训练数据集的样本值,其中k=1,2,…,K。
步骤3.2,将输入数据赋值给可见层单元,对可见层输入二维图像矩阵V(0)正向传播,根据公式(1)求出隐含层激活概率输入二维图像矩阵V(0)和隐含层H的激活概率对应节点乘积的矩阵便得到前向传播的概率,并采样得隐含层单元
其中,表示第k个隐含层中第i行第j个单元,v是可见层单元。
步骤3.3,此时步骤3.2中输出的为隐含层H的概率值,将它随机二值化为二值化变量。
步骤3.4,利用步骤3.3中二值化了的H的概率值按反向传播,并根据公式(2)求出的可见层的矩阵V的激活概率经采样得可见层单元V(1);
其中,vst表示可见层中第s行第t个单元,hk表示第k个隐含层单元,“*”表示卷积操作符。同理,根据公式(2)求出重构的隐含层激活概率
步骤3.5,每次迭代中,权重wk的更新和偏置bk,c的更新都是同时进行的,所以应该是同时收敛的。结合其对应的学习率η,根据公式(3)到(5),更新权值和偏置:
bk=bk+η(V(0)-V(1)) (4)
得到相应的权重和偏置,保持其权重不变。
步骤3.6,重复计算步骤3.2到3.6,直到达到最大迭代次数1500次时,便完成了卷积深度置信网络的训练。
步骤4,将经过步骤2预处理后的候选文本区域S输入到步骤3中得到的训练好的卷积深度置信网络模型中进行特征提取,从候选文本区域S中进行学习更多特征矩阵A。
步骤5,将步骤4中学习到的特征矩阵A输入到一个线性的支持向量机中,对候选的文本区域S进行验证,进而过滤掉大量的非文本区域,得到文本区域S′。该线性的支持向量机模型的函数为:
约束函数:
其中,N是样本数,R是支持向量机的输出可调参数向量的数,(xi,yi)是步骤4中学习到的特征矩阵A中的特征向量,线性核函数Z(x,xi)=x·xi,ω为权向量,d为阈值。
步骤6,对步骤5中得到文本区域S′中的字符进行分类识别,
步骤6.1,将步骤5中提取出来的文本区域S′输入到步骤3中训练好的卷积深度置信网络中进行特征提取,即把除字符之外的背景信息忽略只提取其中的字符信息,得到特征矩阵B
步骤6.2,将步骤6.1中提出来的特征矩阵B输入到字符分类器Softmax中,得到的输出值lθ为某一个字符被识别为第r类字符的概率p。该分类器Softmax模型的函数为:
其中,θ1,θ2,...,θr是模型的参数,αz是步骤6.1中提出来的特征矩阵B中的特征向量,βz是步骤6.1中提出来的特征的所属类的编号,r是表示字符的类别值,p(βz=r|αz)是指特征向量αz被识别为第r类字符的概率,所有的概率的和为1。对于特征向量αz,选择其最大概率取值对应的类别的r值作为当前的字符分类结果,并且与字符的真实分类作比较,如果一致,则分类识别正确,否则识别错误。
步骤7,将步骤6.2中分类器输出的字符以及每个字符的出现的概率p,根据现有词典库、上下文、字符排布和每个字符最可能出现的概率p等信息对识别结果进行过滤和排序候选结果,得分最高的候选结果被作为最终的输出。
为了验证本文发明方法在自然场景图像中文本识别方法的有效性,本文选用CNN、MSER-CNN和DBN的方法与本文识别方法在ICDAR2011和SVT数据集上进行实验,通过比较识别准确率进而分析讨论本文发明方法相对于其他方法的优势,实验对比结果如表2所示。
表2 ICDAR 2011和SVT数据集上文本识别实验对比结果.
实验结果表明:本文方法相对与其他算法识别准确率有了提高,在ICDAR2011数据集上识别准确率比CNN的提高了将近8.05%,在SVT数据集上识别准确率比MSER-CNN提高了约0.27%。在ICDAR2011数据集上的识别准确率要比SVT数据集上高,效果较理想,主要是因为SVT数据集比ICDAR2011数据集中的图像背景复杂,分辨率低,光照不均匀以及更多的字体变化的情况,而且标注不完整,因此SVT数据集上的识别准确率不是很理想。
Claims (8)
1.一种基于深度学习的场景文本识别方法,其特征在于,具体按照以下步骤实施:
步骤1,对需要进行场景文本识别的图像P进行处理,利用最大稳定极值区域算法MSER进行文本定位,得到候选文本区域S和该文本区域S的外接矩形G,
步骤2,将步骤1处理得到的定位出的文本区域集合S进行预处理,
步骤3,对卷积深度置信网络进行训练,
步骤4,将经过步骤2预处理后的候选文本区域S输入到步骤3中得到的训练好的卷积深度置信网络模型中进行特征提取,从候选文本区域S中进行学习更多特征矩阵A,
步骤5,将步骤4中学习到的特征矩阵A输入到一个线性的支持向量机中,对候选的文本区域S进行验证,进而过滤掉大量的非文本区域,得到文本区域S′,
步骤6,对步骤5中得到文本区域S′中的字符进行分类识别,
步骤7,将步骤6.2中分类器输出的字符以及每个字符的出现的概率p,根据现有词典库、上下文、字符排布和每个字符最可能出现的概率p等信息对识别结果进行过滤和排序候选结果,得分最高的候选结果被作为最终的输出。
2.根据权利要求1所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤1具体按照以下步骤实施:
步骤1.1,利用实验效果最好的Canny算子作为边缘增强的方法,经过边缘增强的最大稳定极值区域能分割因模糊而相连的字符像素和分离字符连通区域中的孔洞,即可得到边缘增强处理的候选文本MSER区域图像Q,
步骤1.2,对候选文本MSER区域图像Q,通过距离经过基于距离变换的改进笔画宽度变换法处理,可以得到各个候选文本MSER区域的笔画宽度映射图W,
步骤1.3,利用开操作和闭操作将笔画宽度映射图W中各个候选文本MSER区域进行组合成连通区域,然后得到候选文本区域集合S和候选文本区域的外接矩形集合G。
3.根据权利要求1所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤2具体按照以下步骤实施:
步骤2.1,进行文本区域的裁剪分割,对最大稳定极值区域MSER提取的文本区域S进行裁剪分割,过滤掉一些很长很细的MSER区域,并得到标准图像块集合I,
步骤2.2,利用开源标定软件LabelImg对步骤2.1.4中得到标准图像块集合I中的每个图像块的文本区域添加Ground truth矩形框标签。
4.根据权利要求3所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤2.1具体按照以下步骤实施:
步骤2.1.1,通过对文本区域集合S进行连通分析,将得到文本区域集合S中的所有外接矩形G中,外接矩形的高度a与宽度b之比大于10或者小于0.1的文本区域S去除,得到高度a与宽度b之比在0.1到10这个范围的外接矩形G′,
步骤2.1.2,根据先验知识对于任意两个符合长宽之比的外接矩形Gi′、Gj′的文本区域Si、Sj进行分析的,文本区域Si、Sj的外接矩形Gi′、Gj′相交的面积与外接矩形Gi′、Gj′相并的面积的比大于0.5时,则去掉文本区域Si,得到文本区域Sj,
步骤2.1.3,外接矩形G′的宽度b′与高度a′之比大于1.5时,按照高度a′的长来重新划分宽度b′,得到宽度b′和高度a′比小于等于1.5的外接矩形G″,
步骤2.1.4,将外接矩形G″对应的文本区域,裁剪分割成多个像素值为28×28的图像块I,这些分割后的图像块I构成标准图像块集合I。
5.根据权利要求1所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤3中采用的卷积深度置信网络为两层的卷积深度置信网络,其模型输入层即可见层设置为28×28×3,第一隐含层中含有156个参数,第二隐含层中含有800个参数,池化层的尺寸大小均为2×2,使用sigmoid函数作为卷积深度置信网络的激活函数,利用Dropout技术对隐含层以50%的概率进行随机丢取。
6.根据权利要求1所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤3采用了对比散度算法对权重w与隐含层到可见层单元的共享偏置c进行更新,具体步骤如下所述:
步骤3.1,输入整理好的场景文本数据集的二维图像矩阵V(0),学习速率η,初始化第k个卷积核的权重wk,第k个可见层到隐含层单元的偏置bk,隐含层到可见层单元的共享偏置c的值分别为零,可见层单元v设置为训练数据集的样本值,其中k=1,2,…,K,
步骤3.2,将输入数据赋值给可见层单元,对可见层输入二维图像矩阵V(0)正向传播,根据公式(1)求出隐含层激活概率输入二维图像矩阵V(0)和隐含层H的激活概率对应节点乘积的矩阵便得到前向传播的概率,并采样得隐含层单元
其中,表示第k个隐含层中第i行第j个单元,v是可见层单元,
步骤3.3,此时步骤3.2中输出的为隐含层H的概率值,将它随机二值化为二值化变量,
步骤3.4,利用步骤3.3中二值化了的H的概率值按反向传播,并根据公式(2)求出的可见层的矩阵V的激活概率经采样得可见层单元V(1);
其中,vst表示可见层中第s行第t个单元,hk表示第k个隐含层单元,“*”表示卷积操作符,同理,根据公式(2)求出重构的隐含层激活概率
步骤3.5,每次迭代中,权重wk的更新和偏置bk,c的更新都是同时进行的,所以应该是同时收敛的,结合其对应的学习率η,根据公式(3)到(5),更新权值和偏置:c
bk=bk+η(V(0)-V(1)) (4)
得到相应的权重和偏置,保持其权重不变,
步骤3.6,重复计算步骤3.2到3.6,直到达到最大迭代次数1500次时,便完成了卷积深度置信网络的训练。
7.根据权利要求1所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤5中的线性的支持向量机模型的函数为:
约束函数:
其中,N是样本数,R是支持向量机的输出可调参数向量的数,(xi,yi)是步骤4中学习到的特征矩阵A中的特征向量,线性核函数Z(x,xi)=x·xi,ω为权向量,d为阈值。
8.根据权利要求1所述的基于深度学习的场景文本识别方法,其特征在于,所述的步骤6具体按照以下步骤实施:
步骤6.1,将步骤5中提取出来的文本区域S′输入到步骤3中训练好的卷积深度置信网络中进行特征提取,即把除字符之外的背景信息忽略只提取其中的字符信息,得到特征矩阵B,
步骤6.2,将步骤6.1中提出来的特征矩阵B输入到字符分类器Softmax中,得到的输出值lθ为某一个字符被识别为第r类字符的概率p,该分类器Softmax模型的函数为:
其中,θ1,θ2,...,θr是模型的参数,αz是步骤6.1中提出来的特征矩阵B中的特征向量,βz是步骤6.1中提出来的特征的所属类的编号,r是表示字符的类别值,p(βz=r|αz)是指特征向量αz被识别为第r类字符的概率,所有的概率的和为1,对于特征向量αz,选择其最大概率取值对应的类别的r值作为当前的字符分类结果,并且与字符的真实分类作比较,如果一致,则分类识别正确,否则识别错误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810541773.9A CN108898138A (zh) | 2018-05-30 | 2018-05-30 | 基于深度学习的场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810541773.9A CN108898138A (zh) | 2018-05-30 | 2018-05-30 | 基于深度学习的场景文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108898138A true CN108898138A (zh) | 2018-11-27 |
Family
ID=64343537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810541773.9A Pending CN108898138A (zh) | 2018-05-30 | 2018-05-30 | 基于深度学习的场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108898138A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614488A (zh) * | 2018-12-04 | 2019-04-12 | 广西大学 | 基于文本分类和图像识别的配网带电作业条件判别方法 |
CN109961416A (zh) * | 2019-04-02 | 2019-07-02 | 西南交通大学 | 一种基于形态学梯度多尺度融合的营业执照信息提取方法 |
CN110110809A (zh) * | 2019-05-16 | 2019-08-09 | 郑州轻工业学院 | 基于机器故障诊断的模糊自动机的构建方法 |
CN110287911A (zh) * | 2019-06-28 | 2019-09-27 | 广东工业大学 | 一种发票的内容识别方法、装置、设备及存储介质 |
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN110909728A (zh) * | 2019-12-03 | 2020-03-24 | 中国太平洋保险(集团)股份有限公司 | 一种多语种保单自动识别的控制算法及装置 |
CN112183523A (zh) * | 2020-12-02 | 2021-01-05 | 北京云测信息技术有限公司 | 一种文本检测方法和装置 |
CN112954633A (zh) * | 2021-01-26 | 2021-06-11 | 电子科技大学 | 一种基于参数约束的双网络架构室内定位方法 |
CN113792739A (zh) * | 2021-08-25 | 2021-12-14 | 电子科技大学 | 一种通用型车牌文本识别方法 |
CN114445814A (zh) * | 2022-04-06 | 2022-05-06 | 深圳市华汉伟业科技有限公司 | 一种字符区域提取方法、计算机可读存储介质 |
WO2023066047A1 (zh) * | 2021-10-22 | 2023-04-27 | 华为技术有限公司 | 一种识别图像中文本信息的方法、设备及系统 |
CN117173416A (zh) * | 2023-11-01 | 2023-12-05 | 山西阳光三极科技股份有限公司 | 基于图像处理的铁路货运车号图像清晰化处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570521A (zh) * | 2016-10-24 | 2017-04-19 | 中国科学院自动化研究所 | 多语言场景字符识别方法及识别系统 |
CN106845475A (zh) * | 2016-12-15 | 2017-06-13 | 西安电子科技大学 | 基于连通域的自然场景文字检测方法 |
CN107766860A (zh) * | 2017-10-31 | 2018-03-06 | 武汉大学 | 基于级联卷积神经网络的自然场景图像文本检测方法 |
-
2018
- 2018-05-30 CN CN201810541773.9A patent/CN108898138A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570521A (zh) * | 2016-10-24 | 2017-04-19 | 中国科学院自动化研究所 | 多语言场景字符识别方法及识别系统 |
CN106845475A (zh) * | 2016-12-15 | 2017-06-13 | 西安电子科技大学 | 基于连通域的自然场景文字检测方法 |
CN107766860A (zh) * | 2017-10-31 | 2018-03-06 | 武汉大学 | 基于级联卷积神经网络的自然场景图像文本检测方法 |
Non-Patent Citations (7)
Title |
---|
NOEL LOPES 等,: "Towards adaptive learning with improved convergence of deep belief networks on graphics processing units", 《PATTERN RECOGNITION》 * |
刘军 等,: "《基因芯片制备及数据分析技术》", 31 May 2015 * |
孙劲光 等,: "基于深度神经网络的特征加权融合人脸识别方法", 《计算机应用》 * |
李鉴鸿,: "基于MSER的图像文本定位的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
杨玲玲 等,: "自然场景图像文本检测算法的研究与改进", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王林 等,: "卷积深度置信网络的场景文本检测", 《计算机系统应用》 * |
郑云非,: "基于深度学习算法的视频文本区域定位与识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614488B (zh) * | 2018-12-04 | 2022-12-02 | 广西大学 | 基于文本分类和图像识别的配网带电作业条件判别方法 |
CN109614488A (zh) * | 2018-12-04 | 2019-04-12 | 广西大学 | 基于文本分类和图像识别的配网带电作业条件判别方法 |
CN109961416A (zh) * | 2019-04-02 | 2019-07-02 | 西南交通大学 | 一种基于形态学梯度多尺度融合的营业执照信息提取方法 |
CN110110809A (zh) * | 2019-05-16 | 2019-08-09 | 郑州轻工业学院 | 基于机器故障诊断的模糊自动机的构建方法 |
CN110287911A (zh) * | 2019-06-28 | 2019-09-27 | 广东工业大学 | 一种发票的内容识别方法、装置、设备及存储介质 |
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN110909728A (zh) * | 2019-12-03 | 2020-03-24 | 中国太平洋保险(集团)股份有限公司 | 一种多语种保单自动识别的控制算法及装置 |
CN112183523A (zh) * | 2020-12-02 | 2021-01-05 | 北京云测信息技术有限公司 | 一种文本检测方法和装置 |
CN112954633A (zh) * | 2021-01-26 | 2021-06-11 | 电子科技大学 | 一种基于参数约束的双网络架构室内定位方法 |
CN113792739A (zh) * | 2021-08-25 | 2021-12-14 | 电子科技大学 | 一种通用型车牌文本识别方法 |
WO2023066047A1 (zh) * | 2021-10-22 | 2023-04-27 | 华为技术有限公司 | 一种识别图像中文本信息的方法、设备及系统 |
CN114445814A (zh) * | 2022-04-06 | 2022-05-06 | 深圳市华汉伟业科技有限公司 | 一种字符区域提取方法、计算机可读存储介质 |
CN114445814B (zh) * | 2022-04-06 | 2022-07-08 | 深圳市华汉伟业科技有限公司 | 一种字符区域提取方法、计算机可读存储介质 |
CN117173416A (zh) * | 2023-11-01 | 2023-12-05 | 山西阳光三极科技股份有限公司 | 基于图像处理的铁路货运车号图像清晰化处理方法 |
CN117173416B (zh) * | 2023-11-01 | 2024-01-05 | 山西阳光三极科技股份有限公司 | 基于图像处理的铁路货运车号图像清晰化处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898138A (zh) | 基于深度学习的场景文本识别方法 | |
CN107526785B (zh) | 文本分类方法及装置 | |
Yin et al. | Robust text detection in natural scene images | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN103942550B (zh) | 一种基于稀疏编码特征的场景文本识别方法 | |
Mao et al. | Deep residual pooling network for texture recognition | |
Alidoost et al. | A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image | |
CN110751137A (zh) | 一种自动求解数学题的方法和系统 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN111191583A (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN105760891A (zh) | 一种中文字符验证码的识别方法 | |
CN111126127B (zh) | 一种多级空间上下文特征指导的高分辨率遥感影像分类方法 | |
CN109886161A (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
CN107862322B (zh) | 结合图片和文本进行图片属性分类的方法、装置及系统 | |
CN109685065A (zh) | 试卷内容自动分类的版面分析方法、系统 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN116486419A (zh) | 一种基于孪生卷积神经网络的书法字识别方法 | |
Dey et al. | A two-stage CNN-based hand-drawn electrical and electronic circuit component recognition system | |
Hegadi et al. | Recognition of Marathi handwritten numerals using multi-layer feed-forward neural network | |
Pham et al. | CNN-based character recognition for license plate recognition system | |
Wilkinson et al. | A novel word segmentation method based on object detection and deep learning | |
Zhang et al. | Consecutive convolutional activations for scene character recognition | |
Zhang et al. | OCR with the Deep CNN Model for Ligature Script‐Based Languages like Manchu | |
CN111275732B (zh) | 一种基于深度卷积神经网络的前景对象图像分割方法 | |
Zheng et al. | Segmentation-free multi-font printed Manchu word recognition using deep convolutional features and data augmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181127 |
|
RJ01 | Rejection of invention patent application after publication |