CN105205448B - 基于深度学习的文字识别模型训练方法和识别方法 - Google Patents

基于深度学习的文字识别模型训练方法和识别方法 Download PDF

Info

Publication number
CN105205448B
CN105205448B CN201510522576.9A CN201510522576A CN105205448B CN 105205448 B CN105205448 B CN 105205448B CN 201510522576 A CN201510522576 A CN 201510522576A CN 105205448 B CN105205448 B CN 105205448B
Authority
CN
China
Prior art keywords
character recognition
neural networks
recognition model
convolutional neural
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510522576.9A
Other languages
English (en)
Other versions
CN105205448A (zh
Inventor
王亮
王威
张宇琪
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Fujitsu Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Fujitsu Ltd filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510522576.9A priority Critical patent/CN105205448B/zh
Publication of CN105205448A publication Critical patent/CN105205448A/zh
Application granted granted Critical
Publication of CN105205448B publication Critical patent/CN105205448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。

Description

基于深度学习的文字识别模型训练方法和识别方法
技术领域
本发明涉及模式识别与机器学习领域,尤其涉及神经网络与深度学习技术领域,更具体地涉及一种基于深度学习的文字识别模型训练方法和识别方法。
背景技术
对于文字识别(OCR),传统的方法需要人工设计特征,这需要大量专家知识。而深度学习是一种特征学习方法,只需要提供大量训练样本,模型就会自动学习到鲁棒的特征表达。
另外,常见的卷积神经网络卷积层一般不超过5层。相对于少数几个卷积层,使用更多的卷积层不可避免地增加了问题的难度。传统的解决思路是直接随机初始化网络权值,再进行训练。然而当卷积层超过5层后,这种方法会导致无法训练。
发明内容
为了解决现有技术存在的空缺,本发明的一个目的是提供一种基于深度学习的字符识别模型的训练方法,再一个目的是利用训练得到的字符识别模型对文字进行识别。
具体地,本发明的基于深度学习的字符识别模型的训练方法包括以下步骤:
步骤S1,构建多层卷积神经网络的结构,包括设置网络的层数、卷积窗大小、每层的节点数等。定义一个输出层来输出字符分类的结果,每个类别标签定义一个输出结点。
步骤S2,采用传统的误差反向传播算法训练网络,从而得到字符识别模型,这里目标函数为输入图像的真实标签与模型预测结果的交叉熵。
步骤S3,增加卷积层层数得到新的网络结构,用步骤S3得到的模型初始化网络权重。
步骤S4,重复步骤S2与S3,即逐渐增加卷积层层数并训练,直到识别正确率不再提高为止,得到最终的字符识别模型。
步骤S5,使用维特比算法,求出每个词语对应的分数,分数最高的即为识别出的词语。
步骤S6,对测试图像采用扫描窗口进行测试,从给定词典中找出最有可能的词语。
基于上述技术方案可知,本发明的方法基于深度学习,把字符识别问题当成一个多类别分类问题,该方法可以学习到文字的鲁棒特征,不必人工设计特征,且后续处理可以有效地将备选字符识别成词语,能够广泛地应用于自然场景下的文字识别问题。本发明的方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
附图说明
图1是本发明的基于深度学习的自然场景词语识别方法的流程图;
图2是本发明的基于深度学习的文字识别方法所使用的网络结构的示意图。
具体实施方式
以下结合附图详细说明本发明技术方案中所涉及的各个细节问题。应当指出的是,所描述的实施例仅旨在便于理解,对本发明不起任何限定作用。
本发明公开了一种基于深度学习的文字识别方法,主要包括建立更深的卷积神经网络来识别字符,以及从识别出的备选字符中找出最可能的词语。该方法具体包括:首先,设计多层卷积神经网络结构,把每一个字符作为一个类别,这样就形成了一个多类别分类问题;然后,采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。经过以上步骤,一个用于自然场景下的词语识别模型就完成了。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
更具体地,本发明基于深度学习提出一种自然场景中的词语识别方法。通过模仿深度置信网逐层训练的方法来进行分步训练,即每次增加2-3层卷积层,用上一次训练好的模型对本次模型进行权值初始化,再进行整体微调。因为大部分权值在上一步已经较好地学习,从而每次训练收敛速度很快。通过设计更深的网络结构并分步训练,本发明提高了字符识别的当前最好结果。
以下详细说明本发明方法涉及的关键步骤。
步骤一,构建多层卷积神经网络,包括定义构成网络的层数、卷积窗大小和节点数等。每个输出节点代表一类字符,共62类(26个大写字母+26个小写字母+10个数字)。作为优选,可以采用多于12个卷积层、多于3个全连接层和2个最大值池化层的深度卷积神经网络,其中第一、二卷积层后面接局部响应归一化层。如此多的卷积层可以提取更好的特征,实验表明比常见的5层卷积层的神经网络效果好。
步骤二,采用误差反向传播算法对网络进行训练。在输出层上利用一个结点来描述一个标签信息l,计算其交叉熵,并求和作为模型的目标函数。模型的激活函数f(x)可以表示为f(x)=max(0,WTx+b)。其中W是模型权重,b是偏置项,x是输入。记zl为第1类对应输出节点的输出值,这样可以根据sof tmax层的输出得到模型预测pl
采用反向传播算法进行有监督训练,模型的目标函数E为图像的真实类别ql与模型预测pl之间的交叉熵:
E=-∑l ql log pl
其中,log函数优选以自然对数e为底;
步骤三,增加2-3层卷积层,设计更深的网络结构。用上一步已经训练好的模型初始化卷积层和全连接层,新增加的卷积层权重值进行随机初始化。
步骤四,重复步骤二和步骤三,即每次增加卷积层得到新的结构,再对新结构进行训练。
步骤五,softmax层的输出为该字符的分数(0~1的实数),预先给定的词典中包含了该数据集所有可能出现的词语。使用维特比算法,求出每个词语对应的分数。
步骤六,对测试图像使用扫描窗口进行测试,从给定词典中找出最有可能的词语。
本发明可以扩展到汉字和其他字符的识别,实验了中文一级字库3755个汉字的训练与识别,也有较好表现。
实施例
为了详细说明本发明的具体实施方式,以某词语识别数据集为例说明。该数据集包含862张已经裁减好的自然场景中的词语,每张图像包含一个词语和少量背景。实现的模型可以自动进行图像内词语的识别。具体步骤如下:
步骤S1,从词语数据集中裁减出6113个字符图像作为训练集,5379个字符图像组成测试集。
步骤S2,使用一个5层卷积层+3层全连接层的深度卷积神经网络进行学习,其卷积层统一使用128个结点,3×3的卷积窗口,步长取为1。全连接层结点分别为256,256,62个。
步骤S3,将图像训练集随机划分为8个子集,每个子集包含768个图像(最后一个子集不足768张,取为768是为了加速GPU运算)。
步骤S4,采用随机梯度下降法,迭代大约400个周期。期间当错误率不再降低时,把学习率除以10,继续训练直至网络收敛为止。
步骤S5,依次加入额外的3个卷积层,2个卷积层,2个卷积层进行分步训练。最终的结构共有12个卷积层+3个全连接层,该模型字符识别效果最好,作为最终的字符识别模型。
步骤S6,用扫描窗口扫描测试图像,用训练好的模型识别出字符,再采用维特比算法得到最有可能的单词。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度学习的字符识别模型的训练方法,包括以下步骤:
步骤S1,构建多层卷积神经网络,包括设置网络层数、卷积窗大小、每层节点数;定义一个输出层来输出字符分类的结果,每个类别标签定义一个输出结点;
步骤S2,训练所述多层卷积神经网络,从而得到字符识别模型,这里目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;
步骤S3,增加所述多层卷积神经网络的卷积层层数得到新的多层卷积神经网络,用步骤S2得到的模型参数来初始化所述新的多层卷积神经网络卷积层的权重;
步骤S4,重复步骤S2与S3,即逐渐增加卷积层层数并训练,直到识别正确率不再提高为止,得到优化的字符识别模型;
步骤S5,使用维特比算法,从给定词典中求出所述字符识别模型中每个词语对应的分数,分数最高的即为识别出的词语,从而得到最终的字符识别模型。
2.根据权利要求1所述的基于深度学习的字符识别模型的训练方法,其中所述步骤S2中采用误差反向传播算法来训练所述多层卷积神经网络,从而得到字符识别模型。
3.根据权利要求1所述的基于深度学习的字符识别模型的训练方法,其中步骤S3所述增加所述多层卷积神经网络的卷积层层数的步骤中,每次增加2-3层卷积层。
4.根据权利要求3所述的基于深度学习的字符识别模型的训练方法,其中所述步骤S4中,最终采用多于12个卷积层、多于3个全连接层和2个最大值池化层的深度卷积神经网络,所述深度卷积神经网络中第一、二卷积层后面接局部响应归一化层。
5.一种基于深度学习的文字识别方法,包括以下步骤:
采用如权利要求1至4任意一项所述的基于深度学习的字符识别模型的训练方法对字符识别模型进行训练;
扫描待识别图像,利用上述步骤得到的所述字符识别模型对所述扫描得到的待识别图像进行识别,从给定词典中找出最有可能的词语。
CN201510522576.9A 2015-08-11 2015-08-24 基于深度学习的文字识别模型训练方法和识别方法 Active CN105205448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510522576.9A CN105205448B (zh) 2015-08-11 2015-08-24 基于深度学习的文字识别模型训练方法和识别方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510487116 2015-08-11
CN2015104871167 2015-08-11
CN201510522576.9A CN105205448B (zh) 2015-08-11 2015-08-24 基于深度学习的文字识别模型训练方法和识别方法

Publications (2)

Publication Number Publication Date
CN105205448A CN105205448A (zh) 2015-12-30
CN105205448B true CN105205448B (zh) 2019-03-15

Family

ID=54953120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510522576.9A Active CN105205448B (zh) 2015-08-11 2015-08-24 基于深度学习的文字识别模型训练方法和识别方法

Country Status (1)

Country Link
CN (1) CN105205448B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN107220641B (zh) * 2016-03-22 2020-06-26 华南理工大学 一种基于深度学习的多语言文本分类方法
CN107305630B (zh) * 2016-04-25 2021-03-19 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN106022363B (zh) * 2016-05-12 2019-02-12 南京大学 一种适用于自然场景下的中文文字识别方法
CN106096607A (zh) * 2016-06-12 2016-11-09 湘潭大学 一种车牌识别方法
CN107038450A (zh) * 2016-10-13 2017-08-11 南京邮电大学 基于深度学习的无人机警察系统
CN106570521B (zh) * 2016-10-24 2020-04-28 中国科学院自动化研究所 多语言场景字符识别方法及识别系统
WO2018090013A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
CN108319988B (zh) * 2017-01-18 2021-12-24 华南理工大学 一种用于手写汉字识别的深度神经网络的加速方法
CN106919942B (zh) * 2017-01-18 2020-06-26 华南理工大学 用于手写汉字识别的深度卷积神经网络的加速压缩方法
CN106845442A (zh) * 2017-02-15 2017-06-13 杭州当虹科技有限公司 一种基于深度学习的台标检测方法
CN106960243A (zh) * 2017-03-06 2017-07-18 中南大学 一种改进卷积神经网络结构的方法
CN107360137A (zh) * 2017-06-15 2017-11-17 深圳市牛鼎丰科技有限公司 用于验证码识别的神经网络模型的构建方法和装置
CN107273897A (zh) * 2017-07-04 2017-10-20 华中科技大学 一种基于深度学习的文字识别方法
CN107463951A (zh) * 2017-07-19 2017-12-12 清华大学 一种提高深度学习模型鲁棒性的方法及装置
CN107516317B (zh) * 2017-08-18 2021-04-27 上海海洋大学 一种基于深度卷积神经网络的sar影像海冰分类方法
CN109977737A (zh) * 2017-12-28 2019-07-05 新岸线(北京)科技集团有限公司 一种基于循环神经网络的字符识别鲁棒性方法
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN110502656A (zh) * 2018-05-16 2019-11-26 珠海金山办公软件有限公司 一种查找方法、装置、电子设备及可读存储介质
CN111310519B (zh) * 2018-12-11 2024-01-05 成都智叟智能科技有限公司 基于机器视觉与数据采样的货品深度学习训练方法
CN110232337B (zh) * 2019-05-29 2021-02-02 中国科学院自动化研究所 基于全卷积神经网络的中文字符图像笔划提取方法、系统
CN110309807A (zh) * 2019-07-08 2019-10-08 西北工业大学 Cad图纸智能识别方法
CN111325177B (zh) * 2020-03-04 2023-05-12 南京红松信息技术有限公司 基于权重自定义的目标检测分式识别方法
CN111797908B (zh) * 2020-06-18 2022-08-09 浪潮金融信息技术有限公司 针对印刷体字符识别的深度学习模型的训练集生成方法
CN111950548B (zh) * 2020-08-10 2023-07-28 河南大学 一种引入字库文字图像进行深度模板匹配的汉字识别方法
CN113724151B (zh) * 2021-07-30 2022-09-27 荣耀终端有限公司 一种图像增强方法、电子设备和计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823845A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于深度学习的遥感影像自动标注方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823845A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于深度学习的遥感影像自动标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于动量BP神经网络的英文字符识别;刘慧等;《四川大学学报(自然科学版)》;20111130;第48卷(第6期);第1325-1328页 *

Also Published As

Publication number Publication date
CN105205448A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105205448B (zh) 基于深度学习的文字识别模型训练方法和识别方法
CN110956185B (zh) 一种图像显著目标的检测方法
CN105184312B (zh) 一种基于深度学习的文字检测方法及装置
Zhang et al. Multi-scale attention with dense encoder for handwritten mathematical expression recognition
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN107909101B (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN110414498B (zh) 一种基于交叉注意力机制的自然场景文本识别方法
CN110503598A (zh) 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN111401281A (zh) 基于深度聚类和样例学习的无监督行人重识别方法及系统
CN106022392B (zh) 一种深度神经网络样本自动取舍的训练方法
CN109993164A (zh) 一种基于rcrnn神经网络的自然场景文字识别方法
CN113128620B (zh) 一种基于层次关系的半监督领域自适应图片分类方法
CN108021947A (zh) 一种基于视觉的分层极限学习机目标识别方法
CN106570521A (zh) 多语言场景字符识别方法及识别系统
CN111612051A (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN114548256A (zh) 一种基于对比学习的小样本珍稀鸟类识别方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN108985442A (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
de Jong Incremental sequence learning
Wu et al. STR transformer: a cross-domain transformer for scene text recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant