CN104966097B - 一种基于深度学习的复杂文字识别方法 - Google Patents

一种基于深度学习的复杂文字识别方法 Download PDF

Info

Publication number
CN104966097B
CN104966097B CN201510323797.3A CN201510323797A CN104966097B CN 104966097 B CN104966097 B CN 104966097B CN 201510323797 A CN201510323797 A CN 201510323797A CN 104966097 B CN104966097 B CN 104966097B
Authority
CN
China
Prior art keywords
neural network
character
picture
training
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510323797.3A
Other languages
English (en)
Other versions
CN104966097A (zh
Inventor
刘世林
何宏靖
吴雨浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201510323797.3A priority Critical patent/CN104966097B/zh
Publication of CN104966097A publication Critical patent/CN104966097A/zh
Application granted granted Critical
Publication of CN104966097B publication Critical patent/CN104966097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别领域,特别涉及一种基于深度学习的复杂文字识别方法。通过分析文字复杂性的原因,使用随机样本生成器产生的包含待识别图片噪声模型和扭曲特征模型的训练样本来训练深度神经网络;这样的训练样本中包含复杂的噪声和扭曲变形,可以满足各种复杂文字识别的需要;将少量人工标注的第一训练样本集和随机生成的大量第二训练样本集混合后输入所述深度神经网络中,解决了通过深度神经网络来识别文字时需要大量人工标注训练样本的问题;并且在保留了待识别图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络进行自动化学习,避免了现有OCR方法中需要去噪而导致的信息丢失的问题,提高了识别的准确率。

Description

一种基于深度学习的复杂文字识别方法
技术领域
本发明涉及图像识别领域,特别涉及一种基于深度学习的复杂文字识别方法。
背景技术
图片识别在智能识别领域具有十分重要的意义,随着科技的进步和社会的发展,对图片中文字的自动识别的需求量也急速增加。传统的光学文字识别(OCR)系统常常用于识别使用光学设备扫描生成的文档,比如数字化古籍,识别名片、发票、表单等。通常这类扫描文档有着比较高的分辨率和对比度,而且打印字体一般都比较单一规整,提取用于识别的单个文字变得比较简单。所以这类文档识别的核心是消除噪声,噪声的消除方法比较多:比如使用高斯进行平滑化处理,然后使用阈值化对图片进行二值化,最后提取工程化设计好的特征向量进行模版匹配或者交付给分类器进行识别。
随着互联网的发展和移动设备的普及,产生了大量含有复杂噪声或者各种变形的文字图片,比如验证码图片、随手拍照片、车辆车牌等。复杂噪声产生的原因既包括了客观因素,比如拍照状况的复杂性、拍照设备的质量偏低;也包括了主观因素,比如为了网站安全,将验证码的噪声和扭曲都人为设计得很复杂。为了从大量公开的多媒体数据中挖掘出有价值的信息,识别这些复杂文字图片开始变得很有意义。
传统的OCR方法假定文字没有噪声或者噪声模式比较简单,这样的假设可以设计生成出高性能的特征向量,然后使用模版匹配、支持向量机或者浅层神经网络等便可以得到很高的识别准确率。但是传统的OCR方法当用于大量噪声或者扭曲的文字识别时,如果不去噪,特征向量将会包含大量噪声;如果去噪,必然会导致有用信息的丢失,两者都会最终导致识别结果的不准确。
随着人工神经网络的出现,使得图像和语音识别变得简单高效;而深度神经网络在图像和语音识别领域都得到了突破性的进展,但是使用神经网络来进行文字或者语音识别之前,需要输入大量的标注数据来完成神经网络的训练;而深度神经网络所需要的标注数据量更加巨大,比如谷歌的语音识别系统使用了上万小时的带标注的语音训练数据,这就需要消耗大量的人力成本。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于深度学习的复杂文字识别方法。通过分析文字复杂性的原因,设计随机样本生成器,自动生成大量的可供深度神经网络使用的包含各种噪声和扭曲特征幅度的训练样本,解决了现有技术中使用深度神经网络识别文字时需要大量的人力标注的问题,显著的节约了人力成本;本发明并且在训练集保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络分类器对待识别图片进行自动化学习,解决了现有技术中图片文字识别需要去噪而导致的信息丢失的问题,并提高了识别的准确率。
为了实现上述发明目的,本发明提供了以下技术方案:
一种复杂文字图片的随机样本生成器,包括以下实现步骤:
(1-1)选取一定数量的待处理样本(比如说500个;其中所述待处理样本在待识别样本集中选择)。将目标样本图片中所包含的字符切分出来,将待处理图片中的字符串切分成仅包含单个字符的待处理子图片。
(1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库;分析待识别图片字符的字符集(比如说待识别图片中仅仅包含数字,那么只需要对应研究数字集“0、1、2、3、4、5、6、7、8、9”而不需要研究汉字集;当待识别图片中既包括字母又包括数字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母以及数字都进行研究)。
(1-3)分析待处理子图片的噪声情况和扭曲特征,在已选择字体库的标准字符的基础上构建噪声模型和扭曲模型。复杂文字识别可能遇到的噪声种类很多,比如说背景噪声、线条噪声、污染物噪声等;待处理目标图片的其他扭曲特征包括由仿射变换引起的平移、压缩、拉伸、旋转和,或扭曲。
(1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成大量的随机样本(当这些随机样本用于神经网络训练时成为第二训练样本)。比如说步骤(3)中已分析出的噪声模型包括点状背景噪声、线条噪声;扭曲特征包括旋转、平移、缩放,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度和宽度分布在0-100和1-3(这里指像素点的个数)之间,旋转度在-30°到30°之间,这样根据这些噪声模型和扭曲特征的复杂度可以在已选择字体库中的标准字的基础上,生成包括背景噪声像素灰度值为10、11、12.........90;线条噪声长度为0、1、2、3............100,宽度为1、2、3;旋转度在-30°、-29°、-28°......0°......28°、29°、30°等特征的组合的样本;假定产生随机样本的尺寸为50*50像素大小,那么针对单个字符可产生的随机样本个数为8050*50*100*3*60数量巨大(事实上旋转度用浮点数表示,可以选择步长值可以为浮点数,这样所可以产生的样本个数可以非常巨大,可满足各种复杂神经网络的训练需要);通过上述的随机样本生成器产生了大量可供神经网络训练的样本,相比于现有技术中通过大量人工标注训练样本的方式,本发明中的随机样本生成器通过机器自动生成的方法在极短的时间内生成了数量巨大的可供使用的样本,样本的标注效率极高,显著的节约了人工标注成本。
本发明提供一种基于深度学习的复杂文字识别方法;本发明在随机样本生成器的基础上,仅仅人工标注少量样本(第一训练样本),将所述人工标注的少量第一训练样本集和上述随机样本生成器所产生的大量随机样本(第二训练样本集)混合成为第三训练样本集;并将所述第三训练样本集输入到深度神经网络中,通过深度神经网络的学习来识别各种噪声和扭曲特征;将待识别的目标图片中的字符串按照经过上述“复杂文字图片的随机样本生成器”中所述步骤(1-1)相同的方式切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输入到已经训练好的深度神经网络中,并经过深度神经网络输出相应的识别结果。本发明方法使用随机样本生成器自动产生大量可供深度神经网络使用的训练样本,相比于现有技术中人工标注的方法,大幅度节省了人工成本;同时本发明基于深度学习的复杂文字识别方法,在保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络进行自动化分类学习,解决了去噪可能导致的信息丢失的问题。
具体的实现过程包含以下步骤:
(2-1)选取一定数量的目标测试样本(比方说1000张图片);进行人工标注。并将标注好的样本集划分为开发样本和第一训练样本(比如说将标注样本集中30%的样本作为为开发样本,70%的样本作为第一训练样本)。
(2-2)根据上述步骤(1-1)至(1-4)的随机样本生成方法生成大量(具体的数量根据深度神经网络的模型大小而定,比如说100000张,200000张,或者10000000张)的第二训练样本。
(2-3)将第一训练样本集和第二训练样本集混合成为第三训练样本集,并将上所述第三训练样本集输入到待训练的深度神经网络中,训练所述深度神经网络。将第一训练样本集和第二训练样本集混合成第三训练样本集来训练神经网络可以减少神经网络根据第一训练样本集和第二训练样本集分别训练而出现过拟合情况,使得训练模型朝着更加准确的方向进行学习。
(2-4)将待识别的目标图片切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输入到已经训练好的所述深度神经网络中。
(2-5)经过所述深度神经网络的识别,在输出层输出与待识别目标图片对应的识别结果。
进一步的,所述步骤(2-3)中,对第三训练样本集中的图片数据进行归一化处理。实际使用中待处理字符图片中字符的像素和图片尺寸大小等参数往往具有一定差异,比方说手写字体,由于个人书写习惯的不同在书写时每个字符的大小存在一定差异;而很多验证码为了安全性考虑,人为将各个字符的尺寸做得差异较大,这样切分出来的对应图片的尺寸大小存在差别,如果这些训练样本在输入到深度神经网络的时候不经过归一化处理,将会增加样本的复杂度,进而增加神经网络的训练难度,不利于深度神经网络的高效训练。对第三训练样本集中的图片数据进行归一化处理可以使得第三训练样本集在图片尺寸和像素大小等参数方面保持均一性,这样神经网络在训练的时候排除了其他无关特征,仅仅对我们关切的关键特征进行训练,提高了训练的效率和可靠性。
作为一种优选,所述步骤(2-4)中采用与所述步骤(1-1)相同的图片切分方法。待识别图片采用与所述深度神经网络的训练样本相同的切分和处理方法能够使得待识别图片在基本格式上与所述深度神经网络采用的训练样本保持一致,有利于提高识别的速度和准确性。
进一步的,所述步骤(2-4),采用与所述步骤(2-3)中相同的归一化处理方法。待识别图片采用与所述深度神经网络的训练样本相同的归一化处理,可以使得经过切分的待识别图片在像素大小和图片尺寸大小等参数方面与训练好的深度神经网络所使用的训练样本保持一致便于深度神经网络输出更加准确的识别结果。
进一步的,所述步骤(2-3)中将归一化处理后的字符串类型的标注离散化,并保留该标注映射。将字符串类型标注离散化是指将字符串中每个字符用离散的数字(一般为整数)标注号对应起来,比方说:将“文字识别”中的“文”标注为0,“字”标注为1,“识”标注为2,“别”标注为3,这样在使用神经网络进行训练时,这些整数可以更加方便的转换成只包括0和1的向量,比如0-3会分别翻译成[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1],通过计算这些向量与神经网络的预测之差用于错误反馈可进行模型的训练。
作为一种优选,所述步骤(2-3)和(2-4)中的所使用的深度神经网络为LeNet。LeNet是一种经典的神经网络结构,目前在语音识别和图像识别领域已经广泛的应用,LeNet的网络结构具有可扩展性,通过增加全连接层的层数,可以进行深度学习,提高识别的准确度。
进一步的,所述步骤(2-3)和(2-4)中所使用的深度神经网络包括:二次采样层和至少两层全连接层,相比于现有的神经网络,具有本发明中所采用的神经网络为深度神经网络,具有至少两层全连接层,能够从更加复杂的噪声中和扭曲特征中正确识别有用的文字信息。
进一步的,所述步骤(2-3)中使用Restricted Boltzmann Machine(RBM)进行无监督的学习方式对所述深度神经网络进行预训练,初始化神经网络的参数。所述无监督学习可以有效利用现实中大量未标注的数据,提升模型的普适度。
进一步的,所述步骤(2-3)中所述深度神经网络使用中定义损失函数,比如常用的有最小负似然值,最小交叉熵。所述损失函数一般具有易于求导(或者偏导)的特征。
进一步的,所述步骤(2-3)中使用Stochastic Gradient Decent(SGD)算法和Error-back propagation(EBP)误差反向传播算法。SGD使用基于随机少量样本(比如200张图片)的梯度来估计整个损失函数的梯度,以便实现更加快捷的学习过程。而通过误差反向传播算法可以逐层快速的计算出各层参数的梯度,进而完成参数的调整,来达到最小化损失函数的目的。
进一步的,所述深度神经网络的训练结果,只保留一个在开发集上实现识别准确率最高的模型。这样保证了所述深度神经网络的训练模型朝着最接近人工识别结果的方向进行,保证深度学习的准确性。
进一步的,为了使经过所述深度神经网络的识别结果更加准确,所述步骤(2-5)中通过对测试目标语言特点的分析,选择相应的语言模型或者语言模板来对识别的结果进行优化,并最终输出经过优化后的识别结果。
与现有技术相比,本发明的有益效果:本发明提供一种基于深度学习的复杂文字识别方法,仅仅只需要少量人工标注的第一训练样本,通过分析待识别图片可能出现的噪声模型和扭曲特征设计随机样本生成器,在已选择字体的标准字的基础上,自动生成可供神经网络训练使用的大量第二训练样本,自动生成的第二训练样本集中包含各种复杂的噪声和扭曲变形,可以满足各种复杂文字识别的需要,将所述第一训练样本集和第二训练样本集混合后输入所述深度神经网络中,通过深度神经网络的学习来识别各种噪声和扭曲特征;解决了通过深度神经网络来识别文字时需要大量人工标注的问题;并且本基于深度学习的复杂文字识别方法在保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络进行分类自动化的深度学习,解决了现有技术的通过OCR方法来识别文字时需要去噪可能导致的信息丢失的问题。
总之本发明仅需少量的人工标注,在保持了待识别图片的复杂度的前提下,使用深度神经网络分类器对各种复杂文字进行自动识别,提高了识别的效率和准确度;在车牌识别、签名识别,验证码图片识别以及图片文字抓取和识别等复杂文字识别领域具有广阔的应用前景。
附图说明:
图1为随机样本生成器的实现步骤示意图。
图2为包含点状背景噪声的图片示例。
图3为包含点状背景噪声且字符倾斜的图片示例1。
图4为包含点状背景噪声且字符倾斜的图片示例2。
图5为包含点状背景噪声且字符具有仿射变化的图片示例。
图6为包含点状背景噪声且具有线条噪声的图片示例。
图7为基于深度学习的复杂文字识别方法的实现步骤示意图。
图8为基于深度学习的复杂文字识别方法的实现过程示意图。
图9为实施例1的待识别图片示意图。
图10为实施例1切分子图片示意图。
图11为基于深度学习的复杂文字识别方法的优化实现过程示意。
图12为实施例2的待识别图片示意图。
图13为实施例3的待识别图片示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于深度学习的复杂文字识别方法。通过分析文字复杂性的原因,设计随机样本生成器,自动生成大量的可供深度神经网络使用的包含各种噪声和扭曲特征幅度的训练样本,解决了现有技术中使用深度神经网络识别文字时需要大量的人力标注的问题,显著的节约了人力成本;并且在训练集保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络分类器对待识别图片进行自动化学习,解决了现有技术中需要去噪而导致的信息丢失的问题,并提高了识别的准确率。
为了实现上述发明目的,本发明提供了以下技术方案:
一种复杂文字图片的随机样本生成器,包括如图1所示的以下实现步骤:
(1-1)选取一定数量的待处理样本(具体的数量根据待处理图片所包含噪声的复杂度而定,比如说500个);其中所述待处理样本图片从待识别图片集中选取,包含待识别样本图片的一般噪声特征和、或扭曲特征。本发明随机样本生成方法的目的是用于复杂文字识别;因此在进行样本分析时,选取的待处理图片也应该是具有待识别图片的一般特征,比如说待识别样本中包含点状背景噪声和线条噪声,那么选取的待处理图片中也应该包含这些特征,以便于在接下来步骤中来构建相应的模型。
进一步的,将目标样本图片中所包含的字符切分出来(在图片中切分字符的方法很多比如说可以采用投影法),将待处理图片中的字符串切分成仅包含单个字符的待处理子图片;便于在单个字符的基础上分析噪声模型和扭曲特征。
(1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库(根据目标字符最接近的字体来选择字体库,字体库的选择可以依经验进行人工选择,也可以通过机器自动对比,通过机器自动对比时:通过分析各个字体库与目标图片中对应字符的特征,计算字体的相似度,选择相似度最高的字体,比如宋体);分析目标字符的字符集(字符集是指待识别目标所包含字符的类别;根据待识别图片中所包含字符的情况而定,比如说待处理图片中仅仅包含数字,那么只需要对应研究数字集“0、1、2、3、4、5、6、7、8、9”而不需要研究汉字集;当待识别图片中既包括字母又包括数字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母以及数字都进行研究;而且本发明所说的字符集是指待识别图片集中所包含的所有字符构成的集合,比如说待识别图片集中包含1000个汉字,那么只需要选择这1000个汉字作为进行处理的字符集)。
(1-3)分析待处理子图片的噪声情况和扭曲特征(如图2、图3、图4、图5及图6所示),在已选择字体库的标准字符的基础上构建噪声模型和扭曲模型。
所谓构建噪声模型是指将待处理子图片中所包含的各类噪声进行相应的归类,在归类的基础上对每类噪声分布情况和复杂程度进统计和计算,让这些参数模型化;复杂文学识别可能遇到的噪声种类很多,比如说背景噪声(背景噪声包括背景颜色、背景图案等,如图2至图6所示的图片中均包含点状背景噪声),线条噪声(比如说目前的很多网站登录使用的验证,为了防止机器识别而人为在验证码的汉字、数字或者字母图片上添加一些干扰识别的杂乱线条,如图6所示),污染物噪声,比如在车牌识别时字符表面上可能出现的被灰尘或者泥浆污染的情况。
所谓构建扭曲模型是指将待处理子图片中所包含的扭曲特性进行相应的归类,在分类的基础上对扭曲的程度和扭曲范围进行统计和计算,让扭曲参数模型化;待处理目标图片的其他扭曲特征包括旋转(如图3所示)、倾斜(如图4所示)、仿射变换(如图5所示)等。
(1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成大量的随机样本(随机样本生成的具体数量根据待处理图片的噪声和扭曲特征的复杂度以及所选神经网络的模型规模而定;当这些随机样本用于神经网络训练时成为第二训练样本)。
具体的,比如说步骤(3)中已分析出的噪声模型包括背景中的点状噪声、线条噪声;扭曲特征包括旋转,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度分布在0-100,宽度在1-3之间,旋转度在-30°到30°之间,这样根据这些噪声模型和扭曲特征的复杂度可以在已选择字体库中的标准字的基础上,比如说针对汉字“文”,在已选择宋体字符“文”的基础上可随机生成的“文”的图片样本包括背景噪声灰度值为10、21、22.........90;线条噪声为长度为:0、1、2、3............100,宽度为1、2、3;旋转度在-30°、-29°、-28°......0°......28°、29°、30°等特征的组合;假定产生随机样本的尺寸为50*50像素大小,那么针对“文”可产生的随机样本个数为:8050*50*100*3*60个(事实上旋转度用浮点数表示,可以选择步长值可以为浮点数,这样所可以产生的样本个数巨大,可满足各种复杂神经网络的训练需要);其他字符的随机样本生成与“文”类似;通过上述的随机样本生成器产生了大量可供神经网络训练的不需要进行人工标注的样本,相比于现有技术中通过大量人工标注训练样本的方式,本发明中的随机样本生成器通过机器自动生成的方法在极短的时间内生成了数量巨大的可供使用的样本,样本的标注效率极高,可靠性高,显著的节约了人工标注的成本;并且随机生成的样本可以包含各种不同幅度的噪声和扭曲特征,满足各种复杂文字识别的需要。
作为一种优选,实际工作中为了避免因构造点状背景噪声产生数量过大的随机样本;点状背景噪声产生方式为:通过计算待处理图片中点状噪声的平均灰度以及方差值,在构造点状噪声时,通过使用高斯采样的方式随机设置噪声的灰度值。
进一步的,待识别图片的表面具有污染物的时候,比如车牌上的泥浆点,泥浆点的表现为字体的表面具有类似椭圆状或者放射状的斑点,可以选择椭圆或者放射状形状的像素块,通过设置这些像素块的灰度值从而实现表面污染物噪声的构建。
进一步的,图片的扭曲特征如:平移、压缩、拉伸、旋转和扭曲都可以根据仿射变换 来构建,仿射变换一般可用下列公式来进行表示:其中为为原像素点的 位置向量,x为横坐标,y为纵坐标,为系数矩阵,T为仿射变换后的对应像素 点的位置向量;为常数向量;上述公式还可以写成:T=M·[x,y,1]T,M仿射变化 系数矩阵,具体的,平移变化的情况:在系数矩阵为单位矩阵的情况 下,加上常数向量就可实现;缩放变化的系数矩阵为对角矩阵分别调整x和y坐标的缩放倍 数;而旋转变换的系数矩阵和常数向量其 中c是旋转的中心点(c.x为中心的横坐标值,c.y为中心的纵坐标值),θ是旋转的角度;而且 通过步骤(1-3)中对待处理图片中扭曲程度和模式统计分析,也可以计算出对应系数矩阵 的取值范围,这样在进行扭曲样本构建时,通过在所述取值范围内,随机选取相关参数来设 置系数矩阵,将该系数矩阵乘以标准字符的位置向量,就可以得到不同扭曲程度的随机样 本。
进一步的,可以根据待处理样本的特点,仅仅选取字符的某一部分进行仿射变换,这样所产生的对应随机样本仅仅在字符中的对应区域具有扭曲特征。
进一步的,生成随机样本时,诸如背景噪声、线条噪声、污染物噪声等为可加噪声,即可以通过将字符与噪声进行叠加形成完整的样本图片。扭曲特征可对具有噪声的字符图片进行整体处理;也可以仅对字符进行扭曲处理,然后将扭曲的字符与其他噪声进行叠加形成样本图片。
进一步的,各类噪声和扭曲特征都可以组合出现。这样可以产生出数量庞大的各类随机样本。
本发明提供一种基于深度学习的复杂文字识别方法;本发明在随机样本生成器的基础上,仅仅人工标注少量样本(第一训练样本),将所述人工标注的少量第一训练样本和上述随机样本生成器所产生的大量随机样本(第二训练样本)混合成为第三训练样本集;并将所述第三训练样本集输入到深度神经网络中,通过深度神经网络的学习来识别各种噪声和扭曲特征。
将待识别的目标图片中的字符串按照经过上述“复杂文字图片的随机样本生成器”中所述步骤(1-1)的切分方式切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输入到已经训练好的深度神经网络中,经过深度神经网络的识别在输出层输出相应的识别结果。
本发明方法使用随机样本生成器自动产生大量可供深度神经网络使用的训练样本,相比于现有技术中人工标注的方法,大幅度节省了人工成本;同时本基于深度学习的复杂文字识别方法,在保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络进行分类自动化学习,解决了去噪可能导致的信息丢失的问题。
具体的实现方法包含如图7所示的以下步骤:
(2-1)选取一定数量的目标测试样本,进行人工标注(一般来讲,选取的样本的数量根据待测试样本集所包含噪声的复杂度和以及所选取深度神经网络的规模而定,考虑到噪音与信号(文字)是相互独立的,人工标注的样本数可以定为500个或者(字符集中所包含的字符个数值的20倍)中的较小值)。并将标注好的样本集划分为开发样本集和第一训练样本集(比如说将标注样本集中30%的样本作为开发样本,70%的样本作为第一训练样本)。
(2-2)根据上述步骤(1-1)至(1-4)的随机样本生成方法生成大量的包含各种噪声和扭曲特征的第二训练样本(一般说来,第二训练样本数量S与第一训练样本数量F的比值S/F满足下列关系:100<(S/F)<10000;第二训练样本具体的数量根据深度神经网络的模型规模而定,比如说10000张,20000张,或者1000000张)。
(2-3)将第一训练样本集和第二训练样本集混合成为第三训练样本集,并将上所述第三训练样本集输入到待训练的深度神经网络中,训练所述深度神经网络。将第一训练样本集和第二训练样本集混合成第三训练样本集的好处在于可以防止神经网络根据第一训练样本集和第二训练样本集分别训练而出现过拟合问题,使得训练的结果朝着更加合理的方向进行。
(2-4)将待识别的目标图片中的字符串图片切分出来,并将字符串图片中的字符切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输入到已经训练好的所述深度神经网络中。
(2-5)经过所述深度神经网络的识别,在输出层输出与待识别目标图片对应的识别结果。
进一步的,所述步骤(2-3)中,对第三训练样本集中的图片数据进行归一化处理。实际使用中待处理字符图片中字符的像素和图片尺寸大小等参数往往具有一定差异,比方说手写字体,由于个人书写习惯的不同在书写时每个字符的大小存在一定差异;而很多验证码为了安全性考虑,人为将各个字符的尺寸做得差异较大,这样切分出来的对应图片的尺寸大小存在差别,如果这些训练样本在输入到深度神经网络的时候不经过归一化处理,将会增加样本的复杂度,进而增加神经网络的训练难度,不利于深度神经网络的高效训练。对第三训练样本集中的图片数据进行归一化处理可以使得第三训练样本在图片尺寸和像素大小等参数方面保持均一性,这样神经网络在训练的时候排除了其他无关特征,仅仅对我们关切的关键特征进行训练,提高了训练的效率和可靠性。
进行归一化处理的原因还在于:通常在选择神经网络模型时会相应选择输入图片的格式(比如说是尺寸大小,像素值分布等)。在输入神经网络前对所述第三样本集中各个图片的格式进行对应归一化处理,以满足神经网络输入格式要求,避免在神经网络中来处理这些格式上的无关特征,增加训练复杂度。
作为一种优选,所述步骤(2-4)中采用与所述步骤(1-1)相同的图片切分方法。待识别图片采用与所述深度神经网络的训练样本相同的切分和处理方法能够使得待识别图片在基本样式上与所述深度神经网络采用的训练样本保持一致,降低无关特征而引起的复杂度,有利于所述深度神经网络在最快速的时间内得到更加正确的识别结果。
进一步的,所述步骤(2-4)中,采用与所述步骤(2-3)中相同的归一化处理。待识别图片采用与所述深度神经网络的训练样本相同的归一化处理,可以使得经过切分的待识别图片在像素大小和图片尺寸大小等参数方面与训练好的深度神经网络所使用的训练样本保持一致便于深度神经网络输出更加准确的识别结果。
进一步的,所述步骤(2-3)中将归一化处理后的字符串类型的标注离散化,并保留该标注映射。将字符串类型标注离散化是指将字符串中每个字符用离散的数字(一般为整数)标注号对应起来,比方说:将“文字识别”中的“文”标注为0,“字”标注为1,“识”标注为2,“别”标注为3,这样在使用神经网络进行训练时,这些整数可以更加方便的转换成只包括0和1的向量,比如0-3会分别翻译成[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1],通过计算这些向量与神经网络的预测之差用于错误反馈,可进行模型的训练。
作为一种优选,所述步骤(2-3)和(2-4)中的所使用的深度神经网络为卷积神经网络,比如LeNet;LeNet及其变种目前在语音识别和图像识别领域已经广泛的应用;而且LeNet具有可扩展性,通过增加全连接层的层数,可以进行深度学习,提高识别的准确度。
进一步的,所述步骤(2-3)和(2-4)中的所使用的深度神经网络包括:二次采样层和至少两层全连接层,本发明中所采用的神经网络为深度神经网络,在LeNet神经网络中至少包含两层全连接层才能称为深度神经网络,深度神经网络相比于传统的神经网络能够学习更加复杂的特征,当训练数据足够多时,两层以上的全连接层的神经网络更够得到准确的识别结果(具体的原理不再赘述)。
进一步的,所述步骤(2-3)中使用Restricted Boltzmann Machine(RBM)进行无监督的学习方式进行预训练,初始化神经网络的参数。所述无监督学习可以有效利用现实中大量未标注的数据,提升模型的普适度。
进一步的,所述步骤(2-3)中所述深度神经网络使用中,定义损失函数(训练的目标函数),比如常用的有最小负似然值,最小交叉熵。所述损失函数一般具有易于求导(或者偏导)的特征。
进一步的,所述步骤(2-3)中使用Stochastic Gradient Decent(SGD)算法和Error-back propagation(EBP)误差反向传播算法。SGD使用基于随机少量样本(比如200张图片)的梯度来估计整个损失函数的梯度,以便实现更加快捷的学习过程。而通过误差反向传播算法可以逐层快速的计算出各层参数的梯度,进而完成参数的调整,来达到最小化损失函数的目的。
进一步的,所述深度神经网络的训练结果,只保留一个在开发集上实现识别准确率最高的模型。这样保证了所述深度神经网络的训练模型朝着最接近人工识别结果的方向进行,保证深度学习的准确性。
进一步的,为了使经过所述深度神经网络的识别结果更加准确,所述步骤(2-5)中通过对测试目标语言特点的分析,选择相应的语言模型或者语言模板来对识别的结果进行优化,并最终输出经过优化后的识别结果。其中所述语言模型是通过计算与待识别目标同领域的语料库中词语间的条件概率得到的;所述语言模板是指实际应用中相对固定的词语搭配,比如说成语、诗句、谚语等。
实施例1
如图8所示,首先准备与待识别图片同类型的样本集,比如说选取500张与如图9所示的待识别图片的噪声和字体类似的样本图片,进行人工标注,并选取其中150张样本作为开发集,另外的350张样本作为第一训练样本集;将图片中的字符串切分出来,并将字符串切分成各个仅包括单个字符的子图片,分析第一训练样本中待识别图片的字体,选择其最接近的字体:Times New Roman,则选择Times New Roman作为随机样本生成器的基础字体库;如果带识别图片所包含的字符仅为数字,则需要选择Times New Roman的数字集为样本生成的基础;根据人工标注样本中所包含噪声和扭曲特征(与如图9所示图片类似)假设待识别图片中字符所包含的噪声仅为灰度为20-80的点状背景噪声,则根据点状噪声的灰度分布情况来构建点状噪声模型;过程如下:在Times New Roman数字集的标准字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”的基础上选择1个灰度为步长来反应可能出现灰度变化情况,假设生成随机样本的尺寸为50*50(图片包含50*50=2500个像素点),这样总共可以生成6050*50*10个包含不同灰度变化点状噪声的第二训练样本;将第一训练样本和第二训练样本混合,并对混合后的样本进行归一化处理,比如说将样本的尺寸统一调成50*50,将图片的灰度全部调到0-1之间(即将所有图片每个像素点的灰度值除以255,这样每个像素点的灰度值就分布在0-1之间)将经过归一化处理后的第三训练样本集输入到深度神经网络中,训练深度神经网络。(在神经网络训练的过程中用开发集来校验神经网络的训练程度,具体的:当神经网络遍历所有的训练样本后,将开发集样本输入到所述深度神经网络中,检验神经网络的输出结果并计算错误率,如果错误率未收敛,则所述深度神经网络根据第三训练样本集进行再次训练,最后仅保留一个在开发集上错误率最小的识别模型。
将如图10所示的待识别字符串图片“14890217”,采用投影法切分成仅分别包含“1”、“4”、“8”、“9”、“0”、“2”、“1”、“7”的子图片,将上述子图片进行图片大小、像素大小,灰度值等参数的归一化处理后,按照相应的顺序分别输入到训练好的深度神经网络中,经过深度神经网络的识别,最终在输出层分别输出“14890217”的识别结果。
实施例2
如图11的过程所示,当字符串具有明显的某种语言模型特征时,通过语言模型对所述步骤(2-5)中将深度神经网络的识别结果进行优化,并最终输出经过语言模型优化后的识别结果。比方说待识别目标图片如图12所示,经过所述深度神经网络识别出来的的字符串为“张三(“吃”的概率为50%,“汽”的概率为50%)饭”其中“张三”、“饭”识别出的概率的100%,在这种情况下根据言语模型中主谓宾的语言结构模型,在主语“张三”,宾语“饭”已经确定的基础上中间的字符为谓语动词“吃”的概率应该最大,而“汽”为名词显然就不可能出现在谓语动词的位置上,所以经过语言模型对深度神经网络的识别结果:“张三(“吃”的概率为50%,“汽”的概率为50%)饭”的最终输出优化后的输出结果为:“张三吃饭”。显然通过语言模型优化后的输出结果更加合理准确。
另外,通过相同领域的语料库的统计得出在“饭”字前面“吃”的出现概率为90%,也可以根据这样的语言模型来对识别结果进行优化得出“张三吃饭”的正确识别结果。
实施例3
当待识别的字符串符合特定的语言模板时,如图13所示,可以通过一些语言模板来优化神经网络的识别结果,比如对图片13的识别结果为“愚”“谷”“移”“山”;其中将第1,第3和第4字符分别识别为“愚”、“移”、“山”的概率最高(比如说80%)时,而将第2个字符识别为“谷”的概率为60%,此时根据成语的固定语言模板可以将识别的最终结果矫正为“愚公移山”;这样的识别结果更加符合正确的用语习惯,识别结果更加准确合理。

Claims (9)

1.一种基于深度学习的复杂文字识别方法,其特征在于,使用随机样本生成器所产生的训练样本来训练深度神经网络;所述随机样本生成器产生训练样本包含以下步骤:
(1-1)选取一定数量的待处理样本;
(1-2)将目标样本图片中所包含的字符切分出来,将待处理图片中的字符串切分成仅包含单个字符的待处理子图片;
(1-3)分析待处理子图片的噪声情况和扭曲特征,在已选择字体库的标准字符的基础上构建噪声模型和扭曲模型;
(1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成大量的随机样本;
所述识别方法包含以下步骤:
(2-1)选取一定数量的目标测试样本;进行人工标注;并将标注好的样本集划分为开发样本集和第一训练样本集 ;
(2-2)使用随机样本生成器产生的第二训练样本;
(2-3)将所述第一训练样本集和所述第二训练样本集混合成为第三训练样本集,将所述第三训练样本集输入到待训练的深度神经网络中,训练所述深度神经网络;
(2-4)将待识别的目标图片切分成包含单个字符的子图片,并输入到训练好的所述深度神经网络中;
(2-5)所述深度神经网络输出识别结果。
2.如权利要求1所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-3)中,对所述第三训练样本集中的图片数据进行归一化处理。
3.如权利要求1所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-4)中切分图片采用与随机样本生成器实现步骤(1-2)中相同的切分方法。
4.如权利要求1所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-4)中,采用与所述步骤(2-3)中相同的归一化处理。
5.如权利要求1至4之一所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-5)中通过对测试目标语言特点的分析,选择相应的语言模型或者语言模板对所述深度神经网络的识别结果进行优化。
6.如权利要求5所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-3)和(2-4)中的所使用的深度神经网络为LeNet;所述LeNet包括二次采样层和至少两层全连接层。
7.如权利要求6所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-3)中使用Restricted Boltzmann Machine进行无监督的学习方式进行预训练,初始化神经网络的参数。
8.如权利要求7所述的基于深度学习的复杂文字识别方法,其特征在于,所述步骤(2-3)中使用Stochastic Gradient Decent算法和误差反向传播方法来最小化损失函数,以达到最优化网络参数。
9.如权利要求8所述的基于深度学习的复杂文字识别方法,其特征在于,所述深度神经网络的训练结果,只保留一个在开发集上实现识别准确率最高的模型。
CN201510323797.3A 2015-06-12 2015-06-12 一种基于深度学习的复杂文字识别方法 Active CN104966097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510323797.3A CN104966097B (zh) 2015-06-12 2015-06-12 一种基于深度学习的复杂文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510323797.3A CN104966097B (zh) 2015-06-12 2015-06-12 一种基于深度学习的复杂文字识别方法

Publications (2)

Publication Number Publication Date
CN104966097A CN104966097A (zh) 2015-10-07
CN104966097B true CN104966097B (zh) 2019-01-18

Family

ID=54220132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510323797.3A Active CN104966097B (zh) 2015-06-12 2015-06-12 一种基于深度学习的复杂文字识别方法

Country Status (1)

Country Link
CN (1) CN104966097B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147787A (zh) * 2019-05-16 2019-08-20 深圳市信联征信有限公司 基于深度学习的银行卡号自动识别方法及系统

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599900B (zh) 2015-10-20 2020-04-21 华中科技大学 一种识别图像中的字符串的方法和装置
CN105512692B (zh) * 2015-11-30 2019-04-09 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN105512725B (zh) * 2015-12-14 2018-08-28 杭州朗和科技有限公司 一种神经网络的训练方法和设备
US10460231B2 (en) * 2015-12-29 2019-10-29 Samsung Electronics Co., Ltd. Method and apparatus of neural network based image signal processor
CN105740786A (zh) * 2016-01-25 2016-07-06 中国科学院深圳先进技术研究院 书写人的身份识别方法及装置
CN107122785B (zh) * 2016-02-25 2022-09-27 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN107133628A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN107133622B (zh) * 2016-02-29 2022-08-26 阿里巴巴集团控股有限公司 一种单词的分割方法和装置
CN107305630B (zh) * 2016-04-25 2021-03-19 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN105975968B (zh) * 2016-05-06 2019-03-26 西安理工大学 一种基于Caffe框架的深度学习车牌字符识别方法
CN106056114B (zh) * 2016-05-24 2019-07-05 腾讯科技(深圳)有限公司 名片内容识别方法和装置
CN107545223B (zh) * 2016-06-29 2021-06-11 腾讯科技(深圳)有限公司 图像识别方法及电子设备
CN106331433B (zh) * 2016-08-25 2020-04-24 上海交通大学 基于深度递归神经网络的视频去噪方法
CN106469304A (zh) * 2016-09-22 2017-03-01 西安理工大学 基于深度卷积神经网络的票据中手写签名位置定位方法
CN106446954A (zh) * 2016-09-29 2017-02-22 南京维睛视空信息科技有限公司 一种基于深度学习的字符识别方法
CN107085730A (zh) * 2017-03-24 2017-08-22 深圳爱拼信息科技有限公司 一种字符验证码识别的深度学习方法及装置
CN107169031B (zh) * 2017-04-17 2020-05-19 广东工业大学 一种基于深度表达的图片素材推荐方法
CN108875730B (zh) * 2017-05-16 2023-08-08 中兴通讯股份有限公司 一种深度学习样本收集方法、装置、设备及存储介质
CN107229269A (zh) * 2017-05-26 2017-10-03 重庆工商大学 一种深度信念网络的风力发电机齿轮箱故障诊断方法
CN107316054A (zh) * 2017-05-26 2017-11-03 昆山遥矽微电子科技有限公司 基于卷积神经网络和支持向量机的非标准字符识别方法
CN109389142A (zh) * 2017-08-08 2019-02-26 上海为森车载传感技术有限公司 分类器训练方法
CN107609560A (zh) * 2017-09-27 2018-01-19 北京小米移动软件有限公司 文字识别方法及装置
CN107784328B (zh) * 2017-09-30 2021-04-20 深圳市易成自动驾驶技术有限公司 德语旧字体识别方法、装置及计算机可读存储介质
CN107977665A (zh) * 2017-12-15 2018-05-01 北京科摩仕捷科技有限公司 一种发票中关键信息的识别方法及计算设备
CN108229470B (zh) * 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
CN108236784B (zh) * 2018-01-22 2021-09-24 腾讯科技(深圳)有限公司 模型的训练方法和装置、存储介质、电子装置
CN108345880B (zh) * 2018-01-26 2021-07-27 金蝶软件(中国)有限公司 发票识别方法、装置、计算机设备和存储介质
CN108304814B (zh) * 2018-02-08 2020-07-14 海南云江科技有限公司 一种文字类型检测模型的构建方法和计算设备
CN108270796B (zh) * 2018-02-28 2020-11-03 北京奇艺世纪科技有限公司 一种图像验证码的验证方法、装置及系统
DE102018203092A1 (de) * 2018-03-01 2019-09-05 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zum Anlernen eines maschinellen Lernsystems
CN108681735A (zh) * 2018-03-28 2018-10-19 中科博宏(北京)科技有限公司 基于卷积神经网络深度学习模型的光学字符识别方法
CN108764226B (zh) * 2018-04-13 2022-05-03 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN110659657B (zh) * 2018-06-29 2024-05-24 北京京东尚科信息技术有限公司 训练模型的方法和装置
CN109345468A (zh) * 2018-08-29 2019-02-15 翔创科技(北京)有限公司 数据处理方法和装置
CN109299717B (zh) * 2018-09-13 2021-08-17 网易(杭州)网络有限公司 文字识别模型建立及文字识别方法、装置、介质及设备
CN109064494B (zh) * 2018-09-13 2021-09-21 北京字节跳动网络技术有限公司 视频漂浮纸片检测方法、装置和计算机可读存储介质
CN109272043B (zh) * 2018-09-21 2021-03-30 京东数字科技控股有限公司 用于光学字符识别的训练数据生成方法、系统和电子设备
CN111027345A (zh) * 2018-10-09 2020-04-17 北京金山办公软件股份有限公司 一种字体识别方法及装置
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109598270B (zh) * 2018-12-04 2020-05-05 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器
CN109858488B (zh) * 2018-12-28 2021-09-17 众安信息技术服务有限公司 一种基于样本增强的手写样本识别方法与系统
CN109740738B (zh) * 2018-12-29 2022-12-16 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
CN109766879B (zh) * 2019-01-11 2023-06-30 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN109871850A (zh) * 2019-01-21 2019-06-11 北京大学 一种基于神经网络模型的车载激光雷达数据的分类方法
CN109919076B (zh) * 2019-03-04 2022-01-04 厦门商集网络科技有限责任公司 基于深度学习的确认ocr识别结果可靠性的方法及介质
CN110188750A (zh) * 2019-05-16 2019-08-30 杭州电子科技大学 一种基于深度学习的自然场景图片文字识别方法
CN111967286A (zh) 2019-05-20 2020-11-20 京东方科技集团股份有限公司 信息承载介质的识别方法、识别装置、计算机设备和介质
CN110414519B (zh) * 2019-06-27 2023-11-14 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置、存储介质
CN110490191B (zh) * 2019-07-16 2022-03-04 北京百度网讯科技有限公司 端到端模型的训练方法与系统、及中文识别方法与系统
CN110895695B (zh) * 2019-07-31 2023-02-24 上海海事大学 用于文本图片字符切分的深度学习网络、切分方法
CN111144191B (zh) * 2019-08-14 2024-03-22 广东小天才科技有限公司 字体识别方法、装置、电子设备及存储介质
CN110837832A (zh) * 2019-11-08 2020-02-25 深圳市深视创新科技有限公司 基于深度学习网络的快速ocr识别方法
CN110929652B (zh) * 2019-11-26 2023-08-01 天津大学 基于LeNet-5网络模型的手写体中文字符识别方法
CN110933353A (zh) * 2019-12-17 2020-03-27 中国科学院长春光学精密机械与物理研究所 视频干扰注入发生器
CN111062350B (zh) * 2019-12-23 2023-08-18 合肥众兴智讯科技有限公司 基于人工智能烟火识别算法
CN111160568B (zh) 2019-12-27 2021-04-06 北京百度网讯科技有限公司 机器阅读理解模型训练方法、装置、电子设备和存储介质
CN113139629A (zh) * 2020-01-16 2021-07-20 武汉金山办公软件有限公司 一种字体识别方法、装置、电子设备及存储介质
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
CN111667066B (zh) * 2020-04-23 2024-06-11 北京旷视科技有限公司 网络模型的训练、文字识别方法、装置和电子设备
CN111626281B (zh) * 2020-04-27 2022-12-02 国家电网有限公司 基于自适应学习的纸质影像地图中文标注信息识别方法及系统
CN111651960B (zh) * 2020-06-01 2023-05-30 杭州尚尚签网络科技有限公司 一种从合同简体迁移到繁体的光学字符联合训练及识别方法
CN111832613B (zh) * 2020-06-03 2022-03-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN112200312A (zh) * 2020-09-10 2021-01-08 北京达佳互联信息技术有限公司 文字识别模型的训练方法、装置及存储介质
CN112364999B (zh) * 2020-10-19 2021-11-19 深圳市超算科技开发有限公司 冷水机调节模型的训练方法、装置及电子设备
CN112446368A (zh) * 2020-10-20 2021-03-05 中电金信软件有限公司 票据图像处理、模型训练方法、装置和计算机设备
CN113158808B (zh) * 2021-03-24 2023-04-07 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
CN113344415A (zh) * 2021-06-23 2021-09-03 中国平安财产保险股份有限公司 基于深度神经网络的业务分配方法、装置、设备及介质
CN114092940A (zh) * 2021-11-24 2022-02-25 支付宝(杭州)信息技术有限公司 识别图像中字符的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824054A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN104299006A (zh) * 2014-07-23 2015-01-21 中国传媒大学 一种基于深度神经网络的车牌识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8391602B2 (en) * 2010-04-08 2013-03-05 University Of Calcutta Character recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824054A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN104299006A (zh) * 2014-07-23 2015-01-21 中国传媒大学 一种基于深度神经网络的车牌识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络LeNet-5的车牌字符识别研究;赵志宏 等;《系统仿真学报》;20100331;第22卷(第3期);第638-641页
基于多重卷积神经网络的大模式联机手写文字识别;葛明涛 等;《现代电子技术》;20141015;第37卷(第20期);第19-21、26页
基于随机样本的BP模型在水质评价中的应用;邹志红 等;《环境工程》;20070228;第25卷(第1期);第69-71页

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147787A (zh) * 2019-05-16 2019-08-20 深圳市信联征信有限公司 基于深度学习的银行卡号自动识别方法及系统

Also Published As

Publication number Publication date
CN104966097A (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
CN104966097B (zh) 一种基于深度学习的复杂文字识别方法
CN104899571B (zh) 一种用于复杂文字识别的随机样本产生方法
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
CN110032938B (zh) 一种藏文识别方法、装置及电子设备
Mithe et al. Optical character recognition
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
JP4724776B2 (ja) 適応的手書き文字認識のためのシステムおよび方法
CN113674140B (zh) 一种物理对抗样本生成方法及系统
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
DE102011079443A1 (de) Lerngewichtungen von Schriftarten für getippte Proben bei der Handschriftenschlüsselwortauffindung
CN111652332A (zh) 基于二分类的深度学习手写中文字符识别方法及系统
CN105654127A (zh) 基于端到端的图片文字序列连续识别方法
CN111046760B (zh) 一种基于域对抗网络的笔迹鉴定方法
CN109241383A (zh) 一种基于深度学习的网页类型智能识别方法及系统
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN108052959A (zh) 一种提高深度学习图片识别算法鲁棒性的方法
CN110188750A (zh) 一种基于深度学习的自然场景图片文字识别方法
Li et al. Recognition of offline handwritten Chinese characters using the Tesseract open source OCR engine
Mariyathas et al. Sinhala handwritten character recognition using convolutional neural network
CN1271140A (zh) 基于纹理分析的字体和笔迹识别方法
CN111242131B (zh) 一种智能阅卷中图像识别的方法、存储介质及装置
CN113628640A (zh) 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN109508712A (zh) 一种基于图像的汉语文字识别方法
US20190272447A1 (en) Machine learning artificial character generation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 610041 Tianfu Avenue Middle Section, Chengdu High-tech Zone, Sichuan Province, 199, Building 1, Unit 21, Building 1-6

Patentee after: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Address before: 610041, Block B, Heaton International Plaza, 666 Tianfu Avenue, Chengdu High-tech Zone, Sichuan Province, 1005

Patentee before: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Complex character recognition method based on deep learning

Effective date of registration: 20200608

Granted publication date: 20190118

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200701

Granted publication date: 20190118

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Complex character recognition method based on deep learning

Effective date of registration: 20200722

Granted publication date: 20190118

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210812

Granted publication date: 20190118

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A complex character recognition method based on deep learning

Effective date of registration: 20210818

Granted publication date: 20190118

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2021980007811

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240428

Granted publication date: 20190118