CN110866530A - 一种字符图像识别方法、装置及电子设备 - Google Patents
一种字符图像识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110866530A CN110866530A CN201911109821.8A CN201911109821A CN110866530A CN 110866530 A CN110866530 A CN 110866530A CN 201911109821 A CN201911109821 A CN 201911109821A CN 110866530 A CN110866530 A CN 110866530A
- Authority
- CN
- China
- Prior art keywords
- classification
- neural network
- character
- voting
- classification result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000003062 neural network model Methods 0.000 claims abstract description 88
- 238000013527 convolutional neural network Methods 0.000 claims description 63
- 238000013528 artificial neural network Methods 0.000 claims description 45
- 230000000306 recurrent effect Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 27
- 125000004122 cyclic group Chemical group 0.000 claims description 26
- 230000008569 process Effects 0.000 abstract description 28
- 239000011159 matrix material Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 238000012549 training Methods 0.000 description 15
- 230000002457 bidirectional effect Effects 0.000 description 14
- 230000010354 integration Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种字符图像识别方法、装置及电子设备,用于改善由于书写者的不规范性和随意性造成字符之间的连笔、形变及缺乏书写轨迹信息导致手写体的字符识别存在识别的准确率不高的问题。该方法包括:使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果,字符图像为包含手写体字符的图像;将从多个分类结果中的一个分类结果确定为目标分类。在上述的实现过程中,使用不同类型的神经网络模型进行集成学习获得字符图像的目标分类,通过结合不同类型的神经网络模型的优缺点来提高字符识别的准确率。
Description
技术领域
本申请涉及字符识别和图像识别的技术领域,具体而言,涉及一种字符图像识别方法、装置及电子设备。
背景技术
目前的字符图像识别方法包括:图像采集、图像预处理、行分割、字符分割和字符识别;其中,图像采集是指使用摄像头将手写体的文字图片拍照采集录入。图像预处理是指对字符图像进行去噪、旋转矫正、直方图均衡化、二值化等处理,用来消除图像中存在的噪声点,纠正存在的旋转现象(以减轻行分割和字符分割的难度),以降低光照不均匀引起的问题,以及将图像二值化,只保留笔画信息。行分割是指在预处理完成以后,采用投影法将文字行分割出来,文字分割完成以后就可以做字符分割。字符识别是指使用支持向量机(SVM)、卷积神经网络、深度学习等识别方法对切分出来的字符进行识别,得到最终的字符图像的识别结果。由于各识别方法同时也是分类方法,因此,最终获得的也可以被称为字符图像的分类结果。
然而在具体的实践过程中发现,由于书写者的不规范性和随意性造成字符之间的连笔、形变及缺乏书写轨迹信息导致手写体的字符识别存在识别的准确率不高的问题。
发明内容
本申请实施例的目的在于提供一种字符图像识别方法、装置及电子设备,用于改善由于书写者的不规范性和随意性造成字符之间的连笔、形变及缺乏书写轨迹信息导致手写体的字符识别存在识别的准确率不高的问题。
本申请实施例提供了一种字符图像识别方法,包括:使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果,所述字符图像为包含手写体字符的图像;将从所述多个分类结果中的一个分类结果确定为目标分类。在上述的实现过程中,使用不同类型的神经网络模型进行集成学习获得字符图像的目标分类,通过结合不同类型的神经网络模型的优缺点来提高字符识别的准确率。
可选地,在本申请实施例中,所述字符图像为汉字字符的图像,在所述将从所述多个分类结果中的一个分类结果确定为目标分类之后,还包括:将所述目标分类对应的汉字编码确定为所述字符图像的汉字编码。在上述的实现过程中,使用不同类型的神经网络模型进行集成学习获得汉字字符图像的目标分类,通过结合不同类型的神经网络模型的优缺点来提高对汉字字符识别的准确率。
可选地,在本申请实施例中,所述多个分类结果包括:第一分类结果和第二分类结果,所述使用预先训练的多个不同类型的神经网络模型对所述字符图像进行分类,获得多个分类结果,包括:使用预先训练的卷积神经网络模型对所述字符图像进行分类,获得所述第一分类结果;使用预先训练的循环神经网络模型对所述字符图像进行分类,获得所述第二分类结果。在上述的实现过程中,使用卷积神经网络模型和卷积神经网络模型进行集成学习获得汉字字符图像的目标分类,通过结合卷积神经网络模型和卷积神经网络模型的优缺点来提高对汉字字符识别的准确率。
可选地,在本申请实施例中,所述多个分类结果还包括第三分类结果,在所述使用预先训练的双向长短期记忆网络模型对所述字符图像进行分类,获得所述第二分类结果之后,还包括:使用预先训练的卷积循环神经网络模型对所述字符图像进行分类,获得所述第三分类结果,所述卷积循环神经网络模型为由卷积神经网络和循环神经网络构建的预先训练的神经网络模型,所述卷积循环神经网络模型包括:卷积神经网络模型和循环神经网络模型。在上述的实现过程中,通过结合卷积神经网络模型、卷积神经网络模型和卷积循环神经网络模型的优缺点来提高对汉字字符识别的准确率。
可选地,在本申请实施例中,所述循环神经网络模型为双向长短期记忆网络模型。在上述的实现过程中,通过结合卷积神经网络模型、卷积神经网络模型和双向长短期记忆网络模型的优缺点来提高对汉字字符识别的准确率。
可选地,在本申请实施例中,所述将从所述多个分类结果中的一个分类结果确定为目标分类,包括:对所述多个分类结果进行投票,获得所述多个分类结果中的每个分类结果对应的投票数量;将所述多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类。在上述的实现过程中,通过使用不同类型的神经网络模型进行集成学习获得字符图像的多个分类结果,再将多个分类结果中票数最多,且票数过半的分类结果确定为目标分类,这里的分类结果为分类标记,从而提高了对字符识别的准确率。
可选地,在本申请实施例中,所述将从所述多个分类结果中的一个分类结果确定为目标分类,包括:使用相对多数投票法对所述多个分类结果进行投票,获得所述多个分类结果中的每个分类结果对应的投票值;将所述多个分类结果中的票数最多的分类结果确定为目标分类。在上述的实现过程中,通过使用不同类型的神经网络模型进行集成学习获得字符图像的多个分类结果,再将多个分类结果中票数最多的分类结果确定为目标分类,从而提高了对字符识别的准确率。
可选地,在本申请实施例中,所述将从所述多个分类结果中的一个分类结果确定为目标分类,包括:使用加权投票法对所述多个分类结果的每个分类结果进行投票,获得多个投票值;对所述多个投票值进行加权求和,获得多个投票分值;将所述多个投票分值中的加权投票值最大的分类结果确定为目标分类。在上述的实现过程中,通过使用不同类型的神经网络模型进行集成学习获得字符图像的多个分类结果,再将多个分类结果中加权投票得分最高的分类结果确定为目标分类,这里的分类结果为分类概率,从而提高了对字符识别的准确率。
本申请实施例还提供了一种字符图像识别装置,包括:图像分类模块,用于使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果,所述字符图像为包含手写体字符的图像;目标确定模块,用于将从所述多个分类结果中的一个分类结果确定为目标分类。
可选地,在本申请实施例中,所述字符图像为汉字字符的图像,还包括:编码确定模块,用于将所述目标分类对应的汉字编码确定为所述字符图像的汉字编码。
可选地,在本申请实施例中,所述多个分类结果包括:第一分类结果和第二分类结果,所述图像分类模块包括:第一分类模块,用于使用预先训练的卷积神经网络模型对所述字符图像进行分类,获得所述第一分类结果;第二分类模块,用于使用预先训练的循环神经网络模型对所述字符图像进行分类,获得所述第二分类结果。
可选地,在本申请实施例中,所述多个分类结果还包括第三分类结果,所述图像分类模块还包括:第三分类模块,用于使用预先训练的卷积循环神经网络模型对所述字符图像进行分类,获得所述第三分类结果,所述卷积循环神经网络模型为由卷积神经网络和循环神经网络构建的预先训练的神经网络模型,所述卷积循环神经网络模型包括:卷积神经网络模型和循环神经网络模型。
可选地,在本申请实施例中,所述循环神经网络模型为双向长短期记忆网络模型。
可选地,在本申请实施例中,所述目标确定模块包括:第一投票模块,用于对所述多个分类结果进行投票,获得所述多个分类结果中的每个分类结果对应的投票数量;第一确定模块,用于将所述多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类。
可选地,在本申请实施例中,所述目标确定模块包括:第二投票模块,用于使用相对多数投票法对所述多个分类结果进行投票,获得所述多个分类结果中的每个分类结果对应的投票值;第二确定模块,用于将所述多个分类结果中的票数最多的分类结果确定为目标分类。
可选地,在本申请实施例中,所述目标确定模块包括:第三投票模块,用于使用加权投票法对所述多个分类结果的每个分类结果进行投票,获得多个投票值;分值获得模块,用于对所述多个投票值进行加权求和,获得多个投票分值;第三确定模块,用于将所述多个投票分值中的投票分值最高的分类结果确定为目标分类。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如上所述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的字符图像识别方法流程示意图;
图2示出的本申请实施例提供的卷积神经网络结构的示意图;
图3示出的本申请实施例提供的双向长短期记忆网络结构的示意图;
图4示出的本申请实施例提供的卷积循环神经网络结构的示意图;
图5示出的本申请实施例提供的对多个不同类型模型进行投票的示意图;
图6示出的本申请实施例提供的基于权值投票法的层次结构模型的示意图;
图7示出的本申请实施例提供的字符图像识别装置结构示意图;
图8示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例中的字符图像识别方法之前,先介绍本申请实施例所涉及的一些概念,本申请实施例所涉及的一些概念如下:
人工智能(Artificial Intelligence,AI),是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等,其中,图像识别的具体分支有很多,例如字符识别和图像分割等等分支。
字符识别(Optical Character Recognition,OCR),又称光学字符识别,是指利用相机、扫描仪等光学输入设备对票据、订单号、文本文件或其它载体上的字符进行拍摄或扫描,然后对拍摄或扫描后的图像文件进行数字化处理,得到文字信息的过程,这里的字符识别为人工智能中图像识别的一个分支。在票据识别、图片文字识别、邮政信封识别、车牌识别、手稿文书识别等很多领域有着广泛的应用。按照所识别字符的获取途径不同,光学字符识别可分为联机(on-line)字符识别和脱机(off-line)字符识别。联机字符识别指被识别的字符是通过电子显示屏所获取的实时笔迹,而脱机字符识别指被识别的目标为已经写好或者扫描好的完整字符,主要分为三个步骤,即预处理、特征提取和识别。由于所识别的对象不同,使得联机识别和脱机识别这两类手写识别技术所采用的方法和策略也完全不同,联机字符识别能够利用笔画的时序信息及轨迹进行识别,而脱机手写体字符识别可用的信息比较少,只能根据字符特征进行识别,故脱机手写体字符识别比联机手写体字符识别难度更大一些,而在本申请实施例中的字符图像识别方法是脱机手写体字符识别的方式。
神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
卷积神经网络(Convolutional Neural Networks,CNN),一般包括两层,第一层为特征提取层,神经网络中的每个神经元的输入与前一层神经网络的局部接受域相连,并提取该神经网络的局部特征。一旦该神经网络的局部特征被提取后,该局部特征与其它特征间的位置关系也随之确定下来;第二层是特征映射层,神经网络的每个计算层由多个特征映射组成,每个特征映射是一个特征矩阵图,特征矩阵图上所有神经元的权值相等。
循环神经网络(Recurrent Neural Network,RNN),是指一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络的核心部分是一个有向图。有向图展开中以链式相连的元素被称为循环单元(RNN cell)。通常地,循环单元构成的链式连接可类比前馈神经网络中的隐含层(hidden layer),但在不同的论述中,循环神经网络的“层”可能指单个时间步的循环单元或所有的循环单元。
归一化指数函数(Softmax)层,又称归一化指数函数,或Softmax函数,实际上是有限项离散概率分布的梯度对数归一化。在数学中,尤其是概率论和相关领域中,归一化指数函数,或称Softmax函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。
图像分类模型,又称图像分类神经网络模型,是指对神经网络进行训练后获得的用于图像分类的神经网络模型,即将图像作为图像分类神经网络模型的输入获得概率列表的输出,这里概率列表是指,将路面图像经过上述的图像分类神经网络模型进行计算获得的多个概率,这里的概率是指路面图像归属于各个分类的概率,常见的图像分类神经网络模型例如:卷积神经网络(Convolutional neural network,CNN)和深度神经网络(DeepNeural Networks,DNN)等等。
长短期记忆网络(Long Short-Term Memory,LSTM),有时又称单向LSTM,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,这里的长短期记忆网络是上述的循环神经网络的其中一种循环神经网络。
双向长短期记忆网络(Bidirectional Long Short-Term Memor,Bi-LSTM),有时又称双向LSTM,常规的Bi-LSTM模型相比与LSTM模型来说,区别在于不同于LSTM模型隐藏层的单向传播,Bi-LSTM模型包含两个相互独立的隐藏层,这里的两个相互独立的隐藏层就是前向LSTM网络和后向LSTM网络,前向LSTM网络传播方向和后向LSTM网络的传播方向是相反的,因此,针对同一输入数据,最终可以得到两个隐藏层输出,即两个关于输入数据的特征向量,之后Bi-LSTM模型通过将两个特征向量进行拼接(concat)或取平均值的方法得到一个向量,再将该向量进行输出至全连接层。
集成学习是指通过将不同的分类器组合成一个元分类器,与单个分类器相比,元分类器具有更好的泛化性能,这里的分类器有时也被称为学习器,这里的分类器或者学习器可以理解为用于分类的神经网络模型,下面将解释这里的分类器。集成学习有时也被称为多分类器系统,其一般结构为:先训练一组个体学习器,再使用某种策略将它们结合起来。根据集成中是否只包含同种类型的个体学习器,集成学习可分为同质集成和异质集成。同质集成是指集成中只包含同种类型的个体学习器,如“决策树集成”中个体学习器全部是决策树,“神经网络集成”中个体学习器全部是神经网络,同质集成中的个体学习器也称为“基学习器”,相应的学习算法成为“基学习算法”。异质集成是指集成中包含不同类型的个体学习器,例如集成中既包含神经网络也包含决策树,异质集成中的个体学习器有不同的学习算法生成,此时不再有基学习算法,相应的个体学习器不再称为基学习器,而称为组件学习器或直接称为个体学习器。
服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。当然在具体的实施过程中,上述的服务器可以具体选择大型机或者小型机,这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing,RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second,MIPS)等专用处理器,主要支持UNIX操作系统的封闭且专用的提供计算服务的设备;这里的大型机,又名大型主机,是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。
需要说明的是,本申请实施例提供的字符图像识别方法可以由电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者上面描述的服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personaldigital assistant,PDA)、移动上网设备(mobile Internet device,MID)等。
本申请实施例提供的字符图像识别方法的应用场景包括但不限于:票据识别、图片文字识别、邮政信封识别、车牌识别、手稿文书识别等等应用场景,为了便于理解和说明,这里以图片文字识别的应用场景为例进行说明。
请参见图1示出的本申请实施例提供的字符图像识别方法流程示意图;该字符图像识别方法可以包括如下步骤:
步骤S110:使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果。
字符图像,是指包含手写体字符的图像,例如对手写体字符拍摄的照片图像等。这里的字符图像的具体获得方式,可以是手动地对包括手写体字符进行拍照获得,也可以是从网络上采集获得,从网络上采集获得的方式例如:使用网络爬虫软件从互联网上获取字符图像。
神经网络模型,是指使用预设的训练数据对上述的神经网络进行训练后获得的神经网络模型,这里的预设的训练数据可以根据具体实际情况进行设置,例如:在识别字符图像的任务中,预设的训练数据是指需要识别的字符图像,在有监督学习训练过程中,需要对训练数据设置正确的标签。不同类型的神经网络模型是指不同类型的神经网络模型,具体地例如:卷积神经网络模型和循环神经网络模型等。
其中,这里的多个分类结果可以包括:第一分类结果和第二分类结果,使用预先训练的多个不同类型的神经网络模型对字符图像进行分类的实施方式,即多个分类结果的获得方式可以包括如下步骤:
步骤S111:使用预先训练的卷积神经网络模型对字符图像进行分类,获得第一分类结果。
卷积神经网络(CNN)模型,是指使用预设的训练数据对上述的卷积神经网络进行训练后获得的神经网络模型,在具体的实施过程中,卷积神经网络选择有很多种,为了便于说明和理解,这里仅列举一种卷积神经网络的结构,这里的卷积神经网络的结构具体描述如下:
请参见图2示出的本申请实施例提供的卷积神经网络结构的示意图;图中的卷积神经网络包括:第一卷积(conv1)层、第一池化(pool1)层、第二卷积(conv2)层、第二池化(pool2)层、全连接(full connection)层、丢弃(dropout)层和归一化指数函数(Softmax)层;其中,第一卷积层、第一池化层、第二卷积层、第二池化层、全连接层、丢弃层和归一化指数函数层依次顺序连接。
上述的卷积神经网络和一般的深度学习模型主要区别是对该模型有两个强假设,第一个假设是参数共享,过滤器一般需要的参数较少,参数较少的情况例如:5×5×3的过滤器需要75个参数就可以训练,这种情况和多层神经网络相比,相当于只是把隐含层和局部输入联系在一起;第二个假设是局部像素的相关性,即在局部取局部区域像素的最大值,进行最大池化(Max Pooling)之后得到的图像维度以平方比的速度减小,这个简单的假设大大节省了后续参数。在卷积神经网络中,第一个卷积层会直接接受图像像素级的输入,每一个卷积操作只处理一小块图像,进行卷积变化后再传到后面的网络,每一层卷积都会提取数据中最有效的特征,这种方法可以提取图像中最基础的特征,然后再进行组合和抽象形成更高阶的特征,理论上具有图像缩放、平移和旋转的不变性。
使用预先训练的卷积神经网络模型对字符图像进行分类的实施方式例如:使用上述的卷积神经网络进行训练获得卷积神经网络模型,再使用训练后的卷积神经网络模型对字符图像进行分类,获得第一分类结果;其中,归一化指数函数(Softmax)层可以输出多个分类的概率,可以将多个分类的概率中概率值最大的作为第一分类结果,也可以直接将多个分类的概率值最大的概率值作为第一分类结果。也就是说,第一分类结果即可以是分类标签,也可以是分类概率,这里的定义将在下面的投票方法中用到。
在步骤S111之后,执行步骤S112:使用预先训练的循环神经网络模型对字符图像进行分类,获得第二分类结果。
循环神经网络(RNN)模型,是指使用预设的训练数据对上述的循环神经网络进行训练后获得的神经网络模型,常见的循环神经网络模型例如:LSTM模型和Bi-LSTM模型等。在本申请实施例中,循环神经网络模型可以为长短期记忆网络模型(即LSTM模型),或者为双向长短期记忆网络模型(即Bi-LSTM模型)。为了便于理解和说明,这里以循环神经网络为双向长短期记忆网络(即Bi-LSTM)进行说明如下:
请参见图3示出的本申请实施例提供的双向长短期记忆网络结构的示意图;图中的双向长短期记忆网络包括:输入层(input layer)、前向传播层(forward layer)、后向传播层(backward layer)和输出层(output layer);其中,输入层、前向传播层、后向传播层和输出层依次连接,各个层之间的连接线表示层与层之间的连接权重,即图中的w和数值,具体地例如图中的w1表示输入层与前向传播层的连接权重。该双向长短期记忆网络可以用于对脱机手写体汉字字符进行了训练与识别,双向LSTM优于单向LSTM,双向LSTM可以同时利用正反两个方向上的信息,从而使得最终的预测更加准确。上述的双向LSTM的主体结构就是两个单向LSTM的结合,在每个时刻t,输入会同时提供给这两个方向相反的神经网络,而输出则是由这两个单向LSTM的状态共同决定。
使用预先训练的循环神经网络模型对字符图像进行分类的具体实施方式例如:使用上述的循环神经网络进行训练获得循环神经网络模型,再使用训练后的循环神经网络模型对字符图像进行分类,获得第二分类结果;在具体的实施过程中,可以在循环神经网络模型的最后输出连接归一化指数函数(Softmax)层,这里的归一化指数函数层可以输出多个分类的概率,可以将多个分类的概率中概率值最大的作为第二分类结果,也可以直接将多个分类的概率值最大的概率值作为第二分类结果。
在上述的实现过程中,使用卷积神经网络模型和卷积神经网络模型进行集成学习获得汉字字符图像的目标分类,通过结合卷积神经网络模型和卷积神经网络模型的优缺点来提高对汉字字符识别的准确率。
在步骤S112之后,执行步骤S113:使用预先训练的卷积循环神经网络模型对字符图像进行分类,获得第三分类结果。
请参见图4示出的本申请实施例提供的卷积循环神经网络结构的示意图;图中的卷积循环神经网络(Convolutional Recurrent Neural Networks,CRNN)包括:卷积神经网络模型(CNN)和循环神经网络模型(RNN),以及分类层,在具体的实施过程中,该分类层例如可以是上述的归一化指数函数(Softmax)层。卷积循环神经网络模型是指由卷积神经网络和循环神经网络构建的预先训练的神经网络模型,具体地例如:先利用卷积神经网络对原始图像进行特征提取,然后再将卷积神经网络所提取的特征作为循环神经网络的输入,其中,这里的RNN可以是Bi-LSTM,CNN的输入可以为4维的张量,该网络可以使用4个卷积层和2个池化层进行特征提取;RNN的输入要求为3维张量,因此这里需要将CNN的输出reshape为3维张量然后再作为Bi-LSTM的输入。在上述的实现过程中,通过结合卷积神经网络模型、卷积神经网络模型和双向长短期记忆网络模型的优缺点来提高对汉字字符识别的准确率。
使用预先训练的卷积循环神经网络模型对字符图像进行分类的具体实施方式例如:使用上述的卷积循环神经网络进行训练获得卷积循环神经网络模型,再使用训练后的卷积循环神经网络模型对字符图像进行分类,获得第三分类结果;在具体的实施过程中,可以在卷积循环神经网络模型的最后输出连接归一化指数函数(Softmax)层,这里的归一化指数函数层可以输出多个分类的概率,可以将多个分类的概率中概率值最大的作为第三分类结果,也可以直接将多个分类的概率值最大的概率值作为第三分类结果。在上述的实现过程中,通过结合卷积神经网络模型、卷积神经网络模型和卷积循环神经网络模型的优缺点来提高对汉字字符识别的准确率。
在步骤S110之后,执行步骤S120:将从多个分类结果中的一个分类结果确定为目标分类。
在具体的实施过程中,将从多个分类结果中的一个分类结果确定目标分类的方式可以包括很多种方式,这里仅列举几种确定目标分类方式:第一种是基于绝对多数投票法确定目标分类;第二种是基于相对多数投票法确定目标分类;第三种是基于加权投票法确定目标分类;下面将对这三种方式分别进行详细地说明,这里首先介绍第一种基于绝对多数投票法确定目标分类的方式,该方式可以包括如下步骤:
步骤S121:对多个分类结果进行投票,获得多个分类结果中的每个分类结果对应的投票数量。
请参见图5示出的本申请实施例提供的对多个不同类型模型进行投票的示意图;图中示出了对CNN模型、RNN模型和CRNN模型进行投票的示意图,其中,CNN模型、RNN模型和CRNN模型分别对字符图像进行分类,分别获得第一分类结果、第二分类结果和第三分类结果,这里的多个分类结果可以包括:上述的第一分类结果和上述的第二分类结果,还可以包括上述的第三分类结果,当然在具体的实施过程中,若还有更多不同类型的神经网络模型获得的分类结果,该分类结果也可以包括在多个分类结果中。
如上面描述的,对多个不同类型模型进行结合,即将多个用于分类的神经网络模型进行结合,获得比单个神经网络模型优越的泛化性能,也被称作为集成学习。如果将这里的神经网络模型看作学习器,那么这里的集成学习通过将多个学习器进行结合,可获得比个体学习器优越的泛化性能,这对“弱学习器”非常明显,故集成学习的很多理论研究都是针对弱学习器进行的。但如果将好的学习器和坏的学习器集成到一起,通常结果会是比坏的学习器效果好一些,而比好的学习器效果差一些。想要获得好的集成,应选择“好而不同”的个体学习器,即个体学习器要有由一定的准确性,学习器不能太坏,并且要有多样性和差异性。下面给出一个集成学习的详细例子:
若考虑一个二分类问题y属于{-1,+1}和真实函数f,假定基分类器的错误率为ε,即对第i个基分类器hi则满足条件:p(hi(x)≠f(x))=ε;其中,ε为基分类器的错误率,x为分类器,hi(x)为第i个分类器的预测分类结果,f(x)为该分类器的实际正确结果,p代表预测分类结果不为实际正确结果的概率,即分类器的错误率。假设通过集成学习结合T个基分类器,即对T个基分类器,若有超过半数的基分类器分类正确,则集成分类就正确;假设基分类器的错误率相互独立,则集成的错误率为:
其中,ε为基分类器的错误率,x为分类器,Hi(x)为第i个分类器的预测分类结果,f(x)为该分类器的实际正确结果,p代表预测分类结果不为实际正确结果的概率,即集成多个分类器的错误率,T为基分类器的个数,k为第k个基分类器;根据上式可知,随着集成中个体分类器数量T的增加,集成的错误率呈指数级下降。
在步骤S121之后,执行步骤S122:将多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类。
将多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类的实施方式例如:假设对于一个N分类问题,其类别标签为{C1,C2,...,CN},若将第i个基分类器表示为hi,第i个分类器的预测分类结果表示为hi(x),那么该分类器在样本x上的预测输出为一个N维向量(h1(x);h2(x);...;hi(x);...;hN(x))。若使用绝对多数投票法将多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类,即若某标记的票数过半,则预测为该标记,否则拒绝预测。
在上述的实现过程中,通过使用不同类型的神经网络模型进行集成学习获得字符图像的多个分类结果,再将多个分类结果中票数最多,且票数过半的分类结果确定为目标分类,这里的分类结果为分类标记,从而提高了对字符识别的准确率。
如上描述的确定目标分类三种方式,上面介绍了第一种基于绝对多数投票法确定目标分类的方式,下面介绍第二种基于相对多数投票法确定目标分类的方式,该方式可以包括如下步骤:
在步骤S121之后,执行步骤S123:使用相对多数投票法对多个分类结果进行投票,获得多个分类结果中的每个分类结果对应的投票值。
使用相对多数投票法对多个分类结果进行投票的实施方式例如:假设对于一个N分类问题,即根据字符图像从N个分类中确定一个分类的问题,其字符图像的分类类别标签为{C1,C2,...,CN},学习器(例如表示为hi)在样本数据(例如上面的字符图像,用x表示)上的预测输出为一个N维向量表示为(h1(x);h2(x);...;hN(x))。若使用相对多数投票法对多个分类结果进行投票的具体实施方式例如下面的公式:
即预测为得票最多的标记,如有多个标记获得最高得票,则从中随机选取一个作为预测结果。在公式(5)中,hi为上述的学习器或者分类器,x为上述的样本数据(例如上述的字符图像),T为学习器或者分类器的数量,由上面的分析可以得知,当T=3时,绝对多数投票法和相对多数投票法的结果完全一致。
如上描述的确定目标分类三种方式,上面介绍了第二种基于相对多数投票法确定目标分类的方式,下面介绍第三种基于加权投票法确定目标分类的方式:
在步骤S121之后,执行步骤S124:使用加权投票法对多个分类结果的每个分类结果进行投票,获得多个投票值。
对多个分类结果进行加权投票的具体实施方式例如:假设对于一个N分类问题,即根据字符图像从N个分类中确定一个分类的问题,其字符图像的分类类别标签为{C1,C2,...,CN},学习器(例如表示为hi)在样本数据(例如上面的字符图像,用x表示预测输出为一个N维向量表示为(h1(x);h2(x);...;hN(x))。
这里需要说明的是,上面的公式(5)和(6)中没有限制各分类器h(x)的输出类型,对于不同的分类器其输出可能有不同的类型,常见的h(x)输出类型有类标记和类概率。对于类标记:hi j(x)属于{0,1},即0或1,即若分类器hi将样本x预测为cj,其取值为1,否则取值为0;而对于类概率:hi j(x)属于[0,1],即0到1之间的任一个数,该数包括0和1,此时相当于对后验概率P(cj|x)的一个估计值。
步骤S125:对多个投票值进行加权求和,获得多个投票分值。
其中,对多个投票值进行加权求和,获得多个投票分值的实施方式例如:上面的多个分类结果可以为三个分类结果,上面的多个投票值可以是四个投票值,这四个投票值的权重分别为0.1、0.2、0.3和0.4;第一投票值和第二投票值是第一分类结果的,第三投票值是第二分类结果的,第四投票值是第三分类结果的,那么这三个分类结果的投票分值分别为:0.3、0.3和0.4。
需要说明的是,对多个投票值进行加权求和时,需要根据各个投票值的权重进行加权求和,其中,加权所需要的权重获得方法可以包括如下步骤:
步骤S1251:根据多个分类结果建立层次结构模型。
根据多个分类结果建立层次结构模型的实施方式例如:可以将问题包含的因素进行分层:最高层(目标层);中间层:(各模型的评价指标);最底层(策略对象)。中间层是将最终目标与策略架起的重要桥梁,表示目标所涉及到的各类因素,就本申请实施例而言,选择了将神经网络模型的评价指标作为中间层,以此来建立层次结构模型。需要注意的是,模型的评价指标均为accuracy。而对于多分类问题,常用的模型评价指标有准确率(accuracy)、错误率(error rate)、精确率(precision)、召回率(recall)、综合评价指标(F-score)、计算速度、模型复杂度(O(fn))等。
请参见图6示出的本申请实施例提供的基于权值投票法的层次结构模型的示意图;这里可以选用accuracy、f1_score、预测所需时间(t-p)、时间复杂度O(fn)作为AHP的中间层。在计算accuracy、f1_score等评价指标时,需说明一下混淆矩阵,这里的混淆矩阵例如,TP:将正类预测为正类;TN:将负类预测为负类;FP:将负类预测为正类;FN:将正类预测为负类。层次分析法解决的是最底层对最高层的权重问题,进而在不同的因素中做出合理的选择。
步骤S1252:根据层次结构模型构造判断矩阵。
根据层次结构模型构造判断矩阵的实施方式例如:在确定各因素之间的权重时,如果只是定性的结果,常常不容易被别人接受,因此这里采用了一致矩阵法,即不把所有因素放在一起比较,而是两两进行相互比较,从而尽可能减少性质不同的因素相互比较的困难,以提高准确度。若用aij来表示因素i与因素j的重要性比较结果,则有aji=1/aij。
步骤S1253:对判断矩阵进行一致性检验和单层次排序。
对判断矩阵进行一致性检验和单层次排序的实施方式例如:根据矩阵理论Ax=λx,其中,λ为特征值,对所有的aii=1,有当矩阵完全一致时,λ1=λmax,其余特征值为0;当矩阵不具有完全一致性时,λ1=λmax>n,其余特征值有以下关系:因此,当判断矩阵不完全一致时,相应的判断矩阵的特征值也发生变化,此时引入判断矩阵最大特征值以外的其余特征值的负平均值作为衡量判断矩阵偏离一致性的指标,即:其中,CI越大,表明判断矩阵偏离完全一致性的程度越大;CI越小,判断矩阵一致性越好。当判断矩阵具有满意一致性时,λmax稍大于n,其余特征值也接近于0,下表为随机一致性指标(RI)。
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
RI | 0 | 0 | 0.58 | 0.90 | 1.12 | 1.24 | 1.32 | 1.41 | 1.49 |
当矩阵阶数大于2时,判断矩阵的一致性指标CI与同阶随机一致性指标RI之比称为随机一致性比率,记为CR,当CR=CI/RI<0.1时,即认为判断矩阵具有满意的一致性,否则需重新调整判断矩阵,使之具有满意的一致性。
一般来说,判断矩阵的最大特征值及特征向量并不需要追求较高的精度,因此关于判断矩阵最大特征值及特征向量的计算有两种简单的计算方法:几何平均法和规范列平均法,而对于几何平均法,其具体方法为:
①计算判断矩阵各行元素的乘积Mi;
③对各行元素乘积的n次方根进行归一化处理得到权重向量Wj;
为了方便计算,本申请实施例对各判断矩阵进行了最大特征值及特征向量的求解,其计算结果如下表所示。
判断矩阵 | n | λ<sub>max</sub> | CI | RI | CR | 权重向量W<sub>x</sub> |
A | 4 | 4.016 | 0.0054 | 0.90 | 0.0061 | [0.439,0.301,0.163,0.097] |
B1 | 3 | 3.009 | 0.0046 | 0.58 | 0.0079 | [0.163,0.297,0.540] |
B2 | 3 | 3.009 | 0.0046 | 0.58 | 0.0079 | [0.224,0.369,0.407] |
B3 | 3 | 3.108 | 0.0539 | 0.58 | 0.0930 | [0.319,0.221,0.460] |
B4 | 3 | 3.001 | 0.0006 | 0.58 | 0.0011 | [0.298,0.240,0.462] |
步骤S1254:根据一致性检验和单层次排序的结果进行总层次排序。
计算某一层所有因素对于目标层的组合权重,即为层次总排序,这一过程是从最高层到最低层依次进行,其组合权值计算结果如下:
此时,通过层次分析法已得到Bi-LSTM、CRNN及CNN这三个模型的权重分别为0.220、0.301、0.479。
在步骤S125之后,执行步骤S126:将多个投票分值中的投票分值最高的分类结果确定为目标分类。
将多个投票分值中的投票分值最高的分类结果确定为目标分类的实施方式例如:Bi-LSTM、CRNN及CNN这三个模型的分类结果各一票,三个分类结果的权重分别为0.220、0.301、0.479,那么三个分类结果的投票分值分别为0.220、0.301、0.479,多个投票分值中的投票分值最高的分类结果应当是0.479对应的分类结果,即将CNN分类模型获得的分类结果作为目标分类。
在具体的实施过程中,本申请实施例采用了多种深度学习神经网络模型对脱机手写体汉字进行了识别对比研究,各网络模型在测试集上的测试结果如下表所示。
在本申请实施例中,从表中可以可看出,对比结果表明这里选择accuracy作为模型的评价指标,对于不同的网络,其结果相差也是很大,就循环神经网络来说,由于双向LSTM模型同时可以利用正向和反向两个方向上的信息使得预测更加准确,因此其结果明显优于单向LSTM;CRNN是将CNN和RNN两者相结合,将CNN提取的特征作为Bi-LSTM的输入,该结果与前三中网络相比有较大的提升,可以达到94.58%的识别率。
本申请实施例采用了集成学习的方法对Bi-LSTM、CRNN和CNN这三个已经训练好的模型使用了相对多数投票法和加权投票法对所有测试集进行了识别,其中效果最好的为基于类概率的加权投票法,达到了96.33%的识别率,与前面几种单个深度学习网络相比均有很大的提高。究其原因是因为采用了基于集成学习和加权投票法的方法,将Bi-LSTM、CRNN和CNN这三种深度学习神经网络组合成一个元分类器,与单个分类器相比,元分类器具有更好的泛化性能,在此基础上,采用加权投票法使得最优的深度学习神经网络拥有最大的表决权重,次优的深度学习神经网络拥有较大的表决权重,因此,保证了最终获得比单个深度学习神经网络更好的识别结果。
在上述的实现过程中,使用不同类型的神经网络模型进行集成学习获得字符图像的目标分类,通过结合不同类型的神经网络模型的优缺点来提高字符识别的准确率。
可选地,在本申请实施例中,这里的字符图像可以是汉字字符的图像,当然也可以为其它文字字符的图像,其它文字字符例如:英文字符、蒙古文字符、德文字符等等。为了便于理解和说明,这里以汉字字符为例进行说明,那么在步骤S120之后,还可以包括如下步骤:
步骤S130:将目标分类对应的汉字编码确定为字符图像的汉字编码。
汉字编码(Chinese character encoding)是为汉字设计的一种便于输入计算机的代码。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。
将目标分类对应的汉字编码确定为字符图像的汉字编码的实施方式例如:确定目标分类对应的汉字编码;并将目标分类对应的汉字编码确定为字符图像的汉字编码。具体地例如:目标分类为2,目标分类2对应的Unicode编码,即汉字编码为18030,则该字符图像的汉字编码,即Unicode编码也为18030。
在上述的实现过程中,使用不同类型的神经网络模型进行集成学习获得汉字字符图像的目标分类,通过结合不同类型的神经网络模型的优缺点来提高对汉字字符识别的准确率。
请参见图7示出的本申请实施例提供的字符图像识别装置结构示意图;本申请实施例提供了一种字符图像识别装置200,该字符图像识别装置200包括:
图像分类模块210,用于使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果,字符图像为包含手写体字符的图像。
目标确定模块220,用于将从多个分类结果中的一个分类结果确定为目标分类。
可选地,在本申请实施例中,字符图像为汉字字符的图像,还包括:
编码确定模块,用于将目标分类对应的汉字编码确定为字符图像的汉字编码。
可选地,在本申请实施例中,多个分类结果包括:第一分类结果和第二分类结果,图像分类模块包括:
第一分类模块,用于使用预先训练的卷积神经网络模型对字符图像进行分类,获得第一分类结果。
第二分类模块,用于使用预先训练的循环神经网络模型对字符图像进行分类,获得第二分类结果。
可选地,在本申请实施例中,多个分类结果还包括第三分类结果,图像分类模块还包括:
第三分类模块,用于使用预先训练的卷积循环神经网络模型对字符图像进行分类,获得第三分类结果,卷积循环神经网络模型为由卷积神经网络和循环神经网络构建的预先训练的神经网络模型,卷积循环神经网络模型包括:卷积神经网络模型和循环神经网络模型。
可选地,在本申请实施例中,循环神经网络模型为双向长短期记忆网络模型。
可选地,在本申请实施例中,目标确定模块可以包括:
第一投票模块,用于对多个分类结果进行投票,获得多个分类结果中的每个分类结果对应的投票数量。
第一确定模块,用于将多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类。
可选地,在本申请实施例中,该目标确定模块还可以包括:
第二投票模块,用于使用相对多数投票法对多个分类结果进行投票,获得多个分类结果中的每个分类结果对应的投票值。
第二确定模块,用于将多个分类结果中的票数最多的分类结果确定为目标分类。
可选地,在本申请实施例中,该目标确定模块还可以包括:
第三投票模块,用于使用加权投票法对多个分类结果的每个分类结果进行投票,获得多个投票值。
分值获得模块,用于对所述多个投票值进行加权求和,获得多个投票分值。
第三确定模块,用于将多个投票分值中的加权投票分值最大的分类结果确定为目标分类。
应理解的是,该装置与上述的方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图8示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种存储介质330,该存储介质330上存储有计算机程序,该计算机程序被处理器310运行时执行如上的方法。
其中,存储介质330可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种字符图像识别方法,其特征在于,包括:
使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果,所述字符图像为包含手写体字符的图像;
将从所述多个分类结果中的一个分类结果确定为目标分类。
2.根据权利要求1所述的方法,其特征在于,所述字符图像为汉字字符的图像,在所述将从所述多个分类结果中的一个分类结果确定为目标分类之后,还包括:
将所述目标分类对应的汉字编码确定为所述字符图像的汉字编码。
3.根据权利要求1所述的方法,其特征在于,所述多个分类结果包括:第一分类结果和第二分类结果,所述使用预先训练的多个不同类型的神经网络模型对所述字符图像进行分类,获得多个分类结果,包括:
使用预先训练的卷积神经网络模型对所述字符图像进行分类,获得所述第一分类结果;
使用预先训练的循环神经网络模型对所述字符图像进行分类,获得所述第二分类结果。
4.根据权利要求3所述的方法,其特征在于,所述多个分类结果还包括第三分类结果,在所述使用预先训练的双向长短期记忆网络模型对所述字符图像进行分类,获得所述第二分类结果之后,还包括:
使用预先训练的卷积循环神经网络模型对所述字符图像进行分类,获得所述第三分类结果,所述卷积循环神经网络模型为由卷积神经网络和循环神经网络构建的预先训练的神经网络模型,所述卷积循环神经网络模型包括:卷积神经网络模型和循环神经网络模型。
5.根据权利要求3-4任一所述的方法,其特征在于,所述循环神经网络模型为双向长短期记忆网络模型。
6.根据权利要求1所述的方法,其特征在于,所述将从所述多个分类结果中的一个分类结果确定为目标分类,包括:
对所述多个分类结果进行投票,获得所述多个分类结果中的每个分类结果对应的投票数量;
将所述多个分类结果中的票数最多,且票数过半的分类结果确定为目标分类。
7.根据权利要求1所述的方法,其特征在于,所述将从所述多个分类结果中的一个分类结果确定为目标分类,包括:
使用相对多数投票法对所述多个分类结果进行投票,获得所述多个分类结果中的每个分类结果对应的投票值;
将所述多个分类结果中的票数最多的分类结果确定为目标分类。
8.根据权利要求1所述的方法,其特征在于,所述将从所述多个分类结果中的一个分类结果确定为目标分类,包括:
使用加权投票法对所述多个分类结果的每个分类结果进行投票,获得多个投票值;
对所述多个投票值进行加权求和,获得多个投票分值;
将所述多个投票分值中的投票分值最高的分类结果确定为目标分类。
9.一种字符图像识别装置,其特征在于,包括:
图像分类模块,用于使用预先训练的多个不同类型的神经网络模型对获得的字符图像进行分类,获得多个分类结果,所述字符图像为包含手写体字符的图像;
目标确定模块,用于将从所述多个分类结果中的一个分类结果确定为目标分类。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911109821.8A CN110866530A (zh) | 2019-11-13 | 2019-11-13 | 一种字符图像识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911109821.8A CN110866530A (zh) | 2019-11-13 | 2019-11-13 | 一种字符图像识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866530A true CN110866530A (zh) | 2020-03-06 |
Family
ID=69653889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911109821.8A Pending CN110866530A (zh) | 2019-11-13 | 2019-11-13 | 一种字符图像识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866530A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340033A (zh) * | 2020-03-17 | 2020-06-26 | 北京工业大学 | 一种易混字符二次识别方法 |
CN111428715A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字识别方法 |
CN111476110A (zh) * | 2020-03-18 | 2020-07-31 | 深圳中兴网信科技有限公司 | 基于批改痕迹识别的集成学习方法、装置和可读存储介质 |
CN111493829A (zh) * | 2020-04-23 | 2020-08-07 | 四川大学华西医院 | 轻度认知障碍识别参数测定方法、系统及设备 |
CN111507348A (zh) * | 2020-04-15 | 2020-08-07 | 深源恒际科技有限公司 | 基于ctc深度神经网络的文字分割和识别的方法 |
CN111611985A (zh) * | 2020-04-23 | 2020-09-01 | 中南大学 | 一种基于模型融合的ocr识别方法 |
CN111753744A (zh) * | 2020-06-28 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于票据图像分类的方法、装置、设备及可读存储介质 |
CN111781244A (zh) * | 2020-07-15 | 2020-10-16 | 中国科学院自动化研究所 | 基于长短期记忆网络的红外热成像式涂层检测方法 |
CN111985484A (zh) * | 2020-08-11 | 2020-11-24 | 云南电网有限责任公司电力科学研究院 | 基于cnn-lstm的温度仪表数字识别的方法及装置 |
CN112001386A (zh) * | 2020-08-31 | 2020-11-27 | 重庆紫光华山智安科技有限公司 | 一种基于车牌字符识别方法、系统、介质及终端 |
CN112001393A (zh) * | 2020-07-06 | 2020-11-27 | 西安电子科技大学 | 一种特定字符识别fpga实现方法、系统、存储介质及应用 |
CN112966779A (zh) * | 2021-03-29 | 2021-06-15 | 安徽大学 | 一种PolSAR影像半监督分类方法 |
CN113052067A (zh) * | 2021-03-24 | 2021-06-29 | Oppo广东移动通信有限公司 | 实时翻译方法、装置、存储介质及终端设备 |
CN116883765A (zh) * | 2023-09-07 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355030A (zh) * | 2016-09-20 | 2017-01-25 | 浙江大学 | 一种基于层次分析法和加权投票决策融合的故障检测方法 |
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN107679531A (zh) * | 2017-06-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于深度学习的车牌识别方法、装置、设备及存储介质 |
CN107844740A (zh) * | 2017-09-05 | 2018-03-27 | 中国地质调查局西安地质调查中心 | 一种脱机手写、印刷汉字识别方法及系统 |
WO2018099194A1 (zh) * | 2016-11-30 | 2018-06-07 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108921031A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 汉字模型训练方法、手写字识别方法、装置、设备及介质 |
US20190102653A1 (en) * | 2017-09-29 | 2019-04-04 | Konica Minolta Laboratory U.S.A., Inc. | Local connectivity feature transform of binary images containing text characters for optical character/word recognition |
-
2019
- 2019-11-13 CN CN201911109821.8A patent/CN110866530A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355030A (zh) * | 2016-09-20 | 2017-01-25 | 浙江大学 | 一种基于层次分析法和加权投票决策融合的故障检测方法 |
WO2018099194A1 (zh) * | 2016-11-30 | 2018-06-07 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN107679531A (zh) * | 2017-06-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于深度学习的车牌识别方法、装置、设备及存储介质 |
CN107844740A (zh) * | 2017-09-05 | 2018-03-27 | 中国地质调查局西安地质调查中心 | 一种脱机手写、印刷汉字识别方法及系统 |
US20190102653A1 (en) * | 2017-09-29 | 2019-04-04 | Konica Minolta Laboratory U.S.A., Inc. | Local connectivity feature transform of binary images containing text characters for optical character/word recognition |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108921031A (zh) * | 2018-06-04 | 2018-11-30 | 平安科技(深圳)有限公司 | 汉字模型训练方法、手写字识别方法、装置、设备及介质 |
Non-Patent Citations (6)
Title |
---|
HAIQINGREN等: "Recognizing online handwritten Chinese characters using RNNs with new computing architectures", 《PATTERN RECOGNITION》 * |
张新峰 等: "基于双向LSTM的手写文字识别技术研究", 《南京师大学报(自然科学版)》 * |
金连文: "深度学习在手写汉字识别中的应用综述" * |
金连文: "深度学习在手写汉字识别中的应用综述", 《自动化学报》 * |
黄浩然: "基于集成学习的MINIST手写数字识别" * |
黄浩然: "基于集成学习的MINIST手写数字识别", 《电子制作》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340033A (zh) * | 2020-03-17 | 2020-06-26 | 北京工业大学 | 一种易混字符二次识别方法 |
CN111340033B (zh) * | 2020-03-17 | 2023-05-02 | 北京工业大学 | 一种易混字符二次识别方法 |
CN111476110A (zh) * | 2020-03-18 | 2020-07-31 | 深圳中兴网信科技有限公司 | 基于批改痕迹识别的集成学习方法、装置和可读存储介质 |
CN111428715A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字识别方法 |
CN111507348A (zh) * | 2020-04-15 | 2020-08-07 | 深源恒际科技有限公司 | 基于ctc深度神经网络的文字分割和识别的方法 |
CN111611985A (zh) * | 2020-04-23 | 2020-09-01 | 中南大学 | 一种基于模型融合的ocr识别方法 |
CN111493829A (zh) * | 2020-04-23 | 2020-08-07 | 四川大学华西医院 | 轻度认知障碍识别参数测定方法、系统及设备 |
CN111753744A (zh) * | 2020-06-28 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于票据图像分类的方法、装置、设备及可读存储介质 |
CN111753744B (zh) * | 2020-06-28 | 2024-04-16 | 北京百度网讯科技有限公司 | 用于票据图像分类的方法、装置、设备及可读存储介质 |
CN112001393A (zh) * | 2020-07-06 | 2020-11-27 | 西安电子科技大学 | 一种特定字符识别fpga实现方法、系统、存储介质及应用 |
CN112001393B (zh) * | 2020-07-06 | 2024-02-02 | 西安电子科技大学 | 一种特定字符识别fpga实现方法、系统、存储介质及应用 |
CN111781244B (zh) * | 2020-07-15 | 2021-10-26 | 中国科学院自动化研究所 | 基于长短期记忆网络的红外热成像式涂层检测方法 |
CN111781244A (zh) * | 2020-07-15 | 2020-10-16 | 中国科学院自动化研究所 | 基于长短期记忆网络的红外热成像式涂层检测方法 |
CN111985484A (zh) * | 2020-08-11 | 2020-11-24 | 云南电网有限责任公司电力科学研究院 | 基于cnn-lstm的温度仪表数字识别的方法及装置 |
CN112001386A (zh) * | 2020-08-31 | 2020-11-27 | 重庆紫光华山智安科技有限公司 | 一种基于车牌字符识别方法、系统、介质及终端 |
CN112001386B (zh) * | 2020-08-31 | 2021-06-15 | 重庆紫光华山智安科技有限公司 | 一种基于车牌字符识别方法、系统、介质及终端 |
CN113052067A (zh) * | 2021-03-24 | 2021-06-29 | Oppo广东移动通信有限公司 | 实时翻译方法、装置、存储介质及终端设备 |
CN112966779A (zh) * | 2021-03-29 | 2021-06-15 | 安徽大学 | 一种PolSAR影像半监督分类方法 |
CN116883765A (zh) * | 2023-09-07 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN116883765B (zh) * | 2023-09-07 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
Al-Waisy et al. | A multi-biometric iris recognition system based on a deep learning approach | |
Goodfellow et al. | Multi-digit number recognition from street view imagery using deep convolutional neural networks | |
CN111079639B (zh) | 垃圾图像分类模型构建的方法、装置、设备及存储介质 | |
Sankaran et al. | Group sparse autoencoder | |
CN109522925B (zh) | 一种图像识别方法、装置和存储介质 | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN107704859A (zh) | 一种基于深度学习训练框架的文字识别方法 | |
Omara et al. | A novel approach for ear recognition: learning Mahalanobis distance features from deep CNNs | |
Boranbayev et al. | Analyzing methods of recognition, classification and development of a software system | |
Wu | Image retrieval method based on deep learning semantic feature extraction and regularization softmax | |
Abdelwahab et al. | Deep distributional sequence embeddings based on a wasserstein loss | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
Jiang et al. | Time series classification based on image transformation using feature fusion strategy | |
Shehu et al. | Lateralized approach for robustness against attacks in emotion categorization from images | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
Jadhav et al. | HDL-PI: hybrid DeepLearning technique for person identification using multimodal finger print, iris and face biometric features | |
Shinde et al. | Feedforward back propagation neural network (FFBPNN) based approach for the identification of handwritten math equations | |
Siripibal et al. | A comparative study of object recognition techniques: Softmax, linear and quadratic discriminant analysis based on convolutional neural network feature extraction | |
Zanwar et al. | English Handwritten Character Recognition Based on Ensembled Machine Learning | |
US11562184B2 (en) | Image-based vehicle classification | |
Senthil et al. | An efficient CNN model with squirrel optimizer for handwritten digit recognition | |
US20210326645A1 (en) | Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames | |
Rai et al. | Handwritten signature verification using TensorFlow | |
CN114417938A (zh) | 一种利用知识向量嵌入的电磁目标分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |
|
RJ01 | Rejection of invention patent application after publication |