CN107330480B - 手写字符计算机识别方法 - Google Patents
手写字符计算机识别方法 Download PDFInfo
- Publication number
- CN107330480B CN107330480B CN201710532593.XA CN201710532593A CN107330480B CN 107330480 B CN107330480 B CN 107330480B CN 201710532593 A CN201710532593 A CN 201710532593A CN 107330480 B CN107330480 B CN 107330480B
- Authority
- CN
- China
- Prior art keywords
- layer
- algorithm
- training
- matrix
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000004913 activation Effects 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 21
- 210000002569 neuron Anatomy 0.000 claims description 20
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 71
- 238000013527 convolutional neural network Methods 0.000 description 30
- 238000012360 testing method Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013329 compounding Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008076 immune mechanism Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2455—Discrimination between machine-print, hand-print and cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种手写字符计算机识别方法,其特征在于:基于二次卷积神经网络结构模型,该模型有9层:包括输入层、5个由卷积层和池化层交错构成的隐含层、全连接层、输出层,其中全连接层之后具有一个Dropout层,具体步骤包括:预训练滤波器、输入用于训练的图片数据集、使用Relu激活函数,输出特征向量等。本发明具有能加快收敛速度,解决过拟合问题,减少累积误差,提高识别率的特点。
Description
技术领域
本发明属于图像识别领域,具体地说是涉及一种手写字符计算机识别方法。
背景技术
卷积神经网络(Convolutional neural network,CNN)因其在目标检测、图像分类、知识获取、图像语义分割等领域的成功应用而备受关注,提高改进其性能是一个研究热点。现有技术中,在解决图像目标检测问题时,采用CPU控制卷积神经网络的整体流程和数据调度,运用GPU提高神经网络单元中的卷积计算和全连接层合并计算单元的运算速度,虽然神经网络学习速度得到了改善,但是也因为CPU和GPU之间的数据转换和调度导致了时间成本的增加,而且弱的GPU平台容易出现进程中断的问题。基于免疫机制获得了改进的卷积神经网络,虽然在MNIST数据集上取得了108.501s的较短识别时间,但是却导致识别率仅有81.6%。研究者提出了特征映射模型的多输入Sigmoid激活函数神经网络权值共享的最优网络结构算法。研究者使用不同大小的神经元内核组成特征图,将神经元元素引入到最大汇集层,从而将不同大小的神经元映射到汇集层。该方法在特征字符集中虽然获得了96.33%的识别率,但是其消耗的时间也较大。改进的MLP-CNN模型(MLP-CNN)通过增加神经网络特征数、使用随机梯度下降算法优化“交叉熵”,从而提高模型的性能。
在缓和过拟合问题方面,研究者设计了一种伴随目标函数,并建立了基于卷积滤波器和非线性激活函数的辅助监听机制与规范化的辅助监听策略,从而提出了一种可以缓和卷积神经网络过拟合问题的伴随目标函数的正则化策略机制。此方法须采用端到端监督学习以微调正则化策略,进行辅助监听的卷积滤波器和非线性激活函数需要额外时间开销。研究者运用Laplace-Beltrami算子优化网络参数,在解决加权的磁共振图像识别问题中取得了很好效果,但针对小样本数据引起的过拟合问题需要采用监督学习的方式微调训练网络。研究者利用卷积神经网络无监督学习功能,将双线性插值引入卷积神经网络结构,并引入细粒度美学质量进行预测分类,从而实现对照片进行自动化美学评价。虽然解决了因高质量图片太大而导致卷积神经网络无法完整提取整个图片特征的问题,但是对较小的数字摄影图片集引起的过拟合问题,没有提出相应的解决方案。研究者通过在每一个卷积层嵌入一个求局部平均与二次特征提取的计算层,获得了一种改进的卷积神经网络,其特有的两次特征提取结构可以减小特征分辨率,但当数据集规模增大、卷积神经网络的层数增加时,容易导致过拟合;最近邻规则的神经网络模型(WCNN)使用Sigmoid函数作为激活函数,通过复合多个“卷积层”和“池化层”实现输入信号的加工处理;同时,在连接层与输出目标间建立了映射关系,并运用聚类算法对特征进行分类。研究者在卷积神经网络的每层附加两个连续的卷积操作,通过加倍特征提取数量提高图像分类的识别率,对系统的内存要求高。
此外,针对卷积神经网络的收敛速度问题,研究者将多变量最大乘积和插值算子理论引入到卷积神经网络结构中,以算子理论中的运算符作为激活函数。此研究给出了详细的数学公式推导,但是没有给出应用测试结果。卷积神经网络技术,为图像的特征提取提供了新的途径。虽然许多学者就提高经典CNN的性能方面做了许多工作,但是在解决图像特征提取问题时,存在以下不足:
1)采用Sigmoid函数作为激活函数时,有可能使得原本在较大范围内变化的输入值挤压到(0,1)范围内输出,当训练数据集规模较大时,Sigmoid函数容易造成梯度饱和与收敛速度慢的问题。
2)CNN中常采用两种策略缓解过拟合问题:早停与正则化策略。早停策略中数据集被划分成训练集和测试集,前者用来计算梯度、更新连接权和阀值,后者用来评估误差,训练停止的标志是训练集误差降低而测试集误差升高;正则化策略则是其误差目标函数考虑了用于描述复杂度的因素。当CNN的学习层数增加时,他们解决过拟合问题的表现会变差。
3)在训练和评估阶段,CNN采用梯度下降策略,通过反向传播算法调整目标梯度的最小化训练集的累积误差,这个过程中并非每一层训练都评估累积误差,而是在给定的间隔层后才进行评估,虽然时间开锁会有所减少,但会导致累积误差增加。
发明内容
本发明的目的在于克服上述缺点而提供一种能加快收敛速度,解决过拟合问题,减少累积误差,提高识别率的手写字符计算机识别方法。
本发明的一种手写字符计算机识别方法,其中:基于二次卷积神经网络结构模型,该模型有9层:包括输入层、5个由卷积层和池化层交错构成的隐含层、全连接层、输出层(Softmax),其中全连接层之后具有一个Dropout层;具体包括下述步骤:
步骤1:预训练滤波器,并初始化滤波器尺寸的像素;
步骤2:输入用于训练的图片数据集,将训练集中的图片处理成与滤波器尺寸相同的图片,并读入数据形成图片数据矩阵X;
步骤3:初始化权重w(l) i,j和偏置bi,并调用Tensorflow提供的核函数def Kernel()初始化并行操作;
步骤6:按照步骤4与步骤5进行第二次卷积,得到特征矩阵X(3);
步骤7:将特征矩阵X(3)合并为一个列向量作为神经元在全连接层的输入,然后将之与权重矩阵相乘,加上偏置,并对其使用Relu激活函数,得到特征向量b1;
步骤9:将特征向量b2作为输入,利用Softmax分类器输出识别结果。
上述的手写字符计算机识别方法,其特征在于:所述步骤4中,卷积特征计算中步长为2,边距设置为0;池化操作使用3×3大小的矩阵。
本发明与现有技术的相比,具有明显的有益效果,由以上方案可知,所述的二次卷积神经网络结构模型,该模型有9层,包括输入层、5个由卷积层和池化层交错构成的隐含层、全连接层、输出层(Softmax),其中全连接层之后具有一个Dropout层;改进了卷积神经网络结构。在具体的步骤中,通过引入基于Relu的激活函数以避免梯度饱问题、提高收敛速度;通过在全连接层和输出层之间加入Dropout层解决过拟合问题,并设计了ADAM优化器的最小化“交叉熵”,将Dropout和ADAM与CNN相结合,形成了基于Dropout与ADAM优化器的改进卷积神经网络的手写字符计算机识别方法,并基于TensorFlow平台进行了并行化实现。该方法通过改进激活函数,避免了神经元节点输出恒为0的问题,在识别准确性、与时间开销方面得到了改善。
以下通过具体实施方式,进一步说明本发明的有益效果。
附图说明
图1为本发明的二次卷积神经网络结构模型;
图2为实施例中的非线性函数;
图3为实施例中的手写字符图像样本示例;
图4为实施例中的MCNN-DA算法在ADAM不同学习率下的识别率;
图5为实施例中的各种算法针对MNIST数据集的识别结果。
具体实施方式
以下结合附图及较佳实施例,对依据本发明提出的手写字符计算机识别方法具体实施方式、特征及其功效,详细说明如后。
如图1所示,本发明的一种手写字符计算机识别方法,基于所设计的二次卷积神经网络结构、Relu激活函数、以及基于Dropout与ADAM的过拟合防止方法,形成一种基于Dropout与ADAM优化器的卷积神经网络算法(aconvolution neural network algorithmbased on Dropout and ADAM optimizer,MCNN-DA),主要流程如下:
步骤1:预训练滤波器,并初始化滤波器尺寸的像素为:P1×P2;
步骤2:输入用于训练的图片数据集,将训练集中的图片处理成与滤波器尺寸相同的图片,并读入数据形成图片数据矩阵X;
步骤3:初始化权重w(l) i,j和偏置bi,并调用Tensorflow提供的核函数def Kernel()初始化并行操作;
步骤4:利用公式(1)计算第1层卷积特征矩阵X(1)。此步骤中,卷积特征计算中步长为2,边距设置为0;同时,为了保证经特征提取后输入和输出的图片具有相同的尺寸;池化操作使用3×3大小的矩阵;
步骤5:运用ADAM优化器函数公式(3)获得自顶向下的调节优化器的学习率,并调用Tensorflow中的权重与偏重更新接口更新权重wi和偏置bi,从而获得特征矩阵X(2);
步骤6:按照步骤4与步骤5进行第二次卷积,得到特征矩阵X(3);
步骤7:将特征矩阵X(3)合并为一个列向量作为神经元在全连接层的输入,然后将之与权重矩阵相乘,加上偏置,并对其使用Relu激活函数,得到特征向量b1;
步骤8:将全连阶层的特征向量作为dropout层的输入,并通过公式(2)计算神经元在dropout层中的输出概率,得到特征向量b2;
步骤9:将特征向量b2作为输入,利用Softmax分类器输出识别结果。
1.二次卷积神经网络结构
如图1所示的9层的二次卷积神经网络模型,它包含输入层、5个由卷积层和池化层交错构成的隐含层、全连接层、输出层(Softmax)。在这个结构中,全连接层之后具有一个Dropout层,他以给定的概率p丢神经元节点(后文的测试中,训练阶段p=0.5,在试阶段p=1);除了输出层之外,其余各层的激活函数均为ReLU函数。进行池化操作(max polling)的计算按公式(1)进行。
式中,w(l) i,j表示第l层第i类中第j个神经元的权重,bi代表第i类的偏置,“*”为卷积操作;xj (l)为第l层卷积中第j个神经元的输出;xj (l-1)表示第l-1层第j个神经元的输出,即第l层的输入数据;f(...)是模型的激活函数,具有非线性的特征。
2.基于Relu的激活函数
传统卷积神经网络CNN常采用的非线性函数tanh函数和sigmoid函数为激活函数(如图2(a)与2(b)所示)。
sigmoid函数将一个实数输入映射到[0,1]范围内,作为激活函数存在以下两个问题:1)存在梯度饱和问题。当函数激活值趋近极值0或者1时,函数的梯度趋近于0。对于第l层神经元反向传播产生的成本δ(l)的公式为(w(l))T表示第l层的第T个神经元的权重,当第l+1层神经元反向传播成本δ(l+1)趋近于0时,计算所得的梯度也趋近于0,达到不调整更新参数的目的。2)导致权重恒为正。函数输出的均值非0,这会导致后一层神经元获得非0均值的信号输入,从而导致输入神经元的数据为正,最终导致其权重恒为正。这些问题会导致参数收敛速度慢,影响训练的效率与模型的识别效果。tanh函数可以将一个实数输入映射到[-1,1]范围内,但它实际上是sigmoid函数的变形,即tanh(x)=2sigmoid(2x)-1,tanh函数也存在梯度饱和问题。
事实上,Relu(The Rectified Linear Unit)函数f(x)=max(0,x)(x∈(0,+∞))(见图2(c))具有以下特点:(1)梯度不饱和。梯度的计算公式为:I{x>0}。因此在反向传播过程中,减轻了梯度弥散的问题,神经网络前几层的参数也可以很快的更新。(2)计算复杂性低。Relu函数仅需要设置阈值,即如果x<0,f(x)=0,如果x>0,f(x)=x。
正是考虑到Relu函数的优势,采用Relu函数作为激活函数,以解决梯度饱和问题,提高收敛速度。
3.基于Dropout与ADAM的过拟合防止方法
为了提高网络的范化能力,将Dropout引入到卷积神经网络中。对于神经网络中的任一神经元,以概率p将其暂时从网络中丢弃,其公式如下:
同时,为了训练模型,首先定义一个表示模型是“坏”的指标作为成本,并使用“交叉熵”作为成本函数yθ'(θ),其定义如下:
其中,θ是预测的概率分布,θ'是实际的分布。在模型训练阶段,使用ADAM优化器以不同的学习率优化“交叉熵”。
有益效果分析如下:
1.测试环境
为了评估所设计算法的性能,在ubuntu14.04.4的64位操作系统中采用python语言编程实现了二次卷积神经网络学习算法,并安装了TensorFlow 0.9.0。对不同ADAM学习率的情况下,测试、分析了基于Dropout与ADAM优化器的卷积神经网络算法的性能,并将其与四种算法进行了对比。所得结果都是在多台同一批次购进的同型号电脑上测得,其配置为:i5-5200U CPU@2.20GHz×4,GPU为NVIDA GeForce 940M,8.00GB内存。
2.比较算法
用于比较的四种算法详情如下:
1)算法1:最近邻规则的神经网络模型(WCNN)。此算法使用Sigmoid函数作为激活函数,通过复合多个“卷积层”和“池化层”实现输入信号的加工处理;同时,在连接层与输出目标间建立了映射关系,并运用聚类算法对特征进行分类。
2)算法2:改进的MLP-CNN模型(MLP-CNN)。此算法通过增加神经网络特征数、使用随机梯度下降算法优化“交叉熵”,从而提高模型的性能。
3)算法3:极速学习机与支持向量机结合的算法(SVM-ELM),此算将极速学习机与支持向量机结合,削减隐层节点数为类别数,通过SVM优化每个节点的线性决策函数。
4)算法4:基于多分辨率直方图和梯度下降算法(GFGN)。
3.数据集及设置
测试使用的数据集包括2类:MNIST手写体数字集和HCL2000手写汉字数据集,它们均为灰度图像,详情见表1,示例见图3。MNIST是美国国家标准和技术研究所提供的一个专门用于手写体数字识别研究的数据库,包含60000个训练样本和10000个测试样本,每个样本为28px×28px的bmp图片。HCL2000是在国家863计划的资助下,由北京邮电大学模式识别实验室建立的国家脱机手写汉字标准数据库,搜集了1300个书写者针对3755个一级汉字的书写笔迹形成1300×3755个样本,每个汉字样本为64px×64px个二值像素。本实验中,选取随机其中的3000个汉字样本构成训练集或测试集,并将该数据集分为10个类别,同时将其调整为28px×28px的尺寸,并把像素归一化到[0,1]。
将从MNIST数据集中选取的60000测试样本和10000训练样本划分为10类:即0ˉ9共10个字符分别对应一个训练集与测试集;将HCL2000数据集中选取的2000个测试样本、1000个训练样本划分为10类,即每一个汉字对应一个训练集与测试集;2个卷积层的卷积核大小分别为7х7、5ⅹ5,池化因子为3ⅹ3,最大迭代次数为20000,实验次数为10次,Dropout在训练阶段的概率p=0.5,在测试阶段的概率p=1。
表1测试与训练数据集
4.不同学习率下的识别性能实验结果与分析
为了发现ADAM优化器的不同学习率对算法性能的影响,根据上节的实验设置,给定不同的学习率以测试分析算法的性能。ADAM优化器最小化“交叉熵”的学习率设置为:0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1。每一个学习率下的10次平均识别率的统计结果如图4所示。
从图4可以看出,对于所测试的2个数据集,当学习处于[0.2,0.4]内时,模型的识别率随着学习率的增加而提高,学习率与识别率表现出正相关。当ADAM优化器的学习率分布0.04ˉ0.08之间时,模型的识别率处于相对比较稳定的较高状态,此时,随着学习率的增加模型的识别率表现出微弱的增长趋势。随着学习率增大到0.8以上后,模型的识别率随着学习率的增加而显著下降,特别是当学习率达到1时,模型的识别率达到最低水平:20%左右。基于此数据集的测试表明:ADAM优化器的引入,可以影响系统的识别率。当学习率处于0.04ˉ0.08时,系统具有较好的表现。在后文的对比实验中,ADAM优化器的学习率设置为0.06。
5.与四种算法的比较与分析
每个算法针对每个测试集运行10次,不同算法的识别率统计结果如表2所示,不同数据规模下各算法在MNIST样本库中的识别率统计结果如图5所示。值得说明的是:由于算法SVM-ELM与SVM-ELM没有针对此数据集的测试结果,因此他们的数据没有体现在图中。
观察图5可知,本文算法对于不同的数据规模的识别率圴高于算法MLP-CNN与WCNN。随着数据规模的增长,MLP-CNN算法的识别性能有较大的波动。WCNN算法的识别率,在数据规模小于3.6万条时,随着数据规模的增大,识别率有上升的趋势,但是当数据规模大于3.6万条后,识别率反而有下降的趋势。本文算法对应的识别率曲线处于MLP-CNN与WCNN算法对应曲线的上方,这表明本文算法获得了更高的识别率。特别,随着数据规模的增大,本文算法的识别率波动较小,表现出了较强的鲁棒性。
观察表2可知,对于MNIST测试集,在最低识别率方面,WCNN、MLP-CNN、SVM-ELM、GFCN及本文算法的10次运算的平均值分别为95.11%、97.82%、89.5%、91.36%和98.02%,本文算法的性能表现排第1,MLP-CNN算法排第2,SVM-ELM算法的表现最差。在最高识别率及平均识别率方面,本文算法的性能表现排第1,WCNN算法排第2,MLP-CNN算法的表现最差。实事上,这些数据表明:基于卷积神经网络模型的WCNN、MLP-CNN及本文算法在特征识别方面的表现,最差时均比SVM-ELM和GFCN算法特征提取与融合的效果更佳。就表中的数据而言,本文算法的识别率表现最好,最高时可以达到99.21%。此外,正是因为对算法并行化的实现,本文算法在时间开锁方面也同样具有优势,本文算法的时间开销是WCNN算法的17.42%,MLP-CNN算法的5.81%,SVM-ELM算法的12.72%,GFCN算法的9.69%。
对于HCL2000测试集,本文算法与SVM-ELM和GFCN算法相比,同样具有优势,在最低识别率方面,本文算法比SVM-ELM和GFGN算法分别提高了9.16%和7.45%。在最高识别率方面,本文算法比SVM-ELM和GFGN算法分别提高了3.73%和4.17%。平均识别率方面,本文算法比SVM-ELM和GFGN算法分别提高了3.98%和5.31%。在时间开销方面,本文算法的时间开销是SVM-ELM算法的21.39%,GFCN算法的31.83%。
综上所述:本文算法在识别时间开销与识别率方面均比比较算法表现优越,算法具有良好的鲁棒性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
表2算法识别性能比较
Claims (2)
1.一种手写字符计算机识别方法,其特征在于:基于二次卷积神经网络结构模型,该模型有9层:包括输入层、5个由卷积层和池化层交错构成的隐含层、全连接层、输出层,其中全连接层之后具有一个Dropout层;具体包括下述步骤:
步骤1:预训练滤波器,并初始化滤波器尺寸;
步骤2:输入用于训练的图片数据集,该图片数据集为手写体数字集或手写汉字数据集,将训练集中的图片处理成与滤波器尺寸相同的图片,为28px×28px的尺寸,并读入数据形成图片数据矩阵X;
步骤3:初始化权重w(l) i,j、偏置bi;
步骤4:进行池化操作得到第1层卷积特征矩阵X(1);
步骤5:运用ADAM优化器函数公式获得自顶向下的调节优化器的学习率,并调用Tensorflow中的权重与偏置更新接口更新权重wi和偏置bi,从而获得特征矩阵X(2);
其中,所述ADAM优化器函数公式为:
其中,yθ'(θ)为成本函数,θ是预测的概率分布,θ'是实际的分布;
步骤6:按照步骤4与步骤5进行第二次卷积,得到特征矩阵X(3);
步骤7:将特征矩阵X(3)合并为一个列向量作为神经元在全连接层的输入,然后将之与权重矩阵相乘,加上偏置,并对其使用Relu激活函数,得到特征向量b1;
步骤8:将全连接层的特征向量作为dropout层的输入,并计算神经元在dropout层中的输出概率,得到特征向量b2;
步骤9:将特征向量b2作为输入,利用分类器输出识别结果,即可。
2.如权利要求1所述的手写字符计算机识别方法,其特征在于:所述步骤4中,卷积特征计算中步长为2,边距设置为0;池化操作使用3×3大小的矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710532593.XA CN107330480B (zh) | 2017-07-03 | 2017-07-03 | 手写字符计算机识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710532593.XA CN107330480B (zh) | 2017-07-03 | 2017-07-03 | 手写字符计算机识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330480A CN107330480A (zh) | 2017-11-07 |
CN107330480B true CN107330480B (zh) | 2020-10-13 |
Family
ID=60197846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710532593.XA Active CN107330480B (zh) | 2017-07-03 | 2017-07-03 | 手写字符计算机识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330480B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886128A (zh) * | 2017-11-10 | 2018-04-06 | 广东工业大学 | 一种羽毛球识别方法、系统、介质及设备 |
CN108664975B (zh) * | 2018-04-24 | 2022-03-25 | 新疆大学 | 一种维吾尔文手写字母识别方法、系统及电子设备 |
CN108764233B (zh) * | 2018-05-08 | 2021-10-15 | 天津师范大学 | 一种基于连续卷积激活的场景字符识别方法 |
CN109034186B (zh) * | 2018-06-11 | 2022-05-24 | 东北大学秦皇岛分校 | 基于da-rbm分类器模型的手写数据识别方法 |
CN109063561B (zh) * | 2018-06-28 | 2022-03-08 | 广州视源电子科技股份有限公司 | 公式的识别计算方法和装置 |
CN109034366B (zh) * | 2018-07-18 | 2021-10-01 | 北京化工大学 | 基于多激活函数的elm集成模型在化工建模中的应用 |
CN109377497A (zh) * | 2018-08-17 | 2019-02-22 | 西安电子科技大学 | 一种低场强胃部mri图像的分割装置及方法 |
CN109246495A (zh) * | 2018-11-19 | 2019-01-18 | 国网河南省电力公司 | 一种面向多层次、多指标的光网络业务质量评估方法 |
CN109543689A (zh) * | 2018-11-21 | 2019-03-29 | 北京同创信通科技有限公司 | 一种线上移动板坯标识智能识别系统及方法 |
CN109707658A (zh) * | 2019-02-28 | 2019-05-03 | 苏州尼昂科技有限公司 | 风机的性能参数的确定方法、装置和电子设备 |
CN110196635B (zh) * | 2019-04-28 | 2020-07-31 | 浙江大学 | 一种基于可穿戴设备的手势输入方法 |
CN110598691B (zh) * | 2019-08-01 | 2023-05-02 | 广东工业大学 | 一种基于改进多层感知机的药品字符标签的识别方法 |
CN112488241B (zh) * | 2020-12-18 | 2022-04-19 | 贵州大学 | 一种基于多粒度融合网络的零样本图片识别方法 |
CN113792620B (zh) * | 2021-08-27 | 2023-08-18 | 核工业西南物理研究院 | 基于深度神经网络的托卡马克边缘局域模实时识别算法 |
CN115361318B (zh) * | 2022-07-20 | 2023-06-09 | 贵州大学 | 一种复杂环境下动态负载均衡的lstm边缘计算流量预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927550A (zh) * | 2014-04-22 | 2014-07-16 | 苏州大学 | 一种手写体数字识别方法及系统 |
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
CN105956626A (zh) * | 2016-05-12 | 2016-09-21 | 成都新舟锐视科技有限公司 | 基于深度学习的对车牌位置不敏感的车牌识别方法 |
CN106204467A (zh) * | 2016-06-27 | 2016-12-07 | 深圳市未来媒体技术研究院 | 一种基于级联残差神经网络的图像去噪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7995820B2 (en) * | 2007-03-30 | 2011-08-09 | Siemens Medical Solutions Usa, Inc. | System and method for detection of fetal anatomies from ultrasound images using a constrained probabilistic boosting tree |
-
2017
- 2017-07-03 CN CN201710532593.XA patent/CN107330480B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927550A (zh) * | 2014-04-22 | 2014-07-16 | 苏州大学 | 一种手写体数字识别方法及系统 |
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
CN105956626A (zh) * | 2016-05-12 | 2016-09-21 | 成都新舟锐视科技有限公司 | 基于深度学习的对车牌位置不敏感的车牌识别方法 |
CN106204467A (zh) * | 2016-06-27 | 2016-12-07 | 深圳市未来媒体技术研究院 | 一种基于级联残差神经网络的图像去噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107330480A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330480B (zh) | 手写字符计算机识别方法 | |
Tian | Artificial intelligence image recognition method based on convolutional neural network algorithm | |
Tang et al. | Deepchart: Combining deep convolutional networks and deep belief networks in chart classification | |
Kong et al. | Spectral–spatial feature extraction for HSI classification based on supervised hypergraph and sample expanded CNN | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
Madakannu et al. | DIGI-Net: a deep convolutional neural network for multi-format digit recognition | |
CN113392876B (zh) | 一种基于图神经网络的小样本图像分类方法 | |
Pang et al. | Robust deep learning via reverse cross-entropy training and thresholding test | |
Zhu et al. | Solar filament recognition based on deep learning | |
Kumari et al. | Comparative Study on Handwritten Digit Recognition Classifier Using CNN and Machine Learning Algorithms | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
Cui et al. | Spectral-spatial hyperspectral image classification based on superpixel and multi-classifier fusion | |
Dan et al. | PF‐ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition | |
Ying et al. | License plate detection and localization in complex scenes based on deep learning | |
Wang et al. | Offline handwritten new Tai Lue characters recognition using CNN-SVM | |
Sarraf | Binary Image Segmentation Using Classification Methods: Support Vector Machines, Artificial Neural Networks and K th Nearest Neighbours | |
Liu et al. | Automatic labeling of large amounts of handwritten characters with gate-guided dynamic deep learning | |
Wang et al. | Multi‐level feature fusion network for crowd counting | |
Zhou et al. | Morphological Feature Aware Multi-CNN Model for Multilingual Text Recognition. | |
CN112257787B (zh) | 基于生成式双重条件对抗网络结构的图像半监督分类方法 | |
CN115170838A (zh) | 一种数据筛选方法及装置 | |
Jin | Handwritten digit recognition based on classical machine learning methods | |
Himabindu et al. | A comprehensive analytic scheme for classification of novel models | |
MUNSARIF et al. | An improved convolutional neural networks based on variation types of optimizers for handwritten digit recognition | |
JP2021089719A (ja) | 情報処理装置及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |