CN112906829B - 一种基于Mnist数据集的数字识别模型构建方法及装置 - Google Patents

一种基于Mnist数据集的数字识别模型构建方法及装置 Download PDF

Info

Publication number
CN112906829B
CN112906829B CN202110391935.7A CN202110391935A CN112906829B CN 112906829 B CN112906829 B CN 112906829B CN 202110391935 A CN202110391935 A CN 202110391935A CN 112906829 B CN112906829 B CN 112906829B
Authority
CN
China
Prior art keywords
model
lenet
training
pooling
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110391935.7A
Other languages
English (en)
Other versions
CN112906829A (zh
Inventor
李今朝
吕宗明
蓝科
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN202110391935.7A priority Critical patent/CN112906829B/zh
Publication of CN112906829A publication Critical patent/CN112906829A/zh
Application granted granted Critical
Publication of CN112906829B publication Critical patent/CN112906829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Abstract

本发明公开了一种基于Mnist数据集的数字识别模型构建方法及装置,主要解决现有技术中存在的现有数字模式识别精度不高,基于Mnist数据集识别模型易引起图像失真及在不同场景中泛化性还有待提升的问题。该发明利用空间金字塔池化层自适应处理多尺度信息输入的能力,使得模型方法支持任意尺度的图像数据输入。同时,模型通过能对多尺度信息的学习训练,具有较好的多尺度信息的表征性能。除此之外,该发明对迁移学习以及BN层的应用,极大降低了适应多环境数据训练的门槛,很好地促使了模型参数的有效学习以及模型训练效率的提升。因此,该模型方法具有较好的运行效率和泛化性。

Description

一种基于Mnist数据集的数字识别模型构建方法及装置
技术领域
本发明涉及深度学习图像识别领域,具体地说,是涉及一种基于Mnist数据集的数字识别模型构建方法及装置。
背景技术
数字是我们生活中最为常见的信息,庞大的数字量使得数字信息的人工录入十分困难;近年来,深度学习图像识别技术用于数字识别越来越成熟;在数字识别领域,LeCun等人和Simard等人最初只训练2-3层的全连接网络并结合机器学习方法诸如KNN、SVM实现对少量、简单的手写数字数据的识别,但是识别精度不高;随着Mnist手写数字数据集的发布,使得充分训练深度神经网络得到高性能的数字识别模型成为可能。
Mnist数据集的开源以及LeNet的提出在一定程度上给出了一套较好的基于深度学习的数字识别方法,但是还存在两个需要解决的问题:
①Mnist数据集的尺寸过于单一,不适合应用于多尺度数字图片的识别任务中;目前,在解决多尺度图片输入的常规做法中,往往是通过将多个尺度的图片放缩到模型指定的输入尺寸,并在放缩过程中通过插值的方式计算图像各区域的像素值,然而插值方法无法保留最原始输入图像信息,甚至会引起放缩前后图像失真。同时,此类方法依然是单一尺寸输入,多尺度输入信息未能充分利用,难以提升模型性能。
②Mnist数据虽然在数字写法风格上丰富多样,但是背景单一,现实场景中数字背景的多样性决定了无法仅使用Mnist数据集训练模型,识别模型在不同场景中的泛化性还有待提升。
发明内容
本发明的目的在于提供一种基于Mnist数据集的数字识别模型构建方法及装置,以解决现有数字模式识别精度不高,基于Mnist数据集识别模型易引起图像失真及在不同场景中泛化性还有待提升的问题。
为了解决上述问题,本发明提供如下技术方案:
一种基于Mnist数据集的数字识别模型构建方法,其特征在于,包括以下步骤:
S1、根据Mnist数据集对LeNet模型进行预训练,得到LeNet预训练模型;
S2、步骤S1中LeNet预训练模型的最后卷积层引入空间金字塔池化层结构;
S3、步骤S2中空间金字塔池化层结构自适应调整池化参数,得到固定输出特征的LeNet模型;
S4、步骤S3中LeNet模型的各个卷积层引入批归一化,然后固定各卷积层参数,更改模型分类层的输出节点数,得到输出适合目标任务分类的LeNet模型。
进一步的,步骤S1中预训练前需对Mnist数据集进行处理,具体处理过程为:对Mnist数据集进行图像二值化处理;然后对二值化处理后的数据,根据设定批次的大小分批处理得到训练集表。
进一步的,步骤S1的具体过程如下:
S101、搭建LeNet模型,其中含3个卷积层,2个降采样层,1个全连接层和1个输出层;
S102、搭建训练框架,根据训练集表中的Mnist手写数据对LeNet模型进行预训练,检验loss曲线是否收敛,是则保留模型参数,否则执行步骤S103;
S103、对对应的Mnist手写数据重新进行二值化处理及分批处理后,重新执行步骤S102;
S104、完成步骤S103后得到LeNet预训练模型。
进一步的,步骤S3的具体过程为:步骤S2得到的LeNet预训练模型中,空间金字塔池化层结构根据LeNet预训练模型最后卷积层的卷积特征图尺度,自动调节池化的步长、池化核窗口大小以及padding大小,通过不同尺度的池化操作,得到固定的池化输出维度,再将其串联融合,从而得到固定输出特征。
进一步的,步骤S3的具体计算过程如下:
(1)计算池化核的窗口尺寸和步长:
池化核的高宽:
Figure 11713DEST_PATH_IMAGE001
池化步长:
Figure 622954DEST_PATH_IMAGE002
其中
Figure 493958DEST_PATH_IMAGE003
为向上取整操作,h、w分别为卷积层特征图的高宽,n为池化窗口大 小;
(2)空间金字塔池化层中高宽方向的padding大小计算如下:
Figure 834941DEST_PATH_IMAGE004
其中
Figure 816586DEST_PATH_IMAGE005
为向下取整操作;
(3)进而可以得到新的特征图高宽:
Figure 508598DEST_PATH_IMAGE006
(4)根据计算得到的池化核大小
Figure 386555DEST_PATH_IMAGE007
,池化步长
Figure 847624DEST_PATH_IMAGE008
,padding尺寸
Figure 215151DEST_PATH_IMAGE009
对尺寸
Figure 128881DEST_PATH_IMAGE010
为的特征图进行最大值池化,取特征窗口中对应尺寸特征图的最大值 池化得到
Figure 607266DEST_PATH_IMAGE011
维的特征向量;
(5)将不同池化核得到特征向量进行串联融合(Concat fusion),方式如下:
Figure 188420DEST_PATH_IMAGE012
其中,
Figure 461270DEST_PATH_IMAGE013
表示不同池化尺度得到特征向量,
Figure 127875DEST_PATH_IMAGE014
为串联融合到的固定维度输 出向量,Concat(.)表示串联融合操作。
进一步的,步骤S4中LeNet模型的各个卷积层引入批归一化的具体过程如下:
(1)首先根据每个训练批次的数据
Figure 144372DEST_PATH_IMAGE015
,计算均值以及标准差:
Figure 580033DEST_PATH_IMAGE016
其中,m为每个批次中包含的数据量,x为批次中的样本数据;
(2)根据计算得到的均值和方差,对输入数据进行归一化:
Figure 23784DEST_PATH_IMAGE017
Figure 974422DEST_PATH_IMAGE018
为误差调整值,
Figure 997873DEST_PATH_IMAGE019
为规划后的数据;
(3)最后为了使模型自动优化归一化后的结果,引入扩展参数
Figure 288040DEST_PATH_IMAGE020
和平移参数
Figure 168271DEST_PATH_IMAGE021
Figure 543889DEST_PATH_IMAGE022
Figure 902189DEST_PATH_IMAGE023
即为BN层输出。
进一步的,一种基于Mnist数据集的数字识别模型构建方法还包括可对任意尺寸的印刷体数字图片数据进行学习训练以及识别的方法,其包括的步骤如下:
S501、对多尺度印刷体数字图片数据进行数据增强;
S502、预设LeNet模型的初始学习率,Batchsize训练框架参数,然后根据步骤S501增强后的数据对LeNet模型进行训练,判断loss曲线是否收敛,是则保留模型参数,否则执行步骤S503;
S503、对应的数据重新执行步骤S501至S502;
S504、完成步骤S503后得到LeNet-SPP模型。
进一步的,步骤S501中数据增强包括将多尺度印刷体数字图片数据通过旋转、镜像、剪切的方式进行数据增强。
一种基于Mnist数据集的多尺度印刷体数字识别装置包括存储器:用于存储可执行指令;处理器:用于执行所述存储器中存储的可执行指令,实现一种基于Mnist数据集的数字识别模型构建方法。
与现有技术相比,本发明具有以下有益效果:
(1)本发明通过在LeNet手写数字识别模型中设计引入空间金字塔池化层结构,针对不同尺度的特征图输入,SPP能自动地计算调整新的池化核参数配置,并结合串联融合方法,整合多尺度池化核输出特征得到固定维度输出;整个LeNet-SPP模型训练过程无需修改输入数据尺度,全程端到端,支持任意尺度的印刷体数字图片数据的端到端训练。
(2)本发明在输入数据不失真情况下,可以直接利用原始的多尺度目标数据,结合数据增强技术,更好地赋予模型多尺度特征的表征性能,同时也能有效缓解模型过拟合问题,充分利用原始数据的多尺度信息,模型表征能力强,性能更优。
(3)本发明通过运用迁移学习方法,将规模大、风格多变的Mnist手写数据集作为初始训练资源,率先赋予模型在数字识别领域的先验知识效果,再迁移至实际场景的印刷体数字识别任务上,结合BN层以及大初始学习率可实现LeNet-SPP的高效训练、快速拟合,以及赋予模型多环境下的学习能力,收敛速度快,训练效率高,泛化性强。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
实施例1
如图1所示,本发明针对实际场景中多尺度的印刷体数字图片识别任务,在大数据条件下提供了一种基于深度学习并结合了空间金字塔池化层结构以及迁移学习策略的数字识别方法。为实现该目的提供的一种基于Mnist数据集的数字识别模型构建方法,包括如下步骤:
S1,对Mnist数据集进行图像二值化处理,将图像的前后景颜色互调,使其符合白底黑字的显示规范,以下为二值化计算操作:
Figure 312442DEST_PATH_IMAGE024
其中,
Figure 97995DEST_PATH_IMAGE025
表示输入的Mnist手写数字图片数据,由于数据已图像灰度化,通道数为1,
Figure 757647DEST_PATH_IMAGE026
Figure 122900DEST_PATH_IMAGE027
分别表示输入图片的宽高尺度,
Figure 387659DEST_PATH_IMAGE028
为图片在
Figure 609693DEST_PATH_IMAGE029
位置处的像素值,其 中
Figure 959903DEST_PATH_IMAGE030
Figure 660006DEST_PATH_IMAGE031
为二值化后的值,二值化阈值设为
Figure 576009DEST_PATH_IMAGE032
S2,对二值化的训练数据进行批处理,根据预设各个训练批次大小,批处理后的训练集表示如下:
Figure 172207DEST_PATH_IMAGE033
其中,
Figure 806450DEST_PATH_IMAGE034
为批处理后多张图片的集合,
Figure 310244DEST_PATH_IMAGE035
代表训练集中的第张图片,batchsize为 每个批次集合中的图片数量。
S3,搭建手写数字识别模型LeNet,其中包含3个卷积层,2个降采样层,1个全连接 层和1个输出层;由于模型中的计算操作复杂,在这不详细给出,为方便描述,过程记为:
Figure 487279DEST_PATH_IMAGE036
其中
Figure 672072DEST_PATH_IMAGE037
表示神经网络的内部计算操作,
Figure 200136DEST_PATH_IMAGE038
为输出的预测结果,表示各个预测 类别的概率分布。
Figure 242041DEST_PATH_IMAGE039
归一化操作表示为:
Figure 335899DEST_PATH_IMAGE040
,为输出层分类向量长度。同 时,采取交叉熵结合训练参数正则化的方式计算分类结果的
Figure 70637DEST_PATH_IMAGE041
值,具体如下:
Figure 617156DEST_PATH_IMAGE042
其中,
Figure 728332DEST_PATH_IMAGE043
表示数据真实标签的one-hot值,C为分类数目,
Figure 676696DEST_PATH_IMAGE044
为模型参数,
Figure 582335DEST_PATH_IMAGE045
为正则 化参数。
S4,搭建训练框架,在Mnist手写数据集上对LeNet模型进行预训练,loss曲线收敛后,保留模型参数,不收敛的数据重复执行步骤S1至S3;最终得到预训练后的LeNet模型;这步中通常会默认假设了一个设计合理参数合适的深度模型在设定的训练轮数中能趋于收敛,避免出现无限循环的情况。
S5,LeNet模型预训练后,在最后卷积层设计引入空间金字塔池化(SpatialPyramid Pooling,SPP)层结构;最后卷积层指的是在卷积神经网络中最后执行卷积运算操作的特征输出。
S6,根据卷积特征图尺度,SPP自动调节池化的步长、池化核窗口大小以及padding大小,通过不同尺度的池化操作,得到固定的池化输出维度,再将其串联融合,从而得到固定输出特征。
为了方便描述SPP层算法细节,这里假设卷积层特征图的输出维度为,分别表示高度,宽度和通道数(值并不固定,可以是多尺度的特征图)。设定宽高方向的池化数量为(可根据需求选择多组池化数量),SPP层的计算流程如下:
(1)计算池化核的窗口尺寸和步长:
池化核的高宽:
Figure 881729DEST_PATH_IMAGE001
池化步长:
Figure 999858DEST_PATH_IMAGE002
其中
Figure 68308DEST_PATH_IMAGE003
为向上取整操作,h、w分别为卷积层特征图的高宽,n为池化窗口大 小;
(2)空间金字塔池化层中高宽方向的padding大小计算如下:
Figure 144849DEST_PATH_IMAGE004
其中
Figure 931539DEST_PATH_IMAGE005
为向下取整操作;
(3)进而可以得到新的特征图高宽:
Figure 118938DEST_PATH_IMAGE006
(4)根据计算得到的池化核大小
Figure 776315DEST_PATH_IMAGE007
,池化步长
Figure 23757DEST_PATH_IMAGE008
是指输入特征进行最大 或最小池化时操作窗口的高、宽方向大小,padding尺寸
Figure 828902DEST_PATH_IMAGE009
指的是对输入数据进行边 缘元素填充时的填充数据的高宽方向的大小,对尺寸
Figure 23254DEST_PATH_IMAGE010
为的特征图进行最大值 池化,取特征窗口中对应尺寸特征图的最大值池化得到
Figure 800717DEST_PATH_IMAGE011
维的特征向量;,指的是一条 长度为n×n的特征向量。即这条向量是有n×n个数据;其中padding指在输入图像或特征层 的边缘范围内填充元数值;
(5)将不同池化核得到特征向量进行串联融合(Concat fusion),方式如下:
Figure 219060DEST_PATH_IMAGE012
其中,
Figure 449184DEST_PATH_IMAGE013
表示不同池化尺度得到特征向量,
Figure 243965DEST_PATH_IMAGE014
为串联融合到的固定维度输 出向量,Concat(.)表示串联融合操作。
S7,为了解决在训练过程中模型参数陷入饱和区导致梯度逐渐消失,参数更新乏s力的问题,本发明在LeNet模型的各个卷积层后引入了批归一化(Batch Normalization,BN)操作,将失活数据重新变换到激励函数的敏感区域,使得每一层的值在有效的范围内传递下去。BN层计算方式如下:
(1)首先根据每个训练批次的数据
Figure 875935DEST_PATH_IMAGE015
,计算均值以及标准差:
Figure 465179DEST_PATH_IMAGE016
m为每个批次中包含的数据量,x为批次中的样本数据,向左的箭头是统计意义上的趋近值;
(2)根据计算得到的均值和方差,对输入数据进行归一化:
Figure 448179DEST_PATH_IMAGE017
Figure 781071DEST_PATH_IMAGE018
为误差调整值,
Figure 267547DEST_PATH_IMAGE019
为规划后的数据,向左的箭头是统计意义上的趋近值;
(3)最后为了使模型自动优化归一化后的结果,引入扩展参数
Figure 293272DEST_PATH_IMAGE020
和平移参数
Figure 497988DEST_PATH_IMAGE021
Figure 368992DEST_PATH_IMAGE022
Figure 975554DEST_PATH_IMAGE023
即为BN层输出即Bacthnormalization,指的批归一化操作,向左的箭头是统计 意义上的趋近值。
S8,固定LeNet-SPP模型的卷积层参数,更改模型分类层的输出节点数,使得模型输出适合目标任务的分类。
实施例2
如图1所示,本实施例在实施例1的基础上进一步的,一种基于Mnist数据集的数字识别模型构建方法还包括可对任意尺寸的印刷体数字图片数据进行学习训练以及识别的方法,其包括的步骤如下:
S501、对多尺度印刷体数字图片数据进行数据增强;
S502、预设LeNet模型的初始学习率,Batchsize训练框架参数,然后根据步骤S501增强后的数据对LeNet模型进行训练,判断loss曲线是否收敛,是则保留模型参数,否则执行步骤S503;这里通常默认假设了一个设计合理参数合适的深度模型在设定的训练轮数中能趋于收敛,不会出现无限循环的情况;
S503、对应的数据重新执行步骤S501至S502;
S504、完成步骤S503后得到LeNet-SPP模型;其中,LeNet指的是数字识别模型名称,SPP指的是设计引入的Spatial pyramid pooling 层,LeNet-SPP指两种方法的联合模型。
其中,步骤S501中数据增强包括将多尺度印刷体数字图片数据通过旋转、镜像、剪切的方式进行数据增强。
实施例3
一种基于Mnist数据集的多尺度印刷体数字识别装置包括存储器:用于存储可执行指令;处理器:用于执行所述存储器中存储的可执行指令,实现一种基于Mnist数据集的数字识别模型构建方法。
数字(特指阿拉伯数字)是目前出现在我们生活中最为常见的信息,诸如在金融、交通、教育等行业,各种数字编号,如邮政编码、电话号码,以及各种统计数据,如统计报表、财务报表、银行票据等,数字几乎渗透了工作生活的方方面面,因此,实现对数字信息的精确、高效、自动地录入,将会给企业和社会带来巨大的经济效益;本发明结合空间金字塔池化层和迁移学习方法的多尺度印刷体数字识别模型,该模型方法可以广泛应用于多尺度数字图像的识别任务中,在对各种编号和统计数据的识别分析过程中尤为重要。
本发明基于LeNet模型,在最后的卷积层设计引入空间金字塔池化(SpatialPyramid Pooling,SPP)层结构,构建了LeNet-SPP多尺度数字识别模型,模型通过自适应地调整多个池化操作窗口大小和步长,串联式融合输出特征,保证池化后的特征输出维度固定,从而实现对任意尺度的图像输入的端到端训练。同时,通过在Mnist数据集上预训练LeNet,采用迁移学习方法,将知识效果迁移至实际场景的目标数据上,使源域信息很好地指导模型参数进一步地学习。
本发明利用空间金字塔池化层自适应处理多尺度信息输入的能力,使得模型方法支持任意尺度的图像数据输入。同时,模型通过能对多尺度信息的学习训练,具有较好的多尺度信息的表征性能。除此之外,该发明对迁移学习以及BN层的应用,极大降低了适应多环境数据训练的门槛,很好地促使了模型参数的有效学习以及模型训练效率的提升。因此,该模型方法具有较好的运行效率和泛化性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于Mnist数据集的数字识别模型构建方法,其特征在于,包括以下步骤:
S1、根据Mnist数据集对LeNet模型进行预训练,得到LeNet预训练模型;
S2、步骤S1中LeNet预训练模型的最后卷积层引入空间金字塔池化层结构;
S3、步骤S2中空间金字塔池化层结构自适应调整池化参数,得到固定输出特征的LeNet模型;
S4、步骤S3中LeNet模型的各个卷积层引入批归一化,然后固定各卷积层参数,更改模型分类层的输出节点数,得到输出适合目标任务分类的LeNet模型;
所述基于Mnist数据集的数字识别模型构建方法还包括通过任意尺寸的印刷体数字图片数据对步骤S4的LeNet模型进行训练得到最终的LeNet-SPP模型;其具体过程如下:
S501、对多尺度印刷体数字图片数据进行数据增强;
S502、预设LeNet模型的初始学习率,Batchsize训练框架参数,然后根据步骤S501增强后的数据对LeNet模型进行训练,判断loss曲线是否收敛,是则保留模型参数,否则执行步骤S503;
S503、对应的数据重新执行步骤S501至S502;
S504、完成步骤S503后得到LeNet-SPP模型。
2.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法,其特征在于,步骤S1中预训练前需对Mnist数据集进行处理,具体处理过程为:对Mnist数据集进行图像二值化处理;然后对二值化处理后的数据,根据设定批次的大小分批处理得到训练集表。
3.根据权利要求2所述的一种基于Mnist数据集的数字识别模型构建方法,其特征在于,步骤S1的具体过程如下:
S101、搭建LeNet模型,其中含3个卷积层,2个降采样层,1个全连接层和1个输出层;
S102、搭建训练框架,根据训练集表中的Mnist手写数据对LeNet模型进行预训练,检验loss曲线是否收敛,是则保留模型参数,否则执行步骤S103;
S103、对对应的Mnist手写数据重新进行二值化处理及分批处理后,重新执行步骤S102;
S104、完成步骤S103后得到LeNet预训练模型。
4.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法,其特征在于,步骤S3的具体过程为:步骤S2得到的LeNet预训练模型中,空间金字塔池化层结构根据LeNet预训练模型最后卷积层的卷积特征图尺度,自动调节池化的步长、池化核窗口大小以及padding大小,通过不同尺度的池化操作,得到固定的池化输出维度,再将其串联融合,从而得到固定输出特征。
5.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法,其特征在于,步骤S3的具体计算过程如下:
(1)计算池化核的窗口尺寸和步长:
池化核的高宽:
Figure FDA0003717815800000021
池化步长:
Figure FDA0003717815800000022
其中ceil(·)为向上取整操作,h、w分别为卷积层特征图的高宽,n为池化窗口大小;
(2)空间金字塔池化层中高宽方向的padding大小计算如下:
Figure FDA0003717815800000031
其中floor(·)为向下取整操作;
(3)进而可以得到新的特征图高宽:hnew=2×pw+h,wnew=2×pw+w;
(4)根据计算得到的池化核大小(kh,kw),池化步长(sh,sw),padding尺寸(ph,pw)对尺寸(hnew,wnew)为的特征图进行最大值池化,取特征窗口中对应尺寸特征图的最大值池化得到n×n维的特征向量;
(5)将不同池化核得到特征向量进行串联融合(Concat fusion),方式如下:
Fc=Concat(f1,f2,f3,...)
其中,
Figure FDA0003717815800000032
表示不同池化尺度得到特征向量,Fc为串联融合到的固定维度输出向量,Concat(.)表示串联融合操作。
6.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法,其特征在于,步骤S4中LeNet模型的各个卷积层引入批归一化的具体过程如下:
(1)首先根据每个训练批次的数据
Figure FDA0003717815800000033
计算均值以及标准差:
Figure FDA0003717815800000034
Figure FDA0003717815800000035
其中,m为每个批次中包含的数据量,x为批次中的样本数据;
(2)根据计算得到的均值和方差,对输入数据进行归一化:
Figure FDA0003717815800000041
ε为误差调整值,
Figure FDA0003717815800000042
为规划后的数据;
(3)最后为了使模型自动优化归一化后的结果,引入扩展参数γ和平移参数β:
Figure FDA0003717815800000043
Figure FDA0003717815800000044
即为BN层输出。
7.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法,其特征在于,步骤S501中数据增强包括将多尺度印刷体数字图片数据通过旋转、镜像、剪切的方式进行数据增强。
8.一种基于Mnist数据集的多尺度印刷体数字识别装置,其特征在于,包括
存储器:用于存储可执行指令;
处理器:用于执行所述存储器中存储的可执行指令,实现如权利要求1-7任一项所述的一种基于Mnist数据集的数字识别模型构建方法。
CN202110391935.7A 2021-04-13 2021-04-13 一种基于Mnist数据集的数字识别模型构建方法及装置 Active CN112906829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110391935.7A CN112906829B (zh) 2021-04-13 2021-04-13 一种基于Mnist数据集的数字识别模型构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110391935.7A CN112906829B (zh) 2021-04-13 2021-04-13 一种基于Mnist数据集的数字识别模型构建方法及装置

Publications (2)

Publication Number Publication Date
CN112906829A CN112906829A (zh) 2021-06-04
CN112906829B true CN112906829B (zh) 2022-11-08

Family

ID=76110616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110391935.7A Active CN112906829B (zh) 2021-04-13 2021-04-13 一种基于Mnist数据集的数字识别模型构建方法及装置

Country Status (1)

Country Link
CN (1) CN112906829B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092819B (zh) * 2022-01-19 2022-04-19 成都四方伟业软件股份有限公司 一种图像分类方法及装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849031B2 (en) * 2005-10-20 2014-09-30 Xerox Corporation Document analysis systems and methods
US8977059B2 (en) * 2011-06-03 2015-03-10 Apple Inc. Integrating feature extraction via local sequential embedding for automatic handwriting recognition
CN105718960B (zh) * 2016-01-27 2019-01-04 北京工业大学 基于卷积神经网络和空间金字塔匹配的图像排序模型
CN106778902B (zh) * 2017-01-03 2020-01-21 河北工业大学 基于深度卷积神经网络的奶牛个体识别方法
CN107239802B (zh) * 2017-06-28 2021-06-01 广东工业大学 一种图像分类方法及装置
CN109214250A (zh) * 2017-07-05 2019-01-15 中南大学 一种基于多尺度卷积神经网络的静态手势识别方法
CN108205703B (zh) * 2017-12-29 2021-01-12 中国人民解放军国防科技大学 多输入多输出矩阵平均值池化向量化实现方法
CN108805222A (zh) * 2018-05-08 2018-11-13 南京邮电大学 一种基于arm平台的深度学习数字手写体识别方法
CN108875798B (zh) * 2018-05-29 2022-06-24 电子科技大学 一种基于空间金字塔池化的超像素级特征提取方法
CN109165733A (zh) * 2018-07-11 2019-01-08 中国人民解放军国防科技大学 多输入多输出矩阵最大值池化向量化实现方法
CN109063753B (zh) * 2018-07-18 2021-09-14 北方民族大学 一种基于卷积神经网络的三维点云模型分类方法
CN109360153B (zh) * 2018-10-26 2023-05-02 北京金山云网络技术有限公司 图像处理方法、超分辨率模型生成方法、装置及电子设备
CN109410141B (zh) * 2018-10-26 2021-03-02 北京金山云网络技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN109766825A (zh) * 2019-01-08 2019-05-17 哈尔滨理工大学 基于神经网络的手写签名识别系统
CN109740618B (zh) * 2019-01-14 2022-11-04 河南理工大学 基于fhog特征的试卷分数自动统计方法和装置
CN110210485A (zh) * 2019-05-13 2019-09-06 常熟理工学院 基于注意力机制指导特征融合的图像语义分割方法
CN110097145A (zh) * 2019-06-20 2019-08-06 江苏德劭信息科技有限公司 一种基于cnn和特征金字塔的交通违禁品识别方法
CN110263920B (zh) * 2019-06-21 2021-08-10 北京石油化工学院 卷积神经网络模型及其训练方法和装置、巡检方法和装置
CN110288030B (zh) * 2019-06-27 2023-04-07 重庆大学 基于轻量化网络模型的图像识别方法、装置及设备
CN110807497A (zh) * 2019-10-10 2020-02-18 山东师范大学 基于深度动态网络的手写体数据分类方法及系统
CN111008694B (zh) * 2019-12-02 2023-10-27 许昌北邮万联网络技术有限公司 基于深度卷积对抗生成网络的无数据模型量化压缩方法
CN111680760A (zh) * 2020-06-16 2020-09-18 北京联合大学 服装风格识别方法、装置、电子设备及存储介质
CN111723738A (zh) * 2020-06-19 2020-09-29 安徽工业大学 一种基于迁移学习的煤岩壳质组显微图像分类方法及系统
CN111753986B (zh) * 2020-06-28 2024-03-19 浙江工业大学 面向深度学习模型的动态测试方法及其装置
CN112380952B (zh) * 2020-11-10 2022-10-11 广西大学 基于人工智能的电力设备红外图像实时检测及识别方法

Also Published As

Publication number Publication date
CN112906829A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
Theis et al. Faster gaze prediction with dense networks and fisher pruning
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
US20230085401A1 (en) Method of training an image classification model
CN112183501B (zh) 深度伪造图像检测方法及装置
CN109726195B (zh) 一种数据增强方法及装置
CN110555399A (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN113158862A (zh) 一种基于多任务的轻量级实时人脸检测方法
CN113361432B (zh) 一种基于深度学习的视频文字端到端检测与识别的方法
CN113570508A (zh) 图像修复方法及装置、存储介质、终端
CN109949200B (zh) 基于滤波器子集选择和cnn的隐写分析框架构建方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN111666937A (zh) 一种图像中的文本识别方法及系统
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN112906829B (zh) 一种基于Mnist数据集的数字识别模型构建方法及装置
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN112381147A (zh) 动态图片相似度模型建立、相似度计算方法和装置
CN115410059B (zh) 基于对比损失的遥感图像部分监督变化检测方法及设备
CN116109868A (zh) 基于轻量化神经网络的图像分类模型构建和小样本图像分类方法
CN116152824A (zh) 一种发票信息提取方法及系统
CN113205102B (zh) 一种基于忆阻神经网络的车辆标志识别方法
US11816909B2 (en) Document clusterization using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant