CN112906829B

CN112906829B - 一种基于Mnist数据集的数字识别模型构建方法及装置

Info

Publication number: CN112906829B
Application number: CN202110391935.7A
Authority: CN
Inventors: 李今朝; 吕宗明; 蓝科; 王琳
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-11-08
Anticipated expiration: 2041-04-13
Also published as: CN112906829A

Abstract

本发明公开了一种基于Mnist数据集的数字识别模型构建方法及装置，主要解决现有技术中存在的现有数字模式识别精度不高，基于Mnist数据集识别模型易引起图像失真及在不同场景中泛化性还有待提升的问题。该发明利用空间金字塔池化层自适应处理多尺度信息输入的能力，使得模型方法支持任意尺度的图像数据输入。同时，模型通过能对多尺度信息的学习训练，具有较好的多尺度信息的表征性能。除此之外，该发明对迁移学习以及BN层的应用，极大降低了适应多环境数据训练的门槛，很好地促使了模型参数的有效学习以及模型训练效率的提升。因此，该模型方法具有较好的运行效率和泛化性。

Description

一种基于Mnist数据集的数字识别模型构建方法及装置

技术领域

本发明涉及深度学习图像识别领域，具体地说，是涉及一种基于Mnist数据集的数字识别模型构建方法及装置。

背景技术

数字是我们生活中最为常见的信息，庞大的数字量使得数字信息的人工录入十分困难；近年来，深度学习图像识别技术用于数字识别越来越成熟；在数字识别领域，LeCun等人和Simard等人最初只训练2-3层的全连接网络并结合机器学习方法诸如KNN、SVM实现对少量、简单的手写数字数据的识别，但是识别精度不高；随着Mnist手写数字数据集的发布，使得充分训练深度神经网络得到高性能的数字识别模型成为可能。

Mnist数据集的开源以及LeNet的提出在一定程度上给出了一套较好的基于深度学习的数字识别方法，但是还存在两个需要解决的问题：

①Mnist数据集的尺寸过于单一，不适合应用于多尺度数字图片的识别任务中；目前，在解决多尺度图片输入的常规做法中，往往是通过将多个尺度的图片放缩到模型指定的输入尺寸，并在放缩过程中通过插值的方式计算图像各区域的像素值，然而插值方法无法保留最原始输入图像信息，甚至会引起放缩前后图像失真。同时，此类方法依然是单一尺寸输入，多尺度输入信息未能充分利用，难以提升模型性能。

②Mnist数据虽然在数字写法风格上丰富多样，但是背景单一，现实场景中数字背景的多样性决定了无法仅使用Mnist数据集训练模型，识别模型在不同场景中的泛化性还有待提升。

发明内容

本发明的目的在于提供一种基于Mnist数据集的数字识别模型构建方法及装置，以解决现有数字模式识别精度不高，基于Mnist数据集识别模型易引起图像失真及在不同场景中泛化性还有待提升的问题。

为了解决上述问题，本发明提供如下技术方案：

一种基于Mnist数据集的数字识别模型构建方法，其特征在于，包括以下步骤：

S1、根据Mnist数据集对LeNet模型进行预训练，得到LeNet预训练模型；

S2、步骤S1中LeNet预训练模型的最后卷积层引入空间金字塔池化层结构；

S3、步骤S2中空间金字塔池化层结构自适应调整池化参数，得到固定输出特征的LeNet模型；

S4、步骤S3中LeNet模型的各个卷积层引入批归一化，然后固定各卷积层参数，更改模型分类层的输出节点数，得到输出适合目标任务分类的LeNet模型。

进一步的，步骤S1中预训练前需对Mnist数据集进行处理，具体处理过程为：对Mnist数据集进行图像二值化处理；然后对二值化处理后的数据，根据设定批次的大小分批处理得到训练集表。

进一步的，步骤S1的具体过程如下：

S101、搭建LeNet模型，其中含3个卷积层，2个降采样层，1个全连接层和1个输出层；

S102、搭建训练框架，根据训练集表中的Mnist手写数据对LeNet模型进行预训练，检验loss曲线是否收敛，是则保留模型参数，否则执行步骤S103；

S103、对对应的Mnist手写数据重新进行二值化处理及分批处理后，重新执行步骤S102；

S104、完成步骤S103后得到LeNet预训练模型。

进一步的，步骤S3的具体过程为：步骤S2得到的LeNet预训练模型中，空间金字塔池化层结构根据LeNet预训练模型最后卷积层的卷积特征图尺度，自动调节池化的步长、池化核窗口大小以及padding大小，通过不同尺度的池化操作，得到固定的池化输出维度，再将其串联融合，从而得到固定输出特征。

进一步的，步骤S3的具体计算过程如下：

(1)计算池化核的窗口尺寸和步长：

池化核的高宽：

池化步长：

其中

为向上取整操作，h、w分别为卷积层特征图的高宽，n为池化窗口大小；

(2)空间金字塔池化层中高宽方向的padding大小计算如下：

其中

为向下取整操作；

(3)进而可以得到新的特征图高宽：

；

(4)根据计算得到的池化核大小

，池化步长

，padding尺寸

对尺寸

为的特征图进行最大值池化，取特征窗口中对应尺寸特征图的最大值池化得到

维的特征向量；

(5)将不同池化核得到特征向量进行串联融合(Concat fusion)，方式如下：

其中，

表示不同池化尺度得到特征向量，

为串联融合到的固定维度输出向量，Concat(.)表示串联融合操作。

进一步的，步骤S4中LeNet模型的各个卷积层引入批归一化的具体过程如下：

(1)首先根据每个训练批次的数据

，计算均值以及标准差：

其中，m为每个批次中包含的数据量，x为批次中的样本数据；

(2)根据计算得到的均值和方差，对输入数据进行归一化：

为误差调整值，

为规划后的数据；

(3)最后为了使模型自动优化归一化后的结果，引入扩展参数

和平移参数

：

即为BN层输出。

进一步的，一种基于Mnist数据集的数字识别模型构建方法还包括可对任意尺寸的印刷体数字图片数据进行学习训练以及识别的方法，其包括的步骤如下：

S501、对多尺度印刷体数字图片数据进行数据增强；

S502、预设LeNet模型的初始学习率，Batchsize训练框架参数，然后根据步骤S501增强后的数据对LeNet模型进行训练，判断loss曲线是否收敛，是则保留模型参数，否则执行步骤S503；

S503、对应的数据重新执行步骤S501至S502；

S504、完成步骤S503后得到LeNet-SPP模型。

进一步的，步骤S501中数据增强包括将多尺度印刷体数字图片数据通过旋转、镜像、剪切的方式进行数据增强。

一种基于Mnist数据集的多尺度印刷体数字识别装置包括存储器：用于存储可执行指令；处理器：用于执行所述存储器中存储的可执行指令，实现一种基于Mnist数据集的数字识别模型构建方法。

与现有技术相比，本发明具有以下有益效果：

（1）本发明通过在LeNet手写数字识别模型中设计引入空间金字塔池化层结构，针对不同尺度的特征图输入，SPP能自动地计算调整新的池化核参数配置，并结合串联融合方法，整合多尺度池化核输出特征得到固定维度输出；整个LeNet-SPP模型训练过程无需修改输入数据尺度，全程端到端，支持任意尺度的印刷体数字图片数据的端到端训练。

（2）本发明在输入数据不失真情况下，可以直接利用原始的多尺度目标数据，结合数据增强技术，更好地赋予模型多尺度特征的表征性能，同时也能有效缓解模型过拟合问题，充分利用原始数据的多尺度信息，模型表征能力强，性能更优。

（3）本发明通过运用迁移学习方法，将规模大、风格多变的Mnist手写数据集作为初始训练资源，率先赋予模型在数字识别领域的先验知识效果，再迁移至实际场景的印刷体数字识别任务上，结合BN层以及大初始学习率可实现LeNet-SPP的高效训练、快速拟合，以及赋予模型多环境下的学习能力，收敛速度快，训练效率高，泛化性强。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合图1对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

实施例1

如图1所示，本发明针对实际场景中多尺度的印刷体数字图片识别任务，在大数据条件下提供了一种基于深度学习并结合了空间金字塔池化层结构以及迁移学习策略的数字识别方法。为实现该目的提供的一种基于Mnist数据集的数字识别模型构建方法，包括如下步骤：

S1，对Mnist数据集进行图像二值化处理，将图像的前后景颜色互调，使其符合白底黑字的显示规范，以下为二值化计算操作：

其中，

表示输入的Mnist手写数字图片数据，由于数据已图像灰度化，通道数为1，

，

分别表示输入图片的宽高尺度，

为图片在

位置处的像素值，其中

，

为二值化后的值，二值化阈值设为

。

S2，对二值化的训练数据进行批处理，根据预设各个训练批次大小，批处理后的训练集表示如下：

其中，

为批处理后多张图片的集合，

代表训练集中的第张图片，batchsize为每个批次集合中的图片数量。

S3，搭建手写数字识别模型LeNet，其中包含3个卷积层，2个降采样层，1个全连接层和1个输出层；由于模型中的计算操作复杂，在这不详细给出，为方便描述，过程记为：

其中

表示神经网络的内部计算操作，

为输出的预测结果，表示各个预测类别的概率分布。

归一化操作表示为：

，为输出层分类向量长度。同时，采取交叉熵结合训练参数正则化的方式计算分类结果的

值，具体如下：

其中，

表示数据真实标签的one-hot值，C为分类数目，

为模型参数，

为正则化参数。

S4，搭建训练框架，在Mnist手写数据集上对LeNet模型进行预训练，loss曲线收敛后，保留模型参数，不收敛的数据重复执行步骤S1至S3；最终得到预训练后的LeNet模型；这步中通常会默认假设了一个设计合理参数合适的深度模型在设定的训练轮数中能趋于收敛，避免出现无限循环的情况。

S5，LeNet模型预训练后，在最后卷积层设计引入空间金字塔池化(SpatialPyramid Pooling，SPP)层结构；最后卷积层指的是在卷积神经网络中最后执行卷积运算操作的特征输出。

S6，根据卷积特征图尺度，SPP自动调节池化的步长、池化核窗口大小以及padding大小，通过不同尺度的池化操作，得到固定的池化输出维度，再将其串联融合，从而得到固定输出特征。

为了方便描述SPP层算法细节，这里假设卷积层特征图的输出维度为，分别表示高度，宽度和通道数（值并不固定，可以是多尺度的特征图）。设定宽高方向的池化数量为（可根据需求选择多组池化数量），SPP层的计算流程如下：

(1)计算池化核的窗口尺寸和步长：

池化核的高宽：

池化步长：

其中

(2)空间金字塔池化层中高宽方向的padding大小计算如下：

其中

为向下取整操作；

(3)进而可以得到新的特征图高宽：

；

(4)根据计算得到的池化核大小

，池化步长

是指输入特征进行最大或最小池化时操作窗口的高、宽方向大小，padding尺寸

指的是对输入数据进行边缘元素填充时的填充数据的高宽方向的大小，对尺寸

维的特征向量；，指的是一条长度为n×n的特征向量。即这条向量是有n×n个数据；其中padding指在输入图像或特征层的边缘范围内填充元数值；

其中，

表示不同池化尺度得到特征向量，

S7，为了解决在训练过程中模型参数陷入饱和区导致梯度逐渐消失，参数更新乏s力的问题，本发明在LeNet模型的各个卷积层后引入了批归一化(Batch Normalization，BN)操作，将失活数据重新变换到激励函数的敏感区域，使得每一层的值在有效的范围内传递下去。BN层计算方式如下：

(1)首先根据每个训练批次的数据

，计算均值以及标准差：

m为每个批次中包含的数据量，x为批次中的样本数据，向左的箭头是统计意义上的趋近值；

(2)根据计算得到的均值和方差，对输入数据进行归一化：

为误差调整值，

为规划后的数据，向左的箭头是统计意义上的趋近值；

(3)最后为了使模型自动优化归一化后的结果，引入扩展参数

和平移参数

：

即为BN层输出即Bacthnormalization，指的批归一化操作，向左的箭头是统计意义上的趋近值。

S8，固定LeNet-SPP模型的卷积层参数，更改模型分类层的输出节点数，使得模型输出适合目标任务的分类。

实施例2

如图1所示，本实施例在实施例1的基础上进一步的，一种基于Mnist数据集的数字识别模型构建方法还包括可对任意尺寸的印刷体数字图片数据进行学习训练以及识别的方法，其包括的步骤如下：

S501、对多尺度印刷体数字图片数据进行数据增强；

S502、预设LeNet模型的初始学习率，Batchsize训练框架参数，然后根据步骤S501增强后的数据对LeNet模型进行训练，判断loss曲线是否收敛，是则保留模型参数，否则执行步骤S503；这里通常默认假设了一个设计合理参数合适的深度模型在设定的训练轮数中能趋于收敛，不会出现无限循环的情况；

S503、对应的数据重新执行步骤S501至S502；

S504、完成步骤S503后得到LeNet-SPP模型；其中，LeNet指的是数字识别模型名称，SPP指的是设计引入的Spatial pyramid pooling 层，LeNet-SPP指两种方法的联合模型。

其中，步骤S501中数据增强包括将多尺度印刷体数字图片数据通过旋转、镜像、剪切的方式进行数据增强。

实施例3

数字（特指阿拉伯数字）是目前出现在我们生活中最为常见的信息，诸如在金融、交通、教育等行业，各种数字编号，如邮政编码、电话号码，以及各种统计数据，如统计报表、财务报表、银行票据等，数字几乎渗透了工作生活的方方面面，因此，实现对数字信息的精确、高效、自动地录入，将会给企业和社会带来巨大的经济效益；本发明结合空间金字塔池化层和迁移学习方法的多尺度印刷体数字识别模型，该模型方法可以广泛应用于多尺度数字图像的识别任务中，在对各种编号和统计数据的识别分析过程中尤为重要。

本发明基于LeNet模型，在最后的卷积层设计引入空间金字塔池化(SpatialPyramid Pooling，SPP)层结构，构建了LeNet-SPP多尺度数字识别模型，模型通过自适应地调整多个池化操作窗口大小和步长，串联式融合输出特征，保证池化后的特征输出维度固定，从而实现对任意尺度的图像输入的端到端训练。同时，通过在Mnist数据集上预训练LeNet，采用迁移学习方法，将知识效果迁移至实际场景的目标数据上，使源域信息很好地指导模型参数进一步地学习。

本发明利用空间金字塔池化层自适应处理多尺度信息输入的能力，使得模型方法支持任意尺度的图像数据输入。同时，模型通过能对多尺度信息的学习训练，具有较好的多尺度信息的表征性能。除此之外，该发明对迁移学习以及BN层的应用，极大降低了适应多环境数据训练的门槛，很好地促使了模型参数的有效学习以及模型训练效率的提升。因此，该模型方法具有较好的运行效率和泛化性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于Mnist数据集的数字识别模型构建方法，其特征在于，包括以下步骤：

S4、步骤S3中LeNet模型的各个卷积层引入批归一化，然后固定各卷积层参数，更改模型分类层的输出节点数，得到输出适合目标任务分类的LeNet模型；

所述基于Mnist数据集的数字识别模型构建方法还包括通过任意尺寸的印刷体数字图片数据对步骤S4的LeNet模型进行训练得到最终的LeNet-SPP模型；其具体过程如下：

S501、对多尺度印刷体数字图片数据进行数据增强；

S503、对应的数据重新执行步骤S501至S502；

S504、完成步骤S503后得到LeNet-SPP模型。

2.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法，其特征在于，步骤S1中预训练前需对Mnist数据集进行处理，具体处理过程为：对Mnist数据集进行图像二值化处理；然后对二值化处理后的数据，根据设定批次的大小分批处理得到训练集表。

3.根据权利要求2所述的一种基于Mnist数据集的数字识别模型构建方法，其特征在于，步骤S1的具体过程如下：

S104、完成步骤S103后得到LeNet预训练模型。

4.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法，其特征在于，步骤S3的具体过程为：步骤S2得到的LeNet预训练模型中，空间金字塔池化层结构根据LeNet预训练模型最后卷积层的卷积特征图尺度，自动调节池化的步长、池化核窗口大小以及padding大小，通过不同尺度的池化操作，得到固定的池化输出维度，再将其串联融合，从而得到固定输出特征。

5.根据权利要求1所述的一种基于Mnist数据集的数字识别模型构建方法，其特征在于，步骤S3的具体计算过程如下：

(1)计算池化核的窗口尺寸和步长：

池化核的高宽：