CN116563862A

CN116563862A - 一种基于卷积神经网络的数字识别方法

Info

Publication number: CN116563862A
Application number: CN202310634089.6A
Authority: CN
Inventors: 桑英军; 管明杰; 陶静蕾; 周业辉; 范媛媛
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-08

Abstract

本发明公开了一种基于卷积神经网络的数字识别方法，对将要提取特征的图像进行预处理、居中和数字分割，将灰度字符图像的前景区域通过外接矩形提取处理，并按照统一的标准进行居中处理。对卷积神经网络进行进一步的改进，通过误差反向传播将不同卷积层的特征还原至初始输入的尺寸，与前向传播运算得到的预测输出进行可视化和对比分析，并以均方差函数作为误差函数训练网络模型，来更新权重和偏置项参数。同时进一步改进激活函数，将卷积神经网络中各层的运算输出作为激活函数的输入，并将输入端的加权和转化成神经元输出值，增加神经网络的非线性拟合能力，实现了准确率较高的手写数字识别。

Description

一种基于卷积神经网络的数字识别方法

技术领域

本发明涉及卷积神经网络技术领域，具体涉及一种基于卷积神经网络的数字识别方法。

背景技术

目前，数字识别可以划分为印书体识别和手写体识别。根据手写识别的类型，将手写方式分为在线和离线两种形式。离线的形式，主要通过扫描仪、照相机和摄像头采集的手写图像；在线的形式通过电子笔或触摸屏在交互界面上留下的手写动态信息，以一定的数据格式存储在计算机中。在光学字符识别的领域，手写体数字识别相较于印刷体而言更加困难，更多挑战性有待解决。

在使用卷积神经网络训练提图像特征时，传统的CNN模型训练会引入大量的参数，导致无法快速训练得到有效的效果。并且在训练过程中需要引入激活函数来增加非线性因素。非线性因素决定特征图像提取的精确度。常用的激活函数，例如：Sigmoid、Tanh及ReLU函数，每种激活函数在训练时都存在一定的缺陷，在实际应用时容易出现梯度消失和无法训练的情况，并且在更新权重时可能需要很长的时间，使得特征图像的提取效率并不高。

发明内容

针对上述的技术问题，本技术方案提供了一种基于卷积神经网络的数字识别方法，在训练网络模型时，进一步改进激活函数，将卷积神经网络中各层的运算输出作为激活函数的输入，并且将输入端的加权和转化成神经元输出值，以此来增加神经网络的非线性拟合能力。同时通过反向传播算法，利用链式求导法则和梯度下降算法更新模型参数达到快速更新网络权重的作用，避免了梯度消失问题，提高模型的识别效果，实现了准确率较高的手写数字识别；能有效的解决上述问题。

本发明通过以下技术方案实现：

一种基于卷积神经网络的数字识别方法，对将要提取特征的图像进行预处理、居中和数字分割，将灰度字符图像的前景区域通过外接矩形提取处理，并按照统一的标准进行居中处理；具体的步骤包括：

S1：将MNIST数据集中的原始数据进行预处理，采用归一化的预处理方式将原始图像矩阵的数据都变为0到1的数据，同时将图像尺寸调整到与下一层的输入要求一致；

S2：通过卷积核对经过预处理的输入图像进行遍历，从中提取出图像的相关特征；

S3：使用改进的激活函数将输出的结果处理成非线性，从而增加神经网络的非线性拟合能力；

S4：为了减少特征映射的维数，既缩减模型的规模，将输出的特征图划分为多个小块区域，每个区域中用一个值代表该区域内的多个值，使用池化运算处理图像相关特征，以此来减小每个特征图的尺寸，并保留最重要的特征信息；

S5：将特征图像数据进行全连接运算使其高度抽象为一维数组；

S6：将抽象的一维数组进行数字的分类运算，得到输出结果；分类运算的算法步骤包括：

Step 1：用随机数初始化所有的神经网络不同参数权重；

Step 2：输入要训练的图片，执行前向传播的步骤，运算出每个类别对应的输出特征图像；

Step 3：计算输出层的识别概率；

Step 4：通过反向传播算法计算输出的误差值相对于神经元所有神经元参数或权重值间的梯度，再由此调整连接权重，更新相关参数，经过多次迭代计算直至获取最优解停止权值调整；

Step 5：使用Softmax回归函数将输出值进行归一化，使分类结果更加直观。

进一步的，步骤S1中所述的将输入的原始数据进行预处理，使用归一化方法对原始样本的特征值按每个维度进行线性变换，使结果映射到[0,1]的范围，实现等比缩放，提高识别器的识别效率；归一化的计算公式为：

上式中，h'为经过归一化处理后的图像像素值，h为图像像素值，h_min为图像像素最小值，h_max为图像像素最大值。

进一步的，步骤S2中所述的通过卷积核对经过预处理的输入图像进行遍历，对图片的卷积运算一般为多通道输入，卷积核需要拥有相同的通道数，每个卷积核通道与输入层的对应通道进行卷积；卷积运算的计算公式为：

上式中，为第k层第m个神经元的输入，/>为第k层的卷积核，/>为第k层卷积后第m个神经元的输出；/>为第k层神经元的偏置，/>为多层通道卷积运算后累加的最终输出；/>为经过改进激活函数处理后的输出，f(.)为某种激活函数用来引入非线性特性。

进一步的，步骤S3中所述的改进的激活函数的公式为：

上式中，x为激活值；

激活函数是非线性映射运算，具有保留、映射、激活神经元的特征；激活函数通过对输入信号的非线性变换表示，达到模拟数据在人类神经元传播的效果，主要用在相邻层级之间，连接神经网络并且给神经网络增加非线性因素；为了拟合任意函数即添加非线性运算；CNN模型中需要使用梯度下降法进行权重数据的更新，因此对应的激活函数要连续且可导；在进行迭代时函数的值域范围要小，才能将输出的数据控制在一定范围内，使训练结果更容易收敛；

改进的激活函数式为：

上式中，f(x)为改进函数，f'(x)为导函数。

进一步的，步骤S4中所述的使用池化运算处理图像相关特征，减小每个特征图的尺寸，并保留最重要的特征信息；其实是使用最大池化运算来减少特征参数，保留重要特征信息；计算区域最大值的降采样过程可表示为：

上式中，M为降采样区间，a_j为池化区域中第j个元素，为第j个神经元的输出，f(.)为某种激活函数用来引入非线性特性。

进一步的，步骤S5所述的将特征图像数据进行全连接运算，使其高度抽象为一维数组，是通过全连接运算，将每个神经元对应的权重与上一层神经元的输出结果结合，计算得到当前层神经元的输出，计算的表达式为：

上式中，为全连接层中第j个神经元的权重系数；x^k-1为上一层神经元的输出；为连接层第k个神经元的输出；/>为经过改进激活函数处理后的输出；f(.)为某种激活函数用来引入非线性特性。

进一步的，步骤Step 4中所述的更新相关参数，要根据图像的预测输出和实际标签值之间的误差求出模型的损失函数，以均方差函数作为误差函数训练网络模型，求取模型的损失；求取模型损失的计算公式为：

上式中，y'为期望输出，y为实际输出，N为样本的总数。

进一步的，步骤Step 4中所述的反向传播算法的训练过程中，第一步为计算出网络总的误差δ，误差δ的计算公式为：

由反向传播最后一层，即第k层第j个神经元中产生的误差公式为：

其中，表示最后一层，即第k层的第j个神经元的输出；

权重参数的链式求导公式为：

其中，x^k-1为k-1层的神经元的输出；

偏置项参数的链式求导公式为：

使用梯度下降的方法更新权重参数和偏置项参数，计算公式如下：

其中，η表示学习率，一般学习率的取值很小，作用是控制参数更新的幅度。

进一步的，步骤Step 5中使用Softmax回归函数将输出值进行归一化，是使用Softmax回归函数将全连接层与输出层组合起来直观地输出样本的分类概率；Softmax回归函数的公式为：

上式中，x_i为输出层中第i个神经元的输入值，n为神经元的总数，Y_i为第i个神经元的输出值/分类概率。

有益效果

本发明提出的一种基于卷积神经网络的数字识别方法,与现有技术相比较，其具有以下有益效果：

(1)本发明采用Mnist数据集对模型进行训练，对将要提取特征的图像进行预处理、居中和数字分割，由于数据集中同一字符的大小各不相同，因此，将灰度字符图像的前景区域通过外接矩形提取处理，并按照统一的标准进行居中处理。

(2)本发明为了研究模型所提取特征对最终模型识别的作用，对卷积神经网络进行进一步的改进，通过误差反向传播将不同卷积层的特征还原至初始输入的尺寸，与前向传播运算得到的预测输出进行了可视化和对比分析，并以均方差函数作为误差函数训练网络模型，来更新调节权重和偏置项参数，以此来减小特征图像的损失率，增加识别效果。

(3)本发明进一步改进激活函数，将卷积神经网络中各层的运算输出作为激活函数的输入，并且将输入端的加权和转化成神经元输出值，以此来增加神经网络的非线性拟合能力，实现了准确率较高的手写数字识别。

(4)本发明通过deep workNet Designer来设计训练网络参数，为了增加特征图像的提取效果，构造了19层网络模型进行训练，并且在设计的网络模型中加入改进的激活函数来提高模型的训练效果

附图说明

图1为本发明的整体流程示意图。

图2为本发明中改进的激活函数示意图。

图3为本发明中卷积神经网络算法的训练流程图。

图4为本发明中卷积神经网络模型设计图。

图5为本发明的训练结果仿真图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围。

实施例1：

如图1所示，一种基于卷积神经网络的数字识别方法，对将要提取特征的图像进行预处理、居中和数字分割，将灰度字符图像的前景区域通过外接矩形提取处理，并按照统一的标准进行居中处理；具体的步骤包括：

S1：将输入的原始数据进行预处理，采用归一化的预处理方式将原始图像矩阵的数据都变为0到1的数据，同时将图像尺寸调整到与下一层的输入要求一致。

将输入的原始图片进行预处理，使用归一化方法对原始样本的特征值按每个维度进行线性变换，使结果映射到[0,1]的范围，实现等比缩放，提高识别器的识别效率；归一化的计算公式为：

S2：通过卷积核对经过预处理的输入图像进行遍历，将处理好的图片进行特征图像提取，弱化非重要因素对判断结果的影响，执行前向传播的步骤，从中提取出图像的相关特征，运算出每个类别对应的输出特征图像。

对于图片的卷积运算一般为多通道输入，因此卷积核需要拥有相同的通道数，每个卷积核通道与输入层的对应通道进行卷积。用可训练的卷积核去卷积输入图片，卷积核以一定的步长在图片上进行遍历，每移动一次做一次卷积运算，最终得到图片特征矩阵，对于图片的卷积运算一般为多通道输入，因此卷积核需要拥有相同通道数，每个卷积核通道与输入层的对应通道进行卷积。卷积运算的计算公式为：

上式中，为第k层第m个神经元的输入，/>为第k层的卷积核，/>为第k层卷积后第m个神经元的输出；/>为第k层神经元的偏置，/>为多层通道卷积运算后累加的最终输出；/>为经过改进激活函数处理后的输出，f(.)为某种激活函数用来引入非线性特性。S3：使用改进的激活函数将输出的结果处理成非线性，从而增加神经网络的非线性拟合能力。将卷积操作提取的特征值作为改进激活函数的输入，以此来连接神经网络并且给神经网络增加非线性因素。对于激活函数的改进公式，激活函数是非线性映射运算，具有保留、映射、激活神经元的特征。改进的激活函数的公式为：

上式中，x为激活值。

激活函数通过对输入信号的非线性变换表示，达到模拟数据在人类神经元传播的效果，主要用在相邻层级之间，连接神经网络并且给神经网络增加非线性因素；为了拟合任意函数即添加非线性运算；CNN模型中需要使用梯度下降法进行权重数据的更新，因此对应的激活函数要连续且可导；在进行迭代时函数的值域范围要小，才能将输出的数据控制在一定范围内，使训练结果更容易收敛。改进的激活函数图像如图2所示。改进的激活函数式为：

上式中，f(x)为改进函数，f'(x)为导函数。

S4：为了减少特征映射的维数，既缩减模型的规模，将输出的特征图划分为多个小块区域，每个区域中用一个值代表该区域内的多个值，用最大池化运算来减少特征参数，将输出的特征图划分为多个小块区域，每个区域中用一个值代表该区域内的多个值，以此来减小每个特征图的尺寸，并保留最重要的特征信息。计算区域最大值的降采样过程可表示为：

S5：将特征图像数据进行全连接运算使其高度抽象为一维数组；通过全连接运算，将每个神经元对应的权重与上一层神经元的输出结果结合，计算得到当前层神经元的输出，计算的表达式为：

S6：将抽象的一维数组进行数字的分类运算，通过反向传播算法计算输出的误差值相对于神经元所有神经元参数或权重值间的梯度，再由此调整连接权重，更新相关参数，经过多次迭代计算直至获取最优解停止权值调整。对于模型参数的更新，要根据图像的预测输出和实际标签值之间的误差求出模型的损失函数。本实施例中模型的训练使用均方差损失函数作为误差函数来求模型的损失；得到输出结果。分类运算的算法步骤包括：

Step 1：用随机数初始化所有的神经网络不同参数权重。

Step 2：输入要训练的图片，执行前向传播的步骤，运算出每个类别对应的输出特征图像。

Step 3：计算输出层的识别概率。

Step 4：通过反向传播算法计算输出的误差值相对于神经元所有神经元参数或权重值间的梯度，再由此调整连接权重，更新相关参数，经过多次迭代计算直至获取最优解停止权值调整。

对模型参数的更新，要根据图像的预测输出和实际标签值之间的误差求出模型的损失函数。本实施例模型的训练使用均方差损失函数作为误差函数来求模型的损失。求取模型损失的计算公式为：

上式中，y'为期望输出，y为实际输出，N为样本的总数。

在得到前向传播过程的预测输出的基础上，通过反向传播利用链式求导法则和梯度下降算法更新模型参数。反向传播的训练过程第一步计算出网络总的误差δ，误差δ的计算公式为：

其中，表示最后一层，即第k层的第j个神经元的输出；

权重参数的链式求导公式为：

其中，x^k-1为k-1层的神经元的输出；

偏置项参数的链式求导公式为：

使用Softmax回归函数将全连接层与输出层组合起来直观地输出样本的分类概率；Softmax回归函数的公式为：

上式中，x_i为输出层中第i个神经元的输入值，n为神经元的总数，Y_i为第i个神经元的输出值(分类概率)。

在训练网络时先用随机数初始化所有的神经网络不同参数权重，将经过预处理的MNIST数据集作为输入数据执行前向传播操作，运算出每层对应的输出特征图像。使用改进的激活函数将每层输出的结果处理成非线性，来增加神经网络的非线性拟合能力。然后通过反向传播算法计算输出的误差值相对于所有神经元参数或权重值间的梯度，再由此调整连接权重，更新相关参数。最后使用Softmax回归函数将输出值进行归一化，使分类结果更加直观。

如图3所示，卷积神经网络参数训练如下：

为验证改进激活函数的训练效果，设置网络模型参数进行训练。

input：图像输入，尺寸为28×28×1，每个尺寸分别表示宽度、高度及信道

conv1：第一层卷积操作，卷积核为11×11，数量为96，步长为4；

acti1：使用改进的激活函数；

norm1：跨通道归一化处理，通道窗口尺寸为5；

pool1：池化操作，池化方式为最大池化，池化区域为3×3，步长为2，填充方式为0填充；

conv2：第二层卷积操作，卷积核为5×5，分成两组，每组数量为128，步长为1；

acti2：使用改进的激活函数；

norm2：跨通道归一化处理，通道窗口尺寸为5；

pool2：池化操作，池化方式为最大池化，池化区域为3×3，步长为2，填充方式为0填充；

conv3：卷积操作，卷积核为3×3，分成两组，每组数量为192，步长为1。

acti3：使用改进的激活函数。

conv4：卷积操作，卷积核为3×3，分成两组，每组数量为192，步长为1。

acti4：使用改进的激活函数。

conv5：卷积操作，卷积核为3×3，分成两组，每组数量为128，步长为1。

acti5：使用改进的激活函数。

pool5：池化操作，池化方式为最大池化，池化区域为3×3，步长为2，填充方式为0填充；

fc1：第一个全连接层，共4090个特征展开映射到样本空间；

fc2：第二个全连接层，共4090个特征展开映射到样本空间；

fc3：第三个全连接层，共10个特征展开映射到样本空间；

output：输出结果。

构造19层卷积网络模型进行训练，构造的网络模型如图4所示。

训练结果分析

网络参数及模型构造完成后，使用改进后的激活函数进行小批次训练，每批次设置468个数据，训练10批次，总共训练数据4680个。训练完成后结果如图5和表1所示。

表1为构造模型训练时的准确精度和损失精度的具体数据

由表中的实验数据可知，效果是比较明显的，到第8批次之后，识别的准确精度便已达到了100.00％，而损失精度也已经降低到0.0002。说明了模型的构造及激活函数的改进能够达到很好的识别效果。

以上仅为本发明的具体实施例，但本发明的保护范围不仅局限于此，任何在本发明揭露的技术范围内的变化、替换和改进，均在本发明的保护范围内。

Claims

1.一种基于卷积神经网络的数字识别方法，其特征在于：对将要提取特征的图像进行预处理、居中和数字分割，将灰度字符图像的前景区域通过外接矩形提取处理，并按照统一的标准进行居中处理；具体的步骤包括：

Step 1：用随机数初始化所有的神经网络不同参数权重；

Step 3：计算输出层的识别概率；

2.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤S1中所述的将输入的原始数据进行预处理，使用归一化方法对原始样本的特征值按每个维度进行线性变换，使结果映射到[0,1]的范围，实现等比缩放，提高识别器的识别效率；归一化的计算公式为：

3.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤S2中所述的通过卷积核对经过预处理的输入图像进行遍历，对图片的卷积运算一般为多通道输入，卷积核需要拥有相同的通道数，每个卷积核通道与输入层的对应通道进行卷积；卷积运算的计算公式为：

上式中，为第k层第m个神经元的输入，/>为第k层的卷积核，/>为第k层卷积后第m个神经元的输出；/>为第k层神经元的偏置，/>为多层通道卷积运算后累加的最终输出；为经过改进激活函数处理后的输出，f(.)为某种激活函数用来引入非线性特性。

4.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤S3中所述的改进的激活函数的公式为：

上式中，x为激活值；

改进的激活函数式为：

上式中，f(x)为改进函数，f'(x)为导函数。

5.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤S4中所述的使用池化运算处理图像相关特征，减小每个特征图的尺寸，并保留最重要的特征信息；其实是使用最大池化运算来减少特征参数，保留重要特征信息；计算区域最大值的降采样过程可表示为：

6.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤S5所述的将特征图像数据进行全连接运算，使其高度抽象为一维数组，是通过全连接运算，将每个神经元对应的权重与上一层神经元的输出结果结合，计算得到当前层神经元的输出，计算的表达式为：

上式中，为全连接层中第j个神经元的权重系数；x^k-1为上一层神经元的输出；/>为连接层第k个神经元的输出；/>为经过改进激活函数处理后的输出；f(.)为某种激活函数用来引入非线性特性。

7.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤Step 4中所述的更新相关参数，要根据图像的预测输出和实际标签值之间的误差求出模型的损失函数，以均方差函数作为误差函数训练网络模型，求取模型的损失；求取模型损失的计算公式为：

上式中，y'为期望输出，y为实际输出，N为样本的总数。

8.根据权利要求7所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤Step 4中所述的反向传播算法的训练过程中，第一步为计算出网络总的误差δ，误差δ的计算公式为：

其中，表示最后一层，即第k层的第j个神经元的输出；

权重参数的链式求导公式为：

其中，x^k-1为k-1层的神经元的输出；

偏置项参数的链式求导公式为：

9.根据权利要求1所述的一种基于卷积神经网络的数字识别方法，其特征在于：步骤Step 5中使用Softmax回归函数将输出值进行归一化，是使用Softmax回归函数将全连接层与输出层组合起来直观地输出样本的分类概率；Softmax回归函数的公式为：