CN114444554A

CN114444554A - 手写数字识别方法、装置、电子设备及计算机存储介质

Info

Publication number: CN114444554A
Application number: CN202011194162.5A
Authority: CN
Inventors: 范智宇; 谢迎
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-06

Abstract

本申请提供了一种手写数字识别方法、装置、电子设备及计算机存储介质。该手写数字识别方法，获取待识别的手写数字图像；将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；其中，手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数。根据本申请实施例，能够准确地识别手写数字。

Description

手写数字识别方法、装置、电子设备及计算机存储介质

技术领域

本申请属于金融领域，尤其涉及一种手写数字识别方法、装置、电子设备及计算机存储介质。

背景技术

在金融领域，数字手写是一种很常见的操作行为。无论是客户在银行网点办理业务，亦或是银行员工在工作上处理某些业务，总会免不了在许多场景下需要手写数字。手写数字识别属于图像分类领域。图像分类算法的任务是判断该图像所属的类别。图像，往往是将其作为模型的输入放到神经网络内，让神经网络学习到图像的特征后进行比对。

图像分类任务用到的神经网络模型通常需要用到一个或多个激活函数来接收上一层非线性的神经元输出。常见的激活函数有：(1)sigmoid(2)softmax(3)ReLU(4)Tanh。但是，这些激活函数各自存在如下问题：

Sigmoid激活函数：(1)计算复杂。(2)函数的输出值并非以0为中心化。(3)由于sigmoid激活函数的一阶导函数的函数值会很快的从0开始又回归于0，sigomid激活函数容易出现梯度消失的情况。(4)值域不够广。

Softmax激活函数：(1)Softmax并不要求类内紧凑和类间分离，也就是说类内和类间特征的区分度不明显。

ReLU激活函数：(1)当输入大于0时，虽然计算很快，但是函数曲线不够平滑。(2)函数的拟合过快。(3)当输入小于0时，可能会出现神经元“死亡”的问题。即某些神经元永远不会被激活。这很有可能导致某些特征永远不会被学习到。

Tanh激活函数：(1)计算复杂。(2)输入过大时存在梯度消失的情况，使得计算缓慢。

由于这些激活函数存在上述问题，故无法准确地识别手写数字。

因此，如何准确地识别手写数字是本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供一种手写数字识别方法、装置、电子设备及计算机存储介质，能够准确地识别手写数字。

第一方面，本申请实施例提供一种手写数字识别方法，包括：

获取待识别的手写数字图像；

将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；其中，手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，Leaky Softplus函数的表达式为：

式中，a为预设参数。

可选的，训练样本集为MNIST数据集，在将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果之前，方法还包括：

利用MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型。

可选的，利用MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型，包括：

对MNIST数据集进行预处理；

利用预处理后的MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型。

可选的，对MNIST数据集进行预处理，包括：

对MNIST数据集中的每张样本图像分别进行像素和标签的转换。

第二方面，本申请实施例提供了一种手写数字识别装置，包括：

获取模块，用于获取待识别的手写数字图像；

输出模块，用于将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；其中，手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，LeakySoftplus函数的表达式为：

式中，a为预设参数。

可选的，训练样本集为MNIST数据集，装置还包括：

模型训练模块，用于利用MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型。

可选的，模型训练模块，包括：

预处理单元，用于对MNIST数据集进行预处理；

模型训练单元，用于利用预处理后的MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型。

可选的，预处理单元，包括：

转换子单元，用于对MNIST数据集中的每张样本图像分别进行像素和标签的转换。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如第一方面所示的手写数字识别方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面所示的手写数字识别方法。

本申请实施例的手写数字识别方法、装置、电子设备及计算机存储介质，能够准确地识别手写数字。该手写数字识别方法，将待识别的手写数字图像输入预设的手写数字识别模型，由于该手写数字识别模型利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，故能够准确地识别手写数字。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的手写数字识别方法的流程示意图；

图2是本申请一个实施例提供的像素与矩阵拼接示意图；

图3是本申请一个实施例提供的像素矩阵对比示意图；

图4是本申请另一个实施例提供的手写数字识别方法的流程示意图；

图5是本申请一个实施例提供的改进后的AlexNet的网络层结构示意图；

图6是本申请一个实施例提供的Leaky Softplus激活函数的曲线示意图；

图7是本申请一个实施例提供的Leaky Sotfplus激活函数的一阶导函数的曲线示意图；

图8是本申请一个实施例提供的手写数字识别装置的结构示意图；

图9是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术部分可知，现有技术中常见的激活函数均存在各自的问题，导致无法准确地识别手写数字。

为了解决现有技术问题，本申请实施例提供了一种手写数字识别方法、装置、电子设备及计算机存储介质。下面首先对本申请实施例所提供的手写数字识别方法进行介绍。

图1示出了本申请一个实施例提供的手写数字识别方法的流程示意图。如图1所示，该手写数字识别方法可以包括：

S101、获取待识别的手写数字图像。

S102、将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；

其中，手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，LeakySoftplus函数的表达式为：

式中，a为预设参数。

在一个实施例中，训练样本集为MNIST数据集，在将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果之前，方法还包括：

在一个实施例中，利用MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型，包括：

对MNIST数据集进行预处理；

在一个实施例中，对MNIST数据集进行预处理，包括：

该手写数字识别方法，将待识别的手写数字图像输入预设的手写数字识别模型，由于该手写数字识别模型利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，故能够准确地识别手写数字。

下面以一个具体场景实施例对上述内容进行说明。

针对金融场景下的手写数字识别，本实施例所用到的数据集为MNIST数据集，该数据集是一个标准的手写数据集。MNIST数据集来自美国国家标准与技术研究所(NationalInstitute of Standards and Technology，NIST)。训练集(training set)由来自250个不同人手写的数字构成，其中50％是高中学生，50％来自人口普查局(the Census Bureau)的工作人员。

考虑到真实场景的应用，本实施例未使用MNIST的测试集，而是采用了银行网点员工与客户的真实手写数据。测试集与训练集差别较大，可以有效观察激活函数对模型泛化能力的影响。

首先，对样本的手写数字图像图片做预处理，处理流程如下：

(1)将训练集内每张图片都resize到227*227的尺寸，即高*宽的大小。

(2)对resize后的输入图像做特征提取，构建模型输入所需的像素矩阵。将每张图的像素矩阵拉长为一个1维的向量，即227*227转变为1*(227*227)。

(3)对每张图片重复步骤(1)和(2)。

对于输入图像的标签信息，做one-hot编码转换，将标签信息做稀疏化处理。转换流程如下：

(4)矩阵宽度为标签种类数，矩阵高度与图像数目保持一致。

(5)第一张图对应一行，一行内对应的标签处值为1，其余值均为0。

(6)对每张图片重复步骤(5)。

如图2所示，本申请实施例提供了一种像素与矩阵拼接示意图，图2中M代表输入图像数量，N代表像素长度，即N＝227*227，Z代表标签数量，即Z＝10。

如图3所示，本申请实施例提供了一种像素矩阵对比示意图，图3显示了未做one-hot处理与做了one-hot处理后像素矩阵的区别。

对输入数据完成预处理后，把输入数据输入到AI模型网络中。本实施例使用的AI模型网络是AlexNet，AlexNet是一个把CNN的基本原理应用到了很深很宽的网络中的AI算法模型。

本发明的整体流程如图4所示，图4对AlexNet做了一个拆分，对图4的整套流程的文字性描述如下：(1)下载MNIST数据集与真实数据。(2)构建读入数据。(3)将数据作为AlexNet神经网络模型算法的输入。其中，“AI算法模型构建”的运算只进行到AlexNet的最后一层“全连接层”以及其上面一层的“激活函数”层之前为止。(4)激活函数替换为本发明所提出的Leaky Softplus函数，将“AI算法模型构建”的输出作为“激活函数”的输入。(5)全连接层把输出的特征拉长成1维的向量。(6)loss计算。(7)后反馈机制使用SGD优化器来梯度下降，优化参数。(8)利用真实数据进行验证。

其中，改进后的AlexNet的网络层结构如图5所示，原始AlexNet的两个分支最后的激活函数都替换成本实施例所提出的Leaky Softplus激活函数，其他层不做改变。

Leaky Softplus激活函数的数学公式为：

Leaky Softplus激活函数的曲线示意图如图6所示，该激活函数的优势在于，对于x轴正半轴，保留了softplus的特性，函数曲线过渡平滑，相较于ReLU激活函数，LeakySoftplus激活函数的值上升会更快且不易梯度爆炸。同时当x轴正半轴的函数值上升到梯度易于消失的地方时，直接关闭神经元。对于x轴负半轴，Leaky Softplus激活函数的值域可以取到y<0。参数a意味着学习参数可以调节，也就是说Leaky Softplus激活函数不容易出现像ReLU激活函数那样神经元死亡的情况，更广的值域可以使得非线性的输入映射的相对更广。

可调节的参数a具有更多的灵活性，可以在手写数字识别效果不好时对参数a进行调整。当x<0时，具备曲率的激活函数会让整个模型更稳定，不会让手写数字识别的准确率卡在某个区间不动，除非的确已经训练到了很高的准确率。在0<x<2时，相对平滑的曲线，可以让模型的输出值分布的更均匀，增加手写数字识别的稳定性。

一阶导函数对于观察激活函数是否易梯度爆炸或梯度消失比较有效。LeakySotfplus激活函数的一阶导函数如图7所示，Leaky Softplus激活函数的一阶导函数的数学公式为：

该激活函数不存在梯度爆炸的问题，在x>0的部分，当模型训练的过深时，存在一定的梯度消失的可能性。之所以在正半轴对函数做一个分段，是因为考虑到x＝2是函数梯度的趋于消失处。

减弱梯度消失对于整个AI模型的影响，可以避免手写数字识别在后期的训练过程中出现准确率不升反降的问题，对提高手写数字识别的准确率有一定帮助。

对于收敛性的验证，本实施例在上文提到过的AlexNet神经网络模型上做验证，通过替换AlexNet在全连接层上一层的激活层的激活函数来验证收敛性。

激活函数按照图5实践后，确定能够进行收敛，准确率稳步提升。准确率的提升并非快速大幅的提升，而是小幅度的稳步上升，这使得该激活函数在更深层的神经网络模型里也能训练，在一定程度上减少产生过拟合的风险。

总体来说，本实施例对于模型的泛化能力有了更好的提升，在金融行业手写数字场景下，在对于手写数字进行模型训练时，过程相对而言更加稳定，更具普适性，对数字的识别更加准确。

图8是本申请一个实施例提供的手写数字识别装置的结构示意图，该手写数字识别装置可以包括：

获取模块801，用于获取待识别的手写数字图像；

输出模块802，用于将待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；其中，手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，LeakySoftplus函数的表达式为：

式中，a为预设参数。

在一个实施例中，训练样本集为MNIST数据集，该装置还包括：模型训练模块，用于利用MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型。

在一个实施例中，模型训练模块，包括：预处理单元，用于对MNIST数据集进行预处理；模型训练单元，用于利用预处理后的MNIST数据集对改进后的AlexNet网络结构进行模型训练，得到手写数字识别模型。

在一个实施例中，预处理单元，包括：转换子单元，用于对MNIST数据集中的每张样本图像分别进行像素和标签的转换。

图8所示装置中的各个模块/单元具有实现图1中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

图9示出了本申请实施例提供的电子设备的结构示意图。

电子设备可以包括处理器901以及存储有计算机程序指令的存储器902。

具体地，上述处理器901可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器902可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器902可在电子设备的内部或外部。在特定实施例中，存储器902可以是非易失性固态存储器。

在一个实例中，存储器902可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器901通过读取并执行存储器902中存储的计算机程序指令，以实现上述实施例中的任意一种手写数字识别方法。

在一个示例中，电子设备还可包括通信接口903和总线910。其中，如图9所示，处理器901、存储器902、通信接口903通过总线910连接并完成相互间的通信。

通信接口903，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线910包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线910可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种手写数字识别方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种手写数字识别方法，其特征在于，包括：

获取待识别的手写数字图像；

将所述待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；其中，所述手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，所述改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，所述LeakySoftplus函数的表达式为：

式中，a为预设参数。

2.根据权利要求1所述的手写数字识别方法，其特征在于，所述训练样本集为MNIST数据集，在所述将所述待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果之前，所述方法还包括：

利用所述MNIST数据集对所述改进后的AlexNet网络结构进行模型训练，得到所述手写数字识别模型。

3.根据权利要求2所述的手写数字识别方法，其特征在于，所述利用所述MNIST数据集对所述改进后的AlexNet网络结构进行模型训练，得到所述手写数字识别模型，包括：

对所述MNIST数据集进行预处理；

利用预处理后的MNIST数据集对所述改进后的AlexNet网络结构进行模型训练，得到所述手写数字识别模型。

4.根据权利要求3所述的手写数字识别方法，其特征在于，所述对所述MNIST数据集进行预处理，包括：

对所述MNIST数据集中的每张样本图像分别进行像素和标签的转换。

5.一种手写数字识别装置，其特征在于，包括：

获取模块，用于获取待识别的手写数字图像；

输出模块，用于将所述待识别的手写数字图像输入预设的手写数字识别模型，输出识别结果；其中，所述手写数字识别模型是利用训练样本集对改进后的AlexNet网络结构进行模型训练得到的，所述改进后的AlexNet网络结构的激活函数是Leaky Softplus函数，所述Leaky Softplus函数的表达式为：

式中，a为预设参数。

6.根据权利要求5所述的手写数字识别装置，其特征在于，所述训练样本集为MNIST数据集，所述装置还包括：

模型训练模块，用于利用所述MNIST数据集对所述改进后的AlexNet网络结构进行模型训练，得到所述手写数字识别模型。

7.根据权利要求6所述的手写数字识别装置，其特征在于，所述模型训练模块，包括：

预处理单元，用于对所述MNIST数据集进行预处理；

模型训练单元，用于利用预处理后的MNIST数据集对所述改进后的AlexNet网络结构进行模型训练，得到所述手写数字识别模型。

8.根据权利要求7所述的手写数字识别装置，其特征在于，所述预处理单元，包括：

转换子单元，用于对所述MNIST数据集中的每张样本图像分别进行像素和标签的转换。

9.一种电子设备，其特征在于，所述电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的手写数字识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的手写数字识别方法。