CN107886065A

CN107886065A - 一种混合字体的数字序列识别方法

Info

Publication number: CN107886065A
Application number: CN201711079179.4A
Authority: CN
Inventors: 马忠丽; 李倩倩; 佘静; 李帅阳; 何江达
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-04-06

Abstract

本发明为一种混合字体的数字序列识别方法，是在卷积神经网络应用的基础上，设计的一个网络结构，使用滑动窗口，建立同一个图像的不同分辨率的金字塔结构，使用NMS非极大值抑制去除重复的检测。待识别图像中包含印刷字体和手写字体的数字序列，用神经网络分类器进行数字检测，再进行数字识别，得到识别结果。步骤包括输入图像、得到候选目标区域、滑动窗口对候选目标区域进行特征提取、用机器学习的方法判断候选目标区域是否是目标、对候选目标区域进行定位校正。本发明能检测出混合字体的数字序列，识别准确率非常高，适用于所有的视觉系统，在人工智能的发展道路上有极大的意义。

Description

一种混合字体的数字序列识别方法

技术领域

本发明属于图像识别领域，具体涉及一种混合字体的数字序列识别方法。

背景技术

手写数字识别是光学字符识别技术的一个分支，是光学字符识别技术领域的重要研究方向，它要实现的功能是，如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。手写数字识别在现实生活中有着广泛的应用。由于手写数字随意性大，研究的难度大，所以近年来对于手写数字的研究也是热门的话题。

混合字体的数字序列识别技术属于图像识别技术，目的是为了智能的识别混合数字尤其是人类手写的数字，能提高机器设备的智能性。尽管人们对手写数字的研究已从事了很长的时间，并已经取得了很多成果，但到目前为止，机器的识别本领还是无法与人的认知能力相比。如今，对于单个手写数字的识别，研究效果已经非常成熟，但是对于混合字体的数字序列的识别，在字符领域中，还是一项具有挑战性的课题，对于识别的准确度和速度都具有相当的难度。所以，一个可靠、精准、快速的数字识别系统具有重要的意义。

在人工智能领域的发展中，机器学习的地位可谓是举足轻重，它的发展历程大致经历了浅层学习和深度学习两个研究阶段，机器学习借助模型通过算法，使机器能够从海量的训练数据集中学习数据的统计规律，从而可以对新的未知的数据做识别，对未知的事件做预测。随着深度学习在近年的兴起，基于深度学习的各种研究成了新的突破口。针对数字的识别，使用传统方法，每次识别都需要进行特征提取，速度较慢，准确率还有提升的空间，并且识别的算法是固定不变的，适应性差。而利用深度学习的方法训练模型，特征提取的工作将由模型来完成，并且速度更快，准确率更高，模型是可以不断迭代更新、学习新的特征的，因此具有较强的适应能力。因此对于手写数字识别采取深度学习的方法具有很高的现实意义。

发明内容

针对目前现有技术中存在的不足，本发明旨在提供一种利用卷积神经网络训练神经网络分类器、对待识别图像进行数字检测的混合字体的数字序列识别方法。

本发明的目的是这样实现的：

本发明为一种混合字体的数字序列识别方法，包括待识别图像、图像采集装置、卷积神经网络、神经网络分类器、检测系统；其特征是：所述的检测系统使用滑动窗口，建立同一个图像的不同分辨率的金字塔结构，使用NMS非极大值抑制去除重复的检测；所述的方法分为以下几个步骤：

1利用卷积神经网络训练神经网络分类器；

2神经网络分类器对待识别图像进行数字检测。

所述的待识别图像为印刷字体和手写字体的混合字体数字序列。

所述的卷积神经网络使用LeNet5。

所述的图像采集装置使用PC机上的摄像头。

所述的步骤1具体为：

1.1定义一个网络结构，输入大小32×32，caffemodel大小约2.2M，测试集分类准确率97.2％；

1.2使用全卷积网络方法改造网络结构，使之只包含卷积层。

所述的步骤2具体为：

2.1输入待识别图像，得到候选目标区域：候选目标区域采用滑动窗口，建立同一幅图不同分辨率的图像金字塔；采用非极大值抑制方法去除重复的检测，非极大值抑制采用两个参数，分别为该候选区域的分数，和两个区域的重叠率；

2.2卷积神经网络对候选目标区域进行特征选取：用卷积的方法从原始像素中提取特征，使用反向传播算法修正卷积核参数；

2.3神经网络分类器判断这个区域是否是目标；

2.4对检测的候选目标区域进行定位校正。

本发明与现有技术相比，有益效果在于：

一种混合字体的数字序列识别方法能检测出混合字体的数字序列，识别准确率非常高，适用于所有的视觉系统。

附图说明

图1为本发明的检测系统的结构框图。

图2为本发明的大小为2×2步长为1的滑动窗口的移动过程。

图3为本发明的卷积计算举例。

图4为本发明的deploy文件中最后一层改造前和改造后的对比。

图5为本发明的deploy文件中倒数第三层改造前和改造后的对比。

具体实施方式

下面结合附图对本发明做更详细地描述：

一种混合字体的数字序列识别方法是在原卷积神经网络LeNet5应用的基础上，设计出一个网络结构，从而实现印刷字体和手写字体混合在一起的数字序列识别的目的。

利用深度卷积神经网络训练一个神经网络分类器，使神经网络分类器可以检测出数字。考虑到准确率以及时间花费，定义一个网络结构-滑窗网络，输入大小32×32，caffemodel大小约2.2M，测试集分类准确率97.2％，接近NIN_Cifar10网络的表现。

设计检测系统的最简单直接的方法就是滑动窗口。但是，假如待检测图片大小为640×480，当以16的步长去滑动32×32的窗口时，那么将产生39×29＝1131个窗口，如果把这些窗口一个一个去送到神经网络中做分类，那么可想而知效率会有多低。为了加快这个滑窗检测的过程，改造出下面的一种“全卷积”网络的方法：

图3为卷积计算举例。卷积整个图像的过程和滑窗有点类似，从这个角度出发，去改造已有的网络使之只包含卷积层，从而使得网络可以接受任意尺寸大小的图片输入，并自动完成“滑窗”的过程。

以ImageNet为例，作出了具体改造，将全连接层改为卷积层。

在deploy文件中将最后2层重写为卷积核大小为1，卷积步长为1的卷积层。以最后一层的改造为例，如图4所示，左边是改造之前，右图是改造之后的结果。

如图5所示，倒数第3层fc6稍微有点不同，为了和上一个卷积层的输出个数256对齐，因此需要将9216拆解成6×6的卷积核(256×6×6＝9216)。

实际使用的时候，需要修改deploy文件然后重新读取caffemodel。

在此基础上，又作如下的改动：只要出现卷积核的地方，卷积步长一定等于卷积核大小。对于整体结构，参考NIN的设计思想，多次使用卷积核为大小1的卷积层。

最终，将一张大小为451×451的图片输入到神经网络当中，得到一个8×8×2的输出。其中8＝(451-224)/32+1。改造之后的网络相当于以滑动步长32的进行窗口大小为224×224的滑动。(其中滑动步长等于网络中所有卷积步长的乘积)。

目标的检测由四个部分组成，包括候选框选择、特征选取部分、机器学习部分、定位校正部分检测。检测系统基本的处理流程如图1：输入图像，得到候选目标区域，将候选目标区域送到卷积神经网络中进行特征提取、用机器学习的方法判断检测的候选目标区域是否是目标、对检测的候选目标区域进行定位校正。

本发明设计的检测系统的基本思想是使用滑动窗口实现检测，建立同一个图像的不同分辨率的金字塔结构应对多尺度问题，使用NMS非极大值抑制去除重复的检测。

候选区域采用滑动窗口，需要建立图像金字塔，会产生同一区域重叠检测框，需要采用非极大值抑制的策略进行候选框去重。在这个过程中，滑动窗口解决多尺度问题：由于训练时采用的窗口大小是固定的，为了与训练时的数据相匹配，需要通过缩小的手段，将其变成与训练时一致的窗口大小。即建立同一幅图不同分辨率的图像金字塔。由于建立图像金字塔解决多尺度问题时，会有很多相似位置重复的计算，故要采用非极大值抑制的方式优化检测效果。该方法采用两个参数，其中一个参数是该候选区域的分数，另一个参数是两个区域的重叠率。阈值的选择也比较重要，当两个目标比较相近的时候，较小的阈值会将两者合并为一个目标。

如图2所示，(a)(b)(c)(d)分别表示在图像大小为3×3，滑动窗口大小为2×2，跨度为1，滑动窗口依次走过的路径。

使用卷积神经网络做自动特征选取。特征直接从原始像素进行卷积得到，通过损失函数反向传播影响卷积层的卷积核参数，影响着原始图像的表征。用卷积的方法从原始像素中提取特征。这种特征提取的过程不再需要手动设计特征，只需设计好网络结构，使用反向传播算法修正卷积核参数，便可以自动的提取图像的特征。这是深度学习区别于浅层学习的地方。浅层学习不会影响到图像的表征。卷积神经网络，卷积层可通过卷积核来提取图像特征，根据loss的反向传播来动态的修正卷积核内的参数，该模型依靠带标签的样本来进行训练。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。凡是根据上述描述做出各种可能的等同替换或改变，均被认为属于本发明的权利要求的保护范围。

Claims

1.一种混合字体的数字序列识别方法，包括待识别图像、图像采集装置、卷积神经网络、神经网络分类器、检测系统；其特征是：所述的检测系统使用滑动窗口，建立同一个图像的不同分辨率的金字塔结构，使用NMS非极大值抑制去除重复的检测；所述的方法分为以下几个步骤：

(1)利用卷积神经网络训练神经网络分类器；

(2)神经网络分类器对待识别图像进行数字检测。

2.根据权利要求1所述的一种混合字体的数字序列识别方法，其特征在于：所述的待识别图像为印刷字体和手写字体的混合字体数字序列。

3.根据权利要求1所述的一种混合字体的数字序列识别方法，其特征在于：所述的卷积神经网络使用LeNet5。

4.根据权利要求1所述的一种混合字体的数字序列识别方法，其特征在于：所述的图像采集装置使用PC机上的摄像头。

5.根据权利要求1所述的一种混合字体的数字序列识别方法，其特征在于：所述的步骤(1)具体为：

(1.1)定义一个网络结构，输入大小32×32，caffe model大小约2.2M，测试集分类准确率97.2％；

(1.2)使用全卷积网络方法改造网络结构，使之只包含卷积层。

6.根据权利要求1所述的一种混合字体的数字序列识别方法，其特征在于：所述的步骤(2)具体为：

(2.1)输入待识别图像，得到候选目标区域：候选目标区域采用滑动窗口，建立同一幅图不同分辨率的图像金字塔；采用非极大值抑制方法去除重复的检测，非极大值抑制采用两个参数，分别为该候选区域的分数，和两个区域的重叠率；

(2.2)卷积神经网络对候选目标区域进行特征选取：用卷积的方法从原始像素中提取特征，使用反向传播算法修正卷积核参数；

(2.3)神经网络分类器判断候选目标区域是否是目标；

(2.4)对检测的候选目标区域进行定位校正。