CN107292255B

CN107292255B - 基于特征矩阵相似度分析的手写数字识别方法

Info

Publication number: CN107292255B
Application number: CN201710442260.8A
Authority: CN
Inventors: 周若宸; 杨强
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2020-07-28
Anticipated expiration: 2037-06-13
Also published as: CN107292255A

Abstract

本发明公开了一种基于特征矩阵相似度分析的手写数字识别方法，包括以下步骤：A、获取待识别的手写数字图像；B、将得到的原始手写数字图像转化成灰度图像；C、将得到的灰度图像转化成二值图像；D、将得到的二值图像进行平滑优化、切割、缩放得到待识别图像的二值特征矩阵；E、将得到的二值特征矩阵与各个标准化数字特征矩阵两两组合成特征矩阵对，分别进行相似度分析；分析所得的相关系数结果，相关系数越高则相似度越高，相似度最高的特征矩阵对对应的标准化数字即为识别所得数字。通过本发明，可使计算机较为准确的识别手写数字；并且与已有方法相比，本发明不需要大量的训练样本来支撑识别技术，训练时间短，计算量小，识别精度高。

Description

基于特征矩阵相似度分析的手写数字识别方法

技术领域

本发明涉及图像处理与模式识别领域，尤其涉及一种基于特征矩阵相似度分析的手写数字识别的方法。

背景技术

随着信息技术的快速发展，有大量的数据要输入计算机网络，因此如何通过机器高效的智能识别手写数字取代人工输入成为一大亟须解决的问题。机器智能识别的优点在于，一是识别速度大大加快，二是避免了人工输入可能出现的各种错误，三是可以优化整个系统的运行流程。

手写数字识别一直是图像处理与模式识别领域的一个研究热点，并且目前手写数字识别技术广泛已经应用于税务表格处理、邮件分类和银行支票识别等领域，同时，在一些大规模数据统计，如行业年检、人口普查等需要耗费大量人力和物力的领域也可以进行应用手写数字识别技术。可以说手写数字识别技术使用的普及率也越来越高。

在上述这些领域中，通常要求手写数字识别算法具有较高的识别速度和识别精确度以及较高的可靠性和稳定性。然而，由于数字的笔划简单、差别相对较小，导致诸如3和8、5和6等这些形状类似的数字难以识别，并且不同个体具有不同的书写习惯，即使同一人每次书写的结果也会有差异，这就造成了同一数字形状的千差万别，不但增加了识别难度，而且使得待识别的数字模式成倍增加，大大增加了识别处理时间。因此，找到一种合适的方法来提高识别精度和识别速度是手写数字识别技术能够广泛应用的关键。

目前已存在的各种技术中，通过神经网络的深度学习特点来实现手写数字识别较为热门。然而，神经网络的深度学习需要大量的样本支撑进行训练才能得到一个较好的识别函数，且理论和学习算法也有待进一步完善。这是目前技术存在的一大缺点。

发明内容

鉴于现有技术存在的一些问题，本发明的目的在于提出一种基于特征矩阵相似度分析的手写数字识别的方法。

为了实现上述目的，本发明的技术方案如下：一种基于特征矩阵相似度分析的手写数字识别方法，该方法包括以下步骤：

1)获取待识别的手写数字图像；

2)将步骤1)得到的原始手写数字图像转化成灰度图像；

3)将步骤2)得到的灰度图像转化成二值图像；

4)将步骤3)得到的二值图像进行平滑优化、切割，再经过缩放得到待识别图像的二值特征矩阵；

5)将步骤4)得到的二值特征矩阵与各个标准化数字特征矩阵两两组合成特征矩阵对，分别进行相似度分析；分析所得的相关系数结果，相关系数越高则相似度越高，相似度最高的特征矩阵对对应的标准化数字即为识别所得数字。

进一步地，所述的步骤2)包括：

(1)所述的原始手写数字图像格式是由原始图像文件经过imread函数处理在计算机工作区中形成该图像文件的rgb格式的彩色图像；

(2)所述的原始手写数字图像转化为灰度图像的过程通过函数rgb2gray实现。

进一步地，所述的步骤3)包括：

(1)设灰度图像各像素点(i,j)的灰度为g(i,j)；

(2)使用graythresh函数自动选取阈值T，将有笔迹部分的灰度与无笔迹部分的灰度区分，即有笔迹部分的灰度g(i,j)<T，无笔迹部分的灰度g(i,j)>T，经过0‐1化处理，形成二值图像；0‐1化处理的处理规则为：

进一步地，所述的步骤4)中，对二值图像进行平滑化处理，以消去可能存在的影响识别精度的孤立的黑像素，包括：

(1)遍及二值图像中各个值为1的矩阵点(i,j)，若以此点为中心的3阶方阵其余点均为0，则将该点值修改为0；

(2)遍及二值图像中各个值为1的矩阵点(i,j)，若以此点为中心的5阶方阵首行首列与末行末列像素点的值都为0，则将该方阵中所有像素点的值都修改为0。

进一步地，所述的步骤4)中，切割处理为：通过find函数找到图像中1值所在的上下左右四个边界行列数，以该行列数为切割后的图像边界。

进一步地，所述的步骤4)中，缩放处理为：通过imresize函数强制缩放为70x50像素点的标准化二值图像。

进一步地，所述的步骤5)包括：

(1)所述的标准化数字特征矩阵为标准阿拉伯数字图像经过步骤1)‐4)后所得的二值特征矩阵；

(2)所述的相似度分析为通过相似度算法得出特征矩阵对的相关系数；

(3)将待识别二值特征矩阵与10个标准化特征矩阵相似度计算后得到相关系数A_i(i＝1～10)，相关系数A_i中最大值对应的标准化数字即为识别结果。

进一步地，所述的相似度算法包括：

(1)对待识别二值特征矩阵和标准化特征矩阵分别命名为A、B；

(2)分别通过mean2函数对A、B矩阵行列式求值，得到A’、B’；

(3)通过下列公式计算出相关系数γ：

其中，m为A和B的行数，n为A和B的列数；

(4)由(3)中公式可知相关系数为[‐1,1]中的某一数值，且相关系数越接近1，矩阵A、B的相似度越高。

本发明的有益效果是：本发明可以有效的实现手写数字的识别，相比于神经网络算法，本发明不需要大量训练样本来支撑其各传递层参数，训练时间短而速度快；本发明通过计算待识别数字的特征矩阵与标准特征矩阵的相关系数来识别手写数字，保证了识别的准确率与精度，同时也有计算量小，处理效率高等效果。此外，本发明考虑在手写过程中由于习惯或者存在污点而产生的孤立黑点，通过待识别图像二值矩阵的平滑化处理的方法，避免了可能产生的孤立黑像素点对识别结果的影响。

附图说明

图1为本发明的数字识别流程图；

图2为本发明的平滑化处理方法示意图；

图3为本发明的切割去边缘方法示意图；

图4为对手写数字0进行识别的结果记录。

具体实施方式

为了更全面的理解本发明的目的和流程，下面结合附图和具体实例来详细描述本发明，本发明的目的和效果将变得更加明显。

本发明提供的一种基于特征矩阵相似度分析的手写数字识别方法，步骤如下：

1)获取待识别的手写数字图像，将所得的原始手写数字图像进行备份以便后续的管理员确认识别结果正确与否；

2)将得到的原始手写数字图像转化成灰度图像；

3)将得到的灰度图像转化成二值图像；

4)将得到的二值图像进行平滑优化、切割，再经过缩放得到待识别图像的二值特征矩阵；

5)将得到的二值特征矩阵与各个标准化数字特征矩阵两两组合成特征矩阵对，分别进行相似度分析；分析所得的相关系数结果，相关系数越高则相似度越高，相似度最高的特征矩阵对对应的标准化数字即为识别所得数字。

本发明的识别具体流程图如图1所示，接下来结合图1的具体流程图。对本发明的方法进行详细的说明。

在本实例中，计算机首先等待待识别图像的写入，写入方式可以由摄像头采集或手写板提取，而原始图片格式的不同对本发明没有影响。

识别原始图片格式是否为rgb图像，若不是，通过imread函数将原始图片转化成适合计算机运算处理的rgb点阵格式图像，同时，需要将原始图片备份在工作区以便后续验证识别结果。

接下来，通过rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。灰度图像中，存在笔迹的像素点的灰度一般较无笔迹的像素点灰度小，通过选取合适的阈值将灰度图像0‐1化即可得到有笔迹的像素点值为1、无笔迹的像素点值为0的二值图像。

通常的，阈值的选取通过graythresh函数自动选取，而转化规则一般参照以下公式：

由于在实际手写过程中，部分群体会有“点笔”的行为存在，亦或存在图片提取时有杂质干扰，在这种情况下以上图片处理过程中得到的二值图像存在部分孤立的黑像素点的集合。在某些情况下上述孤立黑像素点会影响到识别的精度，解决方法是进行平滑化处理。

如图2所示，平滑化处理过程为遍及二值图像中各个值为1的矩阵点(i,j)，若以此点为中心的3阶方阵其余点都为0，则将该点值修改为0；遍及二值图像中各个值为1的矩阵点(i,j)，若以此点为中心的5阶方阵首行、首列与末行、末列像素点的值都为0，则将该方阵中所有像素点的值都修改为0。

在以上过程中，对图像的大小没有明确的要求，接下来的图像切割处理即是将所有待识别图像都统一为70x50像素格式，以便下一步特征矩阵的提取。

如图3所示，图片切割的基本原理是通过find函数找到二值矩阵中值为1的像素点上限下限左限右限，即为图3中虚线所示。以虚线为边界切割出来的二值矩阵的像素大小各异，通过imresize函数强制将矩阵缩放为70x50矩阵，此过程将一定程度的导致数字图片的失真，而在后续识别过程时这种失真现象对识别结果没有影响。

以上所得的70x50的0‐1矩阵即为待识别图像的特征矩阵，同样的，对标准阿拉伯数字图像的标准化特征矩阵也由上述步骤提取。标准化特征矩阵可事先存入计算机工作区中并标签0‐9以备调用计算相似度。具体地，所述的标准阿拉伯数字即为在‘宋体’字体下的1、2、3、4、5、6、7、8、9、0这十个字符。

将待识别特征矩阵与每个标准化特征矩阵两两组合形成十组特征矩阵对，并需要贴上i标签以注明每组对应的是哪个标准化数字。特别的，将每组待识别特征矩阵记为A，对应标准化特征矩阵即为B。

利用mean2函数计算特征矩阵对应的行列式值，分别记为A’与B’。通过以下公式计算出A、B矩阵的相关系数：

分析公式可以得出相关系数的取值范围在[‐1,1]之间，且相关系数越大则矩阵相似度越高，即可以通过比较10个相关系数来确定哪组矩阵相似度最高从而得出待识别手写数字最相似于哪个标准阿拉伯数字，从而得出识别结果。

如图1，通过一次循环比较过程得到相似度最大值对应的标签号，并输出此标签号对应的阿拉伯数字。至此一次手写数字识别过程结果，计算机可以等待下一张待识别手写数字图片的写入。

与此同时，管理员可以通过识别结果与原始图像的副本来确定识别正确与否，从而进一步加强了本发明的识别可靠性。

如图4所示为手写数字0经过本发明识别后的结果实例。

由上述描述可知，本发明通过创新性的特征矩阵相似度识别方法大大提高了手写数字识别的准确度以及识别速度，且不需要大量的训练样本支持，为计算机识别手写数字提供了新思路。

对于本领域的一般技术人员而言，以上所述的实施方法仅为本发明的一个实例，在不脱离本发明原理和范围的前提下对其进行的显而易见的改动，都属于本发明的构思和所附权利要求的保护范围。本发明要求保护范围由所附的权利要求书及其等效物决定。

Claims

1.一种基于特征矩阵相似度分析的手写数字识别方法，其特征在于，包括以下步骤：

1)获取待识别的原始手写数字图像；

2)将步骤1)得到的原始手写数字图像转化成灰度图像；具体如下：

2.1)所述的原始手写数字图像格式是由原始图像文件经过imread函数处理在计算机工作区中形成该图像文件的rgb格式的彩色图像；

2.2)所述的原始手写数字图像转化为灰度图像的过程通过函数rgb2gray实现；

3)将步骤2)得到的灰度图像转化成二值图像；具体如下：

3.1)设灰度图像各像素点(i,j)的灰度为g(i,j)；

3.2)使用graythresh函数自动选取阈值T，将有笔迹部分的灰度与无笔迹部分的灰度区分，即有笔迹部分的灰度g(i,j)<T，无笔迹部分的灰度g(i,j)>T，经过0-1化处理，形成二值图像；0-1化处理的处理规则为：

4)将步骤3)得到的二值图像进行平滑优化、切割，再经过缩放得到待识别图像的二值特征矩阵；对二值图像进行平滑优化处理，包括：

a.遍及二值图像中各个值为1的矩阵点(i,j)，若以此点为中心的3阶方阵其余点均为0，则将该点值修改为0；

b.遍及二值图像中各个值为1的矩阵点(i,j)，若以此点为中心的5阶方阵首行首列与末行末列像素点的值都为0，则将该方阵中所有像素点的值都修改为0；

切割处理为：通过find函数找到图像中1值所在的上下左右四个边界行列数，以该行列数为切割后的图像边界；

缩放处理为：通过imresize函数强制缩放为70x50像素点的标准化二值图像，所述标准化二值图像即为二值特征矩阵；

5)将步骤4)得到的二值特征矩阵与各个标准化数字特征矩阵两两组合成特征矩阵对，分别进行相似度分析；分析所得的相关系数结果，相关系数越高则相似度越高，相似度最高的特征矩阵对对应的标准化数字即为识别所得数字；具体如下：

5.1)所述的标准化数字特征矩阵为标准阿拉伯数字图像经过步骤1)-4)后所得的二值特征矩阵；

5.2)所述的相似度分析为通过相似度算法得出特征矩阵对的相关系数；

5.3)将待识别二值特征矩阵与10个标准化数字特征矩阵相似度计算后得到相关系数A_i，i＝1～10，相关系数A_i中最大值对应的标准化数字即为识别结果；

所述的相似度算法包括：

(1)对待识别二值特征矩阵和标准化数字特征矩阵分别命名为A、B；

(2)分别通过mean2函数对A、B矩阵行列式求值，得到A’、B’；

(3)通过下列公式计算出相关系数γ：

其中，m为A和B的行数，n为A和B的列数；

(4)由(3)中公式可知相关系数为[-1,1]中的某一数值，且相关系数越接近1，矩阵A、B的相似度越高。