CN109670433A

CN109670433A - 一种基于卷积与夹角余弦距离法的手写数字识别方法

Info

Publication number: CN109670433A
Application number: CN201811522409.4A
Authority: CN
Inventors: 焦良葆; 谢田; 曲心悦; 曹宇彤; 宛博文; 于靓楠; 杨晶; 龙瑞; 高雅宁
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-23

Abstract

一种基于卷积与夹角余弦距离法的手写数字识别方法，属于图像处理、模式识别与人工智能中的技术领域。本发明包括以下步骤：采集手写数字图像，生成训练集和测试集，并通过数据扩充，增加训练集的数量；对数字图像进行预处理，包括数字图像归一化、平滑化处理步骤；构建水平、竖直的卷积核；原图像与卷积核进行卷积，提取出特征数据；利用夹角余弦距离法进行分类，实现对手写数字的识别。本发明不仅能够抑制旋转对识别结果的影响，同时特征明显，能够提高手写数字识别的稳定性和效率。

Description

一种基于卷积与夹角余弦距离法的手写数字识别方法

技术领域

本发明属于图像处理、模式识别与人工智能中的技术领域，特别涉及一种基于卷积与夹角余弦距离法的手写数字识别方法。

背景技术

数字是全世界通用的符号，识别种类较小，应用前景也极为广泛。由于经济的发展，金融市场化进程的日益加快，票据业务发展很快，票据数量也与日俱增，各种票据均需要处理大量的信息。而目前，票据录入仍然依赖人工处理方式，因而使得票据管理工作也相对落后。手写数字识别技术可以用于实现信息的自动录入，有利于解决传统人工处理方式中存在的工作量大、成本高、效率低、时效性差等问题。因此，手写数字识别技术的研究有着重大的现实意义和十分广阔的应用前景，在大规模的数据统计(如行业年鉴、人口普查等)中，在财务、税务、金融等需要耗费大量人力物力的领域中，也均有着一定的应用。一旦成功投入应用将产生巨大的社会效益和良好的商业价值。

从现有的各种技术来看，通过神经网络与深度学习来实现手写数字识别目前较为热门。但是其仍然存在一些问题，一是神经网络的平移和旋转的稳定性差，二是神经网络需要大量的样本支撑且输入参数过多，导致训练参数规模庞大，训练时间很长，效率较低。因此，找到一种合适的方法来提高稳定性和识别效率是手写数字识别技术的关键。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于卷积与夹角余弦距离法的手写数字识别方法，不仅能够抑制旋转对识别结果的影响，同时特征明显，能够提高手写数字识别的稳定性和效率。

本发明的技术解决方案是：

一种基于卷积与夹角余弦距离法的手写数字识别方法，包括以下步骤：

S1：采集手写数字图像，生成训练集和测试集，并通过数据扩充，增加训练集的数量；

S2：对数字图像进行预处理，包括数字图像归一化、平滑化处理步骤；

S3：构建水平、竖直的卷积核；

S4: 原图像与卷积核进行卷积，提取出特征数据；

S5: 利用夹角余弦距离法进行分类，实现对手写数字的识别。

进一步地，上述步骤S1中，所述数据扩充采用图像平移的方法，从而增加训练集的数量。

进一步地，上述步骤S2中，所述图像灰度化处理采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。

进一步地，上述步骤S2中，所述图像平滑化处理是采用中值滤波去噪平滑处理，将该点左右邻近的两个点的像素值与该点自身进行比较，选择其中最中间的值赋给该点。经过增加像元内插处理，加大像元分辨率。

进一步地，上述步骤S2中，所述图像图像二值化处理采用类似于K均值聚类的方法寻找阈值，实现更精准的二值化。

进一步地，上述步骤S3中，所述所述水平卷积核为1×10的全1矩阵，所述竖直卷积核为10×1的全1矩阵。

进一步地，上述步骤S4中，所述卷积采用conv2进行二维矩阵的卷积运算。

进一步地，上述步骤S5中，所述夹角余弦距离分类法包括三部分：（1）获取步骤S4中提取的结构特征向量；（2）计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值；（3）取夹角余弦值最大的类别作为其分类结果。

基于上述技术方案，本发明提出的一种基于卷积与夹角余弦距离法的手写数字识别方法可以有效地识别手写数字。

本发明通过对图像进行灰度化、平滑化、二值化等多次预处理加大像元分辨率。利用卷积核与原图像卷积提取手写数字的结构特征，结合夹角余弦距离法进行分类，抑制了手写数字的旋转放大缩小对识别结果的影响，同时特征明显，使得识别结果更具稳定性和可靠性。

附图说明

图1是本发明实施例基于卷积与夹角余弦距离法的手写数字识别方法的流程图;

图2是手写数字6经本发明中的水平卷积核卷积后的结果实例图；

图3是手写数字6经本发明中的竖直卷积核卷积后的结果实例图；

图4是用于分类的夹角余弦法的方法示意图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

图1是基于卷积与夹角余弦距离法的手写数字识别方法的流程图，具体实施步骤如下：

S3：构建水平、竖直的卷积核；

S4: 原图像与卷积核进行卷积，提取出特征数据；

S5: 利用夹角余弦距离法进行分类，实现对手写数字的识别。

上述步骤S1中：采集手写数字图像，生成训练集和测试集，并通过数据扩充，增加训练集的数量。其中，数据扩充采用图像的平移扩充方法，来增加训练集的数量。

上述步骤S2中：对数字图像进行预处理，包括数字图像的灰度化、平滑化、二值化处理步骤。

数字图像的灰度化处理是采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像；

数字图像的平滑化处理是采用中值滤波去噪平滑处理，将该点左右邻近的两个点的像素值与该点自身进行比较，选择其中最中间的值赋给该点。消除混杂在图片中的干扰因素，强化图片表现特征。图像经中值滤波平滑化处理后，输出结果为：

其中，F（x,y）为原始图像，G（x,y）为中值平滑化处理后的图像，A为滤波窗口。

数字图像的二值化处理是采用类似于K均值聚类的方法寻找阈值，这种方法寻找阈值可以实现更精准的二值化。

具体步骤如下：

（21）先随机生成一个初始化阈值T=0.05；

（22）以阈值为界将图片分为两部分P1和P2；

（23）计算P1与P2的像素数据平均值，分别为a1和a2；

（24）生成一个新的阈值T’，其值为a1与a2 的平均值；

（25）用新的阈值T’重复以上步骤；

（26）直到新的阈值与前一次计算的阈值相等，该值即为此图片二值化处理的最佳阈值。

上述步骤S3中：构建水平、竖直的卷积核。预处理后的图像大小为128×128，水平卷积核采用1×10的全1矩阵，竖直卷积核采用10×1的全1矩阵。

上述步骤S4中: 原图像与卷积核进行卷积，提取出特征数据。用conv2进行二维矩阵的卷积运算，图2、图3是训练集中的数字“6”与水平、竖直卷积核卷积后的结果事例图。其结果表明预处理后的图像采用卷积提取结构特征效果更好。

上述步骤S5中：利用夹角余弦距离法进行分类，实现对手写数字的识别。图4是用于分类的夹角余弦法的方法示意图。

可见，夹角余弦距离分类法包括以下步骤：

（51）获取步骤4中提取的特征向量；

（52）计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值；

（53）取夹角余弦值最大的类别作为其分类结果。

夹角余弦值的计算公式为：

其中，α为待测样品与训练集中的样品所述特征向量之间的夹角，为待测样品的结构特征向量，为训练集中每个样品的结构特征向量，T为向量的转置操作。

本发明的方法与尺寸无关，与旋转无关，最终实现训练手写数字0-9的分类识别。

由上述描述可知，本发明通过卷积提取特征，夹角余弦距离法进行分类，不受坐标轴旋转放大缩小的影响，且不需要大量训练样本支持，提高了手写数字识别的稳定性和效率。

上面结合附图对本发明进行了示例性的描述，所述实施方法仅为本发明的一个实例，本发明的具体实现不受上述方式的限制，等效变化同样落入本发明权利要求的限定范围。

Claims

1.一种基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于包括如下步骤：

S2：对数字图像进行预处理，包括数字图像灰度化、平滑化、二值化处理步骤；

S3：构建水平、竖直的卷积核；

S4: 原图像与卷积核进行卷积，提取出特征数据；

S5: 利用夹角余弦距离法进行分类，实现对手写数字的识别。

2.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S1中，所述数据扩充采用图像平移的方法，来增加训练集的数量。

3.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S2中，所述图像灰度化处理采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。

4.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S2中，所述图像平滑化处理是采用中值滤波去噪平滑处理，将该点左右邻近的两个点的像素值与该点自身进行比较，选择其中最中间的值赋给该点。

5.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S2中，所述图像二值化处理采用类似于K均值聚类的方法寻找阈值，实现更精准的二值化。

6.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S3中，所述水平卷积核为1×10的全1矩阵，所述竖直卷积核为10×1的全1矩阵。

7.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S4中，所述卷积采用conv2进行二维矩阵的卷积运算。

8.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法，其特征在于，上述步骤S5中，所述夹角余弦距离分类法包括：（1）获取步骤S4中提取的结构特征向量；（2）计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值；（3）求最大夹角余弦值及其类号。