CN109670433A - 一种基于卷积与夹角余弦距离法的手写数字识别方法 - Google Patents

一种基于卷积与夹角余弦距离法的手写数字识别方法 Download PDF

Info

Publication number
CN109670433A
CN109670433A CN201811522409.4A CN201811522409A CN109670433A CN 109670433 A CN109670433 A CN 109670433A CN 201811522409 A CN201811522409 A CN 201811522409A CN 109670433 A CN109670433 A CN 109670433A
Authority
CN
China
Prior art keywords
convolution
included angle
angle cosine
handwritten
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811522409.4A
Other languages
English (en)
Inventor
焦良葆
谢田
曲心悦
曹宇彤
宛博文
于靓楠
杨晶
龙瑞
高雅宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201811522409.4A priority Critical patent/CN109670433A/zh
Publication of CN109670433A publication Critical patent/CN109670433A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于卷积与夹角余弦距离法的手写数字识别方法,属于图像处理、模式识别与人工智能中的技术领域。本发明包括以下步骤:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;对数字图像进行预处理,包括数字图像归一化、平滑化处理步骤;构建水平、竖直的卷积核;原图像与卷积核进行卷积,提取出特征数据;利用夹角余弦距离法进行分类,实现对手写数字的识别。本发明不仅能够抑制旋转对识别结果的影响,同时特征明显,能够提高手写数字识别的稳定性和效率。

Description

一种基于卷积与夹角余弦距离法的手写数字识别方法
技术领域
本发明属于图像处理、模式识别与人工智能中的技术领域,特别涉及一种基于卷积与夹角余弦距离法的手写数字识别方法。
背景技术
数字是全世界通用的符号,识别种类较小,应用前景也极为广泛。由于经济的发展,金融市场化进程的日益加快,票据业务发展很快,票据数量也与日俱增,各种票据均需要处理大量的信息。而目前,票据录入仍然依赖人工处理方式,因而使得票据管理工作也相对落后。手写数字识别技术可以用于实现信息的自动录入,有利于解决传统人工处理方式中存在的工作量大、成本高、效率低、时效性差等问题。因此,手写数字识别技术的研究有着重大的现实意义和十分广阔的应用前景,在大规模的数据统计(如行业年鉴、人口普查等)中,在财务、税务、金融等需要耗费大量人力物力的领域中,也均有着一定的应用。一旦成功投入应用将产生巨大的社会效益和良好的商业价值。
从现有的各种技术来看,通过神经网络与深度学习来实现手写数字识别目前较为热门。但是其仍然存在一些问题,一是神经网络的平移和旋转的稳定性差,二是神经网络需要大量的样本支撑且输入参数过多,导致训练参数规模庞大,训练时间很长,效率较低。因此,找到一种合适的方法来提高稳定性和识别效率是手写数字识别技术的关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于卷积与夹角余弦距离法的手写数字识别方法,不仅能够抑制旋转对识别结果的影响,同时特征明显,能够提高手写数字识别的稳定性和效率。
本发明的技术解决方案是:
一种基于卷积与夹角余弦距离法的手写数字识别方法,包括以下步骤:
S1:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;
S2:对数字图像进行预处理,包括数字图像归一化、平滑化处理步骤;
S3:构建水平、竖直的卷积核;
S4: 原图像与卷积核进行卷积,提取出特征数据;
S5: 利用夹角余弦距离法进行分类,实现对手写数字的识别。
进一步地,上述步骤S1中,所述数据扩充采用图像平移的方法,从而增加训练集的数量。
进一步地,上述步骤S2中,所述图像灰度化处理采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。
进一步地,上述步骤S2中,所述图像平滑化处理是采用中值滤波去噪平滑处理,将该点左右邻近的两个点的像素值与该点自身进行比较,选择其中最中间的值赋给该点。经过增加像元内插处理,加大像元分辨率。
进一步地,上述步骤S2中,所述图像图像二值化处理采用类似于K均值聚类的方法寻找阈值,实现更精准的二值化。
进一步地,上述步骤S3中,所述所述水平卷积核为1×10的全1矩阵,所述竖直卷积核为10×1的全1矩阵。
进一步地,上述步骤S4中,所述卷积采用conv2进行二维矩阵的卷积运算。
进一步地,上述步骤S5中,所述夹角余弦距离分类法包括三部分:(1)获取步骤S4中提取的结构特征向量;(2)计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值;(3)取夹角余弦值最大的类别作为其分类结果。
基于上述技术方案,本发明提出的一种基于卷积与夹角余弦距离法的手写数字识别方法可以有效地识别手写数字。
本发明通过对图像进行灰度化、平滑化、二值化等多次预处理加大像元分辨率。利用卷积核与原图像卷积提取手写数字的结构特征,结合夹角余弦距离法进行分类,抑制了手写数字的旋转放大缩小对识别结果的影响,同时特征明显,使得识别结果更具稳定性和可靠性。
附图说明
图1是本发明实施例基于卷积与夹角余弦距离法的手写数字识别方法的流程图;
图2是手写数字6经本发明中的水平卷积核卷积后的结果实例图;
图3是手写数字6经本发明中的竖直卷积核卷积后的结果实例图;
图4是用于分类的夹角余弦法的方法示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述:
图1是基于卷积与夹角余弦距离法的手写数字识别方法的流程图,具体实施步骤如下:
S1:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;
S2:对数字图像进行预处理,包括数字图像归一化、平滑化处理步骤;
S3:构建水平、竖直的卷积核;
S4: 原图像与卷积核进行卷积,提取出特征数据;
S5: 利用夹角余弦距离法进行分类,实现对手写数字的识别。
上述步骤S1中:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量。其中,数据扩充采用图像的平移扩充方法,来增加训练集的数量。
上述步骤S2中:对数字图像进行预处理,包括数字图像的灰度化、平滑化、二值化处理步骤。
数字图像的灰度化处理是采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像;
数字图像的平滑化处理是采用中值滤波去噪平滑处理,将该点左右邻近的两个点的像素值与该点自身进行比较,选择其中最中间的值赋给该点。消除混杂在图片中的干扰因素,强化图片表现特征。图像经中值滤波平滑化处理后,输出结果为:
其中,F(x,y)为原始图像,G(x,y)为中值平滑化处理后的图像,A为滤波窗口。
数字图像的二值化处理是采用类似于K均值聚类的方法寻找阈值,这种方法寻找阈值可以实现更精准的二值化。
具体步骤如下:
(21)先随机生成一个初始化阈值T=0.05;
(22)以阈值为界将图片分为两部分P1和P2;
(23)计算P1与P2的像素数据平均值,分别为a1和a2;
(24)生成一个新的阈值T’,其值为a1与a2 的平均值;
(25)用新的阈值T’重复以上步骤;
(26)直到新的阈值与前一次计算的阈值相等,该值即为此图片二值化处理的最佳阈值。
上述步骤S3中:构建水平、竖直的卷积核。预处理后的图像大小为128×128,水平卷积核采用1×10的全1矩阵,竖直卷积核采用10×1的全1矩阵。
上述步骤S4中: 原图像与卷积核进行卷积,提取出特征数据。用conv2进行二维矩阵的卷积运算,图2、图3是训练集中的数字“6”与水平、竖直卷积核卷积后的结果事例图。其结果表明预处理后的图像采用卷积提取结构特征效果更好。
上述步骤S5中:利用夹角余弦距离法进行分类,实现对手写数字的识别。图4是用于分类的夹角余弦法的方法示意图。
可见,夹角余弦距离分类法包括以下步骤:
(51)获取步骤4中提取的特征向量;
(52)计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值;
(53)取夹角余弦值最大的类别作为其分类结果。
夹角余弦值的计算公式为:
其中,α为待测样品与训练集中的样品所述特征向量之间的夹角,为待测样品的结构特征向量,为训练集中每个样品的结构特征向量,T为向量的转置操作。
本发明的方法与尺寸无关,与旋转无关,最终实现训练手写数字0-9的分类识别。
由上述描述可知,本发明通过卷积提取特征,夹角余弦距离法进行分类,不受坐标轴旋转放大缩小的影响,且不需要大量训练样本支持,提高了手写数字识别的稳定性和效率。
上面结合附图对本发明进行了示例性的描述,所述实施方法仅为本发明的一个实例,本发明的具体实现不受上述方式的限制,等效变化同样落入本发明权利要求的限定范围。

Claims (8)

1.一种基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于包括如下步骤:
S1:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;
S2:对数字图像进行预处理,包括数字图像灰度化、平滑化、二值化处理步骤;
S3:构建水平、竖直的卷积核;
S4: 原图像与卷积核进行卷积,提取出特征数据;
S5: 利用夹角余弦距离法进行分类,实现对手写数字的识别。
2.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S1中,所述数据扩充采用图像平移的方法,来增加训练集的数量。
3.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S2中,所述图像灰度化处理采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。
4.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S2中,所述图像平滑化处理是采用中值滤波去噪平滑处理,将该点左右邻近的两个点的像素值与该点自身进行比较,选择其中最中间的值赋给该点。
5.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S2中,所述图像二值化处理采用类似于K均值聚类的方法寻找阈值,实现更精准的二值化。
6.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S3中,所述水平卷积核为1×10的全1矩阵,所述竖直卷积核为10×1的全1矩阵。
7.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S4中,所述卷积采用conv2进行二维矩阵的卷积运算。
8.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S5中,所述夹角余弦距离分类法包括:(1)获取步骤S4中提取的结构特征向量;(2)计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值;(3)求最大夹角余弦值及其类号。
CN201811522409.4A 2018-12-13 2018-12-13 一种基于卷积与夹角余弦距离法的手写数字识别方法 Pending CN109670433A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811522409.4A CN109670433A (zh) 2018-12-13 2018-12-13 一种基于卷积与夹角余弦距离法的手写数字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811522409.4A CN109670433A (zh) 2018-12-13 2018-12-13 一种基于卷积与夹角余弦距离法的手写数字识别方法

Publications (1)

Publication Number Publication Date
CN109670433A true CN109670433A (zh) 2019-04-23

Family

ID=66144356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811522409.4A Pending CN109670433A (zh) 2018-12-13 2018-12-13 一种基于卷积与夹角余弦距离法的手写数字识别方法

Country Status (1)

Country Link
CN (1) CN109670433A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516674A (zh) * 2019-09-04 2019-11-29 中国地质调查局西安地质调查中心 一种文本图像的手写汉字分割方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971174A (zh) * 2017-04-24 2017-07-21 华南理工大学 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法
CN107491729A (zh) * 2017-07-12 2017-12-19 天津大学 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN108734168A (zh) * 2018-05-18 2018-11-02 天津科技大学 一种手写数字的识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971174A (zh) * 2017-04-24 2017-07-21 华南理工大学 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法
CN107491729A (zh) * 2017-07-12 2017-12-19 天津大学 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN108734168A (zh) * 2018-05-18 2018-11-02 天津科技大学 一种手写数字的识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516674A (zh) * 2019-09-04 2019-11-29 中国地质调查局西安地质调查中心 一种文本图像的手写汉字分割方法及系统
CN110516674B (zh) * 2019-09-04 2023-04-18 中国地质调查局西安地质调查中心 一种文本图像的手写汉字分割方法及系统

Similar Documents

Publication Publication Date Title
Lei et al. Coupled adversarial training for remote sensing image super-resolution
CN109800754B (zh) 一种基于卷积神经网络的古字体分类方法
CN110147812A (zh) 基于扩张残差网络的雷达辐射源识别方法及装置
CN103870816B (zh) 一种识别率高的植物识别的方法
CN106408039A (zh) 一种基于形变方法进行数据扩展的脱机手写汉字识别方法
CN109299305A (zh) 一种基于多特征融合的空间图像检索系统及检索方法
Feng et al. Bag of visual words model with deep spatial features for geographical scene classification
CN109902662A (zh) 一种行人重识别方法、系统、装置和存储介质
CN109726725A (zh) 一种基于大间隔类间互异性多核学习的油画作者识别方法
CN106203448B (zh) 一种基于非线性尺度空间的场景分类方法
Xing et al. Oracle bone inscription detection: a survey of oracle bone inscription detection based on deep learning algorithm
Zhang et al. A novel generative adversarial net for calligraphic tablet images denoising
Dan et al. The recognition of handwritten digits based on bp neural network and the implementation on android
Zheng et al. Feature enhancement for multi-scale object detection
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
Zhang et al. A SSD-based crowded pedestrian detection method
Liu et al. DFL-LC: Deep feature learning with label consistencies for hyperspectral image classification
Wu et al. On the relation between color image denoising and classification
CN105631451A (zh) 一种基于安卓系统的植物叶片识别方法
CN109670433A (zh) 一种基于卷积与夹角余弦距离法的手写数字识别方法
Zhai et al. Multi-scale feature fusion single shot object detector based on densenet
Zhang et al. Consecutive convolutional activations for scene character recognition
Su et al. Improving text image resolution using a deep generative adversarial network for optical character recognition
Wan et al. Remote sensing image segmentation using mean shift method
Zhang et al. An improved method of clothing image classification based on CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190423

RJ01 Rejection of invention patent application after publication