CN109670433A - 一种基于卷积与夹角余弦距离法的手写数字识别方法 - Google Patents
一种基于卷积与夹角余弦距离法的手写数字识别方法 Download PDFInfo
- Publication number
- CN109670433A CN109670433A CN201811522409.4A CN201811522409A CN109670433A CN 109670433 A CN109670433 A CN 109670433A CN 201811522409 A CN201811522409 A CN 201811522409A CN 109670433 A CN109670433 A CN 109670433A
- Authority
- CN
- China
- Prior art keywords
- convolution
- included angle
- angle cosine
- handwritten
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000009499 grossing Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003706 image smoothing Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种基于卷积与夹角余弦距离法的手写数字识别方法,属于图像处理、模式识别与人工智能中的技术领域。本发明包括以下步骤:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;对数字图像进行预处理,包括数字图像归一化、平滑化处理步骤;构建水平、竖直的卷积核;原图像与卷积核进行卷积,提取出特征数据;利用夹角余弦距离法进行分类,实现对手写数字的识别。本发明不仅能够抑制旋转对识别结果的影响,同时特征明显,能够提高手写数字识别的稳定性和效率。
Description
技术领域
本发明属于图像处理、模式识别与人工智能中的技术领域,特别涉及一种基于卷积与夹角余弦距离法的手写数字识别方法。
背景技术
数字是全世界通用的符号,识别种类较小,应用前景也极为广泛。由于经济的发展,金融市场化进程的日益加快,票据业务发展很快,票据数量也与日俱增,各种票据均需要处理大量的信息。而目前,票据录入仍然依赖人工处理方式,因而使得票据管理工作也相对落后。手写数字识别技术可以用于实现信息的自动录入,有利于解决传统人工处理方式中存在的工作量大、成本高、效率低、时效性差等问题。因此,手写数字识别技术的研究有着重大的现实意义和十分广阔的应用前景,在大规模的数据统计(如行业年鉴、人口普查等)中,在财务、税务、金融等需要耗费大量人力物力的领域中,也均有着一定的应用。一旦成功投入应用将产生巨大的社会效益和良好的商业价值。
从现有的各种技术来看,通过神经网络与深度学习来实现手写数字识别目前较为热门。但是其仍然存在一些问题,一是神经网络的平移和旋转的稳定性差,二是神经网络需要大量的样本支撑且输入参数过多,导致训练参数规模庞大,训练时间很长,效率较低。因此,找到一种合适的方法来提高稳定性和识别效率是手写数字识别技术的关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于卷积与夹角余弦距离法的手写数字识别方法,不仅能够抑制旋转对识别结果的影响,同时特征明显,能够提高手写数字识别的稳定性和效率。
本发明的技术解决方案是:
一种基于卷积与夹角余弦距离法的手写数字识别方法,包括以下步骤:
S1:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;
S2:对数字图像进行预处理,包括数字图像归一化、平滑化处理步骤;
S3:构建水平、竖直的卷积核;
S4: 原图像与卷积核进行卷积,提取出特征数据;
S5: 利用夹角余弦距离法进行分类,实现对手写数字的识别。
进一步地,上述步骤S1中,所述数据扩充采用图像平移的方法,从而增加训练集的数量。
进一步地,上述步骤S2中,所述图像灰度化处理采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。
进一步地,上述步骤S2中,所述图像平滑化处理是采用中值滤波去噪平滑处理,将该点左右邻近的两个点的像素值与该点自身进行比较,选择其中最中间的值赋给该点。经过增加像元内插处理,加大像元分辨率。
进一步地,上述步骤S2中,所述图像图像二值化处理采用类似于K均值聚类的方法寻找阈值,实现更精准的二值化。
进一步地,上述步骤S3中,所述所述水平卷积核为1×10的全1矩阵,所述竖直卷积核为10×1的全1矩阵。
进一步地,上述步骤S4中,所述卷积采用conv2进行二维矩阵的卷积运算。
进一步地,上述步骤S5中,所述夹角余弦距离分类法包括三部分:(1)获取步骤S4中提取的结构特征向量;(2)计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值;(3)取夹角余弦值最大的类别作为其分类结果。
基于上述技术方案,本发明提出的一种基于卷积与夹角余弦距离法的手写数字识别方法可以有效地识别手写数字。
本发明通过对图像进行灰度化、平滑化、二值化等多次预处理加大像元分辨率。利用卷积核与原图像卷积提取手写数字的结构特征,结合夹角余弦距离法进行分类,抑制了手写数字的旋转放大缩小对识别结果的影响,同时特征明显,使得识别结果更具稳定性和可靠性。
附图说明
图1是本发明实施例基于卷积与夹角余弦距离法的手写数字识别方法的流程图;
图2是手写数字6经本发明中的水平卷积核卷积后的结果实例图;
图3是手写数字6经本发明中的竖直卷积核卷积后的结果实例图;
图4是用于分类的夹角余弦法的方法示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述:
图1是基于卷积与夹角余弦距离法的手写数字识别方法的流程图,具体实施步骤如下:
S1:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;
S2:对数字图像进行预处理,包括数字图像归一化、平滑化处理步骤;
S3:构建水平、竖直的卷积核;
S4: 原图像与卷积核进行卷积,提取出特征数据;
S5: 利用夹角余弦距离法进行分类,实现对手写数字的识别。
上述步骤S1中:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量。其中,数据扩充采用图像的平移扩充方法,来增加训练集的数量。
上述步骤S2中:对数字图像进行预处理,包括数字图像的灰度化、平滑化、二值化处理步骤。
数字图像的灰度化处理是采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像;
数字图像的平滑化处理是采用中值滤波去噪平滑处理,将该点左右邻近的两个点的像素值与该点自身进行比较,选择其中最中间的值赋给该点。消除混杂在图片中的干扰因素,强化图片表现特征。图像经中值滤波平滑化处理后,输出结果为:
其中,F(x,y)为原始图像,G(x,y)为中值平滑化处理后的图像,A为滤波窗口。
数字图像的二值化处理是采用类似于K均值聚类的方法寻找阈值,这种方法寻找阈值可以实现更精准的二值化。
具体步骤如下:
(21)先随机生成一个初始化阈值T=0.05;
(22)以阈值为界将图片分为两部分P1和P2;
(23)计算P1与P2的像素数据平均值,分别为a1和a2;
(24)生成一个新的阈值T’,其值为a1与a2 的平均值;
(25)用新的阈值T’重复以上步骤;
(26)直到新的阈值与前一次计算的阈值相等,该值即为此图片二值化处理的最佳阈值。
上述步骤S3中:构建水平、竖直的卷积核。预处理后的图像大小为128×128,水平卷积核采用1×10的全1矩阵,竖直卷积核采用10×1的全1矩阵。
上述步骤S4中: 原图像与卷积核进行卷积,提取出特征数据。用conv2进行二维矩阵的卷积运算,图2、图3是训练集中的数字“6”与水平、竖直卷积核卷积后的结果事例图。其结果表明预处理后的图像采用卷积提取结构特征效果更好。
上述步骤S5中:利用夹角余弦距离法进行分类,实现对手写数字的识别。图4是用于分类的夹角余弦法的方法示意图。
可见,夹角余弦距离分类法包括以下步骤:
(51)获取步骤4中提取的特征向量;
(52)计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值;
(53)取夹角余弦值最大的类别作为其分类结果。
夹角余弦值的计算公式为:
其中,α为待测样品与训练集中的样品所述特征向量之间的夹角,为待测样品的结构特征向量,为训练集中每个样品的结构特征向量,T为向量的转置操作。
本发明的方法与尺寸无关,与旋转无关,最终实现训练手写数字0-9的分类识别。
由上述描述可知,本发明通过卷积提取特征,夹角余弦距离法进行分类,不受坐标轴旋转放大缩小的影响,且不需要大量训练样本支持,提高了手写数字识别的稳定性和效率。
上面结合附图对本发明进行了示例性的描述,所述实施方法仅为本发明的一个实例,本发明的具体实现不受上述方式的限制,等效变化同样落入本发明权利要求的限定范围。
Claims (8)
1.一种基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于包括如下步骤:
S1:采集手写数字图像,生成训练集和测试集,并通过数据扩充,增加训练集的数量;
S2:对数字图像进行预处理,包括数字图像灰度化、平滑化、二值化处理步骤;
S3:构建水平、竖直的卷积核;
S4: 原图像与卷积核进行卷积,提取出特征数据;
S5: 利用夹角余弦距离法进行分类,实现对手写数字的识别。
2.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S1中,所述数据扩充采用图像平移的方法,来增加训练集的数量。
3.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S2中,所述图像灰度化处理采用rgb2gray函数将三维度的rgb图像转化成单维度的灰度图像。
4.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S2中,所述图像平滑化处理是采用中值滤波去噪平滑处理,将该点左右邻近的两个点的像素值与该点自身进行比较,选择其中最中间的值赋给该点。
5.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S2中,所述图像二值化处理采用类似于K均值聚类的方法寻找阈值,实现更精准的二值化。
6.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S3中,所述水平卷积核为1×10的全1矩阵,所述竖直卷积核为10×1的全1矩阵。
7.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S4中,所述卷积采用conv2进行二维矩阵的卷积运算。
8.根据权利要求1所述的基于卷积与夹角余弦距离法的手写数字识别方法,其特征在于,上述步骤S5中,所述夹角余弦距离分类法包括:(1)获取步骤S4中提取的结构特征向量;(2)计算待测样品与训练集中每个样品所述特征向量之间的夹角余弦值;(3)求最大夹角余弦值及其类号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811522409.4A CN109670433A (zh) | 2018-12-13 | 2018-12-13 | 一种基于卷积与夹角余弦距离法的手写数字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811522409.4A CN109670433A (zh) | 2018-12-13 | 2018-12-13 | 一种基于卷积与夹角余弦距离法的手写数字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670433A true CN109670433A (zh) | 2019-04-23 |
Family
ID=66144356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811522409.4A Pending CN109670433A (zh) | 2018-12-13 | 2018-12-13 | 一种基于卷积与夹角余弦距离法的手写数字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516674A (zh) * | 2019-09-04 | 2019-11-29 | 中国地质调查局西安地质调查中心 | 一种文本图像的手写汉字分割方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971174A (zh) * | 2017-04-24 | 2017-07-21 | 华南理工大学 | 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法 |
CN107491729A (zh) * | 2017-07-12 | 2017-12-19 | 天津大学 | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 |
CN108734168A (zh) * | 2018-05-18 | 2018-11-02 | 天津科技大学 | 一种手写数字的识别方法 |
-
2018
- 2018-12-13 CN CN201811522409.4A patent/CN109670433A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971174A (zh) * | 2017-04-24 | 2017-07-21 | 华南理工大学 | 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法 |
CN107491729A (zh) * | 2017-07-12 | 2017-12-19 | 天津大学 | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 |
CN108734168A (zh) * | 2018-05-18 | 2018-11-02 | 天津科技大学 | 一种手写数字的识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516674A (zh) * | 2019-09-04 | 2019-11-29 | 中国地质调查局西安地质调查中心 | 一种文本图像的手写汉字分割方法及系统 |
CN110516674B (zh) * | 2019-09-04 | 2023-04-18 | 中国地质调查局西安地质调查中心 | 一种文本图像的手写汉字分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei et al. | Coupled adversarial training for remote sensing image super-resolution | |
CN109800754B (zh) | 一种基于卷积神经网络的古字体分类方法 | |
CN110147812A (zh) | 基于扩张残差网络的雷达辐射源识别方法及装置 | |
CN103870816B (zh) | 一种识别率高的植物识别的方法 | |
CN106408039A (zh) | 一种基于形变方法进行数据扩展的脱机手写汉字识别方法 | |
CN109299305A (zh) | 一种基于多特征融合的空间图像检索系统及检索方法 | |
Feng et al. | Bag of visual words model with deep spatial features for geographical scene classification | |
CN109902662A (zh) | 一种行人重识别方法、系统、装置和存储介质 | |
CN109726725A (zh) | 一种基于大间隔类间互异性多核学习的油画作者识别方法 | |
CN106203448B (zh) | 一种基于非线性尺度空间的场景分类方法 | |
Xing et al. | Oracle bone inscription detection: a survey of oracle bone inscription detection based on deep learning algorithm | |
Zhang et al. | A novel generative adversarial net for calligraphic tablet images denoising | |
Dan et al. | The recognition of handwritten digits based on bp neural network and the implementation on android | |
Zheng et al. | Feature enhancement for multi-scale object detection | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
Zhang et al. | A SSD-based crowded pedestrian detection method | |
Liu et al. | DFL-LC: Deep feature learning with label consistencies for hyperspectral image classification | |
Wu et al. | On the relation between color image denoising and classification | |
CN105631451A (zh) | 一种基于安卓系统的植物叶片识别方法 | |
CN109670433A (zh) | 一种基于卷积与夹角余弦距离法的手写数字识别方法 | |
Zhai et al. | Multi-scale feature fusion single shot object detector based on densenet | |
Zhang et al. | Consecutive convolutional activations for scene character recognition | |
Su et al. | Improving text image resolution using a deep generative adversarial network for optical character recognition | |
Wan et al. | Remote sensing image segmentation using mean shift method | |
Zhang et al. | An improved method of clothing image classification based on CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190423 |
|
RJ01 | Rejection of invention patent application after publication |