CN111104946A

CN111104946A - 一种基于svm分类器的纸币冠字号字符分割方法

Info

Publication number: CN111104946A
Application number: CN201911344253.XA
Authority: CN
Inventors: 孔飞; 徐�明
Original assignee: Jiangsu Guoguang Electronic Information Technology Co Ltd
Current assignee: Jiangsu Guoguang Electronic Information Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-05

Abstract

本发明公开了一种基于SVM分类器的纸币冠字号字符分割方法，包括训练步骤和分割步骤；所述训练步骤包括：S1.1，获取冠字号图像样本，并对冠字号图像进行预处理，之后转换为灰度图像；S1.2，对灰度图像在垂直方向上进行像素值投影形成零序列集；S1.3，根据零序列建立训练集的正负样本，对正样本训练集与负样本训练集中的冠字号样本图片提取HOG特征后，将提取出的HOG特征输入至SVM分类器进行训练。本发明具有很高的字符分割正确率，在复杂的环境中鲁棒性强，并且与硬件载体，固件程序等无关，极大的提高了软件的适应性，具有丰富的应用场景，且可远程更新下发相关数据、训练模型等。

Description

一种基于SVM分类器的纸币冠字号字符分割方法

技术领域

本发明涉及一种基于SVM分类器的纸币冠字号字符分割方法。

背景技术

当前ATM模块由于受制于固件程序，在纸币的OCR识别方面基本使用模板匹配的方案，此方案有以下几种问题：

1、由于市面上的纸币流通，因此存在很多不确定因素，如污损、油脂、旧币等，这些不确定因素导致采用常规方案进行OCR识别时，经常会出现误识别或者漏识别。

2、当中国人民银行发行新版本纸币，或者纸币冠字号字符位数发生变化时，通常需要调整更新固件程序，才能适配当前的新版人民币，相对效率不高。

针对上述ATM机模块在冠字号识别率方面存在的问题，申请人设计了一种字符分割正确率高，并且在复杂的环境中鲁棒性强的纸币冠字号字符分割方法。

发明内容

本发明的目的是提供一种字符分割正确率高，并且在复杂的环境中鲁棒性强的基于SVM分类器的纸币冠字号字符分割方法。

实现本发明目的的技术方案是：一种基于SVM分类器的纸币冠字号字符分割方法，包括训练步骤和分割步骤；

所述训练步骤包括：

S1.1，获取冠字号图像样本，并对冠字号图像进行预处理，之后转换为灰度图像；

S1.2，对灰度图像在垂直方向上进行像素值投影形成零序列集；

S1.3，根据零序列建立训练集的正负样本，对正样本训练集与负样本训练集中的冠字号样本图片提取HOG(Histogram oforiented gradient，方向梯度直方图)特征后，将提取出的HOG特征输入至SVM分类器进行训练；

所述分割步骤包括：

S2.1，获取待处理的冠字号图片，通过对冠字号图像进行预处理后直接转换为灰度图像；

S2.2，根据扩展后的零序列集中的连续0元素段位置对待处理的冠字号图片的灰度图像进行垂直方向的截取，对截取的图片进行HOG特征提取，并将HOG特征输入SVM分类器进行预测，若SVM分类器输出结果为正，则保留截取的图片所对应的零序列集中该连续0元素段位置，否则删除该连续0元素段位置；全部截取的图片均输入SVM分类器之后，最终得到的零序列集即为当前冠字号分割结果。

所述训练步骤S1.1中对冠字号图像进行预处理包括锐化、矫正倾斜和降噪。

所述训练步骤S1.2具体为：对灰度图像在垂直方向上进行像素值投影得到投影向量，然后根据投影向量计算得到阈值，并通过该阈值对投影向量进行二值化处理，将低于阈值的元素置0，记录投影向量中每一连续0元素段的起始位置与终止位置，从而形成零序列集。

所述阈值的计算方法具体为：选择投影向量的处于中段位置的元素，通过求中段位置元素的均值与标准差得到阈值T_H，计算公式为：

T_H＝T_M+W×T_S

其中，T_M为中段位置元素的均值，T_S为中段位置元素的标准差，W为权重系数。

所述训练步骤S1.3中根据零序列建立训练集的正负样本具体为：根据零序列集中每一连续0元素段进行左右扩展，得到扩展后的零序列集；从起始位置向零序列集的左端和右端扩展的距离不超过先验的单个冠字号字符宽度的1/4；根据扩展后的零序列集中的连续0元素段位置对各冠字号样本图片进行垂直方向的截取，得到正样本训练集；再对冠字号样本图片等间隔进行垂直方向截取到负样本训练集。

所述训练步骤S2.1中对冠字号图像进行预处理包括锐化、矫正倾斜和降噪。

采用了上述技术方案，本发明具有以下的有益效果：(1)本发明具有很高的字符分割正确率，在复杂的环境中鲁棒性强，并且与硬件载体，固件程序等无关，极大的提高了软件的适应性，具有丰富的应用场景，且可远程更新下发相关数据、训练模型等。

(2)本发明基于SVM分类器，训练的的数据模型，在复杂环境种鲁棒性强，可以实时根据外界情况，及时调整和更新训练数据模型，且支持神经网络混合模型。

(3)本发明具有跨平台系统支持的优点，可同时支持Windows，Linux等操作系统。

具体实施方式

(实施例1)

本实施例的基于SVM分类器的纸币冠字号字符分割方法，包括训练步骤和分割步骤；

其中，训练步骤包括：

S1.1，获取冠字号图像样本，通过锐化、矫正倾斜、降噪，实现对冠字号图像的预处理，之后转换为灰度图像；

S1.2，对灰度图像在垂直方向上进行像素值投影得到投影向量，然后根据投影向量计算得到阈值，并通过该阈值对投影向量进行二值化处理，将低于阈值的元素置0，记录投影向量中每一连续0元素段的起始位置与终止位置，从而形成零序列集。

阈值的计算方法具体为：选择投影向量的处于中段位置的元素，通过求中段位置元素的均值与标准差得到阈值T_H，计算公式为：

T_H＝T_M+W×T_S

S1.3，先根据零序列建立训练集的正负样本：根据零序列集中每一连续0元素段进行左右扩展，得到扩展后的零序列集；从起始位置向零序列集的左端和右端扩展的距离不超过先验的单个冠字号字符宽度的1/4；根据扩展后的零序列集中的连续0元素段位置对各冠字号样本图片进行垂直方向的截取，得到正样本训练集；再对冠字号样本图片等间隔进行垂直方向截取到负样本训练集；

然后对正样本训练集与负样本训练集中的冠字号样本图片提取HOG(特征后，将提取出的HOG特征输入至SVM分类器进行训练。

分割步骤包括：

S2.1，获取待处理的冠字号图片，通过对冠字号图像锐化，矫正倾斜、降噪等预处理后直接转换为灰度图像；

本实施例提供的字符分割方法具有很高的字符分割正确率，在复杂的环境中鲁棒性强，并且与硬件载体，固件程序等无关，极大的提高了软件的适应性，具有丰富的应用场景，且可远程更新下发相关数据、训练模型等。基于SVM分类器，训练的的数据模型，在复杂环境种鲁棒性强，可以实时根据外界情况，及时调整和更新训练数据模型，且支持神经网络混合模型。本实施例提供的字符分割方法可同时支持Windows，Linux等操作系统。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于SVM分类器的纸币冠字号字符分割方法，其特征在于：包括训练步骤和分割步骤；

所述训练步骤包括：

S1.3，根据零序列建立训练集的正负样本，对正样本训练集与负样本训练集中的冠字号样本图片提取HOG特征后，将提取出的HOG特征输入至SVM分类器进行训练；

所述分割步骤包括：

S2.1，获取待处理的冠字号图片，并对冠字号图像进行预处理后直接转换为灰度图像；

2.根据权利要求1所述的一种基于SVM分类器的纸币冠字号字符分割方法，其特征在于：所述训练步骤S1.1中对冠字号图像进行预处理包括锐化、矫正倾斜和降噪。

3.根据权利要求1所述的一种基于SVM分类器的纸币冠字号字符分割方法，其特征在于：所述训练步骤S1.2具体为：对灰度图像在垂直方向上进行像素值投影得到投影向量，然后根据投影向量计算得到阈值，并通过该阈值对投影向量进行二值化处理，将低于阈值的元素置0，记录投影向量中每一连续0元素段的起始位置与终止位置，从而形成零序列集。

4.根据权利要求3所述的一种基于SVM分类器的纸币冠字号字符分割方法，其特征在于：所述阈值的计算方法具体为：选择投影向量的处于中段位置的元素，通过求中段位置元素的均值与标准差得到阈值T_H，计算公式为：

T_H＝T_M+W×T_S

5.根据权利要求1所述的一种基于SVM分类器的纸币冠字号字符分割方法，其特征在于：所述训练步骤S1.3中根据零序列建立训练集的正负样本具体为：根据零序列集中每一连续0元素段进行左右扩展，得到扩展后的零序列集；从起始位置向零序列集的左端和右端扩展的距离不超过先验的单个冠字号字符宽度的1/4；根据扩展后的零序列集中的连续0元素段位置对各冠字号样本图片进行垂直方向的截取，得到正样本训练集；再对冠字号样本图片等间隔进行垂直方向截取到负样本训练集。

6.根据权利要求1所述的一种基于SVM分类器的纸币冠字号字符分割方法，其特征在于：所述训练步骤S2.1中对冠字号图像进行预处理包括锐化、矫正倾斜和降噪。