CN109345684A

CN109345684A - 一种基于gmdh-svm的多国纸币冠字号识别方法

Info

Publication number: CN109345684A
Application number: CN201810756819.9A
Authority: CN
Inventors: 任胜兵; 化刘杰
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2019-02-15

Abstract

本发明公开一种基于GMDH‑SVM深度神经网络的多国纸币冠字号识别方法，属于模式识别技术领域。首先基于多国纸币采集冠字号图片，利用图片处理得到的特征构数据建立训练样本数据集，构建基于GMDH‑SVM分类器的分类模型，利用所建立的训练样本数据集对分类模型进行训练，将待预测图片的数据特征数据输入到训练好的分类模型中，进行预测。本发明的分类模型通过采用GMDH‑SVM的分类模型，构建可以自由生长的深度神经网络，可以提高模型的自适应程度，并通过将特征通过两两组合的方式进行输入，可以加快训练的速度，在神经网络生长的过程中，对一些误差较大的特征组合进行过滤，可以提高抗干扰能力和准确率；GMDH‑SVM深度神经网络对样本需求量小，训练速度快，识别准确率高，可以完成在线的模型训练和预测。

Description

一种基于GMDH-SVM的多国纸币冠字号识别方法

技术领域

本发明涉及模式识别技术领域，特指一种GMDH-SVM的多国纸币冠字号识别方法。

背景技术

当前支持多国货币处理的金融机具设备已成为一种发展趋势，基于图像处理的数字识别技术也得到广泛应用。在多国纸币当中，每张纸币都具有一个身份识别的冠字号，对每张纸币的冠字号进行识别可以很好的解决出现的假钞问题，在取款时通过保留取款机打印的凭条冠字号，如果发现假钞，可以凭借冠字号和银行进行交涉，避免双方纠纷。目前基于数字图像处理的冠字号识别技术，通常采用的识别算法比较复杂，时间复杂度高，并且纸币流通过程中可能存在磨损，使得多数纸币冠字号识别方法的准确率不能满足高指标的需求。

在目前的纸币币种识别研究过程中出现了很多提取特征的算法，好的特征提取算法在提升识别准确率方面起到了关键作用，例如遗传算法特征提取技术，通过一系列交叉选择和操作，使得提取的方法得到优化，从本质上说它是对提取技术的预处理，能够很大程度上提高泛化能力。传统的识别算法对于特征的处理都是通过将所有的特征作为输入，进行模型的建立，这样就对特征提取提出了更高的要求，有些纸币的由于流通过程中存在的磨损导致特征提取不准确，在模型建立的过程中会出现很大的问题，并且所有的特征一起输入对于模型的建立所需的时间也比较多，模型训练速度慢，对于一些有在线训练要求的场景来说具有很大的限制。如何解决特征输入的容错率和模型建立的快速性是一个需要解决的问题。

发明内容

本发明的目的是提供一种GMDH-SVM深度神经网络的多国纸币冠字号的识别方法，通过GMDH的方式实现SVM的网络自由生长，可以很好的提高模型的自适应程度，通过两两组合并过滤的方式可以很好的提高模型的容错率和准确率，采用两两组合并过滤的方式，特征输入逐层减少，可以加快模型的训练速度

为了实现上述特征，本发明的技术方案如下：

一种基于GMDH-SVM的多国纸币冠字号识别方法，其特征在于：包括以下几个步骤：

步骤1：利用多国纸币冠字号图片提取特征数据，构建训练样本数据集；

所述步骤1中构建训练样本数据集的具体步骤是：

步骤1.1：将纸币中的冠字号图片进行截取，然后对图片进行处理；

步骤1.2：对处理后的图片进行特征提取，将提取后的n个特征组合成特征向量；

步骤1.3：将得到的特征向量进行存储，并给特征值加入对应数字或字母的标签；

步骤1.4：对剩下所有的样本集国家纸币的冠字号图片，重复上述步骤1.1-1.3，得到训练样本数据集。

步骤1.5：将数据集的80％部分作为训练集，剩下的20％作为测试集。

步骤2：构建分类模型，并利用所构建的训练样本数据集对分类模型进行训练；

所述步骤2中构建分类模型的具体方法是：

步骤2.1：通过将样本数据集中的n个特征向量进行两两组合，生成0.5*n*(n-1)个特征向量的组合，分别作为SVM的输入；

步骤2.2：将组合后的向量经过SVM得到的结果与标签值进行误差值的计算；

步骤2.3：将得到的误差值较小的部分进行保留，其余的被丢弃，被保留的部分作为下一层的输入。

步骤2.3.1：在第一层选择时，与后面层的选择的方法不同，第一层选取误差值较小的一部分进行保留。

步骤2.3.2：在第二层的选择标准是选择误差值小于上一层的进行保留，作为下一层的输入。

步骤2.3.3：GMDH-SVM深度神经网络是自由生长的网络结构，生长的长度取决于误差值收敛的快慢。每一层中只选择误差值小于上一层的输出，如果保留的输出结果只剩下两个或者误差在一定范围内稳定不再波动，则停止生长。

步骤2.3.4：当生长停止时，如果最后一层的输入是由两个，则两个组合到一起作为SVM的输入，最后输出单一的结果。最后被保留的输入多于两个，则再次进行两两组合，将得到的多个结果根据一定的权重进行组合。

所述步骤2.3中每一次经过SVM的输入是从上一层的输出中通过选择得到的，选择的依据是每一层经过SVM输出与真实值之间的误差值的大小。

步骤3：利用训练好的分类模型对将要处理纸币图片进行预测，识别纸币中的冠字号。

所述步骤3中预测币种的具体方法是：

步骤3.1：通过对纸币的冠字号截图进行特征提取，构建冠字号特征数据集；

步骤3.2：把特征值输入训练好的GMDH-SVM分类器模型中，得出最终的识别结果。

本发明的有益效果为：

1)本发明采用GMDH-SVM分类器，GMDH-SVM分类器通过GMDH实现SVM浅层神经网络的自由生长，生成自由生长的深度神经网络，对样本的需求小，训练速度快，容错性能好，对于计算机硬件要求也不高。

2)本发明通过对多维特征采取两两组合的方式，可以将特征以最小的组合方式(两两组合)进行输入，在模型的训练中，二维的特征进行训练可以大大减少训练所需要的时间，针对于一些具有在线训练和快速性要求的识别分类工作具有很好的应用作用。

3)本发明方法采用最小的特征组合方式，并构建多次神经网络，通过对输出的层层筛选，可以大大降低由于某些特征不准确对模型构建的影响，在预测的过程中，可以很好的解决由于图片磨损导致的特征提取错误，引起的预测不准确的问题；

4)本发明利用GMDH-SVM的可以自由生长的网络结构，生长的自由度在实际的应用中进行确定，可以很大程度上减少人为的干扰；

附图说明

图1是本发明方法的总体框架图；

图2是本发明数据集生成流程图

图3是本发明构建分类模型方法的流程图；

图4是本发明预测纸币冠字号图片的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实例提供一种基于GMDH-SVM的多国纸币币种识别方法，

具体实施方式如下：

1：利用多国纸币背景图片提取图片特征，根据提取的图片特征构建训练样

本数据集，如图2所示；

利用提取得到的特征数据集构建训练集和测试集，

GMDH-SVM模板集构建的具体步骤如下：

1.1：将多国纸币的冠字号图片进行处理和截取，得到可以进行特征提取的单个字符的图片，通过特征提取算法提取出图片的特征，将每一个提取的特征组合成特征向量，并把特征向量进行保存。

1.2：对特征向量加入对应的标签，构成一个字符的完整特征向量。

1.3：将截取的纸币字符图片都进行1.1和1.2的处理，构建样本的图片特征数据集。

1.4：将数据集中的80％作为训练集，20％作为测试集。

2：构建分类模型，如图3所示，并利用所构建的训练样本数据集对分类模型进行训练；

2.1：构建图片训练集和测试集；

2.2：通过GMDH的组合方式将SVM构建为深成神经网络；

2.3：通过对输入进行两两组合和输出筛选，构建SVM的特征分类模型：

2.3.1：将所有的特征向量进行两两组合，作为SVM的第一层输入；

2.3.2：对经过SVM的输出进行选择，将输出值与真实值进行误差计算，将误差较小的部分进行保留

2.3.3：将第一层中保留的输出部分重新进行两两组合，将组合后的输出作为第二层的输入；

2.3.4：第二层的输出选择与第一层有所不同，第二层的选择方法是将第二层中误差率小于第一次的输出进行保留；

2.3.5：对每一层的输出重复步骤2.3.4，构造可以自由生长的深度神经网络；

2.3.6：如果所保留的SVM输出只剩下两个，则停止选择，所保留的两个输出作为最后一层SVM的输入；如果误差在很小的范围内容波动，则停止进行输出选择，将所有的输出都保留，将保留的输出进行两两组合作为SVM的输入，组合后得到的结果根据误差的大小进行线性组合，组合时的权重大小根据结果的误差所确定；

步骤2.3.7：将最后一层的输出作为输入的结果，对训练模型进行保留。

在具体实施过程中，通过一对一的方式将多个不同类型的SVM分类器生成一个多分类器。

步骤3：利用训练好的分类模型对待处理纸币图片进行预测，识别冠字号，如图4所示。

步骤3.1：对所处理的图进行特征提取构建特征数据集；

步骤3.3：把特征输入训练好的GMDH-SVM分类模型中，得出最终的识别结果。

本发明具有很好快速性，对一些训练效率比较高或者在线的训练模型都可以很快速的完成，可以很好的针对于出现问题的模型进行重新的训练，便于在使用时的及时调整。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于GMDH-SVM的多国纸币冠字号字符识别方法，其特征在于：包括以下几个步骤：

步骤1：通过对多国纸币冠字号字符图片进行特征提取，将提取的特征数据建立特征数据集；

步骤2：构建基于GMDH-SVM分类器的分类模型，将数据集输入到训练模型，保存训练好的模型参数；

步骤3：利用训练好的分类模型对待处理纸币图片进行预测，识别冠字号字符。

2.根据权利要求1所述的基于GMDH-SVM的多国纸币冠字号字符识别方法，其特征在于：所述步骤1建立36个字符图片的特征数据集，分别为0-9，A-Z。对建立的特征数据集加入所对应的标签。

3.根据权利要求1或2所述的基于GMDH-SVM的多国纸币冠字号字符识别方法，其特征在于：所述步骤1中生成训练样本特征数据的具体步骤是：

步骤1.1：通过对采集到的纸币图片进行处理，并对图片的特征进行提取，将提取到的所有特征建立图片的特征向量；

步骤1.2：将图片的特征向量进行存储，并加入相应的标签，构建训练集；

步骤1.3：将得到的特征向量进行存储，并加入相应的标签，构建测试集；

4.根据权利要求1或2所述的基于GMDH-SVM的多国纸币冠字号字符识别方法，其特征在于：基于GMDH-SVM的训练过程，对每一个字符的特征向量进行两两组合，第i个字符的特征共有n个，对特征进行两两组合后得到个特征组合，将组合后的两个特征作为SVM的输入，从输出结果中选择误差较小的一部作为下一层的输入，直到输出只有两个或者误差在很小范围内波动；

5.根据权利要求1所述的基于GMDH-SVM的多国纸币冠字号字符识别方法，其特征在于：对所有的特征数据重复上面的操作，保留训练参数的数据，得到预测模型。

6.根据权利要求1所述的基于GMDH-SVM多国纸币冠字号字符识别方法，其特征在于：所述步骤2中构建基于GMDH-SVM分类器的分类模型并进行训练的具体方法如下：

步骤2.1：得到的特征向量中包含有n个特征，通过采用两两组合的特征组合方式，将特征组合为二维特征，作为SVM的输入；

步骤2.2：计算两个特征经过SVM得到的结果与真实值之间的误差值，选择误差较小的部分作为下一层的输入

步骤2.3：对每一层误差的计算如下：

其中表示两两组合的特征输入SVM得到的结果，w_h表示参数矩阵w_h＝(w_1h，w_2h)，表示两两组合后的特征输入

其中，E_h表示在第h次线性组合中的误差值，y表示真实值，表示第h次两两组合经过SVM得到的值。将误差E的作为选取的依据，保留无误差较小的部分作为下一层的输入。

步骤2.4：将第一层中输出误差较小的部分保留下来，作为第二层的输入，将第二层输入经过SVM得到的结果与真实值之间计算误差值，将误差值小于第一层误差的输出保留，作为第三层的输入。

步骤2.5：重复步骤2.4，当剩下两个输出结果或者输出结果的误差不在波动，重复停止，将输出的结果作为输入，经过SVM得到最终结果。如果有多与两个的输出被保留，那么对保留的输出再次进行两两组合，经过SVM后得到结果进行权重组合。权重的大小由输出值与真实值的误差所决定。

7.根据权利要求1或2所述的基于GMDH-SVM的多国纸币冠字号字符识别方法，其特征在于：所述步骤3中识别冠字号字符的具体方法是：

步骤3.1：利用在图形处理中得到的图形特征生成数据集；

步骤3.2：利用步骤1.2-1.3的方法，得到训练模型；

步骤3.3：把特征值输入训练好的GMDH-SVM分类器模型中，得出最终的识别结果。