CN113011414A

CN113011414A - 一种基于双特征正交弹性维数约简的手写体数字识别方法

Info

Publication number: CN113011414A
Application number: CN202110366347.8A
Authority: CN
Inventors: 苏树智; 朱刚; 朱彦敏; 谢玉麒; 卢彦丰; 张开宇
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-06-22

Abstract

本发明公开了一种基于双特征正交弹性维数约简的手写体数字识别方法，主要是构建局部无向近邻图与全局几何图的同时引入正交性准则，构建正交弹性维数约简模型，并进一步利用该模型实现了手写体数字的识别任务。其具体实现过程为：(1)利用模态策略对手写体数字图像进行模态化处理；(2)构建正交弹性维数约简模型；(3)利用双特征分解方法对该模型进行求解，并借助最近邻分类器实现的手写体数字的识别。与现有技术相比，本发明提出的基于双特征正交弹性维数约简的手写体数字识别方法更具有效性和鲁棒性。

Description

一种基于双特征正交弹性维数约简的手写体数字识别方法

技术领域

本发明属于模式识别和维数约简技术领域，具体为一种基于双特征正交弹性维数约简的手写体数字识别方法。

背景技术

随着电子信息技术的飞速发展，数据的产生方式和存储方式快速提升，从而使得数据量呈现爆炸式的增长。通常来说，这些数据往往存在高维、复杂等特性，如果对这些数据直接进行处理，则会出现维数灾难等问题。因此，如何从高维数据中获取面向实际需求的有用信息以及发现高维数据中真实结构与内在散布关系，已经成为模式识别、机器学习等诸多领域中一项具有实际应用意义的挑战性问题。目前，通常使用维数约简对高维数据进行处理。维数约简旨在寻找高维数据中内在本质结构，删除数据中冗余信息，从而在低维投影子空间中保留有效的信息。利用维数约简，可以在降低高维数据复杂性与维度的同时保留数据中所需要的内在特征信息。

用于手写体识别的维数约简方法可分为线性维数约简方法与非线性维数约简方法。面向手写体识别的线性维数约简方法通常利用数据之间的全局结构关系来实现维数约简的目的，经典的方法有主成分分析(Principal Component Analysis，PCA)，线性鉴别分析(Linear Discriminant Analysis，LDA)等；面向手写体识别的非线性维数约简方法旨在借助数据的局部近邻关系进行维数约简，代表性的方法有局部保持投影(LocalityPreserving Projection，LPP)，近邻保持嵌入(Neighborhood Preserving Embedding，NPE)等。然而，现实中的数据分布规律往往是复杂的，有效的信息往往存在多种数据结构。单一地探索局部或者全局结构会在维数约简过程中丢失诸多有效信息，并且原始的高维数据中包括大量的冗余信息和噪声，进一步限制了它们的性能。为了解决这一问题，我们发明了一种基于双特征正交弹性维数约简的手写体数字识别方法，结合局部和全局结构的优点构建局部无向近邻图与全局几何图，同时引入正交性准则构建正交弹性维数约简模型，并利用双特征分解方法对该模型进行求解，最终借助最近邻分类器实现手写体数字的识别任务。

发明内容

传统维数约简方法未能充分捕获原始高维数据中的有效信息，并且原始高维数据中所存在的大量噪声与冗余也影响了传统维数约简方法的性能。针对此问题，本发明提出了一种基于双特征正交弹性维数约简的手写体数字识别方法。本发明的核心是通过构建局部近邻无向图与全局几何图去探索原始高维数据中的内在有效结构，同时通过融入正交性准则增强正交弹性维数约简模型的鲁棒性，从而在获得具有强鉴别力的正交弹性特征。本发明的具体实现步骤如下：

1.利用模态策略对手写体数字图像进行模态化处理，即借助Coiflets小波变换获得手写体数字图像对应的单幅低频子图像；

2.单视图图像数据集的构建：X＝[x₁,x₂,...,x_n]∈R^m×n，其中m是数据集X的样本维数，n为样本总量，x_i表示数据集X第i个样本(i＝1,2,3...n)；

3.构建正交弹性维数约简模型，具体构建过程如下：

(3a)构建局部近邻相似权重矩阵

其中

表示局部近邻相似权重矩阵S_local的第(i,j)(i,j＝1,2,...,n)个元素，N_k(x)表示x的前k个近邻样本的集合，t∈(0,+∞)是设置的内核参数；

(3b)构建全局欧式相似权重矩阵：

其中

表示全局近邻相似权重矩阵S_global的第(i,j)(i,j＝1,2,...,n)个元素。

(3c)构建数据集X的局部近邻模型：

其中L_local＝D_local-S_local，D_local为对角矩阵，对角线上的元素为D_local每一行元素之和，P为正交投影矩阵。

(3d)构建数据集X的全局欧式模型：

其中L_global＝D_global-S_global，D_global为对角矩阵，对角线上的元素为D_global每一行元素之和。

(3e)基于双特征分解的思想构建数据集X的正交弹性维数约简模型，该模型为：

其中α∈(0,1)是平衡参数用以权衡S_local和L_global之间的比例，model 1用获取第一个正交投影方向p(即p₁)，model 2用来求解获得第i个正交投影方向p_i，并且保证投影方向之间两两正交。

4.对正交弹性维数约简模型进行优化求解，具体求解过程如下:

(4a)基于model 1构建拉格朗日乘子函数L₁(p)：

其中λ₁表示拉格朗日乘子，将L₁(p)的导数设为0，可以得到：

从上式可得到如下广义特征值分解问题：

(XH_ddX^T)^-1XH_slX^Tp＝λ₁p

其中H_sl＝(1-α)S_local+αL_global，H_dd＝D_local-D_global

通过求解上述广义特征值问题可以得到第一个正交投影方向p。

(4b)基于model 2构建拉格朗日乘子函数L₂(p)：

其中λ₂和σ_i表示拉格朗日乘子，令

将L₂(p)的导数设为0，可得：

其中p^(k-1)＝(p₁，p₂，p₃，...，p_k-1)；

对上式分别左乘

从上述式子中可得拉格朗日乘子σ^(k-1)的表达式：

σ^(k-1)＝([P^(k-1)]^T(XH_ddX^T)^-1p^(k-1))^-1[p^(k-1)]^T(XH_ddX^T)^-1XH_slX^Tp

将σ^(k-1)的表达式代回

等式中可以得到下述广义特征值问题：

(XH_ddX^T)^-1(I-G)XH_slX^Tp＝λ₂p

其中G＝p^(k-1)([p^(k-1)]^T[XH_ddX^T]^-1p^(k-1))^-1[p^(k-1)]^T[XH_ddX^T]^-1；

通过求解两个广义特征值问题，可以获得d个特征向量p₁,p₂,p₃...,p_d。因此，正交投影矩阵P为P＝[p₁,p₂,p₃...,p_d]，进而构建低维正交弹性特征训练集为Y＝[P^Tx₁,P^Tx₂,P^Tx₃,...,P^Tx_n],Y∈R^d×n。

5.利用最近邻分类器对手写体数字进行识别：

使用模态策略获得测试图像数据集，并借助步骤2中方法构建测试图像数据集

其中N为测试样本总量；借助步骤4中学习的正交投影矩阵P，直接获得低维正交弹性特征测试集

最后在低维正交弹性特征训练集Y和低维正交弹性特征测试集

上利用最近邻分类器即可获得最终的识别结果。

通过结合了全局欧式结构与局部流形结构的优点，本发明能够充分地探索数据间的特征信息，捕获内在真实有效的结构，并且融入了正交性准则使得本发明最终学到的低维正交弹性特征具有强鉴别力和高鲁棒性，因此具有良好的识别效果。

附图说明

图1为本发明的具体实现流程图。

图2是Semeion手写体数据集中每种方法的平均识别率与维度之间的关系，其中(a)每类30个训练样本，(b)每类40个训练样本，(c)每类50个训练样本(d)每类60个训练样本。

具体实施方式

为了详细说明本发明的目的、具体流程以及优点，下面将结合实例和附图对具体实施方式做详细介绍：

1.利用模态策略对手写体数字图像进行模态化处理，即借助Coiflets小波变换获得手写体数字图像对应的单幅低频子图像。

2.单视图图像数据集的构建：X＝[x₁,x₂,...,x_n]∈R^m×n其中m是数据集X的样本维数，n为样本总量，x_i表示数据集X第i个样本(i＝1,2,3...n)。

3.优化求解单视图训练图像数据集X对应的正交投影矩阵P：

正交投影矩阵的优化求解问题转换为以下两个广义特征值分解问题：

第一个方程可求得正交投影矩阵P对应的第一个投影方向，第二个方程可求得正交投影矩阵P剩余投影方向。其中H_sl＝(1-α)S_local+αL_global，H_dd＝D_local-D_global，α∈(0，1)是平衡参数用以权衡S_local和L_global之间的比例，L_global＝D_global-S_global，D_global和D_local均为对角矩阵，对角线上的元素为D_global(D_local)每一行元素之和，I为单位矩阵G＝p^(k-1)([p^(k-1)]^T[XH_ddX^T]^-1p^(k-1))^-1[p^(k-1)]^T[XH_ddX^T]^-1，k∈(2，d)。全局近邻相似权重矩阵S_global的第(i，j)(i，j＝1，2，...，n)个元素为

局部近邻相似权重矩阵S_local的第(i，j)个元素为

其中N_k(x)表示x的k近邻集合，t∈(0，+∞)是设置的内核参数。

通过求解两个广义特征值问题，可以获得d个特征向量p₁，p₂，P₃...，p_d。因此，正交投影矩阵P为P＝[p₁，P₂，p₃...，p_d]，进而构建低维正交弹性特征训练集为Y＝[P^Tx₁，P^Tx₂，P^Tx₃，...，P^Tx_n]，Y∈R^d×n。

4.利用最近邻分类器对手写体数字进行识别：

最后在低维正交弹性特征训练集Y和低维正交弹性特征测试集

上利用最近邻分类器即可获得最终的识别结果。

本发明在真实采集的Semeion手写体数字数据集上设计了实验，具体实验内容与分析如下：

1.实验内容

本发明是基于双特征正交弹性维数约简(twin-eigen orthogonal elasticdimensionality reduction，TOEDR)的手写体数字识别方法，为了评估本发明的有效性，在Semeion手写体数据集上设计了一些实验，并与基于经典维数约简的手写体识别方法进行对比，即弹性保持投影(elastic preservingprojections,EPP),样本独立LPP(sample-dependent LPP,SLPP)，LPP，NPE以及LDA。SEMEION手写体数据集由1593个手写体数字构成，这些手写体数字是大约80人分两次手写所构成。第一次是以正常的方式写入数字(准确地写下0到9的所有数字)，第二次则是以快速的方式写入数字(忽视准确性)。在Semeion手写体数据集中，每类随机选取χ(χ＝30，40，50，60)个图像作为训练样本，其余图像作为测试样本。此外，在实验中近邻参数k选取为5，平衡参数设置为0.05，内核参数t从[0.2r,0.4r,0.6r,0.8r,r,2r,4r,6r,8r,10r]中选择，其中r为所有数据样本之间的平均欧式距离。另外，样本随机实验独立重复十次，然后在表1中展示了每个方法的平均识别率，并在图1里显示了所有方法的平均识别率与维度之间的变化情况。

2.实验结果

表1.Semeion手写体数据集上的实验结果

A±B:A表示的是平均识别率(％)，B表示的是标准差

表1表明，当训练样本数相对较少时，LDA的平均识别率优于LPP和NPE。随着训练样本数的增加，LPP和NPE的识别能力明显优于LDA。这也说明在复杂的高维数据中，数据的分布规律是非线性的，有效的特征信息一般存在于非线性的局部结构中。如果仍然采用线性维数约简方法处理这种数据，在维数约简过程中会丢失固有的特征信息，这是LDA显示较低识别率的重要原因之一。与LPP和SLPP相比，EPP考虑了局部结构和全局结构，从而使学习的投影子空间保留了更多的结构信息，这也是在表1中EPP在对比方法中拥有更高识别率的原因之一。本发明在捕获原始数据内在局部和全局结构的基础上，进一步引入正交性准则，有效增强了方法的鉴别力和鲁棒性，这也是本发明具有最佳平均识别率的重要原因。在表1中，本发明在识别率上优于其他比较方法，这也证明了本发明的在手写体识别中优越性。从图2可以看出，当样本维数较小时，LDA平均识别率的增长趋势明显快于LPP、NPE和SLPP。这一现象证明，考虑全局欧氏结构的线性维数约简方法可以在一定程度上提高分类性能。得益于局部结构和全局结构，EPP的平均识别率自始至终优于LPP、NPE和SLPP，表明EPP能有效地保留这两种结构，并能在学习的投影子空间中掌握原始高维数据的特征信息。随着维数的增加，各种方法的平均识别率也开始提高。当维数逐渐增加时，该方法的识别率呈现出最快的增长趋势，这也表明该方法可以有效地应用于高维数据。与其他方法不同的是，SLPP曲线增长缓慢。然而，当维数增加到一定值时，所有方法的平均识别率都趋于稳定，并且我们的方法呈现出比对比方法更平滑的变化趋势。这些在Semeion手写体数据集上的实验结果可以揭示本发明是一种有效的手写体数字识别方法。