CN106940785A

CN106940785A - 一种基于核函数的有监督近邻保持嵌入方法

Info

Publication number: CN106940785A
Application number: CN201710025699.0A
Authority: CN
Inventors: 包兴; 王旭; 张本奎; 陆鹏; 宋世慧; 张文清; 胡岩峰; 刘振
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-07-11

Abstract

本发明公开了一种基于核函数的有监督近邻保持嵌入方法,本发明与判别近邻嵌入算法相比，本发明能处理数据样本分布不均衡问题，且识别率较高；通过核函数将训练和测试样例变换到非线性空间，然后利用已知训练样例的类别信息，学习训练得到降维特征矩阵，从而使得样本在判别子空间中具有更好的可分性。

Description

一种基于核函数的有监督近邻保持嵌入方法

技术领域

本发明属于机器学习与模式识别领域，尤其涉及一种基于核函数的有监督近邻保持嵌入方法。

背景技术

人脸识别因在公安、系统档案、人机交互等方面的巨大应用前景而备受关注。人脸识别容易受到光照、表情、姿态等众多因素的影响，而且图像矢量空间的维数过高，识别的难度就越大。有效进行特征选择以及如何将高维特征空间投影到一个合适的低维子空间就成为人脸识别领域的重要问题。

邻域保持嵌入(Neighborhood Preserving Embedding，NPE)是局部线性嵌入的一种线性近似算法，具有保持数据流形上局部邻域结构信息的能力。邻域保持嵌入已经在人脸识别问题中受到了广泛的关注。但是，在人脸识别问题中，NPE是作为一种无监督的降维方法引入的，类似于其他的无监督降维算法如主成分分析(Principal ComponentAnalysis，PCA)、局部保持投影(Local Preserving Projection，LPP)、稀疏保持投影(Sparity Preserving Projection，SPP)等，它们没有利用已知样本数据的类别信息。本发明利用已知样本数据类别信息，并通过合适的核函数将原始数据映射到非线性空间，然后降维得到最佳子空间，提高分类效果。

发明内容

本发明所要解决的技术问题是在于克服上述已有技术的缺点，提出了一种基于核函数的有监督近邻保持嵌入方法，该方法的主要特点是先通过核函数将训练和测试样例变换到非线性空间，然后利用已知训练样例的类别信息，学习训练得到降维特征矩阵，从而使得样本在判别子空间中具有更好的可分性。

本发明为解决上述技术问题采用以下技术方案

一种基于核函数的有监督近邻保持嵌入方法，包含训练和分类；

所述训练具体包含如下步骤：

步骤1，核函数映射：

设已有原空间的训练样本集为其中，c_i是x_i的类别标签， c表示类别数，N表示训练样本的总个数，d表示训练样本的维数；核函数能够发掘非线性空间内在的几何结构，通过函数φ:∈R^d→F将原始d维数据映射到非线性特征空间；其中函数φ为K(x_i,x_j)＝<φ(x_i),φ(x_j)>；

步骤2，训练数据预处理：

对核函数映射后的空间样本，根据距离和标签类别构造近邻重构权重矩阵和判别信息邻接矩阵；

步骤3，获取空间变换后的训练样本：

在学习到投影变换矩阵P后，首先获得原空间样本x_i先映射到非线性空间φ(x_i)，然后得到低维表示P^Tφ(x_i)，令v_i＝P^Tφ(x_i)，则判别子空间的训练集表示为

所述分类具体包含如下步骤：

步骤4，对核函数映射后待测样本φ(x)，先利用投影变换P把它映射到判别子空间中，得到判别子空间中的测试样本v＝P^Tφ(x)；

步骤5，利用最近邻分类器，对测试样本v在判别子空间中进行分类。

作为本发明一种基于核函数的有监督近邻保持嵌入方法的进一步优选方案，在步骤1中， N＝105。

作为本发明一种基于核函数的有监督近邻保持嵌入方法的进一步优选方案，在步骤1中， d＝1024。

作为本发明一种基于核函数的有监督近邻保持嵌入方法的进一步优选方案，在步骤1中， c＝15。

作为本发明一种基于核函数的有监督近邻保持嵌入方法的进一步优选方案，在步骤2中，对已知训练样本，令knn(φ(x_i))表示在F空间中x_i的近邻集合，近邻重构权重系数矩阵W满足下面的要求：

作为本发明一种基于核函数的有监督近邻保持嵌入方法的进一步优选方案，在步骤2中，对已知训练样本，信息矩阵H的构造如下：

即在核函数映射的F空间中，对不同类数据，如果x_j是x_i的k个最近邻之一，x_i是x_j的 k个最近邻之一，那么H_ij＝1；对同类数据，如果x_j是x_i的k个最近邻之一，x_i是x_j的k个最近邻之一，则H_ij＝-1。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明与判别近邻嵌入算法相比，本发明能处理数据样本分布不均衡问题，且识别率较高；通过核函数将训练和测试样例变换到非线性空间，然后利用已知训练样例的类别信息，学习训练得到降维特征矩阵，从而使得样本在判别子空间中具有更好的可分性。

附图说明

图1是本发明的系统图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，一种基于核函数的有监督近邻保持嵌入方法，包含训练和分类；

所述训练具体包含如下步骤：

步骤1，核函数映射：

步骤2，训练数据预处理：

步骤3，获取空间变换后的训练样本：

所述分类具体包含如下步骤：

下面对本发明的实例作详细说明：本实例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实例。

(1)本发明在Yale人脸数据库中进行了测试。Yale人脸数据库包含15人的165张人脸图像，每人有11张图像，每张图像的表情和光照条件是：中央光照、眼睛/无眼睛、高兴、常态、左侧光照、右侧光照、悲伤、睡眠、惊讶和眨眼。从数据库中随机选择60％作为训练样本，余下的40％作为测试样本。具体实施步骤如下：

(2)训练模块

1)核函数映射

设已有原空间的训练样本集为c_i是x_i的类别标签，c表示类别数，N表示训练样本的总个数，d表示训练样本的维数。这里N＝105，d＝1024，c＝15。利用函数φ:∈R^d→F将原始d维数据映射到非线性特征空间，其中φ函数取多项式核：K(x_i,x_j)＝(x'_i*x_j)^d，d＝1。

2)训练数据预处理

对已知训练样本，令knn(φ(x_i))表示在F空间中x_i的近邻集合，近邻重构权重系数矩阵W 满足下面的要求：

对于非零的权系数要通过下面的重构损失函数最小化来求得：

约束条件为此时k值取5。

对已知训练样本，判别信息矩阵H的构造如下：

即在核函数映射的F空间中，对不同类数据，如果x_j是x_i的k个最近邻之一或者x_i是x_j的k个最近邻之一，那么H_ij＝1；对同类数据，如果x_j是x_i的k个最近邻之一或者x_i是x_j的k个最近邻之一，那么H_ij＝-1。

为了使得分布在不同子流形上的类内样本更加紧凑，类间样本彼此远离，基于核函数的有监督近邻保持嵌入算法等价于下面的优化过程：

3)获取空间变换后的训练样本

在学习到投影变换矩阵P后，可以获得原空间样本x_i先映射到非线性空间φ(x_i)，然后得到低维表示P^Tφ(x_i)。令v_i＝P^Tφ(x_i)，则判别子空间的训练集可以表示为 (2)分类模块

对核函数映射后待测样本φ(x)，先利用投影变换P把它映射到判别子空间中，得到判别子空间中的测试样本v＝P^Tφ(x)。然后利用最近邻分类器，对测试样本v在判别子空间中进行分类。也就是说，在判别子空间的训练样本中，找到和测试样本距离最近的样本，然后再把该样本的类别赋予测试样本v。这样就完成对x的分类。

选取待测样本60个，重复分类过程20次，表1给出在测试集上的估计性能。实验对比方法是近邻保持嵌入算法。通过实验结果我们可以看出本发明的识别效果明显优于近邻保持嵌入算法，并表现出了较强的稳定性，具有一定的优势。两种方法对人脸的分类性能(识别率％) 对比如表1所示：

表1

Claims

1.一种基于核函数的有监督近邻保持嵌入方法，其特征在于：包含训练和分类；

所述训练具体包含如下步骤：

步骤1，核函数映射：

设已有原空间的训练样本集为x_i∈R^d,C_i＝{1,2,...,c}，其中，c_i是x_i的类别标签，c表示类别数，N表示训练样本的总个数，d表示训练样本的维数；核函数能够发掘非线性空间内在的几何结构，通过函数φ:∈R^d→F将原始d维数据映射到非线性特征空间；其中函数φ为K(x_i,x_j)＝<φ(x_i),φ(x_j)>；

步骤2，训练数据预处理：

步骤3，获取空间变换后的训练样本：

在学习到投影变换矩阵P后，首先获得原空间样本x_i先映射到非线性空间φ(x_i)，然后得到低维表示P^Tφ(x_i)，令v_i＝P^Tφ(x_i)，则判别子空间的训练集表示为v∈R^r；

所述分类具体包含如下步骤：

2.根据权利要求1所述的一种基于核函数的有监督近邻保持嵌入方法，其特征在于：在步骤1中，N＝105。

3.根据权利要求1所述的一种基于核函数的有监督近邻保持嵌入方法，其特征在于：在步骤1中，d＝1024。

4.根据权利要求1所述的一种基于核函数的有监督近邻保持嵌入方法，其特征在于：在步骤1中，c＝15。

5.根据权利要求1所述的一种基于核函数的有监督近邻保持嵌入方法，其特征在于：在步骤2中，对已知训练样本，令knn(φ(x_i))表示在F空间中x_i的近邻集合，近邻重构权重系数矩阵W满足下面的要求：

\{\begin{matrix} W_{j} = 0, & i f & φ (x_{j}) &NotElement; k n n (φ (x_{i})) \\ W_{j} &NotEqual; 0, & i f & φ (x_{j}) &Element; k n n (φ (x_{i})) \end{matrix}

6.根据权利要求1所述的一种基于核函数的有监督近邻保持嵌入方法，其特征在于：在步骤2中，对已知训练样本，信息矩阵H的构造如下：

即在核函数映射的F空间中，对不同类数据，如果x_j是x_i的k个最近邻之一，x_i是x_j的k个最近邻之一，那么H_ij＝1；对同类数据，如果x_j是x_i的k个最近邻之一，x_i是x_j的k个最近邻之一，则H_ij＝-1。