CN105243392B

CN105243392B - 一种基于灵敏度分析的非线性支持向量回归特征提取方法

Info

Publication number: CN105243392B
Application number: CN201510645164.4A
Authority: CN
Inventors: 刘瑞明; 龚成龙; 张珍
Original assignee: JIANGSU MARINE RESOURCES DEVELOPMENT RESEARCH INSTITUTE (LIANYUNGANG); Huaihai Institute of Techology
Current assignee: JIANGSU MARINE RESOURCES DEVELOPMENT RESEARCH INSTITUTE (LIANYUNGANG); Huaihai Institute of Techology
Priority date: 2015-10-08
Filing date: 2015-10-08
Publication date: 2017-06-16
Anticipated expiration: 2035-10-08
Also published as: CN105243392A

Abstract

本发明涉及一种基于灵敏度分析和非线性支持向量回归的特征提取方法，方法包括：首先构建训练样本集；然后运行支持向量回归算法；接着计算特征向量每个元素（特征）的灵敏度值；最后，选择较大的灵敏度值对应的特征作为提取结果。本发明具有特征提取准确率高，且提取的特征能够提高预测精度的优点。本发明方法可以用于图像处理和模式识别等领域，可以用于降低原始数据的维数和对数据进行分类，还可以在医学图像处理领域用作疾病区域的映射，在遥感图像处理领域用作感兴趣区域的提取。

Description

一种基于灵敏度分析的非线性支持向量回归特征提取方法

技术领域

本发明涉及特征提取技术，特别是一种在非线性支持向量回归框架下对特征进行提取的方法。

特征提取方法在图像处理和模式识别等领域中应用非常广泛，可以用于降低原始数据的维数和对数据进行分类，是应对大数据分析时所面临的维数灾难的有效手段，此外特征提取还可以在医学图像处理领域用作疾病区域的映射，在遥感图像处理领域用作感兴趣区域的提取等。特征提取就是将描述模式的特征向量中包含有用信息的元素进行提取(或选择)的技术，不包含有用信息的元素将被剔除，从而达到降维和消除干扰、提高计算效率的目的。基于回归(或预测)的特征提取，是在回归算法的框架内，利用各元素对回归结果所产生的影响，对各元素包含的信息量(重要性)进行评价，最终实现特征提取的过程(Guyon，Isabelle，and Andre Elisseeff.″An introduction to Variable and featureselection.″The Journal of Machine Learning Research 3(2003)：1157-1182.)。支持向量回归是一种泛化能力较强的预测算法，对于高维数、小样本问题效果较好，在很多应用中，不仅需要知道预测结果，还要进行特征提取，但目前在支持向量回归算法的框架下，尤其是在非线性支持向量机(非线性核函数的支持向量机)框架下的特征提取算法，还没有出现。

发明内容

本发明要解决的技术问题是针对现有技术的不足，提供一种新的基于灵敏度分析和非线性支持向量机对特征进行提取的方法，该方法可在支持向量回归进行预测的同时，实现特征的提取。

本发明提出一种基于非线性支持向量回归和灵敏度场相结合的特征提取方案，所谓非线性支持向量回归，就是使用非线性核的支持向量回归算法。根据一组观测值(样本){(x_i，y_i)}，支持向量回归通过训练得到一个拟合函数f(x)，其中x_i是M维输入特征向量且i＝1，…，N，函数f(x)的形式如下：

其中，是核函数，由支持向量机原理，b(标量)、和通过样本训练，根据以下优化函数取得：

根据定义，灵敏度表示为：

其中，s(l)是特征向量X的第l个特征的灵敏度值，J(x)为目标函数，x_i为特征向量的第l个元素。对于离散系统，灵敏度S(l)应表示为

本发明中，定义目标函数为其中，y是样本x对应的输出，为其预测值。

本发明所要解决的技术问题是通过以下技术方案实现的。本发明是一种基于非线性支持向量回归和灵敏度分析的特征提取方法，其特点是：第一步，构建训练样本集；第二步，运行支持向量回归算法；第三步，计算特征向量每个元素的灵敏度值；第四步，选择较大的灵敏度值对应的特征作为提取结果。

本发明所述构建训练样本集，具体为：构建一个输入矩阵，训练样本的特征向量(输入向量)作为输入矩阵的行，同时生成输出向量，输出向量的元素与输入矩阵的行相对应，即输出向量的第i个元素y_i就是输入矩阵第i行(第i个输入向量x_i)所对应的输出值。

所述运行支持向量回归算法，具体为：通过公式(2)进行训练，训练后得到b、和所述预测值具体为：

所述计算特征向量每个元素的灵敏度值，具体为：通过公式计算灵敏度。

所述具体计算式为：

所述f(x)，具体计算式为：

所述K(x_i，x)，具体为：对于高斯核函数K(x_i，x)＝exp(-‖x_i-x‖²/σ²)；对于多项式核函数

所述具体为：对于高斯核函数对于多项式核函数

所述选择较大的灵敏度值对应的特征作为提取结果，具体为：设定一个阈值T，当S(l)＞T时，则第l个特征就是想要的特征；否则，丢弃此特征。

本发明与已有的技术相比具有以下优点：本发明通过一种基于灵敏度分析的非线性支持向量机的特征提取方法，利用了非线性支持向量机泛化能力强的优点，提高了特征提取的准确率。本发明提出了一种新的目标函数选取该目标函数的目的是提高预测精度，所提取的特征能够提高预测的准确率。本发明方法可以用于图像处理和模式识别等领域，可以用于降低原始数据的维数和对数据进行分类，还可以在医学图像处理领域用作疾病区域的映射，在遥感图像处理领域用作感兴趣区域的提取。

附图说明

图1为本发明构建的训练样本集和输出向量；

图2为本发明的算法流程框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细描述，以便于本领域的技术人员进一步的理解本发明，而不构成对其权利的限制。需要强调的是，以下实施例仅是本发明的一种优选实施方式而已，对于本技术领域的技术人员来说，在不脱离本发明的核心思想和基本原理的前提下，可以进行改进和修改，或者利用本发明的主要方法、核心思想和基本原理解决其他领域的技术问题，都应视为本发明的保护范围。

实施例1，一种基于非线性支持向量回归和灵敏度分析的特征提取方法，第一步，构建训练样本集；第二步，依次选择各样本作为测试样本x，运行支持向量回归算法得到和b和预测结果第三步，计算特征向量每个元素的灵敏度值；第四步，判断是否所有样本都经过测试，如果是，跳到第五步，否则，跳到第二步；第五步，选择较大的灵敏度值对应的特征作为提取结果，生成新的特征向量。

实施例2，参照附图1，实施例1所述基于非线性支持向量回归和灵敏度分析的特征提取方法中：

构建训练样本集的具体步骤如下：

(1)构建输入集，就是将原始特征向量作为行，每一行一个特征向量x_i；

(2)构建输出向量，就是由输入矩阵的每一行(每一个特征向量x_i)所对应的输出y_i构成输出向量。

所述依次选择各样本作为测试样本x，运行支持向量回归算法得到和b和预测结果具体方法是：依次选择x＝x_i作为测试样本，从训练集中剔除该样本，用其余样本进行训练，得到相应的和b，并计算预测结果

所述计算特征向量每个元素的灵敏度值，具体方法为：通过公式计算灵敏度值。

的计算，具体方法为：通过公式计算。

的计算，具体方法为：对于高斯核函数

对于多项式核函数

所述判断是否所有样本都经过测试，具体方法为：如果i＝N，则所有样本都经过测试；如果i＜N，则仍有样本未经过测试。

所述选择较大的灵敏度值对应的特征作为提取结果，具体方法为：设定一个阈值T，当S(l)＞T时，则第l个特征就是想要的特征；否则，丢弃此特征。

实施例3，参照图2，利用实施例1所述的一种基于非线性支持向量回归和灵敏度分析的特征提取方法实验。实验步骤如下：

步骤S101：开始，构建样本集，选择模式识别领域著名的IRIS数据集作为实验数据，该实验数据共有150个样本，分为三类，每类50个样本，每个样本4个特征，我们将类别把类别标号1、2和3作为样本的输出值，进行预测。原始的4个特征为有效特征，为了实验，为每个样本增加4个特征，增加的四个特征为随机数。构建新的样本集，在新样本集中，前4个样本为有效特征，后4个为无效特征。对应的输出向量由样本相应的类别标记构成，样本个数N＝150，样本维数M＝8；

步骤S102：选择高斯核函数K(x_i，x)＝exp(-‖x_i-x‖²/σ²)，运行支持向量机回归的算法程序得到b，并计算

步骤S103：计算

步骤S104：计算

步骤S105：通过公式计算各特征的灵敏度分别为：S(1)＝0.5074，S(2)＝0.3059，S(3)＝0.8247，S(4)＝0.4063，S(5)＝0.2641，S(6)＝0.2474，S(7)＝0.2521，S(8)＝0.2370；

步骤S106：设定阈值T＝0.4，确定所选择的特征为，特征1、特征2、特征3和特征4。

Claims

1.一种基于灵敏度分析和非线性支持向量回归的特征提取方法，其特征在于，其步骤如下：

（1）构建训练样本集；具体步骤为：构建一个输入矩阵，训练样本的特征向量即输入向量作为输入矩阵的行，同时生成输出向量，输出向量的元素i为输入矩阵的行即特征向量所相对应的输出值y _i；

（2）运行支持向量回归算法；具体步骤为：依次选择x=x_i作为测试样本，从训练集中剔除该样本，用其余样本进行训练运行支持向量机回归算法，得到相应的和b，并计算；所述的为拉格朗日乘子，b为偏置；

（3）计算特征向量每个元素——特征的灵敏度值；计算公式为：；其目标函数定义为：，其中，是输入向量对应的输出值，为其对应的预测值；的计算，通过公式完成；S（l）是特征向量x的第l个特征的灵敏度值，x_l为特征向量的第l个元素；f_i(x)为运行支持向量机后所得的x_i对应的预测值，b ₀为预测值和偏置b的差；

（4）选择较大的灵敏度值对应的特征作为提取结果，完成特征提取；具体步骤为：设定一个阈值T，当时，则第l个特征就是想要的特征；否则，丢弃此特征。

2.根据权利要求1所述的特征提取方法，其特征在于，的计算，具体方法为：对于高斯核函数，其中，为高斯和函数的宽度参数；，其中，r为多项式的次数。