CN105243392B - 一种基于灵敏度分析的非线性支持向量回归特征提取方法 - Google Patents
一种基于灵敏度分析的非线性支持向量回归特征提取方法 Download PDFInfo
- Publication number
- CN105243392B CN105243392B CN201510645164.4A CN201510645164A CN105243392B CN 105243392 B CN105243392 B CN 105243392B CN 201510645164 A CN201510645164 A CN 201510645164A CN 105243392 B CN105243392 B CN 105243392B
- Authority
- CN
- China
- Prior art keywords
- feature
- support vector
- value
- training
- sensitivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000010206 sensitivity analysis Methods 0.000 title claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 230000035945 sensitivity Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 8
- 238000003909 pattern recognition Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 201000010099 disease Diseases 0.000 abstract description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 12
- 238000000611 regression analysis Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 2
- 206010065042 Immune reconstitution inflammatory syndrome Diseases 0.000 description 1
- LUTSRLYCMSCGCS-BWOMAWGNSA-N [(3s,8r,9s,10r,13s)-10,13-dimethyl-17-oxo-1,2,3,4,7,8,9,11,12,16-decahydrocyclopenta[a]phenanthren-3-yl] acetate Chemical compound C([C@@H]12)C[C@]3(C)C(=O)CC=C3[C@@H]1CC=C1[C@]2(C)CC[C@H](OC(=O)C)C1 LUTSRLYCMSCGCS-BWOMAWGNSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于灵敏度分析和非线性支持向量回归的特征提取方法,方法包括:首先构建训练样本集;然后运行支持向量回归算法;接着计算特征向量每个元素(特征)的灵敏度值;最后,选择较大的灵敏度值对应的特征作为提取结果。本发明具有特征提取准确率高,且提取的特征能够提高预测精度的优点。本发明方法可以用于图像处理和模式识别等领域,可以用于降低原始数据的维数和对数据进行分类,还可以在医学图像处理领域用作疾病区域的映射,在遥感图像处理领域用作感兴趣区域的提取。
Description
技术领域
本发明涉及特征提取技术,特别是一种在非线性支持向量回归框架下对特征进行提取的方法。
特征提取方法在图像处理和模式识别等领域中应用非常广泛,可以用于降低原始数据的维数和对数据进行分类,是应对大数据分析时所面临的维数灾难的有效手段,此外特征提取还可以在医学图像处理领域用作疾病区域的映射,在遥感图像处理领域用作感兴趣区域的提取等。特征提取就是将描述模式的特征向量中包含有用信息的元素进行提取(或选择)的技术,不包含有用信息的元素将被剔除,从而达到降维和消除干扰、提高计算效率的目的。基于回归(或预测)的特征提取,是在回归算法的框架内,利用各元素对回归结果所产生的影响,对各元素包含的信息量(重要性)进行评价,最终实现特征提取的过程(Guyon,Isabelle,and Andre Elisseeff.″An introduction to Variable and featureselection.″The Journal of Machine Learning Research 3(2003):1157-1182.)。支持向量回归是一种泛化能力较强的预测算法,对于高维数、小样本问题效果较好,在很多应用中,不仅需要知道预测结果,还要进行特征提取,但目前在支持向量回归算法的框架下,尤其是在非线性支持向量机(非线性核函数的支持向量机)框架下的特征提取算法,还没有出现。
发明内容
本发明要解决的技术问题是针对现有技术的不足,提供一种新的基于灵敏度分析和非线性支持向量机对特征进行提取的方法,该方法可在支持向量回归进行预测的同时,实现特征的提取。
本发明提出一种基于非线性支持向量回归和灵敏度场相结合的特征提取方案,所谓非线性支持向量回归,就是使用非线性核的支持向量回归算法。根据一组观测值(样本){(xi,yi)},支持向量回归通过训练得到一个拟合函数f(x),其中xi是M维输入特征向量且i=1,…,N,函数f(x)的形式如下:
其中,是核函数,由支持向量机原理,b(标量)、和通过样本训练,根据以下优化函数取得:
根据定义,灵敏度表示为:
其中,s(l)是特征向量X的第l个特征的灵敏度值,J(x)为目标函数,xi为特征向量的第l个元素。对于离散系统,灵敏度S(l)应表示为
本发明中,定义目标函数为其中,y是样本x对应的输出,为其预测值。
本发明所要解决的技术问题是通过以下技术方案实现的。本发明是一种基于非线性支持向量回归和灵敏度分析的特征提取方法,其特点是:第一步,构建训练样本集;第二步,运行支持向量回归算法;第三步,计算特征向量每个元素的灵敏度值;第四步,选择较大的灵敏度值对应的特征作为提取结果。
本发明所述构建训练样本集,具体为:构建一个输入矩阵,训练样本的特征向量(输入向量)作为输入矩阵的行,同时生成输出向量,输出向量的元素与输入矩阵的行相对应,即输出向量的第i个元素yi就是输入矩阵第i行(第i个输入向量xi)所对应的输出值。
所述运行支持向量回归算法,具体为:通过公式(2)进行训练,训练后得到b、和所述预测值具体为:
所述计算特征向量每个元素的灵敏度值,具体为:通过公式计算灵敏度。
所述具体计算式为:
所述f(x),具体计算式为:
所述K(xi,x),具体为:对于高斯核函数K(xi,x)=exp(-‖xi-x‖2/σ2);对于多项式核函数
所述具体为:对于高斯核函数 对于多项式核函数
所述选择较大的灵敏度值对应的特征作为提取结果,具体为:设定一个阈值T,当S(l)>T时,则第l个特征就是想要的特征;否则,丢弃此特征。
本发明与已有的技术相比具有以下优点:本发明通过一种基于灵敏度分析的非线性支持向量机的特征提取方法,利用了非线性支持向量机泛化能力强的优点,提高了特征提取的准确率。本发明提出了一种新的目标函数选取该目标函数的目的是提高预测精度,所提取的特征能够提高预测的准确率。本发明方法可以用于图像处理和模式识别等领域,可以用于降低原始数据的维数和对数据进行分类,还可以在医学图像处理领域用作疾病区域的映射,在遥感图像处理领域用作感兴趣区域的提取。
附图说明
图1为本发明构建的训练样本集和输出向量;
图2为本发明的算法流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细描述,以便于本领域的技术人员进一步的理解本发明,而不构成对其权利的限制。需要强调的是,以下实施例仅是本发明的一种优选实施方式而已,对于本技术领域的技术人员来说,在不脱离本发明的核心思想和基本原理的前提下,可以进行改进和修改,或者利用本发明的主要方法、核心思想和基本原理解决其他领域的技术问题,都应视为本发明的保护范围。
实施例1,一种基于非线性支持向量回归和灵敏度分析的特征提取方法,第一步,构建训练样本集;第二步,依次选择各样本作为测试样本x,运行支持向量回归算法得到和b和预测结果第三步,计算特征向量每个元素的灵敏度值;第四步,判断是否所有样本都经过测试,如果是,跳到第五步,否则,跳到第二步;第五步,选择较大的灵敏度值对应的特征作为提取结果,生成新的特征向量。
实施例2,参照附图1,实施例1所述基于非线性支持向量回归和灵敏度分析的特征提取方法中:
构建训练样本集的具体步骤如下:
(1)构建输入集,就是将原始特征向量作为行,每一行一个特征向量xi;
(2)构建输出向量,就是由输入矩阵的每一行(每一个特征向量xi)所对应的输出yi构成输出向量。
所述依次选择各样本作为测试样本x,运行支持向量回归算法得到和b和预测结果具体方法是:依次选择x=xi作为测试样本,从训练集中剔除该样本,用其余样本进行训练,得到相应的和b,并计算预测结果
所述计算特征向量每个元素的灵敏度值,具体方法为:通过公式计算灵敏度值。
的计算,具体方法为:通过公式计算。
的计算,具体方法为:对于高斯核函数
对于多项式核函数
所述判断是否所有样本都经过测试,具体方法为:如果i=N,则所有样本都经过测试;如果i<N,则仍有样本未经过测试。
所述选择较大的灵敏度值对应的特征作为提取结果,具体方法为:设定一个阈值T,当S(l)>T时,则第l个特征就是想要的特征;否则,丢弃此特征。
实施例3,参照图2,利用实施例1所述的一种基于非线性支持向量回归和灵敏度分析的特征提取方法实验。实验步骤如下:
步骤S101:开始,构建样本集,选择模式识别领域著名的IRIS数据集作为实验数据,该实验数据共有150个样本,分为三类,每类50个样本,每个样本4个特征,我们将类别把类别标号1、2和3作为样本的输出值,进行预测。原始的4个特征为有效特征,为了实验,为每个样本增加4个特征,增加的四个特征为随机数。构建新的样本集,在新样本集中,前4个样本为有效特征,后4个为无效特征。对应的输出向量由样本相应的类别标记构成,样本个数N=150,样本维数M=8;
步骤S102:选择高斯核函数K(xi,x)=exp(-‖xi-x‖2/σ2),运行支持向量机回归的算法程序得到b,并计算
步骤S103:计算
步骤S104:计算
步骤S105:通过公式计算各特征的灵敏度分别为:S(1)=0.5074,S(2)=0.3059,S(3)=0.8247,S(4)=0.4063,S(5)=0.2641,S(6)=0.2474,S(7)=0.2521,S(8)=0.2370;
步骤S106:设定阈值T=0.4,确定所选择的特征为,特征1、特征2、特征3和特征4。
Claims (2)
1.一种基于灵敏度分析和非线性支持向量回归的特征提取方法,其特征在于,其步骤如下:
(1)构建训练样本集;具体步骤为:构建一个输入矩阵,训练样本的特征向量即输入向量作为输入矩阵的行,同时生成输出向量,输出向量的元素i为输入矩阵的行即特征向量所相对应的输出值y i ;
(2)运行支持向量回归算法;具体步骤为:依次选择x=xi作为测试样本,从训练集中剔除该样本,用其余样本进行训练运行支持向量机回归算法,得到相应的和b,并计算;所述的为拉格朗日乘子,b为偏置;
(3)计算特征向量每个元素——特征的灵敏度值;计算公式为:;其目标函数定义为:,其中,是输入向量对应的输出值,为其对应的预测值;的计算,通过公式完成;S(l)是特征向量x的第l个特征的灵敏度值,x l 为特征向量的第l个元素;fi(x)为运行支持向量机后所得的xi对应的预测值,b 0为预测值和偏置b的差;
(4)选择较大的灵敏度值对应的特征作为提取结果,完成特征提取;具体步骤为:设定一个阈值T,当时,则第l个特征就是想要的特征;否则,丢弃此特征。
2.根据权利要求1所述的特征提取方法,其特征在于,的计算,具体方法为:对于高斯核函数,其中,为高斯和函数的宽度参数;,其中,r为多项式的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510645164.4A CN105243392B (zh) | 2015-10-08 | 2015-10-08 | 一种基于灵敏度分析的非线性支持向量回归特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510645164.4A CN105243392B (zh) | 2015-10-08 | 2015-10-08 | 一种基于灵敏度分析的非线性支持向量回归特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105243392A CN105243392A (zh) | 2016-01-13 |
CN105243392B true CN105243392B (zh) | 2017-06-16 |
Family
ID=55041033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510645164.4A Active CN105243392B (zh) | 2015-10-08 | 2015-10-08 | 一种基于灵敏度分析的非线性支持向量回归特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105243392B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI645350B (zh) | 2017-11-24 | 2018-12-21 | 財團法人工業技術研究院 | 決策因素分析裝置與決策因素分析方法 |
CN114186182A (zh) * | 2021-11-02 | 2022-03-15 | 联想(北京)有限公司 | 一种处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763503A (zh) * | 2009-12-30 | 2010-06-30 | 中国科学院计算技术研究所 | 一种姿态鲁棒的人脸识别方法 |
US7961955B1 (en) * | 2008-01-28 | 2011-06-14 | Thomas Cecil Minter | Adaptive bayes feature extraction |
-
2015
- 2015-10-08 CN CN201510645164.4A patent/CN105243392B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7961955B1 (en) * | 2008-01-28 | 2011-06-14 | Thomas Cecil Minter | Adaptive bayes feature extraction |
CN101763503A (zh) * | 2009-12-30 | 2010-06-30 | 中国科学院计算技术研究所 | 一种姿态鲁棒的人脸识别方法 |
Non-Patent Citations (1)
Title |
---|
An Introduction to Variable and Feature Selection;Guyon, .etc;《Journal of Machine Learning Research 3 (2003)》;20131231;第1157-1182页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105243392A (zh) | 2016-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brust et al. | Active learning for deep object detection | |
Gao et al. | Transfer learning based visual tracking with gaussian processes regression | |
US10181082B2 (en) | Method and system for automated behavior classification of test subjects | |
WO2019210695A1 (zh) | 模型训练和业务推荐 | |
CN109543763B (zh) | 一种基于卷积神经网络的拉曼光谱分析方法 | |
Sznitman et al. | Active testing for face detection and localization | |
CN108229267A (zh) | 对象属性检测、神经网络训练、区域检测方法和装置 | |
Rahaman et al. | Data-mining techniques for image-based plant phenotypic traits identification and classification | |
Elkerdawy et al. | To filter prune, or to layer prune, that is the question | |
CN109344851B (zh) | 图像分类显示方法和装置、分析仪器和存储介质 | |
CN107368802B (zh) | 基于kcf和人脑记忆机制的运动目标跟踪方法 | |
CN109063418A (zh) | 疾病预测分类器的确定方法、装置、设备及可读存储介质 | |
CN105243392B (zh) | 一种基于灵敏度分析的非线性支持向量回归特征提取方法 | |
Wang et al. | Deep reinforcement learning enables adaptive-image augmentation for automated optical inspection of plant rust | |
Hong et al. | Group testing for longitudinal data | |
Akhauri et al. | EZNAS: evolving zero-cost proxies for neural architecture scoring | |
Leelavathy et al. | Prediction of biotic stress in paddy crop using deep convolutional neural networks | |
Lafon et al. | Hybrid energy based model in the feature space for out-of-distribution detection | |
Ding et al. | Robustness evaluation on different training state of a CNN model | |
Li et al. | Deep deterministic independent component analysis for hyperspectral unmixing | |
Kumar et al. | Plant leaf diseases severity estimation using fine-tuned CNN models | |
WO2011085819A1 (en) | A machine-learning system and a method for determining different operating points in such a system | |
US20220101187A1 (en) | Identifying and quantifying confounding bias based on expert knowledge | |
Varalakshmi et al. | Plant disorder precognition by image based pattern recognition | |
SP et al. | Weed Net: Deep Learning Informed Convolutional Neural Network Based Weed Detection in Soybean Crops |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |