CN115374868A - 一种基于js散度与admm算法的无监督特征选择方法 - Google Patents

一种基于js散度与admm算法的无监督特征选择方法 Download PDF

Info

Publication number
CN115374868A
CN115374868A CN202211033548.7A CN202211033548A CN115374868A CN 115374868 A CN115374868 A CN 115374868A CN 202211033548 A CN202211033548 A CN 202211033548A CN 115374868 A CN115374868 A CN 115374868A
Authority
CN
China
Prior art keywords
objective function
divergence
iteration
feature selection
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211033548.7A
Other languages
English (en)
Inventor
王雅娣
张文波
左宪禹
谢毅
乔保军
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202211033548.7A priority Critical patent/CN115374868A/zh
Publication of CN115374868A publication Critical patent/CN115374868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及无监督特征选择技术领域,具体涉及一种基于JS散度与ADMM算法的无监督特征选择方法,基于Filter类型相关性得分向量与JS散度构建优化目标函数,通过优化目标函数可得到高相关低冗余的特征子集,其中相关性得分向量在模型优化过程中会起到影响最终优化向量相关性的作用,而JS散度则在模型优化过程中起到影响最终优化向量冗余度的作用,基于特点最终选择的特征子集将会同时具有相关性高冗余度低的优点有利于提高模型构建的速度,增强模型的泛化能力,减少过拟合风险,并且可以提高模型的分类准确率。同时对于优化问题求解耗时的问题,通过ADMM算法来减少求解优化问题的时间,在较短的时间内可以得到一个较好的结果。

Description

一种基于JS散度与ADMM算法的无监督特征选择方法
技术领域
本发明涉及无监督特征选择技术领域,具体涉及一种基于JS散度与ADMM算法的无监督特征选择方法。
背景技术
信息技术的快速发展能够很轻松的获取海量的数据,如何从海量数据中获取关键信息也越来越成为人们关注的焦点。特别在数据挖掘以及机器学习领域,海量数据可以带来丰富的训练样本,但是同时可能会造成维度灾难,所以如何从庞大、冗余的数据集合中选择最关键的特征子集从而提高机器学习的效率和模型效果已经成为当前最热的一个话题。
无监督特征选择可大致分为:Filters(过滤型)特征选择、Wrappers(包裹型)特征选择、Embedded(嵌入型),其中Filter的优点在于速度快,但是与之对应的缺点是根据得分选择的特征子集所训练的模型的预测效果往往不能够达到一个较高的结果。Wrappers型特征选择的特点在于根据模型预测结果来进行特征的选择,毫无疑问wrapper型特征选择能够有较高的模型预测精度,但是wrapper型特征选择通常是有着较高的时间消耗。Embedded特征选择方法的特点是特征选择与模型训练同时进行的,其模型预测精度以及时间消耗是在Filter与Embeded之间。
Filter特征选择方法通过分析特征子集的内部特点来衡量特征的好坏,这类方法通常根据某种规则来对每个特征进行相关性评价,最后得到一个相关性评分向量,最后根据阈值来选择得分最高的特征子集。Filter特征选择方法以其简单、高效性、可应用性强等特点成为当前主要的特征选择方法之一,因此有大量关于对其研究的文章。但是现有的处理方式中,在选择特征时大多只考虑特征的相关性却往往会忽略所选择特征子集的相似性,特征间相似性越高往往就代表着冗余,在有限个数的子集中不能带来更多的有用的信息,因此在特征选择时希望选择的特征子集在具有较高相关性的同时,也具有相对较小的冗余度。
对于优化问题常用的方法往往需要计算目标函数的梯度或者Hessian矩阵,这就使得计算复杂且耗时,同时容易陷入局部最优解。因此减少优化所耗时间的同时能够达到较高的收敛效果,关系着所提出的方法是否能够很好的应用。
发明内容
有鉴于此,为了解决上述技术问题,本发明提供一种基于JS散度与ADMM算法的无监督特征选择方法。
所采用的技术方案具体如下:
一种基于JS散度与ADMM算法的无监督特征选择方法,包括:
基于Filter特征选择算法,获取数据集的特征得分向量;
通过直方图统计算法,获取所述数据集中每个特征的概率分布,并基于JS散度公式,计算得到冗余度矩阵;
将所述特征得分向量和冗余度矩阵作为输入构建目标函数;
根据ADMM算法求解所述目标函数,以进行特征选择。
在一个具体实施方式中,将所述特征得分向量和冗余度矩阵作为输入构建目标函数,包括:
目标函数为:
Figure BDA0003818009920000021
其中,λ为权重系数,s为特征得分向量,J为冗余度矩阵。
在一个具体实施方式中,根据ADMM算法求解所述目标函数,以进行特征选择,包括:
初始化λ、z和v,设置超参数ρ和μ(,设置最大迭代次数;其中,z为变量,v为辅助变量;
根据所述目标函数,构建增广拉格朗日函数:
Figure BDA0003818009920000022
其中,αt和αz为拉格朗日乘子;
对于第k次迭代,通过
Figure BDA0003818009920000023
计算vk
通过
Figure BDA0003818009920000024
计算zk;其中,inv()表示求逆操作,1表示所有分量都为1的列向量,E表示单位矩阵;
通过ρk=μρk-1更新ρk
通过αt k=αt k-1k(zk T1-1)更新αt k
通过αz k=αz k-1k(zk-vk).更新αz k
当迭代完成后,获取优化后的得分向量;
选取所述优化后的得分向量中得分最高的预设个数的特征。
在一个具体实施方式中,迭代完成的条件为:第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值的差值小于预设阈值,或者迭代次数达到所述最大迭代次数。
本发明实施例至少具有如下有益效果:本发明提供一种基于JS散度与ADMM算法的无监督特征选择方法中,基于Filter类型相关性得分向量与JS散度构建优化目标函数,通过优化目标函数可得到高相关低冗余的特征子集,其中相关性得分向量在模型优化过程中会起到影响最终优化向量相关性的作用,而JS散度则在模型优化过程中起到影响最终优化向量冗余度的作用,基于特点最终选择的特征子集将会同时具有相关性高冗余度低的优点有利于提高模型构建的速度,增强模型的泛化能力,减少过拟合风险,并且可以提高模型的分类准确率。同时对于优化问题求解耗时的问题,通过ADMM算法来减少求解优化问题的时间,在较短的时间内可以得到一个较好的结果。
附图说明
图1是本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法的流程图。
具体实施方式
下面结合附图具体的说明本发明所提供的一种基于JS散度与ADMM算法的无监督特征选择方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于JS散度与ADMM算法的无监督特征选择方法的步骤流程图。本实施例中,将本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法简称为JAFS算法。该方法包括以下步骤:
步骤S1:基于Filter特征选择算法,获取数据集的特征得分向量。
准备一个高维度数值型数据集X,其中行向量代表样本,列向量代表特征。本实施例中,数据集X可以为机器学习常用的数据集:Sonar数据集。
基于Filter特征选择算法,使用拉普拉斯算法(Laplace Score)得到数据集X的特征的Laplace Score向量s,即获取数据集X的特征得分向量s。
步骤S2:通过直方图统计算法,获取所述数据集中每个特征的概率分布,并基于JS散度公式,计算得到冗余度矩阵。
本实施例中,使用直方图统计法统计数据集X中每个特征的概率分布,并根据JS散度公式计算基于JS散度的冗余度矩阵J,计算公式如下:
Figure BDA0003818009920000031
Figure BDA0003818009920000032
步骤S3:将所述特征得分向量和冗余度矩阵作为输入构建目标函数。
将特征得分向量s和冗余度矩阵J作为输入构建目标函数。本实施例中,目标函数object为:
Figure BDA0003818009920000041
其中,λ为权重系数。
权重系数λ通过下式得到:
Figure BDA0003818009920000042
引入辅助变量v对上述目标函数进行变形:
Figure BDA0003818009920000043
本实施例中,在后续迭代过程中会根据权重系数λ来调节相关性与冗余度在最终优化结果中所占比重。为了得到最优解,zTJz应该满足全局最小化,vTs满足全局最大化。Jij表示特征fi与特征fj的冗余度,如果Jij是一个较大的值,为了让zi TJijzj最小化需要赋予zi,zj较小的值。反之若如果Jij值较小,为了使zTJz-vTs整体最小,则需要vTs最大,那么需要赋值zi,zj能保持在原得分向量s次序一样的得分。基于这种机制所得到的特征将会有相关性强、冗余度低的特点有利于提高模型泛化能力,减少过拟合问题,同时可以使模型预测有较高的预测精度。
步骤S4:根据ADMM算法求解所述目标函数,以进行特征选择。
根据ADMM算法(Alternating Direction Method of Multipliers)求解目标函数,以进行特征选择。作为一个具体实施方式,以下给出本步骤的具体算法过程:
根据目标函数,构建增广拉格朗日函数:
Figure BDA0003818009920000044
其中,αt和αz为拉格朗日乘子,z为变量,v为辅助变量,ρ为超参数,ρ>0)。
固定变量z令增广拉格朗日函数对v求导并令结果等于0可以得到v的更新式:
Figure BDA0003818009920000045
固定变量v令增广拉格朗日函数对z求导并令式子等于0可以得到z的更新式:
Figure BDA0003818009920000051
其中,inv()表示求逆操作,1表示所有分量都为1的列向量,E表示单位矩阵。
ρ的迭代式满足线性函数的特点,第k+1次取值等于第k次的值乘以一个大于1的系数,在多次迭代后可以迫使优化目标函数所求解尽可能满足可行域。ρ可以表示为:
ρ=μρ
其中,μ(为超参数,(μ>1)。
αt和αz要在迭代中根据约束条件的满足程度做出相应的调整。
αt可以表示为:
αt=αt+ρ(zT1-1).
αz可以表示为:
αz=αz+ρ(z-v)
因此,初始化权重系数λ、变量z和辅助变量v,设置超参数ρ和μ(,设置最大迭代次数MaxIter。
对于第k次迭代,k=1、2、...、MaxIter,通过
Figure BDA0003818009920000052
计算vk
通过
Figure BDA0003818009920000053
计算zk
通过ρk=μρk-1更新ρk
通过αt k=αt k-1k(zk T1-1)更新αt k
通过αz k=αz k-1k(zk-vk).更新αz k
按照上述过程进行重复迭代,迭代完成的条件为:在第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值小于预设阈值tol,或者迭代次数达到最大迭代次数MaxIter。因此,若第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值小于预设阈值tol,或者迭代次数达到最大迭代次数MaxIter,则结束迭代,输出结果。否则,继续重复上述过程。
当迭代完成后,获取优化后的得分向量z。
选取优化后的得分向量z中得分最高的预设个数的特征。作为一个具体实施方式,按照得分高低,将优化后的得分向量z中的各个特征进行降序排序,然后选取前topN个得分最高的特征,即为选择得到的关键特征。
作为一个具体实施方式,采用本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法,即JAFS算法求解目标函数,并记录求解所用时间。基于优化后的得分向量z,从中选择得分前Top 20的子集数据,并按随机抽样的方式抽取样本70%作为训练集A,剩下的30%作为测试集B。
基于训练集A对KNN(K-Nearest Neighbor)模型进行训练,构建预测模型。用构建好的模型在测试集B上做预测并记录预测准确率。
用AGRM方法求解目标函数,并记录求解所用时间。基于输出的优化结果,从中选择得分前Top 20的子集数据,并按随机抽样的方式抽取样本70%作为训练集C,剩下的30%作为测试集D。基于训练集C对KNN模型进行训练,构建预测模型。用构建好的模型在测试集D上做预测并记录预测准确率,并与JAFS结果做对比。
表1为同一目标函数5次AGRM方法和JAFS方法求解所耗时长(单位:秒),表1是分别使用AGRM方法与JAFS方法求解目标函数所消耗的时间。
表1
Figure BDA0003818009920000061
表2是AGRM方法和JAFS方法5次预测精准度对比,表2是使用KNN分类模型分别在AGRM方法与JAFS方法选取的Top20特征子集上进行训练并预测的结果。
表2
Figure BDA0003818009920000062
表3是JAFS方法得到的Top20特征子集的5次结果冗余度,冗余度是衡量特征选择结果好坏的一个指标,在特征个数固定的条件下,冗余度越高代表所选子集所能带来的信息量越少。冗余度取值[0~1]。
表3
Figure BDA0003818009920000071
因此,本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法,以Filter得分向量与JS散度分别作为影响相关性与冗余度两个方面的因素来构建优化目标函数,通过ADMM算法来减少求解时间,求解快速,所选择的特征子具有较小的冗余度和较高的相关性。该方法是基于JS散度与Filter型特征选择方法得到的得分向量来构造最大相关最小冗余优化目标函数,并通过ADMM算法来求解目标函数的一个方法。通过将Filter特征选择方法的结果作为输入,去影响目标函数优化过程中关于相关性的部分。同时,将基于JS散度的冗余度矩阵作为输入将会影响目标函数优化过程中关于冗余度的部分。基于以上步骤得到的优化后的特征子集将会同时具备相关性高和冗余度低两种特性,有利于提高模型构建的速度,增强模型的泛化能力,减少过拟合风险,并且基于本方法所选择的特征对于模型的分类准确率有较好的提升。
本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法有以下几大优势:首先,采用Filter类型特征得分向量与JS散度结合的方式构造优化目标函数并应用于特征选择之中,使用这种方式所得到的特征将会同时具有相关性强、冗余度低的特点,有利于提高模型泛化能力,减少过拟合问题,同时使用ADMM算法求解所构建的目标函数,ADMM算法已经被证明具有良好的收敛性质并且具有计算速度快等优点。将ADMM算法应用到求解目标问题中将会大大减少模型寻找最优解所用时间,使得更有利于方法的应用。

Claims (4)

1.一种基于JS散度与ADMM算法的无监督特征选择方法,其特征在于,包括:
基于Filter特征选择算法,获取数据集的特征得分向量;
通过直方图统计算法,获取所述数据集中每个特征的概率分布,并基于JS散度公式,计算得到冗余度矩阵;
将所述特征得分向量和冗余度矩阵作为输入构建目标函数;
根据ADMM算法求解所述目标函数,以进行特征选择。
2.根据权利要求1所述的基于JS散度与ADMM算法的无监督特征选择方法,其特征在于,
将所述特征得分向量和冗余度矩阵作为输入构建目标函数,包括:
目标函数为:
Figure FDA0003818009910000011
其中,λ为权重系数,s为特征得分向量,J为冗余度矩阵。
3.根据权利要求2所述的基于JS散度与ADMM算法的无监督特征选择方法,其特征在于,
根据ADMM算法求解所述目标函数,以进行特征选择,包括:
初始化λ、z和v,设置超参数ρ和μ(,设置最大迭代次数;其中,z为变量,v为辅助变量;
根据所述目标函数,构建增广拉格朗日函数:
Figure FDA0003818009910000012
其中,αt和αz为拉格朗日乘子;
对于第k次迭代,通过
Figure FDA0003818009910000013
计算vk
通过
Figure FDA0003818009910000014
计算zk;其中,inv()表示求逆操作,1表示所有分量都为1的列向量,E表示单位矩阵;
通过ρk=μρk-1更新ρk
通过αt k=αt k-1k(zk T1-1)更新αt k
通过αz k=αz k-1k(zk-vk).更新αz k
当迭代完成后,获取优化后的得分向量;
选取所述优化后的得分向量中得分最高的预设个数的特征。
4.根据权利要求3所述的基于JS散度与ADMM算法的无监督特征选择方法,其特征在于,
迭代完成的条件为:第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值的差值小于预设阈值,或者迭代次数达到所述最大迭代次数。
CN202211033548.7A 2022-08-26 2022-08-26 一种基于js散度与admm算法的无监督特征选择方法 Pending CN115374868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211033548.7A CN115374868A (zh) 2022-08-26 2022-08-26 一种基于js散度与admm算法的无监督特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211033548.7A CN115374868A (zh) 2022-08-26 2022-08-26 一种基于js散度与admm算法的无监督特征选择方法

Publications (1)

Publication Number Publication Date
CN115374868A true CN115374868A (zh) 2022-11-22

Family

ID=84066778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211033548.7A Pending CN115374868A (zh) 2022-08-26 2022-08-26 一种基于js散度与admm算法的无监督特征选择方法

Country Status (1)

Country Link
CN (1) CN115374868A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118551289A (zh) * 2024-07-29 2024-08-27 南京康尼机电股份有限公司 一种轨道交通机电设备无监督诊断方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118551289A (zh) * 2024-07-29 2024-08-27 南京康尼机电股份有限公司 一种轨道交通机电设备无监督诊断方法及系统

Similar Documents

Publication Publication Date Title
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
Feng et al. Convolutional neural network based on bandwise-independent convolution and hard thresholding for hyperspectral band selection
CN109543741A (zh) 一种基于改进人工蜂群的fcm算法优化方法
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
Li et al. Linear time complexity time series classification with bag-of-pattern-features
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN111985825A (zh) 一种用于滚磨机定向仪的晶面质量评估方法
CN103020979A (zh) 基于稀疏遗传聚类的图像分割方法
CN115374868A (zh) 一种基于js散度与admm算法的无监督特征选择方法
CN113360730A (zh) 一种基于过滤器和rf-rfe算法的特征选择方法
CN114882531A (zh) 一种基于深度学习的跨域行人再识别方法
CN109871379A (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN114997366A (zh) 基于图神经网络的蛋白质结构模型质量评估方法
Atlam et al. A new feature selection method for enhancing cancer diagnosis based on DNA microarray
CN115186798A (zh) 基于知识蒸馏的再生tsk模糊分类器
CN111079011A (zh) 一种基于深度学习的信息推荐方法
Phan et al. Efficiency enhancement of evolutionary neural architecture search via training-free initialization
Sharifi et al. Gradient-Regularized Out-of-Distribution Detection
CN117392450A (zh) 一种基于进化多尺度特征学习的钢铁材料质量解析方法
Povkhan A constrained method of constructing the logic classification trees on the basis of elementary attribute selection.
CN114529975B (zh) 一种应用于人脸识别的自适应快速无监督特征选择方法
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
Syahrizal et al. The application of the K-NN imputation method for handling missing values in a dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination