CN115374868A

CN115374868A - 一种基于js散度与admm算法的无监督特征选择方法

Info

Publication number: CN115374868A
Application number: CN202211033548.7A
Authority: CN
Inventors: 王雅娣; 张文波; 左宪禹; 谢毅; 乔保军; 张磊
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-22

Abstract

本发明涉及无监督特征选择技术领域，具体涉及一种基于JS散度与ADMM算法的无监督特征选择方法，基于Filter类型相关性得分向量与JS散度构建优化目标函数，通过优化目标函数可得到高相关低冗余的特征子集，其中相关性得分向量在模型优化过程中会起到影响最终优化向量相关性的作用，而JS散度则在模型优化过程中起到影响最终优化向量冗余度的作用，基于特点最终选择的特征子集将会同时具有相关性高冗余度低的优点有利于提高模型构建的速度，增强模型的泛化能力，减少过拟合风险，并且可以提高模型的分类准确率。同时对于优化问题求解耗时的问题，通过ADMM算法来减少求解优化问题的时间，在较短的时间内可以得到一个较好的结果。

Description

一种基于JS散度与ADMM算法的无监督特征选择方法

技术领域

本发明涉及无监督特征选择技术领域，具体涉及一种基于JS散度与ADMM算法的无监督特征选择方法。

背景技术

信息技术的快速发展能够很轻松的获取海量的数据，如何从海量数据中获取关键信息也越来越成为人们关注的焦点。特别在数据挖掘以及机器学习领域，海量数据可以带来丰富的训练样本，但是同时可能会造成维度灾难，所以如何从庞大、冗余的数据集合中选择最关键的特征子集从而提高机器学习的效率和模型效果已经成为当前最热的一个话题。

无监督特征选择可大致分为：Filters(过滤型)特征选择、Wrappers(包裹型)特征选择、Embedded(嵌入型)，其中Filter的优点在于速度快，但是与之对应的缺点是根据得分选择的特征子集所训练的模型的预测效果往往不能够达到一个较高的结果。Wrappers型特征选择的特点在于根据模型预测结果来进行特征的选择，毫无疑问wrapper型特征选择能够有较高的模型预测精度，但是wrapper型特征选择通常是有着较高的时间消耗。Embedded特征选择方法的特点是特征选择与模型训练同时进行的，其模型预测精度以及时间消耗是在Filter与Embeded之间。

Filter特征选择方法通过分析特征子集的内部特点来衡量特征的好坏，这类方法通常根据某种规则来对每个特征进行相关性评价，最后得到一个相关性评分向量，最后根据阈值来选择得分最高的特征子集。Filter特征选择方法以其简单、高效性、可应用性强等特点成为当前主要的特征选择方法之一，因此有大量关于对其研究的文章。但是现有的处理方式中，在选择特征时大多只考虑特征的相关性却往往会忽略所选择特征子集的相似性，特征间相似性越高往往就代表着冗余，在有限个数的子集中不能带来更多的有用的信息，因此在特征选择时希望选择的特征子集在具有较高相关性的同时，也具有相对较小的冗余度。

对于优化问题常用的方法往往需要计算目标函数的梯度或者Hessian矩阵，这就使得计算复杂且耗时，同时容易陷入局部最优解。因此减少优化所耗时间的同时能够达到较高的收敛效果，关系着所提出的方法是否能够很好的应用。

发明内容

有鉴于此，为了解决上述技术问题，本发明提供一种基于JS散度与ADMM算法的无监督特征选择方法。

所采用的技术方案具体如下：

一种基于JS散度与ADMM算法的无监督特征选择方法，包括：

基于Filter特征选择算法，获取数据集的特征得分向量；

通过直方图统计算法，获取所述数据集中每个特征的概率分布，并基于JS散度公式，计算得到冗余度矩阵；

将所述特征得分向量和冗余度矩阵作为输入构建目标函数；

根据ADMM算法求解所述目标函数，以进行特征选择。

在一个具体实施方式中，将所述特征得分向量和冗余度矩阵作为输入构建目标函数，包括：

目标函数为：

其中，λ为权重系数，s为特征得分向量，J为冗余度矩阵。

在一个具体实施方式中，根据ADMM算法求解所述目标函数，以进行特征选择，包括：

初始化λ、z和v，设置超参数ρ和μ(，设置最大迭代次数；其中，z为变量，v为辅助变量；

根据所述目标函数，构建增广拉格朗日函数：

其中，α_t和α_z为拉格朗日乘子；

对于第k次迭代，通过

计算v_k；

通过

计算z_k；其中，inv()表示求逆操作，1表示所有分量都为1的列向量，E表示单位矩阵；

通过ρ_k＝μρ_k-1更新ρ_k；

通过α_t ^k＝α_t ^k-1+ρ_k(z_k ^T1-1)更新α_t ^k；

通过α_z ^k＝α_z ^k-1+ρ_k(z_k-v_k).更新α_z ^k；

当迭代完成后，获取优化后的得分向量；

选取所述优化后的得分向量中得分最高的预设个数的特征。

在一个具体实施方式中，迭代完成的条件为：第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值的差值小于预设阈值，或者迭代次数达到所述最大迭代次数。

本发明实施例至少具有如下有益效果：本发明提供一种基于JS散度与ADMM算法的无监督特征选择方法中，基于Filter类型相关性得分向量与JS散度构建优化目标函数，通过优化目标函数可得到高相关低冗余的特征子集，其中相关性得分向量在模型优化过程中会起到影响最终优化向量相关性的作用，而JS散度则在模型优化过程中起到影响最终优化向量冗余度的作用，基于特点最终选择的特征子集将会同时具有相关性高冗余度低的优点有利于提高模型构建的速度，增强模型的泛化能力，减少过拟合风险，并且可以提高模型的分类准确率。同时对于优化问题求解耗时的问题，通过ADMM算法来减少求解优化问题的时间，在较短的时间内可以得到一个较好的结果。

附图说明

图1是本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法的流程图。

具体实施方式

下面结合附图具体的说明本发明所提供的一种基于JS散度与ADMM算法的无监督特征选择方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于JS散度与ADMM算法的无监督特征选择方法的步骤流程图。本实施例中，将本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法简称为JAFS算法。该方法包括以下步骤：

步骤S1：基于Filter特征选择算法，获取数据集的特征得分向量。

准备一个高维度数值型数据集X，其中行向量代表样本，列向量代表特征。本实施例中，数据集X可以为机器学习常用的数据集：Sonar数据集。

基于Filter特征选择算法，使用拉普拉斯算法(Laplace Score)得到数据集X的特征的Laplace Score向量s，即获取数据集X的特征得分向量s。

步骤S2：通过直方图统计算法，获取所述数据集中每个特征的概率分布，并基于JS散度公式，计算得到冗余度矩阵。

本实施例中，使用直方图统计法统计数据集X中每个特征的概率分布，并根据JS散度公式计算基于JS散度的冗余度矩阵J，计算公式如下：

步骤S3：将所述特征得分向量和冗余度矩阵作为输入构建目标函数。

将特征得分向量s和冗余度矩阵J作为输入构建目标函数。本实施例中，目标函数object为：

其中，λ为权重系数。

权重系数λ通过下式得到：

引入辅助变量v对上述目标函数进行变形：

本实施例中，在后续迭代过程中会根据权重系数λ来调节相关性与冗余度在最终优化结果中所占比重。为了得到最优解，z^TJz应该满足全局最小化，v^Ts满足全局最大化。J_ij表示特征f_i与特征f_j的冗余度，如果J_ij是一个较大的值，为了让z_i ^TJ_ijz_j最小化需要赋予z_i,z_j较小的值。反之若如果J_ij值较小，为了使z^TJz-v^Ts整体最小，则需要v^Ts最大，那么需要赋值z_i,z_j能保持在原得分向量s次序一样的得分。基于这种机制所得到的特征将会有相关性强、冗余度低的特点有利于提高模型泛化能力，减少过拟合问题，同时可以使模型预测有较高的预测精度。

步骤S4：根据ADMM算法求解所述目标函数，以进行特征选择。

根据ADMM算法(Alternating Direction Method of Multipliers)求解目标函数，以进行特征选择。作为一个具体实施方式，以下给出本步骤的具体算法过程：

根据目标函数，构建增广拉格朗日函数：

其中，α_t和α_z为拉格朗日乘子，z为变量，v为辅助变量，ρ为超参数，ρ＞0)。

固定变量z令增广拉格朗日函数对v求导并令结果等于0可以得到v的更新式：

固定变量v令增广拉格朗日函数对z求导并令式子等于0可以得到z的更新式：

其中，inv()表示求逆操作，1表示所有分量都为1的列向量，E表示单位矩阵。

ρ的迭代式满足线性函数的特点，第k+1次取值等于第k次的值乘以一个大于1的系数，在多次迭代后可以迫使优化目标函数所求解尽可能满足可行域。ρ可以表示为：

ρ＝μρ

其中，μ(为超参数，(μ＞1)。

α_t和α_z要在迭代中根据约束条件的满足程度做出相应的调整。

α_t可以表示为：

α_t＝α_t+ρ(z^T1-1).

α_z可以表示为：

α_z＝α_z+ρ(z-v)

因此，初始化权重系数λ、变量z和辅助变量v，设置超参数ρ和μ(，设置最大迭代次数MaxIter。

对于第k次迭代，k＝1、2、...、MaxIter，通过

计算v_k。

通过

计算z_k。

通过ρ_k＝μρ_k-1更新ρ_k。

通过α_t ^k＝α_t ^k-1+ρ_k(z_k ^T1-1)更新α_t ^k。

通过α_z ^k＝α_z ^k-1+ρ_k(z_k-v_k).更新α_z ^k。

按照上述过程进行重复迭代，迭代完成的条件为：在第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值小于预设阈值tol，或者迭代次数达到最大迭代次数MaxIter。因此，若第k次迭代对应的目标函数值与第k-1次迭代对应的目标函数值小于预设阈值tol，或者迭代次数达到最大迭代次数MaxIter，则结束迭代，输出结果。否则，继续重复上述过程。

当迭代完成后，获取优化后的得分向量z。

选取优化后的得分向量z中得分最高的预设个数的特征。作为一个具体实施方式，按照得分高低，将优化后的得分向量z中的各个特征进行降序排序，然后选取前topN个得分最高的特征，即为选择得到的关键特征。

作为一个具体实施方式，采用本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法，即JAFS算法求解目标函数，并记录求解所用时间。基于优化后的得分向量z，从中选择得分前Top 20的子集数据，并按随机抽样的方式抽取样本70％作为训练集A，剩下的30％作为测试集B。

基于训练集A对KNN(K-Nearest Neighbor)模型进行训练，构建预测模型。用构建好的模型在测试集B上做预测并记录预测准确率。

用AGRM方法求解目标函数，并记录求解所用时间。基于输出的优化结果，从中选择得分前Top 20的子集数据，并按随机抽样的方式抽取样本70％作为训练集C，剩下的30％作为测试集D。基于训练集C对KNN模型进行训练，构建预测模型。用构建好的模型在测试集D上做预测并记录预测准确率，并与JAFS结果做对比。

表1为同一目标函数5次AGRM方法和JAFS方法求解所耗时长(单位：秒)，表1是分别使用AGRM方法与JAFS方法求解目标函数所消耗的时间。

表1

表2是AGRM方法和JAFS方法5次预测精准度对比，表2是使用KNN分类模型分别在AGRM方法与JAFS方法选取的Top20特征子集上进行训练并预测的结果。

表2

表3是JAFS方法得到的Top20特征子集的5次结果冗余度，冗余度是衡量特征选择结果好坏的一个指标，在特征个数固定的条件下，冗余度越高代表所选子集所能带来的信息量越少。冗余度取值[0～1]。

表3

因此，本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法，以Filter得分向量与JS散度分别作为影响相关性与冗余度两个方面的因素来构建优化目标函数，通过ADMM算法来减少求解时间，求解快速，所选择的特征子具有较小的冗余度和较高的相关性。该方法是基于JS散度与Filter型特征选择方法得到的得分向量来构造最大相关最小冗余优化目标函数，并通过ADMM算法来求解目标函数的一个方法。通过将Filter特征选择方法的结果作为输入，去影响目标函数优化过程中关于相关性的部分。同时，将基于JS散度的冗余度矩阵作为输入将会影响目标函数优化过程中关于冗余度的部分。基于以上步骤得到的优化后的特征子集将会同时具备相关性高和冗余度低两种特性，有利于提高模型构建的速度，增强模型的泛化能力，减少过拟合风险，并且基于本方法所选择的特征对于模型的分类准确率有较好的提升。

本发明提供的一种基于JS散度与ADMM算法的无监督特征选择方法有以下几大优势：首先，采用Filter类型特征得分向量与JS散度结合的方式构造优化目标函数并应用于特征选择之中，使用这种方式所得到的特征将会同时具有相关性强、冗余度低的特点，有利于提高模型泛化能力，减少过拟合问题，同时使用ADMM算法求解所构建的目标函数，ADMM算法已经被证明具有良好的收敛性质并且具有计算速度快等优点。将ADMM算法应用到求解目标问题中将会大大减少模型寻找最优解所用时间，使得更有利于方法的应用。

Claims

1.一种基于JS散度与ADMM算法的无监督特征选择方法，其特征在于，包括：