CN110728292A

CN110728292A - 一种多任务联合优化下的自适应特征选择算法

Info

Publication number: CN110728292A
Application number: CN201910724641.4A
Authority: CN
Inventors: 郭艳蓉; 郝世杰; 汪萌; 洪日昌; 陈涛
Original assignee: Hefei Polytechnic University
Current assignee: Hefei Polytechnic University
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2020-01-24

Abstract

本发明公开了一种多任务联合优化下的自适应特征选择算法，包括引入自适应流形结构优化，从而同时学习了两个任务之间的自适应共享相似性度量和相应的特征映射。最终实现分类任务和回归任务的联合优化。相比单任务学习，本方法性能更加可靠稳定，可以联合学习分类和回归任务下数据的流形结构并移除噪声，冗余和无关特征。具体来说，该方法首先采用灵活性更强的稀疏项和正则化项，分别用来拟合样本及实现稀疏特征选择，最终实现分类任务和回归任务的联合优化。相比单任务学习，本方法性能更加可靠稳定。

Description

一种多任务联合优化下的自适应特征选择算法

技术领域

本发明涉及算法领域，具体为一种多任务联合优化下的自适应特征选择算法。

背景技术

高维信息常常出现在现实世界的各种应用中，如：数据挖掘，机器学习，计算机视觉。但是这些高维的数据中往往夹杂着大量的冗余，噪声和无关特征，不仅给模型学习带来了极大地挑战，也增加了存储成本和计算成本。为了解决这个为题，特征选择技术得到了极大地关注，它主要是为了移除无关特征，保留相关特征，减小特征维度，从而使模型性能得到提升。特征选择算法可以被分为一下三类：①Filter：Filter方法独立于机器学习模型，根据特征与学习的问题之间的相关性对各个特征进行排序，从而选择出最优的特征，常用的衡量指标有：假设检验的p-value，互信息，相关系数等。②Wrapper：它的基本思想是对特征进行递归消除，根据分类(回归)任务结果判断特征优劣，在其余的特征上重复该过程，直至遍历完所有的特征。这个过程计算成本十分高，尤其是现如今许多样本由高维数据描述。③Embedded：Embedded将特征选择过程和流型学习融为一体，计算成本既不会太高，又可以获得较好的性能，因此，Embedded成为现在主流的特征选择算法。

多任务学习(如分类或回归问题)是机器学习中一个广泛的应用，近年来获得了广泛的关注，他们目的是根据不同学习任务中所包含的有用信息来提升每个子任务学习性能。多任务学习的前提是这些任务是相互关联的，在此基础上，通过定性和定量的实验分析发现，联合学习多个任务能比单独学习它们获得更好的性能。根据任务的性质，多任务学习可以被分类成以下几种学习方式，主要包括多任务监督学习、多任务无监督学习、多任务半监督学习。

但是，现有的单任务和多任务算法一方面受到原始特征中的噪声和冗余影响，在学习样本相似度时降低了拉普拉斯矩阵的准确性，并最终影响算法性能。

发明内容

本发明的目的在于提供一种多任务联合优化下的自适应特征选择算法，以解决上述背景技术中现有的算法存在的以下缺点：现有的单任务和多任务算法一方面受到原始特征中的噪声和冗余影响，在学习样本相似度时降低了拉普拉斯矩阵的准确性，并最终影响算法性能。

为实现上述目的，本发明提供如下技术方案：一种多任务联合优化下的自适应特征选择算法，包括联合学习分类和回归任务下数据的流形结构并移除噪声，冗余和无关特征。具体来说，该方法首先采用灵活性更强的稀疏项和正则化项，分别用来拟合样本及实现稀疏特征选择。此外，引入自适应流形结构优化，从而同时学习了两个任务之间的自适应共享相似性度量和相应的特征映射。最终实现分类任务和回归任务的联合优化

优选的，所述针对不同类别样本学习其权重的算法的具体方法包括：

开始：

引入分类任务和回归任务下保真项损失函数：

引入谱聚类项：

自适应流形结构学习：

目标函数优化：

结束。

优选的，所述目标函数优化：

开始：

优化矩阵W；

确定函数中与W矩阵相关项：

将其对W矩阵球偏导：

优化相似度矩阵S：

确定目标函数中与S相关项：

得出拉格郎日函数：

结束。

有益效果：

本发明引入自适应流形结构优化，从而同时学习了两个任务之间的自适应共享相似性度量和相应的特征映射。最终实现分类任务和回归任务的联合优化。相比单任务学习，本方法性能更加可靠稳定，可以联合学习分类和回归任务下数据的流形结构并移除噪声，冗余和无关特征。具体来说，该方法首先采用灵活性更强的稀疏项和正则化项，分别用来拟合样本及实现稀疏特征选择，最终实现分类任务和回归任务的联合优化。相比单任务学习，本方法性能更加可靠稳定。

附图说明

图1为本发明的算法流程图；

图2为本发明的方法图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1-2所示，本发明提供一种技术方案：一种多任务联合优化下的自适应特征选择算法，包括可以联合学习分类和回归任务下数据的流形结构并移除噪声，冗余和无关特征。具体来说，该方法首先采用灵活性更强的稀疏项和正则化项，分别用来拟合样本及实现稀疏特征选择。此外，引入自适应流形结构优化，从而同时学习了两个任务之间的自适应共享相似性度量和相应的特征映射。最终实现分类任务和回归任务的联合优化。

多任务联合学习方法步骤如下：

优选的：

⑴引入分类任务和回归任务下保真项损失函数：

其中，X是训练集样本，X＝[x₁，...，x_j，...，x_m]∈R^n×m，X中有m个样本，每个样本由n维的特征表示，这一项是为了使得学习的权重尽量拟合样本标签，提高预测的准确性。另一方面，我们从分类任务和回归任务两个方面对损失项进行编码，W_l，Y_l，W_r，Y_r分别代表分类权重，分类标签，回归权重，回归分数标签四个属性。

另一方面，为了避免过拟合和进行特征选择，在目标函数中加入正则化项，得到的权重矩阵W可以用于选择有助于分类任务的特征。

在约束稀疏项和正则化时，该方法没有采用传统的l_F范数或者是l_2,1范数，而是引入l_2,q范数和l_2,p范数分别作为损失项和正则化项来学习一个稀疏的鲁棒的模型，从而在性能鲁棒性和数据拟合性之间保持平衡。

优选的：

⑵引入谱聚类项

谱聚类项是基于样本数据之间的相似性，相似性计算公式如下：

其中S是相似度矩阵，N(x_i)代表样本在原始特征空间中的邻域样本集合，σ是缩放参数。进一步在目标函数中引入谱聚类项：

其中拉普拉斯矩阵(Graph Laplacians)L是由相似度矩阵S和度矩阵D得到：L＝D-S。度矩阵D 是一个对角矩阵，其元素是相似度矩阵S的每一行的元素之和。

(3)自适应流形结构学习

通过权重矩阵W，可以将样本训练集映射到目标空间下。类似的，可以计算映射之后在目标空间下的样本相似性。在公式(3)和公式(4)中，样本数据从原始的高维数据中获得了一个固定的拉普拉斯矩阵。该矩阵容易受到原始的训练集样本中噪声和冗余特征的影响，不能准确的反映样本之间的相似性，从而影响谱聚类项的准确性。因此，我们同时对相似度矩阵进行优化，在目标函数中用谱聚类项进行约束，减小噪声和冗余的影响。

该项不是直接通过原始数据计算样本相似性，而是结合权重矩阵，在最大程度上保留有用信息，将其拓展到目标空间。此时的相似度矩阵能更准确得反映两样本之间的相似性。

总目标函数如下：

α，β，γ是约束性参数，调节不同项之间的权值。

(4)目标函数优化：

在目标函数优化过程中，采用交替迭代算法进行优化。

①优化矩阵W

首先确定函数中与W矩阵相关的项，即：

将其对W矩阵求偏导：

其中，D₁和D₂的对角线元素分别为：

令

有：

W＝(XD₁X^T+αD₂+βXLX^T)^-1XD₁Y

从多任务学习的角度来说，可得到如下等式：

②优化相似度矩阵S

确定目标函数中与S相关的项：

令

则可将上述公式转化为：

由此可得拉格朗日函数为：

τ和η都是拉格朗日乘法算子，基于KKT(Karush-Kuhn-Tucker)条件，可以得到以下关于S闭式解：

根据此迭代算法对目标函数中的变量进行优化。

开始：

引入分类任务和回归任务下保真项损失函数101：

引入谱聚类项102：

自适应流形结构学习103：

目标函数优化104：

结束。

优选的，所述目标函数优化：

开始：

优化矩阵W105；

确定函数中与W矩阵相关项106：

将其对W矩阵球偏导107：

优化相似度矩阵S108：

确定目标函数中与S相关项109：

得出拉格郎日函数111：

结束110。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种针对不同类别样本学习其权重的算法，其特征在于：可以联合学习分类和回归任务下数据的流形结构并移除噪声，冗余和无关特征。具体来说，该方法首先采用灵活性更强的稀疏项和正则化项，分别用来拟合样本及实现稀疏特征选择。此外，引入自适应流形结构优化，从而同时学习了两个任务之间的自适应共享相似性度量和相应的特征映射。最终实现分类任务和回归任务的联合优化。

2.根据权利要求1所述的一种多任务联合优化下的自适应特征选择算法，其特征在于：所述针对不同类别样本学习其权重的算法的具体方法包括：开始：引入分类任务和回归任务下保真项损失函数（101）：引入谱聚类项（102）：自适应流形结构学习（103）：

目标函数优化（104）：

结束。

3.根据权利要求12所述的一种多任务联合优化下的自适应特征选择算法，其特征在于：所述目标函数优化：

开始：优化矩阵W（105）；

确定函数中与W矩阵相关项（106）：

将其对W矩阵球偏导（107）：

优化相似度矩阵S（108）：

确定目标函数中与S相关项（109）：

得出拉格郎日函数（111）：

结束（110）。