CN101278304A

CN101278304A - 特征选择

Info

Publication number: CN101278304A
Application number: CNA2006800366793A
Authority: CN
Inventors: 杨广中; 胡晓鹏
Original assignee: Imperial Innovations Ltd
Current assignee: Ip2ipo Innovations Ltd
Priority date: 2005-09-02
Filing date: 2006-08-24
Publication date: 2008-10-01
Also published as: EP1932101A1; GB0517954D0; US20090157584A1; WO2007026130A1; JP2009507286A

Abstract

提供了一种可应用于特征的前向选择和后向消除的特征选择方法。所述方法基于每一个分类器的ROC曲线下的面积的估算值选择特征作为分类器的输入。示例性应用是家庭护理或者患者监护、身体传感器网络、环境监控、图像处理和调查问卷设计。

Description

特征选择

技术领域

本发明涉及作为分类器的输入的特征的选择。具体地，而不是唯一地，这些特征表示例如家庭护理环境中的传感器网络中的传感器的输出。

背景技术

在监督式机器学习(supervised machine learning)领域中用于维数降低的技术已经受到了广泛的关注。总体来说，存在两组方法：特征提取和特征选择。在特征提取中，给定的特征被变换到较低维数的空间中，同时使信息的损失最小。一种特征提取技术是主成分分析(PCA)，该技术将多个相关的变量变换为多个不相关的变量(或者主成分)。另一方面，对于特征选择，不创建新的特征。通过消除不相关和冗余的特征来降低维数。不相关(或者冗余)的特征基本不提供关于目标概念的信息(或者不提供新的信息)。

特征选择的目的是通过消除不相关和冗余的特征来降低归纳系统的复杂性。在机器学习领域中，为了减少计算成本和存储量以及提高预测的准确性，这种技术正变得越来越重要。理论上，高维数模型比低维数模型更准确。然而，推理系统的计算成本随着其维数的增加而急剧提高，因此，需要根据总体计算成本来权衡准确性。另一方面，如果根据不充分的训练数据建立高维数模型，则该模型的准确性可能劣化。在这种情况下，该模型不能对信息结构提供令人满意的描述。理解未知系统的固有结构所需的训练数据的量随着其维数的增大呈指数式地增大。当学习算法由于不相关的特征所导致的伪结构而变得混乱时，不准确的描述可能导致严重的过拟合(over-fitting)问题。为了获得在计算上容易处理的系统，需要消除对总体性能几乎没有贡献的含信息较少的特征。此外，收集大量的样本数据的高成本使得期望获得高效率的选择策略来去除不相关和冗余的特征。

在机器学习中，经常可以将特征选择方法划分为两组：包装器(wrapper)方式和过滤器(filter)方式，其通过特征选择和归纳算法之间的关系来区分。包装器方式使用归纳算法的估算准确性来评价候选特征子集。而过滤器直接根据数据学习，并且独立于任何具体的归纳算法来运算。这种方法根据候选子集的信息内容就分类为目标概念来评价候选子集的“适合度(goodness)”。未针对归纳算法和嵌入训练数据集的信息结构之间的特定相互来调节过滤器。在给定足够特征的情况下，基于过滤器的方法尝试以保持尽可能多的关于数据的基本结构的信息的方式来消除特征。

上述问题变得明显的一个示例性应用领域是在家庭护理环境中监护患者。通常，这种监护涉及分析从大量传感器收集的数据，包括患者佩带的活动传感器(例如加速度传感器)、监视患者的生理状态(例如体温、血糖水平、心率和呼吸频率)的传感器、以及分布在家中的传感器，例如可以是动作检测器、或者是可以检测灯的打开和关闭或者门的打开和关闭的电开关。可能需要针对每一个患者分别设置家庭护理监护系统。如果要在短时间内配置家庭护理监护系统，则收集大量训练数据用于训练接收监护系统的输出的分类器无论如何是不可能的。因此，在家庭护理监护的情况下尤其希望高效的为分类器选择输入特征的算法。

发明内容

在本发明的第一方面，提供了根据权利要求1所述的自动选择特征作为分类器的输入的方法。优选地，通过使用分类器的接收器操作特性曲线下的面积，在选择中使用直接表示分类性能的度量。

优选地，估算是基于分类器的所有类的期望曲线下面积。特征选择可以从所有可获得的特征的满集开始，并且通过从该集合中重复去除特征来减小特征的数量。可选地，算法可以从空的特征集开始，并且重复增加特征。去除(增加)的特征是使估算的变化最小(最大)的特征。

优选地，针对每一个特征，可以通过考虑该特征以及其余特征中的一部分而不是全部，但只挑选其中的选择来估算变化。这降低了算法的计算要求。然后，可以根据所选定的其余特征和所述特征的期望曲线下面积与没有所述特征的而只有所挑选的其余特征的期望曲线下面积的差来计算变化。

所述方法可以包括：计算所述子集中所述特征和其余每一个特征的微分度量；并选定预定数量的具有最小微分度量的其它特征进行所述选择。所述微分度量可以是所述特征的期望曲线下面积与所述和一个其余特征的期望曲线下面积的差。优选地，可以在进行任何特征选择之前，对集合中的所有特征预先计算所述微分度量。这进一步提高了计算效率，因为仅在算法开始时需要重新计算一次所述微分度量。可以省略(或者增加)特征，直到分类所使用的子集中的特征的数量等于预定阈值为止，或者可选地，直到达到期望曲线下面积的阈值为止。

优选从一个或多个传感器的一个或多个通道得出所述特征。例如传感器可以包括测量表示空气、水或者土壤质量的量的环境传感器。可选地，可以通过图像处理从数字图像得出特征，例如，所述特征表示图像中的纹理朝向、图案或者色彩。一个或多个特征可以表示生物标记(biomarker)的活动，生物标记的活动又可以表示存在还是不存在与所述生物标记相关联的目标，例如，核酸、肽、蛋白质、病毒或者抗原。

在本发明的又一个方面，提供了根据权利要求20所述的定义传感器网络的方法。所述方法使用上述算法。优选地，从所述网络中去除与该算法没有选择的特征相对应的传感器。

本发明还延伸到根据权利要求22所述的传感器网络、根据权利要求23所述的家庭护理或者患者监护环境和根据权利要求24所述的身体传感器网络。本发明还延伸到根据权利要求25所述的系统、根据权利要求26所述的计算机程序和根据权利要求27所述的计算机可读介质或者数据流。

因此，下面描述的实施例适合于在普通的多传感器环境中使用，尤其适合于普通的患者和/或健康监护以及普遍健康护理。

附图说明

现在，参考附图，通过示例描述本发明的实施例，其中：

图1示出用于特征选择的模型；

图2示出用于选择三个特征的集合的特征作为输入特征的搜索空间；

图3示出根据本发明实施例的特征选择和ROC曲线；

图4是多个特征集的可分辨性的图形表示；

图5是后向消除算法的流程图；

图6是前向选择算法的流程图；

图7是近似后向/前向算法的流程图；以及

图8示出身体传感器网络。

具体实施方式

总的来说，用于特征选择的贝叶斯框架(BFFS)与基于贝叶斯理论和接收器操作特性(ROC)分析的特征选择算法的发展有关。所提出的方法具有以下特性：

·BFFS完全基于特征的统计分布，因此不偏向具体的模型

·特征选择标准基于ROC的期望曲线下面积(AUC)。因此，在理想分类器的灵敏度和特异性(specificity)方面，得出的特征可以产生最佳的分类性能。

在贝叶斯推理中，有理观测器使用后验概率来进行决策，因为有理观测器对可获得的信息进行总结。我们可以基于条件独立性来定义相关度(measure of relevance)。也就是说，给定特征集

f^{(1)} = {f_{i}^{(1)}, 1 \leq i \leq N_{1}},

如果对于任意指定y，

每当Pr(f⁽¹⁾，f⁽²⁾)≠0，都有Pr(y|f⁽¹⁾)＝Pr(y|f⁽¹⁾，f⁽²⁾) (1)那么两个特征集y(分类标签)和

f^{(2)} = {f_{i}^{(2)}, 1 \leq i \leq N_{2}}

是条件独立或者不相关的(也就是说，给定f⁽¹⁾，则f⁽²⁾不提供进一步信息)。

在本文中，我们使用符号I(y，f⁽²⁾|f⁽¹⁾)表示给定f⁽¹⁾时y和f⁽²⁾的条件独立性。不失一般性，假设f⁽¹⁾、f⁽²⁾和y是不相交的。

最佳特征子集选择涉及两个主要的难点：选择候选特征子集的搜索策略和评估这些候选项的评价函数。图1示出用于特征选择的典型模型。

用于候选子集选择的搜索空间的大小是2^N，即，特征选择方法需要在给定N个特征的情况下的2^N个候选子集中找到最好的子集。作为示例，图2示出用于3个特征的搜索空间。该空间中的每一个状态代表一个候选特征子集。例如，状态101表示不包含第二特征。

由于搜索空间的大小随着输入特征的数量的增加成指数增长，因此空间的穷举搜索是不现实的。结果，例如贪婪(greedy)搜索或者分支定界(branch and bound)搜索的启发式搜索策略变得必要。前向选择(Forward selection)表示从空特征集开始的搜索策略，而后向消除(backward elimination)表示从满特征集开始的搜索策略。作为示例，Koller和Sahami在“Towards optimal feature selection”，Proceedings of 13^thInternational Conference on Machine Learning，Bari，Italy，1996，pp.284-292中提出了一种顺序贪婪后向搜索算法以基于期望的跨熵(cross-entropy)评价来寻找“马尔可夫毯(Markov blanket)”。

通过使用贝叶斯法则，对于指定y＝a，方程式(1)可以重写为

{(1 + \frac{\Pr (f^{(1)} | y &NotEqual; a)}{\Pr (f^{(1)} | y = a)} \times \frac{\Pr (y &NotEqual; a)}{\Pr (y = a)})}^{- 1} = {(1 + \frac{\Pr (f^{(1)}, f^{(2)} | y &NotEqual; a)}{\Pr (f^{(1)}, f^{(2)} | y = a)} \times \frac{\Pr (y &NotEqual; a)}{\Pr (y = a)})}^{- 1}

因此，我们可以获得相关性的等价定义。给定特征集

f^{(1)} = {f_{i}^{(1)}, 1 \leq i \leq N_{1}},

如果对于任意指定y＝a，

每当Pr(f⁽¹⁾，f⁽²⁾)≠0，都有L(f⁽¹⁾‖y≠a，y＝a)＝L(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)则两个特征集y和

f^{(2)} = {f_{i}^{(2)}, 1 \leq i \leq N_{2}}

是条件独立或者不相关的，其中L(f‖y≠a，y＝a)是似然比，

L (f | | y &NotEqual; a, y = a) = \frac{\Pr (f | y &NotEqual; a)}{\Pr (f | y = a)} - - - (2)

可以使用似然比或者其等价量作为决策变量来产生ROC。给定一对似然值，可以用相应的ROC描述分类器的可能最佳性能，该ROC可以通过改变用于在y＝a和y≠a之间进行区分的似然比的阈值经由内曼-皮尔逊分级过程(Neyman-Pearson ranking procedure)来获得。给定两个似然值Pr(f|y≠a)和Pr(f|y＝a)，根据内曼-皮尔逊过程，假警报率(f)和命中率(h)由下式定义，

\{\begin{matrix} P_{h} = \underset{L (f | | y &NotEqual; a, y = a) > β}{&Integral;} (f | y &NotEqual; a) df \\ P_{f} = \underset{L (f | | y &NotEqual; a, y = a) > β}{&Integral;} (f | y = a) df \end{matrix} - - - (3)

其中，β是阈值，L(f‖y≠a，y＝a)是由(2)定义的似然比。

对于给定的β，可以计算一对P_h和P_f。当β从∞变到0时，P_h和P_f从0％变到100％。因此，通过改变似然比的阈值来获得ROC曲线。

图3示出描绘出命中率(h)相对于假警报率(f)的ROC曲线以及曲线下面积(AUC)。图3的右侧示出AUC相对于特征数量的示意图。如图和下面的讨论所说明的，AUC随着特征数量的增大而单调增加。同时，上面讨论的考虑因素对可以在分类器中合理使用的特征的数量设置了限制。下面讨论的本发明的实施例提供一种算法，用于选择将哪些特征用于分类器。总的来说，将对AUC有最大贡献的那些特征逐个增加到空集中。可选地，将对AUC有最小贡献的特征从特征的满集逐个去除。图3中的阴影区域示出所选择的特征的AUC。

基于上述表示，可以证明：假设

f^{(1)} = {f_{i}^{(1)}, 1 \leq i \leq N_{1}}

和

f^{(2)} = {f_{i}^{(2)}, 1 \leq i \leq N_{2}},

给定两对似然分布Pr(f⁽¹⁾|y≠a)，Pr(f⁽¹⁾|y＝a)和Pr(f⁽¹⁾，f⁽²⁾|y≠a)，Pr(f⁽¹⁾，f⁽²⁾|y＝a)，我们有根据内曼-皮尔逊过程获得的两个相应的ROC曲线ROC(f⁽¹⁾‖y≠a，y＝a)和ROC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)。然后，当且仅当

L(f⁽¹⁾‖y≠a，y＝a)＝L(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)时，

ROC(f⁽¹⁾‖y≠a，y＝a)＝ROC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)

其中，L(f‖y≠a，y＝a)是在(6.2)中定义的似然比。我们还可以证明在ROC空间中的任意一点处ROC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)不在ROC(f⁽¹⁾‖y≠a，y＝a)下面。

基于这些证明，也表明，给定特征集

f^{(1)} = {f_{i}^{(1)}, 1 \leq i \leq N_{1}},

如果对于任意指定y＝a，

ROC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)＝ROC(f⁽¹⁾‖y≠a，y＝a)

则两个特征集y和

f^{(2)} = {f_{i}^{(2)}, 1 \leq i \leq N_{2}}

是条件独立或者不相关的，其中，ROC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)和ROC(f⁽¹⁾‖y≠a，y＝a)是给定两对似然分布Pr(f⁽¹⁾，f⁽²⁾|y≠a)，Pr(f⁽¹⁾，f⁽²⁾|y＝a)和Pr(f⁽¹⁾|y≠a)，Pr(f⁽¹⁾|y＝a)时，根据内曼-皮尔逊过程计算的ROC曲线。

一般来说，当两个ROC曲线具有相同的AUC时，这两个ROC曲线可以不相等。由于f⁽¹⁾是f⁽¹⁾加f⁽²⁾的子集，因此我们可以获得条件独立和其相关性的另一个定义：给定特征集

f^{(1)} = {f_{i}^{(1)}, 1 \leq i \leq N_{1}},

如果对于任意指定y＝a，

AUC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)＝AUC(f⁽¹⁾‖y≠a，y＝a)

则两个特征集y和

f^{(2)} = {f_{i}^{(2)}, 1 \leq i \leq N_{2}}

是条件独立或者不相关的，其中，AUC(f⁽¹⁾，f⁽²⁾‖y≠a，y＝a)和AUC(f⁽¹⁾‖y≠a，y＝a)是给定两对似然分布Pr(f⁽¹⁾，f⁽²⁾|y≠a)，Pr(f⁽¹⁾，f⁽²⁾|y＝a)和Pr(f⁽¹⁾|y≠a)，Pr(f⁽¹⁾|y＝a)，根据内曼-皮尔逊过程计算的ROC曲线下面积。

以上描述指出了特征选择对决策的性能和特征集的总体可分辨性的影响。可见，不相关特征对理想推理的性能没有影响，并且不相关特征不影响总体可分辨性。

概括来说，特征的条件独立性是由其固有可分辨性决定的，而固有可分辨性可以通过AUC来测量。上述框架可以用来解释条件独立性的特性。例如，我们可以获得分解特性

I (y, (f^{(2)}, f^{(3)}) | f^{(1)}) &DoubleRightArrow; \{\begin{matrix} AUC (f^{(1)}, f^{(2)} | | y &NotEqual; a, y = a) = AUC (f^{(1)} | | y &NotEqual; a, y = a) \\ AUC (f^{(1)}, f^{(3)} | | y &NotEqual; a, y = a) = AUC (f^{(1)} | | y &NotEqual; a, y = a) \end{matrix} &DoubleRightArrow; \{\begin{matrix} I (y, f^{(2)} | f^{(1)}) \\ I (y, f^{(3)} | f^{(1)}) \end{matrix}

和收缩特性

\{\begin{matrix} I (y, f^{(3)} | (f^{(1)}, f^{(2)})) \\ I (y, f^{(2)} | f^{(1)}) \end{matrix} &DoubleRightArrow; \{\begin{matrix} AUC (f^{(1)}, f^{(2)}, f^{(3)} | | y &NotEqual; a, y = a) = AUC (f^{(1)}, f^{(2)} | | y &NotEqual; a, y = a) \\ AUC (f^{(1)}, f^{(2)} | | y &NotEqual; a, y = a) = AUC (f^{(1)} | | y &NotEqual; a, y = a) \end{matrix}

即，

\{\begin{matrix} I (y, f^{(3)} | (f^{(1)}, f^{(2)})) \\ I (y, f^{(2)} | f^{(1)}) \end{matrix} &DoubleRightArrow; AUC (f^{(1)}, f^{(2)}, f^{(3)} | | y &NotEqual; a, y = a) = AUC (f^{(1)} | | y &NotEqual; a, y = a) &DoubleRightArrow; I (y, (f^{(2)}, f^{(3)}) | f^{(1)})

在上面的等式中，

A &DoubleRightArrow; B

表示B依从A(如果A，则B)，I(A，B)表示A和B是独立的。

上述单调特性表示可以用图形表示来描述特征集的总体可分辨性。在图4中，用通过每一个特征子集的可分辨性的并集来图形表示用于分离概念的合成能力。以内部曲线和外部圆为边界的每一个区域代表特征的可分辨性。特征之间可以存在交叠。以外部圆为边界的区域的面积代表总体可分辨性。每一个特征子集占据总体可分辨性的一部分。特征子集之间可以存在交叠。如果一个特征子集完全被其它特征子集覆盖，则该特征子集不提供附加的信息，因此可以安全地将其去除，而不损失总体可分辨性。需要指出，当包含了新的特征时，特征子集占据的位置和面积可发生变化。

通过应用收缩特性和分解特性(如上所述)，对于特征选择我们有以下特性，

\{\begin{matrix} I (y, f^{(3)} | (f^{(1)}, f^{(2)})) \\ I (y, f^{(2)} | f^{(1)}) \end{matrix} &DoubleRightArrow; I (y, (f^{(2)}, f^{(3)}) | f^{(1)}) &DoubleRightArrow; \{\begin{matrix} I (y, f^{(3)} | f^{(1)}) \\ I (y, f^{(2)} | f^{(1)}) \end{matrix}

在上述方程式中，I(y，f⁽³⁾|f⁽¹⁾，f⁽²⁾)和I(y，f⁽²⁾|f⁽¹⁾)表示消除的两个步骤，即，当给定了f⁽¹⁾和f⁽²⁾中的特征时，可以去除f⁽³⁾中的特征。由于存在f⁽¹⁾中的特征，这之后可以立即执行另一个对f⁽²⁾中的特征的消除。I(y，f⁽³⁾|f⁽¹⁾)表示在消除了f⁽²⁾中的特征之后，f⁽³⁾中的特征保持不相关。结果，通过遵循后向消除过程，每一次叠代仅去除了真正不相关的特征。因此，一般来说后向消除比前向选择更不容易受特征相互作用的影响。

因为强并集特性

I (y, f^{(2)} | f^{(1)}) &DoubleRightArrow; I (y, f^{(2)} | f^{(1)}, f^{(3)})

对于条件独立性通常不成立，所以如果增加更多特征，则不相关特征可能变得相关。理论上，这可限制低维数近似或者前向选择算法的容量。然而，实践中，下面提出的前向选择和近似算法往往选择具有高可分辨性并且提供新信息的特征。例如，在如下情况下前向选择算法是优选的：已知大的特征集中只有少数特征是相关的，并且特征之间的相互作用未被预计是占优效应。

现在转向多个类的情况，我们将类标签y的可能值的集合表示为{a_i，i＝1，N}，N是类的数量。AUC(f‖y≠a_i，y＝a_i)表示Pr(f|y≠a_i)和Pr(f|y＝a_i)的ROC曲线下面积。可以使用类的AUC的期望值作为特征选择的评价函数：

E_{AUC} (f) = E (AUC (f)) = Σ_{i = 1}^{N} \Pr (y = a_{i}) AUC (f | | y &NotEqual; a_{i}, y = a_{i}) - - - (6)

在上述方程式中，先验概率Pr(y＝a_i)可以根据数据估计，或者根据经验确定，以考虑误判断成本。使用期望AUC作为评价函数遵从相同的灵敏度和特异性原理。不难证明E_AUC(f⁽¹⁾，f⁽²⁾)＝E_AUC(f⁽¹⁾)与AUC(f⁽¹⁾，f⁽²⁾‖y≠a_i，y＝a_i)＝AUC(f⁽¹⁾‖y≠a_i，y＝a_i)，{i＝1，N}是等价的；即，给定f⁽¹⁾中的特征，则f⁽²⁾中的特征是不相关的。E_AUC(f)也是随着特征数量而增大的单调函数，并且0.5≤E_AUC(f)≤1.0。对于二进制类，E_AUC(f)＝AUC(f‖y＝a₁，y＝a₂)＝AUC(f‖y＝a₂，y＝a₁)，即E^AUC(f)的计算不受先验概率的影响。

为了在多个类的情况下使用似然分布计算期望AUC，我们需要评价(6)中的Pr(f|y≠a_i)。通过使用贝叶斯规则，我们有

\Pr (f | y &NotEqual; a_{i}) = \frac{\Pr (y &NotEqual; a_{i} | f) \Pr (f)}{\Pr (y &NotEqual; a_{i})}

= \frac{Σ_{k = 1, N}^{k &NotEqual; i} \Pr (y = a_{k} | f) \Pr (f)}{Σ_{j = 1, N}^{j &NotEqual; i} \Pr (y = a_{j})} = \frac{Σ_{k = 1, N}^{k &NotEqual; i} \Pr (y = a_{k}) \Pr (f | y = a_{k})}{Σ_{j = 1, N}^{j &NotEqual; i} \Pr (y = a_{j})} - - - (7)

= Σ_{k = 1, N}^{k &NotEqual; i} C_{ki} \Pr (f | y = a_{k})

其中

C_{ki} = \frac{\Pr (y = a_{k})}{Σ_{j = 1, N}^{j &NotEqual; i} \Pr (y = a_{j})} (i &NotEqual; k)

假设用于计算AUC(f‖y＝a_k，y＝a_i)和AUC(f‖y≠a_i，y＝a_i)的决策变量和决策规则是相同的，则我们有，

AUC (f | | y &NotEqual; a_{i}, y = a_{i}) = Σ_{k = 1, N}^{k &NotEqual; i} C_{ki} AUC (f | | y = a_{k}, y = a_{i}) - - - (8)

其中，AUC(f‖y＝a_k，y＝a_i)代表给定两个似然分布Pr(f|y＝a_k)和Pr(f|y＝a_i)(i≠k)时的ROC曲线下面积。

方程式(8)用来评价针对多个类的情况的AUC(f‖y≠a_i，y＝a_i)。将(8)代入(6)中，我们有

E_{AUC} (f) = Σ_{i = 1}^{N} (\Pr (y = a_{i}) Σ_{k = 1, N}^{k &NotEqual; i} C_{ki} AUC (f | | y = a_{k}, y = a_{i})) - - - (9)

由于去除或者增加不相关特征不改变期望AUC，可以将后向和前向贪婪选择(过滤器)算法设计为使用期望AUC作为评价函数。

本发明的后向消除实施例提供用于特征选择的贪婪算法。其从满特征集开始，每次叠代去除一个特征。使用下面的方程式确定要去除的特征f_j∈f^(k)，

f_{j} = \underset{f_{i} &NotElement; f^{(k)}}{\arg \min} (E_{AUC} (f^{(k)}) - E_{AUC} (f^{(k)} \ {f_{i}})) - - - (10)

其中，f^(k)＝{f_i，1≤i≤L}是第k次叠代之后的临时特征集，f^(k)\f_i}是去除了f_i的集合f^(k)。

参考图5，后向消除实施例的算法具有第一初始化步骤2，在该步骤，选择所有特征，之后是除去对AUC贡献最小的特征的步骤4，如上所述。在步骤6，算法测试是否选择了所希望的数量的特征，如果没有选择所希望的数量的特征，则循环返回除去特征的步骤4。如果选择了所希望的数量的特征，则该算法返回。

与后向消除实施例类似，前向选择实施例也提供用于特征选择的算法。参考图6，算法通过在步骤8选择空集开始，在步骤10将对AUC贡献最大的特征加到针对分类器选择的特征集中。然后在步骤12测试是否达到了所希望的特征的数量，如果没有达到所希望的特征的数量，则循环返回步骤10，直到达到了所希望的特征的数量，算法返回。

在上述前向和后向实施例中，停止条件(步骤6和12)测试所选择的特征集是否具有所希望的数量的特征。可选地，停止标准可以测试期望AUC是否达到了预定阈值。也就是说，对于后向消除，算法继续，直到期望AUC下降到阈值以下为止。为了保证阈值代表期望AUC的低限，可以再次将最后除去的特征加到所选择的集合。对于前向选择，当期望AUC超过所述阈值时，可以退出算法。

在高维数空间中估计AUC是耗费时间的。给定有限的训练样本时，所估计的似然分布的准确性随着特征数量急剧降低，这又会在AUC估计中引入分级误差。因此，当训练数据有限时，在较低维数空间中需要近似算法来估计AUC。

如前面所说明的，去除特征f_i之后总的AUC的减小与所述特征和其它特征的可分辨性的交叠有关。在近似算法中，我们尝试根据当前特征集f^(k)构成特征子集S^(k)，并且用S^(k)中的可分辨性交叠度来近似f^(k)中的可分辨性交叠度。设计了一种启发式方法来从f^(k)中选择与特征f_i具有最大交叠的k_s个特征，我们假设特征f_i与f^(k)中的其它特征的可分辨性交叠由该子集的特征支配。因此，参考图7，用于选择K个特征的后向消除的近似算法如下。∪表示集合并，\表示集合补。

(a)令f^(k)是满特征集，k是该满特征集的大小。

(b)计算可分辨性微分矩阵M(f_i，f_j)；f_i∈f^(k)，f_j∈f^(k)，f_i≠f_j。

M(f_i，f_j)＝E_AUC({f_i，f_j})-E_AUC({f_j})

(c)如果k＝K，则输出f^(k)。

(d)对于f_i∈f^(k)(i＝1，k)

·从f^(k)中选择k_s个特征以构成特征子集S^(ki)。选择的标准是找到使得

M(f_i，f_j)最小的k_s个特征f_j，其中f_j∈f^(k)，f_j≠f_i。

·计算D_AUC。

D_AUC(f_i)＝E_AUC(S^(ki)U{f_i})-E_AUC(S^(ki))

(e)选择具有最小的D_AUC(fi)的f_i作为特征f_d；设置f^(k)＝f^(k)-{f_d}；

(f)k＝k-1；回到(c)。

用于前向选择的近似算法是类似的，也参考图7进行说明：

(a)令f^(k)为空，k为零。

M(f_i，f_j)＝E_AUC({f_i，f_j})-E_AUC({f_j})

(c)如果k＝K，则输出f^(k)。

(d)对于f_i∈f^(k)(i＝1，k)

·从f^(k)中选择k_s个特征以构成特征子集S^(ki)。选择的标准是找到使得M(f_i，f_j)最小的k_s个特征f_j，其中f_j∈f^(k)，f_j≠f_i。

·计算D_AUC。

D_AUC(f_i)＝E_AUC(S^(ki)U{f_i})-E_AUC(S^(ki))

(e)选择具有最大的D_AUC(f_i)的f_i作为特征f_s；f^(k)＝f^(k)U{f_d}；

(f)k＝k+1；回到(c)。

确定合适的k_s值与几个因素有关，如特征相互作用的程度和训练数据集的大小。实践中，当特征之间的相互作用不强并且训练数据集有限时，k_s不应当很大。例如，发现k_s＝{1，2，3}产生良好的结果，因此优选k_s＝3。有的情况下，优选k_s＝4或者5。如果训练数据有限，则k_s的选择代表近似的准确性和过拟合的风险之间的折衷。

应当理解，根据上述实施例的算法可以用于针对任意种类的合适的分类器选择输入特征。所述特征可以与用于进行分类的一个或多个传感器或者传感器网络的输出直接相关，例如，可以使用传感器信号的时间样本作为特征集。可选地，所述特征可以是从传感器信号得出的度量。虽然参考在家庭护理监护中的应用描述了本发明的实施例，但是对于本领域技术人员，本发明显然可以应用于需要选择输入特征的任何种类的分类问题。

现在参考图8说明所应用的上述算法的具体示例，图8示出在身体的各个位置附着有一组加速度传感器46a～46g的人体44。分类器用于根据人体上的加速度传感器来推断人体的姿势或者活动。

传感器46a～46g检测身体在传感器位置的加速度，包括由于重力产生的恒定加速度。每一个传感器测量沿三个正交轴的加速度，因此，可以根据传感器信号的恒定分量得出传感器相对于重力的朝向，以及根据加速度信号随着时间的变化得出关于人体运动的信息。

如图8所示，传感器的位置遍布身体(每个肩膀、肘、腕、膝盖和踝各一个)，给出总共36个通道或者特征(每个传感器3个)发送到具有充分的处理能力的中央处理器。

上述算法可以用于找到最佳地分辨所关注的姿势和运动的原因的那些传感器。为此，如以上以关于输入特征的一般形式所描述的，可以通过每次仅考虑特定传感器的信号通过试验来确定期望AUC。然后，将以这种方式获得的期望AUC用于选择传感器(或者其通道)作为分类器的输入。

家庭护理或者患者监护是另一个应用领域。在家庭护理或者患者监护中，特征可以包括从环境中的传感器(例如IR运动检测器)或者患者身上的传感器(例如加速度传感器)以及从例如呼吸率和/或量、血压、排汗或者血糖等生理参数的传感器得出的与活动相关的信号。

其它应用，例如在环境监控中，是传感器可以测量表示空气、水或者土壤质量的量的情况。上述算法还可应用于图像分类，其中，通过图像处理从数字图像中得出可以表示图像中的纹理朝向、图案或者颜色的特征。

上述算法的又一个应用是在药物开发或者诊断应用的设计中，其中希望确定哪些生物标记表示特定条件或者与有前途的药物目标有关。为此，收集给定条件或者治疗结果下生物标记的活动的数据集，然后使用上述算法进行分析以检测那些生物标记是真正提供信息的。

上述算法提供选择有用的生物标记的原则性方式。例如，生物标记的活动可以表示存在或者不存在与该生物标记相关联的目标分子。所述目标可以是特定核酸、肽、蛋白质、病毒或者抗原。

所描述的算法的又一个应用是在设计用于民意测验和调查的问卷。在这种情况下，可以使用这些算法从初步汇总或者研究中的问题集中选择提供信息的问题。然后，可以在后续的大规模汇总或者研究中使用所选择的问题，而使后续的汇总或者研究更集中。

上述实施例描述了一种用于选择特征作为分类器的输入的方法，对本领域技术人员很明显，除了以上具体提到的环境之外，还可以在大量环境中使用这种方法。上述具体实施例意为仅仅通过示例来说明所附权利要求所限定的本发明。

Claims

1.一种自动选择特征作为用于多个类的分类器的输入的方法，包括：针对分类器的每一个类计算接收器操作特性曲线下的面积的估算值；以及根据所述估算值选择所述特征。

2.根据权利要求1所述的方法，其中，根据期望曲线下面积计算所述估算值，所述期望曲线下面积是作为每个类的曲线下面积的先验概率加权和而计算的。

3.根据权利要求2所述的方法，其中，所述选择包括：从一个特征集开始，重复除去特征，选择被除去的所述特征使得将其除去导致所产生的子集的估算值的变化最小。

4.根据权利要求2所述的方法，其中，所述选择包括：从空的子集开始，重复将特征增加到所述子集，选择增加到子集的所述特征使得将其除去导致所产生的子集的估算值的变化最大。

5.根据权利要求3或4所述的方法，其中，针对所述子集的每一个特征，通过考虑该特征和其余特征的选择，估算所述变化。

6.根据权利要求5所述的方法，其中，计算所述其余特征的选集和所述特征的期望曲线下面积的估算值与所述其余特征的选择的期望曲线下面积的估算值的差，以作为所述变化。

7.根据权利要求5或6所述的方法，其中，所述方法包括：计算所述特征和所述子集中每个其余特征的相应微分度量，并挑选预定数量的具有最小相应微分度量的其余特征用于所述选择。

8.根据权利要求7所述的方法，其中，所述相应微分度量是所述特征的期望曲线下面积的估算值与所述特征和相应的其余特征的期望曲线下面积的估算值的差。

9.根据权利要求7或者8所述的方法，其中，在选择任意特征之前，针对集合中的所有特征计算所述微分度量。

10.根据权利要求3～9中的任一项所述的方法，其中，将特征增加到所述子集，或者从所述子集中除去特征，直到所述子集包括预定数量的特征。

11.根据权利要求3～9中的任一项所述的方法，其中，将特征增加到所述子集，或者从所述子集中除去特征，直到估算值达到希望的水平。

12.根据前述权利要求中的任意一项所述的方法，其中，从一个或多个传感器的一个或多个通道得出一个或多个特征。

13.根据权利要求12所述的方法，其中，所述传感器包括测量表示空气、水或者土壤质量的量的环境传感器。

14.根据权利要求1～11中的任一项所述的方法，其中，通过图像处理从数字图像得出一个或多个特征。

15.根据权利要求14所述的方法，其中所得出的特征表示图像中的纹理朝向、图案或者颜色。

16.根据权利要求1～11中的任一项所述的方法，其中，一个或多个特征表示生物标记的活动。

17.根据权利要求16所述的方法，其中，所述生物标记的活动表示存在或不存在与所述生物标记相关联的目标。

18.根据权利要求17所述的方法，其中，所述目标是核酸、肽、蛋白质、病毒或者抗原。

19.根据权利要求1～11中的任一项所述的方法，其中，所述特征包括民意测验或者调查中的问题。

20.一种在环境中定义多个传感器的传感器网络的方法，所述方法包括：获取与所述传感器相对应的特征的数据集；以及根据权利要求1～19中的任一项所述的方法选择特征作为分类器的输入。

21.根据权利要求20所述的方法，包括：从所述环境中去除与没有被选择的特征相对应的传感器。

22.一种使用根据权利要求20或21所述的方法定义的传感器网络。

23.一种包括根据权利要求22所述的传感器网络的家庭护理或者患者监护环境。

24.一种包括根据权利要求22所述的传感器网络的身体传感器网络。

25.一种计算机系统，其被设计为实现根据权利要求1～21中的任一项所述的方法。

26.一种计算机程序，包括代码指令，在计算机上运行时，所述代码指令实现根据权利要求1～21中的任一项所述的方法。

27.一种计算机可读介质或者数据流，其携带有根据权利要求26所述的计算机程序。