CN103761426A - 一种在高维数据中快速识别特征组合的方法及系统 - Google Patents

一种在高维数据中快速识别特征组合的方法及系统 Download PDF

Info

Publication number
CN103761426A
CN103761426A CN201410001461.0A CN201410001461A CN103761426A CN 103761426 A CN103761426 A CN 103761426A CN 201410001461 A CN201410001461 A CN 201410001461A CN 103761426 A CN103761426 A CN 103761426A
Authority
CN
China
Prior art keywords
feature
model
combination
data
feature combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410001461.0A
Other languages
English (en)
Other versions
CN103761426B (zh
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Mathematics and Systems Science of CAS
Original Assignee
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Mathematics and Systems Science of CAS filed Critical Academy of Mathematics and Systems Science of CAS
Priority to CN201410001461.0A priority Critical patent/CN103761426B/zh
Publication of CN103761426A publication Critical patent/CN103761426A/zh
Application granted granted Critical
Publication of CN103761426B publication Critical patent/CN103761426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在高维数据中快速识别特征组合的方法及系统。该方法及系统一方面最小化由留一法度量的交叉验证分类误差、同时最小化选择特征的个数,最后建模实现高维数据中特征组合的快速识别,为高维数据的统计分析提供了一个快速的解决办法,在数据挖掘、机器学习、人工智能、生物医学等领域有广泛的应用前景。

Description

一种在高维数据中快速识别特征组合的方法及系统
技术领域
本发明属于网络信息技术领域,涉及一种在高维数据中快速识别特征组合的方法及系统。
背景技术
大数据时代的到来呼唤数据建模和分析的研究,例如基于大数据的生物标记物的健康诊断是一个重要的研究热点,有着广阔的应用前景。我们注意到,许多学科领域的科学家们开始日益重视并依赖计算机方法及数学建模作为辅助的研究手段。帮助分析海量的科研数据,探究人的形象思维难以企及的高维数据空间中隐藏的规律,并由此催生出一系列新的交叉学科和研究方向,例如:数值计算,数据挖掘,生物信息学,计算金融,计算化学,以及计算统计学理论研究等。这些研究方向所面临的共同挑战就是如何正确分析和解读数据中包含的有用信息,从而为研究者提供传统观测手段所无法得到的判据和模型。其中一个突出的热点就是统计机器学习中的特征选择方法研究(刘峤,秦志光,罗旭成,程红蓉.统计机器学习中的特征选择方法综述,2009中国计算机大会论文集)。
特征是一个抽象的概念,数学中可以表示为向量中的元素,应用中可以是研究和测量对象的一个属性。例如在生物医学应用中,特征可以是生物标记物。生物标记物是指能将机体的生理和病理状态区分开来的生物分子。例如肿瘤标志物(Tumor Marker)是反映肿瘤存在的化学类物质。它们或不存在于正常成人组织而仅见于胚胎组织,或在肿瘤组织中的含量大大超过在正常组织里的含量,它们的存在或量变可以提示肿瘤的性质,借以了解肿瘤的组织发生、细胞分化、细胞功能,以帮助肿瘤的诊断、分类、预后判断以及治疗指导。
特征选择方法的研究历史可以追溯到70年代。从1973年Hirotsugu Akaike首次将信息论有关原理与最大似然法相结合,提出Akaike信息准则(AIC,Akaike Information Criterion),并成功运用于统计模型的选择开始,特征选择研究在统计模式识别,机器学习,数据挖掘等领域取得了长足的进展,其研究成果也已广泛应用于文本分类,基因组分析,图像提取,入侵检测等实际工作中。近年来学术界关于特征选择的研究热点逐渐转向了对“高维特征空间,小样本数据”情况的研究。其深刻原因是由于信息技术的发展对传统的数据分析技术提出了严峻的挑战。例如,在计算系统生物学领域,实验中科学家们能够获得的正反样本总数通常不超过100,而待选择的基因表达变量的数量则通常在6,000到30,000这个数量级,是典型的“大特征,小样本”问题。通过采用适当的特征选择方法对数据进行预处理,则可以实现在可容忍的信息损失前提下,将特征的维数降低到数百乃至数十,这样的结果也更易于分析和解释。
在特征选择研究领域,通常认为有四种设计模式,分别为Filter,Wrapper,Hybrid和Embeded。其中,Filter和Wrapper的历史比较悠久,也是最易于理解和得到广泛实际应用的两种设计模式,而Hybrid和Embeded方法则是近年来新发展起来的特征选择算法设计模式,目的是克服前述算法中存在的不足,结合二者的长处,可探索新的特征选择算法设计模式。
特征选择的优势但同时也是难点在于特征的组合效应。例如通过全自动生化分析仪可以测量到大量病人和健康人群的血清中的蛋白或者代谢小分子的浓度数据,一个直接的应用就是构建特征选择模型,来对比健康人群和病人的不同,找到明显差异的蛋白或者代谢小分子,作为生物标记物,并进一步基于他们对新的样本和测量数据进行健康评估或者诊断。一般来说,这对单个分子而言,可以通过比较该分子在健康和病人人群值的差异,计算差异倍数,并作严格的统计分析,可以得到有区分能力的单个标记物。但是单个标记物在预测的稳定性、精度等方面存在不足,急需研究新的方法来使用两个或更多种标记物的测量结果来改进检查中的诊断问题。当然一种十分简单但通常仍然很有效的方法就是直接对有预测能力的单个分子标记物进行叠加,即如果样品对被检标记物的至少一种呈阳性,则认为是阳性结果。但是,对于复杂疾病而言,更为重要的、更为关心的是对标记物之间的非线性组合的发现,及组合中单个标记物的预测能力都很弱,但是组合之后却有很好、很稳定的预测能力。
特征的组合可以通过数学建模的办法来识别。海量的高维数据分析与建模对数学方法带来了极大的挑战。构建将数据维数降低、利于进一步处理、可视化和理解信息的数学模型,已成为各科学领域面对的一个共同问题。特别在生物医学交叉研究中,高通量测序、芯片等实验手段的快速发展产生了海量的高维数据,对这些数据进行高效的、保留较强生物解释性的降维是计算生物学研究的核心问题。该抽象为一个根据一定的评估准则最优地从初始高维特征集合中选出低维特征集合的过程,作为一个困难问题长期存在(Isabelle Guyon and AndréElisseeff.2003.An introduction to variable and feature selection.J.Mach.Learn.Res.3(March2003),1157-1182.)。现有方法难以胜任高维稀疏模型建模的要求,一方面是因为这些传统方法中包含对特征集合的组合优化问题,而在超高维空间穷举搜索最有特征组合的问题已经被证明是NP难问题,由于搜索计算的时问开销随特征空问维度呈指数增长,所以在高维特征空间中运用这些传统特征选择方法在计算上是不可行的。
目前现有技术尚存在以下不足:
(1)在高维特征空(特别是当特征维数远大于样本数的情况下),特征选择在理论和实践都缺乏一个十分好的对最优特征子集的评价标准。
(2)在超高维空间穷举搜索最有特征组合的问题已经被证明是NP难问题,由于搜索计算的时间开销随特征空问维度呈指数爆炸性增长,所以在高维特征空间中运用这些传统特征选择方法在计算上是不可行的。
(3)目前的方法在数据是高维时,倾向于选出过多的特征,不能去除高度相关的、冗余的特征,不能发现特征之间的非线性的组合效应。
(4)除此之外,现有的方法将分类和特征选择割裂进行处理,未能实现同时最优化。
发明内容
针对上述现有技术的不足,本发明提供了一种在高维数据中快速识别特征组合的方法及系统。该方法及系统一方面最小化由留一法度量的交叉验证分类误差、同时最小化选择特征的个数,最后建模实现高维数据中特征组合的快速识别,为高维数据的统计分析提供了一个快速的解决办法,在数据挖掘、机器学习、人工智能、生物医学等领域有广泛的应用前景。
为了实现上述目的,本发明采用以下技术方案:
一种在高维数据中快速识别特征组合的方法,包括以下步骤:
1)获取样本数据;
2)根据获取的样本数据,构建特征组合识别的最优化模型,所述模型的优化目标为分类精度最大,同时选择到特征的个数最少;
3)逐个分析单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序;
4)将具有预测能力的特征输入到特征组合识别的最优化模型,识别出最优的特征组合。
进一步地,步骤1)中,所述预处理包括过滤无预测能力的特征、去噪声、剔除异常数据、正规化、中心化等。
进一步地,步骤2)中,通过最近中心分类方法对样本数据进行分类并采用留一法交叉验证分类精度;通过奥卡姆剃刀准则最小化选择到特征的个数。
进一步地,步骤2)中还包括对特征组合识别的最优化模型进行标定,即利用一些未用到训练中的数据的预测效能,来确定模型的最优参数和预测阈值,这是建模的一部分。
进一步地,步骤2)中,所述特征组合识别的最优化模型为混合整数规划模型,具体为:
min x j , γ i Σ i = 1 m γ i + λ Σ j = 1 n x j
s.t.
&Sigma; j = 1 n | ( s ij - &Sigma; t &NotEqual; i , s t &Element; I a s tj ) | x j + &epsiv; - &gamma; i < &Sigma; j = 1 n | ( s ij - &Sigma; s t &NotElement; I a s tj ) | x j , for S i &Element; I a
xj∈{0,1}
γi≥0
a∈{1,2}
其中:矩阵中的元素sij代表了第i个样本中第j个特征的浓度;Si代表样本i,i=1,2,…,m;j=1,2,…,n,整数变量xj为第j个特征是否被选到最优的特征组合中,如果xj=1,则特征j被选入,否则将不被选入;ε为常数,ε取值为正的充分小的数,其物理意义是精度,a是类别的标签,Ia代表类别a中所有样本的集合,γi是模型引入的松弛变量,用来对样本i的分类误差的允许程度,目标
Figure BDA0000452397060000043
来使得最优的特征组合中特征的个数最少,
Figure BDA0000452397060000044
代表总的分类误差,这个作为目标函数,需要在最优化的过程中取得最小值,这时得到的最优解对样本具有最好的分类精度。在标定过程中,我们通过测试数据来确定参数λ的最优值。
进一步地,步骤3)中,逐个分析单个特征的预测能力包括:分别计算单个特征预测能力的ROC曲线下面积,根据这些计算结果绘制单个特征的火山图,并对单个特征的预测能力计算得到一个量化的数值。
进一步地,步骤3)中,根据上述量化的数值对所有特征进行排序,还包括对排序靠后的没有预测能力的单个特征进行删除,是对预处理后保留的特征的进一步过滤。
进一步地,步骤4)中,固定特征个数为k来求解多次模型,这样每次可以得到特征数为k的最优的特征组合,将k从1逐渐增长,与此同时记录分类精度的变化,当分类精度得到最大的时候,得到的最优解就是最终模型需要输出的最优的特征组合。具体如下:
a)当问题规模较小时(样本数据特征维度<100),当k=1时求解模型,得到的最优解与单个特征的预测能力进行对比;进一步当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较;更进一步当k>4时,求解模型,对于每个k得到的特征组合,利用支持向量机等其他分类器进行精度评估;当问题的规模很大时(样本数据特征维度>100),直接求解松弛的线性规划模型得到最优特征组合;
b)比较当k变化时预测精度的变化趋势,识别最优的特征组合。
一种在高维数据中快速识别特征组合的系统,包括:
数据预处理模块,用于对样本数据进行预处理;
模型构建模块,用于构建特征组合识别的最优化模型;
模型标定模块,用于对特征组合识别的最优化模型进行标定,确定模型参数和预测阈值;
识别模块,用于将具有预测能力的特征输入特征组合识别的最优化模型,得到具有最少特征数目的最优特征组合,实现在最大的分类精度下实现样本数据的最优划分。
本发明提供了一种在高维数据中快速识别特征组合的方法及系统,包括高维数据中从数据获取、建模、到特征组合识别的方法流程和系统。
本发明在高维数据中快速识别特征组合的方法及系统已经经过初步的试验验证。在结肠癌的早期诊断的特征(生物标记物)组合识别的试验结果很好。分析癌症病人和正常人两个群体的血清生化数据,针对样本特异性导致的强非线性,能够选出非冗余的关键蛋白作为生物标记物组合,取得了很高的分类精度,而且特征组合的识别时间比传统方法快了近1000倍,证明了该快速识别系统的可行性和优越性。
附图说明
图1是本发明针对高维数据的特征组合的快速识别系统结构图。
图2是本发明构建特征组合识别最优化模型的流程图。
图3是本发明快速识别特征组合的方法流程图。
图4是本发明特征组合快速识别方法与传统方法识别时间的比较。
具体实施方式
本发明针对高维数据的特征组合快速识别系统,如图1所示。该系统包括四个模块:
数据预处理模块,对原始数据进行分析,预处理并分组,构造训练和验证数据集。
模型构建模块,用于构建特征组合识别的最优化模型;
模型标定模块,用于对特征组合识别的最优化模型进行标定,确定模型参数和预测阈值;
识别模块,用于将具有预测能力的特征输入特征组合识别的最优化模型,得到具有最少特征数目的最优特征组合,该特征组合能够实现在最大的分类精度下实现对照组和实验组样本的最优划分。
下面我们对其中三个模块的功能进行重点阐述。
(1)数据预处理模块
对测量得到大量对照组和实验组样本的属性数据进行预处理,剔除异常数据。将这些数据分为三组:
训练组:包括1/3的对照组和实验组样本,用于数学建模,特征组合的选择。
标定组:包括1/3的对照组和实验组样本,用于模型标定,确定模型参数和预测阈值。
测试组:包括1/3的对照组和实验组样本,用于模型的验证,与其他方法比较。
(2)模型构建模块
从最优化方法论的角度入手探求特征选择的确定性模型和算法,发展了基于数学规划的高维数据降维的方法论框架。建模的具体流程图如图2所示。具体地,提出同时最大化数据分类能力和最小化特征数目的多目标优化模型,进一步将该问题转化为单目标优化,在特征数目较小时,可直接求解规划得到最优解。当特征数目较大,计算变得困难时,可松弛优化变量用线性规划来近似整数规划,为本质为NP难的组合优化问题设计了高效的求解算法。
具体而言,分为三个步骤:
I构建特征选择的模型;
II求解模型并得到最优特征组合;
III基于特征组合对的预测精度进行测算。
(3)模型标定模块
特征组合的识别以及基于该特征组合的精度评估,是针对训练数据的,为了保证模型的推广性,同时赋予精度实际意义,需要将模型进行标定,确定模型参数和预测阈值。具体分为三个步骤:
I对标定组中的样本进行估打分并按照分数排序;
II对于选定的阈值,计算对应的阳性预测率;
III根据实际应用估算适合的阳性预测率,确定最优的模型参数和阈值。
本发明快速识别特征组合的方法如图3所示,本发明所提出的快速特征组合的快速识别方法分为几个主要步骤,下面针对数据获取,建模和模型求解、模型标定、测试进行详细阐述。
(a)数据获取和处理
对大量对照组和实验组样本的测量数据进行数据的预处理,包括过滤无预测能力特征、去噪声、剔除异常数据、正规化、中心化等。
(b)特征组合识别的最优化建模
本发明构建最优特征组合识别的最优化模型的流程图如图2所示,建模的过程为最近中心分类器构建,特征组合识别的最优化模型,确定最优组合三个步骤。
特征组合识别的主要目的是寻找一组特征的组合,能够最优地将实验组和对照组的样本区分开来。这样我们可以自然地引入最优化的思想来讲这个问题描述为一个有约束的最优化问题。如图2所示,我们将引入两组变量。一组变量是针对测量的特征,我们引入一个取值为0,1的整数变量来表征给定特征是否被选入最优的组合。如果取值为1,则选中该特征,如果取值为0,则不选取该特征。类似的,对于每个样本,也引入一个大于等于0的连续变量来表征该样本是否被正确的识别为实验或者对照组,即分类的误差。假设取值为0,则该样本可以被正确分类,如果大于0,则没有被正确分类。
当最优的特征组合中的特征个数是固定的,那么我们的目标函数为最小化分类误差,即在所有可能的组合中寻找分类误差最小的组合。为了定量化分类误差,我们选择了如图2所示的最近中心分类方法。该分类方法的思想很简单,即对于新的样本,计算其与对照和实验人群的中心的距离,哪个距离小则新样本被划分到哪类。留一法(Leave One Out)作为一种特殊的交叉验证,在我们的模型中采用作为衡量分类精度的准则。它对训练集里的所有样本,每次只抽取一个作为测试样本。留一法计算得到的误差是推广误差的几乎无偏估计。
但在实际情况中,我们是无法知道最优特征组合中特征的个数的,所以我们自然采用奥卡姆剃刀准则,来最小化选择到特征的个数。这样我们有两个目标需要优化,这对应一个多目标的优化问题。通过对两个目标引入一个权衡的参数,可以利用ε方法将多目标优化问题转化为单目标优化。
将这两个目标合并,最终我们可以构建一个混合整数规划模型,求解该模型,我们可以得到两组变量的最优值,分别告诉我们特定的特征是否被选择到最优的特征组合中,特定的样本是否被正确的分类。这样可以得到最少特征数目的最优的组合,该组合在给定的精度准则下实现对照组和实验组样本的最优划分。
考虑一个基于实验/对照数据集矩阵Smn,其刻画了n个特征在m个样本中的取值。特别地矩阵中的元素sij代表了第i个样本中第j个特征的浓度,我们用Si代表样本i,i=1,2,…,m;j=1,2,…,n.如前所述,我们定义整数变量xj,其意义为第j个特征是否被选到最优的特征组合中。如果xj=1,则特征j被选入。否则将不被选入。有了该变量的定义,我们的特征的最优化模型可以通过求解如下的多目标优化模型表出:
Figure BDA0000452397060000081
这对应一个多目标的优化问题。通过对两个目标引入一个权衡的参数,可以利用方法将多目标优化问题转化为单目标优化。
min x j , &gamma; i &Sigma; i = 1 m &gamma; i + &lambda; &Sigma; j = 1 n x j
s.t.
&Sigma; j = 1 n | ( s ij - &Sigma; t &NotEqual; i , s t &Element; I a s tj ) | x j + &epsiv; - &gamma; i < &Sigma; j = 1 n | ( s ij - &Sigma; s t &NotElement; I a s tj ) | x j , for S i &Element; I a
xj∈{0,1}
γi≥0
a∈{1,2}
这里ε和k为常数,作为模型的参数事先给定.ε取值为正的充分小的数,其物理意义是精度。a是类别的标签,对于疾病和健康人群这样的二分类来说,它的取值为1或者2,分别代表对照和实验样本。Ia代表类别a中所有样本的集合。γi是模型引入的松弛变量,用来对样本i的分类误差的允许程度。这里我们利用目标来使得最优的特征组合中特征的个数最少。代表总的分类误差,这个作为目标函数,需要在最优化的过程中取得最小值,从而对应的高最好的分类精度。
当数据为高维时,我们将上述模型中的整数变量松弛,得到如下的线性规划模型,可以用内点法等快速算法进行求解。
min x j , &gamma; i &Sigma; i = 1 m &gamma; i + &lambda; &Sigma; j = 1 n x j
s.t.
&Sigma; j = 1 n | ( s ij - &Sigma; t &NotEqual; i , s t &Element; I a s tj ) | x j + &epsiv; - &gamma; i < &Sigma; j = 1 n | ( s ij - &Sigma; s t &NotElement; I a s tj ) | x j , for S i &Element; I a
xj∈[0,1]
γi≥0
a∈{1,2}
总之,通过以上模型,我们希望最小化分类的误差,或者是最大化由留一法来度量的交叉验证精度,同时满足最终的最优特征组合中的特征数最少。在实际计算中,我们可以固定特征个数为k来求解多次模型,这样每次可以得到特征数为k的最优的特征组合。我们可以将k从1逐渐增长,于此同时记录分类精度的变化,当分类精度得到最大的时候,得到的最优解就是最终模型需要输出的最优的特征组合。
为了求解上述的混合整数规划模型(MILP)和线性规划,我们可以使用商业软件CPLEX。在我们的测试中,我们使用了MATLAB7.10的环境,普通的台式计算机(2.00GHZ Inter Core2Due CPU和2GB内存)。
对于特征数目小于1000的数据,可以很快得到特征识别结果。我们对一个临床数据集上与基于支持向量机的枚举办法进行了比较,发现在选择4个特征组合时,我们的快速识别系统要比一般方法快1000倍。当选择大于4个特征的组合时,一般方法不能得到特征识别结果,而我们的快速识别系统可以很快得到结果。到组合特征个数增加时,我们的计算量随问题规模线性增长的系统还是可以很快给出近似最优解,识别出最优的特征组合。
(c)最优特征组合识别的具体流程
如图3所示,我们给出了最优特征组合识别的具体流程图。具体地分为如下几个步骤:
1.对数据的预处理,这里包括数据的标准化,无量纲化,以及去除异常数据点。
2.对于单个特征进行逐个分析。对每个特征,分别计算单个特征预测能力的ROC曲线下面积。可以计算单个特征在实验和对照组里浓度的变化倍数,以及衡量相对变化的t检验,Kolmogorov–Smirnov检验。根据这些计算结果绘制单个特征的火山图,并对单个特征的预测能力进行总的评估。
3.根据单个特征的预测能力,对所有特征进行排序,包括删除一些没有预测能力的特征。
4.对有预测能力的特征,将数据整理为指定格式,输入到最优标特征组合识别的最优化模型中。
5.当问题规模较小时,当k=1时求解模型,得到的最优解与单个特征的预测能力进行对比。
6.当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较。
7.当k>4时,求解模型,对于每个k得到的特征组合,利用支持向量机等其他分类器进行精度评估。
8.当问题的规模很大时,直接求解松弛的线性规划得到最优特征组合。
9.比较当k变化是预测精度的变化趋势,识别最优的特征组合。
10.输出最优的特征组合,并输出其对应的分类精度。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,或者相关参数的调节和选取。所有这些改进和变换,及参数相关的调节和选取都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种在高维数据中快速识别特征组合的方法,包括以下步骤:
1)获取样本数据;
2)根据获取的样本数据,构建特征组合识别的最优化模型,所述模型的优化目标为分类精度最大,同时选择到特征的个数最少;
3)逐个分析单个特征的预测能力,并根据单个特征的预测能力对所有特征进行排序;
4)将具有预测能力的特征输入到特征组合识别的最优化模型,识别出最优的特征组合。
2.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,对步骤1)中的样本进行预处理,所述预处理包括过滤无预测能力的特征、去噪声、剔除异常数据、正规化、中心化。
3.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤2)中,构建特征组合识别的最优化模型的步骤包括:通过最近中心分类方法对样本数据进行分类并采用留一法交叉验证分类精度;通过奥卡姆剃刀准则最小化选择到特征的个数。
4.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤2)中还包括对特征组合识别的最优化模型进行标定,确定模型参数和预测阈值。
5.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤2)中,所述特征组合识别的最优化模型为混合整数规划模型,具体为:
min x j , &gamma; i &Sigma; i = 1 m &gamma; i + &lambda; &Sigma; j = 1 n x j
s.t.
&Sigma; j = 1 n | ( s ij - &Sigma; t &NotEqual; i , s t &Element; I a s tj ) | x j + &epsiv; - &gamma; i < &Sigma; j = 1 n | ( s ij - &Sigma; s t &NotElement; I a s tj ) | x j , for S i &Element; I a
xj∈{0,1}
γi≥0
a∈{1,2}
其中:矩阵中的元素sij代表了第i个样本中第j个特征的浓度;Si代表样本i,i=1,2,…,m;j=1,2,…,n,整数变量xj为第j个特征是否被选到最优的特征组合中,如果xj=1,则特征j被选入,否则将不被选入;ε为常数,ε取值为正的充分小的数,其物理意义是精度,a是类别的标签,Ia代表类别a中所有样本的集合,γi是模型引入的松弛变量,用来对样本i的分类误差的允许程度,目标
Figure FDA0000452397050000021
来使得最优的特征组合中特征的个数最少,
Figure FDA0000452397050000022
代表总的分类误差,这个作为目标函数,需要在最优化的过程中取得最小值,从而对应的高最好的分类精度。
6.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤3)中,逐个分析单个特征的预测能力包括:分别计算单个特征预测能力的ROC曲线下面积,根据这些计算结果绘制单个特征的火山图,并对单个特征的预测能力计算得到一个量化的数值。
7.如权利要求6所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤3)中,根据所述的量化的数值对所有特征进行排序,还包括对排序靠后的没有预测能力的单个特征进行删除。
8.如权利要求1所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤4)中,固定特征个数为k来求解模型,可以得到特征数为k的最优的特征组合,将k从1逐渐增长,同时记录分类精度的变化,当分类精度得到最大的时候,得到模型输出的最优的特征组合。
9.如权利要求8所述的在高维数据中快速识别特征组合的方法,其特征在于,步骤4)具体包括以下步骤:
a)当样本数据特征维度<100时,当k=1时求解模型,得到的最优解与单个特征的预测能力进行对比;进一步当k=2,3时求解模型,得到的最优解与基于支持向量机等其他分类器的穷举法得到的结果进行比较;更进一步当k>4时,求解模型,对于每个k得到的特征组合,利用支持向量机等其他分类器进行精度评估;当样本数据特征维度>100时,直接求解松弛的线性规划模型得到最优特征组合;
b)比较当k变化时预测精度的变化趋势,识别最优的特征组合。
10.一种在高维数据中快速识别特征组合的系统,包括:
数据预处理模块,用于对样本数据进行预处理,所述预处理包括过滤无预测能力的特征、去噪声、剔除异常数据、正规化、中心化;
模型构建模块,用于构建特征组合识别的最优化模型;
模型标定模块,用于对特征组合识别的最优化模型进行标定,确定模型参数和预测阈值;
识别模块,用于将具有预测能力的特征输入特征组合识别的最优化模型,得到具有最少特征数目的最优特征组合,在最大的分类精度下实现样本数据的最优划分。
CN201410001461.0A 2014-01-02 2014-01-02 一种在高维数据中快速识别特征组合的方法及系统 Active CN103761426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410001461.0A CN103761426B (zh) 2014-01-02 2014-01-02 一种在高维数据中快速识别特征组合的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410001461.0A CN103761426B (zh) 2014-01-02 2014-01-02 一种在高维数据中快速识别特征组合的方法及系统

Publications (2)

Publication Number Publication Date
CN103761426A true CN103761426A (zh) 2014-04-30
CN103761426B CN103761426B (zh) 2017-01-04

Family

ID=50528662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410001461.0A Active CN103761426B (zh) 2014-01-02 2014-01-02 一种在高维数据中快速识别特征组合的方法及系统

Country Status (1)

Country Link
CN (1) CN103761426B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318046A (zh) * 2014-08-18 2015-01-28 南京大学 增量式的高维数据转换为低维数据的系统及方法
CN104931255A (zh) * 2015-06-04 2015-09-23 中国航空工业集团公司上海航空测控技术研究所 一种用于评价齿轮箱故障特征参数优劣的方法
WO2018040561A1 (zh) * 2016-08-31 2018-03-08 华为技术有限公司 数据处理方法、装置及系统
CN108491423A (zh) * 2018-02-07 2018-09-04 北京奇艺世纪科技有限公司 一种排序方法及装置
CN110647915A (zh) * 2019-08-23 2020-01-03 米津锐 一种用于高维数据一致性分析的动态模式判断方法
CN110825769A (zh) * 2019-10-11 2020-02-21 苏宁金融科技(南京)有限公司 一种数据指标异常的查询方法和系统
CN112085593A (zh) * 2020-09-14 2020-12-15 天元大数据信用管理有限公司 一种中小企业信用数据挖掘方法
CN112527790A (zh) * 2020-12-24 2021-03-19 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
WO2022237865A1 (zh) * 2021-05-14 2022-11-17 华为技术有限公司 一种数据处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663417A (zh) * 2012-03-19 2012-09-12 河南工业大学 一种小样本数据模式识别的特征选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663417A (zh) * 2012-03-19 2012-09-12 河南工业大学 一种小样本数据模式识别的特征选择方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIUZHI YIN等: ""Feature selection for high-dimensional imbalanced data"", 《NEUROCOMPUTING》 *
YONG WANG等: ""Revealing metabolite biomarkers for acupuncture treatment by linear programming based feature selection"", 《BMC SYSTEMS BIOLOGY 2012》 *
ZHI-ZHONG WANG等: ""Texture Analysis and Classification With Linear Regression Model Based on Wavelet Transform"", 《IEEE TRANSACTION ON IMAGE PROCESSING》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318046A (zh) * 2014-08-18 2015-01-28 南京大学 增量式的高维数据转换为低维数据的系统及方法
CN104931255A (zh) * 2015-06-04 2015-09-23 中国航空工业集团公司上海航空测控技术研究所 一种用于评价齿轮箱故障特征参数优劣的方法
CN107784363B (zh) * 2016-08-31 2021-02-09 华为技术有限公司 数据处理方法、装置及系统
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
WO2018040561A1 (zh) * 2016-08-31 2018-03-08 华为技术有限公司 数据处理方法、装置及系统
CN108491423A (zh) * 2018-02-07 2018-09-04 北京奇艺世纪科技有限公司 一种排序方法及装置
CN108491423B (zh) * 2018-02-07 2020-09-01 北京奇艺世纪科技有限公司 一种排序方法及装置
CN110647915A (zh) * 2019-08-23 2020-01-03 米津锐 一种用于高维数据一致性分析的动态模式判断方法
CN110825769A (zh) * 2019-10-11 2020-02-21 苏宁金融科技(南京)有限公司 一种数据指标异常的查询方法和系统
CN112085593A (zh) * 2020-09-14 2020-12-15 天元大数据信用管理有限公司 一种中小企业信用数据挖掘方法
CN112085593B (zh) * 2020-09-14 2024-03-08 天元大数据信用管理有限公司 一种中小企业信用数据挖掘方法
CN112527790A (zh) * 2020-12-24 2021-03-19 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
CN112527790B (zh) * 2020-12-24 2023-06-02 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
WO2022237865A1 (zh) * 2021-05-14 2022-11-17 华为技术有限公司 一种数据处理方法及装置

Also Published As

Publication number Publication date
CN103761426B (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN103761426B (zh) 一种在高维数据中快速识别特征组合的方法及系统
Ghorbani et al. Comparing different resampling methods in predicting students’ performance using machine learning techniques
US20160070950A1 (en) Method and system for automatically assigning class labels to objects
CN101981446A (zh) 用于使用支持向量机分析流式细胞术数据的方法和系统
Mayasari Comparison of Support Vector Machine and Decision Tree in Predicting On-Time Graduation (Case Study: Universitas Pembangunan Panca Budi)
CN102509113B (zh) 一种脑瘤mib-1指数范围检测方法
Alok et al. Semi-supervised clustering for gene-expression data in multiobjective optimization framework
Al Azies et al. Comparison of kernel support vector machine (SVM) in classification of human development index (HDI)
Yang et al. Applying the Fisher score to identify Alzheimer’s disease-related genes
CN113658174B (zh) 基于深度学习和图像处理算法的微核组学图像检测方法
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
Alagukumar et al. Classification of microarray gene expression data using associative classification
Johnsson Structures in high-dimensional data: Intrinsic dimension and cluster analysis
Singh et al. Cancer detection using adaptive neural network
Torkey et al. Machine learning model for cancer diagnosis based on RNAseq microarray
CN103761451B (zh) 基于生物医学大数据的生物标记物组合识别方法和系统
CN111860591A (zh) 基于间隔自适应特征选择融合的宫颈细胞图像分类方法
Carter et al. Information preserving component analysis: Data projections for flow cytometry analysis
Abdelaal et al. SCHNEL: scalable clustering of high dimensional single-cell data
Zhang et al. Education data mining application for predicting students’ achievements of Portuguese using ensemble model
KR20100001177A (ko) 주성분 분석을 이용한 유전자 선택 알고리즘
Fang et al. An automatic immunofluorescence pattern classification framework for HEp-2 image based on supervised learning
CN105095689B (zh) 一种基于韦恩预测的电子鼻数据挖掘方法
CN106485286A (zh) 一种基于局部敏感判别的矩阵分类模型
Sharma et al. Regularization and variable selection with copula prior

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant