CN109493929A - 基于分组变量的低冗余特征选择方法 - Google Patents

基于分组变量的低冗余特征选择方法 Download PDF

Info

Publication number
CN109493929A
CN109493929A CN201811097768.XA CN201811097768A CN109493929A CN 109493929 A CN109493929 A CN 109493929A CN 201811097768 A CN201811097768 A CN 201811097768A CN 109493929 A CN109493929 A CN 109493929A
Authority
CN
China
Prior art keywords
feature
grouping
redundancy
data set
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811097768.XA
Other languages
English (en)
Other versions
CN109493929B (zh
Inventor
李建强
占小瑜
刘璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811097768.XA priority Critical patent/CN109493929B/zh
Publication of CN109493929A publication Critical patent/CN109493929A/zh
Application granted granted Critical
Publication of CN109493929B publication Critical patent/CN109493929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分组变量的低冗余特征选择方法,包括:对已知患病与否的电子病历数据进行处理,得到已知结果病历的二维特征数据集;利用k‑means等聚类方法构建所述病历的二维特征数据集的自动分组;提出去冗余分组特征选择方法的模型目标函数;对S3中提出的目标函数进行全局优化,构建出相应的疾病预测模型。本发明通过在进行特征选择时,将组冗余性考虑进去,能够从高维特征中选择出一种更具有代表性的低维特征,可以带来预测精度和速度的提升。

Description

基于分组变量的低冗余特征选择方法
技术领域
本发明涉及计算机领域,更具体地涉及一种基于分组变量的低冗余特征选择方法。
背景技术
在机器学习和数据挖掘中,特征(如一个人的年龄、身高、血压等信息)是训练数据集中的输入,对于训练模型很重要。在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:(1)特征个数越多,分析特征、训练模型所需的时间就越长;(2)特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。
特征选择算法在解决上述问题时起到了重要作用。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。
在特征选择中,大家最感兴趣的一个问题就是如何选择出一个合适的具有低冗余性的特征子集。在众多类型的特征选择算法中,最小冗余特征选择是一种经常被用于识别特征并缩小它们之间的相关性的算法。最小冗余特征指特征间相关度小即冗余度小。其经常与相关性特征选择算法成对使用,比如最小冗余最大相关性(MRMR)。
2005年由Peng H、Long F和Ding C发表的IEEE论文“Feature selection basedon mutual information:criteria ofmax-dependency,max-relevance,and min-redundancy”中,提出了基于空间搜索的最小冗余最大相关(Minimal RedundancyMaximalRelevance,MRMR)算法。最大相关就是指特征与类别相关度大,即特征能最大程度反映样本类别信息;最小冗余指特征间相关度小即冗余度小。MRMR方法使用互信息度量特征的相关性与冗余度,使用信息差和信息熵构建特征子集的搜索策略。此方法考虑的是每个特征与类别之间、每个特征与特征之间的互信息。
2012年由D.Luo、F.Wang、J.Sun、M.Markatou、J.Hu和S.Ebadollahi发表的SIAM论文“Sor:Scalable orthogonal regression fornon-redundant feature selection andits healthcare applications”中,提出了一种低冗余特征选择算法。此算法中得到的目标函数是目的就是要最小化此目标函数,以得到最优解,进而得到最优特征子集。其中,此目标函数中的第一项是预测误差项,第二项和第三项都是规范项,第三项就是用于最小化特征间冗余度的。但是,此算法是将所有的特征作为独立单元来思考的,并未将特征进行分组,没有考虑到将分组作为独立单元融入到算法中。
上面介绍的已有低冗余特征选择算法虽然都针对特征冗余性进行了去除冗余特征的处理,但是它们却并未将特征分组考虑进去,即只是将每个特征都作为独立单元来进行去除冗余特征的特征选择,而未将特征按照聚类算法进行分组而得到以分组作为独立单元的去除冗余的特征选择方法。
发明内容
为了解决上述技术问题,本发明提供了一种基于分组变量的低冗余特征选择方法,包括如下步骤:
步骤S1:对已知患病与否的电子病历数据进行处理,得到已知结果病历的二维特征数据集;
步骤S2:利用k-means等聚类方法构建所述病历的二维特征数据集的自动分组;
步骤S3:提出去冗余分组特征选择方法的目标函数;
步骤S4:对S3中提出的目标函数进行全局优化,选择相应特征子集,构建出优化后的疾病预测模型。
进一步,步骤S1中对电子病历进行处理,得到文本的特征数据集包括:
对电子病历进行处理,将每个病人的电子病历处理成为一条病人记录,每条病人记录di是由两种属性构成的,即di={xi,yi},其中xi={xi1,xi2,…,xiJ}表示该病人的J个属性,如身高、体重、是否有病史等,而yi={0,1}表示该病人是否患有该疾病的类别标签,如y1=0表示病人1未患有该疾病,y1=1表示病人1患有该疾病。从而,对于所有N个病人的电子病历就得到了N条病人记录,进而构成了二维数据集D={di},i=1,2,…,N。即:
电子病历的二维特征数据集的数据为二维坐标,一维坐标为病人的属性集合xi={xi1,xi2,…,xiJ},一维坐标为病人是否患有该疾病的类别标签yi={0,1}。
进一步,步骤S2中对步骤S1中处理得到的二维特征数据集进行的自动分组包括:
所述分组变量单元通过聚类算法k-means对全部特征进行自动分组,得到具有不同重要程度信息的特征分组。
首先指定需要分组的个数L,用pl表示每个分组l中特征的个数,利用k-means算法就可将特征矩阵X自动切分为L个小矩阵[x1,x2,...,xL],其中每个xl都对应于一组特征,是一个N*pl的矩阵;相应地,权重向量w被切分为[w1,w2,...,wL],每组wl的长度为pl。不同组间的信息具有不同的重要程度,而考虑进去组别信息,可以带来预测精度和速度的提升。
进一步,步骤S3在前面步骤的基础上提出去冗余分组特征选择方法的目标函数包括:
在嵌套式特征选择模型模型框架下,常见的学习模型会采用下列形式:
本发明提出的特征选择方法模型中包括分组变量单元,误差项设置单元,去冗余规范化单元和稀疏规范化单元;所述分组变量单元,通过聚类算法k-means对全部特征进行自动分组,得到不相交的多个特征分组;所述误差项设置单元,通过使用平方损失衡量模型对每个样本的预测值与真实标签之间的误差,得到模型的误差项;所述去冗余规范化单元,通过使用组冗余性规范化所述全部特征分组,去掉各组特征之间重复的部分;所述稀疏规范化单元,通过使用1-2范数规范化所述全部特征分组,得到模型参数的稀疏化表达。
在所述去冗余规范化单元引入新定义——组冗余性,即给定两组特征和它们对应的系数:xi:N*pi,wi:pi*1,xj:N*pj,wj:pj*1,这两组特征的组冗余性用Rij=((xiwi)T(xjwj))2表示,其中,当xiwi与xjwj完全相同时,Rij达到最大值,此时冗余性最大,而当xiwi与xjwj正交时,Rij达到最小值为0。
最终得到的模型目标函数为
进一步,步骤S4对步骤S3中提出的目标损失函数进行的优化包括:
先检查步骤S3中提出的模型目标函数中各项的凸性,由范数的特性得出第二项是凸的,而第三项并不总是凸的,所以利用李普希兹连续性分支定界方法对目标函数进行全局优化,得到最优解,从而得到最优特征子集w。
与现有算法相比,本发明具有以下优点:
本发明相对于现有的最小冗余特征选择方法,可以通过设置分组变量来选择低冗余特征,不同组间的信息具有不同的重要程度,使用组冗余性规范项可以去掉各组特征间重复的部分,带来预测精度和速度的提升。
附图说明
图1为本发明实施例基于分组变量的低冗余特征选择方法框图。
具体实施方式
下面结合附图与实施例对本发明做进一步的详细说明。附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅现实与本发明有关的构成。
下面给出本发明的一个实施例,本实施例提供了一种文本特征选择方法,包括以下步骤:
步骤S1:对已知患病与否的电子病历数据进行处理,得到已知结果病历的二维特征数据集;
步骤S2:利用k-means等聚类方法构建所述病历的二维特征数据集的自动分组;
步骤S3:提出去冗余分组特征选择方法的目标函数;
步骤S4:对S3中提出的目标函数进行全局优化,选择相应特征子集,构建出优化后的疾病预测模型。
具体的,所述步骤S1中对电子病历数据进行处理后得到的二维数据集为D={di},i=1,2,…,N,其中di是第i条病人记录,di由两种属性构成,即di={xi,yi},其中xi={xi1,xi2,…,xiJ}表示该病人的J个属性,而yi={0,1}表示该病人是否患有该疾病的类别标签,如y1=0表示病人1未患有该疾病,y1=1表示病人1患有该疾病。
具体的,所述步骤S2中利用k-means算法将特征矩阵X自动切分为L个小矩阵[x1,x2,...,xL],其中每个xl都对应于一组特征,是一个N*pl的矩阵,而pl表示分组l中的特征个数,相应地,权重向量w被切分为[w1,w2,...,wL],每组wl的长度为pl,每个wi对应于第i个特征的重要程度,不同组间的信息具有不同的重要程度。所以,选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征。
具体的,所述步骤S3中对所采用的特征选择模型框架中的每项进行具体设置,即在分组变量的基础上,误差项采用平方损失,规范项采用组冗余性和1-2范数,从而得到最终的目标函数,最后对所得最终目标函数进行利用李普希兹连续性分支界定方法的全局优化,得到最优特征子集。
在嵌套式特征选择模型模型框架下,常见的学习模型会采用下列形式:
minw(g(w)+λregularization(w)) (1)
误差项设置单元中对目标函数(1)中的预测误差项进行具体化,将g(w)取为平方损失,即:
去冗余规范化单元中,在分组变量的基础上,引入组冗余性来最小化特征冗余性,本方法首次给出组冗余性的定义。
定义:组冗余性
给定两组特征和它们对应的系数:xi:N*pi,wi:pi*1,xj:N*pj,wj:pj*1,这两组特征的组冗余性用Rij=((xiwi)T(xjwj))2表示,其中,当xiwi与xjwj完全相同时,Rij达到最大值,此时冗余性最大,而当xiwi与xjwj正交时,Rij达到最小值为0。
稀疏规范化单元中对去冗余规范化中得到的特征子集的规模进一步缩小,可以通过增加一个稀疏规范项,得到模型参数的稀疏化表达,引入如下的1-2范数规范项:
使用1-2范数带来的稀疏性是和分组有关的,即同在一组内的特征更可能同为0或者不为0。
将上述所得具体误差项与规范项整合到所采用框架中,得到最终的目标函数为:
其中最优值w对应每一维特征的重要程度,若wl=0,则这一维向量不被选入。λ和β则在具体实验中,经过多次调参得到。
具体的,所述步骤S4中通过使用利用李普希兹连续性的分支界定方法对所得目标函数进行全局优化,得到参数的最优解,从而得到最优特征子集。具体地,因为我们的目标函数并不总是凸的,所以使用利用李普希兹连续性的分支界定方法对所得目标函数进行全局优化,以得到全局最优解,从而可以得到最优特征子集。
首先检查最终目标函数(5)的凸性:
①检查目标函数(5)中第二项,即范数(4)的凸性:
范数函数有以下特征:
(a)f(x)≥0,f(0)=0
(b)f(θx)=|θ|f(x)
(c)f(x+y)≤f(x)+f(y) (6)
所以f(θx+(1-θ)y)≤θf(x)+(1-θ)f(y),θ∈(0,1) (7)
函数
②检查目标函数(5)中第三项,即组冗余性(3)的凸性:
通过计算函数
的二阶导数得到:
Hij=(ATD+BTC)2-4(BTD)(ATC) (9)
其中,A=xiwi,B=xivi,C=xjwj,D=xjvj。当且仅当(ATD)BT=(BTD)(ATC)时,二阶导数是非负的,即是凸的。因为目标函数中第三项是所以与(8)有相同的凸性。
综上可知,目标函数(5)并不总是凸的,所以不能使用凸优化方法对其进行优化,需要利用李普希兹连续性的分支界定方法对所得目标函数(5)进行全局优化,以得到全局最优解。
首先我们给出算法的引入想法。算法希望将初始可行域不断分割成小球,直到我们成功找到足够小的包含f(x),x∈D的球。由于我们能找到可行域D内任意球f(x)的下界,我们可以舍去不符合要求的小球,这些小球上的函数值下界比已知的全局最小值还要大,可以舍去。算法1描述了算法的流程。
算法1利用李普希兹函数的分支界定优化方法
输入:优化变量x∈Rn;目标函数f(x),x∈D;误差边界ε;初值xB
输出:最优解x*;
1:令k=0;
2:取B0为一个球心xB∈D且范围包含整个可行域D的球,令LB0={B0}为初始的集合;
3:令U0=β(B0)为minf(x)的初始上界,L0=α(B0)为minf(x)的初始下界;
4:迭代下列步骤:
5:从LBk中删去使得αB>Uk的球B∈LBK
6:选择能取到αB=Lk的球B∈LBK
7:将球B分割成3n个小球B1,......,首先去除其中与可行域完全无交集的球,记剩下的这一部分球组成的集合为Rk,令Lk+1={Lk/B}∪Rk
8:令Uk+1=β(Bk),Lk+1=α(Bk);
9:令k=k+1;
10:当Uk-Lk>ε时,终止;
11:返回x*=Lk作为最优解。
其中,上界β(B)的计算为:为了找到f在可行域D内最小值的一个上界,只需任取一个域内的可行点计算其值即可,即我们取作为上界;下界α(B)的计算为:我们取作为下界的计算,其中 给出了一个f(x),x∈D的非凸全局下界。
但是,需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
本发明相对于现有的最小冗余特征选择方法,可以通过设置分组变量来选择低冗余特征,不同组间的信息具有不同的重要程度,考虑进去组别信息,使用组冗余性规范项可以去掉各组特征间重复的部分,带来预测精度和速度的提升。

Claims (5)

1.一种基于分组变量的低冗余特征选择方法,其特征在于,包括如下步骤:
步骤S1:对已知患病与否的电子病历数据进行处理,得到已知结果病历的二维特征数据集;
步骤S2:利用k-means聚类方法构建所述病历的二维特征数据集的自动分组;
步骤S3:提出去冗余分组特征选择方法的模型目标函数;
步骤S4:对S3中提出的目标函数进行全局优化,选择相应特征子集,构建出优化后的疾病预测模型。
2.根据权利要求1所述的基于分组变量的低冗余特征选择方法,其特征在于,
所述步骤S1中对已知患病与否的电子病历数据进行处理,得到的已知结果病例的二维特征数据集包括:
对电子病历进行处理,将每个病人的电子病历处理成为一条病人记录,每条病人记录di是由两种属性构成的,即di={xi,yi},其中xi={xi1,xi2,...,xiJ}表示该病人的J个属性,如身高、体重、是否有病史,而yi={0,1}表示该病人是否患有该疾病的类别标签,如y1=0表示病人1未患有该疾病,y1=1表示病人1患有该疾病,对于所有N个病人的电子病历就得到了N条病人记录,进而构成了二维数据集D={di},i=1,2,...,N。
3.根据权利要求2所述的基于分组变量的低冗余特征选择方法,其特征在于,
所述步骤S2中对二维数据集进行自动分组,得到的数据集分组包括:
利用步骤S2中的k-means聚类方法对数据集进行分组,分组后的二维数据集,即G个数据集分组,每个数据集分组为 其中分组个数G可以通过实验进行调优。
4.根据权利要求3所述的基于分组变量的低冗余特征选择方法,其特征在于,
所述步骤S3中在特征选择的设置中,旨在找到一个J*1的权重向量w,其中,每个wi对应于第i个特征的重要程度;选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征,所采用的特征选择模型框架的形式为:
minw(g(w)+λregularization(w)) (1)其中,假设预测函数为g,w即为函数的参数,g(w)代表了模型的预测误差,regularization(w)代表了模型中参数的规范化函数,对目标函数(1)进行优化后得到的最优解即为所需的w,
在将全部特征进行分组的基础上,对所采用的特征选择模型框架中的每一项进行具体设置,即误差项采用平方损失,规范项采用组冗余性和1-2范数,从而得到最终的目标函数为:
5.根据权利要求4所述的基于分组变量的低冗余特征选择方法,其特征在于,
利用利普希兹连续性和凸函数特性对步骤3中的目标函数进行优化,得出最优解集w,剔除不相关或冗余的特征,选出真正相关的特征,构建出相应疾病预测模型。
CN201811097768.XA 2018-09-20 2018-09-20 基于分组变量的低冗余特征选择方法 Active CN109493929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811097768.XA CN109493929B (zh) 2018-09-20 2018-09-20 基于分组变量的低冗余特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811097768.XA CN109493929B (zh) 2018-09-20 2018-09-20 基于分组变量的低冗余特征选择方法

Publications (2)

Publication Number Publication Date
CN109493929A true CN109493929A (zh) 2019-03-19
CN109493929B CN109493929B (zh) 2022-03-15

Family

ID=65690615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811097768.XA Active CN109493929B (zh) 2018-09-20 2018-09-20 基于分组变量的低冗余特征选择方法

Country Status (1)

Country Link
CN (1) CN109493929B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197706A (zh) * 2019-04-26 2019-09-03 深圳市宁远科技股份有限公司 一种基于sbs的层次化特征选择方法、系统及应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105607125A (zh) * 2016-01-15 2016-05-25 吉林大学 基于块匹配算法和奇异值分解的地震资料噪声压制方法
CN106156484A (zh) * 2016-06-08 2016-11-23 中国科学院自动化研究所 基于磁共振影像的脑疾病个体化预测方法和系统
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107577605A (zh) * 2017-09-04 2018-01-12 南京航空航天大学 一种面向软件缺陷预测的特征聚类选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105607125A (zh) * 2016-01-15 2016-05-25 吉林大学 基于块匹配算法和奇异值分解的地震资料噪声压制方法
CN106156484A (zh) * 2016-06-08 2016-11-23 中国科学院自动化研究所 基于磁共振影像的脑疾病个体化预测方法和系统
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107577605A (zh) * 2017-09-04 2018-01-12 南京航空航天大学 一种面向软件缺陷预测的特征聚类选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERENGUER等: "《Radiomics of CT features may be nonreproducible and redundant: Influence of CT acquisition parameters》", 《RADIOLOGY》 *
张涛等: "《一种基于低秩表示的子空间聚类改进算法》", 《电子与信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197706A (zh) * 2019-04-26 2019-09-03 深圳市宁远科技股份有限公司 一种基于sbs的层次化特征选择方法、系统及应用
CN110197706B (zh) * 2019-04-26 2021-08-27 深圳市宁远科技股份有限公司 一种基于sbs的层次化特征选择方法、系统及应用

Also Published As

Publication number Publication date
CN109493929B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
Kumar et al. An efficient k-means clustering filtering algorithm using density based initial cluster centers
Celebi et al. A comparative study of efficient initialization methods for the k-means clustering algorithm
CN110532417B (zh) 基于深度哈希的图像检索方法、装置及终端设备
Nanni et al. A classifier ensemble approach for the missing feature problem
KR102092263B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
Chakraborty et al. Simultaneous variable weighting and determining the number of clusters—A weighted Gaussian means algorithm
Torrente et al. Initializing k-means clustering by bootstrap and data depth
Karagoz et al. A new framework of multi-objective evolutionary algorithms for feature selection and multi-label classification of video data
Sarwar et al. A survey of big data analytics in healthcare
Sun et al. Cluster analysis in data‐driven management and decisions
Parmezan et al. Automatic recommendation of feature selection algorithms based on dataset characteristics
US20220114481A1 (en) Systems and methods for counterfactual explanation in machine learning models
Liu et al. Penalized partial least square discriminant analysis with ℓ1-norm for multi-label data
Ma et al. Learning discrete class-specific prototypes for deep semantic hashing
Cucuringu et al. An MBO scheme for clustering and semi-supervised clustering of signed networks
Wankhade et al. Data stream classification: a review
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
KR20210148095A (ko) 데이터 분류 방법 및 시스템, 그리고 분류기 트레이닝 방법 및 시스템
Cheriguene et al. A new hybrid classifier selection model based on mRMR method and diversity measures
US10733499B2 (en) Systems and methods for enhancing computer assisted high throughput screening processes
Xu et al. Dilated convolution capsule network for apple leaf disease identification
CN109493929A (zh) 基于分组变量的低冗余特征选择方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
El-Atta et al. Two-class support vector machine with new kernel function based on paths of features for predicting chemical activity
Vinutha et al. EPCA—enhanced principal component analysis for medical data dimensionality reduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant