CN115270972A - 一种特征选择方法、装置、设备及存储介质 - Google Patents

一种特征选择方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115270972A
CN115270972A CN202210916493.8A CN202210916493A CN115270972A CN 115270972 A CN115270972 A CN 115270972A CN 202210916493 A CN202210916493 A CN 202210916493A CN 115270972 A CN115270972 A CN 115270972A
Authority
CN
China
Prior art keywords
model
feature
determining
features
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210916493.8A
Other languages
English (en)
Inventor
徐松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202210916493.8A priority Critical patent/CN115270972A/zh
Publication of CN115270972A publication Critical patent/CN115270972A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种特征选择方法、装置、设备及计算机可读存储介质中,方法包括:获取机器学习模型中目标值相关的原始特征集合,确定原始特征集合的特征对目标值具有影响的假设几率,以及基于假定几率,对原始特征集合进行过滤,得到第一集合,进一步的,确定原始特征集合的特征相对于目标值的重要性值,并基于重要性值,对原始特征集合进行筛选,得到第二集合,由此,根据第一集合和第二集合,确定机器学习模型的特征子集。采用统计学中的检验指标假定几率和模型训练中的特征重要性确定方法分别对原始特征集合进行过滤或筛选,能够筛选出最优解的特征集,以及通过较少的特征集构建更加简洁有效的模型。

Description

一种特征选择方法、装置、设备及存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种特征选择方法、装置、设备及计算机可读存储介质。
背景技术
在智慧医疗领域基于机器学习构建的医学模型能够对数据进行准确快速处理,因此在机器学习的建模过程中,如何筛选出与当前机器学习任务的目标更加相关的特征因素,构建更加简洁有效的机器学习模型,显得尤为重要。对于机器学习任务中,在给定的特征集中,对当前机器学习任务有用的属性称为“相关特征”,对当前机器任务没有用的属性称为“无关特征”。删除“无关特征”并且保留“相关特征”将有助于特征机器学习建模的效率和准确性,简化模型并提高模型的泛化能力。
目前已有的特征选择方法包括:过滤法、包装法、嵌入法、交叉选择法和集成特征选择方法。在实际的场景应用中,通常倾向于选择分类效果较好,但是模型相对简洁并且模型的可解释性较强的方案,如树模型。但是在已有树模型的特征选择过程中,容易出现重要特征漏选的情况,并且特征的数目也比较多,从而严重影响机器学习模型的实际应用的效果和效率。因此,如何能够筛选出既能保证机器学习模型的效果,又能去除特征之间的冗余性,成为能够实现高效机器学习建模的关键。
发明内容
本发明实施例为了解决上述技术问题,提供一种特征选择方法、装置、设备及计算机可读存储介质。
根据本发明第一方面,提供了一种特征选择方法,所述方法包括:获取机器学习模型中目标值相关的原始特征集合;确定所述原始特征集合的特征对所述目标值具有影响的假设几率;基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合;确定所述原始特征集合的特征相对于所述目标值的重要性值;基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合;根据所述第一集合和所述第二集合,确定所述机器学习模型的特征子集。
根据本发明一实施方式,确定所述原始特征集合的特征对所述目标值具有影响的假设几率,包括:采用T检验或卡方检验确定所述原始特征集合的特征与所述目标值具有影响的假设几率。
根据本发明一实施方式,基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合,包括:依次从所述原始特征集合中删除所述假设几率最大的特征,并基于每次删除后的特征集进行模型训练;确定每一次模型训练中模型对应的模型效能;在确定本次模型训练对应的模型效能小于上一次模型训练对应的模型效能时,停止模型训练,并确定上一次模型训练所对应的特征集为所述第一集合。根据本发明一实施方式,确定所述原始特征集合的特征相对于所述目标值的重要性值,包括:基于所述原始特征集合构建梯度增强树模型;基于所述梯度增强树模型,确定所述原始特征集合的特征相对于所述目标值的重要性值。
根据本发明一实施方式,所述基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合,包括:依次从所述原始特征集合中删除所述重要性值最小的特征,并基于每次删除后的特征集进行模型训练;确定每一次模型训练中模型对应的的模型效能;在确定本次模型训练对应的模型效能小于上一次模型训练对应的模型效能时,停止模型训练,并确定上一次模型训练所对应的特征集为所述第一集合。
根据本发明一实施方式,所述方法还包括:确定所述特征子集中的特征之间的相关系数;根据所述相关系数对所述特征子集进行优化,得到所述机器学习模型的目标特征集合。
根据本发明的第二方面,还提供了一种特征选择装置,所述装置包括:获取模块,用于获取机器学习模型中目标值相关的原始特征集合;第一确定模块,用于确定所述原始特征集合的特征对所述目标值具有影响的假设几率;特征过滤模块,用于基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合;第二确定模块,用于确定所述原始特征集合的特征相对于所述目标值的重要性值;特征筛选模块,用于基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合;根据所述第一集合和所述第二集合,确定所述机器学习模型的特征子集。
根据本发明第三方面,还提供一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的特征选择方法。
根据本发明第四方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的特征选择方法。
本发明实施例特征选择方法、装置、设备及计算机可读存储介质中,方法包括:获取机器学习模型中目标值相关的原始特征集合,确定所述原始特征集合的特征对所述目标值具有影响的假设几率,以及基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合,进一步的,确定所述原始特征集合的特征相对于所述目标值的重要性值,并基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合,由此,根据所述第一集合和所述第二集合,确定所述机器学习模型的特征子集。采用统计学中的检验指标假定几率和模型训练中的特征重要性确定方法分别对原始特征集合进行过滤或筛选,并结合两种特征选择方法,确定最终的特征子集,从而使得所确定的特征子集在能够保证机器学习模型的训练效果的基础上,能够筛选出最优解的特征集,以及通过较少的特征集构建更加简洁有效的模型。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例特征选择方法的实现流程示意图;
图2示出了本发明实施例特征选择方法的具体应用示例的实现流程示意图;
图3示出了本发明实施例特征选择装置的组成结构示意图;
图4示出了本发明实施例设备的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图1示出了本发明实施例特征选择方法的实现流程示意图。
参考图1,本发明实施例特征选择方法,至少包括如下操作流程:操作101,获取机器学习模型中目标值相关的原始特征集合;操作102,确定原始特征集合的特征对目标值具有影响的假设几率;操作103,基于假定几率,对原始特征集合进行过滤,得到第一集合;操作104,确定原始特征集合的特征相对于目标值的重要性值;操作105,基于重要性值,对原始特征集合进行筛选,得到第二集合;操作106,根据第一集合和第二集合,确定机器学习模型的特征子集。
在操作101中,获取机器学习模型中目标值相关的原始特征集合。
机器学习模型对于医学领域的数据分析和处理具有非常重要的使用价值,并且被广泛使用,例如:基于XGBoost(梯度增强树模型)构建的用于对某人具有某一类型病变的可能性进行预测的预测模型。这里,原始特征集合可以是构建预测模型过程中基于专业人士的经验汇总所有可能对某人具有某一类型病变的可能性带来影响的特征集合,还可以对所汇总的特征集合中的集合进行简单筛选,删除特征集合中与某人具有某一类型病变的可能性的相关系数小于设定值的特征。
在操作102中,确定原始特征集合的特征对目标值具有影响的假设几率。
在本发明这一实施方式中,假设几率指假设原始特征集合中的某一个特征a1对机器学习模型的目标值具有影响,根据构建机器学习模型的大量原始数据采用统计学的方式验证该假设成立的概率。假设几率越高,则说明特征a1对目标值具有影响的假设成立的可能性越大,由此,特征a1对目标值的影响越小。进一步的,假定几率越高的特征对目标值的影响越小,也即该特征在机器学习模型的构建和训练过程中,对模型构建结果的影响越小,该特征越不重要。
在本发明这一实施方式中,假设几率可以是用来判定假设检验结果的P-value(P值)。
在本发明这一实施方式中,可以采用T检验或卡方检验确定原始特征集合的特征与目标值具有影响的假设几率。
举例说明,卡方检验可用于检验两个类别型变量之间的相关性。它建立的零假设是:两变量之间不相关。卡方值的计算公式如下式(1):
Figure BDA0003775755820000051
其中,observed是实际值,expected是理论值。卡方值的目的是衡量理论和实际的差异程度。卡方值高,假设几率越高,说明两变量之间具有相关性的可能性更大。
T检验是基于t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
在操作103中,基于假定几率,对原始特征集合进行过滤,得到第一集合。
在本发明这一实施方式中,基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合,可以包括:依次从所述原始特征集合中删除所述假设几率最大的特征,并基于每次删除后的特征集进行模型训练;确定每一次模型训练中模型对应的模型效能;在确定本次模型训练对应的模型效能小于上一次模型训练对应的模型效能时,停止模型训练,并确定上一次模型训练所对应的特征集为所述第一集合。
具体的,在本发明这一实施方式中,可以采用如下操作实现基于假定几率对原始特征集合进行过滤得到第一集合:从原始特征集合中删除假设几率最小的特征,得到第Q1个特征集;基于第Q1个特征集进行梯度增强树模型训练,得到第Q1个模型;确定第Q1个模型的第Q1个灵敏度和第Q1个特异度;对第Q1个灵敏度和第Q1个特异度进行加权求和,确定第Q1个模型的第Q1个模型效能;从第Q1个特征集中删除假设几率最小的特征,得到第Q2个特征集;基于第Q2个特征集进行梯度增强树模型训练,得到第Q2个模型;确定第Q2个模型的第二灵敏度和第Q2个特异度;对第Q2个灵敏度和第Q2个特异度进行加权求和,确定第Q2个模型的第Q2个模型效能;如此,依次从第N-1个模型训练所采用的特征集中删除假设几率最小的特征,得到第N个特征集,并确定基于第N个特征集所训练的第N个模型的模型效能,其中N为大于1的正整数;确定N个模型中效果最优的模型所对应的特征集为第一集合。
在本发明这一实施方式中,模型效能可以通过模型的TPR(真阳性率,也即灵敏度)和TNR(真阴性率,也即特异度)示出。模型效能可以通过对TPR和TNR直接求和得到,也可以对TPR和TNR进行加权求和得到。
举例说明,原始特征集合中包括T1、T2……TX,共X个特征,可以采用卡方检验和学生t检验,确定X个特征的P值,其中卡方检验能够用于确定分类变量的P值,学生t检验用于确定连续变量的P值。进一步的,将原始特征集合中的P值最大的特征删除之后,构建XGBoost模型并进行模型训练。
具体的,特征集中的多个特征在构建XGBoost模型过程中作为划分属性时loss平均的降低量(也就是特征的信息增益),以特征k=1,2,...,K为例,其重要度计算可以采用如下公式(1)表述:
Figure BDA0003775755820000071
这里V(k)表示特征k的重要度,k表示梯度增强树XGBoost模型的某节点,T表示所有树的数量,N(t)表示第t棵树的非叶子节点数量,β(t,i)表示第t棵树的第i个非叶子节点的划分特征,所以β(.)∈1,2,…,K,I(.)是指示函数,Gγ(t,i),Hγ(t,i)分别表示落在第t棵树的第i个非叶子节点上所有样本的一阶导数和二阶导数之和,Gγ(t,i,L),Gγ(t,i,R)分别表示落在第t棵树上第i个非叶子节点的左、右节点上的一阶导数之和,同理,Hγ(t,i,L),Hγ(t,i,R)分别表示落在第t棵树上第i个非叶子节点的左、右节点上的二阶导数之和,所以有下式(2):
Gγ(t,i)=Gγ(t,i,L)+Gγ(t,iR),Hγ(t,i)=Hγ(t,i,L)+Hγ(t,i,R) (2)
其中,λ为正则化的超参数。
由此,可以确定特征集中多个特征的重要度。根据特征的重要度,可以构建最原始的梯度增强树XGBoost模型。进一步的基于构建的原始模型和样本训练数据进行模型训练。
对训练得到的模型的TPR(真阳性率,也即灵敏度)和TNR(真阴性率,也即特异度)进行确定,其中,TPR可以指实际有病并被诊断为有病的百分比,TNR可以指实际无病并且被诊断为无病的百分比。实际应用中对于灵敏度和特异度的要求存在一些差异,例如:针对模型应用的目标为最大限度筛选样本对象中的阳性对象的情况,对灵敏度的要求更高,则在模型的模型效能确定过程中可以将灵敏度的权重设置为60%,或者更高;针对模型应用的目标为最大限度筛选样本对象中的阴性对象的情况,对特异度的要求更高,则在模型的模型效能确定过程中可以将特异度的权重设置为60%,或者更高。
特征子集中特征的个数并不是越多越好,也并非越少越好,而是特征子集的个数适中并且模型的模型效能越高越好。一般地,从第1个模型到第N个模型的模型效能通常会先呈现逐渐递增趋势,达到一定的峰值之后出现递减趋势。因此,在确定N个模型中效果最优的模型的过程中,依次从第1个模型训练所采用的特征集中删除假设几率最小的特征,得到N个特征集,并确定基于N个特征集所训练的N个模型的模型效能。
可以在出现第n个模型的精确度小于第n-1个模型的模型效能的情况之后,若确定模型的模型效能还是出现递减趋势,则可以直接停止对模型模型效能的计算,并从已经计算的n个模型中确定一个效果最优的模型。其中,n∈[1,N]。
还可以在出现第n个模型的精确度小于第n-1个模型的模型效能的情况之后,再计算x个模型的模型效能,若确定模型的模型效能还是出现递减趋势,则可以停止对模型模型效能的计算,并从已经计算的n+x个模型中确定一个效果最优的模型。其中,(n+x)∈[1,N]。
在操作104中,确定原始特征集合的特征相对于目标值的重要性值。
在本发明这一实施方式中,可以基于原始特征集合构建梯度增强树模型,基于梯度增强树模型,确定原始特征集合的特征相对于目标值的重要性值。
在操作105中,基于重要性值,对原始特征集合进行筛选,得到第二集合。
在本发明这一实施方式中,基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合,可以包括:依次从所述原始特征集合中删除所述重要性值最小的特征,并基于每次删除后的特征集进行模型训练;确定每一次模型训练中模型对应的的模型效能;在确定本次模型训练对应的模型效能小于上一次模型训练对应的模型效能时,停止模型训练,并确定上一次模型训练所对应的特征集为所述第二集合。
具体的,在本发明这一实施方式中,可以采用如下操作实现基于重要性值对原始特征集合进行筛选得到第二集合:依次从原始特征集合中删除重要性值最小的特征,形成特征集,并基于特征集进行模型训练。例如从第S1-1个特征集中删除重要性值最小的特征,得到第S1个特征集;基于第S1个特征集进行梯度增强树模型训练,得到第S1个模型;确定第S1个模型的第S1个灵敏度和第S1个特异度;对第S1个灵敏度和第S1个特异度进行加权求和,确定第S1个模型的第S1个模型效能;从第S1个特征集中删除重要性值最小的特征,得到第S2个特征集;基于第S2个特征集进行梯度增强树模型训练,得到第S2个模型;确定第S2个模型的第S2个灵敏度和第S2个特异度;对第S2个灵敏度和第S2个特异度进行加权求和,确定第S2个模型的第S2个模型效能;如此,依次从第M-1个模型训练所采用的特征集中删除重要性值最小的特征,得到第M个特征集,并确定基于第M个特征集所训练的第M个模型的模型效能,其中M为大于1的正整数;确定M个模型中效果最优的模型所对应的特征集为第二集合。
举例说明,类似于基于假定几率对原始特征集合进行过滤得到第一集合,特征子集中特征的个数并不是越多越好,也并非越少越好,而是特征子集的个数适中并且模型的模型效能越高越好。一般地,从第1个模型到第M个模型的模型效能通常会先呈现逐渐递增趋势,达到一定的峰值之后出现递减趋势。因此,在确定M个模型中效果最优的模型的过程中,依次从原始特征集合中删除假设几率最小的特征,得到M个特征集,并确定基于M个特征集分别进行模型训练,在所训练的M个模型中选择模型效能最好的模型。
在出现第m个模型的模型效能小于第m-1个模型的模型效能的情况之后,可以直接停止对模型模型效能的计算,并从已经计算的m个模型中确定一个效果最优的模型。其中,m∈[1,M]。
还可以在出现第m个模型的精确度小于第m-1个模型的精确度的情况之后,再计算k个模型的精确度,若确定模型的精确度还是出现递减趋势,则可以停止对模型精确度的计算,并从已经计算的m+k个模型中确定一个精确度最高的模型。其中,(m+k)∈[1,M]。
在操作106中,根据第一集合和第二集合,确定机器学习模型的特征子集。
在本发明这一实施方式中,可以对第一集合和第二集合进行求交集的运算,得到特征子集。
在本发明这一实施方式中,还包括:确定特征子集中各特征之间的相关系数,根据相关系数对特征子集进行优化,得到机器学习模型的目标特征集合。
这里特征子集中的特征之间的相关系数可以采用皮尔逊等相关系数确定方法确定。
在本发明这一实施方式中,可以采用如下操作实现根据相关系数对特征子集进行优化:在特征子集中的两个特征之间的相关系数大于设定相关阈值的情况,删除所述两个特征中假定几率小的特征。由于通常情况下相关系数较大的两个特征对机器学习模型的目标值会带来基本一致的影响,因此,这里对相关系数较高的两个特征进行进一步优化,删除两个特征中对目标值具有影响的假定几率较小的特征,得到机器学习模型的目标特征集合。
举例说明,假设对第一集合A={A1、A2……Ax},第二集合B={B1、B2……By},其中x和y均为正整数,对第一集合A和第二集合B进行求交集运算,得到特征子集为C={A1,A2,A5,A7,B3,B8,B10,B9,B13}。返回参考操作102可知,特征A1,A2,A5,A7,B3,B7,B8,B10,B9,B13分别对应有一个假定几率,也即P值。这里可以首先确定特征子集中的每两个特征之间的相关系数,相关系数可以采用通用的相关系数确定方法。假设设定相关阈值为0.5,A7和B7之间的相关系数大于设定相关阈值,并且特征A7对机器学习模型的目标值具有影响的假设成立的假定几率为0.65,特征B7对机器学习模型的目标值具有影响的假设成立的假定几率为0.59,则说明特征A7和B7为一组相关系数较高的特征,并且特征A7对机器学习模型的目标值具有影响的概率相较于特征B7对机器学习模型的目标值具有影响的概率较大,因此,这里为了提高模型训练和使用效率,提升模型使用效果,可以将特征集合C中的特征B7作为冗余信息进行删除。
由此,在对构建模型过程中可以采用相对简洁并且模型的可解释性较强的模型,例如:梯度增强树模型。在梯度增强树模型的特征选择过程中,结合多种特征选择方法,更好的筛选出特征子集的最优解,并且特征子集中特征数目大大减少,有效提升了机器学习模型的实际应用效果和效率。在基于相关系数的特征选择方法筛选出与样本线性相关性较强的特征的同时,基于机器学习模型的特征选择方法筛选出对该模型的分类效果友好的特征,并进一步对采用两种方法筛选出的特征进行优化,删除特征之间相关性较高的冗余特征。从而有效去除特征之间的冗余性,保证机器学习模型的训练效果,显著提升模型训练效率和模型使用效果。
图2示出了本发明实施例特征选择方法的具体应用示例的实现流程示意图。
参考图2,本发明实施例特征选择方法的具体应用示例,至少包括如下操作流程:
操作201,获取原始特征集合。
操作202,根据原始特征集合中特征的P-value,对原始特征集合中的特征升序排列。
操作203,根据排序的序列,依次删除排序中位于最后一个的特征,进行XGBoost模型训练。
具体的,特征子集中特征的个数并不是越多越好,也并非越少越好,而是特征子集的个数适中并且模型的模型效能越高越好。一般地,从第1个模型到第N个模型的模型效能通常会先呈现逐渐递增趋势,达到一定的峰值之后出现递减趋势。因此,在确定N个模型中效果最优的模型的过程中,依次从原始特征集中删除假设几率最小的特征,得到N个特征集,并基于N个特征集进行模型训练,在所训练的N个模型中选择模型效能最好的模型。
可以在出现第n个模型的精确度小于第n-1个模型的模型效能的情况之后,若确定模型的模型效能还是出现递减趋势,则可以直接停止对模型模型效能的计算,并从已经计算的n个模型中确定一个效果最优的模型。其中,n∈[1,N]。
还可以在出现第n个模型的精确度小于第n-1个模型的模型效能的情况之后,再计算x个模型的模型效能,若确定模型的模型效能还是出现递减趋势,则可以停止对模型模型效能的计算,并从已经计算的n+x个模型中确定一个效果最优的模型。其中,(n+x)∈[1,N]。操作204,选择训练得到的模型中“灵敏度+特异度”值最大的模型,将训练该模型所采用的特征组合作为特征集合A。
操作205,基于原始特征集合的全部特征构建XGBoost模型,得到每个特征的重要性,并根据每个特征的重要性进行降序排列。
操作206,根据排序的序列,依次删除排序中位于最后一个的特征,进行XGBoost模型训练。
举例说明,类似于基于假定几率对原始特征集合进行过滤得到第一集合,特征子集中特征的个数并不是越多越好,也并非越少越好,而是特征子集的个数适中并且模型的模型效能越高越好。一般地,从第1个模型到第M个模型的模型效能通常会先呈现逐渐递增趋势,达到一定的峰值之后出现递减趋势。因此,在确定M个模型中效果最优的模型的过程中,依次从原始特征集合中删除假设几率最小的特征,得到M个特征集,并基于M个特征集进行模型训练,在所述M个特征集训练的M个模型中选择模型效能最好的模型。
在出现第m个模型的模型效能小于第m-1个模型的模型效能的情况之后,可以直接停止对模型模型效能的计算,并从已经计算的m个模型中确定一个效果最优的模型。其中,m∈[1,M]。
还可以在出现第m个模型的模型效能小于第m-1个模型的模型效能的情况之后,再计算k个模型的模型效能。若确定模型的模型效能还是出现递减趋势,则可以停止对模型模型效能的计算,并从已经计算的m+k个模型中确定一个效果最优的模型。其中,(m+k)∈[1,M]。
操作207,选择训练得到的模型中“灵敏度+特异度”值最大的模型,将训练该模型所采用的特征组合作为特征集合B。
操作208,对特征集合A和特征集合B进行求交集运算,得到特征集合C。
操作209,计算特征集合C中特征的相关系数,若两个特征的相关系数大于设定阈值,则删除两个特征中P-value较小的特征。
其中,操作201、~209的具体实现过程与图1所示实施例中操作101~106的具体实现过程相类似,这里不再赘述。
本发明实施例特征选择方法、装置、设备及计算机可读存储介质中,方法包括:获取机器学习模型中目标值相关的原始特征集合,确定原始特征集合的特征对目标值具有影响的假设几率,以及基于假定几率,对原始特征集合进行过滤,得到第一集合,进一步的,确定原始特征集合的特征相对于目标值的重要性值,并基于重要性值,对原始特征集合进行筛选,得到第二集合,由此,根据第一集合和第二集合,确定机器学习模型的特征子集。采用统计学中的检验指标假定几率和模型训练中的特征重要性确定方法分别对原始特征集合进行过滤或筛选,并结合两种特征选择方法,确定最终的特征子集,从而使得所确定的特征子集在能够保证机器学习模型的训练效果的基础上,能够筛选出最优解的特征集,以及通过较少的特征集构建更加简洁有效的模型。
如图3所示,为本发明特征选择装置的一个具体实施例。本实施例装置,即用于执行图1~2方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。参考图3,本发明实施例提供一种特征选择装置,装置30包括:获取模块301,用于获取机器学习模型中目标值相关的原始特征集合;第一确定模块302,用于确定原始特征集合的特征对目标值具有影响的假设几率;过滤模块303,用于基于假定几率,对原始特征集合进行过滤,得到第一集合;第二确定模块304,用于确定原始特征集合的特征相对于目标值的重要性值;筛选模块305,用于基于重要性值,对原始特征集合进行筛选,得到第二集合;选择模块306,用于根据第一集合和第二集合,确定机器学习模型的特征子集。
图4是本发明实施例提供的一种设备的结构示意图。在硬件层面,该设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少1个磁盘存储器等。当然,该设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成特征选择装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的特征选择方法。
上述如本发明图3所示实施例提供的特征选择装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的特征选择方法,并具体用于执行如图1~图2所示的方法。
前述各个实施例中的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种特征选择方法,其特征在于,所述方法包括:
获取机器学习模型中目标值相关的原始特征集合;
确定所述原始特征集合的特征对所述目标值具有影响的假设几率;
基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合;
确定所述原始特征集合的特征相对于所述目标值的重要性值;
基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合;
根据所述第一集合和所述第二集合,确定所述机器学习模型的特征子集。
2.根据权利要求1所述的方法,其特征在于,确定所述原始特征集合的特征对所述目标值具有影响的假设几率,包括:
采用T检验或卡方检验确定所述原始特征集合的特征与所述目标值具有影响的假设几率。
3.根据权利要求1所述的方法,其特征在于,基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合,包括:
依次从所述原始特征集合中删除所述假设几率最大的特征,并基于每次删除后的特征集进行模型训练;
确定每一次模型训练中模型对应的模型效能;
在确定本次模型训练对应的模型效能小于上一次模型训练对应的模型效能时,停止模型训练,并确定上一次模型训练所对应的特征集为所述第一集合。
4.根据权利要求1所述的方法,其特征在于,确定所述原始特征集合的特征相对于所述目标值的重要性值,包括:
基于所述原始特征集合构建梯度增强树模型;
基于所述梯度增强树模型,确定所述原始特征集合的特征相对于所述目标值的重要性值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合,包括:
依次从所述原始特征集合中删除所述重要性值最小的特征,并基于每次删除后的特征集进行模型训练;
确定每一次模型训练中模型对应的模型效能;
在确定本次模型训练对应的模型效能小于上一次模型训练对应的模型效能时,停止模型训练,并确定上一次模型训练所对应的特征集为所述第二集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一集合和所述第二集合,确定所述机器学习模型的特征子集,包括:
对所述第一集合和所述第二集合进行求交集,得到所述特征子集。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
确定所述特征子集中的各特征之间的相关系数;
根据所述相关系数对所述特征子集进行优化,得到所述机器学习模型的目标特征集合。
8.一种特征选择装置,其特征在于,所述装置包括:
获取模块,用于获取机器学习模型中目标值相关的原始特征集合;
第一确定模块,用于确定所述原始特征集合的特征对所述目标值具有影响的假设几率;
特征过滤模块,用于基于所述假定几率,对所述原始特征集合进行过滤,得到第一集合;
第二确定模块,用于确定所述原始特征集合的特征相对于所述目标值的重要性值;
特征筛选模块,用于基于所述重要性值,对所述原始特征集合进行筛选,得到第二集合;
根据所述第一集合和所述第二集合,确定所述机器学习模型的特征子集。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的特征选择方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的特征选择方法。
CN202210916493.8A 2022-08-01 2022-08-01 一种特征选择方法、装置、设备及存储介质 Pending CN115270972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210916493.8A CN115270972A (zh) 2022-08-01 2022-08-01 一种特征选择方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210916493.8A CN115270972A (zh) 2022-08-01 2022-08-01 一种特征选择方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115270972A true CN115270972A (zh) 2022-11-01

Family

ID=83747100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210916493.8A Pending CN115270972A (zh) 2022-08-01 2022-08-01 一种特征选择方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115270972A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630318A (zh) * 2022-11-10 2023-01-20 中电金信软件(上海)有限公司 风控模型的训练方法、风险预测方法、装置、计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630318A (zh) * 2022-11-10 2023-01-20 中电金信软件(上海)有限公司 风控模型的训练方法、风险预测方法、装置、计算机设备

Similar Documents

Publication Publication Date Title
CN110348562B (zh) 神经网络的量化策略确定方法、图像识别方法和装置
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
US20240256377A1 (en) Fault diagnosis method and apparatus, electronic device, and storage medium
CN111160959B (zh) 一种用户点击转化预估方法及装置
CN115270972A (zh) 一种特征选择方法、装置、设备及存储介质
CN110503182A (zh) 深度神经网络中的网络层运算方法及装置
CN115424053A (zh) 小样本图像识别方法、装置、设备及存储介质
CN107832852B (zh) 数据处理学习方法、系统以及电子设备
CN113283351A (zh) 一种使用cnn优化相似度矩阵的视频抄袭检测方法
CN116137061B (zh) 数量统计模型的训练方法、装置、电子设备及存储介质
CN112766397A (zh) 一种分类网络及其实现方法和装置
CN111598233A (zh) 深度学习模型的压缩方法、装置及设备
CN115984671A (zh) 模型在线更新方法、装置、电子设备及可读存储介质
CN115858648A (zh) 数据库生成方法、数据流切分方法、装置、设备及介质
CN116227573A (zh) 分割模型训练方法、图像分割方法、装置及相关介质
CN113033500B (zh) 动作片段检测方法、模型训练方法及装置
CN115330279A (zh) 一种基于股票走势图相似性检测的公司选取方法
CN112651753A (zh) 基于区块链的智能合约生成方法、系统及电子设备
CN112348121A (zh) 一种目标检测方法、设备及计算机存储介质
CN111400764A (zh) 个人信息保护的风控模型训练方法、风险识别方法及硬件
CN110717503A (zh) 一种分类方法、装置、电子设备及计算机存储介质
CN111400377B (zh) 一种目标数据集的确定方法及装置
CN113837863B (zh) 一种业务预测模型创建方法、装置及计算机可读存储介质
CN111539022B (zh) 一种特征匹配方法、目标对象的识别方法及相关硬件
CN112908416B (zh) 生物医学数据特征选择方法及装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination