CN110059749B - 重要特征的筛选方法、装置及电子设备 - Google Patents

重要特征的筛选方法、装置及电子设备 Download PDF

Info

Publication number
CN110059749B
CN110059749B CN201910317059.6A CN201910317059A CN110059749B CN 110059749 B CN110059749 B CN 110059749B CN 201910317059 A CN201910317059 A CN 201910317059A CN 110059749 B CN110059749 B CN 110059749B
Authority
CN
China
Prior art keywords
feature
target
features
value
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910317059.6A
Other languages
English (en)
Other versions
CN110059749A (zh
Inventor
覃进学
何智福
蓝科
刘旻哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201910317059.6A priority Critical patent/CN110059749B/zh
Publication of CN110059749A publication Critical patent/CN110059749A/zh
Application granted granted Critical
Publication of CN110059749B publication Critical patent/CN110059749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了的一种重要特征的筛选方法、装置及电子设备,涉及信息技术领域。该方法包括:判断目标特征是否满足预设的保留条件;如果目标特征满足保留条件,从多个特征中选取第二特征,基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件;将满足保留条件的目标特征和/或第二特征作为保留特征;将保留特征作为新的目标特征,从多个特征中选取除第一特征和第二特征之外的新的第二特征,重复执行上述判断步骤,直至用户输入的多个特征均参与判断步骤;将得到的各保留特征确定为多个特征中的重要特征。本发明能够有效提升重要特征的筛选可靠性。

Description

重要特征的筛选方法、装置及电子设备
技术领域
本发明涉及信息技术领域,尤其是涉及一种重要特征的筛选方法、装置及电子设备。
背景技术
随着大数据、人工智能技术的发展和普及,越来越多的金融机构增加了对机器学习的重视程度,将传统基于人工决策的管理方法逐步转变为以数据驱动为基础的智能化决策。特别是在银行个人金融业务中,如信用卡业务、消费金融业务等领域,因其单笔金额小、申请频率高、时效要求高等原因,导致使用传统人工审批的方式无法满足业务诉求。使用机器学习方法来进行风险管理,特别是基于逻辑回归的评分卡模型,因其易于解释、快速迭代、成熟稳定的特征,正逐渐被广大银行所采纳。同时,由于金融与科技的双向赋能,越来越多的高新技术在银行业落地实施,比如大数据技术、人工智能、云计算技术、设备指纹、生物识别、数字ID等,加上中国市场数字信息化建设进程加速,如社会公共服务数据建设、信息交换与共享、数据生态建设等原因,银行的数据正在以指数级增加。面对如此多维度的数据特征,如何从众多特征中筛选出重要、稳定、易于解释特征,对机器学习及数据挖掘过程尤为重要。
发明人研究发现,在涉及到较多特征的信用评估等场景中,现在所采用的方式仅是针对每个独立的特征进行重要性评估,筛选得到的重要特征并不准确,可见现有的重要特征的筛选方式的,可靠性较差。
发明内容
本发明实施例的目的在于提供一种重要特征的筛选方法、装置及电子设备,该方法能够有效提升重要特征的筛选可靠性。
第一方面,本发明实施例提供了一种重要特征的筛选方法,包括:接收用户输入的多个特征;从多个所述特征中选取第一特征,将所述第一特征作为目标特征;判断所述目标特征是否满足预设的保留条件;如果所述目标特征满足所述保留条件,从多个所述特征中选取第二特征,基于所述目标特征和所述第二特征判断所述目标特征是否再次满足所述保留条件,以及基于所述目标特征和所述第二特征判断所述第二特征是否满足所述保留条件;将满足所述保留条件的所述目标特征和/或所述第二特征作为保留特征;将所述保留特征作为新的目标特征,从多个所述特征中选取除所述第一特征和所述第二特征之外的一个其它特征;将选取的所述其它特征作为新的第二特征,重复执行上述判断步骤,直至所述用户输入的多个所述特征均参与所述判断步骤;将得到的所述保留特征确定为多个所述特征中的重要特征。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述方法还包括:如果所述目标特征不满足所述保留条件,将所述目标特征作为丢弃特征并输出。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述判断所述目标特征是否满足预设的保留条件的步骤,包括:将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;根据所述似然参数计算拉格朗日乘数检验统计量值或Wald统计量值,并查询卡方分布表获得P-value值;判断所述P-value值是否大于预设的置信水平值;如果是,则满足所述保留条件。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述判断所述目标特征是否满足预设的保留条件的步骤,包括:将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;根据所述似然参数计算边际效应,判断所述边际效应是否小于最大边际效应绝对值;如果是,则满足保留条件。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述方法还包括:获取各所述保留特征的所述似然参数估计值、所述拉格朗日乘数检验统计量值、所述Wald统计量值和/或所述P-value值并显示给用户。
第二方面,本发明实施例还提供了一种重要特征的筛选装置,包括:特征接收模块,用于接收用户输入的多个特征;特征选取模块,用于从多个所述特征中选取第一特征,将所述第一特征作为目标特征;第一判断模块,用于判断所述目标特征是否满足预设的保留条件;第二判断模块,用于在所述目标特征满足所述保留条件时,从多个所述特征中选取第二特征,基于所述目标特征和所述第二特征判断所述目标特征是否再次满足所述保留条件,以及基于所述目标特征和所述第二特征判断所述第二特征是否满足所述保留条件;保留特征模块,用于将满足所述保留条件的所述目标特征和/或所述第二特征作为保留特征;特征更新模块,用于将所述保留特征作为新的目标特征,从多个所述特征中选取除所述第一特征和所述第二特征之外的一个其它特征;重复判断模块,用于将选取的所述其它特征作为新的第二特征,重复执行上述第一判断模块和第二判断模块,直至所述用户输入的多个所述特征均参与所述判断步骤;重要特征模块,用于将得到的所述保留特征确定为多个所述特征中的重要特征。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述装置还包括:丢弃特征模块,用于在所述目标特征不满足所述保留条件时,将所述目标特征作为丢弃特征并输出。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述装置还包括:参数显示模块,用于获取各所述保留特征的似然参数估计值、拉格朗日乘数检验统计量值、Wald统计量值和/或P-value值并显示给用户。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读介质,其中,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现如第一方面所述的方法。
本发明提供了的一种重要特征的筛选方法、装置及电子设备,该方法包括:接收用户输入的多个特征;从多个特征中选取第一特征,将第一特征作为目标特征;判断目标特征是否满足预设的保留条件;如果目标特征满足保留条件,从多个特征中选取第二特征,基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件;将满足保留条件的目标特征和/或第二特征作为保留特征;将保留特征作为新的目标特征,从多个特征中选取除第一特征和第二特征之外的一个其它特征;将选取的其它特征作为新的第二特征,重复执行上述判断步骤,直至用户输入的多个特征均参与判断步骤;将得到的各保留特征确定为多个特征中的重要特征。该方法每次都将保留特征与待计算特征共同计算是否满足保留条件,使用户输入的多个特征均参与逐步计算,该方法能够有效提升重要特征的筛选可靠性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种重要特征的筛选方法流程图;
图2为本发明实施例提供的一种重要特征的筛选方法流程图;
图3为本发明实施例提供的一种重要特征的筛选装置结构示意图;
图4为本发明实施例提供的电子设备结构图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人经过大量的研究发现,现有的复杂的信用评估过程中,会出现多个变量相互影响、跨样本比较特征筛选、特征敏感性分析等情况,而传统特征重要性评估方法主要是基于单一统计量指标对特征重要性进行筛选,比如卡方统计量(Chi-square)、信息增益(Information gain)、信息价值(Information value)等指标,其劣势在于忽略了特征间的交互效应(Interaction between variables),使上述评估方法适应范围有限。
基于此,本发明实施例提供的一种重要特征的筛选方法、装置及电子设备,每次都将保留特征与待计算特征共同计算是否满足保留条件,使用户输入的特征组合中所有的特征均参与逐步计算,能够有效提升重要特征的筛选可靠性。
实施例一:
本发明实施例提供的一种重要特征的筛选方法,可以应用于银行金融业务领域,例如信用卡业务或消费金融业务等,参见图1所示的重要特征的筛选方法流程图,该方法包括以下步骤:
S102:接收用户输入的多个特征。
接收用户输入的多个特征作为特征组合,该特征组合可以是实际应用中需要进行重要特征筛选的特征组合,例如,该用户可以是银行金融业务的业务员;用户输入的多个特征可以是客户个人信用卡业务办理时,将客户的个人信用评价中的影响因素作为输入特征组合:年龄、收入、额度使用率、总资产和/或是否失业等。
S104:从多个特征中选取第一特征,将第一特征作为目标特征。
从用户输入的多个特征,并从用户输入的多个特征中任意选择一个特征作为第一特征,并将选取的第一特征作为目标特征。
还可以是其他实施方式,可以根据用户输入多个特征的顺序定义第一特征,将用户输入的第一个特征词语作为第一特征,然后再将第一特征作为目标特征。
S106:判断目标特征是否满足预设的保留条件。
对目标特征进行指标评估,根据用户预先设定的特征保留条件,判断上述目标特征是否满足用户预设的特征保留条件。
S108:如果目标特征满足保留条件,从多个特征中选取第二特征,基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件。
如果选取的目标特征满足预设的保留条件,则从用户输入的多个特征中,选取除第一特征以外的任意一个特征作为第二特征。满足保留条件的目标特征需要再次基于目标特征和第二特征判断是否满足保留条件,考虑到特征之间的交互影响作用,首先基于目标特征和第二特征再次对目标特征重新进行指标评估,并判断在考虑目标特征和第二特征交互影响的情况下,目标特征是否还满足保留条件。同理,还需要基于目标特征和第二特征判断第二特征是否满足保留条件,考虑到特征之间的交互影响作用,首先基于目标特征和第二特征对第二特征进行指标评估,并判断在考虑目标特征和第二特征交互影响的情况下,第二特征是否还满足保留条件。
S110:将满足保留条件的目标特征和/或第二特征作为保留特征。
将满足预设的保留条件的目标特征和/或第二特征作为保留特征。例如,在考虑目标特征和第二特征交互影响的情况下,若基于目标特征和第二特征判断得到只有目标特征满足保留条件时,则将目标特征作为保留特征;若基于目标特征和第二特征判断得到只有第二特征满足保留条件时,则将第二特征作为保留特征;基于目标特征和第二特征判断得到目标特征和第二特征都满足保留条件时,则将目标特征和第二特征作为保留特征;若基于目标特征和第二特征判断得到目标特征和第二特征都不满足保留条件时,则没有保留特征。
S112:将保留特征作为新的目标特征,从多个特征中选取除第一特征和第二特征之外的一个其它特征。
将上述步骤得到的保留特征作为新的目标特征,并从用户输入的多个特征中选择除第一特征和第二特征之外的任意一个其他特征。
还可以是其他实施方式,可以按照用户输入特征的顺序依次选择特征词语,例如,将用户输入的多个特征中的第一个特征词语作为第一特征,将用户输入的多个特征中的第二个特征词语作为第二特征,以此类推,将用户和输入的多个特征中的第N个特征词语作为第N特征。
S114:将选取的其它特征作为新的第二特征,重复执行判断步骤,直至用户输入的多个特征均参与判断步骤。
为了使用户输入的多个特征都能在考虑特征之间交互影响的情况下,判断是否满足保留条件。将任意选取的其他特征作为新的第二特征,由于新的目标特征是满足保留条件的保留特征,将上述步骤S112得到的新的目标特征和新的第二特征再次执行判断步骤:基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件。再将满足保留条件的目标特征和/或第二特征作为保留特征,并将该保留特征作为新的目标特征,从用户输入的多个特征中任意选取一个未参与是否满足保留条件判断的其他特征,作为新的第二特征,重复执行判断步骤:基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件。直到用户输入的多个特征均已参与是否满足保留条件的判断。
S116:将得到的保留特征确定为多个特征中的重要特征。
当用户输入的多个特征均已参与逐步判断是否满足保留条件的计算时,将最终得到的满足保留条件的保留特征,作为用户输入的多个特征中的重要特征。
本发明实施例提供了一种重要特征的筛选方法,该方法每次都将保留特征与待计算特征共同计算是否满足保留条件,使用户输入的特征组合中所有的特征均参与逐步计算,考虑了特征之间的交互影响因素,弥补了单指标重要特征筛选方法存在的忽视特征之间交互效应的缺陷。
为了提高判断目标特征是否满足预设保留条件的准确性,本实施例提供了一种判断目标特征是否满足预设的保留条件的实施方式,可参照如下步骤(1)~(5):
步骤(1):将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值。
将目标特征进行逻辑回归模型训练,逻辑回归方程算式为:
Figure BDA0002033416440000081
其中,Prob(Y=1|x)表示二项逻辑回归过程中事件发生的概率,x表示对事件概率的影响因素,即特征,β表示各个因素的系数,即对事件概率影响程度,F表示累计密度函数。
二项逻辑回归假设每一次响应变量的取值都是来源于伯努利分布,所以可得特定一组事件发生的概率算式为:
Figure BDA0002033416440000091
其中,Prob(Y1=y1,Y2=y2,…,Yn=yn|X)表示特定一组事件发生情况的概率,Y1…Yn作为第一次到第n次事件表示符号,Y1…Yn表示第一次到第n次事件取值结果,X表示某一组特定的因素。
上述特定一组事件发生的概率算式的似然方程如下算式所示:
Figure BDA0002033416440000092
其中,L(β|data)表示数据集似然函数,xi表示第i条记录因素取值,yi表示第i条记录事件发生取值,将上述似然方程算式等号两边进行对数转换,得到如下算式:
Figure BDA0002033416440000093
其中,L表示数据集似然函数;使用牛顿法求解上述算式的最大值,即可得到前述β的估计值。
Figure BDA0002033416440000094
其中,
Figure BDA0002033416440000095
表示ln(L)的偏导比β的偏导,fi为概率密度函数,表示dFi/d(xiβ),Fi表示累计密度函数,使用观测值给定的值求解似然等式的解,可以得到逻辑回归因素的系数β的似然参数估计值。
步骤(2):根据似然参数计算拉格朗日乘数检验统计量值或Wald统计量值,并查询卡方分布表获得P-value值。
使用似然函数一阶偏导数、似然函数二阶偏导数计算拉格朗日乘数检验统计量值,拉格朗日乘数检验统计量值服从自由度为1的卡方分布,公式如下:
LM=U(βi)T×I-1i)×U(βi)
其中,LM表示拉格朗日乘数检验统计量,U(βi)表示βi=k情况下似然函数的一阶偏导数,I(βi)表示βi=k情况下似然函数的二阶偏导数。
Wald统计量是估计参数与其估计标准误差间的关系,Wald检验认为标准误差更小的估计参数更应该纳入模型,Wald统计量的计算算式如下:
Figure BDA0002033416440000101
其中,
Figure BDA0002033416440000102
表示第j个影响因素似然参数估计值的平方,
Figure BDA0002033416440000103
表示第j个影响因素似然参数估计值标准误的平方。
基于上述计算得到的拉格朗日乘数检验统计量和Wald统计量,查询卡方分布表就可以获得目标特征的拉格朗日乘数检验统计量或Wald统计量对应的P-value值。
步骤(3):判断P-value值是否大于预设的置信水平值。
判断目标特征的拉格朗日乘数检验统计量或Wald统计量对应的P-value值是否大于用户预设的置信水平值。置信水平值可以是用户根据实际需求设置,例如可以是0.01~0.05的任意值。
步骤(4):如果是,则满足保留条件。
如果目标特征的拉格朗日乘数检验统计量或Wald统计量对应的P-value值大于用户预设的置信水平值,则该目标特征满足保留条件。
在基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件时,仍然是采用上述步骤(1)~(4)来判断目标特征或第二特征是否满足保留条件。在基于目标特征和第二特征判断目标特征是否再次满足保留条件时,由于目标特征和第二特征之间存在交互影响,所以再次判断时根据目标特征计算出的参数估计值会发生变化,因此首次计算满足保留条件的目标特征,再次进行判断时不一定会仍然满足保留条件;在基于目标特征和第二特征判断第二特征是否满足保留条件时,采用上述步骤(1)~(4)的方法判断第二特征是否满足保留条件:将第二特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;根据似然参数计算拉格朗日乘数检验统计量值或Wald统计量值,并查询卡方分布表获得P-value值;判断P-value值是否大于预设的置信水平值;如果是,则满足保留条件。
示例性的,用户设置的置信水平值为0.05,用户输入的多个特征中的一个特征为年龄,一个特征为收入,将年龄和收入进行逻辑回归模型训练,计算年龄的拉格朗日乘数检验统计量值或Wald统计量值,并根据年龄的拉格朗日乘数检验统计量值或Wald统计量值查询卡方表得到的P-value值为0.0005;计算收入的拉格朗日乘数检验统计量值或Wald统计量值,并根据收入的拉格朗日乘数检验统计量值或Wald统计量值查询卡方表得到的P-value值为0.1523。则收入的P-value值大于置信水平值,收入将作为保留特征进入下一轮计算;年龄的P-value值小于置信水平值,将年龄这个特征丢弃。
考虑到在跨样本进行特征比较时,逻辑回归存在未被观测的异质性,即由于未纳入模型影响因素造成逻辑回归方程不稳定的情况,wald、拉格朗日均无法进行检查。因此本实施例提供了另一种判断目标特征是否满足预设的保留条件的实施方式,可参照如下步骤1~3:
步骤1:将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值。
步骤2:根据似然参数计算边际效应,判断边际效应是否小于最大边际效应绝对值。
边际效应是x在特定取值附近事件发生概率的变化率,为了计算边际效应,可以在数据的样本均值处计算其表达式,或者在每个观测处都计算边际效应,然后再使用这些单个边际效应的样本均值,第1个影响因素边际效应计算算式如下:
Figure BDA0002033416440000121
其中,f(βxi)表示概率密度函数,β1表示第一个影响因素的似然参数估计。
根据目标特征计算出的边际效应,判断边际效应是否小于用户预先设置的最大边际效应绝对值。最大边际效应绝对值可以是用户根据实际应用中的具体问题进行设置,例如,可以设置最大边际效应绝对值为0.001~0.005、0.01~0.05或0.1~0.5中的任意数值。
步骤3:如果是,则满足保留条件。
如果目标特征的边际效应小于用户预先设置的最大边际效应绝对值,则该目标特征满足保留条件。
在基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件时,仍然可以采用上述步骤1~3来判断目标特征或第二特征是否满足保留条件。在基于目标特征和第二特征判断目标特征是否再次满足保留条件时,由于目标特征和第二特征之间存在交互影响,所以再次判断时根据目标特征计算出的似然参数估计值会发生变化,导致计算出的边际效应发生变化,因此首次计算满足保留条件的目标特征,再次进行判断时不一定会仍然满足保留条件;在基于目标特征和第二特征判断第二特征是否满足保留条件时,采用上述步骤1~3的方法判断第二特征是否满足保留条件:将第二特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;根据似然参数计算边际效应,判断边际效应是否小于最大边际效应绝对值;如果是,则满足保留条件。
示例性的,用户设置的最大边际效应绝对值可以是0.005,用户输入的多个特征中的年龄,在判断年龄是否满足保留条件时,计算得到年龄的边际效应为0.004813,该值小于用户设置的最大边际效应绝对值0.005,因此,年龄满足保留条件,可以作为保留特征。
在实际应用中,可以采用上述步骤(1)~(4)判断目标特征是否满足保留条件,也可以采用上述步骤1~3判断目标特征是否满足保留条件,还可以将上述步骤(1)~(4)与步骤1~3的实施方式结合使用,诸如,在第一次判断目标特征是否满足保留条件时,采用上述步骤(1)~(4)判断,在判断由保留特征确定的新的目标特征是否满足保留条件或判断第二特征是否满足保留条件时,采用上述步骤1~3判断。
为了能够实时观测重要特征的筛选过程,本实施例提供了另一种重要特征的筛选方法的实施方式,在图1的基础上,可进一步参见如图2所示的一种重要特征的筛选方法流程图,该方法包括以下步骤:
S202:接收用户输入的多个特征。
S204:从多个特征中选取第一特征,将第一特征作为目标特征。
S206:判断目标特征是否满足预设的保留条件。如果目标特征不满足保留条件,执行步骤S208;如果目标特征满足保留条件;执行步骤S210。
采用上述步骤(1)~(4)判断目标特征是否满足预设的保留条件,或者,采用上述步骤1~3判断目标特征是否满足预设的保留条件。
S208:将目标特征作为丢弃特征并输出。
若目标特征不满足预设的保留条件,则将目标特征作为丢弃特征输出,并将丢弃特征参与计算时获得的拉格朗日乘数检验统计量值、Wald统计量值和/或P-value值显示给用户。如果采用了步骤1~3判断是否满足保留条件,则将丢弃特征在判断时计算得到的边际效应都显示给用户
S210:从多个特征中选取第二特征,基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件。
S212:将满足保留条件的目标特征和/或第二特征作为保留特征。
S214:将保留特征作为新的目标特征,从多个特征中选取除第一特征和第二特征之外的一个其它特征。
S216:将选取的其它特征作为新的第二特征,重复执行判断步骤,直至用户输入的多个特征均参与判断步骤。
S218:将得到的保留特征确定为多个特征中的重要特征。
S220:获取各保留特征的似然参数估计值、拉格朗日乘数检验统计量值、Wald统计量值和/或P-value值并显示给用户。
在对用户输入的多个特征进行重要特征筛选时,用户输入的多个特征中的每个特征都会参与判断是否满足保留条件的计算,将多个特征中的保留特征在每次判断时计算得到的拉格朗日乘数检验统计量值、Wald统计量值和/或P-value值都显示给用户,如果采用了步骤1~3判断是否满足保留条件,则将保留特征在每次判断时计算得到的边际效应都显示给用户。方便用户能够时间观察到重要特征的筛选过程,以及观察到保留特征计算得到的拉格朗日乘数检验统计量值、Wald统计量值、P-value值和/或边际效应。
本发明实施例提供了一种重要特征的筛选方法,该方法使用边际效应、拉格朗日检验、Wald检验三种检验方法,使用逐步选择方法,对特征进行重要性评估,通过用户选择特征,设置特征保留方法、置信度及效应水平参数,将特征逐个纳入模型,并基于三种检验方法决定特征是否保留。该方法弥补了传统单指标重要特征筛选过程中忽视变量间交互效应的缺陷,同时,边际效应弥补了多特征入模筛选方法中对单独特征全局重要性评估不足的缺陷。
实施例二:
本发明实施例提供了一种重要特征的筛选装置,参见如图3所示的一种重要特征的筛选装置结构示意图,该装置包括:
特征接收模块31,用于接收用户输入的多个特征。
特征选取模块32,用于从多个特征中选取第一特征,将第一特征作为目标特征。
第一判断模块33,用于判断目标特征是否满足预设的保留条件。
第二判断模块34,用于在目标特征满足保留条件时,从多个特征中选取第二特征,基于目标特征和第二特征判断目标特征是否再次满足保留条件,以及基于目标特征和第二特征判断第二特征是否满足保留条件。
保留特征模块35,用于将满足保留条件的目标特征和/或第二特征作为保留特征。
特征更新模块36,用于将保留特征作为新的目标特征,从多个特征中选取除第一特征和第二特征之外的一个其它特征。
重复判断模块37,用于将选取的其它特征作为新的第二特征,重复执行上述第一判断模块和第二判断模块,直至用户输入的多个特征均参与判断步骤。
重要特征模块38,用于将得到的各保留特征确定为多个特征中的重要特征。
在一种实施方式中,上述装置还包括:
丢弃特征模块,用于在目标特征不满足保留条件时,将目标特征作为丢弃特征并输出。
在一种实施方式中,上述第一判断模块33进一步用于将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;根据似然参数计算拉格朗日乘数检验统计量值或Wald统计量值,并查询卡方分布表获得P-value值;判断P-value值是否大于预设的置信水平值;如果是,则满足保留条件。
在一种实施方式中,上述第一判断模块33还进一步用于将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;根据似然参数计算边际效应,判断边际效应是否小于最大边际效应绝对值;如果是,则满足保留条件。
在一种实施方式中,上述装置还包括:
参数显示模块,用于获取各保留特征的似然参数估计值、拉格朗日乘数检验统计量值、Wald统计量值和/或P-value值并显示给用户。
本发明实施例提供了一种重要特征的筛选装置,与上述实施例一提供的重要特征的筛选方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
本发明实施例提供的一种电子设备,如图4所示,电子设备包括处理器41、存储器42,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例一提供的方法的步骤。
参见图4,电子设备还包括:总线44和通信接口43,处理器41、通信接口43和存储器42通过总线44连接。处理器41用于执行存储器42中存储的可执行模块,例如计算机程序。
其中,存储器42可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线44可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器42用于存储程序,所述处理器41在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器41中,或者由处理器41实现。
处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等。还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成上述方法的步骤。
实施例四:
本发明实施例提供的一种计算机可读介质,其中,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现实施例一所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种重要特征的筛选方法,其特征在于,包括:
接收用户输入的多个特征;所述多个特征包括客户个人信用评价的影响因素;所述影响因素包括以下因素的一种或多种:年龄、收入、额度使用率、总资产、是否失业;
从多个所述特征中选取第一特征,将所述第一特征作为目标特征;
判断所述目标特征是否满足预设的保留条件;所述保留条件为所述目标特征的拉格朗日乘数检验统计量或Wald统计量对应的P-value值大于用户预设的置信水平值;
如果所述目标特征满足所述保留条件,从多个所述特征中选取第二特征,基于所述目标特征和所述第二特征判断所述目标特征是否再次满足所述保留条件,以及基于所述目标特征和所述第二特征判断所述第二特征是否满足所述保留条件;
将满足所述保留条件的所述目标特征和/或所述第二特征作为保留特征;
将所述保留特征作为新的目标特征,从多个所述特征中选取除所述第一特征和所述第二特征之外的一个其它特征;
将选取的所述其它特征作为新的第二特征,重复执行上述判断步骤,直至所述用户输入的多个所述特征均参与所述判断步骤;
将得到的所述保留特征确定为多个所述特征中的重要特征;所述重要特征用于对客户的个人信用的评价。
2.根据权利要求1所述的方法,其特征在于,还包括:如果所述目标特征不满足所述保留条件,将所述目标特征作为丢弃特征并输出。
3.根据权利要求1所述的方法,其特征在于,所述判断所述目标特征是否满足预设的保留条件的步骤,包括:
将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;
根据所述似然参数计算拉格朗日乘数检验统计量值或Wald统计量值,并查询卡方分布表获得P-value值;
判断所述P-value值是否大于预设的置信水平值;
如果是,则满足所述保留条件。
4.根据权利要求1所述的方法,其特征在于,所述判断所述目标特征是否满足预设的保留条件的步骤,包括:
将目标特征进行逻辑回归模型训练,计算获得逻辑回归因素系数β的似然参数估计值;
根据所述似然参数计算边际效应,判断所述边际效应是否小于最大边际效应绝对值;
如果是,则满足保留条件。
5.根据权利要求3所述的方法,其特征在于,还包括:
获取各所述保留特征的所述似然参数估计值、所述拉格朗日乘数检验统计量值、所述Wald统计量值和/或所述P-value值并显示给用户。
6.一种重要特征的筛选装置,其特征在于,包括:
特征接收模块,用于接收用户输入的多个特征;所述多个特征包括客户个人信用评价的影响因素;所述影响因素包括以下因素的一种或多种:年龄、收入、额度使用率、总资产、是否失业;特征选取模块,用于从多个所述特征中选取第一特征,将所述第一特征作为目标特征;
第一判断模块,用于判断所述目标特征是否满足预设的保留条件;所述保留条件为所述目标特征的拉格朗日乘数检验统计量或Wald统计量对应的P-value值大于用户预设的置信水平值;
第二判断模块,用于在所述目标特征满足所述保留条件时,从多个所述特征中选取第二特征,基于所述目标特征和所述第二特征判断所述目标特征是否再次满足所述保留条件,以及基于所述目标特征和所述第二特征判断所述第二特征是否满足所述保留条件;
保留特征模块,用于将满足所述保留条件的所述目标特征和/或所述第二特征作为保留特征;
特征更新模块,用于将所述保留特征作为新的目标特征,从多个所述特征中选取除所述第一特征和所述第二特征之外的一个其它特征;
重复判断模块,用于将选取的所述其它特征作为新的第二特征,重复执行上述第二判断模块,直至所述用户输入的多个所述特征均参与所述判断步骤;
重要特征模块,用于将得到的所述保留特征确定为多个所述特征中的重要特征;所述重要特征用于对客户的个人信用的评价。
7.根据权利要求6所述的装置,其特征在于,还包括:
丢弃特征模块,用于在所述目标特征不满足所述保留条件时,将所述目标特征作为丢弃特征并输出。
8.根据权利要求7所述的装置,其特征在于,还包括:
参数显示模块,用于获取各所述保留特征的似然参数估计值、拉格朗日乘数检验统计量值、Wald统计量值和/或P-value值并显示给用户。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
10.一种计算机可读介质,其特征在于,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现权利要求1至5任一项所述的方法。
CN201910317059.6A 2019-04-19 2019-04-19 重要特征的筛选方法、装置及电子设备 Active CN110059749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910317059.6A CN110059749B (zh) 2019-04-19 2019-04-19 重要特征的筛选方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910317059.6A CN110059749B (zh) 2019-04-19 2019-04-19 重要特征的筛选方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110059749A CN110059749A (zh) 2019-07-26
CN110059749B true CN110059749B (zh) 2020-05-19

Family

ID=67319737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910317059.6A Active CN110059749B (zh) 2019-04-19 2019-04-19 重要特征的筛选方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110059749B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796492A (zh) * 2019-10-29 2020-02-14 中国建设银行股份有限公司 一种重要特征的确定方法、装置、设备及存储介质
CN114898809B (zh) * 2022-04-11 2022-12-23 中国科学院数学与系统科学研究院 适用复杂性状的基因-环境交互的分析方法及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268572A (zh) * 2014-09-23 2015-01-07 南京大学 面向后台多源数据的特征提取和特征选择方法
CN105787501A (zh) * 2015-12-17 2016-07-20 武汉大学 输电线路走廊区域自动选择特征的植被分类方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN106251241A (zh) * 2016-08-02 2016-12-21 贵州电网有限责任公司信息中心 一种基于特征选择改进的LR‑Bagging算法
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法
CN108389069A (zh) * 2018-01-11 2018-08-10 国网山东省电力公司 基于随机森林和逻辑回归的优质客户识别方法及装置
CN108829715A (zh) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268572A (zh) * 2014-09-23 2015-01-07 南京大学 面向后台多源数据的特征提取和特征选择方法
CN105787501A (zh) * 2015-12-17 2016-07-20 武汉大学 输电线路走廊区域自动选择特征的植被分类方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN106251241A (zh) * 2016-08-02 2016-12-21 贵州电网有限责任公司信息中心 一种基于特征选择改进的LR‑Bagging算法
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法
CN108389069A (zh) * 2018-01-11 2018-08-10 国网山东省电力公司 基于随机森林和逻辑回归的优质客户识别方法及装置
CN108829715A (zh) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Benchmarking Attribute Selection Techniques for Discrete Class Data Mining》;Mark A. Hall等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20031231;第15卷(第6期);第1437-1447页 *
《Ensemble Logistic Regression for Feature Selection》;Roman Zakharov等;《PRIB 2011》;20111231;第133-144页 *
《特征选择方法在信用评估指标选取中的应用》;刘扬等;《数理统计与管理》;20061130;第25卷(第6期);第667-674页 *

Also Published As

Publication number Publication date
CN110059749A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN108564286B (zh) 一种基于大数据征信的人工智能金融风控授信评定方法和系统
JP6771751B2 (ja) リスク評価方法およびシステム
US8983936B2 (en) Incremental visualization for structured data in an enterprise-level data store
CN109615129B (zh) 房地产客户成交概率预测方法、服务器及计算机存储介质
CN112734559B (zh) 企业信用风险评价方法、装置及电子设备
CN112258093A (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN109189861A (zh) 基于指标的数据流统计方法、服务器及存储介质
CN110059749B (zh) 重要特征的筛选方法、装置及电子设备
Beranger et al. New models for symbolic data analysis
CN103544299B (zh) 一种商业智能云计算系统的构建方法
CN115983900A (zh) 用户营销策略的构建方法、装置、设备、介质和程序产品
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN115237804A (zh) 性能瓶颈的评估方法、装置、电子设备、介质和程序产品
CN112950359B (zh) 一种用户识别方法和装置
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测系统及介质
CN111523764B (zh) 业务架构检测方法、装置、工具、电子设备和介质
CN112667869A (zh) 数据处理方法、设备、系统及存储介质
WO2022095387A1 (zh) 地理位置信息的处理方法、装置、设备及存储介质
CN112950350B (zh) 一种基于机器学习的贷款产品推荐方法及系统
Inoue et al. Estimating customer impatience in a service system with unobserved balking
CN113191681A (zh) 网点选址方法、装置、电子设备及可读存储介质
CN113065944A (zh) 一种信货条件信用风险智能分析评估方法及系统
CN112184415A (zh) 数据处理方法、装置、电子设备和存储介质
CN117934154A (zh) 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品
CN113538020B (zh) 获取客群特征关联度方法、装置、存储介质和电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant