CN112199559B - 数据特征的筛选方法、装置及计算机设备 - Google Patents
数据特征的筛选方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN112199559B CN112199559B CN202011413035.XA CN202011413035A CN112199559B CN 112199559 B CN112199559 B CN 112199559B CN 202011413035 A CN202011413035 A CN 202011413035A CN 112199559 B CN112199559 B CN 112199559B
- Authority
- CN
- China
- Prior art keywords
- feature
- image description
- combination
- screening
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例所提供的数据特征的筛选方法、装置及计算机设备,由于本发明在筛选时利用相关系数剔除了大部分趋势波动较大的特征,整个过程仅涉及相关性的计算,没有可视化的必要,因此整体上速率更快、效率更高。通过整个过程的筛选,精简了最终入模的变量数,简化了模型复杂度,降低了整体业务成本且提高了模型的可解释性。如此,利用IV计算过程中的分箱结果表,计算分箱取值与对应正例比率的相关性,可以衡量特征趋势,再与IV值结合进行特征筛选,能够在减少耗时和计算机资源消耗的情况下,确保即将入模的特征趋势好,衡量准确,可解释性强。
Description
技术领域
本发明涉及数据特征处理技术领域,具体而言,涉及一种数据特征的筛选方法、装置及计算机设备。
背景技术
在风控模型的搭建过程中,一个重要步骤是特征工程。特征工程是指使用专业背景知识和技巧处理数据,生成能更好地描述数据的特征,利用这些特征能使得机器学习算法发挥更好的作用地过程。所述过程包含了特征提取、特征构建、特征筛选等模块。
以逻辑回归为代表的线性模型作为可解释性较强的模型,在业界应用广泛。在线性模型建模的特征筛选模块中,通常的做法是首先通过EDA(探索性数据分析)对特征进行筛选,例如筛选掉缺失率较高,特征方差恒定不变,在时间维度上稳定性较差等特征;其次按照IV值,树模型输出的特征重要性等排序,筛选出预测能力较强的特征;最后,通过限制共线性的递归特征筛选法,筛选出特征间相关性较低且能达到最佳效果的特征组合入模。
然而,上述技术在筛选特征组合时会存在耗时过长、资源占用过多且单一特征的衡量不准确的问题。
发明内容
为了改善上述问题,本发明提供了一种数据特征的筛选方法、装置及计算机设备。
第一方面,提供一种数据特征的筛选方法,应用于计算机设备,所述方法包括:
从文本文件或者数据库中获取带有二分类标签的目标数据,确定所述目标数据的原始数据特征,并作为原始特征组合;
按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合;
采用所述第一特征组合训练树模型,并获取所述第一特征组合中的每个第一当前特征的增益贡献,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合;
根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合;
基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合;
将所述第四特征组合确定为所述目标数据的最终特征组合。
可选地,按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合,包括:
确定每个原始数据特征的缺失率,并筛选出缺失率低于设定缺失率的第一中间特征;
确定每个第一中间特征的稳定性系数,并筛选出稳定性系数大于设定系数的第二中间特征;
确定每个第二中间特征的方差,并筛选出方差大于设定方差的第三中间特征;
根据第三中间特征得到所述第一特征组合。
可选地,采用所述第一特征组合训练树模型,包括:
采用所述第一特征组合在训练集上训练所述树模型;其中,所述训练集是根据所述目标数据划分出来的数据集。
可选地,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合,包括:
筛选出增益贡献大于设定增益贡献的第一当前特征,并得到所述第二特征组合;
或按照增益贡献的由大到小的顺序将第一当前特征进行排序,得到排序队列,选取排序队列的前设定数量个第一当前特征得到所述第二特征组合。
可选地,根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合,包括:
计算所述第二特征组合中的每个第二当前特征的特征IV值,得到IV值列表;
从所述IV值列表中筛选出大于设定IV值的目标特征IV值,并根据所述目标特征IV值对应的第二当前特征得到所述第三特征组合。
可选地,基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合,包括:
确定所述第三特征组合中的每个第三当前特征的分箱均值与对应的分箱的正例比率的相关性系数;
筛选出相关性系数大于设定相关性系数的第三当前特征,并得到待处理特征组合;
确定所述待处理特征组合中的每个第四当前特征的IV图;
根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,以得到所述第四特征组合。
可选地,根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,包括:
确定出每个第四当前特征对应的IV图的第一图像描述特征、第二图像描述特征和第三图像描述特征,确定出所述第一图像描述特征对应的第一特征泛化因子与所述第二图像描述特征对应的第二特征泛化因子之间的第一泛化差异数据以及所述第二图像描述特征对应的第二特征泛化因子与所述第三图像描述特征对应的第三特征泛化因子之间的第二泛化差异数据;
针对所述第一图像描述特征,以所述第一特征泛化因子为参考按照所述第一泛化差异数据对所述第一图像描述特征进行特征维度修改得到第四图像描述特征;针对所述第二图像描述特征,以所述第二特征泛化因子为参考按照所述第二泛化差异数据对所述第二图像描述特征进行特征维度修改得到第五图像描述特征;
分别将所述第一图像描述特征和所述第二图像描述特征、所述第一图像描述特征和所述第四图像描述特征、所述第二图像描述特征和所述第三图像描述特征、以及所述第二图像描述特征和所述第五图像描述特征进行关联性匹配,得到第一关联匹配结果、第二关联匹配结果、第三关联匹配结果和第四关联匹配结果;
确定出所述第一关联匹配结果和所述第二关联匹配结果之间的第一匹配指标分布以及所述第三关联匹配结果和所述第四关联匹配结果之间的第二匹配指标分布;
判断所述第一匹配指标分布和所述第二匹配指标分布是否均落入设定分布区域内;若是,根据所述第一关联匹配结果和所述第三关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;若否,分别确定出所述第一匹配指标分布和所述第二匹配指标分布与所述设定分布区域的第一分布评价值和第二分布评价值;比较所述第一分布评价值和所述第二分布评价值的大小;在所述第一分布评价值小于所述第二分布评价值时,根据所述第一关联匹配结果和所述第二关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;在所述第一分布评价值大于所述第二分布评价值时,根据所述第三关联匹配结果和所述第四关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;
在所述检测结果中存在设定干扰标识时,将所述第四当前特征进行删除。
第二方面,提供一种数据特征的筛选装置,应用于计算机设备,所述装置包括:
数据获取模块,用于从文本文件或者数据库中获取带有二分类标签的目标数据,确定所述目标数据的原始数据特征,并作为原始特征组合;
第一筛选模块,用于按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合;
第二筛选模块,用于采用所述第一特征组合训练树模型,并获取所述第一特征组合中的每个第一当前特征的增益贡献,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合;
第三筛选模块,用于根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合;
第四筛选模块,用于基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合;
特征确定模块,用于将所述第四特征组合确定为所述目标数据的最终特征组合。
第三方面,提供一种计算机设备,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现第一方面所述的方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现第一方面所述的方法。
本发明实施例所提供的数据特征的筛选方法、装置及计算机设备,确定目标数据的原始数据特征并作为原始特征组合,按照多维筛选指标对原始特征组合进行逐层筛选得到第一特征组合,采用第一特征组合训练树模型并获取第一特征组合中的每个第一当前特征的增益贡献,基于增益贡献对第一特征组合进行筛选得到第二特征组合,根据特征IV值对第二特征组合进行筛选得到第三特征组合,基于第三特征组合以及在计算特征IV值时的分箱结果表对第三特征组合进行筛选得到第四特征组合,将第四特征组合确定为目标数据的最终特征组合。
由于本发明在筛选时利用相关系数剔除了大部分趋势波动较大的特征,整个过程仅涉及相关性的计算,没有可视化的必要,因此整体上速率更快、效率更高。通过整个过程的筛选,精简了最终入模的变量数,简化了模型复杂度,降低了整体业务成本且提高了模型的可解释性。
如此,利用IV计算过程中的分箱结果表,计算分箱取值与对应正例比率的相关性,可以衡量特征趋势,再与IV值结合进行特征筛选,能够在减少耗时和计算机资源消耗的情况下,确保即将入模的特征趋势好,衡量准确,可解释性强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种数据特征的筛选方法的流程图。
图2为本发明实施例所提供的一种数据特征的筛选装置的框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
发明人经调查和研究发现,现有技术的主要步骤如下。
1)计算机设备从文本文件或者数据库获取带有二分类标签的数据,二分类标签一般又称为正例和反例,比如风控场景下用1标签指代逾期,即正例,0标签指代正常还款,即反例。计算机根据该数据获取全部的特征。
2)计算机设备根据以上全部特征计算特征缺失率,特征方差及特征稳定性,筛选出特征缺失率小于一定阈值,特征方差大于一定阈值以及特征稳定性高于一定阈值的特征。
3)计算机设备根据以上全部特征计算特征IV,树模型特征重要性,筛选出信息量较大,重要程度较高的特征。
4)计算机设备初始化一个特征集合,按照一定顺序循环的往特征集合中添加新的特征,用新的特征集合建模。
5)循环过程中根据新特征组合建立的模型对数据预测的准确率、召回率,AUC、KS以及VIF等合评估业务需求的指标来衡量该特征组合的建模效果。如果能够有一定的效果提升,且与已选特征共线性小那么就保留下该轮新增的特征,否则舍弃。
6)直到扩充的特征组合中特征数量达到一定值,或者是扩充后的特征组合建模效果达到预期,或者所有的特征都被尝试过,其中数量和预期效果都是根据业务需求人为设定,就可以结束循环,并获得最佳的特征组合。
然而,发明人发现,现有方法中存在以下两个问题。
1)利用IV筛选预测性较强的特征时,由于业务场景下需要特征具有较强的可解释性,因此不仅需要挑选IV值高的变量,也要通过画IV图的方式,观察变量趋势是否合理,而一般业务面对的数据体量大,特征多,对大量特征进行IV作图后再观察趋势会消耗大量建模时间和计算机资源。
2)在利用树模型输出的重要性筛选预测性较强的特征时,衡量的是单个特征在全部特征组合过程中的重要程度,对单变量效果的衡量不准确。
因此,需要一种更好的特征选择方法,能直观反映特征的趋势。
图1示出一种数据特征的筛选方法,应用于计算机设备,所述方法包括以下步骤S21 -步骤S26 。
步骤S21 ,从文本文件或者数据库中获取带有二分类标签的目标数据,确定所述目标数据的原始数据特征,并作为原始特征组合。
其中,二分类标签一般又称为正例和反例,比如风控场景下用1标签指代逾期,即正例,0标签指代正常还款,即反例。
步骤S22 ,按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合。
步骤S23 ,采用所述第一特征组合训练树模型,并获取所述第一特征组合中的每个第一当前特征的增益贡献,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合。
步骤S24 ,根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合。
步骤S25 ,基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合。
步骤S26 ,将所述第四特征组合确定为所述目标数据的最终特征组合。
可以理解,通过上述步骤S21 -步骤S26 ,确定目标数据的原始数据特征并作为原始特征组合,按照多维筛选指标对原始特征组合进行逐层筛选得到第一特征组合,采用第一特征组合训练树模型并获取第一特征组合中的每个第一当前特征的增益贡献,基于增益贡献对第一特征组合进行筛选得到第二特征组合,根据特征IV值对第二特征组合进行筛选得到第三特征组合,基于第三特征组合以及在计算特征IV值时的分箱结果表对第三特征组合进行筛选得到第四特征组合,将第四特征组合确定为目标数据的最终特征组合。
由于本发明在筛选时利用相关系数剔除了大部分趋势波动较大的特征,整个过程仅涉及相关性的计算,没有可视化的必要,因此整体上速率更快、效率更高。通过整个过程的筛选,精简了最终入模的变量数,简化了模型复杂度,降低了整体业务成本且提高了模型的可解释性。
如此,利用IV计算过程中的分箱结果表,计算分箱取值与对应正例比率的相关性,可以衡量特征趋势,再与IV值结合进行特征筛选,能够在减少耗时和计算机资源消耗的情况下,确保即将入模的特征趋势好,衡量准确,可解释性强。
本发明提供的特征选择方法主要是在评估特征重要性是,结合IV值和特征趋势来针对二分类业务中线性模型建模,高效的选择出优异的特征组合。
IV值用于对特征进行编码和预测能力进行评估。将特征取值进行编码后分为t组,在每个组内计算当前正例yi占全局正例ys的比例以及当前组反例ni占全局反例ns的比例,然后利用相关公式计算得出。以分组编号为横轴,每个分组的数量和正例占比为双纵轴可以绘制出对应的IV图,IV图可以直观的表示特征随着取值的变化对应的正例占比趋势。
特征趋势是指特征与预测目标的变化趋势和方向的关联密切程度,本发明通过相关系数作为衡量这种程度的统计指标,相关系数包括皮尔逊相关系数、斯皮尔曼相关系数、肯德尔相关系数、Pointbiserial相关系数。如果特征变化趋势与预测目标变化趋势一致,即高度正相关,趋势性较好;如果特征变化趋势与预测目标变化趋势相反,即高度负相关,趋势性也较好;如果预测目标变化趋势与特征变化趋势在部分特征取值区间下一致,在部分特征取值区间下相反,则相关性较低,趋势性较差。特征趋势的计算利用的是IV计算过程中的分组结果。
注意到,在分析过程中,需要判断特征的数据类型并选用合适的相关系数。在分箱后,分组正例比率可以视为连续型变量。自变量特征的数据类型可以分为连续型变量和离散型变量。连续型变量是指在一定区间内可以任意取值,相邻的两个数值可取无限个值的特征,例如当前逾期金额可以是100元,也可以是100.1元,100.11元;离散型变量是指数值只能用自然数、整数、计数单位等描述的数据,例如在贷机构个数,只能以整数为单位。进一步看,离散型变量又分为二分类变量,有序分类变量和无序分类变量。其中,二分类变量是指只有两个类别的分类变量,类别之间没有顺序,例如性别变量就是一个二分类变量,可以分为“男性”和”女性”两个类别;有序分类变量可以有两个或者多个已排序的类别,例如在贷机构个数,可以是任意自然数个;无序分类变量是指有三个及以上类别的分类变量,无序分类变量的类别之间没有内在顺序,也不能像有序分类变量一样进行排序,例如手机品牌:苹果、三星、华为或其它,就是一个无序分类变量。
可选地,步骤S22 中,按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合,包括:
步骤S121,确定每个原始数据特征的缺失率,并筛选出缺失率低于设定缺失率的第一中间特征;
步骤S122,确定每个第一中间特征的稳定性系数,并筛选出稳定性系数大于设定系数的第二中间特征;
步骤S123,确定每个第二中间特征的方差,并筛选出方差大于设定方差的第三中间特征;
步骤S124,根据第三中间特征得到所述第一特征组合。
可选地,步骤S23 中,采用所述第一特征组合训练树模型,包括:采用所述第一特征组合在训练集上训练所述树模型;其中,所述训练集是根据所述目标数据划分出来的数据集。
可选地,步骤S23 中,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合,包括:筛选出增益贡献大于设定增益贡献的第一当前特征,并得到所述第二特征组合;或按照增益贡献的由大到小的顺序将第一当前特征进行排序,得到排序队列,选取排序队列的前设定数量个第一当前特征得到所述第二特征组合。
可选地,步骤S24 中,根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合,包括:
步骤S141,计算所述第二特征组合中的每个第二当前特征的特征IV值,得到IV值列表;
步骤S142,从所述IV值列表中筛选出大于设定IV值的目标特征IV值,并根据所述目标特征IV值对应的第二当前特征得到所述第三特征组合。
在一个可能的实施例中,步骤S25 所描述的基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合,包括:
步骤S151,确定所述第三特征组合中的每个第三当前特征的分箱均值与对应的分箱的正例比率的相关性系数;
步骤S152,筛选出相关性系数大于设定相关性系数的第三当前特征,并得到待处理特征组合;
步骤S153,确定所述待处理特征组合中的每个第四当前特征的IV图;
步骤S154,根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,以得到所述第四特征组合。
如此,基于上述步骤S151-步骤S153,能够在筛选特征时考虑干扰特征的影响,从而确保得到的第四特征组合符合实际业务需求。
在一个可能的实施例中,步骤S154所描述的根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,进一步可以包括以下步骤S1541-步骤S1546所描述的内容。
步骤S1541,确定出每个第四当前特征对应的IV图的第一图像描述特征、第二图像描述特征和第三图像描述特征,确定出所述第一图像描述特征对应的第一特征泛化因子与所述第二图像描述特征对应的第二特征泛化因子之间的第一泛化差异数据以及所述第二图像描述特征对应的第二特征泛化因子与所述第三图像描述特征对应的第三特征泛化因子之间的第二泛化差异数据。
步骤S1542,针对所述第一图像描述特征,以所述第一特征泛化因子为参考按照所述第一泛化差异数据对所述第一图像描述特征进行特征维度修改得到第四图像描述特征;针对所述第二图像描述特征,以所述第二特征泛化因子为参考按照所述第二泛化差异数据对所述第二图像描述特征进行特征维度修改得到第五图像描述特征。
步骤S1543,分别将所述第一图像描述特征和所述第二图像描述特征、所述第一图像描述特征和所述第四图像描述特征、所述第二图像描述特征和所述第三图像描述特征、以及所述第二图像描述特征和所述第五图像描述特征进行关联性匹配,得到第一关联匹配结果、第二关联匹配结果、第三关联匹配结果和第四关联匹配结果。
步骤S1544,确定出所述第一关联匹配结果和所述第二关联匹配结果之间的第一匹配指标分布以及所述第三关联匹配结果和所述第四关联匹配结果之间的第二匹配指标分布。
步骤S1545,判断所述第一匹配指标分布和所述第二匹配指标分布是否均落入设定分布区域内;若是,根据所述第一关联匹配结果和所述第三关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;若否,分别确定出所述第一匹配指标分布和所述第二匹配指标分布与所述设定分布区域的第一分布评价值和第二分布评价值;比较所述第一分布评价值和所述第二分布评价值的大小;在所述第一分布评价值小于所述第二分布评价值时,根据所述第一关联匹配结果和所述第二关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;在所述第一分布评价值大于所述第二分布评价值时,根据所述第三关联匹配结果和所述第四关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;
步骤S1546,在所述检测结果中存在设定干扰标识时,将所述第四当前特征进行删除。
这样设计,通过执行上述步骤S1541-步骤S1546,能够根据检测结果中的设定干扰标识准确提出作为干扰特征的第四当前特征,从而确保得到的第四特征组合符合实际业务需求。
在上述基础上,请结合参阅图2,提供了一种数据特征的筛选装置200,应用于计算机设备,所述装置包括:
数据获取模块210,用于从文本文件或者数据库中获取带有二分类标签的目标数据,确定所述目标数据的原始数据特征,并作为原始特征组合;
第一筛选模块220,用于按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合;
第二筛选模块230,用于采用所述第一特征组合训练树模型,并获取所述第一特征组合中的每个第一当前特征的增益贡献,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合;
第三筛选模块240,用于根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合;
第四筛选模块250,用于基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合;
特征确定模块260,用于将所述第四特征组合确定为所述目标数据的最终特征组合。
在上述基础上,提供了一种计算机设备,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现上述的方法。
在上述基础上,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现上述的方法。
综上,基于上述方案,由于本发明在筛选时利用相关系数剔除了大部分趋势波动较大的特征,整个过程仅涉及相关性的计算,没有可视化的必要,因此整体上速率更快、效率更高。通过整个过程的筛选,精简了最终入模的变量数,简化了模型复杂度,降低了整体业务成本且提高了模型的可解释性。如此,利用IV计算过程中的分箱结果表,计算分箱取值与对应正例比率的相关性,可以衡量特征趋势,再与IV值结合进行特征筛选,能够在减少耗时和计算机资源消耗的情况下,确保即将入模的特征趋势好,衡量准确,可解释性强。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种数据特征的筛选方法,其特征在于,应用于计算机设备,所述方法包括:
从文本文件或者数据库中获取带有二分类标签的目标数据,确定所述目标数据的原始数据特征,并作为原始特征组合;
按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合;
采用所述第一特征组合训练树模型,并获取所述第一特征组合中的每个第一当前特征的增益贡献,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合;
根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合;
基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合;
将所述第四特征组合确定为所述目标数据的最终特征组合;
其中,基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合,包括:
确定所述第三特征组合中的每个第三当前特征的分箱均值与对应的分箱的正例比率的相关性系数;
筛选出相关性系数大于设定相关性系数的第三当前特征,并得到待处理特征组合;
确定所述待处理特征组合中的每个第四当前特征的IV图;
根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,以得到所述第四特征组合;
其中,根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,包括:
确定出每个第四当前特征对应的IV图的第一图像描述特征、第二图像描述特征和第三图像描述特征,确定出所述第一图像描述特征对应的第一特征泛化因子与所述第二图像描述特征对应的第二特征泛化因子之间的第一泛化差异数据以及所述第二图像描述特征对应的第二特征泛化因子与所述第三图像描述特征对应的第三特征泛化因子之间的第二泛化差异数据;
针对所述第一图像描述特征,以所述第一特征泛化因子为参考按照所述第一泛化差异数据对所述第一图像描述特征进行特征维度修改得到第四图像描述特征;针对所述第二图像描述特征,以所述第二特征泛化因子为参考按照所述第二泛化差异数据对所述第二图像描述特征进行特征维度修改得到第五图像描述特征;
分别将所述第一图像描述特征和所述第二图像描述特征、所述第一图像描述特征和所述第四图像描述特征、所述第二图像描述特征和所述第三图像描述特征、以及所述第二图像描述特征和所述第五图像描述特征进行关联性匹配,得到第一关联匹配结果、第二关联匹配结果、第三关联匹配结果和第四关联匹配结果;
确定出所述第一关联匹配结果和所述第二关联匹配结果之间的第一匹配指标分布以及所述第三关联匹配结果和所述第四关联匹配结果之间的第二匹配指标分布;
判断所述第一匹配指标分布和所述第二匹配指标分布是否均落入设定分布区域内;若是,根据所述第一关联匹配结果和所述第三关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;若否,分别确定出所述第一匹配指标分布和所述第二匹配指标分布与所述设定分布区域的第一分布评价值和第二分布评价值;比较所述第一分布评价值和所述第二分布评价值的大小;在所述第一分布评价值小于所述第二分布评价值时,根据所述第一关联匹配结果和所述第二关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;在所述第一分布评价值大于所述第二分布评价值时,根据所述第三关联匹配结果和所述第四关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;
在所述检测结果中存在设定干扰标识时,将所述第四当前特征进行删除。
2.根据权利要求1所述的方法,其特征在于,按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合,包括:
确定每个原始数据特征的缺失率,并筛选出缺失率低于设定缺失率的第一中间特征;
确定每个第一中间特征的稳定性系数,并筛选出稳定性系数大于设定系数的第二中间特征;
确定每个第二中间特征的方差,并筛选出方差大于设定方差的第三中间特征;
根据第三中间特征得到所述第一特征组合。
3.根据权利要求1所述的方法,其特征在于,采用所述第一特征组合训练树模型,包括:
采用所述第一特征组合在训练集上训练所述树模型;其中,所述训练集是根据所述目标数据划分出来的数据集。
4.根据权利要求1所述的方法,其特征在于,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合,包括:
筛选出增益贡献大于设定增益贡献的第一当前特征,并得到所述第二特征组合;
或按照增益贡献的由大到小的顺序将第一当前特征进行排序,得到排序队列,选取排序队列的前设定数量个第一当前特征得到所述第二特征组合。
5.根据权利要求1所述的方法,其特征在于,根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合,包括:
计算所述第二特征组合中的每个第二当前特征的特征IV值,得到IV值列表;
从所述IV值列表中筛选出大于设定IV值的目标特征IV值,并根据所述目标特征IV值对应的第二当前特征得到所述第三特征组合。
6.一种数据特征的筛选装置,其特征在于,应用于计算机设备,所述装置包括:
数据获取模块,用于从文本文件或者数据库中获取带有二分类标签的目标数据,确定所述目标数据的原始数据特征,并作为原始特征组合;
第一筛选模块,用于按照多维筛选指标对所述原始特征组合进行逐层筛选,得到第一特征组合;
第二筛选模块,用于采用所述第一特征组合训练树模型,并获取所述第一特征组合中的每个第一当前特征的增益贡献,基于所述增益贡献对所述第一特征组合进行筛选,得到第二特征组合;
第三筛选模块,用于根据特征IV值对所述第二特征组合进行筛选,得到第三特征组合;
第四筛选模块,用于基于所述第三特征组合以及在计算所述特征IV值时的分箱结果表对所述第三特征组合进行筛选,得到第四特征组合;
特征确定模块,用于将所述第四特征组合确定为所述目标数据的最终特征组合;
其中,所述第四筛选模块,用于:
确定所述第三特征组合中的每个第三当前特征的分箱均值与对应的分箱的正例比率的相关性系数;
筛选出相关性系数大于设定相关性系数的第三当前特征,并得到待处理特征组合;
确定所述待处理特征组合中的每个第四当前特征的IV图;
根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,以得到所述第四特征组合;
其中,根据每个第四当前特征的增益贡献对每个第四当前特征对应的IV图进行检测得到检测结果,并基于所述检测结果从所述待处理特征组合中剔除干扰特征,包括:
确定出每个第四当前特征对应的IV图的第一图像描述特征、第二图像描述特征和第三图像描述特征,确定出所述第一图像描述特征对应的第一特征泛化因子与所述第二图像描述特征对应的第二特征泛化因子之间的第一泛化差异数据以及所述第二图像描述特征对应的第二特征泛化因子与所述第三图像描述特征对应的第三特征泛化因子之间的第二泛化差异数据;
针对所述第一图像描述特征,以所述第一特征泛化因子为参考按照所述第一泛化差异数据对所述第一图像描述特征进行特征维度修改得到第四图像描述特征;针对所述第二图像描述特征,以所述第二特征泛化因子为参考按照所述第二泛化差异数据对所述第二图像描述特征进行特征维度修改得到第五图像描述特征;
分别将所述第一图像描述特征和所述第二图像描述特征、所述第一图像描述特征和所述第四图像描述特征、所述第二图像描述特征和所述第三图像描述特征、以及所述第二图像描述特征和所述第五图像描述特征进行关联性匹配,得到第一关联匹配结果、第二关联匹配结果、第三关联匹配结果和第四关联匹配结果;
确定出所述第一关联匹配结果和所述第二关联匹配结果之间的第一匹配指标分布以及所述第三关联匹配结果和所述第四关联匹配结果之间的第二匹配指标分布;
判断所述第一匹配指标分布和所述第二匹配指标分布是否均落入设定分布区域内;若是,根据所述第一关联匹配结果和所述第三关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;若否,分别确定出所述第一匹配指标分布和所述第二匹配指标分布与所述设定分布区域的第一分布评价值和第二分布评价值;比较所述第一分布评价值和所述第二分布评价值的大小;在所述第一分布评价值小于所述第二分布评价值时,根据所述第一关联匹配结果和所述第二关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;在所述第一分布评价值大于所述第二分布评价值时,根据所述第三关联匹配结果和所述第四关联匹配结果确定出针对所述第四当前特征进行检测的检测指标信息并按照所述第四当前特征对应的检测指标信息对所述第一图像描述特征、所述第二图像描述特征和所述第三图像描述特征进行干扰变量检测得到检测结果;
在所述检测结果中存在设定干扰标识时,将所述第四当前特征进行删除。
7.一种计算机设备,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413035.XA CN112199559B (zh) | 2020-12-07 | 2020-12-07 | 数据特征的筛选方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413035.XA CN112199559B (zh) | 2020-12-07 | 2020-12-07 | 数据特征的筛选方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199559A CN112199559A (zh) | 2021-01-08 |
CN112199559B true CN112199559B (zh) | 2021-02-19 |
Family
ID=74034482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011413035.XA Active CN112199559B (zh) | 2020-12-07 | 2020-12-07 | 数据特征的筛选方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199559B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818028B (zh) * | 2021-01-12 | 2021-09-17 | 平安科技(深圳)有限公司 | 数据指标筛选方法、装置、计算机设备及存储介质 |
CN113516513B (zh) * | 2021-07-20 | 2023-04-07 | 重庆度小满优扬科技有限公司 | 数据分析方法、装置、计算机设备和存储介质 |
CN113610629A (zh) * | 2021-07-30 | 2021-11-05 | 百融云创科技股份有限公司 | 一种从大规模特征集中筛选客户数据特征的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784365A (zh) * | 2018-12-06 | 2019-05-21 | 深圳市创梦天地科技有限公司 | 一种特征选择方法、终端、可读介质及计算机程序 |
CN112036476A (zh) * | 2020-08-28 | 2020-12-04 | 上海冰鉴信息科技有限公司 | 基于二分类业务的数据特征选择方法、装置及计算机设备 |
CN112036572A (zh) * | 2020-08-28 | 2020-12-04 | 上海冰鉴信息科技有限公司 | 基于文本列表的用户特征提取方法及装置 |
-
2020
- 2020-12-07 CN CN202011413035.XA patent/CN112199559B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784365A (zh) * | 2018-12-06 | 2019-05-21 | 深圳市创梦天地科技有限公司 | 一种特征选择方法、终端、可读介质及计算机程序 |
CN112036476A (zh) * | 2020-08-28 | 2020-12-04 | 上海冰鉴信息科技有限公司 | 基于二分类业务的数据特征选择方法、装置及计算机设备 |
CN112036572A (zh) * | 2020-08-28 | 2020-12-04 | 上海冰鉴信息科技有限公司 | 基于文本列表的用户特征提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于机器学习算法的互联网金融风控模型研究;范晶晶;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第32-45页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112199559A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199559B (zh) | 数据特征的筛选方法、装置及计算机设备 | |
CN108683530B (zh) | 多维度数据的数据分析方法、装置及存储介质 | |
US8605996B2 (en) | Sentiment classification using out of domain data | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN111435463A (zh) | 数据处理方法及相关设备、系统 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
KR20200010624A (ko) | 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
Zaffar et al. | Role of FCBF feature selection in educational data mining | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
CN115730152A (zh) | 基于用户画像分析的大数据处理方法及大数据处理系统 | |
CN115660730A (zh) | 基于分类算法的流失用户分析方法及系统 | |
CN115392992A (zh) | 商品推荐方法、终端设备及计算机可读存储介质 | |
CN111382191A (zh) | 一种基于深度学习的机器学习识别方法 | |
CN111768021A (zh) | 订单价格调整方法、装置、服务器及存储介质 | |
WO2022156743A1 (zh) | 特征构建方法和装置、模型训练方法和装置、设备、介质 | |
CN116450632B (zh) | 地理样本数据质量评估方法、设备及存储介质 | |
CN114299043B (zh) | 点云质量评估方法、装置、电子设备和存储介质 | |
CN116738216B (zh) | 预警大数据的关联处理方法和装置 | |
CN114021788B (zh) | 预测方法、装置、电子设备和存储介质 | |
CN118038175A (zh) | 一种表面缺陷检测网络的剪枝方法及其应用与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |