CN112364012A - 数据特征确定方法、装置及电子设备 - Google Patents

数据特征确定方法、装置及电子设备 Download PDF

Info

Publication number
CN112364012A
CN112364012A CN202110045213.6A CN202110045213A CN112364012A CN 112364012 A CN112364012 A CN 112364012A CN 202110045213 A CN202110045213 A CN 202110045213A CN 112364012 A CN112364012 A CN 112364012A
Authority
CN
China
Prior art keywords
feature set
feature
features
processed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110045213.6A
Other languages
English (en)
Other versions
CN112364012B (zh
Inventor
顾凌云
谢旻旗
段湾
张涛
潘峻
陈尚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202110045213.6A priority Critical patent/CN112364012B/zh
Publication of CN112364012A publication Critical patent/CN112364012A/zh
Application granted granted Critical
Publication of CN112364012B publication Critical patent/CN112364012B/zh
Priority to US17/462,031 priority patent/US20220222595A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明所提供的数据特征确定方法、装置及电子设备,允许在初始阶段设定已选特征集合和必不选特征集合,对特征选择添加了先验特征,减少了不必要特征筛选的计算量。对特征使用了方差膨胀因子指标进行筛选,减少了特征之间存在多重共线性的可能性,有效降低了特征冗余的现象,提高了模型应用于信贷业务的性能。预设了最小提升阈值,对已经达到性能要求的模型提前停止,降低了模型后续无意义的计算,减少了计算量。根据最终数据特征所训练的模型,相较原有模型在信贷业务场景中有着更好的性能,提取特征所需的计算量相对较小且提取出来的特征鲜有相关性,再达到相同性能前提下所需的特征数量更少,也在一定程度上降低了数据存储所需的空间。

Description

数据特征确定方法、装置及电子设备
技术领域
本发明涉及数据特征处理技术领域,具体而言,涉及一种数据特征确定方法、装置及电子设备。
背景技术
现有的业务场景(例如信贷场景)中用户数据的特征非常多,对这些特征进行特征筛选既有利于过滤冗余和无效特征,也有利于提升模型预测的效果。对用户数据进行特征选择的方法主要有两类:一类是基于业务的人工特征选择,一般是技术人员结合信贷业务的相关知识、经验,人工剔除一些可能表现不好的特征;另一类是基于LogisticRegression(逻辑回归)的前向特征选择或后向特征选择。
第一类方法对技术人员的业务要求较高,需要进行人工特征选择,所以效率较低,而且效果不稳定,经常存在误判的现象,即将某个表现良好的特征删除、或是将某个表现不佳的特征保留。
第二类方法就基于Logistic Regression的前向特征选择而言,由于每轮都要将剩余的所有特征逐一与已选特征结合来训练模型,所以计算的时间复杂度较高。此外,之后加入的特征有可能与已选特征中的某些特征相关,形成多重共线性,致使特征出现冗余。后向特征选择的缺点与前向的基本相同。
发明内容
为了改善上述问题,本发明提供了一种数据特征确定方法、装置及电子设备。
第一方面,提供一种数据特征确定方法,应用于电子设备,所述方法包括以下步骤:
获取待处理数据集;
设定初始的已选特征集合和必不选特征集合;根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合;
设定最大入模变量数,方差膨胀因子阈值,以及模型AUC指标的最小提升阈值;
遍历所述候选特征集合,得到当前轮遍历结果;
从所述当前轮遍历结果中确定出AUC最大值,判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值;
若是,则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除,并返回执行遍历所述候选特征集合,得到当前轮遍历结果,直至所述已选特征集合中的特征数量达到所述最大入模变量数,然后将所述已选特征集合中的特征作为最终数据特征;
若否,将所述已选特征集合中的特征作为最终数据特征。
可选地,所述方法还包括:采用所述最终数据特征对目标模型进行训练和预测。
可选地,根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合,包括:
从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。
可选地,遍历所述候选特征集合,得到当前轮遍历结果,包括:
每次从所述候选特征集合挑选出一个待处理特征,并将所述待处理特征与所述已选特征集合进行组合,然后构建逻辑回归模型;
将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证,记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值;
若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值,将所述待处理特征从所述候选特征集合中删除;
若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值,则保留所述待处理特征。
第二方面,提供一种数据特征确定装置,应用于电子设备,所述装置包括以下模块:
数据获取模块,用于获取待处理数据集;
特征确定模块,用于设定初始的已选特征集合和必不选特征集合;根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合;
变量设定模块,用于设定最大入模变量数,方差膨胀因子阈值,以及模型AUC指标的最小提升阈值;
特征遍历模块,用于遍历所述候选特征集合,得到当前轮遍历结果;
特征筛选模块,用于从所述当前轮遍历结果中确定出AUC最大值,判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值;
若是,则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除,并返回执行遍历所述候选特征集合,得到当前轮遍历结果,直至所述已选特征集合中的特征数量达到所述最大入模变量数,然后将所述已选特征集合中的特征作为最终数据特征;
若否,将所述已选特征集合中的特征作为最终数据特征。
可选地,所述装置还包括:模型训练模块,用于采用所述最终数据特征对目标模型进行训练和预测。
可选地,所述特征确定模块根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合具体包括:
从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。
可选地,所述特征遍历模块遍历所述候选特征集合,得到当前轮遍历结果具体包括:
每次从所述候选特征集合挑选出一个待处理特征,并将所述待处理特征与所述已选特征集合进行组合,然后构建逻辑回归模型;
将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证,记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值;
若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值,将所述待处理特征从所述候选特征集合中删除;
若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值,则保留所述待处理特征。
第三方面,提供一种电子设备,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现第一方面所述的方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现第一方面所述的方法。
本发明实施例所提供的数据特征确定方法、装置及电子设备,基于逻辑回归进行改进,首先,允许在初始阶段设定已选特征集合和必不选特征集合,相当于给模型的特征选择添加了先验特征,减少了不必要特征筛选的计算量,其次,对特征使用了衡量特征与特征之间相关关系的方差膨胀因子指标进行筛选,减少了特征之间存在多重共线性的可能性,有效降低了特征冗余的现象,提高了模型应用于信贷业务的性能。最后,预设了最小提升阈值,对已经达到性能要求的模型提前停止,降低了模型后续无意义的计算,减少了计算量。根据最终数据特征所训练的模型,相较原有模型在信贷业务场景中有着更好的性能,同时本方法提取特征所需的计算量相对较小,由于提取出来的特征鲜有相关性,达到相同性能前提下所需的特征数量更少,因而也在一定程度上降低了数据存储所需的空间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种数据特征确定方法的流程图。
图2为本发明实施例所提供的一种数据特征确定装置的模块框图。
图3为本发明实施例所提供的一种电子设备的硬件结构图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
发明人经研究和分析发现,前向特征选择的一般步骤如下:
①电子设备从文档或数据库中读取相关的用户数据集;
②初始化空集作为已选特征集合,并将数据集中所有特征的集合作为候选特征集合;
③遍历候选特征集合,从候选特征里逐个选择特征与已选特征集合组合,训练模型并评估模型效果,记录下该特征对应的模型评估指标;
④从候选特征中选择一个使得模型性能表现最好的特征加入已选特征集合,并将该特征从候选特征集合中删除;
⑤重复③和④,直到已选特征集合中特征的数量达到了预设的最大特征个数则迭代停止,并将已选特征集合中的所有特征作为模型最终筛选出来的特征。
基于Logistic Regression的后向特征选择与前向特征选择类似,其一般步骤如下:
①电子设备从文档或数据库中读取相关的用户数据集;
②初始化空集作为已剔除的特征集合,并将数据集中所有特征的集合作为待剔除特征集合;
③遍历待剔除特征集合,从该集合里逐个选择特征,用待剔除集合中除了该特征以外所有特征训练模型并评估模型效果,记录下该特征对应的模型评估指标;
④从待剔除特征集合中选择一个使得模型性能表现最好的特征剔除;
⑤重复③和④,直到待剔除特征集合中特征的数量达到了预设的最大特征个数则迭代停止,并将待剔除特征集合中的所有特征作为模型最终筛选出来的特征。
然而,就基于Logistic Regression的前向特征选择而言,由于每轮都要将剩余的所有特征逐一与已选特征结合来训练模型,所以计算的时间复杂度较高。此外,之后加入的特征有可能与已选特征中的某些特征相关,形成多重共线性,致使特征出现冗余。后向特征选择的缺点与前向的基本相同。
为此,本发明对基于Logistic Regression的前向特征选择进行改进,设定了初始的已选特征集合和必不选的特征集合,并通过衡量某特征的方差与其他特征之间相关关系的方差膨胀因子vif指标对模型的特征进行筛选,降低了特征相关的可能性。
请参阅图1,示出了一种数据特征确定方法,应用于电子设备,所述方法包括以下步骤S110-步骤S170所描述的内容。
步骤S110,获取待处理数据集。
步骤S120,设定初始的已选特征集合和必不选特征集合;根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合。
在本实施例中,已选特征集合和必不选特征集合是相对的,已选特征集合可以根据实际的业务情况进行选择,同样地,必不选特征集合也可以根据根据实际的业务情况进行排除。进一步地,已选特征集合和必不选特征集合可以理解为已确定的特征集合。在本实施例中,已选特征集合和必不选特征集合可以是针对信贷业务领域而言的数据特征集合例如身份特征、借贷行为特征等,在此不作限定。
步骤S130,设定最大入模变量数,方差膨胀因子阈值,以及模型AUC指标的最小提升阈值。
步骤S140,遍历所述候选特征集合,得到当前轮遍历结果。
步骤S150,从所述当前轮遍历结果中确定出AUC最大值,判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值。
步骤S160,若是,则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除,并返回执行遍历所述候选特征集合,得到当前轮遍历结果,直至所述已选特征集合中的特征数量达到所述最大入模变量数,然后将所述已选特征集合中的特征作为最终数据特征。
步骤S170,若否,将所述已选特征集合中的特征作为最终数据特征。
为便于理解,下面以一具体示例进行说明。
步骤1,电子设备从文本或数据库中获取带有二分类标签的数据集,二分类标签分为正例和反例,比如借贷数据中用标签1指代审核没通过不予放款,即正例,标签0指代审核通过可放款,即反例;
步骤2,设定初始的已选特征集合S和必不选的特征集合O,根据数据集所有特征组成的集合A,按C=A-S-O的方式计算出候选特征集合C;
步骤3,设定最大入模变量数n_features、vif指标的阈值vif_threshold和模型AUC指标的最小提升阈值min_increase;
步骤4,遍历候选特征集合C,每次从中挑一个特征F与已选特征集合S组合,以此构建Logistic Regression模型,并将模型在数据集上进行5折的交叉验证,记录该特征F所对应模型5次交叉验证AUC指标的平均值avg_auc和5次交叉验证vif的最大值max_vif,若该特征F的max_vif大于预先设定的阈值vif_threshold,则认为该特征与已选特征集合S中的某些特征存在多重共线性,若将该特征添加至已选特征集合S中会带来特征冗余,因此将该特征从候选特征集合中删除,不参与后续的迭代;
步骤5,从该轮遍历所有候选特征的avg_auc中找到最大值并记为max_auc,若该轮max_auc与上轮max_auc的差值大于最小提升阈值min_increase,则将该轮max_auc对应的特征加入已选特征集合S,并将该特征从候选特征C中移除;若该轮max_auc与上轮max_auc的差值小于min_increase,则提前停止迭代,跳过步骤6直接执行步骤7,并将已选特征集合S中的特征作为模型最终筛选出来的特征;
步骤6,重复步骤4和步骤5,直到已选特征集合S中特征的数量达到了预设的n_features,则停止迭代,并将已选特征集合S中的特征作为模型最终筛选出来的特征;
步骤7,将筛选出来的特征输入信贷业务的其他模型进行训练和预测。
可以理解,基于上述内容,允许在初始阶段设定已选特征集合和必不选特征集合,相当于给模型的特征选择添加了先验特征,减少了不必要特征筛选的计算量,其次,对特征使用了衡量特征与特征之间相关关系的方差膨胀因子指标进行筛选,减少了特征之间存在多重共线性的可能性,有效降低了特征冗余的现象,提高了模型应用于信贷业务的性能。最后,预设了最小提升阈值,对已经达到性能要求的模型提前停止,降低了模型后续无意义的计算,减少了计算量。根据最终数据特征所训练的模型,相较原有模型在信贷业务场景中有着更好的性能,同时本方法提取特征所需的计算量相对较小,由于提取出来的特征鲜有相关性,达到相同性能前提下所需的特征数量更少,因而也在一定程度上降低了数据存储所需的空间。
可选地,所述方法还包括:采用所述最终数据特征对目标模型进行训练和预测。
可选地,根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合,包括:从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。
可选地,遍历所述候选特征集合,得到当前轮遍历结果,包括:每次从所述候选特征集合挑选出一个待处理特征,并将所述待处理特征与所述已选特征集合进行组合,然后构建逻辑回归模型;将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证,记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值;若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值,将所述待处理特征从所述候选特征集合中删除;若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值,则保留所述待处理特征。
基于上述同样的发明构思,请结合参阅图2,示出了一种数据特征确定装置200,应用于电子设备,所述装置包括以下模块:
数据获取模块210,用于获取待处理数据集;
特征确定模块220,用于设定初始的已选特征集合和必不选特征集合;根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合;
变量设定模块230,用于设定最大入模变量数,方差膨胀因子阈值,以及模型AUC指标的最小提升阈值;
特征遍历模块240,用于遍历所述候选特征集合,得到当前轮遍历结果;
特征筛选模块250,用于从所述当前轮遍历结果中确定出AUC最大值,判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值;
若是,则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除,并返回执行遍历所述候选特征集合,得到当前轮遍历结果,直至所述已选特征集合中的特征数量达到所述最大入模变量数,然后将所述已选特征集合中的特征作为最终数据特征;
若否,将所述已选特征集合中的特征作为最终数据特征。
可选地,所述装置还包括:模型训练模块260,用于采用所述最终数据特征对目标模型进行训练和预测。
可选地,所述特征确定模块220根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合具体包括:从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。
可选地,所述特征遍历模块240遍历所述候选特征集合,得到当前轮遍历结果具体包括:每次从所述候选特征集合挑选出一个待处理特征,并将所述待处理特征与所述已选特征集合进行组合,然后构建逻辑回归模型;将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证,记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值;若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值,将所述待处理特征从所述候选特征集合中删除;若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值,则保留所述待处理特征。
在上述基础上,如图3所示,提供了一种电子设备100,包括互相之间通信的处理器110和存储器120,所述处理器110用于从所述存储器120中调取计算机程序,并通过运行所述计算机程序实现上述的方法。
在上述基础上,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现上述的方法。
综上,本发明实施例所提供的数据特征确定方法、装置及电子设备,基于逻辑回归进行改进,首先,允许在初始阶段设定已选特征集合和必不选特征集合,相当于给模型的特征选择添加了先验特征,减少了不必要特征筛选的计算量,其次,对特征使用了衡量特征与特征之间相关关系的方差膨胀因子指标进行筛选,减少了特征之间存在多重共线性的可能性,有效降低了特征冗余的现象,提高了模型应用于信贷业务的性能。最后,预设了最小提升阈值,对已经达到性能要求的模型提前停止,降低了模型后续无意义的计算,减少了计算量。根据最终数据特征所训练的模型,相较原有模型在信贷业务场景中有着更好的性能,同时本方法提取特征所需的计算量相对较小,由于提取出来的特征鲜有相关性,达到相同性能前提下所需的特征数量更少,因而也在一定程度上降低了数据存储所需的空间。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据特征确定方法,其特征在于,应用于电子设备,所述方法包括以下步骤:
获取待处理数据集;
设定初始的已选特征集合和必不选特征集合;根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合;
设定最大入模变量数,方差膨胀因子阈值,以及模型AUC指标的最小提升阈值;
遍历所述候选特征集合,得到当前轮遍历结果;
从所述当前轮遍历结果中确定出AUC最大值,判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值;
若是,则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除,并返回执行遍历所述候选特征集合,得到当前轮遍历结果,直至所述已选特征集合中的特征数量达到所述最大入模变量数,然后将所述已选特征集合中的特征作为最终数据特征;
若否,将所述已选特征集合中的特征作为最终数据特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用所述最终数据特征对目标模型进行训练和预测。
3.根据权利要求1所述的方法,其特征在于,根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合,包括:
从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。
4.根据权利要求1所述的方法,其特征在于,遍历所述候选特征集合,得到当前轮遍历结果,包括:
每次从所述候选特征集合挑选出一个待处理特征,并将所述待处理特征与所述已选特征集合进行组合,然后构建逻辑回归模型;
将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证,记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值;
若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值,将所述待处理特征从所述候选特征集合中删除;
若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值,则保留所述待处理特征。
5.一种数据特征确定装置,其特征在于,应用于电子设备,所述装置包括以下模块:
数据获取模块,用于获取待处理数据集;
特征确定模块,用于设定初始的已选特征集合和必不选特征集合;根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合;
变量设定模块,用于设定最大入模变量数,方差膨胀因子阈值,以及模型AUC指标的最小提升阈值;
特征遍历模块,用于遍历所述候选特征集合,得到当前轮遍历结果;
特征筛选模块,用于从所述当前轮遍历结果中确定出AUC最大值,判断所述当前轮遍历结果的AUC最大值与上一轮遍历结果的AUC最大值的差值是否大于所述最小提升阈值;
若是,则将所述当前轮遍历结果的AUC最大值对应的目标特征添加到所述已选特征集合中并将所述目标特征从所述候选特征集合中移除,并返回执行遍历所述候选特征集合,得到当前轮遍历结果,直至所述已选特征集合中的特征数量达到所述最大入模变量数,然后将所述已选特征集合中的特征作为最终数据特征;
若否,将所述已选特征集合中的特征作为最终数据特征。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:模型训练模块,用于采用所述最终数据特征对目标模型进行训练和预测。
7.根据权利要求5所述的装置,其特征在于,所述特征确定模块根据所述待处理数据集的初始数据特征集合、所述已选特征集合以及所述必不选特征集合,确定候选特征集合具体包括:
从所述初始数据特征集合中剔除所述已选特征集合和所述必不选特征集合以得到所述候选特征集合。
8.根据权利要求5所述的装置,其特征在于,所述特征遍历模块遍历所述候选特征集合,得到当前轮遍历结果具体包括:
每次从所述候选特征集合挑选出一个待处理特征,并将所述待处理特征与所述已选特征集合进行组合,然后构建逻辑回归模型;
将所述逻辑回归模型在所述初始数据特征集合上进行五折的交叉验证,记录所述待处理特征对应所述构建逻辑回归模型的五次交叉验证AUC指标的平均值以及五次交叉验证的方差膨胀因子的最大值;
若所述待处理特征对应的方差膨胀因子的最大值大于所述方差膨胀因子阈值,将所述待处理特征从所述候选特征集合中删除;
若所述待处理特征对应的方差膨胀因子的最大值小于等于所述方差膨胀因子阈值,则保留所述待处理特征。
9.一种电子设备,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1-4任一项所述的方法。
CN202110045213.6A 2021-01-14 2021-01-14 数据特征确定方法、装置及电子设备 Active CN112364012B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110045213.6A CN112364012B (zh) 2021-01-14 2021-01-14 数据特征确定方法、装置及电子设备
US17/462,031 US20220222595A1 (en) 2021-01-14 2021-08-31 Data feature determining method and apparatus, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110045213.6A CN112364012B (zh) 2021-01-14 2021-01-14 数据特征确定方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112364012A true CN112364012A (zh) 2021-02-12
CN112364012B CN112364012B (zh) 2021-04-09

Family

ID=74534919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110045213.6A Active CN112364012B (zh) 2021-01-14 2021-01-14 数据特征确定方法、装置及电子设备

Country Status (2)

Country Link
US (1) US20220222595A1 (zh)
CN (1) CN112364012B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114764603A (zh) * 2022-05-07 2022-07-19 支付宝(杭州)信息技术有限公司 针对用户分类模型、业务预测模型确定特征的方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840885B (zh) * 2023-02-23 2023-05-09 青岛创新奇智科技集团股份有限公司 一种深度合成特征的特征选择方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480686A (zh) * 2016-06-08 2017-12-15 阿里巴巴集团控股有限公司 一种筛选机器学习特征的方法和装置
AU2019100362A4 (en) * 2019-04-05 2019-05-09 Guo, Fengyu Miss Personal Credit Rating System Based on The Logistic Regression
CN110378391A (zh) * 2019-06-25 2019-10-25 北京三快在线科技有限公司 计算模型的特征筛选方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349641A1 (en) * 2019-05-03 2020-11-05 Mo Tecnologias, Llc System and method for determining credit and issuing a business loan using tokens and machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480686A (zh) * 2016-06-08 2017-12-15 阿里巴巴集团控股有限公司 一种筛选机器学习特征的方法和装置
AU2019100362A4 (en) * 2019-04-05 2019-05-09 Guo, Fengyu Miss Personal Credit Rating System Based on The Logistic Regression
CN110378391A (zh) * 2019-06-25 2019-10-25 北京三快在线科技有限公司 计算模型的特征筛选方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZISHENG ZHANG等: "Seizure Detection using Regression Tree Based Feature Selection and Polynomial SVM Classification", 《IEEE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114764603A (zh) * 2022-05-07 2022-07-19 支付宝(杭州)信息技术有限公司 针对用户分类模型、业务预测模型确定特征的方法及装置

Also Published As

Publication number Publication date
CN112364012B (zh) 2021-04-09
US20220222595A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
US10943186B2 (en) Machine learning model training method and device, and electronic device
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN112364012B (zh) 数据特征确定方法、装置及电子设备
CN110781960B (zh) 视频分类模型的训练方法、分类方法、装置及设备
CN113259325B (zh) 基于麻雀搜索算法优化Bi-LSTM的网络安全态势预测方法
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN114330714B (zh) 卷积神经网络剪枝优化方法、装置、电子设备及存储介质
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
US20090210362A1 (en) Object detector trained using a working set of training data
CN108629375B (zh) 电力客户分类方法、系统、终端及计算机可读存储介质
CN111581442A (zh) 一种实现图嵌入的方法、装置、计算机存储介质及终端
CN111125327A (zh) 一种基于短会话的新词发现方法、存储介质和电子装置
US6789070B1 (en) Automatic feature selection system for data containing missing values
CN111414993B (zh) 卷积神经网络的裁剪、卷积计算方法及装置
CN112801231A (zh) 用于业务对象分类的决策模型训练方法和装置
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质
CN116226681A (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN113782092B (zh) 一种生存期预测模型的生成方法及装置、存储介质
US11676050B2 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes
JP2021124949A (ja) 機械学習モデル圧縮システム、プルーニング方法及びプログラム
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置
KR100321793B1 (ko) 문서자동분류시스템에서의다중범주할당방법
CN116451771B (zh) 图像分类卷积神经网络压缩方法及芯粒器件数据分配方法
CN110309127B (zh) 一种数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant