CN110766167A - 交互式特征选择方法、设备及可读存储介质 - Google Patents

交互式特征选择方法、设备及可读存储介质 Download PDF

Info

Publication number
CN110766167A
CN110766167A CN201911041217.6A CN201911041217A CN110766167A CN 110766167 A CN110766167 A CN 110766167A CN 201911041217 A CN201911041217 A CN 201911041217A CN 110766167 A CN110766167 A CN 110766167A
Authority
CN
China
Prior art keywords
feature selection
feature
component
input
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911041217.6A
Other languages
English (en)
Other versions
CN110766167B (zh
Inventor
林冰垠
唐兴兴
黄启军
王跃
范涛
陈天健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911041217.6A priority Critical patent/CN110766167B/zh
Publication of CN110766167A publication Critical patent/CN110766167A/zh
Application granted granted Critical
Publication of CN110766167B publication Critical patent/CN110766167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种交互式特征选择方法、设备及可读存储介质,所述交互式特征选择方法包括:接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果,接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。本发明解决了在机器学习建模时,特征选择方式局限性强的技术问题。

Description

交互式特征选择方法、设备及可读存储介质
技术领域
本发明涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种交互式特征选择方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在进行机器学习建模过程中,通常需要对输入机器学习模型的特征进行筛选,以提高机器学习模型的训练效果,目前,对于具有一定特征选择专家经验的业务建模人员,通常是通过代码开发或者Excel过滤进行特征选择,但是对于通过代码开发进行特征选择,通常需要业务建模人员具有较高的代码开发能力和调试能力,对于业务建模人员来说门槛较高,而对于通过Excel过滤进行特征选择,只能对单个特征进行筛选,无法对特征进行整体筛选和过滤,进而导致业务建模人员的工作效率极低,用户体验极差,所以,现有技术中存在在机器学习建模时,特征选择方式局限性强的技术问题。
发明内容
本发明的主要目的在于提供一种交互式特征选择方法、设备及可读存储介质,旨在解决现有技术中在机器学习建模时,特征选择方式局限性强的技术问题。
为实现上述目的,本发明实施例提供一种交互式特征选择方法,所述交互式特征选择方法应用于交互式特征选择设备,所述交互式特征选择方法包括:
接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果;
接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。
可选地,所述组件输入信息包括第一输入数据表,
所述将所述组件输入信息接入所述第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果的步骤包括:
将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述组件输入信息包括第一输入数据表,所述第一输入数据表包括输入训练数据表和输入验证数据表,其中,所述待选择特征包括第一待选择特征和第二待选择特征,
所述对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果的步骤包括:
判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征进行特征选择分箱,获得所述初始特征选择结果;
若所述特征选择方法包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待选择特征同时进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述组件输入信息包括第一输入数据表和输入特征选择模型,
所述将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果的步骤包括:
将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
将所述输入特征选择模型接入所述第一特征选择组件,以基于所述输入特征选择模型中的模型参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征筛选条件包括特征选择计算值范围,所述目标输出结果包括输出数据表和输出特征选择模型,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤包括:
接收所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征,获得所述输出数据表;
提取所述第一特征选择组件的组件参数,获得所述输出特征选择模型。
可选地,所述目标输出结果包括输出特征选择模型,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤之后包括:
将所述第一特征选择组件的模型输出端口与第二特征选择组件的模型输入端口进行连接,以将所述输出特征选择模型接入所述第二特征选择组件,获得所述输出特征选择模型的模型参数和中间参数;
基于所述模型参数,对所述第二特征选择组件进行参数配置,获得第二待运行特征选择组件;
接收第二输入数据表,并基于所述第二待运行特征选择组件和所述中间参数进行特征选择,其中,所述特征选择包括所述特征选择分箱和所述特征筛选。
可选地,所述目标输出结果包括输出数据表,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤之后包括:
将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,获得模型训练结果;
基于所述模型训练结果,计算各所述选择特征的特征权重值;
将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则保存所述选择特征;
当所述特征权重值小于所述预设特征权重阀值,则删除所述选择特征。
可选地,所述交互式特征选择方法还包括:
判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则获得初始特征选择结果;
若所述第一特征选择组件未运行成功,则查询所述第一特征选择组件对应的日志,以排查所述第一特征选择组件未运行成功的故障原因,并执行所述故障原因相对应的操作。
本发明还提供一种交互式特征选择装置,所述交互式特征选择装置应用于交互式特征选择设备,所述交互式特征选择装置包括:
第一特征选择分箱模块,用于所述接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果;
特征筛选模块,用于所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。
可选地,所述特征选择分箱模块包括:
第一接入单元,用于所述将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
第一参数配置单元,用于所述接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
第一特征选择单元,用于所述运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征选择单元包括:
第一判断子单元,用于所述判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征进行特征选择分箱,获得所述初始特征选择结果;
第二判断子单元,用于所述若所述特征选择方法包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待选择特征同时进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征选择分箱模块包括:
第二接入单元,用于所述将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
第二参数配置单元,用于所述将所述输入特征选择模型接入所述第一特征选择组件,以基于所述输入特征选择模型中的模型参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
第二特征选择单元,用于所述运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征筛选模块包括:
筛选单元,用于所述接收所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征,获得所述输出数据表;
提取单元,用于所述提取所述第一特征选择组件的组件参数,获得所述输出特征选择模型。
可选地,所述交互式特征选择装置还包括:
参数获取模块,用于所述将所述第一特征选择组件的模型输出端口与第二特征选择组件的模型输入端口进行连接,以将所述输出特征选择模型接入所述第二特征选择组件,获得所述输出特征选择模型的模型参数和中间参数;
组件获取模块,用于所述基于所述模型参数,对所述第二特征选择组件进行参数配置,获得第二待运行特征选择组件;
第二特征选择分箱模块,用于所述接收第二输入数据表,并基于所述第二待运行特征选择组件和所述中间参数进行特征选择,其中,所述特征选择包括所述特征选择分箱和所述特征筛选。
可选地,所述交互式特征选择装置还包括:
模型训练模块,用于所述将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,获得模型训练结果;
计算模块,用于所述基于所述模型训练结果,计算各所述选择特征的特征权重值;
第一比对模块,用于所述将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则保存所述选择特征;
第二对比模块,用于所述当所述特征权重值小于所述预设特征权重阀值,则删除所述选择特征。
可选地,所述交互式特征选择装置还包括:
第一判断模块,用于所述判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则获得初始特征选择结果;
第二判断模块,用于所述若所述第一特征选择组件未运行成功,则查询所述第一特征选择组件对应的日志,以排查所述第一特征选择组件未运行成功的故障原因,并执行所述故障原因相对应的操作。
本发明还提供一种交互式特征选择设备,所述交互式特征选择设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述交互式特征选择方法的程序,所述交互式特征选择方法的程序被处理器执行时可实现如上述的交互式特征选择方法的步骤。
本发明还提供一种可读存储介质,所述可读存储介质上存储有实现交互式特征选择方法的程序,所述交互式特征选择方法的程序被处理器执行时实现如上述的交互式特征选择方法的步骤。
本申请通过接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果,进而接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。也即,本申请首先进行所述组件输入信息的接收,进而将所述组件输入信息接入第一特征选择组件,进行对所述组件输入信息中的待选择特征的特征选择分箱,获得初始特征选择结果,进而进行特征筛选条件的接收,进一步地,基于所述特征筛选条件进行对所述初始特征选择结果的特征筛选,获得目标输出结果。也即,本申请通过将所述组件输入信息输入所述第一特征选择组件即可进行所述特征选择分箱,获得初始特征选择结果,进而将所述特征筛选条件输入所述第一特征选择组件即可进行所述特征筛选,获得目标输出结果,所以,本申请只需业务建模人员输入与建模经验有关的组件输入信息和特征筛选条件即可进行特征选择,且可对特征进行批量特征选择,也即,本申请提供了一种用于业务建模人员零代码开发基础的交互式特征选择方法,达到了业务建模人员零代码开发基础进行特征选择分箱和进行整体特征筛选和过滤的目的,避免了在进行特征选择时,对于业务建模人员的能力门槛要求过高和只能进行单个特征筛选和过滤的问题的发生,解决了现有技术中在机器学习建模时,特征选择方式局限性强的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明交互式特征选择方法第一实施例的流程示意图;
图2为本发明交互式特征选择方法中一种所述第一特征选择组件的示意图;
图3为本发明交互式特征选择方法中所述初始输出数据表的示意图;
图4为本发明交互式特征选择方法中设置所述模型参数的示意图;
图5为本发明交互式特征选择方法中所述目标输出数据表的示意图;
图6为本发明交互式特征选择方法中所述第一特征选择组件的模型输出端口与所述第二特征选择组件的模型输入端口进行连接的示意图;
图7为本发明交互式特征选择方法第二实施例的流程示意图;
图8为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种交互式特征选择方法,所述交互式特征选择方法应用于交互式特征选择设备,在本申请交互式特征选择方法的第一实施例中,参照图1,所述交互式特征选择方法包括:
步骤S10,接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果;
在本实施例中,需要说明的是,所述组件输入信息包括输入训练数据表、输入验证数据表和输入特征选择模型,且所述组件输入信息可由用户输入或者从预设数据库中读取,其中,所述输入训练数据表中包括多个特征,可用于第一类型特征选择计算方法,其中,第一类型特征选择计算方法包括所述iv值和ks等,其中,所述iv值和ks均为一种风控特征选择方法,可用于进行特征选择,所述输入验证数据表中包括多个验证特征,结合所述输入训练数据表可用于第二类型特征选择计算方法,其中,所述第二类型特征选择计算方法包括psi等,所述psi为一种风控特征选择方法,可用于进行特征选择,其中,所述特征选择包括特征选择分箱、特征筛选和特征选择计算值计算等,其中所述特征选择计算值包括iv值、ks值和psi值等,所述第一特征选择组件为预先设置好的特征选择组件,其中,如图2所示为一种第一特征选择组件的示意图,其中,所述第一特征选择组件包括3个输入端口和2个输出端口,所述3个输入端口分别为输入训练数据表端口、输入验证数据表端口和输入特征选择模型端口,所述2个输出端口分别为输出数据表端口和输出特征选择模型端口,所述“特征选择”即为第一特征选择组件,所述初始特征选择结果包括初始输出数据表,如图3所示为初始输出数据表的示意图,其中,所述训练集iv1和训练集ks1分别为所述输入训练数据表对应的iv值和ks值,所述验证集iv2和验证集ks2为所述输入验证数据表对应的iv值和ks值,所述PSI为所述输入训练数据表和所述输入验证数据表共同对应的psi值。
接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果,具体地,接收输入训练数据表、输入验证数据表和输入特征选择模型,进而将所述输入训练数据表、所述输入验证数据表和所述输入特征选择模型分别接入所述第一特征选择组件中的输入训练数据表端口、输入验证数据表端口和输入特征选择模型端口,进一步地,根据选定的特征选择计算方法,分别对所述输入训练数据表、所述输入验证数据表中的待选择特征进行特征选择分箱,获得初始特征选择结果。
其中,在步骤S10中,所述组件输入信息包括第一输入数据表和输入特征选择模型,
所述将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果的步骤包括:
步骤S11,将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
在本实施例中,需要说明的是,所述第一输入数据表包括第一输入训练数据表和第一输入验证数据表,所述选择信息包括用户勾选信息、输入文字信息和输入字符信息等信息。
将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征,具体地,将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息在所述第一输入数据表中选择所述选择信息对应的特征,也即,基于用户输入的选择信息获取所述第一输入数据表中的待选择特征。
步骤S12,将所述输入特征选择模型接入所述第一特征选择组件,以基于所述输入特征选择模型中的模型参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
在本实施例中,需要说明的是,所述输入特征选择模型为上游特征选择组件的输出特征选择模型端口输出的特征选择模型,在将所述上游特征选择组件的输出特征选择模型端口接入所述第一特征选择组件的输入特征选择模型端口时即可将所述输入特征选择模型接入所述第一特征选择组件,进而,所述第一特征选择组件可套用所述上游特征选择组件的模型参数,且所述上游特征选择组件和所述第一特征选择组件选择的特征应当一致,所述模型参数包括特征选择计算方法、分箱方法、最大分箱个数、WOE调整因子、缺失比例和选择topN%特征等,如图4所示为设置模型参数的示意图,其中,所述重要性方法即为特征选择计算方法,所述WOE调整因子用于特征最佳的分箱阀值,所述选择topN%特征为选待选择特征数量占所述第一输入数据表中所有特征的数量的占比。
将所述输入特征选择模型接入所述第一特征选择组件,以基于所述输入特征选择模型中的模型参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件,具体地,将所述输入特征选择模型对应的上游特征选择组件的输出特征选择模型端口接入所述第一特征选择组件的输入特征选择模型端口,以将所述输入特征选择模型接入所述第一特征选择组件,进而将所述输入特征选择模型中的模型参数套用至所述第一特征选择组件中,获得第一待运行特征选择组件。
步骤S13,运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
在本实施例中,运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果,具体地,基于用户输入的运行指令,运行所述第一待运行特征选择组件,以基于所述输入特征选择模型的中间参数对所述待选择特征进行特征选择分箱,以计算所述带选择特征对应的特征选择计算值,获得所述初始特征选择结果。
其中,所述所述交互式特征选择方法还包括:
步骤D10,判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则获得初始特征选择结果;
在本实施例中,需要说明的是,判断所述第一特征选择组件是否运行成功包括文字判别、结果判别等判别方式,例如,在所述第一特征选择组件对应的操作界面上设置一个文字框,当运行成功时,则在所述文字框中显示“运行成功”字样,当未运行成功时,则在所述则在所述文字框中显示“运行失败”字样。
判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则获得初始特征选择结果,具体地,判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则在所述第一特征选择组件将会输出所述初始特征选择结果。
步骤D20,若所述第一特征选择组件未运行成功,则查询所述第一特征选择组件对应的日志,以排查所述第一特征选择组件未运行成功的故障原因,并执行所述故障原因相对应的操作。
在本实施例中,需要说明的是,所述日志中包括所述第一特征选择组件的运行参数和运行状态等运行信息。
若所述第一特征选择组件未运行成功,则查询所述第一特征选择组件对应的日志,以排查所述第一特征选择组件未运行成功的故障原因,并执行所述故障原因相对应的操作,具体地,若所述第一特征选择组件未运行成功,则在所述日志中查询所述第一特征选择组件对应的运行信息,以排查所述第一特征选择组件未运行成功的故障原因,并基于所述故障原因,执行解决所述故障原因的操作或者放弃本次特征选择操作,例如,假设所述故障原因为未接入组件输入信息,则重新接入组件输入信息,以进行特征选择操作,假设所述故障原因为其他原因,则基于用户的指令,直接结束本次特征选择操作或者重新接入组件输入信息。
步骤S20,接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。
在本实施例中,需要说明的是,所述特征筛选条件包括特征选择计算值取值范围,例如iv值取值范围、ks值取值范围和psi值取值范围等所述特征选择计算值取值范围的获取方法包括用户输入或者从预设数据库中读取。
接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果,具体地,接收特征选择计算值取值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值取值范围中的待选择特征,获得目标输出结果,其中所述目标输出结果包括目标输出数据表,如图5所示为目标输出数据表的示意图,所述过滤框中的为所述特征选择计算值取值范围,所述训练集iv1和训练集ks1分别为所述输入训练数据表对应的iv值和ks值,所述验证集iv2和验证集ks2为所述输入验证数据表对应的iv值和ks值,所述PSI为所述输入训练数据表和所述输入验证数据表共同对应的psi值。
其中,所述特征筛选条件包括特征选择计算值范围,所述目标输出结果包括输出数据表和输出特征选择模型,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤包括:
步骤S21,接收所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征,获得所述输出数据表;
在本实施例中,接收所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征,获得所述输出数据表,具体地,接收用户确定的所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征选择计算值对应的特征,并输出进行筛选后的所述初始特征选择结果,获得所述输出数据表。
步骤S22,提取所述第一特征选择组件的组件参数,获得所述输出特征选择模型。
在本实施例中,需要说明的是,所述组件参数包括模型参数和中间参数,其中所述中间参数为进行特征选择时产生的参数,例如特征选择计算值范围、选择的特征类型和数目等,所述模型参数包括特征选择计算方法、分箱方法、最大分箱个数、WOE调整因子、缺失比例和选择topN%特征等。
提取所述第一特征选择组件的组件参数,获得所述输出特征选择模型,具体地,在获得所述输出数据表之后,提取所述第一特征选择组件中的模型参数和中间参数,进而将所述模型参数和所述中间参数以模型的形式进行输出,获得所述输出特征选择模型。
其中,所述目标输出结果包括输出特征选择模型,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤之后包括:
步骤A10,将所述第一特征选择组件的模型输出端口与第二特征选择组件的模型输入端口进行连接,以将所述输出特征选择模型接入所述第二特征选择组件,获得所述输出特征选择模型的模型参数和中间参数;
在本实施例中,需要说明的是,所述第二特征选择组件与所述预设第一特征选择模型的物理结构一致,且所述预设第二特征选择模型在所述预设第一特征选择模型的下游,如图6所示即为将所述第一特征选择组件的模型输出端口与第二特征选择组件的模型输入端口进行连接的示意图,其中,图6中上方的“特征选择”为第一特征选择组件,图6中下方的“特征选择(1)”为第二特征选择组件。
步骤A20,基于所述模型参数,对所述第二特征选择组件进行参数配置,获得第二待运行特征选择组件;
基于所述模型参数,对所述第二特征选择组件进行参数配置,获得第二待运行特征选择组件,具体地,基于所述模型参数,对所述第二特征选择组件进行参数配置,以将所述模型参数套用至所述第二特征选择组件,获得第二待运行特征选择组件。
步骤A30,接收第二输入数据表,并基于所述第二待运行特征选择组件和所述中间参数进行特征选择,其中,所述特征选择包括所述特征选择分箱和所述特征筛选。
在本实施例中,需要说明的是,所述第二输入数据表的接入可通过用户输入或者从预设数据库中进行读取,所述第二输入数据表包括第二输入训练数据表和第二输入验证数据表。
接收第二输入数据表,并基于所述第二待运行特征选择组件和所述中间参数进行特征选择,其中,所述特征选择包括所述特征选择分箱和所述特征筛选,具体地,接收第二输入数据表,并基于所述第二输入数据表对所述第二输入数据表进行特征选择分箱,进而基于所述中间参数,对进行特征选择分箱后的所述第二输入数据表进行特征筛选。
其中,所述目标输出结果包括输出数据表,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤之后包括:
步骤B10,将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,获得模型训练结果;
在本实施例中,需要说明的是,所述预设待训练模型为进行机器学习训练的训练模型,所述模型训练结果为损失函数值,其中,所述损失函数值用于评价模型训练的程度,所述损失函数值越接近预设损失函数值阀值,则模型训练效果越好,且当所述损失函数值小于或者等于所述预设损失函数阀值时,这模型训练完毕。
将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,获得模型训练结果,具体地,将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,并在模型训练完成后,计算模型训练后的所述预设待训练模型的损失函数值,获得模型训练结果,例如,假设所述损失函数值为训练误差,在进行模型训练之前,所述预设待训练模型的训练误差为100%,模型训练之后,所述预设待训练模型的训练误差为50%,则所述模型训练结果为模型误差减少了50%。
步骤B20,基于所述模型训练结果,计算各所述选择特征的特征权重值;
在本实施例中,需要说明的是,所述模型训练结果还包括每一所述选择特征对应的模型训练子结果,且所述特征权重值越大,则表明所述特征权重值对应的选择特征对所述预设待训练模型的训练效果越好,相应的所述选择特征的重要程度越高。
基于所述模型训练结果,计算各所述选择特征的特征权重值,具体地,基于各所述模型训练子结果,计算各所述子结果对应的特征权重值,获得各所述选择特征的特征权重值,例如,假设所述模型训练结果为模型误差减少了50%,所述输出数据表包括选择特征A和选择特征B,当使用所述选择特征A对所述预设待训练模型进行模型训练时,所述预设待训练模型的训练误差减少了49%,当使用所述选择特征B对所述预设待训练模型进行模型训练时,所述预设待训练模型的训练误差减少了1%,则所述选择特征A对应的特征权重值为98%,所述选择特征B对应的特征权重值为2%。
步骤B30,将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则保存所述选择特征;
在本实施例中,需要说明的是,用户可对所述预设特征权重阀值进行确定和调整。
将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则保存所述选择特征,具体地,将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则判定所述选择特征的主要程度高,对所述预设待训练模型的训练效果好,则保存所述选择特征。
步骤B40,当所述特征权重值小于所述预设特征权重阀值,则删除所述选择特征。
在本实施例中,当所述特征权重值小于所述预设特征权重阀值,则删除所述选择特征,具体地,当所述特征权重值小于所述预设特征权重阀值,则判定所述选择特征的主要程度低,对所述预设待训练模型的训练效果差,则去除所述选择特征。
本实施例通过接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果,进而接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。也即,本实施例首先进行所述组件输入信息的接收,进而将所述组件输入信息接入第一特征选择组件,进行对所述组件输入信息中的待选择特征的特征选择分箱,获得初始特征选择结果,进而进行特征筛选条件的接收,进一步地,基于所述特征筛选条件进行对所述初始特征选择结果的特征筛选,获得目标输出结果。也即,本实施例通过将所述组件输入信息输入所述第一特征选择组件即可进行所述特征选择分箱,获得初始特征选择结果,进而将所述特征筛选条件输入所述第一特征选择组件即可进行所述特征筛选,获得目标输出结果,所以,本实施例只需业务建模人员输入与建模经验有关的组件输入信息和特征筛选条件即可进行特征选择,且可对特征进行批量特征选择,也即,本实施例提供了一种用于业务建模人员零代码开发基础的交互式特征选择方法,达到了业务建模人员零代码开发基础进行特征选择分箱和进行整体特征筛选和过滤的目的,避免了在进行特征选择时,对于业务建模人员的能力门槛要求过高和只能进行单个特征筛选和过滤的问题的发生,解决了现有技术中在机器学习建模时,特征选择方式局限性强的技术问题。
进一步地,参照图7,基于本申请中第一实施例,在交互式特征选择方法的另一实施例中,在步骤S10中,所述组件输入信息包括第一输入数据表,
所述将所述组件输入信息接入所述第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果的步骤包括:
步骤C10,将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
在本实施例中,将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征,具体地,将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息,在所述第一输入数据表中选取所述选择信息对应的待选择特征。
步骤C20,接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
在本实施例中,需要说明的是,所述特征选择参数需要用户进行输入或者从预设数据库中进行读取。
接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件,具体地,接收特征选择参数,并将所述特征选择参数输入所述第一特征选择组件的模型参数模块,进而通过所述模型参数模块对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件。
步骤C30,运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
在本实施例中,运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果,具体地,基于用户输入的运行指令,运行所述第一待运行特征选择组件,对所述待选择特征进行特征选择分箱,以计算所述带选择特征对应的特征选择计算值,获得所述初始特征选择结果。
其中,在步骤C30中,所述组件输入信息包括第一输入数据表,所述第一输入数据表包括输入训练数据表和输入验证数据表,其中,所述待选择特征包括第一待选择特征和第二待选择特征,
所述对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果的步骤包括:
步骤C31,判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征进行特征选择分箱,获得所述初始特征选择结果;
在本实施例中,需要说明的是,所述特殊类别特征选择方法即为所述第二类型特征选择计算方法,例如psi等。
判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征进行特征选择分箱,获得所述初始特征选择结果,具体地,判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则无需读取所述输入验证数据表的第二待选择特征进行特征选择,进而对所述输入训练数据表中的所述第一待选择特征进行特征选择,即可获得所述初始特征选择结果。
步骤C32,若所述特征选择方法包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待,选择特征同时进行特征选择,获得所述初始特征选择结果。
在本实施例中,若所述特征选择方法包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待选择特征同时进行特征选择分箱,获得所述初始特征选择结果,具体地,若所述特征选择方法包括所述特殊类别特征选择方法,则需要分别读取所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待选择特征,进而计算所述特殊类别特征选择方法对应的特征选择计算值,获得所述初始特征选择结果。
本实施例通过将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征,进而接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件,进一步地,运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。也即,本实施例通过将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息进行所述第一输入数据表中的待选择特征的获取,进而进行所述特征选择参数的接收,进而基于所述特征选择参数进行对所述第一特征选择组件的参数配置,获得第一待运行特征选择组件,进一步地,进行所述第一待运行特征选择组件的运行,以进行对所述待选择特征的特征选择,获得所述初始特征选择结果。也即,本实施例提供了一种基于人机交互的特征选择方法,在将所述第一输入数据表接入第一特征选择组件之后,首先通过用户输入的选择信息,获取所述第一输入数据表中的待选择特征,进而基于接收用户指令对应的特征选择参数,对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件,最后,基于用户的运行指令,运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果,所以本实施例通过该人机交互的方法达到使无较高的代码开发能力和调试能力的业务建模人员进行高效的特征选择的目的,降低了业务建模人员的工作门槛,提高了业务建模人员的工作效率,为解决现有技术中在机器学习建模时,特征选择方式局限性强的技术问题奠定了基础。
参照图8,图8是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图8所示,该交互式特征选择设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该交互式特征选择设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图8中示出的交互式特征选择设备结构并不构成对交互式特征选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及交互式特征选择程序。操作系统是管理和控制交互式特征选择设备硬件和软件资源的程序,支持交互式特征选择程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与交互式特征选择系统中其它硬件和软件之间通信。
在图8所示的交互式特征选择设备中,处理器1001用于执行存储器1005中存储的交互式特征选择程序,实现上述任一项所述的交互式特征选择方法的步骤。
本发明交互式特征选择设备具体实施方式与上述交互式特征选择方法各实施例基本相同,在此不再赘述。
本发明还提供一种交互式特征选择装置,所述交互式特征选择装置包括:
第一特征选择分箱模块,用于所述接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果;
特征筛选模块,用于所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。
可选地,所述特征选择分箱模块包括:
第一接入单元,用于所述将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
第一参数配置单元,用于所述接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
第一特征选择单元,用于所述运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征选择单元包括:
第一判断子单元,用于所述判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征进行特征选择分箱,获得所述初始特征选择结果;
第二判断子单元,用于所述若所述特征选择方法包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待选择特征同时进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征选择分箱模块包括:
第二接入单元,用于所述将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
第二参数配置单元,用于所述将所述输入特征选择模型接入所述第一特征选择组件,以基于所述输入特征选择模型中的模型参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
第二特征选择单元,用于所述运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
可选地,所述特征筛选模块包括:
筛选单元,用于所述接收所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征,获得所述输出数据表;
提取单元,用于所述提取所述第一特征选择组件的组件参数,获得所述输出特征选择模型。
可选地,所述交互式特征选择装置还包括:
参数获取模块,用于所述将所述第一特征选择组件的模型输出端口与第二特征选择组件的模型输入端口进行连接,以将所述输出特征选择模型接入所述第二特征选择组件,获得所述输出特征选择模型的模型参数和中间参数;
组件获取模块,用于所述基于所述模型参数,对所述第二特征选择组件进行参数配置,获得第二待运行特征选择组件;
第二特征选择分箱模块,用于所述接收第二输入数据表,并基于所述第二待运行特征选择组件和所述中间参数进行特征选择,其中,所述特征选择包括所述特征选择分箱和所述特征筛选。
可选地,所述交互式特征选择装置还包括:
模型训练模块,用于所述将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,获得模型训练结果;
计算模块,用于所述基于所述模型训练结果,计算各所述选择特征的特征权重值;
第一比对模块,用于所述将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则保存所述选择特征;
第二对比模块,用于所述当所述特征权重值小于所述预设特征权重阀值,则删除所述选择特征。
可选地,所述交互式特征选择装置还包括:
第一判断模块,用于所述判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则获得初始特征选择结果;
第二判断模块,用于所述若所述第一特征选择组件未运行成功,则查询所述第一特征选择组件对应的日志,以排查所述第一特征选择组件未运行成功的故障原因,并执行所述故障原因相对应的操作。
本发明交互式特征选择装置的具体实施方式与上述交互式特征选择方法各实施例基本相同,在此不再赘述。
本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的交互式特征选择方法的步骤。
本发明介质具体实施方式与上述交互式特征选择方法各实施例基本相同,在此不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。

Claims (10)

1.一种交互式特征选择方法,其特征在于,所述交互式特征选择方法包括:
接收组件输入信息,并将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果;
接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果。
2.如权利要求1所述交互式特征选择方法,其特征在于,所述组件输入信息包括第一输入数据表,
所述将所述组件输入信息接入所述第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果的步骤包括:
将所述第一输入数据表接入第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
接收特征选择参数,并基于所述特征选择参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
3.如权利要求2所述交互式特征选择方法,其特征在于,所述组件输入信息包括第一输入数据表,所述第一输入数据表包括输入训练数据表和输入验证数据表,其中,所述待选择特征包括第一待选择特征和第二待选择特征,
所述对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果的步骤包括:
判断特征选择参数中的特征选择方法是否包括特殊类别特征选择方法,若所述特征选择方法未包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征进行特征选择分箱,获得所述初始特征选择结果;
若所述特征选择方法包括所述特殊类别特征选择方法,则对所述输入训练数据表中的所述第一待选择特征和所述输入验证数据表中的所述第二待选择特征同时进行特征选择分箱,获得所述初始特征选择结果。
4.如权利要求1所述交互式特征选择方法,其特征在于,所述组件输入信息包括第一输入数据表和输入特征选择模型,
所述将所述组件输入信息接入第一特征选择组件,以对所述组件输入信息中的待选择特征进行特征选择分箱,获得初始特征选择结果的步骤包括:
将所述第一输入数据表接入所述第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
将所述输入特征选择模型接入所述第一特征选择组件,以基于所述输入特征选择模型中的模型参数对所述第一特征选择组件进行参数配置,获得第一待运行特征选择组件;
运行所述第一待运行特征选择组件,以对所述待选择特征进行特征选择分箱,获得所述初始特征选择结果。
5.如权利要求1所述交互式特征选择方法,其特征在于,所述特征筛选条件包括特征选择计算值范围,所述目标输出结果包括输出数据表和输出特征选择模型,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤包括:
接收所述特征选择计算值范围,并在所述初始特征选择结果中筛选处于所述特征选择计算值范围内的特征,获得所述输出数据表;
提取所述第一特征选择组件的组件参数,获得所述输出特征选择模型。
6.如权利要求1所述交互式特征选择方法,其特征在于,所述目标输出结果包括输出特征选择模型,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤之后包括:
将所述第一特征选择组件的模型输出端口与第二特征选择组件的模型输入端口进行连接,以将所述输出特征选择模型接入所述第二特征选择组件,获得所述输出特征选择模型的模型参数和中间参数;
基于所述模型参数,对所述第二特征选择组件进行参数配置,获得第二待运行特征选择组件;
接收第二输入数据表,并基于所述第二待运行特征选择组件和所述中间参数进行特征选择,其中,所述特征选择包括所述特征选择分箱和所述特征筛选。
7.如权利要求1所述交互式特征选择方法,其特征在于,所述目标输出结果包括输出数据表,
所述接收特征筛选条件,并基于所述特征筛选条件对所述初始特征选择结果进行特征筛选,获得目标输出结果的步骤之后包括:
将所述输出数据表中的选择特征输入预设待训练模型进行模型训练,获得模型训练结果;
基于所述模型训练结果,计算各所述选择特征的特征权重值;
将各所述特征权重值与预设特征权重阀值进行比对,当所述特征权重值大于或者等于所述预设特征权重阀值,则保存所述选择特征;
当所述特征权重值小于所述预设特征权重阀值,则删除所述选择特征。
8.如权利要求1所述交互式特征选择方法,其特征在于,所述交互式特征选择方法包括:
判断所述第一特征选择组件是否运行成功,若所述第一特征选择组件运行成功,则获得初始特征选择结果;
若所述第一特征选择组件未运行成功,则查询所述第一特征选择组件对应的日志,以排查所述第一特征选择组件未运行成功的故障原因,并执行所述故障原因相对应的操作。
9.一种交互式特征选择设备,其特征在于,所述交互式特征选择设备包括:存储器、处理器以及存储在存储器上的用于实现所述交互式特征选择方法的程序,
所述存储器用于存储实现交互式特征选择方法的程序;
所述处理器用于执行实现所述交互式特征选择方法的程序,以实现如权利要求1至8中任一项所述交互式特征选择方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现交互式特征选择方法的程序,所述实现交互式特征选择方法的程序被处理器执行以实现如权利要求1至8中任一项所述交互式特征选择方法的步骤。
CN201911041217.6A 2019-10-29 2019-10-29 交互式特征选择方法、设备及可读存储介质 Active CN110766167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911041217.6A CN110766167B (zh) 2019-10-29 2019-10-29 交互式特征选择方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911041217.6A CN110766167B (zh) 2019-10-29 2019-10-29 交互式特征选择方法、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110766167A true CN110766167A (zh) 2020-02-07
CN110766167B CN110766167B (zh) 2021-08-06

Family

ID=69334649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911041217.6A Active CN110766167B (zh) 2019-10-29 2019-10-29 交互式特征选择方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110766167B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324608A (zh) * 2020-02-14 2020-06-23 深圳前海微众银行股份有限公司 模型复用方法、装置、设备及存储介质
CN111507479A (zh) * 2020-04-15 2020-08-07 深圳前海微众银行股份有限公司 特征分箱方法、装置、设备及计算机可读存储介质
CN112051953A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种页面栏位的输出控制方法、装置及电子设备
CN113344147A (zh) * 2021-08-04 2021-09-03 北京世纪好未来教育科技有限公司 一种特征共享建模方法、装置、设备及其存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150106170A1 (en) * 2013-10-11 2015-04-16 Adam BONICA Interface and methods for tracking and analyzing political ideology and interests
US9449283B1 (en) * 2012-08-20 2016-09-20 Context Relevant, Inc. Selecting a training strategy for training a machine learning model
CN107679549A (zh) * 2017-09-08 2018-02-09 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107807814A (zh) * 2017-09-27 2018-03-16 百度在线网络技术(北京)有限公司 应用组件的构建方法、装置、设备及计算机可读存储介质
WO2018059016A1 (zh) * 2016-09-27 2018-04-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统
CN107909087A (zh) * 2017-09-08 2018-04-13 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN108376176A (zh) * 2018-03-14 2018-08-07 深圳日彤大数据有限公司 可拖拽式大数据可视化分析工具系统
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理系统及自动建模方法
CN109815267A (zh) * 2018-12-21 2019-05-28 天翼征信有限公司 数据建模中特征的分箱优化方法及系统、存储介质及终端
US20190213605A1 (en) * 2016-09-26 2019-07-11 Harman International Industries, Incorporated Systems and methods for prediction of automotive warranty fraud
CN110175191A (zh) * 2019-05-14 2019-08-27 复旦大学 数据分析中的数据过滤规则建模方法
CN110245688A (zh) * 2019-05-21 2019-09-17 中国平安财产保险股份有限公司 一种数据处理的方法及相关装置
CN110334814A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 用于构建风险控制模型的方法和系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9449283B1 (en) * 2012-08-20 2016-09-20 Context Relevant, Inc. Selecting a training strategy for training a machine learning model
US20150106170A1 (en) * 2013-10-11 2015-04-16 Adam BONICA Interface and methods for tracking and analyzing political ideology and interests
US20190213605A1 (en) * 2016-09-26 2019-07-11 Harman International Industries, Incorporated Systems and methods for prediction of automotive warranty fraud
WO2018059016A1 (zh) * 2016-09-27 2018-04-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统
CN107679549A (zh) * 2017-09-08 2018-02-09 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107909087A (zh) * 2017-09-08 2018-04-13 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107807814A (zh) * 2017-09-27 2018-03-16 百度在线网络技术(北京)有限公司 应用组件的构建方法、装置、设备及计算机可读存储介质
CN108376176A (zh) * 2018-03-14 2018-08-07 深圳日彤大数据有限公司 可拖拽式大数据可视化分析工具系统
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理系统及自动建模方法
CN109815267A (zh) * 2018-12-21 2019-05-28 天翼征信有限公司 数据建模中特征的分箱优化方法及系统、存储介质及终端
CN110175191A (zh) * 2019-05-14 2019-08-27 复旦大学 数据分析中的数据过滤规则建模方法
CN110245688A (zh) * 2019-05-21 2019-09-17 中国平安财产保险股份有限公司 一种数据处理的方法及相关装置
CN110334814A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 用于构建风险控制模型的方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KEWEI CHENG ET AL.: "SecureBoost: A Lossless Federated Learning Framework", 《ARXIV》 *
张明锦: "基于特征选择的多变量数据分析方法及其在谱学研究中的应用", 《中国博士学位论文全文数据库 基础科学辑》 *
李雪菲: "大规模结构化数据特征抽取系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨静: "信用评分卡的建立与应用", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *
爱吃串串的瘦子: "机器学习之特征选择 (feature_selection)", 《HTTPS://BLOG.CSDN.NET/WEIXIN_41988628/ARTICLE/DETAILS/83059759》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324608A (zh) * 2020-02-14 2020-06-23 深圳前海微众银行股份有限公司 模型复用方法、装置、设备及存储介质
CN111507479A (zh) * 2020-04-15 2020-08-07 深圳前海微众银行股份有限公司 特征分箱方法、装置、设备及计算机可读存储介质
CN111507479B (zh) * 2020-04-15 2021-08-10 深圳前海微众银行股份有限公司 特征分箱方法、装置、设备及计算机可读存储介质
CN112051953A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种页面栏位的输出控制方法、装置及电子设备
CN112051953B (zh) * 2020-09-29 2021-09-14 中国银行股份有限公司 一种页面栏位的输出控制方法、装置及电子设备
CN113344147A (zh) * 2021-08-04 2021-09-03 北京世纪好未来教育科技有限公司 一种特征共享建模方法、装置、设备及其存储介质

Also Published As

Publication number Publication date
CN110766167B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110766167B (zh) 交互式特征选择方法、设备及可读存储介质
US10943186B2 (en) Machine learning model training method and device, and electronic device
CN107341098B (zh) 软件性能测试方法、平台、设备及存储介质
US8938648B2 (en) Multi-entity test case execution workflow
CN112612686A (zh) 性能测试方法、装置、电子设备及存储介质
CN111340614A (zh) 基于联邦学习的样本采样方法、设备及可读存储介质
CN107807841B (zh) 服务器模拟方法、装置、设备及可读存储介质
CN112801800A (zh) 行为资金分析系统、方法、计算机设备及存储介质
CN114048857A (zh) 算力分配方法、装置及算力服务器
CN113434396A (zh) 接口测试方法、装置、设备、存储介质及程序产品
CN107249182A (zh) 一种短信发送方法及其装置、终端设备
CN109634950A (zh) 业务数据管理方法、装置、设备及计算机可读存储介质
CN110909888A (zh) 泛型决策树构建方法、装置、设备及可读存储介质
CN111475402A (zh) 程序功能的测试方法及相关装置
CN114817022A (zh) 铁路电子支付平台测试方法及系统、设备和存储介质
CA3060692A1 (en) Behaviour recognition method and apparatus, electronic device and storage medium
CN109871172B (zh) 一种自动化测试中的鼠标点击方法、装置及可读存储介质
CN105703964A (zh) 一种在线应用系统测试方法与设备
CN114676113A (zh) 一种基于任务分解的异构数据库迁移方法及系统
CN110263044B (zh) 数据存储方法、装置、设备及计算机可读存储介质
CN110807072A (zh) 交互式特征分箱处理方法、设备及可读存储介质
CN110716856A (zh) 一种分布式系统子模块交互测试方法及装置
CN104965742A (zh) 一种处理前端任务的自动化脚本及装置
US20220391808A1 (en) Data processing method, electronic device and storage medium
CN109003031A (zh) 一种生产调试产品的方法、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant