CN110807072A - 交互式特征分箱处理方法、设备及可读存储介质 - Google Patents
交互式特征分箱处理方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110807072A CN110807072A CN201911043102.0A CN201911043102A CN110807072A CN 110807072 A CN110807072 A CN 110807072A CN 201911043102 A CN201911043102 A CN 201911043102A CN 110807072 A CN110807072 A CN 110807072A
- Authority
- CN
- China
- Prior art keywords
- binning
- interactive
- command
- feature
- splitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种交互式特征分箱处理方法、设备和可读存储介质,所述交互式特征分箱处理方法包括:获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果,基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。本发明解决了特征分箱方法局限性强的技术问题。
Description
技术领域
本发明涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种交互式特征分箱处理方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在进行机器学习建模过程中,通常需要对输入机器学习模型的特征进行特征分箱,目前,常常需要业务建模人员结合对业务实际特征数据分布的理解对机器分箱后的特征施加人工处理,以提高机器学习模型的预测效果和减少建模的复杂度,其中,可通过代码开发实现所述人工处理,但由于业务建模人员缺乏代码开发能力和调试能力,利用代码开发实现所述人工处理对于业务建模人员的要求门槛过高且容易出错,而对于其他人工处理方法,例如通过Excel表格进行人工处理,工作效率极低,用户体验较差,所以,在现有技术中存在特征分箱方法局限性强的技术问题。
发明内容
本发明的主要目的在于提供一种交互式特征分箱处理方法、设备和可读存储介质,旨在解决现有技术中特征分箱方法局限性强的技术问题。
为实现上述目的,本发明实施例提供一种交互式特征分箱处理方法,所述交互式特征分箱处理方法应用于交互式特征分箱处理设备,所述交互式特征分箱处理方法包括:
获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果;
基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。
可选地,所述交互式特征分箱包括交互式合并,所述分箱命令包括合并命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果;
计算所述合并结果对应的合并分箱效果参数,并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对;
当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并;
当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。
可选地,所述合并命令包括第一类型合并命令和第二类型合并命令,所述待合并特征包括待合并区间型特征和待合并列名型特征,
所述基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果的步骤包括:
判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令,在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并,获得所述合并结果;
若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令,在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并,获得所述合并结果。
可选地,所述交互式特征分箱包括交互式拆分,所述分箱命令包括拆分命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果;
计算所述拆分结果对应的拆分分箱效果参数,并将所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数进行比对;
当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分;
当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。
可选地,所述拆分命令包括第一类型拆分命令和第二类型拆分命令,所述待拆分特征包括待拆分区间型特征和待拆分列名型特征,
所述基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果的步骤包括:
判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述第一类型拆分命令对应的截至值,在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果;
若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令,在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果。
可选地,所述交互式特征分箱包括缺失值分箱合并和缺失值分箱拆分,所述分箱命令包括缺失值分箱合并命令和缺失值分箱拆分命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则基于所述缺失值分箱合并命令,对所述初始特征分箱结果中的缺失值分箱进行交互式合并,获得所述目标特征分箱结果;
若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令,对所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果。
可选地,所述交互式特征分箱包括空箱处理,其中,所述空箱处理包括空箱交互式调整和基于空箱参数调整,所述分箱命令包括空箱处理命令,
所述基于用户输入的空箱处理命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述初始特征分箱结果进行所述空箱交互式调整,获得所述目标特征分箱结果;
若所述空箱处理命令类型为第二类型命令,则对所述初始特征分箱结果基于空箱参数进行调整,获得所述目标特征分箱结果。
可选地,所述将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果的步骤包括:
将所述数据表接入所述预设特征分箱组件,以基于用户输入的选择命令选择所述数据表中的待分箱特征;
基于所述用户输入的参数配置命令,对所述预设特征分箱组件进行参数配置,获得待运行特征分箱组件;
运行所述待运行特征分箱组件,以对所述待分箱特征进行所述特征分箱,获得所述初始特征分箱结果。
本发明还提供一种交互式特征分箱处理装置,所述交互式特征分箱处理装置应用于交互式特征分箱处理设备,所述交互式特征分箱处理装置包括:
机器分箱模块,用于所述获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果;
交互式分箱模块,用于所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。
可选地,所述交互式分箱模块包括:
交互式合并单元,用于基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果;
第一比对单元,用于所述计算所述合并结果对应的合并分箱效果参数,并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对;
第一判断单元,用于所述当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并;
第二判断单元,用于所述当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。
可选地,所述交互式合并单元包括:
第一判断子单元,用于所述判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令,在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并,获得所述合并结果;
第二判断子单元,用于所述若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令,在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并,获得所述合并结果。
可选地,所述交互式分箱模块包括:
交互式拆分单元,用于所述将所述第一输入数据表接入所述预设第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
第二比对单元,用于所述计算所述拆分结果对应的拆分分箱效果参数,并将所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数进行比对;
第三判断单元,用于所述当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分;
第四判断单元,用于所述当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。
可选地,所述交互式拆分单元包括:
第三判断子单元,用于所述判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述第一类型拆分命令对应的截至值,在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果;
第四判断子单元,用于所述若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令,在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果。
可选地,所述交互式分箱模块还包括:
第五判断单元,用于所述判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则基于所述缺失值分箱合并命令,对所述初始特征分箱结果中的缺失值分箱进行交互式合并,获得所述目标特征分箱结果;
第六判断单元,用于所述若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令,对所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果。
可选地,所述交互式分箱模块还包括:
第七判断单元,用于所述判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述初始特征分箱结果进行所述空箱交互式调整,获得所述目标特征分箱结果;
第八判断单元,用于所述若所述空箱处理命令类型为第二类型命令,则对所述初始特征分箱结果基于空箱参数进行调整,获得所述目标特征分箱结果。
可选地,所述机器分箱模块包括:
选择单元,用于所述将所述数据表接入所述预设特征分箱组件,以基于用户输入的选择命令选择所述数据表中的待分箱特征;
参数配置单元,用于所述基于所述用户输入的参数配置命令,对所述预设特征分箱组件进行参数配置,获得待运行特征分箱组件;
运行单元,用于所述运行所述待运行特征分箱组件,以对所述待分箱特征进行所述特征分箱,获得所述初始特征分箱结果。
本发明还提供一种交互式特征分箱处理设备,所述交互式特征分箱处理设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述交互式特征分箱处理方法的程序,所述交互式特征分箱处理方法的程序被处理器执行时可实现如上述的交互式特征分箱处理方法的步骤。
本发明还提供一种可读存储介质,所述可读存储介质上存储有实现交互式特征分箱处理方法的程序,所述交互式特征分箱处理方法的程序被处理器执行时实现如上述的交互式特征分箱处理方法的步骤。
本申请通过获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果,进而,基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。也即,本申请首先进行数据表的获取,进而将所述数据表接入预设特征分箱组件,以进行对所述数据表中的特征的分箱,获得初始特征分箱结果,进一步地,基于用户输入的分箱命令,进行对所述初始特征分箱结果的交互式特征分箱,获得目标特征分箱结果。也即,本申请提供了一种人机交互式特征分箱方法,在将所述数据表接入所述预设特征分箱组件进行分箱后,获得初始特征分箱结果,进而基于用户输入的分箱命令,即可所述初始特征分箱结果施加人工干预的交互式特征分箱,获得目标特征分箱结果,达到了使业务建模人员在无代码开发和代码调试能力情况下进行快速且精准的特征分箱,降低了业务建模人员的能力门槛,减少了业务建模人员在进行特征分箱时的错误率,提高了业务建模人员的工作效率,所以,解决了现有技术中特征分箱方法局限性强的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明交互式特征分箱处理方法第一实施例的流程示意图;
图2为本发明交互式特征分箱处理方法中对区间型特征对应的所述初始特征分箱结果中的缺失值分箱进行交互式拆分的示意图;
图3为本发明交互式特征分箱处理方法中当特征为区间型特征,输入截至值拆分所述缺失值分箱的示意图;
图4为本发明交互式特征分箱处理方法中当特征为区间型特征,直接拆分所述缺失值分箱的示意图;
图5为本发明交互式特征分箱处理方法中当特征为列名型特征,拆分所述缺失值分箱的示意图;
图6为本发明交互式特征分箱处理方法中当特征为列名型特征时,单独拆分出缺失值分箱的拆分结果的示意图;
图7为本发明交互式特征分箱处理方法中预设空箱参数调整模块的界面的示意图;
图8为本发明交互式特征分箱处理方法第二实施例的流程示意图;
图9为本发明交互式特征分箱处理方法中一种详解所述预设交互式分箱界面的示意图;
图10为本发明交互式特征分箱处理方法中在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并的示意图;
图11为本发明交互式特征分箱处理方法中在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并的示意图;
图12为本发明交互式特征分箱处理方法第三实施例的流程示意图;
图13为本发明交互式特征分箱处理方法中在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分的示意图;
图14为本发明交互式特征分箱处理方法中在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分的示意图;
图15为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种交互式特征分箱处理方法,所述交互式特征分箱处理方法应用于交互式特征分箱处理设备,在本申请交互式特征分箱处理方法的第一实施例中,参照图1,所述交互式特征分箱处理方法包括:
步骤S10,获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果;
在本实施例中,需要说明的是,所述数据表包括多个特征,所述预设特征分箱组件是预先设置好的用于特征分箱的组件,所述数据表可通过用户输入或者从预设数据库中读取而获取。
获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果,具体地,获取数据表,并将所述数据表接入预设特征分箱组件,以基于用户的选择命令选取所述数据表中的特征进行特征分箱,获得初始特征分箱结果。
其中,在步骤S10中,所述将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果的步骤包括:
步骤S11,将所述数据表接入所述预设特征分箱组件,以基于用户输入的选择命令选择所述数据表中的待分箱特征;
在本实施例中,需要说明的是,所述选择命令包括标签命令、文字命令、字符命令、鼠标勾选命令等。
将所述数据表接入所述预设特征分箱组件,以基于用户输入的选择命令选择所述数据表中的待分箱特征,具体地,将所述数据表接入所述预设特征分箱组件,同时接收用户输入的选择命令,进而基于所述选择命令中的特征识别信息,在所述数据表中选择所述特征识别信息对应的特征作为待分箱特征。
步骤S12,基于所述用户输入的参数配置命令,对所述预设特征分箱组件进行参数配置,获得待运行特征分箱组件;
在本实施例中,需要说明的是,所述参数配置命令包括参数输入命令和复用模型参数命令,其中,所述参数输入命令指的是用户自行设置所述预设特征分箱组件的配置参数的命令,所述复用模型参数命令指的是复用上游的特征分箱组件的模型参数作为所述配置参数的命令,其中所述配置参数包括分箱方法、最大分箱个数、WOE调整因子和选择topN%特征等。
基于所述用户输入的参数配置命令,对所述预设特征分箱组件进行参数配置,获得待运行特征分箱组件,具体地,基于所述用户输入的参数配置命令,获取所述参数配置命令对应的配置参数,将所述配置参数输入所述预设特征分箱组件中的参数配置模块中,获得所述待运行特征分箱组件。
步骤S13,运行所述待运行特征分箱组件,以对所述待分箱特征进行所述特征分箱,获得所述初始特征分箱结果。
在本实施例中,运行所述待运行特征分箱组件,以对所述待分箱特征进行所述特征分箱,获得所述初始特征分箱结果,具体地,运行所述待运行特征分箱组件,以基于所述配置参数对所述待分箱特征进行机器分箱,获得所述初始特征分箱结果,其中,所述初始特征分箱结果包括分箱方法、特征类型、分箱数目和iv值等,其中,所述iv值可用于评判分箱效果,通常iv值越大,则分箱效果越好。
步骤S20,基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。
在本实施例中,需要说明的是,所述交互式特征分箱包括交互式合并、交互式拆分、交互式缺失值分箱处理和空箱处理等。
基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果,具体地,接收用户输入的分箱命令,并基于所述分箱命令的类型,对所述初始特征分箱结果进行所述分箱命令的类型对应的交互式特征分箱,获得目标特征分箱结果。
其中,上述交互式特征分箱包括缺失值分箱合并和缺失值分箱拆分,所述分箱命令包括缺失值分箱合并命令和缺失值分箱拆分命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
步骤A10,判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则基于所述缺失值分箱合并命令,对所述初始特征分箱结果中的缺失值分箱进行交互式合并,获得所述目标特征分箱结果;
在本实施例中,需要说明的是,所述特征包括区间型特征和列名型特征,且无论是区间型特征和列名型特征,缺失值分箱均可以选择任意一个箱进行合并。
判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则基于所述缺失值分箱合并命令,对所述初始特征分箱结果中的缺失值分箱进行交互式合并,获得所述目标特征分箱结果,具体地,判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则在所述初始特征分箱结果中,将所述缺失值分箱合并命令对应的缺失值分箱进行合并,获得所述目标特征分箱结果。例如,所述缺失值分箱合并命令可为长按ctrl按键且鼠标点击缺失值分箱和其他箱,右键点击“合并”按钮。
步骤A20,若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令,对所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果。
在本实施例中,需要说明的是,所述特征包括区间型特征和列名型特征。
若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令,对所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果,具体地,若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令判断所述初始特征分箱结果中的特征的类型,若所述特征为区间型特征,则通过所述缺失值分箱拆分命令中的截至值或者直接拆分信息对所述所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果,若所述特征为列名型特征,则基于所述缺失值分箱拆分命令,将所述缺失值分箱中的特征数据组进行全部单独拆分或者与其他分箱进行合并拆分,也即,选择将所述特征数据组进行拆分为原始组或者拆分为合并组,如图2所示为对区间型特征对应的所述初始特征分箱结果中的缺失值分箱进行交互式拆分的示意图,其中,所述“event count”为事件计数,所述“event ratio”为事件占比,所述“non-eventcount”为非事件计数,所述“non-event ratio”为非事件占比,所述“MISSING”即为缺失值分箱,点击所述“拆分MISSING项”按钮即为用户输入的所述缺失值分箱拆分命令的一种类型,所述“v13”为所述待分箱特征,且图2中以多个取值区间将“v13”进行机器分箱,所以,图2中“v13”为区间型特征,如图3所示为当特征为区间型特征,输入截至值拆分所述缺失值分箱的示意图,其中,所述“4.5000”即为截至值,图3中的行序号为6和7的两行特征数据即为输入截至值为“4.5000”将图2中的行序号为6的那行的特征数据进行拆分的结果,如图4所示为当特征为区间型特征,直接拆分所述缺失值分箱的示意图,图4中的行序号为1和6的两行特征数据即为将图2中的行序号为6的那行特征数据进行拆分的结果,如图5所示为当特征为列名型特征,拆分所述缺失值分箱的示意图,其中,可由用户自主选择所需拆分的组,当选择“拆分为合并组”时,则在将图中包括“MISSING”缺失值分箱的特征数据组拆分之后,获得的拆分结果中包括一个包括两个列名的特征数据组,其中,所述列名包括MISSING、blue-collar等,当选择“拆分为原始组”时,则将所有列名对应的特征数组全部单独拆分出来,如图6所示为当特征为列名型特征时,选择“拆分为合并组”时,单独拆分出缺失值分箱的拆分结果的示意图。
其中,所述交互式特征分箱包括空箱处理,其中,所述空箱处理包括空箱交互式调整和基于空箱参数调整,所述分箱命令包括空箱处理命令,
所述基于用户输入的空箱处理命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
步骤B10,判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述初始特征分箱结果进行所述空箱交互式调整,获得所述目标特征分箱结果;
在本实施例中,需要说明的是,所述第一类型命令可在所述预设特征分箱组件在进行特征分箱后通过人机交互的方式进行空箱处理,所述空箱交互式调整包括交互式合并、交互式拆分等。
判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述初始特征分箱结果进行所述空箱交互式调整,获得所述目标特征分箱结果,具体地,判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述空箱处理命令对应的空箱进行所述空箱交互式调整,获得所述目标特征分箱结果。
步骤B20,若所述空箱处理命令类型为第二类型命令,则对所述初始特征分箱结果基于空箱参数进行调整,获得所述目标特征分箱结果。
在本实施例中,需要说明的是,所述第二类型命令可在所述预设特征分箱组件在进行特征分箱后通过预设的空箱调整参数对对所述初始特征分箱结果进行基于空箱参数调整。
若所述空箱处理命令类型为第二类型命令,则对所述初始特征分箱结果基于空箱参数进行调整,获得所述目标特征分箱结果,具体地,若所述空箱处理命令类型为第二类型命令,则通过预设空箱参数调整模块中的空箱参数对所述初始特征分箱结果基于空箱参数进行调整,也即对空箱进行调整,获得所述目标特征分箱结果,如图7所示为预设空箱参数调整模块的界面的示意图,其中,所述“保留空箱”指的是不对空箱进行处理,所述“分配到上组”指的是将空箱区间与为非缺失值分箱的上组区间合并,无可分配上组区间时则时合并到邻近空箱,所述“分配到下组”指的是将空箱区间与下组区间合并,当无可分配下组时则合并到邻近空箱,所述“平均分配到上下组”指的是空箱区间均分到上下组区间合并,不同时具备上下组时则直接合并到邻近空箱。
另外地,在步骤S10中,在对将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱的步骤之后还包括:
判断进行所述特征分箱的特征分箱组件是否运行成功,若所述特征分箱组件运行成功,则所述第一特征分箱组件将会输出所述初始特征分箱结果,若所述特征分箱组件未运行成功,则查询所述特征分箱组件对应的日志,以排查所述特征分箱组件未运行成功的故障原因,并基于所述故障原因,执行解决所述故障原因的操作或者放弃本次特征分箱操作,例如,假设所述故障原因为未接入数据表,则重新接入数据表,以进行特征分箱操作,假设所述故障原因为其他原因,则基于用户的指令,直接结束本次特征分箱操作或者重新接入数据表。
本实施例通过获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果,进而,基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。也即,本实施例首先进行数据表的获取,进而将所述数据表接入预设特征分箱组件,以进行对所述数据表中的特征的分箱,获得初始特征分箱结果,进一步地,基于用户输入的分箱命令,进行对所述初始特征分箱结果的交互式特征分箱,获得目标特征分箱结果。也即,本实施例提供了一种人机交互式特征分箱方法,在将所述数据表接入所述预设特征分箱组件进行分箱后,获得初始特征分箱结果,进而基于用户输入的分箱命令,即可所述初始特征分箱结果施加人工干预的交互式特征分箱,获得目标特征分箱结果,达到了使业务建模人员在无代码开发和代码调试能力情况下进行快速且精准的特征分箱,降低了业务建模人员的能力门槛,减少了业务建模人员在进行特征分箱时的错误率,提高了业务建模人员的工作效率,所以,解决了现有技术中特征分箱方法局限性强的技术问题。
进一步地,参照图8,基于本申请中第一实施例,在交互式特征分箱处理方法的另一实施例中,所述交互式特征分箱包括交互式合并,所述分箱命令包括合并命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
步骤C10,基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果;
在本实施例中,需要说明的是,所述预设交互式分箱界面指的是进行人机交互式操作的交互式操作界面,如图9所示为一种详解所述预设交互式分箱界面的示意图,所述合并命令包括键盘输入命令、鼠标点击命令等,且所述待合并特征与所述合并命令相对应,另外地,在交互式操作界面上还可进行多次叠加合并,例如,假设进行交互式合并的待合并特征为区间型特征,则区间A和区间B可进行交互式合并,获得区间C,则区间C还可与其他区间进行合并,所述待合并特征为基于所述合并命令选择的待进行交互式合并的特征,其中,所述待合并特征包括待合并区间型特征和待合并列名型特征,其中,所述区间型特征为以特征区间进行分箱的特征,所述列名型特征为以特征列名进行分箱的特征。
基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果,具体地,获取所述合并命令中的合并命令信息,在预设交互式分箱界面上对所述初始特征分箱结果中的所述合并命令信息对应的待合并特征进行合并,获得合并结果。
其中,所述合并命令包括第一类型合并命令和第二类型合并命令,所述待合并特征包括待合并区间型特征和待合并列名型特征,
所述基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果的步骤包括:
步骤C11,判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令,在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并,获得所述合并结果;
在本实施例中,需要说明的是,所述待合并区间型特征指的是待合并特征对应的特征值处于一个区间的特征,例如特征V1的特征值大于0且小于1,则所述特征V1为区间型特征,所述第一类型合并命令指的是对所述待合并区间型特征进行所述交互式合并对应的合并命令。
判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令,在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并,获得所述合并结果,具体地,判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令中的第一合并命令信息,在所述预设交互式分箱界面上对所述第一命令信息对应的所述待合并区间型特征进行所述交互式合并,获得所述合并结果,如图10所示为在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并的示意图,其中,所述“event count”为事件计数,所述“event ratio”为事件占比,所述“non-event count”为非事件计数,所述“non-event ratio”为非事件占比,所述“v13”对应的特征即为所述区间型特征,所述“woe”和“iv”均为合并分箱效果参数,其中,点击“合并按钮”即为所述第一类型合并命令的一种类型,且图10中左侧为合并行序号为13和14的特征数据组的示意图,右侧行序号为13的特征数据组为合并结果。
步骤C12,若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令,在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并,获得所述合并结果。
在本实施例中,需要说明的是,所述第二类型合并命令指的是对所述待合并列名型特征进行所述交互式合并的合并命令。
若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令,在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并,获得所述合并结果,具体地,若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令中的第二命令信息,在所述预设交互式分箱界面上对所述第二命令信息对应的所述待合并列名型特征进行所述交互式合并,获得所述合并结果,如图11所示为在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并的示意图,其中,所述“event count”为事件计数,所述“event ratio”为事件占比,所述“non-event count”为非事件计数,所述“non-event ratio”为非事件占比,所述分箱规则列下的“admin”、“student”和“retired”等对应的特征均为所述列名型特征,所述“woe”和“iv”均为合并分箱效果参数,点击“合并”按钮即为所述第二类型合并命令的一种类型,其中,图11中左侧为合并行序号为7和12的特征数据组的示意图,右侧行序号为7的特征数据组为合并结果。
步骤C20,计算所述合并结果对应的合并分箱效果参数,并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对;
在本实施例中,需要说明的是,所述合并分箱效果参数是用于衡量分箱效果好与坏的参数,所述合并分箱效果参数包括woe值、iv值等,且在进行合并操作后,所述合并分箱效果参数可由系统自动计算出来,并在所述预设交互式分箱界面上进行显示。
步骤C30,当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并;
在本实施例中,需要说明的是,用户可自主选择撤销所述交互式合并,也可触发当所述合并分箱效果参数小于所述第一原分箱效果参数时的判断条件时,由系统自动撤销所述交互式合并。
当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并,具体地,当所述合并分箱效果参数小于所述第一原分箱效果参数时,则表明所述合并结果的分箱效果相比于为合并之前的分箱效果差,所以,可基于用户的命令或者自动撤销所述交互式合并操作。
步骤C40,当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。
在本实施例中,当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果,具体的,当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则表明所述合并结果的分箱效果相比于为合并之前的分箱效果好,所以,可对所述初始特征分箱结果继续进行其他所述交互式操作后,将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果,或者直接将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。
本实施例通过基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果,进而计算所述合并结果对应的合并分箱效果参数,并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对,进一步地,当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并,当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。也即,本实施例基于所述合并命令,首先在预设交互式分箱界面上进行对所述初始特征分箱结果中的待合并特征的交互式合并,获得合并结果,进而进行计算所述合并结果对应的合并分箱效果参数的计算,进而进行所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数的比对,进一步地,当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并,当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。也即,本实施例提供了一种进行交互式合并的方法,以基于所述合并命令,对所述待合并特征进行述交互式合并,获得合并结果,并计算所述合并结果对应的合并分箱效果参数,进而并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对,以判断所述交互式合并对应的分箱效果的好坏,进而撤销所述交互式合并或者获得所述目标特征分箱结果,所以,本实施例中可使业务建模人员在无代码开发和代码调试能力情况下进行交互式式合并分箱,其中只涉及通过输入设备输入简单命令在所述预设交互式分箱界面上进行操作即可,可实现快速且精准的交互式合并特征分箱,降低了业务建模人员的能力门槛,减少了业务建模人员在进行合并分箱时的错误率,提高了业务建模人员的工作效率,所以,为解决了现有技术中特征分箱方法局限性强的技术问题奠定了基础。
进一步地,参照图12,基于本申请中第一实施例和第二实施例,在交互式特征分箱处理方法的另一实施例中,所述交互式特征分箱包括交互式拆分,所述分箱命令包括拆分命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
步骤D10,基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果;
在本实施例中,需要说明的是,所述拆分命令包括键盘输入命令、鼠标点击命令等,且所述待拆分特征与所述拆分命令相对应,且若所述待拆分特征是通过合并获取的,还可将所述待拆分特征拆分为合并之前的原特征箱,所述待拆分特征包括待拆分区间型特征和待拆分列名型特征,其中,所述区间型特征为以特征区间进行分箱的特征,所述列名型特征为以特征列名进行分箱的特征。
基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果,具体地,获取所述拆分命令中的拆分命令信息,进而在预设交互式分箱界面上对所述初始特征分箱结果中的所述拆分命令信息对应的待拆分特征进行拆分,获得拆分结果。
其中,所述拆分命令包括第一类型拆分命令和第二类型拆分命令,所述待拆分特征包括待拆分区间型特征和待拆分列名型特征,
所述基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果的步骤包括:
步骤D11,判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述第一类型拆分命令对应的截至值,在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果;
在本实施例中,需要说明的是,所述待拆分区间型特征指的是待拆分特征对应的特征值处于一个区间的特征,例如特征V1的特征值大于0且小于1,则所述特征V1为区间型特征,所述第一类型拆分命令指的是对所述待拆分区间型特征进行所述交互式拆分对应的拆分命令。
判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述第一类型拆分命令对应的截至值,在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果,具体地,判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述拆分命令中的截至值,在所述预设交互式分箱界面上对所述拆分命令中所述第一拆分命令信息对应的所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果,如图13所示为在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分的示意图,其中,所述“v13”对应的特征即为所述区间型特征,所述“woe”和“iv”均为合并分箱效果参数,所述“7.9999”为截至值,输入截至值并点击“确定”按钮即为所述第一类型拆分命令的一种命令类型。
步骤D12,若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令,在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果。
在本实施例中,需要说明的是,所述第二类型拆分命令指的是对所述待拆分列名型特征进行所述交互式拆分对应的拆分命令,且在所述预设交互式分箱界面上可将所述待拆分列名型特征拆分为合并组或者拆分为原始箱,其中,所述原始组指的是未进行交互式操作的分箱,所述合并组指的是将原始箱进行合并后的分箱。
若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令,在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果,具体地,若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令中的第二拆分命令信息,在所述预设交互式分箱界面上对所述第二拆分命令信息对应的所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果,如图14所示为在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分的示意图,其中,所述“student”和所述“retired”的等均为列名型特征,所述“woe”和“iv”均为合并分箱效果参数,点击“拆分”按钮即为所述所述第二类型拆分命令的一种命令类型。
步骤D20,计算所述拆分结果对应的拆分分箱效果参数,并将所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数进行比对;
在本实施例中,需要说明的是,所述拆分分箱效果参数是用于衡量分箱效果好与坏的参数,所述拆分分箱效果参数包括woe值、iv值等,且在进行拆分操作后,所述拆分分箱效果参数可由系统自动计算出来,并在所述预设交互式分箱界面上进行显示。
步骤D30,当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分;
在本实施例中,需要说明的是,用户可选择自主撤销所述交互式拆分,也可在达到当所述拆分分箱效果参数小于所述第二原分箱效果参数时的判断条件时,由系统自动撤销所述交互式拆分。
当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分,具体地,当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则表明所述拆分结果的分箱效果相比于为拆分之前的分箱效果差,所以,可基于用户的命令或者自动撤销所述交互式拆分操作。
步骤D40,当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。
在本实施例中,当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果,具体地,当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则表明所述拆分结果的分箱效果相比于为拆分之前的分箱效果好,所以,可对所述初始特征分箱结果继续进行其他所述交互式操作后,将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果,或者直接将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。
本实施例通过基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果,进而计算所述拆分结果对应的拆分分箱效果参数,并将所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数进行比对,进一步地,当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分,当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。也即,本实施例首先基于所述拆分命令,在预设交互式分箱界面上进行对所述初始特征分箱结果中的待拆分特征的交互式拆分,获得拆分结果,进而进行所述拆分结果对应的拆分分箱效果参数的计算,进而进行所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数的比对,进一步地,当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分,当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。也即,本实施例通过了一种交互式拆分的方法,通过输入设备输入简单命令在所述预设交互式分箱界面上即可进行交互式拆分,可使业务建模人员在无代码开发和代码调试能力情况下进行交互式式拆分分箱,所以,可实现快速且精准的交互式合并特征分箱,降低了业务建模人员的能力门槛,减少了业务建模人员在进行合并分箱时的错误率,提高了业务建模人员的工作效率,所以,为解决了现有技术中特征分箱方法局限性强的技术问题奠定了基础。
参照图15,图15是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图15所示,该交互式特征分箱处理设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该交互式特征分箱处理设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图15中示出的交互式特征分箱处理设备结构并不构成对交互式特征分箱处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及交互式特征分箱处理程序。操作系统是管理和控制交互式特征分箱处理设备硬件和软件资源的程序,支持交互式特征分箱处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与交互式特征分箱处理系统中其它硬件和软件之间通信。
在图15所示的交互式特征分箱处理设备中,处理器1001用于执行存储器1005中存储的交互式特征分箱处理程序,实现上述任一项所述的交互式特征分箱处理方法的步骤。
本发明交互式特征分箱处理设备具体实施方式与上述交互式特征分箱处理方法各实施例基本相同,在此不再赘述。
本发明还提供一种交互式特征分箱处理装置,所述交互式特征分箱处理装置包括:
机器分箱模块,用于所述获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果;
交互式分箱模块,用于所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。
可选地,所述交互式分箱模块包括:
交互式合并单元,用于基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果;
第一比对单元,用于所述计算所述合并结果对应的合并分箱效果参数,并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对;
第一判断单元,用于所述当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并;
第二判断单元,用于所述当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。
可选地,所述交互式合并单元包括:
第一判断子单元,用于所述判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令,在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并,获得所述合并结果;
第二判断子单元,用于所述若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令,在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并,获得所述合并结果。
可选地,所述交互式分箱模块包括:
交互式拆分单元,用于所述将所述第一输入数据表接入所述预设第一特征选择组件,以基于用户输入的选择信息获取所述第一输入数据表中的待选择特征;
第二比对单元,用于所述计算所述拆分结果对应的拆分分箱效果参数,并将所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数进行比对;
第三判断单元,用于所述当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分;
第四判断单元,用于所述当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。
可选地,所述交互式拆分单元包括:
第三判断子单元,用于所述判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述第一类型拆分命令对应的截至值,在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果;
第四判断子单元,用于所述若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令,在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果。
可选地,所述交互式分箱模块还包括:
第五判断单元,用于所述判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则基于所述缺失值分箱合并命令,对所述初始特征分箱结果中的缺失值分箱进行交互式合并,获得所述目标特征分箱结果;
第六判断单元,用于所述若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令,对所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果。
可选地,所述交互式分箱模块还包括:
第七判断单元,用于所述判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述初始特征分箱结果进行所述空箱交互式调整,获得所述目标特征分箱结果;
第八判断单元,用于所述若所述空箱处理命令类型为第二类型命令,则对所述初始特征分箱结果基于空箱参数进行调整,获得所述目标特征分箱结果。
可选地,所述机器分箱模块包括:
选择单元,用于所述将所述数据表接入所述预设特征分箱组件,以基于用户输入的选择命令选择所述数据表中的待分箱特征;
参数配置单元,用于所述基于所述用户输入的参数配置命令,对所述预设特征分箱组件进行参数配置,获得待运行特征分箱组件;
运行单元,用于所述运行所述待运行特征分箱组件,以对所述待分箱特征进行所述特征分箱,获得所述初始特征分箱结果。
本发明交互式特征分箱处理装置的具体实施方式与上述交互式特征分箱处理方法各实施例基本相同,在此不再赘述。
本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的交互式特征分箱处理方法的步骤。
本发明介质具体实施方式与上述交互式特征分箱处理方法各实施例基本相同,在此不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。
Claims (10)
1.一种交互式特征分箱处理方法,其特征在于,所述交互式特征分箱处理方法包括:
获取数据表,并将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果;
基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果。
2.如权利要求1所述交互式特征分箱处理方法,其特征在于,所述交互式特征分箱包括交互式合并,所述分箱命令包括合并命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果;
计算所述合并结果对应的合并分箱效果参数,并将所述合并分箱效果参数与所述待合并特征的第一原分箱效果参数进行比对;
当所述合并分箱效果参数小于所述第一原分箱效果参数时,则撤销所述交互式合并;
当所述合并分箱效果参数大于或者等于所述第一原分箱效果参数时,则将进行所述交互式合并后的所述初始特征分箱结果作为所述目标特征分箱结果。
3.如权利要求2所述交互式特征分箱处理方法,其特征在于,所述合并命令包括第一类型合并命令和第二类型合并命令,所述待合并特征包括待合并区间型特征和待合并列名型特征,
所述基于所述合并命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待合并特征进行所述交互式合并,获得合并结果的步骤包括:
判断所述合并命令的类型,若所述合并命令为所述第一类型合并命令,则基于所述第一类型合并命令,在所述预设交互式分箱界面上对所述待合并区间型特征进行所述交互式合并,获得所述合并结果;
若所述合并命令为所述第二类型合并命令,则基于所述第二类型合并命令,在所述预设交互式分箱界面上对所述待合并列名型特征进行所述交互式合并,获得所述合并结果。
4.如权利要求1所述交互式特征分箱处理方法,其特征在于,所述交互式特征分箱包括交互式拆分,所述分箱命令包括拆分命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果;
计算所述拆分结果对应的拆分分箱效果参数,并将所述拆分分箱效果参数与所述待拆分特征的第二原分箱效果参数进行比对;
当所述拆分分箱效果参数小于所述第二原分箱效果参数时,则撤销所述交互式拆分;
当所述拆分分箱效果参数大于或者等于所述第二原分箱效果参数时,则将进行所述交互式拆分后的所述初始特征分箱结果作为所述目标特征分箱结果。
5.如权利要求4所述交互式特征分箱处理方法,其特征在于,所述拆分命令包括第一类型拆分命令和第二类型拆分命令,所述待拆分特征包括待拆分区间型特征和待拆分列名型特征,
所述基于所述拆分命令,在预设交互式分箱界面上对所述初始特征分箱结果中的待拆分特征进行所述交互式拆分,获得拆分结果的步骤包括:
判断所述拆分命令的类型,若所述拆分命令为所述第一类型拆分命令,则基于所述第一类型拆分命令对应的截至值,在所述预设交互式分箱界面上对所述待拆分区间型特征进行所述交互式拆分,获得所述拆分结果;
若所述拆分命令为所述第二类型拆分命令,则基于所述第二类型拆分命令,在所述预设交互式分箱界面上对所述待拆分列名型特征进行所述交互式拆分,获得所述拆分结果。
6.如权利要求1所述交互式特征分箱处理方法,其特征在于,所述交互式特征分箱包括缺失值分箱合并和缺失值分箱拆分,所述分箱命令包括缺失值分箱合并命令和缺失值分箱拆分命令,
所述基于用户输入的分箱命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
判断所述分箱命令的类型,若所述分箱命令为缺失值分箱合并命令,则基于所述缺失值分箱合并命令,对所述初始特征分箱结果中的缺失值分箱进行交互式合并,获得所述目标特征分箱结果;
若所述分箱命令为缺失值分箱拆分命令,则基于所述缺失值分箱拆分命令,对所述初始特征分箱结果中的缺失值分箱进行交互式拆分,获得所述目标特征分箱结果。
7.如权利要求1所述交互式特征分箱处理方法,其特征在于,所述交互式特征分箱包括空箱处理,其中,所述空箱处理包括空箱交互式调整和基于空箱参数调整,所述分箱命令包括空箱处理命令,
所述基于用户输入的空箱处理命令,对所述初始特征分箱结果进行交互式特征分箱,获得目标特征分箱结果的步骤包括:
判断所述空箱处理命令的类型,若所述空箱处理命令类型为第一类型命令,则对所述初始特征分箱结果进行所述空箱交互式调整,获得所述目标特征分箱结果;
若所述空箱处理命令类型为第二类型命令,则对所述初始特征分箱结果基于空箱参数进行调整,获得所述目标特征分箱结果。
8.如权利要求1所述交互式特征分箱处理方法,其特征在于,所述将所述数据表接入预设特征分箱组件,以对所述数据表中的特征进行分箱,获得初始特征分箱结果的步骤包括:
将所述数据表接入所述预设特征分箱组件,以基于用户输入的选择命令选择所述数据表中的待分箱特征;
基于所述用户输入的参数配置命令,对所述预设特征分箱组件进行参数配置,获得待运行特征分箱组件;
运行所述待运行特征分箱组件,以对所述待分箱特征进行所述特征分箱,获得所述初始特征分箱结果。
9.一种交互式特征分箱处理设备,其特征在于,所述交互式特征分箱处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述交互式特征分箱处理方法的程序,
所述存储器用于存储实现交互式特征分箱处理方法的程序;
所述处理器用于执行实现所述交互式特征分箱处理方法的程序,以实现如权利要求1至8中任一项所述交互式特征分箱处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现交互式特征分箱处理方法的程序,所述实现交互式特征分箱处理方法的程序被处理器执行以实现如权利要求1至8中任一项所述交互式特征分箱处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911043102.0A CN110807072A (zh) | 2019-10-30 | 2019-10-30 | 交互式特征分箱处理方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911043102.0A CN110807072A (zh) | 2019-10-30 | 2019-10-30 | 交互式特征分箱处理方法、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807072A true CN110807072A (zh) | 2020-02-18 |
Family
ID=69489631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911043102.0A Pending CN110807072A (zh) | 2019-10-30 | 2019-10-30 | 交互式特征分箱处理方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807072A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507479A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN114356903A (zh) * | 2021-12-17 | 2022-04-15 | 四川新网银行股份有限公司 | 一种自适应数据结构的列相关关系发现装置及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629687A (zh) * | 2018-02-13 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 一种反洗钱方法、装置及设备 |
CN109360084A (zh) * | 2018-09-27 | 2019-02-19 | 平安科技(深圳)有限公司 | 征信违约风险的评估方法及装置、存储介质、计算机设备 |
CN109815267A (zh) * | 2018-12-21 | 2019-05-28 | 天翼征信有限公司 | 数据建模中特征的分箱优化方法及系统、存储介质及终端 |
-
2019
- 2019-10-30 CN CN201911043102.0A patent/CN110807072A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629687A (zh) * | 2018-02-13 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 一种反洗钱方法、装置及设备 |
CN109360084A (zh) * | 2018-09-27 | 2019-02-19 | 平安科技(深圳)有限公司 | 征信违约风险的评估方法及装置、存储介质、计算机设备 |
CN109815267A (zh) * | 2018-12-21 | 2019-05-28 | 天翼征信有限公司 | 数据建模中特征的分箱优化方法及系统、存储介质及终端 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507479A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN111507479B (zh) * | 2020-04-15 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN114356903A (zh) * | 2021-12-17 | 2022-04-15 | 四川新网银行股份有限公司 | 一种自适应数据结构的列相关关系发现装置及方法 |
CN114356903B (zh) * | 2021-12-17 | 2024-07-16 | 四川新网银行股份有限公司 | 一种自适应数据结构的列相关关系发现装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341098B (zh) | 软件性能测试方法、平台、设备及存储介质 | |
KR102092389B1 (ko) | 데이터에 대해 선별 및 통계 작업을 수행하기 위한 방법, 장치, 전자 기기 및 저장 매체 | |
CN110292775B (zh) | 获取差异数据的方法及装置 | |
CN111027294B (zh) | 表格汇总的方法、装置及系统 | |
CN102880546B (zh) | 一种基于xml数据库的软件集成测试方法及系统 | |
CN110766167B (zh) | 交互式特征选择方法、设备及可读存储介质 | |
CN110807072A (zh) | 交互式特征分箱处理方法、设备及可读存储介质 | |
CN111723515B (zh) | 一种运行算子的方法、装置及系统 | |
CN108287648A (zh) | 软件的反馈管理方法、装置、电子设备和计算机存储介质 | |
CN110895506A (zh) | 测试数据的构造方法和构造系统 | |
CN111966597A (zh) | 测试数据生成方法及装置 | |
CN110795000B (zh) | 基于界面分割的自动控制方法、装置及终端 | |
US20150121147A1 (en) | Methods, apparatuses and computer program products for bulk assigning tests for execution of applications | |
CN115423993A (zh) | 一种基于三维gis的分层分户单体化方法及系统 | |
CN114091688B (zh) | 一种计算资源获取方法、装置、电子设备和存储介质 | |
US11467943B2 (en) | System and method for struggle identification | |
CN114661571B (zh) | 模型评测方法、装置、电子设备和存储介质 | |
CN111782740A (zh) | 座位数据处理方法、计算设备及存储介质 | |
CN103530436B (zh) | 基于autocad.net api的刀具设计图纸参数化生成方法 | |
CN110471593A (zh) | 基于web端压缩切图的方法、装置、系统及存储介质 | |
CN108198106A (zh) | 作业发布方法、设备及计算机可读存储介质 | |
CN112700013A (zh) | 基于联邦学习的参数配置方法、装置、设备及存储介质 | |
CN112446904B (zh) | 图像对齐方法、装置和系统 | |
CN116166565A (zh) | 回归测试方法、装置、设备及介质 | |
CN114943212A (zh) | 一种参数报表生成方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |