CN115860141A - 一种自动化机器学习交互式黑箱可视建模方法及系统 - Google Patents
一种自动化机器学习交互式黑箱可视建模方法及系统 Download PDFInfo
- Publication number
- CN115860141A CN115860141A CN202211664443.1A CN202211664443A CN115860141A CN 115860141 A CN115860141 A CN 115860141A CN 202211664443 A CN202211664443 A CN 202211664443A CN 115860141 A CN115860141 A CN 115860141A
- Authority
- CN
- China
- Prior art keywords
- modeling
- model
- automatic
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种自动化机器学习交互式黑箱可视建模方法及系统,包括:将导入的数据进行预处理操作,获取可建模数据,选择模型特征、参数和算法;基于建模分析的阶段性目标,在建模过程中人工添加自动化建模优化策略;基于自动化建模优化策略配置进行自动化模型训练,建模人员对训练模型进行判断,若满足建模人员要求,则输出优化后的模型,并展示可视化模型报告。本发明通过实现人工添加自动化建模优化策略使得自动化建模过程变为人机交互且人为可控的过程:在实现自动优化建模的同时,能够使得建模人员对于自动化建模过程进行阶段性的人为干预,降低不必要的自动化建模的计算和时间成本,从而大大提高了自动化建模的效率。
Description
技术领域
本发明涉及建模技术领域,尤其涉及一种自动化机器学习交互式黑箱可视建模方法及系统。
背景技术
自动化建模(也称为自动化机器学习,自动化ML或AutoML),是将机器学习建模代码通过模型开发过程中耗时的反复性任务(代码算法反复性建模环节进行封装,以便建模人员一键启动)自动化的过程。
行业中常见的自动化建模流程:输入数据后,后台进行一键式、封闭式的黑箱自动化建模,然后输出建模结果。基于常见的模型训练平台,建模人员通常无法对自动化建模流程进行阶段性的干预。举例来说目前主流的自动化建模技术中的特征筛选和超参优化过程是由完全自动化的过程实现的。假设在建模开始阶段建模人员已经主观确定了进入模型的特征组合,或者已经确定了算法的专家经验超参,一旦启动自动化建模,就无法在中间过程对自动化选择的特征或者算法的超参进行人为干预,这会导致自动化特征筛选或者自动化超参优化成为没有价值的无效计算。如果需要调整建模特征或者算法超参,就不得不重新开始整个自动化建模流程。因此,由于对自动化建模中间过程可干预程度受限,当对于建模结果不满意时,往往只能从头再来,时间成本和计算成本浪费严重。此外,对于自动化建模过程中的模型优化和调优,主流的方法策略单一、粗糙且置于算法内部(常见的仅有超参优化与特征变量选择),没有涉及模型稳定性检测、交互作用探查、自动特征衍生、样本自动筛选等一些新颖视角的模型自动化优化策略。
发明内容
本发明提供了一种自动化机器学习交互式黑箱可视建模方法及系统,以解决现有自动化建模技术中存在的高度封装,过程黑箱化,建模过程无法进行阶段性的人为干预的问题,从而能够提升自动化建模的效率,降低建模的计算成本和时间成本。此外,相较于目前主流自动化建模技术优化策略单一的现状,本发明提供了更加丰富的创新的自动化建模策略,能够使得自动化建模的模型优化能力得到提升。
为了达到上述目的,本发明提供如下技术方案:
一种自动化机器学习交互式黑箱可视建模方法,包括:
S101:将导入的数据进行预处理操作,获取可建模数据,对模型进行模型参数和算法选择操作;
S102:基于建模分析的阶段性目标,添加交互式自动化建模优化策略;
S103:基于自动化建模优化策略配置进行自动化模型训练,最终输出优化后的符合建模人员要求的模型,并展示可视化模型报告。
其中,所述S101步骤包括:
S1011:将数据导入机器学习建模算法中,其中,数据的来源包括文件、数据库和分布式存储系统;
S1012:对导入的数据进行数据清理、数据变换、数据压缩的预处理操作;
S1013:选择对应的模型特征、参数、算法进行配置建模操作,其中,根据不同的建模算法配置不同模型参数。
其中,所述S102步骤包括:
S1021:基于原有的自动化建模过程,建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,其中,自动化建模优化策略包括特征筛选、交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;
S1022:基于自动化建模优化策略对自动化建模过程进行干预,通过干预对模型进行优化。
其中,所述S103步骤包括:
S1031:根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次回到S1013,选择对应的模型特征、参数、算法进行操作,然后再次进入S102,进行自动化建模优化策略配置,若训练模型符合建模人员要求,则最终输出优化后的符合建模人员要求的模型报告;
S1032:建模人员通过可视化页面查看模型训练进度以及模型报告,在模型报告页面,系统向建模人员展示模型的各种衡量模型性能的指标以及参与建模的变量排名,其中,变量排名是根据变量对模型贡献程度的高低进行排序的。
其中,所述S1012步骤之后包括:系统将预处理后的数据进行保存,保存后的数据可进行多次迭代建模,下次用同一份数据进行建模时,直接调用保存好的数据,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
其中,所述S1021步骤包括:所述特征筛选有多种筛选方法,筛选方法包括剃刀、单变量删除和单变量预测;
剃刀用于将数据集中的变量按照一定的顺序从数据集中剔除;单变量删除用于将数据集中的变量按照一定的顺序进行删除,每次训练只删除一个变量;单变量预测用于从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。
其中,所述筛选方法还包括:重要特征筛选、单变量递减、目标洗牌筛选和动态目标筛选;重要特征筛选用于训练模型时用上一次训练的重要变量作为输入变量;单变量递减用于每一轮迭代中将所有变量依次由放回的顺序进行删除,在删除过程中选取最优模型,直到模型性能比初始模型性能低;目标洗牌筛选用于目标变量取值洗牌,然后数据集经过多轮训练后,按照变量重要性改变量排序,获取累加剔除得分最低的变量;动态目标筛选用于在每一轮对目标洗牌过程中剔除重要性增量最低的变量,累加多轮。
其中,所述S1021步骤还包括:所述稳定性检测用于检验模型的稳定性,稳定性检测的方法包括目标洗牌、置换、分割和重新抽样;
目标洗牌用于将数据集目标变量取值洗牌再建模;置换用于将原始的训练集作为测试集,原始的测试集作为训练集然后建模;分割用于重新随机切分再建模;重新抽样用于在原始样本基础上有放回的抽取同样变量的样本作为新的数据集进行建模。
其中,包括:数据平台、自动化建模平台和可视化平台;
所述数据平台用于对原始数据进行预处理操作后获取可建模数据,对模型进行模型特征、参数和算法选择操作;
所述自动化建模平台被用于开发机器学习模型。基于该平台,可对模型人工添加自动化建模优化策略后,平台可实现自动化模型训练,输出优化后的模型;
所述可视化平台用于建模人员随时在前端界面查看模型训练进度以及模型报告。
其中,所述自动化建模平台包括:自动化建模策略模块和模型训练模块;
所述自动化建模策略模块能够允许建模人员根据建模分析的阶段性目标添加多种自动化建模优化策略,自动化建模优化策略包括交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;
所述模型训练模块用于根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次选择对应的模型特征、参数和算法进行操作,若训练模型符合建模人员要求,则最终输出优化后的模型报告。
与现有技术相比,本发明具有以下优点:
一种自动化机器学习交互式黑箱可视建模方法,包括:将导入的数据进行预处理操作,获取可建模数据,选择模型特征、参数和算法;基于建模分析的阶段性目标,在建模过程中人工添加自动化建模优化策略;基于自动化建模优化策略配置进行自动化模型训练,最终输出优化后的符合建模人员要求的模型,并展示可视化模型报告。本发明通过实现人工添加自动化建模优化策略使得自动化建模过程变为人机交互且人为可控的过程:在实现自动优化建模的同时,能够使得建模人员对于自动化建模过程进行阶段性的人为干预,降低不必要的自动化建模的计算和时间成本,从而大大提高了自动化建模的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种自动化机器学习交互式黑箱可视建模方法的流程图一;
图2为本发明实施例中一种自动化机器学习交互式黑箱可视建模方法中数据处理流程图;
图3为本发明实施例中一种自动化机器学习交互式黑箱可视建模方法的流程图二;
图4为本发明实施例中添加自动化建模策略的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种自动化机器学习交互式黑箱可视建模方法,请参见图1至图4,包括:
S101:将导入的数据进行预处理操作,获取可建模数据,对模型进行模型参数和算法选择操作;
S102:基于建模分析的阶段性目标,添加交互式自动化建模优化策略;
S103:基于自动化建模优化策略配置进行自动化模型训练,最终输出优化后的符合建模人员要求的模型,并展示可视化模型报告。
上述技术方案的工作原理为:机器学习的目标就是要从数据中总结规律、发现知识,所以数据导入是机器学习训练模型的必要操作,原始数据通常不适宜直接用于训练模型,所以将数据导入模型后还需要做一些数据预处操作;模型开始训练前,需要做一些模型训练的配置,包括模型参数和算法选择。在原有的自动化建模过程中,增加可选的自动化建模策略的环节,实现对于自动化建模过程的交互,对模型进行优化。若建模人员配置了自动化建模策略,则系统会在后台根据自动化建模策略配置自动训练模型,然后在结果页面可视化地给建模人员展示自动建模的结果,输出优化后的模型,建模人员可以随时在前端界面查看模型训练进度和模型报告,进一步的,建模人员可以随时终止模型的训练;
在模型训练中,建模人员在前端界面查看模型训练进度并对训练模型进行判断,若当前训练模型不符合建模人员要求,则继续回到步骤3进行模型特征、参数、算法选择,再次添加可选的自动化建模策略进行模型训练,直至符合建模人员要求,训练模型符合建模人员要求后输出优化后的模型报告。
其中,自动化机器学习交互式黑箱可视建模方法的具体步骤请参见图3,包括:
步骤1:数据导入;
步骤2:数据预处理,将导入的数据进行预处理操作,获取可建模数据;
步骤3:模型特征、参数、算法选择;
步骤4:判断是否添加自动化建模策略;
步骤5:若判断结果为是,则添加可选的自动化建模策略,若判断结果为否,则进行模型训练;
步骤6:对模型训练进行判断,看是否符合建模人员要求;
步骤7:若判断结果为否,则再次回到步骤3,若判断结果为是,则输出模型报告。
上述技术方案的有益效果为:将导入的数据进行预处理操作,获取可建模数据,选择模型特征、参数和算法;基于建模分析的阶段性目标,在建模过程中人工添加自动化建模优化策略;基于自动化建模优化策略配置进行自动化模型训练,最终输出优化后的符合建模人员要求的模型,并展示可视化模型报告。本发明通过实现人工添加自动化建模优化策略使得自动化建模过程变为人机交互且人为可控的过程:在实现自动优化建模的同时,能够使得建模人员对于自动化建模过程进行阶段性的人为干预,降低不必要的自动化建模的计算和时间成本,从而大大提高了自动化建模的效率。
在另一实施例中,所述S101步骤包括:
S1011:将数据导入机器学习建模算法中,其中,数据的来源包括文件、数据库和分布式存储系统;
S1012:对导入的数据进行数据清理、数据变换、数据压缩的预处理操作;
S1013:选择对应的模型特征、参数、算法进行配置建模操作,其中,根据不同的建模算法配置不同模型参数。
上述技术方案的工作原理为:数据导入中,数据的来源是多样的,包括:文件、数据库和分布式存储系统,其中,系统支持直接导入数据文件作为训练数据,系统可以直接连接数据库获取数据库中的数据表作为训练数据,系统也可以从hadoop、hive等分布式存储系统中获取海量数据作为训练数据。
数据预处理包括:数据清理、数据变换、数据压缩;
数据清理:数据清理例程通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据,主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除;
数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于模型训练的形式;
数据压缩:数据读入计算机内存时,通常都以系统默认类型存储如32位的整形或64位的浮点型,然后很多数据集中的具体特征取值范围通常都不需要如此大的变量类型来存储,因此如果把变量类型自适应的压缩位合适的类型,能减少建模对系统资源的消耗。
模型开始训练前,需要做一些模型训练的配置。需要选择建模使用的算法,如基于GBDT的建模算法、逻辑回归、规则抽取等。进一步的,根据不同的建模算法,配置不同模型参数如学习率、子样本比率、迭代轮数、树模型的每棵树最大节点数和惩罚函数力度等。
其中损失函数包括MSELoss损失函数,算法如下:
l(x,y)=L={l1,…,lN}T,ln=(xn-yn)2
而引入交叉损失KL散度计算的nn.MSELoss损失函数如下:
l(x,y)=L={l1,…,lN}T,ln=(Xn-yn)2
包括BCELoss损失函数,计算公式如下所示:
l(x,y)=L={11,…,lN}T,ln=-wn[yn·logxn+(1-yn)·log(1一xn)]
包括logistic损失函数,计算公式如下所示:
另,均方误差(MSE)计算公式如下所示:
决定系数R-square计算公式如下所示:
上述技术方案的有益效果为:将数据导入机器学习建模算法中,其中,数据的来源包括文件、数据库和分布式存储系统;对导入的数据进行数据清理、数据变换、数据压缩的预处理操作;选择对应的模型特征、参数、算法进行配置建模操作,其中,根据不同的建模算法配置不同模型参数。打破了自动化建模过程的黑箱封闭性,大大提高了自动化建模的效率,降低了自动化建模的成本。
在另一实施例中,所述S102步骤包括:
S1021:基于模型原有的自动化建模过程,建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,其中,自动化建模优化策略包括特征筛选、交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;
S1022:基于自动化建模优化策略对自动化建模过程进行干预,通过干预对模型进行优化。
上述技术方案的工作原理为:在原有的自动化建模过程中,增加了可选的自动化建模策略的环节,建模人员可以通过同时添加多种自动化建模策略且对于每一自动化建模策略可同时添加多种实现算法,对自动化建模过程进行干预,实现对于自动化建模过程的交互,对模型进行优化。
自动化建模优化策略包括特征筛选、交互作用、稳定性检测、超参优化、样本筛选和特征生成;
其中,交互作用包括:无交互变量集、交互变量集、单变量无交互、每棵树最大交互特征数、递增;
无交互变量集用于将数据集中的变量按照一定的顺序挑选出来形成一个无交互变量集,在无交互变量集中的变量不允许和其他变量在同一个决策树上相互作用;交互变量集用于将数据集中的变量按照一定的顺序挑选出来形成一个交互变量集,在交互变量集中的变量只允许和集中的其他变量在同一个决策树上相互作用;单变量无交互用于将数据集中的变量按照一定的顺序选取出来,每次训练该变量不允许和其他变量在同一棵决策树中交互;每棵树最大交互特征数用于给定一个取值范围,每次训练限制决策树内允许能相互作用的变量个数;递增用于每一轮迭代都将所有变量依次有放回的放进无交互作用集,当模型效果最优时确定这一轮的无交互作用集进行下一轮的选择。
超参优化功能用于根据不同的建模算法,建模人员在超参优化配置中选择对应算法的其中一些参数,然后配置该参数的范围以及增加间隔,系统将在后台自动用这些参数组合进行训练,超参优化方法包括独立网格优化、贝叶斯优化。
样本筛选用于以一定的算法对原始数据的样本进行筛选,筛选方法包括目标固定、等比压缩、异常样本、规则过滤和跨期验证。
特征生成用于通过一定的方法对原始数据衍生出新的变量,该方法包括变量分箱、类别聚合、等宽分箱、等频分箱。
上述技术方案的有益效果为:基于模型原有的自动化建模过程,建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,其中,自动化建模优化策略包括特征筛选、交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;基于自动化建模优化策略对自动化建模过程进行干预,通过干预对模型进行优化。对于自动化建模的策略方法进行了更新优化,除了常见自动化建模平台提供的特征生成、样本筛选等模型优化策略外,本方案又提供了交互作用、稳定性检测和特征筛选,大大提高模型的精度和稳定性。
在另一实施例中,所述S103步骤包括:
S1031:根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次回到S1013,选择对应的模型特征、参数、算法进行操作,然后再次进入S102,进行自动化建模优化策略配置,若训练模型符合建模人员要求,则最终输出优化后的符合建模人员要求的模型报告;
S1032:建模人员通过可视化页面查看模型训练进度以及模型报告,在模型报告页面,系统向建模人员展示模型的各种衡量模型性能的指标以及参与建模的变量排名,其中,变量排名是根据变量对模型贡献程度的高低进行排序的。
上述技术方案的工作原理为:若建模人员置了自动化建模策略,则系统基于自动化建模优化策略配置进行自动化模型训练,最终输出优化后的符合建模人员要求的模型,并向建模人员展示可视化模型报告。建模人员可以随时在前端界面查看模型训练进度,进一步的,建模人员可以随时终止模型的训练。在模型报告页面,系统会向建模人员展示模型的各种衡量模型性能的指标,各种衡量模型性能的指标包括ROC(Receiver OperatingCharacteristic,受试者工作特征曲线,是反映敏感性和特异性连续变量的综合指标)曲线,AUC(Area Under Curve,ROC曲线的曲线下面积)值,KS(Kolmogorov Smirnov,用于评估模型的分类能力)值、归因图(归因图展示预测变量的缺失情况、不同取值对目标的影响程度的归因关系)。同时参与建模的变量也将按照对模型的贡献程度从高到低展示出重要变量排名。
上述技术方案的有益效果为:根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次回到步骤三:选择对应的模型特征、参数和算法进行操作,进行自动化建模优化策略配置,若训练模型符合建模人员要求,则最终输出优化后的模型报告;建模人员通过可视化页面查看模型训练进度以及模型报告,在模型报告页面,系统向建模人员展示模型的各种衡量模型性能的指标以及参与建模的变量排名,其中,变量排名是根据变量对模型贡献程度的高低进行排序的。可以将建模人员的经验通过自动化模型策略的选择配置融合进入模型中,不断调整模型最终找到人工经验与机器学习模型互相平衡的结果,得到具有可解释性的最终模型。
在另一实施例中,所述S1012步骤之后包括:系统将预处理后的数据进行保存,保存后的数据可进行多次迭代建模,下次用同一份数据进行建模时,直接调用保存好的数据,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
上述技术方案的工作原理为:为了方便对同一数据进行多次迭代建模,系统会把预处理完的数据保存起来,以便于下次用同一份数据进行建模时,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
在建模过程中,当机器学习建模处于运行状态时,通过状态管理,建模人员可对当前运行步骤进行停止操作,使运行停止操作所针对的步骤由运行状态进入编辑状态;通过状态管理,建模人员可继续运行当前停止的步骤,使得继续运行操作所针对的步骤由编辑状态进入运行状态;
在机器学习建模过程中,遇到需要继续运行的步骤时,状态配置被调整为运行状态,并输出结果。
上述技术方案的有益效果为:系统将预处理后的数据进行保存,保存后的数据可进行多次迭代建模,下次用同一份数据进行建模时,直接调用保存好的数据,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
在另一实施例中,在精准营销场景中,往往有大量的原始特征变量用于建模,在自动化建模过程中,建模人员往往只关注模型本身的效果,如模型的准确率等。而在模型的实际应用场景中,负责模型上线以及利用模型进行应用决策的相关人员往往无法接受大量模型特征。此时可以在自动化建模过程中添加特征筛选,对模型特征进行筛选,得到决定模型效果的若干个关键重要变量。即保证了模型效果,又提高了模型的实际可用性以及解释性。
上述技术方案的工作原理为:所述特征筛选有多种筛选方法,筛选方法包括剃刀、单变量删除和单变量预测;剃刀用于将数据集中的变量按照一定的顺序从数据集中剔除,使得参与建模的变量越来越少;单变量删除用于将数据集中的变量按照一定的顺序进行删除,每次训练只删除一个变量;单变量预测用于从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。
上述技术方案的有益效果为:所述特征筛选有多种筛选方法,筛选方法包括剃刀、单变量删除和单变量预测;剃刀用于将数据集中的变量按照一定的顺序从数据集中剔除;单变量删除用于将数据集中的变量按照一定的顺序进行删除,每次训练只删除一个变量;单变量预测用于从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。即保证了模型效果,又提高了模型的实际可用性以及解释性。
在另一实施例中,所述筛选方法还包括:重要特征筛选、单变量递减、目标洗牌筛选和动态目标筛选;重要特征筛选用于训练模型时用上一次训练的重要变量作为输入变量;单变量递减用于每一轮迭代中将所有变量依次由放回的顺序进行删除,在删除过程中选取最优模型,直到模型性能比初始模型性能低;目标洗牌筛选用目标变量取值洗牌,然后数据集经过多轮训练后按照变量重要性改变量排序,获取累加剔除得分最低的变量;动态目标筛选用于在每一轮对目标洗牌过程中剔除重要性增量最低的变量,累加多轮。
上述技术方案的工作原理为:所述筛选方法还包括:重要特征筛选、单变量递减、目标洗牌筛选和动态目标筛选;重要特征筛选用于训练模型时用上一次训练的重要变量作为输入变量;单变量递减用于每一轮迭代中将所有变量依次由放回的顺序进行删除,在删除过程中选取最优模型,直到模型性能比初始模型性能低;目标洗牌筛选用于目标变量取值洗牌,然后数据集经过多轮训练后,按照变量重要性改变量排序,获取累加剔除得分最低的变量;动态目标筛选用于在每一轮对目标洗牌过程中剔除重要性增量最低的变量,累加多轮。
上述技术方案的有益效果为:重要特征筛选用于训练模型时用上一次训练的重要变量作为输入变量;单变量递减用于每一轮迭代中将所有变量依次由放回的顺序进行删除,在删除过程中选取最优模型,直到模型性能比初始模型性能低;目标洗牌筛选用于目标变量取值洗牌,然后数据集经过多轮训练后,按照变量重要性改变量排序,获取累加剔除得分最低的变量;动态目标筛选用于在每一轮对目标洗牌过程中剔除重要性增量最低的变量,累加多轮。
在另一实施例中,在金融风控领域,由于模型训练样本与实际应用样本往往不同。通过自动化建模得到的模型结果,可能在训练样本上表现良好,但在实际上线后往往表现不尽如人意。因此在自动化建模过程后往往建模人员还需要手工对于模型的稳定性进行检测,以初步判断模型是否能够用于上线使用。
此时可以利用自动化策略中的稳定性检测。通过在自动化建模过程中添加稳定性检测,以检测和提高模型的稳定性,避免了自动化建模得到的模型结果无法通过稳定性检测导致整个建模过程重头再来的风险,极大地减少了建模的人力和时间成本。
上述技术方案的工作原理为:所述稳定性检测用于检验模型的稳定性,稳定性检测的方法包括目标洗牌、置换、分割和重新抽样;目标洗牌用于将数据集目标变量取值洗牌再建模;置换用于将原始的训练集作为测试集,原始的测试集作为训练集然后建模;分割用于重新随机切分数据再建模;重新抽样用于在原始样本基础上有放回的抽取同样维度的样本作为新的数据集进行建模。
上述技术方案的有益效果为:所述稳定性检测用于检验模型的稳定性,稳定性检测的方法包括目标洗牌、置换、分割和重新抽样;目标洗牌用于将数据集目标变量取值洗牌再建模;置换用于将原始的训练集作为测试集,原始的测试集作为训练集然后建模;分割用于重新随机切分数据再建模;重新抽样用于在原始样本基础上有放回的抽取同样维度的样本作为新的数据集进行建模。
在另一实施例中,一种自动化机器学习交互式黑箱可视建模系统,包括:数据平台、自动化建模平台和可视化平台;
所述数据平台用于对原始数据进行预处理操作后获取可建模数据,进行模型特征、参数和算法选择操作;
所述自动化建模平台被用于开发机器学习模型。基于该平台,可对模型人工添加自动化建模优化策略后,平台可实现自动化模型训练,输出优化后的模型;
所述可视化平台用于建模人员随时在前端界面查看模型训练进度以及模型报告。
上述技术方案的工作原理为:所述数据平台用于对原始数据进行预处理操作后获取可建模数据,进行模型特征、参数和算法选择操作;所述自动化建模平台被用于开发机器学习模型。基于该平台,可对模型人工添加自动化建模优化策略后,平台可实现自动化模型训练,输出优化后的模型;所述可视化平台用于建模人员随时在前端界面查看模型训练进度以及模型报告。大大提高了自动化建模的效率,降低了自动化建模的成本。
上述技术方案的有益效果为:所述数据平台用于对原始数据进行预处理操作后获取可建模数据,进行模型特征、参数和算法选择操作;所述自动化建模平台被用于开发机器学习模型。基于该平台,可对模型人工添加自动化建模优化策略后,平台可实现自动化模型训练,输出优化后的模型;所述可视化平台用于建模人员随时在前端界面查看模型训练进度以及模型报告。在交互式自动化建模的模型开发过程中,仅需一键式添加自动化模型优化策略,便可在自动化建模过程中对模型进行干预和优化得到最优模型,操作简单,上手快,甚至没有模型开发经验的业务人员,在经过极短时间的培训后也能迅速上手完成模型开发。在交互式自动化建模的模型开发是点击式建模过程,无需写代码既可完成模型开发且能获得较好的模型效果,极大的降低了模型开发的对操作人员的门槛。建模人员可以不断的根据建模分析的阶段性目标添加自动化模型优化策略。同时,可以将建模人员的经验通过自动化模型策略的选择配置融合进入模型中,不断调整模型最终找到人工经验与机器学习模型互相平衡的结果,得到具有可解释性的最终模型。
在另一实施例中,所述自动化建模平台包括:自动化建模策略模块和模型训练模块;
所述自动化建模策略模块能够允许建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,自动化建模优化策略包括交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;
所述模型训练模块用于根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次选择对应的模型特征、参数和算法进行操作,若训练模型符合建模人员要求,则最终输出优化后的模型报告。
在金融风控领域中,由于业务人员要依据模型进行业务决策,因此要求模型具有较高的特征解释性。而现有的自动化建模过程多为黑箱,无法为业务提供特征的可解释性。此时可以在自动化建模过程中添加交互作用,将特征的交互作用作为入模变量,即提高了模型的准确性,又提高了模型的可解释性。方便业务人员利用模型进行决策,提高了模型的实际可用性和解释性。
上述技术方案的工作原理为:所述自动化建模策略模块能够允许建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,自动化建模优化策略包括交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;所述模型训练模块用于根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次选择对应的模型特征、参数和算法进行操作,若训练模型符合建模人员要求,则最终输出优化后的模型报告。
模型训练结束后对优化后的模型进行自动化测试,通过可视化平台访问待测模型,获取数据;对模型中的数据进行数据解析分析,通过数据解析分析获取模型的受测对象和测试用例,模拟建模人员操作,其中,通过持续集成平台或命令行调用自动化脚本,脚本通过webdriver API调用建模数据文件,并通过可视化平台进行脚本中相应的操作。
上述技术方案的有益效果为:所述自动化建模策略模块能够允许建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,自动化建模优化策略包括交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;所述模型训练模块用于根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次选择对应的模型特征、参数和算法进行操作,若训练模型符合建模人员要求,则最终输出优化后的模型报告。大量可供使用的自动化策略将极大的缩短建模人员参数选择时间成本,且能获得更优化的模型参数值。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种自动化机器学习交互式黑箱可视建模方法,其特征在于,包括:
S101:将导入的数据进行预处理操作,获取可建模数据,基于可建模数据选择对应的模型特征、参数和算法;
S102:基于建模分析的阶段性目标,在建模过程中添加自动化建模优化策略;
S103:基于自动化建模优化策略配置进行自动化模型训练,最终输出符合建模人员要求的优化后的模型,并展示可视化模型报告。
2.根据权利要求1所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述S101步骤包括:
S1011:将数据导入机器学习建模算法中,其中,数据的来源包括文件、数据库和分布式存储系统;
S1012:对导入的数据进行数据清理、数据变换、数据压缩的预处理操作;
S1013:选择对应的模型特征、参数、算法进行配置建模操作,其中,根据不同的建模算法配置不同模型参数。
3.根据权利要求1所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述S102步骤包括:
S1021:基于原有的自动化建模过程,建模人员根据建模分析的阶段性目标添加可选的多种自动化建模优化策略,其中,自动化建模优化策略包括特征筛选、交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;
S1022:基于自动化建模优化策略对自动化建模过程进行干预,通过干预对模型进行优化。
4.根据权利要求1所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述S103步骤包括:
S1031:根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次回到S1013,选择对应的模型特征、参数、算法进行操作,然后再次进入S102,进行自动化建模优化策略配置,若训练模型符合建模人员要求,则最终输出优化后的符合建模人员要求的模型报告;
S1032:建模人员通过可视化页面查看模型训练进度以及模型报告,在模型报告页面,系统向建模人员展示模型的各种衡量模型性能的指标以及参与建模的变量排名,其中,变量排名是根据变量对模型贡献程度的高低进行排序的。
5.根据权利要求2所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述S1012步骤之后包括:系统将预处理后的数据进行保存,保存后的数据可进行多次迭代建模,下次用同一份数据进行建模时,直接调用保存好的数据,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
6.根据权利要求3所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述S1021步骤包括:所述特征筛选有多种筛选方法,筛选方法包括剃刀、单变量删除和单变量预测;
剃刀用于将数据集中的变量按照一定的顺序从数据集中剔除;单变量删除用于将数据集中的变量按照一定的顺序进行删除,每次训练只删除一个变量;单变量预测用于从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。
7.根据权利要求6所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述筛选方法还包括:重要特征筛选、单变量递减、目标洗牌筛选和动态目标筛选;重要特征筛选用于训练模型时用上一次训练的重要变量作为输入变量;单变量递减用于每一轮迭代中将所有变量依次由放回的顺序进行删除,在删除过程中选取最优模型,直到模型性能比初始模型性能低;目标洗牌筛选用于目标变量取值洗牌,然后数据集经过多轮训练后,按照变量重要性改变量排序,获取累加剔除得分最低的变量;动态目标筛选用于在每一轮对目标洗牌过程中剔除重要性增量最低的变量,累加多轮。
8.根据权利要求3所述的一种自动化机器学习交互式黑箱可视建模方法,其特征在于,所述S1021步骤还包括:所述稳定性检测用于检验模型的稳定性,稳定性检测的方法包括目标洗牌、置换、分割和重新抽样;
目标洗牌用于将数据集目标变量取值洗牌再建模;置换用于将原始的训练集作为测试集,原始的测试集作为训练集然后建模;分割用于重新随机切分再建模;重新抽样用于在原始样本基础上有放回的抽取同样变量的样本作为新的数据集进行建模。
9.一种自动化机器学习交互式黑箱可视建模系统,其特征在于,包括:数据平台、自动化建模平台和可视化平台;
所述数据平台用于对原始数据进行预处理操作后获取可建模数据,对模型进行模型特征、参数和算法选择操作;
所述自动化建模平台被用于开发机器学习模型,基于该自动化建模平台,可对模型添加自动化建模优化策略后进行自动化模型训练,输出优化后的模型;
所述可视化平台用于建模人员随时在前端界面查看模型训练进度以及模型报告。
10.根据权利要求9所述的一种自动化机器学习交互式黑箱可视建模系统,其特征在于,所述自动化建模平台包括:自动化建模策略模块和模型训练模块;
所述自动化建模策略模块用于建模人员根据建模分析的阶段性目标添加多种自动化建模优化策略,自动化建模优化策略包括交互作用、稳定性检测、超参优化、样本筛选和特征生成,基于每一种自动化建模优化策略可添加多种算法;
所述模型训练模块用于根据建模人员配置的自动化建模优化策略,系统在后台自动训练模型,建模人员对训练模型进行判断,若训练模型不符合建模人员要求,则再次选择对应的模型特征、参数和算法进行操作,若训练模型符合建模人员要求,则最终输出优化后的模型报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211664443.1A CN115860141A (zh) | 2022-12-23 | 2022-12-23 | 一种自动化机器学习交互式黑箱可视建模方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211664443.1A CN115860141A (zh) | 2022-12-23 | 2022-12-23 | 一种自动化机器学习交互式黑箱可视建模方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115860141A true CN115860141A (zh) | 2023-03-28 |
Family
ID=85654251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211664443.1A Pending CN115860141A (zh) | 2022-12-23 | 2022-12-23 | 一种自动化机器学习交互式黑箱可视建模方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349658A (zh) * | 2023-10-17 | 2024-01-05 | 佛山锐科信息科技有限公司 | 一种经济信息自动化统计分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956277A (zh) * | 2019-11-27 | 2020-04-03 | 深圳市魔数智擎人工智能有限公司 | 一种交互式的迭代建模系统及方法 |
CN112685457A (zh) * | 2020-12-31 | 2021-04-20 | 北京思特奇信息技术股份有限公司 | 一种套餐推荐机器学习模型的自动化训练系统及方法 |
CN113886026A (zh) * | 2021-12-07 | 2022-01-04 | 中国电子科技集团公司第二十八研究所 | 一种基于动态参数配置和过程监督的智能建模方法与系统 |
CN114139728A (zh) * | 2021-12-06 | 2022-03-04 | 神州数码系统集成服务有限公司 | 可视化全流程机器学习平台、控制方法、客户端及应用 |
WO2022134600A1 (zh) * | 2020-12-25 | 2022-06-30 | 东云睿连(武汉)计算技术有限公司 | 一种神经网络交互式自动训练系统和方法 |
CN115080021A (zh) * | 2022-05-13 | 2022-09-20 | 北京思特奇信息技术股份有限公司 | 基于自动化机器学习实现的零代码建模方法及系统 |
-
2022
- 2022-12-23 CN CN202211664443.1A patent/CN115860141A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956277A (zh) * | 2019-11-27 | 2020-04-03 | 深圳市魔数智擎人工智能有限公司 | 一种交互式的迭代建模系统及方法 |
WO2022134600A1 (zh) * | 2020-12-25 | 2022-06-30 | 东云睿连(武汉)计算技术有限公司 | 一种神经网络交互式自动训练系统和方法 |
CN112685457A (zh) * | 2020-12-31 | 2021-04-20 | 北京思特奇信息技术股份有限公司 | 一种套餐推荐机器学习模型的自动化训练系统及方法 |
CN114139728A (zh) * | 2021-12-06 | 2022-03-04 | 神州数码系统集成服务有限公司 | 可视化全流程机器学习平台、控制方法、客户端及应用 |
CN113886026A (zh) * | 2021-12-07 | 2022-01-04 | 中国电子科技集团公司第二十八研究所 | 一种基于动态参数配置和过程监督的智能建模方法与系统 |
CN115080021A (zh) * | 2022-05-13 | 2022-09-20 | 北京思特奇信息技术股份有限公司 | 基于自动化机器学习实现的零代码建模方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349658A (zh) * | 2023-10-17 | 2024-01-05 | 佛山锐科信息科技有限公司 | 一种经济信息自动化统计分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10606862B2 (en) | Method and apparatus for data processing in data modeling | |
CN107168995B (zh) | 一种数据处理方法及服务器 | |
CN110956277A (zh) | 一种交互式的迭代建模系统及方法 | |
CN110568483A (zh) | 基于卷积神经网络的地震线性噪声压制效果自动评估方法 | |
CN117236278B (zh) | 一种基于数字孪生技术的芯片生产仿真方法及系统 | |
CN115860141A (zh) | 一种自动化机器学习交互式黑箱可视建模方法及系统 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN116932384A (zh) | 一种基于特征融合和特征选择的软件缺陷预测方法 | |
CN117828539A (zh) | 数据智能融合分析系统及方法 | |
CN117472789B (zh) | 基于集成学习的软件缺陷预测模型构建方法和装置 | |
CN114385465A (zh) | 一种故障预测方法、设备及存储介质 | |
CN114648060A (zh) | 基于机器学习的故障信号规范化处理及分类方法 | |
CN114239949A (zh) | 一种基于双阶段注意力机制的网站访问量预测方法及系统 | |
CN113506175A (zh) | 中小企业风险预警模型优化方法、装置、设备和存储介质 | |
CN111738870B (zh) | 基于特征工程的工程履约保证保险风险识别方法与平台 | |
CN112990569A (zh) | 一种水果价格预测方法 | |
CN116522912B (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN115293827A (zh) | 一种助力企业精细化运营的模型可解释性分析新方法 | |
CN115587333A (zh) | 一种基于多分类模型的失效分析故障点预测方法及系统 | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN113886592A (zh) | 一种电力信息通信系统运维数据的质量检测方法 | |
CN111026661A (zh) | 一种软件易用性全面测试方法及系统 | |
CN114510518B (zh) | 一种海量结构化数据的自适应聚合方法、系统及电子设备 | |
CN114416988B (zh) | 基于自然语言处理的缺陷自动评级及处置建议推送方法 | |
CN117350765A (zh) | 变量确定方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |