CN114219096A

CN114219096A - 一种机器学习算法模型的训练方法、装置及存储介质

Info

Publication number: CN114219096A
Application number: CN202111357775.0A
Authority: CN
Inventors: 陈虹珠; 曾桂平
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-03-22

Abstract

本公开提出一种机器学习算法模型的训练方法、装置及存储介质，方法包括：设置模型训练参数；对所述模型训练参数进行数据处理；对数据处理后的模型训练参数进行特征选择；选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型。本公开提供的方法建模效率较高、操作简单、可用性和实用性均较大、人力成本较低、可解释性强。

Description

一种机器学习算法模型的训练方法、装置及存储介质

技术领域

本公开涉及大数据智能分析技术领域，尤其涉及一种机器学习算法模型的训练方法、装置及存储介质。

背景技术

随着大数据时代的到来，人工智能的科技应用已从萌芽期发展到过热期，且广泛应用于风控、反欺诈等环节。但是，在金融科技的模型应用方面，目前仍可谓困难重重。就目前市场上来看，在各金融机构的各业务场景应用之中，随着技术发展的不断迭代，传统的一些数据分析方法与评分卡技术已无法满足现有需求，而机器学习作为一门专门用于研究计算机如何模拟实现人类的学习行为的多领域交叉学科，在实用中备受技术人员的青睐。但是，与此同时，种种矛盾与困境也在日益显现。

目前普遍常见的机器学习算法模型的建模方法一次性仅可构造一个制定模型，或者，利用进一步进化的自动化建模工具进行机器学习算法模型建模。相关技术的建模方法存在有如下几点技术问题：

(1)在建模技术人员方面，由于数据、算法、模型的内在数理逻辑的复杂性限制，要求建模业务人员不仅需要具备一定的统计数理基础，还需要具备开发、测试、架构设计等能力，对于建模人员的技术门槛和技术要求均较高，则人力成本较高。(2)在建模过程使用方面，数据、模型等的处理及搭建工程量巨大，过程冗长，且在实际使用中该过程还会循环反复，导致建模过程效率较低。(3)在基于机器学习算法进行建模时，各机器学习算法种类繁多，优劣各异，存在难以选择的问题。(4)在建模场景实用方面，机器学习算法采用“黑盒”模型内部工作机制，可解释性差，在需要可解释性报告的业务人员及监管机构面前容易被质疑。(5)建模过程复杂，在各环节中均需与各领域专家的协调配合，整体建模过程沟通成本高，时间效率低。(6)利用自动化建模工具建模时，往往也只包含一些基础的单种类建模算法，且其重点关注于建模方面，而自动化建模工具在前期的数据清洗部分均较为粗糙，导致最终入模的数据质量无法保证，从而进一步影响了最终的模型结果。

发明内容

本公开提供一种机器学习算法模型的训练方法、装置及存储介质，以解决相关技术中的机器学习算法模型的训练方法中存在的“人力成本较高、效率较低、机器学习算法难以选择、可解释性差、建模效果较差”的技术问题。

本公开第一方面实施例提出一种机器学习算法模型的训练方法，包括：

设置模型训练参数；

对所述模型训练参数进行数据处理；

对数据处理后的模型训练参数进行特征选择；

选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型。

本公开第二方面实施例提出一种客户贷款收益率等级预测系统，所述系统包括：

设置模块，用于设置模型训练参数；

处理模块，用于对所述模型训练参数进行数据处理；

特征选择模块，用于对数据处理后的模型训练参数进行特征选择；

训练模块，用于选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型。

本公开第三方面实施例提出一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现如上所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

1)本发明在算法选择模块包含了大多的目前主流先进算法，对于同样的入模数据，其可以一次性选择多个算法同时构建模型，并在最后对各个模型的效果进行比较，为用户自动挑选出效果最好的模型，大大地提升了数据挖掘建模的效率。同时，模型构建中的算法选择与参数配置均可由用户需求灵活定制，整体流程自动化运转，即使是业务人员与专家也可以快速上手，从而更深入地参与到模型构建之中，无需等待模型大致结果出来后再提出相关业务建议，大大降低了沟通成本，节省了时间损耗。

2)本发明不仅关注于建模环节，在数据处理模块亦十分重视，做到了对数据问题的多范围与高精准覆盖处理，对于数据的异常值、缺失值、离散化、标准化、不平衡以及自动化编码等都提供了多种方法进行解决实现，用户可依据自我需要进行相应的方法选择或全流程处理，确保了最终入模的数据质量。

3)本发明的建模工具对业务人员十分友好，提供了可视化界面供业务人员操作，上手较快，同时最终输出会提供解释型报告，以模型指标结果结合特征指标进行，通俗易懂。此外，为保证模型稳定性效果，建模平台工具可持续监控模型，并自动生成监控对比报告，保证线上线下效果一致性，为客户提供保障，让客户可以放心使用。

本公开附加的方面以及优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面以及优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本公开实施例一提供的一种机器学习算法模型的训练方法的流程示意图；

图2a为根据本公开实施例二提供的一种机器学习算法模型的训练方法的流程示意图；

图2b为本公开实施例二提供的一种KS的阈值确定法的示意框图；

图2c为本公开实施例二提供的一种模型效果图；

图3为根据本公开实施例三提供的一种设置模型训练参数的流程示意图

图4为根据本公开实施例一所述的方法提供的一种机器学习算法模型的训练装置的结构示意图；

图5为根据本公开实施例二所述的方法提供的一种机器学习算法模型的训练装置的结构示意图；

图6为根据本公开实施例三所述的方法提供的一种设置模块的结构示意图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

以下对本公开实施例涉及到的术语进行介绍说明：

术语解释：(对认为应该列出来的术语进行解释)

TP(True Positive)：将正类预测为正类数,真实为0,预测为0。

FN(False Negative)：将正类预测为负类数,真实为0,预测为1。

FP(False Positive)：将负类预测为正类数,真实为1,预测为0。

TN(True Negative)：将负类预测为负类数,真实为1,预测为1。

伪阳性率(FPR):判定为正例却不是真正例的比率。

真阳性率(TPR):判定为正例也是真正例的比率。

伪阴性率(FNR):判定为负例却不是真负例的比率。

真阴性率(TNR):判定为负例也是真负例的比率。

KS(Kolmogorov-Smirnov)评价指标:TPR和FPR差值的最大值。

精确率(Precision):又称为查准率，表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率。

召回率(Recall):又称为查全率，表示在原始样本的正样本中，最后被正确预测为正样本的概率。

不平衡处理：不平衡指的是数据集样本类别极不均衡，差距很大，此时，为了学习真正有用的信息，一般需要通过采样算法对数据进行预处理。采样算法可通过某一种策略改变样本的类别分布，将样本转化为相对平衡的分布。目前较常用的采样算法包含过采样，欠采样以及SMOTE三种。

特征工程：特征工程是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。

监督学习：根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型，这便是监督学习。该技术通过找到特征和标签之间的联系，而后在面对只有特征没有标签的数据时，较为准确地判断出数据的标签。

机器学习：机器学习是一门人工智能的多领域交叉学科,该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。目前较受欢迎的机器学习算法包含了梯度提升树(GBDT、LGBM等)、线性回归、朴素贝叶斯、随机森林、集成模型等。这些算法在本发明工具中均有涉及，可供用户依据自身意愿与要求随机选择。

下面参考附图描述本公开实施例的机器学习算法模型的训练方法、装置及存储介质。

实施例一

图1为根据本公开实施例一提供的一种机器学习算法模型的训练方法的流程示意图，如图1所示，该方法可以包括：

步骤101、设置模型训练参数。

其中，在本公开实施例中，上述的机器学习算法模型的训练方法具体可以应用于一建模平台工具中，该建模平台工具可以是配置于一终端设备(例如电脑)中。

其中，关于设置模型训练参数的具体方法可以参见后续实施例描述。

步骤102、对模型训练参数进行数据处理。

其中，在本公开实施例之中，该数据处理可以包括：

删除重复值处理；

异常值处理；

缺失值处理；

数据标准化处理；

数据离散化处理；

类别型数据编码处理；

其中，若设置模型训练参数时，确定对模型训练参数进行不平衡处理，则所述数据处理还包括不平衡处理。

具体的，上述的删除重复值处理具体为：模型训练参数可能有重复数据，重复数据会影响模型效果，将唯一标识重复的数据直接删除。

上述的异常值处理具体为：异常值会影响模型效果的判断，若模型训练参数含有异常值，则将该模型训练参数删除。

其中，本公开实施例中，将以下值定义为异常值:

对于模型训练参数中的数值型变量而言，满足下述任一点均定义为异常值。

(1)超出Q1-1.5×IQR至Q3+1.5×IQR范围的任何值被认为是异常值，其中，Q1为变量的25％分位数，Q3为变量的75％分位数，IQR＝Q3-Q1。

(2)小于5％分位数或超出95％分位数的任何值被认为是异常值

(3)距平均值三个或更多的标准差，即超出MEAN-STD×3至MEAN+STD×3范围的任何值被认为是异常值，其中，MEAN为变量的平均值，STD为变量的标准差。

(4)基于马哈拉诺比斯距离的异常值检测，计算各样本点与中心点的马哈拉诺比斯距离，将距离大于95％分位数的样本点视为异常值

对于对于模型训练参数中的类别型变量而言，类别值的分布占比不到1％被认为是异常值。

以及，上述的缺失值处理为：缺失值导致建模丢失大量有用的信息，导致模型所表现出的不确定性更加显著，数据规律难以把握。因此，对于缺失严重(缺失率超过80％)的特征直接进行删除，其他特征采用可能值进行插补。

其中，插补方法具体可以为：

对于数值型变量，采用均值插补法、中位值插补法、拉格朗日插值填补法、或者根据样本序号对缺失值进行插值填补。

对于类别型变量，采用众数插补法。

以及，上述的数据标准化(归一化)处理主要为：数据标准化处理是数据分析的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

本公开实施例提供以下两种标准化方法：

第一种、Z-score标准化方法。

Z-score标准化方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

第二种、Min-Max标准化(Min-Max Normalization)

Min-Max标准化也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0-1]之间。转换函数如下:

其中，max为样本数据的最大值，min为样本数据的最小值。

以及，上述的数据离散化处理主要为：连续型变量变换成分类型变量，即连续数据离散化，有效的离散化能减小算法的时间和空间开销，离散化后的特征对异常数据有很强的鲁棒性，提高模型对样本的分类聚类能力和抗噪声能力，使模型更加稳定。

在逻辑回归模型中，由于逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型的表达能力,并且简化了逻辑回归模型的作用，降低了模型过拟合的风险。

将连续型变量进行分箱，将取值范围划分为几个离散化的区间，最后用不同的符号或整数值代表每个子区间中的数据值，其中，连续型变量分箱方法如下:

(a)等频分箱：以相同数量的记录放进每个区间。

(b)等距分箱：将数据均匀划分成n个区间，每个区间的间距相等。

(c)卡方分箱(ChiMerge)；其中，ChiMerge法采取自底向上不断合并的方法完成分箱操作。在每一步的合并过程中，依靠最小的卡方值来寻找最优的合并项。其核心思想是，如果两个相邻的区间可以合并，那么这两个区间的样本具有非常类似的分布，进而意味着两个区间的卡方值是最小的。

再进一步地，上述的类别型数据编码处理主要为：由于lgb，xgb等模型不能直接处理类别型特征，因此，需要对类别型特征进行编码，本实施例提供的编码方法可以有如下几种：

第一种、Label Encoding：适用于有序类别型特征，将文本数据转化为数值,数值顺序具有业务含义。

第二种、Onehot Encoding：适用于无序类别型特征，将文本数据转化成一列或多列只有0和1的数据，特征有多少取值就用多少维来表示该特征。

第三种、WOE Encoding：适用于有序和无序类别型特征，相当于对特征进行分箱，需要设定箱体个数和单个箱体的最小占比条件，一开始就根据取值进行分箱，然后计算每一个箱体的woe。为了使每个箱体存在明显差异，对相近的woe箱体进行合并，直到满足上述条件。

此外，上述的不平衡处理处理主要为：在分类问题中，有存在正反例数目差异较大的情况，这种情况叫做类别不平衡；例如贷款数据中，逾期人数的比例是极低的，使得训练模型无法很好地学习如何判别少数类，针对这种问题，解决方式有2种：

过采样：根据样本标签少的样本的规律去生成更多该标签样本，这样使得数据趋向于平衡。

欠采样：与过采样相对，减少样本标签多的样本数量，使得数据平衡。

具体的，本公开实施例提供了三种不平衡处理的方法：

随机欠采样：随机剔除数据集中多余的多数样本。

随机过采样：采取简单复制样本的策略增加少数样本，随机在原来的少数样本中抽取样本加入数据集。

SMOTE采样：是过采样的一种典型方法，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a，b之间的连线上随机选一点作为新合成的少数类样本。

步骤103、对数据处理后的模型训练参数进行特征选择。

其中，在本公开实施例之中，对数据集进行特征选择主要基于以下几方面的考虑：

1)冗余的特征会影响阻碍模型找寻数据潜在的规律，若冗余的特征过多，还会造成维度容灾，占用大量的时间空间，使算法运行效率大打折扣。

2)去除不相关的特征会降低学习任务的难度，保留关键的特征更能直观的看出数据潜在的规律。

以及，在本公开实施例之中，具体是基于设置模型训练参数时所确定的特征选择方法对所述数据处理后的模型训练参数进行特征选择。示例的，假设在步骤101中确定的特征选择方法为方差选择法，则在本步骤中基于方差选择法来对数据处理后的模型训练参数进行特征选择。

步骤104、选择算法模型，并基于特征选择后的模型训练参数对选择的算法模型进行训练以得到训练后的算法模型。

其中，选择算法模型时主要是基于设置模型训练参数时所选择的业务问题来选择对应的算法模型。具体的，若业务问题为分类问题或逻辑回归问题，确定选择的算法模型为：逻辑回归算法模型，逻辑回归算法模型采用分类决策树算法；若业务问题为回归问题，确定选择的算法模型为：线性回归算法模型，线性回归算法模型采用回归决策树算法。

此外，需要说明的是，除了上述的算法外，还可以采用随机森林(Random Forest)算法、梯度提升树(GBDT,LGBM,XGBM)算法，其中，随机森林(Random Forest)算法和GBDT算法，LGBM算法，XGBM算法均可以用于回归问题或分类问题中。

进一步地，上述各个算法可优化的超参数如下表1所示:

表1

需要说明的是，本公开实施例之中，主要是配合scikit-learn的网格搜索交叉来验证选择模型的最优超参数。

综上所述，本公开实施例提供的机器学习算法模型的训练方法中，会设置模型训练参数，并会对该模型训练参数进行数据处理，之后，会对数据处理后的模型训练参数进行特征选择，最后，会选择算法模型，并基于特征选择后的模型训练参数对所选择的算法模型进行训练以得到训练后的算法模型。

其中，本公开实施例中，建模方式是自动一体化流程，建模效率更高，时间成本更低。相比于传统建模流程的单一化运作，自动化建模工具包含了从数据处理到模型构建到模型评估的一整套系统性流程，并且可以多个机器学习模型同时构建，相互比较，整体操作只需传入初始数据，便可获得最佳建模结果，大大节约了建模过程中损耗的各种噪声时间成本，提升了建模效率。

以及，本公开实施例将建模流程依据模块化切分，且各模块中参数配置灵活，可依据客户需求灵活定制，在标准化程序中实现差异化定制功能，使得建模平台工具的可用性与实用性大大提升，更受用户青睐。

最后，本公开实施例的建模平台工具具有可视化界面，操作简单易上手，降低了建模的技术门槛。因此，在需求解决中可以更好地做到业务与技术的有机结合，实现专家经验与实践经验效用最大化，让机器学习不再似空中楼阁，真正做到有据可依，从内在根源提升金融机构的服务效率。

实施例二

图2a为根据本公开实施例二提供的一种机器学习算法模型的训练方法的流程示意图，如图2a所示，该方法可以包括：

步骤201、设置模型训练参数。

步骤202、对模型训练参数进行数据处理。

步骤203、对数据处理后的模型训练参数进行特征选择。

步骤204、选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型。

其中，关于步骤201-204的介绍可以参考上述实施例描述，本公开实施例在此不做赘述。

步骤205、选择预测数据集文件，预测数据集文件包括模型预测数据。

其中，该建模平台工具中可以存储多个预测数据集文件，以及，建模平台工具可以响应于用户在可视化界面对于的预测数据集文件的预设操作(例如单击操作或双击操作等)来选择预测数据集文件。

步骤206、确定预测数据集文件相关信息，相关信息包括唯一标识列名、目标变量列名。

其中，该唯一标识列名对应的变量可以为预测数据集文件中的自变量，该目标变量可以为预测数据集文件中的因变量。

具体的，用户可以手动向建模平台工具输入该唯一标识列名和目标变量列名。

步骤207、确定阈值确定方法，阈值确定方法包括：基于KS的阈值确定法，基于F-Score的阈值确定法，人工指定阈值法。

其中，可以将各个阈值确定方法显示于可视化界面中以供用户选择，之后，可以响应于用户在可视化界面上触发的预定操作(例如点击操作)来确定阈值确定方法。示例的，假设用户控制鼠标点击了KS，则建模平台工具可以响应于该点击操作确定阈值确定方法为：基于KS的阈值确定法。

以及，具体是针对分类问题确定阈值确定方法，该分类问题主要为二分类问题，针对二分类问题提供了三种阈值确定的方法，包括：基于KS的阈值确定法，基于F-Score的阈值确定法，人工指定阈值法。

进一步地，对上述基于KS的阈值确定法，基于F-Score的阈值确定法，人工指定阈值法进行详细介绍。

其中，图2b为本公开实施例二提供的一种KS的阈值确定法的示意框图，如图2b所示，基于KS的阈值确定法主要为：KS值是TPR和FPR差值的最大值,是综合了真阳性率(TPR)和伪阳性率(FPR)两个指标来衡量模型的好坏.拿二分类来说,TPR表示所有小于阈值的正例，在所有正例中的比率。同样的，FPR则表示所有小于阈值的负例，在所有负例中的比率。如图2b所示,令横轴为阈值，纵轴为TPR和TPR，值域均为[0,1]。随着横坐标从0到1变化，TPR越快提升，模型效果越好；反之，FPR越快提升，模型效果就越差。KS值，正是图中的最大差值，此时的横轴取值(图中为0.5)，便是最佳阈值。

基于F-Score的阈值确定法可以为：精确率(Precision)和召回率(Recall)评估指标,理想情况下做到两个指标都高当然最好，但一般情况下，Precision高，Recall就低，Recall高，Precision就低。F-Score综合考虑Precision和Recall的调和值：

当β＝1(默认)时，称为F1-score或者F1-Measure，这时，精确率和召回率都很重要，权重相同。当有些情况下，我们认为精确率更重要些，那就调整β的值小于1，如果我们认为召回率更重要些，那就调整β的值大于1。与KS值确定阈值方法类似地,F-Score对应的阈值取值便是最佳阈值.

人工指定阈值法可以为：用户根据专家经验自行指定具体阈值数值，即0至1之间的小数。以及，需要说明的是，在本公开实施例中，若确定阈值确定方法为：人工指定阈值法，则后续还应当包括“获取用户输入的阈值”的步骤。

步骤208、建立预测结果保存文件，预测结果保存文件位于训练模型文件的保存路径中，预测结果保存文件用于保存对于训练后的算法模型的预测结果。

步骤209、基于预测数据集文件和阈值确定方法对训练后的算法模型进行预测以输出模型报告，并将模型报告保存至预测结果保存文件中，模型报告包括对于所述训练后的算法模型的预测结果。

具体的，在模型预测完成后，会输出模型报告，保存在用户设置参数时指定的文件路径中。该模型报告包括模型预测的结果，每个样本对应的预测结果保存在指定的预测结果保存文件中。其中，图2c为本公开实施例二提供的一种模型效果图。如图5所示，模型效果图可以包括ROC图、P-R曲线图、Lift图、Gain图、PSI图以及Confusion Matrix。

其中，ROC图展示了训练集和测试集的ROC曲线，横轴是FPR，纵轴是TPR，并分别注明了训练集和测试集的KS值和AUC值。AUC值(Area Under Curve)为ROC曲线下方的面积，越接近1表示模型效果越好。

P-R曲线图展示了训练集和测试集的P-R曲线，横轴是召回率，纵轴是精确率，并分别注明了训练集和测试集的F1-Score值。

Lift图展示了与不利用模型相比，模型的预测能力“变好”了多少，lift(提升指数)越大，模型的运行效果越好。

Gain图与Lift图类似，区别是计算公式不同，衡量的是Gain(增益指数)。

PSI图展示的是稳定度指标(population stability index)，可衡量测试样本及模型开发样本评分的分布差异，为最常见的模型稳定度评估指针。PSI表示的是按分数分档后，针对不同样本，或者不同时间的样本，人数分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有显著变化。公式如下：

当PSI<0.1时，模型稳定性很高；当0.1<＝PSI<0.2时，模型一般，需要进一步研究；当PSI>0.2时，模型稳定性差，建议修复。

Confusion Matrix是模型的混淆矩阵图，总结预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总，从左至右，从上至下分别是TP，FN，FP，TN。

实施例三

图3为根据本公开实施例三提供的一种设置模型训练参数的流程示意图，如图3所示，该方法可以包括

步骤301、选择训练数据集文件，训练数据集文件包括模型训练参数。

其中，该训练数据集文件可以包括执行模型训练的代码文件，该建模平台工具中可以存储多个训练数据集文件，以及，建模平台工具可以响应于用户在可视化界面对于训练数据集文件的预设操作(例如单击操作或双击操作等)来选择训练数据集文件。

步骤302、确定训练数据集文件的相关信息，相关信息包括唯一标识列名、目标变量列名。

其中，该唯一标识列名对应的变量可以为训练数据集文件中的自变量，该目标变量可以训练数据集文件中的为因变量。

步骤303、选择业务问题，业务问题可以包括分类问题、回归问题、逻辑回归问题；其中，不同业务问题对应选择不同的算法模型。

其中，可以将各个业务问题显示于可视化界面中以供用户选择，之后，可以响应于用户在可视化界面上触发的预定操作(例如点击操作)来选择业务问题。示例的，假设用户控制鼠标点击了分类问题，则建模平台工具可以响应于该点击操作来选择该分类问题。

步骤304、确定特征选择方法，特征选择方法包括：过滤法、包裹式特征选择方法、Lasso、嵌入式特征选择方法。

其中，可以将各个特征选择方法显示于可视化界面中以供用户选择，之后，可以响应于用户在可视化界面上触发的预定操作(例如点击操作)来选择业务问题。示例的，假设用户控制鼠标点击了过滤法，则建模平台工具可以响应于该点击操作来选择该过滤法。

以及，进一步地，上述的过滤法的主要思想是查看特征的发散性和特征与目标的相关性，通过设定阈值的方法，过滤发散性低、相关性不强的特征。过滤法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，即先选好特征，再用过滤后的特征来训练模型。

具体的，过滤法可以包括方差选择法和CFS(correlation-based featureselection，基于相关性的特征选择)。

其中，方差选择法主要为：先计算各个特征的方差，然后根据设定的阈值，选择方差大于阈值的特征。若特征的方差太小，则代表该特征的发散性太弱。

CFS主要为：CFS估计特征子集并对特征子集而不是单个特征进行排秩。CFS的核心是采用启发的方式评估特征子集的价值。启发方式基于的假设：好的特征子集包含与类高度相关的特征，但特征之间彼此不相关。

启发式方程：

Merit_s为包含k个特征的特征子集S的启发式，

为特征-类平均相关性，

为特征-特征平均相关性。r为Pearson相关系数，所有的变量需要标准化。启发式方法去除对类预测不起作用的特征变量，并识别与其他特征高度相关的特征。

本实施例的CFS算法过程如下：首先从训练集中计算特征-类和特征-特征相关矩阵，然后用最佳优先搜索搜索特征子集空间。最佳优先搜索开始于空集M，开始时没有特征选择，并产生了所有可能的单个特征；计算特征的merit值，并选择merit值最大的一个特征进入M，然后选择第二个拥有最大的merit值的特征进入M，如果这两个特征的merit值小于原来的merit值，则去除这个第二个最大的merit值的特征，然后在进行下一个，这样依次递进，找出使merit最大的特征组合。

进一步地，上述的包裹式特征选择方法通常根据预测效果评分来为学习器“量身定制”特征子集，相较于过滤法，能使学习器的性能更佳，但是计算开销往往也更大。其中，包裹式特征选择方法包括递归特征消除(Recursive feature elimination)和Lasso。

其中，递归特征消除主要为：首先，将全部特征纳入模型中，得到特征对应的系数(即权重)；然后，将取值最小的系数平方和对应的特征从模型中移除；用剩下的特征在进行模型训练，再进行特征移除,直至没有特征.在这个过程中被消除的次序就是特征的排序,根据排序选择最重要的n个特征.本工具使用线性分类支持向量机(LinearSVC)进行递归特征消除.

Lasso主要为：L1正则化将系数w的L1范数作为惩罚项加到损失函数上，由于正则项非零，这就迫使那些弱的特征所对应的系数变成0。因此L1正则化往往会使学到的模型很稀疏(系数w经常为0)，这个特性使得L1正则化成为一种很好的特征选择方法。本工具使用Lasso回归,剔除模型系数为0的特征。

再进一步地，上述的嵌入式(Embedded)特征选择方法将特征选择和学习器的训练过程融为一体，即学习器自动的进行了特征选择.比如决策树的信息增益、信息增益比、基尼指数，求解最优解时的L1、L2正则化等思想，都能选取对学习器有价值的特征，过滤价值不大的特征。其中，嵌入式特征选择方法主要为：基于随机森林的特征选择法，具体的，利用随机森林，计算出特征重要性，选择特征重要性较高的特征。

此外，需要说明的是，除了上述的几种特征选择方法外，本实施例中的特征选择方法还可以包括lgb、correlations、rf等特征选择方法，其中，关于lgb、correlations、rf的相关介绍可以参见现有技术，本公开实施例在此不做赘述。

步骤305、确定是否对模型训练参数进行不平衡处理。

其中，可以将“是”选项和“否”选项显示于可视化界面中以供用户选择，之后，可以响应于用户在可视化界面上触发的预定操作(例如点击操作)来确定是否对模型训练参数进行不平衡处理。示例的，假设用户控制鼠标点击了“是”选项，则建模平台工具可以响应于该点击操作确定对模型训练参数进行不平衡处理。

步骤306、确定训练模型文件的保存路径，训练模型文件包括训练后的算法模型的参数信息。

图4为根据本公开实施例一所述的方法提供的一种机器学习算法模型的训练装置400的结构示意图，如图4所示，该装置400可以包括：

设置模块401，用于设置模型训练参数；

处理模块402，用于对所述模型训练参数进行数据处理；

特征选择模块404，用于对数据处理后的模型训练参数进行特征选择；

训练模块404，用于选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型。

可选的，所述设置模块，还用于：

选择训练数据集文件，所述训练数据集文件包括模型训练参数；

确定所述训练数据集文件的相关信息，所述相关信息包括唯一标识列名、目标变量列名；

选择业务问题，所述业务问题包括分类问题、回归问题、逻辑回归问题；其中，不同业务问题对应选择不同的算法模型；

确定特征选择方法，所述特征选择方法包括：过滤法、包裹式特征选择方法、Lasso、嵌入式特征选择方法。

确定是否对模型训练参数进行不平衡处理；

确定训练模型文件的保存路径，所述训练模型文件包括所述训练后的算法模型的参数信息。

可选的，所述数据处理，包括：

删除重复值处理；

异常值处理；

缺失值处理；

数据标准化处理；

数据离散化处理；

类别型数据编码处理；

可选的，所述特征选择模块，还用于：

基于设置模型训练参数时所确定的特征选择方法对所述数据处理后的模型训练参数进行特征选择。

可选的，所述训练模块，还用于：

基于设置模型训练参数时所选择的业务问题选择对应的算法模型。

可选的，所述训练模块，还用于：

若所述业务问题为分类问题或逻辑回归问题，确定选择的算法模型为：逻辑回归算法模型，所述逻辑回归算法模型采用分类决策树算法；

若所述业务问题为回归问题，确定选择的算法模型为：线性回归算法模型，所述线性回归算法模型采用回归决策树算法。

可选的，所述装置还用于：

将所述训练后的算法模型的参数信息保存至所述训练模型文件中。

综上所述，本公开实施例提供的机器学习算法模型的训练装置中，会设置模型训练参数，并会对该模型训练参数进行数据处理，之后，会对数据处理后的模型训练参数进行特征选择，最后，会选择算法模型，并基于特征选择后的模型训练参数对所选择的算法模型进行训练以得到训练后的算法模型。

图5为根据本公开实施例二所述的方法提供的一种机器学习算法模型的训练装置500的结构示意图，如图5所示，该装置500可以包括：

设置模块501，用于设置模型训练参数；

处理模块502，用于对所述模型训练参数进行数据处理；

特征选择模块503，用于对数据处理后的模型训练参数进行特征选择；

训练模块505，用于选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型；

选择模块505，用于选择预测数据集文件，所述预测数据集文件包括模型预测数据；

第一确定模块506，用于确定所述预测数据集文件相关信息，所述相关信息包括唯一标识列名、目标变量列名；

第二确定模块507，用于确定阈值确定方法，所述阈值确定方法包括：基于KS的阈值确定法，基于F-Score的阈值确定法，人工指定阈值法；

建立模块508，用于建立预测结果保存文件，所述预测结果保存文件位于所述训练模型文件的保存路径中，所述预测结果保存文件用于保存对于所述训练后的算法模型的预测结果；

预测模块509，用于基于所述预测数据集文件和所述阈值确定方法对所述训练后的算法模型进行预测以输出模型报告，并将所述模型报告保存至所述预测结果保存文件中，所述模型报告包括对于所述训练后的算法模型的预测结果。

图6为根据本公开实施例三所述的方法提供的一种设置模块401的结构示意图，如图6所示，所述设置模块401，包括：

选择单元4011，用于选择训练数据集文件，所述训练数据集文件包括模型训练参数；

确定单元4012，用于确定所述训练数据集文件的相关信息，所述相关信息包括唯一标识列名、目标变量列名；

选择单元4013，用于选择业务问题，所述业务问题包括分类问题、回归问题、逻辑回归问题；其中，不同业务问题对应选择不同的算法模型；

确定单元4014，用于确定特征选择方法，所述特征选择方法包括：过滤法、包裹式特征选择方法、Lasso、嵌入式特征选择方法。

确定单元4015，用于确定是否对模型训练参数进行不平衡处理；

确定单元4016，用于确定训练模型文件的保存路径，所述训练模型文件包括所述训练后的算法模型的参数信息。

综上所述，本公开实施例具体可以实现如下优点：

1)流程创新：通过将整体建模流程细分为各个独立模块，在各模块内再详细地丰富不同的技术方法，做到将各种分析方法与建模算法的有机整合，实现了全流程自动化建模过程，大大提升了建模效率，节约了各项成本。并且，该工具耦合性高，后续如要进行工具升级也只需将涉及到的模块进行相应改动即可。同时用户使用简洁便利，只需输入原始数据，选择模型中期望用到的技术算法，即可获得一个最佳的模型输出结果。

2)产出创新：工具可一次构造多个模型，将最终比对结果以表格形式呈献给用户，同时对各个模型不仅绘制模型指标结果图，同时附上重要指标分箱结果图。这种报表与图形相结合的模型评估报告产出，不仅能让用户更清晰地感受到不同模型之间的效果差异，同时可以更直接准确地知悉模型结果与数据指标之间的因果关系，将复杂的机器学习算法成功转换为直观可理解的报告，大大提升了模型的可解释性与用户的使用体验。

3)应用创新：与以往建模工具由技术人员操控不同，因本工具将大量分析方法技术进行了包装整合，仅将参数输入暴露给用户，同时辅助以可视化界面，这使得用户可以在即使没有较多建模经验的情况下，依然可以依靠工具提供的基本讲解释义快速学习上手，完成建模过程。可以说，这是一个对业务人员友好型，对技术人员辅助性的绝佳建模帮手，让业务与技术之间的协作更加顺利紧密，进而更快速高效地构造出真正满足双方需求的最佳模型，更优质的提供金融风控服务。

此外，为了实现上述实施例，本公开还提出一种计算机存储介质。

本公开实施例提供的计算机存储介质，存储有可执行程序；所述可执行程序被处理器执行后，能够实现如图1所示的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器学习算法模型的训练方法，其特征在于，所述方法包括：

设置模型训练参数；

对所述模型训练参数进行数据处理；

对数据处理后的模型训练参数进行特征选择；

选择算法模型，并基于特征选择后的模型训练参数对选择的算法模型进行训练以得到训练后的算法模型，以及，利用所述训练后的算法模型实现智能识别和/或智能预测。

2.根据权利要求1所述的机器学习算法模型的训练方法，其特征在于，所述设置模型训练参数，包括：

确定特征选择方法，所述特征选择方法包括：过滤法、包裹式特征选择方法、Lasso、嵌入式特征选择方法；

确定是否对模型训练参数进行不平衡处理；

3.根据权利要求2所述的机器学习算法模型的训练方法，其特征在于，所述数据处理，包括：

删除重复值处理；

异常值处理；

缺失值处理；

数据标准化处理；

数据离散化处理；

类别型数据编码处理；

4.根据权利要求2所述的机器学习算法模型的训练方法，其特征在于，所述对数据处理后的模型训练参数进行特征选择，包括：

5.根据权利要求2所述的机器学习算法模型的训练方法，其特征在于，所述选择算法模型，包括：

6.根据权利要求5所述的机器学习算法模型的训练方法，其特征在于，所述基于设置模型训练参数时所选择的业务问题选择对应的算法模型，包括：

7.根据权利要求2所述的机器学习算法模型的训练方法，其特征在于，所述方法还包括：

8.根据权利要求2所述的机器学习算法模型的训练方法，其特征在于，所述方法还包括：

选择预测数据集文件，所述预测数据集文件包括模型预测数据；

确定所述预测数据集文件相关信息，所述相关信息包括唯一标识列名、目标变量列名；

确定阈值确定方法，所述阈值确定方法包括：基于KS的阈值确定法，基于F-Score的阈值确定法，人工指定阈值法；

建立预测结果保存文件，所述预测结果保存文件位于所述训练模型文件的保存路径中，所述预测结果保存文件用于保存对于所述训练后的算法模型的预测结果；

基于所述预测数据集文件和所述阈值确定方法对所述训练后的算法模型进行预测以输出模型报告，并将所述模型报告保存至所述预测结果保存文件中，所述模型报告包括对于所述训练后的算法模型的预测结果。

9.一种机器学习算法模型的训练装置，其特征在于，所述装置包括：

设置模块，用于设置模型训练参数；

处理模块，用于对所述模型训练参数进行数据处理；

训练模块，用于选择算法模型，并基于特征选择后的模型训练参数对所述选择的算法模型进行训练以得到训练后的算法模型，以及，利用所述训练后的算法模型实现智能识别和/或智能预测。

10.根据权利要求9所述的机器学习算法模型的训练装置，其特征在于，所述设置模块，还用于：

确定是否对模型训练参数进行不平衡处理；

11.根据权利要求10所述的机器学习算法模型的训练装置，其特征在于，所述数据处理，包括：

删除重复值处理；

异常值处理；

缺失值处理；

数据标准化处理；

数据离散化处理；

类别型数据编码处理；

12.根据权利要求10所述的机器学习算法模型的训练装置，其特征在于，所述特征选择模块，还用于：

13.根据权利要求10所述的机器学习算法模型的训练装置，其特征在于，所述训练模块，还用于：

14.根据权利要求13所述的机器学习算法模型的训练装置，其特征在于，所述训练模块，还用于：

15.根据权利要求10所述的机器学习算法模型的训练装置，其特征在于，所述装置还用于：

16.根据权利要求10所述的机器学习算法模型的训练装置，其特征在于，所述装置还包括：

选择模块，用于选择预测数据集文件，所述预测数据集文件包括模型预测数据；

第一确定模块，用于确定所述预测数据集文件相关信息，所述相关信息包括唯一标识列名、目标变量列名；

第二确定模块，用于确定阈值确定方法，所述阈值确定方法包括：基于KS的阈值确定法，基于F-Score的阈值确定法，人工指定阈值法；

建立模块，用于建立预测结果保存文件，所述预测结果保存文件位于所述训练模型文件的保存路径中，所述预测结果保存文件用于保存对于所述训练后的算法模型的预测结果；

预测模块，用于基于所述预测数据集文件和所述阈值确定方法对所述训练后的算法模型进行预测以输出模型报告，并将所述模型报告保存至所述预测结果保存文件中，所述模型报告包括对于所述训练后的算法模型的预测结果。

17.一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现如权利要求1-8任一所述的方法。