CN112200392A

CN112200392A - 业务预测方法及装置

Info

Publication number: CN112200392A
Application number: CN202011366789.4A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 王震宇; 张阳
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-01-08
Anticipated expiration: 2040-11-30
Also published as: CN112200392B; US11250368B1

Abstract

本申请实施例提供一种业务预测方法及装置，在考虑业务验证通过的业务样本的同时，兼顾了部分业务验证被拒绝的业务样本的数据特征，比较真实地还原了业务场景，减少了拒绝样本的成本浪费，尤其是在业务验证通过的样本量不充分的情况下，合理地均衡了建模样本和拒绝样本的需求，由此训练获得的业务预测模型在对接收到的待预测业务信息进行预测时，可以预测被拒绝的业务对象的未来行为，从而降低参数估计偏差。

Description

业务预测方法及装置

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种业务预测方法及装置。

背景技术

通常基于机器学习的业务预测模型可以评估业务所属分类标签的业务指标情况。在常规设计中，对于实际的样本训练而言，样本选取对象通常只会选择业务验证通过的业务样本，然后去预测这些业务验证通过的业务样本在后续业务使用过程中的行为，那些已经被规则或者业务预测模型拒绝的业务样本通常会被排除的。这样训练得到的业务预测模型，后续在进行业务预测时则无法获取到那些被拒绝的业务对象的未来行为，也无法判断这些业务对象的各类业务指标情况，从而导致最终的业务预测模型存在参数估计偏差，导致后续的人工成本浪费。

发明内容

基于现有设计的不足，本申请提供一种业务预测方法及装置，在考虑业务验证通过的业务样本的同时，兼顾了部分业务验证被拒绝的业务样本的数据特征，由此训练获得的业务预测模型可以预测被拒绝的业务对象的未来行为，从而降低参数估计偏差，减少了成本浪费。

根据本申请的第一方面，提供一种业务预测方法，应用于计算机设备，所述方法包括：

获取第一业务样本集和第二业务样本集，所述第一业务样本集包括训练样本集、测试样本集和验证样本集，所述第二业务样本集包括拒绝样本集，其中，所述第一业务样本集用于表示业务验证通过的业务样本，所述第二业务样本集用于表示业务验证被拒绝的业务样本；

根据第一业务样本集和第二业务样本集进行训练获得业务预测模型，并根据所述业务预测模型对接收到的待预测业务信息进行预测，获得所述待预测业务信息对应的业务预测结果。

在第一方面的一种可能的实施方式中，所述根据第一业务样本集和第二业务样本集进行训练获得业务预测模型的步骤，包括：

根据所述训练样本集建立第一逻辑回归模型和第一机器学习模型；

根据所述第一机器学习模型对第一业务样本集和第二业务样本集进行迭代样本分析，并根据样本分析结果从所述拒绝样本集中筛选得到目标拒绝样本集；

根据所述目标拒绝样本集和所述训练样本集建立第二逻辑回归模型，并分别根据所述第一逻辑回归模型和所述第二逻辑回归模型对所述测试样本集和所述验证样本集进行分析，得到所述第一逻辑回归模型的第一评价指标和所述第二逻辑回归模型的第二评价指标；

根据所述第一评价指标和所述第二评价指标确定最终的业务预测模型。

在第一方面的一种可能的实施方式中，所述根据所述第一机器学习模型对第一业务样本集和第二业务样本集进行迭代样本分析，并根据样本分析结果从所述拒绝样本集中筛选得到目标拒绝样本集的步骤，包括：

根据所述第一机器学习模型对所述测试样本集进行分析，建立初始AUC和初始KS；

根据所述第一机器学习模型对所述拒绝样本集进行分析，基于分析获得的概率分数对所述拒绝样本集中的拒绝样本进行排序，得到排序拒绝样本集；

从所述排序拒绝样本集中选择不同预设规则范围的拒绝样本集，并根据所述训练样本集和每个预设规则范围的拒绝样本集建立对应的第二机器学习模型；

根据每个对应的第二机器学习模型从所述拒绝样本集中筛选得到目标拒绝样本集。

在第一方面的一种可能的实施方式中，所述从所述排序拒绝样本集中选择不同预设规则范围的拒绝样本集，并根据所述训练样本集和每个预设规则范围的拒绝样本集建立对应的第二机器学习模型的步骤，包括：

从所述排序拒绝样本集中选择前N条拒绝样本作为第一拒绝样本集，并根据所述训练样本集和所述第一拒绝样本集建立对应的第二机器学习模型；

从所述排序拒绝样本集中选择后M条拒绝样本作为第二拒绝样本集，并根据所述训练样本集和所述第二拒绝样本集建立对应的第二机器学习模型；

从所述前N条拒绝样本和后M条拒绝样本作为第三拒绝样本集，并根据所述训练样本集和所述第三拒绝样本集建立对应的第二机器学习模型。

在第一方面的一种可能的实施方式中，所述根据每个对应的第二机器学习模型从所述拒绝样本集中筛选得到目标拒绝样本集的步骤，包括：

分别基于每个对应的第二机器学习模型对所述测试样本集进行预测，生成每个第二机器学习模型的预测结果的候选AUC和候选KS；

从各个候选AUC中选择最大候选AUC作为目标AUC，从各个候选KS中选择最大KS作为目标KS；

判断当前配置的评价指标为AUC指标还是KS指标，在当前配置的评价指标为AUC指标时，判断所述目标AUC与预设容忍度指数之和是否大于所述初始AUC；

当所述目标AUC与预设容忍度指数之和大于所述初始AUC时，将所述目标AUC对应的预设规则范围的拒绝样本集作为筛选拒绝样本集，并将所述目标AUC赋值给所述初始AUC，选取所述目标AUC对应的第二机器学习模型作为新的第一机器学习模型，并从排序拒绝样本集中剔除所述筛选拒绝样本集后，返回执行根据所述第一机器学习模型对所述测试样本集进行分析，建立初始AUC和初始KS的步骤，直到所述目标AUC与预设容忍度指数之和不大于所述初始AUC时，将所有的筛选拒绝样本集确定为目标拒绝样本集；

当所述目标AUC与预设容忍度指数之和不大于所述初始AUC时，将所述目标AUC对应的预设规则范围的拒绝样本集确定为目标拒绝样本集；或者

在当前配置的评价指标为KS指标时，判断所述目标KS与预设容忍度指数之和是否大于所述初始KS；

当所述目标KS与预设容忍度指数之和大于所述初始KS时，将所述目标KS对应的预设规则范围的拒绝样本集作为筛选拒绝样本集，并将所述目标KS赋值给所述初始KS，选取所述目标KS对应的第二机器学习模型作为新的第一机器学习模型，并从排序拒绝样本集中剔除所述筛选拒绝样本集后，返回执行根据所述第一机器学习模型对所述测试样本集进行分析，建立初始KS和初始KS的步骤，直到所述目标KS与预设容忍度指数之和不大于所述初始KS时，将所有的筛选拒绝样本集确定为目标拒绝样本集；

当所述目标KS与预设容忍度指数之和不大于所述初始KS时，将所述目标KS对应预设规则范围的拒绝样本集确定为目标拒绝样本集。

在第一方面的一种可能的实施方式中，所述分别根据所述第一逻辑回归模型和所述第二逻辑回归模型对所述测试样本集和所述验证样本集进行分析，得到所述第一逻辑回归模型的第一评价指标和所述第二逻辑回归模型的第二评价指标的步骤，包括：

根据所述第一逻辑回归模型对所述测试样本集和所述验证样本集分别进行概率预测，得到所述测试样本集和所述验证样本集的第一概率预测结果，并根据所述第二逻辑回归模型对所述测试样本集和所述验证样本集分别进行概率预测，得到所述测试样本集和所述验证样本集的第二概率预测结果；

分别计算所述第一概率预测结果的第一AUC和第一KS，以及所述第二概率预测结果的第二AUC和第二KS，以将所述第一AUC和第一KS确定为第一逻辑回归模型的第一评价指标，将所述第二AUC和第二KS确定为所述第二逻辑回归模型的第二评价指标。

在第一方面的一种可能的实施方式中，所述根据所述第一评价指标和所述第二评价指标确定最终的业务预测模型的步骤，包括：

获取所述第二AUC相较于所述第一AUC的第一提升幅度，以及所述第二KS相较于所述第一KS的第二提升幅度；

如果所述第一提升幅度大于设定幅度，和/或所述第二提升幅度大于设定幅度，则确定所述第二逻辑回归模型为最终的业务预测模型；

如果所述第一提升幅度不大于设定幅度，且所述第二提升幅度不大于设定幅度，则确定所述第一逻辑回归模型为最终的业务预测模型。

根据本申请的第二方面，提供一种业务预测装置，应用于计算机设备，所述装置包括：

获取模块，用于获取第一业务样本集和第二业务样本集，所述第一业务样本集包括训练样本集、测试样本集和验证样本集，所述第二业务样本集包括拒绝样本集，其中，所述第一业务样本集用于表示业务验证通过的业务样本，所述第二业务样本集用于表示业务验证被拒绝的业务样本；

训练模块，用于根据第一业务样本集和第二业务样本集进行训练获得业务预测模型，并根据所述业务预测模型对接收到的待预测业务信息进行预测，获得所述待预测业务信息对应的业务预测结果。

基于上述任一方面，本申请在考虑业务验证通过的业务样本的同时，兼顾了部分业务验证被拒绝的业务样本的数据特征，比较真实地还原了业务场景，减少了拒绝样本的成本浪费，尤其是在业务验证通过的样本量不充分的情况下，合理地均衡了建模样本和拒绝样本的需求，由此训练获得的业务预测模型在对接收到的待预测业务信息进行预测时，可以预测被拒绝的业务对象的未来行为，从而降低参数估计偏差。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的业务预测方法的流程示意图；

图2示出了图1中所示的步骤S120的子步骤流程示意图；

图3示出了本申请实施例所提供的业务预测装置的功能模块示意图；

图4示出了本申请实施例所提供的用于执行上述的业务预测方法的计算机设备的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

请参阅图1，图1示出了本申请实施例提供的业务预测方法的流程示意图，应当理解，在其它实施例中，本实施例的业务预测方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该业务预测方法的详细步骤介绍如下。

步骤S110，获取第一业务样本集和第二业务样本集。

步骤S120，根据第一业务样本集和第二业务样本集进行训练获得业务预测模型，并根据业务预测模型对接收到的待预测业务信息进行预测，获得待预测业务信息对应的业务预测结果。

本实施例中，第一业务样本集用于表示业务验证通过的业务样本，第二业务样本集用于表示业务验证被拒绝的业务样本。

以风控应用场景为例，风控被运用到互联网金融各个地方，主要包括信贷中的个人信贷与小微企业信贷、投资过程中的风险控制、平台资金安全、平台技术安全、用户资金安全、用户账户安全、推广运营活动等环节，通俗讲，风控用于还款能力、还款意愿的判断，反欺诈反作弊，防止外部对内部系统的攻击，防范平台和用户的资金出现问题等。从行业看，风控应用于互金行业的消费金融、供应链金融、信用借贷、理财平台、P2P、大数据征信、第三方支付等各细分领域，同时还可用于电商、游戏、社交等互联网服务。

例如，在信贷审批过程中，第一业务样本集可以用于表示贷款审批通过，已经授信通过放款的业务样本，第二业务样本集用于表示贷款审批被拒绝，没有授信通过放款的业务样本。

本实施例中，第一业务样本集可以包括训练样本集、测试样本集和验证样本集。例如，可以以一定的比例将第一业务样本集拆分为训练样本集、测试样本集和验证样本集，例如可以以7：2：1的比例将第一业务样本集分别拆分为训练样本集、测试样本集和验证样本集。第二业务样本集则可以包括拒绝样本集。

基于上述步骤，本实施例在考虑业务验证通过的业务样本的同时，兼顾了部分业务验证被拒绝的业务样本的数据特征，比较真实地还原了业务场景，减少了拒绝样本的成本浪费，尤其是在业务验证通过的样本量不充分的情况下，合理地均衡了建模样本和拒绝样本的需求，由此训练获得的业务预测模型在对接收到的待预测业务信息进行预测时，可以预测被拒绝的业务对象的未来行为，从而降低参数估计偏差。

在一种可能的实施方式中，针对步骤S120而言，本申请发明人考虑验证通过的业务对象和验证未通过的业务对象的特征是有一定区分度的，故不能随机地添加拒绝样本，因此拒绝样本的筛选对后续的预测效果的精度显得尤为重要，接下来将给出一些示例性的筛选实施方式，从而进一步保证业务预测模型的稳定，并且更为真实地反映实际的业务场景。

例如，请结合参阅图2，步骤S120可以通过以下示例性的子步骤来实现，详细描述如下。

子步骤S121，根据训练样本集建立第一逻辑回归模型和第一机器学习模型。

例如，在一种可能的实施方式中，在建立第一逻辑回归模型的过程中，可以将训练样本集输入到初始的逻辑回归模型中，预测训练样本集中每个训练样本的逻辑回归分类标签，然后将每个训练样本的逻辑回归分类标签与预先标注的分类标签进行比较，根据比较差异调整初始的逻辑回归模型的模型参数后进行预设迭代次数的反复训练，获得第一逻辑回归模型。相对应地，在建立第一机器学习模型的过程中，可以将训练样本集输入到初始的机器学习模型中，预测训练样本集中每个训练样本的分类标签，然后将每个训练样本的分类标签与预先标注的分类标签进行比较，根据比较差异调整初始的机器学习模型的模型参数后进行预设迭代次数的反复训练，获得第一机器学习模型。其中，第一机器学习模型和第一逻辑回归模型为不同的网络模型，以便于从不同网络模型的维度来评估分类性能。

子步骤S122，根据第一机器学习模型对第一业务样本集和第二业务样本集进行迭代样本分析，并根据样本分析结果从拒绝样本集中筛选得到目标拒绝样本集。

子步骤S123，根据目标拒绝样本集和训练样本集建立第二逻辑回归模型，并分别根据第一逻辑回归模型和第二逻辑回归模型对测试样本集和验证样本集进行分析，得到第一逻辑回归模型的第一评价指标和第二逻辑回归模型的第二评价指标。

子步骤S124，根据第一评价指标和第二评价指标确定最终的业务预测模型。

这样，通过对拒绝样本集进行进一步筛选获得目标拒绝样本集后，结合训练样本集进行模型训练，并且结合评价指标确定最终的业务预测模型，可以进一步后续的预测效果的精度，保证业务预测模型的稳定，并且更为真实地反映实际的业务场景。

在一种可能的实施方式中，针对子步骤S122，可以通过以下示例性的实施方式来实现，详细描述如下。

（1）根据第一机器学习模型对测试样本集进行分析，建立初始AUC和初始KS。

本实施例中，AUC(Area Under Curve): 被定义为ROC曲线下的面积。其中，ROC曲线全称为受试者工作特征曲线（receiver operating characteristic curve），它是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（TPR）为纵坐标，假阳性率（FPR）为横坐标绘制的曲线。本实施例中，KS为max(abs(TPR-FPR))。

True Positive Rate（真阳性率，TPR），TPR=TP/（TP+FN），正样本预测结果数/正样本实际数；

False Positive Rate（假阳性率，FPR），FPR=FP/（FP+TN），被预测为正的负样本结果数/负样本实际数。

本实施例中，AUC本质是：随机抽取一个正样本和负样本，模型对正样本的预测值高于负样本预测值的概率多少。下面介绍一种时间复杂度最低的计算方法，假设一共有A个正样本，B个负样本，对这B+A个样本按照模型的预测值进行排序（从小到大）。令最大score对应的sample 的rank为B，第二大score对应sample的rank为B-1，以此类推。然后把所有的正类样本的rank相加，再减去A-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score，然后再除以A×B。即

AUC=∑i∈positiveclassranki−A(1+A)/2A∗B

本实施例中，KS曲线和ROC曲线的关系十分密切，都用到了FPR（假阳性率）和TPR（真阳性率）这两个指标。不同的是，ROC曲线用FPR作为横轴，TPR作为纵轴，采用描点法绘制，图中总共是一条线；而KS曲线的横轴则是不同的概率判断阈值，图中一共有两条线，分别代表了FPR值和TPR值，而KS值则是两条线最大间隔的差值，即max(abs(TPR−FPR))。选择最大间隔对于的横轴概率阈值为最佳概率阈值。

（2）根据第一机器学习模型对拒绝样本集进行分析，基于分析获得的概率分数对拒绝样本集中的拒绝样本进行排序，得到排序拒绝样本集。

（3）从排序拒绝样本集中选择不同预设规则范围的拒绝样本集，并根据训练样本集和每个预设规则范围的拒绝样本集建立对应的第二机器学习模型。

例如，可以从排序拒绝样本集中选择前N条拒绝样本作为第一拒绝样本集，并根据训练样本集和第一拒绝样本集建立对应的第二机器学习模型。

并且，从排序拒绝样本集中选择后M条拒绝样本作为第二拒绝样本集，并根据训练样本集和第二拒绝样本集建立对应的第二机器学习模型。

并且，从前N条拒绝样本和后M条拒绝样本作为第三拒绝样本集，并根据训练样本集和第三拒绝样本集建立对应的第二机器学习模型。

其中，N和M为正整数。

（4）根据每个对应的第二机器学习模型从拒绝样本集中筛选得到目标拒绝样本集。

例如，可以分别基于每个对应的第二机器学习模型对测试样本集进行预测，生成每个第二机器学习模型的预测结果的候选AUC和候选KS。

然后，从各个候选AUC中选择最大候选AUC作为目标AUC，从各个候选KS中选择最大KS作为目标KS。

接着，判断当前配置的评价指标为AUC指标还是KS指标。

例如，在当前配置的评价指标为AUC指标时，判断目标AUC与预设容忍度指数之和是否大于初始AUC。

当目标AUC与预设容忍度指数tol（tol<=0）之和大于初始AUC时，将目标AUC对应的预设规则范围的拒绝样本集作为筛选拒绝样本集，并将目标AUC赋值给初始AUC，选取目标AUC对应的第二机器学习模型作为新的第一机器学习模型，并从排序拒绝样本集中剔除筛选拒绝样本集后，返回执行根据第一机器学习模型对测试样本集进行分析，建立初始AUC和初始KS的步骤，直到目标AUC与预设容忍度指数之和不大于初始AUC时，将所有的筛选拒绝样本集确定为目标拒绝样本集。

此外，当目标AUC与预设容忍度指数tol之和不大于初始AUC时，将目标AUC对应的预设规则范围的拒绝样本集确定为目标拒绝样本集。

又例如，在当前配置的评价指标为KS指标时，判断目标KS与预设容忍度指数之和是否大于初始KS。

当目标KS与预设容忍度指数tol之和大于初始KS时，将目标KS对应的预设规则范围的拒绝样本集作为筛选拒绝样本集，并将目标KS赋值给初始KS，选取目标KS对应的第二机器学习模型作为新的第一机器学习模型，并从排序拒绝样本集中剔除筛选拒绝样本集后，返回执行根据第一机器学习模型对测试样本集进行分析，建立初始KS和初始KS的步骤，直到目标KS与预设容忍度指数之和不大于初始KS时，将所有的筛选拒绝样本集确定为目标拒绝样本集。

此外，当目标KS与预设容忍度指数tol之和不大于初始KS时，将目标KS对应预设规则范围的拒绝样本集确定为目标拒绝样本集。

值得说明的是，在前述实施例中，当前配置的评价指标为AUC指标和KS指标中的一种，例如可以仅包括AUC指标，或者仅包括KS指标，或者可以选择AUC指标和KS指标中任意满足条件的一种，在此不作具体限制。

在一种可能的实施方式中，针对子步骤S123，可以通过以下示例性的实施方式来实现，详细描述如下。

（1）根据第一逻辑回归模型对测试样本集和验证样本集分别进行概率预测，得到测试样本集和验证样本集的第一概率预测结果，并根据第二逻辑回归模型对测试样本集和验证样本集分别进行概率预测，得到测试样本集和验证样本集的第二概率预测结果。

（2）分别计算第一概率预测结果的第一AUC和第一KS，以及第二概率预测结果的第二AUC和第二KS，以将第一AUC和第一KS确定为第一逻辑回归模型的第一评价指标，将第二AUC和第二KS确定为第二逻辑回归模型的第二评价指标。

由此，在子步骤S124中，可以获取第二AUC相较于第一AUC的第一提升幅度，以及第二KS相较于第一KS的第二提升幅度。

如果第一提升幅度大于设定幅度，和/或第二提升幅度大于设定幅度，则确定第二逻辑回归模型为最终的业务预测模型。

如果第一提升幅度不大于设定幅度，且第二提升幅度不大于设定幅度，则确定第一逻辑回归模型为最终的业务预测模型。

基于同一发明构思，请参阅图3，示出了本申请实施例提供的业务预测装置110的功能模块示意图，本实施例可以根据上述方法实施例对业务预测装置110进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图3示出的业务预测装置110只是一种装置示意图。其中，业务预测装置110可以包括获取模块111和训练模块112，下面分别对该业务预测装置110的各个功能模块的功能进行详细阐述。

获取模块111，用于获取第一业务样本集和第二业务样本集，第一业务样本集包括训练样本集、测试样本集和验证样本集，第二业务样本集包括拒绝样本集，其中，第一业务样本集用于表示业务验证通过的业务样本，第二业务样本集用于表示业务验证被拒绝的业务样本。可以理解，该获取模块111可以用于执行上述步骤S110，关于该获取模块111的详细实施方式可以参照上述对步骤S110有关的内容。

训练模块112，用于根据第一业务样本集和第二业务样本集进行训练获得业务预测模型，并根据业务预测模型对接收到的待预测业务信息进行预测，获得待预测业务信息对应的业务预测结果。可以理解，该训练模块112可以用于执行上述步骤S120，关于该训练模块112的详细实施方式可以参照上述对步骤S120有关的内容。

在一种可能的实施方式中，训练模块112具体用于：

根据训练样本集建立第一逻辑回归模型和第一机器学习模型；

根据第一机器学习模型对第一业务样本集和第二业务样本集进行迭代样本分析，并根据样本分析结果从拒绝样本集中筛选得到目标拒绝样本集；

根据目标拒绝样本集和训练样本集建立第二逻辑回归模型，并分别根据第一逻辑回归模型和第二逻辑回归模型对测试样本集和验证样本集进行分析，得到第一逻辑回归模型的第一评价指标和第二逻辑回归模型的第二评价指标；

根据第一评价指标和第二评价指标确定最终的业务预测模型。

在一种可能的实施方式中，训练模块112具体用于：

根据第一机器学习模型对测试样本集进行分析，建立初始AUC和初始KS；

根据第一机器学习模型对拒绝样本集进行分析，基于分析获得的概率分数对拒绝样本集中的拒绝样本进行排序，得到排序拒绝样本集；

从排序拒绝样本集中选择不同预设规则范围的拒绝样本集，并根据训练样本集和每个预设规则范围的拒绝样本集建立对应的第二机器学习模型；

根据每个对应的第二机器学习模型从拒绝样本集中筛选得到目标拒绝样本集。

在一种可能的实施方式中，训练模块112具体用于：

从排序拒绝样本集中选择前N条拒绝样本作为第一拒绝样本集，并根据训练样本集和第一拒绝样本集建立对应的第二机器学习模型；

从排序拒绝样本集中选择后M条拒绝样本作为第二拒绝样本集，并根据训练样本集和第二拒绝样本集建立对应的第二机器学习模型；

从前N条拒绝样本和后M条拒绝样本作为第三拒绝样本集，并根据训练样本集和第三拒绝样本集建立对应的第二机器学习模型。

在一种可能的实施方式中，训练模块112具体用于：

分别基于每个对应的第二机器学习模型对测试样本集进行预测，生成每个第二机器学习模型的预测结果的候选AUC和候选KS；

判断当前配置的评价指标为AUC指标还是KS指标，在当前配置的评价指标为AUC指标时，判断目标AUC与预设容忍度指数之和是否大于初始AUC；

当目标AUC与预设容忍度指数之和大于初始AUC时，将目标AUC对应的预设规则范围的拒绝样本集作为筛选拒绝样本集，并将目标AUC赋值给初始AUC，选取目标AUC对应的第二机器学习模型作为新的第一机器学习模型，并从排序拒绝样本集中剔除筛选拒绝样本集后，返回执行根据第一机器学习模型对测试样本集进行分析，建立初始AUC和初始KS的步骤，直到目标AUC与预设容忍度指数之和不大于初始AUC时，将所有的筛选拒绝样本集确定为目标拒绝样本集；

当目标AUC与预设容忍度指数之和不大于初始AUC时，将目标AUC对应的预设规则范围的拒绝样本集确定为目标拒绝样本集；以及

在当前配置的评价指标为KS指标时，判断目标KS与预设容忍度指数之和是否大于初始KS；

当目标KS与预设容忍度指数之和大于初始KS时，将目标KS对应的预设规则范围的拒绝样本集作为筛选拒绝样本集，并将目标KS赋值给初始KS，选取目标KS对应的第二机器学习模型作为新的第一机器学习模型，并从排序拒绝样本集中剔除筛选拒绝样本集后，返回执行根据第一机器学习模型对测试样本集进行分析，建立初始KS和初始KS的步骤，直到目标KS与预设容忍度指数之和不大于初始KS时，将所有的筛选拒绝样本集确定为目标拒绝样本集；

当目标KS与预设容忍度指数之和不大于初始KS时，将目标KS对应预设规则范围的拒绝样本集确定为目标拒绝样本集。

在一种可能的实施方式中，训练模块112具体用于：

根据第一逻辑回归模型对测试样本集和验证样本集分别进行概率预测，得到测试样本集和验证样本集的第一概率预测结果，并根据第二逻辑回归模型对测试样本集和验证样本集分别进行概率预测，得到测试样本集和验证样本集的第二概率预测结果；

分别计算第一概率预测结果的第一AUC和第一KS，以及第二概率预测结果的第二AUC和第二KS，以将第一AUC和第一KS确定为第一逻辑回归模型的第一评价指标，将第二AUC和第二KS确定为第二逻辑回归模型的第二评价指标。

在一种可能的实施方式中，训练模块112具体用于：

获取第二AUC相较于第一AUC的第一提升幅度，以及第二KS相较于第一KS的第二提升幅度；

如果第一提升幅度大于设定幅度，和/或第二提升幅度大于设定幅度，则确定第二逻辑回归模型为最终的业务预测模型；

基于同一发明构思，请参阅图4，示出了本申请实施例提供的用于执行上述业务预测方法的计算机设备100的结构示意框图，该计算机设备100可以包括业务预测装置110、机器可读存储介质120和处理器130。

本实施例中，机器可读存储介质120与处理器130均位于计算机设备100中且二者分离设置。然而，应当理解的是，机器可读存储介质120也可以是独立于计算机设备100之外，且可以由处理器130通过总线接口来访问。可替换地，机器可读存储介质120也可以集成到处理器130中，例如，可以是高速缓存和/或通用寄存器。

业务预测装置110可以包括存储在机器可读存储介质120的软件功能模块（例如图3中所示的获取模块111和训练模块112），当处理器130执行业务预测装置110中的软件功能模块时，以实现前述方法实施例提供的业务预测方法。

由于本申请实施例提供的计算机设备100是上述计算机设备100执行的方法实施例的另一种实现形式，且计算机设备100可用于执行上述方法实施例提供的业务预测方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。因此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种业务预测方法，其特征在于，应用于计算机设备，所述方法包括：

2.根据权利要求1所述的业务预测方法，其特征在于，所述根据第一业务样本集和第二业务样本集进行训练获得业务预测模型的步骤，包括：

3.根据权利要求2所述的业务预测方法，其特征在于，所述根据所述第一机器学习模型对第一业务样本集和第二业务样本集进行迭代样本分析，并根据样本分析结果从所述拒绝样本集中筛选得到目标拒绝样本集的步骤，包括：

4.根据权利要求3所述的业务预测方法，其特征在于，所述从所述排序拒绝样本集中选择不同预设规则范围的拒绝样本集，并根据所述训练样本集和每个预设规则范围的拒绝样本集建立对应的第二机器学习模型的步骤，包括：

5.根据权利要求3所述的业务预测方法，其特征在于，所述根据每个对应的第二机器学习模型从所述拒绝样本集中筛选得到目标拒绝样本集的步骤，包括：

6.根据权利要求2所述的业务预测方法，其特征在于，所述分别根据所述第一逻辑回归模型和所述第二逻辑回归模型对所述测试样本集和所述验证样本集进行分析，得到所述第一逻辑回归模型的第一评价指标和所述第二逻辑回归模型的第二评价指标的步骤，包括：

7.根据权利要求6所述的业务预测方法，其特征在于，所述根据所述第一评价指标和所述第二评价指标确定最终的业务预测模型的步骤，包括：

8.一种业务预测装置，其特征在于，应用于计算机设备，所述装置包括：

9.根据权利要求8所述的业务预测装置，其特征在于，所述训练模块具体用于：

10.根据权利要求9所述的业务预测装置，其特征在于，所述训练模块具体用于：