CN111899092A

CN111899092A - 基于二道模型的业务数据筛选方法及装置

Info

Publication number: CN111899092A
Application number: CN202010886848.4A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 刘辉; 任利华; 张涛; 潘峻
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-06
Anticipated expiration: 2040-08-28
Also published as: CN111899092B

Abstract

本发明提供的基于二道模型的业务数据筛选方法及装置，首先获取用户终端上传的待处理业务数据，其次确定第一筛选模型的第一特征，将第一特征保存为第一列表文件，然后构建第一筛选模型并将第一筛选模型对应的模型参数保存为第一模型文件。进一步地，根据训练集、测试集以及跨时间验证集确定第二筛选模型的样本集，确定第二筛选模型的第二特征并保存为第二列表文件。最后根据样本集构建第二筛选模型并将第二筛选模型对应的模型参数保存为第二模型文件；将第一列表文件、第一模型文件、第二列表文件以及第二模型文件进行关联存储。如此，能够避免对待处理业务数据进行筛分和识别时出现误判，同时还能实现模型识别的区分度。

Description

基于二道模型的业务数据筛选方法及装置

技术领域

本发明涉及风控数据处理技术领域，具体而言，涉及一种基于二道模型的业务数据筛选方法及装置。

背景技术

目前，对线上贷款的审批数据进行准确筛选是控制信贷短期风险和长期风险的关键。现有技术一般采用前置数据筛分+模型识别的方式来对审批数据进行处理。

然而，上述对审批数据进行处理的方法会出现对审批数据的误判，并且难以实现模型识别的区分度。

发明内容

为了改善上述问题，本发明提供了一种基于二道模型的业务数据筛选方法及装置。

基于本发明实施例的第一方面，提供一种基于二道模型的业务数据筛选方法，所述方法包括：

获取用户终端上传的待处理业务数据；

在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件；

构建所述第一筛选模型并计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值，若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值都大于超过预定目标值，将所述第一筛选模型对应的模型参数保存为第一模型文件；

根据所述训练集、所述测试集以及所述跨时间验证集确定第二筛选模型的样本集；

在确定所述第二筛选模型的第二指标数据之后，确定所述第二筛选模型的第二特征并保存为第二列表文件；

根据所述样本集构建所述第二筛选模型并将所述第二筛选模型对应的模型参数保存为第二模型文件；

将所述第一列表文件、所述第一模型文件、所述第二列表文件以及所述第二模型文件进行关联存储。

优选地，构建所述第一筛选模型，包括：

采用XGBoost的默认参数在训练集上建模，得到所述第一筛选模型。

优选地，所述方法还包括：

若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值不都大于预定目标值，调整所述默认参数中的学习率参数和估计器个数参数并返回计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值的步骤。

优选地，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，包括：

选取排序靠前的20％的目标业务数据作为所述跨时间验证集。

优选地，将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集，包括：

基于python软件的Scikit-learn(sklearn)工具包中的train_test_split函数对所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到所述训练集和所述测试集。

基于本发明实施例的第一方面，提供一种基于二道模型的业务数据筛选方装置，所述装置包括：

业务数据获取模块，用于获取用户终端上传的待处理业务数据；

第一特征确定模块，用于在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件；

第一建模模块，用于构建所述第一筛选模型并计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值，若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值都大于超过预定目标值，将所述第一筛选模型对应的模型参数保存为第一模型文件；

样本确定模块，用于根据所述训练集、所述测试集以及所述跨时间验证集确定第二筛选模型的样本集；

第二特征确定模块，用于在确定所述第二筛选模型的第二指标数据之后，确定所述第二筛选模型的第二特征并保存为第二列表文件；

第二建模模块，用于根据所述样本集构建所述第二筛选模型并将所述第二筛选模型对应的模型参数保存为第二模型文件；

关联存储模块，用于将所述第一列表文件、所述第一模型文件、所述第二列表文件以及所述第二模型文件进行关联存储。

优选地，所述第一特征确定模块，用于：

优选地，所述第一特征确定模块，还用于：

优选地，所述第一特征确定模块，具体用于：

优选地，所述第一特征确定模块，进一步用于：

有益效果

本发明实施例所提供的基于二道模型的业务数据筛选方法及装置：

首先获取用户终端上传的待处理业务数据，其次在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件。

然后构建所述第一筛选模型并计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值，若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值都大于超过预定目标值，将所述第一筛选模型对应的模型参数保存为第一模型文件。

进一步地，根据所述训练集、所述测试集以及所述跨时间验证集确定第二筛选模型的样本集；在确定所述第二筛选模型的第二指标数据之后，确定所述第二筛选模型的第二特征并保存为第二列表文件。

最后根据所述样本集构建所述第二筛选模型并将所述第二筛选模型对应的模型参数保存为第二模型文件；将所述第一列表文件、所述第一模型文件、所述第二列表文件以及所述第二模型文件进行关联存储。

如此，能够避免对待处理业务数据进行筛分和识别时出现误判，同时还能实现模型识别的区分度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种基于二道模型的业务数据筛选方法的流程图。

图2为本发明实施例所提供的一种基于二道模型的业务数据筛选装置的功能模块框图。

图3为本发明实施例所提供的一种服务器的硬件结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

发明人经调查和研究发现，现有技术主要包括以下三个步骤。

步骤一：信息获取。根据终端应用软件或网页获取用户自行填写及合规的网上公开数据库，获得合规的互联网金融用户的还款意愿和还款能力类信息；还款意愿类信息主要判断欺诈风险，如：身份造假，黑产团伙，老赖团伙，中介欺诈，信用黑名单洗白等；还款能力类信息如:消费行为，交易行为，出行行为，多重申请等。

步骤二：制定前置规则。基于已获取到的用户信息，根据信息值(IV)计算每个变量对风险指标的影响程度并排序。其中信息量IV(information value)衡量的是某一个变量的信息量。在各个数据源中选择IV值最高的1-3个变量作为规则变量，根据该变量大于等于某一数值的样本集合与小于某一数值的样本集合之间的风险差额尽可能大、风险较高的样本集合包含的样本量尽可能小之间需要人为权衡从而确定合适的规则阈值。

步骤三：在经过步骤二的确定前置规则后，将命中前置规则的样本剔除，剩下的样本作为建模样本。最终组合为前置规则+模型的形式来进行贷前风控。

进一步地，发明人还发现现有技术存在以下技术问题：

缺点一：无法同时控制短期与长期风险。由于现有技术只依靠前置规则来控制欺诈风险，其它风险均以一个模型为主，当模型的y标签选择首逾10天这类短期指标时，模型无法对诸如前5期逾期30天的比例这类长期风险有很好的预测功能，而且会损失很多数量占比本就非常小的逾期样本；而当模型以前5期逾期30天这类长期风险指标为y标签时，模型则无法对首逾天数这类短期指标有很好的预测性，这首逾天数往往是很多互联网金融机构比较重视的风险指标，这就导致了在互联网金融贷前风控中，无法对短期风险和长期风险同时控制。

在本发明中，本发明在第一道模型、第二道模型分别使用短期风险指标、长期风险指标为y标签进行建模，使得能够全面评估客户的长短期风险。

缺点二：会损失命中少量规则的低风险客户，也会损失模型对命中规则人群的区分。现有技术一般是在确定前置规则后，剔除命中规则的样本后再进行建模，因此所建模型不适用于命中规则的样本。这样会损失大量样本信息，且投入使用后，会损失命中规则但仍然是低风险的客户。

在本发明中，本发明由于采用的是两道模型筛选机制，会基于所有样本建模并在投入使用后对所有客群打分排序，能够最大化利用样本且在使用后对所有用户进行打分排序。

为改善上述目的，请首先参阅图1，提供了基于二道模型的业务数据筛选方法，所述方法包括以下步骤S110-步骤S170。

步骤S110，获取用户终端上传的待处理业务数据。

详细地，通过终端设备的应用软件或网页获取用户自行填写的信息及合规的互联网金融用户属性数据，包括合规的互联网金融用户的还款意愿和还款能力类信息；还款意愿类信息主要判断欺诈风险，如：身份造假，黑产团伙，老赖团伙，中介欺诈，信用黑名单洗白等；还款能力类信息如:消费行为，交易行为，出行行为，多重申请等。将获取的数据输入到建模环境。

步骤S120，在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件。

详细地，这一步骤包括确定模型的因变量并确定合适模型特征。

(1)首先需要确定第一道模型的短期风险指标为首期逾期天数是否超过10天，若超过10天则该指标为1；若首期逾期天数小于等于10天，该指标则为0，该指标为二分类0-1变量(短期风险指标结合业务需求也可进行调整，比如调整为首期逾期15天以上则指标为1否则指标为0)；

(2)在确定短期风险指标之后，则进入特征筛选1过程，将已有数据集按照时间变量从大到小排序，截取排序靠前的20％的数据作为跨时间验证集；再对排序靠后的80％样本(即剩下的样本)划分为训练集和测试集，具体划分方式为：基于python软件的Scikit-learn(sklearn)工具包中的train_test_split函数(或者其它可以替代的随机划分数据集的功能均可)划分70％为训练集，30％为测试集(如果总样本量小于10000，则可以适当提高训练集比例到80％左右)。确定训练集、测试集及跨时间验证集之后，以训练集样本为基础计算各个变量的IV值，选择IV值高于0.02的变量作为第一道短期风险模型的特征，并将特征保存为列表文件1。

步骤S130，构建所述第一筛选模型并计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值，若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值都大于超过预定目标值，将所述第一筛选模型对应的模型参数保存为第一模型文件。

详细地，第一道模型特征确定后，采用XGBoost算法构建第一道短期风险模型，并计算模型性能AUC(Area Under Curve)，AUC被定义为受试者工作特征曲线(receiveroperating characteristic curve)下的面积，它是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线。AUC是衡量学习器优劣的一种性能指标。采用XGBoost默认参数在训练集上建模，计算该模型在训练集、测试集和跨时间验证集上的AUC值，当测试集与跨时间验证集AUC的值均超过0.6(该数据可根据业务需求进行调整)时，则输出构建的模型作为第一道短期风险模型；当测试集与跨时间验证集AUC的值不都大于0.6(或不符合业务要求的数值)时，调整XGBoost的默认参数，包括学习率、估计器个数等参数使得测试集、跨时间验证集上的AUC值均超过0.6，将满足要求的模型作为第一道短期风险模型并保存为模型文件1。

步骤S140，根据所述训练集、所述测试集以及所述跨时间验证集确定第二筛选模型的样本集。

详细地，将步骤120与步骤S130中的训练集、测试集与跨时间验证集合并为总样本集，并从高到低将第一道短期风险模型对总样本集的预估概率排序，从第一行依次计算累积概率值，当累积概率值高于0.03时(该数值可根据业务可接受的短期风险水平确定)，将被计算累积概率值的样本(即预估概率值较高的样本)从总样本集中剔除得到构建第二道长期风险模型的样本。

步骤S150，在确定所述第二筛选模型的第二指标数据之后，确定所述第二筛选模型的第二特征并保存为第二列表文件。

详细地，这一步骤同样包括确定模型的因变量并确定合适模型特征。

(1)首先需要确定第二道模型的长期风险指标为前5期逾期天数是否超过30天，若超过30天则该指标为1；若首期逾期天数小于等于30天，该指标则为0，该指标为二分类0-1变量(长期风险指标结合业务需求也可进行调整，比如调整为前6期逾期是否超过30天，或者前4期逾期是否超过20天)。

(2)在确定长期风险指标之后，相比步骤S120，由于样本已经剔除未通过第一道短期风险的模型，此处可输入成本较高的合规金融数据作为增加的模型待选特征。再将已有数据集按照时间变量从大到小排序，截取排序靠前的20％的数据作为跨时间验证集；再对排序靠后的80％样本(即剩下的样本)划分为训练集和测试集，具体划分方式为：基于python软件的Scikit-learn(sklearn)工具包中的train_test_split函数(或者其它可以替代的随机划分数据集的功能均可)划分70％为训练集，30％为测试集(如果总样本量小于10000，则可以适当提高训练集比例到80％左右)。确定训练集、测试集及跨时间验证集之后，以训练集样本为基础计算各个变量的IV值，选择IV值高于0.02的变量作为第二道长期风险模型的特征，并将特征保存为列表文件2。

步骤S160，根据所述样本集构建所述第二筛选模型并将所述第二筛选模型对应的模型参数保存为第二模型文件。

详细地，第二道短期风险模型特征确定后，同样采用XGBoost算法构建第二道长期风险模型，并计算模型性能AUC(Area Under Curve)。首先采用XGBoost默认参数在训练集上建模，计算该模型在训练集、测试集和跨时间验证集上的AUC值，当测试集与跨时间验证集AUC的值均超过0.6(该数据可根据业务需求进行调整)时，则输出构建的模型作为第一道短期风险模型；当测试集与跨时间验证集AUC的值不都大于0.6(或不符合业务要求的数值)时，调整XGBoost的默认参数，包括学习率、估计器个数等参数使得测试集、跨时间验证集上的AUC值均超过0.6，将满足要求的模型作为第二道长期风险模型并保存为模型文件2。

步骤S170，将所述第一列表文件、所述第一模型文件、所述第二列表文件以及所述第二模型文件进行关联存储。

详细地，建模环境输出二道模型的筛选材料，包括第一道短期风险模型的列表文件1、模型文件1与第二道长期风险模型的列表文件2、模型文件2。

可以理解，通过上述步骤S110-步骤S170，首先获取用户终端上传的待处理业务数据，其次在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件。

在一种可替换的实施方式中，步骤S230所描述的构建所述第一筛选模型，包括：采用XGBoost的默认参数在训练集上建模，得到所述第一筛选模型。

可选地，所述方法还包括：若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值不都大于预定目标值，调整所述默认参数中的学习率参数和估计器个数参数并返回计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值的步骤。

进一步地，步骤S120中所描述的从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，包括：选取排序靠前的20％的目标业务数据作为所述跨时间验证集。

更进一步地，步骤S120中所描述的将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集，包括：基于python软件的Scikit-learn(sklearn)工具包中的train_test_split函数对所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到所述训练集和所述测试集。

基于上述同样的发明构思，请结合参阅图2，提供了基于二道模型的业务数据筛选方装置200，所述装置包括：

业务数据获取模块210，用于获取用户终端上传的待处理业务数据；

第一特征确定模块220，用于在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件；

第一建模模块230，用于构建所述第一筛选模型并计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值，若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值都大于超过预定目标值，将所述第一筛选模型对应的模型参数保存为第一模型文件；

样本确定模块240，用于根据所述训练集、所述测试集以及所述跨时间验证集确定第二筛选模型的样本集；

第二特征确定模块250，用于在确定所述第二筛选模型的第二指标数据之后，确定所述第二筛选模型的第二特征并保存为第二列表文件；

第二建模模块260，用于根据所述样本集构建所述第二筛选模型并将所述第二筛选模型对应的模型参数保存为第二模型文件；

关联存储模块270，用于将所述第一列表文件、所述第一模型文件、所述第二列表文件以及所述第二模型文件进行关联存储。

可选地，所述第一特征确定模块220，用于：

可选地，所述第一特征确定模块220，还用于：

可选地，所述第一特征确定模块220，具体用于：

可选地，所述第一特征确定模块220，进一步用于：

在上述基础上，请结合参阅图3，提供了一种服务器300的硬件结构示意图，所述服务器300包括互相之间通信的处理器310和存储器320，所述处理器310通过从所述存储器320中调取计算机程序，并运行所述计算机程序实现如图1所示的方法。

综上，首先获取用户终端上传的待处理业务数据，其次在确定第一筛选模型的第一指标数据后，将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集；根据所述训练集计算所述待处理业务数据中的每个变量的IV值，并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征，将所述第一特征保存为第一列表文件。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于二道模型的业务数据筛选方法，其特征在于，所述方法包括：

获取用户终端上传的待处理业务数据；

2.根据权利要求1所述的方法，其特征在于，构建所述第一筛选模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集，包括：

5.根据权利要求4所述的方法，其特征在于，将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分，得到训练集和测试集，包括：

6.一种基于二道模型的业务数据筛选方装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一特征确定模块，用于：

8.根据权利要求7所述的装置，其特征在于，所述第一特征确定模块，还用于：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述第一特征确定模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述第一特征确定模块，进一步用于：