CN115880053A - 一种评分卡模型的训练方法及装置 - Google Patents
一种评分卡模型的训练方法及装置 Download PDFInfo
- Publication number
- CN115880053A CN115880053A CN202211552018.3A CN202211552018A CN115880053A CN 115880053 A CN115880053 A CN 115880053A CN 202211552018 A CN202211552018 A CN 202211552018A CN 115880053 A CN115880053 A CN 115880053A
- Authority
- CN
- China
- Prior art keywords
- variable
- model
- variables
- characteristic
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 188
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000000926 separation method Methods 0.000 claims abstract description 21
- 230000008859 change Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本申请提供了一种评分卡模型的训练方法及装置,依据利用优质客户样本集的优质样本向量和劣质客户样本集的劣质样本向量,确定出每个特征变量的信息量值以及每两个特征变量之间的相关系数,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;依据初始模型内变量的第一贡献值和初始模型外变量的第二贡献值,调整初始模型内、外变量,得到用于训练评分卡模型的目标模型内变量;利用目标模型内变量,结合最大分离度算法,确定在评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数得到评分卡模型。这样,可以选择出对预测结果的影响程度更高的目标模型内变量,使得得到的评分卡模型的预测结果更加准确性。
Description
技术领域
本申请涉及模型训练技术领域,尤其是涉及一种评分卡模型的训练方法及装置。
背景技术
在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它通常用于衡量向受信人或需要融资的公司不能如期履行合同中的还本付息责任,以及评估让授信人或银行等金融机构造成经济损失的可能性的一种方式;一般来说,客户评分卡的分值越高,则可表明客户的信用越好,风险越小;相反的,客户评分卡的分值越低,则可表明客户的信用越差,风险越高。
目前,所使用的评分卡模型是基于逻辑回归技术构建的,而在逻辑回归算法需利用大量的特征变量,实现评分卡模型的训练;但是,在大量的特征变量中并不是全部的特征变量均会对评分卡模型的预测结果产生影响,因此,盲目地使用大量的特征变量对评分卡模型进行训练,不但无法提高评分卡模型预测结果的准确性,还会降低评分卡模型的训练效率。
发明内容
有鉴于此,本申请的目的在于提供一种评分卡模型的训练方法及装置,在进行评分卡模型训练时,可以从大量的特征变量中,选择出对评分卡模型的预测结果的影响程度更高的目标模型内变量,实现评分卡模型的训练,进而,可以提高评分卡模型预测结果的准确性,提高评分卡模型的训练效率。
本申请实施例提供了一种评分卡模型的训练方法,所述训练方法包括:
依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;
基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量;其中,所述样本向量包括每个样本客户在每个特征变量的不同分箱维度下对应的特征值;
利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;其中,所述相关系数与两个特征变量之间的关联性成正比;所述信息量值表征每个特征变量所蕴含的信息数量;
依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;
根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;其中,所述贡献值表征特征变量对所述评分卡模型的预测结果的影响程度;
利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
在一种可能的实施方式中,所述基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量,包括:
针对于所述优质客户样本集,基于所述优质客户样本集中每个优质样本客户的样本客户信息,确定每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值,生成所述优质客户样本集对应的优质样本向量;
针对于所述劣质客户样本集,基于所述劣质客户样本集中每个劣质样本客户的样本客户信息,确定每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值,确定所述劣质客户样本集对应的劣质样本向量。
在一种可能的实施方式中,所述利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数,包括:
利用所述优质样本向量或所述劣质样本向量,确定每两个特征变量之间的相关系数;
针对于每个特征变量,利用所述优质样本向量中该特征变量对应的第一特征向量和所述劣质样本向量中该特征变量对应的第二特征向量,确定该特征变量的信息量值。
在一种可能的实施方式中,通过以下步骤确定每个初始模型内变量的第一贡献值:
基于每个优质样本客户和每个劣质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定所述多个初始模型内变量对应的原始散度值;其中,所述散度值用于衡量使用所述多个初始模型内变量训练得到的评分卡模型的准确程度;
针对于每个初始模型内变量,基于每个优质样本客户和每个劣质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定多个其他模型内变量对应的第一变动散度值;其中,所述其他模型内变量为所述多个初始模型内变量中除该初始模型内变量之外的模型内变量;
基于所述原始散度值与所述第一变动散度值,确定该初始模型内变量的第一贡献值;其中,所述第一贡献值表征该初始模型内变量对所述评分卡模型的预测结果的影响程度。
在一种可能的实施方式中,通过以下步骤确定每个初始模型外变量的第二贡献值:
针对于每个初始模型外变量,基于每个优质样本客户和每个劣质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定多个新增模型变量对应的第二变动散度值;其中,所述新增模型变量为所述多个初始模型内变量中新增该初始模型外变量之后的模型变量;
基于所述原始散度值与所述第二变动散度值,确定该初始模型外变量的第二贡献值;其中,所述第二贡献值表征该初始模型外变量对所述评分卡模型的预测结果的影响程度。
在一种可能的实施方式中,所述根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量,包括:
针对于每个初始模型内变量,比较该初始模型内变量的第一贡献值与预设第一阈值;
若该初始模型内变量的第一贡献值小于所述预设第一阈值,则将该初始模型内变量调整为初始模型外变量,得到多个调整后的初始模型内变量;
针对于每个初始模型外变量,比较该初始模型外变量的第二贡献值与预设第二阈值;
若该初始模型外变量的第二贡献值大于所述预设第二阈值,则将该初始模型外变量调整为初始模型内变量,得到多个调整后的初始模型外变量;
根据每个调整后的初始模型内变量的第三贡献值和每个调整后的初始模型外变量的第四贡献值,再次调整所述多个调整后的初始模型内变量和所述多个调整后的初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量。
在一种可能的实施方式中,所述依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量,包括:
将信息量值最大的特征变量直接确定为初始模型内变量;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数小于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数大于或等于预设第三阈值,则将信息量值第二大的特征变量确定初始模型外变量;
若信息量值第三大的特征变量与任意一个初始模型内变量之间的相关系数均小于预设第三阈值,则将信息量值第三大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止,得到多个初始模型内变量。
在一种可能的实施方式中,所述利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型,包括:
利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的初始权重系数,得到初始权重向量;
利用预设业务逻辑对所述初始权重向量中每个元素值进行限制,确定每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
在一种可能的实施方式中,所述训练方法还包括:
获取待预测客户的客户属性信息;
基于所述客户属性信息,确定待预测客户在每个特征变量的不同分箱维度下对应的特征值;
基于待预测客户在每个特征变量的不同分箱维度下对应的特征值,利用所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,确定待预测客户的评分值。
本申请实施例还提供了一种评分卡模型的训练装置,所述训练装置包括:
样本划分模块,用于依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;
向量确定模块,用于基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量;其中,所述样本向量包括每个样本客户在每个特征变量的不同分箱维度下对应的特征值;
系数确定模块,用于利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;其中,所述相关系数与两个特征变量之间的关联性成正比;所述信息量值表征每个特征变量所蕴含的信息数量;
变量划分模块,用于依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;
变量调整模块,用于根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;其中,所述贡献值表征特征变量对所述评分卡模型的预测结果的影响程度;
模型确定模块,用于利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
在一种可能的实施方式中,所述向量确定模块在用于基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量时,所述向量确定模块用于:
针对于所述优质客户样本集,基于所述优质客户样本集中每个优质样本客户的样本客户信息,确定每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值,生成所述优质客户样本集对应的优质样本向量;
针对于所述劣质客户样本集,基于所述劣质客户样本集中每个劣质样本客户的样本客户信息,确定每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值,确定所述劣质客户样本集对应的劣质样本向量。
在一种可能的实施方式中,所述系数确定模块在用于利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数时,所述系数确定模块用于:
利用所述优质样本向量或所述劣质样本向量,确定每两个特征变量之间的相关系数;
针对于每个特征变量,利用所述优质样本向量中该特征变量对应的第一特征向量和所述劣质样本向量中该特征变量对应的第二特征向量,确定该特征变量的信息量值。
在一种可能的实施方式中,所述变量调整模块用于通过以下步骤确定每个初始模型内变量的第一贡献值:
基于每个优质样本客户和每个劣质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定所述多个初始模型内变量对应的原始散度值;其中,所述散度值用于衡量使用所述多个初始模型内变量训练得到的评分卡模型的准确程度;
针对于每个初始模型内变量,基于每个优质样本客户和每个劣质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定多个其他模型内变量对应的第一变动散度值;其中,所述其他模型内变量为所述多个初始模型内变量中除该初始模型内变量之外的模型内变量;
基于所述原始散度值与所述第一变动散度值,确定该初始模型内变量的第一贡献值;其中,所述第一贡献值表征该初始模型内变量对所述评分卡模型的预测结果的影响程度。
在一种可能的实施方式中,所述变量调整模块用于通过以下步骤确定每个初始模型外变量的第二贡献值:
针对于每个初始模型外变量,基于每个优质样本客户和每个劣质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定多个新增模型变量对应的第二变动散度值;其中,所述新增模型变量为所述多个初始模型内变量中新增该初始模型外变量之后的模型变量;
基于所述原始散度值与所述第二变动散度值,确定该初始模型外变量的第二贡献值;其中,所述第二贡献值表征该初始模型外变量对所述评分卡模型的预测结果的影响程度。
在一种可能的实施方式中,所述变量调整模块在用于根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量时,所述变量调整模块用于:
针对于每个初始模型内变量,比较该初始模型内变量的第一贡献值与预设第一阈值;
若该初始模型内变量的第一贡献值小于所述预设第一阈值,则将该初始模型内变量调整为初始模型外变量,得到多个调整后的初始模型内变量;
针对于每个初始模型外变量,比较该初始模型外变量的第二贡献值与预设第二阈值;
若该初始模型外变量的第二贡献值大于所述预设第二阈值,则将该初始模型外变量调整为初始模型内变量,得到多个调整后的初始模型外变量;
根据每个调整后的初始模型内变量的第三贡献值和每个调整后的初始模型外变量的第四贡献值,再次调整所述多个调整后的初始模型内变量和所述多个调整后的初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量。
在一种可能的实施方式中,所述变量划分模块在用于依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量时,所述变量划分模块用于:
将信息量值最大的特征变量直接确定为初始模型内变量;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数小于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数大于或等于预设第三阈值,则将信息量值第二大的特征变量确定初始模型外变量;
若信息量值第三大的特征变量与任意一个初始模型内变量之间的相关系数均小于预设第三阈值,则将信息量值第三大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止,得到多个初始模型内变量。
在一种实施方式中,所述模型确定模块在用于利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型时,所述模型确定模块用于:
利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的初始权重系数,得到初始权重向量;
利用预设业务逻辑对所述初始权重向量中每个元素值进行限制,确定每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
在一种可能的实施方式中,所述训练装置还包括评分值预测模块,所述评分值预测模块用于:
获取待预测客户的客户属性信息;
基于所述客户属性信息,确定待预测客户在每个特征变量的不同分箱维度下对应的特征值;
基于待预测客户在每个特征变量的不同分箱维度下对应的特征值,利用所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,确定待预测客户的评分值。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的评分卡模型的训练方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的评分卡模型的训练方法的步骤。
本申请实施例提供的一种评分卡模型的训练方法及装置,依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;基于每个样本客户的样本客户信息,分别确定优质客户样本集对应的优质样本向量和劣质客户样本集对应的劣质样本向量;利用优质样本向量和劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整多个初始模型内变量和多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;利用目标模型内变量,结合最大分离度算法,确定在评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。这样,可以在进行评分卡模型训练时,从大量的特征变量中选择出对评分卡模型的预测结果的影响程度更高的目标模型内变量,实现评分卡模型的训练,进而,可以提高评分卡模型预测结果的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种评分卡模型的训练方法的流程图;
图2为本申请实施例所提供的一种变量预分类过程示意图;
图3为本申请实施例提供的一种评分卡模型使用过程示意图;
图4为本申请实施例所提供的一种评分卡模型的训练装置的结构示意图之一;
图5为本申请实施例所提供的一种评分卡模型的训练装置的结构示意图之二;
图6为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,目前,所使用的评分卡模型是基于逻辑回归技术构建的,而在逻辑回归算法需利用大量的特征变量,实现评分卡模型的训练;但是,在大量的特征变量中并不是全部的特征变量均会对评分卡模型的预测结果产生影响,因此,盲目地使用大量的特征变量对评分卡模型进行训练,不但无法提高评分卡模型预测结果的准确性,还会降低评分卡模型的训练效率。
基于此,本申请实施例提供了一种评分卡模型的训练方法,可以从大量的特征变量中,选取出对评分卡模型的预测结果的影响程度更高的目标模型内变量,以提高训练得到的评分卡模型预测结果的准确性,减少人工挑选特征变量的过程,提高评分卡模型的训练效率。
请参阅图1,图1为本申请实施例所提供的一种评分卡模型的训练方法的流程图。如图1中所示,本申请实施例提供的评分卡模型的训练方法,包括:
S101、依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集。
S102、基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量。
S103、利用所述优质样本向量或所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数。
S104、依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量。
S105、根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量。
S106、利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
本申请实施例所提供的一种评分卡模型的训练,依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;分别确定优质客户样本集的优质样本向量和劣质客户样本集的劣质样本向量;利用优质样本向量或劣质样本向量,确定不同特征变量之间的相关系数,进而,依据于相关系数确定两个特征变量之间的相关性;同时,利用优质样本向量和劣质样本向量,确定每个特征变量的信息量值;基于每个特征向量的信息量值与每两个特征向量之间的相关系数,对多个样本客户均具有的多个特征变量进行划分,初步确定出可以用于训练评分卡模型的初始模型内变量,和不可用于训练评分卡模型的初始模型外变量;为了进一步地,提高评分卡模型的预测能力,结合每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,进行模型内外变量的动态调整,将第一贡献值较低的初始模型内变量转变为初始模型外变量;同样的,将第二贡献值较高的初始模型外变量转变为初始模型内变量,以此实现模型内外变量的动态调整,得到用于训练评分卡模型的目标模型内变量;利用目标模型内变量,实现评分卡模型的训练,以使得训练得到的评分卡模型预测结果具有更高的准确性,同时,还减少了业务人员人工筛选可用特征变量的过程,减少了业务人员的工作量。
在步骤S101中,获取多个样本客户;这里,每个样本客户对应有客户标签,客户标签能够表明该样本客户的样本类别;即客户标签能够表明该样本客户为优质样本客户,还是劣质样本客户。
依据于每个样本客户的客户标签对多个样本客户进行分类,将优质样本客户划分至优质客户样本集中;相应的,将劣质样本客户划分至劣质客户样本集中,以此,得到优质客户样本集和劣质客户样本集。
其中,所述优质客户样本集中包括多个优质样本客户;所述劣质客户样本集中包括多个劣质样本客户。
在步骤S102中,基于每个样本客户的样本客户信息,对每个样本客户进行分箱处理,确定每个样本客户在不同特征变量下对应的不同分箱维度。
再利用每个样本客户在不同特征变量的不同分箱维度下对应的特征值,分别确定出优质客户样本集的多个优质样本客户对应的优质样本向量,以及劣质客户样本集的多个劣质样本客户对应的劣质样本向量。
示例性的,这里,我们以特征变量为“年龄”、分箱维度包括“18~30”、“31~50”以及“51~80”为例,样本客户的样本客户信息中表明该样本客户的年龄为26,那么,可以确定出该样本客户在“年龄”这个特征变量的“18~30”的分箱维度下对应的特征值为“1”,在“31~50”的分箱维度下对应的特征值为“0”,在“51~80”的分箱维度下对应的特征值为“0”。
在一种实施方式中,步骤S102包括:
步骤21、针对于所述优质客户样本集,基于所述优质客户样本集中每个优质样本客户的样本客户信息,确定每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值。
该步骤中,针对于划分出的优质客户样本集,利用优质客户样本集中每个优质样本客户的样本客户信息,确定出每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值。
步骤22、基于每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值,生成所述优质客户样本集对应的优质样本向量。
该步骤中,针对于每个优质样本客户,通过拼接该优质样本客户在每个特征变量的不同分箱维度下对应的特征值,得到该优质样本客户的客户样本向量。
在得到每个优质样本客户的客户样本向量的基础上,通过拼接优质客户样本集中每个优质样本客户的客户样本向量,得到优质客户样本集对应的优质样本向量。
示例性的,我们以特征变量为“年龄”、“职业”为例,“年龄”这一特征变量所具有的分箱维度包括“18~30”、“31~50”以及“51~80”,“职业”这一特征变量所具有的分箱维度包括“老师”、“医生”以及“无业”;
优质样本客户1的样本客户信息中表明该样本客户的年龄为26岁,职业为医生,那么,可以确定出优质样本客户1在“年龄”这个特征变量的“18~30”的分箱维度下对应的特征值为“1”,在“31~50”的分箱维度下对应的特征值为“0”,在“51~80”的分箱维度下对应的特征值为“0”;优质样本客户1在“职业”这个特征变量的“老师”的分箱维度下对应的特征值为“0”,在“医生”的分箱维度下对应的特征值为“1”,在“无业”的分箱维度下对应的特征值为“0”;拼接优质样本客户1在“年龄”和“职业”两个特征变量的不同分箱维度下的特征值,得到优质样本客户1的客户样本向量,优质样本客户1的客户样本向量为“[1 0 0 0 10]”;
优质样本客户2的样本客户信息中表明该样本客户的年龄为42岁、无业,那么,可以确定出优质样本客户1在“年龄”这个特征变量的“18~30”的分箱维度下对应的特征值为“0”,在“31~50”的分箱维度下对应的特征值为“1”,在“51~80”的分箱维度下对应的特征值为“0”;优质样本客户2在“职业”这个特征变量的“老师”的分箱维度下对应的特征值为“0”,在“医生”的分箱维度下对应的特征值为“0”,在“无业”的分箱维度下对应的特征值为“1”;拼接优质样本客户2在“年龄”和“职业”两个特征变量的不同分箱维度下的特征值,得到优质样本客户2的客户样本向量,优质样本客户2的客户样本向量为“[0 1 0 0 0 1]”;
假设,优质客户样本集中仅包括优质样本客户1和优质样本客户2,通过拼接优质样本客户1的客户样本向量和优质样本客户2的客户样本向量,得到优质客户样本集的优质样本向量,该优质客户样本集的优质样本向量为“[1 0 0 0 1 0 0 1 0 0 0 1]”。
这里,特征变量的拼接顺序以及客户样本向量的拼接顺序,可以随机设定,也可以视实际情况而定,在此不做限制。
步骤23、针对于所述劣质客户样本集,基于所述劣质客户样本集中每个劣质样本客户的样本客户信息,确定每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值。
该步骤中,针对于划分出的劣质客户样本集,利用劣质客户样本集中每个劣质样本客户的样本客户信息,确定出每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值。
步骤24、基于每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值,确定所述劣质客户样本集对应的劣质样本向量。
该步骤中,针对于每个劣质样本客户,通过拼接该劣质样本客户在每个特征变量的不同分箱维度下对应的特征值,得到该劣质样本客户的客户样本向量。
在得到每个劣质样本客户的客户样本向量的基础上,通过拼接劣质客户样本集中每个劣质样本客户的客户样本向量,得到劣质客户样本集对应的劣质样本向量。
在步骤S103中,利用优质样本向量和劣质样本向量,分别确定出表征每个特征变量蕴含的信息多少的信息量值,以及表明没两个特征变量之间相关性的相关系数。
在一种实施方式中,步骤S103包括:
步骤31、利用所述优质样本向量或所述劣质样本向量,确定每两个特征变量之间的相关系数。
该步骤中,可以选择利用优质样本向量来确定两个特征变量之间的相关系数;具体的,分别从优质样本向量中提取出特征变量1对应的第三特征向量,以及特征变量2对应的第四特征向量,利用第三特征变量以及第四特征变量,确定出特征变量1与特征变量2之间的相关系数;即,确定出特征变量1与特征变量2之间的关联性。
这里,相关系数与两个特征变量之间的关联性成正比;即,两个特征变量之间的关联性越高,这两个特征变量之间的相关系数越高;相反的,两个特征变量之间的关联性越低,这两个特征变量之间的相关系数越小。
对应于上述实施例,在确定“年龄”和“职业”两个特征变量之间的相关系数时,从优质样本向量中提取出“年龄”这一特征变量对应的第三特征向量;具体的,分别从优质样本客户1和优质样本客户2的客户样本向量中提取出“年龄”这一特征变量所对应的部分,得到“年龄”这一特征变量对应的第三特征向量,第三特征向量为[1 0 0 0 1 0](前3个元素为从优质样本客户1中提取出的“年龄”这一特征变量所对应的部分,后3个元素为从优质样本客户2中提取出的“年龄”这一特征变量所对应的部分,每个元素值为“年龄”这一特征变量的不同分箱维度下的特征值);
相应的,通过同样的方式,分别从优质样本客户1和优质样本客户2的客户样本向量中提取出“职业”这一特征变量所对应的部分,得到“职业”这一特征变量对应的第四特征向量,第四特征向量为[0 1 0 0 0 1]。
通过以下公式计算两个特征变量之间的相关系数:
其中,cc(X,Y)表示特征变量X与特征变量Y之间的相关系数,Cov(X,Y)表示特征变量X与特征变量Y之间的协方差,var(X)表示特征变量X的方差,var(Y)表示特征变量Y的方差。
步骤32、针对于每个特征变量,利用所述优质样本向量中该特征变量对应的第一特征向量和所述劣质样本向量中该特征变量对应的第二特征向量,确定该特征变量的信息量值。
该步骤中,针对于每个特征变量,需同时利用优质样本向量和劣质样本向量,来确定该特征变量的信息量值;具体的,分别从优质样本向量中提取出特征变量3对应的第一特征向量,以及从劣质样本向量中提取出特征变量3对应的第二特征向量,利用第一特征变量以及第二特征变量,确定出特征变量3的信息量值。
这里,信息量值与该特征变量所具有的预测能力之间成正比;即,该特征变量的预测能力越高,信息量值越高;相反的,该特征变量的预测能力越低,信息量值越低;预测能力是指单独使用该特征变量能够准确得出正确预测结果的能力。
对应于上述实施例,在确定“年龄”这个特征变量的信息量值时,分别从优质样本向量中提取出“年龄”这一特征变量对应的第一特征向量,以及从劣质样本向量中提取出“年龄”这一特征变量对应的第二特征向量;具体的,分别从优质样本客户1和优质样本客户2的客户样本向量中提取出“年龄”这一特征变量所对应的部分,得到优质样本向量中“年龄”这一特征变量对应的第一特征向量,第一特征向量为[1 0 0 0 1 0](前3个元素为优质样本客户1在“年龄”这一特征变量的不同分箱维度下的特征值,后3个元素为优质样本客户2在“年龄”这一特征变量的不同分箱维度下的特征值);假设,劣质客户样本集中存在两个劣质样本客户,劣质样本客户1和劣质样本客户2,劣质样本客户1在“年龄”这一特征变量的不同分箱维度下的特征值分别为(0,0,1),劣质样本客户2在“年龄”这一特征变量的不同分箱维度下的特征值分别为(0,0,1);即可得到,劣质样本向量中“年龄”这一特征变量对应的第二特征向量,第二特征向量为[0 0 1 0 0 1]。
通过以下公式计算每个特征变量的信息量值:
其中,IVH表示特征变量H的信息量值,n表示特征变H所具有的分箱维度的数量,fg(i)第i个分箱维度中优质样本客户占优质样本客户总数的比例,fb(i)第i个分箱维度中劣质样本客户占劣质样本客户总数的比例。
在步骤S104中,依据每两个特征变量之间的相关系数和每个特征变量的信息量值,从多个特征变量中选择对预测结果影响程度较大的多个初始模型内变量,以及对预测结果影响程度较小的多个初始模型外变量。
在一种实施方式中,如图2所示,图2为本申请实施例所提供的一种变量预分类过程示意图。如图2所示,步骤S104包括:
步骤S1041、将信息量值最大的特征变量直接确定为初始模型内变量。
该步骤中,依据于每个特征变量的信息量值,从多个特征变量中选取出信息量值最大的特征变量,将其直接确定为初始模型内变量。
步骤S1042、若信息量值第二大的特征变量与该初始模型内变量之间的相关系数小于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型内变量。
该步骤中,依据于每个特征变量的信息量值,从多个特征变量中选取出信息量值第二大的特征变量,若信息量值第二大的特征变量与已确定的初始模型内变量(即,信息量值最大的特征变量)之间的相关系数小于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型内变量。
步骤S1043、若信息量值第二大的特征变量与该初始模型内变量之间的相关系数大于或等于预设第三阈值,则将信息量值第二大的特征变量确定初始模型外变量。
该步骤中,若信息量值第二大的特征变量与已确定的初始模型内变量(即,信息量值最大的特征变量)之间的相关系数大于或等于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型外变量。
步骤S1044、若信息量值第三大的特征变量与任意一个初始模型内变量之间的相关系数均小于预设第三阈值,则将信息量值第三大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止,得到多个初始模型内变量。
该步骤中,依据于每个特征变量的信息量值,再次从多个特征变量中选取出信息量值第三大的特征变量,若信息量值第三大的特征变量与已确定的每个初始模型内变量(即,信息量值最大、第二大的特征变量)之间的相关系数均小于预设第三阈值,则将信息量值第三大的特征变量确定为初始模型内变量;否则,将信息量值第三大的特征变量确定为初始模型外变量。
以此类推,直至确定出预设数量的初始模型内变量为止,得到多个初始模型内变量。
或者,直至全部的特征变量均完成内外变量的划分为止,得到多个初始模型内变量。
为了更加准确地选择出、更加适用于对客户的评分值进行预测的特征变量,在经过初次内外变量划分后,可以根据每个模型内变量的第一贡献值和每个模型外变量的第二贡献值,动态调整模型内变量和模型外变量,以保证能够从多个特征变量中选择出对于预测结果更具潜在价值的模型内变量。
在步骤S105中,利用每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整多个初始模型内变量和多个初始模型外变量,将多个初始模型内变量中对评分卡模型的预测结果的影响程度较小的初始模型内变量,调整为初始模型外变量;即,将第一贡献值较小的初始模型内变量,调整为初始模型外变量;相应的,将多个初始模型外变量中对评分卡模型的预测结果的影响程度较大的初始模型外变量,调整为初始模型内变量;即,将第二贡献值较大的初始模型外变量,调整为初始模型内变量,以实现初始模型内外变量的动态调整。
直至调整过程中,初始模型内变量不再发生变化为止,将不再发生变化的初始模型内变量确定为用于训练评分卡模型的目标模型内变量。
在一种实施方式中,步骤S105包括:
步骤51、针对于每个初始模型内变量,比较该初始模型内变量的第一贡献值与预设第一阈值。
该步骤中,针对于每个初始模型内变量,可以通过比较该初始模型内变量的第一贡献值与预设第一阈值,确定该初始模型内变量的存在对于评分卡模型的预测结果是否具有较大影响。
步骤52、若该初始模型内变量的第一贡献值小于所述预设第一阈值,则将该初始模型内变量调整为初始模型外变量,得到多个调整后的初始模型内变量。
该步骤中,若该初始模型内变量的第一贡献值小于预设第一阈值,则说明该初始模型内变量的存在并不会对评分卡模型的预测结果产生较大影响;此时,可以确定该初始模型内变量并不适合用于训练评分卡模型,将该初始模型内变量调整为初始模型外变量,得到多个调整后的初始模型内变量。
步骤53、针对于每个初始模型外变量,比较该初始模型外变量的第二贡献值与预设第二阈值。
该步骤中,针对于每个初始模型外变量,可以通过比较该初始模型外变量的第二贡献值与预设第二阈值,确定该初始模型外变量的存在对于评分卡模型的预测结果是否具有较大影响。
步骤54、若该初始模型外变量的第二贡献值大于所述预设第二阈值,则将该初始模型外变量调整为初始模型内变量,得到多个调整后的初始模型外变量。
该步骤中,若该初始模型外变量的第二贡献值大于预设第二阈值,则说明该初始模型外变量的存在并不会对评分卡模型的预测结果产生较大影响;此时,可以确定该初始模型外变量适合用于训练评分卡模型,将该初始模型外变量调整为初始模型内变量,得到多个调整后的初始模型外变量。
步骤55、根据每个调整后的初始模型内变量的第三贡献值和每个调整后的初始模型外变量的第四贡献值,再次调整所述多个调整后的初始模型内变量和所述多个调整后的初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量。
该步骤中,利用每个调整后的初始模型内变量的第三贡献值和每个调整后的初始模型外变量的第四贡献值,再次调整多个调整后的初始模型内变量和多个调整后的初始模型外变量;
将多个调整后的初始模型内变量中对评分卡模型的预测结果的影响程度较小的初始模型内变量,再次调整为初始模型外变量;即,将多个调整后的初始模型内变量中第三贡献值小于预设第一阈值的初始模型内变量,再次调整为初始模型外变量;
相应的,将多个调整后的初始模型外变量中对评分卡模型的预测结果的影响程度较大的初始模型外变量,再次调整为初始模型内变量;即,将多个调整后的初始模型外变量中第四贡献值大于预设第二阈值的初始模型外变量,再次调整为初始模型内变量,以实现初始模型内外变量的动态调整。
直至调整过程中,初始模型内变量不再发生变化为止,将不再发生变化的初始模型内变量确定为用于训练评分卡模型的目标模型内变量。
在一种实施方式中,通过以下步骤确定每个初始模型内变量的第一贡献值:
步骤a、基于每个优质样本客户和每个劣质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定所述多个初始模型内变量对应的原始散度值。
该步骤中,利用每个优质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定每个优质样本客户在多个初始模型内变量下对应的第五特征向量;利用每个劣质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定每个劣质样本客户在多个初始模型内变量下对应的第六特征向量;利用第五特征向量和第六特征向量,确定多个初始模型内变量对应的原始散度值。
具体的,通过以下公式确定多个初始模型内变量对应的原始散度值:
divergence(S)=coef·t(mean(g)-mean(b));
其中,divergence(S)表示原始散度值,mean(g)表示每个优质样本客户在多个初始模型内变量下对应的第五特征向量的变量均值;mean(b)表示每个劣质样本客户在多个初始模型内变量下对应的第六特征向量的变量均值,coef表示变量系数,t()表示该矩阵的转置矩阵。
通过以下公式确定变量系数:
其中,coef表示变量系数,cov(g)表示每个优质样本客户在多个初始模型内变量下对应的第五特征向量的协方差矩阵,cov(b)表示每个劣质样本客户在多个初始模型内变量下对应的第六特征向量的协方差矩阵,inv()表示该矩阵的逆矩阵,mean(g)表示每个优质样本客户在多个初始模型内变量下对应的第五特征向量的变量均值;mean(b)表示每个劣质样本客户在多个初始模型内变量下对应的第六特征向量的变量均值,t()表示该矩阵的转置矩阵。
步骤b、针对于每个初始模型内变量,基于每个优质样本客户和每个劣质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定多个其他模型内变量对应的第一变动散度值。
该步骤中,针对于每个初始模型内变量,将多个初始模型内变量中除该初始模型内变量之外的模型内变量,确定为其他模型内变量。
利用每个优质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定每个优质样本客户在多个其他模型内变量下对应的第七特征向量;利用每个劣质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定每个劣质样本客户在多个其他模型内变量下对应的第八特征向量;利用第七特征向量和第八特征向量,通过上述原始散度值计算公式,确定多个其他模型内变量对应的第一变动散度值(divergence(S(j)))。
步骤c、基于所述原始散度值与所述第一变动散度值,确定该初始模型内变量的第一贡献值。
该步骤中,将原始散度值与第一变动散度值之间的差值,确定为该初始模型内变量的第一贡献值。
其中,所述第一贡献值表征该初始模型内变量对所述评分卡模型的预测结果的影响程度。
通过以下公式确定第一贡献值:
MCI(j)=divergence(S)-divergence(S(j));
其中,MCI(j)为第j个初始模型内变量的第一贡献值,divergence(S)表示原始散度值,divergence(S(j))表示第一变动散度值。
在一种实施方式中,通过以下步骤确定每个初始模型外变量的第二贡献值:
步骤d、针对于每个初始模型外变量,基于每个优质样本客户和每个劣质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定多个新增模型变量对应的第二变动散度值。
该步骤中,针对于每个初始模型外变量,将该初始模型外变量新增值多个初始模型内变量中得到新增模型变量。
利用每个优质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定每个优质样本客户在多个新增模型变量下对应的第九特征向量;利用每个劣质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定每个劣质样本客户在多个新增模型变量下对应的第十特征向量;利用第九特征向量和第十特征向量,通过上述原始散度值计算公式,确定多个新增模型变量对应的第二变动散度值(divergence(S(k)))。
步骤e、基于所述原始散度值与所述第二变动散度值,确定该初始模型外变量的第二贡献值。
该步骤中,将第二变动散度值与原始散度值之间的差值,确定为该初始模型外变量的第二贡献值。
其中,所述第二贡献值表征该初始模型外变量对所述评分卡模型的预测结果的影响程度。
通过以下公式确定第二贡献值:
MCO(k)=divergence(S(k))-divergence(S);
其中,MCO(k)为第k个初始模型外变量的第二贡献值,divergence(S)表示原始散度值,divergence(S(k))表示第二变动散度值。
在步骤S106中,利用确定出的、适合于训练评分卡模型的目标模型内变量,结合最大分离度算法,训练预先构建的评分卡模型,确定在评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
这里,将多个特征变量中出目标模型内变量之外的其他特征变量对应的变量权重系数,默认设置为“0”。
在一种实施方式中,步骤S106包括:
步骤61、利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的初始权重系数,得到初始权重向量。
该步骤中,利用确定出的、适合于训练评分卡模型的目标模型内变量,结合最大分离度算法,训练预先构建的评分卡模型,确定在评分卡模型中每个特征变量的不同分箱维度对应的初始权重系数,得到初始权重向量。
步骤62、利用预设业务逻辑对所述初始权重向量中每个元素值进行限制,确定每个特征变量对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
该步骤中,考虑到评分卡模型应用场景所涉及业务本身所存在的业务逻辑,为了使得确定出的用于确定客户的评分值的评分卡模型更加的适用于应用场景,利用应用场景所涉及业务的预设业务逻辑,对初始权重向量中每个元素值进行限制,确定每个特征变量对应的变量权重系数;
基于每个特征变量的不同分箱维度对应的变量权重系数,拼接得到多个特征变量的不同分箱维度对应的变量权重系数向量,得到用于预测客户的评分值的评分卡模型。
通过以下公式确定多个特征变量对应的变量权重系数向量:
other constraints;
其中,表示每个优质样本客户在多个目标模型内变量下对应的均值向量,/>表示每个劣质样本客户在多个目标模型内变量下对应的均值向量,w表示变量权重系数向量,其值是一组多元未知数,/>T表示多个目标模型内变量下所具有的分箱维度的数量,K为相关阈值,other constraints指的是根据预设业务逻辑添加的约束条件。
请参阅图3,图3为本申请实施例提供的一种评分卡模型使用过程示意图。如图3中所示,所述训练方法还包括:
S301、获取待预测客户的客户属性信息。
S302、基于所述客户属性信息,确定待预测客户在每个特征变量的不同分箱维度下对应的特征值。
该步骤中,首先,从客户属性信息中提取出待预测客户在每个特征变量下的特征信息,并确定每个特征信息所属的分箱维度;然后,根据每个特征信息所属的分箱维度,确定待预测客户在每个特征变量的不同分箱维度下对应的特征值。
S303、基于待预测客户在每个特征变量的不同分箱维度下对应的特征值,利用所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,确定待预测客户的评分值。
该步骤中,结合待预测客户在每个特征变量的不同分箱维度下对应的特征值,与评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,计算得到待预测客户的评分值。
本申请实施例提供的评分卡模型的训练方法,依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;基于每个样本客户的样本客户信息,分别确定优质客户样本集对应的优质样本向量和劣质客户样本集对应的劣质样本向量;利用优质样本向量和劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整多个初始模型内变量和多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;利用目标模型内变量,结合最大分离度算法,确定在评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。这样,可以在进行评分卡模型训练时,从大量的特征变量中选择出对评分卡模型的预测结果的影响程度更高的目标模型内变量,实现评分卡模型的训练,进而,可以提高评分卡模型预测结果的准确性。
请参阅图4、图5,图4为本申请实施例所提供的一种评分卡模型的训练装置的结构示意图之一,图5为本申请实施例所提供的一种评分卡模型的训练装置的结构示意图之二。如图4中所示,所述训练装置400包括:
样本划分模块410,用于依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;
向量确定模块420,用于基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量;其中,所述样本向量包括每个样本客户在每个特征变量的不同分箱维度下对应的特征值;
系数确定模块430,用于利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;其中,所述相关系数与两个特征变量之间的关联性成正比;所述信息量值表征每个特征变量所蕴含的信息数量;
变量划分模块440,用于依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;
变量调整模块450,用于根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;其中,所述贡献值表征特征变量对所述评分卡模型的预测结果的影响程度;
模型确定模块460,用于利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
进一步的,所述向量确定模块420在用于基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量时,所述向量确定模块420用于:
针对于所述优质客户样本集,基于所述优质客户样本集中每个优质样本客户的样本客户信息,确定每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值,生成所述优质客户样本集对应的优质样本向量;
针对于所述劣质客户样本集,基于所述劣质客户样本集中每个劣质样本客户的样本客户信息,确定每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值,确定所述劣质客户样本集对应的劣质样本向量。
进一步的,所述系数确定模块430在用于利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数时,所述系数确定模块430用于:
利用所述优质样本向量或所述劣质样本向量,确定每两个特征变量之间的相关系数;
针对于每个特征变量,利用所述优质样本向量中该特征变量对应的第一特征向量和所述劣质样本向量中该特征变量对应的第二特征向量,确定该特征变量的信息量值。
进一步的,所述变量调整模块450用于通过以下步骤确定每个初始模型内变量的第一贡献值:
基于每个优质样本客户和每个劣质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定所述多个初始模型内变量对应的原始散度值;其中,所述散度值用于衡量使用所述多个初始模型内变量训练得到的评分卡模型的准确程度;
针对于每个初始模型内变量,基于每个优质样本客户和每个劣质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定多个其他模型内变量对应的第一变动散度值;其中,所述其他模型内变量为所述多个初始模型内变量中除该初始模型内变量之外的模型内变量;
基于所述原始散度值与所述第一变动散度值,确定该初始模型内变量的第一贡献值;其中,所述第一贡献值表征该初始模型内变量对所述评分卡模型的预测结果的影响程度。
进一步的,所述变量调整模块450用于通过以下步骤确定每个初始模型外变量的第二贡献值:
针对于每个初始模型外变量,基于每个优质样本客户和每个劣质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定多个新增模型变量对应的第二变动散度值;其中,所述新增模型变量为所述多个初始模型内变量中新增该初始模型外变量之后的模型变量;
基于所述原始散度值与所述第二变动散度值,确定该初始模型外变量的第二贡献值;其中,所述第二贡献值表征该初始模型外变量对所述评分卡模型的预测结果的影响程度。
进一步的,所述变量调整模块450在用于根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量时,所述变量调整模块用于:
针对于每个初始模型内变量,比较该初始模型内变量的第一贡献值与预设第一阈值;
若该初始模型内变量的第一贡献值小于所述预设第一阈值,则将该初始模型内变量调整为初始模型外变量,得到多个调整后的初始模型内变量;
针对于每个初始模型外变量,比较该初始模型外变量的第二贡献值与预设第二阈值;
若该初始模型外变量的第二贡献值大于所述预设第二阈值,则将该初始模型外变量调整为初始模型内变量,得到多个调整后的初始模型外变量;
根据每个调整后的初始模型内变量的第三贡献值和每个调整后的初始模型外变量的第四贡献值,再次调整所述多个调整后的初始模型内变量和所述多个调整后的初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量。
进一步的,所述变量划分模块440在用于依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量时,所述变量划分模块440用于:
将信息量值最大的特征变量直接确定为初始模型内变量;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数小于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数大于或等于预设第三阈值,则将信息量值第二大的特征变量确定初始模型外变量;
若信息量值第三大的特征变量与任意一个初始模型内变量之间的相关系数均小于预设第三阈值,则将信息量值第三大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止,得到多个初始模型内变量。
进一步的,所述模型确定模块460在用于利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型时,所述模型确定模块460用于:
利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的初始权重系数,得到初始权重向量;
利用预设业务逻辑对所述初始权重向量中每个元素值进行限制,确定每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
进一步的,如图5所示,所述训练装置400还包括评分值预测模块470,所述评分值预测模块470用于:
获取待预测客户的客户属性信息;
基于所述客户属性信息,确定待预测客户在每个特征变量的不同分箱维度下对应的特征值;
基于待预测客户在每个特征变量的不同分箱维度下对应的特征值,利用所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,确定待预测客户的评分值。
本申请实施例提供的评分卡模型的训练装置,依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;基于每个样本客户的样本客户信息,分别确定优质客户样本集对应的优质样本向量和劣质客户样本集对应的劣质样本向量;利用优质样本向量和劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整多个初始模型内变量和多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;利用目标模型内变量,结合最大分离度算法,确定在评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。这样,可以在进行评分卡模型训练时,从大量的特征变量中选择出对评分卡模型的预测结果的影响程度更高的目标模型内变量,实现评分卡模型的训练,进而,可以提高评分卡模型预测结果的准确性。
请参阅图6,图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示,所述电子设备600包括处理器610、存储器620和总线630。
所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过总线630通信,所述机器可读指令被所述处理器610执行时,可以执行如上述图1所示方法实施例中的评分卡模型的训练方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的评分卡模型的训练方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种评分卡模型的训练方法,其特征在于,所述训练方法包括:
依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;
基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量;其中,所述样本向量包括每个样本客户在每个特征变量的不同分箱维度下对应的特征值;
利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;其中,所述相关系数与两个特征变量之间的关联性成正比;所述信息量值表征每个特征变量所蕴含的信息数量;
依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;
根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;其中,所述贡献值表征特征变量对所述评分卡模型的预测结果的影响程度;
利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
2.根据权利要求1所述的训练方法,其特征在于,所述基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量,包括:
针对于所述优质客户样本集,基于所述优质客户样本集中每个优质样本客户的样本客户信息,确定每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个优质样本客户在每个特征变量的不同分箱维度下对应的特征值,生成所述优质客户样本集对应的优质样本向量;
针对于所述劣质客户样本集,基于所述劣质客户样本集中每个劣质样本客户的样本客户信息,确定每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值;
基于每个劣质样本客户在每个特征变量的不同分箱维度下对应的特征值,确定所述劣质客户样本集对应的劣质样本向量。
3.根据权利要求1所述的训练方法,其特征在于,所述利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数,包括:
利用所述优质样本向量或所述劣质样本向量,确定每两个特征变量之间的相关系数;
针对于每个特征变量,利用所述优质样本向量中该特征变量对应的第一特征向量和所述劣质样本向量中该特征变量对应的第二特征向量,确定该特征变量的信息量值。
4.根据权利要求1所述的训练方法,其特征在于,通过以下步骤确定每个初始模型内变量的第一贡献值:
基于每个优质样本客户和每个劣质样本客户在每个初始模型内变量的不同分箱维度下对应的特征值,确定所述多个初始模型内变量对应的原始散度值;其中,所述散度值用于衡量使用所述多个初始模型内变量训练得到的评分卡模型的准确程度;
针对于每个初始模型内变量,基于每个优质样本客户和每个劣质样本客户在每个其他模型内变量的不同分箱维度下对应的特征值,确定多个其他模型内变量对应的第一变动散度值;其中,所述其他模型内变量为所述多个初始模型内变量中除该初始模型内变量之外的模型内变量;
基于所述原始散度值与所述第一变动散度值,确定该初始模型内变量的第一贡献值;其中,所述第一贡献值表征该初始模型内变量对所述评分卡模型的预测结果的影响程度。
5.根据权利要求4所述的训练方法,其特征在于,通过以下步骤确定每个初始模型外变量的第二贡献值:
针对于每个初始模型外变量,基于每个优质样本客户和每个劣质样本客户在每个新增模型变量的不同分箱维度下对应的特征值,确定多个新增模型变量对应的第二变动散度值;其中,所述新增模型变量为所述多个初始模型内变量中新增该初始模型外变量之后的模型变量;
基于所述原始散度值与所述第二变动散度值,确定该初始模型外变量的第二贡献值;其中,所述第二贡献值表征该初始模型外变量对所述评分卡模型的预测结果的影响程度。
6.根据权利要求1所述的训练方法,其特征在于,所述根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量,包括:
针对于每个初始模型内变量,比较该初始模型内变量的第一贡献值与预设第一阈值;
若该初始模型内变量的第一贡献值小于所述预设第一阈值,则将该初始模型内变量调整为初始模型外变量,得到多个调整后的初始模型内变量;
针对于每个初始模型外变量,比较该初始模型外变量的第二贡献值与预设第二阈值;
若该初始模型外变量的第二贡献值大于所述预设第二阈值,则将该初始模型外变量调整为初始模型内变量,得到多个调整后的初始模型外变量;
根据每个调整后的初始模型内变量的第三贡献值和每个调整后的初始模型外变量的第四贡献值,再次调整所述多个调整后的初始模型内变量和所述多个调整后的初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量。
7.根据权利要求1所述的训练方法,其特征在于,所述依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量,包括:
将信息量值最大的特征变量直接确定为初始模型内变量;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数小于预设第三阈值,则将信息量值第二大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止;
若信息量值第二大的特征变量与该初始模型内变量之间的相关系数大于或等于预设第三阈值,则将信息量值第二大的特征变量确定初始模型外变量;
若信息量值第三大的特征变量与任意一个初始模型内变量之间的相关系数均小于预设第三阈值,则将信息量值第三大的特征变量确定为初始模型内变量,以此类推,直至得到预设数量的初始模型内变量或全部特征变量完成划分为止,得到多个初始模型内变量。
8.根据权利要求1所述的训练方法,其特征在于,所述利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型,包括:
利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的初始权重系数,得到初始权重向量;
利用预设业务逻辑对所述初始权重向量中每个元素值进行限制,确定每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
9.根据权利要求1所述的训练方法,其特征在于,所述训练方法还包括:
获取待预测客户的客户属性信息;
基于所述客户属性信息,确定待预测客户在每个特征变量的不同分箱维度下对应的特征值;
基于待预测客户在每个特征变量的不同分箱维度下对应的特征值,利用所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,确定待预测客户的评分值。
10.一种评分卡模型的训练装置,其特征在于,所述训练装置包括:
样本划分模块,用于依据于每个样本客户的客户标签,将多个样本客户划分为优质客户样本集和劣质客户样本集;
向量确定模块,用于基于每个样本客户的样本客户信息,分别确定所述优质客户样本集对应的优质样本向量和所述劣质客户样本集对应的劣质样本向量;其中,所述样本向量包括每个样本客户在每个特征变量的不同分箱维度下对应的特征值;
系数确定模块,用于利用所述优质样本向量和所述劣质样本向量,确定每个特征变量的信息量值以及每两个特征变量之间的相关系数;其中,所述相关系数与两个特征变量之间的关联性成正比;所述信息量值表征每个特征变量所蕴含的信息数量;
变量划分模块,用于依据每两个特征变量之间的相关系数和每个特征变量的信息量值,将多个特征变量划分为多个初始模型内变量和多个初始模型外变量;
变量调整模块,用于根据每个初始模型内变量的第一贡献值和每个初始模型外变量的第二贡献值,迭代调整所述多个初始模型内变量和所述多个初始模型外变量,直至模型内变量不再发生变化为止,得到用于训练评分卡模型的目标模型内变量;其中,所述贡献值表征特征变量对所述评分卡模型的预测结果的影响程度;
模型确定模块,用于利用所述目标模型内变量,结合最大分离度算法,确定在所述评分卡模型中每个特征变量的不同分箱维度对应的变量权重系数,得到用于预测客户的评分值的评分卡模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552018.3A CN115880053B (zh) | 2022-12-05 | 2022-12-05 | 一种评分卡模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552018.3A CN115880053B (zh) | 2022-12-05 | 2022-12-05 | 一种评分卡模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115880053A true CN115880053A (zh) | 2023-03-31 |
CN115880053B CN115880053B (zh) | 2024-05-31 |
Family
ID=85765964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211552018.3A Active CN115880053B (zh) | 2022-12-05 | 2022-12-05 | 一种评分卡模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115880053B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399255A (zh) * | 2018-03-06 | 2018-08-14 | 中国银行股份有限公司 | 一种分类数据挖掘模型的输入数据处理方法及装置 |
US20180308160A1 (en) * | 2016-02-01 | 2018-10-25 | Tencent Technology (Shenzhen) Company Limited | Risk assessment method and system |
CN110874667A (zh) * | 2018-08-31 | 2020-03-10 | 重庆小雨点小额贷款有限公司 | 评分卡模型优化方法、装置、服务器及存储介质 |
CA3059937A1 (en) * | 2018-10-26 | 2020-04-26 | Pengcheng CHEN | User credit evaluation method and device, electronic device, storage medium |
CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
CN111738819A (zh) * | 2020-06-15 | 2020-10-02 | 中国建设银行股份有限公司 | 表征数据筛选方法、装置和设备 |
CN112330048A (zh) * | 2020-11-18 | 2021-02-05 | 中国光大银行股份有限公司 | 评分卡模型训练方法、装置、存储介质及电子装置 |
CN112990583A (zh) * | 2021-03-19 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 一种数据预测模型的入模特征确定方法及设备 |
CN114140013A (zh) * | 2021-12-08 | 2022-03-04 | 重庆誉存大数据科技有限公司 | 一种基于xgboost的评分卡生成方法、装置及设备 |
CN114372871A (zh) * | 2022-01-07 | 2022-04-19 | 中国工商银行股份有限公司 | 信用评分值的确定方法及其装置、电子设备及存储介质 |
CN115114851A (zh) * | 2022-06-22 | 2022-09-27 | 浙江惠瀜网络科技有限公司 | 基于五折交叉验证的评分卡建模方法及装置 |
CN115423035A (zh) * | 2022-09-26 | 2022-12-02 | 重庆长安新能源汽车科技有限公司 | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 |
-
2022
- 2022-12-05 CN CN202211552018.3A patent/CN115880053B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180308160A1 (en) * | 2016-02-01 | 2018-10-25 | Tencent Technology (Shenzhen) Company Limited | Risk assessment method and system |
CN108399255A (zh) * | 2018-03-06 | 2018-08-14 | 中国银行股份有限公司 | 一种分类数据挖掘模型的输入数据处理方法及装置 |
CN110874667A (zh) * | 2018-08-31 | 2020-03-10 | 重庆小雨点小额贷款有限公司 | 评分卡模型优化方法、装置、服务器及存储介质 |
CA3059937A1 (en) * | 2018-10-26 | 2020-04-26 | Pengcheng CHEN | User credit evaluation method and device, electronic device, storage medium |
CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
CN111738819A (zh) * | 2020-06-15 | 2020-10-02 | 中国建设银行股份有限公司 | 表征数据筛选方法、装置和设备 |
CN112330048A (zh) * | 2020-11-18 | 2021-02-05 | 中国光大银行股份有限公司 | 评分卡模型训练方法、装置、存储介质及电子装置 |
CN112990583A (zh) * | 2021-03-19 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 一种数据预测模型的入模特征确定方法及设备 |
CN114140013A (zh) * | 2021-12-08 | 2022-03-04 | 重庆誉存大数据科技有限公司 | 一种基于xgboost的评分卡生成方法、装置及设备 |
CN114372871A (zh) * | 2022-01-07 | 2022-04-19 | 中国工商银行股份有限公司 | 信用评分值的确定方法及其装置、电子设备及存储介质 |
CN115114851A (zh) * | 2022-06-22 | 2022-09-27 | 浙江惠瀜网络科技有限公司 | 基于五折交叉验证的评分卡建模方法及装置 |
CN115423035A (zh) * | 2022-09-26 | 2022-12-02 | 重庆长安新能源汽车科技有限公司 | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 |
Non-Patent Citations (3)
Title |
---|
刘志惠等: "大数据风控有效吗?——基于统计评分卡与机器学习模型的对比分析", 《统计与信息论坛》, vol. 34, no. 09, 10 September 2019 (2019-09-10), pages 18 - 26 * |
刘扬;刘伟江;: "特征选择方法在信用评估指标选取中的应用", 数理统计与管理, no. 06, 30 November 2006 (2006-11-30), pages 667 - 674 * |
姚蜜: "基于东南亚互联网金融市场的经典评分卡模型和机器学习模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, 15 February 2021 (2021-02-15), pages 138 - 3044 * |
Also Published As
Publication number | Publication date |
---|---|
CN115880053B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363387B (zh) | 基于大数据的画像分析方法、装置、计算机设备及存储介质 | |
Ozcan | Information and communications technology (ICT) and international trade: evidence from Turkey | |
US20200293924A1 (en) | Gbdt model feature interpretation method and apparatus | |
EP2857953B1 (en) | Printing management device and method, printing management system, printing system, information processing device and recording medium | |
CA3097449A1 (en) | Method and system for model auto-selection using an ensemble of machine learning models | |
CN111062806B (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
Florens et al. | Assessing GMM estimates of the federal reserve reaction function | |
CN112561082A (zh) | 生成模型的方法、装置、设备以及存储介质 | |
CN110110610B (zh) | 一种用于短视频的事件检测方法 | |
Georgantopoulos et al. | The causal links between FDI and economic development: Evidence from Greece | |
CN112308704A (zh) | 数据评估方法、装置、电子设备及存储介质 | |
CN113313538A (zh) | 用户消费能力预测方法、装置、电子设备和存储介质 | |
Sarantitis et al. | A network analysis of the United Kingdom’s consumer price index | |
CN114782173A (zh) | 信用风险评估方法及装置、电子设备、存储介质 | |
CN112561569B (zh) | 基于双模型的到店预测方法、系统、电子设备及存储介质 | |
CN112667754B (zh) | 大数据处理方法、装置、计算机设备及存储介质 | |
CN118246565A (zh) | 模型迁移方法、装置及电子设备 | |
CN115880053B (zh) | 一种评分卡模型的训练方法及装置 | |
CN115600013B (zh) | 用于多主体之间匹配推荐的数据处理方法和装置 | |
CN116502898A (zh) | 基于神经网络的企业风险画像生成方法及装置 | |
CN114862243A (zh) | 用于辅助决策的数据处理方法和装置 | |
CN115269973A (zh) | 策略模型的处理方法、装置及计算机可读存储介质 | |
CN115099933A (zh) | 一种业务预算方法、装置及设备 | |
Yang et al. | EU accession, financial integration, and contagion effects: Dynamic correlation analysis of CEEC-3 bond markets | |
Bellotti | A simulation study of Basel II expected loss distributions for a portfolio of credit cards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |