CN110264274B

CN110264274B - 客群划分方法、模型生成方法、装置、设备及存储介质

Info

Publication number: CN110264274B
Application number: CN201910546293.6A
Authority: CN
Inventors: 桑晓临
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2023-12-29
Anticipated expiration: 2039-06-21
Also published as: CN110264274A

Abstract

本发明公开了一种客群划分方法、模型生成方法、装置、设备及存储介质，该客群划分方法包括：获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；根据所述多个样本特征，计算每个所述客户样本的信息密度值；基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同；本发明提升了客群划分的准确度，避免了现有的信用风险模型在训练时，训练样本集中样本客群的划分仅仅是依据样本的主要特征来区分造成的客群划分精准度低的问题。

Description

客群划分方法、模型生成方法、装置、设备及存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种客群划分方法、模型生成方法、装置、设备及存储介质。

背景技术

随着计算机技术在金融领域的快速发展，传统金融业正在逐步向金融科技(Fintech)转变，机器学习在金融科技领域的应用也越来越广泛。现有的信用风险模型在训练时，训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分，导致客群划分精准度低，进而影响了信用风险模型的预测结果。

发明内容

本发明的主要目的在于提供一种客群划分方法、模型生成方法、装置、设备及存储介质，旨在解决现有的信用风险模型在训练时，训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分造成的客群划分精准度低的问题。

为实现上述目的，本发明提供一种客群划分方法，所述客群划分方法包括以下步骤：

获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；

根据所述多个样本特征，计算每个所述客户样本的信息密度值；

基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同。

可选地，所述根据所述多个样本特征，计算每个所述客户样本的信息密度值的步骤包括：

基于所述多个样本特征，计算每个所述样本特征对应的权重；

根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数；

结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值。

可选地，所述基于所述多个样本特征，计算每个所述样本特征对应的权重的步骤包括：

根据所述多个样本特征，计算每个所述样本特征的信息价值IV值；

将计算得到的每个所述样本特征的IV值作为每个所述样本特征对应的权重。

可选地，所述根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数的步骤包括：

根据获取到的每个所述样本特征对应的特征损失，获取与所述特征损失对应的历史缺失占比；

根据所述历史缺失占比，计算得到每个所述样本特征对应的系数。

可选地，所述结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值的步骤包括：

将所述样本特征对应的所述权重和所述系数相乘，得到所述样本特征对应的权重系数；

将所述客户样本的每个样本特征的所述权重系数相加，得到所述客户样本的信息密度值。

此外，本发明还提供一种模型生成方法，所述模型生成方法包括：

根据如上任一项所述的客群划分方法对第一训练样本集进行客群划分，得到划分后的第一训练样本集；

基于所述划分后的第一训练样本集，训练待训练模型至收敛。

可选地，所述基于所述划分后的第一训练样本集，训练待训练模型至收敛的步骤包括：

根据预设的抽取条件，从所述划分后的第一训练样本集中抽取若干个训练样本形成第二训练样本集；

基于所述第二训练样本集，训练待训练模型至收敛。

此外，本发明还提供一种客群划分装置，所述客群划分装置包括：

获取模块，用于获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；

计算模块，用于根据所述多个样本特征，计算每个所述客户样本的信息密度值；

划分模块，用于基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同。

可选地，所述计算模块包括：

第一计算单元，用于基于所述多个样本特征，计算每个所述样本特征对应的权重；

第二计算单元，用于根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数；

第三计算单元，用于结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值。

可选地，所述第一计算单元包括：

第一计算子单元，用于根据所述多个样本特征，计算每个所述样本特征的信息价值IV值；

第一确定单元，用于将计算得到的每个所述样本特征的IV值作为每个所述样本特征对应的权重。

可选地，所述第二计算单元包括：

获取子单元，用于根据获取到的每个所述样本特征对应的特征损失，获取与所述特征损失对应的历史缺失占比；

第二计算子单元，用于根据所述历史缺失占比，计算得到每个所述样本特征对应的系数。

可选地，所述第三计算单元包括：

第三计算子单元，用于将所述样本特征对应的所述权重和所述系数相乘，得到所述样本特征对应的权重系数；

第二确定单元，用于将所述客户样本的每个样本特征的所述权重系数相加，得到所述客户样本的信息密度值。

此外，本发明还提供一种客群划分设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的客群划分程序，所述客群划分程序被所述处理器执行时实现如上任一项所述的客群划分方法的步骤。

此外，本发明还提供一种存储介质，应用于计算机，所述存储介质上存储有客群划分程序，所述客群划分程序被处理器执行时实现如上任一项所述的客群划分方法的步骤。

本发明通过获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；根据所述多个样本特征，计算每个所述客户样本的信息密度值；基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同；由此，对于目标客户样本，结合该客户样本与客群类别标签对应的多个特征计算该客户样本的信息密度值，根据每个客户样本的信息密度值对客户样本重新划分客群，避免了现有技术中，训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分造成的客群划分精准度低的问题，本发明提高了训练样本集中样本客群划分的精准度，从而提升了基于该训练样本集训练的信用风险模型的预测效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明客群划分方法第一实施例的流程示意图；

图3为本发明客群划分方法第二实施例的流程示意图；

图4为本发明模型生成方法第一实施例的流程示意图；

图5为本发明模型生成方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为客群划分设备的硬件运行环境的结构示意图。本发明实施例客群划分设备可以是PC，便携计算机等终端设备。

如图1所示，该客群划分设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的客群划分设备结构并不构成对客群划分设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及客群划分程序。其中，操作系统是管理和控制客群划分设备硬件和软件资源的程序，支持客群划分程序以及其它软件或程序的运行。

在图1所示的客群划分设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的客群划分程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的客群划分程序，并执行以下步骤：

基于上述的结构，提出本发明客群划分方法的各个实施例。

参照图2，图2为本发明客群划分方法第一实施例的流程示意图。

本发明实施例提供了客群划分方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例客群划分方法包括：

步骤S100，获取训练样本集的特征标签；

所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；

由于计算机技术在金融领域的快速发展，传统金融业正在逐步向金融科技(Fintech)转变，机器学习在金融科技领域的应用也越来越广泛。现有的信用风险模型在训练时，训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分的，例如，训练样本集中的客户样本若具有目标特征，则判定该样本为正样本，否则即为负样本；然而，客户样本一般具有的多个特征并不是完全独立的，多个特征之间往往存在一定联系，如果仅仅依据客户样本是否具有目标特征来划分该样本的客群，就会导致客群划分精准度低，进而影响了信用风险模型的预测结果。

本实施例中，获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；从训练样本库下载用于训练目标模型的训练样本集，该训练样本集中的每个客户样本均具有第一客群类别，例如，对应于目标模型的正样本或负样本，可以理解的是，本实施例客户样本的第一客群类别均是根据现有的客群划分方法划分的，即依据客户样本是否具有目标特征来划分的客群类别。

步骤S200，根据所述多个样本特征，计算每个所述客户样本的信息密度值；

本实施例根据每个客户样本的多个样本特征，计算得到该样本对应的信息密度值；信息密度值代表了对于目标模型，该客户样本的信息价值。

作为一种实施方式，对于客户样本的多个样本特征，计算每个所述样本特征对应的权重，具体可以是计算每个样本特征的IV(Information Value，信息价值)值，将每个样本特征的IV值作为该样本特征对应的权重；进一步地，考虑到样本特征的缺失与否，对于不同特征的缺失程度，可通过历史数据中缺失占比或者与该样本特征与其他维度的相关性进行判断得出差异化的得分；将每个样本特征的权重以及得分相乘作为该样本特征的权重系数，再将客户样本每个样本特征的权重系数相加得到该客户样本的信息密度值。

步骤S300，基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同。

本实施例中，得到训练样本集中每个客户样本的信息密度值，通过预设的信息密度阈值对每个客户样本重新进行客群划分，可以理解的是，通过信息密度值对客户样本重新划分客群后，客户样本划分后的客群类别即所述第二客群类别可能与其划分前客群类别相同，如同为正样本或者同为负样本，客户样本划分后的客群类别即所述第二客群类别也可能与其划分前客群类别不相同。

本实施例通过获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；根据所述多个样本特征，计算每个所述客户样本的信息密度值；基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同；由此，对于目标客户样本，结合该客户样本与客群类别标签对应的全部特征计算得到客户样本的信息密度值，根据每个客户样本的信息密度值对客户样本重新划分客群，避免了现有技术中，训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分造成的客群划分精准度低的问题，本实施例提高了训练样本集中样本客群划分的精准度。

进一步地，提出本发明客群划分方法第二实施例。

参照图3，图3为本发明客群划分方法第二实施例的流程示意图，基于上述客群划分方法第一实施例，本实施例中，步骤S200，根据所述多个样本特征，计算每个所述客户样本的信息密度值的步骤包括：

步骤S210，基于所述多个样本特征，计算每个所述样本特征对应的权重；

在本实施例中，具体地，获取训练样本集的特征标签，所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征，基于所述多个样本特征，计算每个所述样本特征对应的权重，具体地，可以通过以下步骤计算得到：

步骤a，根据所述多个样本特征，计算每个所述样本特征的信息价值IV值；

步骤b，将计算得到的每个所述样本特征的IV值作为每个所述样本特征对应的权重。

IV值衡量了某个特征对目标的影响程度，其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率，来对比和计算其关联程度，本实施例将计算得到的每个样本特征的IV值作为该样本特征对应的权重。

步骤S220，根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数；

在本实施例中，具体地，步骤S220，根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数包括：

步骤c，根据获取到的每个所述样本特征对应的特征损失，获取与所述特征损失对应的历史缺失占比；

步骤d，根据所述历史缺失占比，计算得到每个所述样本特征对应的系数。

对每个样本特征进行IV计算，并使用对应的IV值作为其权重；进一步地，对于不同特征不同的缺失程度，系数可通过历史数据中该特征的缺失占比或者该特征与其他维度特征的相关性进行判断并给出差异化的分数，即所述样本特征对应的系数。

步骤S230，结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值；

具体地，在本实施例中，步骤S230具体包括：

步骤e，将所述样本特征对应的所述权重和所述系数相乘，得到所述样本特征对应的权重系数；

步骤f，将所述客户样本的每个样本特征的所述权重系数相加，得到所述客户样本的信息密度值。

由此，通过将每个样本特征的对应系数与权重相乘，加总得到该客户样本的信息密度总分即所述信息密度值。

本实施例通过获取训练样本集的特征标签；所述训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；基于所述多个样本特征，计算每个所述样本特征对应的权重；根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数；结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值；基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同；避免了现有技术中，训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分造成的客群划分精准度低的问题，本实施例提高了训练样本集中样本客群划分的精准度。

进一步地，基于本发明上述客群划分方法的各个实施例，提出本发明模型生成方法的各个实施例。

参照图4，图4为本发明模型生成方法第一实施例的流程示意图。

本发明实施例提供了模型生成方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例模型生成方法包括：

步骤S10，获取第一训练样本集的特征标签；所述第一训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；

本实施例中，获取第一训练样本集的特征标签；所述第一训练样本集包括多个客户样本，所述客户样本具有第一客群类别，所述客户样本包括与所述特征标签对应的多个样本特征；从训练样本库下载用于训练目标模型的第一训练样本集，该第一训练样本集中的每个客户样本均具有第一客群类别，例如，对应于目标模型的正样本或负样本，可以理解的是，本实施例客户样本的第一客群类别均是根据现有的客群划分方法划分的，即依据客户样本是否具有目标特征来划分的客群类别。

步骤S20，根据所述多个样本特征，计算每个所述客户样本的信息密度值；

步骤S30，基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别，得到划分后的第一训练样本集；所述第二客群类别与所述第一客群类别相同或不同；

本实施例中，得到第一训练样本集中每个客户样本的信息密度值，通过预设的信息密度阈值对每个客户样本重新进行客群划分，可以理解的是，通过信息密度值对客户样本重新划分客群后，客户样本划分后的客群类别即所述第二客群类别可能与其划分前客群类别相同，如同为正样本或者同为负样本，客户样本划分后的客群类别即所述第二客群类别也可能与其划分前客群类别不相同。

步骤S40，基于所述划分后的第一训练样本集，训练待训练模型至收敛。

将从训练样本库下载的第一训练样本集中的客户样本根据上述客群划分方法对客户样本重新进行客群划分后，再进行模型训练，客户样本的客群划分精准度得到了提高，由此也提升了最终模型的预测准确性。

进一步地，提出本发明模型生成方法的第二实施例。

参照图5，图5为本发明模型生成方法第二实施例的流程示意图，基于上述模型生成方法第一实施例，本实施例中，步骤S40，基于所述划分后的第一训练样本集，训练待训练模型至收敛的步骤包括：

步骤S41，根据预设的抽取条件，从所述划分后的第一训练样本集中抽取若干个训练样本形成第二训练样本集；

步骤S42，基于所述第二训练样本集，训练待训练模型至收敛。

在本实施例中，作为一种实施方式，使用上述实施例中的客群划分方法对第一训练样本集中的训练样本重新划分客群后，根据实际的需求选取不同信息程度的客群，即选择信息密度值不同的多个客户样本，再训练待训练模型至收敛；现有技术中，训练样本集进行客群划分后，一般是对不同的客群分别建模，而如果某个客群的训练样本的数量较少，则模型的稳定性就会较差，就信用风险模型而言，通常需要较多的人工经验分析，此时模型的维护成本就会急剧提升，本实施例通过选取不同信息程度的客群进行建模，提升了模型的稳定性。

此外，本发明实施例还提出一种客群划分装置，所述客群划分装置包括：

优选地，所述计算模块包括：

优选地，所述第一计算单元包括：

优选地，所述第二计算单元包括：

优选地，所述第三计算单元包括：

本实施例提出的客群划分装置各个模块运行时实现如上所述的客群划分方法的步骤，在此不再赘述。

此外，本发明实施例还提出一种可读存储介质，应用于计算机，该计算机可读存储介质上存储有客群划分程序，所述客群划分程序被处理器执行时实现如上所述的客群划分方法的步骤。

其中，在所述处理器上运行的客群划分程序被执行时所实现的方法可参照本发明客群划分方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种客群划分方法，其特征在于，所述客群划分方法包括以下步骤：

对每个所述样本特征对应的特征损失与其他维度的样本特征进行相关性分析得到差异化得分，将差异化得分作为每个所述样本特征对应的系数；

结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值；

基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同；

其中，所述基于所述多个样本特征，计算每个所述样本特征对应的权重的步骤，包括：

2.如权利要求1所述的客群划分方法，其特征在于，所述基于所述多个样本特征，计算每个所述样本特征对应的权重的步骤之后，所述方法还包括：

根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数。

3.如权利要求2所述的客群划分方法，其特征在于，所述根据获取到的每个所述样本特征对应的特征损失，计算每个所述样本特征对应的系数的步骤包括：

4.如权利要求1-3中任一项所述的客群划分方法，其特征在于，所述结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值的步骤包括：

5.一种模型生成方法，其特征在于，所述模型生成方法包括：

根据如权利要求1-4中任一项所述的客群划分方法对第一训练样本集进行客群划分，得到划分后的第一训练样本集；

6.如权利要求5所述的模型生成方法，其特征在于，所述基于所述划分后的第一训练样本集，训练待训练模型至收敛的步骤包括：

基于所述第二训练样本集，训练待训练模型至收敛。

7.一种客群划分装置，其特征在于，所述客群划分装置包括：

划分模块，用于基于每个所述客户样本的信息密度值，将所述客户样本划分至第二客群类别；所述第二客群类别与所述第一客群类别相同或不同；

其中，所述计算模块包括：

第二计算单元，用于对每个所述样本特征对应的特征损失与其他维度的样本特征进行相关性分析得到差异化得分，将差异化得分作为每个所述样本特征对应的系数；

第三计算单元，用于结合每个所述样本特征对应的所述权重和所述系数，计算得到每个所述客户样本的信息密度值；

所述第一计算单元包括：

8.如权利要求7所述的客群划分装置，其特征在于，所述第二计算单元还用于：

9.如权利要求7所述的客群划分装置，其特征在于，所述第二计算单元包括：

10.如权利要求7-9中任一项所述的客群划分装置，其特征在于，所述第三计算单元包括：

11.一种客群划分设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的客群划分程序，所述客群划分程序被所述处理器执行时实现如权利要求1至4中任一项所述的客群划分方法的步骤。

12.一种存储介质，其特征在于，应用于计算机，所述存储介质上存储有客群划分程序，所述客群划分程序被处理器执行时实现如权利要求1至4中任一项所述的客群划分方法的步骤。