CN111861701A

CN111861701A - 风控模型优化方法、装置、计算机设备及存储介质

Info

Publication number: CN111861701A
Application number: CN202010656660.0A
Authority: CN
Inventors: 陈岚; 雷雨; 胡帅; 陈志健
Original assignee: Shenzhen Fuzhifu Information Technology Co ltd
Current assignee: Shenzhen Fuzhifu Information Technology Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-30

Abstract

本发明提供了一种风控模型优化方法、装置、计算机设备及存储介质，所述方法包括，获取样本用户的多个维度的数据，生成样本用户画像数据；根据样本用户的画像数据，借助知识图谱和复杂网络，关联和推导出样本用户的画像数据的常规特征因子；通过大数据，挖掘出样本用户的画像数据之间的隐藏特征因子；计算样本用户的时间序列影响因子；对常规特征因子、隐藏特征因子及时间序列影响因子进行预处理，并进行特征分解，度量每个特征对模型精确度的影响，去除噪声，形成机器学习模型训练数据；通过机器学习模型训练数据进行xgboost模型训练，得到风控预测模型。本发明引入时间序列影响因子和隐藏特征因子，赋予了模型对好坏样本更强的甄别能力，减少错判。

Description

风控模型优化方法、装置、计算机设备及存储介质

技术领域

本发明涉及一种风控模型优化方法、装置、计算机设备及存储介质，尤其是指一种风控模型优化方法、装置、计算机设备及存储介质。

背景技术

目前，互联网金融贷款服务公司，在进行放贷服务时，通过风控模型来对用户的贷款申请进件进行审核，但是现有的风控模型，只加载一些常规衍生的特征，对于用户的数据没有进行深入的挖掘，同时在进行模型训练时没有考虑样本数据的时间特性对模型预测的影响，在模型预测精确度，减少错判误杀上还有提升空间。

发明内容

本发明所要解决的技术问题是：提供一种能够提高模型预测精度的风控模型优化方法、装置、计算机设备及存储介质。

为了解决上述技术问题，本发明采用的技术方案为：一种风控模型优化方法，包括以下步骤，

S10、获取样本用户的多个维度的数据，生成样本用户画像数据；

S20、根据样本用户的画像数据，借助知识图谱和复杂网络，关联和推导出样本用户的画像数据的常规特征因子；

S30、通过大数据，挖掘出样本用户的画像数据之间的隐藏关系，得到样本用户的画像数据的隐藏特征因子；

S40、计算样本用户的时间序列影响因子；

S50、对常规特征因子、隐藏特征因子及时间序列影响因子进行预处理；

S60、对经过预处理的常规特征因子、隐藏特征因子及时间序列影响因子进行特征分解，度量每个特征对模型精确度的影响，去除噪声，形成机器学习模型训练数据；

S70、通过机器学习模型训练数据进行xgboost模型训练，得到风控预测模型。

进一步的，所述步骤S50具体包括，

对常规特征因子、隐藏特征因子及时间序列影响因子进行回溯、归一化、分箱、异常值缺失值处理。

进一步的，所述步骤S70具体包括，

通过机器学习模型训练数据进行xgboost模型训练，不断地进行特征分裂来生长一棵决策树，每一轮学习一棵决策树，拟合上一轮模型的预测值与实际值之间的残差，得到风控预测模型。

进一步的，所述隐藏特征因子包括，

样本用户的户籍所在区域的历史坏样本总数、样本用户的户籍所在区域的历史坏样本率；样本用户的户籍所在省份的人均gdp；样本用户的户籍所在市的人均gdp；样本用户的户籍所在县/区域的人口数；样本用户的户籍所在县/区域的人均gdp。

本发明还提供了一种风控模型优化装置，包括，

样本数据获取模块，用于获取样本用户的多个维度的数据，生成样本用户画像数据；

常规因子计算模块，用于根据样本用户的画像数据，借助知识图谱和复杂网络，关联和推导出样本用户的画像数据的常规特征因子；

隐藏因子挖掘模块，用于通过大数据，挖掘出样本用户的画像数据之间的隐藏关系，得到样本用户的画像数据的隐藏特征因子；

时间序列因子计算模块，用于计算样本用户的时间序列影响因子；

数据预处理模块，用于对常规特征因子、隐藏特征因子及时间序列影响因子进行预处理；

训练数据形成模块，用于对经过预处理的常规特征因子、隐藏特征因子及时间序列影响因子进行特征分解，度量每个特征对模型精确度的影响，去除噪声，形成机器学习模型训练数据；

xgboost模型训练模块，用于通过机器学习模型训练数据进行xgboost模型训练，得到风控预测模型。

进一步的，所述数据预处理模块具体用于，

进一步的，所述xgboost模型训练模块具体用于，

进一步的，所述隐藏特征因子包括，

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的风控模型优化方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如上所述的风控模型优化方法。

本发明的有益效果在于：通过获取样本用户的多个维度的数据，生成样本用户画像数据，借助知识图谱和复杂网络，关联和推导出样本用户的画像数据的常规特征因子；通过大数据，挖掘出样本用户的画像数据之间的隐藏关系，得到样本用户的画像数据的隐藏特征因子；计算样本用户的时间序列影响因子；通过常规特征因子、隐藏特征因子及时间序列影响因子生成模型训练数据，进行xgboost模型训练，得到风控预测模型。该方案深入挖掘样本数据间的隐藏关系，提取隐藏特征，并且根据样本分布，引入时间序列影响因子，赋予了模型对好坏样本更强的甄别能力，减少了错判和误杀，显著提高了模型对好坏样本的预测能力，在实际生产中区分好坏样本能力可靠，有效减少人工成本，提高效益。

附图说明

下面结合附图详述本发明的具体结构。

图1为本发明实施例的一种风控模型优化方法流程图；

图2为本发明实施例的一种风控模型优化装置框图；

图3为本发明实施例的风控模型的特征因子图；

图4为本发明实施例的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明第一实施例为：一种风控模型优化方法，包括以下步骤，

S30、通过大数据，挖掘出样本用户的画像数据之间的隐藏关系，得到样本用户的画像数据的隐藏特征因子；所述隐藏特征因子包括，样本用户的户籍所在区域的历史坏样本总数、样本用户的户籍所在区域的历史坏样本率；样本用户的户籍所在省份的人均gdp；样本用户的户籍所在市的人均gdp；样本用户的户籍所在县/区域的人口数；样本用户的户籍所在县/区域的人均gdp。

如图3所示，风控模型的特征因子图。

其中，户籍所在区域通过身份证前六位匹配，数据挖掘发现样本户籍所在区域的坏样本总数与该样本坏样本概率强相关。户籍所在区域通过身份证前六位匹配，数据挖掘发现样本户籍所在区域的坏样本率与该样本坏样本概率强相关。户籍所在省份对应身份证前两位，数据分析发现样本户籍所在省份gdp与该样本坏样本概率强相关。户籍所在区域通过身份证前四位匹配，数据分析发现样本户籍所在区域gdp与该样本坏样本概率强相关。户籍所在区域通过身份证前六位匹配，数据分析发现样本户籍所在区域的人口数与该样本坏样本概率强相关。户籍所在区域通过身份证前六位匹配，数据分析发现样本户籍所在县/区域的人均gdp与该样本坏样本概率相关。

S40、计算样本用户的时间序列影响因子；

S50、对常规特征因子、隐藏特征因子及时间序列影响因子进行预处理；预处理为，对常规特征因子、隐藏特征因子及时间序列影响因子进行回溯、归一化、分箱、异常值缺失值处理

S70、通过机器学习模型训练数据进行xgboost模型训练，得到风控预测模型；其中，通过机器学习模型训练数据进行xgboost模型训练，不断地进行特征分裂来生长一棵决策树，每一轮学习一棵决策树，拟合上一轮模型的预测值与实际值之间的残差，得到风控预测模型。

训练完成得到N棵决策树，此时预测一个样本的分数，就是根据这个样本的特征，在每棵决策树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后将每棵决策树对应的分数加起来，得到样本的预测值，时间序列影响因子days和隐藏特征在模型学习时，决策、权重分配及分数计算更合理，从而提升模型的精确度。

本实施例中，引入该时间序列影响因子，目的是体现近期数据对于模型预测的影响。因为真实生产中的历史业务数据样本分布具有时间特性，越往2017年靠近坏样本所占比例越高。该影响因子可以让模型预测时，更贴近真实数据好坏样本的分布，例如，2017年到2019年的数据，最开始该时间序列影响因子的计算逻辑是将2017年1月1日作为day1，2019年12月31日作为day1091，规则是按一年365天、每月30天暂时粗略处理。

如下为最开始粗略处理的days(Java)；

当训练数据集为2017/06/14-2020/12/31时，模型预测2020年1月有标签数据，将预测标签结果与实际标签结果对比，统计可得：

1)将模型通过罚值ScoreCard设为>＝480时,用模型预测实际业务数据，通过率为97％左右，其淘汰的3％样本中，坏样本所占比例高达60％；

2)将模型通过罚值ScoreCard设为>＝490时，用模型预测实际业务数据，通过率为94.88％，其淘汰的5.12％样本中，坏样本所占比例超过40％；

3)统计表明加入该时间序列影响因子days后，模型甄别坏样本能力显著增强。

如下表为：在ScoreCard(阀值)>＝480时，OrigDue＝1(坏样本)占淘汰总数的60％。

为解决时间序列因子days值一直增长，影响后期模型预测效果的问题，将days的计算逻辑增加一条：当本月的数据还未打上标签时，模型预测时，当前days值和上个月保持相同，直至本月的数据打上标签，days值才做相应更新。

当训练集为2017/06/14-2019/10/31时，2019年11月的数据days按正常算，12月的days算成11月的值，2020年1月的days也算成11月的值，模型预2020年1月有标签数据，将预测标签结果与实际标签结果对比，统计可得：

1)通过率91.6％时，坏样本率改善22％，淘汰的8.4％的样本中，坏样本所占比例为29％，相当于牺牲8.4％样本，降低了该月的坏样本率2.4％

2)对未来时间数据的预测较之前稳定，模型甄别坏样本能力也有增强。

该方案深入挖掘样本数据间的隐藏关系，提取隐藏特征，并且根据样本分布，引入时间序列影响因子，赋予了模型对好坏样本更强的甄别能力，减少了错判和误杀，显著提高了模型对好坏样本的预测能力，在实际生产中区分好坏样本能力可靠，有效减少人工成本，提高效益。

如图2所示，本发明的另一实施例为：一种风控模型优化装置，包括，

样本数据获取模块10，用于获取样本用户的多个维度的数据，生成样本用户画像数据；

常规因子计算模块20，用于根据样本用户的画像数据，借助知识图谱和复杂网络，关联和推导出样本用户的画像数据的常规特征因子；

隐藏因子挖掘模块30，用于通过大数据，挖掘出样本用户的画像数据之间的隐藏关系，得到样本用户的画像数据的隐藏特征因子；

时间序列因子计算模块40，用于计算样本用户的时间序列影响因子；

数据预处理模块50，用于对常规特征因子、隐藏特征因子及时间序列影响因子进行预处理；

训练数据形成模块60，用于对经过预处理的常规特征因子、隐藏特征因子及时间序列影响因子进行特征分解，度量每个特征对模型精确度的影响，去除噪声，形成机器学习模型训练数据；

xgboost模型训练模块70，用于通过机器学习模型训练数据进行xgboost模型训练，得到风控预测模型。

进一步的，所述数据预处理模块50具体用于，

进一步的，所述xgboost模型训练模块70具体用于，

进一步的，所述隐藏特征因子包括，

需要说明的是，所属领域的技术人员可以清楚地了解到，上述风控模型优化装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述风控模型优化装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种风控模型优化方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种风控模型优化方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如上所述的风控模型优化方法。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如上所述的风控模型优化方法。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种风控模型优化方法，其特征在于：包括以下步骤，

S40、计算样本用户的时间序列影响因子；

2.如权利要求1所述的风控模型优化方法，其特征在于：所述步骤S50具体包括，

3.如权利要求2所述的风控模型优化方法，其特征在于：所述步骤S70具体包括，

4.如权利要求1所述的风控模型优化方法，其特征在于：所述隐藏特征因子包括，

5.一种风控模型优化装置，其特征在于：包括，

6.如权利要求5所述的风控模型优化装置，其特征在于：所述数据预处理模块具体用于，

7.如权利要求6所述的风控模型优化装置，其特征在于：所述xgboost模型训练模块具体用于，

8.如权利要求5所述的风控模型优化装置，其特征在于：所述隐藏特征因子包括，

9.一种计算机设备，其特征在于：所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的风控模型优化方法。

10.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至4中任一项所述的风控模型优化方法。