CN110796381B

CN110796381B - 风控模型的建模方法、装置、终端设备及介质

Info

Publication number: CN110796381B
Application number: CN201911057341.1A
Authority: CN
Inventors: 陈瑞钦; 黄启军; 李诗琦; 唐兴兴; 林冰垠
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Filing date: 2019-10-31
Publication date: 2024-07-09
Anticipated expiration: 2039-10-31

Abstract

本发明公开了一种建模数据评价指标的处理方法、装置、终端设备及可计算机读存储介质，通过将建模数据拆分为正样本数据集和负样本数据集；基于预设区间划分，并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息；根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数；基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标。本发明节约了对建模数据中多个特征或者模型的评价指标‑即KS值进行计算的时间，提高了建模数据评价指标的计算处理效率。

Description

风控模型的建模方法、装置、终端设备及介质

技术领域

本发明涉及Fintech(金融科技)技术领域，尤其涉及一种风控模型的建模方法、装置、终端设备及计算机可读存储介质。

背景技术

基于机器学习模型的有效性和鲁棒性考虑，愈来愈多的领域开始使用机器学习技术，尤其是将机器学习技术应用到金融等对风险敏感领域，而在针对该领域构建风险管控模型的场景中，通常会对输入到该模型中的各特征数据或者训练模型进行评估分析，以筛选出符合模型构建要求的建模数据，而在对建模数据进行评估分析的众多评估指标中，非常重要的一项指标就是柯尔莫可洛夫-斯米洛夫检验(Kolmogorov-Smirnov Statistics，KS)值，一种在建模过程中用于描述特征或模型区分正负样本分隔程度的评价指标，KS值越大，表示当前建模数据的区分能力越强，对预测结果更加有效。

然而，现有对KS值进行计算的方式，当需要对大量的建模数据计算KS值时，只能依次取出数据中每一个特征数据以及对应目标值，并按照各特征数据值的大小排序进行计算，如此，在特征数据量庞大的情况下，对整体建模数据计算KS值将需要耗费非常多的时间，而同时启动多个线程或者进程来计算KS值又会消耗大量的存储和计算资源，从而，导致对建模数据KS值进行计算的效率低下。

发明内容

本发明的主要目的在于提供一种风控模型的建模方法、装置、终端设备及计算机可读存储介质，旨在解决现有的对建模数据KS值进行计算的方式，计算效率低下的技术问题。

为实现上述目的，本发明提供一种风控模型的建模方法，所述风控模型的建模方法包括：

将建模数据拆分为正样本数据集和负样本数据集；

基于预设区间划分，并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息；

根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数；

基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标。

进一步地，所述基于预设区间划分的步骤，包括：

获取预设分段数目，并按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分；

所述并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息的步骤，包括：

统计拆分各所述特征数据后，所述正样本数据集中各所述特征的第一分位点作为第一分位点信息；

统计拆分各所述特征数据后，所述负样本数据集中各所述特征的第二分位点作为第二分位点信息。

进一步地，在所述按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分的步骤之后，还包括：

将拆分得到的各分段特征数据的端点数值作为所述第一分位点或者第二分位点。

进一步地，所述根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数的步骤，包括：

合并所述第一分位点信息和所述第二分位点信息，以形成各所述特征的混合分位点信息；

按照所述混合分位点信息，提取各所述特征在所述分位点各区间内的正样本数据作为所述正样本累积分布数；

按照所述混合分位点信息，提取各所述特征在所述分位点各区间内的负样本数据作为所述负样本累积分布数。

进一步地，所述将建模数据拆分为正样本数据集和负样本数据集的步骤，包括：

检测模型构建需求携带的数据标签；

将所述数据标签在所述建模数据中对应的目标建模数据确定为所述正样本数据集；

将所述建模数据中拆分所述正样本数据集后剩余的所述建模数据确定为所述负样本数据。

进一步地，所述基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标的步骤，包括：

调用特征数据评价指标的计算公式；

将所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，代入所述计算公式中以计算确定所述建模数据的评价指标。

进一步地，在所述确定所述建模数据的评价指标的步骤之后，还包括：

基于所述预设分段数目，对计算确定的所述评价指标进行误差分析。

此外，为实现上述目的，本发明还提供一种风控模型的建模装置，所述风控模型的建模装置包括：

拆分模块，用于将建模数据拆分为正样本数据集和负样本数据集；

计算模块，用于基于预设区间划分，并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息；

统计模块，用于根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数；

确定模块，用于基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标。

本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风控模型的建模程序，所述风控模型的建模程序被所述处理器执行时实现如上述中的风控模型的建模方法的步骤。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的风控模型的建模方法的步骤。

本发明提出的风控模型的建模方法、装置、终端设备以及计算机可读存储介质，通过将建模数据拆分为正样本数据集和负样本数据集；基于预设区间划分，并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息；根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数；基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标。本发明实现了，结合对建模数据进行分段得到的分位点信息，并行的计算得到建模数据评价指标公式所需的累积分布数，避免了传统的依次对建模数据中的每一个特征数据进行评价指标计算，从而，在保证不过多消耗存储资源和计算资源的情况下，节约了对建模数据中多个特征或者模型的评价指标-即KS值进行计算的时间，提高了建模数据评价指标的计算处理效率。

附图说明

图1是本发明实施例方案涉及的硬件运行的结构示意图；

图2是本发明一种风控模型的建模方法第一实施例的流程示意图；

图3是本发明一种风控模型的建模方法一实施例中步骤S300的细化流程示意图；

图4是本发明一种风控模型的建模方法较优实施例的流程示意图；

图5是本发明一种风控模型的建模装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC，便携计算机等终端设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分布式任务的处理程序。其中，操作系统是管理和控制样本终端设备硬件和软件资源的程序，支持分布式任务的处理程序以及其它软件或程序的运行。

在图1所示的终端设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的风控模型的建模程序，并执行以下操作：

将建模数据拆分为正样本数据集和负样本数据集；

进一步地，处理器1001可以调用存储器1005中存储的风控模型的建模程序，还执行以下操作：

获取预设分段数目，并按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分。

进一步地，处理器1001可以调用存储器1005中存储的风控模型的建模程序，在执行按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分之后，还执行以下操作：

检测模型构建需求携带的数据标签；

调用特征数据评价指标的计算公式；

进一步地，处理器1001可以调用存储器1005中存储的风控模型的建模程序，在执行确定所述建模数据的评价指标之后，还执行以下操作：

基于上述的结构，提出本发明风控模型的建模方法的各个实施例。

请参照图2，图2为本发明风控模型的建模方法第一实施例的流程示意图。

本发明实施例提供了风控模型的建模方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例风控模型的建模方法应用于上述终端设备，本发明实施例终端设备可以是PC，便携计算机等终端设备，在此不做具体限制。

本实施例风控模型的建模方法包括：

步骤S100，将建模数据拆分为正样本数据集和负样本数据集。

在构建用于风险预测控制的风控模型之前，获取预先选定的用于构建该风控模型原始的建模数据，并基于模型构建需求自主确定拆分规则将该原始的建模数据拆分为正样本数据集和负样本数据集。

进一步地，步骤S100，包括：

步骤S101，检测模型构建需求携带的数据标签。

步骤S102，将所述数据标签在所述建模数据中对应的目标建模数据确定为所述正样本数据集。

需要说明的是，在确定模型的构建需求携带的数据标签所映射的目标建模数据之前，依次检测获取到的用于构建风控模型的建模数据中，各特征各自所对应的目标数据集。例如，在建模人员构建银行或者非银行等金融机构为放贷对象进行放款的风控模型时，依次检测该建模人员所调取出的当前金融机构预先存储的已经确定进行放款和已经拒绝进行放款的各放贷对象，各自所对应的目标数据－－即“确定进行放款”或者“拒绝进行放款”。

本实施例中，用于构建风控模型的建模数据可以为建模人员调取的预先所存储的业务结果已经明确的数据内容；建模数据各自所对应的目标数据为一个二值型变量，即只取真值或者假值的变量，其取值只有“0”和“1”两个值，它们分别代表两种成对出现的逻辑概念，如：“否”和“是”、“无”和“有”、“低”和“高”、“假”和“真”等，二值型变量又称为逻辑变量或布尔变量，具体地，例如，建模数据可以为在构建银行或者非银行等金融机构为放贷对象进行放款的风控模型时，建模人员所调取的当前金融机构预先存储的已经“确定进行放款”和已经“拒绝进行放款”的各放贷对象。

基于建模人员对当前所构建风控模型的预测需求携带的数据标签，将数据标签在检测出的两种建模数据各自所对应的目标数据中所指定的其中一种目标数据，对应的那一部分建模数据确定为需要关注的数据，从而将该部分建模数据标记为当前建模数据中的正样本数据集。

具体地，例如，建模人员自主的将检测到的所调取出当前金融机构预先存储的已经确定进行放款和已经拒绝进行放款的各放贷对象，各自所对应的目标数据－－“确定进行放款”或者“拒绝进行放款”中，“确定进行放款”目标数据所对应的放贷对象做为需要关注的数据，从而将当前全部放贷对象中，对应目标数据为“确定进行放款”的部分放贷对象标记为正样本数据。

需要说明的是，本实施例中，基于建模人员对当前所构建风控模型的预测需求，建模人员也可将需要关注的数据标记为当前建模数据中的负样本数据集，应当理解的是，本发明风控模型的建模方法，不对建模人员所选择的二值型变量目标数据中的哪一种变量所对应建模数据标记为正样本数据或者作为负样本数据进行限定。

步骤S103，将所述建模数据中拆分所述正样本数据集后剩余的所述建模数据确定为所述负样本数据。

具体地，例如，在建模人员自主的将检测到的所调取出当前金融机构预先存储的已经确定进行放款和已经拒绝进行放款的各放贷对象，“确定进行放款”目标数据所对应的放贷对象做为需要关注的数据，从而将当前全部放贷对象中，对应目标数据为“确定进行放款”的部分放贷对象标记为正样本数据之后，将当前调取的全部放贷对象中，剩余未标记为正样本数据的部分放贷对象标记为负样本数据，从而使得当前全部放贷对象中，对应目标数据为“拒绝进行放款”的部分放贷对象标记为了负样本数据。

步骤S200，基于预设区间划分，并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息。

基于按照建模人员预先设定的等频分段数目对当前正、负样本数据集中，各个特征的特征数据进行等频拆分，并同时并行的对用于构建风控模型的建模数据中，正样本数据和负样本数据中各特征数据进行分段并统计出各特征数据的分位点，以对应形成建模数据中正样本数据的第一分位点信息和负样本数据的第二分位点信息。

需要说明的是，本实施例中，正样本数据和负样本数据所包含的特征数据类型相同且为数值型变量，具体地，例如，正样本数据和负样本数据分别对应的是建模人员所调取的金融机构所存储“确定进行放款”目标数据所对应的部分放贷对象和“拒绝进行放款”目标数据所对应的部分放贷对象，则各放贷对象携带有相同的数值型特征(如年龄、存款以及固定资产总额等)。

进一步地，步骤S200中，基于预设区间划分的步骤，包括：

步骤S201，获取预设分段数目，并按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分。

按照建模人员基于所调取建模数据的数据量大小，而自主设定的等频分段数目，分别对当前建模数据中的正样本数据和负样本数据所携带的各特征数据进行等频拆分，以形成分段数量与设定等频分段数目相同的各小段正样本数据和小段负样本数据。

具体地，例如，当建模人员为构建银行或者非银行等金融机构为放贷对象进行放款的风控模型，而从当前金融机构所存储的已经“确定进行放款”和已经“拒绝进行放款”的全部放贷对象中，随机调取了30000个放贷对象，经过检测得到该30000个放贷对象中，有20000个放贷对象为已经“确定进行放款”的正样本数据，有10000个放贷对象为已经“拒绝进行放款”的负样本数据，而建模人员自主设定等频分段数目为100，则将当前20000个正样本数据各自所携带的存款特征数据或者固定资产总额特征数据进行从小到大排序之后，将该20000个正样本数据等频拆分为100段，每段包含200个正样本数据，并同样的将当前10000个负样本数据各自所携带的存款特征数据或者固定资产总额特征数据进行从小到大排序之后，将该10000个负样本数据等频拆分为100段，每段包含100个负样本数据。

需要说明的是，本实施例中，对正样本数据和负样本数据进行等频拆分基于“等频分箱”实现，即分别把正样本数据和负样本数据所携带特征数据中的存款特征和固定资产总额特征按照从小到大的顺序排列，根据存款特征和固定资产总额特征的个数将正样本数据和负样本数据等分为100个部分，每部分当作一个分箱。

进一步地，在另一个实施例中，在步骤S201之后，本发明风控模型的建模方法，还包括：

步骤A，将拆分得到的各分段特征数据的端点数值作为所述第一分位点或者第二分位点。

将按照建模人员基于所调取建模数据的数据量大小，而自主设定的等频分段数目，对当前建模数据中的正样本数据所携带的各特征数据进行等频拆分，以形成分段数量与设定等频分段数目相同的各小段正样本数据之后，各小段正样本数据的端点数值作为各特征数据的第一分位点；并对当前建模数据中的负样本数据所携带的各特征数据进行等频拆分，以形成分段数量与设定等频分段数目相同的各小段负样本数据之后，各小段负样本数据的端点数值作为各特征数据的第二分位点。

进一步地，步骤S200中，并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息的步骤，包括：

步骤S202，统计拆分各所述特征数据后，所述正样本数据集中各所述特征的第一分位点作为第一分位点信息。

具体地，例如，在将20000个正样本数据各自所携带的存款特征数据或者固定资产总额特征数据进行从小到大排序之后，将该20000个正样本数据等频拆分为100段，每段包含200个正样本数据(即放贷对象)之后，分别检测每一段200个放贷对象中第一个放贷对象所对应的存款特征数据值和固定资产总额特征数据值，并去除检测到的全部存款特征数据值和固定资产总额特征数据值中，数据值最小和最大的两个存款特征数据值和两个固定资产总额特征数据值，从而形成99个存款特征数据值和99个固定资产总额特征数据值，并将该99个存款特征数据值和99个固定资产总额特征数据值作为当前20000个正样本数据(即放贷对象)的第一分位点信息。

步骤S203，统计拆分各所述特征数据后，所述负样本数据集中各所述特征的第二分位点作为第二分位点信息。

具体地，例如，基于上述统计正样本数据第一分位点信息相同的统计方式，在将10000个负样本数据各自所携带的存款特征数据或者固定资产总额特征数据进行从小到大排序之后，将该10000个负样本数据等频拆分为100段，每段包含100个负样本数据(即放贷对象)之后，分别检测每一段100个放贷对象中第一个放贷对象所对应的存款特征数据值和固定资产总额特征数据值，并去除检测到的全部存款特征数据值和固定资产总额特征数据值中，数据值最小和最大的两个存款特征数据值和两个固定资产总额特征数据值，从而形成99个存款特征数据值和99个固定资产总额特征数据值，并将该99个存款特征数据值和99个固定资产总额特征数据值作为当前10000个负样本数据(即放贷对象)的第二分位点信息。

步骤S300，根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数。

在统计得出建模数据中，正样本数据的第一分位点信息和第二分位点信息之后，将该第一分位点信息和第二分位点信息按照对应特征进行合并，并将合并后每个特征的分位点信息进行排序，然后统计出当前建模数据中正样本数据的累积分布数和负样本数据的累积分布数。

需要说明的是，本实施例中，正样本数据的累积分布数为：正样本累积分布数，负样本数据的累积分布数为：负样本累积分布数。

进一步地，请参照图3，图3为步骤S300的细化流程示意图。

步骤S300，根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数，包括：

步骤S301，合并所述第一分位点信息和所述第二分位点信息，以形成各所述特征的混合分位点信息。

将建模数据正样本数据中各特征的第一分位点信息和负样本数据中对应相同特征的第二分位点信息进行合并，并按照第一分位点信息和第二分位点信息中各分位点处特征数值大小，以从小到大的顺序对各特征中同一特征合并的第一分位点信息和第二分位点信息进行排序，从而形成各特征的混合分位点信息。

具体地，例如，将20000个正样本数据(即放贷对象)的第一分位点信息中的99个存款特征数据值，和10000个负样本数据(即放贷对象)的第二分位点信息中的99个存款特征数据值进行合并，并按照数据值从小到大的顺序将合并后形成的198个存款特征数据值进行排序，从而生成存款特征数据的混合分位点信息，同样的，将，将20000个正样本数据(即放贷对象)的第一分位点信息中的99个固定资产总额特征数据值，和10000个负样本数据(即放贷对象)的第二分位点信息中的99个固定资产总额特征数据值进行合并，并按照数据值从小到大的顺序将合并后形成的198个固定资产总额特征数据值进行排序，从而生成固定资产总额特征数据的混合分位点信息。

步骤S302，按照所述混合分位点信息，提取各所述特征在所述分位点各区间内的正样本数据作为所述正样本累积分布数。

在各特征经过合并排序所得到各特征的混合分位点信息之后，检测各特征在其混合分位点信息不同的分位区间中包含的各个正样本数据，提取并标记该各个正样本数据为当前分位区间中的正样本区间累积数，对各特征在各区间中的各个正样本区间累积数进行叠加，以得出各特征的正样本累积分布数。

具体地，例如，在生成存款特征数据的混合分位点信息和固定资产总额特征数据的混合分位点信息之后，检测统计出当前建模数据中20000个正样本数据(即放贷对象)存款特征数据值，属于混合后的198个存款特征数据值相邻两个存款特征数据值之间的放贷对象的区间总数，对各区间总数进行叠加即得到存款特征数据的正样本累积分布数，基于同样的方式，检测统计出当前建模数据中20000个正样本数据(即放贷对象)固定资产特征数据值，属于混合后的198个固定资产特征数据值相邻两个固定资产特征数据值之间的放贷对象的区间总数，对各区间总数进行叠加即得到固定资产特征数据的正样本累积分布数。

步骤S303，按照所述混合分位点信息，提取各所述特征在所述分位点各区间内的负样本数据作为所述负样本累积分布数。

在各特征经过合并排序所得到各特征的混合分位点信息之后，检测各特征在其混合分位点信息不同的分位区间中包含的各个负样本数据，提取并标记该各个负样本数据为当前分位区间中的负样本区间累积数，对各特征在各区间中的各负样本区间累积数进行叠加，以得出各特征的负样本累积分布数。

具体地，例如，采用上述相同的方式，在统计得到存款特征数据的正样本累积分布数和固定资产特征数据的正样本累积分布数的同时，并行的检测统计出当前建模数据中10000个负样本数据(即放贷对象)存款特征数据值，属于混合后的198个存款特征数据值相邻两个存款特征数据值之间的放贷对象的区间总数，对各区间总数进行叠加即得到存款特征数据的负样本累积分布数，检测统计出当前建模数据中10000个负样本数据(即放贷对象)固定资产特征数据值，属于混合后的198个固定资产特征数据值相邻两个固定资产特征数据值之间的放贷对象的区间总数，对各区间总数进行叠加即得到固定资产特征数据的负样本累积分布数。

步骤S400，基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标。

通过调用对建模数据所携带的特征数据的评价指标进行计算的计算公式，将基于并行计算统计所得出正样本数据的累积分布数以及正样本总数，负样本累积分布数以及负样本总数代入至该公式中，从而计算并输出当前用于构建风控模型所需建模数据的评价指标的数值。

进一步地，步骤S400，基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标，包括：

步骤S401，调用特征数据评价指标的计算公式。

步骤S402，将所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，代入所述计算公式中以计算确定所述建模数据的评价指标。

具体地，例如，调用现有的二分类模型评价指标的计算公式，即：

其中，KS_j即为需要计算输出的评价指标的数值，；表示特征“j”特征数据值小于等于特征“j”的第“k”个分位点特征数据值的正样本累计分布数，N_pos表示正样本总数，表示特征“j”特征数据值小于等于特征“j”的第“k”个分位点特征数据值的负样本累计分布数，N_neg表示负样本总数，其中“j”表示“存款特征”或者“固定资产总额特征”，“k”为1至198中的任意一个正整数，将基于并行计算统计所得出正样本数据的累积分布数以及正样本总数，负样本累积分布数以及负样本总数代入至该公式中，从而计算并输出当前用于构建风控模型所需建模数据的评价指标的数值。

进一步地，在另一个实施例中，本发明风控模型的建模方法，在步骤S400，确定所述建模数据的评价指标之后，还包括：

步骤B，基于所述预设分段数目，对计算确定的所述评价指标进行误差分析。

通过调用误差分析公式，将建模人员所设定的等频分段数目和正负样本总数代入至该分析公式，即可计算基于并行计算统计正负样本累积分布数得出的当前风控模型的建模过程，所能够产生的最大误差值：δ。

具体地，例如，可调用误差分析公式为：

其中，d即为建模人员预先设定的等频分段数目。

本实施例中，经过分析可知，最大误差是与等频分段数目相关的一个变量，当大小为1000时，则最大误差为0.0005，即KS值(评价指标)的最大误差为万分之五，由于实际应用中一般只需参考比较到KS值小数点后两三位即可，因此万分之五的误差对实际应用几乎没有影响，且当选择的等频分段数目更大时，误差可以控制得更小，从而建模人员可通过选择等频分段数目精确控制误差范围，不影响实际应用。

在本实施例中，通过在构建用于风险预测控制的风控模型之前，获取预先选定的用于构建该风控模型原始的建模数据，并基于模型构建需求自主确定拆分规则将该原始的建模数据拆分为正样本数据集和负样本数据集，同时并行的对用于构建风控模型的建模数据中，正样本数据和负样本数据中各特征数据进行分段并统计出各特征数据的分位点，以对应形成建模数据中正样本数据的第一分位点信息和负样本数据的第二分位点信息，在统计得出建模数据中，正样本数据的第一分位点信息和第二分位点信息之后，将该第一分位点信息和第二分位点信息按照对应特征进行合并，并将合并后每个特征的分位点信息进行排序，然后统计出当前建模数据中正样本数据的累积分布数和负样本数据的累积分布数，通过调用对建模数据所携带的特征数据的评价指标进行计算的计算公式，将基于并行计算统计所得出正样本数据的累积分布数以及正样本总数，负样本累积分布数以及负样本总数代入至该公式中，从而计算并输出当前用于构建风控模型所需建模数据的评价指标的数值，通过调用误差分析公式，计算基于并行计算统计正负样本累积分布数得出的当前风控模型的建模过程，所能够产生的最大误差。

实现了，结合对建模数据进行分段得到的分位点信息，并行的计算得到建模数据评价指标公式所需的累积分布数，从而并行高效的计算建模数据多个特征的评价指标，即KS值，避免了传统的依次对建模数据中的每一个特征数据进行评价指标计算，从而，在保证不过多消耗存储资源和计算资源的情况下，节约了对建模数据中多个特征或者模型的评价指标-即KS值进行计算的时间，提高了建模数据评价指标的计算处理效率。

进一步地，基于上述风控模型的建模方法第一实施例，提出本发明风控模型的建模方法的较优实施例。

请参照图4，图4为本发明风控模型的建模方法较优实施例的流程示意图，在本发明风控模型的建模方法的优选实施例中，本发明风控模型的建模方法：

定义用于构建风控模型的建模数据集：为“D”，该建模数据集包含特征数据集(例如，房贷人员年龄、银行存款以及固定资产总额等)和对应的目标数据集(例如，确定进行放款和拒绝进行放款)。

定义数据行数为：“n”，表示每一条目标数据所对应的建模数据；目标变量：“Y”，包含n条数据{y₁，y₂，…，y_n}，y_i是一个二值型变量；特征数目：m；特征变量集：X，包含m个特征{x₁，x₂，…，x_m}，每一特征均包含多个值，其取值范围为[L_j，H_j]，特征：x_j，包含n条数据{x_j1，x_j2，…，x_jn}，x_j是一个数值型变量。

定义正样本：一般由建模人员自主定义，并对应目标变量中某一个值；负样本：和正样本相对应，表示除开正样本剩下的样本；正样本总数：N_pos，表示目标变量Y中正样本的总数，负样本总数：N_neg，表示目标变量Y中负样本的总数；正样本特征集：X_pos，特征变量集X中的正样本，总计N_pos条记录，负样本特征集：X_neg，特征变量集X中的负样本，总计N_neg条记录；等频分段数目：d，建模人员设定的特征分段数目，表示特征从小到大等频拆分成d段。

定义正样本分位点集：C_pos，包含正样本m个特征的等频分位点信息每一个特征分位点均包含d-1个从小到大的数值，表示特征x_j正样本的等频分位点信息；正样本分位点：包含d-1条数据c_jk是一个数值型变量。

定义负样本分位点集：C_neg，包含负样本m个特征的等频分位点信息每一个特征分位点均包含d-1个从小到大的数值，表示特征x_j负样本的等频分位点信息；负样本分位点：包含d-1条数据c_jk是一个数值型变量。

定义混合分位点集：C，将正样本分位点集和负样本分位点按对应特征合并，并将每个特征合并后的分位点从小到大排序，包含m个特征分位点信息{c₁，c₂，…，c_m}，每一个特征分位点均包含2d-2个从小到大的数值，表示特征x_j的分位点信息。

定义混合分位点：c_j，包含2d-2条数据，{c_j1，c_j2，…，c_j2d-2}，c_jk是一个数值型变量，特征j的正样本区间累积数：表示特征c_jk＜x_j≤c_jk+1的条件下，正样本总数，特征j负样本区间累积数：表示特征c_jk＜x_j≤c_jk+1的条件下，负样本总数，特征j正样本累积数：表示特征x_j≤c_jk的条件下，正样本总数，特征j负样本累积数：表示特征x_j≤c_jk的条件下，负样本总数，特征j在各分位点c_jk处累积正负样本分布百分比之差：

通过将原始特征集X拆分成正负样本集X_pos和X_neg，依次并行计算各特征在等频分箱下分位点信息C_pos和C_neg，例如计算各特征正负样本的1000个等频分位点，即将各特征从小到大排序后，将数据等分为1000份，每份中包含的数据条目数相等，记录各个分位点值作为各特征分位点和这种并行求取多个特征分位点的算法，在spark、hive等开源分布式数据处理软件均有实现，用户输入分位点要求和能够容忍的误差，即可求出分位点信息。由于并行计算分位点也存在误差，需要设置分位点求取误差小于求KS值的误差一到两个数量级，从而消除分位点计算误差对KS值计算的影响。

在计算得到特征正负样本分位点信息之后，合并和并对合并后的分位点数据进行从小到大排序，得到混合分位点集C和各特征的混合分位点c_j。统计各特征混合分位点相邻两点之间正负样本总数和这一点无论是在单机还是分布式计算环境下都能轻松并行计算得到。基于各分位区间的统计信息可以得到各特征累积分布数和计算公式分别为：

和

从而基于累积分布数和以及正负样本总数，可以计算出每一个特征的KS值：KS_j，

在本实施例中，结合对建模数据进行分段得到的分位点信息，并行的计算得到建模数据评价指标公式所需的累积分布数，从而实现了并行高效的计算建模数据多个特征的评价指标，即KS值，避免了传统的依次对建模数据中的每一个特征数据进行评价指标计算，从而，在保证不过多消耗存储资源和计算的情况下，节约了对建模数据中多个特征或者模型的评价指标-即KS值进行计算的时间，提高了建模数据评价指标的计算处理效率。

此外，请参照图5，本发明实施例还提出一种风控模型的建模装置，本发明风控模型的建模装置，包括：

优选地，计算模块，包括：

等频拆分单元，用于获取预设分段数目，并按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分；

第一统计单元，用于统计拆分各所述特征数据后，所述正样本数据集中各所述特征的分位点作为第一分位点信息；

第二统计单元，用于统计拆分各所述特征数据后，所述负样本数据集中各所述特征的分位点作为第二分位点信息。

优选地，计算模块，还包括：

第一标记单元，用于将拆分得到的各分段特征数据的端点数值作为所述分位点。

优选地，统计模块，包括：

合并单元，用于合并所述第一分位点信息和所述第二分位点信息，以形成各所述特征的混合分位点信息；

第一提取单元，用于按照所述混合分位点信息，提取各所述特征在所述分位点各区间内的正样本数据作为所述正样本累积分布数；

第二提取单元，用于按照所述混合分位点信息，提取各所述特征在所述分位点各区间内的负样本数据作为所述负样本累积分布数。

优选地，拆分模块，包括：

检测单元，用于检测模型构建需求携带的数据标签；

第二标记单元，用于将所述数据标签在所述建模数据中对应的目标建模数据确定为所述正样本数据集；

第三标记单元，用于将所述建模数据中拆分所述正样本数据集后剩余的所述建模数据确定为所述负样本数据。

优选地，确定模块，还包括：

调用单元，用于调用特征数据评价指标的计算公式；

输出单元，用于将所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，代入所述计算公式中以计算确定所述建模数据的评价指标。

优选地，本发明风控模型的建模装置，还包括：

分析模块，用于基于所述预设分段数目，对计算确定的所述评价指标进行误差分析。

本实施例提出的风控模型的建模装置各个功能模块在运行时实现如上所述的风控模型的建模方法的步骤，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，应用于计算机，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质上存储有风控模型的建模程序，所述风控模型的建模程序被处理器执行时实现如上所述的风控模型的建模方法的步骤。

其中，在所述处理器上运行的风控模型的建模程序被执行时所实现的步骤可参照本发明风控模型的建模方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种风控模型的建模方法，其特征在于，所述风控模型用于预测控制金融领域风险，所述风控模型的建模方法包括：

获取预先存储的金融业务结果明确的数据内容作为构建所述风控模型的建模数据，所述数据内容包括金融机构预先存储的已经确定进行放款和已经拒绝进行放款的各放贷对象；

检测所述风控模型构建需求携带的数据标签，并根据所述数据标签将所述建模数据拆分为正样本数据集和负样本数据集，其中，将所述数据标签在所述建模数据中对应的目标建模数据确定为所述正样本数据集，将所述建模数据中拆分所述正样本数据集后剩余的所述建模数据确定为所述负样本数据集；所述正样本数据集包括全部放贷对象中确定进行放款的部分放贷对象，所述负样本数据集包括全部放贷对象中拒绝进行放款的部分放贷对象；

获取预设分段数目，并按照所述分段数目对所述正样本数据集以及所述负样本数据集携带的各特征数据进行等频拆分形成分段数量与所述分段数目相同的各小段正样本数据和各小段负样本数据，所述各特征数据包括年龄、存款以及固定资产总额；

将各小段正样本数据的端点数值作为第一分位点，和，将各小段负样本数据的端点数值作为第二分位点；

并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息；

基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标；

基于所述评价指标选择符合模型构建要求的建模数据构建所述风控模型；

所述基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标的步骤，包括：

调用特征数据评价指标的计算公式；

将所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，代入所述计算公式中以计算确定所述建模数据的评价指标；

其中，所述计算公式为：，所述公式中的KS_j为所述评价指标的数值，F^j _pos（x_j≤c_jk）表示特征j特征数据值小于等于特征j的第k个分位点特征数据值的正样本累计分布数，N_pos表示正样本总数，F^j _neg（x_j≤c_jk）表示特征j特征数据值小于等于特征j的第k个分位点特征数据值的负样本累计分布数，N_neg表示负样本总数，j表示存款特征或者固定资产总额特征，k为1至198中的任意一个正整数。

2.如权利要求1所述的风控模型的建模方法，其特征在于，所述并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息的步骤，包括：

3.如权利要求2所述的风控模型的建模方法，其特征在于，在所述按照所述分段数目对所述正样本数据集以及所述负样本数据集中各所述特征的特征数据进行拆分的步骤之后，还包括：

4.如权利要求2所述的风控模型的建模方法，其特征在于，所述根据所述第一分位点信息和所述第二分位点信息，得到各所述特征的正样本累积分布数和负样本累积分布数的步骤，包括：

5.如权利要求1至4任一项所述的风控模型的建模方法，其特征在于，在所述确定所述建模数据的评价指标的步骤之后，还包括：

6.一种风控模型的建模装置，其特征在于，所述风控模型用于预测控制金融领域风险，所述风控模型的建模装置，包括：

拆分模块，用于获取预先存储的金融业务结果明确的数据内容作为构建所述风控模型的建模数据，所述数据内容包括金融机构预先存储的已经确定进行放款和已经拒绝进行放款的各放贷对象；检测所述风控模型构建需求携带的数据标签，并根据所述数据标签将所述建模数据拆分为正样本数据集和负样本数据集，其中，将所述数据标签在所述建模数据中对应的目标建模数据确定为所述正样本数据集，将所述建模数据中拆分所述正样本数据集后剩余的所述建模数据确定为所述负样本数据集；所述正样本数据集包括全部放贷对象中确定进行放款的部分放贷对象，所述负样本数据集包括全部放贷对象中拒绝进行放款的部分放贷对象；

计算模块，用于获取预设分段数目，并按照所述分段数目对所述正样本数据集以及所述负样本数据集携带的各特征数据进行等频拆分成分段数量与所述分段数目相同的各小段正样本数据和各小段负样本数据，所述各特征数据包括年龄、存款以及固定资产总额；将各小段正样本数据的端点数值作为第一分位点，和，将各小段负样本数据的端点数值作为第二分位点；并行计算所述正样本数据集中各特征的第一分位点信息和所述负样本数据集中各所述特征的第二分位点信息；

确定模块，用于基于所述正样本累积分布数、所述负样本累积分布数和所述建模数据的正样本总数、负样本总数，确定所述建模数据的评价指标，和，基于所述评价指标选择符合模型构建要求的建模数据构建所述风控模型；

所述确定模块，还用于调用特征数据评价指标的计算公式；

7.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风控模型的建模程序，所述风控模型的建模程序被所述处理器执行时实现如权利要求1至5中任一项所述的风控模型的建模方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的风控模型的建模方法的步骤。