CN109598095A

CN109598095A - 评分卡模型的建立方法、装置、计算机设备和存储介质

Info

Publication number: CN109598095A
Application number: CN201910012412.XA
Authority: CN
Inventors: 季洁璐; 何友鑫; 彭琛; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-04-09
Anticipated expiration: 2039-01-07
Also published as: WO2020143233A1; CN109598095B

Abstract

本申请涉及一种评分卡模型的建立方法、装置、计算机设备和存储介质。该方法包括：获取多个训练样本的样本数据；样本数据包括多个样本变量；对每个样本变量进行分箱操作；确定每个样本变量对应的分箱数，比较分箱数是否超过阈值；若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回确定每个样本变量对应的分箱数的步骤；否则，计算每个样本变量的WOE值，根据WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。采用本方法能够提高模型训练效率和精度。

Description

评分卡模型的建立方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种评分卡模型的建立方法、装置、计算机设备和存储介质。

背景技术

通常在建立分类模型时，需要对连续变量离散化，特征离散化可以使模型更稳定，降低模型过拟合的风险。比如，在建立评分卡模型时用逻辑回归模型作为基模型就需要对连续变量进行离散化，而离散化通常采用分箱法。而传统的数据分箱方法存在分箱数过多等现象，使得模型训练效率降低，且会影响模型输出的精准度。

发明内容

基于此，有必要针对上述技术问题，提供一种通过改进数据分箱方法，实现样本均衡，进而提高模型训练效率和输出精度的评分卡模型的建立方法、装置、计算机设备和存储介质。

一种评分卡模型的建立方法，所述方法包括：获取多个训练样本的样本数据；所述样本数据包括多个样本变量；对每个样本变量进行分箱操作；确定每个样本变量对应的分箱数，比较所述分箱数是否超过阈值；若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据所述分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回所述确定每个样本变量对应的分箱数的步骤；否则，计算每个样本变量的WOE值，根据所述WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。

在一个实施例中，所述对每个样本变量进行分箱操作，包括：识别所述训练样本的关联样本，爬取所述关联样本的关联数据；所述关联数据包括多个关联变量；接收终端发送的模型配置信息，在所述模型配置信息中提取衍生因子，获取训练样本对应每个衍生因子的衍生变量；对每个样本变量、关联变量和衍生变量进行分箱操作。

在一个实施例中，所述根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，包括：根据所述坏样本率确定多个分箱的单调特性；识别不符合所述单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，所述根据所述坏样本率确定多个分箱的单调特性，包括：统计坏样本率呈单调趋势的分箱数；确定分箱数最大的单调趋势；根据所述分箱数最大的单调趋势确定相应样本变量的单调特性。

在一个实施例中，所述将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并，包括：计算所述待合并分箱与前一相邻分箱的卡方值，记作第一卡方值；计算所述待合并分箱与后一相邻分箱的卡方值，记作第二卡方值；比较所述第一卡方值是否等于所述第二卡方值；若是，将待合并分箱与分箱占比小的前一相邻分箱或后一相邻分箱合并；否则，将待合并分箱与卡方值小的前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，所述基于筛选得到的样本变量建立评分卡模型，包括：在所述训练样本中筛选目标样本，提取所述目标样本的样本特征；对所述样本特征进行强化学习，得到更多的衍生样本；利用所述训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算所述评分卡模型的准确度，比较所述准确度是否达到阈值；若否，基于所述衍生样本生成再生样本；将所述再生样本作为当前的衍生样本，返回所述利用所述训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算所述评分卡模型的准确度，比较所述准确度是否达到阈值的步骤，直至所述准确度达到阈值。

一种评分卡模型的建立装置，所述装置包括：数据分箱模块，用于获取多个训练样本的样本数据；所述样本数据包括多个样本变量；对每个样本变量进行分箱操作；分箱合并模块，用于确定每个样本变量对应的分箱数，比较所述分箱数是否超过阈值；若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据所述分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回所述确定每个样本变量对应的分箱数的步骤；模型建立模块，用于当样本变量对应的分箱数小于或等于所述阈值时，计算每个样本变量的WOE值，根据所述WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。

在一个实施例中，所述数据分箱模块还用于识别所述训练样本的关联样本，爬取所述关联样本的关联数据；所述关联数据包括多个关联变量；接收终端发送的模型配置信息，在模型配置信息中提取衍生因子，获取训练样本对应每个衍生因子的衍生变量；对每个样本变量、关联变量和衍生变量进行分箱操作。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的评分卡模型的建立方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的评分卡模型的建立方法的步骤。

上述评分卡模型的建立方法、装置、计算机设备和存储介质，获取多个训练样本的样本数据，并对样本数据包含的多个样本变量进行分箱操作，可以确定每个样本变量对应的分箱数；当分箱数超过阈值时，可以计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值，并根据所述分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理；当分箱数小于或等于阈值时，可以计算每个样本变量的WOE值，根据所述WOE值进行样本变量筛选；基于筛选得到的样本变量，可以建立评分卡模型。由于基于分箱占比、坏样本率及卡方值多个分箱条件进行分箱，可以限定每个样本变量分箱的数量，也可以使得稀少样本均匀分布在不同分箱，实现样本均衡，从而根据这种分箱机制进行样本变量的筛选可以提高模型训练效率和精准度。

附图说明

图1为一个实施例中评分卡模型的建立方法的应用场景图；

图2为一个实施例中评分卡模型的建立方法的流程示意图；

图3为一个实施例中分箱合并的步骤的流程示意图；

图4为一个实施例中评分卡模型的建立装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的评分卡模型的建立方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

当用户需要对目标对象进行评分时，可以通过终端102向服务器104发送评分请求。服务器104根据评分请求获取监控对象的监控数据，调用评分卡模型对监控数据进行处理。其中，评分卡模型可以是服务器104基于筛选得到的样本变量训练得到的。具体的，当需要建立评分卡模型时，用户可以通过终端102向服务器104发送模型建立请求。服务器104根据模型建立请求获取多个训练样本的样本数据。样本数据包括多个样本变量。服务器104按照无监督分箱方法或者有监督分箱方法对每个样本变量进行分箱操作。服务器104确定每个样本变量对应的分箱数，比较分箱数是否超过阈值。如果一个样本变量的分箱数超过阈值，则服务器104计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值，并根据坏样本率确定多个分箱的单调特性。服务器104识别不符合单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱。服务器104将待合并分箱与前一相邻分箱或后一相邻分箱进行合并，合并后再次判断该样本变量的分箱数是否超过阈值。若仍超过阈值，则服务器104按照上述方式样本变量的多个分箱再次进行合并处理，直至该样本变量的分箱数小于或等于阈值。当样本变量的分享数小于或等于阈值时，服务器104计算每个样本变量的WOE值，根据WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。上述评分卡模型建立过程，基于改进的卡方分箱方式对训练样本进行样本均衡处理，基于样本均衡得到的多个样本集训练建立评分卡模型，可以提高模型精度，也可以减少分箱数，进而可以提高模型训练效率。

在一个实施例中，如图2所示，提供了一种评分卡模型的建立方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取多个训练样本的样本数据；样本数据包括多个样本变量。

每个训练样本为虚拟资源的一个监控对象，如已经曝出具有信用风险的企业或个人，也可以是尚未被曝出具有信用风险的企业或个人。虚拟资源可以是股票、债券等。监控对象作为风险监控对象，样本数据包括监控对象的多个维度的监控数据，如训练样本对应的样本数据包括财务变量A1，财务变量A2，司法变量B1、舆情变量C1、行业变量D1；训练样本2对应的样本数据包括财务变量A1，财务变量A2，财务变量A3、舆情变量C2、行业变量D2。

步骤204，对每个样本变量进行分箱操作。

确定每种样本变量的变量类型。变量类型包括定性变量和定量变量。

如下表1所示，若变量类型为定性变量，根据定性变量对应的属性值进行初始分箱。

表1

财务变量A1	响应(坏样本)	未响应(好样本)	合计	坏样本率
					很好	4000	16000	20000	20％
较好	3000	27000	30000	10％
					一般	3000	12000	15000	20％
较差	1500	8500	10000	15％
					很差	1000	5000	5000	10％

如下表2所示，若变量类型为定量变量，若变量类型为定量变量，基于无监督分箱方法或有监督分箱方法对定量变量进行初始分箱。无监督分箱方法可以是等距分箱、等宽分箱等。有监督分箱方法可以是卡方分箱等。

表2

财务变量A2	响应(坏样本)	未响应(好样本)	合计	坏样本率
					＜100元	2500	47500	50000	5％
[100,200]	3000	27000	30000	10％
					[200,500]	3000	12000	15000	20％
[500,700]	1500	8500	10000	15％
					[700,900]	2000	8000	10000	20％
≥900元	1000	4000	5000	20％

步骤206，确定每个样本变量对应的分箱数，比较分箱数是否超过阈值。

分箱数的阈值可以根据经验自由设定，如5等。需要说明的是，不同样本变量对应的分箱数阈值可以不同。

步骤208，若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回确定每个样本变量对应的分箱数的步骤。

分箱占比是指变量值落入当前分箱的样本变量的数量与包含该样本变量的全部训练样本的数量的比值，例如，财务变量A2在[500，700]分箱的分箱占比为10000/120000。坏样本率是指当前分箱内坏样本的数量与当前分箱内全部样本变量的数量的比值。例如，财务变量A2在[500，700]分箱的坏样本率为2500/50000。与相邻分箱的卡方值是非参数检验中的一个统计量，用于检验相邻分箱的数据相关性。

服务器识别是否存在坏样本率为0或者∞的分箱，将坏样本率为0或者∞的分箱标记为待合并分箱。服务器识别卡方值最小的一对相邻分箱，将卡方值最小的相邻分箱标记为待合并分箱。服务器识别分箱占比最小的一个分箱，将分箱占比最小的分箱标记为待合并分箱。服务器将待合并分箱与前一相邻分箱或后一相邻分箱进行合并。待合并处理完毕，服务器重新判断该样本变量的分箱数是否依然超过阈值。若是，继续按照上述方式对样本变量对应的多个分箱进行合并处理，直至样本变量对应的分箱数小于或等于阈值。

步骤210，否则，计算每个样本变量的WOE值，根据WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。

基于改进的分箱方法对训练样本进行样本均衡处理，基于样本均衡得到的多个样本集训练建立评分卡模型，可以提高模型精度，也可以减少分箱数，进而可以提高模型训练效率。

本实施例中，获取多个训练样本的样本数据，并对样本数据包含的多个样本变量进行分箱操作，可以确定每个样本变量对应的分箱数；当分箱数超过阈值时，可以计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值，并根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理；当分箱数小于或等于阈值时，可以计算每个样本变量的WOE值，根据WOE值进行样本变量筛选；基于筛选得到的样本变量，可以建立评分卡模型。由于基于分箱占比、坏样本率及卡方值多个分箱条件进行分箱，可以限定每个样本变量分箱的数量，也可以使得稀少样本均匀分布在不同分箱，实现样本均衡，从而根据这种分箱机制进行样本变量的筛选可以提高模型训练效率和精准度。

在一个实施例中，对每个样本变量进行分箱操作，包括：识别训练样本的关联样本，爬取关联样本的关联数据；关联数据包括多个关联变量；接收终端发送的模型配置信息，在模型配置信息中提取衍生因子，获取训练样本对应每个衍生因子的衍生变量；对每个样本变量、关联变量和衍生变量进行分箱操作。

服务器调用预设的风险传导模型。风险传导模型包括关系提取模型和传导预测模型。服务器在指定网站爬取监控对象的社交关系数据，将社交关系数据输入关系提取模型，确定训练样本对应的一个或多个关联样本，并基于确定的关联样本生成训练样本对应的知识图谱。关联样本可以是与监控对象存在投资关系、供应关系或其他关系的关联对象。知识图谱包括监控对象节点和多个关联对象节点。

关系提取模型包括亲密度测算子模型。利用亲密度测算子模型计算每个关联样本与训练样本的亲密度。亲密度测算子模型可以是：

其中，Q(v,w)为关联样本节点w与训练样本节点v之间的亲密度；N(v)表示训练样本节点v的邻接节点集合；训练样本节点v和关联样本节点w的共同邻接节点数为|N(v)∩N(w)|；训练样本节点v和关联样本节点w均不邻接的节点数为|N(v)∪N(w)|。在另一个实施例中，亲密度根据关联关系，可以是投资比例、出质比例、出资比例等。

服务器在指定网站爬取关联样本的关联数据。服务器将关联数据以及对应的亲密度输入传导预测模型，计算关联样本的传导风险评分，将传导风险评分标记为关联变量。在另一个实施例中，服务器将多个关联对象分别对应的传导风险评分中值最高的传导风险评分作为一个关联变量，或者将多个关联对象分别对应的传导风险评分的平均值作为一个关联变量，对此不作限制。

虚拟资源获取平台本身提供的评分卡模型只是提供一个模型框架。若用户对用于虚拟资源风险分析的评分卡模型不满意，可以通过终端向服务器发送模型配置请求，进而根据自己的行业经验对评分卡模型进行变更。具体的，服务器根据模型配置请求携带的模型标识，获取对应的评分卡模型。服务器识别评分卡模型中的可编辑元素，利用空白单元对可编辑元素进行替换，并将可编辑元素填充至空白单元，得到模型编辑页面，将模型编辑页面返回至终端。模型编辑页面允许用户在模型框架基础上根据行业经验进行自由编辑，实现模型定制化。例如，允许用户修改变量权重、更改变量值等。另外，模型编辑页面还包括“新增指标”按钮，以支持用户加入全新变量。服务器根据模型配置请求向终端返回模型编辑页面。编辑信息包括变更后的评分卡模型。

当用户增加全新变量时，在用户终端录入采用自然语言或公式等的形式录入新增变量的变量名称、变量类型和变量值。其中变量类型可以是财务类、舆情类等。例如，用户新增指标“高管是否有司法处罚”。服务器定期进行全网筛查，将用户新增的变量(记作衍生变量)添加至变量库中，以便后续该用户或其他用户再次利用。在另一个实施例中，不同用户对评分卡模型的定制逻辑可能不同，为了保护用户的定制逻辑，可以对不同用户对评分卡模型的定制化操作进行数据隔离。

若新增因子为公式，则服务器对公式进行拆分，在监控数据中获取对应的多个分项变量，按照公式逻辑对多个分项变量进行预设逻辑运算即可得到对应的变量值。若新增变量为自然语言，还允许用户针对新增变量配置对应的变量值获取逻辑，基于配置的获取逻辑自动获取变量值。例如，根据新增变量“高管是否有司法处罚”，首先在指定网站爬取有关高管司法处罚的信息，对涉世高管进行主体(是否为期望监控的高管)识别；若主体一致，对爬取到的信息进行舆情分析，得到对应的变量值。容易理解，新增变量值也可以是人为录入的。

服务器按照上述方式对样本变量、关联变量和衍生变量进行分箱操作。

本实施例中，由于除了在训练样本自身的样本数据中提取样本变量，还识别训练样本的关联样本，并在关联样本对应风险数据中提取关联变量，将关联变量纳入风险测算考虑范围，可以拓展风险预测维度，进而可以提高风险预测准确性。此外，向用户提供通用的评分卡模型，降低风险预测门槛的同时，允许用户根据自己的行业经验对评分卡模型进行变更，可以实现模型定制化，从而使得该虚拟资源平台适用于任何有无行业背景的用户。

在一个实施例中，如图3所示，根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，即分箱合并的步骤，包括：

步骤302，根据坏样本率确定多个分箱的单调特性。

单调特性是指坏样本率呈连续递增变化趋势或连续递减变化趋势的特性。

在一个实施例中，根据坏样本率确定多个分箱的单调特性，包括：统计坏样本率呈单调趋势的分箱数；确定分箱数最大的单调趋势；根据分箱数最大的单调趋势确定相应样本变量的单调特性。

例如，在上述表2中，财务变量A2对应的所有分箱有6个，这6个分箱的坏样本率，第1至3分箱呈连续递增变化，第3至4分箱呈连续递减变化，第4至5分箱呈连续递增变化，第5至6分箱连续不变。通过统计，坏样本率呈连续递增变化趋势的分箱数为4，呈连续递减变化趋势的分箱数为1，从而财务变量A2的单调特性为连续递增变化趋势。

步骤304，识别不符合单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱。

服务器识别样本变量是否存在坏样本率为0或者∞的分箱，将坏样本率为0或者∞的分箱标记为待合并分箱。服务器识别是否存在不符合单调特性的分箱，将不符合单调特性的分箱标记为待合并分箱。服务器识别卡方值最小的一对相邻分箱，将卡方值最小的相邻分箱标记为待合并分箱。服务器识别分箱占比最小的一个分箱，将分箱占比最小的分箱标记为待合并分箱。

步骤306，将待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，将待合并分箱与前一相邻分箱或后一相邻分箱进行合并，包括：计算待合并分箱与前一相邻分箱的卡方值，记作第一卡方值；计算待合并分箱与后一相邻分箱的卡方值，记作第二卡方值；比较第一卡方值是否等于第二卡方值；若是，将待合并分箱与分箱占比小的前一相邻分箱或后一相邻分箱合并；否则，将待合并分箱与卡方值小的前一相邻分箱或后一相邻分箱进行合并。

服务器获取坏样本率为0或者∞的分箱或者不符合单调特性的分箱，记作第一待合并分箱。若第一待合并分箱为首个分箱，将第一待合并分箱与后一相邻分箱合并。若第一待合并分箱为最后一个分箱，将第一待合并分箱与前一相邻分箱合并。

若第一待合并分箱为该样本变量中间的一个分箱，服务器获取第一待合并分箱与前一相邻分箱的卡方值(记作第一卡方值)以及与后一相邻分箱的卡方值(记作第二卡方值)，并比较第一卡方值和第二卡方值。若第一卡方值大于第二卡方值，将第一待合并分箱与后一相邻分箱进行合并。若第一卡方值小于第二卡方值，将第一待合并分箱与前一相邻分箱进行合并。若第一卡方值等于第二卡方值，将待合并分箱与分箱占比小的前一相邻分箱或后一相邻分箱进行合并。

本实施例中，基于分箱占比、坏样本率、相邻分箱的卡方值以及单调特性多个分箱条件进行分箱，可以限定每个样本变量分箱的数量，也可以使得稀少样本均匀分布在不同分箱，实现样本均衡，基于这种分箱机制进行样本变量的筛选可以提高模型训练效率和精准度。

在一个实施例中，基于筛选得到的样本变量建立评分卡模型，包括：在训练样本中筛选目标样本，提取目标样本的样本特征；对样本特征进行强化学习，得到更多的衍生样本；利用训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算评分卡模型的准确度，比较准确度是否达到阈值；若否，基于衍生样本生成再生样本；将再生样本作为当前的衍生样本，返回利用训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算评分卡模型的准确度，比较准确度是否达到阈值的步骤，直至准确度达到阈值。

训练样本包括好样本和坏样本。同一监控对象往往并非一直具有风险行为，有可能一段时间(记作白色时段)不具有风险行为，一段时间(记作黑色时段)具有风险行为。例如，企业A被曝出在2017.08～2017.11发生财务造假风险行为，在被监管部门要求整改后企业A对该段时间的财务数据进行修正，则2017.08～2017.11被曝出的财务数据可以作为坏样本，对应修改后的监控数据可以作为好样本。训练样本还包括灰色样本。实际上，大部分监控对象处于白色时段和黑色时段之间的灰色时段。灰色时段是指有可能存在风险行为但未被曝出的时段。好样本与坏样本的数量有限，而灰色样本则比较多。

训练样本具有对应的分类标签。服务器获取训练样本，将训练样本输入基分类器，得到模型分类结果。服务器比较模型分类结果与相应分类标签是否一致。若否，服务器将已有样本标记为目标样本。目标样本是指实际存在风险行为但未被评分卡模型识别出来的坏样本。样本特征包括坏样本的正常指标以及一种或多种异常指标。

服务器提取目标样本的样本特征。具体的，服务器获取目标样本对应的样本数据；对样本数据进行预处理，得到多个样本指标。服务器根据证监会等监管部门公布的处罚文件将其中一个或多个样本指标标记为异常指标，进而确定样本指标的指标类型。指标类型包括正常指标和异常指标。

服务器对样本特征进行强化学习，得到更多的衍生样本。具体的，服务器预存储了多个样本指标对应的强化学习规则。强化学习规则包括多种样本指标分别对应的增大幅度或减小幅度。换言之，强化学习规则包括对该样本指标值进行增大或缩小的一级幅度、二级幅度等。其中，一级幅度是指第一次根据强化学习规则对样本指标进行强化学习时对样本指标值增大的幅度或者缩小的幅度；二级幅度是指第二次根据强化学习规则对同一样本指标进行强化学习时对样本指标值增大的幅度或者缩小的幅度，如此类推。服务器根据增大幅度对异常指标进行增大处理；或根据减小幅度对异常指标进行减小处理。服务器对强化处理后的多个异常指标进行组合，得到多种指标组合。服务器基于正常指标及强化处理后的每种指标组合生成一种衍生样本。

服务器利用训练样本和衍生样本对基础模型进行半监督训练，得到评分卡模型。具体的，基分类器可以是梯度促进模型(Gradient Boosting Decison Tree，GBDT)。容易理解，基础模型也可以是其他模型，对此不做限制。好样本与坏样本具有明确的是否造假的标注(记作分类标签)，而灰色样本则没有明确的分类标签。换言之，有标注的样本数据稀少，而无标注的样本数据很多。基于有限的好样本、坏样本以及大量的灰色样本对基础模型进行半监督训练，使得训练得到的评分卡模型更加符合实际情况，从而可以提高模型监控精准度。

本实施例中，由于信用风险情形太多，初始的评分卡模型难以识别出在特定情况下的信用风险，通过强化学习使得评分卡模型能够捕捉到更多情况下造成的信用风险，进而逐步识别出越来越多情形下的信用风险，提高模型精度。此外，同时将大量的灰色时段的样本数据作为样本对模型进行半监督训练，可以使模型尽可能多的学习到大部分企业在常规状态下的风险行为特征，从而可以进一步提高模型精度，可以提早发现尚处于灰色时段但有风险行为征兆的企业。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种评分卡模型的建立装置，包括：数据分箱模块402、分箱合并模块404和模型建立模块406，其中：

数据分箱模块402，用于获取多个训练样本的样本数据；样本数据包括多个样本变量；对每个样本变量进行分箱操作；

分箱合并模块404，用于确定每个样本变量对应的分箱数，比较分箱数是否超过阈值；若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回确定每个样本变量对应的分箱数的步骤；

模型建立模块406，用于当样本变量对应的分箱数小于或等于阈值时，计算每个样本变量的WOE值，根据WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。

在一个实施例中，数据分箱模块402还用于识别训练样本的关联样本，爬取关联样本的关联数据；关联数据包括多个关联变量；接收终端发送的模型配置信息，在模型配置信息中提取衍生因子，获取训练样本对应每个衍生因子的衍生变量；对每个样本变量、关联变量和衍生变量进行分箱操作。

在一个实施例中，分箱合并模块404还用于根据坏样本率确定多个分箱的单调特性；识别不符合单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；将待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，分箱合并模块404还用于统计坏样本率呈单调趋势的分箱数；确定分箱数最大的单调趋势；根据分箱数最大的单调趋势确定相应样本变量的单调特性。

在一个实施例中，分箱合并模块404还用于计算待合并分箱与前一相邻分箱的卡方值，记作第一卡方值；计算待合并分箱与后一相邻分箱的卡方值，记作第二卡方值；比较第一卡方值是否等于第二卡方值；若是，将待合并分箱与分箱占比小的前一相邻分箱或后一相邻分箱合并；否则，将待合并分箱与卡方值小的前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，模型建立模块406还用于在训练样本中筛选目标样本，提取目标样本的样本特征；对样本特征进行强化学习，得到更多的衍生样本；利用训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算评分卡模型的准确度，比较准确度是否达到阈值；若否，基于衍生样本生成再生样本；将再生样本作为当前的衍生样本，返回利用训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算评分卡模型的准确度，比较准确度是否达到阈值的步骤，直至准确度达到阈值。

关于评分卡模型的建立装置的具体限定可以参见上文中对于评分卡模型的建立方法的限定，在此不再赘述。上述评分卡模型的建立装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本的样本数据和关联样本的关联数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种评分卡模型的建立方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的评分卡模型的建立方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种评分卡模型的建立方法，所述方法包括：

获取多个训练样本的样本数据；所述样本数据包括多个样本变量；

对每个样本变量进行分箱操作；

确定每个样本变量对应的分箱数，比较所述分箱数是否超过阈值；

若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；

根据所述分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回所述确定每个样本变量对应的分箱数的步骤；

否则，计算每个样本变量的WOE值，根据所述WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。

2.根据权利要求1所述的方法，其特征在于，所述对每个样本变量进行分箱操作，包括：

识别所述训练样本的关联样本，爬取所述关联样本的关联数据；所述关联数据包括多个关联变量；

接收终端发送的模型配置信息，在所述模型配置信息中提取衍生因子，获取训练样本对应每个衍生因子的衍生变量；

对每个样本变量、关联变量和衍生变量进行分箱操作。

3.根据权利要求1所述的方法，其特征在于，所述根据分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，包括：

根据所述坏样本率确定多个分箱的单调特性；

识别不符合所述单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；

将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

4.根据权利要求3所述的方法，其特征在于，所述根据所述坏样本率确定多个分箱的单调特性，包括：

统计坏样本率呈单调趋势的分箱数；

确定分箱数最大的单调趋势；

根据所述分箱数最大的单调趋势确定相应样本变量的单调特性。

5.根据权利要求3所述的方法，其特征在于，所述将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并，包括：

计算所述待合并分箱与前一相邻分箱的卡方值，记作第一卡方值；

计算所述待合并分箱与后一相邻分箱的卡方值，记作第二卡方值；

比较所述第一卡方值是否等于所述第二卡方值；

若是，将待合并分箱与分箱占比小的前一相邻分箱或后一相邻分箱合并；

否则，将待合并分箱与卡方值小的前一相邻分箱或后一相邻分箱进行合并。

6.根据权利要求1所述的方法，其特征在于，所述基于筛选得到的样本变量建立评分卡模型，包括：

在所述训练样本中筛选目标样本，提取所述目标样本的样本特征；

对所述样本特征进行强化学习，得到更多的衍生样本；

利用所述训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算所述评分卡模型的准确度，比较所述准确度是否达到阈值；

若否，基于所述衍生样本生成再生样本；

将所述再生样本作为当前的衍生样本，返回所述利用所述训练样本和衍生样本对基础模型进行训练，得到评分卡模型，计算所述评分卡模型的准确度，比较所述准确度是否达到阈值的步骤，直至所述准确度达到阈值。

7.一种评分卡模型的建立装置，其特征在于，所述装置包括：

数据分箱模块，用于获取多个训练样本的样本数据；所述样本数据包括多个样本变量；对每个样本变量进行分箱操作；

分箱合并模块，用于确定每个样本变量对应的分箱数，比较所述分箱数是否超过阈值；若是，计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据所述分箱占比、坏样本率及卡方值，对样本变量的多个分箱进行合并处理，返回所述确定每个样本变量对应的分箱数的步骤；

模型建立模块，用于当样本变量对应的分箱数小于或等于所述阈值时，计算每个样本变量的WOE值，根据所述WOE值进行样本变量筛选，基于筛选得到的样本变量建立评分卡模型。

8.根据权利要求7所述的装置，其特征在于，所述数据分箱模块还用于识别所述训练样本的关联样本，爬取所述关联样本的关联数据；所述关联数据包括多个关联变量；接收终端发送的模型配置信息，在所述模型配置信息中提取衍生因子，获取训练样本对应每个衍生因子的衍生变量；对每个样本变量、关联变量和衍生变量进行分箱操作。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。