CN109685133A

CN109685133A - 基于构建的预测模型低成本、高区分度的数据分类方法

Info

Publication number: CN109685133A
Application number: CN201811568315.0A
Authority: CN
Inventors: 韩晗; 陈锐浩; 陈贻汕
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-26

Abstract

本发明公开了一种基于构建的预测模型低成本、高区分度的数据分类方法，属于分类预测技术领域，解决现有技术中需要通过获取更多的数据来制作多个二分类器，造成数据获取时间长，获取成本高等问题。本发明包括基于现有任一数据源，构建一个连续预测变量的二分类器，连续预测变量使用n个不含时间信息的自变量和m个含时间信息的自变量来共同预测；根据二分类器在连续预测变量范围内的预测结果，将连续预测变量范围分成三个区间，即左区间、中间区间和右区间；基于中间区间和二分类器，构建伴生指数；左区间和右区间的数据采用二分类器进行预测，中间区间的数据采用二分类器和伴生指数联合预测，得到最终数据的分类。本发明用于利用同一数据源进行数据区间分类。

Description

基于构建的预测模型低成本、高区分度的数据分类方法

技术领域

一种基于构建的预测模型低成本、高区分度的数据分类方法，用于利用同一数据源进行数据区间分类，属于统计学、机器学习算法、分类预测技术领域。

背景技术

在机器学习和统计中，分类是基于包含其类别成员资格已知的观察(或实例)的训练数据集来识别新观察所属的一组类别(子群体)中的对应问题。例如，将给定的电子邮件分配给“垃圾邮件”或“非垃圾邮件”类，并根据观察到的患者特征(性别，血压，某些症状的存在或不存在等)为给定患者分配诊断。在机器学习的术语中，分类预测被认为是监督学习的一个实例，即学习后可获得用于正确识别观察的训练集。

二分类器性能在很大程度上取决于要分类的数据的特征。精度和召回是用于评估分类系统质量的常用度量。ROC(Receiving Operating Curve)曲线已用于评估分类算法的真实和假阳性率之间的权衡，由此衍生出另外一个常用的二分类器区分度的指标为AUC值(Area Under the Curve)。

据我们所知，给定一个训练好的二分类器，暂无使用现有数据变量来提升其区分度的方法。行业一般做法是根据不同的数据源分别开发几个不同的二分类器，综合使用来交叉覆盖单个二分类器不能准确预测结果的样本。例如，考虑预测一个样本是“yes”还是“no”的二分类问题。如果有两个不同的数据源，基于第一个数据源开发了二分类器1，基于第二个数据源开发了二分类器2。两个二分类器都以一个[300，900]区间的连续取值打分为基础，打分高于某个阈值(即第一个二分类器针对数据源打分后，得到打分区间范围，是否高于某个阈值(针对第一个二分类器打分设置的)，再结合第二次二分类器进行打分，判断低于阈值区间的打分是否高于再次设置的某个阈值(针对第二次二分类器打分设置的)，就预测为“yes”，否则预测为“no”。那么，可以综合两个二分类器，做出二维交叉矩阵，来根据建模样本在每个交叉区间中的表现来做联合预测。如图1所示，以数据为例说明了该方案的应用方式。

根据数据源所需要的分类，也有可以结合两个或多个二分类器做模型融合的各种方案 (例如model averaging，ensemb Ie Iearning，stacking等等)。

这些方案都是基于有两个或者多个二分类器的基础，其中的前提是需要有不同的数据来制作不同的二分类器。这样就会存在如下不足之处：

一是、用于构建新的二分类器的新数据，需再次进行查询，从而造成增加新数据查询时间，最终延长该二分类器响应请求的时间，降低用户体验；

二是、查询的新数据是要是真实可用的，大部分情况都是要通过与第三方建立获取关联，即要第三方授权获取，从而增加数据成本。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于构建的预测模型低成本、高区分度的数据分类方法，解决现有技术中的分类方法对数据进行分类，需要通过获取更多的数据来制作多个二分类器，造成数据获取时间长、获取成本高、消耗资源开锁高等问题。

为了达到上述目的，本发明采用如下技术方案：

一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，如下步骤：

S1、基于现有任一数据源，构建一个连续预测变量的二分类器，该连续预测变量使用n 个不含时间信息的自变量和m个含时间信息的自变量来共同预测；

S2、根据二分类器在连续预测变量范围内的预测结果，将连续预测变量范围分成三个区间，即左区间、中间区间和右区间；

S3、基于中间区间和二分类器，构建伴生指数；

S4、左区间和右区间的数据采用二分类器进行预测，中间区间的数据采用二分类器和伴生指数联合预测，得到最终数据的分类。

进一步，所述步骤S1中二分类器为Iogistic regression，probit model，gradient boosting decision tree多种机器学习类模型中的一种。

进一步，所述步骤S3的具体步骤为：

S3.1、计算二分类器所使用自变量的信息饱和度，即计算n个不含时间信息的变量和m 个含时间信息的变量的信息饱和度；

S3.2、给定两类别加权后不含时间信息的变量的总权重α和步骤S3.2中得到的m个含时间信息的变量的权重w_i，两类别为不含时间信息的变量和含时间信息的变量；

S3.3、根据总权重α和m个含时间信息的变量的权重w_i构成的m+1维参数空间，计算连续预测变量的权重；

S3.4、根据步骤S3.1-步骤3.3得到最终的伴生指数ICI。

进一步，所述步骤3.1的步骤包括：

二分类器使用n个不含时间信息的变量x_i，i＝1，...，n，计算第i个非时间类变量的信息饱和度的计算公式为：

二分类器使用m个含时间信息的变量x_i，i＝n+1，...，n+m，根据专家经验选取对应x_i的阈值L_i，使得当x_i≥L_i该变量有足够长时间的信息，按照给定阈值来线性取值来计算第i个时间类变量的信息饱和度，计算公式为：

进一步，所述步骤3.2中：

伴生指数在二分类器指定的中间区间的区分度最大，即AUC值最大，n个不含时间信息的变量的总权重α和m个含时间信息的变量的权重w_i需满足条件为：

c₁≤α≤c₂ (1)

其中，C₁和C₂为时间类和非时间类变量在ICI里面的相对比重决定的上限和下限。

进一步，所述步骤3.3的具体计算方式为：

使用单变量的信息饱和度计算n个变量的权重，否则对m个变量量化搜索，即采用格点搜索方法搜索m+1维参数空间(α，w_n+1，...，w_n+m)，基于优化条件计算公式为：

其中，IV_i是第i个变量的Information Value值，是在二分类机器学习问题中基于Weight of Evidence技术用来对输入自变量进行编码和评估其预测能力的指数。

进一步，所述步骤3.4中，伴生指数ICI的计算公式为：

本发明同现有技术相比，其有益效果表现在：

1.本发明的方案只利用任一数据源数据字段，训练一个伴生指数，可以保持总体预测精度不变的情况下，降低模型实时预测的总时间成本和总数据成本；

2.本发明考虑到现有技术中使用的机器学习模型基本都在100个变量以上，来自不同数据源，平均每个二分类器所使用的一批变量的查询耗时1秒左右，平均成本1-15元，若变量来自于多个数据源，这样时间成本会更高，而本发明不涉及到其它数据源的查询，可大大节约查询时间和查询成本，即能快速、精确的分类；

3.本发明中的信息饱和度能专门利用这个变量的信息，加大这个时间类变量的应用程度，从而可以在计算变量信息饱和度的过程中充分利用时间信息，为检验变量取值是否对分类预测目标提供更直接的评估手段；

4.本发明采用优化的总权重α和m个含时间信息的变量的权重w_i，预测的效果更佳。

附图说明

图1为现有技术中两个二分类器联合预测应用的示意图；

图2a为二分类器在不同区间的领域区分度示意图；图2b为伴生指数在二分类器不同区间的领域区分度示意图,图2c为二分类器与伴生指数联合预测在二分类器不同区间的领域区分度示意图。

图3为本发明在建模样本(自变量)上，中间区间的用户(数据)分类标识比例示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

使用现有任一数据源，开发了基于一个连续预测变量C构建二分类器，该连续预测变量使用n个不含时间信息的自变量和m个含时间信息的自变量来共同预测，因为必须要有时间变量，本发明中的信息饱和度能专门利用这个变量的信息，加大这个时间类变量的应用程度。的二分类器F，二分类器F为例如Iogistic regression，probit model，gradientboosting decision tree等多种机器学习类模型，二分类器使用了(n+m)个变量进行观测；

分析二分类器F在C不同范围的表现，在C范围选定一个中间区间I(此处的中间区间是指低于下述所述的给定的阈值的范围)，使得在中间区间I外，二分类器的表现达到比较高的精度；该中间区间I包含当自变量完全缺失的样本得分C0，该中间区间I的左右边界上，二分类器的领域区分度超过阈值a，其中a给定的阈值，用于划分所预测数据结果所进行的设定，一般可选0.6以上的数值；领域区分度(即指条件AUC)定义为在该连续预测变量C取值的样本所对应的AUC取值；

基于中间区间I和二分类器，开发伴生指数ICI；

S3.1、计算二分类器所使用自变量的信息饱和度，即计算n个不含时间信息的变量和m 个含时间信息的变量的信息饱和度；步骤包括：

二分类器使用m个含时间信息的变量x_i，i＝n+1，...，n+m，根据专家经验选取对应x_i的阈值L_i，使得当x_i≥L_i意味着该变量有足够长时间的信息，按照给定阈值来线性取值来计算第i个时间类变量的信息饱和度，计算公式为：

S3.2、给定两类别加权后不含时间信息的变量的总权重α和步骤S3.2中得到的m个含时间信息的变量的权重w_i，两类别为不含时间信息的变量和含时间信息的变量；伴生指数在二分类器指定的中间区间的区分度最大，即AUC值最大，n个不含时间信息的变量的总权重α和m个含时间信息的变量的权重w_i需满足条件为：

c₁≤α≤c₂ (1)

S3.3、根据总权重α和m个含时间信息的变量的权重w_i构成的m+1维参数空间，计算连续预测变量的权重；具体计算方式为：

其中，IV_i是第i个变量的Information Value值，是在二分类机器学习问题中基WOE (Weight of Evidence)技术用来对输入自变量进行编码和评估其预测能力的。

S3.4、根据步骤S3.1-步骤3.3得到最终的伴生指数ICI。计算公式为：

新的预测方案为：

在中间区间I以外，直接使用二分类器F进行预测；

在中间区间I以内，使用ICI与二分类器联合预测；见前文图1中多二分类器使用方法；一般而言，评分C接近C0，伴生指数ICI的辅助区分能力越大；

在互联网领域，很多地方都涉及到用户信息数据的审核，进而对用户进行归类，如对数据的真假进行评分，如申请信用评分卡，根据借款方的借款与还债历史、债务状况等信息给予不同的分数。在零售金融中，信贷政策根据申请信用评分来决定是否核准新贷款或信用额度。衡量信用评分好坏的一个主要指标是对于逾期和不逾期的客户的区分能力。常用的评估模型效果指标有AUC(曲线下面积值，Area Under Curve)、KS值(KS Value)、均方误差等。

我们基于用户申请信息开发了一种用户信息二分类器的伴生指数，用于描述用户在一个评分卡中使用到的信息是否充分。该指数配合申请信息评分使用可以提升原申请信息评分的区分能力。在信息评分中用的用户群，区分是信息不足还是信息很多得出的这个评分。在该群体上，信息饱和度较低的人信息资料表现出来对应的用户就更好，可根据需要适当调低审批通过的申请信息评分阈值。

实施例

本实施例开发的某判断申请信息优劣(即对对应资料优劣的分析)的二分类器F，本申请使用过程分为以下四步：

1.使用用户征信或其它资料中的任一个数据源，本实施开发了取值在[300，900]分的二分类器，二分类器采用了GBDT模型，使用了139个变量；

2.分析二分类器F在取值在[300，900]内的不同范围分数的表现，选定一个区间[450，750]，使得在该区间外，二分类器的表现达到比较高的精度；该区间包含当自变量完全缺失的样本得分600，该区间的左右边界上，二分类器的领域区分度超过阈值0.6(根据业内经验选择)；二分类器在不同区间的领域区分度(条件AUC)，如图2(a)所示，且图2(a) 中的U型曲线是整个方案的基础和提高的原因，其中U型曲线是本领域技术人员知晓的通常以U型曲线出现的数据分类图；

3.基于区间[450，750]和二分类器F，开发伴生指数ICI；ICl在二分类器F不同区间的领域区分度(条件AUC)，如图2(b)所示；

4.新的预测方案为(预测效果见图2(c))：

a.在区间[450，750]以外，直接使用二分类器的预测；

b.在区间[450，750]以内，应用伴生指数ICI与原二分类器联合预测；方式与背景技术中所采用两种二分类器进行预测的方式相同，如图2c所示；本实施例应用于辅助判断申请资料优劣，对于评分中分段的用户群使用。在可控的申请信息优劣前提下提高了对用户资料的识别水平，对后续通过率的界线划分更加精确(也就是更能准确的将其归于分类区间)。

该伴生指数和原二分类器联合使用后，在不同的区间类，用户资料标识(是否充分的标识)的比例有明显的差异。在实际应用中，可选取比例较低(例如低于1.5％)的区间提高申请用户的通过率，如图3所示，经过提升后，在8万建模样本中就能多通过约4800名用户。

本发明还可以应用到多种分类预测问题上，例如预测用户资料真伪，用户是否会出现某些指定行为等等。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，如下步骤：

S1、基于现有任一数据源，构建一个连续预测变量的二分类器，该连续预测变量使用n个不含时间信息的自变量和m个含时间信息的自变量来共同预测；

S3、基于中间区间和二分类器，构建伴生指数；

2.根据权利要求1所述的一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，所述步骤S1中二分类器为logistic regression，probit model，gradientboosting decision tree多种机器学习类模型中的一种。

3.根据权利要求1所述的一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，所述步骤S3的具体步骤为：

S3.1、计算二分类器所使用自变量的信息饱和度，即计算n个不含时间信息的变量和m个含时间信息的变量的信息饱和度；

S3.4、根据步骤S3.1-步骤3.3得到最终的伴生指数ICI。

4.根据权利要求3所述的一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，所述步骤3.1的步骤包括：

二分类器使用n个不含时间信息的变量x_i，i＝1，...，n，，计算第i个非时间类变量的信息饱和度的计算公式为：

二分类器使用m个含时间信息的变量x_i，i＝n+1，...，n+m，根据经验选取对应x_i的阈值L_i，使得当x_i≥L_i在该变量有足够长时间的信息，按照给定阈值来线性取值来计算第i个时间类变量的信息饱和度，计算公式为：

5.根据权利要求3或4所述的一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，所述步骤3.2中，

6.根据权利要求5所述的一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，所述步骤3.3的具体计算方式为：

7.根据权利要求6所述的一种基于构建的预测模型低成本、高区分度的数据分类方法，其特征在于，所述步骤3.4中，伴生指数ICI的计算公式为：