CN113657440A

CN113657440A - 一种基于用户特征聚类的拒绝样本推断方法和装置

Info

Publication number: CN113657440A
Application number: CN202110774351.8A
Authority: CN
Inventors: 宋万鹏
Original assignee: Tongdun Technology Co ltd; Tongdun Holdings Co Ltd
Current assignee: Tongdun Technology Co ltd; Tongdun Holdings Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-11-16

Abstract

在本发明实施例公开了一种基于用户特征聚类的拒绝样本推断方法和装置，该方法包括：采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；将所述申请用户的特征数据转换为特征向量；基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。克服了现有技术中用部分样本估计总体样本标签而导致的标记偏差问题。

Description

一种基于用户特征聚类的拒绝样本推断方法和装置

技术领域

本发明涉及数据存储领域，尤其涉及一种基于用户特征聚类的拒绝样本推断方法和装置。

背景技术

在信贷风控业务中，用于风控建模的样本一般都是审批通过并放款的样本，因为只有这些样本才有贷后表现数据，才能用于建模，这些样本相对于全量样本(全部申请样本)的占比是比较小的，一般都在10％－30％之间。

目前常用的拒绝推断的方法主要是基于有表现的样本(通过样本)建模，然后用于拒绝样本的预测，基于预测结果给样本赋予“正常还款”或者“违约还款”的标签，然后再将打标的拒绝样本与通过样本融合，用于最终的建模。

但是由于模型的应用过程中，一般来说会对全量的样本进行违约概率的预测，所以就会存在幸存者偏差，所以此类方法虽然能近似估计拒绝样本的标签，但还是存在“用部分样本估计总体的”问题，也就是基于这种方法给拒绝样本打的标签的准确性不够精确的问题。

发明内容

有鉴于上述问题，本发明实施例提出一种基于用户特征聚类的拒绝样本推断方法和装置，以解决现有技术中用部分样本估计总体样本时，存在偏差的问题。

本发明公开了一种基于用户特征聚类的拒绝样本推断方法，所述方法包括：

采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；

将所述申请用户的特征数据转换为特征向量；

基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；

计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；

根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。

可选的，所述计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心，包括：

获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇，和包含所述还款特征为违约还款的第二类簇；分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。

可选的，所述通过所述其他多个分类簇中各特征向量与所述用信中心之间的距离，预测所述其他多个分类簇中各特征向量的特征标签，包括：

计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离，以及和与所述第二类簇中心之间的第二余弦距离；

如果所述第一余弦距离大于所述第二余弦距离，则对所述拒绝申请用户添加违约还款标签，否则对所述拒绝申请用户添加正常还款标签。

可选的，还包括：

将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据，与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据；

基于所述训练数据训练用户违约概率预测模型。

本发明另一方面在于提供一种基于用户特征聚类的拒绝样本推断装置，所述装置包括：

特征数据采集模块，用于采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；

特征向量转换模块，用于将所述申请用户的特征数据转换为特征向量；

聚类模块，用于基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；

类中心获取模块，用于计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；

预测模块，用于根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。

可选的，所述类中心获取模块，包括：

类中心获取子模块，用于获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇，和包含所述还款特征为违约还款的第二类簇；分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。

可选的，所述预测模块，包括：

余弦距离计算子模块，用于计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离，以及和与所述第二类簇中心之间的第二余弦距离；

标记子模块，用于如果所述第一余弦距离大于所述第二余弦距离，则对所述拒绝申请用户添加违约还款标签，否则对所述拒绝申请用户添加正常还款标签。

可选的，还包括：

训练数据得到模块，用于将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据，与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据；

用户违约概率预测模型训练模块，用于基于所述训练数据训练用户违约概率预测模型。

综上所述，在本发明实施例中，通过采集预设周期内申请用户的特征数据；其中用户的特征数据包括申请特征及还款特征，并且申请特征包括拒绝申请、通过申请，而还款特征包括正常还款、违约还款；之后将所述申请用户的特征数据转换为特征向量；基于申请用户数据生成的特征向量对所述申请用户进行聚类，得到多个分类簇；计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。实现了通过计算聚类后的拒绝申请用户数据，与通过申请用户数据中正常还款和违约还款类簇中心距离的方式，而为拒绝申请用户进行还款特征预测的目的，进而对所有用户进行实现还款特征标记，克服了现有技术中用部分带标签的拒绝样本估计总体拒绝样本标签而导致的标记存在偏差问题，提高了拒绝用户还款特征预测的精确度。

附图说明

图1示出了本发明实施例一中的一种基于用户特征聚类的拒绝样本推断方法的流程图；

图2示出了本发明实施例一中的另一种基于用户特征聚类的拒绝样本推断方法的流程图；

图3示出了本发明实施例三中的一种基于用户特征聚类的拒绝样本推断装置的结构框图；

图4示出了本发明实施例三中的另一种基于用户特征聚类的拒绝样本推断装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参照图1，示出了本发明实施例一中的一种基于用户特征聚类的拒绝样本推断方法的流程图，具体可以包括如下步骤：

步骤101，采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；

本发明实施例中，在信贷风控业务中，用于风控建模的样本一般都是审批通过并放款的样本，因为只有这些样本才有贷后表现数据，才能用于建模。所以在建模之前需要准备样本数据，其中，数据准备阶段，在预设周期内采集所有申请用户的数据，所有进行过信贷业务申请的用户被定义为用信客户，针对用信客户的历史用信数据分析，以及贷后业务表现，获取用户的特征数据。通常，用户的特征数据一般包括申请特征和还款特征，而申请特征包括拒绝申请、通过申请两种，还款特征一般包括正常还款和违约还款两种种类型。

其中，预设周期一般为一年或半年，保证用户数据的时效性，当然在具体应用中根据需要而不同，本发明实施例对此不加以限制。

可以理解地，用信用户的特征数据一般还包含用户的身份唯一标识，例如用户的点好号码或者身份证号码，本发明对此不加以具体限制。

优选地，所述所述申请特征与所述还款特征可以同时具备。

可以理解地，用户用信特征数据中包含用户申请信贷业务的具体数据，一般有通过申请特征和还款特征，可以表示该用户在申请信贷业务时申请是否成功，其中如果通过申请则为通过用户，如果遭到拒绝，则在该用户数据中记录拒绝信息，即为拒绝用户。其中，用户在拿到贷款后还有贷后表现数据，只针对于通过申请的用户，其中贷后表现又可以包含正常还款和违约还款两种。

所以，所述申请特征与所述还款特征可以同时具备。

步骤102，将所述申请用户的特征数据转换为特征向量；

本发明实施例中，将获取的申请用户的特征数据转换为特征向量。其中，如果用户特征包含N项，那么就将特征数据转换为N维向量。通常针对用户数据使用最简单的线性特征向量转换。

可以理解地，将用户数据转换为机器可以识别的特征向量的方法很多，针对具体应用采取不同的方法，对于特征向量转换过程和方法本发明实施例不加以具体限制。

步骤103，基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；

本发明实施例中，将上述步骤得到的特征向量利用聚类算法dbscan进行聚类。

在实际应用中，参与聚类的特征向量包含带有通过申请标记的，也包含带有拒绝申请标记的用户特征数据，即全体样本数据。

其中，通过聚类算法dbscan进行聚类后，用户的特征向量会形成多个聚类簇，各聚类簇中包含多个特征向量点，其中的特征向量点之间的距离通过余弦距离计算，为了确定每个聚类簇的大小，需要制定扫描半径(eps)以便每个类簇中包含合理数量的特征点。

具体地，本发明实施例中在使用dbscan算法时，扫描半径(eps)定义为0-2之间的一个数字，具体取值可以对全量样本分析评估后设定，最小包含点数(minPts)设置为大于30，一般参考中心极限定理，数量太小没有统计意义的数字不予以考虑。

当然，在实际应用中，针对不同量级的用户数据，以及特征向量维度的不同，选取的聚类算法以及聚类算法在具体应用中设置的各种参数都不尽相同，本发明实施例对此不作具体限制。

步骤104，计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；

本发明实施例中，在聚类结果中会产生包含用户特征数据的多个类簇，比如包含“正常还款”标签的类，以及包含“违约还款”标签的类，而没有携带上述标签的特征向量通过聚类也存在于上述类簇中，形成最终“正常还款”类和“违约还款”类，并进一步获取上述类的中心。

其中，类簇的中心可以是几何中心或特征平均值求得的坐标中心，对此本发明实施例不做具体限制。

优选地，在本发明另一实施例中，步骤104，可以包括子步骤1041；

子步骤1041，获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇，和包含所述还款特征为违约还款的第二类簇；

具体地，在聚类结果中，针对通过申请样本中产生的“正常还款”样本和“违约还款”样本形成的类簇，分别计算这两个类簇的质心。

子步骤1042，分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。

其中，质心为这两个类簇中特征向量的加权平均值，分别记为第一类簇心和第二类簇心。

步骤105，根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。

具体地，对于其他簇中携带拒绝申请标记的每一个特征向量分别到第一或第二类簇的中心的距离，如果距离某一用户用信特征类簇的中心距离近，则对该特征向量标记为与该用户用信特征类簇相同的用信标签。

当然，用于计算距离的特征向量是未进行用信特征标记的，通常属于拒绝样本，因为通过样本中通常具有“正常还款”标签或者“违约还款”标签。

例如，其他未具备用信特征标签的特征向量计算与用户用信特征类簇的中心一的距离，以及用户用信特征类簇的中心二的距离，如果距离中心一更近，则将该特征向量标记为用户用信特征一，否则标记为用户用信特征二。

可选地，在本发明另一实施例中，步骤105，可以包括子步骤1051-1052；

子步骤1051，计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离，以及和与所述第二类簇中心之间的第二余弦距离；

具体地，对于聚类结果中的每个类簇，分别计算其中通过样本中“正常还款”类和“违约还款”类的质心，分别记为C0和C1。针对携带拒绝申请标记的拒绝样本类中的特征向量X，分别计算X到C0和C1的距离D0和D1。

具体地，将任意两个样本X1和X2的距离d定义如下：

其中，d是X1和X2的余弦距离，X1i和X2i为第i维的特征值。使用余弦距离的原因在于余弦距离的取值范围为0-2，在实际应用过程中方便根据具体情况调整距离的阈值。

子步骤1052，如果所述第一余弦距离大于所述第二余弦距离，则对所述拒绝申请用户添加违约还款标签，否则对所述拒绝申请用户添加正常还款标签。

具体地，根据D0和D1之间的对比关系，判断特征向量X的分类倾向，进而进行标记。

其中，如果D0小于D1，则将该拒绝样本标记为“正常还款”样本；否则标记为“违约还款”样本。如果该簇中的通过样本全部为“正常还款”样本或者“违约还款”样本，那么该类簇中所有拒绝样本全部赋予对应的标签即可。如果该簇中的样本全部为拒绝样本，说明该簇样本和通过样本的相似度很低，无法判断对应的标签，所以不对该簇中的样本做任何标记，该簇样本不参与后续建模。

可以理解地，其他分类簇中不一定只是拒绝样本，所以是所有除了“正常还款”类和“违约还款”类中的特征向量都会计算与C0和C1之间的距离。

可以理解地，对于聚类结果噪声点中的拒绝样本，即审批未通过的拒绝样本，说明它们和其他通过样本的相似度极低，同样不对它们进行标记，这些拒绝样本也不会加入最后的建模样本。噪点中的拒绝样本占总体样本的比例一般也很低，所以不会对总体样本产品大的影响。

如图2所示，在本发明另一实施例中，还可以包括步骤106-107；

步骤106，将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据，与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据；

本发明实施例中，通过步骤101-105的操作，对全量样本中不带用信标签的样本，即对拒绝样本通过分类，并计算其与通过样本形成的聚类的质心之间的距离，进而对拒绝样本进行用信特征的标记，标记后的样本命名为标记样本或叫标记数据。

进一步地，将标记拒绝样本和通过样本进行合并，这样，所有的样本都带有用信标记，这样的全量样本作为训练样本可以进行模型训练。

步骤107，基于所述训练数据训练用户违约概率预测模型。

本发明实施例中，基于训练样本进行用户违约概率预测模型，以对其他申请用户进行用信特征预测，即可通过用户数据预测用户的贷后表现。

综上所述，在本发明实施例中，采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；将所述申请用户的特征数据转换为特征向量；基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。实现了基于无监督聚类结果对拒绝样本进行推断的方法，通过全体样本聚类去发现通过样本和拒绝样本之间的关系，从而对拒绝样进行推断，在此过程中一次性充分利用了全体样本的信息，较好的改善了传统的基于通过样本建模然后对拒绝样本进行预测的方法中存在的“部分样本估计总体”的问题。

实施例二

参照图3，示出了本发明实施例三的一种基于用户特征聚类的拒绝样本推断装置的结构框图，所述基于用户特征聚类的拒绝样本推断装置300具体可以包括：

特征数据采集模块301，用于采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；

特征向量转换模块302，用于将所述申请用户的特征数据转换为特征向量；

聚类模块303，用于基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；

类中心获取模块304，用于计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；

优选地，所述类中心获取模块304，包括：

类获取子模块，用于获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇，和包含所述还款特征为违约还款的第二类簇；

类中心获取子模块，用于分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。

预测模块305，用于根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。

优选地，所述预测模块305，包括：

拒绝申请用户确定子模块，用于将携带有所述申请特征为拒绝申请的所述申请用户确定为拒绝申请用户；

优选地，所述所述申请特征与所述还款特征可以同时具备。

优选地，如图4所示，在图3的基础上，预测模块305之后，还包括：

训练数据得到模块306，用于将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据，与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据；

用户违约概率预测模型训练模块307，用于基于所述训练数据训练用户违约概率预测模型。

本发明实施例提供的基于用户特征聚类的拒绝样本推断装置能够实现图1至图2的方法实施例的各个过程，为避免重复，这里不再赘述。

综上所述，在本发明实施例中，采集预设周期内申请用户的特征数据；所述特征数据包括申请特征及还款特征；所述申请特征包括拒绝申请、通过申请，所述还款特征包括正常还款、违约还款；将所述申请用户的特征数据转换为特征向量；基于所述特征向量对所述申请用户进行聚类，得到多个分类簇；计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心；根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征。实现了通过计算聚类后的拒绝申请用户数据，与通过申请用户数据中正常还款和违约还款类簇中心距离的方式，而为拒绝申请用户进行还款特征预测的目的，进而对所有用户进行实现还款特征标记，克服了现有技术中用部分带标签的拒绝样本估计总体拒绝样本标签而导致的标记存在偏差问题，提高了拒绝用户还款特征预测的精确度。

可选的，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于用户特征聚类的拒绝样本推断方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于特征聚类的拒绝申请用户推断方法，其特征在于，所述方法包括：

将所述申请用户的特征数据转换为特征向量；

2.根据权利要求1所述的方法，其特征在于，所述计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心，包括：

获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇，和包含所述还款特征为违约还款的第二类簇；

分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。

3.根据权利要求2所述的方法，其特征在于，所述根据拒绝申请用户所在分类簇与所述第一类簇中心，以及与所述第二类簇中心间的距离，预测拒绝申请用户的还款特征，包括：

将携带有所述申请特征为拒绝申请的所述申请用户确定为拒绝申请用户；

4.根据权利要求3所述的方法，其特征在于，还包括：

基于所述训练数据训练用户违约概率预测模型。

5.一种基于用户特征聚类的拒绝样本推断装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述类中心获取模块，包括：

7.根据权利要求6所述的装置，其特征在于，所述预测模块，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。