CN110728301A

CN110728301A - 一种个人用户的信用评分方法、装置、终端及存储介质

Info

Publication number: CN110728301A
Application number: CN201910848395.3A
Authority: CN
Inventors: 于文
Original assignee: Beijing Radium Technology Co Ltd
Current assignee: Beijing Radium Technology Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-24

Abstract

本发明公开了一种个人用户的信用评分方法、装置、终端及存储介质，该方法包括步骤：采集用户数据，所述用户数据包括运营商数据、电商数据、信用卡账单数据和社保公积金数据中的至少一种；通过特征工程技术对所述用户数据进行处理，生成有效特征向量集；通过LR和GBDT组合模型对所述有效特征向量集进行训练，确定特征的权重值；基于所述权重值，确定信用评分值。本发明提供的个人用户的信用评分方法、装置、终端及存储介质，实现用户信用评分的客观化和准确化。

Description

一种个人用户的信用评分方法、装置、终端及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种个人用户的信用评分方法、装置、终端及存储介质。

背景技术

个人用户的信用评分是现代社会信用消费的保障和基础，可以被广泛地应用于个人信贷、信用卡、保险理赔等金融业务中，为信用政策的制定、分析、评估、优化提供量化支持。

个人用户的信用评分的获得，可以是通过对个人用户的信息进行量化计算得出信用分值，能够用于定量评估个人用户的信用风险。

但是现有的信用评分通常只是根据用户填写的一些信息来进行评定，一次评定得出结果，不够客观和充分，出错几率较大。

发明内容

本发明提供一种个人用户的信用评分方法、装置、终端及存储介质，实现用户信用评分的客观化和准确化。

第一方面，本发明实施例提供了一种个人用户的信用评分方法，包括步骤：

采集用户数据，所述用户数据包括运营商数据、电商数据、信用卡账单数据和社保公积金数据中的至少一种；

通过特征工程技术对所述用户数据进行处理，生成有效特征向量集；

通过LR和GBDT组合模型对所述有效特征向量集进行训练，确定特征的权重值；

基于所述权重值，确定信用评分值。

优选地，在所述通过LR和GBDT组合模型对所述有效特征向量集进行训练，确定特征的权重值之后还包括步骤：通过曲线函数对所述权重值进行有效性筛选，得到有效权重值，对应的，基于所述有效权重值，确定信用评分值。优选地，所述通过曲线函数对所述权重值进行有效性筛选，得到有效权重值，具体为：所述曲线函数包括ROC曲线和KS曲线，通过所述ROC曲线判定在第一阈值区间范围内的所述权重值保留，通过所述KS曲线判定大于第二阈值的所述权重值保留，所述保留的权重值构成所述有效权重值。

优选地，所述基于所述有效权重值，确定信用评分值，具体为：对所述有效权重值加和得到信用评分值。

优选地，所述通过特征工程技术对所述用户数据进行处理，生成有效特征向量集，具体为：对所述用户数据进行特征提取、特征预处理以及特征筛选确定有效特征向量集，所述特征预处理具体为缺失值处理、离散特征聚类和连续特征分bin中的至少一种。

优选地，所述通过LR和GBDT组合模型对所述有效特征向量集进行训练，具体为：以预设时间内的用户数据作为样本集和测试集，对LR和GBDT组合模型进行训练和测试，确定LR和GBDT组合模型，以所述确定的LR和GBDT组合模型对所述有效特征向量集进行训练。

优选地，还包括步骤：根据所述信用评分值对所述有效特征向量集进行调整，对所述LR和GBDT组合模型的参数进行调整，通过所述调整后的有效特征向量集和所述LR和GBDT组合模型重新确定信用评分值。

第二方面，本发明实施例提供了一种个人用户的信用评分装置，包括：

采集模块，用于采集用户数据，所述用户数据包括运营商数据、电商数据、信用卡账单数据和社保公积金数据中的至少一种；

向量集生成模块，用于通过特征工程技术对所述用户数据进行处理，生成有效特征向量集；

权重值确定模块，用于通过LR和GBDT组合模型对所述有效特征向量集进行训练，确定特征的权重值；

评分值确定模块，用于基于所述权重值，确定信用评分值。

第三方面，本发明实施例提供了一种终端，包括：一个或多个处理器、一个或多个存储器；所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行上述所述的个人用户的信用评分方法。

第四方面，本发明实施例提供了一种计算机存储介质，其上存储计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如上述所述的个人用户的信用评分方法。

采用上述技术方案，通过采集用户数据，包括运营商数据、电商数据、信用卡账单数据和社保公积金数据中的至少一种，通过特征工程技术对这些用户数据进行处理，生成有效特征向量集，通过LR和GBDT组合模型对有效特征向量集进行训练，确定特征的权重值，基于该权重值，确定信用评分值，从而通过机器学习的方式实现了用户信用评分的客观化和准确化。

附图说明

图1为本发明实施例提供的个人用户的信用评分方法的流程图；

图2为本发明实施例提供的个人用户的信用评分装置的结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

第一方面，如图1所示，本发明实施例提供了一种个人用户的信用评分方法，具体步骤如下：

步骤S101、采集用户数据，用户数据包括运营商数据、电商数据、信用卡账单数据和社保公积金数据中的至少一种；

在金融场景下，用户从拿到借款到有还款表现，周期往往是以月计。有些场景下要等半年甚至一年以上的表现周期，才可以充分观察到信贷人群的实际表现。从而一个模型或策略至少要等几个月甚至一年以上才能评估其实际效果。因此，在金融场景下，对算法的稳定性要求更高，模型分析人员更倾向于捕捉长期稳定有效的特征，一些实时热点类的话题反而不适合放到模型中。

对样本标签的定义，需要与实际业务场景、政策目标相一致，并综合考虑样本量、业务历史等的需要。如在现金分期场景中，如果画一下用户回款率和逾期天数趋势分布曲线，用户逾期30天以后回款率便已经趋于稳定，因此可以30天以上逾期为筛选坏样本的依据。在某些场景下，如曾经的Payday Loan，由于整个业务周期只有半月或1个月，为加快模型迭代速度，有时甚至会定义7+甚至1+逾期用户为坏客户。出于坏账计提考虑，可能定义90天以上逾期为坏客户。

在实际项目中，综合考虑业务发展历史和建模目标，选取合适的建模样本集，是影响模型效果的关键因素之一。建模人员有必要提前了解、沟通样本时段中的关键政策变化，市场环境波动及产品结构调整等因素，并充分考虑到这些因素对样本结构的影响。

对金融场景来说，观察周期越长，样本表现越充分。但同时也说明样本产生时间距离现在越久远，从而一些近期发生的市场变动便不能被捕捉到。

数据仓库建设是建模准备工作中最基础，也是最耗时的步骤之一。数据质量好坏直接决定了抽取特征的有效性，是模型成功的关键因素。

在互金场景下，系统可利用的数据源通常包括用户自述基本资料、APP本地信息、授权抓取数据及第三方采购数据几大类。数据来源复杂且数据量大，有必要根据业务需求、数据性质及内在逻辑对数据进行归并、清洗，建立规范化的数据仓库。

其中，用户自述数据，除性别、年龄等少数信息外，诸如用户职业、收入水平等信息在申请过程中往往很难进行核验。一般不推荐在正式模型中使用这类无法核验真伪、且用户可随意修改的特征，以防止模型被有组织的hack而失效。第三方采购数据通常是结构化数据，可根据性价比及是否可回溯酌情采纳。

用户授权抓取数据通常是积累数据源中处理最耗时的数据来源。常用数据抓取项包括运营商、电商数据(包括支付宝、淘宝、京东等)、信用卡账单、社保公积金等。

这些数据的爬虫来源复杂多样，以运营商为例，不仅三大运营商的服务官网结构差异很大，甚至不同省份的运营商服务网站也各不相同。运营商数据的采集首先要进行不同来源数据的对齐，其次要根据对运营商业务的理解，对数据进行基本的清洗。如对手机号中的+86、86-、(86)等格式进行统一，同样是主叫、被叫，在不同省份/通信服务商的名称可能是主叫/被叫、呼入/呼出、本市主叫、异地被叫等，需要进行归一化处理。

步骤S102、通过特征工程技术对用户数据进行处理，生成有效特征向量集；

特征是数据中抽取出来的对结果预测有用的信息，可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。

特征工程的目的是筛选出更好的特征，获取更好的训练数据。因为好的特征具有更强的灵活性，可以用简单的模型做训练，更可以得到优秀的结果。

步骤S103、通过LR和GBDT组合模型对有效特征向量集进行训练，确定特征的权重值；

逻辑回归(Logistic Regression,LR)是传统机器学习中的一种分类模型，由于算法的简单和高效，在实际中应用非常广泛。

GBDT模型是一个集成模型，基分类器采用CART，集成方式为Gradient Boosting。

关于此两个模型的具体细节此处不再详细赘述。

一方面，由于金融领域对特征的可解释性要求会更高，通过LR或GBDT建模，比较容易直观得到每个特征在模型结果中的权重，并根据业务经验解释权重系数的合理性。另一方面，实际评分卡建模中，一般入模特征维度并不高。在低维度建模中，LR和GBDT已经可以取得比较可观的效果。

步骤S104、基于权重值，确定信用评分值。

优选地，在通过LR和GBDT组合模型对有效特征向量集进行训练，确定特征的权重值之后还包括步骤：通过曲线函数对权重值进行有效性筛选，得到有效权重值，对应的，基于有效权重值，确定信用评分值。

优选地，通过曲线函数对权重值进行有效性筛选，得到有效权重值，具体为：曲线函数包括ROC曲线和KS曲线，通过所述ROC曲线判定在第一阈值区间范围内的所述权重值保留，通过所述KS曲线判定大于第二阈值的所述权重值保留，所述保留的权重值构成所述有效权重值。

接受者操作特性曲线(receiver operating characteristic curve，简称ROC曲线)，又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚惊概率为横轴，击中概率为纵轴所组成的坐标图，和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

ROC曲线是评判一个模型好坏的标准，有两个值要知道，FPR(假正率)和TPR(真正率)，ROC曲线就是以这两个值为坐标轴画的。比如逻辑回归得到的结果是概率，那么就要取阈值来划分正负，这时候，每划一个阈值，就会产生一组FPR和TPR的值，然后把这组值画成坐标轴上的一个点，这样，当选取多组阈值后，就形成了ROC曲线(每次选取一个不同的阈值，我们就可以得到一组FPR和TPR，即ROC曲线上的一点)，AUC值就是ROC曲线下方的面积。

KS(Kolmogorov-Smirnov)曲线的纵轴是表示TPR和FPR的值，就是这两个值可以同时在一个纵轴上体现，横轴就是阈值，然后在两条曲线分隔最开的地方，对应的就是最好的阈值，也是该模型最好的AUC值。

在本申请中，用通过模型算出来的值，画出对应的曲线，ROC曲线在区间[0.5,1.0]范围内，和符合KS曲线大于0.2，证明有效。

优选地，基于有效权重值，确定信用评分值，具体为：对有效权重值加和得到信用评分值。

优选地，通过特征工程技术对用户数据进行处理，生成有效特征向量集，具体为：对用户数据进行特征提取、特征预处理以及特征筛选确定有效特征向量集，特征预处理具体为缺失值处理、离散特征聚类和连续特征分bin中的至少一种。

特征提取就是从规范化的数据源中挖掘有效特征集合。可采取工程化的方法，从数据源中批量挖掘尽可能丰富的备选特征，然后从中选择有效特征。

下文以运营商类数据为例，详细列举特征提取的方法。

首先，数据源中通常可以直接解析出一些基本信息及统计类特征。如运营商中，在网时长、运营商账户星级、用户使用的套餐类型、套餐额度、月均消费金额、主/被叫次数、通话时长等特征。

其次，从标签分类角度。分析运营商类数据的结构，可发现其核心是详细的通话记录及短信发送记录。两类记录的结构类似，以通话记录为例，一个典型的通话记录包含如下信息：机主号码、对方号码、被叫号码归属地、主叫/被叫、本地/漫游、通话时长、通话时间和通话日期。

其中每个字段都可以从某个角度为特征工程提供依据。根据通话日期，可将通话记录划分为近7天、半月、近1月、近3月、近6月等时间窗口，也可按照具体日期划分为工作日、节假日等日期类别；根据通话时间，可将一天24小时划分为不同的时间片段，如凌晨(0-6点)、上午(7-12)、下午、晚上等；通话时长为连续类特征，可用来汇总通话时间。

通话对象的电话号码集合一般非常庞大，可对其进行归并处理。一种思路是按号码归属地划分，可区分出全国各省市的电话。另一种思路是对号码打标签，根据标签对号码进行聚类。如根据电话邦、百度手机卫士或搜狗号码通的标记，区分出骚扰电话、生活服务类电话、快递外卖类、金融机构电话等，甚至根据业务积累区分号码是否为黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况，可以从侧面反映用户的通话习惯和生活特点。对号码进行标签管理的前提，是需要维护一个足够全面、准确的黄页标签库。

由此，从黄页标签的思路，结合通话记录结构，我们可以设计一套黄页标签类特征衍生逻辑，总结如下：

以工程化方式，对上述不同维度之间做交叉，能够从通话数据中衍生出几千甚至上万维的黄页类特征，为后续建模提供丰富的备选特征集。

用户的通话记录也是用户社交关系的反映，可以从社交图谱的角度对运营商通话数据进行重构，得到一个庞大的通话社交关系网。

从而可利用Graph Mining相关技术，从通话图中挖掘特征。

1)利用社区聚类算法，从通话网络中挖掘中介团伙；

2)借鉴信息检索的链接分析，使用PageRank、HITS等算法，计算每个节点的社交权重；

3)标签传播：通话网络中一些节点在业务中已存在一些状态，如申请被拒、正常还款、逾期等。可利用Label Propagation算法，将节点状态在网络中进行传播。

以上，从不同角度审视运营商通话数据，可引申出不同种类的特征工程策略。从单一数据源中可挖掘出成千上万维特征。这些特征可能存在大量稀疏特征，且很多特征的稳定性或相关性并不能满足建模需求。但通过特征工程的挖掘，至少为后续建模提供了丰富的可选特征集。

对于其他维度的数据，比如客户的自身条件，年龄，学历，工作等，以及车相关的特征，车品牌，年限，评估价格，行驶里程等均按照同样的方法，建立特征。可以根据这些特征来确定用户信用如何，是否符合车贷条件等。

抽取的特征在放入模型之前，通常需要进行一些必要的预处理过程。此处仅简单介绍几个基本的预处理技术。

1)缺失值处理

对特征的缺失值，常用的几种处理策略是：特征分bin时将缺失值作为NA或单独一类；将缺失值取特征的中值、均值或众数填充；缺失值直接填充为0或-1；缺失值根据实际风险表现，填充为风险表现最接近的一类；

2)离散特征聚类

离散类，如省份区域等，直接使用类别取值会过于繁杂。可以考虑根据特征在不同取值处的风险表现，将风险表现接近的值聚为一类；

3)连续特征分bin

我们借鉴决策树的思路，每次选取使信息熵或信息增益最大的点，作为连续特征的分裂节点。另一种常用策略是，将连续特征空间细分为N个bin，合并相邻且坏账率接近的bin，直到整体分bin区间单调。

特征筛选

正式建模之前，一般会对特征工程挖掘到的特征集进行筛选，以选择相关性高、稳定性强的特征，作为入模变量。

常用特征筛选一般会考虑如下几方面：

1)特征覆盖率(cover rate)，选取覆盖率达到一定阈值的特征；

2)特征相关性：如根据特征本身的KS值、IV或卡方值，选择与建模label相关性高的特征；

3)特征稳定性：比如通过衡量特征的PSI，选择随时间波动性尽可能小的特征。

此外，还通过VIF、相关性系数等指标，排除特征之间的共线性。

优选地，通过LR和GBDT组合模型对有效特征向量集进行训练，具体为：为以预设时间内的数据作为样本集和测试集，对LR和GBDT组合模型进行训练和测试，确定LR和GBDT组合模型，以确定的LR和GBDT组合模型对有效特征向量集进行训练。

模型建立后，需要对模型的预测能力、稳定性进行评估。信用评分模型常用的评估指标为KS、AUC等。考虑到金融业务反馈周期长的特点，除了划分训练集、测试集外，还可以预留一段训练样本时间段之外的数据集，作为OOT(跨时间)集合，以测量模型在时间上的稳定性。

优选地，还包括步骤：根据信用评分值对有效特征向量集进行调整，对LR和GBDT组合模型的参数进行调整，通过调整后的有效特征向量集和LR和GBDT组合模型重新确定信用评分值。

具体地，可以按月提取最新的客户还款情况，将上述分析再做一遍，以找出偏差比较大的特征进行剔除，并且对现有评分卡模型进行再训练，调整，以不断适应新的市场情况。

第二方面，如图2所示，本发明实施例提供了一种个人用户的信用评分装置，包括：

采集模块21，用于采集用户数据，用户数据包括运营商数据、电商数据、信用卡账单数据和社保公积金数据中的至少一种；

向量集生成模块22，用于通过特征工程技术对用户数据进行处理，生成有效特征向量集；

权重值确定模块23，用于通过LR和GBDT组合模型对有效特征向量集进行训练，确定特征的权重值；

评分值确定模块24，用于基于权重值，确定信用评分值。

上述存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器用于存储执行本申请方案的应用程序代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，从而实现本专利方法中的功能。

在具体实现中，作为一种实施例，处理器可以包括一个或多个CPU。

在具体实现中，作为一种实施例，该终端可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

第四方面，本发明实施例提供了一种计算机存储介质，其上存储计算机指令，当所述计算机指令在终端上运行时，使得所述终端上执行如上述所述的个人用户的信用评分方法。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种个人用户的信用评分方法，其特征在于，包括步骤：

基于所述权重值，确定信用评分值。

2.根据权利要求1所述的个人用户的信用评分方法，其特征在于，在所述通过LR和GBDT组合模型对所述有效特征向量集进行训练，确定特征的权重值之后还包括步骤：通过曲线函数对所述权重值进行有效性筛选，得到有效权重值，对应的，基于所述有效权重值，确定信用评分值。

3.根据权利要求2所述的个人用户的信用评分方法，其特征在于，所述通过曲线函数对所述权重值进行有效性筛选，得到有效权重值，具体为：所述曲线函数包括ROC曲线和KS曲线，通过所述ROC曲线判定在第一阈值区间范围内的所述权重值保留，通过所述KS曲线判定大于第二阈值的所述权重值保留，所述保留的权重值构成所述有效权重值。

4.根据权利要求2所述的个人用户的信用评分方法，其特征在于，所述基于所述有效权重值，确定信用评分值，具体为：对所述有效权重值加和得到信用评分值。

5.根据权利要求1-4任一项所述的个人用户的信用评分方法，其特征在于，所述通过特征工程技术对所述用户数据进行处理，生成有效特征向量集，具体为：对所述用户数据进行特征提取、特征预处理以及特征筛选确定有效特征向量集，所述特征预处理具体为缺失值处理、离散特征聚类和连续特征分bin中的至少一种。

6.根据权利要求1-4任一项所述的个人用户的信用评分方法，其特征在于，所述通过LR和GBDT组合模型对所述有效特征向量集进行训练，具体为：以预设时间内的用户数据作为样本集和测试集，对LR和GBDT组合模型进行训练和测试，确定LR和GBDT组合模型，以所述确定的LR和GBDT组合模型对所述有效特征向量集进行训练。

7.根据权利要求1-4任一项所述的个人用户的信用评分方法，其特征在于，还包括步骤：根据所述信用评分值对所述有效特征向量集进行调整，对所述LR和GBDT组合模型的参数进行调整，通过所述调整后的有效特征向量集和所述LR和GBDT组合模型重新确定信用评分值。

8.一种个人用户的信用评分装置，其特征在于，包括：

评分值确定模块，用于基于所述权重值，确定信用评分值。

9.一种终端，其特征在于，包括：一个或多个处理器、一个或多个存储器；所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行如权利要求1-7任一项所述的个人用户的信用评分方法。

10.一种计算机存储介质，其特征在于，其上存储计算机指令，当所述计算机指令在终端上运行时，使得所述终端上执行如权利要求1-7任一项所述的个人用户的信用评分方法。