CN109583782A

CN109583782A - 支持多数据源的汽车金融风控模型

Info

Publication number: CN109583782A
Application number: CN201811493302.1A
Authority: CN
Inventors: 施铭铮; 刘占辉
Original assignee: Xiamen Pencil Head Information Technology Co Ltd
Current assignee: Xiamen Pencil Head Information Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-05
Anticipated expiration: 2038-12-07
Also published as: CN109583782B

Abstract

本发明公开了支持多数据源的汽车金融风控模型，所述支持多数据源的汽车金融风控模型的实现步骤如下：数据分类，模型训练，数据合并；所述模型训练包括以下步骤：数量确定、权重确定、偏置值设置、初始权重设置、Lw计算、权重标准化和循环，所述数据合并包括以下步骤：公共字段并入、单字段模型训练、单字段合并并入和结果模型训练，该支持多数据源的汽车金融风控模型设计合理，使能够包涵多家汽车融资租赁公司订单数据的平台成为可能。

Description

支持多数据源的汽车金融风控模型

技术领域

本发明是支持多数据源的汽车金融风控模型，属于汽车金融风控技术领域。

背景技术

现有的汽车金融风控模型只能分析一家公司的订单数据，不同的汽车融资租赁公司由于用的是不同的订单管理系统或者是由于业态不同，它们的订单数据都各不相同，其中有些基础字段是一致的，还有很多字段是相似但互不相同的，比如说贷前的订单申请流程可能包括客户申请、进件审批、担保审批、征信审核、车辆评估和通过审核并放款等，虽然描述的是同一个订单申请的过程，但在数据库的字段表示出来时却很可能是完全不一样的，也就是说两家公司的订单申请过程的数据是没办法直接合并的。

在汽车金融风控领域，订单数据是非常宝贵的，完全可以说对风控模型准确性起决定性作用的是输入风控模型的数据（订单）的数量和质量，而不是算法，所以尽量的合并不同公司的数据提高数据量是至关重要的，而现有的算法是做不到这一点的。

所以，发明一种能够收录来自不同汽车融资租赁公司的订单数据并且能够把不同公司的订单数据合并成一份数据的模型具有非常重要的意义，为此，本发明提出一种支持多数据源的汽车金融风控模型。

发明内容

针对现有技术存在的不足，本发明目的是提供支持多数据源的汽车金融风控模型，以解决上述背景技术中提出的问题，本发明设计合理，使能够包涵多家汽车融资租赁公司订单数据的平台成为可能。

为实现上述目的，本发明提供如下技术方案：支持多数据源的汽车金融风控模型，所述支持多数据源的汽车金融风控模型的实现步骤如下：

步骤一：数据分类；首先，把汽车金融风控模型分类成5个维度，即贷前数据、贷中数据、反欺诈数据、背景调查数据和历史消费还款数据，每个公司的字段会先分别归类到这5个维度中，每个维度的数据会继续细分，每个维度的数据分类确定后，对原始数据进行切割，首先对表进行横向切割（即按行切割），把不同公司的数据分开到不同的表中，接着再进行纵向切割（即按列切割），把同一公司不同类型的数据切割到相对较小的表中，数据切割完毕之后将会分别放入模型进行训练，每个维度数据的分类如下：

①：贷前数据；第一个维度是贷前数据，贷前数据包含公共数据、订单申请流程数据和订单申请结果数据：

（a）：贷前数据有较多的共有字段，因为贷前包含很多申请人的基础资料，提取贷前每个公司都共有的公共字段，另外，对汽车融资租赁公司的性质进行分类，对平台中的每一个公司按四个方面：车辆类型、车辆用途、渠道模式和租赁类型进行定性，并把这四个方面作为四个共有字段；

（b）：订单申请流程数据为贷前工单数据；

（c）：订单申请的结果即申请是通过还是拒绝，订单申请的结果是贷前数据的目标列，这里的目标列指的是机器学习中监督学习的目标列；

②：贷中数据；第二个维度是贷中数据，贷中数据又分为还款数据（这是时间序列数据）、车载GPS数据（时间序列数据）和贷中工单数据，贷中数据的目标列是还款数据，表示一个订单是正常还款还是已经逾期或坏账；

③：反欺诈数据；第三个维度是反欺诈数据，对于反欺诈，模型的侧重点是搭建人际关系网络，所以可以反映人与人之间关系的数据，比如通话记录，在模型中都被归类为反欺诈数据，对于反欺诈数据的训练是一个无监督学习的过程，所以在反欺诈数据中没有目标列；

④：背景调查数据；第四个维度是背景调查数据，背景调查数据分为不良信用记录、司法案例记录、网贷记录和多平台借贷记录等，用第二个维度的目标列，即还款数据，作为这个维度的目标列；

⑤：历史消费还款数据；第五个维度是历史消费还款数据，这个维度的数据主要来自与银联的消费和还款数据，同样的用第二个维度的目标列作为这个维度的目标列；

步骤二：模型训练；对步骤一中的5个维度分别做模型训练，第一、二、四、五个维度都是监督学习，只有第三个维度是无监督学习，对于反欺诈数据而言，以通话记录数据为例，对一个城市的几千万的通话记录进行数据挖掘，并建立人际关系网络，在这个关系网络中，每个人是一个点，如果两个人有通话记录，那么两个人代表的两个点之间就有一条连线，而每一条连线都是有权重的，权重越高代表两个人联系越紧密，连线的权重是和通话的频率和通话的时间（包括通话的时长和时间点）相关的，然后给人际关系网络中的每个人即每个节点赋上权重值，直观的说，一个有几百个联系人的节点应该会比一个只有几个联系人的节点的权重要高，算法的目标是计算出人际关系网络中每一个节点的最后权重，第三个维度的无监督学习的具体步骤如下：

①：数量确定；首先，确定人际关系网络节点的数量，假设有一千万（即10⁷）个节点，那么建一个10⁷X10⁷的矩阵L，并给矩阵中的每个元素设初始值为0；

②：权重确定；确定节点连线的权重，连线的权重将会保存在对应的矩阵元素中，这里要说明的是A联系B（记为A→B）和B联系A（记为B→A）是不一样的，并会被保存在各自的矩阵元素中，这里有一个规则是对于每一个节点，进入该节点的连线的权重之和必须等于1，比如说节点A收到来自节点B，C和D的通话次数分别是7次，2次和1次，那么进入节点A的连线的权重可被设为B→A：0.7，C→A：0.2，D→A：0.1，其中0.7+0.2+0.1=1；

③：偏置值设置；权重确定完成后，矩阵L中还有大量的零值元素，对所有的零值元素设置一个很小的偏置值；

④：初始权重设置；由于目标是确定人际关系网络中节点的最后权重，但是一开始节点的权重是未知的，因此给所有节点设置一个初始权重，最直接的方法是先给每个节点设置相同的权重，这里同样需要遵守的一个规则就是所有节点的权重之和等于1，这样对于10⁷个节点，给每个节点设置的权重值为10^-7，最后得到一个1X10⁷的向量w；

⑤：Lw计算；计算Lw并得到一个新的权重向量，把新的权重向量再次赋值给w，记为w=Lw，其中Lw是矩阵L和向量w的内积；

⑥：权重标准化；对新的权重向量w进行标准化，即让权重向量w中的元素之和等于1，把标准化后的权重向量赋值给w，记为w=w/sum（w）；

⑦：循环；循环⑤和⑥直到收敛，所述收敛指的是两次迭代计算得到的权重向量w之差低于一个预设的阈值；

步骤三：数据合并；不同公司的数据可分为公共字段和独有字段，独有字段比公共字段要多很多，不同公司的独有字段的字段名称和含义都是各不相同的，公共字段能够直接合并，独有字段不能直接合并，否则会导致无法建模的，将不同公司的公共字段和独有字段分别建表，然后建一张总表，记为z，数据合并的步骤如下：

①：公共字段并入；将不同公司的公共字段表直接并入表z；

②：单字段模型训练；对不同公司的独有字段表进行模型训练；

③：单字段合并并入；将不同公司的同一类型的独有字段表的模型训练结果字段合并放入表z的同一个字段，最后的结果将是包含所有公共字段和所有分类数据输出字段的表z；

④：结果模型训练；将表z会被放入模型进行训练得到输出字段，总表z输入模型训练后得到的结果不一定是最后的结果，这个总表可能是上一层模型的一个子表，根据实际的建模需求，数据很可能被分为多层，比如3，4，或5层等，这里只描述了一个两层的结构以简化讨论且不失一般性。

一实施例中：所述步骤二中的无监督学习算法是对谷歌的PageRank算法的修改和简化。

一实施例中：所述步骤二中对于矩阵运算Lw可以很方便的进行并行计算，方法是对L和w进行切割，并分成许多子矩阵块（向量也可看作是矩阵），这些子矩阵块可以分配到集群的各个计算机中进行计算，计算的子结果再合并成最后的结果。

一实施例中：所述步骤一的（c）中，对订单申请的审批带有人为的主观或经验因素，现在把一个汽车融资租赁公司的所有订单放在一起考虑，如果这个公司最后所有审批通过的订单的逾期和坏账率较高的话，这反映了订单审批人员的决策质量较低，而各个公司订单审批人员的决策质量也会被迭代计算并作为模型的权重，最后反映到风控报告中，订单审批人员的决策的质量反映在数据里面，而当所有公司的数据合并后，决策质量的高低就可以被比较出来，决策质量较高的公司就可以起到被其他公司学习和借鉴的作用。

采用上述技术方案后，一方面，使能够包涵多家汽车融资租赁公司订单数据的平台成为可能，能够汇聚多家公司的订单数据成为一个较大的数据仓库，有效的提高风控模型的数据（订单）的数量和质量；

另一方面，对于中小型公司，比如订单量只有几千个到上万个的公司，它们的订单量是不足够自己独立建一个准确的风控模型的，而有了这个平台以后，它们的订单就可以合并，合并后的数据量就足够搭建一个准确率较高的模型；

此外，对于那些刚成立的大型汽车融资租赁公司来说，因为刚成立的公司的订单量是从零开始的，如果它们要自己搭建一个风控模型的话，因为没有历史数据，模型的准确率将会是很低的，这个被称为风控模型的冷启动问题，如果刚成立的公司使用此支持多数据源的汽车金融风控模型的话就不会存在冷启动问题。

附图说明

图1为本发明支持多数据源的汽车金融风控模型的实现步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供支持多数据源的汽车金融风控模型，所述支持多数据源的汽车金融风控模型的实现步骤如下：

（b）：订单申请流程数据为贷前工单数据；

①：公共字段并入；将不同公司的公共字段表直接并入表z；

本实施例中，所述步骤二中的无监督学习算法是对谷歌的PageRank算法的修改和简化。

进一步的，所述步骤二中对于矩阵运算Lw可以很方便的进行并行计算，方法是对L和w进行切割，并分成许多子矩阵块（向量也可看作是矩阵），这些子矩阵块可以分配到集群的各个计算机中进行计算，计算的子结果再合并成最后的结果。

通过以上结构，在此支持多数据源的汽车金融风控模型应用后，一方面，使能够包涵多家汽车融资租赁公司订单数据的平台成为可能，能够汇聚多家公司的订单数据成为一个较大的数据仓库，有效的提高风控模型的数据（订单）的数量和质量，另一方面，对于中小型公司，比如订单量只有几千个到上万个的公司，它们的订单量是不足够自己独立建一个准确的风控模型的，而有了这个平台以后，它们的订单就可以合并，合并后的数据量就足够搭建一个准确率较高的模型。

优选的，本实施例还具有以下配置，所述步骤一的（c）中，对订单申请的审批带有人为的主观或经验因素，现在把一个汽车融资租赁公司的所有订单放在一起考虑，如果这个公司最后所有审批通过的订单的逾期和坏账率较高的话，这反映了订单审批人员的决策质量较低，而各个公司订单审批人员的决策质量也会被迭代计算并作为模型的权重，最后反映到风控报告中，订单审批人员的决策的质量反映在数据里面，而当所有公司的数据合并后，决策质量的高低就可以被比较出来，决策质量较高的公司就可以起到被其他公司学习和借鉴的作用。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.支持多数据源的汽车金融风控模型，其特征在于，所述支持多数据源的汽车金融风控模型的实现步骤如下：

（b）：订单申请流程数据为贷前工单数据；

①：公共字段并入；将不同公司的公共字段表直接并入表z；

2.根据权利要求1所述的支持多数据源的汽车金融风控模型，其特征在于：所述步骤二中的无监督学习算法是对谷歌的PageRank算法的修改和简化。

3.根据权利要求1所述的支持多数据源的汽车金融风控模型，其特征在于：所述步骤二中对于矩阵运算Lw可以很方便的进行并行计算，方法是对L和w进行切割，并分成许多子矩阵块（向量也可看作是矩阵），这些子矩阵块可以分配到集群的各个计算机中进行计算，计算的子结果再合并成最后的结果。

4.根据权利要求1所述的支持多数据源的汽车金融风控模型，其特征在于：所述步骤一的（c）中，对订单申请的审批带有人为的主观或经验因素，现在把一个汽车融资租赁公司的所有订单放在一起考虑，如果这个公司最后所有审批通过的订单的逾期和坏账率较高的话，这反映了订单审批人员的决策质量较低，而各个公司订单审批人员的决策质量也会被迭代计算并作为模型的权重，最后反映到风控报告中，订单审批人员的决策的质量反映在数据里面，而当所有公司的数据合并后，决策质量的高低就可以被比较出来，决策质量较高的公司就可以起到被其他公司学习和借鉴的作用。