CN110458592A

CN110458592A - 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法

Info

Publication number: CN110458592A
Application number: CN201910525458.1A
Authority: CN
Inventors: 周家木
Original assignee: Beijing Sea - Induced Star Map Technology Co Ltd
Current assignee: Beijing Sea - Induced Star Map Technology Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-11-15
Anticipated expiration: 2039-06-18
Also published as: CN110458592B

Abstract

本发明提供了基于知识图谱和机器学习算法挖掘银行潜在授信客户方法，包括如下步骤：1、样本采集阶段；2、数据预处理阶段；3、模型训练阶段。本发明的优点在于：运用高效的XGBoost集成分类器训练潜在授信客户预测模型，挖掘出具有营销更高成功率的潜在授信客户，实现对客户进行精准营销；该发明的广泛应用和推广，将给予业务人员提供更加营销价值的授信客户，提高了一线业务人员的工作效率，为银行开展授信业务有着重大的意义和应用价值；首次将基于图谱提取特征的方式应用到潜在授信客户挖掘，从而推广了知识图谱的应用范围，更进一步地促进知识图谱的发展；对处理样本不均匀问题的解决具有良好效果。

Description

基于知识图谱和机器学习算法挖掘银行潜在授信客户方法

技术领域

本发明涉及一种挖掘银行潜在授信客户的方法，尤其是一种高效、精准、处理样本均匀的基于知识图谱和机器学习算法挖掘银行潜在授信客户方法。

背景技术

授信是企业向银行申请融资必须先取得的前置条件，是使用银行一般贷款、贸易融资、供应链产品的前提，优质的对公授信客户，粘性高，能够为银行带来利息和手续费收入。

当前银行发展授信客户主要途径有：一是客户有信贷需求直接到银行网点和客户经理咨询相关业务，这种称之为自来客户；二是银行网点信贷客户经理根据人际关系寻找授信客户；三是有专门的信贷业务人员通过撒网式地电话咨询或者登门拜访咨询客户是否有信贷业务需求。诚然，前两种获取授信客户的方式是行之有效的，而且能够转化为授信客户的概率是非常高的。然而这两种方式获取到的客户是非常有效的，显然不能够满足银行信贷业务发展的需要。第三种撒网式的咨询虽然能够接触到更多的客户，但是需要花费大量的人力物力，并且真正能转化为授信客户的少知之甚少。如何改变传统获取授信客户的营销方式，提高营销效率和准确度，在第一时间获取并提高优质授信客户的数量，基于企业知识图谱和机器学习相结合的挖掘模式提供了新的方法和思路。

近年来，随着大数据技术的快速发展和计算机运算的能力快速提升。机器学习以及深度学习技术在银行业使用越来越广发，并在很多应用场景取得了重大成果。例如Logistics回归、SVM、XGBoost、以及神经网络等模型在银行反欺诈系统取得良好的效果。其中XGBoost是一个高效、灵活和便携的机器学习系统，它是在Gradient Boosting框架下实现并行树提升集成方法，可以快速准确地解决许多数据科学问题。据了解，尽管高效集成的机器学习算法在银行也具有广泛的应用，但是在潜在授信客户挖掘相关应用相对较少，而且基于企业知识图谱关系特征挖掘的文献几乎没有。

发明内容

为解决上述问题，本发明提供了一种高效、精准、处理样本均匀的基于知识图谱和机器学习算法挖掘银行潜在授信客户方法。

基于知识图谱和机器学习算法挖掘银行潜在授信客户方法，包括如下步骤：

1、样本采集阶段

以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E，V)，顶点和各种边的属性分别为如下：

顶点属性：名称、是否行内客户；

控股关系边属性：持股金额、持股比例、开始时间、结束时间；

实际控制人关系边属性：开始时间、结束时间；

一致行动人边属性：开始时间、结束时间；

密切资金往来关系边属性：转账金额、转账时间；

密切票据交易关系边属性：票据金额、出票时间；

密切受托支付关系边属性：支付金额、支付时间；

根据节点一度邻居的关系构建特征，对于每一种关系，聚合邻居为银行存量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特征，其中各种关系构建的特征如下：

控股关系：

行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例，共10个特征；

实际控制人关系：

实际控制行内企业数量，共1个特征；

一致行动人：

与行内企业具有一致行动关系的客户数量，共1个特征；

密切资金往来关系：

资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数，共20个特征；

密切票据交易关系：

出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额，共5个特征；

密切受托支付关系：

受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数，共5个特征；

实体属性：是否为行内客户，共1个特征；

上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度，从直观上来看，一个非授信客户如果和行内客户的关系越密切，则该客户就更有可能是潜在的授信客户，这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个；

在选定特征之后，接下来构建样本集，由于本发明的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户，而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户，如果该企业在未来一段时间内能够成功授信，则说明该企业是潜在授信客户，否则为非潜在授信客户，因此对于每一个样本(企业)来说，分别定义观察期和表现期，其中观察期是企业过去历史图谱关联关系的特征，如控股、资金往来等表现情况，观察期取值时长为6个月；表现期指的是客户经过观察期之后，考察是否发生了授信行为(即是否首次授信)的时间段，表现期时长取值3个月；

具体采样步骤如下：

步骤1：选取近两年的企业关系图谱数据和信贷系统授信情况数据，按照月为单位对数据按时间轴进行切面，选取划分时点为每月1日，分别划分为24 个月的截面数据；

步骤2：对知识图谱中的每个企业A，在第7个月至第21个月，每月采样一次，特征值的计算方式如下：

求和类型特征：

企业A的所有行内邻居节点之间对应关系属性值之和；

平均类型特征：

企业A的所有行内邻居节点之间对应关系属性值平均值；

最大值类型特征：

企业A的所有行内邻居节点之间对应关系属性值最大值；

是否行内客户特征：

直接根据当前企业A的是否行内企业，如是取值1否则取值0；

例如，求图谱节点企业A在第7个月份采样时关于行内企业客户股东最大持股金额特征值的计算方式为：统计第1个月至第6个月内与企业A是一度邻居关系并且是行内企业的股东对企业A的投资金额总和，其他特征依次类推。从信贷系统数据中查找是否存在企业A在第7至第9个月内发生了首次授信，如果存在，y＝1(正样本)，否则y＝0(负样本)。于是就得到关于企业A的样本(x，y)

步骤3：对所有知识图谱中所有节点企业均按照步骤2进行采样，于是得到所有企业在不同时间点上对应43个特征值，以及对应的样本标签；

按照上述步骤进行采样，过滤掉所有特征值均为0的样本，最终得到正样本3866个，负样本4147952个；

2、数据预处理阶段

样本采样过程中得到的正负样本比例比较悬殊，正样本和负样本的比例是 1∶1072，正负样本不均衡会导致模型对比例大的样本造成过拟合，即预测偏向样本数较多的分类，尽管模型的准确率很高，但是范化能力很差，为了平衡正负样本对模型训练的影响，本发明分别使用smote对正样本进行过采样和 PU-Learning对负样本进行下采样；

smote算法是基于类似“插值”来为少数类合成新的样本，对少数类中每个样本求其k-近邻，通过k-近邻与当前样本生成新样本，由于特征中涉及到 0-1特征，该特征不能直接通过原有值基础上加上微小随机扰动来产生新值，所以smote算法并不能直接使用，本发明对smote算法进行改进，将分类型特征单独处理，改进的smote算法如下：

输入：样本集A，，最近邻个数K，扩充倍数N；

输出：扩充后的新样本；

1)初始化B＝A；

2)取A中样本i，对应的特征向量为π_i＝(π_i1，π_i2，...，π_im)，计算样本i与样本集B中所有样本关于特征向量的欧式距离，即距离计算公式为：

3)选择距离距离值最小的的K个值{d₁，d₂，...，d_K}；

4)从距离集合{d₁，d₂，...，d_K}中随机选择一个数据d_k，再生成随机数合成新样本n，其特征：π_n＝(π_n1，π_n2，...，π_nm)，其中

5)R＝R∪{i，n}；

6)重复4)-5)步骤N次，A＝A\{i}；

7)如果返回2)，否则返回集合R并退出；

PU-Learning技术是在给定正样本和无标签样本的情况下，通过使用正样本 (P)和无标签样本(U)建立一个分类器能够辨别U或测试集中的正样本，本发明中采样到的负样本当中，由于受限于数据完备性，在样本构建时把没有进行任何营销的未授信企业都当做负样本，因此这样构建得到的负样本是掺杂有部分正样本，也就是说得到的负样本是不纯的，这主要是因为在采样过程中只要没有授信的客户都把它当成了负样本，事实上有部分未授信的客户是从来没有提过申请或者没有做过营销，并不知道其是否真的不能授信，因此本发明把采样得到的负样本当做未标注样本，通过基于XGBoost分类模型PU-Learning 技术将负样本进行提纯，使得负样本更加可靠。其算法过程为：

1)先用正样本(positive)与未标注样本(或者称作无标签样本 Unlabel)训练XGBoost分类器；

2)根据训练得到的分类器对未标注样本进行分类；

3)把分类为负样本的样本作为可靠的负样本；

4)把剩下的未标注样本与正样本再训练分类器，不断重复1-3过程，直至没有更多可靠负样本；

在对数据进行平衡正负样本之前，先将第21个月采样的数据取出来留作模型验证样本，其中正样本406例，负样本356928例，其余剩下的样本(正样本3460例，负样本3791024例)进行smote和PU-Learning平衡正负实例；

对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本，其中分类器模型选用XGBoost分类器，参数设置为：scale_pos_weight＝500， max_depth＝5，silent＝0，objective＝binary：logistic，lambda＝2.5， rate_drop＝0.5，alpha＝1，eta＝0.1，对3460例正样本通过smote生成正样本，参数最近邻个数K＝10，扩充倍数N＝130，最后得到正样本数量为：453260；

3、模型训练阶段

本发明选用XGBoost集成分类器训练模型，对处理后的样本进行训练，参数如下：

eta(学习率)：0.1

max_depth(树最大深度)：5

objective(学习任务)：binary：logistic

alpha(L1正则项权重)：1

lambda(L2正则项权重)：2.5

rate_drop(剪枝比率)：0.5

tree_num(训练树数量)：20

其他参数设为默认值。

本发明的优点在于：

基于企业知识图谱和机器学习算法相结合挖掘银行潜在授信客户的方法，利用将与企业相关的结构化关系数据构建企业知识图谱，再结合信贷系统授信历史记录构建样本；运用高效的XGBoost集成分类器训练潜在授信客户预测模型，挖掘出具有营销更高成功率的潜在授信客户，实现对客户进行精准营销；该发明的广泛应用和推广，将给予业务人员提供更加营销价值的授信客户，提高了一线业务人员的工作效率，为银行开展授信业务有着重大的意义和应用价值；

基于企业知识图谱节点间的关联关系提取特征，首次将基于图谱提取特征的方式应用到潜在授信客户挖掘，从而推广了知识图谱的应用范围，更进一步地促进知识图谱的发展；

在处理样本严重不均衡问题的时候，并非简单进行上采样或者下采样，而是运用smote和PU-Learning相结合的技术，对正样本采用基于XGBoost模型的smote技术进行采样，对负样本采用PU-Learning提取更加可靠的样本，该组合采样技术对处理样本不均匀问题的解决具有良好效果。

附图说明

图1为本专利的采样流程节点示意图

图2为本专利的企业知识图谱关系图

具体实施方式

如图1和图2所示，基于知识图谱和机器学习算法挖掘银行潜在授信客户方法，包括如下步骤：

1、样本采集阶段

顶点属性：名称、是否行内客户；

实际控制人关系边属性：开始时间、结束时间；

一致行动人边属性：开始时间、结束时间；

密切资金往来关系边属性：转账金额、转账时间；

密切票据交易关系边属性：票据金额、出票时间；

密切受托支付关系边属性：支付金额、支付时间；

控股关系：

实际控制人关系：

实际控制行内企业数量，共1个特征；

一致行动人：

与行内企业具有一致行动关系的客户数量，共1个特征；

密切资金往来关系：

密切票据交易关系：

密切受托支付关系：

实体属性：是否为行内客户，共1个特征；

具体采样步骤如下：

求和类型特征：

企业A的所有行内邻居节点之间对应关系属性值之和；

平均类型特征：

企业A的所有行内邻居节点之间对应关系属性值平均值；

最大值类型特征：

企业A的所有行内邻居节点之间对应关系属性值最大值；

是否行内客户特征：

直接根据当前企业A的是否行内企业，如是取值1否则取值0；

2、数据预处理阶段

输入：样本集A，，最近邻个数K，扩充倍数N；

输出：扩充后的新样本；

8)初始化B＝A；

9)取A中样本i，对应的特征向量为π_i＝{π_i1，π_i2，…，π_im)，计算样本i与样本集B 中所有样本关于特征向量的欧式距离，即距离计算公式为：

10)选择距离距离值最小的的K个值{d₁，d₂，…，d_K}；

11)从距离集合{d₁，d₂，…，d_K}中随机选择一个数据d_k，再生成随机数合成新样本n，其特征：π_n＝(π_n1，π_n2，…，π_nm)，其中

12)R＝R∪{i，n}；

13)重复4)-5)步骤N次，A＝A\{i}；

14)如果返回2)，否则返回集合R并退出；

5)先用正样本(positive)与未标注样本(或者称作无标签样本 Unlabel)训练XGBoost分类器；

6)根据训练得到的分类器对未标注样本进行分类；

7)把分类为负样本的样本作为可靠的负样本；

8)把剩下的未标注样本与正样本再训练分类器，不断重复1-3过程，直至没有更多可靠负样本；

3、模型训练阶段

eta(学习率)：0.1

max_depth(树最大深度)：5

objective(学习任务)：binary：logistic

alpha(L1正则项权重)：1

lambda(L2正则项权重)：2.5

rate_drop(剪枝比率)：0.5

tree_num(训练树数量)：20

其他参数设为默认值。

本发明的优点在于：

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神前提下，本领域普通工程技术人员对本发明技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.基于知识图谱和机器学习算法挖掘银行潜在授信客户方法，其特征在于，包括如下步骤：

1)、样本采集阶段

顶点属性：名称、是否行内客户；

实际控制人关系边属性：开始时间、结束时间；

一致行动人边属性：开始时间、结束时间；

密切资金往来关系边属性：转账金额、转账时间；

密切票据交易关系边属性：票据金额、出票时间；

密切受托支付关系边属性：支付金额、支付时间；

控股关系：

实际控制人关系：

实际控制行内企业数量，共1个特征；

一致行动人：

与行内企业具有一致行动关系的客户数量，共1个特征；

密切资金往来关系：

密切票据交易关系：

密切受托支付关系：

实体属性：是否为行内客户，共1个特征；

具体采样步骤如下：

步骤1：选取近两年的企业关系图谱数据和信贷系统授信情况数据，按照月为单位对数据按时间轴进行切面，选取划分时点为每月1日，分别划分为24个月的截面数据；

求和类型特征：

企业A的所有行内邻居节点之间对应关系属性值之和；

平均类型特征：

企业A的所有行内邻居节点之间对应关系属性值平均值；

最大值类型特征：

企业A的所有行内邻居节点之间对应关系属性值最大值；

是否行内客户特征：

直接根据当前企业A的是否行内企业，如是取值1否则取值0；

2)、数据预处理阶段

样本采样过程中得到的正负样本比例比较悬殊，正样本和负样本的比例是1∶1072，正负样本不均衡会导致模型对比例大的样本造成过拟合，即预测偏向样本数较多的分类，尽管模型的准确率很高，但是范化能力很差，为了平衡正负样本对模型训练的影响，本发明分别使用smote对正样本进行过采样和PU-Learning对负样本进行下采样；

smote算法是基于类似“插值”来为少数类合成新的样本，对少数类中每个样本求其k-近邻，通过k-近邻与当前样本生成新样本，由于特征中涉及到0-1特征，该特征不能直接通过原有值基础上加上微小随机扰动来产生新值，所以smote算法并不能直接使用，本发明对smote算法进行改进，将分类型特征单独处理，改进的smote算法如下：

输入：样本集A，，最近邻个数K，扩充倍数N；

输出：扩充后的新样本；

初始化B＝A；

取A中样本i，对应的特征向量为π_i＝(π_i1，π_i2，...，π_im)，计算样本i与样本集B中所有样本关于特征向量的欧式距离，即距离计算公式为：

选择距离距离值最小的的K个值{d₁，d₂，...，d_K}；

从距离集合{d₁，d₂，...，d_K}中随机选择一个数据d_k，再生成随机数合成新样本n，其特征：π_n＝(π_n1，π_n2，...，π_nm)，其中

R＝R∪{i，n}；

重复4)-5)步骤N次，A＝A\{i}；

如果返回2)，否则返回集合R并退出；

PU-Learning技术是在给定正样本和无标签样本的情况下，通过使用正样本(P)和无标签样本(U)建立一个分类器能够辨别U或测试集中的正样本，本发明中采样到的负样本当中，由于受限于数据完备性，在样本构建时把没有进行任何营销的未授信企业都当做负样本，因此这样构建得到的负样本是掺杂有部分正样本，也就是说得到的负样本是不纯的，这主要是因为在采样过程中只要没有授信的客户都把它当成了负样本，事实上有部分未授信的客户是从来没有提过申请或者没有做过营销，并不知道其是否真的不能授信，因此本发明把采样得到的负样本当做未标注样本，通过基于XGBoost分类模型PU-Learning技术将负样本进行提纯，使得负样本更加可靠。其算法过程为：

先用正样本(positive)与未标注样本(或者称作无标签样本Unlabel)训练XGBoost分类器；

根据训练得到的分类器对未标注样本进行分类；

把分类为负样本的样本作为可靠的负样本；

把剩下的未标注样本与正样本再训练分类器，不断重复1-3过程，直至没有更多可靠负样本；

对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本，其中分类器模型选用XGBoost分类器，参数设置为：scale_pos_weight＝500，max_depth＝5，silent＝0，objective＝binary：logistic，lambda＝2.5，rate_drop＝0.5，alpha＝1，eta＝0.1，对3460例正样本通过smote生成正样本，参数最近邻个数K＝10，扩充倍数N＝130，最后得到正样本数量为：453260；

3)、模型训练阶段

eta(学习率)：0.1

max_depth(树最大深度)：5

objective(学习任务)：binary：logistic alpha(L1正则项权重)：1

lambda(L2正则项权重)：2.5

rate_drop(剪枝比率)：0.5

tree_num(训练树数量)：20

其他参数设为默认值。