CN110458592A - 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 - Google Patents
基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 Download PDFInfo
- Publication number
- CN110458592A CN110458592A CN201910525458.1A CN201910525458A CN110458592A CN 110458592 A CN110458592 A CN 110458592A CN 201910525458 A CN201910525458 A CN 201910525458A CN 110458592 A CN110458592 A CN 110458592A
- Authority
- CN
- China
- Prior art keywords
- sample
- client
- row
- relationship
- credit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,包括如下步骤:1、样本采集阶段;2、数据预处理阶段;3、模型训练阶段。本发明的优点在于:运用高效的XGBoost集成分类器训练潜在授信客户预测模型,挖掘出具有营销更高成功率的潜在授信客户,实现对客户进行精准营销;该发明的广泛应用和推广,将给予业务人员提供更加营销价值的授信客户,提高了一线业务人员的工作效率,为银行开展授信业务有着重大的意义和应用价值;首次将基于图谱提取特征的方式应用到潜在授信客户挖掘,从而推广了知识图谱的应用范围,更进一步地促进知识图谱的发展;对处理样本不均匀问题的解决具有良好效果。
Description
技术领域
本发明涉及一种挖掘银行潜在授信客户的方法,尤其是一种高效、精准、 处理样本均匀的基于知识图谱和机器学习算法挖掘银行潜在授信客户方法。
背景技术
授信是企业向银行申请融资必须先取得的前置条件,是使用银行一般贷 款、贸易融资、供应链产品的前提,优质的对公授信客户,粘性高,能够为银 行带来利息和手续费收入。
当前银行发展授信客户主要途径有:一是客户有信贷需求直接到银行网点 和客户经理咨询相关业务,这种称之为自来客户;二是银行网点信贷客户经理 根据人际关系寻找授信客户;三是有专门的信贷业务人员通过撒网式地电话咨 询或者登门拜访咨询客户是否有信贷业务需求。诚然,前两种获取授信客户的 方式是行之有效的,而且能够转化为授信客户的概率是非常高的。然而这两种 方式获取到的客户是非常有效的,显然不能够满足银行信贷业务发展的需要。 第三种撒网式的咨询虽然能够接触到更多的客户,但是需要花费大量的人力物 力,并且真正能转化为授信客户的少知之甚少。如何改变传统获取授信客户的 营销方式,提高营销效率和准确度,在第一时间获取并提高优质授信客户的数 量,基于企业知识图谱和机器学习相结合的挖掘模式提供了新的方法和思路。
近年来,随着大数据技术的快速发展和计算机运算的能力快速提升。机器 学习以及深度学习技术在银行业使用越来越广发,并在很多应用场景取得了重 大成果。例如Logistics回归、SVM、XGBoost、以及神经网络等模型在银行反 欺诈系统取得良好的效果。其中XGBoost是一个高效、灵活和便携的机器学习 系统,它是在Gradient Boosting框架下实现并行树提升集成方法,可以快速 准确地解决许多数据科学问题。据了解,尽管高效集成的机器学习算法在银行 也具有广泛的应用,但是在潜在授信客户挖掘相关应用相对较少,而且基于企 业知识图谱关系特征挖掘的文献几乎没有。
发明内容
为解决上述问题,本发明提供了一种高效、精准、处理样本均匀的基于知 识图谱和机器学习算法挖掘银行潜在授信客户方法。
基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,包括如下步 骤:
1、样本采集阶段
以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、 密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E,V),顶点和 各种边的属性分别为如下:
顶点属性:名称、是否行内客户;
控股关系边属性:持股金额、持股比例、开始时间、结束时间;
实际控制人关系边属性:开始时间、结束时间;
一致行动人边属性:开始时间、结束时间;
密切资金往来关系边属性:转账金额、转账时间;
密切票据交易关系边属性:票据金额、出票时间;
密切受托支付关系边属性:支付金额、支付时间;
根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存 量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特 征,其中各种关系构建的特征如下:
控股关系:
行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户 股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均 持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行 内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自 然人客户股东平均持股比例,共10个特征;
实际控制人关系:
实际控制行内企业数量,共1个特征;
一致行动人:
与行内企业具有一致行动关系的客户数量,共1个特征;
密切资金往来关系:
资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、 资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行 内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大 入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内 自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大 出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内 公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出 账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自 然人客户平均出账笔数,共20个特征;
密切票据交易关系:
出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、 平均票据金额,共5个特征;
密切受托支付关系:
受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收 款金额、平均收款笔数,共5个特征;
实体属性:是否为行内客户,共1个特征;
上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲 密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该 客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节 点自身的特征总共43个;
在选定特征之后,接下来构建样本集,由于本发明的目的是根据该企业的 历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是 否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果 该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则 为非潜在授信客户,因此对于每一个样本(企业)来说,分别定义观察期和表 现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等 表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考 察是否发生了授信行为(即是否首次授信)的时间段,表现期时长取值3个月;
具体采样步骤如下:
步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月 为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24 个月的截面数据;
步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样 一次,特征值的计算方式如下:
求和类型特征:
企业A的所有行内邻居节点之间对应关系属性值之和;
平均类型特征:
企业A的所有行内邻居节点之间对应关系属性值平均值;
最大值类型特征:
企业A的所有行内邻居节点之间对应关系属性值最大值;
是否行内客户特征:
直接根据当前企业A的是否行内企业,如是取值1否则取值0;
例如,求图谱节点企业A在第7个月份采样时关于行内企业客户股东最 大持股金额特征值的计算方式为:统计第1个月至第6个月内与企业A是一度 邻居关系并且是行内企业的股东对企业A的投资金额总和,其他特征依次类推。 从信贷系统数据中查找是否存在企业A在第7至第9个月内发生了首次授信, 如果存在,y=1(正样本),否则y=0(负样本)。于是就得到关于企业A的样 本(x,y)
步骤3:对所有知识图谱中所有节点企业均按照步骤2进行采样,于是 得到所有企业在不同时间点上对应43个特征值,以及对应的样本标签;
按照上述步骤进行采样,过滤掉所有特征值均为0的样本,最终得到正样 本3866个,负样本4147952个;
2、数据预处理阶段
样本采样过程中得到的正负样本比例比较悬殊,正样本和负样本的比例是 1∶1072,正负样本不均衡会导致模型对比例大的样本造成过拟合,即预测偏 向样本数较多的分类,尽管模型的准确率很高,但是范化能力很差,为了平衡 正负样本对模型训练的影响,本发明分别使用smote对正样本进行过采样和 PU-Learning对负样本进行下采样;
smote算法是基于类似“插值”来为少数类合成新的样本,对少数类中每 个样本求其k-近邻,通过k-近邻与当前样本生成新样本,由于特征中涉及到 0-1特征,该特征不能直接通过原有值基础上加上微小随机扰动来产生新值, 所以smote算法并不能直接使用,本发明对smote算法进行改进,将分类型特 征单独处理,改进的smote算法如下:
输入:样本集A,,最近邻个数K,扩充倍数N;
输出:扩充后的新样本;
1)初始化B=A;
2)取A中样本i,对应的特征向量为πi=(πi1,πi2,...,πim),计算样本i与样本集B中所有样本关于特征向量的欧式距离,即距离计算公式为:
3)选择距离距离值最小的的K个值{d1,d2,...,dK};
4)从距离集合{d1,d2,...,dK}中随机选择一个数据dk,再生成随机数合成新样本n,其特征:πn=(πn1,πn2,...,πnm),其中
5)R=R∪{i,n};
6)重复4)-5)步骤N次,A=A\{i};
7)如果返回2),否则返回集合R并退出;
PU-Learning技术是在给定正样本和无标签样本的情况下,通过使用正样本 (P)和无标签样本(U)建立一个分类器能够辨别U或测试集中的正样本,本 发明中采样到的负样本当中,由于受限于数据完备性,在样本构建时把没有进 行任何营销的未授信企业都当做负样本,因此这样构建得到的负样本是掺杂有 部分正样本,也就是说得到的负样本是不纯的,这主要是因为在采样过程中只 要没有授信的客户都把它当成了负样本,事实上有部分未授信的客户是从来没 有提过申请或者没有做过营销,并不知道其是否真的不能授信,因此本发明把 采样得到的负样本当做未标注样本,通过基于XGBoost分类模型PU-Learning 技术将负样本进行提纯,使得负样本更加可靠。其算法过程为:
1)先用正样本(positive)与未标注样本(或者称作无标签样本 Unlabel)训练XGBoost分类器;
2)根据训练得到的分类器对未标注样本进行分类;
3)把分类为负样本的样本作为可靠的负样本;
4)把剩下的未标注样本与正样本再训练分类器,不断重复1-3过程, 直至没有更多可靠负样本;
在对数据进行平衡正负样本之前,先将第21个月采样的数据取出来留作 模型验证样本,其中正样本406例,负样本356928例,其余剩下的样本(正 样本3460例,负样本3791024例)进行smote和PU-Learning平衡正负实例;
对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本, 其中分类器模型选用XGBoost分类器,参数设置为:scale_pos_weight=500, max_depth=5,silent=0,objective=binary:logistic,lambda=2.5, rate_drop=0.5,alpha=1,eta=0.1,对3460例正样本通过smote生成正样本, 参数最近邻个数K=10,扩充倍数N=130,最后得到正样本数量为:453260;
3、模型训练阶段
本发明选用XGBoost集成分类器训练模型,对处理后的样本进行训练,参 数如下:
eta(学习率):0.1
max_depth(树最大深度):5
objective(学习任务):binary:logistic
alpha(L1正则项权重):1
lambda(L2正则项权重):2.5
rate_drop(剪枝比率):0.5
tree_num(训练树数量):20
其他参数设为默认值。
本发明的优点在于:
基于企业知识图谱和机器学习算法相结合挖掘银行潜在授信客户的方法, 利用将与企业相关的结构化关系数据构建企业知识图谱,再结合信贷系统授信 历史记录构建样本;运用高效的XGBoost集成分类器训练潜在授信客户预测模 型,挖掘出具有营销更高成功率的潜在授信客户,实现对客户进行精准营销; 该发明的广泛应用和推广,将给予业务人员提供更加营销价值的授信客户,提 高了一线业务人员的工作效率,为银行开展授信业务有着重大的意义和应用价 值;
基于企业知识图谱节点间的关联关系提取特征,首次将基于图谱提取特征 的方式应用到潜在授信客户挖掘,从而推广了知识图谱的应用范围,更进一步 地促进知识图谱的发展;
在处理样本严重不均衡问题的时候,并非简单进行上采样或者下采样,而 是运用smote和PU-Learning相结合的技术,对正样本采用基于XGBoost模型 的smote技术进行采样,对负样本采用PU-Learning提取更加可靠的样本,该 组合采样技术对处理样本不均匀问题的解决具有良好效果。
附图说明
图1为本专利的采样流程节点示意图
图2为本专利的企业知识图谱关系图
具体实施方式
如图1和图2所示,基于知识图谱和机器学习算法挖掘银行潜在授信客户 方法,包括如下步骤:
1、样本采集阶段
以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、 密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E,V),顶点和 各种边的属性分别为如下:
顶点属性:名称、是否行内客户;
控股关系边属性:持股金额、持股比例、开始时间、结束时间;
实际控制人关系边属性:开始时间、结束时间;
一致行动人边属性:开始时间、结束时间;
密切资金往来关系边属性:转账金额、转账时间;
密切票据交易关系边属性:票据金额、出票时间;
密切受托支付关系边属性:支付金额、支付时间;
根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存 量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特 征,其中各种关系构建的特征如下:
控股关系:
行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户 股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均 持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行 内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自 然人客户股东平均持股比例,共10个特征;
实际控制人关系:
实际控制行内企业数量,共1个特征;
一致行动人:
与行内企业具有一致行动关系的客户数量,共1个特征;
密切资金往来关系:
资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、 资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行 内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大 入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内 自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大 出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内 公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出 账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自 然人客户平均出账笔数,共20个特征;
密切票据交易关系:
出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、 平均票据金额,共5个特征;
密切受托支付关系:
受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收 款金额、平均收款笔数,共5个特征;
实体属性:是否为行内客户,共1个特征;
上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲 密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该 客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节 点自身的特征总共43个;
在选定特征之后,接下来构建样本集,由于本发明的目的是根据该企业的 历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是 否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果 该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则 为非潜在授信客户,因此对于每一个样本(企业)来说,分别定义观察期和表 现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等 表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考 察是否发生了授信行为(即是否首次授信)的时间段,表现期时长取值3个月;
具体采样步骤如下:
步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月 为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24 个月的截面数据;
步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样 一次,特征值的计算方式如下:
求和类型特征:
企业A的所有行内邻居节点之间对应关系属性值之和;
平均类型特征:
企业A的所有行内邻居节点之间对应关系属性值平均值;
最大值类型特征:
企业A的所有行内邻居节点之间对应关系属性值最大值;
是否行内客户特征:
直接根据当前企业A的是否行内企业,如是取值1否则取值0;
例如,求图谱节点企业A在第7个月份采样时关于行内企业客户股东最 大持股金额特征值的计算方式为:统计第1个月至第6个月内与企业A是一度 邻居关系并且是行内企业的股东对企业A的投资金额总和,其他特征依次类推。 从信贷系统数据中查找是否存在企业A在第7至第9个月内发生了首次授信, 如果存在,y=1(正样本),否则y=0(负样本)。于是就得到关于企业A的样 本(x,y)
步骤3:对所有知识图谱中所有节点企业均按照步骤2进行采样,于是 得到所有企业在不同时间点上对应43个特征值,以及对应的样本标签;
按照上述步骤进行采样,过滤掉所有特征值均为0的样本,最终得到正样 本3866个,负样本4147952个;
2、数据预处理阶段
样本采样过程中得到的正负样本比例比较悬殊,正样本和负样本的比例是 1∶1072,正负样本不均衡会导致模型对比例大的样本造成过拟合,即预测偏 向样本数较多的分类,尽管模型的准确率很高,但是范化能力很差,为了平衡 正负样本对模型训练的影响,本发明分别使用smote对正样本进行过采样和 PU-Learning对负样本进行下采样;
smote算法是基于类似“插值”来为少数类合成新的样本,对少数类中每 个样本求其k-近邻,通过k-近邻与当前样本生成新样本,由于特征中涉及到 0-1特征,该特征不能直接通过原有值基础上加上微小随机扰动来产生新值, 所以smote算法并不能直接使用,本发明对smote算法进行改进,将分类型特 征单独处理,改进的smote算法如下:
输入:样本集A,,最近邻个数K,扩充倍数N;
输出:扩充后的新样本;
8)初始化B=A;
9)取A中样本i,对应的特征向量为πi={πi1,πi2,…,πim),计算样本i与样本集B 中所有样本关于特征向量的欧式距离,即距离计算公式为:
10)选择距离距离值最小的的K个值{d1,d2,…,dK};
11)从距离集合{d1,d2,…,dK}中随机选择一个数据dk,再生成随机数 合成新样本n,其特征:πn=(πn1,πn2,…,πnm),其中
12)R=R∪{i,n};
13)重复4)-5)步骤N次,A=A\{i};
14)如果返回2),否则返回集合R并退出;
PU-Learning技术是在给定正样本和无标签样本的情况下,通过使用正样本 (P)和无标签样本(U)建立一个分类器能够辨别U或测试集中的正样本,本 发明中采样到的负样本当中,由于受限于数据完备性,在样本构建时把没有进 行任何营销的未授信企业都当做负样本,因此这样构建得到的负样本是掺杂有 部分正样本,也就是说得到的负样本是不纯的,这主要是因为在采样过程中只 要没有授信的客户都把它当成了负样本,事实上有部分未授信的客户是从来没 有提过申请或者没有做过营销,并不知道其是否真的不能授信,因此本发明把 采样得到的负样本当做未标注样本,通过基于XGBoost分类模型PU-Learning 技术将负样本进行提纯,使得负样本更加可靠。其算法过程为:
5)先用正样本(positive)与未标注样本(或者称作无标签样本 Unlabel)训练XGBoost分类器;
6)根据训练得到的分类器对未标注样本进行分类;
7)把分类为负样本的样本作为可靠的负样本;
8)把剩下的未标注样本与正样本再训练分类器,不断重复1-3过程, 直至没有更多可靠负样本;
在对数据进行平衡正负样本之前,先将第21个月采样的数据取出来留作 模型验证样本,其中正样本406例,负样本356928例,其余剩下的样本(正 样本3460例,负样本3791024例)进行smote和PU-Learning平衡正负实例;
对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本, 其中分类器模型选用XGBoost分类器,参数设置为:scale_pos_weight=500, max_depth=5,silent=0,objective=binary:logistic,lambda=2.5, rate_drop=0.5,alpha=1,eta=0.1,对3460例正样本通过smote生成正样本, 参数最近邻个数K=10,扩充倍数N=130,最后得到正样本数量为:453260;
3、模型训练阶段
本发明选用XGBoost集成分类器训练模型,对处理后的样本进行训练,参 数如下:
eta(学习率):0.1
max_depth(树最大深度):5
objective(学习任务):binary:logistic
alpha(L1正则项权重):1
lambda(L2正则项权重):2.5
rate_drop(剪枝比率):0.5
tree_num(训练树数量):20
其他参数设为默认值。
本发明的优点在于:
基于企业知识图谱和机器学习算法相结合挖掘银行潜在授信客户的方法, 利用将与企业相关的结构化关系数据构建企业知识图谱,再结合信贷系统授信 历史记录构建样本;运用高效的XGBoost集成分类器训练潜在授信客户预测模 型,挖掘出具有营销更高成功率的潜在授信客户,实现对客户进行精准营销; 该发明的广泛应用和推广,将给予业务人员提供更加营销价值的授信客户,提 高了一线业务人员的工作效率,为银行开展授信业务有着重大的意义和应用价 值;
基于企业知识图谱节点间的关联关系提取特征,首次将基于图谱提取特征 的方式应用到潜在授信客户挖掘,从而推广了知识图谱的应用范围,更进一步 地促进知识图谱的发展;
在处理样本严重不均衡问题的时候,并非简单进行上采样或者下采样,而 是运用smote和PU-Learning相结合的技术,对正样本采用基于XGBoost模型 的smote技术进行采样,对负样本采用PU-Learning提取更加可靠的样本,该 组合采样技术对处理样本不均匀问题的解决具有良好效果。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发 明的范围进行限定,在不脱离本发明设计精神前提下,本领域普通工程技术人 员对本发明技术方案做出的各种变形和改进,均应落入本发明的权利要求书确 定的保护范围内。
Claims (1)
1.基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,其特征在于,包括如下步骤:
1)、样本采集阶段
以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱G(E,V),顶点和各种边的属性分别为如下:
顶点属性:名称、是否行内客户;
控股关系边属性:持股金额、持股比例、开始时间、结束时间;
实际控制人关系边属性:开始时间、结束时间;
一致行动人边属性:开始时间、结束时间;
密切资金往来关系边属性:转账金额、转账时间;
密切票据交易关系边属性:票据金额、出票时间;
密切受托支付关系边属性:支付金额、支付时间;
根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存量(以下简称为“行内”)客户的节点信息作为当前节点在该关系维度下的特征,其中各种关系构建的特征如下:
控股关系:
行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例,共10个特征;
实际控制人关系:
实际控制行内企业数量,共1个特征;
一致行动人:
与行内企业具有一致行动关系的客户数量,共1个特征;
密切资金往来关系:
资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数,共20个特征;
密切票据交易关系:
出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额,共5个特征;
密切受托支付关系:
受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数,共5个特征;
实体属性:是否为行内客户,共1个特征;
上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个;
在选定特征之后,接下来构建样本集,由于本发明的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则为非潜在授信客户,因此对于每一个样本(企业)来说,分别定义观察期和表现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考察是否发生了授信行为(即是否首次授信)的时间段,表现期时长取值3个月;
具体采样步骤如下:
步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24个月的截面数据;
步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样一次,特征值的计算方式如下:
求和类型特征:
企业A的所有行内邻居节点之间对应关系属性值之和;
平均类型特征:
企业A的所有行内邻居节点之间对应关系属性值平均值;
最大值类型特征:
企业A的所有行内邻居节点之间对应关系属性值最大值;
是否行内客户特征:
直接根据当前企业A的是否行内企业,如是取值1否则取值0;
步骤3:对所有知识图谱中所有节点企业均按照步骤2进行采样,于是得到所有企业在不同时间点上对应43个特征值,以及对应的样本标签;
按照上述步骤进行采样,过滤掉所有特征值均为0的样本,最终得到正样本3866个,负样本4147952个;
2)、数据预处理阶段
样本采样过程中得到的正负样本比例比较悬殊,正样本和负样本的比例是1∶1072,正负样本不均衡会导致模型对比例大的样本造成过拟合,即预测偏向样本数较多的分类,尽管模型的准确率很高,但是范化能力很差,为了平衡正负样本对模型训练的影响,本发明分别使用smote对正样本进行过采样和PU-Learning对负样本进行下采样;
smote算法是基于类似“插值”来为少数类合成新的样本,对少数类中每个样本求其k-近邻,通过k-近邻与当前样本生成新样本,由于特征中涉及到0-1特征,该特征不能直接通过原有值基础上加上微小随机扰动来产生新值,所以smote算法并不能直接使用,本发明对smote算法进行改进,将分类型特征单独处理,改进的smote算法如下:
输入:样本集A,,最近邻个数K,扩充倍数N;
输出:扩充后的新样本;
初始化B=A;
取A中样本i,对应的特征向量为πi=(πi1,πi2,...,πim),计算样本i与样本集B中所有样本关于特征向量的欧式距离,即距离计算公式为:
选择距离距离值最小的的K个值{d1,d2,...,dK};
从距离集合{d1,d2,...,dK}中随机选择一个数据dk,再生成随机数合成新样本n,其特征:πn=(πn1,πn2,...,πnm),其中
R=R∪{i,n};
重复4)-5)步骤N次,A=A\{i};
如果返回2),否则返回集合R并退出;
PU-Learning技术是在给定正样本和无标签样本的情况下,通过使用正样本(P)和无标签样本(U)建立一个分类器能够辨别U或测试集中的正样本,本发明中采样到的负样本当中,由于受限于数据完备性,在样本构建时把没有进行任何营销的未授信企业都当做负样本,因此这样构建得到的负样本是掺杂有部分正样本,也就是说得到的负样本是不纯的,这主要是因为在采样过程中只要没有授信的客户都把它当成了负样本,事实上有部分未授信的客户是从来没有提过申请或者没有做过营销,并不知道其是否真的不能授信,因此本发明把采样得到的负样本当做未标注样本,通过基于XGBoost分类模型PU-Learning技术将负样本进行提纯,使得负样本更加可靠。其算法过程为:
先用正样本(positive)与未标注样本(或者称作无标签样本Unlabel)训练XGBoost分类器;
根据训练得到的分类器对未标注样本进行分类;
把分类为负样本的样本作为可靠的负样本;
把剩下的未标注样本与正样本再训练分类器,不断重复1-3过程,直至没有更多可靠负样本;
在对数据进行平衡正负样本之前,先将第21个月采样的数据取出来留作模型验证样本,其中正样本406例,负样本356928例,其余剩下的样本(正样本3460例,负样本3791024例)进行smote和PU-Learning平衡正负实例;
对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本,其中分类器模型选用XGBoost分类器,参数设置为:scale_pos_weight=500,max_depth=5,silent=0,objective=binary:logistic,lambda=2.5,rate_drop=0.5,alpha=1,eta=0.1,对3460例正样本通过smote生成正样本,参数最近邻个数K=10,扩充倍数N=130,最后得到正样本数量为:453260;
3)、模型训练阶段
本发明选用XGBoost集成分类器训练模型,对处理后的样本进行训练,参数如下:
eta(学习率):0.1
max_depth(树最大深度):5
objective(学习任务):binary:logistic alpha(L1正则项权重):1
lambda(L2正则项权重):2.5
rate_drop(剪枝比率):0.5
tree_num(训练树数量):20
其他参数设为默认值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525458.1A CN110458592B (zh) | 2019-06-18 | 2019-06-18 | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525458.1A CN110458592B (zh) | 2019-06-18 | 2019-06-18 | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458592A true CN110458592A (zh) | 2019-11-15 |
CN110458592B CN110458592B (zh) | 2023-04-07 |
Family
ID=68480739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910525458.1A Active CN110458592B (zh) | 2019-06-18 | 2019-06-18 | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458592B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889684A (zh) * | 2019-11-18 | 2020-03-17 | 北京明略软件系统有限公司 | 上下游客户识别方法、装置、电子设备和存储介质 |
CN111369365A (zh) * | 2020-03-09 | 2020-07-03 | 中金汇安(北京)科技有限公司 | 一种挖掘潜在一致行动人的方法 |
CN111382181A (zh) * | 2020-03-16 | 2020-07-07 | 中科天玑数据科技股份有限公司 | 一种基于股权穿透的指定企业派系归属分析方法及系统 |
CN111553786A (zh) * | 2020-04-24 | 2020-08-18 | 中金汇安(北京)科技有限公司 | 基于图形数据库的银行股东贷款关联交易挖掘方法和系统 |
CN111612519A (zh) * | 2020-04-13 | 2020-09-01 | 广发证券股份有限公司 | 一种识别金融产品潜在客户的方法、装置及存储介质 |
CN111666424A (zh) * | 2020-06-10 | 2020-09-15 | 深圳开思时代科技有限公司 | 基于知识表示学习的汽配件询报价优化方法 |
CN111708897A (zh) * | 2020-06-11 | 2020-09-25 | 中国建设银行股份有限公司 | 目标信息确定方法、装置和设备 |
CN111860935A (zh) * | 2020-05-21 | 2020-10-30 | 北京骑胜科技有限公司 | 一种交通工具的故障预测方法、装置、设备及存储介质 |
CN111932310A (zh) * | 2020-08-14 | 2020-11-13 | 工银科技有限公司 | 一种银行产品的潜在对公客户挖掘方法及装置 |
CN111951052A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 基于知识图谱的获取潜在客户方法及装置 |
CN112116448A (zh) * | 2020-09-09 | 2020-12-22 | 中国农业银行股份有限公司湖南省分行 | 一种面向三农客户画像的精准营销构建方法 |
CN112215441A (zh) * | 2020-11-17 | 2021-01-12 | 北京明略软件系统有限公司 | 预测模型训练方法及系统 |
CN112256769A (zh) * | 2020-11-13 | 2021-01-22 | 北京海致星图科技有限公司 | 一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法 |
CN113362113A (zh) * | 2021-06-07 | 2021-09-07 | 中国工商银行股份有限公司 | 一种企业行为偏好的获取方法及装置 |
CN115329207A (zh) * | 2022-10-17 | 2022-11-11 | 启客(北京)科技有限公司 | 智能销售信息推荐方法及系统 |
CN116453141A (zh) * | 2023-06-13 | 2023-07-18 | 平安银行股份有限公司 | 票据潜客的识别方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070078741A1 (en) * | 2004-10-29 | 2007-04-05 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet in private equity investments |
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
CN108364191A (zh) * | 2018-01-11 | 2018-08-03 | 国网山东省电力公司 | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 |
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN109189867A (zh) * | 2018-10-23 | 2019-01-11 | 中山大学 | 基于公司知识图谱的关系发现方法、装置及存储介质 |
CN109509040A (zh) * | 2019-01-03 | 2019-03-22 | 广发证券股份有限公司 | 预测基金潜在客户的建模方法、营销方法及装置 |
-
2019
- 2019-06-18 CN CN201910525458.1A patent/CN110458592B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070078741A1 (en) * | 2004-10-29 | 2007-04-05 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet in private equity investments |
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
CN108364191A (zh) * | 2018-01-11 | 2018-08-03 | 国网山东省电力公司 | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 |
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN109189867A (zh) * | 2018-10-23 | 2019-01-11 | 中山大学 | 基于公司知识图谱的关系发现方法、装置及存储介质 |
CN109509040A (zh) * | 2019-01-03 | 2019-03-22 | 广发证券股份有限公司 | 预测基金潜在客户的建模方法、营销方法及装置 |
Non-Patent Citations (2)
Title |
---|
PAULIUS DANENAS ET AL: "《Selection of Support Vector Machines based classifiers for credit risk》", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
熊双辉: "基于大数据的微额借贷用户信用预测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889684A (zh) * | 2019-11-18 | 2020-03-17 | 北京明略软件系统有限公司 | 上下游客户识别方法、装置、电子设备和存储介质 |
CN111369365A (zh) * | 2020-03-09 | 2020-07-03 | 中金汇安(北京)科技有限公司 | 一种挖掘潜在一致行动人的方法 |
CN111382181A (zh) * | 2020-03-16 | 2020-07-07 | 中科天玑数据科技股份有限公司 | 一种基于股权穿透的指定企业派系归属分析方法及系统 |
CN111612519A (zh) * | 2020-04-13 | 2020-09-01 | 广发证券股份有限公司 | 一种识别金融产品潜在客户的方法、装置及存储介质 |
CN111612519B (zh) * | 2020-04-13 | 2023-11-21 | 广发证券股份有限公司 | 一种识别金融产品潜在客户的方法、装置及存储介质 |
CN111553786A (zh) * | 2020-04-24 | 2020-08-18 | 中金汇安(北京)科技有限公司 | 基于图形数据库的银行股东贷款关联交易挖掘方法和系统 |
CN111860935A (zh) * | 2020-05-21 | 2020-10-30 | 北京骑胜科技有限公司 | 一种交通工具的故障预测方法、装置、设备及存储介质 |
CN111666424A (zh) * | 2020-06-10 | 2020-09-15 | 深圳开思时代科技有限公司 | 基于知识表示学习的汽配件询报价优化方法 |
CN111708897A (zh) * | 2020-06-11 | 2020-09-25 | 中国建设银行股份有限公司 | 目标信息确定方法、装置和设备 |
CN111951052B (zh) * | 2020-08-14 | 2023-10-13 | 中国工商银行股份有限公司 | 基于知识图谱的获取潜在客户方法及装置 |
CN111932310A (zh) * | 2020-08-14 | 2020-11-13 | 工银科技有限公司 | 一种银行产品的潜在对公客户挖掘方法及装置 |
CN111951052A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 基于知识图谱的获取潜在客户方法及装置 |
CN112116448A (zh) * | 2020-09-09 | 2020-12-22 | 中国农业银行股份有限公司湖南省分行 | 一种面向三农客户画像的精准营销构建方法 |
CN112256769A (zh) * | 2020-11-13 | 2021-01-22 | 北京海致星图科技有限公司 | 一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法 |
CN112256769B (zh) * | 2020-11-13 | 2024-04-12 | 北京海致星图科技有限公司 | 一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法 |
CN112215441A (zh) * | 2020-11-17 | 2021-01-12 | 北京明略软件系统有限公司 | 预测模型训练方法及系统 |
CN113362113A (zh) * | 2021-06-07 | 2021-09-07 | 中国工商银行股份有限公司 | 一种企业行为偏好的获取方法及装置 |
CN115329207A (zh) * | 2022-10-17 | 2022-11-11 | 启客(北京)科技有限公司 | 智能销售信息推荐方法及系统 |
CN116453141A (zh) * | 2023-06-13 | 2023-07-18 | 平安银行股份有限公司 | 票据潜客的识别方法、装置和电子设备 |
CN116453141B (zh) * | 2023-06-13 | 2023-10-13 | 平安银行股份有限公司 | 票据潜客的识别方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110458592B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458592A (zh) | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 | |
US20200272959A1 (en) | Tracking Movement of Resources in a Financial Transaction Network | |
CN106599935A (zh) | 基于Spark大数据平台的三支决策不平衡数据过采样方法 | |
WO2005101265A2 (en) | Systems and methods for investigation of financial reporting information | |
CN108647718A (zh) | 一种不同材料金相组织自动分类评级的方法 | |
CN108280541A (zh) | 基于随机森林和决策树的客户服务策略制定方法、装置 | |
US8984022B1 (en) | Automating growth and evaluation of segmentation trees | |
CN107832964A (zh) | 银行客户关系圈分析方法及系统 | |
CN108388974A (zh) | 基于随机森林和决策树的优质客户优化识别方法及装置 | |
Dash | An improved shuffled frog leaping algorithm based evolutionary framework for currency exchange rate prediction | |
CN106156092A (zh) | 数据处理方法及装置 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110427418A (zh) | 一种基于客户能源价值指标体系的客户分析分群方法 | |
US20090327036A1 (en) | Decision support systems using multi-scale customer and transaction clustering and visualization | |
CN110097430A (zh) | 一种基于人工智能的汽车金融产品智能匹配系统 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN110163517A (zh) | 一种基于g-限量服务休假规则的区块链系统建模方法 | |
Agyemang et al. | The role of mobile money banking service in financial development: Evidence from Ghana | |
CN113420909A (zh) | 一种用户响应信息预测模型建立方法及信息预测方法 | |
CN107590732A (zh) | 一种业务数据试算方法及其设备、终端 | |
CN202093568U (zh) | 一种银行目标客户识别系统 | |
Ullah et al. | Predicting Default Payment of Credit Card Users: Applying Data Mining Techniques | |
Lokmic et al. | Cash flow forecasting using supervised and unsupervised neural networks | |
CN107480857A (zh) | 一种股票基因库诊断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |