CN112308623A - 基于监督学习的优质客户流失预测方法、装置及存储介质 - Google Patents
基于监督学习的优质客户流失预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112308623A CN112308623A CN202011240662.8A CN202011240662A CN112308623A CN 112308623 A CN112308623 A CN 112308623A CN 202011240662 A CN202011240662 A CN 202011240662A CN 112308623 A CN112308623 A CN 112308623A
- Authority
- CN
- China
- Prior art keywords
- loss
- quality
- client
- prediction
- customer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 230000006399 behavior Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 101100377706 Escherichia phage T5 A2.2 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于监督学习的优质客户流失预测方法、装置及存储介质,其中方法包括:获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,优质客户流失预测模型通过利用构建的优质客户流失预测样本数据集对基于XGBoost算法构建的预测模型进行训练得到。选优质客户群体作为研究对象,减轻了训练数据的类别不均衡情况,提升模型的训练速度和准确性,还能把握住银行的核心客户;使用了XGBoost算法,该算法对缺失值不敏感,无需对缺失值进行插值处理;且学习能力强、训练速度快、收敛速度快。
Description
技术领域
本发明涉及商业银行客户流失预测技术领域,尤其涉及一种基于监督学习的优质客户流失预测方法、装置及存储介质。
背景技术
当前市场竞争日益激烈,银行间的产品或服务差异越来越小,越来越多的银行将“以产品为中心”转向“以客户为中心”,纷纷采用客户关系管理(CRM)等信息化系统来提高系统服务水平,客户流失是CRM关注的焦点,是银行业关注的核心问题之一。
相关研究发现,赢得一个新客户所花费的成本是保留住一个老客户的5至6倍。因此,保留住老客户,提前预测出潜在的流失客户,防止因客户流失而引发的经营危机,对于提高企业的竞争力具有战略意义。研究表明,在中国,10%的优质个人客户贡献了至少90%的利润,因而相对于全量的客户而言,维护和保持此类客户、防止此类客户流失的工作更具研究意义和价值。
目前的客户流失预测研究中分为主要三个步骤进行,分别为:1定义流失,2选择特征,3建立流失预测模型。在通常的研究中,流失往往是针对单独产品定义的,如存款、理财或者信用卡等等,流失的定义一般为现有的客户中止继续购买银行的商品或服务,转而购买其竞争对手的商品或服务,实际表现为销卡、销户。在选择特征时,通常认为处于流失风险中的客户与客户持有的产品数量、客户年龄和性别之间具有相关关系;拥有不同产品的客户其流失风险有所不同;上笔交易的间隔时间反映了客户的活跃程度,从而也与流失行为有关;另外,客户得到的折扣、所使用的渠道方式、服务的时间长度以及客户抱怨等也都是有助于预测流失的变量。在建立模型时,通常选择基于机器学习的方法,如SVM、决策树、Boosting等,以及基于统计分析的方法,如Cox比例风险模型、逻辑回归、判别分析等。
上述的每一步骤都决定了,流失预测模型在实际应用中的效果:利用销卡、销户动作来定义流失往往不具备说服力,如有的客户与银行脱离了联系,但是未必会有销户动作,因此在这种定义之下,往往缩减了目标群体的范围;选择单一产品进行流失判断往往是不准确的,如客户虽然减少或取消了定期存款,但是却购买了相应或更多金额的投资产品,这时用单一产品的销户来判断流失,会导致流失的定义与实际不符;同时,使用不符合模型基本假设的特征作为输入,将会得到错误的结论,如Cox比例风险模型要求使用的变量均与时间无关等;最后,模型的学习能力也决定了最终的预测效果。
发明内容
鉴于上述现有技术的不足,本发明的目的是提供一种基于监督学习的优质客户流失预测方法、装置及存储介质,以提升优质客户流失预测的准确率。
第一方面,提供了一种基于监督学习的优质客户流失预测方法,包括:
获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
进一步地,所述优质客户流失预测样本数据集通过如下方法构建:
获取客户在银行的资产情况并与预设阈值比较,筛选出多个优质客户;
选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;
针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集;
所述获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据,包括:
筛选出时间t下待流失预测的优质客户;
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取时间t前预设时间段内的流失特征数据。
进一步地,所述选定观测期,判断出多个优质客户的流失标签和观测时间,包括:
选定一个观测期[t0,tn];
基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;
验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;
将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,对于观测期内未流失的优质客户,将观测期的截止时间tn作为其对应的观测时间。
进一步地,所述基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间,包括:
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
活期 | 定期 | 理财 | 流失标签 | 流失日期 |
* | 1 | 1 | 1 | (fx_dt,inv_dt) |
* | ^1 | 1 | 1 | inv_dt |
* | 1 | ^1 | 1 | fx_dt |
1 | -1 | -1 | 1 | sv_dt |
0 | -1 | -1 | -1 | |
* | ^1 | 0 | 0 | |
* | 0 | -1 | 0 | |
-1 | -1 | -1 | NULL |
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,NULL表示不存在此类优质客户,流失标签为-1时表示此时需另外对此类优质客户做一个流失判断,具体为观测期内连续日期{t1,t2,…,tm}的活期余额都小于相应[t0,ti],i∈{1,2,…,m}区间的日均活期余额即则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。
进一步地,所述验证每个优质客户的流失标签的准确性,包括:
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。
进一步地,所述基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,包括:
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
对每个优质客户的流失特征数据中的金额类特征进行对数化处理。
进一步地,使用XGBoost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,具体包括:
根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重;
选择XGBoost算法构建预测模型;
设y为优质客户流失预测样本数据集的流失标签,X为优质客户流失预测样本数据集的特征矩阵,θ为XGBoost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(·)为基于XGBoost算法构建预测模型, 表示xgb(·)在超参数下样本数据对应的预测标签函数表示流失标签y与预测标签的匹配度,表示目标函数最大时对应的参数θ;
进一步地,所述根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,包括:
每个样本的权重通过如下公式确定:
其中,a=(a1,a2,…,an)表示优质客户流失预测样本数据集中样本的资产,ai表示第i个样本的资产,yi表示第i个样本的流失标签,α>0。
第二方面,提供了一种基于监督学习的优质客户流失预测装置,包括:
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
第三方面,提供了一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于监督学习的优质客户流失预测方法。
有益效果
本发明提出了一种基于监督学习的优质客户流失预测方法、装置及存储介质,具有如下优点:
1)本发明选定优质客户群体作为研究对象。相比于将所有客户定为目标群体,选择优质客户的客户研究,不但减轻了训练数据的类别不均衡情况,提升模型的训练速度和准确性,而且能够把握住银行的“核心”客户,使得模型更具实用意义。
2)本发明从多个产品的角度出发。相比于研究单个产品下客户的流失情况,同时考虑多个产品,不但减少了需要达到相同预测效果的建模成本,达到了事半功倍的效果,而且可以减少单一产品视角下,产生的“假性流失”,即客户资产在不同产品间流转。
3)本发明具有弹性的流失判断方式。相较于使用销户来硬性地判断客户的流失,通过结合弹性的指标来识别客户是否销户更具现实意义。以及通过将客户在多种产品上的流失状态组合,得到最终的流失标签,增强了流失标签的准确性。
4)本发明采用灵活的特征提取区间,以及时间可控的流失预警方式。由于每个样本的观测时间都是各自对应的,因此允许训练样本的特征提取是在独立的时间范围完成,而不会因为统一的时间范围而丢失特征信息。此外,通过将流失样本的观测时间适当提前,可灵活地控制流失的预警时间。
5)本发明使用了XGBoost算法,该算法对缺失值不敏感,无需对缺失值进行插值处理;而且XGBoost算法通过显示的正则化方法约束模型的复杂度,能有效地避免过拟合;且具有学习能力强、训练速度快、收敛速度快的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于监督学习的优质客户流失预测方法总体流程图;
图2是本发明实施例提供的构建优质客户流失预测样本数据集方法的流程图;
图3是本发明实施例提供的构建优质客户流失预测模型方法的流程图;
图4是本发明实施例提供的对待流失预测优质客户进行流失预测的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1所示,本发明实施例提供了一种基于监督学习的优质客户流失预测方法,在进行预测之前,需使用XGBoost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,如图2和图3所示,包括:
A1:构建优质客户流失预测样本数据集;具体步骤为:
A1.1:按照客户在银行的资产情况,跟预先设定的阈值比较,筛选出优质客户。相比于全量客户,研究高资产值的优质客户,更有助于提高银行的经营效益,同时简化了建立流失预测模型的计算量。因此在筛选优质客户时,可根据银行客户资产的分布、营销策略,筛选出数量合适的优质客户,一般控制在全量客户的3%~10%之间;
A1.2:选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;具体包括:
A1.2.1:选定一个观测期[t0,tn],用于观测优质客户在观测期内的流失情况,t0为观测起始时间,tn为观测的截止时间;
A1.2.2:基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;包括:
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
活期 | 定期 | 理财 | 流失类别 | 流失标签 | 组合数量 | 流失日期 |
* | 1 | 1 | 1 | 1 | 3 | (fx_dt,inv_dt) |
* | ^1 | 1 | 3 | 1 | 6 | inv_dt |
* | 1 | ^1 | 5 | 1 | 6 | fx_dt |
1 | -1 | -1 | 7 | 1 | 1 | sv_dt |
0 | -1 | -1 | -1 | -1 | 1 | |
* | ^1 | 0 | 2 | 0 | 6 | |
* | 0 | -1 | 4 | 0 | 3 | |
-1 | -1 | -1 | NULL | NULL | 1 |
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,NULL表示不存在此类优质客户。流失类别依据三种账户的标识来判断,奇数表示流失,偶数表示未流失,-1表示此类优质客户只有活期账户且未销户,可跟据实际情况将其流失标签置为0或单独针对此类客户做一个流失判断,如观测期内连续日期{t1,t2,…,tm}的活期余额都小于相应[t0,ti],i∈{1,2,…,m}区间的日均活期余额即则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;流失类别是一个中间结果,有助于了解各流失类别的样本数量,指导后续的误差分析。组合数量表示满足相应规则的标识排列组合数,如流失类别1的组合数量为3,包含3种标识的组合,分别为(0,1,1)、(1,1,1)、(-1,1,1),组合数量共计33个。sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。观测期内未流失的客户,不存在流失时间。
A1.2.3:验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;包括:
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;此验证对流失时间临近观测期截止时间的样本特别重要,能增加流失标签的准确性;
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。通过流转验证,可以有效的避免“假性流失”的样本。
A1.2.4:将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间,以达到事前预警的效果;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,如观测到实际流失时间为ti,则需将流失时间ti适当提前,即用作为最终的流失时间,旨在优质客户流失前给出流失预测结果,即训练出的优质客户流失预测模型预测的是待流失预测优质客户在t+T时间流失的概率,t为当前时刻,进而达到流失预警的效果;对于观测期内未流失的优质客户,将观测期的截止时间tn作为其对应的观测时间。
A1.3:针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集,优质客户流失预测样本数据集中每个样本包含其对应的流失特征数据和流失标签;其中,提取流失特征数据具体包括:
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
上述提取流失特征数据方案具体可参见下表:
上表中,根据流失标签的不同,观测时间为最终流失时间或观测期截止时间tn。而且,除了自然属性类的特征之外,其他特征的计算与步骤A1.2得到的观测时间紧密相关,特征的计算往往是根据该时间,进行某种时间维度上的统计,同时,该时间因样本的不同可能会有所差异,因此每个样本是在“自己”的某种时间维度上完成的特征计算,这是模型能准确预测流失客户的核心所在。其中某种时间维度指的是其提取流失特征的时间长度,如近12个月、近6个月、近1个月、7天等。
完成流失特征提取后,对每个优质客户的流失特征数据中的金额类特征进行对数化处理。如样本Ni的金额类特征为(F1,F2,…,Fn),按转换公式得到金额类新的特征为缩减特征的量纲,在使用“树”类算法时,有助于最优分割点的搜索,以提升准确率。
A1.4:划分优质客户流失预测样本数据集为比例适当的训练集DTrain和测试集DTest,分别用于模型的训练和评估。优质客户流失预测样本数据集D=DTrain∪DTest,根据数据的实际情况,通常划分满足训练集样本量NTrain与测试集的样本量NTest之比为
A2:利用构建的优质客户流失预测样本数据集对基于XGBoost算法构建的预测模型进行训练得到优质客户流失预测模型,具体包括:
A2.1:根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,有助于缓解类别不均衡带来的影响,还能让模型更“关注”高资产客户的流失情况,提升模型的准确率和预测价值;具体包括:
每个样本的权重通过如下公式确定:
其中,a=(a1,a2,…,an)表示优质客户流失预测样本数据集中样本的资产,ai表示第i个样本的资产,yi表示第i个样本的流失标签,α>0,α∈{1,2,…},α根据模型的评估指标适当调整。
A2.2:选择XGBoost算法构建预测模型;
A2.3:设y为优质客户流失预测样本数据集的流失标签,X为优质客户流失预测样本数据集的特征矩阵,θ为XGBoost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(·)为基于XGBoost算法构建预测模型, 表示xgb(·)在超参数θ下样本数据对应的预测标签函数表示流失标签y与预测标签的匹配度,考虑到样本权重w,即 为位于计算,即其中wi表示第i个样本的权重,yi表示第i个样本的流失标签,表示第i个样本的预测标签,表示目标函数最大时对应的参数θ;
得到训练好的优质客户流失预测模型后,即可基于监督学习的优质客户流失预测,如图4所示,具体包括:
S01:获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
S02:将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果。
更具体的,包括:
筛选出时间t下待流失预测的优质客户;时间t可为当前时间,待流失预测的优质客户的筛选方法可参见步骤A1.1的方法;
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取当前时间t前预设时间段内的流失特征数据;流失特征数据提取方法可参见步骤A1.3,区别在于此时的观测时间为当前时间t;此处预设时间段可根据需要设定为3个月、6个月或12个月等。
把提取的流失特征数据,输入到训练好的优质客户流失预测模型中,通过计算便能得到该待流失预测优质客户在t+T时间流失的概率。
本发明实施例还提供了一种基于监督学习的优质客户流失预测装置,包括:
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
本实施例中具体实现方案参见前述实施例提供的一种基于监督学习的优质客户流失预测方法,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于监督学习的优质客户流失预测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于监督学习的优质客户流失预测方法,其特征在于,包括:
获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
2.根据权利要求1所述的基于监督学习的优质客户流失预测方法,其特征在于,所述优质客户流失预测样本数据集通过如下方法构建:
获取客户在银行的资产情况并与预设阈值比较,筛选出多个优质客户;
选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;
针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集;
所述获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据,包括:
筛选出时间t下待流失预测的优质客户;
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取时间t前预设时间段内的流失特征数据。
3.根据权利要求2所述的基于监督学习的优质客户流失预测方法,其特征在于,所述选定观测期,判断出多个优质客户的流失标签和观测时间,包括:
选定一个观测期[t0,tn];
基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;
验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;
将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,对于观测期内未流失的优质客户,将观测期的截止时间tn作为其对应的观测时间。
4.根据权利要求3所述的基于监督学习的优质客户流失预测方法,其特征在于,所述基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间,包括:
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,NULL表示不存在此类优质客户,流失标签为-1时表示此时需另外对此类优质客户做一个流失判断,具体为观测期内连续日期{t1,t2,…,tm}的活期余额都小于相应[t0,ti],i∈{1,2,…,m}区间的日均活期余额即则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。
5.根据权利要求4所述的基于监督学习的优质客户流失预测方法,其特征在于,所述验证每个优质客户的流失标签的准确性,包括:
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。
6.根据权利要求2所述的基于监督学习的优质客户流失预测方法,其特征在于,所述基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,包括:
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
对每个优质客户的流失特征数据中的金额类特征进行对数化处理。
7.根据权利要求2所述的基于监督学习的优质客户流失预测方法,其特征在于,使用XGBoost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,具体包括:
根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重;
选择XGBoost算法构建预测模型;
设y为优质客户流失预测样本数据集的流失标签,X为优质客户流失预测样本数据集的特征矩阵,θ为XGBoost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(·)为基于XGBoost算法构建预测模型, 表示xgb(·)在超参数θ下样本数据对应的预测标签函数表示流失标签y与预测标签的匹配度,表示目标函数最大时对应的参数θ;
9.一种基于监督学习的优质客户流失预测装置,其特征在于,包括:
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
10.一种计算机可读存储介质,其包括存储的计算机程序,其特征在于,所述计算机程序适于被处理器加载并执行如权利要求1至9任一项所述的基于监督学习的优质客户流失预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240662.8A CN112308623A (zh) | 2020-11-09 | 2020-11-09 | 基于监督学习的优质客户流失预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240662.8A CN112308623A (zh) | 2020-11-09 | 2020-11-09 | 基于监督学习的优质客户流失预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308623A true CN112308623A (zh) | 2021-02-02 |
Family
ID=74325317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011240662.8A Pending CN112308623A (zh) | 2020-11-09 | 2020-11-09 | 基于监督学习的优质客户流失预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308623A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905951A (zh) * | 2021-02-04 | 2021-06-04 | 广西智汇佳人力资源有限公司 | 一种客户属性分析方法 |
CN114154672A (zh) * | 2021-09-30 | 2022-03-08 | 中国农业银行股份有限公司河北省分行 | 一种用于客户流失预测的数据挖掘方法 |
CN116883070A (zh) * | 2023-09-05 | 2023-10-13 | 上海银行股份有限公司 | 一种银行代发薪资客户流失预警方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050273430A1 (en) * | 2004-06-02 | 2005-12-08 | Pliha Robert K | Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acqusition, performance and risk events defined by the bank using a decision tree and stochastic process |
CN106250403A (zh) * | 2016-07-19 | 2016-12-21 | 北京奇艺世纪科技有限公司 | 用户流失预测方法及装置 |
CN108764994A (zh) * | 2018-05-24 | 2018-11-06 | 深圳前海桔子信息技术有限公司 | 一种用户行为指引方法、装置、服务器和存储介质 |
CN109285038A (zh) * | 2018-10-16 | 2019-01-29 | 浪潮软件集团有限公司 | 一种通过bp神经网络预测银行客户流失的方法 |
WO2019201310A1 (en) * | 2018-04-20 | 2019-10-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for coupon issuing |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
-
2020
- 2020-11-09 CN CN202011240662.8A patent/CN112308623A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050273430A1 (en) * | 2004-06-02 | 2005-12-08 | Pliha Robert K | Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acqusition, performance and risk events defined by the bank using a decision tree and stochastic process |
CN106250403A (zh) * | 2016-07-19 | 2016-12-21 | 北京奇艺世纪科技有限公司 | 用户流失预测方法及装置 |
WO2019201310A1 (en) * | 2018-04-20 | 2019-10-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for coupon issuing |
CN108764994A (zh) * | 2018-05-24 | 2018-11-06 | 深圳前海桔子信息技术有限公司 | 一种用户行为指引方法、装置、服务器和存储介质 |
CN109285038A (zh) * | 2018-10-16 | 2019-01-29 | 浪潮软件集团有限公司 | 一种通过bp神经网络预测银行客户流失的方法 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905951A (zh) * | 2021-02-04 | 2021-06-04 | 广西智汇佳人力资源有限公司 | 一种客户属性分析方法 |
CN114154672A (zh) * | 2021-09-30 | 2022-03-08 | 中国农业银行股份有限公司河北省分行 | 一种用于客户流失预测的数据挖掘方法 |
CN116883070A (zh) * | 2023-09-05 | 2023-10-13 | 上海银行股份有限公司 | 一种银行代发薪资客户流失预警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308623A (zh) | 基于监督学习的优质客户流失预测方法、装置及存储介质 | |
US20190392295A1 (en) | Information processing device, method, and program that use deep learning | |
CN111667307B (zh) | 一种理财产品销量的预测方法及装置 | |
US20200250623A1 (en) | Systems and techniques to quantify strength of a relationship with an enterprise | |
CN114331671A (zh) | 借贷风险监控方法、装置、服务器及存储介质 | |
CN112613997A (zh) | 货币基金的组合投资预测方法和预测装置 | |
CN111967973B (zh) | 银行客户数据处理方法及装置 | |
Yılmaz et al. | Causal inference under selection on observables in operations management research: Matching methods and synthetic controls | |
CN116911994B (zh) | 对外贸易风险预警系统 | |
CN111275480B (zh) | 面向多维稀疏销售数据仓库的欺诈行为挖掘方法 | |
Nouri-Harzvili et al. | Evolutionary marketing strategies for new high-technology product sales: Effects of customers’ innovation adoption | |
CN111160929A (zh) | 一种客户类型的确定方法及装置 | |
CN110796379A (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
Bernat et al. | Modelling customer lifetime value in a continuous, non-contractual time setting | |
CN112232945B (zh) | 一种确定个人客户授信的方法及装置 | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
CN114418776A (zh) | 一种数据处理方法、装置、终端设备及介质 | |
Krusinskas et al. | THE RESEARCH OF RELIABILITY OF BANKRUPTCY PREDICTION MODELS IN LITHUANIAN COMPANIES. | |
Lyocsa et al. | Default or Profit Scoring Credit Systems? Evidence from an Emerging High-Risk P2P Loan Market. | |
CN111598256B (zh) | 目标客户的默搭购买行为的处理方法和装置 | |
Geng | Innovative Development Path of E-Commerce and Civil and Commercial Law in the Information Age Based on Discrete Regression Algorithm | |
Gundogmus et al. | Riskbased Fraud Analysis for Bank Loans with Autonomous Machine Learning | |
Kallas | Technical efficiency and firm exit in the wine and meat sector: Policy implications | |
CN117454272A (zh) | 消费券的发放方法及装置、存储介质和电子设备 | |
Nygård | AI-Assisted Lead Scoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |