CN112308623A - 基于监督学习的优质客户流失预测方法、装置及存储介质 - Google Patents

基于监督学习的优质客户流失预测方法、装置及存储介质 Download PDF

Info

Publication number
CN112308623A
CN112308623A CN202011240662.8A CN202011240662A CN112308623A CN 112308623 A CN112308623 A CN 112308623A CN 202011240662 A CN202011240662 A CN 202011240662A CN 112308623 A CN112308623 A CN 112308623A
Authority
CN
China
Prior art keywords
loss
quality
client
prediction
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011240662.8A
Other languages
English (en)
Inventor
龙军
尹卓英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202011240662.8A priority Critical patent/CN112308623A/zh
Publication of CN112308623A publication Critical patent/CN112308623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于监督学习的优质客户流失预测方法、装置及存储介质,其中方法包括:获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,优质客户流失预测模型通过利用构建的优质客户流失预测样本数据集对基于XGBoost算法构建的预测模型进行训练得到。选优质客户群体作为研究对象,减轻了训练数据的类别不均衡情况,提升模型的训练速度和准确性,还能把握住银行的核心客户;使用了XGBoost算法,该算法对缺失值不敏感,无需对缺失值进行插值处理;且学习能力强、训练速度快、收敛速度快。

Description

基于监督学习的优质客户流失预测方法、装置及存储介质
技术领域
本发明涉及商业银行客户流失预测技术领域,尤其涉及一种基于监督学习的优质客户流失预测方法、装置及存储介质。
背景技术
当前市场竞争日益激烈,银行间的产品或服务差异越来越小,越来越多的银行将“以产品为中心”转向“以客户为中心”,纷纷采用客户关系管理(CRM)等信息化系统来提高系统服务水平,客户流失是CRM关注的焦点,是银行业关注的核心问题之一。
相关研究发现,赢得一个新客户所花费的成本是保留住一个老客户的5至6倍。因此,保留住老客户,提前预测出潜在的流失客户,防止因客户流失而引发的经营危机,对于提高企业的竞争力具有战略意义。研究表明,在中国,10%的优质个人客户贡献了至少90%的利润,因而相对于全量的客户而言,维护和保持此类客户、防止此类客户流失的工作更具研究意义和价值。
目前的客户流失预测研究中分为主要三个步骤进行,分别为:1定义流失,2选择特征,3建立流失预测模型。在通常的研究中,流失往往是针对单独产品定义的,如存款、理财或者信用卡等等,流失的定义一般为现有的客户中止继续购买银行的商品或服务,转而购买其竞争对手的商品或服务,实际表现为销卡、销户。在选择特征时,通常认为处于流失风险中的客户与客户持有的产品数量、客户年龄和性别之间具有相关关系;拥有不同产品的客户其流失风险有所不同;上笔交易的间隔时间反映了客户的活跃程度,从而也与流失行为有关;另外,客户得到的折扣、所使用的渠道方式、服务的时间长度以及客户抱怨等也都是有助于预测流失的变量。在建立模型时,通常选择基于机器学习的方法,如SVM、决策树、Boosting等,以及基于统计分析的方法,如Cox比例风险模型、逻辑回归、判别分析等。
上述的每一步骤都决定了,流失预测模型在实际应用中的效果:利用销卡、销户动作来定义流失往往不具备说服力,如有的客户与银行脱离了联系,但是未必会有销户动作,因此在这种定义之下,往往缩减了目标群体的范围;选择单一产品进行流失判断往往是不准确的,如客户虽然减少或取消了定期存款,但是却购买了相应或更多金额的投资产品,这时用单一产品的销户来判断流失,会导致流失的定义与实际不符;同时,使用不符合模型基本假设的特征作为输入,将会得到错误的结论,如Cox比例风险模型要求使用的变量均与时间无关等;最后,模型的学习能力也决定了最终的预测效果。
发明内容
鉴于上述现有技术的不足,本发明的目的是提供一种基于监督学习的优质客户流失预测方法、装置及存储介质,以提升优质客户流失预测的准确率。
第一方面,提供了一种基于监督学习的优质客户流失预测方法,包括:
获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
进一步地,所述优质客户流失预测样本数据集通过如下方法构建:
获取客户在银行的资产情况并与预设阈值比较,筛选出多个优质客户;
选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;
针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集;
所述获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据,包括:
筛选出时间t下待流失预测的优质客户;
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取时间t前预设时间段内的流失特征数据。
进一步地,所述选定观测期,判断出多个优质客户的流失标签和观测时间,包括:
选定一个观测期[t0,tn];
基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;
验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;
将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,对于观测期内未流失的优质客户,将观测期的截止时间tn作为其对应的观测时间。
进一步地,所述基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间,包括:
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
活期 定期 理财 流失标签 流失日期
* 1 1 1 (fx_dt,inv_dt)
* ^1 1 1 inv_dt
* 1 ^1 1 fx_dt
1 -1 -1 1 sv_dt
0 -1 -1 -1
* ^1 0 0
* 0 -1 0
-1 -1 -1 NULL
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,NULL表示不存在此类优质客户,流失标签为-1时表示此时需另外对此类优质客户做一个流失判断,具体为观测期内连续日期{t1,t2,…,tm}的活期余额
Figure BDA0002768260160000031
都小于相应[t0,ti],i∈{1,2,…,m}区间的日均活期余额
Figure BDA0002768260160000032
Figure BDA0002768260160000033
则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。
进一步地,所述验证每个优质客户的流失标签的准确性,包括:
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。
进一步地,所述基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,包括:
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
对每个优质客户的流失特征数据中的金额类特征进行对数化处理。
进一步地,使用XGBoost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,具体包括:
根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重;
选择XGBoost算法构建预测模型;
设y为优质客户流失预测样本数据集的流失标签,X为优质客户流失预测样本数据集的特征矩阵,θ为XGBoost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数
Figure BDA0002768260160000041
其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(·)为基于XGBoost算法构建预测模型,
Figure BDA0002768260160000042
Figure BDA0002768260160000043
表示xgb(·)在超参数下样本数据对应的预测标签
Figure BDA0002768260160000044
函数
Figure BDA0002768260160000045
表示流失标签y与预测标签
Figure BDA0002768260160000046
的匹配度,
Figure BDA0002768260160000047
表示目标函数最大时对应的参数θ;
将优质客户流失预测样本数据集划分为训练集和测试集,使用最优参数
Figure BDA0002768260160000048
根据early stop策略,在模型的训练中确定最优迭代次数m,得到优质客户流失预测模型。
进一步地,所述根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,包括:
每个样本的权重通过如下公式确定:
Figure BDA0002768260160000049
其中,a=(a1,a2,…,an)表示优质客户流失预测样本数据集中样本的资产,ai表示第i个样本的资产,yi表示第i个样本的流失标签,α>0。
第二方面,提供了一种基于监督学习的优质客户流失预测装置,包括:
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
第三方面,提供了一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于监督学习的优质客户流失预测方法。
有益效果
本发明提出了一种基于监督学习的优质客户流失预测方法、装置及存储介质,具有如下优点:
1)本发明选定优质客户群体作为研究对象。相比于将所有客户定为目标群体,选择优质客户的客户研究,不但减轻了训练数据的类别不均衡情况,提升模型的训练速度和准确性,而且能够把握住银行的“核心”客户,使得模型更具实用意义。
2)本发明从多个产品的角度出发。相比于研究单个产品下客户的流失情况,同时考虑多个产品,不但减少了需要达到相同预测效果的建模成本,达到了事半功倍的效果,而且可以减少单一产品视角下,产生的“假性流失”,即客户资产在不同产品间流转。
3)本发明具有弹性的流失判断方式。相较于使用销户来硬性地判断客户的流失,通过结合弹性的指标来识别客户是否销户更具现实意义。以及通过将客户在多种产品上的流失状态组合,得到最终的流失标签,增强了流失标签的准确性。
4)本发明采用灵活的特征提取区间,以及时间可控的流失预警方式。由于每个样本的观测时间都是各自对应的,因此允许训练样本的特征提取是在独立的时间范围完成,而不会因为统一的时间范围而丢失特征信息。此外,通过将流失样本的观测时间适当提前,可灵活地控制流失的预警时间。
5)本发明使用了XGBoost算法,该算法对缺失值不敏感,无需对缺失值进行插值处理;而且XGBoost算法通过显示的正则化方法约束模型的复杂度,能有效地避免过拟合;且具有学习能力强、训练速度快、收敛速度快的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于监督学习的优质客户流失预测方法总体流程图;
图2是本发明实施例提供的构建优质客户流失预测样本数据集方法的流程图;
图3是本发明实施例提供的构建优质客户流失预测模型方法的流程图;
图4是本发明实施例提供的对待流失预测优质客户进行流失预测的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1所示,本发明实施例提供了一种基于监督学习的优质客户流失预测方法,在进行预测之前,需使用XGBoost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,如图2和图3所示,包括:
A1:构建优质客户流失预测样本数据集;具体步骤为:
A1.1:按照客户在银行的资产情况,跟预先设定的阈值比较,筛选出优质客户。相比于全量客户,研究高资产值的优质客户,更有助于提高银行的经营效益,同时简化了建立流失预测模型的计算量。因此在筛选优质客户时,可根据银行客户资产的分布、营销策略,筛选出数量合适的优质客户,一般控制在全量客户的3%~10%之间;
A1.2:选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;具体包括:
A1.2.1:选定一个观测期[t0,tn],用于观测优质客户在观测期内的流失情况,t0为观测起始时间,tn为观测的截止时间;
A1.2.2:基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;包括:
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
活期 定期 理财 流失类别 流失标签 组合数量 流失日期
* 1 1 1 1 3 (fx_dt,inv_dt)
* ^1 1 3 1 6 inv_dt
* 1 ^1 5 1 6 fx_dt
1 -1 -1 7 1 1 sv_dt
0 -1 -1 -1 -1 1
* ^1 0 2 0 6
* 0 -1 4 0 3
-1 -1 -1 NULL NULL 1
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,NULL表示不存在此类优质客户。流失类别依据三种账户的标识来判断,奇数表示流失,偶数表示未流失,-1表示此类优质客户只有活期账户且未销户,可跟据实际情况将其流失标签置为0或单独针对此类客户做一个流失判断,如观测期内连续日期{t1,t2,…,tm}的活期余额
Figure BDA0002768260160000071
都小于相应[t0,ti],i∈{1,2,…,m}区间的日均活期余额
Figure BDA0002768260160000072
Figure BDA0002768260160000073
则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;流失类别是一个中间结果,有助于了解各流失类别的样本数量,指导后续的误差分析。组合数量表示满足相应规则的标识排列组合数,如流失类别1的组合数量为3,包含3种标识的组合,分别为(0,1,1)、(1,1,1)、(-1,1,1),组合数量共计33个。sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。观测期内未流失的客户,不存在流失时间。
A1.2.3:验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;包括:
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;此验证对流失时间临近观测期截止时间的样本特别重要,能增加流失标签的准确性;
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。通过流转验证,可以有效的避免“假性流失”的样本。
A1.2.4:将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间,以达到事前预警的效果;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,如观测到实际流失时间为ti,则需将流失时间ti适当提前,即用
Figure BDA0002768260160000074
作为最终的流失时间,旨在优质客户流失前给出流失预测结果,即训练出的优质客户流失预测模型预测的是待流失预测优质客户在t+T时间流失的概率,t为当前时刻,进而达到流失预警的效果;对于观测期内未流失的优质客户,将观测期的截止时间tn作为其对应的观测时间。
A1.3:针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集,优质客户流失预测样本数据集中每个样本包含其对应的流失特征数据和流失标签;其中,提取流失特征数据具体包括:
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
上述提取流失特征数据方案具体可参见下表:
Figure BDA0002768260160000081
上表中,根据流失标签的不同,观测时间为最终流失时间
Figure BDA0002768260160000082
或观测期截止时间tn。而且,除了自然属性类的特征之外,其他特征的计算与步骤A1.2得到的观测时间紧密相关,特征的计算往往是根据该时间,进行某种时间维度上的统计,同时,该时间因样本的不同可能会有所差异,因此每个样本是在“自己”的某种时间维度上完成的特征计算,这是模型能准确预测流失客户的核心所在。其中某种时间维度指的是其提取流失特征的时间长度,如近12个月、近6个月、近1个月、7天等。
完成流失特征提取后,对每个优质客户的流失特征数据中的金额类特征进行对数化处理。如样本Ni的金额类特征为(F1,F2,…,Fn),按转换公式
Figure BDA0002768260160000083
得到金额类新的特征为
Figure BDA0002768260160000084
缩减特征的量纲,在使用“树”类算法时,有助于最优分割点的搜索,以提升准确率。
A1.4:划分优质客户流失预测样本数据集为比例适当的训练集DTrain和测试集DTest,分别用于模型的训练和评估。优质客户流失预测样本数据集D=DTrain∪DTest,根据数据的实际情况,通常划分满足训练集样本量NTrain与测试集的样本量NTest之比为
Figure BDA0002768260160000085
A2:利用构建的优质客户流失预测样本数据集对基于XGBoost算法构建的预测模型进行训练得到优质客户流失预测模型,具体包括:
A2.1:根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,有助于缓解类别不均衡带来的影响,还能让模型更“关注”高资产客户的流失情况,提升模型的准确率和预测价值;具体包括:
每个样本的权重通过如下公式确定:
Figure BDA0002768260160000091
其中,a=(a1,a2,…,an)表示优质客户流失预测样本数据集中样本的资产,ai表示第i个样本的资产,yi表示第i个样本的流失标签,α>0,α∈{1,2,…},α根据模型的评估指标适当调整。
A2.2:选择XGBoost算法构建预测模型;
A2.3:设y为优质客户流失预测样本数据集的流失标签,X为优质客户流失预测样本数据集的特征矩阵,θ为XGBoost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数
Figure BDA0002768260160000092
其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(·)为基于XGBoost算法构建预测模型,
Figure BDA0002768260160000093
Figure BDA0002768260160000094
表示xgb(·)在超参数θ下样本数据对应的预测标签
Figure BDA0002768260160000095
函数
Figure BDA0002768260160000096
表示流失标签y与预测标签
Figure BDA0002768260160000097
的匹配度,考虑到样本权重w,即
Figure BDA0002768260160000098
Figure BDA0002768260160000099
为位于计算,即
Figure BDA00027682601600000910
其中wi表示第i个样本的权重,yi表示第i个样本的流失标签,
Figure BDA00027682601600000911
表示第i个样本的预测标签,
Figure BDA00027682601600000912
表示目标函数最大时对应的参数θ;
A2.4:使用最优参数
Figure BDA00027682601600000913
结合训练集和测试集,根据early stop(早停法)策略,在模型的训练中确定最优迭代次数m,得到优质客户流失预测模型。
得到训练好的优质客户流失预测模型后,即可基于监督学习的优质客户流失预测,如图4所示,具体包括:
S01:获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
S02:将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果。
更具体的,包括:
筛选出时间t下待流失预测的优质客户;时间t可为当前时间,待流失预测的优质客户的筛选方法可参见步骤A1.1的方法;
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取当前时间t前预设时间段内的流失特征数据;流失特征数据提取方法可参见步骤A1.3,区别在于此时的观测时间为当前时间t;此处预设时间段可根据需要设定为3个月、6个月或12个月等。
把提取的流失特征数据,输入到训练好的优质客户流失预测模型中,通过计算便能得到该待流失预测优质客户在t+T时间流失的概率。
本发明实施例还提供了一种基于监督学习的优质客户流失预测装置,包括:
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
本实施例中具体实现方案参见前述实施例提供的一种基于监督学习的优质客户流失预测方法,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于监督学习的优质客户流失预测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于监督学习的优质客户流失预测方法,其特征在于,包括:
获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
2.根据权利要求1所述的基于监督学习的优质客户流失预测方法,其特征在于,所述优质客户流失预测样本数据集通过如下方法构建:
获取客户在银行的资产情况并与预设阈值比较,筛选出多个优质客户;
选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;
针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集;
所述获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据,包括:
筛选出时间t下待流失预测的优质客户;
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取时间t前预设时间段内的流失特征数据。
3.根据权利要求2所述的基于监督学习的优质客户流失预测方法,其特征在于,所述选定观测期,判断出多个优质客户的流失标签和观测时间,包括:
选定一个观测期[t0,tn];
基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;
验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;
将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,对于观测期内未流失的优质客户,将观测期的截止时间tn作为其对应的观测时间。
4.根据权利要求3所述的基于监督学习的优质客户流失预测方法,其特征在于,所述基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间,包括:
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
活期 定期 理财 流失标签 流失日期 * 1 1 1 (fx_dt,inv_dt) * ^1 1 1 inv_dt * 1 ^1 1 fx_dt 1 -1 -1 1 sv_dt 0 -1 -1 -1 * ^1 0 0 * 0 -1 0 -1 -1 -1 NULL
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,NULL表示不存在此类优质客户,流失标签为-1时表示此时需另外对此类优质客户做一个流失判断,具体为观测期内连续日期{t1,t2,…,tm}的活期余额
Figure FDA0002768260150000021
都小于相应[t0,ti],i∈{1,2,…,m}区间的日均活期余额
Figure FDA0002768260150000022
Figure FDA0002768260150000023
则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。
5.根据权利要求4所述的基于监督学习的优质客户流失预测方法,其特征在于,所述验证每个优质客户的流失标签的准确性,包括:
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。
6.根据权利要求2所述的基于监督学习的优质客户流失预测方法,其特征在于,所述基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,包括:
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
对每个优质客户的流失特征数据中的金额类特征进行对数化处理。
7.根据权利要求2所述的基于监督学习的优质客户流失预测方法,其特征在于,使用XGBoost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,具体包括:
根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重;
选择XGBoost算法构建预测模型;
设y为优质客户流失预测样本数据集的流失标签,X为优质客户流失预测样本数据集的特征矩阵,θ为XGBoost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数
Figure FDA0002768260150000031
其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(·)为基于XGBoost算法构建预测模型,
Figure FDA0002768260150000032
Figure FDA0002768260150000033
表示xgb(·)在超参数θ下样本数据对应的预测标签
Figure FDA0002768260150000034
函数
Figure FDA0002768260150000035
表示流失标签y与预测标签
Figure FDA0002768260150000036
的匹配度,
Figure FDA0002768260150000037
表示目标函数最大时对应的参数θ;
将优质客户流失预测样本数据集划分为训练集和测试集,使用最优参数
Figure FDA0002768260150000038
根据earlystop策略,在模型的训练中确定最优迭代次数m,得到优质客户流失预测模型。
8.根据权利要求7所述的基于监督学习的优质客户流失预测方法,其特征在于,所述根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,包括:
每个样本的权重通过如下公式确定:
Figure FDA0002768260150000039
其中,a=(a1,a2,…,an)表示优质客户流失预测样本数据集中样本的资产,ai表示第i个样本的资产,yi表示第i个样本的流失标签,α>0。
9.一种基于监督学习的优质客户流失预测装置,其特征在于,包括:
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用XGBoost算法在构建的优质客户流失预测数据集上训练得到。
10.一种计算机可读存储介质,其包括存储的计算机程序,其特征在于,所述计算机程序适于被处理器加载并执行如权利要求1至9任一项所述的基于监督学习的优质客户流失预测方法。
CN202011240662.8A 2020-11-09 2020-11-09 基于监督学习的优质客户流失预测方法、装置及存储介质 Pending CN112308623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011240662.8A CN112308623A (zh) 2020-11-09 2020-11-09 基于监督学习的优质客户流失预测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011240662.8A CN112308623A (zh) 2020-11-09 2020-11-09 基于监督学习的优质客户流失预测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112308623A true CN112308623A (zh) 2021-02-02

Family

ID=74325317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011240662.8A Pending CN112308623A (zh) 2020-11-09 2020-11-09 基于监督学习的优质客户流失预测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112308623A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905951A (zh) * 2021-02-04 2021-06-04 广西智汇佳人力资源有限公司 一种客户属性分析方法
CN114154672A (zh) * 2021-09-30 2022-03-08 中国农业银行股份有限公司河北省分行 一种用于客户流失预测的数据挖掘方法
CN116883070A (zh) * 2023-09-05 2023-10-13 上海银行股份有限公司 一种银行代发薪资客户流失预警方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273430A1 (en) * 2004-06-02 2005-12-08 Pliha Robert K Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acqusition, performance and risk events defined by the bank using a decision tree and stochastic process
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置
CN108764994A (zh) * 2018-05-24 2018-11-06 深圳前海桔子信息技术有限公司 一种用户行为指引方法、装置、服务器和存储介质
CN109285038A (zh) * 2018-10-16 2019-01-29 浪潮软件集团有限公司 一种通过bp神经网络预测银行客户流失的方法
WO2019201310A1 (en) * 2018-04-20 2019-10-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for coupon issuing
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273430A1 (en) * 2004-06-02 2005-12-08 Pliha Robert K Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acqusition, performance and risk events defined by the bank using a decision tree and stochastic process
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置
WO2019201310A1 (en) * 2018-04-20 2019-10-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for coupon issuing
CN108764994A (zh) * 2018-05-24 2018-11-06 深圳前海桔子信息技术有限公司 一种用户行为指引方法、装置、服务器和存储介质
CN109285038A (zh) * 2018-10-16 2019-01-29 浪潮软件集团有限公司 一种通过bp神经网络预测银行客户流失的方法
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905951A (zh) * 2021-02-04 2021-06-04 广西智汇佳人力资源有限公司 一种客户属性分析方法
CN114154672A (zh) * 2021-09-30 2022-03-08 中国农业银行股份有限公司河北省分行 一种用于客户流失预测的数据挖掘方法
CN116883070A (zh) * 2023-09-05 2023-10-13 上海银行股份有限公司 一种银行代发薪资客户流失预警方法

Similar Documents

Publication Publication Date Title
CN112308623A (zh) 基于监督学习的优质客户流失预测方法、装置及存储介质
US20190392295A1 (en) Information processing device, method, and program that use deep learning
CN111667307B (zh) 一种理财产品销量的预测方法及装置
US20200250623A1 (en) Systems and techniques to quantify strength of a relationship with an enterprise
CN114331671A (zh) 借贷风险监控方法、装置、服务器及存储介质
CN112613997A (zh) 货币基金的组合投资预测方法和预测装置
CN111967973B (zh) 银行客户数据处理方法及装置
Yılmaz et al. Causal inference under selection on observables in operations management research: Matching methods and synthetic controls
CN116911994B (zh) 对外贸易风险预警系统
CN111275480B (zh) 面向多维稀疏销售数据仓库的欺诈行为挖掘方法
Nouri-Harzvili et al. Evolutionary marketing strategies for new high-technology product sales: Effects of customers’ innovation adoption
CN111160929A (zh) 一种客户类型的确定方法及装置
CN110796379A (zh) 业务渠道的风险评估方法、装置、设备及存储介质
Bernat et al. Modelling customer lifetime value in a continuous, non-contractual time setting
CN112232945B (zh) 一种确定个人客户授信的方法及装置
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
Krusinskas et al. THE RESEARCH OF RELIABILITY OF BANKRUPTCY PREDICTION MODELS IN LITHUANIAN COMPANIES.
Lyocsa et al. Default or Profit Scoring Credit Systems? Evidence from an Emerging High-Risk P2P Loan Market.
CN111598256B (zh) 目标客户的默搭购买行为的处理方法和装置
Geng Innovative Development Path of E-Commerce and Civil and Commercial Law in the Information Age Based on Discrete Regression Algorithm
Gundogmus et al. Riskbased Fraud Analysis for Bank Loans with Autonomous Machine Learning
Kallas Technical efficiency and firm exit in the wine and meat sector: Policy implications
CN117454272A (zh) 消费券的发放方法及装置、存储介质和电子设备
Nygård AI-Assisted Lead Scoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination