CN111932020B - 客户流失预测方法和装置 - Google Patents

客户流失预测方法和装置 Download PDF

Info

Publication number
CN111932020B
CN111932020B CN202010819955.5A CN202010819955A CN111932020B CN 111932020 B CN111932020 B CN 111932020B CN 202010819955 A CN202010819955 A CN 202010819955A CN 111932020 B CN111932020 B CN 111932020B
Authority
CN
China
Prior art keywords
fields
data information
client
customer
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010819955.5A
Other languages
English (en)
Other versions
CN111932020A (zh
Inventor
李羊
王雅楠
马晓楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC, ICBC Technology Co Ltd filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010819955.5A priority Critical patent/CN111932020B/zh
Publication of CN111932020A publication Critical patent/CN111932020A/zh
Application granted granted Critical
Publication of CN111932020B publication Critical patent/CN111932020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种客户流失预测方法和装置,该方法包括:获取待预测客户的数据信息;利用词嵌入技术将该数据信息转换成客户特征;将该客户特征输入预训练的LightGBM模型得到预测结果。其中,通过利用词嵌入技术得到客户特征,稀疏性低、维度高,结合LightGBM模型,能够准确预测流失。

Description

客户流失预测方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种客户流失预测方法和装置。
背景技术
不同场景中设定的流失意义不同,客户流失可以是客户在某银行所有业务终止,并销号,亦可是具体业务部门单独定义在该部门的全部或某些业务上,客户的终止行为。数据显示国内商业银行客户流失率可达20%甚至更高,而获得新客户的成本,可达维护现有客户的5倍。因此,从海量客户交易记录中挖掘出对流失有影响的信息,建立高效的客户流失预警体系尤为重要。
目前,各大银行的流失预警往往是实际业务人员凭借自己经验分析流失用户的特点预测用户流失,在缺乏足够业务知识时特征选取存在困难;另外,在将数据特征数值化时常采用one-hot编码进行数值表示,但是存在稀疏性高、维度高,不能准确预测流失的问题。
发明内容
针对现有技术中的问题,本发明提供一种客户流失预测方法和装置、电子设备以及计算机可读存储介质,能够至少部分地解决现有技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种客户流失预测方法,包括:
获取待预测客户的数据信息;
利用词嵌入技术将该数据信息转换成客户特征;
将该客户特征输入预训练的LightGBM模型得到预测结果。
进一步地,该数据信息包括多个特征字段,该利用词嵌入技术将该数据信息转换成客户特征,包括:
利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量;
对所述特征字段中除所述部分特征字段之外的各特征字段分别进行数值化得到对应的编码值;
根据预设的拼接规则将各特征字段对应的向量或编码值融合得到该客户特征。
进一步地,该利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量,包括:
利用one-hot编码将待转换的各特征字段转换为对应的编码值;
利用词嵌入技术将各特征字段对应的编码值转换为对应的向量。
进一步地,该利用词嵌入技术将该数据信息转换成客户特征,还包括:
对该编码值进行归一化。
进一步地,还包括:
获取历史流失客户数据信息,该历史流失客户数据信息包括多个字段;
计算各字段与是否流失结果之间的信息熵;
根据该信息熵选取部分字段作为特征字段;
根据选取的特征字段建立LightGBM模型;
根据历史客户数据信息训练该LightGBM模型。
第二方面,提供一种客户流失预测装置,包括:
预测样本获取模块,获取待预测客户的数据信息;
特征提取转换模块,利用词嵌入技术将该数据信息转换成客户特征;
预测模块,将该客户特征输入预训练的LightGBM模型得到预测结果。
进一步地,该数据信息包括多个特征字段,该特征提取转换模块包括:
词嵌入单元,利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量;
编码单元,对所述特征字段中除所述部分特征字段之外的各特征字段分别进行数值化得到对应的编码值;
特征融合单元,根据预设的拼接规则将各特征字段对应的向量或编码值融合得到该客户特征。
进一步地,还包括:
历史数据获取模块,获取历史流失客户数据信息,该历史流失客户数据信息包括多个字段;
信息熵计算模块,计算各字段与是否流失结果之间的信息熵;
特征选取模块,根据该信息熵选取部分字段作为特征字段;
建模模块,根据选取的特征字段建立LightGBM模型;
训练模块,根据历史客户数据信息训练该LightGBM模型。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现上述的客户流失预测方法的步骤。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的客户流失预测方法的步骤。
本发明提供的客户流失预测方法和装置,该方法包括:获取待预测客户的数据信息;利用词嵌入技术将该数据信息转换成客户特征;将该客户特征输入预训练的LightGBM模型得到预测结果。其中,通过利用词嵌入技术得到客户特征,稀疏性低、维度高,结合LightGBM模型,能够准确预测流失。
另外,在建模时,通过计算各字段与是否流失结果之间的信息熵;根据该信息熵选取部分字段作为特征字段,能够不依赖人工经验,基于字段与结果之间的关联选取特征,解决实际业务人员凭借自己经验分析流失用户的特点预测用户流失,在缺乏足够业务知识时特征选取存在困难的问题。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中的服务器S1与客户端设备B1之间的架构示意图;
图2为本发明实施例中的服务器S1、客户端设备B1及数据库服务器S2之间的架构示意图;
图3是本发明实施例中的客户流失预测方法的流程示意图;
图4示出了本发明实施例所采用的LightGBM模型中的GOSS算法;
图5示出了本发明实施例所采用的LightGBM模型中的EFB算法;
图6示出了本发明实施例中一种步骤S200的具体步骤;
图7示出了本发明实施例中步骤S210的具体步骤;
图8示出了本发明实施例中另一种步骤S200的具体步骤;
图9示出了本发明实施例中建模训练过程;
图10例举了本发明实施例中模型构建训练过程的流程;
图11示出了本发明实施例中利用预测好的模型进行预测的过程;
图12是本发明实施例中的客户流失预测装置的结构框图;
图13示出了本发明实施例中特征提取转换模块的具体结构;
图14为本发明实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
One-hot:独热编码,用N位寄存器编码状态,每个状态都有独立的寄存器,且这些位置只有一位有效,数值为1,其余均为0。
词嵌入(Word-Embedding):自然语言处理中语言模型与表征技术的统称,把维数为所有次数量的高维稀疏空间嵌入到低维稠密的向量空间汇中。
现有客户流失预测技术,特征工程通常以需要业务经验,人为选定特征,在缺乏足够业务知识时特征选取存在困难;另外,特征数值化时常采用one-hot进行数值表示,但是存在稀疏性的缺点。
为至少部分解决现有技术中的上述技术问题,本发明实施例提供了一种客户流失预测方法,能够根据历史数据自动从众多特征中选取有效、高价值的特征组合,根据客户基本信息、金融资产信息、融资等信息等挖掘深层特征,不依赖于业务人员的经验选择字段,通过计算信息熵来自动化选取有效特征,可辅助解决业务不足的缺点,通过计算其与结果之间的信息熵来评估该信息的重要程度。
另外,为解决对于文字类特征用one-hot进行类比映射,特征选取时用one-hot编码存在稀疏性,纬度高,且不具有语义信息的缺点,本发明引入NLP中词嵌入思路,将特征编码为低维,稠密的向量表示。在特征阶段用词嵌入表示,拼接用户特征,数值中包含语义信息,相似语义数值上更接近。
有鉴于此,本申请提供了一种客户流失预测装置,该装置可以为一种服务器S1,参见图1,该服务器S1可以与至少一个客户端设备B1(比如银行人员的客户端)通信连接,所述客户端设备B1可以将待预测客户的数据信息发送至所述服务器S1,所述服务器S1可以在线接收所述待预测客户的数据信息。所述服务器S1可以在线或者离线对获取的待预测客户的数据信息进行预处理,利用词嵌入技术将所述数据信息转换成客户特征;将所述客户特征输入预训练的LightGBM模型得到预测结果。而后,所述服务器S1可以将预测结果在线发送至所述客户端设备B1。所述客户端设备B1可以在线接收所述预测结果。
另外,参见图2,所述服务器S1还可以与至少一个数据库服务器S2通信连接,所述数据库服务器S2用于存储历史客户数据信息。所述数据库服务器S2在线将所述历史客户数据信息发送至所述服务器S1,所述服务器S1可以在线接收所述历史客户数据信息,而后根据多个历史客户数据信息获取该模型的训练样本集,应用所述训练样本集对所述模型进行模型训练。
基于上述内容,所述数据库服务器S2还可以用于存储测试用历史客户数据信息。所述数据库服务器S2在线将所述历史客户数据信息发送至所述服务器S1,所述服务器S1可以在线接收所述历史客户数据信息,而后根据至少一个历史客户数据信息得到测试样本,并应用所述测试样本对所述模型进行模型测试,并将该模型的输出作为测试结果,再基于所述测试结果及至少一个历史客户数据信息的已知评价结果,判断当前模型是否符合预设要求,若是,则将当前模型作为用于客户流失预测的目标模型;若当前模型不符合所述预设要求,则对当前模型进行优化和/或应用更新后的训练样本集重新对该模型进行模型训练。
基于上述内容,所述客户端设备B1可以具有显示界面,使得用户能够根据界面查看所述服务器S1发送的所述预测结果。
可以理解的是,所述客户端设备B1可以包括智能手机、平板电子设备、便携式计算机、台式电脑等。
在实际应用中,进行客户流失预测的部分可以在如上述内容所述的服务器S1侧执行,即,如图1所示的架构,也可以所有的操作都在所述客户端设备B1中完成,且该所述客户端设备B1可以直接与数据库服务器S2进行通信连接。具体可以根据所述客户端设备B1的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备B1中完成,所述客户端设备B1还可以包括处理器,用于进行客户流失预测的具体处理。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
在本申请的一个或多个实施例中,所述测试用历史客户数据信息为未包含在用于模型训练的历史客户数据信息中的,且针对所述测试用历史客户数据信息,需获取其已知评价结果。
图3是本发明实施例中的客户流失预测方法的流程示意图;如图3所示,该客户流失预测方法可以包括以下内容:
步骤S100:获取待预测客户的数据信息;
具体地,整合客户的数据信息,如客户基本信息:注册时间、注册地址、注册金额、公司性质等;金融资产:客户存款,理财产品等;将数据存储于同一表中。客户的流失有些是瞬发的,有些是规律性的,瞬发的很难把握,而规律性的可以把握,如这周和这个季度的资产环比下降了多少、这个月理财和上个月理财环比下降多少。
步骤S200:利用词嵌入技术将所述数据信息转换成客户特征;
其中,客户的数据信息包括多个字段,将每个字段进行转换后融合,实现体征提取,得到客户特征。
步骤S300:将所述客户特征输入预训练的LightGBM模型得到预测结果。
将客户特征作为预测样本,输入预训练的LightGBM模型,得出预测结果。
通过采用上述技术方案,利用词嵌入技术得到客户特征,稀疏性低、维度高,结合LightGBM模型,能够准确预测流失。
在一个可选的实施例中,利用词嵌入技术将所述数据信息转换成客户特征时,需要对数据信息进行提取,根据模型输入,筛选字段作为构建客户特征的基础数据。
值得说明的是,LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点:
(1)GOSS采样算法:
LightGBM利用了GOSS(基于梯度的one-side采样)作为采样算法,参见图4。即:单边梯度采样Gradient-based One-Side Sampling(GOSS),使用GOSS可以减少大量只具有小梯度的数据实例,这样在计算信息增益的时候只需利用剩下的具有高梯度的数据即可,相比其他算法中遍历所有特征值的方式节省了不少时间和空间上的开销。
(2)EFB算法:
EFB(Exclusive Feature Bundling)是通过特征捆绑的方式减少特征维度(其实是降维技术)的方式来提升计算效率,参见图5。
(3)直接支持高效并行
LightGBM原生支持并行学习,目前支持特征并行和数据并行的两种。特征并行的主要思想是在不同机器在不同的特征集合上分别寻找最优的分割点,然后在机器间同步最优的分割点。数据并行则是让不同的机器先在本地构造直方图,然后进行全局的合并,最后在合并的直方图上面寻找最优分割点。
(4)直接支持类别特征
LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的0/1展开。并在决策树算法上增加了类别特征的决策规则。
(5)较高的精准度
LightGBM采用leaf-wise生长策略,每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子,然后分裂,如此循环。因此同Level-wise相比,在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更好的精度。
综上所述,LightGBM模型作为一种机器学习模型,与决策树、集成学习、随机森林等相比,分类效果更好。本发明实施例选择LightGBM算法来高效、平稳、精准地训练用户流失模型。通过训练集进行模型训练,通过验证集来调试模型参数,最后通过测试集来评测。
值得说明的是,LightGBM模型可在python中调用。
在一个可选的实施例中,所述数据信息包括多个特征字段,参见图6,该步骤S200包括以下内容:
步骤S210:利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量;
具体地,对于one-hot编码后稀疏性高的字段,利用词嵌入技术将部分特征字段分别转换为对应的向量。
举例来说,计算机只能计算数值,需要将数据信息转化为数值表示。如公司类别可根据人数分为:小型、中型、大型;根据类型分为私企、国企、中外合资和外企等。当类别很多时,用one-hot表示会出现稀疏性,如全球上万城市需要有上万维度数据,计算量很大。为提升计算速度,将此类特征编码为低维词向量,调用python中的sklearn模块将其类别多的属性编码到几十维的空间上表示实现词嵌入。
步骤S220:对所述特征字段中除所述部分特征字段之外的各特征字段分别进行数值化得到对应的编码值;
对于数值字段等一些字段,将字段分别进行数值化得到对应的编码值;
步骤S230:根据预设的拼接规则将各特征字段对应的向量或编码值融合得到所述客户特征。
具体地,预设的拼接规则可以包括预设顺序、编码截取长度等,具体根据实际需要设定。
通过采用部分字段利用词嵌入技术转化,部分字段直接数值化,在降低稀疏性的基础上,兼顾性能和速度,进一步提高模型预测的效率。
在一个可选的实施例中,参见图7,该步骤S210可以包括以下内容:
步骤S211:利用one-hot编码将待转换的各特征字段转换为对应的编码值;
步骤S212:利用词嵌入技术将各特征字段对应的编码值转换为对应的向量。
在一个可选的实施例中,参见图8,该步骤S200还可以包括:
步骤S240:对所述编码值进行归一化。
具体地,将所有值都压缩在0-1范围内数值,如资金100万,公司人数20人,压缩到一定范围内。
在一个可选的实施例中,该客户流失预测方法还可以包括:建模训练过程;具体地,参见图9,该建模训练过程可以包括以下内容:
步骤S400:获取历史流失客户数据信息,所述历史流失客户数据信息包括多个字段;
具体地,在历史数据库中找到已经流失的客户,作为建模的数据基础。
步骤S500:计算各字段与是否流失结果之间的信息熵;
具体地,历史流失客户数据信息包括多个字段,分别计算各字段与是否流失结果之间的信息熵,以便衡量各字段对于流失结果的重要程度。
步骤S600:根据所述信息熵选取部分字段作为特征字段;
选取各字段中信息熵高的字段作为模型的输入特征。
步骤S700:根据选取的特征字段建立LightGBM模型;
根据选取的字段,定义模型的输入,模型的算法通过python调用。
步骤S800:根据历史客户数据信息训练所述LightGBM模型。
具体地,获取历史客户数据信息,该历史客户数据信息包括历史流失客户数据信息以及未流失的客户数据信息,流失的客户数据信息作为正例样本,未流失的客户数据信息作为负例样本。
在一个可选的实施例中,步骤S500之前还可以包括:去除数据中无意义的字段、数据不完整的字段以及不具有区分性的字段。
为了进一步提高效率,可以认为地先去除一些与预测结果无关的字段,然后再采用信息熵来计算剩余字段对于是否流失的重要性。经过字段筛选后,保留了部分字段。
在一个可选的实施例中,该步骤S800可以包括以下内容:
步骤I:整合历史数据,获取历史客户数据信息;
步骤II:数据抽取;
具体地,从历史客户数据信息中,抽取模型输入所需字段,用于后续处理。
步骤III:数值化;
具体地,利用词嵌入技术将部分特征字段分别转换为对应的向量;对其他各特征字段分别进行数值化得到对应的编码值;根据预设的拼接规则将各特征字段对应的向量或编码值融合得到所述客户特征。
其中,利用词嵌入技术将部分特征字段分别转换为对应的向量时,利用one-hot编码将待转换的各特征字段转换为对应的编码值;利用词嵌入技术将各特征字段对应的编码值转换为对应的向量。
另外,还包括对数值进行归一化标准化的过程。
步骤V:将处理好的数据拆分为训练集、验证集和测试集。其中,训练集用来评估模型,验证集用来调整模型参数从而得到最优模型,而测试集则检验最优的模型性能。可以将训练集占总样本的60%,而其它各占20%,三部分都是从样本中随机抽取。流失模型预测模式属于有监督的回归问题,考虑计算效率、计算资源紧张、数据量大、特征稀疏和预防模型过拟合等因素,采用LightGBM算法训练模型。
在一个可选的实施例中,该步骤S800还可以包括:数据增强步骤。
具体地,对于数据不均衡现象,流失数据与非流失数据比例不均衡,即正例样本和负例样本的比例不均衡时,通过数据增强来补充少样本数据,保证两种分类数据相对均衡。
值得说明的是,在实际应用场景中更关心分类为未流失而出现流失的情况,损失比较严重,并且,更关注真实流失数据中有多少比例被召回,用召回率recall和准确率构成的Map曲线;面积越大,效果越好。因此,需要设定阈值,通过根据对于流失率得分,如有的用户流失率为60%,有的为90%,针对目前的资源量来选定阈值,用其进行切分在效果和数量上达到权衡。如果资源有限,可以优先挽留流失率高的用户,这个可根据实际情况和业务场景调整。
另外,在应用阶段,采集生产数据进行数据预处理,然后通过模型计算得到风险得分,将得分与阈值比较,筛选出高于阈值的用户,并采取对应的挽留方案。
为了使本领域技术人员更好地理解本发明,下面举例对模型训练以及模型应用过程进行说明:
图10例举了本发明实施例中模型构建训练过程的流程;如图10所示,该模型训练过程包括:
对训练数据进行预处理的过程,具体地,包括:数据整合、数据抽取(人工+信息熵),得到的多个字段中部分字段利用词嵌入技术进行特征化,另外的字段进行数值化、归一化、标准化,特征化的值与标准化后的值融合,得到样本数据,将样本数据拆分为训练集、验证集,将训练集输入LightGBM训练分类器模型,用验证集对训练后的模型评估指标,根据评估结果进行阈值设定计算,获得最优阈值,实现模型训练过程。
另外,在数据拆分时,还可以拆分出测试集,用于在训练完成阈值设置完成后,将测试数据输入训练好的模型,以验证模型的精度。
图11示出了本发明实施例中利用预测好的模型进行预测的过程,即模型应用过程,具体包括:
生产用户数据预处理阶段,包括:数据整合、数据抽取,抽取到的字段部分利用词嵌入技术进行特征化,部分进行数值化、归一化、标准化,之后将特征化的结果与标准化的结果进行融合得到客户特征,输入预训练的LightGBM模型得到用户得分,件该用户得分与预先设置好的阈值进行比较,筛选出高于阈值的用户,推送给工作人员,以便采取对应的挽留。
综上所述,本发明实施例提供的客户流失预测方法,将业务历史数据整合后进行数据加工处理,通过数据分析,去除错误数据和无用数据,整理出业务可用到的结构化数据,根据信息熵确定用于预测用户是否流失需要用到的特征,将结构化数据整理得到用于模型预测的用户特征,然后构建并训练流失模型,将已知的流失用户和其特征作为模型的训练数据输入模型来对模型进行训练,然后验证流失模型,即将训练好的流失模型用于预测已知的流失用户,计算模型预测的准确率,最后应用流失模型:模型达到预期效果,便可应用于流失用户的预测。其中,在特征选择时设计特征重要性自动筛选,通过计算该特征与是否流失结果的互信息量(也可称为信息熵),互信息量越大,则关系越密切,可帮助减少业务不熟和选取特征不合理的现象。另外,将稀疏高维的One-Hot转化为Word-Embedding,用低维稠密的数值表示,计算更快捷高效,同时选用分类效果更好的LightGBM作为分类器,在计算开销、计算时间以及性能上都有所提升,可有效及时发现潜在的流失客户,帮助筛选出高风险流失客户,银行可及时采取对应挽留方案,减少客户流失,增加企业盈利。
值得说明的是,在对公关系业务场景中,可设定客户账户资金低于某一值或者客户销号作为判定客户是否流失的依据,通过运用景模型,预测并生成即将可能流失的线上银行客户名单(尤其是高净值客户),并分析该类客户以往的登陆行为、产品偏好等,供业务部门实施精准挽留,客户流失预警可及时发现流失概率高的客户,采取对应挽留方案,减少客户流失,增加企业盈利。
另外,不需要业务人员去主观的确定判断用户是否流失,不需要业务人员去分析流失用户的特点并总结流失用户流失前的特点并作为判断用户即将流失的依据,由模型根据历史数据自主地学习流失前的用户数据特征与用户是否流失之间的关系,具体通过查询历史数据,找出有过销户的客户并将其列为流失用户,将这些用户的数据作为正例样本,通过对样本进行分析,将这部分用户销户之前的行为找出并分析,确定导致客户流失的具体原因或客户流失之前的特征,减少业务人员消耗的时间,准确挖掘用户流失的潜在原因,防止人为选取特征时导致的问题。
基于同一发明构思,本申请实施例还提供了一种客户流失预测装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于客户流失预测装置解决问题的原理与上述方法相似,因此客户流失预测装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图12是本发明实施例中的客户流失预测装置的结构框图。如图12所示,该客户流失预测装置具体包括:预测样本获取模块10、特征提取转换模块20以及预测模块30。
预测样本获取模块10获取待预测客户的数据信息;
特征提取转换模块20利用词嵌入技术将所述数据信息转换成客户特征;
预测模块30将所述客户特征输入预训练的LightGBM模型得到预测结果。
通过采用上述技术方案,利用词嵌入技术得到客户特征,稀疏性低、维度高,结合LightGBM模型,能够准确预测流失。
在一个可选的实施例中,所述数据信息包括多个特征字段,参见图13,所述特征提取转换模块包括:词嵌入单元21、编码单元22以及特征融合单元23。
词嵌入单元21利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量;
编码单元22对所述特征字段中除所述部分特征字段之外的各特征字段分别进行数值化得到对应的编码值;
特征融合单元23根据预设的拼接规则将各特征字段对应的向量或编码值融合得到所述客户特征。
在一个可选的实施例中,该客户流失预测装置还包括:历史数据获取模块、信息熵计算模块、特征选取模块、建模模块以及训练模块。
历史数据获取模块获取历史流失客户数据信息,所述历史流失客户数据信息包括多个字段;
信息熵计算模块计算各字段与是否流失结果之间的信息熵;
特征选取模块根据所述信息熵选取部分字段作为特征字段;
建模模块根据选取的特征字段建立LightGBM模型;
训练模块根据历史客户数据信息训练所述LightGBM模型。
上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备,具体的,电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述客户流失预测方法的步骤。
下面参考图14,其示出了适于用来实现本申请实施例的电子设备600的结构示意图。
如图14所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述客户流失预测方法的步骤。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种客户流失预测方法,其特征在于,包括:
获取待预测客户的数据信息;
利用词嵌入技术将所述数据信息转换成客户特征;
将所述客户特征输入预训练的LightGBM模型得到预测结果;
其中,所述数据信息包括多个特征字段,所述利用词嵌入技术将所述数据信息转换成客户特征,包括:
对于one-hot编码后稀疏性高的字段,利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量;
对所述特征字段中除所述部分特征字段之外的各特征字段分别进行数值化得到对应的编码值;
根据预设的拼接规则将各特征字段对应的向量或编码值融合得到所述客户特征,其中,所述预设的拼接规则包括预设顺序和编码截取长度。
2.根据权利要求1所述的客户流失预测方法,其特征在于,所述利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量,包括:
利用one-hot编码将待转换的各特征字段转换为对应的编码值;
利用词嵌入技术将各特征字段对应的编码值转换为对应的向量。
3.根据权利要求1所述的客户流失预测方法,其特征在于,所述利用词嵌入技术将所述数据信息转换成客户特征,还包括:
对所述编码值进行归一化。
4.根据权利要求1所述的客户流失预测方法,其特征在于,还包括:
获取历史流失客户数据信息,所述历史流失客户数据信息包括多个字段;
计算各字段与是否流失结果之间的信息熵;
根据所述信息熵选取部分字段作为特征字段;
根据选取的特征字段建立LightGBM模型;
根据历史客户数据信息训练所述LightGBM模型。
5.一种客户流失预测装置,其特征在于,包括:
预测样本获取模块,获取待预测客户的数据信息;
特征提取转换模块,利用词嵌入技术将所述数据信息转换成客户特征;
预测模块,将所述客户特征输入预训练的LightGBM模型得到预测结果;
其中,所述数据信息包括多个特征字段,所述特征提取转换模块包括:
词嵌入单元,对于one-hot编码后稀疏性高的字段,利用词嵌入技术将所述特征字段中的部分特征字段分别转换为对应的向量;
编码单元,对所述特征字段中除所述部分特征字段之外的各特征字段分别进行数值化得到对应的编码值;
特征融合单元,根据预设的拼接规则将各特征字段对应的向量或编码值融合得到所述客户特征,其中,所述预设的拼接规则包括预设顺序和编码截取长度。
6.根据权利要求5所述的客户流失预测装置,其特征在于,还包括:
历史数据获取模块,获取历史流失客户数据信息,所述历史流失客户数据信息包括多个字段;
信息熵计算模块,计算各字段与是否流失结果之间的信息熵;
特征选取模块,根据所述信息熵选取部分字段作为特征字段;
建模模块,根据选取的特征字段建立LightGBM模型;
训练模块,根据历史客户数据信息训练所述LightGBM模型。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的客户流失预测方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的客户流失预测方法的步骤。
CN202010819955.5A 2020-08-14 2020-08-14 客户流失预测方法和装置 Active CN111932020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010819955.5A CN111932020B (zh) 2020-08-14 2020-08-14 客户流失预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010819955.5A CN111932020B (zh) 2020-08-14 2020-08-14 客户流失预测方法和装置

Publications (2)

Publication Number Publication Date
CN111932020A CN111932020A (zh) 2020-11-13
CN111932020B true CN111932020B (zh) 2024-02-27

Family

ID=73310968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010819955.5A Active CN111932020B (zh) 2020-08-14 2020-08-14 客户流失预测方法和装置

Country Status (1)

Country Link
CN (1) CN111932020B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837517B (zh) * 2020-12-01 2024-08-20 北京沃东天骏信息技术有限公司 事件的触发方法及装置、介质及电子设备
CN113379452A (zh) * 2021-06-07 2021-09-10 广发银行股份有限公司 一种手机银行客户流失预警方法及系统
CN113570044A (zh) * 2021-07-30 2021-10-29 中国银行股份有限公司 客户流失分析模型训练方法及装置
CN113610324A (zh) * 2021-08-27 2021-11-05 中国银行股份有限公司 一种基于LightGBM的开户审核方法及相关设备
CN113947246B (zh) * 2021-10-21 2023-06-13 腾讯科技(深圳)有限公司 基于人工智能的流失处理方法、装置及电子设备
CN114022222A (zh) * 2021-11-25 2022-02-08 北京京东振世信息技术有限公司 客户流失预测方法及装置、存储介质及电子设备
CN114584601B (zh) * 2022-01-26 2024-09-13 上海钧正网络科技有限公司 用户流失识别及干预方法、系统、终端及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889724A (zh) * 2019-11-22 2020-03-17 北京明略软件系统有限公司 客户流失预测方法、装置、电子设备和存储介质
CN111311338A (zh) * 2020-03-30 2020-06-19 网易(杭州)网络有限公司 用户价值的预测方法以及用户价值预测模型的训练方法
CN111401433A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 用户信息获取方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289967B2 (en) * 2013-03-01 2019-05-14 Mattersight Corporation Customer-based interaction outcome prediction methods and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889724A (zh) * 2019-11-22 2020-03-17 北京明略软件系统有限公司 客户流失预测方法、装置、电子设备和存储介质
CN111401433A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 用户信息获取方法、装置、电子设备及存储介质
CN111311338A (zh) * 2020-03-30 2020-06-19 网易(杭州)网络有限公司 用户价值的预测方法以及用户价值预测模型的训练方法

Also Published As

Publication number Publication date
CN111932020A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111932020B (zh) 客户流失预测方法和装置
CN110119413B (zh) 数据融合的方法和装置
WO2019196546A1 (zh) 确定业务请求事件的风险概率的方法及装置
CN112288455B (zh) 标签生成方法及装置、计算机可读存储介质、电子设备
CN112463968B (zh) 文本分类方法、装置和电子设备
CN112950359B (zh) 一种用户识别方法和装置
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN110197426B (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN112990311A (zh) 一种准入客户的识别方法和装置
CN113590807A (zh) 一种基于大数据挖掘的科技企业信用评价方法
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN112734352A (zh) 一种基于数据维度的单据审核方法和装置
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及系统
CN117435471A (zh) 测试案例的推荐方法、装置、设备、存储介质和程序产品
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN116757835A (zh) 信用卡客户贷中交易风险监控方法及装置
CN116578925A (zh) 基于特征画像的行为预测方法、装置及存储介质
CN111553685A (zh) 确定交易路由通道的方法、装置、电子设备和存储介质
CN116757476A (zh) 一种风险预测模型的构建、风险防控方法和装置
CN110910241A (zh) 现金流评估方法、装置、服务器设备及存储介质
CN114511022B (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置
CN115936217A (zh) 一种研判商机成熟度的方法、装置、存储介质及电子设备
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210122

Address after: 100140, 55, Fuxing Avenue, Xicheng District, Beijing

Applicant after: INDUSTRIAL AND COMMERCIAL BANK OF CHINA

Applicant after: ICBC Technology Co.,Ltd.

Address before: 100029 Tianyuan Xiangtai building, No.5 Anding Road, Chaoyang District, Beijing

Applicant before: ICBC Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant