CN115563301A - 一种用户生命周期预测方法及装置 - Google Patents
一种用户生命周期预测方法及装置 Download PDFInfo
- Publication number
- CN115563301A CN115563301A CN202211179176.9A CN202211179176A CN115563301A CN 115563301 A CN115563301 A CN 115563301A CN 202211179176 A CN202211179176 A CN 202211179176A CN 115563301 A CN115563301 A CN 115563301A
- Authority
- CN
- China
- Prior art keywords
- user
- life cycle
- characteristic data
- historical
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012706 support-vector machine Methods 0.000 claims description 15
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 55
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 239000010970 precious metal Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Molecular Biology (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用户生命周期预测方法及装置,涉及大数据技术领域,所述方法包括:获取待预测用户的用户特征数据;对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。通过使用历史用户生命周期特征数据训练的预测模型对当前客户的生命周期进行预测,从而对客户生命周期状况进行检测,当发现当前客户的生命周期预测结果出现异常,则针对所述客户预先进行维护,从而防止客户生命周期出现真正减损。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种用户生命周期预测方法及装置。
背景技术
在银行的交易往来中,客户是交易的主体,在当今的网络化信息化时代,交易流量才是根本,而交易流量则是由客户带来的。但是随着银行以外的其他金融服务行业的加入,如京东、微信和支付宝等,银行业务的针对的客户群体开始流失,导致交易流量减少。因此银行在加大自身业务的推广的同时还需要对既有的客户进行维护,从而减少既有客户的流失而导致的交易流量下降。
现有技术中对客户生命周期进行维护都是在客户生命周期出现明显的减损后才开始进行维护的,因而具有一定的滞后性,缺少对客户生命周期出现消极变化的预警,根据客户生命周期可能出现的情况进行前期的预防。
发明内容
本发明实施例提供一种用户生命周期预测方法,所述方法包括:
获取待预测用户的用户特征数据;
对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;
基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。
进一步的,对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量包括:
将所述用户特征数据输入用户知识图谱,对所述用户特征数据中的缺失值进行填充;
对填充后的所述用户特征数据进行向量化处理,得到所述用户特征数据对应的用户特征向量。
进一步的,基于历史用户特征数据和对应的历史用户生命周期训练获得所述用户生命周期预测模型包括:
获取所述历史用户特征数据和对应的历史用户生命周期;
对所述历史用户特征数据进行预处理,得到所述历史用户特征数据对应的历史用户特征向量;
基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型。
进一步的,所述原始模型为支持向量机、人工神经网络、极端梯度提升树和随机森林中的一种。
进一步的,基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型包括:
基于所述历史用户特征向量和所述历史用户生命周期分别对所述支持向量机、人工神经网络、极端梯度提升树和随机森林中的至少两种所述原始模型进行训练,得到所述原始模型对应的初始预测模型;
使用加权算法将所述初始预测模型进行模型融合,得到所述用户生命周期预测模型。
本发明实施例还提供一种用户生命周期预测装置,所述装置包括:
获取模块,用于获取待预测用户的用户特征数据;
第一预处理模块,用于对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;
预测模块,用于基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。
进一步的,所述第一预处理模块包括:
特征填充单元,用于将所述用户特征数据输入用户知识图谱,对所述用户特征数据中的缺失值进行填充;
第一向量化单元,用于对填充后的所述用户特征数据进行向量化处理,得到所述用户特征数据对应的用户特征向量。
进一步的,还包括:
样本获取模块,用于获取所述历史用户特征数据和对应的历史用户生命周期;
第二预处理模块,用于对所述历史用户特征数据进行预处理,得到所述历史用户特征数据对应的历史用户特征向量;
训练模块,用于基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型。
进一步的,所述训练模块包括:
训练单元,用于基于所述历史用户特征向量和所述历史用户生命周期分别对所述支持向量机、人工神经网络、极端梯度提升树和随机森林中的至少两种所述原始模型进行训练,得到所述原始模型对应的初始预测模型;
融合单元,用于使用加权算法将所述初始预测模型进行模型融合,得到所述用户生命周期预测模型。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户生命周期预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户生命周期预测方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述用户生命周期预测方法。
本发明实施例提供的用户生命周期预测方法,通过使用历史用户生命周期特征数据训练的预测模型对当前客户的生命周期进行预测,从而对客户生命周期状况进行检测,当发现当前客户的生命周期预测结果出现异常,则针对所述客户预先进行维护。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例提供的用户生命周期预测方法的流程示意图;
图2为本发明实施例提供的用户生命周期预测方法的流程示意图;
图3为本发明实施例提供的用户生命周期预测方法的流程示意图;
图4为本发明实施例提供的用户生命周期预测方法的流程示意图;
图5是本发明一实施例提供的用户生命周期预测装置的结构示意图;
图6是本发明一实施例提供的用户生命周期预测装置的结构示意图;
图7是本发明一实施例提供的用户生命周期预测装置的结构示意图;
图8是本发明一实施例提供的用户生命周期预测装置的结构示意图。
图9为本发明一实施例提供的计算机设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
需要注意的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1为本发明实施例提供的用户生命周期预测方法的流程示意图,如图1所示,本发明实施例提供的用户生命周期预测方法,包括:
S101:获取待预测用户的用户特征数据;
该步骤中,从数据库中获取待预测用户的用户特征数据。
具体的,所述客户特征数据是用户在第一次办理业务时在网点收集录入的用于开卡或者办理相应理财业务的用户信息,包括出生日期、资产情况、理财情况、信用卡消费情况、负债情况等。
所述资产情况包含客户的存折、客户的活期、客户资产流入周期、客户的资产流出周期、客户资产流入的金额、客户资产流出的金额;
所述理财情况包括客户国债数量、客户的贵金属持有数量、客户的结构性存款数量、客户的资金分仓情况、客户的资金调整周期;
所述信用卡消费情况包括信用卡的月消费情况、消费周期、还款情况、逾期还款情况;
所述负债情况包括房贷负债、车贷负债、消费负债。
上述用户特征数据均储存于网点系统的数据库内,上述数据的获取、收集及使用均经过用户授权并且符合相关法律法规的规定。
S102:对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;
该步骤中,对S101中获取的待预测用户的用户特征数据进行预处理,得到用于输入预测模型的用户输入特征向量。
具体的,使用结构化查询语言对所述用户特征数据进行向量化,得到所述用户特征数据对应的客户特征向量。
S103:基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。
该步骤中,将所述用户特征向量输入预先训练的所述用户生命周期预测模型进行预测,得到所述待预测用户对应的用户生命周期预测结果。
具体的,将由所述用户特征数据预处理后得到的所述用户特征向量作为所述用户生命周期预测模型的输入数据,对相应的待预测用户可存续的生命周期进行预测。
所述用户生命周期为用户从第一次办理业务注册账号的时间起算,到所述用户注销账号为止的期间。
所述用户生命周期预测结果是上述待预测用户从注册账号之日起算到预测账号可能被注销的期间。
例如,待预测用户的注册账号的时间为2022年1月1日,表示所述用户于2022年1月1日第一次来网点办理业务,并注册账号开卡。所述待预测用户的用户生命周期预测结果为一年,表示在2023年1月1日时,所述用户注销账号及对应的银行卡,此时用户生命周期结束。
进一步的,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。
其中,所述历史用户特征数据包括银行网点数据库中储存的已经注销的用户在第一次办理业务时在网点收集录入的用于开卡或者办理相应理财业务的用户信息,包括出生日期、资产情况、理财情况、信用卡消费情况、负债情况等。
所述资产情况包含客户的存折、客户的活期、客户资产流入周期、客户的资产流出周期、客户资产流入的金额、客户资产流出的金额;
所述理财情况包括客户国债数量、客户的贵金属持有数量、客户的结构性存款数量、客户的资金分仓情况、客户的资金调整周期;
所述信用卡消费情况包括信用卡的月消费情况、消费周期、还款情况、逾期还款情况;
所述负债情况包括房贷负债、车贷负债、消费负债。
所述历史用户生命周期为所述历史用户从第一次办理业务注册账号并开卡时起算,到所述历史用户注销账号并注销相应的银行卡之间的期间,所述历史用户对应的历史用户生命周期作为模型训练时的标签。
将所述历史用户特征数据预处理后得到的历史用户特征向量作为原始模型的输入,将所述历史用户对应的历史用户生命周期作为模型训练时的标签,对所述原始模型进行有监督学习,得到所述用户生命周期预测模型。
在上述各个实施例的基础上,进一步的,在步骤S103:基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果后,还包括:
根据所述待预测用户对应的用户生命周期预测结果对所述用户进行维护。
具体的,由于对客户生命周期的影响因素很多,例如不适合的电话推荐、网点间竞争或网点政策调整等都会对客户生命周期产生影响,根据所述待预测用户的用户生命周期预测结果,调整对所述用户的电话推荐方式以及网点的相应活动方案。
例如,若预测结果显示所述用户生命周期预测结果低于平均用户生命周期,则表示所述用户需要进行维护,从而防止未来出现生命周期减损导致用户最终流失的情况出现,根据所述用户生命周期预测结果低于平均用户生命周期的程度,对电话推荐频率周期进行调整或者对网点活动策略进行修正。
本发明实施例提供的用户生命周期预测方法,通过使用历史用户生命周期特征数据训练的预测模型对当前客户的生命周期进行预测,从而对客户生命周期状况进行检测,当发现当前客户的生命周期预测结果出现异常,则针对所述客户预先进行维护,从而防止客户生命周期出现真正减损。
图2为本发明实施例提供的用户生命周期预测方法的流程示意图,如图2所示,在上述各个实施例的基础上,进一步的,S102对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量包括:
S1021:将所述用户特征数据输入用户知识图谱,对所述用户特征数据中的缺失值进行填充;
该步骤中,使用知识图谱对所述用户特征数据的缺失部分进行填充。
具体的,由于网点数据库储存的用户特征数据并不完整,存在缺失的情况。针对于所述用户特征数据的中缺失值,基于知识图谱进行知识推理,填充所述用户特征数据中的缺失值,从而提升用户特征数据的完整度,进而增加生命周期预测结果的准确度。
其中,所述通过知识图谱是预先设置的。
通过银行网点系统中存储的用户信息数据,构建所述知识图谱,包括以下步骤:
S1:知识存储
知识存储主要是将两种客户信息数据进行保存,所述客户信息数据可以分为结构化数据和半结构化数据(非结构化数据在银行纵向领域中涉及极少,因而不做考虑)。
客户的结构化数据主要包括一些存储在系统中的基本数据,按照数据库的字段要求存储,包括客户姓名、客户的出生年月日、客户性别、客户的相关联系人、客户的开户机构、客户的关系建立渠道、客户证件签发地址、客户详细地址、客户政要标志、客户风险等级、客户行业、客户就读学校、客户学历、客户工作单位、邮编、客户收入区间、客户月交易规模区间、客户籍贯等基本信息。
客户半结构化数据包括客户的一些个人资料,比如履历、投资的基本信息、交易的基本信息,不同的分行以及新旧版本更替的客户信息等。
S2:知识抽取
将结构化和半结构化的客户信息数据做知识抽取。对于结构化的客户信息数据,使用D2RRQ Mapping将定义的关系型数据转化为RDF格式的Mapping。
对于半结构化的客户信息数据,使用包装器抽取JSON文件中的信息,输出为需要信息。也可以使用正则表达式来提取数据。
S3:知识融合
由于不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。
S4:图谱构建
所述知识图谱可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。根据实际需要进行设置,本发明实施例不做具体限定。
基于预先构建的知识图谱,将所述用户特征数据输入所述知识图谱,根据知识图谱中与所述用户具备一定相似度的用户的用户特征数据,对缺失值进行填充。
例如,用户A和用户B之间具备极高的相似度,那么就可以判定为用户A和用户B为同类型客户,两者之间可以形成相互推理的关系,当用户A的用户特征数据中存在缺失值时,可以使用B用户的用户特征数据中的相应值对用户A的所述缺失值进行填充。
S1022:对填充后的所述用户特征数据进行向量化处理,得到所述用户特征数据对应的用户特征向量。
该步骤中,将填充后的完整的用户特征数据进行向量化处理,到用于输入预测模型的用户输入特征向量。
具体的,具体的,使用结构化查询语言对所述用户特征数据进行向量化,得到所述用户特征数据对应的客户特征向量。
图3为本发明实施例提供的用户生命周期预测方法的流程示意图,如图3所示,在上述各个实施例的基础上,进一步的,基于历史用户特征数据和对应的历史用户生命周期训练获得所述用户生命周期预测模型包括:
S301:获取所述历史用户特征数据和对应的历史用户生命周期;
该步骤中,从网点数据库中获取历史用户特征数据和对应的历史用户生命周期。
具体的,所述历史用户特征数据包括银行网点数据库中储存的已经注销的用户在第一次办理业务时在网点收集录入的用于开卡或者办理相应理财业务的用户信息,包括出生日期、资产情况、理财情况、信用卡消费情况、负债情况等。
所述资产情况包含客户的存折、客户的活期、客户资产流入周期、客户的资产流出周期、客户资产流入的金额、客户资产流出的金额;
所述理财情况包括客户国债数量、客户的贵金属持有数量、客户的结构性存款数量、客户的资金分仓情况、客户的资金调整周期;
所述信用卡消费情况包括信用卡的月消费情况、消费周期、还款情况、逾期还款情况;
所述负债情况包括房贷负债、车贷负债、消费负债。
所述历史用户生命周期为所述历史用户从第一次办理业务注册账号并开卡时起算,到所述历史用户注销账号并注销相应的银行卡之间的期间,所述历史用户对应的历史用户生命周期作为模型训练时的标签。
S302:对所述历史用户特征数据进行预处理,得到所述历史用户特征数据对应的历史用户特征向量;
该步骤中,对S301中历史用户特征数据进行预处理,将其向量化为历史用户特征向量。
具体的,使用结构化查询语言对所述历史用户特征数据进行向量化,得到所述历史用户特征数据对应的历史用户特征向量。
S303:基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型。
该步骤中,将历史用户特征向量输入原始模型,使用所述历史用户生命周期作为标签进行监督学习,得到所述用户生命周期预测模型。
具体的,将由历史用户特征数据预处理后得到的历史用户特征向量作为所述原始模型的输入数据,对所述原始模型进行训练,将所述历史用户生命周期作为期望输出值,直至所述原始模型输出数据的准确度达到预设标准,得到所述用户生命周期预测模型。
在上述各个实施例的基础上,进一步的,所述原始模型为支持向量机、人工神经网络、极端梯度提升树和随机森林中的一种。
具体的,所述原始模型根据实际需要在支持向量机、人工神经网络、随机森林、决策树和岭回归模型中进行选取,本发明实施例不做具体限定。
图4为本发明实施例提供的用户生命周期预测方法的流程示意图,如图4所示,在上述各个实施例的基础上,进一步的,S303:基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型。包括以下步骤:
S3031:基于所述历史用户特征向量和所述历史用户生命周期分别对所述支持向量机、人工神经网络、极端梯度提升树和随机森林中的至少两种所述原始模型进行训练,得到所述原始模型对应的初始预测模型;
该步骤中,基于所述历史用户特征向量和所述历史用户生命周期分别对多个原始模型进行训练,以用于模型融合。
具体的,选取支持向量机、人工神经网络、极端梯度提升树和随机森林模型中的至少两种作为原始模型,分别使用所述历史用户特征向量和所述历史用户生命周期对每个原始模型进行训练,得到每个原始模型对应的训练后的初始预测模型。
例如,可以选取支持向量机、人工神经网络作为原始模型;也可以选取支持向量机、人工神经网络、随机森林作为原始模型;还可以选用持向量机、人工神经网络、极端梯度提升树和随机森林模型作为原始模型。
对于原始模型的选取及组合根据实际需要进行设置,本发明实施例不做具体限定。
S3032:使用加权算法将所述初始预测模型进行模型融合,得到所述用户生命周期预测模型。
该步骤中,将多个训练后的初始预测模型进行融合,得到所述用户生命周期预测模型。
具体的,将经过训练后的各个原始模型进行模型融合,得到所述用户生命周期预测模型。
由于不同的算法有各自的优缺点,通过模型融合,可以最大程度上的避免选用的原始模型的缺点对最终预测结果的影响。
例如,随机森林对离群值有较强的抗性;支持向量机算用于小数据集,对缺失数据敏感;人工神经网络容易出现过拟合。
将上述各个原始模型进行融合可以提高模型的准确率和模型的稳健性,对于越来越多的新数据以及存在的刻意的数据污染,仍然能够保证较好预测效果。
模型融合可以采用加权算法,加权算法中各个模型的权重系数根据实际需要进行设置,并可以根据融合后的模型预测的准确度进行调整,从而保证融合后的模型具有较好的预测准确度和稳健性。
图5是本发明一实施例提供的用户生命周期预测装置的结构示意图,如图5所示,本发明实施例中还提供了一种用户生命周期预测装置,包括:获取模块501,用于获取待预测用户的用户特征数据;第一预处理模块502,用于对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;预测模块503,用于基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。其中:
获取模块501,用于从数据库中获取待预测用户的用户特征数据。
第一预处理模块502,用于对获取模块501获取的待预测用户的用户特征数据进行预处理,得到用于输入预测模型的用户输入特征向量。
预测模块503,用于将所述用户特征向量输入预先训练的所述用户生命周期预测模型进行预测,得到所述待预测用户对应的用户生命周期预测结果。
图6是本发明一实施例提供的用户生命周期预测装置的结构示意图,如图6所示,在上述各个实施例的基础上,进一步的,第一预处理模块502包括:特征填充单元5021,用于将所述用户特征数据输入用户知识图谱,对所述用户特征数据中的缺失值进行填充;第一向量化单元5022,用于对填充后的所述用户特征数据进行向量化处理,得到所述用户特征数据对应的用户特征向量。其中:
特征填充单元5021,用于使用知识图谱对所述用户特征数据的缺失部分进行填充。
第一向量化单元5022,用于将填充后的完整的用户特征数据进行向量化处理,到用于输入预测模型的用户输入特征向量。
图7是本发明一实施例提供的用户生命周期预测装置的结构示意图,如图7所示,在上述各个实施例的基础上,进一步的,还包括:样本获取模块504,用于获取所述历史用户特征数据和对应的历史用户生命周期;第二预处理模块505,用于对所述历史用户特征数据进行预处理,得到所述历史用户特征数据对应的历史用户特征向量;训练模块506,用于基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型。其中:
样本获取模块504,用于从网点数据库中获取历史用户特征数据和对应的历史用户生命周期。
第二预处理模块505,用于对样本获取模块504获取的历史用户特征数据进行预处理,将其向量化为历史用户特征向量。
训练模块506,用于将历史用户特征向量输入原始模型,使用所述历史用户生命周期作为标签进行监督学习,得到所述用户生命周期预测模型。
图8是本发明一实施例提供的用户生命周期预测装置的结构示意图,如图8所示,在上述各个实施例的基础上,进一步的,训练模块506包括:训练单元5061,用于基于所述历史用户特征向量和所述历史用户生命周期分别对所述支持向量机、人工神经网络、极端梯度提升树和随机森林中的至少两种所述原始模型进行训练,得到所述原始模型对应的初始预测模型;融合单元5062,用于使用加权算法将所述初始预测模型进行模型融合,得到所述用户生命周期预测模型。其中:
训练单元5061,用于基于所述历史用户特征向量和所述历史用户生命周期分别对多个原始模型进行训练,以用于模型融合。
融合单元5062,用于将多个训练后的初始预测模型进行融合,得到所述用户生命周期预测模型。
如前述的实施例所述。由于本发明提供的用户生命周期预测装置解决问题的原理与本发明各个实施例提供的用户生命周期预测方法相似,因此该装置的实施可以参见上述实施例中的内容,重复之处不再赘述。
图9为本发明一实施例提供的计算机设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)901、通信接口(Communications Interface)902、存储器(memory)903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。处理器901可以调用存储器903中的逻辑指令,以执行上述用户生命周期预测方法。
此外,上述的存储器903中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户生命周期预测方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述用户生命周期预测方法。
本发明实施例提供的用户生命周期预测方法,通过使用历史用户生命周期特征数据训练的预测模型对当前客户的生命周期进行预测,从而对客户生命周期状况进行检测,当发现当前客户的生命周期预测结果出现异常,则针对所述客户预先进行维护,从而防止客户生命周期出现真正减损。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种用户生命周期预测方法,其特征在于,包括:
获取待预测用户的用户特征数据;
对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;
基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。
2.如权利要求1所述的方法,其特征在于,对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量包括:
将所述用户特征数据输入用户知识图谱,对所述用户特征数据中的缺失值进行填充;
对填充后的所述用户特征数据进行向量化处理,得到所述用户特征数据对应的用户特征向量。
3.如权利要求1所述的方法,其特征在于,基于历史用户特征数据和对应的历史用户生命周期训练获得所述用户生命周期预测模型包括:
获取所述历史用户特征数据和对应的历史用户生命周期;
对所述历史用户特征数据进行预处理,得到所述历史用户特征数据对应的历史用户特征向量;
基于所述历史用户特征向量和所述历史用户生命周期对原始模型进行训练,得到所述用户生命周期预测模型。
4.如权利要求3所述的方法,其特征在于,所述原始模型为支持向量机、人工神经网络、极端梯度提升树和随机森林中的一种。
5.如权利要求4所述的方法,其特征在于,基于所述历史用户特征向量和所述历史用户生命周期对所述原始模型进行训练,得到所述用户生命周期预测模型包括:
基于所述历史用户特征向量和所述历史用户生命周期分别对所述支持向量机、人工神经网络、极端梯度提升树和随机森林中的至少两种所述原始模型进行训练,得到所述原始模型对应的初始预测模型;
使用加权算法将所述初始预测模型进行模型融合,得到所述用户生命周期预测模型。
6.一种用户生命周期预测装置,其特征在于,包括:
获取模块,用于获取待预测用户的用户特征数据;
第一预处理模块,用于对所述用户特征数据进行预处理,得到所述用户特征数据对应的用户特征向量;
预测模块,用于基于所述用户特征向量和用户生命周期预测模型,得到所述待预测用户对应的用户生命周期预测结果;其中,所述用户生命周期预测模型是基于历史用户特征数据和对应的历史用户生命周期训练获得的。
7.如权利要求6所述的装置,其特征在于,所述第一预处理模块包括:
特征填充单元,用于将所述用户特征数据输入用户知识图谱,对所述用户特征数据中的缺失值进行填充;
第一向量化单元,用于对填充后的所述用户特征数据进行向量化处理,得到所述用户特征数据对应的用户特征向量。
8.如权利要求6所述的装置,其特征在于,还包括:
样本获取模块,用于获取所述历史用户特征数据和对应的历史用户生命周期;
第二预处理模块,用于对所述历史用户特征数据进行预处理,得到所述历史用户特征数据对应的历史用户特征向量;
训练模块,用于基于所述历史用户特征向量和所述历史用户生命周期对原始模型进行训练,得到所述用户生命周期预测模型。
9.如权利要求8所述的装置,其特征在于,所述训练模块包括:
训练单元,用于基于所述历史用户特征向量和所述历史用户生命周期分别对所述支持向量机、人工神经网络、极端梯度提升树和随机森林中的至少两种所述原始模型进行训练,得到所述原始模型对应的初始预测模型;
融合单元,用于使用加权算法将所述初始预测模型进行模型融合,得到所述用户生命周期预测模型。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5任一所述方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至5任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179176.9A CN115563301A (zh) | 2022-09-27 | 2022-09-27 | 一种用户生命周期预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179176.9A CN115563301A (zh) | 2022-09-27 | 2022-09-27 | 一种用户生命周期预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115563301A true CN115563301A (zh) | 2023-01-03 |
Family
ID=84742083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211179176.9A Pending CN115563301A (zh) | 2022-09-27 | 2022-09-27 | 一种用户生命周期预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115563301A (zh) |
-
2022
- 2022-09-27 CN CN202211179176.9A patent/CN115563301A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210374164A1 (en) | Automated and dynamic method and system for clustering data records | |
CN112381154A (zh) | 预测用户概率的方法、装置和计算机设备 | |
CN113657901B (zh) | 欠费用户的催收管理方法、系统、终端及介质 | |
CN111353901A (zh) | 风险识别监控方法、装置以及电子设备 | |
CN111951050B (zh) | 理财产品推荐方法及装置 | |
CN111738762A (zh) | 不良资产回收价的确定方法、装置、设备和存储介质 | |
CN113989020A (zh) | 贷款逾期信息处理方法、装置、计算机设备及存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
CN113888317A (zh) | 用于对信贷资金进行管控的方法及装置 | |
CN113159796A (zh) | 一种贸易合同验证方法及装置 | |
CN113283582A (zh) | 纺织行业金融损失预测方法、装置、存储介质及处理器 | |
CN112950290A (zh) | 经济依存客户的挖掘方法、装置、存储介质及电子设备 | |
CN115345727B (zh) | 一种识别欺诈贷款申请的方法及装置 | |
CN115563301A (zh) | 一种用户生命周期预测方法及装置 | |
CN111667307B (zh) | 一种理财产品销量的预测方法及装置 | |
CN115860889A (zh) | 一种基于人工智能的金融贷款大数据管理方法及系统 | |
CN116502173A (zh) | 一种状态识别方法、装置、存储介质及设备 | |
CN113706258A (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
Toh et al. | Improving Operation Efficiency through Predicting Credit Card Application Turnaround Time with Index-based Encoding | |
US20220414663A1 (en) | Comparative features for machine learning based classification | |
US20240013189A1 (en) | Computer-implemented systems and methods for payment routing | |
US20240013176A1 (en) | Computer-implemented systems and methods for payment routing | |
US20240013188A1 (en) | Computer-implemented systems and methods for payment routing | |
US20240013293A1 (en) | Computer-implemented systems and methods for payment routing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |