CN114066513A - 一种用户分类的方法和装置 - Google Patents
一种用户分类的方法和装置 Download PDFInfo
- Publication number
- CN114066513A CN114066513A CN202111334106.1A CN202111334106A CN114066513A CN 114066513 A CN114066513 A CN 114066513A CN 202111334106 A CN202111334106 A CN 202111334106A CN 114066513 A CN114066513 A CN 114066513A
- Authority
- CN
- China
- Prior art keywords
- user
- loss
- predicted
- data
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户分类的方法和装置,涉及大数据数据分析技术领域。该方法的一具体实施方式包括:根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征;根据流失行为特征,获取待预测用户的流失行为特征数据;将待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得待预测用户的分类结果。该实施方式预测准确率较高,对预测出的流失率较高的用户采用预警或召回措施,从而降低用户流失率。
Description
技术领域
本发明涉及大数据数据分析技术领域,尤其涉及一种用户分类的方法和装置。
背景技术
贷款产品应用程序的存在着很多仅有登录行为而无贷款行为的用户,这种用户可能为潜在的流失用户,因此,如何预测出流失用户以采取合理的挽留措施,对企业具有重要的意义。
现有技术中没有可适用的方法预测应用程序的初始登录用户具有贷款的可能性,导致不能有效降低用户流失率,导致不能有效挽留流失的用户。
发明内容
有鉴于此,本发明实施例提供一种用户分类的方法,能够基于留存用户和流失用户的基础特征数据和衍生特征数据筛选出流失行为特征,并基于流失行为特征获取待预测用户的流失行为特征数据,利用已训练好的用户流失预测模型获得待预测用户的分类结果,能够较为准确的对待预测用户进行分类,以根据分类结果确定是否对待预测用户采用预警或召回措施,从而降低用户流失率,降低挽留用户的成本。
为实现上述目的,根据本发明实施例的一个方面,提供了一种用户分类的方法,包括:
根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,所述衍生特征数据根据所述基础特征数据衍生得到;
根据所述流失行为特征,获取待预测用户的流失行为特征数据;
将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得所述待预测用户的分类结果。
可选地,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,包括:
基于所述基础特征数据和所述衍生特征数据构建多个目标特征;
对所述多个目标特征进行主成分分析,获得各主成分的成分比重;
根据各主成分的成分比重从所述多个目标特征中筛选出所述流失行为特征。
可选地,将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中之前,包括:
根据所述流失行为特征,分别获取留存用户和流失用户的流失行为特征数据;
根据留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果构建样本数据集,所述样本数据集包括训练样本集和测试样本集;
利用所述训练样本集对机器学习模型进行训练,获得所述用户流失预测模型,并采用测试样本集对所述用户流失预测模型进行验证。
可选地,所述基础特征数据包括用户属性数据和预设时间内的用户行为数据,所述衍生特征数据包括基于所述基础特征数据得到的比例变动率。
可选地,基于所述基础特征数据和所述衍生特征数据构建多个目标特征,包括:
对所述基础特征数据和所述衍生特征数据进行单变量分析,确定所述多个目标特征。
可选地,对所述基础特征数据和所述衍生特征数据进行单变量分析,确定所述多个目标特征,包括:
确定所述基础特征数据和所述衍生特征数据对应的特征集合;
获取所述特征集合中的每个特征在不同取值下的留存用户数量和流失用户数量;
若所述特征在不同取值下的留存用户数量和流失用户数量的差值或比值超过预设阈值,则将所述特征作为所述目标特征;否则,剔除所述特征。
可选地,对所述多个目标特征进行主成分分析,获得各主成分的成分比重,包括:采用基于奇异值分解技术的主成分分析获得各主成分的成分比重。
可选地,根据各主成分的成分比重从所述多个目标特征中筛选出所述流失行为特征,包括:
根据各主成分的成分比重确定前d个主成分,其中,d为预设正整数;
利用前d个主成分对所述多个目标特征进行降维,筛选出所述流失行为特征。
可选地,采用测试样本集对所述用户流失预测模型进行验证,包括:
分别计算所述用户流失预测模型在所述训练集上的第一准确率和所述测试样本集上的第二准确率,当所述第一准确率和所述第二准确率的差值不大于预设阈值时,完成对所述用户流失预测模型的验证。
可选地,采用测试样本集对所述用户流失预测模型进行验证之后,包括:
根据所述测试样本集和所述用户流失预测模型,获得所述测试样本集中每条测试样本的流失概率,以确定每条测试样本的分类结果,根据所有测试样本的分类结果和实际结果获得混淆矩阵;
基于所述混淆矩阵计算精度和召回率,所述精度为正确预测为流失用户的样本数占预测为流失用户的样本数的比例,所述召回率为正确预测为流失用户的样本数占实际流失用户的样本数;
根据所述精度和所述召回率,对所述用户流失预测模型进行评价。
可选地,所述机器学习模型为随机森林模型,
利用所述训练样本集对所述机器学习模型进行训练,获得所述用户流失预测模型,包括:利用随机网格搜索的方式,在预设参数范围内搜索,确定所述随机森林模型的各个超参数,以获得所述用户流失预测模型。
可选地,将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得所述待预测用户的分类结果,包括:获得所述待预测用户的流失概率,判断所述流失概率是否超过预设概率阈值,若是,确定所述待预测用户的分类结果为第一分类用户,若否,确定所述待预测用户的分类结果为第二分类用户;
获得所述待预测用户的分类结果之后,包括:对分类结果为第一分类用户的待预测用户采取预警或召回措施。
根据本发明实施例的另一个方面,提供一种用户分类的装置,其特征在于,包括:
第一确定模块,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,所述衍生特征数据根据所述基础特征数据衍生得到;
获取模块,根据所述流失行为特征,获取待预测用户的流失行为特征数据;
第二确定模块,将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得所述待预测用户的分类结果。
可选地,所述第一确定模块,进一步用于:
基于所述基础特征数据和所述衍生特征数据构建多个目标特征;
对所述多个目标特征进行主成分分析,获得各主成分的成分比重;
根据各主成分的成分比重从所述多个目标特征中筛选出所述流失行为特征。
可选地,所述第二确定模块,还用于:将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中之前,根据所述流失行为特征,分别获取留存用户和流失用户的流失行为特征数据;
根据留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果构建样本数据集,所述样本数据集包括训练样本集和测试样本集;
利用所述训练样本集对机器学习模型进行训练,获得所述用户流失预测模型,并采用测试样本集对所述用户流失预测模型进行验证。
可选地,所述基础特征数据包括用户属性数据和预设时间内的用户行为数据,所述衍生特征数据包括基于所述基础特征数据得到的比例变动率。
可选地,所述第一确定模块,进一步用于:对所述基础特征数据和所述衍生特征数据进行单变量分析,确定所述多个目标特征。
可选地,所述第一确定模块,进一步用于:
确定所述基础特征数据和所述衍生特征数据对应的特征集合;
获取所述特征集合中的每个特征在不同取值下的留存用户数量和流失用户数量;
若所述特征在不同取值下的留存用户数量和流失用户数量的差值或比值超过预设阈值,则将所述特征作为所述目标特征;否则,剔除所述特征。
可选地,所述第一确定模块,进一步用于:采用基于奇异值分解技术的主成分分析获得各主成分的成分比重。
可选地,所述第一确定模块,进一步用于:
根据各主成分的成分比重确定前d个主成分,其中,d为预设正整数;
利用前d个主成分对所述多个目标特征进行降维,筛选出所述流失行为特征。
可选地,所述第二确定模块,进一步用于:分别计算所述用户流失预测模型在所述训练集上的第一准确率和所述测试样本集上的第二准确率,当所述第一准确率和所述第二准确率的差值不大于预设阈值时,完成对所述用户流失预测模型的验证。
可选地,所述第二确定模块,还用于:采用测试样本集对所述用户流失预测模型进行验证之后,根据所述测试样本集和所述用户流失预测模型,获得所述测试样本集中每条测试样本的流失概率,以确定每条测试样本的分类结果,根据所有测试样本的分类结果和实际结果获得混淆矩阵;
基于所述混淆矩阵计算精度和召回率,所述精度为正确预测为流失用户的样本数占预测为流失用户的样本数的比例,所述召回率为正确预测为流失用户的样本数占实际流失用户的样本数;
根据所述精度和所述召回率,对所述用户流失预测模型进行评价。
可选地,所述机器学习模型为随机森林模型,
所述第二确定模块,进一步用于:利用随机网格搜索的方式,在预设参数范围内搜索,确定所述随机森林模型的各个超参数,以获得所述用户流失预测模型。
可选地,所述第二确定模块,进一步用于:获得所述待预测用户的流失概率,判断所述流失概率是否超过预设概率阈值,若是,确定所述待预测用户的分类结果为第一分类用户,若否,确定所述待预测用户的分类结果为第二分类用户;
所述第二确定模块,还用于:获得所述待预测用户的分类结果之后,对分类结果为第一分类用户的待预测用户采取预警或召回措施。
根据本发明实施例的再一个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明提供的用户分类的方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的用户分类的方法。
上述发明中的一个实施例具有如下优点或有益效果:采用留存用户和流失用户的基础特征数据和衍生特征数据筛选出流失行为特征,基于流失行为特征,获得待预测用户的流失行为特征数据;然后利用训练好的用户流失预测模型获得待预测用户的分类结果,根据分类结果确定是否对待预测用户采取预警或召回措施,本发明实施例的方法能够较为准确对待预测用户进行分类,以降低用户流失率,提高留存率,减少现有挽留用户所需耗费的人力和物力。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种用户分类的方法的主要流程的示意图;
图2是根据本发明实施例的另一种用户分类的方法的主要流程的示意图;
图3是根据本发明实施例的用户分类的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种用户分类的方法的主要流程的示意图,如图1所示,该用户分类的方法包括以下步骤:
步骤S101:根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,衍生特征数据根据基础特征数据衍生得到;
步骤S102:根据流失行为特征,获取待预测用户的流失行为特征数据;
步骤S103:将待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得待预测用户的分类结果。
在本发明实施例中,根据预设业务规则,可以获得贷款产品应用程序的留存用户和流失用户,预设业务规则可以根据自行设定,例如为预设时间内的登陆行为和贷款行为,其中,留存用户可以为预设时间内在贷款产品应用程序(APP)上有登陆行为和贷款行为的用户,流失用户可以为预设时间内在贷款产品应用程序上仅有登录行为而无贷款行为的用户。在贷款产品应用程序中,用户可以为小微贷款客户。
在筛选流失行为特征时,首先获取留存用户和流失用户的基础特征数据和衍生特征数据,可选地,基础特征数据包括用户属性数据和预设时间内的用户行为数据,衍生特征数据包括基于用户行为数据得到的比例变动率。例如,用户属性数据如企业工商信息(如企业存续期、企业规模等)、个人信息(如年龄、性别)等,用户行为数据如贷款APP操作行为(如APP贷款产品详情浏览时长等)。
在一种可选地实施方式中,针对信贷产品APP,基础特征数据分为企业法人类数据和企业主标签两类,企业法人类标签包括企业的工商信息、对公流水、企业贷款和企业征信信息;企业主类标签优先使用实际控制人的信息,无法取得实控人信息的取企业法定代表人的信息作为补充。主要涉及企业主的个人信息、个人AUM信息,个人行内贷款和信用卡用卡信息以及贷款APP的操作行为;具体地,企业工商信息包括企业存续期、企业规模、企业行业类型、企业经营有效期、企业注册资本、企业股东等数据,对公流水包括企业行类结算账户开立情况,活跃账户数,近1月、3月的借贷方交易金额,近1月、3月净流入金额,企业活期存款年日均金额等数据;企业贷款包括上一笔贷款金额、上一笔贷款期限、上一笔贷款授信额度等数据;个人信息包括性别、年龄、执业、持有本机构理财卡数量等数据;个人AUM信息包括有效AUM(Asset Under Management,资产管理规模)均值、存款类AUM均值、除保险外AUM均值等数据,个人信用卡信息包括信用卡开卡总量、近6个月信用卡平均额度使用比例、近90天可用额度总和近90天可用比例均值等数据;贷款APP操作行为包括APP注册时长、APP活跃程度、APP最近一次测额额度、APP贷款申请按钮点击次数、APP贷款产品详情浏览时长等数据。
衍生特征数据为基于基础数据按照预设衍生方式得到的,例如,衍生特征数据可以包括最近一个月相比近三个月股东人数变动比率、最近一个月相比近三个月活跃天数变动比率、最近一个月相比近三个月APP主要页面浏览次数变动比率、最近一个月相比近三个月AUM变动比率、最近三个月新增行外贷款占比等数据。
在本发明实施例中,如图2所示,当获取到留存用户和流失用户的基础特征数据和衍生特征数据之后,包括:
步骤S201:基于基础特征数据和衍生特征数据构建多个目标特征;
步骤S202:对多个目标特征进行主成分分析,获得各主成分的成分比重;
步骤S203:根据各主成分的成分比重从多个目标特征中筛选出流失行为特征。
在本发明实施例中,基于特征数据和衍生特征数据构建多个目标特征,包括:对基础特征数据和衍生特征数据进行单变量分析,确定多个目标特征,从而可以根据目标特征筛选得到流失行为特征。进一步可选地,首先确定基础特征数据和衍生特征数据对应的特征集合;获取特征集合中的每个特征在不同取值下的留存用户数量和流失用户数量;若特征在不同取值下的留存用户数量和流失用户数量的差值或比值超过预设阈值,则将该特征作为目标特征;否则,剔除该特征。可选地,特征集合中的特征的取值不超过预设数量,即取值较少,如性别、企业行业类型等取值较少的特征,例如,获取性别为“男”的留存用户和流失用户的数量,获取性别为“女”的留存用户和流失用户的梳理,判断性别为男的留存用户和性别为女的留存用户的数量的差值是否超过预设阈值,并判断性别为男的流失用户和性别为女的流失用户的数量的差值是否超过预设阈值,若否,则说明性别对留存用户和流失用户的分类的影响较小,则不考虑将该特征作为流失行为特征,剔除该特征;如果超过预设阈值,则说明该特征对留存用户和流失用户的分类影响较大,将该特征作为目标特征,以筛选流失行为特征。也就是说,如果数据量在特征的不同取值上分布比较均匀,则说明该特征的不同取值对分类结果的影响较小,可以考虑剔除该特征。
在本发明实施例中,在对多个目标特征进行主成分分析之前,包括:对多个目标特征构成的数据集进行预处理;预处理包括数据混洗,防止数据集的某种顺序影响主成分分析结果,如数据集是按照APP注册时长排序的,则可能会影响分析结果准确性,对数据混洗,打乱数据集中每条数据顺序,提升分析结果准确性。
另外,针对数据集中包括数值型数据和非数值型数据的情况,将处理数值型数据和非数值型数据分开处理;针对数值型数据,首先判断数值型数据中是是否存在空值,若是,则进行缺失值处理,以填充空值,如采用缺失的数据对应的列的中位数填充缺失值;然后对数值型数据进行标准化处理,标准化处理过程可以为:确定数值型数据所在列的列均值和列标准差,将数值型数据和列均值作差,将作差结果处理列标准差,获得标准化处理后的数值型数据;针对非数值型数据如字符型数据,采用独热(one-hot)编码进行处理,将数据转化为矩阵形式,以便于后续进行主成分分析。例如,如性别为“男”可以表示为[1,0],性别为“女”可以表示为[0,1]。
在本发明实施例中,获得多个目标特征后,采用基于奇异值分解技术(SingularValue Decomposition,SVD)的主成分分析技术获得各主成分的成分比重,然后根据各主成分的成分比重从多个目标特征中筛选出流失行为特征。
根据多个目标特征的数据集计算得到协方差矩阵,通过奇异值分解计算协方差矩阵的特征值和特征向量,对特征值从大到小排序,然后根据特征值确定各主成分的成分比重,即各主成分的方差贡献率。可选地,将各主成分的方差贡献率从高到低排序,在保证预设方差贡献率值的基础上确定出累计方差贡献率超过设定阈值的前d个主成分,其中,d为预设正整数;然后利用前d个主成分对多个目标特征进行降维,筛选出流失行为特征。即将多个目标特征的数据集(维度为n,n为大于d的正整数)投影到前d个主成分定义的超平面上,即确定前d个主成分对应的目标特征;从而将多个目标特征的数据集降到d维,筛选出流失行为特征。
在本发明实施例中,在步骤S103之前,包括:根据所述流失行为特征,分别获取留存用户和流失用户的流失行为特征数据;根据留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果,构建样本数据集,样本数据集包括训练样本集和测试样本集;利用训练样本集对机器学习模型进行训练,获得用户流失预测模型,并采用测试样本集对用户流失预测模型进行验证。
样本数据集包括留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果,将样本数据集按照预设比例(如7:3)划分为训练样本集和测试样本集。训练样本集用于对机器学习模型进行训练,测试样本集用户对训练得到的用户流失预测模型进行验证。
在本发明实施例中,机器学习模型可以为随机森林模型,随机森林模型具有多个超参数,在流失行为特征数量较多的情况下,可以采用随机网格搜索来获得最优的超参数组合。可选地,利用训练样本集对随机森林模型进行训练,利用随机网格搜索的方式,在预设参数范围内搜索,采用不同的超参数组合训练随机森林模型,计算不同的超参数组合的得分,保留多次训练中得分最高的超参数组合,作为最优的超参数组合,从而确定随机森林模型的各个超参数,进而获得用户流失预测模型。根据获得的用户流失预测模型也可以获得各个流失行为特征对于模型的重要性程度。
在本发明实施例中,采用测试样本集对用户流失预测模型进行验证,包括:分别计算用户流失预测模型在训练样本集上的第一准确率和测试样本集上的第二准确率,当第一准确率和第二准确率的差值不大于预设阈值时,完成对用户流失预测模型的验证。也就是说,通过确认流失预测模型在训练样本集和测试样本集的准确率比较接近,没有出现欠拟合和过拟合的现象,可以确认用户流失预测模型的验证完成,可以进行待预测用户的流失概率预测。准确率为预测正确的样本数与总样本数之比,如第二准确率为用户流失预测模型正确预测为留存用户和流失用户的测试样本数与总测试样本数之比。
在本发明实施例中,采用测试样本集对用户流失预测模型进行验证之后,包括:
根据测试样本集和用户流失预测模型,获得测试样本集中每条测试样本的流失概率,以确定每条测试样本的分类结果,根据所有测试样本的分类结果和实际结果获得混淆矩阵;
基于混淆矩阵计算精度和召回率,精度为正确预测为流失用户的样本数占预测为流失用户的样本数的比例,召回率为正确预测为流失用户的样本数占实际流失用户的样本数;
根据精度和召回率,对用户流失预测模型进行评价。
在本发明实施例,可以采用精度和召回率对用户流失预测模型进行性能评价。具体地,将测试样本集输入到用户流失概率模型中,预测得到每条测试样本的流失概率,根据预设分类规则(如流失概率超过预设概率阈值为第一分类用户,否则为第二分类用户),可以获得每条测试样本的分类结果,进而获得测试样本集中所有测试样本的分类结果,结合所有测试样本的实际结果,构建混淆矩阵,混淆矩阵为2*2的矩阵,混淆矩阵的第一行为正确预测为第一分类用户的数量和错误预测为第二分类用户的数量,第二行为错误预测为第一分类用户和正确预测为第二分类用户的数量,根据混淆矩阵可以计算精度和召回率。根据业务需求对精度和召回率进行权衡,以优化用户预测流失模型;若为了不打扰用户,希望更精确的预测出第一分类用户,则应该提高精度,相应地,召回率就会降低;若希望能够全面地预测可能的第一分类用户,则应该提高召回率,相应地,精度会降低。
在本发明实施例中,将待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,可以得到待预测用户的流失概率,然后判断流失概率是否超过预设概率阈值,以实现对待预测用户的分类。其中,预设概率阈值可以为流失概率阈值,可根据业务情况设定,通过判断待预测用户的流失概率是否超过预设概率阈值,可以将待预测用户划分为不同的分类,若流失概率超过预设概率阈值,则分类为第一分类用户,即为流失概率较高的用户,为潜在流失用户,针第一分类用户的待预测用户,可以采取预警或召回措施,以挽留待预测用户;若流失概率不超过预设概率阈值,则分类为第二分类用户,即流失概率较低的用户,为正常用户,针对第二分类的待预测用户,可以不采取措施或采用合理措施方式以继续留存该类用户,从而降低用户流失率,提高留存率。
本发明实施例的用户分类的方法,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选出流失行为特征,基于流失行为特征,获取留存用户和流失用户的流失行为特征数据,构建样本数据集,利用样本数据集的训练集对机器学习模型进行训练,然后采用测试样本集对模型进行验证,获得训练好的用户流失预测模型,然后将获取的待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得待预测用户的流失概率,基于流失概率对待预测用户进行分类,对分类结果为第一分类用户的待预测用户采取对应的预警或召回措施,从而降低用户流失率,提高留存率,减少现有挽留用户所需耗费的人力和物力。
如图3所示,本发明实施例还提供一种用户分类的装置300,包括:
第一确定模块301,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,衍生特征数据根据基础特征数据衍生得到;
获取模块302,根据流失行为特征,获取待预测用户的流失行为特征数据;
第二确定模块303,将待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得待预测用户的分类结果。
在本发明实施例中,第一确定模块301,进一步用于:基于基础特征数据和衍生特征数据构建多个目标特征;对多个目标特征进行主成分分析,获得各主成分的成分比重;根据各主成分的成分比重从多个目标特征中筛选出流失行为特征。
在本发明实施例中,第二确定模块303,还用于:将待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中之前,根据流失行为特征,分别获取留存用户和流失用户的流失行为特征数据;根据留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果构建样本数据集,样本数据集包括训练样本集和测试样本集;利用训练样本集对机器学习模型进行训练,获得用户流失预测模型,并采用测试样本集对用户流失预测模型进行验证。
在本发明实施例中,基础特征数据包括用户属性数据和预设时间内的用户行为数据,衍生特征数据包括基于基础特征数据得到的比例变动率。
在本发明实施例中,第一确定模块301,进一步用于:对基础特征数据和衍生特征数据进行单变量分析,确定多个目标特征。第一确定模块301,更进一步用于:确定基础特征数据和衍生特征数据对应的特征集合;获取特征集合中的每个特征在不同取值下的留存用户数量和流失用户数量;若特征在不同取值下的留存用户数量和流失用户数量的差值或比值超过预设阈值,则将特征作为目标特征;否则,剔除特征。
在本发明实施例中,第一确定模块301,进一步用于:采用基于奇异值分解技术的主成分分析获得各主成分的成分比重。更进一步用于:根据各主成分的成分比重确定前d个主成分,其中,d为预设正整数;利用前d个主成分对多个目标特征进行降维,筛选出流失行为特征。
在本发明实施例中,第二确定模块303,进一步用于:分别计算用户流失预测模型在训练集上的第一准确率和测试样本集上的第二准确率,当第一准确率和第二准确率的差值不大于预设阈值时,完成对用户流失预测模型的验证。
在本发明实施例中,第二确定模块303,进一步用于:根据测试样本集和用户流失预测模型,获得测试样本集中每条测试样本的流失概率,以确定每条测试样本的分类结果,根据所有测试样本的分类结果和实际结果获得混淆矩阵;基于混淆矩阵计算精度和召回率,精度为正确预测为流失用户的样本数占预测为流失用户的样本数的比例,召回率为正确预测为流失用户的样本数占实际流失用户的样本数;根据精度和召回率,对用户流失预测模型进行评价
在本发明实施例中,机器学习模型为随机森林模型,第二确定模块303,进一步用于:利用随机网格搜索的方式,在预设参数范围内搜索,确定随机森林模型的各个超参数,以获得用户流失预测模型。
在本发明实施例中,第二确定模块303,进一步用于:获得待预测用户的流失概率,判断流失概率是否超过预设概率阈值,若是,确定待预测用户的分类结果为第一分类用户,若否,确定待预测用户的分类结果为第二分类用户;进一步用于:获得待预测用户的分类结果之后,对分类结果为第一分类用户的待预测用户采取预警或召回措施。
本发明实施例还提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例的用户分类的方法。
本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的用户分类的方法。
图4示出了可以应用本发明实施例的用户分类的方法或用户分类的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的用户分类的方法一般由服务器405执行,相应地,用户分类的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一确定模块、获取模块和第二确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“根据流失行为特征,获取待预测用户的流失行为特征的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征;根据流失行为特征,获取待预测用户的流失行为特征数据;将待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得待预测用户的分类结果。
根据本发明实施例的技术方案,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选出流失行为特征,基于流失行为特征,获取留存用户和流失用户的流失行为特征数据,构建样本数据集,利用样本数据集的训练集对机器学习模型进行训练,然后采用测试样本集对模型进行验证,获得训练好的用户流失预测模型,然后将获取的待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得待预测用户的流失概率,基于流失概率对待预测用户进行分类,对分类结果为第一分类用户的待预测用户采取对应的预警或召回措施,从而降低用户流失率,提高留存率,减少现有挽留用户所需耗费的人力和物力。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (26)
1.一种用户分类的方法,其特征在于,包括:
根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,所述衍生特征数据根据所述基础特征数据衍生得到;
根据所述流失行为特征,获取待预测用户的流失行为特征数据;
将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得所述待预测用户的分类结果。
2.根据权利要求1所述的方法,其特征在于,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,包括:
基于所述基础特征数据和所述衍生特征数据构建多个目标特征;
对所述多个目标特征进行主成分分析,获得各主成分的成分比重;
根据各主成分的成分比重从所述多个目标特征中筛选出所述流失行为特征。
3.根据权利要求1所述的方法,其特征在于,将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中之前,包括:
根据所述流失行为特征,分别获取留存用户和流失用户的流失行为特征数据;
根据留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果构建样本数据集,所述样本数据集包括训练样本集和测试样本集;
利用所述训练样本集对机器学习模型进行训练,获得所述用户流失预测模型,并采用测试样本集对所述用户流失预测模型进行验证。
4.根据权利要求2所述的方法,其特征在于,所述基础特征数据包括用户属性数据和预设时间内的用户行为数据,所述衍生特征数据包括基于所述基础特征数据得到的比例变动率。
5.根据权利要求2所述的方法,其特征在于,基于所述基础特征数据和所述衍生特征数据构建多个目标特征,包括:
对所述基础特征数据和所述衍生特征数据进行单变量分析,确定所述多个目标特征。
6.根据权利要求5所述的方法,其特征在于,对所述基础特征数据和所述衍生特征数据进行单变量分析,确定所述多个目标特征,包括:
确定所述基础特征数据和所述衍生特征数据对应的特征集合;
获取所述特征集合中的每个特征在不同取值下的留存用户数量和流失用户数量;
若所述特征在不同取值下的留存用户数量和流失用户数量的差值或比值超过预设阈值,则将所述特征作为所述目标特征;否则,剔除所述特征。
7.根据权利要求2所述的方法,其特征在于,对所述多个目标特征进行主成分分析,获得各主成分的成分比重,包括:采用基于奇异值分解技术的主成分分析获得各主成分的成分比重。
8.根据权利要求7所述的方法,其特征在于,根据各主成分的成分比重从所述多个目标特征中筛选出所述流失行为特征,包括:
根据各主成分的成分比重确定前d个主成分,其中,d为预设正整数;
利用前d个主成分对所述多个目标特征进行降维,筛选出所述流失行为特征。
9.根据权利要求3所述的方法,其特征在于,采用测试样本集对所述用户流失预测模型进行验证,包括:
分别计算所述用户流失预测模型在所述训练集上的第一准确率和所述测试样本集上的第二准确率,当所述第一准确率和所述第二准确率的差值不大于预设阈值时,完成对所述用户流失预测模型的验证。
10.根据权利要求3所述的方法,其特征在于,采用测试样本集对所述用户流失预测模型进行验证之后,包括:
根据所述测试样本集和所述用户流失预测模型,获得所述测试样本集中每条测试样本的流失概率,以确定每条测试样本的分类结果,根据所有测试样本的分类结果和实际结果获得混淆矩阵;
基于所述混淆矩阵计算精度和召回率,所述精度为正确预测为流失用户的样本数占预测为流失用户的样本数的比例,所述召回率为正确预测为流失用户的样本数占实际流失用户的样本数;
根据所述精度和所述召回率,对所述用户流失预测模型进行评价。
11.根据权利要求3所述的方法,其特征在于,所述机器学习模型为随机森林模型,
利用所述训练样本集对所述机器学习模型进行训练,获得所述用户流失预测模型,包括:利用随机网格搜索的方式,在预设参数范围内搜索,确定所述随机森林模型的各个超参数,以获得所述用户流失预测模型。
12.根据权利要求1所述的方法,其特征在于,将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得所述待预测用户的分类结果,包括:获得所述待预测用户的流失概率,判断所述流失概率是否超过预设概率阈值,若是,确定所述待预测用户的分类结果为第一分类用户,若否,确定所述待预测用户的分类结果为第二分类用户;
获得所述待预测用户的分类结果之后,包括:对分类结果为第一分类用户的待预测用户采取预警或召回措施。
13.一种用户分类的装置,其特征在于,包括:
第一确定模块,根据留存用户和流失用户的基础特征数据和衍生特征数据筛选得到流失行为特征,所述衍生特征数据根据所述基础特征数据衍生得到;
获取模块,根据所述流失行为特征,获取待预测用户的流失行为特征数据;
第二确定模块,将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中,获得所述待预测用户的分类结果。
14.根据权利要求13所述的装置,其特征在于,所述第一确定模块,进一步用于:
基于所述基础特征数据和所述衍生特征数据构建多个目标特征;
对所述多个目标特征进行主成分分析,获得各主成分的成分比重;
根据各主成分的成分比重从所述多个目标特征中筛选出所述流失行为特征。
15.根据权利要求13所述的装置,其特征在于,所述第二确定模块,还用于:将所述待预测用户的流失行为特征数据输入到训练好的用户流失预测模型中之前,根据所述流失行为特征,分别获取留存用户和流失用户的流失行为特征数据;
根据留存用户和流失用户的流失行为特征数据和每条流失行为特征数据对应的分类结果构建样本数据集,所述样本数据集包括训练样本集和测试样本集;
利用所述训练样本集对机器学习模型进行训练,获得所述用户流失预测模型,并采用测试样本集对所述用户流失预测模型进行验证。
16.根据权利要求14所述的装置,其特征在于,所述基础特征数据包括用户属性数据和预设时间内的用户行为数据,所述衍生特征数据包括基于所述基础特征数据得到的比例变动率。
17.根据权利要求14所述的装置,其特征在于,所述第一确定模块,进一步用于:对所述基础特征数据和所述衍生特征数据进行单变量分析,确定所述多个目标特征。
18.根据权利要求17所述的装置,其特征在于,所述第一确定模块,进一步用于:
确定所述基础特征数据和所述衍生特征数据对应的特征集合;
获取所述特征集合中的每个特征在不同取值下的留存用户数量和流失用户数量;
若所述特征在不同取值下的留存用户数量和流失用户数量的差值或比值超过预设阈值,则将所述特征作为所述目标特征;否则,剔除所述特征。
19.根据权利要求14所述的装置,其特征在于,所述第一确定模块,进一步用于:采用基于奇异值分解技术的主成分分析获得各主成分的成分比重。
20.根据权利要求19所述的装置,其特征在于,所述第一确定模块,进一步用于:
根据各主成分的成分比重确定前d个主成分,其中,d为预设正整数;
利用前d个主成分对所述多个目标特征进行降维,筛选出所述流失行为特征。
21.根据权利要求15所述的装置,其特征在于,所述第二确定模块,进一步用于:分别计算所述用户流失预测模型在所述训练集上的第一准确率和所述测试样本集上的第二准确率,当所述第一准确率和所述第二准确率的差值不大于预设阈值时,完成对所述用户流失预测模型的验证。
22.根据权利要求15所述的装置,其特征在于,所述第二确定模块,还用于:采用测试样本集对所述用户流失预测模型进行验证之后,根据所述测试样本集和所述用户流失预测模型,获得所述测试样本集中每条测试样本的流失概率,以确定每条测试样本的分类结果,根据所有测试样本的分类结果和实际结果获得混淆矩阵;
基于所述混淆矩阵计算精度和召回率,所述精度为正确预测为流失用户的样本数占预测为流失用户的样本数的比例,所述召回率为正确预测为流失用户的样本数占实际流失用户的样本数;
根据所述精度和所述召回率,对所述用户流失预测模型进行评价。
23.根据权利要求15所述的装置,其特征在于,所述机器学习模型为随机森林模型,
所述第二确定模块,进一步用于:利用随机网格搜索的方式,在预设参数范围内搜索,确定所述随机森林模型的各个超参数,以获得所述用户流失预测模型。
24.根据权利要求13所述的装置,其特征在于,所述第二确定模块,进一步用于:获得所述待预测用户的流失概率,判断所述流失概率是否超过预设概率阈值,若是,确定所述待预测用户的分类结果为第一分类用户,若否,确定所述待预测用户的分类结果为第二分类用户;
所述第二确定模块,还用于:获得所述待预测用户的分类结果之后,对分类结果为第一分类用户的待预测用户采取预警或召回措施。
25.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
26.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111334106.1A CN114066513A (zh) | 2021-11-11 | 2021-11-11 | 一种用户分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111334106.1A CN114066513A (zh) | 2021-11-11 | 2021-11-11 | 一种用户分类的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114066513A true CN114066513A (zh) | 2022-02-18 |
Family
ID=80275135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111334106.1A Pending CN114066513A (zh) | 2021-11-11 | 2021-11-11 | 一种用户分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114066513A (zh) |
-
2021
- 2021-11-11 CN CN202111334106.1A patent/CN114066513A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109976997B (zh) | 测试方法和装置 | |
CN111210335B (zh) | 用户风险识别方法、装置及电子设备 | |
CN111783039B (zh) | 风险确定方法、装置、计算机系统和存储介质 | |
WO2020150611A1 (en) | Systems and methods for entity performance and risk scoring | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN111179055B (zh) | 授信额度调整方法、装置和电子设备 | |
CN112016792A (zh) | 用户资源配额确定方法、装置及电子设备 | |
CN111191677A (zh) | 用户特征数据生成方法、装置及电子设备 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN112348658A (zh) | 资源分配方法、装置及电子设备 | |
CN114820196A (zh) | 信息推送方法、装置、设备及介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN114066513A (zh) | 一种用户分类的方法和装置 | |
CN113094595A (zh) | 对象识别方法、装置、计算机系统及可读存储介质 | |
CN113568739A (zh) | 用户资源额度分配方法、装置及电子设备 | |
CN112434083A (zh) | 一种基于大数据的事件处理方法和装置 | |
CN112990311A (zh) | 一种准入客户的识别方法和装置 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
CN111429257A (zh) | 一种交易监控方法和装置 | |
CN114637921B (zh) | 基于建模偶然不确定性的物品推荐方法、装置和设备 | |
CN116308468A (zh) | 客户对象分类方法、装置、计算机设备及存储介质 | |
CN114065050A (zh) | 产品推荐的方法、系统、电子设备和存储介质 | |
CN115062698A (zh) | 用户识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |