CN114676167B - 用户存留模型的训练方法、用户存留预测方法和装置 - Google Patents
用户存留模型的训练方法、用户存留预测方法和装置 Download PDFInfo
- Publication number
- CN114676167B CN114676167B CN202210584714.6A CN202210584714A CN114676167B CN 114676167 B CN114676167 B CN 114676167B CN 202210584714 A CN202210584714 A CN 202210584714A CN 114676167 B CN114676167 B CN 114676167B
- Authority
- CN
- China
- Prior art keywords
- user
- grouping
- feature
- features
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002688 persistence Effects 0.000 title claims abstract description 135
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 100
- 238000004590 computer program Methods 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000014759 maintenance of location Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000007477 logistic regression Methods 0.000 description 7
- 230000002085 persistent effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000000717 retained effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种用户存留模型的训练方法、用户存留预测方法和装置。所述训练方法包括:获取原始用户数据;对原始用户数据进行分类,得到对应各维度的初始用户特征;对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。采用本方法能够提升用户存留预测的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户存留模型的训练方法、用户存留预测方法和装置。
背景技术
随着移动互联网的不断深化发展,人们的生活习惯已发生改变,买保续保已浸润到大众生活。通过对用户行为进行分析预测,确定用户存留情况显得至关重要。
在传统方式中,用户存留预测基于二分类预测模型进行预测,模型训练通常是将获取到的历史数据打上标注后直接输入模型进行学习。传统模型训练过程并未考虑训练数据的特征,从而使得模型训练并不准确性,进而影响后续用户存留预测的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种便捷且能够提升用户存留预测准确性的用户存留模型的训练方法、用户存留预测方法和装置。
一种用户存留模型的训练方法,所述训练方法包括:
获取原始用户数据;
对原始用户数据进行分类,得到对应各维度的初始用户特征;
对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;
根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;
基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。
在其中一个实施例中,对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,包括:
基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界;
根据特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征。
在其中一个实施例中,基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界,包括:
对各维度的初始用户特征进行排序,得到排序后的初始用户特征;
确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各参考特征的特征分裂点;
从特征分裂点中确定特征分界点,并将特征分界点作为特征分组边界。
在其中一个实施例中,从特征分裂点中确定特征分界点,包括:
确定各特征分裂点的分裂系数;
基于分裂系数,确定对应排序后的初始用户特征的特征分界点;
根据特征分裂点对排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点。
在其中一个实施例中,对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征之前,还包括:
对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型;
基于各数据类型,对各初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征;
对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,包括:
对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
在其中一个实施例中,根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,包括:
基于各分组特征,确定对应的用户存留信息量以及用户流失信息量;
根据用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标;
确定满足预设指标条件的分组特征为目标特征。
一种用户存留预测方法,所述用户存留预测方法包括:
获取待处理用户的用户数据;
对用户数据进行分类,得到对应各维度的用户特征;
将用户特征输入上述的用户存留模型的训练方法训练得到的用户留存模型,生成对应待处理用户的处理结果。
在其中一个实施例中,生成对应待处理用户的处理结果之后,还包括:
根据处理结果,确定待处理用户的存留等级;
基于存留等级,确定对应待处理用户的管理策略,并进行对应的管理处理。
一种用户存留模型的训练装置,所述训练装置包括:
原始用户数据获取模块,用于获取原始用户数据;
分类处理模块,用于对原始用户数据进行分类,得到对应各维度的初始用户特征;
分组模块,用于对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;
目标特征确定模块,用于根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;
训练模块,用于基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。
一种用户存留预测装置,所述用户存留预测装置包括:
用户数据获取模块,用于获取待处理用户的用户数据;
用户特征生成模块,用于对用户数据进行分类,得到对应各维度的用户特征;
处理结果生成模块,用于将用户特征输入上述的用户存留模型训练装置训练得到的用户留存模型,生成对应待处理用户的处理结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。
上述用户存留模型的训练方法、用户存留预测方法和装置中,通过获取原始用户数据,然后对原始用户数据进行分类,得到对应各维度的初始用户特征,并对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,进一步根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,并基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。从而,在获取到原始用户数据,可以通过分类、分组以及重要性指标的确定,从原始用户数据中获取到目标特征,并用于模型的训练,使得进行模型训练的目标特征具有针对性以及代表性,可以提升模型训练的准确性,进而可以提升后续基于模型进行用户存留预测的准确性。
附图说明
图1为一个实施例中用户存留模型的训练方法的应用场景图;
图2为一个实施例中用户存留模型的训练方法的流程示意图;
图3为一个实施例中用户存留模型的训练过程的示意图;
图4为一个实施例中用户存留预测方法的流程示意图;
图5为一个实施例中确定管理策略步骤的示意图;
图6为一个实施例中用户存留模型的训练装置的结构框图;
图7为一个实施例中用户存留预测装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用户存留模型的训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。具体地,用户可以通过终端102接收用户指示,并进行模型的训练。服务器104在接收到模型训练指示之后,可以获取原始用户数据,并对原始用户数据进行分类,得到对应各维度的初始用户特征。然后服务器104可以对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。进一步,服务器104可以根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,并基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户存留模型的训练方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取原始用户数据。
用户留存是各企业,如保险公司等的重要经营考核指标,由于财险保单的短期性和激烈的市场竞争,保险公司的用户留存偏低,提高财险业务用户留存率,维护用户忠诚,对于财险公司的长远经营具有重要意义。
在传统方式中,用户留存分析主要根据用户在过去保单中的特征、画像行为数据,预测未来的留存概率,并且提取出其影响用户留存的重要影响因素,作为用户赢回的重要经营指标。
在本实施例中,进行用户存留分析之后,服务器可以预先获取原始用户数据,并用户进行用户存留模型的训练,使得后续可以直接基于训练的用户存留模型实时进行用户存留的预测,以便于实时进行用户管理与干涉,提升用户存留率。
具体地,服务器获取的原始用户数据可以是历史时间段内系统所存留的用户的历史数据,可以包括用户的姓名、性别、年龄、收入、房产、地域等数据,以及还可以包括用户所购买的保险的险别、购买时间、保险期间、是否续保、续保时间、续保年限等数据。
步骤S204,对原始用户数据进行分类,得到对应各维度的初始用户特征。
在本实施例中,服务器在获取到原始用户数据之后,可以对获取到的原始用户数据进行分类处理,如分类模板或者是分类模型等,按照不同的类别对原始用户数据进行分类,得到各个维度的初始用户特征。如按照姓名、性别、年龄、收入、房产、地域、所购买的保险的险别、购买时间、保险期间、是否续保、续保时间、续保年限。
在本实施例中,各维度的初始用户特征仅包括对应维度的数据,如年龄特征,仅包括年龄数据,如0~100等。
在本实施例中,服务器在进行原始用户数据分类之前,可以根据各原始用户数据,确定各原始用户数据是否为留存用户数据,即识别用户是否续保,并对续保用户加上存留标签,而对未续保用户加上流失标签。从而,在进行分类后,各分类中的各特征均可以携带有对应的标签,即存留标签或者是流失标签。
步骤S206,对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
传统方式中,用户在承保、理赔环节,会录入到一些用户的基础信息,这些信息如年龄、收入、房屋价值、车辆价值等,如果将这些数据直接输入模型中进行模型的训练,这些数据特征将直接参与模型构建,会对构建出来的预测模型产生较强干扰。例如一个特征是年龄>30是1,否则0。如果特征没有进行分组,一个异常数据“年龄300岁”会给模型造成很大的干扰。
在本实施例中,服务器在对原始用户数据进行分类,得到对应各维度的初始用户特征之后,可以通过确定分组边界,并通过分组边界对各维度的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
在本实施例中,服务器可以遍历各个维度的初始用户特征,并对各个维度的初始用户特征进行特征分组处理。
在本实施例中,服务器对各维度的初始用户特征进行分组处理可以并行处理,从而可以提升数据速度,提升处理效率。
步骤S208,根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征。
在本实施例中,各个维度的初始用户特征进行分组后,服务器可以通过对各分组特征进行重要性指标的计算,并选择影响度大的分组特征作为目标特征,并用于进行用户存留模型的训练,以实现更好的预测效果。
在本实施例中,服务器可以通过判断各分组特征所包含的信息量,以此确定分组特征的信息量是否足够多,若分组特征包含的信息量越多,说明这个特征越重要,服务器可以确定其为目标特征,并用于进行后续的模型训练。
步骤S210,基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。
具体地,服务器可以构建初始用户存留模型,并将确定的各维度的目标特征输入初始用户存留模型中,进行模型的迭代训练。
在本实施例中,用户存留为二分类变量(1留存,0流失),服务器可以通过使用逻辑回归来构建用户存留模型,并得到用户留存的概率。
具体地,服务器在得到目标特征之后,可以将得到的目标特征作为训练样本数据,得到n个独立的训练样本{(x1,y1),(x2,y2),…,(xn,yn)},y={0,1},构建一个逻辑回归目标函数。
在本实施例中,服务器可以在逻辑回归线性回归的基础上引入Sigmoid函数,保证输出结果是一个概率值,其范围在(0,1)内。逻辑回归目标函数(即初始用户存留模型)如下公式(1)所示。
在本实施例中,服务器在构建逻辑回归目标函数之后,可以进行模型参数的秋季,即对逻辑回归目标函数中的w和b进行求解。
在本实施例中,服务器可以极大似然法来估计求解模型参数,如下公式(2)~(5)所示。
其中,公式(2)表示存留概率,公式(3)表示流失概率,公式(4)表示似然函数,公式(5)表示整个数据集上求对数似然损失函数。
进一步,服务器可以通过随机梯度下降方法,求出最优解。
具体地,服务器通过损失函数对w的一阶导数来寻找下降方向,并且以迭代的方式更新参数,更新公式如下公式(6)和(7)所示。
其中,k为迭代次数。每次更新参数后,比较第k+1次和第k次的损失值,如果小于设定的阈值,则停止迭代,输出模型参数的最优解。
在本实施例中,在使用逻辑回归进行模型训练的时候,在损失函数上加入L1正则化,可以减少模型出现过拟合的风险,提升模型训练的准确性。
上述用户存留模型的训练方法中,通过获取原始用户数据,然后对原始用户数据进行分类,得到对应各维度的初始用户特征,并对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,进一步根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,并基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。从而,在获取到原始用户数据,可以通过分类、分组以及重要性指标的确定,从原始用户数据中获取到目标特征,并用于模型的训练,使得进行模型训练的目标特征具有针对性以及代表性,可以提升模型训练的准确性,进而可以提升后续基于模型进行用户存留预测的准确性。
在其中一个实施例中,对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,可以包括:基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界;根据特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征。
其中,特征分组边界是指对初始用户特征进行分组的分界,如对于年龄特征,若将其分为【0,10】、【10,20】、【20,30】…,则其特征分组边界为10,20…。
在本实施例中,服务器可以基于各维度的始用户特征,分别确定对应各维度的特征分组边界,并进行特征分组处理,如基于年龄特征的特征分组边界对年龄特征进行分组,基于收入特征的特征分组边界对收入特征进行分组处理,得到对应的各分组特征。
在其中一个实施例中,基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界,可以包括:对各维度的初始用户特征进行排序,得到排序后的初始用户特征;确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各参考特征的特征分裂点;从特征分裂点中确定特征分界点,并将特征分界点作为特征分组边界。
具体地,服务器可以对各维度的初始用户特征进行排序,如选取一个变量,将变量的值从小到大进行排序,记为{a1,a2,a3,a4…an},即得到排序后的初始用户特征。
进一步,服务器可以确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各参考特征的特征分裂点。
具体地,服务器可以依次选取排序后的初始用户特征中两个变量为参考特征,并基于确定的该参考特征,确定其中间值,并将该中间值作为特征分裂点Ta。特征分裂点Ta的计算可以如下公式(8)所示。
在本实施例中,服务器在遍历各维度的初始用户特征,并得到对应的特征分裂点之后,可以确定对应的特征分界点,作为特征分组边界,并对对应维度的初始用户特征进行分组处理。
在其中一个实施例中,从特征分裂点中确定特征分界点,可以包括:确定各特征分裂点的分裂系数;基于分裂系数,确定对应排序后的初始用户特征的特征分界点;根据特征分裂点对排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点。
在本实施例中,服务器在得到排序后的初始用户特征中任意相邻初始用户特征对应的特征分裂点之后,可以对各特征分裂点的分裂系数进行计算,并基于计算的分类系数,从特征分裂点中确定应排序后的初始用户特征的特征分界点。
具体地,服务器可以逐个计算每个特征分裂点的Gini(Ta)值,并选取最大的Gini(Ta)值作为特征分界点。Gini(Ta)值的计算公式如下公式(9)所示。
在本实施例中,服务器可以将得到的特征分界点作为第一个特征分界点,并对排序后的初始用户特征进行拆分,将排序后的初始用户特征进行拆分为两组,并继续各个分组进行特征分裂点以及特征分界点的确定,并继续对拆分后的各个分组进行拆分,直至得到预设数量的特征分界点。
在本实施例中,为防止初始用户特征分组后的分组特征的数据量过大,服务器可以设定当特征分界点的数量超过8时,则停止进行特征分界点的确定。
在本实施例中,服务器还可以通过网格搜索法对特征分界点的数量进行调优,以确定最优的特征分界点数据。
在其中一个实施例中,参考图3,服务器对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征之前,还包括:对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型;基于各数据类型,对各初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征。
其中,数据类型可以是指离散类型或者是连续类型。
在本实施例中,服务器在对各维度对应的初始用户特征进行特征分组处理之前,可以分别对各维度的初始用户特征进行数据类型的识别,以确定对应各维度的初始用户特征的数据类型。例如,年龄特征的数据类型可以确定为连续类型,收入特征以及房屋价值特征等可以确定为离散类型。
在本实施例中,服务器在得到各初始用户特征之后,可以基于各初始用户特征,进行数据连续性识别判定,如对于年龄特征,其是从0~100的连续性数组,则可以确定年龄特征为连续类型,而对于收入特征,其构成的数据为“15W,20W,21W,25W…”,其并非是连续的,则可以确定收入特征为离散类型。
在本实施例中,服务器在确定各维度的初始用户特征的数据类型之后,可以基于数据类型的不同,进行不同的数据处理,如对各初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征。
在本实施例中,对于收入、年龄、承保金额、理赔出险金额等这样的特征,服务器将连续类型的特征转化为浮点类型,即将数字类型转换为浮点类型,并且对连续变量中的缺失值进行填充,如填充平均数等,而对于离散类型的特征,服务器可以通过众数进行填充,或者可以进行数据转换,如将性别特征中的男女转换为0和1等,以得到预处理后的各初始用户特征。
在本实施例中,对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,可以包括:对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
具体地,服务器在进行分组处理的时候,可以对预处理后的各维度的初始用户特征进行特征分组处理,以提升分组处理的准确性,提升后续模型训练的准确性。
在其中一个实施例中,根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,可以包括:基于各分组特征,确定对应的用户存留信息量以及用户流失信息量;根据用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标;确定满足预设指标条件的分组特征为目标特征。
其中,用户存留信息量是指各分组特征中存留用户的信息熵的大小,用户流失信息量是指各分组特征中流失用户的信息熵的大小。
在本实施例中,信息熵可以衡量一个特征包含的信息量,信息熵越大,说明特征包含的信息量越大,特征越重要,反之,则说明特征所包含的信息量越少,特征越不重要。
在本实施例中,服务器在得到各维度对应的各分组特征之后,可以对各分组特征对应的用户存留数量以及用户流失数量进行统计,并基于用户存留量以及用户流失量进行用户存留信息量以及用户流失信息量的计算。
在本实施例中,用户存留信息量的计算可以通过如下公式(10)计算,用户流失信息量可以通过如下公式(11)计算。
V=-(yi/yt)log(yi/yt)(10)
Z=-(zi/zt)log(zi/zt)(11)
其中,V表示用户存留信息量,Z表示用户流失信息量,yi是某一维度的某一分组特征的用户留存数量,yt是该维度中用户留存总数,zi是某一维度的某一分组特征的用户流失数量,zt是该维度中用户流失总量。
在本实施例中,服务器在确定对应各分组特中的用户存留信息量以及用户流失信息量之后,可以基于用户存留信息量以及用户流失信息量,对各分组特征对应的重要性指标进行计算,以得到各分组特征的重要性指标。
具体地,服务器可以通过如下公式(12)进行重要性指标的计算。
H=V+Z(12)
其中,H表示重要性指标,其可以包含用户留存和用户流失的总信息量,H值越大,表示该分组特征包含的信息量越多,该特征越重要,区分能力也越好。
在本实施例中,服务器可以通过遍历各维度的各分组特征,生成对应各维度的各分组特征的重要性指标。
在本实施例中,服务器在得到对应各维度的各分组特征的重要性指标之后,可以通过预先设定的指标条件,对各分组特征对应的重要性指标进行判定,以从各维度的各分组特征中确定目标特征。
具体地,设定指标条件可以是高于阈值条件,服务器可以筛选出H值高于某个阈值的分组特征来进行下一步的建模工作,即确定目标特征。例如,若H值≥0.5,认为该分组特征为目标特征,若H值<0.02,认为该特征是不重要特征,则删除。
本领域技术人员可以理解的是,以上仅为举例说明,在其他实施例中,设定指标条件也可以是其他的条件,如对重要性指标进行排序,确定排序靠前的预设数量个分组特征为目标特征等,本申请对此不作限制。
在一个实施例中,如图4所示,提供了一种用户存留预测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S402,获取待处理用户的用户数据。
其中,待处理用户是指待进行用户存留预测的用户,用户数据可以包括前文所说的姓名、性别、年龄、收入、房产、地域等数据,以及还可以包括用户所购买的保险的险别、购买时间、保险期间、是否续保、续保时间、续保年限等数据。
步骤S404,对用户数据进行分类,得到对应各维度的用户特征。
具体分类方式可以参见前文所述,此处不再赘述。
步骤S406,将用户特征输入用户存留模型,生成对应待处理用户的处理结果。
在本实施例中,服务器可以将得到的用户特征,输入预先构建并训练完成的用户存留模型中,基于用户存留模型输出对应的处理结果。
在本实施例中,处理结果可以是用户存留的存留概率。
在其中一个实施例中,继续参考图3,服务器生成对应待处理用户的处理结果之后,还可以包括:根据处理结果,确定待处理用户的存留等级;基于存留等级,确定对应待处理用户的管理策略,并进行对应的管理处理。
在本实施例中,服务器可以预先构建存留等级区间,并基于得到的处理结果,即预测概率,确定待处理用户的存留等级。预先构建的存留等级区间如下表一所示。
表一
在本实施例中,服务器可以将lev1-level3划分为低评分用户,level4-level6划分为中评分用户,level7-level10划分为高评分用户,针对不同存留等级(不同评分)的用户,服务器可以推荐不同的策略。
具体地,如图5所示,服务器可以定期运行用户数据,并在确定对应各待处理用户的存留等级后,推送到用户管理系统,通过用户管理系统进行管理,如高评分用户进行进一步的价值挖掘,中评分用户重点关注,配备专人和专项管理营销策略,低评分用户按照既有方式进行服务等。
在本实施例中,在通过模型得到用户的存留概率之后,还获得影响留存概率的影响因子,根据业务要求,依据因子的影响重要性,分别进行展示,如展示正向影响因子1、正向影响因子2。如下表二所示。
表二
应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种用户存留模型的训练装置,包括:原始用户数据获取模块601、分类处理模块602、分组模块603、目标特征确定模块604以及训练模块605,其中:
原始用户数据获取模块601,用于获取原始用户数据。
分类处理模块602,用于对原始用户数据进行分类,得到对应各维度的初始用户特征。
分组模块603,用于对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
目标特征确定模块604,用于根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征。
训练模块605,用于基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。
在其中一个实施例中,分组模块603,可以包括:
分组边界确定子模块,用于基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界。
分组子模块,用于根据特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征。
在其中一个实施例中,分组边界确定子模块,可以包括:
初始用户特征确定单元,用于对各维度的初始用户特征进行排序,得到排序后的初始用户特征。
分裂点确定单元,用于确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各参考特征的特征分裂点。
分组边界确定单元,用于从特征分裂点中确定特征分界点,并将特征分界点作为特征分组边界。
在其中一个实施例中,分组边界确定单元,可以包括:
分裂系数确定子单元,用于确定各特征分裂点的分裂系数。
特征分界点确定子单元,用于基于分裂系数,确定对应排序后的初始用户特征的特征分界点。
循环子单元,用于根据特征分裂点对排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点。
在其中一个实施例中,上述训练装置还可以包括:
数据类型确定模块,用于对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型。
预处理模块,用于预处理基于各数据类型,对各初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征。
在本实施例中,分组模块603用于对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
在其中一个实施例中,目标特征确定模块604,可以包括:
信息量确定子模块,用于基于各分组特征,确定对应的用户存留信息量以及用户流失信息量。
重要性指标确定子模块,用于根据用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标。
目标特征确定子模块,用于确定满足预设指标条件的分组特征为目标特征。
在一个实施例中,如图7所示,提供了一种用户存留预测装置,包括:用户数据获取模块701、用户特征生成模块702和处理结果生成模块703,其中:
用户数据获取模块701,用于获取待处理用户的用户数据。
用户特征生成模块702,用于对用户数据进行分类,得到对应各维度的用户特征。
处理结果生成模块703,用于将用户特征输入上述的用户存留模型,生成对应待处理用户的处理结果。
在其中一个实施例中,上述用户存留预测还可以包括:
存留等级确定模块,用于生成对应待处理用户的处理结果之后,根据处理结果,确定待处理用户的存留等级;
处理模块,用于基于存留等级,确定对应待处理用户的管理策略,并进行对应的管理处理。
关于用户存留模型的训练装置以及用户存留预测装置的具体限定可以参见上文中对于用户存留模型的训练方法以及用户存留预测方法的限定,在此不再赘述。上述用户存留模型的训练装置以及用户存留预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始用户数据、初始用户特征、分组特征以及目标特征等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户存留模型的训练方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取原始用户数据;对原始用户数据进行分类,得到对应各维度的初始用户特征;对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。
在其中一个实施例中,处理器执行计算机程序时实现对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,可以包括:基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界;根据特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征。
在其中一个实施例中,处理器执行计算机程序时实现基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界,可以包括:对各维度的初始用户特征进行排序,得到排序后的初始用户特征;确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各参考特征的特征分裂点;从特征分裂点中确定特征分界点,并将特征分界点作为特征分组边界。
在其中一个实施例中,处理器执行计算机程序时实现从特征分裂点中确定特征分界点,可以包括:确定各特征分裂点的分裂系数;基于分裂系数,确定对应排序后的初始用户特征的特征分界点;根据特征分裂点对排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点。
在其中一个实施例中,处理器执行计算机程序时实现对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征之前,还可以实现以下步骤:对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型;基于各数据类型,对各初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征。
在本实施例中,处理器执行计算机程序时实现对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,可以包括:对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
在其中一个实施例中,处理器执行计算机程序时实现根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,可以包括:基于各分组特征,确定对应的用户存留信息量以及用户流失信息量;根据用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标;确定满足预设指标条件的分组特征为目标特征。
在一个实施例中,提供了另一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待处理用户的用户数据;对用户数据进行分类,得到对应各维度的用户特征;将用户特征输入上述的用户存留模型,生成对应待处理用户的处理结果。
在其中一个实施例中,处理器执行计算机程序时实现生成对应待处理用户的处理结果之后,还可以实现以下步骤:根据处理结果,确定待处理用户的存留等级;基于存留等级,确定对应待处理用户的管理策略,并进行对应的管理处理。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始用户数据;对原始用户数据进行分类,得到对应各维度的初始用户特征;对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;基于目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型。
在其中一个实施例中,计算机程序被处理器执行时实现对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,可以包括:基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界;根据特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征。
在其中一个实施例中,计算机程序被处理器执行时实现基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界,可以包括:对各维度的初始用户特征进行排序,得到排序后的初始用户特征;确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各参考特征的特征分裂点;从特征分裂点中确定特征分界点,并将特征分界点作为特征分组边界。
在其中一个实施例中,计算机程序被处理器执行时实现从特征分裂点中确定特征分界点,可以包括:确定各特征分裂点的分裂系数;基于分裂系数,确定对应排序后的初始用户特征的特征分界点;根据特征分裂点对排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点。
在其中一个实施例中,计算机程序被处理器执行时实现对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征之前,还可以实现以下步骤:对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型;基于各数据类型,对各初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征。
在本实施例中,计算机程序被处理器执行时实现对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,可以包括:对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
在其中一个实施例中,计算机程序被处理器执行时实现根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,可以包括:基于各分组特征,确定对应的用户存留信息量以及用户流失信息量;根据用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标;确定满足预设指标条件的分组特征为目标特征。
在一个实施例中,提供了另一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理用户的用户数据;对用户数据进行分类,得到对应各维度的用户特征;将用户特征输入上述的用户存留模型,生成对应待处理用户的处理结果。
在其中一个实施例中,计算机程序被处理器执行时实现生成对应待处理用户的处理结果之后,还可以实现以下步骤:根据处理结果,确定待处理用户的存留等级;基于存留等级,确定对应待处理用户的管理策略,并进行对应的管理处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种用户存留模型的训练方法,其特征在于,所述训练方法包括:
获取原始用户数据;
对所述原始用户数据进行分类,得到对应各维度的初始用户特征;
对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;
根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;
基于所述目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型;
所述对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,包括:
基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界;
根据所述特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征;
所述基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界,包括:
对各维度的初始用户特征进行排序,得到排序后的初始用户特征;
确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各所述参考特征的特征分裂点;
从所述特征分裂点中确定特征分界点,并将所述特征分界点作为特征分组边界,包括:逐个计算每个特征分裂点的Gini值,并选取最大的Gini值作为特征分界点;
所述从所述特征分裂点中确定特征分界点,包括:
确定各所述特征分裂点的分裂系数;
基于所述分裂系数,确定对应所述排序后的初始用户特征的特征分界点;
根据所述特征分裂点对所述排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点;
所述根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征,包括:
基于各分组特征,确定对应的用户存留信息量以及用户流失信息量,其中,所述用户存留信息量是指各分组特征中存留用户的信息熵的大小,所述用户流失信息量是指各分组特征中流失用户的信息熵的大小;
根据所述用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标;
确定满足预设指标条件的分组特征为目标特征。
2.根据权利要求1所述的训练方法,其特征在于,所述对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征之前,还包括:
对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型;
基于各所述数据类型,对各所述初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征;
所述对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征,包括:
对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
3.一种用户存留预测方法,其特征在于,所述用户存留预测方法包括:
获取待处理用户的用户数据;
对所述用户数据进行分类,得到对应各维度的用户特征;
将所述用户特征输入权利要求1或2所述的用户存留模型的训练方法训练得到的用户留存模型,生成对应待处理用户的处理结果。
4.根据权利要求3所述的用户存留预测方法,其特征在于,所述生成对应待处理用户的处理结果之后,还包括:
根据所述处理结果,确定所述待处理用户的存留等级;
基于所述存留等级,确定对应所述待处理用户的管理策略,并进行对应的管理处理。
5.一种用户存留模型的训练装置,其特征在于,所述训练装置包括:
原始用户数据获取模块,用于获取原始用户数据;
分类处理模块,用于对所述原始用户数据进行分类,得到对应各维度的初始用户特征;
分组模块,用于对各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征;
目标特征确定模块,用于根据各分组特征的重要性指标,从各维度的分组特征中确定目标特征;
训练模块,用于基于所述目标特征进行初始用户存留模型的训练,得到训练后的用户存留模型;
所述分组模块包括:
分组边界确定子模块,用于基于各维度的初始用户特征,确定对应各维度特征分组处理的特征分组边界;
分组子模块,用于根据所述特征分组边界,对对应维度的初始用户特征进行分组,得到对应的各分组特征;
所述分组边界确定子模块包括:
初始用户特征确定单元,用于对各维度的初始用户特征进行排序,得到排序后的初始用户特征;
分裂点确定单元,用于确定排序后的初始用户特征中任意相邻初始用户特征为参考特征,并确定对应各所述参考特征的特征分裂点;
分组边界确定单元,用于从所述特征分裂点中确定特征分界点,并将所述特征分界点作为特征分组边界,包括:逐个计算每个特征分裂点的Gini值,并选取最大的Gini值作为特征分界点;
所述分组边界确定单元包括:
分裂系数确定子单元,用于确定各所述特征分裂点的分裂系数;
特征分界点确定子单元,用于基于所述分裂系数,确定对应所述排序后的初始用户特征的特征分界点;
循环子单元,用于根据所述特征分裂点对所述排序后的初始用户特征进行拆分,并将拆分后的初始用户特征作为排序后的初始用户特征,继续确定对应的特征分界点,直至得到预设数量的特征分界点;
所述目标特征确定模块包括:
信息量确定子模块,用于基于各分组特征,确定对应的用户存留信息量以及用户流失信息量,其中,所述用户存留信息量是指各分组特征中存留用户的信息熵的大小,所述用户流失信息量是指各分组特征中流失用户的信息熵的大小;
重要性指标确定子模块,用于根据所述用户存留信息量以及用户流失信息量,得到各分组特征的重要性指标;
目标特征确定子模块,用于确定满足预设指标条件的分组特征为目标特征。
6.根据权利要求5所述的训练装置,其特征在于,所述训练装置还包括:
数据类型确定模块,用于对各维度的初始用户特征进行数据类型的识别,确定对应各维度的初始用户特征的数据类型;
预处理模块,用于基于各所述数据类型,对各所述初始用户特征进行数据转换和/或缺失填充预处理,得到预处理后的各初始用户特征;
所述分组模块还用于对预处理后的各维度对应的初始用户特征进行特征分组处理,得到对应各维度的初始用户特征的分组特征。
7.一种用户存留预测装置,其特征在于,所述用户存留预测装置包括:
用户数据获取模块,用于获取待处理用户的用户数据;
用户特征生成模块,用于对所述用户数据进行分类,得到对应各维度的用户特征;
处理结果生成模块,用于将所述用户特征输入权利要求5或6所述的用户存留模型的训练装置训练得到的用户留存模型,生成对应待处理用户的处理结果。
8.根据权利要求7所述的用户存留预测装置,其特征在于,所述用户存留预测装置还包括:
存留等级确定模块,用于根据所述处理结果,确定所述待处理用户的存留等级;
处理模块,用于基于所述存留等级,确定对应所述待处理用户的管理策略,并进行对应的管理处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210584714.6A CN114676167B (zh) | 2022-05-27 | 2022-05-27 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210584714.6A CN114676167B (zh) | 2022-05-27 | 2022-05-27 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114676167A CN114676167A (zh) | 2022-06-28 |
CN114676167B true CN114676167B (zh) | 2022-08-30 |
Family
ID=82081005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210584714.6A Active CN114676167B (zh) | 2022-05-27 | 2022-05-27 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676167B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171259B1 (en) * | 2015-01-12 | 2015-10-27 | Bank Of America Corporation | Enhancing classification and prediction using predictive modeling |
CN108022146A (zh) * | 2017-11-14 | 2018-05-11 | 深圳市牛鼎丰科技有限公司 | 征信数据的特征项处理方法、装置、计算机设备 |
CN109299961A (zh) * | 2017-07-24 | 2019-02-01 | 北京嘀嘀无限科技发展有限公司 | 防止用户流失的方法及装置、设备和存储介质 |
CN110991474A (zh) * | 2019-10-12 | 2020-04-10 | 未鲲(上海)科技服务有限公司 | 一种机器学习建模平台 |
CN112330048A (zh) * | 2020-11-18 | 2021-02-05 | 中国光大银行股份有限公司 | 评分卡模型训练方法、装置、存储介质及电子装置 |
CN112613983A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN113988221A (zh) * | 2021-11-26 | 2022-01-28 | 泰康保险集团股份有限公司 | 一种保险用户分类模型建立方法、分类方法、装置及设备 |
-
2022
- 2022-05-27 CN CN202210584714.6A patent/CN114676167B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171259B1 (en) * | 2015-01-12 | 2015-10-27 | Bank Of America Corporation | Enhancing classification and prediction using predictive modeling |
CN109299961A (zh) * | 2017-07-24 | 2019-02-01 | 北京嘀嘀无限科技发展有限公司 | 防止用户流失的方法及装置、设备和存储介质 |
CN108022146A (zh) * | 2017-11-14 | 2018-05-11 | 深圳市牛鼎丰科技有限公司 | 征信数据的特征项处理方法、装置、计算机设备 |
CN110991474A (zh) * | 2019-10-12 | 2020-04-10 | 未鲲(上海)科技服务有限公司 | 一种机器学习建模平台 |
CN112330048A (zh) * | 2020-11-18 | 2021-02-05 | 中国光大银行股份有限公司 | 评分卡模型训练方法、装置、存储介质及电子装置 |
CN112613983A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN113988221A (zh) * | 2021-11-26 | 2022-01-28 | 泰康保险集团股份有限公司 | 一种保险用户分类模型建立方法、分类方法、装置及设备 |
Non-Patent Citations (6)
Title |
---|
Attribute Selection and Customer Churn Prediction in Telecom Industry;V.Umayaparvathi 等;《2016 International Conference on Data Mining and Advanced Computing》;20161212;1-7 * |
High Accuracy Predictive Modelling for Customer Churn Prediction in Telecom Industry;R.Prashanth 等;《2017 International Conference on Machine Learning and Data Mining in Pattern Recognition》;20170702;391-402 * |
基于数据挖掘的电信客户流失预测系统研究;高洋;《中国优秀硕士学位论文全文数据库信息科技辑》;20140215(第02期);I138-346 * |
基于随机森林的流量多特征提取与分类研究;韦泽鲲等;《传感器与微系统》;20161220;第35卷(第12期);55-59 * |
基尼系数计算中统计分组方法的探讨;季林华;《江苏统计》;20030903(第8期);11-12 * |
财经新闻APP用户流失预测;王惠;《中国优秀硕士学位论文全文数据库信息科技辑》;20210315(第03期);I138-208 * |
Also Published As
Publication number | Publication date |
---|---|
CN114676167A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536800B (zh) | 文本分类方法、系统、计算机设备和存储介质 | |
CN108520041B (zh) | 文本的行业分类方法、系统、计算机设备和存储介质 | |
CN109902753B (zh) | 用户推荐模型训练方法、装置、计算机设备和存储介质 | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN112036647B (zh) | 基于人工智能的简历信息处理方法、装置、设备及介质 | |
CN108304935A (zh) | 机器学习模型训练方法、装置和计算机设备 | |
CN110781380A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN108182633A (zh) | 贷款数据处理方法、装置、计算机设备和存储介质 | |
CN112905876A (zh) | 基于深度学习的信息推送方法、装置和计算机设备 | |
CN115545300B (zh) | 一种基于图神经网络进行用户行为预测的方法及装置 | |
CN111061948A (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
CN110765351A (zh) | 目标用户识别方法、装置、计算机设备和存储介质 | |
CN115311042A (zh) | 商品推荐方法、装置、计算机设备和存储介质 | |
CN115099326A (zh) | 基于人工智能的行为预测方法、装置、设备及存储介质 | |
CN113642652A (zh) | 生成融合模型的方法、装置和设备 | |
CN111898249A (zh) | 滑坡位移非参数概率密度预测方法、设备及存储介质 | |
CN114782201A (zh) | 股票推荐方法、装置、计算机设备和存储介质 | |
CN110796379B (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN114676167B (zh) | 用户存留模型的训练方法、用户存留预测方法和装置 | |
CN110766465A (zh) | 金融产品评估方法及其验证方法、装置 | |
US11704598B2 (en) | Machine-learning techniques for evaluating suitability of candidate datasets for target applications | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN113850314A (zh) | 客户价值等级预测模型建立方法、装置、介质及设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US11853906B1 (en) | Methods for development of a machine learning system through layered gradient boosting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |