CN113240451A - 一种用户流失的预测方法和装置 - Google Patents
一种用户流失的预测方法和装置 Download PDFInfo
- Publication number
- CN113240451A CN113240451A CN202110389902.9A CN202110389902A CN113240451A CN 113240451 A CN113240451 A CN 113240451A CN 202110389902 A CN202110389902 A CN 202110389902A CN 113240451 A CN113240451 A CN 113240451A
- Authority
- CN
- China
- Prior art keywords
- user
- loss
- fitness
- basic information
- historical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006399 behavior Effects 0.000 claims abstract description 44
- 230000011273 social behavior Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 39
- 230000000694 effects Effects 0.000 claims description 30
- 238000012795 verification Methods 0.000 claims description 21
- 238000007637 random forest analysis Methods 0.000 claims description 18
- 230000014759 maintenance of location Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000000717 retained effect Effects 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 238000003066 decision tree Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 210000000577 adipose tissue Anatomy 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 210000003205 muscle Anatomy 0.000 description 6
- 208000031648 Body Weight Changes Diseases 0.000 description 4
- 230000004579 body weight change Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000030279 gene silencing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例涉及一种用户流失预测方法和装置,该方法包括:获取现存用户的基本信息,基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;将基本信息输入至已训练的用户流失预测模型中输出流失概率值;若流失概率值大于预设阈值,则确定基本信息对应的用户为即将流失用户。本申请实施例通过将现存健身用户的基本信息输入至已训练的用户流失预测模型可以直接输出流失概率值,通过流失概率值可以确定现存用户是不是属于即将流失的用户,从而解决了现有技术中健身房中没有预测用户流失的技术空白,为健身房管理者对未来可能的流失用户采取对应挽留措施提供指导,降低了用户流失率。
Description
技术领域
本申请实施例涉及用户流失预测技术领域,具体涉及一种用户流失的预测方法和装置。
背景技术
现阶段,用户流失预测常常应用于通信企业,目前还没应用于健身房的案例。为健身房管理者对用户的管理造成困扰,并且用户的健身行为和方式难以精确度量,同时,用户的开卡时间段并非连续,以及用户的健身行为更易受天气、工作需要、节假日等外界因素干扰。其中,预约制健身房,采用教练在固定时间开设课程、用户预约的制度,这使得用户的健身时长更好量化,从用户的教练选择偏好、上课时段偏好中也可提取有用信息。目前还没有一种对预约制健身房流失的用户进行预测的方案。
发明内容
为了解决现有技术存在的至少一个问题,本申请的至少一个实施例提供了一种用户流失预测方法和装置,可以对健身房的健身用户的流失进行预测。
第一方面,本发明实施例提供了一种用户流失预测方法,应用于预约制健身房的用户流失预测,所述方法包括:
获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;
将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;
若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。
在一些实施例中,上述方法还包括:
对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险;
对所述不同的风险等级对应的用户采用不同的挽留方式;
其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。
在一些实施例中,上述已训练的用户流失预测模型的训练步骤包括:
获取连续N个月的历史数据,其中N=T+X;
基于T个月的历史数据确定用户的特征;
基于X个月的历史数据确定所述历史数据对应的用户是留存用户、回访用户和流失用户中的一种;
筛选所述回访用户对应的历史数据;
将所述筛选后的历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的流失预测模型。
在一些实施例中,上述方法还包括:
通过所述验证集对已训练的用户流失预测模型结果进行验证。
在一些实施例中,上述方法还包括:对所述N个月的历史数据进行预处理。
第二方面,本发明实施例还提供一种用户了流失预测装置,应用于预约制健身房的用户流失预测,所述装置包括:
获取模块:用于获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;
输入输出模块:用于将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;
确定模块:用于若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。
在一些实施例中,上述装置还包括分类模块:
所述分类模块:用于对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险;
对所述不同的风险等级对应的用户采用不同的挽留方式;
其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。
在一些实施例中,上述装置中已训练的用户流失预测模型的训练步骤包括:
获取连续N个月的历史数据,其中N=T+X;
基于T个月的历史数据确定用户的特征;
基于X个月的历史数据确定所述历史数据对应的用户是留存用户、回访用户和流失用户中的一种;
筛选所述回访用户对应的历史数据;
将所述筛选后的历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的用户流失预测模型。
在一些实施例中,上述装置还包括:验证模块,
所述验证模块:用于通过所述验证集对已训练的用户流失预测模型结果进行验证。
在一些实施例中,上述装置还包括:预处理模块,所述预处理模块:用于对所述N个月的历史数据进行预处理。
本发明实施例的优点在于:本申请实施例提出的用户流失预测的方法,应用于预约制健身房的用户流失预测,通过获取现存用户的基本信息,将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。通过将健身用户的基本信息输入至已训练的用户流失预测模型可以直接输出流失概率值,通过流失概率值可以直接确定用户是不是属于即将流失的用户,从而解决了现有技术中健身房中没有预测用户流失的技术空白,为健身房管理者对未来可能的流失用户采取对应挽留措施提供指导,降低用户流失率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种用户流失预测方法示意图;
图2是本申请实施例提供的又一种用户流失预测方法示意图;
图3是本申请实施例提供的已训练的用户流失预测模型的训练方法示意图;
图4是本申请实施例提供的一种用户流失预测装置示意图;
图5是本申请实施例提供的又一种用户流失预测装置示意图;
图6是本申请实施例提供的又一种用户流失预测装置示意图;
图7是本申请实施例提供的又一种用户流失预测装置示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
现阶段,用户流失预测常常应用于通信企业,目前还没应用于健身房的案例。为健身房管理者对用户的管理造成困扰,并且用户的健身行为和方式难以精确度量,同时,用户的开卡时间段并非连续,以及用户的健身行为更易受天气、工作需要、节假日等外界因素干扰。其中,预约制健身房,采用教练在固定时间开设课程、用户预约的制度,这使得用户的健身时长更好量化,从用户的教练选择偏好、上课时段偏好中也可提取有用信息。目前还没有一种对预约制健身房流失的用户进行预测的方案。
图1是本申请实施例提供的一种用户流失预测方法示意图。
鉴于此,第一方面,本申请实施例提供了一种用户流失预测方法,应用于预约制健身房的用户流失预测,结合图1,包括如下三个步骤S101、S102和S103。
S101:获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种。
具体的,本申请实施例中的基本信息中的会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息的定义分别如下:
会员基本信息包括:会员ID、会员性别、会员年龄。会员运动收益指标包括:体重变化、体脂变化、腰围变化。会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。会员社交传播:点赞次数、分享次数、推荐办卡次数。
S102:将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值。
应理解,通过S102步骤将用户的基本信息,会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息输入至已训练的用户流失预测模型中输出流失概率值。
S103:若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。
应理解,已训练的用户流失预测模型模型输出的流失概率在区间[0,1]之间,例如输出的流失概率值为0.8,预设阈值为0.5,则确定输入的基本信息对应的用户为即将流失用户,输出的流失概率值为0.3,预设阈值为0.5,则确定输入的基本信息对应的用户为不流失用户,从而实现对健身房用户是否流失进行准确的预测。
上述S101、S102和S103三个步骤通过将健身用户的基本信息输入至已训练的用户流失预测模型中输出流失概率值,以及通过流失概率值确定是不是即将流失的过程,下面通过S201和S202两个步骤介绍对流失概率进行风险等级划分,对不同的风险等级对应的用户采取不同的挽留方式进行挽留,提高健身房的经济效益。
图2是本申请实施例提供的又一种用户流失预测方法示意图。
在一些实施例中,如图2所示,上述方法还包括S201和S202两个步骤:
S201:对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险。
应理解,模型输出的流失概率在区间[0,1]之间,通过将概率进行区间分类得到不同的风险等级,例如可以使用不同阈值将用户划分为不同区间,例如,[0,0.5]为无流失风险,(0.5,0.7]为低风险,(0.7,0.85]为中风险,(0.85,1]为高风险,或者,[0,0.5]为无流失风险,(0.5,0.6]为中风险,(0.6,0.8]为中风险,(0.8,1]为高风险,具体的区间本申请实施例不做限定。
S202:对所述不同的风险等级对应的用户采用不同的挽留方式。
其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。
示例性的,高风险的用户采取加强沟通督促、优化用户体验的方式,如用户的需求为瘦身、减脂、增肌等。但是瘦身、减脂、增肌不明显,可以通过配备教练等方式进行挽留。中风险的用户采取提供优惠活动的方式进行挽留,例如,对训练半年以上的用户赠送月卡等。低风险的用户采取对用户的持续健身行为提供奖励,如赠送健身服,健身器材等方式。
此外,现有的用户流失预测方法主要是对用户历史数据进行预处理后,将基础指标数据输入到已训练的用户流失预测模型(如决策树、神经网络等)中,并最终输出用户是否流失的概率。然而,基础指标虽然覆盖面广,但缺乏对特定问题的针对性,容易导致预警结果的不准确。此外,传统用户流失预测中,将用户直接分为留存用户和流失用户,然而这其中还包括一部分回访用户,无论将回访用户判断为留存用户或是流失用户都会影响模型的准确率。
鉴于此,本申请实施例通过S301、S302、S303、S304、S305和S306六个步骤介绍本申请实施例中训练用户流失预测模型的过程,通过使用该已训练的用户流失预测模型对用户流失进行预测可以进一步提高预测的准确性。
图3是本申请实施例提供的已训练的用户流失预测模型的训练方法示意图。
在一些实施例中,如图3所示,上述已训练的用户流失预测模型的训练步骤包括S301、S302、S303、S304、S305和S306六个步骤。
S301:获取连续N个月的健身历史数据,其中N=T+X。
应理解,这里的N可以是5、8、10个月等数值,具体的数值本申请不做具体限定。
健身历史数据可以包括:会员基本信息包括:会员ID、会员性别、会员年龄。会员运动收益指标包括:体重变化、体脂变化、腰围变化。会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。会员社交传播:点赞次数、分享次数、推荐办卡次数。
示例性的,以N=5=3+2个月为例。
S302:基于T个月的健身历史数据确定用户的特征。
应理解,示例性的T=3,如通过7-9月这三个月的健身历史数据提取用户的特征,从而确定用户的特征;用户的特征可以是健身效果,不正常沉默、健身毅力和健身时长。上述用户的特征的定义如下:
健身效果:几乎所有健身用户都有自己锻炼的目的,如瘦身、减脂、增肌等。选取用户的体重、体脂率、胸围、臀围、臂围等作为健身效果的指标,可以综合衡量用户的健身效果。大多数流失用户的健身效果没有明显的改善,甚至出现倒退。不正常沉默:健身行为出现突然减少乃至不正常沉默,主要根据用户健身次数,因此设计建模指标包括最近平均每月健身次数、最长健身间隔(天)、平均健身间隔(天)、最近每月健身次数标准差、极差。健身毅力:流失用户更有可能频繁爽约,即将已预约的健身课程取消;对于下雨天,用户也有可能会取消本已预约的课程。可以通过爽约比率和雨天上课率来判断用户健身的决心和毅力。流失用户与健身时长关系紧密,健身时长越长,用户粘性越大,流失的可能性就越小,健身时长也可作为建模指标。
在一种可能的实施方式中,可以在3-10月这一时间段,多次使用3+2策略,即通过3-5、4-6、5-7、6-8、7-9、8-10这6个时间段的健身历史数据确定用户的特征。
S303:基于X个月的健身历史数据确定所述健身历史数据对应的用户是留存用户、回访用户和流失用户中的一种。
具体的,本申请实施例中的留存用户、流失用户和回访用户的定义如下:
留存用户:在M个月中,每个月都有健身行为的用户。流失用户:在M个月中,完全没有健身行为,或者前期有健身行为,后期无健身行为的用户。回访用户:在M个月中,在某一个月中已经被判断为无健身行为,后面又出现健身行为的用户。这里的M可以取值为3、4和5等值。
如7-9月这三个月的健身历史数据确定用户的特征后,确定用户在10、11月的健身行为确定其是留存用户、回访用户和流失用户。
对于历史数据,流失用户的确定具有一定的时间滞后,故采用T+X策略,即用连续T个月的数据获取用户的特征,通过后X个月的用户行为判断是否流失,提高了预测的准确性。对于现存的当前用户,只用T个月的数据获取用户特征,用训练后的模型判断是否流失。
S304:筛选所述回访用户对应的健身历史数据。
应理解,通过S303步骤确定了用户是留存用户、回访用户和流失用户后,将回访用户的数据筛选掉,排除了回访用户的干扰,与没有排除回访用户干扰的模型相比进一步提高了模型预测的准确性。
S305:将所述筛选后的健身历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的用户流失预测模型。
应理解,筛选后的健身历史数据包括:留存用户对应的历史数据和流失用户对应的历史数据。将留存用户对应的历史数据以及流失用户对应的历史数据分为训练集和验证集,如从留存用户对应的历史数据以及流失用户对应的历史数据取出80%当训练集;从留存用户对应的历史数据以及流失用户对应的历史数据取出20%当验证集。
具体的,本申请实施例中的随机森林模型是一种集成学习的机器学习算法,基本分类器由决策树组成,这些决策树是经过Bagging集成学习技术得到,对单棵决策树的输出结果进行投票从而决定随机森林模型最终的分类结果。随机森林对噪声和异常值有着很好的过滤效果,能够克服过拟合问题,尤其在对高维数据的分类方面表现除了良好的并行性和可扩展性。随机森林模型以数据为驱动,通过对指定样本进行学习和训练得出分类规则,不需要任何分类的先验知识,是一种非参数分类模型。
应理解,使用上述训练集训练随机森林模型得到已训练的用户流失预测模型。解决了传统预测方法指标选择单一、没有排除回访用户、健身房用户的健身行为数据难以精确采集的问题,通过上述方法训练的用户流失预测模型较为准确且性能优异,对健身用户是否流失进行有效预测。
在一些实施例中,上述方法还包括:
通过所述验证集对已训练的用户流失预测模型结果进行验证。
通过验证集计算已训练的用户流失预测模型的准确率、精度、召回率和F1分数,确定已训练的用户流失预测模型效果。
具体地,所述准确率的计算公式为:准确率=预测正确的用户/所有用户;所述精度(precision)的计算公式为:精度=被正确预测的流失用户/所有被预测为流失用户;所述召回率(recall)的计算公式为:召回率=被正确预测的流失用户/所有实际为流失用户;所述F1分数的计算公式为:F1=2×precision×recall/(precision+recall)。
在一些实施例中,上述方法还包括:对所述N个月的历史数据进行预处理。
具体的,本申请实施例中的预处理的处理方式如下:
第一种处理方式:对缺失值以众数、中位数或均值进行填充。
第二种处理方式:对因数据记录而产生的异常值进行人工修改或删除。
第三钟处理方式:对内部员工和健身不满三个月的用户数据进行删除。
应理解,通过上述三种对N个月的健身历史数据进行预处理,筛选出正常用户数据,为用户流失预测模型的训练提供数据保障。
图4是本申请实施例提供的一种用户流失预测装置示意图。
第二方面,如图4所示,本发明实施例还提供一种用户了流失预测装置,应用于预约制健身房的用户流失预测,所述装置40包括:
获取模块401:用于获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种。
具体的,本申请实施例中通过获取模块401获取基本信息基本信息中的会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息的定义分别如下:
会员基本信息包括:会员ID、会员性别、会员年龄。
会员运动收益指标包括:体重变化、体脂变化、腰围变化。
会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。
会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。
会员社交传播:点赞次数、分享次数、推荐办卡次数。
输入输出模块402:用于将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值。
应理解,通过输入输出模块402将用户的基本信息,会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息输入至已训练的用户流失预测模型中输出流失概率值。
确定模块403:用于若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。
应理解,已训练的用户流失预测模型模型输出的流失概率在区间[0,1]之间,例如输出的流失概率值为0.8,预设阈值为0.5,则确定模块403确定输入的基本信息对应的用户为即将流失用户,输出的流失概率值为0.3,预设阈值为0.5,则确定输入的基本信息对应的用户为不流失用户,从而实现对健身房用户是否流失进行准确的预测。
图5是本申请实施例提供的又一种用户流失预测装置示意图。
在一些实施例中,如图5所示,上述装置40还包括分类模块501:
所述分类模块501:用于对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险。
应理解,已训练的用户流失预测模型模型输出的流失概率在区间[0,1]之间,通过分类模块501将概率进行区间分类得到不同的风险等级,例如可以使用不同阈值将用户划分为不同区间,例如,[0,0.5]为无流失风险,(0.5,0.7]为低风险,(0.7,0.85]为中风险,(0.85,1]为高风险,或者,[0,0.5]为无流失风险,(0.5,0.6]为低风险,(0.6,0.8]为中风险,(0.8,1]为高风险,具体的区间本申请实施例不做限定。
对所述不同的风险等级对应的用户采用不同的挽留方式。
其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。
示例性的,高风险的用户采取加强沟通督促、优化用户体验的方式,如用户的需求为瘦身、减脂、增肌等。但是瘦身、减脂、增肌不明显,可以通过配备教练等方式进行挽留。中风险的用户采取提供优惠活动的方式进行挽留,例如,对训练半年以上的用户赠送月卡等。低风险的用户采取对用户的持续健身行为提供奖励,如赠送健身服,健身器材等方式。
在一些实施例中,上述装置40中已训练的用户流失预测模型的训练步骤包括:
获取连续N个月的历史数据,其中N=T+X。
应理解,这里的N可以是5、8、10个月等数值,具体的数值本申请不做具体限定。
健身历史数据可以包括:会员基本信息包括:会员ID、会员性别、会员年龄。会员运动收益指标包括:体重变化、体脂变化、腰围变化。会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。会员社交传播:点赞次数、分享次数、推荐办卡次数。
示例性的,以N=5=3+2个月为例。
基于T个月的健身历史数据确定用户的特征。
应理解,示例性的T=3,如通过7-9月这三个月的健身历史数据提取用户的特征,从而确定用户的特征;用户的特征可以是健身效果,不正常沉默、健身毅力和健身时长。上述用户的特征的定义如下:
健身效果:几乎所有健身用户都有自己锻炼的目的,如瘦身、减脂、增肌等。选取用户的体重、体脂率、胸围、臀围、臂围等作为健身效果的指标,可以综合衡量用户的健身效果。大多数流失用户的健身效果没有明显的改善,甚至出现倒退。不正常沉默:健身行为出现突然减少乃至不正常沉默,主要根据用户健身次数,因此设计建模指标包括最近平均每月健身次数、最长健身间隔(天)、平均健身间隔(天)、最近每月健身次数标准差、极差。健身毅力:流失用户更有可能频繁爽约,即将已预约的健身课程取消;对于下雨天,用户也有可能会取消本已预约的课程。可以通过爽约比率和雨天上课率来判断用户健身的决心和毅力。流失用户与健身时长关系紧密,健身时长越长,用户粘性越大,流失的可能性就越小,健身时长也可作为建模指标。
在一种可能的实施方式中,可以在3-10月这一时间段,多次使用3+2策略,即通过3-5、4-6、5-7、6-8、7-9、8-10这6个时间段的健身历史数据确定用户的特征。
基于X个月的健身历史数据确定所述健身历史数据对应的用户是留存用户、回访用户和流失用户中的一种。
具体的,本申请实施例中的留存用户、流失用户和回访用户的定义如下:
留存用户:在M个月中,每个月都有健身行为的用户。流失用户:在M个月中,完全没有健身行为,或者前期有健身行为,后期无健身行为的用户。回访用户:在M个月中,在某一个月中已经被判断为无健身行为,后面又出现健身行为的用户。这里的M可以取值为3、4和5等值。
如7-9月这三个月的健身历史数据确定用户的特征后,确定用户在10、11月的健身行为确定其是留存用户、回访用户和流失用户。
对于历史数据,流失用户的确定具有一定的时间滞后,故采用T+X策略,即用连续T个月的数据获取用户的特征,通过后X个月的用户行为判断是否流失,提高了预测的准确性。
筛选所述回访用户对应的健身历史数据。
应理解,确定了用户是留存用户、回访用户和流失用户后,将回访用户的数据筛选掉,排除了回访用户的干扰,与没有排除回访用户干扰的模型相比进一步提高了模型预测的准确性。
将所述筛选后的健身历史数据分为训练集和验证集。
应理解,筛选后的健身历史数据包括:留存用户对应的历史数据和流失用户对应的历史数据。将留存用户对应的历史数据以及流失用户对应的历史数据分为训练集和验证集,如从留存用户对应的历史数据以及流失用户对应的历史数据取出80%当训练集;从留存用户对应的历史数据以及流失用户对应的历史数据取出20%当验证集。
使用所述训练集训练随机森林模型得到已训练的用户流失预测模型。
具体的,本申请实施例中的随机森林模型是一种集成学习的机器学习算法,基本分类器由决策树组成,这些决策树是经过Bagging集成学习技术得到,对单棵决策树的输出结果进行投票从而决定随机森林模型最终的分类结果。随机森林对噪声和异常值有着很好的过滤效果,能够克服过拟合问题,尤其在对高维数据的分类方面表现除了良好的并行性和可扩展性。随机森林模型以数据为驱动,通过对指定样本进行学习和训练得出分类规则,不需要任何分类的先验知识,是一种非参数分类模型。
应理解,使用上述训练集训练随机森林模型得到用户流失预测模型。解决了传统预测方法指标选择单一、没有排除回访用户、健身房用户的健身行为数据难以精确采集的问题,通过上述方法构建出的模型较为准确且性能优异,对健身用户是否流失进行有效预测。
图6是本申请实施例提供的又一种用户流失预测装置示意图;
在一些实施例中,如图6所示,上述装置40还包括:验证模块60,
所述验证模块601:用于通过所述验证集对已训练的用户流失预测模型结果进行验证。
通过验证模块601中的验证集计算已训练的用户流失预测模型的准确率、精度、召回率和F1分数,确定已训练的用户流失预测模型效果。
具体地,所述准确率的计算公式为:准确率=预测正确的用户/所有用户;所述精度(precision)的计算公式为:精度=被正确预测的流失用户/所有被预测为流失用户;所述召回率(recall)的计算公式为:召回率=被正确预测的流失用户/所有实际为流失用户;所述F1分数的计算公式为:F1=2×precision×recall/(precision+recall)。
图7是本申请实施例提供的又一种用户流失预测装置示意图。
在一些实施例中,上述装置还包括:预处理模块701,所述预处理模块:用于对所述N个月的历史数据进行预处理。
具体的,本申请实施例中的预处理模块701的处理方式如下:
第一种处理方式:对缺失值以众数、中位数或均值进行填充。
第二种处理方式:对因数据记录而产生的异常值进行人工修改或删除。
第三钟处理方式:对内部员工和健身不满三个月的用户数据进行删除。
应理解,通过上述三种方式对N个月的健身历史数据进行预处理,筛选出正常用户数据,为已训练的用户流失预测模型的训练提供数据保障。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种用户流失预测方法,应用于预约制健身房的用户流失预测,其特征在于,所述方法包括:
获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;
将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;
若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。
2.根据权利要求1所述的用户流失预测方法,其特征在于,所述方法还包括:
对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险;
对所述不同的风险等级对应的用户采用不同的挽留方式;
其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。
3.根据权利要求1所述的用户流失预测方法,其特征在于,所述已训练的用户流失预测模型的训练步骤包括:
获取连续N个月的历史数据,其中N=T+X;
基于T个月的历史数据确定用户的特征;
基于X个月的历史数据确定所述历史数据对应的用户是留存用户、回访用户和流失用户中的一种;
筛选所述回访用户对应的历史数据;
将所述筛选后的历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到所述已训练的流失预测模型。
4.根据权利要求3所述的用户流失预测方法,其特征在于,所述方法还包括:
通过所述验证集对所述已训练的用户流失预测模型结果进行验证。
5.根据权利要求3所述的用户流失预测方法,其特征在于,所述方法还包括:对所述N个月的历史数据进行预处理。
6.一种用户流失预测装置,应用于预约制健身房的用户流失预测,其特征在于,所述装置包括:
获取模块:用于获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;
输入输出模块:用于将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;
确定模块:用于若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。
7.根据权利要求6所述的用户流失预测装置,其特征在于,所述装置还包括分类模块:
所述分类模块:用于对所述流失概率进行区间分类为不同的风险等级:无流失风险、低风险、中风险和高风险;
对所述不同的风险等级对应的用户采用不同的挽留方式;
其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。
8.根据权利要求6所述的用户流失预测装置,其特征在于,所述已训练的用户流失预测模型的训练步骤包括:
获取连续N个月的历史数据,其中N=T+X;
基于T个月的历史数据确定用户的特征;
基于X个月的历史数据确定所述历史数据对应的用户是留存用户、回访用户和流失用户中的一种;
筛选所述回访用户对应的历史数据;
将所述筛选后的历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的流失预测模型。
9.根据权利要求8所述的用户流失预测装置,其特征在于,所述装置还包括:验证模块,
所述验证模块:用于通过所述验证集对所述已训练的用户流失预测模型结果进行验证。
10.根据权利要求8所述的用户流失预测装置,其特征在于,所述装置还包括:预处理模块,所述预处理模块:用于对所述N个月的历史数据进行预处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389902.9A CN113240451A (zh) | 2021-04-12 | 2021-04-12 | 一种用户流失的预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389902.9A CN113240451A (zh) | 2021-04-12 | 2021-04-12 | 一种用户流失的预测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113240451A true CN113240451A (zh) | 2021-08-10 |
Family
ID=77127964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110389902.9A Pending CN113240451A (zh) | 2021-04-12 | 2021-04-12 | 一种用户流失的预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240451A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005909A (zh) * | 2015-06-17 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 预测流失用户的方法及装置 |
CN105069534A (zh) * | 2015-08-18 | 2015-11-18 | 广州华多网络科技有限公司 | 客户流失预测方法以及装置 |
CN106203679A (zh) * | 2016-06-27 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 一种用户流失预测方法及系统 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
CN112232833A (zh) * | 2020-09-11 | 2021-01-15 | 苏宁金融科技(南京)有限公司 | 流失会员客群数据预测方法、模型训练方法及装置 |
-
2021
- 2021-04-12 CN CN202110389902.9A patent/CN113240451A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005909A (zh) * | 2015-06-17 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 预测流失用户的方法及装置 |
CN105069534A (zh) * | 2015-08-18 | 2015-11-18 | 广州华多网络科技有限公司 | 客户流失预测方法以及装置 |
CN106203679A (zh) * | 2016-06-27 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 一种用户流失预测方法及系统 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
CN112232833A (zh) * | 2020-09-11 | 2021-01-15 | 苏宁金融科技(南京)有限公司 | 流失会员客群数据预测方法、模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909299B (zh) | 人伤理赔数据风险检测方法和系统 | |
CN109993652B (zh) | 一种借贷信用风险评估方法及装置 | |
CN109002904B (zh) | 一种基于Prophet-ARMA的医院门诊就诊量预测方法 | |
Zhu et al. | Time-series approaches for forecasting the number of hospital daily discharged inpatients | |
US6253186B1 (en) | Method and apparatus for detecting fraud | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及系统 | |
CN111401433A (zh) | 用户信息获取方法、装置、电子设备及存储介质 | |
CN111105092B (zh) | 面向医院医保限额分配的数据交互系统及方法 | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
CN112464281B (zh) | 基于隐私分组和情感识别的网络信息分析方法 | |
CN114418175A (zh) | 一种人员管理方法、装置、电子设备及存储介质 | |
CN110543947A (zh) | 一种基于强化学习模型的奖励资源发放方法和装置 | |
CN114037138A (zh) | 基于双层分解和深度学习的地铁短时进站客流预测系统及实施方法 | |
CN117877699B (zh) | 基于数据分析的医院门户管理方法及系统 | |
CN116205329A (zh) | 一种节假日客流量预测方法 | |
CN113240451A (zh) | 一种用户流失的预测方法和装置 | |
CN110210985A (zh) | 基本医保政策调整对基金支出影响的量化方法及系统 | |
CN114493027A (zh) | 一种基于马尔可夫模型的未来人才需求预测方法及系统 | |
CN110210984A (zh) | 大病医保政策调整对基金支出影响的量化方法及系统 | |
CN118296389B (zh) | 一种数据指标模型的构建及评估方法 | |
Huda | Predicting indonesian democracy index in yogyakarta province as time series data using exponential smoothing | |
Patterson et al. | The application of artificial neural networks for outcome prediction in a cohort of severely mentally ill outpatients | |
KR102566466B1 (ko) | 개인의 신용도 평가를 위한 대체 신용 평가 시스템 | |
CN117909348B (zh) | 一种关联数据调度与计算方法和装置 | |
CN113610638B (zh) | 基于smaa-ds的信用等级与违约损失率相匹配的评级系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |