CN106250403A - 用户流失预测方法及装置 - Google Patents

用户流失预测方法及装置 Download PDF

Info

Publication number
CN106250403A
CN106250403A CN201610575340.6A CN201610575340A CN106250403A CN 106250403 A CN106250403 A CN 106250403A CN 201610575340 A CN201610575340 A CN 201610575340A CN 106250403 A CN106250403 A CN 106250403A
Authority
CN
China
Prior art keywords
user
characteristic
data
loss
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610575340.6A
Other languages
English (en)
Inventor
都金涛
周寻
王添翼
陆祁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610575340.6A priority Critical patent/CN106250403A/zh
Publication of CN106250403A publication Critical patent/CN106250403A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用户流失预测方法及装置,其中的方法包括:选取用户样本数据,并从所述用户样本数据中提取特征数据,其中,所述特征数据包括历史操作行为信息、订单信息和/或用户基本信息;基于所述特征数据进行建模,得到用户流失预测模型,其中,所述用户流失预测模型采用多个特征维度表明用户的流失概率;待预测的用户数据中提取待预测的特征向量,并输入到所述用户流失预测模型,输出得到流失概率。本发明可对用户流失概率进行预测。

Description

用户流失预测方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种用户流失预测方法及装置。
背景技术
随着网络的普及,越来越多的互联网公司以会员收费制作为创收的一种方式。例如,影视APP推出付费会员业务,会员享有更广泛观看权限、去广告服务等。会员是优质客户,需要进行专业的运营,提升会员的活跃度和留存率。然而,由于各种原因,每个月会员都会有一部分的流失,例如,某影视APP一个月流失300万会员。留存老用户的代价往往是挖掘新用户的几倍之多,因此如何找到流失的300万会员并挖掘他们的流失原因,采取合适的方案留住这部分会员,预测老会员的流失行为具有重要的商业价值。
发明内容
为了挖掘用户流失可能的原因,本发明实施例提供一种基于数据分析的用户流失预测方法及装置。
根据本发明的一个方面,提供一种用户流失预测方法,包括:选取用户样本数据,并从所述用户样本数据中提取特征数据,其中,所述特征数据包括历史操作行为信息、订单信息和/或用户基本信息;基于所述特征数据进行建模,得到用户流失预测模型,其中,所述用户流失预测模型采用多个特征维度表明用户的流失概率;从待预测的用户数据中提取特征数据,并输入到所述用户流失预测模型,输出得到流失概率。
优选的,所述基于所述特征数据进行建模,得到用户流失预测模型包括::基于所述特征数据统一建立一个模型。
优选的,所述基于所述特征数据进行建模,得到用户流失预测模型包括::对特征数据按照子类别或数量划分为多个子特征数据,针对各个子特征数据分别建立多个子用户流失预测模型。
优选的,根据所述特征数据中的历史操作行为信息、订单信息和/或用户基本信息的各个子特征,分别建立对应的多个子用户流失预测模型;从所述待预测的用户数据中提取历史操作行为信息、订单信息和/或用户基本信息,并分别输入到对应的子用户流失预测模型中,输出得到各子特征对应的流失概率。
优选的,所述选取用户样本数据,包括:选取用户过期时间节点前后预定时间段内流失用户以及续费用户的数据作为用户样本数据。
根据本发明的另一方面,提供一种用户流失预测装置,包括训练模块和预测模块,述训练模块包括:样本数据选取子模块,用于选取用户样本数据;特征数据提取子模块,用于从所述用户样本数据中提取特征数据,其中,所述特征数据包括历史操作行为信息、订单信息和/或用户基本信息;以及,预测模型建立子模块,用于基于所述特征数据进行建模,得到用户流失预测模型,其中,所述用户流失预测模型采用多个特征维度表明用户的流失概率;所述预测模块包括:待预测特征数据提取子模块,用于从待预测的用户数据中提取特征数据,以及,预测子模块,用于将待预测的特征数据输入到所述用户流失预测模型,输出得到流失概率。
优选的,所述预测模型建立子模块基于所述特征数据统一建立一个模型。
优选的,所述预测模型建立子模块,对特征数据按照子类别或数量划分为多个子特征数据,针对各个子特征数据分别建立多个子用户流失预测模型。
优选的,所述预测模型建立子模块,根据所述特征数据中的历史操作行为信息、订单信息和/或用户基本信息的各个子特征,分别建立对应的多个子用户流失预测模型;所述预测子模块,从待预测的用户数据中提取历史操作行为信息、订单信息和/或用户基本信息,并分别输入到对应的子用户流失预测模型中,输出得到各子特征对应的流失概率。
优选的,所述样本数据选取子模块,选取用户过期时间节点前后预定时间段内流失用户和续费用户作为用户样本。
可见,本发明实施例提出的用户流失预测方案中包括训练阶段和预测阶段,训练阶段包含三个步骤:选取流失/续费会员样本;对会员行为和基础信息做特征提取;采用机器学习算法训练模型。预测计算包含两个步骤:抽取待预测会员特征;利用训练得到的模型预测流失概率,并可根据模型分析流失原因。本发明为VIP会员运营提供支持,预测流失的人群,挖掘流失人群的流失原因。
附图说明
图1是本发明实施例提供的用户流失预测方法流程图;
图2是本发明实施例提供的用户流失预测装置结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
以某个影视网站为例,用户通过注册成为注册用户,并提供个人基本信息。然后购买一定期限的VIP服务成为会员。如果会员在过期之后没有续费,则转换为普通的注册用户,即过期会员。如果在过期之后续费,则重新转变为会员状态。据统计,挖掘新用户需要的代价是留存老用户的六倍,因此预测老用户的流失行为具有重要的价值。
本发明中,用户可以泛指合法的、享有一定操作特权的用户,例如通过注册、交费或其他方式(如,转发微信进行宣传)而成为某个网站或组织的成员的用户。为了简便,实施例中以“会员”代替上述特定用户。
本发明实施例基于数据分析,对会员行为数据进行特征提取,并基于所提取的特征,采用机器学习方法对海量的会员行为数据进行建模,并预测会员的续费行为。
参见图1,为本发明实施例提供的用户流失预测方法流程图。该方法包括:
S101:选取用户样本数据,并从用户样本数据中提取特征数据,其中,特征数据包括历史操作行为信息、订单信息和/或用户基本信息;
S102:基于特征数据进行建模,得到用户流失预测模型,其中,用户流失预测模型采用多个特征维度表明用户的流失概率;
S103:从待预测的用户数据中提取特征数据,并输入到用户流失预测模型,输出得到流失概率。
可见,上述S101-S102是训练阶段;S103是预测阶段。
训练阶段可进一步分为三个步骤:
第一步骤:选取会员样本数据。
由于本发明是针对会员流失进行预测,因此,选取一部分流失的会员以及一部分续费的会员作为样本。具体的,以会员过期的时间节点作为坐标零点,选取该时间节点前后一定时间段内成功续费以及未成功续费的用户作为会员样本,例如,选取会员过期节点前后15天内成功续费或未成功续费的用户作为会员样本。
第二步骤:从会员样本数据中提取特征数据。
特征数据是用于表明会员的历史操作行为、订单情况、用户基本情况等方面的数据。优选的,特征数据包括:历史行为信息、订单信息和/或用户基本信息。其中,历史行为信息进一步包括但不限于:历史操作行为信息,比如对于影视网站,历史行为信息是指用户的观影行为信息,包括一定时间段的观影流量(例如一周内观影流量)、观影类型、观影时长、会员期内登录次数、等等;订单信息一般是指一定时间段内的付费或免费订单数目;用户基本信息一般包括用户性别、用户名、年龄、居住地、邮箱、教育程度等信息。特征数据类别越多,预测的越准确。
第三步骤:基于机器学习对特征数据进行建模,得到会员流失预测模型。
例如,可以基于Xgboost方法对特征数据进行建模,其中,通过统计分支条件的增益之和,对各特征数据进行重要性排序。Xgboost方法是集成学习算法GBDT(GradientBoosting Decision Tree迭代决策树算法)的一种实现,GBDT算法由多棵决策树组成,属于集成机器学习算法的一种。
在具体建模过程中,可以将第二步骤中得到的所有特征数据统一建立一个模型,也可以对各特征数据按照子类别或数量分别建立多个子用户流失预测模型。
建立多个子用户流失预测模型的方式为:预先设定特征数据的子类别,然后分别为各个子类别特征数据建立子用户流失预测模型。例如,如果将特征数据划分为历史行为信息、订单信息和用户基本信息这三个子类别,那么,根据历史行为信息、订单信息和用户基本信息的各个特征,分别建立对应的三个特征子用户流失预测模型,即,建立历史行为子用户流失预测模型、订单子用户流失预测模型、用户信息子用户流失预测模型这三个子用户流失预测模型。再如,还可以将特征数据分为以下子类别:历史订单信息、会员活跃信息、会员联系信息、会员年龄信息、会员期订单信息,那么,在建模时,可针对这五个子类别分别建立五个子用户流失预测模型:历史订单子用户流失预测模型、会员活跃子用户流失预测模型、会员联系信息子用户流失预测模型、会员年龄子用户流失预测模型、会员期订单子用户流失预测模型。
在建立多个子用户流失预测模型的情况,后续在预测阶段也需要分别提取各子用户流失预测模型对应的特征数据分别输入子用户流失预测模型进行预测。
与上述训练阶段对应,在预测阶段,从待预测的会员数据中提取的特征数据也包括:历史行为信息、订单信息和/或用户基本信息。
在预测时,针对一个统一的模型,是将提取的特征数据输入到该统一的模型中,输出得到预测结果,即输出得到流失概率,并可根据输出结果分析流失原因。对于多个子用户流失预测模型的情况,是将对应类别/分组的特征数据分别输入到对应的子用户流失预测模型中,分别得到各特征对应的流失概率,然后可以通过预置各特征加权值的方式,综合分析流失原因和概率。
由于在训练阶段,选取了流失/续费会员的样本数据,并从样本数据中提取出了多维特征数据,因此建立的模型可以通过不同角度描述流失原因。在预测阶段,通过将待预测会员数据输入到模型中,可以得到流失概率,并进行流失原因的分析。
下面以影视网站一个具体实例对本发明实施例进行详细介绍。
概括而言,本发明实施例采用机器学习技术解决会员流失预测问题。会员的续费行为与他们在会员期间体验到的视频服务息息相关。因此,抽取会员的观影行为、订单信息和基本信息来描述每一个会员。观影行为反应了会员在会员期内和非会员期间在电影、VIP内容、各个频道、各个端等多个维度上享用网站视频服务的情况。订单信息则表示会员在影视网站上的付费行为,能够反映用户对付费服务的依赖程度。基本信息是会员主动提供的个人基础信息,从一定程度上而言,填写的基础信息越多,表示越对影视网站账号越重视。
在本例子中,会员预测问题被看作一个二分类问题,分为模型训练和预测两个阶段。
1)在训练过程中,从过去67天到38天(共30天)购买的会员中圈取流失用户和续费用户作为正负例,并且从付费会员中剔除自动续费会员。然后,构建训练集中每个会员的特征向量。最后,利用GBDT的一种实现Xgboost(eXtreme Gradient Boosting)训练模型,并做测试。
2)在预测过程中,选取最近37天(一般选择一个月即30天的用户行为数据,但是要考虑过期之后7天是否会再次访问该网站,因此多选7天)内付费的会员进行预测。其中,训练过程及预测过程中,所选取的时间天数均为经验值,本发明实施例并不以此为限。
下面从训练和预测两个方面分别描述具体实现。
一、训练阶段
(1)流失/续费用户选取
以会员的过期时间(end_time)作为坐标零点,统计会员在不同时间的续费人数,可以得到会员的续费行为。经统计分析发现,大部分用户续费集中在过期15天之内,因此将过期前后15天之内续费行为视为正例,把一直没有续费的会员视为负例,其他会员忽略,正负例的选取条件越严格,训练出的模型区分度越强。
(2)特征数据提取
本例子根据影视网站会员业务的特点,从用户基本信息、观影行为和订单信息三个角度总共提出了256维特征,并在每个维度上进行了用户留存率的计算。
本例子中采用的特征数据详细介绍如下
A用户基础信息(共42维)
-性别(男、女、未知,共3维)
-年龄(1维)
-注册到成为会员的天数(1维)
-填充率(1维)
-是否填写手机号(1维)
-是否填写email(1维)
-是否填写昵称(1维)
-居住地(一线、二线、三线、四线城市、其他、未知,共6维)
-教育程度(小学、初中、高中、大专、本科等共7维)
-收入情况(1000元以下、1001-2000元、2001-3000元等共9维)
-第三方账号接入类别(百度、新浪、人人网、QQ等共11维)
B观影行为信息(共209维)
-各端VV总量(分别在历史和会员期各一个月内统计,共54维)
-各频道VV总量(分别在历史和会员期各一个月内统计,除电影频道,共76维)
-在电影、付费视频和所有视频上的VV、天频、部数、时长和距离过期时间指标(分别在历史和会员期一个月内统计,共30维)
-付费视频和电影的VV分别占总VV的比例(分别在历史和会员期各一个月内统计,共4维)
-会员期每周的VV量(共4维)
-新片的VV量和剧量(分别从历史和会员期各一个月统计,分为上线一周、两周、三周、更长四个时段,共16维)
-PGC和UGC的VV量和剧量(分别从历史和会员期一个月统计,共8维)
-院线电影、库存影片和网络大电影的观看量(分别从历史和会员期一个月统计,共6维)
-会员期内观看第一部电影距离会员生效的时间(分天数和小时,共2维)
-会员期内观看第一部付费视频距离会员生效的时间(分天数和小时,共2维)
-会员期内观看第一部视频距离会员生效的时间(分天数和小时,共2维)
-会员账号登陆设备数量(分别从历史一个月和会员期一个月统计,共2维)
-有过观影行为的平台数量(分别从历史和会员期各一个月统计,共2维)
-过期一周之内是否活跃(1维度)
C订单信息(共5维)
-六个月内付费订单数(1维)
-六个月内免费订单数(1维)
-六个月内是否有付费订单(1维)
-六个月内是否有免费订单(1维)
-订单价格(购买当前会员的订单价格,1维)
(3)模型训练
Xgboost是集成学习算法GBDT的一种实现,GBDT是一个加性回归模型,通过boosting迭代的方法构造一组弱学习器,主要优点是精度高,不需要做特征的归一化,自动进行特征选择,容易处理缺失值,模型可解释性较好,可以适应多种损失函数如SquareLoss,LogLoss等。其中,在训练过程中,通过统计分支条件的增益之和,可以对特征重要性进行排序。训练样本与预测数据的输入格式均是:会员id(特征编号、特征值)等。
二:预测阶段
根据训练阶段选取样本的要求,选取最近37天发生付费行为的会员作为预测数据集。根据训练阶段中的特征集合(256维特征数据),为每个预测会员构建特征向量,并将特征向量输入训练模型,预测每个会员的流失概率。其中,特征向量可以采用“索引:值”(Index:value)的形式,比如:第一维度是1:2,第十维是10:45等。
另外,为了进一步细致地解释流失原因,优选的,可以把特征分成五组,分别建立子用户流失预测模型,把会员行为特征分别输入不同的模型,得到一组未概率化的留存值,留存值越高表示流失概率越低。把会员特征分成以下五组:历史订单量,会员活跃度,会员联系方式,会员年龄性别,会员期订单信息付费习惯。具体将特征分为五组的方式是:将上述256维特征根据特征的定义进行分组,即,相当于把数据集分成了五份,每份上的特征是不同的,比如订单组就只有订单相关的特征,活跃度组就只有观看天数、观看时长、观看VV量的特征;以此类推。
可见,本发明实施例提出的会员流失预测方案中包括训练阶段和预测阶段,训练阶段包含三个步骤:选取流失/续费会员样本;对会员行为和基础信息做特征工程;采用机器学习算法训练模型。预测计算包含两个步骤:抽取待预测会员特征;利用训练得到的模型预测流失概率,并解释流失原因。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,是本发明实施例提供的一种用户流失预测装置结构示意图,该装置包括:训练模块201和预测模块202:
所述训练模块201包括:
样本数据选取子模块2011,用于选取用户样本数据;
优选的,所述样本数据选取子模块2011,选取用户过期时间节点前后预定时间段内流失用户和续费用户作为用户样本。例如,由于本发明是针对会员流失进行预测,因此,选取一部分流失的会员以及一部分续费的会员作为样本。具体的,以会员过期的时间节点作为坐标零点,选取该时间节点前后一定时间段内成功续费以及未成功续费的用户作为会员样本,例如,选取会员过期节点前后15天内成功续费或未成功续费的用户作为会员样本。
特征数据提取子模块2012,用于从所述用户样本数据中提取特征数据,其中,所述特征数据包括历史操作行为信息、订单信息和/或用户基本信息;
特征数据是用于表明会员的历史操作行为、订单情况、用户基本情况等方面的数据。优选的,特征数据包括:历史行为信息、订单信息和/或用户基本信息。其中,历史行为信息进一步包括但不限于:历史操作行为信息,比如对于影视网站,历史行为信息是指用户的观影行为信息,包括一定时间段的观影流量(例如一周内观影流量)、观影类型、观影时长、会员期内登录次数、等等;订单信息一般是指一定时间段内的付费或免费订单数目;用户基本信息一般包括用户性别、用户名、年龄、居住地、邮箱、教育程度等信息。特征数据类别越多,预测的越准确。
以及,
预测模型建立子模块2013,用于基于所述特征数据进行建模,得到会员流失预测模型,其中,所述用户流失预测模型采用多个特征维度表明用户的流失概率;
例如,可以基于Xgboost方法对特征数据进行建模,其中,通过统计分支条件的增益之和,对各特征数据进行重要性排序。Xgboost方法是集成学习算法GBDT(GradientBoosting Decision Tree迭代决策树算法)的一种实现,GBDT算法由多棵决策树组成,属于集成机器学习算法的一种。
所述预测模块202包括:
待预测特征数据提取子模块2021,用于从待预测的用户数据中提取特征数据,以及,
预测子模块2022,用于将待预测的特征数据输入到所述用户流失预测模型,输出得到流失概率。
优选的,所述预测模型建立子模块2013基于所述特征数据统一建立一个模型,或者,所述预测模型建立子模块2013,对特征数据按照子类别或数量划分为多个子特征数据,针对各个子特征数据分别建立多个子用户流失预测模型。
优选的,所述预测模型建立子模块2013,根据所述特征数据中的历史操作行为信息、订单信息和/或用户基本信息的各个子特征,分别建立对应的多个子用户流失预测模型;所述预测子模块2022,从待预测的用户数据中提取历史操作行为信息、订单信息和/或用户基本信息,并分别输入到对应的子用户流失预测模型中,输出得到各子特征对应的流失概率。
在具体建模过程中,可以将得到的所有特征数据统一建立一个模型,也可以对各特征数据按照子类别或数量分别建立多个子用户流失预测模型。建立多个子用户流失预测模型的方式为:预先设定特征数据的子类别,然后分别为各个子类别特征数据建立子用户流失预测模型。例如,如果将特征数据划分为历史行为信息、订单信息和用户基本信息这三个子类别,那么,根据历史行为信息、订单信息和用户基本信息的各个特征,分别建立对应的三个特征子用户流失预测模型,即,建立历史行为子用户流失预测模型、订单子用户流失预测模型、用户信息子用户流失预测模型这三个子用户流失预测模型。再如,还可以将特征数据分为以下子类别:历史订单信息、会员活跃信息、会员联系信息、会员年龄信息、会员期订单信息,那么,在建模时,可针对这五个子类别分别建立五个子用户流失预测模型:历史订单子用户流失预测模型、会员活跃子用户流失预测模型、会员联系信息子用户流失预测模型、会员年龄子用户流失预测模型、会员期订单子用户流失预测模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种关系型数据库的调度方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种用户流失预测方法,其特征在于,包括:
选取用户样本数据,并从所述用户样本数据中提取特征数据,其中,所述特征数据包括历史操作行为信息、订单信息和/或用户基本信息;
基于所述特征数据进行建模,得到用户流失预测模型,其中,所述用户流失预测模型采用多个特征维度表明用户的流失概率;
从待预测的用户数据中提取特征数据,并输入到所述用户流失预测模型,输出得到流失概率。
2.如权利要求1所述的方法,其特征在于,所述基于所述特征数据进行建模,得到用户流失预测模型包括:基于所述特征数据统一建立一个用户流失预测模型。
3.如权利要求1所述的方法,其特征在于,所述基于所述特征数据进行建模,得到用户流失预测模型包括:对所述特征数据按照子类别或数量划分为多个子特征数据,针对各个子特征数据分别建立多个子用户流失预测模型。
4.如权利要求3所述的方法,其特征在于,根据所述特征数据中的历史操作行为信息、订单信息和/或用户基本信息的各个子特征,分别建立对应的多个子用户流失预测模型;从所述待预测的用户数据中提取历史操作行为信息、订单信息和/或用户基本信息,并分别输入到对应的子用户流失预测模型中,输出得到各子特征对应的流失概率。
5.如权利要求1所述的方法,其特征在于,所述选取用户样本数据,包选取用户过期时间节点前后预定时间段内流失用户以及续费用户的数据作为用户样本数据。
6.一种用户流失预测装置,其特征在于,包括训练模块和预测模块:
所述训练模块包括:样本数据选取子模块,用于选取用户样本数据;特征数据提取子模块,用于从所述用户样本数据中提取特征数据,其中,所述特征数据包括历史操作行为信息、订单信息和/或用户基本信息;以及,预测模型建立子模块,用于基于所述特征数据进行建模,得到用户流失预测模型,其中,所述用户流失预测模型采用多个特征维度表明用户的流失概率;
所述预测模块包括:待预测特征数据提取子模块,用于从待预测的用户数据中提取特征数据,以及,预测子模块,用于将待预测的特征数据输入到所述用户流失预测模型,输出得到流失概率。
7.如权利要求6所述的装置,其特征在于,所述预测模型建立子模块基于所述特征数据统一建立一个模型。
8.如权利要求6所述的装置,其特征在于,所述预测模型建立子模块,对特征数据按照子类别或数量划分为多个子特征数据,针对各个子特征数据分别建立多个子用户流失预测模型。
9.如权利要求8所述的装置,其特征在于,
所述预测模型建立子模块,根据所述特征数据中的历史操作行为信息、订单信息和/或用户基本信息的各个子特征,分别建立对应的多个子用户流失预测模型;
所述预测子模块,从待预测的用户数据中提取历史操作行为信息、订单信息和/或用户基本信息,并分别输入到对应的子用户流失预测模型中,输出得到各子特征对应的流失概率。
10.如权利要求6所述的装置,其特征在于,所述样本数据选取子模块,选取用户过期时间节点前后预定时间段内流失用户和续费用户的数据作为用户样本数据。
CN201610575340.6A 2016-07-19 2016-07-19 用户流失预测方法及装置 Pending CN106250403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610575340.6A CN106250403A (zh) 2016-07-19 2016-07-19 用户流失预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610575340.6A CN106250403A (zh) 2016-07-19 2016-07-19 用户流失预测方法及装置

Publications (1)

Publication Number Publication Date
CN106250403A true CN106250403A (zh) 2016-12-21

Family

ID=57613419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610575340.6A Pending CN106250403A (zh) 2016-07-19 2016-07-19 用户流失预测方法及装置

Country Status (1)

Country Link
CN (1) CN106250403A (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875225A (zh) * 2017-02-24 2017-06-20 泰康保险集团股份有限公司 用于客户服务的方法及装置
CN107016573A (zh) * 2017-04-06 2017-08-04 腾讯科技(深圳)有限公司 一种应用的评测方法和评测系统
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107563816A (zh) * 2017-09-08 2018-01-09 携程计算机技术(上海)有限公司 电子商务网站的用户流失的预测方法及系统
CN107590684A (zh) * 2017-08-21 2018-01-16 时趣互动(北京)科技有限公司 一种基于用户购买数据实时下发优惠券的方法及装置
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN107844862A (zh) * 2017-11-14 2018-03-27 泰康保险集团股份有限公司 订单失效预测方法、装置、介质及电子设备
CN108039977A (zh) * 2017-12-21 2018-05-15 广州市申迪计算机系统有限公司 一种基于用户上网行为的电信用户流失预测方法及装置
CN108121795A (zh) * 2017-12-20 2018-06-05 北京奇虎科技有限公司 用户行为预测方法及装置
CN108133390A (zh) * 2017-12-22 2018-06-08 北京三快在线科技有限公司 用于预测用户行为的方法和装置以及计算设备
CN108182638A (zh) * 2018-01-31 2018-06-19 泰康保险集团股份有限公司 保单流失的分析方法及装置
CN108322780A (zh) * 2018-01-24 2018-07-24 广州虎牙信息科技有限公司 平台用户行为的预测方法、存储介质和终端
CN108648020A (zh) * 2018-05-15 2018-10-12 携程旅游信息技术(上海)有限公司 用户行为量化方法、系统、设备及存储介质
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
CN108764517A (zh) * 2018-04-08 2018-11-06 中南大学 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质
CN108932525A (zh) * 2018-06-07 2018-12-04 阿里巴巴集团控股有限公司 一种行为预测方法及装置
CN109064206A (zh) * 2018-06-25 2018-12-21 阿里巴巴集团控股有限公司 业务流失预测方法、装置、服务器及可读存储介质
CN109285075A (zh) * 2017-07-19 2019-01-29 腾讯科技(深圳)有限公司 一种理赔风险评估方法、装置及服务器
WO2019020002A1 (en) * 2017-07-24 2019-01-31 Beijing Didi Infinity Technology And Development Co., Ltd. METHODS AND SYSTEMS FOR PREVENTING LOSS OF USERS
CN109299265A (zh) * 2018-10-15 2019-02-01 广州虎牙信息科技有限公司 潜在回流用户筛选方法、装置以及电子设备
CN109325637A (zh) * 2018-11-06 2019-02-12 北京奇艺世纪科技有限公司 会员流失预测方法、装置、存储介质及电子设备
CN109508807A (zh) * 2018-07-26 2019-03-22 云数信息科技(深圳)有限公司 彩票用户活跃度预测方法、系统及终端设备、存储介质
CN109543132A (zh) * 2018-11-22 2019-03-29 深圳墨世科技有限公司 内容推荐方法、装置、电子设备及存储介质
CN109544197A (zh) * 2017-09-22 2019-03-29 中兴通讯股份有限公司 一种用户流失预测方法和装置
CN109559142A (zh) * 2017-09-27 2019-04-02 北京国双科技有限公司 用户留存率的计算方法及装置
CN109740685A (zh) * 2019-01-08 2019-05-10 武汉斗鱼鱼乐网络科技有限公司 用户流失的特征分析方法、预测方法、装置、设备及介质
CN109784959A (zh) * 2017-11-10 2019-05-21 广州腾讯科技有限公司 一种目标用户预测方法、装置、后台服务器及存储介质
CN109840790A (zh) * 2017-11-28 2019-06-04 腾讯科技(深圳)有限公司 用户流失的预测方法、装置及计算机设备
CN109872226A (zh) * 2019-02-25 2019-06-11 重庆锐云科技有限公司 一种基于微信公众号的房地产营销管理方法及装置
CN109919685A (zh) * 2019-03-18 2019-06-21 苏州大学 客户流失预测方法、装置、设备及计算机可读存储介质
CN110020133A (zh) * 2017-11-07 2019-07-16 腾讯科技(深圳)有限公司 内容推荐处理方法和装置、计算机设备和存储介质
CN110070392A (zh) * 2019-04-17 2019-07-30 北大方正集团有限公司 用户流失预警方法和装置
CN110147803A (zh) * 2018-02-08 2019-08-20 北大方正集团有限公司 用户流失预警处理方法与装置
CN110298508A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 行为预测方法、装置及设备
CN110415020A (zh) * 2019-07-01 2019-11-05 北京三快在线科技有限公司 年龄预测方法、装置及电子设备
CN110830499A (zh) * 2019-11-21 2020-02-21 中国联合网络通信集团有限公司 一种网络攻击应用检测方法和系统
CN110889724A (zh) * 2019-11-22 2020-03-17 北京明略软件系统有限公司 客户流失预测方法、装置、电子设备和存储介质
CN111080408A (zh) * 2019-12-06 2020-04-28 广东工业大学 一种基于深度强化学习的订单信息处理方法
CN111178973A (zh) * 2019-12-31 2020-05-19 北京每日优鲜电子商务有限公司 流失用户标识识别方法、装置、计算机设备及存储介质
WO2020216286A1 (zh) * 2019-04-23 2020-10-29 北京新唐思创教育科技有限公司 教师风格预测模型的训练方法及计算机存储介质
CN112257890A (zh) * 2019-07-22 2021-01-22 北京易真学思教育科技有限公司 数据处理方法、装置和退费预测模型的训练方法、装置
CN112308623A (zh) * 2020-11-09 2021-02-02 中南大学 基于监督学习的优质客户流失预测方法、装置及存储介质
CN112508718A (zh) * 2020-12-03 2021-03-16 中国人寿保险股份有限公司 一种保单的续费提醒方法及装置
CN112669908A (zh) * 2019-10-15 2021-04-16 香港中文大学 并入数据分组的预测模型
CN112825175A (zh) * 2019-11-20 2021-05-21 顺丰科技有限公司 一种客户异常预警方法、装置和设备
CN112884515A (zh) * 2021-02-22 2021-06-01 上海汽车集团股份有限公司 用户流失的预测方法、装置及计算机存储介质
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875225A (zh) * 2017-02-24 2017-06-20 泰康保险集团股份有限公司 用于客户服务的方法及装置
CN107016573A (zh) * 2017-04-06 2017-08-04 腾讯科技(深圳)有限公司 一种应用的评测方法和评测系统
CN107016573B (zh) * 2017-04-06 2022-09-09 腾讯科技(深圳)有限公司 一种应用的评测方法和评测系统
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN107358247B (zh) * 2017-04-18 2020-08-04 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN109285075A (zh) * 2017-07-19 2019-01-29 腾讯科技(深圳)有限公司 一种理赔风险评估方法、装置及服务器
WO2019020002A1 (en) * 2017-07-24 2019-01-31 Beijing Didi Infinity Technology And Development Co., Ltd. METHODS AND SYSTEMS FOR PREVENTING LOSS OF USERS
CN107590684A (zh) * 2017-08-21 2018-01-16 时趣互动(北京)科技有限公司 一种基于用户购买数据实时下发优惠券的方法及装置
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107563816A (zh) * 2017-09-08 2018-01-09 携程计算机技术(上海)有限公司 电子商务网站的用户流失的预测方法及系统
CN109544197A (zh) * 2017-09-22 2019-03-29 中兴通讯股份有限公司 一种用户流失预测方法和装置
CN109544197B (zh) * 2017-09-22 2023-09-22 中兴通讯股份有限公司 一种用户流失预测方法和装置
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN107609708B (zh) * 2017-09-25 2021-03-26 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN109559142A (zh) * 2017-09-27 2019-04-02 北京国双科技有限公司 用户留存率的计算方法及装置
CN110020133A (zh) * 2017-11-07 2019-07-16 腾讯科技(深圳)有限公司 内容推荐处理方法和装置、计算机设备和存储介质
CN109784959A (zh) * 2017-11-10 2019-05-21 广州腾讯科技有限公司 一种目标用户预测方法、装置、后台服务器及存储介质
CN107844862A (zh) * 2017-11-14 2018-03-27 泰康保险集团股份有限公司 订单失效预测方法、装置、介质及电子设备
CN109840790B (zh) * 2017-11-28 2023-04-28 腾讯科技(深圳)有限公司 用户流失的预测方法、装置及计算机设备
CN109840790A (zh) * 2017-11-28 2019-06-04 腾讯科技(深圳)有限公司 用户流失的预测方法、装置及计算机设备
CN108121795A (zh) * 2017-12-20 2018-06-05 北京奇虎科技有限公司 用户行为预测方法及装置
CN108121795B (zh) * 2017-12-20 2021-07-09 北京奇虎科技有限公司 用户行为预测方法及装置
CN108039977A (zh) * 2017-12-21 2018-05-15 广州市申迪计算机系统有限公司 一种基于用户上网行为的电信用户流失预测方法及装置
CN108133390A (zh) * 2017-12-22 2018-06-08 北京三快在线科技有限公司 用于预测用户行为的方法和装置以及计算设备
CN108322780B (zh) * 2018-01-24 2020-12-25 广州虎牙信息科技有限公司 平台用户行为的预测方法、存储介质和终端
CN108322780A (zh) * 2018-01-24 2018-07-24 广州虎牙信息科技有限公司 平台用户行为的预测方法、存储介质和终端
CN108182638A (zh) * 2018-01-31 2018-06-19 泰康保险集团股份有限公司 保单流失的分析方法及装置
CN110147803A (zh) * 2018-02-08 2019-08-20 北大方正集团有限公司 用户流失预警处理方法与装置
CN110147803B (zh) * 2018-02-08 2022-02-18 北大方正集团有限公司 用户流失预警处理方法与装置
CN108764517A (zh) * 2018-04-08 2018-11-06 中南大学 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质
CN108764517B (zh) * 2018-04-08 2020-12-04 中南大学 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质
CN108648020A (zh) * 2018-05-15 2018-10-12 携程旅游信息技术(上海)有限公司 用户行为量化方法、系统、设备及存储介质
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
US11205129B2 (en) 2018-05-21 2021-12-21 Advanced New Technologies Co., Ltd. GBDT model feature interpretation method and apparatus
CN108932525A (zh) * 2018-06-07 2018-12-04 阿里巴巴集团控股有限公司 一种行为预测方法及装置
CN109064206A (zh) * 2018-06-25 2018-12-21 阿里巴巴集团控股有限公司 业务流失预测方法、装置、服务器及可读存储介质
CN109508807A (zh) * 2018-07-26 2019-03-22 云数信息科技(深圳)有限公司 彩票用户活跃度预测方法、系统及终端设备、存储介质
CN109299265A (zh) * 2018-10-15 2019-02-01 广州虎牙信息科技有限公司 潜在回流用户筛选方法、装置以及电子设备
CN109299265B (zh) * 2018-10-15 2020-08-21 广州虎牙信息科技有限公司 潜在回流用户筛选方法、装置以及电子设备
CN109325637A (zh) * 2018-11-06 2019-02-12 北京奇艺世纪科技有限公司 会员流失预测方法、装置、存储介质及电子设备
CN109543132A (zh) * 2018-11-22 2019-03-29 深圳墨世科技有限公司 内容推荐方法、装置、电子设备及存储介质
CN109740685A (zh) * 2019-01-08 2019-05-10 武汉斗鱼鱼乐网络科技有限公司 用户流失的特征分析方法、预测方法、装置、设备及介质
CN109872226A (zh) * 2019-02-25 2019-06-11 重庆锐云科技有限公司 一种基于微信公众号的房地产营销管理方法及装置
CN109919685B (zh) * 2019-03-18 2023-08-15 苏州大学 客户流失预测方法、装置、设备及计算机可读存储介质
CN109919685A (zh) * 2019-03-18 2019-06-21 苏州大学 客户流失预测方法、装置、设备及计算机可读存储介质
CN110070392B (zh) * 2019-04-17 2022-02-22 北大方正集团有限公司 用户流失预警方法和装置
CN110070392A (zh) * 2019-04-17 2019-07-30 北大方正集团有限公司 用户流失预警方法和装置
WO2020216286A1 (zh) * 2019-04-23 2020-10-29 北京新唐思创教育科技有限公司 教师风格预测模型的训练方法及计算机存储介质
CN110298508A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 行为预测方法、装置及设备
CN110415020A (zh) * 2019-07-01 2019-11-05 北京三快在线科技有限公司 年龄预测方法、装置及电子设备
CN112257890A (zh) * 2019-07-22 2021-01-22 北京易真学思教育科技有限公司 数据处理方法、装置和退费预测模型的训练方法、装置
CN112669908A (zh) * 2019-10-15 2021-04-16 香港中文大学 并入数据分组的预测模型
CN112825175A (zh) * 2019-11-20 2021-05-21 顺丰科技有限公司 一种客户异常预警方法、装置和设备
CN110830499A (zh) * 2019-11-21 2020-02-21 中国联合网络通信集团有限公司 一种网络攻击应用检测方法和系统
CN110830499B (zh) * 2019-11-21 2021-08-27 中国联合网络通信集团有限公司 一种网络攻击应用检测方法和系统
CN110889724A (zh) * 2019-11-22 2020-03-17 北京明略软件系统有限公司 客户流失预测方法、装置、电子设备和存储介质
CN111080408B (zh) * 2019-12-06 2020-07-21 广东工业大学 一种基于深度强化学习的订单信息处理方法
CN111080408A (zh) * 2019-12-06 2020-04-28 广东工业大学 一种基于深度强化学习的订单信息处理方法
CN111178973A (zh) * 2019-12-31 2020-05-19 北京每日优鲜电子商务有限公司 流失用户标识识别方法、装置、计算机设备及存储介质
CN112308623A (zh) * 2020-11-09 2021-02-02 中南大学 基于监督学习的优质客户流失预测方法、装置及存储介质
CN112508718A (zh) * 2020-12-03 2021-03-16 中国人寿保险股份有限公司 一种保单的续费提醒方法及装置
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质
CN112884515A (zh) * 2021-02-22 2021-06-01 上海汽车集团股份有限公司 用户流失的预测方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106250403A (zh) 用户流失预测方法及装置
US20210248651A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
WO2020107806A1 (zh) 一种推荐方法及装置
CN110245301A (zh) 一种推荐方法、装置及存储介质
CN105446988B (zh) 预测类别的方法和装置
US8732015B1 (en) Social media pricing engine
CN109360097A (zh) 基于深度学习的股票预测方法、装置、设备及存储介质
CN112183818A (zh) 一种推荐概率预测方法、装置、电子设备及存储介质
CN103440199B (zh) 测试引导方法和装置
CN106372101B (zh) 一种视频推荐方法和装置
CN106056398A (zh) 用于收集并呈现复合供应的用户反馈信息的方法和系统
CN111798280B (zh) 多媒体信息推荐方法、装置和设备及存储介质
CN109903100A (zh) 一种用户流失预测方法、装置及可读存储介质
Mukunthu et al. Practical automated machine learning on Azure: using Azure machine learning to quickly build AI solutions
CN110413722B (zh) 地址选择方法、装置以及非瞬时性存储介质
CN109242927B (zh) 一种广告模板生成方法、装置及计算机设备
WO2024152686A1 (zh) 确定资源信息的推荐指标的方法、装置、设备、存储介质及计算机程序产品
CN112328881B (zh) 文章推荐方法、装置、终端设备及存储介质
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
US10878143B2 (en) Simulating selective participation of multiple events from a pool of qualified participants
US20180247246A1 (en) Method and system for the construction of dynamic, non-homogeneous b2b or b2c networks
CN106919946A (zh) 一种受众选择的方法及装置
CN113450127A (zh) 信息展示方法、装置、计算机设备及存储介质
CN114900556B (zh) 多云异构环境下基于服务偏好学习的云互联方法及系统
CN112819500B (zh) 信息展示方法、策略网络训练方法、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161221