CN107358247A - 一种确定流失用户的方法及装置 - Google Patents

一种确定流失用户的方法及装置 Download PDF

Info

Publication number
CN107358247A
CN107358247A CN201710252413.2A CN201710252413A CN107358247A CN 107358247 A CN107358247 A CN 107358247A CN 201710252413 A CN201710252413 A CN 201710252413A CN 107358247 A CN107358247 A CN 107358247A
Authority
CN
China
Prior art keywords
user
sample data
data
predetermined time
weighted value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710252413.2A
Other languages
English (en)
Other versions
CN107358247B (zh
Inventor
王力
陈超超
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710252413.2A priority Critical patent/CN107358247B/zh
Publication of CN107358247A publication Critical patent/CN107358247A/zh
Application granted granted Critical
Publication of CN107358247B publication Critical patent/CN107358247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Abstract

本申请公开了一种确定流失用户的方法及装置,所述方法包括:获取目标应用的多个用户在预设时刻的行为特征数据,预设时刻设置于用户流失周期内,所述用户流失周期以统计时刻为时间终点;分别判断用户在预设时刻距离统计时刻的时间段内是否访问过目标应用,若是,则将用户的行为特征数据划分为正样本数据,否则,将用户的行为特征数据划分为无标注样本数据;利用正样本数据和无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到无标注样本数据被标注为正样本数据的概率;根据概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。利用本申请各个实施例,可以准确地识别出流失用户。

Description

一种确定流失用户的方法及装置
技术领域
本申请属于计算机数据处理技术领域,尤其涉及一种确定流失用户的方法及装置。
背景技术
对于互联网企业,活跃于用户平台上的用户人数与企业的运营效益息息相关。例如在企业开发的应用(Application,APP)中,每天活跃着成千上万的用户,但是可能总有一些用户处于即将流失的状态。对即将流失用户的挽回,是稳定应用中活跃用户人数的重要手段。一般对于即将流失的用户,应用的运营方可以给予其一些权益,以使用户再次活跃于应用中。权益的发放往往需要花费较高的成本,若这些权益发放到那些本来就不会流失的用户,则对于企业来说,成本的花费没有得到预期的收益。因此,确定出哪些用户是即将流失的用户,是稳定企业活跃用户人数以及节约应用运营成本的重要技术问题。
现有技术中的确定流失用户的方法主要应用于银行、通信公司等传统行业。其方法一般是获取用户的历史行为数据,建立一个有监督的机器学习模型,根据所述历史行为数据和所述机器学习模型可以计算得到用户的流失概率。常用机器学习的模型例如可以包括决策树、随机森林、SVM、神经网络等。
移动互联网行业与传统行业在发展速度上有着显著的差别。移动互联网行业中应用的更新频率很高,往往在数月间,应用中的产品形式和业务内容可能发生巨大的变化,而用户的行为模式也会相应地发生变化。因此对于应用中用户流失模型时效性的要求相对于传统行业的用户流失模型要高很多。并且,对于有监督的机器学习模型,需要先获取样本数据后再进行训练。而确认一个用户是否会流失,需要观察该用户在之后的数月内是否会访问该应用。所以,模型中使用的样本数据往往是几个月前的用户行为数据。利用这样的数据训练出来的模型,在时效性上难以得到保障。
因此,现有技术中亟需一种时效性较高、预测结果准确性较高的确定流失用户的方法。
发明内容
本申请目的在于提供一种确定流失用户的方法及装置,可以提高识别流失用户的准确性。
本申请提供的一种确定流失用户的方法及装置是这样实现的:
一种确定流失用户的方法,所述方法包括:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
一种确定流失用户的装置,所述装置包括:
特征数据获取单元,用于获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
样本划分单元,用于分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
第一分类器构建单元,用于利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
第二分类器构建单元,用于根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
一种确定流失用户的装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现以下步骤:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
本申请提供的确定流失用户的方法及装置,可以将用户在预设时刻的行为特征数据和用户在预设时刻距离统计时刻内的访问结果作为样本数据进行PU学习,构建得到可以计算得到用户在统计时刻流失概率的分类器。本实施例中,由于所述预设时刻距离所述统计时刻的时间段小于用户流失周期,因此相对于现有技术中所使用的用户行为数据,本实施例中预设时刻的行为特征数据的时效性更强,利用时效性更强的用户行为数据进行训练学习,获取的分类器的准确度可以大幅提高,准确计算出统计时刻时用户的流失概率,提高识别流失用户的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的确定流失用户方法的一种实施例的方法流程图;
图2是本申请提供的获取行为特征数据方法的一种实施例的方法流程图;
图3是本申请提供的构建第二分类器方法的一种实施例的方法流程图;
图4是本申请提供的确定用户流失概率方法的一种实施例的方法流程图;
图5是本申请提供的一个应用场景中的时间轴示意图;
图6是本申请提供的确定流失用户装置的一种实施例的模块结构示意图;
图7是本申请提供的确定流失用户装置的另一种实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请所述确定流失用户方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
为了方便本领域技术人员理解本申请实施例提供的技术方案,下面对本申请实施例的应用环境进行说明。
在互联网领域,为了满足互联网技术、互联网业务快速发展的需求,对应的应用产品的更新速度也相对较快。例如对于某款购物应用,在一个月之内,该购物应用中增加了视频直播购物、海外直购等多个业务内容。当应用中的产品形式和/或业务内容发生较大的变化时,用户的行为模式也会相应地发生较大的变化。那么,在利用机器学习模型进行流失用户预测时,如果对距离预测时刻时间较长的用户数据进行训练学习,则获取得到的流失用户的预测模型可能具有较低的准确度。假设用户流失周期为L,即用户在L时间段内不使用应用,则确定该用户为该应用的流失用户。若要预测在T时刻即将流失的用户,普通的做法是获取(T-L)时刻的用户行为数据,并利用机器学习方法对所述用户行为数据进行训练学习,然后再利用训练得到的模型计算得到用户在T时刻流失的概率。但是L一般都较长,通常为3-6个月,远远大于应用产品的更新周期,因此(T-L)时刻和T时刻的用户行为模型可能已经发生巨大的变化,若将(T-L)时刻的用户行为数据作为机器学习的对象,则训练数据的时效性较低,计算得到的预测结果的准确性也较低。
基于类似于上文描述的实际技术需求,发明人基于PU学习法,提出了时效性较高、预测准确度较高的方案,该方案能够利用在距离预测时刻较短的时间段内的用户行为数据进行PU学习,获取得到分类准确度较高的分类器。
具体的一种实施例如图1所示,本申请提供的确定流失用户方法的一种实施例中,所述方法可以包括:
S1:获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点。
本实施例中,所述预设时刻可以包括距离统计时刻的时间段小于用户流失周期的时刻,所述统计时刻可以包括确定流失用户的时刻,例如所述统计时刻可以包括当前时刻,也可以包括任何进行确定流失用户的时刻,在此不做限制。例如,若所述统计时刻为T,设置预设时刻距离统计时刻的时间段为l,则所述预设时刻为(T-l)。若假设用户流失周期为L,则时间段l<用户流失周期L。如上所述,现有技术中利用(T-L)时刻的用户行为数据进行机器学习,通过上述分析可知,(T-L)时刻的用户行为数据时效性较低,得到的预测结果准确性较低。本实施例中,可以选取预设时刻(T-l)的行为特征数据,所述预设时刻(T-l)的用户行为数据的时效性高于(T-L)时刻用户行为数据的时效性,利用时效性较高的样本数据进行机器学习,获取的预测结果的准确度将有所提高。例如,假设所述用户流失周期为3-6个月,用户在3-6个月内不使用应用,则确定该用户为目标应用的流失用户。本实施例中,可以设置所述时间段为3天、5天、7天、15天等等,相对于3-6个月之前的用户行为数据,利用5天或者7天前的用户行为数据,时效性更高。
在本申请的一个实施例中,所述预设时刻距离统计时刻的时间段与所述目标应用的更新周期相匹配。
通过一个具体的示例说明,若产品更新周期为15天,则在确定流失用户时,可以获取15天以前的行为特征数据。当所述预设时刻距离统计时刻时间段与所述目标应用的更新周期相匹配时,可以保证所述预设时刻之前和之后的用户行为模式不会发生重大变化。
在本申请的一个实施例中,所述行为特征数据可以包括用户在预设时刻之前的预设时间段内产生的下述至少一种数据:访问所述目标应用的频率、访问所述目标应用的时长、访问所述目标应用中预设子页面的频率、访问所述目标应用中预设子页面的时长。
本实施例中,所述预设时间段可以包括所述预设时刻之前的任意预设时间段。在一个实施例中,所述预设时间段可以包括以所述预设时刻为终点的连续时间段,所述时间段例如可以为5天、7天、10天、一个月等。在其他实施例中,所述预设时间段可以包括所述预设时刻之前的间歇性的时间段,例如所述预设时刻之前周一到周五的时间段。对于所述预设时间段的选取,本申请在此不做限制。本实施例中,所述行为特征数据包括下述中的至少一种数据:访问所述目标应用的频率、访问所述目标应用的时长、访问所述目标应用中预设子页面的频率、访问所述目标应用中预设子页面的时长。上述行为特征数据与用户的流失紧密关联,例如,若用户访问所述目标应用的频率越高、时长越长,则可以表现为用户流失的概率较低;反之,若用户访问所述目标应用的频率越低、时长越短,则可以表现为用户流失的概率较高。另外,用户在所述目标应用中产生的数据量极大,在提取所述行为特征数据时,可以尽量减少工作量,本实施例中,例如可以提取用户访问所述目标应用中预设子页面的频率和/或时长,所述预设子页面例如可以包括登录页面或者用户在所述目标应用中访问频率较高的子页面,访问频率较高的子页面例如可以包括购物APP中的收藏目录、购物清单等子页面。提取预设子页面的数据不仅可以提高行为特征数据的提取时间,还可以降低工作量,节省成本。
在本申请的一个实施例中,还可以从大量的用户行为数据中提取出所述行为特征数据,在一个具体实施方式中,如图2所示,所述获取目标应用的多个用户在预设时刻的行为特征数据可以包括:
S21:获取目标应用的多个用户在预设时刻之前的预设时间段内的用户行为数据;
S22:从所述用户行为数据中提取出与应用访问相关联的用户行为数据;
S23:将所述与应用访问相关联的用户行为数据作为用户在所述预设时刻的行为特征数据。
本实施例中,可以获取所述目标应用的多个用户在所述预设时间段内的用户行为数据,例如所述用户行为数据不仅包括用户的应用访问数据,还包括用户的收藏数据、评论数据、交易数据等多种其他数据。本实施例中,由于用户流失与用户是否访问所述目标应用息息相关,因此,本实施例中,可以提取与应用访问相关联的用户行为数据,将所述与应用访问相关联的用户行为数据作为用户在所述预设时刻的行为特征数据。提取与应用访问相关联的用户行为数据,不仅可以提高行为特征数据的针对性,还可以提高样本数据的代表性,提高后续构建得到的分类器的准确性。
S2:分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据。
本实施例中,在所述预设时刻距离所述统计时刻的时间段内,可以确定用户是否访问过所述目标应用,具体可以从目标应用的后台数据库中存储的用户日志中获取得到,也可以从用户的客户端存储数据中获取,本申请在此不做限制。所述访问结果包括访问过和没有访问过。若用户在所述时间段内访问过所述目标应用,则将所述用户的行为特征数据划分为正样本数据,否则,将所述用户的行为特征数据划分为无标注样本数据。
本实施例中,样本数据可以表示为(x,y),其中,x为用户在所述预设时刻的行为特征数据,例如x可以表示为(θ1x12x23x3+…+θnxn),x1,x2,x3,…,xn分别为各个行为特征数据,θ123,…,θn分别为各个行为特征数据所对应的参数。y为所述访问结果,例如,当用户在所述时间段内访问过所述目标应用时,y=1,反之,y=0。在本实施例中,可以利用PU学习法对样本进行训练,具体地,当y=1时,可以将用户的样本数据(x,y=1)作为正样本数据(Positive Example,P),当y=0时,可以将用户的样本数据(x,y=0)作为无标注样本数据(Unlabeled Example,U)。
本实施例中,由于所述时间段时长较短,统计得到的访问过所述目标应用的用户人数可能规模有限,但是,不能确定在所述时间段内未访问过所述目标应用的用户是否为流失用户,因此,将在所述时间段内未访问过所述目标应用的用户的样本数据作为无标注样本数据,且所述无标注样本数据的规模较大。在PU学习中,引入无标注样本数据可以降低人工分类的预备工作量,同时提高精度,尽可能达到自动分类的效果。
S3:利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率。
本实施例中,可以将所述正样本数据和所述无标注样本数据作为训练数据构建得到第一分类器。本实施例中,可以利用现有技术中的用于构建分类器的分类算法,例如,所述算法可以包括逻辑回归算法(Logistic Regression)、隐因子分解机(FactorizationMachine,FM)、梯度提升决策树(Gradient Boost Decision Tree,GBDT)等,在此不做累述。
本实施例中,在利用分类算法构建得到所述第一分类器之后,可以利用所述第一分类器计算所述无标注样本数据被标注的概率。具体地,例如所述第一分类器为g(x),其中,x为用户在所述预设时刻的行为特征数据,g(x)的值为0-1之间的任意概率值。在PU学习中,所述分类器可以用来预测样本数据被标注的概率,即表示样本数据是与标注过的正样本数据更接近,还是与未被标注过的无标注样本数据更接近。本实施例中,设置所述正样本数据所对应的用户在所述时间段内访问过所述目标应用,因此,本实施例中,第一分类器g(x)可以用于表征所述无标注样本数据所对应的用户在所述时间段内访问过所述目标应用的概率,例如可以设置当所述g(x)的数值越高时,所述无标注样本数据越接近于所述正样本数据,也就是说,用户在所述时间段内访问过所述目标应用的概率越大。
本实施例中,通过所述第一分类器,可以计算得到所述无标注样本数据所对应用户在所述时间段内访问过所述目标应用的概率。这样,可以通过所述第一分类器获取得到关于所述无标注样本数据更多的信息,以获取更加准确的训练数据。
S4:根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
本实施例中,可以根据所述概率设置所述无标注样本的权重值,并将所述权重值增加至所述无标注样本数据中。然后,再利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。在本申请的一个实施例中,如图3所示,所述根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器可以包括:
S31:获取在所述时间段内和所述用户流失周期内的正样本数据的个数,并确定所述时间段内正样本数据个数占所述用户流失周期内正样本数据个数的比例;
S32:根据所述比例和所述概率计算得到所述无标注样本的第一权重值;
S33:获取两份相同的所述无标注样本数据,设置其中一份无标注样本数据的分类结果为正样本数据,权重值为所述第一权重值,设置另一份无标注样本数据的分类结果为负样本数据,权重值为1减去所述第一权重值;
S34:利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
本实施例中,可以设置无标记样本数据所对应的权重值,具体地,在一个实施例中,所述权重值可以用下述公式表示:
式中,w(x)为样本数据x所对应的权重值,c为被标注的正样本数据占用户流失周期内所有正样本的比例(s=1表示样本被标注,y=1表示样本为正样本),也就是在所述时间段内访问过所述目标应用的用户数占在所述流失周期内访问过所述目标应用的用户数的比例。c的数值可以根据用户历史数据统计计算得到。
式中的p(s=1|x)为样本数据为被标注的正样本数据的概率,本实施例中,可以利用所述第一分类器g(x)的输出值计算所述p(s=1|x)。由于p(s=1|x)≤c,且g(x)∈[0,1],因此可以通过cg(x)计算p(s=1|x)的结果。
本实施例中,利用PU学习的算法,可以获取两份相同的所述无标注样本数据,具体地,在一个实施例中,可以对所述无标注样本数据进行拷贝,生成两份相同的无标注样本数据。本实施例中,可以设置其中一份无标注样本数据的分类结果为正样本数据,即y=1,权重值为第一权重值,例如所述第一权重值为w(x);设置另一份无标注样本数据的分类结果为负样本数据,即y=0,权重值为1减去所述第一权重值(即1-w(x))。同时,还可以设置所述被标注的正样本数据的权重值为1,由于权重值为1,因此在构建第二分类器时,采用的还是原始的正样本数据,若设置正样本数据的权重值为其他值时,那么在构建第二分类器时,需要对所述正样本数据进行加权。
在获取无标注样本数据的权重值之后,可以利用所述正样本数据和增加权重值的两份无标注样本数据构建得到第二分类器。所述样本数据可以表示为(x,y,w),同样地,x为用户在所述预设时刻的行为特征数据,y为所述分类结果,即当样本数据为正样本数据时,y=1,反之,y=0,w为无标注样本数据的权重值。可以利用现有技术中的逻辑回归算法(Logistic Regression)、隐因子分解机(Factorization Machine,FM)、梯度提升决策树(Gradient Boost Decision Tree,GBDT)等分类算法计算得到所述第二分类器。例如在利用逻辑回归算法构建所述第二分类器的过程中,若利用梯度下降法计算逻辑回归算法中模型函数的最小值,则在计算得到样本数据的梯度值之后,需要对行为特征数据的参数向量(θ123,…,θn)进行更新。一般的更新方式是参数向量中的各个参数减去所述样本数据的梯度值,而当所述样本数据具有权重值之后,各个参数可以减去所述梯度值与所述样本数据的权重值w的乘积。
本实施例中,根据第一分类器对所述无标注样本数据的预测结果设置所述无标注样本数据的权重值,并将所述正样本数据和加权之后的无标注样本数据作为新的训练数据,训练得到第二分类器,由于加权之后的无标注样本数据具有更多的数据信息,因此,训练得到的第二分类器具有更高的准确性。
在本申请的一个实施例中,如图4所示,所述方法还可以包括:
S41:获取用户在所述统计时刻的行为特征数据;
S42:基于所述统计时刻的行为特征数据,利用所述第二分类器计算所述用户的流失概率;
S43:当所述第二分类器计算得到的流失概率大于预设阈值时,确定所述用户为流失用户。
本实施例中,可以应用所述第二分类器计算在所述统计时刻时用户的流失概率。具体的计算方式可以参考训练所述第一分类器时所使用的数据,本实施例中,可以获取用户在统计时刻的行为特征数据,具体地,所述行为特征数据可以从所述统计时刻之前的预设时间段内的用户行为数据中提取得到,具体的提取方式可以参考上述S21-S23的实施方式,在此不做赘述。在获取所述统计时刻的行为特征数据之后,可以将所述行为特征数据输入至所述第二分类器中,所述第二分类器可以计算得到所述用户的流失概率。在确定流失概率之后,还可以设置当所述流失概率大于预设阈值时,确定所述用户为流失用户。
下面结合图5说明本申请实施例提出的技术方案具体的应用场景。
某互联网企业具有购物应用A,该企业预算发放一些权益(如优惠券、折扣活动、用户特权等)给可能即将流失的用户,以挽留这部分用户继续活跃于购物应用A中,稳定购物应用A的活跃用户人数。如图5的时间轴示意图所示,预测用户是否会流失的时刻为当前时刻T,用户流失周期为L,即若某用户在周期L内没有访问过购物应用A,则确定该用户为流失用户。通过一开始的分析可知,由于用户流失周期往往较长,若对(T-L)时刻的用户行为数据进行学习,则时效性较低,训练得到的分类模型的准确度较低。在本申请实施例提出的技术方案中,可以取一个短时间周期l,所述短时间周期l小于用户流失周期L。此时,可以提取(T-l)时刻用户的行为特征数据,所述行为特征数据可以从(T-l)时刻之前的预设时间段a内的用户行为数据中提取得到。在预设时间段a内,用户在购物应用A上可以产生多种用户行为数据,如用户访问数据、用户收藏、评论等多种行为数据。而用户的流失与否与用户访问购物应用的行为息息相关,因此,本实施例中可以从多种用户行为数据中提取出与应用访问的行为数据,并将所述行为数据作为用户的行为特征数据。
在获取[T-l-a,T-l]的预设时间段a内用户的行为特征数据之后,还可以确定用户在[T-l,T]的短时间周期l内用户是否访问过目标应用A,生成访问结果,即访问过和没有访问过。对[T-l-a,T-l]的预设时间段a内的行为特征数据和[T-l,T]的短时间周期l内的访问结果进行学习之后,可以构建第一分类器,以确定(T-l)时刻之前的行为特征数据与(T-l)时刻之后的访问结果之间的关联关系。在构建所述第一分类器的过程中,采用PU学习的算法对正样本数据和无标注样本数据进行训练,其中,所述正样本数据为用户在短时间周期l内访问过购物应用A的样本数据,否则为无标注样本数据。由于短时间周期l小于用户流失周期L,因此,在短时间周期l内未访问过购物应用A的用户不能完全被确定为流失用户,但是通过所述第一分类器可以确定无标注样本数据与正样本数据之间的接近程度,即无标注样本数据被标注的概率。
通过所述无标注样本数据被标注的概率可以设置所述无标注样本数据的权重值,所述权重是可以增强无标注样本数据的信息量。将所述正样本数据和加权之后的无标注样本数据作为新的训练数据,可以构建得到第二分类器。在构建得到所述第二分类器之后,如图5所示,可以获取用户在T时刻的行为特征数据,所述行为特征数据可以从用户在[T-a,T]的预设时间段a内产生的用户行为数据中提取得到。将用户在T时刻的行为特征数据输入至所述第二分类器中,可以计算得到用户在T时刻的流失概率,当流失概率大于预设阈值时,可以确定该用户为流失用户。后续地,该互联网企业可以通过发放优惠券、用户特权等方式以挽留该用户,使该用户继续活跃购物应用A上。从企业的角度而言,不仅可以快速、准确地获取待流失用户,还可以节省企业的运营成本,提高运营效率。
本申请提供的确定流失用户的方法,可以将用户在预设时刻的行为特征数据和用户在预设时刻距离统计时刻内的访问结果作为样本数据进行PU学习,构建得到可以计算得到用户在统计时刻流失概率的分类器。本实施例中,由于所述预设时刻距离所述统计时刻的时间段小于用户流失周期,因此相对于现有技术中所使用的用户行为数据,本实施例中预设时刻的行为特征数据的时效性更强,利用时效性更强的用户行为数据进行训练学习,获取的分类器的准确度可以大幅提高,准确计算出统计时刻时用户的流失概率,提高识别流失用户的准确性。
基于上述确定流失用户的方法,本申请还提供一种确定流失用户的装置。所述装置可以包括使用了本申请所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本申请提供的一种实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本申请具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的具体的。图6是本申请提供的确定流失用户装置一种实施例的模块结构示意图,如图6所示,所述装置60可以包括:
特征数据获取单元61,用于获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
样本划分单元62,用于分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
第一分类器构建单元63,用于利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
第二分类器构建单元64,用于根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
本申请提供的确定流失用户的装置,可以将用户在预设时刻的行为特征数据和用户在预设时刻距离统计时刻内的访问结果作为样本数据进行PU学习,构建得到可以计算得到用户在统计时刻流失概率的分类器。本实施例中,由于所述预设时刻距离所述统计时刻的时间段小于用户流失周期,因此相对于现有技术中所使用的用户行为数据,本实施例中预设时刻的行为特征数据的时效性更强,利用时效性更强的用户行为数据进行训练学习,获取的分类器的准确度可以大幅提高,准确计算出统计时刻时用户的流失概率,提高识别流失用户的准确性。
图7是本申请提供的确定流失用户的装置一种实施例的模块结构示意图,如图7所示,所述装置70可以包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
本申请提供的确定流失用户的装置,可以将用户在预设时刻的行为特征数据和用户在预设时刻距离统计时刻内的访问结果作为样本数据进行PU学习,构建得到可以计算得到用户在统计时刻流失概率的分类器。本实施例中,由于所述预设时刻距离所述统计时刻的时间段小于用户流失周期,因此相对于现有技术中所使用的用户行为数据,本实施例中预设时刻的行为特征数据的时效性更强,利用时效性更强的用户行为数据进行训练学习,获取的分类器的准确度可以大幅提高,准确计算出统计时刻时用户的流失概率,提高识别流失用户的准确性。
可选的,在本申请的一个实施例中,所述行为特征数据包括用户在预设时刻之前的预设时间段内产生的下述至少一种数据:访问所述目标应用的频率、访问所述目标应用的时长、访问所述目标应用中预设子页面的频率、访问所述目标应用中预设子页面的时长。
可选的,在本申请的一个实施例中,所述处理器在实现步骤根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器时包括:
获取在所述时间段内和所述用户流失周期内的正样本数据的个数,并确定所述时间段内正样本数据个数占所述用户流失周期内正样本数据个数的比例;
根据所述比例和所述概率计算得到所述无标注样本的第一权重值;
获取两份相同的所述无标注样本数据,设置其中一份无标注样本数据的分类结果为正样本数据,权重值为所述第一权重值,设置另一份无标注样本数据的分类结果为负样本数据,权重值为1减去所述第一权重值;
利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
可选的,在本申请的一个实施例中,所述处理器执行所述指令时还实现:
获取用户在所述统计时刻的行为特征数据;
基于所述统计时刻的行为特征数据,利用所述第二分类器计算所述用户的流失概率;
当所述第二分类器计算得到的流失概率大于预设阈值时,确定所述用户为流失用户。
可选的,在本申请的一个实施例中,所述处理器在实现步骤获取目标应用的多个用户在预设时刻的行为特征数据时包括:
获取目标应用的多个用户在预设时刻之前的预设时间段内的用户行为数据;
从所述用户行为数据中提取出与应用访问相关联的用户行为数据;
将所述与应用访问相关联的用户行为数据作为用户在所述预设时刻的行为特征数据。
可选的,在本申请的一个实施例中,所述预设时刻距离统计时刻的时间段与所述目标应用的更新周期相匹配。
本申请另一方面还提出一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时可以实现以下步骤:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻距离统计时刻的时间段小于用户流失周期;
若用户在所述时间段内访问过所述目标应用,则将所述用户的行为特征数据划分为正样本数据,否则,将所述用户的行为特征数据划分为无标注样本数据;
利用所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
所述计算机可读存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
尽管本申请内容中提到属性信息的不同种类、审核配置规则的不同配置方式、业务项建立以及后续处理、判断是否命中审核配置规则等之类的数据定义、获取、交互、计算、判断等描述,但是,本申请并不局限于必须是符合行业通信标准、标准数据结构、计算机处理和存储规则或本申请实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本申请的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种确定流失用户的方法,其特征在于,所述方法包括:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
2.如权利要求1所述的一种确定流失用户的方法,其特征在于,所述行为特征数据包括用户在预设时刻之前的预设时间段内产生的下述至少一种数据:
访问所述目标应用的频率、访问所述目标应用的时长、访问所述目标应用中预设子页面的频率、访问所述目标应用中预设子页面的时长。
3.如权利要求1所述的一种确定流失用户的方法,其特征在于,所述根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器包括:
获取在所述时间段内和所述用户流失周期内的正样本数据的个数,并确定所述时间段内正样本数据个数占所述用户流失周期内正样本数据个数的比例;
根据所述比例和所述概率计算得到所述无标注样本的第一权重值;
获取两份相同的所述无标注样本数据,设置其中一份无标注样本数据的分类结果为正样本数据,权重值为所述第一权重值,设置另一份无标注样本数据的分类结果为负样本数据,权重值为1减去所述第一权重值;
利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
4.如权利要求1所述的一种确定流失用户的方法,其特征在于,所述方法还包括:
获取用户在所述统计时刻的行为特征数据;
基于所述统计时刻的行为特征数据,利用所述第二分类器计算所述用户的流失概率;
当所述第二分类器计算得到的流失概率大于预设阈值时,确定所述用户为流失用户。
5.如权利要求1或2所述的一种确定流失用户的方法,其特征在于,所述获取目标应用的多个用户在预设时刻的行为特征数据包括:
获取目标应用的多个用户在预设时刻之前的预设时间段内的用户行为数据;
从所述用户行为数据中提取出与应用访问相关联的用户行为数据;
将所述与应用访问相关联的用户行为数据作为用户在所述预设时刻的行为特征数据。
6.如权利要求1所述的一种确定流失用户的方法,其特征在于,所述预设时刻距离统计时刻的时间段与所述目标应用的更新周期相匹配。
7.一种确定流失用户的装置,其特征在于,所述装置包括:
特征数据获取单元,用于获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
样本划分单元,用于分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
第一分类器构建单元,用于利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
第二分类器构建单元,用于根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
8.一种确定流失用户的装置,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
9.如权利要求8所述的一种确定流失用户的装置,其特征在于,所述行为特征数据包括用户在预设时刻之前的预设时间段内产生的下述至少一种数据:
访问所述目标应用的频率、访问所述目标应用的时长、访问所述目标应用中预设子页面的频率、访问所述目标应用中预设子页面的时长。
10.如权利要求8所述的一种确定流失用户的装置,其特征在于,所述处理器在实现步骤根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器时包括:
获取在所述时间段内和所述用户流失周期内的正样本数据的个数,并确定所述时间段内正样本数据个数占所述用户流失周期内正样本数据个数的比例;
根据所述比例和所述概率计算得到所述无标注样本的第一权重值;
获取两份相同的所述无标注样本数据,设置其中一份无标注样本数据的分类结果为正样本数据,权重值为所述第一权重值,设置另一份无标注样本数据的分类结果为负样本数据,权重值为1减去所述第一权重值;
利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
11.如权利要求8所述的一种确定流失用户的装置,其特征在于,所述处理器执行所述指令时还实现:
获取用户在所述统计时刻的行为特征数据;
基于所述统计时刻的行为特征数据,利用所述第二分类器计算所述用户的流失概率;
当所述第二分类器计算得到的流失概率大于预设阈值时,确定所述用户为流失用户。
12.如权利要求8或9所述的一种确定流失用户的装置,其特征在于,所述处理器在实现步骤获取目标应用的多个用户在预设时刻的行为特征数据时包括:
获取目标应用的多个用户在预设时刻之前的预设时间段内的用户行为数据;
从所述用户行为数据中提取出与应用访问相关联的用户行为数据;
将所述与应用访问相关联的用户行为数据作为用户在所述预设时刻的行为特征数据。
13.如权利要求8所述的一种确定流失用户的装置,其特征在于,所述预设时刻距离统计时刻的时间段与所述目标应用的更新周期相匹配。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现以下步骤:
获取目标应用的多个用户在预设时刻的行为特征数据,所述预设时刻设置于用户流失周期内,所述用户流失周期以确定流失用户的统计时刻为时间终点;
分别判断用户在所述预设时刻距离所述统计时刻的时间段内是否访问过所述目标应用,若是,则将对应用户的行为特征数据划分为正样本数据,否则,将对应用户的行为特征数据划分为无标注样本数据;
利用划分的所述正样本数据和所述无标注样本数据构建得到第一分类器,并利用所述第一分类器计算得到所述无标注样本数据被标注为正样本数据的概率;
根据所述概率设置所述无标注样本的权重值,利用所述正样本数据和增加权重值的无标注样本数据构建得到第二分类器。
CN201710252413.2A 2017-04-18 2017-04-18 一种确定流失用户的方法及装置 Active CN107358247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710252413.2A CN107358247B (zh) 2017-04-18 2017-04-18 一种确定流失用户的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710252413.2A CN107358247B (zh) 2017-04-18 2017-04-18 一种确定流失用户的方法及装置

Publications (2)

Publication Number Publication Date
CN107358247A true CN107358247A (zh) 2017-11-17
CN107358247B CN107358247B (zh) 2020-08-04

Family

ID=60271247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710252413.2A Active CN107358247B (zh) 2017-04-18 2017-04-18 一种确定流失用户的方法及装置

Country Status (1)

Country Link
CN (1) CN107358247B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108090785A (zh) * 2017-12-07 2018-05-29 北京小度信息科技有限公司 确定用户行为衰退倾向的方法、装置及电子设备
CN108364192A (zh) * 2018-01-16 2018-08-03 阿里巴巴集团控股有限公司 一种用户挖掘方法、装置以及电子设备
CN108665306A (zh) * 2018-05-04 2018-10-16 合肥工业大学 核心竞争产品识别方法和系统、存储介质
CN109559172A (zh) * 2018-11-29 2019-04-02 北京车联天下信息技术有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN109636446A (zh) * 2018-11-16 2019-04-16 北京奇虎科技有限公司 用户流失预测方法、装置及电子设备
CN109670871A (zh) * 2018-12-22 2019-04-23 拉扎斯网络科技(上海)有限公司 召回方法及装置、电子设备和存储介质
CN109766502A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 页面改进方法、装置、计算机设备及存储介质
WO2019128526A1 (zh) * 2017-12-27 2019-07-04 阿里巴巴集团控股有限公司 一种训练风控模型和风控的方法、装置及设备
CN111178973A (zh) * 2019-12-31 2020-05-19 北京每日优鲜电子商务有限公司 流失用户标识识别方法、装置、计算机设备及存储介质
CN112232833A (zh) * 2020-09-11 2021-01-15 苏宁金融科技(南京)有限公司 流失会员客群数据预测方法、模型训练方法及装置
CN114765772A (zh) * 2021-01-04 2022-07-19 中国移动通信有限公司研究院 终端信息的输出方法、装置及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040034558A1 (en) * 2002-06-04 2004-02-19 Ramine Eskandari Managing customer loss using a graphical user interface
CN103854065A (zh) * 2012-11-30 2014-06-11 西门子公司 一种用于客户流失预测的方法和装置
CN104182474A (zh) * 2014-07-30 2014-12-03 北京拓明科技有限公司 一种预流失用户的识别方法
CN105005909A (zh) * 2015-06-17 2015-10-28 深圳市腾讯计算机系统有限公司 预测流失用户的方法及装置
CN105099731A (zh) * 2014-04-23 2015-11-25 腾讯科技(深圳)有限公司 挖掘导致网络应用的用户流失的流失因子的方法及系统
CN106203679A (zh) * 2016-06-27 2016-12-07 武汉斗鱼网络科技有限公司 一种用户流失预测方法及系统
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040034558A1 (en) * 2002-06-04 2004-02-19 Ramine Eskandari Managing customer loss using a graphical user interface
CN103854065A (zh) * 2012-11-30 2014-06-11 西门子公司 一种用于客户流失预测的方法和装置
CN105099731A (zh) * 2014-04-23 2015-11-25 腾讯科技(深圳)有限公司 挖掘导致网络应用的用户流失的流失因子的方法及系统
CN104182474A (zh) * 2014-07-30 2014-12-03 北京拓明科技有限公司 一种预流失用户的识别方法
CN105005909A (zh) * 2015-06-17 2015-10-28 深圳市腾讯计算机系统有限公司 预测流失用户的方法及装置
CN106203679A (zh) * 2016-06-27 2016-12-07 武汉斗鱼网络科技有限公司 一种用户流失预测方法及系统
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090785A (zh) * 2017-12-07 2018-05-29 北京小度信息科技有限公司 确定用户行为衰退倾向的方法、装置及电子设备
CN108090785B (zh) * 2017-12-07 2021-03-02 北京小度信息科技有限公司 确定用户行为衰退倾向的方法、装置及电子设备
CN107832581B (zh) * 2017-12-15 2022-02-18 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
WO2019128526A1 (zh) * 2017-12-27 2019-07-04 阿里巴巴集团控股有限公司 一种训练风控模型和风控的方法、装置及设备
CN108364192A (zh) * 2018-01-16 2018-08-03 阿里巴巴集团控股有限公司 一种用户挖掘方法、装置以及电子设备
CN108364192B (zh) * 2018-01-16 2022-10-18 创新先进技术有限公司 一种用户挖掘方法、装置以及电子设备
CN108665306B (zh) * 2018-05-04 2021-05-25 合肥工业大学 核心竞争产品识别方法和系统、存储介质
CN108665306A (zh) * 2018-05-04 2018-10-16 合肥工业大学 核心竞争产品识别方法和系统、存储介质
CN109636446A (zh) * 2018-11-16 2019-04-16 北京奇虎科技有限公司 用户流失预测方法、装置及电子设备
CN109636446B (zh) * 2018-11-16 2023-10-24 三六零科技集团有限公司 用户流失预测方法、装置及电子设备
CN109559172A (zh) * 2018-11-29 2019-04-02 北京车联天下信息技术有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN109766502A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 页面改进方法、装置、计算机设备及存储介质
CN109766502B (zh) * 2018-12-13 2024-03-22 平安普惠企业管理有限公司 页面改进方法、装置、计算机设备及存储介质
CN109670871A (zh) * 2018-12-22 2019-04-23 拉扎斯网络科技(上海)有限公司 召回方法及装置、电子设备和存储介质
CN111178973A (zh) * 2019-12-31 2020-05-19 北京每日优鲜电子商务有限公司 流失用户标识识别方法、装置、计算机设备及存储介质
CN112232833A (zh) * 2020-09-11 2021-01-15 苏宁金融科技(南京)有限公司 流失会员客群数据预测方法、模型训练方法及装置
CN114765772A (zh) * 2021-01-04 2022-07-19 中国移动通信有限公司研究院 终端信息的输出方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN107358247B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN107358247A (zh) 一种确定流失用户的方法及装置
Bhatia Data mining and data warehousing: principles and practical techniques
CN106530010B (zh) 融合时间因素的协同过滤方法和装置
CN107358157A (zh) 一种人脸活体检测方法、装置以及电子设备
CN107818344A (zh) 用户行为进行分类和预测的方法和系统
CN108334647A (zh) 保险欺诈识别的数据处理方法、装置、设备及服务器
CN107784390A (zh) 用户生命周期的识别方法、装置、电子设备及存储介质
WO2020238229A1 (zh) 交易特征生成模型的训练、交易特征的生成方法和装置
CN108596410B (zh) 一种风控事件自动处理方法及装置
CN109840730B (zh) 用于数据预测的方法及装置
CN108182634A (zh) 一种借贷预测模型的训练方法、借贷预测方法和装置
Mishra Machine learning in the AWS cloud: Add intelligence to applications with Amazon Sagemaker and Amazon Rekognition
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN111340246A (zh) 用于企业智能决策分析的处理方法、装置和计算机设备
Sridhar et al. Multi-head self-attention transformer for dogecoin price prediction
WO2020228283A1 (zh) 特征提取方法、装置及计算机可读存储介质
CN110263157A (zh) 一种数据风险预测方法、装置及设备
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN110489646B (zh) 用户画像构建方法及终端设备
CN109816509A (zh) 评分卡模型的生成方法、终端设备及介质
CN107908653A (zh) 一种数据处理方法及装置
CN108629632A (zh) 预测用户收入的方法、装置及计算机可读存储介质
CN108734587A (zh) 金融产品的推荐方法及终端设备
CN108287708A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN108564393A (zh) 潜在客户评分方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1246455

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right