CN109034861B - 基于移动端日志行为数据的用户流失预测方法及装置 - Google Patents

基于移动端日志行为数据的用户流失预测方法及装置 Download PDF

Info

Publication number
CN109034861B
CN109034861B CN201810565339.4A CN201810565339A CN109034861B CN 109034861 B CN109034861 B CN 109034861B CN 201810565339 A CN201810565339 A CN 201810565339A CN 109034861 B CN109034861 B CN 109034861B
Authority
CN
China
Prior art keywords
data
user
sequence
stage
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810565339.4A
Other languages
English (en)
Other versions
CN109034861A (zh
Inventor
车曦
尤志强
潘琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Maocai Network Technology Co ltd
Original Assignee
Wacai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wacai Network Technology Co ltd filed Critical Wacai Network Technology Co ltd
Priority to CN201810565339.4A priority Critical patent/CN109034861B/zh
Publication of CN109034861A publication Critical patent/CN109034861A/zh
Application granted granted Critical
Publication of CN109034861B publication Critical patent/CN109034861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于移动端日志行为数据的用户流失预测方法及装置。所述方法包括:S1,读取用户行为日志;S2,提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征;S3,使用多级序列模型对特征数据进行模型训练;S4,多级序列模型中最高一级的最终输出量通过分类模型实现同级时间粒度的下一时间点的用户流失预测;S5,对于判断为将要流失的用户,实施实时运营操作。所述装置包括:日志获取单元,特征数据构造单元,数据模型训练单元,用户流失预测单元和运营操作单元。本发明能够满足不同留存时长用户下一时间节点的流失预测,并能够在用户当天还未离开APP时完成预测并做出相应的运营操作。

Description

基于移动端日志行为数据的用户流失预测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及基于移动端日志行为数据的用户流失预测方法及装置。
背景技术
用户在激活、注册、业务转化等环节中,用户都存在一定的流失概率(即永久离开APP)。企业为了降低流失率(提高UV、PV)或提高价值转化(通过用户购买等行为为企业带来收益),往往会进行各类运营活动、广告,从而增加用户粘性、降低流失概率、提升收益。然而活动、广告等行为往往伴随着一定的风险,比如在移动APP端,用户运营的方式主要依靠的是短信、通知栏消息等方式,当这些方式在不合适的时间节点送达用户时,便会对用户形成骚扰,反而加速用户的流失。因此,很多时候企业为了最大化用户生命周期总价值(LTV),往往希望能够对用户的流失进行预测,在用户即将流失且在一个骚扰影响最小的时间点或位置点(对于移动APP端,通常表示在用户仍然在APP内的某个时间或页面),对用户实施挽留操作或价值转化操作。
基于以上背景,建立一套模型帮助企业及时、准确地定位到即将流失的用户,是很有必要且具有很高价值的。
目前常见的流失预测的方法有很多,比如基于用户一段时间的统计特征建立分类模型;基于用户一段时间内所产生的行为时间间隔等。上述的方法主要利用用户在一个固定时间窗口内的行为数据、基础属性数据、时间维度等相关数据,建立用户的统计特征,再利用诸如决策树、神经网络等模型进行流失分类。这类方法一方面依赖一定时间长度的用户行为数据积累,另一方面需要涉及一系列的特征工程,如用户近一个月的购买次数、购买金额等。这类方法存在两个显著的问题:一,提取特征所用的时间窗T太宽,无法有效对新用户进行流失预测,因为若将该类方法的时间窗口设置过短,以统计标签为基础的特征数据在不同用户间的区分度降低,则会影响模型的准确率;二,该方法无法保证能够在用户停留在APP内期间完成预测,该方法需要进行APP外的触达手段,如短信、消息通知栏等,或者等到用户下一次打开APP时进行运营操作,这将在实施阶段大幅降低运营成功率,即便方法具有较高的预测准确率。
公开号为CN106529727A的发明专利申请公开的一种用户流失预测模型生成方法及相关装置,该方法包括:对用户行为数据的数据特征构建、新获取的用户特征数据与训练用户流失预警模型所用的预定数据特性匹配度计算、若不匹配则加入新数据并更新模型。该方法针对用户的行为日志数据进行流失预测,且能够整合指定长度的日志数据实现流失预测。但是,该方法仍存在以下不足:
1、该方案在处理行为日志数据并进行特征数据构建时,仅采用统计计算(均值、方差等统计指标)或枚举型的数据(用户行为数据中各个字段的名称等数据)。该类型的数据完全摒弃了用户本身行为的时序信息。
2、特征构造采用人工方式,依赖现有的经验,这将导致由于人工经验的局限性而无法有效获得潜在的数据规律模式,导致该方案在这一层就已经造成了信息的丢失。
3、模型选型方面,在示例时选用逻辑回归,该模型本质上是线性回归模型,即特征与结果满足线性关系,它无法很好的应对非线性数据,而用户的多样性赋予了数据特征与目标之间非线性关系的可能,单纯的逻辑回归模型容易欠拟合与分类精度不高的特点使其不能保证能很好的完成预测任务。
4、在用户行为数据特征匹配度衡量仅靠数据统计特征中字段值的均值、方差、协方差、存在依赖关系的字段对应字段值间的相关系数、协方差等,该类统计指标无法准确把握数据的流形(manifold),匹配度衡量计算存在误差。
5、该方法在多日行为的流失预测方面的有效性存疑,因为该方法描述中使用指定长度的日志数据,该长度或许只能满足用户首日或者前几日的行为日志,当日志长度太长时,则无法实现多日后的用户流失预测;若该方法设置很长的行为日志,那么日志处理所得到的特征与目标的非线性关系将更强,线性模型高概率无法胜任预测任务。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于移动端日志行为数据的用户流失预测方法及装置。能够满足不同留存时长用户下一时间节点的流失预测,并能够在用户当天还未离开APP时完成预测并做出相应的运营操作。通过在进行用户流失预测时,融合用户的行为序列数据所带来的信息,使预测结果更加准确。通过对用户行为数据按不同的时间粒度划分,多级序列模型按相应的时间粒度分级对用户行为数据进行训练,实现不同留存时长情况下的用户流失预测。
为了实现上述的目的,本发明采用了以下的技术方案:
本发明实施例公开的基于移动端日志行为数据的用户流失预测方法,该包括,
S1,读取用户行为日志;
S2,提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征;
S3,使用多级序列模型对特征数据进行模型训练,包括:
将特征数据以时间维度进行分级,从低级到高级,特征数据的时间粒度逐级递增;
对于单个时间粒度中的特征数据,提取用户操作时序,对其进行数据编码处理后依次输入与该时间粒度对应一级的序列模型,全部数据输入完毕后,该级模型的输出量与经过数据编码后的其他特征数据拼接得到该级模型的最终输出量;
对于最低一级的序列模型,对S2中的特征数据以多级序列模型中的最小预测时间粒度划分,提取用户操作时序作为该级的输入量;
对于其他级的序列模型,低一级序列模型的最终输出量作为高一级序列模型的输入量;
S4,多级序列模型中最高一级的最终输出量通过分类模型实现同级时间粒度的下一时间点的用户流失预测;
S5,对于判断为将要流失的用户,实施实时运营操作。
作为优选方案,S2中的用户操作时序包括:行为序列、行为序列中每个页面停留时长的统计指标、用户操作时间所在的时间段和用户画像信息。
作为优选方案,所述S2包括:
对日志数据的噪声数据过滤;
对过滤后的日志数据,按照固定行为序列长度或固定时间长度进行切分;
对切分后的数据,提取关键信息对其进行数据结构化处理构造特征数据。
作为优选方案,所述S3,每一级序列模型的最终输出结果分别存储在数据库中,当多级序列模型需要以第N级进行下一时间粒度的用户流失预测时,直接从数据库中调取第N-1级的最终输出量输入第N级。
作为优选方案,S3中的最小预测时间粒度取决于业务产生的用户行为数据量,可选的最小预测时间粒度包括1小时、半天、一天或一周。
作为优选方案,S3中的多级序列模型可以是CNN、LSTM和GRU中的一种或多种。
本发明实施例公开的基于移动端日志行为数据的用户流失预测装置,该装置包括:
日志获取单元,用于读取用户行为日志;
特征数据构造单元,用于提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征;
数据模型训练单元,用于使用多级序列模型对特征数据进行模型训练,包括:
将特征数据以时间维度进行分级,从低级到高级,特征数据的时间粒度逐级递增;
对于单个时间粒度中的特征数据,提取用户操作时序,对其进行数据编码处理后依次输入与该时间粒度对应一级的序列模型,全部数据输入完毕后,该级模型的输出量与经过数据编码后的其他特征数据拼接得到该级模型的最终输出量;
对于最低一级的序列模型,对S2中的特征数据以多级序列模型中的最小预测时间粒度划分,提取用户操作时序作为该级的输入量;
对于其他级的序列模型,低一级序列模型的最终输出量作为高一级序列模型的输入量;
用户流失预测单元,用于多级序列模型中最高一级的最终输出量通过分类模型实现同级时间粒度的下一时间点的用户流失预测;
运营操作单元,对于判断为将要流失的用户,实施实时运营操作。
本发明具有以下技术效果:
1、本发明充分利用用户行为日志的时序信息,防止丢失关键信息。
2、本发明能应对不同留存时长的用户行为数据,能够计算用户不同时间粒度下行为操作信息,并以向量编码的形式存储在数据库中,在实时预测时提取计算。
3、本发明不涉及复杂的特征工程,特别是对于长留存的用户,不需要对这些用户的大量数据建立特征工程和特征变量筛选。
4、本发明能够对用户实现实时预测,确保运营手段触达用户时,用户仍在APP内。这极大的减小了对用户的骚扰程度。
附图说明
图1为本发明方法的总体流程图。
图2为本发明实施例中多级序列模型的分级示意图。
图3为单级序列模型(SequenceModel)的处理流程示意图。
图4为本发明实施例中的两级序列模型。
图5为本发明实施例中通过两级序列模型进行预测与运营操作的流程示意图。
图6为本发明装置的功能单元框图。
具体实施方式
下面结合附图对本专利的优选实施方案作进一步详细的说明。
如图1-6所示的基于移动端日志行为数据的用户流失预测方法,所述方法包括:
S1,读取用户行为日志。
在用户与APP(应用程序)进行交互的过程中,会产生大量的用户行为日志,用户行为日志中记录有用户与应用程序进行交互过程中产生的用户行为数据。如表1所示为用户A的一份行为日志。
userid event create_time
A LSD_CLICK 2010-11-19 10:17:54.862+0800
A LSD_CLICK 2010-11-19 10:17:54.879+0800
A LSD_CLICK 2010-11-19 10:17:54.959+0800
A Invoking 2010-11-19 12:38:01.002+0800
A Login 2010-11-19 12:38:01.192+0800
A Login 2010-11-19 12:38:01.235+0800
A WebViewActivity 2010-11-19 12:38:01.283+0800
A HomeActivity 2010-11-19 12:38:05.167+0800
表1
表1中的userid表示用户名,用于标志用户;event表示对app的操作行为;create_time表示操作行为的创建时间。
S2,提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征。其中,用户操作时序包括:行为时序、行为序列中每个页面停留时长的统计指标和用户操作时间所在的时间段和用户画像信息。所述用户画像信息包括用户所处城市、所处城市的收入水平、职业、年龄等。
所述S2包括:
对日志数据的噪声数据过滤。
一份用户行为日志中,除有效的用户行为数据外,还包含许多噪声数据。因此,首先要执行噪声数据过滤。如表1所示,噪声数据过滤包含重复event过滤、非用户行为埋点数据去除、用户误操作行为过滤等。其中误操作过滤依靠两个event的时间差来判定。
对过滤后的日志数据,进行用户行为序列长度和行为持续时间的监控。当序列满足指定的行为步长或指定的行为时间后,则对该用户进行模型预测。
对预测流失所用的行为数据,进行数据结构化,构造模型需要的特征数据。
数据结构化结果包含:a、行为序列;b、行为序列中每个页面停留时长的统计指标;c、用户操作时间所在时间段;d、其他特征,包含但不限定:年龄、性别、地理位置等。将数据结构化结果中的a-d组合成用作用户操作时序。
如表1所示,表1中的行为序列为[WebViewActivity,HomeActivity,…],其中因为LSD_CLICK、Invoking、Login为非用户行为,所以在去噪声环节过滤掉了。行为序列中每个页面停留时长的计算方式为相邻两个有效的event产生时间的差值,停留时长的统计指标包含但不限定:均值、方差、中位数、峰度、偏度。由于用户操作时间所在的时间段需要对其进行编码实现数值表示,例如,采用multi-hot encoding方法对其进行编码,在上表中的结果为[0,0,0,0,1,1,0,0,0,0,0,0],向量中每个值代表2个小时的时间窗口。
如图3所示为本发明中单个序列模型示意图。本发明中的序列模型(SequenceModel)指的是可以对时序数据进行建模的模型,序列模型可以是CNN、LSTM和GRU中的一种或多种。本实施例以RNN模型为例对其进行说明。event(event0、event1……eventN)为从行为数据中提取的用户操作序列,该用户操作序列数据经过数据编码处理(embedding)后,依次输入模型中。本实施例中对用户操作序列数据的embedding的方法,等同于词向量的embedding,embedding matrix与模型一同训练。当所有数据输入完毕后,模型的输出向量与其他特征向量拼接在一起,本实施例中的其他特征向量包括页面停留市场统计指标、操作时间multi-hot encoding、以及其他诸如用户画像的特征数据的一种或多种。最后拼接的向量通过分类模型实现最终的流失预测。
上述模型能为单个时间粒度(如一天内)提供预测功能,该模型能够解决新用户在首日的流失预测功能,但若仅仅使用该模型结构来解决多日用户流失预测,会发生如下问题:(a)若T天之前的T-1天数据采用全量保留,输入的序列数据量将异常庞大;(b)多日数据扁平化地输入到模型中,会降低数据的可区分度,最终导致准确率降低。因此本实施例执行S3。
S3,使用多级序列模型(Hierarchy Sequence Model,或称为Multi-timescaleSequence Model)对特征数据进行模型训练,包括:
将特征数据以时间维度进行分级,从低级到高级,特征数据的时间粒度逐级递增。
需要说明的是,多级序列模型(Hierarchy Sequence Model)的级数理论上可以无限叠加,级数的大小取决于用户行为日志时间粒度的划分。多级序列模型中的最小预测时间颗粒度取决于业务产生的用户行为数据量,可选的最小预测时间颗粒度包括:1小时、半天、一天或一周等。在本实施例,我们主要将时间粒度划分为24小时、7天、1个月、1年,最大到4级。多级序列模型层级结构如图2所示,为3级模型结构。每一级模型接受来自低一级的序列数据,输出结果给向高一级。每一个模型模块参数相互独立,可以依靠BP算法迭代更新。模型采用神经网络结构并且处处可微。模型的损失函数定义为cross-entropy:
Figure BDA0001684260200000061
其中n为模型单次训练预测的样本个数,a为模型的输出结果,y为标签数据(即正确答案)。在模型的训练中,本实施例使用了一些优化方法,包括:Adam梯度下降算法、Dropout方法、bayesian-based-hyperparamter search方法。其他能够帮助模型加速收敛以及提升泛化能力的方法也可以用在训练中,例如batch normalize,early stop等。
多级序列模型中,对于单个时间粒度中的特征数据,提取用户操作时序,对其进行数据编码处理后依次输入与该时间粒度对应一级的序列模型,全部数据输入完毕后,该级模型的输出量与经过数据编码后的其他特征数据拼接得到该级模型的最终输出量。
对于最低一级的序列模型,对S2中的特征数据以多级序列模型中的最小预测时间粒度划分,提取用户操作时序作为该级的输入量。也即,对于最低一级的序列模型,输入数据是原始的序列数据,序列数据的时间范围为该级模型所覆盖的时间区间。对于其他级的序列模型,低一级序列模型的最终输出量作为高一级序列模型的输入量;对于其他级的序列模型,也即,除最低一级外之后每一级模型的输入数据,是它前一级模型在它所覆盖的时间区间的数据的输出结果。对于最低一级的序列模型,用户操作时序包括:行为序列中每个页面停留时长的统计指标、本级粒度下用户操作时间所在的时间段和用户画像信息;对于其他级的序列模型,用户操作时序包括:对上一级的统计指标进行二次计算、本级时间粒度下的操作时间段信息和用户画像信息。
如图4和图5所示,本实施例中采用两级sequence model,第一级为单日(24小时)的序列数据,第二级为T日的序列数据,模型任务为在用户第T日,进行流失预测。
本实施例中,将单日内用户的全体有效event数据输入已学习完毕的sequenceModel_iD模型,i为1~T,共T个独立模型,模型结构相同。模型得到的前T-1天的输出结果拼接上其对应其他特征向量(包含停留时常统计特征、用户操作时间、其他特征),拼接的结果直接输入到第二级的sequenceModel2L中(该拼接结果可同时持久化到数据库中作为用户在该日的特征向量以供后续直接调用)。最后将第T日的时序数据截取前K步长数据(K值满足预设的固定步长或预设的行为时长)输入到sequenceModelTD,sequenceModelTD输出结果在拼接上第T日的其他特征后输入到sequenceModelTD,最终的结果通过一个分类模型实现最终的流失预测(分类模型包含但不限于MLP、CNN、LR等)。
T代表第T天(当天),T为需要进行预测判断的日期。“1~T-1天的历史APP行为数据”为前T-1天的用户每日历史APP行为数据,当T=1时,即为用户首日流失预测。前T-1天的数据使用日志预处理流程进行数据处理与转换,但不做数据切分操作,保留全量历史数据。第T天(当天)的APP行为数据进行日志数据预处理操作并按照固定行为序列长度L或固定时间长度D来切分行为数据。K的取值取决于条件固定行为序列长度L和固定时间长度D。Model为多级序列模型,当T>1时,模型为2级序列模型;当T=1时为一级序列模型。
前T-1天的数据可以通过已训练完毕的模型进行每日计算,每日计算的模型输出结果可以理解为每个用户一天的APP行为操作的数值化或称为encoding/embedding(编码),并将结果存储到数据库中,以便后续实时预测时进行直接调用。
模型预测T+1流失时,将前T-1天的数据从数据库中取出,并直接顺序输入到第二级序列模型sequencemodel2,第T天的数据S1和S2处理,截取前K条记录输入第一级序列模型sequenemodel1,第一级结果输入到第二级,最终得到预测结果。
S4,根据多级序列模型中最高一级的最终输出量通过分类模型实现同级时间粒度的下一时间点的用户流失预测,对于判断为将要流失的用户,实施实时运营操作,确保运营手段触达用户时,用户仍在APP内。
如图6所示为基于移动端日志行为数据的用户流失预测装置,该装置包括:
日志获取单元61,用于读取用户行为日志;
特征数据构造单元62,用于提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征;
数据模型训练单元63,用于使用多级序列模型对特征数据进行模型训练,包括:
将特征数据以时间维度进行分级,从低级到高级,特征数据的时间粒度逐级递增;
对于单个时间粒度中的特征数据,提取用户操作时序,对其进行数据编码处理后依次输入与该时间粒度对应一级的序列模型,全部数据输入完毕后,该级模型的输出量与经过数据编码后的其他特征数据拼接得到该级模型的最终输出量;
对于最低一级的序列模型,对S2中的特征数据以多级序列模型中的最小时间粒度划分,提取用户操作时序作为该级的输入量;
对与其他级的序列模型,低一级序列模型的最终输出量作为高一级序列模型的输入量;
用户流失预测单元64,用于多级序列模型中最高一级的最终输出量通过分类模型实现下一时间粒度的用户流失预测;
运营操作单元65,对于判断为将要流失的用户,实施实时运营操作。

Claims (4)

1.基于移动端日志行为数据的用户流失预测方法,其特征在于,包括:
S1,读取用户行为日志;
S2,提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征;用户操作时序包括:行为序列、行为序列中每个页面停留时长的统计指标或对该统计指标的二次计算、本级粒度下用户操作时间所在的时间段和用户画像信息;
所述S2包括:对日志数据的噪声数据过滤;
对过滤后的日志数据,按照固定行为序列长度或固定时间长度进行切分;
对切分后的数据,提取关键信息对其进行数据结构化处理构造特征数据;
S3,使用多级序列模型对特征数据进行模型训练,包括:
将特征数据以时间维度进行分级,从低级到高级,特征数据的时间粒度逐级递增;
对于单个时间粒度中的特征数据,提取用户操作时序,对其进行数据编码处理后依次输入与该时间粒度对应一级的序列模型,全部数据输入完毕后,该级模型的输出量与经过数据编码后的其他特征数据拼接得到该级模型的最终输出量;
对于最低一级的序列模型,对S2中的特征数据以多级序列模型中的最小预测时间粒度划分,提取用户操作时序作为该级的输入量;
对于其他级的序列模型,低一级序列模型的最终输出量作为高一级序列模型的输入量;
S4,多级序列模型中最高一级的最终输出量通过分类模型实现同级时间粒度的下一时间点的用户流失预测;
S5,对于判断为将要流失的用户,实施实时运营操作;
所述S3,每一级序列模型的最终输出结果分别存储在数据库中,当多级序列模型需要以第N级进行下一时间粒度的用户流失预测时,直接从数据库中调取第N-1级的最终输出量输入第N级。
2.根据权利要求1所述的基于移动端日志行为数据的用户流失预测方法,其特征在于,S3中的最小预测时间粒度取决于业务产生的用户行为数据量,可选的最小预测时间粒度包括1小时、半天、一天或一周。
3.根据权利要求1所述的基于移动端日志行为数据的用户流失预测方法,其特征在于,S3中的多级序列模型可以是CNN、LSTM和GRU中的一种或多种。
4.基于移动端日志行为数据的用户流失预测装置,其特征在于,用于执行权利 要求1至3所述的预测方法,包括:
日志获取单元,用于读取用户行为日志;
特征数据构造单元,用于提取日志中的关键信息构造特征数据,所述特征数据包括用户操作时序和其他特征;
数据模型训练单元,用于使用多级序列模型对特征数据进行模型训练,包括:
将特征数据以时间维度进行分级,从低级到高级,特征数据的时间粒度逐级递增;
对于单个时间粒度中的特征数据,提取用户操作时序,对其进行数据编码处理后依次输入与该时间粒度对应一级的序列模型,全部数据输入完毕后,该级模型的输出量与经过数据编码后的其他特征数据拼接得到该级模型的最终输出量;
对于最低一级的序列模型,对S2中的特征数据以多级序列模型中的最小预测时间粒度划分,提取用户操作时序作为该级的输入量;
对于其他级的序列模型,低一级序列模型的最终输出量作为高一级序列模型的输入量;
用户流失预测单元,用于多级序列模型中最高一级的最终输出量通过分类模型实现同级时间粒度的下一时间点的用户流失预测;
运营操作单元,对于判断为将要流失的用户,实施实时运营操作。
CN201810565339.4A 2018-06-04 2018-06-04 基于移动端日志行为数据的用户流失预测方法及装置 Active CN109034861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810565339.4A CN109034861B (zh) 2018-06-04 2018-06-04 基于移动端日志行为数据的用户流失预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810565339.4A CN109034861B (zh) 2018-06-04 2018-06-04 基于移动端日志行为数据的用户流失预测方法及装置

Publications (2)

Publication Number Publication Date
CN109034861A CN109034861A (zh) 2018-12-18
CN109034861B true CN109034861B (zh) 2022-06-07

Family

ID=64611874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810565339.4A Active CN109034861B (zh) 2018-06-04 2018-06-04 基于移动端日志行为数据的用户流失预测方法及装置

Country Status (1)

Country Link
CN (1) CN109034861B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451527B (zh) * 2018-12-21 2019-09-20 宜通世纪科技股份有限公司 一种移动通信用户流失日粒度预测方法及装置
CN111724185A (zh) * 2019-03-21 2020-09-29 北京沃东天骏信息技术有限公司 用户维护方法和装置
CN110415022B (zh) * 2019-07-05 2023-08-18 创新先进技术有限公司 处理用户行为序列的方法及装置
CN110400013A (zh) * 2019-07-22 2019-11-01 西北工业大学 一种基于多任务学习机制的移动应用消亡预测方法
CN110659742B (zh) * 2019-09-10 2023-09-05 创新先进技术有限公司 获取用户行为序列的序列表示向量的方法和装置
CN110796484B (zh) * 2019-10-11 2022-02-25 上海上湖信息技术有限公司 客户活跃程度预测模型的构建方法、装置及其应用方法
CN113128739B (zh) * 2019-12-31 2023-05-12 马上消费金融股份有限公司 用户触达时间的预测方法、预测模型训练方法及相关装置
CN113077276A (zh) * 2020-01-06 2021-07-06 阿里巴巴集团控股有限公司 行为数据的处理方法和系统、存储介质及处理器
CN111325006B (zh) * 2020-03-17 2023-05-05 北京百度网讯科技有限公司 一种信息交互方法、装置、电子设备和存储介质
CN111709583B (zh) * 2020-06-18 2023-05-23 抖音视界有限公司 用户留存时间生成方法、装置、电子设备和介质
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质
CN112801706B (zh) * 2021-02-04 2024-02-02 北京云上曲率科技有限公司 一种游戏用户行为数据挖掘方法及系统
CN114022202B (zh) * 2021-11-03 2022-11-01 中南大学 基于深度学习的用户流失预测方法及系统
CN113779431B (zh) * 2021-11-12 2022-02-08 杭银消费金融股份有限公司 基于时序特征的业务信息处理方法及服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529727A (zh) * 2016-11-18 2017-03-22 腾讯科技(深圳)有限公司 一种用户流失预测模型生成方法及相关装置
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN107609147A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和系统
CN107944915A (zh) * 2017-11-21 2018-04-20 北京深极智能科技有限公司 一种游戏用户行为分析方法及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169345A1 (en) * 2015-12-10 2017-06-15 AVG Netherlands B.V. Predicting churn for (mobile) app usage

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529727A (zh) * 2016-11-18 2017-03-22 腾讯科技(深圳)有限公司 一种用户流失预测模型生成方法及相关装置
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN107609147A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和系统
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于手机游戏商店的用户流失预测方法及系统
CN107944915A (zh) * 2017-11-21 2018-04-20 北京深极智能科技有限公司 一种游戏用户行为分析方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN109034861A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109034861B (zh) 基于移动端日志行为数据的用户流失预测方法及装置
Verenich et al. Survey and cross-benchmark comparison of remaining time prediction methods in business process monitoring
Jha et al. Time series forecasting model for supermarket sales using FB-prophet
CN110956224B (zh) 评估模型生成、评估数据处理方法、装置、设备及介质
US20180253657A1 (en) Real-time credit risk management system
CN107040397B (zh) 一种业务参数获取方法及装置
CN108566618B (zh) 获取用户驻留规律的方法、装置、设备及存储介质
CN111506723A (zh) 问答响应方法、装置、设备及存储介质
JP7409080B2 (ja) 学習データ生成方法、学習データ生成プログラムおよび情報処理装置
EP3217335A1 (en) Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data
CN110688429A (zh) 目标员工筛选方法、装置、计算机设备及存储介质
CN112232604A (zh) 基于Prophet模型提取网络流量的预测方法
CN111160959A (zh) 一种用户点击转化预估方法及装置
Syeed et al. Flood prediction using machine learning models
Butt et al. Hybrid of deep learning and exponential smoothing for enhancing crime forecasting accuracy
Wang et al. A transformer-based multi-entity load forecasting method for integrated energy systems
Castanedo et al. Learning routines over long‐term sensor data using topic models
CN117196105A (zh) 人数预测方法、装置、计算机设备、存储介质
CN109800887B (zh) 预测流程模型的生成方法、装置、存储介质和电子设备
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
Bibi et al. Selecting the appropriate machine learning techniques for the prediction of software development costs
Ruta et al. K nearest sequence method and its application to churn prediction
Gómez‐Corral et al. B ayesian Inference of M arkov Processes
Nagashima et al. Data Imputation Method based on Programming by Example: APREP-S
CN111461180B (zh) 样本分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230630

Address after: Room 1502, 1503, 1504 and 1505, Floor 15, Building 3, No. 96, Huaxing Road, Xihu District, Hangzhou, Zhejiang Province, 310000

Patentee after: HANGZHOU MAOCAI NETWORK TECHNOLOGY Co.,Ltd.

Address before: 18 / F, No. 96, Huaxing Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Patentee before: WACAI NETWORK TECHNOLOGY CO.,LTD.