CN112669091B

CN112669091B - 数据处理方法、装置及存储介质

Info

Publication number: CN112669091B
Application number: CN202110014849.4A
Authority: CN
Inventors: 陈峭霖; 张宇琪; 陈浩宇; 宋超; 张洁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2023-12-12
Anticipated expiration: 2041-01-06
Also published as: CN112669091A

Abstract

本发明提供一种数据处理方法、装置及存储介质，该方法包括：获取目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据；对所述第一历史时间段内的历史留存数据进行拟合，得到所述目标群体在第一预设时间的目标留存数据；基于所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在所述第一预设时间的目标平均资源贡献数据；基于所述第一预设时间的目标留存数据和目标平均资源贡献数据，确定所述目标群体在所述第一预设时间的目标资源贡献数据。本发明能够提高目标群体在该第一预设时间的目标资源贡献数据的预测准确率，使预测结果更加贴合业务实际预测需求。

Description

数据处理方法、装置及存储介质

技术领域

本发明属于计算机技术领域，具体涉及一种数据处理方法、装置及存储介质。

背景技术

随着移动互联网和智能手机的发展，多种类型的商业应用(Application，APP)持续涌现，比如手机游戏、社交软件、视频软件等。其中，手机游戏是一类具有代表性的、通过向用户销售APP中内置的道具和增值服务等产品来获得营收和利润的APP。为了良好的发行、运营此类向用户销售道具和增值服务等产品的APP，在其新上线的早期，预测用户群体的远期生命周期价值(LTV)成为了一项十分关键的任务。

现有技术采用LTV曲线对数线性外推法对远期LTV进行预测(函数形式为LTV＝a*(t^b)，a和b为参数)，该预测方法通过对近期LTV数据进行回归得到参数a和b，进而外推曲线，代入远期的t值来求得远期LTV的预测值。

然而LTV的对数线性往往只体现在整个APP所有用户的LTV曲线上。而对某一个用户群体而言，APP上线早期的LTV数据可能并不是对数线性的，即模型的函数形式假设可能并不成立，导致预测效果较差，甚至预测出来很多极端值，不符合实际情况。

发明内容

为了解决上述技术问题，本发明提供一种数据处理方法、装置及存储介质。

一方面，本发明提出了一种数据处理方法，所述方法包括：

获取目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据；

对所述第一历史时间段内的历史留存数据进行拟合，得到所述目标群体在第一预设时间的目标留存数据；

基于所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在所述第一预设时间的目标平均资源贡献数据；

基于所述第一预设时间的目标留存数据和目标平均资源贡献数据，确定所述目标群体在所述第一预设时间的目标资源贡献数据。

另一方面，本发明实施例提供了一种数据处理装置，所述装置包括：

获取模块，用于获取目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据；

拟合模块，用于对所述第一历史时间段内的历史留存数据进行拟合，得到所述目标群体在第一预设时间的目标留存数据；

第一确定模块，用于基于所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在所述第一预设时间的目标平均资源贡献数据；

第二确定模块，用于基于所述第一预设时间的目标留存数据和目标平均资源贡献数据，确定所述目标群体在所述第一预设时间的目标资源贡献数据。

另一方面，本发明提出了一种数据处理的电子设备，所述电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的数据处理方法。

另一方面，本发明提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的数据处理方法。

本发明实施例提出的数据处理方法、装置及存储介质，首先获取目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据，接着分别对目标留存率数据和目标平均资源贡献数据进预测(其中，目标留存率数据基于对该第一历史时间段内的历史留存数据进行拟合得到，目标平均资源贡献数据基于第一历史时间段内的历史资源贡献数据和历史留存数据而确定)，最后根据预测得到的第一预设时间的目标留存数据和目标平均资源贡献数据，确定该目标群体在该第一预设时间的目标资源贡献数据。由于本发明实施例可以针对目标留存率数据和目标平均资源贡献数据分别进行预测，从而可以提高目标群体在该第一预设时间的目标资源贡献数据的预测的准确率，使预测结果更加贴合业务实际预测需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种数据处理方法的实施环境示意图。

图2是本发明实施例提供的一种数据处理方法的系统示意图。

图3是本发明实施例提供的一种数据处理方法的流程示意图。

图4是本发明实施例提供的另一种数据处理方法的流程示意图。

图5是本发明实施例提供的使用艾宾浩斯遗忘曲线对某目标群体的留存数据进行预测得到的预测曲线与真实曲线的对比示意图。

图6是本发明实施例提供的监测留存率曲线形状的一种流程示意图。

图7是本发明实施例提供的另一种数据处理方法的流程示意图。

图8是本发明实施例提供的另一种数据处理方法的流程示意图。

图9是本发明实施例提供的使用带有天花板的线性增长模型控制ARPU的增长过程的一种流程示意图。

图10是本发明实施例提供的使用带有天花板的线性增长模型对目标群体的ARPU进行预测后得到的ARPU预测曲线和真实ARPU曲线的对比示意图。

图11是本发明实施例提供的另一种数据处理方法的流程示意图。

图12是本发明实施例提供的使用自置的LTV预测值天花板剔除极端预测值的示意图。

图13是目标群体人数在3000人以上时，传统对数曲线外推法的LTV预测效果。

图14是目标群体人群在3000人以上时，使用本发明实施例中的预测方法的LTV预测效果。

图15是本发明实施例提供的不同人数的目标群体的LTV预测结果。

图16是本发明实施例提供的不同人数的目标群体的预测效果展(MAPE指标)。

图17是本发明实施例提供的不同人数的目标群体的预测效果展(MAE指标)。

图18是本发明实施例提供的一种数据处理装置的结构示意图。

图19是本发明实施例提供的一种服务器的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本发明实施例中所使用到的技术术语进行介绍：

冷启动：是指面对一个问题时，缺乏历史数据和先验知识等可以帮助解决问题的经验。

用户生命周期价值((Life Time Value，LTV)：是指在用户生命周期内，公司从用户所有的互动中所得到的全部经济收益的总和。该指标可以用于单个用户(个人LTV)或某个用户群体(群体LTV)。群体LTV＝群体贡献的总业务收入/群体人数。以下，可以将“用户生命周期价值”定义为“资源贡献数据”。

留存率(Retention Rate)：是指在某一时间内，某个用户群体中的活跃用户占比，通常以日为单位。用字母R表示。R(t)表示随时间变化的留存率。以下，可以将“留存率”定义为“留存数据”。

其中，活跃用户可以是每天登陆的用户，活跃用户占比可以为每天登陆的用户占注册用户的比例。例如，10月1号有万人注册，那10月1号的活跃用户为1万人，相应的活跃用户占比为100％；10月2号有7000人登陆，那10月2号的活跃用户为7000人，相应的活跃用户占比为7000/1万＝70％；10月3号有6500人登陆，那10月3号的活跃用户为6500，相应的活跃用户占比为6500/1万＝65％。

LT(Life Time)用户生命周期；是指用户使用某产品服务的时间总和，即人均总活跃时长，通常以日为单位计次。该指标可以用于单个用户(个人LT)或某个用户群体(群体LT，即群体中所有个体LT的均值)。在群体场景下，群体LT还等于群体留存率R在时间t上的累积。

每用户平均收入(Average Revenue Per User，ARPU)：是指某个用户群体在一个时期内，平均每个用户每个活跃日贡献的业务收入。群体ARPU＝群体LTV/群体LT。以下，可以将“每用户平均收入”定义为“平均资源贡献数据”。

艾宾浩斯遗忘曲线(The Ebbinghaus Forgetting Curve)：描述了人类大脑对新事物遗忘的规律：遗忘的过程在学习之后立即开始，而且遗忘的进程并不是均匀的，最初遗忘速度很快，以后逐渐缓慢。他认为“保持和遗忘是时间的函数”，并绘制出了函数曲线。艾宾浩斯遗忘曲线的函数形式是：

其中，a、b为参数，R(t)表示随时间变化的留存率。

平均绝对误差(MAE)：常用于预测评价指标，表示预测值和真实值之间绝对误差的平均值。

平均绝对百分比误差(MAPE)：常用于预测评价指标，表示预测值和真实值之间绝对误差占真实值百分比的平均值。多用于LTV预测的评估。

图1是本发明实施例提供的一种数据处理方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，该终端01与服务器02之间可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。例如，终端01通过上述连接向服务器发送目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据，服务器02对该数据进行处理后，向终端01反馈该目标群体在第一预设时间的目标资源贡献数据。

具体地，该终端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表等，但并不局限于此。

具体地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，图1仅仅是一种示例。

图2所示为本发明实施例提供的一种数据处理方法的系统示意图。如图2所示，该系统可以包括输入与输出模块、预测模块、优化提升后处理模块和追踪评估模块。

其中，该输入预处模块用于：

1)修正/删除错误数据值：对目标群体在短期内(比如14日内)的LTV和留存数据进行修正，并删除错误数据。

2)判断特殊情况(如预测使用的留存数据为0等)。

3)标记相应任务目标的群体：对将目标群体引入该APP的渠道进行标记，比如，标记从广投放流入的玩家群体等。

4)划分大小玩家群体、并对小玩家群体进行聚合。

预测模块用于：

1)留存数据预测子模块：使用预设拟合曲线对留存数据进行拟合(比如，艾宾浩斯遗忘曲线)，在预测过程中可以根据近期的数据动态将该预设拟合曲线切换为其他曲线形状。

2)ARPU(平均资源贡献数据)预测子模块：使用含天花板的线性非严格单调递增模型。即使用远期预估值作为天花板，规定ARPU的推演过程不允许超过天花板。

优化提升后处理模块用于：

1)自适应留存数据曲线形状切换。

2)留存数据调整：目标群体期望活跃用户需恒大于1。若小于1，则令此时的预测留存数据为0。

3)自置天花剔除LTV极端预测值。

追踪评估模块用于：

1)平均绝对误差子模块：用于预测预测值和真实之间绝对误差的平均值。

2)平均绝对百分比误差子模块：用于预测预测值和真实值之间绝对误差占真实值百分比的平均值。

需要说明的是，图2仅仅是一种示例。

图3是本发明实施例提供的一种数据处理方法的流程示意图。该方法可以用于图1中的实施环境以及图2中的系统中。本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示，该方法可以包括：

S101.获取目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据。

本发明实施例着眼于冷启动场景，针对向用户销售道具和增值服务等产品的APP，提出在该APP上线早期预测用户群体生命周期价值(即资源贡献数据，也即LTV)的方法。本发明实施例中的预测方法基于如下用户群体LTV的留存付费拆解式：

LTV＝LT*ARRU，

其中，LT＝∫R(t)dt。

将上述LTV的留存付费拆解式中的ARPU项设置为时间的函数ARPU(t)，那么新的留存付费拆解式可以写成如下积分方程：

LTV＝∫R(t)*ARRU(t)dt。

本发明实施例使用该APP上线早期内的群体LTV数据和留存率数据，针对留存数据和ARPU分别提出了经过优化的远期预测方案，从而达到了较好的群体LTV预测效果。

本发明实施例中的目标群体可以是某一APP新上线之后，使用该APP的玩家群体。更进一步地，可以将国家可以作为一个维度、系统平台(Android、IOS)作为一个维度、用户引入渠道作为一个维度，并将“国家+系统平台+渠道+某一天”的组合，作为该目标群体的单位。其中，“某一天”可以指的是该目标群体的用户注册该APP的时间。例如，目标群体可以为通过“某国家+Android+广告投放+10月1号”引入该APP的群体。

在一个可行的实施例中，第一历史时间段可以为目标群体使用该APP的早期。比如可以为注册该APP之后的1-14天。

如S101所述，为了实现远期群体LTV的预测，需要预先获取该目标群体在注册该APP之后第一历史时间段内(比如1-14天)的历史资源贡献数据(以下简称历史LTV)和历史留存数据。并针对留存数据和ARPU分别进行预测。

其中，对留存数据的预测可以参见下述步骤S103。对ARPU的预测可以参见下述步骤S105。

S103.对第一历史时间段内的历史留存数据进行拟合，得到目标群体在第一预设时间的目标留存数据。

在一个可行的实施例中，如图4所示，该S103可以包括：

S10301.基于预设拟合曲线对应的拟合方程，对第一历史时间段内的历史留存数据和第一历史时间段进行拟合，得到拟合方程对应的拟合参数。

S10303.基于拟合参数和拟合方程，确定目标群体在第一预设时间的目标留存数据。

在实际应用中，一个稳定运营的APP的实际情况是：当APP上线很久以后，会有一部分用户保持粘性，持续长久留存成为核心用户。到APP运营后期，这一部分用户将会大体稳定的保留下来，而不再快速流失。

由于传统的曲线对数外推法，采用幂函数曲线或指数函数曲线预测留存率，但这两函数形式存在一下问题：当时间拉长到远期，即t比较大的时候，函数值会持续快速下降，导致远期留存率的预测值会偏小。

为了避免远期留存数据的预测值偏小，从而提高远期留存数据预测的准确率。在一些实施例中，该预设拟合曲线可以采用艾宾浩斯遗忘曲线来拟合留存数据的衰减过程，可以认为，APP新用户的流失过程，与记忆的遗忘过程有很高的相似性。该艾宾浩斯遗忘曲线采用了如下拟合方程来拟合了重新学习过程的遗忘曲线：

其中，a、b为参数，R(t)表示随时间变化的留存率。

如果将艾宾浩斯遗忘曲线上的值，作为一个玩家在第t天，还能记起这个游戏并且上线了的概率，那么这位玩家今天是否会登录游戏，就拥有一个艾宾浩斯遗忘曲线决定的概率值；如果很多相似的玩家聚合到一个玩家群体中，那么可以假设在某一特定的日期，这些相似的玩家都有此相同的上线概率值。根据数学中的大数定律，当样本量很多的时候，频率约等于概率；相似行为的玩家越多，那么选择这一天上线的频率就越接近这个概率值，也就是上线的玩家占所有玩家的比重就越接近这个概率值。这个比重就是当日的用户留存率。

如果将同一个目标群体内的玩家都看作相似的玩家，那么基于上述判断，可以使用艾宾浩斯遗忘曲线直接对用户留存进行建模。相应地，如S10301所述，可以将第一历史时间段内的历史留存数据(比如1-14天的留存数据)和该第一历史时间段(比如1-14天)代入上述拟合方程，从而得到该拟合方程中的拟合参数a和b。如S10303所述，当需要预测第一预设时间的目标留存数据时，可以将该第一预设时间(比如160天或180天)和已知的拟合参数a、b，代入上述拟合公式，得到该第一预设时间的目标留存数据(即R(t))。

该第一预设时间可以是该目标群体注册该APP之后的远期的时间，该第一预设时间位于该第一历史时间段之后。比如，该第一历史时间段为1-14天，则该第一预设时间可以为180天或360天等。

图5所示为使用该艾宾浩斯遗忘曲线对某目标群体的留存数据进行预测得到的预测曲线与真实曲线的对比示意图。图5中的预测曲线使用虚线前(比如14日内)的数据。如图5所示，使用艾宾浩斯遗忘曲线对目标群体的留存数据进行预测，可以避免远期留存率的预测值偏小的问题，从而使得远期预测结果与真实结果相吻合，预测准确率较高。

在实际应用中，对于一些运营不佳的APP，留存率可能会出现突然的暴跌。为了避免留存率出现暴跌引起的留存率远期预测的误差，还可以设置监测留存率曲线形状的模块。即在一个可行的实施例中，如图6所示，该监测留存率曲线形状的过程可以包括：

S201.基于预设拟合曲线对应的拟合方程，对第一历史时间段内的历史留存数据进行拟合，得到目标群体在第三预设时间段内各个时间点的留存数据；第三预设时间段位于第一历史时间段和第一预设时间之间。

S203.绘制第三预设时间段内各个时间点的留存数据与相应的时间点之间的预测曲线。

S205.在预测曲线的形状与其他拟合曲线形状相匹配时，基于其他拟合曲线对目标群体在其他预设时间段内的留存数据进行预测，其他预设时间段位于第三预设时间段和第一预设时间之间。

在该实施例中，假设需要预测180天的留存率数据，则可以预先基于预设拟合曲线(比如艾宾浩斯遗忘曲线)对第一历史时间段(比如1-14天)内的历史留存数据进行拟合，确定近期(即第三预设时间段，比如30至60天)内每天的留存率数据。接着绘制近期(比如30至60天)内每天的留存率数据与相应的时间之间的预测曲线，如果发现近期(比如30至60天)的目标群体的留存率曲线并非与艾宾浩斯遗忘曲线相匹配，而是更接近于其他形状(比如衰减较快，可能近似于幂函数)，那么在接下来的预测中(比如60天到180天)，可以将留存率曲线的预估形状切换为相应形状(比如幂函数)，即在接下来的预测过程中，使用该幂函数曲线对应的拟合方程进行留存率的预测。

该监测留存率曲线形状的模块被设定为可以根据近期的数据不断动态调整留存数据曲线形状，以保证可以在该APP上线早期按照稳定运营的预期情况进行留存率预估(比如，按照艾宾浩斯遗忘曲线进行预估)，同时又可以感知到近期的APP运营状况，从而进一步提高留存数据预估的准确率。

S105.基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第一预设时间的目标平均资源贡献数据。

在实际应用中，随着该APP上线时间的增长，保持留存的玩家会逐渐成为核心玩家，付费行为和付费能力也会逐渐增长，因此，ARPU总体上是一个逐渐增长的过程。

由于是使用第一历史时间段(比如1-14天)的数据进行远期ARPU预测，在一些实施例中，可以将第一历史时间段(比如1-14天)内显现出较高消费能力的大玩家群体的ARPU值作为远期ARPU的预测值(即目标平均资源贡献数据，以下简称目标ARPU)。

假设对于同样的国家-系统平台，其通过不同渠道引进的玩家，在后期成为核心玩家后，可以认为不再显现渠道特性。即对于同样国家-系统平台的玩家，可以给予一个相同的目标ARPU估计值。

在该实施例中，对于某国家-系统平台，可以首先判断在近期(即第二预设时间，比如3个月)内是否存在至少一个候选群体。该候选群体所包含的用户数量大于第一预设数量阈值。比如，该候选群体可以为包含的用户数量大于m人以上的群体，m可以根据实际需要进行设置，一般情况下可以取500，在APP对应的游戏较小时，m可以取200。

其中，“某国家-系统平台”中的“国家”可以指的是该目标群体中的用户所位于的国家，该“系统平台”可以指的是该目标群体中的用户所使用的终端(该终端上安装有该APP)的系统平台(Android或IOS)。该“第二预设时间”可以为该目标群体注册该APP的注册日期之前近期(比如3个月)的时间，如果在该目标群体注册日期之前，该APP还未上线3个月(即该APP还不具有3个月的数据)，则该“第二预设时间”可以为该APP上线至该目标群体注册日期之间的数据。该候选群体与该目标群体位于相同的国家，且使用相同的系统平台，即该候选群体与该目标群体处于同一国家维度和系统平台维度。

需要说明的是，如果该目标群体的注册日期位于该第二预设时间内，且该目标群体所包含的用户数量大于第一预设数量阈值，则该候选群体包括该目标群体。

在一个可行的实施例中，当第二预设时间内不存在用户数量大于第一预设数量阈值的候选群体时，则执行步骤S105。

相应地，如图7所示，该S105可以包括：

S10501.基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第二历史时间段内的历史资源贡献数据和历史留存数据；第二历史时间段的结束时间与第一历史时间段的结束时间相同，第二历史时间段的起始时间为位于第一历史时间段内。

S10503.基于第二历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第二历史时间段内的历史平均资源贡献数据。

S10505.将第二历史时间段内的历史平均资源贡献数据，作为目标群体在第一预设时间的目标平均资源贡献数据。

在该实施例中，如果该国家-系统平台上没有符合条件的至少一个候选群体，则可以将该目标群体在第二历史时间段内的历史ARPU，作为该目标群体在第一预设时间的目标ARPU。

在一些实施例中，该第二历史时间段的结束时间可以与该第一历史时间段的结束时间相同，该第二历史时间段的起始时间可以为位于该第一历史时间段内。例如，该第一历史时间段为1-14天，则该第二历史时间段可以为7-14天。

如S10501所述，由于预先获取到了第一历史时间段(比如1-14天)的历史LTV和历史留存数据，则可以直接根据该第一历史时间段(比如1-14天)的历史LTV和历史留存数据，确定第二历史时间段(比如7-14天)的历史LTV和历史留存数据。如S10503所述，可以根据该第二历史时间段(比如7-14天)的历史LTV和历史留存数据，确定该第二历史时间段(比如7-14天)的历史ARPU，计算公式可以如下：

其中，t1为第二历史时间段的起始时间(比如7)，t2为第二历史时间段的结束时间(比如为14)，R_t1为第二历史时间段的起始时间(比如为7)的留存数据，R_t2为第二历史时间段的结束时间(比如为14)的留存数据，LTV_t1为第二历史时间段的起始时间(比如为7)的LTV，LTV _t2为第二历史时间段的结束时间(比如为14)的LTV。需要说明的是，LTV是一个资源累积的概念，第7天的LTV指的是1-7天内每天的LTV的累积(即LTV1+LTV2+…+LTV7)，第14天的LTV指的是第1-14天内每天的LTV的累积(即LTV1+LTV2+…+LTV14)。

如S10501所述，可以将该第二历史时间段(比如7-14天)的历史ARPU，作为该目标群体在第一预设时间的目标ARPU。

该实施例中通过上述计算公式计算某一历史时间段内的ARPU，能够避免目标群体人数较少导致的ARPU的波动较大，提高ARPU预测的准确率。

在另一个可行的实施例中，当第二预设时间内存在至少一个候选群体时，则执行以下步骤：S106：基于该至少一个候选群体，确定该目标群体在该第一预设时间的目标平均资源贡献数据。

如图8所示，该S106可以包括：

S10601.计算至少一个候选群体在各自对应的第三历史时间段内的历史候选资源贡献数据；第三历史时间段的时长与第一历史时间段的时长相等。

S10603.将至少一个候选群体按照相应的历史候选资源贡献数据进行降序排序，得到候选群体序列。

S10605.从候选群体序列中确定多个目标候选群体。

S10607.获取多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据和历史候选留存数据；第四历史时间段的时长与第二历史时间段的时长相等，第四历史时间段的结束时间与第三历史时间段的结束时间相同，第四历史时间段的起始时间为位于第三历史时间段内。

S10609.计算多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据的和，得到历史候选资源贡献数据总和。

S106011.计算多个目标候选群体在各自对应的第四历史时间段内的历史候选留存数据的和，得到历史候选留存数据总和。

S106013.基于历史候选资源贡献数据总和历史候选留存数据总和，确定目标群体在第一预设时间的目标平均资源贡献数据。

在该实施例中，如果该国家-系统平台上具有符合上述条件的至少一个候选群体，则可以将该至少一个候选群体按照各自对应的第三历史时间段内的历史LTV进行降序排序，得到候选群体序列。需要说明的是，该第三历史时间段为候选群体在该系统平台上注册该APP的注册日期之后的时间，其时长可以与第一历史时间段的时长相等。比如，该第一历史时间段为1-14天，则该第三历史时间段也为1-14天。

为了通过平均消除可能出现的极端异常值的影响，可以从该候选群体序列中取出前预设数量个候选群体(比如前5个)，并将该前预设数量个候选群体作为多个目标候选群体。接着计算这多个目标候选群体聚合在一起的第四历史时间段(比如7-14天)内的ARPU，并将该目标候选群体聚合在一起的第四历史时间段(比如7-14天)内的ARPU作为该国家-目标平台的远期ARPU，即该目标群体在一预设时间的目标ARPU。其中，第四历史时间段的时长与第二历史时间段的时长相等，比如，该第二历史时间段为7-14天，则该第四历史时间段也为7-14天。

假设该多个目标候选群体包括目标候选群体1、目标候选群体2和目标候选群体3，则计算该多个目标候选群体聚合在一起的第四历史时间段(比如7-14天)内的ARPU的过程可以如下：

获取目标候选群体1、目标候选群体2和目标候选群体3在各自对应的第四历史时间段(比如7-14天)内的历史LTV和历史候选留存数据，计算目标候选群体1、目标候选群体2和目标候选群体3在各自对应的第四历史时间段(比如7-14天)内的历史LTV的和，得到历史候选资源贡献数据总和，计算目标候选群体1、目标候选群体2和目标候选群体3在各自对应的第四历史时间段(比如7-14天)内的历史候选留存数据的和，得到历史候选留存数据总和。最后计算历史候选资源贡献数据总和与历史候选留存数据总和的商，得到该多个目标候选群体聚合在一起的第四历史时间段(比如7-14天)内的ARPU，即该目标群体在第一预设时间的目标ARPU。

该实施例中，限定该候选群体所包含的用户数量大于第一预设数量阈值的好处在于：当目标群体人数大于第一数量阈值时，其相关数据的随机性将减小，体现出来的数据数值一般不会是极端异常值，通过该候选群体计算出来的ARPU数值体现的“消费能力”将会是一个可信的指标，从而确保远期ARPU预测的准确性。

该实施例中，取候选群体序列中前预设数量个(比如前5个)序列的好处在于：排序在前的预设数量个候选群体拥有较大的第三历史时间段(比如1-14天)内的LTV，该排序在前的预设数量个目标群体能够该表该国家-系统平台上最愿意消费的一部分人。

该实施例中，计算多个目标候选群体聚合在一起的第四历史时间段(比如7-14天)内的ARPU，而非是第三历史时间段(比如1-14天)内的ARPU的好处在于：计算多个目标候选群体聚合在一起的第四历史时间段(比如7-14天)内的ARPU，能够体现最有消费能力的玩家群体的消费行为在早期的变化情况。如果7-14天ARPU相对1-7天ARPU很低，说明玩家群体在14日内的消费主要集中于第一周，而在第二周快速衰退，则据此可以预计远期的ARPU不会很高。相反地，如果玩家群体的消费行为从第一周到第二周是一个增长过程，即可以预期远期ARPU会相对较高。

在LTV的留存付费分解估计中，由于LTV是通过留存率和ARPU相乘值在时间上的累加来预计的，所以ARPU的增长过程也是十分重要的。在一个可行的实施例中，为了进一步提高LTV预测的准确率，还可以使用带有天花板的线性增长模型控制ARPU的增长过程。相应地，如图9所示，该方法还可以包括：

S301.基于目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体第五历史时间段内的历史资源贡献数据和历史留存数据；第五历史时间段的起始时间与第一历史时间段的起始时间相同，第五历史时间段的结束时间与第二历史时间段的起始时间相同。

S303.基于第五历史时间段内的历史资源贡献数据和历史留存数据，计算目标群体在第五历史时间段内的历史平均资源贡献数据。

S305.基于第五历史时间段内的历史平均资源贡献数据和第二历史时间段内的历史平均资源贡献数据，确定第一增长斜率。

S307.基于第二历史时间段内的历史平均资源贡献数据和目标平均资源贡献数据，确定第二增长斜率。

S309.将第一增长斜率和第二增长斜率进行降序排序，将排序最前的增长斜率作为目标增长斜率。

S3011.控制第二历史时间段内的历史平均资源贡献数据按照目标增长斜率，增长至目标平均资源贡献数据。

在该实施例中，对于一个目标群体，可以以第二历史时间段(比如7-14天)内的ARPU作为起始值，使用ARPU的远期预估值(即目标ARPU)作为终止值。中间的增长过程，可以使用带有天花板的线性增长模型。使用远期预估值(即目标ARPU)作为天花板，并可以规定ARPU的推演过程中不允许超过天花板，哪怕ARPU起始值已经超过了天花板。然后考察该目标群体在第五历史时间段(比如1-7天)和第二历史时间段(比如7-14天)的两个ARPU，计算两周之间的ARPU第一增长斜率slope1，如果小于0则令斜率等于0；接着计算ARPU从起始值到终止值(即目标ARPU)的第二增长斜率slope2，如果小于0则令斜率等于0。最后取第一增长斜率slope1和第二增长斜率slope2二者的最大值为目标增长斜率，使ARPU从起始值按照该目标增长斜率增长到天花板(即目标ARPU)。

图10所示为使用带有天花板的线性增长模型对目标群体的ARPU进行预测后得到的ARPU预测曲线和真实ARPU曲线的对比示意图。如图10所示，与真实ARPU曲线相比，ARPU预测曲线中的APRU值不超过天花板。

S107.基于第一预设时间的目标留存数据和目标平均资源贡献数据，确定目标群体在第一预设时间的目标资源贡献数据。

在一个可行的实施例中，在第一历史时间段的结束时间与第一预设时间之间包括多个预设时间点时，如图11所示，该S107可以包括：

S10701.对第一历史时间段内的历史留存数据进行拟合，得到目标群体在多个预设时间点的目标留存数据。

S10703.基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在多个预设时间点的目标平均资源贡献数据。

S10705.计算多个预设时间点的目标留存数据与相应的目标平均资源贡献数据的乘积，得到多个第一资源贡献乘积。

S10707.计算第一预设时间的目标留存数据和目标平均资源贡献数据的乘积，得到第二资源贡献乘积。

S10709.基于第一历史时间段内的历史资源贡献数据、多个第一资源贡献乘积和第二资源贡献乘积，确定目标群体在第一预设时间的目标资源贡献数据。

由于LTV是通过留存率和ARPU相乘值在时间上的累加来预测的，若该第一预设时间(比如第15天)为该第一历史时间段的结束时间(比如第14天)的相邻时间，则该第一预设时间(比如第15天)的目标LTV＝第一历史时间段(比如1-14天)的LTV+第一预设时间(比如第15天)的LTV。其中，第一预设时间(比如第15天)的LTV＝第一预设时间(比如第15天)的目标留存数据与相应的目标ARPU的乘积。

若该第一历史时间段的结束时间(比如第14天)与该第一预设时间(比如180天)之间包括多个预设时间点(比如第15天、第16天、…、第170天)，则该第一预设时间(比如180天)的目标LTV＝第一历史时间段(比如1-14天)的LTV+各个预设时间点的LTV+第一预设时间(比如第180天)的LTV。其中，各个预设时间点的LTV＝各个时间点的目标留存数据与相应的目标ARPU的乘积。

由于APP内的消费行为是以人为单位的行为，人与人之间具备可比性。而LTV的预测是基于每个玩家群体的，由于各群体内人数的悬殊差别，各群体的波动性、随机性等性质都体现出了极大的差异：人数多的群体相对稳定，预测效果较好；人数少的相对随机性更强，预测效果较差。但在实际应用中，很多时候要去处理人数较少的玩家群体，此时面对随机性较强的数据，本发明实施例中的上述LTV预测方法的准确率可能会受到影响。

在一个可行的实施例中，为了解决由于人数较少导致的LTV预测准确率受到影响的问题，可以在预测之前，预先对小群体按照预设方式聚合，使其随机性减少，并给出一个聚合的LTV预测值。该小群体聚合的方法不仅可以给出相对准确的预测，也可以防止极端预测值的出现。

相应地，当该目标群体由多个初始群体聚合而成时，在S101之前，该方法还可以包括：

获取目标初始群体，目标初始群体中的用户数量小于第二预设数量阈值。

确定目标初始群体中的用户的目标注册时间。

获取用户注册时间位于目标注册时间之前预设时间的其他初始群体。

将目标初始群体和其他初始群体进行聚合，得到目标群体。

在该实施例中，以某运营稳定的海外手机游戏APP为例，可以在某运营稳定的海外手机游戏APP中按照第二预设数量阈值(比如50人的阈值)进行大小群体的划分，将大于或等于50人的群体直接作为目标群体，将小于50人的群体作为小群体，即目标初始群体。接着可以对划分后的小群体进行时间尺度上的聚合，该时间尺度上的聚合方式可以如下：

对于该目标初始群体，可以获取与其属于同样国家-系统平台-渠道的不同注册日期的其他初始群体，例如，该目标初始群体的注册该APP的目标注册日期为2020年10月1号，则可以获取2020年9月28号至2020年10月1号，通过同样的国家-系统平台-渠道引入的其他初始群体。

最后该目标初始群和其他初始群体进行聚合，得到聚合后的目标群体，并按照上述方法进行统一建模预测。

由于通过上述小群体聚合操作之后，可能仍然会存在聚合后的群体中的用户数量不满足大群体的情况，为了避免小群体产生的较强的随机性带来的极端预测值，在一个可行的实施例中，在LTV预测完成之后，还可以对留存用户已经小于1人的群体进行调整。

相应地，在该目标群体为多个，则该方法还可以包括：

确定各个目标群体所包含的用户数量与相应的目标留存数据的留存乘积。

将留存乘积小于预设乘积阈值的目标群体所对应的目标留存数据，调整为零。

在该实施例中，可以计算各个目标群体所包含的用户数量与预测到的目标留存数据的乘积，如果该乘积小于1人，则可以令该目标群体对应的目标留存数据0。从而可以缓解小玩家群体中，期望留存玩家已经不足1人，却仍然累积LTV，最终产生极端预测值的情况，进而提高LTV预测的准确率和可信度。

在一个可行的实施例中，为了进一步提高LTV预测的准确率和可信度，还可以对目标群体的目标LTV预测结果进行自优化排除异常值。

相应地，目标群体为多个，则在S107之后，该方法还可以包括：

将各个目标群体按照各自对应的目标资源贡献数据进行降序排序，得到资源贡献数据序列。

确定资源贡献数据序列中排序第预设位的资源贡献数据。

将排序在排序第预设位的资源贡献数据之前的资源贡献数据，调整为排序第预设位的资源贡献数据。

在该实施例中，可以自置LTV预测值天花板，并在全部的目标群体均完成LTV预测之后，剔除极端预测值(基本上全部由于由小玩家群体带来)。

具体的做法可以如下：将各个目标群体各自对应的目标LTV进行降序排序，得到资源贡献数据序列，确定该资源贡献数据序列中从上到下排序第预设位的资源贡献数据(比如排序第1％大的数据)，将该资源贡献数据序列中，排序在该排序第预设位的资源贡献数据之前的数据(比如前1％大的数据)，全部调整为该排序第预设位的资源贡献数据(比如排序第1％大的数据)。假设有500个目标群体，则相应有500个目标资源贡献数据，则第1％大的资源贡献数据为排序第5位的数据，排序第1-4位的资源贡献数据为前1％大的资源贡献数据，则将排序第1-4位的资源贡献数据全部调整为排序第5位的资源贡献数据。

如图12所示为使用自置的LTV预测值天花板剔除极端预测值的示意图。图12中的横坐标表示LTV真实值，纵坐标表示LTV预测值，每个点均代表一个目标群体，虚线方框中的点代表排序在该排序第预设位的资源贡献数据之前的资源贡献数据(即极端预测值，比如前1％大的资源贡献数据)，则将该排序第预设位的资源贡献数据之前的资源贡献数据(即极端预测值，比如前1％大的资源贡献数据)，全部调整为排序第预设位的资源贡献数据(比如第1％大的资源贡献数据)。

以下，以将本发明实施例应用于一款运营稳定的海外手机游戏APP为例，介绍本发明实施例所取得的有益效果：

对于一款运营稳定的海外手机游戏APP，图13所示为目标群体人数在3000人以上时，传统对数曲线外推法的LTV预测效果，图14所示为目标群体人群在3000人以上时，使用本发明实施例中的预测方法的LTV预测效果。其中，图13和图14中的thres指的是该阈值人数以上目标群体的预测结果，User-Proportion指的是该群体中的用户占所有用户的比例，Cohort-Proportion指的是该群体占所有群体的比例。对比图13和图14发现，本发明实施例中的预测方法对应的MAE和MAPE要远低于传统对数曲线外推法，由此可以说明本发明实施例中的LTV的预测效果相比传统对数曲线外推法的预测效果，提升十分显著，预测准确较高。

由于本发明实施例提供的LTV预测可以应用在人数较少的用户群体LTV预测任务中，从而极大地拓展了方案技术的应用场景和范围。总体的预测效果可以如图15、图16和图17所示。需要说明的是如图15、图16和图17中利用的均是前14日的数据。

图15所示为不同人数的目标群体的LTV预测结果。图16所示为不同人数的目标群体的预测效果展(MAPE指标)。图17所示为不同人数的目标群体的预测效果展(MAE指标)。从图15、图16和图17可以看出，本发明实施例提供的预测方法在人数较少的用户群体中也能够取得较好的预测效果。

如图18所示，本发明实施例还提供了一种数据处理装置，该装置可以包括：

获取模块401，可以用于获取目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据。

拟合模块403，可以用于对第一历史时间段内的历史留存数据进行拟合，得到目标群体在第一预设时间的目标留存数据。

在一个可行的实施例中，该拟合模块403可以包括：

拟合参数确定单元，可以用于基于预设拟合曲线对应的拟合方程，对第一历史时间段内的历史留存数据和第一历史时间段进行拟合，得到拟合方程对应的拟合参数。

目标留存数据确定单元，可以用于基于拟合参数和拟合方程，确定目标群体在第一预设时间的目标留存数据。

在一些实施例中，该装置还可以包括：

各个时间点的留存数据获取模块，可以用于基于预设拟合曲线对应的拟合方程，对第一历史时间段内的历史留存数据进行拟合，得到目标群体在第三预设时间段内各个时间点的留存数据；第三预设时间段位于第一历史时间段和第一预设时间之间。

绘制模块，可以用于绘制第三预设时间段内各个时间点的留存数据与相应的时间点之间的预测曲线。

预测模块，可以用于在预测曲线的形状与其他拟合曲线形状相匹配时，基于其他拟合曲线对目标群体在其他预设时间段内的留存数据进行预测，其他预设时间段位于第三预设时间段和第一预设时间之间。

第一确定模块405，可以用于基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第一预设时间的目标平均资源贡献数据。

在一个可行的实施例中，当第二预设时间内不存在用户数量大于第一预设数量阈值的候选群体时，则第一确定模块405可以包括：

第二历史数据确定单元，可以用于基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第二历史时间段内的历史资源贡献数据和历史留存数据；第二历史时间段的结束时间与第一历史时间段的结束时间相同，第二历史时间段的起始时间为位于第一历史时间段内。

第二历史平均资源贡献数据确定单元，可以用于基于第二历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第二历史时间段内的历史平均资源贡献数据。

第一目标平均资源贡献数据确定单元，可以用于将第二历史时间段内的历史平均资源贡献数据，作为目标群体在第一预设时间的目标平均资源贡献数据。

在另一个可行的实施例中，当第二预设时间内存在至少一个候选群体时，该装置还可以包括：

第三历史数据确定模块，可以用于计算至少一个候选群体在各自对应的第三历史时间段内的历史候选资源贡献数据；该第三历史时间段的时长与该第一历史时间段的时长相等。

候选群体序列确定模块，可以用于将至少一个候选群体按照相应的历史候选资源贡献数据进行降序排序，得到候选群体序列。

目标候选群体确定模块，可以用于从候选群体序列中确定多个目标候选群体。

第四历史数据确定模块，可以用于获取多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据和历史候选留存数据；该第四历史时间段的时长与该第二历史时间段的时长相等，该第四历史时间段的结束时间与该第三历史时间段的结束时间相同，该第四历史时间段的起始时间为位于该第三历史时间段内。

资源贡献数据总和确定模块，可以用于计算多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据的和，得到历史候选资源贡献数据总和。

留存数据总和确定模块，可以用于计算多个目标候选群体在各自对应的第四历史时间段内的历史候选留存数据的和，得到历史候选留存数据总和。

第二目标平均资源贡献数据确定模块，可以用于基于历史候选资源贡献数据总和历史候选留存数据总和，确定目标群体在第一预设时间的目标平均资源贡献数据。

在一些实施例中，该装置还可以包括：

第五历史数据确定模块，可以用于基于目标群体在第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体第五历史时间段内的历史资源贡献数据和历史留存数据；该第五历史时间段的起始时间与该第一历史时间段的起始时间相同，该第五历史时间段的结束时间与该第二历史时间段的起始时间相同。

第五历史平均资源贡献数据确定模块，可以用于基于第五历史时间段内的历史资源贡献数据和历史留存数据，计算目标群体在第五历史时间段内的历史平均资源贡献数据。

第一增长斜率确定模块，可以用于基于第五历史时间段内的历史平均资源贡献数据和第二历史时间段内的历史平均资源贡献数据，确定第一增长斜率。

第二增长斜率确定模块，可以用于基于第二历史时间段内的历史平均资源贡献数据和目标平均资源贡献数据，确定第二增长斜率。

目标增长斜率确定模块，可以用于将第一增长斜率和第二增长斜率进行降序排序，将排序最前的增长斜率作为目标增长斜率。

控制模块，可以用于控制第二历史时间段内的历史平均资源贡献数据按照目标增长斜率，增长至目标平均资源贡献数据。

第二确定模块407，可以用于基于第一预设时间的目标留存数据和目标平均资源贡献数据，确定目标群体在第一预设时间的目标资源贡献数据。

在第一历史时间段的结束时间与第一预设时间之间包括多个预设时间点时，该第二确定模块407还可以包括：

第二拟合模块，可以用于对第一历史时间段内的历史留存数据进行拟合，得到目标群体在多个预设时间点的目标留存数据。

第三确定模块，可以用于基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在多个预设时间点的目标平均资源贡献数据。

第一资源贡献乘积获取模块，可以用于计算多个预设时间点的目标留存数据与相应的目标平均资源贡献数据的乘积，得到多个第一资源贡献乘积。

第二资源贡献乘积获取模块，可以用于计算第一预设时间的目标留存数据和目标平均资源贡献数据的乘积，得到第二资源贡献乘积。

第四确定模块，可以用于基于第一历史时间段内的历史资源贡献数据、多个第一资源贡献乘积和第二资源贡献乘积，确定目标群体在第一预设时间的目标资源贡献数据。

在一些实施例中，当该目标群体由多个初始群体聚合而成时，该装置还可以包括：

目标初始群体获取模块，可以用于获取目标初始群体，目标初始群体中的用户数量小于第二预设数量阈值。

目标注册时间确定模块，可以用于确定目标初始群体中的用户的目标注册时间。

其他初始群体获取模块，可以用于获取用户注册时间位于目标注册时间之前预设时间的其他初始群体。

目标群体确定模块，可以用于将目标初始群体和其他初始群体进行聚合，得到目标群体。

在一些实施例中，该目标群体为多个，则该装置还可以包括：

留存乘积确定模块，可以用于确定各个目标群体所包含的用户数量与相应的目标留存数据的留存乘积。

留存数据调整模块，可以用于将留存乘积小于预设乘积阈值的目标群体所对应的目标留存数据，调整为零。

在一些实施例中，该装置还可以包括：

资源贡献数据序列获取模块，可以用于将各个目标群体按照各自对应的目标资源贡献数据进行降序排序，得到资源贡献数据序列。

第预设位数据确定模块，可以用于确定资源贡献数据序列中排序第预设位的资源贡献数据。

资源贡献数据调整模块，可以用于将排序在该排序第预设位的资源贡献数据之前的资源贡献数据，调整为该排序第预设位的资源贡献数据。

需要说明的是，本发明实施例提供的装置实施例与上述方法实施例基于相同的发明构思。

本发明实施例还提供了一种数据处理的电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的数据处理方法。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种数据处理方法相关的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的数据处理方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例提供的一种数据处理方法、装置及存储介质，具有如下有益效果：

1)本发明实施例使用该APP上线早期内的群体LTV数据和留存率数据，针对留存数据和ARPU分别提出了经过优化的远期预测方案，从而达到了较好的群体LTV预测效果，使预测结果更加贴合业务实际预测需求。

2)可以使用艾宾浩斯遗忘曲线对目标群体的留存数据进行预测，从而避免远期留存率的预测值偏小的问题，从而使得远期预测结果与真实结果相吻合，预测准确率较高。

3)为了避免留存率出现暴跌引起的留存率远期预测的误差，还可以设置监测留存率曲线形状的模块。该监测留存率曲线形状的模块被设定为可以根据近期的数据不断动态调整留存数据曲线形状，以保证可以在该APP上线早期按照稳定运营的预期情况进行留存率预估(比如，按照艾宾浩斯遗忘曲线进行预估)，同时又可以感知到近期的APP运营状况。

4)为了解决由于人数较少导致的LTV预测准确率较低的问题，可以在预测之前，预先对小群体按照预设方式聚合，使其随机性减少，并给出一个聚合的LTV预测值。该小群体聚合的方法不仅可以给出相对准确的预测，也可以防止极端预测值的出现。

5)还可以计算各个目标群体所包含的用户数量与预测到的目标留存数据的乘积，如果该乘积小于1人，则可以令该目标群体对应的目标留存数据0。从而可以缓解小玩家群体中，期望留存玩家已经不足1人，却仍然累积LTV，最终产生极端预测值的情况，进而提高LTV预测的准确率和可信度。

6)为了进一步提高LTV预测的准确率和可信度，还可以对目标群体的目标LTV预测结果进行自优化排除异常值。

本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的数据处理方法。

本发明实施例所提供的数据处理方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图19是本发明实施例提供的一种数据处理方法的服务器的硬件结构框图。如图19所示，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)510(中央处理器510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器530，一个或一个以上存储应用程序523或数据522的存储介质520(例如一个或一个以上海量存储设备)。其中，存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器510可以设置为与存储介质520通信，在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口540，和/或，一个或一个以上操作系统521，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中，输入输出接口540包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口540可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图19所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器500还可包括比图19中所示更多或者更少的组件，或者具有与图19所示不同的配置。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

当第二预设时间内不存在用户数量大于第一预设数量阈值的候选群体时，基于所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在第二历史时间段内的历史资源贡献数据和历史留存数据；所述第二历史时间段的结束时间与所述第一历史时间段的结束时间相同，所述第二历史时间段的起始时间为位于所述第一历史时间段内；基于所述第二历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在所述第二历史时间段内的历史平均资源贡献数据；将所述第二历史时间段内的历史平均资源贡献数据，作为所述目标群体在所述第一预设时间的目标平均资源贡献数据；所述候选群体与所述目标群体处于同一国家维度和系统平台维度；

当所述第二预设时间内存在至少一个所述候选群体时，计算至少一个所述候选群体在各自对应的第三历史时间段内的历史候选资源贡献数据；所述第三历史时间段的时长与所述第一历史时间段的时长相等；将至少一个所述候选群体按照相应的历史候选资源贡献数据进行降序排序，得到候选群体序列；从所述候选群体序列中确定多个目标候选群体；获取所述多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据和历史候选留存数据；所述第四历史时间段的时长与所述第二历史时间段的时长相等，所述第四历史时间段的结束时间与所述第三历史时间段的结束时间相同，所述第四历史时间段的起始时间为位于所述第三历史时间段内；计算所述多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据的和，得到历史候选资源贡献数据总和；计算所述多个目标候选群体在各自对应的第四历史时间段内的历史候选留存数据的和，得到历史候选留存数据总和；基于所述历史候选资源贡献数据总和所述历史候选留存数据总和，确定所述目标群体在所述第一预设时间的目标平均资源贡献数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标群体在所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体第五历史时间段内的历史资源贡献数据和历史留存数据；所述第五历史时间段的起始时间与所述第一历史时间段的起始时间相同，所述第五历史时间段的结束时间与所述第二历史时间段的起始时间相同；

基于所述第五历史时间段内的历史资源贡献数据和历史留存数据，计算所述目标群体在所述第五历史时间段内的历史平均资源贡献数据；

基于所述第五历史时间段内的历史平均资源贡献数据和所述第二历史时间段内的历史平均资源贡献数据，确定第一增长斜率；

基于所述第二历史时间段内的历史平均资源贡献数据和所述目标平均资源贡献数据，确定第二增长斜率；

将所述第一增长斜率和所述第二增长斜率进行降序排序，将排序最前的增长斜率作为目标增长斜率；

控制所述第二历史时间段内的历史平均资源贡献数据按照所述目标增长斜率，增长至所述目标平均资源贡献数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一历史时间段内的历史留存数据进行拟合，得到所述目标群体在第一预设时间的目标留存数据，包括：

基于预设拟合曲线对应的拟合方程，对所述第一历史时间段内的历史留存数据和所述第一历史时间段进行拟合，得到所述拟合方程对应的拟合参数；

基于所述拟合参数和所述拟合方程，确定所述目标群体在所述第一预设时间的目标留存数据。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述预设拟合曲线对应的拟合方程，对所述第一历史时间段内的历史留存数据进行拟合，得到所述目标群体在第三预设时间段内各个时间点的留存数据；所述第三预设时间段位于所述第一历史时间段和所述第一预设时间之间；

绘制所述第三预设时间段内各个时间点的留存数据与相应的时间点之间的预测曲线；

在所述预测曲线的形状与其他拟合曲线形状相匹配时，基于所述其他拟合曲线对所述目标群体在其他预设时间段内的留存数据进行预测，所述其他预设时间段位于所述第三预设时间段和所述第一预设时间之间。

5.根据权利要求1所述的方法，其特征在于，所述目标群体为多个，则在所述基于所述第一预设时间的目标留存数据和目标平均资源贡献数据，确定所述目标群体在所述第一预设时间的目标资源贡献数据之后，所述方法还包括：

将各个目标群体按照各自对应的目标资源贡献数据进行降序排序，得到资源贡献数据序列；

确定所述资源贡献数据序列中排序第预设位的资源贡献数据；

将排序在所述排序第预设位的资源贡献数据之前的资源贡献数据，调整为所述排序第预设位的资源贡献数据。

6.根据权利要求1所述的方法，其特征在于，在所述第一历史时间段的结束时间与所述第一预设时间之间包括多个预设时间点时，所述基于所述第一预设时间的目标留存数据和目标平均资源贡献数据，确定所述目标群体在所述第一预设时间的目标资源贡献数据，包括：

对所述第一历史时间段内的历史留存数据进行拟合，得到所述目标群体在所述多个预设时间点的目标留存数据；

基于所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在所述多个预设时间点的目标平均资源贡献数据；

计算所述多个预设时间点的目标留存数据与相应的目标平均资源贡献数据的乘积，得到多个第一资源贡献乘积；

计算所述第一预设时间的目标留存数据和目标平均资源贡献数据的乘积，得到第二资源贡献乘积；

基于所述第一历史时间段内的历史资源贡献数据、所述多个第一资源贡献乘积和所述第二资源贡献乘积，确定所述目标群体在所述第一预设时间的目标资源贡献数据。

7.一种数据处理装置，其特征在于，所述装置包括：

当第二预设时间内不存在用户数量大于第一预设数量阈值的候选群体时，所述装置还包括：第一确定模块，用于基于所述第一历史时间段内的历史资源贡献数据和历史留存数据，确定所述目标群体在所述第一预设时间的目标平均资源贡献数据；所述第一确定模块包括：第二历史数据确定单元，用于基于第一历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第二历史时间段内的历史资源贡献数据和历史留存数据；第二历史时间段的结束时间与第一历史时间段的结束时间相同，第二历史时间段的起始时间为位于第一历史时间段内；第二历史平均资源贡献数据确定单元，用于基于第二历史时间段内的历史资源贡献数据和历史留存数据，确定目标群体在第二历史时间段内的历史平均资源贡献数据；第一目标平均资源贡献数据确定单元，用于将第二历史时间段内的历史平均资源贡献数据，作为目标群体在第一预设时间的目标平均资源贡献数据；当第二预设时间内存在至少一个候选群体，所述装置还包括：第三历史数据确定模块，用于计算至少一个候选群体在各自对应的第三历史时间段内的历史候选资源贡献数据；该第三历史时间段的时长与该第一历史时间段的时长相等；候选群体序列确定模块，用于将至少一个候选群体按照相应的历史候选资源贡献数据进行降序排序，得到候选群体序列；目标候选群体确定模块，用于从候选群体序列中确定多个目标候选群体；第四历史数据确定模块，用于获取多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据和历史候选留存数据；该第四历史时间段的时长与该第二历史时间段的时长相等，该第四历史时间段的结束时间与该第三历史时间段的结束时间相同，该第四历史时间段的起始时间为位于该第三历史时间段内；资源贡献数据总和确定模块，用于计算多个目标候选群体在各自对应的第四历史时间段内的历史候选资源贡献数据的和，得到历史候选资源贡献数据总和；留存数据总和确定模块，用于计算多个目标候选群体在各自对应的第四历史时间段内的历史候选留存数据的和，得到历史候选留存数据总和；第二目标平均资源贡献数据确定模块，用于基于历史候选资源贡献数据总和历史候选留存数据总和，确定目标群体在第一预设时间的目标平均资源贡献数据；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一所述的数据处理方法。