CN112884503A

CN112884503A - 一种用户规模预测方法、装置、设备和介质

Info

Publication number: CN112884503A
Application number: CN202110079303.7A
Authority: CN
Inventors: 彭一晋
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-06-01

Abstract

本发明公开了一种用户规模预测方法、装置、设备和介质，由于该方法在预测用户规模时，是根据每个时间段的新增用户在预测时间段的留存用户数量来确定的，相比于现有的基于统计学模型预测用户规模的方法，由于现有技术中的统计学模型的方法与实际的整体的用户规模增长情况不匹配，而本发明实施例中的方法不是针对整体的用户规模增长进行预测，而是针对每个时间段的新增用户预测留存用户数量，从而降低了预测的误差，可以准确地确定出预测时间段的用户数量，提高了预测精度。

Description

一种用户规模预测方法、装置、设备和介质

技术领域

本发明涉及预测技术领域，尤其涉及一种用户规模预测方法、装置、设备和介质。

背景技术

社会的快速发展使得公司的发展也非常迅速,每一家快速发展的公司的产品的用户规模都在不断增长，不断增多的用户带来了一系列公司运营层面上的挑战，产品运营预算、营收规模、机器支出成本等都需要提前做出运筹规划，因此需要提前对未来的公司产品的用户规模做出较为准确的预测。

为了实现未来的公司产品的用户规模的预测，现有技术中一般都是使用预测人口规模的统计学模型，包括一元线性模型、回归分析模型(Logistic)和参数预测模型GM(1,1)，现有技术中都是基于历史数据确定出上述统计学模型中的参数，并根据确定出参数的统计学模型，预测未来某个时间的用户规模。

现有的一元线性模型较为简单直观，但也导致在预测用户规模时的误差大，无法反映用户规模增长速度的变化；而现有的回归分析模型能够反映用户规模增长速度的变化和用户规模的最大数量，但该回归分析模型中会出现指数式的增长，在实际情况时的用户规模的增长极少出现指数式的增长，因此该回归分析模型的误差较大；而现有的参数预测模型在处理较少的特征值数据时，不需要数据的样本空间足够大，就能根据无规律的原始数据生成得到规律较强的生成序列，从而解决了历史数据少、序列的完整性以及可靠性低的问题，但是该参数预测模型只适合近似于指数增长的预测，而在实际情况时的用户规模的增长极少出现指数式的增长，因此该参数预测模型的误差较大。

因此该传统的统计学模型在预测用户规模时普遍存在预测精度低，误差大的问题。

发明内容

本发明实施例提供了一种用户规模预测方法、装置、设备和介质，用以解决现有技术中在预测用户规模时普遍存在预测精度低，误差大的问题。

本发明实施例提供了一种用户规模预测方法，所述方法包括：

确定留存用户数量向量，其中所述留存用户数量向量中包括初始时间段至当前时间段中以第一预设时长划分的每个第一时间段的新增用户在预测时间段的留存用户数量；

基于预先训练完成的新增用户数量预测模型，根据输入的时间向量，确定新增用户数量向量，其中所述时间向量中包括所述当前时间段至所述预测时间段中以第二预设时长划分的每个第二时间段，所述新增用户数量向量中包括所述每个第二时间段对应的新增用户的数量；

基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量，其中所述参数向量为所述时间向量或所述每个第二时间段与所述预测时间段的第一间隔时间段数量向量，所述留存率向量中包括所述每个第二时间段的新增用户在所述预测时间段的留存率；

根据所述新增用户数量向量和所述留存率向量，更新留存用户数量向量，并根据更新后的留存用户数量向量，确定所述预测时间段的用户规模。

相应地，本发明实施例提供了一种用户规模预测装置，所述装置包括：

第一确定模块，用于确定留存用户数量向量，其中所述留存用户数量向量中包括初始时间段至当前时间段中以第一预设时长划分的每个第一时间段的新增用户在预测时间段的留存用户数量；

第一预测模块，用于基于预先训练完成的新增用户数量预测模型，根据输入的时间向量，确定新增用户数量向量，其中所述时间向量中包括所述当前时间段至所述预测时间段中以第二预设时长划分每个第二时间段，所述新增用户数量向量中包括所述每个第二时间段对应的新增用户的数量；

第二预测模块，用于基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量，其中所述参数向量为所述时间向量或所述每个第二时间段与所述预测时间段的第一间隔时间段数量向量，所述留存率向量中包括所述每个第二时间段的新增用户在所述预测时间段的留存率；

第二确定模块，用于根据所述新增用户数量向量和所述留存率向量，更新留存用户数量向量，并根据更新后的留存用户数量向量，确定所述预测时间段的用户规模。

相应地，本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于执行存储器中存储的计算机程序时实现上述用户规模预测方法中任一所述方法的步骤。

相应地，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述用户规模预测方法中任一所述方法的步骤。

本发明实施例提供了一种用户规模预测方法、装置、设备和介质，由于该方法中确定初始时间段至当前时间段中以第一预设时长划分的每个第一时间段的新增用户在预测时间段的留存用户数量构成的留存用户数量向量，并基于预先训练完成的新增用户数量预测模型，根据输入的时间向量，确定当前时间段至预测时间段中以第二预设时长划分每个第二时间段新增用户数量向量，并基于预先训练完成的留存率预测模型，根据输入的每个第二时间段的参数向量，确定每个第二时间段的新增用户在预测时间段的留存率向量，根据新增用户数量向量和留存率向量，更新留存用户数量向量，并根据更新后的留存用户数量向量，确定预测时间段的用户规模。本发明实施例中的方法不是针对整体的用户规模增长进行预测，而是针对每个时间段的新增用户预测留存用户数量，从而降低了预测的误差，可以准确地确定出预测时间段的用户数量，提高了预测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用户规模预测方法的过程示意图；

图2为本发明实施例提供的一种时间序列分析模型的确定方法；

图3为本发明实施例提供的概率模型的留存率值的随间隔时间段数量增大的变化示意图；

图4为本发明实施例提供的一种用户规模预测装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了提高预测用户规模的预测精度，本发明实施例提供了一种用户规模预测方法、装置、设备和介质。

实施例1：

图1为本发明实施例提供的一种用户规模预测方法的过程示意图，该过程包括以下步骤：

S101：确定留存用户数量向量，其中所述留存用户数量向量中包括初始时间段至当前时间段中以第一预设时长划分的每个第一时间段的新增用户在预测时间段的留存用户数量。

本发明实施例提供的用户规模预测方法应用于电子设备，该电子设备可以是智能手机、平板电脑、PC等智能终端设备；也可以是本地服务器、云端服务器等设备，具体的本发明实施例对此不做限制。

为了确定出预测时间段的用户规模，在本发明实施例中，该电子设备可以确定出从初始时间段至当前时间段中以第一预设时长划分每个第一时间段的新增用户在该预测时间段的留存用户向量。

具体的，该电子设备预先保存有从初始时间段至当前时间段中以第一预设时长划分得到的每个第一时间段的新增用户的数量，其中该第一预设时长可以是一个小时、一天、一周、或者是一个月等，本发明实施例对此不做限制，较佳的，在本发明实施例中，该第一预设时长为一天。

根据预先保存的初始时间段至当前时间段中以第一预设时长划分得到的每个第一时间段的新增用户的数量，该电子设备确定出每个第一时间段的新增用户在预测时间段的留存用户数量，并根据每个第一时间段对应的留存用户数量，确定留存用户向量。

具体的，该电子设备根据预先训练完成的留存率预测模型，确定出每个第一时间段与预测时间段的间隔时间段数量对应的留存率，即每个第一时间段的新增用户在预测时间段的留存率，并将该留存率与对应的第一时间段的新增用户的数量的乘积值，确定为该第一时间段对应的留存用户数量，根据每个第一时间段的留存用户数量确定留存用户向量。

例如以第一预设时长划分为1天，该初始时间段为1号，当前时间段为15号，预测时间段为30号，该第一时间段为1号、2号、3号、……、15号中的任一天，该电子设备预先保存有1号、2号、3号、……、15号中每一天的新增用户数量，根据预先训练完成的留存率预测模型，确定出1号的新增用户在30号的29天留存率、2号的新增用户在30号的28天留存率、……直至15号的新增用户在30号的15天留存率。

根据1号的新增用户数量与对应的29天留存率的乘积值，确定出1号的新增用户在30号的留存用户数量，根据2号的新增用户数量与对应的28天留存率的乘积值，确定出2号的新增用户在30号的留存用户数量，……直至根据15号的新增用户数量与对应的15天留存率的乘积值，确定出15号的新增用户在30号的留存用户数量；根据1号至15号中每一天的留存用户数量确定留存用户数量向量。

S102：基于预先训练完成的新增用户数量预测模型，根据输入的时间向量，确定新增用户数量向量，其中所述时间向量中包括所述当前时间段至所述预测时间段中以第二预设时长划分每个第二时间段，所述新增用户数量向量中包括所述每个第二时间段对应的新增用户的数量。

由于在当前时间段至预测时间段以第二预设时长划分得到的每个第二时间段内，均会存在新增用户，因此为了预测出预测时间段的用户规模，该电子设备还保存有预先训练完成的新增用户数量预测模型。

其中，该新增用户数量预测模型是预先训练完成的用于预测未来一段时间内每个时间段的新增用户数量。根据该新增用户数量预测模型，将时间向量输入到该新增用户数量预测模型中，确定该时间向量中包括的当前时间段至预测时间段中以第二预设时长划分得到的每个第二时间段对应的新增用户的数量。

其中该第二预设时长与该第一预设时长划分可以相同，也可以不同，该第二预设时长可以是一个小时、一天、一周、或者是一个月等，本发明实施例对此不做限制，较佳的，在本发明实施例中，该第二预设时长与该第二预设时长相同，即该第二预设时长也为一天。

S103：基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量，其中所述参数向量为所述时间向量或所述每个第二时间段与所述预测时间段的第一间隔时间段数量向量，所述留存率向量中包括所述每个第二时间段的新增用户在所述预测时间段的留存率。

该电子设备在预测出当前时间段至预测时间段中每个第二时间段对应的新增用户的数量后，为了确定出每个第二时间段的新增用户在预测时间段的留存用户数量，该电子设备还可以确定出每个第二时间段的新增用户在预测时间段的留存率。

为了确定出每个第二时间段的新增用户在预测时间段的留存率，该电子设备保存有预先训练完成的留存率预测模型，其中，该留存率预测模型是预先训练完成的用于预测每个第二时间段的新增用户在预测时间段的留存率。根据该留存率预测模型，将每个第二时间段的对应的每个参数向量输入到该留存率预测模型中，确定每个第二时间段的新增用户在预测时间段的留存率。

其中，由于该留存率预测模型可以是用于预测间隔时间段数量对应的未来某个第二时间段的留存率，因此输入该留存率预测模型的参数向量可以是时间向量，该时间向量中包括当前时间段至预测时间段中每个第二时间段；该留存率预测模型还可以是用于预测未来的第二时间段对应的某个间隔时间段数量的留存率，因此输入该留存率预测模型的参数向量还可以是每个第二时间段与预测时间段的第一间隔时间段数量向量。其中该第一间隔时间段数量是指该进行预测的第二时间段与预测时间段之间间隔的时间段数量。

例如第一预设时长为1天，第二预设时长为1天，该初始时间段为1号，当前时间段为15号，预测时间段为30号，该第一时间段为1号、2号、3号……、15号中的任一天，该第二时间段为16号、17号、18号、……、29号中的任一天，该留存率预测模型为用于预测第二时间段与预测时间段的间隔时间段数量1天对应的29号的1天留存率时，输入该留存率预测模型的是该29号的时间向量，其中该29号的时间向量是表示该29号的年月日共同确定出的时间向量。

该留存率预测模型为用于预测间隔时间段数量2天对应的28号的2天留存率时，输入该留存率预测模型的是该28号的时间向量，其中该28号的时间向量是表示该28号的年月日共同确定出的时间向量。

该留存率预测模型为预测未来16号对应的14天留存率时，输入该留存率预测模型的是该16号与该预测时间段30号的间隔时间段数量14天的数量向量，其中该14天的数量向量是14。

该留存率预测模型为预测未来17号对应的13天留存率时，输入该留存率预测模型的是该17号与该预测时间段30号的间隔时间段数量13天的数量向量，其中该13天的数量向量是13。

S104：根据所述新增用户数量向量和所述留存率向量，更新留存用户数量向量，并根据更新后的留存用户数量向量，确定所述预测时间段的用户规模。

该电子设备确定出每个第二时间段的新增用户数量向量和留存率向量后，为了确定出预测时间段的留存用户规模，该电子设备还对留存用户数量向量进行更新。

具体的，该电子设备根据每个第二时间段的新增用户数量向量和留存率向量，确定出每个第二时间段的新增用户在预测时间段的留存用户数量，并根据每个第二时间段的新增用户在预测时间段的留存用户数量对留存用户数量向量进行更新。

具体的，该预先保存的留存用户数量向量中包括每个第一时间段的新增用户在预测时间段的留存用户数量，对该留存用户数量向量进行更新即在该第一时间段对应的留存用户数量之后添加该第二时间段对应的留存用户数量，更新后的留存用户数量向量包括第一时间段和第二时间段的新增用户在预测时间段的留存用户数量。

根据更新后的留存用户数量向量，该电子设备根据该更新后的留存用户数量向量中包括的每个第一时间段以及每个第二时间段的新增用户在预测时间段的留存用户数量，确定出该预测时间段的用户规模。

由于本发明实施例中该方法在预测用户规模时，是根据每个时间段的新增用户在预测时间段的留存用户数量来确定的，相比于现有的基于统计学模型预测用户规模的方法，由于现有技术中的统计学模型的方法与实际的整体的用户规模增长情况不匹配，而本发明实施例中的方法不是针对整体的用户规模增长进行预测，而是针对每个时间段的新增用户预测留存用户数量，从而降低了预测的误差，可以准确地确定出预测时间段的用户数量，提高了预测精度。

实施例2：

为了确定留存率向量，在上述实施例的基础上，在本发明实施例中，所述基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量之前，所述方法还包括：

确定所述每个第二时间段与所述预测时间段之间间隔时间段的每个第一数量和所述当前时间段与所述初始时间段之间间隔时间段的第二数量与设定数量的差值；

所述基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量包括：

根据所述每个第一数量确定不大于所述差值的每个第一目标数量，针对所述每个第一目标数量，基于该第一目标数量对应的第一留存率预测模型，根据输入的该第一目标数量对应的第二时间段的时间向量，确定该第一目标数量对应的第一留存率；根据每个第一目标数量对应的每个第一留存率，确定留存率向量；

根据所述每个第一数量确定大于所述差值的每个第二目标数量，针对每个第二目标数量对应的每个第二时间段，基于该第二时间段对应的第二留存率预测模型，根据输入的该第二时间段对应的间隔时间段数量向量，确定该第二时间段对应的第二留存率；根据每个第二时间段对应的每个第二留存率，确定留存率向量。

为了确定出每个第二时间段的留存率向量，在本发明实施例中，该留存率预测模型为预测间隔时间段数量对应的未来某个第二时间段的留存率的模型时，该留存率预测模型可预测的留存率对应的间隔时间段数量较小；而该留存率预测模型为预测未来的某个第二时间段对应的某个间隔时间段数量的留存率时，该留存率预测模型可预测的留存率对应的间隔时间段数量较大，因此为了确定出具体采用哪种留存率预测模型进行预测，该电子设备还确定出当前时间段与初始时间段的间隔时间段的第二数量与设定数量的差值，其中该设定数量是预先设置的。

该电子设备确定每个第二时间段与预测时间段的间隔时间段的每个第一数量，并将第一数量与该差值进行比较，从每个第一数量中确定出不大于该差值的每个第一目标数量，确定出大于该差值的每个第二目标数量。

针对每个第一目标数量，该预测的留存率对应的间隔时间段数量较小，因此该电子设备采用第一留存率预测模型，其中该第一留存率预测模型用于预测间隔时间段数量对应的未来某个第二时间段的留存率。

针对每个第二目标数量，该预测的留存率对应的间隔时间段数较大，因此该电子设备采用第二留存率预测模型，其中该第二留存率预测模型用于预测未来的第二时间段对应的某个间隔时间段数量的留存率。

针对每个第一目标数量，该电子设备保存有该第一目标数量对应的第一留存率预测模型，根据该第一留存率预测模型，将该第一目标数量对应的第二时间段的时间向量输入到该第一留存率预测模型，确定该第一目标数量对应的第一留存率；根据每个第一目标数量对应的第一留存率预测模型输出的每个第一留存率，确定留存率向量，其中该间隔时间段数量对应的最大值为该差值。

例如仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，该设定数量为7时，该当前时间段与初始时间段的间隔时间段的第二数量为14，该第二数量与该设定数量的差值为7，该第二时间段为16号、17号、18号、……、29号中的任一天，第二时间段与预测时间段的间隔时间段的每个第一数量包括14天、13天、12天、……、1天，第一数量值不大于该差值7的每个第一目标数量为7天、6天、……、1天，则该电子设备保存有预测1天留存率的第一留存率预测模型、预测2天留存率的第一留存率预测模型、……直至预测7天留存率的第一留存率预测模型。

根据预测1天留存率的第一留存率预测模型，由于与该预测时间段30号间隔1天的第二时间段为29号，因此该电子设备将该间隔时间段数量1天对应的第二时间段29号的时间向量输入该第一留存率预测模型，确定出该29号对应的第一留存率；

根据预测2天留存率的第一留存率预测模型，与该预测时间段30号间隔2天的第二时间段为28号，该电子设备将该间隔时间段数量2日对应的第二时间段28号的时间向量输入该第一留存率预测模型，确定出该28号对应的第一留存率；

直至根据预测7天留存率的第一留存率预测模型，与该预测时间段30号间隔7天的第二时间段为23号，该电子设备将该间隔时间段数量7日对应的第二时间段23号的时间向量输入该第一留存率预测模型，确定出该23号对应的第一留存率；因此该电子设备确定出该23号到29号对应的第一留存率组成的留存率向量。

针对每个第二目标数量对应的每个第二时间段，该电子设备保存有该第二时间段对应的第二留存率预测模型，根据该第二留存率预测模型，将该第二时间段对应的间隔时间段数量输入到该第二留存率预测模型，确定该第二时间段对应的第二留存率；根据每个第二时间段对应的第二留存率预测模型输出的每个第二时间段对应的每个第二留存率，确定留存率向量。

例如仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，该设定数量为7时，该当前时间段与初始时间段的间隔时间段的第二数量为14，该第二数量与该设定数量的差值为7，该第一时间段为1号、2号、3号……、15号中的任一天，该第二时间段为16号、17号、18号、……、29号中的任一天，第二时间段与预测时间段的间隔时间段的每个第一数量包括14天、13天、12天、……、1天，第一数量值大于该差值7的每个第二目标数量为14天、13天、……、8天，每个第二目标数量对应的每个第二时间段包括16号、17号、……、22号，该电子设备保存有预测16号的第二留存率的第二留存率预测模型、预测17号的第二留存率的第二留存率预测模型、……、直至预测22号的第二留存率的第二留存率预测模型。

根据预测16号的第二留存率的第二留存率预测模型，该16号与该预测时间段30号间隔时间段数量为14天，该电子设备将16号对应的间隔时间段数量14天的数量向量输入该第二留存率预测模型，确定出该16号对应的第二留存率，此时该第二留存率为14天留存率。

根据预测17号的第二留存率的第二留存率预测模型，该17号与该预测时间段30号间隔时间段数量为13天，该电子设备将该17号对应的间隔时间段数量13天的数量向量输入该第二留存率预测模型，确定出该17号对应的第二留存率，此时该第二留存率为13天留存率。

根据预测22号的第二留存率的第二留存率预测模型，该22号与该预测时间段30号间隔时间段数量为8天，该电子设备将该22号对应的间隔时间段数量8天的数量向量输入该第二留存率预测模型，确定出该22号对应的第二留存率，此时该第二留存率为8天留存率；因此该电子设备确定该第二时间段中的16号至22号对应的第二留存率组成的留存率向量。

实施例3：

为了训练第一留存率预测模型，在上述各实施例的基础上，在本发明实施例中，针对每个第一目标数量，所述该第一目标数量对应的第一留存率预测模型的训练过程包括：

获取样本集中预先保存的每个第一时间段对应的每个第三留存率，根据所述每个第三留存率生成第三留存率向量；

将所述每个第一时间段的时间向量输入到时间序列分析模型，获取输出的所述每个第一时间段的时间向量对应的第四留存率生成的第四留存率向量；

根据所述第三留存率向量以及所述第四留存率向量，对所述时间序列分析模型的各参数的参数值进行调整，得到训练完成的所述第一留存率预测模型。

为了获取预测的每个间隔时间段数量对应的第一留存率，需要根据样本集中预先保存的每个第一时间段对应的每个第三留存率，对该间隔时间段数量对应的第一留存率预测模型进行训练。

例如该间隔时间段数量为1天，仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，每个第一时间段对应的每个第三留存率包括1号的1天留存率、2号的1天留存率、直至14号的1天留存率。

需要说明的是，一般情况下，进行模型训练的设备可以是在线的，也可以离线的，因此，该对第一留存率预测模型进行训练的设备与后续第一留存率预测的电子设备可以相同，也可以不同。

通过时间序列分析模型，将每个第一时间段的时间向量输入到时间序列分析模型，可以获得每个第一时间段的时间向量对应的第四留存率生成的第四留存率向量。其中，该第四留存率向量包括该时间序列分析模型预测的每个第一时间段的时间向量对应的第四留存率。

根据第三留存率向量以及第四留存率向量，对时间序列分析模型进行训练，以调整时间序列分析模型的各参数的参数值。

在具体实施过程中，当模型满足预设的收敛条件时，该第一留存率预测模型训练完成。其中，满足预设的收敛条件可以为样本集中的第三留存率向量通过该时间序列分析模型训练后，得到的第四留存率向量与第三留存率向量的残差小于预设阈值的个数大于设定数量，或对该时间序列分析模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

在本发明实施例中，该时间序列分析模型可以是时间序列线性回归、差分自回归移动平均模型(Autoregressive Integrated Moving Average model，ARIMA)、时间序列分解模型、基于时序特征处理的机器学习模型(XGboost)、长短期记忆网络模型(Long Short-Term Memory，LSTM)、深度学习网络模型等。较佳的，在本发明实施例中，该时间序列分析模型为ARIMA模型或时间序列分解模型。

具体的，在该样本集中的每个第三留存率组成的序列平稳时，该序列平稳是指序列中的每个第三留存率基本上在某个固定的水平上波动，虽然在不同的时间段波动的程度不同，但并不存在某种规律，其波动可以看成是随机的，该时间序列分析模型为ARIMA模型，在该样本集中的每个第三留存率组成的序列不平稳时，该时间序列分析模型为时间序列分解模型。

由于ARIMA(p，d，q)模型叫差分自回归移动平均模型，AR是自回归，p是自回归项，MA是移动平均，q为移动平均项，d为时间序列成为平稳时所需做的差分次数。ARIMA模型就是指将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

其中，p,q参数采用贝叶斯信息准则(Bayesian Information Criterion，BIC)进行确定，BIC＝kln(n)-2ln(L)，k为模型参数个数，n为样本数量，L为似然函数。当模型参数个数k增大时，似然函数L也会增大，从而使BIC变小，但是k过大时，似然函数增速减缓，导致BIC增大，而模型参数个数k较大会造成过拟合现象，BIC的计算可以直接通过相关的Package求得。

时间序列分解(Decomposition of Time Series)是指将时间序列分解几个部分，常用的有STL分解。它同时考虑了趋势项、季节项、通过拟合这几项得到最终的预测值，y(t)＝g(t)+s(t)+h(t)+∈(t)，其中g(t)为趋势项，s(t)为季节性，h(t)为节假日项，∈(t)为其他项。

其中，趋势项及其容易受到离群点的影响，我们需要对离群点做出一定的修正。此外，留存率的变化是受到产品的迭代、市场环境的变化所影响，但并不会无止境的增长或者衰减，因此可以使用概率模型对留存变化幅度做出限制，r_t∈[min f(t)，max g(t)]。

具体的，为了确定第三留存率组成的序列是否平稳，对序列进行单位根检验(Augmented Dickey-Fuller test，ADF)检验，ADF是Dickey-Fuller检验的增广形式。DF检验只能应用于一阶情况，当序列存在高阶的滞后相关时，可以使用ADF检验。

当一个自回归过程中，如果滞后项系数b为1，就称为单位根。当单位根存在时，自变量和因变量之间的关系具有欺骗性，因为序列的任何误差都不会随着样本量增大而衰减，也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在，这个过程就是一个随机漫步(random walk)。

ADF检验就是判断序列是否存在单位根，如果序列平稳，就不存在单位根；如果序列平稳，就会存在单位根。在实际情况中的留存率组成的序列都是平稳的，ADF检验的置信度都在99％以上。

图2为本发明实施例提供的一种时间序列分析模型的确定方法，该方法包括以下步骤：

S201：获取样本集中的每个第三留存率，根据每个第三留存率组成序列。

S202：对序列进行ADF检验，判断序列是否存在单位根，若否，则进行S203，若是，则进行S204。

S203：确定序列平稳，时间序列分析模型为ARIMA模型。

S204：确定序列不平稳，时间序列分析模型为时间序列分解模型。

为了训练第二留存率预测模型，在本发明实施例中，针对每个第二目标数量对应的每个第二时间段，所述该第二时间段对应的第二留存率预测模型的训练过程包括：

获取样本集中预先保存的每个第五留存率，根据所述每个第五留存率生成第五留存率向量，其中所述每个第五留存率为所述每个第一留存率预测模型预测的第二间隔时间段数量向量中每个第二间隔时间段数量对应的留存率，所述第二间隔时间段数量向量中包括的最大间隔时间段数量为所述差值；

将所述第二间隔时间段数量向量输入到概率模型，获取输出的所述第二间隔时间段数量向量对应的第六留存率生成的第六留存率向量；

根据所述第五留存率向量以及所述第六留存率向量，对所述概率模型的各参数的参数值进行调整，得到训练完成的所述第二留存率预测模型。

为了获取预测当前时间段与预测时间段间隔的时间段中某个第二时间段对应的第二留存率，需要根据样本集中预先保存的每个第五留存率生成的第五留存率向量，对该第二时间段对应的第二留存率预测模型进行训练。其中，每个第五留存率为每个第一留存率预测模型预测的该第二时间段的第二间隔时间段数量向量中每个第二间隔时间段数量对应的留存率。

举例来说，仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，该第二时间段为16号、17号、18号、……、29号中的任一天，每个第二目标数量对应的每个第二时间段包括16号、17号、……、22号，对16号对应的第二留存率预测模型进行训练时，每个第五留存率为每个第一留存率预测模型预测的该16号的第二间隔时间段数量向量中1天至7天对应的留存率，即该第一留存率预测模型预测的该16号的1天留存率、2天留存率直至7天留存率。

需要说明的是，一般情况下，进行模型训练的设备可以是在线的，也可以离线的，因此，该对第二留存率预测模型进行训练的设备与对第一留存率预测模型进行训练的设备和后续第二留存率预测的电子设备可以相同，也可以不同。

通过概率模型，将第二间隔时间段数量向量输入到概率模型，可以获得该第二间隔时间段数量向量中每个第二间隔时间段数量对应的第六留存率向量。其中，该第六留存率向量包括该概率模型预测的每个第二间隔时间段数量对应的留存率。

根据第五留存率向量以及第六留存率向量，对概率模型进行训练，以调整概率模型的各参数的参数值。

在具体实施过程中，当模型满足预设的收敛条件时，该第二留存率预测模型训练完成。其中，满足预设的收敛条件可以为样本集中的第五留存率向量通过该时间序列分析模型训练后，得到的第六留存率向量与第五留存率向量的残差小于预设阈值的个数大于设定数量，或对该时间序列分析模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

在本发明实施例中，该概率模型可以是幂律模型、韦布尔(Weibull)模型、BG-NBD模型和基于BG模型及Weibull优化的Beta-Weibull模型；较佳的，在本发明实施例中，该概率模型为Beta-Weibull模型。

其中，该幂律模型的概率密度函数为f(x；a)＝ax^a-1；该Weibull模型的概率密度函数为

当k<1时，它可以表示留存率随时间而减少；该BG-NBD模型的公式为

该基于BG模型及Weibull优化的Beta-Weibull模型的公式为

其中，r为留存率，t为第t天，γ,δ,c为模型参数。

图3为本发明实施例提供的概率模型的留存率值的随间隔时间段数量增大的变化示意图，如图3所示，该图3中的横轴表示间隔时间段数量的值，纵轴为留存率的值，例如横轴的50代表50天，该50对应的纵轴的值为50天留存率的值，横轴的100代表100天，该100对应的纵轴的值为100天留存率的值。

实施例4：

为了更新留存用户数量向量，在上述各实施例的基础上，在本发明实施例中，根据所述新增用户数量向量和所述留存率向量，更新留存用户数量向量包括：

根据所述新增用户数量向量和所述留存率向量，确定所述新增用户数量向量中的每个数量与所述留存率向量中对应的每个留存率的对应乘积值；

根据每个所述乘积值，对所述留存用户数量向量进行更新生成更新后的留存用户数量向量。

为了更新留存率向量，在本发明实施例中，该电子设备根据每个第二时间段的新增用户数量向量和所述留存率向量，确定出新增用户数量向量中的每个数量，并在该留存率向量中确定出每个数量对应的每个留存率，根据每个数量与对应的每个留存率，确定出数量与留存率的对应乘积值。

例如，仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，该第二时间段为16号至29号中的任一天，每个第二时间段的新增用户数量向量包括16号至29号中每一天的新增用户数量，该留存率向量包括16号对应的14天留存率、17号对应的13天留存率、直至29号对应的1天留存率。

根据16号的新增用户数量以及16号对应的14天留存率，确定出16号的新增用户数量与14天留存率的乘积值，根据17号的新增用户数量以及17号对应的13天留存率，确定出17号的新增用户数量与13天留存率的乘积值，……，根据29号的新增用户数量以及29号对应的1天留存率，确定出29号的新增用户数量与1天留存率的乘积值。

根据每个数量与每个留存率的对应乘积值，在该保存的留存用户数量向量中的数量之后添加该乘积值，实现对留存用户数量向量的更新，从而生成更新后的留存用户数量向量。

实施例5：

为了确定预测时间段的用户规模，在上述各实施例的基础上，在本发明实施例中，所述根据更新后的留存用户数量向量确定所述预测时间段的用户规模包括：

根据更新后的留存用户数量向量，确定所述更新后的留存用户数量向量中每个数量的和值为所述预测时间段的用户规模。

为了确定出预测时间段的用户规模，该电子设备确定出更新后的留存用户数量向量后，由于更新后的留存用户数量向量保存有从每个第一时间段以及每个第二时间段的新增用户在预测时间段的留存用户数量，确定出该更新后的留存用户数量向量中每个数量的和值。

例如，仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，该第一时间段为1号至15号中的任一天，该第二时间段为16号至29号中的任一天，该更新后的留存用户数量向量包括第一时间段1号至15号和第二时间段16号至29号的新增用户在预测时间段30号的留存用户数量，根据1号至29号的新增用户在30号的留存用户数量，确定出1号至29号中每个数量的和值。

该预测时间段的用户规模

其中该DAU_n为预测时间段的用户规模，该S_i为第i天的新增用户在预测时间段的留存用户数量，该U_i为第i天的新增用户数量，r_i为第i天的新增用户间隔预测时间段第n天的留存率的值。

由于初始时间段至预测时间段的中的每个时间段的新增用户在预测时间段时所处的用户生命周期的位置不同，用户生命周期是从用户开始接触产品到离开产品的整个过程，用户生命周期可分为：引入期、成长期、成熟期、休眠期、流失期，对应的是用户对产品不同的参与程度，然而不是所有的用户都会完整地经历整个生命周期，大部分用户可能在引入期就流失掉了，而留下来的用户将会组成整个产品的用户群，因此该电子设备根据更新后的留存用户数量向量保存的每个第一时间段以及每个第二时间段的新增用户在预测时间段的留存用户数量，因此该电子设备确定出每个数量的和值后，将该和值确定为在预测时间段的留存用户数量，即为预测时间段的用户规模。

实施例6：

为了训练新增用户数量预测模型，在上述各实施例的基础上，在本发明实施例中，所述新增用户数量预测模型的训练过程包括：

获取样本集中预先保存的每个第一时间段的新增用户的每个第三数量，根据所述每个第三数量生成第三数量向量；

将所述每个第一时间段的时间向量输入到原始深度学习模型，获取输出的所述每个第一时间段的时间向量对应的新增用户的第四数量向量；

根据所述第三数量向量以及所述第四数量向量，对所述原始深度学习模型的各参数的参数值进行调整，得到训练完成的所述新增用户数量预测模型。

为了获取预测的每个第二时间段对应的新增用户数量，需要根据样本集中预先保存的每个第一时间段的新增用户的每个第三数量，对该新增用户数量预测模型进行训练。

例如该间隔时间段数量为1天，仍以1号为初始时间段，15号为当前时间段，30号为预测时间段，每个第一时间段新增用户的每个第三数量包括1号的新增用户的第三数量、2号的新增用户的第三数量、直至14号的新增用户的第三数量。

需要说明的是，一般情况下，进行模型训练的设备可以是在线的，也可以离线的，因此，该对该新增用户数量预测模型进行训练的设备与留存率预测模型进行训练的设备和与留存率预测的电子设备可以相同，也可以不同。

通过原始深度学习模型，将每个第一时间段的新增用户的每个第三数量生成第三数量向量输入到原始深度学习模型，可以获得每个第一时间段的新增用户的每个第四数量生成的第四数量向量。其中，该第四数量向量包括该原始深度学习模型预测的每个第一时间段的新增用户在预测时间段的留存用户的第四数量。

根据第三数量向量以及第四数量向量，对原始深度学习模型进行训练，以调整原始深度学习模型的各参数的参数值。

在具体实施过程中，当模型满足预设的收敛条件时，该新增用户数量预测模型训练完成。其中，满足预设的收敛条件可以为样本集中的第三数量向量通过该原始深度学习模型训练后，得到的第四数量向量与第三数量向量的残差小于预设阈值的个数大于设定数量，或对该原始深度学习模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

具体的，在本发明实施例中该原始深度学习模型为DeepFM模型，该DeepFM模型拟合生成表达式

其中s为季节性相关特征，包括节假日、过去n日新增用户等；c为业务情况，包含人口、市场占有率、广告营销预算、营销活动等；B为常数项。

实施例7：

在上述各实施例的基础上，图4为本发明实施例提供的一种用户规模预测装置的结构示意图，所述装置包括：

第一确定模块401，用于确定留存用户数量向量，其中所述留存用户数量向量中包括初始时间段至当前时间段中以第一预设时长划分的每个第一时间段的新增用户在预测时间段的留存用户数量；

第一预测模块402，用于基于预先训练完成的新增用户数量预测模型，根据输入的时间向量，确定新增用户数量向量，其中所述时间向量中包括所述当前时间段至所述预测时间段中以第二预设时长划分每个第二时间段，所述新增用户数量向量中包括所述每个第二时间段对应的新增用户的数量；

第二预测模块403，用于基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量，其中所述参数向量为所述时间向量或所述每个第二时间段与所述预测时间段的第一间隔时间段数量向量，所述留存率向量中包括所述每个第二时间段的新增用户在所述预测时间段的留存率；

第二确定模块404，用于根据所述新增用户数量向量和所述留存率向量，更新留存用户数量向量，并根据更新后的留存用户数量向量，确定所述预测时间段的用户规模。

进一步地，所述第一确定模块，还用于确定所述每个第二时间段与所述预测时间段的间隔时间段的每个第一数量和所述当前时间段与所述初始时间段的间隔时间段的第二数量与设定数量的差值；

所述第二预测模块，具体用于根据所述每个第一数量确定不大于所述差值的每个第一目标数量，针对所述每个第一目标数量，基于该第一目标数量对应的第一留存率预测模型，根据输入的该第一目标数量对应的第二时间段的时间向量，确定该第一目标数量对应的第一留存率；根据每个第一目标数量对应的每个第一留存率，确定留存率向量；根据所述每个第一数量确定大于所述差值的每个第二目标数量，针对每个第二目标数量对应的每个第二时间段，基于该第二时间段对应的第二留存率预测模型，根据输入的该第二时间段对应的间隔时间段数量向量，确定该第二时间段对应的第二留存率；根据每个第二时间段对应的每个第二留存率，确定留存率向量。

进一步地，所述装置还包括：

训练模块，用于针对每个第一目标数量，所述该第一目标数量对应的第一留存率预测模型的训练过程包括：获取样本集中预先保存的每个第一时间段对应的每个第三留存率，根据所述每个第三留存率生成第三留存率向量；将所述每个第一时间段的时间向量输入到时间序列分析模型，获取输出的所述每个第一时间段的时间向量对应的第四留存率生成的第四留存率向量；根据所述第三留存率向量以及所述第四留存率向量，对所述时间序列分析模型的各参数的参数值进行调整，得到训练完成的所述第一留存率预测模型。

进一步地，所述训练模块，还用于获取样本集中预先保存的每个第五留存率，根据所述每个第五留存率生成第五留存率向量，其中所述每个第五留存率为所述每个第一留存率预测模型预测的第二间隔时间段数量向量中每个第二间隔时间段数量对应的留存率，所述第二间隔时间段数量向量中包括的最大间隔时间段数量为所述差值；将所述第二间隔时间段数量输入到概率模型，获取输出的所述第二间隔时间段数量向量对应的第六留存率生成的第六留存率向量；根据所述第五留存率向量以及所述第六留存率向量，对所述概率模型的各参数的参数值进行调整，得到训练完成的所述第二留存率预测模型。

进一步地，所述第二确定模块，具体用于根据所述新增用户数量向量和所述留存率向量，确定所述新增用户数量向量中的每个数量与所述留存率向量中对应的每个留存率的对应乘积值；根据每个所述乘积值，对所述留存用户数量向量进行更新生成更新后的留存用户数量向量。

进一步地，所述第二确定模块，具体用于根据更新后的留存用户数量向量，确定所述更新后的留存用户数量向量中每个数量的和值为所述预测时间段的用户规模。

进一步地，所述装置还包括：

训练模块，具体用于获取样本集中预先保存的每个第一时间段的新增用户的每个第三数量，根据所述每个第三数量生成第三数量向量；将所述每个第一时间段的时间向量输入到原始深度学习模型，获取输出的所述每个第一时间段的时间向量对应的新增用户的第四数量向量；根据所述第三数量向量以及所述第四数量向量，对所述原始深度学习模型的各参数的参数值进行调整，得到训练完成的所述新增用户数量预测模型。

实施例8：

图5为本发明实施例提供的一种电子设备的结构示意图，在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信；

所述存储器503中存储有计算机程序，当所述程序被所述处理器501执行时，使得所述处理器501执行如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例9：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行如下步骤：

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种用户规模预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练完成的留存率预测模型，根据输入的所述每个第二时间段的参数向量，确定留存率向量之前，所述方法还包括：

确定所述每个第二时间段与所述预测时间段的间隔时间段的每个第一数量和所述当前时间段与所述初始时间段的间隔时间段的第二数量与设定数量的差值；

3.根据权利要求2所述的方法，其特征在于，针对每个第一目标数量，所述该第一目标数量对应的第一留存率预测模型的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，针对每个第二目标数量对应的每个第二时间段，所述该第二时间段对应的第二留存率预测模型的训练过程包括：

将所述第二间隔时间段数量输入到概率模型，获取输出的所述第二间隔时间段数量向量对应的第六留存率生成的第六留存率向量；

5.根据权利要求1所述的方法，其特征在于，所述根据所述新增用户数量向量和所述留存率向量，更新留存用户数量向量包括：

6.根据权利要求1所述的方法，其特征在于，所述根据更新后的留存用户数量向量确定所述预测时间段的用户规模包括：

7.根据权利要求1所述的方法，其特征在于，所述新增用户数量预测模型的训练过程包括：

8.一种用户规模预测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述用户规模预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述用户规模预测方法的步骤。