CN112132622B

CN112132622B - 数据预估方法及装置

Info

Publication number: CN112132622B
Application number: CN202011025980.2A
Authority: CN
Inventors: 翟思楠; 金雅然; 马奕潇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-07-16
Anticipated expiration: 2040-09-25
Also published as: CN112132622A

Abstract

本公开关于一种数据预估方法及装置，该方法包括：获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据；基于历史用户画像数据，对第一行为数据和第一使用数据进行去中心化处理，得到第二行为数据和第二使用数据；对第二行为数据和第二使用数据进行回归处理，得到预估参数；获取当前时刻用户的当前行为数据和当前用户画像数据，并基于预估参数，预估用户的使用数据。这样，通过依据用户的历史用户画像数据对用户的第一行为数据和第一使用数据进行去中心化处理，可保证得到的预估参数较为可信，进而保证较为准确地预估出用户未来的使用数据。

Description

数据预估方法及装置

技术领域

本公开涉及计算机处理技术领域，尤其涉及一种数据预估方法及装置。

背景技术

目前很多业务场景需要分析用户行为数据，例如在短视频和直播等视频领域，可以通过获取海量用户行为数据来分析解决实际问题，而回归模型作为一种常见的分析模型经常被用来研究因变量和自变量之间的关系。回归可以帮助探索变量之间的相关性，并得到定量分析的结果，例如，在定量分析某应用程序(Application，APP)的用户关注行为对用户次日留存(第二天是否还会使用该APP)的影响时，通常是使用用户当日的关注行为数据对用户次日的留存数据进行回归。

然而，上述回归分析方法会存在一定偏误，原因是普通的回归模型中会产生遗漏变量或者选择偏差的问题。例如，当分析用户行为对用户次日留存的影响时，会忽视用户本身对该APP的喜爱程度，喜爱程度高的用户更有可能产生更多的关注行为，次日留存也会更高，这种情况下遗漏变量(用户喜欢程度)会导致分析结果出现偏差。

可见，相关技术中的回归分析方法得到的分析结果通常会出现偏差，进而导致对用户未来行为的预估不够准确。

发明内容

本公开提供一种数据预估方法及装置，以至少解决相关技术中回归分析方法得到的分析结果会出现偏差，进而导致对用户未来行为的预估不够准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种数据预估方法，包括：

获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据；

基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到第二行为数据和第二使用数据；

对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，其中，所述预估参数用于表示所述第二行为数据与所述第二使用数据的因果关系；

获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据。

可选的，所述对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，包括：

采用最小二乘回归模型对所述第二行为数据和所述第二使用数据进行回归处理，得到所述最小二乘回归模型的模型参数，将所述最小二乘回归模型的模型参数作为所述预估参数。

可选的，所述第一使用数据为n维列向量，所述第一行为数据为n×k的矩阵，所述历史用户画像数据为n×r的矩阵，n为用户数，k为第一行为数据的个数，r为历史用户画像数据的类别数，n、k和r均为大于1的整数；

所述基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，包括：

对所述第一使用数据和所述第一行为数据中的每列数据，每次按所述历史用户画像数据中的一列数据进行分组求均值，并将所述每列数据中的每个数据分别减去该数据所在分组的均值，直至所述第一使用数据和所述第一行为数据中的每列数据不再发生变化，其中，所述每列数据中对应相同历史用户画像数据的为一组。

可选的，所述对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数之后，所述获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据之前，所述方法还包括：

基于所述预估参数，构建预设固定效应模型，其中，所述预设固定效应模型的自变量为用户行为数据，所述预设固定效应模型的因变量为用户的使用数据，所述预设固定效应模型的模型参数为所述预估参数；

所述获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据，包括：

获取当前时刻用户的当前行为数据和当前用户画像数据，并使用所述预设固定效应模型预估用户的使用数据。

可选的，所述基于所述预估参数，构建预设固定效应模型，包括：

基于所述第一行为数据与所述预估参数的乘积，确定第一使用数据估计值；

基于所述第一使用数据与所述第一使用数据估计值之间的差，确定所述预设固定效应模型中的残差项；

基于所述预估参数和所述残差项，构建所述预设固定效应模型。

可选的，所述确定所述预设固定效应模型中的残差项之后，所述方法还包括：

获取每类历史用户画像数据之间的关联性，并基于所述关联性分别对每列历史用户画像数据进行聚类；

依据聚类后的历史用户画像数据对应的残差项，确定所述模型参数的协方差矩阵；

基于所述协方差矩阵中的对角线元素，确定所述模型参数的估计标准误差。

可选的，所述预设固定效应模型的固定效应变量为用户画像数据；

所述确定所述预设固定效应模型中的残差项之后，所述基于所述预估参数和所述残差项，构建预设固定效应模型之前，所述方法还包括：

基于所述第一行为数据、所述第一使用数据、所述历史用户画像数据、所述模型参数和所述残差项，确定所述预设固定效应模型中的固定效应参数；

所述基于所述预估参数和所述残差项，构建预设固定效应模型，包括：

基于所述预估参数、所述残差项和所述固定效应参数，构建所述预设固定效应模型。

可选的，所述残差项为n维列向量；所述确定所述预设固定效应模型中的固定效应参数之后，所述方法还包括：

对所述残差项中的n个数据进行n次抽样，得到由n个抽样数据组成的目标残差项，并重复所述对所述残差项中的n个数据进行n次抽样的过程，直至得到m个目标残差项，n为正整数，m为大于1的整数；

基于所述第一行为数据、所述第一使用数据、所述历史用户画像数据、所述模型参数和所述m个目标残差项，确定m个固定效应参数估计值；

基于所述m个固定效应参数估计值，确定所述固定效应参数的估计标准误差。

根据本公开实施例的第二方面，提供一种数据预估装置，包括：

获取模块，被配置为执行获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据；

第一处理模块，被配置为执行基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到第二行为数据和第二使用数据；

第二处理模块，被配置为执行对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，其中，所述预估参数用于表示所述第二行为数据与所述第二使用数据的因果关系；

预估模块，被配置为执行获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据。

可选的，所述第二处理模块被配置为执行采用最小二乘回归模型对所述第二行为数据和所述第二使用数据进行回归处理，得到所述最小二乘回归模型的模型参数，并将所述最小二乘回归模型的模型参数确定为预估参数。

所述第一处理模块被配置为执行对所述第一使用数据和所述第一行为数据中的每列数据，每次按所述历史用户画像数据中的一列数据进行分组求均值，并将所述每列数据中的每个数据分别减去该数据所在分组的均值，直至所述第一使用数据和所述第一行为数据中的每列数据不再发生变化，其中，所述每列数据中对应相同历史用户画像数据的为一组。

可选的，所述数据预估装置还包括：

构建模块，被配置为执行基于所述预估参数，构建预设固定效应模型，其中，所述预设固定效应模型的自变量为用户行为数据，所述预设固定效应模型的因变量为用户的使用数据，所述预设固定效应模型的模型参数为所述预估参数；

所述预估模块被配置为执行获取当前时刻用户的当前行为数据和当前用户画像数据，并使用所述预设固定效应模型预估用户的使用数据。

可选的，所述构建模块包括：

第一确定单元，被配置为执行基于所述第一行为数据与所述预估参数的乘积，确定第一使用数据估计值；

第二确定单元，被配置为执行基于所述第一使用数据与所述第一使用数据估计值之间的差，确定所述预设固定效应模型中的残差项；

构建单元，被配置为执行基于所述预估参数和所述残差项，构建所述预设固定效应模型。

可选的，所述数据预估装置还包括：

聚类模块，被配置为执行获取每类历史用户画像数据之间的关联性，并基于所述关联性分别对每列历史用户画像数据进行聚类；

第一确定模块，被配置为执行依据聚类后的历史用户画像数据对应的残差项，确定所述模型参数的协方差矩阵；

第二确定模块，被配置为执行基于所述协方差矩阵中的对角线元素，确定所述模型参数的估计标准误差。

所述数据预估装置还包括：

第三确定模块，被配置为执行基于所述第一行为数据、所述第一使用数据、所述历史用户画像数据、所述模型参数和所述残差项，确定所述预设固定效应模型中的固定效应参数；

所述构建模块被配置为执行基于所述预估参数、所述残差项和所述固定效应参数，构建所述预设固定效应模型。

可选的，所述残差项为n维列向量；所述数据预估装置还包括：

抽样模块，被配置为执行对所述残差项中的n个数据进行n次抽样，得到由n个抽样数据组成的目标残差项，并重复所述对所述残差项中的n个数据进行n次抽样的过程，直至得到m个目标残差项，n为正整数，m为大于1的整数；

第四确定模块，被配置为执行基于所述第一行为数据、所述第一使用数据、所述历史用户画像数据、所述模型参数和所述m个目标残差项，确定m个固定效应参数估计值；

第五确定模块，被配置为执行基于所述m个固定效应参数估计值，确定所述固定效应参数的估计标准误差。

根据本公开实施例的第三方面，提供一种数据预估装置，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面所述的数据预估方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由数据预估装置的处理器执行时，使得数据预估装置能够执行上述第一方面所述的数据预估方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括可执行指令，当所述可执行指令在计算机上运行时，使得计算机能够执行上述第一方面所述的数据预估方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据；基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据；对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，其中，所述预估参数用于表示所述第二行为数据与所述第二使用数据的因果关系；获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据。这样，通过依据用户的历史用户画像数据对用户的第一行为数据和第一使用数据进行去中心化处理，可得到去除历史用户画像数据也即用户个体特征对第一使用数据的影响后的第二行为数据和第二使用数据，从而可保证通过对第二行为数据和第二使用数据进行回归处理得到的预估参数较为可信，进而能够保证基于该预估参数和用户当前行为数据及画像数据，较为准确地预估出用户未来的使用数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据预估方法的流程图。

图2是根据一示例性实施例示出的一种在短视频应用中使用固定效应模型来分析用户行为数据与使用数据之间的因果关系的流程图。

图3是根据一示例性实施例示出的一种数据预估装置的框图。

图4是根据一示例性实施例示出的另一种数据预估装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本方案可以应用于需要分析和预估用户行为的应用场景中，例如可应用于音视频(如短视频)、直播等视频领域中，视频领域仅为示例，本公开实施例不作限定。一个应用场景中，可用于分析用户的APP使用行为数据对APP使用时长或次日留存等的影响，本公开实施例在分析时加入用户画像数据(即固定效应)的影响，能够提高分析结果的准确性和可信度，可以帮助解决遗漏变量的问题，从而得到更为可靠的因果结论和更为准确的预估数据。

图1是根据一示例性实施例示出的一种数据预估方法的流程图，如图1所示，该方法包括以下步骤。

在步骤S11中，获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据。

上述用户的第一行为数据可以是用户使用目标应用程序产生的行为数据，也可以是浏览网页产生的行为数据。目标应用程序可以是任意需要研究用户在使用过程中用户的使用行为数据对某些参数的影响的应用程序，例如，当需要分析用户在使用短视频应用程序中，用户的视频观看时长、关注次数、评论点赞次数等对次日留存概率或时长的影响时，该短视频应用程序便为目标应用程序。

上述第一使用数据可以是留存数据或使用时长等数据，所述留存数据可以是用户留存目标应用程序的概率或时长，所述使用时长可以是用户使用目标应用程序的时长。

其中，所述第一历史时间段可以是任意历史时段，如昨天、前天或过去一周等，所述第二历史时间段可以基于需要分析的具体使用数据和所述第一历史时间段确定，例如，若所述第一使用数据为留存数据，且所述第一历史时间段为前天，则所述第二历史时间段可以是昨天，即需要分析用户某天的行为数据对次日留存数据的影响；若所述第一使用数据为使用时长，且所述第一历史时间段为昨天，则所述第二历史时间段也可以是昨天，即需要分析用户某日的行为数据对该日的使用时长的影响。

一个实施例中，上述第一行为数据可以是用户在使用目标应用程序中产生的一些操作行为数据，如图2所示，以使用短视频类应用程序为例，用户行为数据可以包括视频观看时长、页面点击次数、关注次数、视频上传次数、评论次数、点赞次数、留存(不卸载应用程序)时长等，具体需要获取的用户行为数据可以根据实际需要进行选择。

上述历史用户画像数据可以是表征所述第一历史时间段内的用户个体特征的数据，例如，用户的地域特征、年龄、性别、使用机型、ID、时间、平均使用时长等。

需说明的是，为保证通过大数据分析得到较为可靠的分析结果，可以获取海量的用户行为数据和用户画像数据，例如，可以获取n个用户的k种用户行为数据，和所述n个用户的r类用户画像数据，n、k和r均为大于1的整数，且n可以取较大的数值，如取100万等。

在步骤S12中，基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到第二行为数据和第二使用数据。

由于用户画像数据为用户个体特征数据，通常用户在使用某应用程序的过程中，对该应用程序的喜爱程度在短期内是不会发生变化的，也即能够对用户对该应用程序的使用数据产生较为固定的影响，我们可以称之为固定效应变量。故为准确分析所述第一行为数据对所述第一使用数据的影响，应当去除用户画像数据对使用数据产生的影响，为此，我们可以基于所述历史用户画像数据来剔除用户个体特征数据对所述第一使用数据的影响。

一个实施例中，可基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，来得到去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据。其中，所述去中心化处理可以是按照多个用户的历史用户画像数据，对多个用户的第一行为数据和第一使用数据进行分组求均值，将相同用户画像数据(如相同年龄或性别)的用户的第一行为数据和第一使用数据分为一组，并对每组的第一行为数据和第一使用数据执行减去该组的均值的处理，最终得到的便是去除用户画像数据对第一使用数据的影响后的第二行为数据和第二使用数据。

进一步的，所述第一使用数据为n维列向量，所述第一行为数据为n×k的矩阵，所述历史用户画像数据为n×r的矩阵，n为用户数，k为第一行为数据的个数，r为历史用户画像数据的类别数，n、k和r均为大于1的整数；

即在获取用户的第一行为数据、第一使用数据和历史用户画像数据时，可以获取n个用户的k种用户行为数据，获取所述n个用户的1个第一使用数据，以及获取所述n个用户的r类历史用户画像数据。且可将所述n个用户的第一使用数据处理成n维列向量的表达形式，类似地，可将所述n个用户的k种第一行为数据处理成n×k的矩阵，该矩阵中每行数据表示所述n个用户中的某个用户的k种第一行为数据，该矩阵中每列数据依次表示所述n个用户的某种用户行为数据。

且该实施方式中，为避免生成高维分类变量导致占用内存过大的问题，可将所述n个用户的r类历史用户画像数据，处理成n×r的固定效应变量矩阵，该矩阵中每列数据表示所述n个用户的一类历史用户画像数据，例如，所述用户画像数据共有年龄、性别和地域三类，则可生成3列数据，分别表示所述n个用户的年龄、性别和地域。

然后，可基于所述历史用户画像数据对所述第一使用数据和所述第一行为数据进行去中心化处理，具体地，可先按照所述历史用户画像数据中的第一列数据，对所述第一使用数据和所述第一行为数据中的每列数据进行分组，将对应所述历史用户画像数据的第一列数据中相同值的数据分为一组(如第一列历史用户画像数据为年龄，则可按年龄，将相同年龄的用户的使用数据分为一组，以及将相同年龄的用户的行为数据分为一组)，并计算每组的均值，然后将所述每列数据中的每个数据减去该数据所在分组的均值，得到处理后的第一使用数据和第一行为数据；再按照所述历史用户画像数据中的第二列数据，重复相同的分组、求均值和减均值的步骤，直至处理后的第一使用数据和第一行为数据中的每列数据收敛不再发生变化，也就是每列数据按所述历史用户画像数据中的任一列数据进行分组后的均值都为0，最终得到去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据。

例如，对于所述第一行为数据中的每列数据，可先按年龄进行分组，将年龄相同的用户行为数据分为一组，并计算每列用户行为数据分组后的均值，再将每列用户行为数据中的每个用户行为数据分别减去对应分组的均值，即为去除年龄变量对使用数据带来的影响后的用户行为数据，例如，年龄相同的3个用户的视频观看时长分别为3小时、5小时和4小时，则可以对这3个用户的视频观看时长求均值，具体为(3+5+4)/3＝4，该均值即为该年龄的用户的平均观看时长，再将每个用户的视频观看时长减去均值4小时，则这3个用户处理后的视频观看时长分别为-1小时、1小时和0小时，此时该分组的均值为0，且处理后的视频观看时长为去除用户年龄带来的影响后的视频观看时长；然后，可再按性别进行分组，将性别相同的用户行为数据分为一组，并进行类似的求均值和减均值处理，得到去除性别变量对使用数据带来的影响后的用户行为数据，重复类似的步骤，直至去除每类用历史户画像数据对使用数据带来的影响，且处理后的用户行为数据相对上一次的用户行为数据不产生变化。对于所述第一使用数据中的每列数据，也是做相应的处理。

为便于实际使用，可将该实施方式中基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理的方法流程使用计算机程序设计语言(HeadFirst Python；Automate the Boring Stuffwith Python，Python)写入demean_dataframe模块，从而可通过调用demean_dataframe模块来完成对所述第一行为数据和所述第一使用数据的去中心化(de-mean)处理。

这样，通过对所述第一行为数据和所述第一使用数据按所述历史用户画像数据进行上述处理，可剔除历史用户画像数据对所述第一使用数据产生的固定效应影响，进而可保证通过对处理后的第二行为数据和第二使用数据进行回归处理，可得到能够较为准确地表示所述第二行为数据与所述第二使用数据的因果关系的预估参数。

在步骤S13中，对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，其中，所述预估参数用于表示所述第二行为数据与所述第二使用数据的因果关系。

在对所述第一行为数据和所述第一使用数据进行去中心化处理后，可对所述第二行为数据和所述第二使用数据进行回归处理，以得到所述第二使用数据与所述第二行为数据之间的影响系数，也即预估参数，具体地，可将所述第二使用数据作为因变量，将所述第二行为数据作为自变量，对二者进行线性回归，例如，可采用一线性方程来建立因变量与自变量之间的关系，并通过拟合直线得到该线性方程中的系数，该系数即为所需的预估参数，所述第二使用数据近似等于所述第二行为数据乘以所述预估参数。这样，通过所述预估参数可确定所述第二行为数据与所述第二使用数据之间的因果关系，也即所述第二行为数据对所述第二使用数据具备什么样的影响。例如，所述预估参数的值较大且为正时，可知所述第二使用数据与所述第二行为数据存在正相关的关系，且所述第二行为数据对所述第二行为数据的影响较大。

可选的，所述步骤S13包括：

即可依据所述第二行为数据和所述第二使用数据，采用最小二乘回归模型，如Y′＝X′β，来确定所述最小二乘回归模型中的模型参数β，该模型参数β即为所述预估参数，其中，所述第二使用数据可以作为所述最小二乘回归模型中的因变量Y′，所述第二行为数据可以作为所述最小二乘回归模型中的自变量X′。

这样，通过对去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据进行最小二乘回归处理，可避免得到的预估参数受到固定效应变量的影响，进而得到用户行为数据与使用数据之间较为可靠的因果关系。通过该实施方式，可快速准确地计算出所述预估参数。本公开实施例得到的最小二乘回归模型的模型参数即为所需的预估参数。

为便于实际使用，可将本公开实施例中对于预估参数的计算流程使用Python语言写入主函数ols_high_d_category模块，从而可通过该demean_dataframe模块基于输入的第一历史时间段内用户的第一行为数据和历史用户画像数据，以及第二历史时间段内用户的第一使用数据，来完成对预估参数的计算。

需说明的是，本公开实施例中，为更快速高效地对所述第一行为数据和所述第一使用数据进行处理，还可以构建预设固定效应模型来确定用户行为数据与使用数据之间的因果关系，具体地，所述预设固定效应模型可以是Y＝Xβ+Dα+∈，其中，Y为因变量，X为自变量，β为模型参数，D为固定效应变量，α为固定效应参数，∈为残差项，由该模型公式可知，模型参数β能够反应自变量与因变量之间的因果关系，即能够反应自变量X是如何影响因变量Y的。

故为得到用户行为数据与使用数据之间的因果关系，可以如图2所示，将用户行为数据作为自变量X输入所述预设固定效应模型，将使用数据作为因变量Y输入所述预设固定效应模型，同时考虑到用户画像数据为固定的用户个体特征数据，为避免遗漏该变量对所述使用数据的影响，可以根据需要选择合适的用户画像数据作为固定效应变量D输入所述预设固定效应模型，这样，在将这些数据输入所述预设固定效应模型后，可基于所述固定效应变量，对所述因变量和所述自变量进行去中心化(de-mean)处理，如图2所示，也就是按照所述用户画像数据，对所述用户行为数据和使用数据进行去中心化处理，以剔除所述固定效应模型中固定效应变量D对所述因变量Y的影响，也即剔除所述预设固定效应模型中的Dα部分，进而通过对处理后的数据的回归处理，可输出得到所述预设固定效应模型的模型参数β，最后可依据所述模型参数β的值确定用户行为数据与使用数据之间的因果关系，且通过所述预设固定效应模型固定用户个体效应可以解决相关技术中的遗漏变量和选择偏误的问题。

在步骤S14中，获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据。

在得到所述预估参数后，便可使用所述预估参数对用户未来的使用数据进行预估，具体地，可先获取当前时刻用户的当前行为数据和当前用户画像数据，例如，当需要预估用户明日对某应用程序的留存时长或预估用户今日使用该应用程序的时长时，可获取用户当天对该应用程序已产生的行为数据和该用户的用户画像数据，再将该行为数据和用户画像数据乘以所述预估参数，便可得到预估的用户明日对该应用程序的留存时长，或预估的用户今日使用该应用程序的时长。

需说明的是，在对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数后，还可进一步确定回归模型中的其他参数，如残差项或截距项等，从而在基于当前时刻用户的当前行为数据和当前用户画像数据，对用户的使用数据进行预估时，可以结合所述预估参数和其他参数，来得到更为准确可信的预估数据。

可选的，所述步骤S13之后，所述步骤S14之前，所述方法还包括：

该实施方式中，为了更为准确地分析用户行为数据对使用数据的影响，以及更可靠地基于当前用户行为数据和用户画像数据预估用户未来的使用数据，可通过构建合适的固定效应模型来实现。

具体地，可将用户行为数据作为待构建的预设固定效应模型的自变量，将用户的使用数据作为所述预设固定效应模型的因变量，将所述预估参数作为所述预设固定效应模型的模型参数，也即所述预设固定效应模型的自变量的系数。具体地，所述预设固定效应模型可以是Y＝Xβ+Dα+∈，其中，Y为因变量，X为自变量，β为模型参数，α为固定效应参数，∈为残差项，D为固定效应变量，本公开实施例中，可将用户画像数据作为固定效应变量。

这样，可通过构建的预设固定效应模型，来预估用户的使用数据，具体地，在确定了所述预设固定效应模型的模型参数β的情况下，可按照获取的当前用户画像数据，对获取的当前时刻用户的当前行为数据进行去中心化处理，再将处理后的当前行为数据作为自变量输入所述预设固定效应模型，通过所述预设固定效应模型对自变量和模型参数进行乘积运算，便可得到所述预设固定效应模型输出的预估的用户的使用数据。

当然，也可通过进一步确定预设固定效应模型中的残差项和固定效应参数，来构建更为完整的预设固定效应模型，并将用户画像数据作为固定效应变量，从而将获取的当前时刻用户的当前行为数据和当前用户画像数据直接输入所述预设固定效应模型，便可快速得到所述预设固定效应模型预估的用户使用数据。下面对所述预设固定效应模型中的残差项和固定效应参数的确定作详细说明。

基于所述第一行为数据与所述预估参数的乘积，计算第一使用数据估计值；

也就是说，为了得到更为可靠的分析结果和更为准确的预估数据，在确定所述预估参数后，还可以进一步确定所述预设固定效应模型的残差项。

该实施方式中，可以基于所述第一行为数据、所述第一使用数据和所述预估参数，来确定所述预设固定效应模型中的残差项，具体地，可将所述第一行为数据作为自变量X，将所述第一使用数据作为因变量Y，将所述预估参数作为模型参数β，并基于所述自变量X和所述模型参数β，通过公式Y₁＝Xβ计算出因变量的估计值Y₁，也就是第一使用数据估计值，再基于所述因变量Y和所述估计值Y₁，通过公式∈＝Y-Y₁计算出所述预设固定效应模型中的残差项∈，即所述残差项∈等于因变量的实际值Y与估计值Y₁之差。

这样，通过确定所述预设固定效应模型中的残差项，可帮助更好地分析用户行为数据与使用数据之间的因果关系，且可得到更为完整的预设固定效应模型，进而可基于所述预设固定效应模型，更为准确地预测出用户使用数据，例如，可通过所述预设固定效应模型对自变量和模型参数进行乘积运算，并将运算后的结果再加上相应的残差项，便可得到所述预设固定效应模型输出的预估的用户的使用数据，且该预估数据更接近真实值。

在确定所述预设固定效应模型中的残差项之后，可以进一步确定所述预设固定效应模型中的模型参数的估计标准误差，来衡量计算出的所述模型参数与真实值之间的误差大小，也即确定所述模型参数的可信度。

在实际应用中，某些用户画像数据之间可能存在相关性，例如，同一年龄段的用户的APP使用时长存在关联，或某用户今天的直播时长与昨天的直播时长存在相关性，甚至同一天的不同用户之间的直播时长也会存在相关性，比如用户之间可能会相约同一天一起直播。因此，可以基于实际情况中用户画像数据之间的相关性，确定每类历史用户画像数据之间的关联性，具体可通过预先设定好每类历史用户画像数据之间的关联性，从而在使用时可直接获取预先设定的每类历史用户画像数据之间的关联性，并基于所述关联性对存在关联的历史用户画像数据进行聚类处理，并计算聚类情况下的所述模型参数的估计标准误差。

具体地，对于r类历史用户画像数据，可基于每类历史用户画像数据之间的关联性，分别对每列历史用户画像数据进行聚类，例如，对于表示年龄的一列历史用户画像数据，可以对该列历史用户画像数据按年龄段进行聚类，将n个用户的年龄按5种不同的年龄段，分成5类，这样，处于同一年龄段的用户对应的残差项服从同一分布。

接着，可依据聚类后的历史用户画像数据对应的残差项，来计算所述模型参数的协方差矩阵，例如，假设按年龄段聚类可分为5类，可依据公式V(β)＝(X^TX)^-1B(X^TX)^-1，来计算所述模型参数β的协方差矩阵V(β)，其中，X为自变量，X^T为X的转秩，(X^TX)^-1为X^TX的逆矩阵，在有聚类的情况下，

∈_j＝(∈₁₁……∈_t1)^T，∈₁₁……∈_t1属于同一年龄段的用户对应的残差项，如n个用户中，用户1、用户2和用户3属于同一年龄段，则可将对应n个用户的n个残差项中，对应用户1的残差项∈₁、对应用户2的残差项∈₂和对应用户3的残差项∈₃归为一组，来计算彼此之间的相关性，但这三个残差项与其他年龄段的用户对应的残差项不相关，即相关性为0。计算流程可如图2所示。

需说明的是，在不存在聚类的情况下，也即未对每类历史用户画像数据进行聚类，又可分独立同方差和异方差的不同情况，采用不同的B来计算所述模型参数的协方差矩阵，例如，对于独立同方差的情况，也就是每类历史用户画像数据之间均是独立不相关的，则

对于异方差的情况，也就是每类用户画像数据之间均存在相关性，则

在确定所述模型参数的协方差矩阵后，便可基于所述协方差矩阵中的对角线元素，确定所述模型参数的方差，对所述方差进行开平方根后，便可得到所述模型参数的估计标准误差。

为便于应用，也可将模型参数β的估计标准误差的计算流程使用Python语言写入主函数ols_high_d_category模块，通过该模块来完成输出预设固定效应模型的各项参数，包括模型整体显著性，β估计以及β的估计标准误等。

这样，通过计算所述预设固定效应模型中的模型参数的估计标准误差，可用于评价所计算出的模型参数的可信度，例如，当所述模型参数的估计标准误差较小时，可知所述模型参数具备较大的可信度，较为接近真实值，而当所述模型参数的估计标准误差较大时，可知所述模型参数的可信度不高，与真实值的差距较大，可基于此进一步分析样本数据(即第一行为数据和第一使用数据)，考究是否存在多重共线性等问题，逐一分析估计标准误差较大的原因，在确定原因后修正数据并重新计算模型参数和估计标准误差。

所述确定预设所述固定效应模型中的残差项之后，所述基于所述预估参数和所述残差项，构建预设固定效应模型之前，所述方法还包括：

即若需确定用户个体特征数据也即所述历史用户画像数据对所述第一使用数据带来的固定效应影响的大小，可进一步基于已知的所述第一行为数据、所述第一使用数据和所述历史用户画像数据，以及所述预设固定效应模型的模型参数和残差项，对所述预设固定效应模型中的固定效应参数进行求解，即可根据预设固定效应模型公式Y＝Xβ+Dα+∈，在参数Y、X、β、D和∈均已知的情况下，确定固定效应参数α，其可反应各类用户画像数据对用户使用数据的影响大小，例如，用户使用数据为使用时长，高龄用户的固定效应参数大于低龄用户的固定效应参数，则表明高龄用户的使用时长通常更长。

其中，为避免在计算中需对D求逆而导致运算量大，可采用映射(projection)的方式来求解固定效应参数α，即在输入预设固定效应模型的参数Y、X、β、D和∈后，通过不断地映射α的估计值，使α的估计值不断逼近真实值，来输出α的结果。为便于应用，可将固定效应参数α的计算流程使用Python语言写入getfe模块，通过调用该模块来完成固定效应参数α的求解。

这样，通过确定所述预设固定效应模型中的固定效应参数，可确定用户画像数据对使用数据的固定效应影响。且在确定出固定效应参数后，所述预设固定效应模型中的每个参数均得到确定，进而可基于所述预设固定效应模型，更为准确地预测出用户的使用数据，例如，可将获取的当前时刻用户的当前行为数据作为自变量，以及将获取的当前用户画像数据作为固定效应变量，输入所述预设固定效应模型(该模型的各参数均已确定)，通过所述预设固定效应模型输出更为准确的用户使用数据的预估值。

基于所述m个固定效应参数估计值，计算所述固定效应参数的估计标准误差。

即在确定所述预设固定效应模型中的固定效应参数后，还可以进一步计算所述预设固定效应参数的估计标准误差，来衡量计算出的所述固定效应参数与其真实值之间的偏离程度，也即所述固定效应参数的可信度。

具体地，对于n个用户，所述残差项可以是包括n个数据组成的n维列向量，首先，可以对所述残差项中的n个数据进行n次抽样，具体可以是进行n次有放回抽样，得到由n个抽样数据组成的目标残差项，即每次从所述n个数据中抽取一个数据后，将抽取的数据作为目标残差项中的一个数据，并将抽取的数据放回所述n个数据中，进行下次抽取，重复n次抽样，便可得到n个抽样数据，且这n个抽样数据中可能存在多个相同的数据。并且可重复m次对所述残差项中的n个数据进行n次抽样的过程，直至得到m个目标残差项。

接着，可基于所述第一行为数据、所述第一使用数据、所述历史用户画像数据、所述模型参数和目标残差项，基于所述预设固定效应模型公式Y＝Xβ+Dα+∈，计算出固定效应参数的估计值α_i，并令i＝i+1，其中，i的初始值为1，并可重复m次对所述残差项中的n个数据进行n次抽样，和计算固定效应参数的估计值α_i的过程，直至得到m个固定效应参数的估计值α₁、α₂……α_m。

最后，可基于所述m个固定效应参数的估计值α₁、α₂……α_m，来计算所述固定效应参数α的估计标准误差，具体地，可使用公式

来计算出α的估计标准误差σ_α，其中，

为α₁、α₂、……和α_m的均值。

为便于应用，可将固定效应参数α的估计标准误差的计算流程写入getfe模块的补充模块alpha_std，然后在getfe模块输出α的估计值的基础上，通过getfe模块的补充模块alpha_std来计算固定效应参数α的估计标准误差。

这样，通过计算所述预设固定效应模型中的固定效应参数的估计标准误差，可确定所计算出的固定效应参数的可信度。

本公开实施例中的数据预估方法，获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据；基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据；对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，其中，所述预估参数用于表示所述第二行为数据与所述第二使用数据的因果关系；获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据。这样，通过依据用户的历史用户画像数据对用户的第一行为数据和第一使用数据进行去中心化处理，可得到去除历史用户画像数据也即用户个体特征对第一使用数据的影响后的第二行为数据和第二使用数据，从而可保证通过对第二行为数据和第二使用数据进行回归处理得到的预估参数较为可信，进而能够保证基于该预估参数和用户当前行为数据及画像数据，较为准确地预估出用户未来的使用数据。

通过本公开实施例，可将计量分析中的固定效应模型应用于短视频和直播等领域，修正相关技术中用户行为数据对用户次日留存的提升效果分析中遗漏变量的问题，以及推送对用户APP使用时长的提升效果中选择偏误的问题等；针对直播和短视频领域常见的用户画像数据，通过聚类处理，可解决用户画像数据中用户行为前后以及用户行为之间存在相关性的问题；且一方面解决了相关技术中短视频与直播领域下使用回归模型的结果有偏问题，另一方面拓宽了固定效应模型的使用场景。

图3是根据一示例性实施例示出的一种数据预估装置框图。参照图3，该数据预估装置300包括获取模块301，第一处理模块302、第二处理模块303和预估模块304。

该获取模块301被配置为执行获取第一历史时间段内用户的第一行为数据和历史用户画像数据，以及获取第二历史时间段内用户的第一使用数据；

该第一处理模块302被配置为执行基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据；

该第二处理模块303被配置为执行对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，其中，所述预估参数用于表示所述第二行为数据与所述第二使用数据的因果关系；

该预估模块304被配置为执行获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据。

可选的，所述第二处理模块303被配置为执行采用最小二乘回归模型对所述第二行为数据和所述第二使用数据进行回归处理，得到所述最小二乘回归模型的模型参数，并将所述最小二乘回归模型的模型参数确定为预估参数。

所述第一处理模块302被配置为执行对第一使用数据和所述第一行为数据中的每列数据，每次按所述历史用户画像数据中的一列数据进行分组求均值，并将所述每列数据中的每个数据分别减去该数据所在分组的均值，直至所述第一使用数据和所述第一行为数据中的每列数据不再发生变化，其中，所述每列数据中对应相同历史用户画像数据的为一组。

可选的，所述数据预估装置300还包括：

所述预估模块304被配置为执行获取当前时刻用户的当前行为数据和当前用户画像数据，并使用所述预设固定效应模型预估用户的使用数据。

可选的，所述构建模块包括：

第一确定单元，被配置为执行基于所述第一行为数据与所述预估参数的乘积，确定因变量的第一使用数据估计值；

可选的，所述数据预估装置300还包括：

所述数据预估装置300还包括：

可选的，所述残差项为n维列向量；所述数据预估装置300还包括：

第五确定模块，被配置为执行基于所述m个固定效应参数估计值，确定所述固定效应参数的估计标准误。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于数据预估装置400的框图。

参照图4，该数据预估装置400包括：处理器401、存储器402和总线接口403。

处理器401，用于读取存储器402中的程序，执行下列过程：

基于所述历史用户画像数据，对所述第一行为数据和所述第一使用数据进行去中心化处理，得到去除所述历史用户画像数据对所述第一使用数据的影响后的第二行为数据和第二使用数据；

在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口403提供接口。

处理器401负责管理总线架构和通常的处理，存储器402可以存储处理器401在执行操作时所使用的数据。

可选的，处理器401，还用于：

采用最小二乘回归模型对所述第二行为数据和所述第二使用数据进行回归处理，得到所述最小二乘回归模型的模型参数，并将所述最小二乘回归模型的模型参数确定为预估参数。

处理器401，还用于：

可选的，处理器401，还用于：

处理器401，还用于：

可选的，所述残差项为n维列向量；

处理器401，还用于：

数据预估装置400能够实现前述实施例中实现的各个过程，为避免重复，这里不再赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由数据预估装置的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据预估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一使用数据为n维列向量，所述第一行为数据为n×k的矩阵，所述历史用户画像数据为n×r的矩阵，n为用户数，k为第一行为数据的个数，r为历史用户画像数据的类别数，n、k和r均为大于1的整数；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述对所述第二行为数据和所述第二使用数据进行回归处理，得到预估参数之后，所述获取当前时刻用户的当前行为数据和当前用户画像数据，并基于所述预估参数，预估用户的使用数据之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述预估参数，构建预设固定效应模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述预设固定效应模型中的残差项之后，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述预设固定效应模型的固定效应变量为用户画像数据；

8.根据权利要求7所述的方法，其特征在于，所述残差项为n维列向量；所述确定所述预设固定效应模型中的固定效应参数之后，所述方法还包括：

9.一种数据预估装置，其特征在于，包括：

10.根据权利要求9所述的数据预估装置，其特征在于，所述第二处理模块被配置为执行采用最小二乘回归模型对所述第二行为数据和所述第二使用数据进行回归处理，得到所述最小二乘回归模型的模型参数，并将所述最小二乘回归模型的模型参数确定为预估参数。

11.根据权利要求9所述的数据预估装置，其特征在于，所述第一使用数据为n维列向量，所述第一行为数据为n×k的矩阵，所述历史用户画像数据为n×r的矩阵，n为用户数，k为第一行为数据的个数，r为历史用户画像数据的类别数，n、k和r均为大于1的整数；

12.根据权利要求9至11中任一项所述的数据预估装置，其特征在于，所述数据预估装置还包括：

13.根据权利要求12所述的数据预估装置，其特征在于，所述构建模块包括：

14.根据权利要求13所述的数据预估装置，其特征在于，所述数据预估装置还包括：

15.根据权利要求13所述的数据预估装置，其特征在于，所述预设固定效应模型的固定效应变量为用户画像数据；

所述数据预估装置还包括：

16.根据权利要求15所述的数据预估装置，其特征在于，所述残差项为n维列向量；所述数据预估装置还包括：

17.一种数据预估装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的数据预估方法。

18.一种存储介质，当所述存储介质中的指令由数据预估装置的处理器执行时，使得数据预估装置能够执行如权利要求1至8中任一项所述的数据预估方法。