CN109587530B

CN109587530B - 一种数据处理方法、装置、终端设备和存储介质

Info

Publication number: CN109587530B
Application number: CN201811401430.9A
Authority: CN
Inventors: 佟鑫; 仇贲
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2021-06-08
Anticipated expiration: 2038-11-22
Also published as: CN109587530A

Abstract

本申请实施例公开了一种数据处理方法、装置、终端设备和存储介质，该方法包括：确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；将所述目标数据输入至增长率预测模型，以确定目标增长类型。本申请实施例可以对目标用户的增长类型进行预测，进而可以根据增长类型确定目标用户对应的受众情况进行预测。

Description

一种数据处理方法、装置、终端设备和存储介质

技术领域

本申请实施例涉及计算机技术，尤其涉及一种数据处理方法、装置、终端设备和存储介质。

背景技术

直播一般指的是媒体文件的生成与播出同时进行的播放方式，直播包括在网络直播平台上播放的网络直播，网络直播的用户包括直播用户和观众。随着直播平台的热度逐渐升高，直播用户与日俱增，直播的节目数量也越来越多。

直播平台上一般设有用于向观众推荐直播节目的推荐位置，以使观众可以在推荐位置直接获取到直播节目。而直播平台的推荐位置的数量有限，且推荐位置也有时间期限；一般在超过时间期限后，位于推荐位置的直播节目会被移除。不同的直播节目在被推荐后的受众情况的变化有所不同，受众情况的变化会影响到该直播节目的后续推荐方案，以使推荐位置可以被合理利用。

而现有技术中，一般只是根据直播节目当前的受众情况来决定是否进行推荐，不能对直播节目在被推荐后的受众情况的变化进行预测。

发明内容

本申请实施例提供一种数据处理方法、装置、终端设备和存储介质，可以对直播节目在被推荐后的受众情况进行预测。

第一方面，本申请实施例提供了一种数据处理方法，包括：

确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；

获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；

根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；

将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型。

进一步地，所述关联特征数据包括推荐时段和观众活跃数据，所述根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数包括：

确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率，以及对所述推荐时段进行标签编码处理以确定推荐时段编码；

将所述活跃增长率和所述推荐时段编码确定为关联影响参数。

进一步地，所述确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率包括：

根据所述推荐中区间的观众活跃数据与所述推荐前区间的观众活跃数据确定活跃变化参数；

根据所述活跃变化参数和所述推荐前区间的观众活跃数据确定活跃增长率。

进一步地，所述观众活跃数据包括预设时段的平均观众数、新增观众数、平均弹幕数、平均目标观众数、平均观看时长、平均观看时长大于预设时长的观众数、观众订阅量和观众留存率；

所述目标特征数据包括目标时段的平均观众数。

进一步地，在所述确定目标增长类型之后，还包括：

根据所述目标增长类型确定是否对所述目标用户进行优先推荐。

第二方面，本申请实施例还提供一种数据处理方法，包括：

确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述目标特征为与所述样本用户对应的目标观众交互特征；

获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据；

根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据；

根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据；

将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型。

所述目标特征数据包括目标时段的平均观众数。

进一步地，所述根据所述关联影响参数确定样本数据包括：

将所述关联影响参数和所述标签数据输入逻辑回归模型，以确定每个关联特征的特征权重；

根据每个关联特征的特征权重对关联特征进行排序，并将前预设数量个关联特征的关联影响参数确定为样本数据。

进一步地，所述根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据包括：

根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长率；

如果所述目标增长率大于预设增长率，则确定所述样本用户的标签数据为第一参数；

如果所述目标增长率小于预设增长率，则确定所述样本用户的标签数据为第二参数。

进一步地，所述将所述样本数据和所述标签数据输入至数据算法模型进行训练，包括：

将所述样本数据的第一比例确定为训练集，所述样本数据的第二比例确定为测试集；

将所述训练集、所述测试集和所述标签数据输入至数据算法模型进行训练。

第三方面，本申请实施例还提供了一种数据处理装置，包括：

第一特征确定模块，用于确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；

第一数据获取模块，用于获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；

目标数据获取模块，用于根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；

增长确定模块，用于将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型。

第四方面，本申请实施例还提供了一种数据处理装置，包括：

第二特征确定模块，用于确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述目标特征为与所述样本用户对应的目标观众交互特征；

第二数据获取模块，用于获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据；

标签数据确定模块，用于根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据；

样本数据确定模块，用于根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据；

训练模块，用于将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型。

第五方面，本申请实施例还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请任意实施例所述的数据处理方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任意实施例所述的数据处理方法。

本申请实施例公开了一种数据处理方案，通过确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；将所述目标数据输入至增长率预测模型，以确定目标增长类型。本申请实施例可以对目标用户的增长类型进行预测，进而可以根据增长类型确定目标用户对应的受众情况进行预测。

附图说明

图1是本申请实施例一提供的一种数据处理方法的流程图；

图2是本申请实施例二提供的一种数据处理方法的流程图；

图3是本申请实施例三中的一种数据处理装置的结构示意图；

图4是本申请实施例四中的一种数据处理装置的结构示意图；

图5是本申请实施例六中的一种终端设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种数据处理方法的流程图，该方法可以由数据处理装置来执行，其中，该装置可以由软件和/或硬件实现，一般可以集成在硬件平台上，具体包括如下步骤：

S101、确定目标用户的关联特征。其中，所述关联特征为与所述目标用户对应的观众交互特征。

其中，所述目标用户可以是直播平台上的直播用户，一般直播用户都有对应的直播节目，直播节目有对应的观众。关联特征为与所述目标用户对应的观众交互特征，即直播用户的直播节目的观看者的观众交互特征；所述观众交互特征可以是能够体现观众对直播节目的观看状况的特征，示例性地，可以是观众对一个直播节目的观看时长、观看频率和互动频率等等，观众交互特征能够体现观众对直播节目的态度。

S102、获取所述目标用户在推荐前区间和推荐中区间的关联特征数据。

所述关联特征数据即所述关联特征的体现数据，所述推荐前区间为在对直播节目进行推荐前的时间区间，推荐中区间为在对直播节目进行推荐的时间区间，对直播节目进行推荐即将直播节目放置在直播平台的推荐位置处。推荐位置可以是位于直播平台的首页，且位于首页的比较醒目的位置，以便进入直播平台的观众可以快速地看到直播节目。推荐的时间区间的长度可以根据具体应用进行设置，示例性地，时间区间可以是一周，所以推荐前区间为对直播节目执行推荐前的一周，推荐中区间为对直播节目执行推荐的一周。

由于推荐中区间对直播节目进行了推荐操作，直播节目处于推荐位置会导致观看该直播节目的观众的情况发生变化，例如该直播节目的浏览量会增加以及订阅用户会增加等。所以分别获取目标用户在推荐前区间的关联特征数据，和在推荐中区间的关联特征数据，以便可以进一步根据这两个区间的关联特征数据来对受众情况进行预测。

S103、根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据。

所述关联影响参数包括所述关联特征数据从推荐前区间到推荐中区间的变化体现的参数和/或对受众情况的预测有影响的参数。可以根据推荐前区间和推荐中区间的关联特征数据确定关联影响参数，所述关联影响参数可以是同一个关联特征数据在两个时间区间中所发生的变化，也可以是任一个时间区间的一个关联特征数据。

在确定了关联影响参数之后，就可以根据关联影响参数来对受众情况进行预测。目标数据为增长率预测模型中的输入数据，根据所述关联影响参数确定目标数据，可以是将所述关联影响参数作为目标数据输入至增长率预测模型中。

可选地，关联特征数据包括推荐时段和观众活跃数据。所述推荐时段为在推荐中区间中对直播节目执行推荐的时段，推荐时段为对受众情况的预测有影响的参数。在所述推荐中区间中，直播平台可以依据不同的推荐方案对直播节目在不同时间段进行推荐。因为不同直播节目的属性不同，推荐时段的不同也会对受众情况造成影响，示例性地，游戏类的直播节目的观众一般是习惯夜间9:00到12:00观看游戏类直播节目，如果在这个时间区间执行推荐操作，则会让更多的观众注意到该直播节目，进而导致该直播节目的浏览量增多。

观众活跃数据为观众主动和直播节目发生交互的相关数据，所述推荐时段为直播平台所选择的推荐时段，用户是被动接收直播节目的推荐，而用户是否对推荐的直播节目感兴趣，则可以通过用户主动和直播节目进行交互的相关数据来判断。

相应地，所述根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数的操作可以通过下述方式实施：

确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率，以及对所述推荐时段进行标签编码处理以确定推荐时段编码；将所述活跃增长率和所述推荐时段编码确定为关联影响参数。

其中，所述观众活跃数据为观众主动和直播节目发生交互的相关数据，所以随着时间区间的变化，观众活跃数据会发生变化，确定观众活跃数据从推荐前区间到推荐中区间的活跃增长率，可以作为体现所述关联特征数据从推荐前区间到推荐中区间的变化的参数。

推荐时段一般是一个时间区间，为了方便将推荐时段作为输入数据输入至增长率预测模型，所以对推荐时段进行便签编码处理，即不同的时间区间对应不同的编码，根据推荐时段生成推荐时段编码。

其中，可选地，所述确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率的操作可以通过下述方式实施：

根据所述推荐中区间的观众活跃数据与所述推荐前区间的观众活跃数据确定活跃变化参数；根据所述活跃变化参数和所述推荐前区间的观众活跃数据确定活跃增长率。

其中，活跃变化参数可以是推荐中区间的观众活跃数据和推荐前区间的观众活跃数据的差值，再将该差值除推荐前区间的观众活跃数据，即可以确定活跃增长率。需要说明的是，如果观众活跃数据包括多个类型数据，则需要一一计算每个类型数据的活跃变化参数，并将每个类型数据的活跃变化参数除每个类型数据在推荐前区间的观众活跃数据，以确定每个类型的活跃增长率，即观众活跃率包括至少一个类型数据的活跃增长率。

可选地，所述观众活跃数据包括预设时段的平均观众数、新增观众数、平均弹幕数、平均目标观众数、平均观看时长、平均观看时长大于预设时长的观众数、观众订阅量和观众留存率。

其中，预设时段可以是预先设置的时间周期，示例性地，所述预设时段可以是5分钟、10分钟、1个小时或1天。例如，预设时段的平均观众数可以是每小时的平均观众数(ACU,Average concurrent users)；新增观众数可以是预设时段内新增的观众数量；平均弹幕数可以是平均每分钟的弹幕数；目标观众可以是观众群中有着特殊权限的观众，平均目标观众数可以是每一天的平均目标观众数；平均观看时长可以是观众的平均观看时长，平均观看时长大于预设时长的观众数可以是观看时长大于5分钟和/或10分钟的观众数；观众订阅量可以是对直播节目进行了订阅操作的观众数量；观众留存率为在某段时间开始观看，后续仍继续观看直播节目的用户的比例。观众活跃数据所包括的类型数据可以根据实际应用需求进行确定，并不限于上述示例。

S104、将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型。

所述增长率预测模式是已经训练好的数据算法模型，所述数据算法模型可以是监督型机器学习模型。增长率预测模型可以根据输入的目标数据，对目标用户的目标特征数据的增长率的类型进行预测。所述增长率是目标特征数据从推荐前区间到推荐后区间的增长率。增长率类型为对增长率的不同情况进行划分的类型，示例性地，增长率超过预设阈值则确定为A类型，增长率低于预设阈值则确定为B类型，预设阈值可以根据实际应用进行确定。

增长率预测模型可以是预测目标用户的目标特征数据的增长率达到预设增长率的概率，如果预测到增长率超过预设阈值的概率比较高，则确定目标用户的目标特征数据的增长率的类型为A类型，如果预测到增长率超过预设阈值的概率比较低，则确定目标用户的目标特征数据的增长率的类型为B类型。

可选地，所述目标特征数据包括目标时段的平均观众数。其中，所述目标时段为依据作为判断目标用户的直播节目的受众情况的时间周期。示例性地，所述目标时段可以是一天，目标时段的平均观众数即每天的平均的观众数量。目标时段可以根据需求进行确定，示例性地，还可以是每一天的特定的几个小时。

可选地，在所述确定目标增长类型之后，还可以根据所述目标增长类型确定是否对所述目标用户进行优先推荐。

直播平台一般只是根据直播节目当前的受众情况来决定是否进行推荐，有了对直播节目的目标增长类型的预测，可以依据直播节目的受众情况来调整对目标用户的直播节目的推荐方案。示例性地，如果所述目标增长类型表示直播节目的受众情况很好，则可以在下一个推荐区间对目标用户进行优先推荐，可以是在目标用户在本次推荐中区间结束后直接延续推荐，以使更多的用户可以关注到这个直播节目，可以提高推荐位置的使用效率。

本申请实施例公开了一种数据处理方法，通过确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；将所述目标数据输入至增长率预测模型，以确定目标增长类型。本申请实施例可以对目标用户的增长类型进行预测，进而可以根据增长类型确定目标用户对应的受众情况进行预测。

实施例二

图2为本申请实施例二提供的数据处理方法的流程图，该方法可以由数据处理装置来执行，其中，该装置可以由软件和/或硬件实现，一般可以集成在硬件平台上，具体包括如下步骤：

S111、确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述目标特征为与所述样本用户对应的目标观众交互特征。

所述样本用户可以是直播平台上的直播用户，可以从直播平台上选择多个直播用户作为样本用户。

关联特征为与所述样本用户对应的观众交互特征，即直播用户的直播节目的观看者的观众交互特征；所述观众交互特征可以是能够体现观众对直播节目的观看状况的特征，示例性地，可以是观众对一个直播节目的观看时长、观看频率和互动频率等等，观众交互特征能够体现观众对直播节目的态度。

目标观众交互特征为作为判断样本用户的直播节目的受众情况的特征。示例性地，可以是直播节目的观众数。

S112、获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据。

所述关联特征数据即所述关联特征的体现数据，所述推荐前区间为在对直播节目进行推荐前的时间区间，推荐中区间为在对直播节目进行推荐的时间区间，对直播节目进行推荐即将直播节目放置在直播平台的推荐位置处，推荐后区间为对直播节目的推荐结束后的时间区间。

推荐位置可以是位于直播平台的首页，且位于首页的比较醒目的位置，以便进入直播平台的观众可以快速地看到直播节目。推荐的时间区间的长度可以根据具体应用进行设置，示例性地，时间区间可以是一周，所以推荐前区间为对直播节目执行推荐前的一周，推荐中区间为对直播节目执行推荐的一周，推荐后区间为对直播节目执行了推荐结束后的一周。

由于推荐中区间对直播节目进行了推荐操作，直播节目处于推荐位置会导致观看该直播节目的观众的情况发生变化，例如该直播节目的浏览量会增加和订阅用户会增加等。而在对直播节目的推荐结束后，才是体现该直播节目真正的受众情况。因为在推荐中区间时，观众可能因为主页推荐才点击进入该直播节目，而如果对直播节目的推荐结束后，观众仍会主动进入该直播节目，则表示该直播节目的受众情况很好，所以可以获取推荐后区间和推荐前区间的目标特征数据，进而可以判断直播节目的受众情况。

获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据，可以根据关联特征数据和目标特征数据建立两者之间的映射关系。

S113、根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据。

其中，目标增长类型为所述目标特征数据的增长率的类型，所述增长率是目标特征数据从推荐前区间到推荐后区间的增长率，所述增长率的类型为对增长率的不同情况进行划分的类型。可以分别确定每个样本用户的目标特征数据的增长率，并依据类型划分规则对确定每个样本用户的目标增长类型，并根据目标增长类型确定标签数据。标签数据作为对监督型机器学习模型进行训练所依据的输出变量。

可选地，所述根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据的操作可以通过下述方式实施：

根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长率；如果所述目标增长率大于预设增长率，则确定所述样本用户的标签数据为第一参数；如果所述目标增长率小于预设增长率，则确定所述样本用户的标签数据为第二参数。

预设增长率可以根据实际需求进行设置，示例性地，预设增长率可以是30％，如果一个样本用户的目标增长率为40％，则确定该样本用户的标签数据为1，如果样本用户的目标增长率为15％，则确定该样本用户的标签数据为0。

S114、根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据。

在确定了关联影响参数之后，就可以根据关联影响参数来对受众情况进行预测。样本数据为增长率预测模型中的输入数据，根据所述关联影响参数确定样本数据，可以是将所述关联影响参数作为样本数据输入至增长率预测模型中。样本数据作为对监督型机器学习模型进行训练所依据的输入变量。

可选地，所述关联特征数据包括推荐时段和观众活跃数据。所述推荐时段为在推荐中区间中对直播节目执行推荐的时段；在所述推荐中区间中，直播平台可以依据不同的推荐方案对直播节目在不同时间段进行推荐。因为不同直播节目的属性不同，推荐时段的不同也会对受众情况造成影响，示例性地，游戏类的直播节目的观众一般是习惯夜间9:00到12:00观看游戏类直播节目，如果在这个时间区间执行推荐操作，则会让更多的观众注意到该直播节目，进而导致该直播节目的浏览量增多。

推荐时段一般是一个时间区间，为了方便将推荐时段作为样本数据输入至增长率预测模型，所以对推荐时段进行便签编码处理，即不同的时间区间对应不同的编码，根据推荐时段生成推荐时段编码。

可选地，所述确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率的操作可以通过下述方式实施：

其中，预设时段可以是预先设置的时间周期，示例性地，所述预设时段可以是5分钟、10分钟、1个小时或1天。示例性地，预设时段的平均观众数可以是每小时的平均观众数(ACU,Average concurrent users)；新增观众数可以是预设时段内新增的观众数量；平均弹幕数可以是平均每分钟的弹幕数；目标观众可以是观众群中有着特殊权限的观众，平均目标观众数可以是每一天的平均目标观众数；平均观看时长可以是观众的平均观看时长，平均观看时长大于预设时长的观众数可以是观看时长大于5分钟和/或10分钟的观众数；观众订阅量可以是对直播节目进行了订阅操作的观众数量；观众留存率为在某段时间开始观看，后续仍继续观看直播节目的用户的比例。观众活跃数据所包括的类型数据可以根据实际应用需求进行确定，并不限于上述示例。

相应地，所述目标特征数据可以包括目标时段的平均观众数。其中，所述目标时段为依据作为判断样本用户的直播节目的受众情况的时间周期；示例性地，所述目标时段可以是一天，目标时段的平均观众数即每天的平均的观众数量。目标时段可以根据需求进行确定，示例性地，还可以是每一天的特定的几个小时。

S115、将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型。

所述数据算法模型为监督型机器学习模型，将所述样本数据和标签数据输入至数据算法模型进行训练，以使数据算法模型建立样本数据和标签数据之间的映射关系。训练得到的增长率预测模型可以依据输入的目标数据预测目标特征的目标增长类型。

可选地，所述根据所述关联影响参数确定样本数据的操作可以通过下述方式实施：

将所述关联影响参数和所述标签数据输入逻辑回归模型，以确定每个关联特征的特征权重；根据每个关联特征的特征权重对关联特征进行排序，并将前预设数量个关联特征的关联影响参数确定为样本数据。

其中，所述逻辑回归模型可以根据输入的关联影响参数和标签数据进行训练，以输出每个关联影响参数对标签数据的影响程度，即可以确定每个关联特征的特征权重。特征权重为关联特征对目标特征数据的目标增长类型的影响度，特征权重越大表示该关联特征对目标增长类型的影响越大，特征权重越小表示该关联特征对目标增长类型的影响越小。

确定的样本用户的关联特征中可能包括多个类型的数据，但是针对直播节目的类型不同，对应的观众群体类型不同，关联特征中实际对目标增长类型的影响的数据类型有所不同，所以根据逻辑回归模型来确定关联特征中每个数据类型的特征权重，再根据特征权重对关联特征进行排序，将前预设数量个关联特征的关联影响参数确定为样本数据，即将影响较大的预设数量个关联特征作为样本数据，可以提高增长率预测模型的准确性。

可选地，所述将所述样本数据和所述标签数据输入至数据算法模型进行训练的操作可以通过下述方式实施：

将所述样本数据的第一比例确定为训练集，所述样本数据的第二比例确定为测试集；将所述训练集、所述测试集和所述标签数据输入至数据算法模型进行训练。

其中，第一比例和第二比例可以依据实际需求进行设置，示例性地，第一比例可以是80％，第二比例可以是20％。训练集是作为数据算法模型的学习样本数据集，测试集为用于对学习后的数据算法模型的参数进行调整所依据的数据集。通过将训练集和测试集对数据算法模型进行学习和参数调整，得到最终的数据算法模型。

本申请实施例公开了一种数据处理方法，通过确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述目标特征为与所述样本用户对应的目标观众交互特征；获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据；根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据；根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据；将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型。可以依据样本用户的关联特征和目标特征训练生成增长率预测模型，增长率预测模型建立了关联影响参数和目标增长类型的映射关系，进而可以通过增长率预测模型实现对目标用户的增长类型进行预测，以及可以根据增长类型确定目标用户对应的受众情况进行预测。

实施例三

图3为本申请实施例三提供的数据处理装置的结构示意图，该装置可以由软件和/或硬件实现，一般可以集成在硬件平台上。如图3所示，所述数据处理装置包括：

第一特征确定模块201，用于确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；

第一数据获取模块202，用于获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；

目标数据获取模块203，用于根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；

增长确定模块204，用于将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型。

本申请实施例公开了一种数据处理装置，通过确定目标用户的关联特征，其中，所述关联特征为与所述目标用户对应的观众交互特征；获取所述目标用户在推荐前区间和推荐中区间的关联特征数据；根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据；将所述目标数据输入至增长率预测模型，以确定目标增长类型。本申请实施例可以对目标用户的增长类型进行预测，进而可以根据增长类型确定目标用户对应的受众情况进行预测。

可选地，所述关联特征数据包括推荐时段和观众活跃数据，目标数据获取模块具体包括：

第一确定模块，用于确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率，以及对所述推荐时段进行标签编码处理以确定推荐时段编码；

第一参数确定模块，用于将所述活跃增长率和所述推荐时段编码确定为关联影响参数。

可选地，第一确定模块具体用于：

可选地，所述观众活跃数据包括预设时段的平均观众数、新增观众数、平均弹幕数、平均目标观众数、平均观看时长、平均观看时长大于预设时长的观众数、观众订阅量和观众留存率；

所述目标特征数据包括目标时段的平均观众数。

可选地，还包括：

推荐判断模块，用于在所述确定目标增长类型之后，根据所述目标增长类型确定是否对所述目标用户进行优先推荐。

实施例四

图4为本申请实施例四提供的数据处理装置的结构示意图，该装置可以由软件和/或硬件实现，一般可以集成在硬件平台上。如图4所示，所述数据处理装置包括：

第二特征确定模块301，用于确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述目标特征为与所述样本用户对应的目标观众交互特征；

第二数据获取模块302，用于获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据；

标签数据确定模块303，用于根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据；

样本数据确定模块304，根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据；

训练模块305，用于将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型。

本申请实施例公开了一种数据处理装置，通过确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述目标特征为与所述样本用户对应的目标观众交互特征；获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据；根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据；根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据；将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型。可以依据样本用户的关联特征和目标特征训练生成增长率预测模型，增长率预测模型建立了关联影响参数和目标增长类型的映射关系，进而可以通过增长率预测模型实现对目标用户的增长类型进行预测，以及可以根据增长类型确定目标用户对应的受众情况进行预测。

可选地，所述关联特征数据包括推荐时段和观众活跃数据，样本数据确定模块具体包括：

第二确定单元，用于确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率，以及对所述推荐时段进行标签编码处理以确定推荐时段编码；

第二参数确定模块，用于将所述活跃增长率和所述推荐时段编码确定为关联影响参数。

可选地，第二确定单元具体用于：

所述目标特征数据包括目标时段的平均观众数。

可选地，样本数据确定模块具体用于：

可选地，标签数据确定模块具体用于：

可选地，训练模块具体用于：

实施例五

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行数据处理方法，该方法包括：

本申请实施例还提供另一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行数据处理方法，该方法包括：

可选的，该计算机可执行指令在由计算机处理器执行时还可以用于执行本申请任意实施例所提供的数据处理方法。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例六

如图5所示，为本申请实施例六提供的一种终端设备的硬件结构示意图，如图5所示，该终端设备包括：

一个或多个处理器410，图5中以一个处理器410为例；

存储器420；

所述终端设备还可以包括：输入装置430和输出装置440。

所述终端设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器420作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的一种数据处理方法对应的程序指令/模块(例如，图3所示的第一特征确定模块201、第一数据获取模块202、目标数据获取模块203和增长确定模块204，或图4所示的第二特征确定模块301、第二数据获取模块302、标签数据确定模块303、样本数据确定模块304和训练模块305)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述方法实施例的一种数据处理方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，包括：

确定目标用户的关联特征，其中，所述目标用户是直播平台上的直播用户，所述关联特征为与所述目标用户对应的观众交互特征；

获取所述目标用户在推荐前区间和推荐中区间的关联特征数据，所述推荐前区间为在对直播节目进行推荐前的时间区间，所述推荐中区间为在对直播节目进行推荐的时间区间，所述关联特征数据包括观众活跃数据；

根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据，所述关联影响参数包括所述关联特征数据从推荐前区间到推荐中区间的变化体现的参数和/或对受众情况的预测有影响的参数，所述目标数据为增长率预测模型中的输入数据；

将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述增长率预测模型为对目标用户在推荐后的受众情况变化预测的模型，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型，所述增长率的类型为对增长率的不同情况进行划分的类型，所述目标特征数据包括目标时段的平均观众数。

2.根据权利要求1所述的方法，其特征在于，所述关联特征数据包括推荐时段和观众活跃数据，所述根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率包括：

4.根据权利要求2所述的方法，其特征在于，所述观众活跃数据包括预设时段的平均观众数、新增观众数、平均弹幕数、平均目标观众数、平均观看时长、平均观看时长大于预设时长的观众数、观众订阅量和观众留存率；

所述目标特征数据包括目标时段的平均观众数。

5.根据权利要求1所述的方法，其特征在于，在所述确定目标增长类型之后，还包括：

6.一种数据处理方法，其特征在于，包括：

确定样本用户的指标特征，所述指标特征包括关联特征和目标特征，其中，所述关联特征为与所述样本用户对应的关联观众交互特征，所述关联观众交互特征是能够体现观众对直播节目的观看状况的特征，所述目标特征为与所述样本用户对应的目标观众交互特征，所述目标观众交互特征为作为判断样本用户的直播节目的受众情况的特征；

获取所述样本用户在推荐前区间和推荐中区间的关联特征数据，以及在推荐前区间和推荐后区间的目标特征数据，所述推荐前区间为在对直播节目进行推荐前的时间区间，所述推荐中区间为在对直播节目进行推荐的时间区间，所述推荐后区间为对直播节目的推荐结束后的时间区间；

根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定样本数据，所述关联影响参数包括所述关联特征数据从推荐前区间到推荐中区间的变化体现的参数和/或对受众情况的预测有影响的参数；

将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型；

所述方法还包括：

将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型，所述增长率类型为对增长率的不同情况进行划分的类型，所述目标特征数据包括目标时段的平均观众数。

7.根据权利要求6所述的方法，其特征在于，所述关联特征数据包括推荐时段和观众活跃数据，所述根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数包括：

8.根据权利要求7所述的方法，其特征在于，所述确定所述观众活跃数据从推荐前区间到推荐中区间的活跃增长率包括：

9.根据权利要求7所述的方法，其特征在于，所述观众活跃数据包括预设时段的平均观众数、新增观众数、平均弹幕数、平均目标观众数、平均观看时长、平均观看时长大于预设时长的观众数、观众订阅量和观众留存率；

所述目标特征数据包括目标时段的平均观众数。

10.根据权利要求6所述的方法，其特征在于，所述根据所述关联影响参数确定样本数据包括：

11.根据权利要求6至10任一项所述的方法，其特征在于，所述根据所述目标特征数据确定所述目标特征从推荐前区间到推荐后区间的目标增长类型，并根据所述目标增长类型确定标签数据包括：

12.根据权利要求6至10任一项所述的方法，其特征在于，所述将所述样本数据和所述标签数据输入至数据算法模型进行训练，包括：

13.一种数据处理装置，其特征在于，包括：

第一特征确定模块，用于确定目标用户的关联特征，其中，所述目标用户是直播平台上的直播用户，所述关联特征为与所述目标用户对应的观众交互特征；

第一数据获取模块，用于获取所述目标用户在推荐前区间和推荐中区间的关联特征数据，所述推荐前区间为在对直播节目进行推荐前的时间区间，所述推荐中区间为在对直播节目进行推荐的时间区间，所述关联特征数据包括观众活跃数据；

目标数据获取模块，用于根据所述关联特征数据确定所述关联特征从推荐前区间到推荐中区间的关联影响参数，并根据所述关联影响参数确定目标数据，所述关联影响参数包括所述关联特征数据从推荐前区间到推荐中区间的变化体现的参数和/或对受众情况的预测有影响的参数，所述目标数据为增长率预测模型中的输入数据；

增长确定模块，用于将所述目标数据输入至增长率预测模型，以确定目标增长类型，其中，所述增长率预测模型为对目标用户在推荐后的受众情况变化预测的模型，所述目标增长类型为所述目标用户的目标特征数据从推荐前区间到推荐后区间的增长率的类型，所述增长率的类型为对增长率的不同情况进行划分的类型，所述目标特征数据包括目标时段的平均观众数。

14.一种数据处理装置，其特征在于，包括：

训练模块，用于将所述样本数据和所述标签数据输入至数据算法模型进行训练，得到增长率预测模型；

所述关联观众交互特征是能够体现观众对直播节目的观看状况的特征，所述目标观众交互特征为作为判断样本用户的直播节目的受众情况的特征；

所述推荐前区间为在对直播节目进行推荐前的时间区间，所述推荐中区间为在对直播节目进行推荐的时间区间，所述推荐后区间为对直播节目的推荐结束后的时间区间；

所述关联影响参数包括所述关联特征数据从推荐前区间到推荐中区间的变化体现的参数和/或对受众情况的预测有影响的参数；

所述装置还包括：

15.一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-12所述的数据处理方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12所述的数据处理方法。