CN112015726B

CN112015726B - 一种用户活跃度预测方法、系统及可读存储介质

Info

Publication number: CN112015726B
Application number: CN202010847888.8A
Authority: CN
Inventors: 孙仁财
Original assignee: Guangdong Huanwang Technology Co Ltd
Current assignee: Guangdong Huanwang Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2024-04-12
Anticipated expiration: 2040-08-21
Also published as: CN112015726A

Abstract

本发明实施例公开一种用户活跃度预测方法、系统及装置及可读存储介质。属于多媒体技术领域，包括：接收用户原始使用数据，根据原始使用数据，按照预设使用规则提取用户特征；对原始使用数据进行第一次清洗和去噪；将经过第一次清洗和去燥的原始使用数据，输入至用户属性标签模型，得到用户属性数据；和\或，将经过第一次清洗和去燥的原始使用数据输入，输入至用户行为标签模型，得到用户行为数据；对用户属性数据，和\或，用户行为数据进行第二次清洗，进行用户关联度计算，得到计算结果；提取用户活跃特征数据，以生成用户预测特征数据集；通过预测模型，输出预测结果。本发明提供的技术方案具有人力投入少、效率高、准确率高的优点。

Description

一种用户活跃度预测方法、系统及可读存储介质

技术领域

本发明属于多媒体技术领域，具体涉及一种用户活跃度预测方法、系统及可读存储介质。

背景技术

在这个高速发展的互联网时代，流量爆发意味着流量变现能力可带来丰富的资源变现机遇。因此预测、感知下次流量爆发的方向就成了迫切需求解决的问题。

目前现有市场分析决策，多是采用当日与历史数据进行人工方式整体工作规划，采用分析已发生事件数据的工作模式来为运营工作进行决策参考。且分析周期及形式比较局限，并不能对运营、推广等工作带来更多决策帮助及方向指引。这就照成工作重心走向需要人工决策判断、风险性较高的问题。另外，此种工作决策需要运营人员具备丰富的经验及大量的实际工作，业务发展对运营人员综合素质要求较高、依赖性较强、人工成本较高。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种用户活跃度预测方法、系统及可读存储介质，以解决现有技术中用户活跃度预测，人力投入大、效率不高的问题。

为实现以上目的，本发明采用如下技术方案：

第一方面，一种用户活跃度预测方法，包括：

接收用户原始使用数据，并将所述用户原始使用数据传送至数据仓库；

根据所述原始使用数据，按照预设使用规则提取用户特征；

根据所述用户特征，对所述原始使用数据进行第一次清洗和去噪；

将经过第一次清洗和去燥的原始使用数据按照第一预设标准，输入至用户属性标签模型，得到用户属性数据；和\或，将经过第一次清洗和去燥的原始使用数据按照第一预设标准，输入至用户行为标签模型，得到用户行为数据；

按照第二预设标准对所述用户属性数据，和\或，所述用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；

根据所述计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；

根据所述预测特征集，通过预测模型，输出预测结果。

进一步地，所述接收用户原始使用数据，包括：

接收广电、新媒体、运营商、智能电视业务终端厂商的终端设备用户使用日志数据；和/或，

接收智能电视以及智能机顶盒通过自有接口获取到的用户原始使用数据，所述智能电视以及智能机顶盒通过在终端系统层、应用层以及服务层进行数据埋点，获取到的用户原始使用数据。

进一步地，所述第一次清洗包括，对所述用户原始使用数据格式进行调整，和\或，数据格式转换。

进一步地，包括：

将获取的所述广电、新媒体、运营商、智能电视业务终端厂商的终端设备用户使用日志数据，通过传输协议传送至数据仓库；和/或，

将所述通过在智能电视以及智能机顶盒终端系统层、应用层以及服务层进行数据埋点，通过自有接口进行获取用户原始使用数据，直接存储至欢网数据仓库。

进一步地，所述用户特征包括用户的地理位置、用户使用频次、用户使用时长、用户使用时间点。

进一步地，所述活跃特征数据包括：用户开机时间点特征、用户使用时长特征以及用户地理位置特征。

进一步地，根据所述预测特征集，通过预测模型计算预测结果，包括：

将所述预测特征集输入预测模型，得出预测结果数据，所述预测结果数据为按不同周期规则产生的预测结果数据。

第二方面，一种用户活跃度预测系统，包括：

数据获取模块，用于接收用户原始使用数据，并将所述用户原始使用数据传送至数据仓库；

特征提取模块，用于根据所述原始使用数据，按照预设使用规则提取用户特征；

第一数据处理模块，用于根据所述用户特征，对所述原始使用数据进行第一次清洗和去噪；

用户标签模块，用于将经过第一次清洗和去燥的原始使用数据输入，按照第一预设标准，输入至用户属性标签模型，得到用户属性数据；和\或，将经过第一次清洗和去燥的原始使用数据输入，按照第一预设标准，输入至用户行为标签模型，得到用户行为数据；

第二数据处理模块，用于按照第二预设标准对所述用户属性数据，和\或，用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；

预测特征数据生成模块，用于根据所述计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；

结果输出模块，根据所述预测特征集，通过预测模型，计算预测结果。

进一步地，所述系统还包括，

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行以上任一项所述的用户活跃度预测模型训练方法的步骤。

第三方面，一种计算机可读存储介质，用于存储程序，所述程序被执行时实现以上任一项所述的用户活跃度预测方法的步骤。

本发明采用以上技术方案，至少具备以下有益效果：

通过获取用户原始使用数据，并将用户原始使用数据传送至数据仓库；根据原始使用数据，按照预设使用规则提取用户特征；根据用户特征，对原始使用数据进行第一次清洗和去噪；以使得数据格式统一，便于操作；通过将经过第一次清洗和去燥的原始使用数据输入用户属性标签模型，得到用户属性数据，和\或，通过将经过第一次清洗和去燥的原始使用数据输入至用户行为标签模型，得到用户行为数据，对用户属性数据，和\或，用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；根据计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；根据预测特征集，通过预测模型，计算预测结果。相比现有技术中人工预测用户活跃度的方法，本发明提供的技术方案，人力投入少、效率高、准确率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用户活跃度预测方法的流程示意图。

图2为本发明一实施例提供的一种用户活跃度预测方法系统的示意框图。

附图标记：

101-数据获取模块；102-特征提取模块；103-第一数据处理模块；104-用户标签模块；105-第二数据处理模块；106-预测特征数据生成模块；107-结果输出模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

参见图1，本发明一实施例提供的一种用户活跃度预测方法的流程示意图，包括：

步骤S1、接收用户原始使用数据，并将所述用户原始使用数据传送至数据仓库；

步骤S2、根据所述原始使用数据，按照预设使用规则提取用户特征；

步骤S3、根据所述用户特征，对所述原始使用数据进行第一次清洗和去噪；

步骤S4、将经过第一次清洗和去燥的原始使用数据输入，按照第一预设标准，输入至用户属性标签模型，得到用户属性数据；和\或，将经过第一次清洗和去燥的原始使用数据输入，按照第一预设标准，输入至用户行为标签模型，得到用户行为数据；

步骤S5、按照第二预设标准对所述用户属性数据，和\或，用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；

步骤S6、根据所述计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；

步骤S7、根据所述预测特征集，通过预测模型，输出预测结果。

可以理解的是，本发明提供的技术方案，通过获取用户原始使用数据，并将用户原始使用数据传送至数据仓库；根据原始使用数据，按照预设使用规则提取用户特征；根据用户特征，对原始使用数据进行第一次清洗和去噪；以使得数据格式统一，便于操作；通过将经过第一次清洗和去燥的原始使用数据输入用户属性标签模型，得到用户属性数据，和\或，通过将经过第一次清洗和去燥的原始使用数据输入至用户行对用户属性数据，和\或，用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；根据计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；根据预测特征集，通过预测模型，计算预测结果。相比现有技术中人工预测用户活跃度的方法，本发明提供的技术方案，人力投入少、效率高、准确率高。

作为上述方法的进一步改进，

优选地，接收用户原始使用数据，包括：

接收智能电视以及智能机顶盒通过自有接口获取到的用户原始使用数据，智能电视以及智能机顶盒通过在终端系统层、应用层以及服务层进行数据埋点，获取到的用户原始使用数据。

可以理解为，本申请所提供的方法，在接收用户原始使用数据的时候，既可以直接接收广电、新媒体、运营商、智能电视业务终端厂商的终端设备用户使用日志数据，也可以通过智能电视以及智能机顶盒自有接口获取到的用户原始使用数据，通过智能电视以及智能机顶盒通过在终端系统层、应用层以及服务层进行数据埋点，从而获取到的用户原始使用数据。

优选地，将获取的所述广电、新媒体、运营商、智能电视业务终端厂商的终端设备用户使用日志数据，通过传输协议传送至数据仓库；和/或，

将通过在智能电视以及智能机顶盒终端系统层、应用层以及服务层进行数据埋点，通过自有接口进行获取用户原始使用数据，直接存储至数据仓库。

可以理解为，本申请所提供的方法，在直接接收广电、新媒体、运营商、智能电视业务终端厂商的终端设备用户使用日志数据时，通过传输协议传送至数据仓库；在通过智能电视以及智能机顶盒自有接口获取到的用户原始使用数据时，就可以直接存储至数据仓库。通过采用不同的存储方式，保证了多种数据的安全存储。

作为上述方法的进一步改进，在一个实施例中，

第一次清洗包括，对所述用户原始使用数据格式进行调整，和\或，数据格式转换。

可以理解为，在接收到用户原始使用数据的时候，由于本申请支持多种数据来源，那么，多种数据来源的格式会有不同，所以，在接收到用户原始使用的数据的时候，需要先对数据的格式进行调整，和\或，数据格式转换。将原始数据调整为统一的格式，以便于后续的操作。

优选地，按照预设使用规则提取用户特征；其中，用户特征包括用户的地理位置、用户使用频次、用户使用时长以及用户使用时间点。

在一个实施例中，通过获取到的用户原始使用数据，按照预设使用规则提取用户特征；比如，要对1000万用户活跃度进行预测，那么，首先获取到用户原始使用数据，然后根据用户的地理位置、用户使用频次、用户使用时长以及用户使用时间点，提取到该用户的用户特征，根据用户特征，根据用户特征，预测用户活跃特征数据，其中活跃特征数据包括：用户开机时间点特征、用户使用时长特征以及用户地理位置特征。然后，预测用户感兴趣的内容，适当的投放用户感兴趣的广告。

需要说明的是，用户特征不限于以上几点，本领域技术人员可以根据实际需要设置用户特征，本申请对于用户特征不做具体限制。

优选地，根据所述预测特征集，通过预测模型计算预测结果，包括：

可以理解为，对于同一组数据，设置不同的周期规则，可以产生不同的预测结果数据，比如设置超短期的规则，可以是按照1小时，那么产生的预测结果数据就是预测未来一小时内用户活跃度的结果数据，还可以设置短期规则，比如可以是一天，那么产生的预测结果数据就是预测未来一天内用户活跃度的结果数据，还可以是长期的规则，比如，可以是五十天，那么产生的预测结果数据就是未来五十天内用户活跃度结果的数据。

需要说明的是，其中，不同的周期规则，包括超短期、短期以及长期，本申请对于超短期、短期以及长期的时间不做具体的限制，本领域技术人员可以根据实际需求自定义设置。

另外，在用户实际观看电视频道过程中，还会出现爆点时期，在处理用于原始使用数据过程中，当出现爆点的时候，根据爆点的观看时间以及观看频率，将爆点的情况也融合至预测模型，当存在爆点数据的时候，就需要调整用户行为的比重。使得预测模型预测的结果数据更加准确。

另外，参见图2，为本发明一实施例提供的一种用户活跃度预测方法系统的示意框图。

如图所示，该系统包括：

数据获取模块101，用于接收用户原始使用数据，并将所述用户原始使用数据传送至数据仓库；

特征提取模块102，用于根据所述原始使用数据，按照预设使用规则提取用户特征；

第一数据处理模块103，用于根据所述用户特征，对所述原始使用数据进行第一次清洗和去噪；

用户标签模块104，用于将经过第一次清洗和去燥的原始使用数据输入，按照第一预设标准，输入至用户属性标签模型，得到用户属性数据；和\或，将经过第一次清洗和去燥的原始使用数据输入，按照第一预设标准，输入至用户行为标签模型，得到用户行为数据；

第二数据处理模块105，用于按照第二预设标准对所述用户属性数据，和\或，用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；

预测特征数据生成模块106，用于根据所述计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；

结果输出模块107，根据所述预测特征集，通过预测模型，输出预测结果。

可以理解的是，本发明提供的技术方案，通过数据获取模块，获取用户原始使用数据，将用户原始使用数据传送至数据仓库；通过特征提取模块，根据原始使用数据，按照预设使用规则提取用户特征；通过第一数据处理模块，根据用户特征，对原始使用数据进行第一次清洗和去噪；以使得数据格式统一，便于操作；通过用户标签模块，将经过第一次清洗和去燥的原始使用数据输入用户属性标签模型，得到用户属性数据、和\或、通过将经过第一次清洗和去燥的原始使用数据输入至用户行为标签模型，得到用户行为数据，通过第二数据处理模块，对用户属性数据、和\或、用户行为数据进行第二次清洗，并按照预设业务规则进行用户关联度计算，得到计算结果；通过预测特征数据生成模块，根据计算结果，提取用户活跃特征数据，以生成用户预测特征数据集；通过结果输出模块，根据预测特征集，通过预测模型，计算预测结果。相比现有技术中人工预测用户活跃度的方法，本发明提供的技术方案，人力投入少、效率高、准确率高。

优选地，所述系统还包括：

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的用户活跃度预测模型训练方法的步骤。

优选地，一种计算机可读存储介质，用于存储程序，所述程序被执行时实现以上任一项所述的用户活跃度预测方法的步骤。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用户活跃度预测方法，其特征在于，包括：

根据所述原始使用数据，按照预设使用规则提取用户特征；

根据所述用户预测特征数据集，通过预测模型，输出预测结果；

其中，所述用户活跃特征数据包括：用户开机时间点特征、用户使用时长特征以及用户地理位置特征。

2.根据权利要求1所述的方法，其特征在于，所述接收用户原始使用数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一次清洗包括，对所述用户原始使用数据格式进行调整，和\或，数据格式转换。

4.根据权利要求2所述的方法，其特征在于，包括：

将所述通过在智能电视以及智能机顶盒终端系统层、应用层以及服务层进行数据埋点，通过自有接口进行获取用户原始使用数据，直接存储至数据仓库。

5.根据权利要求1所述的方法，其特征在于，所述用户特征包括用户的地理位置、用户使用频次、用户使用时长、用户使用时间点。

6.根据权利要求1所述的方法，其特征在于，根据所述预测特征集，通过预测模型计算预测结果，包括：

7.一种用户活跃度预测系统，其特征在于，包括：

结果输出模块，根据所述用户预测特征数据集，通过预测模型，计算预测结果；

8.根据权利要求7所述的系统，其特征在于，所述系统还包括，

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任一项所述的用户活跃度预测方法的步骤。

9.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至6中任一项所述的用户活跃度预测方法的步骤。