CN115525652A

CN115525652A - 用户访问数据处理方法及装置

Info

Publication number: CN115525652A
Application number: CN202211163989.9A
Authority: CN
Inventors: 陆志君
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-27

Abstract

本申请实施例提供了用户访问数据处理方法及装置，其中，所述用户访问数据处理方法包括：获取目标业务在目标维度的用户访问数据，将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型，根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果。

Description

用户访问数据处理方法及装置

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种用户访问数据处理方法。本申请一个或者多个实施例同时涉及一种用户访问数据处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

在用户行为分析和人工智能学习等领域，需要使用和存储标签数据，例如用户行为分析中用于标记用户画像的性别、年龄、城市和近日活跃时长等数据属于统计类标签，用户行为分析中根据“近30天交易次数≥2”定义“消费活跃”等数据属于规则类标签，以及人工智能学习中通过数据挖掘产生的数据，例如根据用户的消费习惯判断其对某商品的偏好程度等数据属于机器学习挖掘类标签。

为存储这些标签数据将需要大量的存储空间。如果使用能够节约存储空间的存储技术去存储这些标签数据，可以减少对存储空间的占用，从而在相同性能效果的情况下降低对存储空间的要求，尤其在标签数据数量巨大时能够取得非常明显的成本节约效果。因此，亟需一种有效的方法以解决此类问题。

发明内容

有鉴于此，本申请实施例提供了一种用户访问数据处理方法。本申请一个或者多个实施例同时涉及一种用户访问数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中在进行用户行为分析时，存储大量的标签数据需消耗大量存储空间，无法减少对存储空间的占用的技术缺陷。

根据本申请实施例的第一方面，提供了一种用户访问数据处理方法，包括：

获取目标业务在目标维度的用户访问数据；

将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储；

基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型；

根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果。

根据本申请实施例的第二方面，提供了一种用户访问数据处理装置，包括：

获取模块，被配置为获取目标业务在目标维度的用户访问数据；

压缩模块，被配置为将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储；

构建模块，被配置为基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型；

确定模块，被配置为根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果。

根据本申请实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述用户访问数据处理方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述用户访问数据处理方法的步骤。

本申请一个实施例实现了一种用户访问数据处理方法及装置，其中，所述用户访问数据处理方法包括获取目标业务在目标维度的用户访问数据，将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型，根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果。

本申请实施例利用目标压缩位图的标记特性，通过一个数据存储模型即可覆盖任意行为对应的一系列统计指标(访问标签数据)，从而使得在进行用户行为分析时，利用该存储技术存储相关的访问标签数据，可以减少对存储空间的占用，并有利于降低数据存储成本。

附图说明

图1是本申请一个实施例提供的一种用户访问数据处理方法的架构图；

图2是本申请一个实施例提供的一种用户访问数据处理方法的流程图；

图3是本申请一个实施例提供的一种所述用户访问数据处理过程的示意图；

图4是本申请一个实施例提供的一种用户访问数据处理方法的处理过程流程图；

图5是本申请一个实施例提供的一种用户访问数据处理装置的结构示意图；

图6是本申请一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

DAU：Daily Active Users，即一天之内活跃用户去重。

WAU：Weekly Active Users，即一周之内活跃用户去重，可以是自然周，也可以是业务周。

MTD：Month TO Days，即月初至今日。

任务幂等性：同一计算任务在不同时间点或者时间范围内执行，无论执行多少次，都不影响各自的执行结果。

UDF：User Defined Function，用户自定义函数。

BitMap：BitMap是一种比较常用的数据结构，位图索引被广泛应用与数据库和搜索引擎中，能快速定位一个数值是否在存在，是一种高效的数据压缩算法，能显著加快查询速度。但是BitMap还是会占用大量内存(线性增长)，所以我们一般还需要对BitMap进行压缩处理。

Hive：基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

ClickHouse：开源的一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)，简称CK，主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。

用户在指定设备产生一系列行为事件，通过用户授权、设备客户端埋点上报、服务端上报等方式，可以获取这部分的底层明细数据，然后利用数据仓库建模满足各类分析场景或者数据产品的需求。从数据仓库角度来说，用户行为具备七要素：1.用户(唯一设备标识)；2.发生时间；3.环境(例如：机型、品牌、页面、模块)；4.业务类型(例如：直播、游戏、社区等)；5.具体行为(例如：曝光、点击、评论、点赞、花费等)；6.行为次数；7.行为深度(例如：曝光时长、点击频率、评论字数、花费金额等)，对其标记的方法通常是记录每日增量明细数据，下游根据具体使用场景去单独建模。

以用户访问行为为例，用户访问相关数据指标使用非常频繁，除了DAU外，其新激活、留存、访问频次、MAU、MTD、WAU等计算较为复杂而且多变，在建模过程中，除了保留用户访问明细数据外，不同场景下均需要单独建模。

从模型通用建设角度来看资源耗费巨大，不同时间跨度的行为指标散乱，对使用方来说也不是很友好，需要有一套统一的用户访问标记方案。

综上，目前的处理方式存在以下缺陷：

1、一般行为标记的建模方案面向同一场景去建设时还会存在对历史数据引用和复算，对存储和计算上产生较大浪费。例如MTD计算，每天需要重新计算月初到今天的访问用户去重，但月初到昨天已经计算好的部分在今天还会被重新计算和存储。

2、一般行为标记的建模方案是面向不同场景去建设不同的模型，无法去抽象中间共同点，对存储和计算上产生较大浪费。例如未来N日留存和未来N日访问频次计算，虽然场景不同但计算具有相似性，而一般方案是单独建模存储。

3、一般行为标记的建模方案产出的模型拥有模型自依赖性，无法做到任意时间点数据回刷，即回刷不保证不幂等，例如新激活计算，需要拿每天的增量访问(7000w+)去关联历史到昨天的所有访问信息(20亿+)，如果中间有一天数据出错，那么往后任意一天的庞杂计算都是徒劳的。

在海量数据背景下，需要快速对数据进行评估、计算和中间存储，一系列专门为大数据准备的数据结构应运而生。比如HyerLogLog、BloomFilterd等，可以快速利用小存储预估出指定的数据量。这些都是基于概率的算法，虽然运行速度快但并不能获得准确数据量。BitMap可以解决这类问题，是数据领域和搜索引擎中很早就出现的的数据结构，例如在Java中BitSet可以用来替代HashSet做数字精确去重，在Redis中也有setbit和getbit直接操作bitmap，其底层实现都是直接翻译成0和1的二进制结构。但其存在以下两个很明显的问题：首先，BitSet内部的long[]数组是基于向量的，即随着Set内存放的最大数字而动态扩展。数组的最大长度计算公式：(maxValue-1)>>6+1，也就是说当存储一个较大值进去，就直接可以让内存占用兆(M)级别以上，过大的值域将会导致OOM(比如指定Long.MAX_VALUE)。其次，以一个BitMap存储40亿个数据为例，基于32位的Unsigned Int，大概消耗2^{32}bit＝2^{29}B＝2^9MB＝512MB内存，但当数据稀疏的时候，也需要开辟这么大的内存空间，就发挥不出其存储效率。为了解决位图不适应稀疏存储的问题，很多研究者提出了各种算法对稀疏位图进行压缩，减少内存占用并提高效率。比较有代表性的有WAH1、EWAH2、Concise3，以及RoaringBitmap4。前三种算法都是基于行程长度编码(Run-lengthencoding,RLE)做压缩的，而RoaringBitmap可看作其改进，因此，本方案引入RBM作为访问标记模型的核心数据结构，并提供统一的行为标记方法，保证复用历史计算结果，对同一场景的计算和存储不造成浪费；另外，预置一批通用的计算函数，保证相似的计算统一化处理逻辑，对不同场景的计算和存储也不造成浪费，还可以保证任意时间的任务回刷幂等性。

在本申请中，提供了一种用户访问数据处理方法。本申请一个或者多个实施例同时涉及一种用户访问数据处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本申请一个实施例提供的一种用户访问数据处理方法的架构图。

图1中，先获取目标业务在目标维度的用户访问数据，将用户访问数据中包含的访问时间信息，按照目标压缩位图(RBM，RoaringBitmap)对应的数据结构进行压缩，生成对应的压缩结果并存储，基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型，根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果，以利用目标压缩位图的标记特性，通过一个数据存储模型即可覆盖任意行为对应的一系列统计指标(访问标签数据)，从而使得在进行用户行为分析时，利用该存储技术存储相关的访问标签数据，可以减少对存储空间的占用，并有利于降低数据存储成本。

参见图2，图2示出了根据本申请一个实施例提供的一种用户访问数据处理方法的流程图，包括以下步骤：

步骤202，获取目标业务在目标维度的用户访问数据。

具体的，目标业务即可以是对象推荐业务，例如广告推荐业务或商品推荐业务。本申请实施例可通过对目标业务相关的用户访问数据进行分析，例如，分析某一APP的用户的活跃度、分析活跃用户的数量、分析用户的留存量等的方式，进行对象推荐；其中，目标维度，即与用户访问行为相关的维度，由于用户通常可使用智能设备进行APP访问或进行对象访问，因此，目标维度即可以用户所使用智能设备的设备系统(IOS系统或Andriod系统等)、设备型号等。用户访问数据，包括但不限于用户(唯一设备标识)、访问时间、环境(例如：机型、品牌、页面、模块)、访问的业务类型(例如：直播、游戏、社区等)、具体访问行为(例如：曝光、点击、评论、点赞、花费等)、行为次数、行为深度(例如：曝光时长、点击频率、评论字数、花费金额等)等。

本申请实施例在通过用户访问数据统计目标业务的某一目标统计指标的情况下，由于需对相关的用户访问数据进行存储，而这部分用户访问数据的数据量通常是巨大的，若通过普通的存储方式对其进行存储，则需消耗较大的存储空间，为能够节约存储空间，减少其对存储空间的占用，并能够节约存储成本，本申请实施例则利用目标压缩位图的标记特性，来对其进行存储，具体可先获取目标业务在目标维度的用户访问数据，然后按照目标压缩位图的数据存储方式，对用户访问数据进行相应的处理并存储。

步骤204，将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储。

具体的，目标压缩位图，即可以是RoaringBitmap，以下将其简称为RBM，RBM当前有两个版本，分别用来存储32位和64位整数。根据其存储结构原理，存储32位整数时，将32位int(无符号的)类型数据划分为2^16个桶(即使用数据的高16位二进制作为桶的编号，最多可能有2^16＝65536个桶)，每个桶有一个Container(容器)来存放一个数值的低16位，一个RBM就是很多Container的集合。

基于此，将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，包括：

按照目标压缩位图的数据结构，将所述用户访问数据中包含的访问时间信息转化为目标数据类型，其中，所述目标数据类型包括32位二进制数；

对目标数据类型的所述访问时间信息进行数据拆分，生成第一访问时间标识及第二访问时间标识，其中，所述第一访问时间标识及所述第二访问时间标识分别包括16位二进制数；

基于所述第一访问时间标识，索引获得所述目标压缩位图中的目标桶索引号，并将所述第二访问时间标识存储至所述目标桶索引号对应的容器。

具体的，若目标压缩位图为RBM，且根据其存储结构原理，存储32位整数，即可按照其数据结构，将用户访问数据中包含的访问时间信息转化为32位二进制数，然后可对转化结果进行拆分，生成第一访问时间标识和第二访问时间标识。

其中，由于通过RBM存储32位整数时，可将32位int(无符号的)类型数据划分为2^16个桶(即使用数据的高16位，即前16位二进制作为桶的编号，最多可能有2^16＝65536个桶)，每个桶有一个Container(容器)来存放一个数值的低16位，即后16位，一个RBM就是很多Container的集合。

因此，拆分生成的第一访问时间标识及第二访问时间标识，均为16位二进制数，且第一访问时间标识即为32位二进制数的前16位，第二访问时间标识即为32位二进制数的后16位。

然后可根据前16位二进制数对应的值索引到对应的桶，然后在将后16位二进制数对应的值存放在该桶相应的容器(Container)中。

以访问时间信息为访问行为日期为例，只需要32位版本的RBM即可。由于10年内访问日期未超过4000，最终会采用ArrayContainer来存储。ArrayContainer是用来满足稀疏存储而存在的，可以用以存储双字节类型的数字，最大支持2^{16}/(2*8)＝4096个数，空间开销为(2+2*c)B，c为基数，时间开销为O(log(n))。

在存储和查询数值时，将数值k划分为高16位和低16位，根据高16位值找到对应的桶，然后在将低16位值存放在相应的Container中。

在创建一个新Container时，如果只插入一个元素，RBM默认会用ArrayContainer来存储。当ArrayContainer(其中每一个元素的类型为short int，占两个字节，且里面的元素按从大到小的顺序排列)的容量超过4096(这里是指4096个short int即8k)后，会自动转成BitmapContainer(这个所占空间始终都是8k)存储。

具体实施时，将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，包括：

将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果；

通过预设加密算法对所述压缩结果进行加密处理，并将加密结果存储至数据仓库。

具体的，预设加密算法即可以是Base64加密算法。

在存储访问时间信息时，将各访问时间信息划分为高16位和低16位，根据高16位值找到对应的桶，然后再将低16位值存放在相应的Container中。

本申请实施例的目标压缩位图中存储的压缩结果，通常存储于Hive，由于压缩结果的数据类型与Hive所存储数据的数据类型不同，因此，在将压缩结果存储到Hive之前，还需通过Base64加密算法对其进行加密处理，使得加密结果对应的数据类型与Hive所存储数据的数据类型一致，然后生成的加密结果即可存储于Hive。

或者，所述访问时间信息包括访问日期；

相应地，所述将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，包括：

根据基准时间对所述用户访问数据中包含的访问日期进行转化，生成对应的转化结果；

将所述转化结果按照目标压缩位图对应的数据结构进行压缩。

具体的，基准时间，即协调世界时(UTC，Coordinated Universal Time)。

本申请实施例在对访问时间信息进行压缩存储时，可先将访问时间信息转化为UTC数据，然后将各UTC数据划分为高16位和低16位，根据高16位值找到对应的桶，然后在将低16位值存放在相应的Container中。

另外，在访问时间信息为访问行为日期的情况下，由于访问日期数量较小，通常情况下，只需要32位版本的RBM进行存储即可。并且通过ArrayContainer进行存储即可。

进一步的，得到UTC数据的压缩结果，还可通过Base64加密算法对该压缩结果进行加密处理，使得加密结果对应的数据类型与Hive所存储数据的数据类型一致，然后生成的加密结果即可存储于Hive。

根据所述压缩结果确定所述访问时间信息在所述目标压缩位图中的目标位置；

根据所述压缩结果对所述目标位置对应的值进行调整，并将调整后的目标压缩位图存储至数据仓库。

具体的，在对访问时间信息进行压缩存储时，若使用32位版本的RBM，则按照目标压缩位图对应的数据结构将访问时间信息进行压缩，具体即可将访问时间信息划分为高16位和低16位，高16位值用于确定桶的位置，低16位值用于确定其在该桶中的具体存储位置，即Container，然后根据压缩结果对目标位置的值进行调整，具体即将高16位值作为key存储到short[]keys中，低16位值作为value，存储到Container[]values中的某个Container中。

将压缩结果存储至RBM后，还可通过Base64加密算法对该压缩结果进行加密处理，使得加密结果对应的数据类型与Hive所存储数据的数据类型一致，然后生成的加密结果即可存储于Hive。

步骤206，基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型。

具体的，预设数据存储模型，即可以是预先构建的数据表，该数据表中可包含预先设置的字段信息，例如数据表所包含的字段为：类型、字段名、字段数据类型、字段含义以及备注等，然后各字段下即可存储对应的字段值。

本申请实施例构建的预设数据存储模型如表1所示。

表1

在构建上述预设数据存储模型的基础上，所述基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型，包括：

确定预设数据存储模型包含的至少两个字段；

确定与所述用户访问数据对应的第一目标字段，并将所述用户访问数据作为字段值添加至所述第一目标字段；

确定与所述加密结果对应的第二目标字段，并将所述加密结果作为字段值添加至所述第二目标字段，生成所述访问时间信息对应的数据存储模型。

具体的，如前所述，预设数据存储模型中包含不同的字段，而在基于预设数据存储模型、用户访问数据以及访问时间信息的加密结果，构建各访问时间信息对应的数据存储模型，具体即可根据预设数据存储模型所包含的字段信息，确定预设数据存储模型中、与用户访问数据对应的第一目标字段，以及与访问时间信息的加密结果对应的第二目标字段，并将用户访问数据作为第一目标字段的字段值添加至该第一目标字段，将访问时间信息的加密结果作为第二目标字段的字段值添加至该第二目标字段，以生成该访问时间信息对应的数据存储模型。

另外，若访问时间信息为访问日期，且每个访问日期对应一个数据存储模型，那么数据存储模型即可包括第一数据存储模型及第二数据存储模型，所述第一数据存储模型基于历史用户访问数据、所述历史用户访问数据的历史访问时间信息的压缩结果及所述预设数据存储模型构建；所述第二数据存储模型基于增量用户访问数据、所述增量用户访问数据的当前访问时间信息的压缩结果及所述预设数据存储模型构建；

相应地，所述方法还包括：

确定所述第二数据存储模型包含的用户标识，并在确定所述第一数据存储模型包含所述用户标识的情况下，建立所述第一数据存储模型与所述第二数据存储模型间的关联关系。

具体的，在访问时间信息为访问日期，且每个访问日期对应一个数据存储模型的情况下，则可生成至少一个第一数据存储模型和至少一个第二数据存储模型，其中第一数据存储模型由历史用户访问数据、历史用户访问数据的历史访问时间信息的压缩结果及预设数据存储模型构建；第二数据存储模型基于增量用户访问数据、增量用户访问数据的当前访问时间信息的压缩结果及预设数据存储模型构建。

另外，若基于增量用户访问数据生成的第二数据存储模型以及基于历史用户访问数据生成的第一数据存储模型中，均包含同一用户标识，则可将该第一数据存储模型和第二数据存储模型关联，基于该关联关系即可获得与该用户标识相关的全部用户访问数据。

本申请实施例中，预设数据存储模型的具体实现可以多种多样，在Hive层面需要使用T-2的分区数据和T-1的增量数据做full join运算，如果是Iceberg、Hudi引擎可以直接增量更新，速度更快。

步骤208，根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果。

具体的，如前所述，目标业务即可以是对象推荐业务，例如广告推荐业务或商品推荐业务。本申请实施例可通过对目标业务相关的用户访问数据进行分析，例如，分析某一APP的用户的活跃度、分析活跃用户的数量、分析用户的留存量等的方式，进行对象推荐；其中，目标维度，即与用户访问行为相关的维度，由于用户通常可使用智能设备进行APP访问或进行对象访问，因此，目标维度即可以用户所使用智能设备的设备系统(IOS系统或Andriod系统等)、设备型号等。

目标维度下的目标统计指标包括：目标时间区间内，基于目标维度对所述目标业务的业务对象进行访问对应的待统计指标，所述待统计指标包括访问用户数量、对应的访问时长和/或对象交易量；

相应地，所述指标值统计结果包括：对目标时间区间内，基于目标维度对所述目标业务的业务对象进行访问的访问用户数量、对应的访问时长和/或对应的对象交易量进行统计，获得的统计结果。

例如，在目标业务为广告推荐业务，且目标维度为设备型号的情况下，目标统计指标即可以是目标时间区间内、使用型号1的智能设备访问目标广告的用户量，或者可以是目标时间区间内、用户使用型号1的智能设备访问目标广告所对应的访问时长等；在目标业务为商品推荐业务，且目标维度为设备系统的情况下，目标统计指标即可以是目标时间区间内、通过使用系统A的智能设备访问目标商品的用户量，或者可以是目标时间区间内、通过使用系统A的智能设备购买目标商品的用户量等。

基于此，由于数据存储模型中包含访问时间信息的压缩结果，因此，在需确定目标业务的目标维度下，目标统计指标对应的指标值统计结果的情况下，则可根据各数据存储模型所包含的用户访问数据以及访问时间信息的压缩结果，对目标时间区间内，基于目标维度对所述目标业务的业务对象进行访问的访问用户数量、对应的访问时长和/或对应的对象交易量进行统计，获得的统计结果。

具体实施时，所述根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果，包括：

确定所述目标维度下待统计的目标统计指标，并确定与所述目标统计指标相关的目标访问时间信息；

确定包含所述目标访问时间信息的加密结果的目标数据存储模型，并根据所述目标数据存储模型中包含的用户访问数据，确定所述目标统计指标对应的指标值统计结果。

进一步的，确定与所述目标统计指标相关的目标访问时间信息之后，还包括：

获取所述数据仓库中存储的所述加密结果，并对所述加密结果进行解密处理，获得所述访问时间信息的压缩结果；

根据所述压缩结果确定是否存在包含所述目标访问时间信息的加密结果的目标数据存储模型；

若是，则执行所述确定包含所述目标访问时间信息的加密结果的目标数据存储模型的步骤。

具体的，在需根据访问时间信息的压缩结果及数据存储模型，确定目标维度下目标统计指标对应的指标值统计结果时，首先可确定与该目标统计指标相关的目标访问时间信息，例如，在访问时间信息为访问日期的情况下，若目标统计指标为：8月份通过使用系统A的智能设备访问广告G1的用户的数量，则与该目标统计指标相关的目标访问时间信息即可以是08-01、08-02、……、08-31等，然后可根据目标访问时间信息确定相关的目标数据存储模型，并根据目标数据存储模型中包含的用户访问数据，确定该目标统计指标对应的指标值统计结果。

其中，由于数据存储模型中包含的是访问时间信息的压缩结果所对应的加密结果，因此，在根据目标访问时间信息确定包含该目标访问时间信息的目标数据存储模型时，可先利用base64Decode函数对数据存储模型中包含的前述加密结果进行解密处理，获得访问时间信息的压缩结果，然后可根据该压缩结果确定包含前述目标访问时间信息的加密结果的目标数据存储模型，接着可根据各目标数据存储模型所包含的用户访问数据，确定该目标维度下目标统计指标对应的指标值统计结果。

例如，在目标数据存储模型中的用户访问数据包含用户(唯一设备标识)、访问时间、环境(例如：机型、品牌、页面、模块)、访问的业务类型(例如：直播、游戏、社区等)、具体访问行为(例如：曝光、点击、评论、点赞、花费等、行为次数、行为深度(例如：曝光时长、点击频率、评论字数、花费金额等)等的情况下，可根据目标统计指标对这部分用户访问数据进行统计的方式，确定该目标维度下目标统计指标对应的指标值统计结果。

或者，所述根据所述目标数据存储模型中包含的用户访问数据，确定所述目标统计指标对应的指标值统计结果，包括：

调用预先创建的统计函数，对所述目标数据存储模型中包含的用户访问数据进行处理，生成所述目标统计指标对应的指标值统计结果。

具体的，预先创建的统计函数，即可以是UDF，本申请实施例可配合预先创建的UDF，直接根据实际需求进行实时计算，具体即通过调用UDF，对各目标数据存储模型中包含的用户访问数据进行统计处理，生成目标统计指标对应的指标值统计结果。

本申请实施例提供的用户访问数据处理过程的示意图如图3所示，图3中包括序列化过程和反序列化过程，其中，序列化过程中，待序列化的访问日期包括2019-11-01、2019-12-27、2020-01-01、2020-01-02、2020-01-04、2020-02-20、2020-03-20，将各访问日期转化为UTC数据，其对应的转化结果分别为18201、18257、18262、18263、18265、18312、18341；将各转化结果按照RBM的数据结构进行压缩，并对压缩结果通过Base64加密算法进行加密，得到的加密结果即为OjAAAAEAAAAAAAYAEAAAABIHUUdWR1dHWUeIR6VH，然后可将该加密结果存储至Hive；反序列化过程中，可先对前述加密结果进行解密，得到对应的解密结果，该解密结果即为前述UTC数据，接着可根据UTC数据确定是否存在包含目标访问日期的目标数据存储模型，若存在，则可调用UDF函数，对该目标数据存储模型中包含的用户访问数据进行处理，生成目标统计指标对应的指标值统计结果。

另外，本申请实施例预先构建的UDF函数如表2所示，表2仅示意性的对部分UDF函数进行举例，具体构建的UDF函数可根据实际需求确定。

表2

本申请实施例中，一个数据存储模型即可直接覆盖下游DAU、MAU、新激活、留存、活跃频次等不同场景的数据，使用数据存储模型可在数仓建模逻辑上大幅降低用以场景承接的模型数量，从而做到用户访问数据的高内聚和低耦合，也有利于节约了计算和存储资源。

本申请实施例可对目标业务相关的历史用户访问数据进行一次性完整标记，而对于增量数据则采用统一的RBM(Roaring Bit Map)标记，例如访问日期。RBM本身具有压缩率高、读写快的特点，因此，可以进一步节省存储开销，并且对重要变化信息做到完整记录而不失真。另外，本申请实施例利用RBM标记特性可以覆盖目标维度的一系列计算指标，以访问行为为例，一个数据存储模型即可直接覆盖下游DAU、MAU、新激活、留存、活跃频次等不同场景的数据，在数仓建模逻辑上可大幅降低用以场景承接的模型数量，从而做到行为信息的高内聚和低耦合，也在很大程度上节约了计算和存储资源；此外，本申请实施例对目标维度下的历史用户访问数据进行一次性完整标记，把自依赖性从模型层面转移到数据存储模型的字段信息，而不用对外部的使用产生感知，保证了模型的回刷的稳定性。

本申请实施例利用RBM的标记特性，通过一个数据存储模型即可覆盖任意行为对应的一系列统计指标(访问标签数据)，从而使得在进行用户行为分析时，利用该存储技术存储相关的访问标签数据，可以减少对存储空间的占用，并有利于降低数据存储成本。

参见图4，以本申请实施例提供的所述用户访问数据处理方法在实际场景的应用为例，对所述用户访问数据处理方法进行进一步说明。其中，图4示出了本申请一个实施例提供的一种用户访问数据处理方法的处理过程流程图，具体包括以下步骤：

步骤402，获取目标业务在目标维度的用户访问数据。

步骤404，将用户访问数据中包含的访问日期转化为UTC数据。

步骤406，将UTC数据按照RBM对应的数据结构进行压缩，生成对应的压缩结果。

步骤408，通过Base64加密算法对压缩结果进行加密处理，并将加密结果存储至数据仓库。

步骤410，确定预设数据存储模型包含的至少两个字段。

步骤412，确定与用户访问数据对应的第一目标字段，并将用户访问数据作为字段值添加至第一目标字段。

步骤414，确定与访问日期的加密结果对应的第二目标字段，并将访问日期的加密结果作为字段值添加至第二目标字段，生成访问日期对应的数据存储模型。

步骤416，确定目标维度下待统计的目标统计指标，并确定与目标统计指标相关的目标访问日期。

步骤418，获取数据仓库中存储的加密结果，并对加密结果进行解密处理，获得访问日期的压缩结果。

步骤420，根据压缩结果确定是否存在包含目标访问日期的加密结果的目标数据存储模型。

步骤422，若是，则确定包含目标访问日期的加密结果的目标数据存储模型，并调用预先创建的统计函数，对目标数据存储模型中包含的用户访问数据进行处理，生成目标统计指标对应的指标值统计结果。

与上述方法实施例相对应，本申请还提供了用户访问数据处理装置实施例，图5示出了本申请一个实施例提供的一种用户访问数据处理装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取目标业务在目标维度的用户访问数据；

压缩模块504，被配置为将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储；

构建模块506，被配置为基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型；

确定模块508，被配置为根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果。

可选地，所述压缩模块504，进一步被配置为：

可选地，所述构建模块506，进一步被配置为：

确定预设数据存储模型包含的至少两个字段；

可选地，所述访问时间信息包括访问日期；

相应地，所述压缩模块504，进一步被配置为：

可选地，所述压缩模块504，进一步被配置为：

可选地，所述确定模块508，进一步被配置为：

可选地，所述用户访问数据处理装置，还包括处理模块，被配置为：

可选地，所述确定模块508，进一步被配置为：

可选地，所述数据存储模型包括第一数据存储模型及第二数据存储模型，所述第一数据存储模型基于历史用户访问数据、所述历史用户访问数据的历史访问时间信息的压缩结果及所述预设数据存储模型构建；所述第二数据存储模型基于增量用户访问数据、所述增量用户访问数据的当前访问时间信息的压缩结果及所述预设数据存储模型构建；

相应地，所述用户访问数据处理装置还包括建立模块，被配置为：

可选地，所述压缩模块504，进一步被配置为：

可选地，所述目标维度下的目标统计指标包括：目标时间区间内，基于目标维度对所述目标业务的业务对象进行访问对应的待统计指标，所述待统计指标包括访问用户数量、对应的访问时长和/或对象交易量；

上述为本实施例的一种用户访问数据处理装置的示意性方案。需要说明的是，该用户访问数据处理装置的技术方案与上述的用户访问数据处理方法的技术方案属于同一构思，用户访问数据处理装置的技术方案未详细描述的细节内容，均可以参见上述用户访问数据处理方法的技术方案的描述。

图6示出了根据本申请一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述用户访问数据处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的用户访问数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述用户访问数据处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述用户访问数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的用户访问数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述用户访问数据处理方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请实施例的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种用户访问数据处理方法，其特征在于，包括：

获取目标业务在目标维度的用户访问数据；

2.根据权利要求1所述的用户访问数据处理方法，其特征在于，所述将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，包括：

3.根据权利要求2所述的用户访问数据处理方法，其特征在于，所述基于预设数据存储模型、所述用户访问数据及所述压缩结果，构建所述访问时间信息对应的数据存储模型，包括：

确定预设数据存储模型包含的至少两个字段；

4.根据权利要求2所述的用户访问数据处理方法，其特征在于，所述访问时间信息包括访问日期；

5.根据权利要求1所述的数据处理方法，其特征在于，所述将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，包括：

6.根据权利要求2所述的用户访问数据处理方法，其特征在于，所述根据所述压缩结果及所述数据存储模型，确定所述目标维度下目标统计指标对应的指标值统计结果，包括：

7.根据权利要求6所述的用户访问数据处理方法，其特征在于，所述确定与所述目标统计指标相关的目标访问时间信息之后，还包括：

8.根据权利要求6所述的用户访问数据处理方法，其特征在于，所述根据所述目标数据存储模型中包含的用户访问数据，确定所述目标统计指标对应的指标值统计结果，包括：

9.根据权利要求1所述的用户访问数据处理方法，其特征在于，所述数据存储模型包括第一数据存储模型及第二数据存储模型，所述第一数据存储模型基于历史用户访问数据、所述历史用户访问数据的历史访问时间信息的压缩结果及所述预设数据存储模型构建；所述第二数据存储模型基于增量用户访问数据、所述增量用户访问数据的当前访问时间信息的压缩结果及所述预设数据存储模型构建；

相应地，所述方法还包括：

10.根据权利要求1所述的用户访问数据处理方法，其特征在于，所述将所述用户访问数据中包含的访问时间信息，按照目标压缩位图对应的数据结构进行压缩，生成对应的压缩结果并存储，包括：

11.根据权利要求1所述的用户访问数据处理方法，其特征在于，所述目标维度下的目标统计指标包括：目标时间区间内，基于目标维度对所述目标业务的业务对象进行访问对应的待统计指标，所述待统计指标包括访问用户数量、对应的访问时长和/或对象交易量；

12.一种用户访问数据处理装置，其特征在于，包括：

13.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-11任意一项所述的用户访问数据处理方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有计算机指令，该指令被处理器执行时实现权利要求1-11任意一项所述的用户访问数据处理方法的步骤。