CN111221816B

CN111221816B - 基于位图汇总模型的原子指标存储方法

Info

Publication number: CN111221816B
Application number: CN201911222980.9A
Authority: CN
Inventors: 彭虎; 刘洋; 傅尚强; 施斌; 孙迁
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-05-16
Anticipated expiration: 2039-12-03
Also published as: CN111221816A

Abstract

本发明公开了一种基于位图汇总模型的原子指标存储方法及系统，位图优化器对原子指标的代理键数字指标分组存储，包括元素组对象和位集合组对象；数字编码模块对待存储的原子指标进行数字编码，生成原子指标的代理键数字指标及对应组号；匹配存储模块将待存储的原子指标分别与位图优化器的位集合组对象、元素组对象进行匹配，存储原子指标的代理键数字指标。本发明能够减少数据条目数和存储大小，提高聚合查询效率。

Description

基于位图汇总模型的原子指标存储方法

技术领域

本发明涉及信息处理领域，具体涉及一种基于位图汇总模型的原子指标存储方法及系统。

背景技术

在数仓的指标体系内，存在原子指标(不可再拆分的指标)是不支持累计汇总的，比如访客数、会员数等指标，在数据汇总过程中是需要基于访客ID、会员ID去重计数的，且去重指标汇总事实表无法支持更高度的汇总。

当前数仓设计去重指标汇总表，一般使用预先计算方式，基于细粒度(包含访客ID、会员ID维度粒度)事实表和前端展示维度组合，做固定维度组合预先计算，直接生成前端需要展示的结果数据，此方案存在如下缺点：

1)前端查询的维度灵活多变，一方面维度组合太多，预计算耗费资源大(后台需要对每个维度组合场景计算一次)，另一方面如果在原有维度上新增维度组合，预计算汇总表就无法支持业务查询，必须针对新维度组合再计算；

2)使用count distinct效率低下，且对大数据量数据非常容易产生数据倾斜，产生长尾任务。

发明内容

本发明的目的在于提出了一种基于位图汇总模型的原子指标存储方法及系统。

实现本发明目的的技术解决方案为：一种基于位图汇总模型的原子指标存储方法，将原子指标转换为可累计对象存储，包括如下步骤：

初始化位图优化器，所述位图优化器包括元素组对象和位集合组对象，所述元素组对象和位集合组对象用于对原子指标的代理键数字指标分组存储；

对待存储的原子指标进行数字编码，生成原子指标的代理键数字指标及对应组号；

将所述待存储的原子指标的所述组号分别与所述位图优化器的位集合组对象和元素组对象进行匹配，根据匹配结果将所述待存储的原子指标的所述代理键数字指标存储到所述位集合组对象或所述元素组对象中。

作为一种具体实施方式，所述待存储的原子指标的所述组号分别与所述位图优化器的位集合组对象和元素组对象匹配，若所述待存储的原子指标的所述组号在所述位图优化器的位集合组对象或者元素组对象中存在对应数组，则将该代理键数字指标存储到位集合组对象或者元素组对象的对应数组中；若所述待存储的原子指标的所述组号在所述位图优化器的元素组对象、位集合组对象均无对应数组，则在元素组对象中新建数组，存储该原子指标的代理键数字指标。

作为一种具体实施方式，如果元素组对象中存在数据个数超过指定的位集合最小存储长度的数组，则将元素组对象中的该组数据转换为位集合存储到位集合组对象中。

作为一种具体实施方式，所述对原子指标进行数字编码，将原子指标除以组长度，将商的余数作为原子指标的代理键数字指标，将商的整数部分作为对应的组号。

一种基于位图汇总模型的原子指标存储系统，包括：

位图优化器，用于对原子指标的代理键数字指标分组存储，包括元素组对象和位集合组对象；

数字编码模块，用于对待存储的原子指标进行数字编码，生成原子指标的代理键数字指标及对应组号；

匹配存储模块，用于将待存储的原子指标的代理键数字指标分别与位图优化器的位集合组对象、元素组对象进行匹配，根据匹配结果将所述待存储的原子指标的所述代理键数字指标存储到所述位集合组对象或所述元素组对象中。

作为一种具体实施方式，所述数字编码模块对原子指标进行数字编码，将原子指标除以组长度，将商的余数作为原子指标的代理键数字指标，将商的整数部分作为对应的组号。

作为一种具体实施方式，所述匹配存储模块将所述待存储的原子指标的所述组号分别与所述位图优化器的位集合组对象和元素组对象进行匹配，若所述待存储的原子指标的所述组号在所述位图优化器的位集合组对象或者元素组对象中存在对应数组，则将该代理键数字指标存储到位集合组对象或者元素组对象的对应数组中；若所述待存储的原子指标的所述组号在所述位图优化器的元素组对象、位集合组对象均无对应数组，则在元素组对象中新建数组，存储该原子指标的代理键数字指标。

作为一种具体实施方式，存储的过程中，如果元素组对象中存在数据个数超过指定的位集合最小存储长度的数组，则将元素组对象中的该组数据转换为位集合存储到位集合组对象中。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

初始化位图优化器，包括元素组对象和位集合组对象，所述素组对象和位集合组对象用于对原子指标的代理键数字指标分组存储；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明与现有技术相比，其显著优点为：1)基于位图汇总模型进行原子指标存储，能够减少数据条目数和存储大小；2)使用BitSet实现SQL聚合查询，能够提高聚合查询效率；3)对会员、访客这种基础超亿、十亿级别基数数据，直接使用BitSet存储，BitSet对象会很大，存储和计算效率低，BitSetOptimizer对BitSet优化存储，对对象分组切分存储，保证BitSet长度在GROUP_LENGTH长度，能够节约存储，提升处理效率；4)有的Group可能就几个或几十个数据，使用BitSet会占用GROUP_LENGTH位长度存储，使用HashSet根据数据个数存储，根据BITSET_MIN_SIZE大小决定数据存储HashSet还是BitSet对象，能够节省存储空间。

附图说明

图1是本发明基于位图汇总模型的原子指标存储方法的流程图。

图2是BitSetOptimizer的数据结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，本发明基于位图汇总模型的原子指标存储方法，将原子指标转换为可累计对象存储，包括如下步骤：

步骤1，初始化位图优化器(BitSetOptimizer)，包括元素组对象(ElementGroup)和位集合组对象(BitSetGroup)，用于对原子指标的代理键数字指标分组存储；

BitSetOptimizer数据结构如图2所示，其中ElementGroup对象和BitSetGroup对象存储原子指标的代理键数字指标以及对应的组号(GroupID)，其中ElementGroup对象中采用散列集合(HashSet)进行代理键数字指标存储，BitSetGroup对象中采用位集合(BitSet)进行代理键数字指标存储，两者的GroupID均为整数(Int)型。

步骤2，对待存储的原子指标进行数字编码，生成原子指标的代理键数字指标及对应组号；

一些实施例中，将原子指标除以组长度(GROUP_LENGTH)，将商的余数作为原子指标的代理键数字指标，将商的整数部分作为对应的GroupID，所述组长度为BitSet中每组数据的最大存储长度。

步骤3，将待存储的原子指标的代理键数字指标分别与位图优化器的位集合组对象、元素组对象进行匹配；

若待存储的原子指标的代理键数字指标所对应的GroupID在BitSetGroup对象中有对应数组，则将该原子指标的代理键数字指标存储到位集合组对象的对应数组中；

若待存储的原子指标的代理键数字指标所对应的GroupID在ElementGroup对象中有对应数组，则将该原子指标的代理键数字指标存储到ElementGroup对象的对应数组中；存储的过程中，如果元素组对象中的该组数据个数超过指定的位集合最小存储长度(BITSET_MIN_SIZE)，则将该元素组对象中的该组数据(Set)转换为位集合(BitSet)存储到BitSetGroup对象中；

若待存储的原子指标的代理键数字指标所对应的GroupID在ElementGroup对象和BitSetGroup对象中均无对应数组，则在元素组对象中新建数组，存储该原子指标的代理键数字指标。

本发明将去重指标通过技术手段转换为可累计对象存储，这样汇总事实表不用针对所有维度作固定组合预计算，汇总事实表可支持再汇总，整体减少汇总计算资源消耗，解决去重指标计算count distinct数据倾斜问题，提升了开发效率。待存储的原子指标的代理键数字指标与位图优化器的位集合组对象、元素组对象的匹配，可以同步进行，也可以异步进行。异步匹配的过程中，可以先匹配位集合组对象，再匹配元素组对象，也可以先匹配元素组对象，再匹配位集合组对象。

下面以去重指标访客数举例，表格结构如表1所示。表格中列出了城市、省份、国家的访客ID。由于同一个访客ID可能会出现在不同的城市、省份、国家，统计某一省份或者的访客数时，如仅仅将该省份的所有城市的访客数相加，可能会导致出现重复计数的问题。统计同个国家的访客数时也会存在同样的问题。

表1访客示例表

利用本发明方法，将访客ID基于位图汇总模型进行存储，首先对访客ID做数字编码，生成访客ID的代理键访客数字ID及对应的GroupID；然后将访客数字ID存储BitSetOptimizer对象中，即ElementGroup对象和BitSetGroup对象中。由于存储的过程中实现了指标去重，即对于重复的代理键访客数字ID进行覆盖，对于不存在的进行新建存储，统计访客数时，不需要再次去重，只需要做组汇总即可，通过SQL调用时，对BitSetOptimizer对象做group汇总计算，用法类似sql中的sum、count等聚合函数。

为了验证本发明方案的优势，抽样流量数据，数据量为2801537，存储大小为123M，提取访问唯一ID、访客ID、会员ID、应用版本、操作系统版本、终端类型、下载渠道、城市代码、运营商代码、网络类型、分辨率。测试直接将去重指标访客ID、会员ID作为维度，使用count distinct统计去重指标的存储方法(方法一)，以及使用位图汇总模型，将去重指标访客ID、会员ID作为指标对象存储的方法(方法二)，上述两种方法的数据量和存储大小。

将汇总维度为应用版本、操作系统版本、终端类型、下载渠道、城市代码、运营商代码、网络类型、分辨率，汇总指标为访客数、会员数、访问数标记为场景一，对比结果如表2所示。

表2场景一中两种方法的对比表

将汇总维度为应用版本、操作系统版本、城市代码、运营商代码，汇总指标为访客数、会员数、访问数标记为场景2，对比结果如表3所示。

表3场景二中两种方法的对比表

通过表2、表3可以看出，汇总模型的数据量和存储大小都能减小，并且随着汇总维度越少，数据量和存储越小。

本发明基于位图汇总模型的原子指标存储系统，包括：

位图优化器，包括ElementGroup对象和BitSetGroup对象。ElementGroup对象和BitSetGroup对象存储原子指标的代理键数字指标以及对应的GroupID，其中ElementGroup对象中采用HashSet进行代理键数字指标存储，BitSetGroup对象中采用BitSet进行代理键数字指标存储，两者的GroupID均为Int型。

数字编码模块，用于对待存储的原子指标进行数字编码，生成原子指标的代理键数字指标及对应GroupID；

一些实施例中，将原子指标除以GROUP_LENGTH，将商的余数作为原子指标的代理键数字指标，将商的整数部分作为对应的GroupID。

匹配存储模块，用于用于将待存储的原子指标的代理键数字指标分别与BitSetGroup对象、ElementGroup对象进行匹配；

若待存储的原子指标的代理键数字指标所对应的GroupID在ElementGroup对象中有对应数组，则将该原子指标的代理键数字指标存储到ElementGroup对象的对应数组中；存储的过程中，如果元素组对象中的该组数据个数超过指定的BITSET_MIN_SIZE，则将该元素组对象中的Set转换为BitSet存储到BitSetGroup对象中；

本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

另，附上本发明涉及的名词解释，如表4所示。

表4名词解释

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于位图汇总模型的原子指标存储方法，其特征在于，将原子指标转换为可累计对象存储，包括如下步骤：

2.根据权利要求1所述的基于位图汇总模型的原子指标存储方法，其特征在于，所述待存储的原子指标的所述组号分别与所述位图优化器的位集合组对象和元素组对象匹配，若所述待存储的原子指标的所述组号在所述位图优化器的位集合组对象或者元素组对象中存在对应数组，则将该代理键数字指标存储到位集合组对象或者元素组对象的对应数组中；若所述待存储的原子指标的所述组号在所述位图优化器的元素组对象、位集合组对象均无对应数组，则在元素组对象中新建数组，存储该原子指标的代理键数字指标。

3.根据权利要求2所述的基于位图汇总模型的原子指标存储方法，其特征在于，如果元素组对象中存在数据个数超过指定的位集合最小存储长度的数组，则将元素组对象中的该组数据转换为位集合存储到位集合组对象中。

4.根据权利要求1所述的基于位图汇总模型的原子指标存储方法，其特征在于，所述对原子指标进行数字编码，将原子指标除以组长度，将商的余数作为原子指标的代理键数字指标，将商的整数部分作为对应的组号。

5.基于位图汇总模型的原子指标存储系统，其特征在于，包括：

6.根据权利要求5所述的基于位图汇总模型的原子指标存储系统，其特征在于，所述数字编码模块对原子指标进行数字编码，将原子指标除以组长度，将商的余数作为原子指标的代理键数字指标，将商的整数部分作为对应的组号。

7.根据权利要求5所述的基于位图汇总模型的原子指标存储系统，其特征在于，所述匹配存储模块将所述待存储的原子指标的所述组号分别与所述位图优化器的位集合组对象和元素组对象进行匹配，若所述待存储的原子指标的所述组号在所述位图优化器的位集合组对象或者元素组对象中存在对应数组，则将该代理键数字指标存储到位集合组对象或者元素组对象的对应数组中；若所述待存储的原子指标的所述组号在所述位图优化器的元素组对象、位集合组对象均无对应数组，则在元素组对象中新建数组，存储该原子指标的代理键数字指标。

8.根据权利要求6所述的基于位图汇总模型的原子指标存储系统，其特征在于，存储的过程中，如果元素组对象中存在数据个数超过指定的位集合最小存储长度的数组，则将元素组对象中的该组数据转换为位集合存储到位集合组对象中。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：