CN116010420B - 一种基于位图存储的数据查询方法、系统、设备及介质 - Google Patents

一种基于位图存储的数据查询方法、系统、设备及介质 Download PDF

Info

Publication number
CN116010420B
CN116010420B CN202310094807.5A CN202310094807A CN116010420B CN 116010420 B CN116010420 B CN 116010420B CN 202310094807 A CN202310094807 A CN 202310094807A CN 116010420 B CN116010420 B CN 116010420B
Authority
CN
China
Prior art keywords
data
bitmap
processing
service
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310094807.5A
Other languages
English (en)
Other versions
CN116010420A (zh
Inventor
麦俊豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iMusic Culture and Technology Co Ltd
Original Assignee
iMusic Culture and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iMusic Culture and Technology Co Ltd filed Critical iMusic Culture and Technology Co Ltd
Priority to CN202310094807.5A priority Critical patent/CN116010420B/zh
Publication of CN116010420A publication Critical patent/CN116010420A/zh
Application granted granted Critical
Publication of CN116010420B publication Critical patent/CN116010420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于位图存储的数据查询方法、系统、设备及介质,其中,方法包括:获取业务数据;根据聚类函数对所述业务数据进行位图构建处理,得到位图数据;根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库;根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果。本发明实施例使用位图存储数据,再将位图存储关键指标于数据仓库,通过数据仓库进行数据查询,能够快速、高效地查询得到目标数据,提高了数据查询的效率,可广泛应用于大数据技术领域。

Description

一种基于位图存储的数据查询方法、系统、设备及介质
技术领域
本发明涉及大数据技术领域,尤其是一种基于位图存储的数据查询方法、系统、设备及介质。
背景技术
随着计算机技术的不断发展,越来越多的数据不断被挖掘应用,这些海量的数据如何存储和分析处理成为了需要解决的一大难题。当前企业主流使用大数据分布式框架对海量数据的存储和海量数据的分析计算进行解决,但是因为分布式框架中的计算框架在运算过程中会对中间结果进行处理从而反复读存磁盘,因此查询效率较慢。综合上述,相关技术中存在的技术问题亟需得到解决。
发明内容
有鉴于此,本发明实施例提供一种低成本、高查询效率的基于位图存储的数据查询方法、系统、设备及介质。
一方面,本发明提供了一种基于位图存储的数据查询方法,包括:
获取业务数据;
根据聚类函数对所述业务数据进行位图构建处理,得到位图数据;
根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库;
根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果。
可选地,所述根据聚类函数对所述业务数据进行位图构建处理,得到位图数据,包括:
根据聚合函数对所述业务数据的业务信息进行聚合处理,得到原子指标位图;
对所述原子指标位图进行二次计算处理,得到派生指标位图;
所述位图数据包括所述原子指标位图和所述派生指标位图。
可选地,所述根据聚合函数对所述业务数据的业务信息进行聚合处理,得到原子指标位图,包括:
对所述业务数据的业务信息进行分析提取处理,得到事件维度和标识号;
根据聚合函数对所述事件维度和所述标识号进行函数聚合处理,得到二进制位图;
对所述二进制位图进行数据仓库预处理,得到原子指标位图。
可选地,所述对所述原子指标位图进行二次计算处理,得到派生指标位图,包括:
对所述原子指标位图进行聚合运算处理,得到运算结果;
对所述运算结果以字节流类型进行存储处理,得到派生指标位图。
可选地,所述根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库,包括:
根据业务过程对数据仓库模型进行分层构建,生成分层模型,所述分层模型包括数据明细层、数据基础层和数据服务层;
根据所述数据明细层对所述位图数据进行数据汇聚处理,得到数据宽表;
根据所述数据基础层对所述位图数据的维度进行汇总处理,并对所述数据宽表进行指标统计处理,得到统计指标数据;
根据所述数据服务层对所述数据宽表和统计指标数据进行主题整合,并通过位图运算处理,得到主题服务数据;
将所述数据宽表、所述统计指标数据和所述主题服务数据存储到所述分层模型,得到位图数据仓库。
可选地,所述位图数据仓库包括数据中间层,所述数据中间层用于对位图数据进行加工处理产生的临时数据进行存储。
可选地,所述根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果,包括:
对所述访问请求进行业务分析处理,得到分析结果;
当所述分析结果为详单类数据查询请求时,通过明细层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;
当所述分析结果为分析报表类数据请求时,通过服务层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;或,通过基础层数据接口对所述位图数据仓库进行位图交叉运算处理,得到数据查询结果。
另一方面,本发明实施例还提供了一种基于位图存储的数据查询系统,包括:
第一模块,用于获取业务数据;
第二模块,用于根据聚类函数对所述业务数据进行位图构建处理,得到位图数据;
第三模块,用于根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库;
第四模块,用于根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果。
另一方面,本发明实施例还公开了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
另一方面,本发明实施例还公开了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
另一方面,本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明实施例通过对位图对业务数据进行聚合存储,提高了资源利用率,减少了存储成本;另外,本发明实施例根据业务过程对数据仓库进行建模,将位图数据存储到数据仓库中,提高了数据仓库的复用性;再者,本发明实施例通过位图数据仓库进行位图查询,能够快速计算得到查询结果,提高了数据查询的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于位图存储的数据查询方法的流程图;
图2是本申请实施例提供的一种数据查询模型示意图;
图3是本申请实施例提供的一种时间跨度的位图运算示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
首先,对本申请中涉及的若干名词进行解析:
Hadoop是当前企业主流使用的一款大数据分布式框架,主要解决海量数据的存储和海量数据的分析计算,Hive是其中最为热门使用的数据仓库工具。
Trino是一个高性能、分布式大数据SQL查询引擎,可以直接配置Hive数据源读取。
用户自定义函数(User-Defined Functions,UDF)即用户自定义的函数,例如在Hive SQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据,ETL是BI(商业智能)项目重要的一个环节。
位图(Bitmap)是一种特殊数据结构,基于连续的二进制位(bit)存储数值,一般用作对海量数据去重和统计,且位图存储占用小,一般是原体积1/12。
相关技术中,通过大数据分布式框架对海量数据进行存储和分析,但是计算框架在运算过程中计算中间结果时会反复读存磁盘,从而减低了查询效率。而Spark是现阶段业界给出提升查询效率的方法,其原理是将数据缓存于内存,运算时直接从内存读取数据,替代磁盘中转的角色,但内存本身属于高成本存储,查询成本较高,不适用于所有企业。有鉴于此,本发明实施例提供了一种低成本、高查询效率的基于位图存储的数据查询方法。
参照图1,本发明实施例提供一种基于位图存储的数据查询方法,包括:
S101、获取业务数据;
S102、函数对所述业务数据进行位图构建处理,得到位图数据;
S103、程对所述位图数据进行模型构建处理,得到位图数据仓库;
S104、求对所述位图数据仓库进行位图查询处理,得到数据查询结果。
在本发明实施例中,以数据源为粒度,直接对业务系统中进行数据抽取得到业务数据。参照图2,本发明实施例通过Hive的扩展能力和Trino的函数框架实现对位图的开发支持,其中Hive的二进制(Binary)类型对应Java的字节(byte)类型,可以对位图进行序列化后存储;而通过Trino继承抽象类构造位图对象、位图聚合方法,支持原子指标位图的二次计算,生成派生指标位图;在本发明实施例中,抽象类包括AccumulatorState、AccumulatorStateFactory和AccumulatorStateSerializer。接着,本发明实施例根据业务过程对位图数据进行模型构建处理,其中,位图数据仓库包括数仓明细层(DWD)、数仓基础层(DWB)和数仓服务层(DWS),通过数据仓库技术(ETL)进行数据抽取、清洗转换和加载处理,得到位图数据仓库。最后,本发明实施例根据不同的访问请求对位图数据仓库中的数仓基础层(DWB)进行位图查询处理,通过Trino进行数据源获取,得到数据查询结果。本发明实施例主要从业务过程、建模角度概述数据仓库建设的步骤,从方法论和位图结合,实现指标快速聚合,减少CPU密集型去重计算,同时表模型新增二进制位图类型,在底层轻度汇总时就已形成位图,在展现时直接通过交叉方法计算秒级得出结果,真正实现弹性效果,从而提高了数据查询的效率。
进一步作为优选的实施方式,所述根据聚类函数对所述业务数据进行位图构建处理,得到位图数据,包括:
根据聚合函数对所述业务数据的业务信息进行聚合处理,得到原子指标位图;
对所述原子指标位图进行二次计算处理,得到派生指标位图;
所述位图数据包括所述原子指标位图和所述派生指标位图。
在本发明实施例中,对业务数据的业务信息进行通过封装好的聚合函数进行聚合处理生成原子指标位图,业务信息可以包括事件维度和长整型的身份标识号(如,用户guid)。本发明实施例通过构造位图对象、位图聚合方法,对原子指标位图进行二次计算,生成派生指标位图。将原子指标位图和派生指标位图作为位图数据进行存储。
进一步作为优选的实施方式,所述根据聚合函数对所述业务数据的业务信息进行聚合处理,得到原子指标位图,包括:
对所述业务数据的业务信息进行分析提取处理,得到事件维度和标识号;
根据聚合函数对所述事件维度和所述标识号进行函数聚合处理,得到二进制位图;
对所述二进制位图进行数据仓库预处理,得到原子指标位图。
在本发明实施例中,通过继承抽象类GenericUDAFEvaluator根据模型规则封装得到聚合函数,对聚合函数输入事件维度、用户guid生成二进制位图(binary-bitmap)并存入Hive数据表中,用于时间周期数仓的预处理,生成原子指标位图。
进一步作为优选的实施方式,所述对所述原子指标位图进行二次计算处理,得到派生指标位图,包括:
对所述原子指标位图进行聚合运算处理,得到运算结果;
对所述运算结果以字节流类型进行存储处理,得到派生指标位图。
在本发明实施例中,通过构造位图对象、位图聚合方法,对原子指标位图机芯二次计算,生成派生指标位图。其中,派生指标位图是通过多行原子指标位图进行聚合或运算生成,生成后以字节流类型保存位图对象,主要作用存储派生去重类指标,方便扩展二次计算。并通过复写标量函数,封装或、异或、且、且非方法,用于位图之间的交叉计算。
进一步作为优选的实施方式,所述根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库,包括:
根据业务过程对数据仓库模型进行分层构建,生成分层模型,所述分层模型包括数据明细层、数据基础层和数据服务层;
根据所述数据明细层对所述位图数据进行数据汇聚处理,得到数据宽表;
根据所述数据基础层对所述位图数据的维度进行汇总处理,并对所述数据宽表进行指标统计处理,得到统计指标数据;
根据所述数据服务层对所述数据宽表和统计指标数据进行主题整合,并通过位图运算处理,得到主题服务数据;
将所述数据宽表、所述统计指标数据和所述主题服务数据存储到所述分层模型,得到位图数据仓库。
在本发明实施例中,为了规范化数据层级,打造位图数据仓库,根据主体域、业务过程进行数据仓库模型构建。具体根据业务过程对数据仓库模型进行分层构建,生成分层模型,分层模型整体分成三层:数据明细层、数据基础层和数据服务层。其中,明细层(DWD):和前端部门梳理日常分析维度,分主题构造业务模型,以最细事实记录为粒度,基于位图数据进行数据汇聚,加工生成数据宽表,数据宽表即是字段比较多的数据库表,通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。
在本发明实施例中,基于日志源或数据源为唯一实体进行接入,这里举例一个可实施的例子,如用户在X个门户上产生访问痕迹,对应后台就是X份日志源,对应操作数据层就会有X张表。本发明实施例中的数据明细层会以门户访问作为主题域进行汇聚,按照公共维度进行物理宽表建模,表模型会按照需统计的关键指标衍生一列或多列用户标识,通过映射后生成。映射过程逻辑就是获取全局唯一值,需要说明的是,当需要做去重计算的维度列新出现(不存在)枚举值时会通过发号器取新号。
本发明实施例通过数据基础层(DWB)对位图数据的事件关键维度做轻度汇总,计算原子指标(如订购人数、次数、消费金额),得到统计指标数据。针对去重类原子指标,生成该类原子指标位图列(例如一列订购人数会映射一列订购人数位图,可以理解就是该行维度组合的订购用户群)。最后,本发明实施例通过数据服务层(DWS)依赖数据基础层的统计指标数据进一步聚合计算复合指标、衍生指标,对数据进行主题整合,并通过位图运算处理得到主题服务数据。因为在构建数据基础层时已计算出所有原子指标并且存储相应位图,因此在建设数据服务层时只需要做位图运算就可以轻松获得二级指标,从而提高了数据查询效率。
在一种可行的实施方式中,本发明实施例需要分析统计周、自然月、自然周的访问人数,传统方法需要针对所有维度组合做用户去重计算,期间必然会占满集群资源,同时耗费大量时间(去重的基数和耗时成正比,且去重属于CPU密集型计算)。但此时通过本发明实施例的数据服务层,只要针对维度组合做时间跨度(统计周、自然周、自然月)的位图或运算,如图3所示,就可以迅速算出周期内的访问人数(优化后耗时从小时级->秒级)。另外,本发明实施例在数据服务层为了灵活适配未来新增的指标,将表模型从宽表设计成窄表。
进一步作为优选的实施方式,所述位图数据仓库包括数据中间层,所述数据中间层用于对位图数据进行加工处理产生的临时数据进行存储。
在本发明实施例中,位图数据仓库还包括数据中间层,其中数据中间层用于对位图数据进行加工处理产生的临时数据进行存储,且存储的临时数据为需要存放一周其的加工数据。
进一步作为优选的实施方式,所述根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果,包括:
对所述访问请求进行业务分析处理,得到分析结果;
当所述分析结果为详单类数据查询请求时,通过明细层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;
当所述分析结果为分析报表类数据请求时,通过服务层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;或,通过基础层数据接口对所述位图数据仓库进行位图交叉运算处理,得到数据查询结果。
在本发明实施例中,对访问请求进行业务分析处理得到分析结果,其中访问请求可以为详单类数据查询请求或分析报表类数据请求,其中,详单类数据查询请求如具体的库存数据查询等,分析报表类数据请求如运营分析数据等。本发明实施例根据场景通过数据接口获取目标数据,如客服主要查询详单类数据,可直接访问数仓明细表。经营分析类报表主要查询运营、公司指标,可直接访问数仓服务层(静态)或数仓基础层(动态)利用位图交叉运算快速分析获得结果。
本发明实施例利用Hive、Trino的自建函数能力开发位图方法构建位图数据;再对潜在慢查询报表进行分析,抽取相关事实表、业务指标和前端部门进行协商,制定主题模型的建造方案;然后依据需求文档在数据仓库进行明细层、基础层、服务层表建模,部署数据作业;最后,本发明实施例面向数据应用,通过Trino访问位图数据仓库,封装数据接口分场景查询获取目标结果。
另一方面,本发明实施例还提供了一种基于位图存储的数据查询系统,包括:
第一模块,用于获取业务数据;
第二模块,用于根据聚类函数对所述业务数据进行位图构建处理,得到位图数据;
第三模块,用于根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库;
第四模块,用于根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果。
与图1的方法相对应,本发明实施例还提供了一种电子设备,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如前面所述的方法。
与图1的方法相对应,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
相关技术的数仓建设方案只适用于电信行业,较为单一;或只是从系统组件上解耦合数仓的架构,例如存储、计算分离,横向扩展服务器以满足性能。随着时间积累,冗余任务还是重复性开发,渐渐造成集群资源池瓶颈,所以单纯加服务器并不能使数据仓库获得弹性。
综上所述,本发明实施例具有以下优点:
本发明实施例从业务、建模角度概述数仓建设的步骤,从方法论和位图结合,实现指标快速聚合,减少CPU密集型去重计算,同时表模型新增二进制位图类型,在底层轻度汇总时就已形成位图,在展现时直接通过交叉方法计算秒级得出结果,真正实现弹性效果。本发明实施例在数据仓库的表模型中加入位图存储,构建高复用性数据仓库,提高资源利用率,减少存储成本,从而提高了数据查询效率,可适用于互联网、工业、服务业等各种传统行业领域。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (6)

1.一种基于位图存储的数据查询方法,其特征在于,所述方法包括:
获取业务数据;
根据聚类函数对所述业务数据进行位图构建处理,得到位图数据;
根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库;
根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果;
所述根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库,包括:
根据业务过程对数据仓库模型进行分层构建,生成分层模型,所述分层模型包括数据明细层、数据基础层和数据服务层;
根据所述数据明细层对所述位图数据进行数据汇聚处理,得到数据宽表;
根据所述数据基础层对所述位图数据的维度进行汇总处理,并对所述数据宽表进行指标统计处理,得到统计指标数据;
根据所述数据服务层对所述数据宽表和统计指标数据进行主题整合,并通过位图运算处理,得到主题服务数据;
将所述数据宽表、所述统计指标数据和所述主题服务数据存储到所述分层模型,得到位图数据仓库;
所述根据聚类函数对所述业务数据进行位图构建处理,得到位图数据,包括:
根据聚合函数对所述业务数据的业务信息进行聚合处理,得到原子指标位图;
对所述原子指标位图进行二次计算处理,得到派生指标位图;
所述位图数据包括所述原子指标位图和所述派生指标位图;
所述对所述原子指标位图进行二次计算处理,得到派生指标位图,包括:
对所述原子指标位图进行聚合运算处理,得到运算结果;
对所述运算结果以字节流类型进行存储处理,得到派生指标位图;
所述根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果,包括:
对所述访问请求进行业务分析处理,得到分析结果;
当所述分析结果为详单类数据查询请求时,通过明细层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;
当所述分析结果为分析报表类数据请求时,通过服务层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;或,通过基础层数据接口对所述位图数据仓库进行位图交叉运算处理,得到数据查询结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述原子指标位图进行二次计算处理,得到派生指标位图,包括:
对所述原子指标位图进行聚合运算处理,得到运算结果;
对所述运算结果以字节流类型进行存储处理,得到派生指标位图。
3.根据权利要求1所述的方法,其特征在于,所述位图数据仓库包括数据中间层,所述数据中间层用于对位图数据进行加工处理产生的临时数据进行存储。
4.一种基于位图存储的数据查询系统,其特征在于,所述系统包括:
第一模块,用于获取业务数据;
第二模块,用于根据聚类函数对所述业务数据进行位图构建处理,得到位图数据;
第三模块,用于根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库;
第四模块,用于根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果;
所述第三模块,用于根据业务过程对所述位图数据进行模型构建处理,得到位图数据仓库,包括:
根据业务过程对数据仓库模型进行分层构建,生成分层模型,所述分层模型包括数据明细层、数据基础层和数据服务层;
根据所述数据明细层对所述位图数据进行数据汇聚处理,得到数据宽表;
根据所述数据基础层对所述位图数据的维度进行汇总处理,并对所述数据宽表进行指标统计处理,得到统计指标数据;
根据所述数据服务层对所述数据宽表和统计指标数据进行主题整合,并通过位图运算处理,得到主题服务数据;
将所述数据宽表、所述统计指标数据和所述主题服务数据存储到所述分层模型,得到位图数据仓库;
所述第二模块,用于根据聚类函数对所述业务数据进行位图构建处理,得到位图数据,包括:
根据聚合函数对所述业务数据的业务信息进行聚合处理,得到原子指标位图;
对所述原子指标位图进行二次计算处理,得到派生指标位图;
所述位图数据包括所述原子指标位图和所述派生指标位图;
所述对所述原子指标位图进行二次计算处理,得到派生指标位图,包括:
对所述原子指标位图进行聚合运算处理,得到运算结果;
对所述运算结果以字节流类型进行存储处理,得到派生指标位图;
所述第四模块,用于根据访问请求对所述位图数据仓库进行位图查询处理,得到数据查询结果,包括:
对所述访问请求进行业务分析处理,得到分析结果;
当所述分析结果为详单类数据查询请求时,通过明细层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;
当所述分析结果为分析报表类数据请求时,通过服务层数据接口对所述位图数据仓库进行访问处理,得到数据查询结果;或,通过基础层数据接口对所述位图数据仓库进行位图交叉运算处理,得到数据查询结果。
5.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器用于存储程序;
所述处理器执行所述程序实现权利要求1至3中任一项所述的方法。
6.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法。
CN202310094807.5A 2023-01-19 2023-01-19 一种基于位图存储的数据查询方法、系统、设备及介质 Active CN116010420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310094807.5A CN116010420B (zh) 2023-01-19 2023-01-19 一种基于位图存储的数据查询方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310094807.5A CN116010420B (zh) 2023-01-19 2023-01-19 一种基于位图存储的数据查询方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN116010420A CN116010420A (zh) 2023-04-25
CN116010420B true CN116010420B (zh) 2024-06-11

Family

ID=86030298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310094807.5A Active CN116010420B (zh) 2023-01-19 2023-01-19 一种基于位图存储的数据查询方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116010420B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525652A (zh) * 2022-09-23 2022-12-27 上海哔哩哔哩科技有限公司 用户访问数据处理方法及装置
CN115544007A (zh) * 2022-09-27 2022-12-30 上海品顺信息科技有限公司 标签预处理方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525652A (zh) * 2022-09-23 2022-12-27 上海哔哩哔哩科技有限公司 用户访问数据处理方法及装置
CN115544007A (zh) * 2022-09-27 2022-12-30 上海品顺信息科技有限公司 标签预处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN116010420A (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Gupta et al. Cloud computing and big data analytics: what is new from databases perspective?
KR102627690B1 (ko) Sql 질의 플랜들을 최적화하기 위한 차원 콘텍스트 전파 기술들
CN108038222B (zh) 用于信息系统建模和数据访问的实体-属性框架的系统
US8978034B1 (en) System for dynamic batching at varying granularities using micro-batching to achieve both near real-time and batch processing characteristics
CN107451225B (zh) 用于半结构化数据的可缩放分析平台
Jensen et al. Modelardb: Modular model-based time series management with spark and cassandra
CN107092627B (zh) 记录的列状存储表示
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
Chambi et al. Optimizing druid with roaring bitmaps
Thabtah et al. Mr-arm: a map-reduce association rule mining framework
Hutchison et al. From NoSQL Accumulo to NewSQL Graphulo: Design and utility of graph algorithms inside a BigTable database
Hu et al. Efficient provenance management via clustering and hybrid storage in big data environments
Rusu et al. In-depth benchmarking of graph database systems with the Linked Data Benchmark Council (LDBC) Social Network Benchmark (SNB)
Suriarachchi et al. Big provenance stream processing for data intensive computations
Abdel Azez et al. Optimizing join in HIVE star schema using key/facts indexing
CN116911671A (zh) 一种数据资产运营效能评估方法及系统
Gaurav et al. An outline on big data and big data analytics
CN117573646A (zh) 一种基于维度建模的数据管理方法及系统
US20180349443A1 (en) Edge store compression in graph databases
CN116010420B (zh) 一种基于位图存储的数据查询方法、系统、设备及介质
Hassan STORAGE STRUCTURES IN THE ERA OF BIG DATA: FROM DATA WAREHOUSE TO LAKEHOUSE
Sinthong et al. AFrame: Extending DataFrames for large-scale modern data analysis (Extended Version)
Ezzati‐Jivan et al. Cube data model for multilevel statistics computation of live execution traces
CN111723202B (zh) 一种舆情数据的处理装置、方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant