CN106844713A - 一种数据立方体生成的方法及装置 - Google Patents

一种数据立方体生成的方法及装置 Download PDF

Info

Publication number
CN106844713A
CN106844713A CN201710067736.4A CN201710067736A CN106844713A CN 106844713 A CN106844713 A CN 106844713A CN 201710067736 A CN201710067736 A CN 201710067736A CN 106844713 A CN106844713 A CN 106844713A
Authority
CN
China
Prior art keywords
data
dimension
cube
dimensionality reduction
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710067736.4A
Other languages
English (en)
Inventor
孔德文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Micro Shadow Era Technology Co Ltd
Original Assignee
Beijing Micro Shadow Era Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Micro Shadow Era Technology Co Ltd filed Critical Beijing Micro Shadow Era Technology Co Ltd
Priority to CN201710067736.4A priority Critical patent/CN106844713A/zh
Publication of CN106844713A publication Critical patent/CN106844713A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据管理技术领域,尤其是涉及一种数据立方体生成的方法及装置。其中,该方法包括:获取维度数据,以及与维度数据对应的度量数据,度量数据为不可聚集数据;查找与度量数据对应的信息标识;采用基数估计方式对查找到的信息标识的种类进行统计;基于统计后的结果和维度数据加载生成各个数据立方体。通过本发明提供的数据立方体生成的方法及装置,其利用基数估计对不可聚集数据对应的信息标识进行种类统计,且能够通过按位运算实现不可聚集数据的合并,生成Cube的效率较高,实用性较佳。

Description

一种数据立方体生成的方法及装置
技术领域
本发明涉及数据管理技术领域,具体而言,涉及一种数据立方体生成的方法及装置。
背景技术
OLAP(On-Line Analytical Process,联机分析处理)是以海量数据为基础的复杂分析技术,是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入的了解的一类软件技术。
现有的多维分析方案主要有以下两种:ROLAP(Relational OLAP,关系OLAP):基于关系数据库的OLAP实现;以关系数据库为核心,以关系型结构进行多维数据的表示和存储。MOLAP(Multidimensional OLAP,多维数据OLAP):基于多维数据组织的OLAP实现;以多维数据组织方式为核心,即,MOLAP使用多维数组存储数据。多维数据在存储中将形成“Cube(立方体)”的结构,在MOLAP中对“Cube”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
随着数据量的增大,上述生成Cube的MOLAP分析方案日渐上风。但是,在生成Cube的过程中,由于对不可聚集数据(如网站访问分析中的UV(独立访客))需要进行去重计算,且所有层均采用从底层原始数据重新计算的方式,而导致Cube生成效率低下。
发明内容
有鉴于此,本发明的目的在于提供一种数据立方体生成的方法及装置,利用基数估计对不可聚集数据进行Cube生成,生成效率较高。
第一方面,本发明实施例提供了一种数据立方体生成的方法,所述方法包括:
获取维度数据,以及与所述维度数据对应的度量数据,所述度量数据为不可聚集数据;
查找与所述度量数据对应的信息标识;
采用基数估计方式对查找到的所述信息标识的种类进行统计;
基于统计后的结果和所述维度数据加载生成各个数据立方体。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述查找与所述度量数据对应的信息标识,包括:
根据所述度量数据与所述信息标识之间的对应关系,查找与所述度量数据对应的信息标识。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述度量数据为多个,采用基数估计方式对查找到的多个所述信息标识的种类进行统计,包括:
将查找到的多个所述信息标识分别按照bit位进行编码,得到多个二进制数;
基于多个所述二进制数进行基数估计,得到基数位图,所述基数位图中1的数量用于表征多个所述信息标识的种类;
统计所述基数位图中多个所述二进制数对应的多个所述信息标识的种类。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于统计后的结果和所述维度数据加载生成各个数据立方体,包括:
基于统计后的结果和所述维度数据加载生成第一数据立方体;
按照预设维度间隔对所述维度数据降维,且基于降维后的所述维度数据合并对应的所述度量数据;
基于合并后的结果和降维后的所述维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对所述维度数据降维,并加载生成第三数据立方体。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基于降维后的所述维度数据合并对应的所述度量数据,包括:
计算与降维后的所述维度数据对应的每个所述度量数据对应的基数位图;
将查找到的所有所述基数位图进行合并运算。
第二方面,本发明实施例还提供了一种数据立方体生成的装置,所述装置包括:
获取模块,用于获取维度数据,以及与所述维度数据对应的度量数据,所述度量数据为不可聚集数据;
查找模块,用于查找与所述度量数据对应的信息标识;
统计模块,用于采用基数估计方式对查找到的所述信息标识的种类进行统计;
生成模块,用于基于统计后的结果和所述维度数据加载生成各个数据立方体。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述查找模块还用于,根据所述度量数据与所述信息标识之间的对应关系,查找与所述度量数据对应的信息标识。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述统计模块包括:
编码单元,用于将查找到的多个所述信息标识分别按照bit位进行编码,得到多个二进制数;
估计单元,用于基于多个所述二进制数进行基数估计,得到基数位图,所述基数位图中1的数量用于表征多个所述信息标识的种类;
统计单元,用于统计所述基数位图中多个所述二进制数对应的多个所述信息标识的种类。
结合第二方面的第二种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述生成模块包括:
第一生成单元,用于基于统计后的结果和所述维度数据加载生成第一数据立方体;
降维合并单元,用于按照预设维度间隔对所述维度数据降维,且基于降维后的所述维度数据合并对应的所述度量数据;
第二生成单元,用于基于合并后的结果和降维后的所述维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对所述维度数据降维,并加载生成第三数据立方体。
结合第二方面的第三种可能的实施方式,本发明实施例提供了第二方面的第四种可能的实施方式,其中,所述降维合并单元包括:
计算子单元,用于计算与降维后的所述维度数据对应的每个所述度量数据对应的基数位图;
合并子单元,用于将查找到的所有所述基数位图进行合并运算。
本发明实施例提供的数据立方体生成的方法及装置,与现有技术中的Cube生成方法由于对不可聚集数据需要进行去重计算,且所有层均采用从底层原始数据重新计算的方式,而导致Cube生成效率低下相比,其首先获取维度数据及其对应的度量数据,其中,度量数据为不可聚集数据,然后查找与上述度量数据对应的信息标识,并采用基数估计方式对查找到的信息标识的种类进行统计,最后基于统计后的结果和维度数据加载生成各个数据立方体,其利用基数估计对不可聚集数据对应的信息标识进行种类统计,且能够通过按位运算实现不可聚集数据的合并,生成Cube的效率较高,实用性较佳。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种数据立方体生成的方法的流程图;
图2示出了本发明实施例所提供的另一种数据立方体生成的方法的流程图;
图3示出了本发明实施例所提供的另一种数据立方体生成的方法的流程图;
图4示出了本发明实施例所提供的另一种数据立方体生成的方法的流程图;
图5示出了本发明实施例所提供的一种数据立方体生成的装置的结构示意图;
图6示出了本发明实施例所提供的一种数据立方体生成的装置中统计模块的结构示意图;
图7示出了本发明实施例所提供的一种数据立方体生成的装置中生成模块的结构示意图;
图8示出了本发明实施例所提供的一种数据立方体生成的装置中降维合并单元的结构示意图。
主要元件符号说明:
11、获取模块;22、查找模块;33、统计模块;44、生成模块;331、编码单元;332、估计单元;333、统计单元;441、第一生成单元;442、降维合并单元;443、第二生成单元;4421、计算子单元;4422、合并子单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到相关技术中生成Cube的方法,由于对不可聚集数据(如网站访问分析中的UV(独立访客))需要进行去重计算,且所有层均采用从底层原始数据重新计算的方式,而导致Cube生成效率低下。基于此,本发明实施例提供了一种数据立方体生成的方法及装置,利用基数估计对不可聚集数据进行Cube生成,生成效率较高。
另外,在对本发明实施例所提供的数据立方体生成的方法及装置进行具体的阐述之前,现首先对本发明实施例具体的应用场景进行简单说明。
本发明实施例所提供的数据立方体生成的方法及装置主要应用在电商数据分析领域,特别是分析用户访问情况。例如,现有A、B两个分类的网站页面(如淘宝网页),希望可以随时查看目前这两个分类的淘宝网页分别被多少个独立访客点击过。其中,UV(UniqueVisitor,独立访客)是指有多少个自然人访问了A和/或B,例如,即使用户今天点了10次A,我对A类网页的UV贡献也是1,而不是10。本发明实施例所提供的数据立方体生成的方法及装置即是为了解决传统的Cube生成方法对于独立访客的统计过程复杂,且生成效率低下的问题。另外,本发明实施例不仅能够有效的解决上述应用场景中所存在的问题,还能够解决其他存在有不可聚集数据统计的应用场景中,在此不做限制。其中,上述不可聚集数据(如UV),是指不可直接叠加的数据。
参见图1所示的本发明实施例提供的数据立方体生成的方法的流程图,所述方法具体包括如下步骤:
S101、获取维度数据,以及与维度数据对应的度量数据,度量数据为不可聚集数据;
具体的,考虑到本发明实施例所提供的数据立方体生成的方法的具体应用场景,本发明实施例中的维度数据以及与其对应的度量数据来源于访问日志,客观来说,目前还没有能在互联网上准确对一个自然人进行标识的方法,通常采用的是近似方案。例如通过登录用户+cookie跟踪的方式:当某个用户已经登录,则采用会员ID标识;对于未登录用户,则采用跟踪cookie的方式进行标识。为了简单起见,假设完全采用跟踪cookie的方式对独立访客进行标识。其中,cookie记录了所有用户的访问日志,且该访问日志的格式可以为:用户编码,网站分类,访问页面的网址。其中,上述度量数据即是指用户编码对应的用户访问量,维度数据可以是网站分类和访问页面的网址。
其中,上述维度数据和度量数据可以对应存储在原始事实数据库中,在需要对度量数据进行统计分析时,再从上述原始事实数据库中读取数据。
S102、查找与度量数据对应的信息标识;
具体的,本发明实施例所提供的数据立方体生成的方法能够查找与度量数据对应的信息标识,这主要是基于度量数据与信息标识之间对应关系。
其中,基于上述网页访问而言,上述信息标识是指访客的用户编码,而度量数据则指对应的访客。对于访问日志而言,该访问日志将根据访客的用户编码,访客访问的网站分类,访客访问页面的网址等内容进行记录,那么,对于每个访客而言,其与用户编码则存在有预设的对应关系,即度量数据与信息标识存在有对应关系,且根据该对应关系,能够查找到与所有度量数据相对应的信息标识。
S103、采用基数估计方式对查找到的信息标识的种类进行统计;
具体的,本发明实施例所提供的数据立方体生成的方法能够采用基数估计方式对查找到的信息标识的种类进行统计。
其中,本发明实施例中的基数估计方式是指采用基数估计算法(如LinearCounting、LogLog Counting、Adaptive Counting等算法)对查找到的信息标识进行统计。另外,考虑到本发明实施例所提供的数据立方体生成的方法为了得到各个维度的数据立方体,所以,本发明实施例优选的采用基于位图的基数计数方法。通过上述基数估计方式统计信息标识的种类,若该信息标识是指用户编码,则信息标识的种类对应于独立访客的个数。
S104、基于统计后的结果和维度数据加载生成各个数据立方体。
具体的,本发明实施例所提供的数据立方体生成的方法在生成各个数据立方体时,是一个逐层计算的过程。在Cube的第一层计算中,对相同的维度数据而言,在利用基数估计方式对信息标识的种类进行统计后,根据统计结果生成对应的第一数据立方体,在Cube的其他层计算中,按照维度减少逐层由它上一级层的结果汇聚信息标识的种类,且上述汇聚过程采用位图按位合并的方式,那么,在所有层均采用了基数估计方式后,即可得到最终的Cube。
其中,一个N维的完全Cube,是由:1个N维的第一数据立方体,N个(N-1)维的第二数据立方体,N*(N-1)/2个(N-2)维的第三数据立方体,…,N个1维的第N数据立方体,1个0维的第N+1数据立方体,总共2^N个数据立方体组成的。在“逐层算法”中,按维度数逐渐减少来计算,每个层级的计算(除了第一层,它是从原始数据聚合而来),均是基于它上一层级的结果来计算的。
本发明实施例提供的数据立方体生成的方法,与现有技术中的Cube生成方法由于对不可聚集数据需要进行去重计算,且所有层均采用从底层原始数据重新计算的方式,而导致Cube生成效率低下相比,其首先获取维度数据及其对应的度量数据,其中,度量数据为不可聚集数据,然后查找与上述度量数据对应的信息标识,并采用基数估计方式对查找到的信息标识的种类进行统计,最后基于统计后的结果和维度数据加载生成各个数据立方体,其利用基数估计对不可聚集数据对应的信息标识进行种类统计,且能够通过按位运算实现不可聚集数据的合并,生成Cube的效率较高,实用性较佳。
为了更好的查找与度量数据相对应的信息标识,本发明实施例还将根据度量数据与信息标识之间的对应关系,查找与度量数据对应的信息标识。
其中,对于网页访问而言,上述度量数据对应的访客与信息标识之间是一一对应的,根据该对应关系,即可查找任意度量数据对应的信息标识。
为了更好的对查找到的信息标识的种类进行统计,本发明实施例所提供的数据立方体生成的方法将采用基数估计方式进行种类统计,参见图2,该统计过程具体通过如下步骤实现:
S201、将查找到的多个信息标识分别按照bit位进行编码,得到多个二进制数;
S202、基于多个二进制数进行基数估计,得到基数位图,基数位图中1的数量用于表征多个信息标识的种类;
S203、统计基数位图中多个二进制数对应的多个信息标识的种类。
具体的,对于查找到的每一个信息标识,均按照bit位进行编码以得到对应的二进制数。其中,本发明实施例所提供的数据立方体生成的方法采用bit位代表整数的方法,即一个bit位代表一个整数,每个bit所代表的整数由它在bit串中的位置决定(第一个bit代表0000001,第二个bit代表0000002,第三个bit代表0000003,......)。本发明实施例从第一个数开始遍历,并将其所对应位置的那个bit位设置成1,若要查找某个信息标识对应的度量数据是否存在,则只需查看其对应位是否为1即可。
另外,对于对应于多个信息标识的多个二进制数而言,在进行基于位图的基数估计后,将得到对应的基数位图,其中,基数位图中1的数量用于表征多个信息标识的种类。如“00100110”表示集合{2,5,6},bitmap中1的数量就是这个集合的基数,本发明实施例中,该基数用于表征多个信息标识的种类。上述过程可以通过函数FUNCTION hll具体进行实现,该函数输入为一组用户编码,返回一个基数估计算法计算完的基数位图,不直接计算基数,返回类型binary。对于基数位图而言,通过函数FUNCTION hll_count具体进行实现,该函数输入为基数位图;输出为该位图的基数,即多个信息标识的种类,即本发明实施例中网页访问的访客人数,返回类型为int。
本发明实施例所提供的数据立方体生成的方法还将对统计后的结果和维度数据加载生成各个数据立方体,参见图3,该生成过程具体包括:
S301、基于统计后的结果和维度数据加载生成第一数据立方体;
S302、按照预设维度间隔对维度数据降维,且基于降维后的维度数据合并对应的度量数据;
S303、基于合并后的结果和降维后的维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对维度数据降维,并加载生成第三数据立方体。
具体的,本发明实施例所提供的数据立方体生成的方法首先基于维度数据和统计信息标识的种类的结果加载生成第一数据立方体,然后按照预设维度间隔对维度数据降维,并基于降维后的维度数据合并对应的度量数据,最后基于合并后的结果和降维后的维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对维度数据降维,并加载生成第三数据立方体。
参见图4,上述基于降维后的维度数据合并对应的度量数据具体通过如下步骤实现:
S401、计算与降维后的维度数据对应的每个度量数据对应的基数位图;
S402、将查找到的所有基数位图进行合并运算。
具体的,对于本发明实施例所提供的数据立方体生成的方法而言,是基于基数位图进行合并运算实现不可聚集数据——度量数据的合并的。
其中,对于上文的有A、B两个分类的网站页面的例子而言,假设日志有100万行,在Cube第一层计算:先按照分类统计用户对这100万行日志采用hll函数进行计算,得到两个基数位图,即A分类的基数位图和B分类的基数位图。那么,对A分类的基数位图和B分类的基数位图进行hll_count函数计算得到计算结果为访问A分类的用户有2万人,访问B分类的用户有3万人。在Cube第二层计算:对第一层中已经得到的A分类的基数位图和B分类的基数位图进行hll_union计算,得到合并后的全站的基数位图。那么,对全站的基数位图进行hll_count函数计算得到计算结果为访问过网站总用户有4万人。
可见,本发明实施例所提供的数据立方体生成的方法只需要在Cube计算的第一层进行一次全量读取,其他层(N层)中就不再需要对原始日志进行全量读取计算了,只需要调用hll_union函数合并一下N-1层的结果即可,例子中Cube第二层计算只要两个数相加即可,相比传统的Cube生成方法需要对100W的日志进行两次全量的读取才能得到计算结果,这一步的性能提升是100万:2倍,具有较高的Cube生成效率。
本发明实施例提供的数据立方体生成的方法,与现有技术中的Cube生成方法由于对不可聚集数据需要进行去重计算,且所有层均采用从底层原始数据重新计算的方式,而导致Cube生成效率低下相比,其首先获取维度数据及其对应的度量数据,其中,度量数据为不可聚集数据,然后查找与上述度量数据对应的信息标识,并采用基数估计方式对查找到的信息标识的种类进行统计,最后基于统计后的结果和维度数据加载生成各个数据立方体,其利用基数估计对不可聚集数据对应的信息标识进行种类统计,且能够通过按位运算实现不可聚集数据的合并,生成Cube的效率较高,实用性较佳。
本发明实施例还提供了一种数据立方体生成的装置,所述装置用于执行上述数据立方体生成的方法,参见图5,所述装置包括:
获取模块11,用于获取维度数据,以及与维度数据对应的度量数据,度量数据为不可聚集数据;
查找模块22,用于查找与度量数据对应的信息标识;
统计模块33,用于采用基数估计方式对查找到的信息标识的种类进行统计;
生成模块44,用于基于统计后的结果和维度数据加载生成各个数据立方体。
为了更好的查找与度量数据相对应的信息标识,本发明实施例中的查找模块22还将根据度量数据与信息标识之间的对应关系,查找与度量数据对应的信息标识。
为了更好的对查找到的信息标识的种类进行统计,本发明实施例所提供的数据立方体生成的装置还包括统计模块33,参见图6,该统计模块33具体包括:
编码单元331,用于将查找到的多个信息标识分别按照bit位进行编码,得到多个二进制数;
估计单元332,用于基于多个二进制数进行基数估计,得到基数位图,基数位图中1的数量用于表征多个信息标识的种类;
统计单元333,用于统计基数位图中多个二进制数对应的多个信息标识的种类。
参见图7,本发明实施例所提供的数据立方体生成的装置中的生成模块44具体包括第一生成单元441、降维合并单元442和第二生成单元443;其中:
第一生成单元441,用于基于统计后的结果和维度数据加载生成第一数据立方体;
降维合并单元442,用于按照预设维度间隔对维度数据降维,且基于降维后的维度数据合并对应的度量数据;
第二生成单元443,用于基于合并后的结果和降维后的维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对维度数据降维,并加载生成第三数据立方体。
参见图8,上述降维合并单元442包括计算子单元4421和合并子单元4422,其中:
计算子单元4421,用于计算与降维后的维度数据对应的每个度量数据对应的基数位图;
合并子单元4422,用于将查找到的所有基数位图进行合并运算。
本发明实施例提供的数据立方体生成的装置,与现有技术中的Cube生成方法由于对不可聚集数据需要进行去重计算,且所有层均采用从底层原始数据重新计算的方式,而导致Cube生成效率低下相比,其首先获取维度数据及其对应的度量数据,其中,度量数据为不可聚集数据,然后查找与上述度量数据对应的信息标识,并采用基数估计方式对查找到的信息标识的种类进行统计,最后基于统计后的结果和维度数据加载生成各个数据立方体,其利用基数估计对不可聚集数据对应的信息标识进行种类统计,且能够通过按位运算实现不可聚集数据的合并,生成Cube的效率较高,实用性较佳。
本发明实施例所提供的进行数据立方体生成的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的数据立方体生成的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据立方体生成的方法,其特征在于,包括:
获取维度数据,以及与所述维度数据对应的度量数据,所述度量数据为不可聚集数据;
查找与所述度量数据对应的信息标识;
采用基数估计方式对查找到的所述信息标识的种类进行统计;
基于统计后的结果和所述维度数据加载生成各个数据立方体。
2.根据权利要求1所述的方法,其特征在于,所述查找与所述度量数据对应的信息标识,包括:
根据所述度量数据与所述信息标识之间的对应关系,查找与所述度量数据对应的信息标识。
3.根据权利要求1所述的方法,其特征在于,所述度量数据为多个,采用基数估计方式对查找到的多个所述信息标识的种类进行统计,包括:
将查找到的多个所述信息标识分别按照bit位进行编码,得到多个二进制数;
基于多个所述二进制数进行基数估计,得到基数位图,所述基数位图中1的数量用于表征多个所述信息标识的种类;
统计所述基数位图中多个所述二进制数对应的多个所述信息标识的种类。
4.根据权利要求3所述的方法,其特征在于,所述基于统计后的结果和所述维度数据加载生成各个数据立方体,包括:
基于统计后的结果和所述维度数据加载生成第一数据立方体;
按照预设维度间隔对所述维度数据降维,且基于降维后的所述维度数据合并对应的所述度量数据;
基于合并后的结果和降维后的所述维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对所述维度数据降维,并加载生成第三数据立方体。
5.根据权利要求4所述的方法,其特征在于,所述基于降维后的所述维度数据合并对应的所述度量数据,包括:
计算与降维后的所述维度数据对应的每个所述度量数据对应的基数位图;
将查找到的所有所述基数位图进行合并运算。
6.一种数据立方体生成的装置,其特征在于,包括:
获取模块,用于获取维度数据,以及与所述维度数据对应的度量数据,所述度量数据为不可聚集数据;
查找模块,用于查找与所述度量数据对应的信息标识;
统计模块,用于采用基数估计方式对查找到的所述信息标识的种类进行统计;
生成模块,用于基于统计后的结果和所述维度数据加载生成各个数据立方体。
7.根据权利要求6所述的装置,其特征在于,所述查找模块还用于,根据所述度量数据与所述信息标识之间的对应关系,查找与所述度量数据对应的信息标识。
8.根据权利要求6所述的装置,其特征在于,所述统计模块包括:
编码单元,用于将查找到的多个所述信息标识分别按照bit位进行编码,得到多个二进制数;
估计单元,用于基于多个所述二进制数进行基数估计,得到基数位图,所述基数位图中1的数量用于表征多个所述信息标识的种类;
统计单元,用于统计所述基数位图中多个所述二进制数对应的多个所述信息标识的种类。
9.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
第一生成单元,用于基于统计后的结果和所述维度数据加载生成第一数据立方体;
降维合并单元,用于按照预设维度间隔对所述维度数据降维,且基于降维后的所述维度数据合并对应的所述度量数据;
第二生成单元,用于基于合并后的结果和降维后的所述维度数据加载生成第二数据立方体,直至在降维至零维度时,停止对所述维度数据降维,并加载生成第三数据立方体。
10.根据权利要求9所述的装置,其特征在于,所述降维合并单元包括:
计算子单元,用于计算与降维后的所述维度数据对应的每个所述度量数据对应的基数位图;
合并子单元,用于将查找到的所有所述基数位图进行合并运算。
CN201710067736.4A 2017-02-07 2017-02-07 一种数据立方体生成的方法及装置 Pending CN106844713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710067736.4A CN106844713A (zh) 2017-02-07 2017-02-07 一种数据立方体生成的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710067736.4A CN106844713A (zh) 2017-02-07 2017-02-07 一种数据立方体生成的方法及装置

Publications (1)

Publication Number Publication Date
CN106844713A true CN106844713A (zh) 2017-06-13

Family

ID=59123028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710067736.4A Pending CN106844713A (zh) 2017-02-07 2017-02-07 一种数据立方体生成的方法及装置

Country Status (1)

Country Link
CN (1) CN106844713A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832347A (zh) * 2017-10-16 2018-03-23 北京京东尚科信息技术有限公司 数据降维方法、系统及电子设备
CN108256087A (zh) * 2018-01-22 2018-07-06 北京腾云天下科技有限公司 一种基于位图结构的数据导入、查询及处理方法
CN112887690A (zh) * 2021-01-27 2021-06-01 智能场景(广东)科技有限公司 基于单投影设备的立体投影系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360379A (zh) * 2011-10-10 2012-02-22 浙江鸿程计算机系统有限公司 一种多维数据立方体增量聚合及查询优化方法
CN102521417A (zh) * 2011-12-30 2012-06-27 南京柏梭信息科技有限公司 一种基于虚拟数据立方体的多维数据处理方法及其系统
CN104199821A (zh) * 2014-07-08 2014-12-10 浙江大学城市学院 一种基于概要结构的流数据立方体构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360379A (zh) * 2011-10-10 2012-02-22 浙江鸿程计算机系统有限公司 一种多维数据立方体增量聚合及查询优化方法
CN102521417A (zh) * 2011-12-30 2012-06-27 南京柏梭信息科技有限公司 一种基于虚拟数据立方体的多维数据处理方法及其系统
CN104199821A (zh) * 2014-07-08 2014-12-10 浙江大学城市学院 一种基于概要结构的流数据立方体构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘运涛 等: "CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832347A (zh) * 2017-10-16 2018-03-23 北京京东尚科信息技术有限公司 数据降维方法、系统及电子设备
CN107832347B (zh) * 2017-10-16 2021-12-31 北京京东尚科信息技术有限公司 数据降维方法、系统及电子设备
CN108256087A (zh) * 2018-01-22 2018-07-06 北京腾云天下科技有限公司 一种基于位图结构的数据导入、查询及处理方法
CN112887690A (zh) * 2021-01-27 2021-06-01 智能场景(广东)科技有限公司 基于单投影设备的立体投影系统和方法
CN112887690B (zh) * 2021-01-27 2023-05-12 智能场景(广东)科技有限公司 基于单投影设备的立体投影系统和方法

Similar Documents

Publication Publication Date Title
US9898554B2 (en) Implicit question query identification
CN105630972A (zh) 数据处理方法及装置
CN106487939B (zh) 一种确定用户ip子网的方法和装置、一种电子设备
CN106294128B (zh) 一种导出报表数据的自动化测试方法及装置
CN106598999A (zh) 一种计算文本主题归属度的方法及装置
US11550762B2 (en) Implementation of data access metrics for automated physical database design
CN103970752A (zh) 独立访问者数量估算方法和系统
CN106844713A (zh) 一种数据立方体生成的方法及装置
CN103544325A (zh) 用于网页页面点击分布的数据处理方法和装置
CN107633257A (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN109325648A (zh) 基于指标的多维度数据流统计方法、服务器及存储介质
US20180357278A1 (en) Processing aggregate queries in a graph database
CN114092729A (zh) 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN104008204A (zh) 一种动态的多维情境感知电影推荐系统及其实现方法
CN107391470A (zh) 一种基于表单设计器的单数据库表操作方法
US20140108625A1 (en) System and method for configuration policy extraction
CN104484601B (zh) 基于加权距离度量以及矩阵分解的入侵检测方法及装置
CN108241643B (zh) 关键词的指标数据分析方法及装置
CN109241048A (zh) 用于数据统计的数据处理方法、服务器及存储介质
CN106933905A (zh) 网页访问数据的监测方法和装置
US9727561B1 (en) Context- and activity-aware content selection
CN111078990A (zh) 对资源链接进行编排推荐系统及方法
CN105989284A (zh) 网页入侵脚本特征的识别方法及设备
CN116028446A (zh) 时序数据文件化管理方法、装置、设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20200626

AD01 Patent right deemed abandoned