CN107729399B - 数据处理的方法和装置 - Google Patents

数据处理的方法和装置 Download PDF

Info

Publication number
CN107729399B
CN107729399B CN201710859257.6A CN201710859257A CN107729399B CN 107729399 B CN107729399 B CN 107729399B CN 201710859257 A CN201710859257 A CN 201710859257A CN 107729399 B CN107729399 B CN 107729399B
Authority
CN
China
Prior art keywords
data
dimension
combination
processing
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710859257.6A
Other languages
English (en)
Other versions
CN107729399A (zh
Inventor
李树前
朱德伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710859257.6A priority Critical patent/CN107729399B/zh
Publication of CN107729399A publication Critical patent/CN107729399A/zh
Application granted granted Critical
Publication of CN107729399B publication Critical patent/CN107729399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开数据处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待处理的数据集,确定数据集具有的维度组合;基于维度组合对数据集进行处理得到对应的维度表集合;在维度表集合中,每个维度表对应一种维度组合;基于维度表集合能够进行多维度查询。该实施方式能够实现高效的多维度查询、分析数据。

Description

数据处理的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理的方法和装置。
背景技术
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节。同时,用户的查询需求也越来越复杂,所涉及的数据已不仅是查询或操纵一张关系表中的一条或几条数据记录,而是对多张表中记录的成千上万条数据进行数据分析和信息综合处理,例如有一百亿条插件数据,其包括插件名字段、插件版本字段、客户端版本字段以及操作系统版本字段等信息,在这一百亿条数据中查询客户端版本为5.6.0、操作系统版本为“7.0”、插件版本为“1.3”的插件的数量,即多维度查询,按照传统的查询方法则需要进行全表扫描。
现有的大数据存储方案,适合多维度查询的数据库,可以用关系型数据库,例如关系型数据库管理系统(mysql)、甲骨文数据库(oracle),也可以用非关系型数据库,例如分布式存储系统(HBase),或者使用数据仓库(hive)。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
对于关系型数据库,当数据量达到T字节或P字节量级时候,全表扫描非常困难,若进行分库分表,比较复杂;
非关系型数据库的查询个数有限,进行聚合计算的时候,效率很低。
发明内容
有鉴于此,本发明实施例提供一种数据处理的方法和装置,能够实现高效的多维度查询、分析数据。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理的方法。
本发明实施例的一种数据处理的方法包括:获取待处理的数据集,确定所述数据集具有的维度组合;基于所述维度组合对所述数据集进行处理得到对应的维度表集合;其中,在所述维度表集合中,每个维度表对应一种所述维度组合;并且基于所述维度表集合能够进行多维度查询。
可选地,对所述数据集进行处理得到对应的维度表集合包括:对原始数据采用立体算法进行处理以得到与所述维度组合对应的至少一组预计算数据;对各组所述预计算数据进行排序后分别存储于时间数据表,并在各所述时间数据表中记录所述预计算数据的时间戳;删除各所述时间数据表中的重复数据得到所述维度表集合。
可选地,对所述数据集进行处理得到对应的维度表集合还包括:获取新数据的时间戳;当所述时间数据表中不存在所述新数据或所述新数据的时间戳大于所述时间数据表中所述新数据的时间戳时,对所述新数据采用所述立体算法进行处理以得到与所述维度组合对应的至少一组所述预计算数据;将各组所述预计算数据分别添加至对应的所述时间数据表,并在所述时间数据表中记录所述预计算数据的时间戳;以及将所述预计算数据更新至所述维度表集合。
可选地,所述时间数据表包括同一主键的多条数据,且所述时间数据表的主键是表中数据的一种数据维度组合及所述预计算数据的时间戳。
可选地,所述立体算法包括:基于所述数据集的所述维度组合对所述数据集进行映射-归纳处理得到与所述维度组合对应的至少一组所述预计算数据。
可选地,所述方法还包括:在进行查询时,获取查询条件中的待查询维度组合;确定所述维度表集合中与所述待查询维度组合对应的所述维度表;基于查询条件查询与所述待查询维度组合对应的所述维度表,以得到查询结果。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据处理的装置。
本发明实施例的一种数据处理的装置包括:获取模块,用于获取待处理的数据集,确定所述数据集具有的维度组合;处理模块,用于基于所述维度组合对所述数据集进行处理得到对应的维度表集合;其中,在所述维度表集合中,每个维度表对应一种所述维度组合;并且基于所述维度表集合能够进行多维度查询。
可选地,所述处理模块还用于:对原始数据采用立体算法进行处理以得到与所述维度组合对应的至少一组预计算数据;对各组所述预计算数据进行排序后分别存储于时间数据表,并在各所述时间数据表中记录所述预计算数据的时间戳;删除各所述时间数据表中的重复数据得到所述维度表集合。
可选地,所述处理模块进一步用于:获取新数据的时间戳;当所述时间数据表中不存在所述新数据或所述新数据的时间戳大于所述时间数据表中所述新数据的时间戳时,对所述新数据采用所述立体算法进行处理以得到与所述维度组合对应的至少一组所述预计算数据;将各组所述预计算数据分别添加至对应的所述时间数据表,并在所述时间数据表中记录所述预计算数据的时间戳;以及将所述预计算数据更新至所述维度表集合。
可选地,所述时间数据表包括同一主键的多条数据,且所述时间数据表的主键是表中数据的一种数据维度组合及所述预计算数据的时间戳。
可选地,所述立体算法包括:基于所述数据集的所述维度组合对所述数据集进行映射-归纳处理得到与所述维度组合对应的至少一组所述预计算数据。
可选地,所述装置还包括:条件模块,用于在进行查询时,获取查询条件中的待查询维度组合;确定模块,用于确定所述维度表集合中与所述待查询维度组合对应的所述维度表;查询模块,用于基于查询条件查询与所述待查询维度组合对应的所述维度表,以得到查询结果。
为实现上述目的,根据本发明实施例的再一方面,提供了一种数据处理的电子设备。
本发明实施例的一种数据处理的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的数据处理的方法。
为实现上述目的,根据本发明实施例的又一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的数据处理的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例定义了一种更便于进行数据查询的存储结构,在该存储结构中,具有多个维度表,同一维度组合的数据被存储在一个维度表中。利用该存储结构来进行多维度查询,所以克服了现有技术在查询大量数据时效率低,且无法满足在海量数据中进行多维度查询、分析的技术问题。通过该存储结构进行多维度查询时,只需要选择与查询条件中的待查询维度组合对应的维度表进行查询即可找到相关数据,减少了数据搜索的范围,提高了多维度查询的效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的数据处理的方法的主要流程的示意图;
图2是根据本发明实施例的数据处理的方法的立体算法的示意图;
图3是根据本发明实施例的数据处理的方法的构建多维存储结构的示意图;
图4是根据本发明实施例的数据处理的装置的主要模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例中构建了多维立体结构用于数据存储,将所有数据通过立体算法进行处理后添加加到该多维立体结构中,结合去重表实现数据的多维度查询、分析。需要说明的是,本发明实施例的数据处理的方法或数据处理的装置可以应用于任何一种键值对(key-value)数据库或存储系统中。
例如HBase,HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可以在任何电脑服务器(PC Server)上搭建起大规模结构化存储集群。其优势在于通过行主键(rowkey)查询较快,例如现在有一亿条数据,我们将把源源不断的用户数据存储在一个时间数据表中,rowkey做如下设计:将时间戳(到毫秒)作为主键;Hbase的列簇设计为0~1000毫秒(ms),有1000个列簇,每个列簇有x1、x2、x3…...xn这些列。在用户不停地访问中,Hbase通过这样的方式,不停地往每秒中所代表的rowkey中存储数据。
图1是根据本发明实施例的数据处理的方法的主要流程的示意图。
如图1所示,本发明实施例的数据处理的方法主要包括以下步骤:
步骤S101:获取待处理的数据集,确定数据集具有的维度组合。
本发明实施例定义了一种便于进行数据查询的存储结构,在该存储结构中,具有多个维度表,同一维度组合的数据被存储在一个维度表中。
在构建该存储结构时,首先获取待处理的数据集,该数据集可以是原有的原始数据,也可以是新加入的新数据;然后确定该数据集具有的维度组合,维度是指数据所具有的某个属性,维度组合即所有的属性组合,可以是一个属性,也可以是几个属性,即确定该数据集有多少个数据属性的组合。
步骤S102:基于维度组合对数据集进行处理得到对应的维度表集合。
本发明实施例中,在维度表集合中,每个维度表对应一种维度组合。将数据集中的数据根据属性存储于对应的维度表中,同一数据可能因其具有多种属性,则在多个与其属性对应的维度表中进行存储,与维度组合一一对应的多个维度表构成了维度表集合。
对于原始数据和新数据采取不同的处理方法,原始数据主要用于构建维度表集合,而新数据主要是对维度表集合进行数据补充和更新,具体地:
在本发明实施例中,对原始数据采用立体算法进行处理以得到与维度组合对应的至少一组预计算数据;对各组预计算数据进行排序后分别存储于时间数据表,并在各时间数据表中记录预计算数据的时间戳;删除各时间数据表中的重复数据得到维度表集合。
对于原始数据,首先,获取原始数据的维度组合,基于维度组合采用立体算法对原始数据进行计算处理,得出与维度组合对应的多组预计算数据。然后,对各组预计算数据进行排序后分别存储于时间数据表中,并在各时间数据表中记录该预计算数据的时间戳。最后,删除各时间数据表中的重复数据后可以得到与维度组合一一对应的多个维度表,即得到维度表集合。
在使用过程中,如果有新数据加入,则需要对维度表集合进行数据补充和更新。在本发明实施例中,获取新数据的时间戳;当时间数据表中不存在新数据或新数据的时间戳大于时间数据表中新数据的时间戳时,对新数据采用立体算法进行处理以得到与维度组合对应的至少一组预计算数据;将各组预计算数据分别添加至对应的时间数据表,并在时间数据表中记录预计算数据的时间戳;以及将预计算数据更新至维度表集合。
首先,获取新数据的时间戳。然后,查询时间数据表中是否存在该新数据,如果不存在,则将新数据进行处理后添加到对应的时间数据表中;如果存在,则比较该新数据的时间戳与时间数据表中该新数据的时间戳,若该新数据的时间戳大于时间数据表中该新数据的时间戳,则表示该数据是最新数据,对该新数据进行处理后添加到对应的时间数据表中,否则表示该新数据是重复数据,不必存储。对新数据进行处理是指,采用立体算法对新数据进行处理后得到与维度组合对应的多组预计算数据。最后,将各组预计算数据分别添加到对应的时间数据表中,并在时间数据表中记录该预计算数据的时间戳,同时,将该预计算数据更新至对应的维度表中,即对维度表集合中的数据进行补充更新。
在本发明实施例中,时间数据表包括同一主键的多条数据,且时间数据表的主键是表中数据的一种数据维度组合及预计算数据的时间戳。在使用时,将一种数据维度组合及预计算数据的时间戳作为时间数据表的主键,可以清楚地确定某个时间数据表存储的是包括哪些属性的数据,以及时间数据表中数据的存储时间,同时,添加时间戳能够便于对数据库或存储系统中的数据进行维护。
在本发明实施例中,立体算法包括:基于数据集的维度组合对数据集进行映射-归纳处理得到与维度组合对应的至少一组预计算数据。立体算法是指映射-规纳的聚合计算过程,基于数据集的维度组合把数据集中的数据属性从主键中减掉或在主键中增加组成新的主键,然后再对新主键做排序和再聚合,从而得到与维度组合对应的多组预计算数据。
以上步骤是对本发明实施例所提出的维度表集合如何构建及更新的说明,基于该维度表集合能够进行多维度查询。
具体地,在本发明实施例中,在进行查询时,获取查询条件中的待查询维度组合;确定维度表集合中与待查询维度组合对应的维度表;基于查询条件查询与待查询维度组合对应的维度表,以得到查询结果。由于查询时,查询的条件是确定的,即查询条件中的待查询维度组合是确定的,因此,只需要在与查询条件中的待查询维度组合对应的维度表进行查询,即可实现查询目的。
现有技术在进行多维度查询时,是在整个数据库或数据表等数据存储系统中查找相关数据,效率极低。本发明实施例所提出的维度表集合在进行多维度查询时,只需要选择与查询条件中的待查询维度组合对应的维度表进行查询即可找到相关数据,减少了数据搜索的范围,提高了多维度查询的效率。
根据本发明实施例的数据处理的方法可以看出,本发明实施例定义了一种更便于进行数据查询的存储结构,在该存储结构中,具有多个维度表,同一维度组合的数据被存储在一个维度表中。利用该存储结构来进行多维度查询,所以克服了现有技术在查询大量数据时效率低,且无法满足在海量数据中进行多维度查询、分析的技术问题。通过该存储结构进行多维度查询时,只需要选择与查询条件中的待查询维度组合对应的维度表进行查询即可找到相关数据,减少了数据搜索的范围,提高了多维度查询的效率。
图2是根据本发明实施例的数据处理的方法的立体算法的示意图。
本发明实施例中,数据的维度是指数据的某个属性,维度组合即所有的属性组合,可以是一个属性,也可以是几个属性。
立体算法可以是cube算法,立体算法的计算过程就是聚合计算的过程,对数据采用立体算法进行处理时,可以利用分组(GROUP BY)语句对数据进行映射-归纳得到与数据的所有属性组合相对应的预计算数据,并将预计算数据及该预计算数据的时间戳存储到对应的时间数据表中,例如“GROUP BY第一属性”表示包括该第一属性的所有数据。
如图2所示,cube算法是将数据按照属性组合进行聚合计算,假设数据包括A、B、C、D四个属性,即该数据包括四个维度,则对该数据进行cube算法的过程包括:
第一轮映射-归纳(Map-Reduce)的输入是源数据,聚合计算一个维度组合的数据,得到包括属性A的数据Group by A、包括属性B的数据Group by B、包括属性C的数据Groupby C、包括属性D的数据Group by D;
第二轮Map-Reduce以上一轮的输出数据作为输入数据,向上聚合计算两个属性组合的数据,得到包括属性A和属性B的数据Group by A and B、包括属性A和属性C的数据Group by A and C、包括属性A和属性D的数据Group by A and D、包括属性B和属性C的数据Group by B and C、包括属性B和属性D的数据Group by B and D、包括属性C和属性D的数据Group by C and D;
接下来的每一轮Map-Reduce以上一轮的输出数据作为输入数据,继续向上聚合计算,依此类推,直到算出所有的属性组合所对应的数据。
cube算法的主要优点是简单,cube算法的过程是将要聚合掉的属性从主键(key)中减掉组成新的key,然后再对新的key做排序和再聚合。
此外,通过cube算法对数据进行计算后得到的结果可以写到分布式文件系统(HDFS),HDFS是数据库的一种存储系统。
图3是根据本发明实施例的数据处理的方法的构建多维存储结构的示意图。
本发明实施例中,数据经cube算法进行计算处理后能够得到与数据的所有属性组合相对应的预计算数据,将存储该预计算数据的时间数据表进行去重处理后得到维度表,同时,该维度表是以数据的一种属性组合作为主键,即每个维度表对应于一种属性组合的数据,维度表的集合组成了多维立体结构。
去重处理即删除时间数据表中的重复数据,以四维数据为例,如表1所示,例如A属性是计算机应用程序(app)版本,对A属性进行字符排序,排序方式为插入排序,排序后的结果是以A属性为基准的ABCD数据,在插入的过程中,如果第一个A属性是1.0.0,第二个还是1.0.0,第三个是1.1.0,第三个是1.2.0,可以通过去重表存储以A属性为排序字段的去重数据,1.0.0的起始位置和结束位置分别为x11、x12,而1.1.0的起始位置和结束位置分别为x21、x22。
A B C D
1.0.0
1.0.0
1.1.0
1.2.0
表1
关于去重表:在Hbase等键-值(key-value)数据库中,记录了数据的key,以及key所对应的值(value),例如序号1、2、3分别存储了数据的第一行x11、x12、x13、x14;第二行x21、x22、x23、x24;以及第三行x31、x32、x33、x34,列名分别是序号a、b、c、d,假设x11和x21相等,那么预先根据a排序去重可以得到x11和x31,可以在去重表中记录为:1(序号)+a(列名),有两列x11和x21分别是去重之后的值。
如图3所示,本发明实施例中构建多维存储结构主要包括以下两部分:
第一部分,对原始数据进行处理
获取原始数据的维度数(N),即确定原始数据所包括的属性有多少个,基于维度数将所有的原始数据通过cube算法进行计算处理,得出包括N+1轮所有属性组合的预计算数据,对于原始数据可以通过离线任务的形式进行计算处理,将预计算数据采用插入排序的排序方式进行排序后分别存储于时间数据表中,每个时间数据表的主键中包括一种原始数据的属性组合以及预计算数据的时间戳,去除该时间数据表中的重复数据即可得到维度表,且每个属性组合对应有唯一的去重表,在得到维度表的同时,将维度表存储至多维立体结构中,即与所有属性组合对应的维度表集合构建了多维立体结构。
第二部分,对新数据进行处理
如果有新数据上报,首先比较新数据的时间戳与时间数据表中该新数据对应的时间戳,如果在时间数据表中不存在该新数据,或新数据的时间戳大于时间数据表中该数据对应的时间戳,则对该新数据采用cube算法进行计算处理,得出包括N+1轮所有属性组合的预计算数据,将预计算数据采用插入排序的排序方式进行排序后更新至时间数据表,并在时间数据表中记录该新数据所对应的时间戳,并将该新数据对应的预计算数据更新至维度表。
需要注意的是,构建多维立体结构的过程中,需要记录构建到的行位置,即同时将时间戳记录到去重表中,当有新数据需要存储时,通过时间戳判断是否需要对多维立体结构进行增量构建,即是否需要存储新数据,如果数据的时间戳是最新的则需要增量构建,否则不需要。增量构建即不改变原存储结构,仅将新数据存储至多维立体结构中对应的位置。
以上内容是对本发明实施例中的多维立体结构以及立体算法的介绍,现基于以上介绍对本发明实施例的多维度查询数据的方法进行说明,其中,维度是指数据的某一种属性,多维度查询数据是根据数据的某个属性或某几个属性组合在数据库、数据集市或数据仓库中查找相关数据。具体地:
首先,在用户进行多维度查询数据时,获取用户的查询条件,该查询条件是用户想要查找的数据包括哪个属性或哪些属性,即获取查询的数据维度。
然后,确定查询的数据维度在多维立体结构中所对应的去重表,例如,需要查A和B两种属性,先确定与属性组合A、B对应的去重表,然后调用多维立体结构中对应的去重表。
每个去重表中包括了同一主键的多条数据,且以表中数据的一种数据属性组合作为去重表的主键,即每种数据维度组合对应于一个去重表。
最后,在所确定的去重表中查找包括符合查询条件的数据,即在去重表中根据数据维度进行查询,从而得到查询结果。
图4是根据本发明实施例的数据处理的装置的主要模块的示意图。
如图4所示,本发明实施例的一种数据处理的装置400主要包括:获取模块401、处理模块402。
其中:
获取模块401,用于获取待处理的数据集,确定所述数据集具有的维度组合;
处理模块402,用于基于所述维度组合对所述数据集进行处理得到对应的维度表集合;
其中,在所述维度表集合中,每个维度表对应一种所述维度组合;并且基于所述维度表集合能够进行多维度查询。
在本发明实施例中,所述处理模块还用于:对原始数据采用立体算法进行处理以得到与所述维度组合对应的至少一组预计算数据;对各组所述预计算数据进行排序后分别存储于时间数据表,并在各所述时间数据表中记录所述预计算数据的时间戳;删除各所述时间数据表中的重复数据得到所述维度表集合。
在本发明实施例中,所述处理模块进一步用于:获取新数据的时间戳;当所述时间数据表中不存在所述新数据或所述新数据的时间戳大于所述时间数据表中所述新数据的时间戳时,对所述新数据采用所述立体算法进行处理以得到与所述维度组合对应的至少一组所述预计算数据;将各组所述预计算数据分别添加至对应的所述时间数据表,并在所述时间数据表中记录所述预计算数据的时间戳;以及将所述预计算数据更新至所述维度表集合。
此外,所述时间数据表包括同一主键的多条数据,且所述时间数据表的主键是表中数据的一种数据维度组合及所述预计算数据的时间戳。
此外,所述立体算法包括:基于所述数据集的所述维度组合对所述数据集进行映射-归纳处理得到与所述维度组合对应的至少一组所述预计算数据。
在本发明实施例中,所述装置还包括:条件模块,用于在进行查询时,获取查询条件中的待查询维度组合;确定模块,用于确定所述维度表集合中与所述待查询维度组合对应的所述维度表;查询模块,用于基于查询条件查询与所述待查询维度组合对应的所述维度表,以得到查询结果。
根据本发明实施例的数据处理的装置可以看出,本发明实施例定义了一种更便于进行数据查询的存储结构,在该存储结构中,具有多个维度表,同一维度组合的数据被存储在一个维度表中。利用该存储结构来进行多维度查询,所以克服了现有技术在查询大量数据时效率低,且无法满足在海量数据中进行多维度查询、分析的技术问题。通过该存储结构进行多维度查询时,只需要选择与查询条件中的待查询维度组合对应的维度表进行查询即可找到相关数据,减少了数据搜索的范围,提高了多维度查询的效率。
图5示出了可以应用本发明实施例的数据处理的方法或数据处理的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的查询请求进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的数据处理的方法一般由服务器505执行,相应地,数据处理的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块和处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,处理模块还可以被描述为“对所述数据集基于所述维度组合进行处理以得到对应的维度表集合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S101:获取待处理的数据集,确定数据集具有的维度组合;步骤S102:基于维度组合对数据集进行处理得到对应的维度表集合。
根据本发明实施例的技术方案,本发明实施例定义了一种更便于进行数据查询的存储结构,在该存储结构中,具有多个维度表,同一维度组合的数据被存储在一个维度表中。利用该存储结构来进行多维度查询,所以克服了现有技术在查询大量数据时效率低,且无法满足在海量数据中进行多维度查询、分析的技术问题。通过该存储结构进行多维度查询时,只需要选择与查询条件中的待查询维度组合对应的维度表进行查询即可找到相关数据,减少了数据搜索的范围,提高了多维度查询的效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
获取待处理的数据集,确定所述数据集具有的维度组合;
基于所述维度组合对所述数据集进行处理得到对应的维度表集合;其中,在所述维度表集合中,每个维度表对应一种所述维度组合;并且基于所述维度表集合能够进行多维度查询;
其中,基于所述维度组合对所述数据集进行处理得到对应的维度表集合包括:
对原始数据采用立体算法进行处理以得到与所述维度组合对应的至少一组预计算数据;
对各组所述预计算数据进行排序后分别存储于时间数据表,并在各所述时间数据表中记录所述预计算数据的时间戳;
删除各所述时间数据表中的重复数据得到所述维度表集合。
2.根据权利要求1所述的方法,其特征在于,对所述数据集进行处理得到对应的维度表集合还包括:
获取新数据的时间戳;
当所述时间数据表中不存在所述新数据或所述新数据的时间戳大于所述时间数据表中所述新数据的时间戳时,对所述新数据采用所述立体算法进行处理以得到与所述维度组合对应的至少一组所述预计算数据;
将各组所述预计算数据分别添加至对应的所述时间数据表,并在所述时间数据表中记录所述预计算数据的时间戳;以及
将所述预计算数据更新至所述维度表集合。
3.根据权利要求1或2所述的方法,其特征在于,
所述时间数据表包括同一主键的多条数据,且所述时间数据表的主键是表中数据的一种数据维度组合及所述预计算数据的时间戳。
4.根据权利要求1或2所述的方法,其特征在于,所述立体算法包括:
基于所述数据集的所述维度组合对所述数据集进行映射-归纳处理得到与所述维度组合对应的至少一组所述预计算数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在进行查询时,获取查询条件中的待查询维度组合;
确定所述维度表集合中与所述待查询维度组合对应的所述维度表;
基于查询条件查询与所述待查询维度组合对应的所述维度表,以得到查询结果。
6.一种数据处理的装置,其特征在于,包括:
获取模块,用于获取待处理的数据集,确定所述数据集具有的维度组合;
处理模块,用于基于所述维度组合对所述数据集进行处理得到对应的维度表集合;其中,在所述维度表集合中,每个维度表对应一种所述维度组合;并且基于所述维度表集合能够进行多维度查询;
其中,所述处理模块还用于:
对原始数据采用立体算法进行处理以得到与所述维度组合对应的至少一组预计算数据;
对各组所述预计算数据进行排序后分别存储于时间数据表,并在各所述时间数据表中记录所述预计算数据的时间戳;
删除各所述时间数据表中的重复数据得到所述维度表集合。
7.根据权利要求6所述的装置,其特征在于,所述处理模块进一步用于:
获取新数据的时间戳;
当所述时间数据表中不存在所述新数据或所述新数据的时间戳大于所述时间数据表中所述新数据的时间戳时,对所述新数据采用所述立体算法进行处理以得到与所述维度组合对应的至少一组所述预计算数据;
将各组所述预计算数据分别添加至对应的所述时间数据表,并在所述时间数据表中记录所述预计算数据的时间戳;以及
将所述预计算数据更新至所述维度表集合。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
条件模块,用于在进行查询时,获取查询条件中的待查询维度组合;
确定模块,用于确定所述维度表集合中与所述待查询维度组合对应的所述维度表;
查询模块,用于基于查询条件查询与所述待查询维度组合对应的所述维度表,以得到查询结果。
9.一种数据处理的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710859257.6A 2017-09-21 2017-09-21 数据处理的方法和装置 Active CN107729399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710859257.6A CN107729399B (zh) 2017-09-21 2017-09-21 数据处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710859257.6A CN107729399B (zh) 2017-09-21 2017-09-21 数据处理的方法和装置

Publications (2)

Publication Number Publication Date
CN107729399A CN107729399A (zh) 2018-02-23
CN107729399B true CN107729399B (zh) 2020-06-05

Family

ID=61206732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710859257.6A Active CN107729399B (zh) 2017-09-21 2017-09-21 数据处理的方法和装置

Country Status (1)

Country Link
CN (1) CN107729399B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319704B (zh) * 2018-02-05 2020-11-06 北京中关村科金技术有限公司 一种分析数据的方法、装置、设备及存储介质
CN108920516B (zh) * 2018-05-31 2022-03-22 北京字节跳动网络技术有限公司 实时分析方法、系统、装置及计算机可读存储介质
CN109033173B (zh) * 2018-06-21 2022-09-13 土巴兔集团股份有限公司 一种用于生成多维指标数据的数据处理方法及装置
CN109165238B (zh) * 2018-06-21 2022-09-09 土巴兔集团股份有限公司 一种用于生成周期指标数据的数据处理方法及装置
CN108959485A (zh) * 2018-06-21 2018-12-07 深圳市彬讯科技有限公司 一种用于生成流量指标数据的数据处理方法及装置
CN109376161B (zh) * 2018-08-22 2023-07-18 中国平安人寿保险股份有限公司 基于大数据的标签数据更新方法、装置、介质及电子设备
CN110427438A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 数据处理方法及其装置、电子设备和介质
CN112732712A (zh) * 2020-12-29 2021-04-30 望海康信(北京)科技股份公司 图表信息数据存储方法、系统及相应设备和存储介质
CN114722048B (zh) * 2022-05-10 2024-01-30 苏州峰之鼎信息科技有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063376A (zh) * 2013-03-18 2014-09-24 阿里巴巴集团控股有限公司 多维度分组运算方法及系统
CN106484875A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 基于molap的数据处理方法及装置
CN106557498A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 数据存储方法和装置以及数据查询方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166498A1 (en) * 2011-12-25 2013-06-27 Microsoft Corporation Model Based OLAP Cube Framework

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063376A (zh) * 2013-03-18 2014-09-24 阿里巴巴集团控股有限公司 多维度分组运算方法及系统
CN106557498A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 数据存储方法和装置以及数据查询方法和装置
CN106484875A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 基于molap的数据处理方法及装置

Also Published As

Publication number Publication date
CN107729399A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729399B (zh) 数据处理的方法和装置
US20220156289A1 (en) Generating a multi-column index for relational databases by interleaving data bits for selectivity
CN111046034B (zh) 管理内存数据及在内存中维护数据的方法和系统
CN107704202B (zh) 一种数据快速读写的方法和装置
US11036685B2 (en) System and method for compressing data in a database
US10860562B1 (en) Dynamic predicate indexing for data stores
US10061834B1 (en) Incremental out-of-place updates for datasets in data stores
CN108897874B (zh) 用于处理数据的方法和装置
CN110019258A (zh) 处理订单数据的方法和装置
CN111061680A (zh) 一种数据检索的方法和装置
CN105900093A (zh) 一种KeyValue数据库的数据表的更新方法与表数据更新装置
CN114139040A (zh) 一种数据存储及查询方法、装置、设备及可读存储介质
CN112817930A (zh) 一种数据迁移的方法和装置
US11163801B2 (en) Execution of queries in relational databases
US11520763B2 (en) Automated optimization for in-memory data structures of column store databases
US11354370B2 (en) Determining relevance of entities in social media datasets
CN107832347B (zh) 数据降维方法、系统及电子设备
CN107665241B (zh) 一种实时数据多维度去重方法和装置
CN110727672A (zh) 数据映射关系查询方法、装置、电子设备及可读介质
CN113448957A (zh) 一种数据查询方法和装置
CN110110211B (zh) 基于通用模型的数据查询方法和装置
CN113760600A (zh) 一种数据库备份方法、数据库还原方法和相关装置
CN112988857A (zh) 一种业务数据的处理方法和装置
CN110851438A (zh) 一种数据库索引优化建议与验证的方法和装置
CN113778318B (zh) 一种数据存储方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant