CN106156040A

CN106156040A - 多维度数据管理方法及装置

Info

Publication number: CN106156040A
Application number: CN201510137034.XA
Authority: CN
Inventors: 于兴彬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2016-11-23

Abstract

本申请公开了一种多维度数据管理方法及装置，其首先根据预设管理功能确定对应的必要属性，并从所述必要属性中选择至少一个作为主键属性；再针对每条原始数据，生成对应的新增数据；其中，所述新增数据的条数根据所述主键属性的个数确定，且每条新增数据中至少有一个主键属性的取值为预设字符，其他属性的取值与对应的原始数据相同；然后根据所述主键属性对所述原始数据和新增数据执行合并操作，得到目标数据。相对于原始数据，该目标数据中不仅减少了非必要属性，还将原始数据中一个或多个必要属性取值相同的多条数据合并为一条，数据量大大减少，进而可以解决因数据量巨大造成的数据查询性能下降的问题。

Description

多维度数据管理方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种多维度数据管理方法及装置。

背景技术

在当今信息技术时代，数据的数量及复杂性不断增加，例如电子商务领域中的一条交易数据可以包括用户名、用户等级、商品类目、收货/发货城市、交易金额等多个属性(即维度)。传统的数据表、数据库等存储方式已不能满足业务发展需要，从而越来越多的领域、企业采用数据仓库(Data Warehouse，DW)实现海量数据(大于100亿行的数据)的存储及管理。数据仓库，是一种面向主体的、集成的、相对稳定的、反映历史变化的数据集合，可以保存极大量的数据供分析使用，且允许使用多种数据访问技术，在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源。

数据仓库的产生虽然解决了海量数据的存储问题，但为提高数据展示的时效性，实际应用中经常先将数据仓库中的数据导入实时的关系型(或类关系型)数据库(如oracle、garuda等)，再基于该关系型数据库对数据进行分析。但大量数据导入该关系型数据库中后，其查询性能将大大降低，导致数据查询(特别是多条件查询)、以及基于查询的数据统计等管理操作的执行效率降低，同时大量数据也导致大量硬件资源被占用。

发明内容

为克服相关技术中存在的问题，本申请提供一种多维度数据管理方法及装置。

本申请第一方面提供一种多维度数据管理方法；该方法包括：

根据预设管理功能确定对应的必要属性，并从所述必要属性中选择至少一个作为主键属性；

针对每条原始数据，生成对应的新增数据；其中，所述新增数据的条数根据所述主键属性的个数确定，且每条新增数据中至少有一个主键属性的取值为预设字符，其他属性的取值与对应的原始数据相同；

根据所述主键属性对所述原始数据和新增数据执行合并操作，得到仅包含所述必要属性的目标数据。

结合第一方面，在第一方面的第一种可行的实施方式中，所述执行合并操作包括：

添加计数属性，根据待统计属性统计每条目标数据对应的原始数据和新增数据，并将统计结果记为相应目标数据的计数属性的值总条数。

结合第一方面，或者第一方面的第一种可行的实施方式，在第一方面的第二种可行的实施方式中，所述执行合并操作包括：

计算每条目标数据对应的原始数据中可合并属性的取值代数和，得到对应的目标数据的可合并属性的取值。

本申请第二方面提供一种……装置；该装置包括：

属性处理单元，用于根据预设管理功能确定对应的必要属性，并从所述必要属性中选择至少一个作为主键属性；

数据细分单元，用于针对每条原始数据，生成对应的新增数据；其中，所述新增数据的条数根据所述主键属性的个数确定，且每条新增数据中至少有一个主键属性的取值为预设字符，其他属性的取值与对应的原始数据相同；

数据合并单元，用于根据所述主键属性对所述原始数据和新增数据执行合并操作，得到仅包含所述必要属性的目标数据。

结合第二方面，在第二方面的第一种可行的实施方式中，所述数据合并单元包括：

计数单元，用于添加计数属性，根据待统计属性统计每条目标数据对应的原始数据和新增数据，并将统计结果记为相应目标数据的计数属性的值总条数。

结合第二方面，或者第二方面的第一种可行的实施方式，在第二方面的第二种可行的实施方式中，所述数据合并单元包括：

计算单元，用于计算每条目标数据对应的原始数据中可合并属性的取值代数和，得到对应的目标数据的可合并属性的取值。

由以上技术方案可知，本申请实施例首先根据预设管理功能确定对应的必要属性，并从所述必要属性中选择至少一个作为主键属性；再针对每条原始数据，生成对应的新增数据；其中，所述新增数据的条数根据所述主键属性的个数确定，且每条新增数据中至少有一个主键属性的取值为预设字符，其他属性的取值与对应的原始数据相同；然后根据所述主键属性对所述原始数据和新增数据执行合并操作，得到目标数据。其中，相对于原始数据，该目标数据中不仅减少了非必要属性，还将原始数据中一个或多个必要属性取值相同的多条数据合并为一条，数据量大大减少，进而可以解决因数据量巨大造成的数据查询性能下降的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种多维度数据管理方法方法的流程图。

图2是根据一示例性实施例示出的一种多维度数据管理装置的框图。

图3是根据一示例性实施例示出的另一种多维度数据管理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为本申请实施例提供的一种多维度数据管理方法的流程图。如图1所示，该方法包括以下步骤。

S11、根据预设管理功能确定对应的必要属性，并从所述必要属性中选择至少一个作为主键属性。

以网络购物产生的订单数据为例，每个月的数据量可达到上亿条，每年的数据量则为几十亿甚至上百亿，且每条订单数据都包括：用户标识(user_id)、交易平台(platform)、商品类目(category)、用户等级(level)、收货城市(city)、交易金额(amt)和交易日期(date)等多个属性(即多维度)，如下表1所示。其中，本说明书仅示出了表的4行数据，实际数据量可达到几十亿条甚至更多。

表1订单数据的原始数据表

user_id	platform	category	level	city	amt	date
							1001	taobao	60100	1	杭州市	10	201301
1001	tmall	50100	1	杭州市	15	201301
							1002	taobao	40100	2	上海市	50	201301
1002	tmall	50100	2	上海市	150	201301
							…	…	…	…	…	…	…

实际应用中，虽然每条订单数据具有多个属性，但并不完全是实现管理功能所必需的属性，因此，本申请实施例首先根据预设管理功能确定对应的必要属性，其他与预设管理功能无关的即为非必要属性。例如：对于预设管理功能“查询某段时间内某类商品在各个交易平台中的交易金额”，其对应的必要属性包括商品类目、交易平台、交易金额和交易日期；对于预设管理功能“查询某段时间内某类商品的交易金额达到预设阈值的收货城市”，其对应的必要属性包括商品类目、收货城市、交易金额和交易日期。

另外，也可以用排除法先确定非必要属性，其他属性即为必要属性；例如对于表1所示原始数据表，管理过程一般不会关心具体某个用户的订单情况，即预设管理功能不涉及用户标识这一属性，可以确定用户标识为非必要属性。

进一步的，本申请实施例在确定必要属性后，从中选择至少一个作为主键属性，以便于执行索引操作。

假设本申请实施例确定上表1所示的原始数据的必要属性为：交易平台、商品类目、用户等级、收货城市、交易金额和交易日期，用户标识为非必要属性；其中，关键属性为：交易平台和商品类目。

S12、针对每条原始数据，生成对应的新增数据；其中，所述新增数据的条数根据所述主键属性的个数确定，且每条新增数据中至少有一个主键属性的取值为预设字符，其他属性的取值与对应的原始数据相同。

假设主键属性有n个，则生成的新增数据包括：仅1个主键属性的取值为预设字符(共个)、仅2个主键属性的取值为预设字符(共个)、……、n个主键属性的取值均为预设字符(共个)，故每条原始数据对应的新增数据的条数M的计算式可以表示为除设置为预设字符的主键属性之外，新增数据中的其他主键属性及非主键属性的取值均与对应的原始数据相同；因此，步骤S12具体可以包括，对原始数据执行复制操作，得到M个该原始数据的副本，并分别对每个副本执行赋值操作，使得相应的主键属性的取值为预设字符。特别的，基于结构化查询语言(Structured QueryLanguage，SQL)，步骤S12可通过函数SplitColBySpecial实现。

本实施例中，预设字符表示相应属性的取值可以为其取值范围内的任意值，可以消除各条数据之间同一属性的取值差异，便于数据统计、合并；如交易平台的取值为预设字符，则表示taobao或tmall。当然，预设字符可以采用任一个不在各属性取值范围内的字符，各个属性对应的预设字符亦可相同。

对表1执行步骤S12可得到表2；其中，预设字符均采用“-1”，第1、5、9、13行为原始数据，分别对应表1中的第1至4行，表2中第2至4行为第1行的原始数据对应的新增数据，第6至8行为第5行对应的新增数据，第10至12行为第9行对应的新增数据，第14至16行为第13行对应的新增数据。

表2原始数据(表1)和对应的新增数据汇总表

user_id	platform	category	level	city	amt	date1
							1001	taobao	60100	1	杭州市	10	201301
1001	-1	60100	1	杭州市	10	201301
							1001	taobao	-1	1	杭州市	10	201301
1001	-1	-1	1	杭州市	10	201301
							1001	tmall	50100	1	杭州市	15	201301
1001	-1	50100	1	杭州市	15	201301
							1001	tmall	-1	1	杭州市	15	201301
1001	-1	-1	1	杭州市	15	201301
							1002	taobao	40100	2	上海市	50	201301
1002	taobao	-1	2	上海市	50	201301
							1002	-1	40100	2	上海市	50	201301
1002	-1	-1	2	上海市	50	201301
							1002	tmall	50100	2	上海市	150	201301
1002	-1	50100	2	上海市	150	201301
							1002	tmall	-1	2	上海市	150	201301
1002	-1	-1	2	上海市	150	201301
							…	…	…	…	…	…	…

S13、根据所述主键属性对所述原始数据和新增数据执行合并操作，得到仅包含所述必要属性的目标数据。

在只区分关键属性的条件下执行合并操作，非必要属性直接删除，必要属性中的非关键属性根据其数值类型进行合并。

在一个具体实施方式中，对表2执行步骤S13后可得到如下表3，即表1所示的原始数据对应的目标数据。

表3基于表1的一种目标数据表

platform	category	level	city	amt	date
						-1	-1	1	杭州市	25	201301
-1	-1	2	上海市	200	201301
						-1	40100	2	上海市	50	201301
-1	50100	1	杭州市	15	201301
						-1	50100	2	上海市	150	201301
-1	60100	1	杭州市	10	201301
						taobao	-1	1	杭州市	10	201301
taobao	-1	2	上海市	50	201301
						taobao	40100	2	上海市	50	201301
taobao	60100	1	杭州市	10	201301
						tmall	-1	1	杭州市	15	201301
tmall	-1	2	上海市	150	201301
						tmall	50100	1	杭州市	15	201301
tmall	50100	2	上海市	150	201301
						…	…	…	…	…	…

根据表3可知，表1中所有同时满足level＝1、city＝‘杭州市’、date＝201301的数据，不论其platform和category为何值，均可合并至表3中的第1行；所有同时满足category＝40100、level＝2、city＝‘上海市’、date＝201301的数据，不论其platform的为何值，均可合并至表3中的第3行。可见，表3相对于表1，不仅减少了非必要数据，还将表1中部分属性相同的多条数据合并，大大减少了表中的数据行数，即减少了数据量。实验证明，对包含60亿条订单数据的原始数据表执行本实施例提供的多数据管理方法后，得到的目标数据仅1.2亿条；在1.2亿条数据上执行查询等管理操作的效率，明显高于在60亿条数据上的操作效率。

因此，本申请应用于数据仓库至实施数据库的数据导入，只要适当选择必要属性及主键属性，即可将原始数据的数据量减少至满足实时数据库的性能要求的范围内，保证数据导入后实时数据库的查询性能。

在本申请一个可行的实施例中，上述步骤S13中执行的合并操作还可以包括：

上述可合并属性指可执行代数运算的属性(代数运算有意义)；如上述订单数据中的交易金额，几个订单数据中交易金额的取值代数和表示这几个订单的总交易金额，故在合并过程中，每项目标数据的交易金额的取值应当为其对应的原始数据的交易金额的取值代数和；因此，表3所示目标数据中第一行数据的“amt”的取值为对应的表1中第1行和第2行数据的“amt”的取值之和，即10+15＝25，表示同时满足足level＝1、city＝‘杭州市’、date＝201301的订单数据(platform和category可以为任意值)的总交易金额为25。

另外，为进一步减少数据量，对于不支持代数运算的必要属性，可将合并前的数据中该必要属性对应的取值总集合作为对应的目标数据总该必要属性的取值；例如，对于“收货城市”分别为“杭州市”和“上海市”的两条数据，在满足合并条件的情况下，其对应的目标数据的“收货城市”的取值可以表示为集合{杭州市，上海市}。

在本申请另一个可行的实施例中，上述步骤S13中执行的合并操作可以包括：

添加计数属性，根据待统计属性统计每条目标数据对应的原始数据和新增数据，并将统计结果记为相应目标数据的计数属性的值。

上述待统计属性具体根据预设管理功能确定，例如，对于上文表1所示的订单数据，则在删除用户标识的情况下，要实现预设管理功能“查询某段时间内购买某类型商品的用户人数”，则需要以用户标识为待统计属性，在执行步骤S13时，获取每条目标数据对应的合并前数据(包括对应的原始数据和新增数据)中用户标识的取值总集合，对该取值总集合中的元素执行去重操作(即删除取值总集合中的重复元素，使得每种取值最多存在一个)，统计执行去重操作后的取值总集合中的元素个数，即为需要统计的用户人数；基于SQL，上述对取值总集合执行去重操作并统计去重后的元素个数，可以通过如下指令实现：count(distinct user_id)。

需要说明的是，上述在统计元素个数前执行去重操作，是实现相应的预设管理功能所特有的，并非所有的统计操作都需要执行去重操作，即：由于“查询某段时间内购买某类型商品的用户人数”要求统计的是用户人数，即使同一用户购买多次产生多条订单数据，也只对该用户统计一次；如果“查询某段时间内购买某类型商品的用户人次”、“查询某段时间内购买某类型商品的购买次数”则不需要执行去重操作，即同一用户购买几次则统计几次。

仍以上述表1为例，在以用户标识为非必要属性、交易平台和商品类目为关键属性的情况下，还需要基于用户标识统计满足特定条件的用户人数，则通过本实施例提供的多维度数据管理方法得到的目标数据如下表4所示。

表4基于表1另一种的目标数据表

platform	category	level	city	amt	count	date
							-1	-1	1	杭州市	25	1	201301
-1	-1	2	上海市	200	1	201301
							-1	40100	2	上海市	50	1	201301
-1	50100	1	杭州市	15	1	201301
							-1	50100	2	上海市	150	1	201301
-1	60100	1	杭州市	10	1	201301
							taobao	-1	1	杭州市	10	1	201301
taobao	-1	2	上海市	50	1	201301
							taobao	40100	2	上海市	50	1	201301
taobao	60100	1	杭州市	10	1	201301
							tmall	-1	1	杭州市	15	1	201301
tmall	-1	2	上海市	150	1	201301
							tmall	50100	1	杭州市	15	1	201301
tmall	50100	2	上海市	150	1	201301
							…	…	…	…	…	…	…

需要说明的是，表4中“count”即为上述计数属性，用于记录用户人数；为清晰表示数据合并前后的属性取值变化，表4中示出的count的取值仅基于表1总显示的4条原始数据得到，未统计表1中未显示的数据。由表4可知，虽然表4中第一行数据对应两行原始数据，但由于这两行原始数据对应的用户标识相同，故只统计一次，相应的表4中第一行数据中的count取值为1。

由以上技术方案可知，本申请实施例可以通过设定必要属性和主键属性，并根据主键属性生成每条原始数据对应的新增数据，进而对原始数据和新增数据执行合并操作，得到的目标数据中不仅减少了非必要属性，还将原始数据中一个或多个必要属性取值相同的多条数据合并为一条，数据量大大减少；同时，在执行合并操作时，还可以根据预设管理功能相关的特定属性对合并前的数据执行计数、代数运算等，满足更复杂的查询、统计需求。

图2为本申请实施例提供的一种多维度数据管理装置的结构框图。参照图2，该装置包括：属性处理单元110、数据细分单元120和数据合并单元130。

该属性处理单元110被配置为，根据预设管理功能确定对应的必要属性，并从所述必要属性中选择至少一个作为主键属性。

该数据细分单元120被配置为，针对每条原始数据，生成对应的新增数据；其中，所述新增数据的条数根据所述主键属性的个数确定，且每条新增数据中至少有一个主键属性的取值为预设字符，其他属性的取值与对应的原始数据相同。

该数据合并单元130被配置为，根据所述主键属性对所述原始数据和新增数据执行合并操作，得到仅包含所述必要属性的目标数据。

参见图3，在本申请一个可行的实施例中，上述数据合并单元130可以包括：计数单元131和计算单元132。

其中，该计数单元131被配置为，添加计数属性，根据待统计属性统计每条目标数据对应的原始数据和新增数据，并将统计结果记为相应目标数据的计数属性的值总条数。

该计算单元132被配置为，计算每条目标数据对应的原始数据中可合并属性的取值代数和，得到对应的目标数据的可合并属性的取值。

当然，在其他可行的实施例中，根据实际应用需求，数据合并单元130也可以仅包括计数单元131和计算单元132中的一种。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

另外，本申请实施例还提供了一种计算机存储介质，例如可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等；该计算机存储介质中存储有程序，当所述存储介质中的程序由相应设备的处理器执行时，使得该设备能够执行上述方法实施例中记载的多维度数据管理方法的部分或全部步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种多维度数据管理方法，其特征在于，包括：

2.根据权利要求1所述的多维度数据管理方法，其特征在于，所述执行合并操作包括：

3.根据权利要求1或2所述的多维度数据管理方法，其特征在于，所述执行合并操作包括：

4.一种多维度数据管理装置，其特征在于，包括：

5.根据权利要求4所述的多维度数据管理装置，其特征在于，所述数据合并单元包括：

6.根据权利要求4或5所述的多维度数据管理装置，其特征在于，所述数据合并单元包括：