CN112015725A

CN112015725A - 一种数据管理方法和装置

Info

Publication number: CN112015725A
Application number: CN202010847850.0A
Authority: CN
Inventors: 王鹏
Original assignee: Guangdong Huanwang Technology Co Ltd
Current assignee: Guangdong Huanwang Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-01
Anticipated expiration: 2040-08-21
Also published as: CN112015725B

Abstract

本发明提供了一种数据管理方法和装置，涉及数据库技术领域，主要解决了对云平台的数据进行合理分类方便维护技术问题。该发明包括：确定数据的特征信息，所述特征信息为两种；将所述特征信息作为所述数据在云端的目录项，所述目录项为两级目录，每级目录对应一种特征信息；以及，将所述特征信息作为所述数据在大数据处理平台内的位置信息；根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内。因此，本发明可快速从云端调取数据，也节约了服务器的成本，降低损耗；本发明对不同数据进行清洗分类，可快速接入新数据，可长期维护，可清晰进行数据备份，可以满足大部分需求，大幅降低维护成本。

Description

一种数据管理方法和装置

技术领域

本发明涉及数据库技术领域，尤其涉及基于云平台数据目录和hive数据库技术领域的一种数据管理方法和装置。

背景技术

目前，Hadoop数据平台是业界最流行的大数据处理平台，每天要处理几百甚至上千的数据处理任务，用于为业务部门提供相应的数据支持，基于这些任务的背后，需要解决复杂的数据来源(可能是几十路、上百路)如何分层与存储；根据不同的数据源清洗的基础数据如何分层与存储；固定的维度数据、项目数据、备份数据、基础数据融合的数据、基础数据的报表数据等数据如何分层与存储。

因此，常用hive来进行处理，hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

然而，当前业界关于数据分层的主要概念还是按照传统的数据仓库概念，比如ods，dw，dm等，存在以下问题：

1)ods层主要用于数据源的处理，是最真实数据源表现，原始数据可能是非结构化的，这部分数据还得单独处理，这将导致原始数据与处理后的数据都放在ods层，在做数据备份时会有数据冗余。

2)dw层主要用于从ods层抽取维度表和事实表，但是在大数据场景下由于数据是列式存储带压缩，而且在hive场景下关联操作(也称join操作)非常的慢。

3)dm层主要用于提供具体业务或项目使用的数据，一个大数据平台肯定包含很多项目，将很多项目放到同一层下，互相之间耦合。

以上的数据仓库设计仅仅是概念上的，对于用户还是不能直观的设计出合理的hive数据仓库。

并且，现有技术常常把数据存储在云存储中，以方便数据存储和获取。但是，云数据目录可以分多层级，所以会设计很多层级用于分类数据，甚至到6、7层。其实这是很不合理的设计，原因有两个：

1)数据源种类很多，无法穷举所有情况，而且肯定会发生目录冲突，如果之后发生冲突又很难修改(因为涉及大量数据的迁移问题)冲突无法修改，会导致分类目录乱掉；

2)数据目录越深管理和维护数据越麻烦。

发明内容

本发明其中一个目的是为了提出一种数据管理方法和装置，以解决现有技术中对云平台的数据进行合理分类方便维护的技术问题。本发明优选实施方案中能够达到诸多有益效果，具体见下文阐述。

为实现上述目的，本发明提供了以下技术方案：

本发明的一种数据管理方法，其包括：

确定数据的特征信息，所述特征信息为两种；

将所述特征信息作为所述数据在云端的目录项，所述目录项为两级目录，每级目录对应一种特征信息；以及，将所述特征信息作为所述数据在大数据处理平台内的位置信息；

根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内。

进一步的，所述确定数据的特征信息，包括：

对数据进行功能划分，将同一功能的数据划分为同一个功能组，为每个功能组配置唯一的功能组标识，将所述功能组标识作为第一种特征信息；

对各个功能组内的数据进行数据类别划分，将同一数据类别的数据划分为同一个数据类别组，为每个数据类别组配置唯一的数据类别标识，将所述数据类别标识作为第二种特征信息。

进一步的，所述功能组包括：

第一功能组，用于存放原始数据；

第二功能组，用于存放原始数据清洗后的结构化数据；

第三功能组，用于存放固定维度或运营人员可编辑的维度数据；

第四功能组，用于存放项目业务数据；

第五功能组，用于存放测试数据；

第六功能组，用于存放融合数据。

进一步的，所述数据类别标识为数据关键字。

进一步的，所述数据关键字包括厂商、品牌、动作类型和日志类型。

进一步的，所述位置信息包括数据库名和表名，所述根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内，包括：

将所述第一种特征信息作为所述目录项的第一级目录，将所述第二种特征信息作为所述目录项的第二级目录，将所述数据存储在云端；以及，

将所述第一种特征信息作为数据库名，将所述第二种特征信息作为表名，将所述数据存储在大数据平台内。

进一步的，同一种特征信息对应的目录和位置信息的命名相同。

进一步的，若所述特征信息为数据关键字，若所述数据关键字为多个，则所述特征信息对应的目录和位置信息的命名为多个数据关键字之间采用预设标识连接。

进一步的，所述预设标识为下划线。

本发明还包括一种数据管理装置，其特征在于，包括：

确定模块，用于确定数据的特征信息，所述特征信息为两种；

标识模块，用于将所述特征信息作为所述数据在云端的目录项，所述目录项为两层，每层对应一种特征信息；以及，将所述特征信息作为所述数据在大数据处理平台内的位置信息；

存储模块，用于根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内。

本发明提供的一种数据管理方法和装置至少具有如下有益技术效果：

本发明提供了一种基于云平台数据目录和hive数据库技术的数据管理方法和装置，首先，确定数据的特征信息，特征信息为两种；其次，将特征信息作为数据在云端的目录项，目录项为两级目录，每级目录对应一种特征信息；以及，将特征信息作为数据在大数据处理平台内的位置信息；最后，根据目录项和位置信息，将数据关联存储在云端和大数据处理平台内。通过本发明，用户访问服务器的时候，可快速调取数据，也节约了服务器的成本，降低损耗；本发明对不同数据进行清洗分类，可快速接入新数据，可长期维护，可清晰进行数据备份，可以满足大部分需求，大幅降低维护成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的数据管理方法的流程示意图；

图2是本发明的数据管理方法的结构示意图；

图3是本发明的数据管理装置的结构示意图。

图中1-确定模块，2-标识模块，3-存储模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

参见图1，本发明的一种数据管理方法，其包括：

S1：确定数据的特征信息，所述特征信息为两种；

S2：将所述特征信息作为所述数据在云端的目录项，所述目录项为两级目录，每级目录对应一种特征信息；以及，将所述特征信息作为所述数据在大数据处理平台内的位置信息；

S3：根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内。

需要说明的是，大数据处理平台可为本地服务器。

本发明的原理是：大数据处理平台将hive数据库中的数据上传至云端，并将预设置的目录项也上传至云端，其中，目录项分为两级来管理或划分数据；大数据处理平台在hive数据库中建立数据表，并将数据表映射至目录项，以使大数据处理平台与云端建立连接关系，实现库表对应的管理方法。其中，数据表由目录项和位置信息组成。因此，当用户访问大数据处理平台调取数据时，先访问大数据处理平台中的数据表，再根据数据表找到云端的数据。本发明节约了大数据处理平台的存储空间，节约了本地成本，减少损耗，提高了获取数据效率。

本发明提供了一种基于云平台数据目录和hive数据库技术的数据管理方法，首先，确定数据的特征信息，特征信息为两种；其次，将特征信息作为数据在云端的目录项，目录项为两级目录，每级目录对应一种特征信息；以及，将特征信息作为数据在大数据处理平台内的位置信息；最后，根据目录项和位置信息，将数据关联存储在云端和大数据处理平台内。通过本发明，用户访问服务器的时候，可快速调取数据，也节约了服务器的成本，降低损耗；本发明对不同数据进行清洗分类，可快速接入新数据，可长期维护，可清晰进行数据备份，可以满足大部分需求，大幅降低维护成本。

S1：所述确定数据的特征信息，包括：

其中，功能组包括：

第一功能组，用于存放原始数据；

第二功能组，用于存放原始数据清洗后的结构化数据；

第四功能组，用于存放项目业务数据；

第五功能组，用于存放测试数据；

第六功能组，用于存放融合数据。

需要说明的是，第一功能组是original数据库，其对应original目录用于存放所有的原始数据，这样方便对原始数据的管理，跨云备份也很直接，直接备份该目录即可，原始数据是所有数据的基础。original目录可能包含一些非结构化的表，无法与数据表对应，但也要以对应的方式命名。

第二功能组是base数据库，用于存放，从original清洗后的结构化数据，只有必要的结构化处理，满足基础指标统计需求。

第三功能组是dim数据库，用于存放，固定维度或运营人员可编辑的维度数据，例如日期、地域、频道、节目等。

第四功能组是project数据库(对应图2中的pro1、pro2数据库)，用于对应的项目业务数据，一般从base和alliance数据库抽取数据使用，如果有新项目，直接创建对应数据库和目录即可，不同项目之间数据实现隔离。

第五功能组是test数据库，用于存放测试数据，所有人有读写权限，方便使用测试数据。

第六功能组alliance数据库，用于存放融合数据，一般从base数据库抽取。

还有其他数据库与项目备份需求，根据实际场景进行选择，大部分数据有冗余或加了策略。

优选地，数据类别标识为数据关键字。

其中，数据关键字包括厂商、品牌、动作类型和日志类型。

优选地，位置信息包括数据库名和表名，步骤S3：所述根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内，包括：

优选地，同一种特征信息对应的目录和位置信息的命名相同。

其中，所述预设标识为下划线。

需要解释的是，位置信息的命名是第一级目录的命名+第二级目录的命名，即为数据库名+表名，其中，第二级目录的数据关键字为多个，由下划线连接多个数据关键字。例如，查找云端第一级目录base下第二级目录gz_ad_server_brands_log中的数据，则为base数据库下的gz_ad_server_brands_log表，则位置信息是base/gz_ad_server_brands_log。在大数据处理平台内根据此位置信息即可查找到云端的相应的数据。

参见图2，在实际应用中，本发明在云端将目录项设为两级，第一级目录根据功能划分，在第一级目录下设置第二级目录，第二级目录根据数据类别划分，其中，抽取数据关键字为数据类别标识为。在大数据处理平台中设置数据库名和表名，分别对应云端的第一级目录和第二级目录，且命名相同。大数据处理平台将数据库名和表名形成数据表，数据表由本身的location属性映射连接至云端目录项，从而访问、获取云端目录项下的数据。因此，本发明的特点是在云端将目录项划分为两层来管理数据，以使大数据处理平台和云端建立映射联系。

参见图3，本发明还包括一种数据管理装置，其包括：

确定模块1，用于确定数据的特征信息，所述特征信息为两种；

标识模块2，用于将所述特征信息作为所述数据在云端的目录项，所述目录项为两层，每层对应一种特征信息；以及，将所述特征信息作为所述数据在大数据处理平台内的位置信息；

存储模块3，用于根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内。

本发明与云端建立联系，将数据存储至云端，设置目录项进行管理数据，节省了本地的损耗和成本。实现了对不同数据进行清洗分类，可快速接入新数据，可长期维护，可清晰进行数据备份，可以满足大部分需求。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据管理方法，其特征在于，包括：

确定数据的特征信息，所述特征信息为两种；

2.根据权利要求1所述的数据管理方法，其特征在于，所述确定数据的特征信息，包括：

3.根据权利要求2所述的数据管理方法，其特征在于，所述功能组包括：

第一功能组，用于存放原始数据；

第二功能组，用于存放原始数据清洗后的结构化数据；

第四功能组，用于存放项目业务数据；

第五功能组，用于存放测试数据；

第六功能组，用于存放融合数据。

4.根据权利要求2所述的数据管理方法，其特征在于，所述数据类别标识为数据关键字。

5.根据权利要求4所述的数据管理方法，其特征在于，所述数据关键字包括厂商、品牌、动作类型和日志类型。

6.根据权利要求2所述的数据管理方法，其特征在于，所述位置信息包括数据库名和表名，所述根据所述目录项和所述位置信息，将所述数据关联存储在所述云端和所述大数据处理平台内，包括：

7.根据权利要求1所述的数据管理方法，其特征在于，同一种特征信息对应的目录和位置信息的命名相同。

8.根据权利要求7所述的数据管理方法，其特征在于，若所述特征信息为数据关键字，若所述数据关键字为多个，则所述特征信息对应的目录和位置信息的命名为多个数据关键字之间采用预设标识连接。

9.根据权利要求8所述的数据管理方法，其特征在于，所述预设标识为下划线。

10.一种数据管理装置，其特征在于，包括：