CN107329852A

CN107329852A - 基于Hive的数据处理的方法、系统及终端设备

Info

Publication number: CN107329852A
Application number: CN201710437410.6A
Authority: CN
Inventors: 陶胜
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2017-11-07
Anticipated expiration: 2037-06-09
Also published as: CN107329852B

Abstract

本发明公开了一种基于Hive的数据处理的方法、系统及终端设备。所述基于Hive的数据处理的方法，包括：将Hadoop集群数据中的源头数据通过Hive映射为源表，源表包括源头数据中用于描述行数据标记的第一主键字段；将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表，中间表包括中间数据从源头数据继承的所述第一主键字段；将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表；清理所述欲清理的中间数据及其所对应的中间表。本发明在不删除源头数据的情形下，对中间数据进行有效的备份，既能存储更长时间的源头数据，又能从备份表快速恢复所述已清理的中间数据，保证中间数据的有效利用。

Description

基于Hive的数据处理的方法、系统及终端设备

技术领域

本发明涉及数据处理领域，更具体地，涉及一种基于Hive的数据处理的方法、系统及终端设备。

背景技术

大数据时代的来临，使得数据的量越来越大，数据量的持续增长给存储带来了一定的压力。而Hadoop集群的存储规模总是有限的，这就需要提供一种更加有效的技术方案清理数据以及能快速恢复数据。

一般情形下，Hadoop集群数据大小超过预警线时(比如当Hadoop集群数据大小超过存储大小的80％的预警线)，直接删除中间数据(比如，删除6个月前的中间数据)。这种情形下，Hadoop集群数据大小是降低了。但是在再次需要使用被删除的中间数据时，就很难对数据进行恢复，从而无法有效地对所删除的数据进行有效的分析处理。

发明内容

为解决上述至少一个方面的问题，本发明提出了能对中间数据进行有效备份，以随时对已清理的中间数据进行恢复的基于Hive的数据处理的方法、系统及终端设备。

为了实现本发明的目的，采取如下技术方案:

第一方面，本发明提供了一种基于Hive的数据处理的方法。所述基于Hive的数据处理的方法包括：

将Hadoop集群数据中的源头数据通过Hive映射为源表，源表包括源头数据中用于描述行数据标记的第一主键字段；

将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表，中间表包括中间数据从源头数据继承的所述第一主键字段；

将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表；

清理所述欲清理的中间数据及其所对应的中间表。

具体地，所述第一主键字段是源头数据中新增的用于标记行数据的行数据主键字段。

具体地，所述中间表还包括用于描述用户和产品信息的第二主键字段。

具体地，所述将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表之后，还包括：

将欲清理的中间数据所对应的中间表中的所述第二主键字段备份到备份表。

具体地，所述将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表，包括：

创建备份表；

获取欲清理的中间数据所对应的中间表中的所述第一主键字段；

将所述第一主键字段备份到所述备份表。

具体地，所述将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表之前，还包括：

确认Hadoop集群数据的大小达到阈值。

具体地，所述欲清理的中间数据为所述中间数据中的存储日期最前面的预设清理周期的数据或预设清理比例的数据。

具体地，所述清理所述欲清理的中间数据及其所对应的中间表之后，还包括：

通过所述备份表与所述源头数据恢复已清理的中间数据。

具体地，所述通过所述备份表与所述源头数据恢复已清理的中间数据，包括：

将所述备份表与所述源头数据进行合并操作，按第一主键字段分组执行聚合函数运算，得到中间数据。

具体地，所述通过所述备份表与所述源头数据恢复已清理的中间数据之前，还包括：

确认使用备份表所对应的中间数据。

第二方面，本发明提供了一种基于Hive的数据处理的系统。所述基于Hive的数据处理的系统包括：

第一映射模块，用于将Hadoop集群数据中的源头数据通过Hive映射为源表，源表包括源头数据中用于描述行数据标记的第一主键字段；

第二映射模块，用于将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表，中间表包括中间数据从源头数据继承的所述第一主键字段；

第一备份模块，用于将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表；

清理模块，用于清理所述欲清理的中间数据及其所对应的中间表。

具体地，执行所述第二映射模块之后，还包括：

第二备份模块，用于将欲清理的中间数据所对应的中间表中的所述第二主键字段备份到备份表。

具体地，所述第一备份模块包括：

创建单元，用于创建备份表；

获取单元，用于获取欲清理的中间数据所对应的中间表中的所述第一主键字段；

备份单元，用于将所述第一主键字段备份到所述备份表。

具体地，执行所述第一备份模块之前，还包括：

第一确认模块，用于确认Hadoop集群数据的大小达到阈值。

具体地，所述清理模块之后，还包括：

恢复模块，用于通过所述备份表与所述源头数据恢复已清理的中间数据。

具体地，所述恢复模块用于：

具体地，执行所述恢复模块之前，还包括：

第二确认模块，用于确认使用备份表所对应的中间数据。

第三方面，本发明还提供了一种终端设备。所述终端设备包括处理器和存储器，存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

清理所述欲清理的中间数据及其所对应的中间表。

相比现有技术，本发明的方案具有以下优点：

1.本发明中的基于Hive的数据处理的方法，在源头数据中用于描述行数据标记的第一主键字段在源头数据与中间数据的继承的情形下，将所述备份第一主键字段到备份表，完成了中间数据的有效备份。同时，在不删除源头数据的情形下，清理中间数据，释放足够的存储空间，有利于源头数据的存储。

2.本发明中的基于Hive的数据处理的方法，会将所述中间表的主键字段，亦即第二主键字段备份到所述备份表中，在恢复所述已清理的中间数据时，能利用所述第二主键字段起到过滤的作用，快速恢复所需要的已清理的中间数据。

3.本发明中的基于Hive的数据处理的方法，利用所述备份表中的所述第一主键字段以及所述源头数据执行恢复操作，有效地恢复了已清理的中间数据，保证了所述中间数据的合理利用，提高了工作的效率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明中一种基于Hive的数据处理的方法的一种实施例的流程示意图；

图2示出了本发明中一种基于Hive的数据处理的方法的另一种实施例的流程示意图；

图3示出了本发明中一种基于Hive的数据处理的系统的一种实施例的结构示意图；

图4示出了本发明中一种基于Hive的数据处理的系统的另一种实施例的结构示意图；

图5示出了本发明中一种终端设备的一种实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本领域普通技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

主键(primary key)：即主关键字，是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录。在两个表的关系中，主关键字用来在一个表中引用来自于另一个表中的特定记录。主关键字是一种唯一关键字，表定义的一部分。一个表不能有多个主关键字，并且主关键字的列不能包含空值。主关键字是可选的，并且可在CREATE TABLE或ALTERTABLE语句中定义。

本发明中，为了区分源表及中间表的主键字段，将所述源表中的主键字段命名为第一主键字段，将所述中间表的主键字段命名为第二主键字段。

显然，本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，示出了本发明中一种基于Hive的数据处理的方法的一种实施例。所述基于Hive的数据处理的方法包括步骤S101-S104。其中：

步骤S101.将Hadoop集群数据中的源头数据通过Hive映射为源表，源表包括源头数据中用于描述行数据标记的第一主键字段。

本发明实施例中，通过Hive将源数据库中的数据文件映射为源表。Hive是基于Hadoop的一个数据仓库工具，其可以将结构化的数据文件映射为一张张的数据库表，并提供简单的结构化查询语言查询功能，可以将结构化查询语言语句转化为任务在Hadoop上运行。其中，所述结构化查询语言(Structured Query Language)简称SQL，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理数据库系统。

所述第一主键字段是行与行数据进行区别的标记，所述源表包括所述第一主键字段，有助于中间数据继承所述第一主键字段的值，并将所述中间数据进行有效的备份，并清理所述中间数据，释放存储空间。

可以理解的是，主键，即主关键字，其是数据表的一个或多个字段，它的值用于唯一地标识表中的某一条记录。在两个表的关系中，主键用来在一个表中引用来自于另一个表中的特定记录。主键是一种唯一关键字，表定义的一部分。一个表不能有多个主键，并且所述主键的列不能包含空值。主键是可选的。

本发明实施例中，源表包含源头数据中用于描述行数据标记的第一主键字段，一个或多个字段，所述第一主键字段的值用于唯一地标识源头数据中的某一条记录。数据记录是指对应于数据源中一行信息的一组完整的相关信息。例如，客户邮件列表中的有关某位客户的所有信息为一条数据记录。一种优选方案中，所述第一主键字段是源头数据中唯一的新增的用于标记行数据的行数据主键字段。在将所述源头数据通过Hive映射为源表之前，会对所述源头数据添加用于区别行与行数据之间的标记的第一主键字段。在将源头数据映射为源表之后，所述源表中包括源头数据中用于描述行数据标记的第一主键字段。

例如，在一种情形中，所述源头数据添加用于标记行与行数据的第一主键字段作为唯一主键之前，在将所述源头数据在映射成表时，其所产生的源表如表1所示：

字段	字段描述
		session	会话id
Stime	客户端时间
		Eventid	时间id
Platform	平台
		Product	产品
Passport	用户

表1

在为所述源头数据添加用于标记行与行数据的第一主键字段line_key作为唯一主键时，在将该源头数据映射成表时，其所产生的源表如下表2所示：

字段	字段描述
		line_key	新增的行数据的主键
session	会话id
		Stime	客户端时间
Eventid	时间id
		Platform	平台
Product	产品
		Passport	用户

表2

从表2可以看到，其比表1多了一个用于对行与行数据进行区别的主键字段line_key。所述源表中包含源头数据中的用于对行与行数据进行区别的第一主键字段line_key，有助于后期的中间数据的备份、清理及恢复操作。

步骤S102.将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表，中间表包括中间数据从源头数据继承的所述第一主键字段。

经过对上报收集来的源头数据进行一系列的逐层的数据处理，直至计算出结果数据。中间数据为介于源头数据与结果数据之间的数据。

在本发明实施例中，所述中间数据由所述源头数据产生。所述源头数据增加用于对行与行数据进行区别的第一主键字段作为其唯一主键时，所述中间数据也会增加所述第一主键字段，同时，所述中间数据上的第一主键字段的取值继承于所述源头数据上的第一主键字段。可以理解的是，所述第一主键字段是源表的主键字段，其并不等同于中间数据或者说中间表的主键字段。亦即，在通过Hive将中间数据库的的数据文件映射为中间表时，中间表中会包含中间数据从源头数据继承的所述第一主键字段，但所述第一主键字段并不是所述中间表的主键字段。

所述中间表继承源表的第一主键字段的取值，将所述第一主键字段作为外键，用于与所述源表建立联系。所述中间表有助于通过第一主键字段的值去源表所对应的源头数据查询相关的数据。

此外，中间数据所对应的中间表，会存在自己的主键，亦即所述中间表会存在自己的第二主键字段。在本发明中，所述第二主键字段的字段的选择主要是用于描述用户和产品信息，更进一步地，所述第二主键字段常用作进行数据挖掘、数据分析等数据记录的标记，其有助于快速获取所需的中间数据。

例如，源头数据中的唯一主键为用于对行与行数据进行区别的line_key。在将所述源头数据通过Hive映射为源表时，源表包括唯一的主键——第一主键字段line_key，以及字段cid(频道)、stime(客户端时间)、passport(用户)。所述中间数据会继承源头数据中的主键字段line_key。在将所述中间数据通过Hive映射为中间表时，中间表的类型多种多样。以中间表是会话表为例。所述会话表包括字段line_key(作为中间表的外键，用于关联所述源表)、中间表的主键字段passport、start_time、end_time以及其它附属字段cid(频道)、stime(客户端时间)。所述主键字段passport、start_time及end_time即为中间表的第二主键字段。

步骤S103.将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表。

在清理中间数据时，需要对被清理的中间数据进行备份，以便所述中间数据在被删除后还能恢复。所述中间数据的恢复，主要在于将中间数据所对应的中间表上的所述第一主键字段备份到备份表。

在本实施例的一种具体的方案中，所述将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表，包括：

创建备份表；

将所述第一主键字段备份到所述备份表。

确认Hadoop集群数据的大小达到阈值。

在本发明的实施例的一种优选方案中，在Hadoop集群数据的大小并不影响到整体的存储的性能，会优先保留中间数据。在Hadoop集群数据的大小影响到整体的存储性能时，须释放存储空间，以便存储更长时间的数据。为了更好地预判是否需要将中间表的所述第一主键字段备份，清理中间数据，可根据整体的存储空间设置一个阈值作为预警线。当确定所述Hadoop集群数据的大小达到预设的阈值，即所述的预警线时，就会将欲清理的中间数据对应的中间表的第一主键字段备份到备份表，并清理所述欲清理的中间数据。所述阈值有助于合理地清理中间数据，保证足够的存储空间，提高了数据存储的安全性能并存储更多更长时间的源头数据。

例如，设置一个关于Hadoop集群数据的阈值为80％，当确定所述Hadoop集群数据大于存储大小的80％时,将所述中间表从源表中继承来的第一主键字段line_key备份到备份表，清理该line_key对应的中间表及该中间表所对应的中间数据。

本发明的另一种实施例中，所述欲清理的中间数据为所述中间数据中的存储日期最前面的预设清理周期的数据或预设清理比例的数据。对中间数据的清理以两种方式进行：一、按照预设的比例清理所述中间数据；二、按照存储日期的时间长短清理所述中间数据。根据实际的情形有选择性地清理一定比例或一段时期内的中间数据，改善了中间数据的清理机制，对中间数据进行区别处理/清理，有助于后期的数据挖掘、数据分析等。

例如，当所述Hadoop集群数据的大小达到阈值时，系统开始清理中间数据。该情形下，方式一，按照预设的比例10％,随机或有选择性清理特定类型的占hadoop集群数据的10％的中间数据；方式二，按照预设的存储日期(三个月前)清理所有三个月以前的中间数据。

具体地，本方法步骤S102之后，还包括：

正如前面所提到的，所述中间表还包括用于描述用户和产品信息的第二主键字段。可把日常生活中进行数据挖掘以及数据分析等经常用到中间数据的字段内容设定为第二主键字段，并在清理前，将所述中间数据所对应的中间表的第二主键字段备份到备份表。当需要恢复并使用已被清理的中间数据是所述中间表的第二主键字段所指向的数据时，由于所述备份表当中已经具有所述第二主键字段，就不用再去恢复已被清理的中间数据，就能起到一种很好的过滤效果，减少恢复操作及恢复时间，提高工作效率。

步骤S104.清理所述欲清理的中间数据及其所对应的中间表。

在将所述中间表中的第一主键字段备份到所述备份表后，完成了所述中间数据的备份，此时，清理所述中间数据及其对应的中间表可释放足够的存储空间，以存储更多的更长时间的源头数据等Hadoop集群数据。当需要使用到所述已清理的中间数据时，再利用已备份到备份表的第一主键字段进行恢复所需的已清理的中间数据。

如图2所示，具体地，所述清理所述欲清理的中间数据及其所对应的中间表之后，还包括步骤S105。其中，步骤S105：

通过所述备份表与所述源头数据恢复已清理的中间数据。

可以理解的是，将所述欲清理的中间表的第一主键字段备份到备份表的目的，主要在于：在删除了所述中间表及其对应的中间数据后，能够利用所述备份表上的第一主键字段与所述源头数据恢复已清理的中间数据。其中，对已清理的中间数据，并不需要恢复所有的已被清理的中间数据，可选择性地恢复部分对数据挖掘、数据分析有用的中间数据。

确认使用备份表所对应的中间数据。

中间数据的类型多种多样，所述已清理的中间数据亦然。本发明实施例中，在对已清理的中间数据进行恢复时，为了提高恢复的时间及效率，在恢复已清理的中间数据之前，根据实际的需要，确定所需要使用到的中间数据，并进一步确定所使用到的备份表及所述备份表中的内容，选择部分或特定的中间数据进行恢复。例如，恢复过去的60天内至过去的30天内的已清理的中间数据及其对应的中间表。

在本发明实施例中，利用中间数据的备份表，恢复已清理的中间数据。利用所述备份表中的第一主键字段与所述中间数据对应的所述中间数据进行UNION ALL的合并操作，在根据所述第一主键字段分组执行聚合函数运算，从而恢复所述欲恢复的中间数据。

例如，对于一个中间数据的会话表dw_huya_user_session(如表4)，该会话表所对应的源表为ods_huya_source_data(如表3)。对该会话表增加一个备份表：dw_huya_user_session_bak,其中所述备份表由会话表dw_huya_user_session的第二主键字段passpor、start_time、end_time和从源头数据继承的第二主键字段line_key组成。每当hadoop集群数据大小达到预警线时，就表示需要清理数据，因此需要对欲清理的中间数据先备份后清理。先将会话表中的最早日期的数据备份至备份表，然后再上述所述欲清理的中间数据及其对应的中间表。不难发现清理掉的是中间表的附属字段，后面如果需要使用到这些附属字段的中间数据时，可以利用line_key进行恢复。可以理解的是，源表在实际的过程中的字段的数量是不确定的，第一主键字段是为了本文孕育孕育而生的新增字段，从源头数据到中间表会一路顺带下去。在此处，源表中的多条数据合并成会话表中的一条记录。

字段	字段描述
		line_key	新增的行数据的主键
session	会话id
		Stime	客户端时间
Eventid	时间id
		Ayyuid	主播
cid	频道
		Platform	平台
Product	产品
		Passport	用户

表3

字段	字段描述
		line_key	新增的行数据的主键
session	会话id
		Stime	客户端时间
Eventid	时间id
		Ayyuid	主播
cid	频道
		Platform	平台
Product	产品
		Passport	用户
start_time	会话开始时间
		end_time	会话结束时间

表4

所述中间数据的恢复：1.备份表与源头数据的所有字段进行UNION ALL，所述备份表提供：line_key,passport,start_time,end_time所述源表提供：line_key,session_id,stime,eventid,ayyuid,cid,platform,product2.按字段line_key分组对需要的字段执行聚合函数MAX运算，即可恢复注意：这里是用UNION ALL+聚合函数规避了JOIN运算。具体如下：

综上，所述基于Hive的数据处理的方法，利用源头数据中的用于描述行数据标记的第一主键字段，不删除源头数据的情形下，对中间数据进行有效的备份。在备份后，清理所述中间数据既能存储更长时间的源头数据，又能从备份表快速恢复所述已清理的中间数据，保证中间数据的有效利用。

第二方面，本发明还提供了一种基于Hive的数据处理的系统。如图3示出了本发明中一种基于Hive的数据处理的系统的一种实施例。所述基于Hive的数据处理的系统包括第一映射模块101、第二映射模块102、第一备份模块103及清理模块104。其中：

第一映射模块101，用于将Hadoop集群数据中的源头数据通过Hive映射为源表，源表包括源头数据中用于描述行数据标记的第一主键字段。

例如，在一种情形中，所述源头数据添加用于标记行与行数据的第一主键字段作为唯一主键之前，在将所述源头数据在映射成表时，其所产生的源表如表5所示：

表5

在为所述源头数据添加用于标记行与行数据的第一主键字段line_key作为唯一主键时，在将该源头数据映射成表时，其所产生的源表如下表6所示：

表6

从表2可以看到，其比表1多了一个用于对行与行数据进行区别的主键字段line_key。所述源表中包含源头数据中用于对行与行数据进行区别的第一主键字段line_key，有助于后期的中间数据的备份、清理及恢复操作。

第二映射模块102，用于将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表，中间表包括中间数据从源头数据继承的所述第一主键字段。

例如，源头数据中的唯一主键用于对行与行数据进行区别的为line_key。在将所述源头数据通过Hive映射为源表时，源表包括唯一的主键——第一主键字段line_key，以及字段cid(频道)、stime(客户端时间)、passport(用户)。所述中间数据会继承源头数据中的主键字段line_key。在将所述中间数据通过Hive映射为中间表时，中间表的类型多种多样。以中间表是会话表为例。所述会话表包括字段line_key(作为中间表的外键，用于关联所述源表)、中间表的主键字段passport、start_time、end_time以及其它附属字段cid(频道)、stime(客户端时间)。所述主键字段passport、start_time及end_time即为中间表的第二主键字段。

第一备份模块103，用于将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表。

在本实施例的一种具体的方案中，所述第一备份模块103包括：

创建单元，用于创建备份表；

备份单元，用于将所述第一主键字段备份到所述备份表。

具体地，执行所述第一备份模块103之前，还包括：

第一确认模块，用于确认Hadoop集群数据的大小达到阈值。

具体地，本系统执行所述第二映射模块102之后，还包括：

清理模块104，用于清理所述欲清理的中间数据及其所对应的中间表。

如图4所示，具体地，所述清理模块104之后，还包括恢复模块105。其中，恢复模块S105用于：

通过所述备份表与所述源头数据恢复已清理的中间数据。

具体地，执行所述恢复模块105之前，还包括：

第二确认模块，用于确认使用备份表所对应的中间数据。

具体地，所述恢复模块105用于：

例如，对于一个中间数据的会话表dw_huya_user_session(如表8)，该会话表所对应的源表为ods_huya_source_data(如表7)。对该会话表增加一个备份表：dw_huya_user_session_bak,其中所述备份表由会话表dw_huya_user_session的第二主键字段passpor、start_time、end_time和从源头数据继承的第二主键字段line_key组成。每当hadoop集群数据大小达到预警线时，就表示需要清理数据，因此需要对欲清理的中间数据先备份后清理。先将会话表中的最早日期的数据备份至备份表，然后再上述所述欲清理的中间数据及其对应的中间表。不难发现清理掉的是中间表的附属字段，后面如果需要使用到这些附属字段的中间数据时，可以利用line_key进行恢复。可以理解的是，源表在实际的过程中的字段的数量是不确定的，第一主键字段是为了本文孕育孕育而生的新增字段，从源头数据到中间表会一路顺带下去。在此处，源表中的多条数据合并成会话表中的一条记录。

表7

表8

综上，所述基于Hive的数据处理的系统，利用源头数据中的用于描述行数据标记的第一主键字段，不删除源头数据的情形下，对中间数据进行有效的备份。在备份后，清理所述中间数据既能存储更长时间的源头数据，又能从备份表快速恢复所述已清理的中间数据，保证中间数据的有效利用。

此外，如图5所示，本发明还提供了一种终端设备。所述终端设备包括处理器50和存储器40，存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

清理所述欲清理的中间数据及其所对应的中间表。

同时，所述终端设备能执行第一方面所述的基于Hive的数据处理的方法的所有步骤和实施例。

例如，所述终端设备执行步骤：通过所述备份表与所述源头数据恢复已清理的中间数据。

又例如，所述通过所述备份表与所述源头数据恢复已清理的中间数据之前，所述终端设备执行步骤：确认使用备份表所对应的中间数据。

综上，所述终端设备利用源头数据中的用于描述行数据标记的第一主键字段，不删除源头数据的情形下，对中间数据进行有效的备份。在备份后，清理所述中间数据既能存储更长时间的源头数据，又能从备份表快速恢复所述已清理的中间数据，保证中间数据的有效利用。

其中，存储器40可用于存储软件程序以及模块，处理器50通过运行存储在存储器40的软件程序以及模块，从而执行所述识别系统的各种功能应用以及数据处理。存储器40可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据所述识别系统的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器40可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述处理器50是服务器的控制中心，利用各种接口和线路连接整个所述服务器的各个部分，通过运行或执行存储在存储器40内的软件程序和/或模块，以及调用存储在存储器40内的数据，执行所述服务器的各种功能和处理数据，从而对所述服务器进行整体监控。可选的，处理器50可包括一个或多个处理单元；优选的，处理器50可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器50中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种基于Hive的数据处理的方法、系统及终端设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于Hive的数据处理的方法，其特征在于，包括：

清理所述欲清理的中间数据及其所对应的中间表。

2.根据权利要求1所述的基于Hive的数据处理的方法，其特征在于，所述中间表还包括用于描述用户和产品信息的第二主键字段。

3.根据权利要求2所述的基于Hive的数据处理的方法，其特征在于，所述将Hadoop集群数据中的由所述源头数据产生的中间数据通过Hive映射为中间表之后，还包括：

4.根据权利要求1所述的基于Hive的数据处理的方法，其特征在于，所述将欲清理的中间数据所对应的中间表中的所述第一主键字段备份到备份表，包括：

创建备份表；

将所述第一主键字段备份到所述备份表。

5.根据权利要求1所述的基于Hive的数据处理的方法，其特征在于，所述清理所述欲清理的中间数据及其所对应的中间表之后，还包括：

通过所述备份表与所述源头数据恢复已清理的中间数据。

6.根据权利要求5所述的基于Hive的数据处理的方法，其特征在于，所述通过所述备份表与所述源头数据恢复已清理的中间数据，包括：

将所述备份表与所述源头数据进行合并操作，按所述第一主键字段分组执行聚合函数运算，得到中间数据。

7.一种基于Hive的数据处理的系统，其特征在于，包括：

8.根据权利要求7所述的基于Hive的数据处理的系统，其特征在于，所述中间表还包括用于描述用户和产品信息的第二主键字段。

9.根据权利要求8所述的基于Hive的数据处理的系统，其特征在于，还包括：

10.一种终端设备，包括处理器和存储器，存储有计算机程序，特征在于，所述计算机程序被处理器执行时实现如下步骤：

清理所述欲清理的中间数据及其所对应的中间表。