CN102479211B

CN102479211B - 基于数据库的海量数据处理系统及方法

Info

Publication number: CN102479211B
Application number: CN201010564971.0A
Authority: CN
Inventors: 肖勇; 吴金坛; 冯兴; 王颖卓
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2010-11-26
Filing date: 2010-11-26
Publication date: 2014-06-25
Anticipated expiration: 2030-11-26
Also published as: CN102479211A

Abstract

本发明提出了一种基于数据库的海量数据处理系统及方法。其中，所述系统包括：数据库，用于存储原始数据；数据采集装置，用于从所述数据库中根据设定条件抽取数据，并将所述抽取出的数据传送给数据处理装置；数据处理装置，用于根据设定的维度以奇偶轮换方式处理接收到的所述数据，并将处理后的数据传送到数据存储装置；数据存储装置，用于将接收到的所述处理后的数据分类存储。本发明所公开的基于数据库的海量数据处理系统及方法可以提高处理速度并节省存储空间，从而提升了系统的整体性能。

Description

基于数据库的海量数据处理系统及方法

技术领域

本发明涉及数据处理系统及方法，更具体地，涉及基于数据库的海量数据处理系统及方法。

背景技术

目前，随着数据库应用的日益广泛以及不同领域的业务种类的日益丰富，基于数据库处理海量数据越来越重要(例如根据特定维度统计某一时间区段内的活动的智能卡的数量，该数据量是往往是TB级别的)。

通常，现有的基于数据库的海量数据处理方法的基本工作原理如下：建立与数据库的接口；使用用于抽取数据的中间件；在数据库端创建表，用于存储从所述数据库抽取出的一定时间周期(例如一天)内的数据。

然而，当待处理的数据数量巨大(例如3000万～8亿)时，上述现有的技术方案存在如下问题：(1)数据抽取及处理时间太长，从而系统效率降低而难于满足应用要求；(2)数据库临时表所需空间太大，从而可能导致系统无法支撑或者导致硬件需求上升，并进一步促使成本增加。

为了解决前面所述的问题，现有的技术方案通常使用一些常规的优化手段，诸如创建索引、优化数据库查询语句等，然而，当待处理的数据时间跨度特别长(例如一个季度、半年或者一年)并且数量特别巨大(例如10亿以上)时，上述常规的优化手段依然不能满足要求，即处理时间过长，空间需求过大，甚至无法完成处理。

因此，存在如下需求：提供一种能够基于数据库高效并且快速地处理海量数据的系统及方法。

发明内容

为了解决上述现有技术方案所存在的缺陷，本发明提出了一种基于数据库的海量数据处理系统及方法。

本发明的目的是通过以下技术方案实现的：

一种基于数据库的海量数据处理系统，所述基于数据库的海量数据处理系统包括：

数据库，所述数据库用于存储原始数据；

数据采集装置，所述数据采集装置用于从所述数据库中根据设定条件抽取数据，并将所述抽取出的数据传送给数据处理装置；

数据处理装置，所述数据处理装置用于根据设定的维度以奇偶轮换方式处理接收到的所述数据，并将处理后的数据传送到数据存储装置；

数据存储装置，所述数据存储装置用于将接收到的所述处理后的数据分类存储。

在上面所公开的方案中，优选地，所述数据采集装置使用多并发方式从所述数据库抽取数据。

在上面所公开的方案中，优选地，所述数据处理装置进一步包括：

短周期数据处理模块，所述短周期数据处理模块用于将每个短周期时间段内的数据存储于所述数据存储装置中以构成短周期时间段数据集合，并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除；

第一中周期数据处理模块，所述第一中周期数据处理模块用于在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并，并将合并后的数据集合作为新的奇数中周期时间段累积数据集合，以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中；其中，所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。

在上面所公开的方案中，优选地，所述数据处理装置进一步包括；

第二中周期数据处理模块，所述第二中周期数据处理模块用于在每个偶数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合合并，并将合并后的数据集合作为新的偶数中周期时间段累积数据集合，以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中；其中，所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。

第一长周期数据处理模块，所述第一长周期数据处理模块用于在每个奇数中周期时间段的起始端清空奇数长周期时间段累积数据集合，并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值，随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合进行交叉联合操作，并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中；

第二长周期数据处理模块，所述第二长周期数据处理模块用于在每个偶数中周期时间段的起始端清空偶数长周期时间段累积数据集合，并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值，随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合进行交叉联合操作，并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。

在上面所公开的方案中，优选地，所述短周期是一日，所述中周期是一月以及所述长周期是一年。

在上面所公开的方案中，优选地，所述数据存储装置进一步包括：

短周期数据存储器，所述短周期数据存储器用于创建短周期数据表，所述短周期数据表用于存储所述短周期时间段数据集合；

第一中周期数据存储器，所述第一中周期数据存储器用于创建第一中周期数据表，所述第一中周期数据表用于存储所述奇数中周期时间段累积数据集合；

第二中周期数据存储器，所述第二中周期数据存储器用于创建第二中周期数据表，所述第二中周期数据表用于存储所述偶数中周期时间段累积数据集合；

第一长周期数据存储器，所述第一长周期数据存储器用于创建第一长周期数据表，所述第一长周期数据表用于存储所述奇数长周期时间段累积数据集合；

第二长周期数据存储器，所述第二长周期数据存储器用于创建第二长周期数据表，所述第二长周期数据表用于存储所述偶数长周期时间段累积数据集合。

在上面所公开的方案中，优选地，所述基于数据库的海量数据处理系统能够处理48亿以上的数据量。

在上面所公开的方案中，优选地，所述基于数据库的海量数据处理系统处理48亿的数据量所需的时间不超过4小时。

本发明的目的也可以通过以下技术方案实现：

一种基于数据库的海量数据处理方法，所述基于数据库的海量数据处理方法包括如下步骤：

(A1)数据采集装置从数据库中根据设定条件抽取数据，并将所述抽取出的数据传送给数据处理装置；

(A2)所述数据处理装置3根据设定的维度以奇偶轮换方式处理接收到的所述数据，并将处理后的数据传送到数据存储装置；

(A3)所述数据存储装置将接收到的所述处理后的数据分类存储。

在上面所公开的方案中，优选地，所述步骤(A2)进一步包括：

(B1)将每个短周期时间段内的数据存储于所述数据存储装置中以构成短周期时间段数据集合，并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除；

(B2)在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并，并将合并后的数据集合作为新的奇数中周期时间段累积数据集合，以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中；其中，所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。

在上面所公开的方案中，优选地，所述步骤(A2)进一步包括：

(B3)在每个偶数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合合并，并将合并后的数据集合作为新的偶数中周期时间段累积数据集合，以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中；其中，所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。

在上面所公开的方案中，优选地，所述步骤(A2)进一步包括：

(B4)在每个奇数中周期时间段的起始端清空奇数长周期时间段累积数据集合，并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值，随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合进行交叉联合操作，并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中。

在上面所公开的方案中，优选地，所述步骤(A2)进一步包括：

(B5)在每个偶数中周期时间段的起始端清空偶数长周期时间段累积数据集合，并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值，随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合进行交叉联合操作，并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。

在上面所公开的方案中，优选地，所述步骤(A3)进一步包括：

(C1)所述数据存储装置创建短周期数据表(T)，用于存储所述短周期时间段数据集合；

(C2)所述数据存储装置创建第一中周期数据表(T1)，用于存储所述奇数中周期时间段累积数据集合；

(C3)所述数据存储装置创建第二中周期数据表(T2)，用于存储所述偶数中周期时间段累积数据集合；

(C4)所述数据存储装置创建第一长周期数据表(M1)，用于存储所述奇数长周期时间段累积数据集合；

(C5)所述数据存储装置创建第二长周期数据表(M2)，用于存储所述偶数长周期时间段累积数据集合。

在上面所公开的方案中，优选地，所述基于数据库的海量数据处理方法能够处理48亿以上的数据量。

在上面所公开的方案中，优选地，所述基于数据库的海量数据处理方法处理48亿的数据量所需的时间不超过4小时。

本发明所公开的基于数据库的海量数据处理系统及方法具有如下优点：由于在每个短周期时间段开始前均清空上一个短周期时间段内的数据，因而可以确保最快的抽取速度，从而可以提高系统的整体处理速度；同时，由于在每个短周期时间段末端均进行合并数据集合的操作，因此可以最大程度的去除冗余数据，从而可以节省存储空间并提升系统的整体性能。

附图说明

结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

图1为根据本发明的实施例的基于数据库的海量数据处理系统的架构图；

图2为根据本发明的实施例的基于数据库的海量数据处理方法的流程图。

具体实施方式

图1是根据本发明的实施例的基于数据库的海量数据处理系统的架构图。如图1所示，本发明所公开的基于数据库的海量数据处理系统包括数据库1、数据采集装置2、数据处理装置3和数据存储装置4。其中，所述数据库1用于存储原始数据。所述数据采集装置2用于从所述数据库1中根据设定条件抽取数据，并将所述抽取出的数据传送给数据处理装置3。所述数据处理装置3用于根据设定的维度以奇偶轮换方式处理接收到的所述数据，并将处理后的数据传送到数据存储装置4。所述数据存储装置4用于将接收到的所述处理后的数据分类存储。

优选地，所述数据采集装置2使用多并发方式从所述数据库1抽取数据。由此，可以充分利用资源以达到最快的抽取速度。

如图1所示，在本发明所公开的基于数据库的海量数据处理系统中，所述数据处理装置3进一步包括短周期数据处理模块5、第一中周期数据处理模块6、第二中周期数据处理模块7、第一长周期数据处理模块8和第二长周期数据处理模块9。其中，所述短周期数据处理模块5用于将每个短周期时间段(例如一天)内的数据存储于所述数据存储装置4中以构成短周期时间段数据集合，并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置4中清除。所述第一中周期数据处理模块6用于在每个奇数中周期时间段(例如奇数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并，并将合并后的数据集合作为新的奇数中周期时间段累积数据集合。以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置4中。优选地，所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。所述第二中周期数据处理模块7用于在每个偶数中周期时间段(例如偶数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并，并将合并后的数据集合作为新的偶数中周期时间段累积数据集合。以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置4中。优选地，所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。

由上可知，由于在每个短周期时间段开始前均清空上一个短周期时间段内的数据，因而可以确保最快的抽取速度。同时，由于在每个短周期时间段末端均进行合并数据集合的操作，因此可以最大程度的去除冗余数据，从而可以节省存储空间并提升系统的性能。

如图1所示，所述第一长周期数据处理模块8用于在每个奇数中周期时间段(例如奇数月份)的起始端清空奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合)，并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量)，随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合)进行交叉联合操作，并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置4中。优选地，所述交叉联合操作是所述奇数中周期时间段累积数据集合与所述偶数长周期时间段累积数据集合的合并。所述第二长周期数据处理模块9用于在每个偶数中周期时间段(例如偶数月份)的起始端清空偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合)，并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量)，随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合)进行交叉联合操作，并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置4中。优选地，所述交叉联合操作是所述偶数中周期时间段累积数据集合与所述奇数长周期时间段累积数据集合的合并。

优选地，所述长周期是半年或一年。

如图1所示，在本发明所公开的基于数据库的海量数据处理系统中，所述数据存储装置4进一步包括短周期数据存储器10、第一中周期数据存储器11、第二中周期数据存储器12、第一长周期数据存储器13和第二长周期数据存储器14。其中，所述短周期数据存储器10用于创建短周期数据表(T)，所述短周期数据表用于存储所述短周期时间段数据集合。所述第一中周期数据存储器11用于创建第一中周期数据表(T1)，所述第一中周期数据表用于存储所述奇数中周期时间段累积数据集合。所述第二中周期数据存储器12用于创建第二中周期数据表(T2)，所述第二中周期数据表用于存储所述偶数中周期时间段累积数据集合。所述第一长周期数据存储器13用于创建第一长周期数据表(M1)，所述第一长周期数据表用于存储所述奇数长周期时间段累积数据集合。所述第二长周期数据存储器14用于创建第二长周期数据表(M2)，所述第二长周期数据表用于存储所述偶数长周期时间段累积数据集合。

示例性地，本发明所公开的基于数据库的海量数据处理系统能够处理48亿以上的数据量。

示例性地，本发明所公开的基于数据库的海量数据处理系统处理48亿的数据量所需的时间不超过4小时。

如图1所示，本发明所公开的基于数据库的海量数据处理系统的基本工作原理如下：所述T表在每个短周期时间段开始前清除上一次短周期时间段(例如一天)内的数据；如果是奇数中周期(例如奇数月)，则选择与T1表进行合并操作，合并的结果是新的T1表，其是旧的T1表与T表的交集；如果是偶数中周期(例如偶数月)，则选择与T2表进行合并操作，合并的结果是新的T2表，其是旧的T2表与T表的交集；当奇数中周期(例如奇数月)时，清空M1表，T1表根据设定的维度计算目标数值(例如活动的智能卡的数量)，随后与M2表进行交叉联合操作(例如合并)，并将操作后的数据存储在M1表；当偶数中周期(例如偶数月)时，清空M2表，T2表根据设定的维度计算目标数值(例如活动的智能卡的数量)，随后与M1表进行交叉联合操作(例如合并)，并将操作后的数据存储在M2表。

图2是根据本发明的实施例的基于数据库的海量数据处理方法的流程图。如图2所示，本发明所公开的基于数据库的海量数据处理方法包括如下步骤：(A1)数据采集装置从数据库中根据设定条件抽取数据，并将所述抽取出的数据传送给数据处理装置；(A2)所述数据处理装置3根据设定的维度以奇偶轮换方式处理接收到的所述数据，并将处理后的数据传送到数据存储装置；(A3)所述数据存储装置将接收到的所述处理后的数据分类存储。

如图2所示，优选地，所述数据采集装置使用多并发方式从所述数据库抽取数据。

如图2所示，本发明所公开的基于数据库的海量数据处理方法中，所述步骤(A2)进一步包括：

(B1)将每个短周期时间段(例如一天)内的数据存储于所述数据存储装置中以构成短周期时间段数据集合，并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除；

(B2)在每个奇数中周期时间段(例如奇数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并，并将合并后的数据集合作为新的奇数中周期时间段累积数据集合。以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中。

优选地，所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。

(B3)在每个偶数中周期时间段(例如偶数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并，并将合并后的数据集合作为新的偶数中周期时间段累积数据集合。以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中。

优选地，所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。

(B4)在每个奇数中周期时间段(例如奇数月份)的起始端清空奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合)，并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量)，随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合)进行交叉联合操作，并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中。

优选地，所述交叉联合操作是所述奇数中周期时间段累积数据集合与所述偶数长周期时间段累积数据集合的合并。

(B5)在每个偶数中周期时间段(例如偶数月份)的起始端清空偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合)，并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量)，随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合)进行交叉联合操作，并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。

优选地，所述交叉联合操作是所述偶数中周期时间段累积数据集合与所述奇数长周期时间段累积数据集合的合并。

优选地，所述长周期是半年或一年。

如图2所示，本发明所公开的基于数据库的海量数据处理方法中，所述步骤(A3)进一步包括：

示例性地，本发明所公开的基于数据库的海量数据处理方法能够处理48亿以上的数据量。

示例性地，本发明所公开的基于数据库的海量数据处理方法处理48亿的数据量所需的时间不超过4小时。

尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

Claims

1.一种基于数据库的海量数据处理系统，所述基于数据库的海量数据处理系统包括：

数据库，所述数据库用于存储原始数据；

数据存储装置，所述数据存储装置用于将接收到的所述处理后的数据分类存储；

其中，所述数据采集装置使用多并发方式从所述数据库抽取数据；

所述数据处理装置进一步包括：

第一中周期数据处理模块，所述第一中周期数据处理模块用于在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并，并将合并后的数据集合作为新的奇数中周期时间段累积数据集合，以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中；其中，所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集；

所述数据处理装置进一步包括：

2.根据权利要求1所述的基于数据库的海量数据处理系统，其特征在于，所述数据处理装置进一步包括：

3.根据权利要求2所述的基于数据库的海量数据处理系统，其特征在于，所述短周期是一目，所述中周期是一月以及所述长周期是一年。

4.根据权利要求3所述的基于数据库的海量数据处理系统，其特征在于，所述数据存储装置进一步包括：

5.根据权利要求4所述的基于数据库的海量数据处理系统，其特征在于，所述基于数据库的海量数据处理系统能够处理48亿以上的数据量。

6.根据权利要求5所述的基于数据库的海量数据处理系统，其特征在于，所述基于数据库的海量数据处理系统处理48亿的数据量所需的时间不超过4小时。

7.一种基于数据库的海量数据处理方法，所述基于数据库的海量数据处理方法包括如下步骤：

(A3)所述数据存储装置将接收到的所述处理后的数据分类存储；

其中，所述步骤(A2)进一步包括：

(B1)将每个短周期时间段内的数据存储于所述数据存储装置中以构戍短周期时间段数据集合，并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除；

(B2)在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并，并将合并后的数据集合作为新的奇数中周期时间段累积数据集合，以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中；其中，所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集；

所述步骤(A2)进一步包括：

8.根据权利要求7所述的基于数据库的海量数据处理方法，其特征在于，所述数据采集装置使用多并发方式从所述数据库抽取数据。

9.根据权利要求7所述的基于数据库的海量数据处理方法，其特征在于，所述步骤(A2)进一步包括：

10.根据权利要求9所述的基于数据库的海量数据处理方法，其特征在于，所述步骤(A2)进一步包括：

11.根据权利要求10所述的基于数据库的海量数据处理方法，其特征在于，所述短周期是一目，所述中周期是一月以及所述长周期是一年。

12.根据权利要求11所述的基于数据库的海量数据处理方法，其特征在于，所述步骤(A3)进一步包括：

13.根据权利要求12所述的基于数据库的海量数据处理方法，其特征在于，所述基于数据库的海量数据处理方法能够处理48亿以上的数据量。

14.根据权利要求13所述的基于数据库的海量数据处理方法，其特征在于，所述基于数据库的海量数据处理方法处理48亿的数据量所需的时间不超过4小时。