CN102479211B - 基于数据库的海量数据处理系统及方法 - Google Patents

基于数据库的海量数据处理系统及方法 Download PDF

Info

Publication number
CN102479211B
CN102479211B CN201010564971.0A CN201010564971A CN102479211B CN 102479211 B CN102479211 B CN 102479211B CN 201010564971 A CN201010564971 A CN 201010564971A CN 102479211 B CN102479211 B CN 102479211B
Authority
CN
China
Prior art keywords
data
section
cycle length
cumulative
long period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010564971.0A
Other languages
English (en)
Other versions
CN102479211A (zh
Inventor
肖勇
吴金坛
冯兴
王颖卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201010564971.0A priority Critical patent/CN102479211B/zh
Publication of CN102479211A publication Critical patent/CN102479211A/zh
Application granted granted Critical
Publication of CN102479211B publication Critical patent/CN102479211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于数据库的海量数据处理系统及方法。其中,所述系统包括:数据库,用于存储原始数据;数据采集装置,用于从所述数据库中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置;数据处理装置,用于根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置;数据存储装置,用于将接收到的所述处理后的数据分类存储。本发明所公开的基于数据库的海量数据处理系统及方法可以提高处理速度并节省存储空间,从而提升了系统的整体性能。

Description

基于数据库的海量数据处理系统及方法
技术领域
本发明涉及数据处理系统及方法,更具体地,涉及基于数据库的海量数据处理系统及方法。
背景技术
目前,随着数据库应用的日益广泛以及不同领域的业务种类的日益丰富,基于数据库处理海量数据越来越重要(例如根据特定维度统计某一时间区段内的活动的智能卡的数量,该数据量是往往是TB级别的)。
通常,现有的基于数据库的海量数据处理方法的基本工作原理如下:建立与数据库的接口;使用用于抽取数据的中间件;在数据库端创建表,用于存储从所述数据库抽取出的一定时间周期(例如一天)内的数据。
然而,当待处理的数据数量巨大(例如3000万~8亿)时,上述现有的技术方案存在如下问题:(1)数据抽取及处理时间太长,从而系统效率降低而难于满足应用要求;(2)数据库临时表所需空间太大,从而可能导致系统无法支撑或者导致硬件需求上升,并进一步促使成本增加。
为了解决前面所述的问题,现有的技术方案通常使用一些常规的优化手段,诸如创建索引、优化数据库查询语句等,然而,当待处理的数据时间跨度特别长(例如一个季度、半年或者一年)并且数量特别巨大(例如10亿以上)时,上述常规的优化手段依然不能满足要求,即处理时间过长,空间需求过大,甚至无法完成处理。
因此,存在如下需求:提供一种能够基于数据库高效并且快速地处理海量数据的系统及方法。
发明内容
为了解决上述现有技术方案所存在的缺陷,本发明提出了一种基于数据库的海量数据处理系统及方法。
本发明的目的是通过以下技术方案实现的:
一种基于数据库的海量数据处理系统,所述基于数据库的海量数据处理系统包括:
数据库,所述数据库用于存储原始数据;
数据采集装置,所述数据采集装置用于从所述数据库中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置;
数据处理装置,所述数据处理装置用于根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置;
数据存储装置,所述数据存储装置用于将接收到的所述处理后的数据分类存储。
在上面所公开的方案中,优选地,所述数据采集装置使用多并发方式从所述数据库抽取数据。
在上面所公开的方案中,优选地,所述数据处理装置进一步包括:
短周期数据处理模块,所述短周期数据处理模块用于将每个短周期时间段内的数据存储于所述数据存储装置中以构成短周期时间段数据集合,并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除;
第一中周期数据处理模块,所述第一中周期数据处理模块用于在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的奇数中周期时间段累积数据集合,以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。
在上面所公开的方案中,优选地,所述数据处理装置进一步包括;
第二中周期数据处理模块,所述第二中周期数据处理模块用于在每个偶数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的偶数中周期时间段累积数据集合,以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。
在上面所公开的方案中,优选地,所述数据处理装置进一步包括:
第一长周期数据处理模块,所述第一长周期数据处理模块用于在每个奇数中周期时间段的起始端清空奇数长周期时间段累积数据集合,并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值,随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中;
第二长周期数据处理模块,所述第二长周期数据处理模块用于在每个偶数中周期时间段的起始端清空偶数长周期时间段累积数据集合,并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值,随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。
在上面所公开的方案中,优选地,所述短周期是一日,所述中周期是一月以及所述长周期是一年。
在上面所公开的方案中,优选地,所述数据存储装置进一步包括:
短周期数据存储器,所述短周期数据存储器用于创建短周期数据表,所述短周期数据表用于存储所述短周期时间段数据集合;
第一中周期数据存储器,所述第一中周期数据存储器用于创建第一中周期数据表,所述第一中周期数据表用于存储所述奇数中周期时间段累积数据集合;
第二中周期数据存储器,所述第二中周期数据存储器用于创建第二中周期数据表,所述第二中周期数据表用于存储所述偶数中周期时间段累积数据集合;
第一长周期数据存储器,所述第一长周期数据存储器用于创建第一长周期数据表,所述第一长周期数据表用于存储所述奇数长周期时间段累积数据集合;
第二长周期数据存储器,所述第二长周期数据存储器用于创建第二长周期数据表,所述第二长周期数据表用于存储所述偶数长周期时间段累积数据集合。
在上面所公开的方案中,优选地,所述基于数据库的海量数据处理系统能够处理48亿以上的数据量。
在上面所公开的方案中,优选地,所述基于数据库的海量数据处理系统处理48亿的数据量所需的时间不超过4小时。
本发明的目的也可以通过以下技术方案实现:
一种基于数据库的海量数据处理方法,所述基于数据库的海量数据处理方法包括如下步骤:
(A1)数据采集装置从数据库中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置;
(A2)所述数据处理装置3根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置;
(A3)所述数据存储装置将接收到的所述处理后的数据分类存储。
在上面所公开的方案中,优选地,所述数据采集装置使用多并发方式从所述数据库抽取数据。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:
(B1)将每个短周期时间段内的数据存储于所述数据存储装置中以构成短周期时间段数据集合,并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除;
(B2)在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的奇数中周期时间段累积数据集合,以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:
(B3)在每个偶数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的偶数中周期时间段累积数据集合,以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:
(B4)在每个奇数中周期时间段的起始端清空奇数长周期时间段累积数据集合,并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值,随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:
(B5)在每个偶数中周期时间段的起始端清空偶数长周期时间段累积数据集合,并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值,随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。
在上面所公开的方案中,优选地,所述短周期是一日,所述中周期是一月以及所述长周期是一年。
在上面所公开的方案中,优选地,所述步骤(A3)进一步包括:
(C1)所述数据存储装置创建短周期数据表(T),用于存储所述短周期时间段数据集合;
(C2)所述数据存储装置创建第一中周期数据表(T1),用于存储所述奇数中周期时间段累积数据集合;
(C3)所述数据存储装置创建第二中周期数据表(T2),用于存储所述偶数中周期时间段累积数据集合;
(C4)所述数据存储装置创建第一长周期数据表(M1),用于存储所述奇数长周期时间段累积数据集合;
(C5)所述数据存储装置创建第二长周期数据表(M2),用于存储所述偶数长周期时间段累积数据集合。
在上面所公开的方案中,优选地,所述基于数据库的海量数据处理方法能够处理48亿以上的数据量。
在上面所公开的方案中,优选地,所述基于数据库的海量数据处理方法处理48亿的数据量所需的时间不超过4小时。
本发明所公开的基于数据库的海量数据处理系统及方法具有如下优点:由于在每个短周期时间段开始前均清空上一个短周期时间段内的数据,因而可以确保最快的抽取速度,从而可以提高系统的整体处理速度;同时,由于在每个短周期时间段末端均进行合并数据集合的操作,因此可以最大程度的去除冗余数据,从而可以节省存储空间并提升系统的整体性能。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1为根据本发明的实施例的基于数据库的海量数据处理系统的架构图;
图2为根据本发明的实施例的基于数据库的海量数据处理方法的流程图。
具体实施方式
图1是根据本发明的实施例的基于数据库的海量数据处理系统的架构图。如图1所示,本发明所公开的基于数据库的海量数据处理系统包括数据库1、数据采集装置2、数据处理装置3和数据存储装置4。其中,所述数据库1用于存储原始数据。所述数据采集装置2用于从所述数据库1中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置3。所述数据处理装置3用于根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置4。所述数据存储装置4用于将接收到的所述处理后的数据分类存储。
优选地,所述数据采集装置2使用多并发方式从所述数据库1抽取数据。由此,可以充分利用资源以达到最快的抽取速度。
如图1所示,在本发明所公开的基于数据库的海量数据处理系统中,所述数据处理装置3进一步包括短周期数据处理模块5、第一中周期数据处理模块6、第二中周期数据处理模块7、第一长周期数据处理模块8和第二长周期数据处理模块9。其中,所述短周期数据处理模块5用于将每个短周期时间段(例如一天)内的数据存储于所述数据存储装置4中以构成短周期时间段数据集合,并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置4中清除。所述第一中周期数据处理模块6用于在每个奇数中周期时间段(例如奇数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并,并将合并后的数据集合作为新的奇数中周期时间段累积数据集合。以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置4中。优选地,所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。所述第二中周期数据处理模块7用于在每个偶数中周期时间段(例如偶数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并,并将合并后的数据集合作为新的偶数中周期时间段累积数据集合。以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置4中。优选地,所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。
由上可知,由于在每个短周期时间段开始前均清空上一个短周期时间段内的数据,因而可以确保最快的抽取速度。同时,由于在每个短周期时间段末端均进行合并数据集合的操作,因此可以最大程度的去除冗余数据,从而可以节省存储空间并提升系统的性能。
如图1所示,所述第一长周期数据处理模块8用于在每个奇数中周期时间段(例如奇数月份)的起始端清空奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合),并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量),随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合)进行交叉联合操作,并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置4中。优选地,所述交叉联合操作是所述奇数中周期时间段累积数据集合与所述偶数长周期时间段累积数据集合的合并。所述第二长周期数据处理模块9用于在每个偶数中周期时间段(例如偶数月份)的起始端清空偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合),并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量),随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合)进行交叉联合操作,并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置4中。优选地,所述交叉联合操作是所述偶数中周期时间段累积数据集合与所述奇数长周期时间段累积数据集合的合并。
优选地,所述长周期是半年或一年。
如图1所示,在本发明所公开的基于数据库的海量数据处理系统中,所述数据存储装置4进一步包括短周期数据存储器10、第一中周期数据存储器11、第二中周期数据存储器12、第一长周期数据存储器13和第二长周期数据存储器14。其中,所述短周期数据存储器10用于创建短周期数据表(T),所述短周期数据表用于存储所述短周期时间段数据集合。所述第一中周期数据存储器11用于创建第一中周期数据表(T1),所述第一中周期数据表用于存储所述奇数中周期时间段累积数据集合。所述第二中周期数据存储器12用于创建第二中周期数据表(T2),所述第二中周期数据表用于存储所述偶数中周期时间段累积数据集合。所述第一长周期数据存储器13用于创建第一长周期数据表(M1),所述第一长周期数据表用于存储所述奇数长周期时间段累积数据集合。所述第二长周期数据存储器14用于创建第二长周期数据表(M2),所述第二长周期数据表用于存储所述偶数长周期时间段累积数据集合。
示例性地,本发明所公开的基于数据库的海量数据处理系统能够处理48亿以上的数据量。
示例性地,本发明所公开的基于数据库的海量数据处理系统处理48亿的数据量所需的时间不超过4小时。
如图1所示,本发明所公开的基于数据库的海量数据处理系统的基本工作原理如下:所述T表在每个短周期时间段开始前清除上一次短周期时间段(例如一天)内的数据;如果是奇数中周期(例如奇数月),则选择与T1表进行合并操作,合并的结果是新的T1表,其是旧的T1表与T表的交集;如果是偶数中周期(例如偶数月),则选择与T2表进行合并操作,合并的结果是新的T2表,其是旧的T2表与T表的交集;当奇数中周期(例如奇数月)时,清空M1表,T1表根据设定的维度计算目标数值(例如活动的智能卡的数量),随后与M2表进行交叉联合操作(例如合并),并将操作后的数据存储在M1表;当偶数中周期(例如偶数月)时,清空M2表,T2表根据设定的维度计算目标数值(例如活动的智能卡的数量),随后与M1表进行交叉联合操作(例如合并),并将操作后的数据存储在M2表。
图2是根据本发明的实施例的基于数据库的海量数据处理方法的流程图。如图2所示,本发明所公开的基于数据库的海量数据处理方法包括如下步骤:(A1)数据采集装置从数据库中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置;(A2)所述数据处理装置3根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置;(A3)所述数据存储装置将接收到的所述处理后的数据分类存储。
如图2所示,优选地,所述数据采集装置使用多并发方式从所述数据库抽取数据。
如图2所示,本发明所公开的基于数据库的海量数据处理方法中,所述步骤(A2)进一步包括:
(B1)将每个短周期时间段(例如一天)内的数据存储于所述数据存储装置中以构成短周期时间段数据集合,并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除;
(B2)在每个奇数中周期时间段(例如奇数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并,并将合并后的数据集合作为新的奇数中周期时间段累积数据集合。以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中。
优选地,所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集。
如图2所示,本发明所公开的基于数据库的海量数据处理方法中,所述步骤(A2)进一步包括:
(B3)在每个偶数中周期时间段(例如偶数月份)期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合(初始奇数中周期时间段累积数据集合是空集合)合并,并将合并后的数据集合作为新的偶数中周期时间段累积数据集合。以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中。
优选地,所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。
如图2所示,本发明所公开的基于数据库的海量数据处理方法中,所述步骤(A2)进一步包括:
(B4)在每个奇数中周期时间段(例如奇数月份)的起始端清空奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合),并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量),随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合)进行交叉联合操作,并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中。
优选地,所述交叉联合操作是所述奇数中周期时间段累积数据集合与所述偶数长周期时间段累积数据集合的合并。
如图2所示,本发明所公开的基于数据库的海量数据处理方法中,所述步骤(A2)进一步包括:
(B5)在每个偶数中周期时间段(例如偶数月份)的起始端清空偶数长周期时间段累积数据集合(初始偶数长周期时间段累积数据集合是空集合),并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值(例如活动的智能卡的数量),随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合(初始奇数长周期时间段累积数据集合是空集合)进行交叉联合操作,并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。
优选地,所述交叉联合操作是所述偶数中周期时间段累积数据集合与所述奇数长周期时间段累积数据集合的合并。
优选地,所述长周期是半年或一年。
如图2所示,本发明所公开的基于数据库的海量数据处理方法中,所述步骤(A3)进一步包括:
(C1)所述数据存储装置创建短周期数据表(T),用于存储所述短周期时间段数据集合;
(C2)所述数据存储装置创建第一中周期数据表(T1),用于存储所述奇数中周期时间段累积数据集合;
(C3)所述数据存储装置创建第二中周期数据表(T2),用于存储所述偶数中周期时间段累积数据集合;
(C4)所述数据存储装置创建第一长周期数据表(M1),用于存储所述奇数长周期时间段累积数据集合;
(C5)所述数据存储装置创建第二长周期数据表(M2),用于存储所述偶数长周期时间段累积数据集合。
示例性地,本发明所公开的基于数据库的海量数据处理方法能够处理48亿以上的数据量。
示例性地,本发明所公开的基于数据库的海量数据处理方法处理48亿的数据量所需的时间不超过4小时。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (14)

1.一种基于数据库的海量数据处理系统,所述基于数据库的海量数据处理系统包括:
数据库,所述数据库用于存储原始数据;
数据采集装置,所述数据采集装置用于从所述数据库中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置;
数据处理装置,所述数据处理装置用于根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置;
数据存储装置,所述数据存储装置用于将接收到的所述处理后的数据分类存储;
其中,所述数据采集装置使用多并发方式从所述数据库抽取数据;
所述数据处理装置进一步包括:
短周期数据处理模块,所述短周期数据处理模块用于将每个短周期时间段内的数据存储于所述数据存储装置中以构成短周期时间段数据集合,并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除;
第一中周期数据处理模块,所述第一中周期数据处理模块用于在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的奇数中周期时间段累积数据集合,以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集;
所述数据处理装置进一步包括:
第二中周期数据处理模块,所述第二中周期数据处理模块用于在每个偶数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的偶数中周期时间段累积数据集合,以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。
2.根据权利要求1所述的基于数据库的海量数据处理系统,其特征在于,所述数据处理装置进一步包括:
第一长周期数据处理模块,所述第一长周期数据处理模块用于在每个奇数中周期时间段的起始端清空奇数长周期时间段累积数据集合,并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值,随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中;
第二长周期数据处理模块,所述第二长周期数据处理模块用于在每个偶数中周期时间段的起始端清空偶数长周期时间段累积数据集合,并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值,随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。
3.根据权利要求2所述的基于数据库的海量数据处理系统,其特征在于,所述短周期是一目,所述中周期是一月以及所述长周期是一年。
4.根据权利要求3所述的基于数据库的海量数据处理系统,其特征在于,所述数据存储装置进一步包括:
短周期数据存储器,所述短周期数据存储器用于创建短周期数据表,所述短周期数据表用于存储所述短周期时间段数据集合;
第一中周期数据存储器,所述第一中周期数据存储器用于创建第一中周期数据表,所述第一中周期数据表用于存储所述奇数中周期时间段累积数据集合;
第二中周期数据存储器,所述第二中周期数据存储器用于创建第二中周期数据表,所述第二中周期数据表用于存储所述偶数中周期时间段累积数据集合;
第一长周期数据存储器,所述第一长周期数据存储器用于创建第一长周期数据表,所述第一长周期数据表用于存储所述奇数长周期时间段累积数据集合;
第二长周期数据存储器,所述第二长周期数据存储器用于创建第二长周期数据表,所述第二长周期数据表用于存储所述偶数长周期时间段累积数据集合。
5.根据权利要求4所述的基于数据库的海量数据处理系统,其特征在于,所述基于数据库的海量数据处理系统能够处理48亿以上的数据量。
6.根据权利要求5所述的基于数据库的海量数据处理系统,其特征在于,所述基于数据库的海量数据处理系统处理48亿的数据量所需的时间不超过4小时。
7.一种基于数据库的海量数据处理方法,所述基于数据库的海量数据处理方法包括如下步骤:
(A1)数据采集装置从数据库中根据设定条件抽取数据,并将所述抽取出的数据传送给数据处理装置;
(A2)所述数据处理装置3根据设定的维度以奇偶轮换方式处理接收到的所述数据,并将处理后的数据传送到数据存储装置;
(A3)所述数据存储装置将接收到的所述处理后的数据分类存储;
其中,所述步骤(A2)进一步包括:
(B1)将每个短周期时间段内的数据存储于所述数据存储装置中以构戍短周期时间段数据集合,并在下一短周期开始前将本次短周期时间段内的数据从所述数据存储装置中清除;
(B2)在每个奇数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与奇数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的奇数中周期时间段累积数据集合,以及将所述新的奇数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与奇数中周期时间段累积数据集合的交集;
所述步骤(A2)进一步包括:
(B3)在每个偶数中周期时间段期间的每个所述短周期时间段的末端将所述短周期时间段数据集合与偶数中周期时间段累积数据集合合并,并将合并后的数据集合作为新的偶数中周期时间段累积数据集合,以及将所述新的偶数中周期时间段累积数据集合存储于所述数据存储装置中;其中,所述合并后的数据集合是所述短周期时间段数据集合与偶数中周期时间段累积数据集合的交集。
8.根据权利要求7所述的基于数据库的海量数据处理方法,其特征在于,所述数据采集装置使用多并发方式从所述数据库抽取数据。
9.根据权利要求7所述的基于数据库的海量数据处理方法,其特征在于,所述步骤(A2)进一步包括:
(B4)在每个奇数中周期时间段的起始端清空奇数长周期时间段累积数据集合,并且根据所述设定的维度以及所述奇数中周期时间段累积数据集合计算目标数值,随后将所述奇数中周期时间段累积数据集合与偶数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的奇数长周期时间段累积数据集合存储于所述数据存储装置中。
10.根据权利要求9所述的基于数据库的海量数据处理方法,其特征在于,所述步骤(A2)进一步包括:
(B5)在每个偶数中周期时间段的起始端清空偶数长周期时间段累积数据集合,并且根据所述设定的维度以及所述偶数中周期时间段累积数据集合计算目标数值,随后将所述偶数中周期时间段累积数据集合与奇数长周期时间段累积数据集合进行交叉联合操作,并将操作后的数据集合作为新的偶数长周期时间段累积数据集合存储于所述数据存储装置中。
11.根据权利要求10所述的基于数据库的海量数据处理方法,其特征在于,所述短周期是一目,所述中周期是一月以及所述长周期是一年。
12.根据权利要求11所述的基于数据库的海量数据处理方法,其特征在于,所述步骤(A3)进一步包括:
(C1)所述数据存储装置创建短周期数据表(T),用于存储所述短周期时间段数据集合;
(C2)所述数据存储装置创建第一中周期数据表(T1),用于存储所述奇数中周期时间段累积数据集合;
(C3)所述数据存储装置创建第二中周期数据表(T2),用于存储所述偶数中周期时间段累积数据集合;
(C4)所述数据存储装置创建第一长周期数据表(M1),用于存储所述奇数长周期时间段累积数据集合;
(C5)所述数据存储装置创建第二长周期数据表(M2),用于存储所述偶数长周期时间段累积数据集合。
13.根据权利要求12所述的基于数据库的海量数据处理方法,其特征在于,所述基于数据库的海量数据处理方法能够处理48亿以上的数据量。
14.根据权利要求13所述的基于数据库的海量数据处理方法,其特征在于,所述基于数据库的海量数据处理方法处理48亿的数据量所需的时间不超过4小时。
CN201010564971.0A 2010-11-26 2010-11-26 基于数据库的海量数据处理系统及方法 Active CN102479211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010564971.0A CN102479211B (zh) 2010-11-26 2010-11-26 基于数据库的海量数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010564971.0A CN102479211B (zh) 2010-11-26 2010-11-26 基于数据库的海量数据处理系统及方法

Publications (2)

Publication Number Publication Date
CN102479211A CN102479211A (zh) 2012-05-30
CN102479211B true CN102479211B (zh) 2014-06-25

Family

ID=46091859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010564971.0A Active CN102479211B (zh) 2010-11-26 2010-11-26 基于数据库的海量数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN102479211B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765792B (zh) * 2015-03-24 2018-06-15 华为技术有限公司 一种维度数据存储的方法、装置及系统
CN106290729A (zh) * 2016-08-09 2017-01-04 成都润泰茂成科技有限公司 一种监测数据处理装置
CN109413192A (zh) * 2018-11-08 2019-03-01 内蒙古伊泰煤炭股份有限公司 数据处理方法、装置、服务器及可读存储介质
CN109522285A (zh) * 2018-11-14 2019-03-26 北京首信科技股份有限公司 一种日志数据统计方法及系统
CN109816110A (zh) * 2019-01-24 2019-05-28 杭州嘉楠耘智信息科技有限公司 Scrypt算法工作量证明方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048047A (ja) * 1998-01-19 2000-02-18 Asahi Glass Co Ltd 時系列デ―タの保存方法及び時系列デ―タベ―スシステム、時系列デ―タの処理方法及び時系列デ―タ処理システム、時系列デ―タ表示システム、並びに記録媒体
CN1858735A (zh) * 2005-12-30 2006-11-08 华为技术有限公司 一种海量数据的处理方法
CN101719153A (zh) * 2009-12-09 2010-06-02 中国工商银行股份有限公司 对海量数据文件进行传输处理的装置及方法
CN101814074A (zh) * 2009-02-24 2010-08-25 上海众恒信息产业股份有限公司 一种信息系统数据的校验方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1722326A1 (de) * 2005-05-02 2006-11-15 Ubs Ag Datenverarbeitungsverfahren zur zeitlich optimalen Berechnung großer Ergebnisdatensätze

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048047A (ja) * 1998-01-19 2000-02-18 Asahi Glass Co Ltd 時系列デ―タの保存方法及び時系列デ―タベ―スシステム、時系列デ―タの処理方法及び時系列デ―タ処理システム、時系列デ―タ表示システム、並びに記録媒体
CN1858735A (zh) * 2005-12-30 2006-11-08 华为技术有限公司 一种海量数据的处理方法
CN101814074A (zh) * 2009-02-24 2010-08-25 上海众恒信息产业股份有限公司 一种信息系统数据的校验方法及装置
CN101719153A (zh) * 2009-12-09 2010-06-02 中国工商银行股份有限公司 对海量数据文件进行传输处理的装置及方法

Also Published As

Publication number Publication date
CN102479211A (zh) 2012-05-30

Similar Documents

Publication Publication Date Title
CN102332029B (zh) 一种基于Hadoop 的海量可归类小文件关联存储方法
CN102479211B (zh) 基于数据库的海量数据处理系统及方法
CN105446893A (zh) 数据存储方法及设备
CN102436408B (zh) 基于Map/Dedup的数据存储云化和云备份方法
CN102893265A (zh) 管理可独立访问的数据单元的存储
CN106611035A (zh) 一种云存储中重复数据删除的检索算法
CN104298736A (zh) 数据集合连接方法、装置及数据库系统
CN103488709A (zh) 一种索引建立方法及系统、检索方法及系统
CN113836084A (zh) 一种数据存储方法、装置和系统
CN107992492B (zh) 一种数据区块的存储方法、读取方法、其装置及区块链
CN102567522B (zh) 一种智能卡文件系统的管理方法及设备
CN106844607B (zh) 一种适用于非整型主键与空闲块合并的SQLite数据恢复方法
CN103246549B (zh) 一种数据转存的方法及系统
CN104572679A (zh) 舆情数据存储方法和装置
CN101963977A (zh) 无城市搜索方法及移动终端
CN104112010A (zh) 一种数据存储方法及装置
CN104391961A (zh) 千万级小文件数据的一种读写解决策略
CN104050057A (zh) 一种历史感知的数据去重碎片消除方法与系统
CN103049263A (zh) 一种基于相似性的文件分类方法
CN102170678A (zh) 一种峰值搜索方法及装置
CN107301203B (zh) 一种海量数据的比对方法及系统
CN103678314A (zh) 基于关联规则提取的海量数据处理系统、设备及方法
CN102937956A (zh) 一种智能变电站中实时报文的存储方法及其装置
CN102693315A (zh) 一种基于共享内存映射的url去重方法及装置
CN103207916A (zh) 元数据处理的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant