CN101692226A - 海量归档流数据存储方法 - Google Patents

海量归档流数据存储方法 Download PDF

Info

Publication number
CN101692226A
CN101692226A CN200910044402A CN200910044402A CN101692226A CN 101692226 A CN101692226 A CN 101692226A CN 200910044402 A CN200910044402 A CN 200910044402A CN 200910044402 A CN200910044402 A CN 200910044402A CN 101692226 A CN101692226 A CN 101692226A
Authority
CN
China
Prior art keywords
node
filing
data
minirdb
pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910044402A
Other languages
English (en)
Other versions
CN101692226B (zh
Inventor
杜凯
王怀民
杨树强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN2009100444020A priority Critical patent/CN101692226B/zh
Publication of CN101692226A publication Critical patent/CN101692226A/zh
Application granted granted Critical
Publication of CN101692226B publication Critical patent/CN101692226B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量归档流数据存储方法,目的是依据归档流数据的特性解决海量归档流数据的存储,提高归档流数据的管理规模、访问性能和可靠性。技术方案是先构建加载池和归档池,加载池实时存储高速产生的归档流数据,归档池存储从加载池转移出来的更大规模的归档数据;周期性生成只读数据库文件MiniRDB,并将MiniRDB存储到归档池;当归档池中多个归档数据库节点出现故障时,采用并行分布恢复方法进行恢复。与现有技术相比,采用本发明可存储管理的数据规模更大,数据存储和查询性能更高,数据的可靠性更高。

Description

海量归档流数据存储方法
技术领域
本发明涉及计算机领域数据存储方法,尤其是一种建立在计算机集群系统之上的海量归档流数据存储方法。
背景技术
随着计算机网络和存储技术的发展,在网络安全管理、网络搜索、通信、金融、科学实验等诸多领域出现了一类海量数据存储分析的新兴需求,这类需求需要存储持续高速产生的海量结构化数据,并挖掘该类数据中隐藏的规律性知识。例如,在网络安全应用中,对网络通信的报文头信息进行实时存储、查询和分析是常见的网络安全管理手段,该类数据具有典型的写一次读多次的归档特性,且由于其持续产生,生成速度快(一个普通的Gbit的网络连接产生的报文数可达每秒10万,其数据生成速度达几十MB每秒),所以形成的系统规模很大。类似的应用还有:在网络搜索引擎,需要依据用户个人信息如以往搜索的习惯和关注点等,为其提供更符合其喜好的搜索结果;在电信行业中,日常电话通信过程会产生大量的通话详细信息,如通信双方的电话号码,通话开始时间和结束时间,通话双方的地点等。这类信息被广泛用于用户个人事后查询,运营商分析消费模式或发现盗打行为,以及公共安全部门侦查等用途。
数据库技术是当前存储管理海量数据的主流技术,但由于归档流数据庞大的数据规模和极快的产生速度,现有数据库技术在存储管理海量归档流数据方面存在三个方面的问题难以解决:数据规模、访问性能、数据可靠性。
1)数据规模。现有的典型关系数据库的数据规模一般在10GB(GigaBytes,109Bytes)或100GB级别,较少达到TB(TeraBytes,1012Bytes)级别,规模有限。而归档流数据存储系统规模动辄几十TB,甚至达到PB(PeraBytes,1015Bytes)级,在系统规模达到一定程度后如此规模时,系统组件数目很大(可能是数千节点组成)导致故障率较高,现有的基于日志的数据访问模式和故障恢复模式难以满足数据访问性能需求和故障恢复性能需求,需要考虑采用新的存储方法来管理这类海量数据。
2)访问性能。现有的数据库技术主要用于处理关系型的数据,强调数据操作的事物特性,为此引入了基于事务的提交、回滚、加锁、日志管理等开销较大的管理机制(研究表明,该机制占整个请求处理近70%的时间开销);而归档流数据具有独特的写一次不再更新的特性,无需复杂繁琐的事务管理机制,可以考虑采用新的存储手段来提高数据访问性能。
3)数据可靠性。现有的数据库技术一般采用基于日志的方法,通过每个数据库对应一组日志文件进行串行逻辑导出导入的方式来恢复数据。但归档流数据存储系统规模庞大,存在故障率高、待恢复数据规模大的问题,传统的逻辑串行数据恢复方法难以满足大规模系统的数据恢复需求,因此需要新的数据恢复方法。
因此,如何依据归档流数据的特性解决海量归档流数据的存储,提高归档流数据的管理规模、访问性能和可靠性是本领域技术人员极为关注的技术问题。
发明内容
本发明要解决的技术问题是:提供一种海量归档流数据的存储方法,将归档流数据存储系统分割为实时存储和归档存储两部分,在两个部分分别缩短故障恢复时间来提高存储系统可靠性,使得存储系统在规模较大(如达到PB(PB=1*1015Bytes)级别)时,仍具有较高的可靠性。在实时存储部分(以下称加载池),通过减小在线存储规模来提高非归档数据库的恢复速度;在归档存储部分(以下称归档池),通过采用随机分布归档数据库副本和分布并行恢复方法来缩短归档数据的恢复时间。
本发明的技术方案是:由加载池存储实时数据,从实时数据中周期性生成只读的数据库MiniRDB,采用随机分布方法将MiniRDB的多副本分布存储到归档池中,最后在归档池中采用分布式恢复方法对MiniRDB进行恢复。
本发明具体步骤如下:
第一步,构建加载池和归档池,加载池实时存储高速产生的归档流数据,归档池存储从加载池转移出来的更大规模的归档数据:
1.1加载池设计方法是:加载池由m个数据库集群串联组成,m必须是偶数,这些数据库集群并发处理加载和查询请求,每个数据库集群存储部分数据,由于实时数据加载的性能压力较大,每个数据库集群实时数据存储规模控制在a以下(a约为主流磁盘带宽*60,以保证数据恢复可以在分钟级别完成,据当前磁盘带宽50MBps计算)。每个数据库集群由一组互为备份的数据库节点和一个协调节点通过以太网连接组成。协调节点是一个计算机,它将用户的加载请求按负载均衡的策略分发到所有数据库节点,将用户的查询请求转发到某一个数据库节点。数据库节点是包含磁盘、内存、网卡等基本硬件设备和数据库的计算机,它负责处理来自协调节点的加载和查询请求。
由于单个数据库规模小于a,即使采用普通的归档日志(指数据库在线日志的归档文件)恢复方法的恢复时间亦在分钟级别,故当数据库节点出现故障时,可采用基于归档日志的恢复方法对故障数据库节点进行恢复,方法是:当某个数据库节点的磁盘存储出现故障时,采用相关数据库的管理软件来实现数据恢复;当存储归档日志的设备出现故障时,通过数据库的备份恢复管理软件从其它完好的数据库节点上将数据导出到故障节点来恢复数据。
1.2归档池设计方法是:归档池由一组归档数据库节点,一个元数据服务节点,一个查询服务分解节点组成。归档数据库节点是带较大存储容量磁盘的服务器,用于存储一组MiniRDB,并记录存储到本节点的MiniRDB的名称。MiniRDB是由加载池中的周期性转移出的数据形成的只读数据库文件。元数据服务节点是拥有较大内存和较高处理性能的服务器,负责记录MiniRDB的元信息即MiniRDB所在的节点、数据时间范围;查询服务分解节点是拥有较大内存和较高处理性能的服务器,当接收到用户的查询请求时,依据元数据服务节点的MiniRDB的元信息,将查询请求分发到查询所涉及的MiniRDB所在的归档数据库节点。
第二步,周期性生成MiniRDB,并将MiniRDB存储到归档池。
在归档流数据持续存储到存储系统的过程中,归档数据规模会从小于a增长到大于a,此时,加载池中的数据需要周期性地导入到归档池,以保证加载池数据规模不大于m*a:
2.1确定周期C,将包含加载池和归档池的存储系统的运行过程按照周期C进行划分。周期C的确定方法是:
C = T ( 1 - R 1 ) ( 2 - R 1 ) ( N s ( 1 - R 1 ) + 1 ) + 2 - R 1
NS是加载池和归档池中的节点数目总和,T是存储系统存储数据在线时间,R1是将数据从原始状态压缩成MiniRDB的压缩比。
2.2按周期C实时将数据加载到加载池中。在第一个周期T1,k个数据库集群N1、N2、......,Nk提供数据实时加载和查询服务,k=m/2。当加载时长达到一个周期C后,进入第二个周期T2,新的k个数据库集群Nk+1、Nk+2、......,Nm投入加载,同时,T1中加载的数据从N1、N2、......,Nk导出后压缩成为MiniRDB1,将MiniRDB1拷贝到归档池。在第三个周期T3,将N1、N2、......,Nk中的数据删除,再次投入到加载业务,同时将T2中Nk+1、Nk+2、......,Nm存储的数据导出压缩后形成MiniRDB2,并将MiniRDB2拷贝到归档池。类似的,在第s个周期Ts中,将Ts-2中投入的k个节点的数据删除,再次投入到加载业务,同时将Ts-1中的另外k个节点存储的数据导出压缩后形成MiniRDBs-1,s是存储系统运行期中的某一个周期的编号。
将第i个周期Ti中压缩成的MiniRDBi存储到归档池采用随机分布方法,i为正整数,包括以下步骤:
步骤1:将MiniRDBi拷贝形成p个副本,p是依据可靠性要求确定的文件副本数。
步骤2:为每个副本在归档池分配不同的归档数据库节点:对于有N个归档数据库节点的归档池,使用[1,N]上均匀分布的随机函数random()来确定每个副本分布的节点编号j,其中j=random(),1≤j≤N。若随机函数的输出值导致同一文件的两个副本位于同一个归档数据库节点,则重新使用该随机函数为副本分配新的归档数据库节点,直至p个副本分别分布在p个不同的归档数据库节点上。
2.3将每个副本存储到对应的归档数据库节点。
2.4将MiniRDBi的p个副本的名称、所在归档数据库节点编号注册到元数据服务节点,同时将p个副本分别注册到所在的归档数据库节点,然后由数据库引擎以只读方式打开p个副本。当查询请求达到时,查询服务分解节点将查询请求转发到查询所涉及的副本所在的归档数据库节点。
第三步,当归档池中多个归档数据库节点出现故障(可能是多个节点出现故障,也可能是一个节点多个文件出现故障)时,采用并行分布恢复方法进行恢复,方法是按如下只读数据块恢复方法并行恢复该故障节点上所有MiniRDB。
对出现故障的只读数据库MiniRDBi进行恢复的方法是:
3.1选择归档池中某个可用的归档数据库节点作为临时目标节点,将MiniRDBi副本拷贝到临时目标节点上,具体过程如下:
1)使用均匀随机函数确定该故障归档数据库节点上的MiniRDBi的临时目标节点,节点编号t为:t=random(),1≤t≤N,N是归档池中归档数据库节点的个数;
2)依据MiniRDBi的分布信息,和其它p-1个副本所在节点的带宽占用情况,选择带宽最为空闲的归档数据库节点作为源节点;
3)按照选取的源节点和临时目标节点,将文件MiniRDBi从源节点拷贝到临时目标节点。
3.2当故障节点修复或被替换成新节点后,将临时目标节点上的MiniRDBi拷贝到已修复的故障节点上,源节点仍然从包含待恢复副本的p个节点中选择带宽最大的节点。
3.3当所有副本恢复到已修复的故障节点上后,将临时目标节点上的MiniRDBi删除。
对于该故障节点上的其它文件,采用3.1~3.3中的方法为每个文件选择源节点和临时目标节点,按照相同的流程同时进行恢复,从而实现并发恢复。
与现有技术相比,采用本发明可达到以下技术效果:
1)可存储管理的数据规模更大。现有的典型的关系数据库的数据存储规模一般在10GB或100GB级别,较少达到TB或PB级别,其原因是在数据规模达到一定程度后,系统故障率增高,原有的经典的基于日志的逻辑恢复方式难以应付频繁出现的故障,导致系统可用性和数据可靠性急剧下降。本发明通过将数据存储到加载池和归档池两个部分,在不同部分采取不同的数据存储和恢复方法,一方面缩小了实时加载系统规模,保证了数据加载性能,另一方面将归档数据切割成只读的小规模数据库,为保证查询性能和数据可靠性提供了支持。因此,采用本发明可管理的数据规模更大,可达到PB级甚至更大,该规模是现有常见数据库规模的3个数量级以上。
2)数据存储和查询性能更高。本发明依据归档流数据在写入后不再更新的特性,将数据分为实时加载数据和归档数据分别进行处理。在实时数据的加载和查询性能方面,通过周期性生成MiniRDB,使实时加载和查询性能得到优化;在归档数据的查询和加载性能方面,由于归档池中的数据都是以只读形式存储,免除了锁管理、日志操作等开销较高的操作,节约开销高达约67%,有效提高了数据访问性能。
3)数据的可靠性更高。本发明在归档池节点出现故障时采用并行分布恢复方法,该方法较传统的对等物理恢复或逻辑恢复方式有显著改善。传统的对等物理恢复或逻辑恢复速度受限于单个存储节点的IO带宽,最大仅能达到存储节点的IO带宽;而本发明中的并行分布恢复方法,在系统中节点越多的情况下,恢复并发度可能越高(最大时可达到节点总数),从而恢复速度可能越高。研究表明,其恢复性能最大可达到原有的n倍(n为归档池中节点总数),数据可靠性可提高一个数量级。
附图说明
图1是本发明的总体流程图;
图2是本发明第一步设计的加载池中数据库集群的结构图;
图3是本发明第一步设计的归档池的结构图;
图4是本发明第二步周期性生成MiniRDB示例图;
图5是本发明第二步中MiniRDB分布存储到归档池的示例图;
图6是本发明第三步MiniRDB在归档池中的分布恢复流程示例图;
具体实施方案
图1是本发明的总体流程图,具体分为以下步骤:
1.构建加载池和归档池。
2.周期性生成MiniRDB,并将MiniRDB存储到归档池。
3.采用并行分布恢复方法恢复MiniRDB。
图2是本发明第一步设计的加载池中数据库集群的结构图;用于实时存储归档流数据的加载池由多个串联的数据库集群组成。每个数据库集群由一组互为备份的数据库节点和一个协调节点通过以太网连接组成。协调节点是一个计算机,它将用户的加载请求按负载均衡的策略分发到所有数据库节点,将用户的查询请求转发到某一个数据库节点。数据库节点是包含磁盘、内存、网卡等基本硬件设备和数据库的计算机,它负责处理来自协调节点的加载和查询请求。归档日志是数据库在线日志的归档文件。多个数据库集群通过以太网连接后就组成了加载池。
图3是本发明第一步设计的归档池的结构图。归档池由一个元数据服务节点,一个查询服务分解节点,一组归档数据库节点组成。归档池中的节点通过以太网进行连接。归档数据库节点是拥有较大存储容量磁盘的服务器,元数据服务节点和查询服务分解节点都是拥有较大内存和较高处理性能的服务器。
图4是本发明第二步周期性生成MiniRDB示例图。
步骤1:确定周期C,将包含加载池和归档池的存储系统运行过程按照周期C进行划分。
步骤2:按照周期C加载数据。图4中每个周期投入k=3个数据库集群参与加载任务。在第一个周期,N1、N2、N3三个数据库集群提供数据实时加载和查询服务。当加载时长达到一个周期C后,进入第二个周期,N4、N5、N6三个数据库集群投入加载,与此同时,前一个周期中加载的数据从N1、N2、N3导出后压缩成为MiniRDB1(临时存储于N1),将MiniRDB1转移存储到归档池中,转移完毕后删除临时存储于N1中的MiniRDB1。在第三个周期,N1、N2、N3再次投入到加载业务,前一个周期中加载的数据从N4、N5、N6导出后压缩成为MiniRDB2(临时存储于N4),将MiniRDB2转移存储到归档池中,转移完毕后删除临时存储于N4中的MiniRDB2。如此按照周期滚动加载数据。
图5是本发明第二步中MiniRDB分布存储到归档池的示例图。
步骤1:基于随机分布方法确定多个MiniRDB1副本的分布节点。依据均匀随机函数确定MiniRDB的p=3个副本的归档数据库存储节点编号是AD5,AD6,AD7
步骤2:实施存储操作。
1)将MiniRDB1拷贝存储到AD5,AD6,AD7上。
2)将MiniRDB1使用数据库打开,处于可查询状态,并将MiniRDB1的名称在AD5,AD6,AD7上登记。
3)AD5,AD6,AD7分别向元数据服务节点注册MiniRDB1,并注销MiniRDB1位于N1的信息,通知N1删除MiniRDB1
图6是本发明第三步MiniRDB在归档池中的分布恢复流程示例图。图6给出了随机分布于9个节点的包含3个副本的MiniRDB故障恢复示意。图中9个节点之间互相独立。其过程如下:
1)如图所示,当Node0出现故障进行恢复时,文件(即MiniRDB)1,0,6分别由Node2->Node1,Node3->Node4,Node7->Node6三对节点同时并行恢复。参与恢复的并发节点对的数目是3。
2)当故障节点Node0被新的正常节点替换后,需要将临时目标节点上原有的MiniRDB拷贝到新替换的节点上,即将文件1,0,6分别恢复到新Node0上,恢复的源节点仍然选择3个副本所在节点中带宽最大的节点,可以选择Node2上的文件0,Node6上的文件1,Node7上的文件6,恢复到新Node0上。
3)当所有副本恢复到新替换节点上后,将临时节点上的文件删除。删除图中的Node1上的文件1,Node4上的文件0,Node6上的文件6。

Claims (4)

1.一种海量归档流数据存储方法,其特征在于包括如下步骤:
第一步,构建加载池和归档池,加载池实时存储高速产生的归档流数据,归档池存储从加载池转移出来的更大规模的归档数据:
1.1加载池设计方法是:加载池由m个数据库集群串联组成,m是偶数,每个数据库集群由一组互为备份的数据库节点和一个协调节点通过以太网连接组成;协调节点是一个计算机,它将用户的加载请求按负载均衡的策略分发到所有数据库节点,将用户的查询请求转发到某一个数据库节点;数据库节点是包含磁盘、内存、网卡和数据库的计算机,它负责处理来自协调节点的加载和查询请求;
1.2归档池设计方法是:归档池由一组归档数据库节点,一个元数据服务节点,一个查询服务分解节点组成;归档数据库节点是带磁盘的服务器,用于存储一组MiniRDB,并记录存储到本节点的MiniRDB的名称,所述MiniRDB是由加载池中的周期性转移出的数据形成的只读数据库文件;元数据服务节点是服务器,负责记录MiniRDB的元信息即MiniRDB所在的节点、数据时间范围;查询服务分解节点也是服务器,当接收到用户的查询请求时,依据元数据服务节点的MiniRDB的元信息,将查询请求分发到查询所涉及的MiniRDB所在的归档数据库节点;
第二步,周期性生成MiniRDB,并将MiniRDB存储到归档池:
2.1确定周期C,将包含加载池和归档池的存储系统的运行过程按照周期C进行划分,周期C的确定方法是:
C = T ( 1 - R 1 ) ( 2 - R 1 ) ( N s ( 1 - R 1 ) + 1 ) + 2 - R 1
NS是加载池和归档池中的节点数目总和,T是存储系统存储数据在线时间,R1是将数据从原始状态压缩成MiniRDB的压缩比;
2.2按周期C实时将数据加载到加载池中:在第一个周期T1,k个数据库集群N1、N2、......,Nk提供数据实时加载和查询服务,k=m/2;当加载时长达到一个周期C后,进入第二个周期T2,新的k个数据库集群Nk+1、Nk+2、......,Nm投入加载,同时,T1中加载的数据从N1、N2、......,Nk导出后压缩成为MiniRDB1,将MiniRDB1拷贝到归档池;在第三个周期T3,将N1、N2、......,Nk中的数据删除,再次投入到加载业务,同时将T2中Nk+1、Nk+2、......,Nm存储的数据导出压缩后形成MiniRDB2,将MiniRDB2拷贝到归档池;类似的,在第s个周期Ts中,将Ts-2中投入的k个节点的数据删除,再次投入到加载业务,同时将Ts-1中的另外k个节点存储的数据导出压缩后形成MiniRDBs-1,s是存储系统运行期中的某一个周期的编号;
2.3将每个副本存储到对应的归档数据库节点;
2.4将MiniRDBi的p个副本的名称、所在归档数据库节点编号注册到元数据服务节点,同时将p个副本分别注册到所在的归档数据库节点,然后由数据库引擎以只读方式打开p个副本;当查询请求达到时,查询服务分解节点将查询请求转发到查询所涉及的副本所在的归档数据库节点;p是依据可靠性要求确定的文件副本数,i为正整数;
第三步,当归档池中多个归档数据库节点出现故障时,采用并行分布恢复方法进行恢复,即按只读数据块恢复方法并行恢复该故障节点上所有MiniRDB:
对出现故障的只读数据库MiniRDBi进行恢复的方法是:
3.1选择归档池中某个可用的归档数据库节点作为临时目标节点,将MiniRDBi副本拷贝到临时目标节点上,具体过程如下:
1)使用均匀随机函数确定该故障归档数据库节点上的MiniRDBi的临时目标节点,节点编号t为:t=random(),1≤t≤N,N是归档池中归档数据库节点的个数;
2)依据MiniRDBi的分布信息,和其它p-1个副本所在节点的带宽占用情况,选择带宽最为空闲的归档数据库节点作为源节点;
3)按照选取的源节点和临时目标节点,将文件MiniRDBi从源节点拷贝到临时目标节点;
3.2当故障节点修复或被替换成新节点后,将临时目标节点上的MiniRDBi拷贝到已修复的故障节点上,源节点仍然从包含待恢复副本的p个节点中选择带宽最大的节点;
3.3当所有副本恢复到已修复的故障节点上后,将临时目标节点上的MiniRDBi删除;
对于该故障节点上的其它文件,采用3.1~3.3中的方法为每个文件选择源节点和临时目标节点,按照相同的流程同时进行恢复,从而实现并发恢复。
2.如权利要求1所述的海量归档流数据存储方法,其特征在于所述加载池的每个数据库集群实时数据存储规模控制在a以下,a为主流磁盘带宽*60。
3.如权利要求1所述的海量归档流数据存储方法,其特征在于所述加载池的数据库集群中数据库节点出现故障时,采用基于归档日志即数据库在线日志的归档文件的恢复方法对其进行恢复,方法是:当某个数据库节点的磁盘存储出现故障时,采用相关数据库的管理软件来实现数据恢复;当存储归档日志的设备出现故障时,通过数据库的备份恢复管理软件从其它完好的数据库节点上将数据导出到故障节点来恢复数据。
4.如权利要求1所述的海量归档流数据存储方法,其特征在于在按周期C实时将数据加载到加载池中时,采用随机分布方法将第i个周期Ti中压缩成的MiniRDBi拷贝到归档池:
步骤1:将MiniRDBi拷贝形成p个副本,p是依据可靠性要求确定的文件副本数;
步骤2:为每个副本在归档池分配不同的归档数据库节点:对于有N个归档数据库节点的归档池,使用[1,N]上均匀分布的随机函数random()来确定每个副本分布的节点编号j,其中j=random(),1≤j≤N;若随机函数的输出值导致同一文件的两个副本位于同一个归档数据库节点,则重新使用该随机函数为副本分配新的归档数据库节点,直至p个副本分别分布在p个不同的归档数据库节点上。
CN2009100444020A 2009-09-25 2009-09-25 海量归档流数据存储方法 Expired - Fee Related CN101692226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100444020A CN101692226B (zh) 2009-09-25 2009-09-25 海量归档流数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100444020A CN101692226B (zh) 2009-09-25 2009-09-25 海量归档流数据存储方法

Publications (2)

Publication Number Publication Date
CN101692226A true CN101692226A (zh) 2010-04-07
CN101692226B CN101692226B (zh) 2012-07-04

Family

ID=42080914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100444020A Expired - Fee Related CN101692226B (zh) 2009-09-25 2009-09-25 海量归档流数据存储方法

Country Status (1)

Country Link
CN (1) CN101692226B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819592A (zh) * 2010-04-19 2010-09-01 山东高效能服务器和存储研究院 一种通用的跨操作系统的海量历史数据处理方法
CN101820426A (zh) * 2010-04-22 2010-09-01 华中科技大学 一种在线备份服务软件中的数据压缩方法
CN102073706A (zh) * 2010-12-30 2011-05-25 北京锐安科技有限公司 分布式文件存储系统和关系数据库的结合应用方法
CN102073712A (zh) * 2010-12-31 2011-05-25 北京四方继保自动化股份有限公司 基于动态变化帧的过程数据全息归档和反演方法
CN102792282A (zh) * 2010-04-09 2012-11-21 株式会社日立制作所 数据库管理方法、计算机、传感器网络系统以及数据库搜索程序
CN104239425A (zh) * 2014-08-25 2014-12-24 华为技术有限公司 文件访问的方法、装置及系统
CN105354320A (zh) * 2015-11-16 2016-02-24 天津南大通用数据技术股份有限公司 一种快速加载多个数据文件的方法及装置
CN105608138A (zh) * 2015-12-18 2016-05-25 贵州大学 一种优化阵列数据库并行数据加载性能的系统
CN106020739A (zh) * 2016-07-12 2016-10-12 乐视控股(北京)有限公司 用于分布式存储的数据存储方法及系统
CN107391762A (zh) * 2017-08-28 2017-11-24 京信通信系统(中国)有限公司 日志数据的处理方法及装置
CN107798019A (zh) * 2016-09-07 2018-03-13 阿里巴巴集团控股有限公司 一种用于提供加速服务节点的节点服务数据的方法与设备
CN108509462A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种同步活动事务表的方法及装置
CN108664524A (zh) * 2017-03-31 2018-10-16 平安科技(深圳)有限公司 数据库数据归档方法和系统
CN111090652A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 一种可水平扩展归档数据库的数据归档方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102792282A (zh) * 2010-04-09 2012-11-21 株式会社日立制作所 数据库管理方法、计算机、传感器网络系统以及数据库搜索程序
CN102792282B (zh) * 2010-04-09 2015-12-16 株式会社日立制作所 数据库管理方法、计算机、传感器网络系统
CN101819592A (zh) * 2010-04-19 2010-09-01 山东高效能服务器和存储研究院 一种通用的跨操作系统的海量历史数据处理方法
CN101820426A (zh) * 2010-04-22 2010-09-01 华中科技大学 一种在线备份服务软件中的数据压缩方法
CN101820426B (zh) * 2010-04-22 2012-05-23 华中科技大学 一种在线备份服务软件中的数据压缩方法
CN102073706A (zh) * 2010-12-30 2011-05-25 北京锐安科技有限公司 分布式文件存储系统和关系数据库的结合应用方法
CN102073706B (zh) * 2010-12-30 2013-02-13 北京锐安科技有限公司 分布式文件存储系统和关系数据库的结合应用方法
CN102073712A (zh) * 2010-12-31 2011-05-25 北京四方继保自动化股份有限公司 基于动态变化帧的过程数据全息归档和反演方法
CN104239425B (zh) * 2014-08-25 2017-11-17 华为技术有限公司 文件访问的方法、装置及系统
CN104239425A (zh) * 2014-08-25 2014-12-24 华为技术有限公司 文件访问的方法、装置及系统
CN105354320A (zh) * 2015-11-16 2016-02-24 天津南大通用数据技术股份有限公司 一种快速加载多个数据文件的方法及装置
CN105608138A (zh) * 2015-12-18 2016-05-25 贵州大学 一种优化阵列数据库并行数据加载性能的系统
CN105608138B (zh) * 2015-12-18 2019-03-12 贵州大学 一种优化阵列数据库并行数据加载性能的系统
CN106020739A (zh) * 2016-07-12 2016-10-12 乐视控股(北京)有限公司 用于分布式存储的数据存储方法及系统
CN107798019A (zh) * 2016-09-07 2018-03-13 阿里巴巴集团控股有限公司 一种用于提供加速服务节点的节点服务数据的方法与设备
CN108509462A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种同步活动事务表的方法及装置
CN108509462B (zh) * 2017-02-28 2021-01-29 华为技术有限公司 一种同步活动事务表的方法及装置
US11442961B2 (en) 2017-02-28 2022-09-13 Huawei Technologies Co., Ltd. Active transaction list synchronization method and apparatus
CN108664524A (zh) * 2017-03-31 2018-10-16 平安科技(深圳)有限公司 数据库数据归档方法和系统
CN107391762A (zh) * 2017-08-28 2017-11-24 京信通信系统(中国)有限公司 日志数据的处理方法及装置
CN111090652A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 一种可水平扩展归档数据库的数据归档方法和装置

Also Published As

Publication number Publication date
CN101692226B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN101692226B (zh) 海量归档流数据存储方法
US11258839B2 (en) Data storage management and resource scaling
US11468015B2 (en) Storage and synchronization of metadata in a distributed storage system
CA2913036C (en) Index update pipeline
CN104301360B (zh) 一种日志数据记录的方法、日志服务器及系统
Santos et al. Real-time data warehouse loading methodology
EP3942402A1 (en) Journaled tables in database systems
CN107844388A (zh) 从备份系统流式恢复数据库
CN101888405B (zh) 一种云计算的文件系统和数据处理方法
CN107835983A (zh) 使用一致的数据库快照在分布式数据库中进行备份和还原
CN102214205A (zh) 带有自适应克隆的经聚类的数据库系统中的逻辑复制
CN101578599A (zh) 数据的动态大块到砖块转换
CN104932956A (zh) 一种面向大数据的云容灾备份方法
US20040139127A1 (en) Backup system and method of generating a checkpoint for a database
CN103793493A (zh) 一种处理车载终端海量数据的方法和系统
Santos et al. Optimizing data warehouse loading procedures for enabling useful-time data warehousing
Sundarakumar et al. A comprehensive study and review of tuning the performance on database scalability in big data analytics
CN107943412A (zh) 一种分区分裂、删除分区中数据文件的方法、装置及系统
Cooper et al. PNUTS to sherpa: Lessons from yahoo!'s cloud database
Wildani et al. PERSES: Data layout for low impact failures
ELomari et al. New data placement strategy in the HADOOP framework
CN108038225A (zh) 一种数据处理方法和系统
US20230367773A1 (en) Loading query result sets for storage in database systems
US20240118905A1 (en) Performing shutdown of a node in a database system
Zeb Comparative analysis of data stream processing systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20180925

CF01 Termination of patent right due to non-payment of annual fee