CN101692226A

CN101692226A - 海量归档流数据存储方法

Info

Publication number: CN101692226A
Application number: CN200910044402A
Authority: CN
Inventors: 杜凯; 王怀民; 杨树强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2009-09-25
Filing date: 2009-09-25
Publication date: 2010-04-07
Anticipated expiration: 2029-09-25
Also published as: CN101692226B

Abstract

本发明公开了一种海量归档流数据存储方法，目的是依据归档流数据的特性解决海量归档流数据的存储，提高归档流数据的管理规模、访问性能和可靠性。技术方案是先构建加载池和归档池，加载池实时存储高速产生的归档流数据，归档池存储从加载池转移出来的更大规模的归档数据；周期性生成只读数据库文件MiniRDB，并将MiniRDB存储到归档池；当归档池中多个归档数据库节点出现故障时，采用并行分布恢复方法进行恢复。与现有技术相比，采用本发明可存储管理的数据规模更大，数据存储和查询性能更高，数据的可靠性更高。

Description

海量归档流数据存储方法

技术领域

本发明涉及计算机领域数据存储方法，尤其是一种建立在计算机集群系统之上的海量归档流数据存储方法。

背景技术

随着计算机网络和存储技术的发展，在网络安全管理、网络搜索、通信、金融、科学实验等诸多领域出现了一类海量数据存储分析的新兴需求，这类需求需要存储持续高速产生的海量结构化数据，并挖掘该类数据中隐藏的规律性知识。例如，在网络安全应用中，对网络通信的报文头信息进行实时存储、查询和分析是常见的网络安全管理手段，该类数据具有典型的写一次读多次的归档特性，且由于其持续产生，生成速度快(一个普通的Gbit的网络连接产生的报文数可达每秒10万，其数据生成速度达几十MB每秒)，所以形成的系统规模很大。类似的应用还有：在网络搜索引擎，需要依据用户个人信息如以往搜索的习惯和关注点等，为其提供更符合其喜好的搜索结果；在电信行业中，日常电话通信过程会产生大量的通话详细信息，如通信双方的电话号码，通话开始时间和结束时间，通话双方的地点等。这类信息被广泛用于用户个人事后查询，运营商分析消费模式或发现盗打行为，以及公共安全部门侦查等用途。

数据库技术是当前存储管理海量数据的主流技术，但由于归档流数据庞大的数据规模和极快的产生速度，现有数据库技术在存储管理海量归档流数据方面存在三个方面的问题难以解决：数据规模、访问性能、数据可靠性。

1)数据规模。现有的典型关系数据库的数据规模一般在10GB(GigaBytes，10⁹Bytes)或100GB级别，较少达到TB(TeraBytes，10¹²Bytes)级别，规模有限。而归档流数据存储系统规模动辄几十TB，甚至达到PB(PeraBytes，10¹⁵Bytes)级，在系统规模达到一定程度后如此规模时，系统组件数目很大(可能是数千节点组成)导致故障率较高，现有的基于日志的数据访问模式和故障恢复模式难以满足数据访问性能需求和故障恢复性能需求，需要考虑采用新的存储方法来管理这类海量数据。

2)访问性能。现有的数据库技术主要用于处理关系型的数据，强调数据操作的事物特性，为此引入了基于事务的提交、回滚、加锁、日志管理等开销较大的管理机制(研究表明，该机制占整个请求处理近70％的时间开销)；而归档流数据具有独特的写一次不再更新的特性，无需复杂繁琐的事务管理机制，可以考虑采用新的存储手段来提高数据访问性能。

3)数据可靠性。现有的数据库技术一般采用基于日志的方法，通过每个数据库对应一组日志文件进行串行逻辑导出导入的方式来恢复数据。但归档流数据存储系统规模庞大，存在故障率高、待恢复数据规模大的问题，传统的逻辑串行数据恢复方法难以满足大规模系统的数据恢复需求，因此需要新的数据恢复方法。

因此，如何依据归档流数据的特性解决海量归档流数据的存储，提高归档流数据的管理规模、访问性能和可靠性是本领域技术人员极为关注的技术问题。

发明内容

本发明要解决的技术问题是：提供一种海量归档流数据的存储方法，将归档流数据存储系统分割为实时存储和归档存储两部分，在两个部分分别缩短故障恢复时间来提高存储系统可靠性，使得存储系统在规模较大(如达到PB(PB＝1*10¹⁵Bytes)级别)时，仍具有较高的可靠性。在实时存储部分(以下称加载池)，通过减小在线存储规模来提高非归档数据库的恢复速度；在归档存储部分(以下称归档池)，通过采用随机分布归档数据库副本和分布并行恢复方法来缩短归档数据的恢复时间。

本发明的技术方案是：由加载池存储实时数据，从实时数据中周期性生成只读的数据库MiniRDB，采用随机分布方法将MiniRDB的多副本分布存储到归档池中，最后在归档池中采用分布式恢复方法对MiniRDB进行恢复。

本发明具体步骤如下：

第一步，构建加载池和归档池，加载池实时存储高速产生的归档流数据，归档池存储从加载池转移出来的更大规模的归档数据：

1.1加载池设计方法是：加载池由m个数据库集群串联组成，m必须是偶数，这些数据库集群并发处理加载和查询请求，每个数据库集群存储部分数据，由于实时数据加载的性能压力较大，每个数据库集群实时数据存储规模控制在a以下(a约为主流磁盘带宽*60，以保证数据恢复可以在分钟级别完成，据当前磁盘带宽50MBps计算)。每个数据库集群由一组互为备份的数据库节点和一个协调节点通过以太网连接组成。协调节点是一个计算机，它将用户的加载请求按负载均衡的策略分发到所有数据库节点，将用户的查询请求转发到某一个数据库节点。数据库节点是包含磁盘、内存、网卡等基本硬件设备和数据库的计算机，它负责处理来自协调节点的加载和查询请求。

由于单个数据库规模小于a，即使采用普通的归档日志(指数据库在线日志的归档文件)恢复方法的恢复时间亦在分钟级别，故当数据库节点出现故障时，可采用基于归档日志的恢复方法对故障数据库节点进行恢复，方法是：当某个数据库节点的磁盘存储出现故障时，采用相关数据库的管理软件来实现数据恢复；当存储归档日志的设备出现故障时，通过数据库的备份恢复管理软件从其它完好的数据库节点上将数据导出到故障节点来恢复数据。

1.2归档池设计方法是：归档池由一组归档数据库节点，一个元数据服务节点，一个查询服务分解节点组成。归档数据库节点是带较大存储容量磁盘的服务器，用于存储一组MiniRDB，并记录存储到本节点的MiniRDB的名称。MiniRDB是由加载池中的周期性转移出的数据形成的只读数据库文件。元数据服务节点是拥有较大内存和较高处理性能的服务器，负责记录MiniRDB的元信息即MiniRDB所在的节点、数据时间范围；查询服务分解节点是拥有较大内存和较高处理性能的服务器，当接收到用户的查询请求时，依据元数据服务节点的MiniRDB的元信息，将查询请求分发到查询所涉及的MiniRDB所在的归档数据库节点。

第二步，周期性生成MiniRDB，并将MiniRDB存储到归档池。

在归档流数据持续存储到存储系统的过程中，归档数据规模会从小于a增长到大于a，此时，加载池中的数据需要周期性地导入到归档池，以保证加载池数据规模不大于m*a：

2.1确定周期C，将包含加载池和归档池的存储系统的运行过程按照周期C进行划分。周期C的确定方法是：

C = \frac{T (1 - R_{1})}{\sqrt{(2 - R_{1}) (N_{s} (1 - R_{1}) + 1)} + 2 - R_{1}}

N_S是加载池和归档池中的节点数目总和，T是存储系统存储数据在线时间，R₁是将数据从原始状态压缩成MiniRDB的压缩比。

2.2按周期C实时将数据加载到加载池中。在第一个周期T₁，k个数据库集群N₁、N₂、......，N_k提供数据实时加载和查询服务，k＝m/2。当加载时长达到一个周期C后，进入第二个周期T₂，新的k个数据库集群N_k+1、N_k+2、......，N_m投入加载，同时，T₁中加载的数据从N₁、N₂、......，N_k导出后压缩成为MiniRDB₁，将MiniRDB₁拷贝到归档池。在第三个周期T₃，将N₁、N₂、......，N_k中的数据删除，再次投入到加载业务，同时将T₂中N_k+1、N_k+2、......，N_m存储的数据导出压缩后形成MiniRDB₂，并将MiniRDB₂拷贝到归档池。类似的，在第s个周期T_s中，将T_s-2中投入的k个节点的数据删除，再次投入到加载业务，同时将T_s-1中的另外k个节点存储的数据导出压缩后形成MiniRDB_s-1，s是存储系统运行期中的某一个周期的编号。

将第i个周期T_i中压缩成的MiniRDB_i存储到归档池采用随机分布方法，i为正整数，包括以下步骤：

步骤1：将MiniRDB_i拷贝形成p个副本，p是依据可靠性要求确定的文件副本数。

步骤2：为每个副本在归档池分配不同的归档数据库节点：对于有N个归档数据库节点的归档池，使用[1，N]上均匀分布的随机函数random()来确定每个副本分布的节点编号j，其中j＝random()，1≤j≤N。若随机函数的输出值导致同一文件的两个副本位于同一个归档数据库节点，则重新使用该随机函数为副本分配新的归档数据库节点，直至p个副本分别分布在p个不同的归档数据库节点上。

2.3将每个副本存储到对应的归档数据库节点。

2.4将MiniRDB_i的p个副本的名称、所在归档数据库节点编号注册到元数据服务节点，同时将p个副本分别注册到所在的归档数据库节点，然后由数据库引擎以只读方式打开p个副本。当查询请求达到时，查询服务分解节点将查询请求转发到查询所涉及的副本所在的归档数据库节点。

第三步，当归档池中多个归档数据库节点出现故障(可能是多个节点出现故障，也可能是一个节点多个文件出现故障)时，采用并行分布恢复方法进行恢复，方法是按如下只读数据块恢复方法并行恢复该故障节点上所有MiniRDB。

对出现故障的只读数据库MiniRDB_i进行恢复的方法是：

3.1选择归档池中某个可用的归档数据库节点作为临时目标节点，将MiniRDB_i副本拷贝到临时目标节点上，具体过程如下：

1)使用均匀随机函数确定该故障归档数据库节点上的MiniRDB_i的临时目标节点，节点编号t为：t＝random()，1≤t≤N，N是归档池中归档数据库节点的个数；

2)依据MiniRDB_i的分布信息，和其它p-1个副本所在节点的带宽占用情况，选择带宽最为空闲的归档数据库节点作为源节点；

3)按照选取的源节点和临时目标节点，将文件MiniRDB_i从源节点拷贝到临时目标节点。

3.2当故障节点修复或被替换成新节点后，将临时目标节点上的MiniRDB_i拷贝到已修复的故障节点上，源节点仍然从包含待恢复副本的p个节点中选择带宽最大的节点。

3.3当所有副本恢复到已修复的故障节点上后，将临时目标节点上的MiniRDB_i删除。

对于该故障节点上的其它文件，采用3.1～3.3中的方法为每个文件选择源节点和临时目标节点，按照相同的流程同时进行恢复，从而实现并发恢复。

与现有技术相比，采用本发明可达到以下技术效果：

1)可存储管理的数据规模更大。现有的典型的关系数据库的数据存储规模一般在10GB或100GB级别，较少达到TB或PB级别，其原因是在数据规模达到一定程度后，系统故障率增高，原有的经典的基于日志的逻辑恢复方式难以应付频繁出现的故障，导致系统可用性和数据可靠性急剧下降。本发明通过将数据存储到加载池和归档池两个部分，在不同部分采取不同的数据存储和恢复方法，一方面缩小了实时加载系统规模，保证了数据加载性能，另一方面将归档数据切割成只读的小规模数据库，为保证查询性能和数据可靠性提供了支持。因此，采用本发明可管理的数据规模更大，可达到PB级甚至更大，该规模是现有常见数据库规模的3个数量级以上。

2)数据存储和查询性能更高。本发明依据归档流数据在写入后不再更新的特性，将数据分为实时加载数据和归档数据分别进行处理。在实时数据的加载和查询性能方面，通过周期性生成MiniRDB，使实时加载和查询性能得到优化；在归档数据的查询和加载性能方面，由于归档池中的数据都是以只读形式存储，免除了锁管理、日志操作等开销较高的操作，节约开销高达约67％，有效提高了数据访问性能。

3)数据的可靠性更高。本发明在归档池节点出现故障时采用并行分布恢复方法，该方法较传统的对等物理恢复或逻辑恢复方式有显著改善。传统的对等物理恢复或逻辑恢复速度受限于单个存储节点的IO带宽，最大仅能达到存储节点的IO带宽；而本发明中的并行分布恢复方法，在系统中节点越多的情况下，恢复并发度可能越高(最大时可达到节点总数)，从而恢复速度可能越高。研究表明，其恢复性能最大可达到原有的n倍(n为归档池中节点总数)，数据可靠性可提高一个数量级。

附图说明

图1是本发明的总体流程图；

图2是本发明第一步设计的加载池中数据库集群的结构图；

图3是本发明第一步设计的归档池的结构图；

图4是本发明第二步周期性生成MiniRDB示例图；

图5是本发明第二步中MiniRDB分布存储到归档池的示例图；

图6是本发明第三步MiniRDB在归档池中的分布恢复流程示例图；

具体实施方案

图1是本发明的总体流程图，具体分为以下步骤：

1.构建加载池和归档池。

2.周期性生成MiniRDB，并将MiniRDB存储到归档池。

3.采用并行分布恢复方法恢复MiniRDB。

图2是本发明第一步设计的加载池中数据库集群的结构图；用于实时存储归档流数据的加载池由多个串联的数据库集群组成。每个数据库集群由一组互为备份的数据库节点和一个协调节点通过以太网连接组成。协调节点是一个计算机，它将用户的加载请求按负载均衡的策略分发到所有数据库节点，将用户的查询请求转发到某一个数据库节点。数据库节点是包含磁盘、内存、网卡等基本硬件设备和数据库的计算机，它负责处理来自协调节点的加载和查询请求。归档日志是数据库在线日志的归档文件。多个数据库集群通过以太网连接后就组成了加载池。

图3是本发明第一步设计的归档池的结构图。归档池由一个元数据服务节点，一个查询服务分解节点，一组归档数据库节点组成。归档池中的节点通过以太网进行连接。归档数据库节点是拥有较大存储容量磁盘的服务器，元数据服务节点和查询服务分解节点都是拥有较大内存和较高处理性能的服务器。

图4是本发明第二步周期性生成MiniRDB示例图。

步骤1：确定周期C，将包含加载池和归档池的存储系统运行过程按照周期C进行划分。

步骤2：按照周期C加载数据。图4中每个周期投入k＝3个数据库集群参与加载任务。在第一个周期，N₁、N₂、N₃三个数据库集群提供数据实时加载和查询服务。当加载时长达到一个周期C后，进入第二个周期，N₄、N₅、N₆三个数据库集群投入加载，与此同时，前一个周期中加载的数据从N₁、N₂、N₃导出后压缩成为MiniRDB₁(临时存储于N₁)，将MiniRDB₁转移存储到归档池中，转移完毕后删除临时存储于N₁中的MiniRDB₁。在第三个周期，N₁、N₂、N₃再次投入到加载业务，前一个周期中加载的数据从N₄、N₅、N₆导出后压缩成为MiniRDB₂(临时存储于N₄)，将MiniRDB₂转移存储到归档池中，转移完毕后删除临时存储于N₄中的MiniRDB₂。如此按照周期滚动加载数据。

图5是本发明第二步中MiniRDB分布存储到归档池的示例图。

步骤1：基于随机分布方法确定多个MiniRDB₁副本的分布节点。依据均匀随机函数确定MiniRDB的p＝3个副本的归档数据库存储节点编号是AD₅，AD₆，AD₇。

步骤2：实施存储操作。

1)将MiniRDB₁拷贝存储到AD₅，AD₆，AD₇上。

2)将MiniRDB₁使用数据库打开，处于可查询状态，并将MiniRDB₁的名称在AD₅，AD₆，AD₇上登记。

3)AD₅，AD₆，AD₇分别向元数据服务节点注册MiniRDB₁，并注销MiniRDB₁位于N₁的信息，通知N₁删除MiniRDB₁。

图6是本发明第三步MiniRDB在归档池中的分布恢复流程示例图。图6给出了随机分布于9个节点的包含3个副本的MiniRDB故障恢复示意。图中9个节点之间互相独立。其过程如下：

1)如图所示，当Node0出现故障进行恢复时，文件(即MiniRDB)1，0，6分别由Node2-＞Node1，Node3-＞Node4，Node7-＞Node6三对节点同时并行恢复。参与恢复的并发节点对的数目是3。

2)当故障节点Node0被新的正常节点替换后，需要将临时目标节点上原有的MiniRDB拷贝到新替换的节点上，即将文件1，0，6分别恢复到新Node0上，恢复的源节点仍然选择3个副本所在节点中带宽最大的节点，可以选择Node2上的文件0，Node6上的文件1，Node7上的文件6，恢复到新Node0上。

3)当所有副本恢复到新替换节点上后，将临时节点上的文件删除。删除图中的Node1上的文件1，Node4上的文件0，Node6上的文件6。

Claims

1.一种海量归档流数据存储方法，其特征在于包括如下步骤：

1.1加载池设计方法是：加载池由m个数据库集群串联组成，m是偶数，每个数据库集群由一组互为备份的数据库节点和一个协调节点通过以太网连接组成；协调节点是一个计算机，它将用户的加载请求按负载均衡的策略分发到所有数据库节点，将用户的查询请求转发到某一个数据库节点；数据库节点是包含磁盘、内存、网卡和数据库的计算机，它负责处理来自协调节点的加载和查询请求；

1.2归档池设计方法是：归档池由一组归档数据库节点，一个元数据服务节点，一个查询服务分解节点组成；归档数据库节点是带磁盘的服务器，用于存储一组MiniRDB，并记录存储到本节点的MiniRDB的名称，所述MiniRDB是由加载池中的周期性转移出的数据形成的只读数据库文件；元数据服务节点是服务器，负责记录MiniRDB的元信息即MiniRDB所在的节点、数据时间范围；查询服务分解节点也是服务器，当接收到用户的查询请求时，依据元数据服务节点的MiniRDB的元信息，将查询请求分发到查询所涉及的MiniRDB所在的归档数据库节点；

第二步，周期性生成MiniRDB，并将MiniRDB存储到归档池：

2.1确定周期C，将包含加载池和归档池的存储系统的运行过程按照周期C进行划分，周期C的确定方法是：

C = \frac{T (1 - R_{1})}{\sqrt{(2 - R_{1}) (N_{s} (1 - R_{1}) + 1)} + 2 - R_{1}}

N_S是加载池和归档池中的节点数目总和，T是存储系统存储数据在线时间，R₁是将数据从原始状态压缩成MiniRDB的压缩比；

2.2按周期C实时将数据加载到加载池中：在第一个周期T₁，k个数据库集群N₁、N₂、......，N_k提供数据实时加载和查询服务，k＝m/2；当加载时长达到一个周期C后，进入第二个周期T₂，新的k个数据库集群N_k+1、N_k+2、......，N_m投入加载，同时，T₁中加载的数据从N₁、N₂、......，N_k导出后压缩成为MiniRDB₁，将MiniRDB₁拷贝到归档池；在第三个周期T₃，将N₁、N₂、......，N_k中的数据删除，再次投入到加载业务，同时将T₂中N_k+1、N_k+2、......，N_m存储的数据导出压缩后形成MiniRDB₂，将MiniRDB₂拷贝到归档池；类似的，在第s个周期T_s中，将T_s-2中投入的k个节点的数据删除，再次投入到加载业务，同时将T_s-1中的另外k个节点存储的数据导出压缩后形成MiniRDB_s-1，s是存储系统运行期中的某一个周期的编号；

2.3将每个副本存储到对应的归档数据库节点；

2.4将MiniRDBi的p个副本的名称、所在归档数据库节点编号注册到元数据服务节点，同时将p个副本分别注册到所在的归档数据库节点，然后由数据库引擎以只读方式打开p个副本；当查询请求达到时，查询服务分解节点将查询请求转发到查询所涉及的副本所在的归档数据库节点；p是依据可靠性要求确定的文件副本数，i为正整数；

第三步，当归档池中多个归档数据库节点出现故障时，采用并行分布恢复方法进行恢复，即按只读数据块恢复方法并行恢复该故障节点上所有MiniRDB：

对出现故障的只读数据库MiniRDBi进行恢复的方法是：

3)按照选取的源节点和临时目标节点，将文件MiniRDB_i从源节点拷贝到临时目标节点；

3.2当故障节点修复或被替换成新节点后，将临时目标节点上的MiniRDB_i拷贝到已修复的故障节点上，源节点仍然从包含待恢复副本的p个节点中选择带宽最大的节点；

3.3当所有副本恢复到已修复的故障节点上后，将临时目标节点上的MiniRDB_i删除；

2.如权利要求1所述的海量归档流数据存储方法，其特征在于所述加载池的每个数据库集群实时数据存储规模控制在a以下，a为主流磁盘带宽*60。

3.如权利要求1所述的海量归档流数据存储方法，其特征在于所述加载池的数据库集群中数据库节点出现故障时，采用基于归档日志即数据库在线日志的归档文件的恢复方法对其进行恢复，方法是：当某个数据库节点的磁盘存储出现故障时，采用相关数据库的管理软件来实现数据恢复；当存储归档日志的设备出现故障时，通过数据库的备份恢复管理软件从其它完好的数据库节点上将数据导出到故障节点来恢复数据。

4.如权利要求1所述的海量归档流数据存储方法，其特征在于在按周期C实时将数据加载到加载池中时，采用随机分布方法将第i个周期T_i中压缩成的MiniRDB_i拷贝到归档池：

步骤1：将MiniRDB_i拷贝形成p个副本，p是依据可靠性要求确定的文件副本数；

步骤2：为每个副本在归档池分配不同的归档数据库节点：对于有N个归档数据库节点的归档池，使用[1，N]上均匀分布的随机函数random()来确定每个副本分布的节点编号j，其中j＝random()，1≤j≤N；若随机函数的输出值导致同一文件的两个副本位于同一个归档数据库节点，则重新使用该随机函数为副本分配新的归档数据库节点，直至p个副本分别分布在p个不同的归档数据库节点上。