CN111240893A

CN111240893A - 一种基于数据流分片技术的备份和还原管理方法及系统

Info

Publication number: CN111240893A
Application number: CN201911371678.XA
Authority: CN
Inventors: 张仪; 张永生; 杨璐; 张晋锋; 刘瑞贤; 王榕
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-06-05
Anticipated expiration: 2039-12-26
Also published as: CN111240893B

Abstract

本发明公开了一种基于数据流分片技术的备份和还原管理方法及系统，该方法包括采集原始数据信息进行特征分析和备份策略的选择，输出数据流进行数据分割；在数据流分割过程中，对数据流分割出来的数据流产生的特征信息，进行管理记录；根据对原始数据特征进行分析的结果，约束输出被分割的数据，以将具有相同特征的数据块存放在同一个存储设备中；根据数据索引管理模块记录的信息或备份目录中的记录，进行数据特征整合；本发明通过对备份数据的特征分析，进行快速备份和还原；对不同的原始数据类型进行快速分析备份和恢复，能够对分散的数据文件和目录进行数据合并，然后按照顺序分片和存储，进而降低备份和恢复时间，实现业务和数据的快速恢复。

Description

一种基于数据流分片技术的备份和还原管理方法及系统

技术领域

本发明涉及数据处理技术领域，具体而言，为一种基于数据流分片技术的备份和还原管理方法及系统。

背景技术

随着互联网、移动互联网、物联网等技术的发展，数据的生产在飞速地发展，信息成了一个企业的战略资源，市场竞争和政策的管制要求越来越多的数据被长期的保存，需要对各类信息数据进行收集、保存和备份，从而进行用户行为分析、市场的研究。

现有技术中数据分布式存储和Raid(Redundant Arrays of Independent Disk，磁盘阵列)一定程度提升了数据的读写和灾备能力；分布式存储主要解决了大数据的存储问题，提升了数据的读写能力；Raid从一定程度上提升了数据的读写能力和冗余能力。

随着信息技术的不断发展，数据的量级逐年增加，从传统的GB到现在EP，实现指数级的增长。而随着大数据文件的普遍存在，给备份和容灾带来了挑战。在原始数据损坏的情况下，在千兆网络环境中恢复TB级别的数据往往就需要1天以上，往往会给应用业务带来不便。

传统大数据文件备份耗时长，恢复时间长，导致系统的恢复能力降低。Raid由于本身配置问题，导致数据的恢复能力较低。若raid结构损坏，不及时恢复，会大几率导致整个Raid系统崩溃，从而导致数据的不可逆的损坏。

分布式存储解决了传统大数据的存储问题，但并不适合所有的数据场景，如业务系统镜像进行和数据的存储备份和恢复，使用分布式存储不能充分发挥特长。

有鉴于此，特提出本发明。

发明内容

针对现有技术中的缺陷，本发明提供一种基于数据流分片技术的备份和还原管理方法及系统，以利于日常工作过程中数据文件的备份和快速恢复。

为了实现上述目的，本发明的技术方案为：

一种基于数据流分片技术的备份和还原管理方法，包括

采集原始数据信息，对原始数据特征进行分析和进行备份策略的选择，输出数据流；

获取数据流进行数据分割；

在数据流分割过程中，对数据流分割出来的数据流产生的特征信息，进行管理记录；

根据对原始数据特征进行分析的结果，约束输出被分割的数据，以将具有相同特征的数据块存放在同一个存储设备中；

根据数据索引管理模块记录的信息或备份目录中的记录，进行数据特征整合。

进一步的，上述的基于数据流分片技术的备份和还原管理方法中，所述采集原始数据信息，对原始数据特征进行分析和进行备份策略的选择，输出数据流中，所述原始数据特征至少包括目录结构信息和数据文件的大小信息，所述进行备份策略的选择包括

根据目录结构：若原始数据分散，则将存放于同一磁盘的多个子目录汇总；对汇总后的父目录数据进行压缩合并，然后对合并后的数据文件输入到数据池和数据阀门进行分片；

根据目录结构和数据文件的大小：若原始数据集中，且单个数据文件大小超过预设值，则记录数据文件的位置信息，直接流入数据池和数据阀门进行分片进行分片；

根据目录结构和数据文件的大小：小且分散的数据，进行数据合并，然后进入数据池和数据阀门进行分片；按顺序依次存储到备份服务器磁盘中；

根据数据文件的大小：针对超过预设值的文件，直接进入数据池和数据阀门进行数据分片，按顺序依次存储到备份服务器的磁盘中。

进一步的，上述的基于数据流分片技术的备份和还原管理方法中，所述获取数据流进行数据分割，包括

数据流通过数据输入管道到第一数据阀门，第一数据阀门打开，并在该数据流的头部设置头部标记；此时第一数据阀门打开，第二数据阀门关闭，允许数据流进入数据池；

当数据池盈满时，第一数据阀门关闭，第二数据阀门打开，终止数据流继续流入，允许数据流从数据池中输出；当数据全部输出时，第二数据阀门在数据的尾部设置尾部标记，标示数据块的尾部；

直至将数据文件的数据流依次类推完成全部数据分块。

进一步的，上述的基于数据流分片技术的备份和还原管理方法中，分割后的数据块包括头部标记、分块数据、尾部标记和hash信息。

进一步的，上述的基于数据流分片技术的备份和还原管理方法中，所述在数据流分割过程中，对数据流分割出来的数据流产生的特征信息，进行管理记录，包括对数据块增加的头部标记、尾部标记和数据块hash信息以及原始数据的目录结构信息，进行管理记录。

本发明还提供了一种基于数据流分片技术的备份和还原管理系统，包括：

数据特征分析模块，用于采集原始数据信息，根据原始数据特征进行分析和处理输出；

数据池和阀门模块，用于获取数据特征分析模块的数据流进行数据分割；

数据索引管理模块：用于跟随记录数据池和阀门模块的运行操作，以在数据池和阀门模块进行数据流分割时，对数据分割块增加的特征信息，进行管理记录；

数据特征存储模块：用于根据数据特征分析模块的分析结果，约束输出被分割的数据，从而将具有相同特征的数据分割块存放在同一个存储设备中；

数据恢复模块：根据数据索引管理模块记录的信息或备份目录中的记录，进行数据特征整合。

进一步的，上述的基于数据流分片技术的备份和还原管理系统中，所述数据特征分析模块对原始数据的目录结构和数据文件的大小特征进行分析；所述进行备份策略的选择包括：

根据目录结构：若原始数据分散，则将存放于同一磁盘的多个子目录汇总；对汇总后的父目录数据进行压缩合并，然后对合并后的数据文件输入到数据池和阀门模块进行分片；

根据目录结构和数据文件的大小：若原始数据集中，且单个数据文件大小超过预设值，则记录数据文件的位置信息，直接流入数据池和阀门模块进行分片进行分片；

根据目录结构和数据文件的大小：小且分散的数据，进行数据合并，然后输入数据池和阀门模块进行分片；并按顺序依次存储到备份服务器磁盘中；

根据数据文件的大小：针对超过预设值的文件，直接进入数据池和阀门模块进行数据分片，按顺序依次存储到备份服务器的磁盘中。

进一步的，上述的基于数据流分片技术的备份和还原管理系统中，所述数据池和阀门模块进行数据分割，包括

直至将数据文件的数据流依次类推完成全部数据分块。

进一步的，上述的基于数据流分片技术的备份和还原管理系统中，分割后的数据块包括头部标记、分块数据、尾部标记和hash信息。

进一步的，上述的基于数据流分片技术的备份和还原管理系统中，所述数据索引管理模块跟随记录数据池和阀门模块的运行操作，以在数据池和阀门模块进行数据流分割时，对数据块增加的头部标记、尾部标记和数据块hash信息进行管理记录。

与现有技术相比，本发明的有益效果为：

本发明方法和系统通过对备份数据的特征分析，进行备份策选择，继而快速备份和还原；对不同的原始数据类型进行快速分析备份和恢复，能够对分散的数据文件和目录进行数据合并，然后按照顺序分片和存储，进而降低备份和恢复时间，实现业务和数据的快速恢复。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明一种基于数据流分片技术的备份和还原管理方法的流程示意图；

图2为本发明一种基于数据流分片技术的备份和还原管理系统的逻辑框图；

图3为本发明进行数据分割的示意图；

图4为数据块构成示意图；

图5为数据备份过程的一个具体实施例示意图；

图6为数据备份过程的另一个具体实施例示意图；

图7为数据还原的一个具体实施例示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例1

如图1和图2所示的，一种基于数据流分片技术的备份和还原管理方法，包括：

S1.采集原始数据信息，对原始数据特征进行分析和进行备份策略的选择，输出数据流；

S2.获取数据流进行数据分割；

S3.在数据流分割过程中，对数据流分割出来的数据流产生的特征信息，进行管理记录；

S4.根据对原始数据特征进行分析的结果，约束输出被分割的数据，从而将具有相同特征的数据分割块存放在同一个存储设备中；

S5.根据数据索引管理模块记录的信息或备份目录中的记录，进行数据特征整合。

本发明方法主要用来对日常工作过程中数据文件的备份和快速恢复，根据磁盘中数据分布特征进行分析，处理以及根据数据特征进行数据备份，进而降低备份和恢复时间，实现业务和数据的快速恢复。

本发明方法的实现步骤不严格按照上述步骤编号顺序进行。

具体的，步骤S1.采集原始数据信息，对原始数据特征进行分析和进行备份策略的选择，输出数据流，包括：

获取原始数据信息，在数据备份前进行特征分析和处理，并输入数据流；其中原始数据信息的特征包括的目录结构和数据文件的大小等。具体的：

根据目录结构：若需备份的数据过于分散，存放于同一磁盘的多个子目录汇总；对汇总后的父目录数据进行压缩合并，然后对合并后的一个数据文件输入到数据池和阀门进行分片(即分块，下文同)；

根据目录结构和数据文件的大小：若需备份的数据比较集中，且单个数据文件较大，则记录数据文件的位置信息，直接流入数据池和阀门进行分片；

根据目录结构和数据文件的大小：小且分散的数据，进行数据合并，然后进行分片；按顺序依次存储到备份服务器磁盘中，可以减少数据读写磁盘的时间；

根据数据文件的大小：针对大文件，直接进行数据分片，按顺序依次存储到备份服务器的磁盘中。

S2.获取数据流进行数据分割

该步骤中，通过数据池和数据阀门实现，其中数据阀门是控制数据流入流出的管理组件，会为数据流设置头部和尾部标记；数据池是负责存储分割数据块大小的缓存；设置至少两个数据阀门在数据池的前后(即程序上的前后顺序)；

数据分割过程包括：

如图3中3a所示的，数据流通过数据输入管道到达数据阀门1(即第一数据阀门，设置在数据池之前)，数据阀门1打开，并在该数据流的头部(head)设置头部标记；此时数据阀门1打开，数据阀门2(第二数据阀门，设置在数据池输出之前)关闭，允许数据流进入数据池；

如图3中3b所示，当数据池盈满时，数据阀门1关闭，数据阀门2打开，终止数据流继续流入，允许数据流从数据池中输出；当数据全部输出时，数据阀门2在数据的尾部(tail)设置尾部标记，标示数据块的尾部；此时一个数据块分割完成，将大数据文件的数据流依次类推实现数据分块。

数据块包括头部标记、分块数据、尾部标记和hash信息，这些信息将被记录在特定模块中(如系统的数据索引管理模块)。

数据池和数据阀门处理后输出的数据块按照顺序头尾依次相接，并去掉头部和尾部标识，进行合并即为原始数据，如图4所示，被分块后的数据块1、数据块2以及数据块3中，tail1＝head2，tail2＝head3，同理，当n个数据块之间依次类推，按照顺序合并，并去掉头部和尾部标识，进行合并即为原始数据。

跟随记录数据池和数据阀门的运行操作，以在数据池和数据阀门进行数据流分割时，对数据分割块(即数据块)增加的头部标记、尾部标记和数据块hash(哈希)信息，进行管理记录，保证数据的完整性。

进一步的，还对原始数据的目录结构信息进行记录和管理，以作为数据恢复的依据，快速恢复成原始数据的目录结构。

由于数据流为按照顺序进行的切片，从而头部标记和尾部标记有一一对应的关系，根据这些关系，进行数据分割和合并。

根据对原始数据信息的分析结果，对被分割的数据进行约束输出，从而将具有相同特征的数据分割块存放在同一个存储设备中，从而达到有关联关系的数据可以加速恢复；其中相同特征包括目录结构等。

S5.根据数据索引管理模块记录的信息或备份目录中的记录，进行数据特征整合

根据记录的对数据分割块(即数据块)增加的头部标记、尾部标记和数据块hash(哈希)信息，或备份目录中record记录，进行数据特征整合，实现快速重组。在恢复数据时，根据数据块头部标记和尾部标记，以及顺序信息，进行数据块的合并；合并后去掉所有头部标记和尾部标记。

本发明方法通过对备份数据的特征分析，进行快速备份和还原；对不同的原始数据类型进行快速分析备份和恢复，能够对分散的数据文件和目录进行数据合并，然后按照顺序分片和存储，进而降低备份和恢复时间，实现业务和数据的快速恢复。

实施例2

另一方面，本发明还提供了实施上述方法的系统，包括

数据特征分析模块，用于采集原始数据信息，根据原始数据特征进行分析和进行备份策略的选择，输出数据流；

其中，数据特征分析模块：

获取原始数据信息，在数据备份前进行特征分析以便处理后输出到相应的模块中；其中原始数据信息包括目录结构和数据文件的大小等。具体的：

根据目录结构：若需备份的数据过于分散，存放于同一磁盘的多个子目录汇总；后续将对父目录数据进行压缩合并，然后对合并后的一个数据文件输入到数据池和阀门模块进行分片；

根据目录结构和数据文件的大小：若需备份的数据比较集中，且单个数据文件较大，则记录数据文件的位置信息，直接流入数据池和阀门模块进行分片进行分片；

数据池和阀门模块：

该模块负责数据流的分割工作；其中阀门是控制数据流入流出的管理组件，是负责控制数据流代码来控制数据流截取时机，会为数据流设置头部和尾部标记；数据池是负责存储分割数据块大小的缓存(数据容器)；阀门设置在数据池的前后(即程序上的前后顺序)；

需要分片的数据输入到该模块中进行处理的过程包括：

如图3所示，数据流通过数据输入管道到达数据阀门1(即第一数据阀门，设置在数据池之前)，阀门1打开，并在该数据流的头部设置头部标记；此时数据阀门1打开，阀门2(即第二数据阀门，设置在数据池输出之前)关闭，允许数据流进入数据池；

当数据池盈满时，数据阀门1关闭，阀门2打开，终止数据流继续流入，允许数据流从数据池中输出；当数据全部输出时，阀门2在数据的尾部设置尾部标记，标示数据块的尾部；此时一个数据块分割完成，将大数据文件的数据流依次类推实现数据分块。

数据块包括头部标记、分块数据、尾部标记和hash信息，这些信息将存在数据索引管理模块中。

数据池和阀门模块输出的数据块按照顺序头尾依次相接，并去掉头部和尾部标识，进行合并即为原始数据，如图4所示，被分块后的数据块1、数据块2以及数据块3中，tail1＝head2，tail2＝head3，同理，当n个数据块之间依次类推，按照顺序合并，并去掉头部和尾部标识，进行合并即为原始数据。

数据索引管理模块：

跟随记录数据池和阀门模块的运行操作，以在数据池和阀门模块进行数据流分割时，对数据分割块(即数据块)增加的头部标记、尾部标记和数据块hash(哈希)信息，进行管理记录，保证数据的完整性。

数据索引管理模块还记录并管理原始数据的目录结构信息，在恢复时将这些信息反馈给数据恢复模块，恢复成原始数据的目录结构。

数据特征存储模块：

根据数据特征分析模块的分析结果，约束输出被数据池和阀门模块分割的数据，从而将具有相同特征的数据分割块存放在同一个存储设备中，从而达到有关联关系的数据可以加速恢复；其中相同特征包括目录结构等。

数据恢复模块：

根据数据索引管理模块记录的信息或备份目录中record记录，进行数据特征整合，实现快速重组。在恢复数据时，根据数据块头部标记和尾部标记，以及顺序信息，进行数据块的合并；合并后去掉所有头部标记和尾部标记。

显示模块，用于在整个工作过程中，展示数据源(备份源，即原始数据目录)和备份数据路径以及节点信息，以够快速定位备份的存放路径(备份端)。

如图5至图7所示的，本发明系统用于实现备份源和备份端的快速备份，针对不同工作场景，对原始数据进行分析，选择不同的备份策略；

A.针对某目录下存在比较多且分散的数据文件(file)时，先进行合并压缩再进行分片存储，如图5：

对于备份源下小且分散的数据，本系统经过对数据特征分析，选择合并压缩处理，然后输入到数据池和阀门模块进行切片(即分片、分割、分块)；数据分割过程中，记录索引信息，即分割产生的数据库头部标记、尾部标记等等，以利于后续快速恢复数据；经过分割后的数据，根据数据特征存储模块的约束，输入到对应的存储目录下(备份端)，以进行数据快速合并，完成备份。

B.针对某目录下存在多个较大的数据文件时，直接进行并发分片存储，如图6：

对于备份源下存在多个较大的数据文件，本系统经过对数据特征分析，选择直接输入到数据池和阀门模块进行切片(即分片、分割、分块)；数据分割过程中，记录索引信息，即分割产生的数据库头部标记、尾部标记等等，以利于后续快速恢复数据；经过分割后的数据，根据数据特征存储模块的约束，输入到对应的存储目录下(备份端)，以进行数据快速合并，完成备份。并且可以多个磁盘并行处理，提升处理效率。

通过将数据块存放在不同的硬盘中，实现顺序存储，能够极大的提升数据的读写速度，相比于一个大文件和若干的离散文件读写有较高的性能提升，从而提升备份和恢复效率。

如图7，恢复时，根据备份端的分片数据(数据块)以及记录在数据索引管理模块中的信息进行数据合并，输到恢复端(恢复目录)下，进行压缩和解压，保存。

本发明系统通过对备份数据的特征分析进行备份策略的选择，继而快速备份和还原，其中将数据分片(分块)、能将一个大容量的数据文件分割成若干较小文件进行备份并进行顺序存储，减少磁盘读写时寻找磁道的耗时，从而提升数据的备份和恢复能力；

决定磁盘读写性能的指标包括磁盘读写前寻找磁道能力、磁盘读写缓存大小，。磁盘缓存大小在生产时已经确定，没有性能提升空间，磁盘的寻道过程是机械方式的，决定了其随机读写速度将明显低于顺序读写；故本系统通过数据的顺序处理提升磁盘性能，减少备份还原的耗时；并且支持多个磁盘并发处理，通过针对不同目录下的数据，进行并发的分片和存储；通过减少单一硬盘的并发读写的进程数或线程数，并发多硬盘的顺序存储，提升不同目录下数据的备份效率；

数据还原(即恢复)时，依据数据索引管理模块记录的信息还原，即是对数据分块(数据块)的hash信息等的校验过程，保证数据的完整性和一致性；

通过展示数据源和备份数据路径和节点信息，够快速定位备份的存放路径。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于数据流分片技术的备份和还原管理方法，其特征在于，包括

获取数据流进行数据分割；

2.根据权利要求1所述的基于数据流分片技术的备份和还原管理方法，其特征在于，所述采集原始数据信息，对原始数据特征进行分析和进行备份策略的选择，输出数据流中，所述原始数据特征至少包括目录结构信息和数据文件的大小信息，所述进行备份策略的选择包括

3.根据权利要求2所述的基于数据流分片技术的备份和还原管理方法，其特征在于，所述获取数据流进行数据分割，包括

直至将数据文件的数据流依次类推完成全部数据分块。

4.根据权利要求3所述的基于数据流分片技术的备份和还原管理方法，其特征在于，分割后的数据块包括头部标记、分块数据、尾部标记和hash信息。

5.根据权利要求4所述的基于数据流分片技术的备份和还原管理方法，其特征在于，所述在数据流分割过程中，对数据流分割出来的数据流产生的特征信息，进行管理记录，包括对数据块增加的头部标记、尾部标记和数据块hash信息以及原始数据的目录结构信息，进行管理记录。

6.一种基于数据流分片技术的备份和还原管理系统，其特征在于，包括：

7.根据权利要求6所述的基于数据流分片技术的备份和还原管理系统，其特征在于，所述数据特征分析模块对原始数据的目录结构和数据文件的大小特征进行分析；所述进行备份策略的选择包括：

8.根据权利要求7所述的基于数据流分片技术的备份和还原管理系统，其特征在于，所述数据池和阀门模块进行数据分割，包括

直至将数据文件的数据流依次类推完成全部数据分块。

9.根据权利要求7所述的基于数据流分片技术的备份和还原管理方法，其特征在于，分割后的数据块包括头部标记、分块数据、尾部标记和hash信息。

10.根据权利要求4所述的基于数据流分片技术的备份和还原管理方法，其特征在于，所述数据索引管理模块跟随记录数据池和阀门模块的运行操作，以在数据池和阀门模块进行数据流分割时，对数据块增加的头部标记、尾部标记和数据块hash信息进行管理记录。