CN111722962A - 一种针对cdp数据的存储系统及其方法 - Google Patents

一种针对cdp数据的存储系统及其方法 Download PDF

Info

Publication number
CN111722962A
CN111722962A CN202010566856.0A CN202010566856A CN111722962A CN 111722962 A CN111722962 A CN 111722962A CN 202010566856 A CN202010566856 A CN 202010566856A CN 111722962 A CN111722962 A CN 111722962A
Authority
CN
China
Prior art keywords
metadata
data
storage
time
linked list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010566856.0A
Other languages
English (en)
Inventor
李锋林
宋晓伟
刘雄
王少博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Esso Information Co ltd
Original Assignee
Esso Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Esso Information Co ltd filed Critical Esso Information Co ltd
Priority to CN202010566856.0A priority Critical patent/CN111722962A/zh
Publication of CN111722962A publication Critical patent/CN111722962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process

Abstract

本发明公开了一种针对CDP数据的存储系统及其方法,本方法首先接收硬盘的增量数据,然后以固定大小块为存储单位,将增量数据分割成固定大小长度,不足固定大小的则补齐,然后从存储空间的位图表中找到空闲的块,将数据存储至空闲块中,然后将该块对应的元数据信息放入队列,线程从队列中取出元数据,按照时间顺序将元数据存储在元数据链表中,然后新增元数据在链表中的位置信息,再次将该元数据放入队列,然后线程从该队列中取出元数据,将其保存入时间段缓存文件,时间段缓存文件会间隔一段时间创建,如果已经存在则比较元数据时间,如果新的元数据时间较小则更新,否则不更新,提高CDP数据的恢复速度。本发明解决了CDP数据的存储问题。

Description

一种针对CDP数据的存储系统及其方法
技术领域
本发明属于数据存储领域,涉及一种针对CDP数据的存储系统及其方法。
背景技术
数据损毁或丢失对数据中心业务运行影响重大,因此数据保护至关重要,数据保护的特点就是将被保护机的数据备份至异地,当本地数据损坏后可利用备份的数据将本地数据恢复到之前某一时刻状态,因此需要持续将被保护机的实时增量数据保存至异地存储端。传统的数据备份技术一般采用定时备份或者手动备份方式,采用 这种方法,一旦出现了数据灾难,用户可以恢复到定时备份点和手动备份点的数 据,上次备份后新增加和修改的数据将会丢失,对于数据量不断变化增长的用户来说,每一份数据的丢失都会造成利益的损失。传统的备份恢复方案,只有恢复完成之后,用户才能检查数据是 否是需要的,然而,恢复是一个比较耗时的过程。同时,在恢复的同时,不可查看数据,本发明将旨在解决数据恢复过程中的时间消耗和重复备份数据的问题。
发明内容
为了解决持续数据保护的实时数据存储问题,本发明提供了一种针对持续数据保护的数据存储方法。
一种针对CDP数据的存储方法,包括如下步骤:
接收硬盘的增量数据;
以固定大小块为存储单位,将增量数据分割成固定大小长度,不足固定大小的则补齐;
从存储空间的位图表中找到空闲存储块,将数据存储至空闲存储块中;
将该块对应的元数据放入队列;
计算机线程从所述队列中取出元数据,按时间将元数据存储在元数据链表中;
添加元数据在元数据链表中的位置信息,将所述元数据放入所述队列;
计算机线程从所述队列中取出元数据,将所述元数据存入时间段缓存文件。
通过以上技术方案,本发明的技术效果在于:
本发明的目的是提供一种针对CDP数据的存储方法,实现了数据在磁盘上以固定块大小的方式进行存储,提高了磁盘的使用率。针对数据存储操作进行优化,提高了数据操作的效率,优化的方式包括:创建数据元数据、元数据以链表的方式进行存储,使得数据的查询,插入和删除,效率提高。由于按照固定的时间段保存元数据信息,使得查询效率提高,数据的插入是按时间顺序的尾部插入,数据的删除,则是按照时间顺序的首部删除、数据的查询。
对于数据恢复时,时间段缓存文件和元数据链表的存在,使得查询快捷,能够准确快速地找到所需恢复的数据对应的元数据信息,从而找到对应的原始数据,节省了查询时间,也使得恢复时,不用完全恢复,只需要恢复所需要的数据。
附图说明
图1是数据存储原理示意图;
图2是文件结构示意图;
图3是数据流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明是一种针对CDP数据的存储系统及其方法,对于数据恢复时,有缓存文件的存在,使得恢复数据时,能够花费较少的时间来对所确实的数据进行获取。
具体的过程为:
将数据分割成固定大小,存储至空闲存储块;
将所述空闲存储块对应的元数据放入队列;
计算机线程从所述队列中取出元数据,按时间将元数据存储在元数据链表中;
添加元数据在元数据链表中的位置信息,将所述元数据放入所述的队列;
计算机线程从所述队列中取出元数据,将所述元数据保存至时间段缓存文件中。
如图1所示,为数据存储原理示意图,图1分为两部分:一部分为数据分块以及元数据的形成,另一部分为元数据时间段缓存图。
所述数据块及元数据存储图中包括:数据源数据、数据块及元数据存储;所述远元数据时间段缓存图中包括:元数据时间段缓存文件缓存流程。
图1中的:数据块头信息,某一数据块元数据的头信息;
头信息包括:空闲存储块的名称、空闲存储块的起始位置、空闲存储块的结束位置。
图1中的:元数据,数据的存储信息数据块;
元数据包括:时间戳信息、存储数据的空闲存储块信息、数据的大小长度信息、元数据在数据链表中的位置信息。
时间戳是指:一个能表示一份数据在某个特定时间之前已经存在的、 完整的、 可验证的数据,通常是一个字符序列,唯一地标识某一刻的时间。使用数字签名技术产生的数据, 签名的对象包括了原始文件信息、 签名参数、 签名时间等信息。
所述时间戳信息,是指创建此元数据时的时间信息,由此标识数据入链的时间信息;所述存储数据的空闲存储块信息、数据的大小长度信息、元数据在数据链表中的位置信息,上述三个信息属性,标识了唯一一个块数据,元数据链中,有时间戳信息,存储数据的空闲存储块信息、数据的大小长度信息、元数据在数据链表中的位置信息,这四个信息,建立唯一的块信息对应映射,在进行数据恢复时,先查找时间戳信息,在查找存储数据的空闲存储块信息、数据的大小长度信息、元数据在数据链表中的位置信息三个信息,便可唯一确定数据的存储位置。
时间段缓存文件,保存固定时间内所有创建的元数据。所述时间段缓存文件,优选的时间间隔为一个小时,即每隔一小时,创建新的缓存文件,并将时间缓存文件保存,便于在进行数据恢复时,按照时间的缺失,对时间段缓存文件进行查找,减少了在恢复文件时,查找文件的时间,同时恢复文件的时间也大大的缩短。
本发明给出了一种针对CDP数据的存储方法实现方案,将远端数据按照本发明描述的存储原理进行备份存储,提高了磁盘的使用率、存储管理的效率,比如数据插入、删除、查找等操作。
结合上述描述,下面给出了一个简要操作说明:
(1)初始化磁盘空间,将磁盘按照固定的块大小进行划分。
(2)接收数据源数据,并按照本地块大小对数据进行分块,所述本地块大小,具体是指存储块的大小,不足固定大小的数据则进行补齐。
(3)将数据块对应的元数据存储在元数据链表中,并在存储时加入时间戳信息,并且按照时间顺序存储。
(4)计算机线程从所述的链表中拿出数据,并且添加元数据对应在元数据链表中的位置信息,计算机线程又将有位置信息的元数据放入队列中。
(5)计算机线程从所述队列中取出元数据。
(6)拿到元数据的时间戳信息,查找此时刻下的时间缓存文件中是否存在,存在,则将缓存文件中时间戳最大的数据和此时所述的元数据的时间戳信息进行比较,再比较数据的大小长度信息,存在则不更新,不存在则不跟新;时间缓存文件不存在时,则先创建时间缓存文件,然后将所述元数据放入创建好的时间缓存文件中。
图2为文件结构示意图,详细说明了CDP数据存储时的文件结构。如图2所示,包含:
原始的数据信息:即为图中的info.dta;
CDP块数据的存储文件:即为按照固定存储块大小分割好的原始数据存入存储空间位图表中空闲的存储块,此时存储块中存储的数据为数据的索引信息,并非原始的数据;
CDP块数据元信息的储存文件:即为元数据在链表中的存储文件,在CDP块数据存储文件的信息上添加元数据在元数据在链表中的位置信息。
时间段缓存文件,优选的时间间隔为一个小时,每个一个小时创建时间缓存文件,将所述的元数链表中的数据,存储在时间缓存文件中,将所述的时间缓存文件进行硬盘保存。
图2中的文件顺序更清楚的表述来了数据的存储过程,从上图中可以信息的了解到,原始的数据并不存在与所述的时间缓存文件中,所述的时间缓存文件中主要保存的是原始数据按块划分后的,保存时间,空闲存储块信息、数据的大小长度信息、元数据在数据链表中的位置信息,这四个信息,唯一确定一个数据块。在进行数据恢复时的查找时,只需要去查询某时间段内的时间缓存文件信息,找到所需要恢复的数据的起始点,由于元数据是按照时间大小的顺序来保存的,找到所需要恢复的起始节点时,即可以找到原始数据的开始节点,则不用全部遍历数据,这样的缓存方法,节省了恢复数据的时间,也师恢复数据时降低使用吉斯远的内存。图2中的数据根目录节结构实在进行数据备份时的存储结构,当远端需要进行数据恢复时,查找的顺序是此时的目录的反顺序,即从时间缓存文件到CDP块数据元信息的储存文件再到CDP块数据的存储文件,最后到原始数据,找到原始数据后进行恢复。
图3为数据流程图,描述的是在整个存储过程中各个节点数据的变化,以下是对各个环节中的名词解释,以及在方法实现过程中,元数据属性的变化;
数据:传入硬盘的数据;
元数据:包括时间戳信息、存储块的信息、数据的大小长度信息;
存入元数据链表后,计算机线程在从元数据链表中拿出,添加在元数据在元数据链表中的位置信息;
计算机线程将增加了位置信息的元数据再次存入队列中;
此时的元数据包括:时间戳信息、空闲存储块信息、数据的大小长度信息、元数据链表的位置。
计算机线程从所述的队列中拿出元数据,并将元数据存储至时间段缓存文件中。
时间段缓存文件,最后存储在硬盘上。
图3清晰的表示每个环节元数据的属性的增加与变化,以及每一步中所述的队列或链表中保存的不同的元数据中都有哪些属性值。
综上所述,本发明对数据异地存储提供了一种易于操作、效率高的存储方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种针对CDP数据的存储系统,其特征在于,包括:
空闲存储单元,包含多个空闲存储块;
元数据链表单元,包含元数据链表;
时间段缓存文件单元,包含多个时间段缓存文件,是对元数据链表单元中的元数据进行硬盘存储的单元。
2.根据权利要求1所述的一种针对CDP数据的存储系统,其特征在于,所述的空闲存储块是存储空间的位图表中找到的存储块。
3.根据权利要求1所述的一种针对CDP数据的存储系统,其特征在于,所述的元数据链表是存储元数据的链表。
4.根据权利要求1所述的一种针对CDP数据的存储系统,其特征在于,所述的时间段缓存文件,是间隔固定时间创建,时间段缓存文件存在则存储,不存在则创建。
5.一种针对CDP数据的存储方法,其特征在于,包括以下步骤:
步骤一:数据按照固定大小划分;
步骤二:将已经划分好大小的数据放入空闲存储块中;
步骤三:将所述空闲存储块对应的元数据放入队列中;
步骤四:计算机中线程从队列中取出元数据,按时间存储在元链表中;
步骤五:添加元数据在数据链表中的位置,计算机线程再次将元数据放入队列中;
步骤六:计算机线程从队列中取出元数据,将其保存在时间段缓存文件中。
6.根据权利要求5所述的一种针对CDP数据的存储方法,其特征在于,具体的步骤二中:所述空闲存储块是从存储空间的位图表中找到的存储块。
7.根据权利要求5所述的一种针对CDP 数据的存储方法,其特征在于,具体的步骤三中:所述的元数据包括:时间戳信息、存储数据的存储块信息、数据的大小长度信息。
8.根据权利要求5所述的一种针对CDP数据的存储方法,其特征在于,具体的步骤五中:所述的元数据包括:时间戳信息、存储数据的空闲存储块信息、数据的大小长度信息、元数据在数据链表中的位置信息。
9.根据权利要求5所述的一种针对CDP数据的存储方法,其特征在于,具体的步骤六中:时间段缓存文件是间隔一段时间创建的。
10.根据权利要求9所述的一种针对CDP数据的存储方法,其特征在于,具体的时间缓存文件的间隔,设置为一小时。
CN202010566856.0A 2020-06-19 2020-06-19 一种针对cdp数据的存储系统及其方法 Pending CN111722962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010566856.0A CN111722962A (zh) 2020-06-19 2020-06-19 一种针对cdp数据的存储系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010566856.0A CN111722962A (zh) 2020-06-19 2020-06-19 一种针对cdp数据的存储系统及其方法

Publications (1)

Publication Number Publication Date
CN111722962A true CN111722962A (zh) 2020-09-29

Family

ID=72567804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010566856.0A Pending CN111722962A (zh) 2020-06-19 2020-06-19 一种针对cdp数据的存储系统及其方法

Country Status (1)

Country Link
CN (1) CN111722962A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568788A (zh) * 2021-09-26 2021-10-29 成都云祺科技有限公司 Linux非逻辑卷块设备的快照方法、系统及存储介质
CN113722154A (zh) * 2021-09-03 2021-11-30 咪咕音乐有限公司 数据管理方法和系统、监测服务器及存储介质
CN115827334A (zh) * 2023-01-09 2023-03-21 四川大学 Oracle数据库块级cdp备份恢复方法及其系统
CN117319422A (zh) * 2023-11-28 2023-12-29 天津市城市规划设计研究总院有限公司 一种城市规划领域物联网数据的区块链成块方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777016A (zh) * 2010-02-08 2010-07-14 北京同有飞骥科技有限公司 一种连续数据保护系统的快照存储和数据恢复方法
CN102521269A (zh) * 2011-11-22 2012-06-27 清华大学 一种基于索引的计算机连续数据保护方法
CN108628753A (zh) * 2017-03-24 2018-10-09 华为技术有限公司 内存空间管理方法和装置
US20180300207A1 (en) * 2017-04-17 2018-10-18 EMC IP Holding Company LLC Method and device for file backup and recovery

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777016A (zh) * 2010-02-08 2010-07-14 北京同有飞骥科技有限公司 一种连续数据保护系统的快照存储和数据恢复方法
CN102521269A (zh) * 2011-11-22 2012-06-27 清华大学 一种基于索引的计算机连续数据保护方法
CN108628753A (zh) * 2017-03-24 2018-10-09 华为技术有限公司 内存空间管理方法和装置
US20180300207A1 (en) * 2017-04-17 2018-10-18 EMC IP Holding Company LLC Method and device for file backup and recovery

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722154A (zh) * 2021-09-03 2021-11-30 咪咕音乐有限公司 数据管理方法和系统、监测服务器及存储介质
CN113722154B (zh) * 2021-09-03 2024-04-19 咪咕音乐有限公司 数据管理方法和系统、监测服务器及存储介质
CN113568788A (zh) * 2021-09-26 2021-10-29 成都云祺科技有限公司 Linux非逻辑卷块设备的快照方法、系统及存储介质
CN115827334A (zh) * 2023-01-09 2023-03-21 四川大学 Oracle数据库块级cdp备份恢复方法及其系统
CN117319422A (zh) * 2023-11-28 2023-12-29 天津市城市规划设计研究总院有限公司 一种城市规划领域物联网数据的区块链成块方法及系统
CN117319422B (zh) * 2023-11-28 2024-02-02 天津市城市规划设计研究总院有限公司 一种城市规划领域物联网数据的区块链成块方法及系统

Similar Documents

Publication Publication Date Title
CN111722962A (zh) 一种针对cdp数据的存储系统及其方法
US8868512B2 (en) Logging scheme for column-oriented in-memory databases
CN108255647B (zh) 一种samba服务器集群下的高速数据备份方法
CN102521269B (zh) 一种基于索引的计算机连续数据保护方法
US9262280B1 (en) Age-out selection in hash caches
US11232073B2 (en) Method and apparatus for file compaction in key-value store system
US11182256B2 (en) Backup item metadata including range information
US7451166B2 (en) System and method for maintaining checkpoints of a keyed data structure using a sequential log
US20190213089A1 (en) Restoration of specified content from an archive
US10452608B2 (en) Log-structured file system
CN102246163A (zh) 数据库中的索引压缩
CN110727548B (zh) 一种基于数据库dml同步的持续数据保护方法及装置
CN109445702B (zh) 一种块级数据去重存储系统
KR102031588B1 (ko) 파일 저장 시의 색인 구현 방법 및 시스템
CN107678892B (zh) 基于跳跃恢复链的连续数据保护方法
US9152683B2 (en) Database-transparent near online archiving and retrieval of data
CN102831222A (zh) 一种基于重复数据删除的差量压缩方法
CN107665219B (zh) 一种日志管理方法及装置
US11544150B2 (en) Method of detecting source change for file level incremental backup
CN110647514B (zh) 一种元数据更新方法、装置及元数据服务器
CN104537112B (zh) 一种安全云计算的方法
CN105447168B (zh) Mp4格式的碎片文件恢复与重组的方法
CN112612576B (zh) 虚拟机备份方法、装置、电子设备及存储介质
CN103514177A (zh) 数据存储方法及系统
US11860840B2 (en) Update of deduplication fingerprint index in a cache memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination