CN109101365A - 一种基于源端数据重删的数据备份和恢复方法 - Google Patents

一种基于源端数据重删的数据备份和恢复方法 Download PDF

Info

Publication number
CN109101365A
CN109101365A CN201810861118.1A CN201810861118A CN109101365A CN 109101365 A CN109101365 A CN 109101365A CN 201810861118 A CN201810861118 A CN 201810861118A CN 109101365 A CN109101365 A CN 109101365A
Authority
CN
China
Prior art keywords
data
container
fingerprint
data block
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810861118.1A
Other languages
English (en)
Inventor
周建华
陈润知
张有成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Basic Information Technology Ltd By Share Ltd
Original Assignee
Nanjing Basic Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Basic Information Technology Ltd By Share Ltd filed Critical Nanjing Basic Information Technology Ltd By Share Ltd
Priority to CN201810861118.1A priority Critical patent/CN109101365A/zh
Publication of CN109101365A publication Critical patent/CN109101365A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Abstract

本发明公开了一种基于源端数据重删的数据备份方法,包括以下步骤,步骤S1,在客户端,对数据流进行分段得到多个数据段;步骤S2,并行处理多个数据段,对每个数据段进行分块,并计算每个数据块的指纹;步骤S3,顺序将指纹发送服务端进行对比,并将对比结果返回至客户端;步骤S4,客户端根据对比结果将服务端没有的数据块发送至服务端进行保存备份,服务端将数据块存放状态返回给客户端。本发明备份方法通过客户端使用预处理并行计算及服务端的高效缓存模型,可有效提高整体备份效率。

Description

一种基于源端数据重删的数据备份和恢复方法
技术领域
本发明涉及重复数据删除技术领域,具体涉及一种基于源端数据重删的数据备份和恢复方法。
背景技术
备份设备中总是充斥着大量的冗余数据,为了解决这个问题,节省更多空间,重复数据删除技术便顺理成章地成了人们关注的焦点。重复数据删除技术旨在删除冗余的备份数据、确保同样的数据信息只被保存一次。采用重复数据删除技术可以将存储的数据量大幅降低,从而让出更多的备份空间,使得备份数据可以更长久的保留在磁盘上。
数据重删技术分为源端数据重删和目的端数据重删。源端数据重删技术还可以在备份时节约大量的带宽。现有技术中,基于源端数据重删技术的数据备份的具体过程为:对数据流使用分块算法进行分块,然后对分好的块计算hash(哈希)指纹,即对每个数据块生成检索指纹,用来标识其唯一性;把指纹发送服务端进行比对,在已存在的数据库指纹索引表中查找确认,确定数据块是否已经存在备份设备中,根据比对的结果把新数据发送到服务端保存起来,已有的数据就不再发送,达到节省带宽,并节省存储的目的。现有的技术在性能上比较低,由于重删客户端的分块、计算指纹都比较耗时,服务端存放数据时,指纹离散比较高,频繁操作数据库也比较耗时,整体流程下来耗时比较高。
对数据流进行分块的技术有定长分块法和变长分块法,现有技术中多使用变长分块算法,使用变长分块算法可以有效的提高重删率,重删率越高,节省的磁盘空间越大。缺点是变长分块计算相对定长分块相对耗时,并且正常变长分块对于数据流都是顺序分块,因为每个数据块的长度不固定,在不破坏每一块的情况下无法从多个位置用不同的线程去分块。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于源端数据重删的数据备份和恢复方法,解决了现有备份与恢复技术中数据重删效率低、计算指纹耗时长、频繁操作数据库耗时的问题。
为解决上述技术问题,本发明提供了一种基于源端数据重删的数据备份方法,其特征是,包括以下步骤:
步骤S1,在客户端,对数据流进行分段得到多个数据段;
步骤S2,并行处理多个数据段,对每个数据段进行分块,并计算每个数据块的指纹;
步骤S3,顺序将指纹发送服务端进行对比,并将对比结果返回至客户端;
步骤S4,客户端根据对比结果将服务端没有的数据块发送至服务端进行保存备份,服务端将数据块存放状态返回给客户端。
优选的,在客户端建立一个预处理环形队列,用来存储数据段,预处理环形队列中每个元素即是一个数据段,对队列中所存放的数据段进行并行处理,每个数据段有各自独立的线程。
优选的,采用rabin算法对数据段进行分块。
优选的,按顺序记录每个数据块的起始位置、长度和指纹信息作为该数据块的索引信息。
优选的,在服务端,建立布隆过滤器、一级缓存和二级缓存组成的缓存模型,其中,一级缓存用于存放当前指纹命中的容器,二级缓存用于存放当前命中的容器的下一个容器;
每个指纹对比的流程为:约定指纹存在则标记为1,不存在标记为0,首先去布隆过滤器里查找,若没有此指纹则标记为0,流程结束,若有此指纹则去一级缓存中取查找,一级缓存中若有则标记为1,流程结束,若没有则去二级缓存中去查找,二级缓存中若有则标记为1,流程结束,二级缓存中若还没有则去数据库中查找,数据库中若还没有标记为0流程结束,若有则标记为1,并把该指纹对应的容器同步更新到一级缓存中,下一个容器异步的更新到二级缓存中。
优选的,在服务端采用容器进行存储数据块以及数据块的索引信息。
优选的,服务端接收到数据块后,将每块数据存储至容器的具体处理步骤为:
1)服务端将传过来的新数据块放到容器中,数据块按照容器中放数据块的位置依次存放,数据块的指纹按照容器中放指纹的位置依次存放,并在数据库中记录该指纹对应的容器id;
2)容器写满后把容器放到文件中,并在数据库中记录该容器对应的文件id,然后创建新的容器,
3)文件放在磁盘上并在数据库中记录文件对应的磁盘位置。
相应的,本发明提供了一种基于源端数据重删的数据恢复方法,其特征是,包括以下步骤:
步骤S1,客户端从索引文件中读取一段待恢复文件的索引,把索引信息发送到服务端;
步骤S2,服务端根据索引信息找到数据块返回客户端;
步骤S3,循环执行以上两步直到获取文件所有对应的所有数据块,恢复出完整的文件。
优选的,在服务端建立一级读缓存和二级读缓存组成的缓存模型,根据索引信息找数据块的具体步骤为:
1)解析每个数据块的索引信息,根据索引信息中的指纹先到一级读缓存中查找,若找到则读取数据块,继续找下一数据块;
若找不到则去二级读缓存中查找,若二级读缓存中能找到,读取数据块,继续找下一数据块,
若找不到则去数据库中找,在数据库中根据指纹找到对应的容器,根据容器id找到对应的文件,从文件中读出对应的容器更新到一级读缓存中,并把对应容器的下个容器异步更新到二级读缓存中;
2)将读到的每个数据块按照索引顺序拼接起来返回给客户端。
与现有技术相比,本发明所达到的有益效果是:本发明备份方法,通过客户端使用预处理并行计算及服务端的高效缓存模型,可有效提高整体备份效率。
附图说明
图1为本发明备份方法的流程图;
图2为本发明恢复方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
由于重删数据删除技术需要做大量的计算,与普通的数据备份相比,计算需要消耗比较多的时间影响整个备份流程的效率,针对这点本文提出了数据预处理并发执行机制,有效缩短计算的时间。同时由于查重是根据数据块的hash值对比去查找的,hash值比较离散,缓存命中较低,针对这点本文使用了容器,把临近的数据放在同一个容器里,然后以容器为单位设计多级缓存,有效的提高了缓存明中率。这种缓存机制应用于备份和恢复两个流程,可有效提高备份和恢复的效率。
本发明的一种基于源端数据重删的数据备份方法,采用客户端服务端模型,即客户端将待备份的数据传输至服务端进行备份,通过客户端使用预处理并发计算及服务端的高效缓存模型,可有效提高整体备份效率,具体备份过程参见图1所示,包括以下步骤:
步骤S1,在客户端,对数据流进行分段得到多个数据段;
将待备份的文件以数据流的方式传输到客户端,客户端对数据流进行分段时,可以根据需求设定分段大小,例如以20M为标准对数据流分段,即每个数据段为20M,尾段可能不满20M。
步骤S2,并行处理多个数据段,对每个数据段进行分块,并计算每个数据块的指纹;
为了实现对多个数据段进行并行处理,在客户端建立一个预处理环形队列,此预处理环形队列用来存储数据段。将数据段存入预处理环形队列的具体存放过程为:若预处理环形队列中有空间可以放得下传进来的数据段,则将此数据段按顺序存放在预处理环形队列的相应位置,若预处理环形队列中没有足够的空间存放,则等待预处理环形队列中存放的数据段处理完释放了空间后,在把传入的数据段存入。
预处理环形队列中每个元素即是一个数据段,对队列中所存放的数据段进行并行处理,队列长度可以根据客户端的CPU并行计算能力进行配置,并行处理多个数据段可充分利用CPU的性能,提高指纹计算的整体性能。
即每个数据段有各自独立的线程,本发明实施例中采用rabin算法对数据段进行分块,然后计算每一数据块的指纹。
按顺序记录每个数据块的起始位置、长度和指纹信息作为该数据块的索引信息,以供数据恢复时查找。
步骤S3,顺序将指纹发送服务端进行对比,并将对比结果返回至客户端;
把对应各数据块的指纹顺序发送到服务端去比对,根据服务端返回的比对结果确定哪些数据块是新块需要发送至服务端进行备份。
在服务端,建立布隆过滤器、一级缓存和二级缓存组成的高效缓存模型,可快速查找相同的指纹,有效提高整体备份效率。
其中布隆过滤器可以快速的过滤不存在的指纹,这样就不必要等到查到数据库才知道指纹不存在。布隆过滤器说明如下:
重删库里面的所有指纹都会使用hash算法在布隆过滤器中有一个标记,如果一个指纹经过hash算法计算后在布隆过滤器中没有找到对应的标记,则说明该指纹是一个新的指纹,对应的数据块也是一个新的数据块,如果指纹经过hash算法计算后在布隆过滤器中能找到对应的标记,则说明该指纹可能已经存在了,需要经过后面的指纹比对过程继续确认。
一级缓存用于同步的更新命中的容器,布隆过滤器中能找到的指纹,需要走指纹比对的后续流程继续确认是否真的存在,如果在一级缓存和二级缓存中都没有找到对应的指纹记录,并且在数据库的指纹表中找到该指纹,那么通过数据库中的记录找到该指纹存放的容器,把容器中的所有指纹更新到一级缓存中。
二级缓存的作用是扩大数据的局部性原理,在一级缓存更新找到的容器的同时,找到该容器id临近的下一个容器,找到把容器id对应的容器,并把该容器内指纹更新到二级缓存中。
每个指纹对比的流程为:约定指纹存在则标记为1(对于标记为1的说明数据块已经在服务端有了,客户端不需要再发送),不存在标记为0。首先去布隆过滤器里查找,若没有此指纹则标记为0,流程结束,若有此指纹(根据布隆过滤器特性上面已经说明,布隆过滤器中能查到的指纹不一定存在需要走后面的流程继续确认)则去一级缓存中取查找,一级缓存中若有则标记为1,流程结束,若没有则去二级缓存中去查找,二级缓存中若有则标记为1,流程结束,二级缓存中若还没有则去数据库中查找,数据库中若还没有标记为0流程结束,若有则标记为1,并把该指纹对应的容器同步更新到一级缓存中,下一个容器异步的更新到二级缓存中。
步骤S4,客户端根据对比结果将服务端没有的数据块及索引信息发送至服务端进行保存备份,服务端将数据块存放对应的状态值(是否有错)返回给客户端。
针对服务端的存放数据耗时,使用单独的线程处理待存放的数据,节省客户端的等待时间,并且对存放数据操作进行一系列优化,使用容器存放数据块,保留数据局部性原理特性,通过使用批量操作达到降低数据库的操作次数的效果。
在服务端采用容器进行存储数据块,容器是固定大小为4M一段数据。容器是一段数据组合的概念。它的数据的组织结构是前24K存放指纹及数据块的起始位置和长度信息,从4M-24K的位置开始存放数据块。一个容器一般可以放800左右的数据块,由于数据块的长度不固定因此这个数量也不固定。
服务端接收到数据块及索引信息,将每块数据存储至容器的具体处理步骤为:
1)服务端将传过来的新数据块放到容器中,数据块按照容器中放数据块的位置依次存放,数据块的指纹按照容器中放指纹的位置依次存放,并在数据库中记录该指纹对应的容器id;
2)容器写满后把容器放到文件中,并在数据库中记录该容器对应的文件id。然后创建新的容器,过程为:清空当前容器中的数据(当前容器中的数据已经保存在文件中了),容器id加1,并容器的信息记录到数据库中。
3)文件放在磁盘上并在数据库中记录文件对应的磁盘位置。这样就可以根据数据库中的指纹记录一层层的找到对应的数据块。
本发明实施例中,每个文件最大为1G,一个数据文件放满了,才会生成一个新的文件存放容器,一个文件可以放256个容器。
文件放满容器后会创建新的文件,并把文件的信息记录到数据库中。
本发明的数据备份方法中,客户端的并行线程顺序的把数据块发送到服务端,服务端顺序的把这些数据块放到缓存队列中,然后顺序的放到容器中,这样的就能保证临近的数据存放的位置也是临近的,以容器为单位的缓存能大大提高缓存的命中率,降低访问数据库的次数,这样在指纹比对和恢复数据的时候都能有比较高的效率。
相应的,本发明的一种基于源端数据重删的数据恢复方法,参见图2,包括以下步骤:
步骤S1,客户端从索引文件中读取一段待恢复文件的索引,把索引信息发送到服务端;
根据索引信息整理好需要从服务端获取数据块的指纹,在客户端建立一个16M(这个大小可以根据业务情况确定)的缓存,用于缓存数据(防止每次读取较小的数据,客户端要频繁的向服务端要数据)。
步骤S2,服务端根据索引信息找到数据块返回客户端;
根据索引信息找数据块的具体步骤为:
1)解析每个数据块的索引信息,根据索引信息中的指纹先到一级读缓存中查找,若找到则读取数据块,继续找下一数据块;
若找不到则去二级读缓存中查找,若二级读缓存中能找到,读取数据块,继续找下一数据块,
若找不到则去数据库中找,在数据库中根据指纹找到对应的容器,根据容器id找到对应的文件,从文件中读出对应的容器更新到一级读缓存中,并把对应容器的下个容器异步更新到二级读缓存中;
2)将读到的每个数据块按照索引顺序拼接起来返回给客户端。
恢复过程中用到一级读缓存和二级读缓存和备份过程中用到一级缓存和二级缓存逻辑上类似。不同的地方在于在备份过程中用到的一级缓存和二级缓存只需要缓存指纹即可,而恢复过程中用到一级缓存和二级缓存除了缓存指纹还要缓存指纹对应的数据块。恢复中用的缓存和备份中用的缓存是各自独立的。
步骤S3,循环执行以上两步直到获取文件所有对应的所有数据块,恢复出完整的文件。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (9)

1.一种基于源端数据重删的数据备份方法,其特征是,包括以下步骤:
步骤S1,在客户端,对数据流进行分段得到多个数据段;
步骤S2,并行处理多个数据段,对每个数据段进行分块,并计算每个数据块的指纹;
步骤S3,顺序将指纹发送服务端进行对比,并将对比结果返回至客户端;
步骤S4,客户端根据对比结果将服务端没有的数据块发送至服务端进行保存备份,服务端将数据块存放状态返回给客户端。
2.根据权利要求1所述的一种基于源端数据重删的数据备份方法,其特征是,在客户端建立一个预处理环形队列,用来存储数据段,预处理环形队列中每个元素即是一个数据段,对队列中所存放的数据段进行并行处理,每个数据段有各自独立的线程。
3.根据权利要求1所述的一种基于源端数据重删的数据备份方法,其特征是,采用rabin算法对数据段进行分块。
4.根据权利要求1所述的一种基于源端数据重删的数据备份方法,其特征是,按顺序记录每个数据块的起始位置、长度和指纹信息作为该数据块的索引信息。
5.根据权利要求1所述的一种基于源端数据重删的数据备份方法,其特征是,在服务端,建立布隆过滤器、一级缓存和二级缓存组成的缓存模型,其中,一级缓存用于存放当前指纹命中的容器,二级缓存用于存放当前命中的容器的下一个容器;
每个指纹对比的流程为:约定指纹存在则标记为1,不存在标记为0,首先去布隆过滤器里查找,若没有此指纹则标记为0,流程结束,若有此指纹则去一级缓存中取查找,一级缓存中若有则标记为1,流程结束,若没有则去二级缓存中去查找,二级缓存中若有则标记为1,流程结束,二级缓存中若还没有则去数据库中查找,数据库中若还没有标记为0流程结束,若有则标记为1,并把该指纹对应的容器同步更新到一级缓存中,下一个容器异步的更新到二级缓存中。
6.根据权利要求1所述的一种基于源端数据重删的数据备份方法,其特征是,在服务端采用容器进行存储数据块以及数据块的索引信息。
7.根据权利要求1所述的一种基于源端数据重删的数据备份方法,其特征是,服务端接收到数据块后,记录每一数据块的索引信息,将每块数据存储至容器的具体处理步骤为:
1)服务端将传过来的新数据块放到容器中,数据块按照容器中放数据块的位置依次存放,数据块的指纹按照容器中放指纹的位置依次存放,并在数据库中记录该指纹对应的容器id;
2)容器写满后把容器放到文件中,并在数据库中记录该容器对应的文件id,然后创建新的容器,
3)文件放在磁盘上并在数据库中记录文件对应的磁盘位置。
8.一种基于源端数据重删的数据恢复方法,其特征是,包括以下步骤:
步骤S1,客户端从索引文件中读取一段待恢复文件的索引,把索引信息发送到服务端;
步骤S2,服务端根据索引信息找到数据块返回客户端;
步骤S3,循环执行以上两步直到获取文件所有对应的所有数据块,恢复出完整的文件。
9.根据权利要求8所述的一种基于源端数据重删的数据恢复方法,其特征是,在服务端建立一级读缓存和二级读缓存组成的缓存模型,根据索引信息找数据块的具体步骤为:
1)解析每个数据块的索引信息,根据索引信息中的指纹先到一级读缓存中查找,若找到则读取数据块,继续找下一数据块;
若找不到则去二级读缓存中查找,若二级读缓存中能找到,读取数据块,继续找下一数据块,
若找不到则去数据库中找,在数据库中根据指纹找到对应的容器,根据容器id找到对应的文件,从文件中读出对应的容器更新到一级读缓存中,并把对应容器的下个容器异步更新到二级读缓存中;
2)将读到的每个数据块按照索引顺序拼接起来返回给客户端。
CN201810861118.1A 2018-08-01 2018-08-01 一种基于源端数据重删的数据备份和恢复方法 Pending CN109101365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810861118.1A CN109101365A (zh) 2018-08-01 2018-08-01 一种基于源端数据重删的数据备份和恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810861118.1A CN109101365A (zh) 2018-08-01 2018-08-01 一种基于源端数据重删的数据备份和恢复方法

Publications (1)

Publication Number Publication Date
CN109101365A true CN109101365A (zh) 2018-12-28

Family

ID=64847992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810861118.1A Pending CN109101365A (zh) 2018-08-01 2018-08-01 一种基于源端数据重删的数据备份和恢复方法

Country Status (1)

Country Link
CN (1) CN109101365A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245129A (zh) * 2019-04-23 2019-09-17 平安科技(深圳)有限公司 一种分布式全局数据去重方法和装置
CN110674116A (zh) * 2019-09-25 2020-01-10 四川长虹电器股份有限公司 一种基于swoole的校验插入数据库数据重复的系统及方法
CN111240893A (zh) * 2019-12-26 2020-06-05 曙光信息产业(北京)有限公司 一种基于数据流分片技术的备份和还原管理方法及系统
CN111459928A (zh) * 2020-03-27 2020-07-28 上海爱数信息技术股份有限公司 应用于集群范围内数据备份场景的数据去重方法及应用
CN112685454A (zh) * 2021-03-10 2021-04-20 江苏金恒信息科技股份有限公司 工业数据分级存储系统、方法及工业数据分级查询方法
CN112698990A (zh) * 2021-01-04 2021-04-23 浪潮云信息技术股份公司 一种备份数据时在线删除重复数据的方法
CN113448768A (zh) * 2020-03-25 2021-09-28 华为技术有限公司 Db文件的备份方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312752A1 (en) * 2009-06-08 2010-12-09 Symantec Corporation Source Classification For Performing Deduplication In A Backup Operation
US20120209814A1 (en) * 2011-02-11 2012-08-16 Xianbo Zhang Processes and methods for client-side fingerprint caching to improve deduplication system backup performance
CN104361068A (zh) * 2014-11-06 2015-02-18 华中科技大学 一种数据去重过程中的并行分块方法与系统
CN104978151A (zh) * 2015-06-19 2015-10-14 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN108089816A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种基于负载均衡的查询式重复数据删除方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312752A1 (en) * 2009-06-08 2010-12-09 Symantec Corporation Source Classification For Performing Deduplication In A Backup Operation
US20120209814A1 (en) * 2011-02-11 2012-08-16 Xianbo Zhang Processes and methods for client-side fingerprint caching to improve deduplication system backup performance
CN104361068A (zh) * 2014-11-06 2015-02-18 华中科技大学 一种数据去重过程中的并行分块方法与系统
CN104978151A (zh) * 2015-06-19 2015-10-14 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN108089816A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种基于负载均衡的查询式重复数据删除方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YOUJIP WON 等: ""MUCH: Multithreaded Content-Based File Chunking"", 《IEEE TRANSACTIONS ON COMPUTERS》 *
曾涛: ""重复数据删除技术的研究与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
涂群: ""云存储系统中重复数据删除机制的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245129A (zh) * 2019-04-23 2019-09-17 平安科技(深圳)有限公司 一种分布式全局数据去重方法和装置
CN110245129B (zh) * 2019-04-23 2022-05-13 平安科技(深圳)有限公司 一种分布式全局数据去重方法和装置
CN110674116A (zh) * 2019-09-25 2020-01-10 四川长虹电器股份有限公司 一种基于swoole的校验插入数据库数据重复的系统及方法
CN110674116B (zh) * 2019-09-25 2022-05-03 四川长虹电器股份有限公司 一种基于swoole的校验插入数据库数据重复的系统及方法
CN111240893A (zh) * 2019-12-26 2020-06-05 曙光信息产业(北京)有限公司 一种基于数据流分片技术的备份和还原管理方法及系统
CN111240893B (zh) * 2019-12-26 2023-07-18 曙光信息产业(北京)有限公司 一种基于数据流分片技术的备份和还原管理方法及系统
CN113448768A (zh) * 2020-03-25 2021-09-28 华为技术有限公司 Db文件的备份方法、装置和电子设备
WO2021190313A1 (zh) * 2020-03-25 2021-09-30 华为技术有限公司 Db文件的备份方法、装置和电子设备
CN111459928A (zh) * 2020-03-27 2020-07-28 上海爱数信息技术股份有限公司 应用于集群范围内数据备份场景的数据去重方法及应用
CN111459928B (zh) * 2020-03-27 2023-07-07 上海爱数信息技术股份有限公司 应用于集群范围内数据备份场景的数据去重方法及应用
CN112698990A (zh) * 2021-01-04 2021-04-23 浪潮云信息技术股份公司 一种备份数据时在线删除重复数据的方法
CN112685454A (zh) * 2021-03-10 2021-04-20 江苏金恒信息科技股份有限公司 工业数据分级存储系统、方法及工业数据分级查询方法

Similar Documents

Publication Publication Date Title
CN109101365A (zh) 一种基于源端数据重删的数据备份和恢复方法
EP3812915B1 (en) Big data statistics at data-block level
CN104301360B (zh) 一种日志数据记录的方法、日志服务器及系统
US9454318B2 (en) Efficient data storage system
CN109358987B (zh) 一种基于两级数据去重的备份集群
CN103473250B (zh) 用于保存文件系统节点的过去状态的方法与系统
US9405764B1 (en) Method for cleaning a delta storage system
US8712978B1 (en) Preferential selection of candidates for delta compression
CN102521269B (zh) 一种基于索引的计算机连续数据保护方法
US8972672B1 (en) Method for cleaning a delta storage system
CN101673192B (zh) 时序化的数据处理方法、装置及系统
US8560500B2 (en) Method and system for removing rows from directory tables
US9400610B1 (en) Method for cleaning a delta storage system
US7406489B2 (en) Apparatus, system and method for persistently storing data in a data synchronization process
US9569515B2 (en) Facilitating distributed deletes in a replicated storage system
US9026740B1 (en) Prefetch data needed in the near future for delta compression
CN109445702A (zh) 一种块级数据去重存储系统
CN105468298A (zh) 一种基于日志结构合并树的键值存储方法
CN105068887B (zh) 一种基于被损坏SQLServer数据库的数据恢复方法
CN106503051A (zh) 一种基于元数据分类的贪婪预取型数据恢复系统及恢复方法
KR102038529B1 (ko) 인-메모리 데이터베이스의 실시간 데이터 변경 처리 시스템
US11550485B2 (en) Paging and disk storage for document store
CN108399047A (zh) 一种闪存文件系统及其数据管理方法
US20160092124A1 (en) Append-only storage system supporting open and closed extents
CN107241444A (zh) 一种分布式缓存数据管理系统、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210014 Building B, Building C, Building 3, No. 5 Yongzhi Road, Baixia High-tech Industrial Park, Nanjing, Jiangsu Province

Applicant after: Nanjing Yicheng Information Technology Co., Ltd.

Address before: 210014 Building B, Building C, Building 3, No. 5 Yongzhi Road, Baixia High-tech Industrial Park, Nanjing, Jiangsu Province

Applicant before: Nanjing basic information technology Limited by Share Ltd

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228

RJ01 Rejection of invention patent application after publication