CN102801757A - 点对点传输的重复数据删除处理方法及其系统 - Google Patents

点对点传输的重复数据删除处理方法及其系统 Download PDF

Info

Publication number
CN102801757A
CN102801757A CN2011101457133A CN201110145713A CN102801757A CN 102801757 A CN102801757 A CN 102801757A CN 2011101457133 A CN2011101457133 A CN 2011101457133A CN 201110145713 A CN201110145713 A CN 201110145713A CN 102801757 A CN102801757 A CN 102801757A
Authority
CN
China
Prior art keywords
client
data
cutting data
cutting
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101457133A
Other languages
English (en)
Inventor
刘威
陈志丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2011101457133A priority Critical patent/CN102801757A/zh
Priority to US13/242,512 priority patent/US20120303588A1/en
Publication of CN102801757A publication Critical patent/CN102801757A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种点对点传输的重复数据删除处理方法及其系统,其包括:发起客户端向信息管理服务器与数据存储服务器发出文件回复要求,用以取得输入文件的多笔切分数据块;若信息管理服务器存在文件回复要求中的切分数据块,信息管理服务器根据文件回复要求查找数据存储服务器,将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端,若目标客户端存在文件回复要求中的切分数据块,目标客户端将切分数据块传送给发起客户端;发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。

Description

点对点传输的重复数据删除处理方法及其系统
技术领域
本发明涉及一种重复数据删除方法及其系统,特别涉及一种点对点传输的重复数据删除处理方法及其系统。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块可以用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。此一技术对于企业内部(或局域网络中)的客户端的文件备份是有所帮助的。
现有技术的客户端欲进行输入文件的复原,客户端需要向数据存储服务器发出文件回复要求,并从数据存储服务器取得相应的切分数据块。一般而言,在局域网络中会设置单一的数据存储服务器,请参考图1A所示,其是为现有技术的架构示意图。由于单一数据存储服务器110得同时应付多台客户端120所发出的存取要求。因此数据存取服务器的频宽就成为输入文件回复的一个重要关键。若是数据存取服务器的频宽越大,各客户端120可以更加快速的取得所要的切分数据块,并进行文件的回复处理。当局域网络中的客户端120的数量众多时,对于数据存取服务器的频宽也会严重的被耗尽。如此一来,各客户端120将无法顺利取得所需的切分数据块。
因此,为改善单一数据存取服务器所产生的问题,因此有人提出分布式数据存储服务器110的概念,请参考图1B所示,其为现有技术的分布式数据存储服务器架构示意图。在此一架构中具有信息管理服务器与多台数据存储服务器110。信息管理服务器130用以接收客户端120所发出的要求,信息管理服务器130根据数据存储服务器110的运作状态,再从中选择一适当的数据存储服务器110。由选出的数据存储服务器110将切分数据块传输给客户端120。这样的存取方式,虽然可以解决数据存储服务器110的频宽不足的问题。但就整体而言,信息管理服务器130是所有系统的瓶颈。原因在于信息管理服务器130需要管理来自客户端120的切分数据块对于数据存储服务器110的储存调派,还另外需要将切分数据块从数据存储服务器110传送客户端120。因此,分布式数据存储服务器仍有其存取的限制。
发明内容
鉴于以上的问题,本发明的目的在于提供一种点对点传输的重复数据删除处理方法,应用在发起客户端对已经过重复数据删除程序的输入文件进行回复的处理。
本发明所揭露的点对点传输的重复数据删除处理方法,包括以下步骤:将发出文件回复要求的客户端定义为发起客户端,其余的客户端定义为目标客户端;发起客户端或目标客户端在完成重复数据删除程序后向信息管理服务器登记所属的切分数据块;发起客户端向信息管理服务器与数据存储服务器发出文件回复要求,用以取得输入文件的多笔切分数据块;若信息管理服务器存在文件回复要求中的切分数据块,则信息管理服务器根据文件回复要求查找数据存储服务器,并将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端,若目标客户端存在文件回复要求中的切分数据块,则目标客户端将切分数据块传送给发起客户端;发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。
本发明还提出一种点对点传输的重复数据删除处理系统,包括至少一客户端、数据存储服务器与信息管理服务器。客户端将输入文件进行重复数据删除程序并产生相应该输入文件的切分数据块;将发出文件回复要求的客户端定义为发起客户端,其余为目标客户端;若信息管理服务器存在文件回复要求中的切分数据块,则信息管理服务器根据文件回复要求查找数据存储服务器,并将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端,若目标客户端存在文件回复要求中的切分数据块,则目标客户端将切分数据块传送给发起客户端;发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。
本发明提供一种点对点传输的重复数据删除的处理方法及其系统,使得发起客户端除了可以由数据存储服务器取得相应的切分数据块外,也可以从其它目标客户端取得其它的切分数据块。如此一来,就可以加快发起客户端输入文件的数据回复的存取速度,进而快速的完成输入文件的复原。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1A为现有技术的架构示意图;
图1B为现有技术的分布式数据存储服务器架构示意图;
图2为本发明的架构示意图;
图3为本发明的运作流程示意图;
图4为本发明的发起客户端的取得切分数据块的操作示意图。
其中,附图标记
数据存储服务器110
客户端120
信息管理服务器130
客户端210
发起客户端211
目标客户端212
数据存储服务器220
信息管理服务器230
重复数据删除程序240
切分数据块250
编号10的切分数据块251
具体实施方式
下面结合附图对本发明的结构原理和工作原理作具体的描述:
请参考图2所示,其为本发明的架构示意图。本发明的重复数据删除系统包括:至少一客户端210、数据存储服务器220与信息管理服务器230。客户端210可以通过因特网(Internet)或企业内网(intranet)的方式连接于数据存储服务器220与信息管理服务器230。在客户端210上运行重复数据删除程序240。客户端210在对输入文件进行重复数据删除程序240后,会产生相应的切分数据块250。
请参考图3所示,其为本发明的运作流程示意图。
步骤S310:客户端运行重复数据删除程序,并产生切分数据块;
步骤S320:当客户端完成切分数据块后,客户端向信息管理服务器登记所属的这些切分数据块;
步骤S330:发起客户端向信息管理服务器与至少一目标客户端发出文件回复要求,用以取得输入文件的多笔切分数据块;
步骤S340:若信息管理服务器存在文件回复要求中的切分数据块,则信息管理服务器根据文件回复要求查找数据存储服务器,并将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端;
步骤S350:若目标客户端存在文件回复要求中的切分数据块,则目标客户端将切分数据块传送给发起客户端;以及
步骤S360:发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。
首先,客户端210对输入文件进行切分处理,并产生多组切分数据块250与相应每一区块的哈希值。计算哈希值的算法可以为SHA-1或MD5等。而切分数据块250的切割算法可以通过固定长度分割方式(fixed size partition)或基于内容变长度分割方式(content defined chunking,CDC)所实现。当客户端210完成切分数据块250后,客户端210向信息管理服务器230登记所属的这些切分数据块250。并由信息管理服务器230指派相应的数据存储服务器220用以储存切分数据块250。
为能清楚说明,因此将发出文件回复要求的客户端210定义为发起客户端211,其余为目标客户端212。接着,发起客户端211欲进行文件的复原处理。发起客户端211会先向信息管理服务器230发出文件回复要求,并在文件回复要求纪录所需的切分数据块250。于此同时,发起客户端211也会向其它目标客户端212发出相同的文件回复要求。
信息管理服务器230会根据文件回复要求查找相应的数据存储服务器220,并将该数据存储服务器220的运作状态(例如:当前传输频宽、切分数据块250的数量、或运作负载值等)回应给发起客户端211。而目标客户端212在接收到文件回复要求时,目标客户端212会查找是否具有所要求的该项切分数据块250。若目标客户端212具有该切分数据块250时,目标客户端212将会把具有的部分的切分数据块250回应给发起客户端211。数据存储服务器220与目标客户端212在回应发起客户端211时会另外传输一传送推估值,传送推估值中纪录当前传输频宽、切分数据块250的数量、运作负载值与切分数据块250的编号等信息。
发起客户端211根据传送推估值决定从目标客户端212或数据存储服务器220取得不同部分的切分数据块250。为清楚说明此一传送过程,还请配合图4所示,其为本发明的发起客户端的取得切分数据块的操作示意图。在图4中发起客户端211是为客户端A,目标客户端212是为客户端B,而数据存储服务器220具有编号1~n的切分数据块250
若发起客户端211欲存取编号10的切分数据块251,则发起客户端211会向目标客户端212或数据存储服务器220发出索取编号10的切分数据块251的文件回复要求。假设数据存储服务器220具有完整的编号10的切分数据块251,而目标客户端212具有部分的编号10的切分数据块251(图4中的虚线框的部分)。
假设数据存储服务器220可以完全的提供切分数据块250的状态时,发起客户端211则直接向数据存储服务器220取得完整的编号10的切分数据块251。假设数据存储服务器220的频宽(或负载)在满载的情况下,因此发起客户端211除了向数据存储服务器220提出取得部分切分数据块250的要求外,发起客户端211会同时的向目标客户端212发出取得另一部分的切分数据块250。同理,当其它目标客户端212具有不同部分的切分数据块250时,发起客户端211将会以轮询的方式提出文件回复要求,直至取得所有切分数据块250为止。
最后,发起客户端211根据从目标客户端212与数据存储服务器220所取得切分数据块250,发起客户端211将切分数据块250进行输入文件的数据回复。
本发明提供一种点对点传输的重复数据删除的处理方法及其系统,使得发起客户端211除了可以由数据存储服务器220取得相应的切分数据块250外,也可以从其它目标客户端212取得其它的切分数据块250。如此一来,就可以加快发起客户端211输入文件的数据回复的存取速度,进而快速的完成输入文件的复原。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (7)

1.一种点对点传输的重复数据删除处理方法,应用在一发起客户端对已经过一重复数据删除程序的一输入文件进行回复的处理,其特征在于,该处理方法包括:
该发起客户端向一信息管理服务器与至少一目标客户端发出一文件回复要求,用以取得该输入文件的多笔切分数据块;
若该信息管理服务器存在该文件回复要求中的该切分数据块,则该信息管理服务器根据该文件回复要求查找一数据存储服务器,并将所查找出的该数据存储服务器与所属的该切分数据块回应给该发起客户端;
若该目标客户端存在该文件回复要求中的该切分数据块,则该目标客户端将该切分数据块传送给该发起客户端;以及
该发起客户端根据从该些目标客户端与该数据存储服务器所取得该切分数据块,该发起客户端将该些切分数据块进行该输入文件的数据回复。
2.根据权利要求1所述的点对点传输的重复数据删除处理方法,其特征在于,该发起客户端与该目标客户端储存不同的该些切分数据块。
3.根据权利要求1所述的点对点传输的重复数据删除处理方法,其特征在于,该发起客户端或该目标客户端在完成该重复数据删除程序后向该信息管理服务器登记所属的该些切分数据块。
4.根据权利要求1所述的点对点传输的重复数据删除处理方法,其特征在于,该发起客户端根据一传送推估值决定从该些目标客户端或该数据存储服务器取得相应的该切分数据块。
5.一种点对点传输的重复数据删除处理系统,应用在客户端将已经过一重复数据删除程序的一输入文件进行回复的处理,其特征在于,处理系统包括:
至少一客户端,其将该输入文件进行该重复数据删除程序并产生相应该输入文件的该些切分数据块,将发出一文件回复要求的该客户端定义为一发起客户端,其余为一目标客户端;
一数据存储服务器,用以储存多笔切分数据块;以及
一信息管理服务器,记录具有该些切分数据块的该客户端;
其中,若该信息管理服务器纪录该文件回复要求中的该切分数据块,则该信息管理服务器根据该文件回复要求查找其它具有该切分数据块的该些目标客户端,并将所查找出的该些目标客户端与所属的该切分数据块回应给该发起客户端,该发起客户端根据从该些目标客户端与该数据存储服务器所取得该切分数据块,该发起客户端将该些切分数据块进行该输入文件的数据回复。
6.根据权利要求5所述的点对点传输的重复数据删除处理系统,其特征在于,该发起客户端或该目标客户端在完成该重复数据删除程序后向该信息管理服务器登记所属的该些切分数据块。
7.根据权利要求5所述的点对点传输的重复数据删除处理系统,其特征在于,该发起客户端根据一传送推估值决定从该些目标客户端或该数据存储服务器取得相应的该切分数据块。
CN2011101457133A 2011-05-25 2011-05-25 点对点传输的重复数据删除处理方法及其系统 Pending CN102801757A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011101457133A CN102801757A (zh) 2011-05-25 2011-05-25 点对点传输的重复数据删除处理方法及其系统
US13/242,512 US20120303588A1 (en) 2011-05-25 2011-09-23 Data de-duplication processing method for point-to-point transmission and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101457133A CN102801757A (zh) 2011-05-25 2011-05-25 点对点传输的重复数据删除处理方法及其系统

Publications (1)

Publication Number Publication Date
CN102801757A true CN102801757A (zh) 2012-11-28

Family

ID=47200719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101457133A Pending CN102801757A (zh) 2011-05-25 2011-05-25 点对点传输的重复数据删除处理方法及其系统

Country Status (2)

Country Link
US (1) US20120303588A1 (zh)
CN (1) CN102801757A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239575A (zh) * 2014-10-08 2014-12-24 清华大学 一种虚拟机镜像文件存储、分发方法及装置
CN107885463A (zh) * 2017-11-10 2018-04-06 下代互联网重大应用技术(北京)工程研究中心有限公司 目标文件的处理方法及装置
CN111711559A (zh) * 2020-06-12 2020-09-25 北京百度网讯科技有限公司 用于撤回信息的方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9548908B2 (en) * 2012-08-21 2017-01-17 Cisco Technology, Inc. Flow de-duplication for network monitoring

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143713A1 (en) * 2003-01-22 2004-07-22 Niles Ronald S. System and method for backing up data
CN1901504A (zh) * 2006-06-30 2007-01-24 华中科技大学 一种流媒体点播系统的数据调度方法
US20080005141A1 (en) * 2006-06-29 2008-01-03 Ling Zheng System and method for retrieving and using block fingerprints for data deduplication
CN101854287A (zh) * 2009-04-01 2010-10-06 工业和信息化部电信传输研究所 一种p2p流量优化方法及装置
US20100332454A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud environment, including containerized deduplication, data pruning, and data transfer

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311964B1 (en) * 2009-11-12 2012-11-13 Symantec Corporation Progressive sampling for deduplication indexing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143713A1 (en) * 2003-01-22 2004-07-22 Niles Ronald S. System and method for backing up data
US20080005141A1 (en) * 2006-06-29 2008-01-03 Ling Zheng System and method for retrieving and using block fingerprints for data deduplication
CN1901504A (zh) * 2006-06-30 2007-01-24 华中科技大学 一种流媒体点播系统的数据调度方法
CN101854287A (zh) * 2009-04-01 2010-10-06 工业和信息化部电信传输研究所 一种p2p流量优化方法及装置
US20100332454A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud environment, including containerized deduplication, data pruning, and data transfer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239575A (zh) * 2014-10-08 2014-12-24 清华大学 一种虚拟机镜像文件存储、分发方法及装置
CN107885463A (zh) * 2017-11-10 2018-04-06 下代互联网重大应用技术(北京)工程研究中心有限公司 目标文件的处理方法及装置
CN111711559A (zh) * 2020-06-12 2020-09-25 北京百度网讯科技有限公司 用于撤回信息的方法和装置

Also Published As

Publication number Publication date
US20120303588A1 (en) 2012-11-29

Similar Documents

Publication Publication Date Title
CN103548003B (zh) 用于提高去重复系统备份性能的客户端侧指纹缓存的方法和系统
US20120323864A1 (en) Distributed de-duplication system and processing method thereof
CN102467572B (zh) 支持重复数据删除程序的数据区块查询方法
CN101350790B (zh) 基于即时通讯系统的文件传输方法及装置
CN102456059A (zh) 重复数据删除的处理系统
CN103984640B (zh) 实现数据预取方法及装置
CN103916479B (zh) 一种基于工作组文件的云同步局域网加速系统
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
WO2017215646A1 (zh) 数据传输方法和装置
WO2017088705A1 (zh) 数据处理方法和装置
CN102810107A (zh) 重复数据的处理方法
CN108874946B (zh) 一种id管理方法及装置
CN103227818A (zh) 终端、服务器、文件传输方法、文件存储管理系统和方法
US11265182B2 (en) Messaging to enforce operation serialization for consistency of a distributed data structure
CN103186652A (zh) 分布式的重复数据删除系统及其方法
US20140244794A1 (en) Information System, Method and Program for Managing the Same, Method and Program for Processing Data, and Data Structure
CN102469142A (zh) 重复数据删除程序的数据传输方法
CN102801757A (zh) 点对点传输的重复数据删除处理方法及其系统
US20150106468A1 (en) Storage system and data access method
JP2008102795A (ja) ファイル管理装置、システム及びプログラム
CN110958300A (zh) 一种数据的上传方法、系统、装置、电子设备和计算机可读介质
CN113886494A (zh) 即时通讯的消息存储方法、装置、设备及计算机可读介质
CN102929958A (zh) 元数据的处理方法,代理、转发设备,服务器及计算系统
CN110909030A (zh) 一种信息处理方法及服务器集群
CN101146130A (zh) 一种在客户端间传输数据的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121128