CN103873438A - 压缩包上传去重系统及方法 - Google Patents

压缩包上传去重系统及方法 Download PDF

Info

Publication number
CN103873438A
CN103873438A CN201210533657.5A CN201210533657A CN103873438A CN 103873438 A CN103873438 A CN 103873438A CN 201210533657 A CN201210533657 A CN 201210533657A CN 103873438 A CN103873438 A CN 103873438A
Authority
CN
China
Prior art keywords
compressed package
data block
cryptographic hash
hash
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210533657.5A
Other languages
English (en)
Inventor
柴智权
李大鹏
林海洪
李忠一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201210533657.5A priority Critical patent/CN103873438A/zh
Priority to TW101148553A priority patent/TWI594138B/zh
Priority to US14/067,024 priority patent/US20140164561A1/en
Publication of CN103873438A publication Critical patent/CN103873438A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)

Abstract

一种压缩包上传去重方法,包括:将用户上传的压缩包分成多个数据块;计算各数据块的哈希值;将压缩包是否为加密压缩包的信息、压缩包的哈希值、各数据块的哈希值及数据块的顺序存入一张哈希列表中,并上传到哈希数据库中;当哈希数据库中有哈希值与存储服务器中已存储数据块的哈希值相同时,确定哈希数据库中该哈希值对应的数据块为重复数据块;通知相应客户端无需再上传该数据块,并将重复数据块对应的数据块指针返回给用户,每个数据块根据相应存储区的位置对应一个数据块指针;设置去重后每个数据块在存储服务器中的存储区;及上传数据块至所述存储服务器中相应的存储区内。本发明还提供一种压缩包上传去重系统。利用本发明可节省存储空间。

Description

压缩包上传去重系统及方法
技术领域
本发明涉及一种文件管理系统及方法,尤其涉及一种压缩包上传去重系统及方法。
背景技术
在云端技术中,当用户所上传的文件为压缩文件或打包文件时,由于云存储过程无法识别出该压缩文件或打包文件内是否存在重复数据,因此会直接将该压缩文件或打包文件进行分块上传。由此可导致相同数据重复上传及存储,影响了上传速度、浪费过多的存储空间。
发明内容
鉴于以上内容,有必要提供一种压缩包上传去重系统,可使压缩文件或打包文件在服务器中进行有效的重复数据删除,使得服务器能够节省更多的存储空间。
所述压缩包上传去重系统运行于客户端中,该客户端与一台存储服务器相连。该系统包括:分块模块,用于按照预设大小将用户上传的压缩包分成多个数据块,该压缩包对应一个哈希值;计算模块,用于计算上述各数据块的哈希值;存储模块,用于将压缩包是否为加密压缩包的信息、压缩包的哈希值、各数据块的哈希值及数据块的顺序存入一张哈希列表中,并将所述哈希列表上传到一个哈希数据库中,其中,每个压缩包对应一张哈希列表;去重模块,用于将哈希数据库中的各哈希值与各存储服务器中已存储的数据块的哈希值进行比较,当该哈希数据库中有哈希值与所述存储服务器中已存储数据块的哈希值相同时,确定哈希数据库中该哈希值对应的数据块为重复数据块;通知模块,用于通知相应客户端无需再上传该数据块,并将重复数据块对应的数据块指针返回给用户,每个数据块根据相应存储区的位置对应一个数据块指针;分配模块,用于设置去重后每个数据块在存储服务器中的存储区;及上传模块,用于上传数据块至所述存储服务器中相应的存储区内。
还有必要提供一种压缩包上传去重方法,可使压缩文件或打包文件在服务器中进行有效的重复数据删除,使得服务器能够节省更多的存储空间。
所述压缩包上传去重方法,应用于客户端中,该客户端与一台存储服务器相连。所述方法包括:分块步骤,按照预设大小将用户上传的压缩包分成多个数据块,该压缩包对应一个哈希值;计算步骤,计算上述各数据块的哈希值;存储步骤,将压缩包是否为加密压缩包的信息、压缩包的哈希值、各数据块的哈希值及数据块的顺序存入一张哈希列表中,并将所述哈希列表上传到一个哈希数据库中,其中,每个压缩包对应一张哈希列表;去重步骤,将哈希数据库中的各哈希值与各存储服务器中已存储的数据块的哈希值进行比较,当该哈希数据库中有哈希值与所述存储服务器中已存储数据块的哈希值相同时,确定哈希数据库中该哈希值对应的数据块为重复数据块;通知步骤,通知相应客户端无需再上传该数据块,并将重复数据块对应的数据块指针返回给用户,每个数据块根据相应存储区的位置对应一个数据块指针;分配步骤,设置去重后每个数据块在存储服务器中的存储区;及上传步骤,上传数据块至所述存储服务器中相应的存储区内。
相较于现有技术,所述压缩包上传去重系统及方法,在用户的客户端判断压缩文件或打包文件是否是为加密文件,如果是,则直接做分块上传操作,如果否,则将压缩文件或打包文件进行解压缩与拆包操作,然后对包内的每个文件分别进行分块上传操作,如此可使压缩文件或打包文件在服务器中进行有效的重复数据删除,使得服务器能够节省更多的存储空间。
附图说明
图1是本发明压缩包上传去重系统较佳实施例的运行环境示意图。
图2是图1中压缩包上传去重系统的功能模块图。
图3是本发明压缩包上传去重方法较佳实施例的作业流程图。
图4举例说明将压缩包分成数据块的示意图。
图5是用户于客户端下载已上传去重的加密压缩包的作业流程图。
图6是用户于客户端下载已上传去重的未加密压缩包的作业流程图。
主要元件符号说明
客户端 1
存储设备 10
处理设备 12
存储服务器 2
哈希数据库 3
压缩包上传去重系统 100
分块模块 1000
计算模块 1002
存储模块 1004
去重模块 1006
通知模块 1008
分配模块 1010
上传模块 1012
下载模块 1014
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明压缩包上传去重系统较佳实施例的运行环境示意图。该压缩包上传去重系统100运行于客户端1中,实现对加密压缩包或未加密压缩包分块、上传至存储服务器2中,并有效地删除重复的数据。本实施例中,该存储服务器2连接一个哈希数据库3,存储服务器2可与一个或多个客户端1相连。
所述客户端1还包括存储设备10和至少一台处理设备12。
所述存储设备10用于存储所述压缩包上传去重系统100的计算机程序代码。该存储设备10可以为客户端1内置的存储器,也可以为客户端1外接的存储器。
处理设备12用于执行所述压缩包上传去重系统100的计算机程序代码,实现压缩包上传去重系统100的功能。
如图2所示,是图1中压缩包上传去重系统100的功能模块图。该压缩包上传去重系统100以软件程序或指令的形式安装在该存储设备10中,并由处理设备12执行。该压缩包上传去重系统100包括分块模块1000、计算模块1002、存储模块1004、去重模块1006、通知模块1008、分配模块1010、上传模块1012和下载模块1014。本发明所称的模块是完成一特定功能的计算机程序段,比程序更适合于描述软件在计算机中的执行过程,因此在本发明以下对软件描述都以模块描述。模块1000至1014的功能将在图3至图6中进行详细描述。
如图3所示,是本发明压缩包上传去重方法较佳实施例的作业流程图。
步骤S100,分块模块1000按照预设大小将用户上传的压缩包分成多个数据块。划分数据块的方法包括固定大小分块、滑动块分块、可变分块和全文件分块。本实施例中以固定大小分块为例进行说明。
具体如图4所示,当用户上传的压缩包为加密压缩包时,按照预设大小直接将该压缩包分成多个数据块,如直接将加密压缩包分成数据块a、b、c、d、e、f、g、h、i和j。当用户上传的压缩包为未加密压缩包时,将该压缩包解压缩成一个或多个文件,并按照预设大小将每个文件分成多个数据块,如将文件A分成数据块u、v、w,将文件B分成数据块x、y、z。
识别压缩包是否为加密压缩包的方法可以为:对该压缩包进行解压缩;如果解压缩成功,证明该压缩包为未加密压缩包;如果解压缩失败,该压缩包将按照加密压缩包进行处理。导致压缩包解压缩失败的原因可能为该压缩包为加密压缩包或者该压缩包损坏。
在此需要说明的是,用户上传的每个压缩包各对应一个哈希值。所述预设大小可以根据用户的需求进行设定。例如,为了节省存储空间,用户可以将该预设大小设置成16K、32K、64K等,而为了提高存储效率,用户也可以将该预设大小设置成128K、256K。本实施例中,优选32K。
步骤S102,计算模块1002计算上述各数据块的哈希值(hash)。此处计算数据块的哈希值所运用的方法可以为现有技术中的任意一种计算方法。因哈希值的计算方法为现有技术,在此不再赘述。
步骤S104,存储模块1004将压缩包是否为加密压缩包的信息、压缩包的哈希值、各数据块的哈希值及数据块的顺序存入一张哈希列表中,并将所述哈希列表上传到哈希数据库3内进行存储。其中,每个压缩包对应一张哈希列表。
步骤S106,去重模块1006将哈希数据库3中的每个哈希值与各存储服务器2中已存储的数据块的哈希值进行比较。当该哈希数据库3中有哈希值与所述存储服务器2中已存储的数据块的哈希值相同时,所述去重模块1006确定该哈希数据库3中该哈希值对应的数据块为重复数据块。
例如,用户于A客户端上传一个压缩包A,该压缩包A被分块模块1000划分成a、b、c、d四个数据块,同时,存储服务器2中存储了一个压缩包B,该压缩包B对应的数据块包括b、c、d三个数据块,其中,数据块b、c存于存储区A中,数据块d存于存储区B中。也就是说,压缩包A中的数据块b、c、d与压缩包B中的数据块b、c、d重复,因此,去重模块1006会通知A客户端中的用户数据块b、c、d已存储在存储服务器2中,无需再上传。
步骤S108,通知模块1008通知客户端1所述存储服务器2中已存储该数据块而无需再上传该数据块,以免重复存储,占用存储空间,并将重复数据块对应的数据块指针返回给客户端1的用户。其中,每个数据块根据相应存储区的位置对应一个数据块指针。该数据块指针用于表明数据块所存储的位置,即具体存储在哪个哪个存储服务器2的存储区内。
例如,通知模块1008通知A客户端的用户压缩包A中的数据块b、c存在存储服务器2中的存储区A内,数据块d存在存储服务器2中的存储区B内。
步骤S110,分配模块1010设置去重后每个数据块在存储服务器2中的存储区,每个数据块根据相应存储区的位置对应一个数据块指针。本实施例中,数据块与存储区可能是一对一的关系,也可能是多个数据块共用一个存储区。
步骤S112,上传模块1012上传去重后的数据块至所述存储服务器2中相应的存储区内。
另外,需要说明的是,当所述存储服务器2接收到上述数据块时,会计算各数据块的哈希值,校验各数据块的哈希值与哈希数据库3中存储的该数据块的哈希值是否相同。
当校验结果为不同时,存储服务器2从存储区中删除该数据块,向对应的用户反馈一个校验失败信息并提示用户重新上传压缩包。导致校验结果不同的原因可能为网络延迟、木马程序导致压缩包中的文件被更改等。在其他实施例中,存储服务器2也可以不用从存储区中删除该数据块,而利用用户重新上传的压缩包中的相应数据块覆盖掉所述未通过校验的数据块。
当校验结果为相同时,存储服务器2将各数据块对应的数据块指针返回给用户。
如图5所示,是用户于客户端1下载已上传去重的加密压缩包的作业流程图。
步骤S200,下载模块1014从哈希数据库3中获取该压缩包的哈希值及该压缩包的指针集。其中,该压缩包的指针集由组成该压缩包的各数据块的指针组成。
步骤S202,根据该压缩包的指针集从所述存储服务器2中下载组成该压缩包的各数据块。
步骤S204,计算各数据块的哈希值,并校验各数据块的哈希值与所述从哈希数据库3中获取的相应数据块的哈希值是否相同。
当校验结果为不同时,返回一个校验失败的信息给客户端1的用户。当校验结果为相同时,于步骤S206,下载模块1014将通过校验的数据块写入用户的临时存储区内。
步骤S208,下载模块1014按照数据块的顺序将数据块进行排序并组合成一个文件。
步骤S210,计算组合后的文件的哈希值,并校验该计算的哈希值与哈希数据库3中对应所述压缩包的哈希值是否相同。
当校验结果为不同时,返回一个校验失败的信息给客户端1的用户。当校验结果为相同时,于步骤S212,下载模块1014将该文件返回给客户端的用户。
如图6所示,是用户于客户端下载已上传去重的未加密压缩包的作业流程图。
步骤S300,所述下载模块1014从哈希数据库3中获取该未加密压缩包的哈希值及该未加密压缩包中各文件的指针集。其中,各文件的指针集由组成该文件的各数据块的指针组成。
步骤S302,将各文件的指针集解析成多个数据块的指针,并根据各数据块的指针从存储服务器2中下载对应的数据块。
步骤S304,计算各数据块的哈希值,并校验计算出的各数据块的哈希值与哈希数据库3中相应数据块的哈希值进行比较。
当校验结果为不同时,返回一个校验失败的信息给客户端1的用户。当校验结果为上述计算出的各文件中所有数据块的哈希值与哈希数据库中相应数据块的哈希值均相同时,于步骤S306,下载模块1014将通过校验的数据块写入用户的临时存储区内。
步骤S308,下载模块1014按照数据块的顺序将上述通过校验的数据块组合成相应的文件,并将所有文件打包压缩成一个压缩包。
步骤S310,计算该压缩包的哈希值,并校验该计算出的压缩包的哈希值与哈希数据库3中对应的该未加密压缩包的哈希值是否相同。
当校验结果为不同时,返回一个校验失败的信息给客户端1的用户。当校验结果为相同时,于步骤S312,下载模块1014将该压缩包返回给客户端1中的用户。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种压缩包上传去重方法,应用于客户端中,该客户端与一台存储服务器相连,其特征在于,该方法包括:
分块步骤,按照预设大小将用户上传的压缩包分成多个数据块,该压缩包对应一个哈希值;
计算步骤,计算上述各数据块的哈希值;
存储步骤,将压缩包是否为加密压缩包的信息、压缩包的哈希值、各数据块的哈希值及数据块的顺序存入一张哈希列表中,并将所述哈希列表上传到一个哈希数据库中,其中,每个压缩包对应一张哈希列表;
去重步骤,将哈希数据库中的各哈希值与各存储服务器中已存储的数据块的哈希值进行比较,当该哈希数据库中有哈希值与所述存储服务器中已存储数据块的哈希值相同时,确定哈希数据库中该哈希值对应的数据块为重复数据块;
通知步骤,通知相应客户端无需再上传该数据块,并将重复数据块对应的数据块指针返回给用户,每个数据块根据相应存储区的位置对应一个数据块指针;
分配步骤,设置去重后每个数据块在存储服务器中的存储区;及
上传步骤,上传数据块至所述存储服务器中相应的存储区内。
2.如权利要求1所述的压缩包上传去重方法,其特征在于,该方法还包括步骤:
所述存储服务器接收所述数据块,并计算数据块的哈希值;
校验数据块的哈希值与哈希数据库中存储的该数据块的哈希值是否相同;
当校验结果为不同时,向对应的用户反馈一个校验失败信息并提示重新上传压缩包,利用重新上传的压缩包中相应数据块替换该未通过校验的数据块;
当校验结果为相同时,将各数据块对应的数据块指针返回给客户端的用户。
3.如权利要求1所述的压缩包上传去重方法,其特征在于,所述分块步骤包括:
当用户上传的压缩包为加密压缩包时,按照预设大小将该压缩包分成多个数据块;及
当用户上传的压缩包为未加密压缩包时,将该压缩包解压缩成一个或多个文件,按照预设大小将每个文件分成多个数据块。
4.如权利要求3所述的压缩包上传去重方法,其特征在于,该方法还包括下载步骤,当用户需要从存储服务器中下载压缩包且该压缩包在上传前为加密压缩包时,该下载步骤包括:
从哈希数据库中获取该压缩包的哈希值及该压缩包的指针集,其中,该压缩包的指针集由组成该压缩包的各数据块的指针组成;
根据该压缩包的指针集从所述存储服务器中下载组成该压缩包的各数据块;
计算各数据块的哈希值,并校验各数据块的哈希值与所述从哈希数据库中获取的相应数据块的哈希值是否相同;
当校验结果为相同时,将通过校验的数据块写入用户的临时存储区内;
按照数据块的顺序将数据块进行排序并组合成一个文件;
计算组合后的文件的哈希值,并校验该计算的哈希值与哈希数据库中对应所述压缩包的哈希值是否相同;及
当校验结果为相同时,将该文件返回给客户端的用户。
5.如权利要求3所述的压缩包上传去重方法,其特征在于,该方法还包括下载步骤,当用户需要从存储服务器中下载压缩包且该压缩包在上传前为未加密压缩包时,该下载步骤包括:
从哈希数据库中获取该未加密压缩包的哈希值及该未加密压缩包中各文件的指针集,其中,各文件的指针集由组成该文件的各数据块的指针组成;
将各文件的指针集解析成多个数据块的指针,并根据各数据块的指针从存储服务器中下载对应的数据块;
计算各数据块的哈希值,并校验计算出的各数据块的哈希值与哈希数据库中相应数据块的哈希值进行比较;
当校验结果为上述计算出的各文件中所有数据块的哈希值与哈希数据库中相应数据块的哈希值均相同时,将通过校验的数据块写入用户的临时存储区内;
按照数据块的顺序将上述通过校验的数据块组合成相应的文件,并将所有文件打包压缩成一个压缩包;
计算该压缩包的哈希值,并校验该计算出的压缩包的哈希值与哈希数据库中对应该未加密压缩包的哈希值是否相同;及
当校验结果为相同时,将该压缩包返回给客户端的用户。
6.一种压缩包上传去重系统,运行于客户端中,该客户端与一台存储服务器相连,其特征在于,该系统包括:
分块模块,用于按照预设大小将用户上传的压缩包分成多个数据块,该压缩包对应一个哈希值;
计算模块,用于计算上述各数据块的哈希值;
存储模块,用于将压缩包是否为加密压缩包的信息、压缩包的哈希值、各数据块的哈希值及数据块的顺序存入一张哈希列表中,并将所述哈希列表上传到一个哈希数据库中,其中,每个压缩包对应一张哈希列表;
去重模块,用于将哈希数据库中的各哈希值与各存储服务器中已存储的数据块的哈希值进行比较,当该哈希数据库中有哈希值与所述存储服务器中已存储数据块的哈希值相同时,确定哈希数据库中该哈希值对应的数据块为重复数据块;
通知模块,用于通知相应客户端无需再上传该数据块,并将重复数据块对应的数据块指针返回给用户,每个数据块根据相应存储区的位置对应一个数据块指针;
分配模块,用于设置去重后每个数据块在存储服务器中的存储区;及
上传模块,用于上传数据块至所述存储服务器中相应的存储区内。
7.如权利要求6所述的压缩包上传去重系统,其特征在于,所述存储服务器还用于:
接收所述数据块,并计算数据块的哈希值;
校验数据块的哈希值与哈希数据库中存储的该数据块的哈希值是否相同;
当校验结果为不同时,向对应的用户反馈一个校验失败信息并提示重新上传压缩包,利用重新上传的压缩包中相应数据块替换该未通过校验的数据块;
当校验结果为相同时,将所述数据块保存到相应的存储区中,并将各数据块对应的数据块指针返回给客户端的用户。
8.如权利要求6所述的压缩包上传去重系统,其特征在于,所述分块模块通过以下步骤将用户上传的压缩包分成多个数据块:
当用户上传的压缩包为加密压缩包时,按照预设大小将该压缩包分成多个数据块;及
当用户上传的压缩包为未加密压缩包时,将该压缩包解压缩成一个或多个文件,按照预设大小将每个文件分成多个数据块。
9.如权利要求8所述的压缩包上传去重系统,其特征在于,该系统还包括下载模块,当用户需要从存储服务器中下载压缩包且该压缩包在上传前为加密压缩包时,所述下载模块用于:
从哈希数据库中获取该压缩包的哈希值及该压缩包的指针集,其中,该压缩包的指针集由组成该压缩包的各数据块的指针组成;
根据该压缩包的指针集从所述存储服务器中下载组成该压缩包的各数据块;
计算各数据块的哈希值,并校验各数据块的哈希值与所述从哈希数据库中获取的相应数据块的哈希值是否相同;
当校验结果为相同时,将通过校验的数据块写入用户的临时存储区内;
按照数据块的顺序将数据块进行排序并组合成一个文件;
计算组合后的文件的哈希值,并校验该计算的哈希值与哈希数据库中对应所述压缩包的哈希值是否相同;及
当校验结果为相同时,将该文件返回给客户端的用户。
10.如权利要求8所述的压缩包上传去重系统,其特征在于,该系统还包括下载模块,当用户需要从存储服务器中下载压缩包且该压缩包在上传前为未加密压缩包时,所述下载模块用于:
从哈希数据库中获取该未加密压缩包的哈希值及该未加密压缩包中各文件的指针集,其中,各文件的指针集由组成该文件的各数据块的指针组成;
将各文件的指针集解析成多个数据块的指针,并根据各数据块的指针从存储服务器中下载对应的数据块;
计算各数据块的哈希值,并校验计算出的各数据块的哈希值与哈希数据库中相应数据块的哈希值进行比较;
当校验结果为上述计算出的各文件中所有数据块的哈希值与哈希数据库中相应数据块的哈希值均相同时,将通过校验的数据块写入用户的临时存储区内;
按照数据块的顺序将上述通过校验的数据块组合成相应的文件,并将所有文件打包压缩成一个压缩包;
计算该压缩包的哈希值,并校验该计算出的压缩包的哈希值与哈希数据库中对应该未加密压缩包的哈希值是否相同;及
当校验结果为相同时,将该压缩包返回给客户端的用户。
CN201210533657.5A 2012-12-12 2012-12-12 压缩包上传去重系统及方法 Pending CN103873438A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210533657.5A CN103873438A (zh) 2012-12-12 2012-12-12 压缩包上传去重系统及方法
TW101148553A TWI594138B (zh) 2012-12-12 2012-12-20 壓縮包上傳去重系統及方法
US14/067,024 US20140164561A1 (en) 2012-12-12 2013-10-30 Compressed package upload management system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210533657.5A CN103873438A (zh) 2012-12-12 2012-12-12 压缩包上传去重系统及方法

Publications (1)

Publication Number Publication Date
CN103873438A true CN103873438A (zh) 2014-06-18

Family

ID=50882230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210533657.5A Pending CN103873438A (zh) 2012-12-12 2012-12-12 压缩包上传去重系统及方法

Country Status (3)

Country Link
US (1) US20140164561A1 (zh)
CN (1) CN103873438A (zh)
TW (1) TWI594138B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104270454A (zh) * 2014-10-14 2015-01-07 无锡云捷科技有限公司 一种基于数据传输优化系统的cdn动态应用加速方法
CN105912622A (zh) * 2016-04-05 2016-08-31 重庆大学 一种针对无损压缩文件的数据去重方法
CN106446077A (zh) * 2016-09-07 2017-02-22 乐视控股(北京)有限公司 一种对象上传方法和电子设备
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储系统文件去重方法及系统
CN106503970A (zh) * 2016-11-04 2017-03-15 东软集团股份有限公司 流程实例的编辑方法及装置
CN106506638A (zh) * 2016-11-04 2017-03-15 江苏通付盾科技有限公司 区块链中的区块存储方法及装置
CN106874399A (zh) * 2017-01-16 2017-06-20 厦门天锐科技股份有限公司 一种联网备份系统及备份方法
CN107589948A (zh) * 2017-07-28 2018-01-16 北京北信源软件股份有限公司 项目文件部署方法及系统
CN108230410A (zh) * 2017-07-20 2018-06-29 深圳市创梦天地科技股份有限公司 压缩多边形数据的方法及装置
CN109495271A (zh) * 2018-10-19 2019-03-19 北京梆梆安全科技有限公司 比较apk文件方法、装置、服务器及其存储介质
CN109871361A (zh) * 2018-11-26 2019-06-11 乐蜜有限公司 一种文件上传方法、装置、电子设备及可读存储介质
CN110445875A (zh) * 2019-08-16 2019-11-12 佳源科技有限公司 一种基于物联网架构的智能变电站辅助系统综合监控平台
CN110909187A (zh) * 2019-11-07 2020-03-24 苏州浪潮智能科技有限公司 图像存储方法、图像读取方法、图像存储器及存储介质
CN111695885A (zh) * 2019-03-14 2020-09-22 中国科学技术大学 基于减小交易输入的数字凭证区块链压缩方法
CN111966631A (zh) * 2020-07-10 2020-11-20 福建升腾资讯有限公司 一种可快速分发的镜像文件生成方法、系统、设备和介质
CN117407372A (zh) * 2023-10-18 2024-01-16 北京安证通信息科技股份有限公司 一种上传文件去重方法及系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873504A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据分块存储至分布式服务器的系统及方法
CN105511814A (zh) * 2015-12-11 2016-04-20 上海爱数信息技术股份有限公司 一种静态数据文件的存储方法
CN107734022B (zh) * 2017-09-30 2021-08-10 努比亚技术有限公司 静态资源文件下载方法、移动终端及计算机可读存储介质
US10922281B2 (en) 2018-10-25 2021-02-16 EMC IP Holding Company LLC Application aware deduplication

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101163046A (zh) * 2007-11-22 2008-04-16 北京金山软件有限公司 一种分布式网站日志数据采集方法和分布式网站系统
US20080098083A1 (en) * 2006-10-19 2008-04-24 Oracle International Corporation System and method for data de-duplication
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法
CN102325167A (zh) * 2011-07-21 2012-01-18 杭州微元科技有限公司 一种网络文件传输的校验方法
CN102571572A (zh) * 2011-12-28 2012-07-11 中国人民解放军国防科学技术大学 基于短报文卫星通信的数据传输方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8064599B2 (en) * 2007-08-29 2011-11-22 Red Hat, Inc. Secure message transport using message segmentation
US7814149B1 (en) * 2008-09-29 2010-10-12 Symantec Operating Corporation Client side data deduplication
WO2010100733A1 (ja) * 2009-03-05 2010-09-10 日立ソフトウエアエンジニアリング株式会社 統合重複排除システム、データ格納装置、及びサーバ装置
US8959155B1 (en) * 2009-07-17 2015-02-17 Aryaka Networks, Inc. Data compression through redundancy removal in an application acceleration environment
US20120011101A1 (en) * 2010-07-12 2012-01-12 Computer Associates Think, Inc. Integrating client and server deduplication systems
US8983952B1 (en) * 2010-07-29 2015-03-17 Symantec Corporation System and method for partitioning backup data streams in a deduplication based storage system
US8539597B2 (en) * 2010-09-16 2013-09-17 International Business Machines Corporation Securing sensitive data for cloud computing
TWI496014B (zh) * 2010-11-18 2015-08-11 Alibaba Group Holding Ltd Decentralized cache object removal method, system and delete server
US9020900B2 (en) * 2010-12-14 2015-04-28 Commvault Systems, Inc. Distributed deduplicated storage system
US9116909B2 (en) * 2010-12-29 2015-08-25 Amazon Technologies, Inc. Reduced bandwidth data uploading in data systems
US8874908B2 (en) * 2012-11-07 2014-10-28 Wolfgang Raudaschl Process for storing data on a central server

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080098083A1 (en) * 2006-10-19 2008-04-24 Oracle International Corporation System and method for data de-duplication
CN101163046A (zh) * 2007-11-22 2008-04-16 北京金山软件有限公司 一种分布式网站日志数据采集方法和分布式网站系统
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法
CN102325167A (zh) * 2011-07-21 2012-01-18 杭州微元科技有限公司 一种网络文件传输的校验方法
CN102571572A (zh) * 2011-12-28 2012-07-11 中国人民解放军国防科学技术大学 基于短报文卫星通信的数据传输方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾庆辉: "海量数据备份的消冗机制研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104270454A (zh) * 2014-10-14 2015-01-07 无锡云捷科技有限公司 一种基于数据传输优化系统的cdn动态应用加速方法
CN105912622A (zh) * 2016-04-05 2016-08-31 重庆大学 一种针对无损压缩文件的数据去重方法
CN106446077A (zh) * 2016-09-07 2017-02-22 乐视控股(北京)有限公司 一种对象上传方法和电子设备
CN106503970A (zh) * 2016-11-04 2017-03-15 东软集团股份有限公司 流程实例的编辑方法及装置
CN106506638A (zh) * 2016-11-04 2017-03-15 江苏通付盾科技有限公司 区块链中的区块存储方法及装置
CN106506638B (zh) * 2016-11-04 2020-01-07 江苏通付盾科技有限公司 区块链中的区块存储方法及装置
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储系统文件去重方法及系统
CN106874399A (zh) * 2017-01-16 2017-06-20 厦门天锐科技股份有限公司 一种联网备份系统及备份方法
CN106874399B (zh) * 2017-01-16 2020-06-12 厦门天锐科技股份有限公司 一种联网备份系统及备份方法
CN108230410A (zh) * 2017-07-20 2018-06-29 深圳市创梦天地科技股份有限公司 压缩多边形数据的方法及装置
CN108230410B (zh) * 2017-07-20 2021-12-03 深圳市创梦天地科技股份有限公司 压缩多边形数据的方法及装置
CN107589948A (zh) * 2017-07-28 2018-01-16 北京北信源软件股份有限公司 项目文件部署方法及系统
CN109495271A (zh) * 2018-10-19 2019-03-19 北京梆梆安全科技有限公司 比较apk文件方法、装置、服务器及其存储介质
CN109871361A (zh) * 2018-11-26 2019-06-11 乐蜜有限公司 一种文件上传方法、装置、电子设备及可读存储介质
CN109871361B (zh) * 2018-11-26 2023-05-23 北京乐我无限科技有限责任公司 一种文件上传方法、装置、电子设备及可读存储介质
CN111695885A (zh) * 2019-03-14 2020-09-22 中国科学技术大学 基于减小交易输入的数字凭证区块链压缩方法
CN111695885B (zh) * 2019-03-14 2023-08-29 中国科学技术大学 基于减小交易输入的数字凭证区块链压缩方法
CN110445875B (zh) * 2019-08-16 2020-07-31 佳源科技有限公司 一种基于物联网架构的智能变电站辅助系统综合监控平台
CN110445875A (zh) * 2019-08-16 2019-11-12 佳源科技有限公司 一种基于物联网架构的智能变电站辅助系统综合监控平台
CN110909187A (zh) * 2019-11-07 2020-03-24 苏州浪潮智能科技有限公司 图像存储方法、图像读取方法、图像存储器及存储介质
CN110909187B (zh) * 2019-11-07 2023-01-10 苏州浪潮智能科技有限公司 图像存储方法、图像读取方法、图像存储器及存储介质
CN111966631A (zh) * 2020-07-10 2020-11-20 福建升腾资讯有限公司 一种可快速分发的镜像文件生成方法、系统、设备和介质
CN117407372A (zh) * 2023-10-18 2024-01-16 北京安证通信息科技股份有限公司 一种上传文件去重方法及系统

Also Published As

Publication number Publication date
TW201423449A (zh) 2014-06-16
US20140164561A1 (en) 2014-06-12
TWI594138B (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN103873438A (zh) 压缩包上传去重系统及方法
CN103873504A (zh) 数据分块存储至分布式服务器的系统及方法
CN103379138B (zh) 实现负载均衡的方法及系统和灰度发布的方法及装置
CN103873507A (zh) 数据分块上传与存储系统及方法
US11627207B2 (en) Systems and methods for data deduplication by generating similarity metrics using sketch computation
CN103873503A (zh) 数据块备份系统及方法
US9305005B2 (en) Merging entries in a deduplication index
CN103873506A (zh) 存储集群中的数据块去重系统及方法
CN107229420A (zh) 数据存储方法、读取方法、删除方法和数据操作系统
CN108090125B (zh) 一种非查询式的重复数据删除方法及装置
CN106874348A (zh) 文件存储和索引方法、装置及读取文件的方法
CN105069111A (zh) 云存储中基于相似性的数据块级数据去重方法
US9158808B2 (en) Object arrangement apparatus for determining object destination, object arranging method, and computer program thereof
US11995050B2 (en) Systems and methods for sketch computation
CN111966631A (zh) 一种可快速分发的镜像文件生成方法、系统、设备和介质
CN107205024A (zh) 一种云存储系统中数据去重方法及系统
CN105095515A (zh) 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN104503862A (zh) 获得应用渠道包的校验值的方法和装置
CN112528323A (zh) 一种数据处理方法和装置
CN116842012A (zh) 一种Redis集群的分片存储方法、装置、设备及存储介质
US20210191640A1 (en) Systems and methods for data segment processing
CN114513498B (zh) 文件传输校验方法、装置、计算机设备和存储介质
CN107220002A (zh) 一种支持内存快照重复数据删除的存储方法和装置
CN112202453A (zh) 对密文进行压缩的信息处理方法、装置、设备及介质
Devarajan et al. Enhanced Storage optimization System (SoS) for IaaS Cloud Storage

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618