CN112511612A - 云存储数据存储方法、装置、系统、设备及存储介质 - Google Patents

云存储数据存储方法、装置、系统、设备及存储介质 Download PDF

Info

Publication number
CN112511612A
CN112511612A CN202011301292.4A CN202011301292A CN112511612A CN 112511612 A CN112511612 A CN 112511612A CN 202011301292 A CN202011301292 A CN 202011301292A CN 112511612 A CN112511612 A CN 112511612A
Authority
CN
China
Prior art keywords
file
stored
resource pool
identification information
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011301292.4A
Other languages
English (en)
Inventor
李朝霞
邢鑫
康楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Cloud Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Cloud Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Cloud Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202011301292.4A priority Critical patent/CN112511612A/zh
Publication of CN112511612A publication Critical patent/CN112511612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种云存储数据存储方法、装置、系统、设备及存储介质,具体实现方案为:该方法包括:获取终端的待存储文件,并根据待存储文件生成对应的标识信息;根据标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息;其中,云资源池中存储的所有数据都设有相应的唯一标识信息;若标识文件数据库或云资源池中存在相同的标识信息,则删除所述待存储文件;若标识文件数据库和所述云资源池中都不存在相同的标识信息,则将所述待存储文件对应的标识信息存入所述标识文件数据库中,并将所述待存储文件存入对应的云资源池。本发明实施例的方法可以降低存储重复数据的概率,降低存储资源的浪费。

Description

云存储数据存储方法、装置、系统、设备及存储介质
技术领域
本发明实施例涉及云存储技术领域,尤其涉及一种云存储数据存储方法、装置、系统、设备及存储介质。
背景技术
随着数据量的飞速增长,存储空间和传输速率成为当前网络存储领域的一大难题。对于存储空间,大部分的研究都放在了如何扩大存储空间上,而对于存储空间中数据清理的研究则是较少的。据数据统计,在所有备份的数据中,高达80%以上的数据是冗余的,大量的冗余数据占据着大量的存储空间,造成了大量浪费存储资源的现象。
目前对于云存储空间来说,存储新的待存储数据普遍是直接存储的方式,即使云存储空间中已经存在与该新的待存储数据相同的数据,也并不影响新的待存储数据的存储。
因此,目前的云存储空间在存储新的数据时不会进行对应的筛选,导致存储资源浪费较大。
发明内容
本发明提供一种云存储数据存储方法、装置、系统、设备及存储介质,用以解决目前的云存储空间在存储新的数据时不会进行对应的筛选,导致存储资源浪费较大的问题。
本发明实施例第一方面提供一种云存储数据存储方法,包括:
获取终端的待存储文件,并根据所述待存储文件生成对应的标识信息;
根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息;其中,所述云资源池中存储的所有数据都设有相应的唯一标识信息;
若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件;
若所述标识文件数据库和所述云资源池中都不存在相同的标识信息,则将所述待存储文件对应的标识信息存入所述标识文件数据库中,并将所述待存储文件存入对应的云资源池。
进一步地,如上所述的方法,所述标识信息包括文件名信息;
所述根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息包括:
根据由所述待存储文件生成的文件名信息查找所述云资源池和/或所述标识文件数据库中是否存在相同的文件名信息。
进一步地,如上所述的方法,所述标识信息还包括MD5串;
若所述云资源池或所述标识文件数据库中存在与所述待存储文件相同的文件名信息,则所述方法还包括:
根据所述待存储文件调用源数据库的应用程序接口,以得到对应的返回块数据;
根据返回块数据的数据大小将所述待存储文件切割成多个所述数据大小的存储文件数据块;
通过MD5的计算方式计算各个存储文件数据块以得到所述待存储文件对应的MD5串;
根据所述待存储文件对应的MD5串查找所述云资源池和/或所述标识文件数据库中是否存在相同的MD5串。
进一步地,如上所述的方法,所述若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件,包括:
若所述标识文件数据库或所述云资源池中存在相同的标识信息,则检测所述资源池中是否存在与所述存储文件数据块相同的数据块;
若检测到所述资源池中存在与所述存储文件数据块相同的数据块,则删除所述待存储文件。
进一步地,如上所述的方法,所述检测所述资源池中是否存在相同的数据块,包括:
对所述存储文件数据块通过折半查找方法查找所述资源池中是否存在相同的数据块。
本发明实施例第二方面提供一种云存储数据存储装置,包括:
标识生成模块,用于获取终端的待存储文件,并根据所述待存储文件生成对应的标识信息;
标识查找模块,用于根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息;其中,所述云资源池中存储的所有数据都设有相应的唯一标识信息;
删除模块,用于若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件;
存储模块,用于若所述标识文件数据库和所述云资源池中都不存在相同的标识信息,则将所述待存储文件对应的标识信息存入所述标识文件数据库中,并将所述待存储文件存入对应的云资源池。
进一步地,如上所述的装置,所述标识信息包括文件名信息;
所述标识查找模块具体用于:
根据由所述待存储文件生成的文件名信息查找所述云资源池和/或所述标识文件数据库中是否存在相同的文件名信息。
进一步地,如上所述的装置,所述标识信息还包括MD5串;
所述装置还包括:
MD5校验模块,用于若所述云资源池或所述标识文件数据库中存在与所述待存储文件相同的文件名信息,则根据所述待存储文件调用源数据库的应用程序接口,以得到对应的返回块数据;根据返回块数据的数据大小将所述待存储文件切割成多个所述数据大小的存储文件数据块;通过MD5的计算方式计算各个存储文件数据块以得到所述待存储文件对应的MD5串;根据所述待存储文件对应的MD5串查找所述云资源池和/或所述标识文件数据库中是否存在相同的MD5串。
进一步地,如上所述的装置,所述删除模块具体用于:
若所述标识文件数据库或所述云资源池中存在相同的标识信息,则检测所述资源池中是否存在与所述存储文件数据块相同的数据块;若检测到所述资源池中存在与所述存储文件数据块相同的数据块,则删除所述待存储文件。
进一步地,如上所述的装置,所述删除模块在检测所述资源池中是否存在相同的数据块时,具体用于:
对所述存储文件数据块通过折半查找方法查找所述资源池中是否存在相同的数据块。
本发明实施例第三方面提供一种云存储数据存储系统,包括:云资源池、标识文件数据库和第二方面所述的云存储数据存储装置;
所述云资源池用于存储数据;所述标识文件数据库用于存储云资源池中各数据对应的标识信息。
本发明实施例第四方面提供一种电子设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行第一方面任一项所述的云存储数据存储方法。
本发明实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的云存储数据存储方法。
本发明实施例提供的一种云存储数据存储方法、装置、设备及存储介质,该方法包括:获取终端的待存储文件,并根据所述待存储文件生成对应的标识信息;根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息;其中,所述云资源池中存储的所有数据都设有相应的唯一标识信息;若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件;若所述标识文件数据库和所述云资源池中都不存在相同的标识信息,则将所述待存储文件对应的标识信息存入所述标识文件数据库中,并将所述待存储文件存入对应的云资源池。本发明实施例的方法通过获取终端的待存储文件,并根据所述待存储文件生成的对应标识信息与预设的标识文件数据库和/或云资源池中的标识信息进行比较,从而查找所述标识文件数据库或所述云资源池中是否存在相同的标识信息。若不存在相同的标识信息,则代表云资源池中不存在相同的文件数据,从而可以将待存储文件存入云资源池中,并更新标识文件数据库的标识信息。若存在相同的标识信息,则代表所述云资源池中已经具有与待存储文件相同的文件数据,此时,将待存储文件删除可以降低存储重复数据的概率,降低存储资源的浪费。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为可以实现本发明实施例的云存储数据存储方法的场景图;
图2为本发明第一实施例提供的云存储数据存储方法的流程示意图;
图3为本发明第二实施例提供的云存储数据存储方法的流程示意图;
图4为本发明第三实施例提供的云存储数据存储装置的结构示意图;
图5为本发明第四实施例提供的云存储数据存储装置的结构示意图;
图6为本发明第五实施例提供的云存储数据存储系统的结构示意图;
图7为本发明第六实施例提供的电子设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。随着数据量的飞速增长,存储空间和传输速率成为当前网络存储领域的一大难题。对于存储空间,目前市面上大多数的云商都把研发核心放在了如何扩大存储空间上,通过扩大存储空间可以满足用户对于大存储容量的需求。一个云存储空间,随着用户不断的上传文件,容量会逐渐被填满。同时,由于用户在上传文件时,并不会去在意该文件是否已经上传过,当想存储文件时,自然而然的就将文件存储进对应的云存储空间中。这就导致目前大多数的云存储空间中高达80%以上的数据是冗余的,大量的冗余数据占据着大量的存储空间,造成了大量浪费存储资源的现象。
所以针对现有技术中云存储空间资源浪费的技术问题,发明人在研究中发现,为了解决目前云存储空间资源浪费的问题,可以通过在预设的标识文件数据和/或云资源池中设置各个存储文件的对应标识,即云资源池中各个存储文件自带对应的标识信息,标识文件数据中存储各个存储文件的标识信息。然后可以通过获取终端的待存储文件,并查找预设的标识文件数据和/或云资源池中是否存在相同的标识信息,若存在相同的标识信息,则代表云资源池中存在与待存储文件相同的文件数据。因此,本申请中,可以根据待存储文件的标识信息与标识文件数据库和/或云资源池中是否存在同样的标识信息来判断该待存储文件是否是重复的文件数据,若是重复的文件数据,则可以将待存储文件删除,从而可以降低存储重复数据的概率,降低存储资源的浪费。
发明人基于上述的创造性发现,提出了本申请的技术方案。
下面对本发明实施例提供的云存储数据存储方法的应用场景进行介绍。如图1所示,其中,1为第一电子设备,2为第一终端,3为第二终端,4为第二电子设备。其中,第一电子设备1为云存储数据存储设备。本发明实施例提供的云存储数据存储方法对应的应用场景的网络架构中包括:第一电子设备1,第一终端2,第二终端3,第二电子设备4。第二电子设备4可以作为云资源池和标识文件数据库,以存储文件数据以及文件数据对应的标识信息。在实际应用时,终端可以有多个,本实施例以两个终端进行举例说明。第一终端2和第二终端3在需要进行文件存储时,向第一电子设备1发送待存储文件。第一电子设备1在获取到对应待存储文件后,根据待存储文件生成对应的标识信息。然后第一电子设备1根据标识信息查找第二电子设备4中标识文件数据库和/或云资源池中是否存在相同的标识信息。若标识文件数据库或云资源池中不存在相同的标识信息,则代表云资源池中不存在相同的文件数据,从而可以将待存储文件存入第二电子设备4中,并更新第二电子设备4中的标识信息。若存在相同的标识信息,则代表第二电子设备4中的云资源池已经存在与待存储文件相同的文件数据,此时,将待存储文件删除可以降低存储重复数据的概率,降低存储资源的浪费。
本发明实施例提供的云存储数据存储方法,通过获取终端的待存储文件,并根据待存储文件生成的对应标识信息与预设的标识文件数据库和/或云资源池中的标识信息进行比较,从而查找标识文件数据库或云资源池中是否存在相同的标识信息。若不存在相同的标识信息,则代表云资源池中不存在相同的文件数据,从而可以将待存储文件存入云资源池中,并更新标识文件数据库的标识信息。若存在相同的标识信息,则代表云资源池中已经具有与待存储文件相同的文件数据了,此时,将待存储文件删除可以降低存储重复数据的概率,降低存储资源的浪费。
下面结合说明书附图对本发明实施例进行介绍。
图2为本发明第一实施例提供的云存储数据存储方法的流程示意图,如图2所示,本实施例中,本发明实施例的执行主体为云存储数据存储装置,该云存储数据存储装置可以集成在电子设备中。则本实施例提供的云存储数据存储方法包括以下几个步骤:
步骤S101,获取终端的待存储文件,并根据待存储文件生成对应的标识信息。
首先,本实施例中,获取的方式可以是通过终端直接上传待存储文件,比如终端上设有存储相关的软件,用户在需要存储文件时,可以通过终端上存储相关的软件直接上传文件。同时,也可以是终端在发送存储请求后,由云存储数据存储装置直接获取终端的待存储文件。本实施例对此不作限定。
本实施例中,待存储文件中可以包含相关标识数据,从而根据待存储文件中的相关标识数据生成对应的标识信息。
本实施例中,标识信息可以是文件名信息和/或MD5串,同时也可以是其他的标识信息,本实施例对此不作限定。
步骤S102,根据标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息。若是则执行步骤103,若否则执行步骤104。其中,云资源池中存储的所有数据都设有相应的唯一标识信息。
本实施例中,相同的标识信息指标识文件数据库和/或云资源池中存在与待存储文件对应的标识信息完全相同的标识信息。
本实施例中,根据标识信息可以查找预设的标识文件数据库中是否存在相同的标识信息,也可以查找云资源池中是否存在相同的标识信息,同时,也可以查找标识文件数据库和云资源池中是否存在相同的标识信息。
本实施例中,云资源池中存储的所有数据都设有相应的唯一标识信息指云资源池中存储的所有数据本身都具有对应的标识信息,此标识信息是唯一的,每个数据都对应不一样的标识信息。
步骤S103,若标识文件数据库或云资源池中存在相同的标识信息,则删除待存储文件。
本实施例中,若标识文件数据库或云资源池中存在相同的标识信息,则代表云资源池中已经具有与待存储文件相同的文件数据,此时,待存储文件不存入云资源池中,可以直接删除。
步骤S104,若标识文件数据库和云资源池中都不存在相同的标识信息,则将待存储文件对应的标识信息存入标识文件数据库中,并将待存储文件存入对应的云资源池。
本实施例中,若标识文件数据库和云资源池中都不存在相同的标识信息,则代表云资源池中不存在与待存储文件相同的文件数据,此时,可以将待存储文件存入云资源池中,并更新标识文件数据库中的标识文件,从而为查找下次需要存储的文件的标识信息提供基础。
本发明实施例提供的一种云存储数据存储方法,该方法包括:获取终端的待存储文件,并根据待存储文件生成对应的标识信息。根据标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息。其中,云资源池中存储的所有数据都设有相应的唯一标识信息。若标识文件数据库或云资源池中存在相同的标识信息,则删除待存储文件。若标识文件数据库和云资源池中都不存在相同的标识信息,则将待存储文件对应的标识信息存入标识文件数据库中,并将待存储文件存入对应的云资源池。本发明实施例的方法通过获取终端的待存储文件,并根据待存储文件生成的对应标识信息与预设的标识文件数据库和/或云资源池中的标识信息进行比较,从而查找标识文件数据库或云资源池中是否存在相同的标识信息。若不存在相同的标识信息,则代表云资源池中不存在相同的文件数据,从而可以将待存储文件存入云资源池中,并更新标识文件数据库的标识信息。若存在相同的标识信息,则代表云资源池中已经具有与待存储文件相同的文件数据了,此时,将待存储文件删除可以降低存储重复数据的概率,降低存储资源的浪费。
图3为本发明第二实施例提供的云存储数据存储方法的流程示意图,如图3所示,本实施例提供的云存储数据存储方法,是在本发明第一实施例提供的云存储数据存储方法的基础上,对其中各步骤的进一步细化。则本实施例提供的云存储数据存储方法包括以下步骤。
需要说明的是,标识信息可以包括文件名信息和MD5串。
步骤S201,获取终端的待存储文件,并根据待存储文件生成对应的标识信息。
步骤201的实现方式与本发明实施例一中的步骤101的实现方式类似,在此不再一一赘述。
步骤S202,根据由待存储文件生成的文件名信息查找云资源池和/或标识文件数据库中是否存在相同的文件名信息,若是则执行步骤204,若否则执行步骤203。
本实施例步骤202是对根据标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息这一步骤的进一步细化描述。
本实施例中,文件名信息是指给每个文件独立设置的起标识作用的标识信息,其一般与文件中具体的数据内容关联较低。查找文件名信息速度相对更快,从而可以通过查找待存储文件文件名信息与云资源池和/或标识文件数据库中是否存在相同的文件名信息来提高查找的效率。
步骤S203,将待存储文件对应的文件名信息存入标识文件数据库中并将待存储文件存入对应的云资源池。
步骤203的实现方式与本发明实施例一中的步骤104的实现方式类似,在此不再一一赘述。
步骤S204,根据待存储文件调用源数据库的应用程序接口,以得到对应的返回块数据。
本实施例步骤204,表示若云资源池或标识文件数据库中存在与待存储文件相同的文件名信息,则可以根据待存储文件调用源数据库的应用程序接口,以得到对应的返回块数据。
本实施例中,源数据库指编写代码的数据库,应用程序接口即api接口,根据待存储文件调用源数据库的应用程序接口,即可以得到返回块数据。在根据待存储文件调用源数据库的应用程序接口时,源数据库那端根据待存储文件的大小生成对应的返回块数据。其中,返回块数据表示数据大小。
步骤S205,根据返回块数据的数据大小将待存储文件切割成多个数据大小的存储文件数据块。
本实施例中,根据返回块数据的数据大小,比如返回块数据的数据大小为2M,则可以根据2M的大小将待存储文件切割成多个2M大小的存储文件数据块。
步骤S206,通过MD5的计算方式计算各个存储文件数据块以得到待存储文件对应的MD5串。
本实施例中,MD5指MD5信息摘要算法,英语全称为:MD5 Message-DigestAlgorithm。
步骤S207,根据待存储文件对应的MD5串查找云资源池和/或标识文件数据库中是否存在相同的MD5串,若是则执行步骤208,若否则执行步骤209。
本实施例中,由于MD5串与文件数据的关联性,相比于文件名信息与文件数据的关联性更大。在通过文件名信息查找后,再通过MD5串查找一遍云资源池和/或标识文件数据库中是否存在相同的MD5串可以提高查找的精确度,从而降低存储重复数据的概率。
步骤S208,删除待存储文件。
步骤208的实现方式与本发明实施例一中的步骤103的实现方式类似,在此不再一一赘述。
步骤S209,将待存储文件对应的文件名信息和MD5串存入标识文件数据库中并将待存储文件存入对应的云资源池。
步骤209的实现方式与本发明实施例一中的步骤104的实现方式类似,在此不再一一赘述。
可选的,本实施例中,若标识文件数据库或云资源池中存在相同的标识信息,则删除待存储文件,包括:
若标识文件数据库或云资源池中存在相同的标识信息,则检测资源池中是否存在与存储文件数据块相同的数据块。
同时,若检测到资源池中存在与存储文件数据块相同的数据块,则删除待存储文件。
本实施例中,存储文件数据块基于数据层面,一般涉及16进制的多位数。通过检测资源池中是否存在与存储文件数据块相同的数据块,可以进一步的判断资源池中是否已经存入了该待存储文件的相同文件数据。相比标识信息的判断查找方式,本实施例通过数据块的比对方式,可以更精确的判断查找资源池中是否存在该待存储文件的相同文件数据,精确度更高。
可选的,本实施例中,检测资源池中是否存在相同的数据块,包括:
对存储文件数据块通过折半查找方法查找资源池中是否存在相同的数据块。
本实施例中,折半查找方法指先从数据两端的数字代码比对查找,然后再查找中间的数字代码,直到查找到不同的地方或者直到查完所有的数字代码。通过折半查找方法可以提高查找资源池中是否存在相同的数据块的效率。
本发明实施例提供的一种云存储数据存储方法,通过获取终端的待存储文件,并根据待存储文件生成的对应标识信息,标识信息如文件名信息和MD5串,然后与预设的标识文件数据库和/或云资源池中的标识信息进行比较。同时,可以通过先使用文件名信息查找的方式,进行第一遍的快速查找对比,若云资源池和/或标识文件数据库中存在相同的文件名信息,则可以通过MD5串进行第二遍的查找对比。同时,为了更精确的查找,可以检测资源池中是否存在与存储文件数据块相同的数据块,从而提高查找云资源池和/或标识文件数据库中是否存在相同的文件数据的准确性,进而降低存储资源的浪费。
图4为本发明第三实施例提供的云存储数据存储装置的结构示意图,如图4所示,本实施例中,该云存储数据存储装置300包括:
标识生成模块301,用于获取终端的待存储文件,并根据待存储文件生成对应的标识信息。
标识查找模块302,用于根据标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息。其中,云资源池中存储的所有数据都设有相应的唯一标识信息。
删除模块303,用于若标识文件数据库或云资源池中存在相同的标识信息,则删除待存储文件。
存储模块304,用于若标识文件数据库和云资源池中都不存在相同的标识信息,则将待存储文件对应的标识信息存入标识文件数据库中,并将待存储文件存入对应的云资源池。
本实施例提供的云存储数据存储装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果与图2所示方法实施例类似,在此不再一一赘述。
图5为本发明第四实施例提供的云存储数据存储装置的结构示意图,下面将对本发明云存储数据存储装置的另一个实施例进行说明。本实施例提供的云存储数据存储装置400在上一个实施例提供的云存储数据存储装置300的基础上,进行了进一步的细化。
本实施例中,标识信息包括文件名信息。
同时,标识查找模块302具体用于:
根据由待存储文件生成的文件名信息查找云资源池和/或标识文件数据库中是否存在相同的文件名信息。
可选的,本实施例中,标识信息还包括MD5串。
同时,装置还包括:
MD5校验模块401,用于若云资源池或标识文件数据库中存在与待存储文件相同的文件名信息,则根据待存储文件调用源数据库的应用程序接口,以得到对应的返回块数据。根据返回块数据的数据大小将待存储文件切割成多个数据大小的存储文件数据块。通过MD5的计算方式计算各个存储文件数据块以得到待存储文件对应的MD5串。根据待存储文件对应的MD5串查找云资源池和/或标识文件数据库中是否存在相同的MD5串。
可选的,本实施例中,删除模块303具体用于:
若标识文件数据库或云资源池中存在相同的标识信息,则检测资源池中是否存在与存储文件数据块相同的数据块。若检测到资源池中存在与存储文件数据块相同的数据块,则删除待存储文件。
可选的,本实施例中,删除模块303在检测资源池中是否存在相同的数据块时,具体用于:
对存储文件数据块通过折半查找方法查找资源池中是否存在相同的数据块。
本实施例提供的云存储数据存储装置可以执行图2-图3所示方法实施例的技术方案,其实现原理和技术效果与图2-图3所示方法实施例类似,在此不再一一赘述。
图6为本发明为本发明第五实施例提供的云存储数据存储系统的结构示意图,如图6所示,本实施例中,该云存储数据存储系统包括:
包括:云资源池503、标识文件数据库502和上述两实施例中的云存储数据存储装置501。
其中,云资源池503用于存储数据,标识文件数据库502用于存储云资源池中各数据对应的标识信息。
本实施例中,云存储数据存储系统可以逐渐容纳新的云资源池,并在旧云资源池编号的基础上对新的云资源池进行编号。同时,存储文件的入库时间可以取值到毫米级。
本实施例中,新的待存储文件可以根据其MD5串以及云资源池的编号,将待存储文件存入资源池中。同时,云资源池采用一个主资源池,两个副资源池的形式储存文件数据。比如通过MD5的32位16进制数的ascii值进行逐位累加求和,比如求和的结果为2345,云资源池的编号n为110。此时,计算方式为:
110/3=36余2;
2345mod 36=5;
D=5*random(1、2、3)此处为3副本存储资源池中的某一个的编号。
从而可以根据计算的结果D将待存储文件存入对应编号的云资源池。
本实施例提供的云存储数据存储系统可以通过云存储数据存储装置执行图2-图3所示方法实施例的技术方案,云存储数据存储装置的实现原理和技术效果与图4-图5所示装置实施例类似,在此不再一一赘述。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读存储介质。
如图7所示,是根据本发明实施例提供的电子设备的结构示意图。电子设备为网络设备。旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图7所示,该电子设备包括:处理器601、存储器602。各个部件利用总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。
存储器602即为本发明所提供的计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本发明所提供的云存储数据存储方法。本发明的计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本发明所提供的云存储数据存储方法。
存储器602作为一种计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本发明实施例中的云存储数据存储方法对应的程序指令/模块(例如,附图4所示的标识生成模块301,标识查找模块302,删除模块303和存储模块304)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的云存储数据存储方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明实施例的其它实施方案。本发明旨在涵盖本发明实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明实施例的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明实施例的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种云存储数据存储方法,其特征在于,包括:
获取终端的待存储文件,并根据所述待存储文件生成对应的标识信息;
根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息;其中,所述云资源池中存储的所有数据都设有相应的唯一标识信息;
若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件;
若所述标识文件数据库和所述云资源池中都不存在相同的标识信息,则将所述待存储文件对应的标识信息存入所述标识文件数据库中,并将所述待存储文件存入对应的云资源池。
2.根据权利要求1所述的方法,其特征在于,所述标识信息包括文件名信息;
所述根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息包括:
根据由所述待存储文件生成的文件名信息查找所述云资源池和/或所述标识文件数据库中是否存在相同的文件名信息。
3.根据权利要求2所述的方法,其特征在于,所述标识信息还包括MD5串;
若所述云资源池或所述标识文件数据库中存在与所述待存储文件相同的文件名信息,则所述方法还包括:
根据所述待存储文件调用源数据库的应用程序接口,以得到对应的返回块数据;
根据返回块数据的数据大小将所述待存储文件切割成多个所述数据大小的存储文件数据块;
通过MD5的计算方式计算各个存储文件数据块以得到所述待存储文件对应的MD5串;
根据所述待存储文件对应的MD5串查找所述云资源池和/或所述标识文件数据库中是否存在相同的MD5串。
4.根据权利要求3所述的方法,其特征在于,所述若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件,包括:
若所述标识文件数据库或所述云资源池中存在相同的标识信息,则检测所述资源池中是否存在与所述存储文件数据块相同的数据块;
若检测到所述资源池中存在与所述存储文件数据块相同的数据块,则删除所述待存储文件。
5.根据权利要求4所述的方法,其特征在于,所述检测所述资源池中是否存在相同的数据块,包括:
对所述存储文件数据块通过折半查找方法查找所述资源池中是否存在相同的数据块。
6.一种云存储数据存储装置,其特征在于,包括:
标识生成模块,用于获取终端的待存储文件,并根据所述待存储文件生成对应的标识信息;
标识查找模块,用于根据所述标识信息查找预设的标识文件数据库和/或云资源池中是否存在相同的标识信息;其中,所述云资源池中存储的所有数据都设有相应的唯一标识信息;
删除模块,用于若所述标识文件数据库或所述云资源池中存在相同的标识信息,则删除所述待存储文件;
存储模块,用于若所述标识文件数据库和所述云资源池中都不存在相同的标识信息,则将所述待存储文件对应的标识信息存入所述标识文件数据库中,并将所述待存储文件存入对应的云资源池。
7.根据权利要求6所述的装置,其特征在于,所述标识信息包括文件名信息;
所述标识查找模块具体用于:
根据由所述待存储文件生成的文件名信息查找所述云资源池和/或所述标识文件数据库中是否存在相同的文件名信息。
8.一种云存储数据存储系统,其特征在于,包括:云资源池、标识文件数据库和权利要求6或7所述的云存储数据存储装置;
所述云资源池用于存储数据;所述标识文件数据库用于存储云资源池中各数据对应的标识信息。
9.一种电子设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1至5任一项所述的云存储数据存储方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的云存储数据存储方法。
CN202011301292.4A 2020-11-19 2020-11-19 云存储数据存储方法、装置、系统、设备及存储介质 Pending CN112511612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011301292.4A CN112511612A (zh) 2020-11-19 2020-11-19 云存储数据存储方法、装置、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011301292.4A CN112511612A (zh) 2020-11-19 2020-11-19 云存储数据存储方法、装置、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112511612A true CN112511612A (zh) 2021-03-16

Family

ID=74959920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011301292.4A Pending CN112511612A (zh) 2020-11-19 2020-11-19 云存储数据存储方法、装置、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112511612A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124937A (zh) * 2021-11-23 2022-03-01 天翼数字生活科技有限公司 一种自动化分布式云存储调度交互方法、装置及设备
CN114546280A (zh) * 2022-02-25 2022-05-27 创新奇智(重庆)科技有限公司 文件存储方法、装置、电子设备及计算机可读取存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141476A (zh) * 2007-10-09 2008-03-12 创新科存储技术(深圳)有限公司 文件存储、下载方法以及装置
CN103559279A (zh) * 2013-11-07 2014-02-05 深信服网络科技(深圳)有限公司 云存储加速方法及装置
CN103793468A (zh) * 2013-12-27 2014-05-14 北京天融信软件有限公司 数据存储方法和装置以及数据读取方法和装置
US20140181116A1 (en) * 2011-10-11 2014-06-26 Tianjin Sursen Investment Co., Ltd. Method and device of cloud storage
CN104618482A (zh) * 2015-02-02 2015-05-13 浙江宇视科技有限公司 访问云数据的方法、服务器、传统存储设备、架构
CN104932841A (zh) * 2015-06-17 2015-09-23 南京邮电大学 一种云存储系统中节约型重复数据删除方法
CN106020722A (zh) * 2016-05-19 2016-10-12 浪潮(北京)电子信息产业有限公司 一种云存储系统的重复数据去重方法、装置及系统
CN109324998A (zh) * 2018-09-18 2019-02-12 郑州云海信息技术有限公司 一种文件处理方法、装置及系统
CN109857548A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 存储空间优化方法、装置、计算机设备及存储介质
CN110535835A (zh) * 2019-08-09 2019-12-03 西藏宁算科技集团有限公司 一种基于消息摘要算法支持多云的共享云存储方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141476A (zh) * 2007-10-09 2008-03-12 创新科存储技术(深圳)有限公司 文件存储、下载方法以及装置
US20140181116A1 (en) * 2011-10-11 2014-06-26 Tianjin Sursen Investment Co., Ltd. Method and device of cloud storage
CN103559279A (zh) * 2013-11-07 2014-02-05 深信服网络科技(深圳)有限公司 云存储加速方法及装置
CN103793468A (zh) * 2013-12-27 2014-05-14 北京天融信软件有限公司 数据存储方法和装置以及数据读取方法和装置
CN104618482A (zh) * 2015-02-02 2015-05-13 浙江宇视科技有限公司 访问云数据的方法、服务器、传统存储设备、架构
CN104932841A (zh) * 2015-06-17 2015-09-23 南京邮电大学 一种云存储系统中节约型重复数据删除方法
CN106020722A (zh) * 2016-05-19 2016-10-12 浪潮(北京)电子信息产业有限公司 一种云存储系统的重复数据去重方法、装置及系统
CN109324998A (zh) * 2018-09-18 2019-02-12 郑州云海信息技术有限公司 一种文件处理方法、装置及系统
CN109857548A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 存储空间优化方法、装置、计算机设备及存储介质
CN110535835A (zh) * 2019-08-09 2019-12-03 西藏宁算科技集团有限公司 一种基于消息摘要算法支持多云的共享云存储方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋雨: "一种云环境下智能电网中的重复数据删除机制", 《电力信息与通信技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124937A (zh) * 2021-11-23 2022-03-01 天翼数字生活科技有限公司 一种自动化分布式云存储调度交互方法、装置及设备
CN114546280A (zh) * 2022-02-25 2022-05-27 创新奇智(重庆)科技有限公司 文件存储方法、装置、电子设备及计算机可读取存储介质
CN114546280B (zh) * 2022-02-25 2024-06-21 创新奇智(重庆)科技有限公司 文件存储方法、装置、电子设备及计算机可读取存储介质

Similar Documents

Publication Publication Date Title
CN107832406B (zh) 海量日志数据的去重入库方法、装置、设备及存储介质
CN105760199B (zh) 一种应用资源加载方法及其设备
US10540325B2 (en) Method and device for identifying junk picture files
CN111143113B (zh) 复制元数据的方法、电子设备和计算机程序产品
CN112511612A (zh) 云存储数据存储方法、装置、系统、设备及存储介质
CN113568940B (zh) 数据查询的方法、装置、设备以及存储介质
CN107832440B (zh) 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN113806300B (zh) 数据存储方法、系统、装置、设备及存储介质
CN112416880A (zh) 一种基于实时归并的海量小文件存储性能优化方法及装置
CN112748866B (zh) 一种增量索引数据的处理方法和装置
CN116796085A (zh) 一种文件处理方法、装置、电子设备及存储介质
CN111666278B (zh) 数据存储、检索方法、电子设备及存储介质
CN109298928B (zh) 业务的处理方法及装置
CN105610596B (zh) 一种资源目录管理方法和网络终端
CN112395337A (zh) 一种数据导出方法和装置
CN108173892B (zh) 云端镜像操作方法和装置
CN111625500B (zh) 文件快照方法及装置、电子设备和存储介质
CN118210811A (zh) 一种业务处理方法、装置、电子设备及计算机可读介质
CN110555158A (zh) 互斥数据处理方法及系统、计算机可读存储介质
CN113282489A (zh) 一种接口测试方法和装置
CN113448957A (zh) 一种数据查询方法和装置
CN111639099A (zh) 全文索引方法及系统
CN115759233B (zh) 模型的训练方法、图数据处理方法、装置及电子设备
CN111061712A (zh) 一种数据连接操作的处理方法及装置
CN105468603A (zh) 数据选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210316

RJ01 Rejection of invention patent application after publication