CN113126888B - 用于存储管理的方法、设备和计算机程序产品 - Google Patents

用于存储管理的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN113126888B
CN113126888B CN202010043186.4A CN202010043186A CN113126888B CN 113126888 B CN113126888 B CN 113126888B CN 202010043186 A CN202010043186 A CN 202010043186A CN 113126888 B CN113126888 B CN 113126888B
Authority
CN
China
Prior art keywords
storage
target data
service
stored
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010043186.4A
Other languages
English (en)
Other versions
CN113126888A (zh
Inventor
聂雨虹
吴鹏飞
陈天翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202010043186.4A priority Critical patent/CN113126888B/zh
Priority to US16/836,176 priority patent/US11461284B2/en
Publication of CN113126888A publication Critical patent/CN113126888A/zh
Application granted granted Critical
Publication of CN113126888B publication Critical patent/CN113126888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据本公开的示例实施例,提供了一种用于存储管理的方法、设备和计算机程序产品。该方法包括在第一节点部署的第一存储服务处,获取在第一节点部署的第一计算服务对第一目标数据的第一请求,第一存储服务具有对远程存储装置的访问并且向第一计算服务提供与远程存储装置相同的访问接口,远程存储装置存储在第一计算服务要至少部分执行的任务中可重用的数据集,并且数据集包括第一目标数据;基于第一请求,从远程存储装置或针对第一存储服务的本地存储空间获取第一目标数据;以及向第一计算服务提供第一目标数据。由此,本方案可以高效地获取数据,并且降低获取数据的成本。

Description

用于存储管理的方法、设备和计算机程序产品
技术领域
本公开的实施例总体涉及计算机技术,具体涉及用于存储管理的方法、设备和计算机程序产品。
背景技术
深度学习涉及处理大规模深度学习模型或将深度学习模型应用于大规模数据集。深度学习任务需要访问大量数据。通常,这些数据被存储在诸如云的远程存储装置中。因此,需要高效且可靠地获取这些数据,特别是当深度学习任务以分布式方式来实现时。
发明内容
本公开的实施例提供了用于存储管理的方法、设备和计算机程序产品。
在本公开的第一方面,提供了一种用于存储管理的方法。该方法包括:在第一节点部署的第一存储服务处,获取在第一节点部署的第一计算服务对第一目标数据的第一请求,第一存储服务具有对远程存储装置的访问并且向第一计算服务提供与远程存储装置相同的访问接口,远程存储装置存储在第一计算服务要至少部分执行的任务中可重用的数据集,并且数据集包括第一目标数据;基于第一请求,从远程存储装置或针对第一存储服务的本地存储空间获取第一目标数据;以及向第一计算服务提供第一目标数据。
在本公开的第二方面,提供了一种电子设备。该设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得设备执行动作,该动作包括:在第一节点部署的第一存储服务处,获取在第一节点部署的第一计算服务对第一目标数据的第一请求,第一存储服务具有对远程存储装置的访问并且向第一计算服务提供与远程存储装置相同的访问接口,远程存储装置存储在第一计算服务要至少部分执行的任务中可重用的数据集,并且数据集包括第一目标数据;基于第一请求,从远程存储装置或针对第一存储服务的本地存储空间获取第一目标数据;以及向第一计算服务提供第一目标数据。
在本公开的第三方面,提供了一种计算机程序产品。计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行时使机器执行动作,该动作包括:在第一节点部署的第一存储服务处,获取在第一节点部署的第一计算服务对第一目标数据的第一请求,第一存储服务具有对远程存储装置的访问并且向第一计算服务提供与远程存储装置相同的访问接口,远程存储装置存储在第一计算服务要至少部分执行的任务中可重用的数据集,并且数据集包括第一目标数据;基于第一请求,从远程存储装置或针对第一存储服务的本地存储空间获取第一目标数据;以及向第一计算服务提供第一目标数据。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了传统存储管理环境的示例的示意图;
图2示出了根据本公开的一些实施例的存储管理环境的方法的流程图;
图3示出了根据本公开的一些实施例的一个存储管理示例;
图4示出了根据本公开的一些实施例的目标数据被存储在本地存储装置中的一个存储管理示例;
图5示出了根据本公开的一些实施例的目标数据的存储位置被存储在本地分布式哈希表中的一个存储管理示例;
图6示出了根据本公开的一些实施例的目标数据的存储位置未被存储在本地分布式哈希表中的一个存储管理示例;
图7示出了根据本公开的一些实施例的实现并发数据获取的一个存储管理示例;
图8示出了根据本公开的一些实施例的实现智能数据获取的一个存储管理示例;
图9示出了根据本公开的一些实施例的用于存储管理的方法的流程图;以及
图10示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,深度学习任务涉及大量数据的使用。因此,如何管理这些数据是至关重要的。图1示出了传统存储管理环境100的示例的示意图。存储管理环境100包括节点集群130和远程存储装置140。节点集群130部署有用于执行诸如分布式深度学习任务的计算服务集群110。分布式深度学习任务所需的数据被存储在诸如云的远程存储装置140中。计算服务集群110在执行分布式深度学习任务时向远程存储装置140请求所需的数据。作为响应,远程存储装置140向计算服务集群110返回所请求的数据。
具体地,节点集群130包括多个节点,诸如节点135-1至135-3(在下文中,统称为“节点135”)。每个节点都部署有相应的至少一个计算服务,诸如计算服务115-1至115-3(在下文中,统称为“计算服务115”)。计算服务115在执行其所分配的分布式深度学习任务的一部分时,向远程存储装置140请求其所需的部分数据。
如果期望获取的数据太大,则计算服务115需要发送多个请求以加速数据获取。例如,需要使用分段上传/下载来处理远程存储装置140中的大数据文件,其中每个请求获取大数据文件的一部分,而非整个大数据文件。但是,数据分段上传/下载的逻辑需要由用户实现。对于用户而言,协调多个请求是一个挑战。
此外,分布式深度学习具有多个时期(epoch)。在一个时期中涉及的整个数据集通过深度学习神经网络向前和向后传递一次。在当前数据获取策略下,即使在上一个时期已经获取了相同的数据集,在当前时期也将创建用于获取数据集的大量请求。这是因为虽然在上一个时期和当前时期中获取的整个数据集相同,但是相对于上一个时期的数据集,当前时期的数据集被混洗。因此,对于执行分布式深度学习的计算集群130的每个计算节点135而言,其将在不同时期获取数据集中的不同数据片段。由于计算集群130无法在本地持久地存储数据,因此计算节点135不得不在每个时期不断地从远程存储装置140获取数据片段,即使这些数据片段在上一个时期已经被其他计算节点135获取。
另外,虽然在诸如云的远程存储装置140中存储数据很便宜,但是如果用户想要使用这些数据,则云提供商将根据所发送的数据请求数和所下载的数据大小进行收费。因此,尝试从远程存储装置140获取大量数据并不便宜。
进一步地,即使计算集群130的网络带宽和磁盘访问速率都足够大,仍然难以保证从远程存储装置140获取数据的速度。一些云提供商提供了数据传输加速服务,然而这些服务除价格高昂之外,也无法保证速度提升的稳定性。
根据本公开的示例实施例,提出了一种用于存储管理的改进方案。在该方案中,当在一个节点部署的一个计算服务要执行其所分配的任务或部分任务时,该计算服务向在该节点部署的存储服务发送针对该一部分任务所需的数据的请求。该存储服务具有对存储任务的可重用的数据集的远程存储装置的访问,并且向该计算服务提供与远程存储装置相同的访问接口。由此,该存储服务基于第一请求,从远程存储装置或针对该存储服务的本地存储空间获取第一目标数据,并且向第一计算服务提供第一目标数据。
以此方式,由存储服务作为中间层来负责管理计算服务对目标数据的多个请求以及对远程存储装置的访问,使得用户无需手动配置任务处理过程中的数据访问操作,可以实现更轻松、更高效地管理和移动与计算服务所执行的任务相关联的数据。
在下文中,将结合图2-图8更详细地描述本方案的具体示例。图2示出了根据本公开的一些实施例的存储管理环境200的示例的示意图。与存储管理环境100相似,存储管理环境200包括节点集群230和远程存储装置240。节点集群230部署有用于执行诸如分布式深度学习任务的任务的计算服务集群210。任务所需的数据被存储在远程存储装置240中,诸如云、远程数据存储中心、经由网络连接的存储装置等。不同之处在于,节点集群230还部署有存储服务集群220。
具体地,节点集群230包括多个节点,诸如节点235-1至235-3(在下文中,统称为“节点235”)。节点235可以包括但不限于大型计算机、服务器、边缘计算节点、个人计算机、桌面计算机、膝上型计算机、平板计算机和个人数字助理等任何具有计算能力的设备。在一些情况中,节点235也可以称为客户端、计算设备等。
每个节点235部署有相应的至少一个计算服务,诸如计算服务215-1至215-3(在下文中,统称为“计算服务215”)。多个计算服务215可以共同执行任务,诸如分布式深度学习任务、高性能计算任务、大数据挖掘任务等。例如,多个计算服务215可以并行或串行执行任务的一部分。当然,在一些实现中,单个计算服务215可以执行单独执行整个非分布式任务。
除计算服务215之外,每个节点235还部署有相应的存储服务,诸如存储服务225-1至225-3(在下文中,统称为“存储服务225”)。存储服务225可以用于管理计算服务215在执行相应任务时所需的数据。每个节点235还设置有用于存储服务225的本地存储装置,诸如本地存储装置226-1至226-3(在下文中,统称为“本地存储装置226”)。本地存储装置226可以用于存储计算服务215所执行的相应任务所需的数据,在一些实施例中,每个节点235还设置有分布式哈希表,诸如分布式哈希表228-1至228-3(在下文中,统称为“分布式哈希表228”)。分布式哈希表228可以用于定位数据。关于分布式哈希表228如何定位数据将在下文中详细描述。
多个存储服务225可以形成存储服务集群220。存储服务集群220可以充当计算服务集群210和远程存储装置240之间的中间层。存储服务集群220具有对远程存储装置240的访问,并且向计算服务集群210提供与远程存储装置240相同的访问接口。除在远程存储装置240中存储计算服务集群210执行任务所需的数据集之外,存储服务集群220也可以在其本地存储空间中存储计算服务集群210执行任务所需的数据集。本地存储空间由本地存储装置226组成。由于本地存储空间被部署在与存储服务集群220相同的节点集群230上,因此相比于远程存储装置230,这样的本地存储空间对于存储服务集群220而言是本地的,可以提供更快速、更低成本的数据访问。期望由存储服务215提供的数据集针对要执行的任务是可重用的。例如,针对分布式深度学习任务,当前时期和上一个时期的整个数据集是相同的,因此是可重用的。
由此,计算服务215在执行任务时向远程存储装置240发送的数据请求可以在无需改变格式的情况下被存储服务225接收。存储服务225可以检查所请求的数据是否被存储在本地存储空间中。在所请求的数据被存储在本地存储空间中的情况下,存储服务225可以向计算服务215返回所请求的数据。
然而,在所请求的数据可能未被存储在本地存储空间的情况下,存储服务225可以从远程存储装置240获取所请求的数据,并且向计算服务215返回所获取的数据。此外,存储服务225还可以存储所获取的数据,使得在下一次执行任务时,诸如在分布式深度学习任务的下一个时期中,计算服务215可以直接从本地存储空间获取数据,而不必要从远程存储装置240获取数据。
以此方式,计算服务215无需关注如何发送多个请求以加速数据获取,并且用户也无需关注如何实现数据的分段上传/下载的逻辑。由存储服务225作为中间层来负责管理计算服务215对目标数据的多个请求以及对远程存储装置240的访问。此外,由于存储服务225的本地存储空间可以对数据进行存储,因此提高了数据获取速度并且减少了对远程存储装置140的访问。由此,针对诸如分布式深度学习任务的数据可重用任务可以实现高效低成本的存储管理。
图3示出了根据本公开的一些实施例的一个存储管理示例。在图3的示例中,参考存储服务225-1对计算服务215-1的数据请求进行响应来进行描述。注意,虽然参考存储服务225-1进行描述,但其他存储服务也可以类似操作。
存储服务225-1和计算服务215-1部署在节点235-1处。如上所述,计算服务集群210可以执行诸如分布式深度学习任务的任务。在这种情况下,计算服务215-1可以和在其他节点(诸如,节点235-2和235-3)部署的其他计算服务(诸如,计算服务215-2和215-3)共同执行诸如分布式深度学习任务的任务。换句话说,计算服务215-1可以执行整个计算服务集群210所执行的任务的至少一部分。
计算服务215-1在执行其所分配的部分任务时通常需要使用相应数据。例如,计算服务215-1在执行其所分配的分布式深度学习任务的一部分时,需要在分布式深度学习任务的一个时期中使用的数据。这样的数据是在分布式深度学习任务中使用的完整数据集的至少一部分。为此,计算服务215-1可以向存储服务225-1发送310针对目标数据的请求。如上所述,存储服务225-1向计算服务215-1提供与远程存储装置240相同的访问接口,因此,计算服务215-1无需改变其请求格式,从而可以实现对传统存储管理环境的兼容并且提高灵活性和适应性。
基于来自计算服务215-1的请求,存储服务225-1被配置为从远程存储装置240获取350或针对存储服务225-1的本地存储空间获取355所请求的目标数据。在获取目标数据之后,存储服务225-1向发送360请求的计算服务215-1提供目标数据。目标数据具体如何获取,将取决于目标数据是被存储在存储服务集群220的各个存储服务215的本地存储空间(以及具体哪个本地存储装置226)或者是被存储在远程存储装置240。在下文中,将结合图4至图7来详细描述在不同情况下存储服务225-1如何获取目标数据。
图4示出了根据本公开的一些实施例的目标数据被存储在本地存储装置中的一个存储管理示例。在图4的示例中,参考存储服务225-1对计算服务215-1的数据请求进行响应来进行描述。注意,虽然参考存储服务225-1进行描述,但其他存储服务也可以类似操作。
存储服务225-1接收410到来自计算服务215-1的请求后,可以基于该请求来确定目标数据是否被存储在部署存储服务225-1的节点235-1的本地存储装置226-1中。在图4的示例中,由于目标数据被存储在本地存储装置226-1中,因此存储服务225-1可以直接从本地存储装置226-1获取目标数据,并且向计算服务215-1提供460该目标数据。
可见,在目标数据被存储在本地存储装置中的情况下,存储管理过程不仅简单高效,还避免了对远程存储装置的请求,从而提高了效率,并且降低了成本。
然而,还存在目标数据并未被存储在本地存储装置中的情况。在这种情况下,可以借助于用于定位目标数据的分布式哈希表来进行存储管理过程。具体地,每个存储服务225具有相应的分布式哈希表228。分布式哈希表228相关联地存储对数据的标识(例如,文件名、地址等)进行哈希操作的哈希结果和数据在其他节点235的其他本地存储装置226或远程存储装置240中的存储位置。换言之,分布式哈希表228可以用于定位被存储在其他节点的本地存储装置或远程存储装置中的数据。
注意,由于节点集群230中具有大量节点235,因此每个节点235并不完全知道其他节点的情况。为此,每个存储服务225的分布式哈希表228并不存储针对任务中使用的完整数据集的信息,而仅存储针对完整数据集的部分数据的信息。
图5示出了根据本公开的一些实施例的目标数据的存储位置被存储在本地分布式哈希表中的一个存储管理示例。在图5的示例中,参考存储服务225-1对计算服务215-1的数据请求进行响应来进行描述。注意,虽然参考存储服务225-1进行描述,但其他存储服务也可以类似操作。
存储服务225-1接收510到来自计算服务215-1的请求后,基于该请求确定目标数据是否被存储在部署存储服务225-1的节点235-1的本地存储装置226-1中,并且在图5的示例中,存储服务225-1确定目标数据未被存储在本地存储装置226-1中。因此,存储服务225-1无法从本地存储装置226-1获取目标数据。
在这种情况下,存储服务225-1可以利用其分布式哈希表228-1。在一些实施例中,存储服务225-1可以从该请求获取目标数据的标识,并且通过对目标数据的标识进行哈希操作,生成针对目标数据的哈希结果。存储服务225-1可以基于哈希结果,使用分布式哈希表228-1来获取目标数据。
存储服务225-1可以确定哈希结果是否被存储在分布式哈希表228-1中。在图5的示例中,假设哈希结果被存储在分布式哈希表228-1中。在这种情况下,存储服务225-1可以从分布式哈希表228-1中与哈希结果相关联地存储的存储位置获取目标数据。例如,在存储位置位于其他节点的其他本地存储装置(诸如,节点235-3的本地存储装置226-3)中的情况下,存储服务225-1可以从本地存储装置226-3获取555目标数据。而在存储位置位于远程存储装置240中的情况下,存储服务225-1可以从远程存储装置240获取550目标数据。
然后,存储服务225-1可以向计算服务215-1提供560目标数据。在一些实施例中,除向计算服务215-1提供560目标数据之外,存储服务225-1还可以将目标数据存储在本地存储装置226-1中。在本地存储装置226-1容量有限的情况下,存储服务225-1还可以采用最近最少使用算法(LRU)来管理本地存储装置226-1中存储的数据,使得本地存储装置226-1被高效利用。
图6示出了根据本公开的一些实施例的目标数据的存储位置未被存储在本地分布式哈希表中的一个存储管理示例。在图6的示例中,参考存储服务225-1对计算服务215-1的数据请求进行响应来进行描述。注意,虽然参考存储服务225-1进行描述,但其他存储服务也可以类似操作。
在图6的示例中,存储服务225-1从计算服务215-1获取610针对目标数据的请求,并且确定哈希结果未被存储在分布式哈希表228-1中。在这种情况下,存储服务225-1可以从其他节点部署的其他存储服务中确定一个存储服务(诸如,存储服务225-3)。对存储服务225-3的标识(例如,存储服务名、存储服务地址等)进行哈希操作的哈希结果与目标数据的哈希结果的相似度超过相似度阈值,例如哈希结果之间的汉明距离最短。
存储服务225-1可以向存储服务225-3发送620用于确定目标数据的目标存储位置的请求。存储服务225-3可以利用与存储服务225-1类似的方式确定目标存储位置。在一些实施例中,存储服务225-3可以基于该请求,确定目标数据是否被存储在部署存储服务225-3的节点235-3的本地存储装置226-3中。在目标数据被存储在本地存储装置226-3中的情况下,存储服务225-3可以向存储服务225-1发送目标数据在本地存储装置226-3中的存储位置。
在目标数据未被存储在本地存储装置226-3中的情况下,存储装置226-3可以基于对目标数据的标识进行哈希操作的哈希结果,使用其分布式哈希表228-3来促使目标数据的目标存储位置被确定。
在一些实施例中,存储服务225-3可以确定哈希结果是否被存储在分布式哈希表228-3中。在图6的示例中,假设哈希结果被存储在分布式哈希表228-3中。在这种情况下,存储服务225-3可以将分布式哈希表228-3中与哈希结果相关联地存储的存储位置(例如,目标数据被存储在远程存储装置240中的地址)提供给存储服务225-1。
值得注意的是,虽然图6中未示出,但是如果哈希结果未被存储在分布式哈希表228-3中,则存储服务225-3可以继续从其他节点部署的其他存储服务中确定一个存储服务(诸如,存储服务225-2),对存储服务225-2的标识进行哈希操作的哈希结果与目标数据的哈希结果的相似度超过相似度阈值。
存储服务225-3可以向存储服务225-2发送用于确定目标数据的目标存储位置的请求。存储服务225-2在接收到该请求之后,将执行类似于存储服务225-3的确定目标存储位置的操作。以此方式,可以逐节点235确定目标存储位置,直到找到目标存储位置为止。
在一些实施例中,找到目标存储位置的存储服务225可以向前一存储服务225提供目标存储位置。而在用于确定目标存储位置的请求包括源存储服务225的地址的情况下,找到目标存储位置的存储服务225也可以直接向源存储服务225提供目标存储位置。这里,源存储服务225是指从计算服务215接收请求的存储服务225。
注意,存储服务225-3所执行的上述确定目标存储位置的操作可以由任何存储服务(诸如,存储服务225-1和225-2)执行。
返回参考图6,存储服务225-1可以从存储服务225-3接收630目标存储位置,并且从远程存储装置240获取650目标数据。然后,存储服务225-1可以向计算服务215-1提供660目标数据。如上所述,在一些实施例中,存储服务225-1还可以将目标数据存储在本地存储装置226-1中。此外,存储服务225-1还可以更新其分布式哈希表228-1。具体地,存储服务225-1还可以在分布式哈希表228-1中相关联地存储目标数据的哈希结果和目标存储位置(诸如,目标数据被存储在远程存储装置240中的地址)。
以此方式,在下一次执行任务时,存储服务225-1可以从其本地存储装置226-1提供任务所需的目标数据,并且也知道目标数据的目标存储位置。
由于存储管理环境200中存在远程存储装置240和多个本地存储装置226,因此任务所需的数据也可能同时存在于多个存储装置中。为了加速数据获取速度,本方案还支持从多个存储装置并发获取数据。
图7示出了根据本公开的一些实施例的实现并发数据获取的一个存储管理示例。在图7的示例中,参考存储服务225-2对计算服务215-1的数据请求进行响应来进行描述。注意,虽然参考存储服务225-2进行描述,但其他存储服务也可以类似操作。。
存储服务225-2从计算服务215-2获取710针对目标数据的请求。存储服务225-2确定目标数据既不存储在本地存储装置226-2中,并且目标数据的哈希结果也未被存储在分布式哈希表228-2中。在这种情况下,存储服务225-2可以向存储服务235-3发送720用于确定目标数据的目标存储位置的请求。对存储服务225-3的标识进行哈希操作的哈希结果与目标数据的哈希结果的相似度超过相似度阈值。
存储服务225-3可以确定目标存储位置,并且将其提供给存储服务225-2。在图7的示例中,目标存储位置既指示了目标数据被存储在远程存储装置240中的地址,也指示了目标数据被存储在本地存储装置226-1中的地址。
存储服务225-2可以从存储服务225-3接收730目标存储位置,并且从远程存储装置240和本地存储装置226-1并发地获取750目标数据。注意,目标存储位置指示远程存储装置240中的地址和本地存储装置226-1中的地址仅用于说明的目的。事实上,目标存储位置可以指示远程存储装置240中的地址和/或多个本地存储装置226中的任意数目的多个存储装置中的地址以实现并发。
然后,存储服务225-2可以向计算服务215-2提供760目标数据。此外,类似于存储服务225-1,存储服务225-2也可以存储目标数据和更新其分布式哈希表228-2以记录目标数据及其目标存储位置。
虽然并发方式加快了数据获取速度,然而,如上所述,从远程存储装置240获取大量数据并不便宜,并且也无法保证稳定的数据获取速度。为此,在一些实施例中,当在本地存储装置226中存在目标数据的情况下,存储服务225将不会从远程存储装置240获取数据。
图8示出了根据本公开的一些实施例的实现智能数据获取的一个存储管理示例。在图8的示例中,参考存储服务225-2对计算服务215-1的数据请求进行响应来进行描述。注意,虽然参考存储服务225-2进行描述,但其他存储服务也可以类似操作。
存储服务225-2从计算服务215-2获取810针对目标数据的请求。存储服务225-2确定目标数据既不存储在本地存储装置226-2中,并且目标数据的哈希结果也未被存储在分布式哈希表228-2中。在这种情况下,存储服务225-2可以向存储服务235-3发送820用于确定目标数据的目标存储位置的请求。对存储服务225-3的标识进行哈希操作的哈希结果与目标数据的哈希结果的相似度超过相似度阈值。存储服务225-3可以确定目标存储位置,并且将其提供给存储服务225-2。
类似于图7,在图8的示例中,同样假定目标存储位置既指示了目标数据被存储在远程存储装置240中的地址,也指示了目标数据被存储在本地存储装置226-1中的地址。
然而,存储服务225-2在确定目标数据存储在远程存储装置240和本地存储装置226-1中的情况下,仅将目标数据在本地存储装置226-1中的存储位置提供给存储服务225-2,而不将目标数据在远程存储装置240中的存储位置提供给存储服务225-2。
为此,存储服务225-2从存储服务225-3接收830的目标存储位置仅指示目标数据在本地存储装置226-1中的存储位置。从而,存储服务225-2将仅从本地存储装置226-1获取850目标数据,而不从远程存储装置240获取目标数据。以此方式,可以避免对远程存储装置240的使用,以降低成本。
图9示出了根据本公开的一些实施例的用于存储管理的方法900的流程图。方法900例如可以被实现在如图2所示的存储服务225处。为便于讨论,下文将参考图2来描述方法900。应当理解的是,方法900还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
在910,在第一节点部署的第一存储服务处,获取在第一节点部署的第一计算服务对第一目标数据的第一请求。第一存储服务具有对远程存储装置的访问并且向第一计算服务提供与远程存储装置相同的访问接口。远程存储装置存储在第一计算服务要至少部分执行的任务中可重用的数据集,并且数据集包括第一目标数据。在920,第一存储服务基于第一请求,从远程存储装置或针对第一存储服务的本地存储空间获取第一目标数据。在930,向第一计算服务提供第一目标数据。
在一些实施例中,任务包括由第一计算服务和在至少一个其他节点部署的其他计算服务共同执行的分布式深度学习任务,并且第一目标数据包括在分布式深度学习任务的一个时期中使用的数据。
在一些实施例中,获取第一目标数据包括:基于第一请求,确定第一目标数据是否被存储在第一节点的第一本地存储装置中;以及根据确定第一目标数据被存储在第一本地存储装置中,从第一本地存储装置获取第一目标数据。
在一些实施例中,任务由第一计算服务和在至少一个其他节点上部署的至少一个其他计算服务共同执行,并且第一存储服务具有分布式哈希表,分布式哈希表相关联地存储对数据集中的至少部分数据的标识进行哈希操作的哈希结果和至少部分数据在至少一个其他节点的其他本地存储装置或远程存储装置中的存储位置,并且获取第一目标数据包括:根据确定第一目标数据未被存储在第一本地存储装置中:从第一请求获取第一目标数据的标识;通过对第一目标数据的标识进行哈希操作,生成针对第一目标数据的第一哈希结果;以及基于第一哈希结果,使用分布式哈希表来获取第一目标数据。
在一些实施例中,基于第一哈希结果使用分布式哈希表来获取第一目标数据包括:确定第一哈希结果是否被存储在分布式哈希表中;根据确定第一哈希结果被存储在分布式哈希表中,从分布式哈希表中与第一哈希结果相关联地存储的存储位置获取第一目标数据;以及根据确定第一哈希结果未被存储在分布式哈希表中:确定在至少一个其他节点部署的至少一个其他存储服务中的第二存储服务,对第二存储服务的标识进行哈希操作的第二哈希结果与第一哈希结果的相似度超过相似度阈值;向第二存储服务发送用于确定第一目标数据的第一目标存储位置的第二请求;从第二存储服务接收第一目标存储位置;以及从第一目标存储位置获取第一目标数据。
在一些实施例中,第一存储服务根据从第一目标存储位置获取第一目标数据,将第一目标数据存储在第一本地存储装置中;以及在分布式哈希表中相关联地存储第一哈希结果和第一目标存储位置。
在一些实施例中,任务由第一计算服务和在至少一个其他节点部署的至少一个其他计算服务共同执行。第一存储服务从在至少一个其他节点部署的至少一个其他存储服务中的第三存储服务获取用于确定第二目标数据的第二目标存储位置的第三请求;基于第三请求,确定第二目标数据是否被存储在第一节点的第一本地存储装置中;根据确定第二目标数据被存储在第一本地存储装置中,向第三存储服务发送第二目标数据在第一本地存储装置中的存储位置;根据确定第二目标数据未被存储在第一本地存储装置中,基于对第二目标数据的标识进行哈希操作的第二哈希结果,使用第一存储服务对应的分布式哈希表来促使第二目标数据的第二目标存储位置被确定。
在一些实施例中,第一存储服务根据第二目标数据被确定存储在远程存储装置和至少一个其他节点的其他本地存储装置中,促使第二目标数据在其他本地存储装置中的存储位置被提供给第三存储服务,而不促使第二目标数据在远程存储装置中的存储位置被提供给第三存储服务。
图10示出了可以用来实施本公开内容的实施例的示例设备1000的示意性框图。例如,如图2所示的存储服务225可以由设备1000来实施。如图所示,设备1000包括中央处理单元(CPU)1010,其可以根据存储在只读存储器(ROM)1020中的计算机程序指令或者从存储单元1080加载到随机访问存储器(RAM)1030中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1030中,还可存储设备1000操作所需的各种程序和数据。CPU 1010、ROM 1020以及RAM 1030通过总线1040彼此相连。输入/输出(I/O)接口1050也连接至总线1040。
设备1000中的多个部件连接至I/O接口1050,包括:输入单元1060,例如键盘、鼠标等;输出单元1070,例如各种类型的显示器、扬声器等;存储单元1080,例如磁盘、光盘等;以及通信单元1090,例如网卡、调制解调器、无线通信收发机等。通信单元1090允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法900,可由处理单元1010执行。例如,在一些实施例中,方法900可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1080。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1020和/或通信单元1090而被载入和/或安装到设备1000上。当计算机程序被加载到RAM1030并由CPU 1010执行时,可以执行上文描述的方法900的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (18)

1.一种用于存储管理的方法,包括:
在第一节点部署的第一存储服务处,获取在所述第一节点部署的第一计算服务对第一目标数据的第一请求,所述第一存储服务具有对远程存储装置的访问并且向所述第一计算服务提供与所述远程存储装置相同的访问接口,所述远程存储装置存储在所述第一计算服务要至少部分执行的任务中可重用的数据集,并且所述数据集包括所述第一目标数据;
基于所述第一请求,从所述远程存储装置或针对所述第一存储服务的本地存储空间获取所述第一目标数据;以及
向所述第一计算服务提供所述第一目标数据,
其中获取所述第一目标数据包括:
基于所述第一请求,确定所述第一目标数据是否被存储在所述第一节点的第一本地存储装置中;以及
根据确定所述第一目标数据被存储在所述第一本地存储装置中,从所述第一本地存储装置获取所述第一目标数据,并且
其中所述任务由所述第一计算服务和在至少一个其他节点上部署的至少一个其他计算服务共同执行,并且所述第一存储服务具有分布式哈希表,所述分布式哈希表相关联地存储对所述数据集中的至少部分数据的标识进行哈希操作的哈希结果和所述至少部分数据在所述至少一个其他节点的其他本地存储装置或所述远程存储装置中的存储位置,并且获取所述第一目标数据包括:
根据确定所述第一目标数据未被存储在所述第一本地存储装置中:
从所述第一请求获取所述第一目标数据的标识;
通过对所述第一目标数据的所述标识进行哈希操作,生成针对所述第一目标数据的第一哈希结果;以及
基于所述第一哈希结果,使用所述分布式哈希表来获取所述第一目标数据。
2.根据权利要求1所述的方法,其中所述任务包括由所述第一计算服务和在至少一个其他节点部署的其他计算服务共同执行的分布式深度学习任务,并且所述第一目标数据包括在所述分布式深度学习任务的一个时期中使用的数据。
3.根据权利要求1所述的方法,其中基于所述第一哈希结果使用所述分布式哈希表来获取所述第一目标数据包括:
确定所述第一哈希结果是否被存储在所述分布式哈希表中;
根据确定所述第一哈希结果被存储在所述分布式哈希表中,从所述分布式哈希表中与所述第一哈希结果相关联地存储的存储位置获取所述第一目标数据;以及
根据确定所述第一哈希结果未被存储在所述分布式哈希表中:
确定在所述至少一个其他节点部署的至少一个其他存储服务中的第二存储服务,对所述第二存储服务的标识进行哈希操作的第二哈希结果与所述第一哈希结果的相似度超过相似度阈值;
向所述第二存储服务发送用于确定所述第一目标数据的第一目标存储位置的第二请求;
从所述第二存储服务接收所述第一目标存储位置;以及
从所述第一目标存储位置获取所述第一目标数据。
4.根据权利要求3所述的方法,还包括:
根据从所述第一目标存储位置获取所述第一目标数据,将所述第一目标数据存储在所述第一本地存储装置中;以及
在所述分布式哈希表中相关联地存储所述第一哈希结果和所述第一目标存储位置。
5.根据权利要求1所述的方法,其中所述任务由所述第一计算服务和在至少一个其他节点部署的至少一个其他计算服务共同执行,所述方法还包括:
从在所述至少一个其他节点部署的至少一个其他存储服务中的第三存储服务获取用于确定第二目标数据的第二目标存储位置的第三请求;
基于所述第三请求,确定所述第二目标数据是否被存储在所述第一节点的第一本地存储装置中;
根据确定所述第二目标数据被存储在所述第一本地存储装置中,向所述第三存储服务发送所述第二目标数据在所述第一本地存储装置中的存储位置;以及
根据确定所述第二目标数据未被存储在所述第一本地存储装置中,基于对所述第二目标数据的标识进行哈希操作的第二哈希结果,使用所述第一存储服务对应的分布式哈希表来促使所述第二目标数据的第二目标存储位置被确定。
6.根据权利要求5所述的方法,还包括:
根据所述第二目标数据被确定存储在所述远程存储装置和所述至少一个其他节点的其他本地存储装置中,促使所述第二目标数据在所述其他本地存储装置中的存储位置被提供给所述第三存储服务,而不促使所述第二目标数据在所述远程存储装置中的存储位置被提供给所述第三存储服务。
7.一种电子设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:
在第一节点部署的第一存储服务处,获取在所述第一节点部署的第一计算服务对第一目标数据的第一请求,所述第一存储服务具有对远程存储装置的访问并且向所述第一计算服务提供与所述远程存储装置相同的访问接口,所述远程存储装置存储在所述第一计算服务要至少部分执行的任务中可重用的数据集,并且所述数据集包括所述第一目标数据;
基于所述第一请求,从所述远程存储装置或针对所述第一存储服务的本地存储空间获取所述第一目标数据;以及
向所述第一计算服务提供所述第一目标数据,
其中获取所述第一目标数据包括:
基于所述第一请求,确定所述第一目标数据是否被存储在所述第一节点的第一本地存储装置中;以及
根据确定所述第一目标数据被存储在所述第一本地存储装置中,从所述第一本地存储装置获取所述第一目标数据,并且
其中所述任务由所述第一计算服务和在至少一个其他节点上部署的至少一个其他计算服务共同执行,并且所述第一存储服务具有分布式哈希表,所述分布式哈希表相关联地存储对所述数据集中的至少部分数据的标识进行哈希操作的哈希结果和所述至少部分数据在所述至少一个其他节点的其他本地存储装置或所述远程存储装置中的存储位置,并且获取所述第一目标数据包括:
根据确定所述第一目标数据未被存储在所述第一本地存储装置中:
从所述第一请求获取所述第一目标数据的标识;
通过对所述第一目标数据的所述标识进行哈希操作,生成针对所述第一目标数据的第一哈希结果;以及
基于所述第一哈希结果,使用所述分布式哈希表来获取所述第一目标数据。
8.根据权利要求7所述的设备,其中所述任务包括由所述第一计算服务和在至少一个其他节点部署的其他计算服务共同执行的分布式深度学习任务,并且所述第一目标数据包括在所述分布式深度学习任务的一个时期中使用的数据。
9.根据权利要求7所述的设备,其中基于所述第一哈希结果使用所述分布式哈希表来获取所述第一目标数据包括:
确定所述第一哈希结果是否被存储在所述分布式哈希表中;
根据确定所述第一哈希结果被存储在所述分布式哈希表中,从所述分布式哈希表中与所述第一哈希结果相关联地存储的存储位置获取所述第一目标数据;以及
根据确定所述第一哈希结果未被存储在所述分布式哈希表中:
确定在所述至少一个其他节点部署的至少一个其他存储服务中的第二存储服务,对所述第二存储服务的标识进行哈希操作的第二哈希结果与所述第一哈希结果的相似度超过相似度阈值;
向所述第二存储服务发送用于确定所述第一目标数据的第一目标存储位置的第二请求;
从所述第二存储服务接收所述第一目标存储位置;以及
从所述第一目标存储位置获取所述第一目标数据。
10.根据权利要求9所述的设备,其中所述动作还包括:
根据从所述第一目标存储位置获取所述第一目标数据,将所述第一目标数据存储在所述第一本地存储装置中;以及
在所述分布式哈希表中相关联地存储所述第一哈希结果和所述第一目标存储位置。
11.根据权利要求7所述的设备,其中所述任务由所述第一计算服务和在至少一个其他节点部署的至少一个其他计算服务共同执行,所述动作还包括:
从在所述至少一个其他节点部署的至少一个其他存储服务中的第三存储服务获取用于确定第二目标数据的第二目标存储位置的第三请求;
基于所述第三请求,确定所述第二目标数据是否被存储在所述第一节点的第一本地存储装置中;
根据确定所述第二目标数据被存储在所述第一本地存储装置中,向所述第三存储服务发送所述第二目标数据在所述第一本地存储装置中的存储位置;
根据确定所述第二目标数据未被存储在所述第一本地存储装置中,基于对所述第二目标数据的标识进行哈希操作的第二哈希结果,使用所述第一存储服务对应的分布式哈希表来促使所述第二目标数据的第二目标存储位置被确定。
12.根据权利要求11所述的设备,其中所述动作还包括:
根据所述第二目标数据被确定存储在所述远程存储装置和所述至少一个其他节点的其他本地存储装置中,促使所述第二目标数据在所述其他本地存储装置中的存储位置被提供给所述第三存储服务,而不促使所述第二目标数据在所述远程存储装置中的存储位置被提供给所述第三存储服务。
13.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行动作,所述动作包括:
在第一节点部署的第一存储服务处,获取在所述第一节点部署的第一计算服务对第一目标数据的第一请求,所述第一存储服务具有对远程存储装置的访问并且向所述第一计算服务提供与所述远程存储装置相同的访问接口,所述远程存储装置存储在所述第一计算服务要至少部分执行的任务中可重用的数据集,并且所述数据集包括所述第一目标数据;
基于所述第一请求,从所述远程存储装置或针对所述第一存储服务的本地存储空间获取所述第一目标数据;以及
向所述第一计算服务提供所述第一目标数据,
其中获取所述第一目标数据包括:
基于所述第一请求,确定所述第一目标数据是否被存储在所述第一节点的第一本地存储装置中;以及
根据确定所述第一目标数据被存储在所述第一本地存储装置中,从所述第一本地存储装置获取所述第一目标数据,并且
其中所述任务由所述第一计算服务和在至少一个其他节点上部署的至少一个其他计算服务共同执行,并且所述第一存储服务具有分布式哈希表,所述分布式哈希表相关联地存储对所述数据集中的至少部分数据的标识进行哈希操作的哈希结果和所述至少部分数据在所述至少一个其他节点的其他本地存储装置或所述远程存储装置中的存储位置,并且获取所述第一目标数据包括:
根据确定所述第一目标数据未被存储在所述第一本地存储装置中:
从所述第一请求获取所述第一目标数据的标识;
通过对所述第一目标数据的所述标识进行哈希操作,生成针对所述第一目标数据的第一哈希结果;以及
基于所述第一哈希结果,使用所述分布式哈希表来获取所述第一目标数据。
14.根据权利要求13所述的计算机程序产品,其中所述任务包括由所述第一计算服务和在至少一个其他节点部署的其他计算服务共同执行的分布式深度学习任务,并且所述第一目标数据包括在所述分布式深度学习任务的一个时期中使用的数据。
15.根据权利要求13所述的计算机程序产品,其中基于所述第一哈希结果使用所述分布式哈希表来获取所述第一目标数据包括:
确定所述第一哈希结果是否被存储在所述分布式哈希表中;
根据确定所述第一哈希结果被存储在所述分布式哈希表中,从所述分布式哈希表中与所述第一哈希结果相关联地存储的存储位置获取所述第一目标数据;以及
根据确定所述第一哈希结果未被存储在所述分布式哈希表中:
确定在所述至少一个其他节点部署的至少一个其他存储服务中的第二存储服务,对所述第二存储服务的标识进行哈希操作的第二哈希结果与所述第一哈希结果的相似度超过相似度阈值;
向所述第二存储服务发送用于确定所述第一目标数据的第一目标存储位置的第二请求;
从所述第二存储服务接收所述第一目标存储位置;以及
从所述第一目标存储位置获取所述第一目标数据。
16.根据权利要求15所述的计算机程序产品,其中所述动作还包括:
根据从所述第一目标存储位置获取所述第一目标数据,将所述第一目标数据存储在所述第一本地存储装置中;以及
在所述分布式哈希表中相关联地存储所述第一哈希结果和所述第一目标存储位置。
17.根据权利要求13所述的计算机程序产品,其中所述任务由所述第一计算服务和在至少一个其他节点部署的至少一个其他计算服务共同执行,所述动作还包括:
从在所述至少一个其他节点部署的至少一个其他存储服务中的第三存储服务获取用于确定第二目标数据的第二目标存储位置的第三请求;
基于所述第三请求,确定所述第二目标数据是否被存储在所述第一节点的第一本地存储装置中;
根据确定所述第二目标数据被存储在所述第一本地存储装置中,向所述第三存储服务发送所述第二目标数据在所述第一本地存储装置中的存储位置;
根据确定所述第二目标数据未被存储在所述第一本地存储装置中,基于对所述第二目标数据的标识进行哈希操作的第二哈希结果,使用所述第一存储服务对应的分布式哈希表来促使所述第二目标数据的第二目标存储位置被确定。
18.根据权利要求17所述的计算机程序产品,其中所述动作还包括:
根据所述第二目标数据被确定存储在所述远程存储装置和所述至少一个其他节点的其他本地存储装置中,促使所述第二目标数据在所述其他本地存储装置中的存储位置被提供给所述第三存储服务,而不促使所述第二目标数据在所述远程存储装置中的存储位置被提供给所述第三存储服务。
CN202010043186.4A 2020-01-15 2020-01-15 用于存储管理的方法、设备和计算机程序产品 Active CN113126888B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010043186.4A CN113126888B (zh) 2020-01-15 2020-01-15 用于存储管理的方法、设备和计算机程序产品
US16/836,176 US11461284B2 (en) 2020-01-15 2020-03-31 Method, device and computer program product for storage management

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010043186.4A CN113126888B (zh) 2020-01-15 2020-01-15 用于存储管理的方法、设备和计算机程序产品

Publications (2)

Publication Number Publication Date
CN113126888A CN113126888A (zh) 2021-07-16
CN113126888B true CN113126888B (zh) 2024-04-19

Family

ID=76762126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010043186.4A Active CN113126888B (zh) 2020-01-15 2020-01-15 用于存储管理的方法、设备和计算机程序产品

Country Status (2)

Country Link
US (1) US11461284B2 (zh)
CN (1) CN113126888B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706784A (zh) * 2009-11-23 2010-05-12 卓望数码技术(深圳)有限公司 智能数据中心和数据查询方法
WO2016184029A1 (zh) * 2015-05-18 2016-11-24 深圳市中兴微电子技术有限公司 支持哈希查找和路由查找的存储、查找方法和装置、存储介质
CN106547898A (zh) * 2016-10-27 2017-03-29 北京锐安科技有限公司 一种分布式数据库的数据处理方法及装置
KR20170097908A (ko) * 2016-02-19 2017-08-29 강릉원주대학교산학협력단 질의자 정보에 기반하여 해쉬를 생성 또는 정합하는 장치 및 방법
CN107533457A (zh) * 2015-01-20 2018-01-02 乌尔特拉塔有限责任公司 对象存储器数据流指令执行

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386424B2 (en) * 2010-06-15 2013-02-26 Microsoft Corporation Transparent access mechanism for local and remote data
TWI415427B (zh) * 2010-11-04 2013-11-11 Ind Tech Res Inst 同儕即時串流系統與方法
US9747300B2 (en) * 2011-06-15 2017-08-29 Amazon Technologies, Inc. Local networked storage linked to remote networked storage system
EP3069305B1 (en) * 2013-11-15 2020-11-04 Intel Corporation Methods, systems and computer program products for using a distributed associative memory base to determine data correlations and convergence therein
US11010431B2 (en) * 2016-12-30 2021-05-18 Samsung Electronics Co., Ltd. Method and apparatus for supporting machine learning algorithms and data pattern matching in ethernet SSD
US10360099B2 (en) * 2017-04-28 2019-07-23 Netapp Inc. Object format resilient to remote object store errors
US10666513B2 (en) * 2017-05-03 2020-05-26 International Business Machines Corporation Filesystem share auto-detect
KR102197247B1 (ko) * 2017-06-01 2020-12-31 한국전자통신연구원 파라미터 서버 및 그것에 의해 수행되는 분산 딥러닝 파라미터 공유 방법
CN110389816B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 用于资源调度的方法、装置以及计算机可读介质
US10871922B2 (en) * 2018-05-22 2020-12-22 Pure Storage, Inc. Integrated storage management between storage systems and container orchestrators
US11138520B2 (en) * 2018-06-28 2021-10-05 International Business Machines Corporation Ranking and updating machine learning models based on data inputs at edge nodes
US11574233B2 (en) * 2018-08-30 2023-02-07 International Business Machines Corporation Suggestion and completion of deep learning models from a catalog
US11068162B1 (en) * 2019-04-09 2021-07-20 Pure Storage, Inc. Storage management in a cloud data store

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706784A (zh) * 2009-11-23 2010-05-12 卓望数码技术(深圳)有限公司 智能数据中心和数据查询方法
CN107533457A (zh) * 2015-01-20 2018-01-02 乌尔特拉塔有限责任公司 对象存储器数据流指令执行
WO2016184029A1 (zh) * 2015-05-18 2016-11-24 深圳市中兴微电子技术有限公司 支持哈希查找和路由查找的存储、查找方法和装置、存储介质
KR20170097908A (ko) * 2016-02-19 2017-08-29 강릉원주대학교산학협력단 질의자 정보에 기반하여 해쉬를 생성 또는 정합하는 장치 및 방법
CN106547898A (zh) * 2016-10-27 2017-03-29 北京锐安科技有限公司 一种分布式数据库的数据处理方法及装置

Also Published As

Publication number Publication date
US20210216507A1 (en) 2021-07-15
US11461284B2 (en) 2022-10-04
CN113126888A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN109254733B (zh) 用于存储数据的方法、装置和系统
US20160092493A1 (en) Executing map-reduce jobs with named data
US10817428B2 (en) Method and electronic device for accessing data
US9501512B2 (en) Optimizing storage in a publish / subscribe environment
US11003579B2 (en) Method, device and computer program product for managing distributed system
CN109388626B (zh) 用于向业务分配编号的方法和装置
CN109657174B (zh) 用于更新数据的方法和装置
US20210168207A1 (en) Method, electronic device and computer program product for storing and accessing data
US20210216212A1 (en) Method and apparatus for processing data
US11310316B2 (en) Methods, devices and computer program products for storing and accessing data
US11232025B2 (en) Method, device and computer program product for storage management
CN111581239A (zh) 缓存刷新方法和电子设备
CN111857539A (zh) 用于管理存储系统的方法、设备和计算机程序产品
CN113885780A (zh) 数据同步方法、装置、电子设备、系统和存储介质
CN111338834A (zh) 数据存储方法和装置
US11294856B2 (en) Method, device, and computer program product for deleting snapshots
CN113126888B (zh) 用于存储管理的方法、设备和计算机程序产品
CN111949648B (zh) 内存缓存数据系统和数据索引方法
CN110740138A (zh) 数据传输方法和装置
CN112148728A (zh) 用于信息处理的方法、设备和计算机程序产品
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN115658171A (zh) 一种轻量级解决java分布式应用配置动态刷新的方法及系统
CN110019671B (zh) 一种处理实时消息的方法和系统
US20200412821A1 (en) Method and system for optimized online presence tracking
CN109213815B (zh) 控制执行次数的方法、装置、服务器终端以及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant