CN113590666B - 一种ai集群中数据缓存方法、系统、设备及计算机介质 - Google Patents

一种ai集群中数据缓存方法、系统、设备及计算机介质 Download PDF

Info

Publication number
CN113590666B
CN113590666B CN202111162807.1A CN202111162807A CN113590666B CN 113590666 B CN113590666 B CN 113590666B CN 202111162807 A CN202111162807 A CN 202111162807A CN 113590666 B CN113590666 B CN 113590666B
Authority
CN
China
Prior art keywords
cluster
node
target
cluster node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111162807.1A
Other languages
English (en)
Other versions
CN113590666A (zh
Inventor
姬贵阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111162807.1A priority Critical patent/CN113590666B/zh
Publication of CN113590666A publication Critical patent/CN113590666A/zh
Application granted granted Critical
Publication of CN113590666B publication Critical patent/CN113590666B/zh
Priority to US18/280,221 priority patent/US20240152458A1/en
Priority to PCT/CN2022/078186 priority patent/WO2023050704A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • G06F12/0824Distributed directories, e.g. linked lists of caches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种AI集群中数据缓存方法、系统、设备及计算机介质,确定待缓存的目标数据集;获取目标数据集在AI集群中各个集群节点上的权重值;确定缓存目标数据集的目标集群节点;获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点;基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。本申请可以使得缓存路径与AI集群的存储能力相匹配,基于缓存路径缓存目标数据集便相当于基于AI集群的存储性能来缓存数据集,可以提高AI集群的数据缓存性能。

Description

一种AI集群中数据缓存方法、系统、设备及计算机介质
技术领域
本申请涉及AI集群技术领域,更具体地说,涉及一种AI集群中数据缓存方法、系统、设备及计算机介质。
背景技术
随着人工智能(Artificial Intelligence,AI)相关产业的蓬勃发展,越来越多的科研企业和高校的研究人员对计算力的要求也是越来越高,AI集群平台的构建有效解决了企业和科研高校对计算力的要求。人工智能平台的一个基本功能是文件的操作,包括数据集的本地下载缓存,训练过程中文件的读取等等文件的一列操作,这些都依赖于集群的存储资源,且AI集群对于存储要求非常高,有频繁的IO操作,这使得存储资源成为AI集群中数据缓存的瓶颈,影响AI集群的数据缓存性能。
综上所述,如何提高AI集群的数据缓存性能是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种AI集群中数据缓存方法,其能在一定程度上解决如何提高AI集群的数据缓存性能的技术问题。本申请还提供了一种AI集群中数据缓存系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种AI集群中数据缓存方法,包括:
确定待缓存的目标数据集;
获取所述目标数据集在所述AI集群中各个集群节点上的权重值;
确定缓存所述目标数据集的目标集群节点;
获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述目标最短路径中的前继节点,所述其余集群节点包括所述AI集群中除所述目标集群节点之外的节点;
基于所述权重值、所述目标最短路径及所述前继节点确定将所述目标数据集缓存至所述目标集群节点的缓存路径,以按照所述缓存路径将所述目标数据集缓存至所述目标集群节点。
优选的,所述获取所述目标数据集在所述AI集群中各个集群节点上的权重值,包括:
对所述AI集群中的每个所述集群节点,解析所述集群节点的类型;
若所述集群节点为管理节点,则确定所述AI集群中的集群节点总数,确定所述AI集群中共享存储节点上的数据集总个数;
将所述集群节点总数与所述数据集总个数的乘积值确定为所述管理节点的所述权重值。
优选的,所述解析所述集群节点的类型之后,还包括:
若所述集群节点为非管理节点,则判断所述集群节点上是否存有所述目标数据集;
若所述集群节点上不存有所述目标数据集,则确定所述集群节点的所述权重值为无穷大。
优选的,所述判断所述集群节点上是否存有所述目标数据集之后,还包括:
若所述集群节点上存有所述目标数据集,则确定所述集群节点拉取所述目标数据集的第一类任务数,确定所述集群节点被拉取所述目标数据集的第二类任务数,将所述第一类任务数、所述第二类任务数及1的和值确定为所述集群节点的所述权重值。
优选的,所述获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述最短路径中的前继节点,包括:
确定第一节点集合,所述第一节点集合用于存储与所述目标集群节点间的目标最短路径已知的第一类集群节点;
确定第二节点集合,所述第二节点集合用于存储所述AI集群中除所述第一节点集合之外的第二类集群节点;
确定每个所述第二类集群节点到所述目标集群节点间的第一最短路径;
将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点;
对于每个所述第二类集群节点,确定所述第二类集群节点到所述待判定集群节点间的第二最短路径,确定所述待判定节点对应的所述第一最短路径与所述第二最短路径的和值;若所述第二类集群节点对应的所述第一最短路径小于所述和值,则更新所述第二类集群节点的所述目标最短路径为所述第二类集群节点对应的所述第一最短路径;若所述第二类集群节点对应的所述第一最短路径大于所述和值,则更新所述第二类集群节点的所述目标最短路径为所述和值,且所述目标集群节点在所述第二类集群节点对应的所述最短路径中的前继节点为所述待判定集群节点;
将所述待判定集群节点更新为所述第一类集群节点;
判断所述第一节点集合是否包含全部的集群节点,若否,则返回执行所述将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点的步骤,若是,则结束。
一种AI集群中数据缓存系统,包括:
第一确定模块,用于确定待缓存的目标数据集;
第一获取模块,用于获取所述目标数据集在所述AI集群中各个集群节点上的权重值;
第二确定模块,用于确定缓存所述目标数据集的目标集群节点;
第二获取模块,用于获取所述AI集群中其余集群节点到所述目标集群节点的最短路径,及所述目标集群节点在所述最短路径中的前继节点;
第三确定模块,用于基于所述权重值、所述最短路径及所述前继节点确定将所述目标数据集缓存至所述目标集群节点的缓存路径,以按照所述缓存路径将所述目标数据集缓存至所述目标集群节点。
优选的,所述第一获取模块包括:
第一解析单元,用于对所述AI集群中的每个所述集群节点,解析所述集群节点的类型;
第一处理单元,用于若所述集群节点为管理节点,则确定所述AI集群中的集群节点总数,确定所述AI集群中共享存储节点上的数据集总个数;
将所述集群节点总数与所述数据集总个数的乘积值确定为所述管理节点的所述权重值。
优选的,还包括:
第二处理单元,用于若所述集群节点为非管理节点,则判断所述集群节点上是否存有所述目标数据集;若所述集群节点上不存有所述目标数据集,则确定所述集群节点的所述权重值为无穷大。
一种AI集群中数据缓存设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述AI集群中数据缓存方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述AI集群中数据缓存方法的步骤。
本申请提供的一种AI集群中数据缓存方法,确定待缓存的目标数据集;获取目标数据集在AI集群中各个集群节点上的权重值;确定缓存目标数据集的目标集群节点;获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点;基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。本申请中,因为权重值可以反映目标数据集在各个集群节点上消耗的存储能力,目标最短路径可以反映在AI集群中缓存目标数据集所需消耗的存储能力,前继节点可以指明目标数据集在AI集群中的缓存方向,所以基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径的话,可以使得缓存路径与AI集群的存储能力相匹配,这样后续基于缓存路径缓存目标数据集的话,相当于基于AI集群的存储性能来缓存数据集,可以提高AI集群的数据缓存性能。本申请提供的一种AI集群中数据缓存系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种AI集群中数据缓存方法的流程图;
图2为本申请中目标最短路径及前继节点的确定流程图;
图3为本申请实施例提供的一种AI集群中数据缓存系统的结构示意图;
图4为本申请实施例提供的一种AI集群中数据缓存设备的结构示意图;
图5为本申请实施例提供的一种AI集群中数据缓存设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种AI集群中数据缓存方法的流程图。
本申请实施例提供的一种AI集群中数据缓存方法,可以包括以下步骤:
步骤S101:确定待缓存的目标数据集。
实际应用中,因为AI集群中存在多个数据集,而用户可能只对其中的一个或几个数据集进行缓存,所以可以先确定待缓存的目标数据集,数据集的类型、内容、大小等均可以根据实际需要确定,本申请在此不做具体限定。
步骤S102:获取目标数据集在AI集群中各个集群节点上的权重值。
实际应用中,在确定待缓存的目标数据集之后,可以获取目标数据集在AI集群中各个集群节点上的权重值;不难理解,权重值越高的话,集群节点上目标数据集占用的存储资源越多,所以本申请可以借助该权重值反映目标数据消耗的集群节点上的存储资源。
步骤S103:确定缓存目标数据集的目标集群节点。
实际应用中,用户可能需要在某个集群节点上缓存目标数据集,所以还需确定缓存目标数据集的目标集群节点,具体的,可以根据用户发送的缓存指令来确定相应的目标集群节点等,本申请在此不做具体限定。
步骤S104:获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点。
实际应用中,由于AI集群中的集群节点间是互联的,所以理论上各个集群节点均可以向目标集群节点传输数据集,但考虑到目标数据集在AI集群中的分布并不均匀,比如有的集群节点上不存在目标数据集,且各个集群节点到目标集群节点的最短路径不同,所以在确定目标集群节点之后,还需获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点,以便后续借助目标最短路径、前继节点来确定目标集群节点的缓存路径。
需要说明的是,前继节点指的是其他集群节点到目标集群节点的最短路径上、目标集群节点之前的集群节点,比如其他集群节点为a,目标集群节点为v,a到v的最短路径为4,具体为a-b-c-d-v,则v的前继节点可以为c等。
步骤S105:基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。
实际应用中,在获取权重值、目标最短路径、前继节点之后,便可以基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。比如可以将权重值最小的其他集群节点作为传输目标数据集的传输节点,并按照该传输节点的目标最短路径及前继节点传输目标数据集至目标集群节点等,当然也可以有其他确定缓存路径的方式,本申请在此不做具体限定。
本申请提供的一种AI集群中数据缓存方法,确定待缓存的目标数据集;获取目标数据集在AI集群中各个集群节点上的权重值;确定缓存目标数据集的目标集群节点;获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点;基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。本申请中,因为权重值可以反映目标数据集在各个集群节点上消耗的存储能力,目标最短路径可以反映在AI集群中缓存目标数据集所需消耗的存储能力,前继节点可以指明目标数据集在AI集群中的缓存方向,所以基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径的话,可以使得缓存路径与AI集群的存储能力相匹配,这样后续基于缓存路径缓存目标数据集的话,相当于基于AI集群的存储性能来缓存数据集,可以提高AI集群的数据缓存性能。
本申请实施例提供的一种AI集群中数据缓存方法,在获取目标数据集在AI集群中各个集群节点上的权重值的过程中,可以对AI集群中的每个集群节点,解析集群节点的类型,若集群节点为管理节点,则确定AI集群中的集群节点总数,确定AI集群中共享存储节点上的数据集总个数;将集群节点总数与数据集总个数的乘积值确定为管理节点的权重值;若集群节点为非管理节点,则判断集群节点上是否存有目标数据集;若集群节点上不存有目标数据集,则确定集群节点的权重值为无穷大;若集群节点上存有目标数据集,则确定集群节点拉取目标数据集的第一类任务数,确定集群节点被拉取目标数据集的第二类任务数,将第一类任务数、第二类任务数及1的和值确定为集群节点的权重值。应当指出,管理节点指的是AI集群中具有管理功能的节点,共享存储节点指的是数据能被AI集群中所有集群节点共享的节点。
为了便于理解,假设AI集群中节点个数为10,共享存储节点上数据集个数为20,则管理节点的权重值为10*20=200;假设集群节点a上存在目标数据集,且集群节点a拉取目标数据集的任务数为2,集群节点a被拉取目标数据集的任务数为3,则集群节点a的权重值可以为1+2+3=6;若集群节点b上不存在目标数据集,则集群节点b的权重值为无穷大。
请参阅图2,图2为本申请中目标最短路径及前继节点的确定流程图。
本申请实施例提供的一种AI集群中数据缓存方法,获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在最短路径中的前继节点的过程,可以包括以下步骤:
步骤S201:确定第一节点集合,第一节点集合用于存储与目标集群节点间的目标最短路径已知的第一类集群节点。
实际应用中,可能存在第一类集群节点与目标集群节点间的目标最短路径已知,此时可以不再关注第一类集群节点的目标最短路径,且可以借助第一节点集合来对第一类集群节点进行管理。需要说明的是,第一类集群节点的目标最短路径已知的话,其对应的前继节点也便已知。
步骤S202:确定第二节点集合,第二节点集合用于存储AI集群中除第一节点集合之外的第二类集群节点。
实际应用中,为了便于管理目标最短路径未知的第二类集群节点,可以借助第二节点集合来对第二类集群节点进行集中处理。假设第一节点集合为S,AI集群中集群节点的总集合为V,则第二节点集合可以为V-S。
步骤S203:确定每个第二类集群节点到目标集群节点间的第一最短路径。
实际应用中,因为第二类集群节点到目标集群节点间的目标最短路径可以拆分为:前继节点到目标集群节点间的最短路径与第二类集群节点到前继节点间的最短路径之和,所以可以借助第二类集群节点到目标集群节点间的第一最短路径来确定第二类集群节点到目标集群节点间的目标最短路径及相应的前继节点。假设目标集群节点为v,第二类集群节点为i,则第一最短路径可以表示为dist[i]=G[i][v]。
步骤S204:将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点。
步骤S205:对于每个第二类集群节点,确定第二类集群节点到待判定集群节点间的第二最短路径,确定待判定节点对应的第一最短路径与第二最短路径的和值;若第二类集群节点对应的第一最短路径小于和值,则更新第二类集群节点的目标最短路径为第二类集群节点对应的第一最短路径;若第二类集群节点对应的第一最短路径大于和值,则更新第二类集群节点的目标最短路径为和值,且目标集群节点在第二类集群节点对应的最短路径中的前继节点为待判定集群节点。
实际应用中,为了便于确定目标最短路径及前继节点,可以先将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点,也即作为前继节点来进行验证,并且对于每个第二类集群节点,确定第二类集群节点到待判定集群节点间的第二最短路径,确定待判定节点对应的第一最短路径与第二最短路径的和值;若第二类集群节点对应的第一最短路径小于和值,则更新第二类集群节点的目标最短路径为第二类集群节点对应的第一最短路径;若第二类集群节点对应的第一最短路径大于和值,则更新第二类集群节点的目标最短路径为和值,且目标集群节点在第二类集群节点对应的最短路径中的前继节点为待判定集群节点。为了便于理解,假设待判定集群节点为k,也即dist[k]=min{dist[i]};此时,目标最短路径便为dist[i]=min{dist[i],dist[k]+G[i] [k]}。
步骤S206:将待判定集群节点更新为第一类集群节点。
步骤S207:判断第一节点集合是否包含全部的集群节点,若否,则返回执行步骤S204;若是,则执行步骤S208:结束。
实际应用中,完成验证待判定集群节点是否为前继节点之后,便可以将待判定集群节点更新为第一类集群节点,并判断第一节点集合是否包含全部的集群节点,若否,则返回执行步骤S204;若是,则可以直接结束,此时便可以得到第二类集群节点到目标集群节点间的目标最短路径及相应的前继节点。
请参阅图3,图3为本申请实施例提供的一种AI集群中数据缓存系统的结构示意图。
本申请实施例提供的一种AI集群中数据缓存系统,可以包括:
第一确定模块101,用于确定待缓存的目标数据集;
第一获取模块102,用于获取目标数据集在AI集群中各个集群节点上的权重值;
第二确定模块103,用于确定缓存目标数据集的目标集群节点;
第二获取模块104,用于获取AI集群中其余集群节点到目标集群节点的最短路径,及目标集群节点在最短路径中的前继节点;
第三确定模块105,用于基于权重值、最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。
本申请实施例提供的一种AI集群中数据缓存系统,第一获取模块包括:
第一解析单元,用于对AI集群中的每个集群节点,解析集群节点的类型;
第一处理单元,用于若集群节点为管理节点,则确定AI集群中的集群节点总数,确定AI集群中共享存储节点上的数据集总个数;
将集群节点总数与数据集总个数的乘积值确定为管理节点的权重值。
本申请实施例提供的一种AI集群中数据缓存系统,还可以包括:
第二处理单元,用于若集群节点为非管理节点,则判断集群节点上是否存有目标数据集;若集群节点上不存有目标数据集,则确定集群节点的权重值为无穷大。
本申请实施例提供的一种AI集群中数据缓存系统,第二处理单元还可以同于:若集群节点上存有目标数据集,则确定集群节点拉取目标数据集的第一类任务数,确定集群节点被拉取目标数据集的第二类任务数,将第一类任务数、第二类任务数及1的和值确定为集群节点的权重值。
本申请实施例提供的一种AI集群中数据缓存系统,第二获取模块可以包括:
第一确定单元,用于确定第一节点集合,第一节点集合用于存储与目标集群节点间的目标最短路径已知的第一类集群节点;
第二确定单元,用于确定第二节点集合,第二节点集合用于存储AI集群中除第一节点集合之外的第二类集群节点;
第三确定单元,用于确定每个第二类集群节点到目标集群节点间的第一最短路径;
第一设置单元,用于将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点;
第四确定单元,用于对于每个第二类集群节点,确定第二类集群节点到待判定集群节点间的第二最短路径,确定待判定节点对应的第一最短路径与第二最短路径的和值;若第二类集群节点对应的第一最短路径小于和值,则更新第二类集群节点的目标最短路径为第二类集群节点对应的第一最短路径;若第二类集群节点对应的第一最短路径大于和值,则更新第二类集群节点的目标最短路径为和值,且目标集群节点在第二类集群节点对应的最短路径中的前继节点为待判定集群节点;
第一更新单元,用于将待判定集群节点更新为第一类集群节点;
第一判断单元,用于判断第一节点集合是否包含全部的集群节点,若否,则返回执行将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点的步骤,若是,则结束。
本申请还提供了一种AI集群中数据缓存设备及计算机可读存储介质,其均具有本申请实施例提供的一种AI集群中数据缓存方法具有的对应效果。请参阅图4,图4为本申请实施例提供的一种AI集群中数据缓存设备的结构示意图。
本申请实施例提供的一种AI集群中数据缓存设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
确定待缓存的目标数据集;
获取目标数据集在AI集群中各个集群节点上的权重值;
确定缓存目标数据集的目标集群节点;
获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点;
基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。
本申请实施例提供的一种AI集群中数据缓存设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:对AI集群中的每个集群节点,解析集群节点的类型;若集群节点为管理节点,则确定AI集群中的集群节点总数,确定AI集群中共享存储节点上的数据集总个数;将集群节点总数与数据集总个数的乘积值确定为管理节点的权重值。
本申请实施例提供的一种AI集群中数据缓存设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:解析集群节点的类型之后,若集群节点为非管理节点,则判断集群节点上是否存有目标数据集;若集群节点上不存有目标数据集,则确定集群节点的权重值为无穷大。
本申请实施例提供的一种AI集群中数据缓存设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:判断集群节点上是否存有目标数据集之后,若集群节点上存有目标数据集,则确定集群节点拉取目标数据集的第一类任务数,确定集群节点被拉取目标数据集的第二类任务数,将第一类任务数、第二类任务数及1的和值确定为集群节点的权重值。
本申请实施例提供的一种AI集群中数据缓存设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:确定第一节点集合,第一节点集合用于存储与目标集群节点间的目标最短路径已知的第一类集群节点;确定第二节点集合,第二节点集合用于存储AI集群中除第一节点集合之外的第二类集群节点;确定每个第二类集群节点到目标集群节点间的第一最短路径;将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点;对于每个第二类集群节点,确定第二类集群节点到待判定集群节点间的第二最短路径,确定待判定节点对应的第一最短路径与第二最短路径的和值;若第二类集群节点对应的第一最短路径小于和值,则更新第二类集群节点的目标最短路径为第二类集群节点对应的第一最短路径;若第二类集群节点对应的第一最短路径大于和值,则更新第二类集群节点的目标最短路径为和值,且目标集群节点在第二类集群节点对应的最短路径中的前继节点为待判定集群节点;将待判定集群节点更新为第一类集群节点;判断第一节点集合是否包含全部的集群节点,若否,则返回执行将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点的步骤,若是,则结束。
请参阅图5,本申请实施例提供的另一种AI集群中数据缓存设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现AI集群中数据缓存设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
确定待缓存的目标数据集;
获取目标数据集在AI集群中各个集群节点上的权重值;
确定缓存目标数据集的目标集群节点;
获取AI集群中其余集群节点到目标集群节点的目标最短路径,及目标集群节点在目标最短路径中的前继节点,其余集群节点包括AI集群中除目标集群节点之外的节点;
基于权重值、目标最短路径及前继节点确定将目标数据集缓存至目标集群节点的缓存路径,以按照缓存路径将目标数据集缓存至目标集群节点。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:对AI集群中的每个集群节点,解析集群节点的类型;若集群节点为管理节点,则确定AI集群中的集群节点总数,确定AI集群中共享存储节点上的数据集总个数;将集群节点总数与数据集总个数的乘积值确定为管理节点的权重值。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:解析集群节点的类型之后,若集群节点为非管理节点,则判断集群节点上是否存有目标数据集;若集群节点上不存有目标数据集,则确定集群节点的权重值为无穷大。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:判断集群节点上是否存有目标数据集之后,若集群节点上存有目标数据集,则确定集群节点拉取目标数据集的第一类任务数,确定集群节点被拉取目标数据集的第二类任务数,将第一类任务数、第二类任务数及1的和值确定为集群节点的权重值。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:确定第一节点集合,第一节点集合用于存储与目标集群节点间的目标最短路径已知的第一类集群节点;确定第二节点集合,第二节点集合用于存储AI集群中除第一节点集合之外的第二类集群节点;确定每个第二类集群节点到目标集群节点间的第一最短路径;将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点;对于每个第二类集群节点,确定第二类集群节点到待判定集群节点间的第二最短路径,确定待判定节点对应的第一最短路径与第二最短路径的和值;若第二类集群节点对应的第一最短路径小于和值,则更新第二类集群节点的目标最短路径为第二类集群节点对应的第一最短路径;若第二类集群节点对应的第一最短路径大于和值,则更新第二类集群节点的目标最短路径为和值,且目标集群节点在第二类集群节点对应的最短路径中的前继节点为待判定集群节点;将待判定集群节点更新为第一类集群节点;判断第一节点集合是否包含全部的集群节点,若否,则返回执行将值最小的第一最短路径对应的第二类集群节点作为待判定集群节点的步骤,若是,则结束。
本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的AI集群中数据缓存系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的AI集群中数据缓存方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种AI集群中数据缓存方法,其特征在于,包括:
确定待缓存的目标数据集;
获取所述目标数据集在所述AI集群中各个集群节点上的权重值;
确定缓存所述目标数据集的目标集群节点;
获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述目标最短路径中的前继节点,所述其余集群节点包括所述AI集群中除所述目标集群节点之外的节点;
基于所述权重值、所述目标最短路径及所述前继节点确定将所述目标数据集缓存至所述目标集群节点的缓存路径,以按照所述缓存路径将所述目标数据集缓存至所述目标集群节点;
其中,所述获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述目标最短路径中的前继节点,包括:
确定第一节点集合,所述第一节点集合用于存储与所述目标集群节点间的目标最短路径已知的第一类集群节点;
确定第二节点集合,所述第二节点集合用于存储所述AI集群中除所述第一节点集合之外的第二类集群节点;
确定每个所述第二类集群节点到所述目标集群节点间的第一最短路径;
将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点;
对于每个所述第二类集群节点,确定所述第二类集群节点到所述待判定集群节点间的第二最短路径,确定所述待判定集群节点对应的所述第一最短路径与所述第二最短路径的和值;若所述第二类集群节点对应的所述第一最短路径小于所述和值,则更新所述第二类集群节点的所述目标最短路径为所述第二类集群节点对应的所述第一最短路径;若所述第二类集群节点对应的所述第一最短路径大于所述和值,则更新所述第二类集群节点的所述目标最短路径为所述和值,且所述目标集群节点在所述第二类集群节点对应的所述目标最短路径中的前继节点为所述待判定集群节点;
将所述待判定集群节点更新为所述第一类集群节点;
判断所述第一节点集合是否包含全部的集群节点,若否,则返回执行所述将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点的步骤,若是,则结束。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标数据集在所述AI集群中各个集群节点上的权重值,包括:
对所述AI集群中的每个所述集群节点,解析所述集群节点的类型;
若所述集群节点为管理节点,则确定所述AI集群中的集群节点总数,确定所述AI集群中的 共享存储节点上的数据集总个数;
将所述集群节点总数与所述数据集总个数的乘积值确定为所述管理节点的所述权重值。
3.根据权利要求2所述的方法,其特征在于,所述解析所述集群节点的类型之后,还包括:
若所述集群节点为非管理节点,则判断所述集群节点上是否存有所述目标数据集;
若所述集群节点上不存有所述目标数据集,则确定所述集群节点的所述权重值为无穷大。
4.根据权利要求3所述的方法,其特征在于,所述判断所述集群节点上是否存有所述目标数据集之后,还包括:
若所述集群节点上存有所述目标数据集,则确定所述集群节点拉取所述目标数据集的第一类任务数,确定所述集群节点被拉取所述目标数据集的第二类任务数,将所述第一类任务数、所述第二类任务数及1的和值确定为所述集群节点的所述权重值。
5.一种AI集群中数据缓存系统,其特征在于,包括:
第一确定模块,用于确定待缓存的目标数据集;
第一获取模块,用于获取所述目标数据集在所述AI集群中各个集群节点上的权重值;
第二确定模块,用于确定缓存所述目标数据集的目标集群节点;
第二获取模块,用于获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述目标最短路径中的前继节点,所述其余集群节点包括所述AI集群中除所述目标集群节点之外的节点;
第三确定模块,用于基于所述权重值、所述目标最短路径及所述前继节点确定将所述目标数据集缓存至所述目标集群节点的缓存路径,以按照所述缓存路径将所述目标数据集缓存至所述目标集群节点;
其中,所述第二获取模块包括:
第一确定单元,用于确定第一节点集合,所述第一节点集合用于存储与所述目标集群节点间的目标最短路径已知的第一类集群节点;
第二确定单元,用于确定第二节点集合,所述第二节点集合用于存储所述AI集群中除所述第一节点集合之外的第二类集群节点;
第三确定单元,用于确定每个所述第二类集群节点到所述目标集群节点间的第一最短路径;
第一设置单元,用于将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点;
第四确定单元,用于对于每个所述第二类集群节点,确定所述第二类集群节点到所述待判定集群节点间的第二最短路径,确定所述待判定集群节点对应的所述第一最短路径与所述第二最短路径的和值;若所述第二类集群节点对应的所述第一最短路径小于所述和值,则更新所述第二类集群节点的所述目标最短路径为所述第二类集群节点对应的所述第一最短路径;若所述第二类集群节点对应的所述第一最短路径大于所述和值,则更新所述第二类集群节点的所述目标最短路径为所述和值,且所述目标集群节点在所述第二类集群节点对应的所述目标最短路径中的前继节点为所述待判定集群节点;
第一更新单元,用于将所述待判定集群节点更新为所述第一类集群节点;
第一判断单元,用于判断所述第一节点集合是否包含全部的集群节点,若否,则返回执行所述将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点的步骤,若是,则结束。
6.根据权利要求5所述的系统,其特征在于,所述第一获取模块包括:
第一解析单元,用于对所述AI集群中的每个所述集群节点,解析所述集群节点的类型;
第一处理单元,用于若所述集群节点为管理节点,则确定所述AI集群中的集群节点总数,确定所述AI集群中的 共享存储节点上的数据集总个数;
将所述集群节点总数与所述数据集总个数的乘积值确定为所述管理节点的所述权重值。
7.根据权利要求6所述的系统,其特征在于,还包括:
第二处理单元,用于若所述集群节点为非管理节点,则判断所述集群节点上是否存有所述目标数据集;若所述集群节点上不存有所述目标数据集,则确定所述集群节点的所述权重值为无穷大。
8.一种AI集群中数据缓存设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述AI集群中数据缓存方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述AI集群中数据缓存方法的步骤。
CN202111162807.1A 2021-09-30 2021-09-30 一种ai集群中数据缓存方法、系统、设备及计算机介质 Active CN113590666B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111162807.1A CN113590666B (zh) 2021-09-30 2021-09-30 一种ai集群中数据缓存方法、系统、设备及计算机介质
US18/280,221 US20240152458A1 (en) 2021-09-30 2022-02-28 Data caching method, system and device in ai cluster, and computer medium
PCT/CN2022/078186 WO2023050704A1 (zh) 2021-09-30 2022-02-28 一种ai集群中数据缓存方法、系统、设备及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111162807.1A CN113590666B (zh) 2021-09-30 2021-09-30 一种ai集群中数据缓存方法、系统、设备及计算机介质

Publications (2)

Publication Number Publication Date
CN113590666A CN113590666A (zh) 2021-11-02
CN113590666B true CN113590666B (zh) 2022-02-18

Family

ID=78242736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111162807.1A Active CN113590666B (zh) 2021-09-30 2021-09-30 一种ai集群中数据缓存方法、系统、设备及计算机介质

Country Status (3)

Country Link
US (1) US20240152458A1 (zh)
CN (1) CN113590666B (zh)
WO (1) WO2023050704A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590666B (zh) * 2021-09-30 2022-02-18 苏州浪潮智能科技有限公司 一种ai集群中数据缓存方法、系统、设备及计算机介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218233A (zh) * 2013-05-09 2013-07-24 福州大学 Hadoop异构集群中的数据分配策略
CN105743980A (zh) * 2016-02-03 2016-07-06 上海理工大学 一种自组织的云资源共享分布式对等网络模型构造方法
CN111367950A (zh) * 2020-02-28 2020-07-03 上海欣巴自动化科技股份有限公司 一种基于Kubernetes的分布式AGV调度系统及调度方法
CN112632092A (zh) * 2020-12-18 2021-04-09 北京浪潮数据技术有限公司 一种集群管理方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105739924B (zh) * 2016-01-29 2018-05-11 华为技术有限公司 基于缓存集群的缓存方法和系统
CN110971432B (zh) * 2018-09-29 2021-05-18 华为技术有限公司 一种数据传输方法以及相关装置
CN112702399B (zh) * 2020-12-14 2022-04-19 中山大学 网络社团协作缓存方法、装置、计算机设备和存储介质
CN113094183B (zh) * 2021-06-09 2021-09-17 苏州浪潮智能科技有限公司 Ai训练平台的训练任务创建方法、装置、系统及介质
CN113590666B (zh) * 2021-09-30 2022-02-18 苏州浪潮智能科技有限公司 一种ai集群中数据缓存方法、系统、设备及计算机介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218233A (zh) * 2013-05-09 2013-07-24 福州大学 Hadoop异构集群中的数据分配策略
CN105743980A (zh) * 2016-02-03 2016-07-06 上海理工大学 一种自组织的云资源共享分布式对等网络模型构造方法
CN111367950A (zh) * 2020-02-28 2020-07-03 上海欣巴自动化科技股份有限公司 一种基于Kubernetes的分布式AGV调度系统及调度方法
CN112632092A (zh) * 2020-12-18 2021-04-09 北京浪潮数据技术有限公司 一种集群管理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20240152458A1 (en) 2024-05-09
CN113590666A (zh) 2021-11-02
WO2023050704A1 (zh) 2023-04-06

Similar Documents

Publication Publication Date Title
CN107590001B (zh) 负载均衡方法及装置、存储介质、电子设备
US20190034833A1 (en) Model Training Method and Apparatus
CN109885452B (zh) 性能监控方法、装置及终端设备
US8898422B2 (en) Workload-aware distributed data processing apparatus and method for processing large data based on hardware acceleration
CN108959399B (zh) 分布式数据删除流控方法、装置、电子设备及存储介质
US8898677B2 (en) Data arrangement calculating system, data arrangement calculating method, master unit and data arranging method
WO2021259041A1 (zh) Ai计算图的排序方法、装置、设备及存储介质
CN104102693A (zh) 对象处理方法和装置
CN113821332B (zh) 自动机器学习系统效能调优方法、装置、设备及介质
CN113590666B (zh) 一种ai集群中数据缓存方法、系统、设备及计算机介质
CN110309142B (zh) 规则管理的方法和装置
CN115965205A (zh) 云边端协同资源优化方法、装置、电子设备及存储介质
US11190620B2 (en) Methods and electronic devices for data transmission and reception
CN117061365B (zh) 一种节点选择方法、装置、设备及可读存储介质
CN117014389A (zh) 算网资源配置方法及系统、电子设备、存储介质
CN116594568A (zh) 一种数据存储方法、装置、电子设备及存储介质
CN114338386B (zh) 一种网络的配置方法、装置、电子设备及存储介质
CN114118389B (zh) 神经网络数据处理方法、设备及存储介质
CN112463027B (zh) 一种i/o处理方法、系统、设备及计算机可读存储介质
CN111522879B (zh) 一种基于缓存的数据分发方法和电子设备
CN114020454A (zh) 一种内存管理方法、装置、设备及介质
CN114363988A (zh) 分簇方法、装置和电子设备
CN113992520A (zh) 一种虚拟网络资源的部署方法和系统
CN113672176A (zh) 一种数据读取方法、系统、设备及计算机可读存储介质
CN110795371A (zh) 一种i/o请求处理方法、系统、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant