CN113965587B - 一种人工智能平台的数据获取方法、装置、设备、介质 - Google Patents

一种人工智能平台的数据获取方法、装置、设备、介质 Download PDF

Info

Publication number
CN113965587B
CN113965587B CN202111096227.7A CN202111096227A CN113965587B CN 113965587 B CN113965587 B CN 113965587B CN 202111096227 A CN202111096227 A CN 202111096227A CN 113965587 B CN113965587 B CN 113965587B
Authority
CN
China
Prior art keywords
data
node
artificial intelligence
target
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111096227.7A
Other languages
English (en)
Other versions
CN113965587A (zh
Inventor
姬贵阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111096227.7A priority Critical patent/CN113965587B/zh
Publication of CN113965587A publication Critical patent/CN113965587A/zh
Priority to PCT/CN2022/078400 priority patent/WO2023040203A1/zh
Application granted granted Critical
Publication of CN113965587B publication Critical patent/CN113965587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Abstract

本申请公开了一种人工智能平台的数据获取方法、装置、设备、介质,包括:获取人工智能集群中目标节点针对目标数据发起的数据操作请求;统计其他每个计算节点的当前数据操作任务压力;按照当前数据操作任务压力从小到大的顺序对其他所有计算节点进行依次遍历,并在遍历过程中判断当前遍历到的计算节点中是否已保存有目标数据;若已保存有目标数据,则通过预先在集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的计算节点中的目标数据传输至目标节点。通过预先基于远程直接数据存取技术搭建的共享存储网络,能够实现集群内各个节点之间的数据互传,从而降低了主存储节点的磁盘和网络压力,保证了集群的稳定高效。

Description

一种人工智能平台的数据获取方法、装置、设备、介质
技术领域
本申请涉及数据获取技术领域,特别涉及一种人工智能平台的数据获取方法、装置、设备、介质。
背景技术
目前,随着人工智能相关产业的蓬勃发展,越来越多的科研企业和高校的研究人员对计算力的要求也是越来越高,人工智能(AI,即Artificial Intelligence)集群的构建有效解决了企业和科研高校对计算力的要求。各种各样的人工智能集群在市面上也不断的踊跃和产生,人工智能集群的一个重要基本功能是文件的操作,包括数据集的本地下载缓存,训练过程中文件的读取,训练任务日志回写以及文件的移动等一系列操作,这些都依赖于集群的存储资源,且大规模人工智能集群对于存储和网络要求都非常高,有频繁的I/O(Input/Output,输入/输出)操作,如何在人工智能集群中进行海量的文件操作,且不影响人工智能集群的性能,成为人工智能集群中首要解决的问题,关乎于人工智能集群用户进行训练任务的工作效率。
然而,当前的人工智能集群大都是以单节点作为存储,或者使用外置存储,属于一对多的存储设计模式,即一个共享存储,挂载到集群中的各个计算节点上,这样的劣势很明显,即网络压力和磁盘I/O压力全部在一个节点上,导致集群资源的使用效率低下,且造成集群资源的浪费,随着节点数的增加,主存储节点压力也在增加,完全不适用于日渐增长的人工智能集群规模的需求。并且由于人工智能集群中有海量的数据集文件,是非重要的备份的文件,如果将数据集放置在主存储节点上,无论是在用户目录的转移还是存储在本地的缓存,都会造成人工智能集群资源的浪费,使得存储和网络资源得不到充分利用。
发明内容
有鉴于此,本申请的目的在于提供一种人工智能平台的数据获取方法、装置、设备、介质,能够降低人工智能集群中主存储节点的网络和磁盘压力,使各个计算节点之间的网络资源得到充分的利用,增强了人工智能集群资源的使用率。其具体方案如下:
第一方面,本申请公开了一种人工智能平台的数据获取方法,应用于包含主存储节点以及多个计算节点的人工智能集群,包括:
获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点;
统计其他每个所述计算节点的当前数据操作任务压力;
按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据;
如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
可选的,所述的人工智能平台的数据获取方法,还包括:
若所有遍历到的所述计算节点中均未保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将所述主存储节点中预先保存的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
可选的,所述共享存储网络的搭建过程,包括:
基于远程直接数据存取技术以及无限带宽技术,在所述人工智能集群的不同节点之间搭建网络结构为全连通结构的网络文件系统共享存储网络。
可选的,所述统计其他每个所述计算节点的当前数据操作任务压力,包括:
监视其他任意所述计算节点是否出现故障;
如果其他任意所述计算节点出现故障,则将出现故障的所述计算节点的当前数据操作任务压力设置为无穷大。
可选的,所述统计其他每个所述计算节点的当前数据操作任务压力,包括:
监测其他每个所述计算节点的当前任务数量,得到所述计算节点的当前数据操作任务压力。
可选的,所述按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历的过程中,还包括:
若存在多个计算节点均具有相同的当前任务数量,则按照所述计算节点的当前数据处理能力从大到小的顺序对所述多个计算节点进行依次遍历。
可选的,所述统计其他每个所述计算节点的当前数据操作任务压力,包括:
确定其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力;
基于所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,确定其他每个所述计算节点的当前数据操作任务压力。
第二方面,本申请公开了一种人工智能平台的数据获取装置,应用于包含主存储节点以及多个计算节点的人工智能集群,包括:
请求获取模块,用于获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点;
统计模块,用于统计其他每个所述计算节点的当前数据操作任务压力;
遍历模块,用于按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据;
数据传输模块,用于如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
第三方面,本申请公开了一种电子设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述的人工智能平台的数据获取方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述的人工智能平台的数据获取方法。
可见,本申请先获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点,再统计其他每个所述计算节点的当前数据操作任务压力,然后按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据,如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。可见,本申请通过预先基于远程直接数据存取技术搭建的共享存储网络使得各个节点之间相互连通,能够实现人工智能集群内不同节点之间的数据传输,充分提高了人工智能集群的网络和磁盘的利用率,同时降低了人工智能集群中主存储的网络和磁盘压力,保证人工智能集群的相关平台的业务稳定运行。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种人工智能平台的数据获取方法流程图;
图2为本申请公开的一种存在故障的共享存储网络结构示意图;
图3为本申请公开的一种全连通网络结构的共享存储网络结构示意图;
图4为本申请公开的一种具体的人工智能平台的数据获取方法流程图;
图5为本申请公开的一种关于数据操作任务压力的具体表征示意图;
图6为本申请公开的一种具体的人工智能平台的数据获取方法流程图;
图7为本申请公开的一种具体的人工智能平台的数据获取方法流程图;
图8为本申请公开的一种人工智能平台的数据获取装置结构示意图;
图9为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种人工智能平台的数据获取方法,参见图1所示,该方法包括:
步骤S11:获取人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点。
本实施例中,所述人工智能集群主要包括主存储节点以及除所述主存储节点以外的其他所有节点,即所述计算节点。其中,所述目标数据包括但不限于训练脚本、训练模型文件、训练日志记录信息及数据集文件等信息,并且上述信息预先保存在所述主存储节点中,同时,所述主存储节点为整个人工智能集群的入口节点,即任意所述计算节点需要的目标数据都能够在所述主存储节点中获取到。
具体的,本实施例中,首先获取上述人工智能集群中预先指定的目标节点针对目标数据发起的数据操作请求。其中,所述目标节点为上述人工智能集群中的任一所述计算节点;所述数据操作请求是针对目标数据发起的,不同的目标数据对应的数据操作请求也有所不同。例如,当目标数据为数据集文件时,对应的数据操作请求可以为数据集文件的传输操作请求。
步骤S12:统计其他每个所述计算节点的当前数据操作任务压力。
本实施例中,在获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求之后,需要对除了上述目标节点以外的所有计算节点的当前数据操作的任务压力进行统计。可以理解的是,所述当前数据操作任务压力主要包括但不限于所述计算节点对当前数据操作任务的处理能力以及所需处理数据的总量。具体的,所述计算节点对当前数据操作任务的处理能力越强,则表明当前数据操作任务压力越小;所述计算节点对当前数据操作任务的处理能力越弱,则表明当前数据操作任务压力越大;所述计算节点当前所需处理数据的总量越大,则表明当前数据操作任务压力越大;所述计算节点当前所需处理数据的总量越小,则表明当前数据操作任务压力越小。
本实施例中,所述统计其他每个所述计算节点的当前数据操作任务压力,具体可以包括:监视其他任意所述计算节点是否出现故障;如果其他任意所述计算节点出现故障,则将出现故障的所述计算节点的当前数据操作任务压力设置为无穷大。具体的,在统计其他每个所述计算节点的当前数据操作任务压力的过程中,当监视到所述计算节点中任意一个计算节点发生故障,例如损坏或关机下线,可以将出现故障的计算节点的当前数据操作任务压力设置为无穷大,即无法从存在故障的计算节点中查询到所述目标数据。例如,参见图2所示,若监视到计算节点2发生软件和/或硬件故障时,则将所述计算节点2的当前数据操作任务压力设置为无穷大。
步骤S13:按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据。
本实施例中,在对其他每个所述计算节点的当前数据操作任务压力统计完成之后,可以按照当前数据操作任务压力从小到大的排列顺序,从当前数据操作任务压力最小的计算节点开始进行依次遍历,并且在每次遍历的过程中,判断当前遍历到的上述计算节点中是否已经存在与上述目标数据相同的数据。
步骤S14:如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取(即RDMA,Remote DirectMemory Access)技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
本实施例中,按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,在每次遍历过程中,当遍历到的所述计算节点中已经保存有与上述目标数据相同的数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据发送到对应的所述目标节点,所述目标节点在获取到上述目标数据之后,会根据所述数据操作请求对所述目标数据进行相应的数据操作。
需要指出的是,本实施例中,所述共享存储网络的搭建过程,具体可以包括:基于远程直接数据存取技术以及无限带宽技术,在所述人工智能集群的不同节点之间搭建网络结构为全连通结构的网络文件系统共享存储网络。具体的,本实施例中为了实现人工智能集群中所有节点之间能够进行数据文件的传输,首先基于远程直接数据存取技术以及无限带宽技术(即Infiniband网络)在人工智能集群的不同节点之间搭建网络结构为任意两个节点能够相互连通的全连通结构的网络文件系统(NFS,即Network File System)共享存储网络。例如,参见图3所示,通过远程直接数据存取技术以及无限带宽技术能够实现主存储节点、计算节点1、计算节点2、计算节点3中任意两个节点之间都是互通可达的全连通网络。
可以理解的是,在搭建完上述网络文件系统共享存储网络之后,被指定的所述目标节点能够通过上述共享存储网络实现与所述人工智能集群中所有其他所述计算节点连通互达,以便在进行所述目标数据获取过程中,能够通过所有其他所述计算节点查询到与所述目标数据相同的数据,并将查询到的数据发送至所述目标节点。进一步的,参见图2所示,若监视到计算节点2发生软件和/或硬件故障时,则可以通过全连通结构的共享存储网络从计算节点1和计算节点3中查询是否包含与所述目标数据相同的数据。
可见,本申请实施例先获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点,再统计其他每个所述计算节点的当前数据操作任务压力,然后按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据,如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。可见,本申请通过预先基于远程直接数据存取技术搭建的共享存储网络使得各个节点之间相互连通,能够实现人工智能集群内不同节点之间的数据传输,高效利用主存储节点之外其它节点之间的网络资源,同时降低了人工智能集群中主存储的网络和磁盘压力,保证人工智能集群的相关平台的业务稳定运行。
本申请实施例公开了一种具体的人工智能平台的数据获取方法,参见图4所示,该方法包括:
步骤S21:获取人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点。
步骤S22:监测其他每个所述计算节点的当前任务数量,得到所述计算节点的当前数据操作任务压力。
本实施例中,在获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求之后,可以对其他每个所述计算节点进行监测,然后实时的统计各个上述计算节点的当前任务数量,并将上述当前任务数量作为所述计算节点对应的当前数据操作任务压力。其中,所述当前任务包括但不限于数据集的缓存、数据集的读取、训练任务日志回写等操作。本实施例可以在监测其他每个所述计算节点的当前任务数量的过程中,可以将检测到的当前任务数量作为各个计算节点对应的目标数据传输的距离,上述距离的数值越小则表示对应的计算节点的当前数据操作任务压力也越小,上述距离的数值越大则表示对应的计算节点的当前数据操作任务压力也越大。例如,当获取到人工智能集群中目标节点针对目标数据发起的缓存操作请求之后,首先需要对人工智能集群中除了目标节点以外的节点进行监测,参见图5所示,当监测到计算节点1当前没有数据集缓存任务时,则表明计算节点1为可用节点,并将计算节点1对应的当前数据操作任务压力对应的距离设置为0;当监测到计算节点2的当前数据集缓存任务有两个时,则表明计算节点2为可用节点并将计算节点2对应的当前数据操作任务压力对应的距离设置为2;当监测到计算节点3发生故障后,则表明其不可用,并将计算节点3对应的当前数据操作任务压力对应的距离设置为I,其中I为无穷大,即使得无法从计算节点3中获取到目标数据;当监测到计算节点4的当前数据集缓存任务有一个时,则表明计算节点4为可用节点,并将计算节点4对应的当前数据操作任务压力对应的距离设置为1。另外,对于作为管理节点的主存储节点来说,其对应的距离设置可以为S,可以理解的是,上述设置的主存储节点对应的距离S,其具体数值需要确保在其他计算节点均没有所述目标数据时,使得主存储节点能够作为最后将其内部保存的目标数据传输至目标节点的节点。
步骤S23:按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据。
本实施例中,在监测其他每个所述计算节点的当前任务数量,得到所述计算节点的当前数据操作任务压力之后,可以按照当前数据操作任务压力从小到大的排列顺序,对其他所有所述计算节点进行依次遍历,并在每次遍历的过程中,判断当前遍历到的所述计算节点中是否已经保存有与所述目标数据相同的数据。具体的,例如图5所示,按照当前数据集缓存操作任务压力从小到大的顺序对计算节点1、计算节点4、计算节点2进行依次遍历,并在每次遍历过程中,判断当前遍历到的计算节点中是否已保存有上述目标数据。
另外,需要进一步指出的是,所述按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历的过程中,具体还可以包括:若存在多个计算节点均具有相同的当前任务数量,则按照所述计算节点的当前数据处理能力从大到小的顺序对所述多个计算节点进行依次遍历。可以理解的是,如果在遍历的过程中存在多个计算节点当前任务数量均相同,则可以按照所述计算节点当前对数据的处理能力从大到小的顺序对所述多个计算节点进行依次遍历。其中,所述对数据的处理能力包括但不限于所述计算节点的存储资源、网络资源以及自身的性能等因素。例如,当2个计算节点对应的当前任务数量均为3时,则可以比较上述2个计算节点的当前数据处理能力,若其中一个计算节点具有更高的空闲存储资源和/或CPU(central processing unit,即中央处理器)处理性能,则优先对所述计算节点进行遍历。
步骤S24:如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
其中,关于上述步骤S21、S24更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例通过监测其他每个所述计算节点的当前任务数量,得到所述计算节点的当前数据操作任务压力,并且,当存在多个计算节点均具有相同的当前任务数量时,按照所述计算节点的当前数据处理能力从大到小的顺序对存在相同当前任务数量的所述多个计算节点进行依次遍历,并通过当前数据处理能力的大小进一步地优化了对计算节点遍历的先后顺序的选取,能够使各个计算节点之间的网络资源得到充分的利用,增强了人工智能集群资源的利用率,也提高了人工智能集群的整体计算资源使用效率,使得压力负载均衡。
本申请实施例公开了一种具体的人工智能平台的数据获取方法,参见图6所示,该方法包括:
步骤S31:获取人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点。
步骤S32:确定其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力。
本实施例中,在获取到上述人工智能集群中目标节点针对目标数据发起的数据操作请求之后,可以对其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力进行统计,从而确定出其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力。其中,所述待处理数据总量为所述计算节点当前所有待处理任务数量对应的数据量总和。
步骤S33:基于所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,确定其他每个所述计算节点的当前数据操作任务压力。
本实施例中,当确定出其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力之后,可以根据所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,确定出其他每个所述计算节点的当前数据操作任务压力对应的压力值。例如,所述计算节点的当前所有数据操作任务的待处理数据总量越小以及当前数据处理能力越强,则表明所述计算节点的当前数据操作任务压力越小。
步骤S34:按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据。
步骤S35:如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
其中,关于上述步骤S31、S34、S35更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例先确定出其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,并基于所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,确定其他每个所述计算节点的当前数据操作任务压力。本申请实施例基于所述计算节点的当前所有数据操作任务的待处理数据总量并结合当前数据处理能力,确定出其他每个所述计算节点的当前数据操作任务压力,能够充分的利用各个节点之间的网络资源和存储资源,实现了性能和速度的提升,非常适用于人工智能集群文件海量的业务场景,增强人工智能集群资源使用率,提升模型训练效率,也提高了人工智能集群的整体计算资源使用效率。
本申请实施例公开了一种具体的人工智能平台的数据获取方法,参见图7所示,该方法包括:
步骤S41:获取人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点。
步骤S42:统计其他每个所述计算节点的当前数据操作任务压力。
步骤S43:按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据。
步骤S44:若所有遍历到的所述计算节点中均未保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将所述主存储节点中预先保存的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
本实施例中,在对其他所有所述计算节点进行依次遍历的过程中,如果所有遍历到的所述计算节点中均没有保存与上述目标数据相同的数据,则可以通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将所述主存储节点中预先保存的上述目标数据发送到上述目标节点,即所述主存储节点为最后用于获取所述目标数据到达的节点。当上述目标节点获取到上述目标数据之后,可以根据所述数据操作请求对上述目标数据进行相应的数据操作。
另外,需要指出的是,本实施例中需确保人工智能集群的主存储节点无异常并且预先保存有与所述目标数据对应的信息,从而保证整个人工智能集群都是全连通的网络结构。
其中,关于上述步骤S41、S42、S43更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中若所有遍历到的计算节点中均未保存有目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将主存储节点中预先保存的所述目标数据传输至所述目标节点,从而确保在所述计算节点中无所述目标数据的情况下通过主存储节点获取所述目标数据。
相应的,本申请实施例还公开了一种人工智能平台的数据获取装置,应用于包含主存储节点以及多个计算节点的人工智能集群,参见图8所示,该装置包括:
请求获取模块11,用于获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点;
统计模块12,用于统计其他每个所述计算节点的当前数据操作任务压力;
遍历模块13,用于按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据;
数据传输模块14,用于如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
其中,关于上述各个模块的具体工作流程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例先获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点,再统计其他每个所述计算节点的当前数据操作任务压力,然后按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据,如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。可见,本申请通过基于远程直接数据存取技术搭建的共享存储网络使得各个节点之间相互连通,能够实现人工智能集群内不同节点之间的数据相互传输,充分提高了人工智能集群的网络和磁盘的利用率,同时降低了人工智能集群中主存储的网络和存储压力,保证人工智能集群的相关平台的业务稳定运行。
在一些具体实施例中,所述人工智能平台的数据获取装置,还可以包括:
第一数据传输单元,用于当所有遍历到的所述计算节点中均未保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将所述主存储节点中预先保存的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
在一些具体实施例中,所述共享存储网络的搭建过程,具体可以包括:
网络搭建单元,用于基于远程直接数据存取技术以及无限带宽技术,在所述人工智能集群的不同节点之间搭建网络结构为全连通结构的网络文件系统共享存储网络。
在一些具体实施例中,所述统计模块12,具体可以包括:
第一监视单元,用于监视其他任意所述计算节点是否出现故障;
设置单元,用于当其他任意所述计算节点出现故障,则将出现故障的所述计算节点的当前数据操作任务压力设置为无穷大。
在一些具体实施例中,所述统计模块12,具体可以包括:
第二监视单元,用于监测其他每个所述计算节点的当前任务数量,得到所述计算节点的当前数据操作任务压力。
在一些具体实施例中,所述遍历模块13的过程中,还可以包括:
第一遍历单元,用于若存在多个计算节点均具有相同的当前任务数量,则按照所述计算节点的当前数据处理能力从大到小的顺序对所述多个计算节点进行依次遍历。
在一些具体实施例中,所述统计模块12,具体可以包括:
第一确定单元,用于确定其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力;
第二确定单元,用于基于所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,确定其他每个所述计算节点的当前数据操作任务压力。
进一步的,本申请实施例还公开了一种电子设备,图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的人工智能平台的数据获取方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵 循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进 行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、 磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222 等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算 机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的人工智能平台的数据获取方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的人工智能平台的数据获取方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种人工智能平台的数据获取方法、装置、设备、介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种人工智能平台的数据获取方法,其特征在于,应用于包含主存储节点以及多个计算节点的人工智能集群,包括:
获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点;
统计其他每个所述计算节点的当前数据操作任务压力;
按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据;
如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作;
其中,所述共享存储网络的搭建过程,包括:基于远程直接数据存取技术以及无限带宽技术,在所述人工智能集群的不同节点之间搭建网络结构为全连通结构的网络文件系统共享存储网络;
其中,所述统计其他每个所述计算节点的当前数据操作任务压力,包括:监视其他任意所述计算节点是否出现故障;如果其他任意所述计算节点出现故障,则将出现故障的所述计算节点的当前数据操作任务压力设置为无穷大。
2.根据权利要求1所述的人工智能平台的数据获取方法,其特征在于,还包括:
若所有遍历到的所述计算节点中均未保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将所述主存储节点中预先保存的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作。
3.根据权利要求1或2所述的人工智能平台的数据获取方法,其特征在于,所述统计其他每个所述计算节点的当前数据操作任务压力,包括:
监测其他每个所述计算节点的当前任务数量,得到所述计算节点的当前数据操作任务压力。
4.根据权利要求3所述的人工智能平台的数据获取方法,其特征在于,所述按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历的过程中,还包括:
若存在多个计算节点均具有相同的当前任务数量,则按照所述计算节点的当前数据处理能力从大到小的顺序对所述多个计算节点进行依次遍历。
5.根据权利要求1或2所述的人工智能平台的数据获取方法,其特征在于,所述统计其他每个所述计算节点的当前数据操作任务压力,包括:
确定其他每个所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力;
基于所述计算节点的当前所有数据操作任务的待处理数据总量以及当前数据处理能力,确定其他每个所述计算节点的当前数据操作任务压力。
6.一种人工智能平台的数据获取装置,其特征在于,应用于包含主存储节点以及多个计算节点的人工智能集群,包括:
请求获取模块,用于获取所述人工智能集群中目标节点针对目标数据发起的数据操作请求;所述目标节点为所述人工智能集群中的任一所述计算节点;
统计模块,用于统计其他每个所述计算节点的当前数据操作任务压力;
遍历模块,用于按照当前数据操作任务压力从小到大的顺序对其他所有所述计算节点进行依次遍历,并在每次遍历过程中,判断当前遍历到的所述计算节点中是否已保存有所述目标数据;
数据传输模块,用于如果当前遍历到的所述计算节点中已保存有所述目标数据,则通过预先在所述人工智能集群的不同节点之间基于远程直接数据存取技术搭建的共享存储网络,将当前遍历到的所述计算节点中的所述目标数据传输至所述目标节点,以便所述目标节点根据所述数据操作请求对所述目标数据进行相应的操作;
其中,所述数据获取装置,还用于:基于远程直接数据存取技术以及无限带宽技术,在所述人工智能集群的不同节点之间搭建网络结构为全连通结构的网络文件系统共享存储网络;
其中,所述统计模块,具体用于监视其他任意所述计算节点是否出现故障;如果其他任意所述计算节点出现故障,则将出现故障的所述计算节点的当前数据操作任务压力设置为无穷大。
7.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至5任一项所述的人工智能平台的数据获取方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的人工智能平台的数据获取方法。
CN202111096227.7A 2021-09-18 2021-09-18 一种人工智能平台的数据获取方法、装置、设备、介质 Active CN113965587B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111096227.7A CN113965587B (zh) 2021-09-18 2021-09-18 一种人工智能平台的数据获取方法、装置、设备、介质
PCT/CN2022/078400 WO2023040203A1 (zh) 2021-09-18 2022-02-28 一种人工智能平台的数据获取方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096227.7A CN113965587B (zh) 2021-09-18 2021-09-18 一种人工智能平台的数据获取方法、装置、设备、介质

Publications (2)

Publication Number Publication Date
CN113965587A CN113965587A (zh) 2022-01-21
CN113965587B true CN113965587B (zh) 2022-04-22

Family

ID=79462001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096227.7A Active CN113965587B (zh) 2021-09-18 2021-09-18 一种人工智能平台的数据获取方法、装置、设备、介质

Country Status (2)

Country Link
CN (1) CN113965587B (zh)
WO (1) WO2023040203A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113965587B (zh) * 2021-09-18 2022-04-22 苏州浪潮智能科技有限公司 一种人工智能平台的数据获取方法、装置、设备、介质
CN116032669B (zh) * 2023-03-30 2023-07-25 联一信息技术(北京)有限公司 一种结合人工智能的共享数据隐私处理方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395708A (zh) * 2017-07-14 2017-11-24 郑州云海信息技术有限公司 一种处理下载请求的方法和装置
CN107562385A (zh) * 2017-09-13 2018-01-09 郑州云海信息技术有限公司 分布式存储客户端读取数据的方法、装置和设备
CN107783731A (zh) * 2017-08-07 2018-03-09 荣科科技股份有限公司 一种大数据实时处理方法及处理系统
CN113326155A (zh) * 2021-06-28 2021-08-31 深信服科技股份有限公司 一种信息处理方法、装置、系统和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598738A (zh) * 2016-12-13 2017-04-26 郑州云海信息技术有限公司 一种计算机集群系统及其并行计算方法
US11163728B2 (en) * 2018-09-28 2021-11-02 International Business Machines Corporation Sharing container images utilizing a shared storage system
CN110333937B (zh) * 2019-05-30 2023-08-29 平安科技(深圳)有限公司 任务分发方法、装置、计算机设备和存储介质
CN110764708A (zh) * 2019-10-25 2020-02-07 北京浪潮数据技术有限公司 一种数据读取方法、装置、设备及存储介质
CN110865989A (zh) * 2019-11-22 2020-03-06 浪潮电子信息产业股份有限公司 一种大规模计算集群的业务处理方法
CN113965587B (zh) * 2021-09-18 2022-04-22 苏州浪潮智能科技有限公司 一种人工智能平台的数据获取方法、装置、设备、介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395708A (zh) * 2017-07-14 2017-11-24 郑州云海信息技术有限公司 一种处理下载请求的方法和装置
CN107783731A (zh) * 2017-08-07 2018-03-09 荣科科技股份有限公司 一种大数据实时处理方法及处理系统
CN107562385A (zh) * 2017-09-13 2018-01-09 郑州云海信息技术有限公司 分布式存储客户端读取数据的方法、装置和设备
CN113326155A (zh) * 2021-06-28 2021-08-31 深信服科技股份有限公司 一种信息处理方法、装置、系统和存储介质

Also Published As

Publication number Publication date
WO2023040203A1 (zh) 2023-03-23
CN113965587A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN109074377B (zh) 用于实时处理数据流的受管理功能执行
CN108874640B (zh) 一种集群性能的评估方法和装置
US8260924B2 (en) User load balancing systems and methods thereof
CN113965587B (zh) 一种人工智能平台的数据获取方法、装置、设备、介质
CN1795446B (zh) 计算机集群及其中的计算机节点和传送状态信息的方法
US10657108B2 (en) Parallel I/O read processing for use in clustered file systems having cache storage
US8305911B2 (en) System and method for identifying and managing service disruptions using network and systems data
CN108829352B (zh) 一种分布式存储系统的用户配额方法及系统
US20080168179A1 (en) Method and apparatus for providing load diffusion in data stream correlations
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
CN113010565B (zh) 基于服务器集群的服务器实时数据处理方法及系统
US11743333B2 (en) Tiered queuing system
US20200159841A1 (en) Approach for a controllable trade-off between cost and availability of indexed data in a cloud log aggregation solution such as splunk or sumo
CN104202424B (zh) 一种使用软件架构扩展缓存的方法
CN108427619B (zh) 日志管理方法、装置、计算设备及存储介质
CN105183470A (zh) 一种自然语言处理系统化服务平台
CN112732756A (zh) 数据查询方法、装置、设备及存储介质
US11838193B1 (en) Real-time load limit measurement for a plurality of nodes
Chen Design of computer big data processing system based on genetic algorithm
Wu et al. Optimization design and realization of ceph storage system based on software defined network
GB2538271A (en) Apparatus and methods for load balancing across a network of nodes
EP3709173B1 (en) Distributed information memory system, method, and program
CN111813621A (zh) 基于Flume数据中台的数据处理方法、装置、设备及介质
Meng et al. A network load sensitive block placement strategy of HDFS
Chandy et al. Designing directories in distributed systems: A systematic framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant