CN116980437A - 一种深度学习异构计算系统 - Google Patents

一种深度学习异构计算系统 Download PDF

Info

Publication number
CN116980437A
CN116980437A CN202310728474.7A CN202310728474A CN116980437A CN 116980437 A CN116980437 A CN 116980437A CN 202310728474 A CN202310728474 A CN 202310728474A CN 116980437 A CN116980437 A CN 116980437A
Authority
CN
China
Prior art keywords
scheduling
resource
container
information
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310728474.7A
Other languages
English (en)
Inventor
王佳颖
李玉容
吴建雄
周振华
郭晓冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Power Space Technology Co ltd
Original Assignee
State Grid Power Space Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Power Space Technology Co ltd filed Critical State Grid Power Space Technology Co ltd
Priority to CN202310728474.7A priority Critical patent/CN116980437A/zh
Publication of CN116980437A publication Critical patent/CN116980437A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种深度学习异构计算系统,所述系统包括分布式存储模块、资源调度模块和容器;所述分布式存储模块用于采用无中心架构存储数据;所述资源调度模块用于使用不同的调度系统执行调度任务;所述容器用于针对每一用户,赋予一个拥有操作系统基本功能的容器,用户登陆容器即可实现对计算资源的调用,进而运行所需的计算任务。

Description

一种深度学习异构计算系统
技术领域
本发明涉及计算机技术领域,并且更具体地,涉及一种深度学习异构计算系统。
背景技术
传统面向深度学习的云平台在软硬件方面均存在显著缺点,不能满足深度学习对于大规模计算资源的要求;不足以支撑各类神经网络算法。
发明内容
根据本发明,提供了一种深度学习异构计算系统,以解决传统面向深度学习的云平台不能满足深度学习对于大规模计算资源的要求,不足以支撑各类神经网络算法的技术问题。
根据本发明,提供了一种深度学习异构计算系统,所述系统包括分布式存储模块、资源调度模块和容器;
所述分布式存储模块用于采用无中心架构存储数据;
所述资源调度模块用于使用不同的调度系统执行调度任务;
所述容器用于针对每一用户,赋予一个拥有操作系统基本功能的容器,用户登陆容器即可实现对计算资源的调用,进而运行所需的计算任务。
可选地,所述无中心架构包括计算模式以及一致性哈希模式;
计算模式Ceph为客户端通过一个设备映射关系计算出来其写入数据的位置,直接与存储节点通信。
可选地,Ceph核心组件包括Mon服务和OSD服务,其中Mon服务用于维护存储系统的硬件逻辑关系,OSD服务用于实现对磁盘的管理,客户端在启动后会首先从Mon服务拉取存储资源布局信息,根据所述资源布局信息和写入数据的名称信息计算出期望数据的位置,包含具体的物理服务器信息和磁盘信息,该位置信息直接通信,读取或者写入数据。
可选地,一致性哈希Swift用于通过一致性哈希的方式获得数据位置,一致性哈希的方式就是将设备做成一个哈希环,根据数据名称计算出的哈希值映射到哈希环的某个位置。
可选地,平台资源从系统架构的角度可以分为:集中式调度系统、两层式调度系统和共享状态调度系统。
可选地,所述集中式调度系统通过统一的调度算法进行任务调度,集中式调度系统的所有集群相关信息存储在调度器上。
可选地,在所述集中式调度系统中,调度框架之间可以相互独立互不干扰地并行执行任务,每一个调度框架独立实现具体的调度算法,资源调度器只负责资源分发,两层式系统使用资源管理器管理集群所有的资源信息,并为调度框架提供计算资源。
可选地,所述共享状态调度系统通过不同的调度框架执行不同类型的任务,它的核心是共享状态。
可选地,所述共享式调度系统使用乐观锁进行并发控制,集群的相关信息都增加了版本号,在提交的时候与当前数据的版本号进行对照,若提交的状态信息版本号比当前信息的版本号高,则允许此次提交,否则决绝提交请求。
可选地,所述容器提供了镜像制作用户登陆环境,根据实际需求安装基础包和系统字符集,镜像制作完成,提交到容器镜像仓库,平台集群各节点的容器服务均登陆此容器镜像仓库,并从仓库中更新本地的镜像,用户提交的资源申请提交到资源调度系统,由调度器根据调度算法选择最合适的节点,并运行容器
从而,提高任务执行效率,进而实现内存/显存空间资源的高效利用,以解决传统面向深度学习的云平台不能满足深度学习对于大规模计算资源的要求,不足以支撑各类神经网络算法的技术问题。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本实施方式所述的深度学习异构计算系统示意图;
图2为本实施方式所述的无中心式简化架构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
根据本发明的第一个方面,提供了一种深度学习异构计算系统100,参考图1所示,所述系统包括分布式存储模块、资源调度模块和容器;
所述分布式存储模块用于采用无中心架构存储数据;
所述资源调度模块用于使用不同的调度系统执行调度任务;
所述容器用于针对每一用户,赋予一个拥有操作系统基本功能的容器,用户登陆容器即可实现对计算资源的调用,进而运行所需的计算任务。
可选地,所述无中心架构包括计算模式以及一致性哈希模式;
计算模式Ceph为客户端通过一个设备映射关系计算出来其写入数据的位置,直接与存储节点通信。
具体地,参考图2所示,图2是一类典型完全无中心架构,称为计算模式(Ceph),与HPFS相比,Ceph的不同点在于该架构中没有中心节点。客户端是通过一个设备映射关系计算出来其写入数据的位置,这样客户端可以直接与存储节点通信,从而避免中心节点的性能瓶颈。Ceph核心组件有Mon服务和OSD服务等,其中Mon服务用于维护存储系统的硬件逻辑关系,OSD服务用于实现对磁盘的管理。客户端在启动后会首先从Mon服务拉取存储资源布局信息,然后根据该布局信息和写入数据的名称等信息计算出期望数据的位置(包含具体的物理服务器信息和磁盘信息),然后该位置信息直接通信,读取或者写入数据。
可选地,Ceph核心组件包括Mon服务和OSD服务,其中Mon服务用于维护存储系统的硬件逻辑关系,OSD服务用于实现对磁盘的管理,客户端在启动后会首先从Mon服务拉取存储资源布局信息,根据所述资源布局信息和写入数据的名称信息计算出期望数据的位置,包含具体的物理服务器信息和磁盘信息,该位置信息直接通信,读取或者写入数据。
可选地,一致性哈希Swift用于通过一致性哈希的方式获得数据位置,一致性哈希的方式就是将设备做成一个哈希环,根据数据名称计算出的哈希值映射到哈希环的某个位置。
可选地,平台资源从系统架构的角度可以分为:集中式调度系统、两层式调度系统和共享状态调度系统。
可选地,所述集中式调度系统通过统一的调度算法进行任务调度,集中式调度系统的所有集群相关信息存储在调度器上。
可选地,在所述集中式调度系统中,调度框架之间可以相互独立互不干扰地并行执行任务,每一个调度框架独立实现具体的调度算法,资源调度器只负责资源分发,两层式系统使用资源管理器管理集群所有的资源信息,并为调度框架提供计算资源。
可选地,所述共享状态调度系统通过不同的调度框架执行不同类型的任务,它的核心是共享状态。
可选地,所述共享式调度系统使用乐观锁进行并发控制,集群的相关信息都增加了版本号,在提交的时候与当前数据的版本号进行对照,若提交的状态信息版本号比当前信息的版本号高,则允许此次提交,否则决绝提交请求。
可选地,所述容器提供了镜像制作用户登陆环境,根据实际需求安装基础包和系统字符集,镜像制作完成,提交到容器镜像仓库,平台集群各节点的容器服务均登陆此容器镜像仓库,并从仓库中更新本地的镜像,用户提交的资源申请提交到资源调度系统,由调度器根据调度算法选择最合适的节点,并运行容器
从而,提高任务执行效率,进而实现内存/显存空间资源的高效利用,以解决传统面向深度学习的云平台不能满足深度学习对于大规模计算资源的要求,不足以支撑各类神经网络算法的技术问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种深度学习异构计算系统,其特征在于,所述系统包括分布式存储模块、资源调度模块和容器;
所述分布式存储模块用于采用无中心架构存储数据;
所述资源调度模块用于使用不同的调度系统执行调度任务;
所述容器用于针对每一用户,赋予一个拥有操作系统基本功能的容器,用户登陆容器即可实现对计算资源的调用,进而运行所需的计算任务。
2.根据权利要求1所述的系统,其特征在于,
所述无中心架构包括计算模式以及一致性哈希模式;
计算模式Ceph为客户端通过一个设备映射关系计算出来其写入数据的位置,直接与存储节点通信。
3.根据权利要求2所述的系统,其特征在于,
Ceph核心组件包括Mon服务和OSD服务,其中Mon服务用于维护存储系统的硬件逻辑关系,OSD服务用于实现对磁盘的管理,客户端在启动后会首先从Mon服务拉取存储资源布局信息,根据所述资源布局信息和写入数据的名称信息计算出期望数据的位置,包含具体的物理服务器信息和磁盘信息,该位置信息直接通信,读取或者写入数据。
4.根据权利要求2所述的系统,其特征在于,
一致性哈希Swift用于通过一致性哈希的方式获得数据位置,一致性哈希的方式就是将设备做成一个哈希环,根据数据名称计算出的哈希值映射到哈希环的某个位置。
5.根据权利要求1所述的系统,平台资源从系统架构的角度可以分为:集中式调度系统、两层式调度系统和共享状态调度系统。
6.根据权利要求5所述的系统,其特征在于,
所述集中式调度系统通过统一的调度算法进行任务调度,集中式调度系统的所有集群相关信息存储在调度器上。
7.根据权利要求5所述的系统,其特征在于,
在所述集中式调度系统中,调度框架之间可以相互独立互不干扰地并行执行任务,每一个调度框架独立实现具体的调度算法,资源调度器只负责资源分发,两层式系统使用资源管理器管理集群所有的资源信息,并为调度框架提供计算资源。
8.根据权利要求5所述的系统,其特征在于,
所述共享状态调度系统通过不同的调度框架执行不同类型的任务,它的核心是共享状态。
9.根据权利要求8所述的系统,其特征在于,
所述共享式调度系统使用乐观锁进行并发控制,集群的相关信息都增加了版本号,在提交的时候与当前数据的版本号进行对照,若提交的状态信息版本号比当前信息的版本号高,则允许此次提交,否则决绝提交请求。
10.根据权利要求6所述的系统,其特征在于,
所述容器提供了镜像制作用户登陆环境,根据实际需求安装基础包和系统字符集,镜像制作完成,提交到容器镜像仓库,平台集群各节点的容器服务均登陆此容器镜像仓库,并从仓库中更新本地的镜像,用户提交的资源申请提交到资源调度系统,由调度器根据调度算法选择最合适的节点,并运行容器。
CN202310728474.7A 2023-06-19 2023-06-19 一种深度学习异构计算系统 Pending CN116980437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310728474.7A CN116980437A (zh) 2023-06-19 2023-06-19 一种深度学习异构计算系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310728474.7A CN116980437A (zh) 2023-06-19 2023-06-19 一种深度学习异构计算系统

Publications (1)

Publication Number Publication Date
CN116980437A true CN116980437A (zh) 2023-10-31

Family

ID=88478674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310728474.7A Pending CN116980437A (zh) 2023-06-19 2023-06-19 一种深度学习异构计算系统

Country Status (1)

Country Link
CN (1) CN116980437A (zh)

Similar Documents

Publication Publication Date Title
US20200073987A1 (en) Technologies for runtime selection of query execution engines
US10733019B2 (en) Apparatus and method for data processing
CN103593236B (zh) 一种业务流程调度的计算机设备、方法和装置
CN111258744A (zh) 一种基于异构计算的任务处理方法及软硬件框架系统
US8209690B2 (en) System and method for thread handling in multithreaded parallel computing of nested threads
CN112104723B (zh) 一种多集群的数据处理系统及方法
CN111309649B (zh) 一种数据传输和任务处理方法、装置及设备
CN110716748A (zh) 业务处理方法、装置、计算机可读介质及电子设备
CN105786603B (zh) 一种基于分布式的高并发业务处理系统及方法
WO2022132233A1 (en) Multi-tenant control plane management on computing platform
CN112363913B (zh) 一种并行测试任务调度寻优的方法、装置和计算设备
CN114924851B (zh) 训练任务的调度方法、装置、电子设备和存储介质
CN115686805A (zh) Gpu资源共享的方法和装置、调度gpu资源共享的方法和装置
CN111597035B (zh) 基于多线程的仿真引擎时间推进方法及系统
US5894573A (en) Program controlling method having transfer of code and data among programs and apparatus therefor
US20210255837A1 (en) Opc ua server, system operating using opc ua, and method of executing opc ua system
US20220413906A1 (en) Method, device, and program product for managing multiple computing tasks based on batch
US20150186189A1 (en) Managing array computations during programmatic run-time in a distributed computing environment
CN116302448B (zh) 任务调度方法和系统
WO2024037132A1 (zh) 工作流处理方法、装置、设备、存储介质和程序产品
Cai et al. Deployment and verification of machine learning tool-chain based on kubernetes distributed clusters: This paper is submitted for possible publication in the special issue on high performance distributed computing
CN116594752A (zh) 流程调度方法、装置、设备、介质和程序产品
US9059992B2 (en) Distributed mobile enterprise application platform
US20230418681A1 (en) Intelligent layer derived deployment of containers
CN116980437A (zh) 一种深度学习异构计算系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination