CN113886055B - 一种基于容器云技术的智能模型训练资源调度方法 - Google Patents

一种基于容器云技术的智能模型训练资源调度方法 Download PDF

Info

Publication number
CN113886055B
CN113886055B CN202111480832.4A CN202111480832A CN113886055B CN 113886055 B CN113886055 B CN 113886055B CN 202111480832 A CN202111480832 A CN 202111480832A CN 113886055 B CN113886055 B CN 113886055B
Authority
CN
China
Prior art keywords
model training
resources
intelligent model
resource
container cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111480832.4A
Other languages
English (en)
Other versions
CN113886055A (zh
Inventor
郝大鑫
崔隽
吴姗姗
后弘毅
徐伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202111480832.4A priority Critical patent/CN113886055B/zh
Publication of CN113886055A publication Critical patent/CN113886055A/zh
Application granted granted Critical
Publication of CN113886055B publication Critical patent/CN113886055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种基于容器云技术的智能模型训练资源调度方法,包括:多节点容器云环境搭建,在多节点上进行容器云环境的搭建与部署;容器云智能模型训练资源创建,在容器云平台上创建有关于智能模型训练资源的自定义资源,该资源结合部署、服务、有状态副本集等多种组件的功能于一体;智能模型训练资源调谐逻辑编写,编写有关智能模型训练资源调谐逻辑的相关代码,在容器云平台上创建对应自定义控制器。本发明能够在集群中进行智能模型的分布式训练,同时避免传统直接训练的方式带来的资源浪费与不足问题,该方法能够适应各种不同设备性能的分布式集群,在保证集群内部网络通畅的前提下,显著提高大规模智能模型训练的效率。

Description

一种基于容器云技术的智能模型训练资源调度方法
技术领域
本发明属于容器云技术领域,主要涉及到分布式集群的多容器调度以及集群资源配额技术,尤其涉及一种自定义容器资源控制方法。
背景技术
容器云计算技术作为新一代的信息基础设施已成为广泛共识。随着云原生、微服务化等技术的不断发展,越来越多的企业开始采用基于Kubernetes技术构建容器云平台,Kubernetes是一个全新的基于容器技术的分布式架构领先方案,具备了超强的横向扩容能力,使用Kubernetes就是全面拥抱微服务架构。深度学习智能算法也是目前世界最火热的项目之一,将二者进行结合是目前云计算行业内的一个重要分支,即在容器云平台上进行智能模型算法的训练,利用容器云技术的资源调度方法来优化智能模型训练的效率。目前,Kubernetes 在智能的应用方面存在一些不足,例如没有一个基于kubernetes可定制化开发的模型训练资源控制器,在容器云平台进行智能模型训练的过程中,并没有一个很好的工具可以实现训练、验证、服务发布全流程的资源调度。
发明内容
发明目的:本发明的目的在于针对现有技术的不足,提供一种基于容器云技术的智能模型训练资源调度方法。
技术方案:本发明的基于容器云技术的智能模型训练资源调度方法,包括如下步骤:
步骤1、多节点容器云环境搭建:在多节点上使用kubernetes进行容器云环境的搭建与部署,以下将kubernetes简称k8s;
步骤2、容器云智能模型训练资源创建:在容器云平台上创建有关于智能模型训练资源的自定义资源;该资源结合部署、服务、有状态副本集等多种组件的功能于一体,实现智能模型训练的全流程资源注册能力,方便后续使用容器云平台进行模型训练资源的管理与调度。
步骤3、智能模型训练资源调谐逻辑编写:编写有关智能模型训练资源调谐逻辑的相关代码,在容器云平台上创建对应自定义控制器,将智能模型训练资源的注册、变更、删除操作注册到APIServer并实时监听该资源状态,以实现通过容器云技术对智能模型训练资源进行调度的目的。
进一步地,步骤1中,所述容器云环境的搭建与部署具体包括如下步骤:
步骤1-1、准备多台Linux服务器,确保它们拥有相同的CPU架构,确保它们拥有至少8核CPU、16G内存与200G硬盘,确保它们之间网络通畅,且均不属于192.168的内网网段;
步骤1-2、配置每台服务器的hostname与hosts,使它们能够通过DNS相互识别,关闭每台服务器的防火墙与SELinux,统一设置root用户登陆;
步骤1-3、在每台服务器上安装nfs-server、docker-ce、kubelet、kubeadm、kubectl、kubernetes-cni,其中,nfs-server为网络文件系统,用于服务器通过网络共享文件,应用于智能模型资源中的存储卷或存储类;docker-ce为一种容器运行引擎,k8s使用容器化部署方式,故会使用到容器运行引擎;kubelet、kubeadm、kubectl、kubernetes-cni为k8s安装及运行时基本组件;
步骤1-4、在k8s主节点使用kubeadm初始化一个k8s基础集群,并生成相关证书与密钥发送给子节点,子节点通过kubeadm加入该基础集群;在该集群上通过容器部署基础网络组件calico、资源监控组件metrics-server、k8s仪表盘dashboard,当集群内网络组件calico成功运行后,集群内各节点运行状态会显示为Ready,即多节点容器云环境搭建成功。
进一步地,步骤1-4中,所述calico内部Pod使用192.168.0.0/16网段。
进一步地,步骤2中,所述容器云智能模型训练资源创建具体包括如下步骤:
步骤2-1、制作智能模型训练资源的基础训练镜像,该镜像使用centos或ubuntu官方镜像为基础,提供智能模型训练的基础开发环境,并安装适配各类系统基础配套工具;
步骤2-2、为智能模型训练资源创建相应的存储卷,或是相应存储类,为智能模型训练资源提供对应的存储支持,一些未加密或加密的参数,亦需要传递给智能模型训练资源,因此创建相应的配置图和秘密卷,建立相应的角色控制与服务账户,来创建一个角色,该角色能够获取上述存储卷与配置图的资源的读取、修改的权力,同时,建立相应的容器安全策略配置,来赋予智能模型训练容器一些宿主节点的高级权限;
步骤2-3、创建智能模型训练资源对应的自定义资源,其中包括智能模型训练资源的名称、训练镜像名称、服务账户名称、存储类名称、配置图名称和暴露端口,这些部分将会作为智能模型训练资源的一部分,被注册到集群的APIServer中。
进一步地,步骤2-1中,所述基础开发环境包括Python3.6、TensorFlow、Pytorch、JupyterNotebook、Django。
进一步地,步骤2中,所述智能模型训练资源调谐逻辑编写具体包括如下步骤:
步骤3-1、通过client-go建立智能模型训练资源的动态客户端,用于处理智能模型训练资源这种自定义资源;建立智能模型训练资源的通知器,通过通知器机制保证该自定义资源与集群APIServer通信时消息的实时性、可靠性、顺序性;
步骤3-2、通过client-go建立智能模型训练资源建立后需要创建的子资源,包括相应的部署、有状态副本集、服务、服务账户、配置图,通过对应的接口在智能模型资源创建后自动创建这些子资源并监控这些子资源的运行状态;
步骤3-3、建立智能模型训练资源的调谐机制,包括集群调度机制,即在各种资源使用量情况下如何确定APIServer对智能模型训练资源的调度与分配逻辑;队列处理机制,即处理这些资源的顺序、等待时机、遇错解决方法;APIServer同步机制,即何时去同步更新智能模型训练资源在APIServer的状态;更新状态机制,即在各种情况下需要更新智能模型训练资源的何种状态,在何种状态下需要重启资源或重新加入队列;
这一步是智能模型训练资源调度的核心一步,使用容器云平台对智能模型训练资源进行调度,实际效果将取决于调谐机制的好坏。
步骤3-4、编译相关调谐代码为二进制文件,制作相应的控制器容器,内部运行该二进制文件并封装该容器为对应镜像,实现与集群中APIServer的通信与对智能模型训练资源的调度。
本发明主要解决在集群中进行智能模型训练过程中无法很好地进行资源分配的问题。本发明首先创建相应的kubernetes集群作为智能模型训练资源的运行平台,依靠kubernetes强大的集群调度、管理能力作为调度基础。
Kubernetes:一种谷歌公司开源的容器编排管理平台,简称k8s。
APIServer:k8s集群中存在于主节点的API服务器,用于处理集群所发生的所有事件,接收从各个节点kubelet中发来的事件信号。
有益效果:与现有技术相比,本发明具有如下显著优点:
(1)本发明通过配合kubernetes强大的拓展能力及稳定的自定义调谐机制,使智能模型的训练可以充分利用集群的资源,尽量减少资源不足或资源浪费的情况。本发明不仅能够在集群中进行智能模型的分布式训练,同时避免传统直接训练的方式可能造成的资源浪费与不足问题,确保充分利用集群资源。
(2)该方法能够适应各种不同设备性能的分布式集群,可以在保证集群内部网络通畅的前提下,显著提高大规模智能模型训练的效率。
附图说明
图1基于容器云技术的智能模型训练资源调度方法整体实施流程;
图2智能模型训练资源调度自定义控制器功能逻辑图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明的一种基于容器云技术的智能模型训练资源调度方法的实施主要包括创建多节点容器云环境、在集群APIServer注册自定义智能模型训练资源以及创建自定义控制器三个主要步骤。
首先创建多节点kubernetes集群,在多节点安装docker、kubeadm、nfs等组件,初始化一个多节点kubernetes集群,在集群内部部署calico网络架构,接着安装metrics集群资源监控插件以及dashboard集群监控面板,当集群内所有节点的状态都为已就绪之后,即高可用kubernetes集群已安装完成。
容器云环境的搭建与部署具体包括如下步骤:
1、准备多台Linux服务器,确保它们拥有相同的CPU架构,确保它们拥有至少8核CPU、16G内存与200G硬盘,确保它们之间网络通畅,且均不属于192.168的内网网段;
2、配置每台服务器的hostname与hosts,使它们能够通过DNS相互识别,关闭每台服务器的防火墙与SELinux,统一设置root用户登陆;
3、在每台服务器上安装nfs-server、docker-ce、kubelet、kubeadm、kubectl、kubernetes-cni,其中,nfs-server为网络文件系统,用于服务器通过网络共享文件,应用于智能模型资源中的存储卷或存储类;docker-ce为一种容器运行引擎,k8s使用容器化部署方式,故会使用到容器运行引擎;kubelet、kubeadm、kubectl、kubernetes-cni为k8s安装及运行时基本组件;
4、在k8s主节点使用kubeadm初始化一个k8s基础集群,并生成相关证书与密钥发送给子节点,子节点通过kubeadm加入该基础集群;在该集群上通过容器部署基础网络组件calico、资源监控组件metrics-server、k8s仪表盘dashboard,当集群内网络组件calico成功运行后,集群内各节点运行状态会显示为Ready,即多节点容器云环境搭建成功。calico内部Pod可使用192.168.0.0/16网段。
然后创建集群内自定义资源,即自定义智能模型训练资源,该资源囊括了包括CPU、内存、部署等多项集群资源。编写自定义智能模型训练资源定义文件,在规格中明确不同资源及其命名空间中CPU与内存大小、可容纳的部署个数、存储类容量大小等要求与限制,然后在kubernetes集群中应用这一自定义资源定义文件,这是实现集群内智能模型训练资源调度的基础。
基础开发环境包括Python3.6、TensorFlow、Pytorch、JupyterNotebook、Django。
最后编写自定义控制器,设定调谐逻辑,并确定重新同步的周期,控制器会监控智能模型训练资源并处理相关的各种事件,并会在遇到冲突与错误后重新将事件与资源加入处理队列。
如图2所示,自定义控制器对智能模型训练资源进行监控与处理的整个架构与流程,步骤如下:
第一步,编写映射器组件,列出并监控Kubernetes集群中的智能模型训练自定义资源,然后将获取的相关智能模型训练资源与事件对象作为元对象添加到先入先出队列中,等待后续的处理。
第二步,编写通知器组件,通知器组件会首先会获取从先入先出队列中取出的智能模型训练资源与事件,将它们作为元对象添加到索引器组件中,接着通知器组件内部的事件处理器会初步对这些元对象进行处理,例如按照定义好的事件分类进行基本的处理,将事件拆分成具体的集群资源。将先入先出队列传出的元对象进行基本简单处理后,将它们传入后续的工作队列进行最终也是最重要的处理。
第三步,编写工作队列中处理与调谐逻辑,这也是控制器最重要的实现逻辑。工作队列用于将元对象的交付与其处理分离,通过资源事件处理函数提取传递的对象的主要资源与变更事件,并将其添加到工作队列中,此处可以添加逻辑来过滤掉一些不重要或者对智能模型训练来说不关心的信息。调谐逻辑用于处理工作队列中的对象,可以有一个或多个其他函数一起处理,这些函数通常使用索引器列表或是列表包装器来检索与这些资源与事件对应的对象,这里就包括本方法可以自定义的资源调度方法业务逻辑。将智能模型训练资源的注册、变更、删除等操作逻辑反映成资源对象的字段变化,转换为处理后对象,并将它们添加到索引器中。最终索引器会保存元对象与处理后的对象,并将它们注册到APIServer并实时监听该资源状态,以实现通过容器云技术对智能模型训练资源进行调度的目的。

Claims (1)

1.一种基于容器云技术的智能模型训练资源调度方法,其特征在于,包括如下步骤:
步骤1、多节点容器云环境搭建:在多节点上使用kubernetes进行容器云环境的搭建与部署,以下将kubernetes简称k8s;
步骤2、容器云智能模型训练资源创建:在容器云平台上创建智能模型训练资源的自定义资源;
步骤3、智能模型训练资源调谐逻辑编写:编写智能模型训练资源调谐逻辑的代码,在容器云平台上创建对应自定义控制器,将智能模型训练资源的注册、变更、删除操作注册到APIServer并实时监听该资源状态,实现通过容器云技术对智能模型训练资源进行调度的目的;
步骤1中,所述容器云环境的搭建与部署具体包括如下步骤:
步骤1-1、准备多台Linux服务器,所述Linux服务器拥有相同的CPU架构,准备至少8核CPU、16G内存与200G硬盘,确保网络通畅,且均不属于192.168的内网网段;
步骤1-2、配置每台服务器的hostname与hosts,通过DNS相互识别,关闭每台服务器的防火墙与SELinux,统一设置root用户登陆;
步骤1-3、在每台服务器上安装nfs-server、docker-ce、kubelet、kubeadm、kubectl、kubernetes-cni,其中,nfs-server为网络文件系统,用于服务器通过网络共享文件,应用于智能模型资源中的存储卷或存储类;docker-ce为一种容器运行引擎,k8s使用容器化部署方式;kubelet、kubeadm、kubectl、kubernetes-cni为k8s安装及运行时基本组件;
步骤1-4、在k8s主节点使用kubeadm初始化一个k8s基础集群,并生成证书与密钥发送给子节点,子节点通过kubeadm加入该基础集群;在该集群上通过容器部署基础网络组件calico、资源监控组件metrics-server、k8s仪表盘dashboard,当集群内网络组件calico成功运行后,集群内各节点运行状态显示为Ready,多节点容器云环境搭建成功;
步骤2中,所述容器云智能模型训练资源创建具体包括如下步骤:
步骤2-1、制作智能模型训练资源的基础训练镜像,该镜像使用centos或ubuntu官方镜像为基础,提供智能模型训练的基础开发环境,并安装相应系统的基础配套工具;
步骤2-2、为智能模型训练资源创建相应的存储卷,为智能模型训练资源提供对应的存储支持,将参数传递给智能模型训练资源,创建相应的配置图和秘密卷,建立相应的角色控制与服务账户,创建一个角色,该角色能够获取上述存储卷与配置图的资源的读取、修改的权力,建立容器安全策略配置,赋予智能模型训练容器宿主节点的高级权限;
步骤2-3、创建智能模型训练资源对应的自定义资源,其中包括智能模型训练资源的名称、训练镜像名称、服务账户名称、存储类名称、配置图名称和暴露端口,作为智能模型训练资源的一部分,被注册到集群的APIServer中;
步骤3中,所述智能模型训练资源调谐逻辑编写具体包括如下步骤:
步骤3-1、通过client-go建立智能模型训练资源的动态客户端,用于处理智能模型训练资源这种自定义资源;建立智能模型训练资源的通知器,通过通知器机制保证该自定义资源与集群APIServer通信时消息的实时性、可靠性、顺序性;
步骤3-2、通过client-go建立智能模型训练资源建立后需要创建的子资源,包括相应的部署、有状态副本集、服务、服务账户、配置图,通过对应的接口在智能模型资源创建后自动创建子资源并监控子资源的运行状态;
步骤3-3、建立智能模型训练资源的调谐机制,包括集群调度机制,根据资源使用量确定APIServer对智能模型训练资源的调度与分配逻辑;队列处理机制,处理资源的顺序、等待时机、遇错解决方法;APIServer同步机制,去同步更新智能模型训练资源在APIServer的状态;更新状态机制,更新智能模型训练资源的状态,重启资源或重新加入队列;
步骤3-4、编译相关调谐代码为二进制文件,制作相应的控制器容器,内部运行该二进制文件并封装该容器为对应镜像,实现与集群中APIServer的通信与对智能模型训练资源的调度;
步骤1-4中,所述calico内部Pod使用192.168.0.0/16网段;
步骤2-1中,所述基础开发环境包括Python3.6、TensorFlow、Pytorch、JupyterNotebook、Django。
CN202111480832.4A 2021-12-07 2021-12-07 一种基于容器云技术的智能模型训练资源调度方法 Active CN113886055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111480832.4A CN113886055B (zh) 2021-12-07 2021-12-07 一种基于容器云技术的智能模型训练资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111480832.4A CN113886055B (zh) 2021-12-07 2021-12-07 一种基于容器云技术的智能模型训练资源调度方法

Publications (2)

Publication Number Publication Date
CN113886055A CN113886055A (zh) 2022-01-04
CN113886055B true CN113886055B (zh) 2022-04-15

Family

ID=79015789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111480832.4A Active CN113886055B (zh) 2021-12-07 2021-12-07 一种基于容器云技术的智能模型训练资源调度方法

Country Status (1)

Country Link
CN (1) CN113886055B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309400B (zh) * 2022-10-10 2023-03-31 阿里巴巴(中国)有限公司 任务部署方法、服务平台、部署平台、设备和存储介质
CN115357369B (zh) * 2022-10-21 2023-03-24 之江实验室 一种k8s容器云平台中CRD应用集成调用方法与装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062246A (zh) * 2018-01-25 2018-05-22 北京百度网讯科技有限公司 用于深度学习框架的资源调度方法和装置
CN112817581A (zh) * 2021-02-20 2021-05-18 中国电子科技集团公司第二十八研究所 一种轻量级智能服务构建和运行支撑方法
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN113391913A (zh) * 2021-07-12 2021-09-14 中国科学技术大学 一种基于预测的分布式调度方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062246A (zh) * 2018-01-25 2018-05-22 北京百度网讯科技有限公司 用于深度学习框架的资源调度方法和装置
US20190228303A1 (en) * 2018-01-25 2019-07-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for scheduling resource for deep learning framework
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN112817581A (zh) * 2021-02-20 2021-05-18 中国电子科技集团公司第二十八研究所 一种轻量级智能服务构建和运行支撑方法
CN113391913A (zh) * 2021-07-12 2021-09-14 中国科学技术大学 一种基于预测的分布式调度方法和装置

Also Published As

Publication number Publication date
CN113886055A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN109245931B (zh) 基于kubernetes的容器云平台的日志管理和监控报警的实现方法
CN107426034B (zh) 一种基于云平台的大规模容器调度系统及方法
CN113886055B (zh) 一种基于容器云技术的智能模型训练资源调度方法
KR100962934B1 (ko) 자원 모니터링 방법, 자원 모니터링 장치 및 컴퓨터 판독가능한 저장 매체
CN107148617B (zh) 日志协调存储组的自动配置
CN111381983B (zh) 虚拟试验靶场验证系统的轻量级消息中间件系统及方法
US9003389B2 (en) Generating an encoded package profile based on executing host processes
US20190079744A1 (en) Systems and methods for a policy-driven orchestration of deployment of distributed applications
CN105224466A (zh) 一种基于Docker的集成测试方法及系统
CN104753817A (zh) 一种云计算消息队列服务本地模拟方法和系统
CN105684357A (zh) 虚拟机中地址的管理
CN105323282A (zh) 一种面向多租户的企业应用部署与管理系统
US20130111473A1 (en) Passive monitoring of virtual systems using extensible indexing
CN112100265A (zh) 面向大数据架构与区块链的多源数据处理方法及装置
WO2007068175A1 (fr) Systeme et procede permettant de declencher un systeme de regles
CN110321374B (zh) 基于分布式网络的标准文件io操作系统及方法
CN106406980B (zh) 一种虚拟机的部署方法和装置
CN109324908A (zh) Netlink资源的容器隔离方法及装置
CN103399776B (zh) 可重用mock创建方法及系统
Gupta et al. Deploying hadoop architecture using ansible and terraform
US20210176138A1 (en) Data center cartography bootstrapping from process table data
CN103309722A (zh) 一种云计算系统及其应用访问方法
CN113114482B (zh) 一种基于容器的混合云管理系统及方法
CN113010385B (zh) 一种任务状态更新方法、装置、设备及介质
CN108270832A (zh) 一种故障重放方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant