CN109508238A - 一种用于深度学习的资源管理系统及方法 - Google Patents

一种用于深度学习的资源管理系统及方法 Download PDF

Info

Publication number
CN109508238A
CN109508238A CN201910009875.0A CN201910009875A CN109508238A CN 109508238 A CN109508238 A CN 109508238A CN 201910009875 A CN201910009875 A CN 201910009875A CN 109508238 A CN109508238 A CN 109508238A
Authority
CN
China
Prior art keywords
training
tensorflow
project
cluster
mirror image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910009875.0A
Other languages
English (en)
Inventor
代豪
蒙孝宗
李清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mica (guangxi) Network Technology Co Ltd
Original Assignee
Mica (guangxi) Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mica (guangxi) Network Technology Co Ltd filed Critical Mica (guangxi) Network Technology Co Ltd
Priority to CN201910009875.0A priority Critical patent/CN109508238A/zh
Publication of CN109508238A publication Critical patent/CN109508238A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于深度学习的资源管理系统及方法,所述系统包括:Kubernetes集群、Mysql存储模块和分布式存储器;所述Kubernetes集群包括训练管理平台和TensorFlow项目平台,所述训练管理平台包括注册器和控制器,所述TensorFlow项目平台由集群生成器构成;所述方法包括:步骤S100:创建包含TensorFlow训练脚本的Docker镜像,并将镜像推送到镜像仓库;步骤S200:注册TensorFlow项目,配置项目信息;步骤S300:创建TensorFlow项目平台,生成TensorFlow集群;步骤S400:启动任务训练,定时保存训练文件;步骤S500:任务训练结束,生成结果模型。通过本发明的系统及方法,可实现基于TensorFlow的深度学习训练任务资源的统一调度与管理,监控训练过程,支持自动中断与重启,减轻AI开发人员的工作负担,提高任务训练效率。

Description

一种用于深度学习的资源管理系统及方法
技术领域
本发明涉及深度学习技术领域,具体涉及一种用于深度学习的资源管理系统及方法。
背景技术
TensorFlow作为最新的、应用范围最为广泛的深度学习开源框架近年来受到了广泛的关注与重视,它不仅便携、高效、可扩展,具有灵活的移植性,编译速度快,还能在不同的计算机上运行:小到智能手机,大到计算机集群都可以。TensorFlow现已广泛用于从个人到企业、从初创公司到大公司等不同群体,无论在工业、商业还是科学研究上都展现出巨大的应用价值,因而已成为时下最热门的深度学习框架。
然而,在TensorFlow落地的过程中,也存在以下相应的一些问题:(1)资源无法隔离:训练时TensorFlow各个任务之间可能因计算资源抢占而互相影响,由于GPU显卡由GPU计算单元和显存组成,如果多个任务共用一个GPU,如果显存不够用的话,会发生训练中断或者其他未知错误;(2)缺乏调度能力:需要用户手动配置和管理任务的计算资源,这些都得在代码中硬编码实现;(3)训练异常中断:当PS或者worker异常导致任务进程退出后,由于TensorFlow没有自愈能力,需要人工介入才能恢复训练;(4)无生命周期管理:无法有效管理多个任务的执行过程、以及监控多个任务的状态等;(5)复杂的分布式部署:对于AI开发人员来说,每次发布一个训练任务,都要做一次分布式部署,这在一定程度上加重了程序员的心智负担,他们除了要实现训练任务逻辑外,还得操心有哪些机器资源可以用,如何让这个任务跑起来。
随着AI业务的不断发展,基于TensorFlow的神经网络模型的训练时间要求越来越高,单机模式下将难以应付大规模的深度神经网络模型训练。分布式TensorFlow集群训练方式虽然解决了单机算力不足的问题,但是本身并没有提供诸如任务调度、监控、失败重启等集群管理功能,这给AI开发人员大规模自动化的模型训练带来了不少的困难。
发明内容
本发明所要解决的技术问题是针对现有技术中存在的上述不足,提供一种用于深度学习的资源管理系统及方法,以实现基于TensorFlow的深度学习训练任务资源的统一调度与管理,监控训练过程,支持自动中断与重启,减轻AI开发人员的工作负担,提高任务训练效率。
为实现以上发明目的,采用的技术方案是:
一种用于深度学习的资源管理系统,该系统包括:Kubernetes集群、Mysql存储模块和分布式存储器;所述Kubernetes集群包括训练管理平台和TensorFlow项目平台,所述训练管理平台包括注册器和控制器,所述TensorFlow项目平台由集群生成器构成;
所述注册器用于注册TensorFlow项目,配置项目信息;所述控制器用于解析项目配置文件和创建TensorFlow项目;所述集群生成器为训练任务创建TensorFlow集群,并进行集群管理;所述TensorFlow集群包含参数服务器和计算节点;所述Mysql存储模块用于存储TensorFlow项目配置信息;所述分布式存储器用于存储训练数据和训练结果。
进一步的,所述训练管理平台还包括训练启停器,所述训练启停器用于启动或停止训练任务。
进一步的,所述训练管理平台还包括训练跟踪器,所述训练跟踪器用于跟踪训练过程的事件、参数,并用图表显示。
进一步的,所述TensorFlow项目平台还包括训练脚本调试器,所述训练脚本调试器用于编辑和运行TensorFlow代码,及查看运行结果。
进一步的,所述TensorFlow项目平台还包括对外服务接口,所述对外服务接口用于向外提供模型服务能力,输出TensorFlow网络模型的计算结果。
一种用于深度学习的资源管理方法,包括以下步骤:
步骤S100:创建包含TensorFlow训练脚本的Docker镜像,并将镜像推送到镜像仓库;
步骤S200:注册TensorFlow项目,配置项目信息;
步骤S300:创建TensorFlow项目平台,生成TensorFlow集群;
步骤S400:启动任务训练,定时保存训练文件;
步骤S500:任务训练结束,生成结果模型。
进一步的,所述步骤S100之后、步骤S200之前还包括:
步骤S101:创建包含TensorFlow-web服务的Docker镜像,并将镜像推送到镜像仓库。
进一步的,所述步骤S400之后、步骤S500之前还包括:
步骤S401:中断任务训练;
步骤S402:中断后,重启任务训练。
进一步的,所述中断包括:定时中断、人为手动中断和程序异常自动中断三种方式。
进一步的,还包括:
步骤S600:部署产品,对外提供API接口服务。
本发明的一种用于深度学习的资源管理系统及方法,具有以下有益效果:
(1)本发明一种用于深度学习的资源管理系统及方法,通过Kubernetes可为每个TensorFlow训练任务创建独立的Namespace,为每个任务做资源分配与隔离,避免了资源争抢与浪费;通过训练管理平台可跟踪管理各个训练任务,展示训练结果,极大方便了测试人员实时掌握训练情况。通过本发明的资源管理系统及方法,能够提供自动化的TensorFlow集群部署,开发人员只需要配置集群的大小、使用的资源类型、训练任务对应的专用镜像等,即可完成TensorFlow的集群部署,为开发人员分担了很多繁琐重复的工作,减轻了劳动强度,并可在训练过程中调整训练参数,以此来优化模型或者加快训练速度。
(2)本发明的用于深度学习的资源管理系统及方法,支持训练中断,并具备自愈能力,因而无需开发人员值守,对需要运行数天的训练任务提供了极大的便利;可通过加载已保存的Checkpoint文件,使中断的训练不必从头开始,有效提高了训练效率、节约训练资源与成本。
(3)本发明的用于深度学习的资源管理系统及方法,可自动转化训练成果,不需要手动部署,即可向外输出API服务,极大提升了运行效率和节约了人工成本。
附图说明
图1是本发明用于深度学习的资源管理系统结构示意图;
图2是本发明用于深度学习的资源管理方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的目的在于提供一种用于深度学习的资源管理系统及方法,以实现基于TensorFlow的深度学习训练任务资源的统一调度与管理,监控训练过程,支持自动中断与重启,减轻AI开发人员的工作负担,提高任务训练效率。以下将详细阐述本发明的一种用于深度学习的资源管理系统及方法的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本发明的技术内容。
图1是本发明用于深度学习的资源管理系统结构示意图。如图1所示,本发明一种用于深度学习的资源管理系统,包括:Kubernetes集群1、Mysql存储模块2和分布式存储器3; Kubernetes集群1包括训练管理平台11和TensorFlow项目平台12;训练管理平台11包括注册器111、控制器112、训练启停器113和训练跟踪器114;TensorFlow项目平台12由集群生成器121、训练脚本调试器122和对外服务接口123构成。以下详细阐明各部分工作内容及原理:
注册器用于注册TensorFlow项目(简称TF项目)、配置项目信息。具体的,注册TensorFlow项目时,输入项目基础信息,包括:项目名称、项目训练时间计划、训练结果的存储位置等;需配置的项目信息主要包括以下三个方面:(1)训练参数配置:迭代次数、批次大小、初始化学习率、学习率衰减因子、图形增强选择参数、卷积核大小、卷积步长、填充、卷积核数量等;(2)计算资源配置:CPU/GPU的数量、使用的内存大小等;(3)TensorFlow集群配置:定义TensorFlow集群的运行模式为分布式运行,具体定义参数服务器和计算节点的数量,指定包含训练脚本的docker镜像以及各个容器的启动脚本,该集群配置信息以yaml文件格式保存;(4)对外服务接口配置:包括结果模型的存储路径、Web服务的Docker镜像以及启动参数等,此配置信息同样以yaml文件格式保存。
控制器主要用于解析项目配置文件和创建TensorFlow项目。具体的,控制器提供了Kubernetes的一个客户端实现,它解析项目配置中的yaml文件,调用Kubernetes的API接口,创建相应的pod进行Tensorflow项目组建。另外,它还根据yaml文件,生成Serving-pod,加载包含业务逻辑的Docker镜像和Tensorflow结果模型,对外提供API接口服务。
集群生成器主要为训练任务创建TensorFlow集群(TF集群)和进行集群管理。具体的,根据项目的yaml配置文件,生成TensorFlow集群,TensorFlow集群由Kubernetes-pods组成,运行在Kubernetes之上;更为具体的,TensorFlow集群包含参数服务器和计算节点。
训练启停器用于启动或停止训练任务。具体的,训练启停器为一定时任务模块,可根据训练的时间计划,去启动或停止训练任务。通过定义Tensorflow项目的启动时间,可以即时启动,也可以预设一个固定的启动时间及结束时间,将训练任务放到固定的时间段内运行,比如设置在凌晨零点启动训练至凌晨六点结束训练,这样可以充分利用计算资源。
训练跟踪器主要用于跟踪训练过程的事件、参数,并用图表直观显示。具体的,训练跟踪器对训练过程中的异常事件、准确率及图片参数等进行搜集分析,并通过UI图表的形式直观地表现出来,以利于测试人员实时掌握训练情况,为后续任务训练的优化调整做参考。
训练脚本调试器主要用于编辑和运行TensorFlow代码,及查看运行结果。具体的,训练脚本调试器为一个支持多开发语言的交互式笔记本,可以在上面直接编辑和快速运行TensorFlow代码,并及时查看运行结果,方便研发人员进行代码调试。
对外服务接口主要用于向外提供模型服务能力,业务系统可通过直接调用该服务接口,输出TensorFlow网络模型的计算结果。深度学习训练任务完成后,最后生成一个结果模型,具体的,对外服务接口整合了Web服务和TensorFlow的结果模型,通过Web服务对外提供API接口,接入用户图形数据或者文本数据,经过加载结果模型进行计算分析后,得出如图像分类结果、文本分析结果、语音识别结果等,并将结果返回给客户端。更为具体的,Web服务的具体业务实现逻辑由训练管理平台业务yaml参数中指定的Docker镜像决定。
Mysql存储模块主要用于存储TensorFlow项目配置信息,当TensorFlow项目完成注册和项目信息配置后,相关项目信息通过Mysql数据库进行存储,当项目运行时,则通过Mysql存储模块进行调用相关信息。
分布式存储器主要用于存储训练数据和训练结果。具体的,分布式存储器可以为Ceph或GlusterFS分布式存储中的一种,通过接入分布式存储器存储TensorFlow定期保存的Checkpoint文件,Pod失败后能实现自动重启功能,可以自动恢复因异常退出的任务,Pod重启的时候重新加载分布式存储器中保存的文件,训练任务不必重头开始,大大提高了训练效率。更为具体的,分布式存储器通过Kubernetes的PV资源对象为参数服务器pod、工作节点pod以及对外服务接口pod等提供分布式存储。
图2是本发明用于深度学习的资源管理方法流程图。以下结合图1和图2详细说明本发明用于深度学习的资源管理方法步骤:
步骤S100:创建包含TensorFlow训练脚本的Docker镜像,并将镜像推送到镜像仓库。开发人员编写完成TensorFlow训练脚本后,使用Docker build命令创建镜像,并用Dockerpush命令将镜像推送到镜像仓库;
进一步的,如需考虑对外提供模型服务,该服务加载TensorFlow模型来完成业务处理,通过API接口对外提供服务,还包括步骤S101:
步骤S101:创建包含TensorFlow-web服务的Docker镜像,并将镜像推送到镜像仓库。开发人员完成编写TensorFlow-web服务代码,然后使用Docker build命令创建镜像,并用Docker push命令将镜像推送到镜像仓库。
步骤S200:注册TensorFlow项目,配置项目信息。用户登陆训练管理平台,注册一个新的TensorFlow项目,填写项目基础信息、配置项目信息等。项目基础信息,包括:项目名称、项目训练时间计划、训练结果的存储位置等;配置项目信息主要包括:(1)训练参数配置信息:迭代次数、批次大小、初始化学习率、学习率衰减因子、图形增强选择参数、卷积核大小、卷积步长、填充、卷积核数量等;(2)计算资源配置信息:CPU/GPU的数量、使用的内存大小等;(3)TensorFlow集群配置信息:定义TensorFlow集群的运行模式为分布式运行,具体定义参数服务器和计算节点的数量,指定包含训练脚本的docker镜像以及各个容器的启动脚本;(4)对外服务接口配置信息:包括结果模型的存储路径、Web服务的Docker镜像以及启动参数等。上述(3)和(4)项配置信息均以yaml文件格式保存。
步骤S300:创建TensorFlow项目平台,生成TensorFlow集群。具体的,训练管理平台根据TensorFlow项目配置,自动创建一个TensorFlow项目平台,包含有训练脚本调试器、集群生成器和对外服务接口,再由集群生成器自动创建TensorFlow集群,TensorFlow集群包含有参数服务器和计算节点。更为具体的,通过训练管理平台控制器提供Kubernetes的一个客户端实现,它解析项目配置中的yaml文件,调用Kubernetes的API接口,创建相应的pod进行Tensorflow项目组建;并根据yaml文件,生成Serving-pod,加载包含业务逻辑的Docker镜像和Tensorflow结果模型,对外提供API接口服务。
步骤S400:启动任务训练,定时保存训练文件。TensorFlow集群创建成功后,项目平台自动启动训练任务,在训练过程中,按预设的间隔时间自动保存TensorFlow的Checkpoint文件到分布式存储器中,例如设置每间隔半小时保存一次。
如果训练任务过重、时间过长,可设置定时中断,使训练在指定的时间点进行中断或重启,以充分合理利用资源。进一步的,还包括步骤S401和步骤S402:
步骤S401:中断任务训练。具体的,中断的方式有以下三种:定时中断、人为手动中断和程序异常自动中断;定时中断为预先设定中断时间点,比如将中断时间设定在服务器忙碌的时间段,在服务器空闲时间段重启训练任务;人为手动中断,通常是在需要对有关参数进行调整的情况下执行,比如需要调整可用的GPU、CPU资源或是需要更新代码;程序异常自动中断为发生异常或错误导致运行中断的情况。
步骤S402:中断后,重启任务训练。定时中断或程序异常自动中断后,项目平台可以通过重新加载已保存的Checkpoint文件,从保存的最后位置开始继续进行训练,而不必从头开始训练,从而有效提高训练效率,节约训练资源与成本。人为手动中断如需更改代码,则需从头开始训练。
步骤S500:任务训练结束,生成结果模型。任务训练结束后,TensorFlow生成结果模型文件,TensorFlow项目平台自动将该模型文件转存到分布式存储器的共享目录,供下一步部署服务时使用。
步骤S600:部署产品,对外提供API接口服务。根据步骤S101创建的Docker镜像和步骤S500生成的结果模型,组合构成产品,TensorFlow项目平台自动部署和运行该产品,对外提供API接口服务。
本发明一种用于深度学习的资源管理系统及方法通过Kubernetes可为每个TensorFlow训练任务创建独立的Namespace,为每个任务做资源分配与隔离,避免了资源争抢与浪费;通过训练管理平台可跟踪管理各个训练任务,展示训练结果,极大方便了测试人员实时掌握训练情况。通过本发明的资源管理系统及方法,能够提供自动化的TensorFlow集群部署,开发人员只需要配置集群的大小、使用的资源类型、训练任务对应的专用镜像等,即可完成TensorFlow的集群部署,为开发人员分担了很多繁琐重复的工作,减轻了劳动强度,使他们可以将更多的精力放在对训练逻辑的优化调整上,并可在训练过程中调整训练参数,以此来优化模型或者加快训练速度。
本发明的用于深度学习的资源管理系统及方法,支持训练中断,并具备自愈能力,因而无需开发人员值守,对需要运行数天的训练任务提供了极大的便利;可通过加载已保存的Checkpoint文件,使中断的训练不必从头开始,有效提高了训练效率、节约训练资源与成本。
本发明的用于深度学习的资源管理系统及方法,可自动转化训练成果,不需要手动部署,即可向外输出API服务,极大提升了运行效率和节约了人工成本。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围内。

Claims (10)

1.一种用于深度学习的资源管理系统,其特征在于,该系统包括:Kubernetes集群、Mysql存储模块和分布式存储器;所述Kubernetes集群包括训练管理平台和TensorFlow项目平台,所述训练管理平台包括注册器和控制器,所述TensorFlow项目平台由集群生成器构成;
所述注册器用于注册TensorFlow项目,配置项目信息;
所述控制器用于解析项目配置文件和创建TensorFlow项目;
所述集群生成器为训练任务创建TensorFlow集群,并进行集群管理;所述TensorFlow集群包含参数服务器和计算节点;
所述Mysql存储模块用于存储TensorFlow项目配置信息;
所述分布式存储器用于存储训练数据和训练结果。
2.根据权利要求1所述的系统,其特征在于,所述训练管理平台还包括训练启停器,所述训练启停器用于启动或停止训练任务。
3.根据权利要求1所述的系统,其特征在于,所述训练管理平台还包括训练跟踪器,所述训练跟踪器用于跟踪训练过程的事件、参数,并用图表显示。
4.根据权利要求1所述的系统,其特征在于,所述TensorFlow项目平台还包括训练脚本调试器,所述训练脚本调试器用于编辑和运行TensorFlow代码,及查看运行结果。
5.根据权利要求1所述的系统,其特征在于,所述TensorFlow项目平台还包括对外服务接口,所述对外服务接口用于向外提供模型服务能力,输出TensorFlow网络模型的计算结果。
6.一种用于深度学习的资源管理方法,其特征在于,包括以下步骤:
步骤S100:创建包含TensorFlow训练脚本的Docker镜像,并将镜像推送到镜像仓库;
步骤S200:注册TensorFlow项目,配置项目信息;
步骤S300:创建TensorFlow项目平台,生成TensorFlow集群;
步骤S400:启动任务训练,定时保存训练文件;
步骤S500:任务训练结束,生成结果模型。
7.根据权利要求6所述的方法,其特征在于,所述步骤S100之后、步骤S200之前还包括:
步骤S101:创建包含TensorFlow-web服务的Docker镜像,并将镜像推送到镜像仓库。
8.根据权利要求6所述的方法,其特征在于,所述步骤S400之后、步骤S500之前还包括:
步骤S401:中断任务训练;
步骤S402:中断后,重启任务训练。
9.根据权利要求8所述的方法,其特征在于,所述中断包括:定时中断、人为手动中断和程序异常自动中断三种方式。
10.根据权利要求6所述的方法,其特征在于,还包括:
步骤S600:部署产品,对外提供API接口服务。
CN201910009875.0A 2019-01-05 2019-01-05 一种用于深度学习的资源管理系统及方法 Pending CN109508238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910009875.0A CN109508238A (zh) 2019-01-05 2019-01-05 一种用于深度学习的资源管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910009875.0A CN109508238A (zh) 2019-01-05 2019-01-05 一种用于深度学习的资源管理系统及方法

Publications (1)

Publication Number Publication Date
CN109508238A true CN109508238A (zh) 2019-03-22

Family

ID=65757390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910009875.0A Pending CN109508238A (zh) 2019-01-05 2019-01-05 一种用于深度学习的资源管理系统及方法

Country Status (1)

Country Link
CN (1) CN109508238A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110198364A (zh) * 2019-05-17 2019-09-03 北京瀚海星云科技有限公司 基于指定dns解析的容器云上分布式训练数据通信的方法
CN110308987A (zh) * 2019-05-17 2019-10-08 北京瀚海星云科技有限公司 一种更新容器云上分布式训练任务连接参数的方法
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN110825705A (zh) * 2019-11-22 2020-02-21 广东浪潮大数据研究有限公司 一种数据集缓存方法及相关装置
CN111090456A (zh) * 2019-12-06 2020-05-01 浪潮(北京)电子信息产业有限公司 一种深度学习开发环境的构建方法、装置、设备及介质
CN111177164A (zh) * 2019-12-17 2020-05-19 陕西天行健车联网信息技术有限公司 一种基于定时任务框架的车辆实时信息调度方法
CN111190690A (zh) * 2019-12-25 2020-05-22 中科曙光国际信息产业有限公司 基于容器编排工具的智能训练装置
CN111221582A (zh) * 2020-01-02 2020-06-02 深圳中电长城信息安全系统有限公司 一种内存训练的方法及系统
CN111401566A (zh) * 2020-03-19 2020-07-10 中国建设银行股份有限公司 机器学习训练方法及系统
CN111598226A (zh) * 2020-05-18 2020-08-28 济南浪潮高新科技投资发展有限公司 一种用于图像识别的卷积网络可视化方法及装置
CN111625420A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种分布式训练任务处理方法、装置、设备及存储介质
CN112130869A (zh) * 2020-09-11 2020-12-25 苏州浪潮智能科技有限公司 一种ai平台镜像处理的方法和装置
CN112148348A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 任务处理方法、装置及存储介质
CN112148438A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 异常任务处理、任务调度方法、装置及计算机存储介质
CN112214285A (zh) * 2020-10-22 2021-01-12 厦门渊亭信息科技有限公司 一种基于Docker的模型服务部署系统
CN112288096A (zh) * 2020-10-22 2021-01-29 济南浪潮高新科技投资发展有限公司 一种基于rapidminer的机器学习模型镜像快速构建发布方法
CN112532751A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 城市大脑ai计算中心分布式异构算力的调度方法及系统
CN112596863A (zh) * 2020-12-28 2021-04-02 南方电网深圳数字电网研究院有限公司 监控训练任务的方法、系统及计算机存储介质
CN112799782A (zh) * 2021-01-20 2021-05-14 北京迈格威科技有限公司 模型生成系统、方法、电子设备及存储介质
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN113112025A (zh) * 2020-01-13 2021-07-13 顺丰科技有限公司 模型建立系统、方法、装置及存储介质
CN113222174A (zh) * 2021-04-23 2021-08-06 万翼科技有限公司 模型管理方法及装置
CN113496286A (zh) * 2020-03-18 2021-10-12 杭州海康威视数字技术股份有限公司 模型训练控制方法和设备
CN113626179A (zh) * 2020-05-09 2021-11-09 烽火通信科技股份有限公司 一种通用的人工智能模型训练方法及系统
CN113742065A (zh) * 2021-08-07 2021-12-03 中国航空工业集团公司沈阳飞机设计研究所 一种基于kubernetes容器集群的分布式强化学习方法及装置
CN113780568A (zh) * 2020-06-09 2021-12-10 子长科技(北京)有限公司 自动模型训练框架、设备、存储介质
CN113886036A (zh) * 2021-09-13 2022-01-04 天翼数字生活科技有限公司 用于优化分布式系统集群配置的方法和系统
CN114385126A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种基于K8s的多租户深度学习模型研发系统及方法
CN115438805A (zh) * 2022-11-08 2022-12-06 江苏智云天工科技有限公司 基于工业质检领域机器学习模型的产品缺陷检测方法
WO2024041035A1 (zh) * 2022-08-23 2024-02-29 网络通信与安全紫金山实验室 机器学习模型的管理方法、装置、管理平台和存储介质
CN112596863B (zh) * 2020-12-28 2024-06-07 南方电网数字平台科技(广东)有限公司 监控训练任务的方法、系统及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107733977A (zh) * 2017-08-31 2018-02-23 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN109086134A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种深度学习作业的运行方法和装置
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107733977A (zh) * 2017-08-31 2018-02-23 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质
CN109086134A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种深度学习作业的运行方法和装置

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110308987B (zh) * 2019-05-17 2023-08-01 深圳致星科技有限公司 一种更新容器云上分布式训练任务连接参数的方法
CN110308987A (zh) * 2019-05-17 2019-10-08 北京瀚海星云科技有限公司 一种更新容器云上分布式训练任务连接参数的方法
CN110198364B (zh) * 2019-05-17 2021-09-14 深圳致星科技有限公司 基于指定dns解析的容器云上分布式训练数据通信的方法
CN110198364A (zh) * 2019-05-17 2019-09-03 北京瀚海星云科技有限公司 基于指定dns解析的容器云上分布式训练数据通信的方法
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN112148438A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 异常任务处理、任务调度方法、装置及计算机存储介质
CN112148348B (zh) * 2019-06-28 2023-10-20 杭州海康威视数字技术股份有限公司 任务处理方法、装置及存储介质
CN112148348A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 任务处理方法、装置及存储介质
CN110825705A (zh) * 2019-11-22 2020-02-21 广东浪潮大数据研究有限公司 一种数据集缓存方法及相关装置
CN111090456A (zh) * 2019-12-06 2020-05-01 浪潮(北京)电子信息产业有限公司 一种深度学习开发环境的构建方法、装置、设备及介质
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN111177164A (zh) * 2019-12-17 2020-05-19 陕西天行健车联网信息技术有限公司 一种基于定时任务框架的车辆实时信息调度方法
CN111177164B (zh) * 2019-12-17 2023-08-01 陕西天行健车联网信息技术有限公司 一种基于定时任务框架的车辆实时信息调度方法
CN111190690A (zh) * 2019-12-25 2020-05-22 中科曙光国际信息产业有限公司 基于容器编排工具的智能训练装置
CN111221582B (zh) * 2020-01-02 2024-04-12 深圳中电长城信息安全系统有限公司 一种内存训练的方法及系统
CN111221582A (zh) * 2020-01-02 2020-06-02 深圳中电长城信息安全系统有限公司 一种内存训练的方法及系统
CN113112025A (zh) * 2020-01-13 2021-07-13 顺丰科技有限公司 模型建立系统、方法、装置及存储介质
CN113496286A (zh) * 2020-03-18 2021-10-12 杭州海康威视数字技术股份有限公司 模型训练控制方法和设备
CN111401566B (zh) * 2020-03-19 2024-05-03 中国建设银行股份有限公司 机器学习训练方法及系统
CN111401566A (zh) * 2020-03-19 2020-07-10 中国建设银行股份有限公司 机器学习训练方法及系统
CN113626179B (zh) * 2020-05-09 2023-08-22 烽火通信科技股份有限公司 一种通用的人工智能模型训练方法及系统
CN113626179A (zh) * 2020-05-09 2021-11-09 烽火通信科技股份有限公司 一种通用的人工智能模型训练方法及系统
CN111598226B (zh) * 2020-05-18 2023-07-25 山东浪潮科学研究院有限公司 一种用于图像识别的卷积网络可视化方法及装置
CN111598226A (zh) * 2020-05-18 2020-08-28 济南浪潮高新科技投资发展有限公司 一种用于图像识别的卷积网络可视化方法及装置
CN111625420A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种分布式训练任务处理方法、装置、设备及存储介质
CN113780568A (zh) * 2020-06-09 2021-12-10 子长科技(北京)有限公司 自动模型训练框架、设备、存储介质
CN113780568B (zh) * 2020-06-09 2024-05-14 子长科技(北京)有限公司 自动模型训练系统、设备、存储介质
CN112130869A (zh) * 2020-09-11 2020-12-25 苏州浪潮智能科技有限公司 一种ai平台镜像处理的方法和装置
CN112130869B (zh) * 2020-09-11 2022-11-29 苏州浪潮智能科技有限公司 一种ai平台镜像处理的方法和装置
CN112214285A (zh) * 2020-10-22 2021-01-12 厦门渊亭信息科技有限公司 一种基于Docker的模型服务部署系统
CN112288096A (zh) * 2020-10-22 2021-01-29 济南浪潮高新科技投资发展有限公司 一种基于rapidminer的机器学习模型镜像快速构建发布方法
CN112596863B (zh) * 2020-12-28 2024-06-07 南方电网数字平台科技(广东)有限公司 监控训练任务的方法、系统及计算机存储介质
CN112596863A (zh) * 2020-12-28 2021-04-02 南方电网深圳数字电网研究院有限公司 监控训练任务的方法、系统及计算机存储介质
CN112799782A (zh) * 2021-01-20 2021-05-14 北京迈格威科技有限公司 模型生成系统、方法、电子设备及存储介质
CN112799782B (zh) * 2021-01-20 2024-04-12 北京迈格威科技有限公司 模型生成系统、方法、电子设备及存储介质
CN112532751B (zh) * 2021-02-09 2021-05-07 中关村科学城城市大脑股份有限公司 城市大脑ai计算中心分布式异构算力的调度方法及系统
CN112532751A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 城市大脑ai计算中心分布式异构算力的调度方法及系统
CN113222174A (zh) * 2021-04-23 2021-08-06 万翼科技有限公司 模型管理方法及装置
CN113222174B (zh) * 2021-04-23 2024-04-26 万翼科技有限公司 模型管理方法及装置
CN113742065A (zh) * 2021-08-07 2021-12-03 中国航空工业集团公司沈阳飞机设计研究所 一种基于kubernetes容器集群的分布式强化学习方法及装置
CN113886036A (zh) * 2021-09-13 2022-01-04 天翼数字生活科技有限公司 用于优化分布式系统集群配置的方法和系统
CN113886036B (zh) * 2021-09-13 2024-04-19 天翼数字生活科技有限公司 用于优化分布式系统集群配置的方法和系统
CN114385126A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种基于K8s的多租户深度学习模型研发系统及方法
WO2024041035A1 (zh) * 2022-08-23 2024-02-29 网络通信与安全紫金山实验室 机器学习模型的管理方法、装置、管理平台和存储介质
CN115438805B (zh) * 2022-11-08 2023-01-24 江苏智云天工科技有限公司 基于工业质检领域机器学习模型的产品缺陷检测方法
CN115438805A (zh) * 2022-11-08 2022-12-06 江苏智云天工科技有限公司 基于工业质检领域机器学习模型的产品缺陷检测方法

Similar Documents

Publication Publication Date Title
CN109508238A (zh) 一种用于深度学习的资源管理系统及方法
CN110321152B (zh) 一种软件开发平台
CA1265874A (en) Distributed management support system for software managers
Tatham et al. The MED-PC experimental apparatus programming system
CN110647387B (zh) 一种教育云大数据任务调度方法与系统
Bird et al. Update of the Computing Models of the WLCG and the LHC Experiments
CN106708740B (zh) 脚本测试方法及装置
CN103309804A (zh) 自动化代码规则检查平台
US10466981B1 (en) System and method for generative programming in an integrated development environment (IDE)
CN108243012B (zh) 在线计费系统ocs中计费应用处理系统、方法及装置
CN107656749A (zh) 一种设备版本管控方法及装置
EP2763055A1 (en) A telecommunication method and mobile telecommunication device for providing data to a mobile application
CN102541651A (zh) 一种嵌入式虚拟机的实时调度系统
CN103197960A (zh) 用于批量作业系统的调度方法及系统
CN102663543A (zh) 一种用于企业数据统一平台的调度系统
CN112711411A (zh) 一种基于Kubernetes及docker的CI/CD流水线系统
CN111324426A (zh) Oracle数据库任务作业管理调度系统及方法
CN111475137A (zh) 一种软件开发需求预测的方法、系统及设备
CN110011827A (zh) 面向医联体的多用户大数据分析服务系统和方法
Kerola et al. Monit: A performance monitoring tool for parallel and pseudo-parallel programs
CN114896049A (zh) 电力人工智能平台作业任务调度方法、系统、设备及介质
CN109992388A (zh) 一种用于核电厂安全级设备软件多任务管理系统
CN112948096A (zh) 一种批量调度方法、装置和设备
CN111552545A (zh) 任务的执行处理方法、装置、电子设备及存储介质
CN109814991A (zh) 一种数据治理中的任务管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190322