CN107659609B - 一种基于云计算的深度学习支撑平台及深度学习训练方法 - Google Patents

一种基于云计算的深度学习支撑平台及深度学习训练方法 Download PDF

Info

Publication number
CN107659609B
CN107659609B CN201710617901.9A CN201710617901A CN107659609B CN 107659609 B CN107659609 B CN 107659609B CN 201710617901 A CN201710617901 A CN 201710617901A CN 107659609 B CN107659609 B CN 107659609B
Authority
CN
China
Prior art keywords
deep learning
subsystem
platform
cloud computing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710617901.9A
Other languages
English (en)
Other versions
CN107659609A (zh
Inventor
牛继宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Skycloud Rongchuang Software Technology Co ltd
Original Assignee
Beijing Skycloud Rongchuang Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Skycloud Rongchuang Software Technology Co ltd filed Critical Beijing Skycloud Rongchuang Software Technology Co ltd
Priority to CN201710617901.9A priority Critical patent/CN107659609B/zh
Publication of CN107659609A publication Critical patent/CN107659609A/zh
Application granted granted Critical
Publication of CN107659609B publication Critical patent/CN107659609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于云计算的深度学习支撑平台及深度学习训练方法,属于信息处理领域,包括日志子系统、用户交互子系统、监控子系统、计算资源子系统、深度学习子系统及用户子系统;本发明能够使得高GPU在长时间内具备很高利用率,整个平台更加成熟可靠。

Description

一种基于云计算的深度学习支撑平台及深度学习训练方法
技术领域
本发明属于信息处理领域,特别是涉及一种基于云计算的深度学习支撑平台及深度学习训练方法。
背景技术
目前深度学习框架普遍基于GPU进行运算,因此设计具有深度学习特色的云平台需要支持两类技术,平台基础资源方面需支持GPU的资源管控与GPU的调服分配,同时在软件层面需要支持深度学习框架的集成,云计算平台的用户直接面对的是深度学习的框架,深度学习的框架运行所需要的资源(CPU、Mem、网络、GPU、存储)等由云计算平台进行分配。
目前具备深度学习特色的云计算平台的设计实现方式:
基于Kubernetes+docker,目前kubernetes在cpu、mem、网络、存储等的资源管控上具备了相当的成熟度,但是GPU调度仍然缺乏成熟度。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于云计算的深度学习支撑平台及深度学习训练方法。
为实现上述目的,本发明提供了一种基于云计算的深度学习支撑平台,其特征在于:包括日志子系统、用户交互子系统、监控子系统、计算资源子系统、深度学习子系统及用户子系统;
所述用户交互子系统:用于申请深度学习框架服务,通过所述用户交互子系统进行深度学习框架服务的发布、资源配置、普通用户请求的批准。
所述日志子系统:用于日志的存储与检索。
所述计算资源子系统:用于分配CPU、GPU和FPGA的计算资源给该深度学习框架。
所述深度学习子系统:用于在云平台镜像库中内置各种深度学习的框架,并将深度学习框架的配置进行编辑。
所述用户子系统:用于用户、角色、租户角色等相关数据的存储、角色的授权、资源的判断;
所述监控子系统:用于对云计算平台本身的资源使用情况进行监控。
较佳的,所述GPU的计算资源分配按以下方式进行:每个计算单元在使用GPU显存与计算能力的时候分配独立的空间。
较佳的,所述监控子系统对云计算平台本身的资源使用情况进行监控是实时状态监控与呈现,采取mongodb+ceilometer技术实现。
较佳的,所述监控子系统对云计算平台本身的资源使用情况进行监控是历史数据的分析,采取hbase+数据批处理实现。
较佳的,所述监控子系统还对GPU、深度学习框架本身的运行状态进行监控。
本发明还提供了一种基于云计算深度学习支撑平台的深度学习模型训练方法,按以下步骤进行:
步骤一、从云平台申请一个training集群,开始模型的训练,训练时从初始的数据PV获取dataset;
步骤二、训练完成以后训练的模型数据保存到PV,形成第一个版本的模型数据;
步骤三、启动serving服务,serving服务基于第一版的模型数据开始对外提供服务;
步骤四、收集用户的反馈;
步骤五、依据用户的反馈或者新的数据启动第二次训练;
步骤六、第二次训练后的数据形成第二个版本的服务模型数据;
步骤七、云平台启动滚动升级技术,将serving服务进行升级。
本发明的有益效果是:本发明能够使得高GPU在长时间内具备很高利用率,整个平台更加成熟可靠。
附图说明
图1是深度学习支撑平台的示意图。
具体实施方式
下面结合实施例对本发明作进一步说明:
如图1所示,一种基于云计算的深度学习支撑平台,包括日志子系统、用户交互子系统、监控子系统、计算资源子系统、深度学习子系统及用户子系统;
所述用户交互子系统是云计算平台的总体使用入口,用于申请深度学习框架服务,通过所述用户交互子系统进行深度学习框架服务的发布、资源配置、普通用户请求的批准;用户交互子系统是一个API总体集成展现的界面,通过node.js技术实现。
所述日志子系统基于ELK技术实现,用于日志的存储与检索放入ElasticSearch;可以在出现问题时实时检索日志点,日志的存储空间可以横向扩展,进行全量日志的存储。
所述计算资源子系统:用于分配CPU、GPU和FPGA的计算资源给该深度学习框架,当用户使用完该环境以后,需要回收已经分配出去的GPU资源到资源池。目前云计算的CPU的调度已经比较成熟,FPGA不能完全做到通用。
所述深度学习子系统:用于在云平台镜像库中内置各种深度学习的框架,并将深度学习框架的配置进行编辑,在用户需要的时候,可以通过配置+镜像的方式实时将深度学习框架在云计算平台上完成部署,且直接可用。
所述用户子系统:用于用户、角色、租户角色等相关数据的存储、角色的授权、资源的判断;
所述监控子系统:用于对云计算平台本身的资源使用情况进行监控。
本实施例中,所述GPU的计算资源分配按以下方式进行:每个计算单元在使用GPU显存与计算能力的时候分配独立的空间。
本实施例中,所述监控子系统对云计算平台本身的资源使用情况进行监控是实时状态监控与呈现,采取mongodb+ceilometer技术实现。
本实施例中,所述监控子系统对云计算平台本身的资源使用情况进行监控是历史数据的分析,采取hbase+数据批处理实现。
本实施例中,所述监控子系统还对GPU、深度学习框架本身的运行状态进行监控。
一种基于云计算的深度学习支撑平台的深度学习模型训练方法,按以下步骤进行:
步骤一、从云平台申请一个training集群,开始模型的训练,训练时从初始的数据PV获取dataset(原始数据);
步骤二、训练完成以后训练的模型数据保存到PV,形成第一个版本的模型数据;
步骤三、启动serving服务,serving服务基于第一版的模型数据开始对外提供服务;
步骤四、收集用户的反馈;
步骤六、依据用户的反馈或者新的数据启动第二次训练;
步骤七、第二次训练后的数据形成第二个版本的服务模型数据;
步骤八、云平台启动滚动升级技术,将serving服务进行升级。
针对深度学习监控主要有GPU的监控与深度学习任务状态的监控。GPU的
监控采取调用NVML(Nvdia针对GPU的可编程接口)开发实现,主要实时
监控GPU的显存使用、GPU的计算使用率、活跃的计算进程、温度已经风
扇速度等数据;
深度学习任务的监控主要是针对不同的深度学习框架运行的进程,同时利用深度学习框架开放的api,主要监控任务所占用的计算资源,任务的状态,任务的计算进度,任务是否正常结束等。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (5)

1.一种基于云计算的深度学习支撑平台,其特征在于:包括日志子系统、用户交互子系统、监控子系统、计算资源子系统、深度学习子系统及用户子系统;
所述用户交互子系统:用于申请深度学习框架服务,通过所述用户交互子系统进行深度学习框架服务的发布、资源配置、普通用户请求的批准;
所述日志子系统:用于日志的存储与检索;
所述计算资源子系统:用于分配CPU、GPU和FPGA的计算资源给该深度学习框架,所述GPU的计算资源分配按以下方式进行:每个计算单元在使用GPU显存与计算能力的时候分配独立的空间;
所述深度学习子系统:用于在云平台镜像库中内置各种深度学习的框架,并将深度学习框架的配置进行编辑;
所述用户子系统:用于用户、角色、租户角色等相关数据的存储、角色的授权、资源的判断;
所述监控子系统:用于对云计算平台本身的资源使用情况进行监控。
2.如权利要求1所述的一种基于云计算的深度学习支撑平台,其特征是:所述监控子系统对云计算平台本身的资源使用情况进行监控是实时状态监控与呈现,采取mongodb+ceilometer技术实现。
3.如权利要求1所述的一种基于云计算的深度学习支撑平台,其特征是:所述监控子系统对云计算平台本身的资源使用情况进行监控是历史数据的分析,采取hbase+数据批处理实现。
4.如权利要求1所述的一种基于云计算的深度学习支撑平台,其特征是:所述监控子系统还对GPU、深度学习框架本身的运行状态进行监控。
5.一种基于权利要求1所述的基于云计算的深度学习支撑平台的深度学习模型训练方法,其特征在于按以下步骤进行:
步骤一、从云平台申请一个training集群,开始模型的训练,训练时从初始的数据PV获取dataset;
步骤二、训练完成以后训练的模型数据保存到PV,形成第一个版本的模型数据;
步骤三、启动serving服务,serving服务基于第一版的模型数据开始对外提供服务;
步骤四、收集用户的反馈;
步骤六、依据用户的反馈或者新的数据启动第二次训练;
步骤七、第二次训练后的数据形成第二个版本的服务模型数据;
步骤八、云平台启动滚动升级技术,将serving服务进行升级。
CN201710617901.9A 2017-07-26 2017-07-26 一种基于云计算的深度学习支撑平台及深度学习训练方法 Active CN107659609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710617901.9A CN107659609B (zh) 2017-07-26 2017-07-26 一种基于云计算的深度学习支撑平台及深度学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710617901.9A CN107659609B (zh) 2017-07-26 2017-07-26 一种基于云计算的深度学习支撑平台及深度学习训练方法

Publications (2)

Publication Number Publication Date
CN107659609A CN107659609A (zh) 2018-02-02
CN107659609B true CN107659609B (zh) 2021-01-12

Family

ID=61128105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710617901.9A Active CN107659609B (zh) 2017-07-26 2017-07-26 一种基于云计算的深度学习支撑平台及深度学习训练方法

Country Status (1)

Country Link
CN (1) CN107659609B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284184A (zh) * 2018-03-07 2019-01-29 中山大学 一种基于容器化技术的分布式机器学习平台的搭建方法
CN109034394B (zh) * 2018-07-02 2020-12-11 第四范式(北京)技术有限公司 一种机器学习模型的更新方法和装置
CN109919315B (zh) * 2019-03-13 2021-10-01 科大讯飞股份有限公司 一种神经网络的前向推理方法、装置、设备及存储介质
CN110032449A (zh) * 2019-04-16 2019-07-19 苏州浪潮智能科技有限公司 一种优化gpu服务器的性能的方法及装置
CN110413391B (zh) * 2019-07-24 2022-02-25 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
CN112311605B (zh) * 2020-11-06 2023-12-22 北京格灵深瞳信息技术股份有限公司 提供机器学习服务的云平台及方法
CN113703986B (zh) * 2021-10-29 2022-03-11 苏州优鲜信网络生活服务科技有限公司 一种基于大数据的信息管理系统与方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714852A (zh) * 2015-03-17 2015-06-17 华中科技大学 一种适用于分布式机器学习的参数同步优化方法及其系统
CN105357199A (zh) * 2015-11-09 2016-02-24 南京邮电大学 一种云计算认知资源管理系统及方法
CN105915438A (zh) * 2016-04-15 2016-08-31 北京奇虎科技有限公司 消息推送方法、装置及系统
CN106779084A (zh) * 2016-09-30 2017-05-31 广州英康唯尔互联网服务有限公司 机器学习系统及方法
CN106934497A (zh) * 2017-03-08 2017-07-07 青岛卓迅电子科技有限公司 基于深度学习的智慧小区用电量实时预测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089580B2 (en) * 2014-08-11 2018-10-02 Microsoft Technology Licensing, Llc Generating and using a knowledge-enhanced model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714852A (zh) * 2015-03-17 2015-06-17 华中科技大学 一种适用于分布式机器学习的参数同步优化方法及其系统
CN105357199A (zh) * 2015-11-09 2016-02-24 南京邮电大学 一种云计算认知资源管理系统及方法
CN105915438A (zh) * 2016-04-15 2016-08-31 北京奇虎科技有限公司 消息推送方法、装置及系统
CN106779084A (zh) * 2016-09-30 2017-05-31 广州英康唯尔互联网服务有限公司 机器学习系统及方法
CN106934497A (zh) * 2017-03-08 2017-07-07 青岛卓迅电子科技有限公司 基于深度学习的智慧小区用电量实时预测方法及装置

Also Published As

Publication number Publication date
CN107659609A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107659609B (zh) 一种基于云计算的深度学习支撑平台及深度学习训练方法
US20200311573A1 (en) Utilizing a machine learning model to predict a quantity of cloud resources to allocate to a customer
US10795711B2 (en) Predictive allocation of virtual desktop infrastructure computing resources
CN105049268A (zh) 分布式计算资源分配系统和任务处理方法
CN109213600A (zh) 一种基于ai云的gpu资源调度方法和装置
CN103795804A (zh) 存储资源调度方法及存储计算系统
CN111143039B (zh) 一种虚拟机的调度方法、装置及计算机存储介质
CN113656179A (zh) 云计算资源的调度方法及装置、电子设备和存储介质
CN111209077A (zh) 深度学习框架设计方法
CN107861796A (zh) 一种支持云数据中心能耗优化的虚拟机调度方法
CN104410699A (zh) 一种开放式云计算资源管理方法及系统
CN109033814A (zh) 智能合约触发方法、装置、设备及存储介质
CN105302641A (zh) 虚拟化集群中进行节点调度的方法及装置
CN115373861B (zh) Gpu资源调度方法、装置、电子设备及存储介质
CN109960579B (zh) 一种调整业务容器的方法及装置
CN114138488A (zh) 一种基于弹性高性能计算的云原生实现方法及系统
CN113986478A (zh) 资源迁移策略确定方法以及装置
CN115658311A (zh) 一种资源的调度方法、装置、设备和介质
CN111338756A (zh) Gpu池化的方法、装置、设备及计算机可读存储介质
US20220191273A1 (en) Liaison System and Method for Cloud Computing Environment
CN115952054A (zh) 一种仿真任务资源管理方法、装置、设备及介质
CN116795520A (zh) 资源调度方法、装置、电子设备和存储介质
Surya et al. Novel Approaches for Resource Management Across Edge Servers
CN112654077B (zh) 节能方法及装置、计算机可存储介质
CN114240395A (zh) 一种资源交付方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant