CN112417358A - Ai模型训练在线实训学习系统及方法 - Google Patents

Ai模型训练在线实训学习系统及方法 Download PDF

Info

Publication number
CN112417358A
CN112417358A CN202011404528.7A CN202011404528A CN112417358A CN 112417358 A CN112417358 A CN 112417358A CN 202011404528 A CN202011404528 A CN 202011404528A CN 112417358 A CN112417358 A CN 112417358A
Authority
CN
China
Prior art keywords
training
data set
component
server
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011404528.7A
Other languages
English (en)
Inventor
崔冬冬
常峰
苏奇亮
刘海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhongke Leinao Intelligent Technology Co ltd
Original Assignee
Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhongke Leinao Intelligent Technology Co ltd filed Critical Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority to CN202011404528.7A priority Critical patent/CN112417358A/zh
Publication of CN112417358A publication Critical patent/CN112417358A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting

Abstract

本发明提供AI模型训练在线实训学习系统,所述系统包括基于服务器的在线训练平台、人工智能框架模块和计算资源模块;其中,所述基于服务器的在线训练平台,用于运行代码文件或者加载用户数据集;所述计算资源模块,用于提供所述人工智能框架模块所需的训练数据集;所述人工智能框架模块,用于根据所述代码文件、用户数据集和/或训练数据集进行在线训练。本发明提供了自动化部署、一键式的交互式开发环境,模型的深度训练和调优以及多机多卡的多租户作业调度,完美实现了资源整合、弹性扩容缩融以及合理的调度;同时也提供了可定义的软件和镜像库,满足更多用户个性化需求,提高用户AI开发效率。

Description

AI模型训练在线实训学习系统及方法
技术领域
本发明属于人工智能领域,特别涉及AI模型训练在线实训学习系统及方法。
背景技术
随着AI科学计算的技术突破,人工智能已广泛应用于各行各业,越来越多的开发者开始加入到人工智能行业中来,探究AI发展新方向。虽然人工智能的学习门槛有所降低,但对于专业的AI科研人员而言,环境搭建、并行计算、分布式存储、作业调度等基础设施和服务仍需耗费大量的时间和精力;与此同时,在硬件资源管理,软硬件适配,算法、框架、数据集的选择,人机交互及运维等方面面临诸多挑战。
因此,如何提供一种运行方便的AI模型训练在线实训学习系统及方法是本领域技术人员亟待决绝的问题。
发明内容
针对上述问题,本发明提供一种AI模型训练在线实训学习系统。
AI模型训练在线实训学习系统,所述系统包括基于服务器的在线训练平台、人工智能框架模块和计算资源模块;其中,
所述基于服务器的在线训练平台,用于运行代码文件或者加载用户数据集;
所述计算资源模块,用于提供所述人工智能框架模块所需的训练数据集;
所述人工智能框架模块,用于根据所述代码文件、用户数据集和/或训练数据集进行在线训练。
进一步地,
所述服务器包括CPU、GPU、内存和硬盘;
所述服务器采用分布式集群模式;
所述服务器包括科研服务器和教学服务器。
进一步地,
所述系统还包括故障告警组件,
所述故障告警组件,用于监控GPU是否出现故障,当GPU出现故障时及时通知运维人员;
所述故障告警组件,用于预判出现GPU故障的可能性;
所述故障告警组件,用于对GPU负载、CPU负载、网络负载、存储负载、服务器健康状态、在线训练平台关键性组件状态等指标进行监控,一旦发现系统异常,及时发出警告。
进一步地,
所述在线训练平台包括业务应用模块和应用服务模块。
进一步地,
所述业务应用模块包括图像识别组件、人脸/人体识别组件、视频识别组件、文本识别组件和自然语言识别组件。
进一步地,
所述应用服务模块包括多租户服务组件、团队协作服务组件、交互式开发组件、分布式训练组件和模型预测组件。
进一步地,
所述人工智能框架模块支持TensorFlow、Caffe、PyTorch、MXNet算法框架。
进一步地,
所述计算资源模块包括计算机视觉数据集、自然语言处理数据集、网络结构搜索数据集、知识图谱数据集和实战操作代码与文档数据集。
进一步地,
所述在线训练平台采用分布式训练架构,支持多机多卡的训练模型。
本发明还提供一种AI模型训练在线实训学习方法,所述方法包括:
向基于服务器的在线训练平台运行代码文件或者加载用户数据集;
计算资源模块提供所述人工智能框架模块所需的训练数据集;
人工智能框架模块根据所述代码文件、用户数据集和/或训练数据集进行在线训练。
本发明提供了自动化部署、一键式的交互式开发环境,模型的深度训练和调优以及多机多卡的多租户作业调度,完美实现了资源整合、弹性扩容缩融以及合理的调度;同时也提供了可定义的软件和镜像库,满足更多用户个性化需求,提高用户AI开发效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的AI模型训练在线实训学习系统整体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明涉及AI模型训练在线实训学习系统,用于解决AI科研人员在进行人工智能开发时,环境搭建、并行计算、分布式存储、作业调度等基础设施和服务仍需耗费大量的时间和精力的问题,以及在硬件资源管理,软硬件适配,算法、框架、数据集的选择,人机交互及运维等方面不充足的问题。
图1示出了本发明实施例中的AI模型训练在线实训学习系统整体结构示意图,本发明提供AI模型训练在线实训学习系统,所述系统包括基于服务器的在线训练平台、人工智能框架模块和计算资源模块;其中,
所述基于服务器的在线训练平台,用于运行代码文件或者加载用户数据集;
所述计算资源模块,用于提供所述人工智能框架模块所需的训练数据集;
所述人工智能框架模块,用于根据所述代码文件、用户数据集和/或训练数据集进行在线训练。
搭建基于服务器的在线训练平台,基于WEB的AI开发环境和任务训练流程,在线进行任务、数据、代码的编辑开发,在线训练平台会对失效的任务自动重新发起,并且具备任务快照的功能;同时,通过模型训练可视化界面,可实时监控模型训练进度、资源消耗情况并查看相关日志,当所述系统没有客户需要的数据时,用户可以通过基于服务器的在线训练平台,向所述系统加载用户数据,在进行在线训练时,用户根据自己的需求,将代码文件在基于服务器的在线训练平台上运行,人工智能框架模块根据所述代码文件、用户数据集和训练数据集即可进行在线训练,其中,计算资源模块提供所述人工智能框架模块所需的训练数据集,因此在人工智能框架模块计算时,调用计算资源模块内的训练数据集或者用户提供的用户数据集,完成在线训练。
基于服务器的在线训练平台内置开发者常用的软件和镜像库平台,将开发者常用的软件和镜像库平台内置到AI模型训练运行的环境界面中,运行之前可以选择这些软件和镜像库,例如,运行前选择了Python2.7的编程语言和TensorFlow 1.0的镜像框架,当运行在线web环境时就能直接使用这些软件和镜像库,无需用户再花时间去下载以及配置开发环境的操作,可以提高效率。
其中,基于服务器的在线训练平台的所述服务器包括CPU、GPU、内存和硬盘;所述服务器采用分布式集群模式;所述服务器包括科研服务器和教学服务器。
所述系统还包括故障告警组件,所述故障告警组件,用于监控GPU是否出现故障,当GPU出现故障时及时通知运维人员;所述故障告警组件,用于预判出现GPU故障的可能性;所述故障告警组件,用于对GPU负载、CPU负载、网络负载、存储负载、服务器健康状态、在线训练平台关键性组件状态等指标进行监控,一旦发现系统异常,及时发出警告。
所述负载,又称负荷、载荷,对GPU、CPU、网络、存储等设备来说,它们承受任务量都有一定限度,平时的工作量就叫做负载,超过这个限度就叫过载,过载会影响系统的效率,并引发各种错误。
所述告警,即发出警报。示例性的,可以使用但不限于以下方式告警:写入系统日志、给管理员发送邮件、给管理员发送信息、系统发出警告声响等。
当系统提供的数据集不能满足客户需求时,用户可以把自己需要的用户数据集加载到计算资源模块中,从而使得所述人工智能框架模块可以调用用户数据集,从而根据代码文件进行在线训练。
所述在线训练平台包括业务应用模块和应用服务模块。所述业务应用模块包括图像识别组件、人脸/人体识别组件、视频识别组件、文本识别组件和自然语言识别组件。在线训练平台通过提供图像识别组件、人脸/人体识别组件、视频识别组件、文本识别组件和自然语言识别组件等组件,满足用户人工智能开发提供各种需求。
所述应用服务模块包括多租户服务组件、团队协作服务组件、交互式开发组件、分布式训练组件和模型预测组件。用户根据需要选择多租户服务组件、团队协作服务组件、交互式开发组件、分布式训练组件和模型预测组件的一种或多种进行人工智能开发。
所述人工智能框架模块支持TensorFlow、Caffe、PyTorch、MXNet算法框架。
所述计算资源模块包括计算机视觉数据集、自然语言处理数据集、网络结构搜索数据集、知识图谱数据集和实战操作代码与文档数据集。计算资源模块提供大量的数据集,从而为人工智能框架模块提供数据基础。
所述在线训练平台采用分布式训练架构,支持多机多卡的训练模型。提高计算能力,缩短训练时间,具备可扩展性,可轻松适用于各种规模的集群环境。
示例性的,当用户做一个提箱复原及增强的模型训练时,用户根据需要选择人工智能框架模块中的TensorFlow、Caffe、PyTorch、MXNet任一框架作为任务训练,然后选择在线训练平台图像复原及增强的数据集,并提交自己的代码文件,人工智能框架即可根据用户创建的代码文件和数据集做模型训练。
本发明提供了自动化部署、一键式的交互式开发环境,模型的深度训练和调优以及多机多卡的多租户作业调度,完美实现了资源整合、弹性扩容缩融以及合理的调度;同时也提供了可定义的软件和镜像库,满足更多用户个性化需求,提高用户AI开发效率。
本发明还提供AI模型训练在线实训学习方法,所述方法包括:
向基于服务器的在线训练平台运行代码文件或者加载用户数据集;
人工智能框架模块根据所述代码文件或者所述代码文件和所述用户数据集,进行在线训练;
计算资源模块提供所述人工智能框架模块所需的训练数据集。
所述方法还包括
监控GPU是否出现故障,当GPU出现故障时及时通知运维人员;
预判出现GPU故障的可能性;
并对GPU负载、CPU负载、网络负载、存储负载、服务器健康状态、在线训练平台关键性组件状态等指标进行监控,一旦发现系统异常,及时发出警告。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.AI模型训练在线实训学习系统,其特征在于,所述系统包括基于服务器的在线训练平台、人工智能框架模块和计算资源模块;其中,
所述基于服务器的在线训练平台,用于运行代码文件或者加载用户数据集;
所述计算资源模块,用于提供所述人工智能框架模块所需的训练数据集;
所述人工智能框架模块,用于根据所述代码文件、用户数据集和/或训练数据集进行在线训练。
2.根据权利要求1所述的AI模型训练在线实训学习系统,其特征在于,
所述服务器包括CPU、GPU、内存和硬盘;
所述服务器采用分布式集群模式;
所述服务器包括科研服务器和教学服务器。
3.根据权利要求2所述的AI模型训练在线实训学习系统,其特征在于,所述系统还包括故障告警组件,
所述故障告警组件,用于监控GPU是否出现故障,当GPU出现故障时及时通知运维人员;
所述故障告警组件,用于预判出现GPU故障的可能性;
所述故障告警组件,用于对GPU负载、CPU负载、网络负载、存储负载、服务器健康状态、在线训练平台关键性组件状态等指标进行监控,一旦发现系统异常,及时发出警告。
4.根据权利要求1所述的AI模型训练在线实训学习系统,其特征在于,
所述在线训练平台包括业务应用模块和应用服务模块。
5.根据权利要求4所述的AI模型训练在线实训学习系统,其特征在于,
所述业务应用模块包括图像识别组件、人脸/人体识别组件、视频识别组件、文本识别组件和自然语言识别组件。
6.根据权利要求4所述的AI模型训练在线实训学习系统,其特征在于,
所述应用服务模块包括多租户服务组件、团队协作服务组件、交互式开发组件、分布式训练组件和模型预测组件。
7.根据权利要求1所述的AI模型训练在线实训学习系统,其特征在于,
所述人工智能框架模块支持TensorFlow、Caffe、PyTorch、MXNet算法框架。
8.根据权利要求1所述的AI模型训练在线实训学习系统,其特征在于,
所述计算资源模块包括计算机视觉数据集、自然语言处理数据集、网络结构搜索数据集、知识图谱数据集和实战操作代码与文档数据集。
9.根据权利要求1所述的AI模型训练在线实训学习系统,其特征在于,
所述在线训练平台采用分布式训练架构,支持多机多卡的训练模型。
10.AI模型训练在线实训学习方法,其特征在于,所述方法包括:
向基于服务器的在线训练平台运行代码文件或者加载用户数据集;
计算资源模块提供所述人工智能框架模块所需的训练数据集;
人工智能框架模块根据所述代码文件、用户数据集和/或训练数据集进行在线训练。
CN202011404528.7A 2020-12-03 2020-12-03 Ai模型训练在线实训学习系统及方法 Pending CN112417358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011404528.7A CN112417358A (zh) 2020-12-03 2020-12-03 Ai模型训练在线实训学习系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011404528.7A CN112417358A (zh) 2020-12-03 2020-12-03 Ai模型训练在线实训学习系统及方法

Publications (1)

Publication Number Publication Date
CN112417358A true CN112417358A (zh) 2021-02-26

Family

ID=74830089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011404528.7A Pending CN112417358A (zh) 2020-12-03 2020-12-03 Ai模型训练在线实训学习系统及方法

Country Status (1)

Country Link
CN (1) CN112417358A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590112A (zh) * 2021-07-19 2021-11-02 联合汽车电子有限公司 工业ai项目开发平台
CN114756211A (zh) * 2022-05-13 2022-07-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN114924845A (zh) * 2022-07-21 2022-08-19 合肥中科类脑智能技术有限公司 适用于边缘ai场景的镜像延迟加载方法及系统
WO2022222558A1 (zh) * 2021-04-21 2022-10-27 烽火通信科技股份有限公司 一种人工智能模型在线训练方法及系统
CN116187533A (zh) * 2022-12-29 2023-05-30 安徽宝信信息科技有限公司 一种基于深度学习的大数据趋势预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
US20190034798A1 (en) * 2017-07-25 2019-01-31 University Of Massachusetts Medical School Method for Meta-Level Continual Learning
CN109961151A (zh) * 2017-12-21 2019-07-02 同方威视科技江苏有限公司 用于机器学习的计算服务的系统及用于机器学习的方法
CN110378463A (zh) * 2019-07-15 2019-10-25 北京智能工场科技有限公司 一种人工智能模型标准化训练平台及自动化系统
US20200265509A1 (en) * 2019-02-19 2020-08-20 Pathtronic Inc. Secure and trusted multi-tenant service delivery platform for distributed multitenant-capable ai solution model compute processors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034798A1 (en) * 2017-07-25 2019-01-31 University Of Massachusetts Medical School Method for Meta-Level Continual Learning
CN109961151A (zh) * 2017-12-21 2019-07-02 同方威视科技江苏有限公司 用于机器学习的计算服务的系统及用于机器学习的方法
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
US20200265509A1 (en) * 2019-02-19 2020-08-20 Pathtronic Inc. Secure and trusted multi-tenant service delivery platform for distributed multitenant-capable ai solution model compute processors
CN110378463A (zh) * 2019-07-15 2019-10-25 北京智能工场科技有限公司 一种人工智能模型标准化训练平台及自动化系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘红梅: "《新工科大数据人才培养模式》", 30 April 2018, 中国农业大学出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222558A1 (zh) * 2021-04-21 2022-10-27 烽火通信科技股份有限公司 一种人工智能模型在线训练方法及系统
CN113590112A (zh) * 2021-07-19 2021-11-02 联合汽车电子有限公司 工业ai项目开发平台
CN114756211A (zh) * 2022-05-13 2022-07-15 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN114756211B (zh) * 2022-05-13 2022-12-16 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN114924845A (zh) * 2022-07-21 2022-08-19 合肥中科类脑智能技术有限公司 适用于边缘ai场景的镜像延迟加载方法及系统
CN116187533A (zh) * 2022-12-29 2023-05-30 安徽宝信信息科技有限公司 一种基于深度学习的大数据趋势预测方法及系统
CN116187533B (zh) * 2022-12-29 2023-11-17 安徽宝信信息科技有限公司 一种基于深度学习的大数据趋势预测方法及系统

Similar Documents

Publication Publication Date Title
CN112417358A (zh) Ai模型训练在线实训学习系统及方法
Liu et al. FogWorkflowSim: An automated simulation toolkit for workflow performance evaluation in fog computing
US20090077424A1 (en) Health check framework for enterprise systems
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN114691050B (zh) 基于kubernetes的云原生存储方法、装置、设备及介质
WO2023154538A1 (en) System and method for reducing system performance degradation due to excess traffic
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
CN117499412A (zh) 一种基于高可用链路的集群优化处理方法及其相关设备
Meza et al. Defcon: Preventing Overload with Graceful Feature Degradation
CN115471215B (zh) 一种业务流程处理方法及装置
CA3013582A1 (en) Strategic improvisation design for adaptive resilience
CN114915460B (zh) 一种面向容器云的异构动态扩缩容装置及方法
US11418411B1 (en) Data center issue resolution prioritization
US20230229537A1 (en) Methods and systems that automatically predict distributed-computer-system performance degradation using automatically trained machine-learning components
CN115543543A (zh) 一种应用服务处理方法、装置、设备及介质
CN114706622A (zh) 启动模型服务的方法、装置、设备、介质及产品
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
Babaoglu et al. Cognified distributed computing
CN112711508A (zh) 面向大规模客户端系统的智能运维服务系统
CN112579402A (zh) 一种应用系统故障定位的方法和装置
Gerndt Workflows to Driving High-Performance Interactive Supercomputing for Urgent Decision Making
US11748184B2 (en) Data center issue impact analysis
US11556446B2 (en) Programmatic performance anomaly detection
US20230130927A1 (en) Data Center Issue Contextualization and Enrichment
CN113051748A (zh) 一种飞机可靠性数据资产风险全要素构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226