CN114371909A - 分布式深度学习任务处理系统、方法、设备及存储介质 - Google Patents

分布式深度学习任务处理系统、方法、设备及存储介质 Download PDF

Info

Publication number
CN114371909A
CN114371909A CN202111527202.8A CN202111527202A CN114371909A CN 114371909 A CN114371909 A CN 114371909A CN 202111527202 A CN202111527202 A CN 202111527202A CN 114371909 A CN114371909 A CN 114371909A
Authority
CN
China
Prior art keywords
deep learning
task
learning task
component
task processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111527202.8A
Other languages
English (en)
Inventor
张姝彦
朱明�
丁霞
王世杰
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi IoT Technology Co Ltd
Original Assignee
Tianyi IoT Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi IoT Technology Co Ltd filed Critical Tianyi IoT Technology Co Ltd
Priority to CN202111527202.8A priority Critical patent/CN114371909A/zh
Publication of CN114371909A publication Critical patent/CN114371909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种分布式深度学习任务处理系统、方法、设备及存储介质,该系统包括任务配置模块,用于响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;任务执行模块,用于将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行;任务调度模块,用于配置深度学习任务的定时运行的时间或者周期;模型部署模块,用于根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。该系统可将算法研发人员从重复劳动中解放出来,降低了人工成本。本申请可广泛应用于人工智能技术领域内。

Description

分布式深度学习任务处理系统、方法、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其是一种分布式深度学习任务处理系统、方法、设备及存储介质。
背景技术
分布式深度学习当前已成为人工智能最热门的研究领域之一,随着大数据的逐渐兴起,数据开始发生爆炸式的增长,传统的深度学习在单机上进行庞大的数据存储和计算相对来说比较困难。基于以上情况,将深度学习模型部署到多台设备上进行分布式计算,是目前常用的一种解决方法。
相关技术中,现有的分布式深度学习系统无法对深度学习工作流进行统一的管理和定时部署,也无法在模型训练结束后直接进行模型预测,而目前很多用户都对该应用场景有较大的需求。因此,上述缺陷极大地影响了用户的使用效率和体验。
综上,相关技术存在的问题亟需得到解决。
发明内容
本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种分布式深度学习任务处理系统、方法、设备及存储介质。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
一方面,本申请实施例提供了一种分布式深度学习任务处理系统,包括:
任务配置模块,用于响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;
任务执行模块,用于将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行;
任务调度模块,用于配置深度学习任务的定时运行的时间或者周期;
模型部署模块,用于根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。
另外,根据本申请上述实施例的一种分布式深度学习任务处理系统,还可以具有以下附加的技术特征:
进一步地,在本申请的一个实施例中,所述任务执行模块具体用于:
将所述有向无环图中的每一个组件,通过Docker引擎打包为镜像文件;
通过kubeflow将各个所述镜像文件组合成流水线任务,通过kubernetes对所述镜像文件进行容器编排,以将流水线任务调度至对应的节点上,并基于工作流信息对流水线任务的节点进行运算。
进一步地,在本申请的一个实施例中,所述组件包括预处理组件、数据清洗组件和模型训练组件。
进一步地,在本申请的一个实施例中,所述系统还包括:
任务管理模块,用于接收用户的查询指令,在前端页面上显示深度学习任务的工作流信息。
另一方面,本申请实施例提供一种分布式深度学习任务处理方法,所述方法包括以下步骤:
响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;
将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行,得到训练好的深度学习任务模型;
根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。
另外,根据本申请上述实施例的一种分布式深度学习任务处理方法,还可以具有以下附加的技术特征:
进一步地,在本申请的一个实施例中,所述将所述深度学习流水线传入后端进行解析,得到有向无环图,包括:
对所述深度学习流水线进行解析,得到工作流json串;
将所述工作流json串中的节点列表转换为节点id,并将所述工作流json串中的连接线列表转换为键值对;
遍历所述节点id和所述键值对,构建得到有向无环图。
进一步地,在本申请的一个实施例中,所述组件包括预处理组件、数据清洗组件和模型训练组件。
进一步地,在本申请的一个实施例中,所述方法还包括以下步骤:
接收用户的查询指令,在前端页面上显示深度学习任务的工作流信息。
另一方面,本申请实施例提供了一种计算机设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的分布式深度学习任务处理方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,上述处理器可执行的程序在由处理器执行时用于实现上述的分布式深度学习任务处理方法。
本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
本申请实施例所公开的一种分布式深度学习任务处理系统,包括:任务配置模块,用于响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;任务执行模块,用于将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行;任务调度模块,用于配置深度学习任务的定时运行的时间或者周期;模型部署模块,用于根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。该系统使得用户可以方便地对分布式深度学习工作流进行统一的管理,且方便对历史训练任务进行溯源对比,对任务的管理不再杂乱无杂,并且能够支持定时任务部署,一定程度上将算法研发人员从重复劳动中解放出来,降低了人工成本。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本申请实施例中提供的一种分布式深度学习任务处理系统的实施环境示意图;
图2为本申请实施例中提供的一种分布式深度学习任务处理系统的结构示意图;
图3为本申请实施例中提供的一种分布式深度学习任务处理方法的流程示意图;
图4为本申请实施例中提供的一种计算机设备的结构示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
分布式深度学习当前已成为人工智能最热门的研究领域之一,随着大数据的逐渐兴起,数据开始发生爆炸式的增长,传统的深度学习在单机上进行庞大的数据存储和计算相对困难。基于以上情况,将深度学习模型部署到多台设备上进行分布式计算,是目前常用的一种解决方法。然而,现有的分布式深度学习系统,无法对深度学习工作流进行统一的管理和定时部署,也无法在模型训练结束后直接进行模型预测,而目前很多用户都对该应用场景有较大的需求。因此,上述缺陷极大地影响了用户的使用效率和体验。
有鉴于此,本申请实施例中提供一种分布式深度学习任务处理系统,包括:任务配置模块,用于响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;任务执行模块,用于将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行;任务调度模块,用于配置深度学习任务的定时运行的时间或者周期;模型部署模块,用于根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。该系统使得用户可以方便地对分布式深度学习工作流进行统一的管理,且方便对历史训练任务进行溯源对比,对任务的管理不再杂乱无杂,并且能够支持定时任务部署,一定程度上将算法研发人员从重复劳动中解放出来,降低了人工成本。
图1是本申请实施例提供的一种分布式深度学习任务处理系统的实施环境示意图。参照图1,该实施环境的软硬件主体主要包括操作终端101和服务器102,操作终端101与服务器102通信连接。其中,该分布式深度学习任务处理系统可以单独配置于操作终端101执行深度学习任务,也可以单独配置于服务器102执行深度学习任务,或者基于操作终端101与服务器102二者之间的交互来执行深度学习任务,具体可以根据实际应用情况进行适当的选择,本实施例对此并不作具体限定。此外,操作终端101与服务器102可以为区块链中的结点,本实施例对此并不作具体限定。
具体地,本申请中的操作终端101可以包括但不限于智能手表、智能手机、电脑、个人数字助理(Personal Digital Assistant,PDA)、智能语音交互设备、智能家电或者车载终端中的任意一种或者多种。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。操作终端101与服务器102之间可以通过无线网络或有线网络建立通信连接,该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
请参照图2,图2是本申请实施例提供的一种分布式深度学习任务处理系统的示意图,该分布式深度学习任务处理系统可以配置在操作终端或者服务器中的至少一者。参照图2,该分布式深度学习任务处理系统包括但不限于:
任务配置模块201,用于响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;
任务执行模块202,用于将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行;
任务调度模块203,用于配置深度学习任务的定时运行的时间或者周期;
模型部署模块204,用于根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。
本申请实施例中,提供一种基于kubeflow的分布式深度学习任务处理系统。该系统中包括有:能够通过可视化界面配置一条分布式深度学习任务的流水线的任务配置模块;用于运行分布式深度学习任务的任务执行模块;用于部署定时的分布式深度学习任务的任务调度模块;模型部署模块,用于使用训练好的模型部署深度学习模型预测服务。
可以理解的是,本申请实施例中,提出一种基于kubeflow的分布式深度学习任务处理系统,该系统支持分布式深度学习任务的工作流的可视化配置、部署与管理等一站式服务,可以降低深度学习算法研发人员的人工成本,提高开发效率,并且,能够使得模型的部署简易化和高效化。
具体地,基于上述的任务配置模块,用户可以通过组件拖拽的方式创建深度学习应用的流水线,在前端页面上,可选择的组件节点可以包括有预处理组件、数据清洗组件和模型训练组件等,这些组件在图中作为一个节点,能够处理真正的逻辑任务。在一些实施例中,其中的每个组件可以以Docker镜像的方式被打包,以容器的方式被运行。后端可以对前端传回的流水线进行解析,得到工作流json串,接着对工作流json串进行解析,将其转化为一个kubeflow所需的有向无环图,并将配置存入数据库。
上述的任务执行模块,可以使用ksonnet将kubeflow部署在kubernetes集群上,并安装Kubeflow Pipelines SDK。在工作时,任务执行模块可以从数据库中读取kubeflow中存储的流水线配置,将其中的数据预处理组件和深度学习组件通过Python完成搭建,并使用一个Docker镜像封装起来。本申请实施例中,可以通过kubeflow将Docker容器组合成工作流任务,并通过kubernetes对Docker容器进行容器编排,以将工作流任务调度至对应的节点上,并基于工作流信息对节点进行对应的运算。在一些实施例中,如果用户设置开启后端监控功能,服务器后端会同时通过kubeflow在kubernetes上部署一个监控应用,用以监视正在运行的作业。同时具体监控的地址也会传回后端数据库,用户可以在前端点击链接,实时查看正在运行的深度学习任务的状态。
本申请实施例中的任务调度模块,用于基于用户在页面上配置的任务开始时间、执行周期、并行度等信息进行深度学习任务调度。具体地,后端服务器可以用一个任务调度器对分配给该调度服务器的任务进行调度,初始化任务调度器时,可以将数据库中存储的调度任务加入调度器,后续通过trigger调度不同定时规则,不断根据按照数据库变化进行任务调整。
本申请实施例中,当分布式深度学习任务运行结束后,可以将训练好的checkpoint从用于训练的NAS数据卷迁移到用于模型预测的NAS数据卷,用来给TensorFlowServing系统加载,同时将模型名称、模型存储路径、PVC名称等信息存入数据库中。当用户选择需要进行模型预测的任务并启动模型预测后,可以向模型部署模块传入模型所在的存储位置,然后利用kubeflow启动Tensorflow serving获取模型服务。
可以理解的是,本申请实施例中,提供一种分布式深度学习任务处理系统,基于该系统,用户能够通过可视化操作配置一条分布式深度学习工作流,无需亲自对kubeflow进行操作,只需要从页面配置即可,避免了不必要的学习成本;该系统使得用户可以方便地对分布式深度学习工作流进行统一的管理,且方便对历史训练任务进行溯源对比,对任务的管理不再杂乱无杂,并且能够支持定时任务部署,一定程度上将算法研发人员从重复劳动中解放出来,降低了人工成本。
在一些具体的实施例中,本申请的分布式深度学习任务处理系统还可以包括有任务管理模块,该任务管理模块用于接收用户的查询指令,在前端页面上显示深度学习任务的工作流信息。
具体地,本申请实施例中,基于任务管理模块,用户可以通过任务界面进行深度学习任务的启动、停止、定时调度部署等操作。进入每个任务内部界面,可以查看以下信息:该任务的具体信息,如任务的创建时间、创建人、流水线上每个节点的配置信息;该任务每次运行的工作流id、运行开始时间、运行结束时间、是否是定时调度运行、运行状态、运行结果;上述工作流的运行结果可以进入新页面查看,内容包括:运行时深度学习任务创建的各个节点的日志及配置信息、运行监控功能时的url地址、分布式深度学习代码中指定输出的模型指标结果。
参照图3,本申请实施例中,还提供一种分布式深度学习任务处理方法,包括以下步骤:
步骤110、响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;
步骤120、将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行,得到训练好的深度学习任务模型;
步骤130、根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。
在一些实施例中,所述将所述深度学习流水线传入后端进行解析,得到有向无环图,包括:
对所述深度学习流水线进行解析,得到工作流json串;
将所述工作流json串中的节点列表转换为节点id,并将所述工作流json串中的连接线列表转换为键值对;
遍历所述节点id和所述键值对,构建得到有向无环图。
本申请实施例中,后端对前端传回的工作流json串进行解析的具体步骤包括:
步骤1011、将工作流json串中的节点列表和连接线列表转化为节点id和节点的键值对;
步骤1012、遍历节点id与节点的键值对,不断构建工作流有向无环图。当遇到后续节点超过一个节点的组件节点时,可以通过一个栈来找到对应关系。
在一些实施例中,所述组件包括预处理组件、数据清洗组件和模型训练组件。
在一些实施例中,所述方法还包括以下步骤:
接收用户的查询指令,在前端页面上显示深度学习任务的工作流信息。
可以理解的是,图2所示的分布式深度学习任务处理系统实施例中的内容均适用于本分布式深度学习任务处理方法实施例中,本分布式深度学习任务处理方法实施例所具体实现的功能与图2所示的分布式深度学习任务处理系统实施例相同,并且达到的有益效果与图2所示的分布式深度学习任务处理系统实施例所达到的有益效果也相同。
参照图4,本申请实施例还公开了一种计算机设备,包括:
至少一个处理器301;
至少一个存储器302,用于存储至少一个程序;
当至少一个程序被至少一个处理器301执行,使得至少一个处理器301实现如图2所示的分布式深度学习任务处理系统实施例。
可以理解的是,如图2所示的分布式深度学习任务处理系统实施例中的内容均适用于本计算机设备实施例中,本计算机设备实施例所具体实现的功能与如图2所示的分布式深度学习任务处理系统实施例相同,并且达到的有益效果与如图2所示的分布式深度学习任务处理系统实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图2所示的分布式深度学习任务处理系统实施例。
可以理解的是,如图2所示的分布式深度学习任务处理系统实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与如图2所示的分布式深度学习任务处理系统实施例相同,并且达到的有益效果与如图2所示的分布式深度学习任务处理系统实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内
在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (10)

1.一种分布式深度学习任务处理系统,其特征在于,包括:
任务配置模块,用于响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;
任务执行模块,用于将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行;
任务调度模块,用于配置深度学习任务的定时运行的时间或者周期;
模型部署模块,用于根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。
2.根据权利要求1所述的一种分布式深度学习任务处理系统,其特征在于,所述任务执行模块具体用于:
将所述有向无环图中的每一个组件,通过Docker引擎打包为镜像文件;
通过kubeflow将各个所述镜像文件组合成流水线任务,通过kubernetes对所述镜像文件进行容器编排,以将流水线任务调度至对应的节点上,并基于工作流信息对流水线任务的节点进行运算。
3.根据权利要求1所述的一种分布式深度学习任务处理系统,其特征在于,所述组件包括预处理组件、数据清洗组件和模型训练组件。
4.根据权利要求1-3中任一项所述的一种分布式深度学习任务处理系统,其特征在于,所述系统还包括:
任务管理模块,用于接收用户的查询指令,在前端页面上显示深度学习任务的工作流信息。
5.一种分布式深度学习任务处理方法,其特征在于,包括以下步骤:
响应用户对组件的拖拽操作,在前端页面上形成深度学习流水线,并将所述深度学习流水线传入后端进行解析,得到有向无环图;
将所述有向无环图中的每一个组件打包为容器文件,并形成流水线任务后在kubernetes中运行,得到训练好的深度学习任务模型;
根据用户输入的指令,对训练好的深度学习任务模型进行一站式部署。
6.根据权利要求5所述的一种分布式深度学习任务处理方法,其特征在于,所述将所述深度学习流水线传入后端进行解析,得到有向无环图,包括:
对所述深度学习流水线进行解析,得到工作流json串;
将所述工作流json串中的节点列表转换为节点id,并将所述工作流json串中的连接线列表转换为键值对;
遍历所述节点id和所述键值对,构建得到有向无环图。
7.根据权利要求5所述的一种分布式深度学习任务处理方法,其特征在于,所述组件包括预处理组件、数据清洗组件和模型训练组件。
8.根据权利要求5所述的一种分布式深度学习任务处理方法,其特征在于,所述方法还包括以下步骤:
接收用户的查询指令,在前端页面上显示深度学习任务的工作流信息。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求4-8中任一项所述的分布式深度学习任务处理方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求4-8中任一项所述的分布式深度学习任务处理方法。
CN202111527202.8A 2021-12-13 2021-12-13 分布式深度学习任务处理系统、方法、设备及存储介质 Pending CN114371909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111527202.8A CN114371909A (zh) 2021-12-13 2021-12-13 分布式深度学习任务处理系统、方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111527202.8A CN114371909A (zh) 2021-12-13 2021-12-13 分布式深度学习任务处理系统、方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114371909A true CN114371909A (zh) 2022-04-19

Family

ID=81140745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111527202.8A Pending CN114371909A (zh) 2021-12-13 2021-12-13 分布式深度学习任务处理系统、方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114371909A (zh)

Similar Documents

Publication Publication Date Title
US10878379B2 (en) Processing events generated by internet of things (IoT)
US11086687B2 (en) Managing resource allocation in a stream processing framework
US10437635B2 (en) Throttling events in entity lifecycle management
US20240320036A1 (en) System and method for automated production and deployment of packaged ai solutions
US10756991B2 (en) Simplified entity engagement automation
US11074107B1 (en) Data processing system and method for managing AI solutions development lifecycle
US20210117460A1 (en) Representation of a data analysis using a flow graph
US9965330B2 (en) Maintaining throughput of a stream processing framework while increasing processing load
CN109542399A (zh) 软件开发方法、装置、终端设备及计算机可读存储介质
US9582495B2 (en) Domain knowledge driven semantic extraction system
CN108353090A (zh) 边缘智能平台和物联网传感器流系统
CN106067080A (zh) 提供可配置工作流能力
CN108243012B (zh) 在线计费系统ocs中计费应用处理系统、方法及装置
US11019019B2 (en) Dynamic hashtag ordering based on projected interest
US20210383205A1 (en) Taxonomy Construction via Graph-Based Cross-domain Knowledge Transfer
CN110781180B (zh) 一种数据筛选方法和数据筛选装置
Pham A big data analytics framework for iot applications in the cloud
CN112395108A (zh) 一种bim元件模型的调用方法及装置
CN114253798A (zh) 指标数据采集方法和装置、电子设备、存储介质
CN110442753A (zh) 一种基于opc ua的图数据库自动建立方法及装置
Petcu Identifying cloud computing usage patterns
US20230186117A1 (en) Automated cloud data and technology solution delivery using dynamic minibot squad engine machine learning and artificial intelligence modeling
CN114371909A (zh) 分布式深度学习任务处理系统、方法、设备及存储介质
Vergilio et al. PaaS-BDP a multi-cloud architectural pattern for big data processing on a platform-as-a-service model
JP7082195B2 (ja) 擬似システムとしてのクラウド・コンピューティング・データの表現および解析

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination