CN113627617A - 一种动态扩展的模型训练方法、装置与系统 - Google Patents
一种动态扩展的模型训练方法、装置与系统 Download PDFInfo
- Publication number
- CN113627617A CN113627617A CN202010384523.6A CN202010384523A CN113627617A CN 113627617 A CN113627617 A CN 113627617A CN 202010384523 A CN202010384523 A CN 202010384523A CN 113627617 A CN113627617 A CN 113627617A
- Authority
- CN
- China
- Prior art keywords
- model
- data set
- module
- model training
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 description 33
- 238000007726 management method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000001503 joint Anatomy 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 208000033748 Device issues Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种动态扩展的模型训练方法,所述模型训练过程还有至少一个终端设备的参与。所述方法为:分解所述模型,得到模型浅层模块与模型深层模块;下发到所述终端设备上执行;收集来自终端设备的模型训练中间输出,聚类所述中间输出,并转换成模型深层模块的输入;得到模型训练输出,评估所述输出,根据所述评估结果调整模型参数;下发模型浅层模块的参数到终端设备,继续进行模型训练。所述将大型模型训练部署在云边端协作的分布式算力环境的动态可扩展模型训练,既提升边缘节点数据采集与处理的实时性,还降低AI应用的成本、加速AI的应用普及。
Description
技术领域
本申请涉及AI领域的模型训练,主要涉及云边端协作进行动态扩展的模型训练方法。
背景技术
目前人们普遍认为人工智能(AI-Artificial Intelligence)会是二十一世纪及以后最具影响力的技术之一。在所有机器学习相关的算法中,有一类算法对算力要求十分严苛,使得任何单节点的训练部署都无法简单满足要求,人们自然就利用模型分割的方式来将这种算法学习过程部署到基于云中心式的多节点环境上。
随着物联网(IoT-Internet of Things)的到来,算力越来越具有去中心化的特点。去中心化的算力分布特点,为前述模型分割与训练部署提供一种天然的有利环境,但基于这种分割所作训练过程的参数同步却对IoT设备或终端间的网络带宽提出了当前主力通信技术尤其是无线通信技术无法企及的要求。
发明内容
因此,本申请提出解决上述问题、云边端协作进行动态扩展的模型训练方法与过程,以充分利用云边端分布式算力的特点,并保障数据采样与处理的实时性。这些方法,应用于不特定的工具、设备、系统甚至数据中心或云服务中心,从而构成一种面向云边端协作的、可动态扩展的AI模型训练系统。为此,本发明:
一方面,提出一种动态扩展的模型训练方法,所述模型训练过程还有至少一个终端设备的参与。还包括:
确定第一数据集,所述第一数据集为参与所述模型训练的终端设备信息;确定第二数据集,所述第二数据集包含至少一个第二数据,所述第二数据集包含模型深层模块参数的子集与模型浅层模块参数的子集;生成第三数据集,所述第三数据集用于在模型深层模块与模型浅层模块间作连接的连接层;根据所述第一数据集,下发所述第二数据集的浅层参数子集;接收第四数据集,所述第四数据集包含至少一个第四数据,所述第四数据集来自于所述终端设备;对模型训练作评估,所述评估的输入来自于模型深层模块的输出,所述模型深层模块的输入来自于所述连接层的输出,所述连接层的输入来自于所述第四数据集;依据所述评估结果,更新与确定所述第二数据集。进一步,还包括,所述第二数据集所包含的模型浅层模块参数,适用于终端设备;所述第二数据集所包含的模型深层模块参数,适用于非终端设备。进一步,还包括,作为模型参数,所述第三数据集适用于非终端设备。进一步,还包括,生成第五数据集,所述第五数据集为对所述第四数据集作聚类的结果集。进一步,还包括,所述第五数据集包含至少一个第五数据;转换所述第五数据为特征表示。进一步,还包括,将所述特征表示作为模型深层模块的输入;得到模型深层模块的输出;使用所述模型深层模块输出作模型训练评估。
在一个以部署有云端总控能力的数据中心或云设备环境中,通过利用所连接与管理的诸多边缘AI节点(简称边缘节点)、以及连接与管理的诸多终端AI设备(简称终端设备)作动态扩展的模型训练,从而充分利用云边端分布式算力的特点,既保障数据采样与处理的实时性,又降低机器算法乃至AI应用的成本。所述动态扩展的模型训练过程为:发送初始化命令,所述初始化命令从AI中台发出,所述初始化命令发送给参与模型训练的边缘节点与终端设备;接收待训练的AI模型;接收初始化命令的执行结果,所述执行结果中包含可参与模型训练的边缘节点与终端设备的信息;根据所述可参与者信息,以及模型内部数据流关系,确定所述AI模型的分解模式与分解结果,所述分解结果进一步包含分层结构,所述分层结构包含深层模型与浅层模型;根据分层结果构建连接层;确定参与模型训练的算力集群结构,所述集群结构中包含至少一个终端设备集群;下发与部署训练模型,所述训练模型的下发,依据所述集群结构与所述模型分层结构的匹配情况;发送模型训练的启动命令;执行对模型训练所需数据的采集与接收;接收各终端设备集群的模型训练中间输出;根据所述终端设备集群,对所述中间输出进行聚类,得到关于终端设备集群的聚类集;将每一个聚类转换成特征表示,所述特征表示作为模型深层模块的输入;得到模型深层模块的输出,根据所述输出对模型训练作评估;根据评估结果更新与确定模型参数;根据终端设备集群,下发模型浅层模型参数到相应的终端设备集群;继续进行云边端协作式的模型训练。
这样,实施了包含上述部分或全部方法与步骤的产品与服务系统,能够提供面向云边端进行协作完成动态模型训练,以充分利用分布式算力的特点,同时保障数据采样与处理的实时性,降低AI应用的成本,从而使得AI具有助推更便捷云应用与大数据应用的能力,加速云应用与大数据应用的推广与普及。
另一方面,提供一种面动态扩展的模型训练装置,该装置还连接有至少一个边缘节点以及至少一个终端设备,该装置的组成包含AI中台、数据中台与IoT中台。进一步,它们包括下列这些模块:
模型分解模块:该模块用于对所训练模型作分解,所述分解根据云边端等训练任务的参考者信息,所述分解结果得到模型的深层模块与浅层模块,并为模型连接模块提供任务输入;
模型下发模块:该模块用于将AI模型深层模块与连接层模块分配到云中心或/与边缘设备,将模型浅层模块下发到对应的参与训练终端设备;
模型训练模块:该模块用于执行云中心或/与边缘的模型训练任务,即模型的深层模块与连接层模块;
模型管理模块:该模块用于完成以云/边缘为中心的模型管理,所述模型管理包括根据模型各层的中间输出结果对模型完成度作评估;
模型连接模块:该模块具体行使模型连接层的功能,即执行浅层模型中间输出到深层模型输入间的转换与对接,所述转换与对接过程还包括根据参与模型的终端集群结构与模型分解模式对浅层中间转出作聚类;
数据集管理模块:该模块用于对模型训练的所需数据集进行管理,包括划分训练集/验证集/测试集等;
数据分发模块:该模块用于将模型训练所需的数据集下发至对应的训练参考者,即云中心或/与边缘节点,以及终端设备;
设备管理模块:该模块用于对参与模型训练的各终端设备作统一管理,与状态监控,包括部分关键设备的主备情况等;
设备控制模块:该模块用于向终端设备发起模型训练相关的相关控制命令,检查命令执行状况;
边缘计算模块:该模块用于执行模型训练在边缘节点上的训练任务,本发明的假设为边缘节点与云中心的算力集中度没有明显差异,故将模型训练任务部署在云中心的执行等同于部署于边缘节点。
本发明提出的上述模块,同产品实际实施时所需要的其它单元、模块以及相关平台与相关引擎一起,共同实现一个面向云边端协作的动态扩展模型训练装置。体现在:模型训练装置发送初始化命令,所述初始化命令从AI中台发出,所述初始化命令发送给参与模型训练的边缘节点与终端设备;模型训练装置接收待训练的AI模型;模型训练装置接收初始化命令的执行结果,所述执行结果中包含可参与模型训练的边缘节点与终端设备的信息;根据所述可参与者信息,以及模型内部数据流关系,模型训练装置确定所述AI模型的分解模式与分解结果,所述分解结果进一步包含分层结构,所述分层结构包含深层模型与浅层模型;根据分层结果,模型训练装置构建连接层;模型训练装置确定参与模型训练的算力集群结构,所述集群结构中包含至少一个终端设备集群;模型训练装置下发与部署训练模型,所述训练模型的下发内容,依据所述集群结构与所述模型分层结构的匹配情况;模型训练装置发送模型训练的启动命令;模型训练装置执行对模型训练所需数据的采集与接收;模型训练装置接收各终端设备集群的模型训练中间输出;根据所述终端设备集群,模型训练装置对所述中间输出进行聚类,得到关于终端设备集群的聚类集;模型训练装置将每一个聚类转换成特征表示,所述特征表示作为模型深层模块的输入;模型训练装置得到模型深层模块的输出,根据所述输出对模型训练作评估;根据评估结果更新与确定模型参数;根据终端设备集群,模型训练装置下发模型浅层模型参数到相应的终端设备集群;模型训练装置继续进行云边端协作式的模型训练。
这样,具有上述功能装置的产品与服务系统,能够提供面向云边端协作的动态扩展模型训练方法与过程,以充分利用边云分布式算力的特点,并保障数据采样与处理的实时性,降低AI应用的成本,从而使得AI具有助推更便捷云应用与大数据应用的能力,加速云应用与大数据应用的推广与普及。
另一方面,提供了一种计算机可读存储介质,该计算机存储介质存储有程序指令,该程序指令当被处理器运行时,该处理器(分别)具有执行上述关于方法的实施过程。
另一方面,提供了一种管理的装置,包括存储组件,处理组件和通信组件,存储组件,处理组件和通信组件相互连接。其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,分别行使上述关于装置的功能。
附图说明
为了更清楚地说明本发明实施的技术方案,更清楚地阐述发明目标的达成要素、方式与过程,下面将对本发明实施中所需要使用的附图进行说明:
图1是本申请所提出发明的逻辑示意图;
图2是本申请所提出发明的系统组成图之一;
图3是本申请所提出发明的系统组成图之一;
图4是本申请所提出发明的模型分解示意图;
图5是本申请所提出发明的实现操作执行流程之一;
图6是本申请所提出发明的实现操作执行流程之一;
图7是本申请所提出发明的实现操作执行流程之一;
图8是本申请所提出发明的实现操作执行流程之一。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请书中使用的术语“服务器”、“设备”、“装置”、“单元”、“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,服务器可以是但不限于,处理器,数据处理平台,计算设备,计算机,两个或更多个计算机等;单元可以是但不限于,在处理器上运行的进程、可运行对象、可执行文件、执行线程、或其它任何可执行的计算机程序。一个或多个单元可驻留在进程和/或执行线程中,一个单元也可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的二个单元的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。所列用语包含如下:
(1) 云计算:即Cloud Computing,指那种拥有集成度优势、连接在网络环境中、以服务方式向用户提供计算、存储甚至软件能力的新型计算范式。这种新的计算范式跟旧有的计算范式的差异,体现在可感观与可用性上就是,它对用户而言并不存在可见的固定形态、甚至基本不存在无资源可用的状态,故被叫做云计算;
(2) 人工智能:即Artificial Intelligence,简称AI,指那种通过计算系统模拟人类智能的方法、技术、软硬件及系统的泛称;
(3) 机器学习:机器学习属于AI领域的一个重要分支性技术。机器学习会从样本数据中提取数据模式,以便对应用数据做出尽可能好的预测。从目前的发展结果来看,机器学习分为监督学习、无监督学习与强化学习;
(4) 任务调度:对于运行同一环境中的多个任务来说,他们间对资源的竞争不可避免。为提升资源的利用率、保障任务的顺序运行、确保任务得出有效的逻辑结果,需要按照任务对资源的竞争情况、以及任务内的数据依赖情况来安排任务内子任务的运行。这种安排叫做“任务调度”。通常,在一个分布式环境下,任务调度包含两个层面的含义:远程数据依赖相关的任务调度与本地资源竞争相关的任务切换;
(5) 模型分解:或叫做模型分割,指利用模型内部的数据关系图,以及结合具体分割结果的部署场景,将一个具有密集算力要求的大模型分解成多个对算力要求不那么密集的小模型。分解后的各小模型,在训练过程需要作参数交换。通常,这种参数交换会带来巨大的通信流量,所以前述模型分解与训练均多数实施在数据中心内部。本发明提出,将训练模型根据数据关系,划分成模型深层模块与模型浅层模块,并使用连接层来连接深层模块与浅层模块,以减少参数交换导致的通信带宽要求。
其次,对本发明的目标问题、解决目标问题的技术方法作概览。随着AI应用的深入,人们对AI所解决问题的期望也越来越高。那此在传统的集中式算力下需要更多时间的AI算法,随着分布式算力的普及,新的解决方式进入视野。本发明提出面向云边端协作的动态扩展模型训练方法,既可以充分利用算力分布式特点,又能提升数据在终端设备采样与处理的实时性,从而降低AI应用成本,助推AI应用在更大范围的推广与普及。
再次,结合各附图,对发明内容作进一步的阐述。其中:
如图1为本申请所提出发明的逻辑示意图。该图示意了实现本发明所提出动态扩展模型训练的模型分层结构。其中,101所示为深层模块;102所示为连接层模块;103~105所示为浅层模块。其中:
101-深层模块:该模块为通过目标训练模型作分解,得到适用于云中心与边缘节点的深层模块;
102-连接层模块:该模块为连接分解模型之深层与浅层模块的连接层模块,所述模块运行在云中心与边缘节点上;
103/104/105-浅层模块:该模块为通过目标训练模型作分解,得到部署与运行在各终端设备(按集群方式)上的浅层模块。
如图2为本申请所提出发明的系统组成图之一。该图示意了实现本发明所提出动态扩展模型训练在云服务器的210所示AI中台、220所示数据中台、230所示IoT中台的功能组成结构。210所示的AI中台还包括:211模型分解模块、212模型下发模块、213模型训练模块、214模型管理模块与215模型连接模块;220所示的数据中台包括:221所示的数据集管理模块、222所示的数据分发模块;230所示的IoT中台还包括:231设备管理模块、232设备控制模块与233边缘计算模块。其中:
211-模型分解模块:该模块用于对所训练模型作分解,所述分解根据云边端等训练任务的参与者信息,所述分解结果得到模型的深层模块与浅层模块,并为模型连接模块提供任务输入;
212-模型下发模块:该模块用于将AI模型深层模块与连接层模块分配到云中心或/与边缘设备,将模型浅层模块下发到对应的参与训练终端设备;
213-模型训练模块:该模块用于执行云中心或/与边缘的模型训练任务,即模型的深层模块与连接层模块;
214-模型管理模块:该模块用于完成以云/边缘为中心的模型管理,所述模型管理包括根据模型各层的中间输出结果对模型完成度作评估;
215-模型连接模块:该模块具体行使模型连接层的功能,即执行浅层模型中间输出到深层模型输入间的转换与对接,所述转换与对接过程还包括根据参与模型的终端集群结构与模型分解模式对浅层中间转出作聚类;
221-数据管理模块:该模块用于对模型训练的所需数据集进行管理,包括划分训练集/验证集/测试集等;
222-数据分发模块:该模块用于将模型训练所需的数据集下发至对应的训练参与者,即云中心或/与边缘节点,以及终端设备;
231-设备管理模块:该模块用于对参与模型训练的各终端设备作统一管理,与状态监控,包括部分关键设备的主备情况等;
232-设备控制模块:该模块用于向终端设备发起模型训练相关的相关控制命令,检查命令执行状况;
233-边缘计算模块:该模块用于执行模型训练在边缘节点上的训练任务,本发明的假设为边缘节点与云中心的算力集中度没有明显差异,故将模型训练任务部署在云中心的执行等同于部署于边缘节点。
如图3为本申请所提出发明的系统组成图之一。该图示意了实现本发明所提出动态模型训练的算力分层部署情况。301所示云中心,311/313所示边缘计算节点,312/314所示终端集群管理,321/322/323所示三个终端设备集群。需要说明的是,该图中的装置个数与装置关联仅作示意,即:图示的边缘节点个数并不构成对发明特征的限定,图示的边缘节点与终端集群的对应模式也不构成对发明特征的限定。进一步:
301-云中心:该中心提供参与模型训练深层模块执行所需要的算力,并同时提供对参与云边端模型训练的各方作统一管理与控制的功能;
311/313-边缘计算节点:该节点用于参与模型训练深层模块执行所需要的算力。本发明的假设为边缘节点与云中心的算力集中度没有明显差异,故将模型训练任务部署在云中心的执行等同于部署于边缘节点的执行;
312/314-终端集群管理:该管理功能用于提供对终端设备的状态收集、部署管理与结果监控;
321/322/323-终端设备集群:该集群为参与模型训练的浅层模块执行的、按集群作分组的终端设备集的各个子集。
如图4为本申请所提出发明的模型分解示意图。该图示意了一个假设目标训练模型的分解情况。在最少网络数据交换的要求下,基于分布算力部署及模型数据关系,可以将目标模型分解到算力不那么密集的、在不同物理装置上部署与独立训练的多个模块,在这些模块间由连接层维护原模型训练效力。401所示为假设的目标训练模型(原结构),402为对目标模型的分解与使用连接层连接的结果。进一步:
401-训练模型原结构:该示意一个训练模型的原结构,所述结构包含模块1、模块2、模块3、模块4、模块5与模块6。这些组成目标训练模型的模块以一定的结构与传递关系构成;
402-训练模型分解结构:该示意对原训练模型作分解及增加连接层后的新结构。如原模块1与模块4,它们间形成输入与输出的依赖关系。按本发明所示的分解方法分解与连接后,模块1分解成两个模块模块1-1与模块1-2;模块4分解成模块4-1与模块4-2;原模块1与原模块4间的传递与依赖关系,在针对不同装置作独立部署时,使用连接层模块1来完成输出与输入间的连接转换;同样,模块4-1与模块4-2的输出为更后续的模块的输入所依赖,故针对模块4-1与模块4-2使用另一个连接层模块来连接与转换。这里仅对分解与连接结果中的一些变化作阐述,其它模块的分解以及模块间的连接与转换关系,如图的401与402所示;作为发明实施示例,不在此赘述。
如图5为本发明提出的操作执行流程之一。该图示意了基于云中心或/与边缘节点作动态扩展模型训练的管理与控制过程。其中:
10A-初始化操作:该操作用于从云中心发出模型训练的初始化命令,所述命令用于初始化参与模型训练的装置与设备,所述设备包含参与模型训练的终端设备,所述初始化命令主要用于完成模型训练的准备,所述准备包含发送设备参与模型训练的可用算力、网络带宽等信息;
10B-接收AI模型:该操作用于接收目标AI模型,所述AI模型为待训练的模型;
10C-接收边缘设备信息:该操作用于接收响应初始化命令的边缘节点上报的信息,所述上报信息包含节点的可用算力与网络带宽等信息;
10D-接收终端设备信息:该操作用于接收响应初始化命令的终端设备上报的信息,所述上报信息包含设备参与模型训练的可用算力、网络带宽等信息;
10E-确定AI模型分解模式:该操作用于根据终端设备的的情况确定目标模型的可分解模式,所述终端设备可以形成0到多个终端设备集群,所述集群的结构作为所述模型分解模式的参照;
10F-生成分层模型的模块:该操作用于根据前述模式生成更小粒度的模型模块,所述模型模块具有分层结构;
10G-构建AI模型连接层:该操作用于根据前述所生成的分层模型模块,来构建各关联层间的连接层模块;
10H-下发与部署模型:该操作用于下发与部署分解与构建得到的模型模块,从而得到终端设备执行浅层模型模块、云中心或/与边缘节点执行深层模型模块的部署结果。
如图6为本发明提出的操作执行流程之一。该图示意了基于云中心或/与边缘节点执行所部署训练模型的相关模块、并统一控制完成目标模型训练任务的过程。其中:
20A-启动模型训练:该操作用于从云中心发出模型训练的启动命令;
20B-启动采集与接收数据:该操作用于启动相关模型模块训练所需数据的采集与接收操作;
20C-运行云/边缘集群模型训练:该操作用于执行部署于云中心或/与边缘节点的模型模块;
20D-接收模型训练的中间输出:该操作用于接收来自于部署各模型模块的执行结果,该结果作为模型训练的中间输出;
20E-评估模型的中间输出:该操作用于对所述中间输出作评估,从而确定模型训练是否完成。如果未完成,则进入后续所述操作过程;
20F-更新模型深层与连接层参数:该操作用于更新模型深层与连接层模块的参数,并使得该参数在相关模型模块生效;
20G-更新模型浅层参数:该操作用于更新模型浅层模块的参数;
20H-下发模型浅层参数:该操作用于下发模型浅层模块的参数,并使得所下发参数对相关模块生效;
20J-模型训练结束:该操作用于,如果针对中间输出的评估为模型训练完成,则下发结束模型训练的命令、并结束云中心或/与边缘节点的模型训练。
如图7为本发明提出的操作执行流程之一。该图示意了参与模型训练的终端设备作模型训练的完整过程。其中:
30A-接收初始化命令:该操作用于在终端设备侧接收从云中心发送的设备初始化命令;
30B-上报设备信息:该操作用于在完成设备初始化后,上报设备状态信息,所述设备状态信息包括可用算力与网络带宽等信息;
30C-接收训练样本数据:该操作用于接收终端设备待完成的模型训练所需的样本数据;
30D-接收训练模型:该操作用于接收部署到终端设备本地的训练模型,即具有发明特征的模型浅层模块;
30E-执行数据采集:该操作用于在终端设备上采集待完成模型训练所需的本地数据;
30F-执行模型训练:该操作用于执行部署到终端设备本地的训练模型;
30G-上报模型结果:该操作用于上报终端设备本地所进行模型训练的中间输出,所述模型训练的中间输出发送给云中心或/与边缘节点;
30H-接收模型参数更新:该操作用于接收对终端设备本地的训练模型的参数更新,所述参数更新来自于云中心或/与边缘节点;根据参数更新判断是否结束模型训练,如果不是,则继续将更新模型参数生效,继续执行模型训练过程必要的数据采集,然后进行模型训练;
30J-结束模型训练:该操作用于在判断模型训练结束的情况下,结束终端设备本地的模型训练。
如图8为本发明提出的操作执行流程之一。该图示意了云中心或/与边缘节点对于连接层功能的实现流程。所述实现流程,主要体现为在模型浅层模块的输出跟模型深层模块的输入间按终端设备集群作连接与转换。其中:
40A-连接层初始化:该操作用于完成连接层功能的初始化;
40B-构建模型分解模式:该操作用于根据参与模型训练的终端设备信息来构建模型分解的模式;
40C-生成集群训练装置部署图:该操作用于生成终端设备的集群图,所述集群图用于控制所借分解模型的下发与部署;
40D-连接层资源初始化:该操作用于对连接层资源作初始化,以准备执行深情与浅层间在输出与输入间的连接与转换功能;
40E-接收终端模型训练中间输出:该操作用于接收来自于终端设备模型训练的中间输出;
40F-对终端训练结果作聚类:该操作用于对所接收到的终端设备执行模型训练时的中间输出进行聚类;可选的,所述聚类依赖于样本数据的数据特征;
40G-特征化表示与输入转换:该操作用于将终端设备模型训练的中间输出,在聚类后作特征表示,并将此特征表示进一步转换成分解结构关系中对应模型深层模块的输入;
40H-更新模型更新:该操作用于取得模型深层模块的总输出,对模型总输出评估,根据评估值决定是结束模型训练还是更新模型并继续模型训练;
40J-参数下发与生效:该操作用于下发并生效各深层模块与浅层模块对应的模型参数;
40K-结束模型训练:该操作用于结束所有参与装置的模型训练任务。
在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于单个网络节点内,或者也可以分布到多个网络节点上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,根据具体约束与实现所需,在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在,也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台或一台以上计算机设备 (可以是个人计算机,服务器,或者网络设备等) 执行各个本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着先后执行的严格顺序,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述,然而,在实施例所要求保护的本申请过程中,本领域技术人员可理解并实现公开实施例的其他变化。
Claims (9)
1.一种动态扩展的模型训练方法,所述模型训练过程还有至少一个终端设备的参与;所述方法的特征在于,包括:
确定第一数据集,所述第一数据集为参与所述模型训练的终端设备信息;
确定第二数据集,所述第二数据集包含至少一个第二数据,所述第二数据集包含模型深层模块参数的子集与模型浅层模块参数的子集;
生成第三数据集,所述第三数据集用于在模型深层模块与模型浅层模块间作连接的连接层;
根据所述第一数据集,下发所述第二数据集的浅层参数子集;
接收第四数据集,所述第四数据集包含至少一个第四数据,所述第四数据集来自于所述终端设备;
对模型训练作评估,所述评估的输入来自于模型深层模块的输出,所述模型深层模块的输入来自于所述连接层的输出,所述连接层的输入来自于所述第四数据集;
依据所述评估结果,更新与确定所述第二数据集。
2.根据权利要求1所述方法,其特征在于,确定第二数据集,还包括:
所述第二数据集所包含的模型浅层模块参数,适用于终端设备;
所述第二数据集所包含的模型深层模块参数,适用于非终端设备。
3.根据权利要求1所述方法,其特征在于,接收第三数据集,还包括:
作为模型参数,所述第三数据集适用于非终端设备。
4.根据权利要求1所述方法,其特征在于,对模型训练作评估,还包括:
生成第五数据集,所述第五数据集为对所述第四数据集作聚类的结果集。
5.根据权利要求4所述方法,其特征在于,生成第五数据集,还包括:
所述第五数据集包含至少一个第五数据;
转换所述第五数据为特征表示。
6.根据权利要求5所述方法,其特征在于,转换所述第五数据为特征表示,还包括:
将所述特征表示作为模型深层模块的输入;
得到模型深层模块的输出;
使用所述模型深层模块输出作模型训练评估。
7.一种计算机程序,其特征在于,所述计算机程序包含执行权利要求1-6任一所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
9.一种执行计算机程序的装置,其特征在于,包括处理组件、存储组件和通信模组件,处理组件、存储组件和通信组件相互连接,其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384523.6A CN113627617A (zh) | 2020-05-08 | 2020-05-08 | 一种动态扩展的模型训练方法、装置与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384523.6A CN113627617A (zh) | 2020-05-08 | 2020-05-08 | 一种动态扩展的模型训练方法、装置与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627617A true CN113627617A (zh) | 2021-11-09 |
Family
ID=78376353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010384523.6A Pending CN113627617A (zh) | 2020-05-08 | 2020-05-08 | 一种动态扩展的模型训练方法、装置与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627617A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528975A (zh) * | 2022-01-20 | 2022-05-24 | 珠高智能科技(深圳)有限公司 | 深度学习模型训练方法、系统及介质 |
-
2020
- 2020-05-08 CN CN202010384523.6A patent/CN113627617A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528975A (zh) * | 2022-01-20 | 2022-05-24 | 珠高智能科技(深圳)有限公司 | 深度学习模型训练方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111147307A (zh) | 基于深度强化学习的服务功能链可靠部署方法 | |
CN114721833B (zh) | 一种基于平台业务类型的智能云端协调方法和装置 | |
CN102281290B (zh) | 一种PaaS云平台的仿真系统及方法 | |
Liao et al. | Cognitive balance for fog computing resource in Internet of Things: An edge learning approach | |
Huang et al. | Enabling DNN acceleration with data and model parallelization over ubiquitous end devices | |
Xu et al. | Decentralized machine learning through experience-driven method in edge networks | |
CN113133038B (zh) | 电力物联网链路备份方法、装置、设备及存储介质 | |
CN114302421A (zh) | 通信网络架构的生成方法、装置、电子设备及介质 | |
Zeng et al. | Trust-based multi-agent imitation learning for green edge computing in smart cities | |
Yu et al. | Collaborative computation offloading for multi-access edge computing | |
CN114595051B (zh) | 一种增强云计算协作数据处理的方法、系统及电子设备 | |
CN113283778A (zh) | 一种基于安全性评价的分层汇聚联邦学习方法 | |
CN116362327A (zh) | 一种模型训练方法、系统及电子设备 | |
CN113627617A (zh) | 一种动态扩展的模型训练方法、装置与系统 | |
CN113220459B (zh) | 一种任务处理方法及装置 | |
CN105391490A (zh) | 一种基于认知的卫星通信网络选择算法 | |
CN113377503A (zh) | 一种协作式ai的任务调度方法、装置与系统 | |
CN115174404A (zh) | 一种基于sdn组网的多设备联邦学习系统 | |
Li et al. | High-precision cluster federated learning for smart home: An edge-cloud collaboration approach | |
CN109086976A (zh) | 一种面向群智感知的任务分配方法 | |
CN117009070A (zh) | 算力调度知识图谱构建方法、装置、设备及可读存储介质 | |
CN112906745B (zh) | 基于边缘协同的诚信智能网络训练方法 | |
Chen et al. | Deep reinforcement learning based container cluster placement strategy in edge computing environment | |
CN113537504A (zh) | 一种基于边缘节点的迁移学习方法、装置与系统 | |
Li et al. | Online coordinated NFV resource allocation via novel machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211109 |