CN112101536A - 轻量级分布式多任务协同框架 - Google Patents

轻量级分布式多任务协同框架 Download PDF

Info

Publication number
CN112101536A
CN112101536A CN202010891060.2A CN202010891060A CN112101536A CN 112101536 A CN112101536 A CN 112101536A CN 202010891060 A CN202010891060 A CN 202010891060A CN 112101536 A CN112101536 A CN 112101536A
Authority
CN
China
Prior art keywords
task
factory
worker
training
monitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010891060.2A
Other languages
English (en)
Inventor
黄刘
杨露
崔莹
代翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN202010891060.2A priority Critical patent/CN112101536A/zh
Publication of CN112101536A publication Critical patent/CN112101536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开的一种轻量级分布式多任务协同框架,旨在提供一种训练效率高,迭代计算量小的多任务协同框架。本发明通过下述技术方案予以实现:以多机轻量级方式构建分布式神经网络训练框架,用户通过接口对框架进行数据读写和运行控制,各对象将自身的描述信息写入对象信息记录数据库,将自身的运行状态信息写入对象状态记录数据库;对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制;启动任务对象描述的训练任务,调度工厂对象生成一个班长对象,从对象信息记录数据库中再次读取任务对象的描述信息,调度工厂对象生成多个工人对象,班长对象调度生成的多个工人对象分布式协同完成任务对象描述的训练任务。

Description

轻量级分布式多任务协同框架
技术领域
本发明属于信息系统领域,具体涉及一种深度学习领域轻量级分布式多任务协同框架,尤其是分布式训练领域涉及的轻量级分布式多任务协同作业框架。
背景技术
神经网络(NeuralNetwork,NN)是由大量的、简单的处理单元(简称为神经元)经广泛互连而形成的一个复杂网络系统,反映了人脑功能的许多基本特征,是一个高度复杂化的非线性动力学系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学习等能力,特别适合处理需要同时考虑众多因素和条件的、含不精确和模糊信息的实际问题。神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、控制论、机器人学、心理学、分子生物学等诸多学科有关,是一门新兴的边缘交叉学科。神经网络经过多年的研究和发展,已经形成了几十种类型不同并各具特点的神经网络模型。但是训练这些神经网络模型在计算上有严格要求。尽管近些年来GPU硬件、网络架构和训练方法上均取得了重大的进步,但事实是在单一机器上,网络训练所需要的时间仍然长得不切实际。虽然在大数据集上训练的现代神经网络模型在许许多多领域都取得了显著的效果,从语音和图像识别到自然语言处理,再到工业界的应用,比如欺诈检测和推荐系统。但是这些神经网络的训练过程非常耗时。训练这些神经网络模型在计算上有严格要求。尽管近些年来计算芯片GPU硬件、网络架构和训练方法上均取得了重大的进步,但事实是在单一机器上,网络训练所需要的时间仍然长得不切实际。分布式神经网络训练算法的研究,对于提高神经网络训练效率具有举足轻重的作用。基于海量数据的分布式神经网络训练已成为人工智能技术研究和应用的常态。研究分布式神经网络训练算法,需要一种轻量级、可配置、支持多任务协同的分布式系统框架。
发明内容
本发明针对分布式神经网络训练需要一种轻量级、可配置、支持多任务协同的分布式系统框架这一问题和现有神经网络分布式训练技术存在的不足,提供一种训练效率高,训练速度快、迭代计算量小的轻量级分布式多任务协同框架的设计方案,以提高分布式训练神经网络的效率。
本发明的上述目的可以通过以下技术方案予以实现,一种轻量级分布式多任务协同框架,包括:一个或多个表征物理或虚拟机上守护进程的车间工厂(Factory)对象,工厂(Factory)对象实例化一个或多个表征分布式训练任务协同管理进程的班长(Monitor)对象,或表征分布式训练任务执行进程的工人(Worker)对象,表征分布式训练任务的任务(Task)对象,其特征在于:以多机轻量级方式构建分布式神经网络训练框架,用户通过RESTful接口对框架进行数据读写和运行控制,工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)监控对象将自身的描述信息写入对象信息记录数据库,工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库,同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中;工厂(Factory)对象、班长(Monitor)对象、工人(Worker)对象、任务(Task)对象、对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制;
用户通过RESTful接口启动工厂(Factory)对象、对象信息记录数据库和对象状态记录数据库,操作对象信息记录数据库,记录训练任务信息,建立任务(Task)对象用户通过RESTful接口修改任务(Task)对象的描述信息,启动任务(Task)对象描述的训练任务,调度工厂(Factory)对象生成一个班长(Monitor)对象,生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息,调度工厂(Factory)对象生成多个工人(Worker)对象,班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。
本发明相比于现有技术具有如下有益效果:
训练效率高。本发明以多机轻量级方式构建分布式神经网络训练平台,利用多个工作节点,分布式地、高效地训练出性能优良的神经网络模型,可实现多训练节点动态实时任务调度,尤其可利用异构软硬件平台完成神经网络的分布式协同训练,提高神经网络的训练效率。
训练速度快。本发明以多机轻量级方式构建分布式神经网络训练框架,用户通过RESTful接口对框架进行数据读写和运行控制,工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)对象将自身的描述信息写入对象信息记录数据库,工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库,同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中;采用RESTful接口进行信息传递和控制操作,方便与其他系统集成。能够显著提高深度学习的训练效率、进一步增大其应用范围。
迭代计算量小。本发明采用调度工厂(Factory)对象生成一个班长(Monitor)对象,生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息,调度工厂(Factory)对象生成多个工人(Worker)对象,班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。迭代计算量小。
附图说明
图1为本发明轻量级分布式多任务协同框架的原理示意图;
图2是图1的对象组织关系图;
图3是图1的对象实例关系图;
图4是图1的任务协同原理图。
具体实施方式
参见图1。在以下描述的以下实施例中,一种轻量级分布式多任务协同框架,包括:表征物理或虚拟机上守护进程的车间工厂(Factory)对象,表征分布式训练任务协同管理进程的班长(Monitor)对象,表征分布式训练任务执行进程的工人(Worker)对象、表征分布式训练任务的任务(Task)对象。以多机轻量级方式构建分布式神经网络训练框架,用户通过RESTful接口对框架进行数据读写和运行控制,工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)对象将自身的描述信息写入对象信息记录数据库,工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库,同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中;工厂(Factory)对象、班长(Monitor)对象、工人(Worker)对象、任务(Task)对象、对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制。轻量级分布式多任务协同框架运行时包括一个或多个工厂(Factory)对象,工厂(Factory)对象实例化一个或多个班长(Monitor)对象或工人(Worker)对象。用户通过RESTful接口启动工厂(Factory)对象、对象信息记录数据库和对象状态记录数据库,操作对象信息记录数据库,记录训练任务信息,建立任务(Task)对象用户通过RESTful接口修改任务(Task)对象的描述信息,启动任务(Task)对象描述的训练任务,调度工厂(Factory)对象生成一个班长(Monitor)对象。生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息,调度工厂(Factory)对象生成多个工人(Worker)对象。班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。
参阅图2。班长(Monitor)对象调度多个工人(Worker)对象协同完成任务(Task)对象定义的训练任务训练。
参见图3。工厂(Factory)对象x、工厂(Factory)对象y分别对应一台物理或虚拟计算机,工厂(Factory)对象x、工厂(Factory)对象y同时承载多个班长(Monitor)对象和工人(Worker)对象,一个班长(Monitor)对象协调控制多个工人(Worker)对象完成一个任务(Task)对象定义的训练任务。
参见图4。班长(Monitor)对象通过RESTful接口向多个工人(Worker)对象发布调度命令,工人(Worker)对象接收控制命令后完成具体的训练操作,同时将训练结果写入对象状态记录数据库。一个班长(Monitor)对象从对象状态记录数据库中读取训练结果,向工人(Worker)发表新的调度命令,如此循环,协同完成一个任务(Task)对象定义的训练任务。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (5)

1.一种轻量级分布式多任务协同框架,包括:一个或多个表征物理或虚拟机上守护进程的车间工厂(Factory)对象,工厂(Factory)对象实例化一个或多个表征分布式训练任务协同管理进程的班长(Monitor)对象,或表征分布式训练任务执行进程的工人(Worker)对象,表征分布式训练任务的任务(Task)对象,其特征在于:以多机轻量级方式构建分布式神经网络训练框架,用户通过RESTful接口对框架进行数据读写和运行控制,工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)监控对象将自身的描述信息写入对象信息记录数据库,工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库,同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中;工厂(Factory)对象、班长(Monitor)对象、工人(Worker)对象、任务(Task)对象、对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制;用户通过RESTful接口启动工厂(Factory)对象、对象信息记录数据库和对象状态记录数据库,操作对象信息记录数据库,记录训练任务信息,建立任务(Task)对象用户通过RESTful接口修改任务(Task)对象的描述信息,启动任务(Task)对象描述的训练任务,调度工厂(Factory)对象生成一个班长(Monitor)对象,生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息,调度工厂(Factory)对象生成多个工人(Worker)对象,班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。
2.如权利要求1所述的轻量级分布式多任务协同框架,其特征在于:班长(Monitor)对象调度多个工人(Worker)对象协同完成任务(Task)对象定义的训练任务训练。
3.如权利要求1所述的轻量级分布式多任务协同框架,其特征在于:工厂(Factory)对象x、工厂(Factory)对象y分别对应一台物理或虚拟计算机,工厂(Factory)对象x、工厂(Factory)对象y同时承载多个班长(Monitor)对象和工人(Worker)对象,一个班长(Monitor)对象协调控制多个工人(Worker)对象完成一个任务(Task)对象定义的训练任务。
4.如权利要求1所述的轻量级分布式多任务协同框架,其特征在于:班长(Monitor)对象通过RESTful接口向多个工人(Worker)对象发布调度命令,工人(Worker)对象接收控制命令后完成具体的训练操作,同时将训练结果写入对象状态记录数据库。
5.如权利要求1所述的轻量级分布式多任务协同框架,其特征在于:一个班长(Monitor)对象从对象状态记录数据库中读取训练结果,向工人(Worker)发表新的调度命令,如此循环,协同完成一个任务(Task)对象定义的训练任务。
CN202010891060.2A 2020-08-30 2020-08-30 轻量级分布式多任务协同框架 Pending CN112101536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010891060.2A CN112101536A (zh) 2020-08-30 2020-08-30 轻量级分布式多任务协同框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010891060.2A CN112101536A (zh) 2020-08-30 2020-08-30 轻量级分布式多任务协同框架

Publications (1)

Publication Number Publication Date
CN112101536A true CN112101536A (zh) 2020-12-18

Family

ID=73756594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010891060.2A Pending CN112101536A (zh) 2020-08-30 2020-08-30 轻量级分布式多任务协同框架

Country Status (1)

Country Link
CN (1) CN112101536A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505520A (zh) * 2021-05-17 2021-10-15 京东科技控股股份有限公司 用于支持异构联邦学习的方法、装置和系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980575A (zh) * 2017-04-01 2017-07-25 深圳天珑无线科技有限公司 一种事件处理方法及装置
CN107370796A (zh) * 2017-06-30 2017-11-21 香港红鸟科技股份有限公司 一种基于Hyper TF的智能学习系统
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统
US20190041840A1 (en) * 2016-05-09 2019-02-07 Strong Force Iot Portfolio 2016, Llc Methods and systems for detection in an industrial internet of things data collection environment with self-organizing expert system detection for complex industrial chemical processes
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统
CN110278249A (zh) * 2019-05-30 2019-09-24 天津神兔未来科技有限公司 一种分布式群体智能系统
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110688230A (zh) * 2019-10-17 2020-01-14 广州文远知行科技有限公司 一种同步训练方法、装置、计算机设备和存储介质
CN111274018A (zh) * 2020-01-21 2020-06-12 行星算力(深圳)科技有限公司 一种基于dl框架下的分布式训练方法
CN111274036A (zh) * 2020-01-21 2020-06-12 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111367630A (zh) * 2019-07-12 2020-07-03 北京关键科技股份有限公司 一种基于云计算的多用户多优先级的分布式协同处理方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190041840A1 (en) * 2016-05-09 2019-02-07 Strong Force Iot Portfolio 2016, Llc Methods and systems for detection in an industrial internet of things data collection environment with self-organizing expert system detection for complex industrial chemical processes
CN106980575A (zh) * 2017-04-01 2017-07-25 深圳天珑无线科技有限公司 一种事件处理方法及装置
CN107370796A (zh) * 2017-06-30 2017-11-21 香港红鸟科技股份有限公司 一种基于Hyper TF的智能学习系统
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统
CN110278249A (zh) * 2019-05-30 2019-09-24 天津神兔未来科技有限公司 一种分布式群体智能系统
CN111367630A (zh) * 2019-07-12 2020-07-03 北京关键科技股份有限公司 一种基于云计算的多用户多优先级的分布式协同处理方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110688230A (zh) * 2019-10-17 2020-01-14 广州文远知行科技有限公司 一种同步训练方法、装置、计算机设备和存储介质
CN111274018A (zh) * 2020-01-21 2020-06-12 行星算力(深圳)科技有限公司 一种基于dl框架下的分布式训练方法
CN111274036A (zh) * 2020-01-21 2020-06-12 南京大学 一种基于速度预测的深度学习任务的调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于志鹏: "基于对抗神经网络的人脸图片属性识别与生成", 《中国优秀硕士论文全文数据库 信息科技辑》 *
刘斌 等: "基于分布式神经网络的苹果价格预测方法", 《计算机应用》 *
华满: "基于Spark的电信用户画像的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505520A (zh) * 2021-05-17 2021-10-15 京东科技控股股份有限公司 用于支持异构联邦学习的方法、装置和系统

Similar Documents

Publication Publication Date Title
Zhang Intelligent Internet of things service based on artificial intelligence technology
Grodek-Szostak et al. The impact of industry 4.0 on the labor market
CN105936047A (zh) 仿脑机器人控制与学习系统
CN112101536A (zh) 轻量级分布式多任务协同框架
Prasad et al. Exploring organizational designs with T MS: A case study of distributed data processing
Wang et al. Artificial psychology: an attainable scientific research on the human brain
Resta An agent-based simulator driven by variants of self-organizing maps
Zhang The Cultivation of Cross-Cultural Communicative Competence in English Teaching under the Background of Artificial Intelligence and Big Data
Li et al. Linking social media with open innovation: an intelligent model
CN114741954A (zh) 一种基于智能及虚拟技术实现的数智孪生系统
Gao et al. The creative route of university ideological and political teaching on the essential of embedded sensor network
Bakumenko et al. About the need to develop an intelligent information system to evaluate investment project environmental effectiveness
Xu et al. The Job Crafting of Employees in the Context of Artificial Intelligence
Dolvin et al. Web Saturation with Libraries of Machin Learning Modules
Hossain et al. Solving assembly line balancing type ii problem using progressive modeling
Peppard et al. Corporate Knowledge‐Based Systems: A Framework for Management
Cong Research on Financial Information Model Construction under the Background of Big Data
Liao Design of Cultural and Creative Products for Applied Undergraduate Colleges based on Multi-Dimensional Computer Image Synthesis Algorithm
CN111047293B (zh) 图形数据资源管理的方法及其系统
Li et al. Design and Implementation of Automatic Generation Algorithm for Advertising Artistic Design Based on Neural Networks
Sithole et al. Artificial Intelligence in Literacy Libraries A Review of the Literature
Yue et al. AI Large Model and 6G Network
Qiu et al. Intelligent Course Design of Automatic Warehouse Based on Association Simulation
Jovanovic et al. DIGITAL ENTREPRENEURSHIP IN MODERN BUSINESS SYSTEMS
CN114358534A (zh) 一种基于特征的众包标注结果汇聚方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201218

WD01 Invention patent application deemed withdrawn after publication