CN112101536A

CN112101536A - 轻量级分布式多任务协同框架

Info

Publication number: CN112101536A
Application number: CN202010891060.2A
Authority: CN
Inventors: 黄刘; 杨露; 崔莹; 代翔
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: CETC 10 Research Institute; Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-08-30
Filing date: 2020-08-30
Publication date: 2020-12-18

Abstract

本发明公开的一种轻量级分布式多任务协同框架，旨在提供一种训练效率高，迭代计算量小的多任务协同框架。本发明通过下述技术方案予以实现：以多机轻量级方式构建分布式神经网络训练框架，用户通过接口对框架进行数据读写和运行控制，各对象将自身的描述信息写入对象信息记录数据库，将自身的运行状态信息写入对象状态记录数据库；对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制；启动任务对象描述的训练任务，调度工厂对象生成一个班长对象，从对象信息记录数据库中再次读取任务对象的描述信息，调度工厂对象生成多个工人对象，班长对象调度生成的多个工人对象分布式协同完成任务对象描述的训练任务。

Description

轻量级分布式多任务协同框架

技术领域

本发明属于信息系统领域，具体涉及一种深度学习领域轻量级分布式多任务协同框架，尤其是分布式训练领域涉及的轻量级分布式多任务协同作业框架。

背景技术

神经网络(NeuralNetwork，NN)是由大量的、简单的处理单元(简称为神经元)经广泛互连而形成的一个复杂网络系统，反映了人脑功能的许多基本特征，是一个高度复杂化的非线性动力学系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学习等能力，特别适合处理需要同时考虑众多因素和条件的、含不精确和模糊信息的实际问题。神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、控制论、机器人学、心理学、分子生物学等诸多学科有关，是一门新兴的边缘交叉学科。神经网络经过多年的研究和发展，已经形成了几十种类型不同并各具特点的神经网络模型。但是训练这些神经网络模型在计算上有严格要求。尽管近些年来GPU硬件、网络架构和训练方法上均取得了重大的进步，但事实是在单一机器上，网络训练所需要的时间仍然长得不切实际。虽然在大数据集上训练的现代神经网络模型在许许多多领域都取得了显著的效果，从语音和图像识别到自然语言处理，再到工业界的应用，比如欺诈检测和推荐系统。但是这些神经网络的训练过程非常耗时。训练这些神经网络模型在计算上有严格要求。尽管近些年来计算芯片GPU硬件、网络架构和训练方法上均取得了重大的进步，但事实是在单一机器上，网络训练所需要的时间仍然长得不切实际。分布式神经网络训练算法的研究，对于提高神经网络训练效率具有举足轻重的作用。基于海量数据的分布式神经网络训练已成为人工智能技术研究和应用的常态。研究分布式神经网络训练算法，需要一种轻量级、可配置、支持多任务协同的分布式系统框架。

发明内容

本发明针对分布式神经网络训练需要一种轻量级、可配置、支持多任务协同的分布式系统框架这一问题和现有神经网络分布式训练技术存在的不足，提供一种训练效率高，训练速度快、迭代计算量小的轻量级分布式多任务协同框架的设计方案，以提高分布式训练神经网络的效率。

本发明的上述目的可以通过以下技术方案予以实现，一种轻量级分布式多任务协同框架，包括：一个或多个表征物理或虚拟机上守护进程的车间工厂(Factory)对象，工厂(Factory)对象实例化一个或多个表征分布式训练任务协同管理进程的班长(Monitor)对象，或表征分布式训练任务执行进程的工人(Worker)对象，表征分布式训练任务的任务(Task)对象，其特征在于：以多机轻量级方式构建分布式神经网络训练框架，用户通过RESTful接口对框架进行数据读写和运行控制，工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)监控对象将自身的描述信息写入对象信息记录数据库，工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库，同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中；工厂(Factory)对象、班长(Monitor)对象、工人(Worker)对象、任务(Task)对象、对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制；

用户通过RESTful接口启动工厂(Factory)对象、对象信息记录数据库和对象状态记录数据库，操作对象信息记录数据库，记录训练任务信息，建立任务(Task)对象用户通过RESTful接口修改任务(Task)对象的描述信息，启动任务(Task)对象描述的训练任务，调度工厂(Factory)对象生成一个班长(Monitor)对象，生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息，调度工厂(Factory)对象生成多个工人(Worker)对象，班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。

本发明相比于现有技术具有如下有益效果：

训练效率高。本发明以多机轻量级方式构建分布式神经网络训练平台，利用多个工作节点，分布式地、高效地训练出性能优良的神经网络模型，可实现多训练节点动态实时任务调度，尤其可利用异构软硬件平台完成神经网络的分布式协同训练，提高神经网络的训练效率。

训练速度快。本发明以多机轻量级方式构建分布式神经网络训练框架，用户通过RESTful接口对框架进行数据读写和运行控制，工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)对象将自身的描述信息写入对象信息记录数据库，工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库，同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中；采用RESTful接口进行信息传递和控制操作，方便与其他系统集成。能够显著提高深度学习的训练效率、进一步增大其应用范围。

迭代计算量小。本发明采用调度工厂(Factory)对象生成一个班长(Monitor)对象，生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息，调度工厂(Factory)对象生成多个工人(Worker)对象，班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。迭代计算量小。

附图说明

图1为本发明轻量级分布式多任务协同框架的原理示意图；

图2是图1的对象组织关系图；

图3是图1的对象实例关系图；

图4是图1的任务协同原理图。

具体实施方式

参见图1。在以下描述的以下实施例中，一种轻量级分布式多任务协同框架，包括：表征物理或虚拟机上守护进程的车间工厂(Factory)对象，表征分布式训练任务协同管理进程的班长(Monitor)对象，表征分布式训练任务执行进程的工人(Worker)对象、表征分布式训练任务的任务(Task)对象。以多机轻量级方式构建分布式神经网络训练框架，用户通过RESTful接口对框架进行数据读写和运行控制，工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)对象将自身的描述信息写入对象信息记录数据库，工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库，同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中；工厂(Factory)对象、班长(Monitor)对象、工人(Worker)对象、任务(Task)对象、对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制。轻量级分布式多任务协同框架运行时包括一个或多个工厂(Factory)对象，工厂(Factory)对象实例化一个或多个班长(Monitor)对象或工人(Worker)对象。用户通过RESTful接口启动工厂(Factory)对象、对象信息记录数据库和对象状态记录数据库，操作对象信息记录数据库，记录训练任务信息，建立任务(Task)对象用户通过RESTful接口修改任务(Task)对象的描述信息，启动任务(Task)对象描述的训练任务，调度工厂(Factory)对象生成一个班长(Monitor)对象。生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息，调度工厂(Factory)对象生成多个工人(Worker)对象。班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。

参阅图2。班长(Monitor)对象调度多个工人(Worker)对象协同完成任务(Task)对象定义的训练任务训练。

参见图3。工厂(Factory)对象x、工厂(Factory)对象y分别对应一台物理或虚拟计算机，工厂(Factory)对象x、工厂(Factory)对象y同时承载多个班长(Monitor)对象和工人(Worker)对象，一个班长(Monitor)对象协调控制多个工人(Worker)对象完成一个任务(Task)对象定义的训练任务。

参见图4。班长(Monitor)对象通过RESTful接口向多个工人(Worker)对象发布调度命令，工人(Worker)对象接收控制命令后完成具体的训练操作，同时将训练结果写入对象状态记录数据库。一个班长(Monitor)对象从对象状态记录数据库中读取训练结果，向工人(Worker)发表新的调度命令，如此循环，协同完成一个任务(Task)对象定义的训练任务。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种轻量级分布式多任务协同框架，包括：一个或多个表征物理或虚拟机上守护进程的车间工厂(Factory)对象，工厂(Factory)对象实例化一个或多个表征分布式训练任务协同管理进程的班长(Monitor)对象，或表征分布式训练任务执行进程的工人(Worker)对象，表征分布式训练任务的任务(Task)对象，其特征在于：以多机轻量级方式构建分布式神经网络训练框架，用户通过RESTful接口对框架进行数据读写和运行控制，工厂(Factory)对象、任务(Task)对象、工人(Worker)对象和班长(Monitor)监控对象将自身的描述信息写入对象信息记录数据库，工厂(Factory)对象、班长(Monitor)对象和工人(Worker)对象将自身的运行状态信息写入对象状态记录数据库，同时工人(Worker)对象将自身对象状态信息实时记录到对象状态记录数据库中；工厂(Factory)对象、班长(Monitor)对象、工人(Worker)对象、任务(Task)对象、对象信息记录数据库、对象状态记录数据库相互之间通过RESTful接口进行通信和协同控制；用户通过RESTful接口启动工厂(Factory)对象、对象信息记录数据库和对象状态记录数据库，操作对象信息记录数据库，记录训练任务信息，建立任务(Task)对象用户通过RESTful接口修改任务(Task)对象的描述信息，启动任务(Task)对象描述的训练任务，调度工厂(Factory)对象生成一个班长(Monitor)对象，生成的班长(Monitor)对象从对象信息记录数据库中再次读取任务(Task)对象的描述信息，调度工厂(Factory)对象生成多个工人(Worker)对象，班长(Monitor)对象调度生成的多个工人(Worker)对象分布式协同完成任务(Task)对象描述的训练任务。

2.如权利要求1所述的轻量级分布式多任务协同框架，其特征在于：班长(Monitor)对象调度多个工人(Worker)对象协同完成任务(Task)对象定义的训练任务训练。

3.如权利要求1所述的轻量级分布式多任务协同框架，其特征在于：工厂(Factory)对象x、工厂(Factory)对象y分别对应一台物理或虚拟计算机，工厂(Factory)对象x、工厂(Factory)对象y同时承载多个班长(Monitor)对象和工人(Worker)对象，一个班长(Monitor)对象协调控制多个工人(Worker)对象完成一个任务(Task)对象定义的训练任务。

4.如权利要求1所述的轻量级分布式多任务协同框架，其特征在于：班长(Monitor)对象通过RESTful接口向多个工人(Worker)对象发布调度命令，工人(Worker)对象接收控制命令后完成具体的训练操作，同时将训练结果写入对象状态记录数据库。

5.如权利要求1所述的轻量级分布式多任务协同框架，其特征在于：一个班长(Monitor)对象从对象状态记录数据库中读取训练结果，向工人(Worker)发表新的调度命令，如此循环，协同完成一个任务(Task)对象定义的训练任务。