CN112395272B - 通信算法数据库构建方法、分布式机器装置和存储介质 - Google Patents

通信算法数据库构建方法、分布式机器装置和存储介质 Download PDF

Info

Publication number
CN112395272B
CN112395272B CN202110072482.1A CN202110072482A CN112395272B CN 112395272 B CN112395272 B CN 112395272B CN 202110072482 A CN202110072482 A CN 202110072482A CN 112395272 B CN112395272 B CN 112395272B
Authority
CN
China
Prior art keywords
communication algorithm
machine learning
distributed machine
input variable
algorithm database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110072482.1A
Other languages
English (en)
Other versions
CN112395272A (zh
Inventor
任智祥
周阅
傅海裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202110072482.1A priority Critical patent/CN112395272B/zh
Publication of CN112395272A publication Critical patent/CN112395272A/zh
Application granted granted Critical
Publication of CN112395272B publication Critical patent/CN112395272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开一种通信算法数据库构建方法、分布式机器装置和存储介质,所述方法包括:根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合;将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与训练时间具有映射关系;根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量,解决现有技术中分布式机器学习任务训练缓慢的问题,加快分布式机器学习任务的训练速度。

Description

通信算法数据库构建方法、分布式机器装置和存储介质
技术领域
本发明涉及机器学习算法领域,尤其涉及一种通信算法数据库构建方法、分布式机器装置和存储介质。
背景技术
计算机技术和大数据的快速发展,使得大规模并行计算再上一个台阶。同时,在两种背景下催生了机器学习算法研究的加速,机器学习算法被设计得越来越复杂。因此,目前大规模的机器学习算法通常基于多个硬件加速单元实现并行训练,以提高训练速度。在并行化机器学习训练过程中,不同加速卡间的通信有不同的方式,最常见的方式是汇聚法,即通过一组处理器作为一个通信单元完成通信过程。根据输入与输出的节点个数,该方法可分为单点对单点,单点对多点,多点对单点,以及多点对多点这四种方式。其中,单点对全部又可分为广播模式(broadcast,发送端对全部接收端发送相同的信息)和散射模式(scatter,发送端对各个接收端发送不同的信息),多点对单点可分为重组模式(reduce,发送端的信息经过重组再发送到各个接收端)和整合模式(gather,发送端的信息经过简单整合或叠加再发送给各个接收端)。
现有技术中存在的问题包括以下:第一:硬件加速器间的通信有带宽和延迟等限制,导致训练速度缓慢;第二:目前还没有高效的方式来预估并行化机器学习任务的训练时间,并快速选取合适的硬件通信算法。
因此,设计一种通信算法数据库构建方法以预估并行化机器学习任务的训练时间,加快训练速度是至关重要的。
发明内容
本发明主要目的在于提供一种通信算法数据库构建方法、分布式机器装置和存储介质,旨在解决现有技术中分布式机器学习任务训练缓慢的问题。
为实现上述目的,本发明提供一种通信算法数据库构建方法,所述通信算法数据库构建方法包括以下步骤:
在一实施例中,根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合;
将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;
建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,其中,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与输出变量的概率值具有映射关系;
根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量。
在一实施例中,所述相关变量包括:硬件设备拓扑结构、信息传递模式、单次信息传递量以及数据同步频率。
在一实施例中,所述硬件设备拓扑结构包括:参数服务器结构、环状结构、树状结构以及蜻蜓结构。
在一实施例中,所述信息传递模式包括:广播模式、散射模式、重组模式以及整合模式。
在一实施例中,所述根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合,包括:
根据分布式机器学习任务预选相关变量,对所述相关变量进行任意组合,得到输入变量组合;
定义所述输入变量组合中各输入变量的特征分布。
在一实施例中,所述输入变量组合中各输入变量的特征分布,包括:输入变量组合中的硬件设备拓扑结构与所述信息传递模式均服从等概率离散分布、输入变量组合中的单次数据传递量与数据同步频率服从正态分布。
在一实施例中,所述根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量,包括:
将不同通信算法的输入变量组合作为通信算法数据库的输入索引;
根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量;
对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法。
在一实施例中,所述目标输出变量包括:分布式机器学习任务的目标训练时间、分布式机器学习任务的目标训练速度。
为实现上述目的,本发明还提供一种分布式机器装置,所述分布式机器装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的通信算法数据库构建程序,所述通信算法数据库构建程序被所述处理器执行时实现如上所述的通信算法数据库构建方法的各个步骤。
为实现上述目的,本发明还提供一种存储介质,所述存储介质存储有通信算法数据库构建程序,所述通信算法数据库构建程序被处理器执行时实现如上所述的通信算法数据库构建方法的各个步骤。
本发明提供的通信算法数据库构建方法、分布式机器装置和存储介质,至少具有如下技术效果:
由于采用了根据分布式机器学习任务预选相关变量,对所述相关变量进行任意配置,得到输入变量组合,定义所述输入变量组合中各输入变量的特征分布的技术方案,通过配置多种输入变量组合,将这些输入变量组合分别输入蒙特卡洛模型中进行仿真,从而获取最优的通信算法配置的技术方案,解决了现有技术中分布式机器学习任务不同加速单元训练时间不一致的问题,通过选择输入变量组合对应的最优输出变量,有利于缩短训练时间,提高训练速度。
由于采用了将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;建立所述输入变量组合与所述输出变量的概率值的通信算法数据库;将不同通信算法的输入变量组合作为通信算法数据库的输入索引,根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量,对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法的技术方案,解决了现有技术中目前还没有高效的方式来预估并行化机器学习任务的训练时间,通过提出了通信算法数据库构建方法,基于该通信算法数据库可快速预估完成机器学习任务所需的最短训练时间、最优的通信算法配置以及快速对比不同通信算法的并行训练效率,提高分布式机器学习模型的部署的效率,并为分布式机器学习相关研究提供技术参考。
附图说明
图1为本发明实施例涉及的分布式机器装置的结构图;
图2为本发明通信算法数据库构建方法的第一实施例的流程示意图;
图3为本发明通信算法数据库构建方法的第一实施例步骤S110的一个细化流程示意图;
图4为本发明通信算法数据库构建方法的第一实施例步骤S140的一个细化流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请为解决了现有技术中分布式机器学习任务训练缓慢的问题,采用了根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合;将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,其中,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与训练时间具有映射关系;根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量的技术方案,加快训练速度。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本领域技术人员可以理解,图1所示的分布式机器装置结构并不构成对分布式机器装置的限定,分布式机器装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器1100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1100可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1200,处理器1100读取存储器1200中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器1200可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的 RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器 (Synchlink DRAM,SLDRAM) 和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器1200旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请实施例中,处理器1100可以用于调用存储在存储器1200中的通信算法数据库构建程序,并执行以下操作:
根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合;
将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;
建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,其中,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与输出变量的概率值具有映射关系;
根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量。
在本申请实施例中,处理器1100可以用于调用存储在存储器1200中的通信算法数据库构建程序,并执行以下操作:
根据分布式机器学习任务预选相关变量,对所述相关变量进行任意组合,得到输入变量组合;
定义所述输入变量组合中各输入变量的特征分布。
在本申请实施例中,处理器1100可以用于调用存储在存储器1200中的通信算法数据库构建程序,并执行以下操作:
将不同通信算法的输入变量组合作为通信算法数据库的输入索引;
根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量;
对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法。
对于软件实现,可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
基于上述结构,提出本发明的实施例。
参照图2,图2为本发明通信算法数据库构建方法的第一实施例的流程示意图,所述通信算法数据库构建方法包括以下步骤:
步骤S110,根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合。
在本实施例中,所述分布式机器学习也成为分布式学习,是指利用多个技术节点进行机器学习或者深度学习的算法和系统,例如一个由三个工作者和一个参数服务器组成的分布式机器学习系统,训练数据被分为不相交的数据分片并被发送给各个工作者,工作者将在本地执行随机梯度下降,工作者将梯度或者模型参数发送至参数服务器,参数服务器对收到的梯度或者模型参数进行加权求和,从而得到全局梯度或全局模型参数,该分布式机器学习适用于同步或者异步的分布式随机梯度下降。本申请的分布式机器学习任务可以针对不同应用场景下,确定不同应用场景下的分布式机器学习任务及相关数据,例如在NVIDIA DGX集群上,使用ResNet152模型,在ImageNet数据集上完成图像分类任务,其中ResNet152包含约61M参数,ImageNet数据集约145G。
在本实施例中,并行化机器学习训练过程中,不同加速单元可能因为网络带宽、网络延迟以及功耗等限制因素导致对训练时间、训练速度、训练功耗造成影响,因此在选取分布式机器学习任务相关变量前,需要记录对分布式机器学习任务造成影响的相关硬件参数,在满足所述限制条件下再进行蒙特卡洛仿真。
在本实施例中,不同的分布式机器学习任务可能对应不同或者相同的相关变量,因此,在确定好分布式机器学习任务后,在硬件参数限制的前提下,选取与该分布式机器学习任务相关变量,对所述相关变量进行任意配置,得到不同相关变量组合,一种分布式机器学习任务可以配置得到一种甚至多种相关变量组合方式,这些组合可作为进行蒙特卡洛仿真的输入变量组合,相关变量的配置在步骤S111至步骤S113中进行展开描述,这里不再赘述。
参照图3,图3为本发明通信算法数据库构建方法的第一实施例步骤S110的一个细化流程示意图,包括以下步骤:
步骤S111,根据分布式机器学习任务预选相关变量,对所述相关变量进行任意组合,得到输入变量组合。
在本实施例中,所述相关变量包括硬件设备拓扑结构,所述硬件设备拓扑结构包括:参数服务器结构、环状结构、树状结构以及蜻蜓结构;所述相关变量还包括信息传递模式,所述信息传递模式包括:广播模式、散射模式、重组模式以及整合模式;所述相关变量还包括:单次信息传递量以及数据同步频率;相关变量不止包括以上所述的硬件设备拓扑结构、信息传递模式、单次信息传递量以及数据同步频率,还可以是其他相关的变量,可根据具体应用场景进行确定,这里不进行详细展开。
在本实施例中,单次信息传递量是指单次信息传递多少的量度,在本申请中指在满足带宽和网络延迟下,分布式机器学习训练的中间值传递过程中,每次数据量的大小,这个数据量的大小不是固定的且具有多个数据,它的数据量大小受同一个分布式机器学习任务过程中其他的相关变量影响,根据选择的硬件设备拓扑结构与信息传递模式的不同而不同,例如,同一个图像分类任务,选择的硬件设备拓扑结构为参数服务器结构,信息传递模式是广播模式,则单次信息传递量为A;但是,假设还是同一个图像分类任务,选择的硬件设备拓扑结构为环状结构,信息传递模式为散射模式,则单次信息传递量有可能变为B。数据同步频率在本申请中指在满足带宽和网络延迟下,分布式机器学习训练过程中不同硬件加速单元间的数据频率同步即结果同步。
在本实施例中,因为不确定加快分布式机器学习任务的训练速度、缩短分布式机器学习任务的训练时间、降低分布式机器学习任务的功耗是哪一种相关变量组合,因此可以根据分布式机器学习任务预选相关变量,对所述相关变量进行任意组合,得到多组输入变量组合,例如确定的分布式机器学习任务为图像分类任务,则得到的输入变量组合为:参数服务器结构、广播模式、单次信息传递量为A、数据同步频率A或环状结构、散射模式、单次信息传递量为B、数据同步频率B等,假设有4种硬件设备拓扑结构和4种信息传递模式,则可能包括16种输入变量组合方式,将这些变量组合分别输入蒙特卡洛模型中进行仿真,根据概率值从而获取最优训练时间、最快训练速度等输出变量。
步骤S112,定义所述输入变量组合中各输入变量的特征分布。
在本实施例中,在获取多个输入变量组合后,需要确定各个输入变量组合的分布特征,此时,需要定义所述输入变量组合中各输入变量的概率值,其中,输入变量组合中的各硬件设备拓扑结构服从等概率离散分布,即Prob(参数服务器结构)= 0.25,Prob(环状结构)= 0.25,Prob(树状结构)= 0.25,Prob(蜻蜓结构)= 0.25;输入变量组合中的各信息传递模式也服从等概率离散分布,即Prob(广播模式)= 0.25,Prob(散射模式)= 0.25,Prob(重组模式)= 0.25,Prob(整合模式)= 0.25;输入变量组合中的单次数据传递量服从正态分布,即Prob(单次数据传递量)= N(Segopt,1),Segopt为满足带宽和延迟条件下的最优单次数据传递量;输入变量组合中的数据同步频率也服从正态分布,即Prob(数据同步频率)= N(Freqopt,1),Freqopt为满足带宽和延迟条件下的最优信息同步频率。
由于采用了根据分布式机器学习任务预选相关变量,对所述相关变量进行任意配置,得到输入变量组合,定义所述输入变量组合中各输入变量的特征分布的技术方案,通过配置多种输入变量组合,将这些输入变量组合分别输入蒙特卡洛模型中进行仿真,从而获取最优的通信算法配置的技术方案,解决了现有技术中分布式机器学习任务不同加速单元训练时间不一致的问题,通过选择输入变量组合对应的最优输出变量,有利于缩短训练时间,提高训练速度。
步骤S120,将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值。
在本实施例中,所述蒙特卡洛又称随机抽样或统计试验方法,其基本思想为当所要求解的问题是某种事件出现的概率,或者是某个随机变量的期望值时,它们可以通过某种“试验”的方法,得到这种事件出现的频率,或者这个随机变数的平均值,并用它们作为问题的解,本申请将输入变量组合分别输入蒙特卡洛模型中进行仿真,得到每个输入变量组合对应输出变量的概率值组成的概率分布,从该概率分布中确定一个平均值,将这个值作为所有不确定输入变量组合的预估值;所述输出变量实不确定的,它可以是分布式机器学习任务中不同通信算法的训练时间,也可以是不同分布式机器学习任务中不同通信算法的对应的训练速度或功耗等,该输出变量可以根据实际需求进行预设,例如,本申请在图像分类任务下,选择输入变量组合为参数服务器结构、广播模式、单次信息传递量为A、数据同步频率A输入蒙特卡洛模型中进行仿真,获取该组合对应训练时间的概率值,确定一个平均训练时间,将这个平均训练时间作为预估训练时间。
在本实施例中,蒙特卡洛仿真包括:构造或描述概率值过程、实现从已知概率值抽样、建立各种预测输出变量。其中,构造或描述概率过程,必须事先构造一个人为的概率过程,它的某些参量正好是所要求问题的解,将不具有随机性质的问题转化为随机性质的问题;实现从已知概率值抽样,构造概率模型以后,由于各种概率模型都可以看作是由各种各样的输入变量概率值构成的,因此产生已知概率值的输出变量,这个输出变量是随机产生的,这是蒙特卡洛被称为随机抽样的原因;建立各种估计量,构造了概率模型并能从中抽样后,即实现模拟实验后,我们就要确定一个平均输出变量,将该平均输出变量作为完成分布式机器学习任务的解。
步骤S130,建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,其中,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与输出变量的概率值具有映射关系。
在本实施例中,每个输入变量组合对应一个输出变量,建立输入变量组合与输出变量之间的函数关系,通过蒙特卡洛仿真后建立所述输入变量组合与输出变量一一映射的通信算法数据库,因为存在多个输入变量组合,因此该通信算法数据库中包括多个通信算法,每个通信算法中的输入变量组合都有一个与之对应的输出变量即每个通信算法中的输入变量组合与输出变量的概率值具有映射关系。
步骤S140,根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量。
在本实施例中,将不同通信算法的输入变量组合作为通信算法数据库的输入索引,根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量,对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法。
参照图4,图4为本发明通信算法数据库构建方法的第一实施例步骤S140的一个细化流程示意图,包括以下步骤:
步骤S141,将不同通信算法的输入变量组合作为通信算法数据库的输入索引。
在本实施例中,将不同通信算法的输入变量组合作为通信算法数据库的输入索引,所述输入索引可用于在通信算法数据库中根据输出变量的概率值进行采样获取分布式机器学习任务的输出变量。
步骤S142,根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量。
在本实施例中,根据输出变量的概率值进行采样,获取分布式机器学习任务的输出变量,蒙特卡罗方法表示采样越多,获取的分布式机器学习任务的输出变量越接近最优解,例如,假如筐里有100个苹果,每次随机拿1个,再随机拿1个跟之前的苹果相比,留下大的苹果,每拿一次,留下的苹果都至少不比上次的小,拿的次数越多,挑出的苹果就越大,表示样本容量足够大,则最接近所要求解的概率。
步骤S143,对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法。
在本实施例中,所述分布式机器学习任务的目标输出变量包括分布式机器学习任务的目标训练时间、分布式机器学习任务的目标训练速度等,根据输出变量的概率值进行采样,获取分布式机器学习任务的输出变量,因为输出变量包括多个,且可能存在大小或者优先级关系,因此,需要对输出变量进行大小排序,得到分布式机器学习任务的目标输出变量,例如不同加速单元完成图像分类任务的训练时间有10S,2S,5S等,输出的训练时间是杂乱无章的,因此,需要对这些训练时间进行排序,可以依据从大到小时间排序10S,5S,2S,也可以依据从小到大的时间排序2S,5S,10S,选取完成分布式机器学习任务的最短训练时间作为目标训练时间,将该目标训练时间对应的通信算法作为目标通信算法。
由于采用了根据分布式机器学习任务预选相关变量,对所述相关变量进行任意组合,得到输入变量组合,同时,定义所述输入变量组合中各输入变量的特征分布;将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,其中,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与输出变量的概率值具有映射关系;将不同通信算法的输入变量组合作为通信算法数据库的输入索引,根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量,对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法的技术方案,解决了现有技术中目前还没有高效的方式来预估并行化机器学习任务的训练时间,通过提出了利用蒙特卡洛仿真方式构建通信算法数据库的方法,基于该通信算法数据库可快速预估完成机器学习任务所需的最短训练时间、最优的通信算法配置以及快速对比不同通信算法的并行训练效率,提高分布式机器学习模型的部署的效率,并为分布式机器学习相关研究提供技术参考。
基于同一发明构思,本发明还提供一种分布式机器装置,所述分布式机器装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的通信算法数据库构建程序,所述通信算法数据库构建程序被所述处理器执行时实现如上所述的通信算法数据库构建方法的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
由于本申请实施例提供的分布式机器装置,为实施本申请实施例的方法所采用的分布式机器装置,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该分布式机器装置的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的分布式机器装置都属于本申请所欲保护的范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
基于同一发明构思,本申请实施例还提供了一种存储介质,所述存储介质存储有通信算法数据库构建程序,所述通信算法数据库构建程序被处理器执行时实现如上所述的通信算法数据库构建方法的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
由于本申请实施例提供的存储介质,为实施本申请实施例的方法所采用的存储介质,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该存储介质的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种通信算法数据库构建方法,其特征在于,所述方法,包括:
根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合,其中,所述相关变量包括:硬件设备拓扑结构、信息传递模式、单次信息传递量以及数据同步频率,在确定好分布式机器学习任务后,选取与该分布式机器学习任务相关变量,对所述相关变量进行任意配置,得到不同输入变量组合;
将所述输入变量组合分别输入蒙特卡洛模型中进行仿真,获取各输入变量组合对应输出变量的概率值;
建立所述输入变量组合与所述输出变量的概率值的通信算法数据库,其中,所述通信算法数据库中包括多个通信算法,且每个通信算法中的输入变量组合与输出变量的概率值具有映射关系;
根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量,其中,将输入变量组合作为通信算法数据库的输入索引,根据所述输入索引在所述通信算法数据库中查找并获取分布式机器学习任务的目标输出变量,所述目标输出变量包括:分布式机器学习任务的目标训练时间、分布式机器学习任务的目标训练速度。
2.如权利要求1所述的通信算法数据库构建方法,其特征在于,所述硬件设备拓扑结构包括:参数服务器结构、环状结构、树状结构以及蜻蜓结构。
3.如权利要求1所述的通信算法数据库构建方法,其特征在于,所述信息传递模式包括:广播模式、散射模式、重组模式以及整合模式。
4.如权利要求2或3所述的通信算法数据库构建方法,其特征在于,所述根据分布式机器学习任务选取相关变量并进行配置,得到不同输入变量组合,包括:
根据分布式机器学习任务预选相关变量,对所述相关变量进行任意配置,得到输入变量组合;
定义所述输入变量组合中各输入变量的特征分布。
5.如权利要求4所述的通信算法数据库构建方法,其特征在于,所述输入变量组合中各输入变量的特征分布,包括:输入变量组合中的硬件设备拓扑结构与所述信息传递模式均服从等概率离散分布、输入变量组合中的单次数据传递量与数据同步频率服从正态分布。
6.如权利要求1所述的通信算法数据库构建方法,其特征在于,所述根据所述通信算法数据库预估训练所述分布式机器学习任务所需的目标通信算法和目标输出变量,包括:
将不同通信算法的输入变量组合作为通信算法数据库的输入索引;
根据输出变量的概率值进行采样以获取分布式机器学习任务的输出变量;
对所述输出变量进行排序,得到分布式机器学习任务的目标输出变量以及所述目标输出变量对应的目标通信算法。
7.一种分布式机器装置,其特征在于,所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的通信算法数据库构建程序,所述通信算法数据库构建程序被所述处理器执行时实现如权利要求1-6任一项所述的通信算法数据库构建方法的各个步骤。
8.一种存储介质,其特征在于,所述存储介质存储有通信算法数据库构建程序,所述通信算法数据库构建程序被处理器执行时实现如权利要求1-6任一项所述的通信算法数据库构建方法的各个步骤。
CN202110072482.1A 2021-01-20 2021-01-20 通信算法数据库构建方法、分布式机器装置和存储介质 Active CN112395272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110072482.1A CN112395272B (zh) 2021-01-20 2021-01-20 通信算法数据库构建方法、分布式机器装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110072482.1A CN112395272B (zh) 2021-01-20 2021-01-20 通信算法数据库构建方法、分布式机器装置和存储介质

Publications (2)

Publication Number Publication Date
CN112395272A CN112395272A (zh) 2021-02-23
CN112395272B true CN112395272B (zh) 2021-07-13

Family

ID=74625547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110072482.1A Active CN112395272B (zh) 2021-01-20 2021-01-20 通信算法数据库构建方法、分布式机器装置和存储介质

Country Status (1)

Country Link
CN (1) CN112395272B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626331A (zh) * 2021-08-12 2021-11-09 曙光信息产业(北京)有限公司 通信算法的选择方法、装置、计算机设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912500B (zh) * 2016-03-30 2017-11-14 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN106779087B (zh) * 2016-11-30 2019-02-22 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
US20180322386A1 (en) * 2017-05-05 2018-11-08 Intel Corporation Fine-grain compute communication execution for deep learning frameworks
CN110766164A (zh) * 2018-07-10 2020-02-07 第四范式(北京)技术有限公司 用于执行机器学习过程的方法和系统
CN110795228B (zh) * 2018-08-03 2023-08-25 伊姆西Ip控股有限责任公司 用于训练深度学习模型的方法和制品、以及计算系统
WO2020032594A1 (ko) * 2018-08-07 2020-02-13 엘지전자 주식회사 무선 통신 시스템에서 노드의 동작 방법 및 상기 방법을 이용하는 장치
US11321634B2 (en) * 2019-05-21 2022-05-03 International Business Machines Corporation Minimizing risk using machine learning techniques
CN111340190A (zh) * 2020-02-23 2020-06-26 华为技术有限公司 构建网络结构的方法与装置、及图像生成方法与装置
CN111311104B (zh) * 2020-02-27 2023-08-25 第四范式(北京)技术有限公司 一种配置文件的推荐方法、装置及系统
CN111767146A (zh) * 2020-06-24 2020-10-13 杭州电子科技大学 一种基于网络重配置的分布式机器学习系统加速方法
CN111709533B (zh) * 2020-08-19 2021-03-30 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备

Also Published As

Publication number Publication date
CN112395272A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN111709533B (zh) 机器学习模型的分布式训练方法、装置以及计算机设备
CN110610242B (zh) 一种联邦学习中参与者权重的设置方法及装置
CN107688493B (zh) 训练深度神经网络的方法、装置及系统
US10965466B2 (en) Estimable proof-of-work for blockchain
US8543517B2 (en) Distributed decision tree training
CN108122032A (zh) 一种神经网络模型训练方法、装置、芯片和系统
KR101968449B1 (ko) 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법
CN110557420B (zh) 一种独立子链的运行方法及系统
CN110430045A (zh) 一种基于分布式共识算法的随机数生成方法
CN115828831B (zh) 基于深度强化学习的多芯粒芯片算子放置策略生成方法
CN114556381A (zh) 开发机器学习模型
CN112395272B (zh) 通信算法数据库构建方法、分布式机器装置和存储介质
CN113342525A (zh) 分布式数据处理系统及其方法
CN114626503A (zh) 模型的训练方法、目标检测方法、装置、电子设备及介质
CN110930254A (zh) 基于区块链的数据处理方法、装置、终端及介质
CN117311998B (zh) 一种大模型部署方法及系统
CN111079175B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN112434817B (zh) 构建通信算法数据库的方法、装置和计算机存储介质
CN106445960A (zh) 一种数据聚类方法和装置
CN114492849B (zh) 一种基于联邦学习的模型更新方法及装置
CN115938600A (zh) 一种基于关联分析的心理健康状态预测方法与系统
CN115392491A (zh) 基于知识蒸馏和联邦学习的模型训练方法及装置
CN114036029A (zh) 一种服务器的磁盘空间使用预测方法及装置
Šajina et al. Decentralized trustless gossip training of deep neural networks
CN112949853A (zh) 深度学习模型的训练方法、系统、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant