CN112434817B - 构建通信算法数据库的方法、装置和计算机存储介质 - Google Patents

构建通信算法数据库的方法、装置和计算机存储介质 Download PDF

Info

Publication number
CN112434817B
CN112434817B CN202110105293.XA CN202110105293A CN112434817B CN 112434817 B CN112434817 B CN 112434817B CN 202110105293 A CN202110105293 A CN 202110105293A CN 112434817 B CN112434817 B CN 112434817B
Authority
CN
China
Prior art keywords
communication algorithm
machine learning
determining
training
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110105293.XA
Other languages
English (en)
Other versions
CN112434817A (zh
Inventor
任智祥
傅海裕
周阅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202110105293.XA priority Critical patent/CN112434817B/zh
Publication of CN112434817A publication Critical patent/CN112434817A/zh
Application granted granted Critical
Publication of CN112434817B publication Critical patent/CN112434817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种构建通信算法数据库的方法、装置和计算机存储介质,该方法包括以下步骤:基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练;记录在不同的软硬件配置和通信算法配置下训练机器学习模型达到既定正确率所用的训练时间;将预设用例、不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。解决了现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。

Description

构建通信算法数据库的方法、装置和计算机存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种构建通信算法数据库的方法、装置和计算机存储介质。
背景技术
机器学习,深度学习等领域的科学研究依赖大量的数据和计算资源支撑,随着计算机技术和大数据的发展,相关研究在近几年得以迅速发展。
大规模分布式机器学习任务通常基于能够快速完成浮点运算的大规模分布式系统,以便快速完成复杂模型的训练。具体来说,机器学习的模型类型,训练使用的数据量和分布式系统节点内的加速部件间的通信算法等因素均会影响训练速度。
目前大规模分布式计算平台通常按硬件需求使用时长计费,而大规模分布式机器学习通常需要进行大量的实验,且每次实验时间较长(数天甚至数周),所以成本很高。机器学习模型越复杂,所含的参数越多,越需要大数据集,因此需要更多的计算量才能训练出精确的模型。同时,对运行环境要求越来越高、占用资源也越来越多,这也抬高了其应用门槛。由于对于具体应用,机器学习模型和数据通常是固定的,因此优化并行训练中所涉及的通信算法就显得尤为重要了。
因此,现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
发明内容
本发明主要目的在于提供一种构建通信算法数据库的方法、装置和计算机存储介质,旨在解决现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
为实现上述目的,本发明提供一种构建通信算法数据库的方法,所述构建通信算法数据库的方法包括以下步骤:
基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练;
记录在不同的软硬件配置和通信算法配置下训练所述机器学习模型达到既定正确率所用的训练时间;
将所述预设用例、所述不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。
在一实施例中,还包括:
根据预设应用场景选取预设用例。
在一实施例中,所述预设应用场景包括:图像分类、自然语言分类;所述根据预设应用场景选取预设用例包括:
当应用场景为图像分类时,选取多层残差网络作为机器学习模型,基于ImageNet数据集进行训练;
当应用场景为自然语言分类时,选取转换式双向编码表征作为机器学习模型,基于通用语言理解评测数据集进行训练。
在一实施例中,所述通信算法配置包括:
设备连接的拓朴结构、信息传递模式、单次信息传递量、信息同步频率。
在一实施例中,所述设备连接的拓朴结构包括:
参数服务器结构、环状结构、多级树状结构、蜻蜓结构;
所述信息传递模式包括:
广播模式、散射模式、重组模式、整合模式。
在一实施例中,,所述基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练,包括:
确定硬件参数和机器学习框架;
确定通信算法的拓扑结构;
确定所述通信算法的信息传递模式;
确定所述通信算法的单次信息传递量;
确定所述通信算法的信息同步频率;
根据确定的通信算法配置通过实验仿真完成机器学习模型训练;
调整通信算法配置完成所述机器学习模型训练。
在一实施例中,所述硬件参数包括:加速器性能、加速器存储容量、网络带宽、网络延迟、功耗。
本发明还提供一种对机器学习任务在分布式系统中确定通信算法配置的方法,包括:
获取权利要求上述的通信算法数据库;
根据当前机器学习任务的场景和软硬件配置,利用所述通信算法数据库确定最优通信算法配置。
为实现上述目的,本发明还提供一种构建通信算法数据库的装置,所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的构建通信算法数据库的程序,所述构建通信算法数据库的程序被所述处理器执行时实现如上所述构建通信算法数据库的方法的各个步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有构建通信算法数据库的程序,所述构建通信算法数据库的程序被处理器执行时实现如上所述构建通信算法数据库的方法的各个步骤。
本发明提供的构建通信算法数据库的方法、装置和计算机存储介质,通过实验仿真的方式基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练;然后记录在不同的软硬件配置和通信算法配置下训练机器学习模型达到既定正确率所用的训练时间;将预设用例、不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。利用本发明提供的通信算法数据库,在给定的硬件软件条件下,可以快速确定最优通信算法的配置;并且可以预估在此通信算法配置下完成机器学习模型的训练时间(达到该机器学习模型的既定正确率);为云计算提供技术支持,降低部署难度,节约时间与经济成本;从而解决了现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
附图说明
图1为本发明实施例涉及的装置结构示意图;
图2为本发明构建通信算法数据库的方法的第一实施例的流程示意图;
图3为本发明构建通信算法数据库的方法的第二实施例的流程示意图;
图4为本发明第一实施例中步骤S110的具体流程示意图;
图5为本发明对机器学习任务在分布式系统中确定通信算法配置的方法的第一实施例的流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过实验仿真的方式基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练;然后记录在不同的软硬件配置和通信算法配置下训练机器学习模型达到既定正确率所用的训练时间;将预设用例、不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。利用本发明提供的通信算法数据库,在给定的硬件软件条件下,可以快速确定最优通信算法的配置;并且可以预估在此通信算法配置下完成机器学习模型的训练时间(达到该机器学习模型的既定正确率);为云计算提供技术支持,降低部署难度,节约时间与经济成本;从而解决了现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
作为一种实现方式,可以如图1所示,图1是本发明实施例方案涉及的装置结构示意图。
处理器1100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1100可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1200,处理器1100读取存储器1200中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器1200可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的 RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器 (Synchlink DRAM,SLDRAM) 和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器1200旨在包括但不限于这些和任意其它适合类型的存储器。
对于软件实现,可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
基于上述结构,提出本发明的实施例。
参照图2,图2为本发明构建通信算法数据库的方法的第一实施例,所述构建通信算法数据库的方法包括以下步骤:
步骤S110,基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练。
在本实施例中,分布式机器学习系统,即搭建在多设备、多节点的分布式集群上,底层支持多种设备,如CPU、GPU、TPU等,并提供自适应的任务调度能力,以合理地利用计算资源。上层提供接口,提供不同编程语言的实现,以编写不同种类的机器学习算法。
大规模分布式机器学习任务通常基于能够快速完成浮点运算的大规模分布式系统,以便快速完成复杂模型的训练。具体来说,机器学习的模型类型,训练使用的数据量和分布式系统节点内的加速部件间的通信算法等因素均会影响训练速度。通信算法配置指的是分布式系统节点内的加速部件间的通信算法。分布式机器学习由多台机器完成机器学习模型的训练,在每台机器上可以有多个智能加速卡即加速部件,也可以理解为加速器。
硬件配置包括:加速器性能、加速器存储容量、网络带宽、网络延迟、功耗等等硬件配置数据。软件框架包括TensorFlow、pytorch、MindSpore等等;TensorFlow 是谷歌公司提供的一个端到端开源机器学习平台;PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序;MindSpore是由华为推出的新一代全场景AI计算框架;当然本发明的应用不限于这三种软件框架,在此不一一列举。在本申请中,预设用例主要包括关于图像分类的用例和关于自然语言分类的用例;当然关于语音识别和强化学习的用例也可以根据本申请提供的技术方案实现相关通信算法数据库的构建。
通信算法配置包括但不限于:设备连接的拓朴结构、信息传递模式、单次信息传递量、信息同步频率。单次信息传递量:每次数据传递的信息量受网络带宽和网络延迟的限制,但存在针对整体效果而言的最优值;信息同步频率:不同设备之间更新共享信息的频率,太频繁会加重通信负担,太少又会影响训练过程,与单次信息传递量相关联,需要在不同条件下找到最优值。
通过实验仿真的方式基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型的训练。
步骤S120,记录在不同的软硬件配置和通信算法配置下训练所述机器学习模型达到既定正确率所用的训练时间。
在本实施例中,机器学习模型的既定正确率根据不同的要求进行预先设置,当机器学习模型训练达到既定正确率时即可完成当前机器学习模型的训练。记录在不同的软硬件配置和通信算法配置下训练机器学习模型达到既定正确率所用的训练时间,训练时间作为衡量不同通信算法的指标。
步骤S130,将所述预设用例、所述不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。
在本实施例中,将预设用例、不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。例如,硬件配置为1,软件框架为TensorFlow,选择的预设用例为关于图像分类的用例,通过实验仿真在通信算法配置1的条件下训练时间为五天;硬件配置为1,软件框架为TensorFlow,选择的预设用例为关于图像分类的用例,通过实验仿真在通信算法配置2的条件下训练时间为七天;硬件配置为1,软件框架为TensorFlow,选择的预设用例为关于图像分类的用例,通过实验仿真在通信算法配置3的条件下训练时间为三天;硬件配置为2,软件框架为pytorch,选择的预设用例为关于自然语言分类的用例,通过实验仿真在通信算法配置4的条件下训练时间为四天;硬件配置为2,软件框架为pytorch,选择的预设用例为关于自然语言分类的用例,通过实验仿真在通信算法配置5的条件下训练时间为八天;硬件配置为2,软件框架为pytorch,选择的预设用例为关于自然语言分类的用例,通过实验仿真在通信算法配置6的条件下训练时间为六天;将所有的信息按照对应的关系构建通信算法数据库。
在本实施例提供的技术方案中,通过实验仿真的方式基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练;然后记录在不同的软硬件配置和通信算法配置下训练机器学习模型达到既定正确率所用的训练时间;将预设用例、不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。利用本发明提供的通信算法数据库,在给定的硬件软件条件下,可以快速确定最优通信算法的配置;并且可以预估在此通信算法配置下完成机器学习模型的训练时间(达到该机器学习模型的既定正确率);为云计算提供技术支持,降低部署难度,节约时间与经济成本;从而解决了现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
参照图3,图3为本发明构建通信算法数据库的方法的第二实施例,包括:
与第一实施例相比,第二实施例包含步骤S210,其他步骤与第一实施例相同,不再赘述。
步骤S210,根据预设应用场景选取预设用例。
在本实施例中,所述预设应用场景包括:图像分类、自然语言分类;所述根据预设应用场景选取预设用例包括:
步骤S211,当应用场景为图像分类时,选取多层残差网络作为机器学习模型,基于ImageNet数据集进行训练。
在本实施例中,因为业界主流的图像处理问题采用的是多层残差网络(ResNet50)作为模型,所以当应用场景为图像分类时,选取多层残差网络作为机器学习模型,基于ImageNet数据集进行训练。
步骤S212,当应用场景为自然语言分类时,选取转换式双向编码表征作为机器学习模型,基于通用语言理解评测数据集进行训练。
在本实施例中,自然语言文本分析一般利用转换式双向编码表征(BERT)作为模型,所以当应用场景为自然语言分类时,选取转换式双向编码表征作为机器学习模型,基于通用语言理解评测数据集进行训练。本发明是利用这两个用例代表这两类实际应用场景,当然用户可选择和真实应用场景类似的用例完成数据库的构建。
步骤S220,基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练。
步骤S230,记录在不同的软硬件配置和通信算法配置下训练所述机器学习模型达到既定正确率所用的训练时间。
步骤S240,将所述预设用例、所述不同的软硬件配置和通信算法配置和训练时间按照对应关系构建通信算法数据库。
在本实施例提供的技术方案中,当应用场景为图像分类时,选取多层残差网络作为机器学习模型,基于ImageNet数据集进行训练;当应用场景为自然语言分类时,选取转换式双向编码表征作为机器学习模型,基于通用语言理解评测数据集进行训练。当然用户可选择和真实应用场景类似的用例完成数据库的构建。进一步解决了现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
参照图4,图4为本发明第一实施例中步骤S110,基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练的具体步骤,具体包括:
步骤S111,确定硬件参数和机器学习框架。
在本实施例中,硬件参数即硬件配置,机器学习框架即软件配置;在此不做过多赘述。例如,确定硬件配置为1,确定机器学习框架为TensorFlow。
步骤S112,确定通信算法的拓扑结构。
在本实施例中,设备连接的拓朴结构包括:
参数服务器结构、环状结构、多级树状结构、蜻蜓结构。可通过分布式系统或者人工确定通信算法的拓扑结构;例如,确定通信算法的拓扑结构为参数服务器结构。
步骤S113,确定所述通信算法的信息传递模式。
在本实施例中,信息传递模式包括:
广播模式、散射模式、重组模式、整合模式。可通过分布式系统或者人工确定通信算法的信息传递模式;例如,确定通信算法的信息传递模式为广播模式。
步骤S114,确定所述通信算法的单次信息传递量。
在本实施例中,在网络带宽和网络延迟的限制条件下,可通过分布式系统或者人工根据当前通信算法的配置确定通信算法的单次信息传递量为n1。
步骤S115,确定所述通信算法的信息同步频率。
在本实施例中,在网络带宽和网络延迟的限制条件下,可通过分布式系统或者人工根据当前通信算法的配置确定通信算法的信息同步频率为f1
步骤S116,根据确定的通信算法配置通过实验仿真完成机器学习模型训练。
在本实施例中,分布式系统根据上述确定的通信算法配置通过实验仿真完成机器学习模型训练。例如,确定通信算法的拓扑结构为参数服务器结构;确定通信算法的信息传递模式为广播模式;确定通信算法的单次信息传递量为n1;确定通信算法的信息同步频率为f1;将此通信算法配置作为通信算法配置1,则根据通信算法配置1通过实验仿真完成机器学习模型训练。
步骤S117,调整通信算法配置完成所述机器学习模型训练。
在本实施例中,可通过分布式系统或者人工调整通信算法配置完成机器学习模型训练。例如,将通信算法的拓扑结构调整为环状结构;将通信算法的信息传递模式调整为散射模式;调整通信算法的单次信息传递量为n2;调整通信算法的信息同步频率为f2;将此通信算法配置作为通信算法配置2,则根据通信算法配置2通过实验仿真完成机器学习模型训练。参照上述调整通信算法配置的方式直至所有的通信算法配置完成机器学习模型训练。
在本实施例提供的技术方案中,是对第一实施例中步骤S110的细化步骤,包括:确定硬件参数和机器学习框架;确定通信算法的拓扑结构;确定通信算法的信息传递模式;确定通信算法的单次信息传递量;确定通信算法的信息同步频率;根据确定的通信算法配置通过实验仿真完成机器学习模型训练;
调整通信算法配置完成机器学习模型训练。
参照图5,图5为本发明一种对机器学习任务在分布式系统中确定通信算法配置的方法的第一实施例,包括:
步骤S310,获取上述的通信算法数据库。
在本实施例中,获取上述通过实验仿真的方式构成的通信算法数据库,通信算法数据库中存储预设用例、不同的软硬件配置和通信算法配置和训练时间之间的对应关系。
步骤S320,根据当前机器学习任务的场景和软硬件配置,利用所述通信算法数据库确定最优通信算法配置。
在本实施例中,根据当前机器学习任务的场景和软硬件配置确定用例,利用通信算法数据库确定最优通信算法配置。例如,当前机器学习任务的场景为图像分类,则确定用例为关于图像分类的用例,硬件配置为1,软件框架为TensorFlow;根据上述通信算法数据库中存储有:在通信算法配置1的条件下完成训练所用的时间为五天,在通信算法配置2的条件下完成训练所用的时间为七天,在通信算法配置3的条件下完成训练所用的时间为三天;则根据通信算法数据库选择通信算法配置3为最优算法配置。
在本实施例提供的技术方案中,获取上述通过实验仿真的方式构成的通信算法数据库;根据当前机器学习任务的场景和软硬件配置确定用例,利用通信算法数据库确定最优通信算法配置;而且根据该最优通信算法数据库可快速预估训练机器学习模型所需要的训练时间,进一步解决了现有的分布式机器学习中还存在如何优化并行训练中涉及到的通信算法的问题。
本发明还提供一种构建通信算法数据库的装置,所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的构建通信算法数据库的程序,所述构建通信算法数据库的程序被所述处理器执行时实现如上所述构建通信算法数据库的方法的各个步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有构建通信算法数据库的程序,所述构建通信算法数据库的程序被处理器执行时实现如上所述构建通信算法数据库的方法的各个步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种对机器学习任务在分布式系统中确定通信算法配置的方法,其特征在于,所述方法包括以下步骤:
基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练;其中,所述通信算法配置包括:设备连接的拓朴结构、信息传递模式、单次信息传递量、信息同步频率;
记录在不同的软硬件配置和通信算法配置下训练所述机器学习模型达到既定正确率所用的训练时间;
将所述预设用例、所述不同的软硬件配置和通信算法配置以及训练时间按照对应关系构建通信算法数据库;
根据当前机器学习任务的场景和软硬件配置,利用所述通信算法数据库确定最优通信算法配置。
2.如权利要求1所述的确定通信算法配置的方法,其特征在于,还包括:
根据预设应用场景选取预设用例。
3.如权利要求2所述的确定通信算法配置的方法,其特征在于,所述预设应用场景包括:图像分类、自然语言分类;所述根据预设应用场景选取预设用例包括:
当应用场景为图像分类时,选取多层残差网络作为机器学习模型,基于ImageNet数据集进行训练;
当应用场景为自然语言分类时,选取转换式双向编码表征作为机器学习模型,基于通用语言理解评测数据集进行训练。
4.如权利要求1所述的确定通信算法配置的方法,其特征在于,所述设备连接的拓朴结构包括:
参数服务器结构、环状结构、多级树状结构、蜻蜓结构;
所述信息传递模式包括:
广播模式、散射模式、重组模式、整合模式。
5.如权利要求1所述的确定通信算法配置的方法,其特征在于,所述基于不同的软硬件配置和通信算法配置对预设用例进行机器学习模型训练,包括:
确定硬件参数和机器学习框架;
确定通信算法的拓扑结构;
确定所述通信算法的信息传递模式;
确定所述通信算法的单次信息传递量;
确定所述通信算法的信息同步频率;
根据确定的通信算法配置通过实验仿真完成机器学习模型训练;
调整通信算法配置完成所述机器学习模型训练。
6.如权利要求5所述的确定通信算法配置的方法,其特征在于,所述硬件参数包括:加速器性能、加速器存储容量、网络带宽、网络延迟、功耗。
7.一种确定通信算法配置的装置,其特征在于,所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的确定通信算法配置的程序,所述确定通信算法配置的程序被所述处理器执行时实现如权利要求1-6任一项所述的确定通信算法配置的方法的各个步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有确定通信算法配置的程序,所述确定通信算法配置的程序被处理器执行时实现如权利要求1-6任一项所述的确定通信算法配置的方法的各个步骤。
CN202110105293.XA 2021-01-26 2021-01-26 构建通信算法数据库的方法、装置和计算机存储介质 Active CN112434817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110105293.XA CN112434817B (zh) 2021-01-26 2021-01-26 构建通信算法数据库的方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110105293.XA CN112434817B (zh) 2021-01-26 2021-01-26 构建通信算法数据库的方法、装置和计算机存储介质

Publications (2)

Publication Number Publication Date
CN112434817A CN112434817A (zh) 2021-03-02
CN112434817B true CN112434817B (zh) 2021-05-28

Family

ID=74697245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110105293.XA Active CN112434817B (zh) 2021-01-26 2021-01-26 构建通信算法数据库的方法、装置和计算机存储介质

Country Status (1)

Country Link
CN (1) CN112434817B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626331A (zh) * 2021-08-12 2021-11-09 曙光信息产业(北京)有限公司 通信算法的选择方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211988A (zh) * 2019-12-04 2020-05-29 哈尔滨工业大学(深圳) 面向分布式机器学习的数据传输方法及系统
CN112235344A (zh) * 2020-09-07 2021-01-15 上海大学 一种面向分布式机器学习的稀疏通信模型的实现方法
CN112257856A (zh) * 2020-12-18 2021-01-22 鹏城实验室 深度学习框架确定方法、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443204B2 (en) * 2013-02-05 2016-09-13 Cisco Technology, Inc. Distributed architecture for machine learning based computation using a decision control point

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211988A (zh) * 2019-12-04 2020-05-29 哈尔滨工业大学(深圳) 面向分布式机器学习的数据传输方法及系统
CN112235344A (zh) * 2020-09-07 2021-01-15 上海大学 一种面向分布式机器学习的稀疏通信模型的实现方法
CN112257856A (zh) * 2020-12-18 2021-01-22 鹏城实验室 深度学习框架确定方法、设备及可读存储介质

Also Published As

Publication number Publication date
CN112434817A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN111406267B (zh) 使用性能预测神经网络的神经架构搜索
US11675940B2 (en) Generating integrated circuit floorplans using neural networks
US20230252327A1 (en) Neural architecture search for convolutional neural networks
US20210150372A1 (en) Training method and system for decision tree model, storage medium, and prediction method
US20190362235A1 (en) Hybrid neural network pruning
CN111950225B (zh) 一种芯片布局方法、装置、存储介质和电子设备
JP7430744B2 (ja) 機械学習モデルを改良して局所性を改善させること
US10984319B2 (en) Neural architecture search
US11586473B2 (en) Methods and apparatus for allocating a workload to an accelerator using machine learning
CN111465944A (zh) 用于生成对象的结构化表示的图形神经网络系统
CN112799850A (zh) 模型的训练方法、模型的预测方法以及模型的控制系统
CN111708641B (zh) 一种内存管理方法、装置、设备及计算机可读存储介质
CN113535399B (zh) 一种nfv资源调度方法、装置以及系统
CN111967271A (zh) 分析结果的生成方法、装置、设备及可读存储介质
CN112434817B (zh) 构建通信算法数据库的方法、装置和计算机存储介质
CN116644804A (zh) 分布式训练系统、神经网络模型训练方法、设备和介质
CN115633317B (zh) 一种消息通道配置方法和系统
JP2016194909A (ja) 区分的線形モデル生成システム及び生成方法
CN112395272B (zh) 通信算法数据库构建方法、分布式机器装置和存储介质
CN114298329A (zh) 一种模型训练方法、装置、设备及存储介质
CN115210717A (zh) 硬件优化的神经架构搜索
WO2022021199A1 (zh) 一种神经网络模型构建方法及其设备
CN115759197A (zh) 神经网络搜索方法、装置和计算机设备
CN112819138A (zh) 一种图像神经网络结构的优化方法及装置
CN116415627A (zh) 用于自动驾驶的目标网络的训练方法、设备以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant