CN113590321A - 面向异构分布式机器学习集群的任务配置方法 - Google Patents

面向异构分布式机器学习集群的任务配置方法 Download PDF

Info

Publication number
CN113590321A
CN113590321A CN202110870249.8A CN202110870249A CN113590321A CN 113590321 A CN113590321 A CN 113590321A CN 202110870249 A CN202110870249 A CN 202110870249A CN 113590321 A CN113590321 A CN 113590321A
Authority
CN
China
Prior art keywords
node
machine learning
training
distributed machine
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110870249.8A
Other languages
English (en)
Other versions
CN113590321B (zh
Inventor
姬文浩
顾华玺
李竟蔚
余晓杉
任泽昂
李硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110870249.8A priority Critical patent/CN113590321B/zh
Publication of CN113590321A publication Critical patent/CN113590321A/zh
Application granted granted Critical
Publication of CN113590321B publication Critical patent/CN113590321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种面向异构分布式机器学习集群的任务配置方法,其步骤如下:构建异构分布式机器学习集群;生成训练集和预测集;对卷积神经网络进行预训练;生成参数服务器的随机森林训练样本子集;构建随机森林模型;生成每个节点的推断训练时间;为每个节点配置任务;更新预训练好的卷积神经网络;训练卷积神经网络;将每个节点对应的卷积神经网络的训练次数达到最大次数时,再针对分布式机器学习集群中存在的节点资源特征参数变化重新配置节点任务。本发明提高了参数服务器为异构分布式机器学习集群中每个节点配置的任务与节点自身资源匹配度,并可根据每个节点资源变化,动态的为每个节点重新配置任务。

Description

面向异构分布式机器学习集群的任务配置方法
技术领域
本发明属于物理技术领域,更进一步涉及分布式机器学习领域中的一种面向异构分布式机器学习集群的任务配置方法。本发明可用于大规模异构分布式机器学习集群中通过合理的任务配置,充分利用集群节点计算资源。
背景技术
随着大数据时代的到来,用于训练机器学习模型的数据集呈现爆炸增长的趋势。训练速度快,动态灵活的分布式机器学习集群成为了大规模机器学习发展的必然趋势。分布式机器学习通过参数服务器把模型训练的任务放置到众多具有计算性能的集群节点上,缩短整个模型训练的时间。然而,大多数现有的节点资源不一致,是一种异构分布式机器学习集群,如果采用的固定任务配置,使其任务配置粒度过大,导致异构分布式机器学习集群节点资源利用效率低。为了解决现有问题,根据节点资源进行任务配置的方法应运而生。与传统的配置方法相比,该方法实现了对节点差异化配置任务,有效的地提高了异构分布式机器学习集群节点资源的利用率,具有广阔的应用前景。为了进一步提高异构分布式机器学习集群的训练效率,灵活的为每个节点配置任务,实现节点资源利用的最大化。面向异构分布式机器学习集群的任务放置方法就是用于解决这一问题的优化方法。
北京工业大学在其申请的专利文献“一种面向分布式机器学习的数据划分方法”(专利申请号CN202110035224.6,申请公布号CN 112732444 A)中提出了一种基于强化学习的分布式机器学习任务分配方法。该方法主要包括六个步骤。第一,初始化经验回放内存,网络和环境状态表。第二,神经网络训练,同时把各个时间的状态写入经验内存。第三,状态选取,采用轮循的方式从整个经验回放内存里抽取各个状态,若抽取状态优于当前状态,放入状态表中。第四,批尺寸管理器根据环境状态信息计算出每个工作节点应配置的批尺寸大小,第四,每个工作节点从批尺寸管理器拉取相应批尺寸大小的数据进行本地训练,将各自的梯度参数发送给参数服务器。第六,参数服务器进行梯度聚合后各个工作节点拉取相应的参数进行下一次迭代计算。通过更新状态表,为各个计算节点动态的分配任务,该方法存在的不足之处是,更新节点配置任务需要维护一个庞大的经验内存,内存的大小会限制异构分布式机器学习集群的规模。此外,因为状态表更新具有延时特性,任务分配与节点实时计算资源匹配度差,导致节点计算资源利用效率低。
Ferdinand在其发表的论文“Anytime Exploitation of Stragglers inSynchronous St-ochastic Gradient Descent”(Machine Learnin and Applications,2017.12.10.1109)提出了一种基于节点工作完成度的任务分配的方法,该方法的主要包含以下步骤,在每次迭代结束后,工作节点将更新的参数矢量发送到参数服务器进行聚合,同时参数服务器根据各个工作节点完成的任务量来更新任务分配权重,确保下次迭代过程中各个节点计算资源得到充分利用。该方法的的优点是充分考虑每个计算节点的计算资源差异,一定程度上解决节点的任务数和节点性能匹配性的问题,提高模型的训练速度。该方法存在的不足之处是,由于每次迭代过程中都需要统计各个工作节点完成任务量,增加分布式机器学习集群模型训练的时间。此外,该方法在任务配置的过程中未考虑突发因素的影响,导致计算节点配置任务与节点计算能力匹配度很大程度取决于集群的稳定程度,造成部分异构分布式机器学习集群中的节点空闲。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基面向异构分布式机器学习集群的任务配置方法,用于解决异构分布式机器学习集群节点资源利用率低和参数服务器为异构分布式机器学习集群中每个节点配置任务时间开销大的问题。。
实现本发明目的的思路是:本发明将每个节点资源的特征参数输入到构建的随机森林模型中,输出每个节点推断训练时间,计算为异构分布式机器学习集群中每个节点配置任务数,对资源越多的节点配置越多的任务,使每个节点训练卷积神经网络所需时间一致,防止训练较快的节点等待训练较慢的节点,可解决异构分布式机器学习集群节点资源利用率低的问题。本发明通过用发生变化节点资源的特征参数替代其变化前节点资源的特征参数,动态的为每个节点配置任务,与传统方法相比,无需统计每个节点训练完成的任务数,解决参数服务器为异构分布式机器学习集群中每个节点配置任务时间开销大的问题。
本发明的具体步骤如下:
步骤1,构建异构分布式机器学习集群:
将一个参数服务器和至少4个节点组成一个异构分布式机器学习集群;
步骤2,生成训练集和预测集:
(2a)参数服务器选取至少10000个图像组成的图像集,每个图像至少包含一个目标;
(2b)对每张图像中的每个目标进行标注,并为每个标注后的图像生成一个标签文件,将所有的标签文件组成标签集;
(2c)将图像集和标签集组成训练集;
(2d)从训练集中随机抽取至多1000个样本组成预测集;参数服务器将预测集下发至异构分布式机器学习集群中的每个节点;
步骤3,对卷积神经网络进行预训练:
(3a)异构分布式机器学习集群中的每个节点将其接收到的预测集输入到卷积神经网络中,利用随机梯度下降法迭代更新网络参数,直到损失函数收敛为止,得到每个节点对应预训练好的卷积神经网络并记录预训练时间;
(3b)将每个节点资源的特征参数、网络参数和预训练时间上传至参数服务器;
步骤4,生成参数服务器的随机森林训练样本子集:
使用Bagging随机采样法,参数服务器对由所有节点的特征参数组成的特征参数集进行至少5次随机采样,将每次采样后部分节点的部分特征参数和节点的预训练时间组成该次采样的随机森林训练样本子集;
步骤5,构建随机森林模型:
参数服务器构建与每个随机森林训练样本子集对应的决策树,将所有的决策树组成随机森林模型;
步骤6,生成每个节点的推断训练时间:
将每个节点资源的特征参数发送给参数服务器,参数服务器将每个节点资源的特征参数依次输入到随机森林模型中,输出每个节点的推断训练时间;
步骤7,为每个节点配置任务:
(7a)按照下式,计算参数服务器为异构分布式机器学习集群中每个节点拟配置的任务数:
Figure BDA0003188854350000031
其中,Rα表示参数服务器为异构分布式机器学习集群中第α个节点拟配置的任务数,Hα表示第α个节点的推断训练时间,∑表示求和操作,i表示异构分布式机器学习集群中节点的序号,Hi表示第i个节点的推断训练时间,*表示相乘操作,M表示训练集中所有样本数据的大小,v表示训练卷积神经网络的最大次数,该最大次数的取值为训练集中所有样本数据的大小与异构分布式机器学习集群中所有节点中内存最小值的比值。
(7b)按照参数服务器为异构分布式机器学习集群中每个节点拟配置的任务数,给每个节点配置对应的任务;
步骤8,更新预训练好的卷积神经网络:
参数服务器对异构分布式机器学习集群中所有节点网络参数求均值,并将该均值作为全局网络参数,用该全局网络参数更新每个节点预训练好的卷积神经网络中的网络参数,得到每个节点更新后的卷积神经网络;
步骤9,训练卷积神经网络:
将每个节点配置任务输入到其对应的更新后的卷积神经网络中,卷积神经网络利用随机梯度下降法迭代更新网络参数,直到损失函数收敛为止,得到该节点训练好的卷积神经网络,并将该网络参数上传至参数服务器;
步骤10,判断每个节点对应的卷积神经网络的训练次数是否达到最大次数,若是,则执行步骤12;否则,执行步骤11;
步骤11,判断分布式机器学习集群中是否有节点资源特征参数发生变化,若是,则用发生变化节点资源的特征参数替代其变化前节点资源的特征参数后执行步骤6,否则,执行步骤7;
步骤12,结束训练。
本发明与现有技术相比较,具有以下优点:
第一,本发明将每个节点资源的特征参数输入到构建的随机森林模型中,输出每个节点推断训练时间,计算每个节点应配置的任务数,克服了现有技术中未考虑威胁在异构分布式机器学习机器的不同节点间资源差异性的缺点,使得本发明更适用于实际的训练情况,提高了参数服务器为异构分布式机器学习集群中每个节点配置的任务与节点资源匹配度。
第二,本发明通过用发生变化节点资源的特征参数替代其变化前节点资源的特征参数,动态的为每个节点配置任务,克服了现有技术中参数服务器为异构分布式机器学习集群中每个节点配置任务时,需要统计每个节点训练完成的任务数,导致时间开销大的问题,使得本发明能够能够更快根据每个节点资源变化,动态的为每个节点配置任务。
第三,本发明构建的随机森林模型不用删选特征值,对数据集适应性强,且输出的节点推断训练时间是真实训练时间的无偏估计,模型精度高。克服了现有技术中未考虑统计数据的偶然性的缺点,使得本发明能够更加精确为异构分布式机器学习集群中为每个节点配置任务。
附图说明
图1为本发明的流程图;
图2是本发明异构分布式机器学习集群的架构图。
具体实施方式
下面结合附图1对本发明做进一步的描述。
参照图1对本发明实现的具体步骤做进一步的描述。
步骤1,构建异构分布式机器学习集群。
将一个参数服务器和至少4个节点组成一个异构分布式机器学习集群。
参照图2,对本发明实施例构建的由一个参数服务器和8个节点组成的异构分布式机器学习集群做进一步的描述。
步骤2,生成训练集和预测集。
参数服务器选取至少10000个图像组成的图像集,每个图像至少包含一个目标。
本发明的实施例中的图像来源于开源的cifar10数据集,共选取了20000个图像。每张图像包含一个飞机图像。
对每张图像中的每个飞机图像进行标注,并为每个标注后的图像生成一个标签文件,将所有的标签文件组成标签集。
将图像集和标签集组成训练集。
从训练集中随机抽取至多1000个样本组成预测集;参数服务器将预测集下发至异构分布式机器学习集群中的每个节点。
本发明的实施例中预测集是从20000个图像中随机抽取了500样本组成的。
步骤3,对卷积神经网络进行预训练。
异构分布式机器学习集群中的每个节点将其接收到的预测集输入到卷积神经网络中,利用随机梯度下降法迭代更新网络参数,直到损失函数收敛为止,得到每个节点对应预训练好的卷积神经网络并记录预训练时间。
所述卷积神经网络的结构依次为:第一个卷积层,第一个池化层,第二个卷积层,第二个池化层,第三个卷积层,第三个池化层,第四个卷积层,第四个池化层,第一个全连接层。
设置卷积神经网络结构各层参数如下:将第一至第四卷积层中卷积核的个数分别设置为16,16,8,8,卷积核的大小分别设置3×3,5×5,3×3,5×5,卷积步长均设置为1;第一至第四池化层均采用平均池化的方式,池化区域大小分别设置为1×4,1×4,1×1,1×1,步长均设置为1;将第一全连接层的神经元个数设置为2;
所述损失函数如下:
Figure BDA0003188854350000061
其中,MSE表示损失函数值,yi表示预测集中第i个样本的预测值,yi'表示预测集中第i个样本的真实值。
将每个节点资源的特征参数、网络参数和预训练时间上传至参数服务器。
所述节点资源的特征参数包括,可使用CPU核心的个数,可使用GPU SM的个数,CPU缓存的容量,内存的容量,PCIe数据通路的总线带宽。
步骤4,生成参数服务器的随机森林训练样本子集。
使用Bagging随机采样法,参数服务器对由所有节点的特征参数组成的特征参数集进行至少5次随机采样,将每次采样后部分节点的部分特征参数和节点的预训练时间组成该次采样的随机森林训练样本子集。
步骤5,构建随机森林模型。
参数服务器构建与每个随机森林训练样本子集对应的决策树,将所有的决策树组成随机森林模型。
本发明的实施例中构建每个随机森林训练样本子集对应的决策树采用的算法为C4.5算法。
本发明的实施例中将所有的决策树组成随机森林模型的方法为:将所有决策树的输入取并集,将该并集作为随机森林模型的输入,将所有决策树的输出取均值,将该均值作为随机森林模型的输出。
步骤6,生成每个节点的推断训练时间。
将每个节点资源的特征参数发送给参数服务器,参数服务器将8个节点资源的特征参数依次输入到随机森林模型中,输出8个节点的推断训练时间。
步骤7,为每个节点配置任务。
按照下式,计算参数服务器为异构分布式机器学习集群中每个节点拟配置的任务数:
Figure BDA0003188854350000071
其中,Rα表示参数服务器为异构分布式机器学习集群中第α个节点拟配置的任务数,Hα表示第α个节点的推断训练时间,∑表示求和操作,i表示异构分布式机器学习集群中节点的序号,Hi表示第i个节点的推断训练时间,*表示相乘操作,M表示训练集中所有图像数据的大小,v表示训练卷积神经网络的最大次数,该最大次数的取值为训练集中所有样本数据的大小与异构分布式机器学习集群中每个节点中内存最小值的比值。
本发明的实施例中将训练卷积神经网络的最大次数设置为25,其理由是由于本发明的实施例中训练集中的20000个飞机图像数据大小之和为40G,8个节点中最小内存为2G。为了保证即使将所有训练任务配置在该节点上也不会造成内存溢出,将每次训练的所有飞机图像数据的大小之和设置为2G,训练完所有飞机图像需要25次,所以将本发明训练卷积神经网络的最大次数设置为25次。
按照参数服务器为异构分布式机器学习集群中每个节点拟配置的任务数,给每个节点配置对应的任务。
本发明的实施例中给每个节点配置对应的任务时使用随机采样法,参数服务器从训练集中进行8次采样,每次采集k个任务,将每次采样到的k个任务下发给第i个节点,完成了对该节点的任务配置,其中,p的取值与异构分布式机器学习集群中节点的总数相等,k的取值与异构分布式机器学习集群中每个节点拟配置的任务数相等,i的取值与k的取值相等。
步骤8,更新预训练好的卷积神经网络。
参数服务器对异构分布式机器学习集群中8个节点网络参数求均值,并将该均值作为全局网络参数,用该全局网络参数更新每个节点预训练好的卷积神经网络中的网络参数,得到每个节点更新后的卷积神经网络。
步骤9,训练卷积神经网络。
将每个节点配置任务输入到其对应的更新后的卷积神经网络中,卷积神经网络利用随机梯度下降法迭代更新网络参数,直到损失函数收敛为止,得到该节点训练好的卷积神经网络,并将该网络参数上传至参数服务器。
所述损失函数如下:
Figure BDA0003188854350000081
其中,f(θ)表示损失函数值,m表示任务数据集的样本总数,zi表示任务数据集中第i个样本的预测值,zi'表示任务数据集中第i个样本的真实值。
步骤10,判断每个节点对应的卷积神经网络的训练次数是否达到25次,若是,则执行步骤12;否则,执行步骤11。
步骤11,判断分布式机器学习集群中是否有节点资源特征参数发生变化,若是,则用发生变化节点资源的特征参数替代其变化前节点资源的特征参数后执行步骤6,否则,执行步骤7。
本发明的实施例中判断分布式机器学习集群中是否有节点资源特征参数发生变化的方法是判断节点资源特征参数的相对变化量是否大于阈值。因为节点资源特征参数的相对变化量小于10%时,更新特征参数对节点任务配置影响不大,所以本发明将阈值设置为10%。
步骤12,结束训练。

Claims (5)

1.一种面向异构分布式机器学习集群的任务配置方法,其特征在于,根据每个节点资源的特征参数,为异构分布式机器学习集群中每个节点配置任务;通过更新节点资源的特征参数,动态的为每个节点配置任务;该任务配置方法的步骤包括如下:
步骤1,构建异构分布式机器学习集群:
将一个参数服务器和至少4个节点组成一个异构分布式机器学习集群;
步骤2,生成训练集和预测集:
(2a)参数服务器选取至少10000个自然图像组成的图像集,每个图像至少包含一个目标;
(2b)对每张图像中的每个目标进行标注,并为每个标注后的图像生成一个标签文件,将所有的标签文件组成标签集;
(2c)将图像集和标签集组成训练集;
(2d)从训练集中随机抽取至多1000个样本组成预测集;参数服务器将预测集下发至异构分布式机器学习集群中的每个节点;
步骤3,对卷积神经网络进行预训练:
(3a)异构分布式机器学习集群中的每个节点将其接收到的预测集输入到卷积神经网络中,利用随机梯度下降法迭代更新网络参数,直到损失函数收敛为止,得到每个节点对应预训练好的卷积神经网络并记录预训练时间;
(3b)将每个节点资源的特征参数、网络参数和预训练时间上传至参数服务器;
步骤4,生成参数服务器的随机森林训练样本子集:
使用Bagging随机采样法,参数服务器对由所有节点的特征参数组成的特征参数集进行至少5次随机采样,将每次采样后部分节点的部分特征参数和节点的预训练时间组成该次采样的随机森林训练样本子集;
步骤5,构建随机森林模型:
参数服务器构建与每个随机森林训练样本子集对应的决策树,将所有的决策树组成随机森林模型;
步骤6,生成每个节点的推断训练时间:
将每个节点资源的特征参数发送给参数服务器,参数服务器将每个节点资源的特征参数依次输入到随机森林模型中,输出每个节点的推断训练时间;
步骤7,为每个节点配置任务:
(7a)按照下式,计算参数服务器为异构分布式机器学习集群中每个节点拟配置的任务数:
Figure FDA0003188854340000021
其中,Rα表示参数服务器为异构分布式机器学习集群中第α个节点拟配置的任务数,Hα表示第α个节点的推断训练时间,∑表示求和操作,i表示异构分布式机器学习集群中节点的序号,Hi表示第i个节点的推断训练时间,*表示相乘操作,M表示训练集中所有样本数据的大小,v表示训练卷积神经网络的最大次数,该最大次数的取值为训练集中所有样本数据之和的大小与异构分布式机器学习集群中8个节点中内存最小值的比值;
大小与异构分布式机器学习集群中所有节点中内存最小值的比值;
(7b)按照参数服务器为异构分布式机器学习集群中每个节点拟配置的任务数,给每个节点配置对应的任务;
步骤8,更新预训练好的卷积神经网络:
参数服务器对异构分布式机器学习集群中所有节点网络参数求均值,并将该均值作为全局网络参数,用该全局网络参数更新每个节点预训练好的卷积神经网络中的网络参数,得到每个节点更新后的卷积神经网络;
步骤9,训练卷积神经网络:
将每个节点配置任务输入到其对应的更新后的卷积神经网络中,卷积神经网络利用随机梯度下降法迭代更新网络参数,直到损失函数收敛为止,得到该节点训练好的卷积神经网络,并将该网络参数上传至参数服务器;
步骤10,判断每个节点对应的卷积神经网络的训练次数是否达到最大次数,若是,则执行步骤12;否则,执行步骤11;
步骤11,判断分布式机器学习集群中是否有节点资源特征参数发生变化,若是,则用发生变化节点资源的特征参数替代其变化前节点资源的特征参数后执行步骤6,否则,执行步骤7;
步骤12,结束训练。
2.根据权利要求1所述的面向异构分布式机器学习集群的任务配置方法,其特征在于:步骤(3a)中所述的卷积神经网络的结构依次为:第一个卷积层,第一个池化层,第二个卷积层,第二个池化层,第三个卷积层,第三个池化层,第四个卷积层,第四个池化层,第一个全连接层;设置卷积神经网络结构各层参数如下:将第一至第四卷积层中卷积核的个数分别设置为16,16,8,8,卷积核的大小分别设置3×3,5×5,3×3,5×5,卷积步长均设置为1;第一至第四池化层均采用平均池化的方式,池化区域大小分别设置为1×4,1×4,1×1,1×1,步长均设置为1;将第一全连接层的神经元个数设置为2。
3.根据权利要求1所述的面向异构分布式机器学习集群的任务配置方法,其特征在于:步骤(3a)中所述的损失函数如下:
Figure FDA0003188854340000031
其中,MSE表示损失函数值,c表示预测集的样本总数,yi表示预测集中第i个样本的预测值,yi'表示预测集中第i个样本的真实值。
4.根据权利要求1所述的面向异构分布式机器学习集群的任务配置方法,其特征在于:步骤(3b)所述节点资源的特征参数包括,可使用CPU核心的个数,可使用GPU SM的个数,CPU缓存的容量,内存的容量,PCIe数据通路的总线带宽。
5.根据权利要求1所述的面向异构分布式机器学习集群的任务配置方法,其特征在于:步骤9中所述的损失函数如下:
Figure FDA0003188854340000041
其中,f(θ)表示损失函数值,m表示任务数据集的样本总数,zi表示任务数据集中第i个样本的预测值,z′i表示任务数据集中第i个样本的真实值。
CN202110870249.8A 2021-07-30 2021-07-30 面向异构分布式机器学习集群的任务配置方法 Active CN113590321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870249.8A CN113590321B (zh) 2021-07-30 2021-07-30 面向异构分布式机器学习集群的任务配置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870249.8A CN113590321B (zh) 2021-07-30 2021-07-30 面向异构分布式机器学习集群的任务配置方法

Publications (2)

Publication Number Publication Date
CN113590321A true CN113590321A (zh) 2021-11-02
CN113590321B CN113590321B (zh) 2024-02-27

Family

ID=78252428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870249.8A Active CN113590321B (zh) 2021-07-30 2021-07-30 面向异构分布式机器学习集群的任务配置方法

Country Status (1)

Country Link
CN (1) CN113590321B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969209A (zh) * 2022-06-15 2022-08-30 支付宝(杭州)信息技术有限公司 训练方法及装置、预测资源消耗量的方法及装置
CN116095089A (zh) * 2023-04-11 2023-05-09 云南远信科技有限公司 遥感卫星数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
US20180357542A1 (en) * 2018-06-08 2018-12-13 University Of Electronic Science And Technology Of China 1D-CNN-Based Distributed Optical Fiber Sensing Signal Feature Learning and Classification Method
CN110929878A (zh) * 2019-10-30 2020-03-27 同济大学 一种分布式随机梯度下降方法
CN111353582A (zh) * 2020-02-19 2020-06-30 四川大学 一种基于粒子群算法的分布式深度学习参数更新方法
CN112732444A (zh) * 2021-01-12 2021-04-30 北京工业大学 一种面向分布式机器学习的数据划分方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
US20180357542A1 (en) * 2018-06-08 2018-12-13 University Of Electronic Science And Technology Of China 1D-CNN-Based Distributed Optical Fiber Sensing Signal Feature Learning and Classification Method
CN110929878A (zh) * 2019-10-30 2020-03-27 同济大学 一种分布式随机梯度下降方法
CN111353582A (zh) * 2020-02-19 2020-06-30 四川大学 一种基于粒子群算法的分布式深度学习参数更新方法
CN112732444A (zh) * 2021-01-12 2021-04-30 北京工业大学 一种面向分布式机器学习的数据划分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李抵非;田地;胡雄伟;: "基于分布式内存计算的深度学习方法", 吉林大学学报(工学版), no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969209A (zh) * 2022-06-15 2022-08-30 支付宝(杭州)信息技术有限公司 训练方法及装置、预测资源消耗量的方法及装置
CN116095089A (zh) * 2023-04-11 2023-05-09 云南远信科技有限公司 遥感卫星数据处理方法及系统

Also Published As

Publication number Publication date
CN113590321B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN111242282B (zh) 基于端边云协同的深度学习模型训练加速方法
Chen et al. DNNOff: offloading DNN-based intelligent IoT applications in mobile edge computing
Guo et al. Cloud resource scheduling with deep reinforcement learning and imitation learning
CN107817787B (zh) 一种基于机器学习的智能产线机械手故障诊断方法
CN113590321B (zh) 面向异构分布式机器学习集群的任务配置方法
CN112671757B (zh) 一种基于自动机器学习的加密流量协议识别方法及装置
CN113515370A (zh) 一种面向大规模深度神经网络的分布式训练方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN112364913A (zh) 一种基于核心数据集的联邦学习通信量优化方法及系统
CN109934336A (zh) 基于最优结构搜索的神经网络动态加速平台设计方法及神经网络动态加速平台
CN115392481A (zh) 一种基于响应时间实时均衡的联邦学习高效通信方法
CN111241301A (zh) 一种面向知识图谱表示学习的分布式框架构建方法
CN112287990A (zh) 一种基于在线学习的边云协同支持向量机的模型优化方法
CN116644804B (zh) 分布式训练系统、神经网络模型训练方法、设备和介质
CN113283186A (zh) 一种用于cfd的通用网格自适应方法
Xu et al. Optimizing federated learning on device heterogeneity with a sampling strategy
CN114358216B (zh) 基于机器学习框架的量子聚类方法及相关装置
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
CN112200391B (zh) 基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法
CN114895985B (zh) 一种面向基于采样的图神经网络训练的数据加载系统
CN106941466B (zh) 一种软硬件协同的数字预失真的方法及装置
CN114401063B (zh) 基于轻量化模型的边缘设备协同频谱智能监测方法和系统
Zhang et al. Federated multi-task learning with non-stationary heterogeneous data
WO2023273171A1 (zh) 图像处理方法、装置、设备和存储介质
CN111931913B (zh) 基于Caffe的卷积神经网络在FPGA上的部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant