CN111144584A - 参数调优方法、装置及计算机存储介质 - Google Patents

参数调优方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN111144584A
CN111144584A CN201911424296.9A CN201911424296A CN111144584A CN 111144584 A CN111144584 A CN 111144584A CN 201911424296 A CN201911424296 A CN 201911424296A CN 111144584 A CN111144584 A CN 111144584A
Authority
CN
China
Prior art keywords
cluster
node
parameter
iteration
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911424296.9A
Other languages
English (en)
Other versions
CN111144584B (zh
Inventor
张潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN201911424296.9A priority Critical patent/CN111144584B/zh
Publication of CN111144584A publication Critical patent/CN111144584A/zh
Application granted granted Critical
Publication of CN111144584B publication Critical patent/CN111144584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种参数调优方法,该方法包括:获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度;根据所述性能梯度将各节点划分至对应的集群;对各集群中的预设数据进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并根据所述第一参数确定各集群的第二参数;将所述第二参数作为对应集群下一轮迭代的输入参数,依次循环迭代,直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。本发明还公开了一种参数调优装置以及计算机可读存储介质。本发明不但节省了分布式机器学习的整体等待时间,提高了模型训练的效率,而且保证了算法的收敛性。

Description

参数调优方法、装置及计算机存储介质
技术领域
本发明涉及神经网络技术领域,尤其涉及一种参数调优方法、装置及计算机存储介质。
背景技术
随着5G时代的到来,人们在享受便捷网速的同时,产生了更多的使用数据。而在对这些海量的使用数据进行训练学习时,依靠单独的机器进行模拟训练已经远远不够,这时就需要多台机器同时并行学习共同完成一个训练模型,这也就是我们常说的分布式机器学习。分布式机器学习是将单机的训练变换成多机训练,从而解决由于数据量过大硬件不足以支撑的问题。分布式机器学习分为模型并行化方法和数据并行化方法。模型并行化是指不同机器分别进行不同部分的计算,数据要合理分配;数据并行化是指不同的机器进行相同的计算,每个机器分发数据的一部分即可,最后将机器的计算结果进行合并。
目前最常用的分布式系统是数据并行化方法,如随机梯度下降法SGD,其可以分为同步随机梯度下降法(Sync-SGD)和异步随机梯度下降法(Async-SGD)。同步随机梯度下降法是指每个工作节点读取参数之后,传入数据进行模型训练求得参数,同步更新参数需要等待所有节点把局部梯度计算完,再将新的参数合并更新到下一个批次,所有节点进入循环训练。这种方法存在的缺点是由于集群的性能或数据量的不同,会导致各个节点计算局部梯度的时间参差不齐,由于要等待最慢的工作节点,因而导致模型训练的效率很低。异步随机梯度下降法是指每个工作节点独立计算局部梯度,不需要等待直接将新的参数合并更新到下一个批次,工作节点重新接受参数后,进行下个批次的训练。这种方法的缺点是每个工作节点计算完进行参数更新时由于各自参数差异较大,一定程度影响了算法收敛性。
发明内容
本发明的主要目的在于提供一种参数调优方法、装置及计算机存储介质,旨在解决现有的分布式机器学习中存在模型训练的效率低或者算法收敛性差的技术问题。
为实现上述目的,本发明提供一种参数调优方法,所述参数调优方法应用于分布式机器学习系统,所述分布式机器学习系统包括多个节点以及与所述节点连接的参数服务器,所述参数调优方法包括:
获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度;
根据性能梯度,将各节点划分至对应的集群;
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数;
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。
可选地,所述获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度的步骤,包括:
分别从各节点预设的原始数据中提取预设比例的数据作为样本数据;
将各节点对应的样本数据导入至各节点分别对应的预设的训练模型中,记录各节点完成一次迭代的训练时间;
根据各节点完成一次迭代的训练时间确定各节点的性能梯度。
可选地,所述根据性能梯度,将各节点划分至对应的集群的步骤,包括:
根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中,并根据聚类后各集群与各节点的对应关系,计算k个集群各自对应的误差平方和,其中,k为任一正整数;
根据所述k个集群各自对应的误差平方和绘制变化曲线,并根据所述变化曲线确定集群的目标数量,其中,所述目标数量为正整数;
根据集群总数为所述目标数量时各集群与各节点聚类后的对应关系,将各节点重新划分至对应的集群。
可选地,所述根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中的步骤,包括:
将各节点随机划分至集群总数为k的不同集群中,并从每个集群中分别选取一个节点作为第一中心点;
针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
将完成一次聚类后各集群中的节点按照各节点完成一次迭代的训练时间进行排序,根据排序结果选取每个集群中的中间节点作为对应集群的第二中心点,并判断每个集群中的所述第二中心点是否与所述第一中心点一致;
若否,则将所述第二中心点作为所述第一中心点,并返回步骤:针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
若是,则停止聚类。
可选地,所述根据聚类后各集群与各节点的对应关系,计算集群总数为k时各集群的误差平方和的计算公式如下:
Figure BDA0002348698000000031
其中,SSE表示不同集群总数下各集群的误差平方和,i表示第i个集群,i为正整数,k为集群的总数,P为第i个集群中任一节点完成一次迭代的训练时间,Ci为第i个集群中各节点完成一次迭代的训练时间的集合,mi是第i个集群中各节点完成一次迭代的训练时间的平均值。
可选地,所述根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数的步骤,包括:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数;
根据各集群的所述第一参数的接收时间,确定各集群完成一轮迭代的时间比值,并根据所述时间比值确定各集群的参数权重值;
分别根据各集群的第一参数以及各集群的参数权重值,确定各集群各自对应的第二参数。
可选地,所述根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数的步骤,包括:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群中不同节点返回的参数值;
当集群中的所有节点均返回参数值后,计算对应集群中所有参数值的平均值,并将所述平均值作为对应集群的第一参数。
可选地,所述将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环,直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习的步骤,包括:
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,参与下一轮迭代,并判断下一轮迭代完成后各集群的收敛数量是否达到预设阈值;
若否,则返回步骤:将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数;
若是,则结束所述分布式机器学习。
此外,为实现上述目的,本发明还提供一种参数调优装置,所述参数调优装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的参数调优程序,所述参数调优程序被所述处理器执行时实现如上任一项所述参数调优方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有参数调优程序,所述参数调优程序被处理器执行时实现如上任一项所述参数调优方法的步骤。
本发明通过获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度;根据性能梯度,将各节点划分至对应的集群;根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数;将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。本发明通过上述实施方式,获取各节点的性能梯度,按照性能梯度的优劣将各节点划分到不同的集群中,使得性能梯度相近的节点分布在同一集群,并对这些集群采用群内同步,群间异步的分治方式进行分布式机器学习,这样使得集群内部的各节点同步完成计算的时间相近,不需等待其他集群中计算较慢的其他节点,节省了分布式机器学习的整体等待时间,而且在群间异步时,综合考虑不同集群的第一参数,根据各个集群的第一参数以及参数权重值对其下一轮的输入参数进行更新,使得每个集群的迭代并不是相互独立的,从而提高了算法的收敛性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明参数调优方法的第一实施例的流程示意图;
图3为本发明参数调优方法的第二实施例的流程示意图;
图4为本发明参数调优方法的第三实施例的流程示意图;
图5为本发明一实施例中分布式机器学习系统的结构示意图;
图6为本发明参数调优方法的第四实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。
本发明实施例装置可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等终端设备。
如图1所示,该装置可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,装置还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,装置还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及参数调优程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的参数调优程序,并执行以下操作:
获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度;
根据性能梯度,将各节点划分至对应的集群;
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数;
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
分别从各节点预设的原始数据中提取预设比例的数据作为样本数据;
将各节点对应的样本数据导入至各节点分别对应的预设的训练模型中,记录各节点完成一次迭代的训练时间;
根据各节点完成一次迭代的训练时间确定各节点的性能梯度。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中,并根据聚类后各集群与各节点的对应关系,计算k个集群各自对应的误差平方和,其中,k为任一正整数;
根据所述k个集群各自对应的误差平方和绘制变化曲线,并根据所述变化曲线确定集群的目标数量,其中,所述目标数量为正整数;
根据集群总数为所述目标数量时各集群与各节点聚类后的对应关系,将各节点重新划分至对应的集群。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
将各节点随机划分至集群总数为k的不同集群中,并从每个集群中分别选取一个节点作为第一中心点;
针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
将完成一次聚类后各集群中的节点按照各节点完成一次迭代的训练时间进行排序,根据排序结果选取每个集群中的中间节点作为对应集群的第二中心点,并判断每个集群中的所述第二中心点是否与所述第一中心点一致;
若否,则将所述第二中心点作为所述第一中心点,并返回步骤:针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
若是,则停止聚类。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
所述根据聚类后各集群与各节点的对应关系,计算集群总数为k时各集群的误差平方和的计算公式如下:
Figure BDA0002348698000000081
其中,SSE表示不同集群总数下各集群的误差平方和,i表示第i个集群,i为正整数,k为集群的总数,P为第i个集群中任一节点完成一次迭代的训练时间,Ci为第i个集群中各节点完成一次迭代的训练时间的集合,mi是第i个集群中各节点完成一次迭代的训练时间的平均值。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数;
根据各集群的所述第一参数的接收时间,确定各集群完成一轮迭代的时间比值,并根据所述时间比值确定各集群的参数权重值;
分别根据各集群的第一参数以及各集群的参数权重值,确定各集群各自对应的第二参数。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群中不同节点返回的参数值;
当集群中的所有节点均返回参数值后,计算对应集群中所有参数值的平均值,并将所述平均值作为对应集群的第一参数。
进一步地,处理器1001可以调用存储器1005中存储的参数调优程序,还执行以下操作:
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,参与下一轮迭代,并判断下一轮迭代完成后各集群的收敛数量是否达到预设阈值;
若否,则返回步骤:将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数;
若是,则结束所述分布式机器学习。
本发明参数调优装置的具体实施例与下述参数调优方法各实施例基本相同,在此不作赘述。
参照图2,图2为本发明参数调优方法的第一实施例的流程示意图,所述参数调优方法包括:
步骤S10,获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度。
分布式机器学习系统包括多个节点以及与这些节点连接的参数服务器,其中,该节点可以为PC或者服务器,也可以为任一一种处理数据的装置。各节点中预设有进行模型训练的原始数据,各节点基于预设的原始数据进行训练学习,计算得到参数值,并将其发送至参数服务器,参数服务器对接收到的参数值进行管理更新,并将更新后的参数值发送至对应节点,使得各节点能进入下一轮迭代。本发明实施例装置可以为与上述分布式学习系统连接的装置,也可以为设置有参数调优程序的上述分布式学习系统中的某一节点或者参数服务器。由于分布式学习系统中每个节点的性能梯度不同,这时需要从各节点预设的原始数据中获取预设比例的原始数据作为样本数据,并根据各节点的样本数据完成一次迭代的训练时间确定各节点的性能梯度。具体地,上述步骤S10包括:
步骤S101,分别从各节点预设的原始数据中提取预设比例的数据作为样本数据。
按照预设比例从参与分布式机器学习的各节点中提取出相同比例的原始数据作为样本数据,其中,各节点中预设的原始数据容量大小可以相同,也可以不同。在提取样本数据时,可以按照各节点中原始数据容量大小的5%,或者10%的比例获取,将获取出来的原始数据作为样本数据。本领域技术人员可以理解,此处的比例值可以根据实际情况具体设定,可以为任一一个比例值,本实施例不做具体限定。
步骤S102,将各节点对应的样本数据导入至各节点预设的训练模型中,记录各节点完成一次迭代的训练时间。
在获取到样本数据后,将获取到的样本数据分别导入至预设的训练模型,根据预设的训练模型对样本数据进行训练学习,记录各节点完成一次迭代的训练时间。根据各节点完成一次迭代的训练时间,可以清楚了解各节点在不同大小的原始数据和不同硬件性能情况下,各节点性能梯度。
步骤S103,根据各节点完成一次迭代的训练时间确定各节点的性能梯度。
在获取到各节点完成一次迭代的训练时间后,根据该训练时间确定各节点的性能梯度。对于训练时间越短的节点,其性能梯度越佳;对于训练时间越长的节点,其性能梯度越差。由此,可以根据各节点完成一次迭代的训练时间的长短确定各节点的性能梯度的优劣。
通过执行步骤S101至步骤S103,获取各节点中相同比例的样本数据,根据各节点对样本数据进行训练学习的训练时间,确定各节点整体的性能梯度,相对以各节点的整体原始数据作为样本数据进行训练,其训练-时间更短,因此能更快能获得到各节点的性能梯度。
步骤S20,根据性能梯度,将各节点划分至对应的集群。
由于分布式机器学习系统的各节点的性能梯度存在差异,为了避免计算快的节点需要等待计算慢的节点导致整个系统的等待时间过长,因而需要根据各节点的性能梯度将各节点划分至对应的集群。具体地,将性能梯度相近的节点放在同一集群,将性能梯度相差较远的节点放在其他集群,从而使得各集群中各节点完成一次迭代的时间相近,有效保证各集群的群内同步的等待时间大大降低。
步骤S30,根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数。
在将各节点划分至对应集群后,对各集群同时开始模型训练,并根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,在分布式机器学习过程中,各节点将遍历其上预设的原始数据,得到各自的参数值,通过参数服务器接收各节点返回的参数值。由于在参数服务器中会记录每个集群中各节点返回的参数值,当集群中所有节点的参数值均返回后,计算所有参数值的平均值作为该集群的第一参数,并保存至参数服务器的预设位置,后续在参数服务器接收到其他集群或者本集群返回的第一参数时,根据集群完成一轮迭代的时间比值,以此确定各集群的参数权重值;并根据各集群的第一参数以及各集群的参数权重值确定第二参数。
步骤S40,将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。
在各集群获得各自对应的第二参数后,将该第二参数作为各集群各自对应的下一轮迭代的输入参数,各节点根据该输入参数在预设训练模型中进行下一轮训练学习,由此得到各节点新的参数值,并将新的参数值进行计算,由此得到新的第一参数,依次循环迭代,直到各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。本实施例中通过将性能梯度相近的节点划分至同一集群中,并对这些集群采用群内同步,群间异步的分治方式进行分布式机器学习,这样使得集群内部的各节点同步完成计算的时间相近,不需等待其他集群中计算较慢的其他节点,节省了分布式机器学习的整体等待时间,而且在群间异步时,综合考虑不同集群的局部梯度参数,根据各个集群的局部梯度参数对其下一轮的输入参数进行更新,使得每个集群的迭代并不是相互独立的,从而提高了算法的收敛性。
进一步地,参照图3,图3为本发明参数调优方法的第二实施例的流程示意图,基于上述图2所示的实施例,上述步骤S20根据性能梯度,将各节点划分至对应的集群,包括:
步骤S201,根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中,并根据聚类后各集群与各节点的对应关系,计算k个集群各自对应的误差平方和,其中,k为任一正整数。
在本实施例中,分别设置不同k值的集群总数,其中k为任一正整数,如1,2,3,4,…,再根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中,从而获取聚类后各集群与各节点的对应关系。其中,各节点的聚类的方式可以为K-MEANS算法、K-MEDOIDS算法或者CLARANS算法等,也可以是根据实际需要预设聚类规则。
进一步地,上述步骤S201中根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中的步骤,包括:
步骤S210,将各节点随机划分至集群总数为k的不同集群中,并从每个集群中分别选取一个节点作为第一中心点。
对所有节点进行初始化,并将所有节点随机划分至k个不同的集群中,每个集群中至少包含一个节点,并从每个集群中随机选取一个节点作为第一中心点。
步骤S211,针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群。
在确定每个集群中的第一中心点后,针对每个集群中的第一中心点,计算该集群中第一中心点完成一次迭代的训练时间与其他各节点完成一次迭代的训练时间的差值,并对计算得到的差值进行排序,选取所有差值中差值最小的节点聚类至该第一中心点对应的集群。这样使得与第一中心节点性能梯度相近的节点能够相互靠近,从而使得性能梯度相近的节点慢慢能聚类到同一集群中。
步骤S212,将完成一次聚类后各集群中的节点按照各节点完成一次迭代的训练时间进行排序,根据排序结果选取每个集群中的中间节点作为对应集群的第二中心点,并判断每个集群中的所述第二中心点是否与所述第一中心点一致。
将完成一次聚类后各集群中的节点按照各节点完成一次迭代的训练时间进行排序,并根据排序结果,确定每个集群中的中间节点,并将该中间节点作为第二中心点。此处需要说明的是,如果此时某集群中包含奇数个节点,直接选取最中间的节点作为第二中心点;如果此时某集群中包含偶数个节点,将(n-1)/2取整后加1对应的节点作为该集群的第二中心点,其中,n表示某集群中的节点个数,n为偶数。
在执行完一次聚类后,判断该第二中心点是否与上一轮的第一中心点一致,若不一致,则执行步骤S213;若一致,则执行步骤S214。
步骤S213,将所述第二中心点作为所述第一中心点,并返回步骤:针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群。
步骤S214,停止聚类。
当排序后的每个集群中的第二中心点与上一轮第一中心点不一致时,将第二中心点作为该第一中心点,并返回步骤S211:计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群。通过不断聚类,当最终第二中心点与上一轮的第一中心点一致,此时停止聚类。
由于k值不同,因此需要实现k个步骤S210至步骤S214的循环聚类过程。例如,假设本实施例中的分布式机器学习系统有10个节点,当k值为1时,将各节点均放入至1个集群中,计算1个集群时的误差平方和;当k值为2时,将各节点先随机放入至2个集群中,假如第一集群有3个节点,分别是节点1、节点2和节点3,第二集群有7个节点,分别是节点4、节点5、节点6、节点7、节点8、节点9和节点10,在第一集群和第二集群中分别随机选取一个节点作为第一中心点,如第一集群的第一中心点为节点1,第二集群的第一中心点为节点8,则计算节点1完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,如果根据差值确定节点6与节点1的差值最小,则将节点6聚类至第一集群;计算节点8完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,如果根据差值确定节点3与节点8的差值最小,则将节点3聚类至第二集群。按照各节点完成一次迭代的训练时间进行排序,根据排序结果选取每个集群中的中间节点作为对应集群的第二中心点,再次计算第一集群中的第二中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,确定与之差值最小的节点聚类至第一集群;同理,计算第二集群中的第二中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,确定与之差值最小的节点聚类至第二集群,以此循环,直至第一集群和第二集群中节点不在变化。进一步地,所述根据聚类后各集群与各节点的对应关系,计算集群总数为k时各集群的误差平方和的计算公式如下:
Figure BDA0002348698000000141
其中,SSE表示不同集群总数下各集群的误差平方和,i表示第i个集群,i为正整数,k为集群的总数,P为第i个集群中任一节点完成一次迭代的训练时间,Ci为第i个集群中各节点完成一次迭代的训练时间的集合,mi是第i个集群中各节点完成一次迭代的训练时间的平均值。通过上述公式,即可计算得到不同集群总数对应的各集群的误差平方和SSE。
步骤S202,根据所述k个集群各自对应的误差平方和绘制变化曲线,并根据所述变化曲线确定集群的目标数量,其中,所述目标数量为正整数。
计算得到不同集群总数情况下的各集群的误差平方和,例如,假设该分布式机器学习系统中包括10个节点,分别计算该10个节点在集群总数k为1,2,3,4……等值时各集群各自对应的误差平方和,并根据计算得到的误差平方和绘制变化曲线。通过该绘制的变化曲线可知,该误差平方和的变化曲线开始时是随着集群个数的增加急剧下降,当达到某个值后,随着集群个数的增加呈平滑趋势。因此,可以根据该变化曲线确定变化的转折点,即集群的目标数量。其中,该目标数量为正整数。
步骤S203,根据集群总数为所述目标数量时各集群与各节点聚类后的对应关系,将各节点重新划分至对应的集群。
在确定集群的目标数量后,获取上述步骤S210至步骤S214中集群总数为目标数量时各集群与各节点聚类后的对应关系,并根据该对应关系重新将各节点重新划分至对应的集群。
在本实施例中通过计算不同集群总数下集群的误差平方和的变化曲线,确定集群的目标数量以及各集群与各节点的对应关系,从而使得每个集群中各节点的性能梯度相近,有效保证各集群的群内同步的等待时间大大降低。
进一步的,参照图4,图4为本发明参数调优方法的第三实施例的流程示意图,基于上述图2所示的实施例,上述步骤30所述根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数,包括:
步骤S301,根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数。
由于此时各集群和各节点的对应关系以及各节点的性能梯度均已确定,对于性能梯度高的节点所在的集群完成一轮迭代的时间短,对于性能梯度低的节点所在的集群完成一轮迭代的时间长,但在该分布式机器学习系统中,无论该集群中节点的性能梯度高或低,各集群均会在集群中各节点均完成一次迭代后,向参数服务器返回该集群对应的第一参数,由此实现了该分布式机器学习系统的群内同步功能。
具体地,上述步骤S301包括:
步骤S311,根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群中不同节点返回的参数值。
在将各节点划分至对应集群后,根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,在分布式机器学习过程中,各节点将遍历其上预设的原始数据,得到各自的参数值,通过参数服务器接收各节点返回的参数值。
步骤S312,当集群中的所有节点均返回参数值后,计算对应集群中所有参数值的平均值,并将所述平均值作为对应集群的第一参数。
由于在参数服务器中会记录每个集群中各节点返回的参数值,当集群中所有节点的参数值均返回后,计算对应集群中所有参数值的平均值,并将该平均值作为对应集群的第一参数。
通过执行上述步骤S311至步骤S313,可以实现集群内部各节点的同步迭代,因为在参数服务器中需要集群中的所有节点均返回参数值后,才能获得该集群的第一局部梯度参数,并进行该集群的下一轮迭代。
步骤S302,根据各集群的所述第一参数的接收时间,确定各集群完成一轮迭代的时间比值,并根据所述时间比值确定各集群的参数权重值。
由于各集群完成一次迭代的时间并不相同,性能梯度高的集群完成一次迭代的时间短,而性能梯度低的集群完成一次迭代的时间长。因而,根据各集群的所述第一参数的接收时间,获取各集群完成一轮迭代的时间比值,并根据该时间比值确定该集群的参数权重值。
步骤S303,分别根据各集群的第一参数以及各集群的参数权重值,确定各集群各自对应的第二参数。
分别根据各集群的第一参数以及各集群的参数权重值,确定各集群各自对应的第二参数。假设本实施例的布式机器学习系统的结构示意图如5所示,其中包含集群1和集群2,其中,集群1包括节点1(即服务器1)和节点2(及服务器2),集群2包括节点3(即服务器3)和节点4(即服务器4),假设各节点中预设的训练模型为y=w0·x2+w1·x+w2,提供给集群1和集群2的初始参数值P为[w0=1,w1=1,w2=1],其中,w0为该预设训练模型的第一系数,w1为该预设训练模型的第二系数,w2为该预设训练模型的第三系数,各节点每完成一次迭代,均会对w0、w1、w2进行训练,将该初始参数值P输入至集群1和集群2的各节点的预设的训练模型中,所有集群同时开始训练模型,集群1内节点1优先训练完成第一轮结果的参数值p1为[w0=0.2,w1=-0.2,w2=0.1],在参数服务器中等待集群1内节点2训练完成的第一轮结果的参数值p2为[w0=0.4,w1=-0.6,w2=-0.1],当集群1内全部节点第一轮训练完成后对得到的参数都返回参数服务器的Add位置时,对所有节点的参数值进行求和取平均,得到集群1的第一参数p12为[w0=0.3,w1=-0.4,w2=0],对该第一参数进行更新操作[w0=1+0.3,w1=1-0.4,w2=1+0],将更新后的值作为第一参数保存至参数服务器的预设位置P,并返回给集群1进行第二轮训练。在集群1进行迭代的过程中,集群2同样进行相同的操作,由于集群之间存在时间完成差,假设当集群1迭代3轮,集群2迭代2轮,根据集群1和集群2的迭代次数比值为3:2,因而确定集群1和集群2的参数权重值为2:3,按照这个比例对集群1和集群2的第一参数进行加权求平均,并将计算后的值作为集群2的第二参数。在获取上述第二参数后将该第二参数发往集群2,以使第二集群进行第二轮训练,依次循环,直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。
需要说明的是,上述布式机器学习系统还可以包括客户端1和客户端2,分别与参数服务器连接,从而通过客户端1和客户端2分别监控集群1和集群2的训练学习情况,同时当某个集群崩溃时,用户能够及时了解。
在本实施例中对多个集群采用群内同步,群间异步的分治方式进行分布式机器学习,这样使得集群内部的各节点同步完成计算的时间相近,不需等待其他集群中计算较慢的其他节点,节省了分布式机器学习的整体等待时间,而且在群间异步时,综合考虑不同集群的局部梯度参数,根据各个集群的局部梯度参数对其下一轮的输入参数进行更新,使得每个集群的迭代并不是相互独立的,从而提高了算法的收敛性。
进一步的,参照图6,图6为本发明参数调优方法的第四实施例的流程示意图,基于上述图2所示的实施例,上述步骤S40将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环,直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习,包括:步骤S401,将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,参与下一轮迭代,并判断下一轮迭代完成后各集群的收敛数量是否达到预设阈值。
本发明可以将训练学习时间达到预设时间阈值作为训练学习的结束条件,也可以将各集群的收敛数量达到预设阈值作为训练学习的结束条件。为保证分布式机器学习的训练模型的效果,本实施例优选为将各集群的收敛数量达到预设阈值作为训练学习的结束条件。例如,当集群的收敛数量达到95%时,结束该分布式机器学习。因此,在将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数参与下一轮迭代时,还需要判断下一轮迭代完成后各集群的收敛数量是否达到预设阈值,若下一轮迭代完成后各集群的收敛数量未达到预设阈值,则返回步骤S401,以使各集群继续参与下一轮迭代;若下一轮迭代完成后各集群的收敛数量达到预设阈值,则执行步骤S402,并将最终结果保存下来。
步骤S402,结束所述分布式机器学习。
本实施例中通过不断计算各集群各自对应的第二参数,并将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,参与下一轮迭代,使得分布式机器学习不断循环,从而保证训练结果的准确性。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有参数调优程序,所述参数调优程序被处理器执行时实现如下操作:
获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度;
根据性能梯度,将各节点划分至对应的集群;
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数;
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
分别从各节点预设的原始数据中提取预设比例的数据作为样本数据;
将各节点对应的样本数据导入至各节点分别对应的预设的训练模型中,记录各节点完成一次迭代的训练时间;
根据各节点完成一次迭代的训练时间确定各节点的性能梯度。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中,并根据聚类后各集群与各节点的对应关系,计算k个集群各自对应的误差平方和,其中,k为任一正整数;
根据所述k个集群各自对应的误差平方和绘制变化曲线,并根据所述变化曲线确定集群的目标数量,其中,所述目标数量为正整数;
根据集群总数为所述目标数量时各集群与各节点聚类后的对应关系,将各节点重新划分至对应的集群。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
将各节点随机划分至集群总数为k的不同集群中,并从每个集群中分别选取一个节点作为第一中心点;
针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
将完成一次聚类后各集群中的节点按照各节点完成一次迭代的训练时间进行排序,根据排序结果选取每个集群中的中间节点作为对应集群的第二中心点,并判断每个集群中的所述第二中心点是否与所述第一中心点一致;
若否,则将所述第二中心点作为所述第一中心点,并返回步骤:针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
若是,则停止聚类。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
所述根据聚类后各集群与各节点的对应关系,计算集群总数为k时各集群的误差平方和的计算公式如下:
Figure BDA0002348698000000191
其中,SSE表示不同集群总数下各集群的误差平方和,i表示第i个集群,i为正整数,k为集群的总数,P为第i个集群中任一节点完成一次迭代的训练时间,Ci为第i个集群中各节点完成一次迭代的训练时间的集合,mi是第i个集群中各节点完成一次迭代的训练时间的平均值。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数;
根据各集群的所述第一参数的接收时间,确定各集群完成一轮迭代的时间比值,并根据所述时间比值确定各集群的参数权重值;
分别根据各集群的第一参数以及各集群的参数权重值,确定各集群各自对应的第二参数。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群中不同节点返回的参数值;
当集群中的所有节点均返回参数值后,计算对应集群中所有参数值的平均值,并将所述平均值作为对应集群的第一参数。
进一步地,所述参数调优程序被处理器执行时还实现如下操作:
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,参与下一轮迭代,并判断下一轮迭代完成后各集群的收敛数量是否达到预设阈值;
若否,则返回步骤:将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数;
若是,则结束所述分布式机器学习。
本发明计算机可读存储介质的具体实施例与上述参数调优方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种参数调优方法,其特征在于,所述参数调优方法应用于分布式机器学习系统,所述分布式机器学习系统包括多个节点以及与所述节点连接的参数服务器,所述参数调优方法包括:
获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度;
根据性能梯度,将各节点划分至对应的集群;
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数;
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习。
2.如权利要求1所述的参数调优方法,其特征在于,所述获取所述分布式机器学习系统中各节点的样本数据,并根据所述样本数据确定各节点的性能梯度的步骤,包括:
分别从各节点预设的原始数据中提取预设比例的数据作为样本数据;
将各节点对应的样本数据导入至各节点分别对应的预设的训练模型中,记录各节点完成一次迭代的训练时间;
根据各节点完成一次迭代的训练时间确定各节点的性能梯度。
3.如权利要求2所述的参数调优方法,其特征在于,所述根据性能梯度,将各节点划分至对应的集群的步骤,包括:
根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中,并根据聚类后各集群与各节点的对应关系,计算k个集群各自对应的误差平方和,其中,k为任一正整数;
根据所述k个集群各自对应的误差平方和绘制变化曲线,并根据所述变化曲线确定集群的目标数量,其中,所述目标数量为正整数;
根据集群总数为所述目标数量时各集群与各节点聚类后的对应关系,将各节点重新划分至对应的集群。
4.如权利要求3所述的参数调优方法,其特征在于,所述根据各节点的性能梯度将各节点分别聚类至集群总数为k的不同集群中的步骤,包括:
将各节点随机划分至集群总数为k的不同集群中,并从每个集群中分别选取一个节点作为第一中心点;
针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
将完成一次聚类后各集群中的节点按照各节点完成一次迭代的训练时间进行排序,根据排序结果选取每个集群中的中间节点作为对应集群的第二中心点,并判断每个集群中的所述第二中心点是否与所述第一中心点一致;
若否,则将所述第二中心点作为所述第一中心点,并返回步骤:针对每个集群中的第一中心点,计算所述第一中心点完成一次迭代的训练时间与所有集群中其他各节点完成一次迭代的训练时间的差值,并将所述差值中差值最小的节点聚类至所述第一中心点对应的集群;
若是,则停止聚类。
5.如权利要求3所述的参数调优方法,其特征在于,所述根据聚类后各集群与各节点的对应关系,计算集群总数为k时各集群的误差平方和的计算公式如下:
Figure FDA0002348697990000021
其中,SSE表示不同集群总数下各集群的误差平方和,i表示第i个集群,i为正整数,k为集群的总数,P为第i个集群中任一节点完成一次迭代的训练时间,Ci为第i个集群中各节点完成一次迭代的训练时间的集合,mi是第i个集群中各节点完成一次迭代的训练时间的平均值。
6.如权利要求1所述的参数调优方法,其特征在于,所述根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,获取各集群完成一轮迭代的第一参数,并分别根据各集群的第一参数确定各集群各自对应的第二参数的步骤,包括:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数;
根据各集群的所述第一参数的接收时间,确定各集群完成一轮迭代的时间比值,并根据所述时间比值确定各集群的参数权重值;
分别根据各集群的第一参数以及各集群的参数权重值,确定各集群各自对应的第二参数。
7.如权利要求6所述的参数调优方法,其特征在于,所述根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群完成一轮迭代的第一参数的步骤,包括:
根据各集群与各节点的对应关系以及各节点的性能梯度对各集群进行分布式机器学习,通过所述参数服务器接收各集群中不同节点返回的参数值;
当集群中的所有节点均返回参数值后,计算对应集群中所有参数值的平均值,并将所述平均值作为对应集群的第一参数。
8.如权利要求1所述的参数调优方法,其特征在于,所述将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,并参与下一轮迭代,依次循环,直至各集群的收敛数量达到预设阈值时,结束所述分布式机器学习的步骤,包括:
将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数,参与下一轮迭代,并判断下一轮迭代完成后各集群的收敛数量是否达到预设阈值;
若否,则返回步骤:将各集群各自对应的第二参数作为各集群各自对应的下一轮迭代的输入参数;
若是,则结束所述分布式机器学习。
9.一种参数调优装置,其特征在于,所述参数调优装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的参数调优程序,所述参数调优程序被所述处理器执行时实现如权利要求1至8中任一项所述参数调优方法的步骤。
10.一种计算机可读存储介质,其上存储有参数调优程序,其特征在于,所述参数调优程序被处理器执行时实现如权利要求1至8中任一项所述参数调优方法的步骤。
CN201911424296.9A 2019-12-31 2019-12-31 参数调优方法、装置及计算机存储介质 Active CN111144584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911424296.9A CN111144584B (zh) 2019-12-31 2019-12-31 参数调优方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911424296.9A CN111144584B (zh) 2019-12-31 2019-12-31 参数调优方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111144584A true CN111144584A (zh) 2020-05-12
CN111144584B CN111144584B (zh) 2024-01-19

Family

ID=70523149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911424296.9A Active CN111144584B (zh) 2019-12-31 2019-12-31 参数调优方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111144584B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052958A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 模型训练的方法、装置、设备及计算机可读存储介质
CN112235384A (zh) * 2020-10-09 2021-01-15 腾讯科技(深圳)有限公司 分布式系统中的数据传输方法、装置、设备及存储介质
CN113569063A (zh) * 2021-07-28 2021-10-29 深圳Tcl新技术有限公司 用户分析方法、系统及存储介质和终端设备
CN113656494A (zh) * 2021-07-27 2021-11-16 中南大学 参数服务器的同步方法、系统及可读存储介质
CN114822863A (zh) * 2022-05-12 2022-07-29 浙江大学 基于联邦学习系统的医疗数据分析方法、设备、存储介质和程序产品
US11494700B2 (en) * 2020-09-16 2022-11-08 International Business Machines Corporation Semantic learning in a federated learning system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160007130A1 (en) * 2014-07-07 2016-01-07 Adobe Systems Incorporated Performance Metric Based Stopping Criteria for Iterative Algorithms
US20170039485A1 (en) * 2015-08-07 2017-02-09 Nec Laboratories America, Inc. System and Method for Balancing Computation with Communication in Parallel Learning
CN107018184A (zh) * 2017-03-28 2017-08-04 华中科技大学 分布式深度神经网络集群分组同步优化方法及系统
CN107229518A (zh) * 2016-03-26 2017-10-03 阿里巴巴集团控股有限公司 一种分布式集群训练方法和装置
CN108009642A (zh) * 2016-10-31 2018-05-08 腾讯科技(深圳)有限公司 分布式机器学习方法和系统
US20190197435A1 (en) * 2017-12-21 2019-06-27 Fujitsu Limited Estimation method and apparatus
CN110046048A (zh) * 2019-04-18 2019-07-23 杭州电子科技大学 一种基于工作量自适应快速重分配的负载均衡方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160007130A1 (en) * 2014-07-07 2016-01-07 Adobe Systems Incorporated Performance Metric Based Stopping Criteria for Iterative Algorithms
US20170039485A1 (en) * 2015-08-07 2017-02-09 Nec Laboratories America, Inc. System and Method for Balancing Computation with Communication in Parallel Learning
CN107229518A (zh) * 2016-03-26 2017-10-03 阿里巴巴集团控股有限公司 一种分布式集群训练方法和装置
CN108009642A (zh) * 2016-10-31 2018-05-08 腾讯科技(深圳)有限公司 分布式机器学习方法和系统
US20190171952A1 (en) * 2016-10-31 2019-06-06 Tencent Technology (Shenzhen) Company Limited Distributed machine learning method and system
CN107018184A (zh) * 2017-03-28 2017-08-04 华中科技大学 分布式深度神经网络集群分组同步优化方法及系统
US20190197435A1 (en) * 2017-12-21 2019-06-27 Fujitsu Limited Estimation method and apparatus
CN110046048A (zh) * 2019-04-18 2019-07-23 杭州电子科技大学 一种基于工作量自适应快速重分配的负载均衡方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052958A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 模型训练的方法、装置、设备及计算机可读存储介质
US11494700B2 (en) * 2020-09-16 2022-11-08 International Business Machines Corporation Semantic learning in a federated learning system
US20220383132A1 (en) * 2020-09-16 2022-12-01 International Business Machines Corporation Semantic learning in a federated learning system
US11681951B2 (en) * 2020-09-16 2023-06-20 International Business Machines Corporation Semantic learning in a federated learning system
CN112235384A (zh) * 2020-10-09 2021-01-15 腾讯科技(深圳)有限公司 分布式系统中的数据传输方法、装置、设备及存储介质
CN112235384B (zh) * 2020-10-09 2023-10-31 腾讯科技(深圳)有限公司 分布式系统中的数据传输方法、装置、设备及存储介质
CN113656494A (zh) * 2021-07-27 2021-11-16 中南大学 参数服务器的同步方法、系统及可读存储介质
CN113656494B (zh) * 2021-07-27 2024-06-07 中南大学 参数服务器的同步方法、系统及可读存储介质
CN113569063A (zh) * 2021-07-28 2021-10-29 深圳Tcl新技术有限公司 用户分析方法、系统及存储介质和终端设备
CN114822863A (zh) * 2022-05-12 2022-07-29 浙江大学 基于联邦学习系统的医疗数据分析方法、设备、存储介质和程序产品
CN114822863B (zh) * 2022-05-12 2023-03-24 浙江大学 基于联邦学习系统的医疗数据分析方法、设备和存储介质

Also Published As

Publication number Publication date
CN111144584B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN111144584A (zh) 参数调优方法、装置及计算机存储介质
CN106250381B (zh) 用于确定表格式存储的列布局的系统和方法
US20140012532A1 (en) System, method, and computer program product for simultaneously determining settings for a plurality of parameter variations
CN110866555A (zh) 增量数据的聚类方法、装置、设备及可读存储介质
CN108134961A (zh) 视频过滤方法、移动终端及计算机可读存储介质
CN116339932A (zh) 资源调度方法、装置和服务器
CN113254215B (zh) 数据处理方法和装置、存储介质及电子设备
CN110555861A (zh) 光流计算方法、装置及电子设备
CN108289115B (zh) 一种信息处理方法及系统
CN111709473B (zh) 对象特征的聚类方法及装置
CN110392115B (zh) 区块链节点管理方法、装置和可读存储介质
CN111221827B (zh) 基于图形处理器的数据库表连接方法、装置、计算机设备和存储介质
CN110069997B (zh) 场景分类方法、装置及电子设备
CN112306452A (zh) 归并排序算法处理业务数据的方法、装置及系统
CN111127481A (zh) 基于tof图像联通区域的图像识别方法及装置
CN108416426B (zh) 数据处理方法、装置及计算机可读存储介质
CN113792875B (zh) 一种分布式通信库的性能测试方法、装置、设备及介质
CN110796200B (zh) 数据分类方法、终端、装置及存储介质
CN111461328B (zh) 一种神经网络的训练方法
CN113051126B (zh) 画像构建方法、装置、设备及存储介质
WO2021017546A1 (zh) 神经网络量化方法、装置、芯片、电子设备及板卡
CN107566347B (zh) 滚动码学习检测方法及装置、设备和计算机可读存储介质
CN110222590B (zh) 图像差异判断方法、装置及电子设备
WO2020207316A1 (zh) 设备资源配置方法、装置、存储介质及电子设备
CN113568741A (zh) 分布式系统的服务扩缩容方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant