CN109871958B - 训练模型的方法、装置及设备 - Google Patents
训练模型的方法、装置及设备 Download PDFInfo
- Publication number
- CN109871958B CN109871958B CN201910104282.2A CN201910104282A CN109871958B CN 109871958 B CN109871958 B CN 109871958B CN 201910104282 A CN201910104282 A CN 201910104282A CN 109871958 B CN109871958 B CN 109871958B
- Authority
- CN
- China
- Prior art keywords
- training
- parameter
- current node
- round
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Computer And Data Communications (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种训练模型的方法、装置及设备,所述方法包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。本发明可以大大降低方案对参数服务器的依赖性,并且,由于基于接收到的其他节点发送的参数矩阵确定当前节点的下一轮训练的参数矩阵,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种训练模型的方法、装置及设备。
背景技术
机器学习是人工智能领域的重要技术之一,其可利用样本数据集训练选定的机器学习模型,进而可利用训练好的模型进行特定工作。
现有技术中当面对包含较大数据元(如,成套医学影像数据所组成的单个数据元等)的样本数据集时,通常采用分布式训练方案,即通过分布式集群中的多个节点对训练数据集进行训练,然后在每轮训练结束后将各个节点得到的模型参数发送给参数服务器进行均值化处理,进而各个节点再根据均值化以后的模型参数进行下一轮训练。
然而,上述方案对参数服务器的依赖性比较强,一旦参数服务器发生故障,将会导致整个分布式集群无法运行。
发明内容
有鉴于此,本发明提出一种训练模型的方法、装置及设备以解决上述技术问题。
为了达到上述目的,本发明所采用的技术方案为:
根据本发明实施例的第一方面,提出了一种训练模型的方法,包括:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
根据本发明实施例的第二方面,提出了一种训练模型的装置,包括:
参数矩阵接收模块,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;
下轮参数确定模块,用于当所述当前节点完成所述本轮训练后,且接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
下轮训练控制模块,用于基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
根据本发明实施例的第三方面,提出了一种电子设备,所述电子设备包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
根据本发明实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
与现有技术相比较,本发明的训练模型的方法,通过在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,并当所述当前节点完成所述本轮训练后,接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵,进而基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练,可以大大降低方案对参数服务器的依赖性,并且,由于基于接收到的其他节点发送的参数矩阵确定当前节点的下一轮训练的参数矩阵,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。
附图说明
图1示出了根据本发明的第一示例性实施例的训练模型的方法的流程图;
图2示出了根据本发明的第二示例性实施例的训练模型的方法的流程图;
图3示出了根据本发明的第三示例性实施例的训练模型的方法的流程图;
图4示出了根据本发明的第四示例性实施例的训练模型的方法的流程图;
图5示出了根据本发明的一示例性实施例的训练模型的装置的结构框图;
图6示出了根据本发明的另一示例性实施例的训练模型的装置的结构框图;
图7示出了根据本发明的一示例性实施例的训练模型的电子设备的结构框图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二等来描述各种结构,但这些结构不应限于这些术语。这些术语仅用来将同一类型的结构彼此区分开。
图1示出了根据本发明的第一示例性实施例的训练模型的方法的流程图;该实施例可以用于进行机器学习的分布式集群(如,多台服务器组成的服务器集群等)。
如图1所示,该方法包括以下步骤S101-S103:
在步骤S101中,在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵。
在一实施例中,上述分布式集群中可以包括多个节点,其中,当前节点可以为该分布式集群中的任一服务器节点,本实施例对此不进行限定。
在一实施例中,上述参数矩阵包括当前机器学习针对的模型参数所组成的矩阵。
在一实施例中,分布式集群中的当前节点可以基于当前已确定的本轮参数矩阵进行本轮训练,并在本轮训练过程中接收该集群中的其他节点发送的参数矩阵。
总的来说,分布式集群中的各个节点可以基于各自的本轮参数矩阵进行本轮训练,并在训练过程中接收其他节点发送的参数矩阵。
在步骤S102中,当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
在一实施例中,当上述当前节点完成本轮训练后,可以统计当前接收到的参数矩阵的数量,并将该数量与预设阈值进行比较。
在一实施例中,当确定接收到的参数矩阵的数量大于或等于预设阈值时,可以基于接收到的参数矩阵和当前节点完成本轮训练后得到的参数矩阵确定下一轮参数矩阵。其中,下一轮参数矩阵可以用于当前节点进行下一轮训练。
在一实施例中,上述基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵的方式可以由开发人员根据实际需要进行设置,例如可以设置为计算接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵的均值或加权和等,本实施例对此不仅限定。
在步骤S103中,基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
在一实施例中,当基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵后,可以基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练,即控制所述当前节点基于所述下一轮参数矩阵进行下一轮训练。
由上述描述可知,本实施例通过在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,并当所述当前节点完成所述本轮训练后,接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵,进而基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练,可以大大降低方案对参数服务器的依赖性,并且,由于基于接收到的其他节点发送的参数矩阵确定当前节点的下一轮训练的参数矩阵,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。
图2示出了根据本发明的第二示例性实施例的训练模型的方法的流程图;该实施例可以用于进行机器学习的分布式集群(如,多台服务器组成的服务器集群等)。
如图2所示,该方法包括以下步骤S201-S205:
在步骤S201中,在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵。
在步骤S202中,当所述当前节点完成所述本轮训练后,判断接收到的参数矩阵的数量是否大于或等于预设阈值:若是,则执行步骤S203;若否,则执行步骤S204;
在步骤S203中,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
在步骤S204中,基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
在一实施例中,当接收到的参数矩阵的数量小于预设阈值时,可以基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
在一实施例中,可以预先设置一个预设时间,例如3min等,进而当接收到的参数矩阵的数量小于预设阈值时,可以基于当前时刻以后3min内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
值得说明的是,上述预设时间的长度可以由开发人员根据实际业务需要进行设置,如设置为3min、5min等,本实施例对此不仅限定。
在一实施例中,若连续N个轮次接收到的参数矩阵的数量大于或等于预设阈值,则可以缩短上述预设时间,其中,所述N为预设正整数。
举例来说,假设N=3,当连续3个轮次接收到的参数矩阵的数量大于或等于预设阈值是,可以缩短上述预设时间,例如将上述预设时间由3min缩短为2min。
在步骤S205中,基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
其中,步骤S201-S203、S205的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过当接收到的参数矩阵的数量小于预设阈值时,基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵,可以实现当接收到的参数矩阵的数量不符合预期时,通过延长接收参数矩阵的时长来获取更多的参数矩阵,进而确保计算下一轮参数矩阵的矩阵数量,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。
图3示出了根据本发明的第三示例性实施例的训练模型的方法的流程图;该实施例可以用于进行机器学习的分布式集群(如,多台服务器组成的服务器集群等)。
如图3所示,该方法包括以下步骤S301-S304:
在步骤S301中,在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵。
在步骤S302中,当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
在步骤S303中,基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
其中,步骤S301-S303的相关解释和说明可以参见上述实施例,在此不进行赘述。
在步骤S304中,将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。
在一实施例中,上述分布式集群中的各个节点可以基于各自的本轮参数矩阵进行本轮训练,并在训练过程中接收其他节点发送的参数矩阵;进而,当完成所述本轮训练后,可以将得到的参数矩阵发送给所述其他节点,以供其他节点基于接收到的参数矩阵和自身训练得到的参数矩阵进行下一轮训练。
由上述描述可知,本实施例通过将当前节点完成所述本轮训练后得到的参数矩阵发送给其他节点,可以实现其他节点基于接收到的参数矩阵和自身训练得到的参数矩阵进行下一轮训练,进而可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。
图4示出了根据本发明的第四示例性实施例的训练模型的方法的流程图;该实施例可以用于进行机器学习的分布式集群(如,多台服务器组成的服务器集群等)。
如图4所示,该方法包括以下步骤S401-S407:
在步骤S401中,在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵。
在步骤S402中,当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
在步骤S403中,基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
其中,步骤S401-S403的相关解释和说明可以参见上述实施例,在此不进行赘述。
在步骤S404中,判断所述当前节点的训练效率是否低于所述分布式集群中各节点的平均训练效率:若是,则执行步骤S405;若否,则执行步骤S406;
在步骤S405中,减少所述当前节点的训练样本数量。
在步骤S406中,恢复所述当前节点的训练样本数量。
在一实施例中,在当前节点进行训练的过程中可以检测当前节点的训练效率,并将当前节点的训练效率与分布式集群中各节点的平均训练效率进行对比;若确定当前节点的训练效率低于各节点的平均训练效率时,可以减少当前节点的训练样本数量,以提升该节点的训练效率,进而可以提高当前节点向其他节点发送参数矩阵的频率。
在一实施例中,上述减少当前节点的训练样本数量的方式可以由开发人员根据业务需要进行自由设置,本实施例对此不进行限定。
在另一实施例中,当确定当前节点的训练效率高于各节点的平均训练效率时,可以恢复所述当前节点的训练样本数量。
在一实施例中,上述恢复当前节点的训练样本数量的方式与上述减少当前节点的训练样本数量的方式相对应,其可以由开发人员根据业务需要进行自由设置,本实施例对此不进行限定。
在一实施例中,为了避免训练样本数量的频繁变动,可以当检测到所述当前节点的训练效率比所述平均训练效率高出预设比例时,恢复所述当前节点的训练样本数量。其中,预设比例的数值可以由开发人员根据实际业务需要进行设置,如设置为10%、20%等,本实施例对此不进行限定。
在步骤S407中,若检测到所述当前节点相比于所述其他节点最早完成预设轮数的训练,则基于所述当前节点最后得到的参数矩阵得到训练模型。
在一实施例中,可以预先设置模型的训练轮数,进而当检测到当前节点相比于所述其他节点最早完成预设轮数的训练时,可以基于所述当前节点最后得到的参数矩阵得到训练模型。
在一实施例中,上述基于所述当前节点最后得到的参数矩阵得到训练模型的方式可以参见现有技术中的解释和说明,本实施例对此不进行限定。
由上述描述可知,本实施例通过当检测到当前节点的训练效率低于所述分布式集群中各节点的平均训练效率时,减少当前节点的训练样本数量,可以提升当前节点的训练效率,进而可以提高当前节点向其他节点发送参数矩阵的频率,进而当检测到当前节点的训练效率比平均训练效率高出预设比例时,恢复当前节点的训练样本数量,可以提升当前节点的训练效果,进一步地,通过在检测到当前节点相比于其他节点最早完成预设轮数的训练时,基于所述当前节点最后得到的参数矩阵得到训练模型,可以实现基于最早完成训练的节点得到的参数矩阵得到训练模型,可以保证模型的训练效率。
图5示出了根据本发明的一示例性实施例的训练模型的装置的结构框图;如图5所示,该装置包括:参数矩阵接收模块110、下轮参数确定模块120以及下轮训练控制模块130,其中:
参数矩阵接收模块110,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;
下轮参数确定模块120,用于当所述当前节点完成所述本轮训练后,且接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
下轮训练控制模块130,用于基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
由上述描述可知,本实施例通过在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,并当所述当前节点完成所述本轮训练后,接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵,进而基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练,可以大大降低方案对参数服务器的依赖性,并且,由于基于接收到的其他节点发送的参数矩阵确定当前节点的下一轮训练的参数矩阵,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。
图6示出了根据本发明的另一示例性实施例的训练模型的装置的结构框图;其中,参数矩阵接收模块210、下轮参数确定模块220以及下轮训练控制模块230与前述图5所示实施例中的参数矩阵接收模块110、下轮参数确定模块120以及下轮训练控制模块130的功能相同,在此不进行赘述。如图6所示,下轮参数确定模块220,还可以用于当接收到的参数矩阵的数量小于预设阈值时,基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
在一实施例中,下轮参数确定模块220,还可以用于当连续N个轮次接收到的参数矩阵的数量大于或等于预设阈值时,缩短所述预设时间,所述N为预设正整数。
在一实施例中,装置还可以包括:
参数矩阵发送模块240,用于将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。
在一实施例中,装置还可以包括:
训练样本数量减少模块250,用于当检测到所述当前节点的训练效率低于所述分布式集群中各节点的平均训练效率时,减少所述当前节点的训练样本数量。
在一实施例中,装置还可以包括:
训练样本数量恢复模块260,用于当检测到所述当前节点的训练效率比所述平均训练效率高出预设比例时,恢复所述当前节点的训练样本数量。
在一实施例中,装置还可以包括:
训练模型获取模块270,用于当检测到所述当前节点相比于所述其他节点最早完成预设轮数的训练时,基于所述当前节点最后得到的参数矩阵得到训练模型。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明训练模型的装置的实施例可以应用在网络设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明的训练模型的装置所在电子设备的一种硬件结构图,除了图7所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现以下任务处理方法:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由本申请的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (14)
1.一种训练模型的方法,其特征在于,所述方法用于基于机器学习技术,并利用样本数据集训练选定的机器学习模型,所述样本数据集包含成套医学影像数据所组成的单个数据元,训练好的所述机器学习模型用于进行与医学影像数据处理相关的特定工作;
所述方法包括:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,所述参数矩阵包括当前机器学习针对的模型参数所组成的矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练;
所述方法还包括:
将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若接收到的参数矩阵的数量小于预设阈值,则基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若连续N个轮次接收到的参数矩阵的数量大于或等于预设阈值,则缩短所述预设时间,所述N为预设正整数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若检测到所述当前节点的训练效率低于所述分布式集群中各节点的平均训练效率,则减少所述当前节点的训练样本数量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若检测到所述当前节点的训练效率比所述平均训练效率高出预设比例,则恢复所述当前节点的训练样本数量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若检测到所述当前节点相比于所述其他节点最早完成预设轮数的训练,则基于所述当前节点最后得到的参数矩阵得到训练模型。
7.一种训练模型的装置,其特征在于,所述装置用于基于机器学习技术,并利用样本数据集训练选定的机器学习模型,所述样本数据集包含成套医学影像数据所组成的单个数据元,训练好的所述机器学习模型用于进行与医学影像数据处理相关的特定工作;
所述装置包括:
参数矩阵接收模块,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,所述参数矩阵包括当前机器学习针对的模型参数所组成的矩阵;
下轮参数确定模块,用于当所述当前节点完成所述本轮训练后,且接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
下轮训练控制模块,用于基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练;
所述装置还包括:
参数矩阵发送模块,用于将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。
8.根据权利要求7所述的装置,其特征在于,所述下轮参数确定模块,还用于当接收到的参数矩阵的数量小于预设阈值时,基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。
9.根据权利要求8所述的装置,其特征在于,所述下轮参数确定模块,还用于当连续N个轮次接收到的参数矩阵的数量大于或等于预设阈值时,缩短所述预设时间,所述N为预设正整数。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练样本数量减少模块,用于当检测到所述当前节点的训练效率低于所述分布式集群中各节点的平均训练效率时,减少所述当前节点的训练样本数量。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
训练样本数量恢复模块,用于当检测到所述当前节点的训练效率比所述平均训练效率高出预设比例时,恢复所述当前节点的训练样本数量。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模型获取模块,用于当检测到所述当前节点相比于所述其他节点最早完成预设轮数的训练时,基于所述当前节点最后得到的参数矩阵得到训练模型。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行训练模型的方法,所述训练模型的方法用于基于机器学习技术,并利用样本数据集训练选定的机器学习模型,所述样本数据集包含成套医学影像数据所组成的单个数据元,训练好的所述机器学习模型用于进行与医学影像数据处理相关的特定工作;
所述训练模型的方法,包括:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,所述参数矩阵包括当前机器学习针对的模型参数所组成的矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练;
还包括:
将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器处理时实现训练模型的方法,所述训练模型的方法用于基于机器学习技术,并利用样本数据集训练选定的机器学习模型,所述样本数据集包含成套医学影像数据所组成的单个数据元,训练好的所述机器学习模型用于进行与医学影像数据处理相关的特定工作;
所述训练模型的方法,包括:
在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,所述参数矩阵包括当前机器学习针对的模型参数所组成的矩阵;
当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;
基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练;
还包括:
将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910104282.2A CN109871958B (zh) | 2019-02-01 | 2019-02-01 | 训练模型的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910104282.2A CN109871958B (zh) | 2019-02-01 | 2019-02-01 | 训练模型的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871958A CN109871958A (zh) | 2019-06-11 |
CN109871958B true CN109871958B (zh) | 2023-07-28 |
Family
ID=66918561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910104282.2A Active CN109871958B (zh) | 2019-02-01 | 2019-02-01 | 训练模型的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871958B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115020A (zh) * | 2021-03-22 | 2022-09-27 | 华为技术有限公司 | 数据处理方法及装置 |
CN113569971B (zh) * | 2021-08-02 | 2022-03-25 | 浙江索思科技有限公司 | 一种基于图像识别的渔获目标分类检测方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156810B (zh) * | 2015-04-26 | 2019-12-03 | 阿里巴巴集团控股有限公司 | 通用机器学习算法模型训练方法、系统和计算节点 |
US11087234B2 (en) * | 2016-01-29 | 2021-08-10 | Verizon Media Inc. | Method and system for distributed deep machine learning |
CN105956021B (zh) * | 2016-04-22 | 2019-05-21 | 华中科技大学 | 一种适用于分布式机器学习的自动化任务并行的方法及其系统 |
CN108234177A (zh) * | 2016-12-21 | 2018-06-29 | 深圳先进技术研究院 | 一种HBase配置参数自动调优方法及装置、用户设备 |
CN107451267B (zh) * | 2017-08-01 | 2020-02-21 | 东北大学 | 一种基于Spark平台的分布式推荐方法 |
CN108829441B (zh) * | 2018-05-14 | 2022-10-18 | 中山大学 | 一种分布式深度学习的参数更新优化系统 |
CN109032671B (zh) * | 2018-06-25 | 2022-05-03 | 电子科技大学 | 一种基于数据并行策略的分布式深度学习方法及系统 |
-
2019
- 2019-02-01 CN CN201910104282.2A patent/CN109871958B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109871958A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263921B (zh) | 一种联邦学习模型的训练方法及装置 | |
CN105677469B (zh) | 定时任务执行方法及装置 | |
CN109871958B (zh) | 训练模型的方法、装置及设备 | |
CN109254839B (zh) | 确定任务触发时间的方法、构建任务定时器的方法及系统 | |
CN109615058A (zh) | 一种神经网络模型的训练方法 | |
CN104182283B (zh) | 一种任务同步方法 | |
CN111491382B (zh) | 卫星容量分配方法、装置和电子设备 | |
CN107004003B (zh) | 模型参数融合方法及装置 | |
CN114186671A (zh) | 一种大批量的去中心化分布式图像分类器训练方法和系统 | |
CN112040001A (zh) | 一种基于分布式存储的请求处理方法及装置 | |
CN111209111A (zh) | 基于区块链系统的资源分配方法、装置、设备和存储介质 | |
CN114021861A (zh) | 一种电力负荷预测方法、装置、终端及存储介质 | |
JP2023519410A (ja) | 人工知能モデルを取得するための方法、装置、及びデバイス、並びに記憶媒体 | |
CN113743040B (zh) | 测试方法、装置、电子设备以及可读存储介质 | |
CN108900347A (zh) | 集群初始化配置方法、装置、系统、设备及可读存储介质 | |
CN109298934A (zh) | 心跳周期调整方法、装置及系统 | |
JP2023546903A (ja) | 非アクティブメモリ装置の優先更新 | |
CN113535365A (zh) | 基于强化学习的深度学习训练作业资源放置系统及方法 | |
CN108683612B (zh) | 一种消息获取方法和装置 | |
CN111901500A (zh) | 图像处理方法和装置、存储介质及电子装置 | |
US20200410359A1 (en) | Computing device and parameter synchronization method implemented by computing device | |
CN111323775A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114528893A (zh) | 机器学习模型训练方法、电子设备及存储介质 | |
CN112395072A (zh) | 模型部署的方法、装置、存储介质及电子设备 | |
CN116755866B (zh) | 一种资源调度方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |