CN112799834B - 训练数据分发方法、装置、电子设备及存储介质 - Google Patents

训练数据分发方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112799834B
CN112799834B CN202110105231.9A CN202110105231A CN112799834B CN 112799834 B CN112799834 B CN 112799834B CN 202110105231 A CN202110105231 A CN 202110105231A CN 112799834 B CN112799834 B CN 112799834B
Authority
CN
China
Prior art keywords
training data
data
training
computing node
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110105231.9A
Other languages
English (en)
Other versions
CN112799834A (zh
Inventor
周亦庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202110105231.9A priority Critical patent/CN112799834B/zh
Publication of CN112799834A publication Critical patent/CN112799834A/zh
Application granted granted Critical
Publication of CN112799834B publication Critical patent/CN112799834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种训练数据分发方法、装置、电子设备及存储介质,该方法由计算机集群中的目标计算节点执行,包括:获取训练数据,并将训练数据保存在目标计算节点的数据队列中;当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数;通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点。本发明由于通过将一个计算节点获取到的训练数据平均分配到每一个计算节点中,所以每个计算节点使用的训练数据来自于同一分布,提高了每个计算节点的数据同步性,有利于提高对正负难样本的挖掘能力,有利于提高神经网络模型准确率。

Description

训练数据分发方法、装置、电子设备及存储介质
技术领域
本发明涉及神经网络技术领域,特别是涉及一种训练数据分发方法、装置、电子设备及存储介质。
背景技术
训练数据的供应是卷积神经网络训练过程中最重要的环节之一。在一般训练任务(如分类和检测)中,训练数据满足独立同分布的特性,因此各训练设备可以独立地在本地生产或从网络上流式地接收数据。然而,在识别任务中,往往采用了涉及正负样本的对比损失函数(contrastive loss)或三元组损失函数(triplet loss),因此,生产的同一批次的训练数据需要满足特定的密集的分布,否则其中正负样本的距离比较将变得没有价值。
现有的数据并行训练框架下,一个计算节点(compute node)上的一批次数据会被拆分到节点上的多个计算设备(如图形计算单元GPU)上分别计算;不同计算节点独立生产或接收训练数据。由于不同计算节点独立生产或接收的训练数据分布不同,因此跨计算节点的样本距离往往较远,“有效”的正负样本的比对只能在单个计算节点的尺度下进行,从而限制了挖掘更多更难的正负样本对,最终限制了神经网络模型准确率的提高。另外,随着神经网络模型规模的扩大,单个计算节点能承载的批量在逐渐缩小,进一步阻碍了正负难样本的挖掘能力,限制了神经网络模型准确率的提高。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种训练数据分发方法、装置、电子设备及存储介质。
依据本发明实施例的第一方面,提供了一种训练数据分发方法,由计算机集群中的目标计算节点执行,包括:
获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中;
当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
依据本发明实施例的第二方面,提供了一种训练数据分发装置,包括:
训练数据获取模块,用于获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中;
训练数据划分模块,用于当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
训练数据分发模块,用于通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
依据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中所述的训练数据分发方法。
依据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的训练数据分发方法。
本发明实施例提供的训练数据分发方法、装置、电子设备及存储介质,通过将获取到的训练数据保存在目标计算节点的数据队列中,当数据队列中的训练数据的数据量达到第一目标数据量时,将训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数,通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点,由于通过将一个计算节点获取到的训练数据平均分配到每一个计算节点中,所以每个计算节点使用的训练数据来自于同一分布,提高了每个计算节点的数据同步性,有利于提高对正负难样本的挖掘能力,有利于提高神经网络模型准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1是本发明实施例提供的一种训练数据分发方法的步骤流程图;
图2是本发明实施例提供的一种训练数据分发方法的步骤流程图;
图3是本发明实施例中的通过完全交换算子实现全局数据交换的示意图;
图4是本发明实施例提供的一种训练数据分发方法的步骤流程图;
图5是本发明实施例中的通过分散算子来分发数据的示意图;
图6是本发明实施例提供的一种训练数据分发装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种训练数据分发方法的步骤流程图,该训练数据的分发方法可以由执行神经网络模型训练的计算机集群中的目标计算节点来执行,所述目标计算节点包括一个计算节点或多个计算节点。当目标计算节点包括多个计算节点时,每个计算节点分别执行所述训练数据的分发方法,如图1所示,该方法可以包括:
步骤101,获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中。
当前的目标计算节点可以通过在本地生产训练数据或从网络上流式地接收训练数据的方式来获取训练数据,将获取到的训练数据保存在当前的目标计算节点的数据队列中。其中,所述训练数据可以是图像数据、视频数据、语音数据和文本数据等中的至少一种。
步骤102,当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数。
当前的目标计算节点对该目标计算节点的数据队列中的训练数据的数据量进行监控,当数据队列中的训练数据的数据量达到第一目标数据量时,取出数据队列中的训练数据,通过集合通信的方式将第一目标数据量的训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数。其中,第一目标数据量是提供给所有计算节点进行整数轮次(如一轮次)迭代训练所需的数据量,例如,计算机集群共有4个计算节点时,单个节点一轮次迭代所需的数据量为1024,则第一目标数据量可以为4096。
步骤103,通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
当前的目标计算节点在将训练数据平均划分为与计算机集群中计算节点的总数量相同的份数后,通过集合通信的方式保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点,使得每一个其他计算节点均接收到一份训练数据,即在一个计算节点一次训练数据的分发过程中每一个计算节点均接收到一份训练数据。其中,集合通信是一组进程间的通信,当前的目标计算节点和每一个其他计算节点均使用OpenMPI提供的开源集合通信算子来进行集合通信。
其中,一份所述训练数据用于一轮次迭代训练中,即一个计算节点获得一份训练数据,这一份训练数据用于本计算节点的一次迭代训练中。当前的目标计算节点和每一个其他计算节点为组成执行神经网络模型训练的计算机集群。
本实施例提供的训练数据分发方法,通过将获取到的训练数据保存在目标计算节点的数据队列中,当数据队列中的训练数据的数据量达到第一目标数据量时,将训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数,通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点,由于通过将一个计算节点获取到训练数据平均分配到计算机集群中每一个计算节点中,所以每个计算节点使用的训练数据来自于同一分布,提高了每个计算节点的数据同步性,有利于提高对正负难样本的挖掘能力,有利于提高神经网络模型准确率。
在上述技术方案的基础上,所述方法还包括:
在接收到其他计算节点发送的训练数据时,按照预设的节点数据排列方式,排列所述目标计算节点保留的训练数据和接收到的训练数据。
除了当前的目标计算节点外,计算机集群其他计算节点也可以分发训练数据。当前的目标计算节点在接收到其他计算节点发送的训练数据时,按照预设的节点数据排列方式,对当前的目标计算节点保留的训练数据和接收到的其他计算节点的训练数据进行排列,以保证各个计算节点每一轮次的迭代训练使用的训练数据来自于同一分布。其中,所述节点数据排列方式规定了产生训练数据的计算节点所分发的训练数据的排列方式,可以按照预先设置的计算节点排列方式来排列每个计算节点所分发的训练数据,例如在有2个计算节点产生并分发训练数据时,节点数据排列方式可以是首先排列计算节点1的训练数据,之后排列计算节点2的训练数据,再有新的训练数据时,再按照这样的节点数据排列方式进行排列。
在上述技术方案的基础上,在所述排列所述目标计算节点保留的训练数据和接收到的训练数据之后,还包括:将排列后的训练数据保存至训练队列中,以供训练进程获取。
将排列后的训练数据按照顺序保存至当前的目标计算节点的训练队列中,训练进程可以从训练队列中获取训练数据,以对神经网络模型进行训练。由于训练队列中的训练数据是按照节点数据排列方式保存的,从而每一个计算节点的训练队列中保存的训练数据的顺序相同,每一个计算节点的训练进程获取训练数据对神经网络模型进行一轮次的迭代训练时,使用的训练数据来自于相同的计算节点,从而这些训练数据来自于同一分布,提高了训练数据的同步性。
在上述技术方案的基础上,在所述将排列后的训练数据保存至训练队列中之后,还包括:通过所述训练进程从所述训练队列中获取第二目标数据量的训练数据,并使用所述第二目标数据量的训练数据对神经网络模型进行训练,得到第一模型梯度;将所述第一模型梯度发送至所述计算机集群中的每一个其他计算节点,并接收每一个其他计算节点发送的模型梯度;确定所述第一模型梯度和每一个其他计算节点的模型梯度的均值,得到梯度均值,并根据所述梯度均值对所述神经网络模型的网络参数进行调整。
其中,所述第二目标数据量小于或等于所述第一目标数据量,且所述第一目标数据量为所述第二目标数据量的整数倍。
通过训练进程从训练队列中获取第二目标数据量的训练数据,并将第二目标数据量的训练数据分别输入神经网络模型,获取输出数据,根据输出数据和训练数据中的标注计算损失值,根据损失值确定模型梯度,得到第一模型梯度,将第一模型梯度分别发送至计算机集群中的每一个其他计算节点,由于计算机集群中的所有计算节点并行对神经网络模型进行训练,所以当前的目标计算节点也会接收到每一其他计算节点发送的模型梯度,计算第一模型梯度和每一个其他计算节点的模型梯度的均值,得到梯度均值,根据梯度均值对神经网络模型的网络参数进行调整,完成本轮次的训练。计算机集群中每一个其他计算节点也计算所有计算节点训练得到的模型梯度的均值,得到梯度均值,根据梯度均值对神经网络模型的网络参数进行调整,由于在进行一个轮次的训练时,所有计算节点使用的训练数据来自于同一计算节点,从而所有计算节点的训练数据是同分布的,提高了训练数据的同步性。
图2是本发明实施例提供的一种训练数据分发方法的步骤流程图,本实施例在上述实施例的基础上,采用集合通信中的完全交换算子来实现,如图2所示,该方法可以包括:
步骤201,获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中。
步骤202,通过集合通信中的完全交换算子在所述数据队列中的训练数据的数据量达到第一目标数据量,且每一个其他计算节点获取到的训练数据达到第一目标数据量时,将所述数据队列中的训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数。
通过集合通信中的完全交换(All-to-All)算子对数据队列中的训练数据的数据量进行监控,并与其他计算节点的完全交换算子进行集合通信,当前的目标计算节点数据队列中的训练数据的数据量达到第一目标数据量时,等待每一个其他计算节点获取到的训练数据均达到第一目标数据量时,将当前的目标计算节点的数据队列中的训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数,每一个其他计算节点也将各自的训练队列中的训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数。
步骤203,通过集合通信中的完全交换算子保留一份训练数据,将其他份数的的训练数据分别发送至所述计算机集群中每一个其他计算节点,并接收每一个其他计算节点发送的一份训练数据。
在每一个计算节点均将各自训练队列中的训练数据划分为与计算机集群中所有计算节点的总数量相同的份数后,通过集合通信中的完全交换算子将划分后的训练数据和每一个其他计算节点划分后的训练数据进行全局的数据交换,即每个计算节点(包括当前的目标计算节点和其他计算节点)均保留一份自己的训练数据,将其他份数的训练数据分别发送至每一个其他计算节点。通过一次全局交换,提供了N轮迭代训练所需的数据,N为神经网络模型训练所需要的计算节点的数量。
图3是本发明实施例中的通过完全交换算子实现全局数据交换的示意图,如图3所示,神经网络模型训练时使用4个计算节点来进行训练,这4个计算节点分别产生或接收网络上的训练数据,并保存在各自的数据队列中,这4个计算节点的数据队列中的训练数据的数据量均达到第一目标数据量(4096)时,同时调用集合通信中的完全交换算子进行全局数据的重新排列,即将每一个计算节点中的训练数据平均划分为与计算节点的总数量相同的份数(4份),并各自保留一份训练数据,将其他份数的训练数据分别发送至每一个其他计算节点,使得每一个计算节点均保留有各自的训练数据和其他每一个计算节点的训练数据,实现全局的数据交换。每一个计算节点将给自身保留的训练数据和接收到的每一个其他计算节点的训练数据按照预设的节点数据排列方式,排列每一份训练数据,如图3按照节点0、节点1、节点2、节点3的排列方式排列每一份训练数据,并将排列后的训练数据保存至各自的训练队列中,从而每一个计算节点保存的各份训练数据的顺序相同,在对神经网络模型进行训练时,在一轮次的迭代训练中,各个计算节点使用的训练数据来自于同一个计算节点,从而保证了各个计算节点使用的训练数据是同分布的。
本实施例提供的训练数据分发方法,通过将获取到的训练数据保存在数据队列中,通过集合通信中的完全交换算子在数据队列中的训练数据的数据量达到第一目标数据量,且每一个其他计算节点获取到的训练数据达到第一目标数据量时,将数据队列中的训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数,并通过集合通信中的完全交换算子将划分后的训练数据和每一个其他计算节点划分后的训练数据进行全局的数据交换,通过完全交换使得每一个计算节点在一轮的迭代训练中使用相同计算节点产生的训练数据,保证了一轮迭代训练所使用的训练数据来自于同一分布,提高了数据的同步性,可以提高神经网络模型的准确率。
图4是本发明实施例提供的一种训练数据分发方法的步骤流程图,本实施例在上述实施例的基础上,采用集合通信中的分散算子来实现,如图4所示,该方法可以包括:
步骤401,获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中。
当前的目标计算节点通过数据获取进程或数据获取线程来获取训练数据,并将获取到的训练数据保存在当前目标计算节点的数据队列中。
步骤402,周期性向每一个其他计算节点发送广播消息,所述广播消息包括所述目标计算节点的节点标识和数据队列中的数据是否非空,数据队列中训练数据的数据量达到第一目标数据量时为非空。
当前的目标计算节点通过广播进程或广播线程使用集合通信中的广播(Broadcast)算子向每一个其他计算节点发送广播消息,广播消息包括当前发送广播消息的当前目标计算节点的节点标识和数据队列中的数据是否非空,在数据队列中的训练数据的数据量达到第一目标数据量时,广播消息中数据队列中数据才为非空,在数据队列中的训练数据的数据量未达到第一目标数据量时,广播消息中数据队列中数据为空。其中,节点标识可以用秩(rank)表示。
需要说明的是,步骤401和步骤402是并行执行的,可以通过多进程或多线程来实现,即步骤401中通过数据获取进程获取训练数据时,步骤402通过广播进程发送广播消息;步骤401中通过数据获取线程获取训练数据时,步骤402通过广播线程发送广播消息。
步骤403,在所述数据队列中的数据非空时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数。
当前计算节点在数据队列中的数据非空时,从数据队列中推出(pop)训练数据,并使用集合通信中分散(Scatter)算子将训练数据平均划分为与计算节点的数量相同的份数。
步骤404,通过集合通信中的分散算子保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
当前的目标计算节点通过集合通信中的分散算子保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点。每一个计算节点在接收到训练数据后,将训练数据缓存至各自的训练队列中,以供训练进程从训练队列中取用训练数据以对神经网络模型进行训练。
图5是本发明实施例中的通过分散算子来分发数据的示意图,如图5所示,神经网络模型训练时使用4个计算节点来进行训练,这4个计算节点中有2个计算节点获取训练数据,并各自周期性发送广播消息,如节点0在0时刻发送广播消息,节点1在1时刻发送广播消息,之后是节点0在2时刻发送广播消息,节点1在3时刻发送广播消息,即生产数据的计算节点各自分散发送广播消息。节点0在自身的数据队列中的数据非空时,从数据队列中取出训练数据,并平均划分为4份,保留一份训练数据,将其他份数的训练数据分别发送至节点1、节点2和节点3,节点1在自身的数据队列中的数据非空时,从数据队列中取出训练数据,并平均划分为4份,保留一份训练数据,将其他份数的训练数据分别发送至节点0、节点2和节点3。每个计算节点在保存节点0和节点1发送的训练数据时,均按照节点0、节点1的排列方式排列训练数据并保存至各自的训练队列中,以保证每个计算节点在对神经网络模型进行同一轮次的迭代训练时使用来自于同一计算节点的数据,保证数据的同分布性。
本实施例提供的训练数据分发方法,通过将获取到的训练数据保存在数据队列中,周期性向每一个其他计算节点发送广播消息,在数据队列中的数据非空时,将训练数据平均划分为与计算节点的数量相同的份数,通过集合通信中的分散算子保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点,使得每一个计算节点在一轮的迭代训练中使用相同计算节点产生的训练数据,保证了一轮迭代训练所使用的训练数据来自于同一分布,提高了数据的同步性,可以提高神经网络模型的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图6是本发明实施例提供的一种训练数据分发装置的结构框图,配置于计算机集群中的目标计算节点中,如图6所示,该训练数据分发装置可以包括:
训练数据获取模块601,用于获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中;
训练数据划分模块602,用于当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
训练数据分发模块603,用于通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
可选的,所述装置还包括:
训练数据排列模块,用于在接收到其他计算节点发送的训练数据时,按照预设的节点数据排列方式,排列所述目标计算节点保留的训练数据和接收到的训练数据。
可选的,所述装置还包括:
训练数据保存模块,用于将排列后的训练数据保存至训练队列中,以供训练进程获取。
可选的,所述装置还包括:
模型训练模块,用于通过所述训练进程从所述训练队列中获取第二目标数据量的训练数据,并使用所述第二目标数据量的训练数据对神经网络模型进行训练,得到第一模型梯度;
模型梯度交换模块,用于将所述第一模型梯度发送至所述计算机集群中的每一个其他计算节点,并接收每一个其他计算节点发送的模型梯度;
模型参数调整模块,用于确定所述第一模型梯度和每一个其他计算节点的模型梯度的均值,得到梯度均值,并根据所述梯度均值对所述神经网络模型的网络参数进行调整。
可选的,训练数据划分模块具体用于:
通过集合通信中的完全交换算子在所述数据队列中的训练数据的数据量达到第一目标数据量,且每一个其他计算节点获取到的训练数据达到第一目标数据量时,将所述数据队列中的训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
所述训练数据分发模块具体用于:
通过集合通信中的完全交换算子保留一份训练数据,将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点,并接收每一个其他计算节点发送的一份训练数据。
可选的,所述训练数据划分模块包括:
周期性广播单元,用于周期性向每一个其他计算节点发送广播消息,所述广播消息包括所述目标计算节点的节点标识和数据队列中的数据是否非空,数据队列中训练数据的数据量达到第一目标数据量时为非空;
训练数据划分单元,用于在所述数据队列中的数据非空时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数。
可选的,所述训练数据分发模块具体用于:
通过集合通信中的分散算子保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
可选的,一份所述训练数据用于一轮迭代训练中。
本实施例提供的训练数据分发装置,通过将获取到的训练数据保存在目标计算节点的数据队列中,当数据队列中的训练数据的数据量达到第一目标数据量时,将训练数据平均划分为与计算机集群中所有计算节点的总数量相同的份数,通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至计算机集群中每一个其他计算节点,由于通过将一个计算节点获取到训练数据平均分配到每一个计算节点中,所以每个计算节点使用的训练数据来自于同一分布,提高了每个计算节点的数据同步性,有利于提高对正负难样本的挖掘能力,有利于提高神经网络模型准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步地,根据本发明的一个实施例,提供了一种电子设备,所述电子设备可以为计算机等电子设备,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现前述实施例的训练数据分发方法。
根据本发明的一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例的训练数据分发方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种训练数据分发方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种训练数据分发方法,其特征在于,由计算机集群中的目标计算节点执行,包括:
获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中;
当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数,包括:
通过集合通信中的完全交换算子在所述数据队列中的训练数据的数据量达到第一目标数据量,且每一个其他计算节点获取到的训练数据达到第一目标数据量时,将所述数据队列中的训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点,包括:
通过集合通信中的完全交换算子保留一份训练数据,将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点,并接收每一个其他计算节点发送的一份训练数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
在接收到其他计算节点发送的训练数据时,按照预设的节点数据排列方式,排列所述目标计算节点保留的训练数据和接收到的训练数据。
3.根据权利要求2所述的方法,其特征在于,在所述排列所述目标计算节点保留的训练数据和接收到的训练数据之后,还包括:
将排列后的训练数据保存至训练队列中,以供训练进程获取。
4.根据权利要求3所述的方法,其特征在于,在所述将排列后的训练数据保存至训练队列中之后,还包括:
通过所述训练进程从所述训练队列中获取第二目标数据量的训练数据,并使用所述第二目标数据量的训练数据对神经网络模型进行训练,得到第一模型梯度;
将所述第一模型梯度发送至所述计算机集群中的每一个其他计算节点,并接收每一个其他计算节点发送的模型梯度;
确定所述第一模型梯度和每一个其他计算节点的模型梯度的均值,得到梯度均值,并根据所述梯度均值对所述神经网络模型的网络参数进行调整。
5.根据权利要求1至4任一项所述的方法,其特征在于,当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数,还包括:
周期性向每一个其他计算节点发送广播消息,所述广播消息包括所述目标计算节点的节点标识和数据队列中的数据是否非空,数据队列中训练数据的数据量达到第一目标数据量时为非空;
在所述数据队列中的数据非空时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数。
6.根据权利要求5所述的方法,其特征在于,所述通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点,还包括:
通过集合通信中的分散算子保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点。
7.根据权利要求1-6任一项所述的方法,其特征在于,一份所述训练数据用于一轮迭代训练中。
8.一种训练数据分发装置,配置于计算机集群中的目标计算节点中,其特征在于,包括:
训练数据获取模块,用于获取训练数据,并将训练数据保存在所述目标计算节点的数据队列中;
训练数据划分模块,用于当所述数据队列中的训练数据的数据量达到第一目标数据量时,将所述训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
训练数据分发模块,用于通过集合通信保留一份训练数据,并将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点;
所述训练数据划分模块,还用于通过集合通信中的完全交换算子在所述数据队列中的训练数据的数据量达到第一目标数据量,且每一个其他计算节点获取到的训练数据达到第一目标数据量时,将所述数据队列中的训练数据平均划分为与所述计算机集群中所有计算节点的总数量相同的份数;
所述训练数据分发模块,还用于通过集合通信中的完全交换算子保留一份训练数据,将其他份数的训练数据分别发送至所述计算机集群中每一个其他计算节点,并接收每一个其他计算节点发送的一份训练数据。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的训练数据分发方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的训练数据分发方法。
CN202110105231.9A 2021-01-26 2021-01-26 训练数据分发方法、装置、电子设备及存储介质 Active CN112799834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110105231.9A CN112799834B (zh) 2021-01-26 2021-01-26 训练数据分发方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110105231.9A CN112799834B (zh) 2021-01-26 2021-01-26 训练数据分发方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112799834A CN112799834A (zh) 2021-05-14
CN112799834B true CN112799834B (zh) 2024-05-07

Family

ID=75811914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110105231.9A Active CN112799834B (zh) 2021-01-26 2021-01-26 训练数据分发方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112799834B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167114A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种类Alexnet网络的模型训练方法和装置
WO2019128475A1 (zh) * 2017-12-29 2019-07-04 中兴通讯股份有限公司 数据训练方法及装置、存储介质、电子装置
CN110135575A (zh) * 2017-12-29 2019-08-16 英特尔公司 用于分布式机器学习的通信优化
CN111709533A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488008B2 (en) * 2017-05-05 2022-11-01 Intel Corporation Hardware implemented point to point communication primitives for machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167114A1 (zh) * 2016-03-31 2017-10-05 阿里巴巴集团控股有限公司 一种类Alexnet网络的模型训练方法和装置
WO2019128475A1 (zh) * 2017-12-29 2019-07-04 中兴通讯股份有限公司 数据训练方法及装置、存储介质、电子装置
CN110135575A (zh) * 2017-12-29 2019-08-16 英特尔公司 用于分布式机器学习的通信优化
CN111709533A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Spark Streaming的实时数据分析系统及其应用;韩德志;陈旭光;雷雨馨;戴永涛;张肖;;计算机应用(第05期);全文 *
基于分布式内存计算的深度学习方法;李抵非;田地;胡雄伟;;吉林大学学报(工学版)(第03期);全文 *

Also Published As

Publication number Publication date
CN112799834A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN107959640B (zh) 网络业务调度方法及装置
CN107688493B (zh) 训练深度神经网络的方法、装置及系统
CN108924221B (zh) 分配资源的方法和装置
CN108959292B (zh) 一种数据上传方法、系统和计算机可读存储介质
CN103188279B (zh) 通过对等网络从多个邻居节点下载文件的方法和装置
CN107968842B (zh) 基于分布式系统的新闻推送方法、装置及设备
CN108494861A (zh) 用于服务资源调配的方法、装置及电子设备
CN106790332B (zh) 一种资源调度方法、系统及主节点
CN106161485A (zh) 一种基础服务集群的资源调度方法、装置和系统
WO2021008675A1 (en) Dynamic network configuration
CN109548161A (zh) 一种无线资源调度的方法、装置和终端设备
CN112799834B (zh) 训练数据分发方法、装置、电子设备及存储介质
CN113094180B (zh) 无线联邦学习调度优化方法及装置
CN107918922B (zh) 业务推荐方法及业务推荐装置
CN106686112A (zh) 云文件传输系统及方法
CN105335313A (zh) 一种基础数据的传输方法及装置
CN110839061B (zh) 数据分发方法、装置及存储介质
CN110557679A (zh) 一种视频内容识别方法、设备、介质和系统
CN107071014B (zh) 一种资源调整方法及装置
CN114723071A (zh) 一种基于客户端分类和信息熵的联邦学习方法及装置
CN115460700A (zh) 基于联邦学习的网络资源配置方法、装置、电子设备及介质
Ding et al. A genetic algorithm for packing CAN FD frame with real-time constraints
CN109151007B (zh) 应用调度的数据处理方法、核心服务器与传输服务器
CN117479306B (zh) 一种数字孪生的数据处理方法及系统
CN117240903B (zh) 一种物联网脱机消息动态管理配置系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant