CN109214512B

CN109214512B - 一种深度学习的参数交换方法、装置、服务器及存储介质

Info

Publication number: CN109214512B
Application number: CN201810864755.4A
Authority: CN
Inventors: 严欢; 夏正勋; 吕阿斌
Original assignee: Yi Tai Fei Liu Information Technology LLC
Current assignee: Yi Tai Fei Liu Information Technology LLC
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-01-22
Anticipated expiration: 2038-08-01
Also published as: CN109214512A

Abstract

本发明实施例涉及工智能技术领域，公开了一种深度学习的参数交换方法、装置、服务器及存储介质。本发明中，包括：获取匹配的训练数据；根据匹配的训练数据和已知的第一权值进行训练，获得第一训练参数；将第一训练参数压缩后与其它处理器进行交换获得第二训练参数。在利用处理器对深度学习网络进行训练时，通过获取匹配的训练数据和已知的第一权值进行训练，获得第一训练参数，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数，通过压缩后再进行传输的方式提高了处理器之间进行参数交换的速度，从而节省了参数交换时所耗费的时长。

Description

一种深度学习的参数交换方法、装置、服务器及存储介质

技术领域

本发明实施例涉及人工智能技术领域，特别涉及一种深度学习的参数交换方法、装置、服务器及存储介质。

背景技术

深度学习网络是近年来机器学习领域中的研究热点，在各个行业产生了广泛的应用。深度学习网络具有深层结构、数千万参数需要学习，这导致非常耗时。图像处理器(Graphics Processing Unit，GPU)有强大的计算能力，适合于加速深度学习网络训练。目前用于深度学习网络的加速方式主要有数据并行和模型并行两种，并且现在主流的计算框架一般都支持数据并行方式。数据并行方式下每个GPU设备训练多次迭代，需要将参数交换到其它GPU设备上，所以如何提高单节点多GPU以及多节点多GPU的参数交换的效率成为重点。

发明人发现现有技术中至少存在如下问题：现有技术中在根据数据集进行训练时，一般采用同步或者异步的方式进行参数交换，提高参数交换的性能，但每次都需要交换模型的全部参数，如果在模型较大的情况下，尤其是在跨节点通过网络来进行交换的情况下，交换所耗费的时长会成为整个模型训练的瓶颈。

发明内容

本发明实施方式的目的在于提供一种深度学习的参数交换方法、装置、服务器及存储介质，使得利用处理器对深度学习网络进行训练时，提高了处理器之间进行参数交换的速度，从而节省了参数交换时所耗费的时长。

为解决上述技术问题，本发明的实施方式提供了一种深度学习的参数交换方法，包括以下步骤：获取匹配的训练数据；根据匹配的训练数据和已知的第一权值进行训练，获得第一训练参数；将第一训练参数压缩后与其它处理器进行交换获得第二训练参数。

本发明的实施方式还提供了一种参数交换装置，包括：获取模块，用于获取匹配的训练数据；训练模块，用于根据匹配的训练数据和第一权值进行训练，获得第一训练参数；参数交换模块，用于将第一训练参数压缩后进行交换获得第二训练参数。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的深度学习的参数交换方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的深度学习的参数交换方法。

本发明实施方式相对于现有技术而言，在利用处理器对深度学习网络进行训练时，通过获取匹配的训练数据和已知的第一权值进行训练，获得第一训练参数，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数，通过压缩后再进行传输的方式提高了处理器之间进行参数交换的速度，从而节省了参数交换时所耗费的时长。

另外，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数，包括：将第一训练参数压缩后发送给同一节点内除自己外的每一个处理器，同时接收同一节点内除自己外的每一个处理器发送的压缩后的第三训练参数；将压缩后的第一训练参数和接收的压缩后的第三训练参数进行相加求平均值，获得第二训练参数。同一节点内的处理器在进行参数交换时将压缩后的第一训练训练参数发送给其它处理器，同时接收其它处理器压缩后的第一训练参数，由于处理器之间在进行参数交换时是将数据压缩后再进行的传输，因此减少了处理器所需要处理的数据量，从而提高了处理器之间进行参数交换的速度。

另外，若处理器为根设备，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数之后，还包括：将第二训练参数分别发送给集群中除自己外的每一个节点的根设备，同时接收集群中除自己外的每一个节点的根设备发送的第四训练参数；将第二训练参数和接收的第四训练参数进行相加求平均，获得第五训练参数。由于不同节点之间只需要通过根节点进行参数交换，而不需要跨节点的所有处理器互相进行参数交换，因此进一步提高了跨节点处理器之间的参数交换速度。

另外，将第二训练参数和接收的第四训练参数进行相加求平均，获得第五训练参数之后，还包括：根据第五训练参数和已知的学习率进行计算获得第二权值，其中，第二权值用于对第一权值进行更新；采用第二权值更新第一权值，并将第二权值分别发送给根设备所在节点内除根设备外的每一个处理器。在每一个节点内只需要通过根设备进行计算获得第五训练参数，并将获得的第五训练参数分别发送给根设备所在节点内除根设备外的每一个处理器，从而减少了一个节点内的处理器的总体计算量。

另外，将第二权值分别发送给根设备所在节点内除根设备外的每一个处理器之后，还包括：判断是否达到终止条件，若是，则结束，否则，重新执行深度学习的参数交换方法。

另外，获取匹配的训练数据，具体包括：确定数据偏移量；根据数据偏移量从训练数据集中获取匹配的训练数据。

另外，数据偏移量包括：节点的序列号与节点内处理器个数乘积的结果与处理器的编号相加所得的数值。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请第一实施例中深度学习的参数交换方法的流程图；

图2是本申请第二实施例中深度学习的参数交换方法的流程图；

图3是本申请第三实施例中深度学习的参数交换装置的方框示意图；

图4是本申请第四实施例中深度学习的参数交换装置的方框示意图；

图5是本申请第五实施例中服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种深度学习的参数交换方法，应用于处理器。具体流程如图1所示，包括以下步骤：

步骤101，获取匹配的训练数据。

需要说明的是，在本实施方式中，在利用处理器通过参数交换对深度学习网络进行训练时，涉及到多个节点，每一个节点至少包括一个处理器，多个节点位于同一个集群中。并且每一个处理器具有一个唯一编号，将一个节点内编号最小的处理器作为该节点内的根设备。同时，集群中至少包括两个节点，每一个节点具有一个唯一序列号，并且每一个节点内所需要分配的训练数据集是相同的。

具体的说，获取匹配的训练数据具体包括：确定数据偏移量，根据数据偏移量从训练数据集中获取匹配的训练数据。并且，数据偏移量包括：节点的序列号与节点内处理器个数乘积的结果与处理器的编号相加所得的值。

在一个具体实现中，集群中包括8个处理器，每个节点内有4个处理器，节点的序列号用A表示，处理器的编号用a表示，则处理器的偏移量＝A+a*4。假设需要分配的数据为训练数据集中的第n行，则通过将n除以8获得的余数为m，则偏移量为m的处理器获取到训练数据集中的第n行数据。

步骤102，根据匹配的训练数据和已知的第一权值进行训练，获得第一训练参数。

需要说明的是，在本申请实施例中，处理器根据匹配的训练数据和已知的第一权值进行深度学习网络的前向和后向计算，从而获得第一训练参数。在实际应用中，本申请实施例中的第一训练参数的类型特指的是梯度值。由于处理器根据训练数据和已知权值对深度学习网络进行训练，并获得相应的训练参数的过程，现有技术已经比较成熟，所以本实施例中不再对其进行赘述。

步骤103，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数。

具体的说，在本实施方式中，将第一训练参数压缩后发送给同一节点内除自己外的每一个处理器，同时接收同一节点内除自己外的每一个处理器发送的压缩后的第三训练参数。将压缩后的第一训练参数和接收的压缩后的第三训练参数进行相加求平均值，获得第二训练参数。

需要说明的是，在本实施方式中，处理器在将第一训练参数压缩后发给同一节点内除自己外的每一个处理器，同时接受同一节点内除自己外的每一个处理器发送的压缩后的第三训练参数，具体是采用有线传输方式进行发送和接收的。

在一个具体实现中，第一训练参数的格式类型为Float32，经过压缩之后的第一训练参数的格式类型变为Float16，因此经过压缩之后的第一训练参数的大小相对于未压缩之前减少了一半。

其中，处理器由于是将压缩之后的第一训练参数发送给同一节点内除自己外的每一个处理器，同时接收的也是同一节点内除自己外的每一个处理器发送的压缩后的第三训练参数，因此，大量减少了同一个节点内进行参数交换的过程中的数据量，节省了参数交换时所耗费的时长。

需要说明的是，由于在同一个节点内，虽然每一个处理器的用于进行训练所需要的第一权值是相同的，但是每一个处理器所获取匹配的训练数据是不相同的，所以处理器的第一训练参数和同一节点内除自己外的每个处理器所获得的第三训练参数，虽然获得方式相同但具体数值是不相同的。但同一个节点内除自己之外的每个处理器所获得的第三训练参数的获取方式与获取第一训练参数的方式相似，所以本实施例中不再进行赘述。

与现有技术相比，本实施方式提供的深度学习的参数交换方法，在利用处理器对深度学习网络进行训练时，通过获取匹配的训练数据和已知的第一权值进行训练，获得第一训练参数，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数，通过压缩后再进行传输的方式提高了处理器之间进行参数交换的速度，从而节省了参数交换时所耗费的时长。

本发明的第二实施方式涉及一种深度学习的参数交换方法。本实施例在第一实施例的基础上做了进一步改进，具体改进之处为：在确定处理器为根设备的情况下对根设备跨节点进行参数交换的方式进行了具体描述。本实施例中的深度学习的参数交换方法的流程如图2所示。具体的说，在本实施例中，包括步骤201至步骤210，其中步骤201至步骤203与第一实施方式中的步骤101至步骤103大致相同，此处不再赘述，下面主要介绍不同之处，未在本实施方式中详尽描述的技术细节，可参见第一实施例所提供的深度学习的参数交换方法，此处不再赘述。

在步骤201至步骤203之后，执行步骤204。

在步骤204中，判断处理器是否为根设备，若是，则执行步骤205，否则结束。

需要说明的是，本实施方式中由于集群中至少包括两个节点，每个节点内至少包括两个处理器，而根设备为每一个节点中编号最小的处理器。因此处理器可以根据自己的编号与所在节点中其它编号的大小分别进行对比，确定自己是否是所在节点中编号最小的处理器，若是则可以通过自己的编号确定出自己为所在节点中的根设备。

在步骤205中，将第二训练参数分别发送给集群中除自己外的每一个节点的根设备，同时接收集群中除自己外的每一个节点的根设备发送的第四训练参数。

具体的说，由于集群中每一个节点内的训练数据集是相同的，但每一个节点进行深度学习网络训练时的配置是存在区别的，所以除自己外的每一个节点的根设备所发送的第四训练参数与获得的第二训练参数数值不同。但是除自己外的每一个节点的根设备获取第四训练参数的获取方式与获取第二训练参数的方式相似，所以本实施例中不再进行赘述。并且在跨节点之间进行参数交换时，由于不同节点之间只需要通过根节点进行参数交换，而不需要跨节点的所有处理器互相进行参数交换，因此进一步提高了跨节点处理器之间的参数交换速度。

另外，在本实施方式中，根设备在将第二训练参数分别发送给集群中除自己之外的每一个节点的根设备，和接收集群中除自己之外的每一个节点的根设备发送的第四训练参数时，具体是采用无线传输方式进行发送和接收的。

在步骤206中，将第二训练参数和接收的第四训练参数进行相加求平均值，获得第五训练参数。

在一个具体实现中，集群中包括三个节点，则根设备会接受集群中除自己之外的每一个根设备的第四训练参数，此时根设备会将自身的第二训练参数加上另外两个根设备的第四训练参数，将所得的结果除以三，从而获得第五训练参数。

在步骤207中，根据第五训练参数和已知的学习率进行计算获得第二权值。

需要说明的是，根设备在获得第五训练参数后会与已知的学习率进行计算，并且在通过处理器对深度学习网络进行训练的过程中，如果深度学习网络结构确定后，则与该深度学习网络所对应的学习率就是确定的。并且，在利用处理器对深度学习网络进行训练的过程中，在计算得出第五训练参数和已知确定的深度学习网络学习率之后，通过处理器进行计算以获得第二权值的具体方式现有技术较为成熟，所以本申请实施例中，不再对其进行赘述。

其中，所获的第二权值是用于对第一权值来进行更新的。

在步骤208中，采用第二权值更新第一权值，并将第二权值发送给根设备所在节点内除根设备外的每一个处理器。

具体的说，将通过计算所获得的第二权值对第一权值进行更新，并且在本申请实施例中，具体是通过无线传输的方式将第二权值传输给根设备所在节点内除根设备外的每一个处理器的。

在步骤209中，判断是否达到终止条件，若是，则结束，否则重新执行步骤201。

需要说明的是，在将第二权值进行更新，并将第二权值发送能给根设备所在节点内除根设备外的每一个处理器之后，会将当前通过参数交换实现深度学习训练的迭代次数与设定的最大迭代次数进行对比，判断当前的迭代次数是否大于等于设定的最大迭代次数，若是，则说明通过参数交换达到对深度学习网络进行训练所要求的精度，否则，说明还未完成设定的精度，则需要重新获取匹配的训练数据，通过重新执行深度学习的参数交换方法对深度学习网络进行训练。

与现有技术相比，本实施方式提供的深度学习的参数交换方法，在利用处理器对深度学习网络进行训练时，通过获取匹配的训练数据和已知的第一权值进行训练，获得第一训练参数，将第一训练参数压缩后与其它处理器进行交换获得第二训练参数，通过压缩后再进行传输的方式提高了处理器之间进行参数交换的速度，从而节省了参数交换时所耗费的时长。并且在确定处理器为根设备后，通过根设备实现跨节点之间的参数交换，减少了节点之间的参数交换总量，因此进一步提高了跨节点处理器之间的参数交换速度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种参数交换装置，具体结构如如图3所示。

如图3所示，参数交换装置包括获取模块301、训练模块302和参数交换模块303。

其中，获取模块301，用于获取匹配的训练数据；

训练模块302，用于根据匹配的训练数据和第一权值进行训练，获得第一训练参数；

参数交换模块303，用于将第一训练参数压缩后进行交换获得第二训练参数。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第四实施方式涉及一种参数交换装置。该实施方式与第三实施方式大致相同，具体结构如图4所示。其中，主要改进之处在于：第四实施方式对第三实施方式中的增加了第一判断模块304、第一传输模块305、第一计算模块306、第二计算模块307、第二传输模块308和第二判断模块309。

其中，第一判断模块304，用于判断处理器是否为根设备。

第一传输模块305，用于将第二训练参数分别发送给集群中除自己外的每一个节点的根设备，同时接收集群中除自己外的每一个节点的根设备发送的第四训练参数。

第一计算模块306，用于将第二训练参数和接收的第四训练参数进行相加求平均值，获得第五训练参数。

第二计算模块307，用于根据第五训练参数和已知的学习率进行计算获得第二权值。

第二传输模块308，用于采用第二权值更新第一权值，并将第二权值发送给根设备所在节点内除根设备外的每一个处理器。

第二判断模块309，用于判断是否达到终止条件。

不难发现，本实施方式为与第二实施方式相对应的装置实施例，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第五实施方式涉及一种服务器，如图5所示，包括至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行上述实施例中的深度学习的参数交换方法。

本实施例中，处理器501以中央处理器(Central Processing Unit，CPU)为例，存储器502以可读写存储器(Random Access Memory，RAM)为例。处理器501、存储器502可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中实现深度学习的参数交换方法的程序就存储于存储器502中。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述参数交换方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个程序模块存储在存储器502中，当被一个或者多个处理器501执行时，执行上述任意方法实施例中的深度学习的参数交换方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请的第六实施方式涉及一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时能够实现本发明任意方法实施例中涉及的深度学习的参数交换方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种深度学习的参数交换方法，其特征在于，包括：

获取匹配的训练数据；

根据所述匹配的训练数据和已知的第一权值进行训练，获得第一训练参数；

将所述第一训练参数压缩后与其它处理器进行交换获得第二训练参数，具体包括：将所述第一训练参数压缩后发送给同一节点内除自己外的每一个所述处理器，同时接收同一所述节点内除自己外的每一个所述处理器发送的压缩后的第三训练参数；将压缩后的所述第一训练参数和接收的压缩后的所述第三训练参数进行相加求平均值，获得所述第二训练参数；

若所述处理器为根设备，将所述第二训练参数分别发送给集群中除自己外的每一个所述节点的根设备，同时接收所述集群中除自己外的每一个所述节点的根设备发送的第四训练参数；将所述第二训练参数和接收的第四训练参数进行相加求平均，获得第五训练参数；

根据所述第五训练参数和已知的学习率进行计算获得第二权值，其中，所述第二权值用于对所述第一权值进行更新；采用所述第二权值更新所述第一权值，并将所述第二权值分别发送给所述根设备所在所述节点内除所述根设备外的每一个所述处理器。

2.根据权利要求1所述的深度学习的参数交换方法，其特征在于，所述将所述第二权值分别发送给所述根设备所在所述节点内除所述根设备外的每一个所述处理器之后，还包括：

判断是否达到终止条件，若是，则结束，否则，重新执行所述深度学习的参数交换方法。

3.根据权利要求1或2所述的深度学习的参数交换方法，其特征在于，所述获取匹配的训练数据，具体包括：

确定数据偏移量；

根据所述数据偏移量从训练数据集中获取匹配的训练数据。

4.根据权利要求3所述的深度学习的参数交换方法，其特征在于，所述数据偏移量包括：所述节点的序列号与所述节点内所述处理器个数乘积的结果与所述处理器的编号相加所得的数值。

5.一种深度学习的参数交换装置，其特征在于，包括：

获取模块，用于获取匹配的训练数据；

训练模块，用于根据所述匹配的训练数据和第一权值进行训练，获得第一训练参数；

参数交换模块，用于将所述第一训练参数压缩后进行交换获得第二训练参数，具体包括：将所述第一训练参数压缩后发送给同一节点内除自己外的每一个处理器，同时接收同一所述节点内除自己外的每一个所述处理器发送的压缩后的第三训练参数；将压缩后的所述第一训练参数和接收的压缩后的所述第三训练参数进行相加求平均值，获得所述第二训练参数；若所述处理器为根设备，将所述第二训练参数分别发送给集群中除自己外的每一个所述节点的根设备，同时接收所述集群中除自己外的每一个所述节点的根设备发送的第四训练参数；将所述第二训练参数和接收的第四训练参数进行相加求平均，获得第五训练参数；根据所述第五训练参数和已知的学习率进行计算获得第二权值，其中，所述第二权值用于对所述第一权值进行更新；采用所述第二权值更新所述第一权值，并将所述第二权值分别发送给所述根设备所在所述节点内除所述根设备外的每一个所述处理器。

6.一种服务器，其特征在于，包括

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4任一项所述的深度学习的参数交换方法。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的深度学习的参数交换方法。