CN112052950A

CN112052950A - 神经网络训练方法、模型计算服务器及存储介质

Info

Publication number: CN112052950A
Application number: CN202010858863.8A
Authority: CN
Inventors: 林涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-08
Anticipated expiration: 2040-08-24
Also published as: CN112052950B

Abstract

本公开关于一种神经网络训练方法、模型计算服务器及存储介质，神经网络训练方法应用于包括图形处理器以及中央处理器的模型计算服务器，神经网络训练方法包括：中央处理器接收特征查询服务器发送的特征向量，特征向量为特征查询服务器根据多个业务数据样本的特征从特征向量服务器中查询得到；中央处理器将特征向量传输至图形处理器；图形处理器根据特征向量，计算神经网络的参数的梯度；图形处理器将参数的梯度返回至中央处理器；中央处理器根据梯度调节神经网络的参数，并对神经网络进行迭代训练，直到满足预定条件为止。利用本公开实施例，可以避免使用数量过多的包括CPU的服务器来训练神经网络，降低神经网络的训练成本。

Description

神经网络训练方法、模型计算服务器及存储介质

技术领域

本公开涉及计算机领域，尤其涉及神经网络训练方法、模型计算服务器及存储介质。

背景技术

随着人工智能技术的发展，神经网络已经成功应用到自然语言处理以及图像识别等很多领域，且在这些方面都带来了很多显著的效果。

在相关技术中，训练神经网络具体包括：首先利用中央处理器(CentralProcessing Unit，CPU)将业务数据样本的特征向量输入至神经网络中，得到神经网络的参数的梯度；然后，根据梯度更新神经网络的参数。

但是，采用相关技术来训练神经网络所需要的CPU数量比较多。比如，一个CPU每秒可以对500多个业务数据样本进行处理，而且一台服务器有28个CPU。在此情况下，一台服务器每秒大约可以对15000个业务数据样本进行处理。但是，在对业务数据样本进行处理之前，一些CPU还需要提取样本的特征信息。因此，除去提取特征信息的开销，一台服务器每秒大约可以对7000个业务数据样本进行处理。假设训练某个业务的神经网络时，要求每秒处理大约50万左右的业务数据样本，那么大概需要80台左右的服务器来满足以上要求。

由此可见，训练神经网络所需要的服务器数量比较多，导致训练成本比较高。

发明内容

本公开提供一种神经网络训练方法、模型计算服务器及存储介质，以至少解决相关技术中的由于训练神经网络所需要的服务器数量比较多，导致训练成本比较高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种神经网络训练方法，应用于模型计算服务器，所述模型计算服务器包括图形处理器以及中央处理器，所述方法包括：

所述中央处理器接收特征查询服务器发送的特征向量，所述特征向量为所述特征查询服务器根据多个业务数据样本的特征，从特征向量服务器中查询得到的与所述特征对应的特征向量；

所述中央处理器将所述特征向量传输至所述图形处理器；

所述图形处理器根据所述特征向量，计算神经网络的参数的梯度；

所述图形处理器将所述参数的梯度返回至所述中央处理器；

所述中央处理器根据所述梯度调节所述神经网络的参数，并对所述神经网络进行迭代训练，直到满足预定条件为止。

在本申请的一个或多个实施例中，所述图形处理器根据所述特征向量，计算所述神经网络的参数的梯度，包括：

所述图形处理器将所述特征向量输入至所述神经网络中，得到预测结果，所述预测结果表征预测出的用户对所述业务数据样本的行为；

所述图形处理器根据所述预测结果以及所述业务数据样本对应的标签数据，计算损失值；

所述图形处理器根据所述损失值，计算所述神经网络的参数的梯度。

在本申请的一个或多个实施例中，所述图形处理器将所述特征向量输入至所述神经网络中，得到预测结果，包括：

所述图形处理器将所述多个业务数据样本的所述特征向量分配至所述图形处理器的M个统一计算设备架构CUDA流中，其中，一个所述统一计算设备架构CUDA流中被分配有至少一个业务数据样本的所述特征向量，所述M个统一计算设备架构CUDA流与所述图形处理器的M个线程一一对应，M为正整数；

所述图形处理器针对每个所述统一计算设备架构CUDA流，利用所述统一计算设备架构CUDA流对应的线程，将所述统一计算设备架构CUDA流中的所述特征向量输入至所述神经网络中，得到所述预测结果。

在本申请的一个或多个实施例中，所述图形处理器的显存包括预先分配的M个显存子空间，所述M个显存子空间与所述M个线程一一对应；

所述图形处理器将所述多个业务数据样本的所述特征向量分配至所述图形处理器的M个统一计算设备架构CUDA流中之后，所述方法还包括：

所述图形处理器针对每个所述线程，将所述线程处理所述特征向量产生的目标数据存储至所述线程对应的所述显存子空间；

其中，所述目标数据包括：在将所述特征向量输入至所述神经网络中之后并且得到所述梯度之前产生的数据，和/或，所述梯度。

在本申请的一个或多个实施例中，所述中央处理器根据所述梯度调节所述神经网络的参数，包括：

所述中央处理器根据每个所述线程得到的所述梯度，调节所述神经网络的参数；

在所述中央处理器根据所述M个线程中的任意一个第一线程得到的所述梯度调节所述神经网络的参数之后，所述方法还包括：

所述图形处理器删除所述第一线程对应的所述显存子空间中存储的所述目标数据。

在本申请的一个或多个实施例中，所述神经网络的参数包括所述神经网络中的神经元参数和所述特征向量，其中，所述神经元参数存储在所述模型计算服务器中；

所述中央处理器根据所述梯度调节所述神经网络的参数，包括：

所述中央处理器根据所述神经元参数的梯度，调节所述模型计算服务器中存储的所述神经元参数；

所述中央处理器将所述特征向量的梯度发送至所述特征查询服务器，以使所述特征查询服务器根据所述特征向量的梯度，调节所述特征向量服务器中存储的所述特征向量。

在本申请的一个或多个实施例中，所述中央处理器接收特征查询服务器发送的特征向量之后，所述方法还包括：

所述中央处理器将所述特征向量存储至所述中央处理器的内存中，其中，在同一批业务数据样本的特征向量存储在所述内存中连续的多个内存子空间。

根据本公开实施例的第二方面，提供一种模型计算服务器，包括图形处理器以及中央处理器；

所述中央处理器被配置为接收特征查询服务器发送的特征向量，所述特征向量为所述特征查询服务器根据多个业务数据样本的特征，从特征向量服务器中查询得到的与所述特征对应的特征向量；

所述中央处理器还被配置为将所述特征向量传输至所述图形处理器；

所述图形处理器被配置为根据所述特征向量，计算神经网络的参数的梯度；

所述图形处理器还被配置为将所述参数的梯度返回至所述中央处理器；

所述中央处理器还被配置为根据所述梯度调节所述神经网络的参数，并对所述神经网络进行迭代训练，直到满足预定条件为止。

在本申请的一个或多个实施例中，所述图形处理器具体被配置为：

将所述特征向量输入至所述神经网络中，得到预测结果，所述预测结果表征预测出的用户对所述业务数据样本的行为；

根据所述预测结果以及所述业务数据样本对应的标签数据，计算损失值；

根据所述损失值，计算所述神经网络的参数的梯度。

将所述多个业务数据样本的所述特征向量分配至所述图形处理器的M个统一计算设备架构CUDA流中，其中，一个所述统一计算设备架构CUDA流中被分配有至少一个业务数据样本的所述特征向量，所述M个统一计算设备架构CUDA流与所述图形处理器的M个线程一一对应，M为正整数；

针对每个所述统一计算设备架构CUDA流，利用所述统一计算设备架构CUDA流对应的线程，将所述统一计算设备架构CUDA流中的所述特征向量输入至所述神经网络中，得到所述预测结果。

所述图形处理器还被配置为：针对每个所述线程，将所述线程处理所述特征向量产生的目标数据存储至所述线程对应的所述显存子空间；

在本申请的一个或多个实施例中，所述中央处理器具体被配置为：根据每个所述线程得到的所述梯度，调节所述神经网络的参数；

在所述中央处理器根据所述M个线程中的任意一个第一线程得到的所述梯度调节所述神经网络的参数之后，所述图形处理器还被配置为：删除所述第一线程对应的所述显存子空间中存储的所述目标数据。

在本申请的一个或多个实施例中，所述神经网络的参数包括所述神经网络中的神经元参数和所述特征向量，所述神经元参数存储在所述模型计算服务器中；

所述中央处理器具体被配置为：

根据所述神经元参数的梯度，调节所述模型计算服务器中存储的所述神经元参数；

将所述特征向量的梯度发送至所述特征查询服务器，以使所述特征查询服务器根据所述特征向量的梯度，调节所述特征向量服务器中存储的所述特征向量。

在本申请的一个或多个实施例中，所述中央处理器还被配置为：

将所述特征向量存储至所述中央处理器的内存中，其中，在同一批业务数据样本的特征向量存储在所述内存中连续的多个内存子空间。

根据本公开实施例的第三方面，提供一种模型计算服务器，包括：

处理器，所述处理器包括图形处理器以及中央处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现任一项实施例中的神经网络训练方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如第一方面的任一项实施例中所示的神经网络训练方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在可读存储介质中，设备的至少一个处理器从存储介质读取并执行计算机程序，使得设备执行第一方面的任一项实施例中所示的神经网络训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

由于利用业务数据样本训练神经网络的过程中涉及比较多的浮点类型数据的处理，而且在对浮点类型数据进行处理的过程中需要比较大的计算量，CPU对浮点类型数据的处理效率比较低，而图形处理器(Graphics Processing Unit，GPU)对浮点类型数据的处理效率比较高。基于此，在训练神经网络的过程中，首先接收特征查询服务器发送的与业务数据样本的特征对应的特征向量；然后，利用GPU对特征向量进行处理，得到神经网络的参数的梯度；根据梯度调节神经网络的参数，并对神经网络进行迭代训练。因此，本公开的实施例使用GPU替代CPU来对业务数据样本进行处理，充分利用GPU的高计算性能，不需要过多的CPU，从而避免使用数量过多的包括CPU的服务器来训练神经网络，降低神经网络的训练成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种神经网络训练系统的架构图。

图2是根据一示例性实施例示出的一种神经网络训练方法的交互示意图。

图3是根据一示例性实施例示出的另一种神经网络训练方法的交互示意图。

图4是根据一示例性实施例示出的一种神经网络训练方法的流程示意图。

图5是根据一示例性实施例示出的一种模型计算服务器的框图。

图6是根据一示例性实施例示出的另一种模型计算服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先说明本公开实施例涉及到的专业术语。

统一计算设备架构(Compute Unified Device Architecture，CUDA)流表示一个GPU操作队列，并且该操作队列中的操作符将以指定的顺序执行。

本公开实施例提供一种神经网络训练方法，神经网络可以为用于预测用户行为的神经网络。预测用户行为可以包括预测用户针对业务数据的行为。比如，预测用户是否会点开视频、图片或者文章。在训练该神经网络之后，可以利用训练好的神经网络预测用户行为，并根据预测出的用户行为向用户推荐信息。

在说明本公开实施例提供的神经网络训练方法之前，先说明神经网络训练系统的架构。图1是根据一示例性实施例示出的一种神经网络训练系统的架构图。

如图1所示，神经网络训练系统包括模型计算服务器、特征查询服务器、特征向量服务器和样本服务器。下面详细说明各个服务器。

特征向量服务器中存储有多个业务数据特征分别对应的特征向量。

样本服务器中存储有业务数据样本集合。

特征查询服务器用于从样本服务器中获取多个业务数据样本，并根据每个业务数据样本的特征，从特征向量服务器中查询与特征对应的特征向量，该特征向量为神经网络的输入数据。特征查询服务器还用于将查询得到的特征向量发送至模型计算服务器，由模型计算服务器得到神经网络的参数的梯度。该梯度用于调节神经网络的参数。

下面以用于预测用户是否打开视频的神经网络为例对本公开实施例的神经网络训练系统进行说明。

在每次训练神经网络时，特征查询服务器从样本服务器中获取已提取有特征的1000个视频样本，其中每个视频样本的特征包括视频样本内容的特征，比如视频样本内容的关键词。每个视频样本的特征还包括视频样本对应的用户的特征，比如浏览视频预览信息之后打开视频的用户的特征，或者浏览视频预览信息之后未打开视频的用户的特征。

特征查询服务器从特征向量服务器中查询与视频样本的特征对应的特征向量，该特征向量表征视频样本对应的用户的兴趣信息。特征查询服务器将视频样本的特征向量发送至模型计算服务器，由模型计算服务器计算神经网络的参数的梯度。然后，根据该梯度调节神经网络的参数。基于此，不断训练神经网络，随着对神经网络的训练次数的增加，神经网络可以越来越准确地预测出用户是否打开视频。在训练完神经网络之后，可以利用神经网络预测用户是否打开视频，然后可以向用户推荐视频。

基于上述神经网络训练系统的架构，下面说明神经网络训练系统中各服务器之间如何交互来实现本公开实施例的神经网络训练方法。

图2是根据一示例性实施例示出的一种神经网络训练方法的交互示意图。如图2所示，神经网络训练方法包括：

S202，特征查询服务器向样本服务器发送样本获取请求；

S204，样本服务器接收到样本获取请求之后，从业务数据样本集合中获取多个业务数据样本，并将多个业务数据样本发送至特征查询服务器；

S206，特征查询服务器获取到多个业务数据样本之后，向特征向量服务器发送查询请求，该查询请求中包括业务数据样本的特征；

S208，特征向量服务器接收到查询请求之后，在特征向量服务器存储的特征向量中查询与每个业务数据样本的特征分别对应的特征向量；

S210，特征向量服务器将查询得到的多个业务数据样本的特征向量发送至特征查询服务器；

S212，特征查询服务器接收到多个业务数据样本的特征向量之后，将多个业务数据样本的特征向量发送至模型计算服务器；

S214，模型计算服务器的中央处理器接收特征查询服务器发送的特征向量，并将特征向量传输至图形处理器；

S216，模型计算服务器的图形处理器根据特征向量，计算神经网络的参数的梯度；

S218，模型计算服务器的图形处理器将参数的梯度返回至中央处理器；

S220，模型计算服务器的中央处理器根据梯度调节神经网络的参数。

模型计算服务器基于参数调节后的神经网络，对神经网络进行迭代训练，直到神经网络满足预定条件为止。预定条件可以包括损失值小于预定阈值，和/或训练次数大于预定次数。

由于利用业务数据样本训练神经网络的过程中涉及比较多的浮点类型数据的处理，而且在对浮点类型数据进行处理的过程中需要比较大的计算量，CPU对浮点类型数据的处理效率比较低，而GPU对浮点类型数据的处理效率比较高。基于此，在训练神经网络的过程中，首先接收特征查询服务器发送的与业务数据样本的特征对应的特征向量；然后，利用GPU对特征向量进行处理，得到神经网络的参数的梯度；根据梯度调节神经网络的参数，并对神经网络进行迭代训练。本公开的实施例使用GPU替代CPU来对业务数据样本进行处理，充分利用GPU的高计算性能，不需要过多的CPU，从而避免使用数量过多的包括CPU的服务器来训练神经网络，降低神经网络的训练成本。

下面对本公开实施例中的步骤进行说明。

在S202的一个示例中，特征查询服务器可以通过网络向样本服务器发送样本获取请求。样本获取请求中可以包括样本数量N，N为大于1的正整数。

在S204的一个示例中，样本服务器接收到样本获取请求之后，从业务数据样本集合中获取N个业务数据样本，并将N个业务数据样本发送至特征查询服务器。

在S208的一个示例中，特征向量服务器中存储有多个特征分别对应的特征向量。特征向量服务器根据业务数据样本的特征，在特征向量服务器存储的特征向量中查询与业务数据样本的特征对应的特征向量。一个业务数据样本的特征向量可以表征该业务数据样本对应的用户的兴趣信息。

在S212的一个示例中，特征查询服务器除了将特征向量发送至模型计算服务器，特征查询服务器还可以将业务数据样本对应的标签数据发送至模型计算服务器。

在S216的一个示例中，为了提高特征向量的处理效率，S216可以包括：

图形处理器将特征向量输入至神经网络中，得到预测结果，预测结果表征预测出的用户对业务数据样本的行为；

图形处理器根据预测结果以及业务数据样本对应的标签数据，计算损失值；

图形处理器根据损失值，计算神经网络的参数的梯度。

在一个示例中，图形处理器将特征向量输入至神经网络中，得到预测结果，具体可以包括：

图形处理器将多个业务数据样本的特征向量分配至模型计算服务器的GPU的M个CUDA流中，其中，一个CUDA流中被分配有至少一个业务数据样本的特征向量，M个统一计算设备架构CUDA流与GPU的M个线程一一对应，M为正整数；

图形处理器针对每个CUDA流，利用CUDA流对应的线程，将CUDA流中的特征向量输入至神经网络中，得到神经网络的预测结果。

图形处理器使用CUDA编程模式，将多个业务数据样本的特征向量分配至M个CUDA流中，通过M个线程对M个CUDA流中的特征向量进行并发处理，可以提高特征向量的处理效率，从而提高神经网络的训练速度。

在一个示例中，多个业务数据样本为多批(Batch)业务数据样本，即多个Batch的业务数据样本，一批业务数据样本包括至少一个业务数据样本，一个CUDA流中被分配有至少一批业务数据样本的特征向量。由此，M个线程可以同时对M批业务数据样本的特征向量进行并发处理。

在一个示例中，在S216中，图形处理器针对每个线程，利用该线程对其得到的预测结果以及业务数据样本对应的标签数据进行处理，得到神经网络的参数的梯度。

在一个示例中，为了减少申请显存空间消耗的时间，图形处理器的显存包括预先分配的M个显存子空间，M个显存子空间与M个线程一一对应。

在图形处理器将多个业务数据样本的特征向量分配至图形处理器的M个CUDA流中之后，神经网络训练方法还可以包括：

图形处理器针对每个线程，将线程处理特征向量产生的目标数据存储至线程对应的显存子空间；其中，目标数据包括：在将特征向量输入至神经网络中之后并且得到梯度之前产生的数据，和/或，梯度。

下面以GPU具有线程A和线程B为例来说明本公开实施例。

预先为线程A和线程B分别申请显存子空间。在为线程A和线程B申请显存子空间之后，线程A和线程B分别对应的显存子空间可以保持不变。然后，图形处理器将线程A处理不同业务数据样本的特征向量时产生的目标数据均存储至线程A对应的显存子空间，将线程B处理不同业务数据样本的特征向量时产生的目标数据均存储至线程B对应的显存子空间。

在本公开实施例中，由于线程处理不同业务数据样本的特征向量时产生的目标数据的大小变化不大，因此，图形处理器为线程分配的显存子空间可以重复使用。基于此分析，预先为M个线程中的每个线程分配对应的显存子空间。每个线程分配对应的显存子空间可以固定不变。同一个线程处理不同业务数据样本的特征向量时产生的目标数据均存储在线程对应的显存子空间。由此，每当线程处理新的特征向量(即未处理的特征向量)之前，不需要每次为新的特征向量重新申请显存子空间，从而节省了申请显存子空间所消耗的时间，缩短了单次训练神经网络所消耗的时间，提高了神经网络的训练速度。

在一个示例中，S220可以包括：模型计算服务器的中央处理器根据每个线程得到的梯度，调节神经网络的参数。

其中，模型计算服务器的中央处理器利用预定线程，根据每个线程得到的梯度，调节神经网络的参数。预定线程可以为上述M个线程中的一个线程，或者除上述M个线程之外的线程。

在模型计算服务器的中央处理器根据M个线程中的任意一个第一线程得到的梯度调节神经网络的参数之后，神经网络训练方法还包括：

模型计算服务器的中央处理器删除第一线程对应的显存子空间中存储的目标数据。

下面以GPU具有线程A和线程B为例来说明本公开实施例。

在模型计算服务器的图像处理器利用线程A得到梯度之后，模型计算服务器的中央处理器根据在线程A对应的显存子空间中存储的梯度，调节神经网络的参数。然后，模型计算服务器的中央处理器删除线程A对应的显存子空间中存储的目标数据。针对线程B进行类似处理，在此不再重复赘述。

在本公开实施例中，在模型计算服务器的中央处理器根据任意一个第一线程得到的梯度调节神经网络的参数之后，删除第一线程对应的显存子空间中存储的目标数据。这样方便在模型计算服务器的显存子空间中存储线程下一次处理特征向量时得到的目标数据。

在一个示例中，神经网络的参数可以包括神经网络中的神经元参数和上述的特征向量。神经元参数存储在模型计算服务器中。

其中，神经元参数包括神经元的权重和偏置项。特征向量可以表征用户的兴趣信息。在训练神经网络之前，该特征向量表征的用户兴趣信息不够准确，通过对神经网络的不断训练，并不断调节特征向量，特征向量可以越来越准确地表征用户的兴趣信息。这样，不断调节特征向量，将调节后的特征向量输入至神经网络中之后，可以较为准确地预测用户行为。

在S216中的梯度包括神经网络中的神经元参数的梯度和上述的特征向量的梯度的情况下，本公开实施例提供另一种神经网络训练方法。图3是根据一示例性实施例示出的另一种神经网络训练方法的交互示意图。图3和图2的主要区别在于，图3中的S220可以包括：

S2202，模型计算服务器的中央处理器根据神经元参数的梯度，调节模型计算服务器中存储的神经元参数。

S2204，模型计算服务器的中央处理器将特征向量的梯度发送至特征查询服务器。

S2206，特征查询服务器根据特征向量的梯度，调节特征向量服务器中存储的特征向量。

在本公开实施例中，GPU得到的梯度包括两个方面的梯度，分别是神经元参数的梯度和上述特征向量的梯度。通过在模型计算服务器中存储神经元参数，并非在特征向量服务器中存储神经元参数，可以使得模型计算服务器直接根据神经元参数的梯度，调节神经元参数。由此，不需要由特征查询服务器调节神经元参数，进而不需要模型计算服务器将神经元参数的梯度发送至特征查询服务器，节省了发送神经元参数的梯度所占用的带宽，进而提升了神经网络的训练速度。

在一个示例中，S212之后，神经网络训练方法还包括：

模型计算服务器的中央处理器将特征向量存储至中央处理器的内存中，其中，在同一批业务数据样本的特征向量存储在内存中连续的多个内存子空间。

由于同一批业务数据样本的特征向量分为多个数据块，如果多个数据块从CPU到GPU分开传输，那么会传输的比较慢。因此，将同一批业务数据样本的特征向量存储在CPU的内存中连续的多个内存子空间，这样同一批业务数据样本的特征向量可以一次性地从CPU传输到GPU，避免特征向量从CPU传输到GPU的速度比较慢。

在一个示例中，模型计算服务器的中央处理器将同一批业务数据样本的特征向量得到的梯度存储在显存子空间中连续的多个区域，这样，可以将同一批业务数据样本的特征向量得到的梯度一次性地从模型计算服务器的GPU传输至模型计算服务器的CPU。然后，利用模型计算服务器的CPU将梯度传输至特征查询服务器。

下面说明利用本公开实施例的神经网络训练方法的性能。

假设利用M个线程对业务数据样本的特征向量进行并发处理，以及同一个线程处理特征向量产生的目标数据均存储至该线程对应的显存子空间。那么，模型计算服务器处理每一批业务数据样本的特征向量消耗的时间分为三个部分：1、业务数据样本的特征向量从模型计算服务器的内存传输至模型计算服务器的显存所消耗的时间；2、在显存中对业务数据样本的特征向量进行处理得到梯度所消耗的时间；3、计算结果(即梯度)从模型计算服务器的显存传输至模型计算服务器的内存所消耗的时间。模型计算服务器的计算吞吐由内存与显存之间的高速串行计算机扩展总线标准(Peripheral Component InterconnectExpress，PCIE)总线带宽以及GPU本身的算力决定。假设一个业务数据样本为2KB，那么内存与显存的传输带宽最多能到12GB(即36Gb)每秒，远大于单机的网络带宽(25Gb)。基于此，本公开实施例中单个模型计算服务器的吞吐理论值可以达到150万，相比对于相关技术中每秒训练50万业务数据样本而言，单个模型计算服务器的处理速度比较快。这样，不需要过多的模型计算服务器，减少了模型计算服务器的数量。

下面通过一个实验数据进一步地说明本公开实施例的技术效果。

利用相关技术的方案，使用50台带有CPU的服务器，每秒能训练35万个业务数据样本。而利用本公开实施例的方案，使用了16台带有CPU的服务器作为特征查询服务器和特征向量服务器，16台带有CPU的服务器作为样本服务器，1台带有GPU的服务器作为模型计算服务器，即总共有32台带有CPU的服务器和1台带有GPU的服务器。基于32台带有CPU的服务器和1台带有GPU的服务器训练神经网络时，每秒能训练75万个业务数据样本。本公开实施例的性能并非体现在算力上，而是体现在带宽上。假如带宽足够(扩展为2个25G网卡)，则模型计算服务器的处理能力为每秒150万个业务数据样本。相比相关技术的方案，不但节省了服务器的数量，还提升了训练速度。

下面以模型计算服务器为执行主体说明本公开实施例的神经网络训练方法。图4是根据一示例性实施例示出的一种神经网络训练方法的流程示意图。该方法应用于模型计算服务器，模型计算服务器包括图形处理器以及中央处理器，如图4所示，神经网络训练方法包括：

S402，中央处理器接收特征查询服务器发送的特征向量，特征向量为特征查询服务器根据多个业务数据样本的特征，从特征向量服务器中查询得到的与特征对应的特征向量；

S404，中央处理器将特征向量传输至图形处理器；

S406，图形处理器根据特征向量，计算神经网络的参数的梯度；

S408，图形处理器将参数的梯度返回至中央处理器；

S410，中央处理器根据梯度调节神经网络的参数，并对神经网络进行迭代训练，直到满足预定条件为止。

本公开实施例中的S402与图2实施例中的S210类似，S404与图2实施例中的S214类似，S406与图2实施例中的S216类似，S408与图2实施例中的S218类似，S410与图2实施例中的S220类似，在此不再重复赘述。

在本公开实施例中，由于利用业务数据样本训练神经网络的过程中涉及比较多的浮点类型数据的处理，而且在对浮点类型数据进行处理的过程中需要比较大的计算量，CPU对浮点类型数据的处理效率比较低，而GPU对浮点类型数据的处理效率比较高。基于此，在训练神经网络的过程中，首先接收特征查询服务器发送的与业务数据样本的特征对应的特征向量；然后，利用GPU对特征向量进行处理，得到神经网络的参数的梯度；根据梯度调节神经网络的参数，并对神经网络进行迭代训练。本公开的实施例使用GPU替代CPU来对业务数据样本进行处理，充分利用GPU的高计算性能，不需要过多的CPU，从而避免使用数量过多的包括CPU的服务器来训练神经网络，降低神经网络的训练成本。

在一个示例中，S406包括：

图形处理器根据损失值，计算神经网络的参数的梯度。

在一个示例中，图形处理器将特征向量输入至神经网络中，得到预测结果，可以包括：

图形处理器将多个业务数据样本的特征向量分配至图形处理器GPU的M个统一计算设备架构CUDA流中，其中，一个统一计算设备架构CUDA流中被分配有至少一个业务数据样本的特征向量，M个统一计算设备架构CUDA流与图形处理器GPU的M个线程一一对应，M为正整数；

图形处理器针对每个统一计算设备架构CUDA流，利用统一计算设备架构CUDA流对应的线程，将统一计算设备架构CUDA流中的特征向量输入至神经网络中，得到神经网络的预测结果。

由于在图2示出的实施例中已经说明了S216的详细实现方式，而本实施例中S406的详细实现方式与上述S216的详细实现方式类似，在此不再重复赘述。

在本公开实施例中，GPU使用CUDA编程模式，将多个业务数据样本的特征向量分配至M个CUDA流中，通过M个线程对M个CUDA流中的特征向量进行并发处理，可以提高特征向量的处理效率，从而提高神经网络的训练速度。

在一个示例中，多个业务数据样本为多批业务数据样本，一批业务数据样本包括至少一个业务数据样本，一个统一计算设备架构CUDA流中被分配有至少一批业务数据样本的特征向量。

在一个示例中，图形处理器GPU的显存包括预先分配的M个显存子空间，M个显存子空间与M个线程一一对应；图形处理器将多个业务数据样本的特征向量分配至图形处理器的M个统一计算设备架构CUDA流中之后，神经网络训练方法还包括：

在本公开实施例中，由于线程处理不同业务数据样本的特征向量时产生的目标数据的大小变化不大，因此，为线程分配的显存子空间可以重复使用。基于此分析，预先为M个线程中的每个线程分配对应的显存子空间。每个线程分配对应的显存子空间可以固定不变。同一个线程处理不同业务数据样本的特征向量时产生的目标数据均存储在线程对应的显存子空间。由此，每当线程处理新的特征向量(即未处理的特征向量)之前，不需要每次为新的特征向量重新申请显存子空间，从而节省了申请显存子空间所消耗的时间，缩短了单次训练神经网络所消耗的时间，提高了神经网络的训练速度。

在一个示例中，S410包括：中央处理器根据每个线程得到的梯度，调节神经网络的参数。

在中央处理器根据M个线程中的任意一个第一线程得到的梯度调节神经网络的参数之后，神经网络训练方法还包括：

图形处理器删除第一线程对应的显存子空间中存储的目标数据。

在本公开实施例中，在根据任意一个第一线程得到的梯度调节神经网络的参数之后，删除第一线程对应的显存子空间中存储的目标数据。这样方便在显存子空间中存储线程下一次处理特征向量时得到的目标数据。

在一个示例中，神经网络的参数包括神经网络中的神经元参数和特征向量，其中，神经元参数存储在模型计算服务器中。

S410可以包括：

中央处理器根据神经元参数的梯度，调节模型计算服务器中存储的神经元参数；

中央处理器将特征向量的梯度发送至特征查询服务器，以使特征查询服务器根据特征向量的梯度，调节特征向量服务器中存储的特征向量。

在一个示例中，S402之后，神经网络训练方法还包括：

中央处理器将特征向量存储至中央处理器的内存中，其中，在同一批业务数据样本的特征向量存储在内存中连续的多个内存子空间。

在本公开实施例中，由于同一批业务数据样本的特征向量分为多个数据块，如果多个数据块从CPU到GPU分开传输，那么会传输的比较慢。因此，将同一批业务数据样本的特征向量存储在CPU的内存中连续的多个内存子空间，这样同一批业务数据样本的特征向量可以一次性地从CPU传输到GPU，避免特征向量从CPU传输到GPU的速度比较慢。

图5是根据一示例性实施例示出的一种模型计算服务器的框图。参照图5，模型计算服务器500包括图形处理器502以及中央处理器504。

中央处理器504被配置为接收特征查询服务器发送的特征向量，特征向量为特征查询服务器根据多个业务数据样本的特征，从特征向量服务器中查询得到的与特征对应的特征向量；

中央处理器504还被配置为将特征向量传输至图形处理器502；

图形处理器502被配置为根据特征向量，计算神经网络的参数的梯度；

图形处理器502还被配置为将参数的梯度返回至中央处理器504；

中央处理器504还被配置为根据梯度调节神经网络的参数，并对神经网络进行迭代训练，直到满足预定条件为止。

在本申请的一个或多个实施例中，图形处理器502具体被配置为：

将特征向量输入至神经网络中，得到预测结果，预测结果表征预测出的用户对业务数据样本的行为；

根据预测结果以及业务数据样本对应的标签数据，计算损失值；

根据损失值，计算神经网络的参数的梯度。

在本申请的一个或多个实施例中，图形处理器502可具体被配置为：

将多个业务数据样本的特征向量分配至图形处理器502的M个统一计算设备架构CUDA流中，其中，一个统一计算设备架构CUDA流中被分配有至少一个业务数据样本的特征向量，M个统一计算设备架构CUDA流与图形处理器502的M个线程一一对应，M为正整数；

针对每个统一计算设备架构CUDA流，利用统一计算设备架构CUDA流对应的线程，将统一计算设备架构CUDA流中的特征向量输入至神经网络中，得到预测结果。

在本申请的一个或多个实施例中，图形处理器502的显存包括预先分配的M个显存子空间，M个显存子空间与M个线程一一对应。

通过M个线程对M个CUDA流中的特征向量进行并发处理，可以提高特征向量的处理效率，从而提高神经网络的训练速度。

图形处理器502还可被配置为：针对每个线程，将线程处理特征向量产生的目标数据存储至线程对应的显存子空间；其中，目标数据包括：在将特征向量输入至神经网络中之后并且得到梯度之前产生的数据，和/或，梯度。

由于线程处理不同业务数据样本的特征向量时产生的目标数据的大小变化不大，因此，图形处理器为线程分配的显存子空间可以重复使用。基于此分析，预先为M个线程中的每个线程分配对应的显存子空间。每个线程分配对应的显存子空间可以固定不变。同一个线程处理不同业务数据样本的特征向量时产生的目标数据均存储在线程对应的显存子空间。由此，每当线程处理新的特征向量(即未处理的特征向量)之前，不需要每次为新的特征向量重新申请显存子空间，从而节省了申请显存子空间所消耗的时间，缩短了单次训练神经网络所消耗的时间，提高了神经网络的训练速度。

在本申请的一个或多个实施例中，中央处理器504具体可被配置为：根据每个线程得到的梯度，调节神经网络的参数。

根据M个线程中的任意一个第一线程得到的梯度调节神经网络的参数之后，图形处理器502还可被配置为：删除第一线程对应的显存子空间中存储的目标数据。

在模型计算服务器的中央处理器根据任意一个第一线程得到的梯度调节神经网络的参数之后，删除第一线程对应的显存子空间中存储的目标数据。这样方便在模型计算服务器的显存子空间中存储线程下一次处理特征向量时得到的目标数据。

在本申请的一个或多个实施例中，神经网络的参数可以包括神经网络中的神经元参数和特征向量，其中，神经元参数存储在模型计算服务器500中。

中央处理器504具体可被配置为：

根据神经元参数的梯度，调节模型计算服务器500中存储的神经元参数；

将特征向量的梯度发送至特征查询服务器，以使特征查询服务器根据特征向量的梯度，调节特征向量服务器中存储的特征向量。

GPU得到的梯度包括两个方面的梯度，分别是神经元参数的梯度和上述特征向量的梯度。通过在模型计算服务器中存储神经元参数，并非在特征向量服务器中存储神经元参数，可以使得模型计算服务器直接根据神经元参数的梯度，调节神经元参数。由此，不需要由特征查询服务器调节神经元参数，进而不需要模型计算服务器将神经元参数的梯度发送至特征查询服务器，节省了发送神经元参数的梯度所占用的带宽，进而提升了神经网络的训练速度。

在本申请的一个或多个实施例中，中央处理器504还可被配置为：将特征向量存储至中央处理器504的内存中，其中，在同一批业务数据样本的特征向量存储在内存中连续的多个内存子空间。

关于上述实施例中的模型计算服务器，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种模型计算服务器，包括：处理器，处理器包括图形处理器以及中央处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述任一项的神经网络训练方法。

图6是根据一示例性实施例示出的另一种模型计算服务器的框图。参照图6，模型计算服务器600包括处理组件622，其进一步包括多个处理器，多个处理器可以包括一个或多个中央处理器以及一个或多个图像处理器；模型计算服务器600还包括由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述任意一项实施例的神经网络训练方法。

模型计算服务器600还可以包括一个电源组件626被配置为执行模型计算服务器600的电源管理，一个有线或无线网络接口650被配置为将模型计算服务器600连接到网络，和一个输入输出(I/O)接口658。模型计算服务器600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由服务器(如模型计算服务器)的处理器执行以完成上述方法。在一个示例中，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种神经网络训练方法，应用于模型计算服务器，所述模型计算服务器包括图形处理器以及中央处理器，其特征在于，所述方法包括：

所述中央处理器将所述特征向量传输至所述图形处理器；

所述图形处理器将所述参数的梯度返回至所述中央处理器；

2.根据权利要求1所述的方法，其特征在于，所述图形处理器根据所述特征向量，计算所述神经网络的参数的梯度，包括：

3.根据权利要求2所述的方法，其特征在于，所述图形处理器将所述特征向量输入至所述神经网络中，得到预测结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述图形处理器的显存包括预先分配的M个显存子空间，所述M个显存子空间与所述M个线程一一对应；

5.根据权利要求4所述的方法，其特征在于，所述中央处理器根据所述梯度调节所述神经网络的参数，包括：

6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述神经网络的参数包括所述神经网络中的神经元参数和所述特征向量，其中，所述神经元参数存储在所述模型计算服务器中；

7.根据权利要求1至5中任意一项所述的方法，其特征在于，所述中央处理器接收特征查询服务器发送的特征向量之后，所述方法还包括：

8.一种模型计算服务器，其特征在于，包括图形处理器以及中央处理器；

9.一种模型计算服务器，其特征在于，包括：

处理器，所述处理器包括图形处理器以及中央处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的神经网络训练方法。

10.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至7中任一项所述的神经网络训练方法。