CN110490316B

CN110490316B - 基于神经网络模型训练系统的训练处理方法、训练系统

Info

Publication number: CN110490316B
Application number: CN201910772684.XA
Authority: CN
Inventors: 王自昊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2023-01-06
Anticipated expiration: 2039-08-21
Also published as: CN110490316A

Abstract

本发明提供了一种基于神经网络模型训练系统的训练处理方法、训练系统及存储介质，该系统包括：监控节点、多个参数存储节点与多个模型计算节点；方法包括：通过将多个模型计算节点各自接收的样本数据的子集训练模型得到的模型参数，发送至与模型计算节点关联的参数存储节点；通过多个参数存储节点存储该模型参数，当多个模型计算节点进行下一次迭代训练时，将所存储的模型参数发送到各自关联的模型计算节点，通过多个模型计算节点各自接收的新样本数据的子集训练模型；通过监控节点获取的多个参数存储节点和多个模型计算节点的运行状态，控制参数存储节点和模型计算节点。通过本发明，能节约节点资源，提高节点间的通信效率。

Description

基于神经网络模型训练系统的训练处理方法、训练系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于神经网络模型训练系统的训练处理方法、训练系统及存储介质。

背景技术

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展，并广泛应用于各种行业。

以信息推荐的应用场景为例，对于信息流推荐产品，通常情况下需要训练各种机器学习模型用于推荐系统的打分与召回环节，机器学习模型的训练需要有参数存储更新与梯度计算两个部分。模型的训练过程中，由于训练数据量和模型参数量巨大，需要大量的计算节点和存储节点对模型进行训练，在训练过程中计算节点与存储节点之间会频繁进行数据交换，从而导致节点内部负荷较高，节点间通信效率降低；并且在训练过程中训练需求和计算存储资源之间存在错位。

发明内容

本发明实施例提供一种基于神经网络模型训练系统的训练处理方法、训练系统及存储介质，能够节约节点资源，提高节点间的通信效率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于神经网络模型训练系统的训练处理方法，包括：

所述神经网络模型训练系统包括：监控节点、多个参数存储节点与多个模型计算节点；

所述方法包括：

通过所述多个模型计算节点各自接收的样本数据的子集训练所述神经网络模型，将训练得到的模型参数发送至与所述模型计算节点关联的参数存储节点；

通过所述多个参数存储节点存储各自关联的模型计算节点发送的模型参数，当所述多个模型计算节点进行下一次迭代训练时，将所存储的模型参数发送到各自关联的模型计算节点，以使

在所述多个模型计算节点各自所接收的模型参数的基础上，通过所述多个模型计算节点各自接收的新样本数据的子集训练所述神经网络模型；

通过所述监控节点获取所述多个参数存储节点和所述多个模型计算节点的运行状态，并基于所述运行状态控制所述参数存储节点和所述模型计算节点。

本发明实施例提供一种神经网络模型训练系统，包括：

多个模型计算节点，用于将各自接收的样本数据的子集训练所述神经网络模型，将训练得到的模型参数发送至与所述模型计算节点关联的参数存储节点；

多个参数存储节点，用于存储各自关联的模型计算节点发送的模型参数，当所述多个模型计算节点进行下一次迭代训练时，将所存储的模型参数发送到各自关联的模型计算节点，以使

监控节点，用于获取所述多个参数存储节点的运行状态、以及所述多个模型计算节点的运行状态，并基于所述运行状态控制所述参数存储节点和所述模型计算节点。

上述方案中，所述多个模型计算节点，还用于向与所述模型计算节点关联的参数存储节点发送消息，所述消息中携带所述模型计算节点训练得到的模型参数；在不等待所述消息的确收消息的情况下，继续向与所述模型计算节点关联的参数存储节点发送新的消息，直至发送完毕所述参数存储节点训练得到的全部模型参数。

上述方案中，所述监控节点，还用于接收所述多个模型计算节点的信息、以及所述多个参数存储节点的信息；根据所述接收的信息，使具有关联关系的模型计算节点和参数存储节点相互感知并建立通信连接。

上述方案中，所述监控节点，还用于接收所述多个模型计算节点在初始化时向所述监控节点发送的地址信息，并发送至与所述模型计算节点具有关联关系的参数存储节点；接收所述多个参数存储节点在初始化时向所述监控节点发送的地址信息，并发送至与所述参数存储节点具有关联关系的模型计算节点；使所述具有关联关系的模型计算节点和参数存储节点根据对方的地址信息而建立通信连接。

上述方案中，所述监控节点，还用于对所述多个模型计算节点和所述多个参数存储节点进行定期轮询，以获取所述多个模型计算节点和所述多个参数存储节点各自的运行状态；或者，接收所述多个模型计算节点和所述多个参数存储节点在发生异常时主动上报的运行状态。

上述方案中，所述监控节点，还用于根据所述多个参数存储节点的运行状态，对所述多个参数存储节点进行扩容处理或缩容处理；根据所述多个模型计算节点的运行状态，对所述多个模型计算节点进行扩容处理或缩容处理。

上述方案中，所述监控节点，还用于根据所述多个参数存储节点的运行状态表征的剩余存储空间，确定所述多个参数存储节点中不满足剩余存储空间可用条件的第一目标参数存储节点；部署新参数存储节点，以使所述新参数存储节点协同所述第一目标参数存储节点进行存储，或者，为所述第一目标参数存储节点分配新的存储空间。

上述方案中，所述监控节点，还用于根据所述多个参数存储节点的运行状态表征的剩余存储空间，确定所述多个参数存储节点中满足剩余存储空间冗余条件的第二目标参数存储节点；将分散存储在多个第二目标参数存储节点的模型参数转移到任意一个第二参数存储节点，并将不再存储有模型参数的第二目标参数存储节点置为处于下线状态的空闲节点。

上述方案中，所述监控节点，还用于根据所述多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据拥塞条件的第一目标模型计算节点；部署新模型计算节点，以基于所述第一目标模型计算节点所接收的样本数据的子集，协同所述第一目标模型计算节点训练所述神经网络模型。

上述方案中，所述监控节点，还用于根据所述多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据空闲条件的第二目标模型计算节点；将多个第二目标模型计算节点的训练任务转移到任意一个第二目标模型计算节点，并将不再有训练任务的第二目标模型计算节点置为处于下线状态的空闲节点。

上述方案中，所述监控节点，还用于当所述监控节点接收所述模型计算节点的出错信息累计次数超过错误次数阈值时，将出错信息累计超过错误次数阈值的模型计算节点确定为计算故障节点，并部署新模型计算节点以替代所述计算故障节点进行训练；当所述监控节点接收所述参数存储节点的出错信息累计次数超过错误次数阈值时，将出错信息累计超过错误次数阈值的参数存储节点确定为存储故障节点，并部署新的参数存储节点以替代所述存储故障节点存储模型参数。

上述方案中，所述神经网络模型为物品推荐模型，所述样本数据为用户针对物品样本的行为数据，所述神经网络模型用于根据所述行为数据预测物品样本的用户评分。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于神经网络模型训练系统的训练处理方法。

本发明实施例具有以下有益效果：

本发明实施例通过监控节点对模型计算节点和参数存储节点的运行状态的监控，能够实时监控计算资源和存储资源的使用情况，从而在训练过程中充分利用节点资源，节约节点资源；通过模型计算节点和参数存储节点的直接通信，提高了节点间数据的传输速度，提高了通信效率。

附图说明

图1是本发明实施例提供的神经网络模型训练系统的一个可选的架构示意图；

图2是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图；

图3是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图；

图4是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图；

图5是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图

图6是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的原理示意图；

图7是本发明实施例提供的神经网络模型训练系统的一个可选的架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)模型参数，在神经网络模型的训练过程中自动更新或自行学习所获得的参数，包括有特征权重、偏置等。

2)模型配置参数，在神经网络模型开始训练之前设置的参数，包括有学习率、网络结构、使用的激活函数等。

3)模型计算节点，在神经网络模型的训练过程中用于对模型参数进行梯度计算。模型计算节点每次根据各自所接收的样本数据的子集训练神经网络模型的过程均包括有正向传播和反向传播。其中，正向传播是指在训练模型中输入样本数据的子集并获得预测结果，计算预测结果与期望结果的差异的过程；反向传播则是指按照输出层、中间层、输入层的顺序，在根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值)，从而根据梯度来更新模型参数。

4)参数存储节点，在神经网络模型的训练过程中用于存储和更新模型计算节点发送的模型参数。

5)监控节点，在神经网络模型的训练过程中用于监控模型计算节点和参数存储节点的运行状态，并根据模型计算节点和参数存储节点的运行状态控制模型计算节点和参数存储节点。

相关技术提供的神经网络模型训练系统，通常在训练系统的多台服务器上启动多个远程过程调用协议(RPC，Remote Procedure Call)服务，各RPC服务之间通过相关的协议进行远程调用获取参数或计算结果，在发明实施例的实施过程中发现存在以下问题：

1)训练性能不足：多个RPC服务之间的调用是超时同步等待机制，这种机制使得每次从远端服务获取数据时，需要等待数据。如果等待数据时间过长就会使得节点无法处理后续逻辑，也会导致上游发送来的样本数据积压而无法用于及时训练，读写压力增大，整个训练性能急速下降。

2)无法进行节点状态监控：部署在各个服务器上的RPC服务之间的通信是根据每次部署提供的静态配置文件进行服务发现，这就导致各个服务在进行训练过程中不能被动态监控，当某些服务出现运行错误，其他服务也无法被及时通知到，当训练资源不足时，也无法及时增加计算/存储资源。

针对上述问题，本发明实施例提供一种基于神经网络模型训练系统的训练处理方法、训练系统及存储介质，不仅能够准确定位出错节点，提高节点间数据的交换速度，而且能够实时监控计算资源和存储资源的使用情况，从而及时地为训练系统增减资源。下面说明本发明实施例提供的基于神经网络模型训练系统的训练处理方法的示例性应用，本发明实施例提供的基于神经网络模型训练系统的训练处理方法可以由服务器或服务器集群(例如可以提供为云服务的形式)实施。

接下来说明基于神经网络模型训练系统的训练处理方法的示例性应用。参见图1，图1是本发明实施例提供的神经网络模型训练系统100的一个可选的架构示意图，神经网络模型训练系统100由监控节点110、多个参数存储节点130(图1中示例性示出了参数存储节点130-1、130-2和130-3)与多个模型计算节点120(图2中示例性示出了模型计算节点120-1、120-2和120-3)组成。其中基于神经网络模型训练系统的训练处理方法可以通过以下过程实现：首先，模型计算节点120-1接收样本数据的子集进行训练，并将训练所得到的模型参数发送至与之关联的参数存储节点130-1；然后，参数存储节点130-1存储模型计算节点120-1发送的模型参数并进行更新，当模型计算节点120-1进行下一次迭代训练时，将更新后的模型参数发送至模型计算节点120-1；最后，在模型计算节点120-1各自所接收的模型参数的基础上，通过模型计算节点120-1各自接收的新样本数据的子集训练神经网络模型。在上述神经网络模型的训练过程中，监控节点110获取所有参数存储节点130和模型计算节点120的运行状态，并基于获取到的运行状态控制参数存储节点130和模型计算节点120。

其中，模型计算节点120可由一台服务器(或多台服务器)实现，参数存储节点130也可由一台服务器(或多台服务器)实现。三种节点之间的通信方式可以是通过传输控制(TCP，Transmission Control Protocol)协议进行通信。

将结合上文所述的神经网络模型训练系统示例性应用和实施，说明本发明实施例提供的基于神经网络模型训练系统的训练处理方法。参见图2，图2是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图，将结合图2示出的步骤进行具体说明。

在步骤S101中，多个模型计算节点根据各自接收的样本数据的子集，训练神经网络模型，并将训练得到的模型参数发送至与模型计算节点关联的参数存储节点。

在一些实施例中，多个模型计算节点根据各自接收的样本数据的子集训练神经网络模型，向与模型计算节点关联的参数存储节点发送消息，消息中携带模型计算节点训练得到的模型参数；在不等待消息的确收消息的情况下，继续向与模型计算节点关联的参数存储节点发送新的消息，直至发送完毕参数存储节点训练得到的全部模型参数。

作为示例，监控节点与模型计算节点之间、监控节点与参数存储节点之间、以及模型计算节点与参数存储节点之间均采用异步通信机制，即：发送端节点可以在任意时刻发送一条携带有数据载荷的消息(例如模型参数)，并且可以不等待接收端节点确收而继续发送下一条携带有数据载荷的消息，或进行其他处理。

本发明实施例通过节点间的异步通信机制，极大地减轻了节点读写压力，从而提高节点间数据的交换速度。即使在增加更多样本数据量的情况下，也不会出现计算超时与读取参数超时的情况。

在步骤S102中，多个参数存储节点存储各自关联的模型计算节点发送的模型参数，当多个模型计算节点进行下一次迭代训练时，将所存储的模型参数发送到各自关联的模型计算节点。

其中，参数存储节点存储的模型参数是各自关联的模型计算节点在进行正向传播过程中输入样本数据的子集后进行正向计算后所获得的模型参数。

在一些实施例中，当模型计算节点进行下一次迭代训练时，参数存储节点将上一次模型计算节点计算获得的模型参数发送至与之关联的模型计算节点。

在步骤S103中，多个模型计算节点在各自所接收的模型参数和新样本数据的子集的基础上训练神经网络模型。

在一些实施例中，当模型计算节点进行下一次迭代训练时，模型计算节点按照输出层、中间层、输入层的顺序反向计算每一层的模型参数的梯度，从而根据梯度更新模型参数，并且通过与之关联的参数存储节点获取模型计算节点上一次计算获得的模型参数去进行后续计算。

在步骤S104中，监控节点获取多个参数存储节点和多个模型计算节点的运行状态，并基于运行状态控制参数存储节点和模型计算节点。

在一些实施例中，监控节点对多个模型计算节点和多个参数存储节点进行定期轮询，以获取多个模型计算节点和多个参数存储节点各自的运行状态；或者，监控节点接收多个模型计算节点和多个参数存储节点在发生异常时主动上报的运行状态。

在一些实施例中，模型计算节点和参数存储节点的运行状态包括以下至少之一：运行信息或出错信息。当模型计算节点和参数存储节点发生异常时，主动上报至监控节点的运行状态包括出错信息。其中，运行信息包括：模型计算节点或参数存储节点的当前负载情况、网络通信状况等；参数存储节点的剩余存储空间；模型计算节点的待处理的样本数据量等。出错信息包括：模型计算节点内存溢出、参数存储节点存储空间耗尽、模型计算节点或参数存储节点通信连接断开等。

在一些实施例中，监控节点根据多个参数存储节点的运行状态，对多个参数存储节点进行扩容处理：监控节点根据多个参数存储节点的运行状态表征的剩余存储空间，确定多个参数存储节点中不满足剩余存储空间可用条件的第一目标参数存储节点；部署新参数存储节点，以使新参数存储节点协同第一目标参数存储节点进行存储，或者，为第一目标参数存储节点分配新的存储空间。

其中，可以根据参数存储节点中已存储的模型参数的数据量确定剩余存储空间可用条件，例如，如果参数存储节点中已经存储的模型参数的数据量与全量参数存储节点的存储空间的比值较大(例如，接近1)，则说明不满足剩余存储空间可用条件。

作为示例，当参数存储节点的剩余存储空间不满足剩余存储空间可用条件时，监控节点将空闲节点置于上线状态以加入至神经网络模型训练系统中，以使空闲节点同步存储剩余存储空间不满足可用条件的参数存储节点中的部分模型参数，同时新参数存储节点会继承所协同的参数存储节点的关联关系，或者，为剩余存储空间不满足可用条件的参数存储节点分配新的存储空间以使其满足剩余存储空间可用条件。

在一些实施例中，监控节点根据多个参数存储节点的运行状态，对多个参数存储节点进行缩容处理：根据多个参数存储节点的运行状态表征的剩余存储空间，确定多个参数存储节点中满足剩余存储空间冗余条件的第二目标参数存储节点；将分散存储在多个第二目标参数存储节点的模型参数转移到任意一个第二参数存储节点，并将不再存储有模型参数的第二目标参数存储节点置为处于下线状态的空闲节点。

其中，可以根据参数存储节点中已存储的模型参数的数据量确定剩余存储空间冗余条件，例如，如果参数存储节点中已经存储的模型参数的数据量与全量参数存储节点的存储空间的比值较小，则说明满足剩余存储空间冗余条件。

作为示例，当参数存储节点的剩余存储空间满足剩余存储空间冗余条件时，监控节点将剩余存储空间满足剩余存储空间冗余条件的参数存储节点所存储的模型参数转移到任意一个参数存储节点，并使转移后的参数存储节点的剩余存储空间满足剩余存储空间可用条件，并将不再存储有模型参数的参数存储节点置为处于下线状态的空闲节点。

在一些实施例中，监控节点根据多个模型计算节点的运行状态，对多个模型计算节点进行扩容处理：根据多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据拥塞条件的第一目标模型计算节点；部署新模型计算节点，以基于第一目标模型计算节点所接收的样本数据的子集，协同第一目标模型计算节点训练神经网络模型。

其中，可以根据模型计算节点中待处理的样本数据的子集的数据量确定数据拥塞条件，例如，如果模型计算节点中待处理的样本数据的数据量大于数据量阈值，或者，待处理样本数据量与已经处理的样本数据量比值大于比值阈值，则说明满足数据拥塞条件。

作为示例，当模型计算节点中待处理的样本数据的子集的数据量大于数据量阈值时，通过监控节点将空闲节点置于上线状态，部署空闲节点，以基于待处理的样本数据的子集的数据量超过数据量阈值的模型计算节点所接收的样本数据的子集，协同该模型计算节点训练神经网络模型。

在一些实施例中，监控节点根据多个模型计算节点的运行状态，对多个模型计算节点进行缩容处理

在一些实施例中，可以根据多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据空闲条件的第二目标模型计算节点；将多个第二目标模型计算节点的训练任务转移到任意一个第二目标模型计算节点，并将不再有训练任务的第二目标模型计算节点置为处于下线状态的空闲节点。

其中，可以根据模型计算节点中待处理的样本数据的子集的数据量确定数据空闲条件，例如，如果模型计算节点中待处理的样本数据的数据量小于数据量阈值，或者，待处理样本数据量与已经处理的样本数据量比值小于比值阈值，则说明满足数据空闲条件。

作为示例，当模型计算节点中待处理的样本数据的子集的数据量小于数据量阈值时，通过监控节点将数据量不超过数据量阈值的模型计算节点的训练任务转移到任意一个数据量不超过数据量阈值的模型计算节点，以使新模型计算节点基于所接收的样本数据的子集和模型参数训练神经网络模型，并将数据量不超过数据量阈值的模型计算节点停止训练作为处于下线状态的空闲节点。

在一些实施例中，当监控节点接收模型计算节点的出错信息累计次数超过错误次数阈值时，将出错信息累计超过错误次数阈值的模型计算节点确定为计算故障节点，并部署新模型计算节点以替代计算故障节点进行训练；当监控节点接收参数存储节点的出错信息累计次数超过错误次数阈值时，将出错信息累计超过错误次数阈值的参数存储节点确定为存储故障节点，并部署新的参数存储节点以替代存储故障节点存储模型参数。

其中，可以根据模型计算节点或参数计算节点上报至监控节点的出错信息次数确定错误次数阈值。

本发明实施例通过在节点内部维护神经网络模型的更新、存储和计算过程，并通过监控节点对模型计算节点和参数存储节点的运行状态的监控，不仅能够准确定位出错节点，而且能够实时监控计算资源和存储资源的使用情况，从而及时地为训练系统增减资源。

参见图3，图3是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图，图3示出了步骤S101之前还可以包括神经网络模型训练系统的初始化过程，具体包括步骤S105和S106，将结合各步骤进行说明。

在步骤S105中，监控节点接收多个模型计算节点的信息和多个参数存储节点的信息。

在一些实施例中，监控节点接收多个模型计算节点在初始化时向监控节点发送的地址信息，并将地址信息发送至与模型计算节点具有关联关系的参数存储节点。监控节点接收多个参数存储节点在初始化时向监控节点发送的地址信息，并将地址信息发送至与参数存储节点具有关联关系的模型计算节点。

在步骤S106中，具有关联关系的模型计算节点和参数存储节点根据接收的信息相互感知并建立通信连接。

在一些实施例中，具有关联关系的模型计算节点和参数存储节点根据对方的地址信息而建立通信连接。

其中，监控节点可以根据模型计算节点单位时间计算得到的模型参数的数据量、参数存储节点的存储空间、三种节点之间通信连接的传输数据的能力等，为多个模型计算节点和多个参数存储节点进行通信连接分配，从而使具有关联关系的模型计算节点和参数存储节点基于监控节点发送的地址信息建立通信连接。

作为示例，参数存储节点和模型计算节点创建完成后进行初始化时，会将自己的地址信息上报至监控节点。监控节点在获取到地址信息之后，会将模型计算节点的地址信息发送至与模型计算节点具有关联关系的参数存储节点，以及将参数存储节点的地址信息发送至与参数存储节点具有关联关系的模型计算节点。从而使具有关联关系的模型计算节点和参数存储节点能够感知到对方的地址，然后可以建立通信连接。

本发明实施例通过监控节点为多个模型计算节点和多个参数存储节点进行通信连接分配，使具有关联关系的模型计算节点和参数存储节点基于监控节点发送的地址信息建立通信连接，不仅能够使模型计算节点计算得到的模型参数及时发送至参数存储节点而不产生过多的拥塞耗尽内存；而且能够使参数存储节点实时更新模型参数并发送至模型计算节点中，从而保证了模型训练的准确性。

下面，以神经网络模型为推荐模型为例，说明本发明实施例提供的神经网络模型训练系统。

对于将推荐模型用于各种产品的信息流推荐，需要训练各种机器学习模型用于推荐系统的打分与召回环节，模型的训练需要有分为模型参数存储更新与梯度计算两个部分。模型的训练过程具有以下三个特点：1.模型计算节点需要跟参数存储节点频繁进行数据交换。2.训练数据量和模型参数量巨大，需要大量的模型计算节点和参数存储节点。3.节点需要根据训练情况动态增减。

相关技术存在以下三个问题：1.开发调试过程复杂，样本数据量大，模型计算节点众多，定位出错节点困难；2.节点读写并发高，经常出现数据写入超时；3.资源利用不均衡，计算资源和存储资源的使用情况没有得到有效监控，导致不能及时地为训练增减资源。

针对上述问题，图4是本发明实施例提供的神经网络模型训练框架的一个可选的架构示意图，参见图4，本发明实施例提供的神经网络模型训练框架由多个参数存储节点p[i]、多个模型计算节点c[i]和监控节点m构成，三种节点之间是通过异步通信机制完成信息发送和处理信息的过程。

将参数存储节点p[i]进行初始化然后将参数存储节点地址信息上报至监控节点m，之后将模型计算节点c[i]进行初始化并将模型计算节点地址信息上报给监控节点m，监控节点m在收到模型计算节点信息之后将参数存储节点地址信息返回至模型计算节点，从而模型计算节点和参数存储节点可通过数据通信连接来进行模型训练。

本发明实施例通过监控节点为模型计算节点和参数存储节点进行通信连接分配，使具有关联关系的模型计算节点和参数存储节点基于监控节点发送的地址信息建立通信连接，不仅能够使模型计算节点计算得到的模型参数及时发送至参数存储节点而不产生过多的拥塞耗尽内存；而且能够使参数存储节点实时更新模型参数并发送至模型计算节点中，从而保证了模型训练的准确性。并且通过节点间的异步通信机制，避免出现节点读写并发高，节点数据写入超时的情况，极大地减轻了节点读写压力，从而提高节点间数据的交换速度。

图5是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的流程示意图，将结合图5进行说明。

初始化阶段：

在步骤S201中，初始化监控节点m。

在步骤S202中，初始化参数存储节点p[i]，并发送参数存储节点的信息至监控节点m。

在步骤S203中，监控节点m存储参数存储节点的信息。

在步骤S204中，初始化模型计算节点c[i]，并发送模型计算节点的信息至监控节点m。

在步骤S205中，监控节点m存储模型计算节点的信息。

训练阶段：

在步骤S206中，传输样本数据至模型计算节点c[i]。

在步骤S207中，模型计算节点c[i]向参数存储节点p[i]请求模型参数。

在步骤S208中，参数存储节点p[i]向模型计算节点c[i]发送模型参数。

在步骤S209中，模型计算节点c[i]计算模型参数。

在步骤S210中，模型计算节点c[i]发送计算后的模型参数至参数存储节点p[i]。

在步骤S211中，参数存储节点p[i]更新模型参数。

需要说明的是，训练阶段中的步骤S206至步骤S211是循环过程。

本发明实施例通过监控节点对模型计算节点和参数存储节点的监控，不仅能够准确定位出错节点，而且能够实时监控计算资源和存储资源的使用情况，从而及时地为训练系统增减资源。

图6是本发明实施例提供的基于神经网络模型训练系统的训练处理方法的一个可选的原理示意图，将结合图6进行说明。

参数存储节点进行初始化并将参数存储节点的地址信息上报给监控节点。

模型计算节点进行初始化并将模型计算节点的地址信息上报给监控节点。

监控节点在收到模型计算节点的地址信息之后将参数存储节点的地址信息返回给模型计算节点，以使模型计算节点和参数存储节点根据接收到的地址信息建立通信连接。

模型计算节点基于获取的样本数据和模型配置参数训练神经网络模型，并将训练得到的模型参数发送至与模型计算节点关联的参数存储节点。其中，样本数据为用户针对物品样本的行为数据，神经网络模型用于根据行为数据预测物品样本的用户评分。上述物品可以是文章、商品或各种服务等。上述行为数据可以是用户的喜欢或不喜欢的点评等。

参数存储节点存储各自关联的模型计算节点发送的模型参数，当模型计算节点进行下一次迭代训练时，将所存储的模型参数发送到各自关联的模型计算节点。

根据上述基于神经网络模型训练系统的训练处理方法获得训练后的神经网络模型，当向训练后的神经网络模型随机输入某一类型文章时，可以预测用户针对此文章的可能的点击概率。当预测用户针对此文章的可能的点击概率高于预设阈值时，则可将该文章推荐至用户。

本发明实施例提供的神经网络模型训练框架通过Actor模型进行各个节点之间的消息通信与数据，使每个节点独立执行，极大地减轻了节点读写压力并且能够支持动态的增减节点资源。在增加更多样本数据量的情况下，也不会出现计算超时与读取模型参数超时的情况。

下面继续说明本发明实施例提供的神经网络模型训练系统100的示例性结构，图7是本发明实施例提供的神经网络模型训练系统的一个可选的架构示意图，如图7所示，神经网络模型训练系统100由监控节点110、多个参数存储节点130与多个模型计算节点120组成。

在一些实施例中，所述多个模型计算节点，还用于向与所述模型计算节点关联的参数存储节点发送消息，所述消息中携带所述模型计算节点训练得到的模型参数；在不等待所述消息的确收消息的情况下，继续向与所述模型计算节点关联的参数存储节点发送新的消息，直至发送完毕所述参数存储节点训练得到的全部模型参数。

在一些实施例中，所述监控节点，还用于接收所述多个模型计算节点的信息和所述多个参数存储节点的信息；根据所述接收的信息，使具有关联关系的模型计算节点和参数存储节点相互感知并建立通信连接。

在一些实施例中，所述监控节点，还用于接收所述多个模型计算节点在初始化时向所述监控节点发送的地址信息，并发送至与所述模型计算节点具有关联关系的参数存储节点；接收所述多个参数存储节点在初始化时向所述监控节点发送的地址信息，并发送至与所述参数存储节点具有关联关系的模型计算节点；使所述具有关联关系的模型计算节点和参数存储节点根据对方的地址信息而建立通信连接。

在一些实施例中，所述监控节点，还用于对所述多个模型计算节点和所述多个参数存储节点进行定期轮询，以获取所述多个模型计算节点和所述多个参数存储节点各自的运行状态；或者，接收所述多个模型计算节点和所述多个参数存储节点在发生异常时主动上报的运行状态。

在一些实施例中，所述监控节点，还用于根据所述多个参数存储节点的运行状态，对所述多个参数存储节点进行扩容处理或缩容处理；根据所述多个模型计算节点的运行状态，对所述多个模型计算节点进行扩容处理或缩容处理。

在一些实施例中，所述监控节点，还用于根据所述多个参数存储节点的运行状态表征的剩余存储空间，确定所述多个参数存储节点中不满足剩余存储空间可用条件的第一目标参数存储节点；部署新参数存储节点，以使所述新参数存储节点协同所述第一目标参数存储节点进行存储，或者，为所述第一目标参数存储节点分配新的存储空间。

在一些实施例中，所述监控节点，还用于根据所述多个参数存储节点的运行状态表征的剩余存储空间，确定所述多个参数存储节点中满足剩余存储空间冗余条件的第二目标参数存储节点；将分散存储在多个第二目标参数存储节点的模型参数转移到任意一个第二参数存储节点，并将不再存储有模型参数的第二目标参数存储节点置为处于下线状态的空闲节点。

在一些实施例中，所述监控节点，还用于根据所述多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据拥塞条件的第一目标模型计算节点；部署新模型计算节点，以基于所述第一目标模型计算节点所接收的样本数据的子集，协同所述第一目标模型计算节点训练所述神经网络模型。

在一些实施例中，所述监控节点，还用于根据所述多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据空闲条件的第二目标模型计算节点；将多个第二目标模型计算节点的训练任务转移到任意一个第二目标模型计算节点，并将不再有训练任务的第二目标模型计算节点置为处于下线状态的空闲节点。

在一些实施例中，所述监控节点，还用于当所述监控节点接收所述模型计算节点的出错信息累计次数超过错误次数阈值时，将出错信息累计超过错误次数阈值的模型计算节点确定为计算故障节点，并部署新模型计算节点以替代所述计算故障节点进行训练；当所述监控节点接收所述参数存储节点的出错信息累计次数超过错误次数阈值时，将出错信息累计超过错误次数阈值的参数存储节点确定为存储故障节点，并部署新的参数存储节点以替代所述存储故障节点存储模型参数。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图2示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在HTML文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

将本发明实施例所提供的神经网络模型训练系统应用于信息流推荐的模型训练中，使用相同的样本数据进行训练，和相关技术所提供的神经网络模型训练系统相比，本发明实施例所提供的神经网络模型训练系统整体计算耗时缩13.2％，模型训练准确性提高4.3％。

综上所述，本发明实施例具有以下有益效果：

1)通过在节点内部维护神经网络模型的更新、存储和计算过程，并通过监控节点对模型计算节点和参数存储节点的运行状态的监控，不仅能够准确定位出错节点，而且能够实时监控计算资源和存储资源的使用情况，从而及时地为训练系统增减资源。

2)通过节点间的异步通信机制，极大地减轻了节点读写压力，从而提高了节点间数据的交换速度和模型的迭代速度。即使在增加更多样本数据量的情况下，也不会出现计算超时与读取参数超时的情况。

3)通过监控节点为多个模型计算节点和多个参数存储节点进行通信连接分配，使具有关联关系的模型计算节点和参数存储节点基于监控节点发送的地址信息建立通信连接，不仅能够使模型计算节点计算得到的模型参数及时发送至参数存储节点而不产生过多的拥塞耗尽内存；而且能够使参数存储节点实时更新模型参数并发送至模型计算节点中，从而保证了训练神经网络模型的准确性。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于神经网络模型训练系统的训练处理方法，其特征在于，

所述方法包括：

通过所述多个模型计算节点各自接收的样本数据的子集，训练所述神经网络模型，并将训练得到的模型参数发送至与所述模型计算节点关联的参数存储节点；

通过所述监控节点获取所述多个参数存储节点的运行状态、以及所述多个模型计算节点的运行状态；

根据所述多个参数存储节点的运行状态表征的剩余存储空间，确定所述多个参数存储节点中不满足剩余存储空间可用条件的第一目标参数存储节点；

部署新参数存储节点，以使所述新参数存储节点协同所述第一目标参数存储节点进行存储，或者，为所述第一目标参数存储节点分配新的存储空间；

根据所述多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据拥塞条件的第一目标模型计算节点；

部署新模型计算节点，以基于所述第一目标模型计算节点所接收的样本数据的子集，协同所述第一目标模型计算节点训练所述神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述将训练得到的模型参数发送至与所述模型计算节点关联的参数存储节点，包括：

向与所述模型计算节点关联的参数存储节点发送消息，所述消息中携带所述模型计算节点训练得到的模型参数；

在不等待所述消息的确收消息的情况下，继续向与所述模型计算节点关联的参数存储节点发送新的消息，直至发送完毕所述参数存储节点训练得到的全部模型参数。

3.根据权利要求1所述的方法，其特征在于，通过所述多个模型计算节点各自接收的样本数据的子集训练所述神经网络模型之前，所述方法还包括：

通过所述监控节点接收所述多个模型计算节点的信息、以及所述多个参数存储节点的信息；

根据所述接收的信息，使具有关联关系的模型计算节点和参数存储节点相互感知并建立通信连接。

4.根据权利要求3所述的方法，其特征在于，所述根据所述接收的信息，使具有关联关系的模型计算节点和参数存储节点相互感知并建立通信连接，包括：

通过所述监控节点接收所述多个模型计算节点在初始化时向所述监控节点发送的地址信息，并发送至与所述模型计算节点具有关联关系的参数存储节点；

通过所述监控节点接收所述多个参数存储节点在初始化时向所述监控节点发送的地址信息，并发送至与所述参数存储节点具有关联关系的模型计算节点；

使所述具有关联关系的模型计算节点和参数存储节点根据对方的地址信息而建立通信连接。

5.根据权利要求1所述的方法，其特征在于，所述通过所述监控节点获取所述多个参数存储节点和所述多个模型计算节点的运行状态，包括：

通过所述监控节点对所述多个模型计算节点和所述多个参数存储节点进行定期轮询，以获取所述多个模型计算节点和所述多个参数存储节点各自的运行状态；

或者，通过所述监控节点接收所述多个模型计算节点和所述多个参数存储节点在发生异常时主动上报的运行状态。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述多个参数存储节点的运行状态，对所述多个参数存储节点缩容处理；

根据所述多个模型计算节点的运行状态，对所述多个模型计算节点缩容处理。

7.根据权利要求6所述的方法，其特征在于，

所述根据所述多个参数存储节点的运行状态，对所述多个参数存储节点进行缩容处理，包括：

根据所述多个参数存储节点的运行状态表征的剩余存储空间，确定所述多个参数存储节点中满足剩余存储空间冗余条件的第二目标参数存储节点；

将分散存储在多个第二目标参数存储节点的模型参数转移到任意一个第二参数存储节点，并将不再存储有模型参数的第二目标参数存储节点置为处于下线状态的空闲节点；

所述根据所述多个模型计算节点的运行状态，对所述多个模型计算节点进行缩容处理，包括：

根据所述多个模型计算节点的运行状态表征的待处理样本数据量，确定满足数据空闲条件的第二目标模型计算节点；

将多个第二目标模型计算节点的训练任务转移到任意一个第二目标模型计算节点，并将不再有训练任务的第二目标模型计算节点置为处于下线状态的空闲节点。

8.根据权利要求1所述的方法，其特征在于，所述基于所述运行状态控制所述参数存储节点和所述模型计算节点，包括：

当通过监控节点接收所述模型计算节点的出错信息累计次数超过错误次数阈值时，

将出错信息累计超过错误次数阈值的模型计算节点确定为计算故障节点，并部署新模型计算节点以替代所述计算故障节点进行训练；

当所述监控节点接收所述参数存储节点的出错信息累计次数超过错误次数阈值时，

将出错信息累计超过错误次数阈值的参数存储节点确定为存储故障节点，并部署新的参数存储节点以替代所述存储故障节点存储模型参数。

9.根据权利要求1至8任一项所述的方法，其特征在于，

所述神经网络模型为物品推荐模型，所述样本数据为用户针对物品样本的行为数据，所述神经网络模型用于根据所述行为数据预测物品样本的用户评分。

10.一种神经网络模型训练系统，其特征在于，包括：

监控节点，用于获取所述多个参数存储节点和所述多个模型计算节点的运行状态；

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，其特征在于，所述处理器执行所述计算机可执行指令时实现权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，该计算机可执行指令被处理器执行时实现权利要求1-9任一项所述的方法。