CN108491928B

CN108491928B - 模型参数发送方法、装置、服务器及存储介质

Info

Publication number: CN108491928B
Application number: CN201810273300.5A
Authority: CN
Inventors: 吴家祥; 黄维东; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-10-25
Anticipated expiration: 2038-03-29
Also published as: CN108491928A

Abstract

本申请公开了一种模型参数发送方法、装置、服务器及存储介质，属于信息技术领域。所述方法包括：获取目标模型的模型参数的初始参数值和样本集；根据初始参数值和样本集，计算模型参数的第一梯度；对第一梯度进行迭代量化处理得到量化后的第二梯度，迭代量化处理是在第t个迭代轮次中基于第t‑1个迭代轮次对应的误差累计值所进行的量化处理，误差累计值是基于预设时间衰减系数计算得到的量化误差的累计值；向主计算节点发送量化后的第二梯度，量化后的第二梯度用于指示主计算节点根据量化后的第二梯度对初始参数值进行更新，得到更新后的参数值。本申请实施例利用量化误差修正的方法，对模型参数的第一梯度进行量化压缩，减少了梯度传输的通信代价和网络开销。

Description

模型参数发送方法、装置、服务器及存储介质

技术领域

本申请涉及信息技术领域，特别涉及一种模型参数发送方法、装置、服务器及存储介质。

背景技术

DistBelief是一种人工智能深度学习框架，可以用来训练大规模的神经网络模型，目前已广泛应用于文本处理、图像识别等多个领域。DistBelief提供了一种分布式训练模式：随机梯度下降(Stochastic Gradient Descent，SGD)，该模式定义了一个主计算节点和N个子计算节点，每个子计算节点用于训练生成模型副本，该主计算节点用于为N个子计算节点共享模型参数。

在训练开始之前，主计算节点向每个子计算节点发送模型参数的初始参数值，并将训练数据集划分为多个样本集，分别分配给N个子计算节点。在训练过程中，每个子计算节点根据分配的样本集和模型参数当前的参数值进行训练，并计算得到模型参数的梯度，将梯度发送给主计算节点，主计算节点可以根据所有子计算节点发送的梯度对模型参数进行更新，得到更新后的参数值，每个子计算节点可以从主计算节点中获取更新后的参数值，根据更新后的参数值继续进行训练。其中，模型中包括多个模型参数，采用上述训练方式可以训练模型中的每个模型参数。

但是，在上述方法中，主计算节点与N个子计算节点之间需要传输模型参数的梯度，模型参数规模很大时该传输梯度的过程会带来巨大的网络开销。

发明内容

本申请实施例提供了一种模型参数发送方法、装置、服务器及存储介质，可以用于解决相关技术中训练模型过程中梯度传输的通信代价和网络开销较大的问题。所述技术方案如下：

第一方面，提供了一种模型参数发送方法，应用于包括主计算节点和N个子计算节点的模型训练系统中，所述主计算节点与所述子计算节点之间通过网络连接，所述主计算节点与所述子计算节点为具备数据计算功能的装置，所述N为正整数，所述方法包括：

所述N个子计算节点中的每个子计算节点获取目标模型的模型参数的初始参数值和样本集；

所述子计算节点根据所述初始参数值和所述样本集，计算所述模型参数的第一梯度，所述第一梯度用于指示所述模型参数的变化程度；

所述子计算节点对所述第一梯度进行迭代量化处理得到量化后的第二梯度，所述迭代量化处理是在第t个迭代轮次中基于第t-1个迭代轮次对应的误差累计值所进行的量化处理，所述误差累计值是基于预设时间衰减系数计算得到的量化误差的累计值，所述t为大于1的正整数；

所述子计算节点向所述主计算节点发送所述量化后的第二梯度，所述量化后的第二梯度用于指示所述主计算节点根据所述量化后的第二梯度对所述初始参数值进行更新，得到更新后的参数值。

第二方面，提供了一种模型参数发送装置，应用于包括主计算节点和N个子计算节点的模型训练系统中，所述主计算节点与所述子计算节点之间通过网络连接，所述主计算节点与所述子计算节点为具备数据计算功能的装置，所述N为正整数，所述装置包括：

获取模块，用于获取目标模型的模型参数的初始参数值和样本集；

计算模块，用于根据所述初始参数值和所述样本集，计算所述模型参数的第一梯度，所述第一梯度用于指示所述模型参数的变化程度；

量化模块，用于对所述第一梯度进行迭代量化处理得到量化后的第二梯度，所述迭代量化处理是在第t个迭代轮次中基于第t-1个迭代轮次对应的误差累计值所进行的量化处理，所述误差累计值是基于预设时间衰减系数计算得到的量化误差的累计值，所述t为大于1的正整数；

发送模块，用于向所述主计算节点发送所述量化后的第二梯度，所述量化后的第二梯度用于指示所述主计算节点根据所述量化后的第二梯度对所述初始参数值进行更新，得到更新后的参数值。

第三方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所提供的模型参数发送方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所提供的模型参数发送方法。

本申请实施例提供的技术方案带来的有益效果是：

通过获取目标模型的模型参数的初始参数值和样本集；根据初始参数值和样本集，计算模型参数的第一梯度，对第一梯度进行迭代量化处理得到量化后的第二梯度，迭代量化处理是在第t个迭代轮次中基于第t-1个迭代轮次对应的误差累计值所进行的量化处理，误差累计值是基于预设时间衰减系数计算得到的量化误差的累计值；向主计算节点发送量化后的第二梯度，量化后的第二梯度用于指示主计算节点根据量化后的第二梯度对初始参数值进行更新，得到更新后的参数值；使得利用量化误差修正的方法，对模型参数的第一梯度进行量化压缩得到量化后的第二梯度，由于向主计算节点传输的是量化后的第二梯度，由于避免了相关技术中在梯度传输过程中直接传输模型参数的第一梯度而导致传输耗时较大的情况，在保证收敛速度和量化结果基本无损的同时，减少了梯度传输的通信代价和网络开销，进一步提升了分布式计算的运行效率。

附图说明

图1是本申请实施例提供的一种模型训练系统的结构示意图；

图2是本申请实施例提供的一种主计算节点与子计算节点的交互流程图；

图3是本申请实施例提供的一种模型参数发送方法的流程图；

图4是本申请实施例提供的一种模型参数发送方法的流程图；

图5是本申请实施例提供的一种用户偏好预测场景的示意图；

图6是本申请一个实施例提供的模型参数发送装置的结构示意图；

图7是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种模型训练系统的结构示意图，参见图1，该模型训练系统100包括主计算节点12和N个子计算节点14，N为正整数。该主计算节点12与N个子计算节点14之间通过网络连接。主计算节点12或子计算节点14可以为服务器，也可以为计算机或者具备数据计算功能的装置等，本申请实施例对主计算节点12或子计算节点14不做限定。

如图2所示，该主计算节点12与N个子计算节点14之间的交互流程可以包括如下几个步骤：每个子计算节点14用于获取模型参数的初始参数值和待训练的样本集，计算模型参数的第一梯度，对第一梯度进行迭代量化处理，得到量化后的第二梯度，更新误差累计值，向主计算节点12发送量化后的第二梯度。对应的，主计算节点12用于接收多个子计算节点14发送的量化后的第二梯度，根据多个第二梯度对模型参数进行更新，得到更新后的参数值，向N个子计算节点14分别发送更新后的参数值。

进一步地，该系统可以包括多个主计算节点12，每个主计算节点12用于共享不同的模型参数。也即是，模型中可以包括多个模型参数，则为了提高系统并行度，可以将模型中的多个模型参数划分为多份，分别分配给多个主计算节点12，每个主计算节点12可以存储相应的模型参数，并根据所有子计算节点14发送的模型参数的梯度对存储的模型参数进行更新。

图3是本申请实施例提供的一种模型参数发送方法的流程图。本实施例以该模型参数发送方法应用于图1或者图2所示的子计算节点14中来举例说明。参见图3，该方法包括：

步骤301，获取目标模型的模型参数的初始参数值和样本集。

可选的，目标模型是能够采用分布式训练的神经网络模型，分布式训练神经网络模型的模型参数是采用梯度下降算法训练得到的模型参数。

可选的，该主计算节点存储模型参数的参数值。可选的，子计算节点从主计算节点中获取分配的模型参数的初始参数值。其中，N个子计算节点对应的模型参数的初始参数值均相同。

模型参数包括一个或者至少两个模型参数。比如，模型参数是包括数万个参数的向量。

样本集为随机生成的待训练的样本集或者是由人工采集的具有实际含义的待训练的样本集，该样本集中包括M个样本，M为正整数。可选的，N个子计算节点中任意两个子计算节点对应的样本集均不同。

子计算节点获取待训练的样本集，包括但不限于以下两种可能的实现方式：

第一种可能的实现方式中，主计算节点根据子计算节点的数量，将训练数据集划分为N个样本集，分别为N个子计算节点分配一个样本集，并将分配好的样本集发送至对应的子计算节点；相应的，每个子计算节点接收主计算节点发送的样本集。

第二种可能的实现方式中，子计算节点根据随机种子生成样本集。比如，子计算节点根据随机种子采用随机数生成算法，生成M个样本，将生成的M个样本确定为样本集。

第三种可能的实现方式中，子计算节点从云端服务器中获取待训练的样本集，其中，云端服务器中存储有待训练的样本集。下面仅以子计算节点获取待训练的样本集为第一种可能的实现方式为例进行说明。

步骤302，根据初始参数值和样本集，计算模型参数的第一梯度，第一梯度用于指示模型参数的变化程度。

子计算节点根据初始参数值和样本集，计算模型参数的第一梯度。模型参数的第一梯度用于指示对应于样本集中样本的目标函数值变化速度最快的模型参数的变化方向；其中，样本集包括一个或者至少两个样本集。需要说明的是，第一梯度的计算过程可参考下面实施例中的相关细节，在此先不介绍。

步骤303，对第一梯度进行迭代量化处理得到量化后的第二梯度，迭代量化处理是在第t个迭代轮次中基于第t-1个迭代轮次对应的误差累计值所进行的量化处理，误差累计值是基于预设时间衰减系数计算得到的量化误差的累计值，t为大于1的正整数。

子计算节点根据误差累计值，对第一梯度进行迭代量化处理得到量化后的第二梯度。即子节点在对第一梯度进行迭代量化处理时不仅需要考虑当前迭代轮次对应的第一梯度，同时也需要考虑之前迭代轮次中由于迭代量化处理而导致的误差累计值。需要说明的是，第二梯度的计算方式可参考下面实施例中的相关细节，在此先不介绍。

步骤304，向主计算节点发送量化后的第二梯度，量化后的第二梯度用于指示主计算节点根据量化后的第二梯度对初始参数值进行更新，得到更新后的参数值。

子计算节点将量化后的第二梯度发送给主计算节点，对应的，主计算节点接收子计算节点发送的量化后的第二梯度。主计算节点根据量化后的第二梯度对初始参数值进行更新，得到更新后的参数值。

需要说明的是，主计算节点根据量化后的第二梯度对初始参数值进行更新，得到更新后的参数值的过程可参考下面实施例中的相关细节，在此先不介绍。

综上所述，本申请实施例通过获取目标模型的模型参数的初始参数值和样本集；根据初始参数值和样本集，计算模型参数的第一梯度，对第一梯度进行迭代量化处理得到量化后的第二梯度，迭代量化处理是在第t个迭代轮次中基于第t-1个迭代轮次对应的误差累计值所进行的量化处理，误差累计值是基于预设时间衰减系数计算得到的量化误差的累计值；向主计算节点发送量化后的第二梯度，量化后的第二梯度用于指示主计算节点根据量化后的第二梯度对初始参数值进行更新，得到更新后的参数值；使得利用量化误差修正的方法，对模型参数的第一梯度进行量化压缩得到量化后的第二梯度，由于向主计算节点传输的是量化后的第二梯度，由于避免了相关技术中在梯度传输过程中直接传输模型参数的第一梯度而导致传输耗时较大的情况，在保证收敛速度和量化结果基本无损的同时，减少了梯度传输的通信代价和网络开销，进一步提升了分布式计算的运行效率。

请参考图4，其示出了本申请一个实施例提供的模型参数发送方法的流程图。本实施例以该模型参数发送方法应用于图1所示出的实施环境来举例说明。该模型参数发送方法包括：

步骤401，主计算节点为每个子计算节点分配样本集和模型参数。

本申请实施例应用于训练目标模型的场景下，该目标模型可以为人脸识别模型、词转化成向量(英文：Word2Vec)模型等，目标模型中可以包括多个模型参数，且不同类型的目标模型中模型参数的类型也不同，本申请实施例对该目标模型和该目标模型中的模型参数均不做限定。

该主计算节点可以获取要训练的样本集和目标模型中的多个模型参数，此时，该主计算节点可以为每个子计算节点分配样本集和模型参数，也即是确定每个节点要训练的样本集和模型参数。

可选的，该主计算节点可以采用数据并行而模型不并行的方式进行分配，使得不同子计算节点训练的样本集不同，而训练的模型参数相同。也即是，该主计算节点将模型中的所有模型参数均分配给每个子计算节点进行训练，而将要训练的样本划分为多个样本集后，将每个样本集分别分配给每个子计算节点进行训练。

分配好之后，主计算节点即可向每个子计算节点发送为相应子计算节点分配的样本集和模型参数的初始参数值，由子计算节点根据样本集和初始参数值进行计算第一梯度并对该第一梯度进行迭代量化处理得到第二梯度。

其中，针对该样本集，主计算节点可以在训练开始之前，向每个子计算节点发送为相应子计算节点分配的样本集，之后在训练过程中将不再发送样本集。而针对模型参数的参数值，在训练开始之前，主计算节点可以向每个子计算节点发送所有模型参数的初始参数值，并通知每个子计算节点所分配的模型参数，在训练过程中，该主计算节点可能会对模型参数的参数值进行更新，则每次更新之后可以向每个子计算节点发送模型参数更新后的参数值，或者由要训练该模型参数的子计算节点从主计算节点拉取该模型参数更新后的参数值。本申请实施例对该主计算节点发送样本集和模型参数的初始参数值的时机不做限定。

步骤402，主计算节点向每个子计算节点发送所分配的样本集以及模型参数的初始参数值。

在主计算节点为每个子计算节点分配好样本集和模型参数之后，向每个子计算节点发送所分配的样本集以及模型参数的初始参数值。

步骤403，子计算节点根据分配的样本集和模型参数的初始参数值，计算得到模型参数的第一梯度。

可选的，子计算节点根据模型参数的初始参数值和样本集，采用误差反向传播算法计算得到模型参数的第一梯度。

可选的，目标模型中包括多个模型参数，该主计算节点向子计算节点发送多个模型参数的初始参数值，子计算节点根据多个模型参数的初始参数值构成模型副本，将样本集中的样本输入到模型副本中进行计算，得到目标函数的值，根据目标函数对需要训练的模型参数求取偏导即可得到模型参数的第一梯度。

可选的，子计算节点按照如下公式计算得到模型参数的第一梯度：

其中，是在第t个迭代轮次中，第p个子计算节点上的样本集，是样本集的样本数量，w是模型参数的初始参数值，x为第p个子计算节点上的第i个样本的特征信息，y为第p个子计算节点上的第i个样本的监督信息，p和i均为正整数。

其中，样本集可以包括多个样本，该子计算节点可以对多个样本进行分组，得到多个子集，每个子集中包括至少一个样本。另外，针对不同的目标模型，样本的形式也不同。例如，目标模型为Word2Vec模型时，样本集中可以包括多个语句，子计算节点划分得到的多个子集中包括至少一个语句，对至少一个语句进行分词可以得到多个词组，该多个词组可以作为样本，对目标模型的模型参数进行训练。

进一步地，待训练的子集中可能包括多个样本，对多个样本一起进行训练会造成数据量过大，因此，每次训练时，子计算节点可以从子集中提取预设数目的样本来进行训练。在后续从主计算节点获取到模型参数更新后的参数值后，可以再次从子集剩余的样本中提取预设数目的样本继续进行训练。该预设数目可以根据子集中的样本数目和对训练速度的需求确定，本申请实施例对此不做限定。

比如，目标模型为Word2Vec模型时，待训练的子集中包括多个语句，该线程从子集中提取的词组数目为M，根据提取的M个词组进行训练，并记录下当前提取词组的语句所在的位置、该语句的上下文窗口以及当前提取的最后一个词组的位置，对这M个词组训练完成时，子计算节点可以根据记录的语句所在位置、上下文窗口和上次提取的最后一个词组的位置，从子集中上次提取的最后一个词组的下一个词组开始，继续提取M个词组进行训练，以此类推。

步骤404，子计算节点对第一梯度进行迭代量化处理，得到量化后的第二梯度。

可选的，子计算节点对第一梯度进行迭代量化处理得到量化后的第二梯度，包括：在第t个迭代轮次时，根据第t个迭代轮次对应的第一梯度，以及第t-1个迭代轮次对应的误差累计值，计算得到第t个迭代轮次对应的第二梯度；当迭代轮次达到预设迭代次数时，将预设迭代次数所计算得到的第二梯度确定为量化后的第二梯度。

可选的，子计算节点计算得到第t个迭代轮次对应的第二梯度，包括：

按照如下公式计算得到第t个迭代轮次对应的第二梯度：

其中，是在第t个迭代轮次中，第p个子计算节点上计算得到的第二梯度中的第j个分量，是在第t个迭代轮次中，第p个子计算节点上计算得到的第一梯度中的第j个分量，λ是加权系数，是在第t-1个迭代轮次对应的误差累计值，s是量化函数ξ_s()的量化级别数，ξ_s()是概率化的映射函数，p为正整数，λ∈(0,1)，s为大于1的正整数，l是区间[0,s)中的整数，

可选的，子计算节点在第t个迭代轮次时，按照如下公式对误差累计值进行更新，得到第t个迭代轮次对应的误差累计值

其中，是在第t个迭代轮次对应的误差累计值，α是预设时间衰减系数，α∈(0,1]，是在第t-1个迭代轮次对应的误差累计值，是在第t个迭代轮次中，第p个子计算节点上计算得到的第一梯度中的第j个分量，是在第t个迭代轮次中，第p个子计算节点上计算得到的第二梯度中的第j个分量。

步骤405，子计算节点将量化后的第二梯度发送给主计算节点。

发送量化后的第二梯度时，该子计算节点可以采用KLV(Key-Length-Value，键-长度-值)的格式发送。如发送第二梯度的协议为参数总长度+参数下标(Key)+参数值(Value)，不同的模型参数具有不同的下标(Key)，该子计算节点可以获取每个模型参数的下标和第二梯度以及参数总长度，根据该协议向主计算节点发送不同模型参数的第二梯度。

本申请实施例仅是以该子计算节点计算得到第二梯度后即向主计算节点发送该第二梯度为例。实际上，为了进一步减小网络开销，该子计算节点可以采用增量更新梯度的方式，仅向主计算节点发送绝对值大于0的第二梯度，而不再发送绝对值等于0的第二梯度。

由于第二梯度用于体现模型参数的变化情况，当第二梯度的绝对值大于0时，表示本次训练时该模型参数发生变化，即该第二梯度增大或减小，需要在主计算节点对该模型参数进行更新，而当第二梯度的绝对值等于0，即该第二梯度为0时，表示本次训练时该模型参数未发生变化，无需在主计算节点对该模型参数进行更新，将该第二梯度发送给主计算节点会造成网络开销的浪费。

因此，子计算节点每次计算得到第二梯度时，可以先获取该第二梯度的绝对值，判断该绝对值是否等于0，如果该绝对值大于0，则向该主计算节点发送该第二梯度，如果该绝对值等于0，则不再向该主计算节点发送该第二梯度。

需要说明的是，目标模型中可以包括多个模型参数，子计算节点采用上述步骤402-404进行训练时，可以得到为该子计算节点所分配的每个模型参数的第二梯度。

目标模型中通常包括大量的模型参数，每次根据样本进行训练时大量模型参数中可能只有小部分的模型参数发生变化，也即是只有小部分的模型参数计算出的第二梯度绝对值大于0，而其他大部分的模型参数未发生变化，计算出的第二梯度均为0。与向主计算节点发送所有模型参数的第二梯度相比，本实施例仅发送绝对值大于0的第二梯度会大大节省网络开销。

步骤406，主计算节点根据N个子计算节点发送的第二梯度对模型参数进行更新，得到更新后的参数值。

N个子计算节点分别向主计算节点发送量化后的第二梯度，主计算节点将接收到的N个量化后的第二梯度进行求和，得到总梯度；主计算节点根据总梯度对模型参数进行更新，得到更新后的参数值。

其中，该主计算节点根据总梯度对模型参数进行更新时，可以采用相同的学习率对模型参数进行更新，或者也可以对学习率进行调整，采用调整后的学习率对模型参数进行更新。其中，对学习率进行调整时可以采用多种调整算法进行，如AdaGrad自适应学习率调整算法等，本申请实施例对调整算法不做限定。

可选的，主计算节点采用基于梯度下降的优化算法(Gradient Descent，GD)对模型参数进行训练，包括但不限于小批量梯度下降法(Mini-batches Gradient Descent，MBGD)、SGD、随机方差缩减梯度(Stochastic Variance Reduced Gradient，SVRG)算法中的至少一种。

步骤407，主计算节点向每个子计算节点发送更新后的参数值。

主计算节点在得到更新后的参数值之后，将该更新后的参数值广播至N个子计算节点，对应的，N个子计算节点获取到更新后的参数值。

步骤408，子计算节点根据更新后的参数值继续进行训练。

子计算节点对本次的样本训练完成后，可以从子集中继续提取样本，继续对提取的样本进行训练。由于该主计算节点可能已经对目标模型中的某些模型参数进行了更新，则该子计算节点可以从该主计算节点获取模型参数更新后的参数值，将更新后的参数值作为本次训练的初始参数值，根据该初始参数值和本次提取的样本执行步骤403，继续进行训练。

在训练过程中，每个子计算节点可以将根据样本训练得到的输出结果与样本的实际结果进行对比，得到训练误差，并发送给该主计算节点，该主计算节点可以获取到不同子计算节点所发送的训练误差，当确定训练误差小于预设误差时，表示该目标模型的准确率已符合要求，此时即可根据模型参数当前的参数值构成目标模型，并通知子计算节点停止训练，至此训练过程完成。

需要说明的是，本申请实施例仅以一个主计算节点为例，实际上可以设置多个主计算节点，由多个主计算节点分别共享不同的模型参数，存储不同模型参数的参数值，并对存储的模型参数的参数值进行更新。

则针对子计算节点来说，当子计算节点得到模型参数的第二梯度时，确定该模型参数对应的主计算节点，即用于存储该模型参数的主计算节点，向确定的主计算节点发送该第二梯度，以便该主计算节点接收到该第二梯度时，根据该第二梯度对该模型参数进行更新。而且，该子计算节点可以从不同的主计算节点上获取更新的参数分片，避免了对某一主计算节点的集中访问，避免了网络传输尖峰。

需要说明的是，上述步骤403、404、405和408仅是以一个子计算节点为例进行说明，实际上，该系统中的每个子计算节点均会执行上述步骤403、404、405和408，且主计算节点可以接收任一子计算节点发送的第二梯度，并根据接收到的第二梯度对模型参数进行更新，任一子计算节点均可根据主计算节点更新后的参数值继续进行训练，本申请实施例对子计算节点不做限定。

可选的，目标模型是分布式训练神经网络模型，分布式训练神经网络模型的模型参数是采用梯度下降算法训练得到的模型参数。

在一种可能的实现方式中，当模型参数发送方法应用于信息分类领域时，分布式训练神经网络模型为信息分类模型，模型参数是信息分类模型中用于指示信息特征和信息类型之间的对应关系的参数。

其中，信息特征包括文本特征、图像特征、音频特征、视频特征、生理特征、行为特征、设备标识和帐号标识中的至少一种。

示意性的，当模型参数发送方法应用于文本分类领域时，分布式训练神经网络模型为文本分类模型，模型参数是信息分类模型中用于指示文本特征和文本类型之间的对应关系的参数。

当模型参数发送方法应用于信息预测领域时，分布式训练神经网络模型为信息预测模型，模型参数是信息预测模型中用于指示信息特征和预测分数之间的对应关系的参数。

示意性的，当模型参数发送方法应用于用户偏好预测领域时，分布式训练神经网络模型为用户偏好预测模型，模型参数是用户偏好预测模型中用于指示帐号标识和预测偏好分数之间的对应关系的参数。

当然，本申请提供的模型参数发送方法的应用场景不限于上述几种可能的实现方式，其它需要进行模型参数发送的应用场景也在本申请的保护范围之内。

在一个示意性的例子中，如图5所示，该模型参数发送方法应用于用户偏好预测领域中，需要预先基于用户历史行为数据，训练一个目标模型即用户偏好预测模型，从而通过该用户偏好预设模型对用户的个人偏好进行预测(例如用户A是否会对文章b感兴趣)。1、收集用户历史行为数据，例如用户A曾经看过文章a和文章c等信息。2、将收集到的用户历史行为数据保存在分布式存储系统中。3、根据存储的用户历史行为数据训练用户偏好预测模型。4、当需要对用户偏好进行预测*(以用户为用户A和待预测的内容为文章b为例)时，将用户A的标识和待预测的文章b的标识输入至训练好的用户偏好预测模型中，当输出结果为0.8时，用于指示该用户A会对文章b感兴趣；当输出结果为0.2时，用于指示该用户A对文章b不感兴趣。其中，在训练用户偏好预测模型时，由于收集到的用户历史行为数据会极其庞大且单台计算机的存储空间有限，很难将所有的用户历史行为数据集中到单台计算机上，因此模型训练过程一般会被建模为一个分布式优化问题。本申请实施例中，通过量化误差修正的方法，以更低的通信代价求解该分布式优化问题，从而避免网络通信带来的性能瓶颈，同时保证分布式优化算法的收敛速度和优化结果基本无损。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图6，其示出了本申请一个实施例提供的模型参数发送装置的结构示意图。该模型参数发送装置可以通过专用硬件电路，或者，软硬件的结合实现成为模型训练系统的全部或一部分，该模型参数发送装置包括：获取模块610、计算模块620、量化模块630和发送模块640。

获取模块610，用于实现上述步骤301。

计算模块620，用于实现上述步骤302和/或步骤403。

量化模块630，用于实现上述步骤303和/或步骤404。

发送模块640，用于实现上述步骤304和/或步骤405。

可选的，该装置，还包括：更新模块。

更新模块，用于在第t个迭代轮次时，按照如下公式对误差累计值进行更新，得到第t个迭代轮次对应的误差累计值

可选的，量化模块，包括：量化单元和确定单元；

量化单元，用于在第t个迭代轮次时，根据第t个迭代轮次对应的第一梯度，以及第t-1个迭代轮次对应的误差累计值，计算得到第t个迭代轮次对应的第二梯度；确定单元，用于当迭代轮次达到预设迭代次数时，将预设迭代次数所计算得到的第二梯度确定为量化后的第二梯度。

可选的，量化单元，还用于按照如下公式计算得到第t个迭代轮次对应的第二梯度：

可选的，目标模型包括输入层、隐层和输出层，输出层包括由多个树节点构成的二叉树，模型参数包括二叉树中任两个树节点之间的路径参数；

确定单元，还用于对于二叉树中的叶子节点，每当叶子节点的迭代次数达到预设迭代次数时，将叶子节点的路径参数的第二梯度确定为量化后的第二梯度。

可选的，计算模块620，还用于按照如下公式计算得到模型参数的第一梯度

可选的，目标模型是分布式训练神经网络模型，分布式训练神经网络模型的模型参数是采用梯度下降算法训练得到的模型参数，

当模型参数发送方法应用于信息分类领域时，分布式训练神经网络模型为信息分类模型，模型参数是信息分类模型中用于指示信息特征和信息类型之间的对应关系的参数；或者，

当模型参数发送方法应用于信息预测领域时，分布式训练神经网络模型为信息预测模型，模型参数是信息预测模型中用于指示信息特征和预测分数之间的对应关系的参数；

相关细节可结合参考图2至图5所示的方法实施例。其中，获取模块610还用于实现上述方法实施例中其他任意隐含或公开的与获取步骤相关的功能；计算模块620还用于实现上述方法实施例中其他任意隐含或公开的与计算步骤相关的功能；量化模块630还用于实现上述方法实施例中其他任意隐含或公开的与量化步骤相关的功能；发送模块640还用于实现上述方法实施例中其他任意隐含或公开的与发送步骤相关的功能。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图7，其示出了本申请一个示例性实施例提供的服务器800的结构示意图。该服务器700可以是图1所示出的模型训练系统中的主计算节点12或者子计算节点14，具体来讲：所述服务器700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。所述服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，所述服务器700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器700可以通过连接在所述系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

可选的，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各个方法实施例所提供的模型参数发送方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的模型参数发送方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型参数发送方法，其特征在于，应用于包括主计算节点和N个子计算节点的模型训练系统中，所述主计算节点与所述子计算节点之间通过网络连接，所述主计算节点与所述子计算节点为具备数据计算功能的装置，所述N为正整数，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

所述子计算节点在所述第t个迭代轮次时，按照如下公式对所述误差累计值进行更新，得到所述第t个迭代轮次对应的误差累计值

其中，所述是在所述第t个迭代轮次对应的所述误差累计值，所述α是所述预设时间衰减系数，所述α∈(0,1]，所述是在所述第t-1个迭代轮次对应的所述误差累计值，所述是在所述第t个迭代轮次中，第p个所述子计算节点上计算得到的第一梯度中的第j个分量，所述是在所述第t个迭代轮次中，第p个所述子计算节点上计算得到的第二梯度中的第j个分量。

3.根据权利要求1所述的方法，其特征在于，所述子计算节点对所述第一梯度进行迭代量化处理得到量化后的第二梯度，包括：

在所述第t个迭代轮次时，根据所述第t个迭代轮次对应的第一梯度，以及所述第t-1个迭代轮次对应的所述误差累计值，计算得到所述第t个迭代轮次对应的第二梯度；

当所述迭代轮次达到预设迭代次数时，将所述预设迭代次数所计算得到的第二梯度确定为所述量化后的第二梯度。

4.根据权利要求3所述的方法，其特征在于，所述在所述第t个迭代轮次时，根据所述第t个迭代轮次对应的第一梯度，以及所述第t-1个迭代轮次对应的所述误差累计值，计算得到所述第t个迭代轮次对应的第二梯度，包括：

按照如下公式计算得到所述第t个迭代轮次对应的第二梯度：

其中，所述是在所述第t个迭代轮次中，第p个所述子计算节点上计算得到的第二梯度中的第j个分量，所述是在所述第t个迭代轮次中，第p个子计算节点上计算得到的第一梯度中的第j个分量，所述λ是加权系数，所述是在所述第t-1个迭代轮次对应的所述误差累计值，所述s是量化函数ξ_s()的量化级别数，所述ξ_s()是概率化的映射函数，所述p为正整数，所述λ∈(0,1)，所述s为大于1的正整数，所述l是区间[0,s)中的整数，

5.根据权利要求1至4任一所述的方法，其特征在于，所述子计算节点根据所述初始参数值和所述样本集，计算所述模型参数的第一梯度，包括：

按照如下公式计算得到所述模型参数的第一梯度

其中，所述是在所述第t个迭代轮次中，第p个所述子计算节点上的样本集，所述是所述样本集的样本数量，所述w是所述模型参数的所述初始参数值，所述x为所述第p个所述子计算节点上的第i个样本的特征信息，所述y为所述第p个所述子计算节点上的第i个样本的监督信息，所述p和i均为正整数。

6.根据权利要求1至4任一所述的方法，其特征在于，所述目标模型是分布式训练神经网络模型，所述分布式训练神经网络模型的模型参数是采用梯度下降算法训练得到的模型参数，

当所述模型参数发送方法应用于信息分类领域时，所述分布式训练神经网络模型为信息分类模型，所述模型参数是所述信息分类模型中用于指示信息特征和信息类型之间的对应关系的参数；或者，

当所述模型参数发送方法应用于信息预测领域时，所述分布式训练神经网络模型为信息预测模型，所述模型参数是所述信息预测模型中用于指示信息特征和预测分数之间的对应关系的参数；

其中，所述信息特征包括文本特征、图像特征、音频特征、视频特征、生理特征、行为特征、设备标识和帐号标识中的至少一种。

7.一种模型参数发送装置，其特征在于，应用于包括主计算节点和N个子计算节点的模型训练系统中，所述主计算节点与所述子计算节点之间通过网络连接，所述主计算节点与所述子计算节点为具备数据计算功能的装置，所述N为正整数，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置，还包括：更新模块；

所述更新模块，用于在所述第t个迭代轮次时，按照如下公式对所述误差累计值进行更新，得到所述第t个迭代轮次对应的误差累计值

9.根据权利要求7所述的装置，其特征在于，所述量化模块，包括：量化单元和确定单元；

所述量化单元，用于在所述第t个迭代轮次时，根据所述第t个迭代轮次对应的第一梯度，以及所述第t-1个迭代轮次对应的所述误差累计值，计算得到所述第t个迭代轮次对应的第二梯度；

所述确定单元，用于当所述迭代轮次达到预设迭代次数时，将所述预设迭代次数所计算得到的第二梯度确定为所述量化后的第二梯度。

10.根据权利要求9所述的装置，其特征在于，所述量化单元，还用于按照如下公式计算得到所述第t个迭代轮次对应的第二梯度：

11.根据权利要求7至10任一所述的装置，其特征在于，所述计算模块，还用于按照如下公式计算得到所述模型参数的第一梯度

12.根据权利要求7至10任一所述的装置，其特征在于，所述目标模型是分布式训练神经网络模型，所述分布式训练神经网络模型的模型参数是采用梯度下降算法训练得到的模型参数，

13.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的模型参数发送方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的模型参数发送方法。