CN116644804B

CN116644804B - 分布式训练系统、神经网络模型训练方法、设备和介质

Info

Publication number: CN116644804B
Application number: CN202310928151.2A
Authority: CN
Inventors: 闫瑞栋; 郭振华; 李仁刚; 邱志勇
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2024-01-12
Anticipated expiration: 2043-07-27
Also published as: CN116644804A

Abstract

本发明公开了一种分布式训练系统、神经网络模型训练方法、设备和介质，涉及计算机技术领域，该系统包括控制器和多个计算节点；控制器用于获取目标神经网络模型和训练数据集，并向多个计算节点发送对应的节点训练模型和节点训练数据集；目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元以及对应的链接得到神经网络模型；计算节点用于基于接收到的节点训练数据集和接收到的节点训练模型的当前模型参数计算局部信息，并基于全局信息更新节点训练模型的模型参数，实现节点训练模型的迭代训练，得到训练完成的节点训练模型。

Description

分布式训练系统、神经网络模型训练方法、设备和介质

技术领域

本发明涉及计算机技术领域，更具体地说，涉及一种分布式训练系统、神经网络模型训练方法、设备和介质。

背景技术

近几年，以深度学习为代表的人工智能在图像分类领域取得关键进展。众所周知，随着数据样本量以及神经网络模型规模的持续增长，深度神经网络模型的训练对算力的依赖与日俱增。在相关技术中，由于神经网络模型的规模较大，导致神经网络模型的训练效率较低。

因此，如何提高神经网络模型的训练效率是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的在于提供一种分布式训练系统、神经网络模型训练方法、设备和介质，提高了神经网络模型的训练效率。

为实现上述目的，本发明提供了一种分布式训练系统，包括控制器和多个计算节点；

所述控制器用于获取目标神经网络模型和训练数据集，并向多个所述计算节点发送对应的节点训练模型和节点训练数据集；其中，所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响，1≤i≤L-1，L为所述初始的神经网络模型包含的神经网络层的数量；

所述计算节点用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息，并基于全局信息更新所述节点训练模型的模型参数，实现所述节点训练模型的迭代训练，得到训练完成的节点训练模型；其中，所述全局信息为多个所述计算节点计算的局部信息聚合得到的；

所述控制器还用于基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。

其中，所述第i个神经网络层中的神经元与所述第i+1个神经网络层中的神经元之间的链接的链接重要程度为关联矩阵中对应元素的值，所述关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元，所述关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重。

其中，所述第一数量为根据所述关联矩阵和第一预设系数确定的。

其中，所述第一数量为所述关联矩阵包含的元素的数量与第一预设系数的乘积的向上取整。

其中，所述神经元的神经元重要程度为所述神经元的第一重要程度与第二重要程度的和，所述神经元的第一重要程度为根据所述神经元在全体关联矩阵对应行中的所有元素的值确定的，所述神经元的第二重要程度为根据所述神经元在所述全体关联矩阵对应列中的所有元素的值确定的，所述全体关联矩阵的行对应除最后一个神经网络层中的神经元、列对应神除第一个神经网络层中的神经元，所述全体关联矩阵用于描述相邻神经网络层中的两个神经元之间的链接的权重。

其中，所述神经元的第一重要程度为所述神经元在所述全体关联矩阵对应行中的所有元素的值的平方和确定的，所述神经元的第二重要程度为所述神经元在全体关联矩阵对应列中的所有元素的值的平方和确定的。

其中，所述第二数量为根据所述全体关联矩阵和第二预设系数确定的。

其中，所述第二数量为所述全体关联矩阵对应的神经元集合包含的神经元的数量与第二预设系数的乘积的向上取整，所述神经元集合为所述全体关联矩阵对应的行神经元集合和列神经集合的并集。

其中，所述控制器用于：

将训练数据集划分为多个训练数据子集，将目标神经网络模型按照神经网络层划分为多个子模型；

将多个所述训练数据子集作为所述节点训练数据集、将多个所述子模型作为所述节点训练模型发送至对应的多个所述计算节点。

其中，所述计算节点用于：将计算得到的局部信息发送至目标计算节点；所述目标计算节点为其中一个计算节点；

所述目标计算节点用于：基于多个所述计算节点计算的局部信息聚合得到全局信息，并将所述全局信息广播至多个所述计算节点。

其中，所述计算节点用于：基于接收到的训练数据子集和接收到的子模型的当前模型参数计算目标函数的梯度和二阶优化算法的关键矩阵。

其中，所述目标计算节点用于：将多个计算节点计算得到的目标函数的梯度进行聚合得到全局梯度；将多个计算节点计算得到的关键矩阵进行聚合得到全局关键矩阵；将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积；基于上三角矩阵或下三角矩阵生成全局关键矩阵的近似矩阵；基于全局关键矩阵的近似矩阵生成更新因子；将全局梯度和更新因子作为全局信息。

其中，所述目标计算节点用于：将多个计算节点计算得到的目标函数的梯度的和与计算节点的数量之间的比值确定为全局梯度。

其中，所述目标计算节点用于：按照多个计算节点接收到的子模型在神经网络模型中的排列顺序，将多个计算节点计算得到的关键矩阵依次作为对角块生成块对角局矩阵作为全局关键矩阵。

其中，所述目标计算节点用于：利用平方根法将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积。

其中，所述目标计算节点用于：提取上三角矩阵或下三角矩阵的对角线元素生成中间矩阵；计算全局关键矩阵与上三角矩阵或下三角矩阵的差值的F范数作为第一范数，计算全局关键矩阵的F范数作为第二范数；将第一范数与第二范数的比值与中间矩阵的乘积作为全局关键矩阵的近似矩阵。

其中，所述关键矩阵包括激活矩阵和梯度矩阵，所述目标计算节点用于：将激活矩阵的近似矩阵与梯度矩阵的近似矩阵的克罗内克积的逆作为更新因子。

其中，所述关键矩阵包括海森矩阵，所述目标计算节点用于：将海森矩阵的近似矩阵的逆作为更新因子。

其中，所述计算节点用于：计算所述全局梯度、学习率、所述更新因子的乘积，将对应的子模型的当前模型参数与所述乘积的差值作为更新后的模型参数；判断所述子模型是否收敛，若是，则得到训练完成的子模型，若否，则重新基于接收到的训练数据子集和子模型的当前模型参数计算局部信息。

为实现上述目的，本发明提供了一种神经网络模型训练方法，应用于上述分布式训练系统中的计算节点，所述方法包括：

从控制器获取节点训练数据集和节点训练模型，基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息；

获取全局信息；其中，所述全局信息为多个所述计算节点计算的局部信息聚合得到的；

基于所述全局信息更新所述节点训练模型的模型参数，实现所述节点训练模型的迭代训练，得到训练完成的节点训练模型，以便所述控制器基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。

为实现上述目的，本发明提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述神经网络模型训练方法的步骤。

为实现上述目的，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述神经网络模型训练方法的步骤。

通过以上方案可知，本发明提供的一种分布式训练系统，包括控制器和多个计算节点；所述控制器用于获取目标神经网络模型和训练数据集，并向多个所述计算节点发送对应的节点训练模型和节点训练数据集；其中，所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响，1≤i≤L-1，L为所述初始的神经网络模型包含的神经网络层的数量；所述计算节点用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息，并基于全局信息更新所述节点训练模型的模型参数，实现所述节点训练模型的迭代训练，得到训练完成的节点训练模型；其中，所述全局信息为多个所述计算节点计算的局部信息聚合得到的；所述控制器还用于基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。

本发明提供的分布式训练系统，对于初始的神经网络模型，去除一些神经元与神经元之间的链接，从而使得神经网络模型变得更为稀疏，去除神经网络模型中的一些神经元，从而使得神经网络模型宽度降低。可见，本发明提供的分布式训练系统，通过降低图像分类的神经网络模型的规模，加快了计算节点的计算效率，提高了神经网络模型的训练效率。本发明还公开了一种图像分类装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种分布式训练系统的结构图；

图2为根据一示例性实施例示出的一种神经网络模型中第1层与第2层之间的链接示意图；

图3为图2去除链接后的神经网络模型的示意图；

图4为根据一示例性实施例示出的一种神经网络模型的示意图；

图5为图4去除神经元之后的神经网络模型的示意图；

图6为根据一示例性实施例示出的另一种图像分类方法的流程图；

图7为根据一示例性实施例示出的一种图像分类系统的结构图；

图8为根据一示例性实施例示出的一种分布式并行模块的整体流程图；

图9为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，在本发明实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明实施例公开了一种分布式训练系统，提高了图像分类的神经网络模型的训练效率。

参见图1，根据一示例性实施例示出的一种分布式训练系统的结构图，如图1所示，包括控制器100和多个计算节点200；

所述控制器100用于获取目标神经网络模型和训练数据集，并向多个所述计算节点200发送对应的节点训练模型和节点训练数据集；其中，所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响，1≤i≤L-1，L为所述初始的神经网络模型包含的神经网络层的数量；

所述计算节点200用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息，并基于全局信息更新所述节点训练模型的模型参数，实现所述节点训练模型的迭代训练，得到训练完成的节点训练模型；其中，所述全局信息为多个所述计算节点计算的局部信息聚合得到的；

所述控制器100还用于基于多个所述计算节点200训练完成的节点训练模型确定训练完成的目标神经网络模型。

本实施例中的目标神经网络模型可以应用于图像分类、文本分类、音频分类等应用场景，对应的训练数据集可以包括图像数据及对应的分类标签、文本数据及对应的分类标签、音频数据及对应的分类标签。

在具体实施中，对于初始的神经网络模型，首先，确定相邻神经网络层中的神经元之间的链接的链接重要程度。

作为一种可行的实施方式，所述第i个神经网络层中的神经元与所述第i+1个神经网络层中的神经元之间的链接的链接重要程度为关联矩阵中对应元素的值，所述关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元，所述关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重。

在具体实施中，可以通过相邻神经网络层中神经元间的关联矩阵（也即权重矩阵）W对神经元之间的链接进行描述，关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元，关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重。例如，第1层与第2层之间的链接如图2所示，第1层包括神经元n₁、n₂、n₃、n₄，第2层包括神经元n₅、n₆、n₇，第1层与第2层之间的链接包括n₁→n₅、n₁→n₆、n₁→n₇、n₂→n₅、n₂→n₆、n₂→n₇、n₃→n₅、n₃→n₆、n₃→n₇、n₄→n₅、n₄→n₆、n₄→n₇。第1层与第2层之间的关联矩阵如下：

；

进一步的，将第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的链接重要程度确定为关联矩阵中对应元素的值。例如，对于上述关联矩阵，链接n₁→n₅的链接重要程度为0.15，链接n₁→n₆的链接重要程度为0.8，依次类推。

其次，去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接得到中间神经网络模型。

所述第一数量为根据所述关联矩阵和第一预设系数确定的。在具体实施中，第一数量为关联矩阵包含的元素的数量与第一预设系数的乘积的向上取整。第一数量的定义方式如下：

；

其中，W(i,i+1)为第i个神经网络层中的神经元与第i+1个神经网络层之间的关联矩阵，表示矩阵或向量的模，即矩阵或向量元素个数，/>表示向上取整操作符，/>为第一预设系数，/>。

可以理解为以一定比例去除神经网络相邻两层中的链接，目的是去除权重矩阵中排序靠后的/>个链接，因为这些链接在权重传递中数值较小，对模型训练结果影响程度较弱，故可剔除。

对于图2来说，若，则/>，因此，需要从矩阵W中去除元素数值排序靠后的3条链接，即链接n₂→n₇、n₂→n₆、n₄→n₅，去除链接后的神经网络模型如图3所示。

在具体实施中，确定所有神经元的神经元重要程度，根据神经元重要程度去除神经网络模型中的一些神经元，同时要去除与这些神经元相关链接。去除某个神经元意味着同时删除指向该神经元的所有链接以及该神经元指出的所有链接。

作为一种可行的实施方式，所述神经元的神经元重要程度为所述神经元的第一重要程度与第二重要程度的和，所述神经元的第一重要程度为根据所述神经元在全体关联矩阵对应行中的所有元素的值确定的，所述神经元的第二重要程度为根据所述神经元在所述全体关联矩阵对应列中的所有元素的值确定的，所述全体关联矩阵的行对应除最后一个神经网络层中的神经元、列对应神除第一个神经网络层中的神经元，所述全体关联矩阵用于描述相邻神经网络层中的两个神经元之间的链接的权重。

在具体实施中，可以通过全体关联矩阵对神经元之间的链接进行描述，全体关联矩阵的行对应神经网络模型中除最后一个神经网络层中的神经元、列对应神经网络模型中除第一个神经网络层中的神经元，全体关联矩阵用于描述神经网络模型中相邻神经网络层中的两个神经元之间的链接的权重。例如，神经网络模型如图4所示，第1层包括神经元n₁、n₂、n₃、n₄，第2层包括神经元n₅、n₆、n₇，第3层包括神经元n₈、n₉、n₁₀、n₁₁，第1层与第2层之间的链接包括n₁→n₅、n₁→n₆、n₁→n₇、n₂→n₅、n₂→n₆、n₂→n₇、n₃→n₅、n₃→n₆、n₃→n₇、n₄→n₅、n₄→n₆、n₄→n₇，第2层与第3层之间的链接包括n₅→n₈、n₅→n₉、n₅→n₁₀、n₆→n₉、n₆→n₁₀、n₆→n₁₁、n₇→n₁₀、n₇→n₁₁。全体关联矩阵如下：

；

进一步的，确定全体关联矩阵中的行神经元集RW和列神经元集CW，对于上述全体关联矩阵来说，RW={n₁，n₂，n₃，n₄，n₅，n₆，n₇}，CW={n₅，n₆，n₇，n₈，n₉，n₁₀，n₁₁}。W_ij表示神经元 I指向神经元 j 的权重，空白位置表示w_ij=0表明两个神经元之间没有关联。

所述神经元的第一重要程度为所述神经元在所述全体关联矩阵对应行中的所有元素的值的平方和确定的，所述神经元的第二重要程度为所述神经元在全体关联矩阵对应列中的所有元素的值的平方和确定的。

假定全体关联矩阵W_M×N，即 W规模为M行N列。对于RW中的第 I 个神经元，其第一重要程度定义为矩阵W中第 I 行元素值的平方和：，对于CW中的第j个神经元，其第二重要程度为矩阵W中第 j 行元素值的平方和：/>。

RW与CW中可能存在相同的神经元p，即i=j的情况。因此，一个神经元p的神经元重要程度定义如下：Imfluence(p)=ImfluenceRW(i)+ImfluenceCW(j)。

对于图4来说，首先计算行神经元的第一重要程度ImfluenceRW：

ImfluenceRW(n₁)=0.15^2+0.8^2+0.4^2=0.8225；

ImfluenceRW(n₂)=0.08^2+0.05^2+0.01^2=0.009；

ImfluenceRW(n₃)=0.1^2+0.5^2+0.2^2=0.3；

ImfluenceRW(n₄)=0.8^2+0.6^2+0.1^2=1.01；

ImfluenceRW(n₅)=0.005^2+0.001^2+0.01^2=0.000126；

ImfluenceRW(n₆)=0.7^2+0.4^2+0.8^2=1.29；

ImfluenceRW(n₇)=0.9^2+0.3^2=0.9。

其次计算列神经元的第二重要程度ImfluenceCW：

ImfluenceCW(n₅)=0.15^2+0.08^2+0.1^2+0.8^2=0.6789；

ImfluenceCW(n₆)=0.8^2+0.05^2+0.5^2+0.6^2=1.2525；

ImfluenceCW(n₇)=0.4^2+0.01^2+0.2^2+0.1^2=0.2101；

ImfluenceCW(n₈)=0.005^2=0.000025；

ImfluenceCW(n₉)=0.001^2+0.7^2+0.9^2=1.300001；

ImfluenceCW(n₁₀)=0.01^2+0.4^2+0.3^2=0.2501；

ImfluenceCW(n₁₁)=0.8^2=0.64。

最后，计算各神经元的神经元重要程度：

神经元n₁的Imfluence(n₁)=ImfluenceRW(n₁)=0.8225；

神经元n₂的Imfluence(n₂)=ImfluenceRW(n₂)=0.009；

神经元n₃的Imfluence(n₃)=ImfluenceRW(n₃)=0.3；

神经元n₄的Imfluence(n₄)=ImfluenceRW(n₄)=1.01；

神经元n₅的Imfluence(n₅)=ImfluenceRW(n₅)+ImfluenceCW(n₅)=0.679026；

神经元n₆的Imfluence(n₆)=ImfluenceRW(n₆)+ImfluenceCW(n₆)=2.5425；

神经元n₇的Imfluence(n₇)=ImfluenceRW(n₇)+ImfluenceCW(n₇)=1.1101；

神经元n₈的Imfluence(n₈)=ImfluenceCW(n₈)=0.000025；

神经元n₉的Imfluence(n₉)=ImfluenceCW(n₉)=1.300001；

神经元n₁₀的Imfluence(n₁₀)=ImfluenceCW(n₁₀)=0.2501；

神经元n₁₁的Imfluence(n₁₁)=ImfluenceCW(n₁₁)=0.64。

因此，神经元重要程度降序排列为：n₆>n₉>n₇>n₄>n₁>n₅>n₁₁>n₃>n₁₀>n₂>n₈。

所述第二数量为根据所述全体关联矩阵和第二预设系数确定的。

在具体实施中，所述第二数量为所述全体关联矩阵对应的神经元集合包含的神经元的数量与第二预设系数的乘积的向上取整，所述神经元集合为所述全体关联矩阵对应的行神经元集合和列神经集合的并集。第二数量的定义如下：

；

其中，W为全体关联矩阵，表示矩阵或向量的模，即矩阵或向量元素个数，/>表示向上取整操作符，/>为第二预设系数，/>，/>表示集合取并集整操作符。

对于图4来说，，若/>，则/>。因此，将神经元重要性程度排名靠后的3个神经元n₁₀、n₂、n₈去除，去除神经元之后的神经网络模型如图5所示。

本发明实施例提供的分布式训练系统，对于初始的神经网络模型，去除一些神经元与神经元之间的链接，从而使得神经网络模型变得更为稀疏，去除神经网络模型中的一些神经元，从而使得神经网络模型宽度降低。可见，本发明实施例提供的分布式训练系统，通过降低图像分类的神经网络模型的规模，加快了计算节点的计算效率，提高了神经网络模型的训练效率。

分布式训练并行模块规定了异构计算节点的通信架构与通信同步方式。一般地，通信架构包括中心化架构与去中心化架构,通信同步方式包括同步更细与异步更细策略。

对于通信架构，中心化架构中包含中心服务器节点与计算节点，计算节点负责本地局部模型训练任务、发送本地局部信息至中心服务器节点、获取中心服务器节点全局信息。中心服务器节点汇总全体计算节点局部信息并更新全局模型，输出全局模型并将全局模型参数返回至各计算节点处。去中心化架构仅包含计算节点而没有中心服务器节点。

对于通信同步方式，计算节点间的信息交换依赖于通信同步方式。通常，通信同步方式可分为同步更细策略与异步更新策略。同步更细策略是指一个计算节点完成当前轮次的迭代训练任务后，它必须等待其他计算节点也完成各自当前轮次的迭代，只有当所有计算节点共同完成当前轮次的训练任务后，系统才会进入下一轮次的迭代。同步更新策略受限于计算节点性能最差的节点，导致其他计算节点出现资源闲置与等待，造成一定的计算资源的浪费。异步更新策略是指一个计算节点完成当前轮次的迭代后，无需等待其他计算节点而自行进入下次迭代与更新，通过一些周期性的同步更新克服模型训练收敛慢的问题。异步更新策略适用于异构计算设备构成的分布式训练环境，充分提高设备的利用率。

因此，本发明的分布式并行模块采用去中心化架构的异步更新策略。

在上述实施例的基础上，作为一种优选实施方式，所述控制器用于：将训练数据集划分为多个训练数据子集，将目标神经网络模型按照神经网络层划分为多个子模型；将多个所述训练数据子集作为所述节点训练数据集、将多个所述子模型作为所述节点训练模型发送至对应的多个所述计算节点。

在本实施例中，控制器按照各计算节点的内存将训练数据集划分为多个训练数据子集，将多个训练数据子集分别发送至多个计算节点。进一步的，将用于执行图像分类任务的目标神经网络模型按照神经网络层划分为多个子模型，例如，目标神经网络模型包含L个神经网络层，则将目标神经网络模型划分为L个子模型，每个子模型对应一个神经网络层。本实施例中的目标神经网络模型可以包括Resnet152模型。将多个子模型分别发送至多个计算节点，多个计算节点并行执行子模型的训练任务，也即基于接收到的训练数据子集和接收到的子模型的当前模型参数计算局部信息，该局部信息可以包括目标函数的梯度、二阶优化算法的关键矩阵。二阶优化算法可以为牛顿法（Newton Algorithm），对应的关键矩阵为二阶的海森矩阵（H矩阵），二阶优化算法也可以为自然梯度下降算法，对应的关键矩阵为Fisher信息矩阵，也即激活矩阵（A矩阵）和梯度矩阵（G矩阵）。

作为一种可行的实施方式，所述计算节点用于：基于接收到的训练数据子集和接收到的子模型的当前模型参数计算目标函数的梯度和二阶优化算法的关键矩阵。

在具体实施中，各计算节点基于接收到的训练数据子集抽取训练样本，基于训练样本和接收到的子模型的当前模型参数计算目标函数的梯度和二阶优化算法的关键矩阵。

作为一种可行的实施方式，所述计算节点用于：将计算得到的局部信息发送至目标计算节点；所述目标计算节点为其中一个计算节点；

在具体实施中，多个计算节点将计算得到的局部信息发送至目标计算节点，目标计算节点将多个计算节点计算得到局部信息进行聚合得到全局信息。

作为一种可行的实施方式，所述目标计算节点用于：将多个计算节点计算得到的目标函数的梯度进行聚合得到全局梯度；将多个计算节点计算得到的关键矩阵进行聚合得到全局关键矩阵；将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积；基于上三角矩阵或下三角矩阵生成全局关键矩阵的近似矩阵；基于全局关键矩阵的近似矩阵生成更新因子；将全局梯度和更新因子作为全局信息。

在具体实施中，目标计算节点将多个计算节点计算得到的目标函数的梯度的和与计算节点的数量之间的比值确定为全局梯度。按照多个所述计算节点接收到的子模型在所述神经网络模型中的排列顺序，将多个所述计算节点计算得到的关键矩阵依次作为对角块生成块对角局矩阵作为全局关键矩阵。例如，第1个计算节点训练神经网络模型中第1个神经网络层，第2个计算节点训练神经网络模型中第2个神经网络层，第2个计算节点训练神经网络模型中第2个神经网络层，第1个计算得到的关键矩阵为X1，第1个计算得到的关键矩阵为X2，第1个计算得到的关键矩阵为X3，则聚合得到的全局关键矩阵为：

；

空白位置的元素值均为0。需要说明的是，各计算节点计算得到的关键矩阵的尺寸可以相同也可以不同，也即上述X1、X2、X3的尺寸可以相同也可以不同。

可以理解的是，对于分布式训练系统中求解神经网络各类目标函数的优化方法，虽然二阶优化算法较一阶优化算法具有更快的理论收敛速率。但是，由于参数模型规模过于庞大，导致计算和存储关键矩阵、以及其逆矩阵代价过高。例如，假设模型参数规模为O(N)，存储关键矩阵需要O(N²)的空间，计算关键矩阵则需要O(N³)的开销，其中N表示关键矩阵的规模。因此，当N较大时，直接求逆运算的复杂度过高。在相关技术中，在各次迭代中需要计算大规模关键矩阵及其逆矩阵或特征值矩阵，导致算法本身计算开销过大。此外，由于模型参数更新依赖于各计算节点间通信内容，包括局部计算节点的大规模矩阵与梯度矩阵，导致通信开销与存储开销巨大。

因此，在本实施例中，充分考虑到关键矩阵的性质，利用Cholesky分解方法（平方根法）将所述全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积，而三角矩阵的求逆运算复杂度至多为O(1/2*N³)。综上，Cholesky分解的复杂度O(1/6*N³)，三角矩阵求逆运算复杂度O(1/2*N³)，本实施例总复杂度为O(2/3*N³)，仅为原始矩阵直接求逆运算复杂度的2/3。因此，本实施例的计算复杂度较现有方法的复杂度降低三分之一。

Cholesky矩阵分解本质是上对关键矩阵提取关键属性或特征，并且上三角矩阵或下三角矩阵较原始矩阵，数据量减少的同时，存储于计算开销均降低。

作为一种可行的实施方式，所述目标计算节点用于：提取上三角矩阵或下三角矩阵的对角线元素生成中间矩阵；计算全局关键矩阵与上三角矩阵或下三角矩阵的差值的F范数作为第一范数，计算全局关键矩阵的F范数作为第二范数；将第一范数与第二范数的比值与中间矩阵的乘积作为全局关键矩阵的近似矩阵。

为进一步降低系统开销，本实施例对上三角矩阵或下三角矩阵、抽取主对角线元素，并以此作为原始的关键矩阵的近似。

对于激活矩阵A来说，计算其近似矩阵的公式为：

；

其中，为激活矩阵的近似矩阵，A₁为激活矩阵分解的上三角矩阵或下三角矩阵，dig(A₁)表示A₁的对角线元素构成的矩阵，/>为A-A₁的F范数，/>为A的的F范数。

对于梯度矩阵G来说，计算其近似矩阵的公式为：

；

其中，为梯度矩阵的近似矩阵，G₁为梯度矩阵分解的上三角矩阵或下三角矩阵，dig(G₁)表示G₁的对角线元素构成的矩阵，/>为G-G₁的F范数，/>为G的的F范数。

对于海森矩阵H来说，计算其近似矩阵的公式为：

；

其中，为梯度矩阵的近似矩阵，H₁为海森矩阵分解的上三角矩阵或下三角矩阵，dig(H₁)表示H₁的对角线元素构成的矩阵，/>为H-H₁的F范数，/>为H的的F范数。

若关键矩阵包括激活矩阵和梯度矩阵，则将所述激活矩阵的近似矩阵与所述梯度矩阵的近似矩阵的克罗内克积的逆作为更新因子，计算公式为：

；

其中，为所述梯度矩阵的近似矩阵，/>为所述激活矩阵的近似矩阵，/>表示克罗内克积，/>，/>为更新因子。

若关键矩阵包括海森矩阵，则将海森矩阵的近似矩阵的逆作为更新因子。

进一步的，目标计算节点将聚合得到的全局信息广播至多个计算节点，多个所述计算节点计算所述全局梯度、学习率、所述更新因子的乘积；将对应的子模型的当前模型参数与所述乘积的差值作为更新后的模型参数。

在具体实施中，利用模型参数更新公式更新对应的子模型的模型参数；其中，所述模型参数更新函数为：

；

其中，为对应的子模型更新前的模型参数，/>为对应的子模型更新后的模型参数，f为所述目标函数，/>为所述学习率，/>为所述更新因子。

作为一种可行的实施方式，所述判断子模型是否收敛，包括：判断迭代次数是否大于第一预设值，或，更新后的模型参数与更新前的模型参数之间的差值是否小于第二预设值；若任一项为是，则判定子模型收敛。

在具体实施中，收敛条件可以有以下两种，一是设定一个固定迭代次数，也即第一预设值，例如，执行10000次迭代，算法停止。二是比较更新后的模型参数与更新前的模型参数之间的变化情况，即如果新后的模型参数与更新前的模型参数之间的差值小于第二预设值，则认为模型参数基本保持不变，算法停止。

下面对本发明实施例提供的一种神经网络模型训练方法进行介绍。具体的：

参见图6，根据一示例性实施例示出的一种神经网络模型训练方法的流程图，如图6所示，包括：

S101：从控制器获取节点训练数据集和节点训练模型，基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息；

本实施例的执行主体为上述实施例提供的分布式训练系统中的计算节点。在具体实施中，控制器按照各计算节点的内存将训练数据集划分为多个训练数据子集，将多个训练数据子集分别发送至多个计算节点。进一步的，将用于执行图像分类任务的目标神经网络模型按照神经网络层划分为多个子模型，例如，目标神经网络模型包含L个神经网络层，则将目标神经网络模型划分为L个子模型，每个子模型对应一个神经网络层。本实施例中的目标神经网络模型可以包括Resnet152模型。控制器将多个子模型分别发送至多个计算节点。

本实施例中的目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响。

多个计算节点并行执行子模型的训练任务，也即基于接收到的训练数据子集和接收到的子模型的当前模型参数计算局部信息，该局部信息可以包括目标函数的梯度、二阶优化算法的关键矩阵。二阶优化算法可以为牛顿法（Newton Algorithm），对应的关键矩阵为二阶的海森矩阵（H矩阵），二阶优化算法也可以为自然梯度下降算法，对应的关键矩阵为Fisher信息矩阵，也即激活矩阵（A矩阵）和梯度矩阵（G矩阵）。

S102：获取全局信息；其中，所述全局信息为多个所述计算节点计算的局部信息聚合得到的；

作为一种可行的实施方式，所述将多个所述计算节点计算得到局部信息进行聚合得到全局信息，包括：将多个所述计算节点计算得到的所述目标函数的梯度进行聚合得到全局梯度；将多个所述计算节点计算得到的关键矩阵进行聚合得到全局关键矩阵；基于所述全局梯度和所述全局关键矩阵确定全局信息。

在具体实施中，将多个所述计算节点计算得到的所述目标函数的梯度的和与所述计算节点的数量之间的比值确定为全局梯度。按照多个所述计算节点接收到的子模型在所述神经网络模型中的排列顺序，将多个所述计算节点计算得到的关键矩阵依次作为对角块生成块对角局矩阵作为全局关键矩阵。例如，第1个计算节点训练神经网络模型中第1个神经网络层，第2个计算节点训练神经网络模型中第2个神经网络层，第2个计算节点训练神经网络模型中第2个神经网络层，第1个计算得到的关键矩阵为X1，第1个计算得到的关键矩阵为X2，第1个计算得到的关键矩阵为X3，则聚合得到的全局关键矩阵为：

；

作为一种优选实施方式，所述基于所述全局梯度和所述全局关键矩阵确定全局信息，包括：将所述全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积；基于所述上三角矩阵或所述下三角矩阵生成所述全局关键矩阵的近似矩阵；基于所述全局关键矩阵的近似矩阵生成更新因子；将所述全局梯度和所述更新因子作为所述全局信息。

因此，在本实施例中，充分考虑到关键矩阵的性质，利用Cholesky分解方法（平方根法）将所述全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积，上三角矩阵为主对角线以下都是零的方阵，下三角矩阵为主对角线以上都是零的方阵。三角矩阵的求逆运算复杂度至多为O(1/2*N³)。综上，Cholesky分解的复杂度O(1/6*N³)，三角矩阵求逆运算复杂度O(1/2*N³)，本实施例总复杂度为O(2/3*N³)，仅为原始矩阵直接求逆运算复杂度的2/3。因此，本实施例的计算复杂度较现有方法的复杂度降低三分之一。

作为一种可行的实施方式，所述基于所述上三角矩阵或所述下三角矩阵生成所述全局关键矩阵的近似矩阵，包括：提取所述上三角矩阵或所述下三角矩阵的对角线元素生成中间矩阵；计算所述全局关键矩阵与所述上三角矩阵或所述下三角矩阵的差值的F范数作为第一范数，计算所述全局关键矩阵的F范数作为第二范数；将所述第一范数与所述第二范数的比值与所述中间矩阵的乘积作为所述全局关键矩阵的近似矩阵。

对于激活矩阵A来说，计算其近似矩阵的公式为：

；

对于梯度矩阵G来说，计算其近似矩阵的公式为：

；

对于海森矩阵H来说，计算其近似矩阵的公式为：

；

进一步的，目标计算节点将聚合得到的全局信息广播至多个计算节点。

S103：基于所述全局信息更新所述节点训练模型的模型参数，实现所述节点训练模型的迭代训练，得到训练完成的节点训练模型，以便所述控制器基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。

在具体实施中，多个计算节点基于全局梯度、学习率、所述更新因子更新对应的子模型的模型参数更新对应的子模型的模型参数；判断子模型是否收敛，若是，则得到训练完成的子模型，若否，则重新基于接收到的训练数据子集和子模型的当前模型参数计算局部信息。

作为一种可行的实施方式，所述多个所述计算节点基于所述全局梯度、学习率、所述更新因子更新对应的子模型的模型参数，包括：多个所述计算节点计算所述全局梯度、学习率、所述更新因子的乘积；将对应的子模型的当前模型参数与所述乘积的差值作为更新后的模型参数。

；/>

控制器基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。

下面介绍本发明提供的一种应用实施例，一种图像分类系统如图7所示，包括模型预处理模块、分布式训练并行模块、算子分解与近似模块、以及训练结果输出模块。

模型预处理模块对待训练模型实施预处理过程，主要完成数据模型参数的过滤，剔除候选参数集中相对“不重要”参数，降低整体模型参数规模。模型预处理模块输入原始待训练模型，输出为剔除非关键参数后的预处理模型，后续分布式训练过程采用的是预处理后的模型。

分布式训练并行模块首先根据分布式训练系统当前异构计算节点间内存占用与通信情况，灵活配置参与海森矩阵或Fisher信息矩阵相关运算的异构计算节点数量。其次，各类异构计算节点间需设计数据并行模型与模型并行模式，实现数据内存占用与算子通信间的平衡。该模块规定了分布式训练的通信架构、数据与模型的放置策略、训练流程

分布式并行模块的整体流程如图8所示，采用数据并行（不同节点训练不同数据）与模型并行（不同节点训练不同局部模型）相结合的混合并行模式，加速训练过程。该模块主要包括三个阶段：数据并行阶段一、模型并行阶段二、数据并行阶段三。输入的训练数据集可以为Imagenet-1K，使用到的神经网络模型可以为Resnet152模型。

数据并行阶段一：该阶段包括数据分配步骤、前向传播步骤、后向传播步骤。数据分配步骤：不同的异构计算节点，根据其自身内存与存储分配不同的数据样本子集。训练时不同的计算节点从自身数据样本子集中随机抽取相应的小批量样本执行训练任务。前向传播步骤：不同的异构计算节点，根据随机抽取的小批量样本，以及当前模型参数，计算目标函数。后向传播步骤：不同计算节点依据其局部目标函数，分别计算激活矩阵A、梯度矩阵G。数据并行阶段各异构计算节点分别计算局部信息。

模型并行阶段二：该阶段包括全局算子聚合阶段、算子分解与近似步骤。全局算子聚合步骤：不同计算节点输出的局部信息，如激活矩阵A以及梯度G等需要进行聚合，并产生全局信息，便于模型训练的收敛。算子分解与近似步骤：对聚合后的全局算子进行特殊形式的分解与近似，降低矩阵求逆、特征值、乘法运算复杂度，降低数据存储、计算、通信开销。该步骤具体过程参见算子分解与近似模块。模型并行阶段二输出全局的分解与近似后的信息。

数据并行阶段三：该阶段将上阶段产生的处理过后的分解与近似信息广播至全体计算节点，使得全体计算节点以当前时刻的全局信息进行训练。全局算子信息广播步骤：将全局算子信息广播至全体计算节点，各个异构计算节点再利用本地数据进行模型参数更新，实现模型迭代训练。

算子分解与近似模块在分布式训练并行模块基础之上，首先设计了一种Cholesky矩阵分解方法，规避直接对大规模矩阵H或F直接进行求逆、特征值运算及乘法运算，降低计算复杂度，从而加速计算。同时，将大规模矩阵转换成特殊的矩阵形式，降低通信量，从而降低通信开销。例如，Cholesky矩阵分解之后，原始矩阵可以表达为一个上三角矩阵与一个下三角矩阵的乘积，并且这两个三角矩阵互为转置关系。利用上三角矩阵或下三角矩阵的对称性，可使得通信量降低。另外，本发明进一步对三角阵主对角先元素进行抽取来近似三角矩阵，实现通信量的进一步降低。实际训练过程中原算子均采用近似算子，以提高分布式训练效率。

训练结果输出模块负责将上述模块的训练结果（也即模型参数）进行整合，并输出训练任务的全局解。

基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供了一种电子设备，图9为根据一示例性实施例示出的一种电子设备的结构图，如图9所示，电子设备包括：

通信接口1，能够与其它设备比如网络设备等进行信息交互；

处理器2，与通信接口1连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的图像分类方法。而计算机程序存储在存储器3上。

当然，实际应用时，电子设备中的各个组件通过总线系统4耦合在一起。可理解，总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统4。

本发明实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。

可以理解，存储器3可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（ROM，Read Only Memory）、可编程只读存储器（PROM，Programmable Read-Only Memory）、可擦除可编程只读存储器（EPROM，Erasable Programmable Read-Only Memory）、电可擦除可编程只读存储器（EEPROM，Electrically Erasable Programmable Read-Only Memory）、磁性随机存取存储器（FRAM，ferromagnetic random access memory）、快闪存储器（Flash Memory）、磁表面存储器、光盘、或只读光盘（CD-ROM，Compact Disc Read-Only Memory）；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器（RAM，Random AccessMemory），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（SRAM，Static Random Access Memory）、同步静态随机存取存储器（SSRAM，Synchronous Static Random Access Memory）、动态随机存取存储器（DRAM，Dynamic Random Access Memory）、同步动态随机存取存储器（SDRAM，SynchronousDynamic Random Access Memory）、双倍数据速率同步动态随机存取存储器（DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory）、增强型同步动态随机存取存储器（ESDRAM，Enhanced Synchronous Dynamic Random Access Memory）、同步连接动态随机存取存储器（SLDRAM，SyncLink Dynamic Random Access Memory）、直接内存总线随机存取存储器（DRRAM，Direct Rambus Random Access Memory）。本发明实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器2中，或者由处理器2实现。处理器2可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器3，处理器2读取存储器3中的程序，结合其硬件完成前述方法的步骤。

处理器2执行程序时实现本发明实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器3，上述计算机程序可由处理器2执行，以完成前述方法步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、CD-ROM等存储器。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机、服务器、网络设备等）执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种分布式训练系统，其特征在于，包括控制器和多个计算节点；

所述控制器用于获取目标神经网络模型和训练数据集，并向多个所述计算节点发送对应的节点训练模型和节点训练数据集；其中，所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响，1≤i≤L-1，L为所述初始的神经网络模型包含的神经网络层的数量；所述第i个神经网络层中的神经元与所述第i+1个神经网络层中的神经元之间的链接的链接重要程度为关联矩阵中对应元素的值，所述关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元，所述关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重；所述神经元的神经元重要程度为所述神经元的第一重要程度与第二重要程度的和，所述神经元的第一重要程度为根据所述神经元在全体关联矩阵对应行中的所有元素的值确定的，所述神经元的第二重要程度为根据所述神经元在所述全体关联矩阵对应列中的所有元素的值确定的，所述全体关联矩阵的行对应除最后一个神经网络层中的神经元、列对应神除第一个神经网络层中的神经元，所述全体关联矩阵用于描述相邻神经网络层中的两个神经元之间的链接的权重；

2.根据权利要求1所述分布式训练系统，其特征在于，所述第一数量为根据所述关联矩阵和第一预设系数确定的。

3.根据权利要求2所述分布式训练系统，其特征在于，所述第一数量为所述关联矩阵包含的元素的数量与第一预设系数的乘积的向上取整。

4.根据权利要求1所述分布式训练系统，其特征在于，所述神经元的第一重要程度为所述神经元在所述全体关联矩阵对应行中的所有元素的值的平方和确定的，所述神经元的第二重要程度为所述神经元在全体关联矩阵对应列中的所有元素的值的平方和确定的。

5.根据权利要求1所述分布式训练系统，其特征在于，所述第二数量为根据所述全体关联矩阵和第二预设系数确定的。

6.根据权利要求5所述分布式训练系统，其特征在于，所述第二数量为所述全体关联矩阵对应的神经元集合包含的神经元的数量与第二预设系数的乘积的向上取整，所述神经元集合为所述全体关联矩阵对应的行神经元集合和列神经集合的并集。

7.根据权利要求1所述分布式训练系统，其特征在于，所述控制器用于：

8.根据权利要求7所述分布式训练系统，其特征在于，所述计算节点用于：将计算得到的局部信息发送至目标计算节点；所述目标计算节点为其中一个计算节点；

9.根据权利要求8所述分布式训练系统，其特征在于，所述计算节点用于：基于接收到的训练数据子集和接收到的子模型的当前模型参数计算目标函数的梯度和二阶优化算法的关键矩阵。

10.根据权利要求9所述分布式训练系统，其特征在于，所述目标计算节点用于：将多个计算节点计算得到的目标函数的梯度进行聚合得到全局梯度；将多个计算节点计算得到的关键矩阵进行聚合得到全局关键矩阵；将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积；基于上三角矩阵或下三角矩阵生成全局关键矩阵的近似矩阵；基于全局关键矩阵的近似矩阵生成更新因子；将全局梯度和更新因子作为全局信息。

11.根据权利要求10所述分布式训练系统，其特征在于，所述目标计算节点用于：将多个计算节点计算得到的目标函数的梯度的和与计算节点的数量之间的比值确定为全局梯度。

12.根据权利要求10所述分布式训练系统，其特征在于，所述目标计算节点用于：按照多个计算节点接收到的子模型在神经网络模型中的排列顺序，将多个计算节点计算得到的关键矩阵依次作为对角块生成块对角局矩阵作为全局关键矩阵。

13.根据权利要求10所述分布式训练系统，其特征在于，所述目标计算节点用于：利用平方根法将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积。

14.根据权利要求10所述分布式训练系统，其特征在于，所述目标计算节点用于：提取上三角矩阵或下三角矩阵的对角线元素生成中间矩阵；计算全局关键矩阵与上三角矩阵或下三角矩阵的差值的F范数作为第一范数，计算全局关键矩阵的F范数作为第二范数；将第一范数与第二范数的比值与中间矩阵的乘积作为全局关键矩阵的近似矩阵。

15.根据权利要求10所述分布式训练系统，其特征在于，所述关键矩阵包括激活矩阵和梯度矩阵，所述目标计算节点用于：将激活矩阵的近似矩阵与梯度矩阵的近似矩阵的克罗内克积的逆作为更新因子。

16.根据权利要求10所述分布式训练系统，其特征在于，所述关键矩阵包括海森矩阵，所述目标计算节点用于：将海森矩阵的近似矩阵的逆作为更新因子。

17.根据权利要求10所述分布式训练系统，其特征在于，所述计算节点用于：计算所述全局梯度、学习率、所述更新因子的乘积，将对应的子模型的当前模型参数与所述乘积的差值作为更新后的模型参数；判断所述子模型是否收敛，若是，则得到训练完成的子模型，若否，则重新基于接收到的训练数据子集和子模型的当前模型参数计算局部信息。

18.一种神经网络模型训练方法，其特征在于，应用于如权利要求1至17任一项所述分布式训练系统中的计算节点，所述方法包括：

19.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如权利要求18所述神经网络模型训练方法的步骤。

20.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如权利要求18所述神经网络模型训练方法的步骤。