CN116681973B

CN116681973B - 一种图像处理方法、装置、系统、设备及计算机存储介质

Info

Publication number: CN116681973B
Application number: CN202310967935.6A
Authority: CN
Inventors: 闫瑞栋; 郭振华; 赵雅倩; 邱志勇; 刘璐; 金良; 徐聪
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-03
Anticipated expiration: 2043-08-03
Also published as: CN116681973A

Abstract

本发明公开了一种图像处理方法、装置、系统、设备及计算机存储介质，涉及图像处理技术领域，应用于目标设备，对分配得到的图像处理子神经网络模型进行当前轮的训练；获取当前轮的局部激活矩阵、局部梯度矩阵；对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；将目标设备的局部激活矩阵和全局梯度矩阵进行对称拆分并运算来生成目标设备的局部梯度配置；传输局部梯度配置，以基于局部梯度配置生成当前轮的全局参数；若不结束训练，则基于当前轮的全局参数进行下一轮的训练；若结束训练，则结束。模型训练中只传输局部梯度配置，降低了数据传输量，提高了图像处理效率。

Description

一种图像处理方法、装置、系统、设备及计算机存储介质

技术领域

本发明涉及图像处理技术领域，更具体地说，涉及一种图像处理方法、装置、系统、设备及计算机存储介质。

背景技术

当前，借助训练好的图像处理神经网络模型可以对于图像进行识别、分类等处理，且考虑到数据样本量以及图像处理神经网络模型规模的增长，可以借助分布式训练系统（Distributed Training System，DTS）来对图像处理神经网络模型进行训练，并通过二阶优化算法（Second Optimization Algorithm，SOA)中的自然梯度下降算法（NaturalGradient Descent，NGD）利用样本目标函数的二阶梯度信息实现模型参数的高效更新。

在图像处理神经网络模型的更新过程中，主节点将图像处理神经网络模型进行拆分后得到多个子神经网络模型，将每个子神经网络模型发送给对应的计算节点进行模型训练，主节点再根据所有计算节点的训练结果确定图像处理神经网络模型的训练结果，这也就意味着主节点需与各个计算节点进行数据交互，而计算节点在训练过程中生成的激活矩阵、通过自然梯度下降算法得到的梯度矩阵及其逆矩阵等规模较大，导致主节点和计算节点间的通信开销大，通信效率低，最终影响借助图像处理神经网络模型进行图像处理的效率。

综上所述，如何提高借助图像处理神经网络模型进行图像处理的效率是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种图像处理方法，其能在一定程度上解决如何提高借助图像处理神经网络模型进行图像处理的效率的技术问题。本发明还提供了一种图像处理装置、系统、电子设备及计算机可读存储介质。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提供一种图像处理方法，应用于目标设备，包括：

获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；

计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部梯度矩阵；

对所述目标设备的所述局部梯度矩阵和其他设备的所述局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；

将所述目标设备的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；

基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的局部梯度配置；

传输所述局部梯度配置，以基于所述局部梯度配置得到训练好的所述图像处理神经网络模型来对目标图像进行处理；

其中，所述其他设备用于对所述其他设备分配得到的图像处理子神经网络模型进行训练。

在一示例性实施例中，所述将所述目标设备的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，包括：

将所述目标设备的所述局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵；

将所述上三角激活矩阵作为所述第一激活矩阵；

将所述下三角激活矩阵作为所述第二激活矩阵。

在一示例性实施例中，所述将所述目标设备的所述局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵，包括：

通过平方根法将所述目标设备的所述局部激活矩阵拆分为对称的所述上三角激活矩阵和所述下三角激活矩阵。

在一示例性实施例中，所述将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵，包括：

将所述全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵；

将所述上三角梯度矩阵作为所述第一梯度矩阵；

将所述下三角梯度矩阵作为所述第二梯度矩阵。

在一示例性实施例中，所述将所述全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵，包括：

通过平方根法将所述全局梯度矩阵拆分为对称的所述上三角梯度矩阵和所述下三角梯度矩阵。

在一示例性实施例中，所述计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部梯度矩阵，包括：

基于自然梯度下降算法计算当前轮训练好的所述图像处理子神经网络模型的目标函数的所述局部梯度矩阵。

在一示例性实施例中，所述基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的局部梯度配置，包括：

通过局部梯度配置运算公式，基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的所述局部梯度配置；

所述局部梯度配置运算公式包括：

；

其中，表示所述局部梯度配置；/>表示所述第一梯度矩阵；/>表示所述第二梯度矩阵；/>表示所述第一激活矩阵；/>表示所述第二激活矩阵；，/>、/>表示矩阵，/>表示矩阵/>的维度，/>、/>、、/>表示矩阵/>中对应位置处的元素。

根据本发明实施例的第二方面，提供一种图像处理方法，应用于管理设备，包括：

获取目标计算节点传输的局部梯度配置；

基于所述局部梯度配置得到训练好的所述图像处理神经网络模型，以对目标图像进行处理；

其中，所述局部梯度配置包括所述目标计算节点基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成的梯度配置，所述第一激活矩阵和所述第二激活矩阵包括对所述目标计算节点当前轮训练好的图像处理子神经网络模型的局部激活矩阵进行拆分后得到的对称矩阵，所述图像处理子神经网络模型包括对所述图像处理神经网络模型进行拆分后得到的模型部分；所述第一梯度矩阵和所述第二梯度矩阵包括对全局梯度矩阵进行拆分后得到的对称矩阵；所述全局梯度矩阵包括对所有所述目标计算节点的局部梯度矩阵进行全局规约操作后得到的梯度矩阵；所述局部梯度矩阵包括对当前轮训练好的所述图像处理子神经网络模型的目标函数进行计算后得到的梯度矩阵。

在一示例性实施例中，所述基于所述局部梯度配置得到训练好的所述图像处理神经网络模型，包括：

基于所述局部梯度配置生成当前轮的全局梯度配置；

基于当前轮的所述全局梯度配置生成所述图像处理子神经网络模型的全局参数；

基于当前轮的所述全局参数确定训练好的所述图像处理神经网络模型。

在一示例性实施例中，所述基于所述局部梯度配置生成当前轮的全局梯度配置，包括：

通过全局梯度配置生成公式，基于所述局部梯度配置生成当前轮的所述全局梯度配置；

所述全局梯度配置生成公式包括：

；

其中，表示所述全局梯度配置；/>表示第/>个所述目标计算节点生成的所述局部梯度配置；/>表示所述目标计算节点的个数值。

在一示例性实施例中，所述基于当前轮的所述全局梯度配置生成所述图像处理子神经网络模型的全局参数，包括：

通过全局参数更新公式，基于当前轮的所述全局梯度配置生成所述图像处理子神经网络模型的所述全局参数；

所述全局参数更新公式包括：

；

其中，表示第/>个所述图像处理子神经网络模型在第/>次迭代中的所述全局参数；/>表示第/>个所述图像处理子神经网络模型在第/>次迭代中的所述全局参数；表示学习率；/>表示所述目标函数的梯度。

在一示例性实施例中，所述获取目标计算节点传输的局部梯度配置之前，还包括：

将所述图像处理神经网络模型拆分为目标数量的所述图像处理子神经网络模型；

选取所述目标计算节点；

将所述图像处理子神经网络模型分配给所述目标计算节点进行模型训练。

在一示例性实施例中，所述选取所述目标计算节点，包括：

若所有工作计算节点均处于空闲状态，则选取第一比例的所述工作计算节点作为所述目标计算节点，所述第一比例的值大于0小于等于0.5。

在一示例性实施例中，所述选取所述目标计算节点，包括：

若处于空闲状态的工作计算节点的数量大于等于所述目标数量，则选取第二比例的处于空闲状态的所述工作计算节点作为所述目标计算节点，所述第二比例的值大于0小于等于1。

在一示例性实施例中，所述选取所述目标计算节点，将所述图像处理子神经网络模型分配给所述目标计算节点进行模型训练，包括：

若处于空闲状态的工作计算节点的数量小于所述目标数量，则将所有处于空闲状态的所述工作计算节点作为第一目标计算节点；

将第一数量个所述图像处理子神经网络模型分配给所述第一目标计算节点进行模型训练，所述第一数量包括处于空闲状态的所述工作计算节点的数量；

待所述第一目标计算节点完成所述图像处理子神经网络模型的训练被释放后，确定已释放计算节点的数量；

若所述已释放计算节点的数量大于等于所述目标数量与所述第一数量间的差值，则选取第三比例的所述已释放计算节点作为第二目标计算节点，所述第三比例的值大于0小于等于1；

将未分配的所述图像处理子神经网络模型分配给所述第二目标计算节点进行模型训练。

在一示例性实施例中，所述将所述图像处理子神经网络模型分配给所述目标计算节点进行模型训练，包括：

若所述目标数量大于所述目标计算节点的数量，则分批次将所述图像处理子神经网络模型分配给所述目标计算节点进行模型训练。

在一示例性实施例中，所述目标计算节点包括设备和/或进程。

在一示例性实施例中，所述基于当前轮的所述全局参数确定训练好的所述图像处理神经网络模型，包括：

计算上一轮的所述全局参数与当前轮的所述全局参数的差值；

若所述差值小于等于预设值，则基于当前轮的所述全局参数确定训练好的所述图像处理神经网络模型。

根据本发明实施例的第三方面，提供一种图像处理装置，应用于目标计算节点，包括：

第一获取模块，用于获取当前轮训练好的所述图像处理子神经网络模型的局部激活矩阵，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；

计算模块，用于计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部梯度矩阵；

操作模块，用于对所述目标计算节点的所述局部梯度矩阵和其他设备的所述局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；

拆分模块，用于将所述目标计算节点的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；

第一生成模块，用于基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标计算节点的局部梯度配置；

第一传输模块，用于传输所述局部梯度配置，以基于所述局部梯度配置得到训练好的所述图像处理神经网络模型来对目标图像进行处理；

根据本发明实施例的第四方面，提供一种图像处理装置，应用于管理设备，包括：

第二获取模块，用于获取目标计算节点传输的局部梯度配置；

第二生成模块，用于基于所述局部梯度配置得到训练好的所述图像处理神经网络模型，以对目标图像进行处理；

其中，所述局部梯度配置包括所述目标计算节点基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成的梯度配置，所述第一激活矩阵和所述第二激活矩阵包括对所述目标计算节点当前轮训练好的图像处理子神经网络模型的局部激活矩阵进行拆分后得到的对称矩阵，所述图像处理子神经网络模型包括对所述图像处理神经网络模型进行拆分后得到的模型部分；所述第一梯度矩阵和所述第二梯度矩阵包括对全局梯度矩阵进行拆分后得到的对称矩阵；所述全局梯度矩阵包括对所有所述目标计算节点的局部梯度矩阵进行全局规约操作后得到的梯度矩阵；所述局部梯度矩阵包括对当前轮训练好的所述图像处理子神经网络模型的目标函数进行计算后得到的梯度矩阵；所述其他设备用于对所述其他设备分配得到的图像处理子神经网络模型进行训练。

根据本发明实施例的第五方面，提供一种图像处理系统，包括管理设备和目标数量个目标设备；

所述目标设备用于：获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部梯度矩阵；对所述目标设备的所述局部梯度矩阵和其他设备的所述局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；将所述目标设备的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的局部梯度配置；传输所述局部梯度配置；其中，所述其他设备用于对所述其他设备分配得到的图像处理子神经网络模型进行训练；

所述管理设备用于：接收所述局部梯度配置；基于所述局部梯度配置得到训练好的所述图像处理神经网络模型，以对目标图像进行处理。

根据本发明实施例的第六方面，提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述图像处理方法的步骤。

根据本发明实施例的第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述图像处理方法的步骤。

本发明提供的一种图像处理方法，应用于目标设备，获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵；对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置；传输局部梯度配置，以基于局部梯度配置得到训练好的图像处理神经网络模型来对目标图像进行处理；其中，其他设备用于对其他设备分配得到的图像处理子神经网络模型进行训练。本发明的有益效果是：目标设备在对图像处理子神经网络模型的训练过程中，得到局部激活矩阵和局部梯度矩阵之后，并非是直接传输局部激活矩阵和局部梯度矩阵，而是基于局部梯度矩阵得到全局梯度矩阵，通过对局部激活矩阵和全局梯度矩阵进行对称拆分并运算来快速生成自身的局部梯度配置，并只传输局部梯度配置，与传输局部激活矩阵和局部梯度矩阵的方案相比，降低了数据传输量，提高了数据传输效率，继而提高了图像处理神经网络模型的训练收敛效率，最终提高了借助图像处理神经网络模型进行图像处理的效率。本发明提供的一种图像处理装置、系统、电子设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图像处理方法的第一示意图；

图2为Cholesky矩阵的分解示意图；

图3为本发明实施例提供的一种图像处理方法的第二示意图；

图4为不同优化策略下进程的选取示意图；

图5为图像识别神经网络模型的训练过程示意图；

图6为本发明实施例提供的一种图像处理装置的第一结构示意图；

图7为本发明实施例提供的一种图像处理装置的第二结构示意图；

图8为管理设备和目标设备构成的分布式训练拓扑架构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图；

图10为本发明实施例提供的一种电子设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种图像处理方法的第一示意图。

本发明实施例提供的一种图像处理方法，应用于目标设备，可以包括以下步骤：

步骤S101：获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分。

实际应用中，可以将待训练的图像处理神经网络模型进行拆分后得到多个图像处理子神经网络模型，再将多个图像处理子神经网络模型分发给多个目标设备进行模型的并行训练，以提高模型训练效率，也即当设备对图像处理子神经网络模型进行训练时，便成为本发明中的目标设备，且目标设备可以对图像处理子神经网络模型进行多轮训练，在每轮训练过程中，可以先获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，以进行后续的相应处理，其中，局部激活矩阵指的是目标设备在对图像处理子神经网络模型的前向传播过程中保留的矩阵。

步骤S102：计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵。

实际应用中，目标设备在获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵之后，便可以计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵，以便后续基于局部梯度矩阵确定图像处理神经网络模型的模型参数。且具体应用场景中，可以基于自然梯度下降算法计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵，本发明在此不做具体限定。

需要说明的是，目标函数可以为损失函数，且其类型可以根据实际需要确定，比如图像处理神经网络模型为图像识别神经网络模型，则目标函数可以为计算图像识别损失值的函数等，本发明在此不做具体限定。

步骤S103：对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵。

实际应用中，因为有多个目标设备对对应的图像处理子神经网络模型进行训练，各个目标设备得到的局部梯度矩阵的原理相同且用于确定图像处理神经网络模型的模型参数，所以目标设备在计算出自身的局部梯度矩阵之后，还需对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵，其中，其他设备通过对自身分配得到的图像处理子神经网络模型进行训练来生成自身的局部梯度矩阵和局部激活矩阵，其他设备与目标设备的工作原理相同，只是处理的图像处理子神经网络模型不同。

步骤S104：将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵。

步骤S105：基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置。

实际应用中，在二阶优化算法中，激活矩阵A与梯度矩阵G是规模较大的正定对称矩阵，现有的二阶方法要求直接对矩阵A或G进行求逆运算，复杂度大致为O(N³)，其中N表示矩阵A的规模，因此，当N较大时，直接求逆运算的复杂度过高；如果直接传输局部激活矩阵和全局梯度矩阵进行相应计算的话，通信负载高且计算过程复杂耗时长，为了解决此问题，考虑到局部激活矩阵和全局梯度矩阵均为对称矩阵，所以可以将局部激活矩阵和全局梯度矩阵进行拆分以进行相应操作，也即目标设备可以将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵，基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置。

具体应用场景中，在基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置的过程中，可以通过局部梯度配置运算公式，基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置；局部梯度配置运算公式包括：

；

其中，表示局部梯度配置；/>表示第一梯度矩阵；/>表示第二梯度矩阵；/>表示第一激活矩阵；/>表示第二激活矩阵；/>，/>、/>表示矩阵，/>表示矩阵/>的维度，/>、/>、/>、/>表示矩阵/>中对应位置处的元素。

相应的，将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵的过程中，可以将目标设备的局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵，比如通过平方根法将目标设备的局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵；将上三角激活矩阵作为第一激活矩阵；将下三角激活矩阵作为第二激活矩阵。

相应的，在将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵的过程中，可以将全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵，比如通过平方根（Cholesky）法将全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵；将上三角梯度矩阵作为第一梯度矩阵；将下三角梯度矩阵作为第二梯度矩阵。

需要说明的是，本发明考虑到激活矩阵A与梯度矩阵G的对称性质，利用Cholesky分解方法，Cholesky矩阵分解示意图如图2所示，其中，相同图形的方块代表相同值的元素，无填充的方块代表空白元素，将矩阵A分解为一个上三角矩阵A₁和一个下三角矩阵A₂的乘积，而三角矩阵的求逆运算复杂度至多为 O(〖1/2*N〗³)。综上，Cholesky分解的复杂度 O(〖1/6*N〗³)，三角矩阵求逆运算复杂度 O(〖1/2*N〗³)，本发明总复杂度为 O(〖2/3*N〗³)，仅为原始矩阵直接求逆运算复杂度的2/3。因此，本发明的计算复杂度较现有方法的复杂度降低三分之一。

步骤S106：传输局部梯度配置，以基于局部梯度配置得到训练好的图像处理神经网络模型来对目标图像进行处理；其中，其他设备用于对其他设备分配得到的图像处理子神经网络模型进行训练。

实际应用中，目标设备在生成局部梯度配置之后，便可以传输局部梯度配置，以基于局部梯度配置得到训练好的图像处理神经网络模型。

需要说明的是，目标设备的类型可以根据应用场景来确定，比如目标设备可以为独立的服务器、计算芯片等。此外，图像处理神经网络模型及目标图像的类型可以根据应用场景来确定，比如目标图像可以为行人图像，图像处理神经网络模型可以为图像识别神经网络模型，此时的处理结果可以为行人图像中的行人信息等；再比如目标图像可以为有缺陷的图像，如模糊图像，图像处理神经网络模型可以为图像修复神经网络模型，此时的处理结果可以为修复后的图像，比如去模糊后的图像等；本发明在此不做具体限定。

本发明提供的一种图像处理方法，应用于目标设备，获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵；对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置；传输局部梯度配置，以基于局部梯度配置得到训练好的图像处理神经网络模型来对目标图像进行处理；其中，其他设备用于对其他设备分配得到的图像处理子神经网络模型进行训练。本发明中，目标设备在对图像处理子神经网络模型的训练过程中，得到局部激活矩阵和局部梯度矩阵之后，并非是直接传输局部激活矩阵和局部梯度矩阵，而是基于局部梯度矩阵得到全局梯度矩阵，通过对局部激活矩阵和全局梯度矩阵进行对称拆分并运算来快速生成自身的局部梯度配置，并只传输局部梯度配置，与传输局部激活矩阵和局部梯度矩阵的方案相比，降低了数据传输量，提高了数据传输效率，继而提高了图像处理神经网络模型的训练收敛效率，最终提高了借助图像处理神经网络模型进行图像处理的效率。

请参阅图3，图3为本发明实施例提供的一种图像处理方法的第二示意图。

本发明实施例提供的一种图像处理方法，应用于管理设备，可以包括以下步骤：

步骤S201：获取目标计算节点传输的局部梯度配置。

步骤S202：基于局部梯度配置得到训练好的图像处理神经网络模型，以对目标图像进行处理。

需要说明的是，由上述实施例可知，局部梯度配置包括目标计算节点基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成的梯度配置，第一激活矩阵和第二激活矩阵包括对目标计算节点当前轮训练好的图像处理子神经网络模型的局部激活矩阵进行拆分后得到的对称矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；第一梯度矩阵和第二梯度矩阵包括对全局梯度矩阵进行拆分后得到的对称矩阵；全局梯度矩阵包括对所有目标计算节点的局部梯度矩阵进行全局规约操作后得到的梯度矩阵；局部梯度矩阵包括对当前轮训练好的图像处理子神经网络模型的目标函数进行计算后得到的梯度矩阵；其他设备用于对其他设备分配得到的图像处理子神经网络模型进行训练。

还需说明的是，在分布式训练模式中，管理设备主要负责聚合所有计算节点发送来的局部梯度或模型参数等信息，更新全局模型参数并返回至各个计算节点处，计算节点主要基于其局部数据样本完成本地训练，通过客服端接口与管理设备进行通信，将其局部梯度或模型参数发送至管理设备处，以及从管理设备处获取当前的全局模型参数等；管理设备和计算节点的类型可以根据应用场景来确定，比如管理设备和计算节点可以为独立的服务器、计算芯片等，也可以为服务器中的进程等，且管理设备可以为多个计算节点中的一个计算节点等；此外，管理设备和计算节点间可以采用同步通信机制或异步通信机制等，本发明在此不做具体限定。

实际应用中，管理设备在基于局部梯度配置得到训练好的图像处理神经网络模型的过程中，可以基于局部梯度配置生成当前轮的全局梯度配置；基于当前轮的全局梯度配置生成图像处理子神经网络模型的全局参数；基于当前轮的全局参数确定训练好的图像处理神经网络模型。

具体应用场景中，管理设备在基于局部梯度配置生成当前轮的全局梯度配置的过程中，可以通过全局梯度配置生成公式，基于局部梯度配置生成当前轮的全局梯度配置；

全局梯度配置生成公式包括：

；

其中，表示全局梯度配置；/>表示第/>个目标计算节点生成的局部梯度配置；表示目标计算节点的个数值。

具体应用场景中，管理设备在基于当前轮的全局梯度配置生成图像处理子神经网络模型的全局参数的过程中，可以通过全局参数更新公式，基于当前轮的全局梯度配置生成图像处理子神经网络模型的全局参数；

；

其中，表示第/>个图像处理子神经网络模型在第/>次迭代中的全局参数；/>表示第/>个图像处理子神经网络模型在第/>次迭代中的全局参数；/>表示学习率；表示目标函数的梯度。

在本实施例中，管理设备还可以负责拆分图像处理神经网络模型，并负责选取目标计算节点，也即管理设备在获取目标计算节点传输的局部梯度配置之前，还可以将图像处理神经网络模型拆分为目标数量的图像处理子神经网络模型；选取目标计算节点；将图像处理子神经网络模型分配给目标计算节点进行模型训练。

具体应用场景中，考虑到目标计算节点需要存储数据，也即目标计算节点存在内存开销，且目标计算节点需要与其他设备或管理设备间进行通信，也即目标计算节点还存在通信开销，基于此，如图4所示，假设工作计算节点的类型为进程，总共有8个工作计算基点，在对内存开销进行优化的策略中，可以设置仅进程2保留激活矩阵与梯度矩阵，因而这种策略的内存占用最低，但是，其他进程若要获取进程2的信息，则需要进程2分别与其他进程进行7次通信，所以，导致这种策略的通信开销最高；相反地，在对通信开销进行优化的策略中，可以设置全部8个进程均保留了激活矩阵与梯度矩阵的备份，因而无需进程间的通信，这种策略通信开销最低，但是内存占用最高。通过比较，可以看出：内存优化策略内存占用非常低，而通信优化策略为了避免各计算节点(进程)间的频繁通信，需将所有层的信息均备份，因此，通信优化策略内存占用非常高。

为了避免通信优化策略和内存优化策略所带来的极端情况，平衡目标计算节点的通信开销和内存开销，管理设备在选取目标计算节点的过程中，若所有工作计算节点均处于空闲状态，则可以选取第一比例的工作计算节点作为目标计算节点，第一比例的值大于0小于等于0.5，在图4中，假设第一比例的值为0.5，则计算域进程数为0.5*8=4，在这种情况下，本发明内存与通信平衡策略的内存占用虽然是内存优化策略的4倍，但通信开销仅是通信优化策略的二分之一；本发明的内存占用仅为通信优化策略的二分之一，通信开销稍多于通信优化策略，但综合来看，本发明的策略可以实现计算域与广播域的灵活调整，可根据当前系统进程情况，动态调整内存占用与通信开销的平衡。

具体应用场景中，管理设备在选取目标计算节点的过程中，若处于空闲状态的工作计算节点的数量大于等于目标数量，则选取第二比例的处于空闲状态的工作计算节点作为目标计算节点，第二比例的值大于0小于等于1，比如第二比例的值可以为0.5等。

具体应用场景中，管理设备在选取目标计算节点，将图像处理子神经网络模型分配给目标计算节点进行模型训练的过程中，若处于空闲状态的工作计算节点的数量小于目标数量，则将所有处于空闲状态的工作计算节点作为第一目标计算节点；将第一数量个图像处理子神经网络模型分配给第一目标计算节点进行模型训练，第一数量包括处于空闲状态的工作计算节点的数量；待第一目标计算节点完成图像处理子神经网络模型的训练被释放后，确定已释放计算节点的数量；若已释放计算节点的数量大于等于目标数量与第一数量间的差值，则选取第三比例的已释放计算节点作为第二目标计算节点，第三比例的值大于0小于等于1；将未分配的图像处理子神经网络模型分配给第二目标计算节点进行模型训练。

具体应用场景中，管理设备在将图像处理子神经网络模型分配给目标计算节点进行模型训练的过程中，若目标数量大于目标计算节点的数量，则可以分批次将图像处理子神经网络模型分配给目标计算节点进行模型训练。比如可以先为每个目标计算节点分配一个图像处理子神经网络模型进行训练，待有目标计算节点完成模型训练后，再给该目标计算节点新分配一个图像处理子神经网络模型进行训练等。

具体应用场景中，本发明中管理设备、目标计算节点的类型可以根据实际需要确定，比如管理设备、目标计算节点均可以为服务器、计算芯片等独立设备，在一些特征情况下，管理设备可以为独立的服务器、计算芯片等，目标计算节点可以为管理设备或其他设备中的进程等；此外，管理设备和目标计算节点间可以采用同步通信机制或异步通信机制等，本发明在此不做具体限定。

具体应用场景中，管理设备在基于当前轮的全局参数确定训练好的图像处理神经网络模型的过程中，可以计算上一轮的全局参数与当前轮的全局参数的差值；若差值小于等于预设值，则基于当前轮的全局参数确定训练好的图像处理神经网络模型，若差值大于等于预设值，则可以将当前轮的全局参数发送给对应的目标计算节点，以使目标计算节点基于当前轮的全局参数更新图像处理子神经网络模型之后，继续对图像处理子神经网络模型进行训练。当然，实际应用中，还可以积累模型训练的轮数，若模型训练的轮数达到目标轮数，则可以基于当前轮的全局参数确定训练好的图像处理神经网络模型，若模型训练的轮数未达到目标轮数，则可以将当前轮的全局参数发送给对应的目标计算节点，以使目标计算节点基于当前轮的全局参数更新图像处理子神经网络模型之后，继续对图像处理子神经网络模型进行训练等，本发明在此不对模型训练结束的条件做具体限制。

为了便于理解本发明提供的图像处理方法，现假设图像处理神经网络模型为图像识别神经网络模型，其总共有三层，并借助服务器中的三个计算节点，也即三个进程对该图像处理神经网络模型进行训练，且服务器中包括对模型训练进行管理的数据/模型输入模块、内存-通信平衡模块、Cholesky分解模块和训练结果输出模块，则图像识别神经网络模型的训练过程可以如图5所示，可以包括如下过程：

内存-通信平衡模块按本发明节点选取方法在服务器的所有工作计算节点中选取三个计算节点，分别为计算节点1，计算节点2和计算节点3；

服务器将图像识别神经网络模型按层进行拆分，将第1层图像识别子神经网络模型分配至计算节点1，第2层图像识别子神经网络模型分配至计算节点2，第3层图像识别子神经网络模型分配至计算节点3，以使得图像识别神经网络模型的不同层被不同的计算节点或进程并行处理；

数据/模型输入模块将用于模型训练的样本数据或图像识别子神经网络模型处理为分布式训练系统要求的格式，包括去噪声、标准化等操作，供后续计算节点直接读取与调用，此外，数据/模型输入模块还可以基于输入的样本数据及模型参数，对图像识别子神经网络模型的目标函数求一阶梯度；其中，样本数据可以为一定数量的图片及该图像的识别结果，比如可以为行人图像及对应的行人识别结果等；

各计算节点接收到图像识别子神经网络模型之后，分别执行前向传播与后向传播过程，保存前向传播过程中的局部激活矩阵A，并在后向传播完成时输出自身的局部梯度矩阵；

各计算节点执行Allreduce（全局规约）操作以便所有计算节点同步全局梯度，最后，各计算节点得到前传过程保留的局部激活矩阵A以及Allreduce之后获得的全局梯度矩阵G；

对于每个计算节点的局部激活矩阵和全局梯度矩阵，Cholesky分解模块将该计算节点的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将该计算节点的全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵，基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成该计算节点的局部梯度配置，并输出给训练结果输出模块；

训练结果输出模块基于当前轮的三个局部梯度配置生成当前轮的全局梯度配置；基于当前轮的全局梯度配置生成各个图像识别子神经网络模型的全局参数；

服务器判断是否结束训练，若否，则将各个图像识别子神经网络模型的全局参数传回给对应的计算节点，以使计算节点基于接收的全局参数更新图像识别子神经网络模型后开始下一轮的模型训练；若是，则基于当前轮的全局参数确定训练好的图像识别神经网络模型；在此过程中，可以在连续两轮的全局参数间的差值过小或者迭代次数超过预设次数后，判定结束训练，当然也可以有其他结束训练的判定方式。

请参阅图6，图6为本发明实施例提供的一种图像处理装置的第一结构示意图。

本发明实施例提供的一种图像处理装置，应用于目标设备，可以包括：

第一获取模块11，用于获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；

计算模块12，用于计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵；

操作模块13，用于对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；

拆分模块14，用于将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；

第一生成模块15，用于基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置；

第一传输模块16，用于传输局部梯度配置，以基于局部梯度配置得到训练好的图像处理神经网络模型来对目标图像进行处理；

其中，其他设备用于对其他设备分配得到的图像处理子神经网络模型进行训练。

本发明实施例提供的一种图像处理装置，应用于目标设备，第一生成模块可以包括：

第一生成单元，用于通过局部梯度配置运算公式，基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置；

；

本发明实施例提供的一种图像处理装置，应用于目标设备，拆分模块可以具体用于：将目标设备的局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵；将上三角激活矩阵作为第一激活矩阵；将下三角激活矩阵作为第二激活矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，拆分模块可以具体用于：通过平方根法将目标设备的局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，拆分模块可以具体用于：将全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵；将上三角梯度矩阵作为第一梯度矩阵；将下三角梯度矩阵作为第二梯度矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，拆分模块可以具体用于：通过平方根法将全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，计算模块可以包括：

计算单元，用于基于自然梯度下降算法计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵。

请参阅图7，图7为本发明实施例提供的一种图像处理装置的第二结构示意图。

本发明实施例提供的一种图像处理装置，应用于管理设备，可以包括：

第二获取模块21，用于获取目标计算节点传输的局部梯度配置；

第二生成模块22，用于基于局部梯度配置得到训练好的图像处理神经网络模型，以对目标图像进行处理；

其中，局部梯度配置包括目标计算节点基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成的梯度配置，第一激活矩阵和第二激活矩阵包括对目标计算节点当前轮训练好的图像处理子神经网络模型的局部激活矩阵进行拆分后得到的对称矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；第一梯度矩阵和第二梯度矩阵包括对全局梯度矩阵进行拆分后得到的对称矩阵；全局梯度矩阵包括对所有目标计算节点的局部梯度矩阵进行全局规约操作后得到的梯度矩阵；局部梯度矩阵包括对当前轮训练好的图像处理子神经网络模型的目标函数进行计算后得到的梯度矩阵。

本发明实施例提供的一种图像处理装置，应用于管理设备，第二生成模块可以包括：

第二生成单元，用于基于局部梯度配置生成当前轮的全局梯度配置；

第三生成单元，用于基于当前轮的全局梯度配置生成图像处理子神经网络模型的全局参数；

第一确定单元，用于基于当前轮的全局参数确定训练好的图像处理神经网络模型。

本发明实施例提供的一种图像处理装置，应用于管理设备，第三生成单元可以具体用于：通过全局梯度配置生成公式，基于局部梯度配置生成当前轮的全局梯度配置；

全局梯度配置生成公式包括：

；

其中，表示全局梯度配置；/>表示第/>个目标计算节点生成的局部梯度配置；表示目标计算节点的个数值。/>

本发明实施例提供的一种图像处理装置，应用于管理设备，第三生成单元可以具体用于：通过全局参数更新公式，基于当前轮的全局梯度配置生成图像处理子神经网络模型的全局参数；

全局参数更新公式包括：

；

本发明实施例提供的一种图像处理装置，应用于管理设备，还可以包括：

处理模块，用于第二获取模块获取目标计算节点传输的局部梯度配置之前，将图像处理神经网络模型拆分为目标数量的图像处理子神经网络模型；选取目标计算节点；将图像处理子神经网络模型分配给目标计算节点进行模型训练。

本发明实施例提供的一种图像处理装置，应用于管理设备，处理模块可以具体用于：若所有工作计算节点均处于空闲状态，则选取第一比例的工作计算节点作为目标计算节点，第一比例的值大于0小于等于0.5。

本发明实施例提供的一种图像处理装置，应用于管理设备，处理模块可以具体用于：若处于空闲状态的工作计算节点的数量大于等于目标数量，则选取第二比例的处于空闲状态的工作计算节点作为目标计算节点，第二比例的值大于0小于等于1。

本发明实施例提供的一种图像处理装置，应用于管理设备，处理模块可以具体用于：若处于空闲状态的工作计算节点的数量小于目标数量，则将所有处于空闲状态的工作计算节点作为第一目标计算节点；将第一数量个图像处理子神经网络模型分配给第一目标计算节点进行模型训练，第一数量包括处于空闲状态的工作计算节点的数量；待第一目标计算节点完成图像处理子神经网络模型的训练被释放后，确定已释放计算节点的数量；若已释放计算节点的数量大于等于目标数量与第一数量间的差值，则选取第三比例的已释放计算节点作为第二目标计算节点，第三比例的值大于0小于等于1；将未分配的图像处理子神经网络模型分配给第二目标计算节点进行模型训练。

本发明实施例提供的一种图像处理装置，应用于管理设备，处理模块可以具体用于：若目标数量大于目标计算节点的数量，则分批次将图像处理子神经网络模型分配给目标计算节点进行模型训练，

本发明实施例提供的一种图像处理装置，应用于管理设备，目标计算节点的类型包括设备和/或进程。

本发明实施例提供的一种图像处理装置，应用于管理设备，第二生成模块可以具体用于：计算上一轮的全局参数与当前轮的全局参数的差值；若差值小于等于预设值，则基于当前轮的全局参数确定训练好的图像处理神经网络模型。

本发明还提供了一种图像处理系统，包括管理设备和目标数量个目标设备；

目标设备用于：获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度矩阵；对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；将目标设备的局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成目标设备的局部梯度配置；传输局部梯度配置；其中，其他设备用于对其他设备分配得到的图像处理子神经网络模型进行训练；

管理设备用于：接收局部梯度配置；基于局部梯度配置得到训练好的图像处理神经网络模型，以对目标图像进行处理。

本实施例中的相应描述请参阅上述实施例，在此不再赘述。

需要说明的是，目标设备的目标数量可以根据应用场景来确定，且管理设备和目标数量的目标设备一同构成了图像处理神经网络模型的分布式训练系统架构，在此情况下，管理设备和目标设备间的连接方式、通信方式可以根据具体的分布式训练拓扑架构来确定。

如图8所示，当分布式训练拓扑架构为中心化架构时，各个目标设备可以直接与作为中心主节点的管理设备进交互。由于中心化架构具有一个中心主节点来协调各个工作节点，中心化架构的代表是参数服务器(parameter server，PS)架构，在PS架构中存在两种角色：worker（工作者）和server（服务器），前者通常由计算节点构成，而后者一般是一个或一组服务器节点构成，所以目标设备可以作为worker，主要负责如下操作：(1)基于其局部数据样本完成局部训练任务；(2)通过客户端接口与server进行通信，即从server处获取最新的全局模型参数并将其自身的局部参数发送到server处；管理设备可以作为server，主要完成如下操作：(1)对各个worker发送来的局部梯度进行聚合；(2)通过ADD（相加）或SUM（求和）操作更新全局模型参数并返回至各个worker处。

由于中心化架构的瓶颈主要表现在中心server的通信拥塞问题，特别是随着worker数量逐渐增加的情况下，该问题尤为凸显。为了缓解中心化架构server节点的通信拥塞问题，如图8所示，提出了不包含中心server节点的去中心化架构，此时，管理设备可以为多个目标设备中的某个目标设备，与中心化架构相比，去中心化架构中的worker之间通过某些巧妙的通信设计进行信息交互，如All-Reduce（全局规约）架构(图8中间所示架构)以及Gossip（流言协议）架构(图8右边所示架构)。在All-reduce架构中，每个worker需要与所有worker进行通信，并以广播的方式将其本地信息传递给其他所有worker，因此，每个worker以该方式获取了所有worker的信息，进而实现了全局信息同步。值得注意的是，与All-Reduce相比，在Grossip架构中，每个worker只与它的邻居worker通信而非所有的worker。

还需说明的是，分布式训练系统架构中管理设备、目标设备间的通信同步方式可以包括同步通信和异步通信，也称之为同步算法和异步算法。同步算法的思想是：当分布式训练系统中的一个计算节点完成当前轮次迭代时，必须等待其他计算节点完成其当前轮次迭代任务，然后才能共同处理下一轮次训练迭代任务，典型的同步算法，如整体同步并行(bulk synchronous parallel, BSP)算法等，具体而言，在BSP算法中，当某个计算节点完成当前迭代任务后，需要通过不同通信拓扑逻辑与其他计算节点同步模型参数或梯度等信息，然后，所有计算节点以相同的“起跑线”进入下一轮次迭代过程，为了保证迭代以相同的“起跑线”进行，BSP算法引入了一个全局同步障碍(synchronization barrier)，其工作原理是要求那些处理能力较强且迭代速度快的计算节点都被强制在同步障碍处停止，等待其他处理能力较弱且迭代速度慢的计算节点完成其当前轮次迭代任务后，训练系统才会执行下一轮次迭代任务。而异步通信或异步算法主要思想是当系统中的某个计算节点完成其当前轮次迭代后，其可以继续执行下一轮次迭代而无需等待其他计算节点。

本发明还提供了一种电子设备及计算机可读存储介质，其均具有本发明实施例提供的一种图像处理方法具有的对应效果。请参阅图9，图9为本发明实施例提供的一种电子设备的结构示意图。

本发明实施例提供的一种电子设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如上任一实施例所描述图像处理方法的步骤。

请参阅图10，本发明实施例提供的另一种电子设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现电子设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术（Mobile High-Definition Link，MHL）、通用串行总线（Universal Serial Bus，USB）、高清多媒体接口（High－DefinitionMultimedia Interface，HDMI）、无线连接：无线保真技术（WIreless Fidelity，WiFi）、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本发明实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一实施例所描述图像处理方法的步骤。

本发明所涉及的计算机可读存储介质包括随机存储器（Random Access Memory，RAM）、内存、只读存储器（Read-Only Memory，ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM（Compact Disc Read-Only Memory，只读光盘）、或技术领域内所公知的任意其它形式的存储介质。

本发明实施例提供的图像处理装置、电子设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的图像处理方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

需要说明的是，本发明中图像处理神经网络模型可以为进行图像识别或进行图像分类或进行图像修复等的神经网络模型，此外，本发明只是以图像处理来讲述其工作原理，本发明的工作原理可以广泛应用于任务密集型和计算密集型的应用场景，如人工智能模型训练、数据中心、智能网络系统、分布式计算系统，无线传感器网络等；此外，可以涉及人工智能、数据中心、云计算、网络流量调度等众多领域，相关研究人员可以借用本发明的算法来解决领域内的同类问题等，本发明在此不做具体限定。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像处理方法，其特征在于，应用于目标设备，包括：

获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分，所述局部激活矩阵包括所述目标设备在对所述图像处理子神经网络模型的前向传播过程中保留的矩阵；

通过局部梯度配置运算公式，基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的局部梯度配置；

其中，所述其他设备用于对所述其他设备分配得到的图像处理子神经网络模型进行训练；

所述局部梯度配置运算公式包括：

;

2.根据权利要求1所述的方法，其特征在于，所述将所述目标设备的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，包括：

将所述上三角激活矩阵作为所述第一激活矩阵；

将所述下三角激活矩阵作为所述第二激活矩阵。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标设备的所述局部激活矩阵拆分为对称的上三角激活矩阵和下三角激活矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵，包括：

将所述上三角梯度矩阵作为所述第一梯度矩阵；

将所述下三角梯度矩阵作为所述第二梯度矩阵。

5.根据权利要求4所述的方法，其特征在于，所述将所述全局梯度矩阵拆分为对称的上三角梯度矩阵和下三角梯度矩阵，包括：

6.根据权利要求1所述的方法，其特征在于，所述计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部梯度矩阵，包括：

7.一种图像处理方法，其特征在于，应用于管理设备，包括：

获取目标计算节点传输的局部梯度配置；

其中，所述局部梯度配置包括所述目标计算节点通过局部梯度配置运算公式，基于第一激活矩阵、第二激活矩阵、第一梯度矩阵和第二梯度矩阵生成的梯度配置，所述第一激活矩阵和所述第二激活矩阵包括对所述目标计算节点当前轮训练好的图像处理子神经网络模型的局部激活矩阵进行拆分后得到的对称矩阵，所述图像处理子神经网络模型包括对所述图像处理神经网络模型进行拆分后得到的模型部分，所述局部激活矩阵包括所述目标计算节点在对所述图像处理子神经网络模型的前向传播过程中保留的矩阵；所述第一梯度矩阵和所述第二梯度矩阵包括对全局梯度矩阵进行拆分后得到的对称矩阵；所述全局梯度矩阵包括对所有所述目标计算节点的局部梯度矩阵进行全局规约操作后得到的梯度矩阵；所述局部梯度矩阵包括对当前轮训练好的所述图像处理子神经网络模型的目标函数进行计算后得到的梯度矩阵；

所述局部梯度配置运算公式包括：

;

8.根据权利要求7所述的方法，其特征在于，所述基于所述局部梯度配置得到训练好的所述图像处理神经网络模型，包括：

基于所述局部梯度配置生成当前轮的全局梯度配置；

9.根据权利要求8所述的方法，其特征在于，所述基于所述局部梯度配置生成当前轮的全局梯度配置，包括：

所述全局梯度配置生成公式包括：

;

10.根据权利要求9所述的方法，其特征在于，所述基于当前轮的所述全局梯度配置生成所述图像处理子神经网络模型的全局参数，包括：

所述全局参数更新公式包括：

;

其中，表示第/>个所述图像处理子神经网络模型在第/>次迭代中的所述全局参数；/>表示第/>个所述图像处理子神经网络模型在第/>次迭代中的所述全局参数；/>表示学习率；/>表示所述目标函数的梯度。

11.根据权利要求7所述的方法，其特征在于，所述获取目标计算节点传输的局部梯度配置之前，还包括：

选取所述目标计算节点；

12.根据权利要求11所述的方法，其特征在于，所述选取所述目标计算节点，包括：

13.根据权利要求11所述的方法，其特征在于，所述选取所述目标计算节点，包括：

14.根据权利要求11所述的方法，其特征在于，所述选取所述目标计算节点，将所述图像处理子神经网络模型分配给所述目标计算节点进行模型训练，包括：

15.根据权利要求11所述的方法，其特征在于，所述将所述图像处理子神经网络模型分配给所述目标计算节点进行模型训练，包括：

16.根据权利要求11所述的方法，其特征在于，所述目标计算节点包括设备和/或进程。

17.根据权利要求8所述的方法，其特征在于，所述基于当前轮的所述全局参数确定训练好的所述图像处理神经网络模型，包括：

18.一种图像处理装置，其特征在于，应用于目标设备，包括：

第一获取模块，用于获取当前轮训练好的所述图像处理子神经网络模型的局部激活矩阵，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分，所述局部激活矩阵包括所述目标设备在对所述图像处理子神经网络模型的前向传播过程中保留的矩阵；

操作模块，用于对所述目标设备的所述局部梯度矩阵和其他设备的所述局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；

拆分模块，用于将所述目标设备的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；

第一生成模块，用于通过局部梯度配置运算公式，基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的局部梯度配置；

所述局部梯度配置运算公式包括：

;

19.一种图像处理装置，其特征在于，应用于管理设备，包括：

所述局部梯度配置运算公式包括：

;

20.一种图像处理系统，其特征在于，包括管理设备和目标数量个目标设备；

所述目标设备用于：获取当前轮训练好的图像处理子神经网络模型的局部激活矩阵，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分，所述局部激活矩阵包括所述目标设备在对所述图像处理子神经网络模型的前向传播过程中保留的矩阵；计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部梯度矩阵；对所述目标设备的所述局部梯度矩阵和其他设备的所述局部梯度矩阵进行全局规约操作，得到全局梯度矩阵；将所述目标设备的所述局部激活矩阵拆分为对称的第一激活矩阵和第二激活矩阵，将所述全局梯度矩阵拆分为对称的第一梯度矩阵和第二梯度矩阵；通过局部梯度配置运算公式，基于所述第一激活矩阵、所述第二激活矩阵、所述第一梯度矩阵和所述第二梯度矩阵生成所述目标设备的局部梯度配置；传输所述局部梯度配置；其中，所述其他设备用于对所述其他设备分配得到的图像处理子神经网络模型进行训练；

所述管理设备用于：接收所述局部梯度配置；基于所述局部梯度配置得到训练好的所述图像处理神经网络模型，以对目标图像进行处理；

所述局部梯度配置运算公式包括：

;

21.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至17任一项所述图像处理方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述图像处理方法的步骤。