CN116704296B

CN116704296B - 一种图像处理方法、装置、系统、设备及计算机存储介质

Info

Publication number: CN116704296B
Application number: CN202310974709.0A
Authority: CN
Inventors: 闫瑞栋; 郭振华; 赵雅倩; 邱志勇; 刘璐; 金良; 徐聪
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-03
Anticipated expiration: 2043-08-04
Also published as: CN116704296A

Abstract

本发明公开了一种图像处理方法、装置、系统、设备及计算机存储介质，涉及图像处理技术领域，应用于目标设备，对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵；判断是否传输当前轮的局部特征矩阵；若是，则传输当前轮的局部特征矩阵至主设备，以使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的局部特征矩阵至主设备，以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型进行图像处理。目标设备选择性的将局部特征矩阵传输给主设备，提高了处理效率。

Description

一种图像处理方法、装置、系统、设备及计算机存储介质

技术领域

本发明涉及图像处理技术领域，更具体地说，涉及一种图像处理方法、装置、系统、设备及计算机存储介质。

背景技术

当前，借助训练好的图像处理神经网络模型可以对于图像进行识别、分类等处理，且考虑到数据样本量以及图像处理神经网络模型规模的增长，可以借助分布式训练系统（Distributed Training System，DTS）来对图像处理神经网络模型进行训练，并通过二阶优化算法（Second Optimization Algorithm，SOA)中的牛顿法（Newton Algorithm）利用样本目标函数的二阶梯度信息实现模型参数的高效更新。

在图像处理神经网络模型的更新过程中，主节点将图像处理神经网络模型进行拆分后得到多个子神经网络模型，将每个子神经网络模型发送给对应的计算节点进行模型训练，主节点再根据所有计算节点的训练结果确定图像处理神经网络模型的训练结果，这也就意味着主节点需与各个计算节点进行数据交互，而计算节点通过牛顿法等得到的特征矩阵及其逆矩阵等规模较大，导致主节点和计算节点间的通信开销大，通信效率低，最终影响借助图像处理神经网络模型进行图像处理的效率。

综上所述，如何提高借助图像处理神经网络模型进行图像处理的效率是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种图像处理方法，其能在一定程度上解决如何提高借助图像处理神经网络模型进行图像处理的效率的技术问题。本发明还提供了一种图像处理装置、系统、电子设备及计算机可读存储介质。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提供一种图像处理方法，应用于目标设备，包括：

对所述目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；

计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部特征矩阵，所述局部特征矩阵包括对所述目标函数的梯度值进行处理后得到的矩阵；

判断是否传输当前轮的所述局部特征矩阵；

若是，则传输当前轮的所述局部特征矩阵至主设备，以使所述主设备基于当前轮的所述局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的所述局部特征矩阵至所述主设备，以使所述主设备基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数；以基于当前轮的所述全局参数得到训练好的所述图像处理神经网络模型来对目标图像进行处理。

在一示例性实施例中，所述传输当前轮的所述局部特征矩阵至主设备，包括：

对于当前轮的所述局部特征矩阵中的每个第一特征矩阵算子，将所述第一特征矩阵算子拆分为对称的第一矩阵和第二矩阵；

传输所述第一矩阵或所述第二矩阵至所述主设备，以使所述主设备基于接收的所述第一矩阵或所述第二矩阵重构出所述第一特征矩阵算子，进而重构出当前轮的所述局部特征矩阵。

在一示例性实施例中，所述将所述第一特征矩阵算子拆分为对称的第一矩阵和第二矩阵，包括：

将所述第一特征矩阵算子拆分为对称的上三角矩阵和下三角矩阵；

将所述上三角矩阵作为所述第一矩阵；

将所述下三角矩阵作为所述第二矩阵。

对当前轮的所述局部特征矩阵进行压缩，得到压缩局部特征矩阵；

传输所述压缩局部特征矩阵至所述主设备，以使所述主设备对所述压缩局部特征矩阵进行解压缩后得到当前轮的所述局部特征矩阵。

在一示例性实施例中，所述对当前轮的所述局部特征矩阵进行压缩，得到压缩局部特征矩阵，包括：

对于当前轮的所述局部特征矩阵中的每个第一特征矩阵算子，生成维度与所述第一特征矩阵算子的维度一样的随机矩阵，所述随机矩阵由0和1组成，且所述随机矩阵中0的数量为第一数量；

确定所述第一特征矩阵算子中元素的总个数值；

确定所述第一特征矩阵算子中所有元素的值的第一和值；

基于所述总个数值、所述第一数量、所述随机矩阵对所述第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子；

将所述压缩第一特征矩阵算子、所述第一数量、所述总个数值和所述第一和值作为所述压缩局部特征矩阵。

在一示例性实施例中，所述基于所述总个数值、所述第一数量、所述随机矩阵对所述第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子，包括：

通过压缩公式，基于所述总个数值、所述第一数量、所述随机矩阵对所述第一特征矩阵算子进行压缩，得到所述压缩第一特征矩阵算子；

所述压缩公式包括：

；

其中，表示第/>个训练样本对应的所述第一特征矩阵算子，/>表示所述目标设备的编号，/>表示当前轮的轮数；/>表示所述总个数值；/>表示所述第一数量；表示对两个矩阵对应位置元素进行相乘且计算优先级高于乘法运算；/>表示所述随机矩阵；/>表示所述压缩第一特征矩阵算子。

在一示例性实施例中，所述计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部特征矩阵，包括：

计算当前轮训练好的所述图像处理子神经网络模型的目标函数的一阶梯度值；

基于牛顿法对所述一阶梯度值进行处理，得到局部海森矩阵；

将所述局部海森矩阵作为所述局部特征矩阵。

在一示例性实施例中，所述判断是否传输当前轮的所述局部特征矩阵，包括：

确定当前轮的轮数；

判断当前轮的轮数是否属于目标轮数，所述目标轮数包括按照迭代间隔确定的轮数；

若当前轮的轮数属于所述目标轮数，则判定不传输当前轮的所述局部特征矩阵；

若当前轮的轮数不属于所述目标轮数，则判定传输当前轮的所述局部特征矩阵。

根据本发明实施例的第二方面，提供一种图像处理方法，应用于主设备，包括：

判断是否接收目标计算节点传输的当前轮的局部特征矩阵；

若是，则接收当前轮的所述局部特征矩阵，基于当前轮的所述局部特征矩阵生成当前轮的全局参数；若否，则基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数；以基于当前轮的所述全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理；

其中，当前轮的所述局部特征矩阵包括所述目标计算节点计算得到的当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵；所述图像处理子神经网络模型包括对所述图像处理神经网络模型进行拆分后得到的模型部分。

在一示例性实施例中，所述基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数，包括：

获取所述图像处理神经网络模型在训练过程中的学习率；

对于上一轮的所述局部特征矩阵中的每个第二特征矩阵算子，基于所述学习率对所述第二特征矩阵算子进行重构，得到重构特征矩阵算子；

基于所有的所述重构特征矩阵算子生成上一轮的所述局部特征矩阵在当前轮对应的重构特征矩阵；

基于所述重构特征矩阵生成当前轮的所述全局参数。

在一示例性实施例中，所述基于所述学习率对所述第二特征矩阵算子进行重构，得到重构特征矩阵算子，包括：

通过重构公式，基于所述学习率对所述第二特征矩阵算子进行重构，得到所述重构特征矩阵算子；

所述重构公式包括：

；

其中，表示第/>个训练样本对应的所述第二特征矩阵算子，/>表示对应的所述目标计算节点的编号，/>表示当前轮的轮数；/>表示大于0小于1的系数；/>表示所述学习率；/>表示所述重构特征矩阵算子。

在一示例性实施例中，所述接收当前轮的所述局部特征矩阵，包括：

接收第一矩阵或第二矩阵，所述第一矩阵或所述第二矩阵包括所述目标计算节点对当前轮的所述局部特征矩阵中的每个第一特征矩阵算子进行拆分后得到的对称矩阵；

基于接收到的所述第一矩阵或所述第二矩阵重构出所述第一特征矩阵算子；

基于所述第一特征矩阵算子重构出当前轮的所述局部特征矩阵。

在一示例性实施例中，所述第一矩阵包括对所述第一特征矩阵算子进行拆分后得到的上三角矩阵，所述第二矩阵包括对所述第一特征矩阵算子进行拆分后得到的下三角矩阵。

接收所述目标计算节点对当前轮的所述局部特征矩阵进行压缩后得到的压缩局部特征矩阵；

对所述压缩局部特征矩阵进行解压缩，得到当前轮的所述局部特征矩阵。

在一示例性实施例中，所述压缩局部特征矩阵包括压缩第一特征矩阵算子、第一数量、总个数值和第一和值，所述压缩第一特征矩阵算子包括所述目标计算节点基于所述总个数值、随机矩阵对当前轮的所述局部特征矩阵中的第一特征矩阵算子进行压缩后得到的算子；所述随机矩阵由0和1组成，且所述随机矩阵的维度与所述第一特征矩阵算子的维度一样，所述第一数量为所述随机矩阵中0的数量值；所述总个数值包括所述第一特征矩阵算子中元素的个数值；所述第一和值包括所述第一特征矩阵算子中所有元素的值的和值；

所述对所述压缩局部特征矩阵进行解压缩，得到当前轮的所述局部特征矩阵，包括：

基于所述第一数量、所述总个数值对所述压缩第一特征矩阵算子进行解压缩，得到第三特征矩阵算子；

基于所述第一和值对所述第三特征矩阵算子进行恢复，得到第四特征矩阵算子；

基于所述第四特征矩阵算子重构出当前轮的所述局部特征矩阵。

在一示例性实施例中，所述基于所述第一数量、所述总个数值对所述压缩第一特征矩阵算子进行解压缩，得到第三特征矩阵算子，包括：

计算所述第一数量与所述总个数值的第一比值；

将所述第一比值与所述压缩第一特征矩阵算子相乘，得到所述第三特征矩阵算子。

在一示例性实施例中，所述基于所述第一和值对所述第三特征矩阵算子进行恢复，得到第四特征矩阵算子，包括：

按照所述第四特征矩阵算子的元素的值的和值等于所述第一和值的规则，对所述第三特征矩阵算子中值为0的元素进行恢复，得到所述第四特征矩阵算子。

在一示例性实施例中，所述按照所述第四特征矩阵算子的元素的值的和值等于所述第一和值的规则，对所述第三特征矩阵算子中值为0的元素进行恢复，得到所述第四特征矩阵算子，包括：

计算所述第三特征矩阵算子中所有元素的值的第二和值；

计算所述第一和值与所述第二和值间的差值；

计算所述差值与所述第一数量的第二比值；

将所述第三特征矩阵算子中值为0的元素恢复成所述第二比值，得到所述第四特征矩阵算子。

根据本发明实施例的第三方面，提供一种图像处理装置，应用于目标设备，包括：

训练模块，用于对所述目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；

计算模块，用于计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部特征矩阵，所述局部特征矩阵包括对所述目标函数的梯度值进行处理后得到的矩阵；

第一判断模块，用于判断是否传输当前轮的所述局部特征矩阵；若是，则传输当前轮的所述局部特征矩阵至主设备，以使所述主设备基于当前轮的所述局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的所述局部特征矩阵至所述主设备，以使所述主设备基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数；以基于当前轮的所述全局参数得到训练好的所述图像处理神经网络模型来对目标图像进行处理。

根据本发明实施例的第四方面，提供一种图像处理装置，应用于主设备，包括：

第二判断模块，用于判断是否接收目标计算节点传输的当前轮的局部特征矩阵；若是，则接收当前轮的所述局部特征矩阵，基于当前轮的所述局部特征矩阵生成当前轮的全局参数；若否，则基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数；以基于当前轮的所述全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理；

根据本发明实施例的第五方面，提供一种图像处理系统，包括主设备和目标数量的目标设备；

所述目标设备用于：对所述目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，所述图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部特征矩阵，所述局部特征矩阵包括对所述目标函数的梯度值进行处理后得到的矩阵；判断是否传输当前轮的所述局部特征矩阵；若是，则传输当前轮的所述局部特征矩阵至所述主设备；若否，则不传输当前轮的所述局部特征矩阵至所述主设备；

所述主设备用于：若接收到当前轮的所述局部特征矩阵，则基于当前轮的所述局部特征矩阵生成当前轮的全局参数；若未接收到当前轮的所述局部特征矩阵，则基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数；以基于当前轮的所述全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

根据本发明实施例的第六方面，提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述图像处理方法的步骤。

根据本发明实施例的第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述图像处理方法的步骤。

本发明提供的一种图像处理方法，应用于目标设备，对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，局部特征矩阵包括对目标函数的梯度值进行处理后得到的矩阵；判断是否传输当前轮的局部特征矩阵；若是，则传输当前轮的局部特征矩阵至主设备，以使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的局部特征矩阵至主设备，以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

本发明的有益效果是：目标设备在计算得到局部特征矩阵之后，并非每轮均传输局部特征矩阵给主设备，而是选择性的将局部特征矩阵传输给主设备，降低了主设备和目标设备间的通信开销，提高了通信效率，继而提高了图像处理神经网络模型的训练效率，最终提高了借助图像处理神经网络模型进行图像处理的效率。本发明提供的一种图像处理装置、系统、电子设备及计算机可读存储介质也即解决了相应技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图像处理方法的第一示意图；

图2为本发明实施例提供的一种图像处理方法的第二示意图；

图3为本发明实施例提供的一种图像处理方法的第三示意图；

图4为图像识别神经网络模型的训练过程示意图；

图5为本发明实施例提供的一种图像处理装置的结构示意图；

图6为主设备和目标设备构成的分布式训练拓扑架构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图；

图8为本发明实施例提供的一种电子设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种图像处理方法的第一示意图。

本发明实施例提供的一种图像处理方法，应用于目标设备，可以包括以下步骤：

步骤S101：对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分。

实际应用中，可以将待训练的图像处理神经网络模型进行拆分后得到多个图像处理子神经网络模型，再将多个图像处理子神经网络模型分发给多个目标设备进行模型的并行训练，以提高模型训练效率，也即当设备对图像处理子神经网络模型进行训练时，便成为本发明中的目标设备，且目标设备可以对图像处理子神经网络模型进行多轮训练，在每轮训练过程中，可以先对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，以进行后续的相应处理。

步骤S102：计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，局部特征矩阵包括对目标函数的梯度值进行处理后得到的矩阵。

实际应用中，目标设备在完成当前轮的训练之后，可以计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，以便后续基于该局部特征矩阵来对图像处理神经网络模型进行参数更新。具体的，局部特征矩阵指的是对目标函数的梯度值进行处理后得到的矩阵，其类型可以根据实际需要来确定，比如可以计算当前轮训练好的图像处理子神经网络模型的目标函数的一阶梯度值；基于牛顿法对一阶梯度值进行处理，得到局部海森矩阵，再将该局部海森矩阵作为局部特征矩阵。

需要说明的是，目标函数可以为损失函数，且其类型可以根据实际需要确定，比如图像处理神经网络模型为图像识别神经网络模型，则目标函数可以为计算图像识别损失值的函数等，本发明在此不做具体限定。

步骤S103：判断是否传输当前轮的局部特征矩阵；若是，则执行步骤S104；若否，则执行步骤S105。

步骤S104：传输当前轮的局部特征矩阵至主设备，以使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

步骤S105：不传输当前轮的局部特征矩阵至主设备，以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

实际应用中，考虑到局部特征矩阵的规模较大，目标设备将局部特征矩阵传输给主设备的话，会导致通信开销增大，为了尽量减少通信开销，目标设备在得到当前轮的局部特征矩阵之后，可以判断是否传输当前轮的局部特征矩阵；若是，则传输当前轮的局部特征矩阵至主设备，这样主设备可以基于当前轮的局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的局部特征矩阵至主设备，这样主设备需基于上一轮的局部特征矩阵生成当前轮的全局参数；最后便可以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

具体应用场景中，目标设备可以基于训练轮次来判断是否传输当前轮的局部特征矩阵，也即可以确定当前轮的轮数；判断当前轮的轮数是否属于目标轮数，目标轮数包括按照迭代间隔确定的轮数；若当前轮的轮数属于目标轮数，则判定不传输当前轮的局部特征矩阵；若当前轮的轮数不属于目标轮数，则判定传输当前轮的局部特征矩阵。比如迭代间隔为5，则第5轮、第10轮、第15轮等的训练轮次便无需传输局部特征矩阵。当然，也可以在目标轮数时传输当前轮的局部特征矩阵，在非目标轮数时，不传输当前轮的局部特征矩阵等，也即可以根据实际需求来灵活调整目标设备传输或不传输局部特征矩阵的条件。

具体应用场景中，考虑到局部特征矩阵的对称性，在传输当前轮的局部特征矩阵至主设备的过程中，为了进一步降低通信开销，对于当前轮的局部特征矩阵中的每个第一特征矩阵算子，可以将第一特征矩阵算子拆分为对称的第一矩阵和第二矩阵；传输第一矩阵或第二矩阵至主设备，以使主设备基于接收的第一矩阵或第二矩阵重构出第一特征矩阵算子，进而重构出当前轮的局部特征矩阵。相应的，主设备需基于接收到的第一矩阵或第二矩阵重构出第一特征矩阵算子，再基于第一特征矩阵算子重构出当前轮的局部特征矩阵。

具体应用场景中，目标设备在将第一特征矩阵算子拆分为对称的第一矩阵和第二矩阵的过程中，可以将第一特征矩阵算子拆分为对称的上三角矩阵和下三角矩阵；将上三角矩阵作为第一矩阵；将下三角矩阵作为第二矩阵。为便于理解，假设目标设备的数量为n，每个目标设备均有m个样本，令表示目标设备/>关于样本/>在第/>轮训练过程中的真实二阶梯度值，则目标设备/>的局部特征矩阵/>为，其中，以此类推，，均为对称矩阵，所以可以仅传输/>矩阵的上三角矩阵或下三角矩阵，主设备再对其进行对称操作，便可以得到完整的局部特征矩阵。

需要说明的是，在分布式训练模式中，主设备主要负责聚合所有目标设备发送来的局部梯度或模型参数等信息，更新全局模型参数并返回至各个目标设备处，目标设备主要基于其局部数据样本完成本地训练，通过客服端接口与主设备进行通信，将其局部梯度或模型参数发送至主设备处，以及从主设备处获取当前的全局模型参数等；主设备和目标设备的类型可以根据应用场景来确定，比如主设备和目标设备可以为独立的服务器、计算芯片等；此外，主设备和目标设备间可以采用同步通信机制或异步通信机制等，本发明在此不做具体限定。

需要说明的是，图像处理神经网络模型及目标图像的类型可以根据应用场景来确定，比如目标图像可以为行人图像，图像处理神经网络模型可以为图像识别神经网络模型，此时的处理结果可以为行人图像中的行人信息等；再比如目标图像可以为有缺陷的图像，如模糊图像，图像处理神经网络模型可以为图像修复神经网络模型，此时的处理结果可以为修复后的图像，比如去模糊后的图像等；本发明在此不做具体限定。

本发明提供的一种图像处理方法，应用于目标设备，对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，局部特征矩阵包括对目标函数的梯度值进行处理后得到的矩阵；判断是否传输当前轮的局部特征矩阵；若是，则传输当前轮的局部特征矩阵至主设备，以使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的局部特征矩阵至主设备，以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。本发明中，目标设备在计算得到局部特征矩阵之后，并非每轮均传输局部特征矩阵给主设备，而是选择性的将局部特征矩阵传输给主设备，降低了主设备和目标设备间的通信开销，提高了通信效率，继而提高了图像处理神经网络模型的训练效率，最终提高了借助图像处理神经网络模型进行图像处理的效率。

请参阅图2，图2为本发明实施例提供的一种图像处理方法的第二示意图。

步骤S201：对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分。

步骤S202：计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，局部特征矩阵包括对目标函数的梯度值进行处理后得到的矩阵。

步骤S203：判断是否传输当前轮的局部特征矩阵；若是，则执行步骤S204；若否，则执行步骤S205。

步骤S204：对当前轮的局部特征矩阵进行压缩，得到压缩局部特征矩阵；传输压缩局部特征矩阵至主设备，以使主设备对压缩局部特征矩阵进行解压缩后得到当前轮的局部特征矩阵，继而使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

实际应用中，为了进一步降低目标设备和主设备间的通信开销，目标设备还可以将局部特征矩阵进行压缩后再进行传输，也即在传输当前轮的局部特征矩阵至主设备的过程中，可以对当前轮的局部特征矩阵进行压缩，得到压缩局部特征矩阵；传输压缩局部特征矩阵至主设备，以使主设备对压缩局部特征矩阵进行解压缩后得到当前轮的局部特征矩阵。

具体应用场景中，目标设备在对当前轮的局部特征矩阵进行压缩，得到压缩局部特征矩阵的过程中，对于当前轮的局部特征矩阵中的每个第一特征矩阵算子，可以生成维度与第一特征矩阵算子的维度一样的随机矩阵，随机矩阵由0和1组成，且随机矩阵中0的数量为第一数量；确定第一特征矩阵算子中元素的总个数值；确定第一特征矩阵算子中所有元素的值的第一和值；基于总个数值、第一数量、随机矩阵对第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子；将压缩第一特征矩阵算子、第一数量、总个数值和第一和值作为压缩局部特征矩阵。相应的，主设备对压缩局部特征矩阵进行解压缩，得到当前轮的局部特征矩阵的过程中，可以基于第一数量、总个数值对压缩第一特征矩阵算子进行解压缩，得到第三特征矩阵算子；基于第一和值对第三特征矩阵算子进行恢复，得到第四特征矩阵算子；基于第四特征矩阵算子重构出当前轮的局部特征矩阵。

具体应用场景中，目标设备在基于总个数值、第一数量、随机矩阵对第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子的过程中，可以通过压缩公式，基于总个数值、第一数量、随机矩阵对第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子；

压缩公式包括：

；

其中，表示第/>个训练样本对应的第一特征矩阵算子，/>表示目标设备的编号，/>表示当前轮的轮数；/>表示总个数值；/>表示第一数量；/>表示对两个矩阵对应位置元素进行相乘且计算优先级高于乘法运算；/>表示随机矩阵；/>表示压缩第一特征矩阵算子。

相应的，主设备在基于第一数量、总个数值对压缩第一特征矩阵算子进行解压缩，得到第三特征矩阵算子的过程中，可以计算第一数量与总个数值的第一比值；将第一比值与压缩第一特征矩阵算子相乘，得到第三特征矩阵算子。在基于第一和值对第三特征矩阵算子进行恢复，得到第四特征矩阵算子的过程中，可以按照第四特征矩阵算子的元素的值的和值等于第一和值的规则，对第三特征矩阵算子中值为0的元素进行恢复，得到第四特征矩阵算子，比如可以计算第三特征矩阵算子中所有元素的值的第二和值；计算第一和值与第二和值间的差值；计算差值与第一数量的第二比值；将第三特征矩阵算子中值为0的元素恢复成第二比值，得到第四特征矩阵算子。

为便于理解，假设第一特征矩阵算子为四维矩阵（3，4，5，6），随机矩阵为（1，0，0，1），也即总个数值为4，第一数量为2，则压缩第一特征矩阵算子为(4/2) * (3，4，5，6)⊙(1，0，0，1) = 2 * (3，0，0，6)=（6，0，0，12），第一特征矩阵算子中所有元素的值的第一和值为18；相应的，在对压缩第一特征矩阵算子进行解压缩的过程中，第一数量与总个数值的第一比值为2/4，将第一比值与压缩第一特征矩阵算子相乘，得到的第三特征矩阵算子为(3，0，0，6)，第三特征矩阵算子中所有元素的值的第二和值为9，第一和值与第二和值间的差值为9，差值与第一数量的第二比值为4.5，将第三特征矩阵算子中值为0的元素恢复成第二比值后得到的第四特征矩阵算子为（3，4.5，4.5，6），由此可知，本发明的压缩方法牺牲了数据传输准确率来换取通信开销，所以在具体应用场景中，可以根据数据传输准确率来决定是否应用本发明压缩方法，比如目标设备可以计算局部特征矩阵与压缩局部特征矩阵间的差异程度，比如可以基于元素变化量与该元素对最终计算结果的影响权重来计算差异程度，若差异程度满足数据传输准确率要求，则可以进行压缩，若差异程度不满足数据传输准确率，则可以不进行压缩等。

需要说明的是，目标设备在传输局部特征矩阵的过程中，可以灵活结合拆分及压缩来对局部特征矩阵进行传输，本发明在此不做具体限定。

步骤S205：不传输当前轮的局部特征矩阵至主节设备，以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

请参阅图3，图3为本发明实施例提供的一种图像处理方法的第三示意图。

本发明实施例提供的一种图像处理方法，应用于主设备，可以包括以下步骤：

步骤S301：判断是否接收目标计算节点传输的当前轮的局部特征矩阵；若是，则执行步骤S302；若否，则执行步骤S303。

步骤S302：接收当前轮的局部特征矩阵，基于当前轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

步骤S303：基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理；其中，当前轮的局部特征矩阵包括目标计算节点计算得到的当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵；图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分。

实际应用中，主设备在基于上一轮的局部特征矩阵生成当前轮的全局参数的过程中，可以获取图像处理神经网络模型在训练过程中的学习率；对于上一轮的局部特征矩阵中的每个第二特征矩阵算子，基于学习率对第二特征矩阵算子进行重构，得到重构特征矩阵算子；基于所有的重构特征矩阵算子生成上一轮的局部特征矩阵在当前轮对应的重构特征矩阵；基于重构特征矩阵生成当前轮的全局参数。

具体应用场景中，主设备在基于学习率对第二特征矩阵算子进行重构，得到重构特征矩阵算子的过程中，可以通过重构公式，基于学习率对第二特征矩阵算子进行重构，得到重构特征矩阵算子；

重构公式包括：

；

其中，表示第/>个训练样本对应的第二特征矩阵算子，/>表示对应的目标计算节点的编号，/>表示当前轮的轮数；/>表示大于0小于1的系数；/>表示学习率；表示重构特征矩阵算子。

需要说明的是，在基于局部特征矩阵生成全局参数的过程中，可以通过牛顿法的第次全局参数/>（参数维度为/>，即/>）的更新公式来得到全局参数，更新公式如下：

；/>

其中，表示对第/>轮的所有局部特征矩阵进行平均后得到的全局特征矩阵，/>；/>表示对第/>轮的所有局部梯度进行平均后得到的全局梯度；/>表示防病态矩阵，也即保证全局特征矩阵可逆的矩阵。

本实施例中相应步骤的描述请参阅上述实施例，在此不再赘述。

需要说明的是，主设备和目标计算节点的类型可以根据应用场景来确定，比如主设备和目标计算节点均可以为独立的服务器、计算芯片等；在一些特征情况下，主设备可以为独立的服务器、计算芯片等，目标计算节点可以为主设备或其他设备中的进程等；此外，主设备和目标计算节点间可以采用同步通信机制或异步通信机制等，本发明在此不做具体限定。

为了便于理解本发明提供的图像处理方法，现假设图像处理神经网络模型为图像识别神经网络模型，其总共有三层，并借助服务器中的三个计算节点，也即三个进程对该图像处理神经网络模型进行训练，且服务器中包括对模型训练进行管理的数据/模型输入模块、算子重构模块和训练结果输出模块，且算子重构模块包括算子重构组件、算子压缩组件，则图像识别神经网络模型的训练过程可以如图4所示，可以包括如下过程：

服务器在所有工作计算节点中选取主节点，并选取三个计算节点，分别为计算节点1，计算节点2和计算节点3；

主节点确定总迭代次数T，迭代间隔阈值Q，学习率η，参数β，初始化全局参数的值0，初始化重构算子的值为0；

主节点将图像识别神经网络模型按层进行拆分，将第1层图像识别子神经网络模型分配至计算节点1，第2层图像识别子神经网络模型分配至计算节点2，第3层图像识别子神经网络模型分配至计算节点3，以使得图像识别神经网络模型的不同层被不同的计算节点或进程并行处理；

主节点将初始化的全局参数广播至三个计算节点；

数据/模型输入模块将用于模型训练的样本数据或图像识别子神经网络模型处理为分布式训练系统要求的格式，包括去噪声、标准化等操作，供后续计算节点直接读取与调用，此外，数据/模型输入模块还可以基于输入的样本数据及模型参数，对图像识别子神经网络模型的目标函数求一阶梯度；其中，样本数据可以为一定数量的图片及该图像的识别结果，比如可以为行人图像及对应的行人识别结果等；

各计算节点接收图像识别子神经网络模型；

若当前迭代次数等于1或者与1的差值等于迭代间隔阈值Q的倍数，则各个计算节点分别执行前向传播与后向传播过程，并计算当前轮训练好的图像处理子神经网络模型的目标函数的局部梯度，再计算局部特征矩阵，借助算子重构组件和算子压缩组件对局部特征矩阵进行拆分、压缩，再借助分布式架构模块约定的主节点与计算节点间的信息同步方式将拆分、压缩后的局部特征矩阵传输给主节点，相应的，主节点进行解压缩及恢复来得到局部特征矩阵，基于全部的局部特征矩阵计算计算当前迭代次数下图像识别神经网络模型的全局参数；

若当前迭代次数不等于1或者与1的差值不等于迭代间隔阈值Q的倍数，则各个计算节点分别执行前向传播与后向传播过程得到训练好的图像识别子神经网络模型，相应的，主节点基于上一迭代次数的局部特征矩阵重构出当前迭代次数的局部特征矩阵，基于全部的局部特征矩阵计算计算当前迭代次数下图像识别神经网络模型的全局参数；

主节点借助训练结果输出模块判断是否结束训练，若否，则将全局参数传回给对应的计算节点，以使计算节点基于接收的全局参数更新图像识别子神经网络模型后开始下一轮的模型训练；若是，则基于当前轮的全局参数确定训练好的图像识别神经网络模型来对目标图像进行识别；在此过程中，主节点可以在连续两轮的全局参数间的差值过小或者迭代次数超过预设次数后，判定结束训练，当然也可以有其他结束训练的判定方式。

请参阅图5，图5为本发明实施例提供的一种图像处理装置的第一结构示意图。

本发明实施例提供的一种图像处理装置，应用于目标设备，可以包括：

训练模块11，用于对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；

计算模块12，用于计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，局部特征矩阵包括对目标函数的梯度值进行处理后得到的矩阵；

第一判断模块13，用于判断是否传输当前轮的局部特征矩阵；若是，则传输当前轮的局部特征矩阵至主设备，以使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数；若否，则不传输当前轮的局部特征矩阵至主设备，以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

本发明实施例提供的一种图像处理装置，应用于目标设备，第一判断模块可以包括：

第一传输单元，用于对于当前轮的局部特征矩阵中的每个第一特征矩阵算子，将第一特征矩阵算子拆分为对称的第一矩阵和第二矩阵；传输第一矩阵或第二矩阵至主设备，以使主设备基于接收的第一矩阵或第二矩阵重构出第一特征矩阵算子，进而重构出当前轮的局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，第一传输单元可以具体用于：将第一特征矩阵算子拆分为对称的上三角矩阵和下三角矩阵；将上三角矩阵作为第一矩阵；将下三角矩阵作为第二矩阵。

第二传输单元，用于对当前轮的局部特征矩阵进行压缩，得到压缩局部特征矩阵；传输压缩局部特征矩阵至主设备，以使主设备对压缩局部特征矩阵进行解压缩后得到当前轮的局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，第二传输单元可以具体用于：对于当前轮的局部特征矩阵中的每个第一特征矩阵算子，生成维度与第一特征矩阵算子的维度一样的随机矩阵，随机矩阵由0和1组成，且随机矩阵中0的数量为第一数量；确定第一特征矩阵算子中元素的总个数值；确定第一特征矩阵算子中所有元素的值的第一和值；基于总个数值、第一数量、随机矩阵对第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子；将压缩第一特征矩阵算子、第一数量、总个数值和第一和值作为压缩局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于目标设备，第二传输单元可以具体用于：通过压缩公式，基于总个数值、第一数量、随机矩阵对第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子；

压缩公式包括：

；

本发明实施例提供的一种图像处理装置，应用于目标设备，计算模块可以包括：

计算单元，用于计算当前轮训练好的图像处理子神经网络模型的目标函数的一阶梯度值；

处理单元，用于基于牛顿法对一阶梯度值进行处理，得到局部特征矩阵。

第一判断单元，用于确定当前轮的轮数；判断当前轮的轮数是否属于目标轮数，目标轮数包括按照迭代间隔确定的轮数；若当前轮的轮数属于目标轮数，则判定不传输当前轮的局部特征矩阵；若当前轮的轮数不属于目标轮数，则判定传输当前轮的局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于主设备，可以包括：

第二判断模块，用于判断是否接收目标计算节点传输的当前轮的局部特征矩阵；若是，则接收当前轮的局部特征矩阵，基于当前轮的局部特征矩阵生成当前轮的全局参数；若否，则基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理；

其中，当前轮的局部特征矩阵包括目标计算节点计算得到的当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵；图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分。

本发明实施例提供的一种图像处理装置，应用于主设备，第二判断模块可以包括：

第一获取单元，用于获取图像处理神经网络模型在训练过程中的学习率；

第一重构单元，用于对于上一轮的局部特征矩阵中的每个第二特征矩阵算子，基于学习率对第二特征矩阵算子进行重构，得到重构特征矩阵算子；

第一生成单元，用于基于所有的重构特征矩阵算子生成上一轮的局部特征矩阵在当前轮对应的重构特征矩阵；

第二生成单元，用于基于重构特征矩阵生成当前轮的全局参数。

本发明实施例提供的一种图像处理装置，应用于主设备，第一重构单元可以具体用于：

通过重构公式，基于学习率对第二特征矩阵算子进行重构，得到重构特征矩阵算子；

重构公式包括：

；

第一接收单元，用于接收第一矩阵或第二矩阵，第一矩阵或第二矩阵包括目标计算节点对当前轮的局部特征矩阵中的每个第一特征矩阵算子进行拆分后得到的对称矩阵；

第一恢复单元，用于基于接收到的第一矩阵或第二矩阵重构出第一特征矩阵算子；

第二恢复单元，用于基于第一特征矩阵算子重构出当前轮的局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于主设备，第一矩阵包括对第一特征矩阵算子进行拆分后得到的上三角矩阵，第二矩阵包括对第一特征矩阵算子进行拆分后得到的下三角矩阵。

第二接收单元，用于接收目标计算节点对当前轮的局部特征矩阵进行压缩后得到的压缩局部特征矩阵；

第一解压缩单元，用于对压缩局部特征矩阵进行解压缩，得到当前轮的局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于主设备，压缩局部特征矩阵包括压缩第一特征矩阵算子、第一数量、总个数值和第一和值，压缩第一特征矩阵算子包括目标计算节点基于总个数值、随机矩阵对当前轮的局部特征矩阵中的第一特征矩阵算子进行压缩后得到的算子；随机矩阵由0和1组成，且随机矩阵的维度与第一特征矩阵算子的维度一样，第一数量为随机矩阵中0的数量值；总个数值包括第一特征矩阵算子中元素的个数值；第一和值包括第一特征矩阵算子中所有元素的值的和值；

第一解压缩单元具体用于：基于第一数量、总个数值对压缩第一特征矩阵算子进行解压缩，得到第三特征矩阵算子；基于第一和值对第三特征矩阵算子进行恢复，得到第四特征矩阵算子；基于第四特征矩阵算子重构出当前轮的局部特征矩阵。

本发明实施例提供的一种图像处理装置，应用于主设备，第一解压缩单元具体用于：计算第一数量与总个数值的第一比值；将第一比值与压缩第一特征矩阵算子相乘，得到第三特征矩阵算子。

本发明实施例提供的一种图像处理装置，应用于主设备，第一解压缩单元具体用于：按照第四特征矩阵算子的元素的值的和值等于第一和值的规则，对第三特征矩阵算子中值为0的元素进行恢复，得到第四特征矩阵算子。

本发明实施例提供的一种图像处理装置，应用于主设备，第一解压缩单元具体用于：计算第三特征矩阵算子中所有元素的值的第二和值；计算第一和值与第二和值间的差值；计算差值与第一数量的第二比值；将第三特征矩阵算子中值为0的元素恢复成第二比值，得到第四特征矩阵算子。

本发明还提供了一种图像处理系统，包括主设备和目标数量的目标设备；

目标设备用于：对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练，图像处理子神经网络模型包括对图像处理神经网络模型进行拆分后得到的模型部分；计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵，局部特征矩阵包括对目标函数的梯度值进行处理后得到的矩阵；判断是否传输当前轮的局部特征矩阵；若是，则传输当前轮的局部特征矩阵至主设备；若否，则不传输当前轮的局部特征矩阵至主设备；

主设备用于：若接收到当前轮的局部特征矩阵，则基于当前轮的局部特征矩阵生成当前轮的全局参数；若未接收到当前轮的局部特征矩阵，则基于上一轮的局部特征矩阵生成当前轮的全局参数；以基于当前轮的全局参数得到训练好的图像处理神经网络模型来对目标图像进行处理。

本实施例中的相应描述请参阅上述实施例，在此不再赘述。

需要说明的是，目标设备的目标数量可以根据应用场景来确定，且主设备和目标数量的目标设备一同构成了图像处理神经网络模型的分布式训练系统架构，在此情况下，主设备和目标设备间的连接方式、通信方式可以根据具体的分布式训练拓扑架构来确定。

如图6所示，当分布式训练拓扑架构为中心化架构时，各个目标设备可以直接与作为中心主节点的主设备进交互。由于中心化架构具有一个中心主节点来协调各个工作节点，中心化架构的代表是参数服务器(parameter server, PS)架构，在PS架构中存在两种角色：worker（工作者）和server（服务器），前者通常由计算节点构成，而后者一般是一个或一组服务器节点构成，所以目标设备可以作为worker，主要负责如下操作：(1)基于其局部数据样本完成局部训练任务；(2)通过客户端接口与server进行通信，即从server处获取最新的全局模型参数并将其自身的局部参数发送到server处；主设备可以作为server，主要完成如下操作：(1)对各个worker发送来的局部梯度进行聚合；(2)通过ADD（相加）或SUM（求和）操作更新全局模型参数并返回至各个worker处。

由于中心化架构的瓶颈主要表现在中心server的通信拥塞问题，特别是随着worker数量逐渐增加的情况下，该问题尤为凸显。为了缓解中心化架构server节点的通信拥塞问题，如图6所示，提出了不包含中心server节点的去中心化架构，此时，主设备可以为多个目标设备中的某个目标设备，与中心化架构相比，去中心化架构中的worker之间通过某些巧妙的通信设计进行信息交互，如All-Reduce（全局规约）架构(图6中间所示架构)以及Gossip（流言协议）架构(图6右边所示架构)。在All-reduce架构中，每个worker需要与所有worker进行通信，并以广播的方式将其本地信息传递给其他所有worker，因此，每个worker以该方式获取了所有worker的信息，进而实现了全局信息同步。值得注意的是，与All-Reduce相比，在Grossip架构中，每个worker只与它的邻居worker通信而非所有的worker。

还需说明的是，分布式训练系统架构中主设备、目标设备间的通信同步方式可以包括同步通信和异步通信，也称之为同步算法和异步算法。同步算法的思想是：当分布式训练系统中的一个计算节点完成当前轮次迭代时，必须等待其他计算节点完成其当前轮次迭代任务，然后才能共同处理下一轮次训练迭代任务，典型的同步算法，如整体同步并行(bulk synchronous parallel, BSP)算法等，具体而言，在BSP算法中，当某个计算节点完成当前迭代任务后，需要通过不同通信拓扑逻辑与其他计算节点同步模型参数或梯度等信息，然后，所有计算节点以相同的“起跑线”进入下一轮次迭代过程，为了保证迭代以相同的“起跑线”进行，BSP算法引入了一个全局同步障碍(synchronization barrier)，其工作原理是要求那些处理能力较强且迭代速度快的计算节点都被强制在同步障碍处停止，等待其他处理能力较弱且迭代速度慢的计算节点完成其当前轮次迭代任务后，训练系统才会执行下一轮次迭代任务。而异步通信或异步算法主要思想是当系统中的某个计算节点完成其当前轮次迭代后，其可以继续执行下一轮次迭代而无需等待其他计算节点。

本发明还提供了一种电子设备及计算机可读存储介质，其均具有本发明实施例提供的一种图像处理方法具有的对应效果。请参阅图7，图7为本发明实施例提供的一种电子设备的结构示意图。

本发明实施例提供的一种电子设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如上任一实施例所描述图像处理方法的步骤。

请参阅图8，本发明实施例提供的另一种电子设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现电子设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术（Mobile High-Definition Link，MHL）、通用串行总线（Universal Serial Bus，USB）、高清多媒体接口（High－DefinitionMultimedia Interface，HDMI）、无线连接：无线保真技术（WIreless Fidelity，WiFi）、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本发明实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一实施例所描述图像处理方法的步骤。

本发明所涉及的计算机可读存储介质包括随机存储器（Random Access Memory，RAM）、内存、只读存储器（Read-Only Memory，ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM（Compact Disc Read-Only Memory，只读光盘）、或技术领域内所公知的任意其它形式的存储介质。

本发明实施例提供的图像处理装置、电子设备及计算机可读存储介质在中相关部分的说明请参见本发明实施例提供的图像处理方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

需要说明的是，本发明中图像处理神经网络模型可以为进行图像识别或进行图像分类或进行图像修复等的神经网络模型，此外，本发明只是以图像处理来讲述其工作原理，本发明的工作原理可以广泛应用于任务密集型和计算密集型的应用场景，如人工智能模型训练、数据中心、智能网络系统、分布式计算系统，无线传感器网络等；此外，可以涉及人工智能、数据中心、云计算、网络流量调度等众多领域，相关研究人员可以借用本发明的算法来解决领域内的同类问题等，本发明在此不做具体限定。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像处理方法，其特征在于，应用于目标设备，包括：

判断是否传输当前轮的所述局部特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述传输当前轮的所述局部特征矩阵至主设备，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一特征矩阵算子拆分为对称的第一矩阵和第二矩阵，包括：

将所述上三角矩阵作为所述第一矩阵；

将所述下三角矩阵作为所述第二矩阵。

4.根据权利要求1所述的方法，其特征在于，所述传输当前轮的所述局部特征矩阵至主设备，包括：

5.根据权利要求4所述的方法，其特征在于，所述对当前轮的所述局部特征矩阵进行压缩，得到压缩局部特征矩阵，包括：

确定所述第一特征矩阵算子中元素的总个数值；

确定所述第一特征矩阵算子中所有元素的值的第一和值；

6.根据权利要求5所述的方法，其特征在于，所述基于所述总个数值、所述第一数量、所述随机矩阵对所述第一特征矩阵算子进行压缩，得到压缩第一特征矩阵算子，包括：

所述压缩公式包括：

；

其中，表示第/>个训练样本对应的所述第一特征矩阵算子，/>表示所述目标设备的编号，/>表示当前轮的轮数；/>表示所述总个数值；/>表示所述第一数量；/>表示对两个矩阵对应位置元素进行相乘且计算优先级高于乘法运算；/>表示所述随机矩阵；表示所述压缩第一特征矩阵算子。

7.根据权利要求1所述的方法，其特征在于，所述计算当前轮训练好的所述图像处理子神经网络模型的目标函数的局部特征矩阵，包括：

将所述局部海森矩阵作为所述局部特征矩阵。

8.根据权利要求1所述的方法，其特征在于，所述判断是否传输当前轮的所述局部特征矩阵，包括：

确定当前轮的轮数；

9.一种图像处理方法，其特征在于，应用于主设备，包括：

判断是否接收目标计算节点传输的当前轮的局部特征矩阵；

其中，当前轮的所述局部特征矩阵包括所述目标计算节点计算得到的当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵；所述图像处理子神经网络模型包括对所述图像处理神经网络模型进行拆分后得到的模型部分；且所述目标计算节点判断是否传输当前轮的所述局部特征矩阵，若是，则传输当前轮的所述局部特征矩阵至所述主设备，若否，则不传输当前轮的所述局部特征矩阵至所述主设备。

10.根据权利要求9所述的方法，其特征在于，所述基于上一轮的所述局部特征矩阵生成当前轮的所述全局参数，包括：

获取所述图像处理神经网络模型在训练过程中的学习率；

基于所述重构特征矩阵生成当前轮的所述全局参数。

11.根据权利要求10所述的方法，其特征在于，所述基于所述学习率对所述第二特征矩阵算子进行重构，得到重构特征矩阵算子，包括：

所述重构公式包括：

；

12.根据权利要求9所述的方法，其特征在于，所述接收当前轮的所述局部特征矩阵，包括：

13.根据权利要求12所述的方法，其特征在于，所述第一矩阵包括对所述第一特征矩阵算子进行拆分后得到的上三角矩阵，所述第二矩阵包括对所述第一特征矩阵算子进行拆分后得到的下三角矩阵。

14.根据权利要求9所述的方法，其特征在于，所述接收当前轮的所述局部特征矩阵，包括：

15.根据权利要求14所述的方法，其特征在于，所述压缩局部特征矩阵包括压缩第一特征矩阵算子、第一数量、总个数值和第一和值，所述压缩第一特征矩阵算子包括所述目标计算节点基于所述总个数值、随机矩阵对当前轮的所述局部特征矩阵中的第一特征矩阵算子进行压缩后得到的算子；所述随机矩阵由0和1组成，且所述随机矩阵的维度与所述第一特征矩阵算子的维度一样，所述第一数量为所述随机矩阵中0的数量值；所述总个数值包括所述第一特征矩阵算子中元素的个数值；所述第一和值包括所述第一特征矩阵算子中所有元素的值的和值；

16.根据权利要求15所述的方法，其特征在于，所述基于所述第一数量、所述总个数值对所述压缩第一特征矩阵算子进行解压缩，得到第三特征矩阵算子，包括：

计算所述第一数量与所述总个数值的第一比值；

17.根据权利要求16所述的方法，其特征在于，所述基于所述第一和值对所述第三特征矩阵算子进行恢复，得到第四特征矩阵算子，包括：

18.根据权利要求17所述的方法，其特征在于，所述按照所述第四特征矩阵算子的元素的值的和值等于所述第一和值的规则，对所述第三特征矩阵算子中值为0的元素进行恢复，得到所述第四特征矩阵算子，包括：

计算所述第三特征矩阵算子中所有元素的值的第二和值；

计算所述第一和值与所述第二和值间的差值；

计算所述差值与所述第一数量的第二比值；

19.一种图像处理装置，其特征在于，应用于目标设备，包括：

20.一种图像处理装置，其特征在于，应用于主设备，包括：

21.一种图像处理系统，其特征在于，包括主设备和目标数量的目标设备；

22.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至18任一项所述图像处理方法的步骤。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述图像处理方法的步骤。