CN117351327A

CN117351327A - 图像识别的方法、分布式系统、设备及存储介质

Info

Publication number: CN117351327A
Application number: CN202310973608.1A
Authority: CN
Inventors: 杨婷婷; 孙鑫; 韩成卓; 宁嘉鸿; 崔正琦
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2024-01-05

Abstract

本申请提供了一种图像识别的方法、分布式系统、设备及存储介质，涉及但不限于图像识别技术领域，本申请应用于由参数服务器及多个客户端系统组成的分布式系统，客户端系统包括至少一个部署有图像模型的第三子模型的边缘服务器及部署有图像模型的第一子模型和第二子模型的客户端；客户端获取第三子模型的第一梯度数据以计算N个训练样本的第二梯度数据；客户端将N个第二梯度数据进行梯度裁剪及噪声叠加得到平均梯度数据以使边缘服务器更新模型参数并重新迭代训练直至达到第一收敛条件；通过参数服务器对模型参数更新以使客户端系统重新训练得到用于图像识别的图像模型；本申请实施例能更加高效以及安全的提供一种图像模型用于图像识别。

Description

图像识别的方法、分布式系统、设备及存储介质

技术领域

本申请实施例涉及但不限于图像识别技术领域，特别涉及一种图像识别的方法、分布式系统、设备及存储介质。

背景技术

图像识别检测应用中通常采用分布式系统进行模型训练后进行图像的识别，从而可以充分利用网络中的计算资源，实现对大规模数据的高效处理和模型优化，并且提高图像识别和检测的准确性和效率，具体的，以联邦网络的分布式网络架构为例，联邦网络通过参数服务器与多个客户端通信连接，参数服务器将多个客户端训练收敛得到的模型参数更新后重新下发并触发客户端重新训练直至满足预设的收敛条件，从而可以得到图像识别率和检测率更高的图像模型，但是，相关技术中，由于客户端的性能受限，从而导致模型训练的效率以及准确率无法兼容，虽然相关技术中也有为客户端增加边缘服务器的方式，但是这种场景下，边缘服务器与客户端之间的交互容易造成安全隐私泄露。因此，亟需一种方式能够更加高效以及安全的提供一种图像模型用于图像识别。

发明内容

本申请实施例提供一种图像识别的方法、分布式系统、设备及存储介质，旨在更加高效以及安全的提供一种图像模型用于图像识别。

第一方面，本申请实施例提供一种图像识别的方法，应用于分布式系统，所述分布式系统设置有参数服务器以及与所述参数服务器通信连接的多个客户端系统，至少一个所述客户端系统包括至少一个边缘服务器以及与所述边缘服务器通信连接的至少一个客户端；所述方法包括：

在每个所述客户端部署预设的图像模型的第一子模型和第二子模型，在所述边缘服务器部署所述图像模型的第三子模型，其中，所述第一子模型的输出连接所述第三子模型，所述第三子模型的输出连接所述第二子模型；所述第二子模型的输出为所述图像模型的输出；

所述客户端获取当前次迭代中所述第三子模型的第一梯度数据，并根据所述第一梯度数据计算得到当前次迭代中N个训练样本一一对应的第二梯度数据；

所述客户端将N个所述第二梯度数据进行梯度裁剪以及噪声叠加处理，得到平均梯度数据；

所述客户端将所述平均梯度数据发送到所述边缘服务器以更新所述边缘服务器的模型参数并进行下一次迭代训练，直至所述图像模型满足预设的第一收敛条件；

在所述图像模型满足第一收敛条件时通过所述边缘服务器将模型参数发送至所述参数服务器以更新全局模型参数；

所述客户端和所述边缘服务器根据更新后的所述全局模型参数重新训练直至满足第二收敛条件，得到训练好的图像模型；

通过训练好的所述图像模型进行图像识别，输出识别数据。

第二方面，本申请实施例提供一种分布式系统，包括：

多个客户端系统，至少其中一个客户端系统包括至少一个边缘服务器以及与所述边缘服务器通信连接的至少一个客户端；所述客户端部署预设的图像模型的第一子模型和第二子模型；所述边缘服务器部署所述图像模型的第三子模型，其中，所述第一子模型的输出连接所述第三子模型，所述第三子模型的输出连接所述第二子模型；所述第二子模型的输出为所述图像模型的输出；

所述客户端用于：

获取当前次迭代中所述第三子模型的第一梯度数据，并根据所述第一梯度数据计算得到当前次迭代中N个训练样本一一对应的第二梯度数据；

将N个所述第二梯度数据进行梯度裁剪以及噪声叠加处理，得到平均梯度数据；

所述客户端将所述平均梯度数据发送到所述边缘服务器；

所述边缘服务器用于：

根据所述平均梯度数据更新模型参数并进行下一次迭代训练，直至所述图像模型满足预设的第一收敛条件；

在所述图像模型满足第一收敛条件时通过所述边缘服务器将模型参数发送至所述参数服务器；

所述参数服务器更新全局模型参数并使得所述客户端和所述边缘服务器根据更新后的所述全局模型参数重新训练直至满足第二收敛条件，得到训练好的图像模型；

所述客户端还用于通过训练好的所述图像模型进行图像识别，输出识别数据。

第三方面，本申请实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面任一所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面任一所述的方法。

根据本申请的上述实施例，至少具有如下有益效果：通过将图像模型进行拆分，使得计算量较大的网络层部署于边缘服务器，从而提升模型的训练效率，同时，基于平均梯度数据通过客户端对边缘服务器的模型参数进行更新，从而使得客户端与边缘服务器之间的交互仅为中间数据，进而提升客户端与边缘服务器之间的数据交互的隐私性，且平均梯度数据是基于噪声叠加处理后，使得依据梯度还原图像数据的概率更低，从而进一步提升图像训练过程中原始图像数据的安全性。且通过边缘服务器与参数服务器之间的模型参数的交互可以实现由客户端系统和参数服务器组成的分布式系统中对全局的图像模型的更新，能兼顾图像模型训练的效率和准确率。因此，和相关技术相比，本申请实施例能提供一种图像识别的方法、分布式系统、设备及存储介质，能更加高效以及安全的提供一种图像模型用于图像识别。

附图说明

图1为本申请一实施例提供的分布式系统的架构示意图；

图2为本申请一实施例提供的图像识别的方法的流程示意图；

图3为本申请一实施例提供的图像模型的拆分示意图；

图4为本申请一实施例提供的图像识别的方法的训练过程示意图；

图5为本申请一实施例提供的图像识别方法与现有技术的图像识别的仿真结果；

图6为本申请一实施例提供的图像识别方法在10个客户端及不同边缘服务器下的仿真结果；

图7为本申请一实施例提供的图像识别方法在两个边缘服务器及不同客户端下的仿真结果；

图8为本申请一实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面是对本申请中涉及的术语的解释：

联邦学习(FL，Federated Learning)是一种多个参与方在不交互数据的情况下，通过安全机制交互模型参数，从而达到协同训练效果的分布式机器学习方法。联邦学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，可使用的机器学习算法包括逻辑回归、神经网络、随机森林等，有望成为下一代人工智能协同算法和协作网络的基础。

拆分学习(SL，Split Learning)是一种分布式模型训练方案，核心思想是将网络的结构进行拆分，每个设备只保留一部分的网络，所有设备的子网络结构构成一个完整的网络模型，在训练的过程中，不同的设备只对本地的网络结构进行前向或者反向计算，并将计算结果传递给下一个设备。

拆分联邦(Split Fed)是一种分布式算法，它结合了FL计算权重均值，以及SL中模型拆分的特点。第一阶段，每个客户端开始向前传播，计算结果按顺序被发送到服务器进行处理。第二阶段，在服务器内计算向后传播将结果传到每个客户端。同时联邦服务器会计算客户机权重的平均值，然后将其发送回每个客户端来更新权重。

并行拆分学习(PSL)，将深度神经网络分为两部分。第一部分发送到不同的客户端，第二部分发送到单个服务器。所有客户机和单个服务器在训练过程中交换中间数据和梯度，来完成图像识别任务。

需说明的是，图像识别检测应用中通常采用分布式系统进行模型训练后进行图像的识别，从而可以充分利用网络中的计算资源，实现对大规模数据的高效处理和模型优化，并且提高图像识别和检测的准确性和效率，具体的，以联邦网络的分布式网络架构为例，联邦网络通过参数服务器与多个客户端通信连接，参数服务器将多个客户端训练收敛得到的模型参数更新后重新下发并触发客户端重新训练直至满足预设的收敛条件，从而可以得到图像识别率和检测率更高的图像模型。同时，为进一步提升训练的效率，基于联邦学习的基础上提出了拆分联邦以及并行拆分学习，Split Fed虽然结合了FL计算权重均值以及SL模型拆分的特点，但其最显著的缺点是当客户机数量增长时，服务器中的向前和向后传播过程是不可伸缩的，识别准确率以及效率都会收到影响。同时，如果拦截客户端向服务器发送的中间数据，就可以复现整个学习模型，造成安全隐私泄露的问题。并行拆分学习方法同样也存在上述隐私泄露问题。同时，相关技术中，由于客户端的性能受限，从而导致模型训练的效率以及准确率无法兼容，虽然相关技术中也有为客户端增加边缘服务器的方式提升效率，但是这种场景下，边缘服务器与客户端之间的交互容易造成安全隐私泄露。因此，亟需一种方式能够兼顾对图像模型训练的效率、准确率以及图像数据的安全性。基于此，本申请提出一种图像识别的方法、分布式系统、设备及存储介质，能更加高效以及安全的提供一种图像模型用于图像识别。

参照图1所示的分布式系统，包括由参数服务器300与多个客户端系统400组成的联邦学习网络系统，至少一个客户端系统400包括至少一个边缘服务器100以及与边缘服务器100通信连接的至少一个客户端200；客户端200部署预设的图像模型的第一子模型和第二子模型；边缘服务器100部署图像模型的第三子模型，其中，第一子模型的输出连接第三子模型，第三子模型的输出连接第二子模型；第二子模型的输出为图像模型的输出；

客户端200用于：

获取当前次迭代中第三子模型的第一梯度数据，并根据第一梯度数据计算得到当前次迭代中N个训练样本一一对应的第二梯度数据；

将N个第二梯度数据进行梯度裁剪以及噪声叠加处理，得到平均梯度数据；

客户端200将平均梯度数据发送到边缘服务器100；

边缘服务器100用于：

根据平均梯度数据更新模型参数并进行下一次迭代训练，直至图像模型满足预设的第一收敛条件；

在图像模型满足第一收敛条件时通过边缘服务器100将模型参数发送至参数服务器300；

参数服务器300更新全局模型参数并使得客户端200和边缘服务器100根据更新后的全局模型参数重新训练直至满足第二收敛条件，得到训练好的图像模型；

客户端200还用于通过训练好的图像模型进行图像识别，输出识别数据。

因此，通过将图像模型进行拆分，使得计算量较大的网络层部署于边缘服务器100，从而提升模型的训练效率，同时，基于平均梯度数据通过客户端200对边缘服务器100的模型参数进行更新，从而使得客户端200与边缘服务器100之间的交互仅为中间数据，进而提升客户端200与边缘服务器100之间的数据交互的隐私性，且平均梯度数据是基于噪声叠加处理后，使得依据梯度还原图像数据的概率更低，从而进一步提升图像训练过程中原始图像数据的安全性。且通过边缘服务器100与参数服务器300之间的模型参数的交互可以实现由客户端系统400和参数服务器300组成的分布式系统中对全局的图像模型的更新，能兼顾图像模型训练的效率和准确率。因此，和相关技术相比，本申请实施例能更加高效以及安全的提供一种图像模型用于图像识别。

需说明的是，通过设置第一子模型、第二子模型以及第三子模型使得客户端200和对应的边缘服务器100之间形成U型的网络架构，对于客户端系统400而言，客户端200与对应的边缘服务器100之间无需传输训练数据集，仅需传递中间数据(如第一子模型对待识别图像处理后的数据以及平均梯度数据)，使得客户端200和边缘服务器100之间的传输所造成的网络通信开销很小，同时提供了更强的隐私保护性。

需说明的是，参数服务器300聚合所有客户端系统400的模型参数，以更新图像模型的全局参数，进而提高整体的准确率。

需说明的是，第一收敛条件为客户端200和边缘服务器100针对参数服务器300发送的全局模型参数停止局部迭代训练的条件，第二收敛条件是全局模型参数停止更新的条件，此时各个客户端系统400的准确率以及效率均满足预设的要求。

需说明的是，对于一个客户端系统400，多个客户端200可以共用一个边缘服务器100或者多个边缘服务器100。如图1所示，客户端K1～KN共用一个边缘服务器K；也如图1所示，客户端B一一对应有一个边缘服务器100。优选的，本申请中，5个客户端200共用2个边缘服务器100进行图像模型的局部训练。

需说明的是，第一子模型、第二子模型、第三子模型是依据现有的网络架构中设备的性能以及图像模型的特点实时拆分得到的。

可理解的是，参照图2所示，本申请还提供一种图像识别的方法，应用于分布式系统，分布式系统设置有参数服务器300以及与参数服务器300通信连接的多个客户端系统400，至少一个客户端系统400包括至少一个边缘服务器100以及与边缘服务器100通信连接的至少一个客户端200；方法包括：

步骤S100、在每个客户端200部署预设的图像模型的第一子模型和第二子模型，在边缘服务器100部署图像模型的第三子模型，其中，第一子模型的输出连接第三子模型，第三子模型的输出连接第二子模型；第二子模型的输出为图像模型的输出；

步骤S200、客户端200获取当前次迭代中第三子模型的第一梯度数据，并根据第一梯度数据计算得到当前次迭代中N个训练样本一一对应的第二梯度数据；

步骤S300、客户端200将N个第二梯度数据进行梯度裁剪以及噪声叠加处理，得到平均梯度数据；

步骤S400、客户端200将平均梯度数据发送到边缘服务器100以更新边缘服务器100的模型参数并进行下一次迭代训练，直至图像模型满足预设的第一收敛条件；

步骤S500、在图像模型满足第一收敛条件时通过边缘服务器100将模型参数发送至参数服务器300以更新全局模型参数；

步骤S600、客户端200和边缘服务器100根据更新后的全局模型参数重新训练直至满足第二收敛条件，得到训练好的图像模型；

步骤S700、通过训练好的图像模型进行图像识别，输出识别数据。

因此，通过将图像模型进行拆分，使得计算量较大的网络层部署于边缘服务器100，从而提升模型的训练效率，同时，通过客户端200对边缘服务器100的模型参数的更新是基于梯度数据处理的，从而能提升客户端200与边缘服务器100之间的数据交互的隐私性，且模型参数是基于噪声叠加处理后的平均梯度数据，使得依据梯度还原图像数据的概率更低，从而进一步提升图像训练过程中，图像数据的安全性。且通过边缘服务器100与参数服务器300之间的模型参数的交互可以实现由客户端系统400和参数服务器300组成的分布式系统中对全局的图像模型的更新。因此，和相关技术相比，本申请实施例能提供一种图像识别的方法能更加高效以及安全的提供一种图像模型用于图像识别。

需说明的是，如图1所示，通过第一子模型、第二子模型以及第三子模型形成U型的模型训练网络架构，从客户端200开始通过该U型的模型训练网络架构向前传播直至在客户端200生成预测标签后计算出损失函数的值后开始反向向后传播梯度到边缘服务器100并最终回到客户端200以依次更新各层的模型参数。通过在客户端200确定边缘服务器100中的第三子模型的输出误差得到第一梯度数据，从而可以得到N个训练样本一一对应的第二梯度数据并反向传播到边缘服务器100。示例性的，假设在t时间后，客户端K收到的梯度值为dA_k,t，则可以得到每个训练样本x_i的客户端200梯度值为则每个训练样本x_i对应的第二梯度数据g_k,t(x_i)满足/>

需说明的是，梯度的裁剪可以通过如下两种方式：

(1)确定一个梯度范数作为阈值，如果参数的梯度的范数超过了阈值，则进行裁剪；

(2)采用固定阈值进行裁剪。

优选的，本申请中梯度的裁剪采用第一种方式，基于梯度的范数进行裁剪。

需说明的是，平均梯度数据可以对图像模型的对应的网络层进行权重更新，从而实现模型参数的更新。

需说明的是，在一些实施例中，第一收敛条件设置为ε<c₁b²T并且δ>0时，满足时，由第一子模型、第二子模型以及第三子模型组成的差分网络能达到(ε,δ)-DP水平。其中，δ用于表示相邻输入对应的输出分布之间的差异；ε为差分隐私预算；b＝n_k/batch_size；其中，n_k为训练样本的数量，batch_size为每一轮迭代的样本集的样本数量N；c₁和c₂为差分隐私函数中设定的阈值。

可理解的是，将N个第二梯度数据进行梯度裁剪以及噪声叠加处理，得到平均梯度数据，包括：

获取梯度范数界，并根据梯度范数界对N个第二梯度数据分别进行梯度裁剪，得到一一对应的第三梯度数据；

获取标定噪声；

分别计算N个第三梯度数据与标定噪声的之和，得到第四梯度数据；

根据N个第四梯度数据的平均值，得到平均梯度数据。

需说明的是，假设噪声尺度用σ来表示，梯度范数界用C′表示；则可以对每个梯度采用l₂范数参照如下公式(1)进行裁剪，公式(1)具体如下所示：

其中，g_k,t(x_i)表示客户端K上训练样本x_i的第二梯度数据。

需说明的是，假设标定噪声为N(0,σ²C′²I)，则第四梯度数据为因此，平均梯度数据/>满足如下公式：

其中，n_k为客户端K上的样本数量N。

因此，基于平均梯度数据可以得到更新的模型参数满足其中，W_k,t为客户端K当前次迭代的模型参数，W_k,t+1为下一轮迭代的模型参数，η_t为预先设置的常量。

需说明的是，假设σ为时，我们可以将公式(2)中的噪声相加来求得b的(ε,δ)-DP，其中b＝n_k/batch_size。也就是说，当完成所有b阶段操作时，将实现(bε,bδ)-DP。当ε<c₁b^kT并且δ>0时，满足/>差分隐私将达到(ε,δ)-DP水平；其中，b＝n_k/batch_size；n_k为训练样本的数量，batch_size为每一轮迭代的样本集的样本数量N；T表示当前迭代训练的轮次；c₁和c₂为差分隐私函数中设定的阈值。

可理解的是，根据梯度范数界对N个第二梯度数据分别进行梯度裁剪，得到一一对应的第三梯度数据，包括：

分别计算N个第二梯度数据的范数与梯度范数界的比值；

在比值大于或等于1时，将第二梯度数据与比值相除，得到一一对应的第三梯度数据；

在比值小于或等于1时，将第二梯度数据作为一一对应的第三梯度数据。

需说明的是，第三梯度数据可以通过上述公式(1)确定。当||g_k,t(x_i)||₂>C′时，确保||g_k,t(x_i)||₂是守恒的；否则，将会按比例缩小到C′；从而做到在差分隐私方法里减少每个个体实例对g_k,t的限制。

可理解的是，在边缘服务器100部署图像模型的第三子模型之后，方法还包括：

获取校准噪声；

将校准噪声叠加到第一子模型输出的中间数据上，以通过第二子模型对叠加校准噪声的中间数据进行训练。

需说明的是，为保证模型架构安全，尽管我们前部分在客户端200模型加入了差分隐私，但仍存在着拆分数据泄露的可能。所以，为了避免原始数据泄露，进一步增强保密性和模型对抗性，本申请基于PixelDP，在第一子模型的输出处加入了噪声层，充分利用差分隐私中的噪声应用机制，在客户端200模型的单层的输出(如激活向量)中加入一个校准噪声，从而可以提升客户端200与边缘服务器100之间交互的安全性。

可理解的是，获取校准噪声，包括：

获取预设的输入距离度量和输出距离度量；

将输出距离度量作为第一子模型的各训练样本的输出变化差异值的范数下标，计算得到第一范数；

将输入距离度量作为第一子模型的各训练样本的输入变化差异值的范数下标，计算得到第二范数；

根据第一范数和第二范数进行拉普拉斯计算，得到校准噪声。

示例性的，假设A为表示输入变化所能产生的最大输出变化的函数，则给定p-norm和q-norm分别作为输入距离度量和输出距离度量，则有：

其中，A_k,i表示训练样本x_i的梯度值，minA_k,j表示客户端K中进行训练的N个样本中最小的样本对应的梯度值；x_k表示minA_k,j对应的训练样本，A_k,i-minA_k,j对应训练样本x_i的输出变化差异值；x_i-x_k对应训练样本x_i的输入变化差异值。通过求取输出变化差异值和对应的输入变化差异值最大的作为第一子模型的最大输出变化ΔI_p,q；ε为差分隐私预算。

此时，对于第三梯度数据而言，其可以参照如下公式进行更新：

同样，以中间数据为平均梯度数据为例，则对于任意一个中间数据，其可以叠加后发送至边缘服务器100。

可理解的是，第一子模型、第二子模型和第三子模型通过如下步骤确定：

获取图像模型的网络层数据；

根据网络层数据进行三层模型组合拆分，得到多个网络层组合集，每个网络层组合集对应图像模型的一种三层模型的组合方式；

对每一网络层组合集进行预设次数的迭代训练，得到性能参数；

根据性能参数，从多个网络层组合集中确定出目标网络层组合集；

根据目标网络层组合集，得到第一子模型、第二子模型和第三子模型。

需说明的是，性能参数包括准确率以及执行时间等等性能相关的指标。可以选择性能参数中所有指标均最优的，也可以根据权重，选择性能参数中权重最大的几个指标中最优的，对此，本申请实施例不做过多的赘述。

示例性的，首先确定参数服务器300、边缘服务器100、客户端200分别放在云、边、端三层的分布式组织架构，将高占用的计算资源放置在边缘服务器100进行处理，减轻云端以及客户端200压力。其次，根据模型的特点选择出最适合该图像模型的拆分方式，也就是最佳拆分点。具体的，以图像模型为ResNet模型为例，如图3所示，ResNet模型共有8层结构，由于需要将ResNet模型拆分为U型架构，也就是从当前客户端200向前传递，经过边缘服务器100处理后再向前传递回到当前客户端200，并在验证标签结果后按照原路进行反向传播。因此，我们需要将8层模型拆分为3部分，分别放置在客户端200、边缘服务器100和客户端200。

然后，对每一层模型进行分析：ResNet模型的前3层是对数据集的输入进行卷积池化等操作；第456层是将图像进行裁剪到相同尺寸；最后78层是对标签进行比对。其中，456层可以看做一个Sub-layers，不能拆分(对图像进行拆分)且只能放在边缘服务器100(原因为该3层的计算量较大)。因此，我们做了如表1所示的网络层组合方式的总结：

表1

如表1所示，共有6种拆分情况(Num：I～VI)，其中C1-layer和C2-layer部署于同一客户端200，分别构成第一子模型和第二子模型，C1-layer代表客户端200在整个模型的前半段，C2-layer代表该客户端200在整个模型的后半段(也就是Client-back)。由于Layer4、Layer5、Layer6(即模型的4/5/6层)不执行拆分操作(且经实验验证，拆分后对结果无影响)，所以在C1-layer只有Layer1、Layer2、Layer3(即模型的1/2/3层)，C2-layer只有Layer7和Labels，因此只有如表1中6种可能的情况。并分别对6种情况的训练集的平均和最高准确率(Acc-Avg-Training、Acc-Max-Training)，测试集的平均和最高准确率(Acc-Avg-Test、Acc-Max-Test)、以及运行200Epoch的时间(min)进行了统计得到表1中的总结数据。

根据表1中的总结数据确定最后Layer7和Labels(即模型的7/8层)的拆分对于准确率没有影响，但C2-layer只有第8层(即Labels层)相对于拥有7/8层运行时间更短。因此可以确定只将第8层放在C2-layer。从而可以确定C1-layer拥有3层结构时，无论是训练集还是测试集的准确率都要高于I，II两种情况。同时它的运行时间要远低于其他情况。确定整个模型结构为C1-layer：123，Server：4567，C2-layer：8，从而分别确定第一子模型包括网络层的前三层，第二子模型包括网络层的最后一层，剩余的网络层在边缘服务器100中。

可理解的是，参数服务器300更新模型参数的步骤包括：

将与参数服务器300通信连接的多个边缘服务器100发送的模型参数进行均值计算，得到平均模型参数；

将平均模型参数发送到各边缘服务器100，以将边缘服务器100的模型参数替换为平均模型参数。

需说明的是，所有客户端200分别并行执行图像模型的迭代训练，然后聚合得到每个全局迭代的全局模型中进行全局参数的更新。在一个边缘服务器100对应多个客户端200时，根据客户端200的破碎数据顺序处理边缘服务器100端模型的向前向后传播。客户端200的顺序在边缘服务器100端操作中是随机选择的，并且在每次向前向后传播中更新模型。此外，边缘服务器100会从所有参与的客户端200同步接收被粉碎的数据。将运算结果进行反传，以更新整个客户端系统400中各子模型的梯度和模型参数，其中边缘服务器100会对接收到的模型参数进行剪裁和校准(Clipping and calibrating)。当更新客户端系统400的图像模型后，将图像模型的模型参数发送到参数服务器300求出均值。同时，参数服务器300执行客户端200本地模型的FedAvg，以用于加权平均来聚合各客户端系统400的模型参数，并将FedAvg的结果发送回所有参与的客户端200，以获取全局最优模型。这些操作不受客户端200的影响，因为本地客户端200模型是通过加权平均方法聚合的，即FedAvg。

下面，参照图4所示，以一个具体实施例描述本申请的图像识别的方法，具体如下：

确定模型分布之后，从客户端200收集到的数据内部开始向前传播。客户端200执行第一步①，只发送第一中间数据即激活结果到相应的边缘服务器100。边缘服务器100内部继续向前传播阶段，传递第二中间数据到输出层(output layer)。

其中第二中间数据是通过第三子模型计算和处理数据得到的。下面是获取第二中间数据并将其传递到输出层的流程：

输入数据：首先，边缘服务器100接收到来自于客户端200输出的第一中间数据，这可以是传感器数据、用户请求或其他形式的输入。

数据处理：接下来，边缘服务器100对第一中间数据进行处理。这涉及到计算、算法或模型，以提取有用的特征或执行特定的任务。处理过程包括数据清洗、特征提取、模型推理等。

中间参数生成：在数据处理过程中，边缘服务器100会生成一些第二中间数据，这些第二中间数据是根据第一中间数据计算得到的结果。第二中间数据可以是数字、向量、矩阵或其他形式的数据结构，它们可以表示某种特征、模型的权重、偏置等。

传递到输出层：生成的第二中间数据进一步传递到输出层。

第二中间数据是通过对第一中间数据进行处理和计算得到的结果，在边缘服务器100内部进行传递和转化，最终用于生成输出结果或传递给其他系统使用。

边缘服务器100执行第二步②，通过U型的网络架构将梯度传递回客户端200。客户端200获得输出，生成预测标签后终止向前传播，计算损失函数的值，开始反向向后传播梯度到边缘服务器100最终回到客户端200。其中，在反向向后传播到边缘服务器100的梯度为经过叠加噪声层后的平均梯度。

其中生成预测标签也就是当数据通过向前传播到达模型的输出层时，根据模型的设计和任务的类型，客户端200使用输出层的结果生成预测标签。例如，对于分类任务，可以选择具有最高概率的类别作为预测标签；对于回归任务，可以直接使用输出层的值作为预测标签。而本项专利中面向图像识别任务，将使用图像识别的准确率作为预测标签。

当完成处理后，所有边缘服务器100执行第三步③，传递模型参数到参数服务器300中取平均值，然后发送回每个边缘服务器100，以更新边缘服务器100的模型参数；至此完成一次全局训练，这是一次完整的图像处理，在训练阶段要经过多轮次的全局训练，才能达到测试的要求。

需说明的是，在客户端系统400，其按照从客户端200到服务器再到客户端200的顺序运行，然后启动反馈程序，同时运行参数服务器300。在参数服务器300上进行模型聚合是通过对所有本地训练的模型部分应用加权平均来完成的。需说明的是，对客户端系统400其采用交叉熵损失作为损失函数，以能够测量真实数据的概率分布和模型输出之间的差异。

需说明的是，客户端200和边缘服务器100的数量可以通过如下方式确定：

通过ResNet模型运行HAM10000数据集，在200Epoch下，分别改变客户端200，边缘服务器100的数量，对比集中式(Normal)，联邦学习(FL)，拆分学习(SL)，联邦拆分学习(SFLV1)和本申请中的图像识别的方法的图像识别准确率(Acc)和运行时间如图5可知：

如图5(a)所示，Nomal集中式应用ResNet模型在200Epoch下，准确率能够稳定在76左右，我们以集中式为标准。随着客户端的数量(5-100)增多，出现了以下几种情况SL方法(如图5(c)所示)收敛速度与准确率几乎不受影响。FL方法(如图5(b)所示)随着客户端(5-100)越多，收敛速度越慢，准确率越低。SFLV1方法(如图5(d)所示)随着客户端(5-100)越多，收敛速度与准确率稍有影响。本申请的图像识别方法如图5(e)在200Epoch下，5-100个客户端200对应1个边缘服务器100时，客户端200越少，收敛速度和准确率越好。超过20个客户端200，整体收敛速度和准确率效果变差。本申请的图像识别方法如图5(f)运行2个服务器时，整体效果同1个边缘服务器100，但在相同客户端200的情况下，两个边缘服务器100效果更好。其中图5(b)～图5(f)所示，每个曲线对应一种客户端200和服务器100的数量组合情况的性能曲线。

对于本申请的图像识别方法，以10个客户端200以及1、2、5、10个边缘服务器100的情况仿真如图6所示，在客户端200数量不变时(10个)，两个边缘服务器100性能最优，原因如下：

1.我们做的模型是分布式架构(最少两个边缘服务器100可以体现分布式)，因此两个边缘服务器100(S2)的效果优于一个边缘服务器100(S1)。

2.边缘服务器100越少越接近于集中式，收敛速度以及准确率更优。

示例性的，参照图7所示，两个边缘服务器100时，在200Epoch内分别以5个(图7(a))，10个(图7(b))，20个(图7(c))客户端200下五种方法的对比。如图7所示，五种方法都能很快达到稳定并收敛。我们以集中式为标准，联邦学习FL和拆分学习SL的准确率在75左右，徘徊在集中式之下。SFL的准确率不如传统的拆分学习，稳定在73左右。而本申请提供的图像识别的方法通过改变模型架构来提升准确率和安全性，并增加了一个边缘服务器100(并行的图像识别的方法需要至少两个边缘服务器100)，可以看到测试准确率能够稳定在78，峰值达到82。5个客户端200波动较大，10个客户端200略微有些波动，20个客户端200更稳定。可以看出客户端200数量越多，整体效果越好。

因此，由图5至图7可知：

1.客户端200数量不同对Acc结果的影响：随着客户端200数量增加，SL不受客户端200数量的影响；FL的收敛速度变慢，准确率也降低；SFLV1的收敛速度与准确率稍有影响；本申请的方法在20个客户端200收敛速度与准确率均超过集中式。

2.UFSL方法服务器数量不同对Acc结果的影响：本申请的方法在客户端200数量不变时，两个边缘服务器100性能最优，更接近于集中式的分布式架构。

3.五种方法的运行时间(C5_S2_E200):Normal—450.55min；SL—407.75min；FL—720.37min；SFLV1—571.55min本申请—421.84min。

以Normal集中式为基准；SL运行时间最短，拆分架构可以大幅减少运行时长；FL由于等待时间以及模型架构导致运行缓慢；SFLV1结合了两种方法的特性处于二者之间；本申请能够充分结合二者优势，运行时间大幅提升超过集中式。

4.在客户端200数量相同情况下，五种方法的Acc的不同：本申请通过改变模型架构来提升准确率和安全性的方法性能最优，S2_C10的测试准确率能够稳定在78，峰值达到82。

5.测试FL、SL及本申请中的三种方法Acc的CV值。由于CV系数值低于10，效果良好符合正态分布。

因此，本发明提出的方法最优拆分架构为1/2-3/4/5/6/7-8的模型，最优组合为10个客户端和2个服务器。能够保证全局模型的Acc最高并且运行时间更短。

参照图8所示，本申请一实施例还提供了一种电子设备，包括：

一个或多个处理器601；

存储器602，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器601执行，使得一个或多个处理器601实现本申请任一实施例提供的方法。

存储器602作为一种非暂态网络系统，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器602可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器602可选包括相对于处理器601远程设置的存储器602，这些远程存储器602可以通过网络连接至该处理器601。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器602，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器602可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器602中，并由处理器601来调用执行本申请实施例的方法。

处理器601，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案。

在一些实施例中，电子设备还包括：

输入/输出接口，用于实现信息输入及输出；

通信接口，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线，在设备的各个组件(例如处理器601、存储器602、输入/输出接口和通信接口)之间传输信息；

其中处理器601、存储器602、输入/输出接口和通信接口可以通过总线实现彼此之间在设备内部的通信连接。

本申请一实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行如本申请任一实施例提供的方法。

本申请一实施例还提供了一种计算机程序产品，包括计算机程序或计算机指令，该计算机程序或计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序或计算机指令，处理器执行计算机程序或计算机指令，使得计算机设备执行如本申请任一实施例提供的方法。

本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着系统架构的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质【或非暂时性介质】和通信介质【或暂时性介质】。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息【诸如计算机可读指令、数据结构、程序模块或其他数据】的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘【DVD】或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于，在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序或计算机。通过图示，在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程或执行线程中，部件可位于一个计算机上或分布在2个或更多个计算机之间。此外，这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组【例如来自于自与本地系统、分布式系统或网络间的另一部件交互的二个部件的数据，例如通过信号与其它系统交互的互联网】的信号通过本地或远程进程来通信。

以上参照附图说明了本申请的一些实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

1.一种图像识别的方法，其特征在于，应用于分布式系统，所述分布式系统设置有参数服务器以及与所述参数服务器通信连接的多个客户端系统，至少一个所述客户端系统包括至少一个边缘服务器以及与所述边缘服务器通信连接的至少一个客户端；所述方法包括：

通过训练好的所述图像模型进行图像识别，输出识别数据。

2.根据权利要求1所述的图像识别的方法，其特征在于，所述将N个所述第二梯度数据进行梯度裁剪以及噪声叠加处理，得到平均梯度数据，包括：

获取梯度范数界，并根据所述梯度范数界对N个所述第二梯度数据分别进行梯度裁剪，得到一一对应的第三梯度数据；

获取标定噪声；

分别计算N个所述第三梯度数据与所述标定噪声的之和，得到第四梯度数据；

根据N个所述第四梯度数据的平均值，得到所述平均梯度数据。

3.根据权利要求2所述的图像识别的方法，其特征在于，所述根据所述梯度范数界对N个所述第二梯度数据分别进行梯度裁剪，得到一一对应的第三梯度数据，包括：

分别计算N个所述第二梯度数据的范数与梯度范数界的比值；

在所述比值大于或等于1时，将所述第二梯度数据与所述比值相除，得到一一对应的第三梯度数据；

在所述比值小于或等于1时，将所述第二梯度数据作为一一对应的第三梯度数据。

4.根据权利要求1所述的图像识别的方法，其特征在于，所述在所述边缘服务器部署所述图像模型的第三子模型之后，所述方法还包括：

获取校准噪声；

将所述校准噪声叠加到所述第一子模型输出的中间数据上，以通过所述第二子模型对叠加所述校准噪声的所述中间数据进行训练。

5.根据权利要求4所述的图像识别的方法，其特征在于，所述获取校准噪声，包括：

获取预设的输入距离度量和输出距离度量；

将所述输出距离度量作为所述第一子模型的各所述训练样本的输出变化差异值的范数下标，计算得到第一范数；

将所述输入距离度量作为所述第一子模型的各所述训练样本的输入变化差异值的范数下标，计算得到第二范数；

根据所述第一范数和所述第二范数进行拉普拉斯计算，得到所述校准噪声。

6.根据权利要求1所述的图像识别的方法，其特征在于，所述第一子模型、所述第二子模型和所述第三子模型通过如下步骤确定：

获取所述图像模型的网络层数据；

根据所述网络层数据进行三层模型组合拆分，得到多个网络层组合集，每个网络层组合集对应所述图像模型的一种三层模型的组合方式；

对每一所述网络层组合集进行预设次数的迭代训练，得到性能参数；

根据所述性能参数，从多个所述网络层组合集中确定出目标网络层组合集；

根据所述目标网络层组合集，得到所述第一子模型、所述第二子模型和所述第三子模型。

7.根据权利要求1所述的图像识别的方法，其特征在于，所述全局模型参数的更新包括如下步骤：

将与所述参数服务器通信连接的多个边缘服务器发送的模型参数进行均值计算，得到平均模型参数；

将所述全局模型参数替换为所述平均模型参数。

8.一种分布式系统，其特征在于，包括：

所述客户端用于：

所述客户端将所述平均梯度数据发送到所述边缘服务器；

所述边缘服务器用于：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7任一所述的方法。