CN112329073B

CN112329073B - 分布式数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112329073B
Application number: CN202110005822.9A
Authority: CN
Inventors: 程勇; 陶阳宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-07-20
Anticipated expiration: 2041-01-05
Also published as: US20230039182A1; WO2022148283A1; CN112329073A

Abstract

本申请是关于一种分布式数据处理方法、装置、计算机设备及存储介质，涉及人工智能技术领域。所述方法包括：获取至少两个边缘节点设备分别发送的模型训练信息；模型训练信息是以明文的形式传输的；模型训练信息是边缘节点设备通过差分隐私的方式对子模型进行训练获得的；基于至少两个边缘节点设备分别发送的模型训练信息，获取至少两个边缘节点设备各自训练得到的子模型；基于指定模型集成策略，对至少两个边缘节点设备各自训练得到的所述子模型进行模型集成，获取全局模型。通过上述方案，在保证了数据隐私安全的前提下，扩展了模型集成方式，提高了模型集成效果。

Description

分布式数据处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种分布式数据处理方法、装置、计算机设备及存储介质。

背景技术

随着人工智能的不断发展，以及用户隐私要求的不断提高，基于分布式系统的机器学习模型训练的应用也越来越广泛。

联邦学习是一种基于云技术的分布式系统的机器学习方式。在联邦学习架构中，包含中心节点设备和多个边缘节点设备，每个边缘节点设备在本地存储有各自的训练数据。联邦学习包含有横向联邦学习，横向联邦学习是通过在多个边缘节点设备中根据本地训练数据训练得到各自的模型梯度，将各个模型梯度进行加密后发送给中心节点设备，由中心节点设备对加密后的模型梯度进行聚合，将聚合的加密后的模型梯度发送给各个边缘节点设备，各个边缘节点设备可以分别对获取到的聚合的加密后的模型梯度进行解密，生成聚合的模型梯度，根据聚合的模型梯度可以更新模型。

在上述技术方案中，为了保护训练数据的安全，需要对模型梯度进行加密处理，导致了中心节点设备只能采用安全聚合算法进行模型融合，从而影响了联邦学习的模型集成效果。

发明内容

本申请实施例提供了一种分布式数据处理方法、装置、计算机设备及存储介质，通过使用差分隐私机制，中心节点设备可以直接以明文的方式获取到多个子模型并进行融合，从而能够实现在保证了数据隐私安全的前提下，扩展模型集成的方式，提高模型集成效果。该技术方案如下。

一方面，提供了一种分布式数据处理方法，所述方法由分布式系统中的中心节点设备执行，所述分布式系统中包含所述中心节点设备与至少两个边缘节点设备；所述方法包括：

获取所述至少两个边缘节点设备分别发送的模型训练信息；所述模型训练信息是以明文的形式传输的；所述模型训练信息是所述边缘节点设备通过差分隐私的方式对子模型进行训练获得的；

基于所述至少两个边缘节点设备分别发送的所述模型训练信息，获取所述至少两个边缘节点设备各自训练得到的所述子模型；

基于指定模型集成策略，对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成，获取全局模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

一方面，提供了一种分布式数据处理方法，所述方法由分布式系统中的边缘节点设备执行，所述分布式系统中包含中心节点设备与所述至少两个边缘节点设备，所述方法包括：

通过差分隐私的方式对子模型进行训练，生成模型训练信息；

以明文的形式向所述中心节点设备传输所述模型训练信息；

接收由所述中心节点设备发送的全局模型；所述全局模型是所述中心节点设备基于指定模型集成策略对所述至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；所述训练得到的子模型是所述中心节点设备基于所述模型训练信息获取的模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

又一方面，提供了一种分布式数据处理装置，所述装置用于分布式系统中的中心节点设备，所述分布式系统中包含所述中心节点设备与至少两个边缘节点设备，所述装置包括：

训练信息获取模块，用于获取所述至少两个边缘节点设备分别发送的模型训练信息；所述模型训练信息是以明文的形式传输的；所述模型训练信息是所述边缘节点设备通过差分隐私的方式对子模型进行训练获得的；

子模型获取模块，用于基于所述至少两个边缘节点设备分别发送的所述模型训练信息，获取所述至少两个边缘节点设备各自训练得到的所述子模型；

模型集成模块，用于基于指定模型集成策略，对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成，获取全局模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

在一种可能的实现方式中，所述至少两个边缘节点设备各自训练的所述子模型的模型结构不同。

在一种可能的实现方式中，响应于所述指定模型集成策略包含第一模型集成策略；

所述模型集成模块，包括：

权重获取子模块，用于获取所述至少两个边缘节点设备各自训练得到的所述子模型对应的集成权重；所述集成权重用于指示所述子模型的输出值对所述全局模型的输出值的影响情况；

模型集合生成子模块，用于从所述至少两个边缘节点设备各自训练得到的所述子模型中分别获取至少一个所述子模型，生成至少一个集成模型集合；所述集成模型集合是用于集成一个全局模型的所述子模型的集合；

第一模型获取子模块，用于基于所述集成权重，对至少一个所述集成模型集合中的各个所述子模型进行加权平均，获取至少一个所述全局模型。

在一种可能的实现方式中，所述权重获取子模块，包括：

权重获取单元，用于基于所述至少两个边缘节点设备的权重影响参数，获取所述至少两个边缘节点设备各自训练得到的所述子模型的集成权重；

其中，所述权重影响参数包括所述边缘节点设备对应的可信任度以及所述边缘节点设备中的第一训练数据集的数据量中的至少一种。

在一种可能的实现方式中，响应于所述指定模型集成策略包含第二模型集成策略，所述中心节点设备中包含第二训练数据集；所述第二训练数据集是由所述中心节点设备存储的数据集；所述第二训练数据集中包含特征数据以及标签数据；

所述模型集成模块，包括：

第一初始模型获取子模块，用于获取第一初始全局模型；

第一输出获取子模块，用于将所述第二训练数据集中的所述特征数据分别输入所述至少两个边缘节点设备各自训练得到的所述子模型中，获取至少两个第一输出数据；

第一模型参数更新子模块，用于将所述第一输出数据输入所述第一初始全局模型；

第二模型获取子模块，用于基于所述第二训练数据集中的所述标签数据，以及所述第一初始全局模型的输出结果，更新所述第一初始全局模型中的模型参数，获得所述全局模型。

在一种可能的实现方式中，响应于所述指定模型集成策略包含第三模型集成策略，所述中心节点设备中包含第二训练数据集；所述第二训练数据集是由所述中心节点设备存储的数据集；所述第二训练数据集中包含特征数据以及标签数据；

所述模型集成模块，包括：

第二初始模型获取子模块，用于获取第二初始全局模型；

第二输出获取子模块，用于将所述第一输出数据以及所述第二训练数据集中的所述特征数据输入到所述第二初始全局模型中，获取第二输出数据；

第二模型参数更新子模块，用于基于所述第二输出数据以及所述第二训练数据集中的所述标签数据，更新所述第二初始全局模型中的模型参数，获得所述全局模型。

在一种可能的实现方式中，响应于所述指定模型集成策略包含第四模型集成策略，所述中心节点设备中包含第二训练数据集；所述第二训练数据集是由所述中心节点设备存储的数据集；所述第二训练数据集中包含特征数据以及标签数据；

所述模型集成模块，包括：

第三初始模型获取子模块，用于获取第三初始全局模型；所述第三初始全局模型是分类模型；

结果获取子模块，用于响应于所述第一输出数据是分类结果数据，对所述第一输出数据进行分类结果统计，获取各个所述分类结果对应的统计结果；

第三模型参数更新子模块，用于基于所述统计结果以及所述标签数据，更新所述第三初始全局模型中的模型参数，获得所述全局模型。

在一种可能的实现方式中，响应于所述指定模型集成策略包含第五模型集成策略；

所述模型集成模块，包括：

功能层获取子模块，用于从各个所述边缘节点设备对应的所述子模型中获取至少一个所述子模型的功能层；所述功能层用于指示实现指定功能运算的部分模型结构；

第五模型获取子模块，用于响应于至少两个所述功能层组成的模型具有完整的模型结构，获取包含至少两个所述功能层的模型作为所述全局模型。

在一种可能的实现方式中，所述至少两个边缘节点设备对各自的所述子模型进行训练的过程中，使用相同的差分隐私算法；

或者，

所述至少两个边缘节点设备对各自的所述子模型进行训练的过程中，使用不同的差分隐私算法。

在一种可能的实现方式中，所述至少两个边缘节点设备中存储的至少两个第一训练数据集是符合横向联邦学习数据分布的。

再一方面，提供了一种分布式数据处理装置，所述装置用于分布式系统中的边缘节点设备，所述分布式系统中包含中心节点设备与所述至少两个边缘节点设备，所述装置包括：

信息生成模块，用于通过差分隐私的方式对子模型进行训练，生成模型训练信息；

信息发送模块，用于以明文的形式向所述中心节点设备传输所述模型训练信息；

模型接收模块，用于接收由所述中心节点设备发送的全局模型；所述全局模型是所述中心节点设备基于指定模型集成策略对所述至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；所述训练得到的子模型是所述中心节点设备基于所述模型训练信息获取的模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的分布式数据处理方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述分布式数据处理方法。

再一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述分布式数据处理方法。

本申请提供的技术方案可以包括以下有益效果：

在分布式系统中，至少两个边缘节点设备分别各自通过差分隐私的方式训练子模型，然后中心节点设备获取到以明文的形式传输的模型训练信息，中心节点设备通过接收到的模型训练信息获取到对应的训练完成的子模型，并且对各个训练完成的子模型运用基于密码学的安全模型融合策略之外的其它模型集成策略进行模型集成，生成全局模型。通过上述方案，由于使用了差分隐私机制，可以直接以明文的方式获取到多个子模型并进行融合，从而解决了在传统横向联邦学习中只能使用联邦平均算法进行模型融合的问题，进而在保证了数据隐私安全的前提下，扩展模型集成方式，提高了模型集成效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种分布式系统的结构示意图；

图2是根据一示例性实施例示出的一种基于联邦学习框架设置的分布式系统的结构示意图；

图3是图2所示实施例涉及的一种横向联邦学习数据分布示意图；

图4是根据一示例性实施例示出的一种分布式数据处理方法的流程示意图；

图5是根据一示例性实施例示出的一种分布式数据处理方法的流程示意图；

图6是根据一示例性实施例示出的一种分布式数据处理方法的方法流程图；

图7是图6所示实施例涉及的一种联邦堆叠集成学习示意图；

图8是图6所示实施例涉及的一种联邦知识蒸馏学习示意图；

图9是根据一示例性实施例示出的一种基于分布式数据处理方法框架示意图；

图10是根据一示例性实施例示出的一种分布式数据处理装置的结构方框图；

图11是根据一示例性实施例示出的一种分布式数据处理装置的结构方框图；

图12是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

1）人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2）机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

3）联邦学习（Federated Learning）

联邦学习又名联邦机器学习、联合学习、联盟学习。联邦学习是一种分布式系统的机器学习框架, 在联邦学习架构中，包含中心节点设备和多个边缘节点设备，每个边缘节点设备在本地存储有各自的训练数据，且中心节点设备和各个边缘节点设备中都设置有模型架构相同的模型，通过联邦学习架构进行机器学习模型的训练，可以有效解决数据孤岛问题，让参与方在不共享数据的基础上联合建模，能从技术上打破数据孤岛，实现AI协作。

4）云技术（Cloud technology）

云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

图1是根据一示例性实施例示出的一种分布式系统的结构示意图。该系统包括：中心节点设备120以及和至少两个边缘节点设备140。至少两个边缘节点设备140分别构建至少一个子模型，并且分别通过本地存储的训练数据集对子模型进行模型训练，其中，在训练过程中可以通过差分隐私机制对训练过程中的数据进行随机噪声的添加，训练完成的各个子模型对应的模型训练数据可以直接以明文的形式发送给中心节点设备120，中心节点设备120通过模型训练数据以及联邦集成算法对训练完成的各个子模型进行模型集成，生成至少一个全局模型。

中心节点设备120可以是服务器，在某些场景中该中心节点设备可以被称为中心服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。边缘节点设备140可以是终端，该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。中心节点设备以及边缘节点设备可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，该系统还可以包括管理设备（图1未示出），该管理设备与中心节点设备120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网（Local Area Network，LAN）、城域网（Metropolitan Area Network，MAN）、广域网（Wide Area Network，WAN）、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是一示例性实施例示出的一种基于联邦学习框架设置的分布式系统的结构示意图。请参考图2，该分布式系统由边缘节点设备140与中心节点设备120构成。边缘节点设备140中至少包含终端141、数据存储器142，数据存储器142用于存储终端141产生的数据，并根据该数据构建训练数据集，对至少一个子模型143进行训练。该至少一个子模型143可以是预先设置的学习模型。子模型143可以根据数据存储器142中存储的训练数据集进行训练，并且在训练过程中基于差分隐私机制对至少一种训练过程中的数据添加随机噪声，通过差分隐私机制可以保护训练数据集的隐私安全，即第三方设备无法通过获取基于差分隐私机制进行训练更新的子模型的模型参数，反推获得具体的训练数据集中的某一训练数据。将训练得出的各个子模型对应的模型训练信息上传至中心节点设备120中。中心节点设备120中至少包含模型集成运算模块121，根据模型集成运算模块121中存储的集成算法对模型训练信息进行计算，获取各个训练完成的子模型进行集成后生成的全局模型122，该模型集成后生成全局模型可以作为训练好的机器学习模型部署在应用场景中，或者上传到云端数据库、区块链中以供其它设备进行下载使用。

联邦学习可以分为横向联邦学习（Horizontal Federated Learning，HFL）、纵向联邦学习（Vertical Federated Learning，VFL）和联邦迁移学习（Federated TransferLearning，FTL）。本申请涉及的方案具体应用在横向联邦学习的场景下。

横向联邦学习可以应用的场景是参与联邦学习的各个边缘节点设备中存储的数据集具有相同的特征空间以及不同的样本空间，横向联邦学习的优点是可以增加样本数量，使得可以使用的总数据量增加。

比如，图3是本申请涉及的一种横向联邦学习数据分布示意图。如图3所示，该分布式系统中包括边缘节点设备1、边缘节点设备2以及边缘节点设备3。其中，边缘节点设备1中存储有的数据集是第一数据集31，该第一数据集31中包括样本U1到样本U3具有包括F1到Fx的特征数据；边缘节点设备2中存储有的数据集是第二数据集32，该第二数据集32中包括样本U4到样本U7具有包括F1到Fx的特征数据；边缘节点设备3中存储有的数据集是第三数据集33，该第三数据集33中包括样本U8到样本U10具有包括F1到Fx的特征数据。通过横向联邦学习可以使得联邦学习整体的数据集扩展到包括样本U1到样本U10具有包括F1到Fx的特征数据。

在边缘节点设备的本地基于差分隐私机制训练模型，可以使第三方设备获取到训练完成的模型后通过反推算法无法得到具体的训练数据集中的数据。从而保护了数据的隐私安全。

其中，差分隐私机制是假设给定两个数据集D和D’，两个数据集D和D’有且仅有一条数据是不一样的，这两个数据集可以称为相邻数据集。对于一个随机算法A，其分别作用于这两个相邻数据集得到的两个输出，例如，分别训练得到两个机器学习模型，在难以区分是从哪个数据集获得的输出的情况下，随机算法A就被认为满足差分隐私的要求。差分隐私定义为：

其中，W是机器学习模型参数；

用于指示趋近于0的正数，

与集合D，或者集合D’中的元素个数成反比；

用于指示隐私损失度量。

也就是说，通过任意一个相邻数据集训练得到的机器学习模型的概率是相似的。因此，通过观察机器学习模型参数无法察觉训练数据集的微小变化，并且通过观察机器学习模型参数也就无法反推出具体的训练数据集中的某一个训练数据。通过这种方式可以达到保护数据隐私的目的。

图4是一示例性实施例示出的一种分布式数据处理方法的流程示意图。该方法由分布式系统中的中心节点设备执行，其中，该中心节点设备可以是上述图1所示的实施例中的中心节点设备120。如图4所示，该分布式数据处理方法的流程可以包括如下步骤。

步骤401，获取至少两个边缘节点设备分别发送的模型训练信息；模型训练信息是以明文的形式传输的；模型训练信息是边缘节点设备通过差分隐私的方式对子模型进行训练获得的。

在本申请实施例中，中心节点设备接收到至少两个边缘节点设备分别发送的模型训练信息。

其中，模型训练信息是用于指示训练完成的子模型的模型数据。模型训练信息可以是模型梯度数据、模型参数以及训练完成的子模型中的至少一种。

在一种可能的实现方式中，至少两个边缘节点设备各自训练的子模型的模型结构是相同的、部分相同的或者是不同的。

步骤402，基于至少两个边缘节点设备分别发送的模型训练信息，获取至少两个边缘节点设备各自训练得到的子模型。

步骤403，基于指定模型集成策略，对至少两个边缘节点设备各自训练得到的子模型进行模型集成，获取全局模型。

在一种可能的实现方式中，中心节点设备获取至少一个全局模型；指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

其中，中心节点设备对不同的至少两个边缘节点设备各自训练得到的子模型进行模型集合可以生成不同的全局模型。对相同的至少两个边缘节点设备各自训练得到的子模型，按照不同的指定模型集成策略进行模型集成也可以生成不同的全局模型，指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

综上所述，本申请实施例所示的方案，在分布式系统中，至少两个边缘节点设备分别各自通过差分隐私的方式训练子模型，然后中心节点设备获取到以明文的形式传输的模型训练信息，中心节点设备通过接收到的模型训练信息获取到对应的训练完成的子模型，并且对各个训练完成的子模型运用基于密码学的安全模型融合策略之外的其它模型集成策略进行模型集成，生成全局模型。通过上述方案，由于使用了差分隐私机制，可以直接以明文的方式获取到多个子模型并进行融合，从而解决了在传统横向联邦学习中只能使用联邦平均算法进行模型融合的问题，进而在保证了数据隐私安全的前提下，扩展模型集成方式，提高了模型集成效果。

图5是一示例性实施例示出的一种分布式数据处理方法的流程示意图。该方法由分布式系统中的边缘节点设备执行，其中，该边缘节点设备可以是上述图1所示的实施例中的边缘节点设备140。如图5所示，该分布式数据处理方法的流程可以包括如下步骤。

步骤501，通过差分隐私的方式对子模型进行训练，生成模型训练信息。

在一种可能的实现方式中，至少两个边缘节点设备各自训练的子模型的模型结构不同。

步骤502，以明文的形式向中心节点设备传输模型训练信息。

步骤503，接收由中心节点设备发送的全局模型；全局模型是中心节点设备基于指定模型集成策略对至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；训练得到的子模型是中心节点设备基于模型训练信息获取的模型；指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

中心节点设备通过接收至少两个边缘节点设备发送的模型训练信息，生成模型训练信息对应的训练完成的各个子模型，并且在中心节点设备中根据指定模型策略对各个子模型进行模型集成，生成全局模型。由于生成的该全局模型是通过集成各个边缘节点设备训练更新的子模型得到的，在不泄露样本隐私数据的情况下，获取各个边缘节点设备具有的全部样本的统计学特征，所以该全局模型的模型相比较于各个子模型对结果的输出更加精准，该全局模型可以应用于图像处理、金融分析、医疗诊断等各个领域。图6是根据一示例性实施例提供的一种分布式数据处理方法的方法流程图，该方法可以由分布式系统中的中心节点设备和边缘节点设备共同执行，该分布式系统可以是基于联邦学习框架设置的系统。如图6所示，该分布式数据处理方法可以包括如下步骤。

步骤601，边缘节点设备通过差分隐私的方式对子模型进行训练，生成模型训练信息。

在本申请实施例中，边缘节点设备通过差分隐私的方式对各自的各个子模型进行模型训练，可以生成各个训练完成的子模型对应的模型训练信息。

在一种可能的实现方式中，边缘节点设备通过差分隐私的方式训练生成的各个子模型是神经网络模型或者数学模型等。

比如，神经网络模型可以包括深度神经网络（Deep Neural Network，DNN）模型、循环神经网络（Recurrent Neural Networks，RNN）模型、嵌入（embedding）模型、梯度提升决策树（Gradient Boosting Decision Tree，GBDT）模型等，数学模型包括线性模型、树模型等，本实施例在此不再一一列举。

其中，至少两个边缘节点设备中存储的至少两个第一训练数据集是符合横向联邦学习数据分布的。第一训练数据集是至少两个边缘节点设备各自分别存储在本地的，用于训练各个子模型的数据集。

在一种可能的实现方式中，通过差分隐私的方式对第一训练数据集、模型梯度以及模型参数中的至少一种添加随机噪声，并且完成各个子模型的训练，获取训练完成的各个子模型对应的模型训练信息。

其中，模型训练信息可以是模型参数、模型梯度以及完整的模型；当模型训练信息是模型参数时，各个边缘节点设备可以通过第一训练数据集训练各个子模型，生成模型参数，通过差分隐私机制对生成的各个模型参数添加随机噪声，将各个添加了随机噪声的模型参数发送给中心节点设备。或者，各个边缘节点设备可以通过第一训练数据集训练各个子模型，生成中间的模型梯度，通过差分隐私机制对生成的各个模型梯度添加随机噪声，基于各个添加了随机噪声的模型梯度对各个子模型进行迭代更新，获取各个子模型对应的模型参数，将各个模型参数发送给中心节点设备。或者，各个边缘节点设备可以通过差分隐私机制对各自的第一训练数据集添加随机噪声，通过添加了随机噪声的第一训练数据集训练各个子模型，获取各个子模型对应的模型参数，将各个模型参数发送给中心节点设备。

当模型训练信息是模型梯度时，各个边缘节点设备可以通过第一训练数据集训练各个子模型，生成中间的模型梯度，通过差分隐私机制对生成的各个模型梯度添加随机噪声，基于各个添加了随机噪声的模型梯度对各个子模型进行迭代更新，获取各个子模型对应的模型参数，同时将各个添加了随机噪声的模型梯度发送给中心节点设备。或者，各个边缘节点设备通过差分隐私机制对各自的第一训练数据集添加随机噪声，通过添加了随机噪声的第一训练数据集训练各个子模型，生成模型梯度，从而获取各个子模型对应的模型参数，将各个生成的模型梯度发送给中心节点设备。

当模型训练信息是完整的模型时，将训练完成的各个子模型直接以明文的形式传输到中心节点设备中。

在一种可能的实现方式中，至少两个边缘节点设备对各自的子模型进行训练的过程中，使用相同的差分隐私算法；或者，至少两个边缘节点设备对各自的子模型进行训练的过程中，使用不同的差分隐私算法。

其中，差分隐私算法可以是由中心节点设备直接分配给各个边缘节点设备相同的差分隐私算法，也可以是由中心节点设备直接分配给各个边缘节点设备不同的差分隐私算法，或者也可以是由各个边缘节点设备基于各自的子模型结构选择的不同种差分隐私算法。

示例性的，各个边缘节点设备可以独立选择差分隐私机制包括基于差分隐私梯度下降算法（Differentially-Private Stochastic Gradient Descent，DP-SGD）、基于PATE（Private Aggregation of Teacher Ensembles，教师模型全体的隐私聚合）的算法和差分隐私树模型等的差分隐私模型训练方法。其中，DP-SGD是对随机梯度下降算法进行改进而能够实现差分隐私机器学习的方法，PATE是一个通过联合多个机器学习算法实现从隐私数据上训练机器学习模型的框架。

步骤602，边缘节点设备以明文的形式向中心节点设备传输模型训练信息。

在本申请实施例中，边缘节点设备以明文的形式向中心节点设备传输模型训练过程中产生的模型训练信息。

在一种可能的实现方式中，各个边缘节点设备中训练完成的各个子模型对应的模型训练信息统一发送给中心节点设备。

其中，同一边缘节点设备中训练完成的各个子模型对应的模型训练信息可以是相同种类的模型训练信息，也可以是不同种类的模型训练信息。

比如，边缘节点设备1通过基于差分隐私的模型训练获得训练完成的子模型1以及子模型2，当子模型1是一个线性模型，子模型2是一个深度神经网络模型，可以分别获取子模型1的完整模型以及子模型2对应的模型参数作为模型训练数据，并且统一以明文的形式发送给中心节点设备。

步骤603，中心节点设备获取至少两个边缘节点设备分别发送的模型训练信息。

在本申请实施例中，中心节点设备获取到至少两个边缘节点设备分别发送的至少一个训练完成的子模型对应的模型训练信息。

在一种可能的实现方式中，模型训练信息是以明文的形式传输的；模型训练信息是边缘节点设备通过差分隐私的方式对子模型进行训练获得的；至少两个边缘节点设备各自训练的所述子模型的模型结构不同。

在一种可能的实现方式中，各个边缘节点设备训练生成的子模型的数量以及模型结构是各不相同的。

其中，各个边缘节点设备训练生成的子模型对应的模型结构不相同可以包括部分子模型的模型结构不同。

比如，边缘节点设备1中具有的第一训练数据集是数据集1，通过数据集1可以训练生成子模型A以及子模型B，边缘节点设备2中具有的第一训练数据集是数据集2，通过数据集2可以训练生成子模型C、子模型D以及子模型E，子模型A以及子模型B可以分别是线性模型以及树模型，子模型C、子模型D以及子模型E可以分别是线性模型、深度神经网络模型以及循环神经网络模型，其中，子模型A与子模型C的模型结构相同，其它的子模型模型结构不同。

步骤604，中心节点设备基于至少两个边缘节点设备分别发送的模型训练信息，获取至少两个边缘节点设备各自训练得到的子模型。

在本申请实施例中，中心节点设备基于至少两个边缘节点设备分别发送的模型训练信息，获取至少两个边缘节点设备各自训练得到的完整的子模型。

在一种可能的实现方式中，当模型训练信息是模型梯度时，中心节点设备获取到训练完成的各个子模型对应的模型梯度，根据各个子模型对应的模型结构，通过获取到的模型梯度，对各个子模型进行迭代更新，生成对应的各个训练完成的子模型。当模型训练信息是模型参数时，中心节点设备获取到训练完成的各个子模型对应的模型参数，根据各个子模型对应的模型结构，对各个子模型进行更新，生成对应的各个训练完成的子模型。

步骤605，基于指定模型集成策略，对至少两个边缘节点设备各自训练得到的子模型进行模型集成，获取全局模型。

在本申请实施例中，中心节点设备基于指定模型集成策略，对至少两个边缘节点设备各自训练得到的子模型进行指定模型集成策略下的模型集成，获取得到至少一个全局模型。

其中，指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

其中，基于密码学的安全模型融合策略是联邦平均算法进行模型融合的策略，其它模型集成策略可以包括联邦装袋集成策略、堆叠集成融合策略、知识蒸馏集成策略、投票集成融合策略以及模型嫁接策略中的至少一种。

响应于指定模型集成策略包含第一模型集成策略，且第一模型集成策略是联邦装袋集成策略。

中心节点设备获取至少两个边缘节点设备各自训练得到的子模型对应的集成权重；从至少两个边缘节点设备各自训练得到的子模型中分别获取至少一个子模型，生成至少一个集成模型集合；基于集成权重，对至少一个集成模型集合中的各个子模型进行加权平均，获取至少一个全局模型。

其中，集成权重用于指示子模型的输出值对全局模型的输出值的影响情况；集成模型集合是用于集成一个全局模型的子模型的集合。

在一种可能的实现方式中，基于至少两个边缘节点设备的权重影响参数，获取至少两个边缘节点设备各自训练得到的子模型的集成权重。

其中，权重影响参数包括边缘节点设备对应的可信任度以及边缘节点设备中的第一训练数据集的数据量中的至少一种。

在一种可能的实现方式中，集成权重与影响数据呈正相关。

比如，当边缘节点设备1属于A公司，边缘节点设备2属于B公司，当A公司具有的第一训练数据集的数据量大于B公司具有的第一训练数据集的数据量时，可以得到边缘节点设备1训练生成的子模型对应的集成权重大于边缘节点设备2训练生成的子模型对应的集成权重；当中心节点设备对A公司的信任度大于对B公司的信任度时，可以得到边缘节点设备1训练生成的子模型对应的集成权重大于边缘节点设备2训练生成的子模型对应的集成权重。

示例性的，中心节点设备中的联邦服务器可以对接收到的边缘节点设备训练完成的子模型进行装袋集成融合。当全局模型为联邦装袋模型时，联邦装袋模型的输出可以是各个子模型输出的加权平均，如下所示：

其中，y是联邦装袋模型的输出；

是边缘节点设备k的子模型的输出；

是边缘节点设备k的集成权重。

在一种可能的实现方式中，当子模型是分类模型时，对边缘节点设备生成的子模型的分类结果进行加权平均，或者对边缘节点设备对应的子模型的输出，即获得分类结果之前的输出进行加权平均。

比如，分类结果之前的输出进行加权平均可以是对sigmoid函数或者softmax函数的输出进行加权平均。

响应于指定模型集成策略包含第二模型集成策略，且第二模型集成策略是堆叠集成融合策略（Federated Stacking）。

响应于中心节点设备中包含第二训练数据集；第二训练数据集是由中心节点设备存储的数据集；第二训练数据集中包含特征数据以及标签数据；中心节点设备获取第一初始全局模型；将第二训练数据集中的特征数据分别输入至少两个边缘节点设备各自训练得到的子模型中，获取至少两个第一输出数据；将第一输出数据输入第一初始全局模型，基于第二训练数据集中的标签数据，以及所述第一初始全局模型的输出结果，更新第一初始全局模型中的模型参数，获取全局模型。

其中，第一初始全局模型可以是线性模型，也可以是树模型，或者神经网络模型等。

示例性的，图7是本申请实施例涉及的一种联邦堆叠集成学习示意图。如图7所示，在中心节点设备中，获取到的各个边缘节点设备对应的子模型可以分别组成一个模型子集，边缘节点设备0对应的各个子模型可以组成模型子集0，边缘节点设备1对应的各个子模型可以组成模型子集1，边缘节点设备2对应的各个子模型可以组成模型子集2，边缘节点设备k-1对应的各个子模型可以组成模型子集k-1，通过中心节点设备中存储的第二训练数据集#K，分别输入各个模型子集中，获取各个模型子集中的各个子模型对应的输出（S71），将各个模型子集中的各个子模型对应的输出分别输入到第一初始全局模型中，即堆叠模型#K（S72），通过对堆叠模型#K进行模型训练生成全局模型，即联邦堆叠模型（S73）。其中，以线性模型为例，联邦堆叠模型如下所示：

其中，

是中心节点设备对应的联邦服务器需要学习的模型参数，b是中心节点设备对应的联邦服务器需要学习的偏置项。

响应于指定模型集成策略包含第三模型集成策略，且第三模型集成策略是知识蒸馏集成算法（Knowledge Distillation）。

中心节点设备中包含第二训练数据集；第二训练数据集是由中心节点设备存储的数据集；第二训练数据集中包含特征数据以及标签数据，中心节点设备获取第二初始全局模型；将第二训练数据集中的特征数据分别输入至少两个边缘节点设备各自训练得到的子模型中，获取至少两个第一输出数据；将第一输出数据以及第二训练数据集中的特征数据输入到第二初始全局模型中，获取第二输出数据；基于第二输出数据以及第二训练数据集中的标签数据作为样本数据，更新第二初始全局模型中的模型参数，获取全局模型。

示例性的，图8是本申请实施例涉及的一种联邦知识蒸馏学习示意图。如图8所示，在中心节点设备中，获取到的各个边缘节点设备对应的子模型可以分别组成一个模型子集，边缘节点设备0对应的各个子模型可以组成模型子集0，边缘节点设备1对应的各个子模型可以组成模型子集1，边缘节点设备2对应的各个子模型可以组成模型子集2，边缘节点设备k-1对应的各个子模型可以组成模型子集k-1，通过中心节点设备中存储的第二训练数据集#K，分别输入各个模型子集中，获取各个模型子集中的各个子模型对应的输出，将各个子模型对应的输出以及第二训练数据集输入到至少一个第二初始全局模型组成的模型子集#K中（S81），训练生成至少一个全局模型（S82）。

响应于指定模型集成策略包含第四模型集成策略，且第四模型集成策略是投票集成融合算法（federated voting）。

中心节点设备中包含第二训练数据集；第二训练数据集是由中心节点设备存储的数据集；第二训练数据集中包含特征数据以及标签数据中心节点设备获取至少一个第三初始全局模型，第三初始全局模型是分类模型；将第二训练数据集中的特征数据分别输入至少两个边缘节点设备各自训练得到的子模型中，获取至少两个第一输出数据，响应于第一输出数据是分类结果数据，对第一输出数据进行分类结果统计，获取各个分类结果对应的统计结果；基于统计结果以及标签数据，更新第三初始全局模型中的模型参数，获取全局模型。

示例性的，对于一个二分类模型，模型输出的结果为正类或者负类，全局模型可以是联邦投票模型，联邦投票模型的分类结果由边缘节点设备对应的子模型的分类结果的“多数投票”决定。对于某一条待分类数据，如果多数边缘节点设备对应的子模型的分类结果是“正类”，则联邦投票模型的分类结果就取“正类”。反之，如果多数边缘节点设备对应的子模型的分类结果是“负类”，则联邦投票模型的分类结果就取“负类”。当二者数量相等时，可以简单采用随机选择的方式确定联邦投票模型的分类结果，根据分类结果对联邦投票模型进行更新，生成更新后的全局模型。

响应于指定模型集成策略包含第五模型集成策略，且第五模型集成策略是模型嫁接方法。

中心节点设备从各个边缘节点设备对应的子模型中获取至少一个子模型的功能层，功能层用于指示实现指定功能运算的部分模型结构；响应于至少两个功能层组成的模型具有完整的模型结构，获取包含至少两个功能层的模型作为全局模型。

示例性的，中心节点设备对应的联邦服务器可以采用模型嫁接的方法对接收到的边缘节点设备的子模型进行模型融合。当子模型是神经网络模型时，可以从不同的边缘节点设备的子模型里取出不同的层，重新组合生成全局模型。

在一种可能的实现方式中，当中心节点设备中拥有第二训练数据集时，对所组合的模型继续进行模型训练，生成全局模型。

比如，边缘节点设备1通过基于差分隐私的模型训练获得训练完成的子模型1，当子模型1是一个卷积神经网络模型，边缘节点设备2通过基于差分隐私的模型训练获得训练完成的子模型2，且子模型2是一个循环神经网络模型，中心节点设备可以选取子模型1的输入层以及卷积层，子模型2的全连接层以及输出层进行模型嫁接，生成全局模型。

步骤606，中心节点设备将全局模型发送给至少两个边缘节点设备。

在本申请实施例中，中心节点设备可以将生成的至少一个全局模型发送给各个边缘节点设备。

在一种可能的实现方式中，中心节点设备将至少一个全局模型上传到公有云或私有云上的联邦学习平台中，以对外提供联邦学习服务。

步骤607，边缘节点设备接收由中心节点设备发送的全局模型。

在一种可能的实现方式中，边缘节点设备通过接收由中心节点设备发送的全局模型对应的模型参数，边缘节点设备根据接收到的模型参数以及全局模型对应的模型结构生成对应的全局模型。

其中，全局模型是中心节点设备基于指定模型集成策略对所至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；训练得到的子模型是中心节点设备基于模型训练信息获取的模型。

图9是根据一示例性实施例示出的一种基于分布式数据处理方法框架示意图。如图9所示，在分布系统中包含k个边缘节点设备，各个边缘节点设备中包括终端91以及数据存储器92，数据存储器92中存储有第一训练数据集。通过差分隐私机制对各个子模型进行训练，生成各个训练完成的子模型93，将各个训练完成的子模型93发送给中心节点设备，由中心节点设备中的模型集成运算模块94进行各个子模型的模型集成，其中，各个子模型可以通过子模型的加权平均生成全局模型96，或者通过从中心节点设备的数据存储器95中获取第二训练数据集，通过将第二训练数据集输入各个训练完成的子模型93中得到模型输出，根据各个模型输出对全局模型进行模型训练，生成训练完成的全局模型96，或者，通过将第二训练数据集输入各个训练完成的子模型93中得到模型输出，以及第二训练数据集共同训练全局模型，生成训练完成的全局模型96，或者，通过获取各个子模型中的功能层，将各个功能层进行模型嫁接，生成全局模型，然后基于第二训练数据集对全局模型进行模型训练，得到训练完成的全局模型96。集成的全局模型96可以发送给各个边缘节点设备，由各个边缘节点设备进行模型应用。

图10是根据一示例性实施例示出的一种分布式数据处理装置的结构方框图。该分布式数据处理装置用于分布式系统中的中心节点设备，可以实现图4或图6所示实施例提供的方法中的全部或部分步骤，该分布式数据处理装置包括：

训练信息获取模块1010，用于获取所述至少两个边缘节点设备分别发送的模型训练信息；所述模型训练信息是以明文的形式传输的；所述模型训练信息是所述边缘节点设备通过差分隐私的方式对子模型进行训练获得的；

子模型获取模块1020，用于基于所述至少两个边缘节点设备分别发送的所述模型训练信息，获取所述至少两个边缘节点设备各自训练得到的所述子模型；

模型集成模块1030，用于基于指定模型集成策略，对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成，获取全局模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

所述模型集成模块1030，包括：

在一种可能的实现方式中，所述权重获取子模块，包括：

所述模型集成模块1030，包括：

第一初始模型获取子模块，用于获取第一初始全局模型；

所述模型集成模块1030，包括：

第二初始模型获取子模块，用于获取第二初始全局模型；

所述模型集成模块1030，包括：

或者，

图11是根据一示例性实施例示出的一种分布式数据处理装置的结构方框图。该分布式数据处理装置用于分布式系统中的边缘节点设备，该分布式系统中包含中心节点设备与所述至少两个边缘节点设备，该分布式数据处理装置可以实现图5或图6所示实施例提供的方法中的全部或部分步骤，该分布式数据处理装置包括：

信息生成模块1110，用于通过差分隐私的方式对子模型进行训练，生成模型训练信息；

信息发送模块1120，用于以明文的形式向所述中心节点设备传输所述模型训练信息；

模型接收模块1130，用于接收由所述中心节点设备发送的全局模型；所述全局模型是所述中心节点设备基于指定模型集成策略对所述至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；所述训练得到的子模型是所述中心节点设备基于所述模型训练信息获取的模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。

综上所述，本申请实施例所示的方案，在分布式系统中，至少两个边缘节点设备分别各自通过差分隐私的方式训练子模型，然后中心节点设备获取到以明文的形式传输的模型训练信息，中心节点设备通过接收到的模型训练信息获取到对应的训练完成的子模型，并且对各个训练完成的子模型运用基于密码学的安全模型融合策略之外的其它模型集成策略进行模型集成，生成全局模型。通过上述方案，由于使用了差分隐私机制，可以直接以明文的方式获取到多个子模型，从而解决了在传统横向联邦学习中只能使用联邦平均算法进行模型融合的问题，进而在保证了数据隐私安全的前提下，提高了模型集成的质量。

图12是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的分布式系统。所述计算机设备1200包括中央处理单元（CPU，Central Processing Unit）1201、包括随机存取存储器（Random Access Memory，RAM）1202和只读存储器（Read-Only Memory，ROM）1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器（未示出）连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者光盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）驱动器之类的计算机可读介质（未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术，CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1201通过执行该一个或一个以上程序来实现图4、图5或图6所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序（指令）的存储器，上述程序（指令）可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种分布式数据处理方法，其特征在于，所述方法由分布式系统中的中心节点设备执行，所述分布式系统中包含所述中心节点设备与至少两个边缘节点设备；所述方法包括：

获取所述至少两个边缘节点设备分别发送的模型训练信息；所述模型训练信息是以明文的形式传输的；所述模型训练信息是所述边缘节点设备通过差分隐私的方式对子模型进行训练获得的；所述差分隐私的方式包括对所述子模型的模型梯度以及所述子模型的模型参数中的至少一种添加随机噪声；

响应于指定模型集成策略包含第一模型集成策略，基于所述至少两个边缘节点设备的权重影响参数，获取所述至少两个边缘节点设备各自训练得到的所述子模型的集成权重；所述权重影响参数包括所述边缘节点设备对应的可信任度以及所述边缘节点设备中的第一训练数据集的数据量中的至少一种；所述集成权重用于指示所述子模型的输出值对全局模型的输出值的影响情况；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略；

从所述至少两个边缘节点设备各自训练得到的所述子模型中分别获取至少一个所述子模型，生成至少一个集成模型集合；所述集成模型集合是用于集成一个全局模型的所述子模型的集合；

基于所述集成权重，对至少一个所述集成模型集合中的各个所述子模型进行加权平均，获取至少一个所述全局模型。

2.根据权利要求1所述的方法，其特征在于，所述至少两个边缘节点设备各自训练的所述子模型的模型结构不同。

3.根据权利要求1所述的方法，其特征在于，响应于所述指定模型集成策略包含第二模型集成策略，所述中心节点设备中包含第二训练数据集；所述第二训练数据集是由所述中心节点设备存储的数据集；所述第二训练数据集中包含特征数据以及标签数据；

基于指定模型集成策略，对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成，获取全局模型，包括：

获取第一初始全局模型；

将所述第二训练数据集中的所述特征数据分别输入所述至少两个边缘节点设备各自训练得到的所述子模型中，获取至少两个第一输出数据；

将所述第一输出数据输入所述第一初始全局模型；

基于所述第二训练数据集中的所述标签数据，以及所述第一初始全局模型的输出结果，更新所述第一初始全局模型中的模型参数，获得所述全局模型。

4.根据权利要求1所述的方法，其特征在于，响应于所述指定模型集成策略包含第三模型集成策略，所述中心节点设备中包含第二训练数据集；所述第二训练数据集是由所述中心节点设备存储的数据集；所述第二训练数据集中包含特征数据以及标签数据；

获取第二初始全局模型；

将所述第一输出数据以及所述第二训练数据集中的所述特征数据输入到所述第二初始全局模型中，获取第二输出数据；

基于所述第二输出数据以及所述第二训练数据集中的所述标签数据，更新所述第二初始全局模型中的模型参数，获得所述全局模型。

5.根据权利要求1所述的方法，其特征在于，响应于所述指定模型集成策略包含第四模型集成策略，所述中心节点设备中包含第二训练数据集；所述第二训练数据集是由所述中心节点设备存储的数据集；所述第二训练数据集中包含特征数据以及标签数据；

获取第三初始全局模型；所述第三初始全局模型是分类模型；

响应于所述第一输出数据是分类结果数据，对所述第一输出数据进行分类结果统计，获取各个所述分类结果对应的统计结果；

基于所述统计结果以及所述标签数据，更新所述第三初始全局模型中的模型参数，获得所述全局模型。

6.根据权利要求1所述的方法，其特征在于，响应于所述指定模型集成策略包含第五模型集成策略；

从各个所述边缘节点设备对应的所述子模型中获取至少一个所述子模型的功能层；所述功能层用于指示实现指定功能运算的部分模型结构；

响应于至少两个所述功能层组成的模型具有完整的模型结构，获取包含至少两个所述功能层的模型作为所述全局模型。

7.根据权利要求1所述的方法，其特征在于，

所述至少两个边缘节点设备对各自的所述子模型进行训练的过程中，使用相同的差分隐私算法；

或者，

8.根据权利要求1所述的方法，其特征在于，所述至少两个边缘节点设备中存储的至少两个第一训练数据集是符合横向联邦学习数据分布的。

9.一种分布式数据处理方法，其特征在于，所述方法由分布式系统中的边缘节点设备执行，所述分布式系统中包含中心节点设备与至少两个所述边缘节点设备；所述方法包括：

通过差分隐私的方式对子模型进行训练，生成模型训练信息；所述差分隐私的方式包括对所述子模型的模型梯度以及所述子模型的模型参数中的至少一种添加随机噪声；

以明文的形式向所述中心节点设备传输所述模型训练信息；

接收由所述中心节点设备发送的全局模型；所述全局模型是所述中心节点设备基于指定模型集成策略对所述至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；所述训练得到的子模型是所述中心节点设备基于所述模型训练信息获取的模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略；所述全局模型是响应于所述指定模型集成策略包含第一模型集成策略，基于所述至少两个边缘节点设备的权重影响参数，获取所述至少两个边缘节点设备各自训练得到的所述子模型的集成权重，从所述至少两个边缘节点设备各自训练得到的所述子模型中分别获取至少一个所述子模型，生成至少一个集成模型集合，基于所述集成权重，对至少一个所述集成模型集合中的各个所述子模型进行加权平均获取得到的；所述权重影响参数包括所述边缘节点设备对应的可信任度以及所述边缘节点设备中的第一训练数据集的数据量中的至少一种；所述集成权重用于指示所述子模型的输出值对所述全局模型的输出值的影响情况；所述集成模型集合是用于集成一个全局模型的所述子模型的集合。

10.一种分布式数据处理装置，其特征在于，所述装置用于分布式系统中的中心节点设备，所述分布式系统中包含所述中心节点设备与至少两个边缘节点设备；所述装置包括：

训练信息获取模块，用于获取所述至少两个边缘节点设备分别发送的模型训练信息；所述模型训练信息是以明文的形式传输的；所述模型训练信息是所述边缘节点设备通过差分隐私的方式对子模型进行训练获得的；所述差分隐私的方式包括对所述子模型的模型梯度以及所述子模型的模型参数中的至少一种添加随机噪声；

模型集成模块，用于响应于指定模型集成策略包含第一模型集成策略，基于所述至少两个边缘节点设备的权重影响参数，获取所述至少两个边缘节点设备各自训练得到的所述子模型的集成权重；所述权重影响参数包括所述边缘节点设备对应的可信任度以及所述边缘节点设备中的第一训练数据集的数据量中的至少一种；所述集成权重用于指示所述子模型的输出值对全局模型的输出值的影响情况；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略；

所述模型集成模块，还用于从所述至少两个边缘节点设备各自训练得到的所述子模型中分别获取至少一个所述子模型，生成至少一个集成模型集合；所述集成模型集合是用于集成一个全局模型的所述子模型的集合；

所述模型集成模块，还用于基于所述集成权重，对至少一个所述集成模型集合中的各个所述子模型进行加权平均，获取至少一个所述全局模型。

11.一种分布式数据处理装置，其特征在于，所述装置用于分布式系统中的边缘节点设备，所述分布式系统中包含中心节点设备与至少两个所述边缘节点设备；所述装置包括：

信息生成模块，用于通过差分隐私的方式对子模型进行训练，生成模型训练信息；所述差分隐私的方式包括对所述子模型的模型梯度以及所述子模型的模型参数中的至少一种添加随机噪声；

模型接收模块，用于接收由所述中心节点设备发送的全局模型；所述全局模型是所述中心节点设备基于指定模型集成策略对所述至少两个边缘节点设备各自训练得到的子模型进行模型集成获得的；所述训练得到的子模型是所述中心节点设备基于所述模型训练信息获取的模型；所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略；所述全局模型是响应于所述指定模型集成策略包含第一模型集成策略，基于所述至少两个边缘节点设备的权重影响参数，获取所述至少两个边缘节点设备各自训练得到的所述子模型的集成权重，从所述至少两个边缘节点设备各自训练得到的所述子模型中分别获取至少一个所述子模型，生成至少一个集成模型集合，基于所述集成权重，对至少一个所述集成模型集合中的各个所述子模型进行加权平均获取得到的；所述权重影响参数包括所述边缘节点设备对应的可信任度以及所述边缘节点设备中的第一训练数据集的数据量中的至少一种；所述集成权重用于指示所述子模型的输出值对所述全局模型的输出值的影响情况；所述集成模型集合是用于集成一个全局模型的所述子模型的集合。

12.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的分布式数据处理方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的分布式数据处理方法。