CN115796276A

CN115796276A - 一种基于联邦学习的决策树构建方法、装置及存储介质

Info

Publication number: CN115796276A
Application number: CN202211528209.6A
Authority: CN
Inventors: 陈磊; 雷宇; 高翔; 王真; 张润滋; 冉靖
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-14

Abstract

本申请公开了一种基于联邦学习的决策树构建方法、装置及存储介质。涉及人工智能技术领域。该方法具体包括：服务器向至少两个终端设备发送第一指示信息，第一指示信息用于指示对样本数据进行统计。然后，服务器接收至少两个样本统计参数，并根据至少两个样本统计参数确定全局统计参数，并根据全局统计参数判断决策树的第一节点是否满足分裂条件。若满足分裂条件，服务器向至少两个终端设备发送第二指示信息，第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。该方法用以解决现有网络模型对样本分类时的泛化能力较差，分类结果容易过拟合的问题。

Description

一种基于联邦学习的决策树构建方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于联邦学习的决策树构建方法、装置及存储介质。

背景技术

随着数据量的逐渐增大，如何合理、安全挖掘并利用数据的价值成为研究的重点。联邦学习是一种具有隐私和敏感数据保护能力的分布式机器学习技术，联邦学习涉及两个及以上的参与方设备，各个参与方设备之间无需共享本地数据即可实现机器学习的建模、训练。

将联邦学习与提升树算法结合，利用提升树算法基于决策树构建而成的特点，可使得联邦学习算法最终具有样本分类的能力。但是，基于提升树构建的网络模型，对样本分类时的泛化能力较差，分类结果容易过拟合。

发明内容

本申请提供了一种基于联邦学习的决策树构建方法、装置及存储介质，用以解决现有联邦学习算法泛化能力较差的问题。

第一方面，本申请提供了一种基于联邦学习的决策树构建方法。以该方法应用于联邦学习系统中的服务器为例，该方法具体包括：服务器向至少两个终端设备发送第一指示信息，第一指示信息用于指示对样本数据进行统计。然后，服务器接收至少两个样本统计参数。其中，至少两个样本统计参数与至少两个终端设备一一对应，至少两个样本统计参数中的第一样本统计参数是对第一统计信息加扰得到的，第一统计信息为至少两个终端设备中的第一终端设备基于特征值集合对样本数据进行统计获得的信息，特征值集合为至少两个终端设备的样本数据的特征值的集合。然后，服务器根据至少两个样本统计参数确定全局统计参数，并根据全局统计参数判断决策树的第一节点是否满足分裂条件。全局统计参数用于指示至少两个终端设备的样本数据的统计信息，决策树用于构建网络模型。若满足分裂条件，服务器向至少两个终端设备发送第二指示信息，第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。

在本申请实施例中，特征值集合是至少两个终端设备的样本数据的特征值的集合，即各个终端设备对自身样本数据的统计是基于所有终端设备共同的特征值集合确定的。服务器整合所有终端设备针对样本数据的统计，整合后的统计信息用于决策树的构建，可使得构建出的决策树的分类结果更加准确。

可选的，第一样本统计参数是根据第一终端设备与至少一个终端设备分别协商获得的噪声参数对第一统计信息加扰得到的。

噪声参数是第一终端设备与至少一个终端设备分别协商获得的，第一终端设备根据该噪声参数对第一统计信息进行加噪，这样服务器从第一样本统计参数无法直接获取第一统计信息。通过该方法可以减少终端设备的隐私数据的泄露，提高了安全性。

可选的，第一节点为决策树的初始节点，服务器向至少两个终端设备发送第一指示信息之前，还包括：服务器发送至少两个样本编号集，至少两个样本编号集与至少两个终端设备一一对应，其中，至少两个样本编号集中的第一样本编号集是基于第一终端设备的初始样本编号集随机抽样确定的。然后，服务器接收至少两个特征值，至少两个特征值与至少两个终端设备一一对应，一个特征值为一个终端设备的样本数据的特征值。然后，服务器根据至少两个特征值确定特征值集合，并将特征值集合发送给至少两个终端设备。

各个终端设备的样本数据是根据各自初始样本随机抽样所得，更为合理，使得决策树对样本数据中的异常值不敏感，提高了决策树的泛化能力。

可选的，服务器根据至少两个样本统计参数确定全局统计参数，包括：服务器对至少两个样本统计参数进行累加，以消除各个样本统计参数中的加噪参数。服务器根据至少两个样本统计参数的累加结果确定全局统计参数。

可选的，第二指示信息包括样本数据分割的中间值，中间值指示对样本数据按照中间值一分为二。

可选的，该方法还包括：若第一节点不满足分裂条件，服务器将第一节点设置为叶子节点，其中，叶子节点的叶子值根据全局统计参数确定。

第二方面，本申请提供了一种基于联邦学习的决策树构建方法，以该方法应用于联邦学习系统中的第一终端设备为例，该方法具体包括：第一终端设备接收第一指示信息，第一指示信息用于指示第一终端设备对样本数据进行统计。然后，第一终端设备基于特征值集合对样本数据进行统计，获得第一统计信息，并对所述第一统计信息进行加扰处理，获得第一样本统计参数。其中，特征值集合为至少两个终端设备的样本数据的特征值的集合。然后，第一终端设备将第一样本统计参数发送给服务器。第一终端设备接收第二指示信息，第二指示信息用于指示对样本数据进行分割。其中，分割所述样本数据后获得的样本数据作为下一次需要训练的样本数据。

可选的，第一终端设备对第一统计信息进行加扰处理，获得第一样本统计参数，包括：第一终端对第一统计信息添加第一终端设备的噪声参数，生成第一样本统计参数。

可选的，在第一终端设备基于特征值集合对所述样本数据进行统计之前，该方法还包括：第一终端设备与至少一个终端设备中的其他终端设备两两间通过迪菲-赫尔曼密钥交换生成随机噪声。然后，第一终端设备根据与其他终端设备的随机噪声生成噪声参数。

可选的，在第一终端设备接收第一指示信息之前，该方法还包括：第一终端设备接收第一样本编号集，根据第一样本编号集确定样本数据。其中，第一样本编号集是基于第一终端设备的初始样本编号集随机抽样确定的。第一终端设备统计样本数据的特征值，并将特征值发送给服务器。

第三方面，本申请提供了一种服务器，该服务器具体包括：收发单元及计算单元。其中，收发单元用于向至少两个终端设备发送第一指示信息，以及接收至少两个样本统计参数。第一指示信息用于指示对样本数据进行统计。至少两个样本统计参数与至少两个终端设备一一对应，至少两个样本统计参数中的第一样本统计参数是对第一统计信息加扰得到的，第一统计信息为至少两个终端设备中的第一终端设备基于特征值集合对样本数据进行统计获得的信息，所述特征值集合为至少两个终端设备的样本数据的特征值的集合。计算单元用于根据至少两个样本统计参数确定全局统计参数，并根据全局统计参数判断决策树的第一节点是否满足分裂条件。收发单元还用于在第一节点满足所述分裂条件的情况下，向至少两个终端设备发送第二指示信息。第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。

可选的，收发单元还用于发送至少两个样本编号集，接收至少两个特征值，并根据所述至少两个特征值确定特征值集合，并将所述特征值集合发送给至少两个终端设备。其中，至少两个样本编号集与至少两个终端设备一一对应，至少两个样本编号集中的第一样本编号集是基于第一终端设备的初始样本编号集随机抽样确定的。

可选的，计算单元还用于对至少两个样本统计参数进行累加，以消除各个样本统计参数中的加噪参数。然后，计算单元根据至少两个样本统计参数的累加结果确定全局统计参数。

可选的，计算单元还用于：若第一节点不满足分裂条件，将第一节点设置为叶子节点，其中，叶子节点的叶子值根据全局统计参数确定。

第四方面，本申请提供了一种终端设备，该终端设备具体包括收发单元及计算单元。收发单元用于接收第一指示信息，将第一样本统计参数发送给服务器，以及接收第二指示信息。其中，第一指示信息用于指示第一终端设备对样本数据进行统计。计算单元用于基于特征值集合对样本数据进行统计，获得第一统计信息，并对第一统计信息进行加扰处理，获得第一样本统计参数。其中，特征值集合为至少两个终端设备的样本数据的特征值的集合。第二指示信息用于指示对样本数据进行分割。其中，分割所述样本数据后获得的样本数据作为下一次需要训练的样本数据。

可选的，计算单元具体用于对第一统计信息添加第一终端设备的噪声参数，生成第一样本统计参数。

可选的，计算单元还用于与至少一个终端设备中的其他终端设备两两间通过迪菲-赫尔曼密钥交换生成随机噪声。然后，计算单元根据与其他终端设备的随机噪声生成噪声参数。

可选的，收发单元还用于接收第一样本编号集，其中，第一样本编号集是基于所述第一终端设备的初始样本编号集随机抽样确定的。计算单元还用于根据第一样本编号集确定所述样本数据，统计样本数据的特征值。收发单元还用于将特征值发送给服务器。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括至少一个处理器以及与至少一个处理器通信连接的存储器。其中，存储器存储有被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行上述第一方面或第二方面中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机存储介质，计算机存储介质存储有计算机程序指令，该计算机程序指令用于执行上述第一方面或第二方面中任一项所述的方法。

附图说明

图1为本申请实施例提供的联邦学习系统的架构示意图；

图2为本申请实施例提供的基于联邦学习的决策树构建方法的流程示意图；

图3为本申请实施例提供的一种服务器的结构示意图；

图4为本申请实施例提供的一种终端设备的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为方便本领域技术人员理解本申请实施例提供的方案，在介绍本申请之前，首先对本申请实施例中的部分用语进行简单解释说明。

1)联邦学习是一种具有隐私和敏感数据保护能力的分布式机器学习技术，联邦学习涉及两个及以上的参与方，各个参与方之间无需共享本地数据即可实现机器学习的建模、训练。

根据算法的不同，联邦学习可具体细分至横向联邦学习。横向联邦学习指的是参与联邦学习的各个终端设备的样本数据的特征是相同的，但这些样本数据的标签可能不同。横向联邦学习的过程可以简单理解为各个终端设备的样本数据在某一特征上进行横向累加，故称为横向联邦学习。横向联邦学习适用于各个终端设备处理的业务较为类似，但面向的群体不同，即样本数据的标签可能不同的场景。

2)决策树，是一种树形结构机器学习算法，决策树内每个节点处根据某一属性(或者特征)进行判断，若满足分裂条件，决策树在该节点处分裂，则该节点类型称为“分裂节点”。分裂，可以理解为根据某一属性对样本数据进行分割，以不断对样本数据进行分类，直到叶子节点输出最终的分类结果，因此决策树模型的构建过程可以看作决策树节点不断分裂的过程，最终形成树形的决策树模型。若决策树在该节点处不满足分裂条件，则该节点类型称为“叶子节点”。此外，一颗决策树的初始节点称为“根节点”。

3)随机森林模型，是一种利用套袋法的集成学习方法构建的分类器。随机森林模型包括多颗决策树，每个决策树都具有一定的分类决策能力，随机森林模型将每个决策树的分类决策结果结合在一起，确定最终输出结果。

4)迪菲-赫尔曼密钥，是指通信双方通过公共信道交互协商生成的一个用于在公共信道上通信的共享密码，这种共享密码可称为双方通信的随机噪声，双方在通信时将信息添加该种随机噪声，只有双方才能将该随机噪声消除并获得其中的信息。例如，一个标识为ID_i的终端设备与另一个标识为ID_j的终端设备协商后，标识为ID_i的终端设备获得随机噪声

标识为ID_j的终端设备获得随机噪声

由于

双方可以对彼此添加的噪声进行消除并获得信息。

本申请实施例提供的方法可以应用于包括服务器及至少两个终端设备在内的联邦学习系统。如图1，示出了联邦学习系统的一种架构。图1以联邦学习系统包括一个服务器及N个终端设备(即终端设备1-终端设备N)。其中，各个终端设备及服务器的可以是不同类型的电子设备。例如，终端设备1可以是智能手机，终端设备2可以是平板电脑，终端设备3可以是笔记本电脑等等，终端设备及服务器的类型并不限于此。

任意一个终端设备存储有本地的样本数据，在进行联邦学习训练时，服务器指示该终端设备对本地的样本数据进行训练(统计)，该终端设备对本地的样本数据进行训练后，获得样本数据的统计信息。各个终端设备将统计信息发送给服务器，服务器将所有终端设备的统计信息进行整合，得到所有终端设备的本地样本数据的统计结果。这样，服务器无需获取各个终端设备的本地样本数据，各个终端设备间也不需要共享样本数据，便可实现对各个终端设备的样本数据的统计。

将联邦学习与提升树算法结合，利用提升树算法基于决策树构建而成的特点，可使得联邦学习算法最终具有样本分类的能力。例如，可根据各个终端设备的统计信息构建提升树，最终生成提升树模型。但是，基于提升树构建的网络模型，对样本分类时的泛化能力较差，分类结果容易过拟合。

鉴于此，提供本申请实施例提供的技术方案。在本申请实施例中，服务器根据各个终端设备的统计信息进行决策树的构建，最终生成随机森林模型，使得构建出的随机森林模型的分类更加准确。

本申请旨在构建基于联邦学习系统的多个决策树的随机森林模型。联邦学习系统可由至少两个终端设备及一个服务器组成。任一终端设备上存储有初始样本数据，不同终端设备的初始样本数据的特征大致相同，也就是说，不同终端设备的初始样本数据的特征可能有差异。为满足横向联邦训练的需要，需要各个终端设备的初始样本数据进行处理，使各个终端设备训练的样本数据的特征相同。为了便于描述，下文介绍中以至少两个终端设备包括第一终端设备及第二终端设备为例。第一终端设备及第二终端设备可以是至少两个终端设备中的任一终端设备，这里提及的“第一”及“第二”并不用于对多个终端设备进行区分，不用于限定多个终端设备的大小、内容、顺序、时序、优先级或者重要程度等。

为方便理解，下面以第一终端设备的初始样本数据为例，介绍如何处理初始样本数据，使得各个终端设备的样本数据的特征相同。假设第一终端设备的初始样本数据如表1所示。

表1

表1以包括10个初始样本数据为例，即表1包括编号为001～010的初始样本数据。其中，“timestamp”、“sport”、“dport”、“protocol_type”、“rule_id”、“log_message”、“q_body”、“r_body”为初始样本数据的特征列表。每个初始样本数据的所有特征称为初始样本数据的特征列表。一个特征的所有取值称为特征值集合。一个终端设备的特征列表对应的值的集合也称为特征值集合。对于第一终端设备来说，有第一特征值集合，第二终端设备有第二特征值集合。多个终端设备的特征值集合组合称为全局特征值集合。例如，第一特征值集合与第二特征值集合组合所得的集合为全局特征值集合。

样本数据还携带标签，用以标识该初始样本数据。不同的标签所指示的内容也有所不同。如表1所示，以数字来表示标签。例如，标签的取值为0，表示“无法分类的告警”，即样本数据无法分类。类似地，标签的取值为1，表示“正常告警”，标签的取值为2，表示“忽略类告警”，标签的取值为3，表示“低危告警”，标签的取值为4，表示“灰色行为”，标签的取值为5，表示“高危告警”。当然，也可以用字母、符号等非数值数据来标识不同的标签，可以随意匹配，只要能够用于区分标签即可。

多个终端设备的样本数据的特征相同，相当于多个终端设备的样本数据的特征列表相同。服务器可以根据多个终端设备的初始样本数据，确定各个终端设备要训练的样本数据。为了减少不同样本数据中的异常值，服务器可以从一个终端设备的初始样本数据中随机抽样样本数据，对随机抽样所得的样本数据进行处理，以使得各个终端设备的样本数据的特征相同。

例如，服务器根据初始样本编号集及所有终端设备的特征列表d确定全局特征列表、第一终端的第一样本编号集与第二终端的第二样本编号集。由于多个终端设备的样本数据的特征列表相同，即所有终端设备的特征列表d相同，服务器可根据一个终端设备的特征列表d，按照预设的特征采样比乘以特征列表d中的特征数得到抽样的特征数a，并从特征列表d中随机抽取a个特征，作为第一终端设备和第二终端设备样本数据的全局特征列表。通过随机抽取而生成的全局特征列表可以用于终端设备后续以该全局特征列表为基础统计第一终端设备对应的第一特征值集合，第二终端设备对应的第二特征值集合，使得终端设备统计的样本具有随机性。服务器根据样本采样比乘以第一终端初始样本编号集中的总数目得到第一终端样本数据的总数b，并从第一终端设备的初始样本编号集中随机抽取b个初始样本编号，得到第一终端的第一样本编号集。类似地，服务器可以以同样的方式获得第二终端的第二样本编号集。

服务器将第一样本编号集发送给第一终端设备，将第二样本编号集发送给第二终端设备。第一终端设备接收第一样本编号集，根据第一样本编号集从初始样本数据中确定要训练的第一样本数据，并根据第一样本数据及全局特征列表确定第一特征值集合。第一终端设备统计第一样本数据的每一个特征的取值范围，汇总所有特征的取值范围得到第一特征值集合。可以理解的是，每一个特征的取值范围都是一个离散取值集合，其包含的元素是样本编号集中样本数据在该特征上的所有取值。沿用表1的例子，特征“protocol_type”的取值范围是{0,1}，特征timestamp的取值范围为{1616498002,1616515791,1616459127,1616482491,1616469077,1616509218,1616468288,1616486998,1616466874,1616468365}。第一终端设备获得第一特征值集合之后，可将第一特征值集合发送给服务器。同理，第二终端设备接收第二样本编号集，根据第二样本编号集及全局特征列表从初始样本数据中确定要训练的第二样本数据，并根据第二样本数据确定第二特征值集合。第二终端设备将第二特征值集合发送给服务器。

服务器接收到第一特征值集合、第二特征值集合后，根据第一特征值集和第二特征值集合确定第一终端设备和第二终端设备的样本数据的特征值集合。为方便描述，下文中将第一终端设备和第二终端设备的样本数据的特征值集合称为第三特征值集合。服务器将第三特征值集发送给第一终端设备和第二终端设备。从而第一终端设备和第二终端设备基于第三特征值集合对样本数据进行训练或统计。

下面具体介绍服务器如何根据第一特征值集合和第二特征值集合确定第三特征值集合。

假设特征i为离散型(数值或者非数值)取值，其特征值集合就是特征i在第一特征值集合和第二特征值集合的所有取值的集合，i∈{1,2,3,…,s}，形式如下：

特征i：

其中，num_i表示特征i的特征值集合中包含的元素个数，

表示特征i的第k个离散型取值，k∈{1,2,3,…,num_i}。可以理解的，离散型特征的数值大小一般与实际意义无关联，所以不用排序。与实际意义有关联的离散数值看作连续型数值处理。

假设特征j为连续型取值，由于连续型特征值具有实际意义，需要对第一特征值集合和第二特征值集合的所有取值的集合确定的特征值集合进行进一步排序处理，得到排序后的特征值集合。具体的，若该特征j的特征值集合中包含的元素个数小于等于候选量D，则进行升序(或者降序)排列，作为特征j的在所有终端设备上的取值范围，j∈{1,2,3,…,s}，特征值集合形式如下：

抽样特征j：

其中，

表示第k大的j特征取值。

若该特征j的特征值集合中包含的元素个数大于D，则需要对特征值范围进行区间划分，可以进行等长划分也可以是不等长划分。以升序排列为例，若进行等长划分，那么得到的抽样特征j的在所有终端设备上的取值范围，j∈{1,2,3,…,s}，特征值集合形式如下：

特征j：

其中，

分别表示特征j的全局最小、最大取值，固定步长

为

k∈{1,2,3,…,D-1}。若进行不等长划分，初始化阶段预设预设的候选量D，从区间

中随机抽取D个互不相同的值，进行升序(或者降序)排列，得到特征j的在所有终端设备上的特征值集合形式如下：

特征j：

其中，

表示抽取的第i大的随机值。

本申请旨在构建基于联邦学习系统的多个决策树的随机森林模型。在构建之前，服务器初始化随机森林模型参数。随机森林模型的参数包括决策树数量、决策树最大深度、节点分裂最小样本量、叶子最小样本量、最小分裂增益、样本采样比、特征采样比、特征分裂值候选量以及决策树搜索原则等。其中，决策树搜索原则可以是深度优先搜索原则或者广度优先搜索原则。决策树搜索原则可以理解为，在决策树当前节点类型确定后，确定下一个未确定类型的节点的搜索方式。样本采样比为样本数据与初始样本数据的比率，特征采样比为特征列表与全局特征列表中特征个数的比率，特征采样比为(0,1]范围中的数，默认取为0.8，也可以根据特征数量d，取为

或者log₂ d。决策树最大深度、节点分裂最小样本量、叶子最小样本量为决策树构建的指标，指示决策树构建完成的条件。其余参数按照sklearn官方随机森林算法的默认值确定初值。

服务器还初始化各个决策树的根节点，设置根节点的节点信息。决策树的节点信息包括节点路径、节点类型、分裂特征、分裂值、叶子值、左子节点、右子节点。服务器将根节点的节点信息设置为空值，作为第一个等待分裂的节点。需要说明的是，决策树根节点的路径可以为空，但其他节点的路径均不为空。例如，根节点的左子节点路径是“0”，右子节点路径是“1”，对于根节点的左子节点，其左子节点路径为“00”，右子节点路径为“01”，以此类推。此外，根据节点的路径字符长度确定该节点的深度。服务器初始化决策树的每一个节点后，都将该节点的节点信息发送给各个终端设备，各个终端设备接收该节点的节点信息，在本地保存该决策树模型中各个节点的信息。

请参见图2，示出了随机森林模型中每颗决策树的构建流程。图2以第一终端设备及第二终端设备和服务器执行为例。

S201、服务器向第一终端设备和第二终端设备发送第一指示信息，第一指示信息用于指示对样本数据进行统计。

第一指示信息包括决策树当前节点的节点路径，以及当前节点的节点编号。第一指示信息可指示接收到该第一指示信息的终端设备对样本数据进行统计。以第一终端设备为例，如果当前节点为根节点，第一指示信息则指示第一终端设备根据服务器针对当前节点确定的特征值集合对第一样本数据进行统计。服务器针对当前节点确定的特征值集合也就是上述的第三特征值集合。若当前节点不是根节点，第一指示信息指示第一终端设备根据上一个节点确定的特征值集合对上一个节点的第一样本数据进行统计。

由于样本数据携带标签，终端设备的样本数据的标签分布可以不同，因此，第一终端设备可以基于特征值集合对样本数据的标签分布进行统计。以当前节点为根节点为例，第一终端设备基于第三特征值集合对第一样本数据进行统计，生成第一统计信息，具体如下：

其中，

表示标识为ID的终端设备的统计信息，t决策树当前节点的编号，对应于当前树的第t个树节点。

形式是一个三重键字典。

i∈{1，2，...，s}，j∈当前节点特征值集合索引集，k∈{1，2，...，c}表示特征i中，取值在区间

内，标签为lable_k的样本个数，s表示当前决策树采用的特征列表中特征的个数，c表示全局标签中包含的标签类别总数。

沿用表1的例子，当前节点为根节点，第一统计信息

为：

联邦学习系统中的其他终端设备采用同样的方法获得样本数据的统计信息。例如，与第一终端设备类似，第二终端设备接收第一指示信息，对第二样本数据进行统计，获得第二统计信息。由于多个终端设备进行统计的样本数据的特征列表相同，因此服务器获得多个统计信息后基于相同特征横向结合各个终端设备上的样本的统计信息，获得样本数据的全局统计信息。

然而，如果第一终端设备将第一统计信息发送给服务器，可能会造成第一终端设备的隐私数据的泄露。为此，在本申请实施例中，各个终端设备获得统计信息之后，可以对获得的统计信息进行加扰处理，以减少隐私数据的泄露，提高安全性。

本申请实施例中的终端设备可以通过与其他终端设备分别协商获得的噪声参数对统计信息加扰。以第一终端设备和第二终端设备为例，第一终端设备与第二终端设备通过迪菲-赫尔曼密钥交换生成随机噪声，第一终端根据协商获得的随机噪声生成噪声参数。第一终端设备使用噪声参数为第一统计信息进行加噪。第二终端设备使用噪声参数为第二统计信息进行加噪。例如，假设第一终端设备的标识为ID_i，第二终端设备的标识为ID_j，第一终端设备与第二终端设备协商后获得随机噪声为

相应的，第二终端设备协商后获得随机噪声

其中，

第一终端设备根据随机噪声

生成噪声参数

同理，第二终端设备根据随机噪声

生成噪声参数

第一终端设备根据噪声参数R_i对第一统计信息进行加噪，获得第一样本统计参数。第二终端设备根据噪声参数R_j对第二统计信息进行加噪，获得第二样本统计参数。

以第一终端设备为例，第一终端设备将第一终端设备的噪声参数

添加到第一统计信息，生成第一样本统计参数。具体的，第一终端设备将噪声r_i＝R_i添加到第一统计信息

中的每一个

得到

生成加噪后的第一样本统计参数

当前节点为根节点时，第一统计信息

对应的第一样本统计参数

如下：

S202、第一终端设备向服务器发送第一样本统计参数，第二终端设备向服务器发送第二样本统计参数，相应的，服务器接收第一样本统计参数和第二样本统计参数。

服务器接收到第一样本统计参数和第二样本统计参数之后，将第一样本统计参数和第二样本统计参数存储至本地，以供后续计算使用。需要说明的是，本申请实施例以第一终端设备和第二终端设备为例，任意一个终端设备获取样本统计参数之后，将该样本统计参数发送给服务器。

S203、服务器根据第一样本统计参数和第二样本统计参数确定全局统计参数。

全局统计参数用于指示所有终端设备的样本数据的统计信息，可根据所有终端设备的样本统计参数确定。任意一个样本统计参数中的统计信息被添加噪声，因此，服务器从单独的一个样本统计参数无法获取该样本统计参数中的统计信息。在本申请实施例中，服务器可聚合所有样本统计参数，这样所有样本统计参数中的噪声参数也会累加，便能消除样本统计参数中的噪声。因此，所有样本统计参数聚合在一起获得的统计信息便是全局统计信息。

例如，服务器在接收到加噪后的第一统计信息和第二统计信息后，将第一统计信息和第二统计信息进行聚合，聚合后的噪声参数

因为

服务器将聚合后的噪声参数R_i的矩阵的上三角区域元素与下三角区域元素反号，使得R_k累加值为0，服务器便可获得聚合后的第一统计信息与第二统计信息。

同理，当终端设备的数目有n个时，服务器根据各个终端设备得到聚合后的噪声参数

其中，

上述噪声参数矩阵R_k的每一行即代表各个终端设备拥有的噪声参数

其中，其中

表示存储在终端设备i中的与参与方设备j协商的噪声。因此，服务器通过将聚合后的噪声参数R_k的矩阵的上三角区域元素与下三角区域元素反号，使聚合得到的噪声参数R_k＝0，实现不得知各个终端设备的统计信息的情况下，获得全局统计参数。

具体的，全局统计参数的具体计算公式如下：

其中，

count_i,j,k,i∈{1,2,…,s},j∈当前节点特征值集合索引集,k∈{1,2,…,c}表示在全局数据集上，特征i取值在区间

内、标签为lable_k的样本个数。

服务器在确定全局统计参数后，提取全局统计参数中的全局统计信息。由于全局统计参数S^t中任何一个特征在不同取值上的标签统计分布信息都是同一个全局数据样本的统计信息，所以仅需要选取一个特征的全局统计参数进行有效信息提取。

服务器采用如下公式计算全局统计参数中的样本数量M：

采用如下公式计算全局统计参数中的标签种类数N：

其中，is_nonzero(·)函数定义如下：

S204、服务器根据全局统计参数判断决策树的第一节点是否满足分裂条件，决策树用于构建网络模型。

服务器可以根据全局统计参数来判断当前决策树的节点是否满足分裂条件。若当前决策树的节点满足分裂条件，服务器可指示终端设备继续对样本数据进行分割；如果前决策树的节点不满足分裂条件，则确定该节点为叶子节点。因此，决策树的构建过程可以理解为对样本数据的不断分割，当样本数据分割到一定程度不满足分裂条件时，停止对样本数据分割，达到对样本数据分类的目的。

服务器根据预设的决策树最大深度、节点分裂最小样本量、叶子最小样本量确定满足分裂终止的条件包括：1)该全局统计参数包含的标签种类数N只有一个；2)全局统计参数包含的样本数量M小于节点分裂最小样本量；3)该节点对应的深度达到决策树最大深度。若满足这三个条件之一，则可认为该节点处不满足分裂条件。当不满足分裂条件时，服务器将第一节点设置为叶子节点，叶子节点的叶子值根据全局统计参数确定，具体计算公式如下：

若在第一节点处满足分裂条件，则第一节点为“分裂节点”。服务器根据全局统计参数，基于不纯度指标计算最佳分裂对应的特征与特征值，更新该节点的节点信息，其中节点类型设置为“分裂节点”，将计算得到的特征与特征值赋值给该节点的节点信息中的分裂特征与分裂值。然后，服务器生成两个节点信息为空的树节点，作为当前节点的左子节点与右子节点，其节点路径分别设置为“第t个树节点的节点路径||0”和“第t个树节点的节点路径||1”。其中，||表示字符联接符号，t指示当前节点的节点编号，不纯度指标可以是基尼指数、信息增益或信息增益率等。

S205、决策树的第一节点满足分裂条件，服务器向第一终端设备和第二终端设备发送第二指示信息，第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。

决策树的第一节点满足分裂条件，继续对样本数据进行分割，以对分割后的样本数据继续进行训练，以实现对样本数据更细粒度的分类。决策树的第一节点满足分裂条件，服务器可向第一终端设备和第二终端设备分别发送第二指示信息，以指示对样本数据进行分割。其中，第二指示信息可包括样本数据分割的中间值和第一节点路径、节点类型、分割特征、叶子值、左子节点、右子节点。

第一终端接收第二指示信息，根据第二指示信息中的分割特征及样本数据分割中间值对样本数据进行分割。第一终端设备将样本数据中分割特征上的值小于等于样本数据分割中间值的样本数据划分到左样本数据子集，对应于该第一节点的左子节点，将样本数据中分割特征上的值大于样本数据分割中间值的样本数据划分到右样本数据子集，对应于该第一节点的右子节点。或者，第一终端设备将样本数据中分割特征上的值小于等于样本数据分割中间值的样本数据划分到右本数据子集，对应于该第一节点的右子节点，将样本数据中分割特征上的值大于样本数据分割中间值的样本数据划分到左样本数据子集，对应于该第一节点的孩子节点。

然后，第一终端设备更新第一节点的左子节点、右子节点的特征值集合和样本数据。左子节点的特征值集合更新为第一节点对应特征值集合中小于或等于分裂值的那部分值，第一节点的右子节点的特征值集合更新为树节点对应特征值集合中大于分裂值的那部分值。可以理解的是，当第一节点为“根节点”时，第一终端设备进行统计的样本数据和特征值集合为服务器确定的样本数据和特征值集合，当样本数据和特征值集合在第一节点处分裂后，第一终端设备进行统计的就是子节点对应的样本数据和特征值集合。第一终端设备不断根据上一个节点分裂后确定的样本数据和特征值集合进行分割，直至整颗决策树构建完成为止。

服务器确定所有节点都不满足分裂条件时，即决策树构建完成。以同样的方式，服务器开始下一颗决策树的构建，直至最终建成随机森林模型。

请参见图3，基于同一发明构思，本申请实施例提供了一种服务器300。该服务器300具体包括：收发单元301及计算单元302。收发单元301，用于向至少两个终端设备发送第一指示信息，以及接收至少两个样本统计参数。第一指示信息用于指示对样本数据进行统计。至少两个样本统计参数与至少两个终端设备一一对应，至少两个样本统计参数中的第一样本统计参数是对第一统计信息加扰得到的，第一统计信息为至少两个终端设备中的第一终端设备基于特征值集合对样本数据进行统计获得的信息，所述特征值集合为至少两个终端设备的样本数据的特征值的集合。计算单元302，用于根据至少两个样本统计参数确定全局统计参数，并根据全局统计参数判断决策树的第一节点是否满足分裂条件。收发单元301还用于在第一节点满足所述分裂条件的情况下，向至少两个终端设备发送第二指示信息，第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。

可选的，收发单元301还用于：发送至少两个样本编号集，接收至少两个特征值，并根据所述至少两个特征值确定特征值集合，并将所述特征值集合发送给至少两个终端设备。其中，至少两个样本编号集与至少两个终端设备一一对应，其中，至少两个样本编号集中的第一样本编号集是基于第一终端设备的初始样本编号集随机抽样确定的。

可选的，计算单元302还用于：对至少两个样本统计参数进行累加，以消除各个样本统计参数中的加噪参数。然后，根据至少两个样本统计参数的累加结果确定全局统计参数。

可选的，计算单元302还用于：若第一节点不满足分裂条件，将第一节点设置为叶子节点，其中，叶子节点的叶子值根据全局统计参数确定。

请参见图4，基于同一发明构思，本申请实施例提供了一种终端设备400。该终端设备400具体包括：收发单元401及计算单元402。收发单元401用于接收第一指示信息，将第一样本统计参数发送给服务器，以及接收第二指示信息。其中，第一指示信息用于指示第一终端设备对样本数据进行统计。计算单元402用于基于特征值集合对样本数据进行统计，获得第一统计信息，并对第一统计信息进行加扰处理，获得第一样本统计参数。其中，特征值集合为至少两个终端设备的样本数据的特征值的集合。第二指示信息用于指示对样本数据进行分割。其中，分割所述样本数据后获得的样本数据作为下一次需要训练的样本数据。

可选的，计算单元402具体用于：对第一统计信息添加第一终端设备的噪声参数，生成第一样本统计参数。

可选的，计算单元402还用于：与至少一个终端设备中的其他终端设备两两间通过迪菲-赫尔曼密钥交换生成随机噪声。然后，第一终端设备根据与其他终端设备的随机噪声生成噪声参数。

可选的，收发单元401还用于接收第一样本编号集，其中，第一样本编号集是基于所述第一终端设备的初始样本编号集随机抽样确定的。计算单元402还用于根据第一样本编号集确定所述样本数据。然后，统计样本数据的特征值。收发单元401还用于将特征值发送给服务器。

请参见图5，基于同一发明构思，本申请实施例提供了一种电子设备500，该电子设备包括：至少一个处理器501、至少一个存储器502以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如前述的道闸电机驱动方法。

可选的，处理器501具体可以是中央处理器、特定应用集成电路(英文：Application Specific Integrated Circuit,简称：ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(英文：Field Programmable GateArray,简称：FPGA)开发的硬件电路，可以是基带处理器。

可选的，该读写锁操作设备还包括与至少一个处理器501连接的存储器502，存储器502可以包括只读存储器(英文：Read Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)和磁盘存储器。存储器502用于存储处理器501运行时所需的数据。存储器502的数量为一个或多个。其中，存储器502在图5中一并示出，但需要知道的是存储器502不是必选的功能模块，因此在图5中以虚线示出。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的道闸电机驱动方法。

在具体的实施过程中，计算机可读存储介质包括：通用串行总线闪存盘(Universal Serial Bus flash drive，USB)、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于联邦学习的决策树构建方法，其特征在于，所述方法包括：

服务器向至少两个终端设备发送第一指示信息，所述第一指示信息用于指示对样本数据进行统计；

所述服务器接收至少两个样本统计参数，所述至少两个样本统计参数与所述至少两个终端设备一一对应，所述至少两个样本统计参数中的第一样本统计参数是对第一统计信息加扰得到的，所述第一统计信息为所述至少两个终端设备中的第一终端设备基于特征值集合对样本数据进行统计获得的信息，所述特征值集合为所述至少两个终端设备的样本数据的特征值的集合；

所述服务器根据所述至少两个样本统计参数确定全局统计参数，并根据所述全局统计参数判断决策树的第一节点是否满足分裂条件，所述全局统计参数用于指示所述至少两个终端设备的样本数据的统计信息，所述决策树用于构建网络模型；

所述第一节点满足所述分裂条件，所述服务器向所述至少两个终端设备发送第二指示信息，所述第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。

2.如权利要求1所述的方法，其特征在于，所述第一样本统计参数是根据所述第一终端设备与至少一个终端设备分别协商获得的噪声参数对所述第一统计信息加扰得到的。

3.如权利要求1所述的方法，其特征在于，所述第一节点为所述决策树的初始节点，在所述服务器向至少两个终端设备发送第一指示信息之前，还包括：

所述服务器发送至少两个样本编号集，所述至少两个样本编号集与所述至少两个终端设备一一对应，其中，所述至少两个样本编号集中的第一样本编号集是基于所述第一终端设备的初始样本编号集随机抽样确定的；

所述服务器接收至少两个特征值，所述至少两个特征值与所述至少两个终端设备一一对应，一个特征值为一个终端设备的样本数据的特征值；

所述服务器根据所述至少两个特征值确定所述特征值集合，并将所述特征值集合发送给所述至少两个终端设备。

4.如权利要求1所述的方法，其特征在于，所述服务器根据所述至少两个样本统计参数确定全局统计参数，包括：

所述服务器对所述至少两个样本统计参数进行累加，以消除各个样本统计参数中的加噪参数；

所述服务器根据所述至少两个样本统计参数的累加结果确定所述全局统计参数。

5.如权利要求1所述的方法，其特征在于，所述第二指示信息包括所述样本数据分割的中间值，所述中间值指示对所述样本数据按照中间值一分为二。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一节点不满足分裂条件，所述服务器将所述第一节点设置为叶子节点，其中，所述叶子节点的叶子值根据所述全局统计参数确定。

7.一种基于联邦学习的决策树构建方法，其特征在于，所述方法包括：

第一终端设备接收第一指示信息，所述第一指示信息用于指示所述第一终端设备对样本数据进行统计；

所述第一终端设备基于特征值集合对所述样本数据进行统计，获得第一统计信息，并对所述第一统计信息进行加扰处理，获得第一样本统计参数，其中，所述特征值集合为至少两个终端设备的样本数据的特征值的集合；

所述第一终端设备将所述第一样本统计参数发送给服务器；

所述第一终端设备接收第二指示信息，所述第二指示信息用于指示对样本数据进行分割，其中，分割所述样本数据后获得的样本数据作为下一次需要训练的样本数据。

8.如权利要求7所述的方法，其特征在于，所述第一终端设备对所述第一统计信息进行加扰处理，获得第一样本统计参数，包括：

所述第一终端对所述第一统计信息添加所述第一终端设备的噪声参数，生成所述第一样本统计参数。

9.如权利要求8所述的方法，其特征在于，在所述第一终端设备基于特征值集合对所述样本数据进行统计之前，所述方法还包括：

所述第一终端设备与所述至少一个终端设备中的其他终端设备两两间通过迪菲-赫尔曼密钥交换生成随机噪声；

所述第一终端设备根据与所述其他终端设备的所述随机噪声生成所述噪声参数。

10.如权利要求7所述的方法，其特征在于，在所述第一终端设备接收第一指示信息之前，所述方法还包括：

所述第一终端设备接收第一样本编号集，根据所述第一样本编号集确定所述样本数据，其中，所述第一样本编号集是基于所述第一终端设备的初始样本编号集随机抽样确定的；

所述第一终端设备统计所述样本数据的特征值，并将所述特征值发送给所述服务器。

11.一种服务器，其特征在于，包括：

收发单元，用于向至少两个终端设备发送第一指示信息，以及接收至少两个样本统计参数，其中，所述第一指示信息用于指示对样本数据进行统计；所述至少两个样本统计参数与所述至少两个终端设备一一对应，所述至少两个样本统计参数中的第一样本统计参数是对第一统计信息加扰得到的，所述第一统计信息为所述至少两个终端设备中的第一终端设备基于特征值集合对样本数据进行统计获得的信息，所述特征值集合为所述至少两个终端设备的样本数据的特征值的集合；

计算单元，用于根据所述至少两个样本统计参数确定全局统计参数，并根据所述全局统计参数判断决策树的第一节点是否满足分裂条件，所述全局统计参数用于指示所述至少两个终端设备的样本数据的统计信息，所述决策树用于构建网络模型；

所述收发单元还用于在所述第一节点满足所述分裂条件的情况下，向所述至少两个终端设备发送第二指示信息，所述第二指示信息用于指示对样本数据进行分割，分割后获得的样本数据作为下一次需要训练的样本数据。

12.如权利要求11所述的服务器，其特征在于，所述第一样本统计参数是根据所述第一终端设备与至少一个终端设备分别协商获得的噪声参数对所述第一统计信息加扰得到的。

13.如权利要求11所述的服务器，其特征在于，所述收发单元还用于：

发送至少两个样本编号集，所述至少两个样本编号集与所述至少两个终端设备一一对应，其中，所述至少两个样本编号集中的第一样本编号集是基于所述第一终端设备的初始样本编号集随机抽样确定的；

接收至少两个特征值，所述至少两个特征值与所述至少两个终端设备一一对应，一个特征值为一个终端设备的样本数据的特征值；

根据所述至少两个特征值确定所述特征值集合，并将所述特征值集合发送给所述至少两个终端设备。

14.如权利要求11所述的服务器，其特征在于，所述第二指示信息包括所述样本数据分割的中间值，所述中间值指示对所述样本数据按照中间值一分为二。

15.一种终端设备，其特征在于，包括：

收发单元，用于接收第一指示信息，所述第一指示信息用于指示所述第一终端设备对样本数据进行统计；

计算单元，用于基于特征值集合对所述样本数据进行统计，获得第一统计信息，并对所述第一统计信息进行加扰处理，获得第一样本统计参数，其中，所述特征值集合为至少两个终端设备的样本数据的特征值的集合；

所述收发单元，还用于将所述第一样本统计参数发送给服务器，以及接收第二指示信息，所述第二指示信息用于指示对样本数据进行分割，其中，分割所述样本数据后获得的样本数据作为下一次需要训练的样本数据。

16.如权利要求15所述的终端设备，其特征在于，所述计算单元具体用于：

对所述第一统计信息添加所述第一终端设备的噪声参数，生成所述第一样本统计参数。

17.如权利要求16所述的终端设备，其特征在于，所述计算单元还用于：

与所述至少一个终端设备中的其他终端设备两两间通过迪菲-赫尔曼密钥交换生成随机噪声；

根据与所述其他终端设备的所述随机噪声生成所述噪声参数。

18.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-6或7-10中任一项所述的方法。

19.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-6或7-10中任一项所述的方法。