CN112989399B

CN112989399B - 数据处理系统及方法

Info

Publication number: CN112989399B
Application number: CN202110538765.0A
Authority: CN
Inventors: 郑小林; 马源; 胡雪
Original assignee: Hangzhou Jztdata Technology Co ltd
Current assignee: Hangzhou Jztdata Technology Co ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-03
Anticipated expiration: 2041-05-18
Also published as: CN112989399A

Abstract

本说明书提供数据处理系统及方法，其中数据处理系统包括：至少两个特征提供端基于本地样本特征确定待预测样本特征，并将待预测样本特征对应的样本数据发送至数据加密端；数据加密端接收至少两个样本数据；通过对至少两个样本数据进行加密处理，获得至少两个加密样本数据；将至少两个加密样本数据发送至样本标签提供端；样本标签提供端根据至少两个加密样本数据确定目标样本特征，并将目标样本特征作为其所属的特征提供端的目标分割节点；在基于本地样本标签确定目标分割节点的分割周期满足训练停止条件的情况下，广播训练停止信息；实现数据提供方可以将数据保留在本地的情况下完成节点分割，有效地保证了数据的安全性。

Description

数据处理系统及方法

技术领域

本说明书涉及数据处理技术领域，特别涉及数据处理系统及方法。

背景技术

随着互联网技术的发展，数据已经逐渐成为各个公司的核心资产。无论是信贷过程中的授信、风控，还是在线的推荐、营销，都离不开数据。而数据的质量和数量是影响机器学习模型效果最重要的两个因素，因此在不同数据孤岛之间进行数据共享，通过扩充数据量来提升模型效果的需求变得愈发强烈。与此同时，随着用户数据安全和隐私保护相关政策相继出台和日益完善，包含用户生理特征、征信报告、社交网络等个人敏感信息的数据隐私保护越来越受到各类企业、机构的重视，也令联合多方数据建模面临更大的风险与挑战。现有技术中，为在保障用户隐私的前提下解决数据孤岛的痛点，通常会采用多方安全计算的方法实现，这可以在一定程度上达到多方数据安全联合建模的目的。但是由于模型本身的特性，很难保证模型的建模效率和多方之间的通信效率，同时在建模过程中还会引发过拟合的问题，因此亟需一种有效地方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了两种数据处理系统。本说明书同时涉及两种数据处理方法，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理系统，包括：

至少两个特征提供端，被配置为基于本地样本特征确定待预测样本特征，并将所述待预测样本特征对应的样本数据发送至数据加密端；

所述数据加密端，被配置为接收至少两个样本数据；通过对所述至少两个样本数据进行加密处理，获得至少两个加密样本数据；将所述至少两个加密样本数据发送至样本标签提供端；

所述样本标签提供端，被配置为根据所述至少两个加密样本数据确定目标样本特征，并将所述目标样本特征作为其所属的特征提供端的目标分割节点；在基于本地样本标签确定所述目标分割节点的分割周期满足训练停止条件的情况下，广播训练停止信息。

可选地，所述至少两个特征提供端，进一步被配置为：

基于所述本地样本特征构建特征矩阵，并将所述特征矩阵输入至加载到本地的初始化函数进行处理，获得初始预测分值；

根据所述初始预测分值在所述本地样本特征中筛选出初始样本特征，并将所述初始样本特征作为初始分割节点构建初始业务树模型；

基于所述初始业务树模型对所述本地样本特征对应的样本数据进行预测，并将预测结果与所述样本标签提供端广播的样本标签进行比较；

在比较结果未满足预设条件的情况下，根据所述预测结果确定除所述初始样本特征的本地样本特征构建的特征矩阵对应的中间预测分值；

基于所述初始预测分值和所述中间预测分值在除所述初始样本特征的本地样本特征中筛选出所述待预测样本特征。

可选地，所述至少两个特征提供端，进一步被配置为：

计算所述预测结果的预测值和所述样本标签的样本标签值分别对应的一阶导数向量和二阶导数向量，以及提取所述待预测样本特征对应的待处理数据；

基于所述一阶导数向量、所述二阶导数向量以及所述待处理数据组成所述待预测样本特征对应的样本数据，并发送至所述数据加密端。

可选地，所述数据加密端，进一步被配置为：

接收所述至少两个特征提供端发送的所述至少两个样本数据；

通过采用同态加密算法对所述至少两个样本数据进行加密处理，获得所述至少两个加密样本数据；

将所述至少两个加密样本数据发送至所述样本标签提供端。

可选地，所述样本标签提供端，进一步被配置为：

接收所述至少两个加密样本数据，并计算所述至少两个加密样本数据中各个加密样本数据对应的信息增益值；

根据所述信息增益值在所述至少两个加密样本数据中选择目标加密样本数据，并将所述目标加密样本数据对应的样本特征作为所述目标样本特征。

可选地，所述样本标签提供端，进一步被配置为选择最高的信息增益值对应的加密样本数据作为所述目标加密样本数据，将所述目标加密样本数据发送至所述数据加密端；

所述数据加密端，进一步被配置为接收所述目标加密样本数据，并对所述目标加密样本数据进行解密获得目标样本数据；确定所述目标样本数据所属的目标特征提供端，并向所述目标特征提供端发送所述目标样本数据；

所述目标特征提供端，被配置为接收所述目标样本数据，并确定所述目标样本数据对应的所述目标样本特征；将所述目标样本特征作为所述目标分割节点，并基于所述目标分割节点对所述初始业务树模型进行更新。

可选地，所述训练停止条件包括：迭代次数条件、残差值变化条件或请求停止条件。

可选地，所述样本标签提供端，还被配置为向所述至少两个特征提供端发送建立快照请求；

所述至少两个特征提供端，还被配置为根据所述建立快照请求读取时间信息；基于所述时间信息对本地节点分割信息的数据进行保存，并根据保存结果建立哈希表。

可选地，所述至少两个特征提供端，还被配置为读取待删除数据，并确定所述待删除数据对应的使用时间信息；将所述使用时间信息上传至所述样本标签提供端；

所述样本标签提供端，还被配置为接收所述使用时间信息；根据所述使用时间信息建立还原请求，并对所述还原请求进行广播；

所述至少两个特征提供端，还被配置为根据所述还原请求中携带的所述使用时间信息读取所述哈希表；根据读取结果对所述本地节点分割信息的数据进行还原处理，并向所述样本标签提供端发送还原处理结果。

根据本说明书实施例的第二方面，提供了另一种数据处理系统，包括：

至少两个特征提供端，被配置为接收预测请求；通过本地业务树模型对所述预测请求中携带的待预测数据进行处理，获得预测结果；将所述预测结果发送至数据加密端；其中，所述本地业务树模型中的各个分割节点由上述数据处理系统确定；

所述数据加密端，被配置为接收至少两个预测结果，通过对所述至少两个预测结果进行加密处理，获得至少两个加密预测结果；将所述至少两个加密预测结果发送至样本标签提供端；

所述样本标签提供端，被配置为对所述至少两个加密预测结果进行整合，根据整合结果获得目标预测结果，并广播所述目标预测结果。

可选地，所述样本标签提供端，还被配置为获取所述待预测数据；基于所述待预测数据创建所述预测请求，并向至少两个特征提供端发送所述预测请求。

可选地，所述至少两个特征提供端，进一步被配置为通过所述本地业务树模型对所述预测结果中携带的所述待处理数据进行处理，获得第一向量表达和第二向量表达；整合所述第一向量表达和所述第二向量表达获得所述预测结果。

根据本说明书实施例的第三方面，提供了一种数据处理方法，包括：

至少两个特征提供端基于本地样本特征确定待预测样本特征，并将所述待预测样本特征对应的样本数据发送至数据加密端；

所述数据加密端接收至少两个样本数据；通过对所述至少两个样本数据进行加密处理，获得至少两个加密样本数据；将所述至少两个加密样本数据发送至样本标签提供端；

所述样本标签提供端根据所述至少两个加密样本数据确定目标样本特征，并将所述目标样本特征作为其所属的特征提供端的目标分割节点；在基于本地样本标签确定所述目标分割节点的分割周期满足训练停止条件的情况下，广播训练停止信息。

根据本说明书实施例的第四方面，提供了另一种数据处理方法，包括：

至少两个特征提供端接收预测请求；通过本地业务树模型对所述预测请求中携带的待预测数据进行处理，获得预测结果；将所述预测结果发送至数据加密端；其中，所述本地业务树模型中的各个分割节点由上述另一种数据处理方法确定；

所述数据加密端接收至少两个预测结果，通过对所述至少两个预测结果进行加密处理，获得至少两个加密预测结果；将所述至少两个加密预测结果发送至样本标签提供端；

所述样本标签提供端对所述至少两个加密预测结果进行整合，根据整合结果获得目标预测结果，并广播所述目标预测结果。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现所述数据处理方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法的步骤。

本申请提供的数据处理系统，在需要进行模型训练的情况下，特征提供端可以基于本地样本特征确定待预测样本特征，之后将待预测样本特征对应的样本数据发送至数据加密端，所述数据加密端在接收到多个特征提供端提交的样本数据后，为了能够保证数据的安全性，将对各个样本数据进行加密处理，以得到加密样本数据，之后再发送至样本标签提供端完成计算；样本标签提供端在得到加密样本数据后，可以根据加密样本数据映射出所述目标样本特征，此时即可将所述目标样本特征作为其所述的特征提供端的目标分割节点，使得在当前分割周期内完成分割节点的确定，直至满足训练停止条件的情况下，将结束训练，实现通过多方联合学习的方式对模型进行训练，而在此过程中还会对需要传输的数据进行加密处理，有效地提高了数据的安全性，同时通过多个特征提供方的数据相互制约，有效地保证了训练出的模型的预测精准度。

附图说明

图1是本说明书一实施例提供的一种端到端建模框架的结构示意图；

图2是本说明书一实施例提供的一种联邦学习的结构示意图；

图3是本说明书一实施例提供的一种数据处理系统的结构示意图；

图4是本说明书一实施例提供的一种变量变换的示意图；

图5是本说明书一实施例提供的另一种变量变换的示意图；

图6是本说明书一实施例提供的另一种数据处理系统的结构示意图；

图7是本说明书一实施例提供的一种数据处理方法的流程图；

图8是本说明书一实施例提供的另一种数据处理方法的流程图；

图9是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

拟合（fitting）：可以理解为把平面上一系列的点，用一条光滑的曲线连接起来。因为这条曲线有无数种可能，从而有各种拟合方法。

梯度（gradient）：是指一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

同态加密（Homomorphic Encryption）：是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。

公钥（Public Key）：是与私钥算法一起使用的密钥对的非秘密一半。公钥通常用于加密会话密钥、验证数字签名，或加密可以用相应的私钥解密的数据。公钥和私钥是通过一种算法得到的一个密钥对(即一个公钥和一个私钥)，其中的一个向外界公开，称为公钥；另个自己保留，称为私钥。

私钥（Private Key）：使用单个私钥来加密和解密数据。由于具有密钥的任意一方都可以使用该密钥解密数据，因此必须保护密钥不被未经授权的代理得到。私钥加密又称为对称加密，因为同一密钥既用于加密又用于解密。私钥加密算法非常快，特别适用于对较大的数据流执行加密转换。

快照（Snapshot）：关于指定数据集合的一个完全可用拷贝，该拷贝包括相应数据在某个时间点（拷贝开始的时间点）的映像。快照可以是其所表示的数据的一个副本，也可以是数据的一个复制品。

在本说明书中，提供了两种数据处理系统，本说明书同时涉及两种数据处理方法，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，梯度树提升是目前应用最广泛的机器学习模型之一，在诈骗检测、推荐系统、在线广告等不同领域都有突出的应用。作为一种优化实现，XGB在各种竞争和实际应用中都取得了很好的效果，因为它是一种基于函数空间的数值运算和直接优化代价函数的梯度提升模型。因此，如何构建具有垂直切分数据的隐私保护xgboost是一个重要的研究课题。首先是因为复杂计算原语。与逻辑回归等其他机器学习模型不同，xgboost需要额外的非线性计算原语，如除法和argmax。其次是高内存成本。大多数模型如神经网络都适合于小批量训练，即在每个训练纪元只加载一小批样本，因此它们不需要大内存来支持大规模数据集。相比之下，xgboost使用(取样的)全批数据集来构建树。因此，如何节省内存成本是实现大规模安全xgboost的关键。

本申请提供的数据处理系统，在需要进行模型训练的情况下，特征提供端可以基于本地样本特征确定待预测样本特征，之后将待预测样本特征对应的样本数据发送至数据加密端，所述数据加密端在接收到多个特征提供端提交的样本数据后，为了能够保证数据的安全性，将对各个样本数据进行加密处理，以得到加密样本数据，之后再发送至样本标签提供端完成计算；样本标签提供端在得到加密样本数据后，可以根据加密样本数据映射出所述目标样本特征，此时即可将所述目标样本特征作为其所述的特征提供端的目标分割节点，使得在当前分割周期内完成分割节点的确定，直至满足训练停止条件的情况下，将结束训练，实现通过多方联合学习的方式对模型进行训练，而在此过程中还会对需要传输的数据进行加密处理，有效地提高了数据的安全性，同时通过多个特征提供方的数据相互制约，有效地保证了训练出的模型的预测精准度，不仅解决了数据孤岛问题，而且更适用于工业场景。

具体实施时，由于本申请提供的数据处理系统不仅可以保证数据安全的情况下完成模型的训练，还能够通过多方联合的方式解决数据孤岛的问题，因此为了能够在更多的场景中解决该类问题，可以基于所述数据处理系统构建端到端的建模框架。也就是说，可以通过整合多个模块的方式支持多方联合训练模型。

基于此，参见图1所示的端到端建模框架的结构示意图，其中包括数据库连接模块110，联邦学习模块120，前端展示模块130以及日志系统，其中，所述数据库连接模块110用于对参与的多方的数据库进行绑定。也就是说，该模块可以通过SQLAlchemy与PyHive完成与各方数据库的绑定，支持MySQL，Postgresql，Hive等多种数据库，同时提供基于随机种子分享的数据加载，能够得到各方的数据加载同步。在每一轮加载训练数据时，每一方都加载同样的样本并且按照同样的顺序排列。

所述联邦学习模块120使用基于远程过程调用（RPC）的传输协议进行过程调用与数据传输，同时使用深度学习计算库tensorflow进行梯度的计算。本实施例以特征提供方分别为参与方A和参与方B，样本标签提供方为Y为例进行说明所述联邦学习模块120的处理过程。参见图2所示的联邦学习的示意图，由于参与方A和B虽然都具有与自身业务相关的数据，但是由于二者的业务维度不同，如果基于本地数据训练模型，很难保证训练出的模型的精准度。因此为了能够提高训练出的模型的精准度，同时保证参与方A和B的数据安全性，此时可以在参与方A和B不公开各自数据的前提下确定双方公有的用户，而在此过程中不需要暴露两者之间互不重叠的用户，以便联合双方的数据完成模型的训练。

基于此，为了保证双方数据的安全性，将在加密场景下进行样本对齐。也就是说，在加密场景下参与方A提供的用户数据与参与方B提供的用户数据虽然属于不同业务维度，但是这些数据均来自于相同的用户，如参与方A提供用户1、2和3的交易数据和贷款数据，而参与方B也将提供用户1、2和3的交易类型数据和属性数据，以此为基础进行后续的联邦学习。

进一步的，为了能够保证数据的安全性，在由服务器训练模型前会在本地进行计算，也就是说，数据持有者自己使用多方安全计算基数执行与私有数据相关的计算，并将计算需要的参数信息传给服务器，其余的计算由具有丰富计算资源的服务器完成。这里的私有数据是模型的输入和输出，对应于数据持有者的私有特征和标签。需要说明的是，在样本对齐及模型训练过程中，参与方A和参与方B各自的数据均保留在本地，且训练中的数据交互也不会导致数据隐私泄露。服务器计算得到的梯度值会传回给参与方A和参与方B，从而完成模型参数值的更新。因此，双方在多方安全计算的环境下得以实现合作训练模型。

同时在此过程中，标签提供方Y可以根据提供的样本标签对训练中的模型的精准度进行检测，以实现根据损失值对训练中的模型的梯度进行更新，从而促使多方联合训练出满足业务需求的模型。

所述前端展示模块130用于向各个参与方展示模型训练过程中涉及的相关信息，并且各个参与方都具有一个日志记录，记录其在安全计算过程中的程序运行状况，可以使用vue.js+echarts进行展示每轮训练结果和最终模型效果。如果模型训练出现了任何错误，也将展示到前端，使得各个参与方迅速找到问题根源，从而高效地排查问题，解决问题，提高该模型的整体运行效率，降低其调试成本，同时对于业务上应用具有很好的可解释性。

图3示出了根据本说明书一实施例提供的一种数据处理系统的结构示意图，该数据处理系统300包括至少两个特征提供端310，数据加密端320以及样本标签提供端330，其中：

至少两个特征提供端310，被配置为基于本地样本特征确定待预测样本特征，并将所述待预测样本特征对应的样本数据发送至数据加密端320；

所述数据加密端320，被配置为接收至少两个样本数据；通过对所述至少两个样本数据进行加密处理，获得至少两个加密样本数据；将所述至少两个加密样本数据发送至样本标签提供端330；

所述样本标签提供端330，被配置为根据所述至少两个加密样本数据确定目标样本特征，并将所述目标样本特征作为其所属的特征提供端的目标分割节点；在基于本地样本标签确定所述目标分割节点的分割周期满足训练停止条件的情况下，广播训练停止信息。

具体的，所述至少两个特征提供端具体是指至少两个样本特征提供方所属的一端，即所述至少两个样本特征提供方中的任意一方均具有样本特征，且各个样本特征提供方所具有的样本特征属于不同的维度。由于各个样本特征提供方所具有的样本特征均与自身的业务相关，如果结合本地的样本特征所对应的数据进行模型的训练，所参考的维度较少，很大程度影响模型的精准度。因此为了能够提高模型预测精准度，可以结合具有其他业务维度的数据的一方联合进行训练。

例如，需要训练一个能够预测用户是否办理信用卡的业务模型，而参与方A的业务主要是与理财有关，因此参与方A仅能够提供与用户性别、年龄、存款金额和理财金额相关的数据，而参与方B的业务主要是与交易有关，因此参与方B仅能够提供用户消费产品、消费金额以及消费类型相关的数据。如果在此过程中仅单单使用参与方A或B任意一方的数据进行业务模型的训练，都会导致训练出的模型的精准度较低，因此可以联合参与方A和参与方B两者的数据进行业务模型的训练，而数据对于参与方A和B来说都是比较重要的，因此可以采用加密处理的方式完成联合学习，以达到训练出满足需求的目标业务模型。其中，参与方A和参与方B即为具有样本特征的样本特征提供方。

而在训练模型的过程中，如果各个特征提供端分别提供不同用户的数据，如参与方A提供用户1,2和3的数据，参与方B提供用户4,5和6的数据，如果用这部分数据进行业务模型的训练，很容易导致训练出的模型过拟合的问题，因此在进行业务模型训练前，可以通过加密的方式将各个特征提供端本地的用于训练模型的数据进行对齐处理，即使得各个特征提供端提供的训练模型的数据都是来自于相同的用户。如参与方A提供用户1,2和3的数据，参与方B也将提供1,2和3的数据，以支持后续可以完成业务模型的训练过程。

进一步的，所述本地样本特征具体是指各个样本特征提供方所提供的样本数据所属维度对应的特征，如参与方A提供与用户性别、年龄、存款金额和理财金额相关的数据；参与方B提供用户消费产品、消费金额以及消费类型相关的数据；则此时可以确定参与方A的本地样本特征包括{性别、年龄、存款金额、理财金额}，参与方B的本地样本特征包括{消费产品、消费金额、消费类型}。

需要说明的是，本申请提供的数据处理系统应用于xgboost树模型的训练，而该模型的架构是以树结构为基础。因此在训练的过程中需要确定各个分割节点信息以完成树的构建，从而支持xgboost树模型的训练。在此基础上，训练xgboost树模型的过程实则就是确定各个分割节点的过程，而由于该模型的训练是由多方联合完成，因此各个样本特征提供方将基于本地的样本特征构建树。同时结合其他样本特征提供方的影响，可以保证构建出的树是多方联合学习的产物，因此各个样本特征提供方在进行分割节点确定时，需要由样本标签提供端对应的样本标签提供方所控制，样本标签提供方将通过比对的方式选择最佳的分割节点对应的信息进行广播，使得该节点所属的样本特征提供方可以进行树的构建，而其他样本特征提供方则不做任何处理，以此类推，直至满足训练停止条件，各个样本特征提供方将分别得到受其他样本特征提供方影响后构建出的树，通过将各个样本特征提供方构建出的树结合即可得到满足预测需求的xgboost树模型。

基于此，所述待预测样本特征具体是指从所述本地样本特征中筛选出，且需要预测其是否可以作为下一个分割节点的样本特征；相应的，所述样本数据具体是指计算所述待预测样本特征是否可以作为下一个分割节点时所需要使用的数据，其包括上一个分割节点确定时的相关参数以及该样本特征在本地的相关联的数据。

所述数据加密端320具体是指能够对发送至样本标签提供端330的样本数据进行加密处理的一端，其可以保证数据不被泄露的同时，使得样本特征提供端对加密后的数据进行计算。例如两个安全计算参与方各自拥有一个矩阵，记作A, B，且A, B可以进行矩阵相乘。数据加密端320通过提供给两个安全计算参与方一些辅助的矩阵，能够使得两个参与方之间交互计算出A,B的乘积，且该乘积一开始是加法分享的方式保存在两方中。比如一方拥有X，一方拥有Y，X + Y = AB。在整个交互计算的过程中，两方无法获得对方的矩阵的任何信息。需要说明的是，为了能够保证各个样本特征提供方数据的安全性，所述数据加密端320可以选择与各个样本特征提供方均不具有业务关系的机构，如只提供加密服务的第三方机构。其中，所述数据加密端320只需要提供API接口根据输入（双方矩阵的形状）产生随机的输出，不会获取任何有意义的信息。

所述样本标签提供端330具体是指拥有样本标签的样本标签提供方。所述样本标签提供方不仅可以提供样本标签，还提供主计算能力。同时所述样本标签提供方所提供的样本标签与各个样本特征提供方提供的样本特征都来于相同的用户。如参与方A和B分别提供不同维度下用户1,2和3的数据，则样本标签提供方也将提供用户1,2和3是否办理信用卡的标签。需要说明的是，所述样本标签提供端330是拥有较强计算能力的一个安全计算参与方。在样本特征提供方在数据加密端320的辅助下得到一个样本特征输入的线性变换（加密样本数据）之后，可以再将其输入树模型之中，根据特征信息分裂节点，达到训练模型的目的。此外，主计算方可以与所述样本标签提供方属于不同的一方，也可以属于相同的一方，本实施例以所述样本标签提供方作为主计算方为例进行描述。

进一步的，所述目标样本特征具体是指从各个特征提供端的待预测样本特征中筛选出的可以作为下一个分割节点的样本特征，并且确定所述目标样本特征在作为分割节点时，只能够由其所属的特征提供端作为当前构建的树结构的分割节点，而其他特征提供端在本轮次的训练过程中将轮空，不设置新的分割节点，以此类推，直至满足训练停止条件完成各个特征提供端的树模型的构建。其中，所述训练停止条件可以包括：迭代次数条件、残差值变化条件或请求停止条件。所述迭代次数条件即为当迭代到设定次数后停止训练的条件；所述残差值变化条件即为当训练后计算的残差不在变换后停止训练的条件，所述请求停止条件即为用户主动请求停止训练的条件。

基于此，本申请为了能够保证多方数据安全的情况下，完成xgboost树模型的训练，可以单独有各个特征提供端分别提供样本特征，由样本标签提供端单独提供样本标签，数据加密端单独负责加密处理，从而保证更多的计算过程在数据所属的提供端实现，以此保证数据的安全性的同时，训练出满足使用需求的xgboost树模型。

例如，参与方A提供用户1，用户2和用户3的性别、年龄、存款金额、理财金额相关的数据，参与方B提供用户1，用户2和用户3的消费产品、消费金额、消费类型相关的数据，参与方C提供用户1，用户2和用户3办理信用卡的样本标签；基于此，当需要训练一个能够对用户办理信用卡的信息进行预测的xgboost树模型的情况下，需要结合参与方A和参与方B的数据才能够保证训练出的模型的精准度。

进一步的，此时根据参与方A的本地样本特征{X₁:性别、X₂:年龄、X₃:存款金额、X₄:理财金额}确定“X₃”可以作为本地树模型的第一个分割节点，之后基于第一个分割节点X₃计算出“X₄”作为下一个分割节点较优，则此时将X₄作为待预测样本特征，再将X₄对应的样本数据<X>_A发送至数据加密端。同时根据参与方B的本地样本特征{X₅:消费产品、X₆:消费金额、X₇:消费类型}确定“X₆”可以作为本地树模型的第一个分割节点，之后基于第一个分割节点X₆计算出“X₇”作为下一个分割节点较优，则此时将X₇作为待预测样本特征，再将X₇对应的样本数据<X>_B发送至数据加密端。

数据加密端在接收到参与方A和参与方B分别上传的样本数据<X>_A和<X>_B后，将对样本数据<X>_A和<X>_B进行加密处理，之后将加密处理后的数据发送至参与方C进行最佳拆分节点的确定，参与方C在接收到加密数据后，通过计算确定“X₄”要优于“X₇”，则此时将“X₄”作为参与方A的第二个分割节点，同时参与方B在本周期内不作任何处理，以此类推，直至达到迭代次数条件的情况下，即可完成xgboost树模型的训练。当需要进行预测时，即可将预测信息发送给参与方A和参与方B，通过对参与方A的本地决策树和参与方B本地决策树得出的结果进行整合，即可得到预测信息对应的用户是否可能办理信用卡。

进一步的，在各个特征提供端基于本地样本特征确定所述待预测样本特征的过程中，由于需要从本地的多个样本特征中选择一个较优的作为下一个分割节点，因此需要结合每个分割周期中预测结果进行选择，本实施例中，所述至少两个特征提供端310进一步被配置为：

基于所述本地样本特征构建特征矩阵，并将所述特征矩阵输入至加载到本地的初始化函数进行处理，获得初始预测分值；根据所述初始预测分值在所述本地样本特征中筛选出初始样本特征，并将所述初始样本特征作为初始分割节点构建初始业务树模型；基于所述初始业务树模型对所述本地样本特征对应的样本数据进行预测，并将预测结果与所述样本标签提供端广播的样本标签进行比较；在比较结果未满足预设条件的情况下，根据所述预测结果确定除所述初始样本特征的本地样本特征构建的特征矩阵对应的中间预测分值；基于所述初始预测分值和所述中间预测分值在除所述初始样本特征的本地样本特征中筛选出所述待预测样本特征。

具体的，所述特征矩阵具体是指基于本地样本特征所构成的矩阵，所述特征矩阵的行数为该训练批次的样本数目，列数为样本特征的总数，即各个样本特征提供方的特征数目之和。相应的，所述初始预测分值具体是指根据样本标签提供端广播的xgboost树模型的集合对本特征矩阵进行处理后，得到的各个样本特征所对应的分数，通过该分数可以从多个本地样本特征中选择出所述初始样本特征，所述初始样本特征具体是指作为xgboost树模型构建时的第一个分割节点的样本特征。所述初始业务树模型即为结合第一个分割节点后所创建出的xgboost树模型。所述样本标签即为样本标签提供端所提供的样本标签。所述中间预测分值具体是指特征矩阵中除作为第一个分割节点的样本特征之外的其他样本特征经过计算后得到的分数，用于与所述初始预测分值进行比对，以选择出残差值最小的作为样本特征作为所述待预测样本特征，用于后续进行目标分割节点的确定。

基于此，在各个特征提供端确定对齐后的样本特征后，可以基于本地样本特征侯建所述特征矩阵，之后可以将其输入至样本标签提供端广播的初始化xgboost树模型的集合中，以通过计算确定各个样本特征的分值（初始预测分值）；之后从中选择出分值最高的作为所述初始样本特征，并将所述初始样本特征作为构建xgboost树模型的第一个分割节点。之后基于具有第一个分割节点的xgboost树模型对本地样本特征对应的数据进行划分，即预测处理，以得到当前分割周期中的预测值；之后将得到的预测值与样本标签提供端的真实标签值进行比较，若根据比较结果确定为满足预设条件的情况下，说明当前构建出的xgboost树模型无法达到预测需求，则需要确定下一个分割节点，此时可以计算特征矩阵中除作为所述第一个分割节点的样本特征外的其他样本特征对应的中间预测分值，之后通过初始预测分值和中间预测分值计算各个样本特征的残差值，选择残差值最小的作为所述待预测样本特征，用于后续进行目标分割节点的确定。

沿用上例，参与方C准备xgboost树模型的集合F并且广播给参与方A和参与方C，由于xgboost是一个加法模型，最开始时需要做一个基础预测f₀=ComputeBaseScore(Y)，作为

，此时树集合为F=[f₀]，即参与方C将初始化样本办理个人贷款的预测概率为0，集合F=0广播给各个参与方后，参与方A将根据[X₁、X₂、X₃、X₄]做初始化预测，参与方B将根据[X₅、X₆、X₇]做初始化预测，根据预测结果确定参与方A的基础预测结果为F_A1=[0.4,0.3,0.5,0.2]，参与方B的基础预测结果为F_B1=[0.4,0.5,0.3]，则参与方A根据基础预测结果确定“X₃”可以作为本地树模型的第一个分割节点，参与方B根据基础预测结果确定“X₆”可以作为本地树模型的第一个分割节点。

进一步的，此时参与方将基于“X₃”作为本地树模型的第一个分割节点对本地样本特征对应的样本数据进行预测，根据预测结果确定F_A2=[0.1,0.1,0.4，0.1]，之后将预测结果与参与方C广播的样本标签进行比较，确定xgboost树模型并未满足训练停止条件，需要继续确定第二个分割节点，则此时可以将F_A1与F_A2进行比较，同时由于“X₃”已经作为了本地树模型的第一个分割节点，因此只需要比较X₁、X₂和X₄分别对应的预测分值即可，根据对比结果确定X₄的残差值最小，则说明X₄作为下一个分割节点的概率最大，则选择“X₄”作为待预测样本特征，以用于后续确定目标分割节点。

综上所述，通过采用计算残差值的方式确定所述待预测样本特征，可以进一步的提高后续样本标签提供端330确定目标分割节点的准确度，同时保证各个特征提供端之间可以相互制约，以保证训练出的模型的预测精准度。

更进一步的，由于各个特征提供端均会根据本地样本特征筛选出一个待预测样本特征，而样本标签提供端330需要从多个待预测样本特征中筛选出一个最佳拆分信息进行广播，因此需要采用信息增益值的计算方式实现，而在此之前，则需要各个特征提供端310向样本标签提供端330提供相应的数据才能够实现计算，本实施例中，所述至少两个特征提供端310，进一步被配置为：

计算所述预测结果的预测值和所述样本标签的样本标签值分别对应的一阶导数向量和二阶导数向量，以及提取所述待预测样本特征对应的待处理数据；基于所述一阶导数向量、所述二阶导数向量以及所述待处理数据组成所述待预测样本特征对应的样本数据，并发送至所述数据加密端。

具体的，所述预测结果的预测值具体是指经过初试预测模型对本地样本特征对应的样本数据进行预测后得到的分值，所述样本标签的样本标签分值具体是指样本数据对应的真实标签值，当需要计算所述待预测样本特征是否适合作为本地的下一个分割节点时，则需要结合预测值和真实标签值的一阶导数向量和二阶导数向量结合进行计算，因此此时需要根据所述预测值的一阶导数向量，二阶导数向量，所述样本标签值的一阶导数向量和二阶导数向量，以及所述待预测样本特征对应的待处理数据实现样本标签提供端的信息增益值的计算。其中，所述待处理数据即为待预测样本特征所对应的样本数据。

基于此，在当前分割周期内，各个特征提供端将分别确定各自的待预测样本特征，同时为了支持后续的信息增益值的计算，各个特征提供端将在本地计算上一个分割周期内预测值的一阶导数向量和二阶导数向量，以及上个一分割周期内样本标签值的一阶导数向量和二阶导数向量，最后结合待预测样本特征生成所述样本数据发送至所述数据加密端320进行加密处理，以实现后续可以交友样本标签提供端330进行计算处理，从而选择出最佳拆分信息，以进行第二分割节点的确定。

也就是说，各个特征提供端会在本地计算当前分割周期的一阶导数向量和二阶导数向量，即

、

。以进行第二分割节点的确定。

例如，在迭代到第2次时，参与方A在本地将计算出第1轮时

的一阶导数向量G_A11以及二阶导数向量H_A11，同时计算真实标签值Y的一阶导数向量G_A21以及二阶导数向量H_A21；而参与方B也将在本地计算出第1轮时

的一阶导数向量G_B11以及二阶导数向量H_B111，同时计算真实标签值Y的一阶导数向量G_B121以及二阶导数向量H_B121；之后参与方A将提取“X₄”对应的待处理数据结合G_A11和H_A11以及G_A21和H_A21组成参与方A的样本数据<X>_A并发送给数据加密端进行加密处理，同理参与方B将提取“X₇”对应的待处理数据结合G_B11和H_B11以及G_B21和H_B21组成参与方B的样本数据<X>_B并发送给数据加密端进行加密处理，以用于后续可以进行目标分割节点的确定。

综上所述，为了能够精准的从多个特征提供端中筛选出可以作为当前分割周期的分割节点的样本特征，可以通过选择计算信息增益值的方式实现，而为了能够支持后续进行信息增益值的计算，此时将整合计算信息增益值需要的参数数据，以为后续计算打下基础。

更进一步的，所述数据加密端320在进行数据加密的过程中，由于后续还需要样本标签提供端330进行信息增益值的计算，因此本申请采用同态加密的方式完成，本实施例中，所述数据加密端320进一步被配置为：

接收所述至少两个特征提供端发送的所述至少两个样本数据；通过采用同态加密算法对所述至少两个样本数据进行加密处理，获得所述至少两个加密样本数据；将所述至少两个加密样本数据发送至所述样本标签提供端。

具体实施时，由于本申请提供的数据处理系统在进行计算时，采用同态加密（Homomorphic Encryption ）和秘密共享（Secret Sharing）的方式，实现了对变量提供了安全的计算环境。而在此过程中，数据加密端320实则是将重要的变量通过同态加密的方式进行保护，之后再秘密分享该变量。

即各个特征提供端会相互交换公钥PK_A,PK_B，例如以[x]_A表示变量x被PK_A加密，此时可以被私钥SK_A解密。在此过程中，如果原始数据持有者和加密者不是同一方，则密文不能被加密者访问。同时加密方无法访问由不同方通过原始变量计算出的加密中间值。也就是说，由于计算器方无法访问加密方的密钥，因此原始变量和计算是安全的。

基于此，在秘密分享域的变量，用<X>表示，它包括来自不同特征提供端的变量。例如参与方A提供变量<X>_A，参与方B提供变量<X>_B，根据秘密分享的加法，可以用<X>=<X>_A+<X>_Bmod2^K重建<X>。在秘密分享域中，消息是随机值，并且不透露原始数据。为了维护私有变量的安全性，另一方无法获得原始数据所有者的份额。此外，双方的中间价值份额不能交换。

需要说明的是，为了能够充分的利用HE域和SS域的特性，需要特定优化在两个域之间转换变量。作为安全XGB的基本组件；参见图4所示是将HE变量转化成SS变量的过程，参见图5所示的是将SS变量转换为HE变量的过程。从而实现数据加密端320在进行对各个特征提供端的样本数据进行加密处理时，有效保证了数据的安全性，不会泄露给计算方（样本特征提供方）,有效保证了数据的安全性。

沿用上例，在数据加密端接收到参与方A提交的样本数据<X>_A以及参与方B提交的样本数据<X>_B后，则可以通过N2S方法将参与方A和参与方B提交的样本数据转换为<X>=<X>_A+<X>_Bmod2^K后，再发送至样本标签提供端进行后续的信息增益值计算。

综上所述，通过采用加密的方式不仅可以保证各个特征提供端的数据不被泄露，同时能够解决特征提供端之间相互方位的问题，从而有效地保证了联合多方进行模型训练场景的安全性。

更进一步的，所述样本标签提供端330在接收到经过加密处理后的加密样本数据后，即可在加密条件下对各个待预测样本特征的信息增益值进行计算，以得出所述目标分割节点，本实施例中，所述样本标签提供端330进一步被配置为：

接收所述至少两个加密样本数据，并计算所述至少两个加密样本数据中各个加密样本数据对应的信息增益值；根据所述信息增益值在所述至少两个加密样本数据中选择目标加密样本数据，并将所述目标加密样本数据对应的样本特征作为所述目标样本特征。

具体的，所述信息增益值具体是指评价所述待预测样本特征是否适合作为目标分解节点的值，通过所述信息增益值可以分析各个特征提供端的待预测样本特征对分类问题的影响大小，以此选择出较优的待预测样本特征作为所述目标分割节点，实现对其所在的特征提供端的树模型进行下一个分割节点的确定，以构建出满足使用需求的xgboost树模型。

具体实施时，样本标签提供端330在接收到所述至少两个加密样本数据之后，可以准备所有特征分桶中一阶导数向量G和二阶导数向量H的累积，之后基于公式（1）计算各个加密样本数据对应的待预测样本特征的信息增益值，最后根据计算结果即可选择信息增益值最大的待预测样本特征对应的加密样本数据作为所述目标加密样本数据，也就是说，信息增益值最大的待预测样本特征即为所述目标样本特征，以用于后续进行目标分割节点的确定。其中，公式（1）如下所述：

（1）

其中，gain表示信息增益值，G_L表示预测值对应的一阶导数向量，G_R表示真实标签值对应的一阶导数向量，H_L表示预测值对应的二阶导数向量，H_R表示真实标签值对应的二阶导数向量，

表示相关参数。

举例说明，参与方C收到参与方A发送的树节点特征X₄和参与方B发送的树节点特征后X₇后，计算其信息增益gain，根据计算结果确定果X₄的信息增益大于X₇信息增益，则说明X₄作为下一个分割节点要优于X₇，则可以将X₄作为最佳拆分信息，并将该信息广播给参与方A和B。参与方A将在本地对X₄进行下一步节点拆分，而参与方B暂时不进行操作。

此外，由于是通过对加密样本数据进行信息增益值的计算后确定的所述目标样本特征，因此若需要确定目标样本特征所属的特征提供端，则还需要数据加密端320进行解密处理，从而确定目标样本特征对应的目标特征提供端，以实现目标特征提供端可以根据目标样本特征确定目标分割节点，进行下一步节点拆分，从而加快训练出符合需求的xgboost树模型的基础上，保证数据的安全性，本实施例中：

所述样本标签提供端330，进一步被配置为选择最高的信息增益值对应的加密样本数据作为所述目标加密样本数据，将所述目标加密样本数据发送至所述数据加密端320；所述数据加密端320，进一步被配置为接收所述目标加密样本数据，并对所述目标加密样本数据进行解密获得目标样本数据；确定所述目标样本数据所属的目标特征提供端，并向所述目标特征提供端发送所述目标样本数据；所述目标特征提供端，被配置为接收所述目标样本数据，并确定所述目标样本数据对应的所述目标样本特征；将所述目标样本特征作为所述目标分割节点，并基于所述目标分割节点对所述初始业务树模型进行更新。

具体的，所述样本标签提供端330在计算出各个特征提供端提供的加密样本数据的信息增益值后，可以选择信息增益值最大的作为所述目标加密样本数据，之后再将其发送至所述数据加密端320进行解密处理，当所述数据加密端320通过对所述目标加密样本数据进行解密后，即可得到所述目标样本数据，并确定所述目标样本数据来自于的目标特征提供端，之后将该数据对应的样本特征可以作为下一个分割节点的信息回传给所述目标特征提供端，所述目标特征提供端即可根据该信息将待预测样本特征作为目标分割节点，以用于进行下一步节点拆分处理，同时除所述目标特征提供端外其他特征提供端不作任何操作。

综上所述，通过在广播所述目标分割节点的过程中进行解密处理，实现进一步保证了数据的安全性，避免数据泄露的问题，同时所述目标分割节点的确定是结合其他特征提供端的影响所确定，更进一步提高了训练出的树模型的预测精准度。

此外，由于模型的训练是结合多个特征提供方，样本标签提供方，数据加密端实现的，因此为了能够提高模型的预测能力，可以将训练过程中的模型架构保存在样本标签提供方，而各个节点的分割信息则保存在对应的特征提供方，同时样本标签提供方会根据当前的目标分割节点更新当前的拟合目标，使得每次建立的新树都会增加到已有的集合中，同时样本标签提供端会根据新加入的树更新下一步计算的残差，直至满足训练停止条件后，停止联合多方继续进行模型的训练。

举例说明，标签提供方在第t轮的标签数据为{0.2,0.3,0.2,0.5},当树结构更新后，第t+1轮的目标预测值为{0.1,0.1,0.1,0.1}，则此时标签提供方在第t+1轮的数据更新为{0.3,0.4, 0.3, 0.6}。

更进一步的，由于模型在训练的过程中是不断迭代的过程，而在此过程中很容易出现特征提供端的样本数据不可用的情形，比如用户数据过于陈旧，或者用户数据存在部分丢失等情况，若继续使用该部分数据训练出的模型可能会导致预测结果的下降，因此为了能够保证训练出的模型可以具有较好的预测效果，可以定期建立各个特征提供端的节点分割信息的快照，实现数据不可用后，通过快照还原到这部分数据参与最后一次训练的时间，所对应的节点分割信息，之后以此为基础进行新一轮的训练，本实施例中，所述样本标签提供端330，还被配置为向所述至少两个特征提供端发送建立快照请求；所述至少两个特征提供端310，还被配置为根据所述建立快照请求读取时间信息；基于所述时间信息对本地节点分割信息的数据进行保存，并根据保存结果建立哈希表。

具体的，所述建立快照请求具体是指样本标签提供端根据用户请求设置启动快照机制所对应的请求，之后向各个特征提供端广播建立快照请求的信息；当各个特征提供端接收到该请求后，会根据本地时间戳对本地保存的节点分割信息的数据定期进行保存，并建立时间戳和数据之间对应的哈希表。

例如，参与方C根据用户请求启动快照机制，此时将向参与方A和参与方B广播建立快照的信息，参与方A和B收到该信息后，将根据时间戳Ta对本地保存的节点分割信息的数据，每隔时间t后进行保存，同时根据保存结果建立各个时间周期的时间戳与该时间戳对应的节点分割信息的数据的哈希表，以实现后续可以根据任意一个参与方的还原请求，还原到时间戳所对应的节点分割信息所构建的树模型，以进行后续新一轮的训练。

综上，通过采用模型快照机制对各个时间节点的节点分割信息的数据进行定期保存，不仅可以避免还原后重新训练模型的复杂操作，还能够快速地实现多方的节点分割信息时间节点的同步，从而保证训练出精准度较高的预测模型。

更进一步的，当任意一个特征提供端需要进行还原处理时，即可通过广播时间信息的方式完成还原操作，本实施例中，所述至少两个特征提供端310，还被配置为读取待删除数据，并确定所述待删除数据对应的使用时间信息；将所述使用时间信息上传至所述样本标签提供端330；所述样本标签提供端330，还被配置为接收所述使用时间信息；根据所述使用时间信息建立还原请求，并对所述还原请求进行广播；所述至少两个特征提供端310，还被配置为根据所述还原请求中携带的所述使用时间信息读取所述哈希表；根据读取结果对所述本地节点分割信息的数据进行还原处理，并向所述样本标签提供端发送还原处理结果。

具体的，所述待删除数据具体是指特征提供端中训练过程中所使用的数据，且当前时刻该部分数据不可用，其原因可以是数据丢失不完整，或者数据过于陈旧等；相应的，所述使用时间信息具体是指使用所述待删除数据最后一次训练模型时的时间。

基于此，当所述至少两个特征提供端中的任意一个特征提供端读取到待删除数据后，为了能够避免这部分数据对训练出的模型的预测精准度产生影响，可以确定所述待删除数据对应的使用时间信息，之后将该时间信息发送给所述样本标签提供端330，所述样本标签提供端330在接收到所述使用时间信息后，确定需要通知各个特征提供端将时间还原，则将根据所述使用时间信息广播还原请求。之后各个特征提供端接收到所述还原请求后，将通过读取哈希表的方式确定使用时间信息对应的快照数据，以还原出在使用时间信息节点所对应的节点分割信息的数据，最后各个特征提供方完成还原处理后，会向所述样本标签提供端330发送确定信息及节点分割信息，样本标签提供端收到数据后还原树结构，对此刻删除部分数据后的新数据开启新一轮训练。

举例说明，参与方A删除了一部分数据，此时确定使用这部分数据最后一次参与训练的时间戳为Ta1，则此时将时间戳Ta1发送给参与方C，参与方C在接收到时间戳Ta1后，会对时间戳Ta1进行广播，参与方B根据广播确定时间戳Ta1，通过读取本地哈希表的方式确定时间戳Ta1对应的快照数据，此时参与方A和参与方B将还原本地数据和节点分割信息，即还原到时间戳Ta1对应的时间，当完成还原处理后，会向参与方C发送确认信息和节点分割信息，参与方C在收到数据后进行还原树结构处理操作，之后对此刻删除部分数据后的新数据开启新一轮训练。

综上所述，通过采用快照机制完成还原处理操作，实现在样本数据不可用的情况下，可以快速地回溯到最近的版本，继续使用新数据训练，从而不需要对所有的样本进行重新训练，降低了训练成本，并且减小样本数据缺失后对模型整体效果的影响。

除此之外，为了能够保证通用性和可扩展性，我们使用Docker容器部署在云主机上，其中Docker 属于 Linux 容器的一种封装，提供简单易用的容器使用接口，其能够有效地将应用程序与本申请提供的数据处理系统相互依赖，通过打包在一个文件里面。运行这个文件，就会生成一个虚拟容器。程序在这个虚拟容器里运行，就好像在真实的物理机上运行一样。从而解决运行环境问题。

Linux 容器是对进程进行的隔离，可以理解为在正常进程的外面套了一个保护层。对于容器里面的进程来说，它接触到的各种资源都是虚拟的，从而实现与底层系统的隔离。以实现启动容器相当于启动本机的一个进程，而不是启动一个操作系统，速度更快多。同时容器只占用需要的资源，不占用那些没有用到的资源，可以有效提高资源利用率。

本申请提供的数据处理系统，实现通过多方联合学习的方式对模型进行训练，而在此过程中还会对需要传输的数据进行加密处理，有效地提高了数据的安全性，同时通过多个特征提供方的数据相互制约，有效地保证了训练出的模型的预测精准度，不仅解决了数据孤岛问题，还使其更适用于工业场景；同时通过联合学习的方式在数据来源不唯一时保障多方数据隐私的同时提升联合建模的效率与模型性能，同时将xgboost模型结构和节点信息分开存储，以最大限度保护隐私。

与上述系统实施例相对应，本申请还提供了另一种数据处理系统，图6示出了本说明书一实施例提供的另一种数据处理系统的结构示意图，该数据处理系统600包括至少两个特征提供端610，数据加密端620以及样本标签提供端630，其中：

至少两个特征提供端610，被配置为接收预测请求；通过本地业务树模型对所述预测请求中携带的待预测数据进行处理，获得预测结果；将所述预测结果发送至数据加密端；其中，所述本地业务树模型中的各个分割节点上述数据处理系统确定；

所述数据加密端620，被配置为接收至少两个预测结果，通过对所述至少两个预测结果进行加密处理，获得至少两个加密预测结果；将所述至少两个加密预测结果发送至样本标签提供端630；

所述样本标签提供端630，被配置为对所述至少两个加密预测结果进行整合，根据整合结果获得目标预测结果，并广播所述目标预测结果。

具体的，本实施例提供的另一种数据处理系统为多方联合进行预测处理的过程，本实施例中使用的业务树模型的构建可以参见上述实施例中相应的描述内容，本实施例在此不作过多赘述，需要说明的是，所述各个特征提供端均具有本地业务树模型，通过整合各个特征提供端的预测结果即可得到最终的预测结果，实现多方联合的方式进行预测处理，考虑到各个特征提供方具有的业务数据的影响，有效地提高预测精准度。

基于此，由于所述特征提供端的本地业务树模型的构建是联合多个特征提供端实现构建的，因此当需要进行预测时，也需要整合各个特征提供方的预测结果才能够准确的预测出结果，因此当需要进行预测处理时，为了保证数据的安全性，需要由所述样本标签提供端发送预测请求，之后再开启预测处理过程，本实施例中，所述样本标签提供端630，还被配置为获取所述待预测数据；基于所述待预测数据创建所述预测请求，并向至少两个特征提供端发送所述预测请求。

更进一步的，在进行预测处理的过程中，由于各个特征提供端中的本地业务树模型的结构不同，因此预测时会根据本地的节点分割信息完成预测，而为了能够精准的反馈预测结果，则需要将各个特征提供端的结果进行整合，本实施例中，所述至少两个特征提供端610，进一步被配置为通过所述本地业务树模型对所述预测结果中携带的所述待处理数据进行处理，获得第一向量表达和第二向量表达；整合所述第一向量表达和所述第二向量表达获得所述预测结果。

具体的，所述第一向量表达具体是指通过本地业务树模型对待处理数据进行预测后，得到的本地业务树模型中的叶子节点权重向量所对应的表达，所述第二向量表达具体是指本地叶子节点指示向量所对应的表达，所述待处理数据具体是指需要对用户进行业务预测是所使用的数据。

基于此，各个特征提供方在接收到所述预测请求后，将初始化本地参数，之后利用训练过程中的节点分割信息，产生一个one-hot编码的本地叶子节点的指示向量S（第二向量表达），用于标记特征提供方所包含的叶子节点，需要说明的是，所有特征提供方本地叶子节点指示向量的交集为一个单位向量。

更进一步的，每个特征提供方将根据本地业务树模型的分割节点进行分支搜索，直至得到最总的叶子节点的权重w（第一向量表达），当各个特征提供方确定第一向量表达和第二向量表达后，为了能够保证数据的安全性，可以将其发送至数据加密端620，由数据加密端620对第一向量表达和第二向量表达进行加密，最后再发送给样本标签提供端630，此时样本标签提供端630将接收到至少两个特征提供端上传的加密后的预测结果，最后样本特征提供端630通过整合两个特征提供端的预测结果即可计算出响应于预测请求的预测结果，并对其进行广播即可。

举例说明，最终训练得到的树模型中，参与方A提供的叶节点标志向量为S_A={1,1,0,1}，其本地叶结点权重向量为{W_A}，参与方B提供的叶节点标志向量为S_B={0,1,1}，叶结点权重向量为{W_B}，当需要对用户甲办理信用卡的可能进行预测时，可以将用户甲的数据发送给参与方A和参与方B，此时参与方A和参与方B将根据本地的业务树模型对其进行预测，预测完成后会将预测结果发送至数据加密端进行加密处理，之后再交由参与方C进行整合处理，参与方C通过整合参与方B的预测结果以及参与方A的预测结果，得到最后的预测值为<{S_A}*{W_A}+{S_B}*{W_B}>，得到预测结果为0.9，根据预测结果确定用户甲办理信用卡的可能性较高，则此时可以向用户甲推送相关的信用卡办理业务等。

综上所述，通过采用多方联合的方式进行预测，可以最小化各个特征提供方之间的交互次数，由此缩短预测时间，实现有效地利用网络传输资源，快速且精准的完成预测处理。

与上述系统实施例相对应，本申请还提供了一种数据处理方法，图7示出了本说明书一实施例提供的一种数据处理方法的流程图，具体包括以下步骤：

步骤S702，至少两个特征提供端基于本地样本特征确定待预测样本特征，并将所述待预测样本特征对应的样本数据发送至数据加密端；

步骤S704，所述数据加密端接收至少两个样本数据；通过对所述至少两个样本数据进行加密处理，获得至少两个加密样本数据；将所述至少两个加密样本数据发送至样本标签提供端；

步骤S706，所述样本标签提供端根据所述至少两个加密样本数据确定目标样本特征，并将所述目标样本特征作为其所属的特征提供端的目标分割节点；在基于本地样本标签确定所述目标分割节点的分割周期满足训练停止条件的情况下，广播训练停止信息。

一个可选的实施例中，所述至少两个特征提供端基于所述本地样本特征构建特征矩阵，并将所述特征矩阵输入至加载到本地的初始化函数进行处理，获得初始预测分值；根据所述初始预测分值在所述本地样本特征中筛选出初始样本特征，并将所述初始样本特征作为初始分割节点构建初始业务树模型；基于所述初始业务树模型对所述本地样本特征对应的样本数据进行预测，并将预测结果与所述样本标签提供端广播的样本标签进行比较；在比较结果未满足预设条件的情况下，根据所述预测结果确定除所述初始样本特征的本地样本特征构建的特征矩阵对应的中间预测分值；基于所述初始预测分值和所述中间预测分值在除所述初始样本特征的本地样本特征中筛选出所述待预测样本特征。

一个可选的实施例中，所述至少两个特征提供端计算所述预测结果的预测值和所述样本标签的样本标签值分别对应的一阶导数向量和二阶导数向量，以及提取所述待预测样本特征对应的待处理数据；基于所述一阶导数向量、所述二阶导数向量以及所述待处理数据组成所述待预测样本特征对应的样本数据，并发送至所述数据加密端。

一个可选的实施例中，所述数据加密端接收所述至少两个特征提供端发送的所述至少两个样本数据；通过采用同态加密算法对所述至少两个样本数据进行加密处理，获得所述至少两个加密样本数据；将所述至少两个加密样本数据发送至所述样本标签提供端。

一个可选的实施例中，所述样本标签提供端接收所述至少两个加密样本数据，并计算所述至少两个加密样本数据中各个加密样本数据对应的信息增益值；根据所述信息增益值在所述至少两个加密样本数据中选择目标加密样本数据，并将所述目标加密样本数据对应的样本特征作为所述目标样本特征。

一个可选的实施例中，所述样本标签提供端选择最高的信息增益值对应的加密样本数据作为所述目标加密样本数据，将所述目标加密样本数据发送至所述数据加密端；

所述数据加密端接收所述目标加密样本数据，并对所述目标加密样本数据进行解密获得目标样本数据；确定所述目标样本数据所属的目标特征提供端，并向所述目标特征提供端发送所述目标样本数据；

所述目标特征提供端接收所述目标样本数据，并确定所述目标样本数据对应的所述目标样本特征；将所述目标样本特征作为所述目标分割节点，并基于所述目标分割节点对所述初始业务树模型进行更新。

一个可选的实施例中，所述训练停止条件包括：迭代次数条件、残差值变化条件或请求停止条件。

一个可选的实施例中，所述样本标签提供端向所述至少两个特征提供端发送建立快照请求；

所述至少两个特征提供端根据所述建立快照请求读取时间信息；基于所述时间信息对本地节点分割信息的数据进行保存，并根据保存结果建立哈希表。

一个可选的实施例中，所述至少两个特征提供端读取待删除数据，并确定所述待删除数据对应的使用时间信息；将所述使用时间信息上传至所述样本标签提供端；

所述样本标签提供端接收所述使用时间信息；根据所述使用时间信息建立还原请求，并对所述还原请求进行广播；

所述至少两个特征提供端根据所述还原请求中携带的所述使用时间信息读取所述哈希表；根据读取结果对所述本地节点分割信息的数据进行还原处理，并向所述样本标签提供端发送还原处理结果。

综上所述，实现通过多方联合学习的方式对模型进行训练，而在此过程中还会对需要传输的数据进行加密处理，有效地提高了数据的安全性，同时通过多个特征提供方的数据相互制约，有效地保证了训练出的模型的预测精准度，不仅解决了数据孤岛问题，还使其更适用于工业场景；同时通过联合学习的方式在数据来源不唯一时保障多方数据隐私的同时提升联合建模的效率与模型性能，同时将xgboost模型结构和节点信息分开存储，以最大限度保护隐私。

上述为本实施例的一种数据处理系统的示意性方案。需要说明的是，该数据处理方法的技术方案与上述的数据处理系统的技术方案属于同一构思，数据处理方法的技术方案未详细描述的细节内容，均可以参见上述数据处理系统的技术方案的描述。

与上述系统实施例相对应，本申请还提供了另一种数据处理方法，图8示出了本说明书一实施例提供的另一种数据处理方法的流程图，具体包括以下步骤：

步骤S802，至少两个特征提供端接收预测请求；通过本地业务树模型对所述预测请求中携带的待预测数据进行处理，获得预测结果；将所述预测结果发送至数据加密端；其中，所述本地业务树模型中的各个分割节点由上述数据处理方法确定；

步骤S804，所述数据加密端接收至少两个预测结果，通过对所述至少两个预测结果进行加密处理，获得至少两个加密预测结果；将所述至少两个加密预测结果发送至样本标签提供端；

步骤S806，所述样本标签提供端对所述至少两个加密预测结果进行整合，根据整合结果获得目标预测结果，并广播所述目标预测结果。

一个可选的实施例中，所述样本标签提供端获取所述待预测数据；基于所述待预测数据创建所述预测请求，并向至少两个特征提供端发送所述预测请求。

一个可选的实施例中，所述至少两个特征提供端通过所述本地业务树模型对所述预测结果中携带的所述待处理数据进行处理，获得第一向量表达和第二向量表达；整合所述第一向量表达和所述第二向量表达获得所述预测结果。

上述为本实施例的另一种数据处理系统的示意性方案。需要说明的是，该数据处理方法的技术方案与上述的另一种数据处理系统的技术方案属于同一构思，数据处理方法的技术方案未详细描述的细节内容，均可以参见上述另一种数据处理系统的技术方案的描述。

图9示出了根据本说明书一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。其中，处理器920用于执行上述两种数据处理方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的两种数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述两种数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于上述两种数据处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的两种数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述两种数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理系统，其特征在于，包括：

至少两个特征提供端，被配置为基于本地样本特征构建特征矩阵，并将所述特征矩阵输入至加载到本地的初始化函数进行处理，获得初始预测分值；根据所述初始预测分值在所述本地样本特征中筛选出初始样本特征，并将所述初始样本特征作为初始分割节点构建初始业务树模型；基于所述初始业务树模型对所述本地样本特征对应的样本数据进行预测，并将预测结果与样本标签提供端广播的样本标签进行比较；在比较结果未满足预设条件的情况下，根据所述预测结果确定除所述初始样本特征的本地样本特征构建的特征矩阵对应的中间预测分值；基于所述初始预测分值和所述中间预测分值在除所述初始样本特征的本地样本特征中筛选出待预测样本特征，并将所述待预测样本特征对应的样本数据发送至数据加密端；

2.根据权利要求1所述的数据处理系统，其特征在于，所述至少两个特征提供端，进一步被配置为：

3.根据权利要求2所述的数据处理系统，其特征在于，所述数据加密端，进一步被配置为：

将所述至少两个加密样本数据发送至所述样本标签提供端。

4.根据权利要求3所述的数据处理系统，其特征在于，所述样本标签提供端，进一步被配置为：

5.根据权利要求4所述的数据处理系统，其特征在于，所述样本标签提供端，进一步被配置为选择最高的信息增益值对应的加密样本数据作为所述目标加密样本数据，将所述目标加密样本数据发送至所述数据加密端；

6.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，所述训练停止条件包括：迭代次数条件、残差值变化条件或请求停止条件。

7.根据权利要求1所述的数据处理系统，其特征在于，所述样本标签提供端，还被配置为向所述至少两个特征提供端发送建立快照请求；

8.根据权利要求7所述的数据处理系统，其特征在于，所述至少两个特征提供端，还被配置为读取待删除数据，并确定所述待删除数据对应的使用时间信息；将所述使用时间信息上传至所述样本标签提供端；

9.一种数据处理系统，其特征在于，包括：

至少两个特征提供端，被配置为接收预测请求；通过本地业务树模型对所述预测请求中携带的待预测数据进行处理，获得预测结果；将所述预测结果发送至数据加密端；其中，所述本地业务树模型中的各个分割节点由权利要求1至8任意一项所述的系统确定；

10.根据权利要求9所述的数据处理系统，其特征在于，所述样本标签提供端，还被配置为获取所述待预测数据；基于所述待预测数据创建所述预测请求，并向至少两个特征提供端发送所述预测请求。

11.根据权利要求9所述的数据处理系统，其特征在于，所述至少两个特征提供端，进一步被配置为通过所述本地业务树模型对所述预测结果中携带的所述待预测数据进行处理，获得第一向量表达和第二向量表达；整合所述第一向量表达和所述第二向量表达获得发送至所述数据加密端的所述预测结果。

12.一种数据处理方法，其特征在于，包括：

至少两个特征提供端基于本地样本特征构建特征矩阵，并将所述特征矩阵输入至加载到本地的初始化函数进行处理，获得初始预测分值；根据所述初始预测分值在所述本地样本特征中筛选出初始样本特征，并将所述初始样本特征作为初始分割节点构建初始业务树模型；基于所述初始业务树模型对所述本地样本特征对应的样本数据进行预测，并将预测结果与样本标签提供端广播的样本标签进行比较；在比较结果未满足预设条件的情况下，根据所述预测结果确定除所述初始样本特征的本地样本特征构建的特征矩阵对应的中间预测分值；基于所述初始预测分值和所述中间预测分值在除所述初始样本特征的本地样本特征中筛选出待预测样本特征，并将所述待预测样本特征对应的样本数据发送至数据加密端；

13.一种数据处理方法，其特征在于，包括：

至少两个特征提供端接收预测请求；通过本地业务树模型对所述预测请求中携带的待预测数据进行处理，获得预测结果；将所述预测结果发送至数据加密端；其中，所述本地业务树模型中的各个分割节点由权利要求12所述的方法确定；

14.一种计算设备，其特征在于，包括存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现权利要求12或13任意一项所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求12或13任意一项所述方法的步骤。