CN113821827B

CN113821827B - 保护多方数据隐私的联合建模方法及装置

Info

Publication number: CN113821827B
Application number: CN202111220972.8A
Authority: CN
Inventors: 黄诤杰; 谭潇; 陈帅
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2024-04-19
Anticipated expiration: 2041-02-19
Also published as: CN112560105B; CN112560105A; CN113821827A

Abstract

本说明书实施例提供一种保护多方数据隐私的联合建模方法，所述多方各自存储训练样本集，其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值；该方法应用于任一的第一方，包括：基于第一训练样本集，确定该多个特征项与该标签项之间的多个第一关联度，并获取第二方确定的多个第二关联度，进而针对该各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到多个差异度；确定该多个特征项在利用第一训练样本集构建的第一树模型中的多个第一重要性权重，并利用其对上述多个差异度进行加权处理，得到特征分布差异分数；在此特征分布差异分数符合预定条件的情况下，将第二方归为与第一方进行联合建模的参与方。

Description

保护多方数据隐私的联合建模方法及装置

本申请为2021年2月19日提交的申请号为202110188950.1，名为“保护多方数据隐私的联合建模方法及装置”的发明专利申请的分案申请。

技术领域

本说明书实施例涉及机器学习技术领域，尤其涉及一种保护多方数据隐私的联合建模方法及装置。

背景技术

计算机技术的发展，使得机器学习在各种各样的业务场景中得到越来越广泛的应用。联邦学习是一种在保护隐私数据情况下进行联合建模的方法。例如，企业与企业之间需要进行合作安全建模，可以进行联邦学习，以便在充分保护企业数据隐私的前提下，使用各方的数据对数据处理模型进行协作训练，从而更准确、有效地处理业务数据。在联邦学习场景中，各方例如可以商定模型结构(或约定模型)后，各自使用隐私数据在本地进行训练，并将模型参数使用安全可信的方法进行聚合，最后各方根据聚合后模型参数改进本地模型。联邦学习在隐私保护基础上，有效打破数据孤岛，实现多方联合建模。

然而，目前联邦学习的方式在训练效率上表现较差。因此，需要一种方案，可以在保证联邦学习的训练效果的同时，提高联邦学习的训练效率。

发明内容

在本说明书实施例描述的保护多方数据隐私的联合建模方法及装置中，通过对联合建模的参与方进行有效筛选，实现在保证联合建模效果的同时，提高联合建模的训练效率。

根据第一方面，提供一种保护多方数据隐私的联合建模方法，所述多方各自存储训练样本集，其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值；所述方法应用于任一的第一方，包括：

基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度；获取第二方基于第二训练样本集确定的多个第二关联度；针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到所述多个特征项对应的多个差异度；利用所述第一训练样本集，构建第一树模型；确定所述多个特征项在所述第一树模型中的多个第一重要性权重；利用所述多个第一重要性权重，对所述多个差异度进行加权处理，得到特征分布差异分数；在所述特征分布差异分数符合预定条件的情况下，将所述第二方归为与所述第一方进行联合建模的参与方。

在一个实施例中，基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度，包括：针对各个特征项，对其在所述第一训练样本集中对应的多个特征值进行分箱处理，得到分箱结果，其中包括所述多个特征值与多个分箱类别之间的映射关系；针对所述多个分箱类别中的各个分箱类别，确定其在所述第一训练样本集中对应不同标签值的样本分布；根据所述多个分箱类别对应的多个样本分布，计算对应特征项的卡方检验值，作为第一关联度。

在一个实施例中，针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到所述多个特征项对应的多个差异度，包括：针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的绝对差值，作为差异度。

在一个实施例中，确定所述多个特征项在所述第一树模型中的多个第一重要性权重，包括：确定所述各个特征项在所述第一树模型中被作为分裂特征的次数；对所述多个特征项对应的多个次数进行归一化处理，得到所述多个第一重要性权重。

在一个实施例中，在所述特征分布差异分数符合预定条件的情况下，将所述第二方归为与所述第一方进行联合建模的参与方，包括：在所述特征分布差异分数大于预定阈值的情况下，将所述第二方归为与所述第一方进行联合建模的参与方。

在一个实施例中，所述方法还包括：获取若干第三方各自基于本地训练样本集所确定的，针对所述多个特征项的重要性权重；基于获取的重要性权重和所述多个第一重要性权重，确定所述各个特征项的综合重要性权重；基于所述综合重要性权重，从所述多个特征项中选取部分特征项；将所述部分特征项发送给所述参与方，以使得所述参与方基于所述部分特征项与所述第一方进行联合建模。

在一个具体的实施例中，基于所述综合重要性权重，从所述多个特征项中选取部分特征项，包括：基于所述综合重要性权重，对所述多个特征项进行排名；将名次在预定范围内的特征项作为所述部分特征项。

根据第二方面，提供一种保护多方数据隐私的联合建模装置，所述多方各自存储训练样本集，其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值；所述装置集成于任一的第一方，包括：

关联度确定单元，配置为基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度；关联度获取单元，配置为获取第二方基于第二训练样本集确定的多个第二关联度；差异度确定单元，配置为针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到所述多个特征项对应的多个差异度；树模型构建单元，配置为利用所述第一训练样本集，构建第一树模型；权重确定单元，配置为确定所述多个特征项在所述第一树模型中的多个第一重要性权重；分数确定单元，配置为利用所述多个第一重要性权重，对所述多个差异度进行加权处理，得到特征分布差异分数；参与方筛选单元，配置为在所述特征分布差异分数符合预定条件的情况下，将所述第二方归为与所述第一方进行联合建模的参与方。

在一个实施例中，所述关联度确定单元具体配置为：针对各个特征项，对其在所述第一训练样本集中对应的多个特征值进行分箱处理，得到分箱结果，其中包括所述多个特征值与多个分箱类别之间的映射关系；针对所述多个分箱类别中的各个分箱类别，确定其在所述第一训练样本集中对应不同标签值的样本分布；根据所述多个分箱类别对应的多个样本分布，计算对应特征项的卡方检验值，作为第一关联度。

在一个实施例中，所述差异度确定单元具体配置为：针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的绝对差值，作为差异度。

在一个实施例中，所述权重确定单元具体配置为：确定所述各个特征项在所述第一树模型中被作为分裂特征的次数；对所述多个特征项对应的多个次数进行归一化处理，得到所述多个第一重要性权重。

在一个实施例中，所述参与方筛选单元具体配置为：在所述特征分布差异分数大于预定阈值的情况下，将所述第二方归为与所述第一方进行联合建模的参与方。

在一个实施例中，所述装置还包括特征筛选单元，配置为：获取若干第三方各自基于本地训练样本集所确定的，针对所述多个特征项的重要性权重；基于获取的重要性权重和所述多个第一重要性权重，确定所述各个特征项的综合重要性权重；基于所述综合重要性权重，从所述多个特征项中选取部分特征项；将所述部分特征项发送给所述参与方，以使得所述参与方基于所述部分特征项与所述第一方进行联合建模。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所描述的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所描述的方法。

在本说明书实施例披露的方法及装置中，对联合建模的参与方进行筛选，可以舍弃掉一些特征分布近似的数据方，如此，相较于多个数据方均参与联合建模，利用筛选出的参与方与第一方进行共同建模，同样可以取得较优的模型效果。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的保护多方数据隐私的联合建模的场景框架图；

图2示出根据一个实施例的保护多方数据隐私的联合建模方法流程图；

图3示出根据一个实施例的树模型中包括的决策树；

图4示出根据一个实施例的保护多方数据隐私的联合建模的装置结构图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

如前所述，需要一种方案，可以在保证联邦学习的训练效果的同时，提高联邦学习的训练效率。基于此，本说明书实施例披露一种保护多方数据隐私的联合建模方法，具体，图1示出根据一个实施例的保护多方数据隐私的联合建模的场景框架图。如图1所示，该框架中包括数据准备阶段、数据筛选阶段的建模阶段，在数据准备阶段，多个数据方(文中或简称多方)各自进行数据准备，包括对本地数据进行预处理，如进行特征项对齐，然后基于预处理后的训练数据，计算特征分布和特征重要性；在数据筛选阶段，发起方(可以为多方中的任一方)确定本地计算出的特征分布，与其他数据方计算出的特征分布之间的差异，并基于此差异和本地计算出的特征重要性，计算差异分数，进而确定联合建模的多个参与方；在建模阶段，发起方与该多个参与方进行联合建模，得到联合训练模型。如此，通过对联合建模的参与方进行合理筛选，可以在保证联合建模的训练效果的同时，有效提高联合建模的训练效率。

下面，对本说明书实施例披露的上述方法的实施步骤进行介绍。

图2示出根据一个实施例的保护多方数据隐私的联合建模方法流程图，其中多方各自存储训练样本集，其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值。

在一个实施例中，训练样本集所针对的业务对象可以包括用户、商户、商品、事件等，换言之，训练样本集中包括的样本可以是用户样本、商户样本、商品样本或事件样本。进一步，在一个具体的实施例中，其中事件可以是交易事件、登录事件、下载事件、注册事件、投诉事件等。

在一个实施例中，上述各个训练样本属于用户样本，其所对应的多个特征项可以包括性别、年龄、职业、常驻地、消费金额、消费频次、活跃度(如登录某电商平台的频次、使用时长)等，其所对应的标签项可以是用户群体标签、或用户风险标签等。在一个具体的实施例中，用户群体标签所对应的标签值可以包括高消费人群、中消费人群和低消费人群等。在一个具体的实施例中，用户风险标签所对应的标签值可以包括高风险人群和低风险人群等。

在一个实施例中，上述各个训练样本属于商品样本，其所对应的多个特征项可以包括商品产地、价格、品类、有效期、包装、销量等，其所对应的标签项可以是商品热度标签或商品目标人群标签。在一个具体的实施例中，商品热度标签所对应的标签值可以包括爆款商品、热门商品和冷门商品等。在一个具体的实施例中，商品目标人群标可以包括学生、上班族、家长、老年人，等等。

在一个实施例中，上述各个训练样本属于事件样本，其所对应的多个特征项可以包括事件发生的时间、网络地址、地理位置、涉及金额等，其所对应的标签项可以是事件风险标签。在一个具体的实施例中，事件风险标签的标签值可以包括高风险、中风险和低风险等。

以上对训练样本集，以及训练样本中包括的特征项、标签项、标签值进行介绍。另外，上述方法可以应用于任意的一个数据方，为简洁描述，文中称为第一方(或第一数据方)。并且，第一数据方可以实现为任何具有计算、处理、存储能力的平台、服务器或设备集群等。如图2所示，所述方法包括以下步骤：

步骤S210，基于第一训练样本集，确定上述多个特征项中各个特征项与上述标签项之间的关联度，得到多个第一关联度；步骤S220，获取第二方基于第二训练样本集确定的多个第二关联度；步骤230，针对上述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到上述多个特征项对应的多个差异度；步骤S240，利用上述第一训练样本集，构建第一树模型；步骤S250，确定上述多个特征项在上述第一树模型中的多个第一重要性权重；步骤S260，利用上述多个第一重要性权重，对上述多个差异度进行加权处理，得到特征分布差异分数；步骤S270，在上述特征分布差异分数符合预定条件的情况下，将上述第二方归为与上述第一方进行联合建模的参与方。

针对以上步骤，首先需要说明的是，上述“第一训练样本集”、“第一关联度”和“第一树模型”等中的“第一”，“第二方”等中的“第二”，以及类似用语，均是为了简洁地区分同类事物，不具有排序等其他限定作用。

以上步骤展开如下：

首先，在步骤S210，基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度。需说明，文中将第一数据方中本地存储的训练样本集称为第一训练样本集。此外，本步骤中的得到的多个第一关联度可以形成第一方针对多个特征项的特征分布。

在一个实施例中，本步骤可以包括：针对各个特征项，对其在上述第一训练样本集中对应的多个特征值进行分箱处理，得到分箱结果，其中包括所述多个特征值与多个分箱类别之间的映射关系；接着，针对该多个分箱类别中的各个分箱类别，确定其在所述第一训练样本集中对应不同标签值的样本分布；再根据该多个分箱类别对应的多个样本分布，计算对应特征项的卡方检验值，作为第一关联度。

需理解，对于上述多个特征项中任意的第一特征项，各个训练样本包括对应该第一特征项的特征值，由此，第一训练集涉及多个第一训练样本，相应包括对应该第一特征项的多个特征值。

对于上述分箱处理，简单地说，分箱就是将连续变量离散化，将多状态的离散变量合并成少状态。分箱方式有多种，包括等频分箱，等距分箱、聚类分箱、Best-KS分箱和卡方分箱等。需说明，针对任意两个特征项所采用的分箱方式，可以相同，也可以不同。

根据一个例子，假定上述多个特征项中包括年收入，并且，年收入在第一训练样本集中对应的多个特征值包括12、20、32、45、55、60(单位：万)，进一步假定采用等距分箱的分箱方式，可以得到下表1中示出的分箱结果。

表1

以上，经过分箱处理，可以得到上述各个特征值所对应的分箱类别，例如，表1中的特征值12所对应的分箱类别为低收入。

进一步，针对上述多个分箱类别中的各个分箱类别，确定其在所述第一训练样本集中对应不同标签值的样本分布。需说明，该样本分布可以包括各个分箱类别下，具有该分箱类别的训练样本中对应不同标签值的样本数量。在一个例子中，假定标签项是用户群体类别，其对应的标签值包括低消费人群和高消费人群，基于表1中的分箱结果确定出的样本分布如下表2所示。

表2

以上，可以统计出针对任一特征项(如年收入)的多个分箱类别下的多个样本分布。接着，基于此多个样本分布，可以计算对应特征项的卡方检验值，作为第一关联度。在一个具体的实施例中，利用卡方检验(chi-square test)，计算出卡方检验值，其中卡方检验值的计算可以采用下式(1)。

在公式(1)中，χ²表示卡方检验值，或称卡方统计量；f_o表示观测值，f_e表示期望值。

根据一个例子，可以基于表2中的观测值，确定出各个元素对应的期望值。具体，假定一个人的消费高低，与其收入的高低无关，则根据表2中最右侧一列的内容可知，这个人有40/100＝0.4的概率属于低消费人群，有 60/100＝0.6的概率属于高消费人群，基于这两个概率，可以算出下表3中示出的期望值。

表3

进一步，根据表3中示出的观测值和期望值，结合公式(1)，可以计算出特征项“年收入”所对应的卡方检验值为0.72，并将其作为特征项“年收入”与标签项“用户群体标签”之间的第一关联度。

由上，通过分箱处理及卡方检验，可以得到各个特征项与标签项之间的第一关联度。在另一个实施例中，还可以计算各个特征项与标签项之间的斯皮尔曼(spearman)相关系数，作为对应的第一关联度。

由上，可以基于第一训练样本集，得到上述多个特征项与标签项之间的多个第一关联度。另一方面，在步骤S220，获取第二方基于第二训练样本集确定的多个第二关联度。需说明，第二方可以是上述多个数据方中除第一方以外的任意一个数据方，此处将第二方本地存储的训练样本集称为第二训练样本集，并且，将第二方基于第二训练样本集确定出的上述多个特征项与标签项之间的多个关联度，称为多个第二关联度。第二方确定第二关联度采用的方式可以与第一方确定第一关联度采用的方式相同，比如说，多方中的各方预先约定好确定关联度的方式，之后再基于约定的方式进行关联度的确定。

在一个实施例中，本步骤可以包括：从第二方接收上述多个第二关联度。在另一个实施例中，本步骤可以包括：从中心服务器获取上述多个第二关联度，该多个第二关联度由第二方上传至该中心服务器。

如此，可以获取多个第二关联度。

接着，基于上述确定出的多个第一关联度和获取到的多个第二关联度，在步骤S230，针对上述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到上述多个特征项对应的多个差异度。需说明，此差异度用于反映第一关联度和第二关联度之间的差异，其具体计算方式可以是预先设定的。在一个实施例中，针对各个特征项，确定该特征项所对应的第一关联度和第二关联度之间差值的绝对值，作为差异度。在另一个实施例中，针对各个特征项，确定该特征项所对应的第一关联度和第二关联度的平方差的绝对值，作为差异度。在还一个实施例中，确定第一关联度和第二关联度之间的差值，与第一关联度的比值，作为差异度。

如此，可以基于针对多个特征项的多个第一关联度和多个第二关联度，确定出多个差异度。

另一方面，在步骤S240，利用上述第一训练样本集，构建第一树模型。为便于理解，下面先对建立的树模型进行介绍，树模型中可以包括多棵决策树，在一个实施例中，图3示出根据一个实施例的树模型中包括的决策树，其中包括根节点31和多个叶子节点(如叶子节点35)，在根节点和各个叶子节点之间包括多个父节点(如父节点32)。进一步地，根节点31对应上述第一训练样本集，第一训练样本集中的样本经过决策树中的预测路径，可以被划分到某个叶子节点中，其中预测路径是指从对应叶子节点至其所在决策树的根节点之间的节点连接路径(图3中通过加粗示出一条预测路径)，并且，各个父节点具有对应的分裂特征、分裂值，其中分裂特征为上述多个特征项中的某一个特征。以父节点32为例，其对应的分裂特征和分裂值分别表示为 x¹和v₁，对于某个训练样本，其对应于分裂特征x¹的特征值若小于v₁(此时判断结果为Y)，则被划分到左子树，若不小于v₁(此时判断结果为N)，则被划分到右子树。

以上，构建的树模型进行介绍。另外，上述第一树模型是根据该第一训练样本集进行训练得到的，具体，第一树模型所包含决策树的分裂特征和分裂值等，是基于第一训练样本集涉及的多个特征项，以及各个特征项所对应的多个特征值进行选取和计算而得到的。在一个实施例中，第一树模型基于的算法可以为GBDT(Gradient boosting deision tree,梯度提升决策树)算法、XGBoost(eXtremeGradientBoosting)算法、CART(ClassificationAnd Regression Tree，分类和回归树)算法等。

由上可以训练得到第一树模型。进一步，基于此第一树模型，在步骤S250，确定上述多个特征项在该第一树模型中的多个第一重要性权重。

在一个实施例中，本步骤可以实施为：可以确定各个特征项在第一树模型中被作为分裂特征的次数，得到多个特征项对应的多个次数；再对此多个次数进行归一化处理，得到上述多个第一重要性权重。在一个具体的实施例中，其中归一化处理可以包括将各个次数除以多个次数的总和。在另一个具体的实施例中，其中归一化处理可以利用softmax函数实现。在一个例子中，可以参见图3，假定特征项x¹、x²、x³和x⁴在树模型(可以包括多颗决策树) 中出现的次数分别为5、10、8、2次，则可以对应得到各个次数的占比为0.2， 0.4，0.32和0.08。

在另一个实施例中，本步骤可以实施为：根据上述第一训练样本集中训练样本在第一树模型中的决策路径，统计经过各个父节点的样本数量，再据此累计各个分裂特征所对应的样本数量，进而得到上述多个特征项对应的多个样本数量，并对此多个样本数量进行归一化处理，作为上述多个第一重要性权重。

由上，可以确定出上述多个特征项对应的多个第一重要性权重。据此，在步骤S260，利用该多个第一重要性权重，对上述多个差异度进行加权处理，得到特征分布差异分数。在一个具体的实施例中，其中加权处理包括加权求和。在另一个具体的实施例中，其中加权处理包括对多个差异度的绝对值进行加权求和。在还一个具体的实施例中，其中加权处理包括将加权求和的结果乘以预设的缩放系数(如0.5或2等)。在一个例子中，假定对应多个特征项的多个第一重要性权重分别为0.2，0.4，0.32和0.08，多个差异度分别为3.2、2.6、4.8和0.76，据此进行加权求和可以计算出特征分布差异分数为17.10。

如此，可以得到第一方与第二方之间的特征分布差异分数。然后，在步骤S270，在该特征分布差异分数符合预定条件的情况下，将上述第二方归为与第一方进行联合建模的参与方。

在一个实施例中，本步骤可以实施为：在上述特征分布差异分数大于预定阈值的情况下，将上述第二方归为与第一方进行联合建模的参与方。需说明，其中预定阈值可以是工作人员根据经验进行设定的，例如，可以而设定为10或20等。此外，在上述特征分别差异分数不大于预定阈值的情况下，则不将第二方归为参与方。

在另一个实施例中，在步骤S270之前，所述方法还可以包括：确定出第一方、第二方以外其他的若干方与第一方之间的特征分布差异分数，进而对上述第二方和该若干方共同对应的多个特征分布差异分数进行排名，相应地，本步骤可以实施为：在第二方对应的特定分布差异分数的名次在预定范围(如前10名或前5名)内的情况下，将上述第二方归为与第一方进行联合建模的参与方。否则，不归为。需说明，本说明书中的“若干”指代一个或多个。

如此，可以从上述多个数据方中，筛选出与第一方进行联合建模的参与方。可以理解，最终确定出的参与方数量可以是一个或多个。采用上述步骤 S210至步骤S270，对联合建模的参与方进行筛选，可以舍弃掉一些特征分布近似的数据方，使得相较于多个数据方均参与联合建模，利用筛选出的参与方与第一方进行共同建模，同样可以取得较优的模型效果。

根据另一方面的实施例，如图1所示，所述方法中还可以包括对特征项的筛选。在一个实施例中，其中特征项的筛选可以实施为：获取若干第三方各自基于本地训练样本集所确定的，针对上述多个特征项的重要性权重；并且，基于获取的重要性权重和上述多个第一重要性权重，确定上述各个特征项的综合重要性权重；接着，基于该综合重要性权重，从上述多个特征项中选取部分特征项；然后，将该部分特征项发送给上述参与方，以使得上述参与方基于该部分特征项与第一方进行联合建模。

需说明，其中若干第三方属于上述多方中除第一方以外的其他数据方，并且，若干第三方可以包括上述第二方，也可以不包括上述第二方。此外，若干第三方各自确定针对上述多个特征项的重要性权重的方式，可以参见前述对第一方确定多个第一重要性权重的描述，不作赘述。

对于上述综合重要性权重的确定，在一个具体的实施例中，可以包括：基于上述获取的重要性权重和上述多个第一重要性权重，对各个特征项所对应的重要性权重进行加和累积，并将累积得到的总权重作为对应特征项的综合重要性权重。在另一个具体的实施例中，还可以将累积得到的总权重的平均值，作为对应特征项的综合重要性权重。

对于上述部分特征项的选取，在一个具体的实施例中，可以基于上述多个特征项对应的多个综合重要性权重，对上述多个特征项进行排名，进而将名次在预定范围内的特征项作为上述部分特征项。在另一个具体的实施例中，可以对多个综合重要性权重进行归一化处理，再将归一化处理结果中大于预设阈值的数值所对应的特征项，作为上述部分特征项。

由上，可以完成特征项的选取。进一步，上述第一方和确定出的参与方可以基于优选出的部分特征项，进行联合建模，如此可以进一步提高联合建模的效率，同时，保证模型训练的良好效果。

根据再一方面的实施例，在上述步骤S270之后，上述方法还可以包括：第一方与被归为参与方的若干数据方进行联合建模。在一个具体的实施例中，联合建模所采用的模型可以是secureboost，DNN(Deep Neural Networks，深度神经网络)，CNN(ConvolutionalNeural Networks，卷积神经网络) 和RNN(RecurrentNeural Networks，循环神经网络)等。另一方面，在一个具体的实施例中，可以引入可信的中心服务器，与第一方和各个参与方进行通信，实现对各个参与方本地确定出的训练梯度的聚合，从而得到最终训练好的模型。在另一个具体的实施例中，也可以不引入第一方和参与方以外的其他处理方，而是基于安全多方计算MPC技术，如同态加密等方式，实现第一方和参与方之间的安全数据通信，进而得到最终训练好的模型。如此，可以实现联邦学习，得到第一方和各个参与方各自基于本地训练样本集联合训练出的机器学习模型。

与上述联合建模方法相对应的，本说明书实施例还披露联合建模装置，图4示出根据一个实施例的保护多方数据隐私的联合建模的装置结构图，所述多方各自存储训练样本集，其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值；所述装置集成于任一的第一方。如图4所示，所述装置400包括以下组成单元：

关联度确定单元410，配置为基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度；关联度获取单元420，配置为获取第二方基于第二训练样本集确定的多个第二关联度；差异度确定单元430，配置为针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到所述多个特征项对应的多个差异度；树模型构建单元440，配置为利用所述第一训练样本集，构建第一树模型；权重确定单元450，配置为确定所述多个特征项在所述第一树模型中的多个第一重要性权重；分数确定单元460，配置为利用所述多个第一重要性权重，对所述多个差异度进行加权处理，得到特征分布差异分数；参与方筛选单元470，配置为在所述特征分布差异分数符合预定条件的情况下，将所述第二方归为与所述第一方进行联合建模的参与方。

在一个实施例中，所述关联度确定单元410具体配置为：针对各个特征项，对其在所述第一训练样本集中对应的多个特征值进行分箱处理，得到分箱结果，其中包括所述多个特征值与多个分箱类别之间的映射关系；针对所述多个分箱类别中的各个分箱类别，确定其在所述第一训练样本集中对应不同标签值的样本分布；根据所述多个分箱类别对应的多个样本分布，计算对应特征项的卡方检验值，作为第一关联度。

在一个实施例中，所述差异度确定单元430具体配置为：针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的绝对差值，作为差异度。

在一个实施例中，所述权重确定单元450具体配置为：确定所述各个特征项在所述第一树模型中被作为分裂特征的次数；对所述多个特征项对应的多个次数进行归一化处理，得到所述多个第一重要性权重。

在一个实施例中，所述参与方筛选单元470具体配置为：在所述特征分布差异分数大于预定阈值的情况下，将所述第二方归为与所述第一方进行联合建模的参与方。

在一个实施例中，所述装置400还包括特征筛选单元480，配置为：获取若干第三方各自基于本地训练样本集所确定的，针对所述多个特征项的重要性权重；基于获取的重要性权重和所述多个第一重要性权重，确定所述各个特征项的综合重要性权重；基于所述综合重要性权重，从所述多个特征项中选取部分特征项；将所述部分特征项发送给所述参与方，以使得所述参与方基于所述部分特征项与所述第一方进行联合建模。

在一个具体的实施例中，所述特征筛选单元480进一步配置为：基于所述综合重要性权重，对所述多个特征项进行排名；将名次在预定范围内的特征项作为所述部分特征项。

如上，根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据又一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种保护多方数据隐私的联合建模方法，所述多方各自存储训练样本集，所述训练样本集中的各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值；所述方法应用于任一的第一方，包括：

基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度，形成第一特征分布，以及，确定所述各个特征项的特征重要性；

获取第二方基于第二训练样本集确定的第二特征分布；

确定所述第一特征分布和第二特征分布之间的差异度；

基于所述特征重要性对所述差异度进行加权求和，得到特征分布差异分数；

在所述特征分布差异分数大于预设阈值的情况下，将所述第二方归为与所述第一方进行联合建模的参与方；或者，获取所述第二方以外的若干其他方与第一方之间的特征分布差异分数，并对所述第二方和所述若干其他方对应的多个特征分布分数进行排名，从而在所述第二方对应的特征分布差异分数的名次在预定范围内的情况下，将所述第二方归为所述参与方；

基于安全多方计算MPC技术，实现所述第一方和所述参与方之间的安全数据通信。

2.根据权利要求1所述的方法，其中，基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度，包括：

针对各个特征项，对其在所述第一训练样本集中对应的多个特征值进行分箱处理，得到分箱结果，其中包括所述多个特征值与多个分箱类别之间的映射关系；

针对所述多个分箱类别中的各个分箱类别，确定其在所述第一训练样本集中对应不同标签值的样本分布；

根据所述多个分箱类别对应的多个样本分布，计算对应特征项的卡方检验值，作为第一关联度。

3.根据权利要求1所述的方法，其中，所述第二特征分布包括多个第二关联度；确定所述第一特征分布和第二特征分布之间的差异度，包括：

针对所述各个特征项，确定其所对应的第一关联度和第二关联度之间的差异度，得到所述多个特征项对应的多个差异度。

4.根据权利要求1所述的方法，其中，所述训练样本集中的各个训练样本具有对应多个特征项的特征值；所述特征重要性的确定包括：

利用所述第一训练样本集，构建第一树模型；

确定所述多个特征项在所述第一树模型中的多个第一重要性权重。

5.根据权利要求1所述的方法，其中，所述特征重要性包括，基于所述第一训练样本集确定的，针对训练样本的多个特征项的多个第一重要性权重；所述方法还包括：

获取若干第三方各自基于本地训练样本集所确定的，针对所述多个特征项的重要性权重；

基于获取的重要性权重和所述多个第一重要性权重，确定所述各个特征项的综合重要性权重；

基于所述综合重要性权重，从所述多个特征项中选取部分特征项；

将所述部分特征项发送给所述参与方，以使得所述参与方基于所述部分特征项与所述第一方进行联合建模。

6.根据权利要求5所述的方法，其中，基于所述综合重要性权重，从所述多个特征项中选取部分特征项，包括：

基于所述综合重要性权重，对所述多个特征项进行排名；

将名次在预定范围内的特征项作为所述部分特征项。

7.一种保护多方数据隐私的联合建模装置，所述多方各自存储训练样本集，所述训练样本集中的各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值；所述装置集成于任一的第一方，包括：

本地确定单元，配置为基于第一训练样本集，确定所述多个特征项中各个特征项与所述标签项之间的关联度，得到多个第一关联度，形成第一特征分布，以及，确定所述各个特征项的特征重要性；

获取单元，配置为获取第二方基于第二训练样本集确定的第二特征分布；

差异度确定单元，配置为确定所述第一特征分布和第二特征分布之间的差异度；

分数确定单元，配置为基于所述特征重要性对所述差异度进行加权求和，得到特征分布差异分数；

判断单元，配置为：在所述特征分布差异分数大于预设阈值的情况下，将所述第二方归为与所述第一方进行联合建模的参与方；或者，获取所述第二方以外的若干其他方与第一方之间的特征分布差异分数，并对所述第二方和所述若干其他方对应的多个特征分布分数进行排名，从而在所述第二方对应的特征分布差异分数的名次在预定范围内的情况下，将所述第二方归为所述参与方；

通信单元，配置为基于安全多方计算MPC技术，实现所述第一方和所述参与方之间的安全数据通信。