CN113326948A

CN113326948A - 联邦学习模型的数据处理方法、装置、设备及存储介质

Info

Publication number: CN113326948A
Application number: CN202110610449.XA
Authority: CN
Inventors: 陈伟敬; 陈天健; 范涛; 马国强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-31

Abstract

本申请提供了一种联邦学习模型的数据处理方法、装置，应用于第一参与方设备；方法包括：获取用作联邦学习模型的训练样本的特征集合，特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征；获取特征集合所包括的多个特征子集，并构建对应各特征子集的联邦学习模型的模型输入；将构建的各模型输入分别输入至联邦学习模型，得到对应各模型输入的预测结果，并将训练样本输入至联邦学习模型，得到对应训练样本的目标预测结果；基于得到的各预测结果及目标预测结果，确定特征集合中各特征对应目标预测结果的贡献信息。通过本申请，能够精确衡量单条样本中每个特征的贡献信息以及衡量第二参与方的贡献信息。

Description

联邦学习模型的数据处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种联邦学习模型的数据处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着各行各业逐渐加强数据隐私保护的大趋势下，联邦学习，一种可以在保护数据隐私的情况下协同多方数据建立机器学习的技术，成为了各企业、行业间合作的关键之一。

在金融、风控领域，联邦机器学习模型使用者往往想要知道，单条模型输入中的各特征对于模型输出的正向与负向影响。如对于某个特定样本(比方说违约的客户)，具体是哪个特征以及该特征的哪些取值，对确定该用户是违约用户产生了重要的影响。另外，还需要确定合作方提供的特征对于模型输出的正向与负向影响。因此，对联邦机器学习模型的可解释性显得尤为重要。

相关联邦学习模型解释方案，通过获取特征重要度从整体上对模型进行解释，无法具体的解释单条样本。另外，虽然使用特征重要度能够得知合作方的特征使用了多少次，但是合作方特征对于模型输出的正向与负向影响也是不可知的。

发明内容

本申请实施例提供一种联邦学习模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够衡量单条样本中每个特征的贡献信息。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种联邦学习模型的数据处理方法，包括：

获取用作联邦学习模型的训练样本的特征集合，所述特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征；

获取所述特征集合所包括的多个特征子集，并构建对应各所述特征子集的所述联邦学习模型的模型输入；

将构建的各所述模型输入分别输入至所述联邦学习模型，得到对应各所述模型输入的预测结果，并将所述训练样本输入至所述联邦学习模型，得到对应所述训练样本的目标预测结果；

基于得到的各所述预测结果及所述目标预测结果，确定所述特征集合中各特征对应所述目标预测结果的贡献信息。本申请实施例提供一种联邦学习模型的数据处理装置，包括：

获取模块，用于获取用作联邦学习模型的训练样本的特征集合，所述特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征；

构建模块，用于获取所述特征集合所包括的多个特征子集，并构建对应各所述特征子集的所述联邦学习模型的模型输入；

预测模块，用于将构建的各所述模型输入分别输入至所述联邦学习模型，得到对应各所述模型输入的预测结果，并将所述训练样本输入至所述联邦学习模型，得到对应所述训练样本的目标预测结果；

计算模块，用于基于得到的各所述预测结果及所述目标预测结果，确定所述特征集合中各特征对应所述目标预测结果的贡献信息。

上述方案中，所述构建模块还用于分别确定各所述特征子集和所述特征集合的交集；

基于各所述特征子集和所述特征集合的交集，确定各所述特征子集的缺失特征，所述缺失特征是指所述交集与所述特征集合相区别的特征；

分别在各所述特征子集中填充所述缺失特征，得到对应各所述特征子集的所述联邦学习模型的模型输入。

上述方案中，所述构建模块还用于确定各所述缺失特征对应的缺省值；

分别在各所述特征子集中填充相应缺失特征对应的缺省值，得到对应各所述特征子集的所述联邦学习模型的模型输入。

上述方案中，所述构建模块还用于针对各所述特征子集执行以下处理：

确定所述特征子集的缺失特征对应的取值范围；

在所述取值范围中对所述缺失特征进行多次随机抽样，得到对应所述缺失特征的多个随机值；

将所述多个随机值分别填充至所述特征子集，得到对应所述特征子集的所述联邦学习模型的多个模型输入。

上述方案中，所述构建模块还用于将所述多个模型输入分别输入至所述联邦学习模型，得到多个初始预测结果；

获取所述多个初始预测结果的平均值，将所述平均值作为所述特征子集的预测结果。

上述方案中，所述构建模块还用于获取所述联邦学习模型的样本集合；

针对各所述特征子集执行以下处理：

获取所述特征子集的缺失特征在所述样本集合的各样本中对应的特征值；

基于各所述样本中与所述缺失特征对应的特征值，确定所述缺失特征对应的目标值；

在所述特征子集中填充相应缺失特征对应的目标值，得到对应所述特征子集的所述联邦学习模型的模型输入。

上述方案中，所述计算模块还用于遍历所述特征集合中的每个特征，并针对每个所述特征执行以下操作：

当所述特征为缺失特征时，确定与所述特征对应的至少一个特征子集；

针对每一个与所述特征对应的特征子集，基于相应的预测结果，以及所述目标预测结果，确定所述特征对应所述目标预测结果的边际贡献值；

基于所述边际贡献值，确定所述特征对应所述目标预测结果的贡献信息。

上述方案中，所述计算模块还用于当所述边际贡献值的数量为多个时，对多个所述边际贡献值进行求和，得到所述特征对应所述目标预测结果的总贡献值，

将所述总贡献值作为所述特征对所述目标预测结果的贡献信息。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的联邦学习模型的数据处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的联邦学习模型的数据处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的联邦学习模型的数据处理方法。

本申请实施例具有以下有益效果：

与相关联邦学习场景中，通过使用联邦树模型输出的特征重要度对机器学习模型进行解释的技术相比，本申请实施例提供的联邦学习模型的数据处理方法适用于联邦学习场景，联邦学习模型中的第一参与方设备通过获取用作联邦学习模型的训练样本的特征集合，其中特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征；获取特征集合所包括的多个特征子集，并构建对应各特征子集的联邦学习模型的模型输入；将构建的各模型输入分别输入至联邦学习模型，得到对应各模型输入的预测结果，并将训练样本输入至联邦学习模型，得到对应训练样本的目标预测结果；基于得到的各预测结果及目标预测结果，确定特征集合中各特征对应目标预测结果的贡献信息。基于此，能够精确衡量单条训练样本中每个特征的贡献信息。

附图说明

图1是本申请实施例提供的联邦学习模型的数据处理系统的一个可选的架构示意图；

图2是本申请实施例提供的电子设备的一个可选的结构示意图；

图3是本申请实施例提供的联邦学习模型的数据处理方法的一个可选的流程示意图；

图4是本申请实施例提供的联邦学习模型的数据处理示意图；

图5是本申请实施例提供的联邦学习模型的数据处理方法的一个可选的流程示意图；

图6是本申请实施例提供的联邦学习模型的数据处理方法的一个可选的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)SHAP(SHapley Additive exPlanation)值：一种基于协作博弈理论的模型无关的可解释性分析方式，每条预测记录都有对应的shap值，其中每个特征也有其对应的shap值。当shap值大于0时，表示当前样本中的当前特征将模型预测结果向正向推进，反之表示向反向推进。

2)众数(Mode)：是指在统计分布上具有明显集中趋势点的数值，代表数据的一般水平。也是一组数据中出现次数最多的数值，有时众数在一组数中有好几个，用M表示。

3)中位数(Median)：又称中值，统计学中的专有名词，是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

本申请实施例提供一种联邦学习模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够精确衡量单条样本中每个特征的贡献信息以及衡量第二参与方的贡献信息。

基于上述对本申请实施例中涉及的名词和术语的解释，首先对本申请实施例提供的联邦学习模型的数据处理系统进行说明，参见图1，图1是本申请实施例提供的联邦学习模型的数据处理系统的一个可选的架构示意图，在联邦学习模型的数据处理系统100中，包括第一参与方设备400，第二参与方设备410(示例性的示出了2个第二参与方设备，分别记为410-1和终端410-2，以示区分)，第一参与方设备400和第二参与方设备410通过网络300互相连接同时通过网络300连接参数聚合设备200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在一些实施例中，第一参与方设备400和第二参与方设备410通过网络300互相连接，同时可以通过网络300连接联邦学习模型中可能涉及的第三方设备(协作方、服务器等)。

在一些实施例中，第一参与方设备400以及第二参与方设备410可以是笔记本电脑，平板电脑，台式计算机，智能手机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，还可以是联邦学习参与方的客户终端，例如各银行或金融机构等存储有用户特征数据的参与方设备，但并不局限于此。第一参与方设备400以及第二参与方设备410也可以是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，用于协助各参与方设备进行联邦学习以得到联邦学习模型。网络300可以是广域网或者局域网，又或者是二者的组合。第一参与方设备400、第二参与方设备410可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

第一参与方设备400，用于获取用作联邦学习模型的训练样本的特征集合，特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征；获取特征集合所包括的多个特征子集，并构建对应各特征子集的联邦学习模型的模型输入；将构建的各模型输入分别输入至联邦学习模型，得到对应各模型输入的预测结果，并将训练样本输入至联邦学习模型，得到对应训练样本的目标预测结果；基于得到的各预测结果及目标预测结果，确定特征集合中各特征对应目标预测结果的贡献信息。

第二参与方设备410，用于接收到第一参与方设备400发送的通知消息时，确定特征子集对应的本地模型输入，并向第一参与方设备400发送本地模型输入，以使第一参与方设备400构建当前特征子集对应联邦学习模型的模型输入。

参见图2，图2是本申请实施例提供的电子设备的一个可选的结构示意图，在实际应用中，电子设备500可以实施为图1中的第一参与方设备400或第二参与方设备410，以电子设备为图1所示的第一参与方设备400为例，对实施本申请实施例的联邦学习模型的数据处理方法的电子设备进行说明。图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的联邦学习模型的数据处理装置可以采用软件方式实现，图2示出了存储在存储器550中的联邦学习模型的数据处理装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、构建模块5552、预测模块5553和计算模块5554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的联邦学习模型的数据处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的联邦学习模型的数据处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的联邦学习模型的数据处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的第一参与方设备的示例性应用和实施，说明本申请实施例提供的联邦学习模型的数据处理方法，该方法应用于第一参与方设备。参见图3，图3是本申请实施例提供的联邦学习模型的数据处理方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

在步骤101中，第一参与方设备获取用作联邦学习模型的训练样本的特征集合，特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征。

这里，在联邦学习模型中，一般至少包括两个参与方，其中第一参与方具有标签信息，也称主动方，使用Guest表示；第二参与方就是特征提供方，用Host表示。本申请实施例提供的方法适用于一个Guest方以及至少一个Host方参与的联邦学习模型。

以一个Guest方和一个Host方为例，单条训练样本中，Guest方与Host方各持有部分特征，其中，Guest方提供G_1，G_2，G_3，……，G_n，共n个特征，n是大于0的正整数；Host方提供H_1，H_2，H_3，……，H_m，共m个特征，m是大于0的正整数。可以理解的是，单条训练样本的特征集合共包含n+m个特征，{G_1，G_2，G_3，……，G_n，H_1，H_2，H_3，……，H_m}。

在步骤102中，获取特征集合所包括的多个特征子集，并构建对应各特征子集的联邦学习模型的模型输入。

这里，当Guest方提供G_1，G_2，G_3，……，G_n，共n个特征，Host方提供H_1，H_2，H_3，……，H_m，共m个特征时，即一条训练样本数据中共有n+m个特征。对这n+m个特征进行组合，获取对应的特征子集，特征子集中的特征个数从0到n+m，特征个数为0时，特征子集为空集，特征个数为n+m时，特征子集为全集。特征子集的个数N，N的计算公式如下：

上述公式(1)中，n+m是特征的个数，

表示包含0个特征的特征子集个数(即空集的个数为1)，

表示包含1个特征的特征子集的数目，

表示包含n+m个特征的特征子集个数(即全集的个数为1)。

需要说明的是，在联邦学习模型中，为了保护各参与方数据的隐私性，通常不会直接将Host方的特征传输给Guest方，而是通过加密方式在各参与方之间传递相应的中间信息(如模型参数等)。因此，在计算Host方对预测结果(联邦学习模型的输出结果)的影响时，通常是确定Host方的整体影响，即将Host方提供的所有特征看作一个整体特征，可称为联邦特征，记为host_feat。通过确定联邦特征对预测结果的影响以及该影响的正负性，确定相应Host方的整体影响以及该整体影响的正负性。其中，影响的正负性是指影响是正向影响还是负向影响。

在对联邦学习模型对应的单条训练样本进行解释时，将Host方提供的特征作为一个联邦特征host_feat，前述单条样本中n+m个特征，就可看作为n+s个特征，n为Guest方提供的特征个数，s表示s个Host方对应的s个联邦特征host_feat(即一个host_feat表示一个Host方)，其中，s是大于0的正整数，s＝1，表示只有一个Host方；若s＝2，表示有两个Host方。

在一些实施例中，对单条训练样本进行解释实际上确定单条样本中每个特征对目标预测结果的影响，其中，目标预测结果是指该训练样本通过联邦学习模型得到的预测结果。在实际实施时，通常需要构造单条训练样本对应的待解释数据，其中，待解释数据包括一个或者多个待解释样本，待解释样本包括一个或者多个样本特征(每个样本特征来自与训练样本中的特征)，在每一条待解释样本中，每一个样本特征均对应一个样本特征值。

对待解释样本的获取进行说明，由前述描述可知，待解释样本包含训练样本中的一个或多个特征，因此，待解释样本可以看作是，基于训练样本中的特征集合构建的多个特征子集，即一个特征子集对应一条待解释样本。

示例性地，联邦学习模型中，一个Guest方和一个Host方参与计算，对于一条包含n+m个特征的训练样本，其中，n是Guest方提供的特征，m是Host方特征个数，针对该训练样本，为了保证数据的安全性，将Host提供的m个特征，使用一个host_feat特征代替，则一共有n+1个特征，针对这n+1特征，构建待解释数据，根据前述公式(1)对着n+1特征进行组合计算，得到2ⁿ⁺¹个特征子集，即待解释数据中包含2ⁿ⁺¹条待解释样本。

将获取的待解释数据输入至联邦学习模型，获取对应的预测结果(模型输出)，由于联邦学习模型的模型输入需要包含Guest和Host方提供的所有特征，基于此，需要对待解释数据中的特征不完整的待解释样本进行特征补充(即对待解释样本中缺失的特征进行补充)，得到对应待解释样本的完整的模型输入(对特征子集中缺失的特征进行填充，构建完整的模型输入)。

在一些实施例中，使用特征子集构建模型输入时，首先需要确定特征子集中的缺失特征，然后对缺失特征进行填充，得到与训练样本中包含相同含义特征的模型输入。具体的，分别确定各所述特征子集和所述特征集合的交集；基于各所述特征子集和所述特征集合的交集，确定各所述特征子集的缺失特征，所述缺失特征是指所述交集与所述特征集合相区别的特征；分别在各所述特征子集中填充所述缺失特征，得到对应各所述特征子集的所述联邦学习模型的模型输入。

示例性地，一条训练样本S{年龄：28，学历：本科，收入：10000，工作：IT}，该样本输入联邦学习模型得到的预测结果表征该客户是违约客户，其中，特征{年龄：28，学历：本科}由Guest方提供，特征{收入：10000，工作：IT}由Host方提供，实际包含的特征为4个，在实际应用中，为了保证Host方数据的安全性，通常将特征{收入：10000，工作：IT}，看作一个host_feat特征，则该条训练样本对应的待解释数据中包含Guest方提供的2个特征{年龄：28，学历：本科}，以及一个host_feat特征，共3个特征。对应该待解释数据的待解释样本中包含0～3个特征，共包含8(2³)条待解释样本，具体为：空集、{年龄：28}、{学历：本科}、{host_feat：{收入：10000，工作：IT}}、{年龄：28，学历：本科}、{年龄：28，host_feat：{收入：10000，工作：IT}}、{学历：本科、host_feat：{收入：10000，工作：IT}}、{年龄：28，学历：本科，host_feat：{收入：10000，工作：IT}}。将上述各待解释样本(特征子集)输入至联邦学习模型得到相应的预测结果，由于联邦学习模型的模型输入是需要完整的特征信息，因此，需要确认各待解释样本中的缺失特征，如待解释样本(特征子集){年龄：28}的缺失特征是年龄、host_feat；待解释样本{host_feat：{收入：10000，工作：IT}}的缺失特征是年龄、学历。

对缺失特征的填充方式进行说明，在确定各待解释样本(特征子集)的缺失特征后，需要进一步确定缺失特征对应的特征值。在一些实施例中，可以根据实际情况，设置缺失特征的缺省值，即使用固定值作为缺失特征的缺省值，如，特征子集中缺失特征是年龄，则直接使用固定值18作为特征年龄对应的缺省值，即在特征子集中填充{年龄＝18}，得到该特征子集对应的模型输入。具体的，确定各所述缺失特征对应的缺省值；分别在各所述特征子集中填充相应缺失特征对应的缺省值，得到对应各所述特征子集的所述联邦学习模型的模型输入。

在一些实施例中，针对各特征子集中的缺失特征进行填充，还可以依据缺失特征在多个训练样本中对应的实际特征值，并获取这些实际特征值进行对应的平均数、众数或者中位数，将得到的平均数、众数或者中位数，作为当前缺失特征的填充特征值(或者称为目标值)。具体的，获取所述联邦学习模型的样本集合；针对各所述特征子集执行以下处理：获取所述特征子集的缺失特征在所述样本集合的各样本中对应的特征值；基于各所述样本中与所述缺失特征对应的特征值，确定所述缺失特征对应的目标值；在所述特征子集中填充相应缺失特征对应的目标值，得到对应所述特征子集的所述联邦学习模型的模型输入。

示例性地，训练样本包含的特征集合{收入＝100，年龄＝20，身高＝170}，存在特征子集{年龄＝20，身高＝170}，其中，缺失特征是收入，机器学习模型是无法预测该当前特征子集对应的样本(因为特征信息不完整)，需要对特征“收入”进行补充，在实际实施时，可以用“收入”的均值/众数/中位数(这些数据是可以从训练数据计算得)来填充，以该填充样本的预测值作为模型输出平均值的估计。从训练样本集合中，计算得到特征“收入”的平均值＝50，特征“身高”的平均值＝150，特征“年龄”的平均值＝15。则可以使用{收入＝50}对特征子集{年龄＝20，身高＝170}进行填充，得到对应的填充样本{年龄＝20，身高＝170，收入＝50}，确定特征子集{年龄＝20，身高＝170}的预测结果。就是将填充样本{年龄＝20，身高＝170，收入＝50}作为对应的模型输入，输入至机器学习模型(联邦学习模型f)，得到对应的预测结果(模型输出)，即f_x({年龄＝20，身高＝170})＝f({年龄＝20，身高＝170，收入＝50})。或者，对于特征子集{年龄＝20}，缺失特征为身高和收入，使用身高＝150和收入＝50对该特征子集进行填充，得到填充样本{年龄＝20，身高＝150，收入＝50}，得到对应特征子集{年龄＝20}的预测结果，即f_x({年龄＝20})＝f({年龄＝20，身高＝150，收入＝50})。另外，如果特征子集是空集，f_x输出值为所有训练样本预测分的平均值。

在一些实施例中，针对各特征子集，还可以通过在缺失特征可能取值的范围内进行预设采样次数的抽样，得到对应当前特征子集的多个合成样本(即为每一个特征子集构建多个合成样本)。然后将多个合成样本，输入至机器学习模型(如联邦机器学习模型)中，得到各合成样本对应的模型输出(初始预测结果)，并获取多个合成样本对应的初始预测结果的平均值作为当前特征子集对应的预测结果。具体的，针对各所述特征子集执行以下处理：确定所述特征子集的缺失特征对应的取值范围；在所述取值范围中对所述缺失特征进行多次随机抽样，得到对应所述缺失特征的多个随机值；将所述多个随机值分别填充至所述特征子集，得到对应所述特征子集的所述联邦学习模型的多个模型输入。然后，将所述多个模型输入分别输入至所述联邦学习模型，得到多个初始预测结果；获取所述多个初始预测结果的平均值，将所述平均值作为所述特征子集的预测结果。

示例性地，假设，年龄的取值范围服在10-30，身高范围在150-180，预设采样次数是5，计算f_x({收入＝100})的预测结果。通过对模型的所有训练样本进行随机采样，构造5个样本，对特征子集的缺失特征年龄、身高进行随机抽样，得到构造合成样本s1＝{年龄＝15，身高＝160，收入＝100}，s2＝{年龄＝21，身高＝164，收入＝100}，s3＝{年龄＝29，身高＝175，收入＝100}，s4＝{年龄＝25，身高＝155，收入＝100}，s5＝{年龄＝28，身高＝180，收入＝100}，通过机器学习模型f，获取合成样本s1、s2、s3、s4、s5对应的模型输出(初始预测结果)，并获取5个初始预测结果的平均值作为特征子集{收入＝100}的预测结果。即f_x({收入＝100})＝[f(s1)+f(s2)+f(s3)+f(s4)+f(s5)]/5。

在一些实施例中，当特征子集中的缺失特征是Host方对应的联邦特征hos t_feat时，第一参与方(Guest方)向Host方发送通知消息，告知Host方对自身提供的特征进行填充。具体的，当特征子集中的缺失特征是第二参与方的特征时，向所述第二参与方发送通知消息，以使所述第二参与方对自身特征进行填充构建所述第二参与方的特征对应的第二子模型输入；基于第一参与方依据自身特征构建的第一子模型输入以及接收到的所述第二子模型输入，构建对应各所述特征子集的所述联邦学习模型的模型输入。

在实际实施时，第二参与方(Host方)提供的所有特征被看作一个联邦特征host_feat，当特征子集中的缺失特征是用于联邦特征host_feat时，Guest方通过网络通信通知Host方，Host方通过前述缺失特征的填充方式对本地所有特征进行填充，得到与当前特征子集对应的子模型输入。可以理解的是，Host方的所有特征对应的特征值都不是训练样本中的实际值。Guest方整合Host方提供的特征对应的子模型输入，得到当前特征子集对应联邦学习模型的模型输入。

示例性地，一条训练样本S{年龄：28，学历：本科，收入：10000，工作：IT}，特征{年龄：28，学历：本科}由Guest方提供，特征{收入：10000，工作：IT}由Host方提供，则该条训练样本对应的待解释数据中包含Guest方提供的2个特征{年龄：28，学历：本科}，以及一个{host_feat：{收入：10000，工作：IT}}特征，其中，特征子集{年龄：28，学历：本科}中的缺失特征是Host方对应的host_feat特征。此时，Guest方向Host方发送通知消息，Host接收到通知消息后，对自身的提供特征“收入”和“工作”进行填充。

在步骤103中，将构建的各模型输入分别输入至联邦学习模型，得到对应各模型输入的预测结果，并将训练样本输入至联邦学习模型，得到对应训练样本的目标预测结果。

这里，对单条训练样本对应的各特征子集中的缺失特征进行填充，构建包含有完整特征的多条模型输入(即填充样本)，通过联邦学习模型得到对应各模型输入的预测结果。需要说明的是，单条训练样本对应多条填充样本，填充样本的条数与训练样本中特征集合对应的特征子集个数相关。

示例性地，存在联邦学习模型f，一条训练样本X，对应的目标预测结果为f(X)，X中包含n+m个特征，n个特征是Guest方(一个)提供，m个特征是host方(一个)提供的，为了保证Host方数据的安全性，将Host方提供的m个特征看作一个整体的host_feat特征，相当于有n+1个特征，对应这个n+1个特征，最多共有2ⁿ⁺¹个特征子集(包括空集和全集，其中全集就是训练样本本身)。对每个特征子集中的缺失特征进行填充，得到对应各特征子集的填充样本X1，X2，……。将各填充样本输入至联邦学习模型得到对应的预测结果，记作f_x(X1)，f_x(X2)，……。

在步骤104中，基于得到的各预测结果及目标预测结果，确定特征集合中各特征对应目标预测结果的贡献信息。

这里，各特征对应目标预测结果的贡献信息是指当特征是第一参与方(Guest方)提供的特征时，贡献信息用于表征该特征对应的特征值本身对目标预测结果的特征贡献值；当特征是第二参与方(Host方)对应的联邦特征(host_feat)时，贡献信息用于表征第二参与方(host方)对目标预测结果的整体贡献值。即各host_feat对应目标预测结果的贡献信息是用来反应各Host方对目标预测结果的整体贡献度的。

在实际实施时，通常是结合SHAP反映单条样本中的各个特征对目标预测结果产生的影响，并确定影响的正负性。其中，SHAP的具体思想是计算单条训练样本中每个特征对目标预测结果的贡献。

首先对SHAP相关知识进行说明，SHAP值是一种基于夏普利值(Shapely)的机器学习模型解释方案。对Shapely值进行说明，Shapely值是博弈论中的一个衡量各个参与方(如多家公司)贡献的方法，它通过计算各个参与方加入不包含自身的参与方子集所做出的贡献，来计算各参与方的贡献度(总贡献)：

其中，{x₁,…,x_p}是所有输入特征的集合，p为所有输入特征的数目，{x₁,…,x_p}\{x_j}为不包括x_j的所有输入特征可能的集合，val为一个估值函数，val(S)为特征子集S的预测结果，|S|特征子集S中特征的个数，φ_j(val)指的便是最终算出的特征x_j的夏普利值(SHAP值)。

对公式(2)中的权重(加权因子)

进行如下说明：

分母：p个特征在任意排序的情况下有p！种组合情况。

分子：在确定特征子集S后，p个特征在特定排序的情况下有|S|！(p-|S|-1)！中组合情况。当确定了特征子集S后，特征的集合应为{x₁,...,x_|s|,x_j,x_|s|+2,...,x_p}，子集S{x₁,...,x_|s|}本身有|S|！中顺序组合，后面要紧跟着特征j，那么剩余的特征{χ_|S|+2,...,χ_p}则有(p-|S|-1)！种组合，则确定子集S后有|S|！(p-|S|-1)！种组合情况。

所以，

为子集S的特征组合情况占比，所有可能的子集S的特征组合情况占比之和等于1。

示例性地，假设有公司1、2、3，三者一起合作，共盈利120W，并为每个公司计算Shapely值。

1)枚举所有子集：{1，2，3}、{1，2}、{2，3}、{1，3}、{1}、{2}、{3}、空集。

2)将每个公司加入到不包含自身的子集中，计算各自的边际贡献，假设有：

v(空集)＝0，上图的v即为估值函数val；v{1}可理解为，当只有公司1，收入为0元；v{2，3}理解为，当只有公司2、3合作的情况下，收入为70W元。

则对于公司1，按照上述公式，分别将公司1加入到不包含自身的子集中，计算在各特征子集中的边际贡献(也可称边际收益)，具体计算方式如下：

公司1加入到子集{2，3}，边际贡献为：2/6*{v{1,2,3}-v{2,3}}＝100/6；

公司1加入到子集{3}，边际贡献为：1/6*{v{1,3}-v{3}}＝80/6；

公司1加入到子集{2}，边际贡献为：1/6*{v{1,2}-v{2}}＝90/6；

公司1加入到空集，边际贡献为：0；

所以，公司1对共盈利120W的总贡献值(Shapely值)为：270/6＝45W。

同理，可以使用公式(2)计算得到公司2、3的贡献为40W与35W。

本申请实施例中的SHAP值可以理解为Shapely值的一种变体，用于衡量某个特征对应的特征值对目标预测结果(模型输出)的贡献，具体的：

通过公式(2)即SHAP计算公式，并行计算各特征的特征值对应目标预测结果的贡献值，也可称为边际贡献或边际效益。

具体的，遍历所述特征集合中的每个特征，并针对每个所述特征执行以下操作：当所述特征为缺失特征时，确定与所述特征对应的至少一个特征子集；针对每一个与所述特征对应的特征子集，基于相应的预测结果，以及所述目标预测结果，确定所述特征对应所述目标预测结果的边际贡献值；基于所述边际贡献值，确定所述特征对应所述目标预测结果的贡献信息。当所述边际贡献值的数量为多个时，对多个所述边际贡献值进行求和，得到所述特征对应所述目标预测结果的总贡献值，将所述总贡献值作为所述特征对所述目标预测结果的贡献信息。

示例性地，参见图4，图4是本申请实施例提供的联邦学习模型的数据处理示意图，假设，存在训练样本x＝{年龄＝20，身高＝170，收入＝100}，机器学习模型f，通过f得到该样本的预测分为1.2，并且从训练样本集合中，计算得到特征“收入”的平均值＝50，特征“身高”的平均值＝150，特征“年龄”的平均值＝15。计算特征值{年龄＝20}对该样本的预测结果值1.2的贡献，执行以下操作：

1)枚举所有特征子集：{年龄＝20，身高＝170，收入＝100}，{年龄＝20，身高＝170}，{年龄＝20，收入＝100}，{身高＝170，收入＝100}，{收入＝100}，{年龄＝20}，{身高＝170}，{}。

2)遍历样本x中的每个特征，将每个特征值加入到不包含自身的子集中，计算各自的边际贡献，利用估值函数f_x用来计算各特征子集对应的预测结果，假设有：

f_x({年龄＝20，身高＝170，收入＝100})＝1.2；

f_x({年龄＝20，身高＝170})＝0.9；

f_x({年龄＝20，收入＝100})＝0.8；

f_x({身高＝170，收入＝100})＝0.7；

f_x({收入＝100})＝0；

f_x({年龄＝20})＝0；

f_x({身高＝170})＝0；

f_x({})＝0；

需要说明的是，当特征子集是样本x中特征的全集时，利用估值函数f_x计算的预测结果就是训练样本x通过机器学习模型f得到的目标预测结果。

依次将特征{年龄＝20}加入到不包含自身的特征子集中，并结合上述公式(2)计算边际贡献值，过程如下：

{年龄＝20}加入到特征子集{身高＝170，收入＝100}，得到边际贡献值：2/6*{1.2-0.7}＝1/6；

{年龄＝20}加入到特征子集{收入＝100}，得到边际贡献值：1/6*{0.8-0}＝0.8/6；

{年龄＝20}加入到特征子集{年龄＝20}，得到边际贡献值：1/6*{0.9-0}＝0.9/6；

{年龄＝20}加入到空集，确定边际贡献值：0；

对上述得到的各边际贡献求和，得到特征{年龄＝20}总贡献为2.7/6＝0.45；

最终，得到特征{年龄＝20}为最终预测分1.2贡献了+0.45。同理计算得到，特征{收入＝100}为最终预测分1.2贡献了+0.35，特征{身高＝170}为最终预测分1.2贡献了+0.4，符号“+”表明特征{年龄＝20，身高＝170，收入＝100}对目标预测结果1.2的影响均是正向影响，若符号是“-”则表明特征对应的特征值对目标预测结果的影响是负向影响。

对估值函数f_x进行说明，在一些实施例中，估值函数f_x是用来正确反应出某特征子集下模型输出的平均值的。本质上依然是通过机器学习模型f，获取特征子集对应的预测结果。只是输入估值函数的数据不是机器学习模型f对应的训练样本，而是前述提到的根据训练样本的特征集合，得到待解释数据所包含的多条待解释样本，即是对缺失特征进行特征值填充后，得到填充样本，将各填充样本输入至机器学习模型f得到的预测结果，或者是对多个机器学习模型f的输出结果求平均。

承接上例中，使用估值函数f_x获取特征子集{年龄＝20，身高＝170}的预测结果，实际就是对缺失特征“收入”使用相应的平均值50进行填充后，得到对应的填充样本{年龄＝20，身高＝170，收入＝50}，并将该填充样本输入至机器学习模型f，得到预测结果，即f_x({年龄＝20，身高＝170})＝f({年龄＝20，身高＝170，收入＝50})＝0.9。

在实际实施时，当特征是第一参与方(Guest方)提供的特征时，总贡献值用于表征该特征本身对目标预测结果的特征贡献值；当特征是第二参与方(Host方)提供的特征时，总贡献值用于表征第二参与方(host方)对目标预测结果的整体贡献值。总贡献值的正负性表征当前特征对目标预测结果的贡献(影响)的正负性，如，上述示例中，特征值{年龄＝20}为最终预测分1.2贡献了0.45，其中，0.45是正值，表明特征值{年龄＝20}对预测结果的影响是正向影响。

本申请实施例中第一参与方设备通过获取用作联邦学习模型的每条训练样本的特征集合，并获取该特征集合所包括的多个特征子集，其中，获取特征子集时，将第二参与方提供的特征看作一个联邦特征，能够保证第二参与方数据的安全性；然后构建对应各特征子集的联邦学习模型的模型输入；将构建的各模型输入分别输入至联邦学习模型，得到对应各模型输入的预测结果，并将每条训练样本输入至联邦学习模型，得到对应每条训练样本的目标预测结果；基于得到的各预测结果及目标预测结果，根据SHAP计算公式，确定每条训练样本包含的特征集合中各特征对应目标预测结果的贡献信息。如此，不仅能够扩展结合SHAP计算特征贡献的方式在联邦学习场景中的适用范围，还能够精确衡量单条训练样本中每个特征的贡献信息以及衡量第二参与方的贡献信息。

接下来继续对本申请实施例提供的联邦学习模型的数据处理方法进行介绍，图5是本申请实施例提供的联邦学习模型的数据处理方法的一个可选的流程示意图，参见图5，本申请实施例提供的联邦学习模型的数据处理方法由第一参与方设备、至少一个第二参与方设备协同实施。

步骤201，第一参与方设备响应于接收到的样本解释请求，获取用作联邦学习模型的训练样本的特征集合。

这里，第一参与方接收到针对训练样本的样本解释请求，响应于该样本解释请求，并得到(单条)训练样本。训练样本的特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征。需要说明的是，为了保证第二参与方数据的安全性，第二参与方的提供的特征被看作一个整体特征host_feat。

步骤202，分别确定各特征子集和特征集合的交集。

步骤203，基于各特征子集和特征集合的交集，确定各特征子集的缺失特征。

这里，缺失特征是指交集与特征集合相区别的特征，即存在于特征集合中却不存在于特征子集中的特征。

步骤204，向第二参与方设备发送通知消息。

这里，由于联邦学习模型需要至少一个第二参与方共同参与，需要向第二参与方设备发送通知消息，告知第二参与方设备通过加密的方式向第一参与方发送本地模型输入信息。

步骤205，第二参与方接收到通知消息后，构建当前特征子集对应联邦学习模型的本地子模型输入。

这里，当缺失特征是第一参与方提供的特征时，第二参与方接收到通知消息后，复制本地子模型输入；当缺失特征是第二参与方提供的特征时，第二参与方设备采用前述实施例提到的特征填充方式，对自身特征进行填充，得到填充后的本地子模型输入。

步骤206，第二参与方设备获取对应特征子集的本地子模型输入。

步骤207，第二参与方设备通过加密的方式将对应特征子集的本地子模型输入发送至第一参与方设备。

步骤208，第一参与方设备整合本地子模型输入以及接收到第二参与方发送的子模型输入，确定对应特征子集的模型输入。

步骤209，第一参与方设备将构建的各模型输入分别输入至联邦学习模型，得到对应各模型输入的预测结果，并将训练样本输入至联邦学习模型，得到对应训练样本的目标预测结果。

这里，确定特征集合对应的各个特征子集所对应的模型输入的预测结果后，遍历特征集合中的每个特征，并针对特征集合中的每个特征依次执行步骤210至212，得到每个特征对目标预测结果的贡献信息。

步骤210，当前特征为缺失特征时，确定与当前特征对应的至少一个特征子集。

步骤211，针对每一个与当前特征对应的特征子集，基于相应的预测结果，以及目标预测结果，确定当前特征对应目标预测结果的边际贡献值。

步骤212，当边际贡献值的数量为多个时，对多个边际贡献值进行求和，得到当前特征对应目标预测结果的总贡献值。

这里，将总贡献值作为特征对目标预测结果的贡献信息，总贡献信息的正负性体现了当前特征对目标预测结果的影响的正负性。

步骤213，输出当前训练样本所包含特征集合中每个特征的贡献信息。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在金融、风控领域，针对机器学习模型的可解释性往往具有常见的下述需求：1、模型创建者往往想要知道，入模特征中，哪些特征在学习时起到了重要的作用？

2、对于某个特定样本(比方说违约的客户)，具体是什么特征，特征的什么值对他违约产生了重要的作用，是正面影响还是负面影响？

3、对于合作方的特征，在建模过程中发挥了多大的作用，是正面影响还是负面影响？

针对上述三点，相关纵向联邦树模型提供的特征重要度方案可以满足部分需求，以一个由两方参与的纵向联邦树场景(guest与host两方)为例，对纵向联邦树模型提供的特征重要度的方案简述如下：

(1)guest方在本地初始化一张表，表中包含guest本地所有的特征与host发送来的匿名特征编号，每个特征的计数值为0；

(2)开始建立决策树，对于每个决策树节点使用的分裂特征，它在表中相应的计数值加1，或者加上分裂收益值(gain)；

(3)建立决策树完毕，输出特征重要度表。特征重要度表可用于解释模型：计数值高的特征代表其在建模过程中发挥的作用高。

然而，上述纵向联邦树模型提供的特征重要度方案可以满足上述需求1，却无法满足上述需求2、3。

首先对于上述需求2，用户无法使用特征重要度去具体的解释单条样本，例如，有一个样本S{年龄：28，婚恋状况：已婚，收入：10000，学历：本科，工作：IT，籍贯：……等等其他特征}，是一个违约客户。通过纵向联邦学习模型对该条样本进行预测，得到的分数为0.1，业务应用者希望知道，样本S中每一个具体的特征值(如年龄＝28)为最终这个0.1的预测分贡献了多少，并能判断该特征对预测分的影响是正向影响还是负向影响，这样便可以结合模型与现实生活的经验得到一些业务上的启发。

仅仅根据得到的特征重要度是无法判断一个具体的特征值对模型输出结果的影响以及影响的正负性的。因为特征重要度只反应了一个全局特征的使用情况，无法用于分析一个具体的样本。

对于上述需求3，虽然特征重要度能够得知合作方的特征使用了多少次，但是合作方特征对于单个样本的正向与负向影响也是不可知的。如果对于很多样本，合作方的特征都能提供大的影响，那么可以用来衡量合作方特征的价值。

为解决上述提到的相关技术存在的问题，本申请实施例提供一种联邦学习模型的数据处理方法，即基于SHAP值的纵向联邦机器学习模型解释方法，该方法结合SHAP值的特点，在纵向联邦学习场景下，解释纵向联邦学习模型的预测结果，并衡量合作方(Host方)的整体特征价值。

首先，结合SHAP值的特点，计算训练样本中每个特征对目标预测结果的贡献，其中目标预测结果是指将训练样本输入至纵向联邦机器学习模型得到的预测结果。

假设有纵向联邦机器学习模型f，输入的训练样本X，样本包含特征{1，2，3，……，m}，特征用下标i代替，一共有m个特征，N为子集，S为不包含i的特征子集，f_x为一个估计函数，返回该特征子集下纵向联邦机器学习模型f输出的平均值。SHAP值计算公式与前述实施例中计算Shapely值的公式(2)一致，仅仅符号不同，如下:

对SHAP值的计算进行说明，示例性地，假设目前有样本X＝{年龄＝20，身高＝170，收入＝100}，样本X输入机器学习模型f，得到样本X的预测分为1.2，需要计算样本X中每个特征对预测分1.2的影响(即贡献度)，以及该影响是正向影响还是负向影响。以计算特征年龄对应的特征值值{年龄＝20}对该样本X的目标预测结果值1.2的贡献为例，具体过程如下：

首先，枚举样本X中特征集合对应的所有特征子集：{年龄＝20，身高＝170，收入＝100}，{年龄＝20，身高＝170}，{年龄＝20，收入＝100}，{身高＝170，收入＝100}，{收入＝100}，{年龄＝20}，{身高＝170}，{}(此为空集)。

然后，遍历样本X中的每个特征，将每个特征加入到不包含自身的特征子集中，并根据公式(3)，计算各自的边际贡献，利用估值函数f_x计算各特征子集对应的预测结果，假设有：

f_x({年龄＝20，身高＝170，收入＝100})＝1.2；

f_x({年龄＝20，身高＝170})＝0.9；

f_x({年龄＝20，收入＝100})＝0.8；

f_x({身高＝170，收入＝100})＝0.7；

f_x({收入＝100})＝0；

f_x({年龄＝20})＝0；

f_x({身高＝170})＝0；

f_x({})＝0；

依次将{年龄＝20}加入到不包含自身的特征子集中，并根据上述公式(3)计算边际贡献值，具体如下：

{年龄＝20}加入到特征子集{身高＝170，收入＝100}，边际贡献为：2/6*{1.2-0.7}＝1/6；

{年龄＝20}加入到特征子集{收入＝100}，边际贡献为：1/6*{0.8-0}＝0.8/6；

{年龄＝20}加入到特征子集{年龄＝20}，边际贡献为：1/6*{0.9-0}＝0.9/6；

{年龄＝20}加入到空集，边际贡献为：0；

得到总贡献为2.7/6＝0.45；

因此，特征值{年龄＝20}为最终预测分1.2贡献了0.45。

对前述提到的估计函数f_x进行说明，当给出一条样本，评估其各个特征值的SHAP值时，需要确定一种估值方法f_x，并使用该估值方法来正确的反应出某特征子集下模型输出(预测分)的平均值，提供两种常用方案：

以样本{年龄＝20，身高＝170，收入＝100}为例，假设有机器学习模型f：

1)若某特征在子集中缺失，使用该特征的特征值均值/众数/中位数代替

假设有特征子集{年龄＝20，身高＝170}，显然，缺少了“收入”特征，机器学习模型f是无法预测该样本的。在实际应用时，可以用特征“收入”对应的均值/众数/中位数(它们可以从训练数据计算得)填充特征子集{年龄＝20，身高＝170}，得到填充样本{年龄＝20，身高＝170，收入＝T}，T为特征收入对应的特征值均值/众数/中位数，并以该填充样本的预测值作为模型输出平均值的估计。

假设从训练样本集中，计算得“收入”特征的平均值＝50，“身高”特征的平均值＝150，“年龄”特征的平均值＝15，则：对特征子集{年龄＝20，身高＝170}进行填充后，得到的填充样本为{年龄＝20，身高＝170，收入＝50}，且

f_x({年龄＝20，身高＝170})＝f({年龄＝20，身高＝170，收入＝50})

再举例，假设有特征子集{年龄＝20}，对该特征子集进行填充，得到填充样本{年龄＝20，身高＝150，收入＝50}，且

f_x({年龄＝20})＝f({年龄＝20，身高＝150，收入＝50})，

另外，如果是空集，f_x输出值为所有训练样本预测分的平均值

2)若某特征在子集中缺失，则直接使用0代替

示例性地，假设有特征子集{年龄＝20}，则使用0对该样本进行填充，得到填充样本{年龄＝20，身高＝0，收入＝0}，且

f_x({年龄＝20})＝f({年龄＝20，身高＝0，收入＝0})

3)若某特征在特征子集中缺失，则在缺失特征可能取值的范围内进行多次抽样，得到多个合成样本，机器学习模型对多个合成样本的预测分的平均值为f_x输出值，

假设，年龄的取值范围服在10-30，身高范围在150-180

计算特征子集{收入＝100}的预测值f_x({收入＝100})，

假设构造5个样本，对特征子集中的缺失特征年龄、身高进行随机抽样，得到构造样本s1＝{年龄＝15，身高＝160，收入＝100}，s2＝{年龄＝21，身高＝164，收入＝100}，s3＝{年龄＝29，身高＝175，收入＝100}，s4＝{年龄＝25，身高＝155，收入＝100}，s5＝{年龄＝28，身高＝180，收入＝100}，

f_x({收入＝100})＝[f(s1)+f(s2)+f(s3)+f(s4)+f(s5)]/5。

接下来对在纵向联邦学习场景下，结合SHAP值对样本进行的解释的具体过程进行说明。

执行本申请实施例提供的联邦学习模型的数据处理方法(基于SHAP值的纵向联邦机器学习模型解释方法)，输入信息如下：

一个纵向联邦学习模型f、训练数据集、待解释样本X0，X1，……，Xn，共N条，其中，guest，host各持有部分特征，用大写G_i(i为整数)表示guest方提供的某个特征(如年龄)，大写H_i(i为整数)表示host方提供的某个特征。例如，guest方提供G_0，G_1，...，G_n，共n个特征；host提供H_0，H_1，…，H_m，共m个特征；用小写g_j(j为整数)表示guest方提供的特征对应的特征值(如年龄＝20)，如，g_0，g_1，…，g_n；用小写h_j(j为整数)表示host方提供的特征对应的特征值，如h_0，…，h_m。

估计函数f_x方法的设定值：使用前述三种方法中的一种。

采样次数sample_n：如果f_x方法使用方法3，则该参数起效，代表随机采样特征值的次数。

本申请实施例的参与方：Guest(主导)方(第一参与方)，host方(第二参与方)。

基于前述的输入信息，实现本申请实施例提供的基于SHAP值的纵向联邦机器学习模型解释方法的系统包括四个功能模块：样本解释模块、子集打分模块、特征贡献计算模块以及预测模块。整体处理流程为：guest(主导方)提供n个特征，并将host方提供的所有特征作为一个联邦特征host_feat看待，guest方共n+1个特征；guest方生成对应n+1个特征的2n+1个特征子集；将2n+1个特征子集输入子集打分模块，基于确定的估值函数f_x，对所有的特征子集进行打分，然后将所有特征子集以及特征子集对应的打分输入到特征贡献计算模块，在guest方计算各个特征值的SHAP值，与host_feat的SHAP值；guest方基于得到每条样本的n个特征值的SHAP值与host_feat的SHAP值确定Guest提供的每个特征值的贡献度以及host方的总贡献值。

下面参见分别对各功能模块的功能进行说明，参见图6，图6是本申请实施例提供的联邦学习模型的数据处理方法的一个可选的流程示意图，下面结合图6对各功能模块进行说明。

首先对样本解释模块的功能进行说明，样本解释模块是将每条待解释的样本X0，X1，……，Xn，与训练数据及输入至子集打分模块，guest从特征贡献计算模块获取每条样本guest方提供的每个特征对应的特征值的SHAP值，以及至少一个host方提供的host_feat的SHAP值。host方不获得任何结果。

guest方将所有待解释的样本X0，X1，……，Xn对应特征[G_0，G_1，……，G_n]的SHAP值以及每条待解释样本host_feat的SHAP值绝对值相加，得到每个特征的特征重要度(仅指Guest方提供的各个特征的重要度)与host方的总贡献值(host方不针对单独的特征计算，而是将所有特征看成是一个整体)。guest方输出以上结果，host方不输出结果。

对子集打分模块进行说明，子集打分模块模块以一个想要解释的样本X，与训练数据集作为输入。

首先，guest方将host方所有特征{H_0，……，H_m}作为一个联邦特征host_feat看待。因此，guest方有特征{G_0，G_1，……，G_n，host_feat}，共n+1个特征。

查看f_x方法的设定值，如果是前述估计函数的设定方法1，则guest/host根据训练数据计算每个特征的平均值或者中位数或者众数，作为填充值；如果是估计函数的设定方法2，则使用0作为填充值；如果是估计函数的设定方法3，guest、host统计每个特征可能的取值，作为随机采样用。

在guest方，对于这n+1个特征，根据上述SHAP的规则共生成2ⁿ⁺¹个特征子集。

之后，由guest方主导，对这2n⁺¹个特征子集生成填充样本，计算f_x值：

对于每一个特征子集，针对特征子集的缺失特征存在以下两种情况：

1.如果特征子集中的缺失特征只是guest方对应的特征时，执行以下操作：

1)guest方根据样本X的guest提供的特征生成待f_x预测样本，共i条(i为大于0的正整数)，如果设定f_x使用的是前述方案1或方案2，那么i＝1，即只会有一条待f_x预测样本，否则将会有i＝sample_n条样本。Guest方将待f_x预测样本数目通知host方，host方将样本X中host方对应的特征复制i次，至此，guest，host一起构建了i条样本。

2)guest，host一起将生成的样本输入至预测模块，得到各样本输入对应的预测值，由各预测值得到f_x对该子集的打分结果(如果有多个预测值，打分结果就是多个预测值的平均值)。

2.如果特征子集中的缺失特征是用于表征host方的整体特征host_feat时，执行以下操作：

1)guest方通过网络通信通知host方；

2)guest方根据样本X中guest方提供的特征生成待f_x预测样本，共i条，如果f_x使用方案1，2，那么只会有一条待f_x预测样本，否则将会有sample_n条样本。guest将待f_x预测样本数目告知host；

3)host从guest接收变量i；

4)如果f_x使用方案1、2，则host生成对应的填充/全0特征，并复制i次，如果使用方案3，则host对其所有特征的特征值采样i次，生成i个采样过后的样本，至此，guest，host一起构建了i条样本；

5)guest，host一起将生成的样本输入至预测模块，得到预测值，由预测值得到f_x对该子集的打分结果(如果有多个预测值，打分结果就是多个预测值的平均值)。

在对所有的子集打分完成后，子集与其对应的打分会输入到特征贡献计算模块。

对预测模块的功能进行说明，预测模块以具体的样本作为输入，guest、host加载纵向联邦机器学习模型f，并根据f预测输入的样本，返回预测值。

对特征贡献计算模块的功能进行说明，特征贡献计算模块在得到了特征子集及其特征子集对应的打分后，根据前述计算SHAP的公式与规则，在guest方计算各个特征值的SHAP值，与host_feat的SHAP值。过程便不再赘述。最终，该模块输出每个特征值，与host_feat的SHAP值。

本申请实施例提供的基于SHAP的纵向联邦学习模型解释方法，能够确定单条样本中Guest方提供的每个特征的特征贡献度，以及衡量host方的特征贡献，如果是多host情况也同样如此，补充了联邦场景下的缺失；另外，还保留了与传统方法一样的，对全局特征重要度的衡量。

下面继续说明本申请实施例提供的联邦学习模型的数据处理装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器540的联邦学习模型的数据处理装置555中的软件模块可以包括：

获取模块5551，用于获取用作联邦学习模型的训练样本的特征集合，所述特征集合包括：具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征；

构建模块5552，用于获取所述特征集合所包括的多个特征子集，并构建对应各所述特征子集的所述联邦学习模型的模型输入；

预测模块5553，用于将构建的各所述模型输入分别输入至所述联邦学习模型，得到对应各所述模型输入的预测结果，并将所述训练样本输入至所述联邦学习模型，得到对应所述训练样本的目标预测结果；

计算模块5554，用于基于得到的各所述预测结果及所述目标预测结果，确定所述特征集合中各特征对应所述目标预测结果的贡献信息。

在一些实施例中，构建模块5552，还用于分别确定各所述特征子集和所述特征集合的交集；基于各所述特征子集和所述特征集合的交集，确定各所述特征子集的缺失特征，所述缺失特征是指所述交集与所述特征集合相区别的特征；分别在各所述特征子集中填充所述缺失特征，得到对应各所述特征子集的所述联邦学习模型的模型输入。

在一些实施例中，构建模块5552，还用于确定各所述缺失特征对应的缺省值；分别在各所述特征子集中填充相应缺失特征对应的缺省值，得到对应各所述特征子集的所述联邦学习模型的模型输入。

在一些实施例中，构建模块5552，还用于针对各所述特征子集执行以下处理：确定所述特征子集的缺失特征对应的取值范围；在所述取值范围中对所述缺失特征进行多次随机抽样，得到对应所述缺失特征的多个随机值；将所述多个随机值分别填充至所述特征子集，得到对应所述特征子集的所述联邦学习模型的多个模型输入。

在一些实施例中，构建模块5552，还用于将所述多个模型输入分别输入至所述联邦学习模型，得到多个初始预测结果；获取所述多个初始预测结果的平均值，将所述平均值作为所述特征子集的预测结果。

在一些实施例中，构建模块5552，还用于获取所述联邦学习模型的样本集合；针对各所述特征子集执行以下处理：获取所述特征子集的缺失特征在所述样本集合的各样本中对应的特征值；基于各所述样本中与所述缺失特征对应的特征值，确定所述缺失特征对应的目标值；在所述特征子集中填充相应缺失特征对应的目标值，得到对应所述特征子集的所述联邦学习模型的模型输入。

在一些实施例中，计算模块5554，还用于遍历所述特征集合中的每个特征，并针对每个所述特征执行以下操作：当所述特征为缺失特征时，确定与所述特征对应的至少一个特征子集；针对每一个与所述特征对应的特征子集，基于相应的预测结果，以及所述目标预测结果，确定所述特征对应所述目标预测结果的边际贡献值；基于所述边际贡献值，确定所述特征对应所述目标预测结果的贡献信息。

在一些实施例中，计算模块5554，还用于当所述边际贡献值的数量为多个时，对多个所述边际贡献值进行求和，得到所述特征对应所述目标预测结果的总贡献值，将所述总贡献值作为所述特征对所述目标预测结果的贡献信息。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。

本申请实施例提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现本申请实施例提供的联邦学习模型的数据处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的联邦学习模型的数据处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例不仅能够扩展在联邦学习场景中的适用范围，还能够精确衡量单条训练样本中每个特征的贡献信息以及衡量第二参与方的贡献信息。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种联邦学习模型的数据处理方法，其特征在于，应用于第一参与方设备，所述方法包括：

基于得到的各所述预测结果及所述目标预测结果，确定所述特征集合中各特征对应所述目标预测结果的贡献信息。

2.根据权利要求1所述的方法，其特征在于，所述构建对应各所述特征子集的所述联邦学习模型的模型输入，包括：

分别确定各所述特征子集和所述特征集合的交集；

3.根据权利要求2所述的方法，其特征在于，所述分别在各所述特征子集中填充所述缺失特征，得到对应各所述特征子集的所述联邦学习模型的模型输入，包括：

确定各所述缺失特征对应的缺省值；

4.根据权利要求2所述的方法，其特征在于，所述分别在各所述特征子集中填充所述缺失特征，得到对应各所述特征子集的所述联邦学习模型的模型输入，包括：

针对各所述特征子集执行以下处理：

确定所述特征子集的缺失特征对应的取值范围；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述多个模型输入分别输入至所述联邦学习模型，得到多个初始预测结果；

6.根据权利要求2所述的方法，其特征在于，所述分别在各所述特征子集中填充所述缺失特征，得到对应各所述特征子集的所述联邦学习模型的模型输入，包括：

获取所述联邦学习模型的样本集合；

针对各所述特征子集执行以下处理：

7.根据权利要求2所述的方法，其特征在于，所述基于得到的各所述预测结果及所述目标预测结果，确定所述特征集合中各特征对应所述目标预测结果的贡献信息，包括：

遍历所述特征集合中的每个特征，并针对每个所述特征执行以下操作：

8.根据权利要求7所述的方法，其特征在于，所述基于所述边际贡献值，确定所述特征对应所述目标预测结果的贡献信息，包括：

当所述边际贡献值的数量为多个时，对多个所述边际贡献值进行求和，得到所述特征对应所述目标预测结果的总贡献值，

9.一种联邦学习模型的数据处理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的联邦学习模型的数据处理方法。

11.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至8任一项所述的联邦学习模型的数据处理方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述的联邦学习模型的数据处理方法。