CN111401570B

CN111401570B - 针对隐私树模型的解释方法和装置

Info

Publication number: CN111401570B
Application number: CN202010277473.1A
Authority: CN
Inventors: 方文静; 王力
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-04-12
Anticipated expiration: 2040-04-10
Also published as: CN111401570A

Abstract

本说明书实施例提供一种针对隐私树模型的解释方法和装置，方法包括：主动方记录训练后的树结构中各节点的父子节点关系，各节点包括各分裂点和各叶节点，各分裂点分别对应的训练方及记录编号，各叶节点的叶节点权重；记录编号对应训练方中记录的特征及特征阈值；从至少一个被动方获取属于被动方的各分裂点分别对应的第一训练样本数和第二训练样本数；根据各叶节点的叶节点权重，每个分裂点对应的第一训练样本数和第二训练样本数，按照树结构自底向上回溯计算各分裂点的期望权重；根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为解释性信息。能够适用于保护隐私的隐私树模型。

Description

针对隐私树模型的解释方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及针对隐私树模型的解释方法和装置。

背景技术

数据给机器学习、数据挖掘提供源动力，但随着数据挖掘技术的发展，对数据是否被滥用的问题引起广泛的关注，因此隐私保护的重要性在机器学习日益凸显，越来越多基于隐私保护的方案被提出。在众多方案中，隐私树模型利用同态加密的技术，依靠分布于多方的训练样本进行训练。

数据挖掘模型往往是一个黑盒，用户无法感知其内部工作状态，为了提高使用模型的可信度，模型解释性就显得至关重要，可用来看模型的结果是否符合专业人员的业务判断，进而确定模型是否可用，或者发现模型中存在的问题。

在实际使用当中，例如信贷场景等，既需要模型预测的结果，更需要对预测的结果具有可解释性，给出一个客户具有较高逾期概率的原因。对于保护隐私的隐私树模型，由于其训练方式有别于普通的树模型训练，因此现有的模型解释性方案无法适用，需要针对性设计。

发明内容

本说明书一个或多个实施例描述了一种针对隐私树模型的解释方法和装置，能够适用于保护隐私的隐私树模型。

第一方面，提供了一种确定隐私树模型的解释性信息的方法，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，方法包括：

所述主动方记录训练后的树结构中各节点的父子节点关系，所述各节点包括各分裂点和各叶节点，所述主动方还记录各分裂点分别对应的训练方及在该训练方中的记录编号，各叶节点的叶节点权重；所述记录编号对应训练方中记录的一项特征及该特征的特征阈值；

所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，其中包括，从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数；

所述主动方根据各叶节点的叶节点权重，每个分裂点对应的第一训练样本数和第二训练样本数，按照所述树结构自底向上回溯计算各分裂点的期望权重；

所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为所述解释性信息。

在一种可能的实施方式中，所述业务对象包括：用户、商户、商品或事件；

所述业务预测包括：对所述业务对象的分类预测或回归值预测。

在一种可能的实施方式中，所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，还包括：

所述主动方记录属于所述主动方的分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数。

在一种可能的实施方式中，所述主动方从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数，包括：

所述主动方从所述至少一个被动方获取各被动方主动上报的属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数。

在一种可能的实施方式中，所述按照所述树结构自底向上回溯计算各分裂点的期望权重，包括：

以分裂点作为父节点，根据其左子节点的期望权重和所述第一训练样本数，以及其右子节点的期望权重和所述第二训练样本数，计算该分裂点的期望权重。

在一种可能的实施方式中，所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，包括：

所述主动方确定子节点的期望权重与父节点的期望权重二者的差值，将该差值作为父节点对应的分裂点的节点贡献度。

第二方面，提供了一种对隐私树模型的业务预测结果进行解释的方法，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，方法包括：

所述主动方获取通过第一方面所述的方法确定的隐私树模型的解释性信息；

所述主动方将待测业务对象输入所述隐私树模型，根据所述树结构向各分裂点对应的至少一个被动方发送查询请求，所述查询请求用于指示所述被动方查询分裂点对应的记录编号中的特征及特征阈值，以确定所述待测业务对象的预测路径中该分裂点的子节点；

所述主动方根据所述至少一个被动方返回的查询结果，确定预测路径，以及预测结果；

所述主动方根据所述解释性信息，确定所述预测路径中各个途经分裂点的节点贡献度；

所述主动方向各个途经分裂点对应的被动方，发送所述节点贡献度，以使得所述被动方根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。

第三方面，提供了一种对隐私树模型的业务预测结果进行解释的方法，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，方法包括：

所述被动方从所述主动方接收至少一个查询请求，所述查询请求包括待测业务对象信息和记录编号；

所述被动方根据记录编号，获取对应的第一特征和第一特征阈值，将所述待测业务对象的第一特征的特征值与所述第一特征阈值比较，将比较结果作为查询结果；

所述被动方向所述主动方发送查询结果，以使得所述主动方确定预测路径以及预测结果；

所述被动方从所述主动方接收所述被动方对应的分裂点的节点贡献度，该节点贡献度为所述主动方根据解释性信息确定的；所述解释性信息为通过第一方面所述的方法确定的隐私树模型的解释性信息；

所述被动方根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。

第四方面，提供了一种确定隐私树模型的解释性信息的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述主动方，装置包括：

记录单元，用于记录训练后的树结构中各节点的父子节点关系，所述各节点包括各分裂点和各叶节点，还记录各分裂点分别对应的训练方及在该训练方中的记录编号，各叶节点的叶节点权重；所述记录编号对应训练方中记录的一项特征及该特征的特征阈值；

第一确定单元，用于确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，其中包括，从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数；

计算单元，用于根据所述记录单元记录的各叶节点的叶节点权重，所述第一确定单元确定的每个分裂点对应的第一训练样本数和第二训练样本数，按照所述树结构自底向上回溯计算各分裂点的期望权重；

第二确定单元，用于根据所述计算单元得到的各分裂点的期望权重和所述记录单元记录的各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为所述解释性信息。

第五方面，提供了一种对隐私树模型的业务预测结果进行解释的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述主动方，装置包括：

获取单元，用于获取通过第四方面所述的装置确定的隐私树模型的解释性信息；

查询单元，用于将待测业务对象输入所述隐私树模型，根据所述树结构向各分裂点对应的至少一个被动方发送查询请求，所述查询请求用于指示所述被动方查询分裂点对应的记录编号中的特征及特征阈值，以确定所述待测业务对象的预测路径中该分裂点的子节点；

第一确定单元，用于根据所述至少一个被动方返回的查询结果，确定预测路径，以及预测结果；

第二确定单元，用于根据所述获取单元获取的解释性信息，确定所述第一确定单元确定的预测路径中各个途经分裂点的节点贡献度；

发送单元，用于向各个途经分裂点对应的被动方，发送所述第二确定单元确定的节点贡献度，以使得所述被动方根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。

第六方面，提供了一种对隐私树模型的业务预测结果进行解释的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述被动方，装置包括：

接收单元，用于从所述主动方接收至少一个查询请求，所述查询请求包括待测业务对象信息和记录编号；

查询单元，用于根据所述接收单元接收的记录编号，获取对应的第一特征和第一特征阈值，将所述待测业务对象的第一特征的特征值与所述第一特征阈值比较，将比较结果作为查询结果；

发送单元，用于向所述主动方发送所述查询单元得到的查询结果，以使得所述主动方确定预测路径以及预测结果；

所述接收单元，还用于从所述主动方接收所述被动方对应的分裂点的节点贡献度，该节点贡献度为所述主动方根据解释性信息确定的；所述解释性信息为通过第四方面所述的装置确定的隐私树模型的解释性信息；

确定单元，用于根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。

第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一、第二或第三方面的方法。

第八方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一、第二或第三方面的方法。

通过本说明书实施例提供的方法和装置，首先主动方记录训练后的树结构中各节点的父子节点关系，各节点包括各分裂点和各叶节点，还记录各分裂点分别对应的训练方及在该训练方中的记录编号，各叶节点的叶节点权重；记录编号对应训练方中记录的一项特征及该特征的特征阈值；然后确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，其中包括，从至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数；接着根据各叶节点的叶节点权重，每个分裂点对应的第一训练样本数和第二训练样本数，按照树结构自底向上回溯计算各分裂点的期望权重；最后根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为所述解释性信息。由上可见，针对隐私树模型分布于多方的特点，主动方并不能够知道所有分裂点对应的特征及特征阈值，通过确定各分裂点分别对应的节点贡献度，将节点贡献度作为解释性信息，而不是确定各特征分别对应的特征贡献度，将特征贡献度作为解释性信息，能够适用于保护隐私的隐私树模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的确定隐私树模型的解释性信息的方法流程图；

图3示出根据一个实施例的训练后的隐私树模型的树结构示意图；

图4示出根据一个实施例的各训练方的查询表示意图；

图5示出根据一个实施例的对隐私树模型的业务预测结果进行解释的方法流程图；

图6示出根据一个实施例的确定出的预测路径示意图；

图7示出根据另一个实施例的对隐私树模型的业务预测结果进行解释的方法流程图；

图8示出根据一个实施例的确定隐私树模型的解释性信息的装置的示意性框图；

图9示出根据一个实施例的对隐私树模型的业务预测结果进行解释的装置的示意性框图；

图10示出根据另一个实施例的对隐私树模型的业务预测结果进行解释的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及针对隐私树模型的解释。所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征。可以理解的是，上述多个训练方可以是两个训练方，三个训练方或四个训练方等等。参照图1，以训练样本分布于三个训练方为例进行说明，其中，训练方2为主动方，具有训练样本1的标签1；训练方1为被动方，具有训练样本1的特征1、特征2；训练方3为被动方，具有训练样本1的特征3、特征4。

可以理解的是，在某些示例中，主动方除了具有训练样本的标签值之外，还可以具有训练样本的一部分样本特征。

作为示例，上述隐私树模型具体可以为安全树(SecureBoost)模型，它在训练数据保持多方相互保密的前提下，可以达到和不保护隐私的方法相同的性能；而且这个过程还不需要一个共同信任的第三方参与。

作为示例，上述隐私树模型具体可以为提升树模型，梯度提升是一种组成集成弱分类器输出进行预测的机器学习技术，和其他的提升方法一样，采用分步学习的方式得到最终的模型。当采用决策树作为弱分类器的时候，即为提升树模型。

本说明书实施例涉及模型局部解释性，机器学习任务中，不同的模型被提出，用以对问题进行建模。除了模型的直接输出以外，还需要对结果进一步的理解，例如对于一个具体的预测实例，究竟是什么因素决定了它所对应的输出，这就需要对该条具体的数据给出特征贡献排序的局部解释性。

本说明书实施例中，可以分为两个阶段，分别伴随隐私树模型的训练阶段和预测阶段。在训练阶段会在主动方记录树结构，包含分裂点信息(所在方及相应记录编号)及叶节点权重；在被动方记录每次的最佳分裂特征及分裂值(也称为特征阈值)。在训练阶段，可以基于上述记录的信息，确定隐私树模型的解释性信息，在预测阶段，可以根据上述解释性信息，对隐私树模型的业务预测结果进行解释。

图2示出根据一个实施例的确定隐私树模型的解释性信息的方法流程图，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，该方法可以基于图1所示的实施场景，该方法的执行主体可以是图1所示的主动方(即训练方2)。如图2所示，该实施例中确定隐私树模型的解释性信息的方法包括以下步骤：步骤21，主动方记录训练后的树结构中各节点的父子节点关系，所述各节点包括各分裂点和各叶节点，所述主动方还记录各分裂点分别对应的训练方及在该训练方中的记录编号，各叶节点的叶节点权重；所述记录编号对应训练方中记录的一项特征及该特征的特征阈值；步骤22，主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，其中包括，从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数；步骤23，主动方根据各叶节点的叶节点权重，每个分裂点对应的第一训练样本数和第二训练样本数，按照所述树结构自底向上回溯计算各分裂点的期望权重；步骤24，主动方根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为所述解释性信息。下面描述以上各个步骤的具体执行方式。

首先在步骤21，主动方记录训练后的树结构中各节点的父子节点关系，所述各节点包括各分裂点和各叶节点，所述主动方还记录各分裂点分别对应的训练方及在该训练方中的记录编号，各叶节点的叶节点权重；所述记录编号对应训练方中记录的一项特征及该特征的特征阈值。可以理解的是，出于保护隐私的目的，主动方并不知道其他训练方中保存的特征及该特征的特征阈值。

图3示出根据一个实施例的训练后的隐私树模型的树结构示意图。参照图3，树结构包括根节点、节点1、节点2、叶节点1、叶节点2、叶节点3和叶节点4，其中，根节点、节点1、节点2为分裂点，以根节点为例，根节点作为树结构中的一个分裂点，通过将业务对象的特征与特征阈值的比较，将业务对象划分为节点1或节点2中，通过这样的过程，最后将业务对象分割到各个叶节点中，各个叶节点具有相应的叶节点权重，也叫分值，例如，叶节点1的叶节点权重为w1，叶节点2的叶节点权重为w2，叶节点3的叶节点权重为w3，叶节点4的叶节点权重为w4。本说明书实施例中，主动方记录各分裂点分别对应的训练方及在该训练方中的记录编号，例如，根节点对应训练方1、记录编号1，节点1对应训练方3、记录编号1，节点2对应训练方2、记录编号1。每个训练方中存储着一个查询表，查询表包括一项或多项记录，每项记录具有相应的记录编号，记录编号对应训练方中记录的一项特征及该特征的特征阈值，训练方通过查询记录编号对应的特征及特征阈值，可以确定下一分裂点，最终确定业务对象划分到的叶节点。

图4示出根据一个实施例的各训练方的查询表示意图。参照图4，训练方1的查询表中包括一项记录，记录编号为1，特征为付款额，特征阈值为5000；训练方2的查询表中包括一项记录，记录编号为1，特征为年龄，特征阈值为40；训练方3的查询表中包括一项记录，记录编号为1，特征为授信金额，特征阈值为800。假定一个业务对象的付款额为4367，授信金额为5500，由于4367<5000，则该业务对象从根节点先被划分到节点1，又由于5500>800，该业务对象再被划分到叶节点2。

在一个示例中，所述业务对象包括：用户、商户、商品或事件；

然后在步骤22，主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，其中包括，从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数。可以理解的是，如果一个分裂点所在的训练方为被动方，则该被动方的查询表中包括一项记录，该项记录为该分裂点对应的特征及特征阈值，被动方通过对训练样本的特征值与特征阈值进行比较，从而可以将训练样本划分到左子树或右子树，相应地确定上述第一训练样本数和第二训练样本数。

举例来说，划分到一个分裂点的训练样本数为Np，该分裂点对应的第一训练样本数为Nl，该分裂点对应的第二训练样本数为Nr,则Np＝Nl+Nr。

在一个示例中，所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，还包括：

在一个示例中，所述主动方从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数，包括：

接着在步骤23，主动方根据各叶节点的叶节点权重，每个分裂点对应的第一训练样本数和第二训练样本数，按照所述树结构自底向上回溯计算各分裂点的期望权重。可以理解的是，树结构中包含各节点的父子节点关系，父节点的期望权重可以依靠其两个子节点的期望权重得到，如此，可以从叶节点开始，逐层向上确定出各个分裂点的期望权重。

在一个示例中，所述按照所述树结构自底向上回溯计算各分裂点的期望权重，包括：

进一步地，父节点的期望权重为其两个子节点的期望权重的加权平均值，所述两个子节点的权重为模型训练过程中落入其中的样本数。例如，通过如下公式计算父节点的期望权重：

Wp＝(Nl*Wl+Nr*Wr)/Np

其中，Wp为父节点的期望权重，Wl为其左子节点的期望权重，Nl为第一训练样本数，Wr为其右子节点的期望权重，Nr为第二训练样本数，Np为划分到该父节点的训练样本数。

最后在步骤24，主动方根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为所述解释性信息。可以理解的是，上述节点贡献度与路径有关，每个分裂点可以对应有划分到左子树的第一节点贡献度，以及对应有划分到右子树的第二节点贡献度。

在一个示例中，所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，包括：

例如，图1中的根节点到节点1这条路径，可以确定根节点对应的分裂点的节点贡献度如下：

ΔW＝Wnode1-Wroot

其中，Wnode1为节点1的期望权重，Wroot为根节点的期望权重，ΔW为二者的差值。

通过以上方式为每个分裂点赋予了节点贡献度。由于每个分裂点还对应一项特征，节点贡献度可以从一定意义上反映，在本次分裂时，该特征所起的作用，并在一定程度上反映该特征对决策路径的贡献度。

训练后的隐私树模型，可以对待测业务对象进行业务预测。并且，基于图2所示实施例的方法确定的隐私树模型的解释性信息，对业务预测结果进行解释。下面从主动方和被动方的角度分别描述对隐私树模型的业务预测结果进行解释的方法。

图5示出根据一个实施例的对隐私树模型的业务预测结果进行解释的方法流程图，该方法可以基于图1所示的实施场景，以及图2所示的确定的隐私树模型的解释性信息的方法流程，该方法的执行主体可以是图1所示的主动方(即训练方2)。如图5所示，该实施例中对隐私树模型的业务预测结果进行解释的方法包括以下步骤：

首先在步骤51，主动方获取通过图2所述的方法确定的隐私树模型的解释性信息。可以理解的是，上述解释性信息即各分裂点分别对应的节点贡献度，该节点贡献度与路径有关。

然后在步骤52，主动方将待测业务对象输入所述隐私树模型，根据所述树结构向各分裂点对应的至少一个被动方发送查询请求，所述查询请求用于指示所述被动方查询分裂点对应的记录编号中的特征及特征阈值，以确定所述待测业务对象的预测路径中该分裂点的子节点。可以理解的是，可能存在多个分裂点对应一个被动方，进一步地，可能存在多个分裂点对应一个被动方的一个特征。

接着在步骤53，主动方根据所述至少一个被动方返回的查询结果，确定预测路径，以及预测结果。可以理解的是，主动方综合多个被动方分别返回的查询结果，确定预测路径，以及预测结果。

图6示出根据一个实施例的确定出的预测路径示意图。参照图6，该预测路径为根节点→节点1→叶节点2，涉及训练方1和训练方3两个被动方，也就是说，主动方需要从训练方1和训练方3这两个被动方分别接收查询结果，根据从训练方1接收的查询结果确定根节点→节点1这段预测路径，根据从训练方3接收的查询结果确定节点1→叶节点2这段预测路径，综合这两段预测路径得到整个预测路径。

此外，在隐私树模型包含的决策树中，待测业务对象经由预测路径被划分到叶节点，进而通过叶节点的叶节点权重确定出待测业务对象的业务预测结果。

再在步骤54，主动方根据所述解释性信息，确定所述预测路径中各个途经分裂点的节点贡献度。可以理解的是，分裂点的节点贡献度与预测路径有关。

最后在步骤55，主动方向各个途经分裂点对应的被动方，发送所述节点贡献度，以使得所述被动方根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。可以理解的是，可能存在多个途经分裂点对应一个被动方，进一步地，可能存在多个途经分裂点对应一个被动方的一个特征，从而被动方可以进行特征维度的贡献度聚合。

图7示出根据另一个实施例的对隐私树模型的业务预测结果进行解释的方法流程图，该方法可以基于图1所示的实施场景，以及图2所示的确定的隐私树模型的解释性信息的方法流程，该方法的执行主体可以是图1所示的被动方(即训练方1或训练方3)。如图7所示，该实施例中对隐私树模型的业务预测结果进行解释的方法包括以下步骤：

首先在步骤71，被动方从所述主动方接收至少一个查询请求，所述查询请求包括待测业务对象信息和记录编号。可以理解的是，可能存在上述被动方仅对应一个分裂点，也可能存在上述被动方对应多个分裂点，当上述被动方对应多个分裂点时，可以向被动方发送针对各分裂点的多个查询请求。

然后在步骤72，被动方根据记录编号，获取对应的第一特征和第一特征阈值，将所述待测业务对象的第一特征的特征值与所述第一特征阈值比较，将比较结果作为查询结果。可以理解的是，将比较结果作为查询结果，不会泄露被动方记录的第一特征和第一特征阈值。

接着在步骤73，被动方向所述主动方发送查询结果，以使得所述主动方确定预测路径以及预测结果。可以理解的是，被动方对应分裂点，主动方根据查询结果，可以确定业务对象从该分裂点划分到左子树或右子树。

再在步骤74，被动方从所述主动方接收所述被动方对应的分裂点的节点贡献度，该节点贡献度为所述主动方根据解释性信息确定的；所述解释性信息为通过图2所述的方法确定的隐私树模型的解释性信息。可以理解的是，节点贡献度与路径有关，上述节点贡献度为主动方确定预测路径后，根据该预测路径确定的节点贡献度。

最后在步骤75，被动方根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。可以理解的是，可能存在预测路径的多个途经分裂点对应上述被动方，进一步地，可能存在多个途经分裂点对应上述被动方的一个特征，从而被动方可以进行特征维度的贡献度聚合。

举例来说，分裂点1、分裂点2和分裂点3均对应上述被动方的特征1，分裂点1的节点贡献度为a，分裂点2的节点贡献度为b，分裂点3的节点贡献度为c，则特征1的聚合贡献度为a+b+c。

可以理解的是，被动方在确定出本方的各特征的聚合贡献度后，可以根据各聚合贡献度对各特征进行排序，以表示出得出这样的预测结果，各项特征所起的作用的大小。

此外，需要说明的是，当主动方不仅具有训练样本的标签值，还具有训练样本的一部分样本特征时，主动方可以采用类似步骤75的方式，根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述主动方在本次预测中本方特征的贡献。

根据另一方面的实施例，还提供一种确定隐私树模型的解释性信息的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述主动方，该装置用于执行图2所示的确定隐私树模型的解释性信息的方法。图8示出根据一个实施例的确定隐私树模型的解释性信息的装置的示意性框图。如图8所示，该装置800包括：

记录单元81，用于记录训练后的树结构中各节点的父子节点关系，所述各节点包括各分裂点和各叶节点，还记录各分裂点分别对应的训练方及在该训练方中的记录编号，各叶节点的叶节点权重；所述记录编号对应训练方中记录的一项特征及该特征的特征阈值；

第一确定单元82，用于确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，其中包括，从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数；

计算单元83，用于根据所述记录单元81记录的各叶节点的叶节点权重，所述第一确定单元82确定的每个分裂点对应的第一训练样本数和第二训练样本数，按照所述树结构自底向上回溯计算各分裂点的期望权重；

第二确定单元84，用于根据所述计算单元83得到的各分裂点的期望权重和所述记录单元81记录的各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，作为所述解释性信息。

可选地，作为一个实施例，所述业务对象包括：用户、商户、商品或事件；

可选地，作为一个实施例，所述第一确定单元82，还包括：

记录属于所述主动方的分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数。

可选地，作为一个实施例，所述第一确定单元82，具体用于从所述至少一个被动方获取各被动方主动上报的属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数。

可选地，作为一个实施例，所述计算单元83，具体用于以分裂点作为父节点，根据其左子节点的期望权重和所述第一训练样本数，以及其右子节点的期望权重和所述第二训练样本数，计算该分裂点的期望权重。

可选地，作为一个实施例，所述第二确定单元84，具体用于确定子节点的期望权重与父节点的期望权重二者的差值，将该差值作为父节点对应的分裂点的节点贡献度。

根据另一方面的实施例，还提供一种对隐私树模型的业务预测结果进行解释的装置，所述装置设置于所述主动方，该装置用于执行图5所示的对隐私树模型的业务预测结果进行解释的方法。图9示出根据一个实施例的对隐私树模型的业务预测结果进行解释的装置的示意性框图。如图9所示，该装置900包括：

获取单元91，用于获取通过图8所述的装置确定的隐私树模型的解释性信息；

查询单元92，用于将待测业务对象输入所述隐私树模型，根据所述树结构向各分裂点对应的至少一个被动方发送查询请求，所述查询请求用于指示所述被动方查询分裂点对应的记录编号中的特征及特征阈值，以确定所述待测业务对象的预测路径中该分裂点的子节点；

第一确定单元93，用于根据所述至少一个被动方返回的查询结果，确定预测路径，以及预测结果；

第二确定单元94，用于根据所述获取单元91获取的解释性信息，确定所述第一确定单元93确定的预测路径中各个途经分裂点的节点贡献度；

发送单元95，用于向各个途经分裂点对应的被动方，发送所述第二确定单元94确定的节点贡献度，以使得所述被动方根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。

根据另一方面的实施例，还提供一种对隐私树模型的业务预测结果进行解释的装置，所述装置设置于所述被动方，该装置用于执行图7所示的对隐私树模型的业务预测结果进行解释的方法。图10示出根据另一个实施例的对隐私树模型的业务预测结果进行解释的装置的示意性框图。如图10所示，该装置1000包括：

接收单元101，用于从所述主动方接收至少一个查询请求，所述查询请求包括待测业务对象信息和记录编号；

查询单元102，用于根据所述接收单元101接收的记录编号，获取对应的第一特征和第一特征阈值，将所述待测业务对象的第一特征的特征值与所述第一特征阈值比较，将比较结果作为查询结果；

发送单元103，用于向所述主动方发送所述查询单元102得到的查询结果，以使得所述主动方确定预测路径以及预测结果；

所述接收单元101，还用于从所述主动方接收所述被动方对应的分裂点的节点贡献度，该节点贡献度为所述主动方根据解释性信息确定的；所述解释性信息为通过图8所述的装置确定的隐私树模型的解释性信息；

确定单元104，用于根据所述节点贡献度，确定本次预测中本方特征的聚合贡献度，所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2、5或7所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2、5或7所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种确定隐私树模型的解释性信息的方法，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述方法包括：

2.如权利要求1所述的方法，其中，所述业务对象包括：用户、商户、商品或事件；

3.如权利要求1所述的方法，其中，所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数，以及划分到右子树的第二训练样本数，还包括：

4.如权利要求1所述的方法，其中，所述主动方从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数，包括：

5.如权利要求1所述的方法，其中，所述按照所述树结构自底向上回溯计算各分裂点的期望权重，包括：

6.如权利要求1所述的方法，其中，所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重，以及各父子节点关系，确定各分裂点分别对应的节点贡献度，包括：

7.一种对隐私树模型的业务预测结果进行解释的方法，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述方法包括：

所述主动方获取通过权利要求1所述的方法确定的隐私树模型的解释性信息；

8.一种对隐私树模型的业务预测结果进行解释的方法，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述方法包括：

所述被动方从所述主动方接收所述被动方对应的分裂点的节点贡献度，该节点贡献度为所述主动方根据解释性信息确定的；所述解释性信息为通过权利要求1所述的方法确定的隐私树模型的解释性信息；

9.一种确定隐私树模型的解释性信息的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述主动方，所述装置包括：

10.如权利要求9所述的装置，其中，所述业务对象包括：用户、商户、商品或事件；

11.如权利要求9所述的装置，其中，所述第一确定单元，还包括：

12.如权利要求9所述的装置，其中，所述第一确定单元，具体用于从所述至少一个被动方获取各被动方主动上报的属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数。

13.如权利要求9所述的装置，其中，所述计算单元，具体用于以分裂点作为父节点，根据其左子节点的期望权重和所述第一训练样本数，以及其右子节点的期望权重和所述第二训练样本数，计算该分裂点的期望权重。

14.如权利要求9所述的装置，其中，所述第二确定单元，具体用于确定子节点的期望权重与父节点的期望权重二者的差值，将该差值作为父节点对应的分裂点的节点贡献度。

15.一种对隐私树模型的业务预测结果进行解释的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述主动方，所述装置包括：

获取单元，用于获取通过权利要求9所述的装置确定的隐私树模型的解释性信息；

16.一种对隐私树模型的业务预测结果进行解释的装置，所述隐私树模型用于进行业务预测，并基于联邦学习的方式，依靠分布于多个训练方的业务对象作为训练样本得到，所述多个训练方包括主动方和至少一个被动方，所述主动方至少具有所述训练样本的标签值，每个被动方具有所述训练样本的一部分样本特征，所述装置设置于所述被动方，所述装置包括：

所述接收单元，还用于从所述主动方接收所述被动方对应的分裂点的节点贡献度，该节点贡献度为所述主动方根据解释性信息确定的；所述解释性信息为通过权利要求9所述的装置确定的隐私树模型的解释性信息；

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项的所述的方法。