CN111340231A

CN111340231A - Shap特征归因方法、装置、设备及可读存储介质

Info

Publication number: CN111340231A
Application number: CN202010088686.XA
Authority: CN
Inventors: 卓本刚; 黄启军; 唐兴兴; 林冰垠
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-26

Abstract

本申请公开了一种SHAP特征归因方法、装置、设备和可读存储介质，所述SHAP特征归因方法包括：获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端，将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值，接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果。本申请解决了基于SHAP的模型解释效率低的技术问题。

Description

SHAP特征归因方法、装置、设备及可读存储介质

技术领域

本申请涉及金融科技(Fintech)的人工智能技术领域，尤其涉及一种SHAP 特征归因方法、装置、设备及可读存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，机器学习的应用也越来越广泛，也发展出了一系列的高性能的机器学习模型，例如，随机森林、梯度提升树、深度学习等，但这些机器学习模型内部原理难以理解，在业务应用场景中，建模人员难以理解这些模型，进而导致建模人员难以去应用和调试这些机器学习模型，目前，通常通过SHAP(SHapley AdditiveexPlanations，沙普利可加性模型解释方法)来解释模型，进而帮助建模人员去理解模型，但是在计算模型的SHAP结果时，往往需要大量的样本，而当前的SHAP计算方法却只能进行单机实现，进而导致计算单个样本的全局SHAP结果的时间复杂度过高，SHAP值计算效率低，进而导致基于SHAP的模型解释效率低，所以，现有技术中存在基于SHAP的模型解释效率低的技术问题。

发明内容

本申请的主要目的在于提供一种SHAP特征归因方法、装置、设备和可读存储介质，旨在解决现有技术中基于SHAP的模型解释效率低的技术问题。

为实现上述目的，本申请提供一种SHAP特征归因方法，所述SHAP特征归因方法应用于驱动端，所述SHAP特征归因方法包括：

获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端；

将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值；

接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果。

可选地，所述待解释数据包括一个或者多个特征，

所述基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果的步骤包括：

生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果。

可选地，所述生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果的步骤之后包括：

对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述SHAP结果进行展示。

可选地，所述SHAP结果包括一个或者多个SHAP值，所述后处理包括范围钳位处理和重编排，

所述对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述SHAP 结果进行展示的步骤包括：

对所述样本特征进行所述范围钳位处理，获得有限范围数据；

对所述有限范围数据进行所述重编排，以建立各所述样本特征和各所述 SHAP值的映射关系，获得待展示数据，并将所述待展示数据进行展示。

可选地，所述样本特征包括第一样本特征和第二样本特征，

所述将所述待展示数据进行展示的步骤包括：

基于所述待展示数据，建立所述第一样本特征对应的模型解释散点图；

基于所述第二样本特征对应的各样本特征值，对所述模型解释散点图中的各散点进行着色，并将着色后的所述模型解释散点图进行展示。

可选地，所述异常点包括缺失值和离群值，

所述对所述样本特征进行所述范围钳位处理，获得有限范围数据的步骤包括：

确定所述缺失值在所述待解释数据中对应的第一类型特征，并将所述缺失值映射至所述第一类型特征对应的离群值阀值边缘范围内；

确定所述离群值在所述待解释数据中对应的第二类型特征，并将所述离群值映射至所述第二类型特征对应的离群值上阀值范围外，获得所述有限范围数据。

为实现上述目的，本申请还提供一种SHAP特征归因方法，所述SHAP 特征归因方法应用于执行端，所述SHAP特征归因方法包括：

接收与所述执行端关联的驱动端发送的待解释数据和待解释模型，并在所述待解释数据中选取模型输入样本集；

分别将所述模型输入样本集中各元素输入所述待解释模型，获得模型输出结果集合，并基于所述模型输出结果集合，获取所述待解释数据中各样本特征对应的标注标签期望值；

基于所述模型输出结果集合，通过预设边际效益期望计算公式，并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端计算所述待解释数据对应的SHAP结果，并将所述SHAP结果进行展示。

可选地，所述待解释数据对应一个或者多个所述样本特征，所述模型输入样本集包括一个或者多个模型输入元素，所述模型输入元素包括一个或者多个第一类型元素和一个或者多个第二类型元素，

所述在所述待解释数据中选取模型输入样本集的步骤包括：

在各所述样本特征中选取目标特征，并在所述待解释数据中剔除所述目标特征，获得剔除数据集，并在所述剔除数据集中选取所述第一类型元素之一，其中，所述第一类型元素为所述剔除数据集的子集；

将所述目标特征加入所述第一类型元素，获得所述第二类型元素之一；

重新在所述样本特征中选取所述目标特征，以获取其他所述第一类型元素和其他所述第二类型元素，直至所述待解释数据中不存在所述目标特征，获得所述模型输入样本集。

本申请还提供一种SHAP特征归因装置，所述SHAP特征归因装置为虚拟装置，且所述SHAP特征归因装置应用于驱动端，所述SHAP特征归因装置包括：

获取模块，用于获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端；

并行计算模块，用于将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值；

接收模块，用于接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果。

可选地，所述接收模块包括：

获取单元，用于生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果。

可选地，所述SHAP特征归因装置还包括：

后处理展示模块，用于对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述SHAP结果进行展示。

可选地，所述后处理展示模块包括：

范围钳位处理单元，用于对所述样本特征进行所述范围钳位处理，获得有限范围数据；

展示单元，用于对所述有限范围数据进行所述重编排，以建立各所述样本特征和各所述SHAP值的映射关系，获得待展示数据，并将所述待展示数据进行展示。

可选地，所述展示单元包括：

建立子单元，用于基于所述待展示数据，建立所述第一样本特征对应的模型解释散点图；

着色子单元，用于基于所述第二样本特征对应的各样本特征值，对所述模型解释散点图中的各散点进行着色，并将着色后的所述模型解释散点图进行展示。

可选地，所述范围钳位处理单元包括：

第一映射子单元，用于确定所述缺失值在所述待解释数据中对应的第一类型特征，并将所述缺失值映射至所述第一类型特征对应的离群值阀值边缘范围内；

第二映射子单元，用于确定所述离群值在所述待解释数据中对应的第二类型特征，并将所述离群值映射至所述第二类型特征对应的离群值上阀值范围外，获得所述有限范围数据。

为实现上述目的，本申请还提供一种SHAP特征归因装置，所述SHAP 特征归因装置应用于执行端，所述SHAP特征归因装置包括：

接收模块，用于所述接收与所述执行端关联的驱动端发送的待解释数据和待解释模型，并在所述待解释数据中选取模型输入样本集；

模型预测模块，用于所述分别将所述模型输入样本集中各元素输入所述待解释模型，获得模型输出结果集合，并基于所述模型输出结果集合，获取所述待解释数据中各样本特征对应的标注标签期望值；

反馈模块，用于所述基于所述模型输出结果集合，通过预设边际效益期望计算公式，并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端计算所述待解释数据对应的SHAP结果，并将所述SHAP结果进行展示。

可选地，所述接收模块包括：

剔除单元，用于所述在各所述样本特征中选取目标特征，并在所述待解释数据中剔除所述目标特征，获得剔除数据集，并在所述剔除数据集中选取所述第一类型元素之一，其中，所述第一类型元素为所述剔除数据集的子集；

并集单元，用于所述将所述目标特征加入所述第一类型元素，获得所述第二类型元素之一；

选取单元，用于所述重新在所述样本特征中选取所述目标特征，以获取其他所述第一类型元素和其他所述第二类型元素，直至所述待解释数据中不存在所述目标特征，获得所述模型输入样本集。

本申请还提供一种SHAP特征归因设备，所述SHAP特征归因设备为实体设备，所述SHAP特征归因设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述SHAP特征归因方法的程序，所述 SHAP特征归因方法的程序被处理器执行时可实现如上述的SHAP特征归因方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有实现SHAP 特征归因方法的程序，所述SHAP特征归因方法的程序被处理器执行时实现如上述的SHAP特征归因方法的步骤。

本申请通过获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端，进而将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值，进而接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果，进而对所述样本特征进行后处理，并将后处理后的所述样本特征和所述SHAP结果进行展示。也即，本申请首先将获取的待解释数据和预设待解释模型发送至所述执行端，以供所述执行端进行所述待解释数据中各样本对应的边际效益期望和标注标签期望值的并行计算，进而基于各所述边际效益期望和所述标注标签期望值，可进行所述待解释数据对应的SHAP结果的计算，进而通过对所述样本特征进行后处理，即可将后处理后的所述样本特征和所述SHAP结果进行展示。也即，本申请通过将获取的待解释数据和预设待解释模型发送至所述执行端，以供所述执行端进行所述待解释数据中各样本对应的边际效益期望和标注标签期望值的并行计算，进而实现了对边际效益期望的分布式并行计算，提高了边际效益期望的计算效率，进而提高了基于SHAP的模型解释效率，所以，解决了基于SHAP的模型解释效率低技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请SHAP特征归因方法第一实施例的流程示意图；

图2为本申请SHAP特征归因方法中着色之前的所述模型解释散点图的示意图；

图3为本申请SHAP特征归因方法第二实施例的流程示意图；

图4为本申请SHAP特征归因方法第三实施例的流程示意图；

图5为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种SHAP特征归因方法，所述SHAP特征归因方法应用于驱动端，在本申请SHAP特征归因方法的第一实施例中，参照图1，所述SHAP特征归因方法包括：

步骤S10，获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端；

在本实施例中，需要说明的是，所述待解释数据包括一个或者多个待解释样本，所述待解释样本包括一个或者多个样本特征，其中，在每一待解释样本中，每一所述样本特征均对应一个样本特征值，所述执行端包括spark集群的执行器。

获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端，具体地，从预设本地数据库中提取所述待解释数据，并将所述待解释数据读入与所述驱动端关联的执行端的内存。

步骤S20，将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值；

在本实施例中，需要说明的是，所述预设待解释模型为已经训练好的机器学习模型，所述预设待解释模型包括随机森林模型、梯度提升树模型和深度学习模型等，所述标注标签期望值与所述预设待解释模型的预测目标相关联，例如，假设所述待解释模型的预测目标为判断用户是否为优质客户，所述待解释数据包括10000个样本，其中，9999个样本输入所述预设待解释模型的预测结果为用户为优质客户，且优质客户的标签为1，则对于所述预测待解释模型，判定用户为优质客户的概率为0.9999，则所述标注标签期望值为0.9999。

将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值，具体地，将预设待解释模型广播至所述执行端，以供所述执行端在所述待解释数据中选取模型输入样本集，并分别将所述模型输入样本集中各元素输入所述待解释模型，获得模型输出结果集合，并基于所述模型输出结果集合，获取所述待解释数据中各样本特征对应的标注标签期望值，并基于所述模型输出结果集合，通过预设边际效益期望计算公式，并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端计算所述待解释数据对应的SHAP 结果，其中，所述预设边际效益期望计算公式如下所示，

其中，φ_i为所述边际效益期望，F为所述待解释数据对应的样本特征集合，F\{i}为F中剔除第i个特征后的剔除数据集，S为所述剔除数据集的一个子集，

为所述待解释模型在S集合上的输出值，f_s∪{i}(x_s∪{i})为S集并上特征i后在所述待解释模型上的输出值，则剔除的特征为第i个特征且剔除数据集为S占所有情况的概率为所述预设边际效益期望计算公式中带有阶乘符号的分数系数，其中，需要说明的是，所述待解释数据包括一个或者多个待解释样本，所述待解释样本包括一个或者多个样本特征，在每一待解释样本中，每一所述样本特征对应一样本特征值，在所述执行端进行并行计算所述边际效益期望时，所述待解释数据将以表格或者矩阵等方式输入执行端的执行器中进行并行计算，其中，若所述待解释数据以表格形式或者矩阵形式进行输入，则表格或者矩阵的每一行为一所待解释样本，表格的每一列为每一所述样本特征在每一待解释样本中的对应的样本特征值，且若基于所述待预测模型对所述待解释数据进行基于SHAP的模型全局解释，则S即为所述剔除数据集，所述标注标签期望值为所述待解释数据中所有数据对应的模型偏置。

步骤S30，接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果。

在本实施例中，接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果，具体地，接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并将各所述边际效益期望对应的表格或者矩阵、所述标注标签期望值代入预设SHAP结果计算公式，获得所述SHAP 结果，其中，所述SHAP结果包括一个或者多个SHAP值，所述SHAP结果以表格形式或者矩阵形式进行表示，表格或者矩阵的每一行对应一所述待解释样本，表格或者矩阵的每一列对应一样本特征，表格或者矩阵的每一个值均为所述SHAP值，其中，所述预设SHAP结果计算公式如下所示，

其中，z’∈{0,1}表示样本特征是否参与到建模。M表示所述待解释数据中的特征数量，φ₀表示模型偏置，φ_j表示特征对模型预测结果的贡献度，也即，φ_j为所述边际效益期望，g(z’)为所述SHAP值。

其中，在步骤S30中，所述待解释数据包括一个或者多个特征，

步骤S31，生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果。

在本实施例中，生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果，具体地，若所述执行器反馈的各所述边际效益期望不为预设表格形式，则将各所述边际效益期望转化为对应的表格，获得所述输入数据表，并将所述输入数据表和所述标注标签期望值输入预设SHAP结果计算公式对应的执行单元，执行各所述SHAP值的并行计算，获得各所述SHAP值对应的SHAP值表格，也即，获得所述SHAP结果。

本实施例通过获取待解释数据，并将所述待解释数据分发到与所述驱动端关联的执行端，进而将预设待解释模型广播至所述执行端，以供所述执行端基于所述待解释模型并行计算所述待解释数据中各样本特征对应的边际效益期望以及标注标签期望值，进而接收所述执行端反馈的各所述边际效益期望和所述标注标签期望值，并基于各所述边际效益期望和所述标注标签期望值，计算所述待解释数据对应的SHAP结果，进而对所述样本特征进行后处理，并将后处理后的所述样本特征和所述SHAP结果进行展示。也即，本实施例首先将获取的待解释数据和预设待解释模型发送至所述执行端，以供所述执行端进行所述待解释数据中各样本对应的边际效益期望和标注标签期望值的并行计算，进而基于各所述边际效益期望和所述标注标签期望值，可进行所述待解释数据对应的SHAP结果的计算，进而通过对所述样本特征进行后处理，即可将后处理后的所述样本特征和所述SHAP结果进行展示。也即，本实施例通过将获取的待解释数据和预设待解释模型发送至所述执行端，以供所述执行端进行所述待解释数据中各样本对应的边际效益期望和标注标签期望值的并行计算，进而实现了对边际效益期望的分布式并行计算，提高了边际效益期望的计算效率，进而提高了基于SHAP的模型解释效率，所以，解决了基于SHAP的模型解释效率低技术问题。

进一步地，参照图2，基于本申请中第一实施例，在SHAP特征归因方法的另一实施例中，所述生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果的步骤之后包括：

步骤S40，对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述 SHAP结果进行展示。

在本实施例中，需要说明的是，所述后处理包括范围钳位处理、归一化处理等。

对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述SHAP结果进行展示，具体地，对所述样本特征进行范围钳位处理，以去除各所述样本特征值中的异常点对所述SHAP结果的可视化干扰作用，进而基于用户的选取命令，在各所述样本特征中选取待展示特征，并将所述待展示特征对应的各SHAP值和各所述待展示特征进行可视化展示，其中，所述异常点包括缺失值、离群值等，其中，所述样本特征在各个样本中均对应的存在一个样本特征值，若所述样本特征在某一待解释样本中对应的样本特征值丢失了，则在该待解释样本中标记所述样本特征对应的样本特征值为缺失值，所述离群值指的是不再预设离群值阀值范围内的样本特征值，例如，假设某一样本特征对应的百分之99的模型输出结果的取值范围为38至100，则所述离群值阀值范围为大于或者等于38且小于或者等于100，对于不处于所述离群值阀值范围内的样本特征值均标记为离群值。

其中，所述SHAP结果包括一个或者多个SHAP值，所述后处理包括范围钳位处理和重编排，

步骤S41，对所述样本特征进行所述范围钳位处理，获得有限范围数据；

在本实施例中，需要说明的是，所述范围钳位处理的作用为去除各所述样本特征值中的异常点对SHAP结果的可视化展示的干扰作用。

对所述样本特征进行所述范围钳位处理，获得有限范围数据，具体地，基于用户的选取命令，在各所述样本特征中选取待展示特征，并在所述SHAP 结果中确定所述待展示特征对应的各待展示SHAP值，进而对各所述待展示 SHAP值进行范围钳位处理，以去除各所述样本特征值中的异常点对所述 SHAP结果的可视化干扰作用。

其中，所述特征值包括缺失值和离群值，所述边际效益期望包括第一类型SHAP值和第二类型SHAP值，

步骤S411，确定所述缺失值在所述待解释数据中对应的第一类型特征，并将所述缺失值映射至所述第一类型特征对应的离群值阀值边缘范围内；

在本实施例中，需要说明的是，所述待解释数据为表格形式或者矩阵形式进行保存和计算，对应的所述SHAP结果中的各所述SHAP值也以表格形式或者矩阵形式进行保存和计算，所述待解释数据中的样本特征值与其对应的SHAP值在表格或者矩阵中的位置是一致的，所述缺失值和所述离群值均在所述待解释数据对应的表格或者矩阵中已标记好，所述离群值阀值边缘范围包括离群值上阀值边缘范围和离群值下阀值边缘范围。

确定所述缺失值在所述待解释数据中对应的第一类型特征，并将所述缺失值映射至所述第一类型特征对应的离群值阀值边缘范围内，具体地，基于所述待解释数据和所述SHAP结果的对应关系，确定所述缺失值所在的样本特征，并将所述缺失值对应的样本特征作为所述第一类型特征，进而若所述第一类型特征为所述待展示特征，则确定所述缺失值对应的第一异常SHAP 值，并计算所述第一异常SHAP值与所述离群值阀值范围对应的离群值上阀值和所述离群值值下阀值的距离，若所述第一异常SHAP值与所述离群值上阀值的距离大于或者等于所述第一异常SHAP值与所述离群值下阀值的距离，则将所述第一异常SHAP值映射至所述离群值下阀值对应的离群值下阀值边缘范围内，若所述第一异常SHAP值与所述离群值上阀值的距离小于所述第一异常SHAP值与所述离群值下阀值的距离，则将所述第一异常SHAP值映射至所述离群值上阀值对应的离群值上阀值边缘范围内，例如，假设所述离群值阀值范围为38值100，则所述离群值上阀值为38，进而可设置所述离群值上阀值边缘范围为37.5至38.5，所述离群值下阀值为100，进而可设置所述离群值下阀值边缘范围为99.5至100.5，进一步地，若所述第一异常SHAP 值为97，则将97映射至99.5至100.5内，若所述第一异常SHAP值为40，则将40映射至37.5至38.5内。

步骤S412，确定所述离群值在所述待解释数据中对应的第二类型特征，并将所述离群值映射至所述第二类型特征对应的离群值上阀值范围外，获得所述有限范围数据。

在本实施例中，确定所述离群值在所述待解释数据中对应的第二类型特征，并将所述离群值映射至所述第二类型特征对应的离群值上阀值范围外，获得所述有限范围数据，具体地，基于所述待解释数据和所述SHAP结果的对应关系，确定所述离群值所在的样本特征，并将所述缺失值对应的样本特征作为所述第二类型特征，进而若所述第二类型特征为所述待展示特征，则确定所述缺失值对应的第二异常SHAP值，并将所述第二异常SHAP值映射至所述第二类型特征对应的离群值上阀值外侧的预设映射范围内，获得所述归一化处理数据，例如，假设所述离群值上阀值为12，所有的所述SHAP值的取值范围为0至100，则可在0至12之间由用户自行选取所述预设映射范围。

步骤S42，对所述有限范围数据进行所述重编排，以建立各所述样本特征和各所述SHAP值的映射关系，获得待展示数据，并将所述待展示数据进行展示。

在本实施例中，需要说明的是，所述有限范围数据对应一个或者多个待展示特征。

对所述有限范围数据进行所述重编排，以建立各所述样本特征和各所述 SHAP值的映射关系，获得待展示数据，并将所述待展示数据进行展示，具体地，对所述有限范围数据进行重编排，以分别建立各所述待展示特征对应的多个待展示样本特征值和对应的多个SHAP值之间的映射关系，获得待展示数据，其中，所述待展示数据包括每一所述待展示特征对应的多个待展示样本特征值、多个SHAP值、多个待展示样本特征值与多个SHAP值之间的映射关系，其中，所述待展示样本特征值与对应的所述SHAP值一一对应。

其中，在步骤S42中，所述样本特征包括第一样本特征和第二样本特征，所述将所述待展示数据进行展示的步骤包括：

步骤S421，基于所述待展示数据，建立所述第一样本特征对应的模型解释散点图；

在本实施例中，基于所述待展示数据，建立所述第一样本特征对应的模型解释散点图，具体地，基于所述映射关系，以所述多个SHAP值为竖轴，以所述多个样本特征值为横轴，建立每一所述样本特征对应的模型解释散点图。

步骤S422，基于所述第二样本特征对应的各样本特征值，对所述模型解释散点图中的各散点进行着色，并将着色后的所述模型解释散点图进行展示。

在本实施例中，基于所述第二样本特征对应的各样本特征值，对所述模型解释散点图中的各散点进行着色，并将着色后的所述模型解释散点图进行展示，具体地，获取所述第二样本特征对应的多个样本特征值，并基于所述第二样本特征对应的多个样本特征值的大小，以不同深浅的颜色对所述模型解释散点图中的各散点进行着色，获得着色后的所述模型解释散点图，也即，获得所述可视化数据，如图3所示为着色之前的所述模型解释散点图的示意图，其中，横轴对应所述第一样本特征，左侧竖轴对应所述SHAP值，每一散点对应的横轴值和左侧竖轴值存在所述映射关系，右侧竖轴对应所述第二样本特征，基于所述右侧竖轴的值的大小，可对各散点进行着色，glucose为所述样本特征。

本实施例通过对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述SHAP结果进行展示。也即，在计算所述SHAP结果后，通过对所述样本特征进行后处理，其中，所述待解释数据对应一个或者多个所述样本特征，可去除待解释数据中的异常点对所述SHAP结果的影响，使得基于SHAP的全局模型解释作用更加直观，也即，可将所述SHAP结果和样本特征更加直观地展示出来，进而避免了由于待解释数据中存在异常点而导致基于SHAP 的全局模型解释效果差的情况发生，提高了基于SHAP的模型解释效果，同时也将SHAP特征归因方法可提高模型解释效率的作用更加直观的展示出来，所以，为解决基于SHAP的模型解释效率低的技术问题奠定了基础。

进一步地，参照图4，基于本申请中第一实施例和第二实施例，在SHAP 特征归因方法的另一实施例中，所述SHAP特征归因方法应用于执行端，所述SHAP特征归因方法包括：

步骤A10，接收与所述执行端关联的驱动端发送的待解释数据和待解释模型，并在所述待解释数据中选取模型输入样本集；

在本实施例中，需要说明的是，所述待解释数据对应一个或者多个所述样本特征，所述模型输入样本集包括一个或者多个模型输入元素，所述模型输入元素包括一个或者多个第一类型元素和一个或者多个第二类型元素。

接收与所述执行端关联的驱动端发送的待解释数据和待解释模型，并在所述待解释数据中选取模型输入样本集，具体地，接收与所述执行端关联的驱动端发送的待解释数据和待解释模型，并在所述待解释数据对应的各所述样本特征中选取目标特征，在所述待解释数据中剔除所述目标特征对应的数据，获得剔除后的所述待解释数据集合，并在剔除后的所述待解释数据集合中选取子集作为所述第一类型元素之一，并将所述目标特征加入所述第一类型元素，获得第二类型元素之一，直至剔除后的所述待解释数据集合的子集均被选取过，并重新在各所述样本特征中选取目标特征以获取所述第一类型元素和第二类型元素，直至各所述样本特征均被选取过为所述目标特征，其中，需要说明的是，剔除后的所述待解释数据集合的每一子集和每一目标特征均只选取一次。

其中，在步骤A10中，所述待解释数据对应一个或者多个所述样本特征，所述模型输入样本集包括一个或者多个模型输入元素，所述模型输入元素包括一个或者多个第一类型元素和一个或者多个第二类型元素，

所述在所述待解释数据中选取模型输入样本集的步骤包括：

步骤A11，在各所述样本特征中选取目标特征，并在所述待解释数据中剔除所述目标特征，获得剔除数据集，并在所述剔除数据集中选取所述第一类型元素之一，其中，所述第一类型元素为所述剔除数据集的子集；

在本实施例中，需要说明的是，每一所述样本特征均只选取一次作为所述目标特征，所述剔除数据集的每一子集均只选取一次作为所述第一类型元素之一，且若需要进行基于所述待解释模型对各所述样本特征进行全局解释，则所述第一类型元素即为剔除后的所述待解释数据集合，也即，所述第一类型元素即所述剔除数据集。

步骤A12，将所述目标特征加入所述第一类型元素，获得所述第二类型元素之一；

在本实施例中，将所述目标特征加入所述第一类型元素，获得所述第二类型元素之一，具体地，将所述目标特征并入所述目标特征对应的第一类型元素，获得所述第二类型元素之一。

步骤A13，重新在所述样本特征中选取所述目标特征，以获取其他所述第一类型元素和其他所述第二类型元素，直至所述待解释数据中不存在所述目标特征，获得所述模型输入样本集。

在本实施例中，需要说明的是，若一所述样本特征已经被选取过作为所述目标特征，则选取过的所述样本特征不能再作为所述目标特征，且选取过的所述剔除数据集的子集不能再作为所述第一类型元素之一。

重新在所述样本特征中选取所述目标特征，以获取其他所述第一类型元素和其他所述第二类型元素，直至所述待解释数据中不存在所述目标特征，获得所述模型输入样本集，具体地，重复执行所述步骤A11至步骤A12，直至所述剔除数据集中无法再选取所述第一类型元素和所述第二类型元素，获得所述模型输入样本集。

步骤A20，分别将所述模型输入样本集中各元素输入所述待解释模型，获得模型输出结果集合，并基于所述模型输出结果集合，获取所述待解释数据中各样本特征对应的标注标签期望值；

在本实施例中，需要说明的是，所述待解释数据包括一个或者多个待解释样本，所述待解释样本包括一个或者多个样本特征，且在每一待解释样本中，每一所述样本特征对应一样本特征值。

分别将所述模型输入样本集中各元素输入所述待解释模型，获得模型输出结果集合，并基于所述模型输出结果集合，获取所述待解释数据中各样本特征对应的标注标签期望值，具体地，分别将所述模型输入样本集中各元素输入所述待解释模型，以对所述待解释数据执行模型预测，获得所述待解释模型在所述模型输入样本集中各元素上的输出结果，获得所述模型输出结果集合，其中，所述模型输出结果包括将所述待解释数据全部输入所述待解释模型的整体输出结果，进而基于所述整体输出结果，计算所述模型输出结果的期望，获得所述标注标签期望值，例如，假设所述待解释数据包括10000 个模型输入值，其中，9999个模型输入值对应的模型输出值为1，剩下一个模型输入值对应的模型输出值为0，则所述标注标签期望值为0.9999。

步骤A30，基于所述模型输出结果集合，通过预设边际效益期望计算公式，并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端计算所述待解释数据对应的SHAP结果，并将所述SHAP结果进行展示。

在本实施例中，所述模型输出结果集合包括输出结果元素，一所述输出结果元素包括一第一类型输出结果元素和一第二类型输出结果元素，其中，所述第一类型输出结果元素为所述第一类型元素对应的模型输出结果，所述第二类型输出结果元素为所述第二类型元素对应的模型输出结果，其中，所述第二类型元素由对应的所述第一类型元素并上所述目标特征而获得。

基于所述模型输出结果集合，通过预设边际效益期望计算公式，并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端计算所述待解释数据对应的SHAP结果，并将所述SHAP结果进行展示，具体地，分别将所述模型输出结果集合中的的输出结果元素代入所述预设边际效益期望计算公式，以并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端基于所述标注标签期望值和各所述边际效益期望，通过预设SHAP结果计算公式计算各所述样本特征对应的SHAP结果，并将所述SHAP结果转化为可视化数据，并将所述可视化数据在预设可视化界面上进行展示，其中，所述可视化数据包括模型散点图、折线图等。

本实施例通过接收与所述执行端关联的驱动端发送的待解释数据和待解释模型，并在所述待解释数据中选取模型输入样本集，进而分别将所述模型输入样本集中各元素输入所述待解释模型，获得模型输出结果集合，并基于所述模型输出结果集合，获取所述待解释数据中各样本特征对应的标注标签期望值，进而基于所述模型输出结果集合，通过预设边际效益期望计算公式，并行计算各所述样本特征对应的边际效益期望，并将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，以供所述驱动端计算所述待解释数据对应的SHAP结果，并将所述SHAP结果进行展示。也即，本实施例提供了一种并行计算各所述样本特征对应的边际效益期望的方法，也即，在接收所述待解释数据和所述待解释模型后，通过选取所述模型输入样本集，并将所述模型输出样本集输入所述待解释模型，获得模型输出结果集合，进而基于所述模型输出结果，即可计算所述标注标签期望值，并将所述模型输出结果中的各输出结果元素输入预设边际效益期望公式，即可计算各所述样本特征对应的边际效益期望，进而将所述标注标签期望值和各所述边际效益期望反馈至所述驱动端，为所述驱动端计算SHAP结果奠定了基础，进而为所述驱动端进行所述SHAP结果的展示奠定了基础，所以，为解决基于SHAP的模型解释效率低的技术问题奠定了基础。

参照图5，图5是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图5所示，该SHAP特征归因设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该SHAP特征归因设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘 (Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图5中示出的SHAP特征归因设备结构并不构成对SHAP特征归因设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及SHAP特征归因程序。操作系统是管理和控制SHAP特征归因设备硬件和软件资源的程序，支持SHAP特征归因程序以及其它软件和 /或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与SHAP特征归因系统中其它硬件和软件之间通信。

在图5所示的SHAP特征归因设备中，处理器1001用于执行存储器1005 中存储的SHAP特征归因程序，实现上述任一项所述的SHAP特征归因方法的步骤。

本申请SHAP特征归因设备具体实施方式与上述SHAP特征归因方法各实施例基本相同，在此不再赘述。

本申请实施例还提供一种SHAP特征归因装置，所述SHAP特征归因装置应用于驱动端，所述SHAP特征归因装置包括：

可选地，所述接收模块包括：

可选地，所述SHAP特征归因装置还包括：

可选地，所述后处理展示模块包括：

可选地，所述展示单元包括：

可选地，所述范围钳位处理单元包括：

本申请SHAP特征归因装置的具体实施方式与上述SHAP特征归因方法各实施例基本相同，在此不再赘述。

为实现上述目的，本申请实施例还提供一种SHAP特征归因装置，所述 SHAP特征归因装置应用于执行端，所述SHAP特征归因装置包括：

可选地，所述接收模块包括：

本申请实施例提供了一种可读存储介质，且所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的SHAP特征归因方法的步骤。

本申请可读存储介质具体实施方式与上述SHAP特征归因方法各实施例基本相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种SHAP特征归因方法，其特征在于，所述SHAP特征归因方法应用于驱动端，所述SHAP特征归因方法包括：

2.如权利要求1所述SHAP特征归因方法，其特征在于，所述待解释数据包括一个或者多个特征，

3.如权利要求1所述SHAP特征归因方法，其特征在于，所述生成各所述边际效益期望对应的输入数据表，并将所述输入数据表和所述标注标签期望值代入预设SHAP结果计算公式，并行计算各所述特征共同对应的所述SHAP结果的步骤之后包括：

4.如权利要求3所述SHAP特征归因方法，其特征在于，所述SHAP结果包括一个或者多个SHAP值，所述后处理包括范围钳位处理和重编排，

所述对各所述样本特征进行后处理，以去除各所述样本特征对应的异常点对所述SHAP结果的干扰作用，并将后处理后的所述样本特征和所述SHAP结果进行展示的步骤包括：

对所述有限范围数据进行所述重编排，以建立各所述样本特征和各所述SHAP值的映射关系，获得待展示数据，并将所述待展示数据进行展示。

5.如权利要求4所述SHAP特征归因方法，其特征在于，所述样本特征包括第一样本特征和第二样本特征，

所述将所述待展示数据进行展示的步骤包括：

6.如权利要求4所述SHAP特征归因方法，其特征在于，所述异常点包括缺失值和离群值，

7.一种SHAP特征归因方法，其特征在于，所述SHAP特征归因方法应用于执行端，所述SHAP特征归因方法包括：

8.如权利要求7所述SHAP特征归因方法，其特征在于，所述待解释数据对应一个或者多个所述样本特征，所述模型输入样本集包括一个或者多个模型输入元素，所述模型输入元素包括一个或者多个第一类型元素和一个或者多个第二类型元素，

9.一种SHAP特征归因设备，其特征在于，所述SHAP特征归因设备包括：存储器、处理器以及存储在存储器上的用于实现所述SHAP特征归因方法的程序，

所述存储器用于存储实现SHAP特征归因方法的程序；

所述处理器用于执行实现所述SHAP特征归因方法的程序，以实现如权利要求1至6或7至8中任一项所述SHAP特征归因方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有实现SHAP特征归因方法的程序，所述实现SHAP特征归因方法的程序被处理器执行以实现如权利要求1至6或7至8中任一项所述SHAP特征归因方法的步骤。