CN115953248B

CN115953248B - 基于沙普利可加性解释的风控方法、装置、设备及介质

Info

Publication number: CN115953248B
Application number: CN202310220105.7A
Authority: CN
Inventors: 宋博文; 姜冠宇; 庄福振; 张天翼
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-16
Anticipated expiration: 2043-03-01
Also published as: CN115953248A

Abstract

本说明书公开了一种基于沙普利可加性解释的风控方法、装置、电子设备及介质。方法包括：获取目标交易业务的原始样本集，并确定出属于强关联的特征组合。基于强关联的特征组合的有效值，构建第一类扰动样本集。基于沙普利可加性解释执行：分别对原始样本集和第一类扰动样本集中的特征进行采样，得到多个采样结果所对应的待解释特征集，第一类扰动样本集对应的至少一种采样结果包含有强关联的特征组合；以及基于每个待解释特征集的准基Shapley值，计算出每个采样得到的特征的SHAP值。根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征。对目标交易业务中符合目标特征的用户执行预设风控决策。

Description

基于沙普利可加性解释的风控方法、装置、设备及介质

技术领域

本文件涉及人工智能技术领域，尤其涉及一种基于沙普利可加性解释的风控方法、装置、电子设备及介质。

背景技术

支付领域中，支付平台上的各类支付产品经常会被黑产恶意利用以开展非法交易。为此，如何准确及时地识别这些类型的风险并进行管控是支付平台十分重要的工作内容。

随着人工智能的发展，机器学习的应用也越来越广泛。基于模型机器执行支付产品的风险管理已成了支付平台主流的风控方式之一。但是模型天然存在黑盒属性，具有不透明、非直观以及难以理解的特点。虽然说训练好的模型能够较为准确地进行风险识别，但技术人员无法直接对模型进行解释，难以通过还原手法的方式在业务侧或者技术侧上进行漏洞补防。

沙普利可加性解释(SHapley Additiveex Planations，SHAP)是目前一种通用的针对模型的解释方法。SHAP具体计算了样本中每个特征对于风险预测的贡献（也称Shapley值），并进一步根据每个特征有无对基准贡献度（比如平均贡献度）造成的影响，来分析其对于风险预测的重要性。

对于支付领域而言，很多特征之间存在着一定的强关联性。这里以交易为示例，一般在体量较大的支付平台中，交易可能在任何时间、任何地点发生，如果单独根据交易时间或交易地点这两个维度特征的有无，来分析对于风险的影响，显然很容易与事实脱节。但如果将交易时间和交易地点相结合进行分析，则更加合理。但SHAP是在特征之间相互独立的假设上完成计算的，这就忽略掉了特征与特征之间的关联性，从而影响了可解释的有效性。

为此，在使用沙普利可加性解释对支付领域的业务进行解释时，如何减少无效特征采样对SHAP值计算造成的影响，从而更加准确挖掘出对风控有价值的特征以用于风控决策，是本申请所要解决的技术问题。

发明内容

本说明书实施例提供了一种可解释性的风控方法、装置、电子设备及介质，可有针对性地对目标交易业务中符合实际意义的强关联特征组合进行侧重采样，从而在一定程度上削弱了未完整包含强关联特征组合的无效采样对SHAP值计算所造成的影响；此外，在SHAP值完成计算后，可以根据SHAP值的大小来衡量特征对于目标交易业务的影响，从而筛选出高价值的目标特征以用于风控决策。

具体地，本说明书实施例是这样实现的：

第一方面，提出了一种基于沙普利可加性解释的风控方法，包括：

获取目标交易业务的原始样本集，并对所述原始样本集的多个特征进行分析，确定出属于强关联的特征组合；

基于所述强关联的特征组合的有效值，构建第一类扰动样本集，所述第一类扰动样本集中的扰动样本不属于所述原始样本集；

基于沙普利可加性解释执行：分别对所述原始样本集和第一类扰动样本集中的特征进行采样，得到多个采样结果所对应的待解释特征集，所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合；以及，基于每个待解释特征集的准基Shapley值，计算出每个采样得到的特征的SHAP值；

根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，其中，特征的SHAP值的大小与该特征对于所述目标交易业务的影响度相关联；

对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。

第二方面，提出了一种基于沙普利可加性解释的风控装置，包括：

原始样本获取模块，获取目标交易业务的原始样本集，并对所述原始样本集的多个特征进行分析，确定出属于强关联的特征组合；

扰动样本构建模块，基于所述强关联的特征组合的有效值，构建第一类扰动样本集，所述第一类扰动样本集中的扰动样本不属于所述原始样本集；

SHAP值计算模块，基于沙普利可加性解释执行：分别对所述原始样本集和第一类扰动样本集中的特征进行采样，得到多个采样结果所对应的待解释特征集，所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合；以及，基于每个待解释特征集的准基Shapley值，计算出每个采样得到的特征的SHAP值；

解释模块，根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，其中，特征的SHAP值的大小与该特征对于所述目标交易业务的影响度相关联；

风控执行模块，对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。

第三方面，提出了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，其中，特征的SHAP值大小与该特征对于所述目标交易业务的影响度相关联；

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

本说明书实施例的方案在利用沙普利可加性解释对目标交易业务的样本集中的特征进行解释。首先，基于先验知识在目标交易业务的原始样本集中分析出属于强关联的特征组合，并针对强关联的特征组合，按照有效值来构建额外的第一扰动样本集。在计算特征SHAP值的过程中，分别对原始样本集和扰动样本集中的特征进行采样；其中，扰动样本集的采样结果主要提供包含有强关联的特征组合，从而提高强关联的特征组合被整体采样的占比，进而在一定程度上削弱了未完整包含强关联的特征组合的无效采样对SHAP值计算所造成的影响。在确定出各采样特征的SHAP值后，进一步根据SHAP值的大小来衡量特征对于目标交易业务的影响度，从而筛选出高价值的目标特征；最终，对目标交易业务中符合目标特征的重点用户执行有针对性的风控决策，可避免黑产恶意利用目标交易业务开展不法活动。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例的基于沙普利可加性解释的风控方法的流程示意图。

图2为本说明书实施例的风控方法对原始样本集进行降维的前后对比示意图。

图3为本说明书实施例的基于沙普利可加性解释的风控装置的结构示意图。

图4为本说明书实施例提供的电子设备的结构示意图。

具体实施方式

为使本文件的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本文件一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

在支付领域中，支付平台上的各类支付产品经常会被黑产恶意利用以开展非法交易。为此，如何准确及时地识别这些类型的风险并进行管控是支付平台十分重要的工作内容。

如前所述，通过模型机器执行支付产品的风险管理已成了支付平台主流的风控方式之一。但是模型天然存在黑盒属性，具有不透明、非直观以及难以理解的特点。虽然说训练好的模型能够较为准确地进行风险识别，但技术人员无法直接对模型进行解释，难以通过还原手法的方式在业务侧或者技术侧上进行漏洞补防。

SHAP是目前一种通用的针对模型的解释方法。SHAP具体计算了样本中每个特征对于风险预测的贡献（也称Shapley值），并进一步根据每个特征有无对平均贡献度造成的影响，来分析其对于风险预测的重要性。

这里，假设有个特征，其中特征对于风险预测的Shapley值（也称Shapleyvalue）为:

如果将个特征的集合定义为feature，则上式中：表示feature的子集；就是第j个特征的Shapley值；是价值函数。

在实际计算中，是通过估计方式获得shapley 值的，具体流程如下：

一、列出所有子集，在计算某一子集上 shapley 值时：

首先，固定中的feature的值，固定的feature 值，其他feature通过在数据集中多次随机抽样填充形成多个拼接样本。用模型对这些合成样本进行预测获得预测结果。计算预测结果的平均值作为（即除和外其他feature都是平均值）；

之后，固定这中的feature的值，连和其他feature一同做随机抽样替换，并计算预测值平均值（即目标feature也计算平均值，就是 w/o(without)该feature的情况）;

接下来两值相减，得到目标feature在子集S上的贡献值；

二、计算所有子集上目标feature的贡献值，并做加权和，得到feature的贡献值；

为方便理解，这里假设总共有四个特征，对应集合feature为：{特征1，特征2，特征3，特征4}。基于上式的原理，在计算特征1的Shapley value时，需要在{特征1，特征2，特征3，特征4}这个集合中，对所有包含特征1的子集与所有不包含特征1的子集进行贡献比较。其中，不包含特征1的子集是将特征1的取值以一个随机值或背景值进行替代。

在SHAP中，所有样本的数据被定义Background Date。SHAP会多次从BackgroundDate中随机挑选样本集，再对挑选出的样本集进行特征的随机采样。即，每次挑选的样本集都会对应有一个采样得到的特征子集。SHAP会对所有采样的特征子集，计算出相对应的基准Shapley值，然后针对每个特征子集，构建其各个特征加权求和与其基准Shapley值的数学关系，并利用所有特征子集与对应的准基Shapley值之间的线性回归关系，训练每个具体特征子集中各个特征在加权求和是所对应的权重，该权重即SHAP值。

从上述SHAP的流程可以看出，需要对集合feature中每个可能的子集进行采样。当feature集合中的特征逐渐增加，特征采样的空间呈指数级增长。

对于支付领域，执行风控策略需要考量非常多的特征维度，比如交易时间、交易地点、交易终端、用户画像等，这就导致在基于SHAP进行模型解释过程中，特征采样的空间过于庞大。而很多特征是需要与其他特征组合后才能提现出实际意义的。但就目前SHAP的特征采样方式相当于是对各个特征进行了相互独立的假设，这就导致一些子集只包含了强关联的部分特征，属于无效采样，这对于模型解释的准确性造成了负面影响。

比如，在集合{特征1，特征2，特征3，特征4}中，特征1需要与特征2存在强关联，在计算特征1的Shapley value时，对于包含特征1的子集可以有：{特征1 }、{特征1，特征3 }、{特征1，特征3，特征4}……{特征1，特征2，特征4}等。其中像{特征1 }、{特征1，特征3 }和{特征1，特征3，特征4}这类将特征2排除在外的子集，属于无效采样。

有鉴于此，本说明书旨在提出一种基于沙普利可加性解释的风控方案，可有针对性地侧重对目标交易业务中符合实际意义的特征进行采样，从而减少大量无效采样对可解释模型产出的影响。

一方面，本说明书一个实施例提供一种基于沙普利可加性解释的风控方法。其中，图1是数据传输方法流程示意图，具体包括如下步骤：

S102，获取目标交易业务的原始样本集，并对原始样本集的多个特征进行分析，确定出属于强关联的特征组合。

本说明书中，所述目标交易业务可以为支付平台中某个支付产品的业务，这里本文不作具体限定。其中，原始样本集可以从支付平台的历史样本中获取得到。对于本说明书的方案而言，原始样本集已被定性为某一类型的风险，通过对原始样本集中的特征进行解释，可以确定出哪些特征对于该风险具有较高的价值。后续支付平台可以针对这些高价值的特征，开展相应的风控策略。

具体地，本说明书将需要组合后才能体现分析意义的至少两个特征定义为强关联的特征组合。

比如说，在目标交易业务的原始样本中包含有“交易货币类型”的特征的情况下，由于单独“交易货币类型”体现不出什么有价值信息，因此需要与“交易金额”的特征相结合，即“交易货币类型”的特征与“交易金额”的特征形成强关联的特征组合。

再比如说，假设需要对市级的目标交易业务开展风控，如果目标交易业务的原始样本中包含有“省”的特征，对于举例的风控需求而言，“省”的特征应与“市”的特征形成强关联的特征组合。

在实际应用中，强关联的特征组合属于预先设置好的先验知识，本步骤可以基于该先验知识配置为机器语言，由机器根据先验知识，从原始样本集中尝试找到可能存在的强关联的特征组合。

S104，基于强关联的特征组合的有效值，构建第一类扰动样本集，第一类扰动样本集中的扰动样本不属于原始样本集。

本说明书中，配置第一类扰动样本集的目的是用于扰动样本的特征采样，以侧重对强关联的特征组合进行完整采样。

具体地，第一类扰动样本集应符合原始样本集的经验分布。有效值的强关联的特征组合应符合实际情况，比如说“省”的特征和“市”的特征形成强关联后，构建得到的扰动样本不会出现“山东省-沈阳市”这种与实际情况相悖的特征组合。

需要说明的是，在实际应用中，第一类扰动样本集可以从目标交易业务的其他历史样本补充得到，或者也可以是通过数据增强的方式合成得到，这里本文不作具体限定。

S106，基于沙普利可加性解释执行：分别对原始样本集和第一类扰动样本集中的特征进行采样，得到多个采样结果所对应的待解释特征集，第一类扰动样本集对应的至少一种采样结果包含有强关联的特征组合；以及，基于每个待解释特征集的准基Shapley值，计算出每个采样得到的特征的SHAP值。

应理解，本说明书在对原始样本集基础上，还引入了对第一类扰动样本集采样，因此可提高强关联的特征组合被整体采样的占比，从而在一定程度上削弱未包含完整的强关联的特征组合的采样结果对模型解释所造成的影响。

在实际应用中，可以针对扰动样本中的每个特征配置一个采样权重（原始样本也设置采样权重，这里不再举例赘述）。一个特征的采样权重越大，则被采样的概率也越大，对于属于强关联的特征组合的每个特征，其采样权重应设置为相对较高的水准，比如大于不具有强关联的其他特征。这一样来，可以提高从扰动样本中完整采样出强关联的特征组合的概率。

在采样完成后，基于上文所述的SHAP介绍，本步骤可以根据每个待解释特征集与对应的准基Shapley值之间的线性回归关系，来训练得到每个采样特征的SHAP值。在线性回归关系中，每个待解释特征集针对准基Shapley值的权重是基于该待解释特征集中的每个采样特征的SHAP值所确定得到的。

下面对计算SHAP值的过程进行示例性介绍：

如前所述，SHAP值即权重值。在下，设置预测函数，为的预测值均值，使用带权重的线性回归关系来近似：

其中，是的二进制矩阵，表示所有包含/排除M特征的可能组合；是的对角矩阵；是沙普利核权重，，用于反映特征采样的概率，以实现对采样的控制。

此外，上述价值函数可近似为：

其中，；表示的补集，是给定时的条件分布，用于计算精确的值；表示扰动样本

对于本说明书实施例的方案而言，通过训练预测函数中的经验分布，即可确定出各个特征的值，即。

S108，根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，其中，特征的SHAP值大小与该特征对于目标交易业务的影响度相关联。

如前所述，由于原始样本集已被定性为某一类型的风险，因此在围绕原始样本集中的特征计算SHAP值后，通过SHAP值筛选出的目标特征对于该风险的预测具有较高的价值，相当于是解释了目标特征是该风险的用户所特有的画像信息。

S110，对目标交易业务中符合目标特征的用户执行预设风控决策。

作为示例性介绍，假设本说明书中的原始样本集的样本为目标交易业务中已确定为非法交易行为的样本，原始样本集的多个特征包含有属于用户交易操作的时序特征。对应地，基于SHAP值所筛选出目标特征则可以属于非法交易用户所特有的行为特征。

在确定目标特征后，即可根据目标交易业务的历史样本，找到所有符合目标特征的用户。这些用户均为潜在的非法交易用户，为此添加至灰名单中进行重点监控。或者，如果已经设置有灰名单，则可以对找到的符合目标特征的用户，对现有的灰名单进行补充。

之后，当监控出灰名单中的用户触发目标交易业务的交易事件时，可以对该交易事件进行非法交易相关的风险识别；如果交易事件的风险识别结果指示具有非法交易风险，则可以对交易事件进行拦截。

基于上述内容可知，本说明书实施例的方法在利用沙普利可加性解释对目标交易业务的样本集中的特征进行解释。首先，基于先验知识在目标交易业务的原始样本集中分析出属于强关联的特征组合，并针对强关联的特征组合，按照有效值来构建额外的第一扰动样本集。在计算特征SHAP值的过程中，分别对原始样本集和扰动样本集中的特征进行采样；其中，扰动样本集的采样结果主要提供包含有强关联的特征组合，从而提高强关联的特征组合被整体采样的占比，进而在一定程度上削弱了未完整包含强关联的特征组合的无效采样对SHAP值计算所造成的影响。在确定出各采样特征的SHAP值后，进一步根据SHAP值的大小来衡量特征对于目标交易业务的影响度，从而筛选出高价值的目标特征；最终，对目标交易业务中符合目标特征的重点用户执行有针对性的风控决策，可避免黑产恶意利用目标交易业务开展不法活动。

此外如前所述，在SHAP中，未被采样选取的特征其实是以一个背景值来代替实际值作为采样结果。当一个特征以背景值作为SHAP值计算的输入时，不会对计算造成实质的影响。显然，若要提高解释效果，除了增加强关联的特征组合被整体采样的占比外，还可以尽量对未完整包含强关联的特征组合的采样进行算力无效化。

这里，本说明书可以基于强关联的特征组合的无效值，构建第二类扰动样本集（第二类扰动样本集中的扰动样本不属于所述原始样本集）。其中，无效值作为特征在沙普利可加性解释方中被舍弃采样时所替换的背景值。

比如，背景值为0，原本样本采用得到的特征1、特征2、特征3和特征4，其中，特征2与特征3强关联，对应的采样结果难免会出现{特征1，特征2，特征4}、{特征1，特征2，特征3}这类将特征2与特征3分割的子集，这些子集一旦作为SHAP值计算的输入，或多或少都会造成一定的负面影响。为了消除这种影响，可以构建特征2和特征3取值为0的扰动样本。在扰动样本对应的采样结果中，如果出现了{特征1，特征2，特征4}这类将特征2与特征3分割的子集，但特征2采用的是背景值，在实际算力上{特征1，特征2，特征4}与{特征1，特征4}一致，在后续训练中，也相当于变相越弱了无效采样的影响。

此外，对于支付领域，考量风险的特征包含有时序特征。在计算SHAP值时，如果将时间维度也考虑进去，则会导致需要准备出不同时间维度的原始样本，而原始样本数量增加，也会使特征的增加。在SHAP中，特征的增加会使采样空间呈指数增长，导致SHAP值计算耗时过长。

针对这一问题，本说明书实施例可以进一步引入事件窗口的概念。即沿着时间维度做事件窗口化，构建出不同时间粒度的事件窗口，其中每个事件窗口之间相互独立。

在获取目标交易业务的原始样本集时，具体针对多种事件窗口来构建原始样本集。相当于是将原先的原始样本集按照各事件窗口进行分割，得到每种事件窗口所对应的新的原始样本集（不同事件窗口的原始样本互不相同）。新的原始样本集对于原先的原始样本集相当于是时间维度的降维。在特征数量增加而导致采样空间呈指数增加的关系上，由于每个事件窗口对应的原始样本在时间维度上进行降维，使得可提取的特征得到了减少，这极少可大幅减少SHAP值的计算耗时。

简单举例介绍，假设原先的原始样本集中有1000个样本。在引入3种事件窗口后，原先的原始样本被分为3份。假设事件窗口1的原始样本集分走200个样本，事件窗口2有的原始样本集分走300个样本，事件窗口3有500个样本。即便是以串行的方式对事件窗口1、事件窗口2和事件窗口3执行SHAP值计算，即先对事件窗口1的200个样本执行SHAP值计算，完成后再对事件窗口2的300个样本执行SHAP值计算，再完成后开始对事件窗口3的500个样本执行SHAP值计算，其总耗时也要小于直接对1000个样本执行SHAP值计算。

下面结合一个实际应用场景，对本说明书实施例的方法进行详细介绍。

本应用场景用于对非法交易行为进行风险管理。其中，目标交易业务属于支付平台开设的某一支付产品。

这里，假设支付平台已经训练用于识别非法交易行为的风控模型，但技术人员希望能够对风控模型的手法进行更深刻理解，则可以从风控模型以往识别出的目标交易业务的非法交易样本进行模型解释。其中，非法交易样本包含有属于用户交易操作的时序特征、以及一些常规的电子支付的交易特征，比如交易时间、交易金额以及交易位置等。

其中模型解释的具体流程如2所示，包括：

阶段一，基于先验知识对特征进行预分类

本阶段可以从风控模型以往识别出的目标交易业务的非法交易样本中选取一部分作为原始样本集。之后，基于多种风控需求相关的语义维度，如上述所介绍的交易时间、交易金额和交易位置，以及其他的如交易结果是否成功等，对原始样本集中的多个特征进行预分类。

对应分类结果如下：

1）交易时间分类：'hour_x', 'hour_y', 'day_of_week_x', 'day_of_week_y'

2）交易金额分类：'amt', 'amt_loss', 'amt_near_10x', 'amt_near_100x'

3）交易位置分类：cert_prov', 'cert_city','lbs_prov', 'ip_prov', 'user_card_prov', 'oppo_card_prov'

4）交易成功分类：fail_cause，trd_succ_status

5）暂未分类特征：'event_name', 'event_category', 'trade_type', 'logistics_type', 'businesscode', 'prod_type','pay_scene', 'trade_scene', 'fund_channel'，'user_bank_code'。

这里，无需考虑具体特征的含义，每种分类都对应有一个语义，即分类的组内特征所共同描述一种语义的信息。

应理解，基于先验知识对特征进行预分类，可从语义的维度上压缩采样空间，比如原先的特征有M个，经预分类后可压缩成M'个分类组的特征。

阶段二，基于先验知识（强关联的特征组合）引导的扰动样本采样

以某次可能的采样结果为例，假设amt和amt_near_10x属于强关联的特征组合。如果每个采样结果中amt特征被舍弃，但amt_near_10x被选中，则在将该采样结果到输入的映射时，amt特征会被替换为背景值，而amt_near_10x特征使用原始样本中对应的实际值，这种样本属于无实际意义的输入。

为此，需要在特征分类的基础上，向SHAP的采样过程引入先验知识，构造有意义，符合实际场景的扰动样本。在特征分类后，需要考虑在采样时，如何基于采样得到的特征子集，构造扰动样本,消除未被采样到的特征子集对模型的影响，同时使扰动样本有意义（即服从真实数据集下的经验分布）。

这里，可以采用构建两种类型的扰动样本集。

一种即上文所述第一类扰动样本集，第一类扰动样本集的扰动样本是根据强关联的特征组合的有效值构建的得到。避免强关联的特征组合中的一部分特征出现在特征子集，另一部分出现在特征子集中。

另一种即上文所述第二类扰动样本集，第二类扰动样本集的扰动样本是基于同一分类下的所述强关联的特征组合的无效值，构建第二类扰动样本集。比如：（amt=0, amt_loss=0, amt_near_10x=0, amt_near_100x=0），避免强关联中部分特征在被采用后所造成的影响。

阶段三，事件窗口分级

本阶段，从时间维度上做降维，采用多阶段式的计算，按照时间粒度逐渐由粗到细的多种事件窗口对原始样本集进行划分。

其中，每个事件窗口之间的原始样本不重合，即事件窗口与事件窗口之间相互独立。

同理，基于事件窗口分级进行预分类，可从时间的维度上压缩采样空间，比如原先样本有T个，经预分类后可压缩成T'个分类组的特征。此外，每个事件窗口的时间粒度并不相同，可以尝试从不同时间粒度进行解释，以找到确定最适合目标交易业务的事件窗口。

参考图2所示，在阶段三结束后，原先的原始样本集的采样空间矩阵由M×T被压缩至M’×T’。

阶段四，SHAP值计算

本阶段针对图2中每个事件窗口，随机抽取多种原始样本以构建每个事件窗口的原始样本集。之后，在每个事件窗口的原始样本集基础之上，结合前文构建的扰动样本，来抽取特征以用于SHAP值计算。

阶段五，筛选对于属于非法交易用户特有的目标特征

在计算SHAP值后，可以总结出每个事件窗口的各个特征的平均SHAP值（也可以是中位SHAP值）。显然，事件窗口的平均SHAP值越高，则说明该事件窗口的原始样本的时序特征越贴近于非法交易用户的行为习惯，因此可以按照SHAP值由大到小的优先级顺序，从多种事件窗口中选取预设数量的目标事件窗口。比如，选取平均SHAP值最高一个事件窗口作为目标事件窗口。

之后再进一步根据具体特征的SHAP值由大到小的优先级顺序，从目标事件窗口对应的采样特征中选取出对目标交易业务影响度达到预设标准的目标特征。

应理解，选取出的目标特征属于非法交易用户所特有的特征，在用于识别非法交易行为具有极高的参考价值。

阶段六，执行针对非法交易的风险管控。

本阶段在确定目标特征属于非法交易用户所特有的情况下，可以根据支付平台针对目标交易业务历史的样本中，找到符合该目标特征的用户，也就是对潜在参与非法交易的用户进行追溯，之后将这些用户添加至灰名单中，相当于是对灰名单进行了补漏。

其中，灰名单的用户是可能涉及非法交易的用户，因此不对该类用户进行全面的封禁，依然允许其正常交易，但进行重点监控。

即，每当监控出灰名单中的用户触发目标交易业务的交易事件时，比如发起新的交易事件，可以对该交易事件进行针对非法交易相关的风险识别。如果交易事件的风险识别结果指示具有非法交易风险，则可以对交易事件进行拦截。

综上所述，本应用场景在对特征预分类的基础上，进一步在SHAP链路中引入基于先验知识的采样，构造有计算意义且符合实际场景的扰动样本，并通过不同时间粒度的事件窗口进行多阶段式的SHAP值计算，从而在解释效果较优的事件窗口中，进一步在确定出对于非法交易风控具有较高价值的特征。

另一方面，本说明书一个实施例还提供一种基于沙普利可加性解释的风控装置。其中，图3是风控装置的300的结构示意图，包括：

原始样本获取模块310，获取目标交易业务的原始样本集，并对所述原始样本集的多个特征进行分析，确定出属于强关联的特征组合。

扰动样本构建模块320，基于所述强关联的特征组合的有效值，构建第一类扰动样本集，所述第一类扰动样本集中的扰动样本不属于所述原始样本集。

SHAP值计算模块330，基于沙普利可加性解释执行：分别对所述原始样本集和第一类扰动样本集中的特征进行采样，得到多个采样结果所对应的待解释特征集，所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合；以及，基于每个待解释特征集的准基Shapley值，计算出每个采样得到的特征的SHAP值。

解释模块340，根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，其中，特征的SHAP值的大小与该特征对于所述目标交易业务的影响度相关联。

风控执行模块350，对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。

本说明书实施例的装置在利用沙普利可加性解释对目标交易业务的样本集中的特征进行解释。首先，基于先验知识在目标交易业务的原始样本集中分析出属于强关联的特征组合，并针对强关联的特征组合，按照有效值来构建额外的第一扰动样本集。在计算特征SHAP值的过程中，分别对原始样本集和扰动样本集中的特征进行采样；其中，扰动样本集的采样结果主要提供包含有强关联的特征组合，从而提高强关联的特征组合被整体采样的占比，进而在一定程度上削弱了未完整包含强关联的特征组合的无效采样对SHAP值计算所造成的影响。在确定出各采样特征的SHAP值后，进一步根据SHAP值的大小来衡量特征对于目标交易业务的影响度，从而筛选出高价值的目标特征；最终，对目标交易业务中符合目标特征的重点用户执行有针对性的风控决策，可避免黑产恶意利用目标交易业务开展不法活动。

可选地，所述扰动样本构建模块320还用于：基于所述强关联的特征组合的无效值，构建第二类扰动样本集，所述第二类扰动样本集中的扰动样本不属于所述原始样本集，所述无效值作为特征在所述沙普利可加性解释方中被舍弃采样时所替换的背景值。

其中，SHAP值计算模块330分别对所述原始样本集和所述第一类扰动样本集中的特征进行采样，得到待解释特征集，包括：分别对所述原始样本集、所述第一类扰动样本集和所述第二类扰动样本集的特征进行采样，得到待解释特征集，其中，所述第二类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合。

可选地，扰动样本构建模块320还用于：基于多种风控需求相关的语义维度，对所述原始样本集中的多个特征进行分类；其中，扰动样本构建模块320在基于所述强关联的特征组合的无效值，构建第二类扰动样本集，包括：基于同一分类下的所述强关联的特征组合的无效值，构建第二类扰动样本集。

可选地，所述多种风控需求相关的语义维度包括以下至少一者：

交易时间的语义维度、交易金额的语义维度以及交易位置的语义维度。

可选地，原始样本获取模块310获取目标交易业务的原始样本集，包括：获取目标交易业务对应多种事件窗口下的原始样本集，其中，不同事件窗口对应有不同的时间粒度，且不同事件窗口的原始样本互不相同；根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，包括：基于每种事件窗口对应的待解释特征集的平均SHAP值由大到小的优先级顺序，从所述多种事件窗口中选取预设数量的目标事件窗口；根据SHAP值，从所述目标事件窗口对应的采样特征中选取出对目标交易业务影响度达到预设标准的目标特征。

可选地，所述原始样本集的样本为所述目标交易业务中已确定为非法交易行为的样本，所述原始样本集的多个特征包含有属于用户交易操作的时序特征；风控执行模块350对目标交易业务中符合所述目标特征的用户执行预设风控决策，包括：基于所述目标交易业务的历史样本，确定出符合所述目标特征的用户，并将确定出的用户添加至灰名单中；对所述灰名单中的用户进行监控，并在监控出所述灰名单中的用户触发所述目标交易业务的交易事件时，对该交易事件进行风险识别；以及，在所述交易事件的风险识别结果指示具有风险时，对所述交易事件进行拦截。

可选地，解释模块340基于每个待解释特征集的Shapley准基值，计算出每个采样得到的特征的SHAP值，包括：基于每个待解释特征集与对应的准基Shapley值之间的线性回归关系，训练得到每个采样特征的SHAP值，其中，所述线性回归关系中，每个待解释特征集针对准基Shapley值的权重是基于该待解释特征集中的每个采样特征的SHAP值所确定得到的。

应理解，本说明书实施例的装置可作为图1所示方法的执行主体，因此能够实现图1所示方法的步骤和功能。

图4是本说明书的一个实施例提供的电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器（non-volatile memory），例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构）总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

其中，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上述基于沙普利可加性解释的风控装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取目标交易业务的原始样本集，并对所述原始样本集的多个特征进行分析，确定出属于强关联的特征组合。

基于所述强关联的特征组合的有效值，构建第一类扰动样本集，所述第一类扰动样本集中的扰动样本不属于所述原始样本集。

基于沙普利可加性解释执行：分别对所述原始样本集和第一类扰动样本集中的特征进行采样，得到多个采样结果所对应的待解释特征集，所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合；以及，基于每个待解释特征集的准基Shapley值，计算出每个采样得到的特征的SHAP值。

本说明书实施例的电子设备利用沙普利可加性解释对目标交易业务的样本集中的特征进行解释。首先，基于先验知识在目标交易业务的原始样本集中分析出属于强关联的特征组合，并针对强关联的特征组合，按照有效值来构建额外的第一扰动样本集。在计算特征SHAP值的过程中，分别对原始样本集和扰动样本集中的特征进行采样；其中，扰动样本集的采样结果主要提供包含有强关联的特征组合，从而提高强关联的特征组合被整体采样的占比，进而在一定程度上削弱了未完整包含强关联的特征组合的无效采样对SHAP值计算所造成的影响。在确定出各采样特征的SHAP值后，进一步根据SHAP值的大小来衡量特征对于目标交易业务的影响度，从而筛选出高价值的目标特征；最终，对目标交易业务中符合目标特征的重点用户执行有针对性的风控决策，可避免黑产恶意利用目标交易业务开展不法活动。

上述如本说明书图1所示实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

此外，本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序。其中，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于沙普利可加性解释的风控方法，包括：

获取目标交易业务的原始样本集，并对所述原始样本集的多个特征进行分析，确定出属于强关联的特征组合，所述强关联的特征组合由相互组合后才具有解释意义的至少两个特征组成；

2.根据权利要求1所述的方法，还包括：

基于所述强关联的特征组合的无效值，构建第二类扰动样本集，所述第二类扰动样本集中的扰动样本不属于所述原始样本集，所述无效值作为特征在所述沙普利可加性解释方中被舍弃采样时所替换的背景值；

分别对所述原始样本集和所述第一类扰动样本集中的特征进行采样，得到待解释特征集，包括：

分别对所述原始样本集、所述第一类扰动样本集和所述第二类扰动样本集的特征进行采样，得到待解释特征集，其中，所述第二类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合。

3.根据权利要求2所述的方法，还包括：

基于多种风控需求相关的语义维度，对所述原始样本集中的多个特征进行分类；

基于所述强关联的特征组合的无效值，构建第二类扰动样本集，包括：

基于同一分类下的所述强关联的特征组合的无效值，构建第二类扰动样本集。

4.根据权利要求3所述的方法，还包括：

所述多种风控需求相关的语义维度包括以下至少一者：

5.根据权利要求1所述的方法，

获取目标交易业务的原始样本集，包括：

获取目标交易业务对应多种事件窗口下的原始样本集，其中，不同事件窗口对应有不同的时间粒度，且不同事件窗口的原始样本互不相同；

根据SHAP值，从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征，包括：

基于每种事件窗口对应的待解释特征集的平均SHAP值由大到小的优先级顺序，从所述多种事件窗口中选取预设数量的目标事件窗口；

根据SHAP值，从所述目标事件窗口对应的采样特征中选取出对目标交易业务影响度达到预设标准的目标特征。

6.根据权利要求1所述的方法，

所述原始样本集的样本为所述目标交易业务中已确定为非法交易行为的样本，所述原始样本集的多个特征包含有属于用户交易操作的时序特征；

对目标交易业务中符合所述目标特征的用户执行预设风控决策，包括：

基于所述目标交易业务的历史样本，确定出符合所述目标特征的用户，并将确定出的用户添加至灰名单中；

对所述灰名单中的用户进行监控，并在监控出所述灰名单中的用户触发所述目标交易业务的交易事件时，对该交易事件进行风险识别；以及，

在所述交易事件的风险识别结果指示具有风险时，对所述交易事件进行拦截。

7.根据权利要求1至6任一项所述的方法，

基于每个待解释特征集的Shapley准基值，计算出每个采样得到的特征的SHAP值，包括：

基于每个待解释特征集与对应的准基Shapley值之间的线性回归关系，训练得到每个采样特征的SHAP值，其中，所述线性回归关系中，每个待解释特征集针对准基Shapley值的权重是基于该待解释特征集中的每个采样特征的SHAP值所确定得到的。

8.一种基于沙普利可加性解释的风控装置，包括：

原始样本获取模块，获取目标交易业务的原始样本集，并对所述原始样本集的多个特征进行分析，确定出属于强关联的特征组合，所述强关联的特征组合由相互组合后才具有解释意义的至少两个特征组成；

9.一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下操作：