CN111311030A

CN111311030A - 基于影响因素检测的用户信用风险预测方法及装置

Info

Publication number: CN111311030A
Application number: CN202010228125.5A
Authority: CN
Inventors: 李瑾瑜; 宋虎; 沈晓敏; 刘丹丹
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-06-19
Anticipated expiration: 2040-03-27
Also published as: CN111311030B

Abstract

本申请提供了一种基于影响因素检测的用户信用风险预测方法及装置，该方法包括：根据预获取的目标特征变量清单和该目标特征变量清单中的各个目标特征变量各自对应的影响程度参数范围，获得目标用户分别针对各个所述目标特征变量的目标特征变量值和各个所述目标特征变量值各自对应的影响程度参数值，其中，各个所述目标特征变量分别用于表示不同的用户特征；基于各个所述目标特征变量值和各自对应的影响程度参数值，应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。本申请能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性。

Description

基于影响因素检测的用户信用风险预测方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于影响因素检测的用户信用风险预测方法及装置。

背景技术

风险分析人员和风险管控人员在运用信用风险模型预测风险客体对象的信用风险时，不仅要求模型预测准确，更加关注该客体的风险成因，以助于找到对风险成因，采用相应有效的措施，进一步优化信用风险模型；同时也需要能够从单个客体和模型中归纳提炼出共性的信息，提升整体风险防控能力。

机器学习模型大多为黑盒模型，无法直接通过模型本身的参数信息得知模型的特征变量对风险预测结果的影响程度和影响方向；这在一定程度上影响了模型的应用效果。虽然有一些模型可解释性的方法，可以分析模型单个特征变量对预测结果的影响；但是一般机器学习模型的特征变量数量众多，逐个分析效率低，也不容易把握重点。

因此需要从信用风险的角度，搜寻有业务价值的特征变量、检测对风险成因的影响性，以提高用户信用风险预测效果并及时生成风险应对策略。

发明内容

针对现有技术中的问题，本申请提出了一种基于影响因素检测的用户信用风险预测方法及装置，能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种基于影响因素检测的用户信用风险预测方法，包括：

根据预获取的目标特征变量清单和该目标特征变量清单中的各个目标特征变量各自对应的影响程度参数范围，获得目标用户分别针对各个所述目标特征变量的目标特征变量值和各个所述目标特征变量值各自对应的影响程度参数值，其中，各个所述目标特征变量分别用于表示不同的用户特征；

基于各个所述目标特征变量值和各自对应的影响程度参数值，应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。

进一步地，在所述应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果之前，还包括：获取所述目标特征变量清单对应的多个历史特征变量值组、各个历史特征变量值组各自对应的信用标签以及所述历史特征变量值组中的各个历史特征变量值分别对应的影响程度参数值；应用所述历史特征变量值组、信用标签以及影响程度参数值对所述用户信用风险预测模型进行训练，以使训练后的用户信用风险预测模型输出的信用风险预测结果误差小于第一误差阈值。

进一步地，所述的基于影响因素检测的用户信用风险预测方法，还包括：获取由多个历史用户的用户特征数据组成的样本数据集，其中，所述样本数据集中的各个样本分别由唯一对应的历史用户的用户特征数据组成，每个样本均对应有信用标签，且每个样本均对应相同的待筛选特征变量组，该待筛选特征变量组包含有多个待筛选特征变量；基于所述样本数据集和待筛选特征变量，应用预设的全局代理模型对待筛选特征变量得到第一特征变量清单，应用特征重要性分析算法得到第二特征变量清单，以及应用决策键规则得到第三特征变量清单；根据所述第一特征变量清单、第二特征变量清单和第三特征变量清单生成所述目标特征变量清单。

进一步地，所述的基于影响因素检测的用户信用风险预测方法还包括：应用所述样本数据集对所述全局代理模型进行训练，以使训练后的全局代理模型输出的预测结果误差小于对应的第二误差阈值；其中，所述全局代理模型为逻辑回归模型和/或决策树模型。

进一步地，所述应用预设的全局代理模型得到第一特征变量清单，包括：若所述全局代理模型为逻辑回归模型，则确定所述样本数据集中包含信用可靠用户标签的样本个数与剩余样本个数之间的样本个数比值；根据预设的特征变量值移动位数、各个所述待筛选特征变量在所述逻辑回归模型中对应的权重和所述样本个数比值，确定各个所述待筛选特征变量的第一重要性程度值；将第一重要性程度值大于第一重要性阈值的待筛选特征变量组合成第一特征变量清单。

进一步地，所述应用特征重要性分析算法得到第二特征变量清单，包括：生成所述样本数据集对应的特征变量矩阵和各个所述待筛选特征变量各自对应的置换特征变量矩阵；根据所述特征变量矩阵和置换特征变量矩阵，获得各个所述待筛选特征变量的第二重要性程度值；将第二重要性程度值大于第二重要性阈值的待筛选特征变量组合成第二特征变量清单。

进一步地，所述应用决策键规则得到第三特征变量清单包括：基于所述样本数据集和One-Rule算法，确定各个所述待筛选特征变量的误差值；将所述误差值小于第三误差阈值的待筛选特征变量组合成第三特征变量清单。

进一步地，所述的基于影响因素检测的用户信用风险预测方法，还包括：对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围。

进一步地，所述对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围，包括：应用预设的宏观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，并根据影响因素检测的结果确定各个所述目标特征变量各自对应的影响程度参数范围。

进一步地，所述对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围，包括：应用预设的微观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，并根据影响因素检测的结果确定各个所述目标特征变量各自对应的影响程度参数范围。

进一步地，所述应用预设的宏观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，包括：获取所述目标特征变量清单对应的多个历史特征变量值组，并应用所述预设的宏观检测模型和历史特征变量值组，生成各个所述目标特征变量各自对应的PDP图和ICE图。

进一步地，所述应用预设的微观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，包括：应用函数逼近算法、Shapley值分析算法和累计局部效应算法中的至少一种算法，对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测。

第二方面，本申请提供一种基于影响因素检测的用户信用风险预测装置，包括：

获取目标特征变量值模块，用于根据预获取的目标特征变量清单和该目标特征变量清单中的各个目标特征变量各自对应的影响程度参数范围，获得目标用户分别针对各个所述目标特征变量的目标特征变量值和各个所述目标特征变量值各自对应的影响程度参数值，其中，各个所述目标特征变量分别用于表示不同的用户特征；

信用风险预测模块，用于基于各个所述目标特征变量值和各自对应的影响程度参数值，应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。

进一步地，所述的基于影响因素检测的用户信用风险预测装置还包括：获取历史数据模块，用于获取由多个历史用户的用户特征数据组成的样本数据集，其中，所述样本数据集中的各个样本分别由唯一对应的历史用户的用户特征数据组成，每个样本均对应有信用标签，且每个样本均对应相同的待筛选特征变量组，该待筛选特征变量组包含有多个待筛选特征变量；过滤模块，用于基于所述样本数据集和待筛选特征变量，应用预设的全局代理模型对待筛选特征变量得到第一特征变量清单，应用特征重要性分析算法得到第二特征变量清单，以及应用决策键规则得到第三特征变量清单；生成目标特征变量清单模块，用于根据所述第一特征变量清单、第二特征变量清单和第三特征变量清单生成所述目标特征变量清单。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于影响因素检测的用户信用风险预测方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的基于影响因素检测的用户信用风险预测方法。

由上述技术方案可知，本申请提供一种基于影响因素检测的用户信用风险预测方法及装置。其中，该方法包括：根据预获取的目标特征变量清单和该目标特征变量清单中的各个目标特征变量各自对应的影响程度参数范围，获得目标用户分别针对各个所述目标特征变量的目标特征变量值和各个所述目标特征变量值各自对应的影响程度参数值，其中，各个所述目标特征变量分别用于表示不同的用户特征；基于各个所述目标特征变量值和各自对应的影响程度参数值，应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。本申请能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性；具体地，能够实现对各个用户特征各自对用户信用风险预测结果影响程度的检测，进而筛选出重要性程度高的用户特征并用于训练用户信用风险模型，还能够减少系统存储的数据量，及时生成风险应对策略，适用范围广。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中基于影响因素检测的用户信用风险预测方法的流程示意图；

图2是本申请实施例中基于影响因素检测的用户信用风险预测方法步骤021和022的流程示意图；

图3是本申请另一实施例中基于影响因素检测的用户信用风险预测方法的流程示意图；

图4是本申请实施例中基于影响因素检测的用户信用风险预测装置的结构示意图；

图5是本申请具体应用实例中基于影响因素检测的用户信用风险预测装置的结构示意图；

图6是本申请具体应用实例中特征变量检测过程的流程示意图；

图7是本申请具体应用实例中信用风险宏观检测过程的流程示意图；

图8是本申请一举例中的PDP图；

图9是本申请一举例中的ICE图；

图10是本申请具体应用实例中信用风险微观检测过程的流程示意图；

图11是本申请具体应用实例中基于影响因素检测的用户信用风险预测方法的流程示意图；

图12为本申请实施例的电子设备9600的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

一般对机器学习模型尤其是黑盒模型，其模型输入变量和模型输出结果间的变动关系较难从模型算法本身直观得出；尤其对于某些用于大量输入变量的模型，一般只是根据业务经验和一些模型自带输出指标，判断对模型较重要的特征变量，主观性较强，较难发现一些对模型效果有较大的潜在变量。基于此，为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，本申请提供了一种基于影响因素检测的用户信用风险预测方法。将模型可解释性的基本原理与信用风险预测相结合，根据不同的场景应用提供不同的解决方案，能够解决单一模型解释性算法对不同业务场景的适应局限性问题。将代理模型原理应用于高解释性特征变量的筛选中。一般代理模型用来替代复杂模型分析特征变量与模型预测结果间的关系，本申请应用全局代理模型，作用于特征变量筛选，提高特征变量筛选过程中数据的可靠性。本申请提供的基于影响因素检测的用户信用风险预测方法，适用于信用风险预测的情景中，适用范围广，能够满足不同风险预测的需要。本申请提供基于影响因素检测的用户信用风险预测装置中的各个功能模块采用低耦合高内聚的设计思想。全局代理模式、特征重要性检测模式和决策键模式相融合，得到用户信用风险预测模型中重要的特征变量，能够减小系统分析工作量，提高用户信用风险预测的效率和准确性。将PDP和ICE原理与实际信用风险管控场景相结合，检测对信用风险的宏观变动的影响因素。将函数逼近、Shapley值、ALE原理与单个实例分析相结合，检测单个实例微观层面的变动影响因素。将函数逼近、Shapley值、ALE原理与宏微观情景分析相合，辅助检测风险变动的潜在影响，制定风险决策方案；并根据最终得到的各个特征变量对用户信用风险预测结果的影响程度参数范围，优化用户信用风险预测模型，提高用户信用风险预测的准确性和效率。

基于此，为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，本申请实施例提供一种基于影响因素检测的用户信用风险预测装置，该装置可以是一服务器或用户端设备，所述用户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。

在实际应用中，进行基于影响因素检测的用户信用风险预测的部分可以在如上述内容所述的服务器侧执行，也可以所有的操作都在所述用户端设备中完成。具体可以根据所述用户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述用户端设备中完成，所述用户端设备还可以包括处理器。

上述的用户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

所述服务器与所述用户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例进行说明。

如图1所示，为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，本实施例提供一种执行主体是基于影响因素检测的用户信用风险预测装置的基于影响因素检测的用户信用风险预测方法，具体包含有如下内容：

步骤100：根据预获取的目标特征变量清单和该目标特征变量清单中的各个目标特征变量各自对应的影响程度参数范围，获得目标用户分别针对各个所述目标特征变量的目标特征变量值和各个所述目标特征变量值各自对应的影响程度参数值，其中，各个所述目标特征变量分别用于表示不同的用户特征。

其中，所述目标特征变量具体可以为用户身份信息、财务信息、历史信用信息、年龄分布、教育程度和历史行为信息中的至少一项信息；所述各个目标特征变量各自对应的影响程度参数范围包含有各个目标特征变量各自对应的目标特征变量值对用户信用风险预测结果的影响程度参数值。

具体地，所述目标特征变量值为所述目标用户对应于所述目标特征变量清单中的各个目标特征变量的目标特征变量值。

步骤200：基于各个所述目标特征变量值和各自对应的影响程度参数值，应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。

其中，所述用户信用风险预测模型具体可以为回归预测模型、卡尔曼滤波预测模型或BP神经网络预测模型等。

参见图2，为了进一步提高用户信用风险预测的效率和准确性，在本申请一个实施例中，在步骤200之前还包含有：

步骤021：获取所述目标特征变量清单对应的多个历史特征变量值组、各个历史特征变量值组各自对应的信用标签以及所述历史特征变量值组中的各个历史特征变量值分别对应的影响程度参数值。

可以理解的是，各个所述历史特征变量值组对应的目标特征变量均与所述目标特征变量清单中的目标特征变量相同。本申请中信用标签的种类可以是两种或两种以上，如信用标签包含有：信用风险用户标签和信用可靠用户标签。

步骤022：应用所述历史特征变量值组、信用标签以及影响程度参数值对所述用户信用风险预测模型进行训练，以使训练后的用户信用风险预测模型输出的信用风险预测结果误差小于第一误差阈值。

具体地，所述第一误差阈值可根据实际需要进行设置，本申请对此不作限制。所述用户信用风险预测模型输出的预测结果误差可以是所述用户信用风险预测模型输出的预测结果与对应的信用标签之间的差值，也可以是应用损失函数获得的用户信用风险预测模型输出的预测结果与对应的信用标签之间的误差。

参见图3，为了提高筛选高解释性特征变量的可靠性和效率，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，所述的基于影响因素检测的用户信用风险预测方法还包含有：

步骤010：获取由多个历史用户的用户特征数据组成的样本数据集，其中，所述样本数据集中的各个样本分别由唯一对应的历史用户的用户特征数据组成，每个样本均对应有信用标签，且每个样本均对应相同的待筛选特征变量组，该待筛选特征变量组包含有多个待筛选特征变量。

可以理解的是，所述待筛选特征变量中包含有所述目标特征变量清单中的各个目标特征变量。

步骤020：基于所述样本数据集和待筛选特征变量，应用预设的全局代理模型对待筛选特征变量得到第一特征变量清单，应用特征重要性分析算法得到第二特征变量清单，以及应用决策键规则得到第三特征变量清单。

步骤030：根据所述第一特征变量清单、第二特征变量清单和第三特征变量清单生成所述目标特征变量清单。

具体地，基于所述样本数据集，应用预设的全局代理模型生成所述待筛选特征变量对应的第一特征变量清单；应用特征重要性分析算法生成所述待筛选特征变量对应的第二特征变量清单；应用决策键规则生成所述待筛选特征变量对应的第三特征变量清单；根据预设的筛选条件，对第一特征变量清单、第二特征变量清单和第三特征变量清单进行筛选，以获得各个目标特征变量，生成目标特征变量清单。具体地，所述筛选条件可以是，将第一特征变量清单、第二特征变量清单和第三特征变量清单中的各个待筛选特征变量按照出现频率从大到小排序，获取出现频率大于频率阈值的待筛选特征变量，作为目标特征变量，频率阈值可根据实际情况进行设置。

可以理解的是，本申请对于生成所述第一特征变量清单、第二特征变量清单和第三特征变量清单的顺序不作限制。

为了进一步提高获取用户信用风险影响因素的效率，在本申请一个实施例中，所述的基于影响因素检测的用户信用风险预测方法，还包含有：

应用所述样本数据集对所述全局代理模型进行训练，以使训练后的全局代理模型输出的预测结果误差小于对应的第二误差阈值；其中，所述全局代理模型为逻辑回归模型和/或决策树模型。

具体地，所述第二误差阈值可根据实际需要进行设置，本申请对此不作限制。

为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，步骤020中所述应用预设的全局代理模型得到第一特征变量清单包含有：

步骤0211：若所述全局代理模型为逻辑回归模型，则确定所述样本数据集中包含信用可靠用户标签的样本个数与剩余样本个数之间的样本个数比值。

步骤0212：根据预设的特征变量值移动位数、各个所述待筛选特征变量在所述逻辑回归模型中对应的权重和所述样本个数比值，确定各个所述待筛选特征变量的第一重要性程度值。

步骤0213：将第一重要性程度值大于第一重要性阈值的待筛选特征变量组合成第一特征变量清单。

可以理解的是，应用所述样本数据集对所述全局代理模型进行训练，能够确定各个待筛选特征变量在所述逻辑回归模型中对应的权重。所述特征变量值移动位数和第一重要性阈值均可根据实际情况进行设置，本申请对此不作限制。各个所述特征变量对应的特征变量值移动位数相同。所述第一重要性程度值用于反映各个待筛选特征变量对信用风险预测结果的重要性程度。

具体地，预设的特征变量值移动位数、各个所述待筛选特征变量在所述逻辑回归模型中对应的权重和所述样本个数比值和各个所述待筛选特征变量的第一重要性程度值之间的对应关系如下：

其中，

表示样本数据集中待筛选特征变量x_j的取值变动k个单位时，变动后的样本数据集中真实结果为信用可靠用户的样本个数与剩余样本个数之间的样本个数比值，作为待筛选特征变量x_j的第一重要性程度值；k表示特征变量值移动位数，odds表示样本数据集中各个待筛选特征变量的取值均未发生变动时，包含有信用可靠用户标签的样本个数与剩余样本个数之间的样本个数的比值；β_j表示待筛选特征变量x_j在全局代理模型中的权重。

在本申请一个实施例中，步骤020中应用预设的全局代理模型对所述待筛选特征变量组进行过滤包含有：

若所述全局代理模型为决策树模型，则应用所述决策树模型和样本数据集确定各个所述待筛选特征变量对应的基尼(GINI)系数并将基尼系数大于基尼系数阈值的待筛选特征变量组合，生成第四特征变量清单。基尼系数阈值可根据实际情况进行设置。

具体地，所述决策树模型的基本形式为：

遍历整棵树中用到所述待筛选特征变量的所有分裂节点，计算各个分裂节点相对于父节点的GINI系数，将GINI系数进行标准化，使其加总后为100，标准化后的各个GINI系数即各个待筛选特征变量各自对应的重要性程度标准值。

为了进一步提高获取用户信用风险影响因素的准确性，在本申请一个实施例中，所述全局代理模型包含有逻辑回归模型和决策树模型；相对应的，应用所述预设的全局代理模型对所述待筛选特征变量进行过滤，包含有：

应用所述逻辑回归模型生成第一特征变量清单，并应用所述逻辑回归模型生成第四特征变量清单；根据预设的筛选条件从所述第一特征变量清单和第四特征变量清单中获得多个待筛选特征变量。

所述预设的筛选条件可以是对各个待筛选特征变量在所述第一特征变量清单和第四特征变量清单中出现频率进行排序，获取出现频率大于筛选频率阈值的待筛选特征变量，筛选频率阈值可根据实际情况进行设置。

为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，步骤020中所述应用特征重要性分析算法得到第二特征变量清单包含有：

步骤0221：生成所述样本数据集对应的特征变量矩阵和各个所述待筛选特征变量各自对应的置换特征变量矩阵。

具体地，所述特征变量矩阵中各行数据为样本数据集中的各个样本，同一列的待筛选特征变量值对应同一待筛选特征变量。分别将所述特征变量矩阵中各列的任一待筛选特征变量值置换为对应列的中位数、众数或其他统计量，得到各个待筛选特征变量各自对应的置换特征变量矩阵。举例来说，若第3列对应的待筛选特征变量为x_i，将第3列第4行的待筛选特征变量值置换为第3列的各个待筛选特征变量值的中位数，则置换后的特征变量矩阵为待筛选特征变量x_i对应的置换特征变量矩阵。

步骤0222：根据所述特征变量矩阵和置换特征变量矩阵，获得各个所述待筛选特征变量的第二重要性程度值。

步骤0223：将第二重要性程度值大于第二重要性阈值的待筛选特征变量组合成第二特征变量清单。

具体地，所述第二重要性阈值可根据实际情况进行设置，本申请对此不作限制。

(1)假设用户信用风险预测模型是f，所述样本数据集对应的特征变量矩阵为X，样本数据集对应的信用标签组成的信用标签向量组为y，损失函数为L(y,f)；将特征变量矩阵为X输入用户信用风险预测模型得到的输出结果与信用标签向量组之间的损失函数为e^orig＝L(y,f(X))。

(2)假设将数据集X中的待筛选特征变量x_j对应的一个取值置换后得到的置换特征变量矩阵X^perm；将置换特征变量矩阵X^perm输入用户信用风险预测模型得到的输出结果与信用标签向量组之间的损失函数为e^perm＝L(y,f(X^perm))。

(3)计算待筛选特征变量x_j的置换特征重要性值为FI^j＝e^perm-e^orig。

(4)依照同样方式得到各个待筛选特征变量的置换特征重要性值并对置换特征重要性值进行排序。

在本申请一个实施例中，步骤002中，应用所述特征重要性分析算法对所述待筛选特征变量进行过滤包含有：将所述样本数据集输入Friedman’s H-statistic模型，并根据该Friedman’s H-statistic模型的输出结果对所述待筛选特征变量进行排序，将模型的输出结果大于排序阈值的待筛选特征变量组成第五特征变量清单。排序阈值可根据实际情况进行设置。

在本申请一个实施例中，应用所述特征重要性分析算法对所述待筛选特征变量进行过滤包含有：通过置换特征变量值和应用Friedman’s H-statistic模型对所述待筛选特征变量进行过滤。

为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，步骤020中所述应用决策键规则得到第三特征变量清单包含有：

步骤0231：基于所述样本数据集和One-Rule算法，确定各个所述待筛选特征变量的误差值。

步骤0232：将所述误差值小于第三误差阈值的待筛选特征变量组合成第三特征变量清单。

具体地，所述第三误差阈值可根据实际情况进行设置，本申请对此不作限制。基于One-Rule算法，将所有所述待筛选特征变量的取值分箱离散化。对于每个所述待筛选特征变量生成一张二维表格；表格的第一列是所述样本数据集中待筛选特征变量对应的各个待筛选特征变量值，其余列分别为对应于各个信用标签的实际结果出现的次数；每行是经分箱离散化后的待筛选特征变量值和各个实际结果出现的次数；统计每个待筛选特征变量值出现次数最多的实际结果，均定义为对应的待筛选特征变量的实际正确结果，其他实际结果定义为误差；计算二维表格中出现误差的次数和出现实际结果的次数之比，确定各个待筛选特征变量的误差值。将误差值小于第三误差阈值的待筛选特征变量组合成第三特征变量清单。

举例来说，待筛选特征变量为“位置”，对应的待筛选特征变量值有“坏”和“好”，实际结果为“价值的低”、“价值的中”和“价值的高”，对应的二维表格如表1所示。对应位置＝坏，实际正确值取低；对应位置＝好，实际正确值取高。待筛选特征变量“位置”的误差值＝(2+2)/10＝0.4。

表1

在本申请一个实施例中，步骤020中，应用所述决策键规则对所述待筛选特征变量进行过滤包含有：

基于所述样本数据集和顺序覆盖算法，确定各个所述待筛选特征变量的误差值。

将所述误差值小于第六误差阈值的待筛选特征变量组合成第六特征变量清单。

其中，第六误差阈值可根据实际情况进行设置，本申请对此不作限制。所述基于所述样本数据集和顺序覆盖算法，确定各个所述待筛选特征变量的误差值，具体包含有如下内容：

基于所述样本数据集和顺序覆盖算法(Sequential covering)，建立一棵决策树。找寻从根节点到叶子节点，预测误差最小的路径。将这条路径下，叶子上预测结果多的那一类结果，作为该节点的预测结果。形成一条决策键。根据分析的需要，取预测结果为违约的决策键上的待筛选特征变量。根据路径上预测误差从小到大排序，将预测误差小于第六误差阈值的待筛选特征变量组合成第六特征变量清单。

进一步地，基于不同方式分别得到的各个特征变量清单进行汇总，选择其中出现在各个特征变量清单的频率超过预设的频率的待筛选特征变量，生成所述目标特征变量清单。所述预设的频率可根据实际情况进行设置。

或者，建立决策矩阵表，对各个特征变量清单对应的待筛选特征变量进行权重赋权，得到每个待筛选特征变量的加权分数，再选择加权分数高于分数阈值的待筛选特征变量生成所述目标特征变量清单，分数阈值可根据实际需要进行设置。也可以根据实际需要，选择各个特征变量清单中的业务含义高的待筛选特征变量生成所述目标特征变量清单。

为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，所述的基于影响因素检测的用户信用风险预测方法，还包含有：

步骤040：对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围。

具体地，各个所述目标特征变量各自对应的影响程度参数范围包含有目标特征变量对应的各个特征变量值的影响程度参数值。

为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，步骤040包含有：

步骤041：应用预设的宏观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，并根据影响因素检测的结果确定各个所述目标特征变量各自对应的影响程度参数范围。

为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，在本申请一个实施例中，步骤030包含有：

步骤042：应用预设的微观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，并根据影响因素检测的结果确定各个所述目标特征变量各自对应的影响程度参数范围。

为了检测信用风险影响因素整体对预测结果的影响，进而提高信用风险预测的准确性，在本申请一个实施例中，步骤041包含有：

步骤0411：获取所述目标特征变量清单对应的多个历史特征变量值组，并应用预设的宏观检测模型和所述历史特征变量值组，生成各个所述目标特征变量分别对应的PDP(Partial Dependence Plot)图和ICE(Individual Conditional Expectation)图。

具体地，所述宏观检测模型可以是蒙特卡洛模型。蒙特卡洛模型的形式如下：

其中，x_S是目标特征变量；n表示历史特征变量值组个数，

表示目标特征变量清单中目标特征变量x_S之外的各个目标特征变量。应用蒙特卡洛模型的输出结果绘制PDP图。根据曲线图，得到的目标特征变量清单中各个目标特征变量的取值和预测结果的关系。图8为举例中一目标特征变量对应的PDP图，如图所示，横轴表示该目标特征变量的取值范围，即特征变量值，纵轴表示预测值

图9为举例中一目标特征变量对应的ICE图，如图所示，横轴表示该目标特征变量的取值范围，即特征变量值，纵轴表示预测值，即影响程度参数值；为了减小运算量，基于预设的分箱规则，将历史特征变量值组划分为多个实例组，且各实例组至少包含有一个历史特征变量值组，图中曲线为各个实例组中同一目标特征变量对应的曲线。

举例来说，模拟数据的生成方式为：假设x_S有4个取值，分别为1至4。第一次模拟时目标特征变量x_S都取1，得到第一个

第二次模拟时，目标特征变量x_s都取2，其它目标特征变量的取值不变，得到第二个

以此类推。

具体地，基于所述PDP图和ICE图，能够得到目标特征变量对预测结果的影响性的程度和方向等信息，确定每个目标特征变量对预测结果正向/负向产生影响的值域范围，以及发生方向变化的临界值范围。例如，对法人客户的贷款违约预测，可以参考制定对应目标特征变量值的压降值，或者对某类特征提出倾斜性的支持。又如，对个人贷款客户的违约预测，对描述个体特征的目标特征变量，如年龄分布和教育程度分布等，分析其对违约的影响程度和影响方向，有助于在贷款审批时，制定相应的审批策略。

为了检测信用风险影响因素局部对预测结果的影响，进而提高信用风险预测的准确性，在本申请一个实施例中，步骤042包含有：

步骤0421：应用函数逼近算法、Shapley值分析算法和累计局部效应算法中的至少一种算法，对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测。

具体地，为了获取每个目标特征变量对预测结果的贡献程度，应用Shapley值分析算法对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，包含有：

从所述样本数据集中获取各个历史特征变量值组中在预设的分析值域范围内的局部特征变量值，并根据该局部特征变量值生成样本局部数据集，各个特征变量各自对应有分析值域范围。将所述样本局部数据集中的一个样本作为基准，根据该基准确定所述样本局部数据集对应的各个目标特征变量的Shapley值。根据各个所述目标特征变量的Shapley值分别确定各个所述目标特征变量在各自对应的影响程度参数范围。

从软件层面来说，为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，本申请提供一种用于实现所述基于影响因素检测的用户信用风险预测方法中全部或部分内容的基于影响因素检测的用户信用风险预测装置的实施例，参见图4，所述基于影响因素检测的用户信用风险预测装置具体包含有如下内容：

获取目标特征变量值模块10，用于根据预获取的目标特征变量清单和该目标特征变量清单中的各个目标特征变量各自对应的影响程度参数范围，获得目标用户分别针对各个所述目标特征变量的目标特征变量值和各个所述目标特征变量值各自对应的影响程度参数值，其中，各个所述目标特征变量分别用于表示不同的用户特征。

信用风险预测模块20，用于基于各个所述目标特征变量值和各自对应的影响程度参数值，应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。

在本申请一个实施例中，所述的基于影响因素检测的用户信用风险预测装置，还包含有：

获取历史数据模块，用于获取由多个历史用户的用户特征数据组成的样本数据集，其中，所述样本数据集中的各个样本分别由唯一对应的历史用户的用户特征数据组成，每个样本均对应有信用标签，且每个样本均对应相同的待筛选特征变量组，该待筛选特征变量组包含有多个待筛选特征变量。

过滤模块，用于基于所述样本数据集和待筛选特征变量，应用预设的全局代理模型对待筛选特征变量得到第一特征变量清单，应用特征重要性分析算法得到第二特征变量清单，以及应用决策键规则得到第三特征变量清单。

生成目标特征变量清单模块，用于根据所述第一特征变量清单、第二特征变量清单和第三特征变量清单生成所述目标特征变量清单。

本说明书提供的基于影响因素检测的用户信用风险预测装置的实施例具体可以用于执行上述基于影响因素检测的用户信用风险预测方法的实施例的处理流程，其功能在此不再赘述，可以参照上述基于影响因素检测的用户信用风险预测方法实施例的详细描述。

为了进一步说明本方案，本申请还提供一种基于影响因素检测的用户信用风险预测装置的具体应用实例，参见图5，具体包含有如下内容：

在本应用实例中，所述基于影响因素检测的用户信用风险预测装置包含有信用风险模型管理模块1、特征变量检测模块2、信用风险宏观检测模块3、信用风险微观检测模块4和信用风险情景检测模块5。信用风险模型管理模块1生成信用风险预测模型，得到模型算法、入模的特征变量和预测结果等后续检测需要的数据。特征变量检测模块2对信用风险模型管理模块1得到的模型和特征变量开展检测，根据不同的模型，搜寻筛选解释性较高的特征变量，作为信用风险预测基础。信用风险宏观检测模块3是根据特征变量检测模块2得到的特征变量，检测对整个模型整体的影响程度，供生成宏观风险决策。信用风险微观检测模块4是根据特征变量检测模块2得到的特征变量，检测在特定数据变动范围内对某些特定实体的影响程度，供生成微观风险决策。信用风险情景检测模块5结合信用风险宏观检测模块3和信用风险微观检测模块5，作为风险管理的一个重要部分，开展信用风险情景分析。具体描述如下：

信用风险模型管理模块1：用于实现生成信用风险预测模型等全流程。此模块主要生成信用风险预测模型，得到后续模块的分析对象。

特征变量检测模块2：用于应用全局代理模型的原理，将复杂模型转换成参数可解释性较强的简单模型，搜寻解释性较高的特征变量。

信用风险宏观检测模块3：用于获得所述解释性较高的特征变量对模型预测结果的宏观性检测结果。

信用风险微观检测模块4：用于获得在预设的特征值域内的数据对模型预测结果的微观分析结果。

信用风险情景检测模块5：用于主要结合宏观和微观分析结果，开展信用风险情景分析。

(1)参见图6，特征变量检测过程。

步骤S101：选择特征变量分析模式。由于不同特征变量挑选的模式有各自的优劣，因此采用多模式特征变量融合的方法，搜寻较为重要性和解释性较高的特征变量。

步骤S1020：全局代理模型模式。

步骤S1021：选择全局代理模型。全局代理模型中的特征变量的参数能够相对直观的体现出各个特征变量对预测结果的重要性程度，故用来筛选特征变量。

基于全局代理模型的变量搜寻的基本原理如下：

第一步：确定模型的数据集X，保证代理模型g和原模型f的数据基础一致。

第二步：用X分别训练代理模型g和原模型f。

第三步：要求模型g的预测结果与原模型f的预测结果尽可能一致。

第四步：基于模型g，选择重要性高的特征变量。

一般常见的全局代理模型有两类：线性模型和决策树模型。

线性模型特征变量重要性分析原理如下：

因为信用风险预测大多要求预测的违约概率，故本发明中选择的模型是逻辑回归模型，其模型基本形式为：

相对于信用风险违约预测模型，该模型形式为：

为了使得到的参数可解释，对模型进行转化：

进一步推导：

简化后得到：

样本数据集对应的信用标签有两种时，

表示当待筛选特征变量x_j的取值变动1个单位时，y＝1实际发生概率与y＝0实际发生概率的比值，用于确定各个待筛选特征变量的重要性影响值；本具体应用实例中，各个特征变量对应的特征变量值移动位数相同；odds表示样本数据集中，y＝1实际发生概率与y＝0实际发生概率的比值；β_j表示特征变量j在全局代理模型中的权重；其中，y表示信用风险实际情况，即样本数据集对应的各个信用标签，y＝1表示样本的信用标签为信用风险用户标签和y＝0表示样本的信用标签为信用可靠用户标签。进一步地，x₁……x_p分别表示各个待筛选特征变量；β₁……β_p分别表示各个待筛选特征变量各自对应的权重。

当x_j变动一个单位，odds比例会变化exp(β_j)倍。举例来说，如果odds＝2，表示y＝1发生的概率是y＝0的2倍。如果对数odds比的权重是0.7，那么该特征变量的重要性影响就是1×2×exp(0.7)约为4。

按参数的正负取值，分别取其绝对值排在前N位的特征变量。N可以根据实际需要进行设定。

决策树模型特征变量重要性分析原理如下：

该模型基本形式为：

遍历整棵树中用到该特征变量的所有分裂节点，计算这些分裂节点相对于父节点的GINI系数，将每个特征变量的重要性进行标准化，使其加总后为100。对系数进行排序，选择系数值较高的前N位的特征变量。

步骤S1022：生成特征变量候选列表。选择其中一种或两种模式，生成候选清单。

步骤S1030：特征重要性分析模式。

步骤S1031：选择重要性指标。直接对原模型的特征根据重要性指标挑选特征变量。包含有置换特征变量值和Friedman’s H-statistic两种方法。

置换特征变量算法原理如下：

假设原模型是f，特征变量矩阵为X，目标变量y，损失函数L(y,f)。

第一步：计算原模型的误差：e^orig＝L(y,f(X))。

第二步：对每个特征变量j＝1,…,p：产生一个特征变量矩阵X^perm，将数据集X中的特征变量j置换成其他数值。置换数据的方法可以是取该特征变量的中位数、众数或者其他统计量。

计算e^perm＝L(y,f(X^perm))。

计算置换特征重要性FI^j＝e^perm-e^orig。

第三步：按FI排序。

对FI进行排序，选择取值较高的前N位的特征变量。

Friedman’s H-statistic原理如下：

其中，

是原模型，PD_j(x_j)是包含特征变量x_j的偏依赖函数，PD_-j(x_-j)是不包含特征变量x_j的偏依赖函数。

对H值进行排序，选择取值较高的前N位的特征变量。

步骤S1032：生成特征变量候选列表。选择其中一种或两种模式，生成候选清单。

步骤S1040：决策键模式。

步骤S1041：选择决策键规则。决策键是一系列的IF-THEN的规则。包含有One-Rule和Sequential covering两种方法。

One-Rule的基本原理如下：

第一步：将所有特征变量取值分箱离散化。

第二步：对于每个特征变量：生成一张二维表格。表格的第一列是特征变量的名称，第二列预测结果。每行是经风险离散化后的变量取值，以及对应的预测结果。统计每个特征变量预测最多的预测结果，定义为该变量的预测结果，其他预测结果定义为误差。计算误差值。按误差从低到高排序，取误差最小的前N位的特征变量。

Sequential covering的基本原理如下：

第一步：类似于代理模型，建立一棵决策树。

第二步：找寻从根节点到叶子节点，预测误差最小的路径。

第三步：将这条路径下，叶子上预测结果多的那一类结果，作为该节点的预测结果。形成一条决策键。

第四步：根据分析的需要，取预测结果为违约的那些决策键上的特征变量。

根据路径上预测误差从小到大排序，取前N位的特征变量。

步骤S1042：生成特征变量候选列表。选择其中一种或两种模式，生成候选清单。

步骤S105：特征变量融合。将不同方式下得到的特征变量候选变量列表汇总。选择其中出现在特征变量列表频率最高的特征变量。或者建立决策矩阵表，对不同方法进行权重赋权，得到每个特征变量的加权分数，再选择分数较高的前M的变量。也可以根据业务经验，选择列表中的业务含义高的特征变量。

(2)参见图7，信用风险宏观检测过程。

步骤S201：选择模型分析方法。

虽然在前述特征变量全局搜寻模块中的方法，也可以作为模型变量与模型结果的间的可解释性分析，但是这些方法大多是利用代理模型来近似逼近原模型，故实际更多是对代理模型的可解释性，因此本申请只用作特征变量筛选。

模型变量与模型结果之间的可解释性分析，一般有全局分析和局部分析两种。全局分析是分析变量整体对结果的影响性，局部分析是分析变量在某个值域内对结果的影响性。前者可以应用于信用风险宏观分析中，后者可以应用于信用风险微观分析中。本步骤是选择对模型变量全局分析的方法。

步骤S202：模型可解释性分析。本步骤主要包含有Partial Dependence Plot(PDP)和Individual Conditional Expectation(ICE)两种方式。

PDP用于分析特征变量对预测结果的边际影响。原理如下：

第一步：定义函数形式。偏依赖函数形式为：

x_S是前述步骤中得到的待分析特征变量，x_C是其他特征变量。

第二步：对每个特征变量x_S，运用蒙特卡洛模拟的方法，模拟x_S取值变动，得到PDP图。具体为，对下式做蒙特卡洛模拟计算：

其中，

是每条实例的除去S之外的特征变量取值。对x_S进行蒙特卡洛模拟。

模拟数据的生成方式为：假设x_S有4个取值，分别为1-4。第一次模拟时，全部实例的特征变量S都取1，得到第一个

第二次模拟时，全部记录的全部实例的特征变量S都取2，得到第二个

以此类推。

第三步：绘制PDP图。根据曲线图，得到分析变量取值和预测结果的关系。

Individual Conditional Expectation(ICE)是将全部实例均绘制在同一张图，通过确定实例的中心化，分析特征变量对实例预测结果的影响性。原理如下：

第一步：选择前述步骤中得到的特征变量清单。

第二步：实例抽样。因为信用风险分析中的全部实例数据量巨大，不适宜将全部实例绘制在同一张图上。所以先将实例按预测概率值进行分箱。对每个分箱内实例随机抽样，抽取一定数量的实例。分箱数和抽取比例，根据业务实际分析使用确定。

第三步：对于每个分箱抽样的实例组，对其每个特征变量x_s：定义ICE中的实例特征变量取值：对每个实例i，取

得到

用蒙特卡洛模拟的方法生成，

取特征变量原值。

第四步：中心化。将x_s取x^a，形成为曲线的基准实例。x^a可以取中位数或众数等统计量。

第五步：得到不同分箱实例组下的ICE图，以及实例中基准实例的差异。

步骤S203：信用风险宏观分析。根据前述步骤，得到特征变量对预测结果的影响性的程度和方向等信息，具体可以得到每个特征变量在哪些值域内会对预测结果正向/负向产生影响，以及发生方向变化的临界值范围。比如是对法人客户的贷款违约预测，可以参考制定对应特征变量值的压降值，或者对某类特征提出倾斜性的支持。又如，对个人贷款客户的违约预测，对描述个体特征的特征变量，如年龄分布和教育程度分布等，分析其对违约的影响程度和影响方向，有助于在贷款审批时，制定相应的审批策略。

(3)参见图10，信用风险微观检测过程。

步骤S301：确定变量的分析值域。根据前述步骤得到的特征变量宏观分析结果，由业务人员选择需要重点关系的特征变量值域范围。重点分析该值域范围内的特征变量微小的变动，对预测结果的变化影响。

步骤S302：选择模型局部分析方法。

步骤S303：函数逼近方法。

第一步：根据定理，设f(x)∈C[a,b]，则对任何ε＞0，总存在一个代数多项式p(x)，使

第二步：构建局部代理模型。

将前述步骤得到的特征变量作为局部代理模型的特征变量。

选择实例的特征变量取值在待分析值域内的实例。

采用置换特征变量的方式，将实例的特征变量值在其邻域内进行绕动变化。得到新的变量取值。用原模型进行预测。

根据扰动后得到的特征变量与原变量的距离的远近，进行赋权。得到新的特征变量数据集。

对赋权后的特征变量数据集，训练局部代理模型。

第三步：得到特征变量在局部变动时对模型的重要性分析。

步骤S304：指标分析方法。采用Shapley值的分析方法。该指标主要分析每个特征变量对预测结果的贡献程度。

第一步：选择实例的特征变量取值在待分析值域内的实例。

第二步：从这些实例中选择一个作为基准实例，作为比较的基础。

第三步：以该基准实例为基础，分析其他实例变量的Shapley值。

第四步：得到特征变量在局部范围内对模型的贡献程度。

步骤S305：累积局部效应方法。使用Accumulated Local Effects(ALE)值。ALE方法检测当特征变量在特定范围内波动时，所产生的累积变动差异。

ALE的基本原理如下：

第一步：将特征变量的值域，细化切分成更小的区间段。取该区间段的上下限作为特征变量值的邻域。

第二步：计算未中心化的影响。

其中，z_k,j和z_k-1,j是目标特征变量x_j在区间段内的上限和下限，x_\j表示目标特征变量清单中变量x_j之外的其他变量，i表示第i个样本。该公式表示：首先，将每个实体中的某个特征变量在某个邻域内预测值相减，得到效应因素值；其次，将该特征变量邻域内全部实体都做类似运算，得到各自的效应因素值。再次，对各个效应因素值求均值，得到该邻域内的均值，即局部因素值。最后，将所要分析的全部邻域内的效应因素值、局部因素值都加总，得到累积局部效应值。

第三步：计算中心化的影响。

第三步：ALE值用来衡量，在某个特定值域内，相对数据集的平均预测结果，该特征变量的主要影响程度。比如对x_j＝3时，得到的ALE＝-2。表示对第j个特征变量，当它等于3时，则相对平均预测结果，要低2。

步骤S306：信用风险微观分析。根据特征变量在局部变动时对模型的重要性或特征变量在局部范围内对模型的贡献程度Shapley值，分析特征变量变动时对违约的方向和程度的绝对影响；还可以应用ALE值，分析特征变量变动时，相对全部数据集中均值，其影响方向和程度的相对影响。

为了进一步说明本方案，本申请还提供一种基于影响因素检测的用户信用风险预测方法的具体应用实例，参见图11，具体包含有如下内容：

步骤S401：选择情景分析方法。

步骤S4020：信用风险宏观情景场景设计。基本思路是：在原来的特征变量值基础上，全部上浮或下浮若干百分比。或者在针对预测结果有负面影响的特征变量取值范围进行变动。场景设计方案可结合具体业务分析决策场景设定。分析在情景变动下，违约的变化情况。

步骤S4021：信用风险宏观分析。再次计算上述特征变量的PDP和ICE，观察在大幅变动的情况下，上述值的变动情况。分析是否在特征变量大幅变动的情况下，是否会出现图形的逆转等现象，生成风险预案。

步骤S4030：信用风险微观情景场景设计。该步骤主要针对单个实例的分析。对风险较高的实体，如预测违约概率较高的实例；或在实际业务场景中，判断为存在潜在分险的客户；或新业务客户。场景设计方案可结合具体业务分析决策场景设定。分析在情景变动下，该违约的变化情况。

步骤S4031：信用风险微观分析。根据该实例的特征变量取值，根据前述步骤计算得到的特征变量重要性、Shapley值和ALE值，计算该实例的违约变动情况。

步骤S404：信用风险分析决策。风险分析人员、风险管控人员根据宏微观检测结果，以及前述各步骤的宏观、微观分析结果，形成风险分析报告，制定风险决策方案。

具体地，根据宏微观检测结果，获取目标用户对应的多个特征变量值和各个特征变量值各自对应的影响程度参数值，应用所述预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果。

由上述描述可知，本申请通过将机器学习复杂原模型进行转换，筛选重要特征变量；并基于模型无关的方法对原模型分析变量对风险因素的分析。能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性；具体地，能够实现对各个用户特征各自对用户信用风险预测结果影响程度的检测，进而筛选出重要性程度高的用户特征并用于训练用户信用风险模型，还能够减少系统存储的数据量，适用范围广。

从硬件层面来说，为了提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性，本申请提供一种用于实现所述基于影响因素检测的用户信用风险预测方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述基于影响因素检测的用户信用风险预测装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述基于影响因素检测的用户信用风险预测方法的实施例及用于实现所述基于影响因素检测的用户信用风险预测装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图12为本申请实施例的电子设备9600的系统构成的示意框图。如图12所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图12是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，基于影响因素检测的用户信用风险预测功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

从上述描述可知，本申请的实施例提供的电子设备，能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性。

在另一个实施方式中，基于影响因素检测的用户信用风险预测装置可以与中央处理器9100分开配置，例如可以将基于影响因素检测的用户信用风险预测装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现基于影响因素检测的用户信用风险预测功能。

如图12所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图12中所示的所有部件；此外，电子设备9600还可以包括图12中没有示出的部件，可以参考现有技术。

如图12所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性。

本申请的实施例还提供能够实现上述实施例中的基于影响因素检测的用户信用风险预测方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的基于影响因素检测的用户信用风险预测方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高获取用户信用风险影响因素的效率和可靠性，进而提高用户信用风险预测的效率和可靠性。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于影响因素检测的用户信用风险预测方法，其特征在于，包括：

2.根据权利要求1所述的基于影响因素检测的用户信用风险预测方法，其特征在于，在所述应用预设的用户信用风险预测模型确定所述目标用户的信用风险预测结果之前，还包括：

获取所述目标特征变量清单对应的多个历史特征变量值组、各个历史特征变量值组各自对应的信用标签以及所述历史特征变量值组中的各个历史特征变量值分别对应的影响程度参数值；

应用所述历史特征变量值组、信用标签以及影响程度参数值对所述用户信用风险预测模型进行训练，以使训练后的用户信用风险预测模型输出的信用风险预测结果误差小于第一误差阈值。

3.根据权利要求1所述的基于影响因素检测的用户信用风险预测方法，其特征在于，还包括：

获取由多个历史用户的用户特征数据组成的样本数据集，其中，所述样本数据集中的各个样本分别由唯一对应的历史用户的用户特征数据组成，每个样本均对应有信用标签，且每个样本均对应相同的待筛选特征变量组，该待筛选特征变量组包含有多个待筛选特征变量；

基于所述样本数据集和待筛选特征变量，应用预设的全局代理模型对待筛选特征变量得到第一特征变量清单，应用特征重要性分析算法得到第二特征变量清单，以及应用决策键规则得到第三特征变量清单；

根据所述第一特征变量清单、第二特征变量清单和第三特征变量清单生成所述目标特征变量清单。

4.根据权利要求3所述的基于影响因素检测的用户信用风险预测方法，其特征在于，还包括：

应用所述样本数据集对所述全局代理模型进行训练，以使训练后的全局代理模型输出的预测结果误差小于对应的第二误差阈值；

其中，所述全局代理模型为逻辑回归模型和/或决策树模型。

5.根据权利要求3所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述应用预设的全局代理模型得到第一特征变量清单，包括：

若所述全局代理模型为逻辑回归模型，则确定所述样本数据集中包含信用可靠用户标签的样本个数与剩余样本个数之间的样本个数比值；

根据预设的特征变量值移动位数、各个所述待筛选特征变量在所述逻辑回归模型中对应的权重和所述样本个数比值，确定各个所述待筛选特征变量的第一重要性程度值；

将第一重要性程度值大于第一重要性阈值的待筛选特征变量组合成第一特征变量清单。

6.根据权利要求3所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述应用特征重要性分析算法得到第二特征变量清单，包括：

生成所述样本数据集对应的特征变量矩阵和各个所述待筛选特征变量各自对应的置换特征变量矩阵；

根据所述特征变量矩阵和置换特征变量矩阵，获得各个所述待筛选特征变量的第二重要性程度值；

将第二重要性程度值大于第二重要性阈值的待筛选特征变量组合成第二特征变量清单。

7.根据权利要求3所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述应用决策键规则得到第三特征变量清单，包括：

基于所述样本数据集和One-Rule算法，确定各个所述待筛选特征变量的误差值；

将所述误差值小于第三误差阈值的待筛选特征变量组合成第三特征变量清单。

8.根据权利要求1所述的基于影响因素检测的用户信用风险预测方法，其特征在于，还包括：

对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围。

9.根据权利要求8所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围，包括：

应用预设的宏观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，并根据影响因素检测的结果确定各个所述目标特征变量各自对应的影响程度参数范围。

10.根据权利要求8所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述对所述目标特征变量清单中的各个目标特征变量分别进行针对用户信用风险预测结果的影响因素检测，得到各个所述目标特征变量各自对应的影响程度参数范围，包括：

应用预设的微观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，并根据影响因素检测的结果确定各个所述目标特征变量各自对应的影响程度参数范围。

11.根据权利要求9所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述应用预设的宏观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，包括：

获取所述目标特征变量清单对应的多个历史特征变量值组，并应用所述预设的宏观检测模型和历史特征变量值组，生成各个所述目标特征变量各自对应的PDP图和ICE图。

12.根据权利要求10所述的基于影响因素检测的用户信用风险预测方法，其特征在于，所述应用预设的微观检测模型对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测，包括：

应用函数逼近算法、Shapley值分析算法和累计局部效应算法中的至少一种算法，对所述目标特征变量清单中的各个目标特征变量进行针对用户信用风险预测结果的影响因素检测。

13.一种基于影响因素检测的用户信用风险预测装置，其特征在于，包括：

14.根据权利要求13所述的基于影响因素检测的用户信用风险预测装置，其特征在于，还包括：

获取历史数据模块，用于获取由多个历史用户的用户特征数据组成的样本数据集，其中，所述样本数据集中的各个样本分别由唯一对应的历史用户的用户特征数据组成，每个样本均对应有信用标签，且每个样本均对应相同的待筛选特征变量组，该待筛选特征变量组包含有多个待筛选特征变量；

过滤模块，用于基于所述样本数据集和待筛选特征变量，应用预设的全局代理模型对待筛选特征变量得到第一特征变量清单，应用特征重要性分析算法得到第二特征变量清单，以及应用决策键规则得到第三特征变量清单；

15.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至12任一项所述的基于影响因素检测的用户信用风险预测方法。

16.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至12任一项所述的基于影响因素检测的用户信用风险预测方法。