CN114693428A

CN114693428A - 数据确定方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN114693428A
Application number: CN202210266082.9A
Authority: CN
Inventors: 韩奇城; 贾小茹; 杜敏; 徐晓琳
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-07-01

Abstract

本发明公开了一种数据确定方法、装置、计算机可读存储介质及电子设备。涉及金融科技领域或其它领域，该方法包括：获取目标对象的信贷特征集合，信贷特征集合包括从属于至少一个特征类别的多个特征信息；对信贷特征集合进行预测，得到预测结果和第一结果；在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果；基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。本发明解决了现有技术对信贷违约风险预测结果的发生原因判断不准确的技术问题。

Description

数据确定方法、装置、计算机可读存储介质及电子设备

技术领域

本发明涉及金融科技领域，具体而言，涉及一种数据确定方法、装置、计算机可读存储介质及电子设备。

背景技术

在风控领域，信贷场景下，客户的贷后监控是一个不可或缺的环境，准确的识别出可能存在违约风险的客户群体，后续加强监督或者客户经理人工催缴，减少呆账坏账的比例，显得尤为重要。

其中，风控领域对于预测结果的可解释性要求高，即对于可能存在违约风险的客户群体，需要对其风险预警原因进行具体分析。然而，现有技术中对信贷违约风险预测结果的发生原因判断并不准确，从而无法满足风控需求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据确定方法、装置、计算机可读存储介质及电子设备，以至少解决现有技术对信贷违约风险预测结果的发生原因判断不准确的技术问题。

根据本发明实施例的一个方面，提供了一种数据确定方法，包括：获取目标对象的信贷特征集合，其中，信贷特征集合包括从属于至少一个特征类别的多个特征信息；对信贷特征集合进行预测，得到预测结果和第一结果，其中，预测结果表征目标对象是否具有违约风险，第一结果包括每个特征类别对预测结果的第一特征重要比例，以及每个特征信息对预测结果的第二特征重要比例；在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果；基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。

进一步地，第二结果包括每个特征类别对应的归因值以及每个特征信息对应的归因值。

进一步地，数据确定方法还包括：基于预设模型对信贷特征集合进行预测，得到预测结果；基于每个特征信息的特征重要度确定每个特征信息所对应的第二特征重要比例，其中，特征重要度表征特征信息对预测结果的影响程度；对每个特征类别所对应的特征信息的第二特征重要比例进行相加处理，得到每个特征类别的类别特征重要比例；对信贷特征集合中所有特征信息的第二特征重要比例进行相加处理，得到总特征重要比例；基于类别特征重要比例和总特征重要比例确定第一特征重要比例。

进一步地，数据确定方法还包括：确定每个特征信息的特征重要度；对信贷特征集合中所有特征信息的特征重要度进行相加处理，得到总特征重要度；基于特征重要度和总特征重要度确定第二特征重要比例。

进一步地，数据确定方法还包括：基于信贷特征集合确定每个特征信息的归因值；对从属于相同特征类别的特征信息的归因值进行相加处理，得到每个特征类别对应的归因值。

进一步地，数据确定方法还包括：基于第一结果和第二结果得到解释结果，其中，解释结果表征每个特征类别对预测结果的贡献度，以及每个特征信息对预测结果的贡献度；基于解释结果确定信贷特征集合中的异常特征类别以及异常特征信息。

进一步地，数据确定方法还包括：将每个特征类别的归因值与对应的第一特征重要比例进行相乘处理，得到每个特征类别对应的第一数值；基于每个特征类别对应的第一数值确定每个特征类别对预测结果的贡献度；将每个特征信息的归因值与对应的第二特征重要比例进行相乘处理，得到每个特征信息对应的第二数值；基于每个特征信息对应的第二数值确定每个特征信息对预测结果的贡献度。

进一步地，数据确定方法还包括：在对信贷特征集合进行预测，得到预测结果和第一结果之前，获取至少一个历史信贷对象的初始信贷特征集合，其中，初始信贷特征集合包括从属于不同初始特征类别的多个初始特征信息；基于至少一个训练好的第一预测模型对每个初始特征类别所对应的初始特征信息进行处理，得到每个初始特征信息所对应的初始特征重要度，其中，每个初始特征类别与一个第一预测模型相对应；基于初始特征重要度从每个初始特征类别所对应的初始特征信息中筛选出目标特征信息，其中，目标特征信息与特征信息相对应；基于目标特征信息对第二预测模型进行训练，得到目标预测模型，其中，目标预测模型用于对每个信贷特征集合进行预测，并得到预测结果和第一结果。

根据本发明实施例的另一方面，还提供了一种数据确定装置，包括：获取模块，用于获取目标对象的信贷特征集合，其中，信贷特征集合包括从属于至少一个特征类别的多个特征信息；预测模块，用于对信贷特征集合进行预测，得到预测结果和第一结果，其中，预测结果表征目标对象是否具有违约风险，第一结果包括每个特征类别对预测结果的第一特征重要比例，以及每个特征信息对预测结果的第二特征重要比例；计算模块，用于在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果；确定模块，用于基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，包括：计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的数据确定方法。

根据本发明实施例的另一方面，还提供了一种电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的数据确定方法。

根据本发明实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述的数据确定方法。

在本发明实施例中，采用基于特征重要比例和归因值对信贷违约风险预测结果的发生原因的进行判断的方式，通过获取目标对象的信贷特征集合，并对信贷特征集合进行预测，得到预测结果和第一结果，然后在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果，从而基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，信贷特征集合包括从属于至少一个特征类别的多个特征信息，预测结果表征目标对象是否具有违约风险，第一结果包括每个特征类别对预测结果的第一特征重要比例，以及每个特征信息对预测结果的第二特征重要比例，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。

容易注意到的是，在上述过程中，基于第一结果中的第一特征重要比例和第二特征重要比例，可以用于确定对预测结果影响程度相对较高的特征类别和特征信息，对目标对象的信贷特征集合中的每个特征信息进行归因计算得到第二结果，可以用于确定每个特征信息以及每个特征类别对预测结果的初始贡献度。进一步地，通过结合第一结果和第二结果，可以确定每个特征信息以及每个特征类别对预测结果的最终贡献度，从而可以准确确定信贷特征集合中的异常特征类别以及异常特征信息，实现了基于多方面因素对预测结果的发生原因的进行判断，进而提高了对风险预警原因判断的准确性，达到风控要求并提高风控效率。

由此可见，本申请所提供的方案达到了基于特征重要比例和归因值对信贷违约风险预测结果的发生原因的进行判断的方式的目的，从而实现了提高对风险预警原因判断的准确性的技术效果，进而解决了现有技术对信贷违约风险预测结果的发生原因判断不准确技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据确定方法的示意图；

图2是根据本发明实施例的一种可选的数据确定方法的示意图；

图3是根据本发明实施例的一种可选的训练模型的示意图；

图4是根据本发明实施例的一种可选的数据确定装置的示意图；

图5是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

实施例1

根据本发明实施例，提供了一种数据确定方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的数据确定方法的示意图，如图1所示，该方法包括如下步骤：

步骤S101，获取目标对象的信贷特征集合，其中，信贷特征集合包括从属于至少一个特征类别的多个特征信息。

在步骤S101中，可以通过电子设备、应用系统、服务器等装置获取目标对象的信贷特征集合，在本实施例中，通过风险预警系统获取目标对象的信贷特征集合。其中，风险预警系统可以基于预设的数据库、互联网、云服务器或其它可供信息读取的装置中的至少一个获取信贷特征集合。信贷特征集合中包括多个特征信息，每个特征信息对应于一个特征类别，不同特征信息所对应的特征类别可以相同也可以不同。可选的，每个特征信息至少由特征标识和特征值组成，特征信息为对客户信贷可能产生影响的特征，如客户基本信息、客户征信、客户资产、客户流水、客户税务等特征。

可选的，在本实施例中，目标对象为已经信贷的客户，优选的，目标客户为已经信贷但还未违约的客户。信贷特征集合中的部分特征类别和特征信息如下表所示：

表1-特征类别和特征信息示例

在表1中，以序号1-3所对应的特征类别和特征信息为例，其中，“法人流水”为特征类别，“法人流水近N₁月交易余额均值”、“法人流水近N₂月交易余额均值”、“法人流水近N₃月交易余额均值”为对应于“法人流水”的特征信息，其它特征类别和特征信息的对应关系与前述内容相同，故此处不再赘述。

需要说明的是，通过获取目标对象的信贷特征集合，以便于后续基于特征信贷集合确定目标对象是否具有违约风险，以及在具有违约风险时的原因。

步骤S102，对信贷特征集合进行预测，得到预测结果和第一结果，其中，预测结果表征目标对象是否具有违约风险，第一结果包括每个特征类别对预测结果的第一特征重要比例，以及每个特征信息对预测结果的第二特征重要比例。

在步骤S102中，风险预警系统可以基于训练好的预测模型对信贷特征集合进行预测，以得到预测结果和第一结果。在本实施例中，前述训练好的预测模型可以是Xgboost模型，该模型的参数可以设置为：学习率设置为0.1，树的个数为241个，树的最大深度为5，优化函数为:binary:logistic，随机种子为27。

可选的，在预测过程中，预测模型不仅可以对目标对象是否具有违约风险进行预测，还可以对预测结果的原因进行初步解释。具体地，预测模型可以对每个特征信息对预测结果的特征重要程度(也即影响程度)进行计算，确定每个特征信息的特征重要度，然后基于每个特征信息的特征重要度确定每个特征信息的特征重要比例(即第二特征重要比例)。并基于每个特征信息的特征重要比例确定每个特征类别的特征重要比例(即第一特征重要比例)。

需要说明的是，通过对信贷特征集合进行预测，得到预测结果和第一结果，实现了对目标对象是否具有违约风险的准确预测，同时，基于第一结果中的第一特征重要比例和第二特征重要比例，可以确定对预测结果影响程度相对较高的特征类别和特征信息，以便于后续确定目标对象在具有违约风险时的原因。

步骤S103，在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果。

在步骤S103中，在预测结果表征目标对象具有违约风险的情况下，风险预警系统可以基于解释模型对目标对象的信贷特征集合中的每个特征信息进行归因计算。其中，在本实施例中，解释模型为Tree SHAP模型，第二结果包括但不限于每个特征信息对应的归因值，每个特征信息对应的归因值可以表征该特征信息对预测结果的初始贡献度，进而可以确定每个特征类别对预测结果的初始贡献度。且需要强调的是，在预测结果表征目标对象不具有违约风险的情况下，风险预警系统也可以基于解释模型对目标对象的信贷特征集合中的每个特征信息进行归因计算。

需要说明的是，通过对目标对象的信贷特征集合中的每个特征信息进行归因计算，可以得到每个特征信息的归因值，从而确定了每个特征信息以及每个特征类别对预测结果的初始贡献度，进而便于后续确定目标对象在具有违约风险时的原因。

步骤S104，基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。

在步骤S104中，风险预警系统可以将第一结果中每个特征信息对应的特征重要比例(即第二特征重要比例)与第二结果中的每个特征信息的归因值相乘，以确定每个特征信息对预测结果的最终贡献度；也可以将第一结果中每个特征信息对应的特征重要比例(即第二特征重要比例)与第二结果中的每个特征信息的归因值相加，以确定每个特征信息对预测结果的最终贡献度；还可以将第一结果中每个特征信息对应的特征重要比例(即第二特征重要比例)与第二结果中的每个特征信息的归因值分别与对应的权重系数相乘后再求和，以确定每个特征信息对预测结果的最终贡献度。

可选的，风险预警系统可以基于第二结果中的每个特征信息的归因值确定每个特征类别的归因值，并可以从前述的方法中确定一个与确定每个特征信息对预测结果的最终贡献度的方法相同或不同的方法来确定每个特征类别对预测结果的最终贡献度。

进一步地，风险预警系统在确定了每个特征类别或每个特征信息对预测结果的最终贡献度之后，风险预警系统可以从中选出对预测结果的贡献度最高的特征类别作为异常特征类别，选出对预测结果的贡献度最高的特征信息作为异常特征信息。其中，异常特征类别表征使得目标客户具有违约风险的最主要的类别原因，异常特征信息表征使得目标客户具有违约风险的最主要的特征原因，异常特征类别和异常特征信息所对应的特征类别可能相同，也可能不同。

需要说明的是，结合第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，基于多方面因素对预测结果的发生原因的进行判断，提高了其判断的准确性，即在满足精准度、召回率等指标的情况下，提升了预测结果的可解释性，从而达到风控要求，提高风控效率。

目前，对于风控领域的贷后预警业务，现有的技术方案通常以规则把控为主，对客户的征信信息、个人流水、法人流水、客户资产等信息进行规则的提取，以规则筛选可能存在逾期违约未还风险的客户，此外，也可以通过机器学习线性模型和非线性建模给每个有贷户打分来确定可能存在逾期违约未还风险的客户。然而，在前述的两种方案中，当以逻辑斯特回归与评分卡模型建模或规则把控的方式进行预测及解释时，虽然其可解释性强，易于找出客户存在风险的具体原因，但是规则效果差、线性模型的指标与非线性模型存在一定差距；当以Xgboost、梯度提升树(Gradient Boosting Decision Tree，GBDT)等集成模型建模的方式进行预测及解释时，虽然其指标效果可达到要求，但是非线性模型对预测结果的可解释性低，无法根据预测出的结果推断产生此结果的具体原因。故而，现有技术中的方案往往在模型指标效果与模型的可解释性上无法全部满足。

基于上述步骤S101至步骤S104所限定的方案，可以获知，在本发明实施例中，采用基于特征重要比例和归因值对信贷违约风险预测结果的发生原因的进行判断的方式，通过获取目标对象的信贷特征集合，并对信贷特征集合进行预测，得到预测结果和第一结果，然后在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果，从而基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，信贷特征集合包括从属于至少一个特征类别的多个特征信息，预测结果表征目标对象是否具有违约风险，第一结果包括每个特征类别对预测结果的第一特征重要比例，以及每个特征信息对预测结果的第二特征重要比例，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。

在一种可选的实施例中，第二结果包括每个特征类别对应的归因值以及每个特征信息对应的归因值。

可选的，在本实施例中，当解释模型对信贷特征集合中的每个特征信息进行归因计算得到每个特征信息对应的归因值之后，解释模型还可以基于每个特征信息对应的归因值确定每个特征类别的归因值，从而将每个特征类别对应的归因值以及每个特征信息对应的归因值作为第二结果。

需要说明的是，通过确定每个特征类别对应的归因值，以用于确定异常特征类别。

在一种可选的实施例中，在对信贷特征集合进行预测，得到预测结果和第一结果的过程中，风险预警系统可以基于预设模型对信贷特征集合进行预测，得到预测结果，然后基于每个特征信息的特征重要度确定每个特征信息所对应的第二特征重要比例，接着对每个特征类别所对应的特征信息的第二特征重要比例进行相加处理，得到每个特征类别的类别特征重要比例，然后对信贷特征集合中所有特征信息的第二特征重要比例进行相加处理，得到总特征重要比例，从而基于类别特征重要比例和总特征重要比例确定第一特征重要比例。其中，特征重要度表征特征信息对预测结果的影响程度。

其中，在基于每个特征信息的特征重要度确定每个特征信息所对应的第二特征重要比例的过程中，风险预警系统可以基于预设模型确定每个特征信息的特征重要度，然后对信贷特征集合中所有特征信息的特征重要度进行相加处理，得到总特征重要度，从而基于特征重要度和总特征重要度确定第二特征重要比例。

可选的，预设模型为Xgboost模型。Xgboost的每一棵树生长的过程中，通过计算每个特征的Gain系数选择当前需要进行分裂的特征，具体地，计算过程如下所示：

其中，

是左子树的得分，

是右子树的得分，

是不分裂的得分，γ是加入新叶子节点后的复杂度代价。通过计算每一个特征信息的Gani，可以得到Xgboost模型中每一棵树的每一个特征的Gani值，取平均值，即表示了每个特征信息的特征重要程度，公式如下所示：

其中，Fea_Gani表示该特征信息的特征重要度，Gain_i表示该特征在第i个树的Gani值，n表示Xgboost模型中树的总数。

进一步地，在确定了每个特征信息的重要度之后，风险预警系统可以基于预设模型对特征信息的第二特征重要比例进行计算，公式如下：

其中，Fea_rate表示第二特征重要比例，Fea_i表示第i个特征信息的特征重要度，m表示信贷特征集合中特征信息的总个数。可选的，所有特征信息的第二特征重要比例之和为1，且某个特征信息的第二特征重要比例越大，说明该特征信息越重要，对模型的影响程度越大。在本实施例中，部分特征信息的第二特征重要比例如下所示：

表2特征信息-第二特征重要比例

指标信息	第二特征重要比例
		法人流水近N月交易余额均值	0.03
法人流水近N月交易余额最大值	0.013
		法人流水近N月交易余额标准差	0.063
...	...
		合计	1

从表2中可以看出，“法人流水近N月交易余额均值”的第二特征重要比例相对更高，说明其对模型的影响程度相对更大，该特征信息相对更加重要。

需要说明的是，通过基于每个特征信息的特征重要度确定第二特征重要比例，实现了对每个特征信息在所有特征信息中的重要程度的准确确定，从而便于获取更准确的第一结果。

进一步地，在确定了第二特征重要比例之后，风险预警系统可以基于预设模型对特征类别的第一特征重要比例进行计算，公式如下：

其中，Fea_cls_rate(c)表示特征类别c对应的第一特征重要比例，Fea_rate(c)_i表示特征类别c对应的所有特征信息中第i个特征信息的第二特征重要比例，m表示特征类别c对应的特征信息的总个数，Fea_rate_j表示第j个特征信息的第二特征重要比例，n表示信贷特征结合中的特征信息的总个数。其中，所有特征类别的第一特征重要比例之和为1，某个特征类别的第一特征重要比例越大，说明该特征类别对模型的影响程度越大。

在本实施例中，部分特征类别的第一特征重要比例如下所示：

表3特征类别-第一特征重要比例

指标小类示例	特征重要性
		法人流水	0.231
个人流水	0.349
		个人资产	0.153
法人资产	0.323
		...	...
合计	1

从表3中可以看出，“法人流水”的第一特征重要比例相对更高，说明其对模型的影响程度相对更大，该特征类别相对更加重要。

需要说明的是，通过基于每个特征信息的第二特征重要比例确定第一特征重要比例，实现了对每个特征类别在所有特征类别中的重要程度的准确确定，从而便于获取更准确的第一结果。

在一种的可选的实施例中，在对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果的过程中，风险预警系统可以通过解释模型基于信贷特征集合确定每个特征信息的归因值，并对从属于相同特征类别的特征信息的归因值进行相加处理，得到每个特征类别对应的归因值。

可选的，在本实施例中，当确定了第一结果之后，风险预警系统可以将各特征信息、第一结果以及前述的预设模型的结构文件输入至解释模型中，以基于解释模型确定第二结果。

具体地，解释模型为Tree SHAP模型。该模型通过一个简单的解释模型解释原始的复杂模型，定义为原始模型的任意解释逼近。其将Shapley值解释表示为一种可加特征归因方法，并将模型的预测值解释为每个特征信息的归因值之和，表达公式如下所示：

其中，g是解释模型，φ₀为解释模型的常数，φ_j是每个特征信息的Shapley值(即归因值)。且可以基于如下公式计算每个特征的归因值：

其中，φ_j表示第j个特征信息的Shapley值，{x1,…xp}表示所有特征信息的集合(即信贷特征集合)，p表示信贷特征集合中特征信息的总个数，在任意排列组合下有p！种组合情况，{x1,…xp}\{x_j}表示为不包含{x_j}的所有特征信息的可能集合，fx(S)表示特征子集S的预测，

表示子集S的特征信息组合情况占比，所有可能的子集S的特征信息组合情况占比之和等于1。由此，实现对每个特征信息的Shapley值的确定。

进一步地，在确定了每个特征信息的归因值之后，将对应于同一特征类别的特征信息的归因值相加，即可得到对应特征类别的归因值。

需要说明的是，基于信贷特征集合确定每个特征信息的归因值，实现了对每个特征信息的归因值的准确确定，从而便于得到更加准确的第二结果。

在一种可选的实施例中，在基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息的过程中，风险预警系统可以通过解释模型基于第一结果和第二结果得到解释结果，从而基于解释结果确定信贷特征集合中的异常特征类别以及异常特征信息。其中，解释结果表征每个特征类别对预测结果的贡献度，以及每个特征信息对预测结果的贡献度。

可选的，风险预警系统可以对第一结果中每个特征信息对应的第二特征重要比例以及第二结果中每个特征信息的归因值进行计算，以确定每个特征信息对预测结果的贡献度，还可以对第一结果中每个特征类别对应的第一特征重要比例以及第二结果中每个特征类别的归因值进行计算，以确定每个特征类别对预测结果的贡献度，从而从所有特征信息中选出对预测结果的贡献度最高的特征信息为异常特征信息，从所有特征类别中选出对预测结果的贡献度最高的特征类别为异常特征类别。

需要说明的是，通过确定每个特征类别对预测结果的贡献度，以及每个特征信息对预测结果的贡献度，可以更准确的筛选出异常特征信息和异常特征类别。

在一种可选的实施例中，在基于第一结果和第二结果得到解释结果的过程中，解释模型可以将每个特征类别的归因值与对应的第一特征重要比例进行相乘处理，得到每个特征类别对应的第一数值，从而基于每个特征类别对应的第一数值确定每个特征类别对预测结果的贡献度；并将每个特征信息的归因值与对应的第二特征重要比例进行相乘处理，得到每个特征信息对应的第二数值，从而基于每个特征信息对应的第二数值确定每个特征信息对预测结果的贡献度。

具体地，由于Xgboost模型计算得出的每个特征信息的第二特征重要比例可以表征每一个特征信息对模型训练、预测过程的重要程度，且所有第二特征重要比例的和为1，因此，可以将其作为权重优化解释模型中的算法，以得到更准确的解释结果，计算公式如下：

其中，g(z’)表示第z个目标对象对应的解释模型，φ₀为解释模型的常数，n表示特征信息的总个数，φ_j表示第i个特征信息的shapley值，Fea_rate_i表示第i个特征信息的第二特征重要比例，并将其作为第i个特征信息的归因值的权重。由此，可以确定每个特征信息对预测结果的贡献度。

进一步地，由于特征信息的数量可能较多，还可以可把各特征信息按所属特征类别进行合并，并计算特征类别对预测结果的贡献度，公式如下：

其中，g(z’，c)表示第z个目标对象对应的解释模型，n表示特征类别c所对应的特征信息的数量，φ_i(c)表示特征类别c所对应的所有特征信息中第i个特征信息的归因值，Fea_cls_rate(c)表示特征类别c的第一特征重要比例，并将其作为特征类别c的归因值的权重，j表示特征类别的总个数。

需要说明的是，通过将第一结果作为第二结果的权重计算解释结果，可以更准地计算出特征类别和特征信息对预测结果的贡献度，进而便于更准确的筛选出异常特征信息和异常特征类别。

在一种可选的实施例中，可选的，对本申请中一种可选的风险预警系统的工作过程进行说明。如图2所示，将目标对象的信贷特征集合输入至预设模型中，得到预测结果以及第一结果，然后将信贷特征集合、第一结果以及预设模型结构输入至解释模型中，得到解释结果。最后风险预警系统基于解释结果输出异常特征信息和异常特征类别，并同时输出预测结果和第一结果。其中，风险预警系统输出的信息如下所示：

表4风险预警系统输出信息(特征信息)

在表4中，目标对象ID用于确定目标对象身份，第一结果对应的数值可以表征异常特征信息对应的特征重要度或第二特征重要比例，预测结果对应的数值用于表征目标对象是否具有违约风险，例如，当数值为0时表征目标对象具有违约风险，当数值为1时表征目标对象不具有违约风险，异常特征信息(1)所对应的特征信息表征预测结果的贡献度最高的特征信息，异常特征信息(2)所对应的特征信息表征预测结果的贡献度次高的特征信息。

表5风险预警系统输出信息(特征类别)

目标对象ID	第二结果	预测结果	异常特征类别(1)	异常特征类别(2)
					0101*******1277	0.003459497	0	个人流水	个人信贷
0101*******6518	0.006582637	0	个人征信报告	企业基本信息
					0101*******1428	0.039281327	0	个人流水	个人资产

在表5中，目标对象ID用于确定目标对象身份，第二结果对应的数值可以表征异常特征类别对应的所有特征信息的特征重要度之和或第一特征重要比例，预测结果对应的数值用于表征目标对象是否具有违约风险，例如，当数值为0时表征目标对象具有违约风险，当数值为1时表征目标对象不具有违约风险，异常特征类别(1)所对应的特征类别表征预测结果的贡献度最高的特征类别，异常特征类别(2)所对应的特征类别表征预测结果的贡献度次高的特征类别。

在一种可选的实施例中，在对信贷特征集合进行预测，得到预测结果和第一结果之前，风险预警系统可以获取至少一个历史信贷对象的初始信贷特征集合，然后基于至少一个训练好的第一预测模型对每个初始特征类别所对应的初始特征信息进行处理，得到每个初始特征信息所对应的初始特征重要度，接着基于初始特征重要度从每个初始特征类别所对应的初始特征信息中筛选出目标特征信息，从而基于目标特征信息对第二预测模型进行训练，得到目标预测模型，每个初始特征类别与一个第一预测模型相对应，初始信贷特征集合包括从属于不同初始特征类别的多个初始特征信息，目标特征信息与特征信息相对应，目标预测模型用于对每个信贷特征集合进行预测，并得到预测结果和第一结果。

可选的，对前述的预设模型的训练过程进行说明。具体地，在本实施例中，风险预警系统可以从包含历史客户贷款逾期信息的数据表中获取有关逾期日期以及项目的相关字段内容，然后从包含客户基本信息、客户征信、客户资产、客户流水、工商信息、客户税务等业务数据表中探查有用的字段(即未处理的初始特征信息)，并探查数据的时间跨度是否符合样本构建需求和系统需求。之后，可以参考专家业务经验，运用RFM方法对未处理的初始特征信息进行特征衍生，丰富各维度特征变量，并基于特征的相关性、IV值、PSI等相关方法对特征衍生后的未处理的初始特征信息进行筛选，得到初始特征信息，从而刻画出更为全面精准的客户风险画像。

进一步地，在确定了所需要统计的初始特征信息后，风险预警系统可以以2018年X月至2020年Y月期间的经营信贷客户为基础，按时间跨度以2018年X月至2020年M月作为训练样本，以2020年N月至2020年Y月作为验证样本。并通过是否存在逾期T天及以上的条件进行好坏客户的标记，其中，包括法人贷款出现不良、逾期；法人征信贷款、信用证存在不良、逾期；法人征信存在失信被执行记录；法人经营快贷出现不良；个人贷款出现不良；个人征信贷款或贷记卡不良；个人征信存在呆账、资产处置、保证人代偿或者失信被执行记录；个人经营快贷出现不良等情况并超过预设天数T天的视为坏客户，未存在前述情况视为好客户。从而实现样本构建。

更进一步地，如图3所示，风险预警系统可以将样本数据按特征类别拆分，将不同特征类别对应的样本数据输入至不同的训练好的第一预测模型，例如，在图3中，将“法人流水”、“个人流水”、“法人资产”、“个人资产”四个特征类别对应的样本数据分别输入到四个第一预测模型中。从而基于至少一个训练好的第一预测模型对每个初始特征类别所对应的初始特征信息进行处理，得到每个初始特征信息所对应的初始特征重要度。其中，第一预测模型优选为Xgboost模型。

其中，风险预警系统可以预先对第一预测模型进行训练，在对第一预测模型进行训练进行训练的过程中，风险预警系统可以将样本数据按时间跨度和特征类别拆分，对每一个特征类别对应的样本数据依次进行第一预测模型的训练和验证，并在不同的数据集下进行模型的调优工作，以得到训练好的第一预测模型。

在确定每个第一预测模型中的每个初始特征信息所对应的初始特征重要度之后，如图3所示，风险预警系统可以在每个初始特征类别中选出特征重要度前10的初始特征信息作为目标特征信息，该目标特征信息用于确定预设模型在实际应用时，所需要获取的目标对象的信贷特征集合。

进一步地，如图3所示，将前述的目标特征信息输入至第二预测模型进行训练，从而得到目标预测模型，也即预设模型。其中，第二预测模型优选为Xgboost模型，在本实施例中，得到的目标预测模型学习率设置为0.1，树的个数为241个，树的最大深度为5，优化函数为:binary:logistic，随机种子为27。

由此可见，本申请所提供的方案达到了基于特征重要比例和归因值对信贷违约风险预测结果的发生原因的进行判断的方式的目的，提升业务效果的同时又保证了业务的可理解性，在很大程度上降低了业务人员进行客户跟踪、监测的劳动力成本，实现了提高对风险预警原因判断的准确性的技术效果，进而解决了现有技术对信贷违约风险预测结果的发生原因判断不准确技术问题。且需要强调的是，本申请可以应用于金融科技领域中预测信贷用户的信贷违约风险以及原因的场景，也可以应用于金融科技领域中的其它场景，还可以应用于其它领域。

实施例2

根据本发明实施例，提供了一种数据确定装置的实施例，其中，图4是根据本发明实施例的一种可选的数据确定装置的示意图，如图4所示，该装置包括：

获取模块401，用于获取目标对象的信贷特征集合，其中，信贷特征集合包括从属于至少一个特征类别的多个特征信息；

预测模块402，用于对信贷特征集合进行预测，得到预测结果和第一结果，其中，预测结果表征目标对象是否具有违约风险，第一结果包括每个特征类别对预测结果的第一特征重要比例，以及每个特征信息对预测结果的第二特征重要比例；

计算模块403，用于在预测结果表征目标对象具有违约风险的情况下，对目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果；

确定模块404，用于基于第一结果和第二结果确定信贷特征集合中的异常特征类别以及异常特征信息，其中，异常特征类别为对预测结果的贡献度最高的特征类别，异常特征信息为对预测结果的贡献度最高的特征信息。

需要说明的是，上述获取模块401、预测模块402、计算模块403以及确定模块404对应于上述实施例中的步骤S101至步骤S104，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，第二结果包括每个特征类别对应的归因值以及每个特征信息对应的归因值。

可选的，预测模块还包括：子预测模块，用于基于预设模型对信贷特征集合进行预测，得到预测结果；第一子确定模块，用于基于每个特征信息的特征重要度确定每个特征信息所对应的第二特征重要比例，其中，特征重要度表征特征信息对预测结果的影响程度；第一处理模块，用于对每个特征类别所对应的特征信息的第二特征重要比例进行相加处理，得到每个特征类别的类别特征重要比例；第二处理模块，用于对信贷特征集合中所有特征信息的第二特征重要比例进行相加处理，得到总特征重要比例；第二子确定模块，用于基于类别特征重要比例和总特征重要比例确定第一特征重要比例。

可选的，第一子确定模块还包括：第三子确定模块，用于确定每个特征信息的特征重要度；第三处理模块，用于对信贷特征集合中所有特征信息的特征重要度进行相加处理，得到总特征重要度；第四子确定模块，用于基于特征重要度和总特征重要度确定第二特征重要比例。

可选的，计算模块还包括：第五子确定模块，用于基于信贷特征集合确定每个特征信息的归因值；第四处理模块，用于对从属于相同特征类别的特征信息的归因值进行相加处理，得到每个特征类别对应的归因值。

可选的，确定模块还包括：第五处理模块，用于基于第一结果和第二结果得到解释结果，其中，解释结果表征每个特征类别对预测结果的贡献度，以及每个特征信息对预测结果的贡献度；第六处理模块，用于基于解释结果确定信贷特征集合中的异常特征类别以及异常特征信息。

可选的，第五处理模块还包括：第七处理模块，用于将每个特征类别的归因值与对应的第一特征重要比例进行相乘处理，得到每个特征类别对应的第一数值；第六确定模块，用于基于每个特征类别对应的第一数值确定每个特征类别对预测结果的贡献度；第八处理模块，用于将每个特征信息的归因值与对应的第二特征重要比例进行相乘处理，得到每个特征信息对应的第二数值；第七子确定模块，用于基于每个特征信息对应的第二数值确定每个特征信息对预测结果的贡献度。

可选的，数据确定模块还包括：子获取模块，用于获取至少一个历史信贷对象的初始信贷特征集合，其中，初始信贷特征集合包括从属于不同初始特征类别的多个初始特征信息；第九处理模块，用于基于至少一个训练好的第一预测模型对每个初始特征类别所对应的初始特征信息进行处理，得到每个初始特征信息所对应的初始特征重要度，其中，每个初始特征类别与一个第一预测模型相对应；筛选模块，用于基于初始特征重要度从每个初始特征类别所对应的初始特征信息中筛选出目标特征信息，其中，目标特征信息与特征信息相对应；训练模块，用于基于目标特征信息对第二预测模型进行训练，得到目标预测模型，其中，目标预测模型用于对每个信贷特征集合进行预测，并得到预测结果和第一结果。

实施例3

根据本发明实施例的另一方面，还提供了计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的数据确定方法。

实施例4

根据本发明实施例的另一方面，还提供了一种电子设备，其中，图5是根据本发明实施例的一种可选的电子设备的示意图，如图5所示，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的数据确定方法。

实施例5

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据确定方法，其特征在于，包括：

获取目标对象的信贷特征集合，其中，所述信贷特征集合包括从属于至少一个特征类别的多个特征信息；

对所述信贷特征集合进行预测，得到预测结果和第一结果，其中，所述预测结果表征所述目标对象是否具有违约风险，所述第一结果包括每个特征类别对所述预测结果的第一特征重要比例，以及每个特征信息对所述预测结果的第二特征重要比例；

在所述预测结果表征所述目标对象具有违约风险的情况下，对所述目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果；

基于所述第一结果和所述第二结果确定所述信贷特征集合中的异常特征类别以及异常特征信息，其中，所述异常特征类别为对所述预测结果的贡献度最高的特征类别，所述异常特征信息为对所述预测结果的贡献度最高的特征信息。

2.根据权利要求1所述的方法，其特征在于，所述第二结果包括每个特征类别对应的归因值以及每个特征信息对应的归因值。

3.根据权利要求1所述的方法，其特征在于，对所述信贷特征集合进行预测，得到预测结果和第一结果，包括：

基于预设模型对所述信贷特征集合进行预测，得到所述预测结果；

基于所述每个特征信息的特征重要度确定所述每个特征信息所对应的第二特征重要比例，其中，所述特征重要度表征所述特征信息对所述预测结果的影响程度；

对所述每个特征类别所对应的特征信息的第二特征重要比例进行相加处理，得到所述每个特征类别的类别特征重要比例；

对所述信贷特征集合中所有特征信息的第二特征重要比例进行相加处理，得到总特征重要比例；

基于所述类别特征重要比例和所述总特征重要比例确定所述第一特征重要比例。

4.根据权利要求3所述的方法，其特征在于，基于所述每个特征信息的特征重要度确定所述每个特征信息所对应的第二特征重要比例，包括：

确定所述每个特征信息的特征重要度；

对所述信贷特征集合中所有特征信息的特征重要度进行相加处理，得到总特征重要度；

基于所述特征重要度和所述总特征重要度确定所述第二特征重要比例。

5.根据权利要求2所述的方法，其特征在于，对所述目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果，包括：

基于所述信贷特征集合确定所述每个特征信息的归因值；

对从属于相同特征类别的特征信息的归因值进行相加处理，得到所述每个特征类别对应的归因值。

6.根据权利要求5所述的方法，其特征在于，基于所述第一结果和所述第二结果确定所述信贷特征集合中的异常特征类别以及异常特征信息，包括：

基于所述第一结果和所述第二结果得到解释结果，其中，所述解释结果表征所述每个特征类别对所述预测结果的贡献度，以及所述每个特征信息对所述预测结果的贡献度；

基于所述解释结果确定所述信贷特征集合中的异常特征类别以及异常特征信息。

7.根据权利要求6所述的方法，其特征在于，基于所述第一结果和所述第二结果得到解释结果，包括：

将所述每个特征类别的归因值与对应的第一特征重要比例进行相乘处理，得到所述每个特征类别对应的第一数值；

基于所述每个特征类别对应的第一数值确定所述每个特征类别对所述预测结果的贡献度；

将所述每个特征信息的归因值与对应的第二特征重要比例进行相乘处理，得到所述每个特征信息对应的第二数值；

基于所述每个特征信息对应的第二数值确定所述每个特征信息对所述预测结果的贡献度。

8.根据权利要求1所述的方法，其特征在于，在对所述信贷特征集合进行预测，得到预测结果和第一结果之前，所述方法还包括：

获取至少一个历史信贷对象的初始信贷特征集合，其中，所述初始信贷特征集合包括从属于不同初始特征类别的多个初始特征信息；

基于至少一个训练好的第一预测模型对每个初始特征类别所对应的初始特征信息进行处理，得到每个初始特征信息所对应的初始特征重要度，其中，每个初始特征类别与一个第一预测模型相对应；

基于所述初始特征重要度从每个初始特征类别所对应的初始特征信息中筛选出目标特征信息，其中，目标特征信息与所述特征信息相对应；

基于所述目标特征信息对第二预测模型进行训练，得到目标预测模型，其中，所述目标预测模型用于对每个信贷特征集合进行预测，并得到预测结果和第一结果。

9.一种数据确定装置，其特征在于，包括：

获取模块，用于获取目标对象的信贷特征集合，其中，所述信贷特征集合包括从属于至少一个特征类别的多个特征信息；

预测模块，用于对所述信贷特征集合进行预测，得到预测结果和第一结果，其中，所述预测结果表征所述目标对象是否具有违约风险，所述第一结果包括每个特征类别对所述预测结果的第一特征重要比例，以及每个特征信息对所述预测结果的第二特征重要比例；

计算模块，用于在所述预测结果表征所述目标对象具有违约风险的情况下，对所述目标对象的信贷特征集合中的每个特征信息进行归因计算，得到第二结果；

确定模块，用于基于所述第一结果和所述第二结果确定所述信贷特征集合中的异常特征类别以及异常特征信息，其中，所述异常特征类别为对所述预测结果的贡献度最高的特征类别，所述异常特征信息为对所述预测结果的贡献度最高的特征信息。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的数据确定方法。

11.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至8任一项中所述的数据确定方法。

12.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的数据确定方法。