CN117196830A

CN117196830A - 征信基础特征自动化衍生的方法、系统、设备及存储介质

Info

Publication number: CN117196830A
Application number: CN202311262024.XA
Authority: CN
Inventors: 刘银龙; 田羽; 兰翔; 钟磊
Original assignee: Wuhan Zhongbang Bank Co Ltd
Current assignee: Wuhan Zhongbang Bank Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-08

Abstract

本发明提供一种征信基础特征自动化衍生的方法、系统、设备及存储介质，涉及信用评分建模领域。主要方案包括：获取原始征信数据；将多个征信数据子表合并，组成宽表F₁；对合并过后的数据进行预处理；包括：提前根据征信基础特征的属性、字段含义将所有特征区分为条件字段与目标字段，分别对条件字段中的数值型特征与字符型特征进行分箱处理，得到宽表F₂；对预处理完成的数据进行分组及聚合得到新的衍生特征；最终对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征。目的在于解决如何充分挖掘征信数据潜力，尝试构建一种新的特征衍生方法来辅助信用评分建模，从而底层特征效果提升促进提高原有信用模型的区分效果。

Description

征信基础特征自动化衍生的方法、系统、设备及存储介质

技术领域

本发明涉及信用评分建模技术领域，尤其涉及一种征信基础特征自动化衍生的方法、系统、设备及存储介质。

背景技术

风控技术是现代金融的基石之一，而风控模型在风控技术中扮演着关键的角色。在互联网金融时代，由于面向个人的小微企业的普惠特性，自动化风控是降低风险成本的必由之路，风控建模在自动化风控中应用广泛。

风控建模模型的效果依赖于基础数据，这决定了建模样本集和入模变量对风控模型的有效性产生关键性影响。金融企业在风控建模前会获取用户大量基础变量和衍生变量，经筛选作为风控模型的入模变量。其中最权威也是泛用性最强的数据来源就是人行征信报告。如何对人行征信报告进行充分的运用，显得尤为重要。

在人行特征挖掘的问题上，机构常用的方法较多是针对某产品制定一些强规则，比如是否有严重逾期的信贷、是否近期有不良状态的贷款等比较简单的逻辑，使用于全部风控场景；或是仅仅针对信贷方面比较明显的字段如违约信息等，其他例如公积金、公共信息或是个人信息都挖掘较少，很少会用专业的统计方法去充分衍生变量，对比各方式在各场景下的效果。

鉴于上述几种常见人行征信特征衍生方法中存在的问题，本发明围绕如何充分挖掘人行征信报告，尝试构建一种新的特征衍生方法来解决现有技术中人行征信变量的开发时间和人力有限、衍生方法有限、以及报告内容挖掘不全面的问题。

发明内容

针对现有技术中存在的技术问题，本发明提供一种征信基础特征自动化衍生的方法、系统、设备及存储介质，用以解决如何充分挖掘征信数据潜力，尝试构建一种新的特征衍生方法来辅助信用评分建模，确保得到的建模模型的最佳准确度。

根据本发明的第一方面，本发明提供征信基础特征自动化衍生的方法，包括：

步骤1、获取用户所有相关的原始征信基础数据；

步骤2、将多个征信数据子表合并；包括：将用户所有征信基础数据子表按报告编号与账户编号连接，组成宽表F₁；宽表包含每个客户名下所有账户以及所有明细数据；

步骤3、对合并过后的数据进行预处理；包括：提前根据征信基础特征的属性、字段含义将所有特征区分为条件字段与目标字段，分别对条件字段中的数值型特征与字符型特征进行分箱处理，得到宽表F₂；

步骤4、对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，得到最新的衍生特征数据集；

步骤5、对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述征信基础数据包括但不限于个人基本信息、信贷交易信息明细、非信贷交易息明细、公共信息明细、民事判决记录、强制执行记录、行政处罚记录、住房公积金参缴记录、低保救助记录、执业资格记录、行政奖励记录、标注及声明、查询记录信息、近60个月还款情况和透支金额。

可选的，所述分别对条件字段中的数值型特征与字符型特征进行分箱处理，得到宽表F₂包括以下步骤：

步骤3.1、提前筛选出所有征信基础变量中能够作为条件字段或者目标字段的变量，并规定好聚合函数；

步骤3.2、对条件字段中的数值型变量进行等频分箱方便后续分组聚合，字符型变量可以直接作为类别使用；

步骤3.3、统计所有条件字段以及目标字段的个数，并规定分组时使用几个条件字段进行组合形成衍生规则，利用排列组合原理估算最终能够衍生的特征个数，并将其保存为文档。

可选的，所述对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，得到最新的衍生特征数据集包括以下子步骤：

步骤4.1、遍历步骤2中所保存的变量衍生规则，每次衍生的变量个数为n；

步骤4.2、根据衍生规则每次对数据集F₂进行分组聚合，得到单个特征的衍生特征数据集；

步骤4.3、在每次循环中把每个单个特征的衍生特征数据集进行上下拼接，构成所有特征的衍生特征数据集F₃。

可选的，所述对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，得到最新的衍生特征数据集还包括：对所有特征的衍生特征数据集进行行转列操作，得到衍生变量数据集F₄；所述衍生特征数据集为：

F₃＝[var_name,id_card,Condition1,Conditon2,Target]

其中，var_name为新衍生变量名，id_card为客户编号，Condition1是作为条件的第一个特征，Condition2是作为条件的第二个特征，Target为目标值特征。

可选的，所述衍生变量数据集F₄为：

F₄＝[id_card,var_name¹,var_name²,…,var_name^j]；

其中，上标j表示新衍生变量的序号。

可选的，所述对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征包括以下子步骤：

步骤5.1、给衍生变量数据集F₄进行打标，标签为自定义的风险指标y，得到最终的衍生变量数据集；

步骤5.2、根据衍生变量数据集F₅，对其中的所有新衍生变量进行单变量测试，主要评估指标为IV值与缺失率，筛选阈值为自定义；

步骤5.3、基于步骤5.2中最终所筛选出的新衍生变量进行Lift分箱计算，并评估其可解释性，筛选出既对风险指标y有提升，又在业务场景中具有可解释性，符合先验经验的衍生变量，留存其衍生规则并后续扩大样本量再进行评估。

根据本发明的第二方面，提供一种征信基础特征自动化衍生的系统，包括：

数据获取模块，用于获取用户所有相关的原始征信基础数据；

数据合并模块，用于将多个征信数据子表合并；包括：将用户所有征信基础数据子表按报告编号与账户编号连接，组成宽表；宽表包含每个客户名下所有账户以及所有明细数据；

数据处理模块，用于对合并过后的数据进行预处理；对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，聚合函数自定义，得到最新的衍生特征数据集；

数据筛选模块，用于对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述一种征信基础特征自动化衍生的方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述所述一种征信基础特征自动化衍生的方法。

本发明的技术效果和优点：

本发明提供一种征信基础特征自动化衍生的方法、系统、设备及存储介质，通过获取原始征信数据；含个人基本信息、信贷交易信息明细、非信贷交易息明细、查询明细等；将多个征信数据子表合并，对合并过后的数据进行预处理；对预处理完成的数据进行分组及聚合得到新的衍生特征；最终对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征。用以解决如何充分挖掘征信数据潜力，尝试构建一种新的特征衍生方法来辅助信用评分建模，确保得到的建模模型的最佳准确度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

图1是本发明实施例提供的征信基础特征自动化衍生的方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以理解的是，基于背景技术中的缺陷，本发明实施例提出了一种征信基础特征自动化衍生的方法，具体如图1所示，所述方法包括以下步骤：

步骤1、获取用户所有相关的原始征信基础数据；

所述征信基础数据包括个人基本信息、信贷交易信息明细、非信贷交易息明细、公共信息明细、民事判决记录、强制执行记录、行政处罚记录、住房公积金参缴记录、低保救助记录、执业资格记录、行政奖励记录、标注及声明、查询记录信息、近60个月还款情况和透支(逾期)金额。

步骤2、将多个征信数据子表合并；包括：将用户所有征信基础数据子表按报告编号与账户编号连接，组成宽表；宽表包含每个客户名下所有账户以及所有明细数据；

其中，将所有征信基础数据子表按报告编号与账户编号连接，组成一张宽表F₁，如下所示：

其中上标j表示特征数，下标表示样本数(客户编号)，宽表F₁包含每个客户名下所有账户以及所有明细数据，因此主键报告编号存在重复。

步骤3、对合并过后的数据进行预处理；预处理包括：对拼接之后的宽表进行数据预处理，提前根据征信基础特征的属性、字段含义将所有特征区分为条件(Conditon)字段与目标(Target)字段，分别对条件字段中的数值型特征与字符型特征进行分箱或其他处理，得到宽表F₂，如下所示：

上述技术方案中，所述分别对条件字段中的数值型特征与字符型特征进行分箱处理，得到宽表F₂通过以下方式实现：

步骤3.1、提前筛选出所有征信基础变量中能够作为条件字段Condition或者目标字段Target的变量，并规定好聚合函数；

步骤3.2、对条件字段Condition中的数值型变量进行等频分箱方便后续分组聚合，字符型变量可以直接作为类别使用；

步骤3.3、统计所有条件字段Condition以及目标字段Target的个数，并规定分组时使用几个条件字段Condition进行组合形成衍生规则，利用排列组合原理估算最终能够衍生的特征个数，并将其保存为文档以免后续衍生时产生重复问题。

本实施例中，聚合函数自定义，例如平均数、总数、标准差，求和等，所述得到最新的衍生特征数据集包括以下子步骤：

步骤4.3、在每次循环中把每个单个特征的衍生特征数据集进行上下拼接，构成所有特征的衍生特征数据集F₃，如下所示：

F₃＝[var_name,id_card,Conditon1,Conditon2,Target]

或

其中var_name为新衍生变量名，id_card为客户编号，Condition1是作为条件的第一个特征，Condition2是作为条件的第二个特征，Target为目标值特征。

另外，得到最新的衍生特征数据集还包括：按var_name与id_card进行行转列操作，得到最终的衍生变量数据集F₄；

进一步地，具体包括：对所有特征的衍生特征数据集进行行转列操作，使用pivot_table将索引设置为id_card，列设置为var_name，值设置为Target，聚合函数取最大值Max，得到新的衍生变量数据集F₄。

所述衍生变量数据集为：

F₄＝[id_card,var_name¹,var_name²,…,var_name^j]

其中上标j表示新衍生变量的序号。或

进一步地，具体包括：对最终生成的数据集F₄进行单变量评估，挑选其中兼顾变量效果与可解释性的变量进行保存。

上述技术方案中，所述对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征包括以下子步骤：

步骤5.1、给衍生变量数据集F₄进行打标，标签为自定义的风险指标，得到最终的衍生变量数据集F5；如下：

步骤5.2、根据衍生变量数据集F₅，对其中的所有新衍生变量var¹——var^j进行单变量测试，主要评估指标为IV值(Information Value)与缺失率(Missing Rate)，筛选阈值为自定义；

步骤5.3、基于步骤5.2中最终所筛选出的新衍生变量进行Lift分箱计算，并评估其可解释性，筛选出既对风险指标y有提升，又在业务场景中具有可解释性，符合先验经验的衍生变量，10000个新衍生特征中符合条件的特征3个。这三个特征可以先留存其衍生规则并后续扩大样本量再进行评估，也可以根据其他征信特征组合继续衍生新一批特征，后续利用多批次衍生的新特征构建模型观察效果。

综上，本发明实施例所述的方法通过获取原始征信数据；含个人基本信息、信贷交易信息明细、非信贷交易息明细、查询明细等；将多个征信数据子表合并，对合并过后的数据进行预处理；对预处理完成的数据进行分组及聚合得到新的衍生特征；最终对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征。用以解决如何充分挖掘征信数据潜力，尝试构建新的特征衍生方法来辅助信用评分建模，能够确保得到的建模模型的最佳准确度。

与此同时，本发明实施例还提供了一种征信基础特征自动化衍生的系统，包括：

数据处理模块，用于对合并过后的数据进行预处理；包括：提前根据征信基础特征的属性、字段含义将所有特征区分为条件字段与目标字段，分别对条件字段中的数值型特征与字符型特征进行分箱处理，得到宽表F₂；对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，聚合函数自定义，得到最新的衍生特征数据集；

可以理解的是，本发明提供的一种征信基础特征自动化衍生的系统与前述各实施例提供的征信基础特征自动化衍生的相对应，征信基础特征自动化衍生系统的相关技术特征可参考征信基础特征自动化衍生的方法的相关技术特征，在此不再赘述。

本发明实施例还提供了一种电子设备，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)、存储器(memory)和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令，以执行上述所述的一种征信基础特征自动化衍生的方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述所提供的征信基础特征自动化衍生的方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述所提供的征信基础特征自动化衍生的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种征信基础特征自动化衍生的方法，其特征在于，包括以下步骤：

步骤1、获取用户所有相关的原始征信基础数据；

步骤2、将多个征信数据子表合并；包括：将用户所有征信基础数据子表按报告编号与账户编号连接，组成宽表F₁；所述宽表F₁包含每个客户名下所有账户以及所有明细数据；

2.根据权利要求1所述的一种征信基础特征自动化衍生的方法，其特征在于，所述征信基础数据包括但不限于个人基本信息、信贷交易信息明细、非信贷交易息明细、公共信息明细、民事判决记录、强制执行记录、行政处罚记录、住房公积金参缴记录、低保救助记录、执业资格记录、行政奖励记录、标注及声明、查询记录信息、近60个月还款情况和透支金额。

3.根据权利要求1所述的一种征信基础特征自动化衍生的方法，其特征在于，所述分别对条件字段中的数值型特征与字符型特征进行分箱处理，得到宽表F₂包括以下步骤：

4.根据权利要求1所述的一种征信基础特征自动化衍生的方法，其特征在于，其特征在于，所述对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，得到最新的衍生特征数据集包括以下子步骤：

5.根据权利要求1所述的一种征信基础特征自动化衍生的方法，其特征在于，所述对预处理完成的数据中的条件字段进行分组，再以目标字段作为目标值进行聚合，得到最新的衍生特征数据集还包括：对所有特征的衍生特征数据集进行行转列操作，得到衍生变量数据集F₄；所述衍生特征数据集为：

F₃＝[var_name,id_,Condition1,Conditon2,Target]

6.根据权利要求5所述的一种征信基础特征自动化衍生的方法，其特征在于，所述衍生变量数据集F₄为：

F₄＝[_card,var_e¹,var_name²,…,var_name^j]

其中，上标j表示新衍生变量的序号。

7.根据权利要求1所述的一种征信基础特征自动化衍生的方法，其特征在于，所述对所有新衍生的特征进行评估建模，倒推特征的可解释性，筛选出可用特征包括以下子步骤：

步骤5.1、给衍生变量数据集F₄进行打标，标签为自定义的风险指标y，得到最终的衍生变量数据集F₅；

步骤5.3、基于步骤5.2中最终所筛选出的新衍生变量进行分箱计算，并评估其可解释性，筛选出既对风险指标有提升，又在业务场景中具有可解释性，符合先验经验的衍生变量，留存其衍生规则并后续扩大样本量再进行评估。

8.一种征信基础特征自动化衍生的系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述一种征信基础特征自动化衍生的方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种征信基础特征自动化衍生的方法。