CN117591852A

CN117591852A - 基于特征构建算法自动生成银行风控业务特征的方法

Info

Publication number: CN117591852A
Application number: CN202311651339.3A
Authority: CN
Inventors: 姚军勇; 周远; 张进
Original assignee: Hangzhou Guanyuan Data Co ltd
Current assignee: Hangzhou Guanyuan Data Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-02-23

Abstract

本申请涉及一种基于特征构建算法自动生成银行风控业务特征的方法，基于二代人行征信的自动化特征构建系统。在本申请中，系统可自动识别构建特征所需字段，根据场景自动配置特征工程所需参数，形成特征构建策略。操作人员可对上述步骤得出的特征，构建特征策略，并进行微调和确认。系统后续将根据特征策略，自动批量生产特征和基于特征。本申请收集了风控场景并构建有效特征的策略，当接收新的输入数据时确定表内的关键字段，并自动配置特征策略方案，即可自动产出有效特征。对比机械式遍历所有字段的做法，本发明在系统性能、减少特征冗余方面具备较大优势；对比由人工操作的方式，本发明解决了业务经验难以迁移的难点，减少了人工消耗。

Description

基于特征构建算法自动生成银行风控业务特征的方法

技术领域

本公开涉及技术领域，尤其涉及一种自动化特征构建系统、基于特征构建算法自动生成银行风控业务特征的方法和电子设备。

背景技术

银行风控业务传统的特征构建方式，是基于业务人员的经验去设计特征，这种方式严重依赖人员经验，难以通过方法迁移最大化地利用现有数据完成批量生产。

比如在实际的银行风控业务场景中，征信原始表字段量较大，其中大多数字段所含有效信息较少，不适用于构建特征。如果采用机械式遍历所有字段的做法，去构建特征必然导致系统性能问题，且产出特征存在大量冗余。而且，由操作人员人工选择需要进行特征构造的字段可缓解上述性能问题和冗余，但是产出特征效效果依赖操作人员本身业务经验，难以复制迁移业务经验。

机械式遍历所有字段的做法，同样消耗人工，效率极低。

发明内容

为了解决上述问题，本申请提出一种自动化特征构建系统、基于特征构建算法自动生成银行风控业务特征的方法和电子设备。

本申请一方面，提出一种自动化特征构建系统，包括：

数据层，用于获取银行风控业务的原始数据；

特征层，用于调用特征构建模型，遍历得到所述原始数据的构造特征，并根据遍历得到的构造特征，自动化构造并生成所述银行风控业务的特征数据集；

模型层，用于部署特征构建模型；

规则层，用于通过预设的特征评估，判断所述银行风控业务的特征数据集是否达标。

作为本申请的一可选实施方案，可选地，所述数据层，包括：

源数据对接模块，用于准备并输入原始数据：银行风控业务的宽表数据；

数据质量检查模块，用于按照预设的数据质量检查规则，对所述原始数据进行数据质量检查：

若所述原始数据通过所述数据质量检查规则，则将所述原始数据导入业务分层模块；

若不通过，则退回所述源数据对接模块，重新准备并输入新的所述原始数据；

业务分层模块，用于对所述原始数据进行数据业务分层预处理，按照业务数据类型，将所述原始数据分为如下两类的原始数据：

用户行为类，包括：征信查询记录表、负面交易表；

用户状态类，包括：征信基本信息表、征信借贷账户表；

以及，

对分层后的数据进行数据清洗，获得清洗后的宽表数据。

作为本申请的一可选实施方案，可选地，所述特征层，包括：

用户行为表，用于写入由所述业务分层模块分类得到的对应所述用户行为类的宽表数据；

用户状态表，用于写入由所述业务分层模块分类得到的对应所述用户状态类的宽表数据。

作为本申请的一可选实施方案，可选地，所述特征层，还包括：

模糊匹配模块，用于调用特征构建模型，并基于模糊匹配算法遍历所述用户行为表或所述用户状态表中由用户配置的配置策略，得到相应所述用户行为表或所述用户状态表中的构造特征的特征组合；根据特征组合生成所述用户行为表或所述用户状态表的特征数据集。

作为本申请的一可选实施方案，可选地，所述模糊匹配模块，还用于：

所述原始数据的特征构造，对所述用户行为表或所述用户状态表进行字段识别，确定所述用户行为表或所述用户状态表中的核心字段；

根据所述核心字段，确定出由用户配置的配置策略，包括：核心字段“是否查询”、分类字段、时间窗口和构造函数。

将所述用户行为表或所述用户状态表的所述特征数据集，写入预设的特征表中，得到所述银行风控业务的特征表。

作为本申请的一可选实施方案，可选地，所述规则层，包括：

IV分箱模块，用于评估所述银行风控业务的特征表中的各项特征，是否达到预设的分箱IV值；

特征分类模块，用于通过预设的分类模型，判断所述银行风控业务的特征表中的各项特征，对于政府样本的区分能力是否达标。

本申请另一方面，提出一种基于特征构建算法自动生成银行风控业务特征的方法，基于自动化特征构建系统进行实施，包括如下步骤：

数据层获取银行风控业务的原始数据；

特征层调用部署于模型层上的特征构建模型，遍历得到所述原始数据的构造特征，并根据遍历得到的构造特征，自动化构造并生成所述银行风控业务的特征数据集；

规则层通过预设的特征评估，判断所述银行风控业务的特征数据集是否达标。

本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现所述的一种基于特征构建算法自动生成银行风控业务特征的方法。

本发明的技术效果：

本申请通过为银行风控业务提供基于二代人行征信的自动化特征构建系统。在本申请中，系统可自动识别构建特征所需字段，根据场景自动配置特征工程所需参数，形成特征构建策略。操作人员可对上述步骤得出的特征，构建特征策略，并进行微调和确认。系统后续将根据特征策略，自动批量生产特征和基于特征。

本申请收集了风控场景并构建有效特征的策略，当接收新的输入数据时确定表内的关键字段，并自动配置特征策略方案，即可自动产出有效特征。对比机械式遍历所有字段的做法，本发明在系统性能、减少特征冗余方面具备较大优势；对比由人工操作的方式，本发明解决了业务经验难以迁移的难点，减少了人工消耗。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出为本发明的实施流程示意图；

图2示出为本发明的应用系统；

图3示出为本发明的组成结构示意图；

图4示出为本发明电子设备的应用示意图

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

如图1所示，本申请一方面，提出一种自动化特征构建系统，包括：

数据层，用于获取银行风控业务的原始数据；

模型层，用于部署特征构建模型；

本实施例中，银行风控业务的原始数据，可以是银行风控业务的任何业务数据，可以通过数据层的源数据对接模块，从各个业务系统中导入。比如通过源数据对接模块的API接口，从银行征信系统中导入用户的征信查询记录表。

特征构建模型，请参见申请人所提出的发明专利“具备强业务可解释性的特征构建算法”中的特征构建模型的构建方法。

如图2所示，特征构建模型的构建和应用：

1、对原始数据(银行风控业务)预处理(数据质量检查之后)，并进行业务分层，将原始数据中的征信表，分为如下原始数据类型：用户行为类、用户状态类。用户行为类包括征信查询记录表、负面交易表，用户状态表包括征信基本信息表、征信借贷账户表。两者的共同点在于都以时间序列表格的形式记录了用户不同时间点的信息。两者的区别在于，用户行为类表的每一条数据记录用户在某一时间发生的动作，比如在用户在某一时间点的征信查询动作；用户状态表的每一条数据描述客户在某一时间点的状态，比如用户在某一时间点的授信笔数、借据笔数、居住地址、工作单位等。

值得注意的是，用户状态表经过处理后可以转化为用户行为表，典型的案例是：将征信借贷账户表按时间排序，仅保留每个客户每个授信的最早一条记录，即得到客户的新增授信表，每条数据描述客户在该时间点的新增授信动作。

2、进行数据标注，得到标注结果。基于客户核心字段完成对应的数据标注，确定原始数据中的时间字段、客户主键字段、核心字段、分类字段。其中：时间字段指信息对应的时间，常用的时间字段有：征信查询时间、工作单位变更时间、居住地址变更时间等；客户主键字段是用于区分客户的字段，常用的客户主键字段是客户身份证号、客户ECIF号等；核心字段是用于构建特征的最小单元。例如，当选择“逾期金额”作为核心字段时，模型将对近期的“逾期金额”做一系列统计，产出“近3个月平均逾期金额”等特征；分类字段描述核心字段所属分类。延续上述例子，按借款类型可以构建出不同的逾期特征，如：“近3个月贷款类产品平均逾期金额”、“近3个月贷记卡累产品平均逾期金额”。

如图3所示，以征信查询记录表为例，通过用户配置特定的核心字段“是否查询”和分类字段以及对应的时间窗口和构造函数(见附录)后，模型将逐一遍历可能的组合，最终产出特征。

采用本方案部署的RFM模型(特征构建采用RFM(recency frequency monetary)框架，构建得到对应的特征构建模型---RFM模型)根据历史实验经验保留常用的时间窗口和构造函数，用户配置核心字段和分类字段即可直接产出特征；若需更改时间窗口和特征构造函数，则需用户人工操作。

3、调用模型层中的RFM模型，进行特征构造，训练生成本方案的特征构造模型。

构造特征，将以核心字段来自动匹配对应的策略，具体的，根据原始数据类型(行为/状态)、核心字段的类型(连续数值/离散数值/字符)配置对应的特征特略(策略库)。

比如，所能够配置的策略包含：

特征构建采用RFM(recency frequency monetary)框架，并加入近年来的前沿拓展算法进行特征构造，包含了如下策略：

Recency策略：最近一次行为距今的时间；

Frequency策略：近期行为次数统计；

Monetary策略：近期行为金额统计；

Stability策略：近期行为稳定性；

Volecity策略：近期行为次数标趋势；

Anormaly策略：近期行为次数异常情况。

基于所配置的策略算法进行特征构造，具体的：

将客户i在时间点t的某核心字段取值定义为f_i，是用来构造其他特征的最小单位；再引入时间窗口w，特征构造方式可以表示为：

Featurei＝Φ(f_i，t，_fi_，t-1，...，f_i，t-w)，

其中，Feature_i是产生的新特征，Φ是构造函数，f_i，t，f_i，t-1，...，f_i，t-w是客户i在时间窗口w内的所有观测值。

常用的时间窗口w为7天、15天、30天、60天等，模型将默认遍历所有输入的窗口值生成特征，并将结合机器学习模型(如评分卡、树模型等)选取最优窗口对应的特征，并输出相应的特征表。

构造函数Φ是特征构造的关键，以下是常用的构造函数Φ介绍：

(1)基础汇总函数：

常用的基础汇总函数有sum/mean/count/max。举例：核心字段f_i，t表示是否逾期，w＝3，Φ是求和函数sum，那么新特征的含义是近3个月内总逾期次数，假设近3个月逾期状态为“是/否/否”，那么近3个月内总逾期次数为1次。举例：核心字段f_i，t表示逾期金额，w＝3，Φ是最大值函数max，那么新特征的含义是近3个月内最大逾期金额。假设某客户距今第1/2/3个月的逾期金额分别为15000,12000,10000，那么近3个月内最大逾期金额为15000。

(2)描述趋势的函数：

其中sign为识别正负方向的函数，取值为-1，0，1，分别表示符号为负、零、正。该函数采用了“黄金交叉”的概念，当近期平均高于长期平均时，代表呈现上升趋势，反之呈现下降趋势。

举例，核心字段为查询次数，w＝6，距今第1/2/../6个月的查询次数分别为1,2,0,0,1,0,那么近期平均查询次数为近3个月的平均值1，长期平均查询次数为近6个月内平均值0.67,近期平均大于长期平均，趋势取值为1，代表近六个月内查询次数呈上升趋势。

(3)对于金额类字段，采用增长率衡量趋势：

举例，核心字段为逾期金额，w＝3，距今第1/2/3个月的逾期金额分别为15000,12000,10000，那么近三个月逾期金额增长率为50％。

(4)描述持续时间的函数：

举例，核心字段为是否逾期，w＝6，新特征含义为“近6月内最大连续逾期月数”。假设距今第1/2/../6个月是否逾期状态分别为“是/是/否/否/否/否”，那么有连续两个月保持逾期状态，新特征取值为2。

(5)描述当前状态的函数：

对于未结清授信数、融资机构数，更关注的是当前的状态。举例，某客户近3个月未结清授信数由近到远分别为10、9、9，那么当前未结清授信数为10个。

(6)描述历史高危行为的函数：

短时间、高密度查询是高危信号，滚动统计历史上任意连续7/15/30天查询次总和，并统计滚动求和的最大值。

上述具体构造函数，可以由用户自行决定。

此基础上，引入分类字段a_i，t，分类字段是对核心字段进一步的描述。以征信查询记录为例，核心字段是查询次数，分类字段是每次查询对应的查询机构。不同查询机构的查询对应的风险程度不同，因此可以根据分类字段将核心字段拆分为多个字段，比如：银行机构查询、小贷机构查询等。拆分后，可继续使用汇总函数构造特征，生成相应的特征表。

特征构建模型，结合了基于业务经验的特征构建方法和于深度学习、机器学习方案的特征构建方案的优势，在保证业务可解释性的前提下，批量生产特征。通过收集风控场景的核心字段并构建有效特征的策略，当接收新的输入数据时确定表内的关键字段，并自动配置特征策略方案，即可自动产出有效特征。对比机械式遍历所有字段的做法，本发明在系统性能、减少特征冗余方面具备较大优势；对比由人工操作的方式，本发明解决了业务经验难以迁移的难点，减少了人工消耗。将策略快速复用并批量产出有效特征。通过应用自动特征工程产生的规则，可以大幅提升风险客户的命中率。

下面是本方案各个功能的具体功能，请结合上述原理进行理解。

用户行为类，包括：征信查询记录表、负面交易表；

用户状态类，包括：征信基本信息表、征信借贷账户表；

以及，

对分层后的数据进行数据清洗，获得清洗后的宽表数据。

数据质量检查规则，由预先定义的数据质量检查条件进行确定即可。

特征评估(优化标注结果)

基于对特征预测能力指标与模型表现指标，多方面完成特征评估。

预测能力指标：分箱IV值、特征重要性；

模型表现指标：构建分类模型，评估新特征下对于正负样本的区分能力。

值得注意的是，如上表格展示，特征配置和字段类型、原始表类型并不是机械的排列组合，最大程度避免产出冗余，保证特征的业务可解释性。

上述经过模型评估之后，由管理员根据评估结果比如分箱IV值，来调整并重新选择特征策略，完成对特征策略的人工微调，具体由管理员完成微调即可。

需要说明的是，尽管以RFM作为示例介绍了如上特征构建模型的应用，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据实际应用场景灵活设定特征构建模型的建模框架比如SVA，只要可以按照上述技术实现本申请的技术功能即可。

显然，本领域的技术人员应该明白，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。本领域技术人员可以理解，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

实施例2

基于实施例1的实施原理，本申请另一方面，提出一种基于特征构建算法自动生成银行风控业务特征的方法，基于自动化特征构建系统进行实施，包括如下步骤：

数据层获取银行风控业务的原始数据；

本发明为银行风控业务提供基于二代人行征信的自动化特征构建系统。在本申请中，系统可自动识别构建特征所需字段，根据场景自动配置特征工程所需参数，形成特征构建策略。操作人员可对上述步骤得出的特征，构建特征策略，并进行微调和确认。系统后续将根据特征策略，自动批量生产特征和基于特征。

上述步骤请结合实施例1的描述进行理解。

上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

如图4所示，更进一步地，本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

本公开实施例来电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中，处理器被配置为执行可执行指令时实现前面任一所述的一种基于特征构建算法自动生成银行风控业务特征的方法。

此处，应当指出的是，处理器的个数可以为一个或多个。同时，在本公开实施例的电子设备中，还可以包括输入装置和输出装置。其中，处理器、存储器、输入装置和输出装置之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器作为一计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的一种基于特征构建算法自动生成银行风控业务特征的方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块，从而执行电子设备的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种自动化特征构建系统，其特征在于，包括：

数据层，用于获取银行风控业务的原始数据；

模型层，用于部署特征构建模型；

2.根据权利要求1所述的自动化特征构建系统，其特征在于，所述数据层，包括：

用户行为类，包括：征信查询记录表、负面交易表；

用户状态类，包括：征信基本信息表、征信借贷账户表；

以及，

对分层后的数据进行数据清洗，获得清洗后的宽表数据。

3.根据权利要求2所述的自动化特征构建系统，其特征在于，所述特征层，包括：

4.根据权利要求3所述的自动化特征构建系统，其特征在于，所述特征层，还包括：

5.根据权利要求1所述的自动化特征构建系统，其特征在于，所述模糊匹配模块，还用于：

6.根据权利要求5所述的自动化特征构建系统，其特征在于，所述模糊匹配模块，还用于：

7.根据权利要求6所述的自动化特征构建系统，其特征在于，所述规则层，包括：

8.一种基于特征构建算法自动生成银行风控业务特征的方法，基于自动化特征构建系统进行实施，其特征在于，包括如下步骤：

数据层获取银行风控业务的原始数据；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求8所述的一种基于特征构建算法自动生成银行风控业务特征的方法。