CN111967600A

CN111967600A - 一种风控场景下基于遗传算法的特征衍生系统及方法

Info

Publication number: CN111967600A
Application number: CN202010833102.7A
Authority: CN
Inventors: 陈建; 张乾; 龙泳先; 王月月; 刘天欣; 沙雨濛; 何侃
Original assignee: Beijing Ruizhi Tuyuan Technology Co ltd
Current assignee: Beijing Ruizhi Tuyuan Technology Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-20
Anticipated expiration: 2040-08-18
Also published as: CN111967600B

Abstract

本发明公开了一种风控场景下基于遗传算法的特征衍生系统，包括：数据采集模块，所述数据采集模块的输出端连接有遗传算法特征衍生模块。涉及数据处理技术领域。该风控场景下基于遗传算法的特征衍生系统及方法，主要利用遗传算法自动化地衍生具有业务可解释性且预测能力较强的特征，显著提升了最终大数据评分卡模型的分类能力和准确率，极大地降低了人力成本，进而在一定程度上提高了模型开发的效率，通过研究最终得到的衍生特征可以很好地加深对业务的理解，对特征之间的隐式关系有更深刻的认识，使得产生的结构比较理想，能够满足人们的实际需求，同时该方法具有高度的灵活性和可扩展性，可以迁移至多种业务场景。

Description

一种风控场景下基于遗传算法的特征衍生系统及方法

技术领域

本发明涉及数据处理技术领域，具体为一种风控场景下基于遗传算法的特征衍生系统及方法。

背景技术

风险控制是指风险管理者采取各种措施和方法，消灭或减少风险事件发生的各种可能性，或风险控制者减少风险事件发生时造成的损失，总会有些事情是不能控制的，风险总是存在的，作为管理者会采取各种措施减小风险事件发生的可能性，或者把可能的损失控制在一定的范围内，以避免在风险事件发生时带来的难以承担的损失，风险控制的四种基本方法是：风险回避、损失控制、风险转移和风险保留。

在风控业务中需要最终的模型拥有很好地可解释性，因此逻辑斯蒂回归一直是大数据评分模型中的主流，然而众所周知机器学习的性能很大程度上取决于特征的质量，并且逻辑斯蒂回归模型无法学习到特征之间的非线性关系，这一过程依赖于大量的专业知识，门槛很高并且耗时耗力，现有技术中，虽然已经产生了很多应用广泛的方法论，例如多个特征做笛卡尔积、著名的“RFMVT”原则、基于统计量衍生新特征等等，但是基于原始特征很难产生令人满意的结果。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种风控场景下基于遗传算法的特征衍生系统及方法，解决了风控中基于原始特征衍生门槛很高并且耗时耗力，很难产生令人满意的结果的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种风控场景下基于遗传算法的特征衍生系统，包括：数据采集模块，所述数据采集模块的输出端连接有遗传算法特征衍生模块，所述遗传算法特征衍生模块的输出端连接有特征重要度筛选模块，所述数据采集模块的输出端连接有服务器。

一种风控场景下基于遗传算法的特征衍生方法，包括以下步骤：

S1、通过所述数据采集模块采集用户的行为数据，并作为原始特征X和标签Y，分别发送至服务器和遗传算法特征衍生模块中；

S2、原始特征X和标签Y进入到所述遗传算法特征衍生模块之后，随机组合大量的原始特征，作为初代总体，然后经过变量筛选出排名靠前的衍生特征进行交叉变异，构成子代，并多次迭代，最终选取所有表现优异的衍生特征，然后输送至特征重要度筛选模块中进行下一步操作；

S3、所述特征重要度筛选模块将原始特征和衍生特征一起输入到随机森林中去，进行特征重要度排序，选取特征重要性较高且具有业务可解释性的衍生变量加入最终的入模特征列表中。

进一步地，所述S1中在采集的用户数据时通常存在大量的缺失，可以结合具体的业务场景，使用0、-1等特殊值填充。

进一步地，所述S2中遗传算法迭代之前，需要预先设置几个重要的超参数，且分别为随机初始化的衍生特征个数、遗传算法迭代轮数以及进入下一代的衍生特征的最低排名。

进一步地，所述S2中随机初始化的衍生特征个数可以设置为原始特征的整数倍，通常取2-4倍，遗传算法迭代轮数可以取10-20之间的整数，进入下一代的衍生特征的最低排名通常可以取10的倍数，如10、20等。

进一步地，所述S2中为了防止产生的衍生特征过于复杂丧失业务可解释性且过拟合加重，可以提前指定遗传算法迭代过程中的叶子节点个数K，即最多K个特征进行组合形成新的衍生特征，同时也可以限定特征之间的组合方式，对于连续型变量之间，主要是加减乘除以及log、exp等常见函数变换，对于离散型变量之间，主要是进行与、或、异或等逻辑运算。

进一步地，所述S2中遗传算法对衍生特征的筛选方式也极为重要，常用的有计算每个衍生特征与标签的线性相关程度即皮尔森系数、计算每个衍生特征对目标的拟合优度即R²系数，推荐使用Fisher准则。

进一步地，所述S2中遗传算法迭代过程中筛选方式都是单特征拟合标签，可能会导致衍生特征之间相关性太高，因此可以加入线性相关度筛选，计算衍生特征之间的余弦相似度。

进一步地，所述S3中随机森林模型进行特征重要度排序会自然地将相关程度过高的变量重要度收缩到零，可以非常直观地比较原始特征与衍生特征的预测能力强弱，通常结合业务需求选取具有商业价值和可解释性的衍生特征加入最终的入模特征列表。

(三)有益效果

本发明具有以下有益效果：

该风控场景下基于遗传算法的特征衍生系统及方法，主要利用遗传算法自动化地衍生具有业务可解释性且预测能力较强的特征，显著提升了最终大数据评分卡模型的分类能力和准确率，极大地降低了人力成本，进而在一定程度上提高了模型开发的效率，通过研究最终得到的衍生特征可以很好地加深对业务的理解，对特征之间的隐式关系有更深刻的认识，使得产生的结构比较理想，能够满足人们的实际需求，同时该方法具有高度的灵活性和可扩展性，可以迁移至多种业务场景。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

图1为本发明风控场景下基于遗传算法的特征衍生系统及方法第一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的组件或元件必须具有特定的方位，以特定的方位构造和操作，因此不能理解为对本发明的限制。

请参阅图1，本发明实施例提供一种技术方案：一种风控场景下基于遗传算法的特征衍生系统，包括：数据采集模块，所述数据采集模块的输出端连接有遗传算法特征衍生模块，所述遗传算法特征衍生模块的输出端连接有特征重要度筛选模块，所述数据采集模块的输出端连接有服务器。

所述S1中在采集的用户数据时通常存在大量的缺失，可以结合具体的业务场景，使用0、-1等特殊值填充。

所述S2中遗传算法迭代之前，需要预先设置几个重要的超参数，且分别为随机初始化的衍生特征个数、遗传算法迭代轮数以及进入下一代的衍生特征的最低排名。

所述S2中随机初始化的衍生特征个数可以设置为原始特征的整数倍，通常取2-4倍，遗传算法迭代轮数可以取10-20之间的整数，进入下一代的衍生特征的最低排名通常可以取10的倍数，如10、20等。

所述S2中为了防止产生的衍生特征过于复杂丧失业务可解释性且过拟合加重，可以提前指定遗传算法迭代过程中的叶子节点个数K，即最多K个特征进行组合形成新的衍生特征，同时也可以限定特征之间的组合方式，对于连续型变量之间，主要是加减乘除以及log、exp等常见函数变换，对于离散型变量之间，主要是进行与、或、异或等逻辑运算。

所述S2中遗传算法对衍生特征的筛选方式也极为重要，常用的有计算每个衍生特征与标签的线性相关程度即皮尔森系数、计算每个衍生特征对目标的拟合优度即R²系数，推荐使用Fisher准则，计算公式如下：

其中μ_i和σ_i为标签为0客群对应的均值、标准差，μ_j和σ_j为标签为1客群对应的均值，不难看出Fisher准则刻画的是衍生特征对两类客群的区分能力。

所述S2中遗传算法迭代过程中筛选方式都是单特征拟合标签，可能会导致衍生特征之间相关性太高，因此可以加入线性相关度筛选，计算衍生特征之间的余弦相似度，计算公式如下所示：

其中x_i,x_j表示0客群和1客群的衍生特征。

所述S3中随机森林模型进行特征重要度排序会自然地将相关程度过高的变量重要度收缩到零，可以非常直观地比较原始特征与衍生特征的预测能力强弱，通常结合业务需求选取具有商业价值和可解释性的衍生特征加入最终的入模特征列表。

工作原理：

S1、通过所述数据采集模块采集用户的行为数据，在采集的用户数据时通常存在大量的缺失，可以结合具体的业务场景，使用0、-1等特殊值填充，并作为原始特征X和标签Y，分别发送至服务器和遗传算法特征衍生模块中；

S2、原始特征X和标签Y进入到所述遗传算法特征衍生模块之后，随机组合大量的原始特征，作为初代总体，随机初始化的衍生特征个数可以设置为原始特征的整数倍，通常取2-4倍，遗传算法迭代轮数可以取10-20之间的整数，进入下一代的衍生特征的最低排名通常可以取10的倍数，如10、20等，然后经过变量筛选出排名靠前的衍生特征进行交叉变异，构成子代，并多次迭代，遗传算法迭代之前，需要预先设置几个重要的超参数，且分别为随机初始化的衍生特征个数、遗传算法迭代轮数以及进入下一代的衍生特征的最低排名，最终选取所有表现优异的衍生特征，然后输送至特征重要度筛选模块中进行下一步操作；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种风控场景下基于遗传算法的特征衍生系统，包括：数据采集模块，其特征在于：所述数据采集模块的输出端连接有遗传算法特征衍生模块，所述遗传算法特征衍生模块的输出端连接有特征重要度筛选模块，所述数据采集模块的输出端连接有服务器。

2.一种风控场景下基于遗传算法的特征衍生方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S1中在采集的用户数据时通常存在大量的缺失，可以结合具体的业务场景，使用0、-1等特殊值填充。

4.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S2中遗传算法迭代之前，需要预先设置几个重要的超参数，且分别为随机初始化的衍生特征个数、遗传算法迭代轮数以及进入下一代的衍生特征的最低排名。

5.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S2中随机初始化的衍生特征个数可以设置为原始特征的整数倍，通常取2-4倍，遗传算法迭代轮数可以取10-20之间的整数，进入下一代的衍生特征的最低排名通常可以取10的倍数，如10、20等。

6.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S2中为了防止产生的衍生特征过于复杂丧失业务可解释性且过拟合加重，可以提前指定遗传算法迭代过程中的叶子节点个数K，即最多K个特征进行组合形成新的衍生特征，同时也可以限定特征之间的组合方式，对于连续型变量之间，主要是加减乘除以及log、exp等常见函数变换，对于离散型变量之间，主要是进行与、或、异或等逻辑运算。

7.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S2中遗传算法对衍生特征的筛选方式也极为重要，常用的有计算每个衍生特征与标签的线性相关程度即皮尔森系数、计算每个衍生特征对目标的拟合优度即R²系数，推荐使用Fisher准则。

8.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S2中遗传算法迭代过程中筛选方式都是单特征拟合标签，可能会导致衍生特征之间相关性太高，因此可以加入线性相关度筛选，计算衍生特征之间的余弦相似度。

9.根据权利要求2所述的一种风控场景下基于遗传算法的特征衍生方法，其特征在于：所述S3中随机森林模型进行特征重要度排序会自然地将相关程度过高的变量重要度收缩到零，可以非常直观地比较原始特征与衍生特征的预测能力强弱，通常结合业务需求选取具有商业价值和可解释性的衍生特征加入最终的入模特征列表。