CN113821542B

CN113821542B - 一种显著特征自动推荐系统及方法

Info

Publication number: CN113821542B
Application number: CN202111389625.8A
Authority: CN
Inventors: 王萍; 李思琪
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-11
Anticipated expiration: 2041-11-23
Also published as: CN113821542A

Abstract

本发明公开了一种显著特征自动推荐系统及方法，属于大数据技术领域。本发明包括任务定义模块：用于根据特征挖掘需要，自定义推荐任务；样本选择模块：用于根据定义的推荐任务，选择关联的数据集，指定关联关系生成样本数据大宽表；特征加工模块：用于对数据集的原始特征变量进行可视化配置并进行特征加工；目标自定义模块：用于根据特征加工之后的数据集定义目标变量；特征推荐模块：用于指定每个目标变量的推荐方法和阈值；报告生成模块：用于根据特征推荐模块生成显著特征推荐报告。本发明通过系统界面化的配置，实现在指定目标变量的情况下，自动推荐显著特征，不仅极大的提升了特征挖掘的效率，也为金融智能风控提供了一种新的自动化方案。

Description

一种显著特征自动推荐系统及方法

技术领域

本发明属于大数据技术领域，具体涉及一种显著特征自动推荐系统及方法。

背景技术

人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。随着大数据、云计算、互联网、物联网等信息技术的发展，人工智能技术飞速发展，大幅跨越了科学与应用之间的“技术鸿沟”，迎来爆发式增长的新高潮。在互联网金融领域，人工智能技术越来多的应用到金融风控中，其中一个应用场景就是利用人工智能技术挖掘信用或欺诈风险目标的显著特征，以此替代传统专家经验的方式。当前行业的通用做法一般是模型人员或者策略人员通过调优脚本的方式分析选择某个目标变量的显著特征。但是该方法会对模型人员或策略人员产生大量编写脚本的工作，浪费了人力，而且效率较低，不能实现系统自动化的显著特征推荐。

基于此，本发明提出了一种显著特征自动推荐的方法和系统，该系统集成了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种方法，通过系统界面化的配置，实现在指定目标变量的情况下，自动推荐显著特征，不仅极大的提升了特征挖掘的效率，也为金融智能风控提供了一种新的自动化方案。同时，该方案可以拓展到其他任何需要挖掘显著特征的场景，如：医学诊断、精准营销、保险欺诈、潜在犯罪预测等。

发明内容

针对现有技术中存在的问题，本发明提供一种显著特征自动推荐系统及方法，其目的在于：解放模型人员或策略人员编写脚本的工作，实现系统自动化的显著特征推荐，提高效率。

本发明采用的技术方案如下：

一种显著特征自动推荐系统，包括：

任务定义模块：用于根据特征挖掘需要，自定义推荐任务；

样本选择模块：用于根据定义的推荐任务，选择关联的数据集，指定关联关系生成样本数据集大宽表；

特征加工模块：用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工；

目标自定义模块：用于根据特征加工之后的样本数据集定义目标变量；

特征推荐模块：用于指定每个目标变量的推荐方法和阈值，并生成推荐特征集；

报告生成模块：用于根据推荐特征集生成显著特征推荐报告。

本发明通过任务定义模块自定义推荐任务，样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表，特征加工模块对样本数据集的原始特征变量进行特征加工，目标自定义模块根据特征加工之后的样本数据集定义目标变量，特征推荐模块指定每个目标变量的推荐方法和阈值，并生成推荐特征集，报告生成模块根据推荐特征集生成显著特征推荐报告，从而实现显著特征的自动生成推荐，解放模型人员或策略人员编写脚本的工作，极大的提升了特征挖掘的效率。

本发明还公开了一种显著特征自动推荐方法，包括以下步骤：

步骤1：根据特征挖掘需要，通过任务定义模块自定义推荐任务；

步骤2：样本选择模块根据定义的推荐任务，选择关联的数据集，指定关联关系并生成样本数据集大宽表，并在存储介质中新建用于保存样本数据集大宽表的存储空间；

步骤3：特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工；

步骤4：目标自定义模块根据特征加工之后的样本数据集定义目标变量，并将所述目标变量保存在存储介质中新建的对应的数据结构中；

步骤5：通过特征推荐模块指定每个目标变量的推荐方法和阈值，并生成推荐特征集，新建用于保存所述推荐特征集的存储空间；

步骤6：报告生成模块根据推荐特征集生成显著特征推荐报告。

优选的，步骤1中所述推荐任务的内容包括任务名称、任务说明和跑批方式，所述任务名称为用户自定义所属任务的名称；所述任务说明为推荐任务的详细介绍；所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式。优选的，步骤2中所述的样本数据大宽表根据样本数据集名称、表名、过滤条件和关联条件四个要素建立。

优选的，步骤3中所述的特征加工包括剔除特征和新增特征两种方式，所述新增特征基于表达式运算，支持四则运算、字符串运算、时间类型运算及JSON运算。

优选的，步骤4中所述的目标变量为二分类变量或者多分类变量，支持表达式运算。

优选的，步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。

优选的，所述基于相关系数的特征推荐方法具体包括以下步骤：

步骤A1:对于任意特征变量

，计算

和目标变量

之间的相关系数，记作

；

其中

表示特征变量

的平均值；

表示目标变量

的平均值，相关系数取值为[-1，1]，

表示第

维的特征向量，

表示第

维的目标变量值，

；

n表示样本数据集中记录的条数；

步骤A2：对于生成的

个相关系数列表按照相关系数降序排序，选择

对应的特征变量为系统推荐的特征变量，

为相关系数推荐方法对应的阈值;

步骤A3:基于推荐的特征变量生成推荐特征集corrSet，

其中且

为相关系数推荐方法推荐的特征变量个数，相关系数降序排序对应的特征变量序号为

。

优选的，所述基于IV的特征推荐方法具体包括以下步骤：

步骤B1：对于目标变量

，记样本数据集的坏样本数为

，

；记样本数据集的好样本数为

，

；

表示第

维的目标变量值；

步骤B2：对于任意特征变量

，计算

对应于目标变量

的IV值，记作

，

其中

的取值范围分为

组，对于第

组，

为第

组的坏客户数量，

为第

组的好客户数量；

步骤B3:对于生成的

个IV值列表按照IV值降序排序，选择

对应的特征变量为系统推荐的特征变量，

为IV推荐方法对应的阈值；

步骤B4：基于推荐的特征变量生成的推荐特征集为ivSet，

其中

为IV推荐方法推荐的特征变量的数量，

为IV值降序排序对应的特征变量的序号。

优选的，所述基于KS的特征推荐方法具体包括以下步骤：

步骤C1：对于目标变量

，记样本数据集的坏样本数为，

；记样本数据集的好样本数为

步骤C2：对于任意特征变量

，计算

对应于目标变量

的KS值，记作

，将

按照升序顺序排序之后分为

组，

其中

为第

组累积的坏客户人数，

为第

组累积的好客户人数；

步骤C3：对于生成的

个KS值列表按照KS值降序排序，选择

对应的特征变量为系统推荐的特征变量；

步骤C4:基于推荐的特征变生成推荐特征集ksSet，

其中

为KS推荐方法推荐的特征变量的数量，KS值降序排序对应的特征变量的序号为

优选的，所述基于AUC的特征推荐方法具体包括以下步骤：

步骤D1：对于任意特征变量

，计算

对应于目标变量

的AUC值，记作

，其中

；

步骤D2：对于生成的

个AUC值列表按照AUC值降序排序，选择

对应的特征变量为系统推荐的特征变量，

为AUC推荐方法对应的阈值；

步骤D3：基于推荐的特征变量生成推荐特征集aucSet，

其中，

为AUC推荐方法推荐的特征变量的数量，AUC值降序排序对应的特征变量的序号为

优选的，所述显著特征推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明和显著特征列表，所述显著特征列表按照目标变量、推荐方法进行分类展示，并按照显著性从高到低降序排序。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1. 本发明通过任务定义模块自定义推荐任务，样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表，特征加工模块对样本数据集的原始特征变量进行特征加工，目标自定义模块根据特征加工之后的样本数据集定义目标变量，特征推荐模块指定每个目标变量的推荐方法和阈值，并生成推荐特征集，报告生成模块根据推荐特征集生成显著特征推荐报告，从而实现显著特征的自动生成推荐，解放模型人员或策略人员编写脚本的工作，极大的提升了特征挖掘的效率。

2.本发明通过系统界面化的配置，实现在指定目标变量的情况下，自动生成推荐的显著特征，不仅极大的提升了特征挖掘的效率，也为金融智能风控提供了一种新的自动化方案。

3.本发明抽象了4种特征推荐的方法，为行业提供了多种显著特征挖掘的方案，且该方案具有极强的可扩展性和通用性，可以拓展到其他任何需要挖掘显著特征的场景，如：医学诊断、精准营销、保险欺诈、潜在犯罪预测等。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的流程图；

图2是任务定义模块界面示意图；

图3是样本选择模块界面示意图；

图4是特征加工模块界面示意图；

图5是目标自定义模块界面示意图；

图6是特征推荐模块界面示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合图1-图6对本发明作详细说明。

一种显著特征自动推荐系统，包括：

任务定义模块：用于根据特征挖掘需要，自定义推荐任务；

样本选择模块：用于根据定义的推荐任务，选择关联的数据集，指定关联关系生成样本数据大宽表；

特征加工模块：用于对数据集的原始特征变量进行可视化配置并进行特征加工；

目标自定义模块：用于根据特征加工之后的数据集定义目标变量；

特征推荐模块：用于指定每个目标变量的推荐方法和阈值；

报告生成模块：用于根据特征推荐模块生成显著特征推荐报告。

步骤1：根据特征挖掘需要，通过任务定义模块自定义推荐任务。

推荐任务内容包括：任务名称、任务说明、跑批方式。任务名称指的是用户自定义所属任务的名称；任务说明指的是推荐任务的详细介绍；跑批方式指的是任务运行的方式。跑批方式包括实时跑批、异步定时跑批、周期性跑批3种方式。实时跑批指的是任务提交之后立即跑批，是一次性任务；异步定时跑批指的是任务提交之后，从某个指定的时刻开始跑批，是一次性任务；周期性跑批，指的是任务提交之后，从某个指定的时刻开始，每隔一个固定周期跑批，是循环性任务。如在互联网信贷行业，针对于“杀猪盘”类电信诈骗，拟通过特征推荐系统自动生成显著特征，则定义任务名称为”szpMarkedFeatureTask”,任务说明为“消费贷款杀猪盘诈骗显著特征挖掘任务“，跑批方式选择周期性跑批，每天早上9点跑批。

步骤2：样本选择模块根据定义的推荐任务，选择关联的数据集，指定关联关系并生成样本数据集大宽表，并在存储介质中新建用于保存样本数据集大宽表的存储空间。

宽表指的是，基于某个实体分析对象而建立的一个逻辑数据体系，由实体的维度、描述信息、以及基于这个实体的一系列度量组成。大宽表的建立包括4个要素：样本数据集名称、表名、过滤条件、关联条件，可以实现将不同数据表的内容集成到一张大宽表中。如对于推荐任务“szpMarkedFeatureTask”，样本数据集包括业务流水表、行为数据表、授信申请表、地址画像表等信息。

步骤3：特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工。

特征加工包括2种方式，剔除特征和新增特征。新增特征基于表达式运算，支持四则运算、字符串运算、时间类型运算及JSON运算等。该模块可以不做任何二次加工，仅保留原始特征。如对于推荐任务“szpMarkedFeatureTask”，删除特征姓名、公司等文本特征，新增注册到授信申请的时长、授信申请到借款申请的时长等衍生特征。

步骤4：目标自定义模块根据特征加工之后的样本数据集定义目标变量，并将所述目标变量保存在存储介质中新建的对应的数据结构中。

同一个推荐任务支持配置多个目标变量，目标变量可以是二类分变量，也可以是多分类变量，支持表达式运算。如对于推荐任务“szpMarkedFeatureTask”，定义目标变量为Y，当该客户为被定性为杀猪盘类电信诈骗时，Y=1；否则Y=0。

步骤5：通过特征推荐模块指定每个目标变量的推荐方法和阈值，并生成推荐特征集，新建用于保存所述推荐特征集的存储空间。

特征推荐模块通过可视化的界面模块指定每个目标变量的推荐方法和阈值。特征推荐系统集成了4种特征推荐的方法，系统默认全选。当特征推荐模块配置完成之后，点击“提交”，则保存了一个推荐任务，系统会按照配置好的参数进行自动的跑批。如对于推荐任务“szpMarkedFeatureTask”，选择系统默认方法和阈值，则相当于选择了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种推荐算法，且阈值均为0.1。假设样本数据集的目标变量为

，包含

个特征向量，分别记为

。假设样本数据集包含

条记录，则

和

均为

维的列向量，记

，其中

。特征推荐方法详细如下：

基于相关系数的特征推荐方法：

相关系数是量化相关性分析中两个变量之间的线性关系强度的特定测度。本实施例采用皮尔逊相关系数，通过计算特征变量与目标变量的相关系数的方式，用以近似评估特征变量的显著性。相关系数取值为[-1，1]，相关系数的绝对值越接近0，说明特征变量和目标变量的线性关系越弱，即越不显著；相关系数的绝对值越接近1，说明特征变量和目标变量的线性关系越强，即越显著。对于任意特征变量

，计算

和目标变量

之间的相关系数，记作

，其中

其中

表示特征变量

的平均值，即

；

表示目标变量

的平均值，即

，其中

。假设相关系数推荐方法对应的阈值为

，当相关系数的绝对值在0.3以上时，则认为特征变量具有一定的显著性。对于生成的

个相关系数列表按照相关系数降序排序，选择

对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有

个，相关系数降序排序对应的特征变量序号为

，其中

。则基于相关系数的特征推荐方法生成的推荐特征集为corrSet，

其中

基于IV的特征推荐方法：

在机器学习的二分类问题中，IV值（Information Value）主要用来对输入变量进行编码和预测能力评估。本实施例采用IV值，通过计算特征变量与目标变量的IV值的方式，用以近似评估特征变量的显著性。IV 值的取值范围是

，特征变量IV值越大，表示特征变量包含的信息量越多，也就越显著。对于目标变量

，记样本数据集的坏样本数为

；记样本数据集的好样本数为

。对于任意特征变量

，计算

对应于目标变量

的IV值，记作

，假设将

的取值范围分为

组，对于第

组，定义该组的坏客户人数为

，该组的好客户人数为

，则

，其中

。假设IV推荐方法对应的阈值为

，一般情况下，IV值大于0.1时，表示具有较强的显著性。对于生成的

个IV值列表按照IV值降序排序，选择

个，IV值降序排序对应的特征变量的序号为

，其中

。则基于IV值特征推荐方法生成的推荐特征集为ivSet，

其中

。

基于KS的特征推荐方法：

KS即Kolmogorov–Smirnov统计量，是基于累积分布函数，用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。KS值是在模型中用于区分预测正负样本分隔程度的评价指标。本文采用KS值，通过计算特征变量与目标变量的KS值的方式，用以近似评估特征变量的显著性。KS 值的取值范围是[0,1]，特征变量KS值越大，表示特征变量越显著。对于目标变量

，记样本数据集的坏样本数为

，则

；记样本数据集的好样本数为

，则

。对于任意特征变量

，计算

对应于目标变量

的KS值，记作

，将

按照升序顺序排序之后分为

组，对于第

组，定义该组累积的坏客户人数为

，该组累积的好客户人数为

，则

其中

。假设KS推荐方法对应的阈值为

，一般情况下，KS值大于0.3时，表示具有较强的显著性。对于生成的

个KS值列表按照KS值降序排序，选择

个，KS值降序排序对应的特征变量的序号为

，其中

。则基于KS值特征推荐方法生成的推荐特征集为ksSet，

其中

。

基于AUC的特征推荐方法：

AUC在机器学习领域中是一种模型评估指标。根据维基百科的定义，AUC(areaunder the curve)是ROC曲线下的面积。本实施例采用AUC指标，通过计算特征变量与目标变量的AUC值的方式，用以近似评估特征变量的显著性。AUC值的取值范围是[0.5，1]，特征变量的AUC越大，表示特征变量越显著。通过调用python开源包sklearn的方式来计算AUC。对于任意特征变量

，计算

对应于目标变量

的AUC值，记作

，其中

。假设AUC推荐方法对应的阈值为

，一般情况下，AUC值大于0.8时，表示具有较强的显著性。对于生成的

个AUC值列表按照AUC值降序排序，选择

个，AUC值降序排序对应的特征变量的序号为

。则基于AUC值的特征推荐方法生成的推荐特征集为aucSet，

其中

。

基于特征推荐模块，系统自动生成显著特征推荐报告。显著特征推荐报告为PDF格式，包括报告名称、报告生成时间、推荐任务名称、推荐任务说明、显著特征列表。显著特征列表按照目标变量、推荐方法进行分类展示，并按照显著性从高到低降序排序。

综上所述，本发明基于任务定义模块、样本选择模块、特征加工模块、目标自定义模块、特征推荐模块、报告生成模块构成了自动化闭环，实现对于任意目标变量显著特征的自动生成、自动推荐，极大的提升了效率。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。