CN112613983A

CN112613983A - 一种机器建模过程中的特征筛选方法、装置及电子设备

Info

Publication number: CN112613983A
Application number: CN202011566617.1A
Authority: CN
Inventors: 任亮; 傅雨梅; 徐兵; 罗刚
Original assignee: Beijing Zhiyin Intelligent Technology Co ltd
Current assignee: Beijing Zhiyin Intelligent Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-06
Anticipated expiration: 2040-12-25
Also published as: CN112613983B

Abstract

本申请提供了一种机器建模过程中的特征筛选方法、装置及电子设备，所述方法包括：获取每个样本用户在每个特征维度下的待构建用户特征；通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。这样，本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选，确定出更加适合用于训练评估用户可信度模型的训练特征集，间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。

Description

一种机器建模过程中的特征筛选方法、装置及电子设备

技术领域

本申请涉及大数据处理技术领域，尤其是涉及一种机器建模过程中的特征筛选方法、装置及电子设备。

背景技术

金融的核心竞争力是风控，而风控的关键在于风险定价能力，这主要集中在贷前的客户选择上，因此如何将客户逾期风险控制在一个最优区间是非常重要的。通常利用用户过往的行为特征数据，应用机器学习技术建立模型预测客户在不同场景下未来的风险是实施风险控制的主要手段之一。

但获取用户过往的行为数据的过程中，会产生一些冗余的数据，这些数据对于我们想构建的最优模型没有太多价值，甚至可能会产生副作用。因此在构建模型过程中就需要不断的进行试验和筛选，最后才能构建一个最优模型。但是在这个过程中，通过人为筛选的方式进行，会非常耗费人力，并且还会拖慢模型构建的速度。因此就需要提供一种根据数据的特征自动进行数据筛选的方式，以能够筛选出更准确的数据。

发明内容

有鉴于此，本申请的目的在于提供一种机器建模过程中的特征筛选方法、装置及电子设备，通过采用不同的特征筛选方式对多个待构建用户特征进行筛选，确定出更加适合用于训练评估用户可信度模型的训练特征集，间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。

本申请实施例提供了一种机器建模过程中的特征筛选方法，所述特征筛选方法包括：

获取每个样本用户在每个特征维度下的待构建用户特征；

通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；

将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；

基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

进一步的，所述通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度，包括：

针对于每种特征筛选方式，确定每个特征维度在所述特征筛选方式下的重要性系数；

按照每个特征维度在所述特征筛选方式下的重要性系数，降序排列所述多个特征维度；

将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。

进一步的，所述将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度，包括：

统计每个候选维度被用于构建训练特征集的构建次数；

针对于每个候选维度，当所述候选维度的构建次数等于特征筛选方式的数量时，将所述候选维度确定为目标特征维度。

进一步的，所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。

本申请实施例还提供了一种机器建模过程中的特征筛选装置，所述特征筛选装置包括：

获取模块，用于获取每个样本用户在每个特征维度下的待构建用户特征；

第一确定模块，用于通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；

第二确定模块，用于将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；

构建模块，用于基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

进一步的，所述第一确定模块包括：

系数确定单元，用于针对于每种特征筛选方式，确定每个特征维度在所述特征筛选方式下的重要性系数；

排序单元，用于按照每个特征维度在所述特征筛选方式下的重要性系数，降序排列所述多个特征维度；

维度确定单元，用于将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。

进一步的，所述第二确定模块在用于将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度时，所述第二确定模块用于：

统计每个候选维度被用于构建训练特征集的构建次数；

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的机器建模过程中的特征筛选方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的机器建模过程中的特征筛选方法的步骤。

本申请实施例提供的机器建模过程中的特征筛选方法、装置及电子设备，获取每个样本用户在每个特征维度下的待构建用户特征；通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

这样，本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选，确定出更加适合用于训练评估用户可信度模型的训练特征集，间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种机器建模过程中的特征筛选方法的流程图；

图2为本申请实施例所提供的一种机器建模过程中的特征筛选装置的结构示意图；

图3为图2中所示的第一确定模块的结构示意图；

图4为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于训练用户可信度评估模型过程中的特征选择阶段。机器学习建模流程一般包括以下流程：数据获取、数据清洗、数据分析、数据规约、特征选择以及模型训练阶段。因此，本申请除了应用于可信度评估模型过程中的特征选择阶段，也适用于其他类型模型的特征选择阶段，即可以用于机器学习建模过程中的特征选择阶段。

经研究发现，在机器学习建模过程中，使用的有些特征对于最优模型没有太多价值，甚至可能会产生副作用，因此在构建模型过程中就需要不断的进行试验和筛选，最后才能构建一个最优模型。但是在这个过程中，通过人为筛选的方式进行，会非常耗费人力，并且还会拖慢模型构建的速度。

基于此，本申请实施例提供了一种机器建模过程中的特征筛选方法，通过采用不同的特征筛选方式对多个待构建用户特征进行筛选，确定出更加适合用于训练评估用户可信度模型的训练特征集，间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。

请参阅图1，图1为本申请实施例所提供的一种机器建模过程中的特征筛选方法的流程图。如图1中所示，本申请实施例提供的机器建模过程中的特征筛选方法，包括：

S101、获取每个样本用户在每个特征维度下的待构建用户特征。

该步骤中，获取的每个样本用户在每个特征维度下的待构建用户特征，所述待构建用户特征用于构建训练特征集。

其中，特征维度指样本用户的属性，示例的可以包括：姓名、年龄、职业、收入以及消费能力等。用户特征指特征维度下的具体数据，对应上述特征维度，示例的包括：张三、30、快递员、8k/月以及3.5k/月。其中，每个样本用户的用户特征基本都不相同。

S102、通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度。

该步骤中，选取多种能确定出特征维度对于最终构建最优模型贡献力度大小的特征筛选方式，然后对于每一种特征筛选方式，从所有特征维度中，选择一定量的特征维度，作为由该特征筛选方式选择出的用于构建训练特征集的候选维度。

所述信息值筛选方式用IV值表示，IV值衡量的是某一个变量的信息量，主要用来对输入变量进行编码和预测能力评估；所述基尼系数筛选方式用GINI表示，GINI用作特征选择时，可用于评估数据的纯度；所述熵筛选方式用Entropy表示，其物理意义是体系混乱程度的度量；熵率筛选方式用EntropyRate表示，在统计学中用它作为随机事件不确定程度的一种度量，描述给定长度为n的随机变量序列的熵随n的增长情况；卡方筛选方式用Chi2表示，可用来统计样本的实际观测值与理论推断值之间的偏离程度。

这里，虽然在本步骤中仅列举出5种筛选方式，但是不应将本申请中的筛选方式局限于5种，任何一种筛选方式能确定特征维度对构建最优模型的贡献力度大小，都可以作为本申请的筛选方式。

进一步的，所述通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度，包括：针对于每种特征筛选方式，确定每个特征维度在所述特征筛选方式下的重要性系数；按照每个特征维度在所述特征筛选方式下的重要性系数，降序排列所述多个特征维度；将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。

该步骤中，针对于每种特征筛选方式，首先，根据该特征筛选方式对应的计算公式，计算所有特征维度在该筛选方式下的重要性系数，这里，对于每个特征维度来说，需要计算其在每种特征筛选方式下的重要性系数，由于每种特征筛选方式所考虑的角度不同，因此，每种特征维度在不同的特征筛选方式下，对应的重要性系数也会有所差异；然后，针对于每种特征筛选方式，统计在每种筛选方式下的所有特征维度以及其对应的重要性系数，根据重要性系数的大小，将所有特征维度从大到小依次排序；最后，在每种特征筛选方式下，都选取前预设位数的特征维度作为特征筛选方式下的候选维度，这里，前预设位数的特征维度指重要性系数大的特征维度。

这里，本申请中前预设位数，可以是技术人员根据经验预先设计好的，例如，选取前80％的特征维度作为候选维度，或者是选取前10个特征维度作为候选维度等。前预设位数可以根据特征筛选方式的不同或者是实际情况的需求进行调整，在本申请中不作具体限制。

S103、将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度。

该步骤中，针对每种特征筛选方式，统计在每种筛选方式下都存在的候选维度，将这些候选维度提取出来，作为用于构建模型的目标特征维度。

这里，可以将每种筛选方式下的候选特征维度作为一个集合，然后求各个集合的交集，将得到的交集中的特征维度目标特征维度。

进一步的，所述将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度，包括：统计每个候选维度被用于构建训练特征集的构建次数；针对于每个候选维度，当所述候选维度的构建次数等于特征筛选方式的数量时，将所述候选维度确定为目标特征维度。

该步骤中，针对每个用于构建训练特征集的候选维度，统计该候选维度被用于构建训练特征集构建次数，将构建次数与特征筛选方式数量相同的候选维度提取出来，将提取出的特征维度作为构建用户可信度评估模型的目标特征维度。

S104、基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

该步骤中，根据筛选方式选出的多个目标特征维度，统计每个维度下包含的用户特征，构成用于训练用户可信度评估模型的训练特征集，从而可以使用训练特征集对构建用户可信度评估模型。

示例的，以10个特征维度对本发明的特征筛选方法进行说明：

假设现在有10个特征维度为F1、F2、F3……F10和1个目标变量。数据格式如表1所示：

表1：数据格式类型

ID	F1	F2	……	F10	目标变量
						1	xxxx	xxxx	……	xxxx	1
2	xxxx	xxxx	……	xxxx	0
						3	xxxx	xxxx	……	xxxx	1
……	……	……	……	……	……
						10000	xxxx	xxxx	……	xxxx	0

选取三种筛选方式，分别为信息值(IV)、基尼系数(GINI)以及熵(Entropy)筛选方式，计算10个特征维度分别在三种筛选方式下的重要性系数，并按照重要性系数由大到小对特征维度进行排序，如表2、表3、表4所示。

表2：使用基尼系数(GINI)筛选方式，并对特征维度按重要性系数排序，排序结果如下：

特征维度	重要性系数
		F10	0.8
F9	0.7
		F6	0.65
F8	0.62
		F5	0.56
F7	0.53
		F2	0.42
F1	0.34
		F3	0.31
F4	0.22

表3：使用信息值(IV)筛选方式，并对特征维度按重要性系数排序，排序结果如下：

表4：使用熵(Entropy)筛选方式，并对特征维度按重要性系数排序，排序结果如下：

特征维度	重要性系数
		F6	0.84
F5	0.76
		F10	0.63
F9	0.61
		F1	0.58
F3	0.49
		F7	0.41
F8	0.33
		F2	0.24
F4	0.19

取信息值(IV)筛选方式时前80％的特征维度为：F10，F9，F6，F8，F5，F7，F2，F1。

取基尼系数(GINI)筛选方式时前80％的特征维度为：F9，F8，F7，F10，F6，F5，F2，F1。

取熵(Entropy)筛选方式时前80％的特征维度为：F6，F5，F10，F9，F1，F3，F7，F8。

然后，融合以上三种筛选方式，求三种筛选方式下的交集，得到目标特征维度，计算方式如下所示：

(F10，F9，F6，F8，F5，F7，F2，F1)∩(F9，F8，F7，F10，F6，F5，F2，F1)∩(F6，F5，F10，F9，F1，F3，F7，F8)＝(F1，F5，F6，F7，F8，F9)

最终，求取的目标特征维度为F1，F5，F6，F7，F8，F9，使用目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集，然后将特征集输入模型进行建模。

本申请实施例提供的机器建模过程中的特征筛选方法，获取每个样本用户在每个特征维度下的待构建用户特征；通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

请参阅图2、图3，图2为本申请实施例所提供的一种机器建模过程中的特征筛选装置的结构示意图，图3为图2中所示的第一确定模块的结构示意图。如图2中所示，所述特征筛选装置200包括：

获取模块210，用于获取每个样本用户在每个特征维度下的待构建用户特征；

第一确定模块220，用于通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；

第二确定模块230，用于将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；

构建模块240，用于基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

进一步的，所述第一确定模块220包括：

系数确定单元221，用于针对于每种特征筛选方式，确定每个特征维度在所述特征筛选方式下的重要性系数；

排序单元222，用于按照每个特征维度在所述特征筛选方式下的重要性系数，降序排列所述多个特征维度；

维度确定单元223，用于将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。

进一步的，所述第二确定模块230在用于将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度时，所述第二确定模块230用于：

统计每个候选维度被用于构建训练特征集的构建次数；

本申请实施例提供的机器建模过程中的特征筛选装置，获取每个样本用户在每个特征维度下的待构建用户特征；通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度；将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度；基于各个目标特征维度下的待构建用户特征，构建用于训练用户可信度评估模型的训练特征集。

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1所示方法实施例中的机器建模过程中的特征筛选方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的机器建模过程中的特征筛选方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种机器建模过程中的特征筛选方法，其特征在于，所述特征筛选方法包括：

获取每个样本用户在每个特征维度下的待构建用户特征；

2.根据权利要求1中所述的特征筛选方法，其特征在于，所述通过不同的特征筛选方式，从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度，包括：

3.根据权利要求1中所述的特征筛选方法，其特征在于，所述将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度，包括：

统计每个候选维度被用于构建训练特征集的构建次数；

4.根据权利要求1中所述的特征筛选方法，其特征在于，所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。

5.一种机器建模过程中的特征筛选装置，其特征在于，所述特征筛选装置包括：

6.根据权利要求5中所述的特征筛选装置，其特征在于，所述第一确定模块包括：

7.根据权利要求5中所述的特征筛选装置，其特征在于，所述第二确定模块在用于将在各种特征筛选方式下均用于构建训练特征集的候选维度，确定为目标特征维度时，所述第二确定模块用于：

统计每个候选维度被用于构建训练特征集的构建次数；

8.根据权利要求5中所述的特征筛选装置，其特征在于，所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至4中任一所述的机器建模过程中的特征筛选的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4中任一所述的机器建模过程中的特征筛选的方法。