CN111783843A

CN111783843A - 一种特征选择方法、装置及计算机系统

Info

Publication number: CN111783843A
Application number: CN202010523591.6A
Authority: CN
Inventors: 朱延飞
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-10-16

Abstract

本申请公开了一种特征选择方法、装置及计算机系统，其中所述方法包括：利用第一预设模型对输入的待处理数据集进行预测，生成第一预测结果及第一重要性评价；利用第二预设模型对所述待处理数据集进行预测，生成第二预测结果及第二重要性评价；利用第三预设模型根据所述第一预测结果及所述第二预测结果，生成第一预设模型对应的第一权重及第二预设模型对应的第二权重；根据第一权重、第一重要性评价、第二权重及第二重要性评价，确定每一特征对应的特征重要性；确定对应的特征重要性满足预设条件的所述特征为目标特征，保证了特征选择的精度，节省了相应的人力及时间成本，且避免了直接使用高维特征进行模型训练对算力及调参带来的巨大压力。

Description

一种特征选择方法、装置及计算机系统

技术领域

本发明涉及机器学习算法领域，尤其涉及一种特征选择方法、装置及计算机系统。

背景技术

在机器学习建模过程中，为了提高模型性能(如运行速度、区分能力以及解释性等)，我们往往需要对入模的特征进行筛选，以实现数据降维。业内通常的做法是，由技术人员进行根据特征的缺失率、相关性、信息价值(IV)等参数进行人工初选，当特征维度降低到一定程度之后再使用各种机器学习模型进行细选。不直接使用模型进行特征筛选的主要原因是如果直接利用机器学习模型对原始数据和特征进行运算，会导致巨大的计算压力和调参压力，且并非特征越多模型的性能就越好。

然而，业内惯用的初选+模型细选的特征选择过程非常耗时且夹杂着很多主观判断。首先，在进行特征初选的时候，通常的做法是删除具有高空值率的特征、具有高相关性的特征以及具有低方差的特征等特征来降低特征维度。然而在删除的过程中存在着许多问题，例如多高的相关性判断为过高、多低的方差判断为过低、多高的空值率判断为过高、对多个高相关的特征应该删除哪一个等。这些问题的判断都存在很大的主观性，即使模型的开发人员具备很强的业务背景，依据开发人员主观判断选择出的最佳特征也往往倾向于随机，而这会给下一步的利用模型选择造成一定影响。

而利用模型进行特征选择的通常做法是进行递归特征消除：不断训练模型，每次将特征重要性最低的特征删除，直到满足规定的条件。这是针对寻找最优特征组合的贪心算法，需要多次训练模型，如果初选没有做出合适选择，那么该模型选择特征过程就不太可能有较好的表现，且在高维特征下，多次的模型训练需要消耗极大的算力。

发明内容

为了解决现有技术的不足，本发明的主要目的在于提供一种特征选择方法、装置及计算机系统。

为了达到上述目的，第一方面本发明提供了一种特征选择方法，包括：

利用第一预设模型对输入的待处理数据集进行预测，生成第一预测结果及所述第一预设模型对所述待处理数据集包含的特征的第一重要性评价，所述预测结果包括预测的所述待处理数据集包含的样本所属的分类；

利用第二预设模型对所述待处理数据集进行预测，生成第二预测结果及所述第二预设模型对所述特征的第二重要性评价；

利用第三预设模型根据所述第一预测结果及所述第二预测结果，生成所述第一预设模型对应的第一权重及所述第二预设模型对应的第二权重；

根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性；

确定对应的特征重要性满足预设条件的所述特征为目标特征。

在一些实施例中，所述第一预设模型、所述第二预设模型包括自适应提升模型及随机森林模型。

在一些实施例中，所述第三预设模型包括逻辑回归模型。

在一些实施例中，所述方法包括：

剔除所述待处理数据集中除所述目标特征以外的特征，生成目标数据集；

利用第四预设模型对所述目标数据集进行预测，生成目标预测结果，所述第四预设模型包括所述第一预设模型及所述第二预设模型。

在一些实施例中，所述根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性包括：

根据FP＝(w1*fp1+w2*fp2)/(w1+w2)，计算每一所述特征对应的特征重要性，其中FP表示每一特征的特征重要性，W1表示第一权重，fp1表示所述第一重要性评价，w2表示第二权重，fp2表示所述第二重要性评价。

在一些实施例中，所述确定对应的特征重要性满足预设条件的所述特征为目标特征包括：

生成包含每一所述特征及所述特征对应的特征重要性的特征字典表；

将所述特征字典表按照所述特征重要性降序排列；

从排序后的所述特征字典表中获取对应的所述特征重要性满足所述预设条件的目标特征。

第二方面，本申请提供了一种特征选择装置，包括：

训练模块，所述训练模块用于利用第一预设模型对输入的待处理数据集进行预测，生成第一预测结果及所述第一预设模型对所述待处理数据集包含的特征的第一重要性评价，所述预测结果包括预测的所述待处理数据集包含的样本所属的分类；利用第二预设模型对所述待处理数据集进行预测，生成第二预测结果及所述第二预设模型对所述特征的第二重要性评价；

预测模块，所述预测模块用于利用第三预设模型根据所述第一预测结果及所述第二预测结果，生成所述第一预设模型对应的第一权重及所述第二预设模型对应的第二权重；

处理模块，用于根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性；确定对应的特征重要性满足预设条件的所述特征为目标特征。

在一些实施例中，所述处理模块还可用于根据FP＝(w1*fp1+w2*fp2)/(w1+w2)，计算每一所述特征对应的特征重要性，FP表示每一特征的特征重要性，W1表示第一权重，fp1表示所述第一重要性评价，w2表示第二权重，fp2表示所述第二重要性评价。

第三方面，本申请提供了一种计算机系统，所述系统包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

本发明实现的有益效果为：

本申请公开了一种特征选择方法，包括：利用第一预设模型对输入的待处理数据集进行预测，生成第一预测结果及所述第一预设模型对所述待处理数据集包含的特征的第一重要性评价，所述预测结果包括预测的所述待处理数据集包含的样本所属的分类；利用第二预设模型对所述待处理数据集进行预测，生成第二预测结果及所述第二预设模型对所述特征的第二重要性评价；利用第三预设模型根据所述第一预测结果及所述第二预测结果，预测所述第一预设模型对应的第一权重及所述第二预设模型对应的第二权重；根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性；确定对应的特征重要性满足预设条件的所述特征为目标特征。避免了人工初选的主观性对特征选择的准确性的影响，保证了特征选择的精度，节省了相应的人力及时间成本，且避免了直接使用高维特征进行模型训练对算力及调参带来的巨大压力；

进一步地，由于自适应提升模型及随机森林模型在算法的优缺点上存在明显的互补情况，本申请提出了使用自适应提升模型及随机森林模型作为第一及第二预设模型,并起到基础分类器的作用，提升了特征选择的泛化性能，保证了特征选择的随机性，使得本方法在不损失精度的情况下，缓解了调参压力，提升了运算速度。

本发明所有产品并不需要具备上述所有效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于二次学习的分类模型的架构图；

图2是本申请实施例提供的方法流程图；

图3是本申请实施例提供的装置结构图；

图4是本申请实施例提供的计算机系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术所述，现有技术中进行特征筛选，通常采用人工初选+模型细选的方法，存在人工初选耗时长、具有主观性，而模型细选的过程消耗算力极大的缺点。鉴于现有技术的上述缺点，本申请提出一种基于二次学习的特征选择方法，避免了人工初选的主观性，也不会给特征选择带来巨大的运算压力，提高了开发人员的模型开发效率。

如图1所示，本申请提出了一种基于二次学习的分类模型，其基础分类器为自适应提升模型(Adaptive Boosting)和随机森林模型，最终分类器为逻辑回归模型。为了降低该模型的调参压力，该模型对外可调的参数仅有自适应提升模型的决策桩数量、随机森林树的数目、随机森林的最大深度(默认1)、随机森林最大特征数及随机森林最大样本数，其他则采用默认参数。该分类模型还设置了阈值参数，该阈值参数可以为整数或浮点数，整数n表示选择特征重要性排在前n的特征为目标特征，浮点数n表示选择特征重要性超过百分之n的特征为目标特征。该分类模型将基础分类器的分类结果作为特征，使用逻辑回归进行二次学习，并最终实现了特征选择，从而将特征选择过程转变为一个以结果为导向的调参过程。

自适应提升模型在高维特征向量下具有较快的运算速度，且无需人工干预，能够起到自动选择特征的效果，但由于其算法原理是改变样本权重而达到高精度目的，实践中往往导致模型的泛化性能较差。而随机森林模型通过对数据集样本以及特征的采样构建基分类器，并最终取平均得到结果，其泛化性能通常较好，但具有一定随机性。二者在算法优缺点上存在明显互补的情况，因此本申请使用自适应提升模型和随机森林作为基分类器构建分类模型，在不损失精度的情况下，缓解模型的调参压力、加快运算速度。

具体的，上述分类模型的具体工作过程包括：

步骤一、使用训练数据集对自适应提升模型及随机森林模型分别进行训练，获得经训练的自适应提升模型及经训练的随机森林模型；

具体的，在对模型进行训练前，需导入待处理数据集。待处理数据集中可包括训练数据集及测试数据集。

步骤二、利用经训练的自适应提升模型对输入的测试数据集进行预测，生成第一预测结果及经训练的自适应提升模型对测试数据集每一特征的第一重要性评价；

具体的，每一测试数据集中包含了多个样本，每一样本由样本名称及多个特征组成。经训练的自适应提升模型预测测试数据集中包含的每一样本所属的分类，在训练和/或预测过程中自适应提升模型生成了对每一特征的重要性评价。预测结果中即包括预测的每一样本所属的分类。

具体的，自适应提升模型可生成包含每一特征及对应的重要性评价的第一特征重要性列表。每一重要性评价可以以经训练的自适应提升模型输出的对应的特征重要性权重值表示。

步骤三、利用经训练的随机森林模型对输入的测试数据集进行预测，生成第一预测结果及经训练的随机森林模型对测试数据集每一特征的第二重要性评价；

经训练的随机森林模型预测测试数据集中包含的每一样本的分类，在训练和/或预测过程中随机森林模型生成了对每一特征的重要性评价。每一重要性评价可以以经训练的随机森林模型输出的对应的特征重要性权重值表示。

具体的，随机森林模型可生成包含每一特征及对应的重要性评价的第二特征重要性列表。

步骤四、根据所述第一预测结果及所述第二预测结果训练逻辑回归模型，以便逻辑训练模型生成经训练的自适应提升模型对应的第一权重及经训练的随机森林模型对应的第二权重；

具体的，可使用经训练的自适应提升模型预测的每一样本所属的分类及经训练的随机森林模型预测的每一样本所属的分类作为该样本的特征，以便对逻辑回归模型进行训练。

当训练完成后，逻辑回归模型即可生成两个模型分别对应的权重值。

步骤五、根据FP＝(w1*fp1+w2*fp2)/(w1+w2)，确定每一特征的特征重要性。

具体的，w1表示第一重要性评价，fp1表示第一权重，w2表示第二重要性评价，fp2表示第二权重，FP表示该特征最终对应的特征重要性。

步骤六、根据每一特征的特征重要性，对特征进行排序并生成特征字典表；

具体的，特征字典表中包含每一特征及对应的特征重要性，key为特征的名称，value为对应的特征重要性的值。

在生成特征字典表后，即对其以Value值降序排列。

步骤七、确定对应的特征重要性满足预设条件的特征为目标特征。

具体的，可预设对应的阈值，以确定目标特征。当对应的阈值为整数且值为n时，表示确定对应的特征重要性的值排在前n个的特征为目标特征。当对应的阈值为浮点数且值为n时，表示从降序排列后的特征字典表的首项特征开始，对对应的特征重要性进行累加，直至累计特征重要性之和超过n％。此时所有对应的特征重要性进行了累加的特征即为目标特征。

当确定了目标特征后，即可对待处理数据集中不是目标特征的特征进行剔除。自适应提升模型、随机森林模型或其他的机器学习模型可根据剔除后的目标数据集进行模型训练及预测，以降低待处理数据集的特征维度，缓解模型的调参压力、加快运算速度。

表1

表1示出了本申请提出的分类模型、随机森林模型与极端梯度提升模型在对数据集：麝香第二版的特征选择的表现上的对比。即分别使用以上三种模型做特征选择，在单次训练后选出重要性在前95％的特征，使用选出的特征训练逻辑回归模型，在测试集上测试获得的正确率、精度和召回率。从表1中可以看出，不损失精度与不明显损失正确率的情况下，在单次模型训练选择最重要特征的能力上本申请提出的基于二次学习的分类模型具有显著优势。

表2

表2示出了本分类模型与随机森林模型及极端梯度提升模型在对数据集：p53突变体的特征选择的表现上的对比。即分别使用以上三种模型做特征选择，在单次训练后选出重要性在前95％的特征，使用选出的特征训练逻辑回归模型，在测试集上测试获得的正确率、精度和召回率。从表2中可以看出，本分类模型具有良好的正确率、精度及召回率。

综合本分类模型在两个数据集上的表现来看，本分类模型具有快速选择最重要特征的能力，且能够保持高精度和正确率。

实施例二

对应上述实施例，本申请提供了一种特征选择方法，如图2所示，所述方法包括：

210、利用第一预设模型对输入的待处理数据集进行预测，生成第一预测结果及所述第一预设模型对所述待处理数据集包含的特征的第一重要性评价，所述预测结果包括预测的所述待处理数据集包含的样本所属的分类；

220、利用第二预设模型对所述待处理数据集进行预测，生成第二预测结果及所述第二预设模型对所述特征的第二重要性评价；

230、利用第三预设模型根据所述第一预测结果及所述第二预测结果，生成所述第一预设模型对应的第一权重及所述第二预设模型对应的第二权重；

240、根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性；

优选的，所述根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性包括：

241、根据FP＝(w1*fp1+w2*fp2)/(w1+w2)，计算每一所述特征对应的特征重要性，其中FP表示每一特征的特征重要性，W1表示第一权重，fp1表示所述第一重要性评价，w2表示第二权重，fp2表示所述第二重要性评价。

250、确定对应的特征重要性满足预设条件的所述特征为目标特征。

优选的，所述确定对应的特征重要性满足预设条件的所述特征为目标特征包括：

251、生成包含每一所述特征及所述特征对应的特征重要性的特征字典表；

252、将所述特征字典表按照所述特征重要性降序排列；

253、从排序后的所述特征字典表中获取对应的所述特征重要性满足所述预设条件的目标特征。

优选的，所述第一预设模型、所述第二预设模型包括自适应提升模型及随机森林模型。

优选的，所述第三预设模型包括逻辑回归模型。

优选的，所述方法包括：

260、剔除所述待处理数据集中除所述目标特征以外的特征，生成目标数据集；

261、利用第四预设模型对所述目标数据集进行预测，生成目标预测结果，所述第四预设模型包括所述第一预设模型及所述第二预设模型。

实施例三

对应上述方法，本申请提供了一种特征选择装置，如图3所示，所述装置包括：

训练模块310，所述训练模块用于利用第一预设模型对输入的待处理数据集进行预测，生成第一预测结果及所述第一预设模型对所述待处理数据集包含的特征的第一重要性评价，所述预测结果包括预测的所述待处理数据集包含的样本所属的分类；利用第二预设模型对所述待处理数据集进行预测，生成第二预测结果及所述第二预设模型对所述特征的第二重要性评价；

预测模块320，所述预测模块用于利用第三预设模型根据所述第一预测结果及所述第二预测结果，生成所述第一预设模型对应的第一权重及所述第二预设模型对应的第二权重；

处理模块330，用于根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性；确定对应的特征重要性满足预设条件的所述特征为目标特征。

优选的，所述第三预设模型包括逻辑回归模型。

优选的，所述处理模块330还可用于剔除所述待处理数据集中除所述目标特征以外的特征，生成目标数据集；利用第四预设模型对所述目标数据集进行预测，生成目标预测结果，所述第四预设模型包括所述第一预设模型及所述第二预设模型。

优选的，所述处理模块330还可用于根据FP＝(w1*fp1+w2*fp2)/(w1+w2)，计算每一所述特征对应的特征重要性，FP表示每一特征的特征重要性，W1表示第一权重，fp1表示所述第一重要性评价，w2表示第二权重，fp2表示所述第二重要性评价。

优选的，所述处理模块330还可用于生成包含每一所述特征及所述特征对应的特征重要性的特征字典表；将所述特征字典表按照所述特征重要性降序排列；从排序后的所述特征字典表中获取对应的所述特征重要性满足所述预设条件的目标特征。

实施例四

对应上述方法、设备及系统，本申请实施例四提供一种计算机系统，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

其中，图4示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特征选择方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一预设模型、所述第二预设模型包括自适应提升模型及随机森林模型。

3.根据权利要求1或2所述的方法，其特征在于，所述第三预设模型包括逻辑回归模型。

4.根据权利要求1或2所述的方法，其特征在于，所述方法包括：

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一权重、所述第一重要性评价、所述第二权重及所述第二重要性评价，确定每一所述特征对应的特征重要性包括：

6.根据权利要求1或2所述的方法，其特征在于，所述确定对应的特征重要性满足预设条件的所述特征为目标特征包括：

将所述特征字典表按照所述特征重要性降序排列；

7.一种特征选择装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一预设模型、所述第二预设模型包括自适应提升模型及随机森林模型。

9.根据权利要求7或8所述的装置，其特征在于，所述处理模块还可用于根据FP＝(w1*fp1+w2*fp2)/(w1+w2)，计算每一所述特征对应的特征重要性，FP表示每一特征的特征重要性，w1表示第一权重，fp1表示所述第一重要性评价，w2表示第二权重，fp2表示所述第二重要性评价。

10.一种计算机系统，其特征在于，所述系统包括：

一个或多个处理器；