CN110288042A

CN110288042A - 一种基于交叉验证的单模型融合方法

Info

Publication number: CN110288042A
Application number: CN201910585601.6A
Authority: CN
Inventors: 段强; 李锐; 于治楼; 安程治
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-09-27

Abstract

本发明特别涉及一种基于交叉验证的单模型融合方法。该基于交叉验证的单模型融合方法，采用基本的机器学习方法，包括数据预处理，数据集划分，交叉验证，模型训练，预测和模型融合。该基于交叉验证的单模型融合方法，既利用了交叉验证来提升模型泛化性，又结合了多模型融合的思路对数据进行不同层面的挖掘；同时因为模型比较单一，结果通常比较鲁棒，预测效果优于单独一个模型或者一般的多模型融合方法。

Description

一种基于交叉验证的单模型融合方法

技术领域

本发明涉及机器学习中模型训练与融合技术领域，特别涉及一种基于交叉验证的单模型融合方法。

背景技术

在人工智能发展的浪潮中，神经网络和深度学习的出现使得行业发展前进了一大步，但经典机器学习的方法得益于其训练效率高、所需数据少、可解释性强等优点，仍在某些领域起着不可替代的作用。

目前，经典机器学习模型的使用通常不外乎两种：单模型全量数据训练和多模型融合。其中单模型的使用通常上是使用全部训练集进行模型训练并对测试集进行预测，而多模型融合通常是基于多个同质或异质模型的voting、averaging、bagging、boosting、stacking等方法。

其中单模型全量数据训练的效果取决于训练集和测试集的分布是否一致。当分布一致时，往往效果很好，但这种情况并不多见；如果分布不一致，则模型训练效果取决于训练出的模型的泛化性，泛化性好的模型往往有较好的预测结果。一般情况下我们会通过调整超参数来增强模型泛化性，但常用的网格搜索所需计算力巨大，且容易对数据产生过拟合。

多模型融合通常是通过融合多个模型的决策面从而提升预测的准确度。通常会选用不同类型的模型进行训练，或者是同一个模型对训练数据的不同部分进行学习。这样做也是为了从不同角度挖掘出数据的特性，尽可能的学习到更多数据所蕴含的信息。但由于不同模型关注点不同，以及数据的不同部分所能得到的信息差异比较大，学习出来的融合模型也不一定会比单模型更加鲁棒和准确。

交叉验证在这两种模型使用方法中，通常只扮演调参和验证线下结果的作用。通过将训练集手动划分为k折，我们可以将其中一折作为测试集，从而保证模型的测试结果是对unseen的数据的预测，得到更加准确的评估，以此来调整参数。交叉验证显然还有提升模型的泛化能力的潜力，但在上述方法中并没有直接体现。

综上所述，现有的技术存在如下劣势：

1.单模型泛化能力不强，可能出现对数据观测不全面或者过拟合。

2.多模型计算复杂，不同模型之间的性质差异不好控制，不容易得到可靠的结果。

3.数据有限的情况下没法充分挖掘数据的潜在价值。

基于上述情况，本发明提出了一种基于交叉验证的单模型融合方法。可用于多种机器学习方法适用的场景，如基础的分类、回归任务，包括故障预警，金融欺诈，房价预测，信用评估等。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于交叉验证的单模型融合方法。

本发明是通过如下技术方案实现的：

一种基于交叉验证的单模型融合方法，其特征在于，包括以下步骤：

第一步，获取原始数据，包括训练集和测试集；

第二步，使用机器学习的数据处理方法进行数据清洗和数据预处理；

第三步，根据需求进行特征构造，将已有的数据转换为特征向量或矩阵，供模型学习；

第四步，将训练集进行k折划分，k为3、5或10；

第五步，通过k折交叉验证得到k个中间模型，并对测试集进行预测；

第六步，通过全量数据训练第k+1个模型，并对测试集进行预测；

第七步，将预测结果根据实际场景及需求进行投票或加权平均得到最终结果。

所述第一步中，原始数据包括一个用于训练的带标签数据集和一个不带标签的测试数据集。

所述第二步中，数据清洗过程包括文本向量化，异常值处理和数据平滑处理。

所述第四步中，在构建出合适的特征之后，进行交叉验证的准备工作，根据标签信息的分层等分stratified k-fold将训练集划分成k份，交叉验证过程中的k被称为折，即k折交叉验证。

所述根据标签信息的分层等分stratified k-fold的原理是根据标签信息，从每个标签所对应数据集合中进行划分，最后将多个标签划分出来的数据集合并到一起，进而保证每个划分出来的数据集各个标签的比例都与原数据集的标签比例一致。

所述第五步中，划分出数据集之后使用交叉验证的方法训练模型，通过k折交叉验证得到的k个中间模型，利用每一个中间模型对测试集进行预测，得到k个预测结果，并将结果保留。

所述第六步中，使用第五步中得到的k个中间模型对全部训练集进行建模，再对测试集进行预测，得到第k+1个预测结果。

所述第七步中，对于分类问题采用投票的方法得到最终结果；对于回归问题采用取均值或者加权平均的方法得到最终结果。

对于分类问题中的二分类问题，通过控制投票的票数来均衡测试集预测结果的比例，使之贴近特定的分布；对于多分类问题，则以票数多的为准；由于中间模型得到的结果不如全量训练集得到的模型得到的结果数据全面，因而对于回归问题，在中间模型的预测结果中设置较小的权值。

本发明的有益效果是：该基于交叉验证的单模型融合方法，既利用了交叉验证来提升模型泛化性，又结合了多模型融合的思路对数据进行不同层面的挖掘；同时因为模型比较单一，结果通常比较鲁棒，预测效果优于单独一个模型或者一般的多模型融合方法。

附图说明

附图1为本发明基于交叉验证的单模型融合方法示意图。

附图2为本发明以5折交叉验证以及投票比例为40％为例的单模型融合示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该基于交叉验证的单模型融合方法，包括以下步骤：

第一步，获取原始数据，包括训练集和测试集；

第四步，将训练集进行k折划分，k为3、5或10；

k一般根据数据集的大小或现实情况确定，常用3，5或10折。

数据集的划分方式有很多种，常用的有保持原有顺序的等分，打乱顺序的等分和根据标签信息的分层等分stratified k-fold。从模型训练的角度来说，选择stratifiedk-fold效果较好。

该基于交叉验证的单模型融合方法，灵活利用已有技术，规避其缺点，发挥其长处，与现有技术相比具有以下优势：

(1)使用单一模型，参数及性质相同，实验结果更可控；

(2)不存在多个异质模型之间互相干扰，导致结果受某个性能不好的模型所影响；

(3)综合单模型的高效训练和调参过程，以及多模型的泛化能力；

(4)方法简单明了，投票比例可结合实际需求设定，可操作性高；

(5)对数据利用度高，深入挖掘不同划分集合所蕴含的信息，有利于对数据的多角度全面地描述。

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于交叉验证的单模型融合方法，其特征在于，包括以下步骤：

第一步，获取原始数据，包括训练集和测试集；

第四步，将训练集进行k折划分，k为3、5或10；

2.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第一步中，原始数据包括一个用于训练的带标签数据集和一个不带标签的测试数据集。

3.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第二步中，数据清洗过程包括文本向量化，异常值处理和数据平滑处理。

4.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第四步中，在构建出合适的特征之后，进行交叉验证的准备工作，根据标签信息的分层等分stratified k-fold将训练集划分成k份，交叉验证过程中的k被称为折，即k折交叉验证。

5.根据权利要求4所述的基于交叉验证的单模型融合方法，其特征在于：所述根据标签信息的分层等分stratified k-fold的原理是根据标签信息，从每个标签所对应数据集合中进行划分，最后将多个标签划分出来的数据集合并到一起，进而保证每个划分出来的数据集各个标签的比例都与原数据集的标签比例一致。

6.根据权利要求1所述的基于交叉验证的单模型融合方法，其特征在于：所述第五步中，划分出数据集之后使用交叉验证的方法训练模型，通过k折交叉验证得到的k个中间模型，利用每一个中间模型对测试集进行预测，得到k个预测结果，并将结果保留。

7.根据权利要求6所述的基于交叉验证的单模型融合方法，其特征在于：所述第六步中，使用第五步中得到的k个中间模型对全部训练集进行建模，再对测试集进行预测，得到第k+1个预测结果。

8.根据权利要求7所述的基于交叉验证的单模型融合方法，其特征在于：所述第七步中，对于分类问题采用投票的方法得到最终结果；对于回归问题采用取均值或者加权平均的方法得到最终结果。

9.根据权利要求8所述的基于交叉验证的单模型融合方法，其特征在于：对于分类问题中的二分类问题，通过控制投票的票数来均衡测试集预测结果的比例，使之贴近特定的分布；对于多分类问题，则以票数多的为准；由于中间模型得到的结果不如全量训练集得到的模型得到的结果数据全面，因而对于回归问题，在中间模型的预测结果中设置较小的权值。