CN110781174A

CN110781174A - 一种使用pca和特征交叉的特征工程建模方法和系统

Info

Publication number: CN110781174A
Application number: CN201910978519.XA
Authority: CN
Inventors: 袁锦程; 王维强; 许辽萨; 赵闻飙; 易灿; 崔世文
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-11

Abstract

本公开涉及一种使用pca和特征交叉的特征工程建模的方案，包括：对特征数据进行特征相关检测；使用独热编码对特征进行编码，并对经编码的特征执行pca算法，其中在执行独热编码的过程中，还可以对所述特征进行特征交叉；通过执行共线性选择和特征重要性选择对所述特征进行筛选；以及将筛选出的特征输出用于特征工程建模。

Description

一种使用pca和特征交叉的特征工程建模方法和系统

技术领域

本公开涉及一种用于特征工程的建模方案，具体而言，涉及一种使用pca和特征交叉的特征工程建模方法和系统。

背景技术

随着计算机技术的发展，基于机器学习模型的人工智能(AI)技术也随之兴起。机器学习模型的理论基础是模型的构建，而模型构建的基础则是数据和特征。特征是数据中抽取出来的对结果预测有用的信息，可以是文本或者数据。而业界广泛流传这样一句话：“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”。由此可见，特征的选取对于所构建的模型的好坏起到了至关重要的作用。

基于此，针对建模所要使用的特征，业界提出了一种“特征工程(FeatureEngineering)”的概念。具体而言，特征工程是指：使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。所述过程包含了特征提取、特征构建、特征筛选等模块。特征工程的目的是筛选出更好的特征，获取更好的训练数据。因为好的特征具有更强的灵活性，可以用简单的模型做训练，更可以得到优秀的结果。特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。但随着大数据技术的发展，采集到的数据量越来越多，类型越来越复杂，所以，对特征工程也提出了更高的要求。

因此，需要一种能够使得特征工程更加快速、智能和自动化的优化方案。

发明内容

本公开涉及一种使用pca和特征交叉的特征工程建模的方案，以加快并自动化特征工程的建模过程。

根据本公开的第一方面，提供了一种用于特征工程建模的方法，包括：对特征数据进行特征相关检测；使用独热编码对特征进行编码，并对经编码的特征执行pca算法，其中在执行独热编码的过程中，还可以对所述特征进行特征交叉；通过执行共线性选择和特征重要性选择对所述特征进行筛选；以及将筛选出的特征输出用于特征工程建模。

根据本公开的第二方面，提供了一种用于特征工程建模的系统，包括：特征相关检测模块，被配置为对特征数据进行特征相关检测；pca和特征交叉模块，被配置为使用独热编码对特征进行编码，并对经编码的特征执行pca算法，其中在执行所述独热编码的过程中，对所述特征进行特征交叉；以及共线性选择和特征重要性选择模块，被配置为通过执行共线性选择和特征重要性选择对所述特征进行筛选，并将筛选出的特征输出用于特征工程建模。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图说明

为了描述可获得本公开的上述和其它优点和特征的方式，将通过参考附图中示出的本公开的具体实施例来呈现以上简要描述的本公开的更具体描述。可以理解，这些附图只描绘了本公开的各典型实施例，并且因此不被认为是对其范围的限制，将通过使用附图并利用附加特征和细节来描述和解释本公开，在附图中：

图1示出了根据本公开的实施例的一种使用pca和特征交叉的特征工程建模方法。

图2示出了一种示例性的加入text特征和没有加入text特征的类GBDT模型的曲线图。

图3示出了根据本公开的实施例的一种使用pca和特征交叉的特征工程建模的系统。

具体实施方式

如前所述，在传统的特征过程中包含了特征提取、特征构建、特征筛选等模块。在实际特征过程中，我们往往会首先从原始数据中提取并构建多个特征，随后将这些新构建的特征放入到树模型里进行筛选。通常，在特征的提取和构建过程中，会使用诸如pca(Principal Component Analysis，主成分分析)和/或特征交叉(feature cross)等算法对所述数据进行预处理以实现提升数据处理速度的目的，从而节省大量的时间和成本。随后，在特征筛选时，对于新构建的特征，通常会使用iv值(information value)和树模型来根据特征重要度进行筛选。

在现有的特征工程方案中，pca和特征交叉主要包括几个方面：1)对于用户ip对的编码进行pca；2)对于特征进行比较多的遍历式交叉。然而，现有的方案对于pca和特征交叉没有任何进一步的处理，主要是通过建模人员建立一些手动的query来实现，往往费时费力，有时还会出错。

因此，需要一种能够在实现特征工程智能化、自动化的基础上进一步优化模型本身的方案。

为了解决现有技术中的上述问题，本公开提供了一种使用pca和特征交叉的特征工程建模方法和系统。在使用本方法和系统之后，特征工程的整个模型的运营可以变得自动化，加速工作进展，并让建模人员得到更好的模型。

如图1所示，示出了一种使用pca和特征交叉的特征工程建模方法100。在进行正式的特征工程之前，需要对前期所采集的数据进行预处理，所述数据处理例如包括：数据样本的格式化、异常特征样本的清洗与样本数据不平衡处理等等。数据样本的格式化可以使得来自各个源的数据变得归一化和标准化，以方便进行统一处理。对数据进行清洗则可填充缺失值、光滑噪声数据，识别和删除离群点数据，保证数据的一致性。而样本数据不平衡处理则可以解决数据集样本类别比例不均衡的问题以提供分类平衡。在实际处理过程中，所述各种数据预处理可以根据实际需求有选择地进行。例如，如果所采集的数据样本都是来自同一类型的传感器，则数据格式化操作可以被省略，因为所述数据样本一般都是相同的格式，可以直接使用。再比如如果样本分类本身就比较均衡则可以省略不平衡处理。但由于现在的大数据技术会从各种数据源收集到海量信息，其中包含了很多无效、重复、离散的数据。因此，数据样本清洗操作一般必不可少，以减少待处理的数据量。因此，在此以数据清洗作为数据预处理操作的一个示例进行说明。实际上，所述数据预处理还可以包括很多处理方式。这些都是本领域技术人员熟知的数据处理手段，在此不再展开。

在采集完数据之后，在步骤110，对所述特征数据进行清洗以减少不必要的数据。具体而言，数据清洗(Data cleaning)是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。清洗的数据对象主要包括三种类型：残缺数据、错误数据和重复数据。一般而言，通常都是使用Python语言进行大数据清洗，Python提供很多的算法分析来进一步的帮助进行数据分析和清理。所述数据清洗是数据预处理的常用技术，因此，不再展开。

在特征数据(特征集)清洗完成后，可以正式开始本公开所述的特征工程流程，所述流程主要包括三个模块，即对于特征进行相关自动检测120、对变量进行pca和特征交叉130以及共线性选择和特征重要性选择140。

首先，在特征相关检测120处，对于特征进行自动的相关检测：首先我们需要把特征进行一个相关排序，这样我们便可以选择出来最重要的特征用来做特征作用性。而特征相关排序的主要方法有3个：1)直接使用IV进行特征检测；2)使用树模型进行特征重要性的排序；3)第三个使用的方式是通过SHAP value的方式进行选择。

在第一种方式中，IV的全称是Information Value，其意思是信息价值，或者信息量。特征的IV值就是一种可以用来衡量自变量的预测能力的指标。特征的IV值越大，其信息价值就越大，也就越是相关。常用的IV值的计算是基于WOE(全称为“Weight ofEvidence”)，即证据权重。WOE是对原始自变量的一种编码形式。IV值衡量的是某一个变量的信息量，因此，从公式来说，其相当于是自变量WOE值的一个加权求和。在对所有特征计算出其IV值后，就能根据所述IV值的大小进行相关排序。

在第二种方式中，树模型是机器学习领域内广泛使用的一种模型。树模型的好处是其很容易理解，且相对不容易过拟合，训练时对资源的消耗也更少。树模型可以针对特征按照重要性进行排序，从而构造新的特征或从中选出子集来压缩数据。树模型可以通过统计的方式去验证模型的准确值，判断训练的进展。常用的树模型包括：Random Forest、GBDT、XGBoost等等。由于利用这些树模型进行特征重要性排序是技术人员经常使用的特征筛选手段，因此，不再在此累述。

在第三种方式中，SHAP(全称为“SHapley Additive explanations”)value，也称为夏普利值，是一种机器学习的通用归因算法。它起源于博弈论，解决的是：当n个人合作并创造了v(N)的价值时，如何将所创造的价值对每个人进行分配的问题，也即某个成员的SHAP值反映的是该成员对团队所创造的总价值的贡献度。从另一个角度来说，所述贡献度实际上体现了成员(特征)的重要度，因此，SHAP(或Shapley)值可以被用于对特征的重要性进行排序。

上述三种方式都是特征相关排序中可以使用的常用算法，本领域技术人员可以根据实际情况采用其中之一或其他相应的排序算法来对特征进行相关排序，从而获得按照重要性排序的特征集。随后可以根据实际需要从该特征集中选择出具有最高重要性的N个特征以供进一步处理，而未被选中的特征则被丢弃，进而节省资源并提高处理速度。

在选择出具有最高重要性的N个特征之后，在特征pca和特征交叉130处，对所选特征进行pca变换和特征交叉处理，以选择高特征重要性的特征。其主要方式是：比如如果是id对ip的特征对，每个id对于ip值进行One-Hot编码，之后我们可以把One-Hot的值进行相加。之后再在此上面进行pca，因为ip对应的id是非常多的，不使用One-Hot编码可能会导致维度爆炸。在另一个实施例中，我们可以使用特征交叉的办法对One-Hot编码进行合成特征生成，其中特征交叉主要是依托于加减乘除，其中减和除的效果通常会比较好。

具体而言，对于非连续的离散特征，可以先采用独热编码(One-Hot Encoding)对其进行处理。One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。使用One-Hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用One-Hot编码，会让特征之间的距离计算更加合理。离散特征进行One-Hot编码后，所编码的特征其实每一维度的特征都可以看做是连续的特征。这就使得特征之间的距离计算变得可能。而且，通过One-Hot编码，可以将几个独立的特征合并到一个特征中，达到降维的目的。

如上所述，在另一个实施例中，在对特征进行One-Hot编码的过程中，可以对其进行进一步的特征交叉(Feature Crosses)。所谓特征交叉就是针对两个或多个特征通过对它们进行加减乘除来生成新的合成特征。所述合成特征可以具有比单个特征更强的预测能力。因此，通过特征交叉可以从现有数据发现其中的隐性规律，找到该规律并产生新的特征，进而提供超出这些特征单独能够提供的预测能力。

但是，One-Hot编码也有其自身的缺陷，即当类别的数量很多时，特征空间会变得非常大。在这种情况下，就可以用pca来减少特征维度，也即“降维”。

降维是一种数据集预处理技术，往往在数据应用在其他算法之前使用，它可以去除掉数据的一些冗余信息和噪声，使数据变得更加简单高效，从而实现提升数据处理速度的目的，节省大量的时间和成本。在实际的生产和应用中，降维在一定的信息损失范围内，可以节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。如上所述，在使用One-Hot编码之后，可能会产生特征空间变得非常大的问题，因此，需要进行特征降维处理。特征降维的目标是将高维空间中的数据集映射到低维空间数据，同时尽可能少地丢失信息，或者使得降维后的数据点尽可能地容易被区分。常见的降维方法包括主成分分析法(pca)。

pca算法是一种经常使用的经典机器学习算法，也是本公开的特征工程建模方案所采用的降维算法。具体而言，pca是一种较为常用的降维技术，pca的思想是将维特征映射到维上，这维是全新的正交特征。这维特征称为主元，是重新构造出来的维特征。在pca中，数据从原来的坐标系转换到新的坐标系下，新的坐标系的选择与数据本身是密切相关的。第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复，重复次数为原始数据中特征的数目。大部分方差都包含在最前面的几个新坐标轴中。因此，可以忽略余下的坐标轴，即对数据进行降维处理。pca算法本质就是找一些投影方向，使得数据在这些投影方向上的方差最大，而且这些投影方向是相互正交的。这其实就是找新的正交基的过程，计算原始数据在这些正交基上投影的方差，方差越大，就说明在对应正交基上包含了更多的信息量。原始数据协方差矩阵的特征值越大，对应的方差越大，在对应的特征向量上投影的信息量就越大。反之，如果特征值较小，则说明数据在这些特征向量上投影的信息量很小，可以将小特征值对应方向的数据删除，从而达到了降维的目的。简而言之，pca把可能具有相关性的高维变量合成线性无关的低维变量，称之为主成分，新的低维数据集会尽可能保留原始数据的变量。总之，pca算法最主要的用途在于“降维”，去除掉数据的一些冗余信息和噪声，使数据变得更加简单高效，提高其他机器学习任务的计算效率。

另外，在一些实施例中，本公开还可以采用一些其他的处理操作，例如：排序特征、数值与类别内均值的比例以及组内标准化/归一化等操作以进一步优化特征。上述处理操作都是本领域经常使用的特征选择手段，在此不再累述。

在对特征执行了pca和特征交叉130操作之后，在步骤140处，执行共线性选择和特征重要性选择步骤，所述步骤是对经过上述处理后的特征集进行筛选的过程。

在执行所述共线性和特征重要性选择之前，可以对特征首先进行分箱操作。所谓分箱就是指按照规则对特征进行分类。在本公开的方案中可以基于先前计算的各特征的IV值来进行所述分箱操作，并且为了简化特征集，可以将小于某个阈值(也即不太相关的特征)删除以减少特征数量，例如可以将IV值小于0.3的特征从特征集中删除以减少特征数目。

在完成分箱操作后，可以使用GBDT(Gradient Boosting Decison Tree，也即梯度提升树)打分函数对于每一个特征进行打分。比如：可以用分裂后左节点的分数加上右节点的分数减去不分裂的分数求出该特征所得到的增益，再对每个特征的增益进行排序，从而得到特征的重要度(即打分函数计算出的分数)。将低分(如最低的20％的特征)单个特征加入分层抽样(如只抽10％数据，使用3个交叉验证(cross－validation)进行分类以加快评估速度的N-Fold cross validation的高分特征集)的类GBDT模型里。随后，以AUC(AreaUnder Curve(曲线下的面积)，AUC值经常用来评价一个二分类模型的训练效果)为标准对所生成的类GBDT模型进行评估。通过从所述类GBDT模型中删除掉使得AUC下降的特征，以获得不包含该特征的类GBDT模型。此时，可以通过对比加入该特征的类GBDT模型的曲线坐标图和没有加入该特征的类GBDT模型的曲线坐标图来获得它们之间的差异。在附图2中示出了一种示例性的加入text特征和没有加入text特征的类GBDT模型的PR(精确率-召回率)曲线坐标图。

到了这个阶段，经过上述各步骤可以获得通过深度学习自动生成的各特征。在此，关心的是是否这些生成的特征能够提升模型效果，此时不能忽略通过上述深度学习过程自动生成的特征和操作者手动生成特征之间可能存在共线性。共线性的意思为一个变量可以通过另一个变量线性表示。特征的共线性可能导致模型估计失真或难以估计准确，进而会影响到模型的稳定性。此时，应当检验所述特征的共线性。下面是一种排除特征的共线性的程序流程，具体如下所示：

通过上述三个步骤的处理，就完成了对特征集的筛选，因此，在步骤150，可以将所述经筛选的特征集作为用于模型的变量输出以进行后续建模。

这样，本公开在特征工程的方案中有效地引入了相关的pca或者交叉特征，这样在主流所选择的特征集之外提供了一些具有效果增益的新特征，从而有效帮助模型进行特征增益，增进了模型的效果，抓住了更多有风险的样本。另一方面，通过在所述方案中引入了额外的特征筛选和去除共线性的方法，可以有效地对特征集进行特征筛选和去除多余的共线性特征来增益模型效果，优化模型性能，完善建模体系，进而产生了更好的建模增益。

在图3中，示出了根据本公开的实施例的一种使用pca和特征交叉的特征工程建模的系统。如上所述，本公开的系统主要包括三大模块，即特征相关检测模块310、pca和特征交叉模块320以及共线性选择和特征重要性选择模块330。

根据图1所述的方法，在将特征集输入所述系统中以进行特征筛选之前，可以先通过数据清洗模块对特征数据进行数据清洗操作，也即对特征数据进行诸如填充缺失值、光滑噪声数据，识别和删除离群点数据，保证数据的一致性等操作，以减少无效数据量。这些处理都属于对数据的预处理操作，是为之后的针对特征工程的建模流程作准备。在完成所述一系列数据的预处理操作之后，将所述经过处理的特征数据(特征集)输入特征相关检测模块310。

在所述特征相关检测模块310处，如前所述，对于特征进行自动的相关检测。例如通过使用诸如IV算法、树模型或SHAP value算法来对特征按照相关性进行排序，从而获得按照重要性排序的特征集。具体的排序算法的介绍在先前针对图1的步骤120中有详细描述，在此不再累述。随后可以根据实际需要从该特征集中选择出具有最高重要性的N个特征以供进一步后续处理，而未被选中的特征则可以被丢弃。这样，使得具有低相关性的特征被排除在后续的特征处理过程之外，进而节省资源并提高处理速度。最后，将所选择的具有最高重要性的N个特征的特征集传送给下一模块，即pca和特征交叉模块320。

在pca和特征交叉模块320处，如前在图1的步骤130中所述，可以首先使用独热编码对所述特征进行特征合并处理。在对特征执行完独热编码后，可以再使用例如pca算法来进行进一步的降维处理以去除掉数据的一些冗余信息和噪声，使数据变得更加简单高效，提高其他机器学习任务的计算效率。在一些实施例中，在所述独热编码过程中还可以执行特征交叉操作。通过特征交叉可以从现有数据发现其中的隐性规律，找到该规律并产生新的特征，进而提供超出这些特征单独能够提供的预测能力。

在对特征执行了pca和特征交叉操作之后，在共线性选择和特征重要性选择模块330处，执行共线性选择和特征重要性选择步骤以对经过上述处理后的特征集进行进一步筛选。所述模块可以首先对特征进行分箱操作，以减少特征的数目。随后，可以使用GBDT打分函数对每一个特征进行打分，并使用AUC为标准对所生成的类GBDT模型进行评估。最后，通过去除在通过上述深度学习自动生成的特征与操作者手动生成的特征之间存在的共线性来完成特征的最后筛选。

最后，将来自共线性选择和特征重要性选择模块330的特征集作为用于模型的变量输出以进行后续建模。至此，本公开的特征工程建模系统的操作全部结束。

在一些实施例中，所述特征工程建模系统还可以采用一些其他的处理操作，例如：排序特征、数值与类别内均值的比例以及组内标准化/归一化等操作以进一步优化特征。上述处理操作都是本领域经常使用的特征选择手段，在此不再累述。

在使用了本公开的利用pca和特征交叉的特征工程建模系统后，整个模型的运营可以变得自动化地将生成的数据加入到相关的树模型中。本系统可以把相关的审理模型进行合并化处理，使得相关人员只需少量数据便可以开始下一步工作。该方案可接入第二代智能审理系统，在上线后，只需人工进行少量操作就可以完成pca和特征交叉生成等工作，在节省资源的同时，大大提高了处理的速度和效率并减少了处理时间。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。而且，相关领域的技术人员将领会，在不偏离如所附权利要求书所定义的本公开的精神和范围的情况下，所述实施例可以在形式和细节方面进行各种修改。因此，此处所公开的本公开的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种用于特征工程建模的方法，包括：

对特征数据进行特征相关检测；

使用独热编码对特征进行编码，并对经编码的特征执行pca算法；

通过执行共线性选择和特征重要性选择对所述特征进行筛选；以及

将筛选出的特征输出用于特征工程建模。

2.如权利要求1所述的方法，其特征在于，所述特征数据是特征集的形式。

3.如权利要求2所述的方法，其特征在于，所述特征相关检测包括：对所述特征集中的特征按照相关性进行排序，并选择出具有最高重要性的多个特征。

4.如权利要求1所述的方法，其特征在于，所述pca算法可以降低特征的维度。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

在执行独热编码的过程中，对所述特征进行特征交叉。

6.如权利要求5所述的方法，其特征在于，所述特征交叉可以发现现有特征数据中的隐性规律，并根据所述隐性规律产生新的特征。

7.如权利要求2所述的方法，其特征在于，所述特征筛选包括：

对所述特征集中的所有特征进行分箱操作；

使用GBDT打分函数对每一个特征进行打分；

使用AUC标准对所生成的类GBDT模型进行评估；以及

通过去除在根据所述步骤自动生成的特征与操作者手动生成的特征之间存在的共线性来实现特征筛选。

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

在对所述特征数据进行特征相关检测之前，先对接收到的特征数据进行数据清洗。

9.一种用于特征工程建模的系统，包括：

特征相关检测模块，被配置为对特征数据进行特征相关检测；

pca和特征交叉模块，被配置为使用独热编码对特征进行编码，并对经编码的特征执行pca算法，其中在执行所述独热编码的过程中，对所述特征进行特征交叉；以及

共线性选择和特征重要性选择模块，被配置为通过执行共线性选择和特征重要性选择对所述特征进行筛选，并将筛选出的特征输出用于特征工程建模。

10.如权利要求9所述的系统，其特征在于，所述特征数据是特征集的形式。

11.如权利要求10所述的系统，其特征在于，所述特征相关检测模块被进一步配置为：对所述特征集中的特征按照相关性进行排序，并选择出具有最高重要性的多个特征。

12.如权利要求9所述的系统，其特征在于，所述pca算法可以降低特征的维度。

13.如权利要求9所述的系统，其特征在于，所述特征交叉可以发现现有特征数据中的隐性规律，并根据所述隐性规律产生新的特征。

14.如权利要求10所述的系统，其特征在于，所述特征筛选包括：

对所述特征集中的所有特征进行分箱操作；

使用GBDT打分函数对每一个特征进行打分；

使用AUC标准对所生成的类GBDT模型进行评估；以及

15.如权利要求9所述的系统，其特征在于，所述系统还包括：

数据清洗模块，被配置为对接收到的特征数据进行数据清洗。