CN109657723A

CN109657723A - 一种增强高维类别特征表达能力的方法

Info

Publication number: CN109657723A
Application number: CN201811566391.8A
Authority: CN
Inventors: 罗时超
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-19

Abstract

本发明公开了一种增强高维类别特征表达能力的方法，属于特征工程、机器学习算法和分类预测技术领域，解决现有技术中one‑hot编码方式和embedding策略使得特征的表达能力弱，从而造成模型的表达能力弱，且在特征类别较多的情况下，会大大加重模型参数的复杂度的问题。本发明包括构建类别变量所对应的属性转换为属性特征的转换公式；S2、将转换公式通过正则化处理得到目标转换公式；S3、将类别变量所对应的属性通过目标转换公式处理，得到最终的属性目标特征变量。本发明用于增强高维类别特征的表达能力。

Description

一种增强高维类别特征表达能力的方法

技术领域

一种增强高维类别特征表达能力的方法，用于增强高维类别特征，属于特征工程、机器学习算法和分类预测技术领域。

背景技术

在机器学习领域，一个深刻的共识：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程的重要性不言而喻。特征的加工，本质是是增强特征的表达能力，进一步提高模型表现。其中对于高维类别特征的处理，如何增加其特征表达能力，提高模型表现，一直是学术界和工业界研究的难点。

对于高维类别特征，一般工业界有两种比较通用的处理方式：1是one-hot编码；2是采用embedding策略。对于one-hot编码方式来说，如果类别种类过多，会导致输入向量维度过高，模型的复杂度会随特征维数呈指数级增长，显然这样不利于后续模型的训练。同样对于embedding策略来说，如果特征类别种类过多会大大加重模型的参数复杂度，即原来只需要训练1维，现在要训练L维，数据大了，消耗的内存肯定多了，训练时间就会增加，运算速度也会变慢，而且对硬件资源的要求也高了。对于这样的模型一定要使用较大的数据量来进行训练才可以达到比较好的效果，比如现有技术中，在有海量的用户浏览和点击数据情况下，推荐模型中的推荐信息和用户的编码基本采用的都是embedding策略，虽然特征的表达能力强，但是需要有大量的数据，即通过海量的数据训练深度学习模型，用里面的参数来衡量特征的表达能力。但是如果数据量并不是特别大的情况，输入特征的类别数又比较多，所以这种情况下特征的表达能力就强，就需要研究出一种方法，不管在数据多或少的情况下，既可以增加特征的表达能力，提高模型表现，又不加重模型的复杂度。

发明内容

针对上述研究的问题，本发明的目的在于提供一种增强高维类别特征表达能力的方法，解决现有技术中输入特征类别数较多时，在海量数据的情况下，会大大加重模型参数的复杂度、使得内存消耗大、训练时间长、运算速度慢且对硬件资源的要求高的问题；在数据少的情况下，特征的表达能力弱，从而造成模型表现能力弱的问题。

为了达到上述目的，本发明采用如下技术方案：

一种增强高维类别特征表达能力的方法，其特征在于，如下步骤：

S1、构建类别变量所对应的属性转换为属性特征的转换公式；

S2、将转换公式通过正则化处理得到目标转换公式；

S3、将类别变量所对应的属性通过目标转换公式处理，得到最终的属性目标特征变量。

进一步，所述步骤S1中的转换公式为：

其中，N表示有N个样本(x_i，y_i)，i＝1，2，3...N，x_i表示第i个输入的类别变量，y_i表示对应类别变量x_i的属性，I{.}是示性函数，x^(j)表示第j种属性，j＝1，2，3...l，l表示属性种类个数，φ^j是第j种属性x^(j)对应的y_i的平均值，n_j是取值为x^(j)的属性个数。

进一步，所述步骤S2得到的目标转换公式为：

其中，λ(n_j)是一个取值在[0，1]范围的函数，k和f是根据实际应用定义的超参数。

本发明同现有技术相比，其有益效果表现在：

一、本发明的目标编码方法，是将输入的类别变量所对应的属性进行一对一的转化，在海量数据的情况下，并不增强模型的复杂度，不会消耗过多的内存、训练时间不会增长、运算速度也不会变慢且不用改变硬件资源，在数据少的情况下，属性特征的表达能力强，还会提升模型表现能力；

二、本发明的目标编码方法，将输入的类别变量所对应的属性进行转化后，得到的属性目标特征变量可以获得比输入的类别变量更好的特征表达能力；

三、本发明的目标编码方法，转化后得到的属性目标特征变量可以有效防止模型的过拟合，提高模型表现。

附图说明

图1是本发明中经过实施例1处理前后的auc结果对比图；

图2是本发明中经过实施例2中方案一、方案二、方案三处理的auc结果对比图；

图3是本发明中经过实施例2中方案一处理后的示意图；

图4是本发明中经过实施例2中方案三处理后的示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种增强高维类别特征表达能力的方法，如下步骤：

转换公式为：

S2、将转换公式通过正则化处理得到目标转换公式；

目标转换公式为：

其中，k和f都是提前需要确定的超参数。可以看出，当n_i→∞，λ(n)→1。而当n_i→-∞，λ(n)→0。通过选取合适的k和f，就可以将原来的类别变量x转化为属性目标特征变量φ，而转化后的属性目标特征变量φ较原来的类别变量x具有更好的特征表达能力，且可以提高模型表现。

实施例1

本实例的数据源来自kaggle竞赛平台的Porto Seguro’s Safe DriverPrediction。

具体链接如下：https：//www.kaggle.com/c/porto-seguro-safe-driver-prediction，因采用的数据量有些大，单类别变量所对应的属性种类特别多，下述只给出了单类别变量名称，所以本实施例并未提供具体数据(在链接中可以找到)，若需要提供，我方可单独提供。

所采用的单类别变量为：“ps_ind_02_cat”、“ps_ind_04_cat”、“ps_ind_05_cat”、“ps_car_01_cat”、“ps_car_02_cat”、“ps_car_03_cat”、“ps_car_04_cat”、“ps_car_05_cat”、“ps_car_06_cat”、“ps_car_07_cat”、“ps_car_08_cat”、“ps_car_09_cat”、“ps_car_10_cat”和“ps_car_11_cat”，上述变量也是公开的表示方式，为本领域知晓的含义。

采用本发明中的目标转换公式进行处理时，先确定k＝1，f＝1。

竞赛要求参赛者根据汽车保单持有人的数据建立机器学习模型，分析该持有人是否会在次年提出索赔。为说明本发明的目标编码方法(target encoding)带来的特征增强效果，特对其中14个类别变量进行分析，如图1所示，展示了单类别变量经过前后5折CV(5折交叉验证(cross validation))平均auc的评估结果，

从图1中可以看出，在5折CV平均auc的评估结果下，原始类别变量经过目标转换公式后均有不同程度的提高，最高的类别变量auc提高了6个百分点，这是一个非常大的提升，由此可见，本发明中的方法确实可以增强原特征的表达能力。

实施例2

为进一步说明，本发明的处理后的属性目标特征变量能提高模型表现，具体如下：

数据源来自：Lending Club(a US peer-to-peer lending company)客户借贷的数据，目的是预测申请人的“好坏”，链接如下：

https：//raw.githubusercontent.com/h2oai/app-consumer-loan/master/data/loan.csv，因采用的数据量有些大，单类别变量所对应的属性种类特别多，下述只给出了单类别变量名称，所以本实施例并未提供具体数据(在链接中可以找到)，若需要提供，我方可单独提供。

采用本发明中的目标转换公式主要针对类别变量“addr_state”进行处理，从而观测gbdt模型的处理前后表现，评估准则为测试集上的auc。其中，训练集和测试集是以0.75∶0.25的比例将样本随机划分而成进行处理。

所采用的类别变量为：“addr_state”、“term”、“int_rate”、“purpose”、“annual_inc”、“revol_util”、“loan_amnt”、“dti”、“emp_length”、“longest_credit_length”，addr_state为地址所在的州、term为贷款期数、int_rate为初始利率、purpose为贷款目的、annual_inc为年收入、revol_util为信用卡的“杠杆”、loan_amnt为贷款金额、dti：月度还款比列、emp_length为工作年限、longest_credit_length为使用信用卡年限。

如图2所示，方案一：未作任何处理，原始类别变量(No addr_state TargetEncoding，即没有采用本发明)直接进行模型预测(即未采用本发明对类别变量进行处理)，测试集上的auc为0.7198658，此时如图3显示“addr_state”的重要性最高。

方案二：去掉“addr_state”这个类别变量直接进行模型预测(即未采用本发明对类别变量进行处理)，测试集auc为0.7230537，高于方案一。对比可知：gbdt模型很有可能在addr_state这个特征过拟合了。

方案三：将“addr_state”这个类别变量通过本发明的目标转换公式(targetencoding)转化后，测试集auc为0.7254448明显高于方案一中未做转换的数据，且经过本发明编码处理后的特征TargetEncode_addr_state(即通过本发明处理后的“addr_state”)重要性不再是第一，而是第8，如图4所示。所示经过本发明处理后的类别变量不仅可以防止过拟合，还能提高模型表现。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种增强高维类别特征表达能力的方法，其特征在于，如下步骤：

S2、将转换公式通过正则化处理得到目标转换公式；

2.根据权利要求1所述的一种增强高维类别特征表达能力的方法，其特征在于，所述步骤S1中的转换公式为：

其中，N表示有N个样本(x_i，y_i)，i＝1，2，3...N，x_i表示第i个输入的类别变量，y_i表示对应类别变量x_i的目标值，I{·}是示性函数，x^(j)表示第j种属性，j＝1，2，3...l，，表示属性种类个数，φ^j是第j种属性x^(j)对应的y_i的平均值，n_j是取值为x^(j)的属性个数。

3.根据权利要求2所述的一种增强高维类别特征表达能力的方法，其特征在于，所述步骤S2得到的目标转换公式为：