CN111582325B

CN111582325B - 一种基于自动特征编码的多阶特征组合方法

Info

Publication number: CN111582325B
Application number: CN202010312421.3A
Authority: CN
Inventors: 董守斌; 钟振远; 胡金龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-04-07
Anticipated expiration: 2040-04-20
Also published as: CN111582325A

Abstract

本发明公开了一种基于自动特征编码的多阶特征组合方法，包括步骤：1)对日志型数据的训练集进行预处理和数据采样；2)构建代理搜索模型对特征组进行搜索，得到评价指标最高的特征组；3)构建复合目标编码器对选中的特征组编码，得到多阶组合特征；4)对多阶组合特征进行内嵌式特征选择，保留有效特征；5)重复步骤2)‑4)，最终得到完整的有效组合特征编码表；6)参照有效组合特征编码表，使用复合目标编码器对训练集和测试集转化，获得多阶特征组合训练集和测试集。本发明方法能够自动完成预处理、特征工程等一系列步骤，有助于机器学习平台节省人工成本、降低特征工程时间开销和提升预测精度。

Description

一种基于自动特征编码的多阶特征组合方法

技术领域

本发明涉及互联网数据挖掘中的自动特征工程领域，尤其是指一种基于自动特征编码的多阶特征组合方法。

背景技术

随着大数据时代的到来和人工智能在互联网的蓬勃发展，互联网中各种数据挖掘任务均开始采用数据驱动的解决方案，即以机器学习为核心方法，利用海量数据进行学习和预测。对于互联网中常见的日志型数据的数据挖掘任务来说，较重要的一个步骤是进行特征工程，特征工程很大程度决定了预测效果的上限；同时，日志型数据的特点是包含大量类别型特征和部分连续型特征。以广告点击日志为例，广告点击日志会包含如下特征：如用户特征(性别，职业，所在地等)，广告特征(广告主，广告品牌等)和上下文特征(展示时间，广告位尺寸等)，因此对这些特征的特征工程是该类任务的重中之重。

日志型数据的数据挖掘任务使用的传统特征工程方法以人工构造特征为主，需要从业人员通过先验知识猜测构造特征的有效性并逐个进行验证，这个过程不但需要丰富的业务知识和经验，而且需要耗费大量时间在试错之上。近年来出现了一些以构建特征表示学习模块为核心的深度学习方法，这些方法能够减少人工构造特征的需求，但是模型时间复杂度较高且没有可解释性。而使用自动特征工程框架对组合特征进行表示学习则既能保证可解释性，又能显著提升预测效果。本发明利用自动特征工程相关技术，自动搜索特定阶的特征组合，并对特征组合进行编码，构造新特征，在海量的日志型数据中挖掘出特征关系信息，生成的数据集能提高机器学习模型的预测效果，同时能增强机器学习模型的可解释性。

发明内容

本发明目的在于针对现有技术存在的不足，提出了一种基于自动特征编码的多阶特征组合方法，该方法设计完善合理，能够为日志型数据的数据挖掘部门节约大量人工成本和计算资源，将本来应该由数据分析师或特征工程师完成的人工特征工程工作变为由本发明的方法自动完成，机器学习平台只需要输入包含类别型特征和连续型特征的原始日志型数据集，本发明的方法就能自动完成预处理、特征工程等一系列步骤，并输出生成的多阶特征组合数据集和具备可解释性的有效组合特征编码表。

为实现上述目的，本发明所提供的技术方案为：一种基于自动特征编码的多阶特征组合方法，主要对日志型数据的训练集和测试集进行多阶特征组合，包括以下步骤：

1)对包含连续型特征和类别型特征的日志型数据的训练集进行预处理，再对预处理后的日志型数据的训练集进行数据采样，得到采样数据集；其中，所述预处理包括将连续型特征离散化和类别型特征降维；

2)构建代理搜索模型，对采样数据集中的所有特征组进行搜索，选择评价指标最高的特征组；

3)构建复合目标编码器，对步骤2)中选中的特征组进行编码，得到一系列的多阶组合特征；

4)对得到的一系列多阶组合特征进行内嵌式特征选择，得到一组有效组合特征，将该组有效组合特征的构造范式加入有效组合特征编码表，其中，所述有效组合特征编码表是一个包含构造范式的集合，初始为空集，用于指导复合目标编码器对日志型数据的训练集和测试集的类别型特征进行编码转化；

5)要继续搜索采样数据集中余下的特征组，即没有被选中的特征组，重复步骤2)至步骤4)，直至已遍历完采样数据集的所有特征组或有效组合特征编码表中的构造范式数量达到指定阈值，则终止循环，获得完整的有效组合特征编码表并进行步骤6)；

6)参照步骤5)得到的完整的有效组合特征编码表中已有的构造范式，使用复合目标编码器对预处理后的日志型数据的训练集的所有类别型特征进行编码转换，获得多阶特征组合的训练集；同样，对日志型数据的测试集进行同训练集一样的预处理，包括连续特征离散化和类别型特征的降维，然后再参照完整的有效组合特征编码表使用复合目标编码器转化，获得多阶特征组合的测试集。

在步骤1)中，对包含连续型特征和类别型特征的日志型数据的训练集进行预处理，再对预处理后的日志型数据的训练集进行数据采样，包括以下步骤：

1.1)对日志型数据的训练集中的连续型特征进行等频分桶离散化操作，即以令样本数量在各个区间分布均匀为准则，对连续型特征进行离散化，由此能够将连续型特征变为类别型特征；

1.2)对日志型数据的训练集中原有的和从连续型特征变化而来的类别型特征进行低频处理，将出现频率低于规定阈值的特征值设为同一值，以降低类别型特征的维度；

1.3)对经过预处理的日志型数据的训练集进行按特定比例随机采样操作，得到采样数据集。

所述日志型数据为广告点击日志、推荐系统日志或商品交易日志。

在步骤2)中，构建代理搜索模型，对采样数据集中的特征组进行搜索，选择评价指标最高的特征组，包括以下步骤：

2.1)采样数据集的类别型特征构成集合为

定义C＝{F₁,F₂,…,F_d}为一个特征组，它是一个类别型特征组成的集合，F_i表示一个类别型特征，i＝1,2,...,d，d为该集合的元素数量，对

的所有非空子集对应的特征组构造交叉特征，特征组C的交叉特征定义为：

式中，

表示克罗内克积，T(C)是一个取值范围为{1,2,…,v}的标量，该取值范围的每一个数值表示该交叉特征所对应类别，

|F_i|表示类别型特征F_i的取值个数；

2.2)对每个特征组对应的交叉特征分别构造线性模型

式中，x_T(C)表示样本x的交叉特征T(C)的取值，R_i表示{1,2,…,v}中的任意一个值，I(x_T(C)＝R_i)是一个指示函数，当等式x_T(C)＝R_i成立时等于1，否则等于0，γ_i表示模型特征权重；

2.3)对每一个构建的线性模型进行求解，使用基于统计的方法，得到权重γ_i的解析解如下：

γ_i＝average(y^j|I(x_T(C)＝R_i))

式中，average是均值函数，y^j是第j个样本的标签值，average(y^j|I(x_T(C)＝R_i))表示数据集中所有满足x_T(C)＝R_i的样本的标签均值，得到训练好的模型后，输出模型的评价指标值，评价指标值越大说明模型对应特征组效果越好；

2.4)将所有的特征组对应模型的评价指标值进行降序排序，选取最优的特征组。

在步骤3)中，所述复合目标编码器由目标编码层和复合层组成，它们的定义如下：

所述目标编码层是一种有监督编码运算，它的功能是对输入的一个特征组的所有非空子集对应的交叉特征进行运算，并输出目标编码，所述目标编码层作用于一个交叉特征的表达式为：

式中，T(C)是交叉特征，定义为：

式中，

表示克罗内克积，T(C)是一个取值范围为{1,2,...,v}的标量，该取值范围的每一个数值表示该交叉特征所对应类别，C＝{F₁,F₂,…,F_d}为一个特征组，它是一个类别型特征组成的集合，F_i表示一个类别型特征，i＝1,2,...,d，d为该集合的元素数量，

表示样本x的交叉特征x_T(C)＝R_i时的编码值，R_i表示{1,2,...,v}中的任意一个值；λ是权重系数，用于调节

和

的比例，

是目标编码先验概率，表示训练集样本中标签为l的概率，

是目标编码后验概率，其计算方法如下：

式中，I是指示函数，当条件为真时等于1，否则等于0，n是训练集样本数，

和y^j分别表示第j个样本的交叉特征T(C)的取值和标签的取值，

表示训练集中标签为l的样本数，

表示训练集中

的样本数，

表示训练集中

且yⁱ＝l的样本数；

所述复合层的功能是接收目标编码层输出的目标编码作为输入，使用复合转化运算将它们两两结合，得到特征组的多阶组合特征并输出，这是一种具有可解释性的构造特征，每一个多阶组合特征对应一个构造范式，即其目标编码对应的特征组和所使用的复合转化运算；其中，所述复合转化运算包括加法、减法、乘法和除法这些二目运算ψ(·,·)，两个目标编码φ(C_i1)和φ(C_i2)的运算就是ψ(φ(C_i1),φ(C_i2))；

将步骤2)中选中的特征组输入复合目标编码器，首先，通过复合目标编码器的目标编码层将选中特征组的所有非空子集对应的交叉特征转化为目标编码，然后再通过复合目标编码器的复合层将这些目标编码转换为一系列多阶组合特征。

在步骤4)中，所述内嵌式特征选择包括以下步骤：

4.1)将多阶组合特征输入GBDT模型进行训练；

4.2)以信息增益为准则，从训练好的模型计算每个多阶组合特征的特征重要性权重，按重要性降序排序；

4.3)用特征重要性权重阈值不低于α和保留特征数不多于β两个控制条件进行特征选择，经过特征选择的多阶组合特征为有效组合特征，将有效组合特征所对应的构造范式加入有效组合特征编码表。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明使用自动特征工程的技术替代了人工特征工程，能够节省大量的人力资源和增加工作效率，本来要由数据分析师或特征工程师完成的特征工程工作变为可以由本发明的方法自动完成，一般一个数据挖掘场景的特征工程需要耗费数日时间来完成基本的特征构造和验证，得益于代理搜索模型的高效求解，本发明能够在一天之内完成一个日志型数据集的特征构造。

2、本发明相比人工特征工程在准确性方面有一定优势，特征工程师可能存在主观上的偏差或背景知识受限等问题，在构造特征的时候不能考虑到所有的特征组合，本发明对所有的特征组合均进行尝试，可以发现一些人工没发现的新特征，结合数据驱动的特征选择方法以选择有效组合特征，避免了主观原因导致的不准确性和不稳定性。

3、相比计算复杂度较高的深度学习方法，本发明所构造的多阶特征组合数据集使得机器学习模型在保证准确率相当的情况下计算效率更高，因此预测速度更快。

4、本发明采用复合目标编码器所生成的组合特征具备可解释性良好的优点，它的构造范式显式地告诉使用者有效的特征组包含那些原始特征以及这些特征间的运算关系，这些信息有助于后续的数据分析。

附图说明

图1为本发明方法的逻辑流程图。

图2日志型数据示例图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于自动特征编码的多阶特征组合方法，主要对日志型数据的训练集和测试集进行多阶特征组合，其包括以下步骤：

1)如图2所示形式的日志型数据是一个广告点击日志数据集，对其训练集进行预处理和数据采样，包括以下步骤：

1.1)对日志型数据的训练集中的连续型特征进行等频分桶离散化操作，即以令样本数量在各个区间分布均匀为准则，对例如“用户年龄”这种连续型特征进行离散化，由此可将连续型特征变为类别型特征，如将年龄区间在10到20岁置为同一类别，将21到35岁置为同一类别等。

1.2)对日志型数据的训练集中原有的和从连续型特征变化而来的类别型特征进行低频处理，具体来说，就是出现频率低于一定阈值的特征值设为同一值，降低类别型特征的维度，例如广告位中“p67”和“p11”在数据集中出现次数均小于5次，则把他们设置为同一值。

2)构建代理搜索模型，对采样数据集中的特征组进行搜索，选择评价指标最高的特征组，包括以下步骤：

2.1)采样数据集的类别型特征构成集合为

定义C＝{F₁,F₂,…,F_d}为一个特征组，它是一个类别型特征组成的集合，F_i表示一个类别型特征，i＝1,2,...,d，d为该集合的元素数量，在图2的例子中，特征组包括{用户年龄，用户所在地}、{用户所在地，广告类别}、{广告类别，广告位}、{用户所在地，广告类别，广告位}等，对

式中，

表示克罗内克积，T(C)是一个取值范围为{1,2,...,v}的标量，该取值范围的每一个数值表示该交叉特征所对应类别，

|F_i|表示类别型特征F_i的取值个数，例如对于特征组{用户所在地，广告类别}，生成的交叉特征取值包括{1,2,...,v}，其中1对应US×sport，2对应US×game，3对应CN×sport，4对应CN×clothes，以此类推。

2.2)对每个特征组对应的交叉特征分别构造线性模型

式中，x_T(C)表示样本x的交叉特征T(C)的取值，R_i表示{1,2,...,v}中的任意一个值，I(x_T(C)＝R_i)是一个指示函数，当等式x_T(C)＝R_i成立时等于1，否则等于0，γ_i表示模型特征权重。

γ_i＝average(y^j|I(x_T(C)＝R_i))

式中，average是均值函数，y^j是第j个样本的标签值，average(y^j|I(x_T(C)＝R_i))表示数据集中所有满足x_T(C)＝R_i的样本的标签均值，得到训练好的模型后，输出模型的评价指标值，评价指标值越大说明模型对应特征组效果越好。

2.4)将所有的特征组对应模型的评价指标值进行降序排序，选取最优的特征组，例如在这一步中选择了特征组{用户所在地，广告类别}。

3)构建复合目标编码器，对步骤2)中选中的特征组进行编码，得到一系列的多阶组合特征，具体如下：

所述复合目标编码器包括目标编码层和复合层，它们的定义如下：

式中，T(C)是交叉特征，定义为：

式中，

表示样本x的交叉特征x_T(C)＝R_i时的编码值，R_i表示{1,2,…,v}中的任意一个值，λ是权重系数，用于调节

和

的比例，

是目标编码先验概率，表示训练集样本中标签为l的概率，

是目标编码后验概率，其计算方法如下：

表示训练集中标签为l的样本数，

表示训练集中

的样本数，

表示训练集中

且yⁱ＝l的样本数。

所述复合层的功能是接收目标编码层输出的目标编码作为输入，使用复合转化运算将它们两两结合，得到特征组的多阶组合特征并输出，这是一种具有可解释性的构造特征，每一个多阶组合特征对应一个构造范式，即其目标编码对应的特征组和所使用的复合转化运算；所述复合转化运算包括加法、减法、乘法和除法这些二目运算ψ(·,·)，两个目标编码φ(C_i1)和φ(C_i2)的运算就是ψ(φ(C_i1),φ(C_i2))。

将步骤2)中选中的特征组输入复合目标编码器，首先，通过复合目标编码器的目标编码层将选中特征组的所有非空子集对应的交叉特征转化为目标编码，然后再通过复合目标编码器的复合层将这些目标编码转换为一系列多阶组合特征；例如，对于步骤2)选中的特征组{用户所在地，广告类别}，首先目标编码层将该特征组转化为三个子集{用户所在地}、{广告类别}和{用户所在地，广告类别}的目标编码，然后复合层通过二目运算除法，使用这3个目标编码生成两个特征：

两个特征的含义分别为特定用户所在地中特定广告类别点击率与当地广告点击率的比例，特定用户所在地中特定广告类别点击率与该类别广告点击率的比例，它们可以反映一种复杂的组合关系，对于该特征组使用其他转化运算能得到更多的可解释特征。

4)对得到的一系列多阶组合特征进行内嵌式特征选择，得到一组有效组合特征，将该组有效组合特征的构造范式加入有效组合特征编码表，所述有效组合特征编码表是一个包含构造范式的集合，初始为空集，用于指导复合目标编码器对日志型数据的训练集和测试集的类别型特征进行编码转化；其中，所述内嵌式特征选择，包括以下步骤：

4.1)将多阶组合特征输入GBDT模型进行训练，例如GBDT模型参数可设置为：基模型为CART树，树深度4，树颗数100，学习率0.1。

4.2)以信息增益为准则，从训练好的模型计算每个多阶组合特征的特征重要性权重，按重要性降序排序。

4.3)用特征重要性权重阈值不低于α和保留特征数不多于β两个控制条件进行特征选择，经过特征选择的多阶组合特征为有效组合特征，将有效组合特征所对应的构造范式加入有效组合特征编码表；若在生成的两个多阶组合特征中，排序第一位的特征是

设置保留特征总数为α＝1，则将该特征对应的构造范式加入有效组合特征编码表。

5)要继续搜索采样数据集中余下的特征组，即没有被选中的特征组(例如，排除步骤2)选中的特征组{用户所在地，广告类别}，搜索剩余的其它特征组)，重复步骤2)至步骤4)，直至已遍历完采样数据集的所有特征组或有效组合特征编码表中的构造范式数量达到指定阈值，则终止循环，获得完整的有效组合特征编码表并进行步骤6)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。