CN112380215A

CN112380215A - 一种基于交叉聚合的自动特征生成方法

Info

Publication number: CN112380215A
Application number: CN202011285295.3A
Authority: CN
Inventors: 周楚杰; 杨帆; 黄馨
Original assignee: Beijing Rongqiniu Information Technology Co ltd
Current assignee: Beijing Rongqiniu Information Technology Co ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-19
Anticipated expiration: 2040-11-17
Also published as: CN112380215B

Abstract

本发明涉及一种基于交叉聚合的自动特征生成方法，包括：S1，对于待处理的数据表进行分箱并转换二值特征；S2，基于所述二值特征，计算多个特征评价指标；根据指定的特征生成每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k；从生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个；将k个二值特征和n个交叉特征进行交叉运算生成新的交叉特征；从新生成的交叉特征中挑选m个作为本轮迭代生成的交叉特征；S3，将步骤S2中生成的二值特征与数据表原始字段合并；S4，对于每个时间窗来筛选数据；S5，合并所有时间窗生成的特征表；S6，合并所有表生成的特征表。本发明的方法大幅度提高使用人员特征开发效率。

Description

一种基于交叉聚合的自动特征生成方法

技术领域

本发明涉及机器学习技术领域，更具体地，涉及一种基于交叉聚合的自动特征生成方法。

背景技术

随着海量数据的出现，人们倾向于使用机器学习技术建立模型解决实际问题。训练机器学习模型的基本过程主要包括：1)明确建模目标，收集可用数据；2)

特征生成，特征选择；3)建立模型；4)评估模型效果。在上述过程中，特征生成过程非常重要，特征生成的好坏决定了模型的上限。

目前，特征生成方法有如下几种：

1)人工特征生成

技术人员经过底层数据的清洗、筛选、特征逻辑的设计，开发特征计算代码等过程，来开发特征。这需要花费技术人员大量的时间。

2)半自动特征生成

现有的机器学习平台，可基于图形界面的交互方式来完成特征生成流程。流程主要为：技术人员指定特征生成逻辑，并手动输入到平台中，平台根据用户指定特征生成逻辑进行计算，生成特征。不需技术人员开发代码，但需技术人员对业务和数据有深刻的理解，特征效果取决于技术人员的业务经验，且当面对大量的数据时，仍需要花费大量的时间。

发明内容

针对背景技术中的问题，本发明的明目的是：a)针对同一样本含有多条记录的结构化数据表，且数据表关联深度较浅的应用场景提出一种自动特征构建方法。b)由于数据表关联深度较浅，数据表间关联关系可提取信息较少，同一样本含有多条记录，可计算聚合类特征反映样本在一段时间内的表现。因此提出使用交叉聚合算法提取在某限定条件下的聚合特征，挖掘有效信息，提升特征效果。c)

该计算方法与人工设计特征思路相近，具有较强的可解释性。

为此本发明提出一种基于交叉的自动特征生成方法。

S1，对于待处理的数据表，按照数据表中的数据类型自行分箱并转换二值特征；

S2，对于生成的所述二值特征进行迭代特征交叉，生成交叉特征，其中，在生成交叉特征的迭代过程中，进行特征筛选，包括：

S21，基于步骤S1生成的二值特征，计算多个特征评价指标；

S22，根据指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m，交叉特征数量n，待交叉特征数量k；

S23,从步骤S1中生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个；

S24，将k个二值特征和n个交叉特征两两进行交叉运算，支持且和或交叉算子，生成新的交叉特征；

S25，从新生成的交叉特征中挑选m个保留，作为本轮迭代生成的交叉特征；

S3，将步骤S2中生成的二值特征与数据表原始字段合并，根据设定的时间窗，筛选在对应时间窗内的记录；

S4，对于每个时间窗来筛选数据；

S5，合并所有时间窗生成的特征表；

S6，合并所有表生成的特征表。

本发明的方法解决了解决样本有多条记录的数据表场景下的特征生成任务，提高使用人员效率，具体创新点如下：

1)对于同一样本有多条记录的数据表特征生成任务实现全流程自动化，用户只需提供数据表之间的关联关系，即可开始特征生成任务，无需深入了解数据情况。

2)支持用户选择多张数据表，可生成多张数据表间的交叉聚合特征，特征维度更丰富，信息提取更全面。

3)自动判断每个字段的数据类型，并给出每个字段的分析报告，指导用户选择有效的字段，并可根据正确的字段类型自动选择特征生成方法。

4)根据数据存储方式自动选择数据筛选方案，高效准确的筛选出指定数据有效期内的全部数据。

5)根据是否有目标变量自动选择卡方、等频、等距等分箱方式，搜索最优分割点，并可支持用户指定分箱方式。

6)使用多种评价指标评估交叉特征效果，从特征效果和信息覆盖度方面综合筛选特征，保证特征效果和信息覆盖度。

7)预定义多种聚合算子，根据不同数据类型挑选合适的算子进行聚合运算，生成特征。目前支持均值、总和、方差、最大值、最小值、峰度、偏度、记录数，命中记录占比，去重记录数，在总体样本中的排序，和总体样本均值的比例。

8)支持用户指定时间窗，生成反映时间窗内用户状态的特征，例如近30天内用户购买订单数。

9)生成特征逻辑与人工开发逻辑相近，具有很强的可解释性。

附图说明

为了更容易理解本发明，将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式，不应认为对本发明保护范围的限制。

图1为本发明的方法的一个实施例的流程图。

图2为本发明的方法的另一个实施例的流程图。

具体实施方式

下面参照附图描述本发明的实施方式，其中相同的部件用相同的附图标记表示。在不冲突的情况下，下述的实施例及实施例中的技术特征可以相互组合。

如图1-2所示，本发明的方法包括步骤S1。在步骤S1中，分析用户选择的所有数据表，判断每个字段的数据类型(其中数据类型包括字符型，字符分类型，数值分类型，整型，浮点型，时间类型，布尔型)，后续算法会根据这一步骤判断出的数据类型，自动挑选合适的分箱方法和可用的特征生成算子，提升特征效果。并给出每个字段的分析报告。该分析报告可以用来指导用户选择使用字段。分析报告包括常用的统计分析指标，例如最大值，最小值，方差，均值等，以及关于数据情况的分析，例如是否包含中文，取值个数，覆盖率，零值率等。并根据以上内容自动给出字段是否建议选用。用户也可自由调整使用字段和字段类型。

再次参照图1，本发明的方法还包括步骤S2。在步骤S2中，根据用户选择的关联关系，即用户指定一张表跟另一张表使用某一主键进行关联。用户配置好关联关系后，会自动生成表关系拓扑图，供用户确认配置是否正确。算法自动根据关联关系，从样本表开始依次关联所有数据表。关联过程中，可以根据筛选条件(例如数据生成时间、样本时间以及数据有效期)筛选有效记录，最终形成一张完整的数据表，该数据表包含用户选择的所有字段，供特征生成使用。

优选地，每次关联数据表之前，根据该表数据的筛选条件(例如数据生成时间、样本时间以及用户设置的数据有效期)来筛选数据，仅使用满足某些条件的数据，以保证数据的有效性。例如，只选择数据生成时间在(样本时间-数据有效期)之间的数据，保证数据的有效性。

优选地，对于筛选后的数据，根据数据类型对每列数据挑选适用的异常值处理方法，进行异常值和空值处理，提高数据可用性。包括：

1)，判断异常记录：对于数值型字段，使用异常值检测算法筛选异常值，对于分类型字段，占比极小的类别认为是异常值。

2)，异常记录处理：根据预先设置的异常值处理方法替换异常值数据，处理方法包括：删除、填充。

再次参照图1，本发明的方法还包括步骤S3。在步骤S3中，对于处理好的数据，按照判断的类型自动进行分箱并转换二值特征(例如取值为0/1)。

更具体地，步骤S3包括：

S31，对于每列数据使用至少一种分箱方法，进行分箱计算，分箱完成后，根据分箱效果选择最优分割点。

S32，根据最优分割点分割数据，转换为二值特征。例如，以等宽分箱为例：假设连续特征的取值区间为[0,100]，分两个箱子，则分箱宽度为50，取值为60的连续特征对应于第二个箱子，因此转换成的二值特征组为[0,1]。

再次参照图1，本发明的方法还包括步骤S4。在步骤S4中，基于步骤S3中生成的二值特征迭代进行特征交叉，生成交叉特征。其中，在生成交叉特征的迭代过程中，进行特征筛选。特征筛选指的是，根据多种评价指标从多维度评价特征效果，权衡特征效果和信息覆盖度，选择特征进行下一轮迭代交叉，进行特征筛选是为了防止特征维度爆炸。

更具体地，步骤S4包括：

S41，基于步骤S3生成的二值特征，计算多个特征评价指标，通过多种评价指标从多维度评价特征效果。

S42，根据用户指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m，交叉特征数量n，待交叉特征数量k。m,n,k计算过程如下：

1)根据原始字段数量推断每轮迭代可生成特征数量。

2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量，每轮分配特征数量递减。

3)取步骤1和步骤2中的较小值为本轮预期生成特征数量m。

4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量，确定交叉特征数量n，待交叉特征数量k，保证n*k大于m且与m数量相近。

S43，从步骤S3中生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个。其中，第一次迭代时均从步骤S3中生成的二值特征中挑选，挑选交叉和待交叉特征时，抽取特征效果最好的特征的同时加入随机抽取特征，兼顾特征效果和信息覆盖度。

S44，将k个二值特征和n个交叉特征两两进行交叉运算，支持且和或交叉算子，生成新的交叉特征。

S45，从新生成的交叉特征中挑选效果最好的m个保留，作为本轮迭代生成的交叉特征。

再次参照图1-2，本发明的方法还包括步骤S5。在步骤S5中，判断停止迭代条件是否满足：迭代次数达到用户指定迭代次数，或者新生成的特征无法继续交叉(交叉生成特征覆盖率均过低，同组特征不交叉，强相关特征组不交叉)。如果满足，则二值特征生成结束。如果不满足，则返回到步骤S4。

再次参照图1，本发明的方法还包括步骤S6。在步骤S6中，将步骤S4中生成的二值特征与原始字段中数值型，id型字段合并，根据用户设定的时间窗，筛选在对应时间窗内的记录。

再次参照图1，本发明的方法还包括步骤S7。在步骤S7中，对于每个时间窗来筛选数据。具体地，步骤S7包括：

S71，基于步骤S6中筛选的该时间窗内记录，根据样本列分组聚合，对于二值特征列计算命中记录占比，对于数值型字段计算均值、总和、方差、最大值、最小值、峰度、偏度。对于id型字段计算记录数和去重记录数。

S72，对于S71中的数值型字段生成的特征，计算在总体样本中的排序，和总体样本均值的比例特征。

S73，根据用户指定时间窗数量，最大特征维度，计算每个时间窗可保留的最大特征数量m。

S74，评价该时间窗内生成特征效果，挑选效果最好的m个特征，作为该时间窗最终生成的特征。

再次参照图1，本发明的方法还包括步骤S8，在S8中，合并所有时间窗生成的特征表。也就是针对每一个时间窗计算聚合特征。

再次参照图1，本发明的方法还包括步骤S9，在S9中，合并所有表生成的特征表(拼接所有时间窗特征)，最终形成的特征表即为本次生成的特征。

根据本发明的方法，与现有技术相比，本发明不需使用人员具有特征开发能力，并且大幅度提高使用人员特征开发效率。

经过对比测试，本发明使用方案与人工特征开发相比能大幅度较少使用人员工作量，提高特征开发效率，并且特征效果接近或优于人工开发特征。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于交叉聚合的自动特征生成方法，其特征在于，包括：

S21，基于步骤S1生成的二值特征，计算多个特征评价指标；

S22，根据指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k；

S23，从步骤S1中生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个；

S4，对于每个时间窗筛选数据；

S5，合并所有时间窗生成的特征表；

S6，合并所有表生成的特征表。

2.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，还包括：

S3，判断停止迭代条件是否满足：迭代次数达到用户指定迭代次数，或者新生成的特征无法继续交叉，如果满足，则迭代完成所生成的组合特征即为该任务最终生成特征，如果不满足，则返回到步骤S2。

3.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，

在步骤S23中，第一次迭代时均从步骤S1中生成的二值特征中挑选，挑选交叉和待交叉特征时，抽取特征效果最好的特征的同时加入随机抽取特征。

4.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，步骤S1包括：

S31，对于数据表的每列数据使用至少一种分箱方法，进行分箱计算，分箱完成后，根据分箱效果选择最优分割点；

S32，根据最优分割点分割数据，转换为二值特征。

5.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，在进行步骤S1之前，还包括：对分析被选择的所有数据表，判断每个字段的数据类型，并给出每个字段的分析报告。

6.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，在进行步骤S1之前，还包括：根据选择的关联关系，依次关联所有数据表。关联过程中，可以根据筛选条件筛选有效记录，形成一张数据表，供特征生成使用。

7.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，还包括：对于筛选后的数据，根据数据类型对每列数据挑选异常值处理方法，进行异常值和空值处理，包括：

1)判断异常记录：对于数值型字段，使用异常值检测算法筛选异常值，对于分类型字段，占比极小的类别认为是异常值。

2)异常记录处理：根据预先设置的异常值处理方法替换异常值数据，处理方法包括：删除和填充。

8.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，步骤S4包括：

1)基于步骤S3中筛选的该时间窗内记录，根据样本列分组聚合，对于二值特征列计算命中记录占比，对于数值型字段计算均值、总和、方差、最大值、最小值、峰度、偏度、对于id型字段计算记录数和去重记录数；

2)对于1)中的数值型字段生成的特征，计算在总体样本中的排序，和总体样本均值的比例特征；

3)根据用户指定时间窗数量，最大特征维度，计算每个时间窗可保留的最大特征数量m；

4)评价该时间窗内生成特征效果，挑选效果最好的m个特征，作为该时间窗最终生成的特征。

9.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，

在步骤S3中，将生成的二值特征与原始字段中数值型，id型字段合并，根据用户设定的时间窗，筛选在对应时间窗内的记录。

10.根据权利要求1所述的基于交叉聚合的自动特征生成方法，其特征在于，通过如下方法计算特征数量m、交叉特征数量n和待交叉特征数量k：

1)根据原始字段数量推断每轮迭代可生成特征数量；

2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量，每轮分配特征数量递减；

3)取步骤1和步骤2中的较小值为本轮预期生成特征数量m；