CN112380216A

CN112380216A - 一种基于交叉的自动特征生成方法

Info

Publication number: CN112380216A
Application number: CN202011285312.3A
Authority: CN
Inventors: 周楚杰; 杨帆; 黄馨
Original assignee: Beijing Rongqiniu Information Technology Co ltd
Current assignee: Beijing Rongqiniu Information Technology Co ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-19
Anticipated expiration: 2040-11-17
Also published as: CN112380216B

Abstract

本发明涉及一种基于交叉的自动特征生成方法，包括：S1，对于待处理的数据表，按照数据表中的数据的类型进行分箱并转换二值特征；S2，对于生成的所述二值特征进行迭代特征交叉，生成交叉特征，包括：S21，基于所述二值特征，计算多个特征评价指标；S22，根据指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k；S23,从生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个；S24，将k个二值特征和n个交叉特征两两进行交叉运算，生成新的交叉特征；S25，从新生成的交叉特征中挑选m个保留，作为本轮迭代生成的交叉特征。本发明的方法大幅度提高使用人员特征开发效率。

Description

一种基于交叉的自动特征生成方法

技术领域

本发明涉及机器学习技术领域，更具体地，涉及一种基于交叉的自动特征生成方法。

背景技术

随着海量数据的出现，人们倾向于使用机器学习技术建立模型解决实际问题。训练机器学习模型的基本过程主要包括：1)明确建模目标，收集可用数据；2)特征生成，特征选择；3)建立模型；4)评估模型效果。在上述过程中，特征生成过程非常重要，特征生成的好坏决定了模型的上限。

目前，特征生成方法有如下几种：

1)人工特征生成

技术人员经过底层数据的清洗、筛选、特征逻辑的设计，开发特征计算代码等过程，来开发特征。这需要花费技术人员大量的时间。

2)半自动特征生成

现有的机器学习平台，可基于图形界面的交互方式来完成特征生成流程。流程主要为：技术人员指定特征生成逻辑，并手动输入到平台中，平台根据用户指定特征生成逻辑进行计算，生成特征。不需技术人员开发代码，但需技术人员对业务和数据有深刻的理解，特征效果取决于技术人员的业务经验，且当面对大量的数据时，仍需要花费大量的时间。

发明内容

针对背景技术中的问题，本发明的目的是：a)针对每个样本仅有一条记录的结构化数据表提出一种自动特征构建方法。b)由于每个样本仅有一条数据记录，导致每个样本可使用数据信息较少，因此提出使用交叉算法，提取不同字段之间的组合信息，提升特征效果，挖掘有效信息。

为此本发明提出一种基于交叉的自动特征生成方法，包括：

S1，对于待处理的数据表，按照数据表中的数据的类型进行分箱并转换二值特征；

S2，对于生成的所述二值特征进行迭代特征交叉，生成交叉特征，其中，在生成交叉特征的迭代过程中，进行特征筛选，包括：

S21，基于步骤S1生成的二值特征，计算多个特征评价指标；

S22，根据指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m，交叉特征数量n，待交叉特征数量k；

S23,从步骤S1中生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个；

S24，将k个二值特征和n个交叉特征两两进行交叉运算，支持且和或交叉算子，生成新的交叉特征；

S25，从新生成的交叉特征中挑选m个保留，作为本轮迭代生成的交叉特征。

本发明的方法解决了每个样本只有一条数据的数据表场景下的特征生成任务，提高了使用人员效率。

本发明的有益效果包括：

1)对于每个样本只有一条数据的数据表特征生成任务实现全流程自动化，只需根据用户设定的数据表之间关联关系，即可开始特征生成任务，用户无需了解数据情况。

2)支持用户选择多张数据表，可生成多张数据表交叉特征，特征维度更丰富，信息提取更全面。

3)自动判断每个字段的数据类型，并给出每个字段的分析报告，指导用户选择有效的字段，并可根据正确的字段类型自动选择特征生成方法。

4)根据数据存储方式自动选择数据筛选方案，高效准确的筛选出指定数据有效期内的全部数据。

5)根据是否有目标变量自动选择卡方、等频、等距等分箱方法，搜索最优分割点，并可支持用户指定分箱方式。

6)使用多种评价指标评估交叉特征效果，从特征效果和信息覆盖度综合筛选特征，保证特征的效果和信息覆盖度。

附图说明

为了更容易理解本发明，将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式，不应认为对本发明保护范围的限制。

图1为本发明的方法的一个实施例的流程图。

图2为本发明的方法的另一个实施例的流程图。

具体实施方式

下面参照附图描述本发明的实施方式，其中相同的部件用相同的附图标记表示。在不冲突的情况下，下述的实施例及实施例中的技术特征可以相互组合。

如图1所示，本发明的方法包括步骤S1。在步骤S1中，分析被选择的所有数据表，判断每个字段的数据类型(其中数据类型包括字符型，字符分类型，数值分类型，整型，浮点型，时间类型，布尔型)，并给出每个字段的分析报告。

其中，根据数据类型，可以选择合适的分箱方法和可用的特征生成算子，来提升特征效果。所述分析报告可以用来指导用户选择使用字段。分析报告包括常用的统计分析指标，例如最大值，最小值，方差，均值等，以及关于数据情况的分析，例如是否包含中文，取值个数，覆盖率，零值率等。并根据以上内容自动给出字段是否建议选用。用户也可自由调整使用字段和字段类型。

再次参照图1，本发明的方法还包括步骤S2。在步骤S2中，根据用户选择的关联关系(即用户指定一张表跟另一张表使用某一主键进行关联)。用户配置好关联关系后，生成表关系拓扑图，供用户确认配置是否正确。算法根据关联关系，从样本表开始依次关联所有数据表。关联过程中，可以根据筛选条件(例如数据生成时间、样本时间以及数据有效期)筛选有效记录，最终形成一张完整的数据表，该数据表包含用户选择的所有字段，供特征生成使用。

优选地，每次关联数据表之前，根据该表数据的筛选条件(例如数据生成时间、样本时间以及用户设置的数据有效期)来筛选数据，仅使用满足某些条件的数据，以保证数据的有效性。例如，只选择数据生成时间在(样本时间-数据有效期)之间的数据，保证数据的有效性。

优选地，对于筛选后的数据，根据数据类型对每列数据挑选适用的异常值处理方法，进行异常值和空值处理，提高数据可用性。包括：

1)，判断异常记录：对于数值型字段，使用异常值检测算法筛选异常值，对于分类型字段，占比极小的类别认为是异常值。

2)，异常记录处理：根据预先设置的异常值处理方法替换异常值数据，处理方法包括：删除、填充。

再次参照图1，本发明的方法还包括步骤S3。在步骤S3中，对于处理好的数据，按照判断的类型自动进行分箱并转换二值特征(例如取值为0/1)。

更具体地，步骤S3包括：

S31，对于每列数据使用至少一种分箱方法，进行分箱计算，分箱完成后，根据分箱效果选择最优分割点。

S32，根据最优分割点分割数据，转换为二值特征。例如，以等宽分箱为例：假设连续特征的取值区间为[0,100]，分两个箱子，则分箱宽度为50，取值为60的连续特征对应于第二个箱子，因此转换成的二值特征组为[0,1]。

再次参照图1，本发明的方法还包括步骤S4。

在步骤S4中，基于步骤S3中生成的二值特征迭代进行特征交叉，生成交叉特征。其中，在生成交叉特征的迭代过程中，进行特征筛选。特征筛选指的是，根据多种评价指标从多维度评价特征效果，权衡特征效果和信息覆盖度，选择特征进行下一轮迭代交叉，进行特征筛选是为了防止特征维度爆炸。

更具体地，步骤S4包括：

S41，基于步骤S3生成的二值特征，计算多个特征评价指标，通过多种评价指标从多维度评价特征效果。

S42，根据用户指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m，交叉特征数量n，待交叉特征数量k。m,n,k计算过程如下：

1)根据原始字段数量推断每轮迭代可生成特征数量。

2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量，每轮分配特征数量递减。

3)取步骤1和步骤2中的较小值为本轮预期生成特征数量m。

4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量，确定交叉特征数量n，待交叉特征数量k，保证n*k大于m且与m数量相近。

S43，从步骤S3中生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个。其中，第一次迭代时均从步骤S3中生成的二值特征中挑选，挑选交叉和待交叉特征时，抽取特征效果最好的特征的同时加入随机抽取特征，兼顾特征效果和信息覆盖度。

S44，将k个二值特征和n个交叉特征两两进行交叉运算，支持且和或交叉算子，生成新的交叉特征。

S45，从新生成的交叉特征中挑选效果最好的m个保留，作为本轮迭代生成的交叉特征。

再次参照图1-2，本发明的方法还包括步骤S5。在步骤S5中，判断停止迭代条件是否满足：迭代次数达到用户指定迭代次数，或者新生成的特征无法继续交叉(交叉生成特征覆盖率均过低，同组特征不交叉，强相关特征组不交叉)。如果满足，则迭代完成所生成的组合特征即为该任务最终生成特征。如果不满足，则返回到步骤S4。

根据本发明的方法，能够基于数据表自动生成特征，既降低了特征生成的门槛，提高了特征工程的易用性，又提高了特征工程的效率。

经过对比测试，本发明使用方案与人工特征开发相比能大幅度较少使用人员工作量，提高特征开发效率，并且特征效果接近或优于人工开发特征。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于交叉的自动特征生成方法，其特征在于，包括：

S2，对于生成的所述二值特征迭代进行特征交叉，生成交叉特征，其中，在生成交叉特征的迭代过程中，进行特征筛选，包括：

S21，基于步骤S1生成的二值特征，计算多个特征评价指标；

S22，根据指定的特征生成数量和迭代轮数，计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k；

S23，从步骤S1中生成的二值特征中挑选k个，从上一次迭代生成的交叉特征中挑选n个；

2.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，还包括：

S3，判断停止迭代条件是否满足：迭代次数达到用户指定迭代次数，或者新生成的特征无法继续交叉，如果满足，则迭代完成所生成的组合特征即为该任务最终生成特征，如果不满足，则返回到步骤S2。

3.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，

在步骤S23中，第一次迭代时均从步骤S1中生成的二值特征中挑选，挑选交叉和待交叉特征时，抽取特征效果最好的特征的同时加入随机抽取特征。

4.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，步骤S1包括：

S13，对于数据表的每列数据使用至少一种分箱方法，进行分箱计算，分箱完成后，根据分箱效果选择最优分割点；

S23，根据最优分割点分割数据，转换为二值特征。

5.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，在进行步骤S1之前，还包括：

对分析被选择的所有数据表，判断每个字段的数据类型，并给出每个字段的分析报告。

6.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，在进行步骤S1之前，还包括：

根据选择的关联关系，依次关联所有数据表。

7.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，还包括：对于筛选后的数据，根据数据类型对每列数据挑选异常值处理方法，进行异常值和空值处理，包括：

1)判断异常记录：对于数值型字段，使用异常值检测算法筛选异常值，对于分类型字段，占比小的类别认为是异常值；

2)异常记录处理：根据预先设置的异常值处理方法替换异常值数据，处理方法包括：删除和填充。

8.根据权利要求4所述的基于交叉的自动特征生成方法，其特征在于，

在S13中，根据每个字段的数据类型来选择分箱方法。

9.根据权利要求6所述的基于交叉的自动特征生成方法，其特征在于，

在关联过程中，根据筛选条件筛选有效记录，形成一张数据表，供特征生成使用。

10.根据权利要求1所述的基于交叉的自动特征生成方法，其特征在于，通过如下方法计算特征数量m，交叉特征数量n，待交叉特征数量k：

1)根据原始字段数量推断每轮迭代可生成特征数量；

2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量，每轮分配特征数量递减；

3)取步骤1)和步骤2)中的较小值为本轮预期生成特征数量m；

4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量，确定交叉特征数量n和待交叉特征数量k，保证n*k大于m且与m数量相近。