CN113297293A

CN113297293A - 一种基于约束优化进化算法的自动化特征工程方法

Info

Publication number: CN113297293A
Application number: CN202110555440.3A
Authority: CN
Inventors: 朱光辉; 黄宜华; 郭旭
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-24

Abstract

本发明公开了一种基于约束优化进化算法的自动化特征工程方法，首先将自动化特征工程问题建模为特征变换函数序列搜索问题，然后将特征变换函数编码为染色体，并根据特征类型对候选特征变换函数的编码空间进行约束，最后利用进化算法迭代搜索出最优的特征变换函数序列。本发明相比于以前方法，不仅能够根据特征类型选择特征变换函数，而且也支持特征变换函数之间的嵌套。另外，也能够取得更好的机器学习模型预测性能。

Description

一种基于约束优化进化算法的自动化特征工程方法

技术领域

本发明涉及自动化特征工程领域，尤其涉及一种基于约束优化进化算法的自动化特征工程方法。

背景技术

随着信息技术的飞速发展，人类社会从工业时代步入信息时代，各行各业都在积极向信息化、智能化转型升级，与此同时也积累了大量的数据。大数据已成为重要的无形资产，是社会经济发展中的重要的生产要素。挖掘大数据背后隐藏的价值能够大幅提升各个行业/企业的智能化管理、决策与服务水平。机器学习作为数据挖掘的核心技术，在计算机视觉、自然语言处理、商业推广等大数据智能分析领域取得了巨大的成功，并给政务、金融、制造以及医疗等各个行业的发展注入了新的活力。

在各个行业大数据应用中，结构化数据是最为常见的数据类型之一。针对结构化数据的机器学习建模任务一直是学界和工业界关注的热点。在面向表数据的机器学习建模任务中，特征工程是非常重要的环节，对算法模型性能有着关键的影响。同时，也是机器学习建模流程最为耗时的步骤之一。

特征工程的主要目的是从行业数据大量原始特征中寻找高价值的、能够更好反映数据本质的新特征。特征工程不仅仅需要对单个特征处理，也需要考虑特征与特征之间的组合，从而解决线性模型对非线性关系缺乏有效表达的问题。具体而言，在确定机器学习建模任务后，数据分析人员需要从原始数据集中找到对目标变量有潜在影响的特征，然后将筛选后的特征通过特征变换以及特征组合等操作得到新的特征。然而，在实际应用场景中，特征工程大量依赖行业领域知识，而且费时费力，缺少有效的方法。一方面，需要在了解原有特征物理含义的基础上，利用相关领域专家知识和经验构建更好的新特征。另一方面，可选的特征变换以及特征组合操作搜索空间大，尤其是特征维度较高的时候。数据分析人员需要不断尝试，反复试错，最终找到优异的特征变换或者特征组合操作，整个过程需要大量的时间成本以及人力成本。

尽管深度神经网络通过表征学习能够自动捕获数据的高层特征，但是深度神经网络主要适用于图像、音频、文本等非结构化数据，不能很好地支持结构化数据。对于结构化数据，传统的机器学习算法如随机森林、梯度提升树等更为适用。与深度神经网络不同，传统机器学习算法模型需要手动构造特征。因此，特征工程更加重要。

为了降低特征工程对专家知识和经验的需求，提升特征工程的效率，近年来，面向结构化数据的自动化特征工程技术得到了学术界以及工业界的广泛关注。自动化特征工程在无需人工干预的情况下，能够利用机器替代专家自动化地搜索表现优异的新特征，具有较高的实际应用价值。目前，自动化特征工程主要包含扩展选择方法、基于变换图的方法以及基于神经架构搜索的方法。然而，已有自动化特征工程方法仍存在处理特征类型单一、计算效率低、算法性能有待进一步提升等问题。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种基于约束优化进化算法的自动化特征工程方法，能够对同时包含离散型特征和连续型特征的数据集进行特征变换函数序列搜索，提升机器学习模型预测性能。

技术方案：为实现上述发明目的，本发明提出了一种基于约束优化进化算法的自动化特征工程方法，包括以下步骤：

(1)针对原始数据集的每个特征，定义一种由特征变换函数组成的特征变换函数序列，并将自动化特征工程问题建模为特征变换函数序列搜索问题；

(2)对步骤(1)所述特征变换函数序列中的候选特征变换函数进行编码，候选特征变换函数编码空间由约束条件的边界确定，约束条件的边界取决于特征的类型和该类型对应的候选特征变换函数的种类及数量；

(3)初始化一个特征变换函数序列种群，种群中每个个体由多个特征变换函数序列组成，所述特征变换函数序列的数量等于特征的总数；在种群初始化阶段，根据特征类型对应的候选特征变换函数编码空间随机选择l个编码，组成一个长度为l的特征变换函数序列，所有特征的特征变换函数序列组成一个个体，种群中包含N个个体；此后进入进化阶段，进化阶段重复多个进化步，每个进化步包含选择、交叉和变异操作；

(4)计算种群中每个个体的适应度：将个体中的特征变换函数序列解码后，对原始数据集进行特征变换，将变换后的特征与原始特征拼接得到新的数据集，在新的数据集上训练机器学习模型，并将训练后的机器学习模型的预测性能作为个体的适应度；

(5)执行一个进化步：根据个体的适应度，独立地从种群中选择N次个体，每次选择一个个体，所述个体被选中的概率与其适应度大小成正比，适应度较高的个体可能被多次选中，将选择得到的N个个体作为母体；对母体进行交叉、变异操作，交叉和变异意味着改变特征变换函数序列中的编码，改变编码也代表着改变特征变换的方式；将母体交叉、变异后产生的孩子个体加入新一代种群中；

(6)此后，计算新一代种群中每个个体的适应度，执行下一个进化步，如此往复直至进化步数达到指定值；选择种群进化过程中适应度最高的个体对所述原始数据集进行特征变换，从而实现自动化特征工程。

进一步地，所述步骤(1)中，所述特征包括离散型特征和连续型特征，不同类型的特征所适合的特征变换函数不同，根据原始数据集中每个特征的类型，自动地对不同类型的特征使用相应的特征变换函数；特征变换函数序列支持特征变换函数之间的嵌套，从而能够对特征进行高阶变换。

进一步地，所述步骤(2)中，约束条件根据特征类型将候选特征变换函数编码空间分为两部分，分别为离散型候选特征变换函数编码空间和连续型候选特征变换函数编码空间，约束条件的边界通过一阶特征变换函数编码个数加上二阶特征变换函数编码个数得到，一阶特征变换函数编码个数等于一阶特征变换函数个数，二阶特征变换函数编码个数等于二阶特征变换函数个数乘以参与二阶特征变换函数的特征数量。

进一步地，所述步骤(3)中，在初始化种群时，一个个体包含有多条染色体，每条染色体表示原始数据集中一个特征的特征变换函数序列，所述特征变换函数序列中的元素根据特征类型从相应的候选特征变换函数编码空间中随机选取。

进一步地，所述步骤(4)中，在计算个体的适应度时，将个体中的特征变换函数序列进行解码，对原始数据集中多个特征批量进行特征变换；然后，将变换后的新特征和原始特征进行拼接操作，引入新特征的同时保留原始特征。

进一步地，所述步骤(5)中，选择、交叉和变异操作保留个体中优秀的基因表示，使种群总体朝着高适应度方向进化的同时，也充分考虑到种群的多样性，避免陷入局部最优解。

有益效果：本发明将自动化特征工程问题建模为特征变换函数序列搜索问题，借助约束优化进化算法对特征变换函数序列进行搜索，可以针对包含离散型特征和连续型特征的数据集进行自动化特征变换。实验结果表明，本发明针对自动化特征变换函数序列搜索问题，能够获得比现有自动化特征工程方法更好的性能。

附图说明

图1为本发明的总体流程示意图；

图2为本发明中特征变换过程示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出一种基于约束优化进化算法的自动化特征工程方法，解决现有方法处理特征类型单一、计算效率低、算法性能有待进一步提升等问题，图1为本发明的完整流程。下面以数据集PimaIndian作为一个具体的示例输入数据集(即为原始数据集)，说明本发明的具体实施方式。具体的实施方式如下：

本发明所涉及的特征变换函数序列由特征变换函数组成。首先按照特征类型的不同和特征变换函数阶数的不同，将特征变换函数分为5类：T＝{T_c,T_cc,T_n,T_nn,T_cn}，其中，T_c和T_n分别表示针对一个离散型特征和一个连续型特征的特征变换函数集合，T_cc和T_nn分别表示针对两个离散型特征和两个连续型特征的特征变换函数集合，T_cn表示离散型特征和连续型特征之间的聚合特征变换函数集合。令自动化特征工程的输入数据为D＝<F,y>，特征维度为n，其中F＝{f₁,f₂,...,f_n}为输入特征集合，y表示目标变量。根据特征类别不同，可以进一步将F细分为离散型特征集合F_c和连续型特征集合F_n。特征变换函数序列可以表示成长度为l的序列，序列中的每一个元素均表示一个特征变换函数。为了支持对特征的高阶嵌套变换，每个特征对应一个特征变换函数序列。例如，特征f_i∈F对应一个长度l为3的特征变换函数序列t_i＝<t_i1,t_i2,t_i3>，经过特征变换后得到的新特征为

将所有特征的特征变换函数序列连接在一起，构成总的特征变换函数序列，其可表示为T＝{t₁,t₂,...,t_n}。但每个特征可能需要不同的特征变换序列长度，比如不做任何特征变换，那么特征变换函数序列的长度则是0。为了保证特征变换函数序列长度可变，在候选特征变换函数集合中加入早停函数，在执行特征变换过程中，若碰到早停函数，则停止后面所有的特征变换函数操作。

T_c和T_n中的一阶特征变换函数对单个特征进行变换，只需要编码成一个整数值即可加入到特征变换函数序列中。而T_cc、T_nn和T_cn中的二阶特征变换函数则需要同时对两个特征进行特征变换，若将其编码成整数，则只能确定二阶特征变换函数，无法确定参加二阶特征变换函数的另一个特征，因此无法直接加入到特征变换函数序列中。为解决上述问题，在编码的过程中引入索引信息。对于连续型特征f_i和二阶特征变换函数add，可以和f_i一起参与二阶特征变换函数add的连续型特征数量为|F_n|，因此可以将二阶特征变换函数add转换为

表示连续型特征集合F_n中第k个特征，k∈[0,|F_n|-1]。对于每个输入特征，在特征类型、离散型特征变换函数集合{T_c,T_cc,T_cn}、连续型特征变换函数集合{T_n,T_nn}确定后，可以明确计算出约束条件的边界，使其覆盖到每一个特征变换函数。离散型特征的候选特征变换函数编码空间可以表示为[0,|T_c|]∪[|T_c|,|T_c|+(|F_n|+|F_c|)*max(|T_cc|+1,|T_cn|+1))，连续型特征对应的候选特征变换函数编码空间可以表示为[-|F_n|*(|T_nn|+1)-|T_n|,-|T_n|]∪[-|T_n|,0]，其中0表示早停函数的编码。数据集PimaIndian中有8个特征，包含2个离散型特征和6个连续型特征，候选特征变换函数集合可由用户自主添加或删除，设置候选特征变换函数集合如表1所示，则离散型特征的候选特征变换函数编码空间为[0,1]∪[1,25)，连续型特征的候选特征变换函数编码空间为[-34,4]∪[4,0]。

表1候选特征变换函数集合

通过随机生成特征变换函数序列来初始化种群，为每一个特征生成一个长度为l的特征变换函数序列，根据特征类型从相应的候选特征变换函数编码空间随机选择l个编码，原始数据集中所有特征的特征变换函数序列组成一个个体，将该个体添加到种群中，直到种群中个体的数量达到N。

将个体中的多个特征变换函数序列进行解码，以一个长度l为2的连续型特征

的特征变换函数序列<-4，-34>为例，编码-4对应一阶特征变换函数reciprocal，编码-34对应二阶特征变换函数

其中二阶特征变换函数div由-(-34+|T_n|+1)整除|F_n|计算得到，参与二阶特征变换函数div的另一个连续型特征的索引5由-(-34+|T_n|+1)模|F_n|计算得到，则解码后特征变换过程为

对原始数据集中多个特征进行批量特征变换，同时保留原始特征，也就是将变换后的新特征和原始特征进行拼接得到新的数据集，如图2所示。评估每个个体的适应度，将用户设置的机器学习模型在新的数据集上进行训练，然后将训练后的机器学习模型的预测性能作为个体适应度。

执行一次进化步，形成新一代种群。每个进化步包含选择、交叉和变异操作。选择操作的具体实施方式为：根据种群中个体x_i的适应度f(x_i)，1≤i≤N，N为种群中个体的数量；计算每个个体被保留到下一代种群中的概率

j表示种群中个体的编号，然后计算每个个体的累积概率

接着在[0,1]区间内按均匀分布生成一个伪随机数r，若

则选择个体x₁，若

则选择个体x_k，其中1<k≤N。重复上述选择操作N次。交叉操作与变异操作的具体实施方式为：将选择阶段选中的N个个体作为母体，前一半母体和后一半母体按顺序一一配对进行配对，若母体个数是奇数，则最后一个母体不参与配对，对相配对的母体中的每对特征变换函数序列随机设置两个交叉点，交换交叉点之间的编码；对经过交叉操作后的特征变换函数序列的每个编码进行遍历，遍历过程中生成[0,1]之间的随机数，若随机数小于变异概率0.1，则根据特征类型从相应的候选特征变换函数编码空间内随机选取一个新的编码，对该编码进行替换。

对新一代种群中的每个个体解码、特征变换、评估，得到每个个体的适应度，执行下一个进化步，如此往复直至进化步数达到指定值，并记录种群进化过程中适应度最高的个体。根据适应度最高的个体中的特征变换函数序列对原始数据集进行特征变换，从而实现自动化特征工程。

本发明提出了一种基于约束优化进化算法的自动化特征工程方法。为测试该方法的实际性能，在相同的软件、硬件平台上，针对分类和回归任务，使用来自OpenML、UCIrepository和Kaggle的23个数据集测量本发明提出的技术方法的性能，性能表示机器学习模型在原始数据集经过特征变换后得到的新的数据集上训练后的预测性能，通过预测性能能够反映自动化特征工程方法的优劣程度。在实验过程中，机器学习模型选择随机森林算法，评估方式为5折交叉验证，在分类数据集上选择F1-Score作为评价指标，在回归数据集上选择1-Relative Absolute Errors作为评价指标。Base为原始数据集不经过任何特征变换评估的性能结果，将其作为自动化特征工程方法对比基准，同时测量了现有的自动化特征工程方法DFS、AutoFeat和NFS的性能。表2展示了本发明方法与现有自动化特征工程方法的实际测量结果对比，本发明方法相比DFS、AutoFeat和NFS能够取得更高的预测性能。本发明方法和NFS都需要对原始数据集经过特征变换后得到的新的数据集进行评估，从而指导搜索过程。评估是自动化特征工程方法中最为耗时的步骤，因此可以使用评估次数来衡量自动化特征工程方法效率。表3中展示的是在限制同样的评估次数条件下，本发明方法和现有最先进的NFS方法在多个数据集上的性能对比。从表3可以看出，本发明方法能够获得比NFS更好的性能提升。因此，在同样的软件、硬件平台上，本发明所述的技术方法能够得到相比现有自动化特征工程方法更高的性能。

表2本发明方法和现有自动化特征工程方法有效性的对比结果

表3评估资源限制下本发明方法和NFS对比结果

Claims

1.一种基于约束优化进化算法的自动化特征工程方法，包括以下步骤：

2.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法，其特征在于：所述步骤(1)中，所述特征包括离散型特征和连续型特征，不同类型的特征所适合的特征变换函数不同，根据原始数据集中每个特征的类型，自动地对不同类型的特征使用相应的特征变换函数；特征变换函数序列支持特征变换函数之间的嵌套，从而能够对特征进行高阶变换。

3.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法，其特征在于：所述步骤(2)中，约束条件根据特征类型将候选特征变换函数编码空间分为两部分，分别为离散型候选特征变换函数编码空间和连续型候选特征变换函数编码空间，约束条件的边界通过一阶特征变换函数编码个数加上二阶特征变换函数编码个数得到，一阶特征变换函数编码个数等于一阶特征变换函数个数，二阶特征变换函数编码个数等于二阶特征变换函数个数乘以参与二阶特征变换函数的特征数量。

4.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法，其特征在于：所述步骤(3)中，在初始化种群时，一个个体包含有多条染色体，每条染色体表示原始数据集中一个特征的特征变换函数序列，所述特征变换函数序列中的元素根据特征类型从相应的候选特征变换函数编码空间中随机选取。

5.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法，其特征在于：所述步骤(4)中，在计算个体的适应度时，将个体中的特征变换函数序列进行解码，对原始数据集中多个特征批量进行特征变换；然后，将变换后的新特征和原始特征进行拼接操作，引入新特征的同时保留原始特征。

6.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法，其特征在于：所述步骤(5)中，选择、交叉和变异操作保留个体中优秀的基因表示，使种群总体朝着高适应度方向进化的同时，也充分考虑到种群的多样性，避免陷入局部最优解。