CN112348175B

CN112348175B - 一种基于强化学习来进行特征工程的方法

Info

Publication number: CN112348175B
Application number: CN202011370448.4A
Authority: CN
Inventors: 林志贤; 谢斌; 林珊玲; 滕斌
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-10-28
Anticipated expiration: 2040-11-30
Also published as: CN112348175A

Abstract

本发明涉及一种基于强化学习来进行特征工程的方法，包括步骤：用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，每一次迭代都得到训练数据。然后用训练好的策略价值网络去求解适合于当前数据集的特征变换。本发明能够降低特征工程的成本，减少数据科学家的工作量。

Description

一种基于强化学习来进行特征工程的方法

技术领域

本发明涉及特征选择技术领域，特别是一种基于强化学习来进行特征工程的方法。

背景技术

机器学习广泛应用于我们的日常生活中，其中预测分析广泛应用于多个领域的决策，包括欺诈检测，在线广告，风险管理，市场营销等。预测模型是采用监督学习算法来进行预测，通过历史数据进行训练分类或者回归模型来预测未知的结果，来起到决策的作用。所以，数据的表示方法对于模型的准确度十分重要。原始的数据空间往往难以表达数据，因此，在模型构建之前对数据进行适当的处理及转换是必不可少的。

特征工程的主要目的就是改变预测建模的特征来更好的适应算法的训练，通过生成那些判别性高的，具有良好的代表性的特征来提高模型训练的准确度。在现实中，特征工程是由数据科学家由手动和领域知识来进行的，通过反复的试验，根据试验过程中模型性能来确定试验的有效性。但是，这一过程往往是十分繁琐且耗时的，而且很容易产生错误和偏差。。

发明内容

有鉴于此，本发明的目的是提出一种基于强化学习来进行特征工程的方法，能够自动进行特征工程，降低特征工程的成本，减少数据科学家的工作量。

本发明采用以下方案实现：一种基于强化学习来进行特征工程的方法，具体包括以下步骤：

用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，每一次迭代都得到训练数据。

用训练好的策略价值网络去求解适合于当前数据集的特征变换。

进一步地，用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，训练过程包括以下步骤：

步骤S11：采用上置信区间算法对特征工程的过程进行求解，包括选择、扩展、模拟与回溯四个过程；

其中选择为采用下式对动作进行选择：

式中，T_F是节点F的访问次数，A是可供选择的动作空间，u_F,a表示节点F选择动作a时获得的平均奖励，t_F,a表示节点F选这动作a的次数，参数C_e是用来控制勘探强度；

扩展为当选择到子节点时进行扩展，动作空间有多少个动作就扩展多少个子节点；

在模拟的过程中，使用个策略价值网络输出动作选择的概率对当前的数据的评分即奖励；

回溯的过程就是将模拟过程最后得到的奖励来更新当前节点及所有的父亲节点；

步骤S12：步骤S11每一次迭代产生一个变换策略，将变化策略存入矩阵中，将每一个矩阵数据及其对应的标签向量存储为数据集，并同时对策略价值网络进行训练。

进一步地，所述策略价值网络包括公共的3层全卷积网络，然后再分成策略和value两个输出；在策略这一端加上一个全连接层通过softmax输出每一个动作被选择的概率；在价值这一端使用两个全连接层通过tanh输出对当前数据的评分。

本发明还提供了一种基于强化学习来进行特征工程的系统，包括存储器、处理器以及存储在存储器上并能够在处理器上运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明能够自动进行特征工程，找到判别性高的特征，无需人为的操作，降低特征工程的成本，减少数据科学家的工作量。

附图说明

图1为本发明实施例的将特征工程视为MDP的结构示意图。

图2为本发明实施例的策略价值网络结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供了一种基于强化学习来进行特征工程的方法，自动特征工程是自动机器学习中的重要的一环，比如现在的一些机器学习的库如(auto_ml,Auto-sklearn,MLBox)中都有自动特征工程这一环节。本实施例提出的方法主要是对分类的数据进行特征工程，通过强化学习来进行特征工程，从当前的数据中学习策略，具体包括以下步骤：

步骤S1：用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，每一次迭代都得到训练数据，本实施例将特征工程视作一个马尔科夫决策(MDP)的过程；

步骤S2：用训练好的策略价值网络去求解适合于当前数据集的特征变换。

在本实施例中，所述用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，每一次迭代都得到训练数据具体包括以下步骤：

步骤S11：用改进基于上置信区间算法(UCT)来使其可以对特征工程进行求解，其中动作空间就是对特征进行一系列数值变换的操作，如(log，sin，cos)等。状态空间就是进行变换后生成的新的数据，整体结构示意图如图1。基于上置信区间算法(UCT)一共有四个步骤，分别是选择，扩展，模拟，回溯等四个过程。

其中选择为采用下式对动作进行选择：

扩展在当选择到子节点时进行扩展，动作空间有多少个动作就扩展多少个子节点；

在模拟的过程中，使用一个策略模块输出动作选择的概率和一个价值模块来获得对当前的数据进行评分。在迭代过程中，收集一系列的(S,Z)数据，S是用来描述当前数据的一些信息以及实验模拟的一些信息，如当前层数，以及已经选择的动作等。S为3个(a*b)的矩阵，a为设定的最大深度，b为动作空间的个数。第一个[a*b]矩阵，代表着选择的动作矩阵，若第i层选择第j个动作，就将[i,j](第i行第j列的元素)变为1，其他没有选择的动作和层数全部设为0。第二个[a*b]矩阵代表着当前动作空间每一个动作对当前数据进行变换后得到的精度是否提高，如果提高，则将这一列全部设为1，如果下降，则将这一列全部设为0。第三个[a*b]矩阵表示当前特征空间处于的层数，当前处于第几层，则这个矩阵中值全部设为当前的层数。比如深度为10，动作空间为10个动作，第一次迭代从根节点出发，选择一个第3个动作，就把第一个矩阵的[1,3](第一个矩阵的第一行第三列的元素)设为1，其他没有选择到的动作，和还未到达的层数设为0。然后计算每一个动作是否使当前数据的精度提升，比如第3个动作使得精度提升，这把第二个矩阵的第三列设为1。然后当前层数为1，把第三个矩阵中的元素全部设为1。Z为标签数据，它分为两部分。一部分策略模块的标签，是一个[1*b]的向量，向量中的值表示的是一个动作被选择的概率。比如有10个动作，选择每个动作的概率都是0.1，则将这个[1*b]中的b个元素全部设为0.1。另一部分是价值网络的标签，它也是一个[1*b]的向量，这个向量中的值均为最终的特征空间的模型得分与原始数据空间的得分的差值。

通过基于上置信区间算法(UCT)求解当前数据的同时进行网络的训练，每一次迭代都得到训练数据。模拟的过程通过策略模块来选择动作，然后根据价值模块得到的奖励来进行回溯。然后在再将收集到的数据进行网络的训练，训练新的策略价值模块也会使用在后面的迭代过程，以生成更加优质的数据。两者相互嵌套，相互促进，就构成了整个训练的循环。

网络的结构如图2所示，包括公共的3层全卷积网络，然后再分成策略和value两个输出；在策略这一端加上一个全连接层通过softmax输出每一个动作被选择的概率；在价值这一端使用两个全连接层通过tanh输出对当前数据的评分。

本实施例还提供了一种基于强化学习来进行特征工程的系统，包括存储器、处理器以及存储在存储器上并能够在处理器上运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于强化学习来进行特征工程的方法，其特征在于，包括以下步骤：

用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，每一次迭代都得到训练数据；

用训练好的策略价值网络去求解适合于当前数据集的特征变换；

所述用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练，训练过程包括以下步骤：

其中选择为采用下式对动作进行选择：

在模拟的过程中，使用策略价值网络输出动作选择的概率对当前的数据的评分；

步骤S12：步骤S11每一次迭代产生一个变换策略，将变化策略存入矩阵中，将每一个矩阵数据及其对应的标签向量存储为数据集，并同时对策略价值网络进行训练；

在模拟的过程中，使用一个策略模块输出动作选择的概率和一个价值模块来获得对当前的数据进行评分；在迭代过程中，收集一系列的(S,Z)数据，S是用来描述当前数据的信息以及实验模拟的信息，如当前层数，以及已经选择的动作；S为3个(a*b)的矩阵，a为设定的最大深度，b为动作空间的个数；第一个[a*b]矩阵，代表着选择的动作矩阵，若第i层选择第j个动作，就将[i,j]即第i行第j列的元素变为1，其他没有选择的动作和层数全部设为0；第二个[a*b]矩阵代表着当前动作空间每一个动作对当前数据进行变换后得到的精度是否提高，如果提高，则将这一列全部设为1，如果下降，则将这一列全部设为0；第三个[a*b]矩阵表示当前特征空间处于的层数，当前处于第几层，则这个矩阵中值全部设为当前的层数；比如深度为10，动作空间为10个动作，第一次迭代从根节点出发，选择一个第3个动作，就把第一个矩阵的[1,3]即第一个矩阵的第一行第三列的元素设为1，其他没有选择到的动作，和还未到达的层数设为0；然后计算每一个动作是否使当前数据的精度提升，比如第3个动作使得精度提升，这把第二个矩阵的第三列设为1；然后当前层数为1，把第三个矩阵中的元素全部设为1；Z为标签数据，它分为两部分；一部分策略模块的标签，是一个[1*b]的向量，向量中的值表示的是一个动作被选择的概率；比如有10个动作，选择每个动作的概率都是0.1，则将这个[1*b]中的b个元素全部设为0.1；另一部分是价值网络的标签，它也是一个[1*b]的向量，这个向量中的值均为最终的特征空间的模型得分与原始数据空间的得分的差值。

2.根据权利要求1所述的一种基于强化学习来进行特征工程的方法，其特征在于，所述策略价值网络包括公共的3层全卷积网络，然后再分成策略和value两个输出；在策略这一端加上一个全连接层通过softmax输出每一个动作被选择的概率；在价值这一端使用两个全连接层通过tanh输出对当前数据的评分。

3.一种基于强化学习来进行特征工程的系统，其特征在于，包括存储器、处理器以及存储在存储器上并能够在处理器上运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-2任一项所述的方法步骤。

4.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序指令时，能够实现如权利要求1-2任一项所述的方法步骤。