CN112348175B - 一种基于强化学习来进行特征工程的方法 - Google Patents
一种基于强化学习来进行特征工程的方法 Download PDFInfo
- Publication number
- CN112348175B CN112348175B CN202011370448.4A CN202011370448A CN112348175B CN 112348175 B CN112348175 B CN 112348175B CN 202011370448 A CN202011370448 A CN 202011370448A CN 112348175 B CN112348175 B CN 112348175B
- Authority
- CN
- China
- Prior art keywords
- action
- strategy
- matrix
- data
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于强化学习来进行特征工程的方法,包括步骤:用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,每一次迭代都得到训练数据。然后用训练好的策略价值网络去求解适合于当前数据集的特征变换。本发明能够降低特征工程的成本,减少数据科学家的工作量。
Description
技术领域
本发明涉及特征选择技术领域,特别是一种基于强化学习来进行特征工程的方法。
背景技术
机器学习广泛应用于我们的日常生活中,其中预测分析广泛应用于多个领域的决策,包括欺诈检测,在线广告,风险管理,市场营销等。预测模型是采用监督学习算法来进行预测,通过历史数据进行训练分类或者回归模型来预测未知的结果,来起到决策的作用。所以,数据的表示方法对于模型的准确度十分重要。原始的数据空间往往难以表达数据,因此,在模型构建之前对数据进行适当的处理及转换是必不可少的。
特征工程的主要目的就是改变预测建模的特征来更好的适应算法的训练,通过生成那些判别性高的,具有良好的代表性的特征来提高模型训练的准确度。在现实中,特征工程是由数据科学家由手动和领域知识来进行的,通过反复的试验,根据试验过程中模型性能来确定试验的有效性。但是,这一过程往往是十分繁琐且耗时的,而且很容易产生错误和偏差。。
发明内容
有鉴于此,本发明的目的是提出一种基于强化学习来进行特征工程的方法,能够自动进行特征工程,降低特征工程的成本,减少数据科学家的工作量。
本发明采用以下方案实现:一种基于强化学习来进行特征工程的方法,具体包括以下步骤:
用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,每一次迭代都得到训练数据。
用训练好的策略价值网络去求解适合于当前数据集的特征变换。
进一步地,用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,训练过程包括以下步骤:
步骤S11:采用上置信区间算法对特征工程的过程进行求解,包括选择、扩展、模拟与回溯四个过程;
其中选择为采用下式对动作进行选择:
式中,TF是节点F的访问次数,A是可供选择的动作空间,uF,a表示节点F选择动作a时获得的平均奖励,tF,a表示节点F选这动作a的次数,参数Ce是用来控制勘探强度;
扩展为当选择到子节点时进行扩展,动作空间有多少个动作就扩展多少个子节点;
在模拟的过程中,使用个策略价值网络输出动作选择的概率对当前的数据的评分即奖励;
回溯的过程就是将模拟过程最后得到的奖励来更新当前节点及所有的父亲节点;
步骤S12:步骤S11每一次迭代产生一个变换策略,将变化策略存入矩阵中,将每一个矩阵数据及其对应的标签向量存储为数据集,并同时对策略价值网络进行训练。
进一步地,所述策略价值网络包括公共的3层全卷积网络,然后再分成策略和value两个输出;在策略这一端加上一个全连接层通过softmax输出每一个动作被选择的概率;在价值这一端使用两个全连接层通过tanh输出对当前数据的评分。
本发明还提供了一种基于强化学习来进行特征工程的系统,包括存储器、处理器以及存储在存储器上并能够在处理器上运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
与现有技术相比,本发明有以下有益效果:本发明能够自动进行特征工程,找到判别性高的特征,无需人为的操作,降低特征工程的成本,减少数据科学家的工作量。
附图说明
图1为本发明实施例的将特征工程视为MDP的结构示意图。
图2为本发明实施例的策略价值网络结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供了一种基于强化学习来进行特征工程的方法,自动特征工程是自动机器学习中的重要的一环,比如现在的一些机器学习的库如(auto_ml,Auto-sklearn,MLBox)中都有自动特征工程这一环节。本实施例提出的方法主要是对分类的数据进行特征工程,通过强化学习来进行特征工程,从当前的数据中学习策略,具体包括以下步骤:
步骤S1:用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,每一次迭代都得到训练数据,本实施例将特征工程视作一个马尔科夫决策(MDP)的过程;
步骤S2:用训练好的策略价值网络去求解适合于当前数据集的特征变换。
在本实施例中,所述用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,每一次迭代都得到训练数据具体包括以下步骤:
步骤S11:用改进基于上置信区间算法(UCT)来使其可以对特征工程进行求解,其中动作空间就是对特征进行一系列数值变换的操作,如(log,sin,cos)等。状态空间就是进行变换后生成的新的数据,整体结构示意图如图1。基于上置信区间算法(UCT)一共有四个步骤,分别是选择,扩展,模拟,回溯等四个过程。
其中选择为采用下式对动作进行选择:
式中,TF是节点F的访问次数,A是可供选择的动作空间,uF,a表示节点F选择动作a时获得的平均奖励,tF,a表示节点F选这动作a的次数,参数Ce是用来控制勘探强度;
扩展在当选择到子节点时进行扩展,动作空间有多少个动作就扩展多少个子节点;
在模拟的过程中,使用个策略价值网络输出动作选择的概率对当前的数据的评分即奖励;
回溯的过程就是将模拟过程最后得到的奖励来更新当前节点及所有的父亲节点;
在模拟的过程中,使用一个策略模块输出动作选择的概率和一个价值模块来获得对当前的数据进行评分。在迭代过程中,收集一系列的(S,Z)数据,S是用来描述当前数据的一些信息以及实验模拟的一些信息,如当前层数,以及已经选择的动作等。S为3个(a*b)的矩阵,a为设定的最大深度,b为动作空间的个数。第一个[a*b]矩阵,代表着选择的动作矩阵,若第i层选择第j个动作,就将[i,j](第i行第j列的元素)变为1,其他没有选择的动作和层数全部设为0。第二个[a*b]矩阵代表着当前动作空间每一个动作对当前数据进行变换后得到的精度是否提高,如果提高,则将这一列全部设为1,如果下降,则将这一列全部设为0。第三个[a*b]矩阵表示当前特征空间处于的层数,当前处于第几层,则这个矩阵中值全部设为当前的层数。比如深度为10,动作空间为10个动作,第一次迭代从根节点出发,选择一个第3个动作,就把第一个矩阵的[1,3](第一个矩阵的第一行第三列的元素)设为1,其他没有选择到的动作,和还未到达的层数设为0。然后计算每一个动作是否使当前数据的精度提升,比如第3个动作使得精度提升,这把第二个矩阵的第三列设为1。然后当前层数为1,把第三个矩阵中的元素全部设为1。Z为标签数据,它分为两部分。一部分策略模块的标签,是一个[1*b]的向量,向量中的值表示的是一个动作被选择的概率。比如有10个动作,选择每个动作的概率都是0.1,则将这个[1*b]中的b个元素全部设为0.1。另一部分是价值网络的标签,它也是一个[1*b]的向量,这个向量中的值均为最终的特征空间的模型得分与原始数据空间的得分的差值。
通过基于上置信区间算法(UCT)求解当前数据的同时进行网络的训练,每一次迭代都得到训练数据。模拟的过程通过策略模块来选择动作,然后根据价值模块得到的奖励来进行回溯。然后在再将收集到的数据进行网络的训练,训练新的策略价值模块也会使用在后面的迭代过程,以生成更加优质的数据。两者相互嵌套,相互促进,就构成了整个训练的循环。
网络的结构如图2所示,包括公共的3层全卷积网络,然后再分成策略和value两个输出;在策略这一端加上一个全连接层通过softmax输出每一个动作被选择的概率;在价值这一端使用两个全连接层通过tanh输出对当前数据的评分。
本实施例还提供了一种基于强化学习来进行特征工程的系统,包括存储器、处理器以及存储在存储器上并能够在处理器上运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种基于强化学习来进行特征工程的方法,其特征在于,包括以下步骤:
用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,每一次迭代都得到训练数据;
用训练好的策略价值网络去求解适合于当前数据集的特征变换;
所述用基于上置信区间算法(UCT)求解当前数据的同时进行策略价值网络的训练,训练过程包括以下步骤:
步骤S11:采用上置信区间算法对特征工程的过程进行求解,包括选择、扩展、模拟与回溯四个过程;
其中选择为采用下式对动作进行选择:
式中,TF是节点F的访问次数,A是可供选择的动作空间,uF,a表示节点F选择动作a时获得的平均奖励,tF,a表示节点F选这动作a的次数,参数Ce是用来控制勘探强度;
扩展为当选择到子节点时进行扩展,动作空间有多少个动作就扩展多少个子节点;
在模拟的过程中,使用策略价值网络输出动作选择的概率对当前的数据的评分;
回溯的过程就是将模拟过程最后得到的奖励来更新当前节点及所有的父亲节点;
步骤S12:步骤S11每一次迭代产生一个变换策略,将变化策略存入矩阵中,将每一个矩阵数据及其对应的标签向量存储为数据集,并同时对策略价值网络进行训练;
在模拟的过程中,使用一个策略模块输出动作选择的概率和一个价值模块来获得对当前的数据进行评分;在迭代过程中,收集一系列的(S,Z)数据,S是用来描述当前数据的信息以及实验模拟的信息,如当前层数,以及已经选择的动作;S为3个(a*b)的矩阵,a为设定的最大深度,b为动作空间的个数;第一个[a*b]矩阵,代表着选择的动作矩阵,若第i层选择第j个动作,就将[i,j]即第i行第j列的元素变为1,其他没有选择的动作和层数全部设为0;第二个[a*b]矩阵代表着当前动作空间每一个动作对当前数据进行变换后得到的精度是否提高,如果提高,则将这一列全部设为1,如果下降,则将这一列全部设为0;第三个[a*b]矩阵表示当前特征空间处于的层数,当前处于第几层,则这个矩阵中值全部设为当前的层数;比如深度为10,动作空间为10个动作,第一次迭代从根节点出发,选择一个第3个动作,就把第一个矩阵的[1,3]即第一个矩阵的第一行第三列的元素设为1,其他没有选择到的动作,和还未到达的层数设为0;然后计算每一个动作是否使当前数据的精度提升,比如第3个动作使得精度提升,这把第二个矩阵的第三列设为1;然后当前层数为1,把第三个矩阵中的元素全部设为1;Z为标签数据,它分为两部分;一部分策略模块的标签,是一个[1*b]的向量,向量中的值表示的是一个动作被选择的概率;比如有10个动作,选择每个动作的概率都是0.1,则将这个[1*b]中的b个元素全部设为0.1;另一部分是价值网络的标签,它也是一个[1*b]的向量,这个向量中的值均为最终的特征空间的模型得分与原始数据空间的得分的差值。
2.根据权利要求1所述的一种基于强化学习来进行特征工程的方法,其特征在于,所述策略价值网络包括公共的3层全卷积网络,然后再分成策略和value两个输出;在策略这一端加上一个全连接层通过softmax输出每一个动作被选择的概率;在价值这一端使用两个全连接层通过tanh输出对当前数据的评分。
3.一种基于强化学习来进行特征工程的系统,其特征在于,包括存储器、处理器以及存储在存储器上并能够在处理器上运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-2任一项所述的方法步骤。
4.一种计算机可读存储介质,其特征在于,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序指令时,能够实现如权利要求1-2任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011370448.4A CN112348175B (zh) | 2020-11-30 | 2020-11-30 | 一种基于强化学习来进行特征工程的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011370448.4A CN112348175B (zh) | 2020-11-30 | 2020-11-30 | 一种基于强化学习来进行特征工程的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348175A CN112348175A (zh) | 2021-02-09 |
CN112348175B true CN112348175B (zh) | 2022-10-28 |
Family
ID=74365235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011370448.4A Active CN112348175B (zh) | 2020-11-30 | 2020-11-30 | 一种基于强化学习来进行特征工程的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348175B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628699B (zh) * | 2021-07-05 | 2023-03-17 | 武汉大学 | 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106802553A (zh) * | 2017-01-13 | 2017-06-06 | 清华大学 | 一种基于强化学习的铁路机车运行操控系统混合任务调度方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8849790B2 (en) * | 2008-12-24 | 2014-09-30 | Yahoo! Inc. | Rapid iterative development of classifiers |
US11403327B2 (en) * | 2019-02-20 | 2022-08-02 | International Business Machines Corporation | Mixed initiative feature engineering |
CN111104732B (zh) * | 2019-12-03 | 2022-09-13 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的机动通信网智能规划方法 |
CN111708355B (zh) * | 2020-06-19 | 2023-04-18 | 中国人民解放军国防科技大学 | 基于强化学习的多无人机动作决策方法和装置 |
CN111816300A (zh) * | 2020-06-30 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于深度强化学习的数据分类方法、装置、设备及介质 |
-
2020
- 2020-11-30 CN CN202011370448.4A patent/CN112348175B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106802553A (zh) * | 2017-01-13 | 2017-06-06 | 清华大学 | 一种基于强化学习的铁路机车运行操控系统混合任务调度方法 |
Non-Patent Citations (1)
Title |
---|
Early Action Recognition With Category Exclusion Using Policy-Based Reinforcement Learning;J.Weng et.al;《IEEE Transactions on Circuits and Systems for Video Technology》;20200227;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112348175A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342699A1 (en) | Cooperative execution of a genetic algorithm with an efficient training algorithm for data-driven model creation | |
CN112116092B (zh) | 可解释性知识水平追踪方法、系统和存储介质 | |
Bernal et al. | Financial market time series prediction with recurrent neural networks | |
CN112434171A (zh) | 一种基于强化学习的知识图谱推理补全方法及系统 | |
CN117076931B (zh) | 一种基于条件扩散模型的时间序列数据预测方法和系统 | |
Gabalda-Sagarra et al. | Recurrence-based information processing in gene regulatory networks | |
CN114662793B (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与系统 | |
Scholz-Reiter et al. | Process modelling | |
CN115018193A (zh) | 基于lstm-ga模型的时间序列风能数据预测方法 | |
CN107977748A (zh) | 一种多变量扭曲时间序列预测方法 | |
CN112348175B (zh) | 一种基于强化学习来进行特征工程的方法 | |
Shi | Formulation and Implementation of a Bayesian Network-Based Model | |
CN114463596A (zh) | 一种超图神经网络的小样本图像识别方法、装置及设备 | |
CN116933037A (zh) | 一种基于多模型融合的光伏出力预测方法及相关装置 | |
Zhao et al. | A Hybrid Time Series Model based on Dilated Conv1D and LSTM with Applications to PM2. 5 Forecasting. | |
Ma et al. | Exploiting bias for cooperative planning in multi-agent tree search | |
CN115062762A (zh) | 一种海流轨迹预测方法 | |
CN114254199A (zh) | 基于二分图投影和node2vec的课程推荐方法 | |
CN111881040A (zh) | 一种基于循环神经网络的抽象状态模型的测试数据生成方法 | |
Alamgeer et al. | Data Mining with Comprehensive Oppositional Based Learning for Rainfall Prediction. | |
CN115220342B (zh) | 一种基于动力学搜索的足式机器人移动控制方法 | |
CN118571021B (zh) | 基于多层注意力的图融合交通流量预测方法、介质及设备 | |
Umrao et al. | Comparison of Machine Learning Techniques to Estimate Increase in Crop Productivity | |
CN117931420B (zh) | 云工作负载预测方法、装置、设备及存储介质 | |
CN116527411B (zh) | 数据安全智能防护模型构建方法、装置及协作平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |