CN115577872B

CN115577872B - 基于多能智能体深度强化学习的结构化数据预测优化方法

Info

Publication number: CN115577872B
Application number: CN202211164902.XA
Authority: CN
Inventors: 查良瑜; 黄清仪; 杨赛赛; 袁静; 赵俊博
Original assignee: Institute Of Computer Innovation Technology Zhejiang University
Current assignee: Institute Of Computer Innovation Technology Zhejiang University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-09-05
Anticipated expiration: 2042-09-23
Also published as: CN115577872A

Abstract

本发明公开了一种基于多能智能体深度强化学习的结构化数据预测优化方法。获取结构化数据的原始数据；用深度强化学习智能体和代理模型对原始数据进行迭代处理，获得优化后的深度强化学习智能体；将原始数据和初始设定的超参数再次输入到优化后的深度强化学习智能体中生成新训练数据，并用新训练数据训练一个预测模型；将结构化数据的待预测数据输入输入到预测模型中，得到最终的预测目标参数的预测结果。本发明能够一次性解决包括自动特征工程、超参搜索等多个优化任务，大幅降低建模过程中的人力消耗，同时提高寻优的准确度。

Description

基于多能智能体深度强化学习的结构化数据预测优化方法

技术领域

本发明涉及人工智能领域的一种数据自动机器学习方法，具体涉及一种基于多能智能体深度强化学习的结构化数据预测优化方法。

背景技术

结构化数据(TabularData)作为工业场景下最常见的数据存储形式，自机器学习技术在互联网及各个工业、产业领域逐渐被广泛利用以来，结构化数据自动机器学习AutoML技术一直是学界及产业界研究的热点问题。其关键原因是在大部分情况下，某一具体领域使用机器学习能够得到效果很好的模型，但若要在另一个领域使用该模型则不一定适用。为取得较好的模型预测效果，往往需要大量专业知识来支撑特征工程、参数调优等工作。因此，对于一个领域专家来说，可能需要同时掌握大量专业领域知识以及机器(深度)学习基础，并且耗费大量时间精力才能系统性地完成一个完整的基于AI技术的建模预测任务。

结构化数据自动机器学习AutoML本质上是一个关于数据特征集合寻优和模型超参数寻优的组合优化问题。结构化数据自动特征工程(AutoFE)方面，Udayan Khurana等人(2018)提出的TransGraph首次将Q-learning应用在自动特征工程领域(AutoFE)。ChenXiangning等人提出基于NASNET架构的自动特征工程方法NFS(2019)，在该领域达到State-of-Art。此后大多AutoFE架构基本都参考了NFS中对于强化学习智能体的设计，采用NASNET结构。结构化数据机器学习超参数优化(HPO)研究方面，目前大多数框架均采用贝叶斯优化或者启发式算法，深度强化学习在此领域的应用相对较少。

然而不管是自动特征工程(AutoFE)还是超参数优化(HPO)，它们实际上都是整个AutoML链路的一部分，以上所述目前大多相关AutoML方法实际上都只解决了整个链路中如自动特征工程、超参数优化这两个核心子集的其中一个，并未将两个问题统一考虑为一个多目标优化问题，造成最终结构化数据预测效果受到制约。

发明内容

针对结构化数据自动机器学习技术目前存在的不足，本发明提出了一种基于多能智能体深度强化学习的结构化数据预测优化方法，通过搭建多个由深度网络构成的强化学习智能体，一次性解决连续特征、离散特征搜索和超参数寻优等问题，寻优搜索全过程无需干预，减小人力开销的同时，提升模型预测精度。

为了解决上述现有技术的不足之处，如图1所示，本发明提供了以下技术方案：

步骤一：获取结构化数据的原始数据和用户输入的对于结构化数据的预测优化任务参数；

所述的原始数据是结构化数据，例如表格型数据。所述的原始数据中包括了离散数据部分和连续数据部分以及、预测目标参数的真实值。

具体实施中，以数据中的一列作为一个特征，将原始数据设置为特征集合。

所述的预测优化任务参数包括预测任务类型、代理模型种类、预测目标参数的预测精度参数类型。

步骤二：根据预设的预测优化任务参数用深度强化学习智能体和代理模型对原始数据进行迭代处理，获得优化后的深度强化学习智能体；

步骤三：将原始数据和初始设定的超参数再次输入到优化后的深度强化学习智能体中生成新训练数据，并用新训练数据训练一个预测模型；

步骤四：将结构化数据的待预测数据输入输入到预测模型中，得到最终的预测目标参数的预测结果。

所述步骤二具体为：

S21、每一轮迭代中，将原始数据结合初始设定的超参数选择，输入到当前深度强化学习智能体中进行推理处理得到特征生成字典和新超参数集合；

S22、根据得到的特征生成字典生成本轮特征数据，用本轮特征数据和超参数对代理模型进行训练和验证，输出获得预测精度参数；

S23、将特征生成字典和新超参数集合预测精度参数再返回输入到深度强化学习智能体中进行参数和梯度的分析和学习，优化深度强化学习智能体内部的权重参数；

S24、不断重复步骤S21～S23进行迭代，当迭代次数到达预设轮次阈值后，迭代结束，获得最终优化后的深度强化学习智能体。

本发明建立三个不同的深强化学习智能体，三个深度强化学习智能体分别对应离散特征列的特征生成/转换动作搜索、连续特征列的特征生成/转换动作搜索和代理模型超参数数值的搜索。

所述步骤二，具体包括：

所述的深度强化学习智能体包括离散数据智能体、连续数据智能体和超参数智能体，离散数据智能体和连续数据智能体均采用拓扑结构相同的多头自注意力网络结构，超参数智能体采用循环神经网络；

将原始数据拆分为离散数据和连续数据，将离散数据输入到离散数据智能体输出获得离散特征生成字典，将连续数据输入到连续数据智能体输出获得连续特征生成字典，将初始设定的超参数输入到超参数数据智能体输出获得更新后的超参数，由更新后的超参数组成新超参数集合；

所述的连续数据是指能以浮点类型表示的字段数据；所述的离散数据是指只能转化处理为自然数或整数类型的字段数据。

接着利用离散特征生成字典结合离散特征生成函数生成离散特征，再利用连续特征生成字典结合连续特征生成函数生成连续特征，作为特征数据；

以初始设定的超参数作为代理模型的超参数，按照固定比例将原始数据拆分为训练集和验证集，用训练集对应获得的特征数据对代理模型进行训练，所述的代理模型输入本轮特征数据、且输出预测目标参数的预测值，用验证集对应获得的特征数据对训练后的代理模型进行验证，将预测目标参数的预测值和已知的预测目标参数的真实值进行比较获得用户预设输入的预测精度参数类型下的预测精度参数；

离散特征生成字典、连续特征生成字典、更新后的超参数和代理模型验证得到的预测精度参数全部记录到信息存储器中，信息存储器将自身记录的信息反馈输入到三深度强化学习智能体中进行参数和梯度的分析和学习，优化三个深度强化学习智能体内部的权重参数。

所述的多头自注意力网络结构是主要由第一层全连接层、多头注意力层(Multi-Head Attention)、第一层批归一化层、第二层全连接层、第二层批归一化层、第三层全连接层和激活函数依次连接构成。

所述的循环神经网络结构是主要由编码层、长短时记忆单元LSTM、解码层和激活函数依次连接构成，其中编码层和解码层均采用全连接层。

所述步骤三，具体为：

将原始数据和初始设定的超参数输入到优化后的深度强化学习智能体中，再做一次推理，将推理得到的离散特征生成字典、连续特征生成字典和新超参数集合作为搜索结果输出；

用搜索得到的离散特征生成字典、连续特征生成字典结合原始数据来分别生成新的离散特征和新的连续特征；

然后将新的离散特征和新的连续特征补充到原始数据中形成新训练数据，再将新训练数据输入到一个预测模型进行训练，即重新训练一个模型，所述的预测模型输出预测目标参数的预测值。

所述的预测模型的种类、拓扑结构与所述的代理模型的种类、拓扑结构保持一致。

所述的连续特征生成函数包括采用取对数、开平方等运算处理，所述的离散特征生成函数包括采用交叉融合等运算处理。

通过不同次迭代中结合离散特征生成函数和连续特征生成函数，使得离散特征和连续特征的阶数不断上升。

本发明是接收搜索任务定义和数据集；根据配置信息，分别采用不同的强化学习智能体进行自动特征工程和模型超参数进行迭代搜索；根据搜索结果，输出最优的特征工程动作、特征工程流程信息记录器、预测模型超参数集合，并以上述三个要素作为输入，结合原始数据训练一个预测模型，进而对其他数据进行预测。

本发明的有益效果：

本发明方法将预测任务处理为一个多目标组合优化问题，能够一次性解决包括自动特征工程、超参搜索等多个优化任务，大幅降低建模过程中的人力消耗，同时提高寻优的准确度。

以化工领域中化工反应产率预测建模为例，一个能够准确预测产率的模型需要经历数据清洗、特征工程、模型选择、参数调优和模型持久化五个步骤，平均耗时达到7天/人左右，且对数据建模人员的专业理解水平有较高要求，否则模型预测精度难以保证。

本发明的应用能够实现自动建模，将原本繁芜的建模过程最终简化为简单的模型任务设定(1～2分钟)和计算机自动优化求解(2小时～1天不等)两个过程，节约大量人力，且最终模型预测精度得到保证，大幅降低对数据建模人员的数量、水平依赖，降低公司开销，同时提升化工合成实验效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的从数据输入到强化学习搜索再到输出结果的流程图；

图2为本发明实施例提供的数据/特征搜索深度强化学习智能体进行最高特征阶数为N的单次搜索的变化过程以及策略网络的核心结构；

图3为本发明实施例提供的超参数搜索深度强化学习智能体的核心网络结构；

图4为本发明实施例提供的每一轮搜索优化迭代过程中深度强化学习智能体、代理模型、信息存储器之间的作用关系；

图5为本发明在若干公开数据集上的预测优化结果，以及和其他现有结构化数据预测优化框架的效果对比情况，AFS对应列为本方法结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实例属于大数据人工智能领域，该方法实例的实现基于以下几部分工作：

基于如附图2和附图3所示的强化学习智能体的神经网络结构，编写模型代码，完成智能体网络搭建。

结构化数据例如为化工合成实验的数据表，但不限于此。本发明的结构化数据预测优化可以是对化工合成实验的数据表进行预测其中的合成反应产率，预测目标参数设定为产率。

本发明方法具体实施中还可以建立若干个信息存储器，分别记录每个线程/进程下每一轮迭代搜索过程中的信息。

S21、开始搜索任务，每一轮迭代中，将原始数据结合初始设定的超参数选择，输入到当前深度强化学习智能体中进行推理处理得到特征生成字典和新超参数集合；特征生成字典包括离散特征生成字典和连续特征生成字典。

S22、根据得到的特征生成字典生成本轮特征数据，用本轮特征数据和超参数对代理模型进行训练和验证，输出获得用户预设输入的预测精度参数类型下的预测精度参数；

S24、不断重复步骤S21～S23进行迭代，当迭代次数到达预设轮次阈值后，反馈变化逐步收敛，智能体停止学习，迭代结束，获得最终优化后的深度强化学习智能体。

如图4所示，步骤二，具体包括：

深度强化学习智能体包括离散数据智能体、连续数据智能体和超参数智能体，离散数据智能体和连续数据智能体均采用拓扑结构相同的多头自注意力网络结构，超参数智能体采用循环神经网络；

如图2所示，多头自注意力网络结构是主要由第一层全连接层、多头注意力层(Multi-Head Attention)、第一层批归一化层、第二层全连接层、第二层批归一化层、第三层全连接层和激活函数依次连接构成。

如图3所示，循环神经网络结构是主要由编码层、长短时记忆单元LSTM、解码层和激活函数依次连接构成，其中编码层和解码层均采用全连接层。

连续数据是指能以浮点类型表示的字段数据，如化工合成实验中的温度；离散数据是指只能转化处理为自然数或整数类型的字段数据，如化工合成实验的反应物底物类型。

接着利用离散特征生成字典结合离散特征生成函数生成离散特征，再利用连续特征生成字典结合连续特征生成函数生成连续特征，作为本轮特征数据；

以初始设定的超参数作为代理模型的超参数，按照70％-30％的固定比例将原始数据拆分为训练集和验证集，用训练集对应获得的本轮特征数据对代理模型进行训练，代理模型输入本轮特征数据、且输出预测目标参数的预测值，用验证集对应获得的本轮特征数据对训练后的代理模型进行验证，将预测目标参数的预测值和已知的预测目标参数的真实值进行比较获得获得用户预设输入的预测精度参数类型下的预测精度参数；

深度强化学习智能体、代理模型、信息存储器在同一轮搜索过程中的相互作用和关系如附图4所示。

预测优化任务的类型包括分类、回归两种。

代理模型指的是在搜索过程中以原始数据和由特征生成字典产生的特征数据共同训练的模型，代理模型种类设置与最终进行预测的模型种类保持完全一致。

代理模型种类，对于分类任务，常用有逻辑斯蒂回归(LogisticRegression)、随机森林(RandomForest)、梯度提升树(XGBOOST/LightGBM)；对于回归任务，有线性回归(LinearRegression)、随机森林(RandomForest)、梯度提升树(XGBOOST/LightGBM)。

然后将新的离散特征和新的连续特征补充到原始数据中形成新训练数据，再将新训练数据输入到一个预测模型进行训练，即重新训练一个模型，预测模型输出预测目标参数的预测值。

具体实施中，用搜索得到的离散特征生成字典、连续特征生成字典结合原始数据来生成，一个特征生成信息存储器，特征生成信息存储器中保存了每一次生成操作对应的数据列统计信息，如类别总量、归一化操作的均值和方差等。

预测模型的种类、拓扑结构与代理模型的种类、拓扑结构保持一致。

这里注意，预测模型种类必须与搜索过程中的代理模型种类保持一致。

具体实施中，可以将待预测数据输入到特征信息存储器中，生成与预测模型要求格式相匹配的数据，再将相匹配的数据输入到预测模型中，得到最终的预测结果。

对于深度强化学习智能体，根据对应的操作对象不同，深度强化学习智能体的网络结构略有差异。具体如下。

对于特征数据搜索的深度强化学习智能体来说，将所有数据按列视为一个集合，每次采样到一组具体的特征时，对上一时刻的数据进行变换生成下一时刻的数据，并将数据本身作为马尔科夫决策过程(MDP)的状态(state)要素直接送入网络进行学习。

对于离散特征列对应的深度强化学习智能体来说，变换是合成交叉离散特征对应的特征列名；

对于连续特征列对应的深度强化学习智能体来说，变换是值转换(一目运算)或者加、减、乘、除四则运算(二目运算)对应字段名；

对于超参数搜索对应的深度强化学习智能体，变换是选择的参数值。三个深度强化学习智能体在一轮搜索过程中共用同一个评价参数反馈(Reward)。

离散特征生成函数包括采用取对数、开平方等运算处理，连续特征生成函数包括采用交叉融合等运算处理。通过不同次迭代中结合离散特征生成函数和连续特征生成函数，使得离散特征和连续特征的阶数不断上升。

对于离散特征来说，其对应的特征合成方式只有“交叉融合”一种(A&B，相当于两列特征对应数值的笛卡尔积)，对于一个由{A，B，C}三列离散数据构成集合来说，其对应的动作选择空间是{if A&B or not，if A&C or not，if B&C or not}，具体每个合成特征是否生成，由如附图2中策略网络输出的对应概率值控制。

对连续特征来说，其对应特征生成方式有一目运算和二目运算两种。

一目运算的动作空间定义较为简单，以本实施例说明，对于任意一个连续向量A来说，其对应一目运算函数包括：

{sqrt，power3，sigmoid，tanh，inverse，log，square，abss}

具体的，sqrt表示开平方运算；power3表示三次方运算；sigmoid表示逻辑回归函数运算；tanh表示双曲正切函数运算；inverse表示倒数运算；log表示对数运算；square表示平方运算；abss表示绝对值运算。

进一步的，在数据特征动作寻优过程中，可以通过设定特征的最高阶数n(n≥1)来实现高阶特征的生成。

高阶特征指的是在原始特征基础上进行多次变换产生的特征：如对于0阶特征x₀，取对数后变为一阶特征x₁＝log(x₀)，在x₁基础上再进行相应运算操作如开平方sqrt变为二阶特征x₂＝sqrt(x₁)＝sqrt(log(x₀))，三阶及以上依次类推。

具体实施在若干公开数据集上的预测优化结果，以及和其他现有结构化数据预测优化框架的效果对比情况如图5所示，AFS对应列为本方法结果。图5中可见相对原始数据/默认参数的BASE列，本发明最终评价指标均大幅提升；相对市面竞品DIFFER、NFS、AutoFEAT、DFS等方法，本发明最终效果80％以上数据集达到最优效果。结构化数据预测精度整体提升明显。

Claims

1.一种基于多能智能体深度强化学习的结构化数据预测优化方法，其特征在于：方法包括以下步骤：

步骤一：获取结构化数据的原始数据；

步骤二：用深度强化学习智能体和代理模型对原始数据进行迭代处理，获得优化后的深度强化学习智能体；

所述步骤二具体为：

S24、不断重复步骤S21～S23进行迭代，当迭代次数到达预设轮次阈值后，迭代结束，获得最终优化后的深度强化学习智能体；

所述步骤二，具体包括：

以初始设定的超参数作为代理模型的超参数，将原始数据拆分为训练集和验证集，用训练集对应获得的特征数据对代理模型进行训练，所述的代理模型输入本轮特征数据、且输出预测目标参数的预测值，用验证集对应获得的特征数据对训练后的代理模型进行验证，将预测目标参数的预测值和预测目标参数的真实值进行比较获得预测精度参数；

离散特征生成字典、连续特征生成字典、更新后的超参数和预测精度参数全部记录到信息存储器中，信息存储器将自身记录的信息反馈输入到三深度强化学习智能体中进行参数和梯度的分析和学习，优化三个深度强化学习智能体内部的权重参数；

所述步骤三，具体为：将原始数据和初始设定的超参数输入到优化后的深度强化学习智能体中，再做一次推理，将推理得到的离散特征生成字典、连续特征生成字典和新超参数集合作为搜索结果输出；用搜索得到的离散特征生成字典、连续特征生成字典结合原始数据来分别生成新的离散特征和新的连续特征；然后将新的离散特征和新的连续特征补充到原始数据中形成新训练数据，再将新训练数据输入到一个预测模型进行训练；

2.根据权利要求1所述的一种基于多能智能体深度强化学习的结构化数据预测优化方法，其特征在于：所述的多头自注意力网络结构是主要由第一层全连接层、多头注意力层、第一层批归一化层、第二层全连接层、第二层批归一化层、第三层全连接层和激活函数依次连接构成。

3.根据权利要求1所述的一种基于多能智能体深度强化学习的结构化数据预测优化方法，其特征在于：所述的循环神经网络结构是主要由编码层、长短时记忆单元LSTM、解码层和激活函数依次连接构成，其中编码层和解码层均采用全连接层。

4.根据权利要求1所述的一种基于多能智能体深度强化学习的结构化数据预测优化方法，其特征在于：所述的预测模型的种类、拓扑结构与所述的代理模型的种类、拓扑结构保持一致。

5.根据权利要求1所述的一种基于多能智能体深度强化学习的结构化数据预测优化方法，其特征在于：所述的连续特征生成函数包括采用取对数、开平方等运算处理，所述的离散特征生成函数包括采用交叉融合等运算处理。

6.根据权利要求5所述的一种基于多能智能体深度强化学习的结构化数据预测优化方法，其特征在于：通过不同次迭代中结合离散特征生成函数和连续特征生成函数，使得离散特征和连续特征的阶数不断上升。