CN114154582A - 基于环境动态分解模型的深度强化学习方法 - Google Patents
基于环境动态分解模型的深度强化学习方法 Download PDFInfo
- Publication number
- CN114154582A CN114154582A CN202111478934.2A CN202111478934A CN114154582A CN 114154582 A CN114154582 A CN 114154582A CN 202111478934 A CN202111478934 A CN 202111478934A CN 114154582 A CN114154582 A CN 114154582A
- Authority
- CN
- China
- Prior art keywords
- model
- environment
- action
- decomposition
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000002787 reinforcement Effects 0.000 title claims abstract description 52
- 230000009471 action Effects 0.000 claims description 71
- 239000013598 vector Substances 0.000 claims description 21
- 230000000875 corresponding effect Effects 0.000 claims description 14
- 230000007613 environmental effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 4
- 241001455214 Acinonyx jubatus Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000004387 environmental modeling Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 241000997494 Oneirodidae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- BQJCRHHNABKAKU-KBQPJGBKSA-N morphine Chemical compound O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O BQJCRHHNABKAKU-KBQPJGBKSA-N 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种本发明的基于环境动态分解模型的深度强化学习方法,包括环境分解方式的确定、环境分解模型的建立和与深度强化学习结合,优化非基于模型的深度强化学习方法三个部分,动态进行分解建模来提高环境建模质量,最后我们结合基于模型的深度强化学习方法,来生成策略。与现有技术相比,本发明实现了分解模型与一般强化学习方法的结合,通过提出新的分解网络结构,极大地提高了环境建模的准确性,从而提高了基于模型的深度强化学习方法的学习效果。
Description
技术领域
本发明涉及深度强化学习领域,特别是涉及基于模型的深度强化学习方法。
背景技术
深度强化学习是一种解决顺序决策问题的通用学习框架,在许多领域都取得了显著的进展。一般来说,根据是否学习用于策略训练的世界模型,强化学习方法分为两类包括无模型深度的强化学习方法和基于模型的深度强化学习方法。基于模型的深度强化学习方法目的在于利用收集的经验数据来对环境建模,以帮助策略的学习;可以以较少的训练数据,学习到较好的策略。环境建模提高了样本效率,但往往具有有限的渐近性能,且存在模型误差。在环境建模过程中存在的模型误差使得基于模型的强化学习效果受到限制。
现有的基于模型的强化学习算法按照其遵循的范式可分为四类:第一类通过世界模型生成假想数据,并通过无模型强化学习算法使用这些数据进行策略训练;第二类利用世界模型的可微性,生成策略优化的可微轨迹;第三类得到一个精确的值函数,使用环境模型,产生多条轨迹,并基于这些轨迹计算时序差分目标值;第四类通过将最优控制算法(如MPC)与已有的世界模型相结合,来直接生成有效的策略。无论哪种范式,基于模型的强化学习算法的训练效果取决于世界模型的准确性,即得到的世界模型越准确,生成的数据就越可靠,最终可以获得更好的策略效果。因此,提高世界模型的精度是基于模型的强化学习算法的关键。为此,现有的方法采用了各种技术来提高模型的精度。例如,有些方法不是直接预测下一个状态,而是构建一个环境模型来预测状态的变化。有些方法使用模型集成来建模环境,并且通过模型集成的方式来估计建模的不确定性。还有些方法是直接优化多步预测误差来降低长轨迹生成中的模型误差。然而,这些方法都是以黑盒的方式改进了环境建模,忽略了环境动态的内部结构。
因此,本发明希望通过设计分解预测的网络结构,来对环境进行更准确的建模。本发明亟待解决的技术问题是如何对环境的动态进行分解。
发明内容
针对基于模型的深度强化学习建模质量较低的问题,本发明旨在提出了一种基于环境动态分解模型的深度强化学习方法,通过聚类算法分解动态环境模型并结合强化学习方法进行策略优化,实现了高效的强化学习方法。
本发明利用以下技术方案实现:
一种基于环境动态分解模型的深度强化学习方法,具体包括以下步骤:
步骤1:进行环境动态分解,包括:首先对每个动作维度进行特征值的提取,这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数;随后依据特征向量进行动作维度的聚类,将相似的动作维度聚类到一起,相异的分到不同的簇中;最后将聚类的结果作为对环境动态的分解结果;
步骤2:建立环境动态分解模型,包括:首先确定以多个环境模型建模环境的底层框架,模型模型的数量将对应于环境分解过程中所发现的子动态的数量,使用每一个模型分别预测每一个子动态;每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作,来预测一个相应的变量,输出一个隐空间变量;随后用子模型来预测一个隐空间变量;在所有的子模型预测完毕后,把所有子模型的预测结果融合起来,通过一个融合神经网络,最后输出一个预测结果;从这个预测结果中,使用解码网络来解码出下一个时刻的状态s,以及这一过程的奖励r;
步骤3:实现环境动态分解模型与深度强化学习的结合,优化非基于模型的深度强化学习方法。
所述步骤1进一步包括以下处理:
步骤1.1:确定环境动态与动作之间的关系;
步骤1.2:对动作维度进行特征提取;
对动作维度进行分解相当于对环境动态进行分解,首先对每个动作维度进行相关特征值的提取,具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的特征向量;动作维度的特征向量表达式如下:
Fi=<|fi,1,...,fi,n|>
fi,j表达式如下:
其中,n为状态维度大小,a为动作向量,Δs为由于执行动作a而产生的状态变化量,i,j为对应的维度,cov()为协方差,为第i维度的动作向量的标准差,为第j维度的状态变化量的标准差,fi,j为动作维度i与状态维度j的变化量之间的皮尔逊相关系数数值;
步骤1.3:根据动作维度的特征向量使用聚类算法进行动作空间的环境动态分解;
以每个动作维度的特征向量作为是否与其他动作维度进行聚类的依据;同时会设置一个阈值,当同一个簇内的动作维度的相似性较高,不同簇间的动作维度间的差异性较高时,将终止聚类过程,并且使用当前的聚类结果作为分解方案。
所述隐空间变量如下式所示:
所述步骤3采用dyna-style类方法,具体包括:使用建模的环境模型来产生更多的训练数据,来进行策略优化。
所述步骤3采用analytical gradient方法,具体包括:首先使用环境模型产生很多条轨迹,随后使用一种收益的计算方式来计算每条轨迹上面的收益,最后直接最大化这些计算出来的收益,直接优化模型产生的轨迹,来进行策略优化。
与现有技术相比,本发明能够达成以下有益技术效果:
1)提高基于模型的强化学习的策略训练表现;
2)实现了分解模型与一般强化学习方法的结合,通过提出新的分解网络结构,极大地提高了环境建模的准确性,从而提高了基于模型的深度强化学习方法的学习效果。
附图说明
图1为本发明的基于环境动态分解模型的深度强化学习方法整体流程图;
图2为本发明的基于环境动态分解模型的深度强化学习方法建模示意图;(a)猎豹环境,(b)多种子动态方案,(c)动作空间分解方案,(d)模型误差;
图3为分解模型建模图;
在最左侧的部分完成对动作维度特征的提取,以及动作维度的聚类,得到动态的分解方案,随后,右侧部分使用该分解方案来进行环境动态的分解预测。
具体实施方式
以下结合附图和具体实施例对本发明的技术方案进行详细说明。
例如,对于一个猎豹奔跑环境的建模,其中环境动态可以以各种方式分解。根据每个子动态的作用,我们可以将其分解为三个子动态:大腿处的动态,胫骨处的动态,脚的动态;或者根据每个子动态的位置,可以将其分解为两个子动态:前部动态和后部动态。
如图1所示,为本发明的基于环境动态分解模型的深度强化学习方法整体流程图;本发明中基于分解动态模型的强化学习方法可以分解为环境分解方式的确定,环境分解模型的建立,与深度强化学习结合三个部分。
本发明的具体流程如下:
步骤1:进行环境动态分解,对动作空间进行分解就相当于对环境动态进行分解。在这一基础上,首先对每个动作维度进行特征值的提取,这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数;随后依据特征向量进行动作维度的聚类,将相似的动作维度聚类到一起,相异的分到不同的簇中;最后将聚类的结果作为对环境动态的分解结果。
步骤1.1:确定环境动态与动作之间的关系;
在绝大多数环境中,环境的动态都是由于动作对环境造成了影响而产生,因此对环境动态的分解需要从对动作进行分解开始,因此,环境动态的分解问题转换成了对动作空间进行分解的问题。
步骤1.2:对动作维度进行特征提取;
对动作维度进行分解相当于对环境动态进行分解,首先对每个动作维度进行相关特征值的提取,具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的特征向量。该特征描述了相应的动作维度与环境的动态之间的联系,帮助对动作空间进行良好的分解。
动作维度的特征向量表达式如下:
Fi=<|fi,1,...,fi,n|>
fi,j表达式如下:
其中,n为状态维度大小,a为动作向量,Δs为由于执行动作a而产生的状态变化量,i,j为对应的维度,cov()为协方差,为第i维度的动作向量的标准差,为第j维度的状态变化量的标准差,fi,j为动作维度i与状态维度j的变化量之间的皮尔逊相关系数数值;
步骤1.3:根据动作维度的特征向量使用聚类算法进行动作空间的环境动态分解;
分解目标是将相似的动作维度放在一起,将不相似的动作维度分开。为了实现这一目标,使用聚类的方法。以每个动作维度的特征向量作为是否与其他动作维度进行聚类的依据。同时会设置一个阈值,当同一个簇内的动作维度的相似性较高,不同簇间的动作维度间的差异性较高时,将终止聚类过程,并且使用当前的聚类结果作为分解方案。
步骤2:环境动态分解模型的建立:一般的环境模型的建立方式是:使用一个神经网络,这个神经网络的输入是当前的状态s与当前的动作a,输出是下一时刻的状态s′与这一过程所收集到的奖励r。
本步骤中,首先确定以多个环境模型建模环境的底层框架,模型模型的数量将对应于环境分解过程中所发现的子动态的数量,使用每一个模型分别预测每一个子动态;每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作,来预测一个相应的变量,输出一个隐空间变量;随后用子模型来预测一个隐空间变量;在所有的子模型预测完毕后,把所有子模型的预测结果融合起来,通过一个融合神经网络,最后输出一个预测结果;从这个预测结果中,使用解码网络来解码出下一个时刻的状态s,以及这一过程的奖励r。
隐空间变量如下式所示:
步骤3:与深度强化学习的结合:
对于与深度强化学习结合,尝试了与两种主流的基于模型的深度强化学习方法进行结合:dyna-style方法和analytical类方法。前者使用模型产生训练数据,并使用无模型的强化学习方法来进行策略优化。后者利用了模型产生的轨迹中的可微性,直接优化整条轨迹。这两类方法的共同点在于,策略的质量都受限于模型的准确性,当提高了模型的准确性后,策略的质量也将会提高。
步骤3.1:dyna-style方法
dyna-style方法的主要目标是:优化过程仍然使用非基于模型的深度强化学习方法,但是使用建模的环境模型来产生更多的训练数据,来帮助非基于模型的强化学习方法进行学习。
步骤3.2:analytical gradient方法
analytical gradient方法的主要目标是:由于所建立的环境模型是由神经网络构成的,所以当使用这一环境模型产生一条长的序列时,这一序列上的各个元素之间是保留梯度的,因此可以直接进行策略的优化。首先使用环境模型产生很多条轨迹,随后使用一种收益的计算方式来计算每条轨迹上面的收益,最后直接最大化这些计算出来的收益即可达到策略优化的效果。
如图2所示,为本发明的基于环境动态分解模型的深度强化学习方法建模示意图。对于如图(a)猎豹环境,将其分成(b)中的多种子动态方案,每种子动态方案对应于(c)中的动作空间分解方案,最后在与当前的基于模型的强化学习方法dreamer结合时,可以降低(d)中的模型误差。
如图3所示,为分解模型建模图。在最左侧的部分完成对动作维度特征的提取,以及动作维度的聚类,得到动态的分解方案,随后,右侧部分使用该分解方案来进行环境动态的分解预测。本发明提出了一个新的世界模型构建框架:环境动态分解建模框架。以分解的方式建模环境动态,并包含两个主要组成部分:子动态发现和动态分解预测。前者用于发现子动态,通过分析环境动态和动作之间的关系,采用聚类方法对动作进行合理分解,得到子动态。后者根据分解的结果,进行分解动态预测建模。不需要先验知识,并且环境动态分解是完全自动的。此外,正交于现有的基于模型的强化学习算法,可以作为主干与任何基于模型的强化学习算法结合。实验表明,本法发明可以显著提高模型的精度和渐近性能。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。
Claims (5)
1.一种基于环境动态分解模型的深度强化学习方法,其特征在于,该方法具体包括以下步骤:
步骤1:进行环境动态分解,包括:首先对每个动作维度进行特征值的提取,这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数;随后依据特征向量进行动作维度的聚类,将相似的动作维度聚类到一起,相异的分到不同的簇中;最后将聚类的结果作为对环境动态的分解结果;
步骤2:建立环境动态分解模型,包括:首先确定以多个环境动态模型建模环境动态的底层框架,模型的数量将对应于环境分解过程中所发现的子动态的数量,使用每一个模型分别预测每一个子动态;每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作,来预测一个相应的变量,输出一个隐空间变量;随后用子模型来预测一个隐空间变量;在所有的子模型预测完毕后,把所有子模型的预测结果融合起来,通过一个融合神经网络,最后输出一个预测结果;从这个预测结果中,使用解码网络来解码出下一个时刻的状态s以及这一过程的奖励r;
步骤3:实现环境动态分解模型与深度强化学习的结合,优化非基于模型的深度强化学习方法。
2.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述步骤1进一步包括以下处理:
步骤1.1:确定环境动态与动作之间的关系;
步骤1.2:对动作维度进行特征提取;
对动作维度进行分解相当于对环境动态进行分解,首先对每个动作维度进行相关特征值的提取,具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的特征向量;动作维度的特征向量表达式如下:
Fi=<|fi,1,...,fi,n|>
fi,j表达式如下:
其中,n为状态维度大小,a为动作向量,Δs为由于执行动作a而产生的状态变化量,i,j为对应的维度,cov()为协方差,为第i维度的动作向量的标准差,为第j维度的状态变化量的标准差,fi,j为动作维度i与状态维度j的变化量之间的皮尔逊相关系数数值;
步骤1.3:根据动作维度的特征向量使用聚类算法进行动作空间的环境动态分解;
以每个动作维度的特征向量作为是否与其他动作维度进行聚类的依据;同时会设置一个阈值,当同一个簇内的动作维度的相似性较高,不同簇间的动作维度间的差异性较高时,将终止聚类过程,并且使用当前的聚类结果作为分解方案。
4.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述步骤3采用dyna-style类方法,具体包括:使用建模的环境模型来产生更多的训练数据,来进行策略优化。
5.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述步骤3采用analytical gradient方法的,具体包括:首先使用环境模型产生很多条轨迹,随后使用一种收益的计算方式来计算每条轨迹上面的收益,最后直接最大化这些计算出来的收益,直接优化模型产生的轨迹,来进行策略优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478934.2A CN114154582B (zh) | 2021-12-06 | 2021-12-06 | 基于环境动态分解模型的深度强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478934.2A CN114154582B (zh) | 2021-12-06 | 2021-12-06 | 基于环境动态分解模型的深度强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154582A true CN114154582A (zh) | 2022-03-08 |
CN114154582B CN114154582B (zh) | 2024-04-19 |
Family
ID=80452918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111478934.2A Active CN114154582B (zh) | 2021-12-06 | 2021-12-06 | 基于环境动态分解模型的深度强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154582B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912620A (zh) * | 2023-07-06 | 2023-10-20 | 中国矿业大学 | 一种具有抗视觉干扰的表征强化学习方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734220A (zh) * | 2018-05-23 | 2018-11-02 | 山东师范大学 | 基于k线聚类和强化学习的自适应金融时间序列预测方法 |
CN110968866A (zh) * | 2019-11-27 | 2020-04-07 | 浙江工业大学 | 一种面向深度强化学习模型对抗攻击的防御方法 |
CN111950722A (zh) * | 2019-05-15 | 2020-11-17 | 天津科技大学 | 一种基于环境预测模型的强化学习方法 |
CN112905465A (zh) * | 2021-02-09 | 2021-06-04 | 中国科学院软件研究所 | 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 |
JP2021089446A (ja) * | 2019-03-13 | 2021-06-10 | ダイキン工業株式会社 | モデルの選定方法および深層強化学習方法 |
-
2021
- 2021-12-06 CN CN202111478934.2A patent/CN114154582B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734220A (zh) * | 2018-05-23 | 2018-11-02 | 山东师范大学 | 基于k线聚类和强化学习的自适应金融时间序列预测方法 |
JP2021089446A (ja) * | 2019-03-13 | 2021-06-10 | ダイキン工業株式会社 | モデルの選定方法および深層強化学習方法 |
CN111950722A (zh) * | 2019-05-15 | 2020-11-17 | 天津科技大学 | 一种基于环境预测模型的强化学习方法 |
CN110968866A (zh) * | 2019-11-27 | 2020-04-07 | 浙江工业大学 | 一种面向深度强化学习模型对抗攻击的防御方法 |
CN112905465A (zh) * | 2021-02-09 | 2021-06-04 | 中国科学院软件研究所 | 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 |
Non-Patent Citations (1)
Title |
---|
赵婷婷;孔乐;韩雅杰;任德华;陈亚瑞;: "模型化强化学习研究综述", 计算机科学与探索, no. 06 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912620A (zh) * | 2023-07-06 | 2023-10-20 | 中国矿业大学 | 一种具有抗视觉干扰的表征强化学习方法 |
CN116912620B (zh) * | 2023-07-06 | 2024-03-19 | 中国矿业大学 | 一种具有抗视觉干扰的表征强化学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114154582B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Learning dynamic context augmentation for global entity linking | |
Baymurzina et al. | A review of neural architecture search | |
CN107247961B (zh) | 一种应用模糊轨迹序列的轨迹预测方法 | |
CN110766044B (zh) | 一种基于高斯过程先验指导的神经网络训练方法 | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN110413754B (zh) | 对话(中)奖励评估和对话方法、介质、装置和计算设备 | |
CN114373101A (zh) | 基于进化策略的神经网络架构搜索的图像分类方法 | |
CN110110858A (zh) | 一种基于强化学习的自动化机器学习方法 | |
CN111063398A (zh) | 一种基于图贝叶斯优化的分子发现方法 | |
CN111597757A (zh) | 基于多目标加点准则的gp模型辅助slpso算法 | |
Khanteymoori et al. | A novel method for Bayesian networks structure learning based on Breeding Swarm algorithm | |
CN114360659A (zh) | 一种结合与或树与单步反应规则预测的生物逆合成方法及系统 | |
CN116579371A (zh) | 一种双层优化异构代理模型辅助多目标进化优化计算方法 | |
Redd et al. | Fast es-rnn: A gpu implementation of the es-rnn algorithm | |
CN114154582B (zh) | 基于环境动态分解模型的深度强化学习方法 | |
CN111797935B (zh) | 基于群体智能的半监督深度网络图片分类方法 | |
Zhang et al. | SSIT: a sample selection-based incremental model training method for image recognition | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
Hu et al. | Pwsnas: powering weight sharing nas with general search space shrinking framework | |
Peng et al. | Simulation optimization in the new era of AI | |
CN116561614A (zh) | 一种基于元学习的小样本数据处理系统 | |
Chen et al. | Deep generative models for offline policy learning: Tutorial, survey, and perspectives on future directions | |
Zheng et al. | Variance reduction based partial trajectory reuse to accelerate policy gradient optimization | |
Tang et al. | Deep sparse representation via deep dictionary learning for reinforcement learning | |
CN117334271B (zh) | 一种基于指定属性生成分子的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zheng Yan Inventor after: Hao Jianye Inventor after: Yang Tianpei Inventor after: Ma Yi Inventor after: Wang Cong Inventor before: Wang Cong Inventor before: Yang Tianpei Inventor before: Hao Jianye Inventor before: Zheng Yan Inventor before: Ma Yi |
|
GR01 | Patent grant | ||
GR01 | Patent grant |