CN107909153A - 基于条件生成对抗网络的模型化策略搜索学习方法 - Google Patents
基于条件生成对抗网络的模型化策略搜索学习方法 Download PDFInfo
- Publication number
- CN107909153A CN107909153A CN201711187411.6A CN201711187411A CN107909153A CN 107909153 A CN107909153 A CN 107909153A CN 201711187411 A CN201711187411 A CN 201711187411A CN 107909153 A CN107909153 A CN 107909153A
- Authority
- CN
- China
- Prior art keywords
- sample
- condition
- confrontation network
- model
- maker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于条件生成对抗网络的模型化策略搜索学习方法,其技术特点是包括以下步骤:收集环境的真实状态转移样本;构造条件生成对抗网络模型,该条件生成对抗网络模型包括生成器与判别器;利用真实状态转移样本训练条件生成对抗网络直至收敛,最终训练得到的生成器为环境状态转移预测模型;生成数量足够多的路径样本;利用路径样本更新策略搜索强化学习算法中策略模型的参数,直到策略模型的参数更新收敛为止。本发明设计合理,当得到了环境模型的生成器后,在学习策略时不再需要额外的花费进行样本的采样,能够系统有效地解决大规模环境中复杂决策问题。
Description
技术领域
本发明属于机器学习技术领域,涉及到强化学习算法,尤其是一种基于条件生成对抗网络的模型化策略搜索学习方法。
背景技术
强化学习(Reinforcement learning,简称RL)作为机器学习领域的重要学习方法,主要研究智能体如何根据当时的环境做出较好的决策,被认为是真实世界的缩影,是最有希望实现人工智能这个目标的研究领域之一。
强化学习描述的是智能体为实现任务而连续做出决策控制的过程,它不需要像监督学习那样给定先验知识,也无需专家给定准确参考标准,而是通过与环境交互来获得知识,自主地进行动作选择,最终找到一个适合当前状态下最优的动作选择策略,获得整个决策过程的最大累积奖赏。为了实现强化学习的目标,要求智能体能够对周围环境有所认知,理解当前所处状态,根据任务要求做出符合环境情境的决策动作。
在国内外已有的研究中,强化学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计,策略是建立在估计的价值函数基础上;策略搜索算法直接通过最大化累积回报来学习最优策略。策略迭代算法能够解决离散的状态动作空间问题,但是此类算法的策略函数是通过价值函数间接得来的,价值函数中的微小变化可能导致策略函数的巨大变化,对物理系统的稳定具有一定威胁性;此外,由于价值函数的极度非凸性,难以在每一个时间步骤都通过最大化价值函数来选择动作,因此,此类方法不适用于解决大规模连续动作空间问题。策略搜索通过目标函数直接最优化策略函数,此类算法非常适用于大规模环境中具有连续状态及动作空间的决策控制问题。
现有的强化学习方法,尤其是面向大规模环境空间的策略搜索算法需要大量的学习样本才能得到准确稳定的策略。而收集大量的学习样本则恰恰是强化学习在实际应用中的一个瓶颈问题,因为收集样本往往非常耗时耗力耗材。为了解决这个实际存在的瓶颈问题,有效利用学习样本的重要性便突显出来。重要采样技术是能够重复利用已有样本的一种有效方法,该技术允许我们利用来自不同于当前策略分布的采样样本进行梯度估计,从而能重复利用已收集过的样本且能够保证估计子的一致性。但是,盲目地使用重要采样技术使得策略更新时估计子的方差变大,从而降低算法稳定性及收敛率。此外,当采样样本的花费额度给定时,重复利用学习样本的学习方法需要提前确定采样方案,即一次性采样所有样本,或每个阶段只采样少量样本进行学习。通过进一步地对重复利用学习样本技术深入研究发现,样本方案的选择对算法的性能有直接影响。然而,提前确定样本方案是不切实际的。
上述解决方案均属于无模型方法范畴。所谓无模型方法是指策略的学习是不需要明确的环境(状态转移函数)信息,与之相对应的是模型化学习方法,即事先学习环境中状态转移模型,再利用学到的环境模型生成数据进行策略的学习。一旦得到了环境模型的表达式,学习策略时该类方法就不再需要额外的花费进行样本的采样。可见,模型化强化学习方法不存在提前确定样本方案的问题。由此可见,当样本采集的预算有限,或样本数量较少时,模型化学习方法是一个很好的选择。
如果能准确地估计出未知的环境模型,模型化学习方法便占有很大的优势。然而,利用有限的样本个数得到多维连续状态动作空间下的准确模型是极具挑战的。虽然已有研究提出一种不需要准确的状态转移函数的模型化方法,该方法只适用于静态环境,与实际应用相悖。对于面向动态环境的模型化方法,一种基于高斯过程的模型化策略搜索方法被提出来,简称PILCO。PILCO要求状态及动作服从高斯分布,该要求使得此方法在实际应用是受到限制。又有一种基于最小二乘法条件概率密度估计(LSCDE)的策略搜索方法,该方法对状态及动作的分布没有要求,可以学习多模态的状态转移函数,且具有很强的理论保证。然而,LSCDE方法需要首先人工提取感知状态的特征,再进行状态转移函数及策略的学习。面对小规模环境中的低维度状态,依靠专家知识还是可靠的。然而,现实中通常面临的环境是连续的、复杂的、高维的,面对大规模动态环境,专家难以提供准确的状态特征表示。因此,该方法在实际应用所面对的大规模环境中又受到局限。
综上所述,虽然针对模型化的策略搜索学习方法已有了一定的研究成果,但是,并仍然不能有效地解决实际应用中的现实问题。因此,有必要根据实际应用需求,在采集样本预算一定的情况下,为实际应用所面对的大规模复杂环境提供一种有效的模型化策略搜索学习方法。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于条件生成对抗网络的模型化策略搜索学习方法,解决在样本采集预算不足或可利用样本较少的情况下可实际应用的模型化策略搜索强化学习问题。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于条件生成对抗网络的模型化策略搜索学习方法,包括以下步骤:
步骤1、收集环境的真实状态转移样本;
步骤2、构造条件生成对抗网络模型,该条件生成对抗网络模型包括生成器与判别器;
步骤3、利用步骤1收集的真实状态转移样本训练条件生成对抗网络直至收敛,最终训练得到的生成器为环境状态转移预测模型;
步骤4、利用步骤3得到的生成器及当前策略生成数量足够多的路径样本;
步骤5、利用步骤4得到的路径样本更新策略搜索强化学习算法中策略模型的参数;
步骤6、重复步骤4及步骤5,直到策略模型的参数更新收敛为止。
进一步的,所述步骤1收集的真实状态转移样本标记为其中,(sm,am)表示当前状态下的状态及动作对,s′m表示发生状态转移后的状态,m表示样本号,M表示样本个数。
进一步的,所述步骤2条件生成对抗网络模型为:生成器捕捉样本数据的分布,用服从某一分布的噪声生成一个类似真实训练数据的样本;判别器采用二分类器,估计一个样本来自于训练数据的概率,如果样本来自于真实的训练数据,判别器输出大概率,否则,判别器输出小概率。
进一步的,所述步骤4得到的路径样本标记为路径数据为h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中,T表示该路径的长度,N表示生成样本个数。
进一步的,所述步骤5中的策略搜索强化学习算法为REINFORCE算法或PGPE算法;所述策略模型为具有深度递归型结构的策略模型。
本发明的优点和积极效果是:
本发明设计合理,其利用生成对抗网络学习环境中状态转移模型,再利用学到的环境模型生成数据并进行策略的学习,在样本采集的预算有限,或样本数量较少时,具有很大优势。一旦得到了环境模型的生成器,在学习策略时不需要额外的花费进行样本的采样。另外,选择具有深度递归型结构的策略作为策略搜索算法中的策略模型,能够系统地有效地解决大规模环境中复杂决策问题。
附图说明
图1为本发明的基于条件生成对抗网络的状态转移函数预测方案图;
图2为本发明的深度递归型策略模型图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
本发明在实施过程中,将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP),MDP可以用一个元组来表示(S,A,PT,PI,r,γ):其中S表示连续的状态空间,A为连续的动作空间,PT(st+1|st,at)表示在当前状态st下采取动作at后转移到下一个状态st+1的状态转移概率密度函数,PI(s1)为智能体的初始状态概率密度函数,r(st,at,st+1)表示智能体因采取动作而发生状态转移的立即回报,γ∈[0,1]为折损因子。MDP的具体过程为:智能体在当前感知的状态下,根据随机策略函数选择动作at∈A,然后转移到状态st+1,并接收到一个立即回报r(st,at,st+1)。策略函数为在当前状态和策略参数θ下采取动作at的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本,得到一个路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度。该路径的累计回报表示为根据马尔科夫性质,一个路径的概率为智能体的期望回报可表示为J(θ)=∫R(h)p(h|θ)dh。整个任务最终学习的目标是学习一个最优的策略参数以最大化期望回报,此类直接寻找策略最优参数的强化学习方法就是策略搜索算法。
本实施例是在上述数学模型及目标函数的基础上,通过环境中状态转移的学习及深度策略模型来应对学习样本不足时大规模环境中复杂任务的序列决策问题。本发明的设计思路为:首先利用条件生成对抗网络(A-GAN)学习环境中状态转移模型,用学到的生成器产生策略学习所需的生成样本;然后构建泛化能力强的策略模型;最终利用策略搜索学习算法进行策略参数的学习,从而得到最终研究方案。其中每个步骤的具体实施方案如下:
(1)利用条件生成对抗网络学习环境中的状态转移,用学到的生成器产生策略学习所需的生成样本。
本发明预借助生成对抗网络在生成复杂数据方面的优势,从模型化强化学习的角度解决学习样本不足带来的瓶颈问题。因此,需要收集真实状态转移样本:其中,(sm,am)表示当前状态下的状态及动作对,s′m表示发生状态转移后的状态,m表示样本号,M表示样本个数
生成对抗网络由生成模型(Generative model,生成器G)和判别模型(Discriminative model,判别器D)组成,如图1所示。生成器G捕捉样本数据的分布,用服从某一分布的噪声z生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别器D是一个二分类器,估计一个样本来自于训练数据的概率,如果样本来自于真实的训练数据,D输出大概率,否则,D输出小概率。此外,由于环境中的状态转义函数PT(st+1|st,at)是一个条件概率密度函数,因此本发明采用条件生成对抗网络(A-GAN),其中的条件设定为当前状态(st,at)。
对于生成器及判别器的网络模型,可以根据状态变量的特性进行选择:如采用卷积神经网络处理图像信息,用递归型神经网络处理语音数据,或用多种网络模型的整合处理环境中传感器带来的多模态数据。
(2)构建泛化能力强的策略模型
为了实现大规模环境中的复杂任务,本发明实施中使用高度非线性的递归型神经网络作为策略模型。由于强化学习中由于状态的转移,数据是高度相关的;而且,数据的分布是随着策略的更新而变化的,因此本发明使用与时间信息相关的深度神经网络递归型神经网络(RNN)作为策略模型。然而,一般的RNN只考虑短时间内的相关性,而强化学习的一个序列通常时间较长,因此本专利将利用具有长时记忆结构的网络(LSTM)作为策略的模型。LSTM结构的一大特点是具有一系列记忆功能的单元,可将之前的序列作为记忆单元的输入,由此,构建一个输入为当前状态与记忆序列的组合,输出为采取某动作的概率密度的递归神经网络,从而为复杂任务的连续动作空间问题提供策略模型。策略模型的整体结构图如图2所示:图中ht表示网络记忆的历史序列,即状态是否保留是由所决定;表示策略模型,其输出π(at|ht)表示在记忆序列ht下产生动作at的概率密度。因此,整个递归型深度策略模型的参数为θa及θh。
(3)利用策略搜索学习算法进行策略参数的学习
在学生过程中,本发明采用已经成熟的REINFORCE或PGPE算法作为寻找最优参数θa及θh的策略搜索算法,对图2的LSTM网络进行训练,其过程为:首先需要通过生成器G及当前策略生成数量足够多的路径样本其中路径数据为h=(s1,r1,r1,s2,r2,…,sT,aT,rT),其中T表示该路径的长度,N表示生成样本个数;然后利用生成的路径样本更新策略搜索强化学习方法中策略模型的参数,直到策略参数更新收敛为止。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (5)
1.一种基于条件生成对抗网络的模型化策略搜索学习方法,其特征在于包括以下步骤:
步骤1、收集环境的真实状态转移样本;
步骤2、构造条件生成对抗网络模型,该条件生成对抗网络模型包括生成器与判别器;
步骤3、利用步骤1收集的真实状态转移样本训练条件生成对抗网络直至收敛,最终训练得到的生成器为环境状态转移预测模型;
步骤4、利用步骤3得到的生成器及当前策略生成数量足够多的路径样本;
步骤5、利用步骤4得到的路径样本更新策略搜索强化学习算法中策略模型的参数;
步骤6、重复步骤4及步骤5,直到策略模型的参数更新收敛为止。
2.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法,其特征在于:所述步骤1收集的真实状态转移样本标记为其中,(sm,am)表示当前状态下的状态及动作对,s′m表示发生状态转移后的状态,m表示样本号,M表示样本个数。
3.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法,其特征在于:所述步骤2条件生成对抗网络模型为:生成器捕捉样本数据的分布,用服从某一分布的噪声生成一个类似真实训练数据的样本;判别器采用二分类器,估计一个样本来自于训练数据的概率,如果样本来自于真实的训练数据,判别器输出大概率,否则,判别器输出小概率。
4.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法,其特征在于:所述步骤4得到的路径样本标记为路径数据为h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中,T表示该路径的长度,N表示生成样本个数。
5.根据权利要求1所述的基于条件生成对抗网络的模型化策略搜索学习方法,其特征在于:所述步骤5中的策略搜索强化学习算法为REINFORCE算法或PGPE算法;所述策略模型为具有深度递归型结构的策略模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711187411.6A CN107909153A (zh) | 2017-11-24 | 2017-11-24 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711187411.6A CN107909153A (zh) | 2017-11-24 | 2017-11-24 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107909153A true CN107909153A (zh) | 2018-04-13 |
Family
ID=61847467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711187411.6A Pending CN107909153A (zh) | 2017-11-24 | 2017-11-24 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107909153A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108724182A (zh) * | 2018-05-23 | 2018-11-02 | 苏州大学 | 基于多类别模仿学习的端到端游戏机器人生成方法及系统 |
CN109190751A (zh) * | 2018-07-19 | 2019-01-11 | 杭州电子科技大学 | 一种基于深度强化学习的机器自主决策方法 |
CN110097185A (zh) * | 2019-03-29 | 2019-08-06 | 北京大学 | 一种基于生成对抗网络的优化模型方法及应用 |
CN110162298A (zh) * | 2019-05-14 | 2019-08-23 | 深圳市行知网络科技有限公司 | 基于人工智能的代码自动生成方法与装置 |
CN110782000A (zh) * | 2018-07-30 | 2020-02-11 | 国际商业机器公司 | 通过具有对抗强化学习的动作成形来进行模仿学习 |
WO2020043110A1 (zh) * | 2018-08-28 | 2020-03-05 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
CN110968866A (zh) * | 2019-11-27 | 2020-04-07 | 浙江工业大学 | 一种面向深度强化学习模型对抗攻击的防御方法 |
CN111044045A (zh) * | 2019-12-09 | 2020-04-21 | 中国科学院深圳先进技术研究院 | 基于神经网络的导航方法、装置及终端设备 |
CN111067507A (zh) * | 2019-12-26 | 2020-04-28 | 常熟理工学院 | 基于生成对抗网络和策略梯度的心电信号去噪方法 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN111950690A (zh) * | 2019-05-15 | 2020-11-17 | 天津科技大学 | 一种具有自适应能力的高效强化学习策略模型 |
CN112820361A (zh) * | 2019-11-15 | 2021-05-18 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
CN112840600A (zh) * | 2018-08-20 | 2021-05-25 | 瑞典爱立信有限公司 | 使用生成对抗网络和强化学习来改进站点的免疫系统 |
CN113282787A (zh) * | 2021-05-24 | 2021-08-20 | 暨南大学 | 一种基于强化学习的个性化短视频推荐方法以及系统 |
CN114242169A (zh) * | 2021-12-15 | 2022-03-25 | 河北省科学院应用数学研究所 | 一种用于b细胞的抗原表位预测方法 |
US11315231B2 (en) | 2018-06-08 | 2022-04-26 | Industrial Technology Research Institute | Industrial image inspection method and system and computer readable recording medium |
CN115022282A (zh) * | 2022-06-06 | 2022-09-06 | 天津大学 | 一种新型域名生成模型建立及应用 |
US11734575B2 (en) | 2018-07-30 | 2023-08-22 | International Business Machines Corporation | Sequential learning of constraints for hierarchical reinforcement learning |
US11983245B2 (en) | 2018-09-12 | 2024-05-14 | Beijing Sankuai Online Technology Co., Ltd | Unmanned driving behavior decision-making and model training |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
CN105955930A (zh) * | 2016-05-06 | 2016-09-21 | 天津科技大学 | 引导型策略搜索强化学习算法 |
CN106096729A (zh) * | 2016-06-06 | 2016-11-09 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
-
2017
- 2017-11-24 CN CN201711187411.6A patent/CN107909153A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
CN105955930A (zh) * | 2016-05-06 | 2016-09-21 | 天津科技大学 | 引导型策略搜索强化学习算法 |
CN106096729A (zh) * | 2016-06-06 | 2016-11-09 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
Non-Patent Citations (4)
Title |
---|
ANUSHA NAGABANDI等: "Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning", 《HTTPS://ARXIV.ORG/ABS/1708.02596V1》 * |
MEHDI MIRZA等: "Conditional Generative Adversarial Nets", 《HTTPS://ARXIV.ORG/ABS/1411.1784》 * |
VOOT TANGKARATT等: "Model-based policy gradients with parameter-based exploration by least-squares conditional density estimation", 《NEURAL NETWORKS》 * |
赵冬斌 等: "深度强化学习综述:兼论计算机围棋的发展", 《控制理论与应用》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108724182B (zh) * | 2018-05-23 | 2020-03-17 | 苏州大学 | 基于多类别模仿学习的端到端游戏机器人生成方法及系统 |
CN108724182A (zh) * | 2018-05-23 | 2018-11-02 | 苏州大学 | 基于多类别模仿学习的端到端游戏机器人生成方法及系统 |
US11315231B2 (en) | 2018-06-08 | 2022-04-26 | Industrial Technology Research Institute | Industrial image inspection method and system and computer readable recording medium |
CN109190751B (zh) * | 2018-07-19 | 2020-12-22 | 杭州电子科技大学 | 一种基于深度强化学习的机器自主决策方法 |
CN109190751A (zh) * | 2018-07-19 | 2019-01-11 | 杭州电子科技大学 | 一种基于深度强化学习的机器自主决策方法 |
CN110782000B (zh) * | 2018-07-30 | 2023-11-24 | 国际商业机器公司 | 通过具有对抗强化学习的动作成形来进行模仿学习 |
CN110782000A (zh) * | 2018-07-30 | 2020-02-11 | 国际商业机器公司 | 通过具有对抗强化学习的动作成形来进行模仿学习 |
US11734575B2 (en) | 2018-07-30 | 2023-08-22 | International Business Machines Corporation | Sequential learning of constraints for hierarchical reinforcement learning |
US11800379B2 (en) | 2018-08-20 | 2023-10-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Improving immune system of site using generative adversarial networks and reinforcement learning |
CN112840600A (zh) * | 2018-08-20 | 2021-05-25 | 瑞典爱立信有限公司 | 使用生成对抗网络和强化学习来改进站点的免疫系统 |
US11551707B2 (en) | 2018-08-28 | 2023-01-10 | Relajet Tech (Taiwan) Co., Ltd. | Speech processing method, information device, and computer program product |
WO2020043110A1 (zh) * | 2018-08-28 | 2020-03-05 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
US11983245B2 (en) | 2018-09-12 | 2024-05-14 | Beijing Sankuai Online Technology Co., Ltd | Unmanned driving behavior decision-making and model training |
CN110097185A (zh) * | 2019-03-29 | 2019-08-06 | 北京大学 | 一种基于生成对抗网络的优化模型方法及应用 |
CN110162298A (zh) * | 2019-05-14 | 2019-08-23 | 深圳市行知网络科技有限公司 | 基于人工智能的代码自动生成方法与装置 |
CN111950690A (zh) * | 2019-05-15 | 2020-11-17 | 天津科技大学 | 一种具有自适应能力的高效强化学习策略模型 |
CN112820361A (zh) * | 2019-11-15 | 2021-05-18 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
CN112820361B (zh) * | 2019-11-15 | 2023-09-22 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
CN110968866A (zh) * | 2019-11-27 | 2020-04-07 | 浙江工业大学 | 一种面向深度强化学习模型对抗攻击的防御方法 |
CN111044045B (zh) * | 2019-12-09 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 基于神经网络的导航方法、装置及终端设备 |
CN111044045A (zh) * | 2019-12-09 | 2020-04-21 | 中国科学院深圳先进技术研究院 | 基于神经网络的导航方法、装置及终端设备 |
CN111067507A (zh) * | 2019-12-26 | 2020-04-28 | 常熟理工学院 | 基于生成对抗网络和策略梯度的心电信号去噪方法 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN113282787B (zh) * | 2021-05-24 | 2022-01-04 | 暨南大学 | 一种基于强化学习的个性化短视频推荐方法以及系统 |
CN113282787A (zh) * | 2021-05-24 | 2021-08-20 | 暨南大学 | 一种基于强化学习的个性化短视频推荐方法以及系统 |
CN114242169A (zh) * | 2021-12-15 | 2022-03-25 | 河北省科学院应用数学研究所 | 一种用于b细胞的抗原表位预测方法 |
CN114242169B (zh) * | 2021-12-15 | 2023-10-20 | 河北省科学院应用数学研究所 | 一种用于b细胞的抗原表位预测方法 |
CN115022282A (zh) * | 2022-06-06 | 2022-09-06 | 天津大学 | 一种新型域名生成模型建立及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909153A (zh) | 基于条件生成对抗网络的模型化策略搜索学习方法 | |
Bachman et al. | Data generation as sequential decision making | |
Li et al. | Computer vision imaging based on artificial intelligence | |
CN106157319A (zh) | 基于卷积神经网络的区域和像素级融合的显著性检测方法 | |
CN110310206A (zh) | 用于更新风险控制模型的方法和系统 | |
CN106845530A (zh) | 字符检测方法和装置 | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN109299732A (zh) | 无人驾驶行为决策及模型训练的方法、装置及电子设备 | |
CN108154235A (zh) | 一种图像问答推理方法、系统及装置 | |
CN112264999A (zh) | 用于智能体连续空间行动规划的方法、装置及存储介质 | |
Jafar et al. | Hyperparameter optimization for deep residual learning in image classification | |
Zha et al. | Simplifying deep reinforcement learning via self-supervision | |
CN110458221B (zh) | 基于在线注意力累积的挖掘目标物体区域的方法 | |
CN113449878B (zh) | 数据分布式的增量学习方法、系统、设备及存储介质 | |
CN110347853A (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN113553918B (zh) | 一种基于脉冲主动学习的机打发票字符识别方法 | |
CN113313209A (zh) | 一种高样本效率的多智能体强化学习训练方法 | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN117634645A (zh) | 一种用于多智能体强化学习中的对比学习表征方法 | |
CN108470212A (zh) | 一种能利用事件持续时间的高效lstm设计方法 | |
Ji et al. | Improving decision-making efficiency of image game based on deep Q-learning | |
Hu et al. | Siamese network object tracking algorithm combining attention mechanism and correlation filter theory | |
Kaya et al. | A novel approach to multiagent reinforcement learning: Utilizing OLAP mining in the learning process | |
Huang et al. | Multi-agent cooperative strategy learning method based on transfer Learning | |
CN113393667B (zh) | 一种基于Categorical-DQN乐观探索的交通控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |