CN112052947B - 基于策略选项的分层强化学习方法和装置 - Google Patents
基于策略选项的分层强化学习方法和装置 Download PDFInfo
- Publication number
- CN112052947B CN112052947B CN202010824196.1A CN202010824196A CN112052947B CN 112052947 B CN112052947 B CN 112052947B CN 202010824196 A CN202010824196 A CN 202010824196A CN 112052947 B CN112052947 B CN 112052947B
- Authority
- CN
- China
- Prior art keywords
- network
- level
- strategy
- policy
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于策略选项的分层强化学习方法和装置,所述方法包括:构建高层策略网络、低层策略网络和评价网络;从仿真环境,获取状态轨迹;基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对更新后的策略模型进行测试。本发明实施例的基于策略选项的分层强化学习方法,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于策略选项的分层强化学习方法和一种基于策略选项的分层强化学习装置。
背景技术
近年来,深度学习在模式识别、计算机视觉、自然语言处理等领域取得了巨大突破。将深度学习的感知能力和强化学习的决策能力相结合产生了深度强化学习,可以直接根据输入的图像进行控制,是一种思维方式的人工智能方法。例如,深度强化学习已经在围棋、部分电子竞技游戏等具体场景中取得了超越人类的表现,并逐渐被应用至非线性系统控制、对抗性人工智能设计等领域。在传统强化学习中,由于智能体的行为过程被表述为一个马尔可夫决策过程,强化学习算法仅仅学习针对单个状态的策略而难以学习更高层次的宏观策略。近几年的研究提出了分层强化学习,旨在将一项复杂的任务分解得到不同层次的子任务,使智能体学习从宏观到微观不同层次的策略。
基于策略选项的分层强化学习是分层强化学习的一个分支,已有的基于策略选项的学习算法虽然能够使智能体学习到相对复杂的高层策略,但也存在性能不稳定、数据使用效率低等问题。
发明内容
本发明旨在至少从一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于策略选项的分层强化学习方法,该方法能在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
本发明的第二个目的在于提出一种基于策略选项的分层强化学习装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达到上述目的,本发明第一方面提出了一种基于策略选项的分层强化学习方法,包括以下步骤:
构建高层策略网络、低层策略网络和评价网络;
从仿真环境,获取状态轨迹;
基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;
根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对所述更新后的策略模型进行测试。
根据本发明实施例的基于策略选项的分层强化学习方法,先构建高层策略网络低层策略网络和评价网络V,并从仿真环境,获取状态轨迹,然后,基于状态轨迹和策略在线算法的学习过程,对高层策略网络低层策略网络和评价网络V的参数进行更新,最后,根据更新后的高层策略网络低层策略网绉和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该方法能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
另外,根据本发明上述实施例的基于策略选项的分层强化学习方法还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
在所述当前状态st,根据所述高层策略网络和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
在本发明的一个实施例中,所述对所述高层策略网络和低层策略网络的参数进行更新,包括:
其中,γ表示预设的折扣因子;
其中,λ表示预设的泛化估计系数;
在本发明的一个实施例中,所述对所述评价网络的参数进行更新,包括:
计算累计回报:
为达到上述目的,本发明第二方面提出了一种基于策略选项的分层强化学习装置,所述装置包括:
构建模块,用于构建高层策略网络、低层策略网络和评价网络;
获取模块,用于从仿真环境,获取状态轨迹;
更新模块,用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;
生成模块,用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型,并对所述更新后的策略模型进行测试。
根据本发明实施例的基于策略选项的分层强化学习装置,通过构建模块构建高层策略网络低层策略网络和评价网络V,并通过获取模块从仿真环境,获取状态轨迹,然后,通过更新模块基于状态轨迹和策略在线算法的学习过程,对高层策略网络低层策略网络和评价网络V的参数进行更新,最后,通过生成模块根据更新后的高层策略网络低层策略网络和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该装置能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
另外,根据本发明上述实施例的基于策略选项的分层强化学习装置还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述更新模块用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
在所述当前状态st,根据所述高层策略网络和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
在本发明的一个实施例中,所述对所述高层策略网络和低层策略网络的参数进行更新,包括:
其中,γ表示预设的折扣因子;
其中,λ表示预设的泛化估计系数;
在本发明的一个实施例中,所述对所述评价网络的参数进行更新,包括:
计算累计回报:
为达到上述目的,本发明第三方面提出了一种电子设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的基于策略选项的分层强化学习方法。
本发明实施例的电子设备,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
为达到上述目的,本发明第四方面提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于策略选项的分层强化学习方法。
本发明实施例的非临时性计算机可读存储介质,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的基于策略选项的分层强化学习方法的流程图;
图2是根据本发明一个具体实施例的基于策略选项的分层强化学习方法的流程图;
图3是根据本发明一个实施例的仿真环境的具体场景图;
图4是根据本发明一个实施例的不同算法训练过程中的总奖励绘制成的曲线图;以及
图5是根据本发明实施例的基于策略选项的分层强化学习装置的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于策略选项的分层强化学习方法和装置。
图1是根据本发明实施例的基于策略选项的分层强化学习方法的流程图。如图1所示,本发明实施例的基于策略选项的分层强化学习方法,包括以下步骤:
步骤S1,构建高层策略网络、低层策略网络和评价网络。
步骤S2,从仿真环境,获取状态轨迹。
步骤S3,基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新。
步骤S32,在当前状态st,根据高层策略网络和上一个策略选项ot-1,选择当前策略选项ot,再根据低层策略网络和当前策略选项ot,选择当前动作at,由仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据当前状态st、当前策略选项ot、当前动作at、当前时刻的奖励值rt和下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将该五元组存储至数据存储器D。
其中,γ是预设的折扣因子。
其中,λ表示预设的泛化估计系数。
下面再对评价网络V的参数进行更新的过程,包括:
步骤S335,计算累计回报:
具体地,在与仿真环境的交互次数达到预设次数(具体根据实际需要进行设置)时,结束训练过程生成更新后的策略模型,并对更新后的策略模型进行测试。
为使本领域技术人员更清楚的了解本发明,图2是根据本发明一个具体实施例的基于策略选项的分层强化学习方法的流程图。如图2所示,该方法包括以下步骤:
S201,构建高层策略网络、低层策略网络和评价网络,并初始化其参数,初始化仿真环境。
S202,与仿真环境交互得到状态轨迹,并存储五元组。
S203,判断是否达到终止状态,或达到最大步数。如果是,执行步骤S204;如果否,返回步骤S202。
S204,构建高层策略网络、低层策略网络和评价网络,并初始化其参数,初始化仿真环境。
S205,更新高层策略网络和低层策略网络的参数。
S206,更新评价网络的参数。
S207,判断与仿真环境交互的次数是否达到上限。如果是,执行步骤S208;如果否,返回步骤S202。
S208,训练终止。
下面结合具体实施例对本发明提出的基于策略选项的分层强化学习方法进行详细说明。
对于一个高维连续控制任务,该任务的目的是从零开始学习控制一个二维的“猎豹”形机器人向前跑,使其可以尽可能快地跑向终点,图3是该仿真环境的具体场景。对于该仿真环境中被控制的智能体,输入是17维状态量,输出动作是连续的6维变量。在所提出的基于策略选项的分层强化学习方法中,策略选项总数为4;高层策略网络包含2层隐藏层,结点数分别为256和256,激活函数为ReLU,输出层节点数量为4,与策略选项总数一致;低层策略网络包括4个子网络,每个子网络网络结构相同,也包含2层隐藏层,结点数分别为256和256,激活函数为ReLU,输出层节点数量为6,与输出动作维度一致;评价网络也包含两层隐藏层,结点数为128,128,激活函数为ReLU。以上各个网络的参数都通过Adam优化器进行优化。
模仿学习过程中使用到的其他超参数如下表所示:
超参数 | 值 |
策略网络学习率(lrl) | 0.003 |
评价网络学习率(lr2) | 0.01 |
批数据大小(batch-size) | 128 |
折扣因子(γ) | 0.99 |
泛化估计系数(λ) | 0.95 |
单条轨迹最大时长(T) | 8000 |
策略评估步长间隔“nterval) | 8000 |
在HalfCheetah环境中,使用不含策略选项的PPO算法进行训练,最终得分约为5000,而使用基于策略选项的分层强化学习并结合PPO算法,最终得分约为6000,将不同算法训练过程中的总奖励绘制成曲线,结果如图4所示,其中DAC-PPO表示基于策略选项的分层强化学习并结合PPO算法的方法,可以看到基于策略选项的分层强化学习的最终表现明显超过了不包含策略选项的方法。
综上所述,根据本发明实施例的基于策略选项的分层强化学习方法,先构建高层策略网络低层策略网绉和评价网络V,并从仿真环境,获取状态轨迹,然后,基于状态轨迹和策略在线算法的学习过程,对高层策略网络低层策略网绉和评价网络V的参数进行更新,最后,根据更新后的高层策略网络低层策略网络和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该方法能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
图5是根据本发明实施例的基于策略选项的分层强化学习装置的方框示意图。如图5所示,该基于策略选项的分层强化学习装置100,包括:构建模块10、获取模块20、更新模块30和生成模块40。
其中,构建模块10用于构建高层策略网络、低层策略网络和评价网络。获取模块20用于从仿真环境,获取状态轨迹。更新模块30用于基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新。生成模块40用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型,并对更新后的策略模型进行测试。
根据本发明的一个实施例,更新模块30用于基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
在当前状态st,根据高层策略网绉和上一个策略选项ot-1,选择当前策略选项ot,再根据低层策略网络和当前策略选项ot,选择当前动作at,由仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据当前状态st、当前策略选项ot、当前动作at、当前时刻的奖励值rt和下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将五元组存储至数据存储器;
根据本发明的一个实施例,对高层策略网络和低层策略网络的参数进行更新,包括:
其中,γ表示预设的折扣因子;
其中,λ表示预设的泛化估计系数;
根据本发明的一个实施例,对评价网络的参数进行更新,包括:
计算累计回报:
需要说明的是,本发明实施例的基于策略选项的分层强化学习装置中未披露的细节,请参考本发明实施例的基于策略选项的分层强化学习方法中所披露的细节,具体这里不再详述。
根据本发明实施例的基于策略选项的分层强化学习装置,通过构建模块构建高层策略网络低层策略网络和评价网络V,并通过获取模块从仿真环境,获取状态轨迹,然后,通过更新模块基于状态轨迹和策略在线算法的学习过程,对高层策略网络低层策略网络和评价网络V的参数进行更新,最后,通过生成模块根据更新后的高层策略网络低层策略网络和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该装置能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
另外,本发明还提出了一种电子设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的基于策略选项的分层强化学习方法。
本发明实施例的电子设备,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
此外,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于策略选项的分层强化学习方法。
本发明实施例的非临时性计算机可读存储介质,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
需要说明的是,术语“高层”、“低层”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“高层”、“低层”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于策略选项的分层强化学习方法,其特征在于,所述方法包括以下步骤:
构建高层策略网络、低层策略网络和评价网络;
从仿真环境,获取状态轨迹;
基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,其中,所述基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
在所述当前状态st,根据所述高层策略网络和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对所述更新后的策略模型进行测试。
4.一种基于策略选项的分层强化学习装置,其特征在于,所述装置包括:
构建模块,用于构建高层策略网络、低层策略网络和评价网络;
获取模块,用于从仿真环境,获取状态轨迹;
更新模块,用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,其中,所述更新模块用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
在所述当前状态st,根据所述高层策略网络和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
生成模块,用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型,并对所述更新后的策略模型进行测试。
7.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3任一所述的基于策略选项的分层强化学习方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一所述的基于策略选项的分层强化学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824196.1A CN112052947B (zh) | 2020-08-17 | 2020-08-17 | 基于策略选项的分层强化学习方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824196.1A CN112052947B (zh) | 2020-08-17 | 2020-08-17 | 基于策略选项的分层强化学习方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052947A CN112052947A (zh) | 2020-12-08 |
CN112052947B true CN112052947B (zh) | 2021-06-25 |
Family
ID=73599126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010824196.1A Active CN112052947B (zh) | 2020-08-17 | 2020-08-17 | 基于策略选项的分层强化学习方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052947B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597391B (zh) * | 2020-12-25 | 2022-08-12 | 厦门大学 | 一种基于动态递归机制的分层强化学习的推荐系统 |
CN112766497A (zh) * | 2021-01-29 | 2021-05-07 | 北京字节跳动网络技术有限公司 | 深度强化学习模型的训练方法、装置、介质及设备 |
WO2022252013A1 (en) * | 2021-05-31 | 2022-12-08 | Robert Bosch Gmbh | Method and apparatus for training neural network for imitating demonstrator's behavior |
CN113997926A (zh) * | 2021-11-30 | 2022-02-01 | 江苏浩峰汽车附件有限公司 | 基于分层强化学习的并联式混合动力汽车能量管理方法 |
CN114785693B (zh) * | 2022-06-24 | 2022-09-30 | 中国科学技术大学 | 基于分层强化学习的虚拟网络功能迁移方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111208822A (zh) * | 2020-02-17 | 2020-05-29 | 清华大学深圳国际研究生院 | 一种基于强化学习和cpg控制器的四足机器人步态控制方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10990096B2 (en) * | 2018-04-27 | 2021-04-27 | Honda Motor Co., Ltd. | Reinforcement learning on autonomous vehicles |
CN109733415B (zh) * | 2019-01-08 | 2020-08-14 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN109947098A (zh) * | 2019-03-06 | 2019-06-28 | 天津理工大学 | 一种基于机器学习策略的距离优先最佳路径选择方法 |
CN110032782B (zh) * | 2019-03-29 | 2023-03-07 | 银江技术股份有限公司 | 一种城市级智能交通信号控制系统及方法 |
CN111142522B (zh) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111401556B (zh) * | 2020-04-22 | 2023-06-30 | 清华大学深圳国际研究生院 | 一种对抗式模仿学习中奖励函数的选择方法 |
-
2020
- 2020-08-17 CN CN202010824196.1A patent/CN112052947B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111208822A (zh) * | 2020-02-17 | 2020-05-29 | 清华大学深圳国际研究生院 | 一种基于强化学习和cpg控制器的四足机器人步态控制方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112052947A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052947B (zh) | 基于策略选项的分层强化学习方法和装置 | |
CN111488988B (zh) | 基于对抗学习的控制策略模仿学习方法及装置 | |
US11580378B2 (en) | Reinforcement learning for concurrent actions | |
CN109511277B (zh) | 多状态连续动作空间的合作式方法及系统 | |
CN112325897B (zh) | 基于启发式深度强化学习的路径规划方法 | |
CN109952582A (zh) | 一种强化学习模型的训练方法、节点、系统及存储介质 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
CN108683614B (zh) | 基于门限残差网络的虚拟现实设备集群带宽分配装置 | |
Nardelli et al. | Value propagation networks | |
CN109740741B (zh) | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 | |
Lim et al. | Robustness of stochastic stability in game theoretic learning | |
CN111856925A (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN109514553A (zh) | 一种机器人移动控制的方法、系统及设备 | |
CN115300910B (zh) | 基于多智能体强化学习的去混淆游戏策略模型生成方法 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
Awheda et al. | Exponential moving average Q-learning algorithm | |
Mousavi et al. | Applying q (λ)-learning in deep reinforcement learning to play atari games | |
CN113962390A (zh) | 基于深度强化学习网络构建多样化搜索策略的模型的方法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
CN117540203A (zh) | 一种集群机器人合作导航的多向课程学习训练方法及装置 | |
Zhang et al. | A gradient-based reinforcement learning algorithm for multiple cooperative agents | |
Badica et al. | An approach of temporal difference learning using agent-oriented programming | |
CN114378820B (zh) | 一种基于安全强化学习的机器人阻抗学习方法 | |
CN116245009A (zh) | 人机策略生成方法 | |
Adamsson | Curriculum learning for increasing the performance of a reinforcement learning agent in a static first-person shooter game |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |