CN111461325B - 一种用于稀疏奖励环境问题的多目标分层强化学习算法 - Google Patents

一种用于稀疏奖励环境问题的多目标分层强化学习算法 Download PDF

Info

Publication number
CN111461325B
CN111461325B CN202010235637.4A CN202010235637A CN111461325B CN 111461325 B CN111461325 B CN 111461325B CN 202010235637 A CN202010235637 A CN 202010235637A CN 111461325 B CN111461325 B CN 111461325B
Authority
CN
China
Prior art keywords
sub
target
generator
output
workbench
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010235637.4A
Other languages
English (en)
Other versions
CN111461325A (zh
Inventor
邢立波
丁长兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010235637.4A priority Critical patent/CN111461325B/zh
Publication of CN111461325A publication Critical patent/CN111461325A/zh
Application granted granted Critical
Publication of CN111461325B publication Critical patent/CN111461325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于稀疏奖励环境问题的多目标分层强化学习算法,包括步骤:构建分层强化学习算法的网络结构,定义状态空间、动作空间及奖励函数,同时对输入图像进行预处理;其中,网络结构包括上层管理者Manager和底层执行者Worker;设计多个通用子目标的生成器及相应的内部奖励函数设计;将多个子目标的生成器应用于分层框架,并改进分层结构中Manager和Worker的奖励函数;利用异步多线程的方式与环境进行交互来采集数据,并将经验数据存储在Manager经验池和Worker经验池中。本发明针对复杂的稀疏奖励环境,采用多目标的分层强化学习结构,大大提升了算法解决稀疏奖励环境的能力和效率,使算法可以在极短的时间内达到一个很好的效果。

Description

一种用于稀疏奖励环境问题的多目标分层强化学习算法
技术领域
本发明涉及深度强化学习与模式识别技术领域,尤其涉及一种用于稀疏奖励环境问题的多目标分层强化学习算法。
背景技术
随着人工智能的发展,强化学习作为自我学习的机器学习算法受到了广泛的关注。尤其是将强化学习与深度学习相结合的深度强化学习算法,近年来在多个领域取得了巨大的突破。游戏作为强化学习最理想的应用环境,是目前深度强化学习最成功的应用方向。在游戏领域的成功很好地为深度强化学习在实际场景中的应用做了铺垫。因此,研究深度强化学习在游戏领域的应用具有很重要的意义。
传统的深度强化学习算法在稠密奖励的环境中可以很快地学习到环境的信息,并利用环境提供的奖励学习到要完成的任务。但是在稀疏奖励的环境中,智能体(agent)在获得奖励前需要大量的随机动作,这使得agent很难进行有效的探索来对环境信息进行学习,因此传统的深度强化学习算法在这些稀疏奖励的环境中的效果很不理想。而稀疏奖励环境在实际应用场景中是很常见的,因为实际的应用场景往往十分复杂。因此,具有强探索能力的深度强化学习算法具有非常重要的意义与应用价值。
发明内容
本发明的目的在于克服现有强化学习算法在稀疏环境奖励上的不足,提供一种用于稀疏奖励环境问题的多目标分层强化学习算法。
本发明的目的能够通过以下技术方案实现:
一种用于稀疏奖励环境问题的多目标分层强化学习算法,包括步骤:
构建多目标分层强化学习算法的网络结构,确定状态空间、动作空间及定义奖励函数;
设计多个通用子目标的生成器及相应的内部奖励函数;
将多个子目标的生成器应用于分层框架,并改进分层结构中Manager和Worker的奖励函数;
利用异步多线程的方式与环境进行交互来采集数据,并将经验数据存储在Manager经验池和Worker经验池中。
对于Manager的每个子目标生成器,经验池中存储的历史经验为四元组信息(st,at,Rt~t+c,st+c),st为当前状态,at为当前时刻子目标生成器输出的子目标,Rt~t+c为接下来的c个时刻代理获得的外部奖励总和,st+c为c个时刻后的状态。Worker的经验池中存储的历史经验为四元组信息(st,at,rt,st+1),st为当前的状态,at为执行的动作,rt为对应动作at的奖励,st+1为执行动作at后的下一个状态。
具体地,所述设计多个通用子目标的生成器及相应的内部奖励函数,包括:
挑选具体的辅助控制任务;
将具体的辅助控制任务设计成子目标的生成器,每个生成器会在每个时刻给Worker提供一个对应的子目标;
为每种子目标设计一个对应的奖励函数。
具体地,所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中,Manager的每个子目标生成器都是演员评论家结构(actor-critic),并且各自独立生成子目标。
进一步地,辅助控制任务有助于提升强化学习的算法效率,具体的辅助控制任务包括:像素空间控制、方向控制、深层特征空间控制以及好奇心探索任务。这些辅助控制任务各自代表了一种对环境的控制方式。
更进一步地,所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中,所述像素空间控制的子目标设计为某一个指定区域内的像素变化,对应的奖励函数表示为:
Figure BDA0002430867780000031
其中,ηpc表示控制每个时间步长内在奖励幅度的缩放因子,hk为84*84二进制矩阵,除第k个像素块的值为1,其他位置的值全为0。⊙表示逐个元素相乘。
更进一步地,所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中,所述深层特征空间控制的子目标设计为改变输入图像的深层特征,深层特征由原始输入图像经过卷积神经网络生成,对应的奖励函数表示为:
Figure BDA0002430867780000032
其中,ηfc表示深层特征控制的奖励缩放因子,fk(.)代表卷积神经网络输出的第k个特征图,∑k'代表所有输出特征图的求和。
更进一步地,所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中,所述方向控制的子目标设计为下一阶段引导代理前往的方向,总包含东、南、北、西、原地不动这五个方向动作,对应的奖励函数表示为:
rdc(k)=1(at∈k)*0.01
代理执行的动作符合方向控制子目标生成器指引的方向可以获得奖励。
更进一步地,所述设计多个通用子目标的生成器及相应的内部奖励函数的步骤中,所述的好奇心探索子目标设计为代理每个时间步对环境的探索程度,通过计算动态特征生成器输出的特征向量和图像编码器输出的特征向量的欧式距离作为探索程度的量化,对应的奖励函数表示为:
Figure BDA0002430867780000041
其中,f是网络学习到的动态模型,φ(xt+1)是下一个状态的特征,ηcur是好奇心奖励函数的奖励缩放因子。
具体地,所述将多个子目标的生成器应用于分层框架,并改进分层结构中Manager和Worker的奖励函数的步骤中,所述的子目标合并方式为多个子目标的向量化形式的拼接。对Manager中每个生成器输出的子目标进行独热编码,然后将多个子目标的编码拼接起来,再与输入图像的特征拼接在一起作为Worker的输入数据。Worker的奖励函数被设计为内部奖励和外部奖励两部分,具体表现形式为:
rt int=rt pc+rt fc+rt dc+rt cur
Figure BDA0002430867780000042
其中,rt int是Worker在每个时刻t获得的内部奖励,对应着Worker的动作与子目标指引的符合程度;α是一个平衡内部奖励与外部奖励的参数;rt ext是Worker在每个时刻t获得的外部奖励;rt是Worker在每个时刻获得的最终奖励。
具体地,所述利用异步多线程的方式与环境进行交互来采集数据,并将经验数据存储在Manager经验池和Worker经验池中的步骤中,所述的Manager中子目标生成器网络的更新方式遵从策略梯度方法,每个子目标生成器都利用agent与环境的交互经验进行更新,更新公式可以写为:
Figure BDA0002430867780000051
Figure BDA0002430867780000052
其中,Mi是Manager中第i个子目标生成器的标识,θi是第i个子目标生成器中actor的网络参数,
Figure BDA0002430867780000053
是第i个子目标在t时刻的优势函数,Rt ext是外部的折扣奖励,/>
Figure BDA0002430867780000054
是第i个子目标生成器在t时刻的状态值函数,θi'是第i个子目标生成器中critic的网络参数,/>
Figure BDA0002430867780000055
是第i个子目标生成器输出子目标的概率分布。
具体地,所述利用异步多线程的方式与环境进行交互来采集数据,并将经验数据存储在Manager经验池和Worker经验池中的步骤中,所述的Worker网络的更新方式遵从策略梯度方法,更新方式可以写为:
Figure BDA0002430867780000056
其中H是熵函数正则项,β是用来调节正则项的比例参数,θ'是Worker中actor的网络参数,θv是Worker中critic的网络参数,π是Worker输出具体的动作的概率分布,V是Worker对于当前状态值的估值函数。
本发明相较于现有技术,具有以下的有益效果:
1、本发明在利用环境信息的同时,将多个图像领域的通用辅助控制任务设计成分层强化学习子目标的形式,提升了算法的泛化能力。
2、本发明通过对奖励函数进行重新设计,将多个子目标同时应用于分层结构中,使得agent被极大地鼓励了探索,从而在稀疏奖励环境上可以更快地发现奖励并完成任务。
附图说明
图1为本发明中一种用于稀疏奖励环境问题的多目标分层强化学习算法的流程图。
图2为本发明中多目标分层强化学习算法的网络结构图。
图3为像素控制和方向控制子目标的可视化图像。
图4为Manager中子目标生成器的结构图。
图5为动作生成器Worker的结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种用于稀疏奖励环境问题的多目标分层强化学习算法的流程图,所述方法包括步骤:
(1)构建两层分层强化学习算法的网络结构,并定义状态空间、动作空间及奖励函数,同时对输入图像进行预处理;网络包括上层管理者Manager和底层执行者Worker;
所述构造的网络结构如图2所示,包括:
图像编码器,用于将图像输入信息编码为特征向量;
动态特征生成器,用于预测下一时刻的状态特征;
子目标生成器,用于为当前的环境状态提供具体的子目标;
子目标管理器(Manager),是所有子目标生成器的集合;
动作生成器(Worker),用于接收子目标以及环境信息以输出具体的动作。
所述Manager中包含有多个子目标生成器,每个子目标生成器在每个时刻为Worker设置对应的子目标,由于Manager中有多个子目标生成器,所以Worker在每个时刻会接收到多个子目标信号。
对于Worker来说,定义状态空间为环境的真实状态,动作空间为环境的动作空间。对于子目标生成器来说,定义状态空间为环境的真实状态,动作空间为子目标集合。
本算法主要针对图像观察类型的输入数据,这也是强化学习算法中最常见的环境数据类型。
准备稀疏奖励环境,在本发明实施例中,选取Atari的Montezuma’s Revenge作为测试环境,Montezuma’s Revenge是Atari游戏中最复杂的游戏之一,agent需要经过很长的一段探索才能获得奖励。本实施例中的输入图像为稀疏奖励环境提供的3通道RGB图像,图像长和宽分别为210和180像素。预处理阶段将输入图像转换为84*84的3通道RGB图像。
(2)设计多个通用子目标的生成器及相应的内部奖励函数设计;其中,通用子目标的生成器的设计步骤包括:
(2-1)挑选具体的辅助控制任务,具体的辅助控制任务包括:像素空间控制、方向控制、深层特征空间控制以及好奇心探索任务;
(2-2)将具体的辅助控制任务设计成子目标的生成器,每个生成器会在每个时刻给Worker提供一个对应的子目标;
(2-3)为每种子目标设计一个对应的奖励函数。
每个子目标生成器均为actor-critic结构,并分为两部分输出,actor输出要执行的子目标,critic输出子目标在当前状态下的动作值函数。本实施例中的输入为n×84×84×3,表示连续的n帧RGB图像。actor-critic结构通过一个具有两部分输出的神经网络实现,具体为:首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取,接着使用一个包含有256个cells的动态LSTM网络提取输入数据的时序特征。将时序特征通过两个初始化方式不同的全连接层得到子目标生成器的actor和critic的输出。其中,对于actor的全连接层,选择使用均值为0,标准差为0.01的正态分布进行初始化。对于critic的全连接层,选择使用均值为0,标准差为1的正态分布进行初始化。在每个时刻,actor输出一个关于子目标的概率分布,对应了在当前时刻选择每个子目标被选择的概率,agent选择概率最大的子目标执行,critic输出该子目标的动作值。
所述像素空间控制的子目标设计为某一个指定区域内的像素变化,对应的奖励函数表示为:
Figure BDA0002430867780000081
其中,ηpc是控制每个时间步长内在奖励幅度的缩放因子,是84*84二进制矩阵,除第k个像素块的值为1,其他位置的值全为0,⊙表示逐个元素相乘。
所述深层特征空间控制的子目标设计为改变输入图像的深层特征,深层特征由原始输入图像经过卷积神经网络生成,对应的奖励函数表示为:
Figure BDA0002430867780000082
其中,ηfc是深层特征控制的奖励缩放因子,fk(·)代表Worker中的卷积神经网络层Conv2输出的第k个特征图的均值,∑k'代表在所有输出特征图上的求和。
所述方向控制的子目标设计为下一阶段引导代理前往的方向,包括东、南、北、西、原地不动这五个方向动作,对应的奖励函数表示为:
rdc(k)=1(at∈k)*0.01
代理执行的动作符合方向控制子目标生成器指引的方向可以获得奖励。
所述的好奇心探索子目标设计为代理每个时间步对环境的探索程度,通过计算动态特征生成器输出的特征向量和图像编码器输出的特征向量的欧式距离作为探索程度的量化,对应的奖励函数表示为:
Figure BDA0002430867780000091
其中,f是网络学习到的动态模型,用来预测下一个状态的特征。φ(xt+1)是下一个状态的实际特征,ηcur是好奇心奖励函数的奖励缩放因子。动态模型f的输入为当前状态的环境信息,本实施例中环境信息为1帧RGB图像,通过一个卷积核大小为8×8的卷积层,再通过一个全连接层输出256维预测特征。φ(xt+1)是在将动作生成器中卷积层提取的下一个状态的特征通过一个参数不变的额外的全连接层得到的输出,这个全连接层与动态模型f中的全连接层结构相同,参数在算法的整个运行过程中保持不变。如图3所示为像素控制和方向控制子目标的可视化图像,其中,图3中(a)-(h)展示了像素控制子目标和方向控制子目标在agent运行过程中的提供的指导。
(3)将多个子目标的生成器应用于分层框架,并改进分层结构中Manager和Worker的奖励函数;
如图4所示为Manager中子目标生成器的结构图。所述的子目标合并方式为多个子目标的向量化形式的拼接。对Manager中每个生成器输出的子目标进行独热编码,然后将多个子目标的编码拼接起来,再与输入图像的特征拼接在一起作为Worker的输入数据。Worker的奖励函数rt被设计为内部奖励rint和外部奖励rext两部分,这里所述的外部奖励即智能体与环境交互过程中得到的真实奖励,rint和rt的表达式如下:
rt int=rt pc+rt fc+rt dc+rt cur
Figure BDA0002430867780000101
其中,rt int是Worker在每个时刻t获得的内部奖励,对应着Worker的动作与子目标指引的符合程度;α是一个平衡内部奖励与外部奖励的参数;rt ext是Worker在每个时刻t获得的外部奖励;rt是Worker在每个时刻获得的最终奖励。
如图5所示为动作生成器Worker的结构图。所述的动作生成器Worker采用actor-critic结构。本实施例中的输入为1×84×84×3,表示当前的环境状态。actor-critic结构通过一个具有两部分输出的神经网络实现,设计如下:首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取,接着通过一个全连接层并展开成特征向量,然后将特征向量与子目标生成器输出的多个子目标向量拼接作为特征,通过一个包含有256个cells的动态LSTM网络进一步提取特征。将特征通过两个初始化方式不同的全连接层得到子目标的actor和critic的输出,这里的LSTM采用与子目标生成器中的LSTM相同的结构。actor的输出为动作生成器选择的当前状态要执行的动作,critic的输出为该动作的动作值。
(4)利用异步多线程的方式与环境进行交互来采集数据,并将经验数据存储在Manager经验池和Worker经验池中。
对于Manager的每个子目标生成器,经验池中存储的历史经验为四元组信息(st,at,Rt~t+c,st+c),st为当前状态,at为当前时刻子目标生成器输出的子目标,Rt~t+c为接下来的c个时刻代理获得的外部奖励总和,st+c为c个时刻后的状态。Worker的经验池中存储的历史经验为四元组信息(st,at,rt,st+1),st为当前的状态,at为执行的动作,rt为对应动作at的奖励,st+1为执行动作at后的下一个状态。
所述的Manager中子目标生成器网络的更新方式遵从策略梯度方法,每个子目标生成器都利用agent与环境的交互经验进行更新,具体的更新公式可以写为:
Figure BDA0002430867780000111
Figure BDA0002430867780000112
其中,Mi是Manager中第i个子目标生成器的标识,θi是第i个子目标生成器中actor的网络参数,
Figure BDA0002430867780000113
是第i个子目标在t时刻的优势函数,Rt ext是外部的折扣奖励,/>
Figure BDA0002430867780000114
是第i个子目标生成器在t时刻的状态值函数,θi'是第i个子目标生成器中critic的网络参数,/>
Figure BDA0002430867780000115
是第i个子目标生成器输出子目标的概率分布。
所述的Worker网络的更新方式遵从策略梯度方法,具体更新方式可以写为:
Figure BDA0002430867780000116
其中H是熵函数正则项,β是用来调节正则项的比例参数,θ'是Worker中actor的网络参数,θv是Worker中critic的网络参数,π是Worker输出具体的动作的概率分布,V是Worker对于当前状态值的估值函数。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种用于稀疏奖励环境问题的多目标分层强化学习算法,其特征在于,包括步骤:
构建分层强化学习算法的网络结构,定义状态空间、动作空间及奖励函数,对输入图像进行预处理;其中,网络结构包括上层管理者Manager和底层执行者Worker;
设计多个通用子目标的生成器及相应的内部奖励函数设计;
将多个子目标的生成器应用于分层框架,并改进分层结构中Manager和Worker的奖励函数;
利用异步多线程的方式与环境进行交互来采集数据,并将经验数据存储在Manager经验池和Worker经验池中;
对Manager中每个生成器输出的子目标进行独热编码,然后将多个子目标的编码拼接起来,再与输入图像的特征拼接在一起作为Worker的输入数据;Worker的奖励函数被设计为内部奖励和外部奖励两部分,分别表示为:
rt int=rt pc+rt fc+rt dc+rt cur
Figure QLYQS_1
其中,rt int是Worker在每个时刻t获得的内部奖励,对应着Worker的动作与子目标指引的符合程度;α是一个平衡内部奖励与外部奖励的参数;rt ext是Worker在每个时刻t获得的外部奖励;rt是Worker在每个时刻获得的最终奖励;
所述的动作生成器Worker采用actor-critic结构;算法的输入为当前的环境状态;actor-critic结构通过一个具有两部分输出的神经网络实现,具体为:首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取,接着通过一个全连接层并展开成特征向量,然后将特征向量与子目标生成器输出的多个子目标向量拼接作为特征,通过一个包含有256个cells的动态LSTM网络进一步提取特征;将特征通过两个初始化方式不同的全连接层得到子目标的actor和critic的输出;actor的输出为动作生成器选择的当前状态要执行的动作,critic的输出为该动作的动作值;
所述的Manager中子目标生成器网络的更新方式遵从策略梯度方法,每个子目标生成器都利用agent与环境的交互经验进行更新,具体的更新公式可以写为:
Figure QLYQS_2
Figure QLYQS_3
其中,Mi是Manager中第i个子目标生成器的标识,θi是第i个子目标生成器中actor的网络参数,
Figure QLYQS_4
是第i个子目标在t时刻的优势函数,Rt ext是外部的折扣奖励,/>
Figure QLYQS_5
是第i个子目标生成器在t时刻的状态值函数,θi'是第i个子目标生成器中critic的网络参数,/>
Figure QLYQS_6
是第i个子目标生成器输出子目标的概率分布;
所述的Worker网络的更新方式遵从策略梯度方法,具体更新方式可以写为:
Figure QLYQS_7
其中H是熵函数正则项,β是用来调节正则项的比例参数,θ'是Worker中actor的网络参数,θv是Worker中critic的网络参数,π是Worker输出具体的动作的概率分布,V是Worker对于当前状态值的估值函数。
2.根据权利要求1所述的方法,其特征在于,构造的网络结构包括:
图像编码器,用于将图像输入信息编码为特征向量;
动态特征生成器,用于预测下一时刻的状态特征;
子目标生成器,用于为当前的环境状态提供具体的子目标;
子目标管理器,是所有子目标生成器的集合;
动作生成器,用于接收子目标以及环境信息以输出具体的动作。
3.根据权利要求1所述的方法,其特征在于,其中,通用子目标的生成器的设计步骤包括:
挑选具体的辅助控制任务,具体的辅助控制任务包括:像素空间控制、方向控制、深层特征空间控制以及好奇心探索任务;
将具体的辅助控制任务设计成子目标的生成器,每个生成器会在每个时刻给Worker提供一个对应的子目标;
为每种子目标设计一个对应的奖励函数。
4.根据权利要求2所述的方法,其特征在于,每个子目标生成器为actor-critic结构,分为两部分输出,actor输出要执行的子目标,critic输出子目标在当前状态下的动作值函数;actor-critic结构通过一个具有两部分输出的神经网络实现,具体为:首先使用一个卷积核大小为8×8的卷积层和一个卷积核大小为4×4的卷积层对输入图像进行特征提取,接着使用一个包含有256个cells的动态LSTM网络提取输入数据的时序特征;将时序特征通过两个初始化方式不同的全连接层得到子目标的actor和critic的输出。
5.根据权利要求3所述的方法,其特征在于,所述像素空间控制的子目标设计为某一个指定区域内的像素变化,对应的奖励函数表示为:
Figure QLYQS_8
其中,ηpc是控制每个时间步长内在奖励幅度的缩放因子,hk是84*84二进制矩阵,除第k个像素块的值为1,其他位置的值全为0;e表示逐个元素相乘。
6.根据权利要求3所述的方法,其特征在于,所述深层特征空间控制的子目标设计为改变输入图像的深层特征,深层特征由原始输入图像经过卷积神经网络生成,对应的奖励函数表示为:
Figure QLYQS_9
其中,ηfc是深层特征控制的奖励缩放因子,fk(·)代表卷积神经网络输出的第k个特征图,∑k'代表所有输出特征图的求和。
7.根据权利要求3所述的方法,其特征在于,所述方向控制的子目标设计为下一阶段引导代理前往的方向,包括东、南、北、西、原地不动这五个方向动作,对应的奖励函数表示为:
rdc(k)=1(at∈k)*0.01
代理执行的动作符合方向控制子目标生成器指引的方向可以获得奖励。
8.根据权利要求3所述的方法,其特征在于,所述的好奇心探索子目标设计为代理每个时间步对环境的探索程度,通过计算动态特征生成器输出的特征向量和图像编码器输出的特征向量的欧式距离作为探索程度的量化,对应的奖励函数表示为:
Figure QLYQS_10
其中,f是网络学习到的动态模型,φ(xt+1)是下一个状态的特征,ηcur是好奇心奖励函数的奖励缩放因子;动态模型f的输入为当前状态的环境信息,环境信息为1帧RGB图像,通过一个卷积核大小为8×8的卷积层,然后通过一个全连接层输出256维预测特征;φ(xt+1)是在将动作生成器中卷积层提取的下一个状态的特征通过一个参数不变的全连接层得到的输出。
CN202010235637.4A 2020-03-30 2020-03-30 一种用于稀疏奖励环境问题的多目标分层强化学习算法 Active CN111461325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010235637.4A CN111461325B (zh) 2020-03-30 2020-03-30 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010235637.4A CN111461325B (zh) 2020-03-30 2020-03-30 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Publications (2)

Publication Number Publication Date
CN111461325A CN111461325A (zh) 2020-07-28
CN111461325B true CN111461325B (zh) 2023-06-20

Family

ID=71685000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235637.4A Active CN111461325B (zh) 2020-03-30 2020-03-30 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Country Status (1)

Country Link
CN (1) CN111461325B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111890365B (zh) * 2020-07-31 2022-07-12 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质
CN112162564B (zh) * 2020-09-25 2021-09-28 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN112801290B (zh) * 2021-02-26 2021-11-05 中国人民解放军陆军工程大学 一种多智能体深度强化学习方法、系统及应用
CN113077052B (zh) * 2021-04-28 2023-10-24 平安科技(深圳)有限公司 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN113868115B (zh) * 2021-08-30 2024-04-16 天津大学 基于多目标优化与深度强化学习的游戏软件自动测试方法
CN115100866B (zh) * 2022-07-18 2023-08-18 北京邮电大学 一种基于分层强化学习的车路协同自动驾驶决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992939A (zh) * 2017-12-06 2018-05-04 湖北工业大学 基于深度增强学习的等切削力齿轮加工方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110909644A (zh) * 2019-11-14 2020-03-24 南京理工大学 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN107992939A (zh) * 2017-12-06 2018-05-04 湖北工业大学 基于深度增强学习的等切削力齿轮加工方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110909644A (zh) * 2019-11-14 2020-03-24 南京理工大学 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统

Also Published As

Publication number Publication date
CN111461325A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN108090443B (zh) 基于深度强化学习的场景文本检测方法及系统
CN111507150B (zh) 利用基于深度神经网络的多重图像块组合识别人脸的方法
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
JP6810415B2 (ja) 自律走行自動車のレベル4を満たすために領域のクラスに応じてモードを切り換えてグリッドセルごとに重み付けコンボリューションフィルタを利用した監視用イメージセグメンテーション方法及び装置、並びにそれを利用したテスト方法及びテスト装置
CN107886510A (zh) 一种基于三维全卷积神经网络的前列腺mri分割方法
CN110223234A (zh) 基于级联收缩扩张的深度残差网络图像超分辨率重建方法
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN114355915B (zh) 一种基于深度强化学习的agv路径规划
CN113625753A (zh) 一种由专家规则引导神经网络学习无人机机动飞行的方法
CN110532868B (zh) 一种预测自由空间语义边界的方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN116152263A (zh) 一种基于cm-mlp网络的医学图像分割方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN111242246B (zh) 一种基于强化学习的图像分类方法
CN117647855B (zh) 一种基于序列长度的短临降水预报方法、装置及设备
CN118331052A (zh) 一种基于时序预测模型的视觉机器人控制方法
CN114612685B (zh) 一种结合深度特征与对比学习的自监督信息提取方法
Wang et al. A novel algorithm for edge detection of remote sensing image based on CNN and PSO
CN114611663B (zh) 一种基于在线更新策略的定制化行人轨迹预测方法
CN116416212B (zh) 路面破损检测神经网络训练方法及路面破损检测神经网络
CN117876527A (zh) 基于约束马尔可夫决策的简洁连续笔画重构草图的方法
CN114419316A (zh) 基于空间金字塔池化的实时语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant