CN114742231A - 基于帕累托优化的多目标强化学习方法和装置 - Google Patents

基于帕累托优化的多目标强化学习方法和装置 Download PDF

Info

Publication number
CN114742231A
CN114742231A CN202210282413.8A CN202210282413A CN114742231A CN 114742231 A CN114742231 A CN 114742231A CN 202210282413 A CN202210282413 A CN 202210282413A CN 114742231 A CN114742231 A CN 114742231A
Authority
CN
China
Prior art keywords
target
pareto
strategy
reinforcement learning
objective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210282413.8A
Other languages
English (en)
Inventor
冯旸赫
阳方杰
黄红蓝
施伟
马扬
程光权
黄金才
刘忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210282413.8A priority Critical patent/CN114742231A/zh
Publication of CN114742231A publication Critical patent/CN114742231A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及强化学习领域,公开了一种基于帕累托优化的多目标强化学习方法和装置,本发明通过采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;从所述帕累托前沿集中随机选择动作与环境进行交互;生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新,通过将深度Q网络直接推广到多目标来逼近所有帕累托最优确定性策略的集合,表现出更好的性能、快速收敛、相对较好的稳定性,并提供了更多样化的解决方案。

Description

基于帕累托优化的多目标强化学习方法和装置
技术领域
本申请涉及强化学习领域,特别是涉及一种基于帕累托优化的多目标强化学习方法和装置。
背景技术
强化学习(RL)是一种框架,可根据从代理环境中收到的与任务相关的未来奖励来学习代理的最佳行动策略。虽然大多数RL算法的结构是为了实现一个特定的目标,但许多现实世界的应用程序的本质特征是存在多个可能相互冲突的目标,例如经济系统、医疗、运输、管理、自然资源、任务规划和机器人控制。
作为标准强化学习方法的概括,多目标强化学习(MORL)解决了在竞争目标之间进行权衡的需求。在MORL中,奖励信号是每个代理的向量,其中每个元素代表一个最大化的目标。MORL领域的大部分工作都是使用启发式技术来学习最优策略,通过构建将多目标问题转化为标准单目标问题的标量化奖励函数,找到不同目标之间的权衡。Schulman通过为不同的运动任务手动设计多目标的合成奖励函数,将策略搜索方法应用于不同的连续控制基准。Lizotte提出了一种多目标Q学习解决方案,该解决方案线性组合了与不同治疗计划的症状和副作用相关的目标。Van Moffaert没有使用加权和来近似帕累托前沿集,而是提出了一种类似的多目标Q学习方法,该方法使用切比雪夫标量函数作为替代。然而,这些单一的策略方法可能不适用于以下情况:(1)由于难以获得用于计算标量值的特定领域专家知识,因此很难找到一组合适的目标偏好,(2)标化函数可能是非线性的,这使得先验标化难以处理(3)当模型需要专家经验调整时,不同奖励的权重应用在不同的情况下,系统需要适应不同的模式运行。
大多数现有的研究提出了帕累托前沿集的近似,它通过其支持点来近似子集。类似于Van Moffaert,Ruiz-Montiel等人提出了一种多目标强化学习的时间差分方法,其方法仅限于表格Q学习方法。Handa将EDA-RL方法引入到MORL 问题中,该方法使用分布估计(EDA)进化算法通过基于帕累托优势的适应度度量来搜索策略参数空间。Pirotta提出了一种针对MORL解决方案的基于流形的策略搜索,并通过指标函数更新了流形。Parisi通过引入超体积指标函数作为评估不同帕累托前沿最优性的更合适的度量来扩展该方法。然而,这些方法的主要问题是参数的数量随着策略参数的数量呈二次增加。
因此,如何在深度学习中实现快速收敛、相对较好的稳定性的效果成为了一个亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于帕累托优化的多目标强化学习方法和装置,旨在解决现有技术无法在深度学习中实现快速收敛、相对较好的稳定性的效果。
为实现上述目的,本发明提供了一种基于帕累托优化的多目标强化学习方法,所述方法包括:
采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的 Q值;
使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;
从所述帕累托前沿集中随机选择动作与环境进行交互;
生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;
根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新。
可选地,所述采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值的步骤,包括:
根据多目标强化学习问题定义策略π1严格支配策略π2,π1>π2,当且仅当该策略π1在每个目标上的表现不比π2策略差并且至少在其中一个目标上严格优于π2策略;
基于Q-learning的强化学习使用
Figure BDA0003558310450000031
并行学习每个目标的Q值。
可选地,所述使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集的步骤,包括:
在多目标马尔可夫决策过程中,假设所有目标都最大化,
Figure BDA0003558310450000032
定义为包含多目标马尔可夫决策过程p中的策略π集合;
属于
Figure BDA0003558310450000033
的策略中的至少一个目标方面优于其他策略π',如下式所示:
Figure BDA0003558310450000034
其中Op是任务p中设置的目标,Πp表示任务p的策略集,εo定义了一个最小正值,该集合
Figure BDA0003558310450000035
是多目标马尔可夫决策过程中的帕累托前沿集合。
可选地,所述从所述帕累托前沿集中随机选择动作与环境进行交互的步骤,包括:
从Pareto前沿集中随机选择动作以使用如下公式与环境交互:
a=randoma{Q(s,a|θ)}patero_front
可选地,所述生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN 算法对目标网络进行训练以生成策略网络的步骤,包括:
采用增量更新的方法在空间连续任务中学习,生成基于帕累托前沿集的多目标DQN方程,如下所示:
Figure BDA0003558310450000036
其中,
Figure BDA0003558310450000037
表示目标网络的估计值Q,Q(st,at)展示行为网络的估计值Q,γ是折扣因子;
利用所述DQN方程对目标网络进行训练以生成策略网络。
可选地,所述利用所述DQN方程对目标网络进行训练以生成策略网络的步骤,包括:
利用所述DQN方程对目标网络进行训练,从帕累托前沿集中随机选择动作;
根据下式对每个目标使用方程的期望进行确定:
Figure BDA0003558310450000041
其中,每个目标可以有不同的折现因子γ。
可选地,在强化学习中,动作值
Figure BDA0003558310450000042
是根据状态s中的策略π选择动作所获得的预期回报,用贝尔曼方程表示为:
qπ(s,a)=∑s',rp(s',r|s,a)[r+γmaxa'qπ(s',a')]。
此外,为实现上述目的,本发明还提出一种基于帕累托优化的多目标强化学习装置,所述装置包括:
计算模块,用于采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;
前沿集模块,用于使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;
交互模块,用于从所述帕累托前沿集中随机选择动作与环境进行交互;
训练模块,用于生成基于帕累托前沿集的多目标DQN算法,并利用所述 DQN算法对目标网络进行训练以生成策略网络;
更新模块,用于根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新。
此外,为实现上述目的,本发明还提出一种计算机设备,所述计算机设备包括:存储器,处理器以及存储在所述存储器上并可在所述处理器上运行的基于帕累托优化的多目标强化学习程序,所述基于帕累托优化的多目标强化学习程序配置为实现如上文所述的基于帕累托优化的多目标强化学习方法。
此外,为实现上述目的,本发明还提出一种介质,所述介质上存储有基于帕累托优化的多目标强化学习程序,所述基于帕累托优化的多目标强化学习程序被处理器执行时实现如上文所述的基于帕累托优化的多目标强化学习方法的步骤。
本发明通过采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;从所述帕累托前沿集中随机选择动作与环境进行交互;生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新,通过将深度Q网络直接推广到多目标来逼近所有帕累托最优确定性策略的集合,表现出更好的性能、快速收敛、相对较好的稳定性,并提供了更多样化的解决方案。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于帕累托优化的多目标强化学习设备的结构示意图;
图2为本发明基于帕累托优化的多目标强化学习方法第一实施例的流程示意图;
图3为本发明基于帕累托优化的多目标强化学习方法第一实施例的16个状态的Grid World环境图;
图4为本发明基于帕累托优化的多目标强化学习方法第一实施例的代理在考虑单个目标时计算的动作价值函数;
图5为本发明基于帕累托优化的多目标强化学习方法第一实施例的使用 PMDRL采取的行动的结果。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于帕累托优化的多目标强化学习设备结构示意图。
如图1所示,该基于帕累托优化的多目标强化学习设备可以包括:处理器 1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真 (Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器 (Non-VolatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于帕累托优化的多目标强化学习设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于帕累托优化的多目标强化学习程序。
在图1所示的基于帕累托优化的多目标强化学习设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于帕累托优化的多目标强化学习设备中的处理器1001、存储器1005 可以设置在基于帕累托优化的多目标强化学习设备中,所述基于帕累托优化的多目标强化学习设备通过处理器1001调用存储器1005中存储的基于帕累托优化的多目标强化学习程序,并执行本发明实施例提供的基于帕累托优化的多目标强化学习方法。
本发明实施例提供了一种基于帕累托优化的多目标强化学习方法,参照图 2,图2为本发明基于帕累托优化的多目标强化学习方法第一实施例的流程示意图。
本实施例中,所述基于帕累托优化的多目标强化学习方法包括以下步骤:
步骤S10:采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值。
需要说明的是,多目标化是为通常从单个任务开始的任务创建多个效用函数的过程。为了构造比原问题更容易解决的新问题,多目标化以具有效用函数
Figure BDA0003558310450000075
的单目标问题p作为输入,并输出具有效用函数
Figure BDA0003558310450000071
的多目标问题
Figure BDA0003558310450000072
其中n>1。目前,有两种方法可以构建源自单个目标问题的各种效用函数或目标:分解和加法。前一种方法将原始的单目标问题分解为多目标问题。以Cartpole Experiment为例,通过分解进行多目标化,动作的表现是通过角度和位置的目标来判断的,而不是使用生存时间。后者通过直接向现有案例添加额外目标来构建多目标化。添加额外的目标通常需要将一些启发式信息与特定于目标问题的领域知识相结合。正如网格世界实验的设置一样,除了代理的时间消耗外,到目的地的距离变化被作为补充目标。在强化学习中,行动的效用与在环境中采取行动并从中获得奖励是近似的。对于多目标化的情况,奖励是用详细信息设计的,应用分解或加法,这通常会提高强化学习的性能。
可以理解的是,作为机器学习的一个重要分支,强化学习允许智能体通过与环境的不断交互来调整其策略,从而达到最大化累积奖励值的目标。现有的强化学习利用马尔可夫决策过程(MDP)从理论上对RL问题进行基本建模。MDP 由<S,A,R,T,γ>五元组定义,其中,S表示由有限状态集组成的环境;A代表可以采取的有限行动集;奖励函数R(s,a,s')定义了状态转换获得的即时奖励;状态传递函数 T:S×A→Δ(S)表示将某个状态-动作对映射到可能的后续状态的概率分布,Δ(S)是整个状态集的概率分布。对于状态s,s'∈S和动作a∈A,该函数T确定采取动作a后环境从状态s转移到状态s'的概率。γ是折扣因子,代表长期奖励和即时奖励之间的权衡。形式上,MDP描述了强化学习中代理和环境之间的交互过程。在学习过程中,RL代理以多个离散时间步长与环境交互。在特定的时间步t,agent从状态空间S接收状态st,然后根据策略π(at|st)从可选的动作空间中A选择动作at,使环境转移到下一个状态st+1并返回一个标量奖励值rt+1(奖励值是为了奖励下一个时间步长,因此根据动力学(奖励函数R(s,a,s')和传递函数T=P(st+1|st,at)),下标是 t+1)。当环境状态为终止状态或交互达到最大时间步长时,一个情节结束并开始下一个情节。返回值
Figure BDA0003558310450000073
是带有折扣因子γ∈(0,1]的累积奖励值。代理的目标是最大化每个状态的预期累积奖励
Figure BDA0003558310450000074
强化学习通过两种方式进行策略学习以最大化状态值的期望回报:一种是基于状态或状态-动作值函数的方法,贪婪地从动作集中选择值最大的动作,例如Q-学习、DQN等;另一种方法是基于策略梯度法,直接搜索策略空间,学习给定状态下动作的概率分布,然后根据概率选择动作,如Actor-Critic、PPO等方法。本实施例使用的学习方法是第一种,它使用状态-动作值Q来学习代理的策略。Q-Learning如以下式所示,根据代理与环境交互产生的奖励增量更新:
Figure BDA0003558310450000081
如果每个动作在每个状态下在无限运行中执行无限次,Q-learning将保证收敛到最优值Q*,基于该值可以推导出最优策略:π*=arg maxaQ*(s,a)。上述Q- learning可以很好地处理状态和动作空间有限的环境。然而,面对现实世界问题中的大环境状态空间,使用函数逼近方法来估计状态-动作值Q。作为一个优秀的函数拟合工具,神经网络可以逼近多种函数并提高像DQN这样的Q-learning 方法的性能。DQN使用经验回放和目标网络来稳定近似动作值函数,克服了训练不稳定和发散的问题。DQN定义了行为网络Q和目标网络Q并使用off-policy 方法对其进行训练,使用行为网络与环境交互并将交互样本存储在经验回放D 中,然后以目标网络为目标进行训练训练行为网络。
在具体实施中,在固定步骤训练的每个间隔之后,本实施例使用下式用行为网络参数θ更新目标网络参数θ-,意思是θ-←θ:
Figure 2
进一步地,所
根据多目标强化学习问题定义策略π1严格支配策略π2,π1>π2,当且仅当该策略π1在每个目标上的表现不比π2策略差并且至少在其中一个目标上严格优于π2策略;
基于Q-learning的强化学习使用
Figure BDA0003558310450000083
并行学习每个目标的Q值。
步骤S20:使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集。
在具体实施中,多目标强化学习是单目标强化学习的推广。等式中的多目标强化学习。下式也使用MDP对其描述进行形式化,但与单目标MDP相比,多目标MDP中的环境奖励不是标量值,而是标量向量,其中不同的奖励代表不同的目标,即:
<S,A,T,γ,R>,R(s,a,s')=(R1(s,a,s'),…,Rm(s,a,s'))
下式中的每个目标有自己的期望收益,以及目标i的期望收益。
Figure BDA0003558310450000091
在多目标环境中,所有目标都需要优化,但没有明显的排序和偏好。在这种情况下,政策有时无法进行有效比较,其中部分政策在某些目标上做得很好,但在其他目标上表现不佳。在这里,本实施例在多目标问题中使用帕累托支配对策略进行排序:定义1:策略π1严格支配策略π2,π1>π2,当且仅当该策略π1在每个目标上的表现不比π2策略差并且至少在其中一个目标上严格优于π2策略
基于Q-learning的强化学习使用下式并行学习每个目标的Q值:
Figure BDA0003558310450000092
现有的方法大多是对这些多目标Q值进行线性或加权求和,得到一个标量值 Q来选择策略
Figure BDA0003558310450000093
使用先前的经验来设置这些权重以实现特定的权衡既困难又不直观,这总是需要强大的领域专业知识。PMDRL直接使用多目标方法来处理多目标马尔可夫决策过程(MOMDP),而不是所有目标值Q的总和。没有支配关系的策略集称为帕累托最优集或帕累托前沿。多目标强化学习的目标是找到一个帕累托前沿集。
定义2:在MOMDP中,假设所有目标都最大化,
Figure BDA0003558310450000094
定义为包含MOMDPp中的策略π集合。这些属于
Figure BDA0003558310450000095
的策略中的至少一个目标方面优于其他策略π' ,该关系用下式表示。
Figure BDA0003558310450000096
其中Op是任务p中设置的目标,Πp表示任务p的策略集,εo定义了一个最小正值。该集合
Figure BDA0003558310450000097
是MOMDP中的帕累托前沿集合。
进一步地,所述使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集的步骤,包括:在多目标马尔可夫决策过程中,假设所有目标都最大化,
Figure BDA0003558310450000098
定义为包含多目标马尔可夫决策过程p中的策略π集合;属于
Figure BDA0003558310450000099
的策略中的至少一个目标方面优于其他策略π',如下式所示:
Figure BDA00035583104500000910
其中Op是任务p中设置的目标,Πp表示任务p的策略集,εo定义了一个最小正值,该集合
Figure BDA0003558310450000101
是多目标马尔可夫决策过程中的帕累托前沿集合。
步骤S30:从所述帕累托前沿集中随机选择动作与环境进行交互。
进一步地,所述从所述帕累托前沿集中随机选择动作与环境进行交互的步骤,包括:从Pareto前沿集中随机选择动作以使用如下公式与环境交互:
a=randoma{Q(s,a|θ)}patero_front
步骤S40:生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN 算法对目标网络进行训练以生成策略网络。
在具体实施中,与单目标环境中的价值估计Q不同,多目标任务中的每个目标可以有不同的折现因子γ。基于patero前沿集的多目标DQN算法如下所示:
算法:基于Patero-front的多目标DQN
算法输入:行为网络θ,目标网络θ'
将经验重放D初始化到容量N
用随机权重初始化动作值函数θ
用权重θ-=θ初始化目标动作值函数
Figure BDA0003558310450000102
对于循环次数=1,M做:
初始化序列s1={x1}和预处理序列φ1=φ(x1)
对于t=1,T
做以概率ε选择一个随机动作at,否则at=randoma{Q(st,a)}patero_front
在模拟器中执行动作at并观察奖励rt和图像xt+1
设置st+1=st,at,xt+1和预处理φt+1=φ(st+1)
将(φt,at,rtt+1)转换存储在D中
从D中随机选择最小批次(φj,aj,rjj+1)
设置
Figure BDA0003558310450000111
对网络参数在
Figure BDA0003558310450000112
执行梯度下降步骤
每C步重置
Figure BDA0003558310450000113
结束
结束
进一步地,所述生成基于帕累托前沿集的多目标DQN算法,并利用所述 DQN算法对目标网络进行训练以生成策略网络的步骤,包括:采用增量更新的方法在空间连续任务中学习,生成基于帕累托前沿集的多目标DQN方程,如下所示:
Figure BDA0003558310450000114
其中,
Figure BDA0003558310450000115
表示目标网络的估计值Q,Q(st,at)展示行为网络的估计值Q,γ是折扣因子;利用所述DQN方程对目标网络进行训练以生成策略网络。
进一步地,所述利用所述DQN方程对目标网络进行训练以生成策略网络的步骤,包括:利用所述DQN方程对目标网络进行训练,从帕累托前沿集中随机选择动作;根据下式对每个目标使用方程的期望进行确定:
Figure BDA0003558310450000116
其中,每个目标可以有不同的折现因子γ。
步骤S50:根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新。
进一步地,在强化学习中,动作值
Figure BDA0003558310450000117
是根据状态s 中的策略π选择动作所获得的预期回报,用贝尔曼方程表示为:
qπ(s,a)=∑s',rp(s',r|s,a)[r+γmaxa′qπ(s',a')]。
需要说明的是,大多数强化学习研究旨在针对单个目标优化代理的策略,尽管许多实际应用程序的本质特征是存在多个可能相互冲突的目标。作为标准强化学习方法的概括,多目标强化学习解决了在竞争目标之间进行权衡的需求。本实施例没有使用涉及各种启发式信息(例如奖励塑造)的单一策略技术,而是提出了一种新颖的强化学习方法,可以无偏好地学习策略。本实施例主张将帕累托最优理论与深度Q网络相结合,作为避免构建合成奖励函数的有力工具。该方法用于实现非支配排序,定义为帕累托前沿集,它是同时计算的,无需假设任何其他加权函数或线性程序来选择动作。本实施例在Grid World实验中为本实施例提出的方法提供了理论保证。在多目标Cartpole上的实验结果表明,与传统的多目标深度Q网络相比,本实施例的方法表现出更好的性能、快速收敛、相对较好的稳定性,并提供了更多样化的解决方案。
在具体实施中,本实施例在本节中展示了本实施例提出的PMDRL方法的实验结果。本实施例针对两个不同的基准问题测量PMDRL的性能。首先,本实施例使用网格世界环境验证了该方法在有限状态空间和动作空间任务中的理论可行性。此外,在多目标Cartpole环境中研究了所提出的方法和DQN的组合,进一步验证了该方法在无限状态空间任务中的有效性。
如图3所示,Grid World是一个由16个方格组成的迷宫,其中左上角为起始状态s0,右下角为结束状态s15,其余状态为s1-s14.这个任务的目标是尽快从起始状态到达结束状态。代理只能采取4个动作{u,d,l,r},分别代表向上、向下、向左和向右移动。任何试图离开网格世界的移动都不会改变当前状态,而其他移动将移动到动作指向的状态。在GridWorld任务中,可以准确计算出每个状态下的动作值Q(s,a),为所提方法的理论验证提供了很好的实验场景。在单目标网格世界任务中,除了达到结束状态的动作外,所有动作都奖励-1。为了验证本实施例的方法,在保持从起点移动到目标点的总体目标的同时,本实施例设定了两个目标:使用更少的总步数到达目的地;越来越接近目标点。
对于这两个目标,本实施例定义了两个奖励函数r1和r2,并使用下式:
Figure BDA0003558310450000121
当代理移动到结束状态时,奖励为0,否则为-1。
Figure BDA0003558310450000131
当代理靠近结束状态时,奖励为1,否则为-1。
实验使用动态规划算法遍历计算网格世界中的所有动作-值函数 Q(s,a),s∈{s1,s2,...,s15},a∈{u,d,l,r}。学习率为1,折扣因子为0.5,所有动作价值函数都在初始时刻都为Q(s,a)=0,图4显示了代理在考虑单个目标时计算的动作价值函数。应用本文提出的基于帕累托的多目标强化学习方法对计算结果进行处理,得到各状态下的帕累托前沿集,如图5所示。
图5多目标网格世界任务中使用动态编程算法的动作值函数的结果。数字是在相应状态下执行的动作的Q值。标记为绿色的方向是最佳操作。(a)是使用奖励函数r1的Q值,(b)是使用奖励函数r2的Q值。
本实施例通过采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;从所述帕累托前沿集中随机选择动作与环境进行交互;生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新,通过将深度Q网络直接推广到多目标来逼近所有帕累托最优确定性策略的集合,表现出更好的性能、快速收敛、相对较好的稳定性,并提供了更多样化的解决方案。
此外,本发明实施例还提出一种介质,所述介质上存储有基于帕累托优化的多目标强化学习程序,所述基于帕累托优化的多目标强化学习程序被处理器执行时实现如上文所述的基于帕累托优化的多目标强化学习方法的步骤。
本发明基于帕累托优化的多目标强化学习装置的实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于帕累托优化的多目标强化学习方法,其特征在于,所述方法包括:
采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;
使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;
从所述帕累托前沿集中随机选择动作与环境进行交互;
生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;
根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新。
2.如权利要求1所述的方法,其特征在于,所述采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值的步骤,包括:
根据多目标强化学习问题定义策略π1严格支配策略π2,π1>π2,当且仅当该策略π1在每个目标上的表现不比π2策略差并且至少在其中一个目标上严格优于π2策略;
基于Q-learning的强化学习使用
Figure FDA0003558310440000011
并行学习每个目标的Q值。
3.如权利要求1所述的方法,其特征在于,所述使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集的步骤,包括:
在多目标马尔可夫决策过程中,假设所有目标都最大化,
Figure FDA0003558310440000012
定义为包含多目标马尔可夫决策过程p中的策略π集合;
属于
Figure FDA0003558310440000013
的策略中的至少一个目标方面优于其他策略π',如下式所示:
Figure FDA0003558310440000014
其中Op是任务p中设置的目标,Πp表示任务p的策略集,εo定义了一个最小正值,该集合
Figure FDA0003558310440000015
是多目标马尔可夫决策过程中的帕累托前沿集合。
4.如权利要求1所述的方法,其特征在于,所述从所述帕累托前沿集中随机选择动作与环境进行交互的步骤,包括:
从Pareto前沿集中随机选择动作以使用如下公式与环境交互:
a=randoma{Q(s,a|θ)}patero_front
5.如权利要求1所述的方法,其特征在于,所述生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络的步骤,包括:
采用增量更新的方法在空间连续任务中学习,生成基于帕累托前沿集的多目标DQN方程,如下所示:
Figure FDA0003558310440000021
其中,
Figure FDA0003558310440000022
表示目标网络的估计值Q,Q(st,at)展示行为网络的估计值Q,γ是折扣因子;
利用所述DQN方程对目标网络进行训练以生成策略网络。
6.如权利要求5所述的方法,其特征在于,所述利用所述DQN方程对目标网络进行训练以生成策略网络的步骤,包括:
利用所述DQN方程对目标网络进行训练,从帕累托前沿集中随机选择动作;
根据下式对每个目标使用方程的期望进行确定:
Figure FDA0003558310440000023
其中,每个目标可以有不同的折现因子γ。
7.如权利要求1至6任一项所述的方法,其特征在于,在强化学习中,动作值
Figure FDA0003558310440000024
是根据状态s中的策略π选择动作所获得的预期回报,用贝尔曼方程表示为:
qπ(s,a)=∑s',rp(s',r|s,a)[r+γmaxa'qπ(s',a')]。
8.一种基于帕累托优化的多目标强化学习装置,其特征在于,所述装置包括:
计算模块,用于采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;
前沿集模块,用于使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;
交互模块,用于从所述帕累托前沿集中随机选择动作与环境进行交互;
训练模块,用于生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;
更新模块,用于根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新。
9.一种基于帕累托优化的多目标强化学习设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于帕累托优化的多目标强化学习程序,所述基于帕累托优化的多目标强化学习程序配置为实现如权利要求1至7中任一项所述的基于帕累托优化的多目标强化学习方法的步骤。
10.一种介质,其特征在于,所述介质上存储有基于帕累托优化的多目标强化学习程序,所述基于帕累托优化的多目标强化学习程序被处理器执行时实现如权利要求1至7任一项所述的基于帕累托优化的多目标强化学习方法的步骤。
CN202210282413.8A 2022-03-22 2022-03-22 基于帕累托优化的多目标强化学习方法和装置 Pending CN114742231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210282413.8A CN114742231A (zh) 2022-03-22 2022-03-22 基于帕累托优化的多目标强化学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210282413.8A CN114742231A (zh) 2022-03-22 2022-03-22 基于帕累托优化的多目标强化学习方法和装置

Publications (1)

Publication Number Publication Date
CN114742231A true CN114742231A (zh) 2022-07-12

Family

ID=82278089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210282413.8A Pending CN114742231A (zh) 2022-03-22 2022-03-22 基于帕累托优化的多目标强化学习方法和装置

Country Status (1)

Country Link
CN (1) CN114742231A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN116306276A (zh) * 2023-03-09 2023-06-23 北京理工大学 一种复杂系统架构创成式生成方法、系统及电子设备
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115167478B (zh) * 2022-08-23 2024-04-26 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN116306276A (zh) * 2023-03-09 2023-06-23 北京理工大学 一种复杂系统架构创成式生成方法、系统及电子设备
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN116614826B (zh) * 2023-05-24 2024-01-16 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法

Similar Documents

Publication Publication Date Title
Haarnoja et al. Reinforcement learning with deep energy-based policies
CN114742231A (zh) 基于帕累托优化的多目标强化学习方法和装置
Kumar et al. Genetic algorithms
Bloembergen et al. Evolutionary dynamics of multi-agent learning: A survey
Gu et al. Continuous deep q-learning with model-based acceleration
Bertsekas et al. Neuro-dynamic programming: an overview
Parisi et al. Multi-objective reinforcement learning through continuous pareto manifold approximation
Liu et al. An adaptive online parameter control algorithm for particle swarm optimization based on reinforcement learning
CN112734014A (zh) 基于置信上界思想的经验回放采样强化学习方法及系统
Kaushik et al. Multi-objective model-based policy search for data-efficient learning with sparse rewards
CN112613608A (zh) 一种强化学习方法及相关装置
Hafez et al. Topological Q-learning with internally guided exploration for mobile robot navigation
Senn et al. Reducing the computational effort of optimal process controllers for continuous state spaces by using incremental learning and post-decision state formulations
Yang et al. Continuous control for searching and planning with a learned model
Chang et al. A survey of some simulation-based algorithms for Markov decision processes
Bossens et al. Lifetime policy reuse and the importance of task capacity
Yang et al. PMDRL: Pareto-front-based multi-objective deep reinforcement learning
CN115984025A (zh) 基于深度学习图网络模型的影响力传播估计方法及系统
Liu et al. Using computational intelligence algorithms to solve the coalition structure generation problem in coalitional skill games
Tziortziotis et al. A model based reinforcement learning approach using on-line clustering
Huang et al. Risk conditioned neural motion planning
Guzman et al. Adaptive model predictive control by learning classifiers
Riccio et al. LoOP: Iterative learning for optimistic planning on robots
Masadeh et al. Selector-actor-critic and tuner-actor-critic algorithms for reinforcement learning
Hachiya et al. Efficient sample reuse in EM-based policy search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination