CN116822618A - 基于动态噪声网络的深度强化学习探索方法及组件 - Google Patents

基于动态噪声网络的深度强化学习探索方法及组件 Download PDF

Info

Publication number
CN116822618A
CN116822618A CN202311103323.9A CN202311103323A CN116822618A CN 116822618 A CN116822618 A CN 116822618A CN 202311103323 A CN202311103323 A CN 202311103323A CN 116822618 A CN116822618 A CN 116822618A
Authority
CN
China
Prior art keywords
network
reinforcement learning
deep reinforcement
data
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311103323.9A
Other languages
English (en)
Inventor
路圣汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hanbo Technology Co ltd
Original Assignee
Beijing Hanbo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hanbo Technology Co ltd filed Critical Beijing Hanbo Technology Co ltd
Priority to CN202311103323.9A priority Critical patent/CN116822618A/zh
Publication of CN116822618A publication Critical patent/CN116822618A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及深度强化学习探索技术领域,提供一种基于动态噪声网络的深度强化学习探索方法及组件,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,元策略网络和元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。本发明在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。

Description

基于动态噪声网络的深度强化学习探索方法及组件
技术领域
本发明涉及深度强化学习探索技术领域,尤其涉及一种基于动态噪声网络的深度强化学习探索方法及组件。
背景技术
随着深度强化学习技术的迅猛发展,其被广泛应用于人工智能、游戏竞技和自动驾驶等领域。探索问题是当代深度强化学习的一个关键挑战。其主要目的是防止智能体的策略过早地收敛到一个局部最优。传统探索方法通过引入额外的虚拟奖励信号,来引导智能体的探索行为。然而,传统方法的问题在于需要细致的选择权重,以平衡虚拟奖励信号和真实的环境奖励信号,不恰当的权重会使得虚拟奖励信号改变最优策略,导致智能体的探索行为受限。
发明内容
本发明提供一种基于动态噪声网络的深度强化学习探索方法及组件,用以解决现有技术中虚拟奖励信号的权重不恰当,导致智能体的探索行为受限缺陷,本发明在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。
本发明提供一种基于动态噪声网络的深度强化学习探索方法,包括:初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据所述数据收集列表更新所述智能体深度强化学习模型的参数;在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后,还包括:在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时,清空数据收集列表,保存所述智能体深度强化学习模型的参数,并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。
根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法,所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表,包括:所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数;所述智能体的策略网络以当前环境的状态数据为输入,并根据所述智能体的策略网络的最后一层的参数,输出动作;所述元价值网络以当前环境的状态数据为输入,输出所述智能体的价值网络的最后一层的参数;所述智能体的价值网络以当前环境的状态数据为输入,并根据所述智能体的价值网络的最后一层的参数,输出价值;所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符,以获取交互训练的五元组;在所述仿真环境的状态数据满足第二预设数据阈值时,将所述交互训练的五元组存入数据收集列表。
根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法,所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符之后,还包括:在所述仿真环境的状态数据不满足第二预设数据阈值时,执行所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数的步骤。
根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数,包括:根据所述交互训练的五元组,基于actor-critic算法对所述智能体的策略网络和所述智能体的价值网络进行更新;根据所述交互训练的五元组,采用策略梯度对所述元策略网络进行更新;根据所述交互训练的五元组,采用价值网络损失函数对所述元价值网络进行更新;所述策略梯度为:
所述价值网络损失函数为:
其中,,/>为对应神经网络参数,/>为策略梯度,/>为状态/>的估计值,为状态/>的估计值,/>为状态/>选择动作/>的概率,/>为训练数据的大小;/>为状态/>的智能体获得的奖励。
根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法,所述噪声线性层为:
其中,、/>、/>和/>是可学习的参数,/>和/>是噪声随机变量。
本发明还提供一种基于动态噪声网络的深度强化学习探索系统,包括:初始化模块,用于初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;交互训练模块,用于所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;数据更新模块,用于根据所述数据收集列表更新所述智能体深度强化学习模型的参数;迭代模块,用于在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。
本发明提供的一种基于动态噪声网络的深度强化学习探索方法及组件,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。本发明在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于动态噪声网络的深度强化学习探索方法的流程示意图;
图2是本发明提供的一种基于动态噪声网络的深度强化学习探索方法的原理示意图;
图3是本发明提供的一种基于动态噪声网络的深度强化学习探索方法的性能测试图;
图4是本发明提供的一种基于动态噪声网络的深度强化学习探索系统的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
与基于虚拟奖励信号的探索方法相比,本发明所提供的基于动态噪声网络的深度强化学习探索方法,作用于元策略空间。元策略的输入是状态,输出是智能体的策略参数。一般而言,在更高的抽象层级中引入噪声会带来更好的探索效果。因为同样幅度的噪声在更高的抽象层级中会引起更剧烈的变化,从而带来更不一样的探索行为。
请参考图1,图1为本发明提供的一种基于动态噪声网络的深度强化学习探索方法的流程示意图。
请参考图2,图2为本发明提供的一种基于动态噪声网络的深度强化学习探索方法的原理示意图。
本发明提供一种基于动态噪声网络的深度强化学习探索方法,包括:
101:初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;元策略网络和元价值网络的最后一层均为噪声线性层;
具体的,初始化智能体的策略网络和智能体的价值网络的参数;初始化元策略网络和元价值网络的参数;初始化数据收集列表;初始化仿真环境。需要注意的是每个环境初始化后将返回初始状态数据,即第0步。
102:智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;
作为一种优选的实施例,智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表,包括:元策略网络以当前环境的状态数据为输入,输出智能体的策略网络的最后一层的参数;智能体的策略网络以当前环境的状态数据为输入,并根据智能体的策略网络的最后一层的参数,输出动作;元价值网络以当前环境的状态数据为输入,输出智能体的价值网络的最后一层的参数;智能体的价值网络以当前环境的状态数据为输入,并根据智能体的价值网络的最后一层的参数,输出价值;仿真环境以当前环境的状态数据、动作和价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符,以获取交互训练的五元组;在仿真环境的状态数据满足第二预设数据阈值时,将交互训练的五元组存入数据收集列表。
作为一种优选的实施例,仿真环境以当前环境的状态数据、动作和价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符之后,还包括:在仿真环境的状态数据不满足第二预设数据阈值时,执行元策略网络以当前环境的状态数据为输入,输出智能体的策略网络的最后一层的参数的步骤。
具体的,S2-1,并行使用128个仿真环境。
S2-2,对于上述并行环境中的其中一个环境,将当前环境的状态数据送入当前元策略网络,得到智能体的策略网络的最后一层的参数。
S2-3,基于当前环境的状态数据和元策略网络的输出,智能体策略网络,输出动作/>
S2-4,对于上述并行环境中的其中一个环境,将当前环境的状态数据送入当前元价值网络,得到智能体的价值网络的最后一层的参数。
S2-5,基于当前环境的状态数据和元价值网络的输出,智能体价值网络,输出价值。
S2-6,仿真环境,以当前环境的状态数据、动作/>和价值为输入,输出下一时刻的状态/>,智能体获得的奖励/>和终止标识符/>
S2-7,上述S2-2到S2-6过程重复128次,可以得到128个具有128轨迹长度的训练数据,值得注意的是当环境仿真结束,则重置环境继续进行仿真。
S2-8,将上述数据存入数据收集列表。
103:根据数据收集列表更新智能体深度强化学习模型的参数;
作为一种优选的实施例,根据数据收集列表更新智能体深度强化学习模型的参数,包括:根据交互训练的五元组,基于actor-critic算法对智能体的策略网络和智能体的价值网络进行更新;根据交互训练的五元组,采用策略梯度对元策略网络进行更新;根据交互训练的五元组,采用价值网络损失函数对元价值网络进行更新;策略梯度为:
价值网络损失函数为:
其中,,/>为对应神经网络参数,/>为策略梯度,/>为状态/>的估计值,为状态/>的估计值,/>为状态/>选择动作/>的概率,/>为训练数据的大小;/>为状态/>的智能体获得的奖励。
作为一种优选的实施例,噪声线性层为:
其中,、/>、/>和/>是可学习的参数,/>和/>是噪声随机变量。
S3-1,从数据收集列表中拉取数据。
S3-2,使用数据收集列表中的所有数据,更新智能体的策略网络和智能体的价值网络的参数;更新元策略网络和元价值网络的参数。
104:在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
作为一种优选的实施例,根据数据收集列表更新智能体深度强化学习模型的参数之后,还包括:在数据收集列表收集的数据量不满足第一预设数据阈值时,清空数据收集列表,保存智能体深度强化学习模型的参数,并执行智能体深度强化学习模型与仿真环境交互训练的步骤。
S4-1,清空数据收集列表中的数据。
S4-2,重复S2-1到S3-1的过程。每次完成一个版本参数的更新,保存智能体的策略网络和智能体的价值网络的参数;保存元策略网络和元价值网络的参数。
持续训练智能体,直到迭代完成:重复S2-1到S4-2的过程,直到收集的总数据量超过
请参考图3,图3为本发明提供的一种基于动态噪声网络的深度强化学习探索方法的性能测试图。
与现有技术相比,本发明在元策略网络和元价值网络中引入了噪声,使其生成更多样化的网络参数,提高智能体的行为多样性,从而有效提高智能体的探索效率。
请参考图4,图4为本发明提供的一种基于动态噪声网络的深度强化学习探索系统的结构示意图。
本发明还提供一种基于动态噪声网络的深度强化学习探索系统,包括:初始化模块,用于初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;元策略网络和元价值网络的最后一层均为噪声线性层;交互训练模块,用于智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;数据更新模块,用于根据数据收集列表更新智能体深度强化学习模型的参数;迭代模块,用于在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
对于本发明提供的一种基于动态噪声网络的深度强化学习探索系统的介绍请参照上述方法实施例,本发明在此不再赘述。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行基于动态噪声网络的深度强化学习探索方法,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;元策略网络和元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于动态噪声网络的深度强化学习探索方法,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;元策略网络和元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于动态噪声网络的深度强化学习探索方法,该方法包括:初始化智能体深度强化学习模型的参数和仿真环境,智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;元策略网络和元价值网络的最后一层均为噪声线性层;智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;根据数据收集列表更新智能体深度强化学习模型的参数;在数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于动态噪声网络的深度强化学习探索方法,其特征在于,包括:
初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;
所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;
根据所述数据收集列表更新所述智能体深度强化学习模型的参数;
在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
2.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后,还包括:
在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时,清空数据收集列表,保存所述智能体深度强化学习模型的参数,并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。
3.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表,包括:
所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数;
所述智能体的策略网络以当前环境的状态数据为输入,并根据所述智能体的策略网络的最后一层的参数,输出动作;
所述元价值网络以当前环境的状态数据为输入,输出所述智能体的价值网络的最后一层的参数;
所述智能体的价值网络以当前环境的状态数据为输入,并根据所述智能体的价值网络的最后一层的参数,输出价值;
所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符,以获取交互训练的五元组;
在所述仿真环境的状态数据满足第二预设数据阈值时,将所述交互训练的五元组存入数据收集列表。
4.根据权利要求3所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入,输出下一时刻的状态、智能体获得的奖励和终止标识符之后,还包括:
在所述仿真环境的状态数据不满足第二预设数据阈值时,执行所述元策略网络以当前环境的状态数据为输入,输出所述智能体的策略网络的最后一层的参数的步骤。
5.根据权利要求3所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数,包括:
根据所述交互训练的五元组,基于actor-critic算法对所述智能体的策略网络和所述智能体的价值网络进行更新;
根据所述交互训练的五元组,采用策略梯度对所述元策略网络进行更新;
根据所述交互训练的五元组,采用价值网络损失函数对所述元价值网络进行更新;
所述策略梯度为:
所述价值网络损失函数为:
其中,,/>为对应神经网络参数,/>为策略梯度,/>为状态/>的估计值,/>为状态/>的估计值,/>为状态/>选择动作/>的概率,/>为训练数据的大小;/>为状态/>的智能体获得的奖励。
6.根据权利要求1至5任一项所述的基于动态噪声网络的深度强化学习探索方法,其特征在于,所述噪声线性层为:
其中,、/>、/>和/>是可学习的参数,/>和/>是噪声随机变量。
7.一种基于动态噪声网络的深度强化学习探索系统,其特征在于,包括:
初始化模块,用于初始化智能体深度强化学习模型的参数和仿真环境,所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络;所述元策略网络和所述元价值网络的最后一层均为噪声线性层;
交互训练模块,用于所述智能体深度强化学习模型与仿真环境交互训练,并将交互训练的数据存入数据收集列表;
数据更新模块,用于根据所述数据收集列表更新所述智能体深度强化学习模型的参数;
迭代模块,用于在所述数据收集列表收集的数据量满足第一预设数据阈值时,深度强化学习探索迭代完成。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于动态噪声网络的深度强化学习探索方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于动态噪声网络的深度强化学习探索方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于动态噪声网络的深度强化学习探索方法。
CN202311103323.9A 2023-08-30 2023-08-30 基于动态噪声网络的深度强化学习探索方法及组件 Pending CN116822618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311103323.9A CN116822618A (zh) 2023-08-30 2023-08-30 基于动态噪声网络的深度强化学习探索方法及组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311103323.9A CN116822618A (zh) 2023-08-30 2023-08-30 基于动态噪声网络的深度强化学习探索方法及组件

Publications (1)

Publication Number Publication Date
CN116822618A true CN116822618A (zh) 2023-09-29

Family

ID=88127807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311103323.9A Pending CN116822618A (zh) 2023-08-30 2023-08-30 基于动态噪声网络的深度强化学习探索方法及组件

Country Status (1)

Country Link
CN (1) CN116822618A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455795A (zh) * 2023-10-27 2024-01-26 南京航空航天大学 一种基于强化学习的多模态图像去噪方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN113242469A (zh) * 2021-04-21 2021-08-10 南京大学 一种自适应视频传输配置方法和系统
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113485103A (zh) * 2021-06-29 2021-10-08 四川大学 一种基于深度强化学习的航空器冲突解脱方法
CN113783782A (zh) * 2021-09-09 2021-12-10 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN113901718A (zh) * 2021-10-11 2022-01-07 长安大学 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
US20220415189A1 (en) * 2019-11-25 2022-12-29 Thales Decision assistance device and method for managing aerial conflicts
CN116205273A (zh) * 2021-11-30 2023-06-02 南京理工大学 优化经验存储与经验再利用的多智能体强化学习方法
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
US20220415189A1 (en) * 2019-11-25 2022-12-29 Thales Decision assistance device and method for managing aerial conflicts
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN113242469A (zh) * 2021-04-21 2021-08-10 南京大学 一种自适应视频传输配置方法和系统
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113485103A (zh) * 2021-06-29 2021-10-08 四川大学 一种基于深度强化学习的航空器冲突解脱方法
CN113783782A (zh) * 2021-09-09 2021-12-10 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN113901718A (zh) * 2021-10-11 2022-01-07 长安大学 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
CN116205273A (zh) * 2021-11-30 2023-06-02 南京理工大学 优化经验存储与经验再利用的多智能体强化学习方法
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭业才等: "基于深度强化对抗学习的图像增强方法", 扬州大学学报(自然科学版) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455795A (zh) * 2023-10-27 2024-01-26 南京航空航天大学 一种基于强化学习的多模态图像去噪方法
CN117455795B (zh) * 2023-10-27 2024-06-11 南京航空航天大学 一种基于强化学习的多模态图像去噪方法

Similar Documents

Publication Publication Date Title
KR102386806B1 (ko) 신경 아키텍처 검색
CN109299237B (zh) 基于行动者评论家强化学习算法的循环网络人机对话方法
CN109460463A (zh) 基于数据处理的模型训练方法、装置、终端及存储介质
CN108962238A (zh) 基于结构化神经网络的对话方法、系统、设备及存储介质
CN116822618A (zh) 基于动态噪声网络的深度强化学习探索方法及组件
CN112580728B (zh) 一种基于强化学习的动态链路预测模型鲁棒性增强方法
CN115659281A (zh) 一种自适应加速算子融合的方法及装置
CN112491818A (zh) 基于多智能体深度强化学习的电网输电线路防御方法
WO2016165058A1 (en) Social prediction
CN108009635A (zh) 一种支持增量更新的深度卷积计算模型
CN112613608A (zh) 一种强化学习方法及相关装置
Chen et al. A reinforcement learning agent for obstacle-avoiding rectilinear steiner tree construction
CN111310384B (zh) 一种风场协同控制方法、终端及计算机可读存储介质
CN106096653B (zh) 基于跨平台用户社交多媒体行为的人口属性推断方法
KR102209917B1 (ko) 심층 강화 학습을 위한 데이터 처리 장치 및 방법
CN109977998B (zh) 信息处理方法及装置、存储介质和电子装置
CN115984025A (zh) 基于深度学习图网络模型的影响力传播估计方法及系统
Lang et al. Approximate inference for planning in stochastic relational worlds
CN115131605A (zh) 一种基于自适应子图的结构感知图对比学习方法
Olesen et al. Evolutionary planning in latent space
Zuin et al. Attempting to discover infinite combos in fighting games using hidden markov models
CN109409226A (zh) 一种基于级联优化cnn的手指静脉图质量评估方法及其装置
CN112843726B (zh) 智能体处理方法及装置
CN117193008B (zh) 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质
Uc-Cetina A novel reinforcement learning architecture for continuous state and action spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination