CN116822618A

CN116822618A - 基于动态噪声网络的深度强化学习探索方法及组件

Info

Publication number: CN116822618A
Application number: CN202311103323.9A
Authority: CN
Inventors: 路圣汉
Original assignee: Beijing Hanbo Technology Co ltd
Current assignee: Beijing Hanbo Technology Co ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-09-29

Abstract

本发明涉及深度强化学习探索技术领域，提供一种基于动态噪声网络的深度强化学习探索方法及组件，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，元策略网络和元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。本发明在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。

Description

基于动态噪声网络的深度强化学习探索方法及组件

技术领域

本发明涉及深度强化学习探索技术领域，尤其涉及一种基于动态噪声网络的深度强化学习探索方法及组件。

背景技术

随着深度强化学习技术的迅猛发展，其被广泛应用于人工智能、游戏竞技和自动驾驶等领域。探索问题是当代深度强化学习的一个关键挑战。其主要目的是防止智能体的策略过早地收敛到一个局部最优。传统探索方法通过引入额外的虚拟奖励信号，来引导智能体的探索行为。然而，传统方法的问题在于需要细致的选择权重，以平衡虚拟奖励信号和真实的环境奖励信号，不恰当的权重会使得虚拟奖励信号改变最优策略，导致智能体的探索行为受限。

发明内容

本发明提供一种基于动态噪声网络的深度强化学习探索方法及组件，用以解决现有技术中虚拟奖励信号的权重不恰当，导致智能体的探索行为受限缺陷，本发明在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。

本发明提供一种基于动态噪声网络的深度强化学习探索方法，包括：初始化智能体深度强化学习模型的参数和仿真环境，所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据所述数据收集列表更新所述智能体深度强化学习模型的参数；在所述数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法，所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后，还包括：在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时，清空数据收集列表，保存所述智能体深度强化学习模型的参数，并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。

根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法，所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表，包括：所述元策略网络以当前环境的状态数据为输入，输出所述智能体的策略网络的最后一层的参数；所述智能体的策略网络以当前环境的状态数据为输入，并根据所述智能体的策略网络的最后一层的参数，输出动作；所述元价值网络以当前环境的状态数据为输入，输出所述智能体的价值网络的最后一层的参数；所述智能体的价值网络以当前环境的状态数据为输入，并根据所述智能体的价值网络的最后一层的参数，输出价值；所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符，以获取交互训练的五元组；在所述仿真环境的状态数据满足第二预设数据阈值时，将所述交互训练的五元组存入数据收集列表。

根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法，所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符之后，还包括：在所述仿真环境的状态数据不满足第二预设数据阈值时，执行所述元策略网络以当前环境的状态数据为输入，输出所述智能体的策略网络的最后一层的参数的步骤。

根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法，所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数，包括：根据所述交互训练的五元组，基于actor-critic算法对所述智能体的策略网络和所述智能体的价值网络进行更新；根据所述交互训练的五元组，采用策略梯度对所述元策略网络进行更新；根据所述交互训练的五元组，采用价值网络损失函数对所述元价值网络进行更新；所述策略梯度为：

；

所述价值网络损失函数为：

；

其中，，/>为对应神经网络参数，/>为策略梯度，/>为状态/>的估计值，为状态/>的估计值，/>为状态/>选择动作/>的概率，/>为训练数据的大小；/>为状态/>的智能体获得的奖励。

根据本发明提供的一种基于动态噪声网络的深度强化学习探索方法，所述噪声线性层为：

；

其中，、/>、/>和/>是可学习的参数，/>和/>是噪声随机变量。

本发明还提供一种基于动态噪声网络的深度强化学习探索系统，包括：初始化模块，用于初始化智能体深度强化学习模型的参数和仿真环境，所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；交互训练模块，用于所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；数据更新模块，用于根据所述数据收集列表更新所述智能体深度强化学习模型的参数；迭代模块，用于在所述数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于动态噪声网络的深度强化学习探索方法。

本发明提供的一种基于动态噪声网络的深度强化学习探索方法及组件，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。本发明在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于动态噪声网络的深度强化学习探索方法的流程示意图；

图2是本发明提供的一种基于动态噪声网络的深度强化学习探索方法的原理示意图；

图3是本发明提供的一种基于动态噪声网络的深度强化学习探索方法的性能测试图；

图4是本发明提供的一种基于动态噪声网络的深度强化学习探索系统的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

与基于虚拟奖励信号的探索方法相比，本发明所提供的基于动态噪声网络的深度强化学习探索方法，作用于元策略空间。元策略的输入是状态，输出是智能体的策略参数。一般而言，在更高的抽象层级中引入噪声会带来更好的探索效果。因为同样幅度的噪声在更高的抽象层级中会引起更剧烈的变化，从而带来更不一样的探索行为。

请参考图1，图1为本发明提供的一种基于动态噪声网络的深度强化学习探索方法的流程示意图。

请参考图2，图2为本发明提供的一种基于动态噪声网络的深度强化学习探索方法的原理示意图。

本发明提供一种基于动态噪声网络的深度强化学习探索方法，包括：

101：初始化智能体深度强化学习模型的参数和仿真环境，智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；元策略网络和元价值网络的最后一层均为噪声线性层；

具体的，初始化智能体的策略网络和智能体的价值网络的参数；初始化元策略网络和元价值网络的参数；初始化数据收集列表；初始化仿真环境。需要注意的是每个环境初始化后将返回初始状态数据，即第0步。

102：智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；

作为一种优选的实施例，智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表，包括：元策略网络以当前环境的状态数据为输入，输出智能体的策略网络的最后一层的参数；智能体的策略网络以当前环境的状态数据为输入，并根据智能体的策略网络的最后一层的参数，输出动作；元价值网络以当前环境的状态数据为输入，输出智能体的价值网络的最后一层的参数；智能体的价值网络以当前环境的状态数据为输入，并根据智能体的价值网络的最后一层的参数，输出价值；仿真环境以当前环境的状态数据、动作和价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符，以获取交互训练的五元组；在仿真环境的状态数据满足第二预设数据阈值时，将交互训练的五元组存入数据收集列表。

作为一种优选的实施例，仿真环境以当前环境的状态数据、动作和价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符之后，还包括：在仿真环境的状态数据不满足第二预设数据阈值时，执行元策略网络以当前环境的状态数据为输入，输出智能体的策略网络的最后一层的参数的步骤。

具体的，S2-1，并行使用128个仿真环境。

S2-2，对于上述并行环境中的其中一个环境，将当前环境的状态数据送入当前元策略网络，得到智能体的策略网络的最后一层的参数。

S2-3，基于当前环境的状态数据和元策略网络的输出，智能体策略网络，输出动作/>。

S2-4，对于上述并行环境中的其中一个环境，将当前环境的状态数据送入当前元价值网络，得到智能体的价值网络的最后一层的参数。

S2-5，基于当前环境的状态数据和元价值网络的输出，智能体价值网络，输出价值。

S2-6，仿真环境，以当前环境的状态数据、动作/>和价值为输入，输出下一时刻的状态/>，智能体获得的奖励/>和终止标识符/>；

S2-7，上述S2-2到S2-6过程重复128次，可以得到128个具有128轨迹长度的训练数据，值得注意的是当环境仿真结束，则重置环境继续进行仿真。

S2-8，将上述数据存入数据收集列表。

103：根据数据收集列表更新智能体深度强化学习模型的参数；

作为一种优选的实施例，根据数据收集列表更新智能体深度强化学习模型的参数，包括：根据交互训练的五元组，基于actor-critic算法对智能体的策略网络和智能体的价值网络进行更新；根据交互训练的五元组，采用策略梯度对元策略网络进行更新；根据交互训练的五元组，采用价值网络损失函数对元价值网络进行更新；策略梯度为：

；

价值网络损失函数为：

；

作为一种优选的实施例，噪声线性层为：

；

其中，、/>、/>和/>是可学习的参数，/>和/>是噪声随机变量。

S3-1，从数据收集列表中拉取数据。

S3-2，使用数据收集列表中的所有数据，更新智能体的策略网络和智能体的价值网络的参数；更新元策略网络和元价值网络的参数。

104：在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

作为一种优选的实施例，根据数据收集列表更新智能体深度强化学习模型的参数之后，还包括：在数据收集列表收集的数据量不满足第一预设数据阈值时，清空数据收集列表，保存智能体深度强化学习模型的参数，并执行智能体深度强化学习模型与仿真环境交互训练的步骤。

S4-1，清空数据收集列表中的数据。

S4-2，重复S2-1到S3-1的过程。每次完成一个版本参数的更新，保存智能体的策略网络和智能体的价值网络的参数；保存元策略网络和元价值网络的参数。

持续训练智能体，直到迭代完成：重复S2-1到S4-2的过程，直到收集的总数据量超过。

请参考图3，图3为本发明提供的一种基于动态噪声网络的深度强化学习探索方法的性能测试图。

与现有技术相比，本发明在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。

请参考图4，图4为本发明提供的一种基于动态噪声网络的深度强化学习探索系统的结构示意图。

本发明还提供一种基于动态噪声网络的深度强化学习探索系统，包括：初始化模块，用于初始化智能体深度强化学习模型的参数和仿真环境，智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；元策略网络和元价值网络的最后一层均为噪声线性层；交互训练模块，用于智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；数据更新模块，用于根据数据收集列表更新智能体深度强化学习模型的参数；迭代模块，用于在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

对于本发明提供的一种基于动态噪声网络的深度强化学习探索系统的介绍请参照上述方法实施例，本发明在此不再赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器（processor）501、通信接口（Communications Interface）502、存储器（memory）503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行基于动态噪声网络的深度强化学习探索方法，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；元策略网络和元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于动态噪声网络的深度强化学习探索方法，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；元策略网络和元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于动态噪声网络的深度强化学习探索方法，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；元策略网络和元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于动态噪声网络的深度强化学习探索方法，其特征在于，包括：

初始化智能体深度强化学习模型的参数和仿真环境，所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；

所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；

根据所述数据收集列表更新所述智能体深度强化学习模型的参数；

在所述数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

2.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后，还包括：

在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时，清空数据收集列表，保存所述智能体深度强化学习模型的参数，并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。

3.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表，包括：

所述元策略网络以当前环境的状态数据为输入，输出所述智能体的策略网络的最后一层的参数；

所述智能体的策略网络以当前环境的状态数据为输入，并根据所述智能体的策略网络的最后一层的参数，输出动作；

所述元价值网络以当前环境的状态数据为输入，输出所述智能体的价值网络的最后一层的参数；

所述智能体的价值网络以当前环境的状态数据为输入，并根据所述智能体的价值网络的最后一层的参数，输出价值；

所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符，以获取交互训练的五元组；

在所述仿真环境的状态数据满足第二预设数据阈值时，将所述交互训练的五元组存入数据收集列表。

4.根据权利要求3所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符之后，还包括：

在所述仿真环境的状态数据不满足第二预设数据阈值时，执行所述元策略网络以当前环境的状态数据为输入，输出所述智能体的策略网络的最后一层的参数的步骤。

5.根据权利要求3所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数，包括：

根据所述交互训练的五元组，基于actor-critic算法对所述智能体的策略网络和所述智能体的价值网络进行更新；

根据所述交互训练的五元组，采用策略梯度对所述元策略网络进行更新；

根据所述交互训练的五元组，采用价值网络损失函数对所述元价值网络进行更新；

所述策略梯度为：

；

所述价值网络损失函数为：

；

其中，，/>为对应神经网络参数，/>为策略梯度，/>为状态/>的估计值，/>为状态/>的估计值，/>为状态/>选择动作/>的概率，/>为训练数据的大小；/>为状态/>的智能体获得的奖励。

6.根据权利要求1至5任一项所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述噪声线性层为：

；

其中，、/>、/>和/>是可学习的参数，/>和/>是噪声随机变量。

7.一种基于动态噪声网络的深度强化学习探索系统，其特征在于，包括：

初始化模块，用于初始化智能体深度强化学习模型的参数和仿真环境，所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；

交互训练模块，用于所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；

数据更新模块，用于根据所述数据收集列表更新所述智能体深度强化学习模型的参数；

迭代模块，用于在所述数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于动态噪声网络的深度强化学习探索方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于动态噪声网络的深度强化学习探索方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于动态噪声网络的深度强化学习探索方法。