CN112264999A

CN112264999A - 用于智能体连续空间行动规划的方法、装置及存储介质

Info

Publication number: CN112264999A
Application number: CN202011174304.1A
Authority: CN
Inventors: 李伟; 刘天星; 甘中学; 田小禾
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-26
Anticipated expiration: 2040-10-28
Also published as: CN112264999B

Abstract

本发明涉及一种用于智能体连续空间行动规划的方法、装置及存储介质，方法包括步骤：S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态S_t，将智能体连续空间行动过程中的驱动控制量组成向量构成行动a_t；S2、构建并训练神经网络模型，每隔一段时间根据与环境交互的数据训练及更新神经网络模型；S3、基于神经网络模型进行KR‑PV‑UCT模拟，包括选择过程、扩展过程、评估过程和反向传播过程；S4、选择当前根节点下最优的行动与环境进行交互，智能体达到下一状态，重复S3～S4。与现有技术相比，本发明将KR‑UCT与神经网络融合运用到高维连续行动空间，在保证效果的前提下减少控制的延迟，实现智能体连续空间行动的高效规划。

Description

用于智能体连续空间行动规划的方法、装置及存储介质

技术领域

本发明涉及一种智能体行动规划方法，尤其是涉及一种用于智能体连续空间行动规划的方法、装置及存储介质。

背景技术

现实世界是一个四维的连续空间，其中大多数场景涉及到高维连续行动规划。例如，人体由上百条肌肉所驱动，为了完成一项基本的任务，大脑需要寻找出最佳的驱动这些肌肉的方式；每个机构由不同的人所构成，机构的领导人需要需找出最佳的驱动这些人的方式来完成某个目标。高维连续行动空间中的行动规划任务在生活中如此常见，因此解决高维连续行动空间的行动规划任务具有十分重要的现实意义。高维连续行动空间中的行动规划任务涉及到智能体根据已有环境模型进行模拟推演，最终从高维的行动空间中选出一个最佳的行动与环境进行交互这一过程。

蒙塔卡洛树搜索作为一种高效的规划方法，在棋盘类等低维离散的决策或控制场景中取得了一定的效果。蒙特卡洛树的每个节点代表不同的状态，每条边代表不同的行动，节点到节点的连接表示在一个状态下执行对应边所代表的行动后转移到下一个状态。根节点表示当前状态，根节点的所有后辈节点表示未来状态。每次模拟(推演)包含四个过程：

(1)选择过程：从根节点R开始，根据子节点选择策略递归地选择子节点，直到到达亟需扩展的节点L。判断一个节点是否为亟需扩展的节点的方法为：首先，这个节点不是终端节点(即任务完成时的状态)；其次，这个节点在之前的模拟中未曾被访问过。子节点的选择策略为：

其中A为当前节点的子节点结合，C为平衡探索和开发的参数，v_i为对行动i价值的估计，n_i为子节点i的访问次数。

(2)扩展过程：根据现有的可选动作集合，为节点L添加子节点，并从子节点中随机选择一个子节点VL。

(3)模拟过程：从节点VL开始根据一个默认的策略在环境中进行随机走棋，直到到达终端节点T，并得到终结点的状态价值V_T。

(4)反向传播过程：根据公式(1)将模拟过程中得到的信息V_T更新从节点VL到节点R上路径上的节点信息。

在经过充分次数的模拟之后，蒙特卡洛搜索根据模拟产生的数据从根节点的行动集中选择当前情况下最佳的一个行动与外部环境进行交互。

然而，由于蒙特卡洛树本身固有的离散属性，蒙特卡洛树搜索只能局限于低维的离散行动空间。最简单的将蒙特卡罗树搜索扩展到连续行动空间的方法是直接将连续行动空间进行离散化，但是随着维数的增加蒙特卡洛树搜索需要考虑的行动也成指数的增加，为了从行动空间中选出最佳的行动，蒙特卡洛树搜索的模拟时间也成指数增长。为了减少蒙特卡罗树搜索在连续行动空间中行动集过大的问题，Chaslot等人提出了逐步加宽的策略。逐步加宽策略在每个节点的扩展过程中先随机初始化一个行动集合，在随后的模拟中一旦当前节点的信息足够区分出行动集中的不同动作的优劣时，蒙特卡洛树搜索便向行动集合中添加新的行动，从而缩减了蒙特卡洛树搜索所需要考虑的行动数目，进而降低了模拟所需的时间。Couetoux等人则通过行动之间的相似性将模拟中获得的信息泛化到不同的行动上，从而提高了信息的使用效率，进而降低了模拟所需的时间。Yee等人结合逐步加宽和快速价值估计的策略一方面从行动空间中选择有代表性的行动进行蒙特卡洛树搜索，另一方面通过核密度估计将模拟中获得的局部信息泛化到树结构中去，从而降低了蒙特卡洛树在连续行动空间中所需的时间。

同蒙特卡洛树搜索一样，KR-UCT在每次模拟的过程中也包含了选择、扩展、模拟和反向传播这四个过程。具体细节如下：

(1)选择过程：每次模拟从根节点R开始，根据子节点选择策略递归地选择子节点，直到到达某一个满足条件的节点L。在这里，满足条件的节点要么是一个亟待扩展的节点，要么这个节点已经被充分访问。子节点的选择策略为：

W(a)＝∑_b∈AK(a，b)n_b (4)

其中A是节点的行动集合，E(v|a)是在当前节点所对应得状态下行动a的价值的期望，W(a)是通过行动a的兄弟行动的访问次数对a的访问次数的估计，K(a，b)是行动a与行动b之间的核函数，可以看作是行动a与行动b之间的相似性，n_b是行动b的真实访问次数，

是行动b的真实价值。

(2)扩展过程：当节点L是一个亟待扩展的节点，KR-UCT随机从行动空间中初始化一个行动集，随后从行动集中随机选择一个行动进行模拟。当节点L是已经被充分访问过的节点，KR-UCT向节点的行动集中添加新的行动。如果一个行动与行动集中最好的行动相似，同时又不能被行动集很好的代表，那么这个行动作为新行动被添加到行动集中。新行动的筛选公式为：

newAction＝argmax_{K(action，a)＞τ}W(a) (5)

(3)模拟过程：当扩展过程完成后，KR-UCT通过一个默认的策略随机走棋直到终端节点T。

(4)反向传播过程：根据终端节点的信息和方程(2)，更新从节点L到节点R路径及兄弟节点的信息。

在经过充分的模拟之后，KR-UCT从根节点中选择最好的行动与环境进行交互，选择行动的方式如下：

KR-UCT虽然提高了蒙特卡洛树的模拟效率，但仍然是无法利用与外部环境的交互信息，即KR-UCT在第t步不能使用前t-1步与环境交互的信息。KR-UCT是无记忆性的，即KR-UCT在第t+1步进行蒙塔卡罗树搜索时不能使用前t步与环境的交互信息，因而在每一步为了从高维连续行动空间中选出最佳的行动，KR-UCT不得不耗费大量的时间对未来进行推演，引发了控制上的延迟问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于智能体连续空间行动规划的方法、装置及存储介质。

本发明的目的可以通过以下技术方案来实现：

一种智能体连续空间行动规划方法，该方法包括如下步骤：

S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态S_t，将智能体连续空间行动过程中的驱动控制量组成向量构成行动a_t；

S2、构建并训练神经网络模型，包括策略网络模块、价值网络模块，所述的策略网络模块用于获取某一状态下的行动概率分布，所述的价值网络模块用于计算某一状态下的价值，每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络；

S3、KR-PV-UCT模拟，依次包括如下四个过程：

选择过程：从根节点R开始，根据子节点选择策略选择子节点，直到到达某一个满足条件的节点L，所述的根节点表示的是智能体当前的状态，所述的子节点表示在智能体大脑模拟中父节点执行完一次行动后转移到的状态，所述的节点L为亟待扩展的节点或已经被充分访问的节点；

扩展过程：当节点L为亟待扩展的节点，利用策略网络模块从连续行动空间中初始化一个行动集，随后从行动集中随机选择一个行动进行模拟，当节点L为已经被充分访问的节点，则向原有行动集合中添加新的行动；

评估过程：当扩展过程完成后，使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(s_l)，S_l为评估的叶子节点对应的智能体的状态；

反向传播过程：根据叶子节点的价值v(s_l)，利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值；

S4、选择当前根节点R下最优的行动与环境进行交互，智能体达到下一状态，重复S3～S4。

优选地，所述的策略网络模块包括依次连接的输入层、两个隐藏层和输出层，输入层、两个隐藏层的参数与价值网络模块共享，策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得，即最佳的行动的概率为1，其他行动的概率为0。

优选地，根据下式损失函数对策略网络模块进行训练：

其中，ψ_i为第i次迭代策略网络模块的参数，

为第i次迭代策略网络模块的损失函数，M为第i次训练时的训练样本的大小，p(a_m)为策略模块的标签，

为策略网络模块的输出，

为KR-PV-UCT模拟从根节点中选出的最佳的行动。

优选地，所述的价值网络模块包括依次连接的输入层、两个隐藏层和输出层，价值网络模块的标签通过智能体与环境交互时产生的信息得到，随后利用有监督学习的方式进行训练完成价值网络模块的进化。

优选地，所述的价值网络模块的标签通过下式得到：

其中，s_t为第t时间步时智能体所处的状态，

是状态s_t的价值标签，R_i为智能体在第i步时的奖励，γ为衰减因子，T为一个周期内总时间步。

优选地，根据下式损失函数对价值网络模块进行训练：

其中，M为第i次训练时的训练样本的大小，

为第i次迭代价值网络模块的参数，

为第i次迭代价值网络模块的损失函数，

是状态s的价值标签，

为第i次迭代时价值网络模块对状态s的价值评估。

优选地，步骤S3的选择过程中子节点选择策略为：

其中，action表示选择的子节点，A是节点的行动集合，a、b为A中的任意两个行动，E(v|a)是行动a价值的期望，W(a)为对行动a访问次数的估计，W(b)为对行动b访问次数的估计，K(a，b)是行动a与行动b之间的核函数，K(a，b)表示行动a与行动b之间的相似性，n_b是行动b的真实访问次数，

是行动b的真实价值。

优选地，步骤S4选择最优行动的方式为：

其中，actionfinal为选择的最优行动，A是根节点的行动集合，C为超参数。

一种用于智能体连续空间行动规划的装置，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于当执行所述计算机程序时，实现上述用于智能体连续空间行动规划的方法的步骤。

一种用于智能体连续空间行动规划的存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述用于智能体连续空间行动规划的方法的步骤。

与现有技术相比，本发明具有如下优点：

本发明构建了神经网络模型，并将神经网络模型与KR-UCT结合形成KR-PV-UCT搜索，策略网络模块的使用为KR-UCT排除的大量的行动，从而可以加快KR-UCT模拟的效率，可以使KR-UCT更好的应用于高维连续行动空间；价值网络模块的使用剪枝了KR-UCT中的随机走棋过程，并且通过神经网络将信息泛化到不同的状态，使用价值网络模块比随机走棋过程对状态价值的估计更准确；使KR-UCT进行少量的模拟便可从行动集中获得一个优化的行动，本发明将KR-UCT与神经网络集合，并扩展到了高维连续行动空间，从而使KR-UCT在可接受的时间内筛选出一个较好的行动，进而在保证效果的前提下减少控制的延迟，实现智能体连续空间行动的高效规划。

附图说明

图1为本发明一种用于智能体连续空间行动规划的方法的流程框图；

图2为本发明实施例中神经网络模型的结构示意图；

图3为本发明KR-PV-UCT的算法流程框图；

图4为本发明KRPV的算法流程框图；

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例1

结合图1、图4所示，本实施例提供一种智能体连续空间行动规划方法，该方法包括如下步骤：

S2、构建并训练神经网络模型，包括策略网络模块、价值网络模块，策略网络模块用于获取某一状态下的行动概率分布，价值网络模块用于计算某一状态下的价值，每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络；

S3、KR-PV-UCT模拟，依次包括如下四个过程(具体如图3所示)：

选择过程：从根节点R开始，根据子节点选择策略选择子节点，直到到达某一个满足条件的节点L，根节点表示的是智能体当前的状态，子节点表示父节点执行完一次行动后转移到的状态，节点L为亟待扩展的节点或已经被充分访问的节点；

扩展过程：当节点L为亟待扩展的节点，利用策略网络模块从连续行动空间中初始化一个行动集，随后从行动集中随机选择一个行动进行模拟，当节点L为已经被充分访问的节点，则向原有行动集合中添加新的行动，新行动的选择标准为：如果一个行动与原有行动集中最好的行动相似，同时又不能被原有行动集很好的代表时，那么这个行动作为新行动被添加到行动集中；

策略网络模块包括依次连接的输入层、两个隐藏层和输出层，输入层、两个隐藏层的参数与价值网络模块共享，策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得，即最佳的行动的概率为1，其他行动的概率为0。

根据下式损失函数对策略网络模块进行训练：

其中，ψ_i为第i次迭代策略网络模块的参数，

为策略网络模块的输出，

为KR-PV-UCT模拟从根节点中选出的最佳的行动。

价值网络模块包括依次连接的输入层、两个隐藏层和输出层，价值网络模块的标签通过智能体与环境交互时产生的信息得到，随后利用有监督学习的方式进行训练完成价值网络模块的进化。

价值网络模块的标签通过下式得到：

其中，s_t为第t时间步时智能体所处的状态，

根据下式损失函数对价值网络模块进行训练：

其中，M为第i次训练时的训练样本的大小，

为第i次迭代价值网络模块的参数，

为第i次迭代价值网络模块的损失函数，

是状态s的价值标签，

为第i次迭代时价值网络模块对状态s的价值评估。

步骤S3的选择过程中子节点选择策略为：

是行动b的真实价值。

步骤S4选择最优行动的方式为：

其中，actionfinal为选择的最优行动，A是根节点的行动集合，C为超参数，C用于平衡探索(Exploration)和利用(Exploitation)。

KR-UCT的主要思想是将局部信息泛化到不同行动上，进而增加了模拟的信息利用效率，在相同次数的模拟下提供了更多可供区分不同行动的信息，降低了所需的算力。本发明借鉴深度神经网络优秀的泛化能力，使用神经网络学习及泛化KR-UCT与环境的交互信息，从而使KR-UCT在可接受的时间内筛选出一个较好的行动，进而在保证效果得前提下减少控制的延迟。本发明总共包含两大部分，一是神经网络部分，另外一部分是神经网络与KR-UCT的结合部分。神经网络部分包含策略模块、价值模块两个部分。其中策略模块用来在模拟的探索过程中初始化行动集；价值模块用来在模拟的模拟过程中剪枝随机走棋操作。而价值模块的训练标签来自于智能体与环境的交互，策略模块的标签来自于蒙特卡洛树搜索的根节点信息。在每次与环境交互的过程中，KR-UCT与神经网络结合找出当前状态下最优的行动，在KR-UCT与神经网络寻找过程中，策略模块为每个节点筛选出合适的行动进行推演，在推演到一定深度时，价值模块适时截断推演过程以减少时间的浪费。在神经网络的训练阶段，我们利用模拟后蒙特卡洛树的根节点信息制作策略模块的标签，并使用有监督学习的方式完成这两个模块的进化。在每个时间步，我们收集与环境的交互信息，随后根据Bellman方程制作价值模块的标签，随后使用有监督学习的方式完成价值模块的进化。

本实施例以HalfCheetah任务为例阐述具体的技术方案，但本发明不局限于HalfCheetah场景，适用于任何的高维连续行动空间场景。本发明的主要目的是在保证在HalfCheetah场景中性能的同时，较少与环境交互的次数。本发明主要由神经网络和神经网络与KR-UCT结合部分两大部分构成，详细可分为价值网络模块、策略网络模块、KR-PV-UCT模块和KRPV模块这四个模块。图2为整个神经网络的结构，其中V(s_t)是状态价值网络模块、P(s_t)是策略网络模块。

HalfCheetah：

HalfCheetah是一个平面两足机器人，有9个刚性连杆，包括两条腿和一个躯干，以及6个驱动关节。在HalfCheetah中，在第t步的观测量s_t是一个20个维度的矢量，包括每个关节的角度、速度和双足机器人的质心坐标。在第t时刻控制HalfCheetah的控制向量a_t是一个6维的矢量，每个维度代表了双足机器人每个驱动关节控制量。双足机器人的任务是在尽可能的向前运动，并且保证所需要的能量损耗保持最小，即最大化

其中，r(s，a)＝v_x-0.05·||a||²，v_x为双足机器人向前运动的速度。

策略网络模块：

在KR-UCT的扩展过程中，KR-UCT使用了一个不可学习的随机分布初始化节点行动集，即随机地对行动空间进行采样，随后进行蒙特卡洛树搜索。使用不可学习的随机分布不能利用与环境交互所获得的信息，也不能从行动空间中筛选出有代表性的行动。针对这个问题，本发明使用一个可学习的随机分布学习在不同状态下不同行动的概率分布，随后根据这个分布从行动空间中选择筛选出有代表性的行动构成节点的行动集进行蒙特卡罗树搜索。

如图2所示，策略网络模块由输入层、两个隐藏层和输出层构成，其中输入层和输出层神经单元的个数由具体的任务所决定。输入层、两个隐藏层的参数与价值网络模块共享。策略网络的标签由蒙特卡洛树模拟时从根节点中选出的最好的行动而获得，即最佳的行动的概率为1，其他行动的概率为0。随后对策略网络进行训练进而完成策略模块的进化，图2中，P_θ(S_t)是策略网络模块的输出。

价值网络模块：

如图2所示，价值网络模块由输入层、两个隐藏层和输出层构成，其中输入层的神经单元的个数由具体的控制任务所确定。两个隐藏层的神经元的个数为128个，输出层只有一个神经单元构成，图2中，

是价值网络模块的输出。

将价值网络模块、策略网络模块以及KR-PV-UCT融合到一块便得到了最终KRPV算法。结合图4所示，KRPV的算法流程如下：

(1)初始化神经网络的参数θ，

ψ。令t为计数器，设置t＝0。s_t是在t时刻的环境观测量，包括每个关节的角度、速度和双足机器人的质心坐标。a_t是在第t时刻控制HalfCheetah的控制向量，为6个电机的控制参数，

为在t时刻KR-PV-UCT模块通过推演所找到的最优的行动，

在t时刻状态s_t下执行完行动

后环境所反馈的奖励，ras_t为t时刻KR-PV-UCT模块中树结构的根节点所有的边所对应的行动结合用来作为，rav_t为t时刻ras_t中每个行动所对应的子节点的价值集合。

(2)初始化数据池B

(3)在每次迭代中：

1、在每一次与环境交互中，直到任务结束：

(11)从KR-PV-UCT算法结合使用神经网络和KR-UCT来获取当前状态s_t下的最优行动

搜索树根节点的行动集合ras_t以及每个行动的价值rav_t。

(12)执行动作

获得奖励r_t和下一步的状态s_t+1。

(13)将

保存到数据池B中。

(14)t＝t+1

2、在每次训练中从数据池中采样一个数据批，随后根据这些数据和下述公式更新神经网络的参数θ，

ψ。将更新后的神经网络替换掉KR-PV-UCT中的神经网络。

本发明构建了神经网络模型，并将神经网络模型与KR-UCT结合形成KR-PV-UCT搜索，策略网络模块的使用为KR-UCT排除的大量的行动，从而可以加快KR-UCT模拟的效率，可以时KR-UCT更好的应用于高维连续行动空间；价值网络模块的使用剪枝了KR-UCT中的随机走棋过程，并且通过神经网络将信息泛化到不同的状态，使用价值网络模块比随机走棋过程对状态价值的估计更准确；使KR-UCT进行少量的模拟便可从行动集中获得一个优化的行动，本发明将KR-UCT与神经网络集合，并扩展到了高维连续行动空间，从而使KR-UCT在可接受的时间内筛选出一个较好的行动，进而在保证效果的前提下减少控制的延迟，实现智能体连续空间行动的高效规划。

需要说明的是：本发明的方法可以扩展到其他智能体的运动规划问题上，不限于本实施例所列举的HalfCheetah机器人，神经网络模型的具体结构也不限于本实施例图2中给出的网络结构。

实施例2

本实施例提供一种用于智能体连续空间行动规划的装置，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于当执行所述计算机程序时，实现如实施例1中用于智能体连续空间行动规划的方法的步骤，此处，用于智能体连续空间行动规划的方法与实施例1相同，这里不再赘述。

实施例3

本实施例提供一种用于智能体连续空间行动规划的存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如实施例1中用于智能体连续空间行动规划的方法的步骤，此处，用于智能体连续空间行动规划的方法与实施例1相同，这里也不再赘述。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种用于智能体连续空间行动规划的方法，该方法包括如下步骤：

S3、KR-PV-UCT模拟，依次包括如下四个过程：

2.根据权利要求1所述的一种用于智能体连续空间行动规划的方法，其特征在于，所述的策略网络模块包括依次连接的输入层、两个隐藏层和输出层，输入层、两个隐藏层的参数与价值网络模块共享，策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得，即最佳的行动的概率为1，其他行动的概率为0。

3.根据权利要求2所述的一种用于智能体连续空间行动规划的方法，其特征在于，根据下式损失函数对策略网络模块进行训练：

其中，ψ_i为第i次迭代策略网络模块的参数，

为策略网络模块的输出，

为KR-PV-UCT模拟从根节点中选出的最佳的行动。

4.根据权利要求1所述的一种用于智能体连续空间行动规划的方法，其特征在于，所述的价值网络模块包括依次连接的输入层、两个隐藏层和输出层，价值网络模块的标签通过智能体与环境交互时产生的信息得到，随后利用有监督学习的方式进行训练完成价值网络模块的进化。

5.根据权利要求4所述的一种用于智能体连续空间行动规划的方法，其特征在于，所述的价值网络模块的标签通过下式得到：

其中，s_t为第t时间步时智能体所处的状态，

6.根据权利要求4所述的一种用于智能体连续空间行动规划的方法，其特征在于，根据下式损失函数对价值网络模块进行训练：

其中，M为第i次训练时的训练样本的大小，

为第i次迭代价值网络模块的参数，

为第i次迭代价值网络模块的损失函数，

是状态s的价值标签，

为第i次迭代时价值网络模块对状态s的价值评估。

7.根据权利要求1所述的一种用于智能体连续空间行动规划的方法，其特征在于，步骤S3的选择过程中子节点选择策略为：

是行动b的真实价值。

8.根据权利要求7所述的一种用于智能体连续空间行动规划的方法，其特征在于，步骤S4选择最优行动的方式为：

9.一种用于智能体连续空间行动规划的装置，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于当执行所述计算机程序时，实现如权利要求1～8任一项所述的用于智能体连续空间行动规划的方法的步骤。

10.一种用于智能体连续空间行动规划的存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1～8任一项所述的用于智能体连续空间行动规划的方法的步骤。